一种基于词语特征值的法律专有领域词发现方法及装置
技术领域
本发明属于自然语言技术处理、计算机中文文本处理技术等领域,提供了一种基于词语特征值的法律专有领域词发现方法及装置。
背景技术
随着计算机信息领域的飞速发展,人类社会已经进入了信息时代,大量的数据从生活的各个方面被收集起来,互联网上各种各样信息的规模也在成几何倍数的增大,从海量的数据中迅速分析从而提取隐藏在数据中的信息变得越来越重要。
目前广泛应用于互联网产品中的是中文分词技术,它通过拆分、匹配词典的方式将一段文本拆分成多个词,帮助计算机“理解”文本的核心内容。当前分词技术大量应用于以下几个方面:1)计算机和人工智能领域:利用中文分词成果从事自然语言理解和处理研究,如语义分析,自动摘要,知识工程,机器翻译,专家系统和智能计算机等;2)情报信息领域:在研究中文分词与自动标引、中文分词与情报检索和搜索引擎等技术的结合上,取得了许多可喜的成绩。3)汉语语言学研究领域:利用中文分词来促进汉语言文字研究。
中文和英语等西方语言存在着很大差异,西文的字和字之间有明显的空格作为分隔符,通过空格分隔这些文字输入到计算机中,计算机很容易根据这些分隔后的文字而理解一句话的含义;而中文句子中词和词紧密排在一起,无法通过空格来将词分开,这使得计算机理解起来就要困难的多。
中文分词指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的汉字序列按照一定的规范重新组合成词序列的过程。现有的中文分词算法大体可分为:基于字符串匹配的分词方法和基于统计的分词方法。基于字符串匹配的分词方法将汉字序列与一个“充分大的”词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。在这种分词方法中又根据方向和长度优先级分为正向最大匹配和逆向最大匹配,基于字符串匹配的中文分词方法具有效率高,更新维护灵活,能够附带类型信息,具有一定的歧义消解能力的优点,但是对于未登录词的识别能力差。基于统计的分词方法,是从语料中学习字成词的统计信息,从而发现一些成词规则,其对未登录词有较好的识别能力,但是效率低,更新维护麻烦,周期长。
要使得计算机能够理解各种领域的中文信息,并进行后续工作,那么在对特定领域信息的处理尤为重要。特殊领域词可以很大程度上反映该领域的特征以及这篇专业文档中的主要内容,因此正确的提取特殊领域词是使得计算机理解中文,进行后续中文信息处理工作的前提。目前除了上述所说的两大基本分词方法外,还出现了许多各式各样的分词方法:双向最大匹配法、逐词遍历法、设立切分标志法、词频统计法、扩充转移网络法、双向Markov链法、模糊聚类法、双向LSTM分词法、最少分词法、神经元网络法等,这些都是上述两大分词方法的扩展、延伸、改进。这些方法在中文信息处理的通用文本处理方面都有着不错的效果,但是在处理一些特殊领域如医学,法律等,分词处理却进行的不如人意,因为特殊领域词的特殊性,许多分词技术并不能很好的讲这些词正确切分出来,导致计算机无法正确的理解输入信息的意思,后续开展工作无法顺利进行。例如法律中的一些专业术语“朴茨茅斯条约”、“日元息差交易”、“三三制法”,现有的分词方法都不能很好地识别这些词语,因此,中文分词是中文信息处理技术的关键和前提,只有处理好中文分词,才能让计算机理解中文、进行后续的中文信息处理,并从海量的信息中提取有用信息为人类提供服务,实现计算机智能化。
经过检索,最接近的现有技术为申请号201811416994.X,申请人阿里巴巴集团控股有限公司,名称为特征词的确定方法、装置和服务器的专利,该方法包括:获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,分词库包含多个用于表征预设属性类型的预设特征词;根据更新后的分词库和预设特征词,从文本数据中提取第二特征词。在本说明书实施例中,通过先对文本数据进行新词提取得到第一特征词;再利用第一特征词对分词库进行更新;进而可以利用更新后的分词库和预设特征词从文本数据提取出新的特征词作为第二特征词,从而避免了提取特征词的过程中,由于分词错误导致的特征词提取不准确,达到能精确地从文本数据中挖掘出符合要求的新的特征词的技术效果。但是该技术的缺陷是仅仅考虑到分词单元在总文档中的出现频率,并没有考虑到专有词的分布特点,其在总文档中的出现频率总是很低的,因此单单使用分词单元在总文档中的出现频率是无法考虑到专有领域词的特点的,本发明充分考虑到专有领域词的特点,可以有效的解决该缺陷。
发明内容
本发明针对现有分词技术在处理法律领域相关文档时,无法正确切分法律专有领域词,识别未登陆词等缺点。本发明提出了一种基于词语特征值的法律专有领域词发现方法及装置能够有效的解决上述的问题。本发明的技术方案如下:
一种基于词语特征值的法律专有领域词发现方法,其包括以下步骤:
步骤1、首先读入待分词操作的法律领域文本数据集,根据中文中常见停用词等在内明显的分隔符对输入的初始文本数据集进行粗切分得到一个短字符串集;
步骤2、然后利用基于词典的正向最大匹配算法,遍历短字符串集,将和词典中匹配的词语加入到分词结果,如此将短字符串集切分成多个散串及散词,通过分析采用的法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;
步骤3、执行基于词语特征值的法律专有领域词发现算法,首先统计候选分词词串在出现文档及全文档中的频率,在计算出该词串的DF值,最后计算该词串的GF值。利用上述计算步骤的得到的结果代入GF计算的公式,分别出计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,当候选分词词串的词语特征值小于设定的阈值时,就舍弃该词串,最后完成分词。
进一步的,所述常见的停用词包括‘的’、‘比如’、‘哎’、‘吧’在内的词语及中英文的标点符号和特殊符号。
进一步的,所述步骤2利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,具体包括:
从短字符串集中左边开始,取出小于词典中最大词长的字符串,判断其是否在词典中,若在,则放入分词结果,反之,将该字符串最右边开始减去一个字符,继续判断,直到该字符串缩减成一个单字,随后接着遍历短字符串集,重复上述步骤。
进一步的,所述步骤2通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;
根据法律专有领域词的构词规则提取候选分词词串集,经统计常见的法律专有领域词构词规则通常有w+1,w+n,2+3,3+2,w+1+w,w+2+w其中w代表含有w个字符的字符串,只考虑这6中常见法律专有领域词的构词规则。
进一步的,执行基于词语特征值的法律专有领域词发现算法需要统计包括词语的词长|a|、词频差DF(a)、文档频率g(a)、逆文档频率log2(m/g(a))四个特征,其中DF(a)的计算公式为:
TF(a,di)指的是候选分词串a在文档di中的的词频,TF(a,D)指的是候选分词串a在总文档D中的词频,m是文档总数。
进一步的,所述步骤3采用基于词语特征值的法律专有领域词发现算法计算每个候选分词词串集中的每个词串的词语特征值,随后与设定的阈值比较,计算词语特征值采用的公式为
(log2m/g(a)+1)*|a|*(DF(a)-∑b∈T(a)DF(b))其他,
其中T(a)是包含a的父串集合。
进一步的,所述步骤3中,根据计算出的每个候选词串的词语特征值GFi,计算出需要设定的阈值h;
计算阈值h的公式为:
其中n是候选分词词串的总数;
将每个候选分词词串的GFi值与阈值h作对比,若GFi>h,则将该候选分词词串加入到最后的分词结果中。
一种基于词语特征值的法律专有领域词发现装置,其包括:
文本集粗切分模块:用于读入待分词操作的法律领域文本数据集,根据包括中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见停用词在内明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;
候选分词词串提取模块:用于利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;
分词模块:用于执行基于词语特征值的法律专有领域词发现算法,分别计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,当候选分词词串的词语特征值小于设定的阈值时,就舍弃该词串,最后完成分词。
进一步的,所述常见的停用词包括‘的’、‘比如’、‘哎’、‘吧’在内的词语。
进一步的,所述候选分词词串提取模块利用基于词典的正向最大匹配算法将短字符串集切分成多个散串及散词,具体包括:
从短字符串集中左边开始,取出小于词典中最大词长的字符串,判断其是否在词典中,若在,则放入分词结果,反之,将该字符串最右边开始减去一个字符,继续判断,直到该字符串缩减成一个单字,随后接着遍历短字符串集,重复上述步骤。
本发明的优点及有益效果如下:
本发明的创新点主要是分析出法律专业领域词的常用构词规则,并针对统计出的法律专业领域词按照构词规则进行区分,分别计算每个构词规则下词语总和,最后选取构词规则下总词数的top6;同时考虑到法律专有领域词的特点,总体呈现局部分布大,整体分布小,使用词语的DF值来替代法律专有领域词的词频,DF值体现出了法律专有领域词的分布特点,常用词的DF值得分偏低,而法律专有领域词的得分偏高,这样可以很好的将法律专有领域词给提取出来。目前现有的发现专有领域词通常会考虑到专有领域词的互信息,邻接熵,总文档中的词频这几类特征,但是忽略了专有领域词在总文档中的词频很小,这样对一些新词虽然有较好的识别效果,但是对专有领域词的识别能力还是较弱,本发明可以有效的提取出法律专有领域词,提高法律领域中的分词工作效率。
附图说明
图1是本发明提供优选实施例基于词语特征值的法律专有领域词发现算法的流程框图;
图2计算候选分词词串词语特征值的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本发明流程框图。包括如下步骤:
(1)数据预处理粗切分阶段
输入需要切分的数据集,载入中文常用的分隔符(中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见的停用词),在输入的数据集中进行正向匹配,与分隔符匹配成功的字符串用空格替换,这样就可以使得最初的数据集能够被分割成由空格隔开的一些列的短字符串,随后载入通用分词词典,可以选择当前覆盖率较全的百度通用分词词典,或者搜狗通用分词词典,继续对上述步骤得到的短字符串集进行正向最大匹配,当与词典中的词匹配成功,则在该词左右加上空格区分,同时将该词加入到分词结果中,当遍历完整个数据集,得到的就是一些列散串和散词的集合。
(2)构建候选分词词串集阶段
对于第一阶段得到的散串和散词集合,通过对法律专有领域词的构词规则分析,同时本发明采用的有以下几种:w+1,w+n,2+3,3+2,w+1+w,w+2+w其中w代表含有w个字符的字符串,选定集合第一个串(词),判断该串(词)长度,该串(词)是否有左右临串(词),该串(词)的左右临串(词)的长度,以上条件是否符合本发明分析并采用的法律专有领域词的构词规则,如果符合规则,则将其组合加入到候选分词词串,如果不符合规则,则从其右临串(词)继续判断,直到将集合遍历完成,最后得到候选分词词串集。
(3)计算每个候选分词词串的词语特征值阶段
如附图2所示,对于第二阶段的候选分词词串集,从一个候选分词词串s1开始,遍历整个候选分词词串集,判断里面是否含有该词串s1的父串,例如s1为‘诉讼’,候选分词词串集中有‘诉讼文书’、‘诉讼标的’两个词串,那么‘诉讼文书’、‘诉讼标的’都是s1的父串,当候选分词词串集中有s1的父串,则将父串加入到父串集T(a),随后根据公式:
GF=(log2m/g(a)+1)*|a|*(DF(a)-∑b∈T(a)DF(b))
计算出s1的词语特征值GF,如果候选分词词串集中没有包含s1的父串,那么根据公式:
GF=(log2m/g(a)+1)*|a|*DF(a)
计算出s1的词语特征值GF,其中DF(a)的计算公式为:
接着判断是否遍历完成,若没有,随后同理计算出s2的词语特征值,直到遍历完成,最后得到所有的候选分词词串集的所有词串词语特征值,将其一一与阈值h相比较,若大于阈值h,则将其加入到最终分词结果,反之舍弃。
以下举例对本发明的实施作进一步说明。本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
已知,有三篇法律专业领域文档需要进行分词操作,三篇文档总共有750个字符,为方便计算,假设每篇文档有250个字符。
首先读取这个数据集,并载入中文常用的分隔符(中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见的停用词),在输入的数据集中进行正向匹配,与分隔符匹配成功的字符串用空格替换,假如其中一篇文档的有一句话是:‘招股说明书,一般是股份有限公司发行股票时,’。那么经过分隔符第一次粗切分后的语句就是:‘招股说明书一般是股份有限公司发行股票时’。再载入百度通用分词词库,对刚进行第一次粗切分得到的短字符串集进行正向最大匹配,当与词典中的词匹配成功,则在该词左右加上空格区分,同时将该词加入到分词结果中,此时上面三句短字符串就会被分割成:‘招股说明书一般是股份有限公司发行股票时’,每个散串(词)之间都有空格隔开,此时根据空格作为分隔符将它们分割成一系列的散串和散词:‘招股’,‘说明书’,‘一般’,‘是’,‘股份’,‘有限公司’,‘发行股票’,‘时’。
再进入到构造候选分词词串集阶段,通过对法律专有领域词的构词规则分析,同时本发明采用的有以下几种:w+1,w+n,2+3,3+2,w+1+w,w+2+w其中w(w>1)代表含有w个字符的字符串,对以上那个粗切分得到的散串和散词集合,选定集合第一个串(词):‘招股’,判断该串(词)长度:|招股|为2,该串(词)是否有左右临串(词):无,该串(词)的左右临串(词)的长度:左边无,右边为3,符合规则2+3,将‘招股说明书’加入到候选分词词串集,同理接着对‘说明书’进行判断,最后得到的候选分词词串集为:‘招股说明书’、‘说明书一般’、‘一般是’、‘是股份’、‘一般是股份’、‘发行股票时’。
再然后进入到计算每个候选分词词串的词语特征值阶段,为方便对比,我们同时计算下‘招股’这个词的词语特征值,‘招股’在文档D1中出现了100次,在文档D2中出现了10次,在文档D3中出现了0次,‘招股说明书’在文档D1中出现了60次,在文档D2中出现了4次,在文档D3中出现了0次,
可以看出法律专有领域词服从局部频繁,整体稀疏的特点。‘一般是’这类常见词在文档D1中出现170次,在文档D2中出现180次,在文档D3中出现了150次,‘一般是股份’这类废词串出现次数少,在文档D1中出现20次,在文档D2中出现18次,在文档D3中出现了8次,如下所示。
|
D1 |
D2 |
D3 |
|a| |
招股 |
100 |
10 |
0 |
2 |
招股说明书 |
60 |
4 |
0 |
5 |
一般是 |
170 |
180 |
150 |
3 |
一般是股份 |
20 |
18 |
8 |
5 |
在统计完候选分词词串的出现次数后、词串长度后,接着开始计算候选分词词串的DF(a)值,根据公式
可以计算出DF(招股)为
等于0.1498,同理可以计算出其他候选分词词串的DF值,具体如下:
随后计算每个候选分词词串的逆文档频率,以便后面计算出最终的GF值,‘招股’在文档D1、D2中出现,那么按照公式log2m/g(a),计算得到‘招股’的逆文档频率为log2(3/2)=0.58,同理计算其他候选分词词串的逆文档频率,最后带入到GF计算公式,算得的每个候选分词词串的GF值如下:
最后,计算出阈值为四个GF值的平均值,h=0.1945,最终保留并加入最后的分词结果的词为‘招股说明书’,从结果我们可以看出,法律专业领域词的得分更高,常用词‘招股’,‘一般是’及废词串‘一般是股份’得分更低,本发明可以更好地识别出法律专业领域词,提高法律领域文档中分词工作的准确度。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。