CN102955842A

CN102955842A - 一种多特征融合识别中文机构名的控制方法

Info

Publication number: CN102955842A
Application number: CN2012103481095A
Authority: CN
Inventors: 凌雅娟; 杨静
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2012-09-18
Filing date: 2012-09-18
Publication date: 2013-03-06

Abstract

本发明提供了一种在自然语言处理系统中多特征融合识别中文机构名的控制方法，其特征在于，包括如下步骤：a.根据中文机构名右边界特征词库以及中文机构名左边界规则识别待识别语句的左右边界，生成候选中文机构名；b.确定所述候选中文机构名的构成模式，对所述候选中文机构名进行筛选；以及c.与中文机构名上下文语义环境特征词进行比较，验证所述候选中文机构名以确定中文机构名。

Description

一种多特征融合识别中文机构名的控制方法

技术领域

本发明涉及命名实体识别、关系挖掘、文档摘要、句法分析、机器翻译、信息抽取等技术领域，具体说是对中文文档中机构名进行识别标注的系统。

背景技术

随着计算机的广泛使用和互联网的快速发展，大量的信息以电子文档的形式呈现在人们面前。人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正需要的信息，因此，对信息文档的处理应运而生。由于中文文档不同于英文文档，词之间没有空格分隔，并且对于专有词如公司名、人名，地名等没有大小写之分，这更大程度上加大的了对中文文档处理的难度，所以对中文文档进行分词、实体识别迫切需要。

目前，对人名和地名的识别已经作了非常广泛细致的研究，提出来各种各样的处理方法，已能够较好的满足人们的使用需求。但对于中文机构名，由于对其研究较少，并且其涵盖范围大、用词广泛、长度不定、惯用简称等特点，导致对其识别的效果并不理想。现在，基于角色标注的中文机构名识别方法能较好的实现机构名识别，但是构建一个完整的角色库难度非常大，而且该种方法对复杂机构名的识别并不理想。基于统计的中文机构名识别方法，由于统计方法比较复杂，导致识别方法的实现极为困难。而本文所提出的方法并不需要构建完整的规则模式，只需构建机构名的特征尾词库和机构名的左边界特征，构建方法简单快速，并且识别效果理想。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种在自然语言处理系统中多特征融合识别中文机构名的控制方法，其特征在于，包括如下步骤：a.根据中文机构名右边界特征词库以及中文机构名左边界规则识别待语句中待识别机构名的左右边界，生成候选中文机构名；b.确定所述候选中文机构名的构成模式，对所述候选中文机构名进行筛选；以及c.与中文机构名上下文语义环境特征词进行比较，验证所述候选中文机构名以确定中文机构名。

根据本发明的一个方面，提供一种多特征融合的中文机构名识别系统，包括机构名识别和评估两个部分。所述机构名识别根据预先定义的右边界特征词库和左边界规则确定待识别机构名的左右边界，从而达到识别机构名的目的；所述机构名评估先是对得到的识别结果，经过分词获取其构成模式特征，然后与已知机构名的构成模式进行相似度匹配，再对其的上下文语义环境进行判断，确定其左右边界的准确性。

优选地，所述系统包括如下面特征：机构名右边界特征，机构名的尾词，用于确定机构名的右边界。左边界规则，中文机构名的左边界规则是指能够将机构名与机构名的前缀相区分的语法单元，本方法中将其用于确定机构名左边界。机构名构成模式特征，对已有机构名的构成模式进行分析总结而得。主要用于筛选识别得到的机构名是否符合构成模式特征，删除不符合的识别结果。机构名上下语义环境特征，主要用于判断识别得到的机构名的左右边界是否正确，对边界识别错误的机构名的左右边界根据上下文特征进行重新确定。

优选地，对机构名构成模式的匹配，采用相似度匹配方式。

优选地，先是运用机构名的右边界特征和左边界规则，识别机构名，然后再运用机构名构成模式特征和上下文语义环境特征进行评估优化。

优选地，机构名的构成模式特征用于筛除错误的识别结果，上下文语义环境特征用于对识别错误的机构名进行优化。

根据本发明的又一个方面，提供一种对中文机构名进行识别的方法，该方法是在一个已经经过中科院分词软件ICTCLAS分词词性标注处理的文档上进行识别的系统。机构名右边界特征词库和上下文语义环境特征一旦构建完成，即可对输入端文档进行机构名的识别。

本发明的目的是这样实现的：

多特征融合的中文机构名识别方法，需要预先构建中文机构名右边界特征词库和上下文语义环境特征库，并总结分析获取左边界规则和中文机构名的构成模式特征。然后基于上述的中文机构名特征，对机构名进行识别，并对识别结果进行评估。具体步骤如下：

第一步：对人民日报1998年1月份标注语料库进行处理，构建机构名右边界特征词库和机构名上下文语义环境特征，总结机构名左边界规则和机构名构成模式特征。

第二步：依据机构名右边界特征词库，从左向右逐个确定输入文档中符合右边界要求的词位置。

第三步：根据第二步确定的词位置，从右向左进行寻找，判断符合左边界规则的词位置。若同时符合多个左边界规则，则根据左边界规则的权重大小，确定权重大的作为最终的左边界位置。

第四步：根据左边界位置和右边界词位置，得到机构名的识别结果。

第五步：对识别得到的结果进行分词处理，提取其构成模式。

第六步：提取得到的构成模式与预先定义的错误机构名构成特征模式进行相似度匹配计算，去除相似度阈值高于给定值的识别结果。

第七步：对第六步保留下来的识别结果，提取识别结果的前后各三个词，与机构名上下文语义环境特征词进行比较，检验机构的左右边界是否存在错误，若有误，则进行修正，重新确定左右边界。

第八步：得到最终的机构名识别结果。

第九步：结束。

与背景技术相比，本发明有以下优点：

易行性：本方法不需要构建完整的规则模式，只需要构建机构名的右边界特征词库和机构名的左边界特征即可实现机构名的识别。

适用范围广：本方法对于简单机构名和复杂的机构名都适用。本发明对识别得到的简单机构名，将其视为一个整体，可以作为其他机构的组成部分，通过这种方式，实现复杂机构名的识别目的。

实用性：本方法通过机构名的构成模式特征和机构名的上下文语义环境特征对识别得到的机构名进行评估，删除错误识别的结果，并对左右边界有误的机构名进行修正，降低了由于左右边界过于宽泛而引起的识别错误，更符合实际使用需求。

规则和统计相结合：本方法将规则和统计的方法结合在一起，弥补两种方法各自存在的不足之处。首先，利用基于规则的方式，确定机构名左右边界，识别机构名。然后，再利用统计的特征，对识别得到的机构名进行评估。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，所述多特征融合识别中文机构名的控制方法的流程图；

图2示出根据本发明的第一实施例的，所述多特征融合识别中文机构名的控制方法对待识别语句确认左右边界的流程图；

图3示出根据本发明的第二实施例的，所述多特征融合识别中文机构名的控制方法对候选中文机构名进一步验证的流程图；以及

图4示出根据本发明的一个具体实施方式的，所述多特征融合识别中文机构名的控制方法的实例流程图。

具体实施方式

本发明依赖中科院分词软件ICTICLAS对输入的文档进行分词和词性标注处理。其中，右边界特征词和机构名上下文语义特征从人民日报1998年1月份已标注的语料库中获取。左边界特征和构成模式通过对已有的机构名进行分析总结获取。具体的操作步骤：第一步，对输入的文档利用中科院分词软件ICTCLAS进行分词和词性标注。第二步，根据右边界特征词库，确定机构名右边界词的位置。第三步，从右边界的位置开始，自右向左进行左边界规则的匹配。第四步，若符合多个左边界规则，则根据左边界规则权重大小，将权重大的左边界确定为机构名左边界。第五步，得到识别的结果。第六步，对识别得到的结果，进行分词，提取识别结果的构成模式。第七步，符合构成模式的识别结果，提取其上下文信息。第八步，根据上下文语义特征库，判断识别结果左右边界是否正确，若不正确，重新确定左右边界。第九步，得到结果，结束。

上述方法和系统描述中一些部分对结构特征和方法进行了具体的描述，但是应该了解，在所述权利要求中定义的本发明不必限于所述的具体特征或动作。此具体特征或动作仅为了更好地说明本发明作为一个例子而存在的。本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

本发明提供了一种多特征融合的中文机构名识别系统，首先对输入的文档利用中科院分词软件ICTCLAS进行分词词性标注处理，然后利用预先获取的机构名右边界特征词和机构名左边界规则，识别机构名，再对识别得到的机构名进行构成模式的抽取，与已知机构名构成模式进行相似度匹配，判断其是否符合机构名构成模式，接着利用机构名的上下文语义环境，最终确定其左右边界，从而达到机构名识别的目的。

图1示出根据本发明的第一实施例的，所述多特征融合识别中文机构名的控制方法的流程图。具体地，本图示出了两个模块，首先所述待识别语句经过分词处理。将经过分词处理过的待识别语句输入机构名识别模块，所述机构名识别模块根据所述分词结果确定所述候选中文机构名的左右边界，更具体地，所述左右边界确定的步骤如图2所示，在此不予赘述。所述候选中文机构名识别完成后输入所述机构名评估模块，所述机构名评估模块用于确定所述候选中文机构名的构成模式，对所述候选中文机构名进行筛选。以及与中文机构名上下文语义环境特征词进行比较，验证所述候选中文机构名以确定中文机构名。具体地，所述机构名评估过程也就是所述机构名模式验证以及根据上下文语义环境特征词验证左右边界的过程如图3所示，具体地，在此不予赘述。本发明通过上述机构名识别模块以及机构名评估模块最终输出识别出的中文机构名。其中，所述机构名识别模块以及机构名评估模块结合了机构名的构成模式特征，机构名的上下文语义环境特征词以及左边界规则右边界词库对待识别语句进行识别和评估，降低了由于左右边界过于宽泛而引起的识别错误，更符合实际使用需求。本发明对识别得到的简单机构名，将其视为一个整体，可以作为其他机构的组成部分，通过这种方式，实现复杂机构名的识别目的。

图2示出根据本发明的第一实施例的，所述多特征融合识别中文机构名的控制方法对待识别语句确认左右边界的流程图。具体地，本图示出了三个步骤。首先是步骤S201根据所述右边界特征词库从左向右扫描待识别语句，确定所述中文机构名的右边界词。然后是步骤S202根据所述左边界规则从右向左扫描待识别语句，确定所述中文机构名的左边界词。最后是步骤S203根据所述右边界词以及左边界词生成候选中文机构名。具体地，本领域技术人员理解所述右边界特征词库以及左边界规则预先根据语料库训练生成。其中，所述中文机构名右边界特征词库为中文机构名的尾词词库，其用于确定中文机构名的右边界。所述中文机构名左边界规则用于将所述特征语法单元之后的词确定为所述中文机构名左边界，其中所述特征语法单元是指中文机构名之前的语法单元。左边界规则主要包括6条，分别是：

Rule1：<标点符号>+<机构名前缀修饰词>+<机构名特征尾词>；例如：***年，华东师范大学成立。

Rule2：<介词>+<机构名前缀修饰词>+<机构名特征尾词>；例如：在华东师范大学全体学生的帮助下。

Rule3：<连词>+<机构名前缀修饰词>+<机构名特征尾词>；例如：上海交通大学和华东师范大学均有学生出席。

Rule4：<部分常用词>+<机构名前缀修饰词>+<机构名特征尾词>；例如：签约了华东师范大学

Rule5：<部分及物动词>+<机构名前缀修饰词>+<机构名特征尾词>；例如：陈群担任华东师范大学新校长。

Rule6：机构名出现在句首；华东师范大学是一所“985”院校。

与六个规则相应的语法单元分别为，第一语法单元，其至少包括标点符号；第二语法单元，其至少包括介词；第三语法单元，其至少包括连词；第四语法单元，其至少包括部分常用词；第五语法单元，其至少包括部分及物动词；以及第六语法单元，其至少包括句首。

当所述步骤S202根据所述左边界规则，确定多个左边界词时，则根据所述左边界规则特征语法单元的权重大小，将权重大的所述特征语法单元后的词作为最终左边界词。左边界规则的权重是预先定义的，定义是根据不同机构名特征词确定的。例如对于机构名特征尾词是“学校”，则规则权重为：

rule6>rule1>rule3>rule4>rule5>rule2

与其相适应地，所述特征语法单元的权重根据从大到小排列顺序如下：第六语法单元，第一语法单元，第三语法单元，第四语法单元，第五语法单元以及第二语法单元。

更具体地，本领域技术人员理解，所述候选中文机构名包括左边界词以及右边界词，其中，所述左边界词为所述中文机构名前缀修饰词，所述右边界词为所述中文机构尾词。

图3示出根据本发明的第二实施例的，所述多特征融合识别中文机构名的控制方法对候选中文机构名进一步验证的流程图。具体地，本图示出了7个步骤。首先是步骤S401对所述候选中文机构名进行分词处理，并根据分词处理结果提取所述候选中文机构构成模式。然后是步骤S402与中文机构名的错误构成模式进行相似度计算。相似度计算完毕后执行步骤S403去除错误构成模式的候选中文机构名。去除错误模式的候选中文机构名后执行步骤S404从上下文语义特征词库中提取出所述候选中文机构名对应特征尾词相适应的上下文语义特征词。步骤S405将上述上下文语义特征词与所述候选中文机构名对应的待识别语句进行匹配，并判断所述左右边界是否介于所述上下文语义特征词之间。若所述左右边界不介于所述上下文语义特征词之间，则执行步骤S406重新定位所述左右边界，确定最终识别的中文机构名。若所述左右边界介于所述上下文语义特征词之间，则执行步骤S407确定所述候选中文机构名尾最终识别的中文机构名。具体地，本领域技术人员理解，所述中文机构名错误构成模式以及所述中文机构名上下文语义环境特征词库预先根据语料库训练生成，其中所述中文机构名上下文语义环境特征词库与所述右边界特征词库相适应。

更进一步地，所述中文机构名错误构成模式主要有以下几个：模式1：指示代词+机构名特征尾词，例如:他们学校。模式2：部分动词+机构名特征尾词，例如：关注学校。模式3：数量词+机构名特征尾词，例如：二所学校。

更进一步地，上下语义环境特征也是机构名上下文信息，优选地，本发明用的上下文语义特征是从训练文本（1988年1月份人名日报语料库）中提取的，本发明主要提取了句子中机构名前后的各三个非实体词（也即除人名，机构名，地名外的其他词）作为机构名的上下文语义环境特征。例如：对于句子“陈群担任[华东师范大学]校长”，提取出的中文机构名上下文语义环境特征为“担任……校长”。对于重新确定机构名左右边界，是根据机构名的上下文语义环境特征来确定的。主要针对的类似如下这种情况的识别错误：将“担任华东师范大学”作为一个机构名识别出来（由于“担任”前有一个标点，这是由于“担任”的权重小于标点符号，所以左边界规则采用rule 1，即将“担任”作为了机构名的一部分）。这是可以发现，对于机构名特征尾词“学校”，有“担任……校长”这样一个上下文环境特征，因此，可以发现，“担任”一词不是机构名的组成部分，而是上下文环境特征的一部分，因此将机构名的左边向后移动一个词，也即新的机构名左边界为“华东”，故新的机构名为“华东师范大学”。

图4示出根据本发明的一个具体实施方式的，所述多特征融合识别中文机构名的控制方法的实例流程图。首先将待识别语句，也就是待识别文档：“俞立中担任华东师范大学校长”。对该待识别语句经过分词处理后，获得“俞立中/nr担任/v华东/ns师范/n大学/n校长/n”。根据所述中文机构名右边界特征词库从左向右找到右边界词“大学”。再从“大学”开始，根据所述中文机构名左边界规则，从右向左找到可能的左边界词。根据所述中文机构名左边界规则，“华东”被确定为候选中文机构名的左边界词。获取候选中文机构名“华东师范大学”。根据所述候选中文机构名提取其组成模式：地名+修饰词+中心词。将该模式与错误机构模式进行相似度计算，计算结果该相似度小于第一阈值，则进一步根据所述上下文语义环境特征词进行左右边界匹配。根据“大学”这一尾词，提取出的中文机构名上下文语义环境特征为“担任……校长”。则所述候选中文机构名符合这一上下文语义环境特征。最终识别出“华东师范大学”为中文机构名。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在自然语言处理系统中多特征融合识别中文机构名的控制方法，其特征在于，包括如下步骤：

a.根据中文机构名右边界特征词库以及中文机构名左边界规则识别待语句中待识别机构名的左右边界，生成候选中文机构名；

b.确定所述候选中文机构名的构成模式，对所述候选中文机构名进行筛选；以及

c.与中文机构名上下文语义环境特征词进行比较，验证所述候选中文机构名以确定中文机构名。

2.根据权利要求1所述的控制方法，其特征在于，所述步骤a之前还包括如下步骤：

-根据语料库生成所述中文机构名右边界特征词库；

-根据语料库生成所述中文机构名左边界规则；

-根据语料库生成所述中文机构名错误构成模式；以及

-根据语料库生成所述中文机构名上下文语义环境特征词库。

3.根据权利要求2所述的控制方法，其特征在于，所述中文机构名右边界特征词库为中文机构名的尾词词库，其用于确定中文机构名的右边界。

4.根据权利要求2所述的控制方法，其特征在于，所述中文机构名左边界规则用于将所述特征语法单元之后的词确定为所述中文机构名左边界，其中所述特征语法单元是指中文机构名之前的语法单元。

5.根据权利要求4所述的控制方法，其特征在于，所述特征语法单元包括：

-第一语法单元：标点符号；

-第二语法单元：介词；

-第三语法单元：连词；

-第四语法单元：部分常用词；

-第五语法单元：部分及物动词；以及

-第六语法单元：句首。

6.根据权利要求2所述的控制方法，其特征在于，所述中文机构名上下文语义环境特征词库与所述右边界特征词库相适应。

7.根据权利要求1至6任一项所述的控制方法，其特征在于，所述步骤a包括如下步骤：

a1.根据所述右边界特征词库从左向右扫描待识别语句，确定所述中文机构名的右边界词；

a2.根据所述左边界规则从右向左扫描待识别语句，确定所述中文机构名的左边界词；以及

a3.根据所述右边界词以及左边界词生成候选中文机构名。

8.根据权利要求7所述的控制方法，其特征在于，所述步骤a2包括如下步骤：

a21.根据所述左边界规则，确定多个左边界词，则根据所述左边界规则特征语法单元的权重大小，将权重大的所述特征语法单元后的词作为最终左边界词。

9.根据权利要求7或8所述的控制方法，其特征在于，所述左边界词为所述中文机构名前缀修饰词，所述右边界词为所述中文机构尾词，所述候选中文机构名包括左边界词以及右边界词。

10.根据权利要求1至9任一项所述的控制方法，其特征在于，所述特征语法单元的权重不同由右边界特征词库预先定义。

11.根据权利要求1至10任一项所述的控制方法，其特征在于，所述步骤b包括如下步骤：

b1.对所述候选中文机构名进行分词处理；

b2.根据所述步骤b1的分词处理结果提取所述候选中文机构构成模式；以及

b3.与中文机构名的错误构成模式进行相似度匹配，去除错误构成模式的候选中文机构名。

12.根据权利要求11所述的控制方法，其特征在于，所述步骤b3包括如下步骤：

b31.判断所述候选中文机构名构成模式与所述中文机构名的错误构成模式的相似度是否大于第一阈值；

b32.若所述候选中文机构名构成模式与所述中文机构名的错误构成模式的相似度大于第一阈值，则去除所述候选中文机构名；以及

b33.若所述候选中文机构名构成模式与所述中文机构名的错误构成模式的相似度不大于第一阈值，则保留所述候选中文机构名。

13.根据权利要求1至12任一项所述的控制方法，其特征在于，所述步骤c包括如下步骤：

c1.从上下文语义特征词库中提取出所述候选中文机构名对应特征尾词相适应的上下文语义特征词；

c2.将上述上下文语义特征词与所述候选中文机构名对应的待识别语句进行匹配，并判断所述左右边界是否介于所述上下文语义特征词之间；

c3.若所述左右边界不介于所述上下文语义特征词之间，则重新定位所述左右边界，确定最终识别的中文机构名；以及

c4.若所述左右边界介于所述上下文语义特征词之间，则确定所述候选中文机构名尾最终识别的中文机构名。