CN106445921A

CN106445921A - 利用二次互信息的中文文本术语抽取方法

Info

Publication number: CN106445921A
Application number: CN201610868390.3A
Authority: CN
Inventors: 罗森林; 陈倩柔; 潘丽敏; 吴舟婷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-02-22
Anticipated expiration: 2036-09-29
Also published as: CN106445921B

Abstract

本发明涉及一种利用二次互信息的中文文本术语抽取方法，属于计算机科学与自然语言处理技术。本发明首先基于核心词前后扩展，结合二次互信息、词频、词长和词性特征，将核心词扩展成多个候选术语，然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明综合考虑了术语的语言规则和统计特征，提高了术语抽取的准确性。

Description

利用二次互信息的中文文本术语抽取方法

技术领域

本发明涉及一种利用二次互信息的中文文本术语抽取方法，属于计算机科学与自然语言处理技术领域。

背景技术

术语抽取是把文本中能够描述文本主题，并且具有完整性和领域代表性的短语抽取出来的过程。术语抽取是自然语言处理技术领域中一项重要的基础性研究任务，在自动摘要、信息检索、文本分类和聚类等诸多领域中都有重要的应用。

术语是在特定领域用来表示概念的称谓的集合，又称为专业名词或科技名词。术语的特性通常被归纳为两个可度量的特征：1)单元度(Unithood)，衡量术语是否可以表达一个独立、完整的含义，并具有稳定的结构；2)术语度(Termhood)，衡量术语与特定领域是否紧密相关或与特定领域的相关程度。从文本中提取术语，能帮助读者迅速掌握文本的概要内容，例如，在进行图书标引时，通过从图书章节中提取术语对图书的主题内容进行快速标记。

术语抽取方法可分为三类：①基于规则的方法；②基于统计的方法；③基于机器学习的方法。

1.基于规则的方法

基于规则的方法根据已有术语集合或者领域特点，使用术语的词语词性以及句法特征等语言知识，总结术语构成规则，根据规则抽取术语。

这类方法在准确率上有一定优势，但是这类方法的可移植性差，对于不同领域、不同语料集、不同语种，语言规则各不相同，难以用少量的规则覆盖多变的术语构成规律，同时，构建术语匹配模板也是一个费时费力的过程，总结规则不但需要具有较强的领域知识背景，也可能需要解决多个规则之间的冲突问题。

2.基于统计的方法

基于统计的方法利用术语在语料库中的分布统计属性来识别术语，经常使用到的统计特征可以分为两大类：一类衡量术语的单元度，如互信息(Mutual Information)、信息熵、假设检验等；另一类衡量术语的术语度，如词频(TF)、TF-IDF值等。

这类方法通常会用多种统计特征结合的方式来对术语进行抽取，因为单个统计特征无法完整地表征术语的属性。例如，

1)互信息可以度量术语中词语之间的相关性，从而可以用来判断术语的单元度，即判断术语是否可以表达一个独立、完整的含义，且具有稳定的结构。互信息的计算公式为：

其中，A和B分别表示两个词语，p表示概率，p(AB)表示词组AB出现的概率，通常公式中的词的概率可以用词频来代替。

互信息无法识别低频的术语，或者内部词语的词频相差很大的术语。

2)词频是在术语抽取研究中通常认为是术语在文本出现的次数。在领域语料中，术语的词频一般会高于普通短语的词频，但也有许多普通短语在语料中具有较高的词频，因此，仅考虑词频属性，会导致抽取的术语中包含许多普通短语，且无法抽取本身词频较低的术语。

基于统计的方法具有良好的领域适应能力，当语料充分，术语的统计特征明显时，会得到好的结果，然而当术语的统计特征不明显，如低频词，则抽取效果不理想，会存在许多噪声，同时如果使用过多的统计特征，也会面临统计特征之间的冲突问题。

3.基于机器学习的方法

基于机器学习的方法主要是将术语抽取视为分类问题，通过利用标注好术语的文本训练学习一个术语识别模型，然后将模型应用到新文本中。这类方法用到的学习模型有条件随机场(CRF)、支持向量机(SVM)、隐马尔科夫模型(HMM)等。

这类方法需要足够的标注语料，即训练语料，但构建训练语料不仅要求标注人员具有领域背景知识，而且也通常需要花费较长的时间来完成标注工作，且基于某领域语料训练出来的模型可移植性差。

由于以上所述三类方法均存在缺陷，因此单一考虑语言特征或统计特征通常不能带来很好的效果，目前有部分方法考虑将多种特征混合，然而由于语言特征以及统计特征之间融合时，经常会有冲突，因此如何减少选择合适的多种特征结合方式，是目前术语抽取任务急需解决的问题。

发明内容

本发明提出一种利用二次互信息的中文文本术语抽取方法，解决了术语抽取任务中利用单一特征术语抽取准确率低的问题，通过融合二次互信息、词频、词长三个统计特征和词性特征，以及根据术语间的嵌套关系去除冗余术语，提高了术语抽取的准确率。

本发明的技术方案包括如下内容：

首先利用分词系统对文本进行分词和词性标注，并将噪声字符替换成截断符号；然后将名词词性的词提取出来，作为核心词集；定位每个核心词根据二次互信息和词性特征进行扩展，以设定好的阈值和截断符号为扩展终止条件，将核心词扩展得到的术语集合设为候选术语集；最后，查找出候选术语集合中有嵌套关系的候选子集，根据词频特征对候选术语打分，排序选择前m个术语作为最终的术语。

本发明的技术方案是通过如下步骤实现的：

步骤1，对中文文本进行预处理；

步骤1.1，利用分词系统对文本进行分词和词性标注；

步骤1.2，将文本中除连字符“-”和汉字以外的其它字符，以及词性为助词、时间词、语气词、拟声词、连词、代词、处所词、方位词中的任意一个的词替换成截断符号，方便后续步骤，截断符号按程序需求设定，可设为某个特殊字符，如“^”，“&”，“*”等；

步骤1.3，构建停用词表，根据分词结果，将文本中的停用词替换成截断符号，去除停用词，可节省存储空间和提高效率。

步骤2，构建核心词集，根据词性标注结果，将具有名词词性且词频大于1的词作为核心词，存入核心词集中。

步骤3，从核心词集中的第一个核心词开始，依次对核心词进行扩展生成候选术语；

步骤3.1，从文本开头位置，定位核心词向前进行扩展；具体扩展方法为：找到核心词在文本中出现的第一个位置，计算核心词的前一个词与核心词的二次互信息和由两个词构成的词组的频次的乘积，其中二次互信息的计算公式为：

二次互信息和词组频的乘积计算公式为：

其中，TMI表示二次互信息值，PF表示词组频，f(AB)表示词组AB的词组频，即词组AB在文本中出现的次数，f(A)表示前一个词的词频，f(B)表示后一个词的词频；

判断是否达到终止条件，如果达到了终止条件则继续步骤3.2，否则核心词扩展成为由前一个词与核心词的词组，继续向前遍历，计算新加入的词与其前面的词的二次互信息和由这两个词构成的词组的频次的乘积，再判断是否达到终止条件，依此类推；

其中，终止条件为：①最大词组词数达到5，即候选术语中的词语个数限制为5个；②遇到截断符号或者前面没有其他词；③前面的词的词性不是名词、形容词、区别词中任何的一种；④二次互信息和词组频的乘积小于阈值，其中阈值(Threshold)的计算公式为：

Threshold＝Min(3,V/(V_total/C)+L) (4)

其中V表示文本中的有效词的个数，即文本经过步骤1所描述的预处理后，剩下的词语的总数，L表示当前扩展形成的词组的词语个数，公式表示在3和V/500+L的计算结果中取较小的值；

当向前遍历遇到连字符时，进行特殊处理，当连字符和后面的一个词在文中出现的次数大于1时，继续遍历前一个词，当该词与连字符在文中出现的次数也大于1时，则将核心词扩展到该词为止，并将终止条件①中最大词组词数设为8，否则停止向前扩展，继续步骤3.2；

步骤3.2，在向前扩展的基础上，继续向后扩展；向后遍历一个词，当满足扩展条件时则在向前扩展的结果的基础上，继续向后扩展一个词，否则向前扩展的结果即为最终核心词扩展的结果，至此该核心词扩展结束；

其中，扩展条件为：①没有遇到截断符号；②没有到文本末尾；③遍历得到的结果不是连字符；④遍历得到的词的词性为后接成分或者核心词与这个词的二次互信息乘以由这两个词构成的词组频的结果大于阈值，其中，阈值的计算方法与步骤3.1中的阈值计算方法相同，如公式(4)所示；

步骤3.3，计算由该核心词扩展生产的候选术语的字数是否大于2，如果满足条件，并且该候选术语不在已有的候选集合中，则将其加入候选集合，否则继续下一个步骤；

步骤3.4，继续遍历文本内容，查找核心词出现的下一个位置，重复步骤3.1至3.3的前后扩展过程，生成新的候选术语；

步骤3.5，当文本内容遍历完成时(即查找到文本末尾，核心词在文本中出现的所有位置都已遍历到时)，则继续扩展核心词集中的下一个核心词，仍从文本的开始遍历文本内容，重复步骤3.1至3.4，直到核心词集中的核心词都扩展完成为止。

步骤4，对候选集中的术语进行打分排序，选择前m个术语作为最终术语；

步骤4.1，设候选术语在文本中出现的次数为候选术语的初始分值(Score)；

步骤4.2，将候选术语集合中冗余的候选术语打分为-1；对每个候选术语p，找出所有包含该候选术语的其他候选术语，定义为候选术语对应的父集Q，当且Score(p)＞0时，重新计算候选术语分值，计算公式如下：

Score(p)＝f(p)-Σf(q_i)，q_i∈Q，i＝1，2，...，N (5)

其中，f(p)表示候选术语p的频次，∑f(q_i)表示对父集Q中所有候选术语的频次求和，N表示父集中候选术语的总数；

遍历父集Q中的每一个候选术语q_i，当Score(q_i)＞0时，

如果Score(q_i)＜Score(p)/2，则计Score(q_i)＝-1，

否则，计Score(p)＝-1；

步骤4.3，加上术语中词语个数特征，重新计算候选术语分值；当Score(p)＞0时，在当前分值的基础上再加上该候选术语中词语的个数L_p，即：

步骤4.4，去除分值小于零的候选术语，将剩余的候选术语按分值高低排序，选择前m个术语作为文本对应的术语，其中，m根据实际应用需要进行取值，一般的取值范围为1-10。

有益效果

相比于基于规则的方法，本发明不需要专家人工构建模板，省时省力。

相比于基于统计的方法，本发明考虑了语言规则，选用了更加有效的统计特征，提取结果噪声更小，准确率高。

相比于基于机器学习的方法，本发明不要构建训练语料，省时省力，且领域适应能力更强。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验采用的数据源为《供水水质检测3：水质分析技术》一书，该书由水利水电出版社于2014年10月1日出版，共包含四大章，18小节。实验过程中对该书的每章小节文本内容分别抽取术语，数据源部分统计信息如表1所示。

表1术语抽取实验数据源

其中，有效字数是指去除除连接符和汉字以外的其它字符后剩余字数。

实验流程如下：

步骤1，导入实验数据，将图书章节进行编号；

步骤2，对每个图书章节分别进行术语抽取；

步骤2.1，对图书章节标题和正文内容进行预处理，截断符号设为“^”；

步骤2.2，构建核心词集；

步骤2.3，对每个核心词进行扩展生成候选术语集；

步骤2.4，对候选术语进行打分排序，选择前5个候选术语作为章节的术语；

步骤3，对于抽取的前5个术语，根据其单元度和术语度来评价其是否正确，我们用准确率(precision)进行评价，准确率的计算公式为：

其中a表示抽取出来的正确术语总数，M表示抽取出来的术语总数；

实验中采用中科院计算所提供的ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System)作为分词和词性标注的工具，图书章节的术语提取结果如表2所示。

表2图书章节术语提取实验结果

表中，加下划线的结果评定为错误术语，实验结果显示，术语抽取的平均准确率达到91.1％，且对于不同长度的章节的术语抽取效果相近，说明术语抽取达到了较理想的效果。抽取结果中，正确的词语或词组的准确率达到98％以上，从表中可以看出，仅“溶解性总”为错误的词组，正确的术语应该是“溶解性总固体”，分析错误的原因发现该错误是由分词结果造成，“固体”一词被拆分成“固”和“体”两个字，而“固”又在停用词表中，在扩展抽取前就已经被当成噪声移除，说明基于分词的术语抽取效果不仅依赖单元度和术语度的计算，也依赖于分词的准确性。

Claims

1.一种利用二次互信息的中文文本术语抽取方法，所述方法具体包括以下步骤：

步骤1，对中文文本进行预处理；

步骤1.1，对文本进行分词和词性标注；

步骤1.2，将文本中的噪声字符替换成截断符号；

步骤2，构建核心词集，根据词性标注结果，将具有名词词性且词频大于1的词作为核心词，存入核心词集中；

步骤3.1，从文本开始遍历，定位核心词向前扩展，特殊处理遇到连字符的情况；

步骤3.2，在向前扩展的基础上，继续向后扩展；

步骤3.4，查找核心词出现的下一个位置，重复步骤3.1至3.3中的前后扩展过程，生成新的候选术语；

步骤3.5，当文本内容遍历完成时，则继续扩展核心词集中的下一个核心词，重复步骤3.1至3.4，直到核心词集中的核心词都扩展完成为止；

步骤4，对候选集中术语进行打分排序，选取前m个作为最终术语；

步骤4.1，将候选术语在文本中出现的次数设为候选术语的初始分值；

步骤4.2，将候选术语集合中冗余的候选术语打分为-1；

步骤4.3，结合术语中词语个数特征，重新计算候选术语分值；

步骤4.4，去除分值小于零的候选术语，将剩余的候选术语按分值高低排序，选择前m个术语作为最终术语，其中，m取值范围为1-10。

2.根据权利要求1所述的方法，其特征在于，步骤1.2中所述的噪声字符具体包括：1)除连字符和汉字以外的其它字符；2)词性为助词、时间词、语气词、拟声词、连词、代词、处所词、方位词中的任意一个的词；3)停用词。

3.根据权利要求1所述的方法，其特征在于，步骤3.1所述的向前扩展的方法具体步骤为：

首先，定位核心词在文本中出现的位置，计算核心词的前一个词与核心词的二次互信息和由两个词构成的词组的频次的乘积，其中二次互信息的计算公式为：

二次互信息和词组频的乘积计算公式为：

然后，判断是否达到终止条件，如果达到了终止条件则继续下一个步骤，否则核心词扩展成为由前一个词与核心词的词组，继续向前遍历，计算新加入的词与其前面的词的二次互信息和由这两个词构成的词组的频次的乘积，再判断是否达到终止条件，依此类推；

其中，终止条件为：①最大词组词数达到5；②遇到截断符号或者前面没有其他词；③前面的词的词性不是名词、形容词、区别词中任何的一种；④二次互信息和词组频的乘积小于阈值，其中阈值(Threshold)在3和V/500+L的计算结果中取较小的值，具体计算公式为：

Threshold＝Min(3,V/(V_total/C)+L)

其中，V表示文本中的有效词的个数，即文本经过步骤1所描述的预处理后，剩余的词语总数，L表示当前扩展形成的词组的词语个数；

遇到连字符时特殊处理的方法为：

当连字符和后面的一个词在文中出现的次数大于1时，继续遍历前一个词，当该词与连字符在文中出现的次数也大于1时，则将核心词扩展到该词为止，并将之后当前核心词向前扩展过程中的最大词组词数(见终止条件①)设为8，否则停止向前扩展。

4.根据权利要求1所述的方法，其特征在于，步骤3.2中向后扩展的方法为：在向前扩展的基础上，继续向后遍历一个词，当满足扩展条件时则在向前扩展的结果的基础上，继续向后扩展一个词，否则向前扩展的结果即为最终核心词扩展的结果；

其中，扩展条件为：①没有遇到截断符号；②没有到文本末尾；③遍历得到的结果不是连字符；④遍历得到的词的词性为后接成分或者核心词与这个词的二次互信息与由这两个词构成的词组在文本出现的次数的乘积大于阈值，其中，阈值的计算方法与权利要求3中所述的阈值计算方法相同。

5.根据权利要求1所述的方法，其特征在于，步骤4.2所述的给冗余候选术语打分的方法为：

对每个候选术语p，找出所有包含该候选术语的其他候选术语，定义为候选术语对应的父集Q，当且Score(p)＞0时，重新计算候选术语分值，计算公式为：

Score(p)＝f(p)-Σf(q_i),q_i∈Q,i＝1,2,...,N

遍历父集Q中的每一个候选术语q_i，当Score(q_i)＞0时，

若Score(q_i)＜Score(p)/2，则计Score(q_i)＝-1，

否则，计Score(p)＝-1。

6.根据权利要求1所述的方法，其特征在于，步骤4.3所述的计算候选术语分值的方法为：

当候选术语p的分值Score(p)＞0时，最终候选术语p的分值为在当前分值的基础上再加上该候选术语中词语的个数L_p，公式如下，