CN104216880A

CN104216880A - 基于互联网的术语定义辨析方法

Info

Publication number: CN104216880A
Application number: CN201310206190.8A
Authority: CN
Inventors: 吕学强; 吴瑞红
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2013-05-29
Filing date: 2013-05-29
Publication date: 2014-12-17
Anticipated expiration: 2033-05-29
Also published as: CN104216880B

Abstract

基于互联网的术语定义辨析方法，涉及自然语言处理领域。本发明主要解决一个术语多条定义，且定义规范性、准确性欠佳的问题。提出的技术方案要点包括：待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定义可信度计算和辨析结果选取。构建的参考释义兼顾术语定义准确性和专业性的特点，应用术语定义的五元组表示方法进行术语定义相似度计算，考虑了术语定义特征词之间的相似度和定义间语义相似度，更好地描绘了术语定义间的相似性；通过归纳术语定义的匹配模板以调整术语定义间相似度，使术语定义可信度更准确。本发明取得了很好的辨析效果，能够解决术语定义不规范、不准确的问题。

Description

基于互联网的术语定义辨析方法

技术领域

本发明属于自然语言处理领域，具体地说，是涉及一种基于互联网的术语定义辨析方法。

背景技术

随着Web2.0的蓬勃发展，数据呈爆炸式增长趋势，一个术语具有多条定义的情况越来越多，术语定义不正规性、不准确性的问题越来越突出，为此对术语定义进行抽取和辨析显得非常紧迫。

术语定义辨析是指对术语的多个定义进行比较，从中选取最能描述术语所指称概念的定义的过程，它可以为术语定义抽取提供更准确的结果。目前还没有人将术语定义辨析作为一个独立的研究点提出来专门研究。在术语抽取方法，主要有以下方法：通过人工归纳术语定义的模板，利用术语定义模板获取候选术语定义，再针对候选术语定义使用统计学的方法作进一步划分提高准确率，或者用排序的方法选出得分较高的句子作为给定术语的定义。使用的匹配模板主要分为两类：硬匹配模板和柔性模板，这两类模板主要用于从语料库中获取候选定义，但是术语定义有的含有明确的模板，有的则没有，这种方法获取候选定义会导致召回率偏低。在使用的统计学方法中，包括了大多数已知的分类方法：K-临近法、朴素贝叶斯法、支持向量机方法等。单纯使用统计的方法准确率很低，而综合了机器学习和模板匹配的方法准确率能得到一定提高，但仍然不高。例如，在针对斯拉夫语的实验中，单纯使用机器学习方法而不使用规则模式的时候，准确率最低只有不到 9％（正例:反例为 1:1），而综合了规则模板和多分类器的方法也仅达到 20％的准确率。

本发明借鉴基于统计和模板匹配的术语定义抽取方法，术语定义辨析不等同于术语定义抽取，术语定义抽取是从大规模语料中抽取解析术语概念的句子，而术语定义辨析则是从术语的多条待辨析定义中选取最好定义，因此术语定义抽取应用模板匹配抽取候选术语定义的方法不能完全适用于术语定义辨析；对抽取的候选定义进行排序的思想可以借鉴到术语定义辨析，即对待辨析术语定义按照一定的策略进行排序。本发明借鉴术语定义抽取的思想，结合待辨析术语定义的特点，提出从百度百科和百度搜索构建参考释义想法，总结术语定义模板，设计参考释义和候选定义相似度计算方法，实现术语定义辨析，为术语定义辨析提供了一个有效的途径。

发明内容

本发明的目的是提供一种基于互联网的术语定义辨析方法，为术语定义辨析提供一种有效的方法，为了达到上述目的，本发明的方法包含的步骤如下：

步骤A：待辨析术语定义获取

对于给定术语，若术语存在多条候选定义，则将该术语的所有候选定义作为待辨析定义。中国知网概念知识元库中存有大量的术语及其定义，这些术语和定义主要来源于学术期刊文献和工具书等，具有一定的权威性和参考意义。但是当查询某个术语定义时，检索出的单个术语定义往往会存在准确率低、断章取义的现象。为此，本发明选取中国知网概念知识元库中术语及定义作为辨析的对象。

步骤B：基于互联网的参考释义获取

参考释义是指最能反映术语所指称概念的释义。互联网是个丰富的资源宝库，它蕴含着大量的信息。而其中以搜索引擎所能获取的知识最为实时、丰富、便捷，以百科知识库所涵盖的知识最为准确、全面，为此采用如下方式获取参考释义：

若百度百科中有该术语的定义，则取百度百科中的百度名片或百度百科简介等概述性文本，作为该术语的参考释义文本；若其在百度百科中没有定义，则选取其在百度搜索引擎中，该术语搜索结果的前n条摘要作为该术语的参考释义文本。

步骤C：术语定义的表示

术语定义由描述该术语所指称概念的若干个句子（本发明中的句子指以中文标点符号分割形成的短句），按照一定的顺序组成，其中每个句子中词与词之间通过一定的关系联系在一起，且每个词都有固定的词性。由此，每个术语定义可以表示成：，n为该定义中所含句子总数，表示每条术语定义的第i个句子；

术语定义文本中第i个句子又可表示成一个五元组，其中：

，为表征句子意义的特征词集合，h为特征词总数；

，表示状态的集合，句子中每个词的词性为一个状态，w表示词性的总数；

，表示句子中依存关系集合，如定中关系、并列关系、同位关系等，r为句子中依存关系总数；

，表示特征词与词性之间的对应关系集合；

，表示特征词与特征词之间的依存关系映射集合。

将术语参考释义和术语待辨析定义按照本发明的表示方法进行表示，以备后续处理。

步骤D：术语定义相似度计算

由术语定义五元组表示可知，任一术语定义由术语中所有句子的T集合、R1集合和R2集合以及句子出现的顺序唯一确定，因此两术语定义间的相似度可通过整个术语定义中特征词集合的相似程度、特征词之间关系的相似程度和术语定义中句子出现顺序来反应。其中，特征词集合的相似程度，采用基于VSM的相似度计算方法实现；特征词之间关系的相似程度和术语定义中句子出现顺序的相似程度，采用基于句序的语义相似度计算方法实现。那么术语待辨析定义和该术语的参考定义之间的相似度为：

其中：；为基于VSM计算得到的相似度，为两术语定义间的基于句序的语义相似度。

D1基于VSM的术语定义相似度计算

术语的每条定义可视为一个文本，借助TF-IDF思想计算术语定义的特征权重。对每个文本使用中科院计算所的中文语法分词器ICTCLAS进行分词。考虑到学术术语为专有名词，在ICTCLAS的分词字典中可能不存在该术语，所以将所有术语导入用户字典，与原字典共同构成一个更完整的分词字典进行分词。对文本进行停用词过滤，将对文本特征贡献较小的助词、叹词等词过滤掉。再用tf-idf算法计算每个特征词的权重。两术语定义用向量空间模型表示后得到向量，其相似度计算公式为：

其中， (i=1,2;k=1,2,…,n)表示第i个术语定义中第k个特征的权重，它的计算公式为：

其中，为特征词频率；称为逆文档频率；是该特征词在术语定义中的出现次数；|D|：语料库中的所有定义的总条数；：包含特征词的术语定义数目（即的术语定义数目）。

D2基于句序的术语定义语义相似度计算

由术语定义的表示可知，术语定义由一个或多个句子组成，计算两术语定义间的语义相似度，采取以句子间相似度计算术语定义间语义相似度的方法。

D21句子相似度计算

句子相似度由句子的词形相似度和语义相似度表征。句子和的句子相似度计算公式为：

其中，，；为句子间的词形相似度大小，为句子间的语义相似度大小。

a. 词形相似度算法：

对术语定义中的第i个句子和术语定义中的第j个句子，定义如下变量：表示句子中特征词的个数；表示句子和含有相同特征词的个数。句子、的词形相似度为：

。

b.语义相似度算法：

语义相似度的计算只考虑两句子间有效搭配对之间的相似程度。其中有效搭配对是句子的R2集合中的句子核心词和直接依存于其且词性为动词、名词、形容词、代词的搭配对。句子、的语义相似度为：

其中，为句子含有的有效搭配对数；为句子含有的有效搭配对数；为句子、中有效搭配对匹配的总权重，搭配对匹配的权重定义如下：

假设有两个搭配对：a：；b：。若，或，，则搭配对a、b的匹配权重为1；若且，或且，匹配对的权重为0；其余情况匹配对权重为0.5。其中：表示两个特征词相同，表示两个特征词不相同。

D22基于句序的相似度计算

句序是指在一段文本中，句子出现的先后顺序。每个术语定义文本由多个句子按照一定的句序组织而成，那么两术语定义和之间相似度的特征矩阵为：

其中：为术语定义中第i个出现的句子，为术语定义中第j个出现的句子；表示句子与句子间的相似度，即。

考虑术语定义都有一定的句序，选取矩阵的一行中的最大值，并将该值所在的行列删除；继续选取余下矩阵的第二行最大值，并将该值所在的行列删除，以此类推，直至矩阵中元素个数为零。得到新的最大值矩阵：；则术语定义和之间的的基于句序的语义相似度为：

。

步骤E：术语定义模板获取

术语定义一般符合一定的模板，比如： “中等生”的定义“中等生是指班级中在各方面表现都处于一般水平的中间状态的学生。”它可以抽取出一个模板，采用巴克斯范式表示该模板为：

模板::=<terminology>是指

其中，terminology为被定义的术语。

人工归纳术语定义的一般模板，得到如下模板，采用巴克斯范式表示为：

模板1::=[所谓]< term>[，](是|即|就是|主要是指|是指)

模板2::=[我们把] (称为|称之为|叫做|就是|即|定义为|叫|是)<term>

模板3::=<term>[主要](包含|包括))|((的一类)|(的一种))

模板4::=<term >[又|也](称为|叫做)。

步骤F：术语定义可信度计算和辨析结果选择

术语定义的可信度指术语的某条待辨析定义成为该术语最好定义的可相信程度，它通过与参考释义之间的相似程度和是否符合术语定义的模板来衡量，计算公式如下：

其中，为术语的第i个待辨析定义与其参考释义之间的相似度；为调节因子，。

在术语的多个待辨析定义的可信度值中，选取可信度值最大的术语定义为辨析结果。

本发明的有益效果是：提出了一种基于互联网的术语定义辨析方法，利用百度百科和百度搜索构建术语定义参考释义，通过分析术语定义的特点，提出了术语定义的五元组表示方法，并根据此五元组设计待辨析定义与参考释义间的相似度计算方法；综合术语定义间相似度与术语定义的模板，获取术语定义可信度，获取术语准确定义，为术语定义辨析提供了一个有效的方法，解决了术语定义不准确、不规范的问题。

附图说明

图1为本发明提供的基于互联网的术语定义辨析方法流程图。

具体实施方式

下面结合附图和实施例，对本发明提供的术语定义辨析模型及其一种求解方法作详细地说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

步骤A：待辨析术语定义获取

本实施例选用术语定义辨析的语料为：中国知网概念知识元库中地球与空间科学、电子、法律、管理、航空、化学与化工、环境、机械、计算机与自动化、建筑、交通运输、教育、经济学、军事、历史、农林畜牧渔、生物、数学、水利工程、物理、信息管理、政治学、宗教这二十三个领域的术语及其定义。实施例数据情况如下表1所示：

表1

。

步骤B：基于互联网的参考释义获取。分别对每个术语进行参考释义获取：若百度百科中有该术语的定义，则取百度百科中的百度名片或百度百科简介等概述性文本，作为该术语的参考释义文本；若其在百度百科中没有定义，则选取其在百度搜索引擎中，该术语搜索结果的前20条摘要作为该术语的参考释义文本。

步骤C：术语定义的表示

将待辨析的术语定义和参考释义按照术语定义五元组进行表示。如义务兵的定义：“义务兵是指每年定期应征入伍服现役的公民。”此定义只有一句话组成，那么由以上描述的五元组，；其中:

；

。

步骤D：术语定义相似度计算。将术语的待辨析定义和参考释义用术语定义的五元组表示方法进行表示，按照如下公式进行计算：

在的计算中，首先构建和之间相似度的特征矩阵为：

其中：为术语定义中第i个出现的句子，为术语定义中第j个出现的句子；表示句子与句子间的相似度，即。那么。

步骤E：术语定义模板获取。术语定义模板和实例如下所示：

模板1::=[所谓]< term>[，](是|即|就是|主要是指|是指)

例如：中等生是指班级中在各方面表现都处于一般水平的中间状态的学生

例如：我们把用所学语言真实、自由地交流思想、感情和信息，共同完成某项任务的活动称为交际活动

模板3::=<term>[主要](包含|包括))|((的一类)|(的一种))

例如：集体意识：个人融合在集体中的一种意识，即个人与集合体的成员有共同的利益、志向、精神风貌等

模板4::=<term >[又|也](称为|叫做)

例如：管理咨询又称为决策咨询。它主要针对综合性、战略性、全局性的问题提出建议、对策或论证。

步骤F：术语定义可信度计算和辨析结果选择。术语定义可信度计算公式如下：

其中，为术语terminology的第i个待辨析定义与其参考释义之间的相似度；为调节因子，。

将每个术语定义的可信度集合按照如下公式进行结果选择：

其中，为术语的第i()个待辨析定义的可信度。则术语定义辨析的结果是术语的第target条待辨析定义。

本实施例采用术语定义辨析的准确率评价指标表示，其中指：领域内，术语集合中某术语的待辨析定义与此术语参考释义间的可信度按照从大到小排序后，可信度前n条所对应的定义中包含最好定义的术语个数占总术语个数的比率。由于术语候选定义个数相对较少，选用n=1 和n=2作为评价指标。结果如表2所示：

表2

领域	环境	宗教	水利工程	航空	军事	管理	总计
								89.7%	70.5%	92.6%	87.8%	88.8%	83.2%	86.5%
	96.9%	92.0%	96.0%	96.3%	97.8%	94.2%	96.1%

从表中可以看出的准确率在86%左右，而已经达到了96%。说明在选择计算结果的前两条的可用性已经非常大，基本可以满足对术语定义准确度的要求。

本发明构建的参考释义既兼顾了术语定义准确性特点又兼顾了术语专业性的特点，构建的术语定义表示的五元组从多个侧面描述了术语定义：特征词、特征词词性、特征词之间的关系等，应用此五元组进行术语定义相似度计算不仅考虑了术语定义特征词之间的相似度，而且考虑了术语定义间语义相似度，更好地计算了术语定义间的相似度；通过归纳术语定义的匹配模板，适当调整术语定义间相似度，使得术语定义可信度更加准确。由实验验证了本发明的术语定义辨析方法是有效的，可以很好地解决术语定义辨析的问题。

Claims

1.一种基于互联网的术语定义辨析方法，其特征在于，包括步骤：

A待辨析术语定义获取；

B基于互联网的参考释义获取；

C术语定义的表示；

D术语定义相似度计算；

E 术语定义模板获取；

F术语定义可信度计算和辨析结果选择。

2.根据权利要求1所述的基于互联网的术语定义辨析方法，其特征在于，所述的术语参考释义是指最能反映术语所指称概念的释义。

3.根据权利要求1和权利要求2所述的基于互联网的术语定义辨析方法，其特征在于，从互联网上获取参考释义：

获取术语在百度百科和百度搜索的前N条摘要信息作为构建术语参考释义的文本：若百度百科中有该术语的定义，则取百度百科中的百度名片或百度百科简介等概述性文本，作为该术语的参考释义文本；若其在百度百科中没有定义，则选取其在百度搜索引擎中，该术语搜索结果的前N条摘要作为该术语的参考释义文本。

4.根据权利要求1所述的基于互联网的术语定义辨析方法，其特征在于，术语定义的特征：

术语定义由描述该术语所指称概念的若干个句子（本发明中的句子指以中文标点符号分割形成的短句），按照一定的顺序组成，其中每个句子中词与词之间通过一定的关系联系在一起，且每个词都有固定的词性。

5.根据权利要求1和权利要求4所述的基于互联网的术语定义辨析方法，其特征在于，根据术语定义的特征对术语定义进行表示：

每个术语定义可以表示成：，n为该定义中所含句子总数，表示每条术语定义的第i个句子；术语定义文本中第i个句子又可表示成一个五元组,其中：

，为表征句子意义的特征词集合，h为特征词总数；

，表示特征词与词性之间的对应关系集合；

，表示特征词与特征词之间的依存关系映射集合。

6.根据权利要求1和权利要求5所述基于互联网的术语定义辨析方法，其特征在于，术语定义相似度由特征词的相似度、特征词间关系的相似度和术语定义中句子出现的顺序来反应，其计算方法为：

其中：；为基于tf-idf特征权重的余弦相似度，为术语定义间的基于句序的语义相似度。

7.根据权利要求1和权利要求6所述的基于互联网的术语定义辨析方法，其特征在于，术语定义间基于句序的语义相似度通过句子间相似度来计算，句子间相似度由句子的词形相似度和语义相似度表征，句子间相似度计算方法：

8.根据权利要求1和权利要求7所述的基于互联网的术语定义辨析方法，其特征在于，句子间词形相似度计算方法为：

其中，表示句子中特征词的个数；表示句子和含有相同特征词的个数。

9.根据权利要求1和权利要求7所述的基于互联网的术语定义辨析方法，其特征在于，句子间语义相似度只考虑两句子间有效搭配对之间的相似程度，其中有效搭配对是句子的R2集合中的句子核心词和直接依存于其且词性为动词、名词、形容词、代词的搭配对；计算方法为：

其中，为句子含有的有效搭配对数；为句子含有的有效搭配对数；为句子、中有效搭配对匹配的总权重；搭配对匹配的权重定义如下：

假设有两个搭配对a：；b：。

10.若，或，，则搭配对a、b的匹配权重为1；若且，或且，匹配对的权重为0；其余情况匹配对权重为0.5；其中：表示两个特征词相同，表示两个特征词不相同。

11.根据权利要求1和权利要求6所述的基于互联网的术语定义辨析方法，其特征在于，术语定义和之间相似度的特征矩阵由句子间相似度构成，可形式化表示为：

12.根据权利要求1、权利要求6和权利要求10所述的基于互联网的术语定义辨析方法，其特征在于，术语定义基于句序的语义相似度：

句序是指在一段文本中，句子出现的先后顺序；从术语定义相似度矩阵中，选取矩阵的一行中的最大值，并将该值所在的行列删除；继续选取余下矩阵的第二行最大值，并将该值所在的行列删除，以此类推，直至矩阵中元素个数为零；得到新的最大值矩阵：；则术语定义和之间的的基于句序的语义相似度为：。

13.据权利要求1所述的基于互联网的术语定义辨析方法，其特征在于，人工归纳术语定义模板，采用巴克斯范式表示为：

模板1::=[所谓]< term>[，](是|即|就是|主要是指|是指)

模板3::=<term>[主要](包含|包括))|((的一类)|(的一种))

模板4::=<term >[又|也](称为|叫做)

据权利要求1所述的基于互联网的术语定义辨析方法，其特征在于，术语定义可信度通过与参考释义的相似度和是否符合定义模板来衡量，其计算方法：

其中，为术语的第i个待辨析定义与其参考释义之间的相似度；为调节因子，；选取可信度最大的值对应的定义为术语的最好定义。