CN105005554A

CN105005554A - 一种词汇语义相关度的计算方法

Info

Publication number: CN105005554A
Application number: CN201510373999.9A
Authority: CN
Inventors: 张仰森; 李佳媛
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2015-10-28

Abstract

本发明公开了一种词汇语义相关度的计算方法，根据《知网》中词语的语义信息以及知网对词语语义的表示特点，提取出知网中的语义关系，构建出了基于知网的语义关系图；并进行语义关系图的扩展；最后基于语义关系图进行词语相关度计算。本发明的有益效果是在语义关系图的基础上，将图论知识与语义关系图中的信息相结合，提出了一种基于语义关系图的词汇语义相关度计算方法，并通过实验验证了该方法是有效可行的。

Description

一种词汇语义相关度的计算方法

技术领域

本发明属于语言技术领域，涉及一种词汇语义相关度的计算方法。

背景技术

词汇的语义计算是中文信息处理领域的重要问题之一，目前的研究主要针对词汇语义的相似度计算方面，对词汇语义的相关度计算方法研究不够。为此，本文以《知网》中概念之间以及概念的属性之间的语义关系和大规模语料中统计出的词语依存关系为基础，构建了一张语义关系图。然后，将此语义关系图与图理论的相关知识相结合，提出了一个基于语义关系图的词汇语义相关度计算方法。实验结果表明，该方法在语义相关度计算方面效果较好，得到的语义相关度结果较为合理。

目前，对于语义相关度的评价方法主要分为两种：基于统计的方法和基于语义词典的方法。基于统计的方法是建立在“两个词语经常同时出现，则这两个词语往往相关”这一假设的基础之上，这种方法主要利用文档集中词语间共现性的统计数据来确定词语间的相关度，但是这种方法只是利用文档中包含的内容信息，而忽略了词语之间的具体关系以及关联的语义依据，并且当统计样本不足时，其计算结果就会出现较大误差。而基于语义词典的方法是依据已有的词典，如WordNet、HowNet等知识体系来计算词语在语义上的相关程度，对词汇语义的相关度计算方法研究不够。

发明内容

本发明的目的在于提供一种词汇语义相关度的计算方法，解决了目前的研究主要针对词汇语义的相似度计算方面，对词汇语义的相关度计算方法研究不够的问题。

本发明所采用的技术方案是：

步骤1：语义关系图的构建：

1)根据《知网》中词语的语义信息以及知网对词语语义的表示特点，提取出知网中的语义关系，构建出了基于知网的语义关系图；语义关系图由表示语义的节点和表示语义节点间关系的边组成，整个语义关系图以边为单位采用三元组的方式存储，每一个语义关系三元组作为一个存储记录；

2)《知网》中的语义关系提取：

设{s1:r1＝{s2:r2＝{s3}}}，每一对括号所包括的部分都是一个概念，其中s1，s2，s3是义原；r1，r2是关系词，r1是表示s1和{s2:r2＝{s3}}之间关系的关系词，r2是表示s2和{s3}之间关系的关系词；

(1)如果关系词后面所连接的概念只是一个义原，则直接提取语义关系；

(2)如果关系词后面所连接的概念不只是一个义原，而是多个义原，这时需要考察关系词后面所连接的概念是否可以用某个义项表示，若可以用特定义项表示，则提取语义关系，否则，不提取该关系词的语义关系；

(3)如果关系词所在的整个概念可用某个义项表示时，则将关系词前面的义原替换为该义项并提取语义关系；

(4)对于每个义项都提取该义项与其第一基本义原的语义关系；

(5)反义、对义、同义关系的提取，这三种关系可从《知网》的Antonym set、Converse Set、SynsetSet、Taxonomy Antonym、Taxonomy Converse文件中直接提取；

3)将中文词相同且概念描述也相同的但编号不同的概念进行合并，并重新为其编号，然后再提取语义关系构建语义关系图，提取出《知网》中存在的语义关系后，这些关系互相关联后则形成了一张网，称之为基于《知网》构建的语义关系图；

步骤2：语义关系图的扩展；采用哈尔滨工业大学所作的依存句法分析器，对来自于人民日报的语料进行句法分析，从中提取出具有依存关系的词语搭配对，每一个词语搭配对与它们的依存关系则构成了一个语义关系三元组，将这些语义关系三元组加入到基于《知网》构建的语义关系图中；

步骤3：词语相关度计算；在给定两个词语后，通过遍历语义关系图，得到这两个词语的语义连通路径数N和每条连通路径的长度Li，在计算中不考虑连通路径中长度大于等于6的路径，并且为连通路径长为1～5的路径分别赋予系数βk(1≤k≤5≤5)，得到每条路径的带权长度为βkLi，其中，k∈[1,5]，i∈[1,N]；

总路径长L：

L = Σ_{i = 1}^{N} β_{k} L_{i}, 1 \leq k \leq 5; - - - (1)

平均路径长

\overset{&OverBar;}{L} = \frac{1}{N} Σ_{i = 1}^{N} β_{k} L_{i}, 1 \leq k \leq 5; - - - (2)

当两个词语在语义关系图中存在长度小于6的语义连通路径时，它们的相关度为：

Re l = \frac{\log_{2} (N + 1)}{\log_{2} (N + 1) + 2 \frac{1}{N} Σ_{i = 1}^{N} β_{k} L_{i}}, 1 \leq k \leq 5 - - - (3)

基于语义关系图的词语相关度计算的算法描述如下：

Step1.计算两个实体结点A和B在语义关系图中的连通路径数N，和每条连通路径的长度Li，若N>0，则转到Step2；否则，转到Step3；

Step2.利用公式(3)计算A与B的相关度Rel(A,B)，转Step8；

Step3.查找结点A在连通路径长为5以内的连通路径上的所有结点，这些结点组合为集合U；

Step4.计算结点B与集合U中每个元素结点的相似度，并标记相似度最大的结点C及其相似度的值Sim，若Sim>0.85，则转到step5，否则，转到Step6；

Step5.重复步骤1和步骤2，利用公式(3)计算A与C的相关度Rel(A,C)，并计算Sim×Rel(A,C)，记为Reli(A,B)，(i＝1,2)；

Step6.结点A和B角色互换，采用同样的方法，重复步骤3至步骤5；

Step7.计算A与B的相关度Rel(A,B)＝MaxReli(A,B),(i＝0,1,2)，转Step8；

Step8.结束。

进一步，所述步骤2中语义关系图的扩展方法为：

(1)依次对人民日报语料中的每一句话进行依存句法分析，得到每一句话的依存句法树；

(2)根据每一棵依存句法树中的词语依存信息，从中提取出实词依存搭配对，并统计其出现的频次；

(3)为每个依存搭配对中的两个词语间的语义关系赋予一个关系词，这样每个搭配对及其关系词则构成一个语义关系三元组；

(4)依次将频次大于阈值的语义关系三元组加入到基于《知网》构建的语义关系图中。

本发明的有益效果是在语义关系图的基础上，将图理论知识与语义关系图中的信息相结合，提出了一种基于语义关系图的词汇语义相关度计算方法，并通过实验验证了该方法是有效可行的。

附图说明

图1是拳台的概念树示意图；

图2是结点A和B的连通路径有2条示意图；

图3是结点A和B的连通路径有3条示意图；

图4是结点A和C的连通路径有1条，长度为2示意图；

图5是结点A和C的连通路径也有1条，长度为1示意图。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明词汇语义相关度的计算方法采用的技术方案如下：

步骤1：语义关系图的构建；首先分析研究了《知网》对词语语义的表示方式，根据《知网》中词语的语义信息以及知网对词语语义的表示特点，提取出知网中的语义关系，构建出了基于知网的语义关系图；

本发明所构建的语义关系图由表示语义的节点和表示语义节点间关系的边组成，整个语义关系图以边为单位采用三元组的方式存储，也就是每一个语义关系三元组(结点1，结点2，语义关系)作为一个存储记录。采用这样的存储方式便于对已构建好的语义关系图进行扩展，在扩展时只要将新的语义关系三元组加入图中即可达到扩展语义关系图的目的。

《知网》中的语义关系：《知网》是一个以英汉双语所代表的概念以及概念的特征为基础的，以揭示概念与概念所具有的特性之间的关系为基础内容的常识知识库。通过对《知网》词典中概念表示方法的研究，我们发现《知网》按照KDML的规范描述概念时，对概念采用嵌套式的结构表示，也就是，一个复杂的概念用较简单的概念进行解释，较简单的概念再用更简单的概念解释，直到用义原表示出来。这种结构是一种隐含的树结构，称之为概念树。如下面的例子：W_C＝拳台

DEF＝{facilities|设施:domain＝{boxing|拳击},{compete|比赛:location＝{～}},{exercise|锻炼:location＝{～}}}

在这个概念描述中，KDML表示了这样的含义：拳台是一个设施，这个设施所属的领域是拳击领域，这个设施是比赛的地方，这个设施也是锻炼的地方。也就是说，拳台是一个用来进行拳击比赛和拳击锻炼的设施。

将“拳台”这个概念用概念树重新表示如图1所示。在概念树上，每一个父节点与其子节点之间必定有一个表示语义关系的关系词。因此，在遍历概念树提取语义关系的时候，就可以把关系词作为提取语义关系的标志，即当遇到语义关系词时，则考察该关系词所连接的两个节点是否可作为语义节点与该关系词构成一条语义关系记录加入语义关系图中。下面具体说明提取语义关系的步骤：以概念{s1:r1＝{s2:r2＝{s3}}}为例，按照KDML规范，每一对括号所包括的部分都是一个概念，则在该例中三对括号所包括的内容“{s1:r1＝{s2:r2＝{s3}}}”、“{s2:r2＝{s3}}”、、“{s3}”则是三个不同的概念。其中s1，s2，s3是义原；r1，r2是关系词，r1是表示s1和{s2:r2＝{s3}}之间关系的关系词，r2是表示s2和{s3}之间关系的关系词。在提取语义关系时：

(1)如果关系词后面所连接的概念只是一个义原，则直接提取语义关系。例如：{s2:r2＝{s3}}，关系词r2后的概念“{s3}”只有义原“s3”表示，那么可以直接提取语义关系{s2,s3,r2}；

(2)如果关系词后面所连接的概念不只是一个义原，而是多个义原，这时需要考察关系词后面所连接的概念是否可以用某个义项表示，若可以用特定义项表示，则可提取语义关系，否则，不提取该关系词的语义关系。例如：{s1:r1＝{s2:r2＝{s3}}}，若{s2:r2＝{s3}}可用义项B表示，那么可提取的语义关系{s1,B,r1}和{s2,s3,r2}；若{s2:r2＝{s3}}找不到义项表示时，则只能提取语义关系{s2,s3,r2}；

(3)如果关系词所在的整个概念可用某个义项表示时，则可将关系词前面的义原替换为该义项并提取语义关系。例如：若{s1:r1＝{s2:r2＝{s3}}}可用义项A表示，{s2:r2＝{s3}}可用义项B表示，则可提取语义关系{A,B,r1}，{s1,B,r1}，{B,s3,r2}，{s2,s3,r2}；

(4)“DEF”关系，对于每个义项都需提取该义项与其第一基本义原的DEF语义关系；

(5)反义、对义、同义关系的提取，这三种关系可直接从《知网》的Antonym set、Converse Set、SynsetSet、Taxonomy Antonym、Taxonomy Converse文件中直接提取。

通过研究《知网》收录的词语及其语义描述，我们发现其中有些词语的几个义项的中文词、词性以及概念描述等完全相同，只有对应的英文词不同而表示为不同的义项。本发明将中文词相同且概念描述也相同的但编号不同的概念进行合并，并重新为其编号，然后再提取语义关系构建语义关系图。

在本发明中，每一条语义关系记录采用语义三元组的形式存储，存储格式如表1所示，采用这样的存储方式便于对已构建好的语义关系图进行扩展，在扩展时只要将新的语义关系三元组加入图中即可达到扩展语义关系图的目的。

表1 语义关系的存储格式

提取出《知网》中存在的语义关系后，这些关系互相关联后则形成了一张网，称之为语义关系图。该语义关系图符合图的一般特点，具有图结构的一般性质。由于该图是以语义三元组为单位进行存储，因此该图具有良好的可扩展性，并且可以融合其他语义资源的语义关系，进一步完善词语间的语义关联信息，得到两个词语间更为客观的相关度。

步骤2：语义关系图的扩展；通过分析大规模的语料，统计出其中的依存词语搭配，并将这些词语搭配及其依存关系扩展到已构建好的语义关系图中，达到进一步丰富语义关系图的目的，并完成语义关系图的构建。对基于《知网》构建好的语义关系图做进一步的扩展，来丰富其中的语义关联信息。采用哈尔滨工业大学所作的依存句法分析器，对主要来自于人民日报的语料进行句法分析，从中提取出具有依存关系的词语搭配对，每一个词语搭配对与它们的依存关系则构成了一个语义关系三元组，将这些语义关系三元组加入到基于《知网》构建的语义关系图中，就实现了语义关系图的扩展。具体的扩展步骤如下：

(3)为每个依存搭配对中两个词语间的语义关系赋予一个关系词，这样每个搭配对及其关系词则构成一个语义关系三元组；

(4)依次将频次大于一定阈值的语义关系三元组加入到基于《知网》构建的语义关系图中。

经过以上处理，则实现了对语义关系图的扩展，丰富了语义关系图中词语与概念的语义关联关系，并得到了一张相对完善的语义关系图。构建好语义关系图，我们就可以把图论的知识与图中词语以及概念之间错综复杂的关系相结合设计词语相关度计算的算法，并最终实现词汇语义相关度的计算。

步骤3：词语相关度计算算法设计；语义相关度：给定两个实体E1和实体E2，它们之间的语义相关度通过函数Rel(E1,E2):S×S→[0,1]表示，它体现了集合S中两个实体E1和E2之间的语义相关程度[8]。

结合图论中两点连通的概念，本发明给出如下定义：

语义连通：在语义关系图中，有结点E1、E2、E3......、En，如果从结点E1到结点E2有路径，则称E1和E2是语义连通的。

连通路径长：在语义连通的结点E1和结点E2之间，连通路径长用L表示，并且是一个实数值型函数，L(E1,E2)∈(0,∞)，表示S中的结点E1和E2之间的语义距离的度量。在本发明中，连通路径长L等于结点E1和E2的连通路径上语义关系边的数量。

假设在语义关系图中，如果结点E1和E2之间有至少一条语义连通路径，则认为结点E1和E2是语义相关的。如果两个实体E1和E2相关，那么在语义关系图上，结点E1和E2之间应该存在至少一条连通路径，或者E1与以E2为中心的一定连通路径长度范围内的结点集合中的某个元素的相似度很大(或者E2与以E1为中心的相关结点的相似度很大)。以上假设是为了对两个实体之间的语义相关度进行量化，本发明语义相关度计算算法：

(1)在语义关系图中，两个语义连通的实体结点之间的连通路径越多，则认为两个实体越相关；反之，则认为两个实体之间的相关度越低。

在两个存在语义连通路径的实体之间，假设它们的连通路径长都相等，那么，连通路径的数量和两个实体之间的相关度的大小成正比，即认为语义相关度的值随着连通路径数量的增加而增大，随着连通路径数量的减少而减小。例如图2中结点A和B的连通路径有2条，且长度都为2；图3中，结点A和B的连通路径有3条，且长度也同样都为2，在这样情形下，我们自然会认为图3中A和B的相关度要大于图2中A和B的相关度，因为在相同关联路径长的前提下，图3中A和B比图2中A与B之间存在有更多的语义关联。

(2)在两个存在语义连通路径的实体之间，假设它们的连通路径数量都相等，那么，连通路径长度和相关度的大小成反比，即认为语义相关度的大小随着连通路径长度的增大而减小，随着连通路径长度的减小而增大。例如图4中结点A和C的连通路径有1条，且长度为2；图5中，结点A和C的连通路径也有1条，但长度为1，在这样的情形下，我们认为图5中A和C的相关度要大于图4中A和C的相关度。因为在相同数量的关联路径的前提下，图5中A和C是直接相关的，而图4中A和C则是依赖于其他结点才能相互关联。

(3)在语义关系图中，若两个实体结点之间没有连通路径，则有两种可能：

①在构建语义关系图时，语义资源有限导致语义关系图并不能够穷举出所有的语义关系，致使某些语义关联缺失，从而使得某些有关联的词语失去语义关联，表现在语义关系图上即为两词语的结点之间没有语义连通路径；

②两实体语义不相关。

对于第三种情况，本文采用相似词替换的方法计算相关度。首先，以其中一个实体结点A为中心，找出其固定连通路径长度内的所有相关结点，从这些结点中选出与另一个实体结点B语义最相似的结点C，当B与C的相似度Sim(B,C)大于一定阈值时，则计算出A与C的相关度Rel(A,C)；然后以B为中心，采用同样的方法，计算出Sim(A,C')与Rel(B,C')；最后，从Sim(B,C)×Rel(A,C)与Sim(A,C')×Rel(B,C')中选择较大者作为A与B的相关度；若Sim(B,C)与Sim(A,C')都小于设定的阈值，即没有与A或B非常相似的词时，则认为A与B的相关度为0，即A与B语义不相关。本文在计算两个词语的相似度时采用文献[10]的方法。在给定两个词语后，通过遍历语义关系图，得到这两个词语的语义连通路径数N和每条连通路径的长度Li后，则可通过N和Li计算出两个词语的相关度。

为了使算法比较好实现和强调路径长度的影响，在计算中不考虑连通路径中长度超过6(包含6)的路径，并且为连通路径长为1～5的路径分别赋予系数βk(1≤k≤5≤5)。由此，可得到每条路径的带权长度为βkLi，其中，k∈[1,5]，i∈[1,N]。因此，

总路径长L：

L = Σ_{i = 1}^{N} β_{k} L_{i}, 1 \leq k \leq 5; - - - (1)

平均路径长

\overset{&OverBar;}{L} = \frac{1}{N} Σ_{i = 1}^{N} β_{k} L_{i}, 1 \leq k \leq 5; - - - (2)

因此，当两个词语在语义关系图中存在长度小于6的语义连通路径时，它们的相关度为：

Re l = \frac{\log_{2} (N + 1)}{\log_{2} (N + 1) + 2 \frac{1}{N} Σ_{i = 1}^{N} β_{k} L_{i}}, 1 \leq k \leq 5 - - - (3)

基于语义关系图的词语相关度计算的算法描述如下：

Step2.利用公式(3)计算A与B的相关度Rel(A,B)，转Step8；

Step5.重复步骤1～2，利用公式(3)计算A与C的相关度Rel(A,C)，并计算Sim×Rel(A,C)，记为Reli(A,B)，(i＝1,2)；

Step6.结点A和B角色互换，采用同样的方法，重复步骤3～5；

Step7.计算A与B的相关度Rel(A,B)＝MaxReli(A,B),(i＝0,1,2)，转Step8；

Step8.结束。

本发明计算方法的实验及结果分析：经过对HowNet2012以及人民日报2000年语料中数据的处理，构造语义关系图共包括836147个语义关系。其中基于HowNet2012提取的语义关系共有524921个，语义关系种类共有98种。在已经构建好的语义关系图的基础上，参数设置如下：β1＝1.0，β2＝1.2，β3＝1.4，β4＝1.7，β5＝2.0。实验结果如表2所示：

表2 语义相关度计算的实验结果

由表2中数据可以看出，绝大部分结果是比较符合习惯上对相关度的主观判断，且实验结果比较平稳，不会出现极端值的问题。

本发明以《知网》中概念之间以及概念的属性之间的语义关系和大规模语料中统计出的词语依存关系为基础，构建了一张语义关系图，然后，将此语义关系图与图论的相关知识相结合，提出了一个基于语义关系图的词汇语义相关度计算的算法。实验表明，采用本文中所述的方法得到的相关度计算结果比较理想。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种词汇语义相关度的计算方法，其特征在于按照以下步骤进行：

步骤1：语义关系图的构建：

1）根据《知网》中词语的语义信息以及知网对词语语义的表示特点，提取出知网中的语义关系，构建出了基于知网的语义关系图；语义关系图由表示语义的节点和表示语义节点间关系的边组成，整个语义关系图以边为单位采用三元组的方式存储，每一个语义关系三元组作为一个存储记录；

2）《知网》中的语义关系提取：

设{s1:r1={s2:r2={s3}}}，每一对括号所包括的部分都是一个概念，其中s1，s2，s3是义原；r1，r2是关系词，r1是表示s1和{s2:r2={s3}}之间关系的关系词，r2是表示s2和{s3}之间关系的关系词；

（1）如果关系词后面所连接的概念只是一个义原，则直接提取语义关系；

（2）如果关系词后面所连接的概念不只是一个义原，而是多个义原，这时需要考察关系词后面所连接的概念是否可以用某个义项表示，若可以用特定义项表示，则提取语义关系，否则，不提取该关系词的语义关系；

（3）如果关系词所在的整个概念可用某个义项表示时，则将关系词前面的义原替换为该义项并提取语义关系；

（4）对于每个义项都提取该义项与其第一基本义原的语义关系；

（5）反义、对义、同义关系的提取，这三种关系从《知网》的Antonym set、Converse Set、SynsetSet、TaxonomyAntonym、Taxonomy Converse文件中直接提取；

3）将中文词相同且概念描述也相同的但编号不同的概念进行合并，并重新为其编号，然后再提取语义关系构建语义关系图，提取出《知网》中存在的语义关系后，这些关系互相关联后则形成了一张网，称之为基于《知网》构建的语义关系图；

步骤3：词语相关度计算；在给定两个词语后，通过遍历语义关系图，得到这两个词语的语义连通路径数N和每条连通路径的长度Li，在计算中不考虑连通路径中长度大于等于6的路径，并且为连通路径长为1～5的路径分别赋予系数βk（1≤k≤5≤5），得到每条路径的带权长度为βkLi，其中，k∈[1,5]，i∈[1,N]；

总路径长L：

L = Σ_{i = 1}^{N} β_{k} L_{i}, 1 \leq k \leq 5; - - - (1)

平均路径长

\overset{&OverBar;}{L} : \overset{&OverBar;}{L} = \frac{1}{N} Σ_{i = 1}^{N} β_{k} L_{i}, 1 \leq k \leq 5; - - - (2)

Re l = \frac{\log_{2} (N + 1)}{\log_{2} (N + 1) + 2 \frac{1}{N} Σ_{i = 1}^{N} β_{k} L_{i}}, 1 \leq k \leq 5 - - - (3)

基于语义关系图的词语相关度计算的算法描述如下：

Step2.利用公式（3）计算A与B的相关度Rel(A,B)，转Step8；

Step5.重复步骤1和步骤2，利用公式（3）计算A与C的相关度Rel(A,C)，并计算Sim×Rel(A,C)，记为Reli(A,B)，(i=1,2)；

Step7.计算A与B的相关度Rel(A,B)=MaxReli(A,B),(i=0,1,2)，转Step8；

Step8.结束。

2.按照权利要求1所述一种词汇语义相关度的计算方法，其特征在于：

所述步骤2中语义关系图的扩展方法为：