CN103729343A

CN103729343A - 基于百科链接共现的语义消岐方法

Info

Publication number: CN103729343A
Application number: CN201310471554.5A
Authority: CN
Inventors: 朱其立; 蔡智源; 赵凯祺
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2014-04-16

Abstract

本发明提供了一种基于百科链接共现的语义消岐方法，包括步骤：步骤1：预处理：收集词义，建立短语和词义之间的映射关系，识别出名词短语；步骤2：链接共现信息的扩充，收集初始共现信息，更新链接，更新共现信息，加入新添加的链接与其他链接的共现；步骤3：利用扩充的链接共现信息，对给定的文本进行消岐。本发明具有的有益效果：1）采用共现信息进行消岐更加直接，计算复杂度也更低；2）采用链接的共现亦即词义的共现，避免了采用词义与背景词共现时背景词有岐义，导致消岐过程存在噪音的问题；3）采用百科作为知识库，可以进一步完成多单词词语的消岐。

Description

基于百科链接共现的语义消岐方法

技术领域

本发明涉及自然语言处理，具体地，涉及基于百科链接共现的语义消岐方法。

背景技术

经对现有技术进行检索，发现如下相关检索结果。

相关检索结果3：

申请（专利）号：200810117907.0，名称：一种利用计算机对词义进行排岐的方法、系统及检索方法。

该专利文献利用岐义词的背景特征词对岐义词每个义项的贡献度来确定岐义词的涵义，计算机可以自己对排岐进行学习。

该专利文献依赖于标记好词义的语料。对于一个词义，语料中出现的其他词为背景词并计算权重，消岐时通过计算每个词义与给定文本背景词的加权和来选取最佳词义。这里存在的问题就是这些背景词本身也可能是有岐义的，可能为消岐带来噪音。

技术要点比较：

1.该专利文献采用词义与背景词的共现作为消岐依据，由于背景词本身可能是有岐义的，会对消岐过程带来噪声，本发明采用链接即词义间的共现，避免了这一问题；

2.该专利文献需要对文章进行词义标注，而本发明可以采用维基百科，无需这一耗时过程。

发明内容

针对上述现有技术中的缺陷，，本发明的目的是提供一种基于百科（如维基百科或百度百科）中链接共现的语义消岐方法。本发明要解决的技术问题体现在以下几点：

1）可以引入百科链接的共现作为消岐的信息，与现有技术中应用的相似度、相关度等信息相比，共现信息更加直接、计算复杂度也更低。

2）百科中每个链接对应一个具体的词义，所以链接的共现实质上也是词义间的共现，这避免了采用词义与背景词的共现信息中背景词有岐义，因而消岐过程中不存在噪音的问题。

3）对于英文消岐，wordnet是一个常用的知识库，但wordnet主要包含单个单词的词语，利用百科则可以进一步完成多单词词语的消岐。

4）百科中含有的链接是比较稀疏的，为了更好地完成消岐任务，需要对百科原先的链接共现信息进行有效的扩充。

5）给定的待消岐文本是不带链接的，因此需要设计一套利用链接共现信息完成文本消岐的算法。

根据本发明提供的基于百科链接共现的语义消岐方法，包括如下步骤：

步骤1：预处理：

步骤1.1：收集词义，建立短语和词义之间的映射关系；

步骤1.2：识别出名词短语；

步骤2：链接共现信息的扩充；

步骤2.1：收集初始共现信息；

步骤2.2：更新链接，其中，根据已经收集的共现信息，尝试对不带链接的名词短语进行消岐，为不带链接的名词短语加上链接；

步骤2.3：更新共现信息，加入新添加的链接与其他链接的共现。

其中，在步骤2中重复步骤2.2和步骤2.3，直至步骤2.2不能再添加新的链接为止；

步骤3：利用扩充的链接共现信息，对给定的文本进行消岐。

优选地，所述步骤1.1包括如下任一种或任多种步骤：

-根据百科的消歧页面获取短语和词义之间的映射关系；

-根据百科的组织方式获取短语和词义之间的映射关系。

优选地，所述步骤1.2包括如下步骤：

步骤1.2.1：除去百科中的链接，得到纯文本的版本；

步骤1.2.2：然后将得到的纯文本作为输入，利用自然语言处理工具，以文章为单位，将纯文本中的名词短语识别出来；

步骤1.2.3：将百科原有的带有链接短语和识别的名词短语进行整合；

步骤1.2.4：整合后对于每篇百科的文章，均获取一个名词短语的列表，列表中的名词短语中有带链接和不带链接两种。

优选地，在所述步骤1.2.3中，所述的整合，是指根据带链接短语和识别的名词短语的包含关系，进行如下处理：

对于每篇文章，若识别的名词短语和带链接短语没有交集，则在识别的名词短语中寻找最长的在步骤1.1中得到的映射中的短语；若有交集，则根据带链接短语的链接的位置将识别的名词短语分割成小的短语，在小的短语中匹配映射中的短语。

优选地，所述步骤2.1，具体为：

以文章为单位，遍历每个带链接的名词短语A，所有与这个带链接的名词短语A间隔小于自然数Wc个短语的带链接的名词短语B，都视为与带链接的名词短语A共现，那么，带链接的名词短语A和带链接的名词短语B的这两个链接所指向的文章所描述的词义被认为共现，带链接的名词短语A和带链接的名词短语B的词义的共现次数加1。

优选地，所述步骤2.2，具体为：

对于不带链接的名词短语Tu，确定Tu的词义并添加链接。先找到与不带链接的名词短语Tu间隔小于Wc个短语的带链接的名词短语，这些带链接的名词短语的词义集合记为Sl，那么对不带链接的名词短语Tu的每个可能的词义Su通过以下公式计算分数Score(Su)：

Score(Su)=Σ_SinS1Cooccur(S,Su)

其中，Σ_SinS1表示对Sl中每个词义S和Su的共现次数进行叠加，S表示集合Sl中的一个词义，Cooccur（S,Su）即表示S和Su两个词义的共现次数。

如果分数最高的词义和分数第二高的词义之间的比值大于阈值t，则确定Tu的词义为分数最高的词义，同时为Tu加上指向分数最高词义的链接。

优选地，所述步骤3包括如下步骤：

步骤3.1：利用自然语言处理工具，将给定文本中的名词短语识别出来；

步骤3.2：从第一个名词短语开始，以自然数Ws个短语为单位，对给定文本进行扫描，扫描过程中，先计算这Ws个短语词义的所有组合，每个组合通过以下公式计算组内分数Score(C)：

Score(C)=Σ_Si,SjinC;i>jCooccur(Si,Sj)

其中，Σ_Si,SjinC;i>j表示对C这个词义组合中两两词义的共现次数进行叠加，C表示一个词义组合，Si和Sj表示词义组合C中的两个词义，Cooccur（Si,Sj）表示Si和Sj两个词义的共现次数；

步骤3.3：选取分数Score(C)最高的组合，记录每个名词短语在这个组合中的词义和组合的分数；

其中，通过步骤3.2、步骤3.3完成一次扫描结束后，将扫描区间在给定文本中往后移一个短语，继续扫描直至到最后一个名词短语；

所有扫描结束后，每个名词短语都会有一个（词义，分数）配对的列表，将这些配对根据词义分组，组内分数的和作为这个分组的分数，最后，选取分数最高的分组，这个分组对应的词义就是对应名词短语的最后词义；

对所有识别的名词短语都得到最后词义，整个消岐过程完成。

优选地，所述步骤1包括如下步骤A11）-A16)、或者步骤B11）-B15）；

步骤A11）-A16)具体为：

步骤A11）从百科官网下载百科的Dump文件，通过解析XML获取百科中页面的id和文本内容，这里得到的每一个id都对应一个词义；

步骤A12）解析属于Disambiguation Page分类的页面，获取页面中链接指向的页面的id，从而建立该Disambiguation Page页面标题，即一个短语，的词义集合。

步骤A13）解析属于Redirect Page分类的页面，该页面标题的词义集合中加入该页面指向的页面的id作为词义；

步骤A14）除去百科文本中的链接，得到纯文本版本，利用Shallow Parse，即浅层解析器，识别出文本中的名词短语；

步骤A15）将链接放回文本，此时步骤A14）识别出来的短语中可能包含链接的全部或一部分；依据链接对短语进行分割，保证分割后的短语范围不包含链接；

步骤A16）在分割后的短语中匹配页面的标题，从而得到带链接和不带链接的两类短语；

步骤B11）-B15）具体为：

步骤B11）抓取百科页面，通过解析HTML获取百科中页面的id和文本内容，这里得到的每一个id都对应一个词义；对于含有多个词义的页面，页面的id和词义所在区块的id组合起来对应一个词义；

步骤B12）从百科页面中直接获得页面标题，即一个短语，的词义集合，该集合被列在页面的开头部分，如果该短语有同义词，也会被列在页面的开头；

步骤B13）除去百科文本中的链接，得到纯文本版本；利用Shallow Parse，即浅层解析器，识别出文本中的名词短语；

步骤B14）将链接放回文本，此时步骤B13）识别出来的短语中可能包含链接的全部或一部分；依据链接对短语进行分割，保证分割后的短语范围不包含链接；

步骤B15）在分割后的短语中匹配百科页面的标题，从而得到带链接和不带链接的两类短语。

优选地，所述步骤2包括如下步骤：

步骤21）以页面为单位，遍历每个带链接的短语A，所有与这个带链接的短语A间隔小于10个短语的带链接短语B，都视为与之共现；共现数据以哈希表的形式保存；对于共现的两个带链接短语A、B，通过以下公式根据链接指向的页面id计算键值：

Key(id1,id2)=Min(id1,id2)*1000000000+Max(id1,id2)

其中，id1表示短语A的链接指向的页面id，id2表示短语B的链接指向的页面id，Key(id1,id2)表示通过id1和id2计算出的键值，Min(id1,id2)表示取id1和id2中的最小值，Max(id1,id2)表示取id1和id2中的最大值；

那么哈希表的对应项加1；

步骤22）根据已收集的共现数据，对不带链接的短语进行消岐，确定其词义，并为不带链接的短语加上链接；对于不带链接的名词短语Tu，先找到与不带链接的名词短语Tu间隔小于10个短语的带链接名词短语，这些短语的词义集合记为Sl，那么对Tu的每个可能的词义Su通过以下公式计算分数Score(Su)：

Score(Su)=Σ_SinS1Cooccur(S,Su)

其中Cooccur(S,Su)即S和Su两个词义的共现次数，通过哈希表查找；

如果分数最高的词义和分数第二高的词义之间的比值大于2，则确定Tu的词义为分数最高的词义，同时为Tu加上指向分数最高词义的链接；

步骤23）链接被更新后，更新哈希表，加入新添加的链接对应的词义与其他链接对应词义的共现数据。

与现有技术相比，本发明具有如下的有益效果：

1）采用共现信息进行消岐更加直接，计算复杂度也更低；

2）采用链接的共现亦即词义的共现，避免了采用词义与背景词共现时背景词有岐义，导致消岐过程存在噪音的问题；

3）采用百科作为知识库，可以进一步完成多单词词语的消岐。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明中消岐算法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

下面以维基百科为例，本发明提供的方法包括如下步骤：

步骤1：维基百科的预处理；

步骤2：链接共现信息的扩充；

步骤3：利用扩充的链接共现信息进行消岐。

其中，步骤1包括以下步骤：

步骤1.1：词义的收集；

消岐任务中利用的最基本的信息就是短语和其词义的映射关系，一个短语可能被映射到多个词义，而消岐就是确定短语在给定的上下文中的词义。常见的消岐方法以wordnet作为映射关系的来源，但维基百科自身并不包含这种映射信息，这也就是本步骤所需要完成的任务。首先，维基百科中的每篇文章都描述了一个特定的概念或实体，这里的每个概念或实体都被视为一个词义。接下来就是建立短语和词义间的映射。

维基百科中有一类Disambiguation页面（消歧页面），对于某个短语，Disambiguation页面中列出该短语可能代表的维基页面，即词义。于是，从Disambiguation页面可以直接得到短语和词义间的映射。此外，维基百科中还有页面重定向的机制。一个短语如果被重定向到某个页面，那么这个页面所描述的概念也被加入到该短语的词义中。对于其他不提供Disambiguation页面的百科，可以适应百科的组织方式获得短语和词义间的映射。如百度百科，它将一个短语的不用词义组织在同一个页面中，那么可以从这个页面中得到短语和词义间的映射。

步骤1.2：维基名词短语的识别；

在这一步骤中，首先除去维基百科中的链接，得到纯文本的版本；然后将得到的纯文本作为输入，利用自然语言处理工具，以文章为单位，将文本中的名词短语识别出来，其中，本领域技术人员可以结合现有技术实现所述自然语言处理工具，在此不再赘述；接下来，将维基百科原有的带有链接的短语和识别的名词短语作一个整合，整合的过程详见步骤1.2.1；整合后对于每篇维基百科的文章，都可以获取一个名词短语的列表，列表中的名词短语中有带链接和不带链接两种。

步骤1.2.1：带链接短语和识别名词短语的整合；

在这一步骤中，根据带链接短语和识别名词短语的包含关系，进行如下处理：

对于每篇文章，若识别的名词短语和带链接的短语没有交集，则在识别的名词短语中寻找最长的在步骤1.1中得到的映射中的短语；若有交集，则根据链接的位置将识别的名词短语分割成小的短语，在小的短语中匹配映射中的短语。

步骤2包括以下步骤：

步骤2.1：初始共现信息的收集；

在这一步骤中，以文章为单位，遍历每个带链接的名词短语A，所有与这个带链接的名词短语A间隔小于Wc（Wc为自然数）个短语（包括带链接和不带链接）的带链接的名词短语B，都视为与带链接的名词短语A共现，那么，带链接的名词短语A和带链接的名词短语B的这两个链接所指向的文章所描述的词义被认为共现，这两个词义的共现次数加1。

步骤2.2：更新链接：

在这一步骤中，根据已经收集的共现信息，尝试对不带链接的名词短语进行消岐，为不带链接的名词短语加上链接。对于不带链接的名词短语Tu，先找到与其间隔小于Wc个短语的带链接名词短语，这些带链接名词短语的词义集合记为Sl，那么对Tu的每个可能的词义Su通过以下公式计算分数Score(Su)：

Score(Su)=Σ_SinS1Cooccur(S,Su)

如果分数最高的词义和分数第二高的词义之间的比值大于阈值t，则确定Tu的词义为分数最高的词义，同时为Tu加上指向该词义的链接。

步骤2.3：更新共现信息：

链接被更新后，更新共现信息，加入新添加的链接与其他链接的共现。

步骤2会重复步骤2.2和2.3，直至步骤2.2不能再添加新的链接为止。

而步骤3根据步骤2得到的扩充后的共现信息，对给定的文本进行消岐。首先，利用自然语言处理工具，将给定文本中的名词短语识别出来。然后，从第一个名词短语开始，以Ws（Ws为自然数）个短语为单位，对文本进行扫描。扫描过程中，先计算这Ws个短语词义的所有组合，每个组合通过以下公式计算分数Score(C)：

Score(C)=Σ_Si,SjinC;i>jCooccur(Si,Sj)

其中，Σ_Si,SjinC;i>j表示对C这个词义组合中两两词义的共现次数进行叠加，C表示一个词义组合，Cooccur（Si,Sj）表示Si和Sj两个词义的共现次数。

选取分数Score(C)最高的组合，记录每个名词短语在这个组合中的词义和组合的分数。一次扫描结束后，将扫描区间往后移一个短语，继续扫描直至到最后一个名词短语。所有扫描结束后，每个名词短语都会有一个（词义，分数）配对的列表。将这些配对根据词义分组，组内分数的和作为这个分组的分数。最后，选取分数最高的分组，这个分组对应的词义就是这个名词短语的最后词义。对所有识别的名词短语都完成这一计算后，整个消岐过程完成。

进一步地，在一个针对维基百科的优选例中，本发明的详细实施方案如下：

一、维基百科的预处理

步骤11）从维基百科官网下载维基百科的Dump文件，通过解析XML获取维基百科中页面的id和文本内容，这里得到的每一个id都对应一个词义。

步骤12）解析属于DisambiguationPage分类的维基页面，获取页面中链接指向的页面的id，从而建立该DisambiguationPage页面标题（即一个短语）的词义集合。

步骤13）解析属于RedirectPage分类的页面，该页面标题的词义集合中加入该页面指向的页面的id作为词义。

步骤14）除去维基百科文本中的链接，得到纯文本版本。利用ShallowParse，即浅层解析器，识别出文本中的名词短语。

步骤15）将链接放回文本，此时步骤14）识别出来的短语中可能包含链接的全部或一部分。依据链接对短语进行分割，保证分割后的短语范围不包含链接。

步骤16）在分割后的短语中匹配维基页面的标题，从而得到带链接和不带链接的两类短语。

二、链接共现信息的扩充

步骤21）以页面为单位，遍历每个带链接的短语A，所有与这个带链接的短语A间隔小于10个短语（包括带链接和不带链接）的带链接短语B，都视为与之共现。共现数据以哈希表的形式保存。对于共现的两个带链接短语A、B，通过以下公式根据链接指向的页面id计算键值：

Key(id1,id2)=Min(id1,id2)*1000000000+Max(id1,id2)

其中，id1表示短语A的链接指向的页面id，id2表示短语B的链接指向的页面id，Key(id1,id2)表示通过id1和id2计算出的键值，Min(id1,id2)表示取id1和id2中的最小值，Max(id1,id2)表示取id1和id2中的最大值。

那么哈希表的对应项加1。

步骤22）根据已收集的共现数据，对不带链接的短语进行消岐，为其加上链接。对于不带链接的名词短语Tu，先找到与其间隔小于10个短语的带链接名词短语，这些短语的词义集合记为Sl，那么对Tu的每个可能的词义Su通过以下公式计算分数：

Score(Su)=Σ_SinS1Cooccur(S,Su)

其中Cooccur(S,Su)即S和Su两个词义的共现次数，通过哈希表查找。

如果分数最高的词义和分数第二高的词义之间的比值大于2，则确定Tu的词义为分数最高的词义，同时为Tu加上指向该词义的链接。

重复步骤22）和23）直至不能加入新的链接。

三、利用扩充的链接共现信息进行消岐

采用步骤14）同样的方法，识别出文本中名词短语。然后，从第一个名词短语开始，以5个短语为单位，对文本进行扫描。扫描过程中，先计算这5个短语词义的所有组合，每个组合通过以下公式计算分数：

Score(C)=Σ_Si,SjinC;i>jCooccur(Si,Sj)

选取分数最高的组合，记录每个短语在这个组合中的词义和组合的分数。一次扫描结束后，将扫描区间往后移一个短语，继续扫描直至到最后一个短语。所有扫描结束后，每个短语都会有一个（词义，分数）配对的列表,因为一个短语可能重复出现在多个扫描区间。将这些配对根据词义分组，组内分数的和作为这个分组的分数。最后，选取分数最高的分组，这个分组对应的词义就是这个短语的最后词义。对所有识别的短语都完成这一计算后，整个消岐过程完成。

除了维基百科，其他百科，只要页面内容中含有指向其他页面的链接，以及有组织一个短语不同词义的结构，就可以应用本发明。以百度百科为例，在具体实施方案上，只需对步骤一预处理部分进行修改：

步骤11）抓取百度百科页面，通过解析HTML获取百度百科中页面的id和文本内容，这里得到的每一个id都对应一个词义。对于含有多个词义的页面，页面的id和词义所在区块的id组合起来对应一个词义。

步骤12）从百度百科页面中直接获得页面标题（即一个短语）的词义集合，该集合被列在页面的开头部分，如果该短语有同义词，也会被列在页面的开头。

步骤13）除去百度百科文本中的链接，得到纯文本版本。利用Shallow Parse，即浅层解析器，识别出文本中的名词短语。

步骤14）将链接放回文本，此时步骤14）识别出来的短语中可能包含链接的全部或一部分。依据链接对短语进行分割，保证分割后的短语范围不包含链接。

步骤15）在分割后的短语中匹配百度百科页面的标题，从而得到带链接和不带链接的两类短语。

步骤二和步骤三与具体的百科形式无关，可以沿用维基百科的实施方案。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于百科链接共现的语义消岐方法，其特征在于，包括如下步骤：

步骤1：预处理：

步骤1.1：收集词义，建立短语和词义之间的映射关系；

步骤1.2：识别出名词短语；

步骤2：链接共现信息的扩充；

步骤2.1：收集初始共现信息；

步骤2.3：更新共现信息，加入新添加的链接与其他链接的共现；

步骤3：利用扩充的链接共现信息，对给定的文本进行消岐。

2.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤1.1包括如下任一种或任多种步骤：

-根据百科的消歧页面获取短语和词义之间的映射关系；

-根据百科的组织方式获取短语和词义之间的映射关系。

3.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤1.2包括如下步骤：

步骤1.2.1：除去百科中的链接，得到纯文本的版本；

4.根据权利要求3所述的基于百科链接共现的语义消岐方法，其特征在于，在所述步骤1.2.3中，所述的整合，是指根据带链接短语和识别的名词短语的包含关系，进行如下处理：

5.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤2.1，具体为：

6.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤2.2，具体为：

对于不带链接的名词短语Tu，需要确定Tu的词义并添加链接；先找到与不带链接的名词短语Tu间隔小于Wc个短语的带链接的名词短语，这些带链接的名词短语的词义集合记为Sl，那么对不带链接的名词短语Tu的每个可能的词义Su通过以下公式计算分数Score(Su)：

Score(Su)=Σ_SinS1Cooccur(S,Su)

7.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤3包括如下步骤：

Score(C)=Σ_Si,SjinC;i>jCooccur(Si,Sj)

8.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤1包括如下步骤A11）-A16)、或者步骤B11）-B15）；

步骤A11）-A16)具体为：

步骤A12）解析属于Disambiguation Page分类的页面，获取页面中链接指向的页面的id，从而建立该Disambiguation Page页面标题，即一个短语，的词义集合；

步骤A14）除去百科文本中的链接，得到纯文本版本，利用Shallow Parser，即浅层解析器，识别出文本中的名词短语；

步骤B11）-B15）具体为：

步骤B13）除去百科文本中的链接，得到纯文本版本；利用Shallow Parser，即浅层解析器，识别出文本中的名词短语；

9.根据权利要求1所述的基于百科链接共现的语义消岐方法，其特征在于，所述步骤2包括如下步骤：

Key(id1,id2)=Min(id1,id2)*1000000000+Max(id1,id2)

那么哈希表的对应项加1；

Score(Su)=Σ_SinS1Cooccur(S,Su)

如果分数最高的词义和分数第二高的词义之间的比值大于2，则确定Tu的词义为分数最高的词义，同时为Tu加上指向分数最高的词义的链接；