CN103678703A

CN103678703A - 一种借助图随机游走的开放类别命名实体抽取方法及装置

Info

Publication number: CN103678703A
Application number: CN201310745097.4A
Authority: CN
Inventors: 刘康; 赵军; 齐振宇
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2014-03-26
Anticipated expiration: 2033-12-30
Also published as: CN103678703B

Abstract

本发明公开了一种借助图随机游走的开放类别命名实体抽取方法，该方法包括步骤：步骤1，分析种子在语料中的上下文得到模板；步骤2，使用模板从语料抽取候选实体；步骤3，根据种子实体、模板和候选实体之间的关系构造图；步骤4，在图上使用随机游走算法计算候选实体的置信度。该方法能够克服模板质量不同对候选实体置信度计算带来的不良影响，有效地提高了开放类别命名实体抽取的准确率。经过实验证明，抽取结果的平均准确率提高了4.36%。

Description

一种借助图随机游走的开放类别命名实体抽取方法及装置

技术领域

本发明涉及自然语言处理技术领域，是一种从大规模文本语料中抽取开放类别命名实体的方法及装置。

背景技术

命名实体在人类语言中传递着重要信息，它的识别和抽取是自然语言处理研究中的关键技术之一。开放类别命名实体抽取技术的目标是从海量、冗余、异构、不规范的网络数据中抽取开放类别的命名实体，进而构建开放类别命名实体列表。这些开放类别命名实体列表在工业界和学术界都具有重要用途。因此，开放类别命名实体抽取技术具有重要的理论意义和实用价值。

传统的开放类别命名实体抽取系统一般采取模板的方法：通过分析种子实体在语料中的上下文得到模板；接下来使用模板从语料中抽取候选实体；然后将候选实体和种子实体用各自匹配的模板加以表示，在模板空间上计算每个候选实体与种子实体的相似度；最后将该相似度作为该候选实体的置信度，并根据置信度对候选实体排序作为最终结果。

传统的基于模板的开放类别命名实体抽取方法，在计算候选实体置信度时没有考虑种子的影响，也没有考虑不同模板在质量上的差别。因此，不能很好地计算候选实体的置信度。

发明内容

为了克服现有技术存在的缺陷，本发明提出了一种借助图随机游走的开放类别命名实体抽取方法和装置，实现了从大规模文本语料中进行开放类别命名实体的抽取。

根据本发明的一个方面，提出了一种借助图随机游走的开放类别命名实体抽取方法，该方法包括步骤：步骤1，分析种子在语料中的上下文得到模板；步骤2，使用模板从语料抽取候选实体；步骤3，根据种子实体、模板和候选实体之间的关系来构造图；步骤4，在图上使用随机游走算法计算候选实体的置信度。

优选地，步骤1进一步包括：取上下文窗口大小为3，即取种子出现的前三个词项与后三个词项构成模板放入模板池中。

优选地，过滤掉模板池中只出现过一次的模板。

优选地，步骤2进一步包括：依次取出模板池中的模板，将语料中匹配模板的字符串抽取出来放入候选实体池，同时记录<候选-模板>之间的匹配关系。

优选地，在步骤2，滤掉模板池中只出现过一次的模板。

优选地，在步骤3，图由节点和边组成，节点分为三类：种子实体、模板和候选实体，每个种子实体、模板或候选实体在图中都表示为一个节点，边分为两类：第一类是种子实体与根据该种子实体学到的模板之间用边连接；第二类是候选实体与抽取该候选实体的模板之间用边连接，由此得到一个无向图，作为图随机游走的输入。

优选地，步骤4进一步包括：

步骤41，构建初始状态矩阵，在该步骤，初始状态矩阵P₀的初始值使用如下方法计算：

其中|S|为种子集合大小，根据上述初始化方式得到的初始状态矩阵P₀，各列元素之和等于1；

步骤42，构建状态转移矩阵M，在该步骤，首先构建(m+n)*(m+n)维方阵M₀，其中m为实体类节点的个数，n为模板类节点的个数，M₀中每一行记录一个节点与其他节点的连接情况，M₀(ij)表示第i个节点和第j个节点之间的关系，i和j为整数，其取值范围均为[1,m+n]，M₀(ij)的值设定如下：

之后对M₀的每一行进行归一化得到状态转移矩阵M，使得M每一行的元素的和等于1；

步骤43，候选实体置信度计算，在该步骤，使用迭代的方法计算稳定状态矩阵P_*，根据上一轮迭代结果P_t计算本轮迭代结果P_t+1，具体计算公式如下：

P_t+1＝0.5*M^T*P_t+0.5*P₀

当在t＝T时刻，|P_t+1-P₁|≤ε或者T＞iter时，迭代停止，则P_*＝P_t+1。这里ε表示预设的一个更新误差，在本发明中ε＝0.001。iter表示预设的迭代次数，本方法取iter＝500。P_*中候选实体对应节点的概率值则作为该节点的置信度。

根据本发明的另一方面，还提供了一种借助图随机游走的开放类别命名实体抽取装置，该装置包括：候选实体抽取模板，用于使用动态模板学习的策略来抽取候选实体，该模块的输入是种子实体，输出是候选实体，在该模块中，首先通过分析种子实体在语料中的上下文得到模板集合，接下来抽取语料中匹配模板的字符串作为候选实体；候选实体置信度计算模块，其用于构造一个图，该图的节点包括种子实体、模板和候选实体三类，而图的边则反映了种子实体与模板的学得/被学得关系以及模板与候选实体之间的抽取/被抽取关系，在图上通过随机游走计算候选实体置信度，并据此对候选实体进行重排序，排序结果将作为抽取结果返回。

本发明采用模板质量与候选实体置信度相互影响的思想来提升开放类别命名实体抽取的效果。与简单的基于模板空间相似度不同，基于图随机游走的方法能够综合考察模板质量与候选实体置信度，尽可能给予正确候选实体较高的置信度，从而显著地提升系统性能。

附图说明

图1是本发明中借助图随机游走的方法辅助开放类别命名实体抽取方法原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的基本思想是通过综合考量模板质量与候选实体置信度，对使用模板抽取的候选实体根据其置信度进行排序，从而提高开放类别命名实体抽取结果的准确率。

对于开放类别命名实体抽取，面临的主要难点在于计算候选实体的置信度。解决这个问题的方法是综合考量候选实体的置信度与模板的质量。候选实体是通过模板进行匹配得到的，候选实体与模板之间存在以下关系：对候选实体而言，被数量越多、质量越高的模板发现的候选实体，越可能是正确的候选实体。对模板而言，找到候选实体越多，其中正确候选实体比率越高的模板，越可能是高质量的模板。因此本发明将种子实体、模板和候选实体三者作为节点；将种子实体与模板的学得/被学得关系以及模板与候选实体之间的抽取/被抽取关系作为边构造图。在图上从种子节点出发，进行随机游走。在达到稳定状态或达到预定迭代次数后停止游走，将走到每个候选实体的概率作为该候选实体的置信度并据此对候选实体进行排序，得到最终结果。

根据上述思路，本发明主要针对开放类别命名实体抽取存在的难点入手，成功地使用图随机游走算法度量模板质量和候选实体置信度，通过实验证明，该方法有效地提高了开放类别命名实体抽取结果的平均准确率。

图1为本发明借助图随机游走的开放类别命名实体抽取方法原理图。如图1所示，该方法主要包括候选实体抽取和候选实体置信度计算两个过程，其中候选实体抽取过程进一步包括模板习得和候选实体抽取两个步骤，候选实体置信度计算过程进一步包括图构造和图随机游走两个步骤。下面对该方法包含的各个步骤进行详细说明。

步骤1，模板习得。该步骤分析种子实体在语料中的上下文得到模板。本发明中取上下文窗口大小为3，即取种子出现的前三个词项与后三个词项构成模板放入模板池中。为提高模板的有效性，减少随机事件的影响，在这一阶段过滤掉模板池中只出现过一次的模板。

步骤2，候选实体抽取。依次取出模板池中的模板，将语料中匹配模板的字符串抽取出来放入候选实体池，同时记录<候选-模板>之间的匹配关系。同样为减少随机事件的影响，在这一阶段过滤掉候选实体池中只出现过一次的候选实体。

步骤3，构建图。图由节点和边组成。节点可以分为三类：种子实体、模板和候选实体。每个种子实体、模板或候选实体在图中都表示为一个节点。边可以分为两类：1）种子实体与根据该种子实体学到的模板之间用边连接；2）候选实体与抽取该候选实体的模板之间用边连接。这样得到一个无向图，作为图随机游走模块的输入。

步骤4，图随机游走。根据图构建模块生成的无向图，本发明计算候选实体的置信度，具体的操作如下所述：

步骤41，构建初始状态矩阵

初始状态矩阵P₀的初始值使用如下方法计算：

其中|S|为种子集合大小。

根据以上两种初始化方式得到的初始状态矩阵P₀，各列元素之和等于1。

步骤42，构建状态转移矩阵M

首先构建(m+n)*(m+n)维方阵M₀，其中m为实体类节点的个数，n为模板类节点的个数。M₀中每一行记录一个节点与其他节点的连接情况，M₀(ij)表示第i个节点和第j个节点之间的关系，i和j为整数，其取值范围均为[1,m+n]。M₀(ij)的值设定如下：

之后对M₀的每一行进行归一化得到状态转移矩阵M，使得M每一行的元素的和等于1。

步骤43，候选实体置信度计算方法

使用迭代的方法计算稳定状态矩阵P_*，根据上一轮迭代结果P_t计算本轮迭代结果P_t+1，具体计算公式如下：

P_t+1＝0.5*M^T*P_t+0.5*P₀

根据本发明的另一方面，还提出了一种借助图随机游走的开放类别命名实体抽取装置，该装置实现上述描述的本发明的方法。该装置包含两个模块，第一个模块是候选实体抽取模板，使用动态模板学习的策略来抽取候选实体。该模块的输入是种子实体，输出是候选实体。在该模块中，首先通过分析种子实体在语料中的上下文得到模板集合。接下来抽取语料中匹配模板的字符串作为候选实体。第二个模块是候选实体置信度计算模块，在该模块中，将构造一个图。图的节点包括种子实体、模板和候选实体三类，而图的边则反映了种子实体与模板的学得/被学得关系以及模板与候选实体之间的抽取/被抽取关系。在图上通过随机游走计算候选实体置信度，并据此对候选实体进行重排序。排序结果将作为抽取结果返回。

为了说明系统的性能，本发明做了实验来验证本方法的性能。

1)测试语料

使用Wikipedia20110722版本的纯文本作为语料。经过初步处理（去除infoBox，链接关系等）后的语料包含350万篇文档，共约8.68G纯文本数据。另外选取10个语义类别作为测试的语义类，这10个语义类共包含784个命名实体。

2)图随机游走方法的提高

通过对比图随机游走方法的结果与三种其他常用方法的结果来说明本方法的有效性。结果如下表：

表1图随机游走方法结果与基于模板向量方法结果对比

从上表可以看到，相对于其他常用方法，图随机游走方法分别取得了25.24%，27.07%和4.36%的平均正确率的提升。

从上述实验结果可以看到，使用图随机游走的方法辅助开放类别命名实体抽取取得了不错的效果。这个方法被证明是有效的。

本发明的借助图随机游走的开放类别命名实体抽取方法和装置，不同于传统的将候选实体映射到模板空间来计算其置信度的方法，本发明将候选实体置信度计算和模板质量评估结合在一起。先通过分析种子实体在大规模文本语料中的上下文得到若干模板。接下来使用这些模板从大规模文本语料抽取候选实体。然后，使用种子实体与模板的学得/被学得关系以及模板与候选实体之间的抽取/被抽取关系构造图，最后在图上使用随机游走算法计算候选实体的置信度从而得到最后结果。该方法能够克服模板质量不同对候选实体置信度计算带来的不良影响，有效地提高了开放类别命名实体抽取的准确率。经过实验证明，抽取结果的平均准确率提高了4.36%。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种借助图随机游走的开放类别命名实体抽取方法，该方法包括步骤：

步骤1，分析种子在语料中的上下文得到模板；

步骤2，使用模板从语料抽取候选实体；

步骤3，根据种子实体、模板和候选实体之间的关系来构造图；

步骤4，在图上使用随机游走算法计算候选实体的置信度。

2.根据权利要求1所述的方法，其特征在于，步骤1进一步包括：取上下文窗口大小为3，即取种子出现的前三个词项与后三个词项构成模板放入模板池中。

3.根据权利要求2所述的方法，其特征在于，在步骤1，过滤掉模板池中只出现过一次的模板。

4.根据权利要求1所述方法，其特征在于，步骤2进一步包括：依次取出模板池中的模板，将语料中匹配模板的字符串抽取出来放入候选实体池，同时记录<候选-模板>之间的匹配关系。

5.根据权利要求4所述的方法，其特征在于，在步骤2，滤掉模板池中只出现过一次的模板。

6.根据权利要求1所述的方法，其特征在于，在步骤3，图由节点和边组成，节点分为三类：种子实体、模板和候选实体，每个种子实体、模板或候选实体在图中都表示为一个节点，边分为两类：第一类是种子实体与根据该种子实体学到的模板之间用边连接；第二类是候选实体与抽取该候选实体的模板之间用边连接，由此得到一个无向图，作为图随机游走的输入。

7.根据权利要求6所述的方法，其特征在于，步骤4进一步包括：

P_t+1＝0.5*M^T*P_t+0.5*P₀

直到P_*稳定或迭代次数超过预先设定的阈值iter，将P_*中候选实体对应节点的概率值作为该节点的置信度。

8.一种借助图随机游走的开放类别命名实体抽取装置，该装置包括：

候选实体抽取模板，用于使用动态模板学习的策略来抽取候选实体，该模块的输入是种子实体，输出是候选实体，在该模块中，首先通过分析种子实体在语料中的上下文得到模板集合，接下来抽取语料中匹配模板的字符串作为候选实体；

候选实体置信度计算模块，其用于构造一个图，该图的节点包括种子实体、模板和候选实体三类，而图的边则反映了种子实体与模板的学得/被学得关系以及模板与候选实体之间的抽取/被抽取关系，在图上通过随机游走计算候选实体置信度，并据此对候选实体进行重排序，排序结果将作为抽取结果返回。