CN102844755A

CN102844755A - 提取命名实体的方法

Info

Publication number: CN102844755A
Application number: CN2010800664731A
Authority: CN
Inventors: 姚从磊; 熊宇红; 郑李炜
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2010-04-27
Filing date: 2010-04-27
Publication date: 2012-12-26
Also published as: WO2011134141A1; US20130204835A1

Abstract

提出了一种从大规模文档文集中提取命名实体的方法。该方法包括识别文集中的命名实体，并利用一些现有资源人工或自动形成种子实体集合，构造命名实体图以发现任何给定命名实体对之间的相同类型概率，扩展所述种子实体集合，以及在所述命名实体图上执行种子实体的置信度传播。

Description

提取命名实体的方法

背景技术

互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载，网络已成为搜索信息的最喜欢的地方。命名实体（NE named entity）搜索是搜索正确信息的机制之一。命名实体通常是指词或词组，例如公司、人的名称、位置、时间、日期、数值等。命名实体搜索可以使查找相关信息的任务变得相对容易。不过，如果在互联网上进行搜索，假设搜索文档的文集（corpus）可能潜在地是数百万文档，搜索具有多个简单命名实体的复杂命名实体（例如词组）不是小任务。

已经报告过用于命名实体提取的若干种方法。这些方法中的一些利用机器学习技术来训练模型，以从高质量的新闻专线文本提取公共命名实体。它们集中于针对特定的典型NE类型使用统计模型，例如隐马尔可夫模型、规则学习和最大熵马尔可夫模型。这些研究从手工加标签的训练文集中学习模型或规则，因此模型和规则仅对类似的文集有效，而对于具有不同统计特性或不同流派或风格的其他文集表现不佳。由于针对每种特定NE类型的训练模型成本高昂，所以这些方法不能满足一般命名实体提取的需求。

附图说明

为了更好地理解本发明，现在将参考附图完全以举例的方式描述实施例，在附图中：

图1示出了根据实施例的命名实体提取的计算机实施的方法的流程图。

图2示出了根据实施例的图1的方法的子例程的流程图。

图3示出了根据实施例的命名实体图的示范性图解表示。

图4示出了可以在其上实施实施例的计算机系统400的方框图。

具体实施方式

在包括附图的整个文档中可互换地使用以下术语。

(a) “节点”和“命名实体”

(b) “文档”和“电子文档”

本发明的实施例提供了用于从文档或文档文集提取命名实体（NE）的方法、计算机可执行代码和计算机存储介质。

本发明的实施例旨在在低质量文集上执行命名实体的有效提取，并以最低成本提取任何类型的实体。所提出的方法适应文档的多样性（例如在有组织的网页中），并且在大规模文集上提取大量命名实体是高效的。实施例从大规模文档文集有效地提取命名实体，在这种文档文集中，内容的冗余性不如网络规模的文集显著。

图1示出了根据实施例的提取命名实体的方法100的流程图。可以在计算机系统（或计算机可读介质）上执行方法100。

该方法在步骤110中开始。在步骤110中，访问文档或文档文集，并且识别文档或文档文集中出现的命名实体（NE），利用一些现有资源可以从其人工或自动形成种子实体集合。

文档文集可以是电子文档的集合，例如但不限于网页的集合。可以从诸如电子数据库之类的储存库（repository）获得文档。电子数据库可以是内部数据库，例如公司的内部网或外部数据库例如Wikipedia。而且，电子数据库可以存储在独立的个人计算机上或遍布在多个计算机器上，利用有线或无线技术联网在一起。例如，电子数据库可以被托管（host）在通过广域网（WAN）或互联网而连接的多个服务器上。

在实施例中，识别文集（例如内部网中的网页）中出现的所有可能的命名实体而不考虑其类型。该步骤识别简单和复杂的命名实体这二者。作为例示，可以识别简单实体，例如人名（“Jack Sparrow”）和位置（“曼谷”）。也可以识别复杂命名实体，例如产品名称（“Compaq Presario 3434 with HP Printer 4565”）和项目名称（“Entity Extraction Project in ABC Department”），而不论其类型如何。

在实施例中，可以使用一种基于排列（collocation）的方法（例如，D. Downey等人在Proc. of IJCAI，2007中的“Locating complex named entities in web text”所述的方法）来识别命名实体。不过，本实施例使用不同的方法判断命名实体的边界。它使用具有数字的项目（term）作为命名实体边界的标识符，并使用预定义的阈值来选择对称条件概率（SCP）高于阈值的候选者作为命名实体。

在步骤120中，构造命名实体图以发现以上步骤110中识别的任何给定命名实体对之间的相同类型概率。在构造命名实体图以发现任何给定命名实体对之间的相同类型概率中涉及的方法步骤包括若干子步骤，如图2中所示。在实施例中，使用基于语言模型的图构造方法和基于simhash的方法来计算两个命名实体之间的条件概率并构造命名实体图，其对文档文集（例如，组织的网页）中命名实体之间的相同类型信息进行编码。下文描述这两种模型。

基于语言模型的图构造

如所周知，图一般是点的集合，其中一些点由链路（link）连接。点被称为顶点（或节点），并且连接一些顶点对的链路被称为边。边可以是有方向或无方向的。图构造时的主要问题之一是计算每条边的权重，其对端节点与起始节点是相同类型的条件概率进行编码。在实施例中，提出了一种三阶段方法以计算边的权重并构造命名实体图：（a）为每个命名实体（节点）创建语言模型，（b）基于KL-距离（KL-Divergence）计算条件概率，（c）利用所有命名实体来构造图。

在第一阶段中，为每个命名实体创建语言模型（122）。这是通过针对每个命名实体检索包含该命名实体的文档来实现的。然后将检索到的文档与排名前列的文档中的围绕命名实体的片断组合成虚拟文档。为了例示，取命名实体“Jack Sparrow”。还假设文档文集中对“Jack Sparrow”的实体搜索获得几百个文档。在本实施例中，所提出的方法将排名前列的文档中的围绕命名实体（“Jack Sparrow”）的片断组合成虚拟文档。排名前列的文档可能标题为例如“Pirate”、“Pirates of The Caribbean”、“Johnny Depp”等。而且，该片断可以是“胶片”、“电影”、“演员”、“好莱坞”等。

所创建的虚拟文档反映了其中命名实体出现在的片段的多样性，并且捕获了片段中的命名实体的语境的主要特征。因此，虚拟页集合充当用于为每个命名实体构造语言模型的良好集合。在实施例中，利用Dirichlet平滑法构造语言模型。

在第二阶段中，计算（124）每个给定命名实体对之间的条件概率。在实施例中，给定一对实体v_i和v_j，假设v_i和v_j的语言模型分别是L_i和L_j，基于其KL-距离D（L_j︳L_i），条件概率可以被计算为：

其中type（V_i）是实体v_i的类型。

Kullback-Leibler（KL）距离是量化两个概率分布的接近性的信息论基本方程。KL-距离始终是非负的，并且较大KL-距离表示较小条件概率。在两个语言模型相等时，条件概率具有最大值1，但KL-距离具有最小值0。因此，以上方程是将KL-距离转换成条件概率的良好选择。

在第三阶段中，建立命名实体（节点）与其他命名实体（节点）的边（126）。针对每个命名实体这样做。在实施例中，使用强力方法建立从节点到所有其他节点的边，并分配对应的条件概率作为其权重。命名实体图中的每个节点都是命名实体，并且每条边反映了端节点（命名实体）与起始节点（命名实体）是相同类型的条件概率。

由于使用这样的方法可能获得复杂的图，这可能阻止高效的计算，所以使用高于凭经验选择的阈值的阈值，并且仅保留权重高于这个阈值的边。

用于加快图构造的基于Simhash的模型

仅选择阈值超过特定阈值的那些边实现大量的优化。不过，计算命名实体（节点）和其余命名实体之间的KL-距离值是一个耗时的过程。为了加快这个过程，在实施例中，该方法使用simhash来计算虚拟文档的相似性并过滤掉相似性较低的命名实体（节点）。该方法基于如下观察：对于具有虚拟文档p_i、p_j和p_m的三个节点（命名实体）v_i、v_j和v_m，令这些虚拟页的simhash代码分别为sh_i、sh_j和sh_m。如果p_m和p_i的相似性小于p_m和p_j的相似性，即sh_m和sh_i之间的汉明距离远大于sh_m和sh_j之间的汉明距离，从v_m到v_j的KL-距离趋向于大于从v_m到v_j的KL-距离，并且从v_m到v_i的条件概率趋向于小于从v_m到v_j的条件概率。使用simhash来估计条件概率以便过滤掉实体图中的低权重边，并仅计算相似节点之间的边的权重。

在实施例中，针对每个实体（节点）基于其虚拟文档产生64位simhash码。接下来，对于每个节点，计算其simhash码和所有其他节点的simhash码之间的汉明距离，并且过滤掉汉明距离超过预定义阈值的节点。最后，使用基于语言模型的方法来计算节点和其余节点之间边的权重。

在步骤130中，扩展种子实体集合以包括一些相关的非种子实体。

在步骤140中，执行命名实体图上种子实体的置信度传播以预测非种子实体的置信度值是否是目标类型。所提出的方法提出一种新颖的执行置信度传播的算法。

给定扩展的种子集合S={（s₁，c₁），...，（s_i，c_i），...，（s_n，c_n）}和所构造的具有转换矩阵T的命名实体图G=〈V，E>，其中s_i和c_i分别是V中的第i个种子的索引和置信度，其中

可以使用以下算法执行置信度传播。

。

在置信度传播之后获得

的置信度值Conf_i。它是目标类型c*的概率是利用下式度量的：

根据每个命名实体的概率，可以使用预定义的阈值来确定其是否为目标类型。

图3示出了根据实施例的命名实体图的示范性图解表示。

命名实体图300由八个实体构成。八个实体被分成三种类型，标记以不同的颜色阴影。还示出了给定命名实体（节点）对之间的条件概率。在这幅图上，给定扩展种子集合S={(1，1.0），（4，0.85)}并且设置α_B=0.85且M_B=60，可以调用上述置信度传播以计算命名实体置信度矢量

t*=(0.217,0.4346,0.1223,0.1801,0.0024,0.0011,0.0009,0.0001)

和概率矢量

p=(0.499,1,0.281,0.414,0.006,0.003,0.002,0.0002)

使用0.006和0.281之间的任何阈值，所提出的方法将能够识别前四个节点是目标类型的。

图4示出了可以在其上实施实施例的计算机系统400的方框图。计算机系统400包括处理器410、存储介质420、系统存储器430、监视器440、键盘450、鼠标460、网络接口420和视频适配器480。这些部件通过系统总线490耦合在一起。

存储介质420（例如硬盘）存储多个程序，包括操作系统、应用程序和其他程序模块。用户可以通过输入设备向计算机系统400中输入命令和信息，输入设备例如是键盘450、触摸板（未示出）和鼠标460。使用监视器440来显示文本和图形信息。

操作系统运行于处理器410上并且用于协调和提供图4中的个人计算机系统400内的各种部件的控制。此外，可以在计算机系统400上使用计算机程序以实施上述各种实施例。

要认识到，图4中所示的硬件部件仅仅出于例示的目的，而实际部件可能根据为实施本发明而部署的计算设备而变化。

此外，计算机系统400例如可以是台式计算机、服务器计算机、膝上型计算机或无线设备，例如移动电话、个人数字助理（PDA）、手持式计算机等。

所述实施例提供了一种在给定文档文集的情况下提取命名实体的有效方法。实施例解决了从一般组织的网页以最低成本提取任何类型实体的问题。所提出的加权命名实体图能够对每个命名实体和其他实体的类型之间的复杂关系进行编码，因此在图上传播种子置信度能够弥补网络规模冗余性的缺乏，并能够支持有效的组织规模提取。此外，可以将命名实体图上的置信度传播变换成高效的矩阵计算，其能够支持大规模文集上的高效提取。

要认识到，可以将本发明范围内的实施例实现为计算机程序产品的形式，计算机程序产品包括计算机可执行指令，例如程序代码，其可以运行于结合适当操作系统的任何适当计算环境上，操作系统例如是Microsoft Windows、Linux或UNIX操作系统。本发明范围内的实施例还可以包括程序产品，程序产品包括计算机可读介质用于承载或存储计算机可执行指令或数据结构于其上。这样的计算机可读介质可以是任何能够通过通用或专用计算机访问的可用介质。例如，这样的计算机可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM、磁盘存储器或其他存储装置，或能够用于以计算机可执行指令形式承载或存储期望的程序代码并可以由通用或专用计算机访问的任何其他介质。

应当指出，上述本发明的实施例仅仅是出于例示的目的。尽管已经结合其具体实施例描述了本发明，本领域的技术人员将认识到，很多修改都是可能的而在实质上不脱离这里所描述主题的教导和优点。可以做出其他替代、修改和变化而不脱离本发明的精神。

Claims

1.一种提取命名实体的计算机实施的方法，包括：

识别文档文集中的命名实体，并利用一些现有资源人工或自动形成种子实体集合；

构造命名实体图，以发现任何给定命名实体对之间的相同类型概率；

扩展所述种子实体集合；以及

在所述命名实体图上执行种子实体的置信度传播。

2.根据权利要求1所述的方法，其中命名实体图中的每个节点都是命名实体，并且每条边反映了端节点（命名实体）与起始节点（命名实体）是相同类型的条件概率。

3.根据权利要求1所述的方法，其中构造命名实体图包括：

为每个命名实体创建语言模型；

确定每个给定命名实体对之间的条件概率，其中每个命名实体都具有其自己的语言模型；以及

利用具有其对应条件概率的所有命名实体构造所述命名实体图。

4.根据权利要求3所述的方法，其中确定每个给定命名实体对之间的条件概率基于其KL-距离。

5.根据权利要求3所述的方法，在图构造之前还包括如下步骤：

针对每个命名实体，确定所述命名实体和其余命名实体之间的边；以及

针对所述命名实体和其余命名实体之间的每个边确定条件概率。

6.根据权利要求5所述的方法，其中仅使用条件概率高于预定阈值的边来构造所述图。

7.根据权利要求5所述的方法，还包括使用simhash过滤掉条件概率低于预定阈值的边。

8.根据权利要求1所述的方法，其中所述置信度传播导致获得针对目标实体的置信度值和概率值。

9.根据权利要求8所述的方法，其中使用预定阈值概率值来确定所述目标实体是否是命名实体。

10.根据权利要求1所述的方法，其中所述命名实体是通过基于排列的识别方法识别的。

11.根据权利要求1所述的方法，其中所述文档文集是从储存库获得的。

12.根据权利要求1所述的方法，其中所述储存库是有组织的数据库。

13.一种系统，包括：

处理器；以及

耦合到所述处理器的存储器，其中所述存储器包括指令，用于：

识别文档文集中的命名实体以形成种子实体集合；

扩展所述种子实体集合；以及

在所述命名实体图上执行种子实体的置信度传播。

14.一种计算机程序，包括计算机程序装置，当所述程序运行于计算机上时，所述计算机程序装置适于执行权利要求1的所有步骤。

15.根据权利要求14所述的计算机程序，实现于计算机可读介质上。