CN110728148B

CN110728148B - 实体关系抽取方法和装置

Info

Publication number: CN110728148B
Application number: CN201810701081.6A
Authority: CN
Inventors: 郑仲光; 孟遥; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2023-07-14
Anticipated expiration: 2038-06-29
Also published as: CN110728148A

Abstract

本发明涉及一种实体关系抽取方法，包括：获取至少一个三元组；对网页集合中的每个网页进行第一处理以获得每个网页的第一处理数据；基于至少一个三元组和每个网页的第一处理数据确定网页集合中与每个三元组所涉及的实体最相关的网页；基于至少一个三元组对最相关的网页的第一处理数据进行第二处理，以得到第二处理数据；基于第二处理数据，在网页集合中选择网页并对选择的网页进行第三处理，以得到第三处理数据，将第三处理数据作为用于实体关系抽取方法的训练集的一部分；利用基于训练集而生成的训练集生成模型进行实体关系抽取。

Description

实体关系抽取方法和装置

技术领域

本公开涉及实体关系抽取方法和装置。

背景技术

随着数字资源和万维网上的文本信息的飞速增长，存在从海量文本信息中自动抽取知识(对文本信息的概括性描述)的需求。具体而言，实体关系抽取系统从特定领域的文本文档中识别相关要素，并将这些要素以结构化形式存储。实体关系抽取任务在细节和可靠性上有不同的选择，但一般都包括两个普遍存在并且紧密关联的子任务，即，实体识别和关系抽取。实体识别，即通过实体抽取技术抽取各个要素。抽取出的各个要素以离散的形式存在，并且只能反映出文本中包含哪些实体(例如人、地点、物体)却不能反映出各要素之间的关系，例如人在地点的动作、人对物体施加的动作等。因此，需要通过关系抽取确定出各个要素之间的关系。

上面描述的能够抽取出各个要素之间关系的实体关系抽取技术可以应用于各种应用场景中。例如，在自动问答系统中，实体关系抽取能够自动关联相关问题和答案；在检索系统中，实体关系抽取能够实现基于语义的检索；在本体学习过程中，实体关系抽取能够发现新的实体间关系来丰富本体结构；在语义网标注任务(例如知识图谱)中，关系抽取能够自动关联语义网知识单元。

在现有的实体关系抽取技术技术中，常采用下面的方式：通过对文本信息的实体关系抽取，获得形如<s,p,o>的三元组，这里的s表示主语(实体1)，p表示谓语(描述主语和宾语的关系)，o表示宾语(实体2)。因此，抽取出的三元组<s,p,o>可以表示实体1和实体2之间的关系。

然而，提取上面描述的三元组存在诸多问题，例如，在基于学习的方法中，利用现有知识图谱库中的三元组训练，而在测试的时候仅给定三元组中的s和o，以判定关系p。首先，这种方法在应用的时候必须要给定三元组，虽然可以从句子中先抽取三元组再进一步进行判定，但是丢失了句子中包含的上下文信息，因此会影响关系抽取的精度。而为了充分利用句子中的上下文信息，采用人工标注的方法构建句子的训练集还存在标注语料费时费力，无论训练规模还训练领域都无法满足实际需求的问题，而且人工标注仅标注正例，而忽视了反例的重要性。此外，常规的分类器方法需要人工去指定特征，比如词性、词形甚至是句法分析的结果，这类方法依赖于语言和语言处理工具，不能广泛推广到多种语言的应用场景。

因此，本发明旨在提供一种能够解决上述问题的实体关系抽取方法和装置。相比于现有技术，本发明能够覆盖更多领域及语言、具有更好的扩展性、不需要人工标注的参与、且具有更高的准确度。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本公开的目的在于提供一种信息处理技术，可用于对文本信息进行实体关系抽取。通过根据本公开的实体关系抽取方法，较之传统的实体关系抽取方法，能够覆盖更多领域及语言、具有更好的扩展性、不需要人工标注的参与、且具有更高的准确度。

为了实现本公开的目的，根据本公开的一个方面提供了一种实体关系抽取方法，包括：获取至少一个三元组；对网页集合中的每个网页进行第一处理以获得每个网页的第一处理数据；基于至少一个三元组和每个网页的第一处理数据确定网页集合中与每个所述三元组所涉及的实体最相关的网页，其中，第一处理数据是网页的概要信息；基于至少一个三元组对最相关的网页的第一处理数据进行第二处理，以得到第二处理数据，其中，所述第二处理数据是将至少一个三元组中的至少一个要素补充到第一处理数据中所形成的数据；基于第二处理数据，在网页集合中选择网页并对选择的网页进行第三处理，以得到第三处理数据，将第三处理数据作为用于实体关系抽取的训练集的一部分，其中第三处理为自动标注；利用基于训练集而生成的训练集生成模型进行实体关系抽取。

根据本公开的另一方面，还提供了一种实体关系抽取装置，包括：至少一个处理器，被配置成执行实体关系抽取方法。

根据本公开的另一方面，还提供了一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，用于实现实体关系抽取方法。

附图说明

参照下面结合附图对本公开实施方式的说明，会更加容易地理解本公开的以上和其它目的、特点和优点，在附图中：

图1是示出利用三元组组成的知识图谱进行实体关系抽取和采用人工标注构建训练集以进行实体关系抽取的示例的示意图；

图2是示出根据本公开的实施方式的实体关系抽取方法的示意图；

图3是示出Wikipedia页面与DBPedia信息的对应关系的示意图；

图4是示出的根据本公开的实施方式的用于实体关系抽取的训练集生成方法的流程图；

图5是示出用于对根据本公开的实施方式的实体关系抽取的训练集生成方法所生成的训练集进行训练的RNN网络结构的示意图；

图6是示出根据本公开实施方式的实体关系提取方法的流程图；

图7是示出可用来实现根据本公开的实施方式的实体关系抽取的训练集生成方法、实体关系抽取的模型生成方法、实体关系抽取方法的通用机器的结构简图。

具体实施方式

在下文中将结合附图对本公开的示例性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的部件，而省略了与本公开关系不大的其他细节。

本领域的技术人员可以理解，示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此，示例性实施例的各个方面可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为"电路"、"模块"或"系统"。此外，示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序，或者计算机程序可以位于一个或更多个远程服务器上，或被嵌入设备的存储器中。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如"C"程序设计语言或类似的程序设计语言。

以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1是示出利用三元组组成的知识图谱进行实体关系抽取和采用人工标注进行实体关系抽取的示例的示意图。

图1中上半部分示出了知识图谱(Knowledge Graph,KG)，知识图谱本质上是语义网络，是一种基于图的数据结构。其结点代表实体(entity)或者概念(concept)，边代表实体/概念之间的各种语义关系。在图1所示的现有技术的利用三元组组成的知识图谱进行实体关系抽取的方法中，首先对知识图谱库(由三元组构成的图数据库)中的经嵌入(embedding)的三元组的进行训练。在此，对嵌入进行必要的说明，以帮助对后续内容的理解。由单词组成的文档可以表示为单词的序列，为了对文档中的单词进行计算(用于例如计算单词间的语义相关性等)，期望将文档中每个不同的单词转化成不同的对应的向量表示。比如，通过特定的词嵌入方法，在例如“A F C B”的序列中，单词A可以被转化为对应的向量[0.21 0.34 -0.52]，单词B可以被转化为对应的向量[-0.23 0.97 0.76](上述数值仅处于示意的目的)。这样，不同的单词就可以被转换到相同维度的多维空间坐标系，进而例如在该多维空间坐标系下通过例如余弦相似度度量计算单词间的相似度。嵌入的好处在于相近的词具有相似的向量表示，即在高维空间中距离接近，例如“北京”会和“巴黎”“东京”等词的向量在高位空间中距离接近。因此，嵌入实际上是用向量来表示字、词、句甚至篇章的方法。

再次参考图1的上半部分，在测试阶段，例如用户希望获得s和o的关系，则将s和o输入到上面训练得到的模型，在s和o经过同样的嵌入后，可以通过该模型得到它们之间的关系p。然而，这种方法在应用的时候必须要给定三元组，虽然可以从句子中先抽取三元组再进一步进行判定，但是句子中包含的上下文信息就全部丢失了，因此会影响关系抽取的精度和覆盖程度。

而为了充分利用句子中的上下文信息，采用图1下半部分示出的人工标注方法来构建句子的训练集，显然，这种方式存在标注语料费时费力，无论训练规模还训练领域都无法满足实际需求的问题，而且人工标注仅标注正例，而忽视了反例的重要性。此外，需要人工去指定特征，比如词性、词形甚至是句法分析的结果，这类方法依赖于语言和语言处理工具，不能广泛推广到多种语言的应用场景。

因此，本发明的实施例提出了可以解决上述问题的实体关系抽取方法。

如上所述，现有方法的问题在于基于知识图谱的方法忽略了句子的具体信息，而人工标注语料成本又很高，并且考虑到知识图谱往往是从常规文本中抽取出来的(例如DBPedia KG/Yago KG都来自于维基百科(Wikipedia))，如果可以从常规文本中找出包含KG里面三元组的句子，那么可以认为这些句子是已经标注好的，可以直接作为训练样本；此外，常规的分类器方法需要人工去指定特征，比如词性、词形甚至是句法分析的结果，这类方法依赖于语言和语言处理工具，不能广泛推广到多种语言的应用场景，而当前发展较快的神经网络(NN)的方法是可以不依赖于具体语言和分析工具的，因此使用NN进行分类具有更好的通用性和扩展性。基于以上考虑，提出一种实体关系抽取的方法，其主要流程包括利用KG和与常规文本抽取训练样例(Sampling)、训练NN分类器并利用经过训练的分类器对需要进行实体关系抽取的文本进行实体关系抽取，本发明的一个实施例的示意性的过程如图2所示。

图3是示出Wikipedia页面与DBPedia信息的对应关系的示意图。然而，本文利用DBPedia的KG和Wikipedia的常规文本来抽取训练样例仅仅出于说明的目的，需要注意的是，本发明并不限于采用利用DBPedia的KG和Wikipedia的常规文本来抽取训练样例。

Wikipedia内容广泛、页面结构统一、容易进行批量处理、覆盖多种领域及语言，因此具有良好的扩展性。而语义网应用范例DBPedia是从Wikipedia的词条里撷取出结构化的资料，以强化Wikipedia的搜寻功能，并将其他资料集连结至维基百科。通过这样的语意化技术的介入，让维基百科的庞杂资讯有了许多创新而有趣的应用，例如手机版本、地图整合、多面向搜寻、关系查询、文件分类与标注等等。DBPedia同时也是目前最大的多领域知识本体之一。

如图3所示，图中左侧的Wikipedia信息框提供了当前页面的信息摘要，而DBPedia的大部分三元组都是从Wikipedia信息框中得到的。图3示出了一个具体的实例，实体“BillGates”在DBPedia中对应的三元组集合包含“birthDate”、“birthPlace”(为了方便表达，省略了三元组中的前缀url如http://dbpedia.org/ontology/，同时，由于这些三元组的主语都是Bill_Gates，因此省略主语，只列出宾语和谓语)等，这些信息都是从Wikipedia中“Bill Gates”页面里的信息框提取出来的。同时能够注意到，在Wikipedia的文本中也出现了包含“birthDate”及“birthPlace”对应的文本的句子，如与“birthDate”对应的“October28，1955”和与“birthPlace”对应的“Seattle”、“Washington”。这些对应关系可以用于找出合适的句子作为训练语料，从而避免了人工标注的问题。

下面参照图4至图6对本公开的各个实施方式进行描述。

图4是示出根据本公开实施方式的用于实体关系抽取的训练集生成方法的流程图。下面将结合图3对图4的流程中的各个步骤进行说明。

在步骤401中，从KG中获取至少一个三元组，至于从KG获得三元组的方式不在此详述。

在步骤402处，对网页集合中的每个网页进行处理以获得每个网页的概要信息。以图3中的Wikipedia页面为例，对该Wikipedia页面进行解析，生成解析结果page＝[key,info,sent]，其中key表示该页面的用于索引的实体名称，索引key＝“Bill Gates”；info＝[a₁,a₂,…,a_n]表示信息框中的内容，其中a_i＝[t_i,[v₁,v₂,…,v_n]]表示属性值集合，因此可以得到：

其中，sent＝[s₁,s₂,…,s_n]即句子集合(页面的正文文本)，其中的s_i表示页面正文文本中的每个句子。解析之后，可以对索引key进行倒排。

接下来，在步骤403中，确定网页集合中与每个三元组所涉及的实体最相关的网页。具体地，对于KG中的一个实体e＝[t₁,t₂,…,t_n]，其中t_i＝<s,p,o>表示一个三元组triple，先按照s的值(图3中s的值为“BillGates”)检索相关页面，得到相关结果[page₁,page₂,…,page_n]，然后按照下面的方式从中找出最相关的页面page：对于page_i，计算其info中的所有v值(例如“October 28 1995”,“Seattle”)包含实体e中的o值(宾语)或包含与实体e中的o值语义上相同或相近的值的数量，例如v值为“October 28 1995”而o值为“1995-10-28”，在此也认定为该v值包含该o值。然后，将数量最大的页面确定为与该实体最相关的页面。换句话说，就是在描述三元组主语的页面中，统计页面的信息框中包含的对该三元组的宾语的描述次数，将描述次数最多的页面作为最相关页面。

然后，在步骤404中，将与页面相关的至少一个三元组中的要素补充到该网页的概要数据中。具体地，按照page_i中的info的属性-值分组结构对e的各三元组进行分组，即如果三元组<s,p,o>中的o与info中a_j所包含的某个值v_i相等，便记录三元组与a_j的对齐关系，将三元组中的谓语补充到a_j中以得到align，即：

align＝[

[t₁,[(v₁₁,p₁₁),(v₁₂,p₁₂),…,(v_1m,p_1m)]],

[t₂,[(v₂₁,p₂₁),(v22,p22),…,(v2m,p_2m)]],

……,

[t_n,[(v_n1,p_n1),(v_n2,p_n2),…,(v_nm,pnm)]]

]

其中pij是三元组的谓语，t_i∈aj,v_ij∈a_j。根据当前方法，根据如图3所示的例子可得到

这里缺省了主语“Bill Gates”，因为对同一个e的三元组，主语都是一样的。进行上述对齐的目的是为了将同一类别的谓语聚合到一起，这样便可以根据聚合后的属性值集合对句子进行采样。

接下来，在步骤405中，基于步骤404中得到的align，在网页集合中选择网页，并在选择的网页中选择用于在步骤406中进行进一步标注的句子。下面，对如何选择句子(生成样例)进行说明。

对于已选择的页面中的句子集合sent＝[s₁,s₂,…,s_n]，按照以下标准来生成样例：对于句子s_k∈sent，如果s_k覆盖了主语s及某个v_ij，v_ij∈align，就可以从align结构中找到v_ij对应的t_i，如果s_k满足下列约束之一，便将s_k作为样例：

(1)s_k中不包含v_i’j’，其中v_i’j’对应的t_i’≠t_i；

(2)|p_ij|/|p_i|>0.5并且|p_ij|>1，其中|p_ij|表示s_k覆盖的对应到同一个t_i的谓语p的数量，|p_i|表示对应到同一个t_i的谓语p总数，当然也不限于采用例如上述的0.5、1的数值的限定；

(3)当sk中覆盖的三元组来自于不同实体的时候，对于每个实体对应的align集合，分别用上述两种规则判定，同时满足两种规则后，将该句子作为样例。例如句子“Gatesand Allen launched Microsoft”中，除了“Bill Gates”还包含了“Paul Allen”，而“PaulAllen”对应的页面并不是当前的主题为“Bill Gates”的页面，但是对于实体“PaulAllen”，其align结构与“Bill Gates”页面的align结构存在相同的部分，即align＝[[occupation,[(co-founder Microsoft,founder)]],……,]，因此这个句子对于两个实体同时满足上述(1)和(2)的约束，因此可以作为样例。

对于上述约束(1)-(3)，可以对应地理解为：(1)句子中不包含对其他实体的描述；(2)句子中对应于信息框中各个概要主题的一个动作与在句子中对应于信息框中各个概要主题的所有动作的比例应大于预定数值；(3)当句子包含两个或多个实体时，应同时满足约束(1)和(2)。

接下来，在步骤406中，对从选择的网页中生成的样例进行自动标注处理，将经自动标注的数据作为用于实体关系抽取的训练集的一部分。具体地，对于符合条件的句子样例sk，用KG中的rdf:type标注该句子所覆盖的主语、谓语，其中rdf:type表示主谓宾的类型，如person、organization等。根据上述方法，可以得到对图3所示的页面中符合条件的句子进行标注后的样例：

birthPlace<person>Gates</person>was born in

<place>Seattle</place>,Washington on October 28,1955.

birthPlace<person>Gates</person>was born in Seattle,

<place>Washington</place>on October 28,1955.

birthDate<person>Gates</person>was born in Seattle,Washington on

<date>October 28,1955</date>.

然后合并谓语相同、宾语类型相同的样例，最终得到如下结果：

birthPlace<person>Gates</person>was born in

<place>Seattle</place>,<place>Washington</place>on October 28,1955.

birthDate<person>Gates</person>was born in Seattle,Washington on

<date>October 28,1955</date>.

将得到的上述样例作为正例集合sample_pos。而对于句子s_k∈sent，如果s_k覆盖了主语s及某个v_ij，v_ij∈align，但是并没有满足上面规则中的任一项，则将句子作为反例，例如：

none<person>Gates</person>and his wife invited Joan Salwen to

<place>Seattle</place>to speak about what the family had done

由例如上面的反例构成反例集合sample_neg，正例集合sample_pos和反例集合sample_neg一起用于下面的分类。

常规的机器学习方法(如SVM，最大熵等)需要人工指定特征，例如词性、是否包含部分特征词、是否包含某种句法结构等，这些特征需要单独的工具去处理，因此只能限定于某些语言；而且相关的处理工具(如分词、句法分析)都是在限定领域训练出来的，在开放领域的应用效果并不好，因此会影响到后面的处理。

神经网络(neural network，NN)则不需要过多的人工知识在里面，通过对网络结构的设计，可以让机器自己去发现重要的特征，无需人工指定，人只需要把网络结构设置好，然后提供输入就可以了，因此NN具有良好的扩展性，不依赖与语言和领域。

因此，本发明的实施例可以使用循环神经网络(recurrent neural network,RNN)作为分类器。

在此,对于递归神经网络RNN进行简单说明，以帮助对下述实施方式的理解。递归神经网络RNN是一种对序列数据建模的神经网络。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，预测句子的下一个单词一般需要使用前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为递归神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再是无连接的而是相互连接的，隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。鉴于递归神经网络对于本领域技术人员是公知，本文仅对其在本公开的实施方式中的应用进行描述，而不对其原理进行更详细的描述。

根据本公开的实施方式,利用递归神经网络(Recurrent Neuron Network)对上面生成的正例和反例集合中的样例进行训练，具体地，通过下面步骤进行训练。

首先训练词汇的嵌入。对于句子样例，使用词嵌入方法(例如word2vec)训练得到n维词向量模型：

word₁[w₁₁,w₁₂,……,w_1n]

word₂[w₂₁,w₂₂,……,w_2n]

……

word_m[w_m1,w_m2,……,w_mn]

其中，m表示词表的大小，n表示维度。得到词向量后，每个句子中的词都可以用词向量表示，因此句子就变成了一个矩阵。我们用循环神经网络(RNN)来进行训练，具体过程及网络结构如图4所示。在图4中，网络结构采用了7层结构，除了输入、输出层，还包含了双向的LSTM层、注意力层、句子的上下文层以及隐藏状态层。

训练的时候，按照1:1的关系从sample_pos和sample_neg中抽取样例进行训练，模型因此能够具有更好的区分度，增加了鲁棒性。

图6是示出根据本公开实施方式的实体关系提取方法的流程图，在步骤601中，确定待提取实体关系的句子；在步骤602中，识别出句子中包含的所有实体并进行标注，在此可以结合现有工具及用户词典来进行实体识别，DBPedia中的实体entity的主语可以作为用户词典加入现有工具中。

标注出句子所有的实体后，在步骤603中将实体两两组合，每个组合生成一个句子。例如下面的示例中，句子中出现了三个实体a、b、c，因此将实体两两组合后可以得到：

……<type_of_a>a</type_of_a>……<type_of_b>b</type_of_b>……

……<type_of_a>a</type_of_a>……<type_of_c>c</type_of_c>……

……<type_of_b>b</type_of_b>……<type_of_c>b</type_of_c>……

之后采用前面描述的训练方法，在步骤604中将句子进行嵌入，然后在步骤605中输入RNN模型，得到最终提取的实体关系。

图7是示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器700的结构简图。通用机器700可以是例如计算机系统。应注意，通用机器700只是一个示例，并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器700解释为对上述信息处理方法和信息处理装置中示出的任一组件或其组合具有依赖或需求。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件也连接到输入/输出接口705：输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序可根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有计算机可读的程序指令的计算机程序产品。所述指令代码由计算机读取并执行时，可执行上述根据本公开的信息处理方法。相应地，用于承载这种程序指令的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施方式进行了详细描述，阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上，在根据本公开的实施方式中，本公开提供了如下方案，但不限于此：

方案1.一种实体关系抽取方法，包括：

获取至少一个三元组；

对网页集合中的每个网页进行第一处理以获得所述每个网页的第一处理数据；

基于所述至少一个三元组和所述每个网页的第一处理数据确定所述网页集合中与每个所述三元组所涉及的实体最相关的网页，其中，所述第一处理数据是网页的概要信息；

基于所述至少一个三元组对所述最相关的网页的第一处理数据进行第二处理，以得到第二处理数据，其中，所述第二处理数据是将所述至少一个三元组中的至少一个要素补充到所述第一处理数据中所形成的数据；

基于所述第二处理数据，在所述网页集合中选择网页并对选择的网页进行第三处理，以得到第三处理数据，将所述第三处理数据作为用于所述实体关系抽取方法的训练集的一部分，其中所述第三处理为自动标注；利用基于所述训练集而生成的训练集生成模型进行所述实体关系抽取。

方案2.如方案1所述的方法，如果所选择的网页满足约束条件，则将对该所选择的网页进行所述第三处理所得到的所述第三处理数据标识为正例数据，作为用于实体关系抽取的训练集的一部分。

方案3.根据方案2所述的方法，如果所选择的网页不满足所述约束条件，则将对该所选择的网页进行所述第三处理所得到的所述第三处理数据标识为反例数据，作为用于实体关系抽取的训练集的一部分。

方案4.根据方案1所述的方法，其中利用所述三元组对应的知识图谱的rdf:type进行所述自动标注。

方案5.根据方案1所述的方法，所述至少一个要素为谓语要素。

方案6.根据方案1至5之一所述的方法，其中，通过所述训练集训练神经网络分类器来生成所述训练集生成模型。

方案7.根据方案1至5之一所述的方法，其中，从DBpedia获取所述至少一个三元组，从Wikipedia获取所述网页集合。

方案8.根据方案1至5之一所述的方法，其中，利用基于语义的相关性确定所述最相关的网页。

方案9.根据方案6所述的方法，其中，所述神经网络为递归神经网络RNN。

方案10.一种实体关系抽取装置，包括：

至少一个处理器，被配置成执行方案1至9之一所述的方法。

方案11.一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，用于实现根据方案1至9中任一项所述的方法。

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种实体关系抽取方法，包括：

获取至少一个三元组；

对网页集合中的每个网页进行第一处理以获得所述每个网页的第一处理数据，其中，所述第一处理数据是该网页的概要信息，所述第一处理数据包括表示该页面的用于索引的实体名称第一分量，表示该页面的信息框中的内容第二分量，以及表示该页面的正文文本的句子集合的第三分量；

基于所述至少一个三元组和所述每个网页的第一处理数据的第一分量和第二分量确定所述网页集合中与每个所述三元组所涉及的实体最相关的网页；

基于所述至少一个三元组对所述最相关的网页的第一处理数据进行第二处理，以得到第二处理数据，其中，所述第二处理数据是将所述至少一个三元组中的至少一个要素补充到所述第一处理数据的第二分量中所形成的数据，其中，所述至少一个要素为谓语要素；

基于所述第二处理数据，在所述网页集合中选择网页并对选择的网页进行第三处理，以得到第三处理数据，将所述第三处理数据作为用于所述实体关系抽取方法的训练集的一部分，其中，所述第三处理为从所选择的网页的第一数据的第三分量中选择句子作为样例并对所述样例自动标注；

利用基于所述训练集而生成的训练集生成模型进行所述实体关系抽取。

2.如权利要求1所述的方法，如果所述样例满足约束条件，则将所述样例的自动标注数据标识为正例数据，作为用于实体关系抽取的训练集的一部分。

3.如权利要求2所述的方法，如果所述样例不满足所述约束条件，则将所述样例的自动标注数据标识为反例数据，作为用于实体关系抽取的训练集的一部分。

4.如权利要求1所述的方法，其中，利用所述三元组对应的知识图谱的rdf:type进行所述自动标注。

5.如权利要求1所述的方法，其中，所述至少一个三元组具有<s,p,o>的形式，s表示主语，o表示宾语，p为表示所述主语与所述宾语之间的关系的谓语。

6.如权利要求1至5之一所述的方法，其中，通过所述训练集训练神经网络分类器来生成所述训练集生成模型。

7.如权利要求1至5之一所述的方法，其中，从DBpedia获取所述至少一个三元组，从Wikipedia获取所述网页集合。

8.根据权利要求1至5之一所述的方法，其中，利用基于语义的相关性确定所述最相关的网页。

9.一种实体关系抽取装置，包括：

至少一个处理器，被配置成执行如权利要求1至8之一所述的方法。

10.一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，实现根据权利要求1至8中任一项所述的方法。