CN110110329A

CN110110329A - 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质

Info

Publication number: CN110110329A
Application number: CN201910358088.7A
Authority: CN
Inventors: 王志超; 赫中翮; 郑敏; 黄九鸣; 张圣栋
Original assignee: Hunan Xinghan Shuzhi Technology Co Ltd
Current assignee: Hunan Xinghan Shuzhi Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-09
Anticipated expiration: 2039-04-30
Also published as: CN110110329B

Abstract

本发明适用于互联网技术领域，提供了一种实体行为抽取方法，该方法包括：对预先获取的语料集中的语句提取三元组；将主语元素、谓语元素且待分类元素的核心词相同的三元组聚合在一起，得到三元组分组；在确保语义信息缺损不会引起歧义的前提下，从三元组分组中确定最短三元组；将最短三元组中的主语元素及谓语元素分别划分为实体行为的主语和谓语，将最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个；根据所述实体行为的主语、谓语及所述待分类元素的类别，生成第一实体行为。本发明能够保障从三元组分组中选择的最短三元组的语义及信息的完整性，并对最短三元组中的待分类元素准确分类，提高实体行为抽取的准确度。

Description

一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质

技术领域

本发明属于互联网技术领域，尤其涉及一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质。

背景技术

随着各种自然语言处理技术的发展和成熟，自然语言抽取的目标和方向正在不断的深入和拓展。自然语言抽取中比较重要的方向有实体关系抽取，即从一句或一段自由文本中，发现一个实体与其他实体二者之间是否有关系，并能够对两者存在的关系进行分类。由于隐含实体关系的文本在开源互联网数据中占的比例极低，剩余文本中用于表征实体动作、实体行为的句子对于实体关系推理、性格特点分析等方面都有着重要作用，因此需要对文本进行实体行为抽取，通过实体行为抽取可以完善知识图谱构建。但是，由于现有自然语言的多样性，实体行为抽取有时只能表达一个行为中的部分信息，会出现信息缺失和语义不完整，导致实体行为抽取不准确的问题。

发明内容

本发明实施例提供一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质，旨在解决现有技术中由于现有自然语言的多样性，实体行为抽取有时只能表达一个行为中的部分信息，会出现信息缺失和语义不完整，导致实体行为抽取不准确的问题。

本发明是这样实现的，一种实体行为抽取方法，包括：

通过NLP工具的OpenIE功能对预先获取的语料集中的语句提取三元组，所述三元组包括主语元素、谓语元素及待分类元素；

将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起，得到三元组分组；

在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组；

将所述最短三元组中的主语元素划分为实体行为的主语，将所述最短三元组中的谓语元素划分为实体行为的谓语，并基于待分类元素核心词的句法依赖关系和命名实体类别，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别；

根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别，生成第一实体行为。

进一步地，所述在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组，包括：

根据三元组之间的包含关系构建多叉树，其中，所述多叉树的节点满足以下关系：第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列，与三元组的待分类元素相同，且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素；

将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉，得到修改后的多叉树；

从根节点遍历所述修改后的多叉树，从叶子节点中得到最短三元组。

进一步地，所述基于待分类元素核心词的句法依赖关系和命名实体类别，将所述最短三元组中的宾语元素划分为实体行为的宾语、时间、地点及机构中的一个类别，包括：

根据待分类元素核心词的句法依赖关系、命名实体类别、词性，以及谓语元素末尾使用的介词、及谓语元素末尾介词的句法依赖关系，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。

进一步地，所述实体行为抽取方法还包括：

获取第二实体行为，在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时，对所述第一实体行为与所述第二实体行为进行合并，生成行为链式结构。

本发明还提供一种实体行为抽取装置，包括：

提取模块，用于通过NLP工具的Open IE功能对预先获取的语料集中的语句提取三元组，所述三元组包括主语元素、谓语元素及待分类元素；

聚合模块，用于将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起，得到三元组分组；

确定模块，用于在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组；

划分模块，用于将所述最短三元组中的主语元素划分为实体行为的主语，将所述最短三元组中的谓语元素划分为实体行为的谓语，并基于待分类元素核心词的句法依赖关系和命名实体类别，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别；

生成模块，用于根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别，生成第一实体行为。

进一步地，所述确定模块包括：

构建子模块，用于根据三元组之间的包含关系构建多叉树，其中，所述多叉树的节点满足以下关系：第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列，与三元组的待分类元素相同，且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素；

剪枝子模块，用于将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉，得到修改后的多叉树；

处理子模块，用于从根节点遍历所述修改后的多叉树，从叶子节点中得到最短三元组。

进一步地，所述划分模块，还用于根据待分类元素核心词的句法依赖关系、命名实体类别、词性，以及谓语元素末尾使用的介词、及谓语元素末尾介词的句法依赖关系，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。

进一步地，所述实体行为抽取装置还包括：

合并模块，用于获取第二实体行为，在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时，对所述第一实体行为与所述第二实体行为进行合并，生成行为链式结构。

本发明还提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中计算机程序时实现如上述所述实体行为抽取装置的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述实体行为抽取装置的步骤。

本发明提供的实体行为抽取方法，通过在实体行为抽取过程中确保语义及信息的完整性，并准确对待分类元素进行分类，根据实体行为的主语、谓语、待分类元素的分类生成实体行为，从而提高实体行为抽取的准确度，通过行为链将多个实体行为进行链接，进而能够得到一个以虚拟节点为中心的实体行为的图谱表达，与虚拟节点关联内容的包括行为的发起方、接收方、动作、时间、地点等元素，丰富实体行为抽取的内容。

附图说明

图1是本发明实施例提供的实体行为抽取方法的实现流程图；

图2是本发明实施例提供的句法依赖分析示意图；

图3是本发明实施例提供的所述在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组的实现流程图；

图4是本发明实施例提供的实体行为抽取装置的一结构示意图；

图5是本发明实施例提供的实体行为抽取装置的确定模块的结构示意图；

图6是本发明实施例提供的实体行为抽取装置的另一结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1所示为本发明实施例提供的实体行为抽取方法的流程图。所述实体行为抽取方法包括以下步骤：

步骤S101、通过NLP工具的Open IE功能对预先获取的语料集中的语句提取三元组，所述三元组包括主语元素、谓语元素及待分类元素。

在本实施例中，NLP是指自然语言处理，是英文Nnatural Language Processing的简称，OpenIE是指开放域信息抽取，是英文OpenInformation Extract的简称。OpenIE功能提供的三元组中的元素，可以被有效的划分为主语、谓语、宾语等元素，并可以依据链式结构构造有意义的实体行为链。使用OpenIE功能提供的具有良好结构的三元组，可以有效确保实体行为抽取的准确度。

NLP工具包中使用到的OpenIE技术，并不仅仅是简单的将每个元素与它们的修饰成分全部表达出来，还会尝试去掉一些元素的修饰成分，仅用元素的核心词语进行表示，以便其他应用得到更加精简的结果。这就意味着，OpenIE的结果，即使是表达同一个元素，也会有不同的表达方式，附带着不同级别的语义信息。

在本实施例中，在使用NLP工具的OpenIE功能时，还在段落级别打开了指代消解功能，用以提高文本的利用率，抽取出更多的实体行为。抽取结果得到的三元组表示方式如下所示：其中，的下标i表示三元组的分组号，其上标1，2，...，n表示三元组在分组i内的序号。需要说明的是，预先获取的语料集为英文的语料集。

步骤S102、将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起，得到三元组分组。

由于需要保证保留下来的三元组分别对应表示句子中不同方面的信息，在一句话中，可能会表达出多个不同的实体行为，因此需要对三元组进行分组。

一般来说，OpenIE的三元组结果使用以下四个特征，就可以将其正确分组：(1)主语的核心词相同；(2)谓语的核心词相同；(3)宾语的核心词相同；(3)如果谓语以介词结尾，那么谓语结尾的介词相同。以上四条特征中的相同，指的是偏移量相同的词。当一个句子中出现了多个相同的词，需要判断其偏移量，如果偏移量不同，即使词语一模一样，也代表不是同一个对象。具体来说，偏移量指词在一句话中的排序，例如语句“SteveJobs and hisbeautiful wife attend a greatmeeting”为例，SteveJobs的偏移量为0，attend的偏移量为5。当一个句子中出现了多个相同的词，需要判断其偏移量，例如，语句“Jobs’s wife andDavid’s wife attend a great meeting”中Jobs’s wife and David’s wife两个wife是指不同对象，需要通过单词的偏移量确定两个wife不是同一对象。

一般的知识图谱更加倾向于构造一个“实体级别”的数据库。简单来说，以实体为节点，实体与实体之间的关系为边，实体的属性作为节点的附加属性来进行存储。然而，在Open IE得到的三元组中，它们的主语、谓语、宾语元素如果核心词是一个实体，并且句子中有修饰这个实体的修饰词，那么这个元素就更倾向于包含了实体的修饰成分，不利于数据插入到数据库中。因此在这一步，系统对三元组做以下预处理：如果元素核心词是一个命名实体，则这个元素只保留命名实体，其它的成分将作为这个实体的头衔、职业等构成一个新的三元组。

补充说明的是，由于实体行为是以动作为核心的，所以只需要依据三元组谓语的核心词做分组即可。

请参阅图2，图2所示为本发明实施例提供的句法依赖分析示意图。图2中，以语句“Steve Jobs andhis beautiful wife attend a great meeting”为例，NNP表示常用人名，CC表示连词，PRP表示人称代词，JJ表示形容词或者序数词，NN表示名词，VB表示动词，DT表示冠词，conj:and表示连接两个并列的词，nsubj表示名词主语，nmod:pass表示被动的名词主语，amod表示形容词，det表示依赖关系，dobj表示直接宾语。图2中的带箭头弧线所连接的词语之间具有相应的句法依赖关系。以语句“Steve Jobs andhis beautiful wifeattend a great meeting”为例，可以得到6条Open IE的三元组结果，三元组结果如表1所示。

表1 Open IE的三元组结果表

结合图2及表1分析，可以看到“his beautiful wife”中的单词“his”和“beautiful”都是依赖于wife的，并且“wife”这个单词依赖的“Steve Jobs”不在“hisbeautifulwife”中，可以判断出“wife”就是主语的核心词。

例如，结合图2及表1的例句的三元组进行分组，可以得到两个组，第一组包括及第二组包括及

步骤S103、在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组。

在本实施例中，通过步骤S102，可以得到分好组的三元组分组。同一组内的三元组描述的是相同的元素，但是包含的信息量有所不同，例如，表1中的为一组，为一组。因此，需要从组内取出一个最佳的三元组来代表其描述的元素。选择最佳结果的原则是：在保证语义信息缺损不会引起歧义的前提下，越短的三元组就是越好的。

请参阅表2，该表所示为最短三元组与同组内其他三元组命名实体类别的对比表。

表2最短三元组与同组内的其他三元组的命名实体类别的对比表

需要说明的是，表2中的“元素中包含”，表示的是最短三元组中的元素，比同组内其他三元组中多出的元素，可以理解为最短三元组中更倾向于保留的元素；而“元素中不包含”的含义恰好相反，表示的是最短三元组中的元素，比其他三元组中少的元素，也就是去掉后语义损失在容忍程度之内的词语。从表2可知，最短三元组中更倾向于包括人物、地点、机构及时间等命名实体。

对于元素核心词不是命名实体的情况，通过使用Open IE结果进行人工标注后，发现从命名实体的角度来看，两个相同元素中包含命名实体的比不包含命名实体的更倾向于保留下来；如果从词性角度来看，两个相同元素中包含专有名词(NNP)和数字(NUM)的更倾向于保留下来；从是否有从句的角度来看，拥有从句的三元组元素更倾向于保留下来，当然，从句中的元素也符合上面提到的命名实体和词性的现象。

请参阅表3，表3所示为元素核心词不是命名实体时，最短三元组与同组内其他三元组的词性对比表的示例，表3中的“元素中包含”，表示的是最短三元组中的元素，比同组内其他三元组中多出的元素，可以理解为最短三元组中更倾向于保留的元素；而“元素中不包含”的含义恰好相反，表示的是最短三元组中的元素，比同组内其他三元组中少的元素，也就是去掉后语义损失在容忍程度之内的词语。

表3最短三元组与其他三元组的词性对比表

步骤S104、将所述最短三元组中的主语元素划分为实体行为的主语，将所述最短三元组中的谓语元素划分为实体行为的谓语，并基于待分类元素核心词的句法依赖关系和待分类元素核心词的命名实体类别，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别。

在本实施例中，实体体行为抽取中最关键的步骤是将相应元素分类到主语、谓语、宾语、时间、地点等类别中。根据Open IE的三元组结果可知，Open IE提供的三元组的主语元素必然就是实体行为中的主语，三元组的谓语元素也必然是实体行为中的谓语。所以，需要做的是将一组行为三元组中剩余的待分类元素进行正确分类。

要正确分类三元组的待分类元素，可以基于待分类元素核心词的句法依赖关系和待分类元素核心词的命名实体类别对三元组的待分类元素进行分类。其分类规则如表4所示，表4所示为三元组待分类元素的分类规则表，不满足表4中规则的元素，都可以被分类到“其他”的类别中。

表4三元组分类规则表

核心词依赖	核心词命名实体类别	行为元素类别
			dobj	任意	宾语
nmod	TIME	时间
			nmod	LOCATION	地点
nmod	ORGAINIZATION	机构

步骤S105、根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别，生成第一实体行为。

举例来说，对于语句“Mr Hu and Bush held talks”可以进行“talks”的实体行为抽取，参与人包括MrHu和MrBush两个实体，会面时间、地点未知。

本发明的实体行为抽取方法，通过确保从三元组分组中选择的最短三元组的语义及信息的完整性，并准确对最短三元组中出主语元素、谓语元素之外的待分类元素进行分类，根据实体行为的主语、谓语、待分类元素的分类生成实体行为，从而提高实体行为抽取的准确度。

参阅图3，所述步骤103包括以下过程：

步骤S1031，根据三元组之间的包含关系构建多叉树，其中，所述多叉树的节点满足以下关系：第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列，与三元组的待分类元素相同，且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素；

步骤S1032，将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉，得到修改后的多叉树；

步骤S1033，从根节点遍历所述修改后的多叉树，从叶子节点中得到最短三元组。

下面以满足公式要求的形式说明构造多叉树需要满足的关系：

多叉树中节点满足公式(1)，且同时满足公式(2)和公式(3)，其中overlap是使用最长公共子序列进行计算。

公式(1)、公式(2)及公式(3)中，object代表待分类元素。公式(1)、公式(2)及公式(3)表示第i组的第j个三元组的子节点为第i组的第k个三元组，当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列，与三元组的待分类元素相同，也就是三元组的待分类元素包含三元组的待分类元素，并且不存在三元组的待分类元素既包含于三元组的待分类元素又包含三元组的待分类元素。

补充说明的是，在所述步骤S104中的所述基于待分类元素核心词的句法依赖关系和待分类元素核心词的命名实体类别，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别，可以包括以下过程：

在本实施例中，若只使用待分类元素核心词的句法依赖关系和待分类元素核心词的命名实体类别这两种特征预先定义分类规则，容易造成分类结果准确率高、但召回率较低的情况。在对数据进行标注的过程中，不仅仅是针对三元组进行了同组择优，还标注了三元组的待分类元素在行为元素中的类别，这样就拥有了行为元素分类的标注数据。得到标注数据后，选择合适的特征，就可以使用支持向量机进行机器学习方式的分类。在标注数据中所取到的信息中选择以下五个方面作为支持向量机输入的特征：(1)三元组待分类元素核心词的命名实体类别；(2)三元组待分类元素核心词的词性；(3)三元组待分类元素核心词的句法依赖关系；(4)三元组谓语元素末尾使用的介词；(5)三元组谓语末尾介词的句法依赖关系，使用以上五种特征训练得出的分类结果比仅基于句法依赖和命名实体类别的方式所得到的分类结果更加准确，整体效果更好。补充说明的是，通过支持向量机得到分类结果的步骤可以包括以下过程：对待分类数据进行标注，将前述5中特征及元素分类结果作为训练数据，输入支持向量机，通过支持向量机得到训练结果，即训练得出分类结果。

进一步补充说明的是，在步骤S105之后，所述方法还可以包括以下步骤：获取第二实体行为，在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时，对所述第一实体行为与所述第二实体行为进行合并，生成行为链式结构。

补充说明的是，所述获取第二实体行为的步骤可以通过与步骤S101-105生成第一实体行为相同或相似过程，得到第一实体行为，也可以从已经存储的实体行为数据中获取第二实体行为，在此不做限制。

为了能够完整保存实体行为各方面信息，可以将能够合并行为进行合并处理，构成行为链式结构。可以通过行为链来表示一个连贯的行为，链中前一个行为会使用“object_chain”指向一个新的行为，例如，当一个行为的宾语恰好与另一个行为的主语是同一个命名实体时，也就是Action₁·object_i＝Action₂·object_j的时候，便可以将Action₁的object_i转换为三元组<Action₁,object_chain,Action₂>的形式，将其关联起来，构成行为链式结构。

本发明的实体行为抽取方法，通过确保从三元组分组中选择的最短三元组的语义及信息的完整性，并准确对待分类元素进行分类，根据实体行为的主语、谓语、待分类元素的分类生成实体行为，从而提高实体行为抽取的准确度，通过行为链将多个实体行为进行链接，进而能够得到一个以虚拟节点为中心的实体行为的图谱表达，与虚拟节点关联内容的包括行为的发起方、接收方、动作、时间、地点等元素，丰富实体行为抽取的内容。

图4示出了本发明实施例提供的一种实体抽取装置400的结构示意图，为了便于说明，仅示出了于本发明实施相关的部分。该实体抽取装置400，包括：

提取模块401，用于通过NLP工具的Open IE功能对预先获取的语料集中的语句提取三元组，所述三元组包括主语元素、谓语元素及待分类元素。

在本实施例中，NLP是指自然语言处理，是英文Nnatural Language Processing的简称，Open IE是指开放域信息抽取，是英文Open Information Extract的简称。OpenIE功能提供的三元组中的元素，可以被有效的划分为主语、谓语、宾语等元素，并可以依据链式结构构造有意义的实体行为链。使用Open IE功能提供的具有良好结构的三元组，可以有效确保实体行为抽取的准确度。

NLP工具包中使用到的Open IE技术，并不仅仅是简单的将每个元素与它们的修饰成分全部表达出来，还会尝试去掉一些元素的修饰成分，仅用元素的核心词语进行表示，以便其他应用得到更加精简的结果。这就意味着，Open IE的结果，即使是表达同一个元素，也会有不同的表达方式，附带着不同级别的语义信息。

在本实施例中，在使用NLP工具的Open IE功能时，还在段落级别打开了指代消解功能，用以提高文本的利用率，抽取出更多的实体行为。抽取结果得到的三元组表示方式如下所示：其中，的下标i表示三元组的分组号，其上标1，2，...，n表示三元组在分组i内的序号。抽取结果得到的三元组表示方式如下所示：其中，的下标i表示三元组的分组号，其上标1，2，...，n表示三元组在分组i内的序号。需要说明的是，预先获取的语料集为英文的语料集。

聚合模块402，用于将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起，得到三元组分组。

一般来说，Open IE的三元组结果使用以下四个特征，就可以将其正确分组：(1)主语的核心词相同；(2)谓语的核心词相同；(3)宾语的核心词相同；(3)如果谓语以介词结尾，那么谓语结尾的介词相同。以上四条特征中的相同，指的是偏移量相同的词。当一个句子中出现了多个相同的词，需要判断其偏移量，如果偏移量不同，即使词语一模一样，也代表不是同一个对象。具体来说，偏移量指词在一句话中的排序，例如语句“Steve Jobs and hisbeautiful wife attend a greatmeeting”为例，Steve Jobs的偏移量为0，attend的偏移量为5。当一个句子中出现了多个相同的词，需要判断其偏移量，例如，语句“Jobs’s wifeand David’s wife attend a great meeting”中Jobs’s wife and David’s wife两个wife是指不同对象，需要通过单词的偏移量确定两个wife不是同一对象。

请参阅图2，图2中，以语句“Steve Jobs and his beautiful wife attend agreat meeting”为例，图2中，NNP表示常用人名，CC表示连词，PRP表示人称代词，JJ表示形容词或者序数词，NN表示名词，VB表示动词，DT表示冠词，conj:and表示连接两个并列的词，nsubj表示名词主语，nmod:pass表示被动的名词主语，amod表示形容词，det表示依赖关系，dobj表示直接宾语。图2中的带箭头弧线所连接的词语之间具有相应的句法依赖关系。以语句“Steve Jobs and his beautiful wife attend a great meeting”为例，可以得到6条Open IE的三元组结果，三元组结果如前述的表1所示。

结合图2及表1分析，可以看到“his beautiful wife”中的单词“his”和“beautiful”都是依赖于wife的，并且“wife”这个单词依赖的“Steve Jobs”不在“hisbeautiful wife”中，可以判断出“wife”就是主语的核心词。

确定模块403，用于在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组。

在本实施例中，通过聚合模块402，可以得到分好组的三元组分组。同一组内的三元组描述的是相同的元素，但是包含的信息量有所不同，例如，表1中的为一组，为一组。因此，需要从组内取出一个最佳的三元组来代表其描述的元素。选择最佳结果的原则是：在保证语义信息缺损不会引起歧义的前提下，越短的三元组就是越好的。

请参阅前述表2，表2中的“元素中包含”，表示的是最短三元组中的元素，比同组内其他三元组中多出的元素，可以理解为最短三元组中更倾向于保留的元素；而“元素中不包含”的含义恰好相反，表示的是最短三元组中的元素，比其他三元组中少的元素，也就是去掉后语义损失在容忍程度之内的词语。从表2可知，最短三元组中更倾向于包括人物、地点、机构及时间等命名实体。

请参阅前述表3，表3所示为元素核心词不是命名实体时，最短三元组与同组内其他三元组的词性对比表的示例，表3中的“元素中包含”，表示的是最短三元组中的元素，比同组内其他三元组中多出的元素，可以理解为最短三元组中更倾向于保留的元素；而“元素中不包含”的含义恰好相反，表示的是最短三元组中的元素，比同组内其他三元组中少的元素，也就是去掉后语义损失在容忍程度之内的词语。

划分模块404，用于将所述最短三元组中的主语元素划分为实体行为的主语，将所述最短三元组中的谓语元素划分为实体行为的谓语，并基于待分类元素核心词的句法依赖关系和待分类元素核心词的命名实体类别，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别。

要正确分类三元组的待分类元素，可以基于待分类元素核心词的句法依赖关系和待分类元素核心词的命名实体类别对三元组的待分类元素进行分类。其分类规则如前述表4所示，表4所示为三元组宾语分类规则表，不满足表4中规则的元素，都可以被分类到“其他”的类别中。

生成模块405，用于根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别，生成第一实体行为。

本发明的实体行为抽取装置，通过确保从三元组分组中选择的最短三元组的语义及信息的完整性，并准确对最短三元组中出主语元素、谓语元素之外的待分类元素进行分类，提高实体行为抽取的准确度。

参阅图5，所述确定模块403包括：

构建子模块4031，用于根据三元组之间的包含关系构建多叉树，其中，所述多叉树的节点满足以下关系：第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列，与三元组的待分类元素相同，且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素；

剪枝子模块4032，用于将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉，得到修改后的多叉树；

处理子模块4033，用于从根节点遍历所述修改后的多叉树，从叶子节点中得到最短三元组。

补充说明的是，所述划分模块404，还用于根据待分类元素核心词的句法依赖关系、命名实体类别、词性，以及谓语元素末尾使用的介词、及谓语元素末尾介词的句法依赖关系，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。

参见图6，实体抽取装置600还包括：

合并模块406，用于获取第二实体行为，在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时，对所述第一实体行为与所述第二实体行为进行合并，生成行为链式结构。

补充说明的是，所述获取第二实体行为可以提取模块401、聚合模块402、确定模块403、划分模块404及生成模块405经过生成第一实体行为相同或相似过程，得到第二实体行为，也可以从已经存储的实体行为数据中获取第二实体行为，在此不做限制。

为了能够完整保存实体行为各方面信息，可以将能够合并的行为构成行为链式结构。可以通过行为链来表示一个连贯的行为，链中前一个行为会使用“object_chain”指向一个新的行为。所以当一个行为的宾语恰好与另一个行为的主语是同一个命名实体时，也就是Action₁·object_i＝Action₂·object_j的时候，便可以将Action₁的object_i转换为三元组<Action₁,object_chain,Action₂>的形式，将其关联起来。

本发明的实体行为抽取装置，通过确保从三元组分组中选择的最短三元组的语义及信息的完整性，并准确对待分类元素进行分类，根据实体行为的主语、谓语、待分类元素的分类生成实体行为，从而提高实体行为抽取的准确度，通过行为链将多个实体行为进行链接，进而能够得到一个以虚拟节点为中心的实体行为的图谱表达，与虚拟节点关联内容的包括行为的发起方、接收方、动作、时间、地点等元素，丰富实体行为抽取的内容。

本发明实施例提供一种计算机装置，该计算机装置包括处理器，处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的实体行为抽取方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，计算机程序可以被分割成上述各个方法实施例提供的网页正文提取方法的步骤。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个实体行为抽取方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实体行为抽取方法，其特征在于，所述方法包括：

通过NLP工具的Open IE功能对预先获取的语料集中的语句提取三元组，所述三元组包括主语元素、谓语元素及待分类元素；

2.根据权利要求1所述的实体行为抽取方法，其特征在于，所述在确保语义信息缺损不会引起歧义的前提下，从所述三元组分组中确定最短三元组，包括：

3.根据权利要求2所述的实体行为抽取方法，其特征在于，所述基于待分类元素核心词的句法依赖关系和命名实体类别，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别，包括：

根据待分类元素核心词的句法依赖关系、命名实体类别、词性，以及谓语元素末尾使用的介词、谓语元素末尾介词的句法依赖关系，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。

4.根据权利要求1所述的实体行为抽取方法，其特征在于，所述方法还包括：

获取第二实体行为，在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时，对所述第一实体行与所述第二实体行为进行合并，生成行为链式结构。

5.一种实体行为抽取装置，其特征在于，包括：

6.根据权利要求5所述的实体行为抽取装置，其特征在于，所述确定模块包括：

7.根据权利要求6所述的实体行为抽取装置，其特征在于，所述划分模块，还用于根据待分类元素核心词的句法依赖关系、命名实体类别、词性，以及谓语元素末尾使用的介词、及谓语元素末尾介词的句法依赖关系，将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。

8.根据权利要求5所述的实体行为抽取装置，其特征在于，还包括：

9.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中计算机程序时实现如权利要求1-4中任意一项所述的实体行为抽取方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-4中任意一项所述的实体行为抽取方法的步骤。