CN113656556A

CN113656556A - 一种文本特征抽取方法及知识图谱构建方法

Info

Publication number: CN113656556A
Application number: CN202110958984.4A
Authority: CN
Inventors: 曾祥云; 朱姬渊
Original assignee: Shanghai Dashanlin Medical Health Technology Co ltd
Current assignee: Guangzhou Tianchen Health Technology Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-16
Anticipated expiration: 2041-08-20
Also published as: CN113656556B

Abstract

本发明公开一种文本特征抽取方法及知识图谱构建方法，其文本特征抽取方法以标注好的实体和关系为正样本作为基础构建负样本：实体负样本，关系负样本和指代消歧负样本；对正样本和负样本进行映射表征，得到实体表征，实体对表征和指代消歧实体对表征构成的向量集；对向量集进行分析，获取实体特征、指代消歧特征以及关系特征；对实体特征、指代消歧特征以及关系特征进行分类；设置损失函数，对分类结果进行评价，本发明以实体为中心，并辅以指代消歧，解决了因为指代词非实体造成的实体丢失情况，提升了模型整体的准确性，并融合关系特征，进一步提升关系识别的准确率。

Description

一种文本特征抽取方法及知识图谱构建方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本特征抽取方法及知识图谱构建方法。

背景技术

知识图谱是一种语义网络，以图数据结构的形式来将信息以及关系表示出来，从而用来进一步挖掘信息中隐藏的信息和信息之间的关系。

知识图谱中的图，由节点和边组成，其中的节点用以表示概念和实体，边表示事物的关系和属性。如何对输入或者现有的信息进行知识抽取(包括实体抽取、关系抽取以及属性抽取)，从而获得知识表示，是下一步构建知识图谱的基础和前提。

现有技术中，知识抽取主要有两种方法，第一种是两步走算法，也就是需要用两个模型，第一个模型是命名实体识别模型，用它来抽取句子中的实体。然后再用一个模型对抽取的实体进行关系分类。

第二种是一步走算法，也就是用一个联合模型，采用多任务学习框架，把实体识别和关系分类两个任务融合在一个框架。

一步走算法的模型利用特征之间共享，在准确率和整体速度方面，更具有优势。但是，现有一步走算法的关系抽取算法主要围绕实体关系对来设计特征抽取模型，很少把焦点放在以实体为核心的特征抽取设计上，因此造成了关系抽取最终的准确率并不高，降低了后续的关系分类任务的准确率。

此外，现有的方法处理难以处理好文本中实体的指代问题，造成特征的丢失。

发明内容

本发明为解决现有技术中存在的技术问题，提出一种文本特征抽取方法及知识图谱构建方法。

为了实现以上目的，本发明提出了一种文本特征抽取方法，包括如下步骤：

以标注好的实体和关系为正样本作为基础构建负样本：实体负样本，关系负样本和指代消歧负样本；

对正样本和负样本进行映射表征，得到实体表征，实体对表征和指代消歧实体对表征构成的向量集；

对向量集进行分析，获取实体特征、指代消歧特征以及关系特征；

对实体特征、指代消歧特征以及关系特征进行分类；

设置损失函数，对分类结果进行评价。

进一步地，所述构建实体负样本为基于人工标注的实体，构建得到的子实体，所述的子实体被原实体包含，子实体字数少于原实体。

进一步地，所述构建实体负样本为基于人工标注的实体，构建得到的扩展实体，所述的扩展实体包含原实体，但字数大于原实体。

进一步地，所述构建关系负样本为随机使用未在人工标注有关系的实体对来构建。

进一步地，所述构建关系负样本为在人工标注的实体对中，随机改变关系的类型，使得实体关系的整体和原来不一样。

进一步地，所述构建指代消歧负样本为在同一个段落中，选取在不同句子中，没有关系的实体对作为负样本。

进一步地，对正样本和负样本进行映射表征，得到实体表征，实体对表征和指代消歧实体对表征构成的向量集，具体为：

实体表征通过采用bert标注和随机初始化表征相融合获得；

实体对表征通过把实体对中包含的字，去RE中索引出来对应的字特征，再把字特征放入一个多层的神经网络，把特征映射到统一空间，随机初始化语义向量获得；

指代消歧实体对表征采用实体对的编辑距离语义向量和实体对包含的字向量相融合获得。

进一步地，对向量集进行分析，获取文本的特征包括：

实体特征：基于bert模型对句子进行特征抽取，得到每个字的特征，再对非实体关键字的特征进行屏蔽，得到包含实体字的特征E1，再把实体的长度用向量表示得到长度特征E2，把特征E1和特征E2进行拼接得到特征E3；

指代消歧特征：计算指代的实体对之间的编辑距离，对编辑距离进行特征嵌入，得到特征向量R1，将特征R1和实体的BERT特征E1进行拼接，得到特征R2；

关系特征：

将实体对用向量表示到特征P1，对实体对中的第二个实体首字的位置和第一个实体首字的位置之差进行嵌入，得到特征P2；

对第二个实体首字的位置和第一个实体最后一个字的位置进行之差嵌入，得到特征P3；用bert抽取出来的整个句子,得到特征S1；

并将特征P1、特征P2、特征P3、特征S1和特征E1进行拼接得到特征S2。

进一步地，对实体特征、指代消歧特征以及关系特征进行分类包括：

在特征E3后接第一神经网络和分类器C1对实体的位置进行分类，同时在第一神经网络后再接一个分类器C2对实体的类型进行分类；

在特征R2后接第二神经网络和分类器C3，对指代消歧的实体对进行分类；

在特征S2后接第三神经网络和分类器C4，对实体关系进行分类。

本发明还提供一种知识图谱的构建方法，包括：

获取待创建知识图谱所属知识领域的文本；

对文本的进行知识抽取；

将多个知识库进行融合，形成知识图谱；

所述知识抽取中，对文本的特征抽取采用权利要求1-9中所述的任一方法。

本发明公开的方法和系统中所述模块，在实际应用中，即可以在一台目标服务器上部署多个模块，也可以每一模块独立部署在不同的目标服务器上，特别的，根据需要，为了提供更强大的计算处理能力，也可以根据需要将模块部署到集群目标服务器上。

由此可见，本发明设计以实体为核心的多维度特征融合机制，有效的提升实体识别的准确率，同时采用了指代消歧的辅助任务，解决了因为指代词非实体造成的实体丢失情况，并对关系特征进行融合，进而从整体上提升了模型整体的准确性。

为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种文本特征抽取方法的流程示意图。

图2为本申请实施例的实体特征和指代消歧特征抽取具体实施结构示意图。

图3为本申请实施例的实体关系特征抽取具体实施结构示意图。

具体实施方式

本申请的一种文本特征抽取方法，以实体为核心的多维度特征聚合的关系抽取方法，本发明提出一种以实体为中心，并辅以指代消歧，解决了因为指代词非实体造成的实体丢失情况，提升了模型整体的准确性，此外，本申请基于BERT模型的特点，可以提取全局的关系特征，再设计了一个局部特征抽取器，用于提取局部关系对的特征P2和特征P3，并进行融合，进一步提升关系识别的准确率。

本发明设计以实体为核心的多维度特征融合机制，有效的提升实体识别的准确率，同时采用了指代消歧的辅助任务，解决了因为指代词非实体造成的实体丢失情况，也提升了模型关系抽取的准确性。

作为一种实施方式，请参阅图1，图1示出了一种文本特征抽取方法的流程示意图。本申请实施例的文本特征抽取方法包括如下步骤：

以标注好的实体和关系为正样本，在此基础上构建负样本，负样本包括实体负样本，关系负样本和指代消歧负样本；

对实体特征、指代消歧特征以及关系特征进行分类；

设置损失函数，对分类结果进行评价。

作为一种优选的实施方式，构建负样本的实施方式负样本构建过程分为实体负样本，关系负样本和指代消歧负样本，其中：

实体负采样过程具体又分为两种负样本，一种是基于人工标注的实体来构建的子实体。所述的子实体被原实体包含，子实体字数少于原实体。举例：也就是说实体负样本是正样本子集，负样本只包含了正样本的部分字，如“中华人民共和国”是个实体，他的负样本是“中华人民共和”，“中华人民共”，“中华人民”，“中华人”。

一种基于人工标注的实体，构建得到的扩展实体，所述的扩展实体包含原实体，但字数大于原实体。举例：“张三丰是张无忌的太师父”。这个句子中，“张三丰”这个人名实体，“张三丰是”是构建出来的的扩展实体，作为负样本。

关系负采样也分为两种情况，一种是随机采用实体对，而此实体对不在人工标注的有关系的实体对里面。另外一种是实体对在人工标注的范围里面，通过负采样随机改变关系的类型，使得实体关系的整体和原来不一样，

指代消歧负采样，在同一个段落中，但不在同一个句子中，没有关系的实体对作为负样本。

对正样本和负样本进行映射表征，分为实体表征，实体对表征和指代消歧实体对表征的三类表征。作为一种优选的实施方式，对实体采用bert标注和随机初始化表征相融合的表征方式，得到融合表征RE。

实体对表征，是把实体对中包含的字，在融合表征RE中索引出来对应的字特征，再将字特征放入一个多层的神经网络，把特征映射到统一空间。

指代消歧实体对表征采用实体对的编辑距离语义向量和实体对包含的字向量相融合得到。

请参阅图2，对于实体特征的抽取的一种优选实施方式，其步骤如下：

首先采用bert模型对句子进行特征抽取，得到每个字的特征，当然，作为变化的其他实施例，也可以使用其他模型或者类似bert模型来实现。

对非实体关键字的特征进行屏蔽，剩下包含实体字的特征E1，具体实现方法可以采用bert模型中的mask机制来实现。

再把实体的长度用向量表示，得到长度特征E2。

把特征E1和特征E2进行拼接得到特征E3作为实体特征，实体特征的特征向量表示具体为：实体长度嵌入，加上实体字的嵌入拼接在一起得到实体的特征向量。

此外，在获得特征E3之后，在E3后接第一神经网络和一个分类器C1(即实体位置分类器)，用以对实体的位置进行分类，同时再接一个分类器C2(即实体类型分类器)对实体的类型进行分类。当然，作为变化的实施方式，本实施例的第一神经网络，可以改为二层或者多层的神经网络，神经网络可以根据实际项目的需要，使用各种类型和特点的神经网络来实现，比如前馈神经网络层或者反馈神经网络等等，均不脱离本申请的发明思路。

请参阅图2，指代消歧特征的抽取，其步骤如下：

首先计算指代的实体对之间的编辑距离；

对编辑距离进行特征嵌入，得到特征R1；

把特征R1和特征E1进行拼接，得到特征R2。

此外，在获得特征R2之后，在特征R2后接第二神经网络和一个分类器C3(即指代消歧分类器)，用以对指代消歧特征进行分类。当然，作为变化的实施方式，本实施例的第二神经网络，可以改为二层或者多层的神经网络，神经网络可以根据实际项目的需要，使用各种类型和特点的神经网络来实现，比如前馈神经网络层或者反馈神经网络等等，均不脱离本申请的发明思路。

请参阅图3，对关系特征的抽取的一种优选实施方式，其步骤如下：

将实体对进行嵌入得到特征P1；

在一个实体对中，对第二个实体首字的位置和第一个实体首字的位置之差进行嵌入，得到特征P2；本实施例中，所述的“嵌入”是指用向量表示一种特征。

对第二个实体首字的位置和第一个实体最后一个字的位置进行之差嵌入，得到特征P3。

用bert模型抽取出来的整个句子,得到特征S1；

对特征P1、特征P2、特征P3、特征S1和特征E1进行拼接得到特征S2。

此外，在获得特征S2之后，在S2后接第三神经网络和一个分类器C4(即关系分类器)，用以对关系特征进行分类。当然，作为变化的实施方式，本实施例的第三神经网络，可以改为二层或者多层的神经网络，神经网络可以根据实际项目的需要，使用各种类型和特点的神经网络来实现，比如前馈神经网络层或者反馈神经网络等等，均不脱离本申请的发明思路。

作为一种优选的实施方式，上述的分类器C1至分类器C4，均使用softmax分类器来实，作为变化的实施方式，也可以全部使用另外一种分类器，也可以采用多种分类器来混合使用，均不脱离本申请的发明思路。

在最后的评估阶段，设置损失函数，对分类结果进行评价，作为一种优选的实施方式，将实体位置分类器、实体分类器，指代消歧分类器和关系分类器的损失全部加起来，进行多任务联合学习。实体位置分类器、实体分类器，指代消歧分类器和关系分类器这四个任务每个任务都有一个损失函数，整个模型的损失就是把四个任务的损失加起来，即为多任务学习。

基于上述实施例的文本特征抽取方法，本申请还公开一种知识图谱的构建方法，其步骤包括：

获取待创建知识图谱所属知识领域的文本；

对文本的进行知识抽取；

将多个知识库进行融合，形成知识图谱；

其中，所述知识抽取中，对文本的特征抽取采用上述实施例所述的方法，知识图谱构建方法的其他步骤，具体可以参考现有技术均可实现，不再详述。

本申请还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述实施例所述文本特征抽取方法或者知识图谱构建方法。

本申请还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如如上述实施例所述文本特征抽取方法或者知识图谱构建方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的条件下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本特征抽取方法，其特征是，包括如下步骤：

对实体特征、指代消歧特征以及关系特征进行分类；

设置损失函数，对分类结果进行评价。

2.如权利要求1所述的文本特征抽取方法，其特征是，所述构建实体负样本为基于人工标注的实体，构建得到的子实体，所述的子实体被原实体包含，子实体字数少于原实体。

3.如权利要求1所述的文本特征抽取方法，其特征是，所述构建实体负样本为基于人工标注的实体，构建得到的扩展实体，所述的扩展实体包含原实体，但字数大于原实体。

4.如权利要求1所述的文本特征抽取方法，其特征是，所述构建关系负样本为随机使用未在人工标注有关系的实体对来构建。

5.如权利要求1所述的文本特征抽取方法，其特征是，所述构建关系负样本为在人工标注的实体对中，随机改变关系的类型，使得实体关系的整体和原来不一样。

6.如权利要求1所述的文本特征抽取方法，其特征是，所述构建指代消歧负样本为在同一个段落中，选取在不同句子中，没有关系的实体对作为负样本。

7.如权利要求1所述的文本特征抽取方法，其特征是，对正样本和负样本进行映射表征，得到实体表征，实体对表征和指代消歧实体对表征构成的向量集，具体为：

实体表征通过采用bert标注和随机初始化表征相融合获得；

8.如权利要求7所述的文本特征抽取方法，其特征是，对向量集进行分析，获取文本的特征包括：

关系特征：

9.如权利要求8所述的文本特征抽取方法，其特征是，对实体特征、指代消歧特征以及关系特征进行分类包括：

10.一种知识图谱的构建方法，包括：

获取待创建知识图谱所属知识领域的文本；

对文本的进行知识抽取；

将多个知识库进行融合，形成知识图谱；

其特征在于，所述知识抽取中，对文本的特征抽取采用权利要求1-9中所述的任一方法。