CN110852107B - 一种关系提取方法、装置、及存储介质 - Google Patents
一种关系提取方法、装置、及存储介质 Download PDFInfo
- Publication number
- CN110852107B CN110852107B CN201911088380.8A CN201911088380A CN110852107B CN 110852107 B CN110852107 B CN 110852107B CN 201911088380 A CN201911088380 A CN 201911088380A CN 110852107 B CN110852107 B CN 110852107B
- Authority
- CN
- China
- Prior art keywords
- relation
- relationship
- entity
- vector
- triplet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种关系提取方法,包括识别目标文本中的实体对;获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签,根据所得到的关系标签确定所识别的实体对的关系。本申请能够节约人工成本,并且能够提高关系抽取的准确度。
Description
技术领域
本文涉及计算机技术,尤指一种关系提取方法、装置、及存储介质。
背景技术
关系提取能够使用户快速检索获取所需信息,因此在知识图谱、智能搜索引擎和自动问答系统中被广泛应用。关系提取的主要目的是针对文本中的实体对及关系进行识别和获取。常用的关系抽取方法包括:无监督的关系抽取算法、有监督的关系抽取算法和远程监督关系抽取算法。
无监督的关系抽取算法不需要标注训练数据,常用于开放领域。但是抽取到的关系需要经过关系列表模板匹配才能输出具体的关系类别,因此抽取准确度在很大程度上依赖关系列表模板的覆盖率。
有监督关系抽取算法识别准确度相对较高,但是需要人工标注的训练数据。远程监督将文本数据关系映射到关系库中,不经过人工标注得到批量的带关系标签的训练数据。但是随着时间、场景的变化,实体之间的关系也会发生改变,因此按照关系库映射会产生错误的关系标签。
发明内容
本申请提供了一种关系提取方法、装置、及存储介质,能够达到节约时间和人工,并且能够提高关系抽取的准确度的目标。
本申请提供了一种关系提取方法,包括识别目标文本中的实体对;获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签;所述关系抽取模型的训练数据采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得;根据所得到的关系标签确定所识别的实体对的关系。
在一个示例性实施例中,上述获取所述目标文本的预定向量,包括:将目标文本划分为多个抽取单元;分别对每个抽取单元进行如下操作:进行分词,得到该抽取单元的多个分词;所述多个分词包括所述实体对中的第一实体和第二实体;将所得到的多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接得到所述抽取单元的预定向量。
在一个示例性实施例中,上述预定向量包括文本向量、位置向量、及词性向量;所述将所述多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接,得到所述抽取单元的预定向量,包括:将每个所述分词分别进行文本向量化得到文本向量d;将每个所述分词分别相对于所述实体对中的每个实体的相对位置进行向量化得到第一位置向量d1和第二位置向量d2;将每个所述分词分别进行词性向量化得到词性向量d3;获得所述抽取单元中每个分词的向量表达式:xi=[di,di1,di2,di3]T;其中i表示所述分词的排序;将所述抽取单元中所有分词的向量拼接得到所述抽取单元的向量矩阵,表示为X=[x1,x2,…,xi,…]T;该矩阵的维度表示为X∈RL×d,L为分词形式下句子长度,所述句子为抽取单元,d为分词的向量维度,R表示为实数矩阵。
在一个示例性实施例中,上述关系抽取模型采用如下步骤获得:连接远程监督关系库,所述远程监督关系库记录多个实体对及实体对的关系组成的关系三元组;对采集的样本数据中含有所述远程监督关系库中的实体对的样本数据用所述关系库中的关系标签进行标注关系标签,获得带关系标签的样本数据;采用带关系标签的样本数据对关系抽取模型的参数进行训练。
在一个示例性实施例中,将所获取的预定向量输入预先建立的关系抽取模型得到关系标签,包括:将所述目标文本的抽取单元的向量矩阵X输入预先建立的关系抽取模型的卷积层中,得到特征图矩阵;对所述特征图矩阵按照所述实体对中的每个实体的位置进行切分;将每个切分的部分分别输入池化层,得到最大值池化后的特征;将得到的最大值池化后的特征合并后输入softmax模型进行分类,确定所述关系标签。
在一个示例性实施例中,上述根据所得到的关系标签确定所识别的实体对的关系后还包括:根据所得到的关系标签形成关系三元组;当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:当分析到第一个关系三元组中的第一实体与第二实体的指定关系具有唯一属性关系时,将所述关系三元组对应的关系标签确定为正确的关系标签;筛选掉已确定关系标签正确的关系三元组,在剩余的关系三元组中,如果存在第二关系三元组中的第一实体和第三实体的所述指定关系具有唯一属性关系时,则确定第二关系三元组对应的关系标签错误。
在一个示例性实施例中,根据所得到的关系标签确定所识别的实体对的关系后还包括:根据所得到的关系标签形成关系三元组;当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:当已存在第一关系三元组中的第一实体和第二实体为指定关系中不同层级的关系,第二关系三元组中的所述第一实体与第三实体为所述指定关系中同层级关系时,如果第三关系三元组中的所述第二实体与第三实体为所述指定关系中同层级关系时,则确定第三关系三元组对应的关系标签错误。
在一个示例性实施例中,上述指定关系包括亲属关系。
本申请提供一种关系提取装置,包括:实体识别模块,识别目标文本中的实体对;向量表示模块,用于获取所述目标文本的预定向量;关系抽取模块,用于将所获取的预定向量输入预先建立的关系抽取模型得到关系标签;根据所得到的关系标签确定所识别的实体之间的关系;所述关系抽取模块的训练数据是采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得。
本申请提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法。
与相关技术相比,本申请的关系抽取模型通过对远程监督关系库得到的训练数据样本进行人工标注,与直接标注文本数据相比很大程度上减少了人工成本。
另外,本申请对文本处理时增加位置向量化和词性向量化,提高了关系抽取模型的准确度。
本申请还在关系输出增加关系分析,提高了复杂语义下的关系提取准确度。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例关系提取方法流程图;
图2为本申请向量化简要流程;
图3为本申请实施例有监督关系抽取模型框图;
图4为本申请实施例实体关系结构树图;
图5为本申请实施例关系抽取模型应用流程图;
图6为本申请实施例关系提取装置模块图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
下面将结合附图及实施例对本申请的技术方案进行更详细的说明。
如图1所示,本发明实施例提供一种关系提取方法,包括如下步骤:
S1、识别目标文本中的实体对;本实施例中可以基于CRF进行实体识别。
S2、获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签;所述关系抽取模型的训练数据采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得;
S3、根据所得到的关系标签确定所识别的实体对的关系。
一种示例性实施例中,步骤S2中,所述关系抽取模型采用如下步骤获得:
S24、连接远程监督关系库,所述远程监督关系库记录多个实体对及实体对的关系组成的关系三元组;
S25、对采集的样本数据中含有所述远程监督关系库中的实体对的样本数据用所述关系库中的关系标签进行标注关系标签,获得带关系标签的样本数据;
S26、采用带关系标签的样本数据对关系抽取模型的参数进行训练。
本申请实施例中的关系抽取模型是对远程监督关系库得到的训练数据进行人工标注,与直接标注文本数据相比很大程度上减少了人工成本。
一种示例性实施例中,远程监督关系库可以从百度百科等数据库中提取实体和关系生成数据实体关系,再进行扩展而形成。关系抽取模型是对新闻等数据进行有方向的映射,经人工查验、修正后得到训练数据训练得到。本申请实施例的关系抽取模型为有监督实体关系抽取模型。
具体的,以百度百科数据库为例,首先从百度百科数据中批量获得人名实体(S-Nh),然后在Neo4j数据库中依次查找该实体的关系实体,并记录关系,形成关系三元组:(实体1,关系,实体2)。比如(张某某,丈夫,王某某)语义表示为:张某某的丈夫是王某某。通过得到的大量的关系三元组作为远程监督的关系数据库。对新闻数据进行有方向的映射,具体的,通过爬取、处理新闻数据形成文本样本数据。对含有关系库中实体对的文本样本数据进行映射关系标签。比如某文本包含张某某和王某某实体,当张某某实体位于王某某实体位置前方时,该文本标签设定为丈夫,否则设定为妻子。依照实体相对位置关系得到有方向的关系标签。对标定好的文本样本数据进行人工查验,删除或修正关系标签和语义不相符的文本样本数据,建立人的关系抽取模型,便于搜索,再进行训练有监督关系的关系抽取模型。
一种示例性实施例中,步骤S2中,所述获取所述目标文本的预定向量,包括如下步骤:
S20、将目标文本划分为多个抽取单元;分别对每个抽取单元进行如下操作:
S21、进行分词,得到该抽取单元的多个分词;所述多个分词包括所述实体对中的第一实体和第二实体;
S22、将所得到的多个分词分别进行向量化,获取每个分词的预定向量;
S23、将所述抽取单元中所有分词的预定向量进行拼接得到所述抽取单元的预定向量。
一种示例性实施例中,步骤S20中,将目标文本划分为多个抽取单元。如果识别该抽取单元实体个数不足2个,则舍弃该抽取单元。如果一个抽取单元中有三个实体,则可以组成两个实体对。
一种示例性实施例中,步骤S2中预定向量包括文本向量、位置向量、及词性向量;步骤S22中,所述将所得到的多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接,得到所述抽取单元的预定向量,包括如下步骤:
S221、将每个所述分词分别进行文本向量化得到文本向量d;将每个所述分词分别相对于所述实体对中的每个实体的相对位置进行向量化得到第一位置向量d1和第二位置向量d2;将每个所述分词分别进行词性向量化得到词性向量d3;
S222、获得所述抽取单元中每个分词的向量表达式:xi=[di,di1,di2,di3]T;其中i表示所述分词的排序;
S223、将所述抽取单元中所有分词的向量拼接得到所述抽取单元的向量矩阵,表示为:X=[x1,x2,…,xi,…]T;该矩阵的维度表示为X∈RL×d,L为抽取单元的长度,L为分词形式下句子长度,所述句子为抽取单元,d为分词的向量维度,R表示为实数矩阵。
文本向量化是将文本表示成一系列能够表达文本语义的向量。词语是表达文本处理的最基本单元,通过分词服务对文本进行切分,并将分词用向量依次表示出来。
在一个示例性实施例中,表1为部分词嵌入表,即通过查表可以获得分词的向量表示。
表1分词、向量示例表
目标本文的输入向量除了包含文本的词向量以外,还引入了词向量关于实体对的相对位置关系,如图2所示。李某某创立AA公司,实体对李某某、AA公司,位置关系能够提供的语意层面信息,语意层面的信息能够更有利于提取更精确的关系三元组信息。
除此,为了更好的解析语义,获得语义特征,还对文本进行词性解析,并用word2vector的训练方式获得关于词性的向量表示。
最后的分词的向量,通过词嵌入、位置嵌入和词性嵌入,可以获得抽取单元向量表达式,如抽取单元为句子,则句子中第i个分词的向量表达式:xi=[di,di1,di2,di3]T。将句子中所有分词拼接得到该句文本的向量化表示(X=[x1,x2,…xL]T),然后可以输入关系抽取模型确定关系。
在模型训练中,同样需要将训练的样本数据经过上述三种向量的转换后输入关系抽取模型进行模型训练得到更精确的关系抽取模型。
本示例性实施例,通过增加位置向量及词性向量进行关系抽取及训练模型使得关系抽取更精确。
一种示例性实施例中,步骤S2中,所述将所获取的预定向量输入预先建立的关系抽取模型得到关系标签,包括如下步骤:
S27、将所述目标文本的抽取单元的向量矩阵X输入预先建立的关系抽取模型的卷积层中,得到特征图矩阵;
S28、对所述特征图矩阵按照所述实体对中的每个实体的位置进行切分;
S29、将每个切分的部分分别输入池化层,得到最大值池化后的特征;
S30、将得到的最大值池化后的特征合并,然后输入softmax模型进行分类确定所述关系标签。
如图3所示,关系提取模型包括卷积网络(卷积层)、池化层(采用max pooling)和输出端连接的softmax(作为分类器)。将目标文本向量化后的矩阵表示X输入到卷积网络中,得到特征图。然后对特征图做piecewise max pooling。具体为对特征图矩阵按照选定的两个实体的位置分为三部分。把文本特征按照选定的实体切分为三部分:句首到第一个实体段、第一个实体到第二个实体段、第二个实体段到句尾。然后对每部分分别做maxpooling,取最大值,将最后结果拼接作为输出特征。对得到的上述特征按照公式g=tanh(h)进行非线性映射(h为得到的特征向量)。最后对映射结果做softmax运算。
如图5所示,本申请实施例中的模型应用的对象是未指定实体的文本数据,因此需要先对文本按句子进行分割,以每句话为识别单元。
然后通过实体识别服务提取文本中的实体,选出目标实体对。获取所述句子的预定向量输入到关系抽取网络(关系抽取模型)得到关系标签,形成关系三元组。最后对关系三元组进行分析。目标文本的识别结果为每句识别结果的总和。
一种示例性实施中,步骤S3,所述根据所得到的关系标签确定所识别的实体对的关系后还包括如下步骤:
S41、根据所得到的关系标签形成关系三元组;
S42、当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:
S43、当分析到第一关系三元组中的第一实体与第二实体的指定关系属于唯一属性关系时,将所述关系三元组对应的关系标签确定为正确的关系标签;
S44、筛选掉已确定关系标签正确的关系三元组,在剩余的关系三元组中,如果存在第二关系三元组中的第一实体和第三实体的所述指定关系属于唯一属性关系时,则确定第二关系三元组对应的关系标签错误。
一种示例性实施中,步骤S3,所述根据所得到的关系标签确定所识别的实体对的关系后还包括如下步骤:
S51、根据所得到的关系标签形成关系三元组;
S52、当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:
S53、当已存在第一关系三元组中的第一实体和第二实体为指定关系中不同层级的关系,第二关系三元组中的所述第一实体与第三实体为所述指定关系中同层级关系时,如果第三关系三元组中的所述第二实体与第三实体为所述指定关系中同层级关系时,则确定第三关系三元组对应的关系标签错误。
可以理解的是上述第一关系、第二关系、第三关系是依次分析到符合条件的关系,定义为第一关系、第二关系、第三关系。
一种示例性实施中,上述指定关系包括亲属关系。在其他实施方式中也可以是其它类型的关系,比如上下级关系、师生关系等。
如图4所示,当抽取单元为句子,句子中含有多个实体时,经过关系抽取后会得到多组三元组关系。但是由于语义复杂程度高,提取到的关系会出现错误。对此,一个示例性的实施例中设计了基于以下的分析方法,旨在减少错误输出。应用时可选择以下规则1和2中的任一个使用,或两个一起使用。
首先当识别结果出现多个三元组时,以概率高低为优先级来进行分析。将已判断合理(即关系标签正确)的关系存入关系树。每个圆代表一个实体,实体上的接口表示亲属关系。其中,黑色表示具有唯一性的亲属关系接口(父亲、母亲、妻子、丈夫),只能对外连接唯一实体,白色表示非唯一亲属关系接口(儿子、女儿、哥哥、姐姐等),可对外连接一个或多个实体。实体上部分接口是父辈关系接口(世系-1),中部接口是同辈关系接口(世系相同),下部分接口是子代关系接口(世系+1)。
对于规则1,比如按照概率从高到低的顺序遍历三元组,假设已存在三元组为(第一实体1,丈夫,第二实体2),即:实体1的丈夫是第二实体2,即第一实体1和第二实体2具有指定关系中的唯一属性关系;因此第一实体1的丈夫接口指向第二实体2,且不能再指向第三实体3。如果存在(第一实体1,丈夫,第三实体3),则判定该三元组(第一实体1,丈夫,第三实体3)对应的关系标签不正确。
规则1还可以进行其它变形,比如假设还存在三元组(第三实体3,妻子,第二实体2),则判断该三元组对应的关系标签不正确;再比如还存在三元组(第一实体1,其它亲属关系,第二实体2),则判断该三元组对应的关系标签不正确。
也就是说,当按照概率从高到低遍历三元组时,如果已有三元组中的实体对存在唯一属性关系,那么后续三元组中,和该唯一属性关系产生矛盾的三元组,可以认为关系标签不正确。
对于规则2,比如按照概率从高到低的顺序遍历三元组,假设已存在第一三元组(第一实体1,丈夫,第二实体2),和第二三元组(第一实体1,儿子,第三实体3),则第一实体1的儿子接口指向第三实体3,同时第三实体3和第二实体2的level均为1,第三实体3的level为2,即:第一实体1和第二实体2为指定关系中同层级的关系,第一实体1与第三实体3为所述指定关系中不同层级关系。如果后续概率的三元组中,存在(第三实体3,哥哥,第二实体2),判断第三实体3和第二实体2为同辈分(即,同层级),即第二实体2的level为2。但是,树结构中已存在第二实体2,且level为1,出现辈分矛盾,则认为三元组(第三实体3,哥哥,第二实体2)关系判断错误。
规则2还可以进行其它变形,比如,按照概率从高到低的顺序遍历三元组,假设已存在(第一实体1,儿子,第三实体3),即:第一实体1和第二实体2为指定关系中不同层级的关系,如果还存在(第一实体1,兄弟,第三实体3),即层级发生矛盾,则认为(第一实体1,兄弟,第三实体3)对应的关系标签错误。
也就是说,当按照概率从高到低遍历三元组时,如果已有三元组中的实体对之间的层级确定,那么后续三元组中,和该层级产生矛盾的三元组,可以认为关系标签不正确。
在实际应用场景中,文本语义往往比较复杂。一句话中通常会包含多个实体,且彼此关系不同。由于远程监督关系库不能覆盖所有实体组合的关系三元组和模型有限的语义提取能力,使得复杂语义下多实体多关系的提取准确度下降。该示例性实施例通过增加实体关系结构树对指定的关系进行监督,进一步提高了关系抽取的精确性。
如图6所示,本发明实施例提供一种关系提取装置,包括如下模块:
实体识别模块10,识别目标文本中的实体对;
向量表示模块11,用于获取所述目标文本的预定向量;将所获取的预定向量输入预先建立的关系抽取模型得到关系标签;
关系抽取模块12,用于将所获取的预定向量输入预先建立的关系抽取模型得到关系标签;根据所得到的关系标签确定所识别的实体之间的关系;所述关系抽取模型的训练数据是采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得。
本申请实施例中的关系抽取模型是对远程监督关系库得到的训练数据进行人工标注,与直接标注文本数据相比很大程度上减少了人工成本。
一种示例性实施中,远程监督关系库可以从百度百科等数据库中提取实体和关系生成数据实体关系,再进行扩展而形成。关系抽取模型是对新闻等数据进行有方向的映射,经人工查验、修正后得到训练数据训练得到。本申请实施例的关系抽取模型为有监督实体关系抽取模型。
具体的,以百度百科数据库为例,首先从百度百科数据中批量获得人名实体(S-Nh),然后在Neo4j数据库中依次查找该实体的关系实体,并记录关系,形成关系三元组:(实体1,关系,实体2)。比如(张某某,丈夫,王某某)语义表示为:张某某的丈夫是王某某。通过得到的大量的关系三元组作为远程监督的关系数据库。对新闻数据进行有方向的映射,具体的,通过爬取、处理新闻数据形成文本样本数据。对含有关系库中实体对的文本样本数据进行映射关系标签。比如某文本包含张某某和王某某实体,当张某某实体位于王某某实体位置前方时,该文本标签设定为丈夫,否则设定为妻子。依照实体相对位置关系得到有方向的关系标签。对标定好的文本样本数据进行人工查验,删除或修正关系标签和语义不相符的文本样本数据,建立人的关系抽取模型,便于搜索,再进行训练有监督关系的关系抽取模型。
一种示例性实施中,向量表示模块11,用于获取所述目标文本的预定向量,是指:
向量表示模块11,用于将目标文本划分为多个抽取单元;分别对每个抽取单元进行如下操作:
向量表示模块11,用于进行分词,得到该抽取单元的多个分词;所述多个分词包括所述实体对中的第一实体和第二实体;
向量表示模块11,用于将所得到的多个分词分别进行向量化,获取每个分词的预定向量;
向量表示模块11,用于将所述抽取单元中所有分词的预定向量进行拼接得到所述抽取单元的预定向量。
一种示例性实施中,预定向量包括文本向量、位置向量、及词性向量;
向量表示模块11,用于将所得到的多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接,得到所述抽取单元的预定向量,是指:
向量表示模块11,用于将每个所述分词分别进行文本向量化得到文本向量d;将每个所述分词分别相对于所述实体对中的每个实体的相对位置进行向量化得到第一位置向量d1和第二位置向量d2;将每个所述分词分别进行词性向量化得到词性向量d3;
向量表示模块11,用于获得所述抽取单元中每个分词的向量表达式:xi=[di,di1,di2,di3]T;其中i表示所述分词的排序;
向量表示模块11,用于将所述抽取单元中所有分词的向量拼接得到所述抽取单元的向量矩阵,表示为:X=[x1,x2,…xi]T;该矩阵的维度表示为X∈RL×d,L为分词形式下句子长度,所述句子为抽取单元,d为分词的向量维度,R表示为实数矩阵。
文本向量化是将文本表示成一系列能够表达文本语义的向量。词语是表达文本处理的最基本单元,通过分词服务对文本进行切分,并将分词用向量依次表示出来。
在一个示例性实施例中,表1为部分词嵌入表,即通过查表可以获得分词的向量表示。
表1分词、向量示例表
目标本文的输入向量除了包含文本的词向量以外,还引入了词向量关于实体对的相对位置关系,如图2所示。李某某创立AA公司,实体对李某某、AA公司,位置关系能够提供的语意层面信息,语意层面的信息能够更有利于提取更精确的关系三元组信息。
除此,为了更好的解析语义,获得语义特征,还对文本进行词性解析,并用word2vector的训练方式获得关于词性的向量表示。
最后的分词的向量,通过词嵌入、位置嵌入和词性嵌入,可以获得抽取单元向量表达式,如抽取单元为句子,则句子中第i个分词的向量表达式:xi=[di,di1,di2,di3]T。将句子中所有分词拼接得到该句文本的向量化表示(X=[x1,x2,…xL]T),然后可以输入关系抽取模型确定关系。
在模型训练中,同样需要将训练的样本数据经过上述三种向量的转换后输入关系抽取模型进行模型训练得到更精确的关系抽取模型。
本发明实施例,通过增加位置向量及词性向量进行关系抽取及训练模型使得关系抽取更精确。
一种示例性实施中,向量表示模块10,用于将所获取的预定向量输入预先建立的关系抽取模型得到关系标签是指:
向量表示模块10,用于将所述目标文本的抽取单元的向量矩阵X输入预先建立的关系抽取模型的卷积层中,得到特征图矩阵;
向量表示模块10,用于对所述特征图矩阵按照所述实体对中的每个实体的位置进行切分;
向量表示模块10,用于将每个切分的部分分别输入池化层,得到最大值池化后的特征;
向量表示模块10,用于将得到的最大值池化后的特征合并,然后输入softmax模型进行分类确定所述关系标签。
如图3所示,关系提取模型包括卷积网络(卷积层)、池化层(采用max pooling)和输出端连接的softmax(作为分类器)。将目标文本向量化后的矩阵表示X输入到卷积网络中,得到特征图。然后对特征图做piecewise max pooling。对特征图矩阵按照选定的两个实体的位置分为三部分。把文本特征按照选定的实体切分为三部分:句首到第一个实体段、第一个实体到第二个实体段、第二个实体段到句尾。然后对每部分分别做max pooling,取最大值,将最后结果拼接作为输出特征。对得到的上述特征按照公式g=tanh(h)进行非线性映射(h为得到的特征向量)。最后对映射结果做softmax运算。
如图5所示,本申请实施例中的模型应用的对象是未指定实体的文本数据,因此需要先通过实体识别服务提取文本中的实体,选出目标实体对。然后对文本提取预定向量,输入到关系抽取网络(关系抽取模型)得到关系标签,形成关系三元组。最后对关系三元组进行分析。
一种示例性实施中,关系抽取模块12,用于根据所得到的关系标签确定所识别的实体对的关系后是指:
关系抽取模块12,用于根据所得到的关系标签形成关系三元组;
关系抽取模块12,用于当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行分析;
关系抽取模块12,用于当分析到第一个关系三元组中的第一实体与第二实体的指定关系具有属于唯一属性关系时,将所述关系三元组对应的关系标签确定为正确的关系标签;
关系抽取模块12,用于筛选掉已确定关系标签正确的关系三元组,在剩余的关系三元组中,如果存在第二关系三元组中的第一实体和第三实体的所述指定关系具有属于唯一属性关系时,则确定第二关系三元组对应的关系标签错误。
一种示例性实施中,关系抽取模块12,用于所述根据所得到的关系标签确定所识别的实体对的关系后还指:
关系抽取模块12,用于根据所得到的关系标签形成关系三元组;
关系抽取模块12,用于当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行分析;
关系抽取模块12,用于当依次判断到其中一个三元组中的第一实体和第二实体为指定关系中不同层级的关系,及另一个三元组中存在所述第一实体与第三实体为所述指定关系中同层级关系时;如果判断剩余三元组中存在所述第二实体与第三实体为所述指定关系中同层级关系时,则确定该关系标签错误。
一种示例性实施中,上述指定关系包括亲属关系。在其他实施方式中也可以是其它类型的关系,比如上下级关系、师生关系等
如图4所示,当抽取单元为句子,句子中含有多个实体时,经过关系抽取后会得到多组三元组关系。但是由于语义复杂程度高,提取到的关系会出现错误。对此,一个示例性的实施例中设计了基于以下的分析方法,旨在减少错误输出。应用时可选择以下规则1和2中的任一个使用,或两个一起使用。
首先当识别结果出现多个三元组时,以概率高低为优先级来进行分析。将已判断合理(即关系标签正确)的关系存入关系树。每个圆代表一个实体,实体上的接口表示亲属关系。其中,黑色表示具有唯一性的亲属关系接口(父亲、母亲、妻子、丈夫),只能对外连接唯一实体,白色表示非唯一亲属关系接口(儿子、女儿、哥哥、姐姐等),可对外连接一个或多个实体。实体上部分接口是父辈关系接口(世系-1),中部接口是同辈关系接口(世系相同),下部分接口是子代关系接口(世系+1)。
对于规则1,比如按照概率从高到低的顺序遍历三元组,假设已存在三元组为(第一实体1,丈夫,第二实体2),即:第一实体1的丈夫是第二实体2,即第一实体1和第二实体2具有指定关系中的唯一属性关系;因此第一实体1的丈夫接口指向第二实体2,且不能再指向第三实体3。如果存在(第一实体1,丈夫,第三实体3),则判定该三元组(第一实体1,丈夫,第三实体3)对应的关系标签不正确。
规则1还可以进行其它变形,比如假设还存在三元组(第三实体3,妻子,第二实体2),则判断该三元组对应的关系标签不正确;再比如还存在三元组(第一实体1,其它亲属关系,第二实体2),则判断该三元组对应的关系标签不正确。
也就是说,当按照概率从高到低遍历三元组时,如果已有三元组中的实体对存在唯一属性关系,那么后续三元组中,和该唯一属性关系产生矛盾的三元组,可以认为关系标签不正确。
对于规则2,比如按照概率从高到低的顺序遍历三元组,假设已存在第一三元组(第一实体1,丈夫,第二实体2),和第二三元组(第一实体1,儿子,第三实体3),则第一实体1的儿子接口指向第三实体3,同时第三实体3和第二实体2的level均为1,第三实体3的level为2,即:第一实体1和第二实体2为指定关系中同层级的关系,第一实体1与第三实体3为所述指定关系中不同层级关系。如果后续概率的三元组中,存在(第三实体3,哥哥,第二实体2),判断第三实体3和第二实体2为同辈分(即,同层级),即第二实体2的level为2。但是,树结构中已存在第二实体2,且level为1,出现辈分矛盾,则认为三元组(第三实体3,哥哥,第二实体2)关系判断错误。
规则2还可以进行其它变形,比如,按照概率从高到低的顺序遍历三元组,假设已存在(第一实体1,儿子,第三实体3),即:第一实体1和第二实体2为指定关系中不同层级的关系,如果还存在(第一实体1,兄弟,第三实体3),即层级发生矛盾,则认为(第一实体1,兄弟,第三实体3)对应的关系标签错误。抽取单元和分析单元都是句子,一个句子中同一个实体对不会出现两种关系标签。
也就是说,当按照概率从高到低遍历三元组时,如果已有三元组中的实体对之间的层级确定,那么后续三元组中,和该层级产生矛盾的三元组,可以认为关系标签不正确。
在实际应用场景中,文本语义往往比较复杂。一句话中通常会包含多个实体,且彼此关系不同。由于远程监督关系库不能覆盖所有实体组合的关系三元组和模型有限的语义提取能力,使得复杂语义下多实体多关系的提取准确度下降。该示例性实施例通过增加实体关系结构树对指定的关系进行监督,进一步提高了关系抽取的精确性。
本发明实施例提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器上述中任一项所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (7)
1.一种关系提取方法,其特征在于,包括:
识别目标文本中的实体对;
获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签;所述关系抽取模型的训练数据采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得;
根据所得到的关系标签确定所识别的实体对的关系;
所述关系抽取模型采用如下步骤获得:
连接远程监督关系库,所述远程监督关系库记录了多个实体对及实体对的关系组成的关系三元组;
对采集的样本数据中含有所述远程监督关系库中的实体对的样本数据用所述关系库中的关系标签进行标注,获得带关系标签的样本数据;
采用带关系标签的样本数据对关系抽取模型的参数进行训练;
所述根据所得到的关系标签确定所识别的实体对的关系后还包括:根据所得到的关系标签形成关系三元组;当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:当分析到第一关系三元组中的第一实体与第二实体的指定关系具有属于唯一属性关系时,将所述关系三元组对应的关系标签确定为正确的关系标签;筛选掉已确定关系标签正确的关系三元组,在剩余的关系三元组中,如果存在第二关系三元组中的第一实体和第三实体的所述指定关系具有唯一属性关系时,则确定第二关系三元组对应的关系标签错误;
或者,
所述根据所得到的关系标签确定所识别的实体对的关系后还包括:根据所得到的关系标签形成关系三元组;当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:当已存在第一关系三元组中的第一实体和第二实体为指定关系中不同层级的关系,第二关系三元组中的所述第一实体与第三实体为所述指定关系中同层级关系时,如果第三关系三元组中的所述第二实体与第三实体为所述指定关系中同层级关系时,则确定第三关系三元组对应的关系标签错误。
2.如权利要求1所述的方法,其特征在于,所述获取所述目标文本的预定向量,包括:
将目标文本划分为多个抽取单元;分别对每个抽取单元进行如下操作:
进行分词,得到该抽取单元的多个分词;所述多个分词包括所述实体对;
将所得到的多个分词分别进行向量化,获取每个分词的预定向量;
将所述抽取单元中所有分词的预定向量进行拼接得到所述抽取单元的预定向量。
3.如权利要求2所述的方法,其特征在于,所述预定向量包括文本向量、位置向量、及词性向量;
所述将所述多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接,得到所述抽取单元的预定向量,包括:
将每个所述分词分别进行文本向量化得到文本向量d;将每个所述分词分别相对于所述实体对中的每个实体的相对位置进行向量化得到第一位置向量d1和第二位置向量d2;将每个所述分词分别进行词性向量化得到词性向量d3;
获得所述抽取单元中每个分词的向量表达式:xi=[di,di1,di2,di3]T;其中i表示所述分词的排序;
将所述抽取单元中所有分词的向量拼接得到所述抽取单元的向量矩阵,表示为:X=[x1,x2,…,xi,…]T;该矩阵的维度表示为X∈RL×d,L为分词形式下句子长度,所述句子为抽取单元,d为分词的向量维度,R表示为实数矩阵。
4.如权利要求3所述的方法,其特征在于,所述将所获取的预定向量输入预先建立的关系抽取模型得到关系标签,包括:
将所述目标文本中抽取单元的向量矩阵X输入预先建立的关系抽取模型的卷积层中,得到特征图矩阵;
对所述特征图矩阵按照所述实体对中的每个实体的位置进行切分;
将每个切分的部分分别输入池化层,得到最大值池化后的特征;
将得到的最大值池化后的特征合并,然后输入softmax模型进行分类确定所述关系标签。
5.如权利要求1所述的方法,其特征在于,所述指定关系包括亲属关系。
6.一种关系提取装置,其特征在于,包括:
实体识别模块,识别目标文本中的实体对;
向量表示模块,用于获取所述目标文本的预定向量;
关系抽取模块,用于将所获取的预定向量输入预先建立的关系抽取模型得到关系标签;根据所得到的关系标签确定所识别的实体之间的关系;所述关系抽取模块的训练数据是采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得;
所述关系抽取模型采用如下步骤获得:
连接远程监督关系库,所述远程监督关系库记录了多个实体对及实体对的关系组成的关系三元组;
对采集的样本数据中含有所述远程监督关系库中的实体对的样本数据用所述关系库中的关系标签进行标注,获得带关系标签的样本数据;
采用带关系标签的样本数据对关系抽取模型的参数进行训练;
关系抽取模块,用于根据所得到的关系标签确定所识别的实体对的关系后是指:
关系抽取模块,用于根据所得到的关系标签形成关系三元组;
关系抽取模块,用于当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行分析;
关系抽取模块,用于当分析到第一个关系三元组中的第一实体与第二实体的指定关系具有属于唯一属性关系时,将所述关系三元组对应的关系标签确定为正确的关系标签;
关系抽取模块,用于筛选掉已确定关系标签正确的关系三元组,在剩余的关系三元组中,如果存在第二关系三元组中的第一实体和第三实体的所述指定关系具有属于唯一属性关系时,则确定第二关系三元组对应的关系标签错误;
或者,
关系抽取模块,用于所述根据所得到的关系标签确定所识别的实体对的关系后还指:
关系抽取模块,用于根据所得到的关系标签形成关系三元组;
关系抽取模块,用于当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行分析;
关系抽取模块,用于当依次判断到其中一个三元组中的第一实体和第二实体为指定关系中不同层级的关系,及另一个三元组中存在所述第一实体与第三实体为所述指定关系中同层级关系时;如果判断剩余三元组中存在所述第二实体与第三实体为所述指定关系中同层级关系时,则确定该剩余三元组对应的关系标签错误。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088380.8A CN110852107B (zh) | 2019-11-08 | 2019-11-08 | 一种关系提取方法、装置、及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088380.8A CN110852107B (zh) | 2019-11-08 | 2019-11-08 | 一种关系提取方法、装置、及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852107A CN110852107A (zh) | 2020-02-28 |
CN110852107B true CN110852107B (zh) | 2023-05-05 |
Family
ID=69599963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911088380.8A Active CN110852107B (zh) | 2019-11-08 | 2019-11-08 | 一种关系提取方法、装置、及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852107B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111326262B (zh) * | 2020-03-19 | 2023-05-23 | 北京嘉和海森健康科技有限公司 | 电子病历数据中实体关系抽取方法、装置及系统 |
CN112668336B (zh) * | 2020-05-14 | 2024-01-09 | 北京金山数字娱乐科技有限公司 | 一种基于任务模型的词语处理方法 |
CN113761921A (zh) * | 2020-06-05 | 2021-12-07 | 北京金山数字娱乐科技有限公司 | 一种基于双任务模型的词语处理方法及装置 |
CN113761920A (zh) * | 2020-06-05 | 2021-12-07 | 北京金山数字娱乐科技有限公司 | 一种基于双任务模型的词语处理方法及装置 |
CN111694967B (zh) * | 2020-06-11 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 属性抽取方法、装置、电子设备及介质 |
CN111858784A (zh) * | 2020-07-21 | 2020-10-30 | 广东科杰通信息科技有限公司 | 一种基于transH的人员亲属关系预测方法 |
CN114722817A (zh) * | 2020-12-22 | 2022-07-08 | 北京金山数字娱乐科技有限公司 | 事件处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009182B (zh) * | 2016-10-28 | 2020-03-10 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
-
2019
- 2019-11-08 CN CN201911088380.8A patent/CN110852107B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110852107A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852107B (zh) | 一种关系提取方法、装置、及存储介质 | |
CN110717039B (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
US20210382937A1 (en) | Image processing method and apparatus, and storage medium | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US10713298B2 (en) | Video retrieval methods and apparatuses | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、系统、装置和存储介质 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
EP3528180A1 (en) | Method, system and terminal for normalizingentities in a knowledge base, and computer readable storage medium | |
CN108648747A (zh) | 语种识别系统 | |
KR102103511B1 (ko) | 코드 생성 장치 및 방법 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN113449821B (zh) | 融合语义和图像特征的智能训练方法、装置、设备及介质 | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
US20200082213A1 (en) | Sample processing method and device | |
CN115471739A (zh) | 基于自监督对比学习的跨域遥感场景分类与检索方法 | |
CN108510977A (zh) | 语种识别方法及计算机设备 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN113239883A (zh) | 分类模型的训练方法、装置、电子设备以及存储介质 | |
CN111274821B (zh) | 一种命名实体识别数据标注质量评估方法及装置 | |
CN110826616A (zh) | 信息处理方法及装置、电子设备、存储介质 | |
CN116206201A (zh) | 一种监督目标检测识别方法、装置、设备及存储介质 | |
CN111506776B (zh) | 数据标注方法以及相关装置 | |
CN114663751A (zh) | 一种基于增量学习技术的输电线路缺陷识别方法和系统 | |
CN114564942A (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |