CN115687638A - 基于三元组森林的实体关系联合抽取方法及系统 - Google Patents
基于三元组森林的实体关系联合抽取方法及系统 Download PDFInfo
- Publication number
- CN115687638A CN115687638A CN202211199819.6A CN202211199819A CN115687638A CN 115687638 A CN115687638 A CN 115687638A CN 202211199819 A CN202211199819 A CN 202211199819A CN 115687638 A CN115687638 A CN 115687638A
- Authority
- CN
- China
- Prior art keywords
- entity
- module
- tree
- vector
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
Description
技术领域
本发明涉及互联网技术领域,具体的说,涉及一种可用于知识图谱和信息抽取领域的面向重叠场景下的实体关系联合抽取方法。
背景技术
实体(Entity)、关系(Relation)作为主要的语义信息载体,是自然语言的结构化形式,因而广泛用于自然语言处理任务中。实体可以是现实中实际存在的事物,如人、地点、公司、电话、动物等,也可以是时间、日期等,通常在自然语言中做主语或宾语(主句或从句中)。关系则是实体之间的某种联系,在自然语言中,则是实体间的语义关系特征。自然语言可结构化为〈头实体,关系,尾实体〉三元组的重叠、嵌套组合。实体关系联合抽取就是从文本中将实体、关系同时抽取的技术。例如,给定文本“A被称为Z国的浪漫之都”,经过实体关系联合抽取可抽取出〈A,首都,Z国〉,头实体是A,尾实体是Z国,两者的关系是首都。但自然语言中,并非所有的语句都是简单的可以均由一个〈头实体,关系,尾实体〉三元组可以表示的,还有具有多个三元组的相互重叠的复杂场景,对联合抽取造成了困难。因此关系重叠场景下的实体关系联合抽取是实体关系联合抽取的一个重要问题,简称重叠关系问题。
重叠关系问题是指在语句中同一个实体参与到多个三元组中的情况。具体可分为实体对重叠(Entity Pair Overlap,EPO)和单实体重叠(Single Entity Overlap,SEO)。实体对重叠是指实体对之间同时存在多种关系,而单实体重叠是指两个或两个以上三元组中存在一个实体相同。重叠关系的问题一方面是由于位置重叠,对于大多实体关系联合抽取方法而言,难以识别;另一方面则是易于混淆,位置的重叠造成了语义向量的相近,从而使模型过度推断出不应存在的关系。
当前,关系重叠场景下的重叠实体关系联合抽取方法主要包括序列标注、表填充和序列生成三大类。基于序列标注的方法仅能通过多次序列标注处理重叠关系问题。表填充方法将第i个词和第j个词的关系填入表的第i行第j列中,将对角线位置填充实体信息,因此无法处理实体对重叠问题,需要更进一步扩充。序列生成方法通过序列到序列的框架将文本翻译成实体、关系的三元组序列,虽然理论上可处理重叠关系,但三元组序列间的信息顺序传递导致了传递误差,因此有一些工作通过在此基础上改进该框架以求更好地建模实体、关系的交互信息,如序列到集合框架、序列到树的框架。但已有的改进仍难以平衡信息传递与传递误差,且存在最大生成长度的人为超参限制,因而仍需改进以求获得更好的实体关系联合抽取性能。
发明内容
为了平衡信息传递和传递误差,本发明提供了一种基于三元组森林的实体关系联合抽取方法。该方法以句子文本为输入,使用BERT编码器进行编码,并利用序列标注获得实体,再将实体信息输入Transformer Decoder中,进一步学习实体间的交互信息,最后,以三元组森林的形式生成三元组,完成句子中的实体关系的联合抽取。
针对现有技术的不足,本发明提出一种基于三元组森林的实体关系联合抽取方法,其中包括:
步骤1、获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
步骤2、将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
步骤3、将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
步骤4、将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
步骤5、将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
所述的基于三元组森林的实体关系联合抽取方法,其中该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He:
He=BERT(concat(SWsub,Wp,Ws))
该步骤3包括:
步骤31、通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
步骤32、为CRF模型随机初始化状态转移矩阵其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该步骤4包括:通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
Ee={e0,e1,...,en}
实体矩阵作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd,
Hd=Transformer_Decoder(Ee,He)
该步骤5包括:根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组Tree-RNN的初始隐层状态为其记忆单元初始化为初始输出为其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体则输入为该实体的向量表示若为关系则输入为关系的向量表示具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为时间步t∈[1,3]:
所述的基于三元组森林的实体关系联合抽取方法,其中该步骤5包括:
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
所述的基于三元组森林的实体关系联合抽取方法,其中该步骤5包括,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
本发明还提出了一种基于三元组森林的实体关系联合抽取系统,其中包括:
初始模块,用于获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
编码模块,用于将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
标注模块,用于将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
交互信息提取模块,用于将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
实体关系提取模块,用于将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
所述的基于三元组森林的实体关系联合抽取系统,其中该编码模块,用于使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He:
He=BERT(concat(SWsub,Wp,Ws))
该标注模块用于:
通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
为CRF模型随机初始化状态转移矩阵其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该交互信息提取模块用于,通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
Ee={e0,e1,...,en}
实体矩阵作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd,
Hd=Transformer_Decoder(Ee,He)
该实体关系提取模块,用于根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组Tree-RNN的初始隐层状态为其记忆单元初始化为初始输出为其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体则输入为该实体的向量表示若为关系则输入为关系的向量表示具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为时间步t∈[1,3]:
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于:
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于三元组森林的实体关系联合抽取的程序。
本发明还提出了一种客户端,用于所述任意一种基于三元组森林的实体关系联合抽取系统。
由以上方案可知,本发明的优点在于:
一种基于三元组森林的实体关系联合抽取方法,包括以下步骤:1)训练语料预处理,2)使用BERT预训练语言模型进行预编码,3)序列标注,4)实体交互,5)通过三元组森林生成三元组。与已有的实体关系联合抽取技术相比,本发明具有以下优点:一是使用了实体交互模块获得了三元组间的无序交互信息;二是使用了三元组森林进一步建模三元组间无序交互、三元组内部有序交互的同时削弱其所造成的传递误差,以增强其对重叠关系的识别能力;三是通过对模型结构的优化,避免了序列生成框架固有的最大长度限制问题;四是化繁为简,实体关系联合抽取问题中一阶段的多任务复合处理,在简单数据集中简单有效,但到复杂数据集中常表现不佳,因此将其分解为实体抽取、实体交互和三元组生成的实体对组合链接三个简单的部分,联合训练,降低问题的难度,提升模型性能。本发明在WebNLG和NYT数据集上实体关系联合抽取的F1值分别达到88.3%和92.7%。
附图说明
图1为本发明的整体流程图;
图2为本发明中序列标注模块详细介绍图;
图3为本发明中实体交互模块详细介绍图;
图4为本发明中三元组抽取模块详细介绍图;
图5为本发明中Tree-RNN详细介绍图。
具体实施方式
本发明提出的基于三元组森林的实体关系联合抽取方法包括以下步骤:
1)训练语料预处理,本发明使用的训练语料选自NYT数据集和WebNLG数据集,处理过程包括分句和转换标注信息;
2)使用BERT预训练语言模型进行预编码,该步骤以句子的词序列作为输入,使用BERT预训练语言模型自带分词模块进行分词后,输入BERT对子词序列进行预编码,输出句子文本的分布式表示。相比于传统的静态字、词向量来说,使用大规模语料训练的BERT可以提供更为丰富的动态语义表达;
3)序列标注,该步骤使用CRF标注句子中实体(头实体和尾实体)并获得实体的向量表示;CRF的输入为句子文本的分布式表示,但标注的对象却是句子本身,它标记出句子中有那些实体。CRF是conditional random field,为一种机器学习模型。
4)实体交互,该步骤将实体向量输入Transformer Decoder模块中,通过其多头注意力机制获得包含实体间交互信息、实体和输入句子之间的交互信息的隐层向量。该步骤的输入为实体的向量表示和句子的分布式表示,获得实体之间的交互、句子和实体之间的交互。
5)通过三元组森林生成三元组,将步骤4)所得隐层向量出发,依据所得实体交互信息、实体与文本的交互信息,每个实体生成一棵重叠三元组树,再进一步解码得到最终的实体关系三元组。每棵树是重叠的三元组,树的每个分支是个三元组。第一个时间步输入实体的表示,如果实体为头实体,则预测关系,如果不是,则输出无关系,终止分支;第二个时间步输入该分支所对应关系的向量表示,输出可能的实体索引位置(span预测)。解码时将树的结构按分支拆分成三元组的列表(也就是最终模型的输出)。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种基于三元组森林的实体关系联合抽取方法,方法的整体流程图如图1所示。方法主要包括BERT预编码、序列标注、实体交互和三元组森林四个部分。BERT预编码使用BERT预训练语言模型对输入字、词序列进行编码,获得其语义表示。序列标注以BERT输出的文本的语义表示为输入,结合CRF,标注文本中每一个词的类别,从而预测出实体。预测得到的实体结合文本的语义表示获得实体的语义表示。实体交互部分输入实体表示和文本表示,通过注意力机制,捕捉实体与实体之间的交互信息,实体与文本之间的交互信息,将后续的三元组生成任务简化为实体组合和关系预测。三元组森林依据之前的交互信息,从头实体出发,预测其所参与的所有关系,然后再在不同关系的分支下,基于已有头实体和关系,在序列标注生成的实体中选择可能的尾实体,从而生成重叠的实体关系三元组。具体方法步骤包括:
S1、使用BERT预训练语言模型对输入词序列进行预编码,获取文本中每个词经BERT预训练模型编码后的分布式语义表示。
S2、依据文本的语义表示,结合CRF学习标签间的转移信息,从而预测每个词的标签,解码获得实体。实体结合文本的语义表示获得对应的实体表示。
S3、将所有实体表示和文本表示输入实体交互模块,通过注意力机制学习实体间的关联性,实体和文本的关联性,对每个实体获得一个包含丰富信息的隐层向量。
S4、将上述隐层向量输入三元组森林,每一个隐层向量作为树形递归神经网络Tree-RNN的初始状态和初始隐层单元,输入实体表示,生成一棵重叠三元组树。从根节点的头实体,生成其所参与的关系,不同的关系形成不同的分支,在该头实体对应的不同关系的分支下,进一步选择其尾实体,从而生成重叠的三元组。
CRF识别了实体,得到了实体的位置,从Bert输出的分布式向量中找对应位置的向量就是实体的向量。所有实体的向量均输入给三元组森林,作为根节点。如果他是头实体,则继续分支获得三元组。如果不是,则该树只有一个根节点(头实体)。
具体地,S1包含两个子步骤,如图1所示。
S101、训练数据预处理。通过Transormers库中的Tokenizer模块对输入文本进行分词,并将同一批次的输入按该批次最长文本长度填充为相同长度。
S102、BERT预训练模型编码。通过大规模语料预训练的BERT语言模型对输入字、词序列进行预编码,相比于传统静态词向量,该方法可以获得更为丰富的动态语义表达He。
He=BERT(concat(SWsub,Wp,Ws))
进一步地,S2包括两个子步骤,其具体结构如图2所示:
S201、BERT的输出He通过线性层,初步计算序列标注各标签的概率,该序列标注只是实体、和BIOES共五个标签。BIOES是序列标注的一种标注方式,包括:实体的开始B-begin、实体中间I-inside、不是实体O-Other、实体结束E-end、单词实体S-single。
P=softmax(dropout(He)Wner+bner)
S202、在线性层后设置CRF层,学习标签间的转移关系,以更好地提升实体抽取能力。本文为CRF层随机初始化状态转移矩阵其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目。一个句子有多个词,如果前一个词标记为B实体的开始,那么当前词被标注为I实体中间和E实体结束的概率远大于其他标签,这个叫做转移概率。Aij为第i个标签转移到第j个标签的概率。记序列标注的标签序列为Yner={},则CRF模型对句子文本X标记为标签Y的打分为:
E=BIO2Entity(Viterbi(P))
在解码阶段,本文采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E。
S3的目标是进行信息交互,为三元组森林获得信息更多的初始隐层单元和记忆单元。如图3,实体交互模块主体为去除了Position Encoding的Transformer Decoder模块,通过其多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树,因此这一阶段实质也相当于是三元组树间的交互,也就是头实体不重叠的三元组间的复杂的无序交互。在这一部分其输入是编码器的输出He和实体向量表示Ee。Ee是由序列标注模块生成的实体集合E’的向量表示。需要说明的是,在训练时,E’=GE|E,GE为实际标注的实体集合,而E为序列标注模块预测的实体集合,|为集合合并。在预测时E’=E。这里记 其中为第i个实体的头部和尾部索引。实体在文本隐层表示He中对应子词的向量表示聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee。这里的聚合算法可采用均值、求和或线性层实现。具体计算如下:
Ee={e0,e1,...,en}
所得实体矩阵作为Transformer Decoder模块的输入。该模块去除了位置信息,因此相当于输入实体集合。这是为了下一步由实体生成三元组树时,保证三元组树之间无序,也就进一步保证了三元组之间无顺序的传递误差。Transformer Decoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块。多头自注意力机制模块用以学习实体间的联系,而多头编码器解码器注意力机制模块则可学习句子文本和实体之间的联系,获得特定于实体的上下文信息。如下方公式所示,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其他实体信息和句子文本信息的隐层单元Hd。其中,
Hd=Transformer_Decoder(Ee,He)
S4流程如图4所示,主要由上步Hd出发,生成三元组。隐层单元Hd进一步由实体生成了三元组森林。这里的森林是由n+1个生成树模块组成的,且n+1为预测出来的实体的总数,而每一个生成树模块由一个Tree-RNN,这里标记其编号为0到n。如图5所示,第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder的隐层单元该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组如果输入实体h2=ei和对应的隐层单元则在第1个时间步,预测其参与到关系r1、r2中。因此在第2个时间步,形成两个分支,分别输入r1、r2的关系向量,记作关系向量通过随机初始化的关系嵌入(Relation Embedding)查找获得。在第一个分支,输入r1的关系向量由于h2实际并不存在r1的关系,这是上一时间步的过度预测,因此在这一步预测为NA,终止该分支。即该分支并不存在三元组。在第二个分支,输入r2的关系向量量在第2个时间步预测出(h2,r2)可能存在尾实体t2。因此,在第3个时间步,输入尾实体t2的实体向量t2=et2,由于三元组(h2,r2,t2)存在,因此正常结束,预测为1。如果不存在,则预测为0。Tree-RNN的初始隐层状态为其记忆单元初始化为初始输出为其后每一个时刻的输入为上一时刻的预测的结果的向量表示。若预测为实体则输入为该实体的向量表示若为关系则输入为关系的向量表示具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为时间步t∈[1,3]。
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)
L=LTF-score(X,Yner)
L是最终loss。训练阶段会对文中出现的Bert/CRF/实体交互/三元组森林均按L进行训练,联合训练更新参数。上述实体、关系预测时,均是多次二分类。
与已有中文事件抽取技术相比,本发明具有以下优点:一是构建三元组森林模型结构,在保证模型获得充足的信息传递的同时削弱甚至削减其所导致的传递误差,进而增强联合抽取的性能;二是通过纠错机制,进一步降低三元组内部传递误差;三是使用了实体交互,进一步增强模型中的信息交互,将下一步三元组生成中的实体生成简化为实体选择;四是实体关系联合抽取的性能有所提高,本发明在WebNLG和NYT数据集上实体关系联合抽取的F1值分别达到88.3%和92.7%。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于三元组森林的实体关系联合抽取系统,其中包括:
初始模块,用于获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
编码模块,用于将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
标注模块,用于将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
交互信息提取模块,用于将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
实体关系提取模块,用于将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
所述的基于三元组森林的实体关系联合抽取系统,其中该编码模块,用于使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He:
He=BERT(concat(SWsub,Wp,Ws))
该标注模块用于:
通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
为CRF模型随机初始化状态转移矩阵其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该交互信息提取模块用于,通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
Ee={e0,e1,...,en}
实体矩阵作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd,
Hd=Transformer_Decoder(Ee,He)
该实体关系提取模块,用于根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组Tree-RNN的初始隐层状态为其记忆单元初始化为初始输出为其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体则输入为该实体的向量表示若为关系则输入为关系的向量表示具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为时间步t∈[1,3]:
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于:
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于三元组森林的实体关系联合抽取的程序。
本发明还提出了一种客户端,用于所述任意一种基于三元组森林的实体关系联合抽取系统。
Claims (10)
1.一种基于三元组森林的实体关系联合抽取方法,其特征在于,包括:
步骤1、获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
步骤2、将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
步骤3、将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
步骤4、将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
步骤5、将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
2.如权利要求1所述的基于三元组森林的实体关系联合抽取方法,其特征在于,该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He:
He=BERT(concat(SWsub,Wp,Ws))
该步骤3包括:
步骤31、通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
步骤32、为CRF模型随机初始化状态转移矩阵其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该步骤4包括:通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
Ee={e0,e1,...,en}
实体矩阵作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd,
Hd=Transformer_Decoder(Ee,He)
该步骤5包括:根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组Tree-RNN的初始隐层状态为其记忆单元初始化为初始输出为其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体则输入为该实体的向量表示若为关系则输入为关系的向量表示具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为时间步t∈[1,3]:
4.如权利要求1所述的基于三元组森林的实体关系联合抽取方法,其特征在于,该步骤5包括,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
5.一种基于三元组森林的实体关系联合抽取系统,其特征在于,包括:
初始模块,用于获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
编码模块,用于将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
标注模块,用于将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
交互信息提取模块,用于将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
实体关系提取模块,用于将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
6.如权利要求5所述的基于三元组森林的实体关系联合抽取系统,其特征在于,该编码模块,用于使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He:
He=BERT(concat(SWsub,Wp,Ws))
该标注模块用于:
通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
为CRF模型随机初始化状态转移矩阵其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该交互信息提取模块用于,通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示He是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
Ee={e0,e1,...,en}
实体矩阵作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd,
Hd=Transformer_Decoder(Ee,He)
该实体关系提取模块,用于根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组Tree-RNN的初始隐层状态为其记忆单元初始化为初始输出为其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体则输入为该实体的向量表示若为关系则输入为关系的向量表示具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为时间步t∈[1,3]:
8.如权利要求5所述的基于三元组森林的实体关系联合抽取系统,其特征在于,该实体关系提取模块用于,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于三元组森林的实体关系联合抽取的程序。
10.一种客户端,用于权利要求5至8中任意一种基于三元组森林的实体关系联合抽取系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211199819.6A CN115687638A (zh) | 2022-09-29 | 2022-09-29 | 基于三元组森林的实体关系联合抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211199819.6A CN115687638A (zh) | 2022-09-29 | 2022-09-29 | 基于三元组森林的实体关系联合抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687638A true CN115687638A (zh) | 2023-02-03 |
Family
ID=85064508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211199819.6A Pending CN115687638A (zh) | 2022-09-29 | 2022-09-29 | 基于三元组森林的实体关系联合抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687638A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757190A (zh) * | 2023-08-15 | 2023-09-15 | 北京大学第一医院 | 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备 |
CN117290510A (zh) * | 2023-11-27 | 2023-12-26 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
-
2022
- 2022-09-29 CN CN202211199819.6A patent/CN115687638A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757190A (zh) * | 2023-08-15 | 2023-09-15 | 北京大学第一医院 | 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备 |
CN116757190B (zh) * | 2023-08-15 | 2023-10-20 | 北京大学第一医院 | 一种基于双向树型标注方法的实体关系联合抽取方法 |
CN117290510A (zh) * | 2023-11-27 | 2023-12-26 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
CN117290510B (zh) * | 2023-11-27 | 2024-01-30 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
WO2022057669A1 (zh) | 基于结构化上下文信息的知识图谱预训练方法 | |
CN115687638A (zh) | 基于三元组森林的实体关系联合抽取方法及系统 | |
CN111651557A (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN114036934A (zh) | 一种中文医学实体关系联合抽取方法和系统 | |
CN113127623A (zh) | 一种基于混合专家模型和联合学习的知识库问题生成方法 | |
CN115759042A (zh) | 一种基于句法感知提示学习的句子级问题生成方法 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN114020900A (zh) | 基于融合空间位置注意力机制的图表英语摘要生成方法 | |
CN112016299B (zh) | 计算机执行、利用神经网络生成依存句法树的方法及装置 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN116386895B (zh) | 基于异构图神经网络的流行病舆情实体识别方法与装置 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN113312448B (zh) | 一种诗歌生成方法、系统及可读存储介质 | |
CN112084319B (zh) | 一种基于动作的关系网络视频问答系统及方法 | |
CN114648017A (zh) | 一种基于异质图注意力网络的文档级关系抽取方法 | |
CN114626529A (zh) | 一种自然语言推理微调方法、系统、装置及存储介质 | |
CN114611510A (zh) | 基于生成模型辅助机器阅读理解的实现方法及装置 | |
CN113642630A (zh) | 基于双路特征编码器的图像描述方法及系统 | |
CN112364654A (zh) | 一种面向教育领域的实体和关系联合抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |