CN115687638A - 基于三元组森林的实体关系联合抽取方法及系统 - Google Patents

基于三元组森林的实体关系联合抽取方法及系统 Download PDF

Info

Publication number
CN115687638A
CN115687638A CN202211199819.6A CN202211199819A CN115687638A CN 115687638 A CN115687638 A CN 115687638A CN 202211199819 A CN202211199819 A CN 202211199819A CN 115687638 A CN115687638 A CN 115687638A
Authority
CN
China
Prior art keywords
entity
module
tree
vector
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211199819.6A
Other languages
English (en)
Inventor
程学旗
靳小龙
郭嘉丰
王炫力
席鹏弼
廖华明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202211199819.6A priority Critical patent/CN115687638A/zh
Publication of CN115687638A publication Critical patent/CN115687638A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。

Description

基于三元组森林的实体关系联合抽取方法及系统
技术领域
本发明涉及互联网技术领域,具体的说,涉及一种可用于知识图谱和信息抽取领域的面向重叠场景下的实体关系联合抽取方法。
背景技术
实体(Entity)、关系(Relation)作为主要的语义信息载体,是自然语言的结构化形式,因而广泛用于自然语言处理任务中。实体可以是现实中实际存在的事物,如人、地点、公司、电话、动物等,也可以是时间、日期等,通常在自然语言中做主语或宾语(主句或从句中)。关系则是实体之间的某种联系,在自然语言中,则是实体间的语义关系特征。自然语言可结构化为〈头实体,关系,尾实体〉三元组的重叠、嵌套组合。实体关系联合抽取就是从文本中将实体、关系同时抽取的技术。例如,给定文本“A被称为Z国的浪漫之都”,经过实体关系联合抽取可抽取出〈A,首都,Z国〉,头实体是A,尾实体是Z国,两者的关系是首都。但自然语言中,并非所有的语句都是简单的可以均由一个〈头实体,关系,尾实体〉三元组可以表示的,还有具有多个三元组的相互重叠的复杂场景,对联合抽取造成了困难。因此关系重叠场景下的实体关系联合抽取是实体关系联合抽取的一个重要问题,简称重叠关系问题。
重叠关系问题是指在语句中同一个实体参与到多个三元组中的情况。具体可分为实体对重叠(Entity Pair Overlap,EPO)和单实体重叠(Single Entity Overlap,SEO)。实体对重叠是指实体对之间同时存在多种关系,而单实体重叠是指两个或两个以上三元组中存在一个实体相同。重叠关系的问题一方面是由于位置重叠,对于大多实体关系联合抽取方法而言,难以识别;另一方面则是易于混淆,位置的重叠造成了语义向量的相近,从而使模型过度推断出不应存在的关系。
当前,关系重叠场景下的重叠实体关系联合抽取方法主要包括序列标注、表填充和序列生成三大类。基于序列标注的方法仅能通过多次序列标注处理重叠关系问题。表填充方法将第i个词和第j个词的关系填入表的第i行第j列中,将对角线位置填充实体信息,因此无法处理实体对重叠问题,需要更进一步扩充。序列生成方法通过序列到序列的框架将文本翻译成实体、关系的三元组序列,虽然理论上可处理重叠关系,但三元组序列间的信息顺序传递导致了传递误差,因此有一些工作通过在此基础上改进该框架以求更好地建模实体、关系的交互信息,如序列到集合框架、序列到树的框架。但已有的改进仍难以平衡信息传递与传递误差,且存在最大生成长度的人为超参限制,因而仍需改进以求获得更好的实体关系联合抽取性能。
发明内容
为了平衡信息传递和传递误差,本发明提供了一种基于三元组森林的实体关系联合抽取方法。该方法以句子文本为输入,使用BERT编码器进行编码,并利用序列标注获得实体,再将实体信息输入Transformer Decoder中,进一步学习实体间的交互信息,最后,以三元组森林的形式生成三元组,完成句子中的实体关系的联合抽取。
针对现有技术的不足,本发明提出一种基于三元组森林的实体关系联合抽取方法,其中包括:
步骤1、获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
步骤2、将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
步骤3、将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
步骤4、将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
步骤5、将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
所述的基于三元组森林的实体关系联合抽取方法,其中该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He
He=BERT(concat(SWsub,Wp,Ws))
Figure BDA0003871679810000031
该步骤3包括:
步骤31、通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
步骤32、为CRF模型随机初始化状态转移矩阵
Figure BDA0003871679810000032
其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
Figure BDA0003871679810000033
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该步骤4包括:通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
在预测时,E’=E;
Figure BDA0003871679810000034
其中
Figure BDA0003871679810000035
为第i个实体的头部和尾部索引;实体
Figure BDA0003871679810000036
在文本隐层表示He中对应子词的向量表示
Figure BDA0003871679810000037
聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee
Figure BDA0003871679810000038
Ee={e0,e1,...,en}
实体矩阵
Figure BDA0003871679810000039
作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd
Figure BDA0003871679810000041
Hd=Transformer_Decoder(Ee,He)
Figure BDA0003871679810000042
该步骤5包括:根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元
Figure BDA0003871679810000043
该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组
Figure BDA0003871679810000044
Tree-RNN的初始隐层状态为
Figure BDA0003871679810000045
其记忆单元初始化为
Figure BDA0003871679810000046
初始输出为
Figure BDA0003871679810000047
其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体
Figure BDA0003871679810000048
则输入
Figure BDA0003871679810000049
为该实体的向量表示
Figure BDA00038716798100000410
若为关系
Figure BDA00038716798100000411
则输入
Figure BDA00038716798100000412
为关系的向量表示
Figure BDA00038716798100000413
具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为
Figure BDA00038716798100000414
时间步t∈[1,3]:
Figure BDA00038716798100000415
Figure BDA00038716798100000416
为每个时间步LSTM的输出,如果该时间步预测关系,则经过线性层采用sigmoid获得每种关系的概率pr,公式如下,其中,
Figure BDA00038716798100000417
Figure BDA00038716798100000418
如果当前时间步预测实体,则经过线性层,进一步融合句子文本上下文信息He,采用sigmoid激活函数获得选择每个实体的概率pe,对应序列标注时预测的实体尾部,其中,线性层的权重为
Figure BDA00038716798100000419
Figure BDA00038716798100000420
所述的基于三元组森林的实体关系联合抽取方法,其中该步骤5包括:
在训练阶段,每一个时间步的实体、关系预测时,对每一个句子进行负采样获得负例
Figure BDA00038716798100000421
记其标签为NA,与正例
Figure BDA00038716798100000422
合并为gr,ge后一同进行多分类;其中该实体、关系预测为多次二分类;
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
所述的基于三元组森林的实体关系联合抽取方法,其中该步骤5包括,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
本发明还提出了一种基于三元组森林的实体关系联合抽取系统,其中包括:
初始模块,用于获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
编码模块,用于将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
标注模块,用于将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
交互信息提取模块,用于将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
实体关系提取模块,用于将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
所述的基于三元组森林的实体关系联合抽取系统,其中该编码模块,用于使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He
He=BERT(concat(SWsub,Wp,Ws))
Figure BDA0003871679810000051
该标注模块用于:
通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
为CRF模型随机初始化状态转移矩阵
Figure BDA0003871679810000052
其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
Figure BDA0003871679810000061
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该交互信息提取模块用于,通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
在预测时,E’=E;
Figure BDA0003871679810000062
其中
Figure BDA0003871679810000063
为第i个实体的头部和尾部索引;实体
Figure BDA0003871679810000064
在文本隐层表示He中对应子词的向量表示
Figure BDA0003871679810000065
聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee
Figure BDA0003871679810000066
Ee={e0,e1,...,en}
实体矩阵
Figure BDA0003871679810000067
作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd
Figure BDA0003871679810000068
Hd=Transformer_Decoder(Ee,He)
Figure BDA0003871679810000069
该实体关系提取模块,用于根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元
Figure BDA00038716798100000610
该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组
Figure BDA00038716798100000611
Tree-RNN的初始隐层状态为
Figure BDA00038716798100000612
其记忆单元初始化为
Figure BDA00038716798100000613
初始输出为
Figure BDA0003871679810000071
其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体
Figure BDA0003871679810000072
则输入
Figure BDA0003871679810000073
为该实体的向量表示
Figure BDA0003871679810000074
若为关系
Figure BDA0003871679810000075
则输入
Figure BDA0003871679810000076
为关系的向量表示
Figure BDA0003871679810000077
具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为
Figure BDA0003871679810000078
时间步t∈[1,3]:
Figure BDA0003871679810000079
Figure BDA00038716798100000710
为每个时间步LSTM的输出,如果该时间步预测关系,则经过线性层采用sigmoid获得每种关系的概率pr,公式如下,其中,
Figure BDA00038716798100000711
Figure BDA00038716798100000712
如果当前时间步预测实体,则经过线性层,进一步融合句子文本上下文信息He,采用sigmoid激活函数获得选择每个实体的概率pe,对应序列标注时预测的实体尾部,其中,线性层的权重为
Figure BDA00038716798100000713
Figure BDA00038716798100000714
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于:
在训练阶段,每一个时间步的实体、关系预测时,对每一个句子进行负采样获得负例
Figure BDA00038716798100000715
记其标签为NA,与正例
Figure BDA00038716798100000716
合并为gr,ge后一同进行多分类;其中该实体、关系预测为多次二分类;
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于三元组森林的实体关系联合抽取的程序。
本发明还提出了一种客户端,用于所述任意一种基于三元组森林的实体关系联合抽取系统。
由以上方案可知,本发明的优点在于:
一种基于三元组森林的实体关系联合抽取方法,包括以下步骤:1)训练语料预处理,2)使用BERT预训练语言模型进行预编码,3)序列标注,4)实体交互,5)通过三元组森林生成三元组。与已有的实体关系联合抽取技术相比,本发明具有以下优点:一是使用了实体交互模块获得了三元组间的无序交互信息;二是使用了三元组森林进一步建模三元组间无序交互、三元组内部有序交互的同时削弱其所造成的传递误差,以增强其对重叠关系的识别能力;三是通过对模型结构的优化,避免了序列生成框架固有的最大长度限制问题;四是化繁为简,实体关系联合抽取问题中一阶段的多任务复合处理,在简单数据集中简单有效,但到复杂数据集中常表现不佳,因此将其分解为实体抽取、实体交互和三元组生成的实体对组合链接三个简单的部分,联合训练,降低问题的难度,提升模型性能。本发明在WebNLG和NYT数据集上实体关系联合抽取的F1值分别达到88.3%和92.7%。
附图说明
图1为本发明的整体流程图;
图2为本发明中序列标注模块详细介绍图;
图3为本发明中实体交互模块详细介绍图;
图4为本发明中三元组抽取模块详细介绍图;
图5为本发明中Tree-RNN详细介绍图。
具体实施方式
本发明提出的基于三元组森林的实体关系联合抽取方法包括以下步骤:
1)训练语料预处理,本发明使用的训练语料选自NYT数据集和WebNLG数据集,处理过程包括分句和转换标注信息;
2)使用BERT预训练语言模型进行预编码,该步骤以句子的词序列作为输入,使用BERT预训练语言模型自带分词模块进行分词后,输入BERT对子词序列进行预编码,输出句子文本的分布式表示。相比于传统的静态字、词向量来说,使用大规模语料训练的BERT可以提供更为丰富的动态语义表达;
3)序列标注,该步骤使用CRF标注句子中实体(头实体和尾实体)并获得实体的向量表示;CRF的输入为句子文本的分布式表示,但标注的对象却是句子本身,它标记出句子中有那些实体。CRF是conditional random field,为一种机器学习模型。
4)实体交互,该步骤将实体向量输入Transformer Decoder模块中,通过其多头注意力机制获得包含实体间交互信息、实体和输入句子之间的交互信息的隐层向量。该步骤的输入为实体的向量表示和句子的分布式表示,获得实体之间的交互、句子和实体之间的交互。
5)通过三元组森林生成三元组,将步骤4)所得隐层向量出发,依据所得实体交互信息、实体与文本的交互信息,每个实体生成一棵重叠三元组树,再进一步解码得到最终的实体关系三元组。每棵树是重叠的三元组,树的每个分支是个三元组。第一个时间步输入实体的表示,如果实体为头实体,则预测关系,如果不是,则输出无关系,终止分支;第二个时间步输入该分支所对应关系的向量表示,输出可能的实体索引位置(span预测)。解码时将树的结构按分支拆分成三元组的列表(也就是最终模型的输出)。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出了一种基于三元组森林的实体关系联合抽取方法,方法的整体流程图如图1所示。方法主要包括BERT预编码、序列标注、实体交互和三元组森林四个部分。BERT预编码使用BERT预训练语言模型对输入字、词序列进行编码,获得其语义表示。序列标注以BERT输出的文本的语义表示为输入,结合CRF,标注文本中每一个词的类别,从而预测出实体。预测得到的实体结合文本的语义表示获得实体的语义表示。实体交互部分输入实体表示和文本表示,通过注意力机制,捕捉实体与实体之间的交互信息,实体与文本之间的交互信息,将后续的三元组生成任务简化为实体组合和关系预测。三元组森林依据之前的交互信息,从头实体出发,预测其所参与的所有关系,然后再在不同关系的分支下,基于已有头实体和关系,在序列标注生成的实体中选择可能的尾实体,从而生成重叠的实体关系三元组。具体方法步骤包括:
S1、使用BERT预训练语言模型对输入词序列进行预编码,获取文本中每个词经BERT预训练模型编码后的分布式语义表示。
S2、依据文本的语义表示,结合CRF学习标签间的转移信息,从而预测每个词的标签,解码获得实体。实体结合文本的语义表示获得对应的实体表示。
S3、将所有实体表示和文本表示输入实体交互模块,通过注意力机制学习实体间的关联性,实体和文本的关联性,对每个实体获得一个包含丰富信息的隐层向量。
S4、将上述隐层向量输入三元组森林,每一个隐层向量作为树形递归神经网络Tree-RNN的初始状态和初始隐层单元,输入实体表示,生成一棵重叠三元组树。从根节点的头实体,生成其所参与的关系,不同的关系形成不同的分支,在该头实体对应的不同关系的分支下,进一步选择其尾实体,从而生成重叠的三元组。
CRF识别了实体,得到了实体的位置,从Bert输出的分布式向量中找对应位置的向量就是实体的向量。所有实体的向量均输入给三元组森林,作为根节点。如果他是头实体,则继续分支获得三元组。如果不是,则该树只有一个根节点(头实体)。
具体地,S1包含两个子步骤,如图1所示。
S101、训练数据预处理。通过Transormers库中的Tokenizer模块对输入文本进行分词,并将同一批次的输入按该批次最长文本长度填充为相同长度。
S102、BERT预训练模型编码。通过大规模语料预训练的BERT语言模型对输入字、词序列进行预编码,相比于传统静态词向量,该方法可以获得更为丰富的动态语义表达He
He=BERT(concat(SWsub,Wp,Ws))
Figure BDA0003871679810000101
进一步地,S2包括两个子步骤,其具体结构如图2所示:
S201、BERT的输出He通过线性层,初步计算序列标注各标签的概率,该序列标注只是实体、和BIOES共五个标签。BIOES是序列标注的一种标注方式,包括:实体的开始B-begin、实体中间I-inside、不是实体O-Other、实体结束E-end、单词实体S-single。
P=softmax(dropout(He)Wner+bner)
S202、在线性层后设置CRF层,学习标签间的转移关系,以更好地提升实体抽取能力。本文为CRF层随机初始化状态转移矩阵
Figure BDA0003871679810000102
其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目。一个句子有多个词,如果前一个词标记为B实体的开始,那么当前词被标注为I实体中间和E实体结束的概率远大于其他标签,这个叫做转移概率。Aij为第i个标签转移到第j个标签的概率。记序列标注的标签序列为Yner={},则CRF模型对句子文本X标记为标签Y的打分为:
Figure BDA0003871679810000111
E=BIO2Entity(Viterbi(P))
在解码阶段,本文采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E。
S3的目标是进行信息交互,为三元组森林获得信息更多的初始隐层单元和记忆单元。如图3,实体交互模块主体为去除了Position Encoding的Transformer Decoder模块,通过其多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树,因此这一阶段实质也相当于是三元组树间的交互,也就是头实体不重叠的三元组间的复杂的无序交互。在这一部分其输入是编码器的输出He和实体向量表示Ee。Ee是由序列标注模块生成的实体集合E’的向量表示。需要说明的是,在训练时,E’=GE|E,GE为实际标注的实体集合,而E为序列标注模块预测的实体集合,|为集合合并。在预测时E’=E。这里记
Figure BDA0003871679810000112
Figure BDA0003871679810000113
其中
Figure BDA0003871679810000114
为第i个实体的头部和尾部索引。实体
Figure BDA0003871679810000115
在文本隐层表示He中对应子词的向量表示
Figure BDA0003871679810000116
聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee。这里的聚合算法可采用均值、求和或线性层实现。具体计算如下:
Figure BDA0003871679810000117
Ee={e0,e1,...,en}
所得实体矩阵
Figure BDA0003871679810000118
作为Transformer Decoder模块的输入。该模块去除了位置信息,因此相当于输入实体集合。这是为了下一步由实体生成三元组树时,保证三元组树之间无序,也就进一步保证了三元组之间无顺序的传递误差。Transformer Decoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块。多头自注意力机制模块用以学习实体间的联系,而多头编码器解码器注意力机制模块则可学习句子文本和实体之间的联系,获得特定于实体的上下文信息。如下方公式所示,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其他实体信息和句子文本信息的隐层单元Hd。其中,
Figure BDA0003871679810000121
Figure BDA0003871679810000122
Hd=Transformer_Decoder(Ee,He)
Figure BDA0003871679810000123
S4流程如图4所示,主要由上步Hd出发,生成三元组。隐层单元Hd进一步由实体生成了三元组森林。这里的森林是由n+1个生成树模块组成的,且n+1为预测出来的实体的总数,而每一个生成树模块由一个Tree-RNN,这里标记其编号为0到n。如图5所示,第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder的隐层单元
Figure BDA0003871679810000124
该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组
Figure BDA0003871679810000125
如果输入实体h2=ei和对应的隐层单元
Figure BDA0003871679810000126
则在第1个时间步,预测其参与到关系r1、r2中。因此在第2个时间步,形成两个分支,分别输入r1、r2的关系向量,记作
Figure BDA0003871679810000127
关系向量通过随机初始化的关系嵌入(Relation Embedding)查找获得。在第一个分支,输入r1的关系向量
Figure BDA0003871679810000128
由于h2实际并不存在r1的关系,这是上一时间步的过度预测,因此在这一步预测为NA,终止该分支。即该分支并不存在三元组。在第二个分支,输入r2的关系向量量
Figure BDA0003871679810000129
在第2个时间步预测出(h2,r2)可能存在尾实体t2。因此,在第3个时间步,输入尾实体t2的实体向量t2=et2,由于三元组(h2,r2,t2)存在,因此正常结束,预测为1。如果不存在,则预测为0。Tree-RNN的初始隐层状态为
Figure BDA00038716798100001210
其记忆单元初始化为
Figure BDA00038716798100001211
初始输出为
Figure BDA00038716798100001212
其后每一个时刻的输入为上一时刻的预测的结果的向量表示。若预测为实体
Figure BDA00038716798100001213
则输入
Figure BDA00038716798100001214
为该实体的向量表示
Figure BDA00038716798100001215
若为关系
Figure BDA00038716798100001216
则输入
Figure BDA00038716798100001217
为关系的向量表示
Figure BDA00038716798100001218
具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为
Figure BDA00038716798100001219
时间步t∈[1,3]。
Figure BDA00038716798100001220
Figure BDA00038716798100001221
为每个时间步LSTM的输出,如果该时间步预测关系,则经过线性层采用sigmoid获得每种关系的概率pr,公式如下,其中,
Figure BDA00038716798100001222
Figure BDA00038716798100001223
而如果该时间步预测实体,则经过线性层,进一步融合句子文本上下文信息He,采用sigmoid激活函数获得选择每个实体的概率pe,对应序列标注时预测的实体尾部。如公式9,其中,线性层的权重为
Figure BDA00038716798100001224
Figure BDA00038716798100001225
Figure BDA0003871679810000131
在训练阶段,每一个时间步的实体、关系预测时,对每一个句子进行负采样获得负例
Figure BDA0003871679810000132
记其标签为NA,与正例
Figure BDA0003871679810000133
合并为gr,ge后一同进行多分类。本文构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)
L=LTF-score(X,Yner)
L是最终loss。训练阶段会对文中出现的Bert/CRF/实体交互/三元组森林均按L进行训练,联合训练更新参数。上述实体、关系预测时,均是多次二分类。
与已有中文事件抽取技术相比,本发明具有以下优点:一是构建三元组森林模型结构,在保证模型获得充足的信息传递的同时削弱甚至削减其所导致的传递误差,进而增强联合抽取的性能;二是通过纠错机制,进一步降低三元组内部传递误差;三是使用了实体交互,进一步增强模型中的信息交互,将下一步三元组生成中的实体生成简化为实体选择;四是实体关系联合抽取的性能有所提高,本发明在WebNLG和NYT数据集上实体关系联合抽取的F1值分别达到88.3%和92.7%。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于三元组森林的实体关系联合抽取系统,其中包括:
初始模块,用于获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
编码模块,用于将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
标注模块,用于将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
交互信息提取模块,用于将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
实体关系提取模块,用于将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
所述的基于三元组森林的实体关系联合抽取系统,其中该编码模块,用于使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He
He=BERT(concat(SWsub,Wp,Ws))
Figure BDA0003871679810000141
该标注模块用于:
通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
为CRF模型随机初始化状态转移矩阵
Figure BDA0003871679810000142
其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
Figure BDA0003871679810000143
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该交互信息提取模块用于,通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
在预测时,E’=E;
Figure BDA0003871679810000144
其中
Figure BDA0003871679810000145
为第i个实体的头部和尾部索引;实体
Figure BDA0003871679810000146
在文本隐层表示He中对应子词的向量表示
Figure BDA0003871679810000147
聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee
Figure BDA0003871679810000151
Ee={e0,e1,...,en}
实体矩阵
Figure BDA0003871679810000152
作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd
Figure BDA0003871679810000153
Hd=Transformer_Decoder(Ee,He)
Figure BDA0003871679810000154
该实体关系提取模块,用于根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元
Figure BDA0003871679810000155
该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组
Figure BDA0003871679810000156
Tree-RNN的初始隐层状态为
Figure BDA0003871679810000157
其记忆单元初始化为
Figure BDA0003871679810000158
初始输出为
Figure BDA0003871679810000159
其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体
Figure BDA00038716798100001510
则输入
Figure BDA00038716798100001511
为该实体的向量表示
Figure BDA00038716798100001523
若为关系
Figure BDA00038716798100001513
则输入
Figure BDA00038716798100001514
为关系的向量表示
Figure BDA00038716798100001515
具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为
Figure BDA00038716798100001516
时间步t∈[1,3]:
Figure BDA00038716798100001517
Figure BDA00038716798100001518
为每个时间步LSTM的输出,如果该时间步预测关系,则经过线性层采用sigmoid获得每种关系的概率pr,公式如下,其中,
Figure BDA00038716798100001519
Figure BDA00038716798100001520
如果当前时间步预测实体,则经过线性层,进一步融合句子文本上下文信息He,采用sigmoid激活函数获得选择每个实体的概率pe,对应序列标注时预测的实体尾部,其中,线性层的权重为
Figure BDA00038716798100001521
Figure BDA00038716798100001522
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于:
在训练阶段,每一个时间步的实体、关系预测时,对每一个句子进行负采样获得负例
Figure BDA0003871679810000161
记其标签为NA,与正例
Figure BDA0003871679810000162
合并为gr,ge后一同进行多分类;其中该实体、关系预测为多次二分类;
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
所述的基于三元组森林的实体关系联合抽取系统,其中该实体关系提取模块用于,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于三元组森林的实体关系联合抽取的程序。
本发明还提出了一种客户端,用于所述任意一种基于三元组森林的实体关系联合抽取系统。

Claims (10)

1.一种基于三元组森林的实体关系联合抽取方法,其特征在于,包括:
步骤1、获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
步骤2、将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
步骤3、将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
步骤4、将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
步骤5、将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
2.如权利要求1所述的基于三元组森林的实体关系联合抽取方法,其特征在于,该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He
He=BERT(concat(SWsub,Wp,Ws))
Figure FDA0003871679800000011
该步骤3包括:
步骤31、通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
步骤32、为CRF模型随机初始化状态转移矩阵
Figure FDA0003871679800000012
其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
Figure FDA0003871679800000021
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该步骤4包括:通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示Ee是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
在预测时,E’=E;
Figure FDA0003871679800000022
其中
Figure FDA0003871679800000023
为第i个实体的头部和尾部索引;实体
Figure FDA0003871679800000024
在文本隐层表示He中对应子词的向量表示
Figure FDA0003871679800000025
聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee
Figure FDA0003871679800000026
Ee={e0,e1,...,en}
实体矩阵
Figure FDA0003871679800000027
作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd
Figure FDA0003871679800000028
Hd=Transformer_Decoder(Ee,He)
Figure FDA0003871679800000029
该步骤5包括:根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元
Figure FDA00038716798000000210
该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组
Figure FDA00038716798000000211
Tree-RNN的初始隐层状态为
Figure FDA00038716798000000212
其记忆单元初始化为
Figure FDA00038716798000000213
初始输出为
Figure FDA0003871679800000031
其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体
Figure FDA0003871679800000032
则输入
Figure FDA0003871679800000033
为该实体的向量表示
Figure FDA0003871679800000034
若为关系
Figure FDA0003871679800000035
则输入
Figure FDA0003871679800000036
为关系的向量表示
Figure FDA0003871679800000037
具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为
Figure FDA0003871679800000038
时间步t∈[1,3]:
Figure FDA0003871679800000039
Figure FDA00038716798000000310
为每个时间步LSTM的输出,如果该时间步预测关系,则经过线性层采用sigmoid获得每种关系的概率pr,公式如下,其中,
Figure FDA00038716798000000311
Figure FDA00038716798000000312
如果当前时间步预测实体,则经过线性层,进一步融合句子文本上下文信息He,采用sigmoid激活函数获得选择每个实体的概率pe,对应序列标注时预测的实体尾部,其中,线性层的权重为
Figure FDA00038716798000000313
Figure FDA00038716798000000314
3.如权利要求2所述的基于三元组森林的实体关系联合抽取方法,其特征在于,该步骤5包括:
在训练阶段,每一个时间步的实体、关系预测时,对每一个句子进行负采样获得负例
Figure FDA00038716798000000315
记其标签为NA,与正例
Figure FDA00038716798000000316
合并为gr,ge后一同进行多分类;其中该实体、关系预测为多次二分类;
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
4.如权利要求1所述的基于三元组森林的实体关系联合抽取方法,其特征在于,该步骤5包括,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
5.一种基于三元组森林的实体关系联合抽取系统,其特征在于,包括:
初始模块,用于获取待实体关系抽取的语料,并对其进行分句和分词处理,得到句子及其对应的词序列;
编码模块,用于将该词序列输入BERT模型,BERT模型对该该词序列进行分词,得到子词序列,使用该BERT模型对该子词序列进行编码,得到句子的分布式表示;
标注模块,用于将该分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;
交互信息提取模块,用于将该实体向量输入,通过Transformer Decoder模块中多头注意力机制获得该实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;
实体关系提取模块,用于将该隐层向量作为Tree-RNN的初始状态和初始隐层单元,输入实体表示至该Tree-RNN,从Tree-RNN的根节点的头实体生成其所参与的关系,根据该头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
6.如权利要求5所述的基于三元组森林的实体关系联合抽取系统,其特征在于,该编码模块,用于使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He
He=BERT(concat(SWsub,Wp,Ws))
Figure FDA0003871679800000041
该标注模块用于:
通过下式得到句子中各字词属于各标签的概率,以标注句子中实体:
P=softmax(dropout(He)Wner+bner)
为CRF模型随机初始化状态转移矩阵
Figure FDA0003871679800000042
其中c1+2为序列标注的BIOES标签加上初始状态和结束状态这两个标签的数目;Aij为第i个标签转移到第j个标签的概率,序列标注的标签序列为Yner={},则模型对句子文本X标记为标签Y的打分为:
Figure FDA0003871679800000043
E=BIO2Entity(Viterbi(P))
在解码阶段,采用维特比算法解码,获得最优预测标签序列,进而由BIOES标注,获得对应实体E;
该交互信息提取模块用于,通过Transformer Decoder模块中多头注意力机制自动学习实体间的交互信息、实体和输入文本间的交互信息,后续由每一个实体出发生成一棵头实体重叠的三元组树;实体向量表示He是由序列标注模块生成的实体集合E’的向量表示;
在训练时,E’=GE|E,GE为实际标注的实体集合,E为序列标注模块预测的实体集合,|为集合合并;
在预测时,E’=E;
Figure FDA0003871679800000051
其中
Figure FDA0003871679800000052
为第i个实体的头部和尾部索引;实体
Figure FDA0003871679800000053
在文本隐层表示He中对应子词的向量表示
Figure FDA0003871679800000054
聚合算法aggre得到实体向量表示ei,n+1个实体向量表示组合成矩阵Ee
Figure FDA0003871679800000055
Ee={e0,e1,...,en}
实体矩阵
Figure FDA0003871679800000056
作为Transformer Decoder模块的输入,TransformerDecoder模块内部为N层Transformer结构,每一层包含一个多头自注意力机制模块和一个多头编码器解码器注意力机制模块;多头自注意力机制模块用于学习实体间的联系,而多头编码器解码器注意力机制模块则用于学习句子文本和实体之间的联系,获得特定于实体的上下文信息;通过下式,实体矩阵Ee和句子文本表示He经过Transformer Decoder模块完成交互,获得蕴含其实体信息和句子文本信息的隐层单元Hd
Figure FDA0003871679800000057
Hd=Transformer_Decoder(Ee,He)
Figure FDA0003871679800000058
该实体关系提取模块,用于根据隐层单元Hd生成三元组森林,该三元组森林由n+1个生成树模块组成的,而每一个生成树模块为一个Tree-RNN;第i个Tree-RNN的输入该位置对应的实体ei和Transformer Decoder模块的隐层单元
Figure FDA0003871679800000059
该Tree-RNN的第j个分支是一个以第i个实体为头实体的三元组
Figure FDA00038716798000000510
Tree-RNN的初始隐层状态为
Figure FDA00038716798000000511
其记忆单元初始化为
Figure FDA00038716798000000512
初始输出为
Figure FDA00038716798000000513
其后每一个时刻的输入为上一时刻的预测的结果的向量表示;若预测为实体
Figure FDA00038716798000000514
则输入
Figure FDA00038716798000000515
为该实体的向量表示
Figure FDA00038716798000000516
若为关系
Figure FDA00038716798000000517
则输入
Figure FDA00038716798000000518
为关系的向量表示
Figure FDA00038716798000000519
具体每个时间步计算如下,其中每个时间步的隐层状态、记忆单元和输入为
Figure FDA00038716798000000520
时间步t∈[1,3]:
Figure FDA00038716798000000521
Figure FDA00038716798000000522
为每个时间步LSTM的输出,如果该时间步预测关系,则经过线性层采用sigmoid获得每种关系的概率pr,公式如下,其中,
Figure FDA00038716798000000523
Figure FDA00038716798000000524
如果当前时间步预测实体,则经过线性层,进一步融合句子文本上下文信息He,采用sigmoid激活函数获得选择每个实体的概率pe,对应序列标注时预测的实体尾部,其中,线性层的权重为
Figure FDA0003871679800000061
Figure FDA0003871679800000062
7.如权利要求6所述的基于三元组森林的实体关系联合抽取系统,其特征在于,该实体关系提取模块用于:
在训练阶段,每一个时间步的实体、关系预测时,对每一个句子进行负采样获得负例
Figure FDA0003871679800000063
记其标签为NA,与正例
Figure FDA0003871679800000064
合并为gr,ge后一同进行多分类;其中该实体、关系预测为多次二分类;
构建三元组森林模块损失为每个时间步的损失和:
LTF=-logPr(r=r*|h*,x;θ)-logPr(t*|r*,h*,x;θ)。
L=LTF-score(X,Yner)
L是最终损失,用于联合训练该BERT模型、该CRF模型、该Transformer Decoder模块和该三元组森林。
8.如权利要求5所述的基于三元组森林的实体关系联合抽取系统,其特征在于,该实体关系提取模块用于,根据该实体关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于三元组森林的实体关系联合抽取的程序。
10.一种客户端,用于权利要求5至8中任意一种基于三元组森林的实体关系联合抽取系统。
CN202211199819.6A 2022-09-29 2022-09-29 基于三元组森林的实体关系联合抽取方法及系统 Pending CN115687638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211199819.6A CN115687638A (zh) 2022-09-29 2022-09-29 基于三元组森林的实体关系联合抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211199819.6A CN115687638A (zh) 2022-09-29 2022-09-29 基于三元组森林的实体关系联合抽取方法及系统

Publications (1)

Publication Number Publication Date
CN115687638A true CN115687638A (zh) 2023-02-03

Family

ID=85064508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211199819.6A Pending CN115687638A (zh) 2022-09-29 2022-09-29 基于三元组森林的实体关系联合抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115687638A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757190A (zh) * 2023-08-15 2023-09-15 北京大学第一医院 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备
CN117290510A (zh) * 2023-11-27 2023-12-26 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757190A (zh) * 2023-08-15 2023-09-15 北京大学第一医院 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备
CN116757190B (zh) * 2023-08-15 2023-10-20 北京大学第一医院 一种基于双向树型标注方法的实体关系联合抽取方法
CN117290510A (zh) * 2023-11-27 2023-12-26 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质
CN117290510B (zh) * 2023-11-27 2024-01-30 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质

Similar Documents

Publication Publication Date Title
CN112528676B (zh) 文档级别的事件论元抽取方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN115687638A (zh) 基于三元组森林的实体关系联合抽取方法及系统
CN111651557A (zh) 一种自动化文本生成方法、装置及计算机可读存储介质
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN114036934A (zh) 一种中文医学实体关系联合抽取方法和系统
CN113127623A (zh) 一种基于混合专家模型和联合学习的知识库问题生成方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN114020900A (zh) 基于融合空间位置注意力机制的图表英语摘要生成方法
CN112016299B (zh) 计算机执行、利用神经网络生成依存句法树的方法及装置
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN113590745B (zh) 一种可解释的文本推断方法
CN113312448B (zh) 一种诗歌生成方法、系统及可读存储介质
CN112084319B (zh) 一种基于动作的关系网络视频问答系统及方法
CN114648017A (zh) 一种基于异质图注意力网络的文档级关系抽取方法
CN114626529A (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN114611510A (zh) 基于生成模型辅助机器阅读理解的实现方法及装置
CN113642630A (zh) 基于双路特征编码器的图像描述方法及系统
CN112364654A (zh) 一种面向教育领域的实体和关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination