CN115759098A - 一种航天文本数据的中文实体和关系联合抽取方法、系统 - Google Patents

一种航天文本数据的中文实体和关系联合抽取方法、系统 Download PDF

Info

Publication number
CN115759098A
CN115759098A CN202211419102.8A CN202211419102A CN115759098A CN 115759098 A CN115759098 A CN 115759098A CN 202211419102 A CN202211419102 A CN 202211419102A CN 115759098 A CN115759098 A CN 115759098A
Authority
CN
China
Prior art keywords
entity
relation
task
relationship
subtask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211419102.8A
Other languages
English (en)
Other versions
CN115759098B (zh
Inventor
李盛阳
熊雄
刘云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology and Engineering Center for Space Utilization of CAS
Original Assignee
Technology and Engineering Center for Space Utilization of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology and Engineering Center for Space Utilization of CAS filed Critical Technology and Engineering Center for Space Utilization of CAS
Priority to CN202211419102.8A priority Critical patent/CN115759098B/zh
Publication of CN115759098A publication Critical patent/CN115759098A/zh
Application granted granted Critical
Publication of CN115759098B publication Critical patent/CN115759098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种航天文本数据的中文实体和关系联合抽取方法、系统,涉及数据处理领域。包括:基于多门控编码模块建模NER子任务和RC子任务的特异性特征、两个子任务间的交互;基于二维表格解码进行实体类型和关系类型的解码,得到所述输入序列中存在的所有关系三元组集合。本发明技术方案解决实体和关系联合抽取任务中子任务交互和特异性同时建模的问题,且算法推理速度较高,在SSUIE数据集上比现有的前沿实体和关系抽取方法的实体识别F1指标提高3.77%,达到74.58%,关系抽取F1指标提高4.44%,达到61.77%,模型推理速度提高28%,达到64句/秒,实现航天领域内高精度、快速的实体关系抽取,满足实际工程应用中对算法的要求。

Description

一种航天文本数据的中文实体和关系联合抽取方法、系统
技术领域
本发明涉及数据处理领域,尤其涉及一种航天文本数据的中文实体和关系联合抽取方法、系统。
背景技术
中国载人航天工程空间科学与应用领域呈现数据规模大、专业性强、复杂度高等特点,实体之间的关系比较复杂,要求所使用的实体关系抽取算法既能对实体识别和关系分类两个子任务进行区别,又能建立两个子任务之间的联系,同时,还要求所使用的实体关系抽取算法具有较高的抽取效率。
目前采取的流水线式实体和关系抽取方法只有实体信息向关系分类任务的单方向交互,关系信息并没有流向实体识别任务,导致子任务间的互动不充分。此外,流水线式实体和关系抽取方法还存在误差累积的问题。
现有通过不同交互机制实现两个子任务间的双向交互的实体关系抽取方法,为自回归方式处理,不能兼顾任务特异性,同时存在编码效率较低的问题。
综上,现有实体关系抽取方法存在无法兼顾子任务特异性和子任务间交互、同时算法效率低的问题。
发明内容
本发明的目的在于提供一种航天文本数据的中文实体和关系联合抽取方法、系统,以解决现有实体关系抽取方法存在无法兼顾子任务特异性和子任务间交互、同时算法效率低的问题。
本发明的第一方面提供一种航天文本数据的中文实体和关系联合抽取方法,包括:
S1:基于多门控编码模块获得子任务解码输入特征向量
S101,基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure BDA0003941537320000011
和RC子任务的关系候选特征
Figure BDA0003941537320000021
S102,所述
Figure BDA0003941537320000022
和所述
Figure BDA0003941537320000023
分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;所述
Figure BDA0003941537320000024
和所述
Figure BDA0003941537320000025
分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter
S103,采用公式(1)进行特征交互,得到NER子任务解码输入特征向量Hner和RC子任务解码输入特征向量Hrc
Figure BDA0003941537320000026
式(1)中,
Figure BDA0003941537320000027
表示拼接操作,
Figure BDA0003941537320000028
N表示所述输入序列的长度;h表示多门控编码模块的隐含层维度;
Figure BDA0003941537320000029
表示矩阵维度;
S2:基于二维表格解码
基于实体识别的二维表和所述特征向量Hner,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
基于关系分类的二维表和所述特征向量Hrc,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合为公式(2):
Figure BDA00039415373200000210
公式(2)中,
Figure BDA00039415373200000211
通过基于实体识别的二维表预测的头实体序列片段对应的实体类型;
Figure BDA00039415373200000212
为通过基于实体识别的二维表预测的尾实体序列片段对应的实体类型;
Figure BDA00039415373200000213
为基于关系分类的二维表预测的头、尾实体起始位置对应的关系类型,E表示预先定义的实体类型的集合,R表示预先定义的关系类型的集合。
在本发明的上述实施例中,可选地,S101中基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure BDA0003941537320000031
和RC子任务的关系候选特征
Figure BDA0003941537320000032
具体为:
所述输入序列的上下文信息输入到BERT编码器,利用公式(3)得到NER子任务的实体候选特征
Figure BDA0003941537320000033
利用公式(4)得到RC子任务的关系候选特征
Figure BDA0003941537320000034
Figure BDA0003941537320000035
Figure BDA0003941537320000036
其中
Figure BDA0003941537320000037
为BERT编码器输出的特征矩阵,N表示所述输入序列的长度,d为BERT编码器隐含层维度,
Figure BDA0003941537320000038
Figure BDA0003941537320000039
为线性层可学习的参数;
Figure BDA00039415373200000310
Figure BDA00039415373200000311
为线性层可学习的偏置,h为多门控编码模块的隐含层维度;tanh()代表双曲正切激活函数。
在本发明的上述实施例中,可选地,S102中所述
Figure BDA00039415373200000312
和所述
Figure BDA00039415373200000313
分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task,具体为:
所述
Figure BDA00039415373200000314
通过实体任务门得到NER子任务的特异性特征He_task,计算公式为公式(5):
Figure BDA00039415373200000315
Ge_task表示实体任务门,其计算公式为Ge_task=σ(HbWe_task+be_task);
所述
Figure BDA00039415373200000316
通过关系任务门,得到RC子任务的特异性特征Hr_task,计算公式为公式(6):
Figure BDA00039415373200000317
Gr_task表示关系任务门,其计算公式为Gr_task=σ(HbWr_task+br_task);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
Figure BDA00039415373200000318
Figure BDA00039415373200000319
表示线性层可学习的参数;d为BERT编码器隐含层维度;
Figure BDA00039415373200000320
Figure BDA00039415373200000321
表示线性层可学习的偏置;
Figure BDA00039415373200000322
为哈达玛积。
在本发明的上述实施例中,可选地,S102中所述
Figure BDA00039415373200000323
和所述
Figure BDA00039415373200000324
分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter,具体为:
所述
Figure BDA0003941537320000041
通过实体交互门,得到NER子任务的实体交互特征He_inter,计算公式为公式(7):
Figure BDA0003941537320000042
Ge_inter表示实体交互门,其计算公式为Ge_inter=σ(HbWe_inter+be_iinter);
所述
Figure BDA00039415373200000420
通过关系交互门,得到RC子任务的关系交互特征Hr_inter,计算公式为公式(8):
Figure BDA0003941537320000043
Gr_inter表示关系交互门,其计算公式为Gr_inter=σ(HbWr_inter+br_iinter);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
Figure BDA0003941537320000044
Figure BDA0003941537320000045
表示线性层可学习的参数;d为BERT编码器隐含层维度;
Figure BDA0003941537320000046
Figure BDA0003941537320000047
表示线性层可学习的偏置;
Figure BDA0003941537320000048
为哈达玛积。
在本发明的上述实施例中,可选地,所述基于实体识别的二维表,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率,具体为:
建立N×N的二维表;设定所述二维表中第i行第j列的元素代表以第i个词开头第j个词结尾的序列片段sij和该序列片段sij的实体类型为k的概率;
利用公式(9)计算所述序列片段sij在所述二维表中的特征
Figure BDA0003941537320000049
Figure BDA00039415373200000410
公式(9)式中:
Figure BDA00039415373200000411
Figure BDA00039415373200000412
中第i个词的特征向量;
Figure BDA00039415373200000413
Figure BDA00039415373200000414
Figure BDA00039415373200000415
中第j个词的特征向量;
Figure BDA00039415373200000416
Figure BDA00039415373200000417
为可学习的参数和偏置;
基于所述特征
Figure BDA00039415373200000418
利用公式(10)计算所述序列片段sij属于实体类型k的概率;
Figure BDA00039415373200000419
公式(10)中,p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;eij表示第i个词到第j个词的序列片段对应实体类型;σ()表示sigmoid激活函数;
Figure BDA0003941537320000051
Figure BDA0003941537320000052
为可学习的参数;|E|表示实体类型数量。
在本发明的上述实施例中,可选地,基于关系分类的二维表,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率,具体为:
建立N×N的二维表格;设定所述二维表格中第i行第j列的元素代表三元组中的头实体起始位置是第i个词,尾实体起始位置是第j个词,并且头、尾实体起始位置的关系类型为l的概率;
利用公式(11)计算任意一个表格的特征
Figure BDA0003941537320000053
Figure BDA0003941537320000054
公式(11)式中,
Figure BDA0003941537320000055
Figure BDA0003941537320000056
中第i个词的特征向量;
Figure BDA0003941537320000057
Figure BDA0003941537320000058
中第j个词的特征向量;
Figure BDA0003941537320000059
Figure BDA00039415373200000510
为可学习的参数和偏置;
基于所述特征
Figure BDA00039415373200000511
利用公式(12)计算第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;
Figure BDA00039415373200000512
公式(12)中,p(rij=l)表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;rij表示第i个词和第j个词分别代表的头尾实体之间存在的关系类型;σ()表示sigmoid激活函数;
Figure BDA00039415373200000513
Figure BDA00039415373200000514
为可学习的参数,其中|R|表示关系类型数量。
在本发明的上述实施例中,可选地,在所述基于二维表格解码过程中还包括设置以最小化损失和L为训练目标的训练;
L=Lner+Lrc (13)
其中,所述基于实体识别的二维表的解码过程中的损失函数为Lner,其计算公式为公式(14);所述基于关系分类的二维表的解码过程中的损失函数为Lrc,其计算公式为公式(15);
Figure BDA0003941537320000061
Figure BDA0003941537320000062
其中,
Figure BDA0003941537320000063
表示第i个词到第j个词的序列片段对应的真实实体标注类型;
Figure BDA0003941537320000064
表示以第i个词为头实体起始位置、第j个词为尾实体起始位置的头尾实体之间的真实关系标注类型;p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;p(rij=l)表示表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率。
本发明第二方面提供一种航天文本数据的中文实体和关系联合抽取系统,所述系统包括多门控编码模块和解码模块:所述多门控编码模块包括:候选特征生成单元、任务门单元、交互门单元、交互特征生成单元;所述解码模块包括:实体识别解码单元和关系分类解码单元;
候选特征生成单元,基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure BDA0003941537320000065
和RC子任务的关系候选特征
Figure BDA0003941537320000066
所述任务门单元,基于所述
Figure BDA0003941537320000067
和所述
Figure BDA0003941537320000068
和与其对应的任务门,计算得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task
所述交互门单元,基于所述
Figure BDA0003941537320000069
和所述
Figure BDA00039415373200000610
和分别与所述
Figure BDA00039415373200000611
和所述
Figure BDA00039415373200000612
对应的交互门,计算得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter
所述交互特征生成单元,将两个子任务的交互特征进行交换,实现一个子任务的特异性特征与另一个子任务的交互特征的拼接,得到解码需要的输入特征;
所述实体识别解码单元,基于实体识别的二维表和NER子任务解码输入特征向量,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
所述关系分类解码单元,基于关系分类的二维表和RC子任务解码输入特征向量,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
解码输出单元,基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合。
本发明第三方面提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行所述航天文本数据的中文实体和关系联合抽取方法。
本发明第四方面提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述航天文本数据的中文实体和关系联合抽取方法。
本发明的技术方案一种航天文本数据的中文实体和关系联合抽取方法是基于多门控编码器的实体关系联合抽取算法,兼顾了实体识别和关系分类子任务之间的有效交互、子任务之间的特异性建模、模型推理速度,在中国载人航天工程空间科学与应用领域数据集SSUIE上比基线系统的F1指标提高4.44%,模型推理速度相比基线系统提高28%,实现准确、快速的实体关系抽取。并且本申请的技术方案已集成至载人航天工程空间科学与应用知识图谱原型系统中,有力地支撑该领域的知识信息抽取和知识图谱构建和应用。更具体的效果:本发明的技术方案解决了实体和关系联合抽取任务中子任务交互和特异性同时建模的问题,且算法的推理速度较高,在SSUIE数据集上比现有的前沿实体和关系抽取方法的实体识别F1指标提高了3.77%,达到74.58%,关系抽取F1指标提高了4.44%,达到61.77%,模型推理速度提高了28%,达到64句/秒,实现航天领域内高精度、快速的实体关系抽取,满足实际工程应用中对算法的要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本发明一个实施例的航天文本数据的中文实体和关系联合抽取方法的流程示意图;σ1表示实体任务门;σ2表示实体交互门;σ3表示关系交互门;σ4表示关系任务门;
Figure BDA0003941537320000081
表示复制。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
对本申请中涉及到的英文缩写的解释说明:
关于NER子任务:NER是Named Entity Recognition的缩写,表示实体识别;NER子任务表示实体识别子任务。
关于RC子任务:RC是Relation Classification,表示关系分类;RC子任务表示关系分类子任务。
实施例
针对实体和关系抽取中子任务特异性和子任务交互同时建模的问题,本实施例的技术方案航天文本数据的中文实体和关系联合抽取方法提出基于多门控编码器MGE(Multi-Gate Encoder)的实体和关系联合抽取算法,具体流程如图1所示。本实施例的技术方案具体实现包括多门控编码模块部分和解码模块部分。其中,多门控编码模块部分基于门控机制设计了任务门和交互门两大类门控,分别用于建模子任务特异性和子任务间的交互。解码模块部分采用基于表格填充的解码模式。此外,本实施例的技术方案采用非自回归的方式处理输入序列,一次性对输入序列的每个词执行编码和解码,实现高效率的实体和关系联合抽取。
1.多门控编码模块部分——基于多门控编码模块获得子任务解码输入特征向量
本实施例的技术方案采用BERT对输入序列的上下文信息进行编码。如图1所示,本实施例的技术方案中的多门控编码模块部分基于门控机制设计了4个门控单元控制编码阶段的特征信息流动。其中两个任务门用于从实体特征或关系特征中分别找出实体识别任务或者关系分类任务的任务特异性特征,即经过任务门的特征信息中只包含对特定任务有用的信息,实现对两个子任务的特异性独立地进行建模;交互门用于生成对另一个子任务具有指导作用的交互特征,即从实体特征中找出对关系分类任务有指导作用的信息,从关系特征中找出对实体识别任务有指导作用的信息,实现两个子任务的双向交互;最后将任务特异性特征和交互特征进行拼接,分别得到实体识别解码模块和关系分类解码模块的输入。多门控编码模块部分可分为四个步骤:候选特征生成、任务特征生成、交互特征生成、特征交换。
1.1生成候选特征
因为BERT编码器的编码层是共享参数的,经过BERT编码器编码的特征是任务无关的,为初步建模实体识别和关系分类特征之间的特异性,首先将BERT编码器输出的上下文特征Hb经由一层线性变换层和双曲正切激活函数,得到实体候选特征
Figure BDA0003941537320000091
和关系候选特征
Figure BDA0003941537320000092
Figure BDA0003941537320000093
其中
Figure BDA0003941537320000094
为BERT编码器输出的特征矩阵,N为所述输入序列的长度,d为BERT编码器隐含层维度,
Figure BDA0003941537320000095
Figure BDA0003941537320000096
为线性层可学习的参数;
Figure BDA0003941537320000097
Figure BDA0003941537320000098
为线性层可学习的偏置,h为多门控编码模块的隐含层维度;tanh()代表双曲正切激活函数。为实现进一步的特征信息过滤得到特定任务的任务特征和交互特征,实体候选特征
Figure BDA0003941537320000099
和关系候选特征
Figure BDA00039415373200000910
将输入到对应子任务中的任务门和交互门中。
1.2生成任务特征
任务特征通过任务门生成,任务门的作用是从对应任务的候选特征中找出对应子任务所需要的特征信息。任务门通过sigmoid激活函数来实现,sigmoid激活函数生成0到1的数值,代表特征信息允许通过的比例。数值0代表不允许任何信息通过,数值1代表所有信息都可以通过。具体地,实体任务门Ge_task和关系任务门Gr_task的计算方式如下:
Figure BDA0003941537320000101
其中σ()代表sigmoid激活函数,
Figure BDA0003941537320000102
Figure BDA0003941537320000103
表示线性层可学习的参数;d为BERT编码器隐含层维度;
Figure BDA0003941537320000104
Figure BDA0003941537320000105
表示线性层可学习的偏置。实体任务门Ge_task和关系任务门Gr_task的参数不共享,独立进行计算,其中实体任务门Ge_task决定实体候选特征中哪些信息有益于实体识别任务,关系任务门Gr_task决定关系候选特征中哪些信息有益于关系分类任务。这两个任务门通过与候选特征逐元素相乘的方式实现各自的功能,分别为实体识别子任务和关系分类子任务生成任务特异性的特征信息:
Figure BDA0003941537320000106
Figure BDA0003941537320000107
式中的
Figure BDA0003941537320000108
为哈达玛积(逐元素相乘),He_task表示实体识别任务的特异性特征,Hr_task表示关系分类任务的特异性特征。
1.3生成交互特征
类似于任务特征,交互特征通过交互门生成,交互门的作用是从对应任务的候选特征中找出对另一个子任务有指导作用的交互信息。交互门也通过sigmoid激活函数来实现:
Figure BDA0003941537320000109
其中Ge_inter代表实体交互门,其作用是从实体候选特征中找出对关系分类子任务有指导作用的实体交互特征,Gr_inter代表关系交互门,其作用是从关系候选特征中找出对实体识别子任务有指导作用的关系交互特征。这两个交互门通过与候选特征逐元素相乘的方式实现各自的功能,分别为实体识别子任务和关系分类子任务生成具有指导作用的特征信息:
Figure BDA0003941537320000111
Figure BDA0003941537320000112
其中He_inter代表用于指导关系分类子任务的实体交互特征,Hr_inter代表用于指导实体识别子任务的关系交互特征。
1.4特征交换
经过任务门和交互门生成任务特征和交互特征后,将两个子任务的交互特征进行交换,并和对应的任务特征进行拼接,实现实体识别子任务和关系分类子任务的双向交互。具体地,实体任务特征和关系交互特征拼接在一起,关系任务特征和实体交互特征拼接在一起:
Figure BDA0003941537320000113
式中,
Figure BDA0003941537320000114
表示特征的维度拼接操作,
Figure BDA0003941537320000115
Figure BDA0003941537320000116
分别是最终输入到实体识别解码模块和关系分类解码模块的特征;N表示所述输入序列的长度;h表示多门控编码模块的隐含层维度。Hner包含实体任务特征和来自关系候选特征的指导信息,Hrc包含关系任务特征和来自实体候选特征的指导信息,通过两个子任务的交互特征的交换,实现同时建模子任务间的特异性和子任务间的交互。
2.解码模块部分
本实施例的技术方案中的实体识别解码模块和关系分类解码模块均采用基于表格填充的解码框架,将序列标注任务转换为二维表格填充任务。
2.1实体识别解码模块
对于实体识别任务,其目标是预测实体边界和实体类型。实体识别解码模块为每一类实体类型k∈E设计一个大小为N×N的二维表格,N为输入序列长度。实体类型k对应的二维表格中第i行第j列的元素代表以第i个词开头第j个词结尾的序列片段sij属于类型k的概率。具体地,从式(8)计算的Hner中,将第i个词和第j个词对应的特征向量
Figure BDA0003941537320000117
Figure BDA0003941537320000118
拼接在一起,然后经过一层全连接层对隐含层维度进行降维,最后经过层归一化和ELU激活函数得到序列片段sij在二维表格中的特征表示。对于以第i个词开头第j个词结尾的序列片段sij,其在二维表格中的特征表示
Figure BDA0003941537320000121
计算方式如下:
Figure BDA0003941537320000122
式中,
Figure BDA0003941537320000123
Figure BDA0003941537320000124
中第i个词的特征向量;
Figure BDA0003941537320000125
Figure BDA0003941537320000126
中第j个词的特征向量;Hner中包含实体任务特征和关系交互特征。
Figure BDA0003941537320000127
Figure BDA0003941537320000128
为可学习的参数和偏置。
基于序列片段sij的特征表示,可以计算该序列片段属于实体类型k的概率。具体地,将
Figure BDA0003941537320000129
的维度映射为实体类型数量|E|,然后经过一层全连接层和sigmoid激活函数得到最终的概率:
Figure BDA00039415373200001210
式中,
Figure BDA00039415373200001211
Figure BDA00039415373200001212
为可学习的参数;其中|E|表示实体类型数量;eij表示第i个词到第j个词的序列片段对应实体类型;
2.2关系分类解码模块
关系分类解码模块的目标是预测关系三元组中头实体的起始位置和尾实体的起始位置,并预测它们之间的关系类型。关系分类解码模块在形式上类似于实体识别解码模块,为每一类关系类型l∈R设计一个大小为N×N的二维表格,N为输入序列长度。关系类型l对应的二维表格中第i行第j列的元素代表三元组中的头实体起始位置是第i个词,尾实体起始位置是第j个词,并且关系类型为l的概率。具体地,类似实体识别解码模块,从式(8)计算的Hrc中,将第i个词和第j个词对应的特征向量
Figure BDA00039415373200001213
Figure BDA00039415373200001214
拼接在一起,然后经过一层全连接层对隐含层维度进行降维,最后经过层归一化和ELU激活函数得到关系解码模块二维表格中的特征表示。对于第i个词和第j个词,其在关系解码模块的二维表格中的特征表示
Figure BDA00039415373200001215
计算方式如下:
Figure BDA00039415373200001216
式中,
Figure BDA0003941537320000131
Figure BDA0003941537320000132
中第i个词的特征向量;
Figure BDA0003941537320000133
Figure BDA0003941537320000134
中第j个词的特征向量;Hrc中包含关系任务特征和实体交互特征。
Figure BDA0003941537320000135
Figure BDA0003941537320000136
为可学习的参数和偏置。
基于关系分类解码模块的二维表格的特征表示
Figure BDA0003941537320000137
可以计算第i个词和第j个词分别为头尾实体的起始位置并且它们之间的关系类型为l的概率。具体地,将
Figure BDA0003941537320000138
的维度映射为关系类型数量|R|,然后经过一层全连接层和sigmoid激活函数得到最终的概率:
Figure BDA0003941537320000139
式中,
Figure BDA00039415373200001310
Figure BDA00039415373200001311
为可学习的参数,其中|R|表示关系类型数量。
基于实体识别解码模块和关系分类解码模块计算的概率分布,按照以下条件从这两个解码模块的输出获得关系三元组中的头实体、关系类型、尾实体:
Figure BDA00039415373200001312
其中(k1,l,k2)为本体定义中预先定义的关系三元组类型,在此约束下得到对应类型的关系三元组解码结果。结合实体识别解码模块和关系分类解码模块的所有输出,以及本体定义,可以从一个输入序列中解码得到该序列中存在的所有关系三元组集合:
Figure BDA00039415373200001313
式中,
Figure BDA00039415373200001314
通过基于实体识别的二维表预测的头实体序列片段对应的实体类型;
Figure BDA00039415373200001315
为通过基于实体识别的二维表预测的尾实体序列片段对应的实体类型;
Figure BDA00039415373200001316
为关系分类模块预测的头尾实体起始位置对应的关系类型。
Figure BDA00039415373200001317
表示解码得到的
Figure BDA00039415373200001318
属于E;
Figure BDA00039415373200001319
解码得到的
Figure BDA00039415373200001320
属于R。
3.损失函数
本实施例的技术方案在所述基于二维表格解码过程中还设置包括以最小化损失和L为训练目标的训练;
L=Lner+Lrc (15)
在此,实体识别模块和关系分类模块均采用二元交叉熵损失函数。给定一个包含N个字的输入句子,实体识别模块的损失函数和关系分类模块的损失函数计算方式如下:
Figure BDA0003941537320000141
式中,
Figure BDA0003941537320000142
表示第i个词到第j个词的序列片段对应的真实实体标注类型;
Figure BDA0003941537320000143
表示以第i个词为头实体起始位置、第j个词为尾实体起始位置的头尾实体之间的真实关系标注类型;p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;p(rij=l)表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率。
实验效果验证分析
1.实验设置
a.实验数据集
本申请的技术方案在中国载人航天工程空间科学与应用领域的信息抽取数据集SSUIE(Space Science and Utilization Information Extraction)上进行实验,该数据集支持实体识别、关系抽取、事件抽取等信息抽取任务,其中实体识别和关系抽取部分定义了19类实体、66类三元组类型,目前数据集中实体数量为31776,关系三元组数量为11135,数据集规模目前仍然在持续扩充中。
b.评价方法
本申请技术方案中实验采用的评价指标为标准的Precision、Recall、F1。对于实体识别模块,实体边界和实体类型均预测准确的结果认为是正确的预测。对于关系分类模块,头尾实体的边界和实体类型,以及头尾实体间的关系类型预测准确的结果认为是正确的预测。
c.实验超参数设置
本申请技术方案实验的算法超参数设置如表1所示:
表1算法超参数设置
Figure BDA0003941537320000151
2.实体关系抽取实验
本申请的技术方案是基于多门控编码器的航天文本数据的中文实体和关系联合抽取方法,记为MGE;
现有技术方案一:实体和关系联合抽取算法,记为PURE(英文全称为thePrinceton University Relation Extraction system),是一种采取流水线式的实体和关系抽取方法。
现有技术方案二:分区过滤网格技术,简称PFN(英文全称Partition FilterNetwork),是一种针对实体和关系抽取中的子任务双向互动问题的技术方案。
本申请技术方案MGE与现有技术方案一PURE以及现有技术方案二PFN进行实体关系抽取实验对比。为客观、公平地进行实验比较,这三种技术方案上的实验均采用chinese-RoBERTa-wwm-ext预训练模型进行上下文信息编码。实验结果如表2所示,本申请技术方案MGE在SSUIE数据集上的实体识别F1指标达到74.58%,关系抽取F1指标达到61.77%,均优于现有技术方案PURE一和现有技术方案二PFN,这说明子任务间的有效的双向互动可以同时提高实体识别和关系抽取这两个子任务的效果。
表2实体识别和关系抽取实验结果
Figure BDA0003941537320000161
3.模型推理速度实验
本申请技术方案MGE与现有技术方案二PFN的另一点不同在于本申请技术方案MGE采用非自回归的方式进行特征编码,比现有技术方案二PFN采用的自回归式方法具有更高的模型推理效率。因此设计模型推理速度实验,在SSUIE的测试集上计算模型推理速度,定量地分析这两种方案的模型效率,实验结果如表3所示。实验结果表明,本申请技术方案MGE在取得更好的实体识别和关系抽取效果的同时,模型推理速度比现有技术方案二提高了28%。
表3模型推理速度对比实验结果
Figure BDA0003941537320000162
4.消融实验
为验证本申请技术方案MGE中各个模块的作用,设计一组消融实验,移除多门控编码器中各个门控单元进行实验,和完整模型进行对比,进而分别验证MGE中的交互门和任务门的有效性,实验结果如表4所示。
实验结果表明,当移除实体任务门时,实体识别F1指标下降了4.14%,当移除关系任务门时,关系抽取F1指标下降了4.73%,这表明任务门生成的任务特异性特征可以有效提高对应子任务的效果。当移除实体交互门时,实体信息对关系分类子任务的指导作用被切断,表4结果表明此时关系抽取F1指标下降了2.38%,说明实体信息可以有效地指导关系分类子任务。当移除关系交互门时,关系信息对实体识别子任务的指导作用被切断,表4结果表明此时实体识别F1指标下降了4.39%,说明关系信息可以有效地指导实体识别子任务。
表4消融实验结果
Figure BDA0003941537320000171
为验证实体识别和关系分类这两个子任务之间双向互动的有效性,设计一组对比实验移除所有的交互门,这时候两个子任务之间的交互被全部切断,表4结果表明此时相比于完整的MGE模型实体识别F1指标下降了5.34%,关系抽取F1指标下降了4.34%,说明这两个子任务之间是相辅相成的,加强子任务之间的互动可以有效提高整体任务的效果。此外,相比于只移除实体交互门或者只移除关系交互门,移除全部交互门的实验指标也有所下降,说明子任务之间的双向交互优于单方向的交互。
实施例2
本实施例的技术方案为一种航天文本数据的中文实体和关系联合抽取系统,所述系统包括多门控编码模块和解码模块:所述多门控编码模块包括:候选特征生成单元、任务门单元、交互门单元、交互特征生成单元;所述解码模块包括:实体识别解码单元和关系分类解码单元;
候选特征生成单元,基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure BDA0003941537320000172
和RC子任务的关系候选特征
Figure BDA0003941537320000173
所述任务门单元,基于所述
Figure BDA0003941537320000174
和所述
Figure BDA0003941537320000175
和与其对应的任务门,计算得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task
所述交互门单元,基于所述
Figure BDA0003941537320000181
和所述
Figure BDA0003941537320000182
和分别与所述
Figure BDA0003941537320000183
和所述
Figure BDA0003941537320000184
对应的交互门,计算得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter
所述交互特征生成单元,将两个子任务的交互特征进行交换,实现一个子任务的特异性特征与另一个子任务的交互特征的拼接,得到解码需要的输入特征;
所述实体识别解码单元,基于实体识别的二维表和NER子任务解码输入特征向量,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
所述关系分类解码单元,基于关系分类的二维表和RC子任务解码输入特征向量,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
解码输出单元,基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合。
实施例3
本实施例的技术方案为一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行航天文本数据的中文实体和关系联合抽取方法。
实施例4
本实施例的技术方案为一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述航天文本数据的中文实体和关系联合抽取方法。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本申请一种中文实体和关系联合抽取方法的技术方案是基于多门控编码器的实体关系联合抽取算法,兼顾了实体识别和关系分类子任务之间的有效交互、子任务之间的特异性建模、模型推理速度,在中国载人航天工程空间科学与应用领域数据集SSUIE上比基线系统的F1指标提高了4.44%,模型推理速度相比基线系统提高了28%,实现了准确、快速的实体关系抽取。并且本申请的技术方案已集成至载人航天工程空间科学与应用知识图谱原型系统中,有力支撑该领域的知识信息抽取和知识图谱构建和应用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种航天文本数据的中文实体和关系联合抽取方法,其特征在于,包括:
S1:基于多门控编码模块获得子任务解码输入特征向量
S101,基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure FDA0003941537310000011
和RC子任务的关系候选特征
Figure FDA0003941537310000012
S102,所述
Figure FDA0003941537310000013
和所述
Figure FDA0003941537310000014
分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;所述
Figure FDA0003941537310000015
和所述
Figure FDA0003941537310000016
分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter
S103,采用公式(1)进行特征交互,得到NER子任务解码输入特征向量Hner和RC子任务解码输入特征向量Hrc
Figure FDA0003941537310000017
式(1)中,
Figure FDA0003941537310000018
表示拼接操作,
Figure FDA0003941537310000019
N表示所述输入序列的长度;h表示多门控编码模块的隐含层维度;
Figure FDA00039415373100000110
表示矩阵维度;
S2:基于二维表格解码
基于实体识别的二维表和所述特征向量Hner,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
基于关系分类的二维表和所述特征向量Hrc,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合为公式(2):
Figure FDA00039415373100000111
公式(2)中,
Figure FDA00039415373100000112
通过基于实体识别的二维表预测的头实体序列片段对应的实体类型;
Figure FDA00039415373100000113
为通过基于实体识别的二维表预测的尾实体序列片段对应的实体类型;
Figure FDA00039415373100000114
为基于关系分类的二维表预测的头、尾实体起始位置对应的关系类型,E表示预先定义的实体类型的集合,R表示预先定义的关系类型的集合。
2.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,S101中基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure FDA0003941537310000021
和RC子任务的关系候选特征
Figure FDA0003941537310000022
具体为:
所述输入序列的上下文信息输入到BERT编码器,利用公式(3)得到NER子任务的实体候选特征
Figure FDA0003941537310000023
利用公式(4)得到RC子任务的关系候选特征
Figure FDA0003941537310000024
Figure FDA0003941537310000025
Figure FDA0003941537310000026
其中
Figure FDA0003941537310000027
为BERT编码器输出的特征矩阵,N表示所述输入序列的长度,d为BERT编码器隐含层维度,
Figure FDA0003941537310000028
Figure FDA0003941537310000029
为线性层可学习的参数;
Figure FDA00039415373100000210
Figure FDA00039415373100000211
为线性层可学习的偏置,h为多门控编码模块的隐含层维度;tanh()代表双曲正切激活函数。
3.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,S102中所述
Figure FDA00039415373100000212
和所述
Figure FDA00039415373100000213
分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task,具体为:
所述
Figure FDA00039415373100000214
通过实体任务门得到NER子任务的特异性特征He_task,计算公式为公式(5):
Figure FDA00039415373100000215
Ge_task表示实体任务门,其计算公式为Ge_task=σ(HbWe_task+be_task);
所述
Figure FDA00039415373100000216
通过关系任务门,得到RC子任务的特异性特征Hr_task,计算公式为公式(6):
Figure FDA00039415373100000217
Gr_task表示关系任务门,其计算公式为Gr_task=σ(HbWr_task+br_task);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
Figure FDA0003941537310000031
Figure FDA0003941537310000032
表示线性层可学习的参数;d为BERT编码器隐含层维度;
Figure FDA0003941537310000033
Figure FDA0003941537310000034
表示线性层可学习的偏置;
○为哈达玛积。
4.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,S102中所述
Figure FDA0003941537310000035
和所述
Figure FDA0003941537310000036
分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter,具体为:
所述
Figure FDA0003941537310000037
通过实体交互门,得到NER子任务的实体交互特征He_inter,计算公式为公式(7):
Figure FDA0003941537310000038
Ge_inter表示实体交互门,其计算公式为Ge_inter=σ(HbWe_inter+be_inter);
所述
Figure FDA0003941537310000039
通过关系交互门,得到RC子任务的关系交互特征Hr_inter,计算公式为公式(8):
Figure FDA00039415373100000310
Gr_inter表示关系交互门,其计算公式为Gr_inter=σ(HbWr_inter+br_inter);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
Figure FDA00039415373100000311
Figure FDA00039415373100000312
表示线性层可学习的参数;d为BERT编码器隐含层维度;
Figure FDA00039415373100000313
Figure FDA00039415373100000314
表示线性层可学习的偏置;
○为哈达玛积。
5.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,所述基于实体识别的二维表,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率,具体为:
建立N×N的二维表;设定所述二维表中第i行第j列的元素代表以第i个词开头第j个词结尾的序列片段sij和该序列片段sij的实体类型为k的概率;
利用公式(9)计算所述序列片段sij在所述二维表中的特征
Figure FDA00039415373100000315
Figure FDA0003941537310000041
公式(9)式中:
Figure FDA0003941537310000042
Figure FDA0003941537310000043
中第i个词的特征向量;
Figure FDA0003941537310000044
Figure FDA0003941537310000045
Figure FDA0003941537310000046
中第j个词的特征向量;
Figure FDA0003941537310000047
Figure FDA0003941537310000048
为可学习的参数和偏置;
基于所述特征
Figure FDA0003941537310000049
利用公式(10)计算所述序列片段sij属于实体类型k的概率;
Figure FDA00039415373100000410
公式(10)中,p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;eij表示第i个词到第j个词的序列片段对应实体类型;σ()表示sigmoid激活函数;
Figure FDA00039415373100000411
Figure FDA00039415373100000412
为可学习的参数;|E|表示实体类型数量。
6.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,基于关系分类的二维表,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率,具体为:
建立N×N的二维表格;设定所述二维表格中第i行第j列的元素代表三元组中的头实体起始位置是第i个词,尾实体起始位置是第j个词,并且头、尾实体起始位置的关系类型为l的概率;
利用公式(11)计算任意一个表格的特征
Figure FDA00039415373100000413
Figure FDA00039415373100000414
公式(11)式中,
Figure FDA00039415373100000415
Figure FDA00039415373100000416
中第i个词的特征向量;
Figure FDA00039415373100000417
Figure FDA00039415373100000418
中第j个词的特征向量;
Figure FDA00039415373100000419
Figure FDA00039415373100000420
为可学习的参数和偏置;
基于所述特征
Figure FDA00039415373100000421
利用公式(12)计算第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;
Figure FDA00039415373100000422
公式(12)中,p(rij=l)表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;rij表示第i个词和第j个词分别代表的头尾实体之间存在的关系类型;σ()表示sigmoid激活函数;
Figure FDA0003941537310000051
Figure FDA0003941537310000052
为可学习的参数,其中|R|表示关系类型数量。
7.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,在所述基于二维表格解码过程中还包括设置以最小化损失和L为训练目标的训练;
L=Lner+Lrc (13)
其中,所述基于实体识别的二维表的解码过程中的损失函数为Lner,其计算公式为公式(14);所述基于关系分类的二维表的解码过程中的损失函数为Lrc,其计算公式为公式(15);
Figure FDA0003941537310000053
Figure FDA0003941537310000054
其中,
Figure FDA0003941537310000055
表示第i个词到第j个词的序列片段对应的真实实体标注类型;
Figure FDA0003941537310000056
表示以第i个词为头实体起始位置、第j个词为尾实体起始位置的头尾实体之间的真实关系标注类型;p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;p(rij=l)表示表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率。
8.一种实现如权利要求1至7任意一项所述航天文本数据的中文实体和关系联合抽取方法的系统,其特征在于,所述系统包括多门控编码模块和解码模块:所述多门控编码模块包括:候选特征生成单元、任务门单元、交互门单元、交互特征生成单元;所述解码模块包括:实体识别解码单元和关系分类解码单元;
候选特征生成单元,基于输入序列的上下文信息,生成NER子任务的实体候选特征
Figure FDA00039415373100000510
和RC子任务的关系候选特征
Figure FDA0003941537310000057
所述任务门单元,基于所述
Figure FDA0003941537310000058
和所述
Figure FDA0003941537310000059
和与其对应的任务门,计算得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task
所述交互门单元,基于所述
Figure FDA0003941537310000061
和所述
Figure FDA0003941537310000062
和分别与所述
Figure FDA0003941537310000063
和所述
Figure FDA0003941537310000064
对应的交互门,计算得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter
所述交互特征生成单元,将两个子任务的交互特征进行交换,实现一个子任务的特异性特征与另一个子任务的交互特征的拼接,得到解码需要的输入特征;
所述实体识别解码单元,基于实体识别的二维表和NER子任务解码输入特征向量,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
所述关系分类解码单元,基于关系分类的二维表和RC子任务解码输入特征向量,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
解码输出单元,基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-7中任一所述航天文本数据的中文实体和关系联合抽取方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述航天文本数据的中文实体和关系联合抽取方法。
CN202211419102.8A 2022-11-14 2022-11-14 一种航天文本数据的中文实体和关系联合抽取方法、系统 Active CN115759098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211419102.8A CN115759098B (zh) 2022-11-14 2022-11-14 一种航天文本数据的中文实体和关系联合抽取方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211419102.8A CN115759098B (zh) 2022-11-14 2022-11-14 一种航天文本数据的中文实体和关系联合抽取方法、系统

Publications (2)

Publication Number Publication Date
CN115759098A true CN115759098A (zh) 2023-03-07
CN115759098B CN115759098B (zh) 2023-07-18

Family

ID=85370126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211419102.8A Active CN115759098B (zh) 2022-11-14 2022-11-14 一种航天文本数据的中文实体和关系联合抽取方法、系统

Country Status (1)

Country Link
CN (1) CN115759098B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108206A (zh) * 2023-04-13 2023-05-12 中南大学 一种金融数据实体关系的联合抽取方法及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
WO2021147726A1 (zh) * 2020-01-21 2021-07-29 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN114036934A (zh) * 2021-10-15 2022-02-11 浙江工业大学 一种中文医学实体关系联合抽取方法和系统
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
WO2021147726A1 (zh) * 2020-01-21 2021-07-29 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN114036934A (zh) * 2021-10-15 2022-02-11 浙江工业大学 一种中文医学实体关系联合抽取方法和系统
CN114417839A (zh) * 2022-01-19 2022-04-29 北京工业大学 基于全局指针网络的实体关系联合抽取方法
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108206A (zh) * 2023-04-13 2023-05-12 中南大学 一种金融数据实体关系的联合抽取方法及相关设备

Also Published As

Publication number Publication date
CN115759098B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Saharia et al. Non-autoregressive machine translation with latent alignments
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Zhang et al. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
Yin et al. Neural enquirer: Learning to query tables with natural language
Xia et al. Model-level dual learning
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
Plepi et al. Context transformer with stacked pointer networks for conversational question answering over knowledge graphs
CN111444730A (zh) 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
CN115759098A (zh) 一种航天文本数据的中文实体和关系联合抽取方法、系统
Cao et al. Relmkg: reasoning with pre-trained language models and knowledge graphs for complex question answering
Zhang et al. Enhancing aspect and opinion terms semantic relation for aspect sentiment triplet extraction
Tang et al. Offline handwritten mathematical expression recognition with graph encoder and transformer decoder
Vashistha et al. Active learning for neural machine translation
Lin et al. Spatial attention and syntax rule enhanced tree decoder for offline handwritten mathematical expression recognition
CN115169285A (zh) 一种基于图解析的事件抽取方法及系统
CN115545038A (zh) 一种优化网格标签的方面情感分析方法
Xu Multi-region English translation synchronization mechanism driven by big data
Li et al. Transformer fast gradient method with relative positional embedding: a mutual translation model between English and Chinese
Yang et al. A semantic Enhanced Knowledge Graph Embedding Model With AIGC Designed for Healthcare Prediction
Wang et al. Sentence matching with deep self-attention and co-attention features
Li et al. Senti-EGCN: An Aspect-Based Sentiment Analysis System Using Edge-Enhanced Graph Convolutional Networks
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
Liang et al. Character-level convolutional networks for arithmetic operator character recognition
CN113157855B (zh) 一种融合语义与上下文信息的文本摘要方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant