CN115759098B - 一种航天文本数据的中文实体和关系联合抽取方法、系统 - Google Patents
一种航天文本数据的中文实体和关系联合抽取方法、系统 Download PDFInfo
- Publication number
- CN115759098B CN115759098B CN202211419102.8A CN202211419102A CN115759098B CN 115759098 B CN115759098 B CN 115759098B CN 202211419102 A CN202211419102 A CN 202211419102A CN 115759098 B CN115759098 B CN 115759098B
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- relationship
- task
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 55
- 230000003993 interaction Effects 0.000 claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 14
- 238000012545 processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 230000002457 bidirectional effect Effects 0.000 description 7
- 238000002679 ablation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种航天文本数据的中文实体和关系联合抽取方法、系统,涉及数据处理领域。包括:基于多门控编码模块建模NER子任务和RC子任务的特异性特征、两个子任务间的交互;基于二维表格解码进行实体类型和关系类型的解码,得到所述输入序列中存在的所有关系三元组集合。本发明技术方案解决实体和关系联合抽取任务中子任务交互和特异性同时建模的问题,且算法推理速度较高,在SSUIE数据集上比现有的前沿实体和关系抽取方法的实体识别F1指标提高3.77%,达到74.58%,关系抽取F1指标提高4.44%,达到61.77%,模型推理速度提高28%,达到64句/秒,实现航天领域内高精度、快速的实体关系抽取,满足实际工程应用中对算法的要求。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种航天文本数据的中文实体和关系联合抽取方法、系统。
背景技术
中国载人航天工程空间科学与应用领域呈现数据规模大、专业性强、复杂度高等特点,实体之间的关系比较复杂,要求所使用的实体关系抽取算法既能对实体识别和关系分类两个子任务进行区别,又能建立两个子任务之间的联系,同时,还要求所使用的实体关系抽取算法具有较高的抽取效率。
目前采取的流水线式实体和关系抽取方法只有实体信息向关系分类任务的单方向交互,关系信息并没有流向实体识别任务,导致子任务间的互动不充分。此外,流水线式实体和关系抽取方法还存在误差累积的问题。
现有通过不同交互机制实现两个子任务间的双向交互的实体关系抽取方法,为自回归方式处理,不能兼顾任务特异性,同时存在编码效率较低的问题。
综上,现有实体关系抽取方法存在无法兼顾子任务特异性和子任务间交互、同时算法效率低的问题。
发明内容
本发明的目的在于提供一种航天文本数据的中文实体和关系联合抽取方法、系统,以解决现有实体关系抽取方法存在无法兼顾子任务特异性和子任务间交互、同时算法效率低的问题。
本发明的第一方面提供一种航天文本数据的中文实体和关系联合抽取方法,包括:
S1:基于多门控编码模块获得子任务解码输入特征向量
S101,基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>
S102,所述和所述/>分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;所述/>和所述/>分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter;
S103,采用公式(1)进行特征交互,得到NER子任务解码输入特征向量Hner和RC子任务解码输入特征向量Hrc;
式(1)中,表示拼接操作,/>N表示所述输入序列的长度;h表示多门控编码模块的隐含层维度;/>表示矩阵维度;
S2:基于二维表格解码
基于实体识别的二维表和所述特征向量Hner,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
基于关系分类的二维表和所述特征向量Hrc,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合为公式(2):
公式(2)中,通过基于实体识别的二维表预测的头实体序列片段对应的实体类型;/>为通过基于实体识别的二维表预测的尾实体序列片段对应的实体类型;/>为基于关系分类的二维表预测的头、尾实体起始位置对应的关系类型,E表示预先定义的实体类型的集合,R表示预先定义的关系类型的集合。
在本发明的上述实施例中,可选地,S101中基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>具体为:
所述输入序列的上下文信息输入到BERT编码器,利用公式(3)得到NER子任务的实体候选特征利用公式(4)得到RC子任务的关系候选特征/>
其中为BERT编码器输出的特征矩阵,N表示所述输入序列的长度,d为BERT编码器隐含层维度,/>和/>为线性层可学习的参数;/>和/>为线性层可学习的偏置,h为多门控编码模块的隐含层维度;tanh()代表双曲正切激活函数。
在本发明的上述实施例中,可选地,S102中所述和所述/>分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task,具体为:
所述通过实体任务门得到NER子任务的特异性特征He_task,计算公式为公式(5):
Ge_task表示实体任务门,其计算公式为Ge_task=σ(HbWe_task+be_task);
所述通过关系任务门,得到RC子任务的特异性特征Hr_task,计算公式为公式(6):
Gr_task表示关系任务门,其计算公式为Gr_task=σ(HbWr_task+br_task);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
和/>表示线性层可学习的参数;d为BERT编码器隐含层维度;
和/>表示线性层可学习的偏置;
为哈达玛积。
在本发明的上述实施例中,可选地,S102中所述和所述/>分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter,具体为:
所述通过实体交互门,得到NER子任务的实体交互特征He_inter,计算公式为公式(7):
Ge_inter表示实体交互门,其计算公式为Ge_inter=σ(HbWe_inter+be_iinter);
所述通过关系交互门,得到RC子任务的关系交互特征Hr_inter,计算公式为公式(8):
Gr_inter表示关系交互门,其计算公式为Gr_inter=σ(HbWr_inter+br_iinter);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
和/>表示线性层可学习的参数;d为BERT编码器隐含层维度;
和/>表示线性层可学习的偏置;
为哈达玛积。
在本发明的上述实施例中,可选地,所述基于实体识别的二维表,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率,具体为:
建立N×N的二维表;设定所述二维表中第i行第j列的元素代表以第i个词开头第j个词结尾的序列片段sij和该序列片段sij的实体类型为k的概率;
利用公式(9)计算所述序列片段sij在所述二维表中的特征
公式(9)式中:为/>中第i个词的特征向量;/>为 中第j个词的特征向量;/>和/>为可学习的参数和偏置;
基于所述特征利用公式(10)计算所述序列片段sij属于实体类型k的概率;
公式(10)中,p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;eij表示第i个词到第j个词的序列片段对应实体类型;σ()表示sigmoid激活函数;
和/>为可学习的参数;|E|表示实体类型数量。
在本发明的上述实施例中,可选地,基于关系分类的二维表,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率,具体为:
建立N×N的二维表格;设定所述二维表格中第i行第j列的元素代表三元组中的头实体起始位置是第i个词,尾实体起始位置是第j个词,并且头、尾实体起始位置的关系类型为l的概率;
利用公式(11)计算任意一个表格的特征
公式(11)式中,为/>中第i个词的特征向量;
为/>中第j个词的特征向量;
和/>为可学习的参数和偏置;
基于所述特征利用公式(12)计算第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;
公式(12)中,p(rij=l)表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;rij表示第i个词和第j个词分别代表的头尾实体之间存在的关系类型;σ()表示sigmoid激活函数;和/>为可学习的参数,其中|R|表示关系类型数量。
在本发明的上述实施例中,可选地,在所述基于二维表格解码过程中还包括设置以最小化损失和L为训练目标的训练;
L=Lner+Lrc (13)
其中,所述基于实体识别的二维表的解码过程中的损失函数为Lner,其计算公式为公式(14);所述基于关系分类的二维表的解码过程中的损失函数为Lrc,其计算公式为公式(15);
其中,表示第i个词到第j个词的序列片段对应的真实实体标注类型;表示以第i个词为头实体起始位置、第j个词为尾实体起始位置的头尾实体之间的真实关系标注类型;p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;p(rij=l)表示表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率。
本发明第二方面提供一种航天文本数据的中文实体和关系联合抽取系统,所述系统包括多门控编码模块和解码模块:所述多门控编码模块包括:候选特征生成单元、任务门单元、交互门单元、交互特征生成单元;所述解码模块包括:实体识别解码单元和关系分类解码单元;
候选特征生成单元,基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>
所述任务门单元,基于所述和所述/>和与其对应的任务门,计算得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;
所述交互门单元,基于所述和所述/>和分别与所述/>和所述/>对应的交互门,计算得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter;
所述交互特征生成单元,将两个子任务的交互特征进行交换,实现一个子任务的特异性特征与另一个子任务的交互特征的拼接,得到解码需要的输入特征;
所述实体识别解码单元,基于实体识别的二维表和NER子任务解码输入特征向量,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
所述关系分类解码单元,基于关系分类的二维表和RC子任务解码输入特征向量,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
解码输出单元,基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合。
本发明第三方面提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行所述航天文本数据的中文实体和关系联合抽取方法。
本发明第四方面提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述航天文本数据的中文实体和关系联合抽取方法。
本发明的技术方案一种航天文本数据的中文实体和关系联合抽取方法是基于多门控编码器的实体关系联合抽取算法,兼顾了实体识别和关系分类子任务之间的有效交互、子任务之间的特异性建模、模型推理速度,在中国载人航天工程空间科学与应用领域数据集SSUIE上比基线系统的F1指标提高4.44%,模型推理速度相比基线系统提高28%,实现准确、快速的实体关系抽取。并且本申请的技术方案已集成至载人航天工程空间科学与应用知识图谱原型系统中,有力地支撑该领域的知识信息抽取和知识图谱构建和应用。更具体的效果:本发明的技术方案解决了实体和关系联合抽取任务中子任务交互和特异性同时建模的问题,且算法的推理速度较高,在SSUIE数据集上比现有的前沿实体和关系抽取方法的实体识别F1指标提高了3.77%,达到74.58%,关系抽取F1指标提高了4.44%,达到61.77%,模型推理速度提高了28%,达到64句/秒,实现航天领域内高精度、快速的实体关系抽取,满足实际工程应用中对算法的要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本发明一个实施例的航天文本数据的中文实体和关系联合抽取方法的流程示意图;σ1表示实体任务门;σ2表示实体交互门;σ3表示关系交互门;σ4表示关系任务门;表示复制。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
对本申请中涉及到的英文缩写的解释说明:
关于NER子任务:NER是Named Entity Recognition的缩写,表示实体识别;NER子任务表示实体识别子任务。
关于RC子任务:RC是Relation Classification,表示关系分类;RC子任务表示关系分类子任务。
实施例
针对实体和关系抽取中子任务特异性和子任务交互同时建模的问题,本实施例的技术方案航天文本数据的中文实体和关系联合抽取方法提出基于多门控编码器MGE(Multi-Gate Encoder)的实体和关系联合抽取算法,具体流程如图1所示。本实施例的技术方案具体实现包括多门控编码模块部分和解码模块部分。其中,多门控编码模块部分基于门控机制设计了任务门和交互门两大类门控,分别用于建模子任务特异性和子任务间的交互。解码模块部分采用基于表格填充的解码模式。此外,本实施例的技术方案采用非自回归的方式处理输入序列,一次性对输入序列的每个词执行编码和解码,实现高效率的实体和关系联合抽取。
1.多门控编码模块部分——基于多门控编码模块获得子任务解码输入特征向量
本实施例的技术方案采用BERT对输入序列的上下文信息进行编码。如图1所示,本实施例的技术方案中的多门控编码模块部分基于门控机制设计了4个门控单元控制编码阶段的特征信息流动。其中两个任务门用于从实体特征或关系特征中分别找出实体识别任务或者关系分类任务的任务特异性特征,即经过任务门的特征信息中只包含对特定任务有用的信息,实现对两个子任务的特异性独立地进行建模;交互门用于生成对另一个子任务具有指导作用的交互特征,即从实体特征中找出对关系分类任务有指导作用的信息,从关系特征中找出对实体识别任务有指导作用的信息,实现两个子任务的双向交互;最后将任务特异性特征和交互特征进行拼接,分别得到实体识别解码模块和关系分类解码模块的输入。多门控编码模块部分可分为四个步骤:候选特征生成、任务特征生成、交互特征生成、特征交换。
1.1生成候选特征
因为BERT编码器的编码层是共享参数的,经过BERT编码器编码的特征是任务无关的,为初步建模实体识别和关系分类特征之间的特异性,首先将BERT编码器输出的上下文特征Hb经由一层线性变换层和双曲正切激活函数,得到实体候选特征和关系候选特征
其中为BERT编码器输出的特征矩阵,N为所述输入序列的长度,d为BERT编码器隐含层维度,/>和/>为线性层可学习的参数;/>和/>为线性层可学习的偏置,h为多门控编码模块的隐含层维度;tanh()代表双曲正切激活函数。为实现进一步的特征信息过滤得到特定任务的任务特征和交互特征,实体候选特征/>和关系候选特征/>将输入到对应子任务中的任务门和交互门中。
1.2生成任务特征
任务特征通过任务门生成,任务门的作用是从对应任务的候选特征中找出对应子任务所需要的特征信息。任务门通过sigmoid激活函数来实现,sigmoid激活函数生成0到1的数值,代表特征信息允许通过的比例。数值0代表不允许任何信息通过,数值1代表所有信息都可以通过。具体地,实体任务门Ge_task和关系任务门Gr_task的计算方式如下:
其中σ()代表sigmoid激活函数,和/>表示线性层可学习的参数;d为BERT编码器隐含层维度;/>和/>表示线性层可学习的偏置。实体任务门Ge_task和关系任务门Gr_task的参数不共享,独立进行计算,其中实体任务门Ge_task决定实体候选特征中哪些信息有益于实体识别任务,关系任务门Gr_task决定关系候选特征中哪些信息有益于关系分类任务。这两个任务门通过与候选特征逐元素相乘的方式实现各自的功能,分别为实体识别子任务和关系分类子任务生成任务特异性的特征信息:
式中的为哈达玛积(逐元素相乘),He_task表示实体识别任务的特异性特征,Hr_task表示关系分类任务的特异性特征。
1.3生成交互特征
类似于任务特征,交互特征通过交互门生成,交互门的作用是从对应任务的候选特征中找出对另一个子任务有指导作用的交互信息。交互门也通过sigmoid激活函数来实现:
其中Ge_inter代表实体交互门,其作用是从实体候选特征中找出对关系分类子任务有指导作用的实体交互特征,Gr_inter代表关系交互门,其作用是从关系候选特征中找出对实体识别子任务有指导作用的关系交互特征。这两个交互门通过与候选特征逐元素相乘的方式实现各自的功能,分别为实体识别子任务和关系分类子任务生成具有指导作用的特征信息:
其中He_inter代表用于指导关系分类子任务的实体交互特征,Hr_inter代表用于指导实体识别子任务的关系交互特征。
1.4特征交换
经过任务门和交互门生成任务特征和交互特征后,将两个子任务的交互特征进行交换,并和对应的任务特征进行拼接,实现实体识别子任务和关系分类子任务的双向交互。具体地,实体任务特征和关系交互特征拼接在一起,关系任务特征和实体交互特征拼接在一起:
式中,表示特征的维度拼接操作,/>和/>分别是最终输入到实体识别解码模块和关系分类解码模块的特征;N表示所述输入序列的长度;h表示多门控编码模块的隐含层维度。Hner包含实体任务特征和来自关系候选特征的指导信息,Hrc包含关系任务特征和来自实体候选特征的指导信息,通过两个子任务的交互特征的交换,实现同时建模子任务间的特异性和子任务间的交互。
2.解码模块部分
本实施例的技术方案中的实体识别解码模块和关系分类解码模块均采用基于表格填充的解码框架,将序列标注任务转换为二维表格填充任务。
2.1实体识别解码模块
对于实体识别任务,其目标是预测实体边界和实体类型。实体识别解码模块为每一类实体类型k∈E设计一个大小为N×N的二维表格,N为输入序列长度。实体类型k对应的二维表格中第i行第j列的元素代表以第i个词开头第j个词结尾的序列片段sij属于类型k的概率。具体地,从式(8)计算的Hner中,将第i个词和第j个词对应的特征向量和/>拼接在一起,然后经过一层全连接层对隐含层维度进行降维,最后经过层归一化和ELU激活函数得到序列片段sij在二维表格中的特征表示。对于以第i个词开头第j个词结尾的序列片段sij,其在二维表格中的特征表示/>计算方式如下:
式中,为/>中第i个词的特征向量;/>为中第j个词的特征向量;Hner中包含实体任务特征和关系交互特征。/>和/>为可学习的参数和偏置。
基于序列片段sij的特征表示,可以计算该序列片段属于实体类型k的概率。具体地,将的维度映射为实体类型数量|E|,然后经过一层全连接层和sigmoid激活函数得到最终的概率:
式中,和/>为可学习的参数;其中|E|表示实体类型数量;eij表示第i个词到第j个词的序列片段对应实体类型;
2.2关系分类解码模块
关系分类解码模块的目标是预测关系三元组中头实体的起始位置和尾实体的起始位置,并预测它们之间的关系类型。关系分类解码模块在形式上类似于实体识别解码模块,为每一类关系类型l∈R设计一个大小为N×N的二维表格,N为输入序列长度。关系类型l对应的二维表格中第i行第j列的元素代表三元组中的头实体起始位置是第i个词,尾实体起始位置是第j个词,并且关系类型为l的概率。具体地,类似实体识别解码模块,从式(8)计算的Hrc中,将第i个词和第j个词对应的特征向量和/>拼接在一起,然后经过一层全连接层对隐含层维度进行降维,最后经过层归一化和ELU激活函数得到关系解码模块二维表格中的特征表示。对于第i个词和第j个词,其在关系解码模块的二维表格中的特征表示计算方式如下:
式中,为/>中第i个词的特征向量;/>为/>中第j个词的特征向量;Hrc中包含关系任务特征和实体交互特征。/>和/>为可学习的参数和偏置。
基于关系分类解码模块的二维表格的特征表示可以计算第i个词和第j个词分别为头尾实体的起始位置并且它们之间的关系类型为l的概率。具体地,将/>的维度映射为关系类型数量|R|,然后经过一层全连接层和sigmoid激活函数得到最终的概率:
式中,和/>为可学习的参数,其中|R|表示关系类型数量。
基于实体识别解码模块和关系分类解码模块计算的概率分布,按照以下条件从这两个解码模块的输出获得关系三元组中的头实体、关系类型、尾实体:
其中(k1,l,k2)为本体定义中预先定义的关系三元组类型,在此约束下得到对应类型的关系三元组解码结果。结合实体识别解码模块和关系分类解码模块的所有输出,以及本体定义,可以从一个输入序列中解码得到该序列中存在的所有关系三元组集合:
式中,通过基于实体识别的二维表预测的头实体序列片段对应的实体类型;为通过基于实体识别的二维表预测的尾实体序列片段对应的实体类型;/>为关系分类模块预测的头尾实体起始位置对应的关系类型。/>表示解码得到的/>属于E;解码得到的/>属于R。
3.损失函数
本实施例的技术方案在所述基于二维表格解码过程中还设置包括以最小化损失和L为训练目标的训练;
L=Lner+Lrc (15)
在此,实体识别模块和关系分类模块均采用二元交叉熵损失函数。给定一个包含N个字的输入句子,实体识别模块的损失函数和关系分类模块的损失函数计算方式如下:
式中,表示第i个词到第j个词的序列片段对应的真实实体标注类型;表示以第i个词为头实体起始位置、第j个词为尾实体起始位置的头尾实体之间的真实关系标注类型;p(eij=k)表示第i个词到第j个词的序列片段对应实体类型为k的概率;p(rij=l)表示第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率。
实验效果验证分析
1.实验设置
a.实验数据集
本申请的技术方案在中国载人航天工程空间科学与应用领域的信息抽取数据集SSUIE(Space Science and Utilization Information Extraction)上进行实验,该数据集支持实体识别、关系抽取、事件抽取等信息抽取任务,其中实体识别和关系抽取部分定义了19类实体、66类三元组类型,目前数据集中实体数量为31776,关系三元组数量为11135,数据集规模目前仍然在持续扩充中。
b.评价方法
本申请技术方案中实验采用的评价指标为标准的Precision、Recall、F1。对于实体识别模块,实体边界和实体类型均预测准确的结果认为是正确的预测。对于关系分类模块,头尾实体的边界和实体类型,以及头尾实体间的关系类型预测准确的结果认为是正确的预测。
c.实验超参数设置
本申请技术方案实验的算法超参数设置如表1所示:
表1算法超参数设置
2.实体关系抽取实验
本申请的技术方案是基于多门控编码器的航天文本数据的中文实体和关系联合抽取方法,记为MGE;
现有技术方案一:实体和关系联合抽取算法,记为PURE(英文全称为thePrinceton University Relation Extraction system),是一种采取流水线式的实体和关系抽取方法。
现有技术方案二:分区过滤网格技术,简称PFN(英文全称Partition FilterNetwork),是一种针对实体和关系抽取中的子任务双向互动问题的技术方案。
本申请技术方案MGE与现有技术方案一PURE以及现有技术方案二PFN进行实体关系抽取实验对比。为客观、公平地进行实验比较,这三种技术方案上的实验均采用chinese-RoBERTa-wwm-ext预训练模型进行上下文信息编码。实验结果如表2所示,本申请技术方案MGE在SSUIE数据集上的实体识别F1指标达到74.58%,关系抽取F1指标达到61.77%,均优于现有技术方案PURE一和现有技术方案二PFN,这说明子任务间的有效的双向互动可以同时提高实体识别和关系抽取这两个子任务的效果。
表2实体识别和关系抽取实验结果
3.模型推理速度实验
本申请技术方案MGE与现有技术方案二PFN的另一点不同在于本申请技术方案MGE采用非自回归的方式进行特征编码,比现有技术方案二PFN采用的自回归式方法具有更高的模型推理效率。因此设计模型推理速度实验,在SSUIE的测试集上计算模型推理速度,定量地分析这两种方案的模型效率,实验结果如表3所示。实验结果表明,本申请技术方案MGE在取得更好的实体识别和关系抽取效果的同时,模型推理速度比现有技术方案二提高了28%。
表3模型推理速度对比实验结果
4.消融实验
为验证本申请技术方案MGE中各个模块的作用,设计一组消融实验,移除多门控编码器中各个门控单元进行实验,和完整模型进行对比,进而分别验证MGE中的交互门和任务门的有效性,实验结果如表4所示。
实验结果表明,当移除实体任务门时,实体识别F1指标下降了4.14%,当移除关系任务门时,关系抽取F1指标下降了4.73%,这表明任务门生成的任务特异性特征可以有效提高对应子任务的效果。当移除实体交互门时,实体信息对关系分类子任务的指导作用被切断,表4结果表明此时关系抽取F1指标下降了2.38%,说明实体信息可以有效地指导关系分类子任务。当移除关系交互门时,关系信息对实体识别子任务的指导作用被切断,表4结果表明此时实体识别F1指标下降了4.39%,说明关系信息可以有效地指导实体识别子任务。
表4消融实验结果
为验证实体识别和关系分类这两个子任务之间双向互动的有效性,设计一组对比实验移除所有的交互门,这时候两个子任务之间的交互被全部切断,表4结果表明此时相比于完整的MGE模型实体识别F1指标下降了5.34%,关系抽取F1指标下降了4.34%,说明这两个子任务之间是相辅相成的,加强子任务之间的互动可以有效提高整体任务的效果。此外,相比于只移除实体交互门或者只移除关系交互门,移除全部交互门的实验指标也有所下降,说明子任务之间的双向交互优于单方向的交互。
实施例2
本实施例的技术方案为一种航天文本数据的中文实体和关系联合抽取系统,所述系统包括多门控编码模块和解码模块:所述多门控编码模块包括:候选特征生成单元、任务门单元、交互门单元、交互特征生成单元;所述解码模块包括:实体识别解码单元和关系分类解码单元;
候选特征生成单元,基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>
所述任务门单元,基于所述和所述/>和与其对应的任务门,计算得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;
所述交互门单元,基于所述和所述/>和分别与所述/>和所述/>对应的交互门,计算得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter;
所述交互特征生成单元,将两个子任务的交互特征进行交换,实现一个子任务的特异性特征与另一个子任务的交互特征的拼接,得到解码需要的输入特征;
所述实体识别解码单元,基于实体识别的二维表和NER子任务解码输入特征向量,计算该二维表中的任意一个表格的实体元素,所述实体元素表示该表格对应的序列片段的实体类型为k的概率;
所述关系分类解码单元,基于关系分类的二维表和RC子任务解码输入特征向量,计算该二维表中的任意一个表格的关系元素,所述关系元素表示该表格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两个关系类型为l的概率;
解码输出单元,基于实体类型的概率和关系类型的概率,解码得到所述输入序列中存在的所有关系三元组集合。
实施例3
本实施例的技术方案为一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行航天文本数据的中文实体和关系联合抽取方法。
实施例4
本实施例的技术方案为一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述航天文本数据的中文实体和关系联合抽取方法。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本申请一种中文实体和关系联合抽取方法的技术方案是基于多门控编码器的实体关系联合抽取算法,兼顾了实体识别和关系分类子任务之间的有效交互、子任务之间的特异性建模、模型推理速度,在中国载人航天工程空间科学与应用领域数据集SSUIE上比基线系统的F1指标提高了4.44%,模型推理速度相比基线系统提高了28%,实现了准确、快速的实体关系抽取。并且本申请的技术方案已集成至载人航天工程空间科学与应用知识图谱原型系统中,有力支撑该领域的知识信息抽取和知识图谱构建和应用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (10)
1.一种航天文本数据的中文实体和关系联合抽取方法,其特征在于,包括:
S1:基于多门控编码模块获得子任务解码输入特征向量
S101,基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>
S102,所述和所述/>分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;所述/>和所述/>分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter;
S103,采用公式(1)进行特征交互,得到NER子任务解码输入特征向量Hner和RC子任务解码输入特征向量Hrc;
式(1)中,表示拼接操作,/>N表示所述输入序列的长度;h表示多门控编码模块的隐含层维度;/>表示矩阵维度;
S2:基于二维表解码
基于实体识别的二维表和所述特征向量Hner,计算基于实体识别的二维表中的任意一个单元格的实体元素,所述实体元素表示基于实体识别的二维表中单元格对应的序列片段的实体类型为k的概率;
基于关系分类的二维表和所述特征向量Hrc,计算基于关系分类的二维表中的任意一个单元格的关系元素,所述关系元素表示基于关系分类的二维表中单元格对应的关系三元组中的头实体起始位置、尾实体起始位置和它们之间的关系类型为l的概率;
基于实体类型为k的概率和关系类型为l的概率,解码得到所述输入序列中存在的所有关系三元组集合为公式(2):
公式(2)中,通过基于实体识别的二维表预测的头实体序列片段对应的实体类型;为通过基于实体识别的二维表预测的尾实体序列片段对应的实体类型;/>为基于关系分类的二维表预测的头、尾实体起始位置对应的关系类型,E表示预先定义的实体类型的集合,R表示预先定义的关系类型的集合。
2.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,S101中基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>具体为:
所述输入序列的上下文信息输入到BERT编码器,利用公式(3)得到NER子任务的实体候选特征利用公式(4)得到RC子任务的关系候选特征/>
其中为BERT编码器输出的特征矩阵,N表示所述输入序列的长度,d为BERT编码器隐含层维度,/>和/>为生成候选特征时线性层可学习的参数;/>和为生成候选特征时线性层可学习的偏置,h为多门控编码模块的隐含层维度;tanh()代表双曲正切激活函数。
3.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,S102中所述和所述/>分别通过对应的任务门,得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task,具体为:
所述通过实体任务门得到NER子任务的特异性特征He_task,计算公式为公式(5):
Ge_task表示实体任务门,其计算公式为Ge_task=σ(HbWe_task+be_task);
所述通过关系任务门,得到RC子任务的特异性特征Hr_task,计算公式为公式(6):
Gr_task表示关系任务门,其计算公式为Gr_task=σ(HbWr_task+br_task);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
和/>表示生成特异性特征时线性层可学习的参数;d为BERT编码器隐含层维度;
和/>表示生成特异性特征时线性层可学习的偏置;
○为哈达玛积。
4.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,S102中所述和所述/>分别通过对应的交互门,得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter,具体为:
所述通过实体交互门,得到NER子任务的实体交互特征He_inter,计算公式为公式(7):
Ge_inter表示实体交互门,其计算公式为Ge_inter=σ(HbWe_inter+be_inter);
所述通过关系交互门,得到RC子任务的关系交互特征Hr_inter,计算公式为公式(8):
Gr_inter表示关系交互门,其计算公式为Gr_inter=σ(HbWr_inter+br_inter);
其中,Hb为BERT编码器输出的特征矩阵;
σ()表示sigmoid激活函数;
和/>表示生成交互特征时线性层可学习的参数;d为BERT编码器隐含层维度;
和/>表示生成交互特征时线性层可学习的偏置;
○为哈达玛积。
5.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,所述基于实体识别的二维表,计算基于实体识别的二维表中的任意一个单元格的实体元素,所述实体元素表示基于实体识别的二维表中单元格对应的序列片段的实体类型为k的概率,具体为:
建立N×N的二维表;设定所述二维表中第i行第j列的元素代表以第i个词开头第j个词结尾的序列片段sij和该序列片段sij的实体类型为k的概率;
利用公式(9)计算所述序列片段sij在所述二维表中的特征
公式(9)式中:为/>中第i个词的特征向量;/>为中第j个词的特征向量;/>和/>为实体识别解码计算特征时可学习的参数和偏置;
基于所述特征利用公式(10)计算所述序列片段sij属于实体类型k的概率;
公式(10)中,p(eij=k)表示基于实体识别的二维表中第i个词到第j个词的序列片段对应实体类型为k的概率;eij表示第i个词到第j个词的序列片段对应实体类型;σ()表示sigmoid激活函数;
和/>为实体识别解码计算概率时可学习的参数和偏置;|E|表示实体类型数量。
6.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,基于关系分类的二维表,计算基于关系分类的二维表中的任意一个单元格的关系元素,所述关系元素表示基于关系分类的二维表中单元格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两者的关系类型为l的概率,具体为:
建立N×N的二维表;设定所述二维表中第i行第j列的元素代表三元组中的头实体起始位置是第i个词,尾实体起始位置是第j个词,并且头、尾实体起始位置的关系类型为l的概率;
利用公式(11)计算任意一个单元格的特征
公式(11)式中,为/>中第i个词的特征向量;
为/>中第j个词的特征向量;
和/>为关系分类解码计算特征时可学习的参数和偏置;
基于所述特征利用公式(12)计算基于关系分类的二维表中第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;
公式(12)中,p(rij=l)表示基于关系分类的二维表中第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率;rij表示第i个词和第j个词分别代表的头尾实体之间存在的关系类型;σ()表示sigmoid激活函数;和/>为关系分类解码计算特征时可学习的参数和偏置,其中|R|表示关系类型数量。
7.根据权利要求1所述航天文本数据的中文实体和关系联合抽取方法,其特征在于,在所述基于二维表解码过程中还包括设置以最小化损失和L为训练目标的训练;
L=Lner+Lrc (13)
其中,所述基于实体识别的二维表的解码过程中的损失函数为Lner,其计算公式为公式(14);所述基于关系分类的二维表的解码过程中的损失函数为Lrc,其计算公式为公式(15);
其中,表示基于实体识别的二维表中第i个词到第j个词的序列片段对应的真实实体标注类型;/>表示基于关系分类的二维表中以第i个词为头实体起始位置、第j个词为尾实体起始位置的头尾实体之间的真实关系标注类型;p(eij=k)表示基于实体识别的二维表中第i个词到第j个词的序列片段对应实体类型为k的概率;p(rij=l)表示基于关系分类的二维表中第i个词和第j个词分别为头、尾实体的起始位置并且它们之间的关系类型为l的概率。
8.一种实现如权利要求1至7任意一项所述航天文本数据的中文实体和关系联合抽取方法的系统,其特征在于,所述系统包括多门控编码模块和解码模块:所述多门控编码模块包括:候选特征生成单元、任务门单元、交互门单元、交互特征生成单元;所述解码模块包括:实体识别解码单元和关系分类解码单元;
候选特征生成单元,基于输入序列的上下文信息,生成NER子任务的实体候选特征和RC子任务的关系候选特征/>
所述任务门单元,基于所述和所述/>和与其对应的任务门,计算得到NER子任务的特异性特征He_task和RC子任务的特异性特征Hr_task;
所述交互门单元,基于所述和所述/>和分别与所述/>和所述/>对应的交互门,计算得到NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter;
所述交互特征生成单元,将所述交互门单元计算得到的NER子任务的实体交互特征He_inter和RC子任务的关系交互特征Hr_inter进行交换,实现NER子任务的特异性特征与RC子任务的交互特征拼接,以及RC子任务的特异性特征与NER子任务的交互特征的拼接,得到解码需要的输入特征;
所述实体识别解码单元,基于实体识别的二维表和NER子任务解码输入特征向量,计算基于实体识别的二维表中的任意一个单元格的实体元素,所述实体元素表示该单元格对应的序列片段的实体类型为k的概率;
所述关系分类解码单元,基于关系分类的二维表和RC子任务解码输入特征向量,计算基于关系分类的二维表中的任意一个单元格的关系元素,所述关系元素表示该单元格对应的实体关系三元组中的头实体起始位置、尾实体起始位置和两者的关系类型为l的概率;
解码输出单元,基于实体类型为k的概率和关系类型为l的概率,解码得到所述输入序列中存在的所有关系三元组集合。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-7中任一所述航天文本数据的中文实体和关系联合抽取方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述航天文本数据的中文实体和关系联合抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419102.8A CN115759098B (zh) | 2022-11-14 | 2022-11-14 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419102.8A CN115759098B (zh) | 2022-11-14 | 2022-11-14 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115759098A CN115759098A (zh) | 2023-03-07 |
CN115759098B true CN115759098B (zh) | 2023-07-18 |
Family
ID=85370126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211419102.8A Active CN115759098B (zh) | 2022-11-14 | 2022-11-14 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759098B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108206B (zh) * | 2023-04-13 | 2023-06-27 | 中南大学 | 一种金融数据实体关系的联合抽取方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN114841151A (zh) * | 2022-07-04 | 2022-08-02 | 武汉纺织大学 | 基于分解-重组策略的医学文本实体关系联合抽取方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN111291185B (zh) * | 2020-01-21 | 2023-09-22 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111444305B (zh) * | 2020-03-19 | 2022-10-14 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
CN113487024A (zh) * | 2021-06-29 | 2021-10-08 | 任立椋 | 交替序列生成模型训练方法、从文本中抽取图的方法 |
CN114036934A (zh) * | 2021-10-15 | 2022-02-11 | 浙江工业大学 | 一种中文医学实体关系联合抽取方法和系统 |
CN114417839A (zh) * | 2022-01-19 | 2022-04-29 | 北京工业大学 | 基于全局指针网络的实体关系联合抽取方法 |
-
2022
- 2022-11-14 CN CN202211419102.8A patent/CN115759098B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN114841151A (zh) * | 2022-07-04 | 2022-08-02 | 武汉纺织大学 | 基于分解-重组策略的医学文本实体关系联合抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115759098A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saharia et al. | Non-autoregressive machine translation with latent alignments | |
Bao et al. | Unilmv2: Pseudo-masked language models for unified language model pre-training | |
Xia et al. | Model-level dual learning | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN110188348B (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
Almansor et al. | A hybrid neural machine translation technique for translating low resource languages | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN115759098B (zh) | 一种航天文本数据的中文实体和关系联合抽取方法、系统 | |
CN115713079A (zh) | 用于自然语言处理、训练自然语言处理模型的方法及设备 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
Goyal et al. | LTRC-MT simple & effective Hindi-English neural machine translation systems at WAT 2019 | |
Pal et al. | R-GRU: Regularized gated recurrent unit for handwritten mathematical expression recognition | |
Zhang et al. | Joint model of entity recognition and relation extraction based on artificial neural network | |
Tang et al. | Offline handwritten mathematical expression recognition with graph encoder and transformer decoder | |
Vashistha et al. | Active learning for neural machine translation | |
CN115860002B (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
Zhang et al. | Semantics-aware inferential network for natural language understanding | |
CN115169285A (zh) | 一种基于图解析的事件抽取方法及系统 | |
CN114881038A (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
Lin et al. | Spatial attention and syntax rule enhanced tree decoder for offline handwritten mathematical expression recognition | |
dos Santos et al. | Training state-of-the-art Portuguese POS taggers without handcrafted features | |
Xu | Multi-region English translation synchronization mechanism driven by big data | |
CN113297860A (zh) | 机器翻译模型的优化方法、系统、电子设备和存储介质 | |
CN113849592B (zh) | 文本情感分类方法及装置、电子设备、存储介质 | |
Li et al. | Transformer fast gradient method with relative positional embedding: a mutual translation model between English and Chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |