CN115114934A - 一种标签融合的联合抽取方法 - Google Patents

一种标签融合的联合抽取方法 Download PDF

Info

Publication number
CN115114934A
CN115114934A CN202210835252.0A CN202210835252A CN115114934A CN 115114934 A CN115114934 A CN 115114934A CN 202210835252 A CN202210835252 A CN 202210835252A CN 115114934 A CN115114934 A CN 115114934A
Authority
CN
China
Prior art keywords
label
entity
follows
stage
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210835252.0A
Other languages
English (en)
Inventor
程良伦
陈文燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Nengge Knowledge Technology Co ltd
Guangdong University of Technology
Original Assignee
Guangdong Nengge Knowledge Technology Co ltd
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Nengge Knowledge Technology Co ltd, Guangdong University of Technology filed Critical Guangdong Nengge Knowledge Technology Co ltd
Priority to CN202210835252.0A priority Critical patent/CN115114934A/zh
Publication of CN115114934A publication Critical patent/CN115114934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种标签融合的联合抽取方法,包括:上下文特征提取;捕获字符特征;字符特征用CRF捕获预测的第一实体标签;组成BLA单元对识别的实体标签进行建模提取标签特征;将上下文特征与标签特征进行拼接来预测一阶段实体关系;构造图卷积的邻接矩阵,结合上下文特征得到图卷积特征;将图卷积特征与上下文特征相加得到标签特征,共同输入到BLA单元中进行建模作为综合词特征;综合词特征与标签特征进行拼接输入到BLA单元得到动态标签特征;用CRF预测二阶段实体标签;将第一和第二阶段实体标签进行融合;将融合标签输入到BLA单元中得到动态标签特征,结合动态标签特征得出关系预测。本发明实体关系抽取的表现更佳、精准性更高。

Description

一种标签融合的联合抽取方法
技术领域
本发明涉及实体关系抽取技术领域,特别涉及一种结合双阶段图卷积算法与跨模态标签融合单元的联合抽取方法。
背景技术
伴随着企业的蓬勃发展,相关企业供应链的管理需求也出现了爆发式的增长。因此如何保证供应链管理质量是急需解决的重要环节。供应链管理难的原因在于:一是供应链难以对市场企业的供应变化迅速做出相应对策;二是供应链的大量知识都以非结构化形式存在,然而用人工的方式无法对其中的大量有用知识进行充分利用。因此,依赖人工智能的方法建立供应链知识图谱是十分有必要的,不仅为管理人员提出相应的优化方案,加速供应链响应速度的同时还能充分挖掘潜在的供应链知识,针对性解决供应链中存在的问题。供应链知识图谱构建的核心任务就是如何在大量的供应链语料中抽取出高质量的信息知识,提高知供应链知识图谱的精准性。
目前传统的提取实体间语义关系的任务被分解为两个独立的子任务,即命名实体识别(NER)和关系抽取(RE)。这种做法的弊端是级联错误,即上一阶段子任务识别的误差会传播到下一个子任务中,后续子任务的抽取结果不能影响上一阶段任务。
近年来新提出的联合抽取模型对传统模型方法进行了优化和改进,通过对实体抽取和关系分类联合建模共享参数,能够利用实体和关系之间的交互信息,同时抽取实体并分类实体对的关系,可以很好地解决流水线方法所存在的问题。因此,如何更好地建立关系语义,充分利用实体信息和上下文信息来建模使得关系抽取的表现更佳目前的一个研究热点。
现有技术一
《Joint entity recognition and relation extraction as a multi-headselection problem》[1]一文使用CRF层(条件随机域)将实体识别任务和关系抽取任务建模为一个多头选择问题。模型的输入为一句话单词的向量表示,BiLSTM层能够基于RNN利用上下文信息为每一个单词提取出一个更复杂的向量表示。然后CRF层和Sigmoid层能够产生出两种任务的输出,一个是实体识别标签,另一个是包含三元组的头实体标记和两个实体之间的关系集合。
该模型在进行关系分类时,只是简单地将两个单词的隐藏层表示相加得到表示这两个单词的关系向量,这种方法所捕捉到的共享表征十分有限,并不能很好地表示两个单词的关系。
现有技术二
基于关系图的实体关系联合抽取模型[2]包含两阶段预测。在第一阶段通过Bi-RNN和GCN抽取顺序和区域依赖特征,预测实体和每个单词对之间的关系。在第二阶段,基于第一阶段的预测,为了考虑到实体和关系之间的交互信息以及所有单词对的隐式特征,对每种关系构建完整的关系图,使用Bi-GCN融合每种关系的信息,考虑到了实体和关系之间的交互信息。
现有技术二的双阶段图卷积模型能够很好的考虑了实体和关系之间的交互信息,但是该技术方法在实体识别和关系抽取的任务结果是分开输出的,可能存在关系预测正确而实体预测错误的情况。
参考文献
[1]Bekoulis G,Deleu J,Demeester T,et al.Joint entity recognition andrelation extraction as a multi-head selection problem[J].Expert Systems withApplications,2018,114:34-45;
[2]Fu T J,Li P H,Ma W Y.Graphrel:Modeling text as relational graphsfor joint entity and relation extraction[C].Proceedings of the 57th AnnualMeeting of the Association for Computational Linguistics.2019:1409-1418。
发明内容
本发明针对现有技术的缺陷,提供了一种标签融合的联合抽取方法。
为了实现以上发明目的,本发明采取的技术方案如下:
一种标签融合的联合抽取方法,包括两个阶段;
S1:将字符特征输入到堆叠双向BiLSTM进行上下文特征提取;
S2:结合句子特征利用多头注意力机制来捕获字符特征;
S3:基于提取的字符特征,用CRF捕获预测第一阶段的实体标签;
S4:由BiLSTM和Self-Attention组成BLA单元,对识别的实体标签进行建模融合标签特征;
S5:将S1中堆叠的BiLSTM的上下文特征与BLA单元输出的标签特征进行拼接来预测第一阶段的实体关系。
S6用S5的实体关系结果构造图卷积的邻接特征矩阵,结合上下文特征得到图卷积特征;
S7将图卷积特征与堆叠的BiLSTM的上下文特征相加得到标签特征,并将第一阶段的实体标签共同输入到BLA单元中进行建模作为综合词特征;
S8将综合词特征与标签特征进行拼接后输入到BLA单元得到动态标签特征;
S9基于动态标签特征,用CRF预测第二阶段的实体标签;
S10通过标签门控将第一阶段的实体标签与第二阶段的实体标签进行融合,得到融合标签嵌入;
S11将融合标签嵌入与S8的动态标签特征输入到BLA单元中建模动态标签特征,得出第二阶段的关系预测。
进一步地,S1具体步骤为:
S101:对含有同一实体对<e1,e2>的句子集合T1={s1,s2,…,sn},将集合中的每一条句子的单词映射到低维空间,得到句子的每个单词的词向量表示;
S102:将句子向量Xt={x1,x2,…,xt}作为BiLSTM神经网络的输入,经过堆叠双向BiLSTM进行上下文信息特征提取,并将BiLSTM的输出作为注意力机制网络的输入;公式如下:
Figure BDA0003747656820000041
Figure BDA0003747656820000042
S103:在每个时间步中,将LSTM的前向和后向输出连接起来,得到最终的LSTM输出深度上下文特征ht;
Figure BDA0003747656820000043
进一步地,S2具体步骤为;
S201:首先通过使用不同的线性投影将输入向量h的矩阵映射到查询、键和值矩阵,多头注意力计算公式如下:
Figure BDA0003747656820000044
headi=Attention(QWi Q,KWi K,VWi V)。
S202:采用z个平行头在通道的不同部位进行注意操作,并进行拼接,输出字符特征,公式如下:
M=Concat(head1,...,headz)WQ
进一步地,S3具体步骤为:
S301:S301:在实体标签标记中,使用CRF对全局最优标记进行划分;给定字符特征M所有可能的序列Y的评分由以下公式计算得出:
Figure BDA0003747656820000051
S302:用Softmax函数归一化得到Y序列标签的最大概率,以一系列预测标记L=[l1,...,ln]作为输出,公式如下:
Figure BDA0003747656820000052
S303:在训练CRF时,使用最大似然估计作为损失函数来最大化P(Y|M),公式如下:
log(P(Y|M)=P(M,Y)-log(∑Y′∈f(M)eS(M,Y′))
S304:利用Viterbi算法求得所有序列上预测总得分的最高标签,作为序列的实体识别结果,公式如下:
loss1st-ner=agrmaxY′∈f(M)log(P(Y′|M))
进一步地,S4具体步骤为:
S401:由一层BiLSTM和一层Self-Attention组成的BLA单元,建模从字符空间到标签空间的多模态交互。它接受两组特征
Figure BDA0003747656820000053
Figure BDA0003747656820000054
作为输入。首先BiLSTM用于对第一阶段输出实体标签特征进行编码:
L=BiLSTM(L)
S402:接着在Self-Attention中将字符特征X设置为Q,并将标签特征L作为K和V,以此将每个字符特征与标签特征融合,因此BLA单元的计算归纳如下:
Figure BDA0003747656820000061
进一步地,S5具体步骤为:
S501:将S1中堆叠的BiLSTM的上下文特征与BLA单元输出的标签特征
Figure BDA0003747656820000062
进行拼接,公式如下:
Figure BDA0003747656820000063
S502:将X′=[x′1,...,x′n]作为输入,C作为关系标签集合,则预测每个三元组(wi,wj,ck)的得分,在给定的关系ck中计算每对标签的分数,公式如下:
S(x′i,x′j,ck)=Vktanh(Ukx′i+Wkx′j+bk)
S503:计算选择实体wi作为具有关系ck的实体wj的概率为:
Pr(token=wi,relation=ck|wj)=σ(s(x′i,x′j,ck))
S504:根据预测关系得到第一阶段预测的函数损失值loss1st-rel
进一步地,S6具体步骤为:
S601:将第一阶段的关系预测结果作为邻接矩阵来计算图的卷积特征,公式如下:
Figure BDA0003747656820000064
Figure BDA0003747656820000065
S602:将前向GCN的输出
Figure BDA0003747656820000066
与反向GCN的输出
Figure BDA0003747656820000067
进行拼接,得到GCN图卷积特征的结果
Figure BDA0003747656820000068
具体公式如下:
Figure BDA0003747656820000069
进一步地,S7具体步骤为:
S701:将图卷积特征
Figure BDA0003747656820000071
与第一阶段堆叠的BiLSTM的上下文特征ht求和得到标签特征H,公式如下:
Figure BDA0003747656820000072
S702:再将标签特征H与第一阶段预测的标签共同输入到BLA中,建模的综合词特征
Figure BDA0003747656820000073
公式如下:
Figure BDA0003747656820000074
进一步地,S8具体步骤为:
S801:将综合词特征与标签特征H进行拼接,得到新的标签特征H,公式如下:
Figure BDA0003747656820000075
S802:将标签特征H与标签特征H共同输入到BLA单元中,输出动态标签特征
Figure BDA0003747656820000076
公式如下:
Figure BDA0003747656820000077
进一步地,S9具体步骤如下:
采用另一个CRF来提取最终的实体。以动态标签特征
Figure BDA0003747656820000078
作为输入,以一系列预测标记
Figure BDA0003747656820000079
作为输出,,则计算标记序列的概率,公式如下:
Figure BDA00037476568200000710
根据预测实体得到第二阶段预测的函数损失值loss2nd-ner
S10具体步骤如下:
用激活函数算出第一阶段标签特征的权重k以及对应的第二阶段的特征权重k’,再分别对应的标签嵌入相乘相加得到融合实体标签L',公式如下:
k=σ(WlL+bt)
k’=1-k
L′=kL+k′L。
进一步地,S11具体步骤如下:
S111:将融合标签特征L'与动态标签特征
Figure BDA0003747656820000085
输入到BLA单元中得到动态标签特征,公式如下:
Figure BDA0003747656820000081
S112:将动态标签特征
Figure BDA0003747656820000082
作为输入,C作为关系标签集合,则预测每个三元组(wi,wj,ck)的得分,在给定的关系ck中计算每对实体的分数,公式如下:
Figure BDA0003747656820000083
S113:计算选择实体wi作为具有关系ck的实体的概率为:
Figure BDA0003747656820000084
S114:根据预测关系得到第二阶段预测的函数损失值loss2nd-rel
整个模型训练的目标函数为
J(θ)=loss1st-ner+loss1st-rel+loss2nd-ner+loss2nd-rel
与现有技术相比,本发明的优点在于:
(1)本发明通过结合双阶段图卷积算法与跨模态标签融合单元的联合抽取模型提升供应链知识数据的关系抽取效果;
(2)本发明方法通过跨模态标签融合单元学习供应链管理知识上下文相关特征,对多维度相关的信息的捕捉,使得模型更加关注对实体关系有价值的特征,进一步提高模型的关系识别能力与泛化能力;
(3)从非结构文本中抽取出构建供应链管理知识图谱所需的关键元素,包括实体和实体关系,为自动获取供应链管理知识获取提供便利。通过模型的优化,将其事实性的知识文本内容转化为相互连接的供应链管理知识图谱结构,提高搭建知识图谱的效率和供应链管理的知识图谱精准性。
附图说明
图1是本发明实施例联合抽取模型方法流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
本实施例包含两个阶段,第一阶段为字符级单维度的实体关系预测,第二阶段通过BiLSTM和Self-Attention组成BLA单元将融合字符级与标签级的特征结合图卷积算法进行第二阶段关系预测,如图1所示。
第一阶段主要步骤如下:
(1)将字符特征输入到堆叠双向BiLSTM进行上下文特征提取,具体步骤为:
a.对含有同一实体对<e1,e2>的句子集合T1={s1,s2,…,sn},将集合中的每一条句子的单词映射到低维空间,得到句子的每个单词的词向量表示;
b.将句子向量Xt={x1,x2,…,xt}将作为BiLSTM神经网络的输入,经过堆叠双向BiLSTM进行上下文信息特征提取,并将BiLSTM的输出作为注意力机制网络的输入,公式如下:
Figure BDA0003747656820000091
Figure BDA0003747656820000092
c.在每个时间步中,将LSTM的前向和后向输出连接起来,得到最终的LSTM输出深度上下文特征ht:
Figure BDA0003747656820000101
(2)结合句子特征利用多头注意力机制来捕获字符特征,具体步骤为;
a.首先通过使用不同的线性投影将输入向量h的矩阵映射到查询、键和值矩阵,多头注意力计算公式如下:
Figure BDA0003747656820000102
headi=Attention(QWi Q,KWi K,VWi V)
b.采用z个平行头在通道的不同部位进行注意操作,并进行拼接,输出字符特征,公式如下:
M=Concat(head1,...,headz)WQ
(3)基于提取的字符特征,用CRF捕获预测第一阶段的实体,具体步骤为:
a.在实体标签标记中,使用CRF对全局最优标记进行划分。给定字符特征M所有可能的序列Y的评分由以下公式计算得出:
Figure BDA0003747656820000103
b.用Softmax函数归一化得到Y序列标签的最大概率,以一系列预测标记L=[l1,...,ln]作为输出,公式如下:
Figure BDA0003747656820000104
c.在训练CRF时,使用最大似然估计作为损失函数来最大化P(Y|M),公式如下:
log(P(Y|M)=P(M,Y)-log(∑Y′∈f(M)eS(M,Y′))
d.利用Viterbi算法求得所有序列上预测总得分的最高标签,作为序列的实体识别结果,公式如下:
loss1st-ner=agrmaxY′∈f(M)log(P(Y′|M))
(4)由BiLSTM和Self-Attention组成BLA单元,对第一阶段识别的标签进行建模提取特征,其具体步骤为:
a.由一层BiLSTM和一层Self-Attention组成的BLA单元,建模从字符空间到标签空间的多模态交互。它接受两组特征
Figure BDA0003747656820000111
Figure BDA0003747656820000112
作为输入。首先BiLSTM用于对第一阶段输出实体标签特征进行编码:
L=BiLSTM(L)
b.接着在Self-Attention中将字符特征X设置为Q,并将标签特征L作为K和V,以此将每个字符特征与标签特征融合,因此BLA单元的计算归纳如下:
Figure BDA0003747656820000113
(5)将步骤1中堆叠的BiLSTM的上下文特征与BLA单元输出的标签特征进行拼接来预测第一阶段的实体关系,其具体步骤为:
a.将步骤1中堆叠的BiLSTM的上下文特征与BLA单元输出的标签特征
Figure BDA0003747656820000114
进行拼接,公式如下:
Figure BDA0003747656820000115
b.将X′=[x′1,...,x′n]作为输入,C作为关系标签集合,则预测每个三元组(wi,wj,ck)的得分,在给定的关系ck中计算每对标签的分数,公式如下:
S(x′i,x′j,ck)=Vktanh(Ukx′i+Wkx′j+bk)
c.接着,计算选择实体wi作为具有关系ck的实体wj的概率为:
Pr(token=wi,relation=ck|wj)=σ(s(x′i,x′j,ck))
根据预测关系得到第一阶段预测的函数损失值loss1st-rel
第二阶段主要步骤如下:
(1)用实体关系结果构造图卷积的邻接特征矩阵,结合上下文特征得到新的图卷积特征,其具体步骤为:
a.将第一阶段的关系预测结果作为邻接矩阵来计算图的卷积特征,公式如下:
Figure BDA0003747656820000121
Figure BDA0003747656820000122
b.将前向GCN的输出
Figure BDA0003747656820000123
与反向GCN的输出
Figure BDA0003747656820000124
进行拼接,得到GCN图卷积特征的结果
Figure BDA0003747656820000125
具体公式如下:
Figure BDA0003747656820000126
(2)将图卷积特征与堆叠的BiLSTM的上下文特征相加求和,并将第一阶段的标签共同输入到BLA单元中进行建模作为综合词特征,其具体步骤为:
a.将图卷积特征
Figure BDA0003747656820000127
与步骤1堆叠的BiLSTM的上下文特征ht求和得到标签特征H,公式如下:
Figure BDA0003747656820000128
b.再将标签特征H与第一阶段预测的标签共同输入到BLA中,建模的综合词特征
Figure BDA0003747656820000129
公式如下:
Figure BDA00037476568200001210
(3)将综合词特征与图卷积特征进行拼接后与图卷积特征共同输入到BLA单元得到动态标签特征:
a.将综合词特征与标签特征H进行拼接,得到新的标签特征H,公式如下:
Figure BDA0003747656820000131
b.将标签特征H与标签特征H共同输入到BLA单元中,输出动态标签特征
Figure BDA0003747656820000132
公式如下:
Figure BDA0003747656820000133
(4)基于动态标签特征,用CRF预测第二阶段的实体标签,具体步骤如下:
a.采用另一个CRF来提取最终的实体。以动态标签特征
Figure BDA0003747656820000134
作为输入,以一系列预测标记
Figure BDA0003747656820000135
作为输出,,则计算标记序列的概率,公式如下:
Figure BDA0003747656820000136
根据预测实体得到第二阶段预测的函数损失值loss2nd-ner
(5)通过标签门控将第一阶段的实体标签与第二阶段的实体标签进行融合,得到新的实体标签嵌入,具体步骤如下:
a.用激活函数算出第一阶段标签特征的权重k以及对应的第二阶段的特征权重k’,再分别对应的标签嵌入相乘相加得到融合实体标签L',公式如下:
k=σ(WlL+bt)
k’=1-k
L′=kL+k′L
(6)将融合标签嵌入输入到BLA单元中建模动态标签特征,再结合步骤8的动态标签特征得出第二阶段的关系预测,具体步骤如下:
a.将融合标签特征L'与动态标签特征
Figure BDA0003747656820000137
输入到BLA单元中得到动态标签特征,公式如下:
Figure BDA0003747656820000141
b.将动态标签特征
Figure BDA0003747656820000142
作为输入,C作为关系标签集合,则预测每个三元组(wi,wj,ck)的得分,在给定的关系ck中计算每对实体的分数,公式如下:
Figure BDA0003747656820000143
c.接着,计算选择实体wi作为具有关系ck的实体wj的概率为:
Figure BDA0003747656820000144
根据预测关系得到第二阶段预测的函数损失值loss2nd-rel
整个模型训练的目标函数为
J(θ)=loss1st-ner+loss1st-rel+loss2nd-ner+loss2nd-rel
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种标签融合的联合抽取方法,其特征在于,包括以下步骤;
S1:将字符特征输入到堆叠双向BiLSTM进行上下文特征提取;
S2:结合句子特征利用多头注意力机制来捕获字符特征;
S3:基于提取的字符特征,用CRF捕获预测第一阶段的实体标签;
S4:由BiLSTM和Self-Attention组成BLA单元,对识别的实体标签进行建模融合标签特征;
S5:将S1中堆叠的BiLSTM的上下文特征与BLA单元输出的标签特征进行拼接来预测第一阶段的实体关系;
S6用S5的实体关系结果构造图卷积的邻接特征矩阵,结合上下文特征得到图卷积特征;
S7将图卷积特征与堆叠的BiLSTM的上下文特征相加得到标签特征,并将第一阶段的实体标签共同输入到BLA单元中进行建模作为综合词特征;
S8将综合词特征与标签特征进行拼接后输入到BLA单元得到动态标签特征;
S9基于动态标签特征,用CRF预测第二阶段的实体标签;
S10通过标签门控将第一阶段的实体标签与第二阶段的实体标签进行融合,得到融合标签嵌入;
S11将融合标签嵌入与S8的动态标签特征输入到BLA单元中建模动态标签特征,得出第二阶段的关系预测。
2.根据权利要求1所述的一种标签融合的联合抽取方法,其特征在于:S1具体步骤为:
S101:对含有同一实体对<e1,e2>的句子集合T1={s1,s2,…,sn},将集合中的每一条句子的单词映射到低维空间,得到句子的每个单词的词向量表示;
S102:将句子向量Xt={x1,x2,…,xt}作为BiLSTM神经网络的输入,经过堆叠双向BiLSTM进行上下文信息特征提取,并将BiLSTM的输出作为注意力机制网络的输入;公式如下:
Figure FDA0003747656810000021
Figure FDA0003747656810000022
S103:在每个时间步中,将LSTM的前向和后向输出连接起来,得到最终的LSTM输出深度上下文特征ht;
Figure FDA0003747656810000023
3.根据权利要求2所述的一种标签融合的联合抽取方法,其特征在于:S2具体步骤为;
S201:首先通过使用不同的线性投影将输入向量h的矩阵映射到查询、键和值矩阵,多头注意力计算公式如下:
Figure FDA0003747656810000024
headi=Attention(QWi Q,KWi K,VWi V);
S202:采用z个平行头在通道的不同部位进行注意操作,并进行拼接,输出字符特征,公式如下:
M=Concat(head1,...,headz)WQ
4.根据权利要求3所述的一种标签融合的联合抽取方法,其特征在于:S3具体步骤为:
S301:在实体标签标记中,使用CRF对全局最优标记进行划分;给定字符特征M所有可能的序列Y的评分由以下公式计算得出:
Figure FDA0003747656810000031
S302:用Softmax函数归一化得到Y序列标签的最大概率,以一系列预测标记L=[l1,...,ln]作为输出,公式如下:
Figure FDA0003747656810000032
S303:在训练CRF时,使用最大似然估计作为损失函数来最大化P(Y|M),公式如下:
Figure FDA0003747656810000033
S304:利用Viterbi算法求得所有序列上预测总得分的最高标签,作为序列的实体识别结果,公式如下:
loss1st-ner=agrmaxY′∈f(M)log(P(Y′|M))。
5.根据权利要求4所述的一种标签融合的联合抽取方法,其特征在于:S4具体步骤为:
S401:由一层BiLSTM和一层Self-Attention组成的BLA单元,建模从字符空间到标签空间的多模态交互;它接受两组特征
Figure FDA0003747656810000034
Figure FDA0003747656810000035
作为输入;首先BiLSTM用于对第一阶段输出实体标签特征进行编码:
L=BiLSTM(L)
S402:接着在Self-Attention中将字符特征X设置为Q,并将标签特征L作为K和V,以此将每个字符特征与标签特征融合,因此BLA单元的计算归纳如下:
X~1=BLA(X,L)。
6.根据权利要求5所述的一种标签融合的联合抽取方法,其特征在于:S5具体步骤为:
S501:将S1中堆叠的BiLSTM的上下文特征与BLA单元输出的标签特征X~1进行拼接,公式如下:
X′=Concat[ht:X~1]
S502:将X′=[x′1,...,x′n]作为输入,C作为关系标签集合,则预测每个三元组(wi,wj,ck)的得分,在给定的关系ck中计算每对标签的分数,公式如下:
S(x′i,x′j,ck)=Vktanh(Ukx′i+Wkx′j+bk)
S503:计算选择实体wi作为具有关系ck的实体wj的概率为:
Pr(token=wi,relation=ck|wj)=σ(s(x′i,x′j,ck))
S504:根据预测关系得到第一阶段预测的函数损失值loss1st-rel
7.根据权利要求6所述的一种标签融合的联合抽取方法,其特征在于:S6具体步骤为:
S601:将第一阶段的关系预测结果作为邻接矩阵来计算图的卷积特征,公式如下:
Figure FDA0003747656810000041
Figure FDA0003747656810000042
S602:将前向GCN的输出
Figure FDA0003747656810000043
与反向GCN的输出
Figure FDA0003747656810000044
进行拼接,得到GCN图卷积特征的结果
Figure FDA0003747656810000045
具体公式如下:
Figure FDA0003747656810000046
8.根据权利要求7所述的一种标签融合的联合抽取方法,其特征在于:S7具体步骤为:
S701:将图卷积特征
Figure FDA0003747656810000047
与第一阶段堆叠的BiLSTM的上下文特征ht求和得到标签特征H,公式如下:
Figure FDA0003747656810000051
S702:再将标签特征H与第一阶段预测的标签共同输入到BLA中,建模的综合词特征X~2,公式如下:
X~2=BLA(H,L)
S8具体步骤为:
S801:将综合词特征与标签特征H进行拼接,得到新的标签特征H,公式如下:
H=Concat[X~2:H]
S802:将标签特征H与标签特征H共同输入到BLA单元中,输出动态标签特征X~3,公式如下:
X~3=BLA(H,H)
9.根据权利要求8所述的一种标签融合的联合抽取方法,其特征在于:S9具体步骤如下:
采用另一个CRF来提取最终的实体;以动态标签特征X~3作为输入,以一系列预测标记
Figure FDA0003747656810000052
作为输出,,则计算标记序列的概率,公式如下:
Figure FDA0003747656810000053
根据预测实体得到第二阶段预测的函数损失值loss2nd-ner
S10具体步骤如下:
用激活函数算出第一阶段标签特征的权重k以及对应的第二阶段的特征权重k’,再分别对应的标签嵌入相乘相加得到融合实体标签L',公式如下:
k=σ(WlL+bt)
k’=1-k
L′=kL+k′L。
10.根据权利要求9所述的一种标签融合的联合抽取方法,其特征在于:S11具体步骤如下:
S111:将融合标签特征L'与动态标签特征X~3输入到BLA单元中得到动态标签特征,公式如下:
X~4=BLA(L′,X~3)
S112:将动态标签特征
Figure FDA0003747656810000061
作为输入,C作为关系标签集合,则预测每个三元组(wi,wj,ck)的得分,在给定的关系ck中计算每对实体的分数,公式如下:
Figure FDA0003747656810000062
S113:计算选择实体wi作为具有关系ck的实体的概率为:
Figure FDA0003747656810000063
S114:根据预测关系得到第二阶段预测的函数损失值loss2nd-rel
整个模型训练的目标函数为
J(θ)=loss1st-ner+loss1st-rel+loss2nd-ner+loss2nd-rel
CN202210835252.0A 2022-07-15 2022-07-15 一种标签融合的联合抽取方法 Pending CN115114934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210835252.0A CN115114934A (zh) 2022-07-15 2022-07-15 一种标签融合的联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210835252.0A CN115114934A (zh) 2022-07-15 2022-07-15 一种标签融合的联合抽取方法

Publications (1)

Publication Number Publication Date
CN115114934A true CN115114934A (zh) 2022-09-27

Family

ID=83331688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210835252.0A Pending CN115114934A (zh) 2022-07-15 2022-07-15 一种标签融合的联合抽取方法

Country Status (1)

Country Link
CN (1) CN115114934A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103031328A (zh) * 2012-11-22 2013-04-10 江南大学 利用一种融合标签提高外源蛋白质的表达量
CN109783812A (zh) * 2018-12-28 2019-05-21 中国科学院自动化研究所 基于自注意力机制的中文命名实体识别方法及装置
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN113239659A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种融合规则的文本数字抽取装置
CN113822018A (zh) * 2021-09-16 2021-12-21 湖南警察学院 实体关系联合抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103031328A (zh) * 2012-11-22 2013-04-10 江南大学 利用一种融合标签提高外源蛋白质的表达量
CN109783812A (zh) * 2018-12-28 2019-05-21 中国科学院自动化研究所 基于自注意力机制的中文命名实体识别方法及装置
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN113239659A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种融合规则的文本数字抽取装置
CN113822018A (zh) * 2021-09-16 2021-12-21 湖南警察学院 实体关系联合抽取方法

Similar Documents

Publication Publication Date Title
WO2022178919A1 (zh) 一种基于噪声标签学习的纳税人行业分类方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN115564393B (zh) 一种基于招聘需求相似度的职位推荐方法
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
US20220383127A1 (en) Methods and systems for training a graph neural network using supervised contrastive learning
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN113535904A (zh) 一种基于图神经网络的方面级情感分析方法
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN115935991A (zh) 多任务模型生成方法、装置、计算机设备和存储介质
CN111241850B (zh) 提供业务模型的方法及装置
CN117171333A (zh) 一种电力文件问答式智能检索方法及系统
CN113516094B (zh) 一种用于为文档匹配评议专家的系统以及方法
CN111522963A (zh) 一种基于公安知识图谱引擎的智能助理应用交互方法
CN116562286A (zh) 一种基于混合图注意力的智能配置事件抽取方法
CN116050413A (zh) 一种面向涉税法律文本的命名实体识别依赖增强方法
CN115017144B (zh) 一种基于图神经网络的司法文书案情要素实体识别方法
CN115114934A (zh) 一种标签融合的联合抽取方法
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
CN115905458A (zh) 一种基于机器阅读理解模型的事件抽取方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN116468030A (zh) 一种基于多任务神经网络的端到端方面级情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination