CN114547298A - 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 - Google Patents

基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 Download PDF

Info

Publication number
CN114547298A
CN114547298A CN202210131493.7A CN202210131493A CN114547298A CN 114547298 A CN114547298 A CN 114547298A CN 202210131493 A CN202210131493 A CN 202210131493A CN 114547298 A CN114547298 A CN 114547298A
Authority
CN
China
Prior art keywords
text
representation
biomedical
attention
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210131493.7A
Other languages
English (en)
Inventor
王健
孙逸
林鸿飞
杨志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210131493.7A priority Critical patent/CN114547298A/zh
Publication of CN114547298A publication Critical patent/CN114547298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多头注意力和图卷积网络结合R‑Drop机制的生物医学关系抽取方法、装置和介质,要点是包括以下步骤:(1)构建医学语料的关系实例,(2)构建句法依存树,(3)使用BERT预训练模型和多头注意力提取文本的加权上下文语义表示,(4)使用ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示,(5)使用解码器对特征表示进行解码,(6)使用R‑Drop机制对神经网络进行正则化,最终得到关系类别。效果是使用端到端的训练方法,可以自动学习医学文本中的语义特征和结构特征;引入R‑Drop机制,提升模型的泛化性能;在不引入外部知识的情况下,取得了较强的关系抽取性能。

Description

基于多头注意力和图卷积网络结合R-Drop机制的生物医学关 系抽取方法、装置和介质
技术领域
本发明涉及一种基于神经网络的生物医学关系抽取方法,更确切的说,本发明提出一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法。
背景技术
在生物医学领域,海量的医学文献逐渐构成了一个巨大的知识宝库。医学文献中各类实体的关系为专家提供了重要信息。从文档中提取实体关系可以将非结构化文本转换为元组结构化文本,可用于临床诊断、医学知识映射等许多医学研究中。因此从文本中进行医学关系的自动提取至关重要:(1)从应用的角度来看,手工数据库注释需要大量的人力和物力。数据质量不仅难以保证,而且耗时且难以跟踪最新文献。利用文本挖掘技术辅助数据库建设,可以提高数据挖掘的效率和数据质量。(2)从社会价值上看,药物与疾病之间的相互作用是从生物医学关系中提取出来的,这种相互作用将给医药公司、医疗机构和公众带来巨大的利益,并减少相关费用。
此外,在数量庞大医学文献中,大量的关系事实是以多个句子表达的,且文档中的多个实体之间,往往存在复杂的相互关系。目前,生物医学关系抽取方法的研究已经逐步从二元实体的句子级关系拓展到多元实体的跨句级关系。多元跨句级别的关系抽取需要考虑更加复杂的实体语义关系和句子结构。
到目前为止,已经提出了一些基于自动提取生物医学关系的方法,主要分为基于特征的方法和基于神经网络的方法。基于特征的方法是从关系句子实例的上下文中提取包括词法信息和句法信息在内的有用信息来构造特征向量,并通过计算特征向量的相似度来训练关系抽取模型。如利用上下文信息和实体信息特征来训练支持向量机;如采用最短独立路径树来获取化学物与疾病之间的语义信息和句法信息。有些基于特征的方法具有良好的性能,但手工特征提取是一项费时费力的工作。随着深度学习的飞速发展,很多研究人员开始选择基于深度神经网络的方法,可以自动提取特征,实现端到端的学习。两种常见的神经网络基本模型是卷积神经网络和长短期记忆网络如将基于字符的词表示引入基于卷积神经网络的关系提取模型,如使用长短期记忆网络自动提取最短依赖路径特征。但是利用这些传统的神经网络仍然存在精度不高的问题,无法在医学领域落地施行。
而在2017年,有研究者(Peng等人)构建了一个基于PubMed的医学语料数据集,其是关于药物、基因以及突变的实体关系抽取数据集,研究者将其构造为存在二元和三元关系的复杂数据,其中不仅包含单句内的关系,也包含跨句子间的关系,并且其中含有5种关系类别。
综上所述,如何充分利用文本中的语义和句法信息,提高复杂语境下医学实体关系抽取的性能,构建高性能的多元跨句级医学生物关系抽取的模型,使其拥有实际的应用价值是迫切需要解决的问题。
发明内容
为克服现有技术中存在的不足,本发明提供了一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取模型(简称R-AGN)。该方法首先通过斯坦福NLP工具对构造的实例构建句法依存树,然后使用BERT预训练模型和多头注意力网络提取文本的上下文语义表示,再通过ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示,将两个网络提取的特征经过拼接后通过解码器对特征表示进行解码,(6)使用R-Drop机制对神经网络进行正则化,最终得到关系类别。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,包括以下步骤:
通过启发式规则对篇章级医学语料构造医学实体关系的句子内和句子间实例;
通过BERT预训练模型和多头注意力网络与关系表示交互提取文本的加权上下文语义特征表示,
通过ELMo预训练模型、图卷积网络、句法依存树提取文本的结构化特征表示;
拼接提取的语义特征表示和结构化特征表示并通过解码器进行解码;
使用R-Drop正则化对网络进行增强,得到生物医学关系类别。
进一步的,构造的医学实体关系的实例的同一句子中提到的每一对实体对都是作为句内实例构建、在同一文档中未同时出现在同一个句子中的实体对被作为句间实例构造、重复的实体对只选择距离最接近的一对作为实例、每个实例标注每个单词的POS标记和句法依存标记和绝对位置。
进一步的,所述句法依存树的的节点是来自文本的每个单词,其节点间边的类型包括:由斯坦福语法分析器获得的句法依存边设置为句子内部的有向的句法依存边、将相邻句中的作为依存根的单词连接形成的相邻句边、每个节点上具有自节点的自节点边。
进一步的,提取文本的加权上下文语义特征表示具体为:
(a)多头注意力模块的输入用BERT预训练语言模型作为输入表示,输入表示由公式(1)进行描述:
w1=[wBERT;wPOS;wdis] (1)
wBERT为BERT对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置;
(b)使用Bi-LSTM对输入表示进行前向和后向编码,最终的文本表示为两个状态的拼接,由公式(2)进行描述:
Figure BDA0003502790710000031
Figure BDA0003502790710000032
为前向LSTM的隐状态,
Figure BDA0003502790710000033
为后向LSTM的隐状态;
(c)将关系向量表示为尾实体和头实体向量的差值,由公式(3)表示:
hrelation=htail-hhead (3)
htail为尾实体经过Bi-LSTM编码后的输出向量,hhead为头实体经过Bi-LSTM编码后的输出向量;
(d)通过多头注意力网络将经过Bi-LSTM编码的文本表示和关系向量进行交互,对于每一个注意力头使用归一化放缩点积注意力机制计算相关度,由公式(4)表示:
Figure BDA0003502790710000034
其中Q,K,V∈Rn×d表示查询和键值矩阵,在多头注意力网络中的查询是由Bi-LSTM的输出ht和权重矩阵Wq相乘得到,表示为文本序列,键和值是由关系向量hrelation分别与权重矩阵Wk和Wv相乘得到,d是Bi-LSTM模型输出的维数,
Figure BDA0003502790710000035
是放缩因子;
(e)将n个头的结果连接起来作为多头注意力层的输出表示作为加权上下文语义特征表示,由公式5描述:
hatt=[h1;h2;…;hn] (5)
h1,h2,…,hn为n个注意力头的输出表示。
进一步的,提取文本的结构化特征表示具体为:
(a)图卷积网络的输入文本用ELMo预训练模型作为输入表示,由公式(6)描述:
w2=[wELMo;wPOS;wdis] (6)
wELMo为ELMo对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置;
(b)使用Bi-LSTM对输入表示进行前向和后向编码,最终的文本表示为两个状态的拼接;
(c)将构造的句法依存树转换为邻接矩阵A,其中Ai,j=1表示单词i和单词j之间存在依赖边,Ai,j=0表示没有依赖关系,Ai,i=1表示每个节点的自节点边,第l层节点i与邻接矩阵的图卷积操作由公式(7)描述:
Figure BDA0003502790710000041
其中W(l)是权重矩阵,b(l)是偏置向量,
Figure BDA0003502790710000042
是依存图中节点i的度,ρ是激活函数,图卷积网络的输入
Figure BDA0003502790710000043
是Bi-LSTM的输出;
结构化特征表示由下式描述:
Figure BDA0003502790710000044
进一步的,拼接提取的语义特征表示和结构化特征表示通过下式描述:
hfinal=[hatt;hGCN] (9)
输入到一个两层的感知机,由公式(10)、(11)表示:
Figure BDA0003502790710000045
Figure BDA0003502790710000046
Figure BDA0003502790710000047
为权重矩阵,
Figure BDA0003502790710000048
为偏置向量;
再通过Softmax函数来判别生物医学关系类型,通过公式(12)描述:
o=softmax(Woh2+bo) (12)
Wo为权重矩阵,bo为偏置向量。
进一步的,通过R-Drop机制对神经网络进行正则化得到更精确的生物医学关系类别:通过R-Drop机制修改损失函数为整个神经网络训练两次计算的交叉熵损失与双向KL散度正则化结合的损失函数,由公式(13)、(14)、(15)描述:
Figure BDA0003502790710000049
Figure BDA00035027907100000410
L=LCE+αLKL (15)
P1(yi|xi)和P2(yi|xi)表示两次前向计算得到的两个子模型分别预测的概率分布,DKL()为KL散度计算函数,LCE为网络训练两次得到平均交叉熵损失,LKL为网络训练两次得到的两个子网络之间的双向KL散度损失,α是用于调节KL散度正则的权重系数,经过R-Drop机制正则化之后,最终获取更精确的关系类型。
一种装置,包括处理器以及存储器,述处理器执行所述存储器中的代码以实现所述的方法。
一种计算机存储介质,存储有计算机程序,所述计算机程序被硬件执行以实现所述的方法。
本发明有益效果是:一种基于神经网络结合R-Drop机制的生物医学关系抽取方法,包括以下步骤:(1)构建医学语料的关系实例,(2)构建句法依存树,(3)使用BERT预训练模型和多头注意力提取文本的上下文语义表示,(4)使用ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示,(5)使用解码器对特征表示进行解码,(6)使用R-Drop机制对神经网络进行正则化,最终得到关系类别。与已有的技术对比,本发明具有以下优点:使用端到端的训练方法,可以自动学习医学文本中的语义特征和结构特征;引入R-Drop机制,提升模型的泛化性能;在不引入外部知识的情况下,取得了较强的关系抽取性能。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上,在不同情况下的关系抽取中均取得了良好结果。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的医学关系抽取模型框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
实施例1:如图1所示,基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,包括以下步骤:
步骤1、对于官方提供的训练集、验证集和测试集,构建了医学实体关系的所有实例,使用启发式规则构造句子内和句子间实例:
(a)同一句子中提到的每一对实体对都是作为句内实例构建。
(b)在同一文档中,未同时出现在同一个句子中的实体对被作为句间实例构造。
(c)对于重复的实体对,只选择距离最接近的一对作为实例。
关于其他预处理过程,对于每个实例,使用StanfordCoreNLP工具标记每个单词的POS标记和句法依存标记;标记每个单词的绝对位置。
步骤2、构造一个文档级的句法依存树,它的节点是来自文本的每个单词,节点之间有三种类型的边:
(a)句法依存边:将由斯坦福语法分析器获得的句法依存边设置为句子内部的有向边。
(b)相邻句边:将相邻句中的作为依存根的单词连接起来,形成相邻句边。这使得模型能够学习句子之间的依存关系信息,这对于文档级别的关系抽取是有用的。
(c)自节点边:在每个节点上加上自节点边,使模型也能从节点本身学习信息。
步骤3、使用BERT预训练模型和多头注意力网络提取文本的上下文语义表示。
(a)基于BERT的强大性能,引入BERT预训练语言模型作为输入文本在输入表示层的嵌入。此外,我们还提取了额外语义信息使模型能够更好地学习。词性标注可以表示文本中的词性信息。而位置嵌入代表了实体在文档中的位置,这使模型可以定位实体对,更好地学习实体上下文信息。该模块的输入表示由公式(1)进行描述:
w1=[wBERT;wPOS;wdis] (1)
wBERT为BERT对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置。
(b)使用Bi-LSTM对输入表示进行前向和后向编码。指定前向LSTM的隐状态为
Figure BDA0003502790710000061
后向LSTM的隐状态为
Figure BDA0003502790710000062
最终的隐层状态为两个状态的拼接,由公式(2)进行描述:
Figure BDA0003502790710000063
Figure BDA0003502790710000064
为前向LSTM的隐状态,
Figure BDA0003502790710000065
为后向LSTM的隐状态。
(c)将关系向量表示为尾实体和头实体向量的差值,由公式(3)表示:
hrelation=htail-hhead (3)
htail为尾实体经过Bi-LSTM编码后的输出向量,hhead为头实体经过Bi-LSTM编码后的输出向量。
然后利用多头注意力网络将文本表示和关系向量进行交互,对于每一个注意力头,使用归一化放缩点积注意力机制来计算相关度,由公式(4)表示:
Figure BDA0003502790710000066
其中Q,K,V∈Rn×d表示查询和键值矩阵,在多头注意力网络中的查询是由Bi-LSTM的输出ht和权重矩阵Wq相乘得到,表示为文本序列,键和值是由关系向量hrelation分别与权重矩阵Wk和Wv相乘得到,d是Bi-LSTM模型输出的维数,
Figure BDA0003502790710000067
是放缩因子。
最后,将n个头的结果连接起来作为多头注意力层的输出表示,由公式5表示:
hatt=[h1;h2;…;hn] (5)
步骤4、通过ELMo预训练模型和图卷积网络(GCN)结合句法依存树提取文本的结构化表示。
(a)由于句法依存树的节点是单词组成,而BERT的tokenizer会将单词拆分,无法有效地与依存树和GCN结合,因此选择ELMo预训练模型作为GCN模块的输入嵌入。同样地,在输入表示中加入文本的POS和位置信息,由公式(6)描述:
w2=[wELMo;wPOS;wdis] (6)
wELMo为ELMo对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置。
(b)使用Bi-LSTM对输入表示进行前向和后向编码。指定前向LSTM的隐状态为
Figure BDA0003502790710000071
后向LSTM的隐状态为
Figure BDA0003502790710000072
最终的隐层状态为两个状态的拼接。
(c)使用GCN来学习文本的结构信息,首先将构造的句法依存图转换为邻接矩阵A,其中Ai,j=1表示单词i和单词j之间存在依赖边,Ai,j=0表示没有依赖关系,Ai,i=1表示每个节点的自节点边,以学习关于节点本身的信息。此外,在采用激活函数之前,将图卷积网络中的结果进行规范化,以解决依存图中节点度过大的问题。最后,第l层节点i与邻接矩阵的图卷积操作可以由公式(7)描述:
Figure BDA0003502790710000073
其中W(l)是权重矩阵,b(l)是偏置向量,
Figure BDA0003502790710000074
是依存图中节点i的度,ρ是激活函数(例如ReLU)。GCN网络的输入是Bi-LSTM的输出
Figure BDA0003502790710000075
通过l层的卷积操作得到输出表示
Figure BDA0003502790710000076
步骤5、将多头注意层和GCN层的输出合并到最终表示hfinal=[hatt;hGCN],然后喂入一个两层的感知机,由公式(8)、(9)表示:
Figure BDA0003502790710000077
Figure BDA0003502790710000078
Figure BDA0003502790710000079
为权重矩阵,
Figure BDA00035027907100000710
为偏置向量。
再通过Softmax函数来判别关系类型,通过公式(10)描述:
o=softmax(Woh2+bo) (9)
Wo为权重矩阵,bo为偏置向量。
步骤6、为了增强模型的性能和泛化能力,引入R-Drop机制,修改损失函数为模型预测两次计算的交叉熵损失与双向KL散度正则化结合的损失函数,由公式(10)、(11)、(12)描述:
Figure BDA00035027907100000711
Figure BDA00035027907100000712
L=LCE+αLKL (12)
P1(yi|xi)和P2(yi|xi)表示两次前向计算得到的两个子模型分别预测的概率分布,DKL()为KL散度计算函数,LCE为网络训练两次得到平均交叉熵损失,LKL为网络训练两次得到的两个子网络之间的双向KL散度损失,α是用于调节KL散度正则的权重系数,经过R-Drop机制正则化之后,最终获取更精确的关系类型。
实施例2:一种基于神经网络的生物医学关系抽取方法,包括如下步骤:
步骤1、对于官方提供的训练集、验证集和测试集,构建了医学实体关系的所有实例,使用启发式规则构造句子内和句子间实例:
(a)同一句子中提到的每一对实体对都是作为句内实例构建。
(b)在同一文档中,未同时出现在同一个句子中的实体对被作为句间实例构造。
(c)对于重复的实体对,只选择距离最接近的一对作为实例。
关于其他预处理过程,对于每个实例,使用StanfordCoreNLP工具标记每个单词的POS标记和句法依存标记;标记每个单词的绝对位置。
步骤2、构造一个文档级的句法依存树,它的节点是来自文本的每个单词,节点之间有三种类型的边:
(a)句法依存边:将由斯坦福语法分析器获得的句法依存边设置为句子内部的有向边。
(b)相邻句边:将相邻句中的作为依存根的单词连接起来,形成相邻句边。这使得模型能够学习句子之间的依存关系信息,这对于文档级别的关系抽取是有用的。
(c)自节点边:在每个节点上加上自节点边,使模型也能从节点本身学习信息。
步骤3、使用BERT预训练模型和多头注意力网络提取文本的上下文语义表示。
(a)基于BERT的强大性能,引入BERT预训练语言模型作为输入文本在输入表示层的嵌入。此外,我们还提取了额外语义信息使模型能够更好地学习。词性标注可以表示文本中的词性信息。而位置嵌入代表了实体在文档中的位置,这使模型可以定位实体对,更好地学习实体上下文信息。该模块的输入表示由公式(1)进行描述:
w1=[wBERT;wPOS;wdis] (1)
wBERT为BERT对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置。
(b)使用Bi-LSTM对输入表示进行前向和后向编码。指定前向LSTM的隐状态为
Figure BDA0003502790710000081
后向LSTM的隐状态为
Figure BDA0003502790710000082
最终的隐层状态为两个状态的拼接,由公式(2)进行描述:
Figure BDA0003502790710000083
Figure BDA0003502790710000091
为前向LSTM的隐状态,
Figure BDA0003502790710000092
为后向LSTM的隐状态。
(c)将关系向量表示为尾实体和头实体向量的差值,由公式(3)表示:
hrelation=htail-hhead (3)
htail为尾实体经过Bi-LSTM编码后的输出向量,hhead为头实体经过Bi-LSTM编码后的输出向量。
然后利用多头注意力网络将文本表示和关系向量进行交互,对于每一个注意力头,使用归一化放缩点积注意力机制来计算相关度,由公式(4)表示:
Figure BDA0003502790710000093
其中Q,K,V∈Rn×d表示查询和键值矩阵,在多头注意力网络中的查询是由Bi-LSTM的输出ht和权重矩阵Wq相乘得到,表示为文本序列,键和值是由关系向量hrelation分别与权重矩阵Wk和Wv相乘得到,d是Bi-LSTM模型输出的维数,
Figure BDA0003502790710000094
是放缩因子。由公式5表示:
hatt=[h1;h2;…;hn] (5)
步骤4、通过ELMo预训练模型和图卷积网络(GCN)结合句法依存树提取文本的结构化表示。
(a)由于句法依存树的节点是单词组成,而BERT的tokenizer会将单词拆分,无法有效地与依存树和GCN结合,因此选择ELMo预训练模型作为GCN模块的输入嵌入。同样地,在输入表示中加入文本的POS和位置信息,由公式(6)描述:
w2=[wELMo;wPOS;wdis] (6)
wELMo为ELMo对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置。
(b)使用Bi-LSTM对输入表示进行前向和后向编码。指定前向LSTM的隐状态为
Figure BDA0003502790710000095
后向LSTM的隐状态为
Figure BDA0003502790710000096
最终的隐层状态为两个状态的拼接。
(c)使用GCN来学习文本的结构信息,首先将构造的句法依存图转换为邻接矩阵A,其中Ai,j=1表示单词i和单词j之间存在依赖边,Ai,j=0表示没有依赖关系,Ai,i=1表示每个节点的自节点边,以学习关于节点本身的信息。此外,在采用激活函数之前,将图卷积网络中的结果进行规范化,以解决依存图中节点度过大的问题。最后,第l层节点i与邻接矩阵的图卷积操作可以由公式(7)描述:
Figure BDA0003502790710000097
其中W(l)是权重矩阵,b(l)是偏置向量,
Figure BDA0003502790710000101
是依存图中节点i的度,ρ是激活函数(例如ReLU)。GCN网络的输入是Bi-LSTM的输出
Figure BDA0003502790710000102
通过l层的卷积操作得到输出表示
Figure BDA0003502790710000103
步骤5、将多头注意层和GCN层的输出合并到最终表示hfinal=[hatt;hGCN],然后喂入一个两层的感知机,由公式(8)、(9)表示:
Figure BDA0003502790710000104
Figure BDA0003502790710000105
Figure BDA0003502790710000106
为权重矩阵,
Figure BDA0003502790710000107
为偏置向量。
再通过Softmax函数来判别关系类型,通过公式(10)描述:
o=softmax(Woh2+bo) (9)
Wo为权重矩阵,bo为偏置向量。
步骤6、为了增强模型的性能和泛化能力,引入R-Drop机制,修改损失函数为模型预测两次计算的交叉熵损失与双向KL散度正则化结合的损失函数,由公式(10)、(11)、(12)描述:
Figure BDA0003502790710000108
Figure BDA0003502790710000109
L=LCE+αLKL (12)
其中,α是用于调节KL散度正则的权重系数,在本发明中设为0.5。经过R-Drop机制正则化之后,最终获取更精确的关系类型。
本发明属于软件发明,涉及一种装置,其包括处理器以及存储器,述处理器执行所述存储器中的代码以实现所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法。本发明还涉及一种计算机存储介质,存储有计算机程序,所述计算机程序被硬件执行以实现所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法。
本发明方法所采用的评价指标是基于准确率(Precision,P)、召回率(Recall,R)的F1值。为了验证本发明提出的模型的有效性,本发明在Peng提出的数据集进行实验,根据原始数据进行分区后采用五折交叉验证形式进行验证,数据集中的数据实例如表1所示。
将本发明提出的模型结果的F1值与GCN、AGGCN和LF-GCN三个模型结果的F1值进行比较,证明精度的提升,其中GCN模型是2018年提出的采用图卷积神经网络对剪枝树进行编码的方法,AGGCN模型是2019年提出的通过注意力矩阵构建依存森林的生物医学关系抽取模型,LF-GCN模型是2020年提出用矩阵树定理的变体自动诱导依赖结构的生物医学关系抽取模型。实验结果如表2所示。
表1
Figure BDA0003502790710000111
表2
Figure BDA0003502790710000112
从表2的实验结果可以看出,本发明提出的模型在多分类关系抽取中,在三元和二元的结果中都得到了显著的提升,其中二元关系的多分类关系抽取在baseline的基础上F1值提升11.1%,可以说明在捕获二元和三元关系多分类抽取的特征更加准确,有效提升了关系抽取的效率。在二分类的情况下,也均有1%左右的F1值提升,可以说明本发明提出的模型在不同情况下的关系抽取中均取得了良好的效果。
本发明方法具有以下优点:使用端到端的训练方法,可以自动学习医学文本中的语义特征和结构特征;引入R-Drop机制,提升模型的泛化性能;在不引入外部知识的情况下,取得了较强的关系抽取性能。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上,在不同情况下的关系抽取中均取得了良好结果。

Claims (9)

1.一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,包括以下步骤:
通过启发式规则对篇章级医学语料构造医学实体关系的句子内和句子间实例;
通过BERT预训练模型和多头注意力网络与关系表示交互提取文本的加权上下文语义特征表示,
通过ELMo预训练模型、图卷积网络、句法依存树提取文本的结构化特征表示;
拼接提取的语义特征表示和结构化特征表示并通过解码器进行解码;
使用R-Drop正则化对网络进行增强得到生物医学关系类别。
2.如权利要求1所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,构造的医学实体关系的实例的同一句子中提到的每一对实体对都是作为句内实例构建、在同一文档中未同时出现在同一个句子中的实体对被作为句间实例构造、重复的实体对只选择距离最接近的一对作为实例、每个实例标注每个单词的POS标记和句法依存标记和绝对位置。
3.如权利要求1所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,所述句法依存树的的节点是来自文本的每个单词,其节点间边的类型包括:由斯坦福语法分析器获得的句法依存边设置为句子内部的有向的句法依存边、将相邻句中的作为依存根的单词连接形成的相邻句边、每个节点上具有自节点的自节点边。
4.如权利要求1所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,提取文本的加权上下文语义特征表示具体为:
(a)多头注意力模块的输入用BERT预训练语言模型作为输入表示,输入表示由公式(1)进行描述:
w1=[wBERT;wPOS;wdis] (1)
wBERT为BERT对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置;
(b)使用Bi-LSTM对输入表示进行前向和后向编码,最终的文本表示为两个状态的拼接,由公式(2)进行描述:
Figure FDA0003502790700000011
Figure FDA0003502790700000021
为前向LSTM的隐状态,
Figure FDA0003502790700000022
为后向LSTM的隐状态;
(c)将关系向量表示为尾实体和头实体向量的差值,由公式(3)表示:
hrelation=htail-hhead (3)
htail为尾实体经过Bi-LSTM编码后的输出向量,hhead为头实体经过Bi-LSTM编码后的输出向量;
(d)通过多头注意力网络将经过Bi-LSTM编码的文本表示和关系向量进行交互,对于每一个注意力头使用归一化放缩点积注意力机制计算相关度,由公式(4)表示:
Figure FDA0003502790700000023
其中Q,K,V∈Rn×d表示查询和键值矩阵,在多头注意力网络中的查询是由Bi-LSTM的输出ht和权重矩阵Wq相乘得到,表示为文本序列,键和值是由关系向量hrelation分别与权重矩阵Wk和Wv相乘得到,d是Bi-LSTM模型输出的维数,
Figure FDA0003502790700000024
是放缩因子;
(e)将n个头的结果连接起来作为多头注意力层的输出表示作为加权上下文语义特征表示,由公式5描述:
hatt=[h1;h2;…;hn] (5)
h1,h2,…,hn为n个注意力头的输出表示。
5.如权利要求4所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,提取文本的结构化特征表示具体为:
(a)图卷积网络的输入文本用ELMo预训练模型作为输入表示,由公式(6)描述:
w2=[wELMo;wPOS;wdis] (6)
wELMo为ELMo对输入文本进行编码后的表示,wPOS为词性标注嵌入表示文本中的词性信息,wdis为位置嵌入表示实体在文档中的位置;
(b)使用Bi-LSTM对输入表示进行前向和后向编码,最终的文本表示为两个状态的拼接;
(c)将构造的句法依存树转换为邻接矩阵A,其中Ai,j=1表示单词i和单词j之间存在依赖边,Ai,j=0表示没有依赖关系,Ai,i=1表示每个节点的自节点边,第l层节点i与邻接矩阵的图卷积操作由公式(7)描述:
Figure FDA0003502790700000025
其中W(l)是权重矩阵,b(l)是偏置向量,
Figure FDA0003502790700000026
是依存图中节点i的度,ρ是激活函数,图卷积网络的输入
Figure FDA0003502790700000031
是Bi-LSTM的输出;
结构化特征表示由下式描述:
Figure FDA0003502790700000032
6.如权利要求5所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,拼接提取的语义特征表示和结构化特征表示通过下式描述:
hfinal=[hatt;hGCN] (9)
输入到一个两层的感知机,由公式(10)、(11)表示:
Figure FDA0003502790700000033
Figure FDA0003502790700000034
Figure FDA0003502790700000035
为权重矩阵,
Figure FDA0003502790700000036
为偏置向量;
再通过Softmax函数来判别生物医学关系类型,通过公式(12)描述:
o=softmax(Woh2+bo) (12)
Wo为权重矩阵,bo为偏置向量。
7.如权利要求6所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法,其特征在于,通过R-Drop机制对神经网络进行正则化得到更精确的生物医学关系类别:通过R-Drop机制修改损失函数为整个神经网络训练两次计算的交叉熵损失与双向KL散度正则化结合的损失函数,由公式(13)、(14)、(15)描述:
Figure FDA0003502790700000037
Figure FDA0003502790700000038
L=LCE+αLKL (15)
P1(yi|xi)和P2(yi|xi)表示两次前向计算得到的两个子模型分别预测的概率分布,DKL()为KL散度计算函数,LCE为网络训练两次得到平均交叉熵损失,LKL为网络训练两次得到的两个子网络之间的双向KL散度损失,α是用于调节KL散度正则的权重系数,经过R-Drop机制正则化之后,最终获取更精确的关系类型。
8.一种装置,其特征在于,包括处理器以及存储器,述处理器执行所述存储器中的代码以实现权利要求1至7任一项权利要求所述的方法。
9.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被硬件执行以实现权利要求1至7任一项权利要求所述的方法。
CN202210131493.7A 2022-02-14 2022-02-14 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 Pending CN114547298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210131493.7A CN114547298A (zh) 2022-02-14 2022-02-14 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210131493.7A CN114547298A (zh) 2022-02-14 2022-02-14 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质

Publications (1)

Publication Number Publication Date
CN114547298A true CN114547298A (zh) 2022-05-27

Family

ID=81674171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210131493.7A Pending CN114547298A (zh) 2022-02-14 2022-02-14 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质

Country Status (1)

Country Link
CN (1) CN114547298A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724012A (zh) * 2022-06-10 2022-07-08 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN115050481A (zh) * 2022-06-17 2022-09-13 湖南中医药大学 一种基于图卷积神经网络的中医方剂功效预测方法
CN115599918A (zh) * 2022-11-02 2023-01-13 吉林大学(Cn) 一种基于图增强的互学习文本分类方法及系统
CN116402019A (zh) * 2023-04-21 2023-07-07 华中农业大学 一种基于多特征融合的实体关系联合抽取方法及装置
CN116757190A (zh) * 2023-08-15 2023-09-15 北京大学第一医院 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备
CN117252264A (zh) * 2023-11-20 2023-12-19 神思电子技术股份有限公司 一种结合语言模型与图神经网络的关系抽取方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724012A (zh) * 2022-06-10 2022-07-08 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN114724012B (zh) * 2022-06-10 2022-08-23 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN115050481A (zh) * 2022-06-17 2022-09-13 湖南中医药大学 一种基于图卷积神经网络的中医方剂功效预测方法
CN115050481B (zh) * 2022-06-17 2023-10-31 湖南中医药大学 一种基于图卷积神经网络的中医方剂功效预测方法
CN115599918A (zh) * 2022-11-02 2023-01-13 吉林大学(Cn) 一种基于图增强的互学习文本分类方法及系统
CN116402019A (zh) * 2023-04-21 2023-07-07 华中农业大学 一种基于多特征融合的实体关系联合抽取方法及装置
CN116402019B (zh) * 2023-04-21 2024-02-02 华中农业大学 一种基于多特征融合的实体关系联合抽取方法及装置
CN116757190A (zh) * 2023-08-15 2023-09-15 北京大学第一医院 一种基于双向树型标注方法的实体关系联合抽取方法、系统及设备
CN116757190B (zh) * 2023-08-15 2023-10-20 北京大学第一医院 一种基于双向树型标注方法的实体关系联合抽取方法
CN117252264A (zh) * 2023-11-20 2023-12-19 神思电子技术股份有限公司 一种结合语言模型与图神经网络的关系抽取方法
CN117252264B (zh) * 2023-11-20 2024-02-02 神思电子技术股份有限公司 一种结合语言模型与图神经网络的关系抽取方法

Similar Documents

Publication Publication Date Title
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN110196906A (zh) 面向金融行业的基于深度学习文本相似性检测方法
CN112765952A (zh) 一种图卷积注意力机制下的条件概率联合事件抽取方法
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
CN115860006B (zh) 一种基于语义句法的方面级情感预测方法及装置
CN113196277A (zh) 用于检索自然语言文档的系统
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
US20220138534A1 (en) Extracting entity relationships from digital documents utilizing multi-view neural networks
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
CN115168579A (zh) 一种基于多头注意力机制和二维卷积操作的文本分类方法
CN114841353A (zh) 一种融合句法信息的量子语言模型建模系统及其应用
CN115033706A (zh) 一种知识图谱自动补全和更新的方法
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及系统
CN117670017A (zh) 一种基于事件的风险识别方法、装置以及电子设备
CN112364666B (zh) 文本表征方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination