CN113468874A - 一种基于图卷积自编码的生物医学关系抽取方法 - Google Patents

一种基于图卷积自编码的生物医学关系抽取方法 Download PDF

Info

Publication number
CN113468874A
CN113468874A CN202110643976.0A CN202110643976A CN113468874A CN 113468874 A CN113468874 A CN 113468874A CN 202110643976 A CN202110643976 A CN 202110643976A CN 113468874 A CN113468874 A CN 113468874A
Authority
CN
China
Prior art keywords
representing
matrix
encoder
coding
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110643976.0A
Other languages
English (en)
Other versions
CN113468874B (zh
Inventor
王健
钱梦媛
徐博
林鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110643976.0A priority Critical patent/CN113468874B/zh
Publication of CN113468874A publication Critical patent/CN113468874A/zh
Application granted granted Critical
Publication of CN113468874B publication Critical patent/CN113468874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于图卷积自编码的生物医学关系抽取方法,为了充分利用依赖关系,有效捕获语义结构,并降低计算成本,包括卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度与输入矩阵相同的邻接矩阵;将从获得单词的隐层状态表示和重构的邻接矩阵输入到N个单独图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中长距离依赖特征;将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点输出向量后进行关系分类,实验结果证明,本模型可以更有效地捕获依赖信息,获取语义结构。

Description

一种基于图卷积自编码的生物医学关系抽取方法
技术领域
本发明属于文本信息处理领域,确切的说,是一种基于卷积自编码器的图神经网络生物医学关系抽取方法。
背景技术
医学关系抽取作为信息抽取的一种形式,旨在从互联网中海量的医学信息中快速、准确地检测出与医学相关的多个实体之间关系事实,将非结构化描述的自然文本转化为结构化数据,为辅助医疗、药物开发、生命科学等多种研究提供了重要基础。同时,生物医学关系抽取是信息检索、智能问答、智能对话等人工智能应用任务的基石,所以,提升医学关系抽取的效率和精确度具有实际意义。
现今生物医学文献中,实体对位于不同句子中的情况十分常见,生物医学实体关系抽取已经从句子级别逐步扩展到语境特征更加复杂的跨句级别抽取。跨句级别的实体关系抽取需要处理多个句子,不仅句子信息大幅度增加,而且跨句子实体语义关系也更为复杂。
以往的方法将生物医学关系抽取当作多分类任务,通过构造特征表示,进行训练并给出分类结果。现有的关系抽取模型可以分为两类:基于序列的模型和基于依赖的模型。基于序列的模型只对单词序列进行编码,获得文本的上下文语义信息,如常见的卷积神经网络和循环神经网络;基于依赖的模型则运用依存树得到的语义图来获得句子的表示,在获得长距离依赖关系方面被证明是有效的,可以捕获更加有用的信息。如:用依存树捕获文本特征,可以实现跨句多元关系的抽取,但是计算成本很高,并且在医学领域的分析精度较低。使用完全依存森林对所有可能的树进行编码,提升精度,但是降低了运算速率,不利于在海量文献中进行关系抽取。
综上所述,如何充分利用依赖关系,提高复杂语境下生物医学关系抽取的性能,建立表现优秀的跨句级生物医学关系抽取模型,提高关系抽取的效率,使其拥有实际的应用价值是迫切需要解决的问题。
发明内容
为实现充分利用依赖关系,有效捕获语义结构,并降低计算成本,本发明提供了一种基于图卷积自编码的生物医学关系抽取方法,包括以下步骤:
步骤1、使用生物领域的文本信息,将基于通用领域获得的Glove英文词向量进行训练,获得词向量表示,引入位置信息得到最终的词向量表示;
步骤2、通过上下文编码器捕获词向量的向量序列中的上下文信息,获取单词的隐层状态表示;
步骤3、采用多头注意力机制获得不同子空间的特征,构建多个邻接矩阵,并构建依存森林;
步骤4、卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度、通道数与输入矩阵相同的邻接矩阵;
步骤5、将从步骤2获得的单词的隐层状态表示和步骤4重构的邻接矩阵输入到N个单独的图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中的长距离依赖特征;
步骤6、将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点的输出向量;
步骤7、将所述输出向量进行聚合特征,获得句子表示;对依存图节点中表示实体的节点的输出向量进行聚合特征,获得节点的实体表示,将句子表示和实体表示进行拼接,获得用于分类目的的最终节点表示;
步骤8、获得在关系标签上的概率分布,识别生物医学文本中的关系类型。
进一步的,步骤2中将步骤1得到的词向量输入到每个LSTM单元中,得到不同LSTM单元的隐层表示hi,将当前单词前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词隐层状态表示。
进一步的,步骤2中双向LSTM层数设置为1层,输出维度设置为300维,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.5。
进一步的,
步骤2中LSTM单元的隐藏层主要包含三个门控机制:
在t时刻的输入门it、遗忘门ft和输出门Ot
LSTM隐藏层的计算通过公式(1)~(5)进行描述:
it=σ(Wixt+Uiht-1+Vict-1) (1)
ft=σ(Wfxt+Ufht-1+Vfct-1) (2)
Ot=σ(Woxt+Uoht-1+Voct-1) (3)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (4)
ht=ot*tanh(ct) (5)
其中,ct表示当前记忆单元,ct-1表示上一层记忆单元,ht表示隐层状态节点,ht-1代表前一个隐层状态节点,xt表示当前时刻t的输入,σ表示激活函数,Wi、Ui、Vi表示输入门权重矩阵,Wf、Uf、Vf表示遗忘门权重矩阵,Wo、Uo、Vo表示输出门权重矩阵,Wc、Uc表示记忆单元权重矩阵;
将前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词的隐层状态表示,通过公式(6)进行描述:
Figure BDA0003108295810000031
Figure BDA0003108295810000032
表示单词的隐层状态表示,
Figure BDA0003108295810000033
表示后向序列的最后一个单元隐层状态输出,
Figure BDA0003108295810000034
表示前向序列的最后一个单元隐层状态输出,
Figure BDA0003108295810000035
表示拼接。
进一步的,步骤3中依存森林第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分,然后通过softmax函数进行归一化,将有限项离散概率分布的梯度对数归一化,获得权重图,通过公式(7)描述邻接矩阵;
Figure BDA0003108295810000036
其中,Q、K分别表示查询向量序列,键向量序列,
Figure BDA0003108295810000037
是缩放因子,
Figure BDA0003108295810000038
Figure BDA0003108295810000039
表示第k个头的可训练权重矩阵,
Figure BDA00031082958100000310
的权重矩阵维度都是d*d。
进一步的,步骤4中编码器采用卷积层和池化层,共包含3层卷积,每个卷积操作的滤波器大小和步长分别是1×1和1,将多头注意力机制生成N个子空间表示的邻接矩阵A(1),A(2),A(3)作为一个整体特征A*输入编码器得到改变的邻接矩阵,l表示句子的长度,N表示输入编码器的通道数,A*∈RN×l×l,维度为N×l×l;将编码器输出的邻接矩阵输入解码器,解码器使用逆卷积方法,共包含3个逆卷积层,最后通过激活函数进行激活,得到通道数和维数与输入卷积自编码器的编码器矩阵相同的邻接矩阵。通过改变通道数捕获其余子空间的特征信息,使得邻接矩阵关注图更多的结构信息;
编码器通过公式(8)进行描述:
A′*=σ1(A*1+b1) (8)
解码器通过公式(9)进行描述:
Figure BDA0003108295810000041
其中,ω1和ω2为权重矩阵,b1和b2分别为编码器和解码器的偏置,σ1和σ2分别为编码器和解码器的激活函数,A′*
Figure BDA0003108295810000042
分别表示经过编码器和解码器获得的邻接矩阵。
进一步的,步骤5中计算第k个邻接矩阵l层节点i的卷积,根据邻接矩阵,使用第l-1层的卷积向量
Figure BDA0003108295810000043
计算第l层的卷积向量,当向量
Figure BDA0003108295810000044
与权重矩阵
Figure BDA0003108295810000045
计算后,再与邻接矩阵
Figure BDA0003108295810000046
相乘,加上偏置,通过ReLU函数进行激活,代表着节点i获取了邻居节点的特征;通过多层叠加,获得包含邻居节点及更远节点特征的节点表示,图卷积网络编码依存森林中的长距离依赖特征,通过公式(10)进行描述:
Figure BDA0003108295810000047
其中
Figure BDA0003108295810000048
Figure BDA0003108295810000049
是第1层中第k个权值图的权重矩阵和偏置向量,n是节点个数,σ是ReLU激活函数。
进一步的,步骤6中通过公式(11)进行描述:
hcom=Wcomhall+bcom (11)
其中,hcom表示所有子空间的组合,Wcom是一个权重矩阵,bcom是偏置向量。
进一步的,步骤7中通过公式(12)进行描述:
hfinal=[hsent;e1;…;ei] (12)
其中,hsent表示句子表示向量,e1,…,ei表示i个不同节点的节点表示,hfinal表示最终节点表示。
进一步的,步骤8中用Softmax进行分类获得在关系标签上的概率分布。
本发明有益效果是:本发明是跨句级别的生物医学关系抽取方法,使用端到端的训练方法,可以自动学习依存森林中的结构特征;提出多头注意力-卷积自编码器的特征提取模型,通过引入卷积自编码器可以更有效地捕获依存信息;在提高关系抽取精确度的基础上,提升了关系抽取效率,增强了实际应用价值。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上取得了良好结果。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的医学关系抽取模型框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明提供了一种基于图卷积自编码的生物医学关系抽取方法及模型(简称ACA-GCN)。该方法首先通过双向LSTM网络获得包含上下文信息的隐层状态表示,通过注意力机制(Attention)有效地融合跨句级别的特征,然后通过卷积自编码器进一步对特征进行提取,获得邻接矩阵,再通过图卷积网络聚合长距离依赖关系,经过线性组合后通过分类器,得到生物医学实体之间的关系,完成关系抽取。其中基于图卷积自编码的生物医学关系抽取方法,简要的包括以下步骤:(1)构建单词的分布式表示,(2)生成隐层表示,(3)构造基于多头注意力-卷积自编码器的特征表示,(4)使用图卷积网络编码依存森林,(5)选择分类器对生物医学关系进行识别。与已有技术对比,方法具有以下优点:使用端到端的训练方法,可以自动的学习依存森林中的结构特征;提出多头注意力-卷积自编码器模型,通过引入卷积自编码器可以更有效地进行特征提取;在提高关系抽取精确度的基础上,提升了关系抽取效率,增强了实际应用价值。
具体的:
如图1所示,一种基于图卷积自编码的生物医学关系抽取方法,包括以下步骤:
步骤1、使用生物领域的文本信息,将基于通用领域获得的Glove英文词向量进行训练,获得词向量表示。引入位置信息后,得到最终的词表示。
步骤2、将上一步骤中获得的词向量输入到上下文编码器,捕获向量序列中的上下文信息。为了获取句子中跨度较远词的特征,获取长依赖的,有效的上下文信息,将步骤1得到的词向量按照公式输入到每个LSTM的单元中,得到不同LSTM单元的隐层表示hi。LSTM的隐藏层主要包含三个门控机制:在t时刻的输入门it、遗忘门ft和输出门Ot。LSTM隐藏层的计算通过公式(1)~(5)进行描述:
it=σ(Wixt+Uiht-1+Vict-1) (1)
ft=σ(Wfxt+Ufht-1+Vfct-1) (2)
Ot=σ(Woxt+Uoht-1+Voct-1) (3)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (4)
ht=ot*tanh(ct) (5)
其中,ct表示当前记忆单元,ct-1表示上一层记忆单元,ht表示隐层状态节点,ht-1代表前一个隐层状态节点,xt表示当前时刻t的输入,σ表示激活函数,Wi、Ui、Vi表示输入门权重矩阵,Wf、Uf、Vf表示遗忘门权重矩阵,Wo、Uo、Vo表示输出门权重矩阵,Wc、Uc表示记忆单元权重矩阵。将前向和后向序列的最后一个单元的隐层状态输出拼接,作为这个单词的隐层状态表示,通过公式(6)进行描述:
Figure BDA0003108295810000061
Figure BDA0003108295810000062
表示单词的隐层状态表示,
Figure BDA0003108295810000063
表示后向序列的最后一个单元隐层状态输出,
Figure BDA0003108295810000064
表示前向序列的最后一个单元隐层状态输出,
Figure BDA0003108295810000065
表示拼接。
将双向LSTM层数设置为1层,输出维度设置为300维,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.5;
步骤3、采用多头注意力-卷积自编码器(Muti-Head Attention-ConvolutionalAutoencoder)的端到端训练模型,可以进行软剪枝,有效提取特征。
(a)采用多头注意力机制以端到端的方式获得权重图,权重图代表依存树中节点之间的权重信息。将原始依存树转化为一个完全连通的权重图,每条边的权重视为节点之间关系的强度。因为节点之间的关系通过邻接矩阵表示,所以每一个邻接矩阵A对应于一个完全连通的图。为从不同角度捕捉关系特征,采用多头注意力机制,注意力机制的头数对应子空间的个数,获得不同子空间的特征,构建多个邻接矩阵,构建依存森林。第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分,然后通过softmax函数归一化,即将有限项离散概率分布的梯度对数归一化,获得权重图。可以通过公式(7)进行描述;
Figure BDA0003108295810000071
其中,Q,K分别为查询向量序列,键向量序列,
Figure BDA0003108295810000072
是缩放因子,
Figure BDA0003108295810000073
Figure BDA0003108295810000074
第k个头的可训练权重矩阵,
Figure BDA0003108295810000075
(b)为进一步挖掘丰富的依赖信息,采用卷积自编码器对步骤a获得的邻接矩阵进一步编码,进行特征的提取。利用编码器来提取特征,利用解码器进行重构,从而提高依存树中有效信息的利用率。编码器采用卷积层和池化层,共包含3层卷积,每个卷积操作的滤波器大小和步长分别是1×1和1。将多头注意力机制生成N个子空间表示的邻接矩阵A(1),A(2),A(3)作为一个整体特征A*∈RN×l×l输入编码器得到改变的邻接矩阵,l表示句子的长度,N表示输入编码器的通道数。将编码器输出的邻接矩阵输入解码器,解码器使用逆卷积方法,共包含3个逆卷积层,最后通过激活函数进行激活,得到维度和通道数与输入卷积自编码器的编码器矩阵相同的邻接矩阵。通过改变通道数捕获其余子空间的特征信息,使得邻接矩阵关注图更多的结构信息。
其中,编码器通过公式(8)进行描述:
A′*=σ1(A*1+b1) (8)解码器通过公式(9)进行描述:
Figure BDA0003108295810000081
其中,ω1和ω2为权重矩阵,b1和b2分别为编码器和解码器的偏置,σ1和σ2分别为编码器和解码器的激活函数,A′*
Figure BDA0003108295810000082
分别表示经过编码器和解码器获得的邻接矩阵。使用Adam作为优化器,通过网络模型训练后,得到包含更多信息的临界矩阵。
步骤4、应用图卷积网络(GCN)编码依存森林中的长距离依赖特征。将所述单词的隐层状态表示和经过卷积自编码器获得的邻接矩阵作为GCN层的输入。为了进一步编码子空间表示,邻接矩阵被输入到N个单独的图卷积网络中。具体来说,在计算第k个邻接矩阵l层节点i的卷积计算,根据邻接矩阵,使用第l-1层的卷积向量
Figure BDA0003108295810000083
计算第l层的卷积向量。当向量
Figure BDA0003108295810000084
与权重矩阵
Figure BDA0003108295810000085
计算后,与邻接矩阵
Figure BDA0003108295810000086
相乘加上偏置,通过ReLU函数进行激活,代表着节点i获取了邻居节点的特征。通过多层叠加,能够有效利用多层邻居的信息,获得了包含邻居节点及更远节点特征的节点表示。这样经过图卷积网络编码了依存森林中的长距离依赖特征。通过公式(10)进行描述:
Figure BDA0003108295810000087
其中
Figure BDA0003108295810000088
Figure BDA0003108295810000089
是第1层中第k个权值图的权重矩阵和偏置向量,n是节点个数,σ是ReLU激活函数。
步骤5、将上述步骤训练得到模型输出的不同子空间的结果进行串联,获得整合所有子空间信息的输出向量,再通过全连接获得节点的输出向量,通过公式(11)进行描述:
hcom=Wcomhall+bcom (11)
其中,hcom表示所有子空间的组合,Wcom是一个权重矩阵,bcom是偏置向量。
选择分类器对生物医学关系进行识别,通过以上步骤在权重图基础上应用GCN模型经过全连接后,得到所有标记的表示hcom。将上述步骤获得的输出向量hcom,进行maxpooling聚合特征,获得句子表示的向量。取出依存图节点中表示实体的节点,将该节点信息作为实体信息,对每个节点的
Figure BDA0003108295810000091
进行maxpooling,得到节点i的实体表示。本发明将句子表示和实体表示进行拼接,以获得用于分类目的的最终节点表示,通过公式(12)进行描述:
hfinal=[hsent;e1;…;ei] (12)
其中,hsent表示句子表示向量,e1,…,ei表示i个不同节点的节点表示,hfinal表示最终节点表示。
用Softmax进行分类获得在关系标签上的概率分布,识别生物医学文本中的关系类型。本文的模型在训练过程中使用交叉熵损失函数。
本发明方法所采用的评价指标是精确度(accuracy)。为了验证本发明提出模型的有效性,本发明在Peng提出的数据集进行实验,根据原始数据进行分区后采用五折交叉验证形式进行验证。
将本发明提出模型结果与AGGCN和LF-GCN两个模型结果进行比较,证明精度的提升,其中AGGCN模型是2019年由Guo等人提出的通过注意力矩阵构建依存森林的生物医学关系抽取模型,LF-GCN模型是2020年由Guo等人提出用矩阵树定理的变体自动诱导依赖结构的生物医学关系抽取模型。实验结果如表1所示:
表1
Figure BDA0003108295810000092
从表1的实验结果可以看出,本发明提出的模型在三元关系抽取中,在二分类和多分类的结果中都得到有效提升,其中三元关系的多分类关系抽取在LF-GCN的基础上提升3%,可以说明在捕获三元关系多分类抽取的特征更加准确,有效提升了关系抽取的精度。在二元关系抽取的多分类结果中也得到提升,虽然在跨句二元关系抽取的二分类结果上,本模型比LF-GCN结果相差0.2个百分点,但我们模型提高了关系抽取的效率。
表2
Figure BDA0003108295810000101
我们在单个NVIDIA TITAN XP GPU上进行测试,以50作为batch size得到表2的结果。从表2的实验结果可以看出,在训练和验证过程中,我们的模型速度有较大提升,证明模型提高了医学关系抽取的效率。
本发明方法具有以下优点:使用端到端的训练方法,可以自动的学习依存森林中的结构特征;提出多头注意力-卷积自编码器的特征提取模型,通过引入卷积自编码器可以更有效地捕获依存信息;在提高关系抽取精确度基础上,提升了关系抽取效率,增强了实际应用价值。本发明在Peng提出的跨句级别生物医学关系抽取语料的测试集上取得良好效果。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (10)

1.一种基于图卷积自编码的生物医学关系抽取方法,其特征在于包括以下步骤:
步骤1、使用生物领域的文本信息,将基于通用领域获得的Glove英文词向量进行训练,获得词向量表示,引入位置信息得到最终的词向量表示;
步骤2、通过上下文编码器捕获词向量的向量序列中的上下文信息,获取单词的隐层状态表示;
步骤3、采用多头注意力机制获得不同子空间的特征,构建多个邻接矩阵,并构建依存森林;
步骤4、卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度、通道数与输入矩阵相同的邻接矩阵;
步骤5、将从步骤2获得的单词的隐层状态表示和步骤4重构的邻接矩阵输入到N个单独的图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中的长距离依赖特征;
步骤6、将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点的输出向量;
步骤7、将所述输出向量进行聚合特征,获得句子表示;对依存图节点中表示实体的节点的输出向量进行聚合特征,获得节点的实体表示,将句子表示和实体表示进行拼接,获得用于分类目的的最终节点表示;
步骤8、获得在关系标签上的概率分布,识别生物医学文本中的关系类型。
2.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤2中将步骤1得到的词向量输入到每个LSTM单元中,得到不同LSTM单元的隐层表示hi,将当前单词前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词隐层状态表示。
3.如权利要求2所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤2中双向LSTM层数设置为1层,输出维度设置为300维,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.5。
4.如权利要求2所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,
步骤2中LSTM单元的隐藏层主要包含三个门控机制:
在t时刻的输入门it、遗忘门ft和输出门Ot
LSTM隐藏层的计算通过公式(1)~(5)进行描述:
it=σ(Wixt+Uiht-1+Vict-1) (1)
ft=σ(Wfxt+Ufht-1+Vfct-1) (2)
Ot=σ(Woxt+Uoht-1+Voct-1) (3)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (4)
ht=ot*tanh(ct) (5)
其中,ct表示当前记忆单元,ct-1表示上一层记忆单元,ht表示隐层状态节点,ht-1代表前一个隐层状态节点,xt表示当前时刻t的输入,σ表示激活函数,Wi、Ui、Vi表示输入门权重矩阵,Wf、Uf、Vf表示遗忘门权重矩阵,Wo、Uo、VO表示输出门权重矩阵,Wc、Uc表示记忆单元权重矩阵;
将前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词的隐层状态表示,通过公式(6)进行描述:
Figure FDA0003108295800000021
Figure FDA0003108295800000022
表示单词的隐层状态表示,
Figure FDA0003108295800000023
表示后向序列的最后一个单元隐层状态输出,
Figure FDA0003108295800000024
表示前向序列的最后一个单元隐层状态输出,
Figure FDA0003108295800000025
表示拼接。
5.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤3中依存森林第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分,然后通过softmax函数进行归一化,将有限项离散概率分布的梯度对数归一化,获得权重图,通过公式(7)描述邻接矩阵;
Figure FDA0003108295800000031
其中,Q、K分别表示查询向量序列,键向量序列,
Figure FDA0003108295800000032
是缩放因子,
Figure FDA0003108295800000033
Figure FDA0003108295800000034
表示第k个头的可训练权重矩阵,
Figure FDA0003108295800000035
的权重矩阵维度都是d*d。
6.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤4中编码器采用卷积层和池化层,共包含3层卷积,每个卷积操作的滤波器大小和步长分别是1×1和1,将多头注意力机制生成N个子空间表示的邻接矩阵A(1),A(2),A(3)作为一个整体特征A*输入编码器得到改变的邻接矩阵,l表示句子的长度,N表示输入编码器的通道数,A*∈RN×l×l,维度为N×l×l;将编码器输出的邻接矩阵输入解码器,解码器使用逆卷积方法,共包含3个逆卷积层,最后通过激活函数进行激活,得到通道数和维数与输入卷积自编码器的编码器矩阵相同的邻接矩阵,通过改变通道数捕获其余子空间的特征信息,使得邻接矩阵关注图更多的结构信息;
编码器通过公式(8)进行描述:
A′*=σ1(A*1+b1) (8)
解码器通过公式(9)进行描述:
Figure FDA0003108295800000036
其中,ω1和ω2为权重矩阵,b1和b2分别为编码器和解码器的偏置,σ1和σ2分别为编码器和解码器的激活函数,A′*
Figure FDA0003108295800000037
分别表示经过编码器和解码器获得的邻接矩阵。
7.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤5中计算第k个邻接矩阵l层节点i的卷积,根据邻接矩阵,使用第l-1层的卷积向量
Figure FDA0003108295800000038
计算第l层的卷积向量,当向量
Figure FDA0003108295800000039
与权重矩阵
Figure FDA00031082958000000310
计算后,再与邻接矩阵
Figure FDA00031082958000000311
相乘,加上偏置,通过ReLU函数进行激活,代表着节点i获取了邻居节点的特征;通过多层叠加,获得包含邻居节点及更远节点特征的节点表示,图卷积网络编码依存森林中的长距离依赖特征,通过公式(10)进行描述:
Figure FDA0003108295800000041
其中
Figure FDA0003108295800000042
Figure FDA0003108295800000043
是第1层中第k个权值图的权重矩阵和偏置向量,n是节点个数,σ是ReLU激活函数。
8.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤6中通过公式(11)进行描述:
hcom=Wcomhall+bcom (11)
其中,hcom表示所有子空间的组合,Wcom是一个权重矩阵,bcom是偏置向量。
9.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤7中通过公式(12)进行描述:
hfinal=[hsent;e1;…;ei] (12)
其中,hsent表示句子表示向量,e1,…,ei表示i个不同节点的节点表示,hfinal表示最终节点表示。
10.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤8中用Softmax进行分类获得在关系标签上的概率分布。
CN202110643976.0A 2021-06-09 2021-06-09 一种基于图卷积自编码的生物医学关系抽取方法 Active CN113468874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110643976.0A CN113468874B (zh) 2021-06-09 2021-06-09 一种基于图卷积自编码的生物医学关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110643976.0A CN113468874B (zh) 2021-06-09 2021-06-09 一种基于图卷积自编码的生物医学关系抽取方法

Publications (2)

Publication Number Publication Date
CN113468874A true CN113468874A (zh) 2021-10-01
CN113468874B CN113468874B (zh) 2024-04-16

Family

ID=77869690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110643976.0A Active CN113468874B (zh) 2021-06-09 2021-06-09 一种基于图卷积自编码的生物医学关系抽取方法

Country Status (1)

Country Link
CN (1) CN113468874B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024021334A1 (zh) * 2022-07-29 2024-02-01 苏州思萃人工智能研究所有限公司 关系抽取方法、计算机设备及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
WO2020140633A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本主题提取方法、装置、电子设备及存储介质
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
WO2020140633A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本主题提取方法、装置、电子设备及存储介质
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024021334A1 (zh) * 2022-07-29 2024-02-01 苏州思萃人工智能研究所有限公司 关系抽取方法、计算机设备及程序产品

Also Published As

Publication number Publication date
CN113468874B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111259142B (zh) 基于注意力编码和图卷积网络的特定目标情感分类方法
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN111127146B (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
CN111611377A (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN114638228A (zh) 一种基于词集自注意力的中文命名实体识别方法
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN113468874B (zh) 一种基于图卷积自编码的生物医学关系抽取方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant