CN113468874B - 一种基于图卷积自编码的生物医学关系抽取方法 - Google Patents
一种基于图卷积自编码的生物医学关系抽取方法 Download PDFInfo
- Publication number
- CN113468874B CN113468874B CN202110643976.0A CN202110643976A CN113468874B CN 113468874 B CN113468874 B CN 113468874B CN 202110643976 A CN202110643976 A CN 202110643976A CN 113468874 B CN113468874 B CN 113468874B
- Authority
- CN
- China
- Prior art keywords
- encoder
- representing
- matrix
- representation
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000001419 dependent effect Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 8
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
一种基于图卷积自编码的生物医学关系抽取方法,为了充分利用依赖关系,有效捕获语义结构,并降低计算成本,包括卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度与输入矩阵相同的邻接矩阵;将从获得单词的隐层状态表示和重构的邻接矩阵输入到N个单独图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中长距离依赖特征;将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点输出向量后进行关系分类,实验结果证明,本模型可以更有效地捕获依赖信息,获取语义结构。
Description
技术领域
本发明属于文本信息处理领域,确切的说,是一种基于卷积自编码器的图神经网络生物医学关系抽取方法。
背景技术
医学关系抽取作为信息抽取的一种形式,旨在从互联网中海量的医学信息中快速、准确地检测出与医学相关的多个实体之间关系事实,将非结构化描述的自然文本转化为结构化数据,为辅助医疗、药物开发、生命科学等多种研究提供了重要基础。同时,生物医学关系抽取是信息检索、智能问答、智能对话等人工智能应用任务的基石,所以,提升医学关系抽取的效率和精确度具有实际意义。
现今生物医学文献中,实体对位于不同句子中的情况十分常见,生物医学实体关系抽取已经从句子级别逐步扩展到语境特征更加复杂的跨句级别抽取。跨句级别的实体关系抽取需要处理多个句子,不仅句子信息大幅度增加,而且跨句子实体语义关系也更为复杂。
以往的方法将生物医学关系抽取当作多分类任务,通过构造特征表示,进行训练并给出分类结果。现有的关系抽取模型可以分为两类:基于序列的模型和基于依赖的模型。基于序列的模型只对单词序列进行编码,获得文本的上下文语义信息,如常见的卷积神经网络和循环神经网络;基于依赖的模型则运用依存树得到的语义图来获得句子的表示,在获得长距离依赖关系方面被证明是有效的,可以捕获更加有用的信息。如:用依存树捕获文本特征,可以实现跨句多元关系的抽取,但是计算成本很高,并且在医学领域的分析精度较低。使用完全依存森林对所有可能的树进行编码,提升精度,但是降低了运算速率,不利于在海量文献中进行关系抽取。
综上所述,如何充分利用依赖关系,提高复杂语境下生物医学关系抽取的性能,建立表现优秀的跨句级生物医学关系抽取模型,提高关系抽取的效率,使其拥有实际的应用价值是迫切需要解决的问题。
发明内容
为实现充分利用依赖关系,有效捕获语义结构,并降低计算成本,本发明提供了一种基于图卷积自编码的生物医学关系抽取方法,包括以下步骤:
步骤1、使用生物领域的文本信息,将基于通用领域获得的Glove英文词向量进行训练,获得词向量表示,引入位置信息得到最终的词向量表示;
步骤2、通过上下文编码器捕获词向量的向量序列中的上下文信息,获取单词的隐层状态表示;
步骤3、采用多头注意力机制获得不同子空间的特征,构建多个邻接矩阵,并构建依存森林;
步骤4、卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度、通道数与输入矩阵相同的邻接矩阵;
步骤5、将从步骤2获得的单词的隐层状态表示和步骤4重构的邻接矩阵输入到N个单独的图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中的长距离依赖特征;
步骤6、将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点的输出向量;
步骤7、将所述输出向量进行聚合特征,获得句子表示;对依存图节点中表示实体的节点的输出向量进行聚合特征,获得节点的实体表示,将句子表示和实体表示进行拼接,获得用于分类目的的最终节点表示;
步骤8、获得在关系标签上的概率分布,识别生物医学文本中的关系类型。
进一步的,步骤2中将步骤1得到的词向量输入到每个LSTM单元中,得到不同LSTM单元的隐层表示hi,将当前单词前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词隐层状态表示。
进一步的,步骤2中双向LSTM层数设置为1层,输出维度设置为300维,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.5。
进一步的,
步骤2中LSTM单元的隐藏层主要包含三个门控机制:
在t时刻的输入门it、遗忘门ft和输出门Ot,
LSTM隐藏层的计算通过公式(1)~(5)进行描述:
it=σ(Wixt+Uiht-1+Vict-1) (1)
ft=σ(Wfxt+Ufht-1+Vfct-1) (2)
Ot=σ(Woxt+Uoht-1+Voct-1) (3)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (4)
ht=ot*tanh(ct) (5)
其中,ct表示当前记忆单元,ct-1表示上一层记忆单元,ht表示隐层状态节点,ht-1代表前一个隐层状态节点,xt表示当前时刻t的输入,σ表示激活函数,Wi、Ui、Vi表示输入门权重矩阵,Wf、Uf、Vf表示遗忘门权重矩阵,Wo、Uo、Vo表示输出门权重矩阵,Wc、Uc表示记忆单元权重矩阵;
将前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词的隐层状态表示,通过公式(6)进行描述:
表示单词的隐层状态表示,/>表示后向序列的最后一个单元隐层状态输出,/>表示前向序列的最后一个单元隐层状态输出,/>表示拼接。
进一步的,步骤3中依存森林第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分,然后通过softmax函数进行归一化,将有限项离散概率分布的梯度对数归一化,获得权重图,通过公式(7)描述邻接矩阵;
其中,Q、K分别表示查询向量序列,键向量序列,是缩放因子,/>和/>表示第k个头的可训练权重矩阵,/>的权重矩阵维度都是d*d。
进一步的,步骤4中编码器采用卷积层和池化层,共包含3层卷积,每个卷积操作的滤波器大小和步长分别是1×1和1,将多头注意力机制生成N个子空间表示的邻接矩阵A(1),A(2),A(3)作为一个整体特征A*输入编码器得到改变的邻接矩阵,l表示句子的长度,N表示输入编码器的通道数,A*∈RN×l×l,维度为N×l×l;将编码器输出的邻接矩阵输入解码器,解码器使用逆卷积方法,共包含3个逆卷积层,最后通过激活函数进行激活,得到通道数和维数与输入卷积自编码器的编码器矩阵相同的邻接矩阵。通过改变通道数捕获其余子空间的特征信息,使得邻接矩阵关注图更多的结构信息;
编码器通过公式(8)进行描述:
A′*=σ1(A**ω1+b1) (8)
解码器通过公式(9)进行描述:
其中,ω1和ω2为权重矩阵,b1和b2分别为编码器和解码器的偏置,σ1和σ2分别为编码器和解码器的激活函数,A′*和分别表示经过编码器和解码器获得的邻接矩阵。
进一步的,步骤5中计算第k个邻接矩阵l层节点i的卷积,根据邻接矩阵,使用第l-1层的卷积向量计算第l层的卷积向量,当向量/>与权重矩阵/>计算后,再与邻接矩阵/>相乘,加上偏置,通过ReLU函数进行激活,代表着节点i获取了邻居节点的特征;通过多层叠加,获得包含邻居节点及更远节点特征的节点表示,图卷积网络编码依存森林中的长距离依赖特征,通过公式(10)进行描述:
其中和/>是第1层中第k个权值图的权重矩阵和偏置向量,n是节点个数,σ是ReLU激活函数。
进一步的,步骤6中通过公式(11)进行描述:
hcom=Wcomhall+bcom (11)
其中,hcom表示所有子空间的组合,Wcom是一个权重矩阵,bcom是偏置向量。
进一步的,步骤7中通过公式(12)进行描述:
hfinal=[hsent;e1;…;ei] (12)
其中,hsent表示句子表示向量,e1,…,ei表示i个不同节点的节点表示,hfinal表示最终节点表示。
进一步的,步骤8中用Softmax进行分类获得在关系标签上的概率分布。
本发明有益效果是:本发明是跨句级别的生物医学关系抽取方法,使用端到端的训练方法,可以自动学习依存森林中的结构特征;提出多头注意力-卷积自编码器的特征提取模型,通过引入卷积自编码器可以更有效地捕获依存信息;在提高关系抽取精确度的基础上,提升了关系抽取效率,增强了实际应用价值。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上取得了良好结果。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的医学关系抽取模型框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明提供了一种基于图卷积自编码的生物医学关系抽取方法及模型(简称ACA-GCN)。该方法首先通过双向LSTM网络获得包含上下文信息的隐层状态表示,通过注意力机制(Attention)有效地融合跨句级别的特征,然后通过卷积自编码器进一步对特征进行提取,获得邻接矩阵,再通过图卷积网络聚合长距离依赖关系,经过线性组合后通过分类器,得到生物医学实体之间的关系,完成关系抽取。其中基于图卷积自编码的生物医学关系抽取方法,简要的包括以下步骤:(1)构建单词的分布式表示,(2)生成隐层表示,(3)构造基于多头注意力-卷积自编码器的特征表示,(4)使用图卷积网络编码依存森林,(5)选择分类器对生物医学关系进行识别。与已有技术对比,方法具有以下优点:使用端到端的训练方法,可以自动的学习依存森林中的结构特征;提出多头注意力-卷积自编码器模型,通过引入卷积自编码器可以更有效地进行特征提取;在提高关系抽取精确度的基础上,提升了关系抽取效率,增强了实际应用价值。
具体的:
如图1所示,一种基于图卷积自编码的生物医学关系抽取方法,包括以下步骤:
步骤1、使用生物领域的文本信息,将基于通用领域获得的Glove英文词向量进行训练,获得词向量表示。引入位置信息后,得到最终的词表示。
步骤2、将上一步骤中获得的词向量输入到上下文编码器,捕获向量序列中的上下文信息。为了获取句子中跨度较远词的特征,获取长依赖的,有效的上下文信息,将步骤1得到的词向量按照公式输入到每个LSTM的单元中,得到不同LSTM单元的隐层表示hi。LSTM的隐藏层主要包含三个门控机制:在t时刻的输入门it、遗忘门ft和输出门Ot。LSTM隐藏层的计算通过公式(1)~(5)进行描述:
it=σ(Wixt+Uiht-1+Vict-1) (1)
ft=σ(Wfxt+Ufht-1+Vfct-1) (2)
Ot=σ(Woxt+Uoht-1+Voct-1) (3)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (4)
ht=ot*tanh(ct) (5)
其中,ct表示当前记忆单元,ct-1表示上一层记忆单元,ht表示隐层状态节点,ht-1代表前一个隐层状态节点,xt表示当前时刻t的输入,σ表示激活函数,Wi、Ui、Vi表示输入门权重矩阵,Wf、Uf、Vf表示遗忘门权重矩阵,Wo、Uo、Vo表示输出门权重矩阵,Wc、Uc表示记忆单元权重矩阵。将前向和后向序列的最后一个单元的隐层状态输出拼接,作为这个单词的隐层状态表示,通过公式(6)进行描述:
表示单词的隐层状态表示,/>表示后向序列的最后一个单元隐层状态输出,/>表示前向序列的最后一个单元隐层状态输出,/>表示拼接。
将双向LSTM层数设置为1层,输出维度设置为300维,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.5;
步骤3、采用多头注意力-卷积自编码器(Muti-Head Attention-ConvolutionalAutoencoder)的端到端训练模型,可以进行软剪枝,有效提取特征。
(a)采用多头注意力机制以端到端的方式获得权重图,权重图代表依存树中节点之间的权重信息。将原始依存树转化为一个完全连通的权重图,每条边的权重视为节点之间关系的强度。因为节点之间的关系通过邻接矩阵表示,所以每一个邻接矩阵A对应于一个完全连通的图。为从不同角度捕捉关系特征,采用多头注意力机制,注意力机制的头数对应子空间的个数,获得不同子空间的特征,构建多个邻接矩阵,构建依存森林。第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分,然后通过softmax函数归一化,即将有限项离散概率分布的梯度对数归一化,获得权重图。可以通过公式(7)进行描述;
其中,Q,K分别为查询向量序列,键向量序列,是缩放因子,/>和/>第k个头的可训练权重矩阵,/>
(b)为进一步挖掘丰富的依赖信息,采用卷积自编码器对步骤a获得的邻接矩阵进一步编码,进行特征的提取。利用编码器来提取特征,利用解码器进行重构,从而提高依存树中有效信息的利用率。编码器采用卷积层和池化层,共包含3层卷积,每个卷积操作的滤波器大小和步长分别是1×1和1。将多头注意力机制生成N个子空间表示的邻接矩阵A(1),A(2),A(3)作为一个整体特征A*∈RN×l×l输入编码器得到改变的邻接矩阵,l表示句子的长度,N表示输入编码器的通道数。将编码器输出的邻接矩阵输入解码器,解码器使用逆卷积方法,共包含3个逆卷积层,最后通过激活函数进行激活,得到维度和通道数与输入卷积自编码器的编码器矩阵相同的邻接矩阵。通过改变通道数捕获其余子空间的特征信息,使得邻接矩阵关注图更多的结构信息。
其中,编码器通过公式(8)进行描述:
A′*=σ1(A**ω1+b1) (8)解码器通过公式(9)进行描述:
其中,ω1和ω2为权重矩阵,b1和b2分别为编码器和解码器的偏置,σ1和σ2分别为编码器和解码器的激活函数,A′*和分别表示经过编码器和解码器获得的邻接矩阵。使用Adam作为优化器,通过网络模型训练后,得到包含更多信息的临界矩阵。
步骤4、应用图卷积网络(GCN)编码依存森林中的长距离依赖特征。将所述单词的隐层状态表示和经过卷积自编码器获得的邻接矩阵作为GCN层的输入。为了进一步编码子空间表示,邻接矩阵被输入到N个单独的图卷积网络中。具体来说,在计算第k个邻接矩阵l层节点i的卷积计算,根据邻接矩阵,使用第l-1层的卷积向量计算第l层的卷积向量。当向量/>与权重矩阵/>计算后,与邻接矩阵/>相乘加上偏置,通过ReLU函数进行激活,代表着节点i获取了邻居节点的特征。通过多层叠加,能够有效利用多层邻居的信息,获得了包含邻居节点及更远节点特征的节点表示。这样经过图卷积网络编码了依存森林中的长距离依赖特征。通过公式(10)进行描述:
其中和/>是第1层中第k个权值图的权重矩阵和偏置向量,n是节点个数,σ是ReLU激活函数。
步骤5、将上述步骤训练得到模型输出的不同子空间的结果进行串联,获得整合所有子空间信息的输出向量,再通过全连接获得节点的输出向量,通过公式(11)进行描述:
hcom=Wcomhall+bcom (11)
其中,hcom表示所有子空间的组合,Wcom是一个权重矩阵,bcom是偏置向量。
选择分类器对生物医学关系进行识别,通过以上步骤在权重图基础上应用GCN模型经过全连接后,得到所有标记的表示hcom。将上述步骤获得的输出向量hcom,进行maxpooling聚合特征,获得句子表示的向量。取出依存图节点中表示实体的节点,将该节点信息作为实体信息,对每个节点的进行maxpooling,得到节点i的实体表示。本发明将句子表示和实体表示进行拼接,以获得用于分类目的的最终节点表示,通过公式(12)进行描述:
hfinal=[hsent;e1;…;ei] (12)
其中,hsent表示句子表示向量,e1,…,ei表示i个不同节点的节点表示,hfinal表示最终节点表示。
用Softmax进行分类获得在关系标签上的概率分布,识别生物医学文本中的关系类型。本文的模型在训练过程中使用交叉熵损失函数。
本发明方法所采用的评价指标是精确度(accuracy)。为了验证本发明提出模型的有效性,本发明在Peng提出的数据集进行实验,根据原始数据进行分区后采用五折交叉验证形式进行验证。
将本发明提出模型结果与AGGCN和LF-GCN两个模型结果进行比较,证明精度的提升,其中AGGCN模型是2019年由Guo等人提出的通过注意力矩阵构建依存森林的生物医学关系抽取模型,LF-GCN模型是2020年由Guo等人提出用矩阵树定理的变体自动诱导依赖结构的生物医学关系抽取模型。实验结果如表1所示:
表1
从表1的实验结果可以看出,本发明提出的模型在三元关系抽取中,在二分类和多分类的结果中都得到有效提升,其中三元关系的多分类关系抽取在LF-GCN的基础上提升3%,可以说明在捕获三元关系多分类抽取的特征更加准确,有效提升了关系抽取的精度。在二元关系抽取的多分类结果中也得到提升,虽然在跨句二元关系抽取的二分类结果上,本模型比LF-GCN结果相差0.2个百分点,但我们模型提高了关系抽取的效率。
表2
我们在单个NVIDIA TITAN XP GPU上进行测试,以50作为batch size得到表2的结果。从表2的实验结果可以看出,在训练和验证过程中,我们的模型速度有较大提升,证明模型提高了医学关系抽取的效率。
本发明方法具有以下优点:使用端到端的训练方法,可以自动的学习依存森林中的结构特征;提出多头注意力-卷积自编码器的特征提取模型,通过引入卷积自编码器可以更有效地捕获依存信息;在提高关系抽取精确度基础上,提升了关系抽取效率,增强了实际应用价值。本发明在Peng提出的跨句级别生物医学关系抽取语料的测试集上取得良好效果。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (8)
1.一种基于图卷积自编码的生物医学关系抽取方法,其特征在于包括以下步骤:
步骤1、使用生物领域的文本信息,将基于通用领域获得的Glove英文词向量进行训练,获得词向量表示,引入位置信息得到最终的词向量表示;
步骤2、通过上下文编码器捕获词向量的向量序列中的上下文信息,获取单词的隐层状态表示;
步骤3、采用多头注意力机制获得不同子空间的特征,构建多个邻接矩阵,并构建依存森林;
步骤4、卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码,通过解码器对编码器输出的邻接矩阵进行重构,得到维度、通道数与输入矩阵相同的邻接矩阵;
步骤5、将从步骤2获得的单词的隐层状态表示和步骤4重构的邻接矩阵输入到N个单独的图卷积网络中,编码不同子空间表示,使图卷积网络编码依存森林中的长距离依赖特征;
步骤6、将不同子空间表示串联,获得所有子空间信息的输出向量,经过全连接层获得各节点的输出向量;
步骤7、将所述输出向量进行聚合特征,获得句子表示;对依存图节点中表示实体的节点的输出向量进行聚合特征,获得节点的实体表示,将句子表示和实体表示进行拼接,获得用于分类目的的最终节点表示;
步骤8、获得在关系标签上的概率分布,识别生物医学文本中的关系类型;
步骤3中依存森林第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分,然后通过softmax函数进行归一化,将有限项离散概率分布的梯度对数归一化,获得权重图,通过公式(7)描述邻接矩阵;
其中,Q、K分别表示查询向量序列,键向量序列,是缩放因子,/>和/>表示第k个头的可训练权重矩阵,/>的权重矩阵维度都是d*d;
步骤4中编码器采用卷积层和池化层,共包含3层卷积,每个卷积操作的滤波器大小和步长分别是1×1和1,将多头注意力机制生成N个子空间表示的邻接矩阵A(1),A(2),A(3)作为一个整体特征A*输入编码器得到改变的邻接矩阵,l表示句子的长度,N表示输入编码器的通道数,A*∈RN×l×l,维度为N×l×l;将编码器输出的邻接矩阵输入解码器,解码器使用逆卷积方法,共包含3个逆卷积层,最后通过激活函数进行激活,得到通道数和维数与输入卷积自编码器的编码器矩阵相同的邻接矩阵,通过改变通道数捕获其余子空间的特征信息,使得邻接矩阵关注图更多的结构信息;
编码器通过公式(8)进行描述:
A'*=σ1(A**ω1+b1) (8)
解码器通过公式(9)进行描述:
其中,ω1和ω2分别为卷积核与反卷积核,b1和b2分别为编码器和解码器的偏置,σ1和σ2分别为编码器和解码器的激活函数,A'*和分别表示经过编码器和解码器获得的邻接矩阵。
2.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤2中将步骤1得到的词向量输入到每个LSTM单元中,得到不同LSTM单元的隐层表示hi,将当前单词前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词隐层状态表示。
3.如权利要求2所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤2中双向LSTM层数设置为1层,输出维度设置为300维,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.5。
4.如权利要求2所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤2中LSTM单元的隐藏层主要包含三个门控机制:
在t时刻的输入门it、遗忘门ft和输出门Ot,
LSTM隐藏层的计算通过公式(1)~(5)进行描述:
it=σ(Wixt+Uiht-1+Vict-1) (1)
ft=σ(Wfxt+Ufht-1+Vfct-1) (2)
Ot=σ(Woxt+Uoht-1+Voct-1) (3)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (4)
ht=ot*tanh(ct) (5)
其中,ct表示当前记忆单元,ct-1表示上一层记忆单元,ht表示隐层状态节点,ht-1代表前一个隐层状态节点,xt表示当前时刻t的输入,σ表示激活函数,Wi、Ui、Vi表示输入门权重矩阵,Wf、Uf、Vf表示遗忘门权重矩阵,Wo、Uo、Vo表示输出门权重矩阵,Wc、Uc表示记忆单元权重矩阵;
将前向和后向序列的最后一个单元隐层状态输出拼接,作为当前单词的隐层状态表示,通过公式(6)进行描述:
表示单词的隐层状态表示,/>表示后向序列的最后一个单元隐层状态输出,表示前向序列的最后一个单元隐层状态输出,/>表示拼接。
5.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤5中计算第k个邻接矩阵l层节点i的卷积,根据邻接矩阵,使用第l-1层的卷积向量计算第l层的卷积向量,当向量/>与权重矩阵/>计算后,再与邻接矩阵/>相乘,加上偏置,通过ReLU函数进行激活,代表着节点i获取了邻居节点的特征;通过多层叠加,获得包含邻居节点及更远节点特征的节点表示,图卷积网络编码依存森林中的长距离依赖特征,通过公式(10)进行描述:
其中和/>是第1层中第k个权值图的权重矩阵和偏置向量,n是节点个数,σ是ReLU激活函数。
6.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤6中通过公式(11)进行描述:
hcom=Wcomhall+bcom (11)
其中,hcom表示所有子空间的组合,Wcom是一个权重矩阵,bcom是偏置向量。
7.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤7中通过公式(12)进行描述:
hfinal=[hsent;e1;…;ei] (12)
其中,hsent表示句子表示向量,e1,…,ei表示i个不同节点的节点表示,hfinal表示最终节点表示。
8.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法,其特征在于,步骤8中用Softmax进行分类获得在关系标签上的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110643976.0A CN113468874B (zh) | 2021-06-09 | 2021-06-09 | 一种基于图卷积自编码的生物医学关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110643976.0A CN113468874B (zh) | 2021-06-09 | 2021-06-09 | 一种基于图卷积自编码的生物医学关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468874A CN113468874A (zh) | 2021-10-01 |
CN113468874B true CN113468874B (zh) | 2024-04-16 |
Family
ID=77869690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110643976.0A Active CN113468874B (zh) | 2021-06-09 | 2021-06-09 | 一种基于图卷积自编码的生物医学关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468874B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392219A (zh) * | 2022-07-29 | 2022-11-25 | 苏州思萃人工智能研究所有限公司 | 一种关系抽取方法、计算机设备及程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
WO2020140633A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置、电子设备及存储介质 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329884A1 (en) * | 2017-05-12 | 2018-11-15 | Rsvp Technologies Inc. | Neural contextual conversation learning |
-
2021
- 2021-06-09 CN CN202110643976.0A patent/CN113468874B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140633A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置、电子设备及存储介质 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113468874A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN111259142B (zh) | 基于注意力编码和图卷积网络的特定目标情感分类方法 | |
CN111611377B (zh) | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN109977413B (zh) | 一种基于改进cnn-lda的情感分析方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111026869B (zh) | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN111127146B (zh) | 基于卷积神经网络与降噪自编码器的信息推荐方法及系统 | |
CN112328900A (zh) | 一种融合评分矩阵和评论文本的深度学习推荐方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN108108354A (zh) | 一种基于深度学习的微博用户性别预测方法 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN113468874B (zh) | 一种基于图卷积自编码的生物医学关系抽取方法 | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |