CN112883738A - 基于神经网络和自注意力机制的医学实体关系抽取方法 - Google Patents

基于神经网络和自注意力机制的医学实体关系抽取方法 Download PDF

Info

Publication number
CN112883738A
CN112883738A CN202110316876.7A CN202110316876A CN112883738A CN 112883738 A CN112883738 A CN 112883738A CN 202110316876 A CN202110316876 A CN 202110316876A CN 112883738 A CN112883738 A CN 112883738A
Authority
CN
China
Prior art keywords
vector
sentence
word
information
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110316876.7A
Other languages
English (en)
Inventor
李天瑞
张世豪
贾真
杜圣东
滕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202110316876.7A priority Critical patent/CN112883738A/zh
Publication of CN112883738A publication Critical patent/CN112883738A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络和自注意力机制的医学实体关系抽取方法,该方法包括:利用向量表示技术将医学文本语句向量化;利用双向长短期记忆网络学习医学文本语句的上下文信息和浅层语义特征;利用多通道自注意力机制学习医学文本语句的深层次全局语义特征;利用卷积神经网络学习医学文本语句的局部短语特征;将全局信息和局部信息进行拼接,用其进行关系判定,得到预测标签。本发明在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制,可以同时捕获语句的上下文信息、局部信息和全局信息,从而对医学文本的语义特征进行深入挖掘,从多个方面深度、完整地表示语句的语义特征,从而提高关系抽取的效果。

Description

基于神经网络和自注意力机制的医学实体关系抽取方法
技术领域
本发明属于自然语言处理技术领域,特别是一种基于神经网络和自注意力机制的医学实体关系抽取方法。
背景技术
随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,这其中包含了大量有价值的信息。如何从这些医学文本中挖掘出有效的信息并加以存储管理,以构建大规模、高质量的医学知识图谱,对医学信息化的发展具有重大意义,也是自然语言处理领域的研究热点。实体关系抽取作为医学文本结构化信息抽取的核心任务之一,旨在从非结构化文本中自动地抽取出实体对之间的语义关系,从而提取出有效的语义信息。
传统的医学实体关系抽取方法包括基于规则的方法、基于特征向量的方法和基于核函数的方法。基于规则的方法使用句子分析工具来识别文本中的句法元素,然后根据这些元素构建模式规则,并根据规则进行关系抽取。基于特征向量的方法主要是根据特征向量的相似度训练支持向量机、最大熵、条件随机场等机器学习模型进行关系抽取。基于核函数的方法通过设计特定核函数来计算句子之间的相似度,根据相似度进行关系的分类。这些方法虽然都取得了一定的效果,但需要依赖人工设计的规则或特征,从而使得模型的性能取决于人工手动设计的规则或特征的质量。近年来,随着深度学习的发展,以神经网络为主的方法被应用到关系抽取任务中,并取得了很多研究成果。该方法不依赖人工设计特征,完全由神经网络自动学习相关的所有特征。
目前,以卷积神经网络和循环神经网络为代表的深度学习方法在医学实体关系抽取任务上取得了突破。卷积神经网络能够捕获语句中的局部信息,但忽略了全局信息的作用。循环神经网络可以有效学习文本序列的上下文依赖关系,但无法挖掘句法和语义层面的特征。以循环神经网络和卷积神经网络相结合的“recurrent+CNN”网络框架是医学实体关系抽取任务中的主流基准模型,可以同时捕获语句的上下文信息和局部信息。因医学领域的特殊性,医学文本存在实体分布密度较高、语句长度分布不均等现象,使得“recurrent+CNN”网络框架无法深入挖掘医学文本语句的语义特征,并且不能处理过长的医学语句的长距离依赖问题。基于此,本发明采用一种基于神经网络和自注意力机制的关系抽取模型BLSTM-MCatt-CNN,该模型采用“recurrent+CNN”网络框架,其中的recurrent利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘,同时能有效地捕获长距离依赖。
发明内容
为了解决医学文本存在实体分布密度较高、语句长度分布不均等导致的抽取效果不佳的问题,本发明提出了一种基于神经网络和自注意力机制的关系抽取模型。该模型利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘,同时处理长距离依赖。
基于神经网络和自注意力机制的医学实体关系抽取方法,包括以下步骤:
步骤1:将含有两个实体的医学文本语句序列X向量化,得到输入特征向量W,具体为:
1.1字向量:将长度为n的语句序列X=(x1,x2,...,xn)中的字xi转换成一个低维的稠密实值向量
Figure BDA0002987805150000021
字的字向量由字嵌入矩阵Wchar中的一个向量编码表示,Wchar的维度为|V|×dchar,其中|V|是固定大小的输入字表,dchar是字向量的维度;其中,i∈[1,2,...,n];
1.2位置向量:对于语句序列X中的字xi,计算其到实体的距离:
Figure BDA0002987805150000022
其中,pi表示字xi在语句序列X中的位置,
Figure BDA0002987805150000023
表示实体ej在语句序列X中的位置;将字xi与两个实体的距离映射到位置特征空间上一个随机初始化的位置向量上,维度为dp;字xi包含两个位置向量
Figure BDA0002987805150000024
1.3将字向量和位置向量拼接起来,获得字xi的特征向量
Figure BDA0002987805150000025
维度为d=dchar+2dp
1.4将医学文本语句的输入特征向量表示为W=(w1,w2,...,wn);
步骤2:利用双向长短期记忆网络BLSTM从输入特征向量W中学习到医学文本语句的上下文信息和浅层语义特征,得到句子向量H,具体为:
所述BLSTM由一个前向LSTM网络和一个后向LSTM网络组合而成;所述前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流,并结合细胞状态c实现对历史信息的更新、取舍和存储;其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态ht-1和前一时刻细胞状态ct-1
t时刻输入门it和遗忘门ft的计算方式为:
Figure BDA0002987805150000034
Figure BDA0002987805150000035
其中σ(·)代表sigmoid函数,
Figure BDA0002987805150000036
表示哈达玛(Hadamard)乘积,Wwi、Whi、Wci为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wwf、Whf、Wcf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量;
之后,获得当前时刻t的细胞状态ct,其计算方式为:
Figure BDA0002987805150000037
其中tanh(·)代表双曲正切函数,Wwc、Whc为当前细胞状态中需要学习的权重矩阵,bc为当前细胞状态中的偏置向量;
接着,得到t时刻的输出门ot
Figure BDA0002987805150000038
其中,Wwo、Who、Wco为输出门中需要学习的权重矩阵,bo为输出门的偏置向量;
最后,通过将非线性变换后的当前时刻细胞状态ct与输出门ot进行哈达玛乘积操作,得到当前时刻LSTM的隐藏层状态输出
Figure BDA0002987805150000031
Figure BDA0002987805150000032
所述前向LSTM网络用于学习医学文本语句的上文信息;
所述后向LSTM网络的信息流包括当前时刻t的输入信息wt、后一时刻LSTM的隐藏层状态ht+1和后一时刻细胞状态ct+1,计算方式与前向LSTM网络相同,用于学习医学文本语句的下文信息;
BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接,得到句子向量H=(h1,h2,...,hn),其中在t时刻BLSTM的隐藏层输出为:
Figure BDA0002987805150000033
其中
Figure BDA0002987805150000043
Figure BDA0002987805150000044
分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出;步骤3:利用多通道自注意力机制,从句子向量H中学习到医学文本语句的深层次全局语义特征,得到句子的全局特征向量M,具体为:
对句子向量H做多组字向量的注意力权重计算,获得多通道的自注意力权重矩阵向量表示A:
A=softmax(Ws2tanh(Ws1HT));
其中Ws1是维度为da×2u的权重矩阵,u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数,Ws2是维度为r×da的权重矩阵,r表示自注意力机制的通道数;
句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M:
M=AH;
步骤4:利用卷积神经网络CNN,从句子向量H中学习到医学文本语句的局部短语特征,得到句子的局部特征向量C,具体为:
对句子向量H=(h1,h2,…hn),使用最大池化从句子的多个短语中提取最大值,计算方式如下:
Figure BDA0002987805150000041
Figure BDA0002987805150000045
其中pi表示第i个长度为f1的短语中的最大值,p表示整个句子最大池化后的输出向量,f1表示用于池化的滤波器的长度,n表示输入句子的长度;
接着,对池化层的输出p进行卷积操作,获取句子中每个短语部分的局部特征;卷积层的计算方式如下:
Figure BDA0002987805150000042
其中wc表示卷积层的权重向量,bc表示卷积层的偏置项,f表示ReLU激活函数,f2表示卷积层滤波器的长度,如果卷积层滤波器的个数为nc,,则通过卷积层得到一个维度为nc×(n-f1-f2+2)的输出矩阵Hc
在卷积层后进行第二次最大池化,得到语句的局部特征向量C:
Figure BDA0002987805150000051
步骤5:将句子的全局特征向量M和局部特征向量C进行拼接,用其进行关系判定,得到预测标签,具体为:
将全局特征向量M和局部特征向量C进行拼接得到最终的句子输出向量x,然后输入到全连接层;
采用由k个节点组成的全连接层从向量x中获取分类器,k对应关系类型的数量,然后应用softmax分类器来获得每个关系标签的条件概率,并获得预测关系
Figure BDA0002987805150000052
p(y|x)=softmax(Wox+bo);
Figure BDA0002987805150000053
其中Wo和bo是权重参数和偏置参数。
与现有技术相比,本发明的有益效果为:
在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制,可以同时捕获语句的上下文信息、局部信息和全局信息,从而对医学文本的语义特征进行深入挖掘,从多个方面深度、完整地表示语句的语义特征,从而提高关系抽取的效果。
附图说明
图1为本发明中实体关系抽取模型结构示意图。
图2为本发明中的多通道自注意力机制的结构示意图。
图3为本发明中的多通道自注意力机制的注意力计算示意图。
具体实施方式
具体实施步骤如下所示:
步骤1:利用向量表示技术将医学文本语句向量化,得到输入特征向量;
对于含有两个实体的医学文本语句,使用字符特征和字相对于实体的位置特征对输入的医学文本语句中的每个字进行信息表征,并利用向量化技术将每个字的字符特征和位置特征映射为低维的稠密实值向量;
(1)字向量:将长度为n的语句序列X=(x1,x2,...,xn)中的字xi转换成一个低维的稠密实值向量
Figure BDA0002987805150000054
字的字向量由字嵌入矩阵Wchar中的一个向量编码表示,Wchar的维度为|V|×dchar,其中|V|是固定大小的输入字表,dchar是字向量的维度;其中,i∈[1,2,...,n];
(2)位置向量:对于语句序列X中的字xi,计算其到实体的距离:
Figure BDA0002987805150000061
其中,pi表示字xi在语句序列X中的位置,
Figure BDA0002987805150000062
表示实体ej在语句序列X中的位置;
随后,将字xi与两个实体的距离映射到位置特征空间上一个随机初始化的位置向量上,维度为dp,字xi包含两个位置向量
Figure BDA0002987805150000063
将字向量和位置向量拼接起来,获得字xi的特征向量
Figure BDA0002987805150000064
维度为d=dchar+2dp
这样一来,医学文本语句的输入特征向量可以表示为W=(w1,w2,...,wn);
步骤2:利用双向长短期记忆网络BLSTM从输入特征向量中学习到医学文本语句的上下文信息和浅层语义特征,得到句子向量;
文本数据可以被视为具有前后依赖关系的序列数据,LSTM作为循环神经网络的一个变种,可以捕获数据的上下文依赖特征,适合处理序列数据;
BLSTM通过将一个前向LSTM网络和一个后向LSTM网络组合来学习文本语句的上下文信息;前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流,并结合细胞状态c实现对历史信息的更新、取舍和存储;其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态ht-1和前一时刻细胞状态ct-1
t时刻输入门ir和遗忘门ft的计算方式为:
Figure BDA0002987805150000065
Figure BDA0002987805150000066
其中σ(·)代表sigmoid函数,ο表示哈达玛(Hadamard)乘积,Wwi、Whi、Wci为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wwf、Whf、Wcf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量;
之后,获得当前时刻t的细胞状态ct,其计算方式为:
Figure BDA0002987805150000076
其中tanh(·)代表双曲正切函数,Wwc、Whc为当前细胞状态中需要学习的权重矩阵,bc为当前细胞状态中的偏置向量;
接着,得到t时刻的输出门ot
Figure BDA0002987805150000077
其中,Wwo、Who、Wco为输出门中需要学习的权重矩阵,bo为输出门的偏置向量;
最后,通过将非线性变换后的当前细胞状态ct与输出门ot进行哈达玛乘积操作,得到当前时刻LSTM的隐藏层状态输出
Figure BDA0002987805150000071
Figure BDA0002987805150000072
前向LSTM网络用于学习医学文本语句的上文信息,而后向LSTM网络用于学习医学文本语句的下文信息,其信息流包括当前时刻t的输入信息wt、后一时刻LSTM的隐藏层状态ht+1和后一时刻细胞状态ct+1,计算方式与前向LSTM网络相同;
BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接,得到句子向量H=(h1,h2,…,hn),其中在t时刻BLSTM的隐藏层输出为:
Figure BDA0002987805150000073
其中
Figure BDA0002987805150000074
Figure BDA0002987805150000075
分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出;步骤3:利用多通道自注意力机制,从句子向量中学习到医学文本语句的深层次全局语义特征,得到句子的全局特征向量;
传统的自注意力机制将句子中的每个字和该句子中的所有字进行注意力权重的计算,得到一组注意力权重向量,从而学习句子内部字之间的长距离依赖关系,并捕获句子的全局结构特征;然而,这种自注意力机制所得到的权重向量通常只能表示句子的某一个方面,而医学文本具有实体分布密度较高的特点,因此一个句子可能存在多个方面共同构成句子的整体语义;若对句子进行多次注意力权重计算,则能得到多组不同的注意力权重向量,从而可以从多个方面完整地表示语句,这就是多通道自注意力机制,其结构如图2所示;因此,本发明采用多通道自注意力机制来捕获句子级别的多语义全局信息,对医学文本的语义特征进行深入挖掘;同时,考虑到医学文本语句的长度分布不均,自注意力机制可以有效地捕获长距离依赖;
如图3所示,对步骤2中BLSTM网络输出的句子向量H做多组字向量的注意力权重计算,获得多通道的自注意力权重矩阵向量表示A:
A=softmax(Ws2tanh(Ws1HT))
其中Ws1是维度为da×2u的权重矩阵,u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数,Ws2是维度为r×da的权重矩阵,r表示自注意力机制的通道数,不同的通道可以从不同方面表示语句的语义信息;
BLSTM网络输出的句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M:
M=AH
步骤4:利用CNN从句子向量中学习到医学文本语句的局部短语特征,得到句子的局部特征向量;
在大多数情况下,一个句子中的某些字符对整个句子的表达可能并不重要;因此,本发明使用最大池化从句子的多个短语中提取最重要的特征,计算方式如下:
Figure BDA0002987805150000081
Figure BDA0002987805150000082
其中pi表示第i个长度为f1的短语中的最大值,p表示整个句子最大池化后的输出向量,f1表示用于池化的滤波器的长度,n表示输入句子的长度;
接着,对池化层的输出p进行卷积操作,获取句子中每个短语部分的局部特征。卷积层的计算方式如下:
Figure BDA0002987805150000083
其中wc表示卷积层的权重向量,bc表示卷积层的偏置项,f表示ReLU激活函数,f2表示卷积层滤波器的长度,如果卷积滤波器的个数为nc,则通过卷积层可以得到一个维度为nc×(n-f1-f2+2)的输出矩阵Hc
为了获得整个句子的固定长度的特征,我们在卷积层后进行第二次最大池化,得到语句的局部特征向量C:
Figure BDA0002987805150000091
步骤5:将句子的全局特征向量和局部特征向量进行拼接,用其进行关系判定,得到预测标签。
将步骤3多通道自注意力层获得的全局特征向量M和步骤4CNN层获得的局部特征向量C进行拼接,得到最终的句子输出向量x,然后输入到全连接层;
采用由k个节点组成的全连接层从向量x中获取分类器,k对应关系类型的数量,然后应用softmax分类器来获得每个关系标签的条件概率,并获得预测关系
Figure BDA0002987805150000092
p(y|x)=softmax(Wox+bo)
Figure BDA0002987805150000093
其中Wo和bo是权重参数和偏置参数。
为了验证本发明的有效性,本发明在CHIP2020的评测任务二:中文医学实体关系抽取的数据集上与6个医学领域实体关系抽取模型进行了对比实验,6个对比模型如下:
(1)CNN模型:利用具有最大池化的CNN模型进行关系抽取。
(2)BLSTM和ABLSTM模型:利用双向LSTM模型获取语句的上下文信息,再分别结合最大池化和注意力池化进行关系抽取。
(3)CRNN-max和CRNN-att:结合BLSTM和CNN以学习文本语句的上下文信息和局部信息,并分别在最后使用最大池化和注意力池化进行关系抽取。
(4)CBGRU:结合CNN和双向门控循环单元网络BGRU学习文本语句的局部信息和上下文信息来进行关系抽取。
评价指标采用精确率(precision,P)、召回率(Recall,R)及F1值(F1-score),设rm为预设关系集合R=(r1,r2,...,rk)中的一个关系类型,其中m∈[1,2,...,k],将给定的标注结果作为真实关系标签,计算公式如下:
Figure BDA0002987805150000094
Figure BDA0002987805150000095
Figure BDA0002987805150000096
其中TPm表示模型预测的关系类型为rm且真实类型也为rm的样本数量,FPm表示预测类型为rm但真实类型不为rm的样本数量,FNm表示预测类型不为rm但真实类型为rm的样本数量,TPm+FPm表示预测类型为rm的样本数量,TPm+FNm表示真实类型为rm的样本数量。
然后,采用加权平均的方式计算模型整体的精确率、召回率和F1值,以此作为模型整体的评价指标。加权平均的计算方式为:将各关系类型的精确率、召回率、F1值与对应的关系标签在样本中的比例相乘,然后将所有关系类型相加,具体的计算公式如下:
Figure BDA0002987805150000101
Figure BDA0002987805150000102
Figure BDA0002987805150000103
其中Wm为第m类关系类型在样本中所占的比例。实验结果如表1所示:
表1实验结果
Figure BDA0002987805150000104
实验结果表明,本发明提出的BLSTM-MCatt-CNN模型比所有的对比模型的效果都要好,在精确率、召回率和F1值上都取得了最好的效果。

Claims (1)

1.基于神经网络和自注意力机制的医学实体关系抽取方法,其特征在于,包括以下步骤:
步骤1:将含有两个实体的医学文本语句序列X向量化,得到输入特征向量W,具体为:
1.1字向量:将长度为n的语句序列X=(x1,x2,...,xn)中的字xi转换成一个低维的稠密实值向量
Figure FDA0002987805140000011
字的字向量由字嵌入矩阵Wchar中的一个向量编码表示,Wchar的维度为|V|×dchar,其中|V|是固定大小的输入字表,dchar是字向量的维度;其中,i∈[1,2,...,n];
1.2位置向量:对于语句序列X中的字xi,计算其到实体的距离:
Figure FDA0002987805140000012
其中,pi表示字xi在语句序列X中的位置,
Figure FDA0002987805140000013
表示实体ej在语句序列X中的位置;将字xi与两个实体的距离映射到位置特征空间上一个随机初始化的位置向量上,维度为dp;字xi包含两个位置向量
Figure FDA0002987805140000014
1.3将字向量和位置向量拼接起来,获得字xi的特征向量
Figure FDA0002987805140000015
维度为d=dchar+2dp
1.4将医学文本语句的输入特征向量表示为W=(w1w2,...,wn);
步骤2:利用双向长短期记忆网络BLSTM从输入特征向量W中学习到医学文本语句的上下文信息和浅层语义特征,得到句子向量H,具体为:
所述BLSTM由一个前向LSTM网络和一个后向LSTM网络组合而成;所述前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流,并结合细胞状态c实现对历史信息的更新、取舍和存储;其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态ht-1和前一时刻细胞状态ct-1
t时刻输入门it和遗忘门ft的计算方式为:
Figure FDA0002987805140000016
Figure FDA0002987805140000017
其中σ(·)代表sigmoid函数,
Figure FDA0002987805140000021
表示哈达玛(Hadamard)乘积,Wwi、Whi、Wci为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wwf、Whf、Wcf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量;
之后,获得当前时刻t的细胞状态ct,其计算方式为:
Figure FDA0002987805140000022
其中tanh(·)代表双曲正切函数,Wwc、Whc为当前细胞状态中需要学习的权重矩阵,bc为当前细胞状态中的偏置向量;
接着,得到t时刻的输出门ot
Figure FDA0002987805140000023
其中,Wwo、Who、Wco为输出门中需要学习的权重矩阵,bo为输出门的偏置向量;
最后,通过将非线性变换后的当前时刻细胞状态ct与输出门ot进行哈达玛乘积操作,得到当前时刻LSTM的隐藏层状态输出
Figure FDA0002987805140000024
Figure FDA0002987805140000025
所述前向LSTM网络用于学习医学文本语句的上文信息;
所述后向LSTM网络的信息流包括当前时刻t的输入信息wt、后一时刻LSTM的隐藏层状态ht+1和后一时刻细胞状态ct+1,计算方式与前向LSTM网络相同,用于学习医学文本语句的下文信息;
BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接,得到句子向量H=(h1,h2,...,hn),其中在t时刻BLSTM的隐藏层输出为:
Figure FDA0002987805140000026
其中
Figure FDA0002987805140000027
Figure FDA0002987805140000028
分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出;步骤3:利用多通道自注意力机制,从句子向量H中学习到医学文本语句的深层次全局语义特征,得到句子的全局特征向量M,具体为:
对句子向量H做多组字向量的注意力权重计算,获得多通道的自注意力权重矩阵向量表示A:
A=softmax(Ws2tanh(Ws1HT));
其中Ws1是维度为da×2u的权重矩阵,u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数,Ws2是维度为r×da的权重矩阵,r表示自注意力机制的通道数;
句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M:
M=AH;
步骤4:利用卷积神经网络CNN,从句子向量H中学习到医学文本语句的局部短语特征,得到句子的局部特征向量C,具体为:
对句子向量H=(h1,h2,...,hn),使用最大池化从句子的多个短语中提取最大值,计算方式如下:
Figure FDA0002987805140000031
Figure FDA0002987805140000032
其中pi表示第i个长度为f1的短语中的最大值,p表示整个句子最大池化后的输出向量,f1表示用于池化的滤波器的长度,n表示输入句子的长度;
接着,对池化层的输出p进行卷积操作,获取句子中每个短语部分的局部特征;卷积层的计算方式如下:
Figure FDA0002987805140000033
其中wc表示卷积层的权重向量,bc表示卷积层的偏置项,f表示ReLU激活函数,f2表示卷积层滤波器的长度,如果卷积层滤波器的个数为nc,则通过卷积层得到一个维度为nc×(n-f1-f2+2)的输出矩阵Hc
在卷积层后进行第二次最大池化,得到语句的局部特征向量C:
Figure FDA0002987805140000034
步骤5:将句子的全局特征向量M和局部特征向量C进行拼接,用其进行关系判定,得到预测标签,具体为:
将全局特征向量M和局部特征向量C进行拼接得到最终的句子输出向量x,然后输入到全连接层;
采用由k个节点组成的全连接层从向量x中获取分类器,k对应关系类型的数量,然后应用softmax分类器来获得每个关系标签的条件概率,并获得预测关系
Figure FDA0002987805140000042
p(y|x)=softmax(Wox+bo);
Figure FDA0002987805140000041
其中Wo和bo是权重参数和偏置参数。
CN202110316876.7A 2021-03-23 2021-03-23 基于神经网络和自注意力机制的医学实体关系抽取方法 Pending CN112883738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316876.7A CN112883738A (zh) 2021-03-23 2021-03-23 基于神经网络和自注意力机制的医学实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316876.7A CN112883738A (zh) 2021-03-23 2021-03-23 基于神经网络和自注意力机制的医学实体关系抽取方法

Publications (1)

Publication Number Publication Date
CN112883738A true CN112883738A (zh) 2021-06-01

Family

ID=76042200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316876.7A Pending CN112883738A (zh) 2021-03-23 2021-03-23 基于神经网络和自注意力机制的医学实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN112883738A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取系统及方法
CN113449815A (zh) * 2021-07-20 2021-09-28 四川大学 一种基于深度包分析的异常包检测方法及系统
CN113468865A (zh) * 2021-06-28 2021-10-01 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN113468872A (zh) * 2021-06-09 2021-10-01 大连理工大学 基于句子级别图卷积的生物医学关系抽取方法及系统
CN113468874A (zh) * 2021-06-09 2021-10-01 大连理工大学 一种基于图卷积自编码的生物医学关系抽取方法
CN113486673A (zh) * 2021-07-29 2021-10-08 刘德喜 基于目标语义与位置融合的方面意见词抽取方法
CN113488196A (zh) * 2021-07-26 2021-10-08 西南交通大学 一种药品说明书文本命名实体识别建模方法
CN113569558A (zh) * 2021-07-06 2021-10-29 上海交通大学 一种电力设备局部放电实体关系抽取方法及系统
CN113609868A (zh) * 2021-09-01 2021-11-05 首都医科大学宣武医院 一种多任务问答驱动的医疗实体关系抽取方法
CN113641767A (zh) * 2021-07-16 2021-11-12 中南民族大学 实体关系抽取方法、装置、设备及存储介质
CN113704415A (zh) * 2021-09-09 2021-11-26 北京邮电大学 医学文本的向量表示生成方法和装置
CN113726730A (zh) * 2021-07-14 2021-11-30 国网山东省电力公司信息通信公司 基于深度学习算法的dga域名检测方法及系统
CN114281987A (zh) * 2021-11-26 2022-04-05 重庆邮电大学 一种用于智能语音助手的对话短文本语句匹配方法
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN114915496A (zh) * 2022-07-11 2022-08-16 广州番禺职业技术学院 基于时间权重和深度神经网络的网络入侵检测方法和装置
CN115100480A (zh) * 2022-07-28 2022-09-23 西南交通大学 基于向量量化变分自编码器的医学影像分类模型及方法
CN115659986A (zh) * 2022-12-13 2023-01-31 南京邮电大学 一种面向糖尿病文本的实体关系抽取方法
CN115994539A (zh) * 2023-02-17 2023-04-21 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN116564553A (zh) * 2023-05-06 2023-08-08 西南交通大学 一种基于共病特征的用药效果预测方法
CN116629264A (zh) * 2023-05-24 2023-08-22 成都信息工程大学 一种基于多个词嵌入和多头自注意力机制的关系抽取方法
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111291556A (zh) * 2019-12-17 2020-06-16 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111291556A (zh) * 2019-12-17 2020-06-16 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DESH RAJ 等: "Learning local and global contexts using a convolutional recurrent network model for relation classification in biomedical text", 《PROCEEDINGS OF THE 21ST CONFERENCE ON COMPUTATIONAL NATURAL LANGUAGE LEARNING》 *
宁尚明 等: "基于多通道自注意力机制的电子病历实体关系抽取", 《计算机学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468874B (zh) * 2021-06-09 2024-04-16 大连理工大学 一种基于图卷积自编码的生物医学关系抽取方法
CN113468872A (zh) * 2021-06-09 2021-10-01 大连理工大学 基于句子级别图卷积的生物医学关系抽取方法及系统
CN113468874A (zh) * 2021-06-09 2021-10-01 大连理工大学 一种基于图卷积自编码的生物医学关系抽取方法
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取系统及方法
CN113468872B (zh) * 2021-06-09 2024-04-16 大连理工大学 基于句子级别图卷积的生物医学关系抽取方法及系统
CN113468865B (zh) * 2021-06-28 2024-04-09 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN113468865A (zh) * 2021-06-28 2021-10-01 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN113569558B (zh) * 2021-07-06 2023-09-26 上海交通大学 一种实体关系抽取方法及系统
CN113569558A (zh) * 2021-07-06 2021-10-29 上海交通大学 一种电力设备局部放电实体关系抽取方法及系统
CN113726730A (zh) * 2021-07-14 2021-11-30 国网山东省电力公司信息通信公司 基于深度学习算法的dga域名检测方法及系统
CN113641767A (zh) * 2021-07-16 2021-11-12 中南民族大学 实体关系抽取方法、装置、设备及存储介质
CN113641767B (zh) * 2021-07-16 2024-04-19 中南民族大学 实体关系抽取方法、装置、设备及存储介质
CN113449815B (zh) * 2021-07-20 2023-01-24 四川大学 一种基于深度包分析的异常包检测方法及系统
CN113449815A (zh) * 2021-07-20 2021-09-28 四川大学 一种基于深度包分析的异常包检测方法及系统
CN113488196B (zh) * 2021-07-26 2023-04-07 西南交通大学 一种药品说明书文本命名实体识别建模方法
CN113488196A (zh) * 2021-07-26 2021-10-08 西南交通大学 一种药品说明书文本命名实体识别建模方法
CN113486673A (zh) * 2021-07-29 2021-10-08 刘德喜 基于目标语义与位置融合的方面意见词抽取方法
CN113486673B (zh) * 2021-07-29 2022-10-25 刘德喜 基于目标语义与位置融合的方面意见词抽取方法
CN113609868A (zh) * 2021-09-01 2021-11-05 首都医科大学宣武医院 一种多任务问答驱动的医疗实体关系抽取方法
CN113704415A (zh) * 2021-09-09 2021-11-26 北京邮电大学 医学文本的向量表示生成方法和装置
CN113704415B (zh) * 2021-09-09 2023-05-23 北京邮电大学 医学文本的向量表示生成方法和装置
CN114281987A (zh) * 2021-11-26 2022-04-05 重庆邮电大学 一种用于智能语音助手的对话短文本语句匹配方法
CN114510946B (zh) * 2022-04-21 2022-08-23 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN114915496B (zh) * 2022-07-11 2023-01-10 广州番禺职业技术学院 基于时间权重和深度神经网络的网络入侵检测方法和装置
CN114915496A (zh) * 2022-07-11 2022-08-16 广州番禺职业技术学院 基于时间权重和深度神经网络的网络入侵检测方法和装置
CN115100480A (zh) * 2022-07-28 2022-09-23 西南交通大学 基于向量量化变分自编码器的医学影像分类模型及方法
CN115659986A (zh) * 2022-12-13 2023-01-31 南京邮电大学 一种面向糖尿病文本的实体关系抽取方法
CN115994539A (zh) * 2023-02-17 2023-04-21 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN115994539B (zh) * 2023-02-17 2024-05-10 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN116564553A (zh) * 2023-05-06 2023-08-08 西南交通大学 一种基于共病特征的用药效果预测方法
CN116629264B (zh) * 2023-05-24 2024-01-23 成都信息工程大学 一种基于多个词嵌入和多头自注意力机制的关系抽取方法
CN116629264A (zh) * 2023-05-24 2023-08-22 成都信息工程大学 一种基于多个词嵌入和多头自注意力机制的关系抽取方法
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统

Similar Documents

Publication Publication Date Title
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN107562784A (zh) 基于ResLCNN模型的短文本分类方法
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN107832400A (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN111552803A (zh) 一种基于图小波网络模型的文本分类方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210601

WD01 Invention patent application deemed withdrawn after publication