CN112883738A - 基于神经网络和自注意力机制的医学实体关系抽取方法 - Google Patents
基于神经网络和自注意力机制的医学实体关系抽取方法 Download PDFInfo
- Publication number
- CN112883738A CN112883738A CN202110316876.7A CN202110316876A CN112883738A CN 112883738 A CN112883738 A CN 112883738A CN 202110316876 A CN202110316876 A CN 202110316876A CN 112883738 A CN112883738 A CN 112883738A
- Authority
- CN
- China
- Prior art keywords
- vector
- sentence
- word
- information
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经网络和自注意力机制的医学实体关系抽取方法,该方法包括:利用向量表示技术将医学文本语句向量化;利用双向长短期记忆网络学习医学文本语句的上下文信息和浅层语义特征;利用多通道自注意力机制学习医学文本语句的深层次全局语义特征;利用卷积神经网络学习医学文本语句的局部短语特征;将全局信息和局部信息进行拼接,用其进行关系判定,得到预测标签。本发明在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制,可以同时捕获语句的上下文信息、局部信息和全局信息,从而对医学文本的语义特征进行深入挖掘,从多个方面深度、完整地表示语句的语义特征,从而提高关系抽取的效果。
Description
技术领域
本发明属于自然语言处理技术领域,特别是一种基于神经网络和自注意力机制的医学实体关系抽取方法。
背景技术
随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,这其中包含了大量有价值的信息。如何从这些医学文本中挖掘出有效的信息并加以存储管理,以构建大规模、高质量的医学知识图谱,对医学信息化的发展具有重大意义,也是自然语言处理领域的研究热点。实体关系抽取作为医学文本结构化信息抽取的核心任务之一,旨在从非结构化文本中自动地抽取出实体对之间的语义关系,从而提取出有效的语义信息。
传统的医学实体关系抽取方法包括基于规则的方法、基于特征向量的方法和基于核函数的方法。基于规则的方法使用句子分析工具来识别文本中的句法元素,然后根据这些元素构建模式规则,并根据规则进行关系抽取。基于特征向量的方法主要是根据特征向量的相似度训练支持向量机、最大熵、条件随机场等机器学习模型进行关系抽取。基于核函数的方法通过设计特定核函数来计算句子之间的相似度,根据相似度进行关系的分类。这些方法虽然都取得了一定的效果,但需要依赖人工设计的规则或特征,从而使得模型的性能取决于人工手动设计的规则或特征的质量。近年来,随着深度学习的发展,以神经网络为主的方法被应用到关系抽取任务中,并取得了很多研究成果。该方法不依赖人工设计特征,完全由神经网络自动学习相关的所有特征。
目前,以卷积神经网络和循环神经网络为代表的深度学习方法在医学实体关系抽取任务上取得了突破。卷积神经网络能够捕获语句中的局部信息,但忽略了全局信息的作用。循环神经网络可以有效学习文本序列的上下文依赖关系,但无法挖掘句法和语义层面的特征。以循环神经网络和卷积神经网络相结合的“recurrent+CNN”网络框架是医学实体关系抽取任务中的主流基准模型,可以同时捕获语句的上下文信息和局部信息。因医学领域的特殊性,医学文本存在实体分布密度较高、语句长度分布不均等现象,使得“recurrent+CNN”网络框架无法深入挖掘医学文本语句的语义特征,并且不能处理过长的医学语句的长距离依赖问题。基于此,本发明采用一种基于神经网络和自注意力机制的关系抽取模型BLSTM-MCatt-CNN,该模型采用“recurrent+CNN”网络框架,其中的recurrent利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘,同时能有效地捕获长距离依赖。
发明内容
为了解决医学文本存在实体分布密度较高、语句长度分布不均等导致的抽取效果不佳的问题,本发明提出了一种基于神经网络和自注意力机制的关系抽取模型。该模型利用BLSTM来捕获医学文本语句的上下文信息和浅层语义特征,利用CNN捕获医学文本语句的局部短语特征,并结合多通道自注意力机制捕获医学文本语句的全局信息,对医学文本的语义特征进行深入挖掘,同时处理长距离依赖。
基于神经网络和自注意力机制的医学实体关系抽取方法,包括以下步骤:
步骤1:将含有两个实体的医学文本语句序列X向量化,得到输入特征向量W,具体为:
1.1字向量:将长度为n的语句序列X=(x1,x2,...,xn)中的字xi转换成一个低维的稠密实值向量字的字向量由字嵌入矩阵Wchar中的一个向量编码表示,Wchar的维度为|V|×dchar,其中|V|是固定大小的输入字表,dchar是字向量的维度;其中,i∈[1,2,...,n];
1.2位置向量:对于语句序列X中的字xi,计算其到实体的距离:
1.4将医学文本语句的输入特征向量表示为W=(w1,w2,...,wn);
步骤2:利用双向长短期记忆网络BLSTM从输入特征向量W中学习到医学文本语句的上下文信息和浅层语义特征,得到句子向量H,具体为:
所述BLSTM由一个前向LSTM网络和一个后向LSTM网络组合而成;所述前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流,并结合细胞状态c实现对历史信息的更新、取舍和存储;其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态ht-1和前一时刻细胞状态ct-1;
t时刻输入门it和遗忘门ft的计算方式为:
其中σ(·)代表sigmoid函数,表示哈达玛(Hadamard)乘积,Wwi、Whi、Wci为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wwf、Whf、Wcf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量;
之后,获得当前时刻t的细胞状态ct,其计算方式为:
其中tanh(·)代表双曲正切函数,Wwc、Whc为当前细胞状态中需要学习的权重矩阵,bc为当前细胞状态中的偏置向量;
接着,得到t时刻的输出门ot:
其中,Wwo、Who、Wco为输出门中需要学习的权重矩阵,bo为输出门的偏置向量;
所述前向LSTM网络用于学习医学文本语句的上文信息;
所述后向LSTM网络的信息流包括当前时刻t的输入信息wt、后一时刻LSTM的隐藏层状态ht+1和后一时刻细胞状态ct+1,计算方式与前向LSTM网络相同,用于学习医学文本语句的下文信息;
BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接,得到句子向量H=(h1,h2,...,hn),其中在t时刻BLSTM的隐藏层输出为:
对句子向量H做多组字向量的注意力权重计算,获得多通道的自注意力权重矩阵向量表示A:
A=softmax(Ws2tanh(Ws1HT));
其中Ws1是维度为da×2u的权重矩阵,u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数,Ws2是维度为r×da的权重矩阵,r表示自注意力机制的通道数;
句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M:
M=AH;
步骤4:利用卷积神经网络CNN,从句子向量H中学习到医学文本语句的局部短语特征,得到句子的局部特征向量C,具体为:
对句子向量H=(h1,h2,…hn),使用最大池化从句子的多个短语中提取最大值,计算方式如下:
其中pi表示第i个长度为f1的短语中的最大值,p表示整个句子最大池化后的输出向量,f1表示用于池化的滤波器的长度,n表示输入句子的长度;
接着,对池化层的输出p进行卷积操作,获取句子中每个短语部分的局部特征;卷积层的计算方式如下:
其中wc表示卷积层的权重向量,bc表示卷积层的偏置项,f表示ReLU激活函数,f2表示卷积层滤波器的长度,如果卷积层滤波器的个数为nc,,则通过卷积层得到一个维度为nc×(n-f1-f2+2)的输出矩阵Hc;
在卷积层后进行第二次最大池化,得到语句的局部特征向量C:
步骤5:将句子的全局特征向量M和局部特征向量C进行拼接,用其进行关系判定,得到预测标签,具体为:
将全局特征向量M和局部特征向量C进行拼接得到最终的句子输出向量x,然后输入到全连接层;
p(y|x)=softmax(Wox+bo);
其中Wo和bo是权重参数和偏置参数。
与现有技术相比,本发明的有益效果为:
在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制,可以同时捕获语句的上下文信息、局部信息和全局信息,从而对医学文本的语义特征进行深入挖掘,从多个方面深度、完整地表示语句的语义特征,从而提高关系抽取的效果。
附图说明
图1为本发明中实体关系抽取模型结构示意图。
图2为本发明中的多通道自注意力机制的结构示意图。
图3为本发明中的多通道自注意力机制的注意力计算示意图。
具体实施方式
具体实施步骤如下所示:
步骤1:利用向量表示技术将医学文本语句向量化,得到输入特征向量;
对于含有两个实体的医学文本语句,使用字符特征和字相对于实体的位置特征对输入的医学文本语句中的每个字进行信息表征,并利用向量化技术将每个字的字符特征和位置特征映射为低维的稠密实值向量;
(1)字向量:将长度为n的语句序列X=(x1,x2,...,xn)中的字xi转换成一个低维的稠密实值向量字的字向量由字嵌入矩阵Wchar中的一个向量编码表示,Wchar的维度为|V|×dchar,其中|V|是固定大小的输入字表,dchar是字向量的维度;其中,i∈[1,2,...,n];
(2)位置向量:对于语句序列X中的字xi,计算其到实体的距离:
这样一来,医学文本语句的输入特征向量可以表示为W=(w1,w2,...,wn);
步骤2:利用双向长短期记忆网络BLSTM从输入特征向量中学习到医学文本语句的上下文信息和浅层语义特征,得到句子向量;
文本数据可以被视为具有前后依赖关系的序列数据,LSTM作为循环神经网络的一个变种,可以捕获数据的上下文依赖特征,适合处理序列数据;
BLSTM通过将一个前向LSTM网络和一个后向LSTM网络组合来学习文本语句的上下文信息;前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流,并结合细胞状态c实现对历史信息的更新、取舍和存储;其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态ht-1和前一时刻细胞状态ct-1;
t时刻输入门ir和遗忘门ft的计算方式为:
其中σ(·)代表sigmoid函数,ο表示哈达玛(Hadamard)乘积,Wwi、Whi、Wci为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wwf、Whf、Wcf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量;
之后,获得当前时刻t的细胞状态ct,其计算方式为:
其中tanh(·)代表双曲正切函数,Wwc、Whc为当前细胞状态中需要学习的权重矩阵,bc为当前细胞状态中的偏置向量;
接着,得到t时刻的输出门ot:
其中,Wwo、Who、Wco为输出门中需要学习的权重矩阵,bo为输出门的偏置向量;
前向LSTM网络用于学习医学文本语句的上文信息,而后向LSTM网络用于学习医学文本语句的下文信息,其信息流包括当前时刻t的输入信息wt、后一时刻LSTM的隐藏层状态ht+1和后一时刻细胞状态ct+1,计算方式与前向LSTM网络相同;
BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接,得到句子向量H=(h1,h2,…,hn),其中在t时刻BLSTM的隐藏层输出为:
传统的自注意力机制将句子中的每个字和该句子中的所有字进行注意力权重的计算,得到一组注意力权重向量,从而学习句子内部字之间的长距离依赖关系,并捕获句子的全局结构特征;然而,这种自注意力机制所得到的权重向量通常只能表示句子的某一个方面,而医学文本具有实体分布密度较高的特点,因此一个句子可能存在多个方面共同构成句子的整体语义;若对句子进行多次注意力权重计算,则能得到多组不同的注意力权重向量,从而可以从多个方面完整地表示语句,这就是多通道自注意力机制,其结构如图2所示;因此,本发明采用多通道自注意力机制来捕获句子级别的多语义全局信息,对医学文本的语义特征进行深入挖掘;同时,考虑到医学文本语句的长度分布不均,自注意力机制可以有效地捕获长距离依赖;
如图3所示,对步骤2中BLSTM网络输出的句子向量H做多组字向量的注意力权重计算,获得多通道的自注意力权重矩阵向量表示A:
A=softmax(Ws2tanh(Ws1HT))
其中Ws1是维度为da×2u的权重矩阵,u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数,Ws2是维度为r×da的权重矩阵,r表示自注意力机制的通道数,不同的通道可以从不同方面表示语句的语义信息;
BLSTM网络输出的句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M:
M=AH
步骤4:利用CNN从句子向量中学习到医学文本语句的局部短语特征,得到句子的局部特征向量;
在大多数情况下,一个句子中的某些字符对整个句子的表达可能并不重要;因此,本发明使用最大池化从句子的多个短语中提取最重要的特征,计算方式如下:
其中pi表示第i个长度为f1的短语中的最大值,p表示整个句子最大池化后的输出向量,f1表示用于池化的滤波器的长度,n表示输入句子的长度;
接着,对池化层的输出p进行卷积操作,获取句子中每个短语部分的局部特征。卷积层的计算方式如下:
其中wc表示卷积层的权重向量,bc表示卷积层的偏置项,f表示ReLU激活函数,f2表示卷积层滤波器的长度,如果卷积滤波器的个数为nc,则通过卷积层可以得到一个维度为nc×(n-f1-f2+2)的输出矩阵Hc;
为了获得整个句子的固定长度的特征,我们在卷积层后进行第二次最大池化,得到语句的局部特征向量C:
步骤5:将句子的全局特征向量和局部特征向量进行拼接,用其进行关系判定,得到预测标签。
将步骤3多通道自注意力层获得的全局特征向量M和步骤4CNN层获得的局部特征向量C进行拼接,得到最终的句子输出向量x,然后输入到全连接层;
p(y|x)=softmax(Wox+bo)
其中Wo和bo是权重参数和偏置参数。
为了验证本发明的有效性,本发明在CHIP2020的评测任务二:中文医学实体关系抽取的数据集上与6个医学领域实体关系抽取模型进行了对比实验,6个对比模型如下:
(1)CNN模型:利用具有最大池化的CNN模型进行关系抽取。
(2)BLSTM和ABLSTM模型:利用双向LSTM模型获取语句的上下文信息,再分别结合最大池化和注意力池化进行关系抽取。
(3)CRNN-max和CRNN-att:结合BLSTM和CNN以学习文本语句的上下文信息和局部信息,并分别在最后使用最大池化和注意力池化进行关系抽取。
(4)CBGRU:结合CNN和双向门控循环单元网络BGRU学习文本语句的局部信息和上下文信息来进行关系抽取。
评价指标采用精确率(precision,P)、召回率(Recall,R)及F1值(F1-score),设rm为预设关系集合R=(r1,r2,...,rk)中的一个关系类型,其中m∈[1,2,...,k],将给定的标注结果作为真实关系标签,计算公式如下:
其中TPm表示模型预测的关系类型为rm且真实类型也为rm的样本数量,FPm表示预测类型为rm但真实类型不为rm的样本数量,FNm表示预测类型不为rm但真实类型为rm的样本数量,TPm+FPm表示预测类型为rm的样本数量,TPm+FNm表示真实类型为rm的样本数量。
然后,采用加权平均的方式计算模型整体的精确率、召回率和F1值,以此作为模型整体的评价指标。加权平均的计算方式为:将各关系类型的精确率、召回率、F1值与对应的关系标签在样本中的比例相乘,然后将所有关系类型相加,具体的计算公式如下:
其中Wm为第m类关系类型在样本中所占的比例。实验结果如表1所示:
表1实验结果
实验结果表明,本发明提出的BLSTM-MCatt-CNN模型比所有的对比模型的效果都要好,在精确率、召回率和F1值上都取得了最好的效果。
Claims (1)
1.基于神经网络和自注意力机制的医学实体关系抽取方法,其特征在于,包括以下步骤:
步骤1:将含有两个实体的医学文本语句序列X向量化,得到输入特征向量W,具体为:
1.1字向量:将长度为n的语句序列X=(x1,x2,...,xn)中的字xi转换成一个低维的稠密实值向量字的字向量由字嵌入矩阵Wchar中的一个向量编码表示,Wchar的维度为|V|×dchar,其中|V|是固定大小的输入字表,dchar是字向量的维度;其中,i∈[1,2,...,n];
1.2位置向量:对于语句序列X中的字xi,计算其到实体的距离:
1.4将医学文本语句的输入特征向量表示为W=(w1w2,...,wn);
步骤2:利用双向长短期记忆网络BLSTM从输入特征向量W中学习到医学文本语句的上下文信息和浅层语义特征,得到句子向量H,具体为:
所述BLSTM由一个前向LSTM网络和一个后向LSTM网络组合而成;所述前向LSTM网络和后向LSTM网络均通过设置输入门i、遗忘门f和输出门o来控制信息流,并结合细胞状态c实现对历史信息的更新、取舍和存储;其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态ht-1和前一时刻细胞状态ct-1;
t时刻输入门it和遗忘门ft的计算方式为:
其中σ(·)代表sigmoid函数,表示哈达玛(Hadamard)乘积,Wwi、Whi、Wci为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wwf、Whf、Wcf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量;
之后,获得当前时刻t的细胞状态ct,其计算方式为:
其中tanh(·)代表双曲正切函数,Wwc、Whc为当前细胞状态中需要学习的权重矩阵,bc为当前细胞状态中的偏置向量;
接着,得到t时刻的输出门ot:
其中,Wwo、Who、Wco为输出门中需要学习的权重矩阵,bo为输出门的偏置向量;
所述前向LSTM网络用于学习医学文本语句的上文信息;
所述后向LSTM网络的信息流包括当前时刻t的输入信息wt、后一时刻LSTM的隐藏层状态ht+1和后一时刻细胞状态ct+1,计算方式与前向LSTM网络相同,用于学习医学文本语句的下文信息;
BLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出进行拼接,得到句子向量H=(h1,h2,...,hn),其中在t时刻BLSTM的隐藏层输出为:
对句子向量H做多组字向量的注意力权重计算,获得多通道的自注意力权重矩阵向量表示A:
A=softmax(Ws2tanh(Ws1HT));
其中Ws1是维度为da×2u的权重矩阵,u表示前向LSTM网络或后向LSTM网络的隐藏层神经元个数,Ws2是维度为r×da的权重矩阵,r表示自注意力机制的通道数;
句子向量H根据多通道自注意力权重A做加权求和得到语句的全局特征向量M:
M=AH;
步骤4:利用卷积神经网络CNN,从句子向量H中学习到医学文本语句的局部短语特征,得到句子的局部特征向量C,具体为:
对句子向量H=(h1,h2,...,hn),使用最大池化从句子的多个短语中提取最大值,计算方式如下:
其中pi表示第i个长度为f1的短语中的最大值,p表示整个句子最大池化后的输出向量,f1表示用于池化的滤波器的长度,n表示输入句子的长度;
接着,对池化层的输出p进行卷积操作,获取句子中每个短语部分的局部特征;卷积层的计算方式如下:
其中wc表示卷积层的权重向量,bc表示卷积层的偏置项,f表示ReLU激活函数,f2表示卷积层滤波器的长度,如果卷积层滤波器的个数为nc,则通过卷积层得到一个维度为nc×(n-f1-f2+2)的输出矩阵Hc;
在卷积层后进行第二次最大池化,得到语句的局部特征向量C:
步骤5:将句子的全局特征向量M和局部特征向量C进行拼接,用其进行关系判定,得到预测标签,具体为:
将全局特征向量M和局部特征向量C进行拼接得到最终的句子输出向量x,然后输入到全连接层;
p(y|x)=softmax(Wox+bo);
其中Wo和bo是权重参数和偏置参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316876.7A CN112883738A (zh) | 2021-03-23 | 2021-03-23 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316876.7A CN112883738A (zh) | 2021-03-23 | 2021-03-23 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883738A true CN112883738A (zh) | 2021-06-01 |
Family
ID=76042200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110316876.7A Pending CN112883738A (zh) | 2021-03-23 | 2021-03-23 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883738A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221181A (zh) * | 2021-06-09 | 2021-08-06 | 上海交通大学 | 具有隐私保护的表格类信息抽取系统及方法 |
CN113449815A (zh) * | 2021-07-20 | 2021-09-28 | 四川大学 | 一种基于深度包分析的异常包检测方法及系统 |
CN113468865A (zh) * | 2021-06-28 | 2021-10-01 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN113468872A (zh) * | 2021-06-09 | 2021-10-01 | 大连理工大学 | 基于句子级别图卷积的生物医学关系抽取方法及系统 |
CN113468874A (zh) * | 2021-06-09 | 2021-10-01 | 大连理工大学 | 一种基于图卷积自编码的生物医学关系抽取方法 |
CN113486673A (zh) * | 2021-07-29 | 2021-10-08 | 刘德喜 | 基于目标语义与位置融合的方面意见词抽取方法 |
CN113488196A (zh) * | 2021-07-26 | 2021-10-08 | 西南交通大学 | 一种药品说明书文本命名实体识别建模方法 |
CN113569558A (zh) * | 2021-07-06 | 2021-10-29 | 上海交通大学 | 一种电力设备局部放电实体关系抽取方法及系统 |
CN113609868A (zh) * | 2021-09-01 | 2021-11-05 | 首都医科大学宣武医院 | 一种多任务问答驱动的医疗实体关系抽取方法 |
CN113641767A (zh) * | 2021-07-16 | 2021-11-12 | 中南民族大学 | 实体关系抽取方法、装置、设备及存储介质 |
CN113704415A (zh) * | 2021-09-09 | 2021-11-26 | 北京邮电大学 | 医学文本的向量表示生成方法和装置 |
CN113726730A (zh) * | 2021-07-14 | 2021-11-30 | 国网山东省电力公司信息通信公司 | 基于深度学习算法的dga域名检测方法及系统 |
CN114281987A (zh) * | 2021-11-26 | 2022-04-05 | 重庆邮电大学 | 一种用于智能语音助手的对话短文本语句匹配方法 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN114915496A (zh) * | 2022-07-11 | 2022-08-16 | 广州番禺职业技术学院 | 基于时间权重和深度神经网络的网络入侵检测方法和装置 |
CN115100480A (zh) * | 2022-07-28 | 2022-09-23 | 西南交通大学 | 基于向量量化变分自编码器的医学影像分类模型及方法 |
CN115659986A (zh) * | 2022-12-13 | 2023-01-31 | 南京邮电大学 | 一种面向糖尿病文本的实体关系抽取方法 |
CN115994539A (zh) * | 2023-02-17 | 2023-04-21 | 成都信息工程大学 | 一种基于卷积门控和实体边界预测的实体抽取方法及系统 |
CN116564553A (zh) * | 2023-05-06 | 2023-08-08 | 西南交通大学 | 一种基于共病特征的用药效果预测方法 |
CN116629264A (zh) * | 2023-05-24 | 2023-08-22 | 成都信息工程大学 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
CN117062280A (zh) * | 2023-08-17 | 2023-11-14 | 北京美中爱瑞肿瘤医院有限责任公司 | 一种神经外科自助式手术灯自动跟随系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN111291556A (zh) * | 2019-12-17 | 2020-06-16 | 东华大学 | 基于实体义项的字和词特征融合的中文实体关系抽取方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
-
2021
- 2021-03-23 CN CN202110316876.7A patent/CN112883738A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN111291556A (zh) * | 2019-12-17 | 2020-06-16 | 东华大学 | 基于实体义项的字和词特征融合的中文实体关系抽取方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
Non-Patent Citations (2)
Title |
---|
DESH RAJ 等: "Learning local and global contexts using a convolutional recurrent network model for relation classification in biomedical text", 《PROCEEDINGS OF THE 21ST CONFERENCE ON COMPUTATIONAL NATURAL LANGUAGE LEARNING》 * |
宁尚明 等: "基于多通道自注意力机制的电子病历实体关系抽取", 《计算机学报》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468874B (zh) * | 2021-06-09 | 2024-04-16 | 大连理工大学 | 一种基于图卷积自编码的生物医学关系抽取方法 |
CN113468872A (zh) * | 2021-06-09 | 2021-10-01 | 大连理工大学 | 基于句子级别图卷积的生物医学关系抽取方法及系统 |
CN113468874A (zh) * | 2021-06-09 | 2021-10-01 | 大连理工大学 | 一种基于图卷积自编码的生物医学关系抽取方法 |
CN113221181A (zh) * | 2021-06-09 | 2021-08-06 | 上海交通大学 | 具有隐私保护的表格类信息抽取系统及方法 |
CN113468872B (zh) * | 2021-06-09 | 2024-04-16 | 大连理工大学 | 基于句子级别图卷积的生物医学关系抽取方法及系统 |
CN113468865B (zh) * | 2021-06-28 | 2024-04-09 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN113468865A (zh) * | 2021-06-28 | 2021-10-01 | 西安理工大学 | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 |
CN113569558B (zh) * | 2021-07-06 | 2023-09-26 | 上海交通大学 | 一种实体关系抽取方法及系统 |
CN113569558A (zh) * | 2021-07-06 | 2021-10-29 | 上海交通大学 | 一种电力设备局部放电实体关系抽取方法及系统 |
CN113726730A (zh) * | 2021-07-14 | 2021-11-30 | 国网山东省电力公司信息通信公司 | 基于深度学习算法的dga域名检测方法及系统 |
CN113641767A (zh) * | 2021-07-16 | 2021-11-12 | 中南民族大学 | 实体关系抽取方法、装置、设备及存储介质 |
CN113641767B (zh) * | 2021-07-16 | 2024-04-19 | 中南民族大学 | 实体关系抽取方法、装置、设备及存储介质 |
CN113449815B (zh) * | 2021-07-20 | 2023-01-24 | 四川大学 | 一种基于深度包分析的异常包检测方法及系统 |
CN113449815A (zh) * | 2021-07-20 | 2021-09-28 | 四川大学 | 一种基于深度包分析的异常包检测方法及系统 |
CN113488196B (zh) * | 2021-07-26 | 2023-04-07 | 西南交通大学 | 一种药品说明书文本命名实体识别建模方法 |
CN113488196A (zh) * | 2021-07-26 | 2021-10-08 | 西南交通大学 | 一种药品说明书文本命名实体识别建模方法 |
CN113486673A (zh) * | 2021-07-29 | 2021-10-08 | 刘德喜 | 基于目标语义与位置融合的方面意见词抽取方法 |
CN113486673B (zh) * | 2021-07-29 | 2022-10-25 | 刘德喜 | 基于目标语义与位置融合的方面意见词抽取方法 |
CN113609868A (zh) * | 2021-09-01 | 2021-11-05 | 首都医科大学宣武医院 | 一种多任务问答驱动的医疗实体关系抽取方法 |
CN113704415A (zh) * | 2021-09-09 | 2021-11-26 | 北京邮电大学 | 医学文本的向量表示生成方法和装置 |
CN113704415B (zh) * | 2021-09-09 | 2023-05-23 | 北京邮电大学 | 医学文本的向量表示生成方法和装置 |
CN114281987A (zh) * | 2021-11-26 | 2022-04-05 | 重庆邮电大学 | 一种用于智能语音助手的对话短文本语句匹配方法 |
CN114510946B (zh) * | 2022-04-21 | 2022-08-23 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN114915496B (zh) * | 2022-07-11 | 2023-01-10 | 广州番禺职业技术学院 | 基于时间权重和深度神经网络的网络入侵检测方法和装置 |
CN114915496A (zh) * | 2022-07-11 | 2022-08-16 | 广州番禺职业技术学院 | 基于时间权重和深度神经网络的网络入侵检测方法和装置 |
CN115100480A (zh) * | 2022-07-28 | 2022-09-23 | 西南交通大学 | 基于向量量化变分自编码器的医学影像分类模型及方法 |
CN115659986A (zh) * | 2022-12-13 | 2023-01-31 | 南京邮电大学 | 一种面向糖尿病文本的实体关系抽取方法 |
CN115994539A (zh) * | 2023-02-17 | 2023-04-21 | 成都信息工程大学 | 一种基于卷积门控和实体边界预测的实体抽取方法及系统 |
CN115994539B (zh) * | 2023-02-17 | 2024-05-10 | 成都信息工程大学 | 一种基于卷积门控和实体边界预测的实体抽取方法及系统 |
CN116564553A (zh) * | 2023-05-06 | 2023-08-08 | 西南交通大学 | 一种基于共病特征的用药效果预测方法 |
CN116629264B (zh) * | 2023-05-24 | 2024-01-23 | 成都信息工程大学 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
CN116629264A (zh) * | 2023-05-24 | 2023-08-22 | 成都信息工程大学 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
CN117062280A (zh) * | 2023-08-17 | 2023-11-14 | 北京美中爱瑞肿瘤医院有限责任公司 | 一种神经外科自助式手术灯自动跟随系统 |
CN117062280B (zh) * | 2023-08-17 | 2024-03-08 | 北京美中爱瑞肿瘤医院有限责任公司 | 一种神经外科自助式手术灯自动跟随系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN109697232B (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN110413986A (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN107562784A (zh) | 基于ResLCNN模型的短文本分类方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN110232122A (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210601 |
|
WD01 | Invention patent application deemed withdrawn after publication |