CN110866401A - 基于注意力机制的中文电子病历命名实体识别方法及系统 - Google Patents
基于注意力机制的中文电子病历命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN110866401A CN110866401A CN201911124973.5A CN201911124973A CN110866401A CN 110866401 A CN110866401 A CN 110866401A CN 201911124973 A CN201911124973 A CN 201911124973A CN 110866401 A CN110866401 A CN 110866401A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- vectors
- hidden layer
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 247
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 147
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 208000032023 Signs and Symptoms Diseases 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于注意力机制的中文电子病历命名实体识别方法及系统,属于文本信息挖掘领域,本发明要解决的技术问题为如何基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体,技术方案为:该方法步骤如下:S1、获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;S2、将词向量与词性向量拼接后输入Double‑LSTMs神经网络模型进行特征提取,以获取更加准确的隐层向量表示;S3、增加一层注意力层,为文本中相对重要的信息赋予更高的权重;S4、将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将其进行拼接,作为特征向量;S5、基于条件随机场模型进行序列标注,实现命名实体的识别任务。
Description
技术领域
本发明涉及文本信息挖掘技术领域,具体地说是一种基于注意力机制的中文电子病历命名实体识别方法及系统。
背景技术
医疗信息化的不断发展产生了大量的医疗数据,尤其是电子病历的产生,如何使用自然语言处理技术来处理电子病历,在其中提取出重要的信息服务于医生的临床决策,具有深远的研究意义,因此命名实体识别技术被提出。
目前,应用于中文电子病历命名实体识别的主要方法可以大致分为三种:基于规则和词典的方法、基于统计学习的方法以及将两种方法混合使用的方法。
其中,基于规则和词典的方法:基本思想主要是利用语言学家人工构造的规则模板,以字符串和模式进行匹配,所使用的特征主要包含方向词、中心词、统计信息、关键字、位置词等,而这些特征均依赖于词典构建的质量。基于规则与词典的方法最先被应用于命名实体的识别,但是该方法的跨领域适用性较差,而且构造规则、构建词典会需要花费大量的人力。
基于统计学习的方法:目前常被应用于命名实体识别的统计学方法有:最大熵、隐马尔科夫、条件随机场、支持向量机。这些常用的统计学方法,其共同之处在于对相应研究领域文本特征的选择要求会比较高,因此选择一些对实验结果影响显著的特征将会直接影响这些模型的识别效果;其次,由于不同领域的文本涉及到的命名实体均具有独特的特征,如何选择能够有效反映命名实体自身特有的特征集合也是一项相对复杂的任务,而这些也直接影响着模型的识别性能。
混合方法:根据目前的研究情况进一步表明,单独使用一种方法已经很难实现识别性能上的提升,因此,现在多数情况下,是将基于规则与词典的方法与基于统计学的方法进行组合使用,以期达到更好地识别效果,混合方法可以大致分为以下三种类型:
1)统计学习方法之间或内部层叠融合;
2)统计学习方法与规则、词典之间的融合,关键之处还在于两者之间融合技术的选择;
3)各类模型、算法之间的结合,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。
在混合方法中,关键之处在于如何有效地将这两种方法进行结合,而这也将直接影响到混合之后识别的性能。
以上所介绍的方法中,基于规则与字典的方法在识别效果中相对来说是比较好的,但是规则的构造、词典的构建均需要大量的人力,且构建的规则与词典也存在一定的领域局限性,普适性不强,限制了其广泛的使用;其次,基于单一的统计学方法又很难进一步实现识别性能的提升,因此,目前基于混合方法的命名体识别是主流。但是如何基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体是目前现有技术中急需解决的问题。
专利号为CN109871538A的专利文献公开了一种中文电子病历命名实体识别方法,包括步骤:1)构建普通词汇字典;2)简约词性标注;3)构建文本和词性向量映射表;4)训练命名实体的预测模型;5)命名实体的标签预测。该技术方案通过加入词性特征,来提高命名实体和普通词汇的边界可区分性,从而提高命名实体边界准确,但是不能基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体。
专利号为CN110032739A的专利文献公开了一种中文电子病历命名实体抽取方法及系统。该方法包括:通过字符嵌入层将输入语句中的每个字映射为一个向量;采用LSTM模型输入字符序列,获得隐表示向量;将每个字作为以该字为结尾的语义单位的最后一个字,进行语义分割,得到该字对应的所有网格编码;将每个字的所有网格编码进行线性组合,得到最后的每个字符的向量,其中,线性组合中的权重由自注意力机制给出;采用深度残差网络作为输出解码层,解码出命名实体链。但是该技术方案不能基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体。
发明内容
本发明的技术任务是提供一种基于注意力机制的中文电子病历命名实体识别方法及系统,来解决如何基于神经网络和注意力机制实现更加准确便捷地识别出电子病历中的命名实体的问题。
本发明的技术任务是按以下方式实现的,基于注意力机制的中文电子病历命名实体识别方法,该方法步骤如下:
S1、基于词向量建模的方法,获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;
S2、将词向量与词性向量拼接后输入Double-LSTMs神经网络模型进行特征提取,以获取更加准确的隐层向量表示;
S3、基于Double-LSTMs神经网络,增加一层注意力层,为文本中相对重要的信息赋予更高的权重,突出其作用;
S4、基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接,作为特征向量;
S5、基于条件随机场模型(CRFs)进行序列标注,实现命名实体的识别任务。
作为优选,所述步骤S1中获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接的具体步骤如下:
S101、使用word2vec模型的Skip-gram(Skip-Gram本质上是一个神经网络模型)方法生成词向量wi;
S102、使用word2vec模型的Skip-gram方法生成词性向量wi;
S103、将得到的词向量wi与词性向量wi进行拼接,得到向量[wi,pi],向量[wi,pi]将作为Double-LSTMs层的输入。
更优地,所述步骤S101中使用word2vec模型的Skip-gram方法生成词向量wi的具体步骤如下:
S10101、Skip-Gram开始时通过输入层输入一个One-Hot的表示形式,即对句子序列中的词语按照顺序进行排列,每个词语对应的One-Hot就是将该词出现的位置置实数值1,其余各个位置均置0,组成一个长度为句子序列长度的向量;
S10102、输入层之后为隐含层,隐含层的节点个数自行设置,设置的节点个数就是所生成词向量的维度;其中,隐含层用于对相对大的向量维度进行降维处理,在降维的过程中,起到关键作用的就是输入层与隐含层的权重矩阵;
S10103、在输入层,神经元的节点个数为文本中词语的总数,在隐含层和输入层之间存在一个参数矩阵,词向量在经过矩阵计算后进行Softmax归一化,重新形成一个向量,即生成了一个文本的词向量。
作为优选,所述步骤S2中隐层向量是使用两个LSTM分别对文本进行正向、反向编码,形成Double-LSTMs层,正向编码所获得的每个词的隐层向量表示为hi,反向编码所获得的每个词的隐层向量表示为hi';
其中,正向编码所获得的每个词的隐层向量表示为hi具体的数学表达式为:
ft=σ(Wf·[ht-1,xt]+bf);
it=σ(Wi·[ht-1,xt]+bi);
ot=σ(WO·[ht-1,xt]+bo);
ht=ot*tanh(ct);
其中,ft、it、ct分别表示标准LSTM结构中的遗忘门、输入门、临时单元状态、单元状态;ht与ot分别表示标准LSTM的隐层状态与输出门,也是标准LSTM的两个输出;Wf、Wi、Wc、Wo分别表示遗忘门、输入门、临时单元状态、输出门对应的权重矩阵;bf、bi、bc、bo分别表示遗忘门、输入门、临时单元状态、输出门对应的偏置项;*表示按元素乘;σ表示sigmoid函数;tanh函数表示激活函数;sigmoid函数与tanh函数的数学表达式为:
其中,反向编码所获得的每个词的隐层向量表示为h'i的计算方式同正向编码所获得的每个词的隐层向量表示为hi。
作为优选,所述步骤S3中注意力层的构建步骤具体如下:
S301、将每个词对应的隐层向量ht通过一个单层的MLP神经网络线性转换成ut进行隐含表示,具体的数学表达式为:
ut=tanh(Wwht+bw);
其中,Ww表示权重矩阵;bw表示偏移矩阵;
S302、同时随机初始化一个词语级的上下文向量uw;
S303、在神经网络训练的过程中,向量ut与上下文向量uw被共同学习得到,计算经过学习得到的向量ut与上下文向量uw之间的相似度,将得到的相似度值使用一个Softmax函数对其进行归一化;
S304、归一化之后的值就作为相应词的重要性权重,具体的数学表达式为:
作为优选,所述步骤S4中隐层向量进行拼接的具体步骤如下:
作为优选,所述步骤S5中命名实体主要包括症状和体征、检查和检验、疾病和诊断、治疗、身体部位五类。
更优地,所述步骤S5中命名实体的识别任务实质上就是对步骤S4中得到的组合向量进行解码,通过解码计算标签得分,得到标签序列的概率并找到概率最大的序列,该概率最大的序列就被作为命名实体识别的结果。
更优地,所述解码是使用条件随机场(CRFs),根据CRFs定义标签序列的全局得分C,具体为:
其中,T表示一个5*5的转换矩阵,且包含了标签决策内的线性依赖关系,后一个标签依赖于前一个标签;b,e均表示5维向量,表示某个标签作为开始和结尾的成本;y1,...,yn表示长度为n的句子中每个词可能对应的标签。
基于注意力机制的中文电子病历命名实体识别系统,该系统包括,
词向量及词性向量获取与拼接单元,用于基于词向量建模的方法,获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;
正反隐层向量获取单元,用于基于词向量与词性向量拼接之后,输入Double-LSTMs神经网络模型进行特征提取;
注意力层构建单元,用于基于Double-LSTMs神经网络构建一层注意力层,为文本中相对较重要的信息赋予更高的权重,突出其作用;
隐层向量拼接单元,用于基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将其进行拼接,作为特征向量;
命名实体解码单元,用于基于条件随机场模型(CRFs)进行序列标注,实现命名实体的识别任务。
本发明的基于注意力机制的中文电子病历命名实体识别方法及系统具有以下优点:
(一)本发明将命名实体识别任务归纳为序列标注任务,使用神经网络提取中文电子病历中的特征,增加注意力机制,以及融合多元信息,实现中文电子病历中命名实体更加准确地识别;
(二)本发明在Double-LSTMs层之后增加了注意力层,通过注意力层为文本中出现的命名实体赋予较高的权重,突出其在文本中的作用,这样形成特征向量用于命名实体识别,将会提高识别的性能。;
(三)基于神经网络自动提取文本特征,针对电子病历中的命名实体的识别,本发明避免了人工提取特征所耗费的大量精力,也提高了各文本领域之间的普适性;
(四)本发明使用了两个标准的LSTM,构建Double-LSTMs层,对文本进行正反向的编码,充分利用了上下文信息;
(五)本发明在标准LSTM之后增加了注意力层,为命名实体学习注意力权重,增加命名实体在文本中所占的比重;
(六)拼接词向量与词性向量,丰富每个词的语义信息,获得每个词更加准确的隐层向量表示;
(七)加权之后的正反向隐层向量拼接组成的特征向量,融合上下文信息的同时,也突出了正反向隐层向量在重要性上的差异;
(八)基于条件随机场对特征向量进行解码,克服了Softmax方法只能做局部选择的不足。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于注意力机制的中文电子病历命名实体识别方法的基本结构图;
附图2为词向量生成原理图;
附图3为注意力层基本结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于注意力机制的中文电子病历命名实体识别方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的基于注意力机制的中文电子病历命名实体识别方法,该方法步骤如下:
S1、基于词向量建模的方法,获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;具体步骤如下:
S101、使用word2vec模型的Skip-gram方法生成词向量wi;使用word2vec模型的Skip-gram方法来生成词向量,Skip-Gram本质上是一个神经网络模型,其基本结构包括输入层、隐含层以及输出层;具体步骤如下:
S10101、Skip-Gram开始时通过输入层输入一个One-Hot的表示形式,即对句子序列中的词语按照顺序进行排列,每个词语对应的One-Hot就是将该词出现的位置置实数值1,其余各个位置均置0,组成一个长度为句子序列长度的向量;
S10102、输入层之后为隐含层,隐含层的节点个数自行设置,设置的节点个数就是所生成词向量的维度;其中,如果句子序列相对较长时,那么每个词语对应的One-Hot形式的向量维度也会较大,而且所表示的语义特征也比较稀疏,那么就需要通过隐含层对其进行降维,从而降低计算的复杂度。在降维的过程中,起到关键作用的就是输入层与隐含层的权重矩阵,假设有某文本中词汇量为1000,其中每个词语的One-Hot形式的向量均为1000维,如果想要将其训练生成300维的词向量,那么隐含层的节点个数就可以设置为300,在隐含层形成一个[1000,300]的参数矩阵,根据矩阵之间的乘法,某一One-Hot形式的行向量和矩阵相乘,得到的就是矩阵的某一行,这样就成功的将1000维降成了300维。本质上来讲,这个参数矩阵就对应了整个文本所对应的词向量。
S10103、在输入层,神经元的节点个数为文本中词语的总数,在隐含层和输入层之间存在一个参数矩阵,词向量在经过矩阵计算后进行Softmax归一化,重新形成一个向量,即生成了一个文本的词向量。依然假设为1000,那么在隐含层与输出层之间会存在一个大小为[300,1000]的参数矩阵,词向量会在这里经过矩阵计算之后进行Softmax归一化,重新形成一个1000维的向量,其实际意义就是获得了1000个维度为300的归一化向量,至此,就生成了一个文本的词向量,如附图2所示,按照词向量的生成建模方式,词性向量的生成类似于词向量。
S102、使用word2vec模型的Skip-gram方法生成词性向量wi;同样步骤S10101到S10103采用word2vec中的Skipgram方法得到每个词对应的词性向量wi;
S103、将得到的词向量wi与词性向量wi进行拼接,得到向量[wi,pi],向量[wi,pi]将作为Double-LSTMs层的输入。
S2、将词向量与词性向量拼接后输入Double-LSTMs神经网络模型进行特征提取,以获取更加准确的隐层向量表示;其中,隐层向量是使用两个LSTM分别对文本进行正向、反向编码,形成Double-LSTMs层,正向编码所获得的每个词的隐层向量表示为hi,反向编码所获得的每个词的隐层向量表示为hi';
其中,正向编码所获得的每个词的隐层向量表示为hi具体的数学表达式为:
ft=σ(Wf·[ht-1,xt]+bf);
it=σ(Wi·[ht-1,xt]+bi);
ot=σ(WO·[ht-1,xt]+bo);
ht=ot*tanh(ct);
其中,ft、it、ct分别表示标准LSTM结构中的遗忘门、输入门、临时单元状态、单元状态;ht与ot分别表示标准LSTM的隐层状态与输出门,也是标准LSTM的两个输出;Wf、Wi、Wc、Wo分别表示遗忘门、输入门、临时单元状态、输出门对应的权重矩阵;bf、bi、bc、bo分别表示遗忘门、输入门、临时单元状态、输出门对应的偏置项;*表示按元素乘;σ表示sigmoid函数;tanh函数表示激活函数;sigmoid函数与tanh函数的数学表达式为:
其中,反向编码所获得的每个词的隐层向量表示为h'i的计算方式同正向编码所获得的每个词的隐层向量表示为hi。
S3、基于Double-LSTMs神经网络,增加一层注意力层,为文本中相对重要的信息赋予更高的权重,突出其作用;使用标准的LSTM对文本中的词进行编码,其默认每个词在文本中的重要性是一致的,那么单纯使用LSTM编码得到的隐层向量作为特征向量输入到分类层,命名实体显然更易受到一些非相关词的影响,因此,针对这一问题,本发明在Double-LSTMs层之后增加了注意力层,通过注意力层为文本中出现的命名实体赋予较高的权重,突出其在文本中的作用,这样形成特征向量用于命名实体识别,将会提高识别的性能。
如附图3所示,注意力层构建的具体步骤如下:
S301、将每个词对应的隐层向量ht通过一个单层的MLP神经网络线性转换成ut进行隐含表示,具体的数学表达式为:
ut=tanh(Wwht+bw);
其中,Ww表示权重矩阵;bw表示偏移矩阵;
S302、同时随机初始化一个词语级的上下文向量uw;
S303、在神经网络训练的过程中,向量ut与上下文向量uw被共同学习得到,计算经过学习得到的向量ut与上下文向量uw之间的相似度,将得到的相似度值使用一个Softmax函数对其进行归一化;
S304、归一化之后的值就作为相应词的重要性权重,具体的数学表达式为:
S4、基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接,作为特征向量;其中,隐层向量进行拼接的具体步骤如下:
其中,下标i和小标t表示不同的维度。
S5、基于条件随机场模型(CRFs)进行序列标注,实现命名实体的识别任务。其中,命名实体主要包括症状和体征、检查和检验、疾病和诊断、治疗、身体部位五类。命名实体的识别任务实质上就是对步骤S4中得到的组合向量进行解码,通过解码计算标签得分,得到标签序列的概率并找到概率最大的序列,该概率最大的序列就被作为命名实体识别的结果。解码是使用条件随机场(CRFs),根据CRFs定义标签序列的全局得分C,具体为:
其中,T表示一个5*5的转换矩阵,且包含了标签决策内的线性依赖关系,后一个标签依赖于前一个标签;b,e均表示5维向量,表示某个标签作为开始和结尾的成本;y1,...,yn表示长度为n的句子中每个词可能对应的标签。
实施例2:
本发明的基于注意力机制的中文电子病历命名实体识别系统,该系统包括,
词向量及词性向量获取与拼接单元,用于基于词向量建模的方法,获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;
正反隐层向量获取单元,用于基于词向量与词性向量拼接之后,输入Double-LSTMs神经网络模型进行特征提取;
注意力层构建单元,用于基于Double-LSTMs神经网络构建一层注意力层,为文本中相对较重要的信息赋予更高的权重,突出其作用;
隐层向量拼接单元,用于基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将其进行拼接,作为特征向量;
命名实体解码单元,用于基于条件随机场模型(CRFs)进行序列标注,实现命名实体的识别任务。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.基于注意力机制的中文电子病历命名实体识别方法,其特征在于,该方法步骤如下:
S1、基于词向量建模的方法,获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;
S2、将词向量与词性向量拼接后输入Double-LSTMs神经网络模型进行特征提取,以获取更加准确的隐层向量表示;
S3、基于Double-LSTMs神经网络,增加一层注意力层,为文本中相对重要的信息赋予更高的权重,突出其作用;
S4、基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接,作为特征向量;
S5、基于条件随机场模型进行序列标注,实现命名实体的识别任务。
2.根据权利要求1所述的基于注意力机制的中文电子病历命名实体识别方法,其特征在于,所述步骤S1中获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接的具体步骤如下:
S101、使用word2vec模型的Skip-gram方法生成词向量wi;
S102、使用word2vec模型的Skip-gram方法生成词性向量wi;
S103、将得到的词向量wi与词性向量wi进行拼接,得到向量[wi,pi],向量[wi,pi]将作为Double-LSTMs层的输入。
3.根据权利要求2所述的基于注意力机制的中文电子病历命名实体识别方法,其特征在于,所述步骤S101中使用word2vec模型的Skip-gram方法生成词向量wi的具体步骤如下:
S10101、Skip-Gram开始时通过输入层输入一个One-Hot的表示形式,即对句子序列中的词语按照顺序进行排列,每个词语对应的One-Hot就是将该词出现的位置置实数值1,其余各个位置均置0,组成一个长度为句子序列长度的向量;
S10102、输入层之后为隐含层,隐含层的节点个数自行设置,设置的节点个数就是所生成词向量的维度;其中,隐含层用于对相对大的向量维度进行降维处理,在降维的过程中,起到关键作用的就是输入层与隐含层的权重矩阵;
S10103、在输入层,神经元的节点个数为文本中词语的总数,在隐含层和输入层之间存在一个参数矩阵,词向量在经过矩阵计算后进行Softmax归一化,重新形成一个向量,即生成了一个文本的词向量。
4.根据权利要求1所述的基于注意力机制的中文电子病历命名实体识别方法,其特征在于,所述步骤S2中隐层向量是使用两个LSTM分别对文本进行正向、反向编码,形成Double-LSTMs层,正向编码所获得的每个词的隐层向量表示为hi,反向编码所获得的每个词的隐层向量表示为hi';
其中,正向编码所获得的每个词的隐层向量表示为hi具体的数学表达式为:
ft=σ(Wf·[ht-1,xt]+bf);
it=σ(Wi·[ht-1,xt]+bi);
ot=σ(WO·[ht-1,xt]+bo);
ht=ot*tanh(ct);
其中,ft、it、ct分别表示标准LSTM结构中的遗忘门、输入门、临时单元状态、单元状态;ht与ot分别表示标准LSTM的隐层状态与输出门,也是标准LSTM的两个输出;Wf、Wi、Wc、Wo分别表示遗忘门、输入门、临时单元状态、输出门对应的权重矩阵;bf、bi、bc、bo分别表示遗忘门、输入门、临时单元状态、输出门对应的偏置项;*表示按元素乘;σ表示sigmoid函数;tanh函数表示激活函数;sigmoid函数与tanh函数的数学表达式为:
其中,反向编码所获得的每个词的隐层向量表示为hi'的计算方式同正向编码所获得的每个词的隐层向量表示为hi。
5.根据权利要求1所述的基于注意力机制的中文电子病历命名实体识别方法,其特征在于,所述步骤S3中注意力层的构建步骤具体如下:
S301、将每个词对应的隐层向量ht通过一个单层的MLP神经网络线性转换成ut进行隐含表示,具体的数学表达式为:
ut=tanh(Wwht+bw);
其中,Ww表示权重矩阵;bw表示偏移矩阵;
S302、同时随机初始化一个词语级的上下文向量uw;
S303、在神经网络训练的过程中,向量ut与上下文向量uw被共同学习得到,计算经过学习得到的向量ut与上下文向量uw之间的相似度,将得到的相似度值使用一个Softmax函数对其进行归一化;
S304、归一化之后的值就作为相应词的重要性权重,具体的数学表达式为:
7.根据权利要求1所述的基于注意力机制的中文电子病历命名实体识别方法,其特征在于,所述步骤S5中命名实体主要包括症状和体征、检查和检验、疾病和诊断、治疗、身体部位五类。
8.根据权利要求1或7所述的基于注意力机制的中文电子病历命名实体识别方法,其特征在于,所述步骤S5中命名实体的识别任务实质上就是对步骤S4中得到的组合向量进行解码,通过解码计算标签得分,得到标签序列的概率并找到概率最大的序列,该概率最大的序列就被作为命名实体识别的结果。
10.基于注意力机制的中文电子病历命名实体识别系统,其特征在于,该系统包括,
词向量及词性向量获取与拼接单元,用于基于词向量建模的方法,获取中文词语词性的词向量和词性向量表示并将词向量和词性向量拼接;
正反隐层向量获取单元,用于基于词向量与词性向量拼接之后,输入Double-LSTMs神经网络模型进行特征提取;
注意力层构建单元,用于基于Double-LSTMs神经网络构建一层注意力层,为文本中相对较重要的信息赋予更高的权重,突出其作用;
隐层向量拼接单元,用于基于注意力层获得的权重,将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量,并分别将其进行拼接,作为特征向量;
命名实体解码单元,用于基于条件随机场模型(CRFs)进行序列标注,实现命名实体的识别任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911124973.5A CN110866401A (zh) | 2019-11-18 | 2019-11-18 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911124973.5A CN110866401A (zh) | 2019-11-18 | 2019-11-18 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866401A true CN110866401A (zh) | 2020-03-06 |
Family
ID=69654851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911124973.5A Pending CN110866401A (zh) | 2019-11-18 | 2019-11-18 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866401A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310766A (zh) * | 2020-03-13 | 2020-06-19 | 西北工业大学 | 基于编解码和二维注意力机制的车牌识别方法 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN111581474A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN111651991A (zh) * | 2020-04-15 | 2020-09-11 | 天津科技大学 | 一种利用多模型融合策略的医疗命名实体识别方法 |
CN111783466A (zh) * | 2020-07-15 | 2020-10-16 | 电子科技大学 | 一种面向中文病历的命名实体识别方法 |
CN111834012A (zh) * | 2020-07-14 | 2020-10-27 | 中国中医科学院中医药信息研究所 | 基于深度学习和注意力机制的中医证候诊断方法及装置 |
CN111881687A (zh) * | 2020-08-03 | 2020-11-03 | 浪潮云信息技术股份公司 | 一种基于上下文编码和多层感知机的关系抽取方法及装置 |
CN111914097A (zh) * | 2020-07-13 | 2020-11-10 | 吉林大学 | 基于注意力机制和多层级特征融合的实体抽取方法与装置 |
CN111916207A (zh) * | 2020-08-07 | 2020-11-10 | 杭州深睿博联科技有限公司 | 一种基于多模态融合的疾病识别方法及装置 |
CN112349370A (zh) * | 2020-11-05 | 2021-02-09 | 大连理工大学 | 一种基于对抗网络+众包的电子病历语料构建方法 |
CN112926323A (zh) * | 2021-01-26 | 2021-06-08 | 江南大学 | 基于多级残差卷积与注意力机制的中文命名实体识别方法 |
CN113517045A (zh) * | 2020-04-10 | 2021-10-19 | 山东大学 | 一种基于路径生成的电子病历icd代码预测方法及预测系统 |
CN113536799A (zh) * | 2021-08-10 | 2021-10-22 | 西南交通大学 | 基于融合注意力的医疗命名实体识别建模方法 |
CN113808742A (zh) * | 2021-08-10 | 2021-12-17 | 三峡大学 | 一种基于文本特征降维的lstm注意力机制疾病预测方法 |
CN113807094A (zh) * | 2020-06-11 | 2021-12-17 | 株式会社理光 | 实体识别方法、装置及计算机可读存储介质 |
CN113850290A (zh) * | 2021-08-18 | 2021-12-28 | 北京百度网讯科技有限公司 | 文本处理及模型训练方法、装置、设备和存储介质 |
CN114548102A (zh) * | 2020-11-25 | 2022-05-27 | 株式会社理光 | 实体文本的序列标注方法、装置及计算机可读存储介质 |
CN114819191A (zh) * | 2022-06-24 | 2022-07-29 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种高排放道路移动源识别方法、系统及存储介质 |
WO2022242074A1 (zh) * | 2021-05-21 | 2022-11-24 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
WO2023109436A1 (zh) * | 2021-12-13 | 2023-06-22 | 广州大学 | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 |
CN116386800A (zh) * | 2023-06-06 | 2023-07-04 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
-
2019
- 2019-11-18 CN CN201911124973.5A patent/CN110866401A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109697285A (zh) * | 2018-12-13 | 2019-04-30 | 中南大学 | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
Non-Patent Citations (5)
Title |
---|
GARRETT: "word2vec有什么应用?", 《知乎》 * |
ICE CREAM_069: "命名实体识别(二)", 《CSDN博客》 * |
LUO L , YANG Z , YANG P , ET AL.: "An Attention-based BiLSTM-CRF Approach to Document-level Chemical Named Entity Recognition", 《BIOINFORMATICS》 * |
张向荣,冯婕,刘芳: "《人工智能前沿技术丛书 模式识别》", 30 September 2019, 西安电子科技大学出版社 * |
高扬: "《人工智能与机器人先进技术丛书 智能摘要与深度学习》", 30 April 2019, 北京理工大学出版社 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310766A (zh) * | 2020-03-13 | 2020-06-19 | 西北工业大学 | 基于编解码和二维注意力机制的车牌识别方法 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN111581474B (zh) * | 2020-04-02 | 2022-07-29 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN111581474A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 基于多头注意力机制的涉案微博评论的评价对象抽取方法 |
CN113517045B (zh) * | 2020-04-10 | 2023-07-14 | 山东大学 | 一种基于路径生成的电子病历icd代码预测方法及预测系统 |
CN113517045A (zh) * | 2020-04-10 | 2021-10-19 | 山东大学 | 一种基于路径生成的电子病历icd代码预测方法及预测系统 |
CN111651991A (zh) * | 2020-04-15 | 2020-09-11 | 天津科技大学 | 一种利用多模型融合策略的医疗命名实体识别方法 |
CN111651991B (zh) * | 2020-04-15 | 2022-08-26 | 天津科技大学 | 一种利用多模型融合策略的医疗命名实体识别方法 |
CN113807094A (zh) * | 2020-06-11 | 2021-12-17 | 株式会社理光 | 实体识别方法、装置及计算机可读存储介质 |
CN113807094B (zh) * | 2020-06-11 | 2024-03-19 | 株式会社理光 | 实体识别方法、装置及计算机可读存储介质 |
CN111914097A (zh) * | 2020-07-13 | 2020-11-10 | 吉林大学 | 基于注意力机制和多层级特征融合的实体抽取方法与装置 |
CN111834012A (zh) * | 2020-07-14 | 2020-10-27 | 中国中医科学院中医药信息研究所 | 基于深度学习和注意力机制的中医证候诊断方法及装置 |
CN111783466A (zh) * | 2020-07-15 | 2020-10-16 | 电子科技大学 | 一种面向中文病历的命名实体识别方法 |
CN111881687B (zh) * | 2020-08-03 | 2024-02-20 | 浪潮云信息技术股份公司 | 一种基于上下文编码和多层感知机的关系抽取方法及装置 |
CN111881687A (zh) * | 2020-08-03 | 2020-11-03 | 浪潮云信息技术股份公司 | 一种基于上下文编码和多层感知机的关系抽取方法及装置 |
CN111916207B (zh) * | 2020-08-07 | 2023-08-08 | 杭州深睿博联科技有限公司 | 一种基于多模态融合的疾病识别方法及装置 |
CN111916207A (zh) * | 2020-08-07 | 2020-11-10 | 杭州深睿博联科技有限公司 | 一种基于多模态融合的疾病识别方法及装置 |
CN112349370B (zh) * | 2020-11-05 | 2023-11-24 | 大连理工大学 | 一种基于对抗网络+众包的电子病历语料构建方法 |
CN112349370A (zh) * | 2020-11-05 | 2021-02-09 | 大连理工大学 | 一种基于对抗网络+众包的电子病历语料构建方法 |
CN114548102A (zh) * | 2020-11-25 | 2022-05-27 | 株式会社理光 | 实体文本的序列标注方法、装置及计算机可读存储介质 |
CN112926323B (zh) * | 2021-01-26 | 2024-02-02 | 江南大学 | 基于多级残差卷积与注意力机制的中文命名实体识别方法 |
CN112926323A (zh) * | 2021-01-26 | 2021-06-08 | 江南大学 | 基于多级残差卷积与注意力机制的中文命名实体识别方法 |
WO2022242074A1 (zh) * | 2021-05-21 | 2022-11-24 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
CN113808742A (zh) * | 2021-08-10 | 2021-12-17 | 三峡大学 | 一种基于文本特征降维的lstm注意力机制疾病预测方法 |
CN113536799B (zh) * | 2021-08-10 | 2023-04-07 | 西南交通大学 | 基于融合注意力的医疗命名实体识别建模方法 |
CN113536799A (zh) * | 2021-08-10 | 2021-10-22 | 西南交通大学 | 基于融合注意力的医疗命名实体识别建模方法 |
CN113850290A (zh) * | 2021-08-18 | 2021-12-28 | 北京百度网讯科技有限公司 | 文本处理及模型训练方法、装置、设备和存储介质 |
CN113850290B (zh) * | 2021-08-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 文本处理及模型训练方法、装置、设备和存储介质 |
WO2023109436A1 (zh) * | 2021-12-13 | 2023-06-22 | 广州大学 | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 |
CN114819191A (zh) * | 2022-06-24 | 2022-07-29 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种高排放道路移动源识别方法、系统及存储介质 |
CN114819191B (zh) * | 2022-06-24 | 2022-10-11 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种高排放道路移动源识别方法、系统及存储介质 |
CN116386800A (zh) * | 2023-06-06 | 2023-07-04 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
CN116386800B (zh) * | 2023-06-06 | 2023-08-18 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866401A (zh) | 基于注意力机制的中文电子病历命名实体识别方法及系统 | |
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN109582789B (zh) | 基于语义单元信息的文本多标签分类方法 | |
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN111611810B (zh) | 一种多音字读音消歧装置及方法 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
WO2019235103A1 (ja) | 質問生成装置、質問生成方法及びプログラム | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Göker et al. | Neural text normalization for turkish social media | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN115906855A (zh) | 一种字词信息融合的中文地址命名实体识别方法及装置 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
Tolegen et al. | Voted-perceptron approach for Kazakh morphological disambiguation | |
CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |
|
RJ01 | Rejection of invention patent application after publication |