CN106202054B - 一种面向医疗领域基于深度学习的命名实体识别方法 - Google Patents

一种面向医疗领域基于深度学习的命名实体识别方法 Download PDF

Info

Publication number
CN106202054B
CN106202054B CN201610590151.6A CN201610590151A CN106202054B CN 106202054 B CN106202054 B CN 106202054B CN 201610590151 A CN201610590151 A CN 201610590151A CN 106202054 B CN106202054 B CN 106202054B
Authority
CN
China
Prior art keywords
corpus
lstm
voc
entity recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610590151.6A
Other languages
English (en)
Other versions
CN106202054A (zh
Inventor
朱聪慧
赵铁军
杨沐昀
徐冰
曹海龙
郑德权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen National Research Institute of High Performance Medical Devices Co Ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201610590151.6A priority Critical patent/CN106202054B/zh
Publication of CN106202054A publication Critical patent/CN106202054A/zh
Application granted granted Critical
Publication of CN106202054B publication Critical patent/CN106202054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • G06F19/326

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。

Description

一种面向医疗领域基于深度学习的命名实体识别方法
技术领域
本发明涉及命名实体识别方法,特别涉及一种面向医疗领域基于深度学习的命名实体识别方法。
背景技术
命名实体识别作为信息抽取的基本任务之一,在问答系统、句法分析、机器翻译等领域中都有重要应用。医疗实体与普通实体区别较大,开放领域实体标注语料信息对医疗实体标注作用甚微;同时医疗领域的实体识别又缺乏标注语料,这主要是由于医疗实体的判断需要专业人士来进行,大大提高了医疗领域实体标注的成本。因此,在医疗领域如何利用少量标注语料进行更好的标注是十分重要的。
深度学习在近几年取得了重大进展,它已经被证明能够发掘出高维数据中的复杂结构进行学习。目前在自然语言处理领域中,一种新的词表示方法:词向量(wordembedding) 取得了巨大成功。
词向量(word embedding)是近年来常用来替代传统词袋(bag of word)的词表示方法,解决了词袋表示带来的维数灾难问题。研究人员还发现,通过训练语言模型得到的词向量蕴含了词汇的语义信息,还可以通过一些算法能够在一定程度上得到词汇的相似度等数据。此外,由于词向量的训练无需任何标注工作,所以围绕词向量进行研究可以减少很多工作量,也可以按需训练:既可以使用大量开放语料训练得到可泛用的良好的词向量表示,也可以选择同一领域的语料训练得到对某个领域专用的词向量,更可以根据任务直接进行训练。
词向量的训练一般使用深度神经网络进行,而在自然语言处理领域,循环神经网络 (RNN)模型是应用最广泛的神经网络之一。在自然语言处理领域,上文信息对下文的影响一般用语言模型来刻画,而RNN模型利用一个循环反馈的隐层很自然的利用了上文信息,而且在理论上可以使用到全部的上文信息,这是传统语言模型不能做到的。但RNN 模型在实际应用中存在梯度消失的问题,长短期记忆单元(Long Short-Term Memory, LSTM)就是对于RNN的一个有效的改进。LSTM针对RNN无法有效保留所需信息的现状,使用了记忆单元(Memory Cell)记录信息,并引入多个门(gate)控制记忆单元的更新和使用,使得所需的信息可以有效保存下来。LSTM现在已经被广泛应用于从分词、词性标注、命名实体识别到机器翻译等自然语言处理任务中。
在深度神经网络中一个常用的技术是预训练技术。多个研究成果证明,使用大规模语料进行无监督训练得到的词向量来初始化神经网络的参数,要比随机初始化训练可以得到更好的模型,这主要是由于预训练得到的词向量可以利用大规模无标注数据,包含了训练数据中没有的信息,且能在一定程度上防止随机初始化的词向量在优化过程中陷入局部极值。对于训练数据稀缺的医疗领域来说,能够利用大规模无标注数据进行辅助训练是极有意义的。
目前命名实体识别任务使用的模型主要有以CRF为代表的传统模型和深度神经网络模型两类,而在医疗领域一般还在使用传统的CRF模型。
CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果,而LSTM模型蕴含的语义信息可以防止这种情况发生。
发明内容
本发明的目的是为了解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。
上述的发明目的是通过以下技术方案实现的:
步骤一、利用无标注语料进行词向量veci的训练,得到了补充医疗领域语料的词表voc 和词表voc对应的词向量vec;其中,i=1,2,3,…,n;vec=vec1,vec2,…,veci,…,vecn; voc=voc1,voc2,…,voci,…,vocn;n为无标注语料中的词种类总个数;
步骤二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;利用步骤一得到的词向量vec作为预训练向量,利用LSTM方法根据预训练向量、xk以及yk计算优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新;有标注语料包括训练语料和测试语料;
其中,xk为第k个样例的有标注语料中的训练语料对应的LSTM输入的词序列;yk为第k个样例的有标注语料中的训练语料对应的标注结果向量;
步骤二一、将词表voc和词表voc对应的词向量vec进行预训练;利用xk和步骤一得到的词向量vec来计算得到LSTM神经网络的输入序列X,其中,计算得到LSTM神经网络的输入序列X采用两种方法,两种方法具体为:一种是将词向量vec作为LSTM模型的初始值所选用的方法即方法一;另一种方法是将词向量vec作为LSTM神经网络的输入所选用的方法即方法二;
步骤二二、利用输入Xt、第t-1次计算得到的隐层ht-1和第t-1次计算得到的记忆单元ct-1计算第t次计算的LSTM模型的输入门int、LSTM模型的输出门ot以及LSTM模型的遗忘门ft;根据int、ot和ft计算得到记忆单元值ct和隐层值ht;其中, X=X1,X2,...,Xt,...,XT
步骤二三、对输入序列X,分别从按X1到XT的顺序分别输入到步骤二二带入到公式(9)得到的隐层输出hf;从XT到X1的顺序分别输入到步骤二二带入到公式(9),得到的隐层输出hb
步骤二四、采用转移代价的整个序列的代价计算方法将步骤二三得到的隐层结果hf和hb进行序列代价计算得到优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新;其中,θ为word_emb、WX_in、Wh_in、Wc_in、WX_o、 Wh_o、Wc_o、WX_f、Wh_f、Wc_f、bin、bo或bf
步骤三、LSTM的测试;输入有标注语料,根据步骤二中的更新的LSTM的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估,具体评估计算方法如下:
步骤四、将有标注语料重复步骤二和步骤三,直至步骤三的命名实体识别评估标准F 值不增加或重复步骤二和步骤三的次数达到最大值50~100次为止。
发明效果
一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法,所属信息抽取领域,相关研究对命名实体识别研究有促进作用。本发明希望缓解医疗领域的实体识别又缺乏标注语料的问题,研究在医疗领域如何利用少量标注语料进行更好的标注。本发明通过使用深度学习方法,进一步挖掘语料所蕴含的信息;同时引入大规模语料信息来防止模型在测试中,由于出现了过多没有经过训练的开放领域常规词而降低效果的问题。实验结果证明,这种面向医疗领域基于深度学习的命名实体识别方法与传统医疗领域命名实体识别方法相比,更适用于医疗领域的命名实体识别。
一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法,所属信息抽取领域,相关研究对命名实体识别研究有促进作用。本发明希望缓解医疗领域的实体识别又缺乏标注语料的问题,研究在医疗领域如何利用少量标注语料进行更好的标注。本发明通过使用深度学习方法,进一步挖掘语料所蕴含的信息;同时引入大规模语料信息来防止模型在测试中,由于出现了过多没有经过训练的开放领域常规词而降低效果的问题。实验结果证明,这种面向医疗领域基于深度学习的命名实体识别方法与传统医疗领域命名实体识别方法相比,更适用于医疗领域的命名实体识别。
本发明涉及命名实体识别方法,特别涉及基于深度学习的面向医疗领域的命名实体识别方法。本发明所属信息抽取领域,对命名实体识别研究有促进作用。
本发明的目的是为了充分利用现有的医疗领域命名实体识别标注语料,提升深度神经网络在医疗领域命名实体识别任务的性能。同时为了解决医疗领域命名实体识别标注语料匮乏的现状,利用大规模无标注数据参与模型训练,提出了一种面向医疗领域基于深度学习的命名实体识别方法。
本发明的相关研究提高了医疗领域命名实体识别的性能,不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。为了提高命名实体识别的性能,本发明充分利用了现有的少量医疗领域的命名实体识别标注语料,通过使用LSTM深度神经网络建模,并利用深度神经网络的预训练技术加入了大规模生语料的信息,这种方法相比传统方法相比,既无需人工标注更多的实体识别语料,减少了人力物力的消耗,又可以提高医疗领域命名实体识别的性能。
本发明对语料预处理的粒度没有要求,既可以按字进行标注,也可以按词进行,这主要取决于所使用的训练预料。考虑到医疗领域的实体很多词都很少在开放领域出现,用词粒度进行训练会需要为预训练语料分词,可能会带来一些困难。为了最大限度的减少人力物力资源的消耗,比较推荐使用按字进行处理。
总的来说,该方法提出了一种面向医疗领域基于深度学习的命名实体识别方法。
使用少量医疗语料训练模型,并标注大量的在在线医疗问答网站爬取的文本,对两种模型标注结果进行了高频词的统计,其对比如下表:
CRF模型与LSTM模型在线问答语料测试的高频词对比
表中粗体为明显无意义的标注结果,可以看出LSTM表现远好于CRF模型。
附图说明
图1为具体实施方式一提出的一种面向医疗领域基于深度学习的命名实体识别方法流程图;
图2为具体实施方式一提出的LSTM的计算流程图。
具体实施方式
具体实施方式一:结合图1本实施方式的一种面向医疗领域基于深度学习的命名实体识别方法,具体是按照以下步骤制备的:
步骤一、利用无标注语料进行词向量veci的训练(使用word2vec工具包进行词向量的训练),得到了补充医疗领域语料的词表voc(该词表与医疗领域语料相比含有更多的词表)和词表voc对应的词向量vec;其中,i=1,2,3,…,n;vec=vec1,vec2,…,veci,…,vecn; voc=voc1,voc2,…,voci,…,vocn;n为无标注语料中的词种类总个数;
步骤二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;利用步骤一得到的词向量vec作为预训练向量,利用LSTM方法根据预训练向量、xk以及yk计算优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新;有标注语料包括训练语料和测试语料;
其中,xk为第k个样例的有标注语料中的训练语料对应的LSTM输入的词序列;yk为第k个样例的有标注语料中的训练语料对应的标注结果向量;
步骤二一、将词表voc和词表voc对应的词向量vec进行预训练;利用xk和步骤一得到的词向量vec来计算得到LSTM神经网络的输入序列X,其中,计算得到LSTM神经网络的输入序列X采用两种方法,两种方法具体为:一种是将词向量vec作为LSTM模型的初始值所选用的方法即方法一;另一种方法是将词向量vec作为LSTM神经网络的输入所选用的方法即方法二;
步骤二二、用LSTM层计算存储单元及隐层;由于步骤二一得到的输入序列X的维数与多个参数有关,将参数矩阵与X相乘的维度转化为与LSTM隐含层相同的维度;利用输入Xt、第t-1次计算得到的隐层ht-1和第t-1次计算得到的记忆单元ct-1计算第t次计算的LSTM模型的输入门int、LSTM模型的输出门ot以及LSTM模型的遗忘门ft如图2;根据int、ot和ft计算得到记忆单元值ct和隐层值ht;其中,X=X1,X2,...,Xt,...,XT
步骤二三、对于命名实体识别任务,一般使用双向的LSTM,即对输入序列X,分别从按X1到XT的顺序分别输入到步骤二二带入到公式(9)得到的隐层输出hf;从XT到X1的顺序分别输入到步骤二二带入到公式(9),得到的隐层输出hb
步骤二四、采用转移代价的整个序列的代价计算方法将步骤二三得到的隐层结果hf和hb进行序列代价计算得到优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新;其中,θ为word_emb、WX_in、Wh_in、Wc_in、WX_o、 Wh_o、Wc_o、WX_f、Wh_f、Wc_f、bin、bo或bf
步骤三、LSTM的测试;输入有标注语料,根据步骤二中的更新的LSTM的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估,具体评估计算方法如下:
在进行一定次数的步骤二后,需要对深度神经网络现在参数的效果进行评估,也就需要使用开发集语料进行测试;这一步骤需要对开发集中的每一句语料进行最优的标注路径查找,主要使用维特比算法;
步骤四、将有标注语料重复步骤二和步骤三,直至步骤三的命名实体识别评估标准F 值不增加或重复步骤二和步骤三的次数达到最大值50~100次为止;使用步骤三计算得到的F值进行评估,在命名实体识别任务中使用F值。
本实施方式效果:
一种面向医疗领域基于深度学习的命名实体识别方法,本实施方式涉及命名实体识别方法,所属信息抽取领域,相关研究对命名实体识别研究有促进作用。本实施方式希望缓解医疗领域的实体识别又缺乏标注语料的问题,研究在医疗领域如何利用少量标注语料进行更好的标注。本实施方式通过使用深度学习方法,进一步挖掘语料所蕴含的信息;同时引入大规模语料信息来防止模型在测试中,由于出现了过多没有经过训练的开放领域常规词而降低效果的问题。实验结果证明,这种面向医疗领域基于深度学习的命名实体识别方法与传统医疗领域命名实体识别方法相比,更适用于医疗领域的命名实体识别。
一种面向医疗领域基于深度学习的命名实体识别方法,本实施方式涉及命名实体识别方法,所属信息抽取领域,相关研究对命名实体识别研究有促进作用。本实施方式希望缓解医疗领域的实体识别又缺乏标注语料的问题,研究在医疗领域如何利用少量标注语料进行更好的标注。本实施方式通过使用深度学习方法,进一步挖掘语料所蕴含的信息;同时引入大规模语料信息来防止模型在测试中,由于出现了过多没有经过训练的开放领域常规词而降低效果的问题。实验结果证明,这种面向医疗领域基于深度学习的命名实体识别方法与传统医疗领域命名实体识别方法相比,更适用于医疗领域的命名实体识别。
本实施方式涉及命名实体识别方法,特别涉及基于深度学习的面向医疗领域的命名实体识别方法。本实施方式所属信息抽取领域,对命名实体识别研究有促进作用。
本实施方式的目的是为了充分利用现有的医疗领域命名实体识别标注语料,提升深度神经网络在医疗领域命名实体识别任务的性能。同时为了解决医疗领域命名实体识别标注语料匮乏的现状,利用大规模无标注数据参与模型训练,提出了一种面向医疗领域基于深度学习的命名实体识别方法。
本实施方式的相关研究提高了医疗领域命名实体识别的性能,不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。为了提高命名实体识别的性能,本实施方式充分利用了现有的少量医疗领域的命名实体识别标注语料,通过使用LSTM深度神经网络建模,并利用深度神经网络的预训练技术加入了大规模生语料的信息,这种方法相比传统方法相比,既无需人工标注更多的实体识别语料,减少了人力物力的消耗,又可以提高医疗领域命名实体识别的性能。
本实施方式对语料预处理的粒度没有要求,既可以按字进行标注,也可以按词进行,这主要取决于所使用的训练预料。考虑到医疗领域的实体很多词都很少在开放领域出现,用词粒度进行训练会需要为预训练语料分词,可能会带来一些困难。为了最大限度的减少人力物力资源的消耗,比较推荐使用按字进行处理。
总的来说,该方法提出了一种面向医疗领域基于深度学习的命名实体识别方法。
使用少量医疗语料训练模型,并标注大量的在在线医疗问答网站爬取的文本,对两种模型标注结果进行了高频词的统计,其对比如下表:
CRF模型与LSTM模型在线问答语料测试的高频词对比
表中粗体为明显无意义的标注结果,可以看出LSTM表现远好于CRF模型。
具体实施方式二:本实施方式与具体实施方式一不同的是:步骤二一中所述采用方法一计算得到LSTM神经网络的输入序列X具体过程:
建立有标注语料中的训练语料词表voc′,将voc′和voc合并词表VOC; VOC=VOC1,VOC2,VOC3,…,VOCN
随机初始化词表VOC对应的向量矩阵word_emb,使得向量矩阵word_emb维度与词向量vec相同,并按公式(1)进行赋值:
word_embi为word_emb中第i个词向量;
最后将xk[k1,k2]与word_emb相乘得到LSTM神经网络的输入序列X:
X=xk[k1,k2]·word_emb (2)
其中,xk[k1,k2]为词序列xk中k1与k2之间的词序列。其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:步骤二一中所述采用方法二计算得到LSTM神经网络的输入序列X具体过程:
随机初始化词表VOC对应的向量矩阵word_emb,并按公式(1)进行赋值后保持向量word_embi不变,即不作为参数进行更新,再随机初始化词表VOC中的一份词表对应的向量矩阵为word_emb_para,计算LSTM神经网络的输入序列X:
将word_emb参数固定的情况下,word_emb_para则完全按照标准参数更新。其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:步骤二二所述的第t次计算LSTM模型(或记忆单元的)的输入门int具体为:
int=σ(WX_inXt+Wh_inht-1+Wc_inct-1+bin) (4)
其中,σ为sigmoid函数;WX_in为与Xt相乘的输入门参数矩阵;Wh_in为ht-1相乘输入门参数矩阵;Wc_in为与ct-1相乘的输入门参数矩阵;bin为计算输入门的偏置。其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:步骤二二所述的第t次计算LSTM模型的(或记忆单元的)的输出门ot(output gate)的具体过程为:
ot=σ(WX_oXt+Wh_oht-1+Wc_oct-1+bo) (5)
其中,WX_o为与Xt相乘的输出门参数矩阵;Wh_o为ht-1相乘输出门参数矩阵;Wc_o为与ct-1相乘的输出门参数矩阵;bo为计算输出门的偏置。其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:步骤二二所述的第t次计算LSTM模型的(或记忆单元的)的遗忘门(forget gate)ft的具体过程为:
ft=σ(WX_fXt+Wh_fht-1+Wc_fct-1+bf) (6)
其中,WX_f为与Xt相乘的遗忘门参数矩阵;Wh_f为ht-1相乘遗忘门参数矩阵;Wc_f为与ct-1相乘的遗忘门参数矩阵;bf为计算遗忘门的偏置。其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是:步骤二二中根据 int、ot和ft计算得到记忆单元值ct和隐层值ht具体为:
(1)、首先第t次计算不加门时的记忆单元值
其中,WX_c为与Xt相乘的记忆单元参数矩阵;Wh_c为ht-1相乘记忆单元参数矩阵;bc为记忆单元的偏置;
(2)、根据(4)、(6)计算得到的输入门值int、遗忘门值ft、不加门时的记忆单元值ct和ct-1计算第t次计算的记忆单元值ct
最后,使用记忆单元值ct和式(5)计算得到的输出门ot计算得到隐层的值ht
ht=ot·tanh(ct) (9)。其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是:步骤二四中采用转移代价的整个序列的代价计算方法将步骤二三得到的隐层结果hf和hb进行序列代价计算得到优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新具体过程:
(1)、首先利用隐层hf和hb计算序列xk标记为标签的代价Qt
Qt=hf(t)·Wf+hb(t)·Wb+b (10)
其中,Wf为与hf(t)相乘的参数矩阵;Wb为与hb(t)相乘的参数矩阵;b为最终输出偏置;
(2)、将转移代价矩阵A来描述标签转移的代价,设转移代价为Ai,j表示从标签i到标签j的转移代价,则输入序列X的整体代价即优化目标为:
(3)、利用极大似然估计法,计算最大化正确路径的概率p:
costright为正确路径的代价;
虽然所有路径的个数是一个指数爆炸的数字,但是公式(12)中的所有路径代价之和无需遍历所有路径,可以在线性时间内使用动态规划算法得出;
(4)、利用梯度下降算法根据最大化正确路径的概率p更新LSTM的神经网络参数θ;其中,更新θ包含所有步骤二一、二二中提到为LSTM的神经网络参数θ的变量;需要计算序列代价来得到系统的优化目标。其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是:步骤三中根据步骤二中的更新的LSTM的神经网络参数θ进行标注结果的路径查找,得到语料的标注结果具体方法:
将输入序列X的代价cost进行排列得到矩阵C,利用维特比算法计算矩阵C得到有标注语料中的测试语料的标注结果。其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是:步骤四中重复步骤二和步骤三的次数达到最大值60~90次。其它步骤及参数与具体实施方式一至九之一相同。

Claims (8)

1.一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于,该方法具体是按照以下步骤进行的:
步骤一、利用无标注语料进行词向量veci的训练,得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;其中,i=1,2,3,…,n;vec=vec1,vec2,…,veci,…,vecn;voc=voc1,voc2,…,voci,…,vocn;n为无标注语料中的词种类总个数;
步骤二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;利用步骤一得到的词向量vec作为预训练向量,利用LSTM方法根据预训练向量、xk以及yk计算优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新;有标注语料包括训练语料和测试语料;
其中,xk为第k个样例的有标注语料中的训练语料对应的LSTM输入的词序列;yk为第k个样例的有标注语料中的训练语料对应的标注结果向量;
步骤二一、将词表voc和词表voc对应的词向量vec进行预训练;利用xk和步骤一得到的词向量vec来计算得到LSTM神经网络的输入序列X,其中,计算得到LSTM神经网络的输入序列X采用两种方法,两种方法具体为:一种是将词向量vec作为LSTM模型的初始值所选用的方法即方法一;另一种方法是将词向量vec作为LSTM神经网络的输入所选用的方法即方法二;
所述采用方法一计算得到LSTM神经网络的输入序列X具体过程:
建立有标注语料中的训练语料词表voc′,将voc′和voc合并词表VOC;VOC=VOC1,VOC2,VOC3,…,VOCN
随机初始化词表VOC对应的向量矩阵word_emb,使得向量矩阵word_emb维度与词向量vec相同,并按公式(1)进行赋值:
word_embi为word_emb中第i个词向量;
最后将xk[k1,k2]与word_emb相乘得到LSTM神经网络的输入序列X:
X=xk[k1,k2]·word_emb (2)
其中,xk[k1,k2]为词序列xk中k1与k2之间的词序列;
步骤二二、利用输入Xt、第t-1次计算得到的隐层ht-1和第t-1次计算得到的记忆单元ct-1计算第t次计算的LSTM模型的输入门int、LSTM模型的输出门ot以及LSTM模型的遗忘门ft;其中,X=X1,X2,...,Xt,...,XT;根据int、ot和ft计算得到记忆单元值ct和隐层值ht的具体过程为;
(1)、首先第t次计算不加门时的记忆单元值
其中,WX_c为与Xt相乘的记忆单元参数矩阵;Wh_c为ht-1相乘记忆单元参数矩阵;bc为记忆单元的偏置;
(2)、根据(4)、(6)计算得到的输入门值int、遗忘门值ft、不加门时的记忆单元值和ct-1计算第t次计算的记忆单元值ct
最后,使用记忆单元值ct和式(5)计算得到的输出门ot计算得到隐层的值ht
ht=ot·tanh(ct) (9);
步骤二三、对输入序列X,分别从按X1到XT的顺序分别输入到步骤二二带入到公式(9)得到的隐层输出hf;从XT到X1的顺序分别输入到步骤二二带入到公式(9),得到的隐层输出hb
步骤二四、采用转移代价的整个序列的代价计算方法将步骤二三得到的隐层结果hf和hb进行序列代价计算得到优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新;其中,θ为word_emb、WX_in、Wh_in、Wc_in、WX_o、Wh_o、Wc_o、WX_f、Wh_f、Wc_f、bin、bo或bf
步骤三、LSTM的测试;输入有标注语料,根据步骤二中的更新的LSTM的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估,具体评估计算方法如下:
步骤四、将有标注语料重复步骤二和步骤三,直至步骤三的命名实体识别评估标准F值不增加或重复步骤二和步骤三的次数达到最大值50~100次为止。
2.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤二一中所述采用方法二计算得到LSTM神经网络的输入序列X具体过程:
随机初始化词表VOC对应的向量矩阵word_emb,并按公式(1)进行赋值后保持向量word_embi不变,随机初始化词表VOC中的一份词表对应的向量矩阵为word_emb_para,计算LSTM神经网络的输入序列X:
X=(xk[k1,k2]·word_emb)⊕(xk[k1,k2]·word_emb_para) (3)。
3.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤二二所述的第t次计算LSTM模型的输入门int具体为:
int=σ(WX_inXt+Wh_inht-1+Wc_inct-1+bin) (4)
其中,σ为sigmoid函数;WX_in为与Xt相乘的输入门参数矩阵;Wh_in为ht-1相乘输入门参数矩阵;Wc_in为与ct-1相乘的输入门参数矩阵;bin为计算输入门的偏置。
4.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤二二所述的第t次计算LSTM模型的的输出门ot的具体过程为:
ot=σ(WX_oXt+Wh_oht-1+Wc_oct-1+bo) (5)
其中,WX_o为与Xt相乘的输出门参数矩阵;Wh_o为ht-1相乘输出门参数矩阵;Wc_o为与ct-1相乘的输出门参数矩阵;bo为计算输出门的偏置。
5.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤二二所述的第t次计算LSTM模型的的遗忘门ft的具体过程为:
ft=σ(WX_fXt+Wh_fht-1+Wc_fct-1+bf) (6)
其中,WX_f为与Xt相乘的遗忘门参数矩阵;Wh_f为ht-1相乘遗忘门参数矩阵;Wc_f为与ct-1相乘的遗忘门参数矩阵;bf为计算遗忘门的偏置。
6.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤二四中采用转移代价的整个序列的代价计算方法将步骤二三得到的隐层结果hf和hb进行序列代价计算得到优化目标利用梯度下降算法优化进行LSTM的神经网络参数θ的更新具体过程:
(1)、首先利用隐层hf和hb计算序列xk标记为标签的代价Qt
Qt=hf(t)·Wf+hb(t)·Wb+b (10)
其中,Wf为与hf(t)相乘的参数矩阵;Wb为与hb(t)相乘的参数矩阵;b为最终输出偏置;
(2)、将转移代价矩阵A来描述标签转移的代价,设转移代价为Ai,j表示从标签i到标签j的转移代价,则输入序列X的整体代价即优化目标为:
(3)、利用极大似然估计法,计算最大化正确路径的概率p:
costright为正确路径的代价;
(4)、利用梯度下降算法根据最大化正确路径的概率p更新LSTM的神经网络参数θ。
7.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤三中根据步骤二中的更新LSTM的神经网络参数θ进行标注结果的路径查找,得到语料的标注结果具体方法:
将输入序列X的代价cost进行排列得到矩阵C,利用维特比算法计算矩阵C得到有标注语料中的测试语料的标注结果。
8.根据权利要求1所述一种面向医疗领域基于深度学习的命名实体识别方法,其特征在于:步骤四中重复步骤二和步骤三的次数达到最大值60~90次。
CN201610590151.6A 2016-07-25 2016-07-25 一种面向医疗领域基于深度学习的命名实体识别方法 Active CN106202054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610590151.6A CN106202054B (zh) 2016-07-25 2016-07-25 一种面向医疗领域基于深度学习的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610590151.6A CN106202054B (zh) 2016-07-25 2016-07-25 一种面向医疗领域基于深度学习的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN106202054A CN106202054A (zh) 2016-12-07
CN106202054B true CN106202054B (zh) 2018-12-14

Family

ID=57494922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610590151.6A Active CN106202054B (zh) 2016-07-25 2016-07-25 一种面向医疗领域基于深度学习的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN106202054B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776555B (zh) * 2016-12-09 2019-11-15 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN106844738B (zh) * 2017-02-14 2019-07-16 华南理工大学 基于神经网络的食材之间容克关系的分类方法
CN106897559B (zh) * 2017-02-24 2019-09-17 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置
CN106919793B (zh) * 2017-02-24 2019-12-06 黑龙江特士信息技术有限公司 一种医疗大数据的数据标准化处理方法及装置
CN106934220B (zh) * 2017-02-24 2019-07-19 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN107766395B (zh) * 2017-03-03 2020-12-25 平安医疗健康管理股份有限公司 数据匹配方法和装置
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法
CN107193865B (zh) * 2017-04-06 2020-03-10 上海奔影网络科技有限公司 人机交互中自然语言意图理解方法及装置
CN107239446B (zh) * 2017-05-27 2019-12-03 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法
KR20190007816A (ko) 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN109284497B (zh) * 2017-07-20 2021-01-12 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN107808124B (zh) * 2017-10-09 2019-03-26 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107818307B (zh) * 2017-10-31 2021-05-18 天津大学 一种基于lstm网络的多标签视频事件检测方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108563626B (zh) * 2018-01-22 2022-01-25 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108717410B (zh) * 2018-05-17 2022-05-20 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108957418A (zh) * 2018-05-30 2018-12-07 西安电子科技大学 一种基于循环神经网络模型的雷达目标识别方法
CN109062937B (zh) * 2018-06-15 2019-11-26 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN108959467B (zh) * 2018-06-20 2021-10-15 华东师范大学 一种基于强化学习的问句和答案句相关度的计算方法
CN109284400B (zh) * 2018-11-28 2020-10-23 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109800411B (zh) * 2018-12-03 2023-07-18 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109871533B (zh) * 2019-01-04 2019-12-10 北京车慧科技有限公司 一种基于语料领域的语料处理系统
CN111414757B (zh) * 2019-01-04 2023-06-20 阿里巴巴集团控股有限公司 一种文本识别方法及装置
CN109992773B (zh) * 2019-03-20 2020-10-27 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110032739B (zh) * 2019-04-18 2021-07-13 清华大学 中文电子病历命名实体抽取方法及系统
CN111428502A (zh) * 2020-02-19 2020-07-17 中科世通亨奇(北京)科技有限公司 一种面向军事语料的命名实体标注方法
CN111651983B (zh) * 2020-05-12 2021-06-18 哈尔滨工业大学 一种基于自训练与噪声模型的因果事件抽取方法
CN112733540A (zh) * 2020-12-31 2021-04-30 三维通信股份有限公司 生物医学命名实体的检测方法、装置、计算机设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228A (zh) * 2006-05-15 2007-11-21 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN103544392A (zh) * 2013-10-23 2014-01-29 电子科技大学 基于深度学习的医学气体识别方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228A (zh) * 2006-05-15 2007-11-21 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN103544392A (zh) * 2013-10-23 2014-01-29 电子科技大学 基于深度学习的医学气体识别方法
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LSTM的语义关系分类研究;胡新辰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2016年第2期);正文第24页3.1.1.3小节至第38页3.2.6小节,图3-9至图3-16 *
面向缺乏标注数据领域的命名实体识别的研究;段超群;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2016年第2期);正文第14页第2.3.1小节至第31页3.2.2小节 *

Also Published As

Publication number Publication date
CN106202054A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202054B (zh) 一种面向医疗领域基于深度学习的命名实体识别方法
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
CN108170675A (zh) 一种面向医疗领域基于深度学习的命名实体识别方法
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN105894088B (zh) 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN106156003B (zh) 一种问答系统中的问句理解方法
CN107562792A (zh) 一种基于深度学习的问答匹配方法
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN107644014A (zh) 一种基于双向lstm和crf的命名实体识别方法
CN108804654A (zh) 一种基于智能问答的虚拟学习环境构建方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
Zhang et al. Deep Learning+ Student Modeling+ Clustering: A Recipe for Effective Automatic Short Answer Grading.
CN109918491A (zh) 一种基于知识库自学习的智能客服问句匹配方法
CN109543031A (zh) 一种基于多任务对抗学习的文本分类方法
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN107220220A (zh) 用于文本处理的电子设备和方法
CN106970981B (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN109214562A (zh) 一种基于rnn的电网科研热点预测与推送方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201010

Address after: 150001 No. 434, postal street, Nangang District, Heilongjiang, Harbin

Patentee after: Harbin Institute of Technology National University Science Park Development Co.,Ltd.

Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201210

Address after: Room A101, building 1, Yinxing Zhijie phase II, No. 1301-76, sightseeing Road, Xinlan community, Guanlan street, Longhua District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen National Research Institute of high performance Medical Devices Co.,Ltd.

Address before: 150001 No. 434, postal street, Nangang District, Heilongjiang, Harbin

Patentee before: Harbin Institute of Technology National University Science Park Development Co.,Ltd.