CN108563626A - 医疗文本命名实体识别方法和装置 - Google Patents
医疗文本命名实体识别方法和装置 Download PDFInfo
- Publication number
- CN108563626A CN108563626A CN201810060974.7A CN201810060974A CN108563626A CN 108563626 A CN108563626 A CN 108563626A CN 201810060974 A CN201810060974 A CN 201810060974A CN 108563626 A CN108563626 A CN 108563626A
- Authority
- CN
- China
- Prior art keywords
- output result
- label
- text
- activation primitive
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种医疗文本命名实体识别方法和装置,该方法包括:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P;将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。根据本申请的方法,医学术语识别准确率和召回率高,并且计算速度快,能够快速进行医学术语识别,进而用于模型计算和预测。
Description
技术领域
本申请涉及医学健康领域,特别是涉及医疗文本命名实体识别方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
1968年,为了便于医务人员对病人的病情进行诊断推理,韦德(Weed)博士提出面向问题组织电子病历。此后,基于电子病历等医疗文本的临床决策支持研究备受关注,该研究通常需要应用自然语言处理、信息抽取等技术对医疗文本进行处理,从而识别文本中的实体和实体关系;然后,基于这些数据去训练医学模型,并利用医学模型对人体健康进行预测和分析。因此,实体和实体关系识别的准确性对于模型的准确性而言至关重要。
目前,常用的命名实体识别方法是基于词典和规则的方法;医疗文本命名实体识别多采用基于词典的方法。医疗领域中的术语词典包括国际疾病分类-10(InternationalClassification of Diseases-10,ICD-10)等。由于医疗文本中包含大量专业术语,术语词典作为一个非常重要的资源,对于部分实体的识别有着重要作用。然而,单纯的基于词典的方法既不能考虑医疗文本中的上下文信息,又不能适应复杂的语言现象并输出全局最优的结果。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种医疗文本命名实体识别方法,包括:
步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及
步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
采用该方法,能够对医疗文本中具有实体意义的词语进行分析,并将其进行分类。通过对大量的文本进行分析,可以对医疗文本数据进行精简,提取其中具有实体意义的词语。通过对数据进行加工,能够得到标准化的标签数据,从而为后续的应用作准备。标签数据可以应用于数据分析的各个方面,例如建模、检索、预测等。
进一步地,步骤S14后还包括:
步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。
通过该步骤,能够进一步地简化医疗文本数据,对医疗文本进行更加简练的分类。
进一步地,步骤S11具体包括:
步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;以及
步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及
将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。
进一步地,所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零或者接近零。
进一步地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
根据本发明的方法,医学术语识别准确率和召回率较高,可达90%以上,并且速度快,识别结果准确。
根据本申请的一个方面,还提供了一种医疗文本命名实体识别装置,包括:
长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
第二激活函数计算模块,其配置成利用基于第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和
全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
进一步地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
通过上述的医疗文本命名实体识别方法能够得到命名实体和标签数据,依据该数据对模型进行训练能够得到准确的模型,进而为用户利用该模型进行预测提供方便。用户利用该模型得到的结果仅作为参考,从而为其后续的工作和判断提供便利。
根据本申请的一个方面,还提供了一种健康预测装置,包括:
识别模块,其配置成识别医疗文本中的命名实体,并将所述命名实体与预先设置的标签相对应;
训练模块,其配置成利用所述命名实体及其对应的所述标签对医学健康预测模型进行训练;和
预测模块,其配置成利用训练后的医学健康预测模型对健康进行预测。
进一步地,识别模块具体包括:
长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
第二激活函数计算模块,其配置成利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和
全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
进一步地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
根据本申请的一个方面,还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的医疗文本命名实体识别方法。
根据本申请的一个方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述的医疗文本命名实体识别方法。
根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的医疗文本命名实体识别方法。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是本申请的医疗文本命名实体识别方法的一个实施例的流程图;
图2是图1中的S11步骤的一个实施例的流程图;
图3是本申请的医疗文本命名实体识别方法的一个实施例的原理框图;
图4是本申请的医疗文本命名实体识别装置的一个实施例的框图;
图5是图4的中长短期记忆网络计算模块一个实施例的框图。
具体实施方式
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
参见图1,根据本发明的一个方面,提供了一种医疗文本命名实体识别方法,包括:
步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及
步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
参见图1,可选地,该方法还包括步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。
优选地,参见图2,步骤S11具体包括:
S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量,包括:
(1)通过识别标点符号,诸如,句号,将医疗文本划分为若干分句,将分句进行分词,分句中的词语、标点均作为分词结果,根据分句中前面的词语的权重估计下个词语出现的概率,从而计算该下个词语的词向量。
传统方法采用BIO或BIOSE词序列标记方式,并不标记词内标点,本申请对词内标点进行了标记,计算时优先计算分句内词语的词向量,因此简化了整体的词距离的计算量,提高了计算速度。
词向量维度可以根据具体需求灵活设定。例如,词向量维度可以是将分句中分词后得到分词结果的数目。将各个分词向量化的过程,是指用向量表示词以及词的上下文语义环境。可以基于大量的医学文本进行预训练,获得将词向量化表示的模型。在生成的模型中,如果两个词的上下文语义越接近,则两个词对应的词向量的余弦距离越大。
例如:将医疗文本中进行分句划分后,得到的一个分句为“患者确认左手桡骨骨折。”
分词结果:“患者”、“确认”、“左”、“手”、“桡骨”、“骨折”、“。”,该分句被分成了7个分词,其中句号也是分词结果的一个。
(2)根据下面公式(1)计算每个分句中第n个词的概率估计函数:
其中,w1k表示第k个分句中的第1个词语的权重,wnk表示第n个词语的权重,表示第n个词语出现的概率估计值。公式(1)的约束条件为下面公式(2)和(3):
f(wnk,wn-1k,…,w1k)>0 (3)
其中,V表示分句中的分词的数量。其中,wnk计算公式如下面公式(4):
其中,fnk表示第k个分句中第n个词语出现的频率,m表示分句数量,dfk表示含有第n个词语的分句总数。
(3)根据下面公式(5)计算词语的距离D(wik),
其中,k表示第k个分句,m表示分句数量。wik和wjk分别表示在该k分句中第i个词语与第j个词语之间的距离。如果两个词语的上下文语义环境越相似,则两个词语的词语距离越接近于1。
(4)利用下面公式(6)计算词语的词向量Xn-1k,
Xn-1k=[ynkD(wnk),yn-1kD(wn-1k),yn-2kD(wn-2k),……,y1kD(w1k)]T (6)
其中,Xn-1k表示当前第(n-1)个词语的词向量,D(wnk)为第n个词与该词语的距离,D(wn-1k)为该词语与自身的距离,D(wn-2k)表示该词语与第(n-2)个词语的距离,D(w1k)为该词语与第1个词语的距离。通过将各个句中该词语出现的概率y作为距离的系数,进而得到该词语的词向量。优选地,词向量的维度为n,n为分句中词语的总数。可以理解的是,词向量的维度可以为d维,d可以根据不同领域医学文本的特点确定,或者根据计算速度的需要确定。
该算法结合了概率和权重对词语的词向量的影响,有利于提高概率的平滑度,可以保证低频稀疏模型的鲁棒性。
S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。
长短期记忆神经网络(LSTM)的神经元主要由三个门构成:遗忘门、输入门、输出门。其是通过门来控制丢弃或者增加信息,从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构,由一个s型曲线激活函数(sigmoid函数)和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完全丢弃,1代表完全通过。
遗忘门:遗忘门是用上一单元的输出ht-1和本单元的输入Xt为输入的sigmoid函数,输出为[0,1]区间内的值,即,将数据映射为[0,1]区间的函数,为Ct-1中的每一项产生一个在[0,1]内的值,来控制上一单元状态被遗忘的程度。其中,Ct-1为上一单元状态。遗忘门的主要参数为WF、bF,其中WF用于对输入进行权重的映射,bF为偏置项。
输入门:输入门和双曲正切激活函数(tanh激活函数)配合控制被加入的新信息的输入。tanh激活函数产生一个新的候选向量输入门为中的每一项产生一个在[0,1]内的值,控制新信息被加入的多少。至此,得到遗忘门的输出Ft,用来控制上一单元被遗忘的程度,以及输入门的输出It,用来控制新信息被加入的多少,输入门有两组参数:第一组是WI、bI,其对输入进行映射,产生输入被遗忘的程度;第二组是WC、bC,其对输入进行非线性映射,产生新的候选向量。
输出门:输出门用来控制当前的单元状态有多少被过滤掉。先将单元状态激活,输出门为其中每一项产生一个在[0,1]内的值,控制单元状态被过滤的程度。Ot表示输入,可以理解为更新本记忆单元的单元状态。输出门的主要参数为WO、bO,用于对输入进行映射,产生用于控制过滤单元状态的矩阵。
前向长短期记忆网络(Forward LSTM)是长短期记忆网络按照文本的正向阅读顺序依次记忆的网络应用形态,其具体公式如下:给定上一个状态ht-1和当前将所有的词向量按照所述医疗文本顺序进行正向拼接的结果X,当前状态ht的完整计算过程如下面公式(7):
其中,Ft、It和Ot分别是长短期记忆单元中“遗忘门”、“输入门”、“输出门”的计算公式;为当前词语向量D(wik)保存在记忆单元中的信息,当前最终记忆信息Ct由历史记忆信息Ct-1和两部分组成;当前状态ht根据“输出门”Ot和当前最终记忆信息Ct计算。σ为sigmoid激活函数,*表示矩阵点乘,WF、WI、WO、WC和bF、bI、bO、bC为模型参数,利用训练数据学习获得,X为将所有的词向量按照医疗文本顺序进行正向拼接的结果。第一输出结果的形式为d*n维矩阵,n为分句中词语的总数,d为词向量的维度,优选地,d=n。
将所有的词向量按照所述医疗文本顺序进行反向拼接,输入后向长短期记忆网络,得到第二输出结果。第二输出结果的形式也为d*n维矩阵。n为分句中词语的总数,d为词向量的维度,优选地,d=n。
后向长短期记忆(Backward LSTM)网络与Forward LSTM结构相同,只是这两个单元的输入不同。Forward LSTM为被预测句子中所有词对应的词向量进行拼接后的结果,而Backward LSTM的输入是Forward LSTM输入的逆序后的结果。
例如,对于文本“患者无高血压”,经过分词后可以得到分词序列:{患者、无、高血压},正向拼接即是按照患者->无->高血压的顺序,将每个词语的词向量进行拼接获得分词向量序列X。反向拼接,即按照高血压->无->患者的顺序进行拼接获得分词向量序列X'。
在一个优选的实施方案中,前向长短期记忆网络和后向长短期记忆网络均包括输入门、输出门、遗忘门,将前向长短期记忆网络和后向长短期记忆网络的遗忘门的权重WF均设置为零。可以理解的是,也可以将前向长短期记忆网络或后向长短期记忆网络的权重WF设置为零,另一个设置为接近零的数值。或者将前向长短期记忆网络和后向长短期记忆网络的权重WF均设置为接近零的数值。
本申请将遗忘门的功能完全取消或者基本取消,这样能够增加记忆的长度,从而增加算法对医学文本中上下文词语的整体理解能力。如果将遗忘门的权重设置为0,则使算法不遗忘所有上下文信息,从而增加了全局思考能力,使得命名实体识别的准确率更高。
该方法还包括步骤S12:利用第一激活函数分别将所述第一输出结果和第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果。
可选地,第一激活函数可以是双曲正切激活函数。双曲正切激活函数的形式为下面公式(8)所示:
分别将第一输出结果和第二输出结果中的每一个值代入公式(8)中的x,利用该双曲正切激活函数进行映射,分别得到映射后的第一输出结果和第二输出结果;将映射后的第一输出结果和第二输出结果合并,得到第三输出结果。优选地,合并的方式是将映射后的第一输出结果和第二输出结果的各个项对应相加,得到第三输出结果。优选地,第三输出结果的形式为d*n维矩阵。
步骤S13:利用基于逻辑回归的激活函数(Softmax函数)对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率。
优选地,标签集包括B类标签、I类标签、E类标签、S类标签、C类标签以及Other类标签。B类标签用来标注开始词、I类标签用于标注中间词、E类标签用于标注结尾词、S类标签用于标注单字词、Other类标签用于标注其他类、C类标签用于标注词间标点。需要预测的实体类别包括但不限于以下10类:other(其他)、dise(疾病)、symp(症状)、item(指标)、body(体征)、surg(手术)、drug(药物)、auxi(辅助检查)、cure(临床操作)及inst(操作器械)。
优选地,预先设置的标签包括如下的标签:B类标签包括B-dise、B-symp、B-item、B-body、B-surg、B-drug、B-auxi、B-cure、B-inst;I类标签包括I-dise、I-symp、I-item、I-body、I-surg、I-drug、I-auxi、I-cure、I-inst;E类标签包括E-dise、E-symp、E-item、E-body、E-surg、E-drug、E-auxi、E-cure、E-inst;S类标签包括S-dise、S-symp、S-item、S-body、S-surg、S-drug、S-auxi、S-cure、S-inst;C类标签包括C-dise、C-symp、C-item、C-body、C-surg、C-drug、C-auxi、C-cure、C-inst。逻辑回归的激活函数如公式(9)所示:
其中,r为待分类的标签数量,优选的,r=46,yi为分类的标签,p为预测概率,θ为模型参数矩阵。将第三输出结果d*n维矩阵中每一列作为xi代入上面公式(9),得到1*r的向量,将第三输出结果的每一列均代入公式(9),最终得到n*r维矩阵P。
步骤S14:将矩阵P代入条件随机场(conditional random field,CRF)转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
具体地,条件随机场是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型。条件随机场包括线性链(Linear Chain)条件随机场,这时,在条件概率模型P(Y|X)中,Y是输出变量,表示标签序列,X是输入变量,表示需要标注的分词序列。也把标记序列称为状态序列。在对最优标签序列进行预测时,对于给定的输入序列x,可以求出条件概率最大的输出序列y,即最优标签序列。
步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。
如果全局最优标签序列中包含相同类别的标签,则把除other类以外的相同类别的标签对应的命名实体合并,从而实现对标签序列及命名实体序列的简化。
参见图3,通过本发明的方法,将“患者”、“确认”、“左”、“手”、“桡骨”、“骨折”、“。”分别标记为“other”、“other”、“B-dise”、“I-dise”、“I-dise”、“E-dise”、“other”,再把相同类别的标签合并成一个,即将“左”、“手”、“桡骨”、“骨折”合在一个标签“dise”下面。
参见图4,根据本申请的另一个方面,还提供了一种医疗文本命名实体识别装置,包括:
11长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
12第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
13第二激活函数计算模块,其配置成利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和
14全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
优选地,装置还包括:
15合并模块,其配置成分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。
参见图5,优选地,11长短期记忆网络计算模块包括:
111词向量计算模块,其配置成对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;
112拼接计算模块,其配置成将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。
可选地,所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零或者接近零。
可选地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
根据本申请的另一个方面,还提供了一种健康预测方法,包括:
利用上述的医疗文本命名实体识别方法中的任意一种识别所述医疗文本中的命名实体;
利用所述命名实体及其对应的所述标签对医学健康预测模型进行训练;以及
利用训练后的医学健康预测模型对健康进行预测。
根据本申请的另一个方面,还提供了一种健康预测装置,该装置包括:
1识别模块,其配置成利用上述的医疗文本命名实体识别方法中的任意一种识别所述医疗文本中的命名实体;
2训练模块,其配置成利用所述命名实体及其对应的所述标签对医学健康模型进行训练;和
3预测模块,其配置成利用训练后的医学健康模型对健康进行预测。
本申请提出基于双向长短时记忆神经网络与条件随机场的医学术语命名识别方法,该方法在双向长短时记忆神经网络的序列标注问题上具有优势,不仅可以结合大范围的上下文信息,还具备神经网络拟合非线性的能力,在不同文本中,根据上下文的作用意义不同可以设置遗忘门的参数,选择记住全部,或者衰减、或者全部遗忘,使用灵活方便。而CRF虽然不能考虑大范围的上下文信息,但可以综合考虑全局特征输出全局最优。因此,本申请采用双向长短时记忆神经网络与条件随机场相结合的模型,结合二者优势,在医学术语识别领域起到了很好的技术效果。
根据本申请的另一个方面,还提供了一种医疗文本检索方法,包括:
S1:利用上述的医疗文本命名实体识别方法中的任意一种识别所述医疗文本中的命名实体;
S2:利用所述命名实体及其对应的所述标签建立医疗文本检索系统;以及
S3:在所述医疗文本检索系统中通过输入所述命名实体和/或所述标签进行检索。
该医疗文本检索系统中存储了命名实体及其标签的对应关系,以及所在医疗文本的各种信息,从而便于用户后续进行检索分析。
优选地,根据本申请的另一个方面,还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的健康预测方法。
优选地,根据本申请的另一个方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述的健康预测方法。
优选地,根据本申请的另一个方面,还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的健康预测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种医疗文本命名实体识别方法,包括:
步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及
步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
2.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S14后还包括:
步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。
3.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S11包括:
步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;以及
步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及
将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。
4.根据权利要求1至3的任一项所述的医疗文本命名实体识别方法,其特征在于:
所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零或者接近零。
5.根据权利要求1至3的任一项所述的医疗文本命名实体识别方法,其特征在于:所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
6.一种医疗文本命名实体识别装置,包括:
长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;
第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
第二激活函数计算模块,其配置成利用基于第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和
全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
7.根据权利要求6所述的医疗文本命名实体识别装置,其特征在于:所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
8.一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的医疗文本命名实体识别方法。
9.一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-5中任一项所述的医疗文本命名实体识别方法。
10.一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810060974.7A CN108563626B (zh) | 2018-01-22 | 2018-01-22 | 医疗文本命名实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810060974.7A CN108563626B (zh) | 2018-01-22 | 2018-01-22 | 医疗文本命名实体识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108563626A true CN108563626A (zh) | 2018-09-21 |
CN108563626B CN108563626B (zh) | 2022-01-25 |
Family
ID=63530060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810060974.7A Active CN108563626B (zh) | 2018-01-22 | 2018-01-22 | 医疗文本命名实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108563626B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284491A (zh) * | 2018-10-23 | 2019-01-29 | 北京惠每云科技有限公司 | 医学文本识别方法、语句识别模型训练方法 |
CN109299467A (zh) * | 2018-10-23 | 2019-02-01 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
WO2020119105A1 (zh) * | 2018-12-13 | 2020-06-18 | 平安医疗健康管理股份有限公司 | 基于大数据的支付超量识别方法、设备、存储介质及装置 |
CN111310470A (zh) * | 2020-01-17 | 2020-06-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN111353302A (zh) * | 2020-03-03 | 2020-06-30 | 平安医疗健康管理股份有限公司 | 医学词义识别方法、装置、计算机设备和存储介质 |
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
CN111461898A (zh) * | 2020-02-28 | 2020-07-28 | 上海商汤智能科技有限公司 | 一种获取核保结果的方法及相关装置 |
CN111797626A (zh) * | 2019-03-21 | 2020-10-20 | 阿里巴巴集团控股有限公司 | 一种命名实体识别方法及装置 |
CN111859963A (zh) * | 2019-04-08 | 2020-10-30 | 中移(苏州)软件技术有限公司 | 命名实体识别方法、设备、装置和计算机可读存储介质 |
CN113111625A (zh) * | 2021-04-30 | 2021-07-13 | 善诊(上海)信息技术有限公司 | 一种医学文本标签生成系统、方法及计算机可读存储介质 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
-
2018
- 2018-01-22 CN CN201810060974.7A patent/CN108563626B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284491A (zh) * | 2018-10-23 | 2019-01-29 | 北京惠每云科技有限公司 | 医学文本识别方法、语句识别模型训练方法 |
CN109299467A (zh) * | 2018-10-23 | 2019-02-01 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN109284491B (zh) * | 2018-10-23 | 2023-08-22 | 北京惠每云科技有限公司 | 医学文本识别方法、语句识别模型训练方法 |
CN109299467B (zh) * | 2018-10-23 | 2023-08-08 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
WO2020119105A1 (zh) * | 2018-12-13 | 2020-06-18 | 平安医疗健康管理股份有限公司 | 基于大数据的支付超量识别方法、设备、存储介质及装置 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN109670179B (zh) * | 2018-12-20 | 2022-11-11 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
CN111797626A (zh) * | 2019-03-21 | 2020-10-20 | 阿里巴巴集团控股有限公司 | 一种命名实体识别方法及装置 |
CN111859963A (zh) * | 2019-04-08 | 2020-10-30 | 中移(苏州)软件技术有限公司 | 命名实体识别方法、设备、装置和计算机可读存储介质 |
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN111310470B (zh) * | 2020-01-17 | 2021-11-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN111310470A (zh) * | 2020-01-17 | 2020-06-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN111461898A (zh) * | 2020-02-28 | 2020-07-28 | 上海商汤智能科技有限公司 | 一种获取核保结果的方法及相关装置 |
CN111353302A (zh) * | 2020-03-03 | 2020-06-30 | 平安医疗健康管理股份有限公司 | 医学词义识别方法、装置、计算机设备和存储介质 |
CN113111625A (zh) * | 2021-04-30 | 2021-07-13 | 善诊(上海)信息技术有限公司 | 一种医学文本标签生成系统、方法及计算机可读存储介质 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108563626B (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108563626A (zh) | 医疗文本命名实体识别方法和装置 | |
Shamout et al. | Machine learning for clinical outcome prediction | |
CN109659033B (zh) | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 | |
CN107863147B (zh) | 基于深度卷积神经网络的医疗诊断的方法 | |
Ambekar et al. | Disease risk prediction by using convolutional neural network | |
CN106919793A (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
WO2023078025A1 (zh) | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 | |
Khedkar et al. | Deep learning and explainable AI in healthcare using EHR | |
CN106934235A (zh) | 一种基于迁移学习的疾病领域间病人相似性度量迁移系统 | |
Che et al. | Deep learning solutions to computational phenotyping in health care | |
Bardak et al. | Improving clinical outcome predictions using convolution over medical entities with multimodal learning | |
CN110767279A (zh) | 基于lstm的电子健康记录缺失数据补全方法及系统 | |
Bock et al. | Machine learning for biomedical time series classification: from shapelets to deep learning | |
Alhassan et al. | Stacked denoising autoencoders for mortality risk prediction using imbalanced clinical data | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
Rahman et al. | Enhancing heart disease prediction using a self-attention-based transformer model | |
CN108122613A (zh) | 基于健康预测模型的健康预测方法和装置 | |
Pellegrini et al. | Rad-restruct: A novel vqa benchmark and method for structured radiology reporting | |
Zaghir et al. | Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts | |
Hasan et al. | Predicting the outcome of patient-provider communication sequences using recurrent neural networks and probabilistic models | |
WO2023146744A1 (en) | Automated training of machine learning classification for patient missed care opportunities or late arrivals | |
Rethmeier et al. | EffiCare: better prognostic models via resource-efficient health embeddings | |
Khalafi et al. | A hybrid deep learning approach for phenotype prediction from clinical notes | |
Naganure et al. | Leveraging deep learning approaches for patient case similarity evaluation | |
Bhagwat et al. | Reviewing Machine Learning Algorithms in the Domain of Healthcare |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |