CN109471895B - 电子病历表型抽取、表型名称规范化方法及系统 - Google Patents

电子病历表型抽取、表型名称规范化方法及系统 Download PDF

Info

Publication number
CN109471895B
CN109471895B CN201811271476.3A CN201811271476A CN109471895B CN 109471895 B CN109471895 B CN 109471895B CN 201811271476 A CN201811271476 A CN 201811271476A CN 109471895 B CN109471895 B CN 109471895B
Authority
CN
China
Prior art keywords
phenotype
lstm
extraction
medical record
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811271476.3A
Other languages
English (en)
Other versions
CN109471895A (zh
Inventor
江瑞
黄浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811271476.3A priority Critical patent/CN109471895B/zh
Publication of CN109471895A publication Critical patent/CN109471895A/zh
Application granted granted Critical
Publication of CN109471895B publication Critical patent/CN109471895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种电子病历表型抽取、表型名称规范化方法。该方法包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi‑LSTM模型和CRF模型做命名实体识别,抽取出表型实体类;以及表型规范化,采用LSTM编码器对每个表型进行编码,计算病历中非标准表型的编码与标准表型编码的余弦相似度,将非标准表型映射到余弦相似度最高的表型。本发明还公开了一种电子病历表型抽取、表型名称规范化系统。本发明提高了电子病历中命名实体识别的准确率、召回正确率、以及对表型映射的准确率;免去了病历结构化过程中人工消耗,提高了病历结构化的效率;能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。

Description

电子病历表型抽取、表型名称规范化方法及系统
技术领域
本发明涉及医疗文本数据处理技术领域,特别是涉及一种基于深度学习的电子病历表型抽取、表型名称规范化方法及系统。
背景技术
常规的医疗电子记录中,信息的主要载体是自然语言,比如,影像报告、用药记录、病程报告和病历检查报告等。可以说,这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。一方面,近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历,从而累积了越来越多的医疗电子记录。另一方面,随着以大数据、人工智能为代表的信息技术与医学的深度融合,催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。但是,这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。遗憾的是,现实中的病历数据大都是非结构化的。正因为如此,将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大,若依靠人工来进行结构化,其经济成本无疑将十分高昂。所以,利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。
在电子病历结构化过程中,从病历文本提取并规范化患者的表型名称是一个关键问题。实际病历中一个表型或症状都可能有多个不同的同义词。比如“行走不稳”表型,它的规范名称是行走不稳,但是在真实病历中这一表型可能表述为:“行走晃动”、“走路不稳”、“走路摇晃”、“行走摇摆”等。将真实病历中出现的这些不规范的表型描述(“行走晃动”、“走路不稳”、“走路摇晃”,“行走摇摆”)映射到规范的表型名称(“行走不稳”)是病历结构化中必须解决的问题。表型提取和映射的准确性对于后续医疗数据分析流程有着基础性的影响。
发明内容
基于上述问题,本发明的目的在于提供一种基于深度学习的、电子病历电子病历表型抽取、表型名称规范化方法,可以自动的将病历中的表型或症状提取出来,并自动的映射到规范的表型名称,以提高病历结构化的准确性,免去了病历结构化过程中人工消耗,从而更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。
本发明的另一目在于提供一种电子病历电子病历表型抽取、表型名称规范化系统。
上述目的是通过以下技术方案实现的:
根据本发明的一个方面,本发明提供的一种电子病历表型抽取、表型名称规范化方法,包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi-LSTM(双向循环神经网络)模型和CRF(条件随机场)模型做命名实体识别,抽取出病历文本中的表型实体类;表型名称规范化,采用LSTM编码器对每个表型进行编码,计算待映射非标准表型编码与标准表型编码的余弦相似度,将待映射非标准表型映射到余弦相似度最高的表型。
优选地,在表型抽取中,包括:通过Embedding(嵌入)层初始化,得到每个字符的字向量;将字向量输入Bi-LSTM模型,堆叠三层Bi-LSTM网络,得到输出值;采用CRF模型,根据所述输出值和预测标注,定义正确性分数,对所有可能的预测序列的正确分值做softmax变换,得到相应的概率分布。
其中,训练集中,采用IOBES标注格式进行表型实体标注,每个表型命名实体开始的词标注为B;每个表型命名实体的中间和结尾分别标注为I和E;若表型实体为单个字符则标记为S;非表型实体的字符标记为O。
优选地,所述将字向量输入Bi-LSTM模型的步骤中,包括:按照一个方向的顺序,LSTM模型将字向量的每个元素输入,得到隐藏状态一,再按照与所述方向相反的方向的顺序,将字向量的每个元素输入,得到隐藏状态二,输出第一个Bi-LSTM层;其中,LSTM模型如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxi+Whoht-1+Wcoct+bo)
ht=ot⊙tanh(ct)
其中,σ是按元素的sigmoid函数,⊙是按元素乘法,tanh是双曲正切函数,it,ct,ot,ht分别代表t时刻的输入门参数,状态参数,输出门参数,输出值,xt是第t个时间步输入到模型的字向量。
优选地,在CRF模型中,包括:将所述输出值变换为维度p×n的矩阵P的步骤,其中,p是不同种类标注的数量,n是输入句子的长度;所述矩阵P的第i行、第j列元素Pi,j为对单词xi的真实标签是j的可能性的估计。
优选地,在CRF模型中,所述正确性分数s如下:
Figure GDA0002609401870000041
其中,A是状态转移矩阵,Ayi,yi+1代表标注为yi的单词后面紧接着标注为yi+1的单词的转移值;yi是第i个字符的标注,yi+1是第i+1个字符的标注。
所述概率分布如下:
Figure GDA0002609401870000042
其中,YX代表,对于给定的输入序列X,所有可能的标注的序列的集合;
训练CRF模型,为最大化正确序列的概率的对数;
解码时,将得到最大正确性分值序列y*作为猜测输出:
Figure GDA0002609401870000043
优选地,在表型名称规范化中,所述采用LSTM编码器对每个表型进行编码,包括:编码器训练步骤,所述编码器采用三层LSTM模型堆叠,且训练编码器时,模型的输出是输入语句向右侧滑动一个字符得到;以及表型编码步骤,将带编码的表型字符串,依次输入到编码器中,得到所述表型字符串所映射的目标向量。
根据本发明的另一个方面,本发明提供的一种电子病历表型抽取、表型名称规范化系统,包括:表型抽取模块,通过Bi-LSTM模型和CRF模型,做命名实体识别,抽取得到表型实体类;编码模块,通过LSTM编码器对抽取出的每个表型进行编码;计算模块,用于计算待映射非标准表型编码和标准表型编码的余弦相似度;映射模块,用于将非标准表型映射到余弦相似度最高的表型,完成表型名称的规范化。
优选地,所述编码模块,包括:编码器训练子模块:通过三层LSTM模型完成编码器的训练;表型的编码子模块:用于将待编码的表型字符串输入到编码器中,完成表型编码。
有益效果:
本发明基于深度学习的电子病历表型抽取、表型名称规范化方法及系统,通过采用Bi-LSTM模型和CRF模型做命名实体识别,进行表型实体类的抽取,提高了电子病历中命名实体识别的准确率以及召回正确率,经计算,对实体识别的准确率可达91.04%,召回正确率可以达到96.65%,f1=93.86%,f1表示准确率和召回率的调和平均数;通过采用LSTM编码器对每个表型进行编码,计算待映射非标准表型编码与标准表型编码的余弦相似度,将其待映射表型映射到余弦相似度最高的表型,完成表型名称的规范化,提高了对表型映射的准确率,经计算,对表型映射的准确率可达83.37%,MRR=0.9432,MRR即为平均倒数排名。
本发明大大提高了病历结构化的效率,免去了病历结构化过程中人工消耗,从而能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。
附图说明
图1是本发明电子病历表型抽取、表型名称规范化方法的流程示意图;
图2是本发明的一个实施例的表型规范化流程示意图;
图3是本发明表型抽取的流程示意图;
图4是本发明表型实体标注的流程示意图;
图5是本发明表型规范化映射的结构示意图;
图6是本发明编码器训练的流程示意图;
图7是本发明表型编码的流程示意图;
图8是本发明电子病历表型抽取、表型名称规范化系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述:
如图8所示,本发明电子病历表型抽取、表型名称规范化系统,包括:表型抽取模块、编码模块、计算模块、以及映射模块,其中,编码模块包括:编码器训练子模块和表型编码子模块。所述编码模块、计算模块、以及映射模块共同完成表型名称规范化。
本发明基于深度学习对电子病历表型进行表型抽取、表型名称规范化方法,包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi-LSTM模型和CRF模型做命名实体识别,抽取出病历文本中的表型实体类;表型名称规范化,采用LSTM编码器对每个表型进行编码,计算文中待映射非标准表型编码与标准表型编码的余弦相似度,将文中待映射非标准表型映射到余弦相似度最高的表型。
例如,某个病例,自然文本语句为“十年来行走晃动,尿频,便秘”,如图2所示,经过表型提取(命名实体识别),得到“行走晃动,尿频,便秘”,然后经过表型标准化(表型名称规范化),得到“行走不稳,尿频,便秘”,从而提取出标准化表型。
本发明中,表型提取实际上就是识别表型类的实体。采用Bi-LSTM+CRF网络架构,如图3所示:Embedding层输入的一句话X=(x1,x2,…,xn),初始化,得到字符集中每个字符的字向量,输出为:
Figure GDA0002609401870000071
经过LSTM模型,进行双向长短期记忆网络,图中示出的是先左后右,顺序不限于此,依次得到隐藏状态一和隐藏状态二,输出并堆叠,输出值作为CRF模型的输入值输入。Bi-LSTM+CRF模型的输入是病历文本字符串,输出是该字符串中每个字符所属的实体类。
具体包括:第一个层为embedding层,第二个层为Bi-LSTM模型,第三层为CRF模型,数据集标注和模型训练,以及预测,下面具体从这几个方面进行描述:
第一个层为embedding层。Embedding层将每个病历自然语句的字映射为一个150维的向量,也就是将输入语句变换为一个二维矩阵,矩阵的行维数是150,矩阵的列维数是句子的长度。Embedding层初始化化时,字符集中的每个汉字字符初始化为一个150维随机向量。字向量将是可训练的,伴随着整个模型的其他参数同步迭代更新,最终得到字符集中每个字符的字向量。记Embedding层输入的一句话X=(x1,x2,…,xn),其中xn表示输入语句X的第n个字符。此层的输出为:
Figure GDA0002609401870000072
第二个层为Bi-LSTM模型。长短程记忆网络(LSTM)是一种典型的递归神经网络,相比于传统的朴素RNN架构,LSTM由于有针对性的增加了门控开关,在一定程度上缓解了反向传播过程中的梯度消失和梯度爆炸问题,从而可以更好地处理序列的长距离依赖关系。
这里采用的LSTM模型为:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot⊙tanh(ct)
其中,σ是按元素的sigmoid函数,⊙是按元素乘法,tanh是双曲正切函数,it,ct,ot,ht分别代表t时刻的输入门参数,状态参数,输出门参数,输出值,xt是模型输入的第t个字符的字向量。
一般地,LSTM将会按照从左自右的顺序,将
Figure GDA0002609401870000081
中的每个元素输入模型,把模型中得到的隐藏状态记为
Figure GDA0002609401870000082
为了提取反向的依赖关系,再添加一层LSTM网络,从右自左的提取V中的元素,得到的隐藏状态记为
Figure GDA0002609401870000083
Figure GDA0002609401870000084
把这种两层LSTM结构叫Bi-LSTM。第一个Bi-LSTM层的输出为H1=(h1,h2,…,hn)。为了得到更加复杂的语句依赖关系,这里堆叠了三层Bi-LSTM网络,输出为H3
第三层为CRF模型。本发明中使用的是单线性链条件随机场,这是一种无向概率图模型。当我们从三层双向LSTM的输出得到H3=(h1,h2,…,hn)后,继续用一个全连接层,将所述输出值变换为维度p×n的矩阵P的步骤,其中,p是不同种类标注的数量,n是输入句子的长度;所述矩阵P的第i行、第j列元素Pi,j为对单词xi的真实标签是j的可能性的估计。
对于输入H3=(h1,h2,…,hn)和预测标注y=(y1,y2,…,yn),在此定义他的正确性分数s:
Figure GDA0002609401870000091
其中,A是状态转移矩阵,Ayi,yi+1代表标注为yi的单词后面紧接着标注为yi+1的单词的转移值;yi是第i个字符的标注,yi+1是第i+1个字符的标注。
对所有可能的预测序列的正确分值做softmax变换,给出y的概率分布:
Figure GDA0002609401870000092
其中,YX代表,对于给定的输入序列X,所有可能的标注的序列的集合。
训练CRF模型,为最大化正确序列的概率的对数。
解码时,将得到最大正确性分值序列y*作为猜测输出:
Figure GDA0002609401870000093
一般用维特比算法完成训练和解码过程。
数据集标注和模型训练。其中,数据集标注格式:训练集中,标注了表型实体。采用IOBES标注格式。B表示“begin”,I表示“in”,E:表示“end”,S表示“single”,O表示“others”。每个表型命名实体开始的词都被标注B,每个表型命名实体的中间和结尾分别被标注为“I”和“E”,若表型实体为单个字符则标记为“S”,非表型实体的字符标记为“O”.例如,“三年前便秘”标注为“000BE”,如图4所示。模型训练:通过5折交叉验证,选择超参数为:学习率0.001,求解算法AdaGrad。本发明的模型中,在字符的Embedding输入到LSTM中时和LSTM层间传递时都使用了Dropout技术。Dropout=0.7。
预测。将每个待提取实体的语句X=(x1,x2,…,xn)输入到已经训练的模型,得到其标签序列y=(y1,y2,…,yn)。实现了从输入病历文本中提取出表型序列P=(p1,p2,…,pm),其中pm是从X中顺序抽取出的第m个表型。
本发明中表型规范化,如图5所示,将待编码的表型字符串依次输入到经过三层LSTM网络编码器中,输出,计算余弦相似度,然后将非标准表型映射到余弦相似度最高的标准表型中。下面从编码器训练、表型编码、映射、以及规范化来具体描述表型规范化:
编码器训练:首先,训练一个LSTM模型用于将每个表型编码为一个向量。具体地,就是将抽取出的表型序列P=(p1,p2,...,pm)映射为表型编码C=(c1,c2,…,cm)。其中,cm=encoder(pm),cm是表型pm所映射到的目标向量。这里的关键是encoder编码器的训练。
这里encoder使用三层LSTM模型,每层描述如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot⊙tanh(ct)
其中,σ是按元素的sigmoid函数,⊙是按元素乘法,tanh是双曲正切函数,it,ct,ot,ht分别代表t时刻的输入门参数,状态参数,输出门参数,输出值。构造的编码器一共堆叠了三层这样的网络。如图6所示,训练时,模型的输入是X=(x1,x2,…,xt-1),要拟合的目标标签是Y=(x2,x3,...,xt),也就是说,训练编码器时,模型的输出是输入语句向右侧滑动一个字符得到的。这样做的目的是使得编码器学到病历文本字符的转移关系。我们假设同一个表型的不同表述在病历的真实语境中的上下文也是相似的。若编码器可以较好的学习到文本的上下文依赖关系,那么表型语义编码的相似就意味着表型上下文的相似,进而意味着表型语义和概念的相似。
表型的编码:如图7所示,将待编码的的表型字符串pm=(x1,x2,…,xn),依次输入到encoder(三层分别为L1,L2,L3)中,得到
Figure GDA0002609401870000111
3×150维度向量。其中,
Figure GDA0002609401870000112
是第i层LSTM的最后一个时间步的输出,这里n表示表型字符串的长度。
映射:计算Cosine similarly(余弦相似度):首先计算每个标准表型的编码。然后,计算每个提取出的非标准表型的编码。然后,计算提取出的非标准表型编码与每个标准表型编码的余弦相似度。
规范化:将每个非标准表型映射到余弦相似度最高的标准表型,从而完成非标准表型的规范化,本申请病例表型抽取、表型名称规范化具体流程如图1所示。
下面举一个病例来说明。病例:“走路不稳6年,逐渐发展,伴言语不流利,不清晰,有时饮水呛,吞咽有时呛,视物不清,夜间视物模糊,二便正常,无肌束颤。5年+前出现行走不稳,言语欠清,偶有饮水发呛,眠可,腰间盘突出,坐骨神经痛。CT检查显示,小脑轻度萎缩”。采用本发明规范化方法可将其中的表型抽取出来,其中,非标准表型与标准表型对比如表1所示:
表1:
Figure GDA0002609401870000113
Figure GDA0002609401870000121
由上表可知,通过采用本申请的规范化方法,该病历中的表型都被成功的提取出来。此外,病历中的非标准表型,言语不流利、视物模糊、言语欠清、饮水发呛分别映射到了言语不清、视物不清、言语不清、饮水呛。起到了表型规范化的作用。经计算,对实体识别的准确率可达91.04%,召回正确率可以达到96.65%,f1=93.86%,f1表示准确率和召回率的调和平均数;对表型映射的准确率可达83.37%,MRR=0.9432,MRR即为平均倒数排名。性能的比较有赖于所谓标准化表型的数据库,以上具体的准确率是基于本发明特定标注的数据集而言的,而其他类似装置或实验在处理相似任务时的性能可能很难获得。
以上结合附图对本发明优选实施例进行了描述,但本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,并不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出很多形式,这些均属于本发明保护范围之内。

Claims (7)

1.一种电子病历表型抽取、表型名称规范化方法,其特征在于,包括:
表型抽取,将病历文本自然语句作为原始数据,采用Bi-LSTM模型和CRF模型做命名实体识别,抽取出病历文本中的表型实体类;
表型名称规范化,采用LSTM编码器对每个表型进行编码,计算非标准表型编码与标准表型编码的余弦相似度,将非标准表型映射到余弦相似度最高的标准表型;其中,采用LSTM编码器对每个表型进行编码,包括:
编码器训练步骤,编码器采用三层LSTM模型堆叠,且训练编码器时,模型的输出是输入语句向右侧滑动一个字符得到;
表型编码步骤,将待编码的表型字符串,依次输入到编码器中,得到所述表型字符串所映射的目标向量。
2.如权利要求1所述的电子病历表型抽取、表型名称规范化方法,其特征在于,在表型抽取中,包括:
通过Embedding层初始化,得到每个字符的字向量;
将字向量输入Bi-LSTM模型,堆叠三层Bi-LSTM网络,得到输出值;
采用CRF模型,根据所述输出值和预测标注,定义正确性分数,对所有可能的预测序列的正确分值做softmax变换,得到相应的概率分布。
3.如权利要求2所述的电子病历表型抽取、表型名称规范化方法,其特征在于,训练集中,采用IOBES标注格式进行表型实体标注,
其中,每个表型命名实体开始的词标注为B;每个表型命名实体的中间和结尾分别标注为I和E;若表型实体为单个字符则标记为S;非表型实体的字符标记为O。
4.如权利要求2所述的电子病历表型抽取、表型名称规范化方法,其特征在于,所述将字向量输入Bi-LSTM模型的步骤中,包括:
按照一个方向的顺序,LSTM模型将字向量的每个元素输入,得到隐藏状态一,再按照与所述方向相反的方向的顺序,将字向量的每个元素输入,得到隐藏状态二,输出第一个Bi-LSTM层;其中,LSTM模型如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot⊙tanh(ct)
其中,σ是按元素的sigmoid函数,⊙是按元素乘法,tanh是双曲正切函数,it,ct,ot,ht分别代表t时刻的输入门参数,状态参数,输出门参数,输出值,xt是第t个时间步输入到模型的字向量。
5.如权利要求2所述的电子病历表型抽取、表型名称规范化方法,其特征在于,在CRF模型中,包括:将所述输出值变换为维度p×n的矩阵P的步骤,其中,p是不同种类标注的数量,n是输入句子的长度;所述矩阵P的第i行、第j列元素Pi,j为对单词xi的真实标签是j的可能性的估计。
6.如权利要求2所述的电子病历表型抽取、表型名称规范化方法,其特征在于,在CRF模型中,
所述正确性分数s如下:
Figure FDA0002660461260000021
其中,A是状态转移矩阵,Ayi,yi+1代表标注为yi的单词后面紧接着标注为yi+1的单词的转移值;yi是第i个字符的标注,yi+1是第i+1个字符的标注;
所述概率分布如下:
Figure FDA0002660461260000022
其中,YX代表:对于给定的输入序列X,其所有可能的标注序列的集合;
训练CRF模型;
解码时,将得到最大正确性分值序列y*作为猜测输出:
Figure FDA0002660461260000031
其中,上述公式中,y表示输入序列X对应的正确标注序列;
Figure FDA0002660461260000032
表示集合YX中的某个标注序列,且
Figure FDA0002660461260000033
7.一种电子病历表型抽取、表型名称规范化系统,其特征在于,包括:
表型抽取模块,通过Bi-LSTM模型和CRF模型,做命名实体识别,抽取得到表型实体类;
编码模块,通过LSTM编码器对抽取出的每个表型进行编码;所述编码模块包括:编码器训练子模块,通过三层LSTM模型完成编码器的训练;表型的编码子模块,用于将待编码的表型字符串输入到编码器中,完成表型编码;
计算模块,用于计算待映射非标准表型编码和标准表型编码的余弦相似度;
映射模块,用于将非标准表型映射到余弦相似度最高的表型,完成表型名称的规范化。
CN201811271476.3A 2018-10-29 2018-10-29 电子病历表型抽取、表型名称规范化方法及系统 Active CN109471895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811271476.3A CN109471895B (zh) 2018-10-29 2018-10-29 电子病历表型抽取、表型名称规范化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811271476.3A CN109471895B (zh) 2018-10-29 2018-10-29 电子病历表型抽取、表型名称规范化方法及系统

Publications (2)

Publication Number Publication Date
CN109471895A CN109471895A (zh) 2019-03-15
CN109471895B true CN109471895B (zh) 2021-02-26

Family

ID=65666347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811271476.3A Active CN109471895B (zh) 2018-10-29 2018-10-29 电子病历表型抽取、表型名称规范化方法及系统

Country Status (1)

Country Link
CN (1) CN109471895B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948120B (zh) * 2019-04-02 2023-03-14 深圳市前海欢雀科技有限公司 一种基于二元化的简历解析方法
CN110032739B (zh) * 2019-04-18 2021-07-13 清华大学 中文电子病历命名实体抽取方法及系统
CN109871545B (zh) * 2019-04-22 2022-08-05 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110265098A (zh) * 2019-05-07 2019-09-20 平安科技(深圳)有限公司 一种病例管理方法、装置、计算机设备及可读存储介质
CN110444259B (zh) * 2019-06-06 2022-09-23 昆明理工大学 基于实体关系标注策略的中医电子病历实体关系提取方法
CN110223737A (zh) * 2019-06-13 2019-09-10 电子科技大学 一种中药化学成分命名实体识别方法与装置
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110298040A (zh) * 2019-06-20 2019-10-01 翼健(上海)信息科技有限公司 一种对中文语料进行标注识别的控制方法及控制装置
CN110335653B (zh) * 2019-06-30 2022-05-24 浙江大学 基于openEHR病历格式的非标准病历解析方法
CN110321566B (zh) * 2019-07-10 2020-11-13 北京邮电大学 中文命名实体识别方法、装置、计算机设备和存储介质
CN112445789A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于将目标文本转化成结构化数据的方法和装置
CN111191415A (zh) * 2019-12-16 2020-05-22 山东众阳健康科技集团有限公司 基于原始手术数据的手术分类编码方法
CN111160009B (zh) * 2019-12-30 2020-12-08 北京理工大学 一种基于树状网格记忆神经网络的序列特征提取方法
CN111353302A (zh) * 2020-03-03 2020-06-30 平安医疗健康管理股份有限公司 医学词义识别方法、装置、计算机设备和存储介质
CN111627561B (zh) * 2020-05-25 2023-05-12 讯飞医疗科技股份有限公司 标准症状抽取方法、装置、电子设备和存储介质
CN111666754B (zh) * 2020-05-28 2023-02-03 深圳平安医疗健康科技服务有限公司 基于电子疾病文本的实体识别方法、系统和计算机设备
CN112131838A (zh) * 2020-09-29 2020-12-25 无锡医迈德科技有限公司 一种将非标准型号字符串映射为标准型字符串的方法
CN112464087B (zh) * 2020-11-23 2024-03-01 北京明略软件系统有限公司 推荐概率的输出方法及装置、存储介质、电子设备
CN114386422B (zh) * 2022-01-14 2023-09-15 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114564959A (zh) * 2022-01-14 2022-05-31 北京交通大学 中文临床表型细粒度命名实体识别方法及系统
CN114582449A (zh) * 2022-01-17 2022-06-03 内蒙古大学 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN117574896B (zh) * 2024-01-16 2024-04-09 之江实验室 基于电子病历文本的手术费用识别方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
KR101846824B1 (ko) * 2017-12-11 2018-04-09 가천대학교 산학협력단 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
CN108595629A (zh) * 2018-04-24 2018-09-28 北京慧闻科技发展有限公司 用于答案选择系统的数据处理方法及应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002875B2 (en) * 2007-10-26 2015-04-07 Kalyan Gopalakrishnan Method for optimizing clinical data standardization
US10019498B2 (en) * 2015-03-31 2018-07-10 Northrup Grumman Systems Corporation Biometric data brokerage system and method for transfer of biometric records between biometric collection devices and biometric processing services
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
KR101846824B1 (ko) * 2017-12-11 2018-04-09 가천대학교 산학협력단 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
CN108595629A (zh) * 2018-04-24 2018-09-28 北京慧闻科技发展有限公司 用于答案选择系统的数据处理方法及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电子病历命名实体识别和实体关系抽取研究综述;杨锦锋 等;《自动化学报》;20140815(第8期);第1537-1562页 *

Also Published As

Publication number Publication date
CN109471895A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110597970B (zh) 一种多粒度医疗实体联合识别的方法及装置
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN108388560B (zh) 基于语言模型的gru-crf会议名称识别方法
CN112115721B (zh) 一种命名实体识别方法及装置
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN111881292B (zh) 一种文本分类方法及装置
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备
CN113822018A (zh) 实体关系联合抽取方法
CN112836485A (zh) 一种基于神经机器翻译的相似病历预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant