CN109471895B

CN109471895B - 电子病历表型抽取、表型名称规范化方法及系统

Info

Publication number: CN109471895B
Application number: CN201811271476.3A
Authority: CN
Inventors: 江瑞; 黄浩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-02-26
Anticipated expiration: 2038-10-29
Also published as: CN109471895A

Abstract

本发明公开了一种电子病历表型抽取、表型名称规范化方法。该方法包括：表型抽取，将病历文本自然语句作为原始数据，采用Bi‑LSTM模型和CRF模型做命名实体识别，抽取出表型实体类；以及表型规范化，采用LSTM编码器对每个表型进行编码，计算病历中非标准表型的编码与标准表型编码的余弦相似度，将非标准表型映射到余弦相似度最高的表型。本发明还公开了一种电子病历表型抽取、表型名称规范化系统。本发明提高了电子病历中命名实体识别的准确率、召回正确率、以及对表型映射的准确率；免去了病历结构化过程中人工消耗，提高了病历结构化的效率；能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。

Description

电子病历表型抽取、表型名称规范化方法及系统

技术领域

本发明涉及医疗文本数据处理技术领域，特别是涉及一种基于深度学习的电子病历表型抽取、表型名称规范化方法及系统。

背景技术

常规的医疗电子记录中，信息的主要载体是自然语言，比如，影像报告、用药记录、病程报告和病历检查报告等。可以说，这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。一方面，近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历，从而累积了越来越多的医疗电子记录。另一方面，随着以大数据、人工智能为代表的信息技术与医学的深度融合，催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。但是，这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。遗憾的是，现实中的病历数据大都是非结构化的。正因为如此，将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大，若依靠人工来进行结构化，其经济成本无疑将十分高昂。所以，利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。

在电子病历结构化过程中，从病历文本提取并规范化患者的表型名称是一个关键问题。实际病历中一个表型或症状都可能有多个不同的同义词。比如“行走不稳”表型，它的规范名称是行走不稳，但是在真实病历中这一表型可能表述为：“行走晃动”、“走路不稳”、“走路摇晃”、“行走摇摆”等。将真实病历中出现的这些不规范的表型描述(“行走晃动”、“走路不稳”、“走路摇晃”，“行走摇摆”)映射到规范的表型名称(“行走不稳”)是病历结构化中必须解决的问题。表型提取和映射的准确性对于后续医疗数据分析流程有着基础性的影响。

发明内容

基于上述问题，本发明的目的在于提供一种基于深度学习的、电子病历电子病历表型抽取、表型名称规范化方法，可以自动的将病历中的表型或症状提取出来，并自动的映射到规范的表型名称，以提高病历结构化的准确性，免去了病历结构化过程中人工消耗，从而更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。

本发明的另一目在于提供一种电子病历电子病历表型抽取、表型名称规范化系统。

上述目的是通过以下技术方案实现的：

根据本发明的一个方面，本发明提供的一种电子病历表型抽取、表型名称规范化方法，包括：表型抽取，将病历文本自然语句作为原始数据，采用Bi-LSTM(双向循环神经网络)模型和CRF(条件随机场)模型做命名实体识别，抽取出病历文本中的表型实体类；表型名称规范化，采用LSTM编码器对每个表型进行编码，计算待映射非标准表型编码与标准表型编码的余弦相似度，将待映射非标准表型映射到余弦相似度最高的表型。

优选地，在表型抽取中，包括：通过Embedding(嵌入)层初始化，得到每个字符的字向量；将字向量输入Bi-LSTM模型，堆叠三层Bi-LSTM网络，得到输出值；采用CRF模型，根据所述输出值和预测标注，定义正确性分数，对所有可能的预测序列的正确分值做softmax变换，得到相应的概率分布。

其中，训练集中，采用IOBES标注格式进行表型实体标注，每个表型命名实体开始的词标注为B；每个表型命名实体的中间和结尾分别标注为I和E；若表型实体为单个字符则标记为S；非表型实体的字符标记为O。

优选地，所述将字向量输入Bi-LSTM模型的步骤中，包括：按照一个方向的顺序，LSTM模型将字向量的每个元素输入，得到隐藏状态一，再按照与所述方向相反的方向的顺序，将字向量的每个元素输入，得到隐藏状态二，输出第一个Bi-LSTM层；其中，LSTM模型如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

c_t＝(1-i_t)⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_i+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是按元素的sigmoid函数，⊙是按元素乘法，tanh是双曲正切函数，i_t，c_t，o_t，h_t分别代表t时刻的输入门参数，状态参数，输出门参数，输出值，x_t是第t个时间步输入到模型的字向量。

优选地，在CRF模型中，包括：将所述输出值变换为维度p×n的矩阵P的步骤，其中，p是不同种类标注的数量，n是输入句子的长度；所述矩阵P的第i行、第j列元素P_i，j为对单词x_i的真实标签是j的可能性的估计。

优选地，在CRF模型中，所述正确性分数s如下：

其中，A是状态转移矩阵，Ay_i,y_i+1代表标注为y_i的单词后面紧接着标注为y_i+1的单词的转移值；y_i是第i个字符的标注，y_i+1是第i+1个字符的标注。

所述概率分布如下：

其中，Y_X代表，对于给定的输入序列X，所有可能的标注的序列的集合；

训练CRF模型，为最大化正确序列的概率的对数；

解码时，将得到最大正确性分值序列y*作为猜测输出：

优选地，在表型名称规范化中，所述采用LSTM编码器对每个表型进行编码，包括：编码器训练步骤，所述编码器采用三层LSTM模型堆叠，且训练编码器时，模型的输出是输入语句向右侧滑动一个字符得到；以及表型编码步骤，将带编码的表型字符串，依次输入到编码器中，得到所述表型字符串所映射的目标向量。

根据本发明的另一个方面，本发明提供的一种电子病历表型抽取、表型名称规范化系统，包括：表型抽取模块，通过Bi-LSTM模型和CRF模型，做命名实体识别，抽取得到表型实体类；编码模块，通过LSTM编码器对抽取出的每个表型进行编码；计算模块，用于计算待映射非标准表型编码和标准表型编码的余弦相似度；映射模块，用于将非标准表型映射到余弦相似度最高的表型，完成表型名称的规范化。

优选地，所述编码模块，包括：编码器训练子模块：通过三层LSTM模型完成编码器的训练；表型的编码子模块：用于将待编码的表型字符串输入到编码器中，完成表型编码。

有益效果：

本发明基于深度学习的电子病历表型抽取、表型名称规范化方法及系统，通过采用Bi-LSTM模型和CRF模型做命名实体识别，进行表型实体类的抽取，提高了电子病历中命名实体识别的准确率以及召回正确率，经计算，对实体识别的准确率可达91.04％，召回正确率可以达到96.65％，f1＝93.86％，f1表示准确率和召回率的调和平均数；通过采用LSTM编码器对每个表型进行编码，计算待映射非标准表型编码与标准表型编码的余弦相似度，将其待映射表型映射到余弦相似度最高的表型，完成表型名称的规范化，提高了对表型映射的准确率，经计算，对表型映射的准确率可达83.37％，MRR＝0.9432，MRR即为平均倒数排名。

本发明大大提高了病历结构化的效率，免去了病历结构化过程中人工消耗，从而能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。

附图说明

图1是本发明电子病历表型抽取、表型名称规范化方法的流程示意图；

图2是本发明的一个实施例的表型规范化流程示意图；

图3是本发明表型抽取的流程示意图；

图4是本发明表型实体标注的流程示意图；

图5是本发明表型规范化映射的结构示意图；

图6是本发明编码器训练的流程示意图；

图7是本发明表型编码的流程示意图；

图8是本发明电子病历表型抽取、表型名称规范化系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述：

如图8所示，本发明电子病历表型抽取、表型名称规范化系统，包括：表型抽取模块、编码模块、计算模块、以及映射模块，其中，编码模块包括：编码器训练子模块和表型编码子模块。所述编码模块、计算模块、以及映射模块共同完成表型名称规范化。

本发明基于深度学习对电子病历表型进行表型抽取、表型名称规范化方法，包括：表型抽取，将病历文本自然语句作为原始数据，采用Bi-LSTM模型和CRF模型做命名实体识别，抽取出病历文本中的表型实体类；表型名称规范化，采用LSTM编码器对每个表型进行编码，计算文中待映射非标准表型编码与标准表型编码的余弦相似度，将文中待映射非标准表型映射到余弦相似度最高的表型。

例如，某个病例，自然文本语句为“十年来行走晃动，尿频，便秘”，如图2所示，经过表型提取(命名实体识别)，得到“行走晃动，尿频，便秘”，然后经过表型标准化(表型名称规范化)，得到“行走不稳，尿频，便秘”，从而提取出标准化表型。

本发明中，表型提取实际上就是识别表型类的实体。采用Bi-LSTM+CRF网络架构，如图3所示：Embedding层输入的一句话X＝(x₁,x₂,…,x_n)，初始化，得到字符集中每个字符的字向量，输出为：

经过LSTM模型，进行双向长短期记忆网络，图中示出的是先左后右，顺序不限于此，依次得到隐藏状态一和隐藏状态二，输出并堆叠，输出值作为CRF模型的输入值输入。Bi-LSTM+CRF模型的输入是病历文本字符串，输出是该字符串中每个字符所属的实体类。

具体包括：第一个层为embedding层，第二个层为Bi-LSTM模型，第三层为CRF模型，数据集标注和模型训练，以及预测，下面具体从这几个方面进行描述：

第一个层为embedding层。Embedding层将每个病历自然语句的字映射为一个150维的向量，也就是将输入语句变换为一个二维矩阵，矩阵的行维数是150，矩阵的列维数是句子的长度。Embedding层初始化化时，字符集中的每个汉字字符初始化为一个150维随机向量。字向量将是可训练的，伴随着整个模型的其他参数同步迭代更新，最终得到字符集中每个字符的字向量。记Embedding层输入的一句话X＝(x₁,x₂,…,x_n),其中x_n表示输入语句X的第n个字符。此层的输出为：

第二个层为Bi-LSTM模型。长短程记忆网络(LSTM)是一种典型的递归神经网络，相比于传统的朴素RNN架构，LSTM由于有针对性的增加了门控开关，在一定程度上缓解了反向传播过程中的梯度消失和梯度爆炸问题，从而可以更好地处理序列的长距离依赖关系。

这里采用的LSTM模型为：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

c_t＝(1-i_t)⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是按元素的sigmoid函数，⊙是按元素乘法，tanh是双曲正切函数，i_t，c_t，o_t，h_t分别代表t时刻的输入门参数，状态参数，输出门参数，输出值，x_t是模型输入的第t个字符的字向量。

一般地，LSTM将会按照从左自右的顺序，将

中的每个元素输入模型，把模型中得到的隐藏状态记为

为了提取反向的依赖关系，再添加一层LSTM网络，从右自左的提取V中的元素，得到的隐藏状态记为

记

把这种两层LSTM结构叫Bi-LSTM。第一个Bi-LSTM层的输出为H₁＝(h₁，h₂，…，h_n)。为了得到更加复杂的语句依赖关系，这里堆叠了三层Bi-LSTM网络，输出为H₃。

第三层为CRF模型。本发明中使用的是单线性链条件随机场，这是一种无向概率图模型。当我们从三层双向LSTM的输出得到H₃＝(h₁，h₂，…，h_n)后，继续用一个全连接层，将所述输出值变换为维度p×n的矩阵P的步骤，其中，p是不同种类标注的数量，n是输入句子的长度；所述矩阵P的第i行、第j列元素P_i，j为对单词x_i的真实标签是j的可能性的估计。

对于输入H₃＝(h₁,h₂,…,h_n)和预测标注y＝(y₁,y₂,…,y_n)，在此定义他的正确性分数s：

对所有可能的预测序列的正确分值做softmax变换，给出y的概率分布：

其中，Y_X代表，对于给定的输入序列X，所有可能的标注的序列的集合。

训练CRF模型，为最大化正确序列的概率的对数。

解码时，将得到最大正确性分值序列y*作为猜测输出：

一般用维特比算法完成训练和解码过程。

数据集标注和模型训练。其中，数据集标注格式：训练集中，标注了表型实体。采用IOBES标注格式。B表示“begin”，I表示“in”，E：表示“end”，S表示“single”，O表示“others”。每个表型命名实体开始的词都被标注B，每个表型命名实体的中间和结尾分别被标注为“I”和“E”,若表型实体为单个字符则标记为“S”,非表型实体的字符标记为“O”.例如，“三年前便秘”标注为“000BE”,如图4所示。模型训练：通过5折交叉验证,选择超参数为:学习率0.001,求解算法AdaGrad。本发明的模型中，在字符的Embedding输入到LSTM中时和LSTM层间传递时都使用了Dropout技术。Dropout＝0.7。

预测。将每个待提取实体的语句X＝(x₁，x₂，…，x_n)输入到已经训练的模型，得到其标签序列y＝(y₁，y₂，…，y_n)。实现了从输入病历文本中提取出表型序列P＝(p₁，p₂，…，p_m)，其中p_m是从X中顺序抽取出的第m个表型。

本发明中表型规范化，如图5所示，将待编码的表型字符串依次输入到经过三层LSTM网络编码器中，输出，计算余弦相似度，然后将非标准表型映射到余弦相似度最高的标准表型中。下面从编码器训练、表型编码、映射、以及规范化来具体描述表型规范化：

编码器训练：首先，训练一个LSTM模型用于将每个表型编码为一个向量。具体地，就是将抽取出的表型序列P＝(p₁，p₂，...，p_m)映射为表型编码C＝(c₁，c₂，…，c_m)。其中，c_m＝encoder(p_m)，c_m是表型p_m所映射到的目标向量。这里的关键是encoder编码器的训练。

这里encoder使用三层LSTM模型，每层描述如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

c_t＝(1-i_t)⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是按元素的sigmoid函数，⊙是按元素乘法，tanh是双曲正切函数，i_t，c_t，o_t，h_t分别代表t时刻的输入门参数，状态参数，输出门参数，输出值。构造的编码器一共堆叠了三层这样的网络。如图6所示，训练时，模型的输入是X＝(x₁，x₂，…，x_t-1)，要拟合的目标标签是Y＝(x₂，x₃，...，x_t)，也就是说，训练编码器时，模型的输出是输入语句向右侧滑动一个字符得到的。这样做的目的是使得编码器学到病历文本字符的转移关系。我们假设同一个表型的不同表述在病历的真实语境中的上下文也是相似的。若编码器可以较好的学习到文本的上下文依赖关系，那么表型语义编码的相似就意味着表型上下文的相似，进而意味着表型语义和概念的相似。

表型的编码：如图7所示，将待编码的的表型字符串p_m＝(x₁,x₂,…,x_n),依次输入到encoder(三层分别为L1,L2,L3)中，得到

3×150维度向量。其中，

是第i层LSTM的最后一个时间步的输出，这里n表示表型字符串的长度。

映射：计算Cosine similarly(余弦相似度)：首先计算每个标准表型的编码。然后，计算每个提取出的非标准表型的编码。然后，计算提取出的非标准表型编码与每个标准表型编码的余弦相似度。

规范化：将每个非标准表型映射到余弦相似度最高的标准表型，从而完成非标准表型的规范化，本申请病例表型抽取、表型名称规范化具体流程如图1所示。

下面举一个病例来说明。病例：“走路不稳6年，逐渐发展，伴言语不流利，不清晰，有时饮水呛，吞咽有时呛，视物不清，夜间视物模糊，二便正常，无肌束颤。5年+前出现行走不稳，言语欠清，偶有饮水发呛，眠可，腰间盘突出，坐骨神经痛。CT检查显示，小脑轻度萎缩”。采用本发明规范化方法可将其中的表型抽取出来，其中，非标准表型与标准表型对比如表1所示：

表1：

由上表可知，通过采用本申请的规范化方法，该病历中的表型都被成功的提取出来。此外，病历中的非标准表型，言语不流利、视物模糊、言语欠清、饮水发呛分别映射到了言语不清、视物不清、言语不清、饮水呛。起到了表型规范化的作用。经计算，对实体识别的准确率可达91.04％，召回正确率可以达到96.65％，f1＝93.86％，f1表示准确率和召回率的调和平均数；对表型映射的准确率可达83.37％,MRR＝0.9432，MRR即为平均倒数排名。性能的比较有赖于所谓标准化表型的数据库，以上具体的准确率是基于本发明特定标注的数据集而言的，而其他类似装置或实验在处理相似任务时的性能可能很难获得。

以上结合附图对本发明优选实施例进行了描述，但本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，并不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出很多形式，这些均属于本发明保护范围之内。

Claims

1.一种电子病历表型抽取、表型名称规范化方法，其特征在于，包括：

表型抽取，将病历文本自然语句作为原始数据，采用Bi-LSTM模型和CRF模型做命名实体识别，抽取出病历文本中的表型实体类；

表型名称规范化，采用LSTM编码器对每个表型进行编码，计算非标准表型编码与标准表型编码的余弦相似度，将非标准表型映射到余弦相似度最高的标准表型；其中，采用LSTM编码器对每个表型进行编码，包括：

编码器训练步骤，编码器采用三层LSTM模型堆叠，且训练编码器时，模型的输出是输入语句向右侧滑动一个字符得到；

表型编码步骤，将待编码的表型字符串，依次输入到编码器中，得到所述表型字符串所映射的目标向量。

2.如权利要求1所述的电子病历表型抽取、表型名称规范化方法，其特征在于，在表型抽取中，包括：

通过Embedding层初始化，得到每个字符的字向量；

将字向量输入Bi-LSTM模型，堆叠三层Bi-LSTM网络，得到输出值；

采用CRF模型，根据所述输出值和预测标注，定义正确性分数，对所有可能的预测序列的正确分值做softmax变换，得到相应的概率分布。

3.如权利要求2所述的电子病历表型抽取、表型名称规范化方法，其特征在于，训练集中，采用IOBES标注格式进行表型实体标注，

其中，每个表型命名实体开始的词标注为B；每个表型命名实体的中间和结尾分别标注为I和E；若表型实体为单个字符则标记为S；非表型实体的字符标记为O。

4.如权利要求2所述的电子病历表型抽取、表型名称规范化方法，其特征在于，所述将字向量输入Bi-LSTM模型的步骤中，包括：

按照一个方向的顺序，LSTM模型将字向量的每个元素输入，得到隐藏状态一，再按照与所述方向相反的方向的顺序，将字向量的每个元素输入，得到隐藏状态二，输出第一个Bi-LSTM层；其中，LSTM模型如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

c_t＝(1-i_t)⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t⊙tanh(c_t)

5.如权利要求2所述的电子病历表型抽取、表型名称规范化方法，其特征在于，在CRF模型中，包括：将所述输出值变换为维度p×n的矩阵P的步骤，其中，p是不同种类标注的数量，n是输入句子的长度；所述矩阵P的第i行、第j列元素P_i，j为对单词x_i的真实标签是j的可能性的估计。

6.如权利要求2所述的电子病历表型抽取、表型名称规范化方法，其特征在于，在CRF模型中，

所述正确性分数s如下：

其中，A是状态转移矩阵，Ay_i，y_i+1代表标注为y_i的单词后面紧接着标注为y_i+1的单词的转移值；y_i是第i个字符的标注，y_i+1是第i+1个字符的标注；

所述概率分布如下：

其中，Y_X代表：对于给定的输入序列X，其所有可能的标注序列的集合；

训练CRF模型；

解码时，将得到最大正确性分值序列y*作为猜测输出：

其中，上述公式中，y表示输入序列X对应的正确标注序列；

表示集合Y_X中的某个标注序列，且

7.一种电子病历表型抽取、表型名称规范化系统，其特征在于，包括：

表型抽取模块，通过Bi-LSTM模型和CRF模型，做命名实体识别，抽取得到表型实体类；

编码模块，通过LSTM编码器对抽取出的每个表型进行编码；所述编码模块包括：编码器训练子模块，通过三层LSTM模型完成编码器的训练；表型的编码子模块，用于将待编码的表型字符串输入到编码器中，完成表型编码；

计算模块，用于计算待映射非标准表型编码和标准表型编码的余弦相似度；

映射模块，用于将非标准表型映射到余弦相似度最高的表型，完成表型名称的规范化。