CN111402974A

CN111402974A - 一种基于深度学习的电子病历icd自动编码方法

Info

Publication number: CN111402974A
Application number: CN202010151556.6A
Authority: CN
Inventors: 滕飞; 陈婕; 马征; 黄路非; 陈俐
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-10

Abstract

本发明公开了一种基于深度学习的电子病历ICD自动编码方法，包括以下步骤：S1：将电子病历与医疗编码分别进行向量化，得到病历特征向量和医疗编码特征向量；S2：学习电子病历的信息，得到文本向量；学习医疗编码的信息，得到医疗编码向量；S3：计算目标函数；S4：根据目标函数减低电子病历和医疗编码的差距，完成电子病历ICD自动编码。本发明的编码方法为编码员提供编码候选，减少了人工干预，加快编码效率。通过编码，电子病历得到了良好的二次应用，它更有利于医学数据的统计与分析。与现有技术相比，所有电子病历来源于真实的重症监护室病房记录，具有真实性高和可行性强的特点，且本方法具有准确率高，通用性强。

Description

一种基于深度学习的电子病历ICD自动编码方法

技术领域

本发明属于医疗数据处理技术领域，具体涉及一种基于深度学习的电子病历ICD自动编码方法。

背景技术

医疗领域中的病历是自由文本，由医生书写记录患者的病程，包括病人本人或他人对病情的主观描述，医务人员对病人的客观检查结果，以及医务人员对病情的分析结果。电子病历中包含的临床信息具有很高的实际应用价值，如病人的健康状况跟踪、疾病的流行性分析、医疗服务质量以及医疗决策支持等。但这些信息难以被直接利用，因为自由文本的记录和储存方式很难进行总结归类。医疗领域通用的办法是将文本映射到一个标准的医疗术语中。现在通用的编码系统是国际疾病分类系统，也就是ICD。ICD可对各种疾病做出国际通用的统一分类。医院中病案室的编码员为每一份病案进行ICD编码，编码范围主要集中在诊断、损伤、病理诊断和手术等。现在中国采取医生通过HIS系统选取编码，再由编码员校对之后进行病案编码。HIS系统模式上主要采取匹配的方法，编码完全依靠于医生给出的诊断，而不分析病历文本。这样的编码系统依然需要医生选取合适的编码，不够智能，这大大增加了医生的工作量。并且由于编码库的局限和诊断名称与医生书写习惯的偏差，往往导致编码错误和诊断填写不准确。因此，编码员的校对十分重要。如上所述，ICD编码任务的难点主要为：编码需要编码员阅读整篇病案，文本长且有许多缩写、误写等，增加了校对的难度；编码员需要运用编码规则和医学术语等大量的知识，理解医生在书写病历时的真正意图，这样的高素质人才的培养需要数十年的时间，十分匮乏；以及人工编码效率比较低且容易出现错误。

基于医疗文本的积累速度越来越快，医院信息化系统的普及程度越来越高，ICD编码的难点与辅助编码系统尚不完善的现状，研究自动ICD编码已成医疗与信息行业关注的焦点。基于以上情况，本发明提出了一种基于深度学习的电子病历ICD自动编码方法。

发明内容

本发明的目的是为了解决电子病历使用不便的问题，提出了一种基于深度学习的电子病历ICD自动编码方法。

本发明的技术方案是：一种基于深度学习的电子病历ICD自动编码方法，包括以下步骤：

S1：采用向量表示技术将电子病历与医疗编码分别进行向量化，得到病历特征向量和医疗编码特征向量；

S2：采用卷积循环神经网络学习病历特征向量中电子病历的信息，得到文本向量；采用门控神经单元学习医疗编码特征向量中医疗编码的信息，得到医疗编码向量；

S3：采用注意力机制，根据文本向量和医疗编码向量计算目标函数；

S4：根据目标函数降低电子病历和医疗编码的差距，完成电子病历ICD自动编码。

本发明的有益效果是：本发明的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容，使得不同的自然语言文本按照各自的特性被良好表征；同时使用跨文本注意力机制，提取文本中重要的语句，增加编码结果的可信度。本发明的编码方法为编码员提供编码候选，减少了人工干预，加快编码效率。通过编码，电子病历得到了良好的二次应用，它更有利于医学数据的统计与分析。与现有技术相比，所有电子病历来源于真实的重症监护室病房记录，具有真实性高和可行性强的特点，且本方法具有准确率高，通用性强。

进一步地，步骤S1包括以下子步骤：

S11：对电子病历的每个词进行词嵌入，得到每个词的向量表示；

S12：将每个词的向量表示垂直拼接，得到病历特征向量；

S13：基于病历特征向量，对医疗编码的每个编码描述进行词嵌入，得到每个医疗编码后的向量；

S14：将每个医疗编码后的向量进行垂直拼接，得到医疗编码特征向量。

上述进一步方案的有益效果是：在本发明中，将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量，便于后续步骤使用。

进一步地，步骤S11中，每个词的向量表示为x_i，向量表示的维度范围为[100，500]；

步骤S12中，病历特征向量表示为X＝[x₁，x₂，…，x_n]，其中，x_i为电子病历中第i个词的向量表示，n为电子病历的文本长度，i≤n；

步骤S13中，每个医疗编码后的向量表示为d_p:t＝[d₁，d₂，…d_t]，其中，d_p为医疗编码的第p个词，t为医疗编码的文本长度，p＝1,2,...,t；

步骤S14中，医疗编码特征向量表示为D＝[d_1:t，d_2:t，…，d_m:t]，其中，d_q:t为第q个医疗编码后的向量，m为医疗编码的数量，q＝1,2,...,m。

上述进一步方案的有益效果是：在本发明中，采用向量表示技术将文本序列向量化，便于后续步骤挖掘电子病历和医疗编码的文本内容。

进一步地，步骤S2包括以下子步骤：

S21：采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作，得到文本表示；

S22：将每个窗口的文本表示进行组合，得到文本向量；

S23：基于文本向量，采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作，得到每个医疗编码表示；

S24：将每个医疗编码表示进行组合，得到医疗编码向量。

上述进一步方案的有益效果是：在本发明中，采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息，采用门控神经单元学习医疗编码的语义信息。

进一步地，步骤S21中，文本表示c_i的卷积操作计算公式为：

c_i＝s(w·x_i:i+k-1+b)

其中，x_i:i+k-1为电子病历文本中相邻k个词形成的窗口，w为权重向量，b为偏置向量，·为卷积操作，i为电子病历文本中的第i个词，s(*)为非线性方程；

步骤S22中，组合得到的文本向量C表示为C＝[c₁，c₂，…c_n]，其中，n为电子病历的文本长度，i≤n。

上述进一步方案的有益效果是：在本发明中，步骤S21和步骤S22中，采用卷积操作处理电子病历的文本。

进一步地，步骤S23包括以下子步骤：

S231：采用门控神经单元计算医疗编码特征向量的更新门z和重置门r，其计算公式分别为：

z＝σ(d_tU^z+h_t-1W^z)

r＝σ(d_tU^r+h_t-1W^r)

其中，U^z为更新门z中需要学习的第一个权重矩阵，W^z为更新门z中需要学习的第二个权重矩阵，U^r为重置门r中需要学习的第一个权重矩阵，W^r为重置门r中需要学习的第二个权重矩阵，σ(·)为sigmoid激活函数；

S232：根据重置门r和当前医疗编码的输入状态d_t计算当前时刻的记忆内容s_j，其计算公式为：

其中，d_t为当前医疗编码的输入状态，U^h为当前时刻记忆内容中需要学习的第一个权重矩阵，W^hj为当前时刻记忆内容中需要学习的第二个权重矩阵，h_t-1为当前医疗编码的先前隐藏状态，r为重置门，

为Hadamard乘积，tanh(·)为双曲正切函数运算；

S233：将当前时刻的记忆内容s_j、当前医疗编码的先前隐藏状态h_t-1和更新门z进行Hadamard乘积运算，得到当前时刻每个医疗编码表示h_lt，其计算公式为：

其中，z为更新门，s_j为当前时刻的记忆内容，h_t-1为当前医疗编码的先前隐藏状态，

为Hadamard乘积。

上述进一步方案的有益效果是：在本发明中，门控神经单元利用更新门和重置门控制医疗编码的信息流，通过双曲正切函数运算和Hadamard乘积的运算求得医疗编码表示。

进一步地，步骤S24中，组合得到的医疗编码向量h表示为h＝[h_1t，h_2t，…，h_mt]，其中，m为医疗编码的数量，h_lt为第l个医疗编码表示，l≤m。

上述进一步方案的有益效果是：在本发明中，在本发明中，经过门控神经单元，通过组合医疗编码表示得到医疗编码向量。

进一步地，步骤S3包括以下子步骤：

S31：采用注意力机制，计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度；

S32：根据相似度计算文本表示和医疗编码表示之间的相关权重；

S33：根据相关权重计算文本表示和医疗编码表示之间的重要程度；

S34：根据重要程度计算文本表示和医疗编码表示之间的概率；

S35：根据概率确定目标函数。

上述进一步方案的有益效果是：在本发明中，由于医疗编码技术在医疗领域中使用时，需要对每个医疗编码的产生给出依据，因此引入注意力机制来计算重要程度并由此得到目标函数。

进一步地，步骤S31中，相似度s_il的计算公式为：

s_il＝h_lt·c_i

其中，c_i为第i个词的文本表示，h_lt为第l个医疗编码表示；

步骤S32中，相关权重α_il的计算公式为：

a_il＝softmax(s_il)

其中，s_il为文本表示和医疗编码向量之间的相似度，softmax(·)为softmax函数运算；

步骤S33中，重要程度m_l的计算公式为：

其中，i为电子病历中第i个词，n为电子病历的文本长度，i≤n，α_il为文本表示和医疗编码向量之间的相关权重，c_i为第i个词的文本表示；

步骤S34中，概率

的计算公式为：

其中，

为注意力机制全连接层的权重矩阵，b_l为注意力机制全连接层的偏置向量，m_l为文本表示和医疗编码向量之间的重要程度；

步骤S35中，目标函数L(X，p)的计算公式为：

其中，l为第l个医疗编码，m为医疗编码的数量，y_l为第l个医疗编码的真实标签，

为文本表示和医疗编码表示之间的概率，λ为L2正则化的超参数，γ为所提出医疗编码模型的所有参数，l≤m。

上述进一步方案的有益效果是：在本发明中，对每个相关参数给出具体公式，并结合注意力机制得到最后的目标函数。

进一步地，步骤S4中，采用优化函数Adam降低电子病历和医疗编码的差距。

上述进一步方案的有益效果是：在本发明中，降低电子病历和医疗编码的差距，用于调整使用本方法过程的经验风险。

附图说明

图1为电子病历ICD自动编码方法的流程图；

图2为步骤S1的流程图；

图3为步骤S2的流程图；

图4为步骤S23的流程图；

图5为步骤S3的流程图；

图6为采用本方法的实施例结构图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

如图1所示，本发明提供了一种基于深度学习的电子病历ICD自动编码方法，包括以下步骤：

在本发明实施例中，如图2所示，步骤S1包括以下子步骤：

S12：将每个词的向量表示垂直拼接，得到病历特征向量；

在本发明中，将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量，便于后续步骤使用。

在本发明实施例中，如图2所示，步骤S11中，每个词的向量表示为x_i，向量表示的维度范围为[100，500]；

在本发明中，采用向量表示技术将文本序列向量化，便于后续步骤挖掘电子病历和医疗编码的文本内容。

在本发明实施例中，如图3所示，步骤S2包括以下子步骤：

S22：将每个窗口的文本表示进行组合，得到文本向量；

S24：将每个医疗编码表示进行组合，得到医疗编码向量。

在本发明中，采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息，采用门控神经单元学习医疗编码的语义信息。

在本发明实施例中，如图3所示，步骤S21中，文本表示c_i的卷积操作计算公式为：

c_i＝s(w·x_i:i+k-1+b)

其中，x_i:i+k-1为电子病历文本中相邻k个词形成的窗口，w为权重向量，b为偏置向量，·为卷积操作，i为电子病历文本中的第i个词，s(*)为非线性方程，通常使用tanh方程，因为相邻k个词形成窗口，所以卷积核尺寸大小为k；

在本发明中，步骤S21和步骤S22中，采用卷积操作处理电子病历的文本。在实际应用中，为了获取电子病历文本的更多语义信息，需要在卷积操作完成后，在文本表示的两边进行补零，使得文本表示和文本向量的长度相同。

在本发明实施例中，如图4所示，步骤S23包括以下子步骤：

z＝σ(d_tU^z+h_t-1W^z)

r＝σ(d_tU^r+h_t-1W^r)

为Hadamard乘积，tanh(·)为双曲正切函数运算；

为Hadamard乘积。

在本发明中，门控神经单元利用更新门和重置门控制医疗编码的信息流，通过双曲正切函数运算和Hadamard乘积的运算求得医疗编码表示。

在本发明实施例中，如图3所示，步骤S24中，组合得到的医疗编码向量h表示为h＝[h_1t，h_2t，…，h_mt]，其中，m为医疗编码的数量，h_lt为第l个医疗编码表示，l≤m。

在本发明中，在本发明中，经过门控神经单元，通过组合医疗编码表示得到医疗编码向量。

在本发明实施例中，如图5所示，步骤S3包括以下子步骤：

S35：根据概率确定目标函数。

在本发明中，由于医疗编码技术在医疗领域中使用时，需要对每个医疗编码的产生给出依据，因此引入注意力机制来计算重要程度并由此得到目标函数。

在本发明实施例中，如图5所示，步骤S31中，相似度s_il的计算公式为：

s_il＝h_lt·c_i

其中，c_i为第i个词的文本表示，h_lt为第l个医疗编码表示；

步骤S32中，相关权重α_il的计算公式为：

a_il＝softmax(s_il)

步骤S33中，重要程度m_l的计算公式为：

步骤S34中，概率

的计算公式为：

其中，

步骤S35中，目标函数L(X，p)的计算公式为：

在本发明中，对每个相关参数给出具体公式，并结合注意力机制得到最后的目标函数。

在本发明实施例中，如图1所示，步骤S4中，采用优化函数Adam降低电子病历和医疗编码的差距。

在本发明中，降低电子病历和医疗编码的差距，用于调整使用本方法过程的经验风险。

采用本发明的编码方法对电子病历和医疗编码进行处理的结果如图6所示。其采用词嵌入的方式对电子病历和医疗编码进行向量化处理，并结合卷积神经网络和门控神经单元进行学习，再利用注意力机制和全连接层进行调整，最终成功实现电子病历ICD自动编码。

本发明的工作原理及过程为：本发明公开了一种基于深度学习的电子病历ICD自动编码方法，首先使用深度学习网络结构，包括跨文本的注意力机制，学习医疗文本与医疗编码的向量表达方式，并找出电子病历与医疗编码的相关性。通过电子医疗文本与医疗编码的相关性对编码进行调整，得出该电子病历的编码。

本发明的有益效果为：本发明的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容，使得不同的自然语言文本按照各自的特性被良好表征；同时使用跨文本注意力机制，提取文本中重要的语句，增加编码结果的可信度。本发明的编码方法为编码员提供编码候选，减少了人工干预，加快编码效率。通过编码，电子病历得到了良好的二次应用，它更有利于医学数据的统计与分析。与现有技术相比，所有电子病历来源于真实的重症监护室病房记录，具有真实性高和可行性强的特点，且本方法具有准确率高，通用性强。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。