CN110895580A

CN110895580A - 一种基于深度学习的icd手术与操作编码自动匹配方法

Info

Publication number: CN110895580A
Application number: CN201911271626.5A
Authority: CN
Inventors: 张述睿; 吴军; 樊昭磊; 张伯政; 张福鑫
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-03-20
Anticipated expiration: 2039-12-12
Also published as: CN110895580B

Abstract

一种基于深度学习的ICD手术与操作编码自动匹配方法，使用了模块化建模的方法，每个模块只完成相对简单的一项任务，大大减小了模型参数的搜寻空间，缩减了所需要的数据量。本方法采用了双向自回归语言模型对自然语言序列进行建模，使用每一条手术描述和每一条ICD编码结合，计算出他们之间的语义空间权重，并使用语义空间权重对手术描述进行重构，最后使用重构之后的手术描述进行ICD编码分类匹配以解决概念拆分的问题，在计算中也使用了ICD手术与操作编码固有的的层级结构进行双向自回归模型建模，融入了业务先验知识。解决了临床中遇到的问题，可以快速、准确地进行ICD编码匹配。

Description

一种基于深度学习的ICD手术与操作编码自动匹配方法

技术领域

本发明涉及医疗技术领域，具体涉及一种基于深度学习的ICD手术与操作编码自动匹配方法。

背景技术

国际疾病分类手术与操作编码(ICD-9-CM-3)是医院病案信息汇总和统计的重要工具，在医院的医疗、研究、管理中起到重要作用。在实际的临床应用中，如何根据电子病历中医务人员录入的手术描述匹配到ICD手术与操作编码，是一件耗时费力的事情，需要大量的病历阅读工作和编码查阅工作。而且在实际的电子病历当中，医务人员录入的手术与操作描述可能会比较简短，也就是在简短的一段描述中含有若干个手术操作类别，所以如何将医务人员录入病历的手术描述进行概念拆分和匹配到标准ICD手术与操作编码是一件漫长而容易出错的事情。而一般的统计学习，机器学习和深度学习分类模型往往无法应对ICD编码这样的超大规模分类问题，因为分类空间过于庞大，使用标注数据直接进行训练往往会产生严重的过拟合或欠拟合，并且无法解决手术描述的概念拆分问题，例如“头面部裂伤清创缝合术”这个手术描述需要拆分为两个ICD手术与操作编码，分别是'86.2201皮肤伤口切除性清创术'和'86.5900x006皮肤缝合术'，一般的分类模型无法找到合理的拆分方法，而且一般的算法需要大量的标注数据，在实际条件下受限于各方面条件获取大量标注数据往往是很困难的事情，而在临床应用中因为医疗工作容错率比较低，模型因为过拟合和欠拟合而产生的错误是无法接受的。

发明内容

本发明为了克服以上技术的不足，提供了一种快速、准确地进行ICD编码匹配的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于深度学习的ICD手术与操作编码自动匹配方法，包括如下步骤：

a)利用医学文本语料进行字向量的预训练，字向量矩阵为Δ，

其中N为字典中字的个数，d为字向量的维度，

为实数空间，Δ∈{δ₁,δ₂,...,δ_n}，δ_i为单个字的字向量，i为单个字的字向量的编号，1≤i≤n，通过公式

计算得到最大值的字向量矩阵

其中P为概率，c_i为自然语言序列中的一个字，

为c_i的上下文，

T为矩阵转置，W为上下文取的窗口范围的字数，

为在W范围内字向量的编号，1≤n≤N,n为正整数；

b)获取医生在电子病历中录入的手术描述，通过索引步骤a)中最大值的字向量矩阵

将电子病历中医生录入的手术描述中的每一个字用字向量h^opt表示，

其中len为电子病历中医生录入的手术描述的字数，

为自然语言序列中的第j个字，j∈{1,2,...,len}；

c)将h^opt进行双向自回归神经网络建模，正向建模顺序为从j＝1到j＝len，反向建模顺序是从j＝len到j＝1，建模完成后输出的正向隐状态序列为

输出的反向隐状态序列为

将正向隐状态序列和反向隐状态序列在d的维度上进行矩阵级联，矩阵级联后进行线性映射，获得

为通过双休自回归神经网络建模后的电子病历中的手术描述，

linear()为线性映射；

d)获取国际疾病分类手术与操作编码中对于每一个标准手术编码的编码描述，通过索引步骤a)中最大值的字向量矩阵

将国际疾病分类手术与操作编码的字向量表示为h^code；

e)将h^code进行双向自回归神经网络建模，正向建模顺序为从j＝1到j＝len，反向建模顺序是从j＝len到j＝1，建模完成后输出的正向隐状态序列为

输出的反向隐状态序列为

为通过双休自回归神经网络建模后的标准手术编码的编码描述，

clen为编码描述的字数；

f)将编码描述

进行树形自回归神经网络建模得到

g)通过公式

计算

中每个字对于

的语义空间权重，

为电子病历中手术描述中第i个字对应的隐状态，

为某个ICD手术编码所对应的编码描述，1≤l≤len，l为正整数，通过公式

计算使用语义空间权重α_i对

进行重构，得到重构后的

重构后的

为m,通过公式p＝σ(Linear(m))对m进行线性映射，线性映射后用sigmoid概率映射函数激活，式中p为介于0到1之间的实数，

Z为ICD手术与操作编码的个数；

h)里通过公式Loss＝-glogp-(1-g)log(1-p)计算模型的损失Loss，

式中g为标记的正确结果，使用梯度下降法使损失最小化。

进一步的，步骤c)中双向自回归神经网络建模的公式为：

c_j＝multiply(τ_j,ρ_j)+multiply(μ_j,c_j-1)、

式中，γ^τ、β^τ、b^τ、γ^μ、β^μ、b^μ、γ^o、β^o、b^o、γ^ρ、β^ρ、b^ρ为自回归神经网络的引入的参数，使用标准正态分布初始化引入的参数，σ为sigmoid概率映射函数，multiply为矩阵元素相乘运算。

进一步的，步骤e)中双向自回归神经网络建模的公式为：

c_j＝multiply(τ_j,ρ_j)+multiply(μ_j,c_j-1)、

进一步的，步骤f)中利用ICD-9-CM-3的树形结构进行树形自回归神经网络建模。本发明的有益效果是：使用了模块化建模的方法，每个模块只完成相对简单的一项任务，大大减小了模型参数的搜寻空间，缩减了所需要的数据量。本方法采用了双向自回归语言模型对自然语言序列进行建模，使用每一条手术描述和每一条ICD编码结合，计算出他们之间的语义空间权重，并使用语义空间权重对手术描述进行重构，最后使用重构之后的手术描述进行ICD编码分类匹配以解决概念拆分的问题，在计算中也使用了ICD手术与操作编码固有的的层级结构进行双向自回归模型建模，融入了业务先验知识。解决了临床中遇到的问题，可以快速、准确地进行ICD编码匹配。

具体实施方式

下面对本发明做进一步说明。

a)利用医学文本语料进行字向量的预训练，字向量矩阵为Δ，

其中N为字典中字的个数，d为字向量的维度，

计算得到最大值的字向量矩阵

argmax(f)表示指的是求可以使某个函数f取最大值所对应的f函数的参数的集合。其中P为概率，c_i为自然语言序列中的一个字，

为c_i的上下文，

T为矩阵转置，W为上下文取的窗口范围的字数，

为在W范围内字向量的编号，1≤n≤N,n为正整数。

b)获取医生在电子病历中录入的手术描述，在本发明中使用opt来表示。通过索引步骤a)中最大值的字向量矩阵

其中len为电子病历中医生录入的手术描述的字数，d为字向量的维度，

为自然语言序列中的第j个字或称之为第j时刻，j∈{1,2,...,len}是j的取值集合。

输出的反向隐状态序列为

linear()为线性映射。

d)获取国际疾病分类手术与操作编码中对于每一个标准手术编码的编码描述，也就是ICD-9-CM-3编码中对于每一个标准手术编码的编码描述，通过索引步骤a)中最大值的字向量矩阵

将国际疾病分类手术与操作编码的字向量表示为h^code；

输出的反向隐状态序列为

clen为编码描述的字数，在clen的维度求平均，也就是获取编码描述在语义空间内的中心表达，经过取平均后clen的维度被消掉，最终得到

f)将编码描述

进行树形自回归神经网络建模得到

g)通过公式

计算

中每个字对于

的语义空间权重，

为电子病历中手术描述中第i个字对应的隐状态，

计算使用语义空间权重α_i对

进行重构，得到重构后的

重构后的

Z为ICD手术与操作编码的个数。

一个手术描述对于每个ICD手术与操作编码产生一个预测结果，所以

Z为ICD手术与操作编码的个数，我们需要对电子病历中的手术描述和ICD手术编码的编码描述进行两两配对，注意该计算方式，可以使一条电子病历中医生录入的手术描述匹配到若干个ICD编码，可以解决概念拆分的问题。而且医生录入的手术描述经过语义空间重构，可以得到手术描述中每一个字对于匹配到某个编码的重要性。

例1:

输入到模型的手术描述：“头面部裂伤清创缝合术”

模型的输出通过取阈值

并做阈值截断，之后模型输出小于

的结果变成0，大于或等于

的变成1，

是介于0到1之间实数，是一个超参数，其获取方式是调节

以使验证数据里面的ICD编码的匹配性能达到最优，之后通过取阈值的方法在p中获取到大于

的索引，并找到与索引对应的编码，并回溯语义空间权重α，可以得到：

“86.2201皮肤伤口切除性清创术”

手术描述	头	面	部	裂	伤	清	创	缝	合	术
											Alpha	0.07	0.06	0.08	0.15	0.11	0.23	0.19	0.02	0.03	0.08

可见对于86.2201这个编码，“清创”这两个字的语义空间权重较高。

“86.5900x006皮肤缝合术”

手术描述	头	面	部	裂	伤	清	创	缝	合	术
											Alpha	0.11	0.09	0.05	0.13	0.15	0.04	0.03	0.20	0.17	0.03

可见对于86.2201这个编码，“缝合”这两个字的语义空间权重较高。

h)里通过公式Loss＝-glogp-(1-g)log(1-p)计算模型的损失Loss，

式中g为标记的正确结果，使用梯度下降法使损失最小化。

通过以上的ICD编码主动匹配算法使用了模块化建模的方法，每个模块只完成相对简单的一项任务，大大减小了模型参数的搜寻空间，缩减了所需要的数据量。本方法采用了双向自回归语言模型对自然语言序列进行建模，使用每一条手术描述和每一条ICD编码结合，计算出他们之间的语义空间权重，并使用语义空间权重对手术描述进行重构，最后使用重构之后的手术描述进行ICD编码分类匹配以解决概念拆分的问题，在计算中也使用了ICD手术与操作编码固有的的层级结构进行双向自回归模型建模，融入了业务先验知识。解决了临床中遇到的问题，可以快速、准确地进行ICD编码匹配。

本方法的实际的手术描述和拆分和匹配效果如下：输入到模型的手术描述：“头面部裂伤清创缝合术”

模型输出的拆分后并匹配好的ICD手术与操作编码：

“86.2201皮肤伤口切除性清创术”

手术描述	头	面	部	裂	伤	清	创	缝	合	术
											α	0.07	0.06	0.08	0.15	0.11	0.23	0.19	0.02	0.03	0.08

“86.5900x006皮肤缝合术”

手术描述	头	面	部	裂	伤	清	创	缝	合	术
											α	0.11	0.09	0.05	0.13	0.15	0.04	0.03	0.20	0.17	0.03

输入到模型的手术描述：“全子宫切除+左侧附件切除术”

模型输出的拆分后并匹配好的ICD手术与操作编码：

“68.4901经腹全子宫切除术”

“65.4900x001单侧输卵管-卵巢切除术”

进一步的，步骤c)中双向自回归神经网络建模的公式为：

c_j＝multiply(τ_j,ρ_j)+multiply(μ_j,c_j-1)、

式中，γ^τ、β^τ、b^τ、γ^μ、β^μ、b^μ、γ^o、β^o、b^o、γ^ρ、β^ρ、b^ρ为自回归神经网络的引入的参数，使用标准正态分布初始化引入的参数，τ_j、μ_j、o_j、ρ_j是自回归神经网络的中间计算步骤的结果，双向自回归指的是以不同的方向进行自回归运算，每个方向的，每个方向的γ^τ、β^τ、b^τ、γ^μ、β^μ、b^μ、γ^o、β^o、b^o、γ^ρ、β^ρ、b^ρ参数不同。σ为sigmoid概率映射函数，multiply为矩阵元素相乘运算。

进一步的，步骤e)中双向自回归神经网络建模的公式为：

c_j＝multiply(τ_j,ρ_j)+multiply(μ_j,c_j-1)、

式中，γ^τ、β^τ、b^τ、γ^μ、β^μ、b^μ、γ^o、β^o、b^o、γ^ρ、β^ρ、b^ρ为自回归神经网络的引入的参数，τ_j、μ_j、o_j、ρ_j是自回归神经网络的中间计算步骤的结果，双向自回归指的是以不同的方向进行自回归运算，每个方向的，每个方向的γ^τ、β^τ、b^τ、γ^μ、β^μ、b^μ、γ^o、β^o、b^o、γ^ρ、β^ρ、b^ρ参数不同，使用标准正态分布初始化引入的参数，σ为sigmoid概率映射函数，multiply为矩阵元素相乘运算。

进一步的，步骤f)中利用ICD-9-CM-3的树形结构进行树形自回归神经网络建模。树形结构一共分为5层：分别是根结点—章节—类目—亚目—细目。树形双向自回归建模的方向是从细目到根结点，再从根节点到细目，也就是从树形结构的叶子结点一直到根结点然后再返回，树形双向自回归神经网络的结构和步骤三中的序列双向自回归神经网络的结构相同，除了从子节点向父节点前进时，例如从细目向亚目的方向前进时，这里细目是子节点，亚目是父节点。