CN111402974A - 一种基于深度学习的电子病历icd自动编码方法 - Google Patents
一种基于深度学习的电子病历icd自动编码方法 Download PDFInfo
- Publication number
- CN111402974A CN111402974A CN202010151556.6A CN202010151556A CN111402974A CN 111402974 A CN111402974 A CN 111402974A CN 202010151556 A CN202010151556 A CN 202010151556A CN 111402974 A CN111402974 A CN 111402974A
- Authority
- CN
- China
- Prior art keywords
- medical
- vector
- coding
- text
- medical record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 132
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000001537 neural effect Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 208000015897 writing disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:S1:将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;S2:学习电子病历的信息,得到文本向量;学习医疗编码的信息,得到医疗编码向量;S3:计算目标函数;S4:根据目标函数减低电子病历和医疗编码的差距,完成电子病历ICD自动编码。本发明的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。
Description
技术领域
本发明属于医疗数据处理技术领域,具体涉及一种基于深度学习的电子病历ICD自动编码方法。
背景技术
医疗领域中的病历是自由文本,由医生书写记录患者的病程,包括病人本人或他人对病情的主观描述,医务人员对病人的客观检查结果,以及医务人员对病情的分析结果。电子病历中包含的临床信息具有很高的实际应用价值,如病人的健康状况跟踪、疾病的流行性分析、医疗服务质量以及医疗决策支持等。但这些信息难以被直接利用,因为自由文本的记录和储存方式很难进行总结归类。医疗领域通用的办法是将文本映射到一个标准的医疗术语中。现在通用的编码系统是国际疾病分类系统,也就是ICD。ICD可对各种疾病做出国际通用的统一分类。医院中病案室的编码员为每一份病案进行ICD编码,编码范围主要集中在诊断、损伤、病理诊断和手术等。现在中国采取医生通过HIS系统选取编码,再由编码员校对之后进行病案编码。HIS系统模式上主要采取匹配的方法,编码完全依靠于医生给出的诊断,而不分析病历文本。这样的编码系统依然需要医生选取合适的编码,不够智能,这大大增加了医生的工作量。并且由于编码库的局限和诊断名称与医生书写习惯的偏差,往往导致编码错误和诊断填写不准确。因此,编码员的校对十分重要。如上所述,ICD编码任务的难点主要为:编码需要编码员阅读整篇病案,文本长且有许多缩写、误写等,增加了校对的难度;编码员需要运用编码规则和医学术语等大量的知识,理解医生在书写病历时的真正意图,这样的高素质人才的培养需要数十年的时间,十分匮乏;以及人工编码效率比较低且容易出现错误。
基于医疗文本的积累速度越来越快,医院信息化系统的普及程度越来越高,ICD编码的难点与辅助编码系统尚不完善的现状,研究自动ICD编码已成医疗与信息行业关注的焦点。基于以上情况,本发明提出了一种基于深度学习的电子病历ICD自动编码方法。
发明内容
本发明的目的是为了解决电子病历使用不便的问题,提出了一种基于深度学习的电子病历ICD自动编码方法。
本发明的技术方案是:一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
本发明的有益效果是:本发明的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容,使得不同的自然语言文本按照各自的特性被良好表征;同时使用跨文本注意力机制,提取文本中重要的语句,增加编码结果的可信度。本发明的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。
进一步地,步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
上述进一步方案的有益效果是:在本发明中,将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量,便于后续步骤使用。
进一步地,步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
上述进一步方案的有益效果是:在本发明中,采用向量表示技术将文本序列向量化,便于后续步骤挖掘电子病历和医疗编码的文本内容。
进一步地,步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
上述进一步方案的有益效果是:在本发明中,采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息,采用门控神经单元学习医疗编码的语义信息。
进一步地,步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;
步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
上述进一步方案的有益效果是:在本发明中,步骤S21和步骤S22中,采用卷积操作处理电子病历的文本。
进一步地,步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;
S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:
其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,为Hadamard乘积,tanh(·)为双曲正切函数运算;
S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:
上述进一步方案的有益效果是:在本发明中,门控神经单元利用更新门和重置门控制医疗编码的信息流,通过双曲正切函数运算和Hadamard乘积的运算求得医疗编码表示。
进一步地,步骤S24中,组合得到的医疗编码向量h表示为h=[h1t,h2t,…,hmt],其中,m为医疗编码的数量,hlt为第l个医疗编码表示,l≤m。
上述进一步方案的有益效果是:在本发明中,在本发明中,经过门控神经单元,通过组合医疗编码表示得到医疗编码向量。
进一步地,步骤S3包括以下子步骤:
S31:采用注意力机制,计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度;
S32:根据相似度计算文本表示和医疗编码表示之间的相关权重;
S33:根据相关权重计算文本表示和医疗编码表示之间的重要程度;
S34:根据重要程度计算文本表示和医疗编码表示之间的概率;
S35:根据概率确定目标函数。
上述进一步方案的有益效果是:在本发明中,由于医疗编码技术在医疗领域中使用时,需要对每个医疗编码的产生给出依据,因此引入注意力机制来计算重要程度并由此得到目标函数。
进一步地,步骤S31中,相似度sil的计算公式为:
sil=hlt·ci
其中,ci为第i个词的文本表示,hlt为第l个医疗编码表示;
步骤S32中,相关权重αil的计算公式为:
ail=softmax(sil)
其中,sil为文本表示和医疗编码向量之间的相似度,softmax(·)为softmax函数运算;
步骤S33中,重要程度ml的计算公式为:
其中,i为电子病历中第i个词,n为电子病历的文本长度,i≤n,αil为文本表示和医疗编码向量之间的相关权重,ci为第i个词的文本表示;
步骤S35中,目标函数L(X,p)的计算公式为:
上述进一步方案的有益效果是:在本发明中,对每个相关参数给出具体公式,并结合注意力机制得到最后的目标函数。
进一步地,步骤S4中,采用优化函数Adam降低电子病历和医疗编码的差距。
上述进一步方案的有益效果是:在本发明中,降低电子病历和医疗编码的差距,用于调整使用本方法过程的经验风险。
附图说明
图1为电子病历ICD自动编码方法的流程图;
图2为步骤S1的流程图;
图3为步骤S2的流程图;
图4为步骤S23的流程图;
图5为步骤S3的流程图;
图6为采用本方法的实施例结构图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
在本发明实施例中,如图2所示,步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
在本发明中,将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量,便于后续步骤使用。
在本发明实施例中,如图2所示,步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
在本发明中,采用向量表示技术将文本序列向量化,便于后续步骤挖掘电子病历和医疗编码的文本内容。
在本发明实施例中,如图3所示,步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
在本发明中,采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息,采用门控神经单元学习医疗编码的语义信息。
在本发明实施例中,如图3所示,步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程,通常使用tanh方程,因为相邻k个词形成窗口,所以卷积核尺寸大小为k;
步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
在本发明中,步骤S21和步骤S22中,采用卷积操作处理电子病历的文本。在实际应用中,为了获取电子病历文本的更多语义信息,需要在卷积操作完成后,在文本表示的两边进行补零,使得文本表示和文本向量的长度相同。
在本发明实施例中,如图4所示,步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;
S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:
其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,为Hadamard乘积,tanh(·)为双曲正切函数运算;
S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:
在本发明中,门控神经单元利用更新门和重置门控制医疗编码的信息流,通过双曲正切函数运算和Hadamard乘积的运算求得医疗编码表示。
在本发明实施例中,如图3所示,步骤S24中,组合得到的医疗编码向量h表示为h=[h1t,h2t,…,hmt],其中,m为医疗编码的数量,hlt为第l个医疗编码表示,l≤m。
在本发明中,在本发明中,经过门控神经单元,通过组合医疗编码表示得到医疗编码向量。
在本发明实施例中,如图5所示,步骤S3包括以下子步骤:
S31:采用注意力机制,计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度;
S32:根据相似度计算文本表示和医疗编码表示之间的相关权重;
S33:根据相关权重计算文本表示和医疗编码表示之间的重要程度;
S34:根据重要程度计算文本表示和医疗编码表示之间的概率;
S35:根据概率确定目标函数。
在本发明中,由于医疗编码技术在医疗领域中使用时,需要对每个医疗编码的产生给出依据,因此引入注意力机制来计算重要程度并由此得到目标函数。
在本发明实施例中,如图5所示,步骤S31中,相似度sil的计算公式为:
sil=hlt·ci
其中,ci为第i个词的文本表示,hlt为第l个医疗编码表示;
步骤S32中,相关权重αil的计算公式为:
ail=softmax(sil)
其中,sil为文本表示和医疗编码向量之间的相似度,softmax(·)为softmax函数运算;
步骤S33中,重要程度ml的计算公式为:
其中,i为电子病历中第i个词,n为电子病历的文本长度,i≤n,αil为文本表示和医疗编码向量之间的相关权重,ci为第i个词的文本表示;
步骤S35中,目标函数L(X,p)的计算公式为:
在本发明中,对每个相关参数给出具体公式,并结合注意力机制得到最后的目标函数。
在本发明实施例中,如图1所示,步骤S4中,采用优化函数Adam降低电子病历和医疗编码的差距。
在本发明中,降低电子病历和医疗编码的差距,用于调整使用本方法过程的经验风险。
采用本发明的编码方法对电子病历和医疗编码进行处理的结果如图6所示。其采用词嵌入的方式对电子病历和医疗编码进行向量化处理,并结合卷积神经网络和门控神经单元进行学习,再利用注意力机制和全连接层进行调整,最终成功实现电子病历ICD自动编码。
本发明的工作原理及过程为:本发明公开了一种基于深度学习的电子病历ICD自动编码方法,首先使用深度学习网络结构,包括跨文本的注意力机制,学习医疗文本与医疗编码的向量表达方式,并找出电子病历与医疗编码的相关性。通过电子医疗文本与医疗编码的相关性对编码进行调整,得出该电子病历的编码。
本发明的有益效果为:本发明的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容,使得不同的自然语言文本按照各自的特性被良好表征;同时使用跨文本注意力机制,提取文本中重要的语句,增加编码结果的可信度。本发明的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种基于深度学习的电子病历ICD自动编码方法,其特征在于,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
2.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
3.根据权利要求2所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
所述步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
所述步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
所述步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
4.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
5.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;
所述步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
6.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;
S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:
其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,为Hadamard乘积,tanh(·)为双曲正切函数运算;
S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:
7.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S24中,组合得到的医疗编码向量h表示为h=[h1t,h2t,…,hmt],其中,m为医疗编码的数量,hlt为第l个医疗编码表示,l≤m。
8.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S3包括以下子步骤:
S31:计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度;
S32:根据相似度计算文本表示和医疗编码表示之间的相关权重;
S33:根据相关权重计算文本表示和医疗编码表示之间的重要程度;
S34:根据重要程度计算文本表示和医疗编码表示之间的概率;
S35:根据概率确定目标函数。
9.根据权利要求8所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S31中,相似度sil的计算公式为:
sil=hlt·ci
其中,ci为第i个词的文本表示,hlt为第l个医疗编码表示;
所述步骤S32中,相关权重αil的计算公式为:
ail=softmax(sil)
其中,sil为文本表示和医疗编码向量之间的相似度,softmax(·)为softmax函数运算;
所述步骤S33中,重要程度ml的计算公式为:
其中,i为电子病历中第i个词,n为电子病历的文本长度,i≤n,αil为文本表示和医疗编码向量之间的相关权重,ci为第i个词的文本表示;
所述步骤S35中,目标函数L(X,p)的计算公式为:
10.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S4中,采用优化函数Adam降低电子病历和医疗编码的差距。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151556.6A CN111402974A (zh) | 2020-03-06 | 2020-03-06 | 一种基于深度学习的电子病历icd自动编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151556.6A CN111402974A (zh) | 2020-03-06 | 2020-03-06 | 一种基于深度学习的电子病历icd自动编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111402974A true CN111402974A (zh) | 2020-07-10 |
Family
ID=71413238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151556.6A Pending CN111402974A (zh) | 2020-03-06 | 2020-03-06 | 一种基于深度学习的电子病历icd自动编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402974A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382272A (zh) * | 2020-03-09 | 2020-07-07 | 西南交通大学 | 一种基于知识图谱的电子病历icd自动编码方法 |
CN112599213A (zh) * | 2021-03-04 | 2021-04-02 | 联仁健康医疗大数据科技股份有限公司 | 一种分类编码确定方法、装置、设备及存储介质 |
CN112635001A (zh) * | 2020-12-21 | 2021-04-09 | 山东众阳健康科技集团有限公司 | 一种icd编码数据处理方法、系统、存储介质及设备 |
CN112686306A (zh) * | 2020-12-29 | 2021-04-20 | 山东众阳健康科技集团有限公司 | 基于图神经网络的icd手术分类自动匹配方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN109994216A (zh) * | 2019-03-21 | 2019-07-09 | 上海市第六人民医院 | 一种基于机器学习的icd智能诊断编码方法 |
CN110491465A (zh) * | 2019-08-20 | 2019-11-22 | 山东众阳健康科技集团有限公司 | 基于深度学习的疾病分类编码方法、系统、设备及介质 |
-
2020
- 2020-03-06 CN CN202010151556.6A patent/CN111402974A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN109994216A (zh) * | 2019-03-21 | 2019-07-09 | 上海市第六人民医院 | 一种基于机器学习的icd智能诊断编码方法 |
CN110491465A (zh) * | 2019-08-20 | 2019-11-22 | 山东众阳健康科技集团有限公司 | 基于深度学习的疾病分类编码方法、系统、设备及介质 |
Non-Patent Citations (4)
Title |
---|
JIE CHEN等: "A Multi-channel Convolutional Neural Network for ICD Coding", 《2019 IEEE 14TH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS AND KNOWLEDGE ENGINEERING (ISKE)》 * |
SERENA JEBLEE I等: "Toronto CL at CLEF 2018 eHealth Task 1:Multi-lingual ICD-10 Coding using an Ensemble of Recurrent and Convolutional Neural Networks", 《CLEF2018-CONFERENCE AND LABS OF EVALUATION FORUM》 * |
ZHEN-JIE YAO等: "Applying Deep Learning to Individual and Community Health Monitoring Data:A Survey", 《INTERNATIONAL JOURNAL OF AUTOMATION AND COMPUTING》 * |
蒋友好: "深度电子病历分析研究综述", 《电脑知识与技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382272A (zh) * | 2020-03-09 | 2020-07-07 | 西南交通大学 | 一种基于知识图谱的电子病历icd自动编码方法 |
CN111382272B (zh) * | 2020-03-09 | 2022-11-01 | 西南交通大学 | 一种基于知识图谱的电子病历icd自动编码方法 |
CN112635001A (zh) * | 2020-12-21 | 2021-04-09 | 山东众阳健康科技集团有限公司 | 一种icd编码数据处理方法、系统、存储介质及设备 |
CN112635001B (zh) * | 2020-12-21 | 2023-04-07 | 山东众阳健康科技集团有限公司 | 一种icd编码数据处理方法、系统、存储介质及设备 |
CN112686306A (zh) * | 2020-12-29 | 2021-04-20 | 山东众阳健康科技集团有限公司 | 基于图神经网络的icd手术分类自动匹配方法及系统 |
CN112686306B (zh) * | 2020-12-29 | 2023-03-24 | 山东众阳健康科技集团有限公司 | 基于图神经网络的icd手术分类自动匹配方法及系统 |
CN112599213A (zh) * | 2021-03-04 | 2021-04-02 | 联仁健康医疗大数据科技股份有限公司 | 一种分类编码确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
Zhu et al. | Electrocardiogram generation with a bidirectional LSTM-CNN generative adversarial network | |
CN111402974A (zh) | 一种基于深度学习的电子病历icd自动编码方法 | |
CN111462896B (zh) | 一种基于病案的实时智能辅助icd编码系统和方法 | |
Habibie et al. | A recurrent variational autoencoder for human motion synthesis | |
CN112069302B (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN112149414B (zh) | 文本相似度确定方法、装置、设备及存储介质 | |
CN112529857B (zh) | 基于目标检测与策略梯度的超声图像诊断报告生成方法 | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN110889865A (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
CN112052889B (zh) | 基于双门控递归单元解码的喉镜图像识别方法 | |
CN115391494B (zh) | 中医症候智能识别方法及装置 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN113724359A (zh) | 一种基于Transformer的CT报告生成方法 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN114757188A (zh) | 一种基于生成对抗网络的规范医疗文本改写方法 | |
Komura et al. | A recurrent variational autoencoder for human motion synthesis | |
CN111767744B (zh) | 文本风格迁移系统的训练方法及装置 | |
CN116843995A (zh) | 细胞影像学预训练模型构建方法和装置 | |
CN111523320A (zh) | 一种基于深度学习的中文病案分词方法 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 | |
CN113488165B (zh) | 基于知识图谱的文本匹配方法、装置、设备以及存储介质 | |
CN115295133A (zh) | 一种面向手术操作的编码校验方法 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 | |
CN114912512A (zh) | 一种对图像描述的结果进行自动评估的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |