CN111402974A - 一种基于深度学习的电子病历icd自动编码方法 - Google Patents

一种基于深度学习的电子病历icd自动编码方法 Download PDF

Info

Publication number
CN111402974A
CN111402974A CN202010151556.6A CN202010151556A CN111402974A CN 111402974 A CN111402974 A CN 111402974A CN 202010151556 A CN202010151556 A CN 202010151556A CN 111402974 A CN111402974 A CN 111402974A
Authority
CN
China
Prior art keywords
medical
vector
coding
text
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010151556.6A
Other languages
English (en)
Inventor
滕飞
陈婕
马征
黄路非
陈俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202010151556.6A priority Critical patent/CN111402974A/zh
Publication of CN111402974A publication Critical patent/CN111402974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:S1:将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;S2:学习电子病历的信息,得到文本向量;学习医疗编码的信息,得到医疗编码向量;S3:计算目标函数;S4:根据目标函数减低电子病历和医疗编码的差距,完成电子病历ICD自动编码。本发明的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。

Description

一种基于深度学习的电子病历ICD自动编码方法
技术领域
本发明属于医疗数据处理技术领域,具体涉及一种基于深度学习的电子病历ICD自动编码方法。
背景技术
医疗领域中的病历是自由文本,由医生书写记录患者的病程,包括病人本人或他人对病情的主观描述,医务人员对病人的客观检查结果,以及医务人员对病情的分析结果。电子病历中包含的临床信息具有很高的实际应用价值,如病人的健康状况跟踪、疾病的流行性分析、医疗服务质量以及医疗决策支持等。但这些信息难以被直接利用,因为自由文本的记录和储存方式很难进行总结归类。医疗领域通用的办法是将文本映射到一个标准的医疗术语中。现在通用的编码系统是国际疾病分类系统,也就是ICD。ICD可对各种疾病做出国际通用的统一分类。医院中病案室的编码员为每一份病案进行ICD编码,编码范围主要集中在诊断、损伤、病理诊断和手术等。现在中国采取医生通过HIS系统选取编码,再由编码员校对之后进行病案编码。HIS系统模式上主要采取匹配的方法,编码完全依靠于医生给出的诊断,而不分析病历文本。这样的编码系统依然需要医生选取合适的编码,不够智能,这大大增加了医生的工作量。并且由于编码库的局限和诊断名称与医生书写习惯的偏差,往往导致编码错误和诊断填写不准确。因此,编码员的校对十分重要。如上所述,ICD编码任务的难点主要为:编码需要编码员阅读整篇病案,文本长且有许多缩写、误写等,增加了校对的难度;编码员需要运用编码规则和医学术语等大量的知识,理解医生在书写病历时的真正意图,这样的高素质人才的培养需要数十年的时间,十分匮乏;以及人工编码效率比较低且容易出现错误。
基于医疗文本的积累速度越来越快,医院信息化系统的普及程度越来越高,ICD编码的难点与辅助编码系统尚不完善的现状,研究自动ICD编码已成医疗与信息行业关注的焦点。基于以上情况,本发明提出了一种基于深度学习的电子病历ICD自动编码方法。
发明内容
本发明的目的是为了解决电子病历使用不便的问题,提出了一种基于深度学习的电子病历ICD自动编码方法。
本发明的技术方案是:一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
本发明的有益效果是:本发明的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容,使得不同的自然语言文本按照各自的特性被良好表征;同时使用跨文本注意力机制,提取文本中重要的语句,增加编码结果的可信度。本发明的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。
进一步地,步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
上述进一步方案的有益效果是:在本发明中,将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量,便于后续步骤使用。
进一步地,步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
上述进一步方案的有益效果是:在本发明中,采用向量表示技术将文本序列向量化,便于后续步骤挖掘电子病历和医疗编码的文本内容。
进一步地,步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
上述进一步方案的有益效果是:在本发明中,采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息,采用门控神经单元学习医疗编码的语义信息。
进一步地,步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;
步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
上述进一步方案的有益效果是:在本发明中,步骤S21和步骤S22中,采用卷积操作处理电子病历的文本。
进一步地,步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;
S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:
Figure BDA0002402612320000051
其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,
Figure BDA0002402612320000052
为Hadamard乘积,tanh(·)为双曲正切函数运算;
S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:
Figure BDA0002402612320000053
其中,z为更新门,sj为当前时刻的记忆内容,ht-1为当前医疗编码的先前隐藏状态,
Figure BDA0002402612320000054
为Hadamard乘积。
上述进一步方案的有益效果是:在本发明中,门控神经单元利用更新门和重置门控制医疗编码的信息流,通过双曲正切函数运算和Hadamard乘积的运算求得医疗编码表示。
进一步地,步骤S24中,组合得到的医疗编码向量h表示为h=[h1t,h2t,…,hmt],其中,m为医疗编码的数量,hlt为第l个医疗编码表示,l≤m。
上述进一步方案的有益效果是:在本发明中,在本发明中,经过门控神经单元,通过组合医疗编码表示得到医疗编码向量。
进一步地,步骤S3包括以下子步骤:
S31:采用注意力机制,计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度;
S32:根据相似度计算文本表示和医疗编码表示之间的相关权重;
S33:根据相关权重计算文本表示和医疗编码表示之间的重要程度;
S34:根据重要程度计算文本表示和医疗编码表示之间的概率;
S35:根据概率确定目标函数。
上述进一步方案的有益效果是:在本发明中,由于医疗编码技术在医疗领域中使用时,需要对每个医疗编码的产生给出依据,因此引入注意力机制来计算重要程度并由此得到目标函数。
进一步地,步骤S31中,相似度sil的计算公式为:
sil=hlt·ci
其中,ci为第i个词的文本表示,hlt为第l个医疗编码表示;
步骤S32中,相关权重αil的计算公式为:
ail=softmax(sil)
其中,sil为文本表示和医疗编码向量之间的相似度,softmax(·)为softmax函数运算;
步骤S33中,重要程度ml的计算公式为:
Figure BDA0002402612320000061
其中,i为电子病历中第i个词,n为电子病历的文本长度,i≤n,αil为文本表示和医疗编码向量之间的相关权重,ci为第i个词的文本表示;
步骤S34中,概率
Figure BDA0002402612320000062
的计算公式为:
Figure BDA0002402612320000063
其中,
Figure BDA0002402612320000064
为注意力机制全连接层的权重矩阵,bl为注意力机制全连接层的偏置向量,ml为文本表示和医疗编码向量之间的重要程度;
步骤S35中,目标函数L(X,p)的计算公式为:
Figure BDA0002402612320000065
其中,l为第l个医疗编码,m为医疗编码的数量,yl为第l个医疗编码的真实标签,
Figure BDA0002402612320000071
为文本表示和医疗编码表示之间的概率,λ为L2正则化的超参数,γ为所提出医疗编码模型的所有参数,l≤m。
上述进一步方案的有益效果是:在本发明中,对每个相关参数给出具体公式,并结合注意力机制得到最后的目标函数。
进一步地,步骤S4中,采用优化函数Adam降低电子病历和医疗编码的差距。
上述进一步方案的有益效果是:在本发明中,降低电子病历和医疗编码的差距,用于调整使用本方法过程的经验风险。
附图说明
图1为电子病历ICD自动编码方法的流程图;
图2为步骤S1的流程图;
图3为步骤S2的流程图;
图4为步骤S23的流程图;
图5为步骤S3的流程图;
图6为采用本方法的实施例结构图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于深度学习的电子病历ICD自动编码方法,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
在本发明实施例中,如图2所示,步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
在本发明中,将电子病历和医疗编码的每个词映射为一个由词向量与位置向量拼接而成的低维向量,便于后续步骤使用。
在本发明实施例中,如图2所示,步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
在本发明中,采用向量表示技术将文本序列向量化,便于后续步骤挖掘电子病历和医疗编码的文本内容。
在本发明实施例中,如图3所示,步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
在本发明中,采用卷积循环神经网络学习电子病历的局部上下文信息与全局语义信息,采用门控神经单元学习医疗编码的语义信息。
在本发明实施例中,如图3所示,步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程,通常使用tanh方程,因为相邻k个词形成窗口,所以卷积核尺寸大小为k;
步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
在本发明中,步骤S21和步骤S22中,采用卷积操作处理电子病历的文本。在实际应用中,为了获取电子病历文本的更多语义信息,需要在卷积操作完成后,在文本表示的两边进行补零,使得文本表示和文本向量的长度相同。
在本发明实施例中,如图4所示,步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;
S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:
Figure BDA0002402612320000101
其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,
Figure BDA0002402612320000102
为Hadamard乘积,tanh(·)为双曲正切函数运算;
S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:
Figure BDA0002402612320000103
其中,z为更新门,sj为当前时刻的记忆内容,ht-1为当前医疗编码的先前隐藏状态,
Figure BDA0002402612320000104
为Hadamard乘积。
在本发明中,门控神经单元利用更新门和重置门控制医疗编码的信息流,通过双曲正切函数运算和Hadamard乘积的运算求得医疗编码表示。
在本发明实施例中,如图3所示,步骤S24中,组合得到的医疗编码向量h表示为h=[h1t,h2t,…,hmt],其中,m为医疗编码的数量,hlt为第l个医疗编码表示,l≤m。
在本发明中,在本发明中,经过门控神经单元,通过组合医疗编码表示得到医疗编码向量。
在本发明实施例中,如图5所示,步骤S3包括以下子步骤:
S31:采用注意力机制,计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度;
S32:根据相似度计算文本表示和医疗编码表示之间的相关权重;
S33:根据相关权重计算文本表示和医疗编码表示之间的重要程度;
S34:根据重要程度计算文本表示和医疗编码表示之间的概率;
S35:根据概率确定目标函数。
在本发明中,由于医疗编码技术在医疗领域中使用时,需要对每个医疗编码的产生给出依据,因此引入注意力机制来计算重要程度并由此得到目标函数。
在本发明实施例中,如图5所示,步骤S31中,相似度sil的计算公式为:
sil=hlt·ci
其中,ci为第i个词的文本表示,hlt为第l个医疗编码表示;
步骤S32中,相关权重αil的计算公式为:
ail=softmax(sil)
其中,sil为文本表示和医疗编码向量之间的相似度,softmax(·)为softmax函数运算;
步骤S33中,重要程度ml的计算公式为:
Figure BDA0002402612320000111
其中,i为电子病历中第i个词,n为电子病历的文本长度,i≤n,αil为文本表示和医疗编码向量之间的相关权重,ci为第i个词的文本表示;
步骤S34中,概率
Figure BDA0002402612320000112
的计算公式为:
Figure BDA0002402612320000121
其中,
Figure BDA0002402612320000122
为注意力机制全连接层的权重矩阵,bl为注意力机制全连接层的偏置向量,ml为文本表示和医疗编码向量之间的重要程度;
步骤S35中,目标函数L(X,p)的计算公式为:
Figure BDA0002402612320000123
其中,l为第l个医疗编码,m为医疗编码的数量,yl为第l个医疗编码的真实标签,
Figure BDA0002402612320000124
为文本表示和医疗编码表示之间的概率,λ为L2正则化的超参数,γ为所提出医疗编码模型的所有参数,l≤m。
在本发明中,对每个相关参数给出具体公式,并结合注意力机制得到最后的目标函数。
在本发明实施例中,如图1所示,步骤S4中,采用优化函数Adam降低电子病历和医疗编码的差距。
在本发明中,降低电子病历和医疗编码的差距,用于调整使用本方法过程的经验风险。
采用本发明的编码方法对电子病历和医疗编码进行处理的结果如图6所示。其采用词嵌入的方式对电子病历和医疗编码进行向量化处理,并结合卷积神经网络和门控神经单元进行学习,再利用注意力机制和全连接层进行调整,最终成功实现电子病历ICD自动编码。
本发明的工作原理及过程为:本发明公开了一种基于深度学习的电子病历ICD自动编码方法,首先使用深度学习网络结构,包括跨文本的注意力机制,学习医疗文本与医疗编码的向量表达方式,并找出电子病历与医疗编码的相关性。通过电子医疗文本与医疗编码的相关性对编码进行调整,得出该电子病历的编码。
本发明的有益效果为:本发明的电子病历ICD自动编码方法使用卷积神经网络与门控神经单元学习电子病历文本与医疗编码描述的相关内容,使得不同的自然语言文本按照各自的特性被良好表征;同时使用跨文本注意力机制,提取文本中重要的语句,增加编码结果的可信度。本发明的编码方法为编码员提供编码候选,减少了人工干预,加快编码效率。通过编码,电子病历得到了良好的二次应用,它更有利于医学数据的统计与分析。与现有技术相比,所有电子病历来源于真实的重症监护室病房记录,具有真实性高和可行性强的特点,且本方法具有准确率高,通用性强。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种基于深度学习的电子病历ICD自动编码方法,其特征在于,包括以下步骤:
S1:采用向量表示技术将电子病历与医疗编码分别进行向量化,得到病历特征向量和医疗编码特征向量;
S2:采用卷积循环神经网络学习病历特征向量中电子病历的信息,得到文本向量;采用门控神经单元学习医疗编码特征向量中医疗编码的信息,得到医疗编码向量;
S3:采用注意力机制,根据文本向量和医疗编码向量计算目标函数;
S4:根据目标函数降低电子病历和医疗编码的差距,完成电子病历ICD自动编码。
2.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S1包括以下子步骤:
S11:对电子病历的每个词进行词嵌入,得到每个词的向量表示;
S12:将每个词的向量表示垂直拼接,得到病历特征向量;
S13:基于病历特征向量,对医疗编码的每个编码描述进行词嵌入,得到每个医疗编码后的向量;
S14:将每个医疗编码后的向量进行垂直拼接,得到医疗编码特征向量。
3.根据权利要求2所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S11中,每个词的向量表示为xi,向量表示的维度范围为[100,500];
所述步骤S12中,病历特征向量表示为X=[x1,x2,…,xn],其中,xi为电子病历中第i个词的向量表示,n为电子病历的文本长度,i≤n;
所述步骤S13中,每个医疗编码后的向量表示为dp:t=[d1,d2,…dt],其中,dp为医疗编码的第p个词,t为医疗编码的文本长度,p=1,2,...,t;
所述步骤S14中,医疗编码特征向量表示为D=[d1:t,d2:t,…,dm:t],其中,dq:t为第q个医疗编码后的向量,m为医疗编码的数量,q=1,2,...,m。
4.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S2包括以下子步骤:
S21:采用卷积循环神经网络对病历特征向量的每个窗口进行卷积操作,得到文本表示;
S22:将每个窗口的文本表示进行组合,得到文本向量;
S23:基于文本向量,采用门控神经单元对医疗编码特征向量的每个编码进行门控神经元操作,得到每个医疗编码表示;
S24:将每个医疗编码表示进行组合,得到医疗编码向量。
5.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S21中,文本表示ci的卷积操作计算公式为:
ci=s(w·xi:i+k-1+b)
其中,xi:i+k-1为电子病历文本中相邻k个词形成的窗口,w为权重向量,b为偏置向量,·为卷积操作,i为电子病历文本中的第i个词,s(*)为非线性方程;
所述步骤S22中,组合得到的文本向量C表示为C=[c1,c2,…cn],其中,n为电子病历的文本长度,i≤n。
6.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S23包括以下子步骤:
S231:采用门控神经单元计算医疗编码特征向量的更新门z和重置门r,其计算公式分别为:
z=σ(dtUz+ht-1Wz)
r=σ(dtUr+ht-1Wr)
其中,Uz为更新门z中需要学习的第一个权重矩阵,Wz为更新门z中需要学习的第二个权重矩阵,Ur为重置门r中需要学习的第一个权重矩阵,Wr为重置门r中需要学习的第二个权重矩阵,σ(·)为sigmoid激活函数;
S232:根据重置门r和当前医疗编码的输入状态dt计算当前时刻的记忆内容sj,其计算公式为:
Figure FDA0002402612310000031
其中,dt为当前医疗编码的输入状态,Uh为当前时刻记忆内容中需要学习的第一个权重矩阵,Whj为当前时刻记忆内容中需要学习的第二个权重矩阵,ht-1为当前医疗编码的先前隐藏状态,r为重置门,
Figure FDA0002402612310000032
为Hadamard乘积,tanh(·)为双曲正切函数运算;
S233:将当前时刻的记忆内容sj、当前医疗编码的先前隐藏状态ht-1和更新门z进行Hadamard乘积运算,得到当前时刻每个医疗编码表示hlt,其计算公式为:
Figure FDA0002402612310000033
其中,z为更新门,sj为当前时刻的记忆内容,ht-1为当前医疗编码的先前隐藏状态,
Figure FDA0002402612310000034
为Hadamard乘积。
7.根据权利要求4所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S24中,组合得到的医疗编码向量h表示为h=[h1t,h2t,…,hmt],其中,m为医疗编码的数量,hlt为第l个医疗编码表示,l≤m。
8.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S3包括以下子步骤:
S31:计算文本向量中的文本表示和医疗编码向量中的医疗编码表示之间的相似度;
S32:根据相似度计算文本表示和医疗编码表示之间的相关权重;
S33:根据相关权重计算文本表示和医疗编码表示之间的重要程度;
S34:根据重要程度计算文本表示和医疗编码表示之间的概率;
S35:根据概率确定目标函数。
9.根据权利要求8所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S31中,相似度sil的计算公式为:
sil=hlt·ci
其中,ci为第i个词的文本表示,hlt为第l个医疗编码表示;
所述步骤S32中,相关权重αil的计算公式为:
ail=softmax(sil)
其中,sil为文本表示和医疗编码向量之间的相似度,softmax(·)为softmax函数运算;
所述步骤S33中,重要程度ml的计算公式为:
Figure FDA0002402612310000041
其中,i为电子病历中第i个词,n为电子病历的文本长度,i≤n,αil为文本表示和医疗编码向量之间的相关权重,ci为第i个词的文本表示;
所述步骤S34中,概率
Figure FDA0002402612310000042
的计算公式为:
Figure FDA0002402612310000043
其中,
Figure FDA0002402612310000044
为注意力机制全连接层的权重矩阵,bl为注意力机制全连接层的偏置向量,ml为文本表示和医疗编码向量之间的重要程度;
所述步骤S35中,目标函数L(X,p)的计算公式为:
Figure FDA0002402612310000045
其中,l为第l个医疗编码,m为医疗编码的数量,yl为第l个医疗编码的真实标签,
Figure FDA0002402612310000051
为文本表示和医疗编码表示之间的概率,λ为L2正则化的超参数,γ为所提出医疗编码模型的所有参数,l≤m。
10.根据权利要求1所述的基于深度学习的电子病历ICD自动编码方法,其特征在于,所述步骤S4中,采用优化函数Adam降低电子病历和医疗编码的差距。
CN202010151556.6A 2020-03-06 2020-03-06 一种基于深度学习的电子病历icd自动编码方法 Pending CN111402974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010151556.6A CN111402974A (zh) 2020-03-06 2020-03-06 一种基于深度学习的电子病历icd自动编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010151556.6A CN111402974A (zh) 2020-03-06 2020-03-06 一种基于深度学习的电子病历icd自动编码方法

Publications (1)

Publication Number Publication Date
CN111402974A true CN111402974A (zh) 2020-07-10

Family

ID=71413238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010151556.6A Pending CN111402974A (zh) 2020-03-06 2020-03-06 一种基于深度学习的电子病历icd自动编码方法

Country Status (1)

Country Link
CN (1) CN111402974A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN112599213A (zh) * 2021-03-04 2021-04-02 联仁健康医疗大数据科技股份有限公司 一种分类编码确定方法、装置、设备及存储介质
CN112635001A (zh) * 2020-12-21 2021-04-09 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN112686306A (zh) * 2020-12-29 2021-04-20 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109994216A (zh) * 2019-03-21 2019-07-09 上海市第六人民医院 一种基于机器学习的icd智能诊断编码方法
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109994216A (zh) * 2019-03-21 2019-07-09 上海市第六人民医院 一种基于机器学习的icd智能诊断编码方法
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIE CHEN等: "A Multi-channel Convolutional Neural Network for ICD Coding", 《2019 IEEE 14TH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS AND KNOWLEDGE ENGINEERING (ISKE)》 *
SERENA JEBLEE I等: "Toronto CL at CLEF 2018 eHealth Task 1:Multi-lingual ICD-10 Coding using an Ensemble of Recurrent and Convolutional Neural Networks", 《CLEF2018-CONFERENCE AND LABS OF EVALUATION FORUM》 *
ZHEN-JIE YAO等: "Applying Deep Learning to Individual and Community Health Monitoring Data:A Survey", 《INTERNATIONAL JOURNAL OF AUTOMATION AND COMPUTING》 *
蒋友好: "深度电子病历分析研究综述", 《电脑知识与技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111382272B (zh) * 2020-03-09 2022-11-01 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN112635001A (zh) * 2020-12-21 2021-04-09 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN112635001B (zh) * 2020-12-21 2023-04-07 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN112686306A (zh) * 2020-12-29 2021-04-20 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统
CN112686306B (zh) * 2020-12-29 2023-03-24 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统
CN112599213A (zh) * 2021-03-04 2021-04-02 联仁健康医疗大数据科技股份有限公司 一种分类编码确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
Zhu et al. Electrocardiogram generation with a bidirectional LSTM-CNN generative adversarial network
CN111402974A (zh) 一种基于深度学习的电子病历icd自动编码方法
CN111462896B (zh) 一种基于病案的实时智能辅助icd编码系统和方法
Habibie et al. A recurrent variational autoencoder for human motion synthesis
CN112069302B (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112149414B (zh) 文本相似度确定方法、装置、设备及存储介质
CN112529857B (zh) 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112257449A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN110889865A (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN112052889B (zh) 基于双门控递归单元解码的喉镜图像识别方法
CN115391494B (zh) 中医症候智能识别方法及装置
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN113724359A (zh) 一种基于Transformer的CT报告生成方法
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN114757188A (zh) 一种基于生成对抗网络的规范医疗文本改写方法
Komura et al. A recurrent variational autoencoder for human motion synthesis
CN111767744B (zh) 文本风格迁移系统的训练方法及装置
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
CN111523320A (zh) 一种基于深度学习的中文病案分词方法
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法
CN113488165B (zh) 基于知识图谱的文本匹配方法、装置、设备以及存储介质
CN115295133A (zh) 一种面向手术操作的编码校验方法
CN115588486A (zh) 一种基于Transformer的中医诊断生成装置及其应用
CN114912512A (zh) 一种对图像描述的结果进行自动评估的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710