CN115270715B

CN115270715B - 一种面向电子病历的智能辅助icd自动编码方法及系统

Info

Publication number: CN115270715B
Application number: CN202111558533.8A
Authority: CN
Inventors: 程铭; 李霏; 雍刘亮; 葛晓伟; 梁盼; 赵晓雷; 熊蜀峰; 牛承志; 骆鑫
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-04-18
Anticipated expiration: 2041-12-17
Also published as: CN115270715A

Abstract

本发明涉及一种面向电子病历的智能辅助ICD自动编码方法及系统，使用语料对BERT模型进行预训练后，获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达，之后使用含有多个尺度的卷积模块捕获不同长度的文本模式，并通过残差网络扩大接受域；接着，使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语；最后，为临床记录分配ICD编码；本发明的方法和系统可分析医生所撰写电子病历中的疾病描述，自动给出患者的标准疾病诊断编码。

Description

一种面向电子病历的智能辅助ICD自动编码方法及系统

技术领域

本发明属于电子病历自动编码技术领域，具体涉及一种面向电子病历的智能辅助ICD 自动编码方法及系统。

背景技术

国际疾病分类(International Classification of Diseases,ICD)，是WHO制定的国际统一的疾病分类方法，它根据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，使其成为一个有序的组合，并用编码的方法来表示的系统。传统的病例编码方法是由医院专门的编码员负责，手工进行ICD的编码，但编码效率低，人力成本高，目前在医院中普遍实行了电子病历，对病例的存储和统计工作有了很大的帮助。但是，与手写病例相同，在医疗临床中，电子病历的文本信息也充斥着各种医学术语、表述晦涩和含糊，且每个电子病历通常需要会涉及到多个标签；而且，临床记录往往拥有非常长的字符序列，但是其中仅有少部分关键文本片段与某一特定的ICD编码相关，同时，ICD编码的标签空间非常庞大，在ICD-9-CM中有超过22000个编码，而在新版的ICD-10-CM中有超过170000个编码，庞大的标签空间意味着标签分布存在不平衡的问题。因此，针对电子病历的自动ICD编码分类，因此目前并没有很好的方法或系统能够精确的实现电子病历的ICD 编码。

发明内容

本发明的目的是克服现有技术的不足而提供一种面向电子病历的智能辅助ICD自动编码方法。

本发明的技术方案如下：

本发明提出了一种面向电子病历的智能辅助ICD自动编码方法，包括以下步骤：

步骤1，用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练；其中，需要将语料按照BERT模型要求的格式输入，

步骤2，使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达；

步骤3，使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取，多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征，接着通过残差卷积层扩大接受范围，捕获更长的文本特征；所述残差卷积层包含多个并行的残差单元；

步骤4，每个ICD编码对应一个ICD编码标签，为每个ICD编码分配一个注意力向量，以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息，并构建注意力矩阵，构建方法如下：

首先将多尺度残差卷积神经网络的输出矩阵X^res变换矩阵维度，使输出矩阵X^res的第二维与标签向量的第二维一致，

X^r＝tanh(X^resW_att)

公式中，

为改变维度后矩阵，

为权重矩阵，然后为每个标签l生成注意力向量，并为每个编码生成注意力得分，得到注意力矩阵：

公式中，

为标签l的向量表示，softmax为归一化指数函数，

为在标签l前提下文档表示矩阵中第i行的注意力得分，

为文档表示矩阵，X^r为标签l有关的行的加权平均值；

步骤5，ICD编码拥有树状层次结构关系，通过GCN图卷积网络捕捉ICD编码标签间的依赖关系(GCN网络需要训练来更新每个标签的向量表示，标签指得是ICD编码)，并选取GCN图卷积神经网络输出的最后一层所形成的矩阵

的子集

作为最终的标签矩阵；

步骤6，根据步骤4得到的注意力矩阵

和步骤5中的标签矩阵作为电子病历的分配类别，定义如下：

公式中，

为标签l的分类向量，

为预测结果，表示是否将该标签分配给病人；

步骤7，通过最小化真实值y_l与预测值

的二元交叉熵损失函数来继续训练，使损失函数最小化：

损失函数：

进一步的，在步骤2中，首先使用病历文本语料对BERT模型进行预训练，之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达，公式表示为：

X＝BERT₀(zⁿ)

公式中，X表示电子病历的向量表示，v_i表示ICD编码向量表示，zⁿ表示一段电子病历中临床记录的字的索引，n是电子病历临床记录的序列长度，

表示第i条ICD编码描述的字索引；字索引是将文本中每个字用一个整数来表示；输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”，“[CLS]”是一个特殊索引，BERT会在“[CLS]”索引的位置输出一个向量，用来表示整句的隐含语义信息；对于医生录入的病历记录，保留BERT 输出的整个向量序列，

对于第i条编码描述，只取“[CLS]”索引对应的向量

表示所有ICD标签的向量表示，m表示ICD编码个数。

进一步的，步骤3中，特征抽取采用两个部分，分别为多尺度卷积层和残差卷积层，多尺度卷积层可以使用多个不同尺度的一维卷积模块捕获多种长度的文本模式，接着通过残差卷积层扩大接受范围，捕获更长的文本模式：

①多尺度卷积层

多尺度卷积层包含多个并行的不同尺度的一维卷积单元；假设多尺度卷积层拥有m个不同尺度的卷积核，它们对应的尺寸分别为

对于给定的临床记录输入矩阵

多尺度卷积操作可以被形式化地定义为：

…

其中，Λ(X,W_m)表示对矩阵X进行卷积操作，

对应着权重矩阵，d_c表示每个卷积层的特征映射维度，s_m表示m种不同卷积尺度，

为输入矩阵X的子矩阵，分别表示临床记录文本的第j个到第j+s_m-1个字符的输入矩阵；最终的输出为m个特征矩阵，

②残差卷积层

残差卷积层包含多个并行的残差单元，将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连，每个残差单元的卷积核大小与对应的一维卷积单元保持一致，

每个残差单元包含3个一维卷积单元，该单元可以通过扩大接受域来捕获更长的文本特征，并使用短路连接保证网络性能不会下降；

接下来，以第k个尺度的卷积单元的输出矩阵X_k为第k个残差单元的输入为例，将残差单元形式化地定义为：

其中，

为残差单元中第k_i个卷积单元的权重矩阵，具体的

每个残差单元输出为

其中d_r表示每个残差卷积层的特征映射维度；与多尺度卷积类似，采用与多尺度卷积层相同的方式对输入矩阵进行填充，以保证输出矩阵和临床记录矩阵的序列长度一致。

进一步的，步骤3中，将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连，每个残差单元的卷积核大小与对应的一维卷积单元保持一致，每个残差单元对应3个一维卷积单元。

进一步的，步骤3中，所述残差卷积层最终输出所述残差单元的拼接，公式表达为：

d_res＝(m×d_r)

公式中，X^res表示残差卷积层最终输出，

表示每个残差单元输出， k＝1,2,…,m，其中d_r表示每个残差卷积层的特征映射维度。

进一步的，步骤5中，针对标签l的向量表示v_l，通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新，第k次更新v_l如下：

其中，令

f是激活函数，

是权重矩阵，P和C分别是标签l的父标签集合和子标签集合。

本发明还提出了一种面向电子病历的智能辅助ICD自动编码系统，包括特征向量构建层、特征抽取层、标签感知的注意力层、标签结构抽取层和输出层；

特征向量构建层，利用训练后的BERT模型获取和标准疾病诊断ICD编码的向量表达；

特征抽取层，用于对待提取的电子病历记录使用含有多个尺度的卷积单元捕获不同长度的文本模式，并通过残差网络扩大接受域，捕获更长的文本模式，最终输出特征矩阵；

标签感知的注意力层，为每个ICD编码分配一个注意力向量，并为每个ICD编码生成注意力得分，得到临床记录注意力矩阵

标签结构抽取层，通过GCN图卷积网络捕捉标签间的依赖关系；并选取GCN图卷积神经网络输出的最后一层所形成的矩阵

的子集

作为最终的标签矩阵；

输出层，根据标签感知的注意力层输出的临床记录注意力矩阵和标签结构抽取层输出的标签矩阵为临床记录分配ICD编码类别。

本发明的工作原理是，自动ICD编码可以被视作基于临床记录的多标签文本分类问题，由于临床记录实例i的编码可以被表示成将标签空间中的所有标签l∈L映射到，(y_i,l∈ {0,1})，y_i,l＝1表示将标签l分配给实例i；为了实现ICD编码自动分离，首先，使用含有多个尺度的卷积模块捕获不同长度的文本模式，并通过残差网络扩大接受域；接着，使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语(n-gram)，以克服临床记录冗长的问题；最后，通过|L|个二元分类器为临床记录分配ICD编码，实现ICD 分类。

与现有技术相比，本发明的有益效果是：

本发明可分析医生所撰写电子病历中的疾病描述，自动给出患者的标准疾病诊断编码的推荐；

利用专门的语料对BERT模型进行预训练，并将BERT模型的输出结果利用多尺度残差卷积神经网络进行特征提取，同时构建ICD标签编码矩阵，最终实现电子病历的ICD自动编码，相比于人工编码，可极大的提高病例的ICD分类效率；

本发明利用多尺度残差卷积神经网络进行特征提取，可灵活捕获多种长度的文本模式；构建的注意力矩阵模型可实现捕获文本与ICD编码之间的关联，防止标签的遗漏。

附图说明

图1为本发明实施例方法的流程图。

图2为现有的疾病诊断ICD编码与一并诊断名称的示意。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种面向电子病历的智能辅助ICD自动编码方法，包括以下步骤：

其中，电子病历中疾病诊断描述包括诊疗经过和出院诊断文本，本发明中的电子病历与临床记录含义相同；

如图2所示，现有的标准疾病诊断编码包括疾病诊断编码:疾病诊断名称，例如，A09.901胃肠炎，A09.902结肠炎，A09.903婴儿腹泻，A09.904出血性肠炎；

例：患者电子病历中的诊疗经过：入院后完善相关检查；CT:诊断意见:考虑肠梗阻,粘连性(疑似)请结合临床；肠系膜、双侧腹股沟区可见增大淋巴结影；左侧睾丸未见；双肺底少许炎症；排除手术禁忌症后于2019年11月15日在全麻下行肠粘连松解术+小肠次全切除术+右半结肠切除术+左侧隐睾切除术，术后出现胃瘫及肠梗阻征象，给予对症支持治疗后不缓解，复查造影及消化内镜:见小肠上端狭窄，排除禁忌症后，于2019年12月 25日在全麻下行肠粘连松解术；术后恢复可，现患者一般情况可，生命体征平稳，现患者家属要求出院，告知出院后注意事项后给予办理出院。

出院诊断：1、肠粘连松解术+小肠次全切术+右半结肠切除术+左侧隐睾切除术2、肝功能损伤3、短肠综合征(疑似)

针对上述案例的电子病例的疾病描述，推荐的患者的标准疾病诊断编码为：主要诊断： K56.701不全性肠梗阻，其他诊断：K72.905肝功能不全、K91.201短肠综合征、Q53.102 单侧腹腔型隐睾；

步骤4，采用一种标签感知的注意力机制克服临床记录中关键信息分散的问题：由于 ICD编码和ICD编码标签是一一对应的，如09.901胃肠炎，“09.901”是疾病诊断编码 ICD编码，“胃肠炎”是ICD编码的标签；因此在本步骤中，对ICD编码分配注意力向量也是为ICD编码标签分类一个注意力向量，具体的，为每个ICD编码分配一个注意力向量，以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息，并构建注意力矩阵，构建方法如下：

X^r＝tanh(X^resW_att)

公式中，

为改变维度后矩阵，

公式中，

为标签l的向量表示，softmax为归一化指数函数，

为在标签l前提下文档表示矩阵中第i行的注意力得分，

为文档表示矩阵，X^r为标签l有关的行的加权平均值；

步骤5，ICD编码拥有树状层次结构关系，通过GCN图卷积网络捕捉ICD编码标签间的依赖关系，以缓解标签不平衡问题，GCN网络需要训练来更新每个标签l向量表示，针对标签l的向量表示v_l，因为ICD编码存在天然的树状层次关系，每个编码均存在父标签和子标签，可通过GCN捕捉通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新，第k次更新v_l如下：

其中，令

f是激活函数，

是权重矩阵，P和C分别是标签l的父标签集合和子标签集合，P和C分别是标签l的父标签集合和子标签集合；选取GCN图卷积神经网络输出的最后一层所形成的矩阵

的子集

作为最终的标签矩阵；

需要说明的是，在进行标签结构抽取时，本发明使用的是整个“国家临床版2.0疾病诊断编码(ICD-10)”的编码，其中包含了在测试的数据集中没有的编码。

步骤6，根据步骤4得到的注意力矩阵

和步骤5中的标签矩阵作为电子病历的分配类别，定义如下：

公式中，

为标签l的分类向量，

为预测结果，表示是否将该标签分配给病人；

步骤7，通过最小化真实值y_l与预测值

的二元交叉熵损失函数来继续训练，使损失函数最小化：

损失函数：

X＝BERT₀(zⁿ)

对于第i条编码描述，只取“[CLS]”索引对应的向量

表示所有ICD标签的向量表示，m表示ICD编码个数。

①多尺度卷积层

对于给定的临床记录输入矩阵

多尺度卷积操作可以被形式化地定义为：

…

其中，Λ(X,W_m)表示对矩阵X进行卷积操作，

②残差卷积层

其中，

为残差单元中第k_i个卷积单元的权重矩阵，具体的

每个残差单元输出为

其中d_r表示每个残差卷积层的特征映射维度；与多尺度卷积类似，采用与多尺度卷积层相同的方式对输入矩阵进行填充，以保证输出矩阵和临床记录矩阵的序列长度一致；所述残差卷积层最终输出所述残差单元的拼接，公式表达为：

d_res＝(m×d_r)

公式中，X^res表示残差卷积层最终输出，

进一步的，步骤3中，将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连，每个残差单元的卷积核大小与对应的一维卷积单元保持一致，每个残差单元对应3个一维卷积单元；残差单元可以通过扩大接受范围来捕获更长的文本特征，并使用短路连接保证网络性能不会下降；假设第k个单元的卷积核的宽度为sk＝3，多核卷积单元的输出X k的接受范围为3，即可以捕获tri-gram的特征，残差卷积单元第一层输出可以捕获 5-gram的特征，第二层输出可以捕获7-gram的特征，短路操作可以保持原有特征，从而防止网络退化。

进一步的，步骤1中所使用的BERT预训练语料包括真实的医疗机构的电子病历数据以及在互联网上爬取的临床文本；语料库包括不同的医学领域：心血管病学、脑科学、肾脏病学、妇产科学、胃肠外科学等；对于BERT模型的预训练，我们从现有的BERT检查点开始训练(checkpoint)；现有基础BERT预训练模型采用google提供的中文 chinese_BERT_base_L-12_H-768_A-12；

真实的医疗机构的电子病历语料示例：

①胃肠外科学语料：患者以“进食哽咽感三个月”为主诉，初诊为“贲门肿瘤”，于2015年11月19日收入我科；于2015年11月25日全麻下行“食管下段贲门癌根治术(食管部分切除、贲门切除、胃部分切除、食管残胃主动脉弓下机械吻合、淋巴结清扫术)，胸膜粘连烙断术”术程顺利，术后给予抗感染、祛痰、对症营养支持治疗；恢复良好；术后病理示：(贲门)中-低分化腺癌，浸润全层，两切缘未见癌，淋巴结转移癌(自检1/3，食管旁0/1，胃左0/4，胃小弯0/1，下肺韧带0/1)；

②风湿免疫科语料：1年前无明显诱因出现双腕关节、足趾关节肿胀、疼痛，晨起加重，活动后减轻，受凉后加重，伴左上肢、腋窝多发包块，无红肿热痛，无发热、咳嗽，无光过敏、胸闷、气短，后自行给予止痛膏后疼痛减轻，后疼痛反复；11月前就诊于湖北省同济医院，诊断“类风湿关节炎”，给予“强的松5mg每早1片、迪巧每次1片每天 2次、甲氨蝶呤每周4片、叶酸片每周1片、来氟米特每次1片每天2次”口服1月，上述症状缓解，未再服用口服药治疗；3月前无明显诱因上述症状加重，再次就诊于湖北省同济医院，给予“强的松、甲氨蝶呤、叶酸、来氟米特、羟氯喹、帕夫林、纷乐”口服 1月后，自觉效果差，后就诊于当地诊所，给予中药治疗(具体药物不详)，效果差；半月前无明显诱因出现右右上肢伸直后手指颤抖，为进一步诊疗，来我院，门诊以“类风湿关节炎”收住我科，自发病以来，食欲正常，睡眠正常，大小便正常，精神正常，体重无减轻；

互联网爬取的临床语料示例：叶酸含有丰富的营养成分，女性在怀孕早期可以选择适当的补充叶酸的方法来避免出现胎儿发育不良的症状，及时补充叶酸，可以避免女性怀孕期间胎儿出现神经管发育不良的危害，女性在怀孕期间出现了明显的贫血的症状，也可以适当的补充叶酸，但是一定要根据医生建议合理调整，也可以选择其他食疗方法来缓解贫血的症状；1、女性孕期贫血也可以通过补充叶酸的方法来有效的改善贫血的现象，可以避免胎儿早产或者发育畸形的现象，对胎儿的健康成长有很好的辅助效果，也可以适当通过食疗来补铁补血；2、孕妇如果出现了贫血的症状，也可以选择适当的吃一些叶酸进行调养平时多注意身体护理，可以选择食疗来进行滋补，适当的吃一些阿胶糕或者红枣粥都能够起到一定的补血作用；3、通过叶酸片具有一定的补铁补血和提高人体免疫力的效果，但是女性怀孕期间应该慎重的使用叶酸片，怀孕三个月之后应该停止使用药品，如果出现了贫血的症状，也可以选择食疗来辅助治疗疾病。

的子集

作为最终的标签矩阵；

输出层，根据标签感知的注意力层输出的临床记录注意力矩阵和标签结构抽取层输出的标签矩阵为临床记录分配ICD编码类别；

本系统是一种基于多尺度过滤器残差图卷积神经网络的ICD自动编码系统，实现了电子病历的ICD自动编码。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向电子病历的智能辅助ICD自动编码方法，其特征在于，包括以下步骤：

步骤1，用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练；

在步骤2中，首先使用病历文本语料对BERT模型进行预训练，之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达，公式表示为：

X＝BERT₀(zⁿ)

表示第i条ICD编码描述的字索引；字索引是将文本中每个字用一个整数来表示；输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”，“[CLS]”是一个特殊索引，BERT会在“[CLS]”索引的位置输出一个向量，用来表示整句的隐含语义信息；对于医生录入的病历记录，保留BERT输出的整个向量序列，