CN111540468A

CN111540468A - 一种诊断原因可视化的icd自动编码方法与系统

Info

Publication number: CN111540468A
Application number: CN202010318879.XA
Authority: CN
Inventors: 古平; 王成尧; 肖涵月; 张程; 卢勇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-14
Anticipated expiration: 2040-04-21
Also published as: CN111540468B

Abstract

本发明公开一种诊断原因可视化的ICD自动编码方法与系统，包括以下步骤：从病历文档库中获取病历数据,构建多标签分类数据集；对数据集进行预处理，将多标签分类的数据集转变为多个单标签分类的数据集；基于多个单标签分类的数据集完成层次注意力神经网络模型的训练；将医生书写诊断数据和病情描述数据输入到训练完成的层次注意力神经网络模型，从而得到预测ICD编码及名称；根据预测ICD名称，从病情描述数据提取对应的句子作为诊断原因可视化。本发明同时将医生书写诊断与病历描述数据作为模式特征，巧妙利用医生书写诊断作为分类过程中的监督信息，将传统多标签分类转化为更简单的单标签分类问题，从而提高了模型编码的准确性。

Description

一种诊断原因可视化的ICD自动编码方法与系统

技术领域

本发明涉及ICD编码技术领域，特别涉及一种诊断原因可视化的ICD自动编码方法与系统。

背景技术

随着医保政策的不断改革与落实，医院对病案的管理也更加标准化，电子病历作为医疗数据的载体被广泛应用。其中疾病分类编码是病案管理的主要工作之一，编码之后的电子病历能让医疗数据的管理和分析更加便捷。更精确的疾病分类能够加强医疗管理质量，让诊断检查、药品的决定、手术的安排更加合理有针对性。

国际疾病分类(ICD/International Classification of Diseases，)是由世界卫生组织维护的一个医疗分类系统，提供了疾病、病症、损伤、体征、症状等的诊断代码分级，目前作为一种主流编码使用。

目前对于疾病诊断编码工作，国内医院主要通过病案科室工作人员的手工编码完成，工作内容比较繁杂，同时难以避免因为疏忽而造成的编码错误。在临床的使用中，不同的医师有着不同的书写习惯，部分医师在填写诊断书时对疾病诊断名称把握不准确、不完整或者不规范，给编码工作带来了许多困难。

为了改进现有的编码工作现状，出现了一些运用计算机技术的编码方法例如基于联想匹配树的方法、基于Doc2vec与卷积神经网络的方法、基于多标签注意力卷积网络方法、融合条目词嵌入和注意力机制的自动ICD编码方法以及其他非神经网络的经典算法。

但现有技术存在以下问题：现有ICD编码方法和系统准确率不高，主要原因在于无论是深度模型还是其它机器学习模型，均只利用局部病历文本进行学习和分析，在ICD编码种类多达3万种的情况下，多标签分类很容易产生错误的ICD编码；自动编码结果缺乏可解释性，大多数的深度学习模型如同一个黑盒子，只能简单的给出预测结果，但做出该诊断和分类的具体原因确很模糊，这与实际编码人员的工作过程大相径庭，也增加了错误ICD编码被发现的难度。

发明内容

针对现有技术中ICD编码准确率低的问题，本发明提出一种诊断原因可视化的ICD自动编码方法与系统，通过利用医生在病案中书写的诊断名产生分类意图，并通过层次注意力模型推荐该病案相对应的ICD编码，以提高准确率。

为了实现上述目的，本发明提供以下技术方案：

一种诊断原因可视化的ICD自动编码系统，包括医生书写诊断编码模块、句编码模块、全文编码模块、ICD编码预测模块以及诊断原因可视化模块；其中，

所述医生书写诊断编码模块，用于将医生书写诊断数据进行编码，并生成医生书写诊断注意力向量；

所述句编码模块，用于根据医生书写诊断注意力向量，将注意力分配到语句的不同词条上，通过循环神经网络得到病情描述数据的句编码向量集合；

所述全文编码模块，用于根据医生书写诊断注意力向量，将注意力分配到病历的不同语句上，通过循环神经网络产生病情描述数据的编码向量；

所述ICD编码预测模块，用于对待预测病历和给定的医生书写诊断序列，输出预测ICD编码；

所述诊断原因可视化模块，用于对模型输出的每种预测ICD编码，基于注意力机制，提取在病历文本中相关的词或语句作为诊断理由依据。

优选的，还包括病历数据采集模块和数据预处理模块；其中，

所述病历数据采集模块，用于采集病历数据以构建多标签分类的数据集，所述数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据；

所述数据预处理模块，用于对多标签分类的数据集进行去噪和格式标准化，以及训练词向量模型，同时将多标签分类的数据集转变为单标签多分类的数据集。

本发明还提供一种诊断原因可视化的ICD自动编码方法，具体包括以下步骤：

S1：从病历文档库中获取病历数据构建多标签分类的数据集，多标签分类的数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据；

S2：对数据集进行预处理，并训练词向量模型,将多标签分类的数据集转变为单标签多分类的数据集，单标签多分类的数据集包括单个医生书写诊断、病情描述数据的句子集合、与单个医生书写诊断对应的单个标准ICD编码；

S3：基于单标签多分类的数据集完成层次注意力神经网络模型的训练；

S4：将待预测的医生书写诊断数据和病情描述数据输入到训练完成的层次注意力神经网络模型，从而得到预测ICD编码和名称；

S5：根据预测ICD编码和名称，从病情描述数据提取对应的句子作为诊断原因可视化。

优选的，所述S2，具体包括以下步骤：

S2-1：对多标签分类的数据集中原始病情描述数据和原始医生书写诊断数据进行清洗，从而得到病情描述数据和医生书写诊断数据，并训练词向量模型；

S2-2：将病情描述数据以句子为单位进行划分，得到病情描述数据的句子集合S＝{S₁,S₂,…,S_n}，S_n表示病情描述数据的第n个句子；

S2-3：将多标签分类的数据集数据集中标准ICD编码数据与医生书写诊断数据进行一一对齐，从而将多标签分类数据集转化为单标签多分类数据集。

优选的，所述S2-3中，对齐的具体方法为：

S2-3-1：通过分隔符将医生书写诊断数据、标准ICD编码数据分别分为多个独立的医生书写诊断与标准ICD编码，得到医生书写诊断集合A＝{A₁,A_2,…A_i}，A_i表示第i个医生书写诊断，以及标准ICD编码疾病名称集合B＝{B₁,B_2,…B_j}，B_j表示第j个标准ICD编码疾病名称，并使用以下公式进行相似度计算：

公式(1)中，similarity(A_i,B_j)表示单个医生书写诊断A_i和单个标准ICD编码疾病名称B_j集合之间的相似度，lcs(A_i,B_j)代表集合A_i与B_j中最长公共子串的长度，len(A_i)代表单个医生书写诊断A_i的字符串的长度；

S2-3-2：对于任意一个医生书写诊断A_i，计算其与每一个标准ICD编码疾病名称B_j的相似度，并取出相似度最高的标准ICD编码疾病名称B_j；若相似度大于或等于阈值similarity_阈值，则与该医生书写诊断对齐得到<A_i，B_j>,并将A_i与B_j从原有集合中删除；若低于阈值similarity_阈值，则视为医生书写诊断无法与标准ICD编码匹配，将A_i从医生书写诊断集合中删除；重复进行直到集合A或B为空。

优选的，所述S3中，层次注意力神经网络模型的训练步骤为：

S3-1：以单个词条为单位将每个医生书写诊断进行分词，得到医生书写诊断的词条集合，并配合训练完成的词向量模型进行映射，获取其词向量形式，从而得到医生书写诊断的输入向量C＝{C_i1,C_i2,…,C_im}，C_im表示第i个医生书写诊断的第m个词向量；

S3-2：对医生书写诊断的输入向量C进行编码，并生成医生书写诊断注意力向量h_z；

S3-3：将病情描述数据的每个语句S_n使用分词工具进行分词得到对应词条,并配合训练完成的词向量模型进行映射，获取其词向量形式，得到病情描述数据第n个句子的输入向量D＝[D_n1,D_n2,…,D_nk]，D_nk表示病情描述数据中第n个句子的第k个词向量，同时引入医生书写诊断注意力向量h_z，得到病情描述数据的句编码向量集合

公式(2)中，

表示病情描述数据中第n个句子的句编码向量；h_nk表示D_nk输入到句编码模块的循环神经网络模型后的隐藏状态；W₁为可学习的参数；α_nk表示第n个句子的第k个词的注意力分配值；u_nk表示词向量D_nk与注意力向量h_z在词向量空间中的余弦相似度；h_z表示医生书写诊断注意力向量,k表示第k个词；

S3-4：结合医生书写诊断注意力向量h_z和病情描述数据的句编码向量集合

完成对病情描述数据中文档内容的编码，得到病情描述数据的编码向量：

公式(3)中，v表示病情描述数据的编码向量；β_n表示第n个句子的注意力权重，注意力权重越高代表该句子在病情描述数据中的重要性更高；

表示病情描述数据中第n个句子的句编码向量；u_n表示词向量空间中医生书写诊断注意力向量h_z与病情描述数据中第n个句子的句编码向量

的余弦相似度，W₂为可学习的参数；h_z表示医生书写诊断注意力向量；

S3-5：结合病情描述数据的编码向量v和医生书写诊断注意力向量h_z，拼接为最后的完整向量表示[v h_z]，在层次注意力神经网络模型的最后一层使用该完整向量[v h_z]进行全连接分类输出，并使用sigmoid激活函数将每一个标签的预测概率输出值映射到区间[0,1]；

S3-6：采用二分类交叉熵(binary crossentropy)计算损失函数L，公式如下：

公式(6)中，y_i表示数据集中给定样本标签[y₁,y_2,…y_n]中第i个标签的真实标注分类；p_i表示模型预测输出第i个标签预测为真的概率，即单标签多分类的数据集中，样本预测为第i个标签对应的标准ICD编码的概率；

当模型分类性能在测试集上不再提升时，停止模型的训练，保存当前模型参数权重，到此完成模型的训练。

优选的，所述S5中，诊断原因可视化的方法为：

S5-1：对于每一个医生书写诊断A_i，都会进行一次单标签分类运算，从模型中提取该次预测运算中句子层次的注意力权重分配参数β_i，即每一个医生书写诊断A_i，病情描述数据中每个句子都有相对应的一个注意力权重分配参数β_i，并从大到小进行排序，得到大小排列的若干权重参数集合[β₁,β_2,…β_m]，β_m表示第m个权重参数，根据权重参数从病情描述数据句子集合S中取出前K个与之对应的句子，作为该次分类的诊断理由依据；

S5-2：重复步骤S5-1直到医生书写诊断集合中每一个医生书写诊断A_i都得到预测ICD名称与对应的诊断原因可视化。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

1.将医生书写诊断与病历描述数据作为模式特征，巧妙利用医生书写诊断作为分类过程中的监督信息，将传统多标签分类转化为更简单的单标签分类问题，提高了模型编码的准确性。

2.利用医生书写诊断作为注意力机制，改进了传统神经网络模型，通过对文本中与当前诊断相关的词、语句等分配不同的注意力，使得ICD编码的正确性和合理性得到支持。

3.与传统方法和模型的“黑盒”特性不同，在实现ICD自动编码的同时，可以以更透明的方式呈现每种疾病编码的具体原因，增加了结果的可解释性，更符合医院编码人员的使用习惯。

附图说明：

图1为根据本发明示例性实施例的一种诊断原因可视化的ICD自动编码系统示意图。

图2为根据本发明示例性实施例的一种诊断原因可视化的ICD自动编码方法流程示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种诊断原因可视化的ICD自动编码系统，包括病历数据采集模块、数据预处理模块、医生书写诊断编码模块、句编码模块、全文编码模块、ICD编码预测模块以及诊断原因可视化模块；

本实施例中，病历数据采集模块的输出端与数据预处理模块的输入端连接，数据预处理模块的输出端分别与医生书写诊断编码模块和句编码模块的第一输入端连接，医生书写诊断编码模块的输出端分别与句编码模块第二输入端、全文编码模块的第一输入端和ICD编码预测模块的第一输入端连接，句编码的输出端与全文编码模块的第二输入端连接，全文编码模块的输出端与ICD编码预测模块的第二输入端连接,ICD编码预测模块的第一输出端输出预测ICD编码给医生,ICD编码预测模块的第二输出端与诊断原因可视化模块的输入端连接。

病历数据采集模块，用于采集病历数据,构建多标签分类的数据集，多标签分类的数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据，即多标签分类的数据集中每条训练数据包括：至少一条医生书写诊断数据、1条病情描述数据、至少一条标准ICD编码数据。

数据预处理模块，用于对多标签分类的数据集进行去噪和格式标准化等操作，训练词向量模型，同时将多标签分类的数据集转变为单标签多分类的数据集。

医生书写诊断编码模块，用于将医生书写诊断数据进行编码，并生成医生书写诊断注意力向量。

句编码模块，用于根据医生书写诊断注意力向量，将注意力分配到语句的不同词条上，通过循环神经网络得到病情描述数据的句编码向量集合。

全文编码模块，用于根据医生书写诊断注意力向量，将注意力分配到病历的不同语句上，通过循环神经网络产生病情描述数据的编码向量。

ICD编码预测模块，用于对待预测病历和给定的医生书写诊断序列，输出预测ICD编码。

诊断原因可视化模块，用于对模型输出的每种预测ICD编码，基于注意力机制，提取在病历文本中相关的词或语句作为诊断理由依据。

如图2所示，本发明还提供一种诊断原因可视化的ICD自动编码方法，具体包括以下步骤：

S1：从病历文档库中获取病历数据作为数据集，数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据。

本实施例中，获取的病历数据包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据(这里加上原始是为了后续预处理，已进行区别。)。其中医生书写诊断数据，为医生在出院记录中书写的1～多条病情诊断数据；原始病情描述数据，应是与所述医生书写诊断数据因果关系最强的病情描述，包括但不限于主诉、现病史以及首次病程等数据；标准ICD编码数据，为人工标注的正确ICD编码，每个病历数据中的ICD编码数量根据病人具体病情为一个或多个。因此ICD编码问题表现为多标签分类问题，即数据集中一条病情记录可能对应有k个ICD编码(标签)。。

S2：对数据集进行预处理，将多标签分类的数据集转变为单标签多分类的数据集，单标签多分类数据集包括单个医生书写诊断、病情描述数据的句子集合、与单个医生书写诊断对应的单个标准ICD编码。

本实施例中，通过删除数据集中不完整或有明显错误的内容，保证数据内容的正确性与规范性。

S2-1：对数据集中原始病情描述数据和原始医生书写诊断数据使用计算机算法进行清洗，从而分别得到标准、格式规范的病情描述数据和医生书写诊断数据。

其中清洗方法包括但不限于：(1)将阿拉伯数字转换为中文数字；(2)将医学上专业名词的英文字母缩写还原为中文完整名称；(3)删除不正常或不标准的文字，如在病历中重复多次的同一段不相关文字，或在输入过程中失误操作造成的无意义文字输入。

本实施例中,将病情描述数据作为语料，使用词向量工具(如Word2Vec)训练词向量模型。

S2-2：将病情描述数据以句子为单位进行划分，得到病情描述数据的句子集合S＝{S₁,S₂,…,S_n}，S_n表示病情描述数据的第n个句子。

本实施例中，将病情描述数据以句子为单位进行划分，划分点可以参考常见句末标点符号，如句号、感叹号、问号等；为防止分句数目过多的情况，可将长度过短的句子并入相邻的前一句话中，从而得到病情描述数据的句子集合S＝{S₁,S₂,…,S_n}，S_n表示病情描述数据的第n个句子。

S2-3：将数据集中标准ICD编码数据与医生书写诊断数据进行一一对齐，从而多标签分类数据集转化为单标签多分类数据集,即将数据集中一条含有k个ICD编码(标签)的数据划分为k条单标签数据，其中每条单标签数据只含有一个ICD编码(标签)。对齐方法如下：

S2-3-1：对医生书写诊断数据与标准ICD编码数据，如果存在多个医生书写诊断与标准ICD编码，先通过分隔符，如“，”或“；”等，将它们分为多个独立的医生书写诊断与标准ICD编码，可得到医生书写诊断集合A＝{A₁,A_2,…A_i}，A_i表示第i个医生书写诊断，与标准ICD编码疾病名称集合B＝{B₁,B_2,…B_j}，B_j表示第j个标准ICD编码疾病名称，使用以下公式进行相似度计算：

公式(1)中，similarity(A_i,B_j)表示单个医生书写诊断A_i和单个标准ICD编码疾病名称B_j集合之间的相似度，lcs(A_i,B_j)代表集合A与B中最长公共子串的长度，len(A_i)代表单个医生书写诊断A_i的字符串的长度；

S2-3-2：对于任意一个医生书写诊断A_i，使用公式(1)计算其与每一个标准ICD编码疾病名称B_j的相似度，并取出相似度最高对应的标准ICD编码疾病名称B_j；若相似度大于或等于阈值similarity_阈值，则与该医生书写诊断对齐得到<A_i，B_j＞,并将A_i与B_j从原有集合中删除；若低于阈值similarity_阈值，则视为医生书写诊断无法与标准ICD编码匹配，那么从完整ICD列表中进行精准度阈值更高的相似度匹配，然后将A_i从医生书写诊断集合中删除。重复进行直到集合A或B为空。

对齐操作的好处是，将一个多标签分类的样本变为了多个单标签多分类样本，单标签多分类样本的内容包括三部分：医生书写诊断A_i；病情描述数据的句子S_n；与医生书写诊断A_i对应的标准ICD编码B_j，这样可减少数据集的复杂度，提高计算的速度与精度。

将医生书写诊断集合中的每一个医生书写诊断A_i与病情描述数据的句子S＝{S₁,S₂,…,S_n}共同作为一个单标签多分类待测样本。至此，将原本为多标签分类的单条待预测样本预处理为多条单标签多分类待预测样本，得到层次注意力神经网络模型需要的输入内容。

S3：完成层次注意力神经网络模型的训练，并输入单标签多分类数据集。

本实施例中，层次注意力神经网络模型接收三个部分数据：医生书写诊断A_i和病情描述数据的句子S_n作为输入，标准ICD编码B_j作为输出。

S3-1：获取医生书写诊断的输入向量，并输入医生书写诊断编码模块。

对每个医生书写诊断A_i，以单个词条为单位进行分词，得到医生书写诊断的词条集合，则对每个词条来说，配合词向量模型进行映射，获取其词向量形式，从而得到医生书写诊断的输入向量C＝{C_i1,C_i2,…,C_im}，C_im表示第i个医生书写诊断的第m个词向量，并将医生书写诊断的输入向量C输入到医生书写诊断编码模块中循环神经网络的输入层。

S3-2：对医生书写诊断的输入向量C进行编码，并生成医生书写诊断注意力向量h_z。

本实施例中，将医生书写诊断的输入向量C＝{C_i1,C_i2,…,C_im}通过GRU(GateRecurrent Unit)循环神经网络层编码为医生书写诊断向量表示序列。GRU中包含重置门r_t和更新门z_t,这两种门共同控制GRU的状态更新。

本实施例中，在医生书写诊断向量表示序列输入的第t个时刻，GRU的隐藏状态h_t由如下公式进行计算：

z_t＝σ(Wχ_t+Uh_t-1+b),

公式(2)中，h_t表示t时刻GRU的隐藏状态；h_t-1表示t-1时刻GRU的隐藏状态；z_t表示GRU的更新门，决定了旧状态与新状态在t时刻的保留比例；⊙表示数乘向量操作；

表示t时刻GRU的备选隐藏状态，σ表示sigmoid激活函数；χ_t代表t时刻的输入内容(即医生书写诊断的输入向量C)，W、U和b为模型中可学习的参数。

本实施例中，重置门r_t决定了t-1时刻GRU的隐藏状态h_t-1对t时刻GRU的备选隐藏状态

的影响程度，其计算公式如下：

r_t＝σ(Wχ_t+Uh_t-1+b) (3)

重置门r_t和更新门z_t的计算公式一样，但因位于模型中不同的位置，因此起到不同的功能作用。

即运用GRU层进行医生书写诊断的编码，医生书写诊断张量全部经过GRU运算后，将GRU层隐藏单元的末状态(即z时刻的隐藏层状态)h_z作为医生书写诊断的注意力向量。

S3-3：将病情描述数据分解成多个词条，配合词向量模型得到病情描述数据的输入向量，并输入到句编码模块，同时引入注意力向量h_z作为外部意图，以实现注意力在不同词条上的分配，得到病情描述数据的句编码向量集合。

本实施例中，将病情描述数据的句子集合S中每个语句S_n使用分词工具(如jieba)进行分词得到对应词条，对于单个词条,配合词向量模型(如Word2Vec等)进行映射，获取其词向量形式；直到将每个词条进行向量化，可得到病情描述数据中第n个句子的输入向量D＝[D_n1,D_n2,…,D_nk]，D_nk表示病情描述数据中第n个句子的第k个词向量；并将病情描述数据的输入向量D输入到句编码模块的循环神经网络模型(GRU)输入层，同时引入医生书写诊断注意力向量h_z作为外部意图，以实现注意力在不同词条上的分配，从而得到相应的句编码向量

以及整个病情描述数据的句编码向量集合

u_nk＝tanh[(h_zW₁)·h_nk]，

公式(4)中，

表示病情描述数据中第n个句子的句编码向量；h_nk表示D_nk输入到句编码模块的循环神经网络模型后的隐藏状态；W₁为可学习的参数；α_nk表示第n个句子的第k个词的注意力分配值；u_nk表示词向量D_nk与h_z在词向量空间中的余弦相似度；h_z表示医生书写诊断注意力向量,k表示第k个词。

使用GRU完成对病情描述中所有文档内容的编码，得到病情描述数据的编码向量：

公式(5)中，v表示病情描述数据的编码向量；β_n表示第n个句子的注意力权重，注意力权重越高代表该句子在病情描述数据中的重要性更高；

的余弦相似度；W₂为可学习的参数；h_z表示医生书写诊断注意力向量。

S3-5：结合病情描述数据的编码向量v和医生书写诊断注意力向量h_z，拼接为最后的完整向量表示[v h_z]，在层次注意力神经网络模型的最后一层使用该完整向量[v h_z]进行全连接分类输出，并使用激活函数：

将每一个标签的预测概率输出值映射到区间[0,1]，以满足损失函数的运算条件。

S3-6：层次注意力神经网络模型的训练过程中，输出层的内容为one-hot化的标准ICD编码疾病名称B_j，one-hot映射之后输出层的内容为[y₁,y_2,…y_n],y_n表示标准ICD编码B_j在one-hot向量中对应下标的标签；只有B_j对应下标的y_n的值为“1”，[y₁,y_2,…y_n]中除y_n的所有的值皆为“0”。训练时模型输出层中的输出内容为[y₁,y_2,…y_n]，即该条训练样本中标准ICD编码疾病名称B_j经过one-hot映射之后的向量，只有B_j对应下标的标签y_n的值为“1”，其余值皆为“0”，训练集中的所有参与训练的标准ICD编码中，每一个编码在one-hot向量中对应且仅对应一个特定的下标，互不重复。

由于层次注意力神经网络模型输出层的每一个标签只有两个分类，即“1”代表属于该标签和“0”不属于该标签，所以采用二分类交叉熵(binary crossentropy)计算损失函数L，公式如下：

公式(6)中，其中y_i表示数据集中给定样本标签[y₁,y_2,…y_n]中第i个标签的真实标注分类；p_i表示根据医生书写诊断的输入向量C和病情描述数据的输入向量D，模型输出层第i个标签预测为真的概率，即单标签多分类的数据集预测中，样本为第i个标签对应的标准ICD编码的概率；在后向反馈中使用Adam优化器进行损失函数最小化。划分一小部分(例如5％)单标签多分类的数据集为不参与训练的测试集，在训练过程中使用测试集观察模型分类性能，当模型分类性能在测试集上不再提升时停止模型的训练，保存当前模型参数权重，到此完成模型的训练。

S4：将待预测的医生书写诊断数据和病情描述数据输入到训练完成的层次注意力模型，从而得到预测ICD编码和名称。

S4-1：以词条为单位对医生书写诊断数据进行拆分，结合词向量模型，获取医生书写诊断的输入向量C，并输入医生书写诊断编码模块。

本实施例中，对于每个医生书写诊断A_i，以单个词条为单位进行分词，得到医生书写诊断的词条集合，则对每个词来说，配合词向量模型进行映射，获取其词向量形式，从而得到医生书写诊断的输入向量C＝{C_i1,C_i2,…,C_im}，C_im表示第i个医生书写诊断的第m个词向量。

S4-2：将病情描述数据分解成多个词条，配合词向量模型得到病情描述数据的输入向量D。

本实施例中，将病情描述数据的句子集合S中每个语句S_n使用分词工具(如jieba)进行分词得到对应词条，对于单个词条,配合词向量模型(如Word2Vec等)，通过查表获取其词向量形式；直到将每个词条进行向量化，可得到病情描述数据中第n个句子的输入向量D＝[D_n1,D_n2,…,D_nk]，D_nk表示病情描述数据中第n个句子的第k个词。

S4-3：将医生书写诊断的输入向量C和病情描述数据的输入向量D输入到训练完成的层次注意力模型中，前向反馈得到输出层内容[p₁,p_2,…p_n]，其中p_i代表第i个标签的预测概率，取概率最大的标签作为预测分类。

S5：诊断原因可视化。

本实施例中，根据注意力机制的特性，拥有更大注意力权重的病情描述数据中的句子在该次预测中的重要性更高，相应的，注意力权重高的病情描述数据中的句子与预测ICD编码有更高的相关性，将其提取作为诊断分类的理由依据。诊断原因可视化分为以下子步骤：

S5-1：对于每一个医生书写诊断A_i，都会进行一次单标签分类运算，从模型中提取该次预测运算中句子层次的注意力权重分配参数((即对每一个医生书写诊断A_i，病情描述中每个句子都有一个对应的注意力分配参数β_i)，将该权重分配参数集合从大到小进行排序，得到大小排列的若干最大权重参数集合[β₁,β_2,…β_m]，β_m表示第m个权重参数，根据最大的前K个权重参数从病情描述数据句子集合{S₁,S_2,…S_n}中取出与之对应的K个句子，例如β₁对应的句子就是S₁，以此作为该次分类的诊断理由依据。

S5-2：重复步骤S5-1直到医生书写诊断集合中每一个医生书写诊断A_i都得到预测结果输出与诊断原因可视化，至此完成待测样本的完整预测与诊断原因可视化。

传统方法和模型的“黑盒”中只能看到输出的ICD编码，但不知道输出这些ICD编码对应的原因，这样增加了不确定性，也不方便进行追溯。而本发明在实现ICD自动编码输出的同时，可以更透明的方式呈现每种疾病编码的具体原因，将对应的数据提取出来作为诊断原因，这样增加了输出结果的可解释性，更符合医院编码人员的使用习惯。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。