CN115270718B

CN115270718B - 一种疾病编码的自动编目方法及系统

Info

Publication number: CN115270718B
Application number: CN202210880857.1A
Authority: CN
Inventors: 赵韡; 袁靖; 赵帅; 刁晓林; 夏芸; 霍燕妮
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2023-10-10
Anticipated expiration: 2042-07-26
Also published as: CN115270718A

Abstract

一种疾病编码的自动编目方法及系统，包括：构建训练数据及构建模型；将医疗文本输入医疗文本特征提取模块，提取医疗文本特征；基于疾病编码信息生成无向加权图，通过疾病编码特征提取模块运算，得到疾病编码特征；将医疗文本特征及疾病编码特征输入基于标签注意力机制的特征融合模块，得到疾病编码的最终预测特征及疾病编码被分配的概率值；利用损失函数评估模型的预测误差，基于反向传播进行所述模型参数调优；在应用阶段，将患者的医疗文本输入训练好的模型，将得到的各疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值的所有疾病编码作为所述患者的疾病编码输出。本申请实现疾病编码的自动编目，且提高准确性。

Description

一种疾病编码的自动编目方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种疾病编码的自动编目方法及系统。

背景技术

在为患者诊断及治疗时，准确确定患者的疾病编码，从而基于诊断结果对患者进行适应性治疗，是一个亟待解决的问题。医疗人员通常基于编码体系的理解及经验，根据患者的医疗文本进行人工疾病编码。人工进行疾病编码存在较多问题，如效率低下、诊断结果的不统一等，因此，将人工智能自然语言处理技术应用于疾病编码，特别是疾病国际分类（ICD，International Classificationof Diseases）编码的自动识别已成主流趋势。

采用人工智能自然语言处理技术确定患者的疾病编码一般包括如下步骤：步骤1）基于医疗文本及ICD编码信息，训练得到识别疾病编码的神经网络模型，该模型可以采用BERT、门控图神经网络或卷积循环神经网络等实现；2）将患者的医疗文本输入到训练好的神经网络模型中处理，输出患者的疾病编码。在最终确认患者的疾病编码时，医疗人员还可以对神经网络模型的输出结果进行审核，以得到最终结果。现有方法存在以下问题：一是对医疗文本深层语义特征的挖掘不够；二是对疾病编码互斥以及共现等特殊关系的分析能力较差；三是对文本特征和编码特征的融合不够充分，从而使疾病编码的准确性往往无法保证。

发明内容

有鉴于此，本申请提供一种疾病编码的自动编目方法，该方法能够实现疾病编码的自动编目，且提高自动编目的准确性。

本申请还提供一种疾病编码的自动编目系统，该系统能够实现疾病编码的自动编目，且提高自动编目的准确性。

本申请是这样实现的：

一种疾病编码的自动编目方法，所述方法包括：

构建训练数据，训练数据包括医疗文本和疾病编码信息；

构建模型，所述模型包括医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块；

将所述医疗文本输入到所述医疗文本特征提取模块中，提取得到医疗文本特征；

基于所述疾病编码信息生成无向加权图，基于所述无向加权图利用所述疾病编码特征提取模块进行运算，得到疾病编码特征；

将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块，得到所述疾病编码的最终预测特征及所述疾病编码被分配的预测概率值；

利用损失函数评估所述模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练；

在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目。

较佳地，所述医疗文本特征提取模块为经过无监督微调后的中文预训练模型，所述中文预训练模型为RoBERTa、BERT、ALBERT或XLNet，所述的无监督微调基于训练数据中的医疗文本进行。

较佳地，所述疾病编码为疾病国际分类ICD编码；所述无向加权图由节点和边组成；

节点包括编码节点和字符节点，所述编码节点代表ICD编码，所述字符节点代表ICD编码名称中的字符；

边包括：编码节点与字符节点之间的边，表示字符出现在ICD编码名称中，边的权重为字符在编码名称中的词频-逆文本频率指数TF-IDF值；编码节点与编码节点之间的边，表示两个编码在ICD编码体系中存在父子关系，边的权重设置为1；字符节点与字符节点之间的边，表示两个字符之间的成对互信息PMI大于0，边的权重为PMI值；其中，TF-IDF、PMI基于ICD编码名称的集合计算得出。

较佳地，所述疾病编码特征提取模块为二阶图卷积神经网络，所述字符节点的初始特征为word2vec模型输出的字嵌入，所述编码节点的初始特征为编码名称中字嵌入的平均池化average-pooling结果，疾病编码特征提取模块最终输出的编码节点向量为疾病编码特征。

较佳地，将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块，得到疾病编码的最终预测特征，其中基于标签注意力机制的特征融合模块为基于标签注意力机制的神经网络，其前向运算计算公式为：

；

其中，Q∈R^n×d，代表疾病编码特征矩阵， n、d分别代表ICD编码个数及ICD编码特征维度；V∈R^L×D，代表医疗文本特征矩阵， L、D分别代表输入医疗文本长度、输入特征维度；W_K∈R^D×d，为待训练的参数矩阵，用于生成注意力机制中的Key矩阵；K为基于V及W_K的输出，表示Key矩阵；T 表示对K矩阵进行转置操作；O为输出的结果，其中每一行对应各ICD编码的最终预测特征，表征了所述医疗文本与所述疾病编码间的相关性；

在所述疾病编码集合中，以编码为例，/>被分配的预测概率值计算公式为：

，其中/>∈R^D×1、/>为待训练的参数，/>为预测概率值。

较佳地，所述利用损失函数评估模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练包括：

采用交叉熵作为损失函数，在反向传播的过程中对医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块中的参数进行迭代调整，直至损失函数的值不再下降，或参数调整次数达到预设上限时，反向传播结束，模型训练完成，所述交叉熵的计算公式为：

其中，y _i取1或0，代表ICD编码c _i是否被实际分配，为预测概率值，n为疾病编码的个数。

较佳地，所述将医疗文本输入到医疗文本特征提取模块之前，还包括：对所述医疗文本进行预处理；

所述预处理包括：清洗出医疗文本中的除中文及英文字母外的符号；将清洗后的医疗文本中的大写字符转换为小写；按序连接预设的信息字段。

较佳地，所述方法还包括：

对所述疾病编码的自动编目的过程进行动态监测；

获取对疾病编码的自动编目过程的动态监测结果，若监测结果为模型编码的准确率低于预设的准确率阈值，则重新调整输入模型的医疗文本，完成所述模型的迭代训练。

一种疾病编码的自动编目系统，所述系统包括：数据采集单元、模型初始化单元、模型调优单元、数据计算单元，其中，

数据采集单元，用于在训练阶段采集训练数据，训练数据包括医疗文本和疾病编码信息；在应用阶段采集患者的医疗文本；

模型初始化单元，用于生成模型，所述模型由医疗文本特征提取模块、疾病编码特征提取模块及基于标签注意力机制的特征融合模块组成；

所述医疗文本特征提取模块，用于从所述医疗文本中提取文本特征；

所述模型初始化单元，用于根据疾病编码信息生成无向加权图，所述疾病编码特征提取模块基于无向加权图进行运算，得到疾病编码特征；

所述基于标签注意力机制的特征融合模块，用于接收医疗文本特征及疾病编码特征，进行特征融合，得到所述疾病编码的最终预测特征及所述疾病编码被分配的预测概率值；

模型调优单元利用损失函数评估所述模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练；

数据计算单元，用于在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目。

较佳地，还包括数据预处理单元、结果输出与审核单元、动态更新与迭代单元，其中，

数据预处理单元，用于对所述医疗文本进行预处理，所述预处理包括：清洗出医疗文本中的除中文及英文字母外的符号；将清洗后的医疗文本中的大写字符转换为小写；按序连接预设的信息字段，将预处理后的所述医疗文本发送给所述模型初始化单元；

结果输出与审核单元，用于进行所述患者的疾病编码的展示，以使得编码员对结果进行审核；对所述疾病编码的自动编目的过程进行动态监测，得到对疾病编码的自动编目过程的动态监测结果，将所述动态监测结果发送给所述动态更新与迭代单元；

动态更新与迭代单元，用于将所述动态监测结果返回给所述数据采集单元、模型初始化单元、数据计算单元，以进行所述模型的迭代训练。

一种电子设备，包括：处理器；

存储器，存储有程序，所述程序配置为在被所述处理器执行时实现上述任一项所述的疾病编码的自动编目方法。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行上述任一项所述的疾病编码的自动编目方法。

这样，本申请在提取特征阶段，医疗文本特征由基于医疗文本进行无监督微调后的中文预训练模型输出，从而能够涵盖医疗文本中的更深层的语义特征；在提取疾病编码特征时先构建了一种无向加权图，以表征疾病编码间的临床及语义关联，后续通过疾病编码特征提取模块得出了最终的疾病编码特征，从而更准确地表征了疾病编码；在确定疾病编码阶段，采用了基于标签注意力机制的特征融合模块充分融合医疗文本特征及疾病编码特征，使得疾病编码的识别更加准确。

附图说明

图1为本申请实施例1提供的一种疾病编码的自动编目方法流程图；

图2为本申请实施例1提供的一种实现疾病编码的自动编目方法的模型具体例子示意图；

图3为本申请实施例2结合图2所述的模型架构，提供的实现疾病编码的自动编目方法的具体例子示意图；

图4为本申请实施例2提供的无向加权图的构造过程示意图；

图5为本申请实施例1提供的一种疾病编码的自动编目系统的总体结构示意图；

图6为本申请实施例2提供的一种疾病编码的自动编目系统例子的具体结构示意图；

图7为本申请的另一个实施例所提供的一种电子设备的示意图。

具体实施方式

一种下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

虽然目前可以采用人工智能自然语言处理技术确定患者的疾病编码，但是无法保证所确定的疾病编码的准确性，这是背景技术中所提供模型在医疗文本及疾病编码特征抽取时的不完备性等等原因造成的。

因此，本申请实施例为了克服上述问题，采用的方案为：构建训练数据，训练数据包括医疗文本和疾病编码信息；构建模型，所述模型包括医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块；将所述医疗文本输入到所述医疗文本特征提取模块中，提取得到医疗文本特征；基于所述疾病编码信息生成无向加权图，基于所述无向加权图利用所述疾病编码特征提取模块进行运算，得到疾病编码特征；将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块，得到所述疾病编码的最终预测特征及所述疾病编码被分配的预测概率值；利用损失函数评估所述模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练；在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目。

实施例1

如图1所示，图1为本申请实施例提供的一种疾病编码的自动编目方法流程图，其具体步骤包括：

步骤101、构建训练数据，训练数据包括医疗文本和疾病编码信息；

步骤102、构建模型，所述模型包括医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块；

步骤103、将所述医疗文本输入到所述医疗文本特征提取模块中，提取得到医疗文本特征；

步骤104、基于所述疾病编码信息生成无向加权图，基于所述无向加权图利用所述疾病编码特征提取模块进行运算，得到疾病编码特征；

步骤105、将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块中，得到所述疾病编码的最终预测特征及所述疾病编码被分配的预测概率值；

步骤106、利用损失函数评估所述模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练；

步骤107、在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目。

在上述方法中，所述医疗文本包括但不限于：入院记录、病程、检查所见与结论（CT、超声、核磁）、手术记录、出院记录；门急诊、入院、术前、术后、出院诊断，心电、动态血压检查结论中的一种或多种组合。

在上述方法中，所述预设的疾病编码判定阈值可以根据经验或需要设置，这里不限制。

在上述方法中，如图2所示，所述模型包括医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块，其中医疗文本特征提取模块优选为经过无监督微调后的中文预训练模型，所述中文预训练模型包括RoBERTa，也可以选用BERT或ALBERT或XLNe或其余BERT模型的变种。疾病编码特征提取模块为二阶图卷积神经网络，基于标签注意力机制的特征融合模块为基于标签注意力机制的神经网络；

其中所述的无监督微调基于训练数据中的医疗文本进行。

在提取特征阶段，医疗文本特征由无监督微调后的预训练模型RoBERTa输出，从而能够涵盖医疗文本中的更深层的语义特征。

在上述方法中，所述疾病编码为ICD编码，基于ICD编码生成无向加权图，所述无向加权图由节点和边组成，其中，节点包括编码节点和字符节点，所述编码节点代表ICD编码，所述字符节点代表ICD编码名称中的字符；边包括：编码节点与字符节点之间的边表示字符出现在ICD编码名称中，边的权重为字符在编码名称中的词频-逆文本频率指数（TF-IDF）值；编码节点与编码节点之间的边表示两个编码在ICD编码体系中存在父子关系，边的权重设置为1；字符节点与字符节点之间的边表示两个字符之间的对互信息（PMI，pairwisemutual information）大于0，边的权重为PMI值；其中，TF-IDF值、PMI值基于ICD编码名称的集合计算得出。对TF-IDF值及PMI值的计算可以采用现有的方式实现，这里不限制。

这样，在提取疾病编码特征时先构建了无向加权图，以表征疾病编码间的临床及语义关联，后续通过疾病编码特征提取模块得出了最终的疾病编码特征，从而更准确地表征了疾病编码。

在上述方法中，基于所述无向加权图利用所述疾病编码特征提取模块进行运算时，所述疾病编码特征提取模块为二阶图卷积神经网络，其中所述字符节点的初始特征为word2vec模型输出的字嵌入，所述编码节点的初始特征为编码名称中字嵌入的平均池化（average-pooling）结果，所述疾病编码特征提取模块最终输出的编码节点向量为疾病编码特征。

具体来说，将ICD编码名称输入word2vec模型，输出字嵌入，即字符节点的初始特征；编码节点的初始特征是将编码名称中字嵌入进行平均池化后，得到平均池化结果，将字符节点的初始特征和编码节点的初始特征输入疾病编码特征提取模块，基于无向加权图进行运算，获得疾病编码特征。

在该方法中，将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块，得到疾病编码的最终预测特征，其中基于标签注意力机制的特征融合模块为基于标签注意力机制的神经网络，采用计算公式为：

；

其中，Q∈R^n×d，代表疾病编码特征矩阵， n、d分别代表ICD编码个数及ICD编码特征维度；V∈R^L×D，表示医疗文本特征矩阵， L、D分别代表输入医疗文本长度、输入特征维度；W_K∈R^D×d，为待训练的参数矩阵，用于生成注意力机制中的Key矩阵，其中待训练的参数指的是模型中需要训练的参数；K为基于V及W_K的输出，表示Key矩阵；T 是对K矩阵进行转置操作；O为输出的结果，其中每一行对应各ICD编码的最终预测特征，用于表征所述医疗文本与所述疾病编码间的相关性。

每个ICD编码设置为编码，所述疾病编码被分配的预测概率值计算公式为：

，其中 />∈R^D×1、 />为待训练的参数， />为预测概率值。

在上述方法中，所述利用损失函数评估模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练包括：

采用交叉熵作为损失函数，评估所述模型的预测误差，在反向传播的过程中对医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块中的参数进行迭代调整，直至损失函数的值不再下降，或参数调整次数达到预设上限时，反向传播结束，所述模型训练完成，所述交叉熵的计算公式为：

在这里，参数调整次数的预设上限根据需要或经验设置，这里不限制。

图5为本申请实施例提供的一种疾病编码的自动编目系统的总结构示意图，所示系统包括：数据采集单元、模型初始化单元、模型调优单元、数据计算单元，其中，

数据计算单元，调用训练好的模型，在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与判定阈值对比，将符合判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目。

实施例2

在图1所述的方法中，还包括：对所述疾病编码的自动编目的过程进行动态监测；

获取对疾病编码的自动编目过程的动态监测结果，若监测结果为模型编码的准确率低于预设的准确率阈值，则重新调整输入模型的医疗文本，完成所述模型的迭代训练。其中所述的动态监测由编码员人工进行，编码员将输出的疾病编码与真实的编码对比，确定准确率。在图1所述的方法中，所述将医疗文本输入到医疗文本特征提取模型之前，还包括：对所述医疗文本进行预处理。

具体地说，所述预处理包括：首先，清洗出医疗文本中的除中文及英文字母外的符号；其次，将清洗后的医疗文本中的大写字符转换为小写；最后，按序连接预设的信息字段，比如设定个数为5个。

以下举一个具体例子对本申请实施例进行详细说明。

图3为本申请实施例结合图2所述的模型架构，提供的实现疾病编码的自动编目方法的具体例子示意图，其具体步骤包括：

步骤一、构建训练数据，训练数据包括医疗文本和疾病编码信息。

在本步骤中，医疗文本包括但不限于：入院诊断信息、出院诊断信息、CT结论信息、超声结论信息和诊疗经过信息中的一种或多种组合。

步骤二、对训练数据中的医疗文本进行预处理。

在进行编码任务时，本申请实施例将入院诊断信息、出院诊断信息、CT结论信息、超声结论信息、诊疗经过信息的这五个字段用作后续到模型的输入。

在进行编码任务之前，本步骤实施了预处理，包括：先清洗后四个字段中除中文、英文字母外的符号，接着将所有字段中的大写字符转为小写，最后按序拼接五个字段，作为后续模型的输入。

预处理的作用是方便模型运算。

步骤三、构建模型，所述模型包括医疗文本特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块。

其中，医疗文本特征提取模块为经过无监督微调后的RoBERTa，疾病编码特征提取模块为二阶图卷积神经网络，基于标签注意力机制的特征融合模块为基于标签注意力机制的神经网络。在这里，中文预训练模型采用RoBERTa进行举例说明。

步骤四、将所述医疗文本输入到所述医疗文本特征提取模块中，提取得到医疗文本特征。

在本步骤中，采用RoBERTa进行医疗文本特征的提取。相比于完全基于训练数据学习的输入特征提取器，RoBERTa已经通过预训练获取了提取丰富语义特征的能力，因此更可能挖掘出对疾病编码有益的医疗文本特征。

在本步骤中，RoBERTa为每个输入字符输出256维的特征向量。值得注意的是，RoBERTa底层的大规模预训练文本是跨领域的，为使其更适用于医疗领域，在进行编码任务前，本申请实施例基于训练数据中的医疗文本，采用掩码语言模型（MLM，masked languagemodel）对RoBERTa中的参数进行无监督微调。

步骤五、基于训练数据中的ICD编码集合，构建无向加权图，基于所述无向加权图利用所述疾病编码特征提取模块进行运算，得到疾病编码特征。

在本步骤中，所述无向加权图由节点和边组成，其中，节点包括编码节点和字符节点，所述编码节点代表ICD编码的编码节点，所述字符节点代表ICD编码名称中的字符；边包括：编码节点与字符节点之间的边表示字符出现在ICD编码名称中，边的权重为字符在编码名称中的TF-IDF值；编码节点与编码节点之间的边表示两个编码在ICD编码体系中存在父子关系，边的权重设置为1；字符节点与字符节点之间的边表示两个字符之间的PMI大于0，边的权重为PMI值；其中，TF-IDF值、及PMI基于ICD编码名称的集合计算得出。

在本步骤中，构建无向加权图是为了分析ICD编码间的相关关系，如共现、互斥、合并等。在本申请设计的无向加权图中，编码间的边用于表征临床关联，其余两种用于分析编码间的语义关联。

图4为本申请实施例提供的无向加权图的构造过程示意图。假设目标编码集为D={D1,D2,D3}，对应的字符表为C={c1, c2, c3, c4}，其中，D1={c1, c2}，TF-IDF值分别为0.2, 0.1；D2={c2, c3}，TF-IDF值分别为0.1, 0.1；D3={c2, c3, c4}，TF-IDF值分别为0.1, 0.1, 0.3；在ICD编码体系中D2是D1的父节点；各字符中仅PMI(c2, c3)大于零，值为0.05，则形成的无向加权图为图4所示。

在本步骤中，所述字符节点的初始特征为word2vec模型输出的字嵌入，具体为基于skip-gram的字嵌入，所述编码节点的初始特征为编码名称中字嵌入的average-pooling结果。最终，编码节点的向量表示即为疾病编码特征。

步骤六、将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块，进行特征融合计算，得到所述疾病编码的最终预测特征及所述疾病编码被分配的预测概率值。

在本步骤中，为融合疾病编码特征提取模块输出的ICD编码特征及RoBERTa模型提取的医疗文本特征，本模块运用标签注意力机制，个性化地为每个编码提取最终的预测特征，以期达到更优的编码结果。

具体地说，如图2所示，基于标签注意力机制的特征融合模块将步骤五得到的ICD编码特征用作Query矩阵Q∈R^n×d，n、d分别代表编码个数、编码特征维度；将步骤三得到的医疗文本特征用作Value矩阵V∈R^L×D，L、D分别代表输入文本长度、输入特征维度；最终输出矩阵O∈R^n×D，其中每一行对应各编码的最终预测特征，O的计算规则为：

其中W_K∈R^D×d为可训练的参数矩阵，Q，K，V是标签注意力机制的三个零部件，Q，V是给定，K则基于V算出。

在基于标签注意力机制的特征融合模块的运算中，为每个编码c _i（O矩阵中的每行ICD编码向量）配置单独的概率激活函数（sigmoid）输出层，以计算编码c _i的预测概率。采用的公式为：

，其中Wci∈R^D×1，b_ci为待训参数， p _i为概率值。

步骤七、在涉及基于医疗文本识别疾病编码的模型训练过程中，使用交叉熵作为损失函数（公式如下所示），在反向传播的过程中统一优化模型参数

其中，y _i取1或0，代表ICD编码c _i是否被实际分配，P _i为预测概率值。

步骤八，将患者的医疗文本输入到训练好的模型中，得到各疾病编码被分配的预测概率值，将疾病编码被分配的预测概率值与判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出。

在本步骤中，预设的疾病编码判定阈值根据需要设置，这里不限制。

步骤九、对疾病编码的自动编目过程进行动态监测，获取得到动态监测结果。

步骤十、根据所述动态监测结果，调整步骤一中的医疗文本，包括对医疗文本的补充及修订，之后，重复执行步骤一~步骤九，完成所述模型，包括疾病编码特征提取模块、疾病编码特征提取模块和基于标签注意力机制的特征融合模块的迭代训练。

更进一步地，如图6所示，图6为本申请实施提供的一种疾病编码的自动编目系统例子的具体结构示意图。在图5所示的系统总体结构的基础上，所述系统还包括数据预处理单元、结果输出与审核单元、动态更新与迭代单元，其中，

数据预处理单元，用于对所述医疗文本进行预处理，所述预处理包括：清洗出医疗文本中的除中文及英文字母外的符号；将清洗后的医疗文本中的大写字符转换为小写；按序连接预设的信息字段，预处理后的所述医疗文本发送给所述模型初始化单元；

本申请实施例可以基于对患者的医疗文本进行ICD编码的自动编目，并将确定的ICD编码写入到患者的病案首页中。具体地说，当编码员进入编目系统准备对某份病案首页编目时，会自动实施本申请实施例提供的方法，生成编目诊断以及对应的ICD编码，编码员对编目诊断进行审核，审核后的诊断作为最终的编目结果。采用本申请进行ICD编码的自动编目将极大的减少编码员的工作量，提升编码工作的效率和质量，特别是对于联合ICD编码、以及需要从诊疗经过、CT报告和/或超声报告的多个医疗文本中获取医疗文本的复杂ICD编码。与人工方式确定ICD编码相比，本申请能够更全面及准确的提取与编码相关的医疗文本，快速得出ICD编码结果。

举两个具体应用实例进行说明。

应用实例一：患者A患有主动脉瓣、二尖瓣以及三尖瓣多种瓣膜病，本申请在确定ICD编码时将其合并为联合编码，同时对于脑梗死的诊断，本申请从脑部超声报告中提取关键信息，确定的ICD编码为腔隙性脑梗死。具体如下所述。

患者A：

病案首页中的诊断信息：风湿性心脏病、主动脉瓣轻度关闭不全、二尖瓣中度狭窄、二尖瓣轻中度关闭不全、三尖瓣中度关闭不全、高血脂症、脑梗死；

超声报告：双侧基底节、右侧放射冠散在腔隙性梗塞灶。脑白质变性，老年样脑改变。

本申请预测的ICD编码的编目诊断：风湿性二尖瓣主动脉瓣三尖瓣联合瓣膜病、风湿性二尖瓣狭窄伴关闭不全、风湿性主动脉瓣关闭不全、风湿性三尖瓣关闭不全、自发性心绞痛、冠状动脉粥样硬化性心脏病、高脂血症、腔隙性脑梗死。

应用实例二：

患者B，诊疗经过中有肺部病变的信息，病案首页的诊断漏写肺气肿诊断，本申请在确定ICD编码时能够从诊疗经过中提取肺气肿的相关信息，给出肺气肿的ICD编码诊断。

患者B：

病案首页中的诊断信息：R-R长间歇，心律失常，心脏扩大，心房扑动。

诊疗经过：双肺肺气肿，双肺及左侧胸膜陈旧性病变......

本申请预测的ICD编码的编目诊断：R-R长间歇，心脏扩大，心房扑动，肺气肿。

上述两个案例均说明本申请具有全面、快速提取医疗关键信息并准确确定ICD编码的能力，使用本申请将极大提升ICD编码工作的效率和质量。

可以看出，本申请实施例应用于中文的疾病编码自动诊断过程，该方案基于医疗文本特征提取模块、疾病编码特征提取模块及基于标签注意力机制的特征融合模块实现。其中，本申请基于医疗文本对RoBERTa或BERT或ALBERT或XLNet模型进行无监督微调，并应用于编码特征的挖掘。相比于直接运用预训练模型或者卷积、循环神经网络等其他模型进行医疗文本特征提取，无监督微调后的RoBERTa或BERT或RoBERTa或ALBERT或XLNet模型更能挖掘于ICD编码有益的语义特征。本申请基于ICD编码构建一种无向加权图，用于表征ICD编码间的临床关联及语义关联，并应用二阶图卷积神经网络计算疾病编码特征，从而提升整体模型对编码间互斥、共现等特殊关系的分析能力。本申请利用基于标签注意力机制的特征融合模块整合医疗文本及疾病编码特征，以充分挖掘对编码有价值的信息，更准确地识别ICD编码。

在本申请的实施例中，还提供一种电子设备，包括：处理器；存储器，存储有程序，所述程序配置为在被所述处理器执行时实现如上述的一种疾病编码的自动编目方法。

在本申请的另一个实施例中，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时引发所述处理器执行前述实施例中的一种疾病编码的自动编目方法。

图7为本申请的另一个实施例所提供的一种电子设备的示意图。如图7所示，本申请实施例还提供一种电子设备，其可以包括处理器701，其中，处理器701用于执行上述一种疾病编码的自动编目方法的步骤。从图7中还可以看出，上述实施例提供的电子设备还包括非瞬时计算机可读存储介质702，该非瞬时计算机可读存储介质702上存储有计算机程序，该计算机程序被处理器701运行时执行上述一种疾病编码的自动编目方法的步骤。

具体地，该非瞬时计算机可读存储介质702能够为通用的存储介质，如移动磁盘、硬盘、FLASH、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、或便携式紧凑磁盘只读存储器（CD-ROM）等，该非瞬时计算机可读存储介质702上的计算机程序被处理器701运行时，能够引发处理器701执行上述的一种疾病编码的自动编目方法的各个步骤。

实际应用中，所述的非瞬时计算机可读存储介质702可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，能够执行上述的一种疾病编码的自动编目方法中的各个步骤。

本申请的再一实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述的一种疾病编码的自动编目方法的各个步骤。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本申请的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种疾病编码的自动编目方法，其特征在于，所述方法包括：

构建训练数据，训练数据包括医疗文本和疾病编码信息；

在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目；

所述疾病编码为疾病国际分类ICD编码；所述无向加权图由节点和边组成；

2.如权利要求1所述的方法，其特征在于，所述医疗文本特征提取模块为经过无监督微调后的中文预训练模型，所述中文预训练模型为RoBERTa、BERT、ALBERT或XLNet，所述的无监督微调基于训练数据中的医疗文本进行。

3.如权利要求2所述的方法，其特征在于，所述疾病编码特征提取模块为二阶图卷积神经网络，所述字符节点的初始特征为word2vec模型输出的字嵌入，所述编码节点的初始特征为编码名称中字嵌入的平均池化average-pooling结果，疾病编码特征提取模块最终输出的编码节点向量为疾病编码特征。

4.如权利要求3所述的方法，其特征在于，将所述医疗文本特征及所述疾病编码特征输入所述基于标签注意力机制的特征融合模块，得到疾病编码的最终预测特征，其中基于标签注意力机制的特征融合模块为基于标签注意力机制的神经网络，其前向运算计算公式为：

其中，Q∈R^n×d，代表疾病编码特征矩阵，n、d分别代表ICD编码个数及ICD编码特征维度；V∈R^L×D，代表医疗文本特征矩阵，L、D分别代表输入医疗文本长度、输入特征维度；W_K∈R^D×d，为待训练的参数矩阵，用于生成注意力机制中的Key矩阵；K为基于V及W_K的输出，表示Key矩阵；T表示对K矩阵进行转置操作；O为输出的结果，其中每一行对应各ICD编码的最终预测特征，表征了所述医疗文本与所述疾病编码间的相关性；

在所述疾病编码集合中，以编码c_i为例，c_i被分配的预测概率值计算公式为：

其中/> 为待训练的参数，p_i为预测概率值。

5.如权利要求4所述的方法，其特征在于，所述利用损失函数评估所述模型的预测误差，基于反向传播进行所述模型参数调优，以完成所述模型训练包括：

其中，y_i取1或0，代表ICD编码c_i是否被实际分配，p_i为预测概率值，n为疾病编码的个数。

6.如权利要求1-5任一所述的方法，其特征在于，所述将所述医疗文本输入到所述医疗文本特征提取模块中，提取得到医疗文本特征之前，还包括：对所述医疗文本进行预处理；

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

对所述疾病编码的自动编目的过程进行动态监测；

8.一种疾病编码的自动编目系统，其特征在于，所述系统包括：数据采集单元、模型初始化单元、模型调优单元、数据计算单元，其中，

所述模型化初始单元，用于根据疾病编码信息生成无向加权图，所述疾病编码特征提取模块基于无向加权图进行运算，得到疾病编码特征；

数据计算单元，用于在应用阶段，将患者的医疗文本输入训练好的所述模型，得到各疾病编码被分配的预测概率值，将所述疾病编码被分配的预测概率值与预设的疾病编码判定阈值对比，将符合所述判定阈值要求的所有疾病编码作为所述患者的疾病编码输出，完成疾病编码的自动编目；

9.如权利要求8所述的系统，其特征在于，还包括数据预处理单元、结果输出与审核单元、动态更新与迭代单元，其中，

10.一种电子设备，其特征在于，包括：处理器；

存储器，存储有程序，所述程序配置为在被所述处理器执行时实现如权利要求1至7中任一项所述的疾病编码的自动编目方法。

11.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的疾病编码的自动编目方法。