CN112183026B

CN112183026B - Icd编码方法、装置、电子设备和存储介质

Info

Publication number: CN112183026B
Application number: CN202011351677.1A
Authority: CN
Inventors: 尤心心; 刘喜恩; 吴及
Original assignee: Beijing Huiji Zhiyi Technology Co ltd
Current assignee: Beijing Huiji Zhiyi Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-11-23
Anticipated expiration: 2040-11-27
Also published as: CN112183026A

Abstract

本发明提供一种ICD编码方法、装置、电子设备和存储介质，其中方法包括：确定待编码的病历文本对应的多个候选ICD编码；基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码。本发明提供的方法、装置、电子设备和存储介质，在ICD编码过程中结合了各个候选ICD编码的疾病知识文本，使得ICD编码在考虑病历文本中涵盖的信息的同时，得到各个候选ICD编码对应疾病的诊疗知识作为支撑，在实现自动ICD编码的同时避免了过拟合的问题，提高了ICD编码的泛化性、准确性，保证了ICD编码的及时性。

Description

ICD编码方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种ICD编码方法、装置、电子设备和存储介质。

背景技术

国际疾病分类（International Classification of Diseases，ICD）是世界卫生组织（World Health Organization，WHO）制定的国际统一疾病分类方法，也是卫生信息标准体系的重要组成部分。

由于ICD编码与传统的疾病诊断之间存在很大的差异性，通常需要专业的ICD编码员应对该工作。然而编码员需要在翻阅详细厚重的病案信息后，才能给出正确的编码，编码效率极低。

发明内容

本发明提供一种ICD编码方法、装置、电子设备和存储介质，用以解决现有技术中人工进行ICD编码耗时耗力的缺陷。

本发明提供一种ICD编码方法，包括：

确定待编码的病历文本对应的多个候选ICD编码；

基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码。

根据本发明提供一种的ICD编码方法，所述基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码，包括：

基于所述病历文本与每一候选ICD编码的疾病知识文本中分别包含分词的分词表示，确定所述病历文本和每一疾病知识文本的语义特征；

基于所述病历文本和每一疾病知识文本的语义特征，确定所述病历文本对应的ICD编码；

其中，所述分词表示是基于样本病历文本中的所有分词、每一ICD编码的疾病知识文本中的所有分词以及每一ICD编码对应的疾病名词之间的词依赖性，以及每一疾病名词对应ICD编码之间的编码关联性确定的。

根据本发明提供一种的ICD编码方法，所述分词表示是基于如下步骤确定的：

基于样本病历文本中病案文本和诊断文本的所有分词、每一ICD编码的疾病知识文本的所有分词以及每一ICD编码对应的疾病名词之间的词共现信息，构建以分词为节点的词依赖关系图；

基于每一ICD编码之间的编码关联性，构建以疾病名词为节点的编码关系图，所述编码关联性包括每一ICD编码之间层级结构关系和/或每一ICD编码对应的疾病名词之间的语义相似关系；

确定所述词依赖关系图和所述编码关系图中各节点对应分词的分词表示。

根据本发明提供一种的ICD编码方法，所述确定所述词依赖关系图和所述编码关系图中各节点对应分词的分词表示，包括：

对所述词依赖关系图和所述编码关系图进行图内消息传递和图间消息传递，得到所述词依赖关系图和所述编码关系图中各节点对应分词的分词表示。

根据本发明提供一种的ICD编码方法，所述病历文本的语义特征包括所述病历文本中病案文本的语义特征和诊断文本的语义特征；

所述基于所述病历文本和每一疾病知识文本的语义特征，确定所述病历文本对应的ICD编码，包括：

计算所述病案文本的语义特征分别与每一疾病知识文本的语义特征之间的特征相似度，以及所述诊断文本的语义特征分别与每一疾病知识文本的语义特征之间的特征相似度；

基于每一特征相似度，确定所述病历文本对应的ICD编码。

根据本发明提供一种的ICD编码方法，所述语义特征包括粗粒度特征和细粒度特征；

所述粗粒度特征为对应文本中所有分词的分词表示的均值，所述细粒度特征包括对应文本中所有分词的分词表示。

根据本发明提供一种的ICD编码方法，所述确定待编码的病历文本对应的多个候选ICD编码，包括：

基于所述病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果，或基于所述病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果，以及所述诊断文本相对应的ICD编码层级，从所有ICD编码中选取多个候选ICD编码。

根据本发明提供一种的ICD编码方法，所述病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果是基于所述诊断文本与所有疾病名词之间的编辑距离、所述诊断文本中的各个分词在所有疾病名词中的重要性和鉴别性，以及所述诊断文本中的各个分词在所有疾病名词中的语义特征相关度中的至少一种确定的。

根据本发明提供一种的ICD编码方法，所述基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码，之后还包括：

基于与所述病历文本匹配的编码规则，对所述病历文本对应的ICD编码进行调整。

本发明还提供一种ICD编码装置，包括：

候选编码确定单元，用于确定待编码的病历文本对应的多个候选ICD编码；

ICD编码单元，用于基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述ICD编码方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述ICD编码方法的步骤。

本发明提供的ICD编码方法、装置、电子设备和存储介质，在ICD编码过程中结合了各个候选ICD编码的疾病知识文本，使得ICD编码在考虑病历文本中涵盖的信息的同时，得到各个候选ICD编码对应疾病的诊疗知识作为支撑，在实现自动ICD编码的同时避免了过拟合的问题，提高了ICD编码的泛化性、准确性，保证了ICD编码的及时性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的ICD编码方法的流程示意图之一；

图2是本发明提供的ICD编码方法的流程示意图之二；

图3为本发明提供的分词表示确定方法的流程示意图；

图4为本发明提供的ICD编码方法的流程示意图之三；

图5为本发明提供的基于语义特征的ICD编码网络的结构示意图；

图6是本发明提供的ICD编码方法的流程示意图之四；

图7是本发明提供的ICD编码装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

WHO将疾病诊断和其他健康问题的文字性描述转换成字母和数字组合编码的形式，即ICD编码的形式，供世界范围内的临床研究、医疗检测、卫生事业管理、费用把控部门所应用。例如，医院可以使用ICD编码记录患者的健康状况；保险公司的理赔人员使用ICD编码对疾病进行分类，并决定是否符合理赔条件；精算师还可以使用ICD编码分析健康趋势，并追踪发病率和死亡率。

ICD编码与疾病诊断之间存在很大的差异性，有时一个ICD编码可以覆盖一小类疾病，有时一个ICD编码也可以对应一个简单的医疗相关行为，因此需要经过专业培训的编码员来应对该工作。目前，专业的ICD编码员是非常稀缺的，且人工编码效率低下，尤其是对于住院病人病历文本的ICD编码工作，编码员需要翻阅详细厚重的完整病案信息后，才能给出正确的ICD编码，目前的情况难以满足医院对于大量患者的病历文本需要快速准确编码的普遍需求。

而目前基于人工智能的ICD编码方法大多是基于神经网络模型先抽取病历文本中的诊断名称和病案信息中的语义特征，然后将上述信息与编码列表进行匹配，或者基于上述信息直接进行分类。上述方案并没有考虑疾病本身所具有的知识，而是完全依赖于模型的训练样本，极易出现过拟合的情况，缺乏良好的泛化性能，且一旦训练样本标签有误，模型也无法区分，会继续进行参数回传，学习到错误的信息，影响后续的编码准确性。

针对上述问题，本发明实施例提供一种ICD编码方法。图1是本发明提供的ICD编码方法的流程示意图之一，如图1所示，该方法包括：

步骤110，确定待编码的病历文本对应的多个候选ICD编码。

具体地，在医疗诊断过程中，医生通常会根据患者的自述和询问撰写患者的病历，病历文本即患者的病历所对应的文本。此处患者的病历可以是电子病历，也可以是对纸质病历进行光学字符识别OCR得到病历文本。

待编码的病历文本即需要进行ICD编码的病历文本，待编码的病历文本可以对应多个候选ICD编码，此处候选ICD编码即可能与该病历文本适配的ICD编码，该病历文本对应的候选ICD编码可以覆盖全部的ICD编码，也可以是从全部的ICD编码中预先筛选得到的与该病历文本匹配度较高的ICD编码，本发明实施例对此不作具体限定。

步骤120，基于病历文本，以及每一候选ICD编码的疾病知识文本，确定病历文本对应的ICD编码。

具体地，可以预先为每一ICD编码设置对应的疾病知识文本，是携带有对应ICD编码所指示疾病的相关知识的描述性文本。针对任一ICD编码，该ICD编码的疾病知识文本可以该ICD编码对应疾病在症状、病因、检查、部位、治疗、人群、体征等各个方面的信息。

候选ICD编码的疾病知识文本中包含的疾病相关知识对于鉴别诊断具有非常重要的指导意义，将每一候选ICD编码的疾病知识文本应用于病历文本的ICD编码过程，可以将病历文本中包含的诊断结果以及病案信息中体现出来的患者在症状、病因、检查、部位、治疗、人群、体征等各个方面的特征，与各个候选ICD编码的疾病知识文本中包含的候选ICD编码对应疾病在上述各个方面的特征进行匹配，从而能够从各个候选ICD编码中选取中与病历文本匹配程度最高的ICD编码，作为病历文本对应的ICD编码。

本发明实施例提供的方法，在ICD编码过程中结合了各个候选ICD编码的疾病知识文本，使得ICD编码在考虑病历文本中涵盖的信息的同时，得到各个候选ICD编码对应疾病的诊疗知识作为支撑，在实现自动ICD编码的同时避免了过拟合的问题，提高了ICD编码的泛化性、准确性，保证了ICD编码的及时性。

目前自动化的ICD编码方法，通常是按照常规的深度学习思路提取病历文本中的语义特征再进行分类或者匹配，完全忽略了ICD编码体系本身的特性。事实上，ICD编码之所以独立于医生的诊断过程，正是因为ICD编码体系与疾病诊疗体系是两个不同的体系，ICD编码体系本身的逻辑性和层级性均能够对于病历文本的ICD编码产生辅助作用，对此，基于上述任一实施例，图2是本发明提供的ICD编码方法的流程示意图之二，如图2所示，步骤120包括：

步骤121，基于病历文本与每一候选ICD编码的疾病知识文本中分别包含分词的分词表示，确定病历文本和每一疾病知识文本的语义特征；其中，分词表示是基于样本病历文本中的所有分词、每一ICD编码的疾病知识文本中的所有分词以及每一ICD编码对应的疾病名词之间的词依赖性，以及每一疾病名词对应ICD编码之间的编码关联性确定的。

具体地，在执行步骤121之前，可以预先收集大量的样本病历文本，统计各个ICD编码的疾病知识文本，并记录各个ICD编码对应的疾病名词，此处的疾病名词是将ICD编码对应的疾病名称整体作为一个分词所得。在此基础上，将样本病历文本中的所有分词、各个ICD编码的疾病知识文本中的所有分词，以及各个ICD编码对应的疾病名词，均作为常用分词加入词表中。

针对词表中的各个常用分词，常用分词之间的词依赖性反映的是常用分词之间的依赖关系，例如如果某两个常用分词经常共同出现在同一分句或者同一语段中，则此这两者相对其他不经常同时出现的常用分词，具有更强的依赖的关系。由于词表中包含了病历文本、ICD编码的疾病知识文本中的所有分词以及ICD对应的疾病名词，此处各个常用分词之间的词依赖性不仅涵盖了病历文本中的共现依赖，还反映了疾病知识层面上的共现依赖，因此能够更加准确地体现出各个常用分词之间的依赖关系。

此外，由于ICD编码体系本身区别于疾病诊疗体系，ICD编码之间的编码关联性中包含了疾病诊疗体系之外的信息，例如ICD编码系统下各个ICD编码之间的层级关系，或者ICD编码对应疾病名词在语义上的关联性，均能够反映出各个ICD编码之间的关联性，而各个ICD编码之间的关联性亦可以作用于ICD编码的疾病名词之间的关联性。

结合各个常用分词之间的词依赖性，以及各个疾病名词对应ICD编码之间的编码关联性，提取词表中的各个常用分词的分词表示，使得由此得到的各个常用分词的分词表示不仅能够体现自身的语义信息，还能够涵盖与自身相关联的其他常用分词的语义信息，从而提高分词表示的准确性。

具体在步骤121中，针对病历文本，可以从词表中提取病历文本中包含的各个分词的分词表示，从而得到病历文本自身的语义特征；相同地，针对各个候选ICD编码的疾病知识文本，均可以从词表中提取疾病知识文本中包含的各个分词的分词表示，从而得到各个候选ICD编码的疾病知识文本的语义特征。

步骤122，基于病历文本和每一疾病知识文本的语义特征，确定病历文本对应的ICD编码。

具体地，在得到病历文本的语义特征，以及各个候选ICD编码的疾病知识文本的语义特征之后，即可将病历文本与各个候选ICD编码及其疾病知识文本在语义特征层面上进行匹配，从而确定病历文本对应的ICD编码。

本发明实施例提供的方法，样本病历文本中的所有分词、每一ICD编码的疾病知识文本中的所有分词以及每一ICD编码对应的疾病名词之间的词依赖性的应用，将疾病诊疗体系和ICD编码体系在词依赖层面上进行了融合；每一疾病名词对应ICD编码之间的编码关联性的应用，使得分词表示的抽取同时结合了ICD编码体系的自身特性，由此得到的分词表示更加准确，进而提升了病历文本的ICD编码的可靠性和准确性。

基于上述任一实施例，图3为本发明提供的分词表示确定方法的流程示意图，如图3所示，分词表示是基于如下步骤确定的：

步骤310，基于样本病历文本中病案文本和诊断文本的所有分词、每一ICD编码的疾病知识文本的所有分词以及每一ICD编码对应的疾病名词之间的词共现信息，构建以分词为节点的词依赖关系图。

具体地，考虑到ICD编码主要针对病历文本中医生给出的诊断结果进行编码，因此可以将病历文本中包含诊断结果对应的文本与病历文本中包含的其他信息的文本区分开来，此处诊断结果对应的文本即诊断文本，其他信息的文本即病案文本。其中，以门诊患者的病历文本为例，病案文本通常记录有患者的“年龄”、“性别”、“职业”等自身信息，以及“主诉”、“现病史”、“既往史”、“体格检查”等医疗信息，其中包含了患者的主要症状、起病原因、发病部位、体征等，与疾病知识之间存在直接或间接的关联。

此处可以将样本病历文本中病案文本的所有分词、诊断文本的所有分词，每一ICD编码的疾病知识文本的所有分词，以及每一ICD编码对应的疾病名词，均作为词依赖关系图中的节点，此处，一个分词对应一个节点，由此得到的图依赖关系图中包含两种类型的节点，一种为分词节点，对应于病案文本、诊断文本和疾病知识文本中的分词，另一种为疾病节点，对应于疾病名词。

图依赖关系图中所有节点之间的连接关系，可以通过节点之间的词共现信息实现，进一步地，分词节点之间的词共现信息，可以表示为分词之间的PMI（Point-wiseMutual Information，点互信息），可以根据两个分词节点之间的PMI确定是否连接上述两个分词节点，并在确定连接上述两个分词节点时将PMI值作为分词节点之间边的权重。通常，PMI值越大，则对应两个分词之间的词依赖性越强，PMI值越小，则对应两个分词之间的词依赖性越小。PMI可以基于如下公式计算得到：

式中，#W表示语料库中总的滑动窗口个数，#W(i)表示语料库中包含分词i的滑动窗口总数，#W(i,j)表示语料库中同时包含分词i和j的滑动窗口总数，此处所指的语料库即包含样本病历文本中的病案文本和诊断文本，以及各个ICD编码的疾病知识文本的文本库。作为优先，可以设置滑动窗口的大小为15。

此外，分词节点与疾病节点之间的词共现信息，可以表示为分词节点对应分词是否包含在疾病节点对应疾病名词中，如果包含，则连接该分词节点和疾病节点，并将两者之间的边的权重值设置为1，否则不连接该分词节点和疾病节点。

步骤320，基于每一ICD编码之间的编码关联性，构建以疾病名词为节点的编码关系图，编码关联性包括每一ICD编码之间层级结构关系和/或每一ICD编码对应的疾病名词之间的语义相似关系。

具体地，每个ICD编码对应的疾病名词，均可以作为编码关系中的一个节点，在此基础上，可以基于对应ICD编码之间的编码关联性，确定各个节点之间的连接关系。

此处，编码关联性可以基于每一ICD编码之间层级结构关系确定。ICD编码体系本身具有优良的层级结构，其三位码到四位码到六位码是符合层级张开规律的，因此如果两个六位码在同一个三位码下，则两个六位码具有一定的相关关系。例如，"肠道感染":"A09.000x001"，"出血性结肠炎":"A09.000x006"，这两个ICD编码具有相同前三位码"A09"，因此具有相关关系。在建立连接关系时，可以连接具有相同的前三位码的ICD编码对应疾病名词的节点，并将连接边的权重值设置为1。

此外，考虑到ICD编码体系的层级结构关系不一定能够完全反映ICD编码之间的关联性，例如"病毒性肠炎":"A08.401"，"肠炎":"K52.915"，这两个ICD编码的前三位码并不相同，但实际上都是肠炎相关疾病，本身具备一定的相关关系。因此，还可以基于每一ICD编码对应疾病名词之间的语义相似关系建立编码关系图中各节点之间的连接关系。具体可以抽取各个疾病名词的语义特征，并利用相似度计算公式计算每两个疾病名词之间的相似度，如果任意两个疾病名词之间的相似度大于预先设定的相似度阈值，则可以连接上述两个疾病名词对应的节点，并将相似度作为节点连接边的权重值；如果任意两个疾病名词之间的相似度小于等于预先设定的相似度阈值，则不连接上述两个疾病名词对应的节点。作为优选，相似度阈值可以设置为0.55。

由此得到的编码关系图，其连接关系可以是基于每一ICD编码之间层级结构关系确定的，也可以是基于每一ICD编码对应的疾病名词之间的语义相似关系确定的。此外，还可以构建两个编码关系图，其中一个的连接关系基于每一ICD编码之间层级结构关系确定，另一个的连接关系基于每一ICD编码对应的疾病名词之间的语义相似关系确定，本发明实施例对此不作具体限定。

需要说明的是，本发明实施例不对步骤310和步骤320的执行顺序作具体限定，步骤310可以在步骤320之前或者之后执行，也可以与步骤320同步执行。

步骤330，确定词依赖关系图和编码关系图中各节点对应分词的分词表示。

具体地，在分别得到词依赖关系图和编码关系图之后，考虑到编码关系图中的节点与词依赖关系图中的部分节点重合，可以联合此两者对图中的各个节点进行特征抽取，从而得到各个节点对应分词的分词表示。

基于上述任一实施例，步骤330包括：

对词依赖关系图和编码关系图进行图内消息传递和图间消息传递，得到词依赖关系图和编码关系图中各节点对应分词的分词表示。

具体地，分别对词依赖关系图和编码关系图进行图内消息传递，可以聚集在词依赖关系图和编码关系图中的每一个节点的邻居节点包含的特征信息，从而使得每个节点对应分词的分词表示中均可以包含所在关系图中的全局信息。

此外，词依赖关系图中包含有分词节点和疾病节点两类节点，而编码关系图中包含的节点均为疾病节点，也就是说词依赖关系图和编码关系图中存在相同的疾病节点。针对这种情况，可以联合词依赖关系图和编码关系图进行图间消息传递，使得同在词依赖关系图和编码关系图中的疾病节点包含的异构信息能够逐渐融入，达到全局稳定一致的状态。

进一步地，基于词依赖关系图和编码关系图的图内消息传递和图间消息传递可以通过张量图卷积网络（Tensor Graph convolutional Networks，TensorGCN）实现，TensorGCN在延续频域卷积的思想，执行图内消息传递的基础上，进一步实现了图间消息传递，为多图中同一节点的特征选择与融合提供了实现途径。考虑到编码关系图中并未包含词依赖关系图中的分词节点，具体在执行图间消息传递时，可以通过掩模的方式将词依赖关系图中的分词节点覆盖掉。

此外，通过张量图卷积网络可以实现针对词依赖关系图和编码关系图一次卷积操作，还可以在此基础上对前次卷积后的词依赖关系图和编码关系图进行多次卷积操作，并将多次卷积所得的词依赖关系图和编码关系图中各个节点的特征表示，作为对应分词的分词表示。作为优先，可以通过张量图卷积网络进行两次卷积。

基于上述任一实施例，步骤330中，图内消息传递可以通过张量图内卷积实现。

张量图内卷积旨在聚集一张拓扑图中每一个节点的邻居节点包含的特征信息。给定一个由多张图的邻接矩阵构成的张量

，n为图中节点数量，r为图的数量，第l层中第i个图经过如下张量图内卷积操作

后获取特征

其中

是规范化的对称图邻接张量，由r个规范化的对称邻接矩阵组成。矩阵规范化后不仅可以分离噪声点与正常点，还能够加速卷积运算。

是第l层中第i个图的特征矩阵，

是第l层中第i个图的可训练权重矩阵，

代表一种激活函数，具体可以选用leaky_relu函数。

基于上述任一实施例，步骤330中，图间消息传递可以通过张量图间卷积实现。

张量图间卷积旨在传递多张拓扑图中同一个节点包含的特征信息，以使得不同拓扑图中同一节点包含的异构信息能够逐渐融合，达到全局稳定一致的状态。将不同图中同一节点用边连接以获取虚拟图，利用

来表示不同拓扑图中的同一节点V_i，将不同拓扑图中的同一节点两两连接，并统一设置边上权重为1，即可获取节点V_i的虚拟图。对于图中所有n个节点，共生成n个上述虚拟图，由此构成一个新的图邻接张量

，图间卷积学习

按照下面公式进行：

其中

是图间卷积后第l+1层的输出特征张量，

是第l 层中第j个虚拟图的可训练权重矩阵。由于虚拟图中所有节点是全连接的，并且边上权重均为1，上式中的邻接矩阵

不需要再进行规范化操作。

基于上述任一实施例，病历文本的语义特征包括病历文本中病案文本的语义特征和诊断文本的语义特征。

具体地，考虑到ICD编码主要针对病历文本中医生给出的诊断结果进行编码，因此将病历文本中包含的病案文本和诊断文本区分开来，分别提取病案文本的语义特征和诊断文本的语义特征，从两个方面来表征病历文本整体的语义特征。

基于上述任一实施例，图4为本发明提供的ICD编码方法的流程示意图之三，如图4所示，步骤122包括：

步骤1221，计算病案文本的语义特征分别与每一疾病知识文本的语义特征之间的特征相似度，以及诊断文本的语义特征分别与每一疾病知识文本的语义特征之间的特征相似度；

步骤1222，基于每一特征相似度，确定病历文本对应的ICD编码。

具体地，假设待编码的病历文本对应有多个候选ICD编码，则此处对应有多个疾病知识文本。分别将病案文本的语义特征与多个疾病知识文本的语义特征进行特征相似度计算，可以得到病案文本对应的多个特征相似度；同样地，分别将诊断文本的语义特征与多个疾病知识文本的语义特征进行特征相似度计算，可以得到诊断文本对应的多个特征相似度。上述各个特征相似度的计算可以通过余弦相似度或者其他相似度算法实现。

在此基础上，可以结合病案文本对应的多个特征相似度和诊断文本对应的多个特征相似度，确定病历文本对应的ICD编码。

基于上述任一实施例，语义特征包括粗粒度特征和细粒度特征；粗粒度特征为对应文本中所有分词的分词表示的均值，细粒度特征包括对应文本中所有分词的分词表示。

具体地，病案文本的粗粒度特征是病案文本中包含的所有分词的分词表示的均值，记为medi_feature，病案文本的细粒度特征包括病案文本中包含的所有分词的分词表示，记为medi_word_feature。

类似地，诊断文本的粗粒度特征是诊断文本中包含的所有分词的分词表示的均值，记为diag_feature，诊断文本的细粒度特征可以包括诊断文本中包含的所有分词的分词表示，记为diag_word_feature。

疾病知识文本的粗粒度特征是疾病知识文本中包含的所有分词的分词表示的均值，记为disea_feature，疾病知识文本的细粒度特征可以包括疾病知识文本中包含的所有分词的分词表示，记为disea_word_feature。

图5为本发明提供的基于语义特征的ICD编码网络的结构示意图，如图5所示的ICD编码网络中，病案文本的粗粒度特征medi_feature和细粒度特征medi_word_feature，诊断文本的粗粒度特征disea_feature和细粒度特征diag_word_feature，分别与每个疾病知识文本的粗粒度特征disea_feature和细粒度特征disea_word_feature进行特征相似度的计算，并将计算所得的所有相似度输入到两层结构的全连接层Fully-Connected中，最终利用softmax得到病历文本对应的ICD编码。

基于上述任一实施例，步骤110包括：

基于病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果，或基于病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果，以及诊断文本相对应的ICD编码层级，从所有ICD编码中选取多个候选ICD编码。

具体地，目前的ICD编码体系下均包含极大数量的ICD编码，例如ICD-10版编码系统下共包含33423个ICD编码，每个ICD编码均代表一个或者一类疾病或医疗活动，如果直接从如此大的数量个ICD编码中查找病历文本对应的ICD编码，必然需要消耗大量的计算资源，查找速度极其缓慢。为了提升编码速度，本发明实施例中利用病历文本中的诊断文本与所有ICD编码对应的疾病名词进行匹配，从而优先排除掉一些明显无关的ICD编码，得到多个候选ICD编码。作为优选，候选ICD编码的数量可以是50。

此外，考虑到ICD编码体系本身具有优良的层级结构，其三位码到四位码到六位码是符合层级张开规律的，例如三位码"A00"："霍乱"，六位码"A00.000"："霍乱，由于O1群霍乱弧菌，霍乱生物型所致"，六位码"A00.000x001"："古典生物型霍乱"。相比于六位码的庞大数量（33243个），三位码只有1890个，平均每个三位码包含约18个六位码。因此，在考虑病历文本中的诊断文本与所有ICD编码对应的疾病名词之间匹配关系的同时，还可以基于病历文本中的诊断文本，预测病历文本对应ICD编码的三位码，即诊断文本对应的ICD编码层级，由诊断文本对应的ICD编码层级过滤到其余编码层级下的ICD编码，从而缩小候选ICD编码的选择范围。

其中，诊断文本相对应的ICD编码层级的确定可以基于预先训练好的基线模型实现。进一步地，基线模型在训练过程中学习了各个样本病历文本中的诊断文本与ICD编码层级之间的对应关系，从而能够根据输入的诊断文本输出对应的ICD编码层级。

例如，可以从所有ICD编码中，选取疾病名词与病历文本中的诊断文本之间的匹配度最高的40个ICD编码作为候选ICD编码。此外，在根据病历文本中的诊断文本，确定对应的ICD编码层级，在从该ICD编码层次下的各个ICD编码中，选取疾病名词与病历文本中的诊断文本之间的匹配度最高的10个ICD编码作为候选ICD编码，由此得到共50个候选ICD编码。

本发明实施例提供的方法，从文本层面上和ICD编码层级上进行候选ICD编码的筛选，不仅能够加快后续的编码速度，还能够提升编码准确性。

基于上述任一实施例，病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果是基于诊断文本与所有疾病名词之间的编辑距离、诊断文本中的各个分词在所有疾病名词中的重要性和鉴别性，以及诊断文本中的各个分词在所有疾病名词中的语义特征相关度中的至少一种确定的。

具体地，虽然疾病诊疗体系与ICD编码体系是两套不同的体系，但是疾病诊疗体系下的诊断文本所体现的疾病与ICD编码体系下各个ICD编码对应的疾病名词多数在字符层面是存在重叠。基于此，可以利用编辑距离公式计算诊断文本与所有疾病名词之间的距离，编辑距离公式度量了从诊断文本中表示的诊断名变换到疾病名词表示的疾病名需要的最少操作次数。操作次数越少，表明两个名称在字符层面越相似，编辑距离越小；相反，两个名称转换的操作次数越大，其在字符层面越不相似，编辑距离越大。例如：诊断文本为“不稳定性心绞痛”，与疾病名词“冠脉综合征”的编辑距离是7，与疾病名词“不稳定型心绞痛”的编辑距离是1，显然诊断文本与后者更相关。

在疾病名词中，不同的字词往往可以起到不同的鉴别作用。因此，还可以应用词频-逆文档频率（Term Frequency–Inverse Document Frequency，TF-IDF）指数度量各个疾病名词中的各个字词的重要性和鉴别性，公式如下：

其中

表示分词t出现在诊断名词d中的频率，反映分词t在诊断名词d中重要性，

可反映分词t在各个诊断名词中的特殊性，其中D表示所有疾病名词的集合，亦称语料库，N表示所有疾病名词的数量，n _t表示包含分词t的疾病名称的数量。

在得到各个疾病名词中各个分词的TF-IDF值后，针对诊断文本，可以判断诊断文本中的每个分词是否包含在任一ICD编码对应的疾病名词中，如果包含，则将该分词在对应疾病名词中的TF-IDF值作为该分词的得分，如果不包含，则将该分词的得分设置为0，对诊断文本中各个分词的得分作加权平均，得到诊断文本对应于该ICD编码的相关度得分。

此外，还可以利用预训练的语言模型得到各个疾病名词的语义表示，以及各个疾病名词中的各个分词的语义表示，例如可以利用word2vec获取各个疾病名词的200维特征数据，以及各个疾病名词中的各个分词的200维特征数据作为对应的语义表示。在此基础上，计算疾病名词整体的语义表示与疾病名词中各个分词的语义表示之间的语义特征相关度，以表征各个分词在对应疾病名词中的重要程度。

在得到各个疾病名词中各个分词的语义特征相关度后，针对诊断文本，可以判断诊断文本中的每个分词是否包含在任一ICD编码对应的疾病名词中，如果包含，则将该分词在对应疾病名词中的语义特征相关度作为该分词的得分，如果不包含，则将该分词的得分设置为0，对诊断文本中各个分词的得分作加权平均，得到诊断文本对应于该ICD编码的相关度得分。

例如，针对诊断文本，可以从所有ICD编码中选取编辑距离最小的30个疾病名词对应的ICD编码作为前30个候选ICD编码，再选取基于TF-IDF指数得到的相关度得分最高的10个疾病名词对应的ICD编码作为第31-40个候选ICD编码，选取基于语义特征相关度得到的相关度得分最高的10个疾病名词对应的ICD编码作为第41-50个候选ICD编码。

本发明实施例提供的方法，从多个维度进行病历文本和ICD编码的匹配，从而有效提高了候选ICD编码的召回率。

基于上述任一实施例，步骤120之后还包括：

基于与病历文本匹配的编码规则，对病历文本对应的ICD编码进行调整。

具体地，ICD编码体系作为一套独立的疾病与健康状况分类体系，在具体应用的时候具备特定的规则和要求，这些规则和要求可以整理形成编码规则，在自动编码完成后，用于校验自动编码所得的ICD编码是否符合ICD编码体系的特殊规则和要求。

此处的编码规则可以是对已出版的《医院管理学病案管理分册》、《疾病和有关健康问题的国际统计分类》等进行规则拆分汇总得到的。编码规则的设置，以及基于编码规则的ICD编码筛选，能够保证最终生成的ICD编码与专业编码员的思路保持一致，从而进一步保证病历文本对应的ICD编码合理准确。

例如，编码规则可以包括：

第十五、十六章为强烈优先分类章，只要识别到就诊科室为产科都会分配到这两章中的编码；

第一、二、五、十七和十九章为一般优先分类章，当上述章节的疾病与其它章节的疾病同时出现时，优先分到上述章节；

第十八和二十一章是最后分类章，一般不倾向于分到这两章，除非实在无法确定病因和疾病；

以下类目只适用于男性：B26.0、C60-C63、D07.4-D07.6、D17.6、D29、D40.-、E29.-、E89.5、F52.4、I86.1、I29.1、N40-N51、Q53-Q55、R86、S31.2-S31.3、Z12.5。相应地，也存在一些类目只适用于女性，此处不再赘述。

上述编码规则中所指的章节如下所示：

第十五章：妊娠、分娩和产褥期（O00-O99）

第十六章：起源于围生期的某些情况（P00-P96）

第一章：某些传染病和寄生虫病（A00-B99）

第二章：肿瘤（C00-D48）

第五章：精神和行为障碍（F00-F99）

第十七章：先天性畸形、变形和染色体异常（Q00-Q99）

第十九章：损伤、中毒和外因的某些其他后果（S00-T98）

第十八章：症状、体征和临床与实验室异常所见，不可归类在他处者（R00-R99）

第二十一章：影响健康状态和与保健机构接触的因素（Z00-Z99）

在基于步骤120得到病历文本对应的若干个ICD编码后，可以基于病历文本选取相对应的编码规则，再基于编码规则对此处的若干个ICD编码进行筛选，以筛除不符合上述编码规则的ICD编码，保留符合上述编码规则的ICD编码或者提高符合上述编码规则的ICD编码的排序，本发明实施例对此不作具体限定。

基于上述任一实施例，图6是本发明提供的ICD编码方法的流程示意图之四，如图6所示，一种ICD编码方法，包括如下步骤：

首先，确定待编码的病历文本，该病历文本包括：

病案文本：

主诉：左乳癌术后7月余。

现病史：患者因7个月前行左乳肿块切除活检术+乳癌改良根治术，术后于该院行EC×4，于日行曲妥珠单抗480mgd1+多西他赛l40 mgd1方案化疗，于开始予以左乳癌根治术后放疗：锁骨：12MeVe-电子线4000cGy/20f/29d，现入住我科寻求进一步治疗。

诊断文本：

乳腺癌

将上述病历文本输入到预筛选模块，从所有ICD编码中选取与诊断文本之间的相关性最高的50个候选ICD编码，其中部分如下所示：

在此之后，可以基于张量图卷积网络获取诊断文本、病案文本与每一候选ICD编码的疾病知识文本中分别包含分词的分词表示，确定诊断文本、病案文本和每一疾病知识文本的语义特征。

随即，将诊断文本、病案文本和每一疾病知识文本的语义特征输入ICD编码网络，以计算病案文本的语义特征分别与每一疾病知识文本的语义特征之间的特征相似度，以及诊断文本的语义特征分别与每一疾病知识文本的语义特征之间的特征相似度；将所有特征相似度按照从高到低的顺序排列，提取前5个特征相似度对应的候选ICD编码，作为病历文本对应的ICD编码。

此时得到的前5个ICD编码分别为：

双侧乳腺恶性肿瘤C50.900x005

恶性肿瘤术后靶向治疗Z51.807

乳腺恶性肿瘤个人史Z85.300x001

乳腺肿瘤D48.601

恶性肿瘤化学治疗后的随诊检查Z08.200

随即，对上述5个ICD编码进行编码规则调整，发现该病案文本反映的是恶性肿瘤术后的一些放化疗操作，得到调整后的推荐顺序如下：

恶性肿瘤术后靶向治疗Z51.807

恶性肿瘤化学治疗后的随诊检查Z08.200

双侧乳腺恶性肿瘤C50.900x005

乳腺恶性肿瘤个人史Z85.300x001

乳腺肿瘤D48.601

其中，排列在首位的恶性肿瘤术后靶向治疗Z51.807为病案文本实际对应的ICD编码。

基于上述任一实施例，ICD编码方法中应用的各个分词的分词表示是对词依赖关系图和编码关系图进行图内消息传递和图间消息传递得到的，图内消息传递和图间消息传递基于张量图卷积网络实现。

此外，语义特征层面上的候选ICD编码的匹配，可以基于图5示出的ICD编码网络实现。

在上述方法执行之前，可以对张量图卷积网络和ICD编码网络进行联合训练，将张量卷积网络输出的各个分词的分词表示应用于样本病历文本的语义特征以及对应候选ICD编码的疾病知识文本的语义特征的表示，从而输入到ICD编码网络进行ICD编码，输出样本病历文本对应的ICD编码，并与预先标注的样本病历文本的ICD编码标签进行比较，利用交叉熵或者其他类型的损失函数对张量图卷积网络和ICD编码网络进行梯度计算和参数回传优化，从而得到可用于ICD编码的训练好的张量图卷积网络和ICD编码网络。

此外，基于张量图卷积网络对词依赖关系图和编码关系图进行图内消息传递和图间消息传递，从而使得分词表示中包含了编码间的关系，由此得到的语义特征在应用于ICD编码时，能够保证预测所得的ICD编码均相互关联，避免出现差异较大的离谱错误。

下面对本发明提供的ICD编码装置进行描述，下文描述的ICD编码装置与上文描述的ICD编码方法可相互对应参照。

基于上述任一实施例，图7是本发明提供的ICD编码装置的结构示意图，如图7所示，该装置包括候选编码确定单元710和ICD编码单元720；

候选编码确定单元710用于确定待编码的病历文本对应的多个候选ICD编码；

ICD编码单元720用于基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码。

本发明实施例提供的装置，在ICD编码过程中结合了各个候选ICD编码的疾病知识文本，使得ICD编码在考虑病历文本中涵盖的信息的同时，得到各个候选ICD编码对应疾病的诊疗知识作为支撑，在实现自动ICD编码的同时避免了过拟合的问题，提高了ICD编码的泛化性、准确性，保证了ICD编码的及时性。

基于上述任一实施例，ICD编码单元720包括：

语义确定子单元，用于基于所述病历文本与每一候选ICD编码的疾病知识文本中分别包含分词的分词表示，确定所述病历文本和每一疾病知识文本的语义特征；

编码子单元，用于基于所述病历文本和每一疾病知识文本的语义特征，确定所述病历文本对应的ICD编码；

基于上述任一实施例，该装置还包括：

词依赖图单元，用于基于样本病历文本中病案文本和诊断文本的所有分词、每一ICD编码的疾病知识文本的所有分词以及每一ICD编码对应的疾病名词之间的词共现信息，构建以分词为节点的词依赖关系图；

编码关系图单元，用于基于每一ICD编码之间的编码关联性，构建以疾病名词为节点的编码关系图，所述编码关联性包括每一ICD编码之间层级结构关系和/或每一ICD编码对应的疾病名词之间的语义相似关系；

特征提取单元，用于确定所述词依赖关系图和所述编码关系图中各节点对应分词的分词表示。

基于上述任一实施例，所述特征提取单元用于：

基于上述任一实施例，所述病历文本的语义特征包括所述病历文本中病案文本的语义特征和诊断文本的语义特征；

编码子单元用于：

基于每一特征相似度，确定所述病历文本对应的ICD编码。

基于上述任一实施例，所述语义特征包括粗粒度特征和细粒度特征；

基于上述任一实施例，候选编码确定单元710用于：

基于上述任一实施例，所述病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果是基于所述诊断文本与所有疾病名词之间的编辑距离、所述诊断文本中的各个分词在所有疾病名词中的重要性和鉴别性，以及所述诊断文本中的各个分词在所有疾病名词中的语义特征相关度中的至少一种确定的。

基于上述任一实施例，该装置还包括调整单元，用于：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行ICD编码方法，该方法包括：

确定待编码的病历文本对应的多个候选ICD编码；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的ICD编码方法，该方法包括：

确定待编码的病历文本对应的多个候选ICD编码；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的ICD编码方法，该方法包括：

确定待编码的病历文本对应的多个候选ICD编码；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种ICD编码方法，其特征在于，包括：

确定待编码的病历文本对应的多个候选ICD编码；

基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码；所述疾病知识文本是携带有对应候选ICD编码所指示疾病的诊疗知识的描述性文本，所述疾病知识文本包括疾病在症状、病因、检查、部位、治疗、人群、体征方面的信息；

所述基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码，包括：

其中，所述分词表示是基于各常用分词之间的词依赖性，以及每一疾病名词对应ICD编码之间的编码关联性确定的，所述词依赖性为共现依赖，所述共现依赖是基于分词间的PMI确定的，所述编码关联性包括每一ICD编码之间层级结构关系和每一ICD编码对应的疾病名词之间的语义相似关系；

所述分词表示包括自身的语义信息，以及与自身相关联的其他常用分词的语义信息；

所述各常用分词包括样本病历文本中的所有分词、每一ICD编码的疾病知识文本中的所有分词以及每一ICD编码对应的疾病名词。

2.根据权利要求1所述的ICD编码方法，其特征在于，所述分词表示是基于如下步骤确定的：

基于每一ICD编码之间的编码关联性，构建以疾病名词为节点的编码关系图；

3.根据权利要求2所述的ICD编码方法，其特征在于，所述确定所述词依赖关系图和所述编码关系图中各节点对应分词的分词表示，包括：

4.根据权利要求1所述的ICD编码方法，其特征在于，所述病历文本的语义特征包括所述病历文本中病案文本的语义特征和诊断文本的语义特征；

基于每一特征相似度，确定所述病历文本对应的ICD编码。

5.根据权利要求4所述的ICD编码方法，其特征在于，所述语义特征包括粗粒度特征和细粒度特征；

6.根据权利要求1至5中任一项所述的ICD编码方法，其特征在于，所述确定待编码的病历文本对应的多个候选ICD编码，包括：

7.根据权利要求6所述的ICD编码方法，其特征在于，所述病历文本中的诊断文本与所有ICD编码对应的疾病名词之间的匹配结果是基于所述诊断文本与所有疾病名词之间的编辑距离、所述诊断文本中的各个分词在所有疾病名词中的重要性和鉴别性，以及所述诊断文本中的各个分词在所有疾病名词中的语义特征相关度中的至少一种确定的。

8.根据权利要求1至5中任一项所述的ICD编码方法，其特征在于，所述基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码，之后还包括：

9.一种ICD编码装置，其特征在于，包括：

ICD编码单元，用于基于所述病历文本，以及每一候选ICD编码的疾病知识文本，确定所述病历文本对应的ICD编码；所述疾病知识文本是携带有对应候选ICD编码所指示疾病的诊疗知识的描述性文本，所述疾病知识文本包括疾病在症状、病因、检查、部位、治疗、人群、体征方面的信息；

所述ICD编码单元用于：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述ICD编码方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述ICD编码方法的步骤。