CN113723056B

CN113723056B - Icd编码转化方法、装置、计算设备和存储介质

Info

Publication number: CN113723056B
Application number: CN202110953991.5A
Authority: CN
Inventors: 徐伟风; 李易平
Original assignee: Hangzhou Huoshu Technology Co ltd
Current assignee: Hangzhou Huoshu Technology Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2024-07-16
Anticipated expiration: 2041-08-19
Also published as: CN113723056A

Abstract

本发明公开了一种ICD编码转化方法、装置、计算设备和存储介质，包括：提取并预处理待转化的ICD二元组{名称类，编码类}；针对每个预处理后的ICD二元组进行精转化，包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果；针对每个未关联的ICD二元组进行粗转化，包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。提升编码效率和编码准确率，且降低编码员工作量。

Description

ICD编码转化方法、装置、计算设备和存储介质

技术领域

本发明属于国际疾病分类编码领域，具体涉及一种ICD编码转化方法、装置、计算设备和存储介质。

背景技术

国际疾病分类(international classification of diseases,ICD)编码是医院等医疗机构使用的统一编码方法，该ICD编码允许不同国家或地区根据本国或地区实际情况进行扩展。在过去20年，我国各地区在WHO发布的ICD-10和ICD-9-CM-3的基础上扩展了将近20个编码版本，同一家医疗机构在不同的时期会有不同的编码版本，甚至同一家医疗机构在同一时间不同系统(如电子病历和病案首页)中也可能会使用不同的版本。另外，很多医院还会自行扩展院内ICD编码，这使得精细化统计分析难度加大，也使基于诊断编码或手术编码的大数据、机器学习的应用陷入困难。

随着医保支付方式的改革，尤其是诊断相关组(Diagnosis Related Groups,DRGs)收费制度的稳步推行，相关部门也在大力推进各种编码标准化，2019年针对疾病和手术操作编码分别发布了《ICD-10医保版1.0》和《ICD-9-CM-3医保版1.0》，方便其他不同版本能够转化，保障数据一致性，也为DRGs的实施和医院精细化管理奠定基础。

传统的ICD编码转化方法通常采用逐条翻译的模式，即由编码员将待转化的编码逐条翻译成标准的新编码，这种方法虽然保证了准确率，但效率较为低下。

发明内容

鉴于上述，本发明的目的是提供一种ICD编码转化方法、装置、计算设备和存储介质，提升编码效率和编码准确率，且降低编码员工作量。

第一方面，实施例提供的一种ICD编码转化方法，包括以下步骤：

提取并预处理待转化的ICD二元组{名称类，编码类}；

针对每个预处理后的ICD二元组进行精转化，包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果；

针对每个未关联的ICD二元组进行粗转化，包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

在一个实施例中，对待转化的ICD二元组的预处理包括：删除空格及特殊字符，统一大小写字母，统一同义词。

在一个实施例中，精转化过程中，以待转化的ICD二元组的名称类为基准，查找与名称类相同的标准名称类对应的标准ICD二元组，若查找到，则进行关联匹配，即将标准ICD二元组中的标准编码类作为待转化的ICD二元组的新编码类，提取关联的ICD二元组{名称类、新编码类}作为精转化结果。

在一个实施例中，粗转化过程中，计算名称类与每个标准名称类的余弦相似度作为相似度得分。

在一个实施例中，计算名称类与每个标准名称类的相似度得分，包括：

分别对名称类与每个标准名称类进行分词，分别合并名称类与每个标准名称类的分词结果以确定合并分词结果，依据名称类的分词结果、标准名称类的分词结果在合并分词结果中出现情况进行编码，确认名称类的分词向量，标准名称类的分词向量；

依据名称类的分词向量和标准名称类的分词向量，计算名称类与每个标准名称类的相似度得分。

在一个实施例中，粗转化过程中，计算编码类与每个标准ICD编码类的Jaro-Winkle距离作为距离得分。

在一个实施例中，粗转化过程中，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果，包括：

当名称类与每个标准名称类的相似度得分为1时，依据设置的相似度权重扩大相似度得分；

当编码类与每个标准ICD编码类的距离得分大于设定的距离阈值，依据设置的距离权重扩大距离得分；

将扩大的相似度得分与扩大的距离得分加权求和后获得综合得分，并选择综合得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

第二方面，实施例提供的一种ICD编码转化装置，包括：

获取及预处理模块，用于提取并预处理待转化的ICD二元组{名称类，编码类}；

精转化模块，用于针对每个预处理后的ICD二元组进行精转化，包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果；

粗转化模块，用于针对每个未关联的ICD二元组进行粗转化，包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

第三方面，实施例提供的一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的ICD编码转化方法的步骤。

第四方面，实施例提供的一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现第一方面所述的ICD编码转化方法的步骤。

上述实施例提供的技术方案，具有的有益效果至少包括：

根据标准ICD二元组，通过对待转化的ICD二元组进行精转化和粗转化过程，实现对ICD编码的快速转化，在保证准确率的基础上，大幅度地提高编码效率，同时大程度地减少编码员工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1和图2是一实施例提供的ICD编码转化方法的流程图；

图3是一实施例提供的ICD编码转化装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

通过分析不同编码版本，发现所有版本是在WHO发布的ICD编码的基础上进行的扩展，其中诊断编码实是在ICD-10亚目(前四位码)的基础上扩展，手术操作编码是在ICD-9-CM-3细目(前四位码)的基础上扩展，即使医院自行维护的编码也大致遵循这个原则，基于此，实施例提供了一种ICD编码转化方法和装置，同时根据名称和编码的相似度去实现自动转化，能够将不同版本的ICD编码转化为标准的ICD编码，在保证编码准确率的同时，减轻编码员的工作量，提高编码效率。

图1和图2是一实施例提供的ICD编码转化方法的流程图。如图1和2所示，实施例提供的一种ICD编码转化方法，包括以下步骤：

步骤1，提取并预处理待转化的ICD二元组。

病案库中包含待转化的所有诊断名称及对应的诊断编码，手术名称及对应的手术编码，通过提取待转化的诊断名称及对应的诊断编码，手术名称及对应的手术编码后，并对提取信息进行预处理后，形成ICD二元组{名称类，编码类}。其中，诊断名称和手术名称统称为名称类，诊断编码和手术编码统称为编码类。针对诊断，对应的ICD二元组为{诊断名称，诊断编码}，针对手术，对应的ICD二元组为{手术名称，手术编码}。

对提取信息的预处理包含：删除空格及特殊字符，统一大小写字母，统一同义词。在统一大小写字母时，可以将全部字母转化为大写或者小写。在统一同义词时，例如将“一”、“I”等统一为阿拉伯数字“1”。

经过预处理后的待转化ICD二元组，以ICD二元组为{诊断名称，诊断编码}为例，整理为表1形式用于后续的转化。

表1

步骤2，对ICD二元组进行精转化。

实施例中，对每个预处理后的ICD二元组进行精转化，具体过程包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果。

在进行精转化过程之前，需要对标准ICD二元组进行预处理，即对标准ICD二元组进行删除空格及特殊字符，统一大小写字母，统一同义词处理，以使得标准ICD二元组与待转化的ICD二元组对齐，便于精转化和粗转化过程。

精转化过程中，以待转化的ICD二元组的名称类为基准，查找与名称类相同的标准名称类对应的标准ICD二元组，若查找到，则进行关联匹配，即将标准ICD二元组中的标准编码类作为待转化的ICD二元组的新编码类，提取关联的ICD二元组{名称类、新编码类}作为精转化结果。

表2给出了精转化的结果，如表2所示，编号1和编号M可以精转化过程，即通过待转化诊断名称和标准诊断名称关联，确定关联的ICD二元组，即诊断编码1的最终编码为诊断编码1’，诊断编码M的最终编码为诊断编码M’。编号2的ICD二元组与标准ICD二元组未关联上，需要通过步骤3的粗转化过程转化。

表2

步骤3，对ICD二元组进行粗转化。

实施例中，对每个未关联的ICD二元组进行粗转化，具体过程包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

实施例中，可以采用计算名称类与每个标准名称类的余弦相似度作为相似度得分，采用计算编码类与每个标准ICD编码类的Jaro-Winkle距离作为距离得分，然后综合余弦相似度得分和Jaro-Winkle距离得分，筛选得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

实施例中，在计算相似度之前，需要对名称类和标准化名称类进行分词向量化，依据名称类的分词向量和标准名称类的分词向量的计算相似度。

以名称类A和第i个标准名称类B_i为例，说明名称类和标准化名称类的分词向量化过程。首先采用例如开源工具jieba等分词工具对名称类A和第i个标准名称类B_i进行分别分词，得到分词结果A＝{a₁,a₂,…,a_n}，B_i＝{b_i1,b_i2,…,b_im}，并合两个分词结果得到合并分词结果C_i＝{c_i1,c_i2,…,c_ik}，其中，k＝m+n。在不考虑分词间的关联性及先后顺序，根据C_i中的元素是否在A中出现进行编码，如出现则编码为1，若不出现则编码为0，以此得到名称类A的分词向量，同理，根据C_i中的元素是否在B_i中出现进行编码，如出现则编码为1，若不出现则编码为0，以此得到标准名称类B_i的分词向量。然后，依据名称类A的分词向量和标准名称类B_i的分词向量，计算名称类A与每个标准名称类B_i的相似度得分。

由于编码类和标准编码类直接以数字形式表示，所以不需要再进行编码，直接计算编码类与标准编码类之间的Jaro-Winkle距离，该Jaro-Winkle距离有效强调了前缀相同的重要性。

以编码类E和第j个标准编码类F_j为例，其中，比编码类E是与名称类A属于同一个ICD二元组，计算两者的Jaro-Winkle距离为：

Y_score(E,F_j)＝sim_jaro(E,F_j)+lp(1-sim_jaro(E,F_j))

其中，sim_jaro(E,F_j)的计算方法如下：

其中，l表示编码类E的字符串和标准编码类F_j的字符串相同的前缀个数，最大不超过4个，为缩放因子常量，p表示共同前缀对于相似度的贡献，p越大，表示共同前缀权重越大，最大不超过0.25，实施例中采用p＝0.1，|s_E|和|s_Fj|表示编码类E的字符串和标准编码类F_j的字符串的长度，m表示两字符串匹配字符数，t表示换位数目的一半，换位数目是指两个字符串中匹配字符数，例如字符串“bcade”和“abed”相同字符是abde共4个，且顺序均不同，因此，t＝2。

实施例中，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果，包括：

当名称类与每个标准名称类的相似度得分X_score为1时，依据设置的相似度权重α扩大相似度得分，即X_score＝α*X_score，α取值范围大于2，优选地，α取值为2～20，进一步优选地，取值为10。

当编码类与每个标准ICD编码类的距离得分Y_score大于设定的距离阈值ε，依据设置的距离权重β扩大距离得分，即Y_score＝β*Y_score，ε取值可以为0.95，β取值范围大于2，优选地，α取值为2～20，进一步优选地，取值为10。

将扩大的相似度得分与扩大的距离得分加权求和后获得综合得分，即综合得分F_score＝δX_score+γ*Y_score，其中，δ与γ为加权权重，δ可以取值为1，γ取值为0.8，然后选择综合得分最高的一组{标准名称类B_i，标准ICD编码类F_j}作为ICD二元组的粗转化结果。

实施例中，将精转化结果与粗转化结果共同作为ICD编码转化结果，这样就实现了对病案库中待标准化的名称类的标准编码转化。该转化过程结合精确匹配转化和模糊匹配转化两种方式，对待转化的ICD编码采取不同的策略进行转化，提高转化效率，在模糊匹配转化中，通过结合名称类的相似度得分和编码类的距离得分进行ICD编码转化，提高了转化准确率。

图3是一实施例提供的ICD编码转化装置的结构示意图。如图3所示，实施例提供的ICD编码转化装置300，包括：

获取及预处理模块310，用于提取并预处理待转化的ICD二元组{名称类，编码类}；

精转化模块320，用于针对每个预处理后的ICD二元组进行精转化，包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果；

粗转化模块330，用于针对每个未关联的ICD二元组进行粗转化，包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

需要说明的是，上述实施例提供的ICD编码转化装置在进行ICD编码转化时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的ICD编码转化装置与ICD编码转化方法实施例属于同一构思，其具体实现过程详见ICD编码转化方法实施例，这里不再赘述。

实施例还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，处理器执行所述计算机程序时实现上述ICD编码转化方法，包括以下步骤：

步骤1，提取并预处理待转化的ICD二元组；

步骤2，对ICD二元组进行精转化；

步骤3，对ICD二元组进行粗转化。

实际应用中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现ICD编码转化步骤。

实施例还提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理执行时实现上述ICD编码转化方法，包括以下步骤：

步骤1，提取并预处理待转化的ICD二元组；

步骤2，对ICD二元组进行精转化；

步骤3，对ICD二元组进行粗转化。

实施例中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种ICD编码转化方法，其特征在于，包括以下步骤：

提取并预处理待转化的ICD二元组{名称类，编码类}；

针对每个预处理后的ICD二元组进行精转化，包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果，包括：以待转化的ICD二元组的名称类为基准，查找与名称类相同的标准名称类对应的标准ICD二元组，若查找到，则进行关联匹配，即将标准ICD二元组中的标准编码类作为待转化的ICD二元组的新编码类，提取关联的ICD二元组{名称类、新编码类}作为精转化结果；

针对每个未关联的ICD二元组进行粗转化，包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，其中计算编码类与每个标准ICD编码类的Jaro-Winkler距离作为距离得分；

综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果，包括：当名称类与每个标准名称类的相似度得分X_score为1时，依据设置的相似度权重α扩大相似度得分，即X_score’＝α*X_score，α取值为2～20；当编码类与每个标准ICD编码类的距离得分Y_score大于设定的距离阈值，依据设置的距离权重β扩大距离得分，即Y_score’＝β*Y_score，β取值为2～20；将扩大的相似度得分X_score’与扩大的距离得分Y_score’加权求和后获得综合得分，并选择综合得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

2.如权利要求1所述的ICD编码转化方法，其特征在于，对待转化的ICD二元组的预处理包括：删除空格及特殊字符，统一大小写字母，统一同义词。

3.如权利要求1所述的ICD编码转化方法，其特征在于，粗转化过程中，计算名称类与每个标准名称类的余弦相似度作为相似度得分。

4.如权利要求1或3所述的ICD编码转化方法，其特征在于，计算名称类与每个标准名称类的相似度得分，包括：

5.一种ICD编码转化装置，其特征在于，包括：

精转化模块，用于针对每个预处理后的ICD二元组进行精转化，包括：对ICD二元组进行相对于标准ICD二元组{标准名称类，标准ICD编码类}的关联匹配，筛选得到关联的ICD二元组作为精转化结果，包括：以待转化的ICD二元组的名称类为基准，查找与名称类相同的标准名称类对应的标准ICD二元组，若查找到，则进行关联匹配，即将标准ICD二元组中的标准编码类作为待转化的ICD二元组的新编码类，提取关联的ICD二元组{名称类、新编码类}作为精转化结果；

粗转化模块，用于针对每个未关联的ICD二元组进行粗转化，包括：计算名称类与每个标准名称类的相似度得分、编码类与每个标准ICD编码类的距离得分，其中计算编码类与每个标准ICD编码类的Jaro-Winkler距离作为距离得分，综合相似度得分和距离得分筛选确定得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果，包括：当名称类与每个标准名称类的相似度得分X_score为1时，依据设置的相似度权重α扩大相似度得分，即X_score’＝α*X_score，α取值为2～20；当编码类与每个标准ICD编码类的距离得分Y_score大于设定的距离阈值，依据设置的距离权重β扩大距离得分，即Y_score’＝β*Y_score，β取值为2～20；将扩大的相似度得分X_score’与扩大的距离得分Y_score’加权求和后获得综合得分，并选择综合得分最高的一组{标准名称类，标准ICD编码类}作为ICD二元组的粗转化结果。

6.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～4任一项所述的ICD编码转化方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理执行时实现权利要求1～4任一项所述的ICD编码转化方法的步骤。