CN108446260A

CN108446260A - 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统

Info

Publication number: CN108446260A
Application number: CN201810119014.3A
Authority: CN
Inventors: 孙广阳; 程岚; 苏倩
Original assignee: Tianjin Aydin Technology Co Ltd
Current assignee: Tianjin Aydin Technology Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-08-24

Abstract

本发明提出了一种基于语义近似匹配算法进行自动化疾病编码转换的方法及系统，包括：采集标准疾病编码和疾病诊断描述对照数据，建立疾病编码及对应描述的标准训练库；对标准训练库中的疾病诊断描述文字按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的标准疾病诊断描述；采集不标准疾病诊断描述文字，按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的不标准疾病诊断描述；将修改后的标准疾病诊断描述，依次与修改后的不标准疾病诊断描述计算相似度；根据计算得到的所有相似度，查找相似度最大值所对应的疾病编码，并提供至专家团队进行审阅。本发明可以大大提升了编码转换的效率和准确性。

Description

基于语义近似匹配算法进行自动化疾病编码转换的方法及系统

技术领域

本发明涉及计算机应用技术领域，特别涉及一种基于语义近似匹配算法进行自动化疾病编码转换的方法及系统。

背景技术

国际疾病分类(International Classification of Diseases，ICD)，是依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示的系统(也称“ICD10-国际版”)。是记录诊断信息的载体，是开展医疗数据分析、疾病诊断分组以及绩效评价、医保控费的基础。由于地域气候条件等差异，在具体医院将疾病分类应用于实践过程中，各地基于本地疾病特点对编码进行了不同细化，细化后的疾病分类方法称为“ICD10-临床版”。在编码版本不统一的情况下，不同医院对相同疾病诊断的描述不同，最终所用编码也不同。例如，在“ICD10-国际版”疾病分类方法中“睑痉挛”与“ICD10-临床版”中的“眼睑痉挛”诊断意义相同，前者编码为“G24.500”，而后者编码为“G24.501”，以致出现多个编码版本不统一的问题，进而严重影响着医疗数据的挖掘应用。

现有技术中解决此类编码匹配问题方案，主要依靠文字完全匹配或者人工识别。前种方法遇到文字微小偏差即无法识别，而后种方法工作量大，对人员能力素质要求高，难以确保转换准确。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于语义近似匹配算法进行自动化疾病编码转换的方法及系统。

为了实现上述目的，本发明的实施例提供一种基于语义近似匹配算法进行自动化疾病编码转换的方法，包括如下步骤：

步骤S1，采集标准疾病编码和疾病诊断描述对照数据，建立疾病编码及对应描述的标准训练库；

步骤S2，对所述标准训练库中的疾病诊断描述文字按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的标准疾病诊断描述；

步骤S3，采集不标准疾病诊断描述文字，按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的不标准疾病诊断描述；

步骤S4，将步骤S2中修改后的标准疾病诊断描述，依次与步骤S3中修改后的不标准疾病诊断描述计算相似度；

步骤S5，根据步骤S4计算得到的所有相似度，查找相似度最大值所对应的疾病编码，并提供至专家团队进行审阅。

进一步，在所述步骤S2和S3中，所述按照预设规则进行处理，包括如下步骤：删除文字中的标点符号和停用词。

在所述步骤S4中，所述计算相似度，包括如下步骤：

t＝2×replace+1×add；

其中，s_j表示S2中得到修改后的标准疾病诊断描述文字长度；s_a表示S3中修改后的不标准疾病诊断描述文字长度；t表示修改后的不标准疾病诊断描述文字最少操作变换为修改后的标准疾病诊断描述文字的加权和；add指增加、删除次数权重；replace 指替换次数权重。

本发明实施例提供一种基于语义近似匹配算法进行自动化疾病编码转换的系统，包括：采集模块、文字处理模块、相似度计算模块和查找模块，其中，所述采集模块用于采集标准疾病编码和疾病诊断描述对照数据，建立疾病编码及对应描述的标准训练库，以及采集不标准疾病诊断描述文字；所述文字处理模块用于对所述标准训练库中的疾病诊断描述文字按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的标准疾病诊断描述，以及对不标准疾病诊断描述文字，按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的不标准疾病诊断描述；所述相似度计算模块用于将修改后的标准疾病诊断描述，依次与修改后的不标准疾病诊断描述计算相似度；所述查找模块用于根据所述相似度计算模块计算得到的所有相似度，查找相似度最大值所对应的疾病编码，并提供至专家团队进行审阅。

进一步，所述文字处理模块用于按照预设规则进行处理，包括：删除文字中的标点符号和停用词。

进一步，所述相似度计算模块计算相似度，包括：

t＝2×replace+1×add；

其中，表示S2中得到修改后的标准疾病诊断描述文字长度；表示S3中修改后的不标准疾病诊断描述文字长度；t表示修改后的不标准疾病诊断描述文字最少操作变换为修改后的标准疾病诊断描述文字的加权和；add指增加、删除次数权重；replace指替换次数权重。

根据本发明实施例的基于语义近似匹配算法进行自动化疾病编码转换的方法及系统，可以完成不规范诊断文字标准化功能。当需要对新来的文字诊断进行编码转换时，使用这一转换器，即可输出预测的标准的疾病编码。本发明在ICD编码识别转换中创新应用了自然语言识别(NLP)技术，利用计算文本距离相似性等算法，实现了不同ICD(国际疾病分类)编码版本间自动转换，大大提升了编码转换的效率和准确性，节省医生记忆编码的时间，为医生能有更多精力研究医学技术提供帮助，也为后续临床医疗数据应用(如医学研究、疾病控费管理、医疗保险欺诈、医疗保险定价等)奠定了基础。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于语义近似匹配算法进行自动化疾病编码转换的方法的流程图；

图2为根据本发明实施例的基于语义近似匹配算法进行自动化疾病编码转换的方法的示意图；

图3为根据本发明实施例的基于语义近似匹配算法进行自动化疾病编码转换的系统的结构图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提供一种基于语义识别算法将ICD10-国际版编码转换成ICD10-临床版疾病编码的方法。本发明根据医生对病人写的主要诊断文字描述，自动对文字描述所代表的编码进行转换。具体地是通过获取一段时期内疾病分类编码和对应文字的样本数据集，然后将要转换目标编码及其文字，使用机器学习的方法训练出使用诊断文字进行转换的转换器。当需要对新来的文字诊断进行编码转换时，使用这一转换器，即可输出预测的标准的疾病编码。

如图1和图2所示，本发明实施例的基于语义近似匹配算法进行自动化疾病编码转换的方法，包括如下步骤：

步骤S1，采集标准疾病编码和疾病诊断描述对照数据，建立疾病编码及对应描述的标准训练库。

具体的，本步骤采集ICD10-临床版疾病编码和疾病诊断描述对照数据，然后建立疾病编码及对应描述标准训练库，记为DB1。

步骤S2，对标准训练库中的疾病诊断描述文字按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的标准疾病诊断描述，记为J。

在本步骤中，按照预设规则进行处理，包括如下步骤：对标准训练库DB1中的疾病诊断描述文字删除文字中的标点符号和停用词，然后进行分字操作。

步骤S3，采集不标准疾病诊断描述文字，按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的不标准疾病诊断描述，记为A。

具体的，本步骤采集ICD10-国际版的疾病诊断描述作为不标准疾病诊断描述文字。

在本步骤中，按照预设规则进行处理，包括如下步骤：对不标准疾病诊断描述文字删除文字中的标点符号和停用词，然后进行分字操作。

步骤S4，将步骤S2中修改后的标准疾病诊断描述J，依次与步骤S3中修改后的不标准疾病诊断描述A计算相似度。

在步骤S4中，计算相似度，包括如下步骤：

t＝2×replace+1×add

其中，s_j表示S2中得到修改后的标准疾病诊断描述文字长度；s_a表示S3中修改后的不标准疾病诊断描述文字长度；t表示修改后的不标准疾病诊断描述文字最少操作变换为修改后的标准疾病诊断描述文字的加权和。add指增加、删除次数权重，取值为1，replace指替换次数权重，取值为2。

具体的，依次将标准训练库DB1中所有修改后的诊断文字J分别与A重复S4操作计算各自相似度，并返回最大相似度所对应的疾病编码。然后，将最终编码返回医学专家团队审阅以供进一步优化系统。

下面对本发明实例使用的语义相似算法进行自动化疾病编码标准化系统进行举例说明。

(1)采集ICD10-临床版疾病编码与疾病描述数据作为标准训练库DB1。为了描述方便，表1中仅列出十九条病例；

表1疾病编码标准训练库

疾病编码	主要诊断描述
		A00.001	古典生物型霍乱
A00.101	埃尔托生物型霍乱
		A00.901	霍乱
A00.902	霍乱轻型
		A00.903	霍乱中型
A00.904	霍乱重型
		A00.905	霍乱暴发型
A01.001	伤寒
		A01.002	伤寒杆菌败血症
A01.003	伤寒并发脑膜炎
		A01.004	伤寒复发
A01.005	伤寒并发肺炎
		A01.006	伤寒迁延型
A01.007	伤寒逍遥型
		A01.008	伤寒并发腹膜炎
A01.009	伤寒并发肠穿孔

(2)对标准训练库DB1中主要诊断描述文字进行分字操作，去掉标准符号及停用词(如“和”、“的”)。表2为处理后的标准训练库DB2。

表2分字处理后的标准库

(3)对ICD10-国际版的文字描述重复步骤(2)中对文字处理。这里以“伤寒伴脑炎”为例。按照步骤(2)中处理方式可得处理结果A为“伤,寒,伴,脑,炎”。

(4)对标准库中“修改后主要诊断描述”列，按照下面相似度计算公式分别计算“伤,寒,伴,脑,炎”与他们各自的相似程度。

其中最少变换数加权和是指从实际描述转换成样例描述时，最少需要增加、删除、替换次数的加权和。其中增加、删除操作的权重为1，替换的权重为2。

以标准训练库中“古,典,生,物,型,霍,乱”和“伤,寒,并,发,脑,膜,炎”为例分别计算相似程度值。

对于“古,典,生,物,型,霍,乱”，将其与“伤,寒,伴,脑,炎”相比，前者共有5个字，后者共有7个字，从“伤寒伴脑炎”转换成“古典生物型霍乱”，最少总共需要替换5次，增加2次(也即最少变换数加权和为5×2+2×1＝12)，带入计算公式有

对于“伤,寒,并,发,脑,膜,炎”，将其与“伤,寒,伴,脑,炎”相比，前者共有7 个字，后者共有5个字，从“伤寒伴脑炎”转换成“伤寒并发脑膜炎”，最少总共需要替换1次(“伴”替换为“并”)，增加2个字(增加“发”，“膜”),也即最少变换数加权和为(1×2+2×1＝4)。将数据带入计算公式有：

对表2，依次对每个修改后的文字描述文字按照公式分别计算相似度值。可得到如表3所示计算结果。

表3相似度值汇总表

疾病编码	疾病诊断描述	相似度值
			A00.001	古典生物型霍乱	0
A00.101	埃尔托生物型霍乱	0
			A00.901	霍乱	0
A00.902	霍乱轻型	0
			A00.903	霍乱中型	0
A00.904	霍乱重型	0
			A00.905	霍乱暴发型	0
A01.001	伤寒	0.571429
			A01.002	伤寒杆菌败血症	0.333333
A01.003	伤寒并发脑膜炎	0.666667
			A01.004	伤寒复发	0.444444
A01.005	伤寒并发肺炎	0.545455
			A01.006	伤寒迁延型	0.4
A01.007	伤寒逍遥型	0.4
			A01.008	伤寒并发腹膜炎	0.5
A01.009	伤寒并发肠穿孔	0.333333

从表3中可以看出，与“伤寒伴脑炎”相似度最高值为0.66667，其对应标准文字描述为“伤寒并发脑膜炎”。

(5)将步骤(4)中计算结果交由医学专家团队审核，确定是否可以认为正确，以便进一步优化系统。

如图3所示，本发明实施例提供一种基于语义近似匹配算法进行自动化疾病编码转换的系统，包括：采集模块1、文字处理模块2、相似度计算模块3和查找模块4。

具体的，采集模块1用于采集标准疾病编码和疾病诊断描述对照数据，建立疾病编码及对应描述的标准训练库，以及采集不标准疾病诊断描述文字。

采集模块1采集ICD10-临床版疾病编码和疾病诊断描述对照数据，然后建立疾病编码及对应描述标准训练库，记为DB1。

文字处理模块2用于对标准训练库中的疾病诊断描述文字按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的标准疾病诊断描述，，记为J。文字处理模块 2进一步对不标准疾病诊断描述文字，按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的不标准疾病诊断描述，记为A。

在本发明的一个实施例中，文字处理模块2用于按照预设规则进行处理，包括：删除文字中的标点符号和停用词，然后进行分字操作。

相似度计算模块3用于将修改后的标准疾病诊断描述，依次与修改后的不标准疾病诊断描述计算相似度。

具体的，相似度计算模块3计算相似度，包括：

t＝2×replace+1×add

查找模块4用于根据相似度计算模块3计算得到的所有相似度，查找相似度最大值所对应的疾病编码，并提供至专家团队进行审阅。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于语义近似匹配算法进行自动化疾病编码转换的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于语义近似匹配算法进行自动化疾病编码转换的方法，其特征在于，在所述步骤S2和S3中，所述按照预设规则进行处理，包括如下步骤：删除文字中的标点符号和停用词。

3.如权利要求1所述的基于语义近似匹配算法进行自动化疾病编码转换的方法，其特征在于，在所述步骤S4中，所述计算相似度，包括如下步骤：

t＝2×replace+1×add；

其中，s_j表示S2中得到修改后的标准疾病诊断描述文字长度；s_a表示S3中修改后的不标准疾病诊断描述文字长度；t表示修改后的不标准疾病诊断描述文字最少操作变换为修改后的标准疾病诊断描述文字的加权和；add指增加、删除次数权重；replace指替换次数权重。

4.一种基于语义近似匹配算法进行自动化疾病编码转换的系统，其特征在于，包括：采集模块、文字处理模块、相似度计算模块和查找模块，其中，

所述采集模块用于采集标准疾病编码和疾病诊断描述对照数据，建立疾病编码及对应描述的标准训练库，以及采集不标准疾病诊断描述文字；

所述文字处理模块用于对所述标准训练库中的疾病诊断描述文字按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的标准疾病诊断描述，以及对不标准疾病诊断描述文字，按照预设规则进行处理，并对处理后的文字进行分字操作，得到修改后的不标准疾病诊断描述；

所述相似度计算模块用于将修改后的标准疾病诊断描述，依次与修改后的不标准疾病诊断描述计算相似度；

所述查找模块用于根据所述相似度计算模块计算得到的所有相似度，查找相似度最大值所对应的疾病编码，并提供至专家团队进行审阅。

5.如权利要求4所述的基于语义近似匹配算法进行自动化疾病编码转换的系统，其特征在于，所述文字处理模块用于按照预设规则进行处理，包括：删除文字中的标点符号和停用词。

6.如权利要求4所述基于语义近似匹配算法进行自动化疾病编码转换的系统，其特征在于，所述相似度计算模块计算相似度，包括：

t＝2×replace+1×add；