CN106844308A

CN106844308A - 一种使用语义识别进行自动化疾病编码转换的方法

Info

Publication number: CN106844308A
Application number: CN201710042733.5A
Authority: CN
Inventors: 谢国亮; 程岚; 孙志强; 杜玉恒; 苏倩
Original assignee: Tianjin Aydin Technology Co Ltd
Current assignee: Tianjin Aydin Technology Co Ltd
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2017-06-13
Anticipated expiration: 2037-01-20
Also published as: CN106844308B

Abstract

本发明提出了一种使用语义识别进行自动化疾病编码转换的方法，包括：采集原始编码和诊断描述的对应关系的样本数据集；对诊断文字历史库中的数据按照医学规则进行预处理并进行分词操作；对诊断文字训练集中的数据建立同义词词库，并按照医学规则进行处理和分词操作；计算诊断文字历史库的中每个词对应的文档IDF权重值；将诊断文字训练集中每条诊断文字记录进行分词操作，生成由文字转换而成的训练集TF‑IDF矩阵；将待转换诊断文字记录分词操作，转换成词向量后与训练集TF‑IDF矩阵比对，通过余弦相似度公式找到训练集中计算结果最相近所对应的疾病编码。本发明根据医生对病人写的诊断文字描述，自动对文字描述所代表的编码进行转换。

Description

一种使用语义识别进行自动化疾病编码转换的方法

技术领域

本发明涉及医学、计算机应用技术领域，特别涉及一种使用语义识别进行自动化疾病编码转换的方法。

背景技术

国际疾病分类(international Classification of diseases，ICD)，是依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示的系统。是记录诊断信息的载体，是开展医疗数据分析、疾病诊断分组以及绩效评价、医保控费的基础。在医疗机构实践中，各地基于疾病特点对编码进行了不同细化(ICD-10临床版)，且不同医院对相同疾病诊断的描述不同。例如，GB-ICD-10中的“睑痉挛”与BJ-ICD-10中的“眼睑痉挛”诊断意义相同，前者编码为“G24.500”，而后者编码为“G24.501”。由此出现了多个版本不统一问题，严重影响着医疗数据的挖掘应用。

现有技术中解决此类编码匹配问题方案，主要依靠文字完全匹配或者人工识别。前种方法遇到文字微小偏差即无法识别，而后种方法工作量大，对人员能力素质要求高，难以确保转换准确。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种使用语义识别进行自动化疾病编码转换的方法。

为了实现上述目的，本发明的实施例提供一种使用语义识别进行自动化疾病编码转换的方法，包括：

步骤S1，采集原始编码和诊断描述的对应关系的样本数据集，分别建立编码历史库和诊断文字历史库；采集所有标准编码和诊断描述形成训练集，分别建立编码训练集和诊断文字训练集；将需要进行转换的诊断描述形成测试集，分别建立编码测试集和诊断文字测试集；

步骤S2，对所述诊断文字历史库中的数据按照医学规则进行预处理，并对处理后的数据按照汉语规则进行分词操作；

步骤S3，对所述诊断文字训练集中的数据建立同义词词库，并按照医学规则进行处理，并对处理后的数据按照汉语规则进行分词操作；

步骤S4，分词操作后，将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包，并计算诊断文字历史库的词包中每个词对应的IDF权重值；

步骤S5，将诊断文字训练集中每条诊断文字记录中所有词，进行分词操作，并计算每个诊断文字记录对应的词向量，再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成得训练集TF-IDF矩阵；

步骤S6，读入要转换的文字进行分词，取出诊断文字历史库的词包中出现的次数，并提取对应词的IDF权重值，转换为TF-IDF矩阵，将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来，生出初步筛选后的训练集TF-IDF矩阵，提取所述编码测试集，提取前N位值，并从所述初步筛选后的训练集TF-IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵，作为筛选后的训练集TF-IDF矩阵；

步骤S7，将诊断文字测试集记录分词后匹配诊断以形成词向量，与所有筛选后的记录按照下面公式计算相似度sim_ij，并返回相似度最大值对应的疾病编码，

其中，表示第i个预测集病例描述转化后的词向量，表示第j个训练集病例描述转化后的词向量；

步骤S8，将最终编码结果发送给医学专家端进审核，根据医学专家反馈，以优化转换效果。

进一步，在所述步骤S2和S3中，

对诊断文字历史库和诊断文字训练集中的数据按照医学规则进行处理之前，还包括如下步骤：对数据进行去掉停用词处理。

进一步，在所述步骤S4中，所述每个词对应的文档IDF权重值IDF_第i个词为：

其中，i为分词编号。

进一步，在所述步骤S5中，所述计算第j个病例描述每i个词的权重值TF-IDF，对每一个编码对应词计算下去，并形成TF-IDF矩阵，

其中，i为分词编号，j为病例编号。

进一步，在所述步骤S6中，N取5，其中，前N位值包括小数点在内。

根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法，根据医生对病人写的主要诊断文字描述，自动对文字描述所代表的编码进行转换。具体地是通过获取一段时期内疾病分类编码和对应文字的样本数据集，然后将要转换目标编码及其文字，使用机器学习的方法，训练出使用诊断文字进行转换的转换器。当需要对新来的文字诊断进行编码转换时，使用这一转换器，即可输出预测的标准的疾病编码。本发明在ICD编码识别转换中创新应用了自然语言识别(NLP)技术，利用TF-IDF、余弦相似性等算法，实现了不同ICD(国际疾病分类)编码版本间自动转换，大大提升了编码转换的效率和准确性，为医疗数据应用(如医学研究、疾病控费管理)奠定了基础。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法的流程图；

图2为根据本发明实施例的使用语义识别进行自动化疾病编码转换的方法的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提出了一种使用语义识别进行自动化疾病编码转换的系统，可以根据医生主诊断文字说明进行机器语义识别转换。

如图1和图2所示，本发明实施例的使用语义识别进行自动化疾病编码转换的方法，包括如下步骤：

步骤S1，采集原始编码和诊断描述的对应关系的样本数据集，分别建立编码历史库和诊断文字历史库。具体地，采集某地区近三年所有原始编码和诊断描述的对应关系的样本数据集，将原始编码部分记为历史库编码，原始诊断描述记为历史库诊断文字。

采集所有标准编码和诊断描述形成训练集，分别建立编码训练集和诊断文字训练集。具体地，采集所有标准编码和诊断描述形成训练集，将训练集中编码部分记为训练集编码，训练集诊断描述记为训练集诊断文字。

将需要进行转换的诊断描述形成测试集，分别建立编码测试集和诊断文字测试集。具体地，将需要进行转换的诊断描述形成测试集，测试集中编码部分记为测试集编码，训练集诊断描述记为测试集诊断文字；

步骤S2，对诊断文字历史库中的数据按照医学规则进行预处理，并对处理后的数据按照汉语规则进行分词操作；

具体地，将历史库诊断文字进行去掉停用词，然后，按照医学规则预处理数据，将处理好的历史库诊断文字数据按照汉语规则进行分词操作。

步骤S3，对诊断文字训练集中的数据建立同义词词库，并按照医学规则进行处理，并对处理后的数据按照汉语规则进行分词操作。

具体地，将诊断文字训练集进行增加同义词词表，并重复上述对历史库诊断文字的同样处理操作，对数据进行去掉停用词处理，按照医学规则进行处理，并对处理后的数据按照汉语规则进行分词操作。

步骤S4，分词操作后，将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包，并计算诊断文字历史库的词包中每个词对应的文档IDF权重值。

在本步骤中，每个词对应的文档IDF权重值IDF_第i个词为：

其中，i为分词编号。

步骤S5，将诊断文字训练集中每条诊断文字记录中所有词，进行分词操作，并计算每个诊断文字记录对应的词向量，再将诊断文字记录对应的词向量整合在一起并作为由文字转换成的训练集TF-IDF矩阵。

具体地，计算第j个病例描述每i个词的权重值TF-IDF，对每一个编码对应词计算下去，并形成TF-IDF矩阵，

其中，i为分词编号，j为病例编号。

步骤S6，读入要转换的文字进行分词，取出诊断文字历史库的词包中出现的次，并提取对应词的IDF权重值，转换为TF-IDF矩阵，将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来，以便加快计算速度，生出初步筛选后的训练集TF-IDF矩阵，提取编码测试集，提取前N位值。

优选的，N取5，其中，前N位值包括小数点在内。

然后，从初步筛选后的训练集TF-IDF矩阵中进一步筛选编码训练集前N位与编码测试集前N位相同的矩阵，作为筛选后的训练集TF-IDF矩阵。

即，提取测试集编码，取其前五位值(包含小数点)，在S5的基础上进一步筛选训练集编码前五位与测试集编码前五位相同的矩阵。

其中，表示第i个预测集病例描述转化后的词向量，表示第j个训练集病例描述转化后的词向量。

步骤S8，将最终编码结果发送给专家端进审核，直至审核通过。

将测试数据匹配训练库的结果交由医疗编码专家审阅，将其中有明显问题的数据，修正后，加入训练集，重复步骤S2至S7，进而不断优化编码转换器的转换效果，提高工作的准确性。

下面对本发明实施例的使用语义识别进行自动化疾病编码转换的系统，进行举例说明。

(1)采集某地区医院历史病例描述。表1为病例历史记录数据集。为了描述方便，表1中仅列出十九条病例。历史病例库对于疾病编码准确性无准确性要求，只需要收集历史中出现疾病情况即可。

JBDM	ZYZD
		A00.000	古典生物型霍乱
A00.001	古典生物型霍乱。
		A00.101	埃尔托生物型霍乱
A00.901	霍乱
		A00.902	霍乱轻型
A00.903	霍乱中型
		A00.904	霍乱重型
A00.905	霍乱暴发型
		A01.000	伤寒
A01.000	伤寒？
		A01.001	伤寒
A01.001+	伤寒性肝炎
		A01.002	伤寒杆菌败血症
A01.003+G01*	伤寒并发脑膜炎
		A01.004	伤寒复发
A01.005	伤寒并发肺炎
		A01.005+J17.0*	伤寒并发肺炎
A01.006	伤寒迁延型
		A01.007	伤寒逍遥型

表1

(2)对历史数据文字进行分词操作，去掉停用词(如“和”、“的”)，将分词后所有剩下的不重复词汇汇总成一张总表，也就是“词包”。表2为病例历史记录分词后数据集。

JBDM	ZYZD
		A00.000	[古典，生物，型，霍乱]
A00.001	[古典，生物，型，霍乱]
		A00.101	[埃尔托，生物，型，霍乱]
A00.901	[霍乱]
		A00.902	[霍乱，轻型]
A00.903	[霍乱，中型]
		A00.904	[霍乱，重型]
A00.905	[霍乱，暴发型]
		A01.000	[伤寒]
A01.000	[伤寒]
		A01.001	[伤寒]
A01.001+	[伤寒，性，肝炎]
		A01.002	[伤寒杆菌，败血症]
A01.003+G01*	[伤寒，并发，脑膜炎]
		A01.004	[伤寒，复发]
A01.005	[伤寒，并发，肺炎]
		A01.005+J17.0*	[伤寒，并发，肺炎]
A01.006	[伤寒，迁延，型]
		A01.007	[伤寒，逍遥，型]

表2

汇总后去除重复项后得到的词包为：脑膜炎，逍遥，败血症，型，艾尔托，中型，霍乱，古典，肺炎，伤寒杆菌，重型，暴发型，并发，复发，性肝炎，生物，迁延，轻型，伤寒。

(3)计算历史词库中每一个词出现的权值IDF，计算公式是：

按照公式，如“脑膜炎”这个词，在19个病例中出现了1次，则其对应的IDF值为log(1/19)＝-2.9444。表3中各词的IDF值均是由此项公式计算而得。

词	IDF
		脑膜炎	-2.94444
逍遥	-2.94444
		败血症	-2.94444
型	-1.335
		埃尔托	-2.94444
中型	-2.94444
		霍乱	-0.865
古典	-2.25129
		肺炎	-2.25129
伤寒杆菌	-2.94444
		重型	-2.94444
暴发型	-2.94444
		并发	-1.84583
复发	-2.94444
		性肝炎	-2.94444
生物	-1.84583
		迁延	-2.94444
轻型	-2.94444
		伤寒	-0.64185

表3

(4)将文字编码对应准确(疾病分类编码版本为IDC-10)的数据集作为训练集，为了表示方便只显示十五条，如下表4所示：

表4

(5)对标准训练库中词进行同样分词处理，去掉停用词(如“的”、“和”等)，如表5所示：

JBDM	ZYZD
		A00.001	[古典，生物，霍乱，型]
A00.101	[埃尔托，生物，霍乱，型]
		A00.901	[霍乱]
A00.902	[霍乱，轻型]
		A00.903	[霍乱，中型]
A00.904	[霍乱，重型]
		A00.905	[霍乱，暴发型]
A01.001	[伤寒]
		A01.002	[伤寒杆菌，败血症]
A01.003	[伤寒，并发，脑膜炎]
		A01.004	[伤寒，复发]
A01.005+J17.0*	[伤寒，并发，肺炎]
		A01.006	[伤寒，迁延]
A01.007	[伤寒，逍遥]
		A01.008	[伤寒，并发，腹膜炎]

表5

(6)将训练库中按照每一条记录中所有词按照此公式转换成TF-IDF权重值，最终将疾病编码-词由文字转换成TF-IDF矩阵。

如疾病代码A00.001中，分词结束后，有古典、生物、霍乱、型4个词。古典在表3中对应的IDF值为-2.25129，A00.001中共有4个词，则“古典”在A00.001中对应的值为-2.25129/4＝-0.56282，同样的，“型”在A00.001中对应值为-1.335/4＝-0.33，“霍乱”对应值为-0.865/4＝-0.22，“生物”对应值为-1.845/4＝-0.45，然后把A00.001中其他词对应值填为0。

按照这种方法，对每一个编码对应词计算下去，最终可以得到由文字转化而成的矩阵如表6所示。

表6

(7)读入将要转换的文字进行分词，取出步骤三“词包”中出现过的词，然后提取对应词的IDF值，然后将其转换成如步骤(6)中的TF-IDF向量。

如“霍乱，由于01群霍乱弧菌，埃尔托生物所致”，分词后结果为“霍乱，由于，0，1，霍乱，弧菌，埃尔托，生物，所致”，筛选出词包中出现过的词：“霍乱，埃尔托，生物”。查询他们对应的IDF值，由表3知，分别为：-0.865，-2.944，-1.845。由于分词最终结束后此句话共有3个词，需要对每个词对应的值除以3。按照步骤三的顺序，将各个词对应的值按照字典表顺序可得最终的TF-IDF词向量为：

[0，0，0，0，-0.98，0，-0.29，0，0，0，0，0，0，0，-0.61，0，0，0]

(8)将所有含有待转换编码文字的编码对应的步骤(6)中的TF-IDF矩阵筛选出来。

如“霍乱，由于01群霍乱弧菌，埃尔托生物型所致”，分词后结果为：“霍乱，埃尔托，生物”，含有这三个词中任意一个词的训练库句子有古典生物型霍乱、埃尔托生物型霍乱、霍乱、霍乱轻型、霍乱中型、霍乱重型、霍乱暴发型。对应编码分别为：A00.001、A00.101、A00.901、A00.902、A00.903、A00.904、A00.905。表7示出了筛选出的矩阵。

表7

(9)按照余弦相似度公式依次计算这句话和训练库中各病例相似程度，选择相似度值最高的病例的疾病编码作为最终转换的ICD-10编码。

如“古典生物型霍乱”，古典生物型霍乱分词结束后转为“古典，生物，型，霍乱”，查询表3后得到对应的词向量为：

[0，0，0，-0.33，0，0，-0.22，-0.56，0，0，0，0，0，0，0，-0.46，0，0，0]

根据步骤(7)：“霍乱，由于01群霍乱弧菌，埃尔托生物型所致”对应的词向量为：

按照相似度计算公式：

分子为编号A00.001词向量与待翻译文字词向量乘积，分母为各词向量的长度乘积，计算值为：

重复上述相似度计算操作，分别对剩下6个编码对应的词向量进行计算，最终分别计算出相似度结果如表8所示：

预测	相似度
		A00.001	0.34891244
A00.101	0.93700953
		A00.901	0.24185056
A00.902	0.06816853
		A00.903	0.06816853
A00.904	0.06816853
		A00.905	0.06816853

表8

最后返回相似度最高的预测编码，也即“A00.101”。

(10)为了进一步优化计算效率，在读取测试数据时，同时读入待转换编码和待转换文字，对编码和标准训练集编码分别提取前五位数字，只有当待转换编码前五位与标准训练集编码前五位相同，才纳入计算范围。这样同时考虑编码文字相似性和编码前五位值进行转换编码，可以极大优化系统计算速度。

参考表9，如步骤(7)中“霍乱，由于01群霍乱弧菌，埃尔托生物型所致”，其对应待转换编码为“A00.100”，编码前五位为“A00.1”，标准训练集编码满足前五位数值为“A00.1”的代码只有“A00.101”，这样即可在步骤(9)比较7次的基础上，进一步缩小比较范围达到仅需要比较1次的效果，并可以确定A00.101作为其转换后的编码。

表9

(11)以预测值为作为训练集表和测试集表连表的标准，连接测试数据集和训练集的文字。然后将此结果反馈给医疗专家，由专家指出系统预测正确与不足情况，重复步骤(1)至步骤(10)以便从准确度上进一步优化本方案。

如表10所示，左两列数据为需要转换编码的数据，有两列数据为根据疾病编码转换系统得出的预测编码及对应的文字描述。

JBDM	ZYZD	prediction	describe
				A00.000	霍乱，由于01群霍乱弧菌，霍乱生物型所致	A00.901	霍乱
A00.100	霍乱，由于01群霍乱弧菌，埃尔托生物型所致	A00.101	埃尔托生物型霍乱
				A00.900	霍乱	A00.901	霍乱
A01.000	伤寒	A01.001	伤寒
				A01.002+G01*	伤寒性脑膜炎	A01.003+G01*	伤寒并发脑膜炎
A01.003	伤寒杆菌性败血症	A01.002	伤寒杆菌败血症

表10

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种使用语义识别进行自动化疾病编码转换的方法，其特征在于，包括如下步骤：

步骤S4，分词操作后，将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包，并计算诊断文字历史库的词包中每个词对应的文档IDF权重值；

步骤S5，将诊断文字训练集中每条诊断文字记录中所有词，进行分词操作，并计算每个诊断文字记录对应的词向量，再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成的训练集TF-IDF矩阵；

{Sim}_{i j} = \frac{{\overset{&RightArrow;}{a}}_{i} \times {\overset{&RightArrow;}{b}}_{j}}{| {\overset{&RightArrow;}{a}}_{i} | \times | {\overset{&RightArrow;}{b}}_{j} |},

步骤S8，将最终编码结果发送给医学专家端进审核，以优化编码转换效果。

2.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法，其特征在于，在所述步骤S2和S3中，

3.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法，其特征在于，在所述步骤S4中，所述每个词对应的文档IDF权重值IDF_第i个词为：

其中，i为分词编号。

4.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法，其特征在于，在所述步骤S5中，所述计算第j个病例描述每i个词的权重值TF-IDF，对每一个编码对应词计算下去，并形成TF-IDF矩阵，

其中，i为分词编号，j为病例编号。

5.如权利要求1所述的使用语义识别进行自动化疾病编码转换的方法，其特征在于，在所述步骤S6中，N取5，其中，前N位值包括小数点在内。