CN108182972B

CN108182972B - 基于分词网络的中文疾病诊断的智能编码方法及系统

Info

Publication number: CN108182972B
Application number: CN201711352963.8A
Authority: CN
Inventors: 李本文; 赵蕾; 段珂; 任永超; 邹智超; 罗世利
Original assignee: Shanghai Changjiang Technology Development Co ltd; Cetc Software Information Services Co ltd
Current assignee: Zhong electricity Ke software information Services Co., Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-07-20
Anticipated expiration: 2037-12-15
Also published as: CN108182972A

Abstract

本发明提供的基于分词网络的中文疾病诊断的智能编码方法及系统，包括如下步骤：步骤1，获取中文疾病诊断名称；步骤2，将中文疾病诊断名称与动态扩充分词网络进行适配，从中文疾病诊断名称中提取关键信息并将提取的关键信息组成关键词组；步骤3，将关键词组与词组编码映射表进行适配并输出未匹配的结果或ICD编码。与现有技术相比，本发明的有益效果如下：1、统一了医疗病案数据在异构条件下的标准编码，进而为医疗质量和医保基金的管理决策提供坚实的数据标准化支撑，推动我国临床医学实践的逐步标准化和规范化。2、通过本方法，可以自动完成ICD编码工作，无需人工参与，具有编码速度高、成本低、正确率高等优点。3、统一的标准ICD编码。

Description

基于分词网络的中文疾病诊断的智能编码方法及系统

技术领域

本发明涉及医疗信息管理技术领域，具体地，涉及一种基于分词网络的中文疾病诊断的智能编码方法及系统。

背景技术

国际疾病分类(International Classification of Diseases，ICD)，是WHO制定的国际统一的疾病分类方法，它根据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，使其成为一个有序的组合，并用编码的方法来表示的系统。ICD使得疾病名称标准化、格式化。这是医学信息化、医院信息管理等临床信息系统的应用基础。中文医学术语的标准化建设大大落后于西文医学术语的标准化，我国的医学术语标准化进程是从大量引进和翻译国际标准开始的。ICD-10中文版被国家卫计委指定为临床诊断、疾病类术语的通用标准。

然而，由于疾病覆盖范围广，种类繁多，命名十分复杂。在疾病上报、病案统计管理和医保报销等工作中，国内各医疗机构对疾病编码使用存在较大差异，各自在WHO提供的国际标准ICD编码上进行了本地化修改，导致编码多源异构、存在缺失和难以统一的问题。因此需要构建一种中文疾病诊断信息的智能编码方法，可自动将不同医疗机构的不同中文疾病诊断信息进行自然语言处理，标准化为通用标准的ICD编码，进而为医疗质量和医保基金的管理决策提供坚实的数据标准化支撑，使得ICD疾病信息得到最大范围的共享，可以反映国家卫生状况，也是医学科研和教学的工具和资料。

申请号为：201510496513.0，名称为：一种自动化的国际疾病分类编码方法及系统，主要是基于标准术语库和扩充术语库，查找与待编码名称相匹配的标准术语或扩充术语，并将匹配成功的标准术语或扩充术语的编码，确定为待编码名称的编码；其中，标准术语是所要参考的ICD版本中包含的各个疾病术语，扩充术语是标准术语的俗称、别称或缩略语，或标准术语的子类疾病术语，或新产生的疾病术语。

上述专利文献主要是研究术语的属种关系，当扩充术语为任意一个标准术语的子类疾病术语或新产生的疾病术语时，将与该扩充术语的属种关系最接近的标准术语的编码赋予该扩充术语。而我们的方法在于首先构建起分词网络，基于构建的分词网络对输入的中文诊断名称进行适配，从诊断名称中提取关键信息，得到症状、部位、病因及其他四个部分组成的关键词组合，再匹配预先构建的“词组合与编码映射表”，经过精确匹配或是模糊匹配，得到中文名称对应的最终ICD编码；并不关心这些术语之间的从属关系，单纯集中于对自然语言的处理。

申请号为：201610571791.2，名称为：基于编码智能适配的诊断相关分组方法及系统，其适配的主要目的是将编码统一为病例分组系统能够识别的国际标准诊断编码(ICD-10-CM)和手术操作编码(ICD-10-PCS)，提高病例分组系统的适应性；而我们的技术适配的宽度更广、深度更深，可以将任意中文诊断名称和手术操作名称分别适配到特定版本的ICD诊断编码和ICD手术操作编码，以解决医院编码多源异构、缺失和标准不统一，有利于医院信息化的建设。另外，两者适配的方法也有很大差异。上述专利文献适配时需借助“区块”，即需借助输入的原诊断编码，而我们的技术不需要借助原来的编码来进行适配，完全基于诊断中文名称分词后提取关键信息，再进行精确匹配或是模糊匹配。本技术方案同样是上述专利文献在应用时的基础和前提条件。此外，我们的技术能够应用于医院病案科的编码对码工作，如把以前使用的ICD版本对应到最新的ICD版本，能够提高对码的工作效率。

申请号：201510831116.4，名称为一种智能诊断手术编码检索方法，上述专利文献主要是基于用户输入的诊断或是手术名称在预设的整个诊断或手术编码字符集合中，检索出匹配强度最高的编码集合，技术发明侧重于检索目标字符串在预设数据库中的匹配程度。两者的方法没有相似性，上述专利没有适配，是基于检索来实现；而我们的技术在于首先构建起分词网络，并且可以将这个网络不断丰富和完善，以增加适配的广度，只要输入任意的中文名称，就能得到在指定版本中最接近的ICD编码。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种的基于分词网络的中文疾病诊断的智能编码方法及系统。

为解决上述技术问题，本发明提供的基于分词网络的中文疾病诊断的智能编码方法，包括如下步骤：

步骤1，获取中文疾病诊断名称；

步骤2，将中文疾病诊断名称与动态扩充分词网络进行适配，从中文疾病诊断名称中提取关键信息并将提取的关键信息组成关键词组；

步骤3，将关键词组与词组编码映射表进行适配并输出未匹配的结果或ICD编码。

优选地，关键信息包括症状信息、部位信息、病因信息及其他信息；其中

其他信息至少包括程度信息、病程信息及病情信息。

优选地，步骤2包括：

将关键信息按照动态扩充分词网络中的症状词库由长到短匹配症状信息，并结合症状词顺序表中各个症状信息的优先级，得到症状词；

将关键信息按照动态扩充分词网络中的部位词库由长到短匹配部位信息，并结合部位词顺序表中各个部位信息的优先级，得到部位词；

将关键信息按照动态扩充分词网络中的病因词库由长到短匹配病因信息，并结合病因词顺序表中各个病因信息的优先级，得到病因词；

将关键信息按照动态扩充分词网络中的其他词库由长到短匹配其他信息，并结合其他词顺序表中各个其他信息的优先级，得到其他词；

关键词组至少包括症状词、部位词、病因词及其他词。

优选地，步骤3中的适配包括：

步骤3.1，第一级适配：对关键词组与词组编码映射表进行精确适配；

若关键词组与词组编码映射表匹配，则输出与关键词组对应的ICD编码，智能编码方法结束；

若关键词组与词组编码映射表不匹配，则进入步骤3.2；

步骤3.2，第二级适配：对关键词组与词组编码映射表进行模糊适配。

优选地，步骤3.2，第二级适配包括：

步骤3.2.1，查找动态扩充分词网络中包含最多已匹配关键词的路径；

步骤3.2.2，计算路径中的剩余关键词与输入的中文疾病诊断名称的关键信息匹配的个数，选取匹配路径；其中

剩余关键词为关键词组中非已匹配的关键词。

优选地，步骤3.2.1包括：

步骤3.2.1.1，从动态扩充分词网络中筛选出包含了已匹配的症状词的所有第一筛选路径；若关键词组中无症状词，则输出未匹配的结果，智能编码方法结束；

步骤3.2.1.2，从第一筛选路径中筛选出包含了已匹配的部位词、病因词或其他词的第二筛选路径；

路径为所有的第二筛选路径中按照症状词、部位词、病因词及其他词筛选的包含已匹配关键词最多的路径。

优选地，步骤3.2.2中，若匹配的关键词的个数相同时，选取不匹配的关键词个数最少的路径作为匹配路径，并通过词组编码映射表得到匹配路径对应的ICD编码并输出该ICD编码。

优选地，动态扩充分词网络的创建包括如下步骤：

将不同地区或不同版本的ICD编码及对应中文疾病诊断名称作为训练集输入；其中

当相同中文疾病诊断名称对应不同的ICD编码时，保留首字母较小的ICD编码；若当前位字母相同，则比较下一位的字母，直至尾字母；

从诊断名称中提取症状信息、部位信息、病因信息及其他信息对应的关键词，分别构建症状词库、部位词库、病因词库和其他词库；

按照症状词、部位词、病因词及其他词的长度由长到短，分别构建症状词顺序表、部位词顺序表、病因词顺序表和其他词顺序表，生成排序森林；其中

长度越长的排序越靠前，优先级越高。

优选地，词组编码映射表的创建包括如下步骤：

确定所要参考的ICD版本；

提取训练集中与确定所要参考的ICD版本中中文疾病诊断名称相同的记录，用确定所要参考的ICD版本中的ICD编码替换训练集中的ICD编码；

提取训练集中与确定所要参考的ICD版本中中文疾病诊断名称不同的记录，将确定所要参考的ICD版本中中文疾病诊断名称匹配已生成的动态扩充分词网络，以最相似的确定所要参考的ICD版本记录的ICD编码作为映射编码；其中

最相似的确定所要参考的ICD版本记录的ICD编码为与动态扩充分词网络对应部分匹配的关键词个数最多的记录或匹配关键词个数相同时不匹配关键词个数最少的记录。

一种基于分词网络的中文疾病诊断的智能编码方法的系统，包括存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的基于分词网络的中文疾病诊断的智能编码方法的步骤。

与现有技术相比，本发明的有益效果如下：

1、统一了医疗病案数据在异构条件下的标准编码，进而为医疗质量和医保基金的管理决策提供坚实的数据标准化支撑，推动我国临床医学实践的逐步标准化和规范化。

2、通过本方法，可以自动完成ICD编码工作，无需人工参与，具有编码速度高、成本低、正确率高等优点。

3、统一的标准ICD编码，可以反映国家卫生疾病状况，也是医学科研和教学的工具和资料。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征目的和优点将会变得更明显。

图1为本发明基于分词网络的中文疾病诊断的智能编码方法流程图；

图2为本发明基于分词网络的中文疾病诊断的智能编码方法的精确匹配和模糊匹配流程图；

图3为本发明基于分词网络的中文疾病诊断的智能编码方法的构建动态扩充的分词网络和症状词顺序表、部位词顺序表、病因词顺序表和其他词顺序表流程图；

图4为本发明基于分词网络的中文疾病诊断的智能编码方法的构建词组合与编码映射表之第一步流程图；

图5为本发明基于分词网络的中文疾病诊断的智能编码方法的构建词组合与编码映射表之第二步流程图；

图6为本发明基于分词网络的中文疾病诊断的智能编码方法的构建词组合与编码映射表之第三步流程图；

图7为本发明基于分词网络的中文疾病诊断的智能编码方法的构建词组合与编码映射表之第四步流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种基于分词网络的中文疾病诊断的智能编码方法，包括如下步骤：

步骤1：输入中文疾病诊断名称；

步骤2：基于预先建立的动态扩充的分词网络进行适配，从中文疾病诊断名称中依次提取关键信息，得到症状信息、部位信息、病因信息及其他信息四个部分组成的关键词组合，适配时遵循分词由长到短、优先级由高到低的原则。

步骤2，进一步包括以下步骤2.1～2.4(如图1所示)：

步骤2.1：输入中文疾病诊断名称后，按照分词网络中的症状词库由长到短匹配症状，并结合预先建立的症状词顺序表中各个症状的优先级，得到最终症状词；若查找不到症状词，则输出“未匹配”，结束适配。

步骤2.2：按照分词网络中的部位词库由长到短匹配部位，并结合预先建立的部位词顺序表中各个部位的优先级，得到最终部位词。

步骤2.3：按照分词网络中的病因词库由长到短匹配病因，并结合预先建立的病因词顺序表中各个病因的优先级，得到最终病因词。

步骤2.4：按照分词网络中的其他词库由长到短匹配其他，得到最终其他词。

步骤3：步骤2得到的关键词组合再匹配预先构建的“词组合与编码映射表”，若能够找到对应的词组合路径，则能够精确匹配到中文诊断名称对应的指定版本ICD编码，输出ICD编码；若无法找到某种词组合路径的记录，则需要进行下一步的模糊匹配。

步骤4：精确匹配过程中未匹配的词组合，则通过模糊匹配规则做进一步适配，取描述最接近的词组合对应的ICD编码作为输出结果。

模糊适配规则包括：

第一步查找分词网络中包含已匹配词集合(至少有症状词)的所有路径L，若无法获取症状词，则输出“未匹配”；即按照以下步骤来查找符合特征的路径：

1)首先查找分词网络中症状包含了已匹配的“症状词”的所有路径L，若找不到，则输出“未匹配”；

2)基于上一步最终路径，继续筛选分词网络中部位包含已匹配“部位词”的路径，若找不到则执行下一步；

3)基于上一步最终路径，继续筛选分词网络中病因包含已匹配“病因词”的路径，若找不到则执行下一步；

4)基于上一步最终路径，继续筛选分词网络中其他包含已匹配“其他词”的路径，若找不到，则上一步最终路径是满足条件的路径L；

此时，路径L为按照症状、部位、病因、其他顺序依次筛选的包含最多已匹配词的路径。

第二步分别计算路径L中分词对应部分与输入的诊断名称的匹配字个数，选取匹配字个数最多的路径作为匹配路径，匹配字个数相同的，选取不匹配字个数最少的路径作为匹配路径，通过映射表得到匹配路径对应的ICD编码；最后，若路径L为空，则输出“未匹配”。

步骤3和步骤4的精确匹配和模糊匹配的具体实施过程如图2所示。

2.如图3所示，建立步骤2动态扩充的分词网络和症状词、部位词、病因词顺序表，具体包括如下步骤：

首先，将不同地区或不同版本的ICD编码及对应中文名称作为训练集输入，相同中文名称有不同ICD编码时，保留编码更靠前的记录；其次，从对应诊断名称中提取症状信息、部位信息、病因信息及其他信息四个部分对应的关键词，分别构建症状词库、部位词库、病因词库和其他词库；接着，构建症状词、部位词、病因词顺序表，生成一个排序森林，并增加特殊顺序表，以满足需要人为规定某种特殊顺序的需求；顺序表规定了症状、部位、病因关键词的优先级，排序越靠前，优先级越高；最后，取训练集中ICD诊断编码前四位相同的症状词，组成症状同义词表。

3.建立步骤3的词组合与编码映射表，具体包括按如下步骤：

首先，确定所要参考的国际疾病分类ICD版本；提取训练集中与指定版本诊断名称相同的记录，直接用指定版本的ICD编码替换训练集中的ICD编码，完成该部分编码的映射；训练集中与指定版本诊断名称不同的记录，则将指定版本的中文诊断名称匹配已生成的分词网络，完成自动分词，得到图4中的集合S；借助训练集ICD编码和集合S的ICD编码的前四位，寻找前四位编码相同且症状相同的集合，在集合内寻找最相似的指定版本记录(其中最相似定义为与分词对应部分匹配字个数最多，即依次匹配症状、病因和其他，统计匹配字个数和不匹配字个数，匹配字个数最多的为最相似记录，匹配字个数相同时选取不匹配字个数最少的作为最相似记录)，最相似的指定版本记录的ICD编码作为映射编码。具体过程如图4所示，得到前四位编码不同的集合S1和前四位编码相同但没有症状相同的集合S2，它们将作为下一步匹配的输入数据，继续适配。

第二步，集合S2通过已生成的症状同义词表进行症状匹配，再寻找最相似的指定版本记录，最相似的指定版本记录的ICD编码作为映射编码，具体过程如图5所示。

第三步，对于前两步匹配失败的记录，以同样的方法在训练集ICD编码前三位和指定版本ICD编码前三位相同的记录中，寻找症状相同集合，在集合内寻找最相似的指定版本记录，最相似的指定版本记录的ICD编码作为映射编码。具体过程如图6所示，得到前三位编码不同的集合S3和前三位编码相同但没有症状相同的集合S4，S4将作为下一步匹配的输入数据，继续适配。

第四步，具体过程如图7所示，集合S4通过已生成的症状同义词表进行症状匹配，再寻找最相似的指定版本记录，最相似的指定版本记录的ICD编码作为映射编码。

最后，人工介入仍然无法匹配的训练集记录，完成所有训练集记录到指定版本的编码映射。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于分词网络的中文疾病诊断的智能编码方法，其特征在于，包括如下步骤：

步骤1，获取中文疾病诊断名称；

步骤3，将关键词组与词组编码映射表进行适配并输出未匹配的结果或ICD编码；

关键信息包括症状信息、部位信息、病因信息及其他信息；其中

其他信息至少包括程度信息、病程信息及病情信息；

步骤2包括：

关键词组至少包括症状词、部位词、病因词及其他词；

步骤3中的适配包括：

若关键词组与词组编码映射表不匹配，则进入步骤3.2；

步骤3.2，第二级适配：对关键词组与词组编码映射表进行模糊适配；

步骤3.2，第二级适配包括：

步骤3.2.1具体包括查找分词网络中包含已匹配词集合的所有路径，若无法获取症状词，则输出“未匹配”；即按照以下步骤来查找符合特征的路径：

1)首先查找分词网络中症状包含了已匹配的“症状词”的所有路径，若找不到，则输出“未匹配”；

4)基于上一步最终路径，继续筛选分词网络中其他包含已匹配“其他词”的路径，若找不到，则上一步最终路径是满足条件的路径；

此时，路径为按照症状、部位、病因、其他顺序依次筛选的包含最多已匹配词的路径；

步骤3.2.2，计算路径中的剩余关键词与输入的中文疾病诊断名称的关键信息匹配的个数，选取匹配路径；

步骤3.2.2中，若匹配的关键词的个数相同时，选取不匹配的关键词个数最少的路径作为匹配路径，并通过词组编码映射表得到匹配路径对应的ICD编码并输出该ICD编码；

步骤3.2.2，具体包括分别计算路径中分词对应部分与输入的诊断名称的匹配字个数，选取匹配字个数最多的路径作为匹配路径，匹配字个数相同的，选取不匹配字个数最少的路径作为匹配路径，通过映射表得到匹配路径对应的ICD编码；最后，若路径为空，则输出“未匹配”；

其中

剩余关键词为关键词组中非已匹配的关键词；步骤3.2.1包括：

2.根据权利要求1所述的基于分词网络的中文疾病诊断的智能编码方法，其特征在于，动态扩充分词网络的创建包括如下步骤：

长度越长的排序越靠前，优先级越高。

3.根据权利要求2所述的基于分词网络的中文疾病诊断的智能编码方法，其特征在于，词组编码映射表的创建包括如下步骤：

确定所要参考的ICD版本；

4.一种基于分词网络的中文疾病诊断的智能编码方法的系统，包括存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的基于分词网络的中文疾病诊断的智能编码方法的步骤。