CN110852076B

CN110852076B - 一种自动化疾病编码转换的方法及装置

Info

Publication number: CN110852076B
Application number: CN201910969445.3A
Authority: CN
Inventors: 史亚飞
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-05-30
Anticipated expiration: 2039-10-12
Also published as: CN110852076A

Abstract

本发明公开了一种自动化疾病编码方法及装置，用以得到与疾病诊断信息相似的候选编码集，节省用户时间。方法包括：获取疾病诊断信息和ICD10扩展版疾病的名称解析信息；确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息；根据语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量；根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度；根据疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。采用本发明所提供的方案，能够得到与疾病诊断信息相似的候选编码集，节省用户时间。

Description

一种自动化疾病编码转换的方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种自动化疾病编码转换的方法及装置。

背景技术

国际疾病分类(International Classification of Diseases,ICD)，是WHO制定的国际统一的疾病分类方法，其根据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，使其成为一个有序的组合，并用编码的方法来表示的系统。全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》，仍保留了ICD的简称，并被统称为ICD10。

现有技术中，在获取疾病信息对应的编码时，通常需要专业人员对照ICD10数据库中进行手动编码，要从海量的数据库中得到疾病编码，需要消耗大量的时间，因此，如果能够对数据库中的疾病编码进行初步筛选，过滤大量的无用信息，使用户在与疾病诊断信息相似的候选编码集中筛选得到疾病编码，无疑会节省很多的时间。

发明内容

本发明提供一种自动化疾病编码转换的方法，用以得到与疾病诊断信息相似的候选编码集，节省用户时间。

本发明提供一种自动化疾病编码方法，包括：

获取疾病诊断信息和ICD10扩展版疾病的名称解析信息；

确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息；

根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量；

根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度；

根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。

本发明的有益效果在于：根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息和词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度，从而利用疾病术语中的语义信息和顺序信息计算疾病术语间的相似度，准确率非常高；并且，生成的疾病诊断信息的候选编码集使用户能够直接在与疾病诊断信息相似的候选编码集中筛选得到疾病编码，节省了用户的时间。

在一个实施例中，根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集，包括：

判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值；

当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息；

当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息；

根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。

在一个实施例中，所述确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息，包括：

获取预先构建的医学词典；

使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。

在一个实施例中，根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量，包括：

获取预先训练的医学词向量；

根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息进行向量化，以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。

在一个实施例中，根据语义信息和词向量计算疾病诊断信息第一目标数据和ICD10扩展版疾病的名称解析信息的相似度，包括：

获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B；

根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度：

其中，A_i表示字符串A的第i个词语，B_j字符串B的第j个词语，sim(A_i，B_j)表示A_i和B_j的相似度；

根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度：

其中，C[i，j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度，ε表示相似度阈值；

根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL；

根据如下公式计算字符串A和字符串B的相似度：

其中，sim(A，B)表示字符串A和B的相似度，LCSL表示字符串A和B的最大公共子序列的长度，L(A)表示字符串A分词后词语的数量，L(B)表示字符串B分词后词语的数量。

本发明还提供一种自动化疾病编码转换的装置，包括：

第一获取模块，用于获取疾病诊断信息和ICD10扩展版疾病的名称解析信息；

确定模块，用于确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息；

第二获取模块，根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量；

计算模块，根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度；

生成模块，用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。

在一个实施例中，生成模块，包括：

判断子模块，用于判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值；

保留子模块，用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息；

删除子模块，用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息；

生成子模块，用于根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。

在一个实施例中，所述确定模块，包括：

第一获取子模块，用于获取预先构建的医学词典；

分词子模块，用于基于所述医学词典，使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。

在一个实施例中，所述第二获取模块，包括：

第二获取子模块，用于获取预先训练的医学词向量；

向量化子模块，用于根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化，以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。

在一个实施例中，所述计算模块，包括：

第三获取子模块，用于获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B；

第一计算子模块，用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度：

第二计算子模块，用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度：

确定子模块，用于根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL；

第三计算子模块，用于根据如下公式计算字符串A和字符串B的相似度：

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种自动化疾病编码方法的流程图；

图2为本发明一实施例中一种自动化疾病编码方法的流程图；

图3为本发明一实施例中一种自动化疾病编码装置的框图；

图4为本发明一实施例中一种自动化疾病编码装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种自动化疾病编码方法的流程图，如图1所示，该方法可被实施为以下步骤S101-S105：

在步骤S101中，获取疾病诊断信息和ICD10扩展版疾病的名称解析信息；

在步骤S102中，确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息；

在步骤S103中，根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量；

在步骤S104中，根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度；

在步骤S105中，根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。

在一个实施例中，上述步骤S105可被实施为如下步骤S201-S204：

在步骤S201中，判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值；

在步骤S202中，当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息；

在步骤S203中，当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息；

在步骤S204中，根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。

在一个实施例中，上述步骤S102中可被实施为如下步骤A1-A2：

在步骤A1中，获取预先构建的医学词典；

在步骤A2中，使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。

在一个实施例中，上述步骤S103可被实施为如下步骤B1-B2：

在步骤B1中，获取预先训练的医学词向量；

在步骤B2中，根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化，以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。

在一个实施例中，上述步骤S104可被实施为如下步骤C1-C5：

在步骤C1中，获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B；

在步骤C2中，根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度：

在步骤C3中，根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度：

在步骤C4中，根据公式(2)计算字符串A和字符串B整体的最大公共子序列的长度LCSL；

在步骤C5中，根据如下公式计算字符串A和字符串B的相似度：

图3为本发明一实施例中一种自动化疾病编码装置的框图，如图3所示，该方法可被实施为以下模块：

第一获取模块31，用于获取疾病诊断信息和ICD10扩展版疾病的名称解析信息；

确定模块32，用于确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息；

第二获取模块33，用于根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量；

计算模块34，用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度；

生成模块35，用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。

在一个实施例中，如图4所示，生成模块35，包括：

判断子模块41，用于判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值；

保留子模块42，用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息；

删除子模块43，用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息；

生成子模块44，用于根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。

在一个实施例中，所述确定模块，包括：

第一获取子模块，用于获取预先构建的医学词典；

在一个实施例中，所述第二获取模块，包括：

第二获取子模块，用于获取预先训练的医学词向量；

在一个实施例中，所述计算模块，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种自动化疾病编码转换的方法，其特征在于，包括：

获取疾病诊断信息和ICD10扩展版疾病的名称解析信息；

根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集；

所述确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息，包括：

获取预先构建的医学词典；

使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息；

根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量，包括：

获取预先训练的医学词向量；

根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化，以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量；

根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度，包括：

其中，A_i表示字符串A的第i个词语，B_j字符串B的第j个词语，sim(A_i,B_j)表示A_i和B_j的相似度；

其中，C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度，ε表示相似度阈值；

根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL；

根据如下公式计算字符串A和字符串B的相似度：

其中，sim(A,B)表示字符串A和B的相似度，LCSL表示字符串A和B的最大公共子序列的长度，L(A)表示字符串A分词后词语的数量，L(B)表示字符串B分词后词语的数量。

2.如权利要求1所述的方法，其特征在于，根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集，包括：

3.一种自动化疾病编码转换的装置，其特征在于，包括：

生成模块，用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集；

所述确定模块，包括：

第一获取子模块，用于获取预先构建的医学词典；

分词子模块，用于基于所述医学词典，使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息；

所述第二获取模块，包括：

第二获取子模块，用于获取预先训练的医学词向量；

向量化子模块，用于根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化，以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量；

所述计算模块，包括：

4.如权利要求3所述的装置，其特征在于，生成模块，包括：