CN109243599A

CN109243599A - 一种基于多维度信息检索的疾病对码方法

Info

Publication number: CN109243599A
Application number: CN201810216439.6A
Authority: CN
Inventors: 姹ゆ郊; 汤潼
Original assignee: Shenpo Information Technology (shanghai) Co Ltd
Current assignee: Shenpo Information Technology (shanghai) Co Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2019-01-18

Abstract

本发明公开了一种基于多维度信息检索的疾病对码方法，该方法涉及自然语言处理领域。该方法包括以下步骤：步骤1：采用基于自定义词库的分词器对目标疾病名词分词，所述分词器兼容同音字错误，解决同音错别字问题。步骤2：针对步骤1的分词结果基础上，进行多维度评估得出目标疾病名词所属的类别。该方法采用自然语言处理技术，从多个维度评估目标疾病名词与标准库的相似度，从而解决传统对码工作中效率低、准确性低的问题。

Description

一种基于多维度信息检索的疾病对码方法

技术领域

本发明涉及一种自然语言处理技术领域，尤其涉及一种基于多维度信息检索的疾病对码方法。

背景技术

随着自然语言处理技术的快速发展，我们希望借助计算机的智能技术来代替繁杂的疾病对码工作。疾病对码就是将给出的疾病名称归类到标准疾病分类中，在该技术的研究中，我们采用标准疾病库。在传统的疾病对码工作中，要么采用人工对码，要么采用字符串匹配技术，其效率和准确性都非常低。

发明内容

本发明为了解决现有技术的上述不足，提供了一种基于多维度信息检索的疾病对码方法。

本发明的上述目的通过以下的技术方案来实现：一种基于多维度信息检索的疾病对码方法，包括以下步骤：

（1）采用基于自定义词库的分词器对目标疾病名词分词，所述分词器兼容同音字错误，解决同音错别字问题；

（2）针对步骤（1）的分词结果基础上，进行多维度评估得出目标疾病名词所属的类别。

步骤（1）中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库；通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。

步骤（2）中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度，文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。

步骤（2）中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤：

（2.1）文本相似度得分评估：

（2.1.1）采用拼音分词器对目标疾病名词分词，可以解决同音错别字问题；

（2.1.2）采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分；

（2.2）主疾病名词维度相关性评估：

（2.2.1）采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词；

（2.2.2）按照主疾病的具体程度，构建维度关键词，查询匹配关键词后积分；

（2.3）解剖部位维度相关性评估：

（2.3.1）采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词；

（2.3.2）按照解剖部位的具体程度，构建维度关键词，查询匹配关键词后积分；

（2.4）按照Score = S1+S2+S3的多维度评分公式计算总得分，其中，S1为文本相似度得分，S2为主疾病维度积分，S3为解剖部位维度积分；标准疾病库中得分最高的条目即为目标疾病名词所属的类别。

本发明通过多个维度评估目标疾病名词与标准疾病库条目的关联度，最后计算得出关联度最高的条目即为疾病对码的结果。

本发明与现有技术相比的优点是：本发明采用多维度排序算法评估目标疾病名词的类别，很好的弥补了传统字符串匹配单一方式缺陷，获得更高的准确性。

具体实施方式

下面结合实施例对本发明进一步详述。

本发明的一种基于多维度信息检索的疾病对码方法，包括以下步骤：

（2.1）文本相似度得分评估：

（2.2）主疾病名词维度相关性评估：

（2.3）解剖部位维度相关性评估：

上述的具体实施方式只是示例性的，是为了更好的使本领域技术人员能够理解本专利，不能理解为是对本专利包括范围的限制；只要是根据本专利所揭示精神的所作的任何等同变更或修饰，均落入本专利包括的范围。

Claims

1.一种基于多维度信息检索的疾病对码方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法，其特征在于：步骤（1）中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库；通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。

3.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法，其特征在于：步骤（2）中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度，文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。

4.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法，其特征在于：步骤（2）中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤：

（2.1）文本相似度得分评估：

（2.2）主疾病名词维度相关性评估：

（2.3）解剖部位维度相关性评估：