CN111814463B

CN111814463B - 国际疾病分类编码推荐方法、系统及相应设备和存储介质

Info

Publication number: CN111814463B
Application number: CN202010854420.1A
Authority: CN
Inventors: 李文斌
Original assignee: Wanghai Kangxin Beijing Technology Co ltd
Current assignee: Wanghai Kangxin Beijing Technology Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-15
Anticipated expiration: 2040-08-24
Also published as: CN111814463A

Abstract

本申请公开了国际疾病分类编码推荐方法、系统及相应设备和存储介质，其中所述方法包括：将要进行ICD编码推荐的ICD名称文本到预先形成的实体字典中映射相应的实体；将映射的实体转换为多维词向量；将多维词向量和ICD名称文本输入到经训练的深度学习模型；将深度学习模型的输出中概率最高的前m个ICD亚目编码作为推荐的ICD亚目编码；其中，实体字典通过下述处理形成：对ICD编码训练数据集中的ICD名称文本进行预处理，生成ICD词库；用知识图谱工具对ICD词库进行预设维度的实体标注；将标注后的ICD词库整理成数据源文件；加载数据源文件到长短期记忆神经网络模型进行训练，输出为实体字典。本发明使能为非标准ICD名称自动智能推荐相应的标准化的ICD编码，准确率和可靠性高。

Description

国际疾病分类编码推荐方法、系统及相应设备和存储介质

技术领域

本申请涉及电数字数据处理领域，尤其涉及国际疾病分类编码推荐方法、系统及相应设备和存储介质。

背景技术

ICD编码的标准化和准确性十分重要。然而，传统辅助编码工具已经存在了多年，但对智能实现的方式还停留在比较浅的层面上。现有的编码工具大多基于文本，在关键字基础上做可能的提示，引导编码人员一步步操作得出最终编码。传统辅助编码的核心是字符串搜索、串匹配。由于录入文本时命名习惯不同、录入时间有限等原因，录入的名称常常和标准的ICD命名不同。名称的标准化和标准化编码工作是由编码员来完成的。但是，受制于不同编码员工作年限、经验、人员素质、对标准的解读、对编码字典庞大内容的把握程度以及编码员人员编制的限制，甚至同一单位不同编码员之间、同一编码员在不同时期的编码也存在差异。此外，编码员每天可标准化处理的编码数量很有限，而且很可能存在误判的情况。因而，如何为非标准ICD名称（包括诊断名称和手术名称）进行标准化编码推荐是急需解决的问题。

发明内容

本发明提供一种国际疾病分类编码推荐方法、系统及相应设备和存储介质，其使能可靠、准确地为非标准ICD名称自动智能推荐相应的标准化的ICD编码。

在本发明的第一方面，提供一种国际疾病分类编码推荐方法，包括：

将要进行国际疾病分类ICD编码推荐的ICD名称文本到预先形成的实体字典中映射相应的实体；

将映射的实体转换为多维词向量；

将所述多维词向量和所述ICD名称文本输入到经训练的深度学习模型；

将深度学习模型的输出中概率最高的前m个ICD亚目编码作为对所述ICD名称文本推荐的ICD亚目编码，m≥1；

其中，所述实体字典通过下述处理形成：

- 通过中文分词器对ICD编码训练数据集中的ICD名称文本进行至少包括分词的预处理，生成ICD词库；

- 用知识图谱工具对ICD词库进行预设维度的实体标注；

- 将标注后的ICD词库整理成数据源文件；

- 加载数据源文件到长短期记忆神经网络模型进行训练，输出为实体字典。

在实施例中，所述预设维度包括操作、人体形态与结构、医疗器械、技术、入路和/或体位。

在实施例中，所述ICD编码训练数据集包括多个版本的ICD编码标准库和/或临床ICD名称和编码数据集，所述深度学习模型的训练包括：将所述ICD编码训练数据集作为深度学习模型的输入进行初步训练；将所述ICD编码训练数据集所含ICD名称文本分别经实体标注、映射得到的多维词向量输入经初步训练的深度学习模型进行进一步回归训练，使得深度学习模型输出与ICD名称对应的m个ICD亚目编码。

在实施例中，所述预处理还包括下述之一或多个：根据扩展词字典对专业医学词汇进行不分词处理；根据同义词字典将ICD名称文本中的不同同义词统一为一个标准词或者将其它相应同义词添加到ICD词库中；根据停用词字典去除ICD名称文本中的无意义字符；根据字符过滤器对字符进行转义。

在实施例中，所述方法还包括：确定所述m个ICD亚目编码分别所属的预设亚目类型；确定所述m个ICD亚目编码中其置信度高于相应类型的预设置信度阈值的n个ICD亚目编码，n≤m；基于包含拟使用的ICD编码标准库数据的索引库，采用文本相似度算法从索引库中所述n个ICD亚目编码对应的ICD细目中确定与将要进行ICD编码推荐的ICD名称文本对应的一个ICD细目编码。

在本发明的第二方面，提供一种国际疾病分类编码推荐系统，其包括：

映射模块，用于将要进行国际疾病分类ICD编码推荐的ICD名称文本到预先形成的实体字典中映射相应的实体；

转换模块，用于将映射的实体转换为多维词向量；

输入模块，用于将所述多维词向量和所述ICD名称文本输入到经训练的深度学习模型；

推荐模块，用于将深度学习模型的输出中概率最高的前m个ICD亚目编码作为对所述ICD名称文本推荐的ICD亚目编码，m≥1；

其中，所述实体字典通过下述处理形成：

- 用知识图谱工具对ICD词库进行预设维度的实体标注；

- 将标注后的ICD词库整理成数据源文件；

在本发明的第三方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据本发明的第一方面的方法的步骤。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本发明的第一方面的方法的步骤。

按照本发明，先用较全的ICD编码库对语义模型如ALBERT进行初步训练，然后用自定制的中文分词器对ICD名称文本进行预处理（停用、过滤、转义、分词），通过知识图谱进行实体识别，识别的维度有6类：操作、人体形态与结构、医疗器械、技术、入路和体位。这6类维度直接决定了ICD标准化编码的确定。然后将这6类维度以词嵌入的方式对语义模型进行回归训练。待模型拟合回归后，通过较差验证模型的稳定性和精确度，当精确度稳定在设定的阈值范围之内后，再结合文本相似度算法实现的全文检索技术进一步线性回归提升编码推荐精确度，从而为非标准化的ICD名称（包括诊断和手术）自动智能推荐相应的标准化的ICD编码，大大减少了编码员的编码工作量，提升了工作效率，同时也提高了编码准确率和可靠性。

结合附图阅读本发明实施方式的详细描述后，本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图；

图2为根据本发明系统的一实施例的框图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

《国际疾病分类》（International Classification of Diseases, ICD）是确定全球卫生趋势和统计数据的基础，它使卫生专业人员能够通过一种通用语言来交换世界各地的卫生信息。医生录入的通常非标准化的ICD名称是一段文本，文本中包含了中英文、特殊字符、医学专业术语等。需要根据该ICD名称文本确定对应的标准化的ICD编码（包括亚目和/或细目编码）。

图1示出了根据本发明的ICD编码推荐方法的一优选实施例的流程图。

在步骤S102，将要进行ICD编码推荐的可能非标准的ICD名称文本到预先形成的实体字典中映射相应的实体。在实施例中，实体字典通过下述处理形成：

1）通过中文分词器对ICD编码训练数据集中的ICD名称文本进行预处理，生成ICD词库。中文分词器包括预先配置的、关联的字符过滤器、同义词字典、扩展词字典和停用词字典。

字符过滤器用于对需要忽略的一些字符如罗马数字、加减号等进行识别，同时对罗马数字（标准体和非标准体）、中文数字、阿拉文数字进行转义映射（标注为同义词）。

同义词字典用于将医学术语在语义层面进行概念归一。多个同义词可以统一为一个标准词，也可以互为同义，一起使用。例如，急性心肌梗塞、急性心肌梗死、急性心梗在语义上是同一概念。

扩展词字典包含一些分词会影响全文检索效果的专业医学词汇，例如策尔韦格综合征。利用扩展词字典可避免对这样的词进行分词处理。

停用词字典包含一些无意义的中英文字符，例如问号、“的”等。利用停用词字典可对这样的字符进行丢弃处理，使得其不参与分词和索引，确保索引的原子性的中文词元都是有意义的。

ICD编码训练数据集包括多个版本的ICD-10 、ICD-9-CM-3编码标准库和/或全国多家医院多达三百多万经过清洗后的临床ICD名称和编码数据集。ICD编码标准库是全国省、直辖市在用的不同ICD版本库的集合，目前包含38个版本库，例如国家临床版V1.1、国家临床版V2.0、医保版、北京版、其它各地方版本等等，这些版本库中的数据由于是标准数据，无需清洗。

预处理包括对ICD名称文本进行包括但不限于分词、停用和字符转义的处理。具体地，根据扩展词字典对专业医学词汇进行不分词处理，根据同义词字典将ICD名称文本中的多个不同同义词统一为一个标准词或者将其它相应同义词添加到ICD词库中，根据停用词字典去除ICD名称文本中的无意义字符，和/或根据字符过滤器对字符进行转义。在实施例中，可采用IK中文分词器进行分词，在IK的配置文件中配置哪些医学专业术语不分词、哪些词互为同义词及哪些词为停用词。

2）用知识图谱工具如OMAHA对ICD词库进行预设维度的实体标注。在实施例中，预设维度包括根据实际临床经验确定的对ICD编码确定至关重要的6个特征维度：操作、人体形态与结构、医疗器械、技术、入路和/或体位，从而提取操作、人体形态与结构、医疗器械、技术、入路和体位共6个直接确定ICD编码的实体。在其它实施例中，预设维度也可包括其它维度。

3）将标注后的ICD词库整理成csv或txt格式的数据源文件。

4）加载数据源文件到长短期记忆（Long short-term memory，LSTM）神经网络模型进行训练，优选使用双向LSTM神经网络模型，输出6个维度的特征实体字典。实体字典是双向LSTM模型训练好以后的产出物，之后可以直接作为服务部署使用。例如，任意输入一个ICD名称文本，通过字典映射就可以得到相应6个维度的实体标注。实体字典的使用可大幅提高在此使用的ALBERT模型的查准率。

在步骤S104，将映射的实体通过词向量生成工具例如bert-as-service工具转换为多维词向量。由于本发明的实施例中优选使用ALBERT模型，因而可转换为768维词向量。

在步骤S106，将768维词向量和ICD名称文本输入到经训练的深度学习模型。深度学习模型用于将文本转换为具有上下文语义的词嵌入向量，可采用谷歌提供的ALBERT或BERT深度学习神经网络模型，也可采用其它深度学习模型，例如LSTM模型、OpenAI的GPT-3模型、卷积神经网络（CNN）或HAN模型。在此优选使用ALBERT模型。

ALBERT模型的训练包括：将ICD编码训练数据集作为ALBERT模型的输入进行初步训练，然后将ICD编码训练数据集所含ICD名称文本分别经如上所述的预处理、实体标注、映射得到的多维词向量输入经初步训练的ALBERT进行进一步回归训练，待模型收敛拟合回归稳定后，通过验证集去验证ICD推荐的效果，然后微调ALBERT超参数，ICD推荐效果在97%以上则认为模型收敛且没有过拟合。经过验证，编码推荐的精确度可达98%以上，召回率100%。ALBERT模型的输出是与ICD名称对应的、与ICD版本无关的m个ICD亚目编码。

在步骤S108，将ALBERT模型的输出中概率最高的前m个ICD亚目编码作为对相应ICD名称文本推荐的ICD亚目编码，m≥1并为整数。

在实施例中，在推荐ICD亚目编码之后，还可推荐相应的ICD细目编码。在此可采用ElasticSearch全文检索模型用于ICD细目编码的推荐，ElasticSearch采用的是BW25文本相似度算法。针对ICD名称文本较短、专业术语明显、语义侧重不好确定的特点，可通过调优BW25文本相似度算法的词频归一化参数校正词频对文本相似度的影响权重，通过调优文档归一化参数校正逆文本频率指数对整个文档索引库的影响权重，通过调优术语位置影响参数校正同一术语出现在文本相同位置对文本相似度的影响权重，提升编码推荐的效果。

在进行ICD细目推荐之前，可首先对ICD亚目进行分类。亚目共8000个左右，分为2000种左右的类别，不同的类别临床频次是不一样的。为了保证置信度确认的科学性，可先将亚目划分为高频、中频、低频三个类型，不同类型的预设置信度阈值不同，原则上是高频亚目的置信度阈值最高，低频亚目的置信度阈值最低。此外，将拟使用的ICD版本编码标准库数据导入到BW25文本相似度算法的索引库中。之后，ICD细目编码通过下述处理推荐：

确定先前推荐的m个ICD亚目编码分别所属的预设亚目类型即高频、中频或低频亚目；

确定m个ICD亚目编码中其置信度高于相应类型的预设置信度阈值的n个ICD亚目编码，n≤m；

加载中文分词器，对将要进行ICD编码推荐的ICD名称文本进行处理；

通过文本相似度算法从索引库中所述n个ICD亚目编码对应的ICD细目中确定与处理后的ICD名称文本对应的一个ICD细目编码。

基于上下文语义模型和文本相似度算法进行多层次的ICD编码推荐，文本相似度算法以亚目为过滤条件，大大提高了ICD编码推荐的可靠性和准确率。

图2示出了根据本发明的ICD编码推荐系统的一优选实施例的框图，该系统包括：

映射模块202，用于将要进行国际疾病分类ICD编码推荐的ICD名称文本到预先形成的实体字典中映射相应的实体；

转换模块204，用于将映射的实体转换为多维词向量；

输入模块206，用于将所述多维词向量和所述ICD名称文本输入到经训练的深度学习模型；

推荐模块208，用于将深度学习模型的输出中概率最高的前m个ICD亚目编码作为对所述ICD名称文本推荐的ICD亚目编码，m≥1。

在另一实施例中，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现结合图1所示和所述的方法实施例或其它相应方法实施例的步骤，在此不再赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现结合图1所示和所述的方法实施例或其它相应方法实施例的步骤，在此不再赘述。

在此所述的多个不同实施方式或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外，在某些情形下，只要适当，流程图中和/或流水处理描述的步骤顺序可修改，并不必须精确按照所描述的顺序执行。另外，本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或具有通用串行总线（USB）接口的其它装置，和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义（即具有“至少一”的意思）。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改，这些变型或修改仍落入本发明的保护范围之内。

Claims

1.一种国际疾病分类编码推荐方法，其特征在于，所述方法包括：

将映射的实体转换为多维词向量；

将所述深度学习模型的输出中概率最高的前m个ICD亚目编码作为对所述ICD名称文本推荐的ICD亚目编码，m≥1；

其中，所述实体字典通过下述处理形成：

通过中文分词器对ICD编码训练数据集中的ICD名称文本进行至少包括分词的预处理，生成ICD词库；

用知识图谱工具对ICD词库进行预设维度的实体标注；

将标注后的ICD词库整理成数据源文件；

加载数据源文件到长短期记忆神经网络模型进行训练，输出为实体字典。

2.在根据权利要求1所述的方法，其特征在于，所述预设维度包括操作、人体形态与结构、医疗器械、技术、入路和/或体位。

3.根据权利要求1所述的方法，其特征在于，所述ICD编码训练数据集包括多个版本的ICD编码标准库和/或包括临床ICD名称和编码的数据集，所述深度学习模型的训练包括：

将所述ICD编码训练数据集作为深度学习模型的输入进行初步训练；

将所述ICD编码训练数据集所含ICD名称文本分别经实体标注、映射得到的多维词向量输入经初步训练的深度学习模型进行进一步回归训练，使得深度学习模型输出与ICD名称对应的m个ICD亚目编码。

4.根据权利要求1所述的方法，其特征在于，所述预处理还包括下述之一或多个：

根据扩展词字典对专业医学词汇进行不分词处理；

根据同义词字典将ICD名称文本中的不同同义词统一为一个标准词或者将其它相应同义词添加到ICD词库中；

根据停用词字典去除ICD名称文本中的无意义字符；

根据字符过滤器对字符进行转义。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述m个ICD亚目编码分别所属的预设亚目类型；

确定所述m个ICD亚目编码中其置信度高于相应类型的预设置信度阈值的n个ICD亚目编码，n≤m；

基于包含拟使用的ICD编码标准库数据的索引库，采用文本相似度算法从索引库中所述n个ICD亚目编码对应的ICD细目中确定与将要进行ICD编码推荐的ICD名称文本对应的一个ICD细目编码。

6.根据权利要求5所述的方法，其特征在于，所述预设亚目类型按照临床频次分类为高频、中频和低频三类，低频、中频和高频亚目类型的置信度阈值依次递增。

7.根据权利要求5所述的方法，其特征在于，所述文本相似度算法为BW25文本相似度算法。

8.一种国际疾病分类编码推荐系统，其特征在于，所述系统包括：

转换模块，用于将映射的实体转换为多维词向量；

推荐模块，用于将所述深度学习模型的输出中概率最高的前m个ICD亚目编码作为对所述ICD名称文本推荐的ICD亚目编码，m≥1；

其中，所述实体字典通过下述处理形成：

用知识图谱工具对ICD词库进行预设维度的实体标注；

将标注后的ICD词库整理成数据源文件；

9.一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据权利要求1所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1所述的方法的步骤。