CN115859914A

CN115859914A - 基于病历语义理解的诊断icd自动编码方法及系统

Info

Publication number: CN115859914A
Application number: CN202211656524.7A
Authority: CN
Inventors: 朱卫国; 丘德来
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-03-28

Abstract

基于病历语义理解的诊断ICD自动编码方法及系统，该方法通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。本发明提高编码准确率；能够依据完整的病历信息完成自动化编码。

Description

基于病历语义理解的诊断ICD自动编码方法及系统

技术领域

本发明属于病历数据处理技术领域，具体涉及一种基于病历语义理解的诊断ICD自动编码方法及系统。

背景技术

ICD是International Classification of Diseases(国际疾病分类)的缩写，由世界卫生组织主持编写并发布的一种疾病分类方法，是卫生信息标准体系的重要组成部分，供世界范围内的临床研究、医疗监测、卫生事业管理部门应用。

ICD是WHO国际分类家族最核心的知识库，也是众多医疗领域的标准。第一版ICD分类诞生于1893年，至今已有120多年的历史。此后它不断更新，以反映健康和医学的发展，目前采用的是第10版。完整的ICD的统计范畴涵盖了死因、疾病、伤害、症状、就诊原因、疾病的外部原因等方面，被广泛应用于临床研究、医疗监测。

现阶段，医生写的出院诊断常常会出现信息缺失，进而影响编码的准确性；当前主流的ICD编码技术，主要根据关键词匹配等浅层文本信息来完成诊断编码，忽略了语义上的匹配，导致编码的可靠性较低。

发明内容

为此，本发明提供基于病历语义理解的诊断ICD自动编码方法及系统，解决传ICD编码准确性及可靠性差的问题。

为了实现上述目的，本发明的第一方面提供如下技术方案：基于病历语义理解的诊断ICD自动编码方法，包括：

通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；

对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；

构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；

构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；

对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。

作为基于病历语义理解的诊断ICD自动编码方法优选方案，通过正则表达式进行病历内容清洗，病历内容清洗包括缩写词替换、全角半角转换和指定字符转换。

作为基于病历语义理解的诊断ICD自动编码方法优选方案，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据包括：

使用预训练模型，生成具有篇章信息的问题和若干句子的字符表示；

将生成的字符表示，输入到双向循环神经网络，获得上下文句子表示；

将上下文句子表示使用MLP映射到二维，经过sigmoid函数计算当前句子是否为支撑句的得分；

对于指定片段，每个片段经过答案预测网络判断是否存在支撑句；

判断片段中句子的得分是否大于预设阈值，大于预设阈值判定为支撑句；

获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。

作为基于病历语义理解的诊断ICD自动编码方法优选方案，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选标签文本蕴含得分包括：

基于分类模型对诊断三元文本证据获取候选编码概率，取概率值最高的前k个作为候选编码标签集。

作为基于病历语义理解的诊断ICD自动编码方法优选方案，采用单标签推理，将诊断原词和每个候选编码标签的描述文本进行文本蕴含，得到候选编码标签的预测分数。

作为基于病历语义理解的诊断ICD自动编码方法优选方案，采用双标签推理，通过诊断原词和相似的两个候选编码标签进行文本蕴含，得到候选编码标签集合内部的成对比较分数。

作为基于病历语义理解的诊断ICD自动编码方法优选方案，将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数，选取得分最高的作为最终答案。

本发明的第二方面还提供一种基于病历语义理解的诊断ICD自动编码系统，包括：

病历信息获取模块，用于通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；

病历信息拆分清洗模块，用于对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；

支撑信息抽取模块，用于构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；

三元文本蕴含打分模块，用于构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；

诊断编码模块，用于对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。

作为基于病历语义理解的诊断ICD自动编码系统优选方案，所述病历信息拆分清洗模块中，通过正则表达式进行病历内容清洗，病历内容清洗包括缩写词替换、全角半角转换和指定字符转换；

所述支撑信息抽取模块包括：

字符表示子模块，用于使用预训练模型，生成具有篇章信息的问题和若干句子的字符表示；

句子表示子模块，用于将生成的字符表示，输入到双向循环神经网络，获得上下文句子表示；

句子打分子模块，将上下文句子表示使用MLP映射到二维，经过sigmoid函数计算当前句子是否为支撑句的得分；

支撑句判断子模块，用于对于指定片段，每个片段经过答案预测网络判断是否存在支撑句；判断片段中句子的得分是否大于预设阈值，大于预设阈值判定为支撑句。

诊断三元文本拼接子模块，用于获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。

作为基于病历语义理解的诊断ICD自动编码系统优选方案，所述三元文本蕴含打分模块包括：

候选编码标签集子模块，用于基于分类模型对诊断三元文本证据获取候选编码概率，取概率值最高的前k个作为候选编码标签集；

单标签推理子模块，用于采用单标签推理，将诊断原词和每个候选编码标签的描述文本进行文本蕴含，得到候选编码标签的预测分数；

双标签推理子模块，用于采用双标签推理，通过诊断原词和相似的两个候选编码标签进行文本蕴含，得到候选编码标签集合内部的成对比较分数；

排序整合子模块，用于将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数，选取得分最高的作为最终答案。

本发明的第三方面提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或其任意可能实现方式的基于病历语义理解的诊断ICD自动编码方法。

本发明的第四方面提出了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行实现第一方面或其任意可能实现方式的基于病历语义理解的诊断ICD自动编码方法。

本发明具有如下优点：通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。本发明通过证据抽取模型，可以对医生填写的诊断文本进行信息补充，从而提高编码准确率；通过三元文本蕴含的编码模型，克服传统模型只做浅层文本匹配而忽略语义上的匹配的缺点，能够依据完整的病历信息完成自动化编码。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

图1为本发明实施例1提供的基于病历语义理解的诊断ICD自动编码方法流程示意图；

图2为本发明实施例1提供的基于病历语义理解的诊断ICD自动编码方法中证据抽取流程示意图；

图3为本发明实施例1提供的基于病历语义理解的诊断ICD自动编码方法中文本蕴含打分流程示意图；

图4为本发明实施例2提供的基于病历语义理解的诊断ICD自动编码系统架构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，本发明实施例1提供一种基于病历语义理解的诊断ICD自动编码方法，包括以下步骤：

S1、通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；

S2、对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；

S3、构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；

S4、构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；

S5、对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。

本实施例中，步骤S1涉及的信息抽取程序本身属于现有技术，是可以将非结构化或半结构化描述的自然语言文本转化成结构化特征的基础自然语言处理，通常包括三类子任务：抽取文本中指定类型的实体(实体抽取/命名实体识别，NER)；抽取实体之间的语义关系(关系抽取，RE)；文本中的事件(event)。

本实施例中，步骤S2涉及的命名实体识别技术是信息提取的一个子任务，可以将文本中的命名实体定位并分类为预先定义的类别，如人员、组织、位置、时间表达式等。从模型的层面，可以分为基于规则的方法、无监督学习方法、有监督学习方法，从输入的层面，可以分为基于字(character-level)的方法、基于词(work-level)的方法、字词结合的方法。

比如，拆分前：1、肺癌；2.前列腺增生；3.泌尿系感染；4、膀胱结石。

拆分后：肺癌##前列腺增生##泌尿系感染##膀胱结石。

本实施例中，步骤S2通过正则表达式进行病历内容清洗，病历内容清洗包括缩写词替换、全角半角转换和指定字符转换。

具体的，正则表达式是根据已知命名实体特点，制定正则匹配规则，然后预测时通过正则表达式匹配进行实体识别。

假设通过步骤S2获取单个临床诊断术语为问题q，相关病历信息内容为C＝[s₁,s₂,...,s_k]，本发明需要抽取能够辅助诊断术语编码的相应证据。

举例如下：“q＝肺癌；

C＝入院后完善相关检查，....胸腹盆部CT增强示：1、右上肺肿块，....，于2019-11-23行支气管镜检查，术后病理：(右肺上叶，经支气管镜肺活检标本)：肺腺癌...”

其中，“右上肺肿块”“术后病理：(右肺上叶，经支气管镜肺活检标本)：肺腺癌”为相应证据。

参见图2，本实施例中，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据包括：

S31、使用预训练模型，生成具有篇章信息的问题和若干句子的字符表示；

S32、将生成的字符表示，输入到双向循环神经网络，获得上下文句子表示；

S33、将上下文句子表示使用MLP映射到二维，经过sigmoid函数计算当前句子是否为支撑句的得分；

S34、对于指定片段，每个片段经过答案预测网络判断是否存在支撑句；

S35、判断片段中句子的得分是否大于预设阈值，大于预设阈值判定为支撑句。

S36、获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。

具体的，步骤S31中，首先使用预训练模型M，生成具有篇章信息的问题q和k个句子的字表示

C＝M(<[cls],q,[sep],s₁,...,s_k>))

其中，M为常用的基于大规模无监督文本预训练的模型，用于生成具有上下文信息的文本编码，C∈R^n*h为生成的表示，h为一个字符的表示维度，n为问句长度加上k个句子长度加2，[cls]表示蕴含全文信息的特殊分类标识符，[sep]用于区分问题和文章句子的特殊分隔标识符。

具体的，步骤S32中，将生成的字符表示，输入到双向循环神经网络，获得更细致的上下文表示H∈R^n*3d：

H＝Bi_LSTM(C)

基于上下文表示，从中获取k个句子的句子表示，通过句子的起止位置的所有表示，通过最大池化获取最大信息量：

S_k＝maxpooling(H[s_{k_s}:s_{k_e}])

其中，s_{k_s}为第k个句子在模型输入的开始位置，s_{k_e}为结束位置。

具体的，步骤S33中，将句子表示使用MLP映射到二维，经过sigmoid函数计算当前句子是否为支撑句的得分：

s_{k_score}＝sigmoid(MLP(S_k))

具体的，步骤S34中，使用句子表示和特殊分类标识符表示合并，作为判断此片段是否有支撑句的任务输入，同理经过MLP映射和sigmoid函数计算得分：

s_{unk_score}＝sigmoid(MLP([H；C[0]]))

具体的，步骤S35中，对于m个片段，每个片段经过答案预测网络，先获取此片段是否有支撑句，

其中，t_unk为可调整的阈值。

具体的，步骤S36中，对于有支撑句的片段，再判断其中句子的得分是否大于阈值t_sp，大于阈值t_sp则为支撑句：

最终，获取的支撑句集合s和诊断原文q拼接成带支撑信息的诊断d，如下例子：

d＝肺癌##右上肺肿块##术后病理：(右肺上叶，经支气管镜肺活检标本)：

肺腺癌。

参见图3，本实施例中，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选标签文本蕴含得分包括：

S41、基于分类模型对诊断三元文本证据获取候选编码概率，取概率值最高的前k个作为候选编码标签集；

S42、采用单标签推理，将诊断原词和每个候选编码标签的描述文本进行文本蕴含，得到候选编码标签的预测分数；

S43、采用双标签推理，通过诊断原词和相似的两个候选编码标签进行文本蕴含，得到候选编码标签集合内部的成对比较分数；

S44、将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数，选取得分最高的作为最终答案。

具体的，步骤S41中，基于分类模型对一个诊断d获取候选编码概率，取概率值最高的前k个作为候选标签集O：

p(O)＝softmax(MLP(M(<[cls],d,[sep]>)))

其中，MLP为一个两层的全连接层，softmax为归一化函数。

其中，假设：诊断原词+支撑信息为d，候选标签的描述文本：O＝[o₁,o₂,...,o_k]；

先假设一个通用的蕴含模型Inf：

Inf(textA,textB)＝MLP(M(<[cls],textA,[sep],textB>))

其中，MLP为一个两层的全连接层，输出蕴含得分。

具体的，步骤S42中，诊断原词和每个候选编码标签的描述文本做文本蕴含得到该标签的预测分数：ss_i＝Inf(d,o_i)。

步骤S43中，由于部分候选编码标签描述文本相似程度高，需要通过诊断原词和相似的两个候选编码标签做文本蕴含，得到表示标签优先程度的相对分数：ds_ij＝Inf(d,o_io_j)。

步骤S44中，单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个标签最终的分数，选取得分最高的作为最终答案：

其中，α_j代表加权系数。

经过步骤S41至S44处理，最终结果如下例子：

d＝肺癌##右上肺肿块##术后病理：(右肺上叶，经支气管镜肺活检标本)：肺腺癌；

o_best＝上叶、支气管或肺的恶性肿瘤。

步骤S5中，对当前诊断原词，取得分最高的标签，从标准的ICD10库中获取对应编码，即完成诊断编码的整个流程，如下例子：

name＝上叶、支气管或肺的恶性肿瘤

code＝C34.1。

综上所述，本发明通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。本发明通过证据抽取模型，可以对医生填写的诊断文本进行信息补充，从而提高编码准确率；通过三元文本蕴含的编码模型，克服传统模型只做浅层文本匹配而忽略语义上的匹配的缺点，能够依据完整的病历信息完成自动化编码。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

实施例2

参见图4，本发明实施例2还提供一种基于病历语义理解的诊断ICD自动编码系统，包括：

病历信息获取模块1，用于通过信息抽取程序从医院原始病历抽取病历信息，抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据；

病历信息拆分清洗模块2，用于对抽取的病历信息进行诊断术语拆分和病历内容清洗，诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分；

支撑信息抽取模块3，用于构建证据抽取模型，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据；

三元文本蕴含打分模块4，用于构建基于三元文本蕴含的编码模型，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分；

诊断编码模块5，用于对当前诊断原词，取得分最高的候选标签，从标准ICD10库中获取对应编码。

本实施例中，所述病历信息拆分清洗模块2中，通过正则表达式进行病历内容清洗，病历内容清洗包括缩写词替换、全角半角转换和指定字符转换；

所述支撑信息抽取模块3包括：

字符表示子模块31，用于使用预训练模型，生成具有篇章信息的问题和若干句子的字符表示；

句子表示子模块32，用于将生成的字符表示，输入到双向循环神经网络，获得上下文句子表示；

句子打分子模块33，将上下文句子表示使用MLP映射到二维，经过sigmoid函数计算当前句子是否为支撑句的得分；

支撑句判断子模块34，用于对于指定片段，每个片段经过答案预测网络判断是否存在支撑句；判断片段中句子的得分是否大于预设阈值，大于预设阈值判定为支撑句。

诊断三元文本拼接子模块35，用于获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。

本实施例中，所述三元文本蕴含打分模块4包括：

候选编码标签集子模块41，用于基于分类模型对诊断三元文本证据获取候选编码概率，取概率值最高的前k个作为候选编码标签集；

单标签推理子模块42，用于采用单标签推理，将诊断原词和每个候选编码标签的描述文本进行文本蕴含，得到候选编码标签的预测分数；

双标签推理子模块43，用于采用双标签推理，通过诊断原词和相似的两个候选编码标签进行文本蕴含，得到候选编码标签集合内部的成对比较分数；

排序整合子模块44，用于将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数，选取得分最高的作为最终答案。

需要说明的是，上述系统各模块/子模块之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质，所述计算机可读存储介质中存储有基于病历语义理解的诊断ICD自动编码方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的基于病历语义理解的诊断ICD自动编码方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，包括：存储器和处理器；

所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于病历语义理解的诊断ICD自动编码方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于病历语义理解的诊断ICD自动编码方法，其特征在于，包括：

对当前诊断原词，取得分最高的候选标签，从标准ICD库中获取对应编码。

2.根据权利要求1所述的基于病历语义理解的诊断ICD自动编码方法，其特征在于，通过正则表达式进行病历内容清洗，病历内容清洗包括缩写词替换、全角半角转换和指定字符转换。

3.根据权利要求1所述的基于病历语义理解的诊断ICD自动编码方法，其特征在于，通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据包括：

4.根据权利要求3所述的基于病历语义理解的诊断ICD自动编码方法，其特征在于，通过所述基于三元文本蕴含的编码模型进行诊断原词和候选标签文本蕴含得分包括：

5.根据权利要求4所述的基于病历语义理解的诊断ICD自动编码方法，其特征在于，采用单标签推理，将诊断原词和每个候选编码标签的描述文本进行文本蕴含，得到候选编码标签的预测分数。

6.根据权利要求5所述的基于病历语义理解的诊断ICD自动编码方法，其特征在于，采用双标签推理，通过诊断原词和相似的两个候选编码标签进行文本蕴含，得到候选编码标签集合内部的成对比较分数。

7.根据权利要求6所述的基于病历语义理解的诊断ICD自动编码方法，其特征在于，将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数，选取得分最高的作为最终答案。

8.基于病历语义理解的诊断ICD自动编码系统，其特征在于，包括：

诊断编码模块，用于对当前诊断原词，取得分最高的候选标签，从标准ICD库中获取对应编码。

9.根据权利要求8所述的基于病历语义理解的诊断ICD自动编码系统，其特征在于，所述病历信息拆分清洗模块中，通过正则表达式进行病历内容清洗，病历内容清洗包括缩写词替换、全角半角转换和指定字符转换；

所述支撑信息抽取模块包括：

支撑句判断子模块，用于对于指定片段，每个片段经过答案预测网络判断是否存在支撑句；判断片段中句子的得分是否大于预设阈值，大于预设阈值判定为支撑句；

10.根据权利要求9所述的基于病历语义理解的诊断ICD自动编码系统，其特征在于，所述三元文本蕴含打分模块包括：