CN115248842A

CN115248842A - 一种基于知识图谱与检索引擎的icd智能编码的系统

Info

Publication number: CN115248842A
Application number: CN202210698834.9A
Authority: CN
Inventors: 肖尚华; 唐厚强; 张友书; 程岚; 祝伟
Original assignee: Beijing Yading Information Technology Co ltd
Current assignee: Beijing Yading Information Technology Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-10-28

Abstract

本发明提出了一种基于知识图谱与检索引擎的ICD智能编码的系统，包括：数据获取模块用于从电子病历系统和医嘱系统中，获取电子病历数据；数据标准化模块用于将各个医院电子病历进行标准化处理；诊断名称识别模块用于构建医学领域语料，进行语言模型微调；训练模型；基于训练好的模型进行诊断命名实体识别；诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱，利用LAC分词工具对输入诊断临床术语进行基础维度拆分；ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积，对知识图谱中诊断维度建立倒排索引表；建立诊断检索引擎；对临床术语进行ICD编码检索；对原始诊断临床术语进行诊断数量分类；对召回结果进行选择和返回。

Description

一种基于知识图谱与检索引擎的ICD智能编码的系统

技术领域

本发明涉及ICD智能编码技术领域，特别涉及一种基于知识图谱与检索引擎的ICD智能编码的系统。

背景技术

计算机辅助编码，目前主要有三种技术方案：

第一种是关键词搜索提示方案，类似百度搜索的关键词提示，该方案基于医生输入的诊断关键字，搜索全部ICD编码名称，提示ICD名称和编码，引导编码人员一步步操作得出最终编码。

第二种是基于规则的编码系统，设置一定的编码逻辑规则，在一定条件下触发规则，提示正确的编码。

第三种是基于AI智能编码方案。应用先进的自然语言处理技术、深度学习模型及信息检索技术，无需人工干预，基于病历信息自动生成正确的ICD编码。

现有的ICD编码技术方案存在的问题：

1.仅依赖有监督学习方法训练得到主编码选择与漏诊检测，对训练数据构造质量依赖高，且无法融入具有高置信度、可灵活扩充的医学先验知识。

2.直接对病历文本使用textCNN进行漏诊检测，无法处理噪声较多的病历文本。以基于BERT的诊断命名实体识别结果为基础的ICD诊断识别则可很好利用大型医学预料的迁移学习能力。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于知识图谱与检索引擎的ICD智能编码的系统，以解决背景技术中所提到的问题，克服现有技术中存在的不足。

为了实现上述目的，本发明的实施例提供一种基于知识图谱与检索引擎的ICD智能编码的系统，包括：

数据获取模块、数据标准化模块、诊断名称识别模块、诊断临床术语维度分解模块和ICD编码匹配召回模块，其中，

所述数据获取模块用于从电子病历系统和医嘱系统中，获取电子病历数据；

所述数据标准化模块用于将各个医院电子病历进行标准化处理；

所述诊断名称识别模块用于构建医学领域语料，进行语言模型微调；构建训练集；基于所述训练集，训练模型；基于训练好的模型进行诊断命名实体识别，得到一段文本中的诊断临床术语名称；

所述诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱，利用LAC分词工具对输入诊断临床术语进行基础维度拆分；

所述ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积，得到Len(Dt)个维度组合；对知识图谱中诊断维度建立倒排索引表，并对不同维度类型分配权重，建立基于综合匹配分数的ICD10诊断检索引擎；对知识图谱中诊断维度建立倒排索引表，并对不同维度类型分配权重，建立基于综合匹配分数的ICD10诊断检索引擎；对临床术语进行ICD编码检索，对每个dsi的检索结果列表进行拼接，得到原始诊断临床术语Dt对应的检索召回列表Rt＝Rank({S1,S2,S3,…,Sm})，其中Si表示被召回的标准ICD诊断；对原始诊断临床术语进行诊断数量分类；对召回结果进行选择和返回。

由上述任一方案优选的是，所述数据获取模块获取的电子病历数据，包括：入院记录、手术记录、出院记录、死亡记录、收费医嘱。

由上述任一方案优选的是，所述数据标准化模块对医院电子病历进行标准化处理，包括：对病历文书名称标准化、病历字段名称标准化和医嘱收费项目标准化。

由上述任一方案优选的是，所述诊断名称识别模块构建训练集，并训练模型，包括：

首先，基于过去的电子病历，选取包含诊断临床术语的电子病历文书字段，构造诊断、手术实体识别训练集；

基于训练集，采用BERT+BiLSTM+CRF训练诊断名称识别模型。

由上述任一方案优选的是，利用的医学领域RoBERTa语言模型对输入的文本进行字嵌入表示；将字嵌入表示作为BiLSTM输入，输出每个字符对BIO的概率；将字符BIO概率作为CRF输入，输出每个字符的BIO标签。

由上述任一方案优选的是，所述诊断临床术语维度分解模块建立基于维度的诊断知识图谱，包括：

定义维度：维度包括构成完整诊断名称的基础疾病名称、程度、解剖部位，用维度值<维度类型>表示；

诊断的维度表达：知识图谱中诊断表示为Ds＝{ds1,ds2,ds3,…,dsk}，Ds为ICD10标准诊断名称；

建立维度层级树：建立从子节点指向父节点的层级树，使用H(dsi)表示对dsi查询得到其层级树中所有父节点维度列表；

建立维度同义词表：对于标准维度，构建其同义词维度，使用S(dsi)表示对dsi查询得到其同义词表中所有同义词维度列表。

由上述任一方案优选的是，所述诊断临床术语维度分解模块利用LAC分词工具对输入诊断临床术语进行基础维度拆分，包括：

对临床术语Dt拆分为Dt＝{dt1,dt2,dt3,…,dtn}；使用基于TF-IDF算法的文本相似度将非标准维度dti映射到标准维度dsi，得到Dt对应的标准维度分解{ds1,ds2,ds3,…,dsn}；

对每个dsi，根据维度层级树及维度同义词构建新的维度候选列表dsi，dsi＝{dsi}+H(dsi)+S(dsi)，得到新的维度分解二维数组Dt＝{ds1,ds2,ds3,…,dsn}。

由上述任一方案优选的是，所述ICD编码匹配召回模块对原始诊断临床术语进行诊断数量分类，包括如下步骤：

基于过去的电子病历，构建输入为诊断文本，标签为对应ICD诊断数量的训练集；

使用基于字的TF-IDF向量化方法对输入诊断文本构建长度为预设值的向量特征，并使用一个多层感知机作为分类器进行数量分类，得到当前诊断临床术语文本中包含的ICD诊断数C^t。

由上述任一方案优选的是，所述ICD编码匹配召回模块对召回结果进行选择和返回，包括如下步骤：

使用基于字符与维度实体的NMS方法对R^t进行过滤，保留非极大值抑制的ICD诊断召回项，得到R^t*；

利用C^t对R^t*截断前C^t项，作为最终单条诊断临床术语R^t对应的标准ICD诊断返回。

本发明通过结合基于ICD编码库的知识图谱与检索引擎，提出了一种新的高扩展性、高解释性的智能编码方法。通过结合最新的深度学习模型RoBERTa与大规模医学语料，得到一种高准确率的诊断临床术语识别方法。

本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统，具有以下有益效果：

(1)无需人工干预，自动编码，极大地减轻医生和编码员的工作量。

(2)将编码环境前置，医生可以根据患者情况，利用本系统直接编码，能显著降低医生和编码沟通次数，提升编码工作效率，以及编码准确率。

(3)引入基于ICD10编码库构建的医学知识图谱，通过先验医学知识使智能编码过程具有了可解释性，并通过灵活的知识图谱维护使智能编码具有高扩展性与灵活性。

(4)使用大型医学预料预训练的RoBERTa模型，准确识别诊断临床术语文本，很大程度降低下游ICD智能编码的任务难度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统的结构图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面首先对本发明涉及到的术语进行说明：

DRG：疾病诊断相关组(Diagnosis Related Groups，DRG)是用于衡量医疗服务质量效率以及进行医保支付的一个重要工具。DRG实质上是一种病例组合分类方案，即根据年龄、疾病诊断、合并症、并发症、治疗方式、病症严重程度及转归和资源消耗等因素，将患者分入若干诊断组进行管理的体系。

病案首页：住院病案首页是医务人员使用文字、符号、代码、数字等方式，将患者住院期间相关信息精炼汇总在特定的表格中，形成的病例数据摘要。住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。其中诊断和手术操作ICD编码，是决定DRG分组器的最主要因素。

ICD编码：国际疾病分类(international Classification of diseases,ICD)，是依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示。ICD规则中规定当两个疾病诊断或者一个疾病诊断伴随有相关的临床表现时，使用一个合并编码来反映疾病的整体情况

如图1所示，本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统，包括：数据获取模块、数据标准化模块、诊断名称识别模块、诊断临床术语维度分解模块和ICD编码匹配召回模块。

具体的，数据获取模块用于从电子病历系统和医嘱系统中，获取电子病历数据。

在本发明的实施例中，数据获取模块获取的电子病历数据，包括：入院记录、手术记录、出院记录、死亡记录、收费医嘱等关键信息。

数据标准化模块用于将各个医院电子病历进行标准化处理。

具体的，数据标准化模块将各个医院电子病历文书标准化，便于后续统一处理识别。标准化包括：病历文书名称标准化、病历字段名称标准化、医嘱收费项目标准化。

诊断名称识别模块用于构建医学领域语料，进行语言模型微调；构建训练集；基于训练集，训练模型；基于训练好的模型进行诊断命名实体识别，得到一段文本中的诊断临床术语名称。

具体的，基于医学领域语料微调的RoBERTa的诊断名称识别模块，执行以下功能：

(1)构建医学领域语料，进行语言模型微调。基于过去半年的电子病历，使用Masked Language Model方法在RoBERTa基础上进行语言模型微调。同时使用同样电子病历进行RoBERTa未覆盖的中文词表补充。

(2)构建训练集。基于过去半年的电子病历，选取如诊疗经过、出院诊断等包含诊断临床术语的电子病历文书字段，构造诊断、手术实体识别训练集S＝{s₁,s₂,s₃,…,s_n}。其中s_i为一段文本，如“…故明确入院诊断为:原发性高血压3级,极高危组,治疗上拟予控制血压,故补充诊断：高脂血症，治疗上嘱患者…”，其中包含诊断：原发性高血压3级,极高危组、高脂血症。

(3)训练模型。基于训练集，采用BERT+BiLSTM+CRF训练诊断名称识别模型。

(3.1)使用(1)中得到的医学领域RoBERTa语言模型对输入的文本进行字嵌入表示；

(3.2)将字嵌入表示作为BiLSTM输入，输出每个字符对BIO的概率；

(3.3)将字符BIO概率作为CRF输入，输出每个字符的BIO标签。

(4)基于训练好的模型进行诊断命名实体识别，得到一段文本中的诊断临床术语名称。

诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱，利用LAC分词工具对输入诊断临床术语进行基础维度拆分。

具体的，基于知识图谱的诊断临床术语维度分解模块，执行以下功能：

(1)根据ICD10国家临床2.0版编码库建立基于维度的诊断知识图谱。

(1.1)维度定义：维度包括构成完整诊断名称的基础疾病名称、程度、解剖部位等，用维度值<维度类型>表示；

(1.2)诊断的维度表达：知识图谱中诊断表示为D^s＝{d^s ₁,d^s ₂,d^s ₃,…,d^s _k}，D^s为ICD10标准诊断名称，如“高血压病3级(高危)”，其对应三个维度：d^s ₁＝“高血压病<disease>”，d^s ₂＝“3级<degree>”，d^s ₃＝“高危<degree>”；

(1.3)建立维度层级树：对于“右足<anatomy>”、“下肢<anatomy>”类的维度数据，建立从子节点“下肢<anatomy>”指向父节点“右足<anatomy>”的层级树。使用H(d^s _i)表示对d^s _i查询得到其层级树中所有父节点维度列表；

(1.4)建立维度同义词表：对于标准维度“口腔黏膜<anatomy>”，构建其同义词维度“口腔粘膜<anatomy>”。使用S(d^s _i)表示对d^s _i查询得到其同义词表中所有同义词维度列表；

(2)利用LAC分词工具对输入诊断临床术语进行基础维度拆分

(2.1)对临床术语D^t拆分为D^t＝{d^t ₁,d^t ₂,d^t ₃,…,d^t _n}；使用基于TF-IDF算法的文本相似度将非标准维度d^t _i映射到标准维度d^s _i，得到D^t对应的标准维度分解{d^s ₁,d^s ₂,d^s ₃,…,d^s _n}；

(2.2)对每个d^s _i，根据维度层级树及维度同义词构建新的维度候选列表d^s _i。d^s _i＝{d^s _i}+H(d^s _i)+S(d^s _i)。得到新的维度分解二维数组D^t＝{d^s ₁,d^s ₂,d^s ₃,…,d^s _n}。

ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积，得到Len(Dt)个维度组合；对知识图谱中诊断维度建立倒排索引表，并对不同维度类型分配权重，建立基于综合匹配分数的ICD10诊断检索引擎；对知识图谱中诊断维度建立倒排索引表，并对不同维度类型分配权重，建立基于综合匹配分数的ICD10诊断检索引擎；对临床术语进行ICD编码检索，对每个dsi的检索结果列表进行拼接，得到原始诊断临床术语Dt对应的检索召回列表Rt＝Rank({S1,S2,S3,…,Sm})，其中Si表示被召回的标准ICD诊断；对原始诊断临床术语进行诊断数量分类；对召回结果进行选择和返回。

具体的，基于检所引擎的ICD编码匹配召回模块，执行以下功能：

(1)对D^t直接计算其笛卡尔积，得到Len(D^t)个维度组合，每个维度组合长度为n。Len(D^t)的计算公式为：

(2)对知识图谱中诊断维度建立倒排索引表，并对不同维度类型分配权重，建立基于综合匹配分数的ICD10诊断检索引擎。其中匹配分数由维度类别权重、字符级IOU(Intersection Over Union)与维度实体级IOU共同加权计算得到；

(3)对D^t进行ICD编码检索，对每个d^s _i的检索结果列表进行拼接，得到原始诊断临床术语D^t对应的检索召回列表R^t＝Rank({S₁,S₂,S₃,…,S_m})，其中S_i表示被召回的标准ICD诊断。并使用5.2中描述的检索方法进行召回排序。

(4)对原始诊断临床术语D^t进行诊断数量分类

(4.1)基于过去半年的电子病历，构建输入为诊断文本，标签为对应ICD诊断数量的训练集；

(4.2)使用基于字的TF-IDF向量化方法对输入诊断文本构建长度为100的向量特征，并使用一个多层感知机作为分类器进行数量分类，得到当前诊断临床术语文本中包含的ICD诊断数C^t；

(5)对召回结果进行选择和返回

(5.1)使用基于字符与维度实体的NMS(None Max Suppression)方法对R^t进行过滤，保留非极大值抑制的ICD诊断召回项，得到R^t*；

(5.2)使用得到的诊断C^t对R^t*截断前C^t项，作为最终单条诊断临床术语R^t对应的标准ICD诊断返回。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本领域技术人员不难理解，本发明包括上述说明书的发明内容和具体实施方式部分以及附图所示出的各部分的任意组合，限于篇幅并为使说明书简明而没有将这些组合构成的各方案一一描述。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，包括：数据获取模块、数据标准化模块、诊断名称识别模块、诊断临床术语维度分解模块和ICD编码匹配召回模块，其中，

2.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述数据获取模块获取的电子病历数据，包括：入院记录、手术记录、出院记录、死亡记录、收费医嘱。

3.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述数据标准化模块对医院电子病历进行标准化处理，包括：对病历文书名称标准化、病历字段名称标准化和医嘱收费项目标准化。

4.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述诊断名称识别模块构建训练集，并训练模型，包括：

基于训练集，采用BERT+BiLSTM+CRF训练诊断名称识别模型。

5.如权利要求4所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，利用的医学领域RoBERTa语言模型对输入的文本进行字嵌入表示；将字嵌入表示作为BiLSTM输入，输出每个字符对BIO的概率；将字符BIO概率作为CRF输入，输出每个字符的BIO标签。

6.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述诊断临床术语维度分解模块建立基于维度的诊断知识图谱，包括：

7.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述诊断临床术语维度分解模块利用LAC分词工具对输入诊断临床术语进行基础维度拆分，包括：

8.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述ICD编码匹配召回模块对原始诊断临床术语进行诊断数量分类，包括如下步骤：

9.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统，其特征在于，所述ICD编码匹配召回模块对召回结果进行选择和返回，包括如下步骤：