CN112836512B

CN112836512B - 基于自然语义处理和知识图谱的icd-11编码检索方法

Info

Publication number: CN112836512B
Application number: CN202110110385.7A
Authority: CN
Inventors: 桑波; 孙钊; 高希余; 樊昭磊; 李森; 李福友
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-07-19
Anticipated expiration: 2041-01-27
Also published as: CN112836512A

Abstract

本公开提供了一种基于自然语义处理和知识图谱的ICD‑11编码检索方法，获取自由书写的临床诊断文本数据；对获取的文本数据进行自然语言处理，得到实体和实体关系识别结果，标注出实体及其所属实体类型；标注实体在医学知识图谱上直接联系的其他实体，记录关系权重系数；结合医学知识图谱上的实体关系以及关系权重系数，通过标准诊断的实体和实体关系的树形结构搜索候选编码；依据ICD‑11编码规则对候选编码组成的组合进行检索筛选，选出最合理的组合编码作为ICD‑11诊断编码；本公开实现了ICD‑11诊断编码检索的智能化，解决了医疗机构无编码员或编码员配备不足的问题，降低了人力消耗成本和沟通成本。

Description

基于自然语义处理和知识图谱的ICD-11编码检索方法

技术领域

本公开涉及数据处理技术领域，特别涉及一种基于自然语义处理和知识图谱的ICD-11编码检索方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

国际疾病分类ICD(International Classification of Diseases)作为疾病和有关健康问题的国际分类标准，是卫生信息标准体系的重要构成部分。自产生至今已有一百多年的历史，期间经历了试一次修订，从最初仅用于死亡原因的统计，发展到涉及所有疾病和死亡原因，包括损伤和中毒及其外部原因的统计分类。疾病分类是根据疾病的某些特征，按照一定的规则对疾病分门别类，疾病分类实际上也是一种分组，有时一个组别可以包含若干种相同或者相似性质的疾病，有时仅单纯的包含某种疾病。国际疾病分类ICD是用编码的方法对疾病进行分组。

疾病分类的目的是为了按照所设定的方案进行资料的收集、整理、分析和利用。它希望尽可能地最大限度的满足各个方面对资料的需求，如临床医师、病理血痂、医院管理者、流行病学家、国家医学信息统计中心等。

ICD已有一百多年历史，由世界卫生组织主持修订，是国际公认的卫生信息标准分类；其中ICD-10是第10次修订；ICD-10之前，包括ICD-10是分类体系，即每个疾病按照分类轴心和事先约定的分类规则分类到一个特定的类别下。由于ICD-10是分类体系，分类过程不可避免的存在信息缺失，比如肺左上叶小细胞癌分类编码到肺左上叶恶性肿瘤，那么小细胞癌的肿瘤形态学这个信息在分类过程中就已经丢失了。这种分类体系经过一百多年的演化后，在ICD-11这个版本彻底改革，变为描述体系：使用多编码、后组配(postcoordinate)的方式对临床诊断进行编码，诊断中的每个实体描述都会被编码，最后组合为一个诊断编码，这种方式解决了疾病诊断的信息在分类过程中丢失的问题。

但是，发明人发现，ICD编码的检索使用，目前只能通过关键词或者拼音简码的检索方式，对于ICD-11只有检索出诊断中每个部分的编码，然后组合到一起，使用不方便且不准确；一方面由于临床的术语与ICD-11标准诊断编码的术语存在不兼容性，另外一方面，每个部分的检索对临床医生和编码员操作非常繁琐，一个诊断要反复检索多次才能组合出一个编码结果，并且容易产生错误的组合。

发明内容

为了解决现有技术的不足，本公开提供了一种基于自然语义处理和知识图谱的ICD-11编码检索方法，利用人工智能的技术，自主的对临床诊断进行自然语义处理，基于医学知识图谱和ICD-11的编码规则进行编码，实现了ICD-11诊断编码检索的智能化，解决了医疗机构无编码员或编码员配备不足的问题，降低了人力消耗成本和沟通成本，保证编码结果具有高度一致性，使得编码结果的统计使用和基于统计的管理决策更有效。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于自然语义处理和知识图谱的ICD-11编码检索方法。

一种基于自然语义处理和知识图谱的ICD-11编码检索方法，包括以下步骤：

获取自由书写的临床诊断文本数据；

对获取的文本数据进行自然语言处理，得到实体和实体关系识别结果，标注出实体及其所属实体类型；

标注实体在医学知识图谱上直接联系的其他实体，记录关系权重系数；

结合医学知识图谱上的实体关系以及关系权重系数，通过标准诊断的实体和实体关系的树形结构搜索候选编码；

依据ICD-11编码规则对候选编码组成的组合进行检索筛选，选出最合理的组合编码作为ICD-11诊断编码。

本公开第二方面提供了一种基于自然语义处理和知识图谱的ICD-11编码检索系统。

一种基于自然语义处理和知识图谱的ICD-11编码检索系统，包括：

数据获取模块，被配置为：获取自由书写的临床诊断文本数据；

实体识别模块，被配置为：对获取的文本数据进行自然语言处理，得到实体和实体关系识别结果，标注出实体及其所属实体类型；

知识图谱标注模块，被配置为：标注实体在医学知识图谱上直接联系的其他实体，记录关系权重系数；

候选编码搜索模块，被配置为：结合医学知识图谱上的实体关系以及关系权重系数，通过标准诊断的实体和实体关系的树形结构搜索候选编码；

编码组合筛选模块，被配置为：依据ICD-11编码规则对候选编码组成的组合进行检索筛选，选出最合理的组合编码作为ICD-11诊断编码。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于自然语义处理和知识图谱的ICD-11编码检索方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于自然语义处理和知识图谱的ICD-11编码检索方法中的步骤。

与现有技术相比，本公开的有益效果是：

本公开所述的编码检索方法、系统、介质或电子设备，利用人工智能的技术，自主的对临床诊断进行自然语义处理，基于医学知识图谱和ICD-11的编码规则进行编码，实现了ICD-11诊断编码检索的智能化，解决了医疗机构无编码员或编码员配备不足的问题，降低了人力消耗成本和沟通成本，保证编码结果具有高度一致性，使得编码结果的统计使用和基于统计的管理决策更有效。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的实体和实体之间关系示意图。

图2为本公开实施例1提供的拆分方案一的示意图。

图3为本公开实施例1提供的拆分方案二的示意图。

图4为本公开实施例1提供的拆分方案三的示意图。

图5为本公开实施例1提供的拆分方案四的示意图。

图6为本公开实施例1提供的知识图谱示意图。

图7为本公开实施例1提供的维护的实体及实体关系树形结构示意图。

图8为本公开实施例1提供的第一种实体和实体关系树形结构示意图。

图9为本公开实施例1提供的第二种实体和实体关系树形结构示意图。

图10为本公开实施例1提供的急性肾盂肾炎实体和实体关系树形结构示意图。

图11为本公开实施例1提供的急性左侧大肠埃希菌肾盂肾炎标准诊断及参数。

图12为本公开实施例1提供的急性左侧大肠埃希菌肾盂肾炎组合编码结果示意图。

图13为本公开实施例1提供的临床诊断实体识别并标记实体之间关系示意图。

图14为本公开实施例1提供的能够覆盖到临床诊断实体的候选标准诊断示意图。

图15为本公开实施例1提供的基于自然语义处理和知识图谱的ICD-11编码检索方法的流程示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1-15所示，本公开实施例1提供了一种基于自然语义处理和知识图谱的ICD-11编码检索方法，包括以下步骤：

S1：对自由书写的临床诊断进行自然语言处理。

对输入的原始临床诊断进行实体识别和实体关系的识别，标注出实体及其所属实体类型，例如疾病异常、解剖部位、器官组织、性质、分型、分期、病因、临床表现、微生物、化学物质等等，然后标注出实体之间的修饰和限制关系。

实例：急性左侧大肠埃希菌肾盂肾炎。

本实施例对该诊断标记出实体和实体之间关系，如图1所示。

对该诊断标记出实体：①肾盂，实体类型为解剖部位；②大肠埃希菌，实体类型为微生物；③肾炎，实体类型为疾病或异常；④左侧，实体类型为方位；⑤急性，实体类型为性质。

实体关系有四组，为：“肾盂”作为解剖部位修饰限制疾病异常：肾炎；“左侧”作为方位修饰限制解剖部位：肾盂；“急性”作为时期修饰限制疾病异常：肾炎；“大肠埃希菌”作为微生物(病因)修饰限制疾病异常：肾炎。

实体及类型识别使用的是自行维护的医学知识图谱里的实体概念描述词典以及从医学文本(教科书、病历、文献)中收集的术语和临床用语(包括口语化的表达)，实体关系抽取使用的是tramsformer训练的算法。

对临床诊断进行实体识别和拆分出实体的结果，并不一定是只有一套拆分识别结果，系统会尝试所有的拆分结果，并对所有的拆分结果进行后续的编码处理工作。

例如：

临床诊断：成人原发性甲状腺功能减退，拆分方案一如图2所示，拆分方案二如图3所示，拆分方案三如图4所示，拆分方案四如图5所示。

S2：标注出实体在医学知识图谱上直接联系的其他实体，并记录转化系数(语义距离)。

医学知识图谱是一种表示医学实体之间关系的语义网络，医学实体包括疾病异常、解剖部位、病因、临床表现、病理、微生物等实体概念以及名称、别名等实体表述，实体之间关系包括所属、包含、导致、表现、修饰限制、名称等，实体之间的关系是双向的，比如A属于B，那么B包含A，A表现C，C的概念是A，另外，实体之间的关系具有权重系数(介于0到1)，代表两个实体之间的关系强弱程度和包含关系，A属于B，系数0.6表示A概念实体在B概念实体中占比0.6。知识图谱是由大量的实体关系三元组构成，这个实体关系三元组包括两个实体是这两个实体之间的关系组成。

例如“大肠杆菌”这个概念实体，它的表述有“大肠埃希菌”、“大肠埃希氏菌”、“大肠埃希氏杆菌”，他们分别与“大肠杆菌”这个概念实体构成表述关系，即“大肠杆菌”这个概念可以用“大肠埃希菌”、“大肠埃希氏菌”、“大肠埃希氏杆菌”等名称来表达。

上一步从临床诊断标记出的实体，在知识图谱上检索出这些实体，和与这些实体具有所属关系和表述关系的实体，知识图谱如图6所示：

急性->急性，实体关系为表述，权重系数1；左侧->左侧，实体关系为表述，权重系数1；肾盂->肾盂，实体关系为表述，权重系数1；肾炎->肾炎，实体关系为表述，权重系数1。

临床诊断拆分识别的出的实体，及实体在医学知识图谱上关联的其他实体和关系权重系数，将在后面的步骤中用到。

S3：通过标准诊断的实体和实体关系的树形结构搜索候选编码。

标准诊断的实体和实体关系树形结构是预先维护好的，例如：

编码：GB51名称：急性肾盂肾炎，维护的实体及实体关系树形结构如图7所示。

其中，肾炎概念实体是这个实体关系树形结构中的关键实体，急性、肾盂概念实体是修饰限制关键实体的。

有些标准诊断的实体和实体关系树形结构并不是只有一套，例如：

编码：AB31.2名称：良性阵发性位置性眩晕。

第1种实体和实体关系树形结构如图8所示，第2种实体和实体关系树形结构如图9所示，良性阵发性位置性眩晕概念的另外一种概念表述方式。

所有标准诊断编码对应的实体和实体关系属性结构构成标准诊断的树形语义结构知识图谱。

将前面步骤S1中的临床诊断处理得到的实体和实体关系，在标准诊断的树形语义结构知识图谱中搜索能符合的标准诊断的实体和实体关系，要求临床诊断的实体和实体关系能包含标准诊断如图10所示。

临床诊断：急性左侧大肠埃希菌肾盂肾炎。

覆盖的候选标准诊断之一：GB51急性肾盂肾炎

候选标准诊断GB51能够表示出临床诊断中一部分实体，即临床诊断的一部分概念含义。

单个候选诊断表达临床诊断含义的程度，有3个参数：

1)表达出临床诊断的实体概念数量，本例中，表达出临床诊断中3个实体

2)具体表达出临床诊断的实体，本例中，是“急性”(时期)，“肾盂”(解剖部位)，“肾炎”(疾病异常)。

3)表示出对应的实体的权重转化系数之积，本例中，三个实体转化系数都是1，系数之积是1。

本临床诊断“急性左侧大肠埃希菌肾盂肾炎”，能覆盖到的所有标准诊断及参数，如图11所示。

S4：依据ICD-11编码规则对候选编码组成的组合进行检索筛选，选出最合理的组合编码作为ICD-11诊断编码。

从以上候选标准诊断编码中，选出多个编码组合起来，表达出临床诊断的概念含义，要求：

1)实体概念尽可能表达详细(即临床诊断每个实体尽可能由转化系数接近1的标准诊断实体表示出来)；

2)尽可能用少的编码组合起来覆盖临床诊断中所有实体概念，即不要有冗余编码；

3)必须有主干码。

例如，如果使用了GB51急性肾盂肾炎诊断编码，就可省略XT5R急性这个多余的诊断编码，因为GB51表示的实体覆盖了XT5R能表示的实体。

将候选标准诊断进行组合，从中找出满足前面两点条件的编码组合。

定义候选编码对临床诊断诊断的表示向量，V_i表示编码的标准诊断的实体对应临床诊断中实体的转化系数，例如：GB51急性肾盂肾炎表示的实体对应临床诊断中对应的实体为[急性，肾盂，肾炎]，其转化系数分别为[1，1，1]，按照临床诊断对应位置的实体表示及转化系数，GB51的表示向量为(1，0，0，1，1)，即：

v₁＝(1，0，0，1，1)

所有候选诊断对临床诊断的表示向量组合成表示矩阵，其中V_ij表示第i个标准诊断对临床诊断中第j个实体的表示转化系数，如下：

其中每行依次代表候选诊断编码：[GB51急性肾盂肾炎，XK8G左侧，XA21J4肾盂，XA6KU8肾脏，XT5急性，XN6P4大肠杆菌，XN4WC埃希氏菌属，XN5PZ革兰氏阴性]；

其中，主干码的索引为[1]。

注：主干码，扩展码是ICD-11这个体系对编码的一个使用分类：

具体含义：主干码是可单独使用过的编码，每个编码都包含一个或多个特定的疾病异常，这样保证每个主干码在使用的时候可以表示出有意义(即能表达出疾病异常)的最少的信息。

扩展码：不可单独使用，必须与主干码搭配使用，用于补充主干码之外的信息，主干码可以关联一个或多个扩展码，从而更详实的描述复杂的疾病和健康状况。扩展码均已X开头。

S4.1：计算候选编码之间的冗余覆盖关系，从候选集中，删除掉可被覆盖的候选标准编码。

定义编码之间的冗余覆盖关系的运算：

C＝F(V)

矩阵中元素的运算：

f(v_ik，v_jk)表示的是，比较第i个标准诊断和是第j个标准诊断哪个对临床诊断中第k个实体的表示较好，C_ij表示的是第i个标准诊断和是第j个标准诊断对临床诊断表示较好的数量计数。

定义：所有标准诊断对临床诊断表示的实体数量向量l，其中第i个标准诊断对临床诊断表示的实体数量l_i：

继续以前面的临床诊断“急性左侧大肠埃希菌肾盂肾炎”和候选标准诊断为例说明：

根据前面的候选编码对临床诊断的表示矩阵V，计算出候选编码的冗余覆盖关系矩阵：

l＝[3 1 1 1 1 1 1 1]

依次遍历冗余覆盖关系矩阵C中的元素：

通过上述判断公式，依次将候选诊断对临床诊断的表示矩阵中可被覆盖的候选编码向量v_i删除掉，形成新的表示矩阵：

判断时，首先在主干码内部判断，删除重复项(本例只有一个主干码)，然后再从所有候选编码中删除冗余的扩展码；

经过循环判断，依次删除v₃ v₄ v₅ v₇ v₈，编码表示向量构成表示矩阵

编码依次是[GB51急性肾盂肾炎，XK8G左侧，XN6P4大肠杆菌]，其中GB51急性肾盂肾炎是主干码，XK8G左侧，XN6P4大肠杆菌是扩展码

S4.2：在新的表示矩阵中，搜索能够表示临床诊断的所有组合

搜索策略：采用树形遍历搜索方式，搜索所有符合第一条的编码组合。

第一步：从临床诊断的主关键词开始，以覆盖主关键词的主干码标准编码为搜索分支起点，每个可以覆盖主关键词的标准编码，除了主关键词以外，还覆盖了那些临床诊断的实体。

注意：当主关键词只有一个的时，编码结果通常只有一个主干码就可以表示出来；当主关键词有多个时，编码结果的主干码有一个或多个，从候选编码中选取主干码覆盖那次，多个主干码之间使用/连接。

第二步：主干码选取完后，在还未被覆盖的实体中，以及被主干码覆盖但是转化权重不是1的实体里，选取一个实体，搜索可覆盖此实体的扩展码，作为第二层搜索分支；反复执行第二步，直到所有临床诊断的实体都被覆盖，或者剩余的实体都没有标准编码可以覆盖。

注意：扩展码跟在对应实体修饰的主关键词的主干码后面，使用&连在主干码后。

以图11中的临床诊断和候选标准诊断为例：

第一步：覆盖主关键词是“肾炎”，覆盖此主关键词的标准诊断编码是“GB51急性肾盂肾炎”：

搜索起点：GB51急性肾盂肾炎；

第二步：在还未被覆盖的实体中，选取一个实体，搜索可覆盖此实体的扩展码：

以第一步中的GB51急性肾盂肾炎，继续搜索，选取未覆盖到的实体“左侧”，其他标准诊断编码中，可以覆盖的“左侧”的候选标准诊断是“XK8G左侧”在这一步形成的组合搜索分支是：GB51&XK8G急性肾盂肾炎&左侧。

重复上述第二步，最后组合搜索结果：

GB51&XK8G&XN6P4急性肾盂肾炎&左侧&大肠埃希菌

本例中，只产生了一个搜索分支。

S4.3：对编码组合结果计算标准编码诊断与临床诊断的符合程度，有六个指标系数：

1)每个编码组合结果中，所有编码对应的临床诊断的实体被覆盖到比例μ_m，以及主干码对应的临床诊断的实体被覆盖到比例μ_tm：

μ_m表示第m个编码组合中，临床诊断的实体被该编码组合覆盖到的比例；a_ij表示临床诊断切分的实体中，第j个实体是否被编码组合中的第i个实体对应覆盖，覆盖表示到为1，否则为0；μ_tm表示第m个编码组合中，临床诊断的实体被主干码覆盖到的比例；a_tij表示临床诊断切分的实体中，第j个实体是否被编码组合中主干码的第i个实体对应覆盖，覆盖表示到为1，否则为0；n表示临床诊断的在现在的实体拆分识别的方案下，实体的数量。注意：前面步骤1里面说明过，每个临床诊断有一套或一套以上的拆分识别实体的方案，每个方案对应的拆分实体结果和实体数量不完全相同，所以参数计算中的n是对应拆分识别实体的方案中实体的数量。

以前面步骤S4.2的组合编码结果为例：

临床诊断实体数量n＝5，编码组合中对应表示的实体数量∑a_ij＝5，主干码为GB51，计算得到μ_m＝1，∑a_t1j＝3，μ_tm＝0.6，如图12所示。

2)在该编码组合结果中，每个临床诊断实体，所对应的编码中的实体中，挑选出最大的转化权重系数，所有对应的临床诊断实体的最大的转化权重系数之积，表示临床诊断中每个实体概念被表示到的详细程度，以及主干码的实体到临床诊断的实体转化系数的最大值之积：

ρ_m＝Πmax(β_mji)(当a_mj＝1时)

ρ_tm＝Πmax(β_tmji)(当a_tmj＝1时)

ρ_m表示第m个编码组合中，所有覆盖到的临床诊断，与对应的标准诊断组合中的实体，最大的转化权重系数之积，代表的是临床诊断中实体概念被表示到的详细程度；β_mji表示临床诊断中第j个实体，在当前第m个编码组合中，覆盖到第j个实体的一个或多个标准编码中，与第j个实体对应的标准编码的实体，到第j个实体的转化权重系数；max(β_mji)表示这些转化系数中最大值。

ρ_tm表示第m个编码组合中，主干码覆盖到的临床诊断，与对应的标准诊断组合中的实体，最大的转化权重系数之积，代表的是临床诊断中实体概念被主干码表示到的详细程度；β_tmji表示临床诊断中第j个实体，在当前第m个编码组合中，覆盖到第j个实体的一个或多个主干码中，与第j个实体对应的主干码的实体，到第j个实体的转化权重系数；max(β_tmji)表示这些转化系数中最大值。

例如，以前面步骤4.2的组合编码结果为例：

在组合编码结果1)中，β_1ji所有结果为：

对应的max(β_1ij)＝(1 1 1 1 1)，max(β_t1ij)＝(1 1 1)

ρ₁＝Πmax(β_1ji)＝1，ρ_t1＝Πmax(β_t1ji)＝1

3)每个编码组合结果中，使用的所有编码的数量k，以及主干码的数量k_t。k值越少表示使用冗余的编码越少，是对编码结果的一种约束，防止过度使用不必要的扩展码。

以前面步骤S4.2的8个组合编码结果，k值均为3，k_t均为1；

每个编码组合结果的六项指标计算完后，依次比较临床诊断实体覆盖表示比例μ、实体权重转化系数乘积ρ、使用编码数量k，主干码对临床诊断实体覆盖比例μ_t，主干码实体权重转化系数乘积ρ_t，主干码数量k_t，并且按六个指标排序。

注：依次比较的意思是，首先比较μ，该项结果相同的比较ρ，这项值相同再比较k，后面依次比较，排序是按照μ降序，ρ降序，k升序，μ_t降序，ρ_t降序，k_t升序。

排序后的结果，排序最前面的编码组合为该临床诊断最合适的编码结果。

本例中临床诊断“急性前壁ST段抬高心肌梗死，LAD”对应的在步骤S4.2的指标计算结果为：

排序后，候选编码结果是GB51&XK8G&XN6P4急性肾盂肾炎&左侧&大肠埃希菌

以另外一个例子描述多主关键词的诊断编码过程：

临床诊断：十二指肠溃疡伴急性出血。

对临床诊断实体识别并标记实体之间关系如图13所示。

每个候选标准诊断的实体及对应的临床诊断的实体如图14所示，每个对应实体下标着转化系数。

候选编码表示矩阵：

其中，主干码的索引是[1，2，3，4，5，6，11，12]；

冗余覆盖关系矩阵：

l＝[2 2 2 2 3 2 1 1 1 1 1 2]

按照前面的例子，首先去搜索出所有的编码组合并去重，首先是主干码之间删除冗余：

按照前面所说的判断冗余的公式：

主干码表示向量依次删除：v₂，v₃，v₄，v₆，v₁₂；

扩展码表示向量依次删除：v₇，v₈，v₉，v₁₀，v₁₁；

最后剩余编码表示向量为：v₁，v₅；

候选编码结果为DA63.Z/ME24.90；

然后分别计算每个编码组合的指标系数，并排序，排序后，最合适的编码结果是DA63.Z/ME24.90，十二指肠溃疡，未特指的&急性胃肠道出血，不可归类在他处者。

总体的方法流程如图15所示。

实施例2：

本公开实施例2提供了一种基于自然语义处理和知识图谱的ICD-11编码检索系统，包括：

所述系统的工作方法与实施例1提供的基于自然语义处理和知识图谱的ICD-11编码检索方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于自然语义处理和知识图谱的ICD-11编码检索方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于自然语义处理和知识图谱的ICD-11编码检索方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于自然语义处理和知识图谱的ICD-11编码检索方法，其特征在于：包括以下步骤：

获取自由书写的临床诊断文本数据；

依据ICD-11编码规则对候选编码组成的组合进行检索筛选，选出最合理的组合编码作为ICD-11诊断编码；

对候选编码组成的组合进行检索筛选，包括：

所有候选诊断对临床诊断的表示向量组合成表示矩阵；

计算候选编码之间的冗余覆盖关系矩阵，从候选集中，删除可被覆盖的候选标准编码，更新表示矩阵；

在新的表示矩阵中，搜索能够表示临床诊断的所有组合；

对编码组合结果计算标准编码诊断与临床诊断的符合程度，分别计算每个编码组合的指标系数；

根据得到的指标系数得到最符合的编码组合；

根据候选编码对临床诊断的表示矩阵，计算候选编码的冗余覆盖关系矩阵；

依次遍历冗余覆盖关系矩阵中的元素；

通过预设判断公式，依次将候选诊断对临床诊断的表示矩阵中可被覆盖的候选编码向量删除，形成新的表示矩阵；

其中，候选编码向量删除，包括：进行循环判断，首先在主干码内部判断，删除重复项，然后再从所有候选编码中删除冗余的扩展码；

从临床诊断的主关键词开始，以覆盖主关键词的主干码标准编码为搜索分支起点，每个可以覆盖主关键词的标准编码，同时覆盖临床诊断的实体；

主干码选取完后，在还未被覆盖的实体中以及被主干码覆盖但是转化权重不是1的实体里，选取一个实体，搜索可覆盖此实体的扩展码，作为第二层搜索分支，反复执行此步骤，直到所有临床诊断的实体都被覆盖，或者剩余的实体都没有标准编码可以覆盖；

每个编码组合的指标系数包括临床诊断实体覆盖表示比例、实体权重转化系数乘积、使用编码数量、主干码对临床诊断实体覆盖比例、主干码实体权重转化系数乘积以及主干码数量，并根据上述顺序进行依次比较；

每个编码组合结果的六项指标计算完后，依次比较并且按六个指标排序，排序后的结果，排在最前面的编码组合为该临床诊断最合适的编码结果。

2.如权利要求1所述的基于自然语义处理和知识图谱的ICD-11编码检索方法，其特征在于：

所有标准诊断编码对应的实体和实体关系属性结构，构成标准诊断的树形语义结构知识图谱。

3.如权利要求1所述的基于自然语义处理和知识图谱的ICD-11编码检索方法，其特征在于：

将获取的实体和实体关系在标准诊断的树形语义结构知识图谱中，搜索能符合的标准诊断的实体和实体关系，且临床诊断的实体和实体关系包含标准诊断。

4.如权利要求1所述的基于自然语义处理和知识图谱的ICD-11编码检索方法，其特征在于：

单个候选诊断表达临床诊断含义的程度，包括三个参数：

表达出临床诊断的实体概念数量、表达出临床诊断的实体以及表示出对应的实体的权重转化系数之积。

5.一种基于自然语义处理和知识图谱的ICD-11编码检索系统，其特征在于：包括：

编码组合筛选模块，被配置为：依据ICD-11编码规则对候选编码组成的组合进行检索筛选，选出最合理的组合编码作为ICD-11诊断编码；

对候选编码组成的组合进行检索筛选，包括：

所有候选诊断对临床诊断的表示向量组合成表示矩阵；

在新的表示矩阵中，搜索能够表示临床诊断的所有组合；

根据得到的指标系数得到最符合的编码组合；

依次遍历冗余覆盖关系矩阵中的元素；

6.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如权利要求1-4任一项所述的基于自然语义处理和知识图谱的ICD-11编码检索方法中的步骤。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1-4任一项所述的基于自然语义处理和知识图谱的ICD-11编码检索方法中的步骤。