CN112599213B

CN112599213B - 一种分类编码确定方法、装置、设备及存储介质

Info

Publication number: CN112599213B
Application number: CN202110237495.XA
Authority: CN
Inventors: 肖劲; 段翔; 张晓璐; 尹芳; 罗永贵; 苏丽
Original assignee: Lianren Healthcare Big Data Technology Co Ltd
Current assignee: Lianren Healthcare Big Data Technology Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-05-25
Anticipated expiration: 2041-03-04
Also published as: CN112599213A

Abstract

本发明实施例公开了一种分类编码确定方法、装置、设备及存储介质。该方法包括：获取待确定分类编码的医学文本、及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量；将文本向量输入至已训练完成的第一编码分类模型，根据第一编码分类模型的输出结果确定医学文本的分类编码；其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。本发明实施例的技术方案，可以自动且准确地确定医学文本的分类编码。

Description

一种分类编码确定方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机应用技术领域，尤其涉及一种分类编码确定方法、装置、设备及存储介质。

背景技术

数据标准化是医疗信息化过程中的重要内容之一，但是，由于医学文本众多且写作人的不规范性，很难对未结构化甚至是结构化的医学文本进行分析、处理以及应用到下游任务中。

以数据标准化中的国际疾病分类（International Classification ofDiseases，ICD）编码的确定过程为例，目前主要是由经过专门培训的病案室人员或相关医务工作者在阅读医学文本之后确定其对应的ICD编码。显然，上述通过人工确定ICD编码的过程需要高强度的劳力，成本昂贵且容易出错。

发明内容

本发明实施例提供了一种分类编码确定方法、装置、设备及存储介质，以实现自动确定分类编码的效果。

第一方面，本发明实施例提供了一种分类编码确定方法，可以包括：

获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量；

将文本向量输入至已训练完成的第一编码分类模型，并根据第一编码分类模型的输出结果确定医学文本的分类编码；

其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱；

其中，文本编码映射关系包括映射文本和与映射文本对应的分类编码间的映射关系，映射文本包括疾病名称；语素包括与疾病名称关联的疾病信息的语素，疾病信息包括方位词、发病部位和/或症状名称；中间知识图谱包括记载有由历史文本、与历史文本对应的历史编码、与历史文本对应的文本编码映射关系中记载的疾病信息间的映射关系形成的三元组。

第二方面，本发明实施例还提供了一种分类编码确定装置，可以包括：

文本向量确定模块，用于获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量；

分类编码确定模块，用于将文本向量输入至已训练完成的第一编码分类模型，根据第一编码分类模型的输出结果确定医学文本的分类编码；

第三方面，本发明实施例还提供了一种分类编码确设备，可以包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的分类编码确定方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的分类编码确定方法。

本发明实施例的技术方案，通过将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱中，并对由此得到的目标知识图谱进行向量化得到已构建向量，这使得相关性较强的语素对应的已构建向量间的向量距离比较小，即在根据已构建向量确定医学文本的文本向量时，相关性较强的医学文本的文本向量间的向量距离也比较小，或者说与医学文本的相关性较强的训练文本的训练向量与文本向量间的向量距离也比较小；那么，后续将该文本向量输入至已训练完成的第一编码分类模型，由于第一编码分类模型可以将该文本向量和各训练向量进行比较，并将与该文本向量最为接近的训练向量对应的标注编码进行输出，因此根据第一编码分类模型的输出结果可自动且准确地确定医学文本的分类编码。上述技术方案，解决了通过人工确定分类编码的过程中存在的劳力强度过高、成本昂贵并且容易出错的问题，而且通过将语素构建到中间知识图谱的方式提高了相关性较强的语素在已构建向量中的相似度，由此实现了自动且准确地确定医学文本的分类编码的效果。

附图说明

图1是本发明实施例一中的一种分类编码确定方法的流程图；

图2是本发明实施例二中的一种分类编码确定方法的流程图；

图3是本发明实施例三中的一种分类编码确定方法的流程图；

图4是本发明实施例四中的一种分类编码确定方法的流程图；

图5是本发明实施例五中的一种分类编码确定方法的流程图；

图6是本发明实施例六中的一种分类编码确定方法的流程图；

图7是本发明实施例七中的一种分类编码确定装置的结构框图；

图8是本发明实施例八中的一种分类编码确设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在介绍本发明实施例之前，先对本发明实施例的应用场景进行示例性说明：ICD是由世界卫生组织（World Health Organization，WHO）制定的国际统一的疾病分类方法，它主要是根据疾病的病因、病理、临床表现和解剖位置等特性，将疾病分门别类，使其成为一个有序的组合，并且利用编码进行表示的方式。目前，全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》，其保留了ICD的简称，并被统称为ICD-10。

为了解决上述通过人工确定ICD编码的过程中存在的劳力高强、成本昂贵且容易出错的问题，本发明各实施例提出了一种可以自动确定分类编码的分类编码确定方法，该分类编码即为ICD编码，该方法的具体实现过程如下所述。

实施例一

图1是本发明实施例一中提供的一种分类编码确定方法的流程图。本实施例可适用于自动确定医学文本的分类编码的情况。该方法可以由本发明实施例提供的分类编码确定装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在分类编码确定设备上，该设备可以是各种用户终端或服务器。

参见图1，本发明实施例的方法具体包括如下步骤：

S110、获取待确定分类编码的医学文本、及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量。

其中，医学文本可以是与医学相关的且其分类编码待确定的文本，如医护人员的疾病诊断文本等。该医学文本中可以包括方位词、发病部位、症状名称、疾病名称等等，比如“左上肢骨折”中方位词是“左”、发病部位是“上肢”、且疾病名称是“骨折”。已构建向量是与医学文本关联的且已构建完成的向量，其可以表示出什么样的文本对应什么样的向量，因此根据已构建向量可以确定医学文本的文本向量。

在实际应用中，可选的，若在已构建向量中存在与医学文本相一致的文本，则可以将该文本的向量作为文本向量；否则，可以基于医学文本的语义信息对医学文本进行语义切分，即将医学文本切分成最基本的细粒度文本，该细粒度文本可以称为医学子文本；进而，将已构建向量中的与医学子文本一致的文本的向量作为该医学子文本的文本子向量，然后根据各文本子向量确定医学文本的文本向量，比如将各文本向量进行组合得到文本向量。示例性的，在已构建向量中并未存在与“急性上呼吸道感染”相一致的文本的向量，那么可以将“急性上呼吸道感染”进行语义切分得到“急性”和“上呼吸道感染”；进一步的，在已构建向量中存在与“急性”相一致的文本的向量以及与“上呼吸道感染”相一致的文本的向量，那么可以基于这两个向量构成“急性上呼吸道感染”的文本向量。

S120、将文本向量输入至已训练完成的第一编码分类模型，并根据第一编码分类模型的输出结果确定医学文本的分类编码。

其中，第一编码分类模型可以是已经训练完成的用于确定文本向量的分类编码的模型，那么在将文本向量输入至已训练完成的第一编码分类模型之后，根据第一编码分类模型的输出结果可以确定医学文本的分类编码。在此基础上，可选的，第一编码分类模型可以通过如下步骤预先训练得到：获取训练文本和该训练文本的标注编码；根据已构建向量确定训练文本的训练向量，将该训练向量和该标注编码作为一组第一训练样本，基于多个第一训练样本对原始分类模型进行训练，得到第一编码分类模型。值得注意的是，标注编码可以是人工对训练文本直接进行标注后得到的编码，也可以是先对各种可能的编码进行随机采样，再基于随机采样结果对训练文本进行标注后得到的编码，等等，在此未做具体限定。如果标注编码与训练文本的真正的ICD编码相一致，则这样的训练样本可以称为正样本，否则可以称为负样本。另外，训练文本可以来源于文本编码映射关系中的映射文本，文本编码映射关系可以是映射文本和与映射文本对应的分类编码间的映射关系，其可以通过ICD-10文本进行表示；该映射文本可以是与医学相关的文本，如方位词、发病部位、症状名称、疾病名称等。

需要说明的是，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，在实际应用中，可选的，上述向量化过程可以是：基于来自变换器的双向编码器表征（Bidirectional Encoder Representations from Transformers，BERT）模型对目标知识图谱中的各节点上的节点文本进行处理，如初始化每个节点文本的向量，该节点文本是该节点上的内容；经由图嵌入(Graph embedding)得到处理结果的已构建向量。

另外，知识图谱本质上是语义网络（Semantic Network）的知识库，从实际应用的角度出发可以简单地理解成多关系图（Multi-relational Graph）。目标知识图谱是将与文本编码映射关系中的疾病名称相关联的语素作为节点构建到初步构建完成的中间知识图谱之后得到的知识图谱，即目标知识图谱是在中间知识图谱中增加了一些节点后构建出的知识图谱，其中，与文本编码映射关系中的疾病名称关联的语素可以是疾病名称本身的语素，也可以是与疾病名称关联的疾病信息的语素等，在此未做具体限定。该疾病信息可以是上文所述的方位词、发病部位、症状名称等，在此未做具体限定。示例性的，某中间知识图谱包括一条图路径A—B—C，某语素是与A存在关系的D，那么在目标知识图谱中与其相应的图路径可以是D—A—B—C。

中间知识图谱是初步构建完成的可记载有由历史文本、与历史文本对应的历史编码、与历史文本对应的文本编码映射关系中记载的疾病名称/发病部位/症状名称间的映射关系形成的三元组。三元组中第二个元素表达了第一个元素和第三个元素之间的关系，比如子类、发病部位、有症状、映射、同义词等。其中，第一个元素和第三个元素可以作为知识图谱中的节点出现，这些节点间可以通过三元组中的关系连接成查询路径。将语素作为节点构建到中间知识图谱之后可以得到目标知识图谱，这样设置的好处在于，有些相关性较强的语素在单纯基于向量进行表示时，它们之间的向量距离比较大；但是，如果将这些语素构建到中间知识图谱中，由于它们在空间上有隐藏的接近性，这使得在对由此得到的目标知识图谱进行向量化后得到的已构建向量中，它们之间的向量距离比较小，即后续在根据已构建向量得到医学文本的文本向量时，相关性较强的医学文本的文本向量间的向量距离也比较小，由此提高了分类编码确定的准确度。

一种可选的技术方案，中间知识图谱可以通过如下步骤预先构建得到：将历史文本作为起始节点，将文本编码映射关系中与历史文本相对应的疾病信息作为中间节点且历史编码作为终止节点；根据起始节点、中间节点和终止节点构建中间知识图谱。其中，历史文本可以是在本次获取到的医学文本前，分类编码确定装置获取到的与医学相关的文本；疾病信息可以是方位词、疾病名称、发病部位、症状名称等等与疾病相关的信息；历史编码可以是历史文本的分类编码，在实际应用中，可选的，一个历史文本可能对应至少一个历史编码，如糖尿病肾病的历史编码可以是糖尿病伴有肾并发症的分类编码，也可以对应到糖尿病肾病的分类编码。示例性的，由此得到的中间知识图谱可以是<历史文本,映射,历史编码>、<历史文本/疾病名称,子类,疾病名称>，<分类编码,上位, 历史编码>，<历史文本/疾病名称,发病部位, 文本编码映射关系中疾病名称对应的身体部位>，<历史文本/疾病名称,有症状,文本编码映射关系中记载的疾病名称对应的疾病症状>，<历史文本/疾病名称,映射,历史编码>，<历史文本/疾病名称,同义词,疾病名称>等等。需要说明的是，上文所述的历史编码和分类编码均是ICD编码，只是前者是历史文本的ICD编码，后者是医学文本的ICD编码，在此为了便于区分而将它们进行不同的命名。

一种可选的技术方案，语素可以通过下述步骤预先得到：对文本编码映射关系中的疾病名称和中间知识图谱中各节点上的节点文本进行语义切分，得到语素。其中，由于中间知识图谱中各节点上的节点文本可能是与疾病名称关联的疾病信息，因此可以对疾病名称和节点文本均进行语义切分，由此可以从多方面得到疾病名称的语素。在实际应用中，可选的，可以基于预先设置的词库进行语义切分，由此达到了快速实现语义切分的效果。示例性的，假设某疾病名称是左上肢骨折时，那么其可切分为以下三个语素：方位词：左、发病部位：上肢、疾病名称：骨折。

实施例二

图2是本发明实施例二中提供的一种分类编码确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，上述分类编码确定方法，具体还可以包括：基于医学文本在中间知识图谱上进行查询，得到图路径；将图路径输入至已训练完成的第二编码分类模型中，并根据第二编码分类模型的输出结果确定医学文本的第二分类编码；相应的，根据第一编码分类模型的输出结果确定医学文本的分类编码，具体可包括：根据第一编码分类模型的输出结果确定医学文本的第一分类编码，并根据第一分类编码和第二分类编码确定医学文本的分类编码。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例的方法具体可以包括如下步骤：

S210、获取待确定分类编码的医学文本、及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量，其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。

S220，基于医学文本在中间知识图谱上进行查询，得到图路径。

其中，基于医学文本在中间知识图谱上进行查询推理，根据一些已有知识可以从中间知识图谱上推理出一条图路径。示例性的，假设医学文本是“急性上呼吸道感染”，由此推导出的图路径可以是(急性上呼吸道感染)-[上位词]-(上呼吸道感染) -[同义词]-(感冒)-[映射]-(感冒的分类编码)。

S230、将文本向量输入至已训练完成的第一编码分类模型，根据第一编码分类模型的输出结果确定医学文本的第一分类编码。

其中，S220和S230的执行顺序可以是同时执行或是先后执行，在此未做具体限定。

S240、将图路径输入至已训练完成的第二编码分类模型中，根据第二编码分类模型的输出结果确定医学文本的第二分类编码。

其中，第二编码分类模型可以是已训练完成的用于确定图路径的分类编码的模型，那么在将图路径输入至已训练完成的第二编码分类模型后，根据第二编码分类模型的输出结果可以确定医学文本的第二分类编码。

在此基础上，可选的，第二编码分类模型可以通过如下步骤预先训练得到：获取训练文本和训练文本的标注编码；确定训练文本在中间知识图谱上的训练路径，将训练路径和标注编码作为一组第二训练样本；基于多组第二训练样本对原始分类模型进行训练，得到第二编码分类模型。需要说明的是，上文中的训练路径和图路径的本质相同，只是前者是训练文本在中间知识图谱上的查询结果，后者是医学文本在中间知识图谱上的查询结果，在此为了便于区分而将它们进行不同的命名。

S250、根据第一分类编码和第二分类编码确定医学文本的分类编码。

其中，从第一分类编码和第二分类编码中确定出与医学文本相匹配的分类编码的实现方式有多种，如从二者中任选其一作为分类编码、将二者同时作为分类编码、对二者进行投票加权以从二者中得到医学文本最为相关的至少一个分类编码等等，在此未做具体限定。

本发明实施例的技术方案，通过基于医学文本在中间知识图谱上进行查询，得到图路径，并将图路径输入至已训练完成的第二编码分类模型中，由此可以根据第二编码分类模型的输出结果确定的医学文本的第二分类编码和根据第一编码分类模型的输出结果确定的医学文本的第一分类编码共同确定出医学文本的分类编码，其将图路径和文本向量相结合，从不同方面多角度确定分类编码，由此提高了分类编码确定的准确度。

实施例三

图3是本发明实施例三中提供的一种分类编码确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，上述分类编码确定方法，具体还可包括：确定医学文本和文本编码映射关系中每个映射文本间的编辑距离，并根据各编辑距离确定医学文本的距离向量；将距离向量输入至已训练完成的第三编码分类模型，并根据第三编码分类模型的输出结果确定医学文本的第三分类编码；相应的，根据第一编码分类模型的输出结果确定医学文本的分类编码，可以包括：根据第一编码分类模型的输出结果确定医学文本的第一分类编码，并根据第一分类编码和第三分类编码确定医学文本的分类编码。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图3，本实施例的方法具体可以包括如下步骤：

S310、获取待确定分类编码的医学文本、及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量，其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。

S320、确定医学文本和文本编码映射关系中每个映射文本间的编辑距离，并根据各编辑距离确定医学文本的距离向量。

其中，编辑距离可以通过多种方式确定，比如莱文斯坦距离（Levenshteindistance），最长公共子串（Longest Common Substring）等。分别确定医学文本和文本编码映射关系中每个映射文本之间的编辑距离，假设文本编码映射关系中映射文本的数量是N，那么每个医学文本对应有N个编辑距离。进一步的，根据各编辑距离确定医学文本的距离向量，该距离向量可以由各编辑距离直接构成得到。

S330、将文本向量输入至已训练完成的第一编码分类模型，根据第一编码分类模型的输出结果确定医学文本的第一分类编码。

其中，S320和S330的执行顺序可以是同时执行或是先后执行，在此未做具体限定。

S340、将距离向量输入至已训练完成的第三编码分类模型，根据第三编码分类模型的输出结果确定医学文本的第三分类编码。

其中，第三编码分类模型可以是已经训练完成的用于确定距离向量的分类编码的模型，那么在将距离向量输入至已训练完成的第三编码分类模型之后，根据第三编码分类模型的输出结果可以确定医学文本的第三分类编码。

在此基础上，可选的，第三编码分类模型可以通过如下步骤预先训练得到：获取训练文本和该训练文本的标注编码；确定训练文本和各映射文本间的编辑距离，根据各编辑距离确定该训练文本的样本向量，将该样本向量和标注编码作为一组第三训练样本；基于多组该第三训练样本对原始分类模型进行训练，得到第三编码分类模型。需要说明的是，上文中的样本向量和距离向量的本质相同，只是前者是训练文本和各映射文本间的编辑距离构成的向量，而后者是医学文本和各映射文本间的编辑距离构成的向量，在此为了便于区分而将它们进行不同的命名。

S350、根据第一分类编码和第三分类编码确定医学文本的分类编码。

其中，从第一分类编码和第三分类编码中确定出与医学文本相匹配的分类编码的实现方式有多种，如从二者中任选其一作为分类编码、将二者同时作为分类编码、对二者进行投票加权以从二者中得到医学文本最为相关的至少一个分类编码等等，在此未做具体限定。

本发明实施例的技术方案，通过根据医学文本和文本编码映射关系中每个映射文本间的编辑距离确定医学文本的距离向量，并将将该距离向量输入至已训练完成的第三编码分类模型中，由此可以根据第三编码分类模型的输出结果确定的医学文本的第三分类编码以及根据第一编码分类模型的输出结果确定的医学文本的第一分类编码共同确定医学文本的分类编码，其将距离向量和文本向量相结合，从不同方面多角度确定分类编码，由此达到了提高分类编码确定的准确度的效果。

实施例四

图4是本发明实施例四中提供的一种分类编码确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，获取待确定分类编码的医学文本、及与医学文本关联的已构建向量，可以包括：获取待确定分类编码的医学文本，生成医学文本的同义词；将医学文本和/或同义词在文本编码映射关系中进行查询；若根据查询结果确定未得到与医学文本和/或同义词一致的疾病名称，则获取医学文本关联的已构建向量。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图4，本实施例的方法具体可以包括如下步骤：

S410、获取待确定分类编码的医学文本，生成医学文本的同义词，将医学文本和/或同义词在文本编码映射关系中进行查询。

其中，同义词的生成过程可以通过多种方式实现，比如在预先设置的中文同义词库、英文大小写转换、罗马字符转换软件、中英文翻译软件等等对医学文本进行处理后生成其同义词。将医学文本和/或同义词在文本编码映射关系中进行查询的实现方式有多种，如基于医学文本在文本编码映射关系中进行查询，比如基于同义词在文本编码映射关系中进行查询，比如基于医学文本和同义词同时在文本编码映射关系中进行查询，再比如先基于医学文本在文本编码映射关系中进行查询，当未查询到与医学文本一致的疾病名称时，再基于同义词在文本编码映射关系中进行查询，等等，在此未做具体限定。

S420、若根据查询结果确定未得到与医学文本和/或同义词一致的疾病名称，则获取医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量，其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。

其中，当仅基于医学文本进行查询且未查询到与医学文本一致的疾病名称、或是仅基于同义词进行查询且未查询到与同义词一致的疾病名称、或是当基于医学文本和同义词均进行查询并且未查询到与二者中任一者一致的疾病名称时，即当基于同义词和/或医学文本均未查询到相应的疾病名称时，则可以采取其余方案确定医学文本的文本向量。

S430、将文本向量输入至已训练完成的第一编码分类模型，并根据第一编码分类模型的输出结果确定医学文本的分类编码。

本发明实施例的技术方案，通过先将医学文本和/医学文本的同义词在文本编码映射关系中进行查询，在未查询到相应的疾病名称时，再执行后续的通过文本向量确定分类编码的步骤，即其先采用能够快速确定分类编码的步骤判断是否能够确定分类编码，若否再采用确定速度相对较慢但是肯定能够确定分类编码的步骤来确定分类编码，由此加快了分类编码的确定速度。

实施例五

图5是本发明实施例五中提供的一种分类编码确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量，具体可以包括：获取待确定分类编码的医学文本、历史映射关系和规则模板，并将医学文本在历史映射关系和/或规则模板中进行查询；若根据查询结果确定未在历史映射关系中得到与医学文本一致的历史文本和/或未在规则模板中得到与医学文本相匹配的规则，则获取医学文本关联的已构建向量。其中，与上述各实施例相同或是相应的术语的解释在此不再赘述。

参见图5，本实施例的方法具体可以包括如下步骤：

S510、获取待确定分类编码的医学文本、历史映射关系和规则模板，并将医学文本在历史映射关系和/或规则模板中进行查询。

其中，历史映射关系可以是历史文本和相应的历史编码之间的映射关系，通常情况下，历史映射关系可以是经过人工审核后的映射关系，经过长期积累，历史映射关系的设置可以提高分类编码确定的准确度。在实际应用中，可选的，历史文本可以包括不规范的疾病名称、明显是非疾病名称的文本等，示例性的，不规范的疾病名称可以是风寒、冷热病等；非疾病名称可以是开药、输液等等，这些都是在文本编码映射关系中无法找到与其相一致的疾病名称的医学文本，因此可以通过设置历史映射关系来确定类似的医学文本的分类编码。示例性的，由于风寒对应的疾病名称是感冒，因此风寒对应的历史编码是感冒的ICD编码；再示例性的，由于冷热病对应的疾病名称是伤寒，因此冷热病对应的历史编码是伤寒的ICD编码。

规则模板可以是通过规则形式表示出疾病信息和相应的分类编码间的对应关系的模板，其可以处理一些明显可以通过规则来处理的问题，上述疾病信息可以是疾病名称、疾病症状、患者状态等等。示例性的，怀孕三周在文本编码映射关系中对应的疾病名称是正常妊娠监督，因此在规则模板中记载的对应关系可以是：怀孕三周对应正常妊娠监督的分类编码。

需要说明是，由于历史映射关系难以涵盖全部的规则，比如怀孕3周可以通过正则表达式怀孕+时间段进行表示，这可以通过规则模版进行定义，但是在历史映射关系难以涵盖各种情况，比如怀孕1周、怀孕2周、怀孕3周等等，因此在历史映射关系之外还可以应用规则模板；同样的，有些文本是无法通过规则表示出来的，因此在规则模板之外还可以应用历史映射关系。即历史映射关系和规则模板可以单独应用，也可以相互配合应用等等，在此未做具体限定。在此基础上，可以将医学文本在历史映射关系和/或规则模板中进行查询，确定历史映射关系中是否存在与医学文本一致的历史文本和/或在规则模板中是否存在与医学文本相匹配的规则。

S520、若根据查询结果确定未在历史映射关系中得到与医学文本一致的历史文本和/或未在规则模板中得到与医学文本相匹配的规则，则获取医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量，其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。

其中，当仅在历史映射关系中进行查询且未查询到与医学文本一致的历史文本、或是仅在规则模板中进行查询且未查询到与医学文本相匹配的规则、再或是当在历史映射关系和规则模板中均进行查询且未查询到与二者中的任一者相应的历史文本或是规则时，即当基于历史映射关系和规则模板均未能确定医学文本的分类编码时，可以采取其余方案确定分类编码。

S530、将文本向量输入至已训练完成的第一编码分类模型，根据第一编码分类模型的输出结果确定医学文本的分类编码。

本发明实施例的技术方案，通过先将医学文本在历史映射关系和/或规则模板中进行查询，在未查询到相应的历史文本或是模板时，再执行后续通过文本向量确定分类编码的步骤，即其先采用能够快速确定分类编码的步骤判断是否能够确定分类编码，若否则再采用确定速度相对较慢但肯定能够确定分类编码的步骤来确定分类编码，由此加快了分类编码的确定速度。

实施例六

图6是本发明实施例六中提供的一种分类编码确定方法的流程图。本实施例以上述各技术方案为基础进行优化。其中，与上述各实施例相同或是相应的术语的解释在此不再赘述。

参见图6，本实施例的方法具体可以包括如下步骤：

S610、获取待确定分类编码的医学文本，将医学文本在文本编码映射关系中进行查询，若根据查询结果确定得到与医学文本一致的疾病名称，则将与该疾病名称对应的ICD编码进行输出，步骤结束；否则执行S620。

S620、生成医学文本的同义词，将同义词在文本编码映射关系中进行查询，若根据查询结果确定得到与医学文本一致的疾病名称，则将与该疾病名称对应的ICD编码进行输出，步骤结束；否则执行S630。

S630、获取历史映射关系，并将医学文本在历史映射关系中进行查询，若根据查询结果确定在历史映射关系中存在与医学文本一致的历史文本，则将该历史文本对应的ICD编码进行输出，步骤结束；否则执行S640。

S640、获取规则模板，并将医学文本在规则模板中进行查询，若根据查询结果确定在规则模板中存在与医学文本相匹配的规则，则将该规则对应的ICD编码进行输出，步骤结束；否则执行S650- S670。需要说明的是，S650- S670这3个步骤可以作为独立分支并行执行、也可以依次执行，在此未做具体限定。

S650、获取与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量，将文本向量输入至已训练完成的第一编码分类模型，并根据第一编码分类模型的输出结果确定医学文本的第一ICD编码，其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱。

S660、基于医学文本在中间知识图谱上进行查询，得到图路径；将图路径输入至已训练完成的第二编码分类模型中，并根据第二编码分类模型的输出结果确定医学文本的第二ICD编码。

S670、确定医学文本和文本编码映射关系中每个文本节点间的编辑距离，并根据各编辑距离确定医学文本的距离向量；将距离向量输入至已训练完成的第三编码分类模型，并根据第三编码分类模型的输出结果确定医学文本的第三ICD编码。

S680、根据第一ICD编码、第二ICD编码和第三ICD编码，通过加权投票确定医学文本的ICD编码。

本发明实施例的技术方案，先依次基于医学文本、同义词、历史映射关系和规则引擎判断是否能够确定医学文本的ICD编码，若均未能确定再基于3个分类模型共同确定ICD编码，即在工程实现上先执行可以快速确定ICD编码的步骤，若均未能确定再执行其余的肯定能够确定分类编码的步骤，由此加快了分类编码确定的速度且保证了分类编码确定的准确度。除此外，基于上述技术方案构建的ICD编码确定系统是可以复用在任意的医学文本上的系统，其具有可解释、易于实现、高效和准确的效果。

实施例七

图7为本发明实施例七提供的分类编码确定装置的结构框图，该装置用于执行上述任意实施例所提供的分类编码确定方法。该装置与上述各实施例的分类编码确定方法属于同一个发明构思，在分类编码确定装置的实施例中未详尽描述的细节内容，可以参考上述分类编码确定方法的实施例。如图7所示，该装置具体可包括：文本向量确定模块710和分类编码确定模块720。

其中，文本向量确定模块710，用于获取待确定分类编码的医学文本、以及与医学文本关联的已构建向量，根据已构建向量确定医学文本的文本向量，其中，已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱后得到的知识图谱；文本编码映射关系包括映射文本和与映射文本对应的分类编码间的映射关系，映射文本包括疾病名称；语素包括与疾病名称关联的疾病信息的语素，疾病信息包括方位词、发病部位和/或症状名称；中间知识图谱包括记载有由历史文本、与历史文本对应的历史编码、与历史文本对应的文本编码映射关系中记载的疾病信息间的映射关系形成的三元组；

分类编码确定模块720，用于将文本向量输入至已训练完成的第一编码分类模型，并根据第一编码分类模型的输出结果确定医学文本的分类编码。

可选的，文本向量确定模块710，具体可以包括：

语义切分单元，用于对医学文本进行语义切分，得到医学子文本；

文本向量确定单元，用于根据已构建向量分别确定各医学子文本的文本子向量，并根据各文本子向量确定医学文本的文本向量。

可选的，上述分类编码确定装置，还可以包括：

语素构建模块，用于对文本编码映射关系中的疾病名称和中间知识图谱中各节点上的节点文本进行语义切分，得到语素；

和/或，已构建向量构建模块，用于基于来自变换器的双向编码器表征模型对目标知识图谱中各节点上的节点文本进行处理，并经由图嵌入得到处理结果的已构建向量；

和/或，中间知识图谱构建模块，用于将历史文本作为起始节点，将文本编码映射关系中与历史文本相对应的疾病信息作为中间节点且历史编码作为终止节点；根据起始节点、中间节点和终止节点构建中间知识图谱。

可选的，上述分类编码确定装置，还可以包括：

图路径得到模块，用于基于医学文本在中间知识图谱上进行查询，得到图路径；

第二分类编码确定模块，用于将图路径输入至已训练完成的第二编码分类模型中，并根据第二编码分类模型的输出结果确定医学文本的第二分类编码；

相应的，分类编码确定模块720，具体可以包括：

分类编码确定单元，用于根据第一编码分类模型的输出结果确定医学文本的第一分类编码，根据第一分类编码和第二分类编码确定医学文本的分类编码。

可选的，上述分类编码确定装置，还可以包括：

距离向量确定模块，用于确定医学文本和文本编码映射关系中每个文本节点间的编辑距离，并根据各编辑距离确定医学文本的距离向量；

第三分类编码确定模块，用于将距离向量输入至已训练完成的第三编码分类模型，并根据第三编码分类模型的输出结果确定医学文本的第三分类编码；

相应的，分类编码确定模块720，具体可以包括：

分类编码确定单元，用于根据第一编码分类模型的输出结果确定医学文本的第一分类编码，根据第一分类编码和第三分类编码确定医学文本的分类编码。

可选的，文本向量确定模块710，可以包括：

第一查询单元，用于获取待确定分类编码的医学文本，生成医学文本的同义词，并将医学文本和/或同义词在文本编码映射关系中进行查询；

第一已构建向量获取单元，用于若根据查询结果确定未得到与医学文本和/或同义词一致的疾病名称，则获取医学文本关联的已构建向量。

可选的，文本向量确定模块710，可以包括：

第二查询单元，用于获取待确定分类编码的医学文本、历史映射关系和规则模板，将医学文本在历史映射关系和/或规则模板中进行查询；

第二已构建向量获取单元，用于若根据查询结果确定未在历史映射关系中得到与医学文本一致的历史文本和/或未在规则模板中得到与医学文本相匹配的规则，则获取医学文本关联的已构建向量。

本发明实施例七提供的分类编码确定装置，通过文本向量确定模块可以将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的中间知识图谱中，并对由此得到的目标知识图谱进行向量化得到已构建向量，这使得相关性较强的语素对应的已构建向量间的向量距离比较小，即在根据已构建向量确定医学文本的文本向量时，相关性较强的医学文本的文本向量间的向量距离也比较小，或者说与医学文本的相关性较强的训练文本的训练向量与文本向量间的向量距离也比较小；那么，分类编码确定模块将该文本向量输入至已训练完成的第一编码分类模型，由于第一编码分类模型可以将该文本向量和各训练向量进行比较，并将与该文本向量最为接近的训练向量对应的标注编码进行输出，因此根据第一编码分类模型的输出结果可自动且准确地确定医学文本的分类编码。上述装置，解决了通过人工确定分类编码过程中存在的劳力强度过高、成本昂贵且容易出错的问题，而且通过将语素构建到中间知识图谱的方式提高了相关性较强的语素在已构建向量中的相似度，由此实现了自动且准确地确定医学文本的分类编码的效果。

本发明实施例所提供的分类编码确定装置可执行本发明任意实施例所提供的分类编码确定方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述分类编码确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例八

图8为本发明实施例八提供的一种分类编码确设备的结构示意图，如图8所示，该分类编码确设备包括存储器810、处理器820、输入装置830和输出装置840。分类编码确设备中的处理器820的数量可以是一个或多个，图8中以一个处理器820为例；分类编码确设备中的存储器810、处理器820、输入装置830和输出装置840可以通过总线或其它方式连接，图8中以通过总线850连接为例。

存储器810作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的分类编码确定方法对应的程序指令/模块（例如，分类编码确定装置中的文本向量确定模块710和分类编码确定模块720）。处理器820通过运行存储在存储器810中的软件程序、指令以及模块，从而执行分类编码确设备的各种功能应用以及数据处理，即实现上述分类编码确定方法。

存储器810可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据分类编码确设备的使用所创建的数据等。此外，存储器810可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器810可进一步包括相对于处理器820远程设置的存储器，这些远程存储器可通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

实施例九

本发明实施例九提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种分类编码确定方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的分类编码确定方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory, ROM）、随机存取存储器（RandomAccess Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种分类编码确定方法，其特征在于，包括：

获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量，根据所述已构建向量确定所述医学文本的文本向量；

基于所述医学文本在中间知识图谱上进行查询，得到图路径；

将所述图路径输入至已训练完成的第二编码分类模型中，并根据所述第二编码分类模型的输出结果确定所述医学文本的第二分类编码；

将所述文本向量输入至已训练完成的第一编码分类模型，并根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码；

所述根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码，包括：

根据所述第一编码分类模型的输出结果确定所述医学文本的第一分类编码，并根据所述第一分类编码和所述第二分类编码确定所述医学文本的分类编码；

其中，所述已构建向量是对已构建完成的目标知识图谱进行向量化后得到的向量，所述目标知识图谱是将与文本编码映射关系中的疾病名称关联的语素作为节点构建到初步构建完成的所述中间知识图谱后得到的知识图谱；

其中，所述文本编码映射关系包括映射文本和与所述映射文本对应的所述分类编码间的映射关系，所述映射文本包括所述疾病名称；所述语素包括与所述疾病名称关联的疾病信息的语素，所述疾病信息包括方位词、发病部位和/或症状名称；所述中间知识图谱包括记载有由历史文本、与所述历史文本对应的历史编码、与所述历史文本对应的所述文本编码映射关系中记载的所述疾病信息间的映射关系形成的三元组。

2.根据权利要求1所述的方法，其特征在于，所述根据所述已构建向量确定所述医学文本的文本向量，包括：

对所述医学文本进行语义切分，得到医学子文本；

根据所述已构建向量分别确定各所述医学子文本的文本子向量，并根据各所述文本子向量确定所述医学文本的文本向量。

3.根据权利要求1所述的方法，其特征在于，所述语素通过下述步骤预先得到：

对所述文本编码映射关系中的所述疾病名称和所述中间知识图谱中各节点上的节点文本进行语义切分，得到所述语素；

和/或，所述已构建向量通过如下步骤预先构建得到：

基于来自变换器的双向编码器表征模型对所述目标知识图谱中各节点上的节点文本进行处理，并经由图嵌入得到处理结果的所述已构建向量；

和/或，所述中间知识图谱通过如下步骤预先构建得到：

将历史文本作为起始节点，将所述文本编码映射关系中与所述历史文本相对应的疾病信息作为中间节点且历史编码作为终止节点；根据所述起始节点、所述中间节点和所述终止节点构建所述中间知识图谱。

4.根据权利要求1所述的方法，其特征在于，还包括：

确定所述医学文本和所述文本编码映射关系中每个映射文本间的编辑距离，并根据各所述编辑距离确定所述医学文本的距离向量；

将所述距离向量输入至已训练完成的第三编码分类模型，并根据所述第三编码分类模型的输出结果确定所述医学文本的第三分类编码；

相应的，所述根据所述第一分类编码和所述第二分类编码确定所述医学文本的分类编码，包括：

根据所述第一分类编码、所述第二分类编码和所述第三分类编码确定所述医学文本的分类编码。

5.根据权利要求1所述的方法，其特征在于，所述获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量，包括：

获取待确定分类编码的医学文本，生成所述医学文本的同义词，并将所述医学文本和/或所述同义词在所述文本编码映射关系中进行查询；

若根据查询结果确定未得到与所述医学文本和/或所述同义词一致的所述疾病名称，则获取所述医学文本关联的已构建向量。

6.根据权利要求1所述的方法，其特征在于，所述获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量，包括：

获取待确定分类编码的医学文本、历史映射关系和规则模板，将所述医学文本在所述历史映射关系和/或所述规则模板中进行查询；

若根据查询结果确定未在所述历史映射关系中得到与所述医学文本一致的历史文本和/或未在所述规则模板中得到与所述医学文本相匹配的规则，则获取所述医学文本关联的已构建向量。

7.一种分类编码确定装置，其特征在于，包括：

文本向量确定模块，用于获取待确定分类编码的医学文本、以及与所述医学文本关联的已构建向量，根据所述已构建向量确定所述医学文本的文本向量；

图路径得到模块，用于基于所述医学文本在中间知识图谱上进行查询，得到图路径；

第二分类编码确定模块，用于将所述图路径输入至已训练完成的第二编码分类模型中，并根据所述第二编码分类模型的输出结果确定所述医学文本的第二分类编码；

分类编码确定模块，用于将所述文本向量输入至已训练完成的第一编码分类模型，根据所述第一编码分类模型的输出结果确定所述医学文本的分类编码；

其中，所述分类编码确定模块，包括：

分类编码确定单元，用于根据所述第一编码分类模型的输出结果确定所述医学文本的第一分类编码，并根据所述第一分类编码和所述第二分类编码确定所述医学文本的分类编码；

8.一种分类编码确定设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的分类编码确定方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的分类编码确定方法。