CN114004228A

CN114004228A - 医疗文本数据的标准化处理方法及装置

Info

Publication number: CN114004228A
Application number: CN202111262573.8A
Authority: CN
Inventors: 黄洋; 邹彬; 刘云霞; 杨海波
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-01

Abstract

本发明公开了一种医疗文本数据的标准化处理方法及装置，其中该方法包括：接收脱敏后的原始医疗文本数据；对收到的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合；基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合；计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合；根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。本发明利用标准化医疗文本数据进行医院间的学术交流及跨院的远程医疗，能够大大提高学术交流、远程医疗的效率。

Description

医疗文本数据的标准化处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种医疗文本数据的标准化处理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

由于各个医院信息技术的开发程度不同，造成不同医院间的信息化程度千差万别，记录医疗数据所遵从的规范也参差不齐，给医院间的学术交流、远程医疗数据传输造成很大困难。因而，如何提供一种对医疗文本数据进行标准化处理的方法，快速实现医疗文本数据的标准化处理，是亟待解决的技术问题。

发明内容

本发明实施例提供一种医疗文本数据的标准化处理方法，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以相互沟通交流的技术问题，该方法包括：接收脱敏后的原始医疗文本数据；对收集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合；根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。

本发明实施例还提供一种医疗文本数据的标准化处理装置，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以沟通交流的技术问题，该装置包括：医疗文本数据采集模块，用于接收脱敏后的原始医疗文本数据；文本分词模块，用于对收集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；知识图谱查询模块，用于基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；医疗标准词集合确定模块，用于计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合；医疗标准化处理模块，用于根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。

本发明实施例还提供一种计算机设备，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以沟通交流的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述医疗文本数据的标准化处理方法。

本发明实施例还提供一种计算机可读存储介质，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以沟通交流的技术问题，该计算机可读存储介质存储有执行上述医疗文本数据的标准化处理方法的计算机程序。

本发明实施例中提供的医疗文本数据的标准化处理方法、装置、计算机设备及计算机可读存储介质，收集到原始医疗文本数据后，对原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，进而基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，通过计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合，最后根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。

与现有技术中直接用原始医疗文本数据沟通交流的技术方案相比，本发明实施例通过对原始医疗文本数据进行标准化处理，进而利用标准化医疗文本数据进行学术交流、远程医疗，能够大大提高效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种医疗文本数据的标准化处理方法流程图；

图2为本发明实施例中提供的一种基于医疗文本语义分类模型确定候选医疗标准词集合的流程图；

图3为本发明实施例中提供的一种对医疗文本语义分类模型进行机器学习的流程图；

图4为本发明实施例中提供的一种基于医学知识图谱确定候选医疗标准词集合的流程图；

图5为本发明实施例中提供的一种医学知识图谱的构建方法流程图；

图6为本发明实施例中提供的一种利用标准化医学文本数据进行远程医疗的流程图；

图7为本发明实施例中提供的一种基于区块链存储业务数据的流程图；

图8为本发明实施例中提供的一种医疗文本数据的标准化处理装置示意图；

图9为本发明实施例中提供的一种可选的医疗文本数据的标准化处理装置示意图；

图10为本发明实施例中提供的一种计算机设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种医疗文本数据的标准化处理方法，可以应用但不限于学术交流、远程医疗。

图1为本发明实施例中提供的一种医疗文本数据的标准化处理方法流程图，如图1所示，该方法包括如下步骤：

S101，接收脱敏后的原始医疗文本数据。

上述S101中的原始医疗文本数据可以是医护人员录入的就诊数据。对于一些非文本就诊数据，可以经过一定处理得到的文本数据，例如，对化验单等纸质文件进行光学字符识别得到的文本数据。这些经脱敏后的原始医疗文本数据是经用户授权可以采集、存储、并用于后续医疗或保险核保、核赔、产品推荐等应用所被使用的数据。

S102，对采集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，原始医疗文本分词集合中包含：一个或多个原始医疗文本分词。

在收集到原始医疗文本数据后，对原始医疗文本数据进行分词处理，得到对应的一个或多个原始医疗文本分词，构成原始医疗文本数据对应的原始医疗文本分词集合。

S103，基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词。

需要说明的是，本发明实施例中的医学知识图谱是预先构建的包含多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词，将原始医疗文本分词集合中的每个原始医疗文本分词与医学知识图谱中的各个候选医疗标准词进行匹配，可将匹配成功的候选医疗标准词对应的医疗标准确定为原始医疗文本数据对应的医疗标准，进而基于相应的医疗标准，对原始医疗文本数据进行标准化处理。

由于不同的医疗标准对应的候选医疗标准词可能相同，因而，通过分词匹配得到的医疗标准可能不只一个，则对应的候选医疗标准词集合也不只一个。

S104，计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合。

由于原始医疗文本分词集合对应的候选医疗标准词集合可能不只一个，因而，可以基于相似度算法，将将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合。

S105，根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。

在确定原始医疗文本数据的目标医疗标准词集合，利用目标医疗标准词集合中的医疗标准词对原始医疗文本数据进行标准化处理，能够得到标准化医疗文本数据。

当本发明实施例中提供的医疗文本数据的标准化处理方法应用于远程医疗系统的情况下，需要将一个医院系统中的就医人员信息与另一个医院系统中的就医人员信息进行比对，无论是把哪一个医院的就医人员的信息发给另一方用于比对，都存在数据泄露的风险，本发明实施例中，基于加盐哈希的不可逆加密算法，对就医人员信息进行加密处理，各医院系统均使用同一套加密算法对同一就医人员的敏感信息(例如，身份证号码)进行加密，则加密后的密文是一致的，因而，可以基于加密后的用户敏感信息密文进行比对，这样既可以比对出不同医院中存在的同一个就医人员，也可以避免敏感信息的泄露。

需要注意的是，对于医学知识图谱中没有的医疗文本分词，可能无法基于知识图谱查找到对应的医疗标准词，因而，在一个实施例中，在对采集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合之后，如图2所示，本发明实施例中提供的医疗文本数据的标准化处理方法还可通过如下步骤确定原始医疗文本分词集合对应的候选医疗标准词集合：

S201，获取预先训练好的医疗文本语义分类模型，其中，医疗文本语义分类模型用于预测原始医疗文本分词集合对应的候选医疗标准词集合；

S202，将原始医疗文本分词集合中包含的各个原始医疗文本分词，输入至预先训练好的医疗文本语义分类模型中，输出原始医疗文本分词集合对应的一个或多个候选医疗标准词集合。

在一个实施例中，如图3所示，本发明实施例中提供的医疗文本数据的标准化处理方法还可通过如下机器学习流程对医疗文本语义分类模型进行机器学习：

S301，获取已标注医疗分类和标准词的多个医疗文本分词，作为样本数据；

S302，利用样本数据，对条件随机场模型进行机器学习，训练得到一个能够预测原始医疗文本分词集合对应候选医疗标准词集合的医疗文本语义分类模型。

在一个实施例中，如图4所示，本发明实施例中提供的医疗文本数据的标准化处理方法，在基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合的时候，可通过如下步骤来实现：

S401，将原始医疗文本分词集合中包含的每个原始医疗文本分词与医学知识图谱中每条医疗标准的文本分词进行匹配，得到包含原始医疗文本分词集合中一个或多个原始医疗文本分词的多条医疗标准；

S402，确定原始医疗文本分词集合与每条医疗标准的分词交集；

S403，将分词交集中包含分词数量超过预设阈值的医疗标准确定为原始医疗文本分词集合对应的候选医疗标准词集合。

每条医疗标准在数据库中一般是这样存储的：ID->标准码，标准名称，备注，……；将每一条医疗标准的标准名称做分词切分，然后做如下的倒排索引：分词X->标准A的第m条标准的ID,标准B的第n条标准的ID,……这代表标准A的第m条标准的名称、标准B的第n条标准的名称、等等在做分词切分后含有上述的一个分词X，这样就可知道，收到的某一条医疗文本数据在做分词处理后，含有的分词都能对应哪个标准的哪一条，这一条医疗健康数据含有的分词与能找到关联的那几条标准含有的分词再求交集，交集最大的几条标准，就是下一步的候选医疗标准词集合。

进一步地，在基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合之前，如图5所示，本发明实施例中提供的医疗文本数据的标准化处理方法还可通过如下步骤来构建医学知识图谱：

S501，获取多条医疗标准及每条医疗标准包含的多个医疗标准词；

S502，根据多条医疗标准及每条医疗标准包含的多个医疗标准词，构建医学知识图谱。

由于医学知识图谱中保存了每一条医疗标准的详细分词，这可以解决市面上的词库对医疗健康数据分词效果不佳的问题，例如：“间皮组织”这个分词，在使用医学知识图谱之前，是不能准确拆分出来的，现在这种分词已经不是问题。空格、标点符号以及其它一些没有医学意义的符号，作为停止词，存储在知识图谱里面，并带有权重属性，这些停止词对于做标准字段的映射来说属于干扰信息，因此需要去掉后再做分词处理。

需要说明的是，本发明实施例中构建的医学知识图谱是可自动更新的，基于医学知识图谱，对收到的所有医疗健康数据做分词处理，并去掉停词，然后利用Elasticsearch对成熟的医疗标准作倒排索引，得到包含多条医疗标准的医疗标准词的医学知识图谱，以便通过分词比对，对原始医疗文本数据进行医学分类。

例如：“D18.0”是ICD-10中的一个亚目的标准码，对应名称是“血管瘤，任何部位”，它的上一级类目是“D18”，对应名称是“血管瘤和淋巴管瘤，任何部位”，而“血管瘤”、“任何部位”这两节点都是它们的分词。假设某条原始医疗文本数据为某种血管瘤，则首先去ICD-10标准里面寻找有无名称完全一致的这种血管瘤，如果没有，就去“D18.0血管瘤，任何部位”这一条标准下属的细目里寻找类似的，如果找不到类似的，则对应标准就是ICD-10的“D18.0血管瘤，任何部位”，能找到类似的(如“D18.003面部血管瘤”)，则对应标准就是ICD-10的“D18.003面部血管瘤”。

在一个实施例中，在根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理之后，如图6所示，本发明实施例中提供的医疗文本数据的标准化处理方法还可包括如下步骤：

S601，通过原始医疗文本数据得到标准化的医疗文本数据；

S602，根据标准化医疗文本数据，构建健康档案数据；

S603，根据不同医院同一个就医人员的健康档案数据，来辅助远程医疗。

为了确保医疗数据不被篡改，可将医疗数据存储到区块链网络上，但由于区块链网络上存储的数据数量越大，会导致数据存储效率越低，因而，在一个实施例中，如图7所示，本发明实施例中提供的医疗文本数据的标准化处理方法还可包括如下步骤存储业务数据：

S701，接收脱敏后的原始医疗文本数据；

S702，将原始医疗文本数据的哈希值存储到区块链网络，并将原始医疗文本数据存储到关系型数据库中。

由上可知，本发明实施例中提供的医疗文本数据的标准化处理方法，对原始医疗文本数据进行分词处理后，基于预先构建的医学知识图谱，结合倒排索引方法，确定原始医疗文本数据对应的一条或多条候选标准数据；对于未能够通过知识图谱确定映射标准的医疗数据，利用预先训练好的语义分类模型对原始医疗文本数据进行语义分类后，预测出原始医疗文本数据对应的一条或多条候选标准数据；最后结合分词相似度算法，从候选标准数据中得到原始医疗文本数据最终映射的标准数据，最后基于原始医疗文本数据最终映射的标准数据辅助远程医疗、学术交流等业务。

基于同一发明构思，本发明实施例中还提供了一种医疗文本数据的标准化处理装置，如下面的实施例所述。由于该装置解决问题的原理与医疗文本数据的标准化处理方法相似，因此该装置的实施可以参见医疗文本数据的标准化处理方法的实施，重复之处不再赘述。

图8为本发明实施例中提供的一种医疗文本数据的标准化处理装置示意图，如图8所示，该装置包括：医疗文本数据采集模块801、文本分词模块802、知识图谱查询模块803、医疗标准词集合确定模块804和医疗标准化处理模块805。

其中，医疗文本数据采集模块801，用于接收脱敏后的原始医疗文本数据；文本分词模块802，用于对收到的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；知识图谱查询模块803，用于基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；医疗标准词集合确定模块804，用于计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合；医疗标准化处理模块805，用于根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。

此处需要说明的是，上述医疗文本数据采集模块801、文本分词模块802、知识图谱查询模块803、医疗标准词集合确定模块804和医疗标准化处理模块805对应于方法实施例中的S101～S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一个实施例中，如图9所示，本发明实施例中提供的医疗文本数据的标准化处理装置还可包括：语义分类预测模块806，用于获取预先训练好的医疗文本语义分类模型，以及将原始医疗文本分词集合中包含的各个原始医疗文本分词，输入至预先训练好的医疗文本语义分类模型中，输出原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，医疗文本语义分类模型用于预测原始医疗文本分词集合对应的候选医疗标准词集合。

此处需要说明的是，上述语义分类预测模块806对应于方法实施例中的S201～S202，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一个实施例中，如图9所示，本发明实施例中提供的医疗文本数据的标准化处理装置还可包括：机器学习模块807，用于获取已标注医疗分类和标准词的多个医疗文本分词，作为样本数据；以及利用样本数据，对条件随机场模型进行机器学习，训练得到一个能够预测原始医疗文本分词集合对应候选医疗标准词集合的医疗文本语义分类模型。

此处需要说明的是，上述机器学习模块807对应于方法实施例中的S301～S302，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一个实施例中，如图9所示，本发明实施例中提供的医疗文本数据的标准化处理装置中，知识图谱查询模块803具体包括：分词匹配单元8031，用于将原始医疗文本分词集合中包含的每个原始医疗文本分词与医学知识图谱中每条医疗标准的文本分词进行匹配，得到包含原始医疗文本分词集合中一个或多个原始医疗文本分词的多条医疗标准；分词交集确定单元8032，用于确定原始医疗文本分词集合与每条医疗标准的分词交集；候选医疗标准词集合确定单元8033，用于将分词交集中包含分词数量超过预设阈值的医疗标准确定为原始医疗文本分词集合对应的候选医疗标准词集合。

此处需要说明的是，上述分词匹配单元8031、分词交集确定单元8032和候选医疗标准词集合确定单元8033对应于方法实施例中的S401～S403，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一个实施例中，如图9所示，本发明实施例中提供的医疗文本数据的标准化处理装置还可包括：知识图谱构建模块808，用于获获取多条医疗标准及每条医疗标准包含的多个医疗标准词；以及根据多条医疗标准及每条医疗标准包含的多个医疗标准词，构建医学知识图谱。

此处需要说明的是，上述知识图谱构建模块808对应于方法实施例中的S501～S502，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一个实施例中，如图9所示，本发明实施例中提供的医疗文本数据的标准化处理装置还可包括：业务办理模块809，用于通过原始医疗文本数据得到标准化的医疗文本数据；根据标准化医疗文本数据，构建健康档案数据；根据不同医院同一个就医人员的健康档案数据，来辅助远程医疗。

此处需要说明的是，上述业务办理模块809对应于方法实施例中的S601～S603，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一个实施例中，如图9所示，本发明实施例中提供的医疗文本数据的标准化处理装置还可包括：区块链数据存储模块810，用于将原始医疗文本数据的哈希值存储到区块链网络，并将原始医疗文本数据存储到关系型数据库中。

此处需要说明的是，上述区块链数据存储模块810对应于方法实施例中的S701～S702，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

基于同一发明构思，本发明实施例还提供一种计算机设备，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以相互沟通交流的技术问题，图10为本发明实施例中提供的一种计算机设备示意图，如图10所示，该计算机设备100包括存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序，处理器1002执行计算机程序时实现上述医疗文本数据的标准化处理方法。

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，用以解决现有医院系统中的原始医疗文本数据存在很多非标准医疗词汇，难以相互沟通交流的技术问题，该计算机可读存储介质存储有执行上述医疗文本数据的标准化处理方法的计算机程序。

综上所述，本发明实施例中提供的医疗文本数据的标准化处理方法、装置、计算机设备及计算机可读存储介质，在收到原始医疗文本数据后，对原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，进而基于预先构建的医学知识图谱，采用倒排索引方法确定原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，通过计算原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为原始医疗文本数据的目标医疗标准词集合，最后根据目标医疗标准词集合，对原始医疗文本数据进行标准化处理。

与现有技术中直接利用各种原始医疗文件、文本进行远程医疗、学术交流的技术方案相比，本发明实施例通过对原始医疗文本数据进行标准化处理，进而利用标准化医疗文本数据进行远程医疗、学术交流，能够大大提高效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医疗文本数据的标准化处理方法，其特征在于，包括：

接收脱敏后的原始医疗文本数据；

对收集到的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，所述原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；

基于预先构建的医学知识图谱，采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，所述医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；

计算所述原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为所述原始医疗文本数据的目标医疗标准词集合；

根据所述目标医疗标准词集合，对所述的原始医疗文本数据进行标准化处理。

2.如权利要求1所述的方法，其特征在于，在对采集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合之后，所述方法还包括：

获取预先训练好的医疗文本语义分类模型，其中，所述医疗文本语义分类模型用于预测所述原始医疗文本分词集合对应的候选医疗标准词集合；

将所述原始医疗文本分词集合中包含的各个原始医疗文本分词，输入至预先训练好的医疗文本语义分类模型中，输出所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合。

3.如权利要求2所述的方法，其特征在于，获取预先训练好的医疗文本语义分类模型，包括：

获取已标注医疗分类和标准词的多个医疗文本分词，作为样本数据；

利用所述样本数据，对条件随机场模型进行机器学习，训练得到一个能够预测所述原始医疗文本分词集合对应候选医疗标准词集合的医疗文本语义分类模型。

4.如权利要求1所述的方法，其特征在于，基于预先构建的医学知识图谱，采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，包括：

将所述原始医疗文本分词集合中包含的每个原始医疗文本分词与所述医学知识图谱中每条医疗标准的文本分词进行匹配，得到包含所述原始医疗文本分词集合中一个或多个原始医疗文本分词的多条医疗标准；

确定所述原始医疗文本分词集合与每条医疗标准的分词交集；

将分词交集中包含分词数量超过预设阈值的医疗标准确定为原始医疗文本分词集合对应的候选医疗标准词集合。

5.如权利要求1所述的方法，其特征在于，在基于预先构建的医学知识图谱，采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合之前，所述方法还包括：

获取多条医疗标准及每条医疗标准包含的多个医疗标准词；

根据所述多条医疗标准及每条医疗标准包含的多个医疗标准词，构建医学知识图谱。

6.如权利要求1至5任一项所述的方法，其特征在于，在根据所述目标医疗标准词集合，对原始医疗文本数据进行标准化处理之后，所述方法还包括：

获取标准化医疗文本数据；

根据标准化医疗文本数据，构建健康档案数据；

根据不同医院同一个就医人员的健康档案数据，来辅助远程医疗。

7.如权利要求1所述的方法，其特征在于：

将原始医疗文本数据的哈希值存储到区块链网络，并将原始医疗文本数据存储到关系型数据库中。

8.一种医疗文本数据的标准化处理装置，其特征在于，包括：

医疗文本数据采集模块，用于接收脱敏后的原始医疗文本数据；

文本分词模块，用于对采集的原始医疗文本数据进行分词处理，得到原始医疗文本数据对应的原始医疗文本分词集合，其中，所述原始医疗文本分词集合中包含：一个或多个原始医疗文本分词；

知识图谱查询模块，用于基于预先构建的医学知识图谱，采用倒排索引方法确定所述原始医疗文本分词集合对应的一个或多个候选医疗标准词集合，其中，所述医学知识图谱中包含：多条医疗标准以及每条医疗标准对应的一个或多个候选医疗标准词；

医疗标准词集合确定模块，用于计算所述原始医疗文本分词集合与各个候选医疗标准词集合的相似度，并将相似度最大的候选医疗标准词集合确定为所述原始医疗文本数据的目标医疗标准词集合；

医疗标准化处理模块，用于根据所述目标医疗标准词集合，对所述原始医疗文本数据进行标准化处理。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述医疗文本数据的标准化处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至7任一项所述医疗文本数据的标准化处理方法的计算机程序。