CN114550946A

CN114550946A - 医疗数据处理方法、装置及存储介质

Info

Publication number: CN114550946A
Application number: CN202210190188.5A
Authority: CN
Inventors: 陈雪; 柳锦女; 李玉德; 张希颖; 张振中; 周莉
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-27
Also published as: WO2023160264A1; US20240170161A1

Abstract

本公开提供了一种医疗数据处理方法、装置及存储介质，涉及数据处理技术领域。该方法包括：获取病历数据，并执行目标过程以获得疾病分析向量，目标过程包括：生成病历数据的病历语义向量；对于预设疾病集合中的每个预设疾病，根据病例语义向量，确定病历数据因预设疾病产生的第一可能性权重，以获得第一权重向量；根据病历数据中的各病历症状和各病历疾病，从预设知识图谱中确定可能产生病历数据的候选疾病，其中，预设知识图谱中包括与预设疾病相关的实体和关系，候选疾病属于预设疾病集合；确定病历数据因候选疾病产生的第二可能性权重，以获得第二权重向量；将第一权重向量与第二权重向量融合，得到病历数据对应的疾病分析向量。

Description

医疗数据处理方法、装置及存储介质

技术领域

本公开涉及数据处理技术领域，特别是涉及一种医疗数据处理方法、装置及存储介质。

背景技术

随着医疗技术的日臻成熟，在医疗教学、医疗电子问诊平台构建等方面，越来越需要对医疗数据的自动化分析处理，以满足不同的分析需求。

目前，由于医疗数据的特殊性，医疗数据的处理仍然主要依靠人工，但人工处理的方式效率极低，尤其是在医疗电子问诊平台、医疗数据分析统计等存在大量数据的处理分析需求的方面，医疗数据处理效率的提升仍然存在很大的困难。

发明内容

本公开提供一种医疗数据处理方法，所述方法包括：

获取病历数据，并执行目标过程以获得所述病历数据对应的疾病分析向量，其中，所述目标过程包括：

生成所述病历数据的病历语义向量；

对于预设疾病集合中的每个预设疾病，根据所述病例语义向量，确定所述病历数据因所述预设疾病产生的第一可能性权重，以获得第一权重向量；

根据所述病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生所述病历数据的候选疾病，其中，所述预设知识图谱中包括与所述预设疾病相关的实体和关系，所述候选疾病属于所述预设疾病集合；

确定所述病历数据因所述候选疾病产生的第二可能性权重，以获得第二权重向量；

将所述第一权重向量与所述第二权重向量进行融合，得到所述病历数据对应的疾病分析向量。

可选地，所述病历数据包括文本数据和数值数据，所述生成所述病历数据的病历语义向量，包括：

将所述文本数据编码为文本语义向量；

将所述数值数据转化为向量，得到数值向量；

将所述文本语义向量与所述数值向量进行拼接，得到拼接向量；

通过多头自注意力机制，对所述拼接向量进行编码，得到所述病历数据的病历语义向量。

可选地，所述根据所述病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生所述病历数据的候选疾病，包括：

对于所述病历数据中的每个病历症状，确定所述病历症状在预设知识图谱中对应的图谱疾病子集，形成图谱疾病集合；

根据所述病历数据中的各个病历疾病形成的病历疾病集合，以及所述图谱疾病集合，确定可能产生所述病历数据的候选疾病集合。

可选地，所述根据所述病历数据中的各个病历疾病形成的病历疾病集合，以及所述图谱疾病集合，确定可能产生所述病历数据的候选疾病集合，包括：

对于所述病历疾病集合中的每个所述病历疾病，若所述病历疾病的负因子系数为预设最小值，则将所述病历疾病从所述病历疾病集合中删除，删除所述病历疾病后的所述病历疾病集合形成目标病历疾病集合；

对于所述病历疾病集合中的每个所述病历疾病，若所述病历疾病的负因子系数为所述预设最小值，且所述病历疾病存在于所述图谱疾病集合中，则将所述病历疾病从所述图谱疾病集合中删除，删除所述病历疾病后的所述图谱疾病集合形成初始候选疾病集合；

对于所述目标病历疾病集合中包括的每个目标病历疾病，若所述目标病历疾病不存在于所述初始候选疾病集合中，则将所述目标病历疾病添加至所述初始候选疾病集合中，形成可能产生所述病历数据的候选疾病集合。

可选地，所述确定所述病历数据因所述候选疾病产生的第二可能性权重，以获得第二权重向量，包括：

根据每个所述病历症状的负因子系数、每个所述病历症状与所述候选疾病的联合发生概率、所述候选疾病所属的所述图谱疾病子集中的疾病数量，以及所述候选疾病集合中的疾病数量，确定所述病历数据因所述候选疾病产生的初始第二可能性权重；

若所述候选疾病满足预设条件，则将所述候选疾病对应的初始第二可能性权重确定为所述候选疾病对应的第二可能性权重，其中，所述预设条件为所述候选疾病存在于所述初始候选疾病集合但不存在于所述病历疾病集合；

若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重。

可选地，所述若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重，包括：

若所述候选疾病同时存在于所述病历疾病集合和所述初始候选疾病集合，则根据每个所述候选疾病的发生概率，对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重；

若所述候选疾病存在于所述病历疾病集合但不存在于所述初始候选疾病集合，则根据所述候选疾病的负因子系数、预设超参数，以及所述候选疾病集合中的疾病数量，对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重。

可选地，所述根据所述病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生所述病历数据的候选疾病之前，还包括：

根据所述病历数据中位于所述病历症状之前位置的第一相邻词语对所述病历症状的否定程度，确定所述病历症状的负因子系数，其中，所述病历症状的负因子系数与所述第一相邻词汇对所述病历症状的否定程度呈负相关；

根据所述病历数据中位于所述病历疾病之前位置的第二相邻词语对所述病历疾病的否定程度，确定所述病历疾病的负因子系数，其中，所述病历疾病的负因子系数与所述第二相邻词汇对所述病历疾病的否定程度呈负相关。

可选地，所述若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重之后，还包括：

对于不属于所述候选疾病集合的所述预设疾病，将所述预设疾病对应的第二可能性权重确定为0；

对每个所述预设疾病对应的所述第二可能性权重进行归一化处理，得到第二权重向量。

可选地，所述确定所述病历数据因所述候选疾病产生的第二可能性权重，以获得第二权重向量之前，还包括：

从所述预设知识图谱中获取每个所述病历症状与所述候选疾病的联合发生概率。

可选地，所述若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重之前，还包括：

从所述预设知识图谱中获取每个所述候选疾病的发生概率。

对所述病历数据进行实体识别，得到所述病历数据中的各个实体提及；

在所述预设知识图谱中对所述实体提及进行实体链接，得到所述实体提及在所述预设知识图谱中的匹配实体；

从各个所述匹配实体中筛选出表征症状的症状实体，得到所述病历数据的各个病历症状；

从各个所述匹配实体中筛选出表征疾病的疾病实体，得到所述病历数据的各个病历疾病。

可选地，所述在所述预设知识图谱中对所述实体提及进行实体链接，得到所述实体提及在所述预设知识图谱中的匹配实体，包括：

对于所述预设知识图谱中包括的每个实体，计算所述实体提及分别与每个所述实体之间的相似度；

将所述实体提及链接至最大的所述相似度对应的目标实体，以将所述目标实体作为所述实体提及在所述预设知识图谱中的匹配实体。

可选地，所述计算所述实体提及分别与每个所述实体之间的相似度，包括：

对于任一所述实体，分别通过至少两种相似度计算方式，计算所述实体提及与所述实体之间的初始相似度；

对计算得到的各个所述初始相似度计算均值，得到所述实体提及与所述实体之间的相似度。

可选地，所述初始相似度包括编辑距离相似度、杰卡德相似度、最长公共子串相似度、余弦相似度、显式语义分析相似度和深度学习相似度中的至少两种。

可选地，所述对所述病历数据进行实体识别，得到所述病历数据中的各个实体提及，包括：

根据包括多个实体名称的预设词典，对所述病历数据进行实体识别，得到所述病历数据中的实体提及。

可选地，所述根据包括多个实体名称的预设词典，对所述病历数据进行实体识别，得到所述病历数据中的实体提及，包括：

根据包括多个实体名称的预设词典，通过双向最大匹配算法对所述病历数据进行实体识别，得到所述病历数据中的实体提及。

可选地，所述第一权重向量与所述第二权重向量具有相同的维数，所述维数为所述预设疾病集合中的疾病数量，所述将所述第一权重向量与所述第二权重向量进行融合，得到所述病历数据对应的疾病分析向量，包括：

通过不同的预设重要性系数，对所在维数相同的所述第一可能性权重和所述第二可能性权重进行加权，得到所述加权参数，其中，所述第一可能性权重对应的预设重要性系数与所述第二可能性权重对应的预设重要性系数呈负相关；

通过线性函数或非线性函数，对所述加权参数进行计算，得到融合权重，各个所述融合权重形成所述病历数据对应的疾病分析向量，其中，所述疾病分析向量与所述第一权重向量及所述第二权重向量具有相同的维数。

可选地，所述执行目标过程以获得所述病历数据对应的疾病分析向量，包括：

将所述病历数据输入预设分析模型，以使所述预设分析模型执行所述目标过程，并输出所述病历数据对应的疾病分析向量；

所述获取病历数据之前，还包括：

获取病历数据训练集和病历数据测试集；

根据所述病历数据训练集和预设损失函数，对原始分析模型进行训练，获得中间分析模型；

根据所述病历数据测试集，对中间分析模型进行测试，以获得所述预设分析模型。

本公开还提供一种糖尿病并发症的预测装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的医疗数据处理方法的步骤，以获得病历数据对应的疾病分析向量，其中，预设疾病集合包括至少一种糖尿病并发症，所述疾病分析向量中的每个分量分别表示每种所述糖尿病并发症对应的患病概率。

本公开还提供一种计算机非瞬态可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的医疗数据处理方法。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开实施例的一种医疗数据处理方法的步骤流程图；

图2示出了本公开实施例的一种病历数据；

图3示出了本公开实施例的一种糖尿病知识图谱中的部分知识；

图4示出了本公开实施例的一种用于实现医疗数据处理方法的模型的训练过程流程图；

图5示出了本公开实施例的一种用于实现医疗数据处理方法的模型的使用过程流程图；

图6示出了本公开实施例的一种预设分析模型架构的框图；

图7示出了本公开实施例的一种向量拼接流程图。

具体实施例

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等方位词仅用于表示基于附图的相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1示出了本公开实施例的一种医疗数据处理方法的步骤流程图，参照图1，该方法包括以下步骤：

步骤10：获取病历数据，并执行目标过程以获得该病历数据对应的疾病分析向量，其中，目标过程包括以下步骤101-105。

在本公开实施例中，首先可以获取到待处理的病历数据，其中，该病历数据为电子数据，图2示例性地示出了一份病历数据。可选地，该病历数据可以是将纸质病历通过文本识别等方式转换为电子数据而得到，还可选地，该病历数据还可以是将医生问诊时直接录入医院病历电子平台的电子病历数据进行数据导出而得到，本公开实施例对于病历数据的获取方式不作具体限定。

在实际应用中，对于无法直接进行处理的病历数据，可以根据处理需求进行一些预处理，预处理可以包括匿名化处理、异常数据检测、结构化处理等。其中，通过匿名化处理，可以将病人姓名等隐私信息进行隐藏，从而保护病人隐私；通过异常数据检测，可以将病历数据中缺失的数据和数值异常的数据检测出来，并输出相关提示，指示这份病历数据因存在数据异常而无法进行分析；通过结构化处理，可以将病历数据转换为结构化数据，以便于数据存储、部分数据的提取等。

当然，还可以在医生问诊时，就规范化病历的填写方式，以获得可直接进行处理的病历数据。例如，可以在医院病历电子平台中，规范病历的填写规则，如限定哪些数据是必须填写的、哪些位置的数据不能缺失，哪些位置的数据限定可填写的最小值和最大值，等等。

步骤101：生成该病历数据的病历语义向量。

在目标过程中，首先通过语义分析技术，生成该病历数据的病历语义向量，在本公开实施例中，病历语义向量为病历数据中的文字和数值的语义表示。

步骤102：对于预设疾病集合中的每个预设疾病，根据该病例语义向量，确定该病历数据因预设疾病产生的第一可能性权重，以获得第一权重向量。

在本公开实施例中，可以分析病历数据与某些疾病之间的关系。具体地，可以预设至少两种疾病，以构建一个预设疾病集合，例如将糖尿病的8种常见并发症(糖尿病视网膜病变、糖尿病肾病、糖尿病周围神经病变、糖尿病自主神经病变、糖尿病足、动脉粥样硬化、糖尿病周围血管病变和糖尿病性胃轻瘫)构建为一个预设疾病集合。

进而可以基于对病历数据的语义分析结果，计算这份病历数据对应病情由预设疾病集合中的每种预设疾病引发的可能性，得到至少两个第一可能性权重，进而再将各个第一可能性权重转化为所需的向量形式，得到第一权重向量。

步骤103：根据该病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生该病历数据的候选疾病，其中，预设知识图谱中包括与预设疾病相关的实体和关系，候选疾病属于预设疾病集合。

病历数据中可以包括病人自述的既往史、主诉症状等数据，以及医院的检查结果、诊断结果等数据，这些数据中会提及各种症状和疾病，本文将病历数据中描述的症状和疾病分别称为病历症状和病历疾病。

在本公开实施例中，可以引入知识图谱，以从另一方面确定可能引发该病历数据对应病情的候选疾病。知识图谱可以将知识以多关系图的方式进行构建，其中，知识主要以实体(也称头实体)-关系-实体(也称尾实体)为最小单元，例如红肿(症状实体)对于(指向)糖尿病足(疾病实体)来说，关系为前者是后者的症状。

如下表1提供一种知识图谱中的实体与关系的示例，可以理解的是，表中的实体和关系并不对本公开构成限定。

表1

图3示例性地示出了一种糖尿病知识图谱中的部分知识，以关系图的方式表示了实体之间的关系。

在本公开实施例中，预设知识图谱中包括与预设疾病相关的实体和关系，关系例如症状、检查手段、治疗手段、治疗药物等。其中，具体症状和疾病名称可以作为预设知识图谱中的实体，并构建二者之间的关系。预设知识图谱中与预设疾病相关的知识，是基于大量文献、大数据分析等方式得到，是一个普遍知识的集合。

在本步骤中，可以根据病历数据中提及的各种症状和疾病，通过预设知识图谱中的普遍知识，确定可能引发该病历数据对应病情的候选疾病。由于预设知识图谱中包括的是与预设疾病相关的普遍知识，因此，基于预设知识图谱所确定出的各候选疾病，均属于预设疾病集合。

步骤104：确定该病历数据因候选疾病产生的第二可能性权重，以获得第二权重向量。

在本步骤中，可以基于预设知识图谱中与该病历数据中各症状和疾病相关的普遍知识，计算这份病历数据对应病情由每种候选疾病引发的可能性，得到至少两个第二可能性权重。而对于预设疾病集合中除各候选疾病之外的预设疾病，可以将该病历数据因这些预设疾病产生的第二可能性权重确定为0。进而再将各个第二可能性权重转化为所需的向量形式，得到第二权重向量。

步骤105：将第一权重向量与第二权重向量进行融合，得到该病历数据对应的疾病分析向量。

在本公开实施例中，第一权重向量是基于对病历数据的语义分析而得到的该病历数据对应病情由每种预设疾病引发的可能性，第二权重向量则是基于知识图谱中的普遍知识而得到的该病历数据对应病情由每种预设疾病引发的可能性，也即第一权重向量是基于个体情况得到的分析结果，第二权重向量是基于普遍情况得到的分析结果，二者是从不同的方面对同一份病历数据的分析结果。

在本步骤中，可以将基于不同方面对该病历数据分析而得到的第一权重向量与第二权重向量进行融合，从而结合个体情况和普遍情况得到对该病历数据的一个综合分析结果，即该病历数据对应的疾病分析向量。该疾病分析向量既考虑了个体差异，又考虑了普适情况，因此，该疾病分析向量可以从个体情况和普遍情况这两个方面综合反映该病历数据，从而实现对该病历数据的综合分析，使得分析结果更加全面，因此，本公开实施例提供的医疗数据处理方法，可以通过知识图谱的外部知识增强了病历数据的语义表示，能够满足更全面的医疗数据分析需求。

在本公开实施例中，一方面，可以通过对病历数据进行语义分析，得到该病历数据对应病情由每种预设疾病引发的可能性，生成第一权重向量；另一方面，可以通过预设知识图谱中的普遍知识对病历数据进行分析，得到该病历数据对应病情由每种预设疾病引发的可能性，生成第二权重向量，进而可以将基于个体情况得到的第一权重向量和基于普遍情况得到的第二权重向量进行融合，得到病历数据对应的疾病分析向量，疾病分析向量可以从个体情况和普遍情况这两个方面综合反映一份病历数据，从而通过知识图谱的外部知识增强了病历数据的语义表示，实现了对病历数据更全面的分析需求。

图4示出了本公开实施例的一种用于实现医疗数据处理方法的模型的训练过程流程图，图5示出了本公开实施例的一种用于实现医疗数据处理方法的模型的使用过程流程图，该方法可以通过执行目标过程获得一份病历数据对应的疾病分析向量，其中，目标过程可以通过预设分析模型实现，可选地，预设分析模型可以包括多个具有不同功能的子模型，例如语义分析模型、非线性融合模型等，相应地，该方法可以包括图4所示的模型训练过程和图5所示的模型使用过程。

一、模型训练过程：

步骤201：获取病历数据训练集和病历数据测试集。

在本步骤中，首先可采用上述步骤10中所述的获取病历数据的方式，获得无标签的病历数据，然后对获得的病历数据添加标准化的分析标签，从而得到有标签的病历数据。其中，分析标签即为病历数据对应的已知的疾病分析向量，分析标签的种类即为预设疾病集合中的预设疾病种类。进而将一部分有标签的病历数据作为训练数据，形成病历数据训练集，将剩余的有标签的病历数据作为测试数据，形成病历数据测试集。

步骤202：根据病历数据训练集和预设损失函数，对原始分析模型进行训练，获得中间分析模型。

损失函数可用于评价模型的预测值和真实值不一样的程度，通过最小化损失函数可以训练模型和评估模型。

在本步骤中，每将一个带有分析标签(即真实值)的训练数据输入原始分析模型，使原始分析模型输出一个结果(即预测值)后，便可以根据该训练数据对应的真实值和预测值，计算预设损失函数的函数值，并根据该函数值对模型进行参数调整，调整后再次向模型中输入一训练数据。重复上述过程，直至将病历数据训练集中的全部训练数据输入完毕，得到经过多次参数调整后的中间分析模型。

具体地，在一种可选实施例中，预设损失函数L可以如下：

其中，N为分析标签的种类数量，也即预设疾病集合中的预设疾病的数量；y_i∈{0,1}，y_i为训练数据由第i种预设疾病产生的真实值，例如当分析标签指示某训练数据由第1种预设疾病(假设共8种预设疾病，N＝8)产生，则y₁为1，y₂-y₈均为0；P_i为通过模型得到的训练数据的预测值，其大小表示训练数据由第i种预设疾病产生的可能性。

步骤203：根据病历数据测试集，对中间分析模型进行测试，以获得预设分析模型。

在本步骤中，可以将病历数据测试集中的每个测试数据依次输入训练得到的中间分析模型，从而通过对比测试数据的真实值和预测值的差异，对中间分析模型进行测试。若中间分析模型对病历数据测试集也能够进行有效预测，则测试通过，并将该中间分析模型部署至电子设备中，获得预设分析模型；若中间分析模型对病历数据测试集的预测效果不佳，则测试未通过，进而对该中间分析模型继续进行训练和调参，直至测试通过，再将通过测试的模型部署至电子设备中，获得预设分析模型。

在实际应用中，中间分析模型是否能够对病历数据测试集也能够进行有效预测，可以通过现有的各种模型评价指标进行判断，例如受试者工作特征曲线(ReceiverOperating Characteristic Curve，简称ROC曲线)的曲线下面积(Area Under Curve，简称AUC值)等，本公开实施例并不旨在对此进行限定。

二、模型使用过程：

以下结合图6所示的预设分析模型架构进行具体说明。

步骤30：获取病历数据，并将病历数据输入预设分析模型，以使预设分析模型执行目标过程，并输出病历数据对应的疾病分析向量，其中，目标过程包括以下步骤301-314。

其中，获取病历数据的具体实现方式可以参照上述步骤10，在此不再赘述。

步骤301：生成病历数据的病历语义向量。

在具体应用中，病历数据通常包括既往史等文本数据和检查结果等数值数据(例如血糖值、血压值等)，而文本数据和数值数据对于病历数据的分析都很重要，因此，参照图7，在本步骤中，具体可以通过以下步骤S11-S14生成病历数据的病历语义向量：

S11：将文本数据编码为文本语义向量。

可选地，可以通过BERT(Bidirectional Encoder Representation fromTransformers，基于转换器的双向编码表征)模型作为编码器来对文本数据进行编码，获得文本语义向量。

具体地，BERT模型首先可以将文本数据转化为向量表示，并初始化得到输入向量，输入向量包括：1、词向量(也称词嵌入)，文本中的各个词的向量表示，并通过[cls]标记表示文本开始，通过[sep]标记表示一个句子的结束；2、句子向量(也称句子嵌入)，用于区分不同的句子；2、位置向量(也称位置嵌入)，用于使BERT模型学习到文本的顺序属性。进而BERT模型可以通过其中的自注意力机制和前馈网络，对输入向量进行编码，输出文本语义向量。文本语义向量可以描述病历中文本的语义表示。

S12：将数值数据转化为向量，得到数值向量。

而对于病历数据中的数值数据，可以直接将其转换为向量形式，该向量中每个数值所表示的含义是预先规定的，例如该向量中的第1个数值表示血糖值、该向量中的第2个数值表示血压值等。之后可以对该向量进行softmax归一化处理，从而得到数值向量。经过归一化处理，使得数值向量中的每个分量都限定在一定的区间内，例如[0,1]，数值向量也即数值数据的归一化向量。

S13：将文本语义向量与数值向量进行拼接，得到拼接向量。

例如，文本语义向量具体包括n个向量，每个向量有a个分量，数值向量具体包括m个向量，该向量也有a个分量，可以将数值向量拼接在文本语义向量之后，得到的拼接向量包括(n+m)个向量，其中最后一个向量即为数值向量。

其中，在病历数据中的数值数据不足a个时，可以向数值向量中的其他位置填充0，以补足a个数值。

S14：通过多头自注意力机制，对拼接向量进行编码，得到病历数据的病历语义向量。

接下来，可以采用多头自注意力机制对拼接向量进行编码，从而将病历数据中数值信息与文本信息进行融合，如此，可通过病历数据中的数值信息增强了病历数据的语义表示，能够满足更进一步的数据分析需求。

具体地，多头自注意力机制可表示为下述公式：

X＝Concat([C]；Num_1...M)

[C′]＝Concat[(head₁，...，head_i，...，head_h)W^O]

其中，Concat([C]；Num_1...M)为文本语义向量[C]与数值向量Num_1...M的拼接向量，head_i为多头自注意力机制的第i个头部，共h个头部，[C′]为所得的病历语义向量，

为可训练的参数。在一种可选的实施方式中，h＝8，d_K＝64。

注意力机制的本质为查询语句query(即公式中的Q)到目标语句的key-value对(即公式中的K和V)的映射，通过将有限的注意力分配给不同的特征向量，快速筛选出对辅助诊断贡献较大的关键信息。由于病历数据中存在大量较长序列，易出现语义衰减的问题，自注意力机制能够直接计算任意位置两个字符之间的依赖关系，突破句子的长度限制，因此在计算注意力得分时，考虑查询语句和目标语句相同的自注意力。而多头自注意力机制以自注意力机制为基础，是进行多次自注意力计算之后的结果，使得BERT模型可以从不同语义空间学习语义特征。

另外，病历数据中的数字信息对于数据分析也具有很强的决定性作用，因此在构造查询语句、目标语句的时候，将文本语义向量与数值向量拼接，然后再使用多头注意力机制，就可以将病历文本表述中距离相对较远的文字和检查数值之间的依赖关系很好地提取出来，有利于对病历数据的深度分析。

在上述步骤S13-S14的另一种可选的实施方式中，还可以通过互注意力机制，找出文本语义向量与数值向量之间的潜在联系。需要注意的是，自注意力机制中是，先将文本语义向量与数值向量进行拼接，再将拼接向量分别乘以Q和K，而在互注意力机制中，可以将文本语义向量乘以Q，数值向量乘以K，无需进行向量拼接。

步骤302：对于预设疾病集合中的每个预设疾病，根据病例语义向量，确定病历数据因预设疾病产生的第一可能性权重，以获得第一权重向量。

在本步骤中，可通过分类器得到第一权重向量。具体地，可以将通过多头自注意力机制融合得到的病例语义向量输入softmax分类器，softmax分类器中设置的分类类别即为各预设疾病，从而softmax分类器可以输出该病历数据对应的第一权重向量，第一权重向量中的每个分量即为各个第一可能性权重。

步骤303：对病历数据进行实体识别，得到病历数据中的各个实体提及。

在一种可选实施例中，本步骤303具体可以包括：

S21：根据包括多个实体名称的预设词典，对病历数据进行实体识别，得到病历数据中的实体提及。

其中，对病历数据的实体识别具体可以采用基于词典的实体识别方法。病历数据中对同一事物的描述语并不一定标准，例如事物的标准专业名词、俗称、简称等，都指示同一事物，可称为实体提及。预设词典中可以包括多个特定事物的标准专业名词、俗称、简称等，从而通过预设词典，可以识别出病历数据中的各个实体。

在本公开实施例中，根据数据分析需求，预设词典可以是中国症状知识图谱、国际疾病分类ICD-10(International Classification ofDiseases)中的疾病集、阿里巴巴联合瑞金医院发布的糖尿病知识图谱中的疾病症状实体集等，本公开对此不作限定。

进一步可选地，上述步骤S21具体可以包括：

根据包括多个实体名称的预设词典，通过双向最大匹配算法对病历数据进行实体识别，得到病历数据中的实体提及。

医疗数据相较于日常用语专业性更强，因此，对医疗数据进行实体识别更具难度，双向最大匹配法可以将正向最大匹配法和逆向最大匹配法的到的分词结果进行比较，从而决定正确的分词方法，能够尽可能多的匹配出医疗相关的实体，更有利于对医疗数据的分析。

步骤304：在预设知识图谱中对实体提及进行实体链接，得到实体提及在预设知识图谱中的匹配实体。

在本步骤中，可以找出病历数据中的各个实体提及在预设知识图谱中对应的是哪个实体。

可选地，本步骤304具体可以包括以下步骤S31-S32：

S31：对于预设知识图谱中包括的每个实体，计算实体提及分别与每个实体之间的相似度。

S32：将实体提及链接至最大的相似度对应的目标实体，以将目标实体作为实体提及在预设知识图谱中的匹配实体。

在本公开实施例中，可以基于病历数据中的实体提及与预设知识图谱中的实体的相似度，进行实体链接。具体地，可计算实体提及分别与预设知识图谱中每个实体之间的相似度，最大相似度值对应的图谱实体，即可认为是该实体提及所指示的实体。

在一可选实施例中，步骤S31包括：

S311：对于任一实体，分别通过至少两种相似度计算方式，计算实体提及与实体之间的初始相似度。

S312：对计算得到的各个初始相似度计算均值，得到实体提及与实体之间的相似度。

其中，实体提及与图谱中实体的相似度可以采用多种方式进行计算，然后通过求取相似度均值，如此，提高了实体链接结果的可靠性。

在具体应用时，可选地，初始相似度可以包括编辑距离相似度、杰卡德相似度、最长公共子串相似度、余弦相似度、显式语义分析相似度和深度学习相似度中的至少两种。

例如，对于病历数据中的任一实体提及，以及预设知识图谱中的任一实体，可分别通过下述公式，计算该实体提及与该实体的编辑距离相似度Sim_ld、杰卡德相似度Sim_jacc和最长公共子串相似度Sim_lcs。

在上述公式中，

表示至少需要多少次的处理(包括删除、加入、取代)才能够将实体提及E_R变成预设知识图谱中的实体

表示E_R与

的最大长度；bigram(|E_R|)表示对E_R进行二元分词后得到的二元组；

表示对实体提及

进行二元分词后得到的二元组；

表示E_R与

相同子字符串的最大长度。

实体提及E_R与实体

之间的相似度即可通过下述公式计算得到：

在本公开实施例中，计算病历实体与图谱实体相似度时，综合考虑了编辑距离相似度、杰卡德相似度、最长公共子串相似度等多种相似度结果，以从不同的角度对病历实体与图谱实体进行相似程度的度量，进而对多个不同角度所得的相似度求取平均值，可使实体链接结果更可靠。

步骤305：从各个匹配实体中筛选出表征症状的症状实体，得到病历数据的各个病历症状。

在本公开实施例中，预设知识图谱中构建有各类型实体的列表，在本步骤中，可以从步骤304获得的各个匹配实体中，筛选存在于预设知识图谱中的症状实体列表中的实体，从而得到病历数据中提及(例如在主诉中提及)的m个症状，称为病历症状S_Ri，形成如下病历症状集合S_R。

步骤306：从各个匹配实体中筛选出表征疾病的疾病实体，得到病历数据的各个病历疾病。

与步骤305类似，在本步骤中，可以从步骤304获得的各个匹配实体中，筛选存在于预设知识图谱中的疾病实体列表中的实体，从而得到病历数据中提及(例如在初步诊断结果中提及)的p个疾病，称为病历疾病d_Ri，形成如下病历疾病集合D_R。

其中，f_Ri为预设知识图谱中病历疾病d_Ri的发生概率，表示该病历疾病d_Ri在生活中出现的可能性大小。该发生概率的概率值可以作为病历疾病d_Ri的一种属性存储在预设知识图谱中，也可以作为病历疾病d_Ri对应的一种尾实体存储在预设知识图谱中。

步骤307：对于病历数据中的每个病历症状，确定病历症状在预设知识图谱中对应的图谱疾病子集，形成图谱疾病集合。

在本步骤中，可以将病历症状作为头实体，在预设知识图谱中进行疾病尾实体的匹配，从而得到该病历症状在预设知识图谱中对应的图谱疾病。

根据经验，一种症状可能是不止一种疾病的表现，因此，一个病历症状S_Ri可以在预设知识图谱中匹配到的图谱疾病可能会有n个，这n个图谱疾病形成病历症状S_Ri对应的图谱疾病子集D_i＝{d_i1，d_i2，…，d_ij，…d_in}。一份病历数据中的所有病历症状对应的图谱疾病子集形成图谱疾病集合D。

步骤308：根据病历数据中的各个病历疾病形成的病历疾病集合，以及图谱疾病集合，确定可能产生病历数据的候选疾病集合。

本步骤308可以通过以下步骤S41-S43实现：

S41：对于病历疾病集合中的每个病历疾病，若病历疾病的负因子系数为预设最小值，则将病历疾病从病历疾病集合中删除，删除病历疾病后的病历疾病集合形成目标病历疾病集合。

其中，病历疾病的负因子系数f_negD，用于限定否定词语对病历疾病的负向影响，病历疾病的负因子系数f_negD表示病历描述中对该病历疾病的语义否定程度。某个病历疾病的负因子系数f_negD为预设最小值，表示该病历疾病在病历描述中被完全否定，例如病历的既往史中描述“否认肝炎史”，则“肝炎”这一病历疾病的负因子系数f_negD将被设置为预设最小值，例如-1。

因此，若某个病历疾病的负因子系数f_negD为预设最小值，则可以将该病历疾病从病历疾病集合D_R中删除。通过判断病历疾病集合D_R所有的病历疾病的负因子系数取值，可以将被明确否定的病历疾病从病历疾病集合中排除，从而获得目标病历疾病集合D_R’。如此，目标病历疾病集合D_R’中的疾病均为从病历描述角度具有可能性的疾病，可认为是可能引发该病历数据对应病情的疾病。

此外，病历疾病的负因子系数f_negD如何取值，将在后文介绍。

S42：对于病历疾病集合中的每个病历疾病，若病历疾病的负因子系数为预设最小值，且病历疾病存在于图谱疾病集合中，则将病历疾病从图谱疾病集合中删除，删除病历疾病后的图谱疾病集合形成初始候选疾病集合。

可对于病历数据描述中被明确否定的病历疾病，由于病历前文对其的否定表述影响了该病历疾病的属性，反向排除了该病历数据由该病历疾病引起的可能性，因此，还需要将其从图谱疾病集合D中排除，也即该病历疾病对应的第二可能性权重应为0，从而获得初始候选疾病集合D’。如此，初始候选疾病集合D’中的疾病均为从图谱知识描述角度具有可能性的疾病，可认为是可能引发该病历数据对应病情的疾病。

S43：对于目标病历疾病集合中包括的每个目标病历疾病，若目标病历疾病不存在于初始候选疾病集合中，则将目标病历疾病添加至初始候选疾病集合中，形成可能产生病历数据的候选疾病集合。

之后，对于目标病历疾病集合中各疾病，若该疾病不存在于初始候选疾病集合D’中，说明该疾病虽然从图谱知识的角度来说不具有可能性，但从病历描述的角度来说仍然具有可能性，因此，可以将该疾病添加至初始候选疾病集合D’中，获得从图谱知识和病历描述这两个角度均有可能引发这份病历数据对应病情的全部候选疾病，从而形成候选疾病集合D”。

通过上述步骤S41-S43，可将从图谱知识和病历描述这两个角度均有可能引发某病历数据对应病情的全部候选疾病筛选出来，既能够避免遗漏可能的疾病，从而提高分析结果的准确度，又能够避免对病历描述中明确否定的疾病进行无必要的数据处理，从而提高数据处理的效率。

步骤309：根据每个病历症状的负因子系数、每个病历症状与候选疾病的联合发生概率、候选疾病所属的图谱疾病子集中的疾病数量，以及候选疾病集合中的疾病数量，确定病历数据因候选疾病产生的初始第二可能性权重。

在一种可选的实施例中，对于候选疾病集合D”中的每个候选疾病d_ij，可以根据每个病历症状S_Ri的负因子系数f_negS、每个病历症状S_Ri与该候选疾病d_ij的联合发生概率p(S_Ri,d_ij)、该候选疾病d_ij所属的图谱疾病子集Di中的疾病数量|D_i|，以及候选疾病集合D”中的疾病数量|D”|，通过如下公式确定一份病历数据因该候选疾病d_ij产生的初始第二可能性权重Wd_ij。

其中，对于候选疾病集合D”中的每一个候选疾病d_ij，预设知识图谱中都存在一个与之对应的症状集合

其中包含了预设知识图谱中与该疾病相关的M个症状，在如上公式中，

病历症状的负因子系数f_negS，用于限定否定词语对病历症状的负向影响，病历症状的负因子系数f_negS表示病历描述中对该病历症状的语义否定程度。某个病历症状的负因子系数f_negS为预设最小值，表示该病历症状在病历描述中被完全否定，例如病历的查体结果中描述“无手脚震颤”，则“手脚震颤”这一病历症状的负因子系数f_negS将被设置为预设最小值，例如-1。

病历症状S_Ri与候选疾病d_ij的联合发生概率p(S_Ri,d_ij)可以从预设知识图谱中获取，该联合发生概率的概率值可以是作为病历症状S_Ri或病历疾病d_Ri的一种属性存储在预设知识图谱中，也可以作为病历症状S_Ri或病历疾病d_Ri对应的一种尾实体存储在预设知识图谱中。

相应地，在确定第二可能性权重的步骤之前，还可以包括以下步骤：从预设知识图谱中获取每个病历症状与候选疾病的联合发生概率。

从上述公式中可以看出，病历症状S_Ri所对应的图谱疾病数量(即|D_i|)越少，

越大，在f_negS大于0的条件下，病历症状S_Ri和候选疾病d_ij的联合发生概率越高，

越大，在f_negS小于0的条件下病历症状S_Ri和候选疾病d_ij的联合发生概率越高，

越小。

此外，病历症状的负因子系数f_negS如何取值，将在后文介绍。

步骤310：若候选疾病满足预设条件，则将候选疾病对应的初始第二可能性权重确定为候选疾病对应的第二可能性权重，其中，预设条件为候选疾病存在于初始候选疾病集合但不存在于病历疾病集合。

根据上述步骤S41-S42可知，候选疾病集合中的候选疾病可能来自于病历疾病集合，也即来自于病历描述，也可能来自于图谱疾病集合，也即来自于图谱知识所得，而候选疾病来源表明了该候选疾病是侧重于个体情况所得，还是侧重于普适知识所得。因此，在本公开实施例中，需要结合候选疾病的来源不同，对候选疾病的初始第二可能性权重进行再调整。

具体地，若一个候选疾病来自于图谱知识所得，但并未在病历描述中被提及，则可认为该候选疾病可能是基于普适情况确定出的疾病，对于这种情况，可以将该候选疾病对应的初始第二可能性权重直接确定为候选疾病对应的第二可能性权重，也即直接根据图谱知识对该病历数据作出第二可能性权重的分析。

而对于候选疾病在病历描述中也存在的情况(包括候选疾病在图谱疾病集合和病历疾病集合中均存在的情况，以及候选疾病仅存在于病历疾病集合的情况)，说明病历描述中针对个体情况已经有了较为明确的分析结果，则需要结合个体情况，对候选疾病对应的初始第二可能性权重进行修正，具体见下述步骤311。

步骤311：若候选疾病不满足预设条件，则对候选疾病对应的初始第二可能性权重进行修正，得到候选疾病对应的第二可能性权重。

本步骤311具体可以包括以下步骤S51--S52：

S51：若候选疾病同时存在于病历疾病集合D_R和初始候选疾病集合D’(该候选疾病属于D_R，标识为d_Ri)，则根据每个候选疾病的发生概率f_Ri，对该候选疾病d_Ri对应的初始第二可能性权重Wd_Ri进行修正，得到该候选疾病d_Ri对应的第二可能性权重W’d_Ri。

在步骤S51中，第二可能性权重W’d_ij可通过下述公式计算得到：

其中，Wd_Ri即为各个初始第二可能性权重中该候选疾病d_Ri对应的初始第二可能性权重。

上述公式表明病历描述中明确的疾病对于分析结果的贡献度大于病历中所描述的症状对分析结果的贡献度。

由于上述公式中用到了每个候选疾病的发生概率f_Ri，相应地，在对候选疾病对应的初始第二可能性权重进行修正之前，还包括：从预设知识图谱中获取每个候选疾病的发生概率。

S52：若候选疾病存在于病历疾病集合D_R但不存在于初始候选疾病集合D’(该候选疾病属于D_R，标识为d_Ri)，则根据该候选疾病d_Ri的负因子系数f_negD、预设超参数β，以及候选疾病集合D”中的疾病数量|D”|，对该候选疾病d_Ri对应的初始第二可能性权重Wd_i进行修正，得到该候选疾病d_Ri对应的第二可能性权重W’d_Ri。

在步骤S52中，第二可能性权重W’d_ij可通过下述公式计算得到：

其中，Wd_i即为各个初始第二可能性权重中候选疾病d_i对应的初始第二可能性权重。β是一个预设的超参数，且β≥1，在一种可选的实施方式中，可以预设β＝1.5。

此外，在确定出候选疾病之前的取值，还可以通过以下步骤S61-S62，确定每个病历疾病d_Ri的负因子系数f_negD的取值，以及每个病历症状S_Ri的负因子系数f_negS的取值。

S61：根据病历数据中位于病历症状之前位置的第一相邻词语对病历症状的否定程度，确定病历症状的负因子系数，其中，病历症状的负因子系数与第一相邻词汇对病历症状的否定程度呈负相关。

若病历症状前文完全改变了语义信息，则可以将该病历症状的负因子系数f_negS设置得小一些，若病历症状前文局部改变了语义信息，则可以将该病历症状的负因子系数f_negS设置得大一些。

例如，对于如“无手脚震颤”等病历症状前文为“无”、“不”等第一类否定词的情况，“无”一词完全改变了“手脚震颤”的语义，使得语义从肯定“手脚震颤”变为了否定“手脚震颤”，因此，可以将“手脚震颤”这一病历症状的负因子系数f_negS设为-1。

再例如，对于如“不自主手脚震颤”等病历症状前文为“不自主”等第二类否定词的情况，“不自主”一词局部改变了“手脚震颤”的语义，是对“手脚震颤”的进一步限定，而并非对“手脚震颤”的否定，因此，可以将“手脚震颤”这一病历症状的负因子系数f_negS设为0.5。

S62：根据病历数据中位于病历疾病之前位置的第二相邻词语对病历疾病的否定程度，确定病历疾病的负因子系数，其中，病历疾病的负因子系数与第二相邻词汇对病历疾病的否定程度呈负相关。

与步骤S61类似，若病历疾病前文完全改变了语义信息，则可以将该病历疾病的负因子系数f_negD设置得小一些，若病历疾病前文局部改变了语义信息，则可以将该病历疾病的负因子系数f_negD设置得大一些。

例如，对于如“否认肝炎史”等病历症状前文为“否认”等第一类否定词的情况，“否认”一词完全改变了“肝炎”的语义，使得语义从肯定“肝炎”变为了否定“肝炎”，因此，可以将“肝炎”这一病历疾病的负因子系数f_negD设为-1。

在实际应用中，由于病历用语相对较为固定，因此，可以通过预设各类否定词，来确定前文词语对症状或疾病的否定程度。

步骤312：对于不属于候选疾病集合的预设疾病，将预设疾病对应的第二可能性权重确定为0。

通过上述各步骤得到了属于候选疾病集合的每个候选疾病对应的第二可能性权重，而候选疾病集合并不一定能够完全覆盖预设疾病集合，因此，候选疾病的数量可能会少于预设疾病的数量。当候选疾病的数量少于预设疾病的数量时，说明只确定出部分预设疾病对应的第二可能性权重，对于不属于候选疾病集合的预设疾病，将预设疾病对应的第二可能性权重直接确定为0。

步骤313：对每个预设疾病对应的第二可能性权重进行归一化处理，得到第二权重向量。

对每个预设疾病对应的第二可能性权重进行softmax归一化处理，从而得到归一化后的各个第二可能性权重，将归一化后的各个第二可能性权重作为向量分量，形成第二权重向量。

步骤314：将第一权重向量与第二权重向量进行融合，得到病历数据对应的疾病分析向量。

其中，第一权重向量与第二权重向量具有相同的维数，该维数为预设疾病集合中的疾病数量，相应地，本步骤314具体包括以下步骤S71-S72：

S71：通过不同的预设重要性系数，对所在维数相同的第一可能性权重和第二可能性权重进行加权，得到加权参数，其中，第一可能性权重对应的预设重要性系数与第二可能性权重对应的预设重要性系数呈负相关。

在一种可选的实施例中，第一可能性权重对应的预设重要性系数可以为γ_i，第二可能性权重对应的预设重要性系数可以为(1-γ_i)，从而实现二者的负相关性。

在预设疾病集合中包括q个预设疾病的情况下，第一权重向量K和第二权重向量E如下：

K＝[k₁，k₂，...，k_i，...，k_q]

E＝[e₁，e₂，...，e_i，...，e_q]

可以通过如下公式，对维数相同的第一可能性权重k_i和第二可能性权重e_i进行线性加权，得到q个加权参数z₁-z_q。

z_i＝γ_ie_i+(1-γ_i)k_i

其中，γ_i反映的是加权参数z_i受病历数据影响更大，还是受预设知识图谱影响更大，γ_i可以作为超参数手动调节，也可以通过神经网络来学习得到，本公开实施例对此不作限定。

S72：通过线性函数或非线性函数，对加权参数进行计算，得到融合权重，各个融合权重形成病历数据对应的疾病分析向量，其中，疾病分析向量与第一权重向量及第二权重向量具有相同的维数。

可选地，可以通过非线性函数σ，分别对加权参数z₁-z_q进行计算，得到融合权重c₁-c_q。其中，c₁-c_q表示第1种至第q种预设疾病对应的患病概率。

在一可选实施例中，非线性函数σ可以是sigmoid函数。

上述步骤S71-S72所述的过程可表示为下述公式：

在本公开实施例中，一方面，可以通过对病历数据进行语义分析，得到该病历数据对应病情由每种预设疾病引发的可能性，生成第一权重向量，并通过数值信息增强了病历文本的语义表示；另一方面，可以通过预设知识图谱中的普遍知识对病历数据进行分析，得到该病历数据对应病情由每种预设疾病引发的可能性，生成第二权重向量，进而可以将基于个体情况得到的第一权重向量和基于普遍情况得到的第二权重向量进行融合，得到病历数据对应的疾病分析向量，疾病分析向量可以从个体情况和普遍情况这两个方面综合反映一份病历数据，从而通过知识图谱的外部知识增强了病历数据的语义表示，实现了对病历数据更全面的分析需求。

以下对通过上述医疗数据处理方法所得的分析结果的一些使用场景进行介绍，可以理解的是，该分析结果的使用场景不限于以下所举的场景示例。需要说明的是，病历数据及对应分析结果的获取和使用，需取得患者本人的了解及同意，且病历数据及对应分析结果需在方案实施所在地合法合规地进行获取及使用。

场景1：医疗教学

在医学相关的教学中，本公开实施例提供的分析结果经过医学教师、医生等专业人员的人工校验后，可作为诊断分析案例，从而为医疗教学领域提供大量的教学素材。

场景2：自动化问诊平台的构建

目前，越来越多的医院推出自动化问诊服务，该平台可通过软件、小程序、公众号等方式提供给用户使用，通过自动化问答机器人为用户提供初步的诊断及建议。

其中，本公开实施例提供的分析结果经过医生等专业人员的人工校验后，可作为自动化问答机器人的学习资料，构建起自动化问答机器人的回复机制。同时，为保证医学建议的正确性和专业性，自动化问答机器人回复的医学建议可以首先经过专业人员的审核后再呈现给用户。

场景3：医生问诊的参考

由于个体之间存在差异，因此会出现普适情况有时可能无法适用于个体情况，或者由于症状过于复杂，反而导致对常见病的诊断不充分的情况，因此，本公开实施例提供的分析结果可以作为医生诊断的一个参考数据，以对医生起到提醒作用。当医生诊断结果与分析结果差异过大时，可提示医生进行更仔细的检查和判断。

其中，可将上述医疗数据处理方法中的各个预设疾病设置为各种糖尿病并发症。相应地，第一权重向量中的每个分量，即表示基于对病历数据的语义分析，得到的该病历数据对应病情由每种糖尿病并发症引发的可能性；第二权重向量中的每个分量，即表示基于对病历数据的图谱知识分析，得到的该病历数据对应病情由每种糖尿病并发症引发的可能性；疾病分析向量中的每个分量，则分别表示融合了病历语义分析与图谱知识分析后，得到的每种所述糖尿病并发症的可能性。

在一种可选实施例中，该装置可配置为直接输出该疾病分析向量。

在另一种可选实施例中，该装置可配置为将该疾病分析向量中数值最大的分量所对应的糖尿病并发症的名称输出。

在第三种可选实施例中，该装置可配置为将该疾病分析向量中数值最大且大于预设阈值的分量所对应的糖尿病并发症的名称输出

在第四种可选实施例中，该装置还可配置为将该疾病分析向量中数值最大的分量(或数值最大且大于预设阈值的分量)，以及该分量所对应的糖尿病并发症的名称均输出。

其中，输出方式可以是显示、播放等方式，本公开实施例不作限定。

该装置输出的结果可应用于上文提到的各场景中。

本公开实施例还公开了一种计算机非瞬态可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上所述的医疗数据处理方法。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本公开的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

1.一种医疗数据处理方法，其特征在于，所述方法包括：

生成所述病历数据的病历语义向量；

2.根据权利要求1所述的方法，其特征在于，所述病历数据包括文本数据和数值数据，所述生成所述病历数据的病历语义向量，包括：

将所述文本数据编码为文本语义向量；

将所述数值数据转化为向量，得到数值向量；

3.根据权利要求1所述的方法，其特征在于，所述根据所述病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生所述病历数据的候选疾病，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述病历数据中的各个病历疾病形成的病历疾病集合，以及所述图谱疾病集合，确定可能产生所述病历数据的候选疾病集合，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述病历数据因所述候选疾病产生的第二可能性权重，以获得第二权重向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生所述病历数据的候选疾病之前，还包括：

8.根据权利要求5所述的方法，其特征在于，所述若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重之后，还包括：

9.根据权利要求5所述的方法，其特征在于，所述确定所述病历数据因所述候选疾病产生的第二可能性权重，以获得第二权重向量之前，还包括：

10.根据权利要求6所述的方法，其特征在于，所述若所述候选疾病不满足所述预设条件，则对所述候选疾病对应的初始第二可能性权重进行修正，得到所述候选疾病对应的第二可能性权重之前，还包括：

从所述预设知识图谱中获取每个所述候选疾病的发生概率。

11.根据权利要求1所述的方法，其特征在于，所述根据所述病历数据中的各个病历症状和各个病历疾病，从预设知识图谱中确定可能产生所述病历数据的候选疾病之前，还包括：

12.根据权利要求11所述的方法，其特征在于，所述在所述预设知识图谱中对所述实体提及进行实体链接，得到所述实体提及在所述预设知识图谱中的匹配实体，包括：

13.根据权利要求12所述的方法，其特征在于，所述计算所述实体提及分别与每个所述实体之间的相似度，包括：

14.根据权利要求13所述的方法，其特征在于，所述初始相似度包括编辑距离相似度、杰卡德相似度、最长公共子串相似度、余弦相似度、显式语义分析相似度和深度学习相似度中的至少两种。

15.根据权利要求11所述的方法，其特征在于，所述对所述病历数据进行实体识别，得到所述病历数据中的各个实体提及，包括：

16.根据权利要求15所述的方法，其特征在于，所述根据包括多个实体名称的预设词典，对所述病历数据进行实体识别，得到所述病历数据中的实体提及，包括：

17.根据权利要求1所述的方法，其特征在于，所述第一权重向量与所述第二权重向量具有相同的维数，所述维数为所述预设疾病集合中的疾病数量，所述将所述第一权重向量与所述第二权重向量进行融合，得到所述病历数据对应的疾病分析向量，包括：

18.根据权利要求1所述的方法，其特征在于，所述执行目标过程以获得所述病历数据对应的疾病分析向量，包括：

所述获取病历数据之前，还包括：

获取病历数据训练集和病历数据测试集；

19.一种糖尿病并发症的预测装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1-18中任一项所述的医疗数据处理方法的步骤，以获得病历数据对应的疾病分析向量，其中，预设疾病集合包括至少一种糖尿病并发症，所述疾病分析向量中的每个分量分别表示每种所述糖尿病并发症对应的患病概率。

20.一种计算机非瞬态可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-18中任一项所述的医疗数据处理方法。