CN112259180B

CN112259180B - 一种基于异构医学知识图谱的疾病预测方法及相关设备

Info

Publication number: CN112259180B
Application number: CN202011136993.7A
Authority: CN
Inventors: 徐啸; 徐衔; 孙瑜尧; 刘小双
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2023-06-27
Anticipated expiration: 2040-10-21
Also published as: CN112259180A

Abstract

本发明实施例涉及医疗技术领域，公开了一种基于异构医学知识图谱的疾病预测方法及相关设备，该设备的处理器用于执行：获取用户的历史诊疗数据的异构医学知识图谱的异构图，将异构图输入图注意力神经网络模型得到异构图中每个节点的第一节点表征；将根据第一节点表征和历史诊疗数据确定的第一用户表征输入第一多层感知机模型得到编码表征，并根据编码表征预训练得到第一疾病预测模型；将历史诊疗数据输入第一疾病预测模型得到第二用户表征，并根据将第二用户表征输入第二多层感知机模型得到的结局数据训练得到第二疾病预测模型；将目标医疗数据输入第二疾病预测模型得到预测结局数据。本发明涉及区块链技术，上述数据可存储于区块链中。

Description

一种基于异构医学知识图谱的疾病预测方法及相关设备

技术领域

本发明涉及医疗技术领域，尤其涉及一种基于异构医学知识图谱的疾病预测方法及相关设备。

背景技术

疾病预测是基于用户的历史信息推断未来的疾病或临床事件的风险，为解决数据驱动的疾病预测方法容易受数据量有限、数据偏差较大的影响，很多工作尝试将医学知识图谱融入疾病预测过程，以提升预测精准度和与现有医学知识的吻合度。

然而，当前基本都是基于简单的同构知识图谱展开，现有的基于简单的同构知识图谱难以用于捕获异构医学知识图谱中的复杂异构信息, 无法区分异构知识知识图谱中共存的正负关系，例如，诊断与药物之间既有适应症关系，又有禁忌症关系。异构医学知识图谱规模庞大，基于有限数据的端到端的训练体系容易欠拟合，从而可能导致预测结果不准确。因此，如何更有效地提高疾病预测结果的准确性非常重要。

发明内容

本发明实施例提供了一种基于异构医学知识图谱的疾病预测方法及相关设备，通过利用异构知识图谱信息增强了疾病预测性能，弥补了数据不足和数据偏差的影响，提高了疾病的预测结果与临床知识的匹配度，提高了疾病预测结果的准确率。

第一方面，本发明实施例提供了一种基于异构医学知识图谱的疾病预测设备，所述设备包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述程序指令，当所述程序指令被执行时，用于执行以下操作：

获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据，所述历史诊疗数据包括诊断数据、药物数据、检查数据中的一种或多种；

获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；

根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；

将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；

将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；

获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。

进一步地，所述处理器获取与所述历史诊疗数据的异构医学知识图谱对应的异构图时，具体包括：

获取与所述历史诊疗数据对应的异构医学知识图谱；

将所述异构医学知识图谱转换为异构图，其中，所述异构图包括多个元路径，每个元路径由若干节点和边构成；

所述处理器将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征时，具体包括：

对所述异构图进行分类处理，并将分类处理得到的异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征。

进一步地，所述处理器对所述异构图进行分类处理时，具体包括：

获取所述异构图中的多个元路径；

根据所述多个元路径中每个元路径中的节点对所述多个元路径进行分类，得到正向关系元路径和负向关系元路径；

其中，所述正向关系元路径表示关系连接的两个节点适于同时出现，所述负向关系元路径表示关系连接的两个节点不适于同时出现。

进一步地，所述处理器根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征时，具体包括：

根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征；

根据所述历史诊疗数据所涉及的医疗项目的节点表征和所述每个节点的第二节点表征，确定所述训练集中每个用户的用户表征。

进一步地，所述处理器根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征时，具体包括：

获取所述异构图中每个节点对应的所有正关系元路径和负关系元路径；

将所述异构图中每个节点对应的所有正关系元路径中每个节点的第一节点表征进行叠加，得到所述每个节点的正关系表征；

将所述异构图中每个节点对应的所有负关系元路径中每个节点的第一节点表征进行叠加，得到所述每个节点的负关系表征；

将所述每个节点的所述正关系表征和所述负关系表征进行拼接，得到所述每个节点的第二节点表征。

进一步地，所述处理器根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型时，具体包括：

对所述训练集中每个用户的历史诊疗数据进行编码处理，得到原始编码表征；

将所述编码表征与原始编码表征进行对比，并根据对比结果对所述第一多层感知机模型进行预训练，得到所述第一疾病预测模型。

进一步地，所述样本医疗数据还包括所述训练集中每个用户的历史结局数据，所述历史结局数据中包括疾病信息和患病时间；所述处理器根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型时，具体包括：

将所述第二多层感知机模型得到的所述训练集中每个用户的结局数据与所述训练集中每个用户的历史结局数据进行对比；

根据对比结果训练所述第二多层感知机模型得到所述第二疾病预测模型。

第二方面，本发明实施例提供了一种基于异构医学知识图谱的疾病预测方法，包括：

第三方面，本发明实施例提供了一种基于异构医学知识图谱的疾病预测装置，包括：

获取单元，用于获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据，所述历史诊疗数据包括诊断数据、药物数据、检查数据中的一种或多种；

处理单元，用于获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；

确定单元，用于根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；

第一训练单元，用于将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；

第二训练单元，用于将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；

预测单元，用于获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第二方面的方法。

本发明实施例可以获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据；获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入所述训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。通过利用异构知识图谱信息增强了疾病预测性能，弥补了数据不足和数据偏差的影响，提高了疾病的预测结果与临床知识的匹配度，提高了疾病预测结果的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种疾病预测系统的结构示意图；

图2是本发明实施例提供的一种基于异构医学知识图谱的疾病预测方法的示意流程图；

图3是本发明实施例提供的一种基于异构医学知识图谱的疾病预测装置的示意框图；

图4是本发明实施例提供的一种基于异构医学知识图谱的疾病预测设备的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于异构医学知识图谱的疾病预测方法可以应用于一种疾病预测系统，在某些实施例中，所述疾病预测系统包括医疗服务器和基于异构医学知识图谱的疾病预测设备，其中，所述基于异构医学知识图谱的疾病预测设备可以设置于终端中。在某些实施例中，所述医疗服务器可以与基于异构医学知识图谱的疾病预测设备建立通信连接。在某些实施例中，所述通信连接的方式可以包括但不限于Wi-Fi、蓝牙、近场通信（Near Field Communication，NFC）等。在某些实施例中，所述医疗服务器用于存储用户的历史诊疗数据，其中，所述历史诊疗数据包括历史诊疗数据和历史结局数据，所述历史诊疗数据包括诊断数据、药物数据、检查数据、手术项目等中的一种或多种，所述历史结局数据包括所患的疾病信息和患病时间，所述患病时间可以为时间范围，也可以为某一时刻。

下面结合附图1对本发明实施例提供的疾病预测系统进行示意性说明。

请参见图1，图1是本发明实施例提供的一种疾病预测系统的结构示意图。所述疾病预测系统包括：基于异构医学知识图谱的疾病预测设备11和医疗服务器12。在某些实施例中，基于异构医学知识图谱的疾病预测设备11与医疗服务器12可以通过无线通信连接方式建立通信连接；其中，在某些场景下，所述基于异构医学知识图谱的疾病预测设备11与医疗服务器12之间也可以通过有线通信连接方式建立通信连接。在某些实施例中，所述基于异构医学知识图谱的疾病预测设备11可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。

本发明实施例中，基于异构医学知识图谱的疾病预测设备11可以从医疗服务器12中获取训练集，所述训练集中包括多个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据，所述历史诊疗数据包括诊断数据、药物数据、检查数据中的一种或多种；获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入所述训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。通过利用异构知识图谱信息增强了疾病预测性能，弥补了数据不足和数据偏差的影响，提高了疾病的预测结果与临床知识的匹配度，提高了疾病预测结果的准确率。

下面结合附图2对本发明实施例提供的基于异构医学知识图谱的疾病预测方法进行示意性说明。

请参见图2，图2是本发明实施例提供的一种基于异构医学知识图谱的疾病预测方法的示意流程图，如图2所示，该方法可以由基于异构医学知识图谱的疾病预测设备执行，所述基于异构医学知识图谱的疾病预测设备设置于终端中，所述终端的具体解释如前所述，此处不再赘述。具体地，本发明实施例的所述方法包括如下步骤。

S201：获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据，所述历史诊疗数据包括诊断数据、药物数据、检查数据中的一种或多种。

在一个实施例中，所述样本医疗数据中还包括所述训练集中每个用户的历史结局数据，所述历史结局数据包括所患的疾病信息和患病时间。在某些实施例中，所述历史结局数据用于指示用户是否患某种疾病。例如，张三的历史结局数据为张三3年内发生心衰，或者，张三3年内没有发生心衰。

通过获取训练集中每个用户的样本医疗数据，以训练第一疾病预测模型和第二疾病预测模型。

S202：获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征。在某些实施例中，所述第一节点表征为向量。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在获取与所述历史诊疗数据的异构医学知识图谱对应的异构图时，可以获取与所述历史诊疗数据对应的异构医学知识图谱，并将所述异构医学知识图谱转换为异构图，其中，所述异构图包括多个元路径，每个元路径由若干节点和边构成。在某些实施例中，所述异构图中的每个元路径代表着异构医学知识图谱中的一种语义关系。在某些实施例中，所述异构图中的节点由历史诊断数据组成，例如，异构图中的某一个元路径为：药物A-<适应症a>-诊断-<适应症b>-药物B。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征时，可以对所述异构图进行分类处理，并将分类处理得到的异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征。

在一个实施例中，基于异构医学知识图谱的疾病预测设备可以针对所述异构图中的每个节点赋以随机初始化的向量，作为所述每个节点对应于一种元路径的初始节点表征。疾病预测设备可以对所述携带初始节点表征的异构图进行分类处理，并将分类处理得到的异构图中每个节点的每种元路径分别输入图注意力神经网络模型，以根据每种元路径中各节点的初始节点表征，得到所述异构图中每个节点对应于每种元路径的第一节点表征。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在对所述异构图进行分类处理时，可以获取所述异构图中的多个元路径，并根据所述多个元路径中每个元路径中的节点对所述多个元路径进行分类，得到正向关系元路径和负向关系元路径；其中，所述正向关系元路径表示关系连接的两个节点适于同时出现，所述负向关系元路径表示关系连接的两个节点不适于同时出现。

例如，假设节点A和节点B为正向关系元路径中连接的两个节点，节点A为药物A，节点B为药物B，则可以确定所述药物A和药物B可以同时出现用于治疗某种疾病。又例如，假设节点C和节点D为负向关系元路径中连接的两个节点，节点C为药物C，节点D为药物D，则可以确定所述药物C和药物D不可以同时出现用于治疗某种疾病，即药物C和药物D可能会因为发生化学反应产生毒素等原因，导致药物C和药物D不可以同时出现。

通过对异构图中的各元路径进行分类，有助于确定训练集中每个用户对应的第一用户表征。

S203：根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征时，可以根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征，并根据所述历史诊疗数据所涉及的医疗项目的节点表征和所述每个节点的第二节点表征，确定所述训练集中每个用户的用户表征。在某些实施例中，所述历史诊疗数据所涉及的医疗项目包括但不限于手术、透析、穿刺等医疗相关的项目。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征时，可以获取所述异构图中每个节点对应的所有正关系元路径和负关系元路径，并将所述异构图中每个节点对应的所有正关系元路径中每个节点的第一节点表征进行叠加，得到所述每个节点的正关系表征，以及将所述异构图中每个节点对应的所有负关系元路径中每个节点的第一节点表征进行叠加，得到所述每个节点的负关系表征，从而将所述每个节点的所述正关系表征和所述负关系表征进行拼接，得到所述每个节点的第二节点表征。

例如，假设节点m对应的所有正关系元路径为元路径1和元路径2，节点m对应的所有负关系元路径为元路径3，其中，元路径1中包括节点a、节点b和节点c，元路径2中包括节点d和节点e，元路径3中包括节点f、节点g、节点h。则可以将元路径1中包括的节点a、节点b、节点c以及元路径2中包括的节点d和节点e各自的第一节点表征进行叠加，得到节点m对应的正关系表征。将元路径3中包括的节点f、节点g、节点h各自的第一节点表征进行叠加，得到节点n对应的负关系表征。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在将所述每个节点的所述正关系表征和所述负关系表征进行拼接，得到所述每个节点的第二节点表征时，可以将所述每个节点的所述正关系表征和所述负关系表征相加，得到所述每个节点的第二节点表征。

例如，假设节点f对应的正关系表征为表征1，节点f对应的负关系表征为表征2，则可以将所述表征1和表征2进行相加，得到所述节点f的第二节点表征。

通过每个节点的节点表征确定每个用户的第一用户表征，有助于训练得到第一疾病预测模型。

S204：将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型时，可以对所述训练集中每个用户的历史诊疗数据进行编码处理，得到原始编码表征，并将所述编码表征与原始编码表征进行对比，并根据对比结果对所述第一多层感知机模型进行预训练，得到所述第一疾病预测模型。

在一个实施例中，基于异构医学知识图谱的疾病预测设备在对所述训练集中每个用户的历史诊疗数据进行编码处理，得到原始编码表征时，可以利用独热编码(One-HotEncoding)的编码方式对所述训练集中每个用户的历史诊疗数据进行编码处理，得到原始编码表征。

通过第一用户表征有助于根据第一用户表征对第一多层感知机模型进行预训练得到第一疾病预测模型。

S205：将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型。

通过预训练得到的第一疾病预测模型得到每个用户的第二用户表征，有助于根据第二用户表征训练训练所述第二多层感知机模型得到第二疾病预测模型，有助于根据第二疾病预测模型进行疾病预测，提高疾病预测结果的准确性。

S206：获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入所述训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入所述训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。在某些实施例中，所述预测结局数据包括预测的疾病和预测的发病时间，例如，待测试用户在2个月内发生肝硬化。

在一个实施例中，所述样本医疗数据还包括所述训练集中每个用户的历史结局数据，所述历史结局数据中包括疾病信息和患病时间；基于异构医学知识图谱的疾病预测设备在根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型时，可以将所述第二多层感知机模型得到的所述训练集中每个用户的结局数据与所述训练集中每个用户的历史结局数据进行对比，并根据对比结果训练所述第二多层感知机模型得到所述第二疾病预测模型。

本发明实施例中，基于异构医学知识图谱的疾病预测设备可以获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据；获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入所述训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。通过利用异构知识图谱信息增强了疾病预测性能，弥补了数据不足和数据偏差的影响，提高了疾病的预测结果与临床知识的匹配度，提高了疾病预测结果的准确率。

本发明实施例还提供了一种基于异构医学知识图谱的疾病预测装置，该基于异构医学知识图谱的疾病预测装置用于执行前述任一项所述的方法的单元。具体地，参见图3，图3是本发明实施例提供的一种基于异构医学知识图谱的疾病预测装置的示意框图。本实施例的基于异构医学知识图谱的疾病预测装置包括：获取单元301、处理单元302、确定单元303、第一训练单元304、第二训练单元305以及预测单元306。

获取单元301，用于获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据，所述历史诊疗数据包括诊断数据、药物数据、检查数据中的一种或多种；

处理单元302，用于获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；

确定单元303，用于根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；

第一训练单元304，用于将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；

第二训练单元305，用于将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；

预测单元306，用于获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。

进一步地，所述处理单元302获取与所述历史诊疗数据的异构医学知识图谱对应的异构图时，具体包括：

获取与所述历史诊疗数据对应的异构医学知识图谱；

所述处理单元302将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征时，具体包括：

进一步地，所述处理单元302对所述异构图进行分类处理时，具体包括：

获取所述异构图中的多个元路径；

进一步地，所述确定单元303根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征时，具体包括：

进一步地，所述确定单元303根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征时，具体包括：

进一步地，所述第一训练单元304根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型时，具体包括：

进一步地，所述样本医疗数据还包括所述训练集中每个用户的历史结局数据，所述历史结局数据中包括疾病信息和患病时间；所述预测单元306根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型时，具体包括：

本发明实施例中，基于异构医学知识图谱的疾病预测装置可以获取训练集中每个用户的样本医疗数据，其中，所述样本医疗数据包括所述训练集中每个用户的历史诊疗数据；获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，并将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征；将所述训练集中每个用户的第一用户表征输入第一多层感知机模型得到编码表征，并根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型；将所述训练集中每个用户的历史诊疗数据输入所述第一疾病预测模型，得到所述训练集中每个用户的第二用户表征，并将所述训练集中每个用户的第二用户表征输入第二多层感知机模型得到所述训练集中每个用户的结局数据，以及根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型；获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入所述训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据。通过利用异构知识图谱信息增强了疾病预测性能，弥补了数据不足和数据偏差的影响，提高了疾病的预测结果与临床知识的匹配度，提高了疾病预测结果的准确率。

参见图4，图4是本发明实施例提供的一种基于异构医学知识图谱的疾病预测设备的示意框图。如图所示的本实施例中的基于异构医学知识图谱的疾病预测设备可以包括：一个或多个处理器401和存储器402。存储器402用于存储计算机程序，所述计算机程序包括程序指令，处理器401 用于执行存储器402存储的程序指令。其中，处理器401被配置用于调用所述程序执行：

进一步地，所述处理器401获取与所述历史诊疗数据的异构医学知识图谱对应的异构图时，具体包括：

获取与所述历史诊疗数据对应的异构医学知识图谱；

所述处理器401将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征时，具体包括：

进一步地，所述处理器401对所述异构图进行分类处理时，具体包括：

获取所述异构图中的多个元路径；

进一步地，所述处理器401根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征时，具体包括：

进一步地，所述处理器401根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征时，具体包括：

进一步地，所述处理器401根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型时，具体包括：

进一步地，所述样本医疗数据还包括所述训练集中每个用户的历史结局数据，所述历史结局数据中包括疾病信息和患病时间；所述处理器401根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型时，具体包括：

应当理解，在本发明实施例中，所称处理器401可以是中央处理单元 (CenSralProcessing UniS，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (DigiSalSignal Processor，DSP)、专用集成电路 (ApplicaSion Specific InSegraSed CircuiS，ASIC)、现成可编程门阵列 (Field-Programmable GaSe Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器402可以包括只读存储器和随机存取存储器，并向处理器401 提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

本发明实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现图2所对应实施例中描述的基于异构医学知识图谱的疾病预测方法，也可实现本发明图3所对应实施例的疾病预测设备，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的疾病预测设备的内部存储单元，例如疾病预测设备的硬盘或内存。所述计算机可读存储介质也可以是所述疾病预测设备的外部存储设备，例如所述疾病预测设备上配备的插接式硬盘，智能存储卡（SmarSMedia Card, SMC），安全数字（Secure DigiSal, SD）卡，闪存卡（Flash Card）等。进一步地，所述计算机可读存储介质还可以既包括所述疾病预测设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述疾病预测设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，终端，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本发明的部分实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于异构医学知识图谱的疾病预测设备，其特征在于，所述设备包括：存储器和处理器；

所述存储器，用于存储程序指令；

获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据；

所述处理器获取与所述历史诊疗数据的异构医学知识图谱对应的异构图时，具体包括：

获取与所述历史诊疗数据对应的异构医学知识图谱；

所述将所述异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征，包括：

对所述异构图进行分类处理，并将分类处理得到的异构图中每个节点的每种元路径分别输入图注意力神经网络模型，得到所述异构图中每个节点对应于每种元路径的第一节点表征；

所述处理器对所述异构图进行分类处理时，具体包括：

获取所述异构图中的多个元路径；

2.根据权利要求1所述的设备，其特征在于，所述处理器根据所述异构图中每个节点对应于每种元路径的第一节点表征和所述历史诊疗数据，确定所述训练集中每个用户的第一用户表征时，具体包括：

3.根据权利要求2所述的设备，其特征在于，所述处理器根据所述异构图中每个节点对应于每种元路径的第一节点表征，确定所述每个节点的第二节点表征时，具体包括：

4.根据权利要求1所述的设备，其特征在于，所述处理器根据所述编码表征对所述第一多层感知机模型进行预训练，得到第一疾病预测模型时，具体包括：

5.根据权利要求1所述的设备，其特征在于，所述样本医疗数据还包括所述训练集中每个用户的历史结局数据，所述历史结局数据中包括疾病信息和患病时间；所述处理器根据所述结局数据训练所述第二多层感知机模型得到第二疾病预测模型时，具体包括：

6.一种基于异构医学知识图谱的疾病预测方法，其特征在于，包括：

所述获取与所述历史诊疗数据的异构医学知识图谱对应的异构图，具体包括：

获取与所述历史诊疗数据对应的异构医学知识图谱；

所述对所述异构图进行分类处理，具体包括：

获取所述异构图中的多个元路径；

7.一种基于异构医学知识图谱的疾病预测装置，其特征在于，包括：

预测单元，用于获取待测试用户的目标医疗数据，并将所述待测试用户的目标医疗数据输入训练好的第二疾病预测模型，得到所述待测试用户的预测结局数据；

所述处理单元获取与所述历史诊疗数据的异构医学知识图谱对应的异构图时，具体用于：

获取与所述历史诊疗数据对应的异构医学知识图谱；

所述处理单元对所述异构图进行分类处理时，具体用于：

获取所述异构图中的多个元路径；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求6所述的方法。