CN116936108A

CN116936108A - 一种面向不平衡数据的疾病预测系统

Info

Publication number: CN116936108A
Application number: CN202311209085.XA
Authority: CN
Inventors: 李劲松; 谭笑; 池胜强; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-10-24
Anticipated expiration: 2043-09-19
Also published as: CN116936108B

Abstract

本发明公开了一种面向不平衡数据的疾病预测系统，包括知识图谱构建及关系权重向量计算模块，用于构建医用知识图谱，利用医用知识图谱计算每个概念的关系权重向量；图数据表示模块，用于获取医疗图数据并学习医疗图数据的嵌入表示；图数据增广模块，用于利用GAN模型对医疗图数据中的不平衡数据进行增广，使数据保持平衡；图神经网络训练模块，用于利用增广后的医疗图数据训练第二图神经网络模型；疾病预测模块，用于将患者的图数据输入训练好的第二图神经网络模型中进行疾病预测。本发明利用知识图谱中丰富的关系信息提高生成边的质量；结合对抗生成网络模型，能够生成更真实的图数据样本，提升系统疾病预测效果。

Description

一种面向不平衡数据的疾病预测系统

技术领域

本发明涉及医疗健康信息技术领域，特别涉及一种面向不平衡数据的疾病预测系统。

背景技术

在人工智能领域，图神经网络受到广泛关注，越来越多的学者、机构参与相关研究来分析和挖掘图数据中的信息，其中在推荐系统、健康医疗、社交网络、生物化工等领域得到广泛应用。

现实生活中的图数据存在样本、类别分布不平衡的情况，即某些类别的样本数量显著少于其它类别，称之为少数类，与此相对应的称为多数类。而现有的图神经网络算法一般是基于样本类别分布大致平衡而设计的。以医疗场景为例，医院得到的数据中患者样本的比例极不平衡，如果通过训练这些数据来构建疾病预测相关模型，会导致模型对少数类样本学习不足，无法对其做出准确的预测。

在传统机器学习领域，针对不平衡数据训练的相关算法有很多。比如在方法层面，有训练多个弱学习器，逐步调整错分样本权重，最后将所有弱学习器进行加权汇总的集成学习；以及提高少数类样本的学习权重的代价敏感学习等方法。由于图数据中样本（即节点）之间存在一定的连接关系，如果将这些方法直接应用于图数据分析，会导致数据之间的关系没有被有效利用，甚至分析效果更差的问题。而在数据层面，业界普遍采用优化数据的采样过程从而达到训练样本平衡的思路。比如将多数类样本进行降采样，而这种方法在数据极不平衡或少数类样本数量非常少的情况下容易导致训练数据不足以至于训练效果差的问题。此外，另一类方法是通过复制少数类样本进行数据增广，由于少数类样本包含的信息有限，以及生成的数据没有引入足够且有效的信息，会导致训练的模型容易发生过拟合。

目前在图神经网络领域，对此类问题的相应研究较少。2021年，Zhao等人提出GraphSMOTE，将业界比较常见的数据过采样方法--合成少数过采样技术（SMOTE）应用于图数据中。此方法能够为少数类节点生成有差异化的新样本，但是它对边的构造过程仅考虑了节点间的相关性，合成边的准确度和可靠性有待提高。构建不合理的边会影响整体图结构，进而影响后续预测模型的效果。

发明内容

本发明的目的在于针对现有技术的不足，提出一种面向不平衡数据的疾病预测系统。

本发明的目的是通过以下技术方案来实现的：一种面向不平衡数据的疾病预测系统，包括：

知识图谱构建及关系权重向量计算模块，用于基于现有医学文献、专家知识中的概念和关系，构建医用知识图谱；利用医用知识图谱计算每个概念的关系权重向量；

图数据表示模块，用于获取医疗图数据，利用第一图神经网络模型来学习医疗图数据的嵌入表示；

图数据增广模块，用于利用GAN模型对医疗图数据中的不平衡数据进行增广，使数据保持平衡，得到增广后的医疗图数据；

所述GAN模型由节点生成器、边生成器、节点判别器和边判别器组成；节点生成器用于生成合成患者节点的嵌入表示；边生成器用于将节点生成器的输出作为输入，得到合成患者节点的邻接向量；节点判别器和边判别器分别用于判断合成节点和合成患者节点的邻接向量的真实性；其中，边判别器的交叉熵结合合成患者节点的邻接向量与关系权重向量的交叉熵进行训练；

图神经网络训练模块，用于利用增广后的医疗图数据训练第二图神经网络模型；

疾病预测模块，用于使用训练好的第二图神经网络模型进行疾病预测。

进一步地，所述构建的医用知识图谱为：；其中/>代表知识图谱中第i个三元组，每个三元组表示两个概念与其之间的关系；概念包括症状、用药、生理指标、医学检验和疾病，关系包括从属关系、治疗关系、相关关系和因果关系；/>表示三元组的数量。

进一步地，所述利用医用知识图谱计算每个概念的关系权重向量具体为：

针对知识图谱中任一概念，计算与其它概念/>的关系权重/>，得到概念/>的关系权重向量/>：

其中代表概念/>与/>之间的关系，/>表示概念的数量。

进一步地，医疗图数据集合表示为，其中/>，C、Z分别代表概念节点集合和真实患者节点集合，概念节点包括少数类概念节点和多数类概念节点，真实患者节点包括少数类真实患者节点和多数类真实患者节点，/>为医疗图数据中节点数量；/>代表边集合；真实患者节点包含生物学信息；概念节点与知识图谱中概念对齐；

医疗图数据的节点邻接矩阵的大小为/>，/>中第/>行第/>列元素的值记为，若/>中第/>个节点与第/>个节点相连，则/>，否则/>；

医疗图数据的嵌入表示为，其中/>表示医疗图数据中第i个节点的嵌入表示。

进一步地，所述节点生成器、边生成器、节点判别器和边判别器均采用多层感知机神经网络。

进一步地，节点判别器采用交叉熵损失，记作，公式为：

m为当前训练轮次中输入的节点样本数，表示第i个真实患者节点/>的预测值，/>表示第i个合成患者节点/>的预测值；

边判别器采用交叉熵损失，记作，公式为：

计算合成患者节点的邻接向量与少数类疾病概念节点/>的关系权重向量/>的交叉熵，得到关系损失/>，公式为：

其中，代表邻接向量中第j个元素，/>代表关系权重向量/>中的第j个元素；

记为知识损失权重参数，边判别器的总损失/>为：

。

进一步地，所述图数据增广模块中的GAN模型经过如下训练：

通过梯度下降法来更新节点生成器：判断合成患者节点是否与少数类真实患者节点相似，计算相似性损失；其中分别计算合成患者节点与随机k个少数类真实患者节点的内积的均值b，以及合成患者节点与随机k个多数类真实患者节点的内积均值c，具体公式为：

其中，、/>分别代表少数类真实患者节点集合、多数类真实患者节点集合；

通过梯度下降法来更新节点生成器的参数：

其中为节点生成器的学习系数，/>代表针对/>的梯度运算, />为节点类别权重参数；由此完成节点生成器训练的一次迭代；

通过梯度下降法来更新边生成器的参数：

其中为边生成器的学习系数，/>代表针对/>的梯度运算；由此完成边生成器训练的一次迭代；

利用随机梯度下降法更新节点判别器的参数：

其中为节点判别器的学习系数，/>代表针对/>的梯度运算；由此完成节点判别器训练的一次迭代；

利用随机梯度下降法更新边判别器的参数：

其中代表边判别器的学习系数，/>代表针对/>的梯度运算；由此完成边判别器训练的一次迭代。

进一步地，所述第一图神经网络模型包括node2vec，SDNE，TransE，图卷积神经网络GCN，图注意力神经网络GAT，图同构神经网络GIN，GraphSage。

进一步地，所述第二图神经网络模型包括图卷积神经网络GCN，图注意力神经网络GAT，图同构神经网络GIN，GraphSage。

进一步地，所述第二图神经网络模型包括包含图卷积层、全连接层和激活层；训练如下：设置模型训练参数后，将增广后的医疗图数据传入模型中进行训练，经过前向传播、计算损失之后，计算梯度值，通过反向传播更新每一层神经元的参数值，得到训练好的第二图神经网络模型。

本发明的有益效果是：利用知识图谱中丰富的关系信息提高生成边的质量；结合对抗生成网络模型，能够生成更真实的图数据样本，提升系统疾病预测效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的整体流程图；

图2为本发明实施例中的图数据增广模块的流程图；

图3为节点生成流程图；

图4为边生成流程图；

图5为医疗图数据与知识图谱之间的关系图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如图1所示，本发明的一种面向不平衡数据的疾病预测系统，包括知识图谱构建及关系权重向量计算模块、图数据表示模块、图数据增广模块、图神经网络训练模块和疾病预测模块，其中图数据增广模块包括判别器单元和生成器单元。每个模块的具体功能如下：

知识图谱构建及关系权重向量计算模块，用来基于现有医学文献、专家知识中的概念和关系，构建医用知识图谱；利用医用知识图谱计算每个概念的关系权重向量；

基于医学文献、专家知识中的概念和关系，构建医用知识图谱。其中/>代表知识图谱中第i个三元组，每个三元组表示两个概念（即实体）与其之间的关系，概念包括症状、用药、生理指标、医学检验、疾病，关系包括从属关系、治疗关系、相关关系、因果关系，比如心房颤动属于心律失常，为从属关系；心肌病导致心律失常，属于因果关系；尿素氮偏高与肾性AKI为相关关系；使用beta受体拮抗剂能治疗心力衰竭，属于治疗关系。知识图谱中三元组的数量为/>，知识图谱中概念个数为/>。

得到知识图谱后，利用知识图谱嵌入模型（如TransE）来学习知识图谱中三元组的嵌入表示，记其嵌入表示集合为， />代表知识图谱中第i个三元组的嵌入表示集合，/>分别代表三元组中头实体、关系、尾实体的嵌入表示，其中头实体和尾实体就是概念。

针对知识图谱中任一概念，计算与其它概念/>的关系权重/>：

其中代表概念/>与概念/>的关系嵌入表示向量。然后，构建针对概念/>的关系权重向量：

如此，对知识图谱中所有概念计算关系权重向量，得到关系权重向量集合W。

图数据表示模块：

记医疗图数据集合表示为，其中/>，C、Z分别代表概念节点集合、真实患者节点集合，/>为医疗图数据中节点数量；/>代表边集合。真实患者节点包含生物学信息，如年龄、身高、体重，概念节点与知识图谱中概念对齐，即概念节点包括症状、用药、生理指标、医学检验、疾病。

数据集中涉及其中一种疾病的样本数量最多的，称此疾病为多数类疾病，其余称之为少数类疾病。概念节点包括疾病概念节点，疾病概念节点包括少数类疾病概念节点和多数类疾病概念节点，医疗图数据中与少数类疾病对应的节点称之为少数类疾病概念节点，简称少数类概念节点，反之称为多数类疾病概念节点，简称多数类概念节点；真实患者节点包括少数类真实患者节点和多数类真实患者节点，少数类真实患者节点为真实数据中患有少数类疾病的患者节点，多数类真实患者节点为真实数据中患有多数类疾病的患者节点；

根据医疗图数据中节点间的连接关系构建邻接矩阵，并从邻接矩阵/>中获取真实患者节点的邻接向量，表示真实患者节点与各个概念节点的边关系；邻接矩阵/>的大小为/>，/>中第/>行第/>列元素的值记为/>，若/>中第/>个节点与第/>个节点相连，则/>，否则/>。

利用第一图神经网络模型（如GAT）来学习医疗图数据的嵌入表示，记为，其中/>表示医疗图数据中一个第i个节点的嵌入表示。第一图神经网络模型还包括node2vec，SDNE，TransE，图卷积神经网络GCN，图同构神经网络GIN、GraphSage。

图数据增广模块：

图数据增广模块的作用是，利用数据生成方法，将数据集中难以学习到的少数类患者进行数据增广，使得多数类与少数类患者节点数量的比例达到一定平衡，以此提高对少数类患者样本的学习效果。

数据生成方法中包含合成患者节点生成以及连接合成患者节点与概念节点的边的生成，二者均使用GAN（对抗生成网络）模型，在生成器单元中训练节点生成器和边生成器/>，在判别器单元中训练节点判别器/>和边判别器/>。训练过程中，节点生成器用来生成与少数类真实患者节点相似的合成患者节点，节点判别器判断合成患者节点的真实性；边生成器用来生成合成患者节点与概念节点的边，边判别器判断每一个合成边是否真实存在。两个判别器分别计算对应的损失，然后通过损失来更新相应的生成器与判别器。

图数据增广流程如图2所示，其中节点生成和边生成的流程如图3和图4所示，具体细节如下：

判别器单元：

判别器单元的作用是分别构建节点判别器和边判别器/>，然后利用生成器传来的合成数据对其分别进行训练，计算损失后更新自身判别器，并将损失发送给生成器单元。

节点判别器和边判别器均采用多层感知机神经网络，模型超参数包括学习率、优化器、激活函数、隐藏层数和每层隐藏单元数，参数分别为、/>。

其中节点判别器的输入为真实患者节点的嵌入表示，以及从节点生成器传入的合成患者节点的嵌入表示。节点判别器的作用是判断合成患者节点是否为真实患者节点，其预测结果为节点是真实患者节点的概率值，记第i个真实患者节点的预测值为/>，第i个合成患者节点/>的预测值为/>。节点判别器采用交叉熵损失，记作/>，公式为：

m为当前训练轮次中输入的节点样本数。

利用随机梯度下降法更新节点判别器的参数：

其中为节点判别器的学习系数，/>代表针对/>的梯度运算。由此完成节点判别器训练的一次迭代。

边判别器的输入为从邻接矩阵中采样得到的真实患者节点的邻接向量，以及由边生成器传入的合成邻接向量。边判别器的作用是判断合成邻接向量是否为真实邻接向量，它的输出结果是邻接向量为真实邻接向量的概率值。记第i个真实患者节点/>的邻接向量为/>，边判别器对其预测值为/>；第i个合成患者节点/>的邻接向量为/>，边判别器对其预测值为/>。边判别器的神经网络部分采用交叉熵损失，记作/>，公式为：

此外，利用在知识图谱构建模块中计算得到的关系权重向量集合W，计算节点的邻接向量与其类别c所对应概念的关系权重向量/>的交叉熵，得到关系损失/>，公式为：

其中，代表邻接向量中第j个元素，/>代表类别c对应概念的关系权重向量的第j个元素。

记为知识损失权重参数，边判别器的总损失/>为：

利用随机梯度下降法更新边判别器的参数：

其中代表边判别器的学习系数，/>代表针对/>的梯度运算。由此完成边判别器训练的一次迭代。

生成器单元：

生成器单元的作用是构建节点生成器和边生成器/>，分别生成少数类患者节点以及其与概念节点合成边，并通过判别器单元中的对应判别器计算得到的损失来更新相应生成器。

节点生成器和边生成器均采用多层感知机神经网络，模型超参数包括学习率、优化器、激活函数、隐藏层数和每层隐藏单元数，参数分别为、/>。

节点生成器的输入为随机噪声向量，维度与节点嵌入表示相同，输出为合成患者节点的嵌入表示，将其发送给节点判别器，得到其返回的损失。

另外，判断合成患者节点是否与少数类真实患者节点更相似，计算类别相似性损失。其中分别计算合成患者节点与随机k个少数类真实患者节点的内积的均值b，以及该节点与随机k个多数类真实患者节点的内积均值c，具体公式为：

其中，、/>分别代表少数类、多数类真实患者节点集合。

通过梯度下降法来更新节点生成器：

其中为节点生成器的学习系数，/>代表针对/>的梯度运算, />为节点类别权重参数。由此完成节点生成器训练的一次迭代。

边生成器的输入为合成患者节点的嵌入表示，输出为合成患者节点的邻接向量，表示合成患者节点与各个概念节点的边关系，记第i个合成患者节点的合成邻接向量为，将其发送给边判别器，并利用其返回的损失/>，通过梯度下降法来更新边生成器：

其中为边生成器的学习系数，/>代表针对/>的梯度运算。由此完成边生成器训练的一次迭代。

两种生成器和判别器的训练分别达到迭代轮次上限之后，分别对原始图数据进行患者节点与边的生成，得到相对平衡的图数据/>，用于下游训练任务。

图神经网络训练模块：

利用增广后的图数据训练第二图神经网络模型；

第二图神经网络模型为图卷积神经网络GCN，图注意力神经网络GAT，图同构神经网络GIN，GraphSage中的任一种；例如，利用常见图神经网络方法如图卷积神经网络（GCN），构建多层GCN模型，包含图卷积层、全连接层、激活层。设置模型训练参数后，将图数据传入模型中进行训练，经过前向传播、计算损失之后，计算梯度值，通过反向传播更新每一层神经元的参数值。在模型框架的最后，应用具有 sigmoid 激活函数的全连接层来生成用于诊断预测的最终输出，并根据结果计算模型指标，如准确率、F1。

疾病预测模块：

用于使用训练好的第二图神经网络模型进行疾病预测。

实施例1：

某用户使用本系统，使用患者类别不平衡的医疗图数据预测患者的急性肾损伤发生情况。使用该系统的知识图谱构建模块，基于现有医学文献、专家知识中的概念和关系，构建用于AKI发生风险预测的知识图谱，并利用图嵌入模型TransE学习知识图谱的嵌入表示/>。计算/>中，每一个概念/>与其他概念的关系权重，并分别构建关系权重向量/>。

用户通过图数据表示模块，将包含患者生物学信息、就诊、症状、医学检查、用药信息的不平衡图数据集G（如图5所示），利用图注意力神经网络GAT来学习图数据的嵌入表示，并根据G中节点间的连接关系构建邻接矩阵/>。

用户在图数据增广模块中进行少数类患者节点数据生成。其中通过生成器单元和判别器单元分别构建节点生成器、边生成器、节点判别器和边判别器四个多层感知机神经网络。本实施例中节点生成器、边生成器的隐藏层数为2层，每层隐藏单元数为64个，学习率为0.001，激活函数使用ReLU函数，优化器使用Adam方法。节点判别器、边判别器的隐藏层数为2层，每层隐藏单元数为32个，学习率为0.01，激活函数使用Sigmoid函数，优化器使用Adam方法。每个生成器与判别器的参数随机初始化，本实施例中用户定义迭代轮次上限为100。

每一轮节点生成迭代训练过程中，本模块首先将随机噪声向量输入至节点生成器生成数量为m的合成患者节点/>，然后将/>发送给节点判别器/>，节点判别器对/>和从真实图数据中随机采样得到的/>进行预测，预测结果分别为/>和/>，根据/>和计算节点判别器损失/>：

计算出节点判别器损失后，利用随机梯度下降法更新节点判别器的参数/>，完成节点判别器训练的一次迭代：

节点判别器将节点判别器损失发送给节点生成器。节点生成器计算类别相似性损失/>，分别计算/>中每个合成患者节点/>与随机k=5个少数类真实患者节点的内积的均值b，以及该节点与随机k=5个多数类真实患者节点的内积均值c，具体公式为：

利用损失和/>，通过梯度下降法来更新节点生成器的参数/>，由此完成节点生成器训练的一次迭代。

迭代训练节点生成器和节点判别器，直到达到训练轮次上限。训练完成后，用户利用节点生成器生成自定义数据量的合成患者节点数据，使得数据集中各类别患者样本数量平衡。

每一轮边生成迭代训练过程中，系统将合成患者节点的嵌入表示输入至边生成器，输出合成患者节点与各真实患者节点的邻接向量/>，并发送给边判别器。边判别器对其输出记为/>。并且边判别器从邻接矩阵/>中采样得到一部分真实患者节点的邻接向量P，输入至边判别器对其预测值为/>。根据/>和/>计算边判别器损失/>：

此外，计算合成患者节点中每个邻接向量/>与其类别所对应概念的关系权重向量的交叉熵，得到关系损失/>：

构建边判别器的总损失为：

通过损失，利用随机梯度下降法更新边判别器的参数/>，由此完成边判别器训练的一次迭代。

利用随机梯度下降法更新边s生成器的参数，由此完成边生成器训练的一次迭代。

两种生成器和判别器训练完成之后，本模块分别对原始图数据进行患者节点与边的生成，得到相对平衡的图数据/>。

用户在图神经网络训练模块中，对图数据计算新的邻接矩阵，并输入两层GCN模型进行训练，其中设置模型训练批次大小为256，每层的激活函数分别采用ReLU和Softmax。模型输出结果为对每个患者节点预测AKI发生的概率值。经过前向传播、计算损失之后，计算梯度值，通过反向传播更新每一层神经元的参数值。训练完成后，根据预测结果计算模型准确率、F1等指标来评估模型效果。

实施例2：

某用户使用本系统，使用亚型类别不平衡的甲型流感患者图数据，对甲型流感病毒亚型进行分类。甲型流感患者图数据中包含患者信息、症状、临床表现、医学检验、病毒基因。使用该系统的知识图谱构建模块，基于现有医学文献、专家知识中的概念和关系，构建用于甲型流感病毒亚型分类的知识图谱，并计算关系权重向量集合W。使用图数据表示模块，将图数据集G利用图注意力神经网络GCN来学习图数据的嵌入表示。

然后，使用图数据增广模块，进行少数类亚型患者节点数据生成。其中首先训练节点生成器、节点判别器，以及边生成器和边判别器，训练方法与上述实施例相同，此处不在赘述。训练完成后通过节点生成器生成少数类甲型流感亚型患者节点，以及通过边生成器生成该节点与其它节点的边关系。循环生成数据，直到得到相对平衡的图数据。

最后，在图神经网络训练模块中，对图数据计算新的邻接矩阵，并传入至GCN模型进行训练，模型层数为3层，激活函数采用softmax。模型的输出结果为对每个患者的甲型流感病毒亚型的分类。经过前向传播、计算损失之后，计算梯度值，通过反向传播更新每一层神经元的参数值。训练完成后，根据预测结果计算模型准确率、F1等指标来评估模型效果。

训练好的图神经网络模型即可用于对甲型流感病毒亚型进行分类。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种面向不平衡数据的疾病预测系统，其特征在于，包括：

2.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，所述构建的医用知识图谱为：；其中/>代表知识图谱中第i个三元组，每个三元组表示两个概念与其之间的关系；概念包括症状、用药、生理指标、医学检验和疾病，关系包括从属关系、治疗关系、相关关系和因果关系；/>表示三元组的数量。

3.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，所述利用医用知识图谱计算每个概念的关系权重向量具体为：

其中代表概念/>与/>之间的关系，/>表示概念的数量。

4.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，医疗图数据集合表示为，其中/>，C、Z分别代表概念节点集合和真实患者节点集合，概念节点包括少数类概念节点和多数类概念节点，真实患者节点包括少数类真实患者节点和多数类真实患者节点，/>为医疗图数据中节点数量；/>代表边集合；真实患者节点包含生物学信息；概念节点与知识图谱中概念对齐；

5.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，所述节点生成器、边生成器、节点判别器和边判别器均采用多层感知机神经网络。

6.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，节点判别器采用交叉熵损失，记作，公式为：

m为当前训练轮次中输入的节点样本数，表示第i个真实患者节点/>的预测值，表示第i个合成患者节点/>的预测值；

边判别器采用交叉熵损失，记作，公式为：

记为知识损失权重参数，边判别器的总损失/>为:

。

7.根据权利要求6所述的面向不平衡数据的疾病预测系统，其特征在于，所述图数据增广模块中的GAN模型经过如下训练：

通过梯度下降法来更新节点生成器的参数：

通过梯度下降法来更新边生成器的参数：

利用随机梯度下降法更新节点判别器的参数：

利用随机梯度下降法更新边判别器的参数：

8.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，所述第一图神经网络模型包括node2vec，SDNE，TransE，图卷积神经网络GCN，图注意力神经网络GAT，图同构神经网络GIN，GraphSage。

9.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，所述第二图神经网络模型包括图卷积神经网络GCN，图注意力神经网络GAT，图同构神经网络GIN，GraphSage。

10.根据权利要求1所述的面向不平衡数据的疾病预测系统，其特征在于，所述第二图神经网络模型包括包含图卷积层、全连接层和激活层；训练如下：设置模型训练参数后，将增广后的医疗图数据传入模型中进行训练，经过前向传播、计算损失之后，计算梯度值，通过反向传播更新每一层神经元的参数值，得到训练好的第二图神经网络模型。