CN116631641B

CN116631641B - 一种集成自适应相似患者图的疾病预测装置

Info

Publication number: CN116631641B
Application number: CN202310898736.4A
Authority: CN
Inventors: 胡丹青; 朱晓峰; 苏慧
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-12-22
Anticipated expiration: 2043-07-21
Also published as: CN116631641A

Abstract

本发明公开了一种集成自适应相似患者图的疾病预测装置，先构建多个平衡的训练子集，然后训练相似患者图构建学习器，自动生成每个训练子集的最佳患者关联关系，再利用图神经网络算法共享关联患者之间的信息生成群体深度隐藏特征，在得到的群体深度隐藏特征上再进行一次患者关联关系和群体深度隐藏特征学习，最后针对新的患者，利用训练好的模型自动将其添加到多个训练子集中并自动生成与其他样本的关联关系和深度隐藏特征，用于疾病预测，可解决现有疾病预测装置处理不平衡数据时性能下降和无法有效共享患者之间信息的问题。

Description

一种集成自适应相似患者图的疾病预测装置

技术领域

本发明涉及医疗数据挖掘技术领域，特别涉及疾病预测方面，具体涉及一种集成自适应相似患者图的疾病预测装置。

背景技术

疾病数据是典型的不平衡数据，例如发生疾病的患者与健康人群，恶性肺结节与良性肺结节，发生淋巴结转移的患者与未发生淋巴结转移的患者等等，往往是极度不平衡的。这一不平衡数据的特点，使得传统经典机器学习算法在训练时产生偏倚，难以发挥其预测效能。

针对不平衡问题，常用重采样方法、代价敏感方法、集成方法等来克服。然而，这些现有方法通常将每个样本单独处理，并未利用不同样本之间的相互关系，无法学习到代表相关群体的深度隐藏表征（Doppalapudi S, Qiu R G, Badr Y. Lung cancer survivalperiod prediction and understanding: Deep learning approaches[J].International Journal of Medical Informatics, 2021, 148: 104371.）。

图神经网络算法可以很好的共享相关联患者之间的信息，学习到更为有效的群体隐藏特征。然而，真实临床数据中并不包含患者之间的关联信息，利用患者特征计算患者之间相似度来构建患者之间关联关系是一种常用方法，利用参数自动学习患者关联关系是另一种方法。但上述方法通常会将阳性样本与阴性样本关联，特别是在数据极度不平衡时，使得一个阳性样本与大量阴性样本关联，在利用图神经网络共享关联节点信息时，使得阳性样本信息被阴性样本信息淹没，从而表现出性能下降的特点（Lian J, Deng J, Hui E S,et al. Early stage NSCLS patients’ prognostic prediction with multi-information using transformer and graph neural network model[J]. Elife, 2022,11: e80547.）。

基于上述背景，为了有效缓解患者数据不平衡性对模型带来的影响，同时能够共享相关患者之间的信息，从而实现更为精准的疾病预测，是亟需解决的重要技术问题。

发明内容

针对上述技术问题以及本领域存在的不足之处，本发明提供了一种集成自适应相似患者图的疾病预测装置，先构建多个平衡的训练子集，然后训练相似患者图构建学习器，自动生成每个训练子集的最佳患者关联关系，再利用图神经网络算法共享关联患者之间的信息生成群体深度隐藏特征，在得到的群体深度隐藏特征上再进行一次患者关联关系和群体深度隐藏特征学习，最后针对新的患者，利用训练好的模型自动将其添加到多个训练子集中并自动生成与其他样本的关联关系和深度隐藏特征，用于疾病预测，可解决现有疾病预测装置处理不平衡数据时性能下降和无法有效共享患者之间信息的问题。

一种集成自适应相似患者图的疾病预测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现以下步骤：

以患者临床数据为原始输入数据，构建多个平衡的训练子集；

构建预测模型，包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器，用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络，用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器，用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络，以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络；

构建损失函数，包括各疾病类别的预测结果的交叉熵损失，以及各相似患者图结构的正则化约束损失之和；

基于损失函数对预测模型进行参数优化；

利用优化的预测模型进行疾病预测。

在一实施例中，所述的集成自适应相似患者图的疾病预测装置，各训练子集中的样本数量相同，且各训练子集中阳性样本数量与阴性样本数量相同。

在一实施例中，所述的集成自适应相似患者图的疾病预测装置，第一图结构学习器计算各训练子集中每对样本之间的相似度并进行阈值划分和归一化处理得到各训练子集相应的相似患者图结构。

所述的集成自适应相似患者图的疾病预测装置，第一层图神经网络算法可为图卷积网络（GCN）、图注意力网络（GAT）或GraphSAGE。

在一实施例中，所述的集成自适应相似患者图的疾病预测装置，第二图结构学习器计算各训练子集中每对样本隐藏特征之间的相似度并进行阈值划分和归一化处理得到针对各节点的隐藏特征的相似患者图结构。

所述的集成自适应相似患者图的疾病预测装置，第二层图神经网络算法可为图卷积网络（GCN）、图注意力网络（GAT）或GraphSAGE。

作为优选，所述的集成自适应相似患者图的疾病预测装置，各相似患者图结构的正则化约束损失包括计算每个相似患者图结构中相同疾病类别标签的样本之间权重之和。

进一步的，各相似患者图结构的正则化约束损失还可包括平滑每个相似患者图结构中相连的两个样本之间的特征值，以及保证每个相似患者图结构矩阵为非零矩阵和无异常值。

在一实施例中，所述的集成自适应相似患者图的疾病预测装置，在各训练子集中引入待测患者临床数据，利用优化的预测模型进行疾病预测，并将所有预测结果集成平均作为最终的预测结果。

本发明还提供了一种集成自适应相似患者图的疾病预测装置，包括：

数据获取单元，用于以患者临床数据为原始输入数据，构建多个平衡的训练子集；

模型构建单元，用于构建预测模型，包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器，用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络，用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器，用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络，以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络；

损失函数构建单元，用于构建损失函数，包括各疾病类别的预测结果的交叉熵损失，以及各相似患者图结构的正则化约束损失之和；

训练单元，用于基于损失函数对预测模型进行参数优化；

应用单元，用于利用优化的预测模型进行疾病预测。

本发明所述的集成自适应相似患者图的疾病预测装置中，所述将新一层隐藏特征映射转换为各疾病类别的预测结果的具体方式可以为通过一层全连接层进行映射并利用softmax函数转换为各疾病类别的概率预测结果。

本发明与现有技术相比，有益效果有：

首先，可利用随机采样从原始训练集中生成多个平衡的训练子集，然后利用图结构学习器生成每个训练子集中样本关联关系，其中所包含的图结构正则化项可使得相同标签的样本权重更高，避免不同标签样本关联导致群体隐藏特征失效，利用图神经网络共享关联样本信息生成深度群体隐藏特征，用于模型训练。在测试阶段，首先将测试样本添加到所有训练子集中，再利用训练好的图结构学习器自动学习包含了测试样本的数据集的关联关系，并利用训练好的图神经网络自动生成测试样本的深度群体特征，用于样本的预测，最终将所有训练子集上的测试样本预测结果集成平均作为最终的预测结果。通过本发明的疾病预测装置，可有效应对患者不平衡数据以及传统图网络方法的带来的负面影响，实现更为精准的疾病预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测装置的结构示意图。

图2为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测方法流程框图。

图3为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测方法流程示意图。

图4为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测装置的另一结构示意图。

图5为本发明具体实施方式中提供的一种集成自适应相似患者图的疾病预测装置中模型构建单元构建的模型组成示意图。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。

集成学习是应对数据不平衡问题的有效方法，通过构建多个平衡的数据子集，可加强少数样本在最终预测结果中所发挥的比重，从而缓解多数样本占据主导地位使得模型性能下降的问题。图神经网络可以共享关联样本之间的信息，生成深度群体隐藏特征，利用参数自动学习样本之间的图关系，可以解决医疗数据中样本之间关系缺失的问题。因此，结合集成学习和自适应相似患者图方法，可以在较好应对数据不平衡问题的同时，充分共享相似患者特征，从而生成更为有效的群体隐藏特征用于疾病预测。

基于此，为了实现更为有效的疾病预测，本发明提供了一种集成自适应相似患者图的疾病预测装置，参见图1，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现如图2、图3所示的方法和流程，包括步骤：

S101，针对不平衡的患者临床数据训练集，其中阳性样本个数为a，阴性样本个数为b，且b远大于a。设置集成模型中基分类器个数为N，构建N个平衡的训练子集，每个训练子集的阳性样本由训练集中的a个阳性样本组成，阴性样本从训练集中b个阴性样本随机选取a个组成，构建好的每个训练子集均由2a个样本组成。

具体执行时，从多数的阴性样本数据中采样时，可采用又放回的采样，也可采用无放回的采样。

S102，针对步骤S101构建好的训练子集，利用图结构学习器1，计算每个训练子集样本之间的相似度，构建相似患者图结构。具体地，图结构学习器1由m个权重向量组成，每个权重向量的维度与原始输入数据（即患者临床数据x_i，i为1,2,...,2a）的维度相同。利用上述m个权重向量，通过/>计算各训练子集中每对样本（x_i,x_j）之间的相似度，其中/>为元素相乘，i、j分别为1,2,...,2a。在得到每对样本的相似度之后，可以得到样本相似矩阵，由于样本相似矩阵中元素的数值在[-1,1]之间，将其中小于非负数阈值ɛ的值设置为0。对于进行上述阈值划分处理后的样本相似矩阵A_x，利用/>进行归一化处理，其中D_x是A_x的度矩阵。针对所有训练子集，得到对应的N个相似矩阵/>。

S103，根据步骤S102得到关于原始输入数据x_i的相似患者图结构后，利用第一层图神经网络算法共享每个训练子集中节点原始输入数据之间信息，计算每个节点的隐藏特征。

具体的，采用的第一层图神经网络算法为GCN、GAT、GraphSAGE。

S104，根据步骤S103得到的隐藏特征，利用图结构学习器2，构建基于节点隐藏特征的相似患者图结构。具体地，图结构学习器2同样由m个权重向量组成，且每个权重向量与隐藏特征的维度相同。利用上述m个权重向量，通过来计算每对样本隐藏特征（/>,/>）之间的相似度，i、j分别为1,2,...,2a，从而得到针对隐藏特征的样本相似矩阵；同样利用非负阈值ɛ对针对隐藏特征的样本相似矩阵A_h元素值进行截断，并利用/>对A_h进行归一化，其中D_h是A_h的度矩阵。针对所有训练子集，得到对应的N个相似矩阵/>。

S105，根据步骤S104得到针对各个节点隐藏特征的相似患者图结构，利用第二层图神经网络算法共享每个训练子集中节点隐藏特征之间信息，计算每个节点的新一层隐藏特征；利用每个节点的新一层隐藏特征作为输入，利用一层全连接FC将其映射为与疾病类别相同的逻辑值，并利用softmax函数转换为每种疾病类别概率值，其中C为类别数。

具体的，采用的第二层图神经网络算法为GCN、GAT、GraphSAGE。

S106，根据步骤S105得到的疾病类别概率预测结果，首先利用交叉熵损失计算每个训练子集中样本的损失，如下所示：

其中，C为疾病类别数，2a为每个训练子集中的样本数，N为训练子集的个数，为训练子集中第i位患者针对第c类疾病的真实标签，/>为相应的预测结果。

S107，根据步骤S102，S104得到的各个训练子集的相似患者图结构和，首先利用如下公式：/>

计算每个相似患者图结构矩阵中，相同疾病类别标签的样本之间权重之和，其中A表示相似患者图结构矩阵，Y表示A对应的训练子集中样本的疾病类别标签，⊕为异或运算，i和j的取值为1到2a，表示该训练子集中患者样本的序号，A _i,j表示相似患者图结构矩阵中第i行第j列的值，代表患者i和患者j之间的相似度，y _i、y _j表示患者i和患者j的真实预后标签。利用计算相似患者图结构矩阵的值并求和，可以在最优化的时候，倾向于将标签不同的样本之间的权重降低。

此外，利用如下公式：

来使得相连的两个样本之间的特征值变化会比较平滑，其中A表示相似患者图结构矩阵，X表示A对应的训练子集中样本的临床数据，i和j的取值为1到2a，表示该训练子集中患者样本的序号，A _i,j表示相似患者图结构矩阵中第i行第j列的值，代表患者i和患者j之间的相似度，x_i、x_j表示患者i和患者j分别对应的临床数据向量。

然后，利用如下公式：

保证A为非零矩阵和无异常值，其中1为元素全为1的向量，1^T为1的转置，A为相似患者图结构矩阵，表示A的Frobenius范数的平方。

将上述约束综合作为：

其中，α≥0，优选α>0，β≥0，γ≥0，δ≥0。利用Loss_reg(A,X,Y)可以计算相似患者图结构A对应的约束损失。

针对和/>每个相似患者图结构，均利用公式Loss_reg(A,X,Y)计算约束损失并求和，作为最终的正则化损失Loss_reg。

S108，根据步骤S106和S107得到的两个损失Loss_ce和Loss_reg，最终的损失函数Loss= Loss_ce+ σLoss_reg，其中σ≥0，优选σ>0。通过误差反向传播更新各图结构学习器和各图神经网络参数，直到模型收敛。

S109，在测试阶段，将测试样本添加到每个训练子集当中。

S110，根据步骤S101至S108训练好的模型，利用训练好的图结构学习器1自动生成包好了测试样本的训练子集的图结构；然后利用图神经网络1学习得到测试样本及各个训练子集样本的深度群体隐藏特征；然后利用图结构学习器2学习深度隐藏特征的图结构；再利用图神经网络2学习得到测试样本的新一层深度隐藏特征，并利用全连接层得到预测结果。

S111，根据步骤S110得到的每个训练子集中测试样本的预测结果，将所有结果集成平均，为最终的预测结果。

上述集成自适应相似患者图的疾病预测装置中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器（CPU）、微处理器（MPU）、数字信号处理器（DSP）、或现场可编程门阵列（FPGA），即可以通过这些处理器实现如图2、图3所示的方法和流程。

本发明还提供了一种如图4所示的集成自适应相似患者图的疾病预测装置400，同样能实现上述如图2、图3所示的方法和流程，具体包括：

数据获取单元401，用于以患者临床数据为原始输入数据，构建多个平衡的训练子集；

模型构建单元402，用于构建预测模型，参见图5，包括用于构建各训练子集相应的相似患者图结构的第一图结构学习器410，用于计算各训练子集相应的相似患者图结构中各节点的隐藏特征的第一层图神经网络411，用于构建针对各节点的隐藏特征的相似患者图结构的第二图结构学习器412，用于计算针对各节点的隐藏特征的相似患者图结构中各节点的新一层隐藏特征的第二层图神经网络413，以及用于将新一层隐藏特征映射转换为各疾病类别的预测结果的预测网络414；

损失函数构建单元403，用于构建损失函数，包括各疾病类别的预测结果的交叉熵损失，以及各相似患者图结构的正则化约束损失之和；

训练单元404，用于基于损失函数对预测模型进行参数优化；

应用单元405，用于利用优化的预测模型进行疾病预测。

需要说明的是，上述具体实施方式提供的集成自适应相似患者图的疾病预测装置在执行上述如图2、图3所示的方法和流程时，应以上述各功能单元的划分进行举例说明，可以根据需要将上述功能分配由不同的功能单元完成，即在终端或服务器的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的集成自适应相似患者图的疾病预测装置与其执行的方法流程实施例属于同一构思，其具体实现过程详见上文如图2、图3所示的方法和流程介绍，这里不再赘述。

利用上述本发明的集成自适应相似患者图的疾病预测装置，进行集成自适应相似患者图的疾病预测实验，以验证方法的效果。实验例中，实验室数据为肺癌患者是否发生淋巴结转移，实验数据为人口统计学数据、肿瘤标志物、既往病史、CT报告等等。利用患者术后病理报告中记录的淋巴结转移情况作为终点事件。实验例中选取了逻辑回归、随机森林、支持向量机、多层感知机，并配合SMOTE过采样方法作为基线方法。此外，在本发明装置执行的方法中，我们将Loss_reg(A,X,Y)计算公式中的α也置为0作为对比，以探究的有效性。实验采用10重交叉验证将数据集划分为10个数据集，其中每1重数据作为测试集，其余9重作为训练集。采用受试者工作特征曲线下面积AUC和平均正确率AP作为性能评价指标。实验结果如表1所示。从表中能够看到，本发明装置所执行的方法（表1中集成自适应相似患者图（α≠0）），相较于传统的机器学习方法、重采样方法以及集成方法，均取得更好的预测效果；同时，通过在正则化项中添加/>，可进一步提升模型性能。

表1

总而言之，本发明先利用随机采样从原始训练集中生成多个平衡的训练子集，然后利用图结构学习器生成每个训练子集中样本关联关系，其中所包含的图结构正则化项可使得相同标签的样本权重更高，避免不同标签样本关联导致群体隐藏特征失效，利用图神经网络共享关联样本信息生成深度群体隐藏特征，然后通过全连接层进行疾病预测，并利用交叉熵损失和图结构正则化约束指导模型参数训练更新直到收敛。在测试阶段，首先将测试样本添加到所有训练子集中，再利用训练好的图结构学习器自动生成包含了测试样本的数据集的关联关系，并利用训练好的图神经网络自动生成测试样本的深度群体隐藏特征用于样本的预测，最终将所有训练子集上的测试样本预测结果集成平均作为最终的预测结果。通过上述过程，可有效应对患者不平衡数据以及传统图网络方法的带来的负面影响，实现更为精准的疾病预测。

此外应理解，在阅读了本发明的上述描述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种集成自适应相似患者图的疾病预测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，处理器执行计算机程序时实现以下步骤：

以患者临床数据为原始输入数据，构建多个平衡的训练子集；各训练子集中的样本数量相同，且各训练子集中阳性样本数量与阴性样本数量相同；

第一图结构学习器计算各训练子集中每对样本之间的相似度并进行阈值划分和归一化处理得到各训练子集相应的相似患者图结构；第一图结构学习器由m个权重向量组成，每个权重向量的维度与原始输入数据的维度相同；利用上述m个权重向量，通过/>计算各训练子集中每对样本（x_i,x_j）之间的相似度，其中/>为元素相乘，i、j分别为1,2,...,2a，a为训练子集中阳性样本数量；在得到每对样本的相似度之后，得到样本相似矩阵，将其中小于非负数阈值ɛ的值设置为0，对于进行上述阈值划分处理后的样本相似矩阵A_x，利用/>进行归一化处理，其中D_x是A_x的度矩阵；针对所有训练子集，得到对应的N个相似矩阵/>；

第二图结构学习器计算各训练子集中每对样本隐藏特征之间的相似度并进行阈值划分和归一化处理得到针对各节点的隐藏特征的相似患者图结构；第二图结构学习器由m个权重向量组成，且每个权重向量与隐藏特征的维度相同；利用上述m个权重向量，通过/>来计算每对样本隐藏特征（/>,/>）之间的相似度，其中/>为元素相乘，i、j分别为1,2,...,2a，a为训练子集中阳性样本数量，从而得到针对隐藏特征的样本相似矩阵；同样利用非负阈值ɛ对针对隐藏特征的样本相似矩阵A_h元素值进行截断，并利用/>对A_h进行归一化，其中D_h是A_h的度矩阵；针对所有训练子集，得到对应的N个相似矩阵/>；

构建损失函数Loss，包括各疾病类别的预测结果的交叉熵损失Loss_ce，以及各相似患者图结构的正则化约束损失Loss_reg之和；Loss = Loss_ce + σLoss_reg，其中σ>0；

各相似患者图结构的正则化约束损失包括计算每个相似患者图结构中相同疾病类别标签的样本之间权重之和/>，平滑每个相似患者图结构中相连的两个样本之间的特征值/>，以及保证每个相似患者图结构矩阵为非零矩阵/>和无异常值/>；

，其中，α>0，β≥0，γ≥0，δ≥0；

，其中A表示相似患者图结构矩阵，Y表示A对应的训练子集中样本的疾病类别标签，⊕为异或运算，i和j的取值为1到2a，表示该训练子集中患者样本的序号，A _i,j表示相似患者图结构矩阵中第i行第j列的值，代表患者i和患者j之间的相似度，y _i、y _j表示患者i和患者j的真实预后标签；

，其中A表示相似患者图结构矩阵，X表示A对应的训练子集中样本的临床数据，i和j的取值为1到2a，表示该训练子集中患者样本的序号，A _i,j表示相似患者图结构矩阵中第i行第j列的值，代表患者i和患者j之间的相似度，x_i、x_j表示患者i和患者j分别对应的临床数据向量；

，/>，其中1为元素全为1的向量，1^T为1的转置，A为相似患者图结构矩阵，表示A的Frobenius范数的平方；

基于损失函数对预测模型进行参数优化；

在各训练子集中引入待测患者临床数据，利用优化的预测模型进行疾病预测，并将所有预测结果集成平均作为最终的预测结果。

2.根据权利要求1所述的集成自适应相似患者图的疾病预测装置，其特征在于，第一层图神经网络算法为GCN、GAT或GraphSAGE。

3.根据权利要求1所述的集成自适应相似患者图的疾病预测装置，其特征在于，第二层图神经网络算法为GCN、GAT或GraphSAGE。

4.一种集成自适应相似患者图的疾病预测装置，其特征在于，包括：

数据获取单元，用于以患者临床数据为原始输入数据，构建多个平衡的训练子集；各训练子集中的样本数量相同，且各训练子集中阳性样本数量与阴性样本数量相同；

损失函数构建单元，用于构建损失函数Loss，包括各疾病类别的预测结果的交叉熵损失Loss_ce，以及各相似患者图结构的正则化约束损失Loss_reg之和；Loss = Loss_ce + σLoss_reg，其中σ>0；

，其中，α>0，β≥0，γ≥0，δ≥0；

训练单元，用于基于损失函数对预测模型进行参数优化；

应用单元，用于在各训练子集中引入待测患者临床数据，利用优化的预测模型进行疾病预测，并将所有预测结果集成平均作为最终的预测结果。