CN117153325B

CN117153325B - 一种基于图对比学习的抗癌药物有效性评估方法及系统

Info

Publication number: CN117153325B
Application number: CN202311413214.7A
Authority: CN
Inventors: 柴华; 苏咏纯; 辜晓纯; 何敏藩; 林俊淇; 邓伟振; 魏君渝
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-30
Anticipated expiration: 2043-10-30
Also published as: CN117153325A

Abstract

本发明涉及药物有效性评估技术领域，具体公开了一种基于图对比学习的抗癌药物有效性评估方法及系统，所述的一种基于图对比学习的抗癌药物有效性评估方法，其包括：S1：获取基础数据，并对所述基础数据进行预处理，获得初始数据；S2：基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构，获得基因表达特征；S3：将所述基因表达特征与对应的药物有效性数据结合配对，获得合并数据集；S4：将所述合并数据集输入随机森林分类模型，获得药物有效性预测结果。本发明具有能够提高算法在小样本情况下的学习效率，从而提高药物有效性预测的准确性和稳健性的优点。

Description

一种基于图对比学习的抗癌药物有效性评估方法及系统

技术领域

本发明涉及药物有效性评估技术领域，特别涉及一种基于图对比学习的抗癌药物有效性评估方法及系统。

背景技术

癌症是一种具有高度异质性的疾病，即使在同一类型的肿瘤中，不同的患者也可能对药物产生不同的有效性和抗药性。因此，根据患者的基因表达数据等信息可以差异化不同的患者，为辅助临床医师提供个体化的医疗建议。随着基因组测序、蛋白质组学和代谢组学等高通量技术的发展，大量的癌症相关数据积累，利用机器学习方法提取其相关数据中的有效特征进行建模，预测药物对差异性患者使用的有效性，从而快速低成本地为实现精准医疗提供建议而受到广泛关注。

然而，各种机器学习方法在抗肿瘤药物的研究上也存在诸多限制和不足。其中最明显的有以下两大挑战：一、有限的小样本数据进一步限制了深度学习方法性能的提升。由于生物数据收集处理的成本高耗时慢，且不同时期处理的数据易出现显著的批次效应，因此收集的合适的相关数据样本量有限，在机器学习建模过程中当样本训练不足时容易出现过拟合的现象，降低预测模型的稳健性。二、生物数据的高维高噪音特征限制了传统机器学习方法的预测性能，在收集的患者及细胞系数据中包含了上万的基因表达数据，而在实验测定这些数据的过程中，又因为实验误差等因素基于出现噪音，这样的高维噪音数据给实验建模带来了极大的挑战。

发明内容

针对现有技术存在上述的不足，本发明的目的在于提供一种基于图对比学习的抗癌药物有效性评估方法及系统，具有能够提高算法在小样本情况下的学习效率，从而提高药物有效性预测的准确性和稳健性的优点。

本发明的上述技术目的是通过以下技术方案得以实现的：

首先，本发明为解决上述问题提供了一种基于图对比学习的抗癌药物有效性评估方法，其包括：

S1：获取基础数据，并对所述基础数据进行预处理，获得初始数据；

S2：基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构，获得基因表达特征；

S3：将所述基因表达特征与对应的药物有效性数据结合配对，获得合并数据集；

S4：将所述合并数据集输入随机森林分类模型，获得药物有效性预测结果。

作为本发明的进一步改进，所述步骤S1中对所述基础数据进行预处理包括以下步骤：

S11：获取的基础数据包括患者基因表、患者癌细胞的基因表达数据以及药物有效性数据；

S12：对所述基因表达数据以及所述药物有效性数据中缺失超过20%的样本及特征进行删除；

S13：对剩余的缺失项使用中位数进行填补；

S14：对所有基因表达数据进行标准化，获得初始数据。

作为本发明的进一步改进，所述步骤S2中基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构，获得基因表达特征包括以下步骤：

S21：向所述基因表达数据添加模拟噪声实现数据增强，获得增强数据；

S22：将所述增强数据输入图对比学习神经网络的图卷积层，并引入癌症相关的基因通路信息，获得卷积特征；

S23：将所述卷积特征输入全连接层，获得基因表达特征。

作为本发明的进一步改进，所述步骤S3中将所述基因表达特征与对应的药物有效性数据集合配对，获得合并数据集包括：将所述基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对，获得合并数据集。

作为本发明的进一步改进，所述步骤S2中所述图对比学习神经网络的训练过程包括以下步骤：

S24：获取实验数据，并对所述实验数据进行预处理，获得训练数据，其中所述实验数据包括实验患者基因表、实验用癌细胞的基因表达数据以及实验用药物有效性数据；

S25：对实验用癌细胞的基因表达数据添加模拟噪声实现数据增强，获得增强训练数据；

S26：基于所述增强训练数据确定训练正对样本；

S27：基于所述训练正对样本以及损失函数，获得损失值；

S28：基于所述损失值对图对比学习神经网络中的激活函数进行更新。

作为本发明的进一步改进，所述损失函数为：，其中，/>代表损失函数，/>代表第k个变形的样本嵌入，/>和/>代表来自同一个原始样本的一对正样本，τ代表温度系数，M代表样本数。

作为本发明的进一步改进，所述步骤S4中将所述合并数据集输入随机森林分类模型，获得药物有效性预测结果包括以下步骤：

S41：从所述合并数据集中使用五折交叉验证的方法，有放回地随机选择N个样本作为数据集，实现数据集采样；

S42：对于每个决策树的节点，随机选择一部分特征进行划分，实现特征选择；

S43：基于采样和特征选择后的数据集，使用信息熵来度量数据集的不纯度，计算方式如为：，其中，/>表示类别i在节点中的占比，代表采样和特征选择后的数据集整体的信息熵；

S44：将数据传入所有的决策树，得到每个决策树的预测结果，采用多数投票的方式确定最终预测标签，实现药物有效性预测。

作为本发明的进一步改进，所述图对比学习神经网络的层与层之间的传播方式为：，其中，/>，/>为反映节点之间连接关系的邻接矩阵，/>为单位矩阵，/>为添加了自环的邻接矩阵；/>是/>的度矩阵，且/>，/>代表第i个节点到第j个节点之间是否相连，如果相连则为1，不相连则为0，/>代表第i个节点的度；/>表示第n层的输入特征，/>表示第n层的输出特征，/>表示第n层的可训练的权重矩阵，σ表示非线性激活函数。

作为本发明的进一步改进，所述模拟噪声包括高斯噪声。

为达到本发明另一目的，本发明还提供了一种基于图对比学习的抗癌药物有效性评估系统，其特征在于，包括：

数据获取模块，所述数据获取模块用于获取基础数据，并对所述基础数据进行预处理，获得初始数据；

特征提取以及重构模块，所述特征提取以及重构模块用于使用结合了迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构，获得基因表达特征；

数据配对模块，所述数据配对模块用于将所述基因表达特征与对应的药物有效性数据结合配对，获得合并数据集；

预测模块，所述预测模块用于构建随机森林分类模型，并将所述合并数据集输入所述随机森林分类模型，获得药物有效性预测结果。

上述的一种基于图对比学习的抗癌药物有效性评估方法及系统，具有以下有益效果：其一、本发明方法结合图对比学习神经网络，针对高维非线性基因表达数据中的冗余信息和噪声，通过引入癌症相关的基因通路信息，在深度神经网络中构建图卷积神经层，构造稀疏通路，更好地提取患者基因数据中的隐藏信息，从而提高了模型的泛化能力；其二、本发明方法针对现有样本量不足且当前数据多样而复杂的问题，通过对比学习策略实现数据增强，以学习样本之间的相似性和差异性，使得模型对噪声具有鲁棒性，解决小样本学习的困境，更有效地构造高维数据的低维表示。相比于传统的监督学习，提升了抗癌药物有效性预测的准确性和效率，和现有先进方法相比，本发明采用的方法其AUC提升了约5.77%。

附图说明

图1为本发明一种基于图对比学习的抗癌药物有效性评估方法的流程框图；

图2为本发明一种基于图对比学习的抗癌药物有效性评估系统的示意框图；

图3为本发明应用于8个药物数据集的ACC得分示意图；

图4为本发明应用于8个药物数据集的AUC得分示意图；

图5为本发明应用于8个药物数据集的F1得分示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，若全文中出现的“和/或”或者“及/或”，其含义包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种基于图对比学习的抗癌药物有效性评估方法及系统。

实施例1

在本实施例中，该一种基于图对比学习的抗癌药物有效性评估方法包括步骤S1至步骤S4。

在步骤S1中，获取基础数据，并对基础数据进行预处理，获得初始数据，具体为：

步骤S11：获取癌症患者基因表达谱、癌症患者癌细胞的基因表达数据以及药物有效性数据；

步骤S12：对癌症患者癌细胞的基因表达数据以及药物有效性数据中缺失超过20%的样本及特征进行删除；

步骤S13：对剩余的缺失项使用中位数进行填补；

步骤S14：对所有癌症患者癌细胞的基因表达数据以均值为0，标准差为1实现标准化，获得初始数据。

在步骤S2中，基于结合迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构，获得基因表达特征，具体为：

步骤S21：向癌症患者癌细胞的基因表达数据添加高斯噪声等模拟噪声实现数据增强，每个单元有两个增强版本，小批量的N个单元增强为2N个单元，即获得增强数据；

步骤S22：将得到的增强数据输入图对比学习神经网络中的图卷积层中，并引入癌症相关的基因通路信息，该基因通路信息采集自KEGG数据库，获得卷积特征，其中，图对比学习神经网络中图卷积层与图卷积层之间的传播方式为：，其中，/>，/>为反映节点之间连接关系的邻接矩阵，/>为单位矩阵，/>为添加了自环的邻接矩阵；/>是/>的度矩阵，且/>，/>代表第i个节点到第j个节点之间是否相连，如果相连则为1，不相连则为0，/>代表第i个节点的度；/>表示第n层的输入特征，/>表示第n层的输出特征，/>表示第n层的可训练的权重矩阵，σ表示非线性激活函数/>。

步骤S23：将得到的卷积特征输入全连接层，得到基因表达特征，由于增强数据依次经过图卷积层以及全连接层，因此得到的基因表达特征相对于原增强数据而言属于低维特征，从而实现了构造高维数据的低维表示。

在步骤S3中，将获得的基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对，获得合并数据集。

在步骤S4中，将所述合并数据集输入随机森林分类模型，获得药物有效性预测结果，具体为：

步骤S41：从合并数据集中使用五折交叉验证的方法，有放回地随机选择N个样本作为数据集，实现数据集采样；

步骤S42：对于每个决策树的节点，随机选择一部分特征进行划分，实现特征选择；

步骤S43：基于采样和特征选择后的数据集，使用信息熵来度量数据集的不纯度，计算方式如为：，其中，/>表示类别i在节点中的占比，代表采样和特征选择后的数据集整体的信息熵；

步骤S44：将数据传入所有的决策树，得到每个决策树的预测结果，采用多数投票的方式确定最终预测标签，实现药物有效性预测。

实施例2

在本实施例中，本发明还提供一种基于图对比学习的抗癌药物有效性评估的训练方法，其包括：

步骤S24：获取实验数据，并对实验数据进行预处理，获得训练数据，具体为：从癌症药物有效性基因组学数据库GDSC中获取8类药物数据进行测试，包括代表药物有效性数据的IC50值以及癌细胞的基因表达数据，其中Erlotinib 429例，Irinotecan 453例，Lapatinib 434例，Nilotinib 434例，Paclitaxel 434例，PLX4720 452例，Sorafenib 434例，Topotecan 411例，并对获取的数据进行预处理，预处理具体包括以下步骤：

步骤S241：对基因表达数据以及药物有效性数据中缺失超过20%的样本及特征进行删除；

步骤S242：对剩余的缺失项使用中位数进行填补；

步骤S243：对所有基因表达数据以均值为0，标准差为1实现标准化，获得训练数据。

步骤S25：向基因表达数据添加高斯噪声等模拟噪声实现数据增强，以生成训练对，每个单元有两个增强版本，小批量的N个单元增强为2N个单元，即获得增强训练数据，具体为：在每个批次中，通过往基因表达数据中添加高斯噪音生成相应的扭曲配置文件；

步骤S26：基于增强训练数据确定训练正对样本，具体为：将从相同基因表达谱重组生成的两个扭曲配置文件视为训练正对样本，而将来自不同基因表达谱的配置文件视为训练负对样本；

步骤S27：将训练正对样本输入至损失函数中，获得损失值，其中，损失函数/>的表达式为：/>，其中，/>代表损失函数，/>代表第k个变形的样本嵌入，/>和/>代表来自同一个原始样本的一对正样本，/>代表温度系数，M代表样本数，在本实施例中，温度系数/>设置为0.2。

步骤S28：根据损失值对图对比学习神经网络中的激活函数进行更新，激活函数/>中包括一个键编码器以及一个查询编码器，基于损失值对键编码器参数以及查询编码器参数进行更新，其中，对于键编码器参数，采用动量更新，对于查询编码器参数，采用正态反向传播更新；通过更新前的键编码器参数以及更新后的查询编码器参数进行线性组合，以保留线性组合中更新前的键编码器中的信息/>，具体的组合表达式为：/>，其中，/>为建编码器参数，/>为查询编码器参数，m∈[0,1)是动量系数，在本实施例中m设置为0.999；将具有相似表达模式的细胞形成簇，这些簇可能为相同细胞类型的细胞。

步骤S29，将基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对，获得8个用于算法评估的药物合并数据集。将合并数据集输入随机森林分类模型，具体过程如下：

步骤S291：从合并数据集中使用五折交叉验证的方法，有放回地随机选择N个样本作为训练集，实现数据集采样；

步骤S292：对于每个决策树的节点，在训练时，随机选择一部分特征进行划分，实现特征选择；

步骤S293：基于采样和特征选择后的训练集，使用熵来度量训练集的不纯度，计算方式如为：，其中，/>表示类别i在节点中的占比；

步骤S294：将数据传入所有的决策树，得到每个决策树的预测结果，采用多数投票的方式确定最终预测标签，实现分类预测。

实施例3

数据获取模块100，数据获取模块100用于获取基础数据，并对基础数据进行预处理，获得初始数据；

特征提取以及重构模块200，特征提取以及重构模块200用于基于图对比学习神经网络对初始数据进行特征提取以及重构，获得基因表达特征；

数据配对模块300，数据配对模块300用于将基因表达特征与对应的药物有效性数据结合配对，获得合并数据集；

预测模块400，预测模块400用于构建随机森林分类模型，并将合并数据集输入随机森林分类模型，获得药物有效性预测结果。

本发明方法结合迁移学习策略与图对比学习神经网络，针对高维非线性基因表达数据中的冗余信息和噪声，通过构建预训练网络，并引入癌症相关的基因通路信息，在深度神经网络中构建图卷积神经层，构造稀疏通路，更好地提取患者基因数据中的隐藏信息，从而提高了模型的泛化能力；其次针对现有样本量不足且当前数据多样而复杂的问题，通过对比学习策略实现数据增强，以学习样本之间的相似性和差异性，使得模型对噪声具有鲁棒性，解决小样本学习的困境，更有效地构造高维数据的低维表示。相比于传统的监督学习，提升了抗癌药物有效性预测的准确性和效率，和现有先进方法相比，本发明采用的方法其AUC提升了约5.77%。

为了评估本发明所提出的基于图-对比学习神经网络深度学习框架的抗癌药物有效性评估方法的有效性，本发明将此评估方法分别应用于8个药物数据集（Erlotinib，Irinotecan，Lapatinib，Nilotinib，Paclitaxel，PLX4720，Sorafenib，Topotecan）中，并将ACC, AUC以及F1得分作为评价指标进行实验评估。8种抗癌药物有效性的ACC得分如图2所示，AUC得分如图3所示，F1得分如图4所示。根据实验结果，这8种药物的ACC指数范围为0.500 ~ 0.750，其中在Sorafenib中最高，在Lapatinib中最低。ACC指数集中在0.600 ~0.750之间，说明本发明方法的性能在不同数据集上相对一致，并且ACC指数在Nilotinib和Sorafenib中相对较高，在Irinotecan中相对较低。而F1得分范围基本上在0.575 ~ 0.725之间，在Erlotinib中取得较高的F1得分，在Irinotecan和Paclitaxel中F1得分较低。

参照表1，将本发明方法以及6个其它现有先进机器学习算法Logistic、SVM、DNN、Dr.VAE、GADRP、XGBoost应用于8个药物数据集进行精确度比较，分别计算每个药物数据集下每种算法的评价指标AUC值，进行实验比较。7种方法在8个药物数据集上所得的AUC指数值对比如表1所示，本发明方法下取得的AUC在0.636（Paclitaxel）和0.723（Nilotinib）之间，平均值为0.670。与其他方法相比，本发明方法平均提高了5.77%的AUC指数。

表1.在8个数据集上应用不同方法下的AUC得分

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于图对比学习的抗癌药物有效性评估方法，其特征在于，包括：

S4：将所述合并数据集输入随机森林分类模型，获得药物有效性预测结果；

所述S1中对所述基础数据进行预处理包括以下步骤：

S11：获取的基础数据包括患者基因表达谱、患者癌细胞的基因表达数据以及药物有效性数据；

S13：对剩余的缺失项使用中位数进行填补；

S14：对所有基因表达数据进行标准化，获得初始数据；

所述S2包括以下步骤：

S23：将所述卷积特征输入全连接层，获得基因表达特征；

所述S3包括：将所述基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对，获得合并数据集；

所述S4包括以下步骤：

S44：将数据传入所有的决策树，得到每个决策树的预测结果，采用多数投票的方式确定最终预测标签，实现药物有效性预测；

所述图对比学习神经网络的卷积层与卷积层之间的传播方式为：，其中，/>，/>为反映节点之间连接关系的邻接矩阵，/>为单位矩阵，/>为添加了自环的邻接矩阵；/>是/>的度矩阵，且/>，/>代表第i个节点到第j个节点之间是否相连，如果相连则为1，不相连则为0，/>代表第i个节点的度；/>表示第n层的输入特征，/>表示第n层的输出特征，/>表示第n层的可训练的权重矩阵，σ表示非线性激活函数；

其中，所述S2中所述图对比学习神经网络的训练过程包括以下步骤：

S25：对实验用癌细胞的基因表达数据添加模拟噪声生成对应的扭曲配置文件以实现数据增强，获得增强训练数据；

S26：基于所述增强训练数据确定训练正对样本；

S27：基于所述训练正对样本以及损失函数，获得损失值；

2.根据权利要求1所述的基于图对比学习的抗癌药物有效性评估方法，其特征在于：所述损失函数为：，其中，/>代表损失函数，/>代表第k个变形的样本嵌入，/>和/>代表来自同一个原始样本的一对正样本，τ代表温度系数，M代表样本数。

3.根据权利要求1所述的基于图对比学习的抗癌药物有效性评估方法，其特征在于：所述模拟噪声包括高斯噪声。

4.一种基于图对比学习的抗癌药物有效性评估系统，其特征在于，包括：

数据获取模块，所述数据获取模块用于获取基础数据，并对所述基础数据进行预处理，获得初始数据；其中，对所述基础数据进行预处理包括以下步骤：获取的基础数据包括患者基因表达谱、患者癌细胞的基因表达数据以及药物有效性数据；对所述基因表达数据以及所述药物有效性数据中缺失超过20%的样本及特征进行删除；对剩余的缺失项使用中位数进行填补；对所有基因表达数据进行标准化，获得初始数据；

特征提取以及重构模块，所述特征提取以及重构模块用于使用结合了迁移学习策略的图对比学习神经网络对所述初始数据进行特征提取以及重构，获得基因表达特征；其中，向所述基因表达数据添加模拟噪声实现数据增强，获得增强数据；将所述增强数据输入图对比学习神经网络的图卷积层，并引入癌症相关的基因通路信息，获得卷积特征；将所述卷积特征输入全连接层，获得基因表达特征；其中，所述图对比学习神经网络的卷积层与卷积层之间的传播方式为：，其中，/>，/>为反映节点之间连接关系的邻接矩阵，/>为单位矩阵，/>为添加了自环的邻接矩阵；/>是/>的度矩阵，且，/>代表第i个节点到第j个节点之间是否相连，如果相连则为1，不相连则为0，/>代表第i个节点的度；/>表示第n层的输入特征，/>表示第n层的输出特征，表示第n层的可训练的权重矩阵，σ表示非线性激活函数；

数据配对模块，所述数据配对模块用于将所述基因表达特征与对应的代表药物有效性数据的IC50值进行结合配对，获得合并数据集；

预测模块，所述预测模块用于构建随机森林分类模型，并将所述合并数据集输入所述随机森林分类模型，获得药物有效性预测结果；其中，从所述合并数据集中使用五折交叉验证的方法，有放回地随机选择N个样本作为数据集，实现数据集采样；对于每个决策树的节点，随机选择一部分特征进行划分，实现特征选择；基于采样和特征选择后的数据集，使用信息熵来度量数据集的不纯度，计算方式如为：，其中，表示类别i在节点中的占比，/>代表采样和特征选择后的数据集整体的信息熵；将数据传入所有的决策树，得到每个决策树的预测结果，采用多数投票的方式确定最终预测标签，实现药物有效性预测；

其中，所述图对比学习神经网络的训练过程包括：获取实验数据，并对所述实验数据进行预处理，获得训练数据，其中所述实验数据包括实验患者基因表、实验用癌细胞的基因表达数据以及实验用药物有效性数据；对实验用癌细胞的基因表达数据添加模拟噪声生成对应的扭曲配置文件以实现数据增强，获得增强训练数据；基于所述增强训练数据确定训练正对样本；基于所述训练正对样本以及损失函数，获得损失值；基于所述损失值对图对比学习神经网络中的激活函数进行更新。