CN116597902B

CN116597902B - 基于药物敏感性数据的多组学生物标志物筛选方法和装置

Info

Publication number: CN116597902B
Application number: CN202310447492.8A
Authority: CN
Inventors: 吴健; 刘伟泽; 徐红霞; 郑波; 胡朝文; 范逸群; 吴育连
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-12-01
Anticipated expiration: 2043-04-24
Also published as: CN116597902A

Abstract

本发明公开了一种基于药物敏感性数据的多组学生物标志物筛选方法和装置，通过转录组生物标志物筛选模块和DNA甲基化组生物标志物筛选模块来筛选出对于影响患者药物敏感性预测的最重要的一组候选转录组生物标志物和候选DNA甲基化组生物标志物，然后通过多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，最后基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果，这样在综合考虑患者的多组学数据和临床数据的基础上能够通过机器学习的可解释性来减少预测患者药物敏感性所需的生物标志物数量并提高了预测的性能和效率。

Description

基于药物敏感性数据的多组学生物标志物筛选方法和装置

技术领域

本发明属于多组学生物标志物技术领域，具体涉及一种基于药物敏感性数据的多组学生物标志物筛选方法和装置。

背景技术

癌症的治疗是全世界都在努力解决的一个重大难题，高通量测序技术和人工智能技术的发展为癌症的精准治疗提供了无限可能。但是抗癌药物的对患者个体的治疗效果在使用前是未知的，如果药物选择失败会耽误治疗时机，给患者带来严重的身心伤害。所以如何利用较少的多组学生物标志物结合人工智能技术高效地实现预测癌症患者对药物的敏感性，从而为每个患者制定个性化的治疗方案，实现精准医疗是一个非常重要的问题，对减少患者的痛苦和经济负担，提高治疗的效果具有重要的意义。因此，这也成为了全世界研究人员都非常关注的一个问题。

近年来，已经有一些研究在利用机器学习预测药物敏感性方面做出了不少努力和贡献，但却鲜有研究利用机器学习的可解释性来寻找用于预测药物敏感性的多组学生物标志物。

随着计算机软硬件和人工智能技术的不断发展，产生了一系列性能优秀的机器学习模型，例如，支持向量机、随机森林、神经网络等。人工智能和其他学科的交叉也越来越广泛，其中医学人工智能作为交叉学科的代表更是得到快速发展。

随着人们对多组学研究的深入，研究人员提出了一些公开数据集并被广泛地应用于医学人工智能的研究，例如癌症药物敏感性基因组学数据集(Genomics of DrugSensitivity in Cancer，GDSC)，癌症基因组图谱(The Cancer Genome Atlas，TCGA)等数据集，这为开展基于药物敏感性数据的多组学生物标志物筛选方法和装置的研究提供了便利。

然而，现有的方法通常只是利用多组学数据来预测患者的药物敏感性，并没有充分挖掘不同生物标志物在预测中的重要度差异来减少需要的生物标志物数量，以便于提高预测的性能和效率。因此，目前尚未有比较好的模型能够通过机器学习的可解释性来减少预测患者药物敏感性所需的生物标志物数量并达到高效、高准确率的预测。

发明内容

鉴于上述，本发明目的是提供一种基于药物敏感性数据的多组学生物标志物筛选方法和装置，利用机器学习的可解释性来筛选对于药物敏感性预测最重要的多组学生物标志物，以尽可能少的生物标志物实现高效率和高准确度预测患者的药物敏感性。

为实现上述发明目的，本发明提供的一种基于药物敏感性数据的多组学生物标志物筛选方法，包括以下步骤：

获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据；

利用筛选模型进行数据筛选，包括：基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物，基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物，基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果；

所述混合候选组和最终筛选结果中特征均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。

在一个实施例中，所述基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物，包括：

将微环境内间质细胞与经过药物处理后正常化的间质细胞测序进行差异分析获得差异mRNA，将差异mRNA与转录组学数据进行求交集后结果输入至转录组生物标志物筛选模块包括的第一药物敏感性预测模型中；

在转录组生物标志物筛选模块中，基于第一药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到一组候选转录组生物标志物，其中，每个特征为1个转录组生物标志物。

在一个实施例中，所述基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物，包括：

在DNA甲基化组生物标志物筛选模块中，将DNA甲基化组生物标志物输入至第二药物敏感性预测模型，基于第二药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到一组候选DNA甲基化组生物标志物，其中，每个特征为1个DNA甲基化组生物标志物。

在一个实施例中，所述基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，包括：

在多组学联合筛选模块中，将候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据的组合结果输入至第三药物敏感性预测模型，基于第三药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到混合候选组，其中，每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。

在一个实施例中，所述基于敏感性预测结果采用SHAP分析确定每个特征的重要度，包括：

计算每个特征的归因值φ_j，表示为：

其中，j为特征索引，{x₁，…，x_p}为特征集合，p为特征总量，{x₁，…，x_p}\{x_j}为不包括特征{x_j}的所有特征可能的集合，f_x(S)为特征子集S的敏感性预测结果，f_x(S∪{x_j})为特征子集S∪{x_j}的敏感性预测结果；

基于归因值φ_j计算特征的重要性I_j，表示为：

其中，i表示样本索引，n表示样本总量，表示第i个样本的第j个特征的归因值。

在一个实施例中，所述依据重要度筛选得到一组候选转录组生物标志物，包括：依据重要度筛选重要度降序排序靠前的最多25个转录组生物标志物作为一组候选转录组生物标志物；

所述依据重要度筛选得到一组候选DNA甲基化组生物标志物，包括：依据重要度筛选重要度降序排序靠前的最多25个DNA甲基化组生物标志物作为一组候选DNA甲基化组生物标志物；

所述依据重要度筛选得到混合候选组，包括：依据重要度筛选重要度降序排序靠前的最多25个特征组成混合候选组，其中，每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。

在一个实施例中，所述基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果，包括：

对混合候选组中特征进行抽取组成验证特征组，将验证特征组输入至第四敏感性预测模型计算敏感性预测结果，并基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC，并基于准确性和AUC筛选预测效果最高的验证特征组作为最终筛选结果，其中，每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。

在一个实施例中，所述对混合候选组中特征进行抽取组成验证特征组，包括：

共提取M个验证特征组，第m个验证特征组包括重要度前m大的m个特征，其中，m取值为1-M，M为混合候选组中特征总量。

为实现上述发明目的，实施例提供了一种基于药物敏感性数据的多组学生物标志物筛选装置，包括：

获取单元，用于获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据；

筛选单元，用于利用筛选模型进行数据筛选，包括：基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物，基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物，基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果；

其中，所述混合候选组和最终筛选结果均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。

为实现上述发明目的，实施例提供的一种基于药物敏感性数据的多组学生物标志物筛选装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，所述处理器执行计算机程序时实现上述基于药物敏感性数据的多组学生物标志物筛选方法。

与现有技术相比，本发明具有的有益效果至少包括：

通过转录组生物标志物筛选模块和DNA甲基化组生物标志物筛选模块来筛选出对于影响患者药物敏感性预测的最重要的一组候选转录组生物标志物和候选DNA甲基化组生物标志物，然后通过多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，最后基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果，这样在综合考虑患者的多组学数据和临床数据的基础上能够通过机器学习的可解释性来减少预测患者药物敏感性所需的生物标志物数量并提高了预测的性能和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法的流程图；

图2是实施例提供的筛选模型的结构示意图；

图3是实施例提供的基于药物敏感性数据的多组学生物标志物筛选装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决如何利用较少的多组学生物标志物结合人工智能技术高效地实现预测癌症患者对药物的敏感性，从而为每个患者制定个性化的治疗方案，实现精准医疗的问题，实施例提供了一种基于药物敏感性数据的多组学生物标志物筛选方法和装置。通过利用机器学习的药物敏感性预测模块实现预测患者的药物敏感性，并结合可解释机器学习模型预测的SHAP方法选择最优的多组学生物标志物组合，以减少预测患者药物敏感性所需的生物标志物数量并达到高效、高准确率的预测。

图1是实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法的流程图。如图1所示，实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法，包括以下步骤：

步骤1，获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据。

对于每个患者，均可以获得药物敏感性数据以及与影响药物敏感性预测的临床数据和多组学数据，多组学数据包括转录组学数据、DNA甲基化组数据等，转录组学数据是基因的mRNA表达量，DNA甲基化组数据是DNA甲基化水平，临床数据是指有无吸烟史、有无糖尿病史、有无慢性胰腺炎史等一系列临床指标信息，药物敏感性数据是指患者对某种要测试的药物是否敏感。

实施例中，获取数据可以来自于多组学数据集，例如：癌症基因组图谱(TheCancer Genome Atlas，TCGA)数据库收录了各种人类癌症的临床数据、基因组变异、mRNA表达、miRNA表达、甲基化等数据，是癌症研究者很重要的数据来源。

需要对获取数据进行数据处理，以用于药物敏感性预测模型。具体地，从TCGA数据库中提取患者的转录组学数据(即mRNA表达数据)、DNA甲基化数据，将肿瘤患者的微环境内间质细胞与经过药物处理后正常化的间质细胞测序进行差异分析获得差异mRNA，将该差异mRNA与提取的转录组学数据取交集获取交集结果作为后续输入转录组生物标志物筛选模块的初始数据。再从TCGA数据库中获取患者的药物敏感性数据，并与每名患者的多组学数据和临床数据进行匹配。其中，以每名患者的多组学数据和临床数据作为训练样本，即以转录组学数据、DNA甲基化组数据和临床数据作为样本数据，以患者的药物敏感性数据作为真值标签。

在一个可能的实施方式中，为了提升样本质量进而提升模型的预测效果，在获取患者的转录组学数据、DNA甲基化组数据和临床数据之后，还对数据进行异常值和缺失值剔除处理，包括如果某样本或某特征缺失值的比例小于50％则保留该样本或该特征，否则删除该样本或该特征。对于一些是类别变量的临床指标，比如有无糖尿病史、有无慢性胰腺炎史等，使用one-hot编码将其转换为k维向量(k为该指标的类别数)进行处理，处理后的数据用于构建样本。

步骤2，利用筛选模型对临床数据、转录组学数据、DNA甲基化组数据进行数据筛选。

筛选模型用于数据筛选，如图2所示，包括转录组生物标志物筛选模块、DNA甲基化组生物标志物筛选模块、多组学联合筛选模块以及敏感性预测效果验证筛选模块。

实施例中，转录组生物标志物筛选模块用于转录组学数据进行筛选以得到一组候选转录组生物标志物。具体地，将转录组学数据进行上述处理得到的初始数据输入至转录组生物标志物筛选模块，在转录组生物标志物筛选模块中，基于第一药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到一组候选转录组生物标志物，其中，每个特征为1个转录组生物标志物。

SHAP分析是指将模型的敏感性预测值y′解释为每个输入特征的归因值(即SHAP值)之和，表示为：

其中，p为输入特征的总量，φ_j是每个特征的归因值(即SHAP值)，φ₀是解释模型的常数，其等于所有样本的敏感性预测均值。

为了方便按照特征分解模型解释，使用对数优势比(log odds ratio)转换，令归因值总和等于模型敏感性预测值的对数优势比，即：

基于以上SHAP分析理论，基于敏感性预测结果采用SHAP分析确定每个特征的重要度，包括：

计算每个特征的归因值φ_j，表示为：

通过每个特征的归因值的绝对值来衡量每个特征对药物敏感性预测的影响大小。归因值的绝对值越大的特征对药物敏感性预测的影响越大，所以越重要。因为需要所有样本下的全局重要度排序，将所有样本的归因值φ_j的绝对值的平均值记为特征的重要性I_j，表示为：

针对转录组学数据，以每个转录组生物标志物作为一个特征，采用上述公式(3)和(4)计算每个特征的重要性，然后基于重要性进行筛选，具体过程为：依据重要度筛选重要度降序排序靠前的最多25个转录组生物标志物作为一组候选转录组生物标志物，该组候选转录组生物标志物被认为是影响预测药物敏感性最重要的一组数据。

实施例中，DNA甲基化组生物标志物筛选模块用于对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物。具体地，在DNA甲基化组生物标志物筛选模块中，将DNA甲基化组生物标志物输入至第二药物敏感性预测模型，基于第二药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到一组候选DNA甲基化组生物标志物，其中，每个特征为1个DNA甲基化组生物标志物。

针对DNA甲基化组数据，以每个DNA甲基化组生物标志物作为一个特征，采用上述公式(3)和(4)计算每个特征的重要性，然后基于重要性进行筛选，具体过程为：依据重要度筛选重要度降序排序靠前的最多25个DNA甲基化组生物标志物作为一组候选DNA甲基化组生物标志物，该组候选DNA甲基化组生物标志物被认为是影响预测药物敏感性最重要的一组数据。

在获得候选转录组生物标志物和候选DNA甲基化组生物标志物后，由于药物敏感性也与临床数据相关，为了提升筛选的准确性，引入多组学联合筛选模块进行联合筛选。

实施例中，多组学联合筛选模块用于对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组。具体地，在多组学联合筛选模块中，将候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据的组合结果输入至第三药物敏感性预测模型，基于第三药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到混合候选组，其中，每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。

在联合筛选过程中，以转录组生物标志物、DNA甲基化组生物标志物或临床指标作为每个特征，采用上述公式(3)和(4)计算每个特征的重要性，然后基于重要性进行筛选，具体过程为：依据重要度筛选重要度降序排序靠前的最多25个特征作为混合候选组，该混合候选组包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中至少一种，被认为是影响预测药物敏感性最重要的一组数据。

需要说明的是，对于是类别变量的临床指标，输入为one-hot编码的k维向量，针对每个维度采用公式(3)计算归因值，并将k个维度的归因值的绝对值相加作为单个临床指标的归因值的绝对值。

经过联合筛选得到的混合候选组包含的特征数量还是较多，因此，引入敏感性预测效果验证筛选模块进行基于药物敏感数据的验证筛选以获得最终筛选结果。

实施例中，敏感性预测效果验证筛选模块用于对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果。具体地，对混合候选组中特征进行抽取组成验证特征组，将验证特征组输入至第四敏感性预测模型计算敏感性预测结果，并基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC，并基于准确性和AUC筛选预测效果最高的验证特征组作为最终筛选结果，其中，每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。

为了降低计算量，且保证筛选准确性，对混合候选组中特征进行抽取组成验证特征组，包括：共提取M个验证特征组，第m个验证特征组包括重要度前m大的m个特征，其中，m取值为1-M，M为混合候选组中特征总量。这样能够保证每个验证特征组包含的所有特征都是重要度高的特征。

实施例中，基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC，具体包括：针对每个验证特征组，设定每个样本包括单个验证特征组数据，然后基于所有样本采用十折交叉验证方式对第四敏感性预测模型进行训练和验证，最后选择在十折交叉验证测试下预测效果最好的验证特征组作为基于药物敏感性数据筛选出来的最终结果。

实施例中，上述第一、二、三以及四个敏感性预测模型可以采用相同的结构，也可以采用不同的结构，优选可以采用XGBoost模型。XGBoost基于集成学习中的boosting算法的思想，由多颗决策树组成，每颗决策树通过由信息增益决定的节点分裂来生长。将单颗决策树设置为比较简单的模型，以避免过拟合。不断添加新的决策树，下一棵树对前一颗树的预测值和真实值的差值进行学习，从而降低模型的偏差。训练完成后得到k棵树(k为可以调整的超参数)。对于有缺失值的特征，采取的策略是先使用没有缺失值的正常样本进行节点分裂，然后将有缺失值的样本全部划入左子树或右子树，选择增益更大的情况作为划分方式。

在预测时，将要预测的新样本依次进入XGBoost的每棵决策树，将每一颗决策树中的预测值相加，即为最后的预测值。通过将预测值与阈值(一般为0.5，可以根据数据调整)比较来得到患者对药物是否敏感的预测结果。

上述第一、二、三以及四个敏感性预测模型在应用之前需要经过参数优化，包括利用训练样本对敏感性预测模型进行参数优化。具体地，以患者的多组学数据和临床数据作为样本数据，以患者的药物敏感性数据作为真实标签，对患者的敏感性预测模型进行参数优化。

基于同样的发明构思，实施例还提供了一种基于药物敏感性数据的多组学生物标志物筛选装置300，如图3所示，包括获取单元310和筛选单元320。

其中，获取单元310用于获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据；

筛选单元320用于利用筛选模型对临床数据、转录组学数据、DNA甲基化组数据进行数据筛选，包括：基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物，基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物，基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果；其中，所述混合候选组和最终筛选结果均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。

需要说明的是，上述实施例提供的基于药物敏感性数据的多组学生物标志物筛选装置在进行多组学生物标志物筛选时，应以上述各功能单元的划分进行举例说明，可以根据需要将上述功能分配由不同的功能单元完成，即在终端或服务器的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于药物敏感性数据的多组学生物标志物筛选装置与基于药物敏感性数据的多组学生物标志物筛选方法实施例属于同一构思，其具体实现过程详见基于药物敏感性数据的多组学生物标志物筛选方法实施例，这里不再赘述。

基于同样的发明构思，实施例还提供了一种基于药物敏感性数据的多组学生物标志物筛选装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现权利要求上述实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法，包括以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于药物敏感性数据的多组学生物标志物筛选方法，其特征在于，包括以下步骤：

所述混合候选组和最终筛选结果中特征均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种；

其中，所述基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物，包括：

在转录组生物标志物筛选模块中，基于第一药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到一组候选转录组生物标志物，其中，每个特征为1个转录组生物标志物；

所述基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物，包括：

在DNA甲基化组生物标志物筛选模块中，将DNA甲基化组生物标志物输入至第二药物敏感性预测模型，基于第二药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到一组候选DNA甲基化组生物标志物，其中，每个特征为1个DNA甲基化组生物标志物；

所述基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组，包括：

在多组学联合筛选模块中，将候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据的组合结果输入至第三药物敏感性预测模型，基于第三药物敏感性预测模型计算敏感性预测结果，并基于敏感性预测结果采用SHAP分析确定每个特征的重要度，依据重要度筛选得到混合候选组，其中，每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标；

所述基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果，包括：

2.根据权利要求1所述的基于药物敏感性数据的多组学生物标志物筛选方法，其特征在于，所述基于敏感性预测结果采用SHAP分析确定每个特征的重要度，包括：

计算每个特征的归因值φ_j，表示为：

其中，j为特征索引，{x₁,…,x_p}为特征集合，p为特征总量，{x₁,…,x_p}\{x_j}为不包括特征{x_j}的所有特征可能的集合，f_x(S)为特征子集S的敏感性预测结果，f_x(S∪{x_j})为特征子集S∪{x_j}的敏感性预测结果；

基于归因值φ_j计算特征的重要性I_j，表示为：

3.根据权利要求2所述的基于药物敏感性数据的多组学生物标志物筛选方法，其特征在于，所述依据重要度筛选得到一组候选转录组生物标志物，包括：依据重要度筛选重要度降序排序靠前的最多25个转录组生物标志物作为一组候选转录组生物标志物；

4.根据权利要求1所述的基于药物敏感性数据的多组学生物标志物筛选方法，其特征在于，所述对混合候选组中特征进行抽取组成验证特征组，包括：

5.一种基于药物敏感性数据的多组学生物标志物筛选装置，包括：

其中，所述混合候选组和最终筛选结果均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种；

其中，所述混合候选组和最终筛选结果中特征均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种；

6.一种基于药物敏感性数据的多组学生物标志物筛选装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-4任一项所述的基于药物敏感性数据的多组学生物标志物筛选方法。