CN116597902A - 基于药物敏感性数据的多组学生物标志物筛选方法和装置 - Google Patents

基于药物敏感性数据的多组学生物标志物筛选方法和装置 Download PDF

Info

Publication number
CN116597902A
CN116597902A CN202310447492.8A CN202310447492A CN116597902A CN 116597902 A CN116597902 A CN 116597902A CN 202310447492 A CN202310447492 A CN 202310447492A CN 116597902 A CN116597902 A CN 116597902A
Authority
CN
China
Prior art keywords
screening
candidate
data
biomarker
transcriptome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310447492.8A
Other languages
English (en)
Other versions
CN116597902B (zh
Inventor
吴健
刘伟泽
徐红霞
郑波
胡朝文
范逸群
吴育连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310447492.8A priority Critical patent/CN116597902B/zh
Publication of CN116597902A publication Critical patent/CN116597902A/zh
Application granted granted Critical
Publication of CN116597902B publication Critical patent/CN116597902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Epidemiology (AREA)
  • Library & Information Science (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Software Systems (AREA)
  • Toxicology (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于药物敏感性数据的多组学生物标志物筛选方法和装置,通过转录组生物标志物筛选模块和DNA甲基化组生物标志物筛选模块来筛选出对于影响患者药物敏感性预测的最重要的一组候选转录组生物标志物和候选DNA甲基化组生物标志物,然后通过多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,最后基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果,这样在综合考虑患者的多组学数据和临床数据的基础上能够通过机器学习的可解释性来减少预测患者药物敏感性所需的生物标志物数量并提高了预测的性能和效率。

Description

基于药物敏感性数据的多组学生物标志物筛选方法和装置
技术领域
本发明属于多组学生物标志物技术领域,具体涉及一种基于药物敏感性数据的多组学生物标志物筛选方法和装置。
背景技术
癌症的治疗是全世界都在努力解决的一个重大难题,高通量测序技术和人工智能技术的发展为癌症的精准治疗提供了无限可能。但是抗癌药物的对患者个体的治疗效果在使用前是未知的,如果药物选择失败会耽误治疗时机,给患者带来严重的身心伤害。所以如何利用较少的多组学生物标志物结合人工智能技术高效地实现预测癌症患者对药物的敏感性,从而为每个患者制定个性化的治疗方案,实现精准医疗是一个非常重要的问题,对减少患者的痛苦和经济负担,提高治疗的效果具有重要的意义。因此,这也成为了全世界研究人员都非常关注的一个问题。
近年来,已经有一些研究在利用机器学习预测药物敏感性方面做出了不少努力和贡献,但却鲜有研究利用机器学习的可解释性来寻找用于预测药物敏感性的多组学生物标志物。
随着计算机软硬件和人工智能技术的不断发展,产生了一系列性能优秀的机器学习模型,例如,支持向量机、随机森林、神经网络等。人工智能和其他学科的交叉也越来越广泛,其中医学人工智能作为交叉学科的代表更是得到快速发展。
随着人们对多组学研究的深入,研究人员提出了一些公开数据集并被广泛地应用于医学人工智能的研究,例如癌症药物敏感性基因组学数据集(Genomics of DrugSensitivity in Cancer,GDSC),癌症基因组图谱(The Cancer Genome Atlas,TCGA)等数据集,这为开展基于药物敏感性数据的多组学生物标志物筛选方法和装置的研究提供了便利。
然而,现有的方法通常只是利用多组学数据来预测患者的药物敏感性,并没有充分挖掘不同生物标志物在预测中的重要度差异来减少需要的生物标志物数量,以便于提高预测的性能和效率。因此,目前尚未有比较好的模型能够通过机器学习的可解释性来减少预测患者药物敏感性所需的生物标志物数量并达到高效、高准确率的预测。
发明内容
鉴于上述,本发明目的是提供一种基于药物敏感性数据的多组学生物标志物筛选方法和装置,利用机器学习的可解释性来筛选对于药物敏感性预测最重要的多组学生物标志物,以尽可能少的生物标志物实现高效率和高准确度预测患者的药物敏感性。
为实现上述发明目的,本发明提供的一种基于药物敏感性数据的多组学生物标志物筛选方法,包括以下步骤:
获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据;
利用筛选模型进行数据筛选,包括:基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果;
所述混合候选组和最终筛选结果中特征均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。
在一个实施例中,所述基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,包括:
将微环境内间质细胞与经过药物处理后正常化的间质细胞测序进行差异分析获得差异mRNA,将差异mRNA与转录组学数据进行求交集后结果输入至转录组生物标志物筛选模块包括的第一药物敏感性预测模型中;
在转录组生物标志物筛选模块中,基于第一药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到一组候选转录组生物标志物,其中,每个特征为1个转录组生物标志物。
在一个实施例中,所述基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,包括:
在DNA甲基化组生物标志物筛选模块中,将DNA甲基化组生物标志物输入至第二药物敏感性预测模型,基于第二药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到一组候选DNA甲基化组生物标志物,其中,每个特征为1个DNA甲基化组生物标志物。
在一个实施例中,所述基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,包括:
在多组学联合筛选模块中,将候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据的组合结果输入至第三药物敏感性预测模型,基于第三药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到混合候选组,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
在一个实施例中,所述基于敏感性预测结果采用SHAP分析确定每个特征的重要度,包括:
计算每个特征的归因值φj,表示为:
其中,j为特征索引,{x1,…,xp}为特征集合,p为特征总量,{x1,…,xp}\{xj}为不包括特征{xj}的所有特征可能的集合,fx(S)为特征子集S的敏感性预测结果,fx(S∪{xj})为特征子集S∪{xj}的敏感性预测结果;
基于归因值φj计算特征的重要性Ij,表示为:
其中,i表示样本索引,n表示样本总量,表示第i个样本的第j个特征的归因值。
在一个实施例中,所述依据重要度筛选得到一组候选转录组生物标志物,包括:依据重要度筛选重要度降序排序靠前的最多25个转录组生物标志物作为一组候选转录组生物标志物;
所述依据重要度筛选得到一组候选DNA甲基化组生物标志物,包括:依据重要度筛选重要度降序排序靠前的最多25个DNA甲基化组生物标志物作为一组候选DNA甲基化组生物标志物;
所述依据重要度筛选得到混合候选组,包括:依据重要度筛选重要度降序排序靠前的最多25个特征组成混合候选组,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
在一个实施例中,所述基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果,包括:
对混合候选组中特征进行抽取组成验证特征组,将验证特征组输入至第四敏感性预测模型计算敏感性预测结果,并基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC,并基于准确性和AUC筛选预测效果最高的验证特征组作为最终筛选结果,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
在一个实施例中,所述对混合候选组中特征进行抽取组成验证特征组,包括:
共提取M个验证特征组,第m个验证特征组包括重要度前m大的m个特征,其中,m取值为1-M,M为混合候选组中特征总量。
为实现上述发明目的,实施例提供了一种基于药物敏感性数据的多组学生物标志物筛选装置,包括:
获取单元,用于获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据;
筛选单元,用于利用筛选模型进行数据筛选,包括:基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果;
其中,所述混合候选组和最终筛选结果均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。
为实现上述发明目的,实施例提供的一种基于药物敏感性数据的多组学生物标志物筛选装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现上述基于药物敏感性数据的多组学生物标志物筛选方法。
与现有技术相比,本发明具有的有益效果至少包括:
通过转录组生物标志物筛选模块和DNA甲基化组生物标志物筛选模块来筛选出对于影响患者药物敏感性预测的最重要的一组候选转录组生物标志物和候选DNA甲基化组生物标志物,然后通过多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,最后基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果,这样在综合考虑患者的多组学数据和临床数据的基础上能够通过机器学习的可解释性来减少预测患者药物敏感性所需的生物标志物数量并提高了预测的性能和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法的流程图;
图2是实施例提供的筛选模型的结构示意图;
图3是实施例提供的基于药物敏感性数据的多组学生物标志物筛选装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了解决如何利用较少的多组学生物标志物结合人工智能技术高效地实现预测癌症患者对药物的敏感性,从而为每个患者制定个性化的治疗方案,实现精准医疗的问题,实施例提供了一种基于药物敏感性数据的多组学生物标志物筛选方法和装置。通过利用机器学习的药物敏感性预测模块实现预测患者的药物敏感性,并结合可解释机器学习模型预测的SHAP方法选择最优的多组学生物标志物组合,以减少预测患者药物敏感性所需的生物标志物数量并达到高效、高准确率的预测。
图1是实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法的流程图。如图1所示,实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法,包括以下步骤:
步骤1,获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据。
对于每个患者,均可以获得药物敏感性数据以及与影响药物敏感性预测的临床数据和多组学数据,多组学数据包括转录组学数据、DNA甲基化组数据等,转录组学数据是基因的mRNA表达量,DNA甲基化组数据是DNA甲基化水平,临床数据是指有无吸烟史、有无糖尿病史、有无慢性胰腺炎史等一系列临床指标信息,药物敏感性数据是指患者对某种要测试的药物是否敏感。
实施例中,获取数据可以来自于多组学数据集,例如:癌症基因组图谱(TheCancer Genome Atlas,TCGA)数据库收录了各种人类癌症的临床数据、基因组变异、mRNA表达、miRNA表达、甲基化等数据,是癌症研究者很重要的数据来源。
需要对获取数据进行数据处理,以用于药物敏感性预测模型。具体地,从TCGA数据库中提取患者的转录组学数据(即mRNA表达数据)、DNA甲基化数据,将肿瘤患者的微环境内间质细胞与经过药物处理后正常化的间质细胞测序进行差异分析获得差异mRNA,将该差异mRNA与提取的转录组学数据取交集获取交集结果作为后续输入转录组生物标志物筛选模块的初始数据。再从TCGA数据库中获取患者的药物敏感性数据,并与每名患者的多组学数据和临床数据进行匹配。其中,以每名患者的多组学数据和临床数据作为训练样本,即以转录组学数据、DNA甲基化组数据和临床数据作为样本数据,以患者的药物敏感性数据作为真值标签。
在一个可能的实施方式中,为了提升样本质量进而提升模型的预测效果,在获取患者的转录组学数据、DNA甲基化组数据和临床数据之后,还对数据进行异常值和缺失值剔除处理,包括如果某样本或某特征缺失值的比例小于50%则保留该样本或该特征,否则删除该样本或该特征。对于一些是类别变量的临床指标,比如有无糖尿病史、有无慢性胰腺炎史等,使用one-hot编码将其转换为k维向量(k为该指标的类别数)进行处理,处理后的数据用于构建样本。
步骤2,利用筛选模型对临床数据、转录组学数据、DNA甲基化组数据进行数据筛选。
筛选模型用于数据筛选,如图2所示,包括转录组生物标志物筛选模块、DNA甲基化组生物标志物筛选模块、多组学联合筛选模块以及敏感性预测效果验证筛选模块。
实施例中,转录组生物标志物筛选模块用于转录组学数据进行筛选以得到一组候选转录组生物标志物。具体地,将转录组学数据进行上述处理得到的初始数据输入至转录组生物标志物筛选模块,在转录组生物标志物筛选模块中,基于第一药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到一组候选转录组生物标志物,其中,每个特征为1个转录组生物标志物。
SHAP分析是指将模型的敏感性预测值y′解释为每个输入特征的归因值(即SHAP值)之和,表示为:
其中,p为输入特征的总量,φj是每个特征的归因值(即SHAP值),φ0是解释模型的常数,其等于所有样本的敏感性预测均值。
为了方便按照特征分解模型解释,使用对数优势比(log odds ratio)转换,令归因值总和等于模型敏感性预测值的对数优势比,即:
基于以上SHAP分析理论,基于敏感性预测结果采用SHAP分析确定每个特征的重要度,包括:
计算每个特征的归因值φj,表示为:
其中,j为特征索引,{x1,…,xp}为特征集合,p为特征总量,{x1,…,xp}\{xj}为不包括特征{xj}的所有特征可能的集合,fx(S)为特征子集S的敏感性预测结果,fx(S∪{xj})为特征子集S∪{xj}的敏感性预测结果;
通过每个特征的归因值的绝对值来衡量每个特征对药物敏感性预测的影响大小。归因值的绝对值越大的特征对药物敏感性预测的影响越大,所以越重要。因为需要所有样本下的全局重要度排序,将所有样本的归因值φj的绝对值的平均值记为特征的重要性Ij,表示为:
其中,i表示样本索引,n表示样本总量,表示第i个样本的第j个特征的归因值。
针对转录组学数据,以每个转录组生物标志物作为一个特征,采用上述公式(3)和(4)计算每个特征的重要性,然后基于重要性进行筛选,具体过程为:依据重要度筛选重要度降序排序靠前的最多25个转录组生物标志物作为一组候选转录组生物标志物,该组候选转录组生物标志物被认为是影响预测药物敏感性最重要的一组数据。
实施例中,DNA甲基化组生物标志物筛选模块用于对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物。具体地,在DNA甲基化组生物标志物筛选模块中,将DNA甲基化组生物标志物输入至第二药物敏感性预测模型,基于第二药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到一组候选DNA甲基化组生物标志物,其中,每个特征为1个DNA甲基化组生物标志物。
针对DNA甲基化组数据,以每个DNA甲基化组生物标志物作为一个特征,采用上述公式(3)和(4)计算每个特征的重要性,然后基于重要性进行筛选,具体过程为:依据重要度筛选重要度降序排序靠前的最多25个DNA甲基化组生物标志物作为一组候选DNA甲基化组生物标志物,该组候选DNA甲基化组生物标志物被认为是影响预测药物敏感性最重要的一组数据。
在获得候选转录组生物标志物和候选DNA甲基化组生物标志物后,由于药物敏感性也与临床数据相关,为了提升筛选的准确性,引入多组学联合筛选模块进行联合筛选。
实施例中,多组学联合筛选模块用于对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组。具体地,在多组学联合筛选模块中,将候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据的组合结果输入至第三药物敏感性预测模型,基于第三药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到混合候选组,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
在联合筛选过程中,以转录组生物标志物、DNA甲基化组生物标志物或临床指标作为每个特征,采用上述公式(3)和(4)计算每个特征的重要性,然后基于重要性进行筛选,具体过程为:依据重要度筛选重要度降序排序靠前的最多25个特征作为混合候选组,该混合候选组包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中至少一种,被认为是影响预测药物敏感性最重要的一组数据。
需要说明的是,对于是类别变量的临床指标,输入为one-hot编码的k维向量,针对每个维度采用公式(3)计算归因值,并将k个维度的归因值的绝对值相加作为单个临床指标的归因值的绝对值。
经过联合筛选得到的混合候选组包含的特征数量还是较多,因此,引入敏感性预测效果验证筛选模块进行基于药物敏感数据的验证筛选以获得最终筛选结果。
实施例中,敏感性预测效果验证筛选模块用于对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果。具体地,对混合候选组中特征进行抽取组成验证特征组,将验证特征组输入至第四敏感性预测模型计算敏感性预测结果,并基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC,并基于准确性和AUC筛选预测效果最高的验证特征组作为最终筛选结果,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
为了降低计算量,且保证筛选准确性,对混合候选组中特征进行抽取组成验证特征组,包括:共提取M个验证特征组,第m个验证特征组包括重要度前m大的m个特征,其中,m取值为1-M,M为混合候选组中特征总量。这样能够保证每个验证特征组包含的所有特征都是重要度高的特征。
实施例中,基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC,具体包括:针对每个验证特征组,设定每个样本包括单个验证特征组数据,然后基于所有样本采用十折交叉验证方式对第四敏感性预测模型进行训练和验证,最后选择在十折交叉验证测试下预测效果最好的验证特征组作为基于药物敏感性数据筛选出来的最终结果。
实施例中,上述第一、二、三以及四个敏感性预测模型可以采用相同的结构,也可以采用不同的结构,优选可以采用XGBoost模型。XGBoost基于集成学习中的boosting算法的思想,由多颗决策树组成,每颗决策树通过由信息增益决定的节点分裂来生长。将单颗决策树设置为比较简单的模型,以避免过拟合。不断添加新的决策树,下一棵树对前一颗树的预测值和真实值的差值进行学习,从而降低模型的偏差。训练完成后得到k棵树(k为可以调整的超参数)。对于有缺失值的特征,采取的策略是先使用没有缺失值的正常样本进行节点分裂,然后将有缺失值的样本全部划入左子树或右子树,选择增益更大的情况作为划分方式。
在预测时,将要预测的新样本依次进入XGBoost的每棵决策树,将每一颗决策树中的预测值相加,即为最后的预测值。通过将预测值与阈值(一般为0.5,可以根据数据调整)比较来得到患者对药物是否敏感的预测结果。
上述第一、二、三以及四个敏感性预测模型在应用之前需要经过参数优化,包括利用训练样本对敏感性预测模型进行参数优化。具体地,以患者的多组学数据和临床数据作为样本数据,以患者的药物敏感性数据作为真实标签,对患者的敏感性预测模型进行参数优化。
基于同样的发明构思,实施例还提供了一种基于药物敏感性数据的多组学生物标志物筛选装置300,如图3所示,包括获取单元310和筛选单元320。
其中,获取单元310用于获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据;
筛选单元320用于利用筛选模型对临床数据、转录组学数据、DNA甲基化组数据进行数据筛选,包括:基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果;其中,所述混合候选组和最终筛选结果均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。
需要说明的是,上述实施例提供的基于药物敏感性数据的多组学生物标志物筛选装置在进行多组学生物标志物筛选时,应以上述各功能单元的划分进行举例说明,可以根据需要将上述功能分配由不同的功能单元完成,即在终端或服务器的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于药物敏感性数据的多组学生物标志物筛选装置与基于药物敏感性数据的多组学生物标志物筛选方法实施例属于同一构思,其具体实现过程详见基于药物敏感性数据的多组学生物标志物筛选方法实施例,这里不再赘述。
基于同样的发明构思,实施例还提供了一种基于药物敏感性数据的多组学生物标志物筛选装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现权利要求上述实施例提供的基于药物敏感性数据的多组学生物标志物筛选方法,包括以下步骤:
步骤1,获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据。
步骤2,利用筛选模型对临床数据、转录组学数据、DNA甲基化组数据进行数据筛选。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,包括以下步骤:
获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据;
利用筛选模型进行数据筛选,包括:基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果;
所述混合候选组和最终筛选结果中特征均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。
2.根据权利要求1所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,包括:
将微环境内间质细胞与经过药物处理后正常化的间质细胞测序进行差异分析获得差异mRNA,将差异mRNA与转录组学数据进行求交集后结果输入至转录组生物标志物筛选模块包括的第一药物敏感性预测模型中;
在转录组生物标志物筛选模块中,基于第一药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到一组候选转录组生物标志物,其中,每个特征为1个转录组生物标志物。
3.根据权利要求1所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,包括:
在DNA甲基化组生物标志物筛选模块中,将DNA甲基化组生物标志物输入至第二药物敏感性预测模型,基于第二药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到一组候选DNA甲基化组生物标志物,其中,每个特征为1个DNA甲基化组生物标志物。
4.根据权利要求1所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,包括:
在多组学联合筛选模块中,将候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据的组合结果输入至第三药物敏感性预测模型,基于第三药物敏感性预测模型计算敏感性预测结果,并基于敏感性预测结果采用SHAP分析确定每个特征的重要度,依据重要度筛选得到混合候选组,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
5.根据权利要求2-4任一项所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述基于敏感性预测结果采用SHAP分析确定每个特征的重要度,包括:
计算每个特征的归因值φj,表示为:
其中,j为特征索引,{x1,…,xp}为特征集合,p为特征总量,{x1,…,xp}\{xj}为不包括特征{xj}的所有特征可能的集合,fx(S)为特征子集S的敏感性预测结果,fx(S∪{xj})为特征子集S∪{xj}的敏感性预测结果;
基于归因值φj计算特征的重要性Ij,表示为:
其中,i表示样本索引,n表示样本总量,表示第i个样本的第j个特征的归因值。
6.根据权利要求5所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述依据重要度筛选得到一组候选转录组生物标志物,包括:依据重要度筛选重要度降序排序靠前的最多25个转录组生物标志物作为一组候选转录组生物标志物;
所述依据重要度筛选得到一组候选DNA甲基化组生物标志物,包括:依据重要度筛选重要度降序排序靠前的最多25个DNA甲基化组生物标志物作为一组候选DNA甲基化组生物标志物;
所述依据重要度筛选得到混合候选组,包括:依据重要度筛选重要度降序排序靠前的最多25个特征组成混合候选组,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
7.根据权利要求1所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果,包括:
对混合候选组中特征进行抽取组成验证特征组,将验证特征组输入至第四敏感性预测模型计算敏感性预测结果,并基于药物敏感性数据采用十折交叉验证测试敏感性预测结果的准确率和AUC,并基于准确性和AUC筛选预测效果最高的验证特征组作为最终筛选结果,其中,每个特征为转录组生物标志物、DNA甲基化组生物标志物或临床指标。
8.根据权利要求7所述的基于药物敏感性数据的多组学生物标志物筛选方法,其特征在于,所述对混合候选组中特征进行抽取组成验证特征组,包括:
共提取M个验证特征组,第m个验证特征组包括重要度前m大的m个特征,其中,m取值为1-M,M为混合候选组中特征总量。
9.一种基于药物敏感性数据的多组学生物标志物筛选装置,包括:
获取单元,用于获取药物敏感性数据以及影响药物敏感性预测的临床数据、转录组学数据、DNA甲基化组数据;
筛选单元,用于利用筛选模型进行数据筛选,包括:基于转录组生物标志物筛选模块对转录组学数据进行筛选以得到一组候选转录组生物标志物,基于DNA甲基化组生物标志物筛选模块对DNA甲基化组数据进行筛选以得到一组候选DNA甲基化组生物标志物,基于多组学联合筛选模块对候选转录组生物标志物、候选DNA甲基化组生物标志物以及临床数据进行联合筛选以得到混合候选组,基于敏感性预测效果验证筛选模块对混合候选组中特征进行根据药物敏感性数据的验证筛选以确定最终筛选结果;
其中,所述混合候选组和最终筛选结果均包括转录组生物标志物、DNA甲基化组生物标志物以及临床指标中的至少一种。
10.一种基于药物敏感性数据的多组学生物标志物筛选装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-8任一项所述的基于药物敏感性数据的多组学生物标志物筛选方法。
CN202310447492.8A 2023-04-24 2023-04-24 基于药物敏感性数据的多组学生物标志物筛选方法和装置 Active CN116597902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310447492.8A CN116597902B (zh) 2023-04-24 2023-04-24 基于药物敏感性数据的多组学生物标志物筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310447492.8A CN116597902B (zh) 2023-04-24 2023-04-24 基于药物敏感性数据的多组学生物标志物筛选方法和装置

Publications (2)

Publication Number Publication Date
CN116597902A true CN116597902A (zh) 2023-08-15
CN116597902B CN116597902B (zh) 2023-12-01

Family

ID=87606999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310447492.8A Active CN116597902B (zh) 2023-04-24 2023-04-24 基于药物敏感性数据的多组学生物标志物筛选方法和装置

Country Status (1)

Country Link
CN (1) CN116597902B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104975063A (zh) * 2014-04-01 2015-10-14 埃提斯生物技术(上海)有限公司 抗肿瘤药物生物标志物的筛选方法及其应用
WO2016060278A1 (ja) * 2014-10-17 2016-04-21 国立大学法人東北大学 大腸癌に対する薬物療法の感受性を予測する方法
US20180357368A1 (en) * 2017-06-08 2018-12-13 Nantomics, Llc Integrative panomic approach to pharmacogenomics screening
CN109563549A (zh) * 2016-06-03 2019-04-02 新加坡保健服务集团有限公司 反义长非编码rna中的遗传变异作为对疾病治疗的敏感性的生物标志物
CN111640508A (zh) * 2020-05-28 2020-09-08 上海生物信息技术研究中心 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用
CN112466401A (zh) * 2019-09-09 2021-03-09 华为技术有限公司 利用人工智能ai模型组分析多类数据的方法及装置
US20210142904A1 (en) * 2019-05-14 2021-05-13 Tempus Labs, Inc. Systems and methods for multi-label cancer classification
CN112951327A (zh) * 2021-02-09 2021-06-11 清华大学深圳国际研究生院 药物敏感预测方法、电子设备及计算机可读存储介质
CN113782089A (zh) * 2021-11-15 2021-12-10 浙江大学 基于多组学数据融合的药物敏感性预测方法和装置
TW202208843A (zh) * 2020-08-28 2022-03-01 中國醫藥大學附設醫院 鑑定抗甲氧西林金黃色葡萄球菌的方法
CN114220549A (zh) * 2021-12-16 2022-03-22 无锡中盾科技有限公司 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法
CN114255886A (zh) * 2022-02-28 2022-03-29 浙江大学 基于多组学相似度引导的药物敏感性预测方法和装置
CN114649097A (zh) * 2022-03-04 2022-06-21 广州中医药大学(广州中医药研究院) 一种基于图神经网络及组学信息的药物功效预测方法
CN114664382A (zh) * 2022-04-28 2022-06-24 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN115620812A (zh) * 2022-12-21 2023-01-17 珠海圣美生物诊断技术有限公司 基于重采样的特征选择方法、装置、电子设备和存储介质
CN115851951A (zh) * 2022-12-12 2023-03-28 广州优泽生物技术有限公司 含多组学标志物组合物的早期肝癌检测模型构建及试剂盒
CN115985413A (zh) * 2022-12-14 2023-04-18 赛箔(上海)智能科技有限公司 一种用于药敏预测模型样本构建的方法、装置及设备

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104975063A (zh) * 2014-04-01 2015-10-14 埃提斯生物技术(上海)有限公司 抗肿瘤药物生物标志物的筛选方法及其应用
WO2016060278A1 (ja) * 2014-10-17 2016-04-21 国立大学法人東北大学 大腸癌に対する薬物療法の感受性を予測する方法
CN109563549A (zh) * 2016-06-03 2019-04-02 新加坡保健服务集团有限公司 反义长非编码rna中的遗传变异作为对疾病治疗的敏感性的生物标志物
US20180357368A1 (en) * 2017-06-08 2018-12-13 Nantomics, Llc Integrative panomic approach to pharmacogenomics screening
US20210142904A1 (en) * 2019-05-14 2021-05-13 Tempus Labs, Inc. Systems and methods for multi-label cancer classification
CN112466401A (zh) * 2019-09-09 2021-03-09 华为技术有限公司 利用人工智能ai模型组分析多类数据的方法及装置
CN111640508A (zh) * 2020-05-28 2020-09-08 上海生物信息技术研究中心 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用
TW202208843A (zh) * 2020-08-28 2022-03-01 中國醫藥大學附設醫院 鑑定抗甲氧西林金黃色葡萄球菌的方法
CN112951327A (zh) * 2021-02-09 2021-06-11 清华大学深圳国际研究生院 药物敏感预测方法、电子设备及计算机可读存储介质
CN113782089A (zh) * 2021-11-15 2021-12-10 浙江大学 基于多组学数据融合的药物敏感性预测方法和装置
CN114220549A (zh) * 2021-12-16 2022-03-22 无锡中盾科技有限公司 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法
CN114255886A (zh) * 2022-02-28 2022-03-29 浙江大学 基于多组学相似度引导的药物敏感性预测方法和装置
CN114649097A (zh) * 2022-03-04 2022-06-21 广州中医药大学(广州中医药研究院) 一种基于图神经网络及组学信息的药物功效预测方法
CN114664382A (zh) * 2022-04-28 2022-06-24 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN115851951A (zh) * 2022-12-12 2023-03-28 广州优泽生物技术有限公司 含多组学标志物组合物的早期肝癌检测模型构建及试剂盒
CN115985413A (zh) * 2022-12-14 2023-04-18 赛箔(上海)智能科技有限公司 一种用于药敏预测模型样本构建的方法、装置及设备
CN115620812A (zh) * 2022-12-21 2023-01-17 珠海圣美生物诊断技术有限公司 基于重采样的特征选择方法、装置、电子设备和存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ALEXANDRA BOMANE 等: "Paclitaxel Response Can Be Predicted With Interpretable Multi- Variate Classifiers Exploiting DNA- Methylation and miRNA Data", 《FRONTIERS IN GENETICS》, vol. 10, pages 1 - 12 *
QIN-YU ZHAO 等: "A Novel Intercellular Communication-Associated Gene Signature for Prognostic Prediction and Clinical Value in Patients With Lung Adenocarcinoma", 《FRONTIERS IN GENETICS》, vol. 12, pages 1 - 13 *
RUIWEI FENG 等: "AGMI: Attention-Guided Multi-omics Integration for Drug Response Prediction with Graph Neural Networks", 《ARXIV》, pages 1 - 4 *
SOFIA P. MIRANDA 等: "Predicting drug sensitivity of cancer cells based on DNA methylation levels", 《BIORXIV》, pages 1 - 53 *
李叙潼 等: "人工智能算法在药物细胞敏感性预测中的应用", 《科学通报》, vol. 65, no. 32, pages 3551 - 3561 *
杨晨雨 等: "基于多组学数据的肿瘤药物敏感性预测", 《生物工程学报》, vol. 38, no. 6, pages 2201 - 2212 *
罗妍 等: "基于XGBoost和SHAP的急性肾损伤可解释预测模型", 《电子与信息学报》, vol. 44, no. 1, pages 27 - 38 *

Also Published As

Publication number Publication date
CN116597902B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN113327644A (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN112951327B (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
US11574718B2 (en) Outcome driven persona-typing for precision oncology
CN114255886B (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
US20210090686A1 (en) Single cell rna-seq data processing
CN117912570B (zh) 一种基于基因共表达网络的分类特征确定方法及系统
Suo et al. Application of clustering analysis in brain gene data based on deep learning
Pillai et al. Prediction of heart disease using rnn algorithm
WO2024125564A1 (zh) 一种用于药敏预测模型样本构建的方法、装置及设备
Xiao et al. Modeling three-dimensional chromosome structures using gene expression data
Sun et al. Two stages biclustering with three populations
CN112687329B (zh) 一种基于非癌组织突变信息的癌症预测系统及其构建方法
Shommo et al. A holistic miRNA-mRNA module discovery
CN116597902B (zh) 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN111785319B (zh) 基于差异表达数据的药物重定位方法
Al-Ghafer et al. NMF-guided feature selection and genetic algorithm-driven framework for tumor mutational burden classification in bladder cancer using multi-omics data
CN114822691B (zh) 基于图卷积神经网络的临床事件预测装置
Mandal et al. An Approach towards Automated Disease Diagnosis & Drug Design Using Hybrid Rough-Decision Tree from Microarray Dataset
CN116631572B (zh) 基于人工智能的急性心肌梗死临床决策支持系统及设备
CN118296442B (zh) 多组学癌症亚型分类方法、系统、设备、介质及程序产品
Li et al. PAST: latent feature extraction with a prior-based self-attention framework for spatial transcriptomics
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
Doan Tree-Based Ensemble Classification Algorithms for Genomic Data
CN118606825A (zh) 一种基于多组学集成和深度图卷积网络的癌症亚型分类预测装置
Dlamini et al. Informatics in Medicine Unlocked

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant