CN111223577A - 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 - Google Patents

一种基于深度学习的协同抗肿瘤多药组合效果预测方法 Download PDF

Info

Publication number
CN111223577A
CN111223577A CN202010053045.0A CN202010053045A CN111223577A CN 111223577 A CN111223577 A CN 111223577A CN 202010053045 A CN202010053045 A CN 202010053045A CN 111223577 A CN111223577 A CN 111223577A
Authority
CN
China
Prior art keywords
model
data
tumor
sample
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010053045.0A
Other languages
English (en)
Inventor
冯春来
陈恒巍
季薇
芮蒙杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010053045.0A priority Critical patent/CN111223577A/zh
Publication of CN111223577A publication Critical patent/CN111223577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于深度学习算法和药物基因组学的协同抗肿瘤多药组合效果的预测方法,包括以下步骤:(1)大规模药物基因组学数据挖掘与预处理;(2)不同特征信息的有效整合及建模样本的构建;(3)基于大规模样本数据及深度学习算法构建协同抗肿瘤多药组合预测模型;(4)模型的参数优化与性能提升。本方法将人工智能深度学习算法与药物基因组学有效结合,克服了传统协同药物组合预测方法仅能用于两两药物之间协同作用预测的局限性,实现了能够通过基因水平针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合,从而为解决肿瘤耐药性问题提供理论基础与技术支撑,进一步为临床肿瘤治疗提供更多有效的治疗方案。

Description

一种基于深度学习的协同抗肿瘤多药组合效果预测方法
技术领域
本发明涉及计算机辅助药物筛选领域,具体地说是涉及一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法,适用于根据肿瘤细胞基因表达数据、药物靶点信息对不同的肿瘤细胞筛选出特定的具有协同抗肿瘤作用的药物组合。
背景技术
癌症是严重威胁人类生命健康的重大疾病,其死亡率仅次于心血管疾病而位居第二。肿瘤主要的治疗方法有手术治疗、放射治疗和药物治疗,目前药物治疗仍是肿瘤治疗的重要手段。由于肿瘤致病因素多样,其发展过程复杂,受到众多因素的调控,单一药物的治疗易使人体对特定药物产生耐药表型,最终导致药物治疗失败。因此,从机制的互补、作用的协同增效、不良反应的减轻等方面考虑,肿瘤的治疗已从最初的单一用药向联合用药方向转变。目前,临床上仅经美国FDA认证的癌症化疗药物已超过200种,这些药物之间的随机配对组合高达19,900种,依靠传统实验方法进行协同抗肿瘤药物组合的筛选无论在时间、效率及成本方面都具有很大的挑战性。
随着信息技术的发展,国内外学者开始尝试建立基于化合物结构信息的机器学习计算模型,通过计算化合物结构之间的相似性来进行协同抗肿瘤药物组合的预测,但其往往面临以下问题:1)该方法仅适用于两两药物之间的协同作用预测,对三个甚至多个药物之间的协同作用无法预测;2)缺乏足够的建模数据,对新的协同药物组合的预测准确性较差;3)无法针对给定的肿瘤细胞筛选出特定的协同药物组合;4)传统的机器学习方法无法从大数据中自动学习特征信息,需要大量的人工特征挑选。因此,针对以上方法的局限性,本发明提供了一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法,能够针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合。
发明内容
本发明克服现有技术存在的不足,公开了一种基于深度学习算法(Deep LearningAlgorithm,DL)和药物基因组学的协同抗肿瘤多药组合效果预测方法,本方法将药物基因组学与人工智能深度学习算法充分结合,克服了传统筛选协同抗肿瘤药物组合的局限性,构建了一种高效、快速、准确的能够基于基因水平对不同肿瘤细胞筛选协同抗肿瘤多药组合的深度神经网络计算模型。
本发明的目的可以通过以下技术路线(图1)来实现:
1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:
步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;
步骤二:将收集得到的不同肿瘤细胞特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;
步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;
步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。
2.所述步骤一包括如下步骤:
1.1从ArrayExpress数据库中收集不同肿瘤细胞的特征基因表达数据;
1.2从包括Genomics of Drug Sensitibity in Cancer(GDSC)、PubChem、DrugBank、Naturally occuring Plant based Anticancerous Compound-Activity-Target DataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息;
1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。
3.所述步骤二包括如下步骤:
2.1基于R语言及Bioconductor R包,对收集得到的不同肿瘤细胞的基因表达数据进行预处理。其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;进行缺失值及无效值填充,以及数据标准化;
2.2按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
2.3对处理后的基因表达数据进行特征基因挑选,通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因;
2.4将收集得到的化合物及其靶点信息进行去重、匹配,构建化合物-靶点信息样本特征;
2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据,按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合,进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理,构建最终建模样本数据;
2.6将药物敏感性数据进行对数转化,作为回归预测模型的样本标签;
2.7对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的标签;
4.所述步骤三包括如下步骤:
3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型,其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer);
3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个基因、靶点特征作为输入层的一个节点;
3.3分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;
3.4回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱;
3.5模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.6分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b′)
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;
3.7回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=linear(W'y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b′为转置偏差;
3.8模型的训练过程中,采用Keras中的model.compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop),损失函数(loss function)设为binary_crossentropy;回归模型优化器(optimizer)设为Adaptive moment estimation(Adam),损失函数(loss function)设为MSE(mean square error),其中损失函数的计算公式为:
Figure BDA0002371876830000041
其中,x为样本对应的真实值,z为样本对应的预测值,d为epoch数,k为第k个epoch,LH(x,z)为预测值与真实值的差异大小;
3.9将步骤二处理后最终得到的建模样本作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能;
5.所述步骤四包括如下步骤:
4.1设置参数寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128,256],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],hidden units_1st为[50,100,200,500,1000],hidden units_2st为[50,100,200,500,1000];
4.2通过网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优;
4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中对于分类模型性能评价指标包括:敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve,AUC);其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差。
Figure BDA0002371876830000051
Figure BDA0002371876830000052
Figure BDA0002371876830000053
Figure BDA0002371876830000054
其中,TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性;
其中对于回归模型性能评价指标包括:均方误差(the mean square error,MSE);平方根均方误差(the root mean square error,RMSE);R2系数(R-Square,R2_score);其中,均方误差和平方根均方误差越接近于0,R2系数越接近于1,表明该模型预测性能越好;相反,均方误差和平方根均方误差越大,R2系数越接近于0,表明该模型预测性能越差;
Figure BDA0002371876830000055
Figure BDA0002371876830000056
Figure BDA0002371876830000057
其中,m代表样本数,i代表第i个样本,ytrue代表样本真实标签,ytrue代表样本预测标签,
Figure BDA0002371876830000058
代表样本真实标签的平均值。
与现有技术相比,采用本发明的优点如下:
1.本方法突破了现有方法的局限性(仅能用于两两药物之间的协同作用预测),能够用于三种及多种药物之间的协同抗肿瘤作用预测;
2.本方法能够针对不同肿瘤细胞给出特定的协同多药组合;
3.本方法采用的深度学习算法具有较强的自动学习特征能力,能够从大数据中自动学习重要特征信息,避免了大量人为特征挑选;
4.本方法构建的协同抗肿瘤多药组合预测模型具有较优的预测性能,其预测准确性相比于传统的预测方法有了大幅度提升。
附图说明:
图1是本发明基于深度学习的协同抗肿瘤多药组合效果预测方法的总流程图;
图2是本发明方法协同抗肿瘤多药组合预测模型的结构示意图;
图3是本发明方法协同抗肿瘤多药组合回归模型的预测性能示意图;
图4是本发明方法协同抗肿瘤多药组合分类模型的预测性能示意图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明的技术方案再作进一步的说明。
一种基于深度学习的协同抗肿瘤多药组合效果预测方法的具体技术方案是:
1.通过从ArrayExpress数据库中收集来自Affymetrix Human Genome U219芯片测定的265种化合物作用后的1000种肿瘤细胞的基因表达数据。其中,1000种肿瘤细胞来自29种不同组织的11289种肿瘤。基于R语言及Bioconductor R包对1000种肿瘤细胞的原始基因表达数据进行一系列统计学数据清洗,构建最终基因表达谱用于建模。首先,通过Impute包对基因表达的缺失值及无效值进行填充,再通过Limma包对基因表达数据进行标准化,随后进一步将探针ID与gene symbol进行匹配。为了避免基因特征过多造成的维度灾难,该方法对处理后的基因表达数据进行特征基因挑选,其通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞的特征基因,最终共选取215种特征基因作为肿瘤细胞的基因特征,其相应的基因表达数据用来构建样本数据。
2.通过从Genomics of Drug Sensitibity in Cancer(GDSC)和Naturallyoccuring Plant based Anticancerous Compound-Activity-Target DataBase(NPACT)数据库中收集已报道的抗肿瘤化合物,其中从GDSC数据库收集得到265种抗肿瘤化合物,从NPACT数据库收集得到1574种具有抗肿瘤活性的天然产物。进一步通过PubChem和DrugBank数据库收集整理1839种化合物的抗肿瘤作用靶点信息,最终经去重整理得到1093个化合物靶点信息作为样本特征。进一步通过GDSC和NPACT数据库收集1839种化合物对不同肿瘤细胞的药物敏感性数据(IC50)。最终,将已收集整理得到的1000种肿瘤细胞特征基因表达数据、化合物及其抗肿瘤作用靶点信息以及药物敏感性数据进行有效整合,共构建了201405个大规模样本数据(肿瘤细胞基因特征-化合物靶点信息-药物敏感性数据),其中将药物敏感性数据进行对数转化作为回归预测模型的样本标签;对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的样本标签。
3.本方案以Anaconda5.1的Python 3.6为平台,借助基于Python和Theano的深度学习框架Keras搭建深度学习预测模型。该模型选取序贯(Sequential)模型接口分别搭建分类、回归预测模型,其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropoutlayer)(图2)。模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个特征向量都作为输入层的一个节点。分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱。模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b′)
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=linear(W'y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
模型的训练过程中,采用compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop),损失函数(loss function)设为binary_crossentropy;回归模型优化器(optimizer)设为Adaptivemoment estimation(Adam),损失函数(loss function)设为MSE(mean square error),其中损失函数的计算公式为:
Figure BDA0002371876830000081
其中,x为样本对应的真实值,z为样本对应的预测值,k为第k个epoch,d为epoch数,LH(x,z)为预测值与真实值的差异大小;
将最终处理、整合得到的建模样本作为模型的输入,其中80%(161124个)作为训练集用来训练模型,20%(40281个)作为测试集用来测试模型性能;
4.通过使用建模数据中的测试集样本对训练好的模型的预测性能进行评估,其中对于分类模型,采用敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve,AUC)评价指标对模型性能进行评价。
Figure BDA0002371876830000082
Figure BDA0002371876830000083
Figure BDA0002371876830000084
Figure BDA0002371876830000085
其中,TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性;
对于回归模型,采用均方误差(the mean square error,MSE);平方根均方误差(the root mean square error,RMSE);R2系数(R-Square,R2_score)评价指标对模型性能进行评价。
Figure BDA0002371876830000086
Figure BDA0002371876830000087
Figure BDA0002371876830000088
其中,m代表样本数,i代表第i个样本,ytrue代表样本真实标签,ytrue代表样本预测标签,
Figure BDA0002371876830000091
代表样本真实标签的平均值;
进一步,对模型关键参数设置寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128,256],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],hidden units_1st为[50,100,200,500,1000],hiddenunits_2st为[50,100,200,500,1000]。通过10折交叉验证模式及网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优。
最终,通过参数寻优,最优回归模型的具体参数设定为隐藏层为2层,其中第一层为200个节点,第二层为100个节点,dropout rate设定为0.5来避免模型的过拟合,learning rate为10-5,batch size为128,epoch number为300,通过测试集对最优模型的性能考察,其均方误差为3.80,平方根均方误差为1.95,R2系数为0.86;最优分类模型的具体参数设定为隐藏层为2层,其中第一层为200个节点,第二层为100个节点,dropout rate设定为0.5来避免模型的过拟合,learning rate为10-3,batchsize为32,epoch number为500,通过测试集对最优模型的性能考察,其预测准确率为94.1%,AUC为0.972,敏感性为95.4%,特异性为93.8%,马修斯相关系数为0.88相比于国内外大多数基于化合物结构信息的机器学习协同药物组合预测模型,该模型具有较优的预测性能(图3、图4)。
上述实例仅仅是本发明的一个具体实施方式,对其的简单变换、替换等也均在发明的保护范围内。

Claims (5)

1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:
步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;
步骤二:将收集得到的不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;
步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;
步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。
2.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤一包括如下步骤:
1.1从ArrayExpress数据库中收集肿瘤细胞的特征基因表达数据;
1.2从包括Genomics of Drug Sensitibity in Cancer(GDSC)、PubChem、DrugBank、Naturally occuring Plant based Anticancerous Compound-Activity-TargetDataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息;
1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。
3.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤二包括如下步骤:
2.1基于R语言及Bioconductor R包,对收集得到的不同肿瘤细胞的基因表达数据进行预处理;其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;进行缺失值及无效值填充,以及数据标准化;
2.2按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
2.3对处理后的基因表达数据进行特征基因挑选,通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因;
2.4将收集得到的化合物及其靶点信息进行去重、匹配,构建化合物-靶点信息样本特征;
2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合,进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理,构建最终建模样本数据;
2.6将药物敏感性数据进行对数转化,作为回归预测模型的样本标签;
2.7对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的标签。
4.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤三包括如下步骤:
3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型,其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer);
3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个基因、靶点特征都作为输入层的一个节点;
3.3分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;
3.4回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱;
3.5模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b);
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.6分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W'y+b');
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;
3.7回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=linear(W'y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;
3.8模型的训练过程中,采用Keras中的model.compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop),损失函数(loss function)设为binary_crossentropy;回归模型优化器(optimizer)设为Adaptive moment estimation(Adam),损失函数(loss function)设为MSE(mean square error),其中损失函数的计算公式为:
Figure FDA0002371876820000031
其中,x为样本对应的真实值,z为样本对应的预测值,d为epoch数,k为第k个epoch,LH(x,z)为预测值与真实值的差异大小;
3.9将步骤二处理后最终得到的建模样本作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能。
5.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤四包括如下步骤:
4.1设置参数寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128,256],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],hidden units_1st为[50,100,200,500,1000],hidden units_2st为[50,100,200,500,1000];
4.2通过网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优;
4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中对于分类模型性能评价指标包括:敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve,AUC);其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差;
Figure FDA0002371876820000041
Figure FDA0002371876820000042
Figure FDA0002371876820000043
Figure FDA0002371876820000044
其中,TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性;
其中对于回归模型性能评价指标包括:均方误差(the mean square error,MSE);平方根均方误差(the root mean square error,RMSE);R2系数(R-Square,R2_score);其中,均方误差和平方根均方误差越接近于0,R2系数越接近于1,表明该模型预测性能越好;相反,均方误差和平方根均方误差越大,R2系数越接近于0,表明该模型预测性能越差;
Figure FDA0002371876820000045
Figure FDA0002371876820000046
Figure FDA0002371876820000047
其中,m代表样本数,i代表第i个样本,ytrue代表样本真实标签,ytrue代表样本预测标签,
Figure FDA0002371876820000048
代表样本真实标签的平均值。
CN202010053045.0A 2020-01-17 2020-01-17 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 Pending CN111223577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010053045.0A CN111223577A (zh) 2020-01-17 2020-01-17 一种基于深度学习的协同抗肿瘤多药组合效果预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010053045.0A CN111223577A (zh) 2020-01-17 2020-01-17 一种基于深度学习的协同抗肿瘤多药组合效果预测方法

Publications (1)

Publication Number Publication Date
CN111223577A true CN111223577A (zh) 2020-06-02

Family

ID=70832385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010053045.0A Pending CN111223577A (zh) 2020-01-17 2020-01-17 一种基于深度学习的协同抗肿瘤多药组合效果预测方法

Country Status (1)

Country Link
CN (1) CN111223577A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111834017A (zh) * 2020-07-09 2020-10-27 上海市精神卫生中心(上海市心理咨询培训中心) 一种精神药物治疗效果预测方法,系统和装置
CN111899894A (zh) * 2020-08-03 2020-11-06 东南大学 一种抑郁症患者预后药效评估系统及其评估方法
CN112435754A (zh) * 2020-09-30 2021-03-02 天津大学 基于深度因子分解机的预测药物敏感度方法
CN112635080A (zh) * 2021-01-15 2021-04-09 复星领智(上海)医药科技有限公司 基于深度学习的药物预测方法和设备
CN112820417A (zh) * 2021-01-26 2021-05-18 四川大学 一种基于转录组学的前列腺癌药物组合预测的方法
CN112951327A (zh) * 2021-02-09 2021-06-11 清华大学深圳国际研究生院 药物敏感预测方法、电子设备及计算机可读存储介质
CN113299346A (zh) * 2021-04-01 2021-08-24 腾讯科技(深圳)有限公司 分类模型训练和分类方法、装置、计算机设备和存储介质
CN113345548A (zh) * 2021-05-17 2021-09-03 东南大学 一种基于弥散张量成像的抑郁症用药决策模型的构建方法
CN113380341A (zh) * 2021-06-10 2021-09-10 北京百奥智汇科技有限公司 一种药物靶标毒性预测模型的构建方法及其应用
CN113555070A (zh) * 2021-05-31 2021-10-26 宋洋 机器学习算法构建急性髓系白血病药敏相关基因分类器
CN113782130A (zh) * 2021-08-24 2021-12-10 杭州翔毅科技有限公司 一种基因组学数据管理与诊疗系统及方法
CN114373550A (zh) * 2022-03-21 2022-04-19 普瑞基准科技(北京)有限公司 基于分子结构及基因表达的药物ic50深度学习模型预测方法
CN114388062A (zh) * 2021-12-17 2022-04-22 予果生物科技(北京)有限公司 基于机器学习预测抗生素抗性表型的方法、设备及应用
CN111882066B (zh) * 2020-07-23 2023-11-14 浙江大学 基于深度表征学习的反事实推理设备
CN117079716A (zh) * 2023-09-13 2023-11-17 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005693A (zh) * 2015-07-08 2015-10-28 中国科学院合肥物质科学研究院 一种基于遗传物质特异性的肿瘤细胞药物敏感性评估方法
CN110517790A (zh) * 2019-06-24 2019-11-29 江苏大学 基于深度学习和基因表达数据的化合物肝毒性早期预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005693A (zh) * 2015-07-08 2015-10-28 中国科学院合肥物质科学研究院 一种基于遗传物质特异性的肿瘤细胞药物敏感性评估方法
CN110517790A (zh) * 2019-06-24 2019-11-29 江苏大学 基于深度学习和基因表达数据的化合物肝毒性早期预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUNLAI FENG等: "Gene Expression Data Based Deep Learning Model for Accurate Prediction of Drug-Induced Liver Injury in Advance" *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111834017A (zh) * 2020-07-09 2020-10-27 上海市精神卫生中心(上海市心理咨询培训中心) 一种精神药物治疗效果预测方法,系统和装置
CN111882066B (zh) * 2020-07-23 2023-11-14 浙江大学 基于深度表征学习的反事实推理设备
CN111899894A (zh) * 2020-08-03 2020-11-06 东南大学 一种抑郁症患者预后药效评估系统及其评估方法
CN111899894B (zh) * 2020-08-03 2021-06-25 东南大学 一种抑郁症患者预后药效评估系统及其评估方法
CN112435754B (zh) * 2020-09-30 2022-04-08 天津大学 基于深度因子分解机的预测药物敏感度方法
CN112435754A (zh) * 2020-09-30 2021-03-02 天津大学 基于深度因子分解机的预测药物敏感度方法
CN112635080A (zh) * 2021-01-15 2021-04-09 复星领智(上海)医药科技有限公司 基于深度学习的药物预测方法和设备
CN112820417B (zh) * 2021-01-26 2022-12-23 四川大学 一种基于转录组学的前列腺癌药物组合预测的方法
CN112820417A (zh) * 2021-01-26 2021-05-18 四川大学 一种基于转录组学的前列腺癌药物组合预测的方法
WO2022170909A1 (zh) * 2021-02-09 2022-08-18 清华大学深圳国际研究生院 药物敏感预测方法、电子设备及计算机可读存储介质
CN112951327B (zh) * 2021-02-09 2023-10-27 清华大学深圳国际研究生院 药物敏感预测方法、电子设备及计算机可读存储介质
CN112951327A (zh) * 2021-02-09 2021-06-11 清华大学深圳国际研究生院 药物敏感预测方法、电子设备及计算机可读存储介质
CN113299346A (zh) * 2021-04-01 2021-08-24 腾讯科技(深圳)有限公司 分类模型训练和分类方法、装置、计算机设备和存储介质
CN113299346B (zh) * 2021-04-01 2022-03-29 腾讯科技(深圳)有限公司 分类模型训练和分类方法、装置、计算机设备和存储介质
CN113345548B (zh) * 2021-05-17 2024-03-12 东南大学 一种基于弥散张量成像的抑郁症用药决策模型的构建方法
CN113345548A (zh) * 2021-05-17 2021-09-03 东南大学 一种基于弥散张量成像的抑郁症用药决策模型的构建方法
CN113555070B (zh) * 2021-05-31 2022-09-23 宋洋 机器学习算法构建急性髓系白血病药敏相关基因分类器
CN113555070A (zh) * 2021-05-31 2021-10-26 宋洋 机器学习算法构建急性髓系白血病药敏相关基因分类器
CN113380341A (zh) * 2021-06-10 2021-09-10 北京百奥智汇科技有限公司 一种药物靶标毒性预测模型的构建方法及其应用
CN113380341B (zh) * 2021-06-10 2024-05-17 北京百奥智汇科技有限公司 一种药物靶标毒性预测模型的构建方法及其应用
CN113782130A (zh) * 2021-08-24 2021-12-10 杭州翔毅科技有限公司 一种基因组学数据管理与诊疗系统及方法
CN114388062A (zh) * 2021-12-17 2022-04-22 予果生物科技(北京)有限公司 基于机器学习预测抗生素抗性表型的方法、设备及应用
CN114373550A (zh) * 2022-03-21 2022-04-19 普瑞基准科技(北京)有限公司 基于分子结构及基因表达的药物ic50深度学习模型预测方法
CN117079716A (zh) * 2023-09-13 2023-11-17 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法
CN117079716B (zh) * 2023-09-13 2024-04-05 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法

Similar Documents

Publication Publication Date Title
CN111223577A (zh) 一种基于深度学习的协同抗肿瘤多药组合效果预测方法
Kaur et al. A systematic review on metaheuristic optimization techniques for feature selections in disease diagnosis: open issues and challenges
CN110517790B (zh) 基于深度学习和基因表达数据的化合物肝毒性早期预测方法
CN109979541B (zh) 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
Abdollahi et al. Accurate detection of breast cancer metastasis using a hybrid model of artificial intelligence algorithm
CN107403072A (zh) 一种基于机器学习的2型糖尿病预测预警方法
CN111951975B (zh) 一种基于深度学习模型gpt-2的脓毒症早期预警方法
CN113517066B (zh) 基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统
Pawar et al. Breast cancer detection using neural network models
Aslan et al. Multi-classification deep CNN model for diagnosing COVID-19 using iterative neighborhood component analysis and iterative ReliefF feature selection techniques with X-ray images
CN106529165A (zh) 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法
CN113362888A (zh) 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN103678954B (zh) 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
Wei et al. Predicting drug risk level from adverse drug reactions using SMOTE and machine learning approaches
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
CN115985503B (zh) 基于集成学习的癌症预测系统
Dev et al. A classification technique for microarray gene expression data using PSO-FLANN
Jumanto et al. Optimization of breast cancer classification using feature selection on neural network
Sun et al. Five-year prognosis model of esophageal cancer based on genetic algorithm improved deep neural network
Heckerling et al. Prediction of community-acquired pneumonia using artificial neural networks
CN109875522B (zh) 一种预测前列腺穿刺与根治术后病理评分一致性的方法
Riyaz et al. Ensemble learning for coronary heart disease prediction
Swain et al. A Comparative Analysis of Machine Learning Models for Colon Cancer Classification
Jiang et al. Covid-19 diagnosis by Gray-level cooccurrence matrix and genetic algorithm
Usha et al. Predicting Heart Disease Using Feature Selection Techniques Based On Data Driven Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602