CN111223577A - 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 - Google Patents
一种基于深度学习的协同抗肿瘤多药组合效果预测方法 Download PDFInfo
- Publication number
- CN111223577A CN111223577A CN202010053045.0A CN202010053045A CN111223577A CN 111223577 A CN111223577 A CN 111223577A CN 202010053045 A CN202010053045 A CN 202010053045A CN 111223577 A CN111223577 A CN 111223577A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- tumor
- sample
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000259 anti-tumor effect Effects 0.000 title claims abstract description 49
- 230000002195 synergetic effect Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000000890 drug combination Substances 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 230000000694 effects Effects 0.000 title claims abstract description 14
- 210000004881 tumor cell Anatomy 0.000 claims abstract description 37
- 239000003814 drug Substances 0.000 claims abstract description 34
- 229940079593 drug Drugs 0.000 claims abstract description 32
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 19
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 18
- 230000002974 pharmacogenomic effect Effects 0.000 claims abstract description 10
- 238000005065 mining Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract 2
- 239000000523 sample Substances 0.000 claims description 41
- 150000001875 compounds Chemical class 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 35
- 230000014509 gene expression Effects 0.000 claims description 30
- 230000035945 sensitivity Effects 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 12
- 230000017105 transposition Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000010845 search algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 108091008109 Pseudogenes Proteins 0.000 claims description 3
- 102000057361 Pseudogenes Human genes 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000001093 anti-cancer Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000019491 signal transduction Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 206010059866 Drug resistance Diseases 0.000 abstract 1
- 239000002246 antineoplastic agent Substances 0.000 description 2
- 229940041181 antineoplastic drug Drugs 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001647 drug administration Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medicinal Chemistry (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Toxicology (AREA)
- Pharmacology & Pharmacy (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于深度学习算法和药物基因组学的协同抗肿瘤多药组合效果的预测方法,包括以下步骤:(1)大规模药物基因组学数据挖掘与预处理;(2)不同特征信息的有效整合及建模样本的构建;(3)基于大规模样本数据及深度学习算法构建协同抗肿瘤多药组合预测模型;(4)模型的参数优化与性能提升。本方法将人工智能深度学习算法与药物基因组学有效结合,克服了传统协同药物组合预测方法仅能用于两两药物之间协同作用预测的局限性,实现了能够通过基因水平针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合,从而为解决肿瘤耐药性问题提供理论基础与技术支撑,进一步为临床肿瘤治疗提供更多有效的治疗方案。
Description
技术领域
本发明涉及计算机辅助药物筛选领域,具体地说是涉及一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法,适用于根据肿瘤细胞基因表达数据、药物靶点信息对不同的肿瘤细胞筛选出特定的具有协同抗肿瘤作用的药物组合。
背景技术
癌症是严重威胁人类生命健康的重大疾病,其死亡率仅次于心血管疾病而位居第二。肿瘤主要的治疗方法有手术治疗、放射治疗和药物治疗,目前药物治疗仍是肿瘤治疗的重要手段。由于肿瘤致病因素多样,其发展过程复杂,受到众多因素的调控,单一药物的治疗易使人体对特定药物产生耐药表型,最终导致药物治疗失败。因此,从机制的互补、作用的协同增效、不良反应的减轻等方面考虑,肿瘤的治疗已从最初的单一用药向联合用药方向转变。目前,临床上仅经美国FDA认证的癌症化疗药物已超过200种,这些药物之间的随机配对组合高达19,900种,依靠传统实验方法进行协同抗肿瘤药物组合的筛选无论在时间、效率及成本方面都具有很大的挑战性。
随着信息技术的发展,国内外学者开始尝试建立基于化合物结构信息的机器学习计算模型,通过计算化合物结构之间的相似性来进行协同抗肿瘤药物组合的预测,但其往往面临以下问题:1)该方法仅适用于两两药物之间的协同作用预测,对三个甚至多个药物之间的协同作用无法预测;2)缺乏足够的建模数据,对新的协同药物组合的预测准确性较差;3)无法针对给定的肿瘤细胞筛选出特定的协同药物组合;4)传统的机器学习方法无法从大数据中自动学习特征信息,需要大量的人工特征挑选。因此,针对以上方法的局限性,本发明提供了一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法,能够针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合。
发明内容
本发明克服现有技术存在的不足,公开了一种基于深度学习算法(Deep LearningAlgorithm,DL)和药物基因组学的协同抗肿瘤多药组合效果预测方法,本方法将药物基因组学与人工智能深度学习算法充分结合,克服了传统筛选协同抗肿瘤药物组合的局限性,构建了一种高效、快速、准确的能够基于基因水平对不同肿瘤细胞筛选协同抗肿瘤多药组合的深度神经网络计算模型。
本发明的目的可以通过以下技术路线(图1)来实现:
1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:
步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;
步骤二:将收集得到的不同肿瘤细胞特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;
步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;
步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。
2.所述步骤一包括如下步骤:
1.1从ArrayExpress数据库中收集不同肿瘤细胞的特征基因表达数据;
1.2从包括Genomics of Drug Sensitibity in Cancer(GDSC)、PubChem、DrugBank、Naturally occuring Plant based Anticancerous Compound-Activity-Target DataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息;
1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。
3.所述步骤二包括如下步骤:
2.1基于R语言及Bioconductor R包,对收集得到的不同肿瘤细胞的基因表达数据进行预处理。其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;进行缺失值及无效值填充,以及数据标准化;
2.2按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
2.3对处理后的基因表达数据进行特征基因挑选,通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因;
2.4将收集得到的化合物及其靶点信息进行去重、匹配,构建化合物-靶点信息样本特征;
2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据,按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合,进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理,构建最终建模样本数据;
2.6将药物敏感性数据进行对数转化,作为回归预测模型的样本标签;
2.7对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的标签;
4.所述步骤三包括如下步骤:
3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型,其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer);
3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个基因、靶点特征作为输入层的一个节点;
3.3分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;
3.4回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱;
3.5模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.6分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b′)
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;
3.7回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=linear(W'y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b′为转置偏差;
3.8模型的训练过程中,采用Keras中的model.compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop),损失函数(loss function)设为binary_crossentropy;回归模型优化器(optimizer)设为Adaptive moment estimation(Adam),损失函数(loss function)设为MSE(mean square error),其中损失函数的计算公式为:
其中,x为样本对应的真实值,z为样本对应的预测值,d为epoch数,k为第k个epoch,LH(x,z)为预测值与真实值的差异大小;
3.9将步骤二处理后最终得到的建模样本作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能;
5.所述步骤四包括如下步骤:
4.1设置参数寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128,256],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],hidden units_1st为[50,100,200,500,1000],hidden units_2st为[50,100,200,500,1000];
4.2通过网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优;
4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中对于分类模型性能评价指标包括:敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve,AUC);其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差。
其中,TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性;
其中对于回归模型性能评价指标包括:均方误差(the mean square error,MSE);平方根均方误差(the root mean square error,RMSE);R2系数(R-Square,R2_score);其中,均方误差和平方根均方误差越接近于0,R2系数越接近于1,表明该模型预测性能越好;相反,均方误差和平方根均方误差越大,R2系数越接近于0,表明该模型预测性能越差;
与现有技术相比,采用本发明的优点如下:
1.本方法突破了现有方法的局限性(仅能用于两两药物之间的协同作用预测),能够用于三种及多种药物之间的协同抗肿瘤作用预测;
2.本方法能够针对不同肿瘤细胞给出特定的协同多药组合;
3.本方法采用的深度学习算法具有较强的自动学习特征能力,能够从大数据中自动学习重要特征信息,避免了大量人为特征挑选;
4.本方法构建的协同抗肿瘤多药组合预测模型具有较优的预测性能,其预测准确性相比于传统的预测方法有了大幅度提升。
附图说明:
图1是本发明基于深度学习的协同抗肿瘤多药组合效果预测方法的总流程图;
图2是本发明方法协同抗肿瘤多药组合预测模型的结构示意图;
图3是本发明方法协同抗肿瘤多药组合回归模型的预测性能示意图;
图4是本发明方法协同抗肿瘤多药组合分类模型的预测性能示意图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明的技术方案再作进一步的说明。
一种基于深度学习的协同抗肿瘤多药组合效果预测方法的具体技术方案是:
1.通过从ArrayExpress数据库中收集来自Affymetrix Human Genome U219芯片测定的265种化合物作用后的1000种肿瘤细胞的基因表达数据。其中,1000种肿瘤细胞来自29种不同组织的11289种肿瘤。基于R语言及Bioconductor R包对1000种肿瘤细胞的原始基因表达数据进行一系列统计学数据清洗,构建最终基因表达谱用于建模。首先,通过Impute包对基因表达的缺失值及无效值进行填充,再通过Limma包对基因表达数据进行标准化,随后进一步将探针ID与gene symbol进行匹配。为了避免基因特征过多造成的维度灾难,该方法对处理后的基因表达数据进行特征基因挑选,其通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞的特征基因,最终共选取215种特征基因作为肿瘤细胞的基因特征,其相应的基因表达数据用来构建样本数据。
2.通过从Genomics of Drug Sensitibity in Cancer(GDSC)和Naturallyoccuring Plant based Anticancerous Compound-Activity-Target DataBase(NPACT)数据库中收集已报道的抗肿瘤化合物,其中从GDSC数据库收集得到265种抗肿瘤化合物,从NPACT数据库收集得到1574种具有抗肿瘤活性的天然产物。进一步通过PubChem和DrugBank数据库收集整理1839种化合物的抗肿瘤作用靶点信息,最终经去重整理得到1093个化合物靶点信息作为样本特征。进一步通过GDSC和NPACT数据库收集1839种化合物对不同肿瘤细胞的药物敏感性数据(IC50)。最终,将已收集整理得到的1000种肿瘤细胞特征基因表达数据、化合物及其抗肿瘤作用靶点信息以及药物敏感性数据进行有效整合,共构建了201405个大规模样本数据(肿瘤细胞基因特征-化合物靶点信息-药物敏感性数据),其中将药物敏感性数据进行对数转化作为回归预测模型的样本标签;对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的样本标签。
3.本方案以Anaconda5.1的Python 3.6为平台,借助基于Python和Theano的深度学习框架Keras搭建深度学习预测模型。该模型选取序贯(Sequential)模型接口分别搭建分类、回归预测模型,其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropoutlayer)(图2)。模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个特征向量都作为输入层的一个节点。分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱。模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b′)
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=linear(W'y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
模型的训练过程中,采用compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop),损失函数(loss function)设为binary_crossentropy;回归模型优化器(optimizer)设为Adaptivemoment estimation(Adam),损失函数(loss function)设为MSE(mean square error),其中损失函数的计算公式为:
其中,x为样本对应的真实值,z为样本对应的预测值,k为第k个epoch,d为epoch数,LH(x,z)为预测值与真实值的差异大小;
将最终处理、整合得到的建模样本作为模型的输入,其中80%(161124个)作为训练集用来训练模型,20%(40281个)作为测试集用来测试模型性能;
4.通过使用建模数据中的测试集样本对训练好的模型的预测性能进行评估,其中对于分类模型,采用敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve,AUC)评价指标对模型性能进行评价。
其中,TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性;
对于回归模型,采用均方误差(the mean square error,MSE);平方根均方误差(the root mean square error,RMSE);R2系数(R-Square,R2_score)评价指标对模型性能进行评价。
进一步,对模型关键参数设置寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128,256],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],hidden units_1st为[50,100,200,500,1000],hiddenunits_2st为[50,100,200,500,1000]。通过10折交叉验证模式及网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优。
最终,通过参数寻优,最优回归模型的具体参数设定为隐藏层为2层,其中第一层为200个节点,第二层为100个节点,dropout rate设定为0.5来避免模型的过拟合,learning rate为10-5,batch size为128,epoch number为300,通过测试集对最优模型的性能考察,其均方误差为3.80,平方根均方误差为1.95,R2系数为0.86;最优分类模型的具体参数设定为隐藏层为2层,其中第一层为200个节点,第二层为100个节点,dropout rate设定为0.5来避免模型的过拟合,learning rate为10-3,batchsize为32,epoch number为500,通过测试集对最优模型的性能考察,其预测准确率为94.1%,AUC为0.972,敏感性为95.4%,特异性为93.8%,马修斯相关系数为0.88相比于国内外大多数基于化合物结构信息的机器学习协同药物组合预测模型,该模型具有较优的预测性能(图3、图4)。
上述实例仅仅是本发明的一个具体实施方式,对其的简单变换、替换等也均在发明的保护范围内。
Claims (5)
1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,包括如下步骤:
步骤一:通过公共生物医学数据库挖掘大规模药物基因组学数据,其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据;
步骤二:将收集得到的不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化,将不同特征的大规模数据进行有效整合,构建建模样本;
步骤三:基于构建样本的大规模数据,利用深度学习算法分别构建分类、回归预测模型;
步骤四:基于网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。
2.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤一包括如下步骤:
1.1从ArrayExpress数据库中收集肿瘤细胞的特征基因表达数据;
1.2从包括Genomics of Drug Sensitibity in Cancer(GDSC)、PubChem、DrugBank、Naturally occuring Plant based Anticancerous Compound-Activity-TargetDataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息;
1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。
3.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤二包括如下步骤:
2.1基于R语言及Bioconductor R包,对收集得到的不同肿瘤细胞的基因表达数据进行预处理;其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;进行缺失值及无效值填充,以及数据标准化;
2.2按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
2.3对处理后的基因表达数据进行特征基因挑选,通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因;
2.4将收集得到的化合物及其靶点信息进行去重、匹配,构建化合物-靶点信息样本特征;
2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合,进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理,构建最终建模样本数据;
2.6将药物敏感性数据进行对数转化,作为回归预测模型的样本标签;
2.7对药物敏感性数据进行阈值划分,其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本,化合物对肿瘤细胞的IC50大于10μM作为阴性样本,将其作为分类预测模型的标签。
4.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤三包括如下步骤:
3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型,其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer);
3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个基因、靶点特征都作为输入层的一个节点;
3.3分类预测模型的输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;
3.4回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱;
3.5模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b);
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.6分类模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W'y+b');
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;
3.7回归模型的输出层中,其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=linear(W'y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W'为转置权重矩阵,b'为转置偏差;
3.8模型的训练过程中,采用Keras中的model.compile模块对模型的学习过程进行配置,其参数分别设置为:分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop),损失函数(loss function)设为binary_crossentropy;回归模型优化器(optimizer)设为Adaptive moment estimation(Adam),损失函数(loss function)设为MSE(mean square error),其中损失函数的计算公式为:
其中,x为样本对应的真实值,z为样本对应的预测值,d为epoch数,k为第k个epoch,LH(x,z)为预测值与真实值的差异大小;
3.9将步骤二处理后最终得到的建模样本作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能。
5.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法,其特征在于,所述步骤四包括如下步骤:
4.1设置参数寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128,256],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],hidden units_1st为[50,100,200,500,1000],hidden units_2st为[50,100,200,500,1000];
4.2通过网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优;
4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中对于分类模型性能评价指标包括:敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve,AUC);其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差;
其中,TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性;
其中对于回归模型性能评价指标包括:均方误差(the mean square error,MSE);平方根均方误差(the root mean square error,RMSE);R2系数(R-Square,R2_score);其中,均方误差和平方根均方误差越接近于0,R2系数越接近于1,表明该模型预测性能越好;相反,均方误差和平方根均方误差越大,R2系数越接近于0,表明该模型预测性能越差;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053045.0A CN111223577A (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053045.0A CN111223577A (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111223577A true CN111223577A (zh) | 2020-06-02 |
Family
ID=70832385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010053045.0A Pending CN111223577A (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111223577A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111834017A (zh) * | 2020-07-09 | 2020-10-27 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种精神药物治疗效果预测方法,系统和装置 |
CN111899894A (zh) * | 2020-08-03 | 2020-11-06 | 东南大学 | 一种抑郁症患者预后药效评估系统及其评估方法 |
CN112435754A (zh) * | 2020-09-30 | 2021-03-02 | 天津大学 | 基于深度因子分解机的预测药物敏感度方法 |
CN112635080A (zh) * | 2021-01-15 | 2021-04-09 | 复星领智(上海)医药科技有限公司 | 基于深度学习的药物预测方法和设备 |
CN112820417A (zh) * | 2021-01-26 | 2021-05-18 | 四川大学 | 一种基于转录组学的前列腺癌药物组合预测的方法 |
CN112951327A (zh) * | 2021-02-09 | 2021-06-11 | 清华大学深圳国际研究生院 | 药物敏感预测方法、电子设备及计算机可读存储介质 |
CN113299346A (zh) * | 2021-04-01 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN113345548A (zh) * | 2021-05-17 | 2021-09-03 | 东南大学 | 一种基于弥散张量成像的抑郁症用药决策模型的构建方法 |
CN113380341A (zh) * | 2021-06-10 | 2021-09-10 | 北京百奥智汇科技有限公司 | 一种药物靶标毒性预测模型的构建方法及其应用 |
CN113555070A (zh) * | 2021-05-31 | 2021-10-26 | 宋洋 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
CN113782130A (zh) * | 2021-08-24 | 2021-12-10 | 杭州翔毅科技有限公司 | 一种基因组学数据管理与诊疗系统及方法 |
CN114373550A (zh) * | 2022-03-21 | 2022-04-19 | 普瑞基准科技(北京)有限公司 | 基于分子结构及基因表达的药物ic50深度学习模型预测方法 |
CN114388062A (zh) * | 2021-12-17 | 2022-04-22 | 予果生物科技(北京)有限公司 | 基于机器学习预测抗生素抗性表型的方法、设备及应用 |
CN111882066B (zh) * | 2020-07-23 | 2023-11-14 | 浙江大学 | 基于深度表征学习的反事实推理设备 |
CN117079716A (zh) * | 2023-09-13 | 2023-11-17 | 江苏运动健康研究院 | 一种基于基因检测的肿瘤用药方案的深度学习预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005693A (zh) * | 2015-07-08 | 2015-10-28 | 中国科学院合肥物质科学研究院 | 一种基于遗传物质特异性的肿瘤细胞药物敏感性评估方法 |
CN110517790A (zh) * | 2019-06-24 | 2019-11-29 | 江苏大学 | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 |
-
2020
- 2020-01-17 CN CN202010053045.0A patent/CN111223577A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005693A (zh) * | 2015-07-08 | 2015-10-28 | 中国科学院合肥物质科学研究院 | 一种基于遗传物质特异性的肿瘤细胞药物敏感性评估方法 |
CN110517790A (zh) * | 2019-06-24 | 2019-11-29 | 江苏大学 | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 |
Non-Patent Citations (1)
Title |
---|
CHUNLAI FENG等: "Gene Expression Data Based Deep Learning Model for Accurate Prediction of Drug-Induced Liver Injury in Advance" * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111834017A (zh) * | 2020-07-09 | 2020-10-27 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种精神药物治疗效果预测方法,系统和装置 |
CN111882066B (zh) * | 2020-07-23 | 2023-11-14 | 浙江大学 | 基于深度表征学习的反事实推理设备 |
CN111899894A (zh) * | 2020-08-03 | 2020-11-06 | 东南大学 | 一种抑郁症患者预后药效评估系统及其评估方法 |
CN111899894B (zh) * | 2020-08-03 | 2021-06-25 | 东南大学 | 一种抑郁症患者预后药效评估系统及其评估方法 |
CN112435754B (zh) * | 2020-09-30 | 2022-04-08 | 天津大学 | 基于深度因子分解机的预测药物敏感度方法 |
CN112435754A (zh) * | 2020-09-30 | 2021-03-02 | 天津大学 | 基于深度因子分解机的预测药物敏感度方法 |
CN112635080A (zh) * | 2021-01-15 | 2021-04-09 | 复星领智(上海)医药科技有限公司 | 基于深度学习的药物预测方法和设备 |
CN112820417B (zh) * | 2021-01-26 | 2022-12-23 | 四川大学 | 一种基于转录组学的前列腺癌药物组合预测的方法 |
CN112820417A (zh) * | 2021-01-26 | 2021-05-18 | 四川大学 | 一种基于转录组学的前列腺癌药物组合预测的方法 |
WO2022170909A1 (zh) * | 2021-02-09 | 2022-08-18 | 清华大学深圳国际研究生院 | 药物敏感预测方法、电子设备及计算机可读存储介质 |
CN112951327B (zh) * | 2021-02-09 | 2023-10-27 | 清华大学深圳国际研究生院 | 药物敏感预测方法、电子设备及计算机可读存储介质 |
CN112951327A (zh) * | 2021-02-09 | 2021-06-11 | 清华大学深圳国际研究生院 | 药物敏感预测方法、电子设备及计算机可读存储介质 |
CN113299346A (zh) * | 2021-04-01 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN113299346B (zh) * | 2021-04-01 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN113345548B (zh) * | 2021-05-17 | 2024-03-12 | 东南大学 | 一种基于弥散张量成像的抑郁症用药决策模型的构建方法 |
CN113345548A (zh) * | 2021-05-17 | 2021-09-03 | 东南大学 | 一种基于弥散张量成像的抑郁症用药决策模型的构建方法 |
CN113555070B (zh) * | 2021-05-31 | 2022-09-23 | 宋洋 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
CN113555070A (zh) * | 2021-05-31 | 2021-10-26 | 宋洋 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
CN113380341A (zh) * | 2021-06-10 | 2021-09-10 | 北京百奥智汇科技有限公司 | 一种药物靶标毒性预测模型的构建方法及其应用 |
CN113380341B (zh) * | 2021-06-10 | 2024-05-17 | 北京百奥智汇科技有限公司 | 一种药物靶标毒性预测模型的构建方法及其应用 |
CN113782130A (zh) * | 2021-08-24 | 2021-12-10 | 杭州翔毅科技有限公司 | 一种基因组学数据管理与诊疗系统及方法 |
CN114388062A (zh) * | 2021-12-17 | 2022-04-22 | 予果生物科技(北京)有限公司 | 基于机器学习预测抗生素抗性表型的方法、设备及应用 |
CN114373550A (zh) * | 2022-03-21 | 2022-04-19 | 普瑞基准科技(北京)有限公司 | 基于分子结构及基因表达的药物ic50深度学习模型预测方法 |
CN117079716A (zh) * | 2023-09-13 | 2023-11-17 | 江苏运动健康研究院 | 一种基于基因检测的肿瘤用药方案的深度学习预测方法 |
CN117079716B (zh) * | 2023-09-13 | 2024-04-05 | 江苏运动健康研究院 | 一种基于基因检测的肿瘤用药方案的深度学习预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223577A (zh) | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 | |
Kaur et al. | A systematic review on metaheuristic optimization techniques for feature selections in disease diagnosis: open issues and challenges | |
CN110517790B (zh) | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 | |
CN109979541B (zh) | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 | |
Abdollahi et al. | Accurate detection of breast cancer metastasis using a hybrid model of artificial intelligence algorithm | |
CN107403072A (zh) | 一种基于机器学习的2型糖尿病预测预警方法 | |
CN111951975B (zh) | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 | |
CN113517066B (zh) | 基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统 | |
Pawar et al. | Breast cancer detection using neural network models | |
Aslan et al. | Multi-classification deep CNN model for diagnosing COVID-19 using iterative neighborhood component analysis and iterative ReliefF feature selection techniques with X-ray images | |
CN106529165A (zh) | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 | |
CN113362888A (zh) | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 | |
CN103678954B (zh) | 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法 | |
Wei et al. | Predicting drug risk level from adverse drug reactions using SMOTE and machine learning approaches | |
CN111105877A (zh) | 基于深度置信网络的慢性病精确干预方法及系统 | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
Dev et al. | A classification technique for microarray gene expression data using PSO-FLANN | |
Jumanto et al. | Optimization of breast cancer classification using feature selection on neural network | |
Sun et al. | Five-year prognosis model of esophageal cancer based on genetic algorithm improved deep neural network | |
Heckerling et al. | Prediction of community-acquired pneumonia using artificial neural networks | |
CN109875522B (zh) | 一种预测前列腺穿刺与根治术后病理评分一致性的方法 | |
Riyaz et al. | Ensemble learning for coronary heart disease prediction | |
Swain et al. | A Comparative Analysis of Machine Learning Models for Colon Cancer Classification | |
Jiang et al. | Covid-19 diagnosis by Gray-level cooccurrence matrix and genetic algorithm | |
Usha et al. | Predicting Heart Disease Using Feature Selection Techniques Based On Data Driven Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |