CN110517790A - 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 - Google Patents
基于深度学习和基因表达数据的化合物肝毒性早期预测方法 Download PDFInfo
- Publication number
- CN110517790A CN110517790A CN201910546943.7A CN201910546943A CN110517790A CN 110517790 A CN110517790 A CN 110517790A CN 201910546943 A CN201910546943 A CN 201910546943A CN 110517790 A CN110517790 A CN 110517790A
- Authority
- CN
- China
- Prior art keywords
- gene expression
- model
- expression data
- compound
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 231100000304 hepatotoxicity Toxicity 0.000 title claims abstract description 64
- 230000014509 gene expression Effects 0.000 title claims abstract description 60
- 206010019851 Hepatotoxicity Diseases 0.000 title claims abstract description 52
- 230000007686 hepatotoxicity Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 45
- 150000001875 compounds Chemical class 0.000 title claims abstract description 44
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 238000013019 agitation Methods 0.000 title claims 17
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 38
- 239000003814 drug Substances 0.000 claims abstract description 19
- 229940079593 drug Drugs 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000002068 genetic effect Effects 0.000 claims abstract description 3
- 239000000523 sample Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 16
- 230000003902 lesion Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000001988 toxicity Effects 0.000 claims description 10
- 231100000419 toxicity Toxicity 0.000 claims description 10
- 230000035945 sensitivity Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000010845 search algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010195 expression analysis Methods 0.000 claims description 4
- 101150038172 1.2 gene Proteins 0.000 claims description 2
- 201000010099 disease Diseases 0.000 claims 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims 4
- 230000002508 compound effect Effects 0.000 claims 2
- 230000017105 transposition Effects 0.000 claims 2
- 230000007056 liver toxicity Effects 0.000 abstract description 12
- 230000003111 delayed effect Effects 0.000 abstract description 7
- 239000002547 new drug Substances 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 abstract description 2
- 238000007877 drug screening Methods 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 230000002974 pharmacogenomic effect Effects 0.000 abstract description 2
- 231100001271 preclinical toxicology Toxicity 0.000 abstract description 2
- 231100000027 toxicology Toxicity 0.000 abstract 1
- 230000009471 action Effects 0.000 description 4
- 238000009509 drug development Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 229940043263 traditional drug Drugs 0.000 description 2
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 1
- 206010070863 Toxicity to various agents Diseases 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及计算机辅助药物筛选领域,具体地说是涉及一种基于深度学习和基因表达数据的化合物肝毒性的早期预测方法,其包括以下步骤:(1)化合物毒理学基因表达数据的挖掘与预处理;(2)肝毒性特征基因的挑选;(3)基于肝毒性特征基因的表达数据建立深度学习预测模型;(4)模型的参数优化与性能提升。本方法将药物基因组学与人工智能深度学习算法充分结合,克服了传统化合物肝毒性预测方法的局限性,实现了通过基因水平系统地对化合物迟发性肝毒性进行早期预测,从而为新药研发过程中的临床前毒性安全评估及临床合理用药提供一种高效、准确、快速的化合物肝毒性预测方法。
Description
技术领域
本发明涉及计算机辅助药物筛选领域,具体地说是涉及一种基于深度学习和基因表达数据的化合物肝毒性的早期预测方法,适用于根据基因表达数据对化合物肝毒性进行早期预测。
背景技术
药物肝毒性是导致新药研究失败和临床药物撤市的一个重要因素。据统计在新药研发过程中因候选药物肝毒性而导致失败的比例为37%,在临床应用中因药物肝毒性而导致药物撤市的比例为18%,因此,在药物研发早期以及临床使用中对药物肝毒性进行预测对于提高研发成功率和合理用药具有重要意义。由于药物肝毒性发生机制复杂,如何提高药物肝毒性预测的准确性以及适用性,特别是对迟发性药物肝毒性的预测依然面临重大挑战。
传统的药物肝毒性预测方法主要是基于体内外实验模型对药物的毒性安全进行评估,该方法需要大量的活体动物进行实验基础,具有实验周期长、耗费高等缺点。随着安全、环保、动物保护等方面的法规要求日益严格,全球化的市场竞争也要求药物开发周期大幅缩减,因此如何克服传统药物肝毒性预测方法所存在的缺点,开发高效的药物肝毒性评估方法具有重要意义。随着信息技术的发展,国内外研究开始尝试利用机器学习与化合物结构特征建立计算模型来进行药物肝毒性预测,但其往往面临以下问题:1)易受单一化合物结构的限制,对于结构多样性的化合物的肝毒性预测往往准确率较低;2)预测结果缺乏生物学意义,无法从生物作用机制系统地解释预测结果;3)无法对迟发性的药物肝毒性进行早期预测;4)传统的机器学习方法无法从大数据中自动学习特征信息,需要大量的人工特征挑选。因此,针对以上方法的局限性,本发明提供了一种基于深度学习和基因表达数据的化合物肝毒性预测方法,能够通过基因水平系统地对化合物迟发性肝毒性进行早期预测。
发明内容
本发明克服现有技术存在的不足,公开了一种基于深度学习算法(Deep LearningAlgorithm,DL)和基因表达数据的化合物肝毒性的早期预测方法,本方法将药物基因组学与人工智能深度学习算法充分结合,克服了传统化合物肝毒性预测方法的局限性,实现了通过基因水平系统地对化合物迟发性肝毒性进行早期预测,从而为新药研发过程中的毒性安全评估及临床合理用药提供一种高效、准确、快速的化合物肝毒性预测方法。
本发明的目的可以通过以下技术路线(图1)来实现:
1.一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,包括如下步骤:
步骤一:通过从公共生物医学数据库中对化合物作用后的基因表达数据进行挖掘,将得到的原始数据进行数据清洗与标准化,构建建模数据样本;
步骤二:通过基因差异表达分析与特征权重计算筛选肝毒性特征基因,作为最终模型样本特征;
步骤三:基于深度学习算法构建预测模型,将筛选得到的肝毒性特征基因的表达数据用于模型的训练与学习;
步骤四:通过网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。
2.所述步骤一包括如下步骤:
1.1通过从公共生物医学数据库中收集来自同一基因芯片测定的化合物作用后的基因表达数据;
1.2基因表达数据样本根据肝毒性病变级别按5分法分为Severe(严重,病变范围为[75%,100%]),Moderately Severe(中度严重,病变范围为[50%,75%)),Moderate(中度,病变范围为[25%,50%)),Slight(轻度,病变范围为[1%,25%)),Minimal(轻微,病变范围为[0%,1%));
1.3将出现任意一次毒性级别为Severe、Moderately Severe、Moderate和Slight毒性的化合物标记为阳性化合物,其所有时间点、所有剂量下的用药组样本均为肝毒性阳性样本;毒性病变级别Minimal的化合物的基因表达数据样本和所有对照组样本作为肝毒性阴性样本。
1.4基于R语言及Bioconductor R包,对收集的肝毒性阳性样本和阴性样本的基因表达数据进行预处理。其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;
1.5按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
1.6将所有建模样本数据按照80%:20%随机分为训练集和测试集,训练集用于模型的训练学习,测试集用于模型的性能评估。
步骤1.1中,所述公共生物医学数据库包括ArrayExpress、Gene Expression和Omnibus(GEO)。
所述步骤二包括如下步骤:
2.1基于贝叶斯算法的limma R包对预处理后的基因表达数据进行差异表达分析,选取其中差异表达倍数的绝对值大于或等于2并且adjust-P值小于或等于0.05的基因作为特征基因;
2.2进一步通过深度学习算法对特征基因的权重进行计算并保留特征权重值大于0.1的基因作为最终模型构建的特征基因,即肝毒性特征基因。
所述步骤三包括如下步骤:
3.1模型选取序贯(Sequential)模型接口,模型结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Denselayer)和Dropout层(Dropout layer);
3.2模型的输入为基因表达数据,其中每个特征基因都作为输入层的一个节点;
3.3模型的输出为二分类结果0和1,其中0代表肝毒性阴性,1代表肝毒性阳性;
3.4模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.5模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b′)
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
3.6模型的训练过程中,采用compile模块对模型的学习过程进行配置,其参数分别设置为:优化器(optimizer)设为Root Mean Square prop(RMSprop),指标列表(metrics)设为accuracy以及损失函数(loss function)设为binary_crossentropy,其中该损失函数的计算公式为:
其中,LH(x,z)为预测值与真实值的差异大小(即损失),x为样本对应的真实值,z为样本对应的预测值,d为epoch数。
3.7将步骤二处理后最终得到的肝毒性特征基因表达数据作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能;
所述步骤四包括如下步骤:
4.1设置参数寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],node number为[50,100,300,500,1000];
4.2通过网格搜索算法对构建的900(5×4×3×3×5)个模型进行寻优;
4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中性能评价指标包括:敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(thearea under the Receiver Operating Characteristic(ROC)curve,AUC)。其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差。
其中,TP代表真阳性;TN代表真阴性;FP代表假阳性;FN代表假阴性;
与现有技术相比,采用本发明的优点如下:
1.能够通过基因水平系统、准确地对迟发性药物肝毒性进行早期预测;
2.相比于传统基于化合物结构特征的预测方法,本预测方法可以准确预测不同结构化合物的肝毒性,具有较好的鲁棒性;
3.本方法采用的深度学习算法具有较强的自动学习特征能力,能够从大数据中自动学习重要特征信息,避免了大量人为特征挑选;
4.本方法构建的化合物肝毒性预测模型具有较优的预测性能,其预测准确性相比于传统的预测方法有了大幅度提升;
5.该方法的适用性较好,由于其具有早期预测的特点,能够为新药研发的临床前毒性安全评价和临床合理用药提供理论依据和技术支撑。
附图说明:
图1是本发明基于深度学习和基因表达数据的化合物肝毒性早期预测方法的总流程图;
图2是本发明方法化合物肝毒性预测模型的结构示意图;
图3是基于深度学习和基因表达数据的化合物肝毒性早期预测方法的预测结果图;
图4是基于深度学习和基因表达数据的化合物肝毒性早期预测方法的预测性能图;
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明的技术方案再作进一步的说明。
一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法的具体技术方案是:
1.通过从Array Express数据库中收集来自Affymetrix Gene Chip Rat Genome230 2.0芯片测定的87个化合物作用下的基因表达数据。所搜集的基因表达数据样本根据毒性病变级别按5分法分为(严重,病变范围为[75%,100%]),Moderately Severe(中度严重,病变范围为[50%,75%)),Moderate(中度,病变范围为[25%,50%)),Slight(轻度,病变范围为[1%,25%)),Minimal(轻微,病变范围为[0%,1%))。为使所构建的模型能早期预测迟发性毒性,并具有较高的适用性,本研究将出现任意一次毒性级别为Severe、Moderately Severe、Moderate和Slight毒性的化合物标记为阳性化合物,其所有时间点、所有剂量下的用药组样本均为阳性样本;毒性病变级别Minimal的化合物的基因表达数据样本和所有对照组样本作为毒性阴性样本。通过整理,最终获得988个基因样本数据,其中阳性样本496个,阴性样本492个。将所有建模样本数据按照80%:20%随机分为训练集和测试集,790个样本数据作为训练集用于模型的训练学习,198个样本数据作为测试集用于模型的性能评估。
2.基于R语言及Bioconductor R包对原始基因表达数据进行一系列统计学数据清洗,构建最终基因表达谱作为建模数据。其中,首先通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化,进一步按照基因芯片的注释文件,将探针ID与gene symbol进行匹配,最后通过DESeq2包对基因表达数据进行差异表达分析,构建最终的特征基因表达矩阵。其中,首先通过基于贝叶斯算法的limma R包对基因表达数据进行差异表达分析,选取其中差异表达倍数的绝对值大于或等于2,adjust-P值小于或等于0.05的基因作为初步筛选得到的特征基因,进一步通过深度学习算法对初步筛选得到的特征基因进行相应的权重计算并保留特征权重值大于0.1的基因,最终筛选得到1574个特征基因用于最终模型的构建。
3.本方案以Anaconda5.1的Python 3.6为平台,借助基于Python和Theano的深度学习框架Keras搭建深度学习预测模型。该模型选取序贯(Sequential)模型接口,搭建二分类预测模型。模型结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer)(图2)。模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b′)
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
模型的训练过程中,采用compile模块对模型的学习过程进行配置,其参数分别设置为:优化器(optimizer)设为Root Mean Square prop(RMSprop),指标列表(metrics)设为accuracy以及损失函数(loss function)设为binary_crossentropy,其中该损失函数的计算公式为:
其中,LH(x,z)为预测值与真实值的差异大小(即损失),x为样本对应的真实值,z为样本对应的预测值,d为epoch数;
然后将处理得到的特征基因表达数据作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能。
4.通过使用建模数据中的测试集样本对训练好的模型的预测性能进行评估,其中分别采用敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the areaunder the Receiver Operating Characteristic curve,AUC)等相关评价指标进行性能评判。进一步,通过使用网格搜索算法与十折交叉验证对构建的900(5×4×3×3×5)个模型的关键参数(epoch number、batch size、learning rate、dropout rate和node number)进行优化,从而使模型获得最佳预测性能。
其中,TP代表真阳性;TN代表真阴性;FP代表假阳性;FN代表假阴性;
最终,通过参数寻优,最优模型的具体参数设定为隐藏层为2层且每层为50个节点,dropout rate设定为0.5来避免模型的过拟合,learning rate为0.001,batch size为128,epoch number为50。通过测试集对最优模型的性能考察,其预测准确率为97.1%,AUC为0.989,敏感性为97.4%,特异性为96.8%,马修斯相关系数为0.942,相比于国内外大多数基于传统机器学习的化合物肝毒性预测模型,该模型具有较优的预测性能(图3、图4)。
上述实例仅仅是本发明的一个具体实施方式,对其的简单变换、替换等也均在发明的保护范围内。
Claims (6)
1.一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,包括如下步骤:
步骤一:通过从公共生物医学数据库中对化合物作用后的基因表达数据进行挖掘,将得到的原始数据进行数据清洗与标准化,构建建模数据样本;
步骤二:通过基因差异表达分析与特征权重计算筛选肝毒性特征基因,作为最终模型样本特征;
步骤三:基于深度学习算法构建预测模型,将筛选得到的肝毒性特征基因的表达数据用于模型的训练与学习;
步骤四:通过网格搜索算法与交叉验证对模型的关键参数进行优化,提高模型的预测性能。
2.如权利要求1所述的一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,
所述步骤一包括如下步骤:
1.1通过从公共生物医学数据库中收集来自同一基因芯片测定的化合物作用后的基因表达数据;
1.2基因表达数据样本根据肝毒性病变级别按5分法分为Severe(严重,病变范围为[75%,100%]),Moderately Severe(中度严重,病变范围为[50%,75%)),Moderate(中度,病变范围为[25%,50%)),Slight(轻度,病变范围为[1%,25%)),Minimal(轻微,病变范围为[0%,1%));
1.3将出现任意一次毒性级别为Severe、Moderately Severe、Moderate和Slight毒性的化合物标记为阳性化合物,其所有时间点、所有剂量下的用药组样本均为肝毒性阳性样本;毒性病变级别Minimal的化合物的基因表达数据样本和所有对照组样本作为肝毒性阴性样本;
1.4基于R语言及Bioconductor R包,对收集的肝毒性阳性样本和阴性样本的基因表达数据进行预处理;其中,通过Impute包对基因表达的缺失值及无效值进行填充,通过Limma包对基因表达数据进行标准化;
1.5按照基因芯片的注释文件,将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配;
1.6将所有建模样本数据按照80%:20%随机分为训练集和测试集,训练集用于模型的训练学习,测试集用于模型的性能评估。
3.如权利要求2所述的一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,步骤1.1中,所述公共生物医学数据库包括ArrayExpress、GeneExpression和Omnibus(GEO)。
4.如权利要求1所述的一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,
所述步骤二包括如下步骤:
2.1基于贝叶斯算法的limma R包对预处理后的基因表达数据进行差异表达分析,选取其中差异表达倍数的绝对值大于或等于2并且adjust-P值小于或等于0.05的基因作为特征基因;
2.2进一步通过深度学习算法对特征基因的权重进行计算并保留特征权重值大于0.1的基因作为最终模型构建的特征基因,即肝毒性特征基因。
5.如权利要求1所述的一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,
所述步骤三包括如下步骤:
3.1模型选取序贯(Sequential)模型接口,模型结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer),其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer);
3.2模型的输入为基因表达数据,其中每个特征基因都作为输入层的一个节点;
3.3模型的输出为二分类结果0和1,其中0代表肝毒性阴性,1代表肝毒性阳性;
3.4模型的隐藏层中,其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层,该激活函数的公式为:
y=ReLU(Wx+b)
其中,x为输入数据的值,y为数据激活后的值,W为权重矩阵,b为偏差;
3.5模型的输出层中,其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果,该激活函数的公式为:
z=sigmoid(W′y+b')
其中,y为隐藏层传出的激活后的值,z为模型输出结果,W′为转置权重矩阵,b′为转置偏差;
3.6模型的训练过程中,采用compile模块对模型的学习过程进行配置,其参数分别设置为:优化器(optimizer)设为Root Mean Square prop(RMSprop),指标列表(metrics)设为accuracy以及损失函数(loss function)设为binary_crossentropy,其中该损失函数的计算公式为:
其中,LH(x,z)为预测值与真实值的差异大小(即损失),x为样本对应的真实值,z为样本对应的预测值,d为epoch数;
3.7将步骤二处理后最终得到的肝毒性特征基因表达数据作为模型的输入,其中80%作为训练集用来训练模型,20%作为测试集用来测试模型性能。
6.如权利要求1所述的一种基于深度学习和基因表达数据的化合物肝毒性早期预测方法,其特征在于,
所述步骤四包括如下步骤:
4.1设置参数寻优范围,其中epoch number为[10,50,100,200,500],batch size为[10,32,64,128],learning rate为[0.01,0.001,0.00001],dropout rate为[0,0.2,0.5],node number为[50,100,300,500,1000];
4.2通过网格搜索算法对构建的900(5×4×3×3×5)个模型进行寻优;
4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价,其中性能评价指标包括:敏感度(Sensitivity,SEN);特异性(Specificity,SPE);准确性(Accuracy,ACC);马修斯相关系数(Matthews correlation coefficient,MCC);ROC曲线下面积(the areaunder the Receiver Operating Characteristic(ROC)curve,AUC);其中,敏感度、特异性和准确性越接近于100%,马修斯相关系数及ROC曲线下面积越接近于1,表明该模型预测性能越好;相反,敏感度、特异性和准确性越接近于0,马修斯相关系数及ROC曲线下面积越接近于0.5,表明该模型预测性能越差;
其中,TP代表真阳性;TN代表真阴性;FP代表假阳性;FN代表假阴性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910546943.7A CN110517790B (zh) | 2019-06-24 | 2019-06-24 | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910546943.7A CN110517790B (zh) | 2019-06-24 | 2019-06-24 | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110517790A true CN110517790A (zh) | 2019-11-29 |
CN110517790B CN110517790B (zh) | 2023-06-09 |
Family
ID=68623490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910546943.7A Active CN110517790B (zh) | 2019-06-24 | 2019-06-24 | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517790B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN112133449A (zh) * | 2020-08-19 | 2020-12-25 | 中南大学 | 诱导肝毒性预测方法、装置、计算机设备及存储介质 |
CN113517066A (zh) * | 2020-08-03 | 2021-10-19 | 东南大学 | 基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统 |
CN114792574A (zh) * | 2022-06-23 | 2022-07-26 | 普瑞基准生物医药(苏州)有限公司 | 基于图神经网络模型预测药物互作所致肝毒性的方法 |
WO2022178961A1 (zh) * | 2021-02-23 | 2022-09-01 | 北京亿药科技有限公司 | 一种基于神经网络和连接图算法的化合物功能预测方法 |
CN115691653A (zh) * | 2022-12-29 | 2023-02-03 | 北京晶泰科技有限公司 | 药物毒性预测模型的训练方法及装置、药物毒性预测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016193977A2 (en) * | 2015-06-03 | 2016-12-08 | Neviah Genomics Ltd. | Methods for predicting hepatotoxicity |
CN109033738A (zh) * | 2018-07-09 | 2018-12-18 | 湖南大学 | 一种基于深度学习的药物活性预测方法 |
CN109658989A (zh) * | 2018-11-14 | 2019-04-19 | 国网新疆电力有限公司信息通信公司 | 基于深度学习的类药化合物毒性预测方法 |
-
2019
- 2019-06-24 CN CN201910546943.7A patent/CN110517790B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016193977A2 (en) * | 2015-06-03 | 2016-12-08 | Neviah Genomics Ltd. | Methods for predicting hepatotoxicity |
CN109033738A (zh) * | 2018-07-09 | 2018-12-18 | 湖南大学 | 一种基于深度学习的药物活性预测方法 |
CN109658989A (zh) * | 2018-11-14 | 2019-04-19 | 国网新疆电力有限公司信息通信公司 | 基于深度学习的类药化合物毒性预测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN111159415B (zh) * | 2020-04-02 | 2020-07-14 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN113517066A (zh) * | 2020-08-03 | 2021-10-19 | 东南大学 | 基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统 |
CN112133449A (zh) * | 2020-08-19 | 2020-12-25 | 中南大学 | 诱导肝毒性预测方法、装置、计算机设备及存储介质 |
WO2022178961A1 (zh) * | 2021-02-23 | 2022-09-01 | 北京亿药科技有限公司 | 一种基于神经网络和连接图算法的化合物功能预测方法 |
US12176074B2 (en) | 2021-02-23 | 2024-12-24 | Beijing Gigaceuticals Tech. Co. Ltd | Compound function prediction method based on neural network and connectivity map algorithm |
CN114792574A (zh) * | 2022-06-23 | 2022-07-26 | 普瑞基准生物医药(苏州)有限公司 | 基于图神经网络模型预测药物互作所致肝毒性的方法 |
CN115691653A (zh) * | 2022-12-29 | 2023-02-03 | 北京晶泰科技有限公司 | 药物毒性预测模型的训练方法及装置、药物毒性预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110517790B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517790A (zh) | 基于深度学习和基因表达数据的化合物肝毒性早期预测方法 | |
CN110970099B (zh) | 一种基于正则化变分自动编码器的药物分子生成方法 | |
JP7466058B2 (ja) | グラフニューラルネットワークに基づく臨床オミックスデータ処理方法、装置、電子機器、及びコンピュータプログラム | |
CN109979541B (zh) | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 | |
CN108095716B (zh) | 一种基于置信规则库和深度神经网络的心电信号检测方法 | |
CN111223577A (zh) | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 | |
CN106529205B (zh) | 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法 | |
Chapron et al. | Estimating wolf (Canis lupus) population size from number of packs and an individual based model | |
CN109887540A (zh) | 一种基于异构网络嵌入的药物靶标相互作用预测方法 | |
CN109508360A (zh) | 一种基于元胞自动机的地理多元流数据时空自相关分析方法 | |
CN114649097B (zh) | 一种基于图神经网络及组学信息的药物功效预测方法 | |
CN116597916A (zh) | 一种基于器官芯片和深度学习的抗肿瘤化合物预后药效的预测方法 | |
Dahiya et al. | Hyper-parameter tuned deep learning approach for effective human monkeypox disease detection | |
CN102222313A (zh) | 基于核主成分分析的城市演化模拟元胞模型处理方法 | |
CN111105877A (zh) | 基于深度置信网络的慢性病精确干预方法及系统 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN118072964A (zh) | 女性尿失禁模型的准确性的提升方法、女性尿失禁预测系统、介质和设备 | |
Jiang et al. | Relation-aware graph structure embedding with co-contrastive learning for drug–drug interaction prediction | |
CN109636194B (zh) | 一种输变电项目重大变动多源协同检测方法与系统 | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN111968003B (zh) | 一种基于农作物本体概念响应的农作物病害预测方法 | |
CN117172094B (zh) | 土地利用变化驱动因素的正负影响可视化和定量化方法 | |
Chen et al. | Machine learning-based predictive model for abdominal diseases using physical examination datasets | |
CN117992913A (zh) | 一种基于双峰注意力融合网络的多模态数据分类方法 | |
Chrobak et al. | Combining indicators for better decisions–Algorithms vs experts on lakes ecological status assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |