CN111223577A

CN111223577A - 一种基于深度学习的协同抗肿瘤多药组合效果预测方法

Info

Publication number: CN111223577A
Application number: CN202010053045.0A
Authority: CN
Inventors: 冯春来; 陈恒巍; 季薇; 芮蒙杰
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-02

Abstract

本发明提供一种基于深度学习算法和药物基因组学的协同抗肿瘤多药组合效果的预测方法，包括以下步骤：(1)大规模药物基因组学数据挖掘与预处理；(2)不同特征信息的有效整合及建模样本的构建；(3)基于大规模样本数据及深度学习算法构建协同抗肿瘤多药组合预测模型；(4)模型的参数优化与性能提升。本方法将人工智能深度学习算法与药物基因组学有效结合，克服了传统协同药物组合预测方法仅能用于两两药物之间协同作用预测的局限性，实现了能够通过基因水平针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合，从而为解决肿瘤耐药性问题提供理论基础与技术支撑，进一步为临床肿瘤治疗提供更多有效的治疗方案。

Description

一种基于深度学习的协同抗肿瘤多药组合效果预测方法

技术领域

本发明涉及计算机辅助药物筛选领域，具体地说是涉及一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法，适用于根据肿瘤细胞基因表达数据、药物靶点信息对不同的肿瘤细胞筛选出特定的具有协同抗肿瘤作用的药物组合。

背景技术

癌症是严重威胁人类生命健康的重大疾病，其死亡率仅次于心血管疾病而位居第二。肿瘤主要的治疗方法有手术治疗、放射治疗和药物治疗，目前药物治疗仍是肿瘤治疗的重要手段。由于肿瘤致病因素多样，其发展过程复杂，受到众多因素的调控，单一药物的治疗易使人体对特定药物产生耐药表型，最终导致药物治疗失败。因此，从机制的互补、作用的协同增效、不良反应的减轻等方面考虑，肿瘤的治疗已从最初的单一用药向联合用药方向转变。目前，临床上仅经美国FDA认证的癌症化疗药物已超过200种，这些药物之间的随机配对组合高达19,900种，依靠传统实验方法进行协同抗肿瘤药物组合的筛选无论在时间、效率及成本方面都具有很大的挑战性。

随着信息技术的发展，国内外学者开始尝试建立基于化合物结构信息的机器学习计算模型，通过计算化合物结构之间的相似性来进行协同抗肿瘤药物组合的预测，但其往往面临以下问题：1)该方法仅适用于两两药物之间的协同作用预测，对三个甚至多个药物之间的协同作用无法预测；2)缺乏足够的建模数据，对新的协同药物组合的预测准确性较差；3)无法针对给定的肿瘤细胞筛选出特定的协同药物组合；4)传统的机器学习方法无法从大数据中自动学习特征信息，需要大量的人工特征挑选。因此，针对以上方法的局限性，本发明提供了一种基于深度学习和药物基因组学的协同抗肿瘤多药组合效果预测方法，能够针对不同肿瘤细胞筛选出特定的协同抗肿瘤多药组合。

发明内容

本发明克服现有技术存在的不足，公开了一种基于深度学习算法(Deep LearningAlgorithm,DL)和药物基因组学的协同抗肿瘤多药组合效果预测方法，本方法将药物基因组学与人工智能深度学习算法充分结合，克服了传统筛选协同抗肿瘤药物组合的局限性，构建了一种高效、快速、准确的能够基于基因水平对不同肿瘤细胞筛选协同抗肿瘤多药组合的深度神经网络计算模型。

本发明的目的可以通过以下技术路线(图1)来实现：

1.一种基于深度学习的协同抗肿瘤多药组合效果预测方法，其特征在于，包括如下步骤：

步骤一：通过公共生物医学数据库挖掘大规模药物基因组学数据，其中包括不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据；

步骤二：将收集得到的不同肿瘤细胞特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化，将不同特征的大规模数据进行有效整合，构建建模样本；

步骤三：基于构建样本的大规模数据，利用深度学习算法分别构建分类、回归预测模型；

步骤四：基于网格搜索算法与交叉验证对模型的关键参数进行优化，提高模型的预测性能。

2.所述步骤一包括如下步骤：

1.1从ArrayExpress数据库中收集不同肿瘤细胞的特征基因表达数据；

1.2从包括Genomics of Drug Sensitibity in Cancer(GDSC)、PubChem、DrugBank、Naturally occuring Plant based Anticancerous Compound-Activity-Target DataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息；

1.3从GDSC、NPACT数据库及文献中收集抗肿瘤化合物对不同肿瘤细胞的药物敏感性数据。

3.所述步骤二包括如下步骤：

2.1基于R语言及Bioconductor R包，对收集得到的不同肿瘤细胞的基因表达数据进行预处理。其中，通过Impute包对基因表达的缺失值及无效值进行填充，通过Limma包对基因表达数据进行标准化；进行缺失值及无效值填充，以及数据标准化；

2.2按照基因芯片的注释文件，将标准化的基因表达数据的探针ID与相应的genesymbol进行逐一匹配；

2.3对处理后的基因表达数据进行特征基因挑选，通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞最终的特征基因；

2.4将收集得到的化合物及其靶点信息进行去重、匹配，构建化合物-靶点信息样本特征；

2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据，按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合，进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理，构建最终建模样本数据；

2.6将药物敏感性数据进行对数转化，作为回归预测模型的样本标签；

2.7对药物敏感性数据进行阈值划分，其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本，化合物对肿瘤细胞的IC50大于10μM作为阴性样本，将其作为分类预测模型的标签；

4.所述步骤三包括如下步骤：

3.1基于Keras深度学习框架分别搭建神经网络分类、回归预测模型，其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer)，其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropout layer)；

3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息，其中每一个基因、靶点特征作为输入层的一个节点；

3.3分类预测模型的输出为二分类结果，阳性代表具有协同抗肿瘤效果，阴性代表不具有协同抗肿瘤作用；

3.4回归预测模型的输出为IC50值，用来衡量协同抗肿瘤作用的强弱；

3.5模型的隐藏层中，其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层，该激活函数的公式为：

y＝ReLU(Wx+b)

其中，x为输入数据的值，y为数据激活后的值，W为权重矩阵，b为偏差；

3.6分类模型的输出层中，其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果，该激活函数的公式为：

z＝sigmoid(W′y+b′)

其中，y为隐藏层传出的激活后的值，z为模型输出结果，W＇为转置权重矩阵，b＇为转置偏差；

3.7回归模型的输出层中，其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果，该激活函数的公式为：

z＝linear(W'y+b')

其中，y为隐藏层传出的激活后的值，z为模型输出结果，W＇为转置权重矩阵，b′为转置偏差；

3.8模型的训练过程中，采用Keras中的model.compile模块对模型的学习过程进行配置，其参数分别设置为：分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop)，损失函数(loss function)设为binary_crossentropy；回归模型优化器(optimizer)设为Adaptive moment estimation(Adam)，损失函数(loss function)设为MSE(mean square error)，其中损失函数的计算公式为：

其中，x为样本对应的真实值，z为样本对应的预测值，d为epoch数，k为第k个epoch，L_H(x,z)为预测值与真实值的差异大小；

3.9将步骤二处理后最终得到的建模样本作为模型的输入，其中80％作为训练集用来训练模型，20％作为测试集用来测试模型性能；

5.所述步骤四包括如下步骤：

4.1设置参数寻优范围，其中epoch number为[10,50,100,200,500]，batch size为[10,32,64,128，256]，learning rate为[0.01,0.001,0.00001]，dropout rate为[0,0.2,0.5]，hidden units_1st为[50,100,200,500,1000]，hidden units_2st为[50,100,200,500,1000]；

4.2通过网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优；

4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价，其中对于分类模型性能评价指标包括：敏感度(Sensitivity，SEN)；特异性(Specificity，SPE)；准确性(Accuracy，ACC)；马修斯相关系数(Matthews correlation coefficient，MCC)；ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve，AUC)；其中，敏感度、特异性和准确性越接近于100％，马修斯相关系数及ROC曲线下面积越接近于1，表明该模型预测性能越好；相反，敏感度、特异性和准确性越接近于0，马修斯相关系数及ROC曲线下面积越接近于0.5，表明该模型预测性能越差。

其中，TP代表真阳性，TN代表真阴性，FP代表假阳性，FN代表假阴性；

其中对于回归模型性能评价指标包括：均方误差(the mean square error，MSE)；平方根均方误差(the root mean square error，RMSE)；R²系数(R-Square，R²_score)；其中，均方误差和平方根均方误差越接近于0，R²系数越接近于1，表明该模型预测性能越好；相反，均方误差和平方根均方误差越大，R²系数越接近于0，表明该模型预测性能越差；

其中，m代表样本数，i代表第i个样本，y_true代表样本真实标签，y_true代表样本预测标签,

代表样本真实标签的平均值。

与现有技术相比，采用本发明的优点如下：

1.本方法突破了现有方法的局限性(仅能用于两两药物之间的协同作用预测)，能够用于三种及多种药物之间的协同抗肿瘤作用预测；

2.本方法能够针对不同肿瘤细胞给出特定的协同多药组合；

3.本方法采用的深度学习算法具有较强的自动学习特征能力，能够从大数据中自动学习重要特征信息，避免了大量人为特征挑选；

4.本方法构建的协同抗肿瘤多药组合预测模型具有较优的预测性能，其预测准确性相比于传统的预测方法有了大幅度提升。

附图说明：

图1是本发明基于深度学习的协同抗肿瘤多药组合效果预测方法的总流程图；

图2是本发明方法协同抗肿瘤多药组合预测模型的结构示意图；

图3是本发明方法协同抗肿瘤多药组合回归模型的预测性能示意图；

图4是本发明方法协同抗肿瘤多药组合分类模型的预测性能示意图。

具体实施方式：

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图对本发明的技术方案再作进一步的说明。

一种基于深度学习的协同抗肿瘤多药组合效果预测方法的具体技术方案是：

1.通过从ArrayExpress数据库中收集来自Affymetrix Human Genome U219芯片测定的265种化合物作用后的1000种肿瘤细胞的基因表达数据。其中，1000种肿瘤细胞来自29种不同组织的11289种肿瘤。基于R语言及Bioconductor R包对1000种肿瘤细胞的原始基因表达数据进行一系列统计学数据清洗，构建最终基因表达谱用于建模。首先，通过Impute包对基因表达的缺失值及无效值进行填充，再通过Limma包对基因表达数据进行标准化，随后进一步将探针ID与gene symbol进行匹配。为了避免基因特征过多造成的维度灾难，该方法对处理后的基因表达数据进行特征基因挑选，其通过选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞的特征基因，最终共选取215种特征基因作为肿瘤细胞的基因特征，其相应的基因表达数据用来构建样本数据。

2.通过从Genomics of Drug Sensitibity in Cancer(GDSC)和Naturallyoccuring Plant based Anticancerous Compound-Activity-Target DataBase(NPACT)数据库中收集已报道的抗肿瘤化合物，其中从GDSC数据库收集得到265种抗肿瘤化合物，从NPACT数据库收集得到1574种具有抗肿瘤活性的天然产物。进一步通过PubChem和DrugBank数据库收集整理1839种化合物的抗肿瘤作用靶点信息，最终经去重整理得到1093个化合物靶点信息作为样本特征。进一步通过GDSC和NPACT数据库收集1839种化合物对不同肿瘤细胞的药物敏感性数据(IC50)。最终，将已收集整理得到的1000种肿瘤细胞特征基因表达数据、化合物及其抗肿瘤作用靶点信息以及药物敏感性数据进行有效整合，共构建了201405个大规模样本数据(肿瘤细胞基因特征-化合物靶点信息-药物敏感性数据)，其中将药物敏感性数据进行对数转化作为回归预测模型的样本标签；对药物敏感性数据进行阈值划分，其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本，化合物对肿瘤细胞的IC50大于10μM作为阴性样本，将其作为分类预测模型的样本标签。

3.本方案以Anaconda5.1的Python 3.6为平台，借助基于Python和Theano的深度学习框架Keras搭建深度学习预测模型。该模型选取序贯(Sequential)模型接口分别搭建分类、回归预测模型，其结构包括输入层(Input layer)、隐藏层(Hidden layer)以及输出层(Output layer)，其中隐藏层包括全连接层(Dense layer)和Dropout层(Dropoutlayer)(图2)。模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息，其中每一个特征向量都作为输入层的一个节点。分类预测模型的输出为二分类结果，阳性代表具有协同抗肿瘤效果，阴性代表不具有协同抗肿瘤作用；回归预测模型的输出为IC50值，用来衡量协同抗肿瘤作用的强弱。模型的隐藏层中，其通过Rectified Linear Unit(ReLU)激活函数来激活输入层的值进而传入全连接层，该激活函数的公式为：

y＝ReLU(Wx+b)

分类模型的输出层中，其通过Sigmoid激活函数来激活隐藏层的值进而传出为最终的输出结果，该激活函数的公式为：

z＝sigmoid(W′y+b′)

其中，y为隐藏层传出的激活后的值，z为模型输出结果，W′为转置权重矩阵，b′为转置偏差；

回归模型的输出层中，其通过linear激活函数来激活隐藏层的值进而传出为最终的输出结果，该激活函数的公式为：

z＝linear(W'y+b')

模型的训练过程中，采用compile模块对模型的学习过程进行配置，其参数分别设置为：分类模型优化器(optimizer)设为Root Mean Square prop(RMSprop)，损失函数(loss function)设为binary_crossentropy；回归模型优化器(optimizer)设为Adaptivemoment estimation(Adam)，损失函数(loss function)设为MSE(mean square error)，其中损失函数的计算公式为：

其中，x为样本对应的真实值，z为样本对应的预测值，k为第k个epoch，d为epoch数，L_H(x,z)为预测值与真实值的差异大小；

将最终处理、整合得到的建模样本作为模型的输入，其中80％(161124个)作为训练集用来训练模型，20％(40281个)作为测试集用来测试模型性能；

4.通过使用建模数据中的测试集样本对训练好的模型的预测性能进行评估，其中对于分类模型，采用敏感度(Sensitivity，SEN)；特异性(Specificity，SPE)；准确性(Accuracy，ACC)；马修斯相关系数(Matthews correlation coefficient，MCC)；ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve，AUC)评价指标对模型性能进行评价。

对于回归模型，采用均方误差(the mean square error，MSE)；平方根均方误差(the root mean square error，RMSE)；R²系数(R-Square，R²_score)评价指标对模型性能进行评价。

其中，m代表样本数，i代表第i个样本，y_true代表样本真实标签，y_true代表样本预测标签，

代表样本真实标签的平均值；

进一步，对模型关键参数设置寻优范围，其中epoch number为[10，50，100，200，500]，batch size为[10，32，64，128，256]，learning rate为[0.01，0.001，0.00001]，dropout rate为[0，0.2，0.5]，hidden units_1st为[50，100，200，500，1000]，hiddenunits_2st为[50，100，200，500，1000]。通过10折交叉验证模式及网格搜索算法对构建的5,625(5×5×3×3×5×5)个模型进行寻优。

最终，通过参数寻优，最优回归模型的具体参数设定为隐藏层为2层，其中第一层为200个节点，第二层为100个节点，dropout rate设定为0.5来避免模型的过拟合，learning rate为10^-5，batch size为128，epoch number为300，通过测试集对最优模型的性能考察，其均方误差为3.80，平方根均方误差为1.95，R²系数为0.86；最优分类模型的具体参数设定为隐藏层为2层，其中第一层为200个节点，第二层为100个节点，dropout rate设定为0.5来避免模型的过拟合，learning rate为10^-3，batchsize为32，epoch number为500，通过测试集对最优模型的性能考察，其预测准确率为94.1％，AUC为0.972，敏感性为95.4％，特异性为93.8％，马修斯相关系数为0.88相比于国内外大多数基于化合物结构信息的机器学习协同药物组合预测模型，该模型具有较优的预测性能(图3、图4)。

上述实例仅仅是本发明的一个具体实施方式，对其的简单变换、替换等也均在发明的保护范围内。

Claims

步骤二：将收集得到的不同肿瘤细胞的特征基因表达数据、抗肿瘤化合物及其作用靶点信息和药物敏感性数据分别进行数据清洗及其标准化，将不同特征的大规模数据进行有效整合，构建建模样本；

2.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法，其特征在于，所述步骤一包括如下步骤：

1.1从ArrayExpress数据库中收集肿瘤细胞的特征基因表达数据；

1.2从包括Genomics of Drug Sensitibity in Cancer(GDSC)、PubChem、DrugBank、Naturally occuring Plant based Anticancerous Compound-Activity-TargetDataBase(NPACT)在内的数据库及文献中收集抗肿瘤化合物及其作用靶点信息；

3.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法，其特征在于，所述步骤二包括如下步骤：

2.1基于R语言及Bioconductor R包，对收集得到的不同肿瘤细胞的基因表达数据进行预处理；其中，通过Impute包对基因表达的缺失值及无效值进行填充，通过Limma包对基因表达数据进行标准化；进行缺失值及无效值填充，以及数据标准化；

2.5将处理后的不同肿瘤细胞特征基因表达数据、化合物及其靶点信息和药物敏感性数据按照肿瘤细胞-化合物-敏感性数据样本特征进行数据整合，进一步通过Scikit-learn机器学习库中的StandardScaler函数对样本数据进行无量纲化处理，构建最终建模样本数据；

2.7对药物敏感性数据进行阈值划分，其中化合物对肿瘤细胞的IC50小于或等于10μM作为阳性样本，化合物对肿瘤细胞的IC50大于10μM作为阴性样本，将其作为分类预测模型的标签。

4.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法，其特征在于，所述步骤三包括如下步骤：

3.2模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息，其中每一个基因、靶点特征都作为输入层的一个节点；

y＝ReLU(Wx+b)；

z＝sigmoid(W'y+b')；

其中，y为隐藏层传出的激活后的值，z为模型输出结果，W'为转置权重矩阵，b'为转置偏差；

z＝linear(W'y+b')

3.9将步骤二处理后最终得到的建模样本作为模型的输入，其中80％作为训练集用来训练模型，20％作为测试集用来测试模型性能。

5.如权利要求1所述的一种基于深度学习的协同抗肿瘤多药组合效果预测方法，其特征在于，所述步骤四包括如下步骤：

4.3通过10折交叉验证模式及评价指标对模型的预测性能进行评价，其中对于分类模型性能评价指标包括：敏感度(Sensitivity，SEN)；特异性(Specificity，SPE)；准确性(Accuracy，ACC)；马修斯相关系数(Matthews correlation coefficient，MCC)；ROC曲线下面积(the area under the Receiver Operating Characteristic(ROC)curve，AUC)；其中，敏感度、特异性和准确性越接近于100％，马修斯相关系数及ROC曲线下面积越接近于1，表明该模型预测性能越好；相反，敏感度、特异性和准确性越接近于0，马修斯相关系数及ROC曲线下面积越接近于0.5，表明该模型预测性能越差；

代表样本真实标签的平均值。