CN112837743B

CN112837743B - 一种基于机器学习的药物重定位方法

Info

Publication number: CN112837743B
Application number: CN202110169907.0A
Authority: CN
Inventors: 石阳; 任涛; 王逸群; 曲颖
Original assignee: 东北大学
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2024-03-26
Anticipated expiration: 2041-02-04
Also published as: CN112837743A

Abstract

本发明提供一种基于机器学习的药物重定位方法，涉及机器学习技术领域。该方法选取多种药物作为样本，并获取每种药物的适应症；再选取多种靶点蛋白数据作为药物样本特征，并利用基于机器学习的数据降维算法将药物—靶点蛋白向量进行数据降维；利用相关性分析算法，选取每种药物的多种理化特征；然后将经过降维后的药物—靶点蛋白向量特征和药物理化特征一并作为药物分子的特征，以药物的适应症作为标签，构建药物疗效数据集，建立三种梯度提升树，并使用药物疗效数据集中的数据对三种梯度提升树进行训练；融合三种提升树建立药物疗效的预测模型，并利用Kflod算法，对N药物的疗效进行多轮预测，最终预测出m种对某疾病治疗有效的药物。

Description

一种基于机器学习的药物重定位方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于机器学习的药物重定位方法。

背景技术

根据统计数据，一种新药从构思产生，到先导化合物的合成，再经过临床实验，到最终成功上市，需要大概15年的时间，需要耗费10亿美元左右。而且这个费用是在逐年增长的。并且药物研发存在着风险，如果在研发后期的实验中发现药物存在问题，之前的投入将会白白浪费，因此风险很大。

药物重定位是指发现已上市药物的新适应症，是网络药理学的重要应用领域。药物重定位策略是目前已知的药物研发策略中风险与效益比最好的策略之一，也是一种解决新药开发高投入低成功率困境的有效方法之一。现有研究方法主要有基于小分子(或配体)特征的方法、基于蛋白靶点(或受体)特征的方法、基于表型(或网络)特征的方法。随着对防治重大疾病有效药物需求的不断增加，以及系统生物学、计算生物学、网络药理学等相关学科的快速发展，面对新药研发难度越来越大的严峻形势，药物重定位已成为世界范围内关注的热点，在药物研发领域占据重要地位。但是药物种类多样，药物分子理化性质众多，药物和蛋白靶点作用复杂。所以如何利用这些海量数据准确发掘出药物的新适应症是亟需解决的问题。

现如今，机器学习进入研究热流，可以对大数据进行分析与挖掘。作为一门人工智能的科学，机器学习通过计算机语言对数据进行深度挖掘，对规律进行深度探索。所以，通过构建机器学习模型来实现对药物的新适应症进行预测，可突破传统预测方法的缺点，实现更精确的预测判断，提高实验效率和节省成本。

药物重定位具有高效，低成本的特点，自新冠疫情发生以来，如何筛选出对新冠的药物成为一项亟待解决的问题，而传统的药物研发周期过于漫长，需要耗费大量的时间还有人力物力财力。而采用机器学习的方法对已将上市的药物进行筛选，从中选取可能对新冠有效的特效药，在此基础上进行临床实验就会节省大量的成本。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于机器学习的药物重定位方法，基于机器学习实现对药物的重定位。

为解决上述技术问题，本发明所采取的技术方案是：一种基于机器学习的药物重定位方法，包括以下步骤：

步骤1：选取N种药物作为实验样本，并通过爬虫技术爬取每种药物的适应症，每种药物的分子式唯一，并以SMILES格式进行表示；同时将N种药物按照一定比例分为训练集和测试集；

在drugcentral网站中利用爬虫技术爬取每种药物相应的适应症信息，具体方法为：

调用pandas库中的read_csv函数读取所要研究药物的名称并储存于列表之中；调用requests库中的get函数获取网页源代码；调用re库中compile函数对网页源代码中的正则表达式进行预编译；编译后，使用findall函数根据正则表达式从网页源代码中将与所要研究药物匹配的适应症全部找出，并将爬取到的数据储存于列表之中，最后存储为一个csv文件；

步骤2：选取M种靶点蛋白数据作为N种药物样本特征，一个靶点蛋白对应一种或者多种药物，表示该药物与该靶点蛋白之间有相互作用；并利用基于机器学习的数据降维算法将N*M的“药物—靶点蛋白向量”进行数据降维；

利用基于机器学习的数据降维算法PCA对“药物—靶点蛋白”向量进行数据降维；

步骤3：利用相关性分析算法，选取每种药物的n种理化特征；

利用卡方验证、方差分析和基于熵估计的非参数检验这三种相关性分析算法分别计算每种药物的理化特征间的相关性指数，按照相关性指数降序排序，并经过去重，最终选取每种药物的n种理化特征；

步骤4：将经过降维后的“药物—靶点蛋白向量”特征和药物的理化特征一并作为药物分子的特征，以药物的适应症作为标签，构建药物疗效数据集，建立Xgboost梯度提升树、Catboost梯度提升树、LightGB梯度提升树，并使用药物疗效数据集中的数据对三种梯度提升树进行训练；

步骤5：融合训练好的三种梯度提升树建立药物疗效的预测模型，并利用Kflod算法，对N种药物的疗效进行多轮预测，最终预测出m种对某疾病治疗有效的药物。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于机器学习的药物重定位方法，能够结合最新的机器学习方法对已经上市的药物进行筛选，这些药物已经广泛应用，因此可以节省一些实验成本，规避风险，并且极大的提高药物研发的效率。该方法同时结合了药物-基因的联系，以及药物本身的性质，能够为药物重定位提供可能性较大的待筛选的药物。

附图说明

图1为本发明实施例提供的一种基于机器学习的药物重定位方法的流程图；

图2为本发明实施例提供的使用机器学习方法进行药物重定位的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以Windows系统为开发环境，JupyterNotebook为开发工具，并采用Python作为开发语言，采用本发明的基于机器学习的药物重定位方法，对治疗糖尿病的药物进行重定位。

本实施例中，一种基于机器学习的药物重定位方法，如图1和图2所示，包括以下步骤：

步骤1：根据斯坦福大学发表的论文“Modeling polypharmacy side effectswith graph convolutional networks.”提供的数据集，选取1250种药物作为研究对象，在drugcentral网站中利用爬虫技术爬取每种药物相应的适应症信息。

本实施例中，调用pandas库中的read_csv函数读取所要研究药物的名称并储存于列表之中。调用requests库中的get函数获取网页源代码。调用re库中compile函数对网页源代码中的正则表达式进行预编译。编译后，使用findall函数根据正则表达式从网页源代码中将与所要研究药物匹配的适应症全部找出。将爬取到的数据储存于列表之中，最后存储为一个csv文件。最终得到18434条药物与适应症的对应关系信息。

步骤2：根据斯坦福大学发表的论文“Modeling polypharmacy side effectswith graph convolutional networks.”提供的数据集，选取M种靶点蛋白数据作为N种药物样本特征，一个靶点蛋白对应一种或者多种药物，表示该药物与该靶点蛋白之间有相互作用；并利用基于机器学习的数据降维算法将N*M的“药物—靶点蛋白向量”进行数据降维；

本实施例从数据集中选取7795种靶点蛋白数据作为药物样本特征，一个靶点蛋白可对应一种或者多种药物，构成1250*7795的“药物—靶点蛋白”向量。通过对比不同降维算法的效果，利用基于机器学习的数据降维算法PCA(Principal ComponentAnalysis，即主成分分析)对“药物—靶点蛋白”向量进行数据降维。本实施例中，调用python的sklearn库中的decomposition.PCA方法，通过设置其参数n_components为0.9实现降维，n_components设置在0-1之间表示降维后所保留的特征值信息的占比。最终得到降维后的数据，数据从7795维降至30维。

药物的化学描述符是通过一些特定选择指标来衡量分子的理化性质，形成多维描述符空间。由所有描述符所形成的化学空间是非常巨大的，具《定量构效关系研究中分子描述符的相关性》文献记载有4000余种，这些都是药物的理化特征。然而，并不是所有理化特征都与目标适应症有关。与目标适应症无关的理化特征会对降低预测的准确性，是无效的特征。需要对所有的特征和药物毒性进行相关性分析，去掉无关的特征。在本实施例中，所用到的相关性分析的方法包括卡方验证、方差分析和Estimate mutual information算法(基于熵估计的非参数检验)。通过每一个相关性分析方法计算理化特征间的相关性指数，按照相关性指数降序排序；并经过去重，最终选取203种理化特征，包括摩尔熵系数MolLogP、BalabanJ系数、BertzCT系数等等。

梯度提升树是一种使用Boosting策略的集成机器学习模型，基本思想是训练多个弱分类器来生成更准确的结果，使用的Boosting策略通过依次学习多个弱学习器不断地提升性能，最终得到一个性能很强机器学习模型。本发明在此基础之上又进一步进行了改进。使用了三种不同boosting机制的提升树，XGboost，LightGB和Catboost。Xgboost是一种提升树模型，它是将许多树模型集成在一起，形成一个效果很好的集成分类器。LightGB是个速度很快的，分布式的，高性能的基于决策树算法的梯度提升框架。Catboost由Yandex的研究人员和工程师开发的基于梯度提升决策树的机器学习方法。本实施例将这三种梯度提升树的初始学习率learning_rate设置为0.2，随机种子random_seed设置为11，L2正则参数l2_leaf_reg设置为10。每种树模型的训练轮次epoch设置为1000，部分参数设置如表1所示。将经过降维后的“药物—靶点蛋白向量”特征和药物理化特征共同作为药物的特征，在训练集上经过训练，得出每种提升树的最优模型。

表1部分参数及其含义

本实施例将训练好的三种提升树模型以Stacking的形式进行融合。并且将建立好的药物疗效数据集进行Kfold的操作；Kfold算法，在样本量不充足的情况下，可以尽可能的提升预测的准取性。为了充分利用药物疗效数据集对预测模型的预测效果进行测试，本实施例将药物疗效数据集随机划分10份，每次选取其中的9份为训练集，剩下的1份为测试集

本实施例首先利用爬虫技术爬取1250种药物的适应症的信息，并且从中筛选出治疗糖尿病的上市药物，作为正样本。其余药物作为待筛选样本。

再利用Rdkit工具包对所有药物进行特征提取，获得每种药物的分子描述符特征。利用“药物—靶点蛋白”特征，获取每种药物的靶点蛋白one-hot编码，然后对其进行降维，并将得到后的特征与分子描述符特征进行拼接，作为药物的特征进行训练。

采用不同的机器学习方法对药物特征进行学习，训练三种梯度提升树模型，优化参数，最终得到一个训练好的网络模型作为药物疗效的预测模型。模型的具体评价指标包括：

其中，TP:真正例，将正类正确预测为正类数；FP:假正例，将负类错误预测为正类数；FN:假负例，将正类错误预测为负类数；TN:真负例，将负类正确预测为负类数；accuracy:准确率，模型判断正确的数据占总数据的比例；recall:召回率，模型正确判断出的正例占数据集中所有正例的比例；specificity:特异度，模型识别出的负例占所有负例的比例。

本实施例最后利用训练好的药物疗效的预测模型对药物库进行筛选，判断一个药是否可对糖尿病有作用的准确率分别可达到95％，95％和96％。根据药物的得分排序，选取可能性最大的几种药物，并将其应用于后续的生物实验当中进行测试。

本实施例的药物疗效的预测模型输出的所有糖尿病治疗药物，共11种。这11种药物在原数据集中被标注是不能治疗糖尿病的，通过文献和网络资料对比认证，发现其中8种药物对糖尿病有药效。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于机器学习的药物重定位方法，其特征在于：包括以下步骤：

步骤2：选取M种靶点蛋白数据作为N种药物样本特征，一个靶点蛋白对应一种或者多种药物，表示该药物与该靶点蛋白之间有相互作用；并利用基于机器学习的数据降维算法PCA将N*M的“药物—靶点蛋白向量”进行数据降维；

2.根据权利要求1所述的一种基于机器学习的药物重定位方法，其特征在于：所述步骤1在drugcentral网站中利用爬虫技术爬取每种药物相应的适应症信息，具体方法为：

调用pandas库中的read_csv函数读取所要研究药物的名称并储存于列表之中；调用requests库中的get函数获取网页源代码；调用re库中compile函数对网页源代码中的正则表达式进行预编译；编译后，使用findall函数根据正则表达式从网页源代码中将与所要研究药物匹配的适应症全部找出，并将爬取到的数据储存于列表之中，最后存储为一个csv文件。