CN116469485A

CN116469485A - 一种针对多种病毒的新型活性化合物计算筛选方法

Info

Publication number: CN116469485A
Application number: CN202310271258.4A
Authority: CN
Inventors: 代绍兴; 梁积浩; 郑阳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-21

Abstract

本发明公开了一种针对多种病毒的新型活性化合物计算筛选方法，该方法通过获取待筛选化合物的SMILES字符串，依据字符串计算对应的FP2分子指纹，将FP2分子指纹输入至训练好的分类模型，根据分类模型的输出结果筛选获得针对多种病毒的新型活性化合物；同时可计算与抗病毒活性化合物数据集的分子指纹相似性，并以此判断待测药物的结构新颖性。本发明的抗病毒化合物活性筛选方法成本低、效率高，在抗病毒药物的重定位和先导化合物确定具有广阔的应用前景。

Description

一种针对多种病毒的新型活性化合物计算筛选方法

技术领域

本发明涉及化学信息学与药物筛选技术领域，具体涉及一种基于机器学习结合化学信息学的针对多种病毒的新型活性化合物计算筛选方法。

背景技术

急性病毒感染爆发和全球范围内日益增多的慢性病毒感染仍然是公共卫生安全的主要威胁之一，急需研发出新型抗病毒活性化合物。这不仅是为了应对当前的全球健康危机，也是为新出现和再次出现的病毒性传染病爆发做好准备。

据统计，目前能够感染人类的病毒已达到219种，但仅有9种病毒有针对性的批准临床治疗药物，对于许多具有高度传染性和致病性的病毒，目前还没有有效的治疗方法。目前已有的抗病毒小分子结构单一，缺乏结构多样性，大多数药物类型为核苷酸类似物，作用机制单一，而且很多药物都是作用于病毒的同一个靶蛋白。比如目前FDA已批准了5种小分子药物用于治疗乙肝病毒(HBV)感染：拉米夫定(lamivudine)、阿德福韦(adefovir)、恩替卡韦(entecavir)、替比夫定(telbivudine)和替诺福韦(tenofovir)，这些核苷酸类似物作用机制被认为是通过其细胞代谢转化后形成的三磷酸盐衍生物作为底物或抑制剂与HBVDNA聚合酶或逆转录酶进行相互作用，从而抑制病毒复制。由于病毒的持续复制和频繁基因重组以及抗病毒药物的长期使用，现有的抗病毒小分子药物治疗方法并不总是有效或耐药性良好。为了改善耐药性，患者经常需要使用2种或2种以上的药物进行联合治疗，如HIV患者的鸡尾酒联合疗法，但是这种疗法一般不能治愈，只能终身服用抗病毒药物，最终也会增加病毒的耐药性。尽管特异性疫苗、干扰素和激素疗法在治疗方面取得一定效果，但仍然存在疫苗只能预防不能起到治疗作用以及干扰素疗法脱靶和激素疗法副作用强等问题。因此，研发出具有抗病毒活性的新型化合物才是解决上述问题的关键。

识别具有生物活性的新型化合物是药物发现的基础，受到成本、研发时间、通量的制约，基于传统生物学实验的筛查方法难以开展。根据Tufts药物研发中心统计，每个药物研发成本约26亿美元，周期大概十年。传统的抗病毒药物发现依赖高通量筛选，缺少前期必要的计算筛选过程，具有很大的盲目性，耗时耗力，难于进行临床转化。虽然目前已有一些研究尝试开发抗病毒化合物的计算筛选方法，但存在很多准确性低、适用范围小等缺点。因此，需要开发新的计算方法对多种病毒进行活性化合物筛选。

机器学习是指计算机通过大量数据训练和分析来模拟人类的学习行为从而获得新的知识和技能，其已经成功应用于计算机视觉、语音和手写识别以及无人驾驶众多领域。随着信息技术在生物医药行业领域的应用，制药行业的数字化技术快速发展，与药物相关的数据库不断涌现和完善，相关化合物实验活性数据量也在不断积累。同时已知的成药化合物空间巨大，据估计已达到了10^60个分子。庞大复杂的数据激发了机器学习在药物研发的应用，其已经广泛应用于新药发现和开发的所有阶段，基于机器学习的药物筛选效率远远领先于传统的药物筛选过程，尤其是先导化合物的筛选。为此，可以充分利用机器学习算法和化学信息学针对多种病毒进行新型活性化合物筛选，从而提高药物研发的成功率。

发明内容

本发明的目的在于降低病毒感染的威胁和克服现有传统药物筛选技术的缺陷而提供一种基于机器学习结合化学信息学针对多种病毒新型活性化合物计算筛选方法。

本发明的目的是通过以下技术方案来实现的：

一种针对多种病毒的新型活性化合物计算筛选方法，具体为：

获取待筛选化合物的SMILES字符串，依据字符串计算对应的FP2分子指纹，将FP2分子指纹输入至训练好的分类模型，根据分类模型的输出结果筛选获得新型活性化合物；

所述分类模型通过如下方法训练获得：

(1)构建训练数据集，所述训练数据集的每一样本包括针对特定病毒具有活性的化合物的FP2分子指纹和活性标签，其中活性标签依据设定的药物浓度IC50阈值设置，其中药物浓度IC50小于阈值的化合物为抗病毒活性化合物标签，药物浓度IC50大于阈值的化合物为抗病毒非活性化合物标签；

(2)构建分类模型，以训练数据集的每一样本的FP2分子指纹作为输入，通过最小化分类模型的输出与活性标签的误差为目标进行训练，获得训练好的分类模型。

进一步地，所述步骤(1)中，还包括：通过SMOTE算法对训练数据集进行平衡处理。

进一步地，所述步骤(2)中，分类模型训练的过程中通过格点搜索策略进行参数优化。

进一步地，还包括：将筛选获得的针对多种病毒的新型活性化合物与抗病毒活性化合物数据集的计算分子指纹相似性，并以此判断待测药物的结构新颖性。

进一步地，分子指纹相似性采用谷本系数度量。

进一步地，所述病毒包括：

DNA病毒：乙型肝炎病毒、巨细胞病毒、人疱疹病毒(1型,2型，3型，5型)或牛痘病毒中的一种；

RNA病毒：新型冠状病毒、艾滋病病毒(1型、2型)、基孔肯亚病毒、丙型肝炎病毒、流感病毒(A型,B型)、呼吸道合胞病毒、水疱性口炎病毒、人柯萨奇B3病毒中的一种。

进一步地，所述训练数据集从ChEMBL和PubChem数据库中获取信息构建获得。

进一步地，所述分类模型为支持向量机和/或随机森林。

进一步地，所述分类模型为支持向量机和随机森林，若支持向量机和随机森林输出的结果均为活性，则认为待预测化合物具有抗病毒活性。

本发明的有益效果是：本发明的抗病毒化合物活性预测方法可针对包括DNA或RNA共17种病毒，以FP2分子指纹作为支持向量机和随机森林算法的输入特征，模型准确性较高，并可利用模型对大型化合物数据库进行大批量筛选，具有成本低、效率高的优点，该方法在抗病毒药物的重定位和先导化合物发现具有广阔的应用前景。

附图说明

图1为抗病毒化合物活性预测模型一般构建流程图；

图2为本发明提出的一种可选的实施例中抗HBV化合物活性分类预测模型中SVM算法惩罚系数参数C的格点搜索及10折交叉验证；

图3为本发明提出的一种可选的实施例中抗HBV化合物活性分类预测模型中RF算法决策树数目参数n_estimators的格点搜索及10折交叉验证；

图4为本发明提出的一种可选的实施例中所有抗病毒化合物活性分类预测模型中SVM和RF模型的AUC得分；

图5为本发明提出的一种可选的实施例中所有抗病毒化合物活性分类预测模型中SVM和RF模型的分类指标得分；

具体实施方式

为更好的说明本发明的目的、技术方案和优点，下面将结合具体实施例对本发明作进一步说明。

本发明提供了一种针对多种病毒的新型活性化合物计算筛选方法，通过利用训练好的分类模型，根据分类模型的输出结果筛选获得针对多种病毒的新型活性化合物；一般情况下，先训练分类模型，如图1所示，分类模型的训练方法如下：

(1)构建训练数据集，所述训练数据集的每一样本包括针对病毒具有活性的化合物的FP2分子指纹和活性标签。

具体地，包括以下子步骤：

(1.1)收集数据并标记标签：

本发明实施例从ChEMBL(https://www.ebi.ac.uk/chembl/)药物数据库中下载多种病毒如乙型肝炎病毒、巨细胞病毒、人疱疹病毒(1型,2型，3型，5型)、牛痘病毒、新型冠状病毒、艾滋病病毒(1型，2型)、基孔肯亚病毒、丙型肝炎病毒、流感病毒(A型,B型)、呼吸道合胞病毒、水疱性口炎病毒、人柯萨奇B3病毒的抗病毒化合物生物活性数据，同时获取化合物的SMILES字符串信息。SMILES指简化分子线性输入规范，是一种用ASCII字符串明确描述分子结构的规范。并依据设定的药物浓度IC50阈值设置活性标签，例如按照化合物药物浓度IC50小于10μmol/L设定为抗病毒活性化合物并标记对应标签，将化合物大100μmol/L设定为抗病毒非活性化合物并标记对应标签。收集的情况如表1所示。

表1:17种病毒的数据统计情况

CN_Name	EN_Name	Type	Active_Number	Inactive_Number
					巨细胞病毒	Cytomegalovirus	DNA	52	67
乙型肝炎病毒	Hepatitis B virus	DNA	825	470
					人疱疹病毒1型	Human herpesvirus 1	DNA	423	903
人疱疹病毒2型	Human herpesvirus 2	DNA	238	266
					人疱疹病毒3型	Human herpesvirus 3	DNA	267	147
人疱疹病毒5型	Human herpesvirus 5	DNA	708	585
					牛痘病毒	Vaccinia virus	DNA	220	483
基孔肯亚病毒	Chikungunya virus	RNA	99	83
					丙型肝炎病毒	Hepatitis C virus	RNA	6156	331
艾滋病1型	Human immunodeficiency virus 1	RNA	10900	1468
					艾滋病2型	Human immunodeficiency virus 2	RNA	479	712
流感A病毒	Influenza A virus	RNA	759	404
					流感B病毒	Influenza B virus	RNA	60	125
呼吸道合胞病毒	Respiratory syncytial virus	RNA	688	296
					新型冠状病毒	SARS-CoV-2	RNA	105	109
水疱性口炎病毒	Vesicular stomatitis virus	RNA	83	326
					人柯萨奇B3病毒	Human coxsackievirus B3	RNA	199	52

进一步地，把同时出现在抗病毒活性化合物和抗病非活性化合物的数据集中的化合物进行去除。

(1.2)计算收集的化合物的FP2分子指纹：

通过Python化学信息软件包Pybel根据化合物的SMILES字符串计算FP2分子指纹，并以1024bits进行表征化合物。

(1.3)去除相似度大的化合物：

然后对抗病毒活性化合物和抗病非活性化合物的两组数据集的化合物计算两两结构相似性，结构相似性用谷本系数(Tanimoto Coefficient,TC)度量。TC值介于0到1之间，TC值越大表示两化合物之间共有结构特征越多。TC值的计算公式为TC＝C(i,j)/U(i,j)，其中C(i,j)表示两个小分子i和j的分子指纹中共有特征的数目，U(i,j)表示两个小分子i和j的分子指纹中所有特征的数目。TC值小于0.5意味着两个化合物相似性低。因此，把TC值大于0.9的化合物进行去除，最后将化合物的FP2分子指纹和活性标签一一组对，得到训练数据集。构建的训练数据集的部分样本如表2所示。

表2：训练数据集的部分样本

SMILES	CHEMBL_ID	CLASS
			N#Cc1cnc(NC(＝O)c2ccccc2O)s1	CHEMBL1801516	1
CC(＝O)Oc1ccccc1C(＝O)Nc1ccc(Cl)cc1	CHEMBL238035	1
			O＝C(Nc1ncc(Br)s1)c1cc(Cl)ccc1O	CHEMBL1801509	1
Cc1cc([N+](＝O)[O-])c(Cl)cc1NC(＝O)c1ccccc1O	CHEMBL1802240	1
			C＝C1[C@@H](n2cnc3c(＝O)[nH]c(N)nc32)C[C@H](O)[C@H]1CO	CHEMBL713	1
O＝C(/C＝C/c1cccc(C(F)(F)F)c1)OCCc1c(-c2ccccc2Cl)c2cc(Cl)ccc2[nH]c1＝O	CHEMBL1652526	0
			CNc1nc(N)nc2c1ncn2[C@@H]1C[C@@H](N＝[N+]＝[N-])[C@H](CO)O1	CHEMBL1830928	0
Nc1c(-c2ccccc2Cl)c2cc(Cl)ccc2[nH]c1＝O	CHEMBL462323	0
			CC12CCC(C(＝O)OCCc3c(-c4ccccc4Cl)c4cc(Cl)ccc4[nH]c3＝O)(OC1＝O)C2(C)C	CHEMBL1652511	0
Clc1ccc2nc3c(c(-c4ccccc4Cl)c2c1)CCO3	CHEMBL1652496	0

表中，1表示抗病毒活性化合物，0表示抗病毒非活性化合物；

作为一种优选方案，获得用于训练模型的训练数据集后，对于阳性数据和阴性数据样本数目不平衡的情形可以通过SMOTE算法对训练数据集进行平衡处理，得到平衡的基准数据集，即活性和非活性化合物的数目是相同的。

另外，本实施例对每一种病毒的基准数据集使用Python机器学习框架软件包scikit-learn的train_test_split函数按照训练集：测试集＝75％：25％的比例进行划分，其中对于数据集的正样本和负样本进行分层抽样以使活性化合物和非活性化合物的比例在训练集和测试集中相同。

(2)构建分类模型，以训练数据集的每一样本的FP2分子指纹作为输入，通过最小化分类模型的输出与活性标签的误差为目标进行训练，获得训练好的分类模型。本发明的分类模型可以常规的机器学习模型，本实施例中，包括：

基于支持向量机构建和训练的分类模型：支持向量机是一种监督式学习的方法，可广泛地应用于统计分类和回归分析。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。对于二元分类问题，首先选择核函数“rbf”，然后再进行格点搜索确定惩罚参数C，参数选择为0.5和1，以及范围为50到1000，步长为50，同时对每一个格点进行10折交叉验证。利用基于Python的机器学习模块库Scikit-learn中封装的libsvm27完成支持向量机模型的构建。根据最高平均AUC来选择最佳模型和参数C，其它参数默认。例如图2为抗乙型肝炎病毒化合物活性支持向量机预测模型的十折交叉验证来确定参数C。

基于随机森林构建的分类模型：随机森林是一种利用多棵决策树对样本进行训练并预测的分类器。决策树数目很大程度影响算法的准确性，所以利用格点搜索策略确定决策树数目参数n_estimators，参数选择范围为50到1000，步长为50，同时对每一个estimators进行10折交叉验证。利用基于Python的机器学习模块库Scikit-learn中的随机森林分类器对样本进行训练和预测。根据最高平均AUC来选择最佳模型和参数estimators，其它参数采用默认设置。例如图3为抗乙型肝炎病毒化合物活性随机森林预测模型的十折交叉验证来确定参数n_estimators。

17种抗病毒化合物活性预测模型中RF和SVM的最佳参数及AUC得分如表3和图4所示。

表3：17种抗病毒化合物活性预测模型中RF和SVM的最佳参数及AUC得分(图4)

最后，利用测试集对最佳参数构建的所有模型都采用10折交叉验证方法来评估它们的分类性能。每种模型再用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1 Score)四种指标来评价。它们的计算公式如下，其中TP为真阳性，TN为真阴性，FP为假阳性，FN为假阴性。

结果如图5所示，本发明构建的17种抗病毒化合物的分类模型均具有良好的分类性能。利用训练好的分类模型可对现有化合物数据库进行筛选，从而发掘抗病毒新型活性化合物。

首先，从DrugBank药物数据库中下载所有的上市药物及其化学结构信息，一共包括2485个小分子药物。获取待筛选化合物的SMILES字符串，依据字符串计算对应的FP2分子指纹，将FP2分子指纹输入至训练好的分类模型，根据分类模型的输出结果，输出为具有活性的即为潜在的抗病毒化合物。

进一步地，将筛选的潜在的抗病毒化合物与抗病毒活性数据集进行结构比较，同样地，可通过谷本系数度量潜在的抗病毒化合物与抗病毒活性化合物数据集的分子指纹相似性，进而发掘具有潜在抗病毒活性且新颖的药物。筛选结果如下表：

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种针对多种病毒的新型活性化合物计算筛选方法，其特征在于，具体为：

所述分类模型通过如下方法训练获得：

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，还包括：通过SMOTE算法对训练数据集进行平衡处理。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)中，分类模型训练的过程中通过格点搜索策略进行参数优化。

4.根据权利要求1所述的方法，其特征在于，还包括：将筛选获得的新型活性化合物与抗病毒活性化合物数据集的计算分子指纹相似性，并以此判断待测药物的结构新颖性。

5.根据权利要求4所述的方法，其特征在于，分子指纹相似性采用谷本系数度量。

6.根据权利要求1所述的方法，其特征在于，所述病毒包括：

DNA病毒：乙型肝炎病毒、巨细胞病毒、人疱疹病毒或牛痘病毒中的一种；

RNA病毒：新型冠状病毒、艾滋病病毒、基孔肯亚病毒、丙型肝炎病毒、流感病毒、呼吸道合胞病毒、水疱性口炎病毒、人柯萨奇B3病毒中的一种。

7.根据权利要求1所述的方法，其特征在于，所述训练数据集从ChEMBL和PubChem数据库中获取信息构建获得。

8.根据权利要求1所述的方法，其特征在于，所述分类模型为支持向量机和/或随机森林。

9.根据权利要求8所述的方法，其特征在于，所述分类模型为支持向量机和随机森林，若支持向量机和随机森林输出的结果均为活性，则认为待预测化合物具有抗病毒活性。