CN110689919B

CN110689919B - 一种基于结构和等级分类的药物蛋白结合率预测方法及系统

Info

Publication number: CN110689919B
Application number: CN201910742202.6A
Authority: CN
Inventors: 相小强; 袁雅文; 张政; 常硕; 张彦春; 李治纲; 蔡卫民; 田凌浩
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2023-03-17
Anticipated expiration: 2039-08-13
Also published as: CN110689919A

Abstract

本申请涉及一种基于结构和等级分类的药物蛋白结合率预测方法及系统，包括：(1)数据收集，并对收集到PPB数据值进行处理，并去除重复的药物分子；(2)将药物分子的PPB值分为高结合药物、中结合药物、低结合药物三个等级的数据集；(3)计算分子描述符的数据值，并进行相关性筛选，选出与药物蛋白结合率最相关的一组分子描述符；(4)采用机器学习算法，分别建立三个等级的定量预测模型；(5)将药物分子的分子描述符代入对应等级的定量预测模型，对药物分子的蛋白结合率进行预测。本申请可提高高结合药物PPB预测的准确度，解决现有技术中高结合药物PPB预测准确度低的问题。

Description

一种基于结构和等级分类的药物蛋白结合率预测方法及系统

技术领域

本申请属于药物设计技术领域，具体涉及药物蛋白结合率的预测，尤其是涉及一种基于结构和等级分类的药物蛋白结合率预测方法及系统。

背景技术

药物从给药部位吸收进入血液后，一部分与血浆蛋白结合，成为结合型药物，一部分呈游离的分子状态，而药物只有为游离型时才能发挥药效

药物与血浆蛋白的结合不仅对药物在体内的吸收、分布、代谢、排泄过程均有影响，而且与药物的药理作用强度密切相关。因此，研究药物的血浆蛋白结合率不仅有利于知道药物的给药方案设计和安全性评价，而且对于火星成分成药性研究亦具有重要意义。

药物在血浆中不同程度地与血浆蛋白结合，其结合程度能够影响药物的体内过程(ADME),即机体对药物的处置过程，进而影响药物的药效学行为。因此,药物蛋白结合率(PPB)可以作为治疗药物监测及ADME评估的重要参数。

游离药物才能透过细胞膜并与靶点结合，药物与血浆蛋白的结合是一个可逆的过程，处于平衡状态。高血浆蛋白结合可能与药物安全性问题和一些不良反应相关，如低清除率，低脑渗透，药物-药物相互作用，功效丧失，同时通过体内立体选择性结合影响对映体和非对映异构体的命运。药物药代动性质是仅次于毒性导致候选药物临床试验失败的原因。在90年代末出现了基于药物相似性和基于性质的药物设计概念以期解决药代动挑战。因此，在整体药物设计方法中，认为药代性质与靶点亲和力同样重要，大量的研究聚焦于PPB预测。

随着信息技术的发展，很多文献报道了预测血浆蛋白结合率的方法，主要包括基于配体以及基于结构进行预测，采用单一机器学习算法进行预测，大部分方法在高结合药物部分准确度较低，相对低中结合而言，在体内易发生相互作用以及不良反应主要集中于高结合药物。

发明内容

本发明要解决的技术问题是：解决高结合药物预测准确度低的问题。

为解决该技术问题，本发明提供了一种基于结构和等级分类的药物蛋白结合率预测方法，可以提高高结合药物预测准确度，减少新药设计研发风险，增加预测方法应用性。

本发明解决其技术问题所采用的技术方案是：一种基于结构和等级分类的药物蛋白结合率预测方法，包括如下步骤：

(1)收集不同药物分子的蛋白结合率数据值以及相应的结构编码，并对收集的药物分子的蛋白结合率数据值进行处理，去除重复的药物分子；

(2)根据步骤(1)得到的药物分子的蛋白结合率数据值分为三个等级的数据集，即：高结合药物数据集、中结合药物数据集和低结合药物数据集，并将三个等级的数据集分别划分训练集和测试集；

(3)计算药物分子的分子描述符的数据值，用所述的分子描述符编码分子结构，同时对分子描述符进行相关性筛选，筛选出与药物蛋白结合率最相关的一组分子描述符；

(4)根据步骤(3)得到的分子描述符，采用机器学习算法，分别建立三个等级的定量预测模型；

(5)当对某一药物的药物蛋白结合率进行预测时，首先根据其分子描述符参数判断药物蛋白结合率等级，并将所述分子描述符参数代入对应等级的定量预测模型对药物蛋白结合率进行预测。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，步骤(2)中，当PPB≥0.8时，为高结合药物；当0.4≤PPB≤0.8时，为中结合药物；当PPB<0.4时，为低结合药物。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，步骤(3)中，采用PaDEL-Descriptor软件计算分子描述符。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，步骤(4)中，采用多种机器学习算法建立定量预测模型，同时对各定量预测模型的预测结果进行平均，得到平均共识模型。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，所述的机器学习算法包括随机森林、提升树，k-最近邻居，支持向量回归和梯度提升回归。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，步骤(4)中，将三个等级的数据集分别按8:2的比例划分为训练集以及测试集。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，步骤(1)中，对药物分子蛋白结合率数据值进行处理的方法为：

(a)对收集的药物分子的蛋白结合率数据值进行处理，对蛋白结合率数据值属于一个数值范围的药物分子，确定一个固定值的蛋白结合率；

(b)根据药物分子的命名，结构编码以及性质，对重复的药物分子进行排查；

(c)对药物分子结构进行简单的处理。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，(a)中，若收集的蛋白结合率数据值在一个数值区间内，则取该数值区间的均值作为药物分子的蛋白结合率数据值；

若收集的蛋白结合率大于或小于定值，如果有更可靠的数据来源，则选择更可靠来源的数据值作为药物分子的蛋白结合率数据值，如果没有，则取该定值。

进一步优化地，根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法，(b)中，对重复的药物分子进行排查的方法为：重复的药物分子中，PPB值相同的，去除重复的即可；PPB值不同的，进行比较后，取来源更可靠的。

本申请还提供了一种药物蛋白结合率预测系统，所述药物蛋白结合率预测系统包括：

数据处理模块，用于对收集得到的药物分子的蛋白结合率数据值进行处理，去除重复的药物分子；

等级划分模块，用于将药物分子的蛋白结合率数据值分为三个等级的数据集，即：高结合药物数据集、中结合药物数据集和低结合药物数据集；

分子描述符计算模块，用于计算分子描述符的数据值，并进行相关性筛选，选出与药物蛋白结合率最相关的一组分子描述符；

建模模块，用于采用机器学习算法，分别建立三个等级的定量预测模型；

预测模块，用于将药物分子的分子描述符代入对应等级的定量预测模型，对药物分子的蛋白结合率进行预测。

本发明的有益效果是：可以提高高结合药物预测准确度，减少新药设计研发风险，增加预测方法应用性。

附图说明

下面结合附图和实施例对本申请的技术方案进一步说明。

图1是本申请实施例预测方法流程图；

图2a、图2b和图2c分别是根据ADMET Predictor软件、PaDEL-Descriptor软件和Dragon软件计算的分子描述符进行PPB预测的标准误差分布图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本申请的技术方案。

实施例

本实施例提供一种基于结构和等级分类的药物蛋白结合率预测方法，如图1所示，包括：

步骤1，数据的收集和处理：

(1)通过查阅文献和数据库，共收集了12646个药物分子的蛋白结合率(PPB)数据值以及相应的结构编码。

(2)对收集数据进行处理：

若收集的PPB值在一个数值区间内(例如：0.96～0.97)，则取该数值区间的均值作为药物分子的PPB值；若收集的PPB值大于或小于某一个定值(例如：>0.99)，如果有更可靠的数据来源，则选择更可靠来源的PPB值作为药物分子的PPB值，如果没有，则取该定值0.99作为药物分子的PPB值。

根据药物分子的命名，结构编码以及性质，对重复的药物分子进行排查，重复的药物分子中，PPB值相同的，去除重复的即可；PPB值不同的，进行比较后，取来源更可靠的。

对药物分子结构进行简单的处理，例如：结构编码中包括盐的去除盐，保留母体化合物，同位素的保留母体化合物，最后，获得了6741个药物分子的PPB值。

步骤2，将PPB值划分等级：

将药物分子的蛋白结合率数据值分为三个等级的数据集，即：高结合药物数据集(H)、中结合药物数据集(M)和低结合药物数据集(L)。

当PPB≥0.8时，划分到高结合药物数据集；当0.4≤PPB≤0.8时，划分到中结合药物数据集；当PPB<0.4时，划分到低结合药物数据集。

将三个等级的数据集分别按8:2的比例划分为训练集和测试集。

步骤3，计算分子描述符

分子描述符是对分子的结构和物理化学属性的定量描述符号，用来表征分子化学结构信息，编码分子结构。

使用Open Babel软件将H、M、L三个等级的数据集的结构编码转化为sdf格式的3D结构集。使用免费软件PaDEL-Descriptor(PD)计算6741个药物分子的分子描述符的取值，共产生1876个分子描述符。

同时也使用了商用软件ADMET Predictor以及Dragon计算6741个药物分子的分子描述符的取值，相应分别产生448和5271个分子描述符。

步骤4，对分子描述符进行相关性分析和筛选：

在步骤5计算得到的分子描述符中，包含字符、数值、非数值、空值和无穷大。对于每个分子描述符，将字符、空值转换为非数值，将较大的数值(包括正无穷大)转换为1000000，将较小的数值(包括负无穷大)转换为-1000000。

计算每个分子描述符上非数值的数量M，如果M/6471>0.2，则认为该分子描述符信息缺失过多，将该分子描述符所有值转换为0；否则，认为该分子描述符缺失的信息是可以接受的，用剩余数值的平均值填充这些缺失的值。

在对血浆蛋白结合率预测时，常量或接近常量的分子描述符对预测没有影响，这些分子描述符是冗余的，将它们去除。对清理后的分子描述符数据产生一个副本集，对该副本集中的每个分子描述符进行归一化，然后计算每个分子描述符的方差V，如果V<0.005，则认为该分子描述符是冗余的，将其去除，最后，由ADMET Predictor软件、PaDEL-Descriptor软件和Dragon软件计算得到的分子描述符分别剩下218、862和2276个。

相关性筛选：在去除常量分子描述符后的数据集中选取20个与PPB预测最相关的分子描述符。这些分子描述符的选取是通过sklearn库的sklearn.feature_selection.f_regression检验函数选取的。

步骤5，去除潜在离群点：

在经过步骤4后，会有部分分子的特征十分相似甚至完全相等，而它们的PPB却相差很大，这显然与QSAR的假设不符。除了这些分子，还有可能有部分分子因为收集的PPB与实际PPB有较大差异，也会与QSAR的假设不符。显然这些分子是离群点，会对预测产生较不好的影响，将它们去除。

通常，这些离群点的预测会有较大误差，利用此特性去除它们。利用随机森林(RF)方法，通过10倍交叉验证，将预测的误差标准化，得到如图2a-图2c所示的标准误差分布，这些分布大致近似标准正态分布。将标准误差的绝对值在2.58以外(正态分布1％的数据)的值认为是离群点，将它们去除。由ADMET Predictor软件计算的描述符、PaDEL-Descriptor软件计算的描述符和Dragon软件计算的描述符构建的模型分别剩下6490、6529和6521个分子。

步骤6，模型建立：

根据步骤(3)得到的分子描述符参数，采用机器学习算法，对三个等级的数据集分别建立基于定量构效关系(Quantitative Structure-Activity，QSAR)的定量预测模型；

作为进一步地优化，为了克服单个模型的局限性，本实施例提出了聚合方案来构建共识模型，即平均共识。分别采用随机森林(RF)和增强树(BT)，k-最近邻居(kNN)，支持向量回归(SVR)和梯度提升回归(GBR)等机器学习算法建立单个定量预测模型，同时构建平均共识模型：不考虑各机器算法建立的单个定量预测模型的贡献差异，简单地平均单个定量预测模型进行预测，即：平均共识模型预测值＝(kNN预测值+SVR预测值+RF预测值+BT预测值+GBR预测值)/5。

步骤7，模型评价

本实施例采用十倍交叉验证(10-CV)策略来校准定量预测模型。评估定量预测模型预测能力的三个参数为：可决系数R²、平均绝对误差MAE和均方根误差RMSE。其中，MAE、RMSE是误差指标，值越小说明预测误差越小，模型越好，R²为相关性指标，越接近1，模型拟合性越好。

R²：提供有关模型拟合优度，在回归中，是回归预测与实际数据点的近似程度的统计度量。描述实际值与预测值的相关性趋势，不是预测误差的直接描述，当数据存在非常大偏离分布时，只分析R²可能会导致模型评价错误。

MAE：用于评估预测值与实际值之间的距离。是预测误差的更简单以及更直接的描述。

RMSE：也称为预测误差的标准差，也可用于量化模型质量。预测误差直接描述，更关注不利预测，灵敏度高。

x_i是实际值，y_i是预测值,

是实际值的平均值，N是化合物的数量。

如表1所示，分别列举了根据PaDEL-Descriptor软件、ADMET Predictor软件、Dragon软件计算得到的描述符参数建立的单个定量预测模型以及平均共识模型的预测能力评价指标。

表1

步骤8，模型确定：

从表1可以看出，采用PaDEL-Descriptor软件计算的参数与采用ADMETPredictor、Dragon软件计算得到的参数分别建立的模型预测能力相当。由于PaDEL-Descriptor为免费软件，本实施例选择PaDEL–Descriptor计算得到的20个分子描述符。

根据该20个分子描述符，采用机器学习算法，得到三个等级的定量预测模型，分别对应为：高(PPB≥80％)，中(40≤PPB<80)，低(PPB<40)。

步骤9，药物蛋白结合率预测：

当对某一药物分子的药物蛋白结合率进行预测时，首先根据其分子描述符参数判断药物蛋白结合率等级，并将所述分子描述符参数代入步骤8中得到的对应等级的定量预测模型，对药物蛋白结合率进行预测。

预测系统实施例：

本实施例提供了一种药物蛋白结合率预测系统，所述药物蛋白结合率预测系统包括：

以上述依据本申请的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项申请技术思想的范围内，进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于结构和等级分类的药物蛋白结合率预测方法，其特征在于，所述预测方法包括如下步骤：

（1）收集不同药物分子的蛋白结合率数据值以及相应的结构编码，并对收集的药物分子的蛋白结合率数据值进行处理，去除重复的药物分子；

（2）根据步骤（1）得到的药物分子的蛋白结合率数据值分为三个等级的数据集，即：高结合药物数据集、中结合药物数据集和低结合药物数据集，并将三个等级的数据集分别划分训练集和测试集；

（3）计算药物分子的分子描述符的数据值，用所述的分子描述符编码分子结构，同时对分子描述符进行相关性筛选，筛选出与药物蛋白结合率最相关的一组分子描述符；

（4）根据步骤（3）得到的分子描述符，采用机器学习算法，分别建立三个等级的定量预测模型；

（5）当对某一药物的药物蛋白结合率进行预测时，首先根据其分子描述符参数判断药物蛋白结合率等级，并将所述分子描述符参数代入对应等级的定量预测模型对药物蛋白结合率进行预测；

步骤（2）中，当PPB≥0.8时，划分到高结合药物数据集；当0.4≤PPB≤0.8时，划分到中结合药物数据集；当PPB<0.4时，划分到低结合药物数据集；

步骤（3）中，使用Open Babel软件将H、M、L三个等级的数据集的结构编码转化为sdf格式的3D结构集；

在步骤（3）计算得到的分子描述符中，包含字符、数值、非数值、空值和无穷大；对于每个分子描述符，将字符、空值转换为非数值，将较大的数值转换为1000000，将较小的数值转换为-1000000；

计算每个分子描述符上非数值的数量M，如果M/6471 > 0.2，则认为该分子描述符信息缺失过多，将该分子描述符所有值转换为0；否则，认为该分子描述符缺失的信息是可以接受的，用剩余数值的平均值填充这些缺失的值；

对清理后的分子描述符数据产生一个副本集，对该副本集中的每个分子描述符进行归一化，然后计算每个分子描述符的方差V，如果V < 0.005，则认为该分子描述符是冗余的，将其去除；

如有部分分子的特征相似或完全相等，而且PPB相差很大，则认定这部分分子是离群点，进行去除；

步骤（1）中，对药物分子的蛋白结合率数据值进行处理的方法为：

（a）对收集的药物分子的蛋白结合率数据值进行处理，对蛋白结合率数据值属于一个数值范围的药物分子，确定一个固定值的蛋白结合率；

（b）根据药物分子的命名，结构编码以及性质，对重复的药物分子进行排查；

（c）对药物分子结构进行简单的处理；

（a）中，若收集的蛋白结合率数据值在一个数值区间内，则取该数值区间的均值作为药物分子的蛋白结合率数据值；

2.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法，其特征在于，步骤（3）中，采用PaDEL-Descriptor软件计算分子描述符。

3.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法，其特征在于，步骤（4）中，采用多种机器学习算法建立定量预测模型，同时对各定量预测模型的预测结果进行平均，得到平均共识模型。

4.根据权利要求3所述的基于结构和等级分类的药物蛋白结合率预测方法，其特征在于，所述的机器学习算法包括随机森林、提升树，k-最近邻居，支持向量回归和梯度提升回归。

5.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法，其特征在于，步骤（2）中，将三个等级的数据集分别按8:2的比例划分为训练集以及测试集。

6.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法，其特征在于，(b)中，对重复的药物分子进行排查的方法为：重复的药物分子中，PPB值相同的，去除重复的即可；PPB值不同的，进行比较后，取来源更可靠的。

7.一种药物蛋白结合率预测系统，其特征在于，能够执行如权利要求1-6任一项所述的基于结构和等级分类的药物蛋白结合率预测方法，

所述药物蛋白结合率预测系统包括：