CN110428864A

CN110428864A - 用于构建蛋白质和小分子的亲和力预测模型的方法

Info

Publication number: CN110428864A
Application number: CN201910645423.1A
Authority: CN
Inventors: 车超; 赵撼宇; 张强; 周东生
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-11-08

Abstract

本发明公开了用于构建蛋白质和小分子亲和力预测模型的方法。首先，进行蛋白质的特征提取，利用氨基酸的理化属性将20类氨基酸归为6类；然后通过滑动窗口生成新序列，有效地提取边界信息；最后结合word2vec算法提取氨基酸之间的位置关系。随后提取小分子化合物的物化属性特征，利用多重插补法对物化属性的缺失值进行填充。最后，使用LightGBM算法对蛋白质和小分子的亲和力进行预测。与现有预测模型相比，本发明提出的蛋白质特征提取算法可以有效捕捉边界信息，所使用的多重插补法利用贝叶斯估计理论，在生成的多组候选插补值中选择合适的值，所使用的LightGBM通过梯度的迭代，可以高效进行回归预测，减少过拟合。

Description

用于构建蛋白质和小分子的亲和力预测模型的方法

技术领域

本发明涉及生物制药方法领域，具体为用于构建蛋白质和小分子的亲和力预测模型的方法。

背景技术

生物制药产业对于国民经济和人类社会具有重大意义，但是实践表明，新药的研发过程中普遍存在着研发周期长、研发成本高、失败率高这三个重大问题。一个药物从理论研究到工业开发，再到临床应用，需要经过靶点确认、先导物发现和优化、临床前研发、临床试验I期、II期、III期试验后才能上市销售，其中每个步骤的失败，都有可能存在前功尽弃的风险。根据Tufts药物研发中心统计，平均研发成本高达28.7亿美元，平均研发时间是116.1个月，大约10年，但成功率只有11.83% 。而机器学习技术在生物制药上的应用可以有效地推动这三个问题的解决，提升新药研发的成功率。

例如，申请号为2019101176935的中国专利提供了一种靶点蛋白质与小分子结合预测方法及系统，通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据；将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量；将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果。本发明所提供的方法及系统，提取了相互作用直接相关的活性口袋部分表示蛋白，有利于去除非相关信息，减少噪音，进而提高准确性。虽然该方法针对的实验对象是已知的靶点蛋白及其构合物，但是对蛋白质和小分子化合物亲和力的预测模型的构建提供了有力的佐证。只是由于该预测中蛋白质的特异性较强，不适宜用来构建大部分蛋白质和小分子化合物的预测模型。而申请号2012104409102的中国专利公开了基于分子描述符的蛋白质 - 配体亲和力预测方法，构建完善而系统的分子描述符反映蛋白质- 配体亲和力，采用支持向量回归的方法建立描述符与亲和力的关系。该方法主要基于分子描述符和回归模型的方法，靶点依赖性小、对同系物敏感性高。但是该方法的应用容易出现过拟合，影响预测的准确度和效率。

发明内容

为了更好的对蛋白质和用于制药的小分子化合物的亲和力进行预测，本发明提出一种新的用于构建蛋白质与小分子化合物亲和力预测模型的方法。

为实现上述目的，本发明采用的技术方案包括以下步骤：

步骤1：对蛋白质的一级结构进行编码，作为模型的输入；

步骤2：对编码后的蛋白质序列进行特征提取；

步骤3：对小分子化合物及其物化属性的缺失值进行填充；

步骤4：利用LightGBM对蛋白质与小分子化合物亲和力进行预测。

进一步改进的是，所述的步骤1的主要步骤的依据如下：

为了更好地表示蛋白质序列，需要对蛋白质的一级结构进行编码。蛋白质一级结构是肽或蛋白质中氨基酸构成的线性序列，通常用字母串来表示，在字母串中我们用单个字母表示20种天然存在的氨基酸以及混合物。例如，β-Carbonic蛋白质的一级结构的部分片段为’MPLFSFEGRSPRIDPTAFVAPTAT LIGDVTIEAGASVWFNAVL’。

进一步改进的是，所述的步骤2的主要步骤的依据如下：

首先将20种氨基酸按照生物化学特性分成6类，依次是A = {𝐻, 𝑅, 𝐾}, B = {𝐷, 𝐸,𝑁, 𝑄}, C = {𝐶}, D = {𝑆, 𝑇, 𝑃, 𝐴, 𝐺},E = {𝑀, 𝐼, 𝐿, 𝑉}, and F={𝐹,𝑌,𝑊}。这样的话所述的β-Carbonic蛋白质序列就可以表示为‘EDEFDFBDADAEBDDDFEDDDDDEEDBEDEBBDDDDEFFBDEE’。利用这种方法得到的新片段的组合为6^3=216种，可以在一定程度上避免维度灾难的发生。然后采用滑动窗口，步数为1，从而得到3组不重叠的蛋白质序列。在此基础上进行词向量的训练，最后将3组序列的词向量相加得到最终的蛋白质序列的向量表示。

所述的步骤3的主要步骤的依据如下：

为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整的数据集合。每个插补数据集合都用针对完整数据集的统计方法进行统计分析。对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

进一步改进的是，所述的步骤4的主要步骤的依据如下：

LightGBM算法是基于histogram的决策树算法，把连续的浮点特征值离散化成 k 个整数，同时构造出一个宽度为 k 的直方图。

在遍历数据时，以离散化后的值为索引，在直方图中累积统计量，一次数据遍历后，根据直方图的离散值遍历累积的统计量，寻找最优的分割点。

LightGBM中决策树子模型采用带深度限制的 Leaf-wise叶子生长策略，通过在Leaf-wise 之上增加一个最大深度的限制，在保证高效的同时也可以有效的防止了过拟合。

与现有蛋白质特征预测模型相比，本发明提出的蛋白质特征提取算法模型可以有效捕捉边界信息，所使用的多重插补法利用贝叶斯估计理论，在生成的多组候选插补值中选择合适的值，而所使用的LightGBM通过梯度的迭代，可以高效进行回归预测，减少过拟合。因而本发明提出的构建蛋白质和小分子化合物的亲和力模型的方法可以很大程度上有效地解决生物制药研发周期长的难题，提升新药研发的成功率和成果转化率，大大节省了研发资源和成本，显然具备巨大的潜在经济效益。

附图说明

图1为蛋白质特征提取步骤图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细说明。

为了更好地对蛋白质和小分子化合物的亲和力进行预测，本发明提出一种新的蛋白质特征提取算法来提取蛋白质特征；运用多重插补法来填充小分子化合物物化属性的缺失值；使用LightGBM来对蛋白质和小分子化合物的亲和力进行预测。

实施例：构建蛋白质与小分子化合物亲和力预测模型的方法的具体步骤如下：

步骤1：对蛋白质的一级结构进行编码，作为模型的输入；

步骤2：对编码后的蛋白质序列进行特征提取；

步骤3：对小分子化合物的物化属性的缺失值进行填充；

步骤4：利用LightGBM对蛋白质与小分子化合物亲和力进行预测；

按照上述步骤，将本发明分别与常用的蛋白质特征提取算法、常用的缺失值填充算法和常用的回归模型构建算法进行对比试验。具体试验结果如表1-表3所示：

表1蛋白质特征提取算法对比

Future Extraction methods	RMSE
		343-dimensional feature vector	1.3496
56-dimensional feature vector	1.3138
		Word2Vec	1.2631
本发明的方法	1.2481

表2 数据填充方法对比

Model	RMSE
		Raw Data	1.2481
Mean Completer Imputation	1.2782
		K-means Clustering Imputation	1.2476
Line Regression Imputation	1.2512
		Multiple Imputation	1.2333

表3 模型对比

Model	RMSE
		LR	1.2972
svm	1.2476
		LightGBM	1.2333

本发明采用了均方根误差（RMSE）来衡量模型预测的效果。均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根，其值越小，说明模型预测的效果越好。通过以上对比试验说明本发明模型的RMSE低于其他的对比方法，预测性能更好。实际上该模型提出了一种提取蛋白质特征的新方法；该算法运用多重插补法来填充小分子化合物物化属性的缺失值；并使用LightGBM来对蛋白质和小分子化合物的亲和力进行预测。

综上所述，本发明所提出的新的蛋白质特征提取算法来提取蛋白质特征的方法；运用多重插补法来填充小分子化合物的物化属性的缺失值；使用LightGBM来对蛋白质和小分子化合物的亲和力进行预测。主要步骤在于首先通过氨基酸理化属性将20类氨基酸表示成6类，有效地解决维度灾难问题；然后通过滑动窗口生成新序列，有效的提取边界信息；最后通过结合word2vec算法有效的提取氨基酸之间的位置关系。多重插补法在对小分子化合物物化属性进行填充时，利用贝叶斯估计理论，可以在生成的多组候选插补值中，选择合适的值，完善预测对象的完整度。最后使用的LightGBM通过梯度的迭代，可以更有效地进行回归预测，减少过拟合现象。

以上所述仅为本发明较佳的具体实施方式，在此不可能也没必要列举所有可能的实施例，因此本发明的保护范围并不局限于此；任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其主要精神加以等同替换或改变，均属于本发明的保护范围，本发明的保护范围由权利要求书及其等同物确定。

Claims

1.用于构建蛋白质与小分子化合物亲和力预测模型的方法，其特征在于：包括以下步骤：

步骤1：对蛋白质的一级结构进行编码，作为模型的输入；

步骤2：对编码后的蛋白质序列进行特征提取；

步骤3：对小分子化合物的物化属性的缺失值进行填充；

2.根据权利要求1所述的用于构建蛋白质与小分子化合物亲和力预测模型的方法，其特征在于：所述的步骤1的主要步骤是根据：

为了更好地表示蛋白质序列，需要对蛋白质的一级结构进行编码；

蛋白质一级结构是肽或蛋白质中氨基酸构成的线性序列，通常用字母串来表示，在字母串中我们用单个字母表示20种天然存在的氨基酸及其混合物；例如β-Carbonic蛋白质的一级结构的部分片段为”MPLFSFEGRSPRIDPTAFVAPTAT LIGDVTIEAGASVWFNAVL”。

3.根据权利要求1所述的用于构建蛋白质与小分子化合物亲和力预测模型的方法，其特征在于：所述的步骤2的主要步骤是根据：

首先将20种氨基酸按照生物化学特性分成6类，依次是A = {𝐻, 𝑅, 𝐾}, B = {𝐷, 𝐸,𝑁, 𝑄}, C = {𝐶}, D = {𝑆, 𝑇, 𝑃, 𝐴, 𝐺},E = {𝑀, 𝐼, 𝐿, 𝑉}, and F={𝐹,𝑌,𝑊}；这样上述β-Carbonic蛋白质序列就变为‘EDEFDFBDADAEBDDDFEDDDDDEEDBEDEBB DDDDEFFBDEE’；这种方法得到的新片段的组合为6^3=216种,可以在一定程度上降低维度灾难；

然后，采用滑动窗口，步数为1，从而得到3组不重叠的序列，在此基础上进行词向量的训练；

最后，将3组序列的词向量相加得到最终的蛋白质序列的向量表示。

4.根据权利要求1所述的用于构建蛋白质与小分子化合物亲和力预测模型的方法，其特征在于，所述的步骤3的主要步骤是根据：

为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合，每个插补数据集合都用针对完整数据集的统计方法进行统计分析；对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

5.根据权利要求1所述的一种蛋白质与小分子化合物亲和力预测模型，其特征在于：所述的步骤4的主要步骤是根据：

LightGBM是基于histogram的决策树算法，把连续的浮点特征值离散化成 k 个整数，同时构造一个宽度为 k 的直方图；

遍历数据时，以离散化后的值为索引，在直方图中累积统计量，一次数据遍历后，根据直方图的离散值遍历累积的统计量，寻找到最优的分割点；LightGBM中决策树子模型采用带深度限制的 Leaf-wise叶子生长策略，通过在Leaf-wise 之上增加一个最大深度的限制。