CN102930169B

CN102930169B - 基于灰色理论和分子指纹的药物-靶标结合预测方法

Info

Publication number: CN102930169B
Application number: CN201210440292.1A
Authority: CN
Inventors: 肖绚; 闵建亮
Original assignee: Jingdezhen Ceramic Institute
Current assignee: Jingdezhen Ceramic Institute
Priority date: 2012-11-07
Filing date: 2012-11-07
Publication date: 2015-04-01
Anticipated expiration: 2032-11-07
Also published as: CN102930169A

Abstract

本发明公开了基于灰色理论和分子指纹的药物-靶标结合预测方法，基于灰色理论GM（1,1）模型生成蛋白质伪氨基酸成分，结合蛋白质序列氨基酸成分将靶标蛋白质序列转换成21维空间向量；通过药物分子指纹软件将药物分子描述成一个256维空间向量；将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成277维空间向量，作为药物-靶标结合描述符；采用模糊K近邻法对训练集进行训练，得出预测器最佳参数，将药物-靶标结合描述符输入预测器预测药物和靶标是否有关联，本方法不需要测出蛋白质的三维结构，只需蛋白质的一维序列加上药物分子指纹就可预测药物与蛋白质是否可结合，预测成功率高。

Description

基于灰色理论和分子指纹的药物-靶标结合预测方法

技术领域

本发明属于药物-靶标结合技术领域，尤其涉及基于灰色理论和分子指纹的药物-靶标结合预测方法。

背景技术

在药物设计过程中识别药物-靶标结合是一个重要的步骤。在最近几年，人类为发现新的药物付出了巨大的努力，但新药出现的数量还是很低（每年大约30余种）。部分原因在于许多潜在的药物具有不可接受的毒性。如果能开发出在药物合成前就能预测其敏感性和毒性的算法将是非常有益的。药物有许多作用（包括正和副作用），而人类具有非常复杂的生化反应途径，即使是一些具有微小差别基因的人群对同一药物也可能产生完全不同的反应，导致发现和解释这些可能的作用是非常困难的，采用实验方法测定药物-靶标结合既费时也费力，因此设计能预测药物和靶标之间是否能结合的算法对开发新药将会有帮助。

随着信息技术的发展，如今科学家已经开发出许多能分析和预测药物-靶标结合的计算方法，例如docking仿真法、药效团法、功能团法、文献挖掘法、联合化学结构法和3D结构信息法等，这些方法对发现新药物都起到了很大作用，但必须看到，这些方法大都需要靶标蛋白质的三维结构信息。而随着生物技术的发展，越来越多的蛋白质序列被测序，但未知结构信息的蛋白质数量远远超过已知结构的蛋白质数量，而且有些蛋白质的结构虽然被测定，但由于私人利益关系并没有公布，所以设计出基于蛋白质一级序列预测药物-蛋白质靶标是否结合的方法非常必要。

发明内容

本发明提供了基于灰色理论和分子指纹的药物-靶标结合预测方法，旨在解决现有技术提供的分析和预测药物-靶标结合的计算方法，大都需要靶标蛋白质的三维结构信息，才能判断药物与蛋白质是否能够结合，而蛋白质的三维结构信息的获取较为烦琐，有些蛋白质的结构虽然被测定，但由于私人利益关系并没有公布，限制了新药物的发现的问题。

本发明的目的在于提供基于灰色理论和分子指纹的药物-靶标结合预测方法，该预测方法包括以下步骤：

步骤一，基于灰色理论GM（1,1）模型生成蛋白质伪氨基酸成分，结合蛋白质序列氨基酸成分将靶标蛋白质序列转换成21维空间向量；

步骤二，通过药物分子指纹软件将药物分子描述成一个256维空间向量；

步骤三，将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成277维空间向量，作为药物-靶标结合描述符；

步骤四，采用模糊K近邻法对训练集进行训练，得出预测器最佳参数，将药物-靶标结合描述符输入预测器预测药物和靶标是否有关联。

进一步，基于灰色模型GM（1,1）的蛋白质靶标伪氨基酸成分离散模型如下：

蛋白质一级结构是由20种英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y组成，这20个字母分别代表20种氨基酸，蛋白质一级结构决定了蛋白质的三维结构和功能；

表1列出了10种氨基酸数字编码模型，这些模型都反映了氨基酸的各种物理化学特性，通过氨基酸数字编码模型能将蛋白质序列转换成离散的数字信号，例如的就是蛋白质序列中第一个氨基酸所对应的数字，是序列的长度；

灰色模型GM（1,1）模型是将离散的随机数经过依次累加成算子，削弱其随机性，得到较有规律的生成数，然后建立微分方程、解方程进而建立模型，模型中有两个参数a是灰色发展系数，b是灰色输入系数，它们是描述序列特征的参数；

其中：

蛋白质离散模型常用于描述蛋白质序列，其中伪氨基酸成分法是最常有的，其公式如下：

这里P表示蛋白质序列，前面20维向量表示20种氨基酸在序列中的比例，后面维向量为伪氨基酸成分，因为氨基酸成分将序列的前后顺序关系全部丢失，所以采用伪氨基酸成分用于描述序列中氨基酸的前后顺序关系，将参数a和b作为伪氨基酸成分，得到蛋白质序列的21维向量描述，

这里m是指训练集中的药物-靶标结合对数量。

进一步，药物分子指纹描述如下：

药物分子都是已知三维结构的，为了对药物-靶标结合进行预测，采用分子指纹OpenBabel工具，将药物三维结构转换成数字向量，OpenBabel输出有四种格式 FP2, FP3, FP4 and MACCS，采用FP2 将药物分子三维结构转换成256维的空间向量，将此向量看作一个数字信号，对其进行离散傅里叶变换，得到256个频谱值，对其求模得出256个正实数作为描述药物三维结构的描述符，具体计算公式如下：

这里是第FP2格式中的第i个数。

进一步，基于模糊K近邻的药物-靶标结合预测如下：

将描述蛋白质靶标和药物分子的向量组合成一个新的向量作为描述药物和蛋白质靶标结合对用于训练，训练集从http://www.kegg.jp/kegg/下载，包括蛋白质序列和药物分子结合对，将其作为正训练集，负训练集采用不包含在正训练集中的蛋白质与药物结合对，机器学习方法采用模糊K近邻法，通过训练得到最佳参数，就可对药物-靶标进行预测。

进一步，采用该预测方法用于离子通道蛋白靶标与药物结构预测时，具体步骤如下：

基于灰色模型GM（1,1）的蛋白质靶标伪氨基酸成分离散模型中的第十种氨基酸编码模型，所有编码值都加上1.2后，得出描述离子通道蛋白靶标的21维空间向量；

将药物分子代码输入到KEGG数据库中，得到包含此药物分子化学结构信息的mol文件，将此mol文件输入到OpenBabel软件中，使用FP2格式分子指纹，可得到256个0到15的值，将其作为离散数字信号，进行傅里叶变换，得到256个频谱值，作为描述药物分子的256维向量；

将描述蛋白质靶标的21维向量组合描述药物分子的256维向量，得到描述药物-靶标结合对277维向量；

采用模糊K近邻法对训练集进行训练，训练集从http://www.kegg.jp/kegg/下载，训练集中包含1372个离子通道蛋白-药物对作为正数据集，得到2744个数据作为负数据集。

进一步，模糊K近邻法中参数m=1.8 和 K=4时得到最佳预测，预测成功率为86.9%。

本发明提供的基于灰色理论和分子指纹的药物-靶标结合预测方法，基于灰色理论GM（1,1）模型生成蛋白质伪氨基酸成分，结合蛋白质序列氨基酸成分将靶点蛋白质序列转换成21维空间向量；通过药物分子指纹软件将药物分子描述成一个256维空间向量；将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成277维空间向量，作为药物-靶标结合描述符；采用模糊K近邻法对训练集进行训练，得出预测器最佳参数，将药物-靶标结合描述符输入预测器预测药物和靶点是否有关联，该预测方法不需要测出蛋白质的三维结构，只需蛋白质的一维序列加上药物分子指纹就可预测药物与蛋白质是否可以结合，克服了现有方法需要知道蛋白质三维结构的缺点，预测成功率比现有采用功能团描述药物分子结构方法提高6%以上，具有较强的推广与应用价值。

附图说明

图1是本发明实施例提供的基于灰色理论和分子指纹的药物-靶标结合预测方法的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定发明。

图1示出了本发明实施例提供的基于灰色理论和分子指纹的药物-靶标结合预测方法的实现流程。

该预测方法包括以下步骤：

步骤S101，基于灰色理论GM（1,1）模型生成蛋白质伪氨基酸成分，结合蛋白质序列氨基酸成分将靶点蛋白质序列转换成21维空间向量；

步骤S102，通过药物分子指纹软件将药物分子描述成一个256维空间向量；

步骤S103，将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成276维空间向量，作为药物-靶标结合描述符；

步骤S104，采用模糊K近邻法对训练集进行训练，得出预测器最佳参数，将药物-靶标结合描述符输入预测器预测药物和靶点是否有关联。

在本发明实施例中，基于灰色模型GM（1,1）的蛋白质靶标伪氨基酸成分离散模型如下：

其中：

这里m是指训练集中的药物-靶标结合对数量。

在本发明实施例中，药物分子指纹描述如下：

这里是第FP2格式中的第i个数。

在本发明实施例中，基于模糊K近邻的药物-靶标结合预测如下：

在本发明实施例中，采用该预测方法用于离子通道蛋白靶标与药物结构预测时，具体步骤如下：

基于基于灰色模型GM（1,1）的蛋白质靶标伪氨基酸成分离散模型中的第十种氨基酸编码模型，所有编码值都加上1.2后，得出描述离子通道蛋白靶标的21维空间向量；

在本发明实施例中，模糊K近邻法中参数m=1.8 和 K=4时得到最佳预测，预测成功率为86.9%。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

具体的技术方案描述：

1）基于灰色模型GM（1,1）的蛋白质靶标伪氨基酸成分离散模型

蛋白质一级结构是由20种英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y组成，这20个字母分别代表20种氨基酸，蛋白质一级结构决定了蛋白质的三维结构和功能。

表1列出了10种氨基酸数字编码模型，这些模型都反映了氨基酸的各种物理化学特性。通过氨基酸数字编码模型能将蛋白质序列转换成离散的数字信号，例如的就是蛋白质序列中第一个氨基酸所对应的数字，是序列的长度。

灰色模型GM（1,1）模型是将离散的随机数经过依次累加成算子，削弱其随机性，得到较有规律的生成数，然后建立微分方程、解方程进而建立模型。模型中有两个参数，a是灰色发展系数，b是灰色输入系数，它们是描述序列特征的参数。

其中：

这里P表示蛋白质序列，前面20维向量表示20种氨基酸在序列中的比例，后面维向量为伪氨基酸成分。因为氨基酸成分将序列的前后顺序关系全部丢失，所以采用伪氨基酸成分用于描述序列中氨基酸的前后顺序关系。将参数a和b作为伪氨基酸成分，得到蛋白质序列的21维向量描述，

这里m是指训练集中的药物-靶标结合对数量。

2）药物分子指纹描述

这里是第FP2格式中的第i个数。

3）基于模糊K近邻的药物-靶标结合预测

将描述蛋白质靶标和药物分子的向量组合成一个新的向量作为描述药物和蛋白质靶标结合对用于训练，训练集从http://www.kegg.jp/kegg/下载，包括蛋白质序列和药物分子结合对，将其作为正训练集，负训练集采用不包含在正训练集中的蛋白质与药物结合对。机器学习方法采用模糊K近邻法，通过训练得到最佳参数，就可以对药物-靶标进行预测。

本发明创造的优点：现有方法大多都是基于蛋白质靶标三维结构的，而现有蛋白质数据库中未知三维结构的蛋白质数量远远大于已知结构的蛋白质数量，开发基于蛋白质序列的预测药物-靶标结合成为迫切需要，本发明采用蛋白质灰色模型GM(1,1)参数作为伪氨基酸成分用于描述蛋白质序列，将氨基酸序列顺序信息考虑进去，能有效的描述蛋白质序列。此外本发明采用药物分子指纹作为描述药物结构信息比现有功能团描述方法更有效，因为功能团描述方法只能表示出药物分子具有哪些功能团，而具体某个功能团的数量，不同功能团相对位置都丢失了，其描述药物分子三维结构信息是不完全的，而本发明采用的分子指纹能有效描述药物分子三维结构，使得预测成功率大大提高。本发明比docking方法所需要的运算时间大大缩短，采用本发明预测某个药物是否能与某个蛋白质靶标结合只需要20余秒。

该基于灰色理论和分子指纹的药物和药物-靶标结合预测方法，包括如下具体步骤：

1）蛋白质靶标采用基于灰色GM（1,1）模型生成蛋白质伪氨基酸成分和蛋白质氨基酸成分组成成的21维向量描述；

2）药物分子三维结构采用基于分子指纹方法256维向量描述；

3）将上述方法生成的蛋白质靶标和药物分子向量组合表示药物-靶标结合对，用于预测。

该预测方法采用277维空间向量描述药物-靶标结合对，其中21维用于描述蛋白质靶标（20维氨基酸成分+1维灰色GM（1,1）生成蛋白质伪氨基酸成分），256维用于描述药物三维结构（由药物分子指纹生成256维向量再做傅里叶变换得到）。

采用本发明用于离子通道蛋白靶标与药物结构预测，具体步骤如下：

1）基于表1中的第十种氨基酸编码模型，其主要是反映氨基酸极性属性值，由于此编码模型中有负数，所以编码值都加上1.2后，按照本发明具体实施步骤1，得出描述离子通道蛋白靶标的21维空间向量。

2）将药物分子代码输入到KEGG数据库中，得到包含此药物分子化学结构信息的mol文件，将此mol文件输入到OpenBabel软件中，使用FP2格式分子指纹，可得到256个0到15的值，将其作为离散数字信号，进行傅里叶变换，得到256个频谱值，作为描述药物分子的256维向量。

3）将描述蛋白质靶标的21维向量组合描述药物分子的256维向量，得到描述药物-靶标结合对277维向量。

4）采用模糊K近邻法对训练集进行训练，训练集从http://www.kegg.jp/kegg/下载，训练集中包含1372个离子通道蛋白-药物对作为正数据集，通过本发明具体实施步骤3所示方法，得到2744个数据作为负数据集。模糊K近邻法中参数m=1.8 和 K=4时得到最佳预测，预测成功率为86.9%，比采用功能团方法高出6%。

本发明实施例提供的基于灰色理论和分子指纹的药物-靶标结合预测方法，基于灰色理论GM（1,1）模型生成蛋白质伪氨基酸成分，结合蛋白质序列氨基酸成分将靶点蛋白质序列转换成21维空间向量；通过药物分子指纹软件将药物分子描述成一个256维空间向量；将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成276维空间向量，作为药物-靶标结合描述符；采用模糊K近邻法对训练集进行训练，得出预测器最佳参数，将药物-靶标结合描述符输入预测器预测药物和靶点是否有关联，该预测方法不需要测出蛋白质的三维结构，只需蛋白质的一维序列加上药物分子指纹就可预测药物与蛋白质是否可以结合，克服了现有方法需要知道蛋白质三维结构的缺点，预测成功率比现有采用功能团描述药物分子结构方法提高6%以上，实用性强，具有较强的推广与应用价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于灰色理论和分子指纹的药物-靶标结合预测方法，其特征在于，该预测方法包括以下步骤：

步骤一，基于灰色理论GM（1,1）模型生成蛋白质伪氨基酸成分，结合蛋白质序列氨基酸成分将靶点蛋白质序列转换成21维空间向量；

步骤四，采用模糊K近邻法对训练集进行训练，得出预测器最佳参数，将药物-靶标结合描述符输入预测器预测药物和靶标是否有关联；

基于灰色模型GM（1,1）的蛋白质靶标伪氨基酸成分离散模型如下：

其中：

这里m是指训练集中的药物-靶标结合对数量；

药物分子指纹描述如下：

这里是第FP2格式中的第i个数。

2.如权利要求1所述的预测方法，其特征在于，基于模糊K近邻的药物-靶标结合预测如下：

将描述蛋白质靶标和药物分子的向量组合成一个新的向量作为描述药物和蛋白质靶标结合对用于训练，训练集包括蛋白质序列和药物分子结合对，将其作为正训练集，负训练集采用不包含在正训练集中的蛋白质与药物结合对，机器学习方法采用模糊K近邻法，通过训练得到最佳参数，就可对药物-靶标进行预测。

3.如权利要求1所述的预测方法，其特征在于，采用该预测方法用于离子通道蛋白靶标与药物结构预测时，步骤如下：

采用模糊K近邻法对训练集进行训练，训练集中包含1372个离子通道蛋白-药物对作为正数据集，得到2744个数据作为负数据集。

4.如权利要求1所述的预测方法，其特征在于，采用该预测方法用于离子通道蛋白靶标与药物结构预测时还进一步包括以下步骤：

基于灰色模型GM(1,1)的蛋白质靶标伪氨基酸成分离散模型中的第十种氨基酸编码模型，所有编码值都加上1.2后，得出描述离子通道蛋白靶标的21维空间向量。