CN112820355A

CN112820355A - 一种基于蛋白质序列比对的分子虚拟筛选方法

Info

Publication number: CN112820355A
Application number: CN202011483191.3A
Authority: CN
Inventors: 胡俊; 郑琳琳; 董世建; 白岩松; 樊学强; 张贵军
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-05-18
Anticipated expiration: 2040-12-16
Also published as: CN112820355B

Abstract

一种基于蛋白质序列比对的分子虚拟筛选方法，根据输入的待进行分子筛选的蛋白质序列，使用HHblits程序获取蛋白质的多序列联配信息；计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率PSFM；使用同样的方法，生成蛋白质‑配体相互作用数据库BioLiP中每条蛋白质序列的PSFM；计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量，根据匹配质量得分取得潜在种子分子集；计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和，根据得分对DrugBank中所有分子进行排序，取得分靠前的x·N_DrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明可用于任何筛选场景。

Description

一种基于蛋白质序列比对的分子虚拟筛选方法

技术领域

本发明涉及生物信息学与计算机应用领域，具体而言涉及一种基于蛋白质序列比对的分子虚拟筛选方法。

背景技术

识别与给定蛋白质进行相互作用并适当修改其生物学行为的先导分子是药学研究中面临的基本挑战。虚拟筛选方法通过利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用，计算两者之间的亲和力大小，以降低实际筛选化合物数目，同时提高先导化合物发现效率。因此，提出一种快速准确的虚拟筛选方法对于药物分子的设计与研发具有重要的指导意义。

调研文献发现，已有很多虚拟筛选的方法被提出，如:LncLocator(Cao Zhen,PanXiaoyong,Yang Yang,Huang Yan,Shen Hong-Bin.The lncLocator:a subcellularlocalization predictor for long non-coding RNAs based on a stacked ensembleclassifier.Bioinformatics,2018,34(13):2185-2194.即：Cao Zhen,Pan Xiaoyong,YangYang,Huang Yan,Shen Hong-Bin.The lncLocator:基于堆叠集成分类器的长非编码RNA的亚细胞定位预测因子.生物信息学，2018,34(13):2185-2194)、AutoDock Vina(TrottOleg,Olson Arthur J.AutoDock Vina:Improving the speed and accuracy of dockingwith a new scoring function,efficient optimization,and multithreading.Journalof Computational Chemistry,2010.31(2):455-461.即：Trott Oleg,Olson ArthurJ.AutoDock Vina:通过新的记分函数、高效优化和多线程处理提高对接的速度和精度.计算化学杂志,2010.31(2):455-461)等。尽管已有的方法可以用于药物分子的虚拟筛选，但是普遍需要知道给定蛋白质的三维结构或者已知至少一种结合分子，所以在没有蛋白质的三维结构或者结合分子未知的情况下，现有虚拟筛选方法不能很好的工作。

综上所述，已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面距离实际应用的要求还有很大差距，迫切地需要改进。

发明内容

为了克服已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面的不足，本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。

本发明解决其技术问题所采用的技术方案是：

一种基于蛋白质序列比对的分子虚拟筛选方法，所述方法包括以下步骤：

1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P；

2)对蛋白质序列P，使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)，生成一个包含M条序列的多序列联配信息，记作MSA；

3)对MSA文件，计算出大小为L×20的位置特异性频率矩阵，记作PSFM：

其中，PSFM_i,j表示PSFM中第i行第j列元素，i＝1,2,...,L,j＝1,2,...,20，Res_j表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型，

表示MSA中第m条序列的第i个位置的残基类型，

表示当

与Res_j相同时，则输出为1，否则输出为0；

4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵；

5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息，计算出P与T的相似矩阵，记作S：

其中，S_i,j表示P中的第i个残基与T中的第j个残基的对齐得分，i＝1,2,...,L，j＝1,2,...,L_T,L_T表示蛋白质序列T的残基数目；

表示P的PSFM矩阵中第i行第k列的元素，

表示T的PSFM矩阵中第j行第k列元素；当T的第j个残基为配体分子结合位点时，

否则

表示P的第i个位置残基类型，

表示T的第j个位置残基类型，

为根据

和

残基类型从BLOSUM62替换打分矩阵中查询的值；w₁和w₂为两个常数，分别对应的PSFM矩阵和配体位点所占的权重；计算由P与T中残基组成的所有残基对对齐得分；

6)根据步骤5)获得的P与T的相似矩阵，使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息，记作

i＝1,2,...,L_ali，其中，L_ali为P中残基与T中残基对齐的残基对数目，

表示第i对残基对中P中的残基在P中的位置，

表示第i对残基对中T中的残基在T中的位置；

7)计算蛋白质序列T与P的相似度匹配质量，记作Q^LBS：

其中，

表示P中的第

个残基与T中的第

个残基对齐的得分；

8)根据步骤5)至步骤7)，计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量Q^LBS，从BioLiP中选择所有Q^LBS≥0.5的蛋白质序列，并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集，记作

其中N_TPD为TPD中的分子数目，

为TPD中第i个分子，i＝1,2,...,N_TPD；这里TPD中的每个分子

可以理解为能与P发生相互作用的潜在分子；

9)对TPD中的每个分子

i＝1,2,...,N_TPD，使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹

其中，每一个比特位的值为0或1；

10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子

j＝1,2,...,N_DrugBank，亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹

其中N_DrugBank为分子库DrugBank中分子总数；

11)计算TPD中的每个分子

i＝1,2,...,N_TPD，的分子指纹

和DrugBank中的每个分子

j＝1,2,...,N_DrugBank，的分子指纹

之间的相似值TaniCoeff_i,j：

其中，

为

中第k个位置元素的值，

为

中第k个位置元素的值，k＝1,2,...,1024；

12)根据步骤11)计算得到所有值，计算DrugBank中每个分子

可能与输入蛋白质序列P发生相互作用的概率值VSsco_j：

其中，TaniCoeff_i,j表示TPD中的第i分子

的分子指纹

和DrugBank中的第j个分子

的分子指纹

之间的相似值；

13)根据VSsco_j值，对DrugBank中的所有分子从高到低进行排序，取排序靠前的x·N_DrugBank个分子作为最终的虚拟筛选结果返回；其中，x为需要从待筛选分子数据库DrugBank中的筛选比率，取值范围为0到1。

本发明的技术构思为：首先，根据输入的待进行分子筛选的蛋白质序列，使用HHblits程序获取蛋白质的多序列联配信息；然后，计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率，记作PSFM；使用同样的方法，生成蛋白质-配体相互作用数据库BioLiP中每条蛋白质序列的PSFM；再次，计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量，根据匹配质量得分取得潜在种子分子集；最后，计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和，根据得分对DrugBank中所有分子进行排序，取得分靠前的x·N_DrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。

本发明的有益效果表现在：一方面，通过构建潜在种子分子集，避免了没有蛋白质的结构和分子结合物时，基于结构的虚拟筛选方法和基于配体的虚拟筛选方法无法工作的情况；另一方面，对分子库DrugBank中所有分子进行相似度评分与排序，考虑了更多未与蛋白质进行结合的分子，将有助于筛选潜在分子。

附图说明

图1为一种基于蛋白质序列对比的分子虚拟筛选方法的示意图。

图2为使用一种基于蛋白质序列对比的分子虚拟筛选方法对蛋白质5FQ9进行分子筛选的结果。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于蛋白质序列对比的分子虚拟筛选方法，包括以下步骤：

1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P；

表示MSA中第m条序列的第i个位置的残基类型，

表示当

与Res_j相同时，则输出为1，否则输出为0；

表示P的PSFM矩阵中第i行第k列的元素，

否则

表示P的第i个位置残基类型，

表示T的第j个位置残基类型，

为根据

和

表示第i对残基对中P中的残基在P中的位置，

表示第i对残基对中T中的残基在T中的位置；

7)计算蛋白质序列T与P的相似度匹配质量，记作Q^LBS：

其中，

表示P中的第

个残基与T中的第

个残基对齐的得分；

其中N_TPD为TPD中的分子数目，

为TPD中第i个分子，i＝1,2,...,N_TPD；这里TPD中的每个分子

可以理解为能与P发生相互作用的潜在分子；

9)对TPD中的每个分子

其中，每一个比特位的值为0或1；

10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子

其中N_DrugBank为分子库DrugBank中分子总数；

11)计算TPD中的每个分子

i＝1,2,...,N_TPD，的分子指纹

和DrugBank中的每个分子

j＝1,2,...,N_DrugBank，的分子指纹

之间的相似值TaniCoeff_i,j：

其中，

为

中第k个位置元素的值，

为

中第k个位置元素的值，k＝1,2,...,1024；

12)根据步骤11)计算得到所有值，计算DrugBank中每个分子

可能与输入蛋白质序列P发生相互作用的概率值VSsco_j：

其中，TaniCoeff_i,j表示TPD中的第i分子

的分子指纹

和DrugBank中的第j个分子

的分子指纹

之间的相似值；

本实施例以蛋白质序列5FQ9的分子虚拟筛选为实施例，一种基于蛋白质序列对比的分子虚拟筛选方法，包括以下步骤：

1)输入一个残基数目为249的待进行分子筛选的蛋白质序列5FQ9；

2)对蛋白质序列5FQ9，使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)，生成一个包含381条序列的多序列联配信息，记作MSA；

3)对MSA文件，计算出大小为249×20的位置特异性频率矩阵，记作PSFM：

其中，PSFM_i,j表示PSFM中第i行第j列元素，i＝1,2,...,249,j＝1,2,...,20，Res_j表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型，

表示MSA中第m条序列的第i个位置的残基类型，

表示当

与Res_j相同时，则输出为1，否则输出为0；

5)根据蛋白质序列5FQ9的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息，计算出5FQ9与T的相似矩阵，记作S：

其中，S_i,j表示5FQ9中的第i个残基与T中的第j个残基的对齐得分，i＝1,2,...,249，j＝1,2,...,L_T,L_T表示蛋白质序列T的残基数目；

表示5FQ9的PSFM矩阵中第i行第k列的元素，

否则

表示5FQ9的第i个位置残基类型，

表示T的第j个位置残基类型，

为根据

和

残基类型从BLOSUM62替换打分矩阵中查询的值；w₁和w₂为两个常数，分别对应的PSFM矩阵和配体位点所占的权重；计算由5FQ9与T中残基组成的所有残基对对齐得分；

6)根据步骤5)获得的5FQ9与T的相似矩阵，使用Needleman-Wunsch动态规划算法计算出5FQ9中残基与T中残基的对齐信息，记作

i＝1,2,...,L_ali，其中，L_ali为5FQ9中残基与T中残基对齐的残基对数目，

表示第i对残基对中5FQ9中的残基在5FQ9中的位置，

表示第i对残基对中T中的残基在T中的位置；

7)计算蛋白质序列T与5FQ9的相似度匹配质量，记作Q^LBS：

其中，

表示5FQ9中的第

个残基与T中的第

个残基对齐的得分；

8)根据步骤5)至步骤7)，计算BioLiP中每条蛋白质序列T与输入蛋白质序列5FQ9的相似度匹配质量Q^LBS，从BioLiP中选择所有Q^LBS≥0.5的蛋白质序列，并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集，记作

其中N_TPD为TPD中的分子数目，

为TPD中第i个分子，i＝1,2,...,N_TPD；这里TPD中的每个分子

可以理解为能与5FQ9发生相互作用的潜在分子；

9)对TPD中的每个分子

其中，每一个比特位的值为0或1；

10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子

其中N_DrugBank为分子库DrugBank中分子总数；

11)计算TPD中的每个分子

i＝1,2,...,N_TPD，的分子指纹

和DrugBank中的每个分子

j＝1,2,...,N_DrugBank，的分子指纹

之间的相似值TaniCoeff_i,j：

其中，

为

中第k个位置元素的值，

为

中第k个位置元素的值，k＝1,2,...,1024；

12)根据步骤11)计算得到所有值，计算DrugBank中每个分子

可能与输入蛋白质序列5FQ9发生相互作用的概率值VSsco_j：

其中，TaniCoeff_i,j表示TPD中的第i分子

的分子指纹

和DrugBank中的第j个分子

的分子指纹

之间的相似值；

13)根据VSsco_j值，对DrugBank中的所有分子从高到低进行排序，取排序靠前的0.1·N_DrugBank个分子作为最终的虚拟筛选结果返回；其中，x为需要从待筛选分子数据库DrugBank中的筛选比率，这里取0.1。

以蛋白质5FQ9的分子虚拟筛选为实施例，运用以上方法预测得到蛋白质5FQ9的分子虚拟筛选如图2所示。

以上说明是本发明以蛋白质5FQ9的分子虚拟筛选为实例所得出的预测结果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种基于蛋白质序列比对的分子虚拟筛选方法，其特征在于，所述方法包括以下步骤：

1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P；

2)对蛋白质序列P，使用HHblits程序搜索蛋白质序列数据库UniRef90，生成一个包含M条序列的多序列联配信息，记作MSA；

表示MSA中第m条序列的第i个位置的残基类型，

表示当

与Res_j相同时，则输出为1，否则输出为0；

4)对蛋白质-配体相互作用数据库BioLiP中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵；

表示P的PSFM矩阵中第i行第k列的元素，

否则

表示P的第i个位置残基类型，

表示T的第j个位置残基类型，

为根据

和

表示第i对残基对中P中的残基在P中的位置，

表示第i对残基对中T中的残基在T中的位置；

7)计算蛋白质序列P与T的相似度匹配质量，记作Q^LBS：

其中，

表示P中的第

个残基与T中的第

个残基对齐的得分；

其中N_TPD为TPD中的分子数目，

为TPD中第i个分子，i＝1,2,...,N_TPD；这里TPD中的每个分子

可以理解为能与P发生相互作用的潜在分子；

9)对TPD中的每个分子

i＝1,2,...,N_TPD，使用OpenBabel软件生成一个包含1024个比特位的分子指纹

其中，每一个比特位的值为0或1；

10)对待筛选的分子库DrugBank中的每个分子

其中N_DrugBank为分子库DrugBank中分子总数；

11)计算TPD中的每个分子

i＝1,2,...,N_TPD，的分子指纹

和DrugBank中的每个分子

j＝1,2,...,N_DrugBank，的分子指纹

之间的相似值TaniCoeff_i,j：

其中，

为

中第k个位置元素的值，

为

中第k个位置元素的值，k＝1,2,...,1024；

12)根据步骤11)计算得到所有值，计算DrugBank中每个分子

可能与输入蛋白质序列P发生相互作用的概率值VSsco_j：

其中，TaniCoeff_i,j表示TPD中的第i分子

的分子指纹

和DrugBank中的第j个分子

的分子指纹

之间的相似值；