CN112820355A - 一种基于蛋白质序列比对的分子虚拟筛选方法 - Google Patents

一种基于蛋白质序列比对的分子虚拟筛选方法 Download PDF

Info

Publication number
CN112820355A
CN112820355A CN202011483191.3A CN202011483191A CN112820355A CN 112820355 A CN112820355 A CN 112820355A CN 202011483191 A CN202011483191 A CN 202011483191A CN 112820355 A CN112820355 A CN 112820355A
Authority
CN
China
Prior art keywords
protein sequence
residue
molecule
psfm
tpd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011483191.3A
Other languages
English (en)
Other versions
CN112820355B (zh
Inventor
胡俊
郑琳琳
董世建
白岩松
樊学强
张贵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011483191.3A priority Critical patent/CN112820355B/zh
Publication of CN112820355A publication Critical patent/CN112820355A/zh
Application granted granted Critical
Publication of CN112820355B publication Critical patent/CN112820355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于蛋白质序列比对的分子虚拟筛选方法,根据输入的待进行分子筛选的蛋白质序列,使用HHblits程序获取蛋白质的多序列联配信息;计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率PSFM;使用同样的方法,生成蛋白质‑配体相互作用数据库BioLiP中每条蛋白质序列的PSFM;计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量,根据匹配质量得分取得潜在种子分子集;计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和,根据得分对DrugBank中所有分子进行排序,取得分靠前的x·NDrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明可用于任何筛选场景。

Description

一种基于蛋白质序列比对的分子虚拟筛选方法
技术领域
本发明涉及生物信息学与计算机应用领域,具体而言涉及一种基于蛋白质序列比对的分子虚拟筛选方法。
背景技术
识别与给定蛋白质进行相互作用并适当修改其生物学行为的先导分子是药学研究中面临的基本挑战。虚拟筛选方法通过利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。因此,提出一种快速准确的虚拟筛选方法对于药物分子的设计与研发具有重要的指导意义。
调研文献发现,已有很多虚拟筛选的方法被提出,如:LncLocator(Cao Zhen,PanXiaoyong,Yang Yang,Huang Yan,Shen Hong-Bin.The lncLocator:a subcellularlocalization predictor for long non-coding RNAs based on a stacked ensembleclassifier.Bioinformatics,2018,34(13):2185-2194.即:Cao Zhen,Pan Xiaoyong,YangYang,Huang Yan,Shen Hong-Bin.The lncLocator:基于堆叠集成分类器的长非编码RNA的亚细胞定位预测因子.生物信息学,2018,34(13):2185-2194)、AutoDock Vina(TrottOleg,Olson Arthur J.AutoDock Vina:Improving the speed and accuracy of dockingwith a new scoring function,efficient optimization,and multithreading.Journalof Computational Chemistry,2010.31(2):455-461.即:Trott Oleg,Olson ArthurJ.AutoDock Vina:通过新的记分函数、高效优化和多线程处理提高对接的速度和精度.计算化学杂志,2010.31(2):455-461)等。尽管已有的方法可以用于药物分子的虚拟筛选,但是普遍需要知道给定蛋白质的三维结构或者已知至少一种结合分子,所以在没有蛋白质的三维结构或者结合分子未知的情况下,现有虚拟筛选方法不能很好的工作。
综上所述,已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面距离实际应用的要求还有很大差距,迫切地需要改进。
发明内容
为了克服已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面的不足,本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。
本发明解决其技术问题所采用的技术方案是:
一种基于蛋白质序列比对的分子虚拟筛选方法,所述方法包括以下步骤:
1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;
2)对蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含M条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:
Figure BDA0002838664730000021
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,
Figure BDA0002838664730000022
表示MSA中第m条序列的第i个位置的残基类型,
Figure BDA0002838664730000023
表示当
Figure BDA0002838664730000024
与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:
Figure BDA0002838664730000025
其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;
Figure BDA0002838664730000026
表示P的PSFM矩阵中第i行第k列的元素,
Figure BDA0002838664730000027
表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,
Figure BDA0002838664730000028
否则
Figure BDA0002838664730000029
Figure BDA00028386647300000210
表示P的第i个位置残基类型,
Figure BDA0002838664730000031
表示T的第j个位置残基类型,
Figure BDA0002838664730000032
为根据
Figure BDA0002838664730000033
Figure BDA0002838664730000034
残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作
Figure BDA0002838664730000035
i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,
Figure BDA0002838664730000036
表示第i对残基对中P中的残基在P中的位置,
Figure BDA0002838664730000037
表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列T与P的相似度匹配质量,记作QLBS
Figure BDA0002838664730000038
其中,
Figure BDA0002838664730000039
Figure BDA00028386647300000310
表示P中的第
Figure BDA00028386647300000311
个残基与T中的第
Figure BDA00028386647300000312
个残基对齐的得分;
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作
Figure BDA00028386647300000313
其中NTPD为TPD中的分子数目,
Figure BDA00028386647300000314
为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子
Figure BDA00028386647300000315
可以理解为能与P发生相互作用的潜在分子;
9)对TPD中的每个分子
Figure BDA00028386647300000316
i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹
Figure BDA00028386647300000317
其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子
Figure BDA00028386647300000318
j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹
Figure BDA00028386647300000319
其中NDrugBank为分子库DrugBank中分子总数;
11)计算TPD中的每个分子
Figure BDA00028386647300000320
i=1,2,...,NTPD,的分子指纹
Figure BDA00028386647300000321
和DrugBank中的每个分子
Figure BDA0002838664730000041
j=1,2,...,NDrugBank,的分子指纹
Figure BDA0002838664730000042
之间的相似值TaniCoeffi,j
Figure BDA0002838664730000043
其中,
Figure BDA0002838664730000044
Figure BDA0002838664730000045
中第k个位置元素的值,
Figure BDA0002838664730000046
Figure BDA0002838664730000047
中第k个位置元素的值,k=1,2,...,1024;
12)根据步骤11)计算得到所有值,计算DrugBank中每个分子
Figure BDA0002838664730000048
可能与输入蛋白质序列P发生相互作用的概率值VSscoj
Figure BDA0002838664730000049
其中,TaniCoeffi,j表示TPD中的第i分子
Figure BDA00028386647300000410
的分子指纹
Figure BDA00028386647300000411
和DrugBank中的第j个分子
Figure BDA00028386647300000412
的分子指纹
Figure BDA00028386647300000413
之间的相似值;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。
本发明的技术构思为:首先,根据输入的待进行分子筛选的蛋白质序列,使用HHblits程序获取蛋白质的多序列联配信息;然后,计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率,记作PSFM;使用同样的方法,生成蛋白质-配体相互作用数据库BioLiP中每条蛋白质序列的PSFM;再次,计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量,根据匹配质量得分取得潜在种子分子集;最后,计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和,根据得分对DrugBank中所有分子进行排序,取得分靠前的x·NDrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。
本发明的有益效果表现在:一方面,通过构建潜在种子分子集,避免了没有蛋白质的结构和分子结合物时,基于结构的虚拟筛选方法和基于配体的虚拟筛选方法无法工作的情况;另一方面,对分子库DrugBank中所有分子进行相似度评分与排序,考虑了更多未与蛋白质进行结合的分子,将有助于筛选潜在分子。
附图说明
图1为一种基于蛋白质序列对比的分子虚拟筛选方法的示意图。
图2为使用一种基于蛋白质序列对比的分子虚拟筛选方法对蛋白质5FQ9进行分子筛选的结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于蛋白质序列对比的分子虚拟筛选方法,包括以下步骤:
1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;
2)对蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含M条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:
Figure BDA0002838664730000051
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,
Figure BDA0002838664730000052
表示MSA中第m条序列的第i个位置的残基类型,
Figure BDA0002838664730000053
表示当
Figure BDA0002838664730000054
与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:
Figure BDA0002838664730000055
其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;
Figure BDA0002838664730000056
表示P的PSFM矩阵中第i行第k列的元素,
Figure BDA0002838664730000057
表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,
Figure BDA0002838664730000061
否则
Figure BDA0002838664730000062
Figure BDA0002838664730000063
表示P的第i个位置残基类型,
Figure BDA0002838664730000064
表示T的第j个位置残基类型,
Figure BDA0002838664730000065
为根据
Figure BDA0002838664730000066
Figure BDA0002838664730000067
残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作
Figure BDA0002838664730000068
i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,
Figure BDA0002838664730000069
表示第i对残基对中P中的残基在P中的位置,
Figure BDA00028386647300000610
表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列T与P的相似度匹配质量,记作QLBS
Figure BDA00028386647300000611
其中,
Figure BDA00028386647300000612
Figure BDA00028386647300000613
表示P中的第
Figure BDA00028386647300000614
个残基与T中的第
Figure BDA00028386647300000615
个残基对齐的得分;
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作
Figure BDA00028386647300000616
其中NTPD为TPD中的分子数目,
Figure BDA00028386647300000617
为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子
Figure BDA00028386647300000618
可以理解为能与P发生相互作用的潜在分子;
9)对TPD中的每个分子
Figure BDA00028386647300000619
i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹
Figure BDA00028386647300000620
其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子
Figure BDA00028386647300000621
j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹
Figure BDA00028386647300000622
其中NDrugBank为分子库DrugBank中分子总数;
11)计算TPD中的每个分子
Figure BDA0002838664730000071
i=1,2,...,NTPD,的分子指纹
Figure BDA0002838664730000072
和DrugBank中的每个分子
Figure BDA0002838664730000073
j=1,2,...,NDrugBank,的分子指纹
Figure BDA0002838664730000074
之间的相似值TaniCoeffi,j
Figure BDA0002838664730000075
其中,
Figure BDA0002838664730000076
Figure BDA0002838664730000077
中第k个位置元素的值,
Figure BDA0002838664730000078
Figure BDA0002838664730000079
中第k个位置元素的值,k=1,2,...,1024;
12)根据步骤11)计算得到所有值,计算DrugBank中每个分子
Figure BDA00028386647300000710
可能与输入蛋白质序列P发生相互作用的概率值VSscoj
Figure BDA00028386647300000711
其中,TaniCoeffi,j表示TPD中的第i分子
Figure BDA00028386647300000712
的分子指纹
Figure BDA00028386647300000713
和DrugBank中的第j个分子
Figure BDA00028386647300000714
的分子指纹
Figure BDA00028386647300000715
之间的相似值;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。
本实施例以蛋白质序列5FQ9的分子虚拟筛选为实施例,一种基于蛋白质序列对比的分子虚拟筛选方法,包括以下步骤:
1)输入一个残基数目为249的待进行分子筛选的蛋白质序列5FQ9;
2)对蛋白质序列5FQ9,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含381条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为249×20的位置特异性频率矩阵,记作PSFM:
Figure BDA00028386647300000716
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,249,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,
Figure BDA0002838664730000081
表示MSA中第m条序列的第i个位置的残基类型,
Figure BDA0002838664730000082
表示当
Figure BDA0002838664730000083
与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列5FQ9的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出5FQ9与T的相似矩阵,记作S:
Figure BDA0002838664730000084
其中,Si,j表示5FQ9中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,249,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;
Figure BDA0002838664730000085
表示5FQ9的PSFM矩阵中第i行第k列的元素,
Figure BDA0002838664730000086
表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,
Figure BDA0002838664730000087
否则
Figure BDA0002838664730000088
Figure BDA0002838664730000089
表示5FQ9的第i个位置残基类型,
Figure BDA00028386647300000810
表示T的第j个位置残基类型,
Figure BDA00028386647300000811
为根据
Figure BDA00028386647300000812
Figure BDA00028386647300000813
残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由5FQ9与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的5FQ9与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出5FQ9中残基与T中残基的对齐信息,记作
Figure BDA00028386647300000814
i=1,2,...,Lali,其中,Lali为5FQ9中残基与T中残基对齐的残基对数目,
Figure BDA00028386647300000815
表示第i对残基对中5FQ9中的残基在5FQ9中的位置,
Figure BDA00028386647300000816
表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列T与5FQ9的相似度匹配质量,记作QLBS
Figure BDA00028386647300000817
其中,
Figure BDA00028386647300000818
Figure BDA00028386647300000819
表示5FQ9中的第
Figure BDA00028386647300000820
个残基与T中的第
Figure BDA00028386647300000821
个残基对齐的得分;
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列5FQ9的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作
Figure BDA0002838664730000091
其中NTPD为TPD中的分子数目,
Figure BDA0002838664730000092
为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子
Figure BDA0002838664730000093
可以理解为能与5FQ9发生相互作用的潜在分子;
9)对TPD中的每个分子
Figure BDA0002838664730000094
i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹
Figure BDA0002838664730000095
其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子
Figure BDA0002838664730000096
j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹
Figure BDA0002838664730000097
其中NDrugBank为分子库DrugBank中分子总数;
11)计算TPD中的每个分子
Figure BDA0002838664730000098
i=1,2,...,NTPD,的分子指纹
Figure BDA0002838664730000099
和DrugBank中的每个分子
Figure BDA00028386647300000910
j=1,2,...,NDrugBank,的分子指纹
Figure BDA00028386647300000911
之间的相似值TaniCoeffi,j
Figure BDA00028386647300000912
其中,
Figure BDA00028386647300000913
Figure BDA00028386647300000914
中第k个位置元素的值,
Figure BDA00028386647300000915
Figure BDA00028386647300000916
中第k个位置元素的值,k=1,2,...,1024;
12)根据步骤11)计算得到所有值,计算DrugBank中每个分子
Figure BDA00028386647300000917
可能与输入蛋白质序列5FQ9发生相互作用的概率值VSscoj
Figure BDA00028386647300000918
其中,TaniCoeffi,j表示TPD中的第i分子
Figure BDA00028386647300000919
的分子指纹
Figure BDA00028386647300000920
和DrugBank中的第j个分子
Figure BDA00028386647300000921
的分子指纹
Figure BDA00028386647300000922
之间的相似值;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的0.1·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,这里取0.1。
以蛋白质5FQ9的分子虚拟筛选为实施例,运用以上方法预测得到蛋白质5FQ9的分子虚拟筛选如图2所示。
以上说明是本发明以蛋白质5FQ9的分子虚拟筛选为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于蛋白质序列比对的分子虚拟筛选方法,其特征在于,所述方法包括以下步骤:
1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;
2)对蛋白质序列P,使用HHblits程序搜索蛋白质序列数据库UniRef90,生成一个包含M条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:
Figure FDA0002838664720000011
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,
Figure FDA0002838664720000012
表示MSA中第m条序列的第i个位置的残基类型,
Figure FDA0002838664720000013
表示当
Figure FDA0002838664720000014
与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:
Figure FDA0002838664720000015
其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;
Figure FDA0002838664720000016
表示P的PSFM矩阵中第i行第k列的元素,
Figure FDA0002838664720000017
表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,
Figure FDA0002838664720000018
否则
Figure FDA0002838664720000019
Figure FDA00028386647200000110
表示P的第i个位置残基类型,
Figure FDA00028386647200000111
表示T的第j个位置残基类型,
Figure FDA00028386647200000112
为根据
Figure FDA00028386647200000113
Figure FDA00028386647200000114
残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作
Figure FDA0002838664720000021
i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,
Figure FDA0002838664720000022
表示第i对残基对中P中的残基在P中的位置,
Figure FDA0002838664720000023
表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列P与T的相似度匹配质量,记作QLBS
Figure FDA0002838664720000024
其中,
Figure FDA0002838664720000025
Figure FDA0002838664720000026
表示P中的第
Figure FDA0002838664720000027
个残基与T中的第
Figure FDA0002838664720000028
个残基对齐的得分;
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作
Figure FDA0002838664720000029
其中NTPD为TPD中的分子数目,
Figure FDA00028386647200000210
为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子
Figure FDA00028386647200000211
可以理解为能与P发生相互作用的潜在分子;
9)对TPD中的每个分子
Figure FDA00028386647200000212
i=1,2,...,NTPD,使用OpenBabel软件生成一个包含1024个比特位的分子指纹
Figure FDA00028386647200000213
其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank中的每个分子
Figure FDA00028386647200000214
j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹
Figure FDA00028386647200000215
其中NDrugBank为分子库DrugBank中分子总数;
11)计算TPD中的每个分子
Figure FDA00028386647200000216
i=1,2,...,NTPD,的分子指纹
Figure FDA00028386647200000217
和DrugBank中的每个分子
Figure FDA00028386647200000218
j=1,2,...,NDrugBank,的分子指纹
Figure FDA00028386647200000219
之间的相似值TaniCoeffi,j
Figure FDA00028386647200000220
其中,
Figure FDA0002838664720000031
Figure FDA0002838664720000032
中第k个位置元素的值,
Figure FDA0002838664720000033
Figure FDA0002838664720000034
中第k个位置元素的值,k=1,2,...,1024;
12)根据步骤11)计算得到所有值,计算DrugBank中每个分子
Figure FDA0002838664720000035
可能与输入蛋白质序列P发生相互作用的概率值VSscoj
Figure FDA0002838664720000036
其中,TaniCoeffi,j表示TPD中的第i分子
Figure FDA0002838664720000037
的分子指纹
Figure FDA0002838664720000038
和DrugBank中的第j个分子
Figure FDA0002838664720000039
的分子指纹
Figure FDA00028386647200000310
之间的相似值;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。
CN202011483191.3A 2020-12-16 2020-12-16 一种基于蛋白质序列比对的分子虚拟筛选方法 Active CN112820355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483191.3A CN112820355B (zh) 2020-12-16 2020-12-16 一种基于蛋白质序列比对的分子虚拟筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483191.3A CN112820355B (zh) 2020-12-16 2020-12-16 一种基于蛋白质序列比对的分子虚拟筛选方法

Publications (2)

Publication Number Publication Date
CN112820355A true CN112820355A (zh) 2021-05-18
CN112820355B CN112820355B (zh) 2024-03-22

Family

ID=75853412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483191.3A Active CN112820355B (zh) 2020-12-16 2020-12-16 一种基于蛋白质序列比对的分子虚拟筛选方法

Country Status (1)

Country Link
CN (1) CN112820355B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758724A (zh) * 2022-05-23 2022-07-15 内江师范学院 一种抗菌肽筛选方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997751A (zh) * 2004-05-28 2007-07-11 艾更斯司股份有限公司 结合于psca蛋白的抗体以及相关分子
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN111435608A (zh) * 2019-09-05 2020-07-21 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111951884A (zh) * 2020-07-10 2020-11-17 中南大学 蛋白质小分子结合口袋上关键柔性氨基酸的识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997751A (zh) * 2004-05-28 2007-07-11 艾更斯司股份有限公司 结合于psca蛋白的抗体以及相关分子
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN111435608A (zh) * 2019-09-05 2020-07-21 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111951884A (zh) * 2020-07-10 2020-11-17 中南大学 蛋白质小分子结合口袋上关键柔性氨基酸的识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758724A (zh) * 2022-05-23 2022-07-15 内江师范学院 一种抗菌肽筛选方法及系统

Also Published As

Publication number Publication date
CN112820355B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
Liu et al. SAMNet: Stereoscopically attentive multi-scale network for lightweight salient object detection
Li et al. DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines
Li et al. Ensembling multiple raw coevolutionary features with deep residual neural networks for contact‐map prediction in CASP13
CN113393911B (zh) 一种基于深度学习的配体化合物快速预筛选方法
Xu et al. OPUS-TASS: a protein backbone torsion angles and secondary structure predictor based on ensemble neural networks
Guo et al. DeepUMQA: ultrafast shape recognition-based protein model quality assessment using deep learning
Ahmad et al. Mal-light: Enhancing lysine malonylation sites prediction problem using evolutionary-based features
CN112149885B (zh) 一种基于序列模板的配体绑定残基预测方法
CN114708903A (zh) 一种基于自注意力机制的蛋白质残基间距离预测方法
CN115116538A (zh) 一种蛋白质配体的亲和力预测方法、相关装置以及设备
Liu et al. Why can deep convolutional neural networks improve protein fold recognition? A visual explanation by interpretation
CN114281950B (zh) 基于多图加权融合的数据检索方法与系统
CN112820355A (zh) 一种基于蛋白质序列比对的分子虚拟筛选方法
Si et al. Improved protein contact prediction using dimensional hybrid residual networks and singularity enhanced loss function
CN109346125B (zh) 一种快速精确的蛋白质绑定口袋结构对齐方法
Tao et al. Prediction of protein structural class using tri-gram probabilities of position-specific scoring matrix and recursive feature elimination
Vu et al. fMLC: fast multi-level clustering and visualization of large molecular datasets
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
Wang et al. DeepIII: Predicting isoform-isoform interactions by deep neural networks and data fusion
Geethu et al. Improved 3-D protein structure predictions using deep ResNet model
Kazm et al. Transformer Encoder with Protein Language Model for Protein Secondary Structure Prediction
CN112216345A (zh) 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法
Kumar et al. Distance histogram computation based on spatiotemporal uniformity in scientific data
CN114443986A (zh) 排序方法及装置,排序模型训练方法及装置,电子设备
CN112466392B (zh) 一种基于深度卷积网络的atp绑定残基预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant