CN112820355A - 一种基于蛋白质序列比对的分子虚拟筛选方法 - Google Patents
一种基于蛋白质序列比对的分子虚拟筛选方法 Download PDFInfo
- Publication number
- CN112820355A CN112820355A CN202011483191.3A CN202011483191A CN112820355A CN 112820355 A CN112820355 A CN 112820355A CN 202011483191 A CN202011483191 A CN 202011483191A CN 112820355 A CN112820355 A CN 112820355A
- Authority
- CN
- China
- Prior art keywords
- protein sequence
- residue
- molecule
- psfm
- tpd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 86
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003041 virtual screening Methods 0.000 title claims description 21
- 238000012216 screening Methods 0.000 claims abstract description 27
- 239000003814 drug Substances 0.000 claims abstract description 22
- 229940079593 drug Drugs 0.000 claims abstract description 22
- 239000003446 ligand Substances 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 238000001273 protein sequence alignment Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009149 molecular binding Effects 0.000 claims description 4
- 238000002864 sequence alignment Methods 0.000 claims description 4
- 150000003384 small molecules Chemical class 0.000 claims description 4
- 239000002808 molecular sieve Substances 0.000 abstract description 2
- URGAHOPLAPQHLN-UHFFFAOYSA-N sodium aluminosilicate Chemical compound [Na+].[Al+3].[O-][Si]([O-])=O.[O-][Si]([O-])=O URGAHOPLAPQHLN-UHFFFAOYSA-N 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 13
- 230000027455 binding Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于蛋白质序列比对的分子虚拟筛选方法,根据输入的待进行分子筛选的蛋白质序列,使用HHblits程序获取蛋白质的多序列联配信息;计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率PSFM;使用同样的方法,生成蛋白质‑配体相互作用数据库BioLiP中每条蛋白质序列的PSFM;计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量,根据匹配质量得分取得潜在种子分子集;计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和,根据得分对DrugBank中所有分子进行排序,取得分靠前的x·NDrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明可用于任何筛选场景。
Description
技术领域
本发明涉及生物信息学与计算机应用领域,具体而言涉及一种基于蛋白质序列比对的分子虚拟筛选方法。
背景技术
识别与给定蛋白质进行相互作用并适当修改其生物学行为的先导分子是药学研究中面临的基本挑战。虚拟筛选方法通过利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。因此,提出一种快速准确的虚拟筛选方法对于药物分子的设计与研发具有重要的指导意义。
调研文献发现,已有很多虚拟筛选的方法被提出,如:LncLocator(Cao Zhen,PanXiaoyong,Yang Yang,Huang Yan,Shen Hong-Bin.The lncLocator:a subcellularlocalization predictor for long non-coding RNAs based on a stacked ensembleclassifier.Bioinformatics,2018,34(13):2185-2194.即:Cao Zhen,Pan Xiaoyong,YangYang,Huang Yan,Shen Hong-Bin.The lncLocator:基于堆叠集成分类器的长非编码RNA的亚细胞定位预测因子.生物信息学,2018,34(13):2185-2194)、AutoDock Vina(TrottOleg,Olson Arthur J.AutoDock Vina:Improving the speed and accuracy of dockingwith a new scoring function,efficient optimization,and multithreading.Journalof Computational Chemistry,2010.31(2):455-461.即:Trott Oleg,Olson ArthurJ.AutoDock Vina:通过新的记分函数、高效优化和多线程处理提高对接的速度和精度.计算化学杂志,2010.31(2):455-461)等。尽管已有的方法可以用于药物分子的虚拟筛选,但是普遍需要知道给定蛋白质的三维结构或者已知至少一种结合分子,所以在没有蛋白质的三维结构或者结合分子未知的情况下,现有虚拟筛选方法不能很好的工作。
综上所述,已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面距离实际应用的要求还有很大差距,迫切地需要改进。
发明内容
为了克服已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面的不足,本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。
本发明解决其技术问题所采用的技术方案是:
一种基于蛋白质序列比对的分子虚拟筛选方法,所述方法包括以下步骤:
1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;
2)对蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含M条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:
其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示P的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示P的第i个位置残基类型,表示T的第j个位置残基类型,为根据和残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,表示第i对残基对中P中的残基在P中的位置,表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列T与P的相似度匹配质量,记作QLBS:
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与P发生相互作用的潜在分子;
9)对TPD中的每个分子i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。
本发明的技术构思为:首先,根据输入的待进行分子筛选的蛋白质序列,使用HHblits程序获取蛋白质的多序列联配信息;然后,计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率,记作PSFM;使用同样的方法,生成蛋白质-配体相互作用数据库BioLiP中每条蛋白质序列的PSFM;再次,计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量,根据匹配质量得分取得潜在种子分子集;最后,计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和,根据得分对DrugBank中所有分子进行排序,取得分靠前的x·NDrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。
本发明的有益效果表现在:一方面,通过构建潜在种子分子集,避免了没有蛋白质的结构和分子结合物时,基于结构的虚拟筛选方法和基于配体的虚拟筛选方法无法工作的情况;另一方面,对分子库DrugBank中所有分子进行相似度评分与排序,考虑了更多未与蛋白质进行结合的分子,将有助于筛选潜在分子。
附图说明
图1为一种基于蛋白质序列对比的分子虚拟筛选方法的示意图。
图2为使用一种基于蛋白质序列对比的分子虚拟筛选方法对蛋白质5FQ9进行分子筛选的结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于蛋白质序列对比的分子虚拟筛选方法,包括以下步骤:
1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;
2)对蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含M条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:
其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示P的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示P的第i个位置残基类型,表示T的第j个位置残基类型,为根据和残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,表示第i对残基对中P中的残基在P中的位置,表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列T与P的相似度匹配质量,记作QLBS:
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与P发生相互作用的潜在分子;
9)对TPD中的每个分子i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。
本实施例以蛋白质序列5FQ9的分子虚拟筛选为实施例,一种基于蛋白质序列对比的分子虚拟筛选方法,包括以下步骤:
1)输入一个残基数目为249的待进行分子筛选的蛋白质序列5FQ9;
2)对蛋白质序列5FQ9,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含381条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为249×20的位置特异性频率矩阵,记作PSFM:
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,249,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列5FQ9的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出5FQ9与T的相似矩阵,记作S:
其中,Si,j表示5FQ9中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,249,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示5FQ9的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示5FQ9的第i个位置残基类型,表示T的第j个位置残基类型,为根据和残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由5FQ9与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的5FQ9与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出5FQ9中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为5FQ9中残基与T中残基对齐的残基对数目,表示第i对残基对中5FQ9中的残基在5FQ9中的位置,表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列T与5FQ9的相似度匹配质量,记作QLBS:
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列5FQ9的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与5FQ9发生相互作用的潜在分子;
9)对TPD中的每个分子i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹其中,每一个比特位的值为0或1;
10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的0.1·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,这里取0.1。
以蛋白质5FQ9的分子虚拟筛选为实施例,运用以上方法预测得到蛋白质5FQ9的分子虚拟筛选如图2所示。
以上说明是本发明以蛋白质5FQ9的分子虚拟筛选为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于蛋白质序列比对的分子虚拟筛选方法,其特征在于,所述方法包括以下步骤:
1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;
2)对蛋白质序列P,使用HHblits程序搜索蛋白质序列数据库UniRef90,生成一个包含M条序列的多序列联配信息,记作MSA;
3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:
其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;
4)对蛋白质-配体相互作用数据库BioLiP中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;
5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:
其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示P的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示P的第i个位置残基类型,表示T的第j个位置残基类型,为根据和残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;
6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,表示第i对残基对中P中的残基在P中的位置,表示第i对残基对中T中的残基在T中的位置;
7)计算蛋白质序列P与T的相似度匹配质量,记作QLBS:
8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与P发生相互作用的潜在分子;
10)对待筛选的分子库DrugBank中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;
13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011483191.3A CN112820355B (zh) | 2020-12-16 | 2020-12-16 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011483191.3A CN112820355B (zh) | 2020-12-16 | 2020-12-16 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112820355A true CN112820355A (zh) | 2021-05-18 |
CN112820355B CN112820355B (zh) | 2024-03-22 |
Family
ID=75853412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011483191.3A Active CN112820355B (zh) | 2020-12-16 | 2020-12-16 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820355B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758724A (zh) * | 2022-05-23 | 2022-07-15 | 内江师范学院 | 一种抗菌肽筛选方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1997751A (zh) * | 2004-05-28 | 2007-07-11 | 艾更斯司股份有限公司 | 结合于psca蛋白的抗体以及相关分子 |
CN105160206A (zh) * | 2015-10-08 | 2015-12-16 | 中国科学院数学与系统科学研究院 | 一种预测药物的蛋白质相互作用靶点的方法和系统 |
CN111435608A (zh) * | 2019-09-05 | 2020-07-21 | 中国海洋大学 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
CN111951884A (zh) * | 2020-07-10 | 2020-11-17 | 中南大学 | 蛋白质小分子结合口袋上关键柔性氨基酸的识别方法 |
-
2020
- 2020-12-16 CN CN202011483191.3A patent/CN112820355B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1997751A (zh) * | 2004-05-28 | 2007-07-11 | 艾更斯司股份有限公司 | 结合于psca蛋白的抗体以及相关分子 |
CN105160206A (zh) * | 2015-10-08 | 2015-12-16 | 中国科学院数学与系统科学研究院 | 一种预测药物的蛋白质相互作用靶点的方法和系统 |
CN111435608A (zh) * | 2019-09-05 | 2020-07-21 | 中国海洋大学 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
CN111951884A (zh) * | 2020-07-10 | 2020-11-17 | 中南大学 | 蛋白质小分子结合口袋上关键柔性氨基酸的识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758724A (zh) * | 2022-05-23 | 2022-07-15 | 内江师范学院 | 一种抗菌肽筛选方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112820355B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | SAMNet: Stereoscopically attentive multi-scale network for lightweight salient object detection | |
Li et al. | DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines | |
Li et al. | Ensembling multiple raw coevolutionary features with deep residual neural networks for contact‐map prediction in CASP13 | |
CN113393911B (zh) | 一种基于深度学习的配体化合物快速预筛选方法 | |
Xu et al. | OPUS-TASS: a protein backbone torsion angles and secondary structure predictor based on ensemble neural networks | |
Guo et al. | DeepUMQA: ultrafast shape recognition-based protein model quality assessment using deep learning | |
Ahmad et al. | Mal-light: Enhancing lysine malonylation sites prediction problem using evolutionary-based features | |
CN112149885B (zh) | 一种基于序列模板的配体绑定残基预测方法 | |
CN114708903A (zh) | 一种基于自注意力机制的蛋白质残基间距离预测方法 | |
CN115116538A (zh) | 一种蛋白质配体的亲和力预测方法、相关装置以及设备 | |
Liu et al. | Why can deep convolutional neural networks improve protein fold recognition? A visual explanation by interpretation | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 | |
CN112820355A (zh) | 一种基于蛋白质序列比对的分子虚拟筛选方法 | |
Si et al. | Improved protein contact prediction using dimensional hybrid residual networks and singularity enhanced loss function | |
CN109346125B (zh) | 一种快速精确的蛋白质绑定口袋结构对齐方法 | |
Tao et al. | Prediction of protein structural class using tri-gram probabilities of position-specific scoring matrix and recursive feature elimination | |
Vu et al. | fMLC: fast multi-level clustering and visualization of large molecular datasets | |
CN116705192A (zh) | 基于深度学习的药物虚拟筛选方法及装置 | |
Wang et al. | DeepIII: Predicting isoform-isoform interactions by deep neural networks and data fusion | |
Geethu et al. | Improved 3-D protein structure predictions using deep ResNet model | |
Kazm et al. | Transformer Encoder with Protein Language Model for Protein Secondary Structure Prediction | |
CN112216345A (zh) | 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法 | |
Kumar et al. | Distance histogram computation based on spatiotemporal uniformity in scientific data | |
CN114443986A (zh) | 排序方法及装置,排序模型训练方法及装置,电子设备 | |
CN112466392B (zh) | 一种基于深度卷积网络的atp绑定残基预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |