CN111081312B - 一种基于多序列联配信息的配体绑定残基预测方法 - Google Patents

一种基于多序列联配信息的配体绑定残基预测方法 Download PDF

Info

Publication number
CN111081312B
CN111081312B CN201911225431.7A CN201911225431A CN111081312B CN 111081312 B CN111081312 B CN 111081312B CN 201911225431 A CN201911225431 A CN 201911225431A CN 111081312 B CN111081312 B CN 111081312B
Authority
CN
China
Prior art keywords
residue
sequence
protein sequence
msa
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911225431.7A
Other languages
English (en)
Other versions
CN111081312A (zh
Inventor
胡俊
郑琳琳
樊学强
白岩松
张贵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhaoji Biotechnology Co ltd
Shenzhen Xinrui Gene Technology Co ltd
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911225431.7A priority Critical patent/CN111081312B/zh
Publication of CN111081312A publication Critical patent/CN111081312A/zh
Application granted granted Critical
Publication of CN111081312B publication Critical patent/CN111081312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于多序列联配信息的配体绑定残基预测方法,首先,根据输入的待进行配体绑定残基预测的蛋白质序列和绑定残基的个数,使用HHblits程序获取蛋白质的多序列联配信息;然后,计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率;再次,根据计算得到的频率以及输入的绑定残基个数,计算得到伪协相关性系数矩阵;最后,取得伪协相关性系数矩阵中的最大值,根据最大值对应位置输出待预测蛋白质序列中绑定同一配体的残基信息。本发明提出一种计算代价小、预测精度高的基于多序列联配信息的配体绑定残基预测方法。

Description

一种基于多序列联配信息的配体绑定残基预测方法
技术领域
本发明涉及生物信息学与计算机应用领域,具体而言涉及一种基于多序列联配信息的配体绑定残基预测方法。
背景技术
蛋白质与配体分子之间相互作用是通过部分氨基酸残基与配体分子的相互作用来实现的,这种相互作用在生命活动中普遍存在,且不可或缺,这些氨基酸残基被称为绑定残基。因此,精确识别蛋白质与配体的绑定残基,对于理解蛋白质功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。
调研文献发现,已有很多用于预测绑定残基的方法被提出,如:COACH(Yang J,RoyA,Zhang Y.Protein–ligand binding site recognition using complementarybinding-specific substructure comparison and sequence profile alignment[J].Bioinformatics,2013,29(20):2588-2595.即:Yang J,Roy A,Zhang Y.利用互补结合特异性亚结构比较和序列轮廓比对进行蛋白质-配体结合位点识别[J].生物信息学,2013,29(20):2588-2595)、3DLigandSite(Wass M N,Kelley L A,Sternberg M JE.3DLigandSite:predicting ligand-binding sites using similar structures[J].Nucleic acidsresearch,2010,38(suppl_2):W469-W473.即:Wass M N,Kelley L A,Sternberg M JE.3DLigandSite:使用类似结构预测配体结合位点[J].核酸研究,2010,3838(suppl_2):W469-W473)以及FINDSITE(Brylinski M,Skolnick J.Athreading-based method(FINDSITE)for ligand-binding site prediction and functional annotation[J].Proceedings of the National Academy of sciences,2008,105(1):129-134.即:Brylinski M,Skolnick J.配体结合位点预测和功能注释的基于线程的方法(FINDSITE)[J].美国国家科学院院刊,2008,105(1):129-134)等。尽管已有的方法可以用于预测绑定残基,但是普遍使用大量训练数据集和机器学习算法,所以计算代价较大,同时由于训练集中的噪音信息没有得到足够的关注,预测精度并不能保证是最优的。
综上所述,已有的配体绑定残基预测方法在计算代价、预测精度两个方面距离实际应用的要求还有很大差距,迫切地需要改进。
发明内容
为了克服已有的配体绑定残基预测方法在计算代价、预测精度两个方面的不足,本发明提出一种计算代价小、预测精度高的基于多序列联配信息的配体绑定残基预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于多序列联配信息的配体绑定残基预测方法,所述方法包括以下步骤:
1)输入一个残基数为L的待测蛋白质序列P和绑定残基个数N;
2)对输入的待进行配体绑定残基预测的蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索蛋白质序列数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)生成一个包含M条序列的多序列联配信息,记作MSA;
3)对蛋白质序列P中的任一残基Pi,i=1,2,...,L,计算该残基Pi的位置残基类型在MSA的残基比对信息中对应列出现相同残基类型的频率,记作:
Figure GDA0003116222070000021
其中,
Figure GDA0003116222070000022
表示MSA中第m条序列的第i个位置的残基类型,
Figure GDA0003116222070000023
表示当MSA中第m条序列的第i个位置的残基类型与蛋白质序列P的第i个位置残基类型相同时,则输出为1,否则输出为0;
4)对蛋白质序列P中任意N个残基
Figure GDA0003116222070000024
计算这N个位置残基类型在MSA的残基比对信息中对应位置同时出现相同残基类型的频率,记作:
Figure GDA0003116222070000025
其中i1,...,iN取蛋白质序列P中互不相同的N个位置;
5)对蛋白质序列P中任意N个残基,计算它们之间的伪协相关性系数S(i1,...,iN):
Figure GDA0003116222070000031
6)根据步骤5)计算得出的伪协相关性系数矩阵S,从S中选取最大值
Figure GDA0003116222070000032
返回
Figure GDA0003116222070000033
Figure GDA0003116222070000034
对应蛋白质序列P中的对应位置残基。
本发明的技术构思为:首先,根据输入的待进行配体绑定残基预测的蛋白质序列和绑定残基的个数,使用HHblits程序获取蛋白质的多序列联配信息;然后,计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率;再次,根据计算得到的频率以及输入的绑定残基个数,计算得到伪协相关性系数矩阵;最后,取得伪协相关性系数矩阵中的最大值,根据最大值对应位置输出待预测蛋白质序列中绑定同一配体的残基信息。
本发明的有益效果表现在:一方面,从多序列联配信息中抽取残基的特征信息,直接计算待预测蛋白质和配体联配信息中的对应位置出现相同残基的概率,提高了蛋白质配体绑定残基的预测效率;另一方面,引入伪协相关性系数矩阵来表示多个残基绑定同一配体的相关性,提高了蛋白质配体绑定残基的预测精度。
附图说明
图1为一种基于多序列联配信息的配体绑定残基预测方法的示意图。
图2为使用一种基于多序列联配信息的配体绑定残基预测方法对蛋白质5FQ9进行绑定残基信息预测的结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于多序列联配信息的配体绑定残基预测方法,包括以下步骤:
1)输入一个残基数为L的待测蛋白质序列P和绑定残基个数N;
2)对输入的待进行配体绑定残基预测的蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索蛋白质序列数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)生成一个包含M条序列的多序列联配信息,记作MSA;
3)对蛋白质序列P中的任一残基Pi,i=1,2,...,L,计算该残基Pi的位置残基类型在MSA的残基比对信息中对应列出现相同残基类型的频率,记作:
Figure GDA0003116222070000041
其中,
Figure GDA0003116222070000042
表示MSA中第m条序列的第i个位置的残基类型,
Figure GDA0003116222070000043
表示当MSA中第m条序列的第i个位置的残基类型与蛋白质序列P的第i个位置残基类型相同时,则输出为1,否则输出为0;
4)对蛋白质序列P中任意N个残基
Figure GDA0003116222070000044
计算这N个位置残基类型在MSA的残基比对信息中对应位置同时出现相同残基类型的频率,记作:
Figure GDA0003116222070000045
其中i1,...,iN取蛋白质序列P中互不相同的N个位置;
5)对蛋白质序列P中任意N个残基,计算它们之间的伪协相关性系数S(i1,...,iN):
Figure GDA0003116222070000046
6)根据步骤5)计算得出的伪协相关性系数矩阵S,从S中选取最大值
Figure GDA0003116222070000047
返回
Figure GDA0003116222070000048
Figure GDA0003116222070000049
对应蛋白质序列P中的对应位置残基。
本实施例以蛋白质5FQ9的配体绑定残基预测为实施例,一种基于多序列联配信息的配体绑定残基预测方法,包括以下步骤:
1)输入一个残基数为L、绑定残基个数N为9的待进行配体残基预测的蛋白质序列信息P;
2)对输入的待进行配体绑定残基预测的蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索蛋白质序列数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)生成一个包含M条序列的多序列联配信息,记作MSA;
3)对蛋白质序列P中的任一残基Pi,i=1,2,...,L,计算该残基Pi的位置残基类型在MSA的残基比对信息中对应列出现相同残基类型的频率,记作:
Figure GDA0003116222070000051
其中,
Figure GDA0003116222070000052
表示MSA中第m条序列的第i个位置的残基类型,
Figure GDA0003116222070000053
表示当MSA中第m条序列的第i个位置的残基类型与蛋白质序列P的第i个位置残基类型相同时,则输出为1,否则输出为0;
4)对蛋白质序列P中任意N个残基
Figure GDA0003116222070000054
计算这N个位置残基类型在MSA的残基比对信息中对应位置同时出现相同残基类型的频率,记作:
Figure GDA0003116222070000055
其中i1,...,iN取蛋白质序列P中互不相同的N个位置;
5)对蛋白质序列P中任意N个残基,计算它们之间的伪协相关性系数S(i1,...,iN):
Figure GDA0003116222070000056
6)根据步骤5)计算得出的伪协相关性系数矩阵S,从S中选取最大值
Figure GDA0003116222070000057
返回
Figure GDA0003116222070000058
Figure GDA0003116222070000059
对应蛋白质序列P中的对应位置残基。
以蛋白质5FQ9的配体绑定残基预测为实施例,运用以上方法预测得到蛋白质5FQ9的绑定残基信息如图2所示。
以上说明是本发明以蛋白质5FQ9的配体绑定残基信息预测为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于多序列联配信息的配体绑定残基预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入一个残基数为L的待测蛋白质序列P和绑定残基个数N;
2)对蛋白质序列P,使用HHblits程序搜索蛋白质序列数据库UniRef90生成一个包含M条序列的多序列联配信息,记作MSA;
3)对蛋白质序列P中的任一残基Pi,i=1,2,...,L,计算该残基Pi的位置残基类型在MSA的残基比对信息中对应列出现相同残基类型的频率,记作:
Figure FDA0003116222060000011
其中,
Figure FDA0003116222060000012
表示MSA中第m条序列的第i个位置的残基类型,
Figure FDA0003116222060000013
表示当MSA中第m条序列的第i个位置的残基类型与蛋白质序列P的第i个位置残基类型相同时,则输出为1,否则输出为0;
4)对蛋白质序列P中任意N个残基
Figure FDA0003116222060000014
计算这N个位置残基类型在MSA的残基比对信息中对应位置同时出现相同残基类型的频率,记作:
Figure FDA0003116222060000015
其中i1,...,iN取蛋白质序列P中互不相同的N个位置;
5)对蛋白质序列P中任意N个残基,计算它们之间的伪协相关性系数S(i1,...,iN):
Figure FDA0003116222060000016
6)根据步骤5)计算得出的伪协相关性系数矩阵S,从S中选取最大值
Figure FDA0003116222060000017
返回
Figure FDA0003116222060000018
Figure FDA0003116222060000019
对应蛋白质序列P中的对应位置残基。
CN201911225431.7A 2019-12-04 2019-12-04 一种基于多序列联配信息的配体绑定残基预测方法 Active CN111081312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911225431.7A CN111081312B (zh) 2019-12-04 2019-12-04 一种基于多序列联配信息的配体绑定残基预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911225431.7A CN111081312B (zh) 2019-12-04 2019-12-04 一种基于多序列联配信息的配体绑定残基预测方法

Publications (2)

Publication Number Publication Date
CN111081312A CN111081312A (zh) 2020-04-28
CN111081312B true CN111081312B (zh) 2021-10-29

Family

ID=70312734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911225431.7A Active CN111081312B (zh) 2019-12-04 2019-12-04 一种基于多序列联配信息的配体绑定残基预测方法

Country Status (1)

Country Link
CN (1) CN111081312B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法
CN112149885B (zh) * 2020-09-07 2023-11-24 浙江工业大学 一种基于序列模板的配体绑定残基预测方法
CN112837740B (zh) * 2021-01-21 2024-03-26 浙江工业大学 一种基于结构特征的dna绑定残基预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
WO2019079594A1 (en) * 2017-10-18 2019-04-25 The University Of North Carolina At Chapel Hill METHODS AND COMPOSITIONS FOR VACCINES AGAINST NOVOVIRUS AND DIAGNOSIS OF NOVOVIRUS
CN109801672A (zh) * 2018-11-16 2019-05-24 天津大学 多元互信息和残基结合能量蛋白质间相互作用预测方法
WO2019161340A1 (en) * 2018-02-19 2019-08-22 Yale University Phosphopeptide-encoding oligonucleotide libraries and methods for detecting phosphorylation-dependent molecular interactions
CN110176272A (zh) * 2019-04-18 2019-08-27 浙江工业大学 一种基于多序列联配信息的蛋白质二硫键预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875310A (zh) * 2017-05-12 2018-11-23 河南师范大学 Dna结合蛋白序列信息特征提取与分类方法及装置
US20210057047A1 (en) * 2018-01-08 2021-02-25 The Governing Council Of The University Of Toronto In-silico method for designing a (d)-polypeptide ligand
CN110197700B (zh) * 2019-04-16 2021-04-06 浙江工业大学 一种基于差分进化的蛋白质atp对接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079594A1 (en) * 2017-10-18 2019-04-25 The University Of North Carolina At Chapel Hill METHODS AND COMPOSITIONS FOR VACCINES AGAINST NOVOVIRUS AND DIAGNOSIS OF NOVOVIRUS
WO2019161340A1 (en) * 2018-02-19 2019-08-22 Yale University Phosphopeptide-encoding oligonucleotide libraries and methods for detecting phosphorylation-dependent molecular interactions
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN109801672A (zh) * 2018-11-16 2019-05-24 天津大学 多元互信息和残基结合能量蛋白质间相互作用预测方法
CN110176272A (zh) * 2019-04-18 2019-08-27 浙江工业大学 一种基于多序列联配信息的蛋白质二硫键预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
" Ligand Binding Site Structure Influences the Evolution of Protein Complex Function and Topology";Abrusán;《Cell Reports》;20180320;第1-13页 *
"识别蛋白质配体绑定残基的生物计算方法综述";於东军;《数据采集与处理》;20180331;第195-206页 *

Also Published As

Publication number Publication date
CN111081312A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111081312B (zh) 一种基于多序列联配信息的配体绑定残基预测方法
Graham et al. BinSanity: unsupervised clustering of environmental microbial assemblies using coverage and affinity propagation
Rizk et al. GASSST: global alignment short sequence search tool
US11494387B1 (en) Chemical formula extrapolation and query building to identify source documents referencing relevant chemical formula moieties
Layer et al. Efficient genotype compression and analysis of large genetic-variation data sets
CN112889042A (zh) 机器学习中超参数的识别与应用
US20080281530A1 (en) Genomic data processing utilizing correlation analysis of nucleotide loci
Hoffmann et al. Combining peak-and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry datasets
CN111063389A (zh) 一种基于深度卷积神经网络的配体绑定残基预测方法
Andreani et al. bbcontacts: prediction of β-strand pairing from direct coupling patterns
CN112149881B (zh) 一种基于卷积神经网络的dna绑定残基预测方法
US10394763B2 (en) Method and device for generating pileup file from compressed genomic data
CN112149885B (zh) 一种基于序列模板的配体绑定残基预测方法
WO2020199337A1 (zh) 一种基因变异识别方法、装置和存储介质
US20230154572A1 (en) Retrosynthesis-related synthetic accessibility
Tripp et al. Toward a standard in structural genome annotation for prokaryotes
Denti et al. Shark: fishing relevant reads in an RNA-Seq sample
EP2631832A2 (en) System and method for processing reference sequence for analyzing genome sequence
CN112216345B (zh) 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法
Boshar et al. Are genomic language models all you need? exploring genomic language models on protein downstream tasks
Iravani et al. An Interpretable Deep Learning Approach for Biomarker Detection in LC-MS Proteomics Data
CN110534158B (zh) 一种基因序列比对方法、装置、服务器及介质
US20040219522A1 (en) Exson-intron junction determining device, genetic region determining device, and determining method for them
CN112466392B (zh) 一种基于深度卷积网络的atp绑定残基预测方法
CN118467867B (zh) 实体链接处理方法、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231227

Address after: 518054, D1101, Building 4, Software Industry Base, No. 19, 17, and 18 Haitian 1st Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Xinrui Gene Technology Co.,Ltd.

Address before: 510075 No. n2248, floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Effective date of registration: 20231227

Address after: 510075 No. n2248, floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Address before: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18

Patentee before: JIANG University OF TECHNOLOGY

TR01 Transfer of patent right