CN110176272B - 一种基于多序列联配信息的蛋白质二硫键预测方法 - Google Patents

一种基于多序列联配信息的蛋白质二硫键预测方法 Download PDF

Info

Publication number
CN110176272B
CN110176272B CN201910311799.9A CN201910311799A CN110176272B CN 110176272 B CN110176272 B CN 110176272B CN 201910311799 A CN201910311799 A CN 201910311799A CN 110176272 B CN110176272 B CN 110176272B
Authority
CN
China
Prior art keywords
information
protein
disulfide bond
cysteine residues
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910311799.9A
Other languages
English (en)
Other versions
CN110176272A (zh
Inventor
胡俊
饶亮
刘俊
周晓根
陈伟锋
张贵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhaoji Biotechnology Co ltd
Shenzhen Xinrui Gene Technology Co ltd
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910311799.9A priority Critical patent/CN110176272B/zh
Publication of CN110176272A publication Critical patent/CN110176272A/zh
Application granted granted Critical
Publication of CN110176272B publication Critical patent/CN110176272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

一种基于多序列联配信息的蛋白质二硫键预测方法,首先,根据输入的待进行二硫键预测的蛋白质序列信息,使用PSI‑BLAST与HHblits程序分别获取蛋白质的两个不同的多序列联配信息;然后,将两个多序列联配信息进行融合;其次,从融合后的多序列联配信息中抽取输入蛋白质中每个半胱氨酸残基的特征信息;再次,计算两两半胱氨酸残基的特征信息之间的相似度;最后,根据计算得到的每对半胱氨酸残基的相似度,预测该对半胱氨酸残基是否为能形成二硫键的两个半胱氨酸残基。本发明提供一种计算代价低、预测精度高的基于多序列联配信息的蛋白质二硫键预测方法。

Description

一种基于多序列联配信息的蛋白质二硫键预测方法
技术领域
本发明涉及生物信息学、模式识别与计算机应用领域,具体而言涉及一种基于多序列联配信息的蛋白质二硫键预测方法。
背景技术
二硫键连接是蛋白质结构的一个重要特征。二硫键是在相同或不同蛋白质多肽链上的两个半胱氨酸残基之间形成的稳定共价键,这些二硫键对蛋白质的折叠和稳定性起着重要作用。因此,精确地预测蛋白质序列中二硫键,有助于研究蛋白质结构、注释蛋白质功能及设计药物靶蛋白,具有重要的生物学意义。
调研文献发现,许多用于预测蛋白质二硫键的方法已被提出,如:DISULFIND(A.Ceroni,et al.DISULFIND:A disulfide bonding state and cysteine connectivityprediction server,Nucleic Acids Res.,34(suppl.2):W177–W181,2006.即:A.Ceroni等.DISULFIND:一个二硫键连接状态和半胱氨酸连接预测服务器,核酸研究,34(suppl.2):W177–W181,2006.)、TargetDisulfide(Dong-Jun Yu,et al.Disulfide ConnectivityPrediction Based on Modelled Protein 3D Structural Information and RandomForest Regression.IEEE/ACM Transactions on Computational Biology andBioinformatics,2015,12(3):611-621.即:Dong-Jun Yu 等.基于蛋白三维结构建模与随机森林回归的二硫键连接预测.IEEE/ACM计算生物学和生物信息学会刊,2015,12(3):611-621)、Cyscon(Yang J,et al.Accurate disulfide-bonding network predictionsimprove ab initio structure prediction of cysteine-richproteins.Bioinformatics,2015,31(23):3773-3781.即:Yang J等.精确预测二硫键用于提升富含半胱氨酸蛋白结构的从头预测精度.生物信息学,2015,31(23):3773-3781)与pSSbond-PseAAC(Khan Y D,et al.pSSbond-PseAAC:prediction of disulfide bondingsites by integration of PseAAC and statistical moments.Journal of theoreticalbiology,2019,463:47-55.即:Khan Y D等.pSSbond-PseAAC:利用PseAAC和统计矩的方法预测二硫键合位点.理论生物学杂志,2019,463:47-55.)等。尽管已有方法可以用于预测蛋白质的二硫键信息,但是由于它们普遍使用了大量的训练数据集和机器学习算法来训练模型,所以计算代价较大,而且由于训练集合中的噪音信息没有得到足够的关注,预测精度并不能保证是最优的,有待进一步提升。
综上所述,已有的蛋白质二硫键预测方法在计算代价、预测精度两个方面距离实际应用的要求还有很大差距,迫切地需要改进。
发明内容
为了克服已有的蛋白质二硫键预测方法在计算代价、预测精度两个方面的不足,本发明提出一种计算代价小、预测精度高的基于多序列联配信息的蛋白质二硫键预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于多序列联配信息的蛋白质二硫键预测方法,所述方法包括以下步骤:
1)输入待进行二硫键预测的蛋白质序列信息,记作S;
2)对蛋白质S,分别使用PSI-BLAST(https://www.ebi.ac.uk/Tools/sss/psiblast/)与HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索蛋白质序列数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成两个不同的多序列联配信息,记作
Figure BDA0002031757540000021
Figure BDA0002031757540000022
3)将两个多序列联配信息
Figure BDA0002031757540000023
Figure BDA0002031757540000024
进行融合,融合后的多序列联配信息,记作MSAS
4)对蛋白质S中的每个残基Ri,i=1,2,…,L,从MSAS中选取与Ri对应的第i列残基比对信息,并统计20种常见氨基酸在该列比对信息中出现的频率,作为Ri的特征,记作
Figure BDA0002031757540000025
其中L为蛋白质序列S中的残基数目,
Figure BDA0002031757540000026
j=1,2,…,20,为类型AAj的氨基酸在MSA中第i列出现的频率;
5)对于出现在蛋白质S中第Cj个位置的半胱氨酸残基
Figure BDA0002031757540000027
j∈{1,2,…,K}且W<Cj≤L-W,选择一个以
Figure BDA0002031757540000028
为中心的大小为2W+1的窗口,将窗口内残基对应的特征
Figure BDA0002031757540000029
组合成一个窗口特征,记作
Figure BDA00020317575400000210
其中K为蛋白质序列S中的半胱氨酸残基数目;
6)对蛋白质S中任意一对半胱氨酸残基
Figure BDA00020317575400000211
Figure BDA00020317575400000212
根据它们的窗口特征
Figure BDA00020317575400000213
Figure BDA00020317575400000214
计算它们之间有二硫键相互作用的概率
Figure BDA00020317575400000215
Figure BDA0002031757540000031
其中
Figure BDA0002031757540000032
表示窗口特征中第m个元素的值,当
Figure BDA0002031757540000033
大于阈值T,则将该对半胱氨酸残基预测为能形成二硫键的两个半胱氨酸残基,否则预测为不能形成二硫键的两个半胱氨酸残基;
7)返回蛋白质S中被预测为能形成二硫键的所有半胱氨酸残基对信息。
本发明的技术构思为:首先,根据输入的待进行二硫键预测的蛋白质序列信息,使用PSI-BLAST与HHblits程序分别获取蛋白质的两个不同的多序列联配信息;然后,将两个多序列联配信息进行融合;其次,从融合后的多序列联配信息中抽取输入蛋白质中每个半胱氨酸残基的特征信息;再次,计算两两半胱氨酸残基的特征信息之间的相似度;最后,根据计算得到的每对半胱氨酸残基的相似度,预测该对半胱氨酸残基是否为能形成二硫键的两个半胱氨酸残基。本发明提供一种计算代价低、预测精度高的一种基于多序列联配信息的蛋白质二硫键预测方法。
本发明的有益效果表现在:一方面,融合由PSI-BLAST与HHblits程序抽取的两个多序列联配信息,获取了更多有用信息,为进一步提升预测精度做好了准备;另一方面,从多序列联配信息中抽取半胱氨酸残基的特征信息,并直接计算两个半胱氨酸残基之间的二硫键相互作用的概率,据此来预测蛋白质二硫键信息,提高了蛋白质二硫键的预测效率与精确性。
附图说明
图1为一种基于多序列联配信息的蛋白质二硫键预测方法的示意图。
图2为使用一种基于多序列联配信息的蛋白质二硫键预测方法对蛋白质1avaC进行二硫键信息预测的结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于多序列联配信息的蛋白质二硫键预测方法,包括以下步骤:
1)输入待进行二硫键预测的蛋白质序列信息,记作S;
2)对蛋白质S,分别使用PSI-BLAST(https://www.ebi.ac.uk/Tools/sss/psiblast/)与HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索蛋白质序列数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成两个不同的多序列联配信息,记作
Figure BDA0002031757540000041
Figure BDA0002031757540000042
3)将两个多序列联配信息
Figure BDA0002031757540000043
Figure BDA0002031757540000044
进行融合,融合后的多序列联配信息,记作MSAS
4)对蛋白质S中的每个残基Ri,i=1,2,…,L,从MSAS中选取与Ri对应的第i列残基比对信息,并统计20种常见氨基酸在该列比对信息中出现的频率,作为Ri的特征,记作
Figure BDA0002031757540000045
其中L为蛋白质序列S中的残基数目,
Figure BDA0002031757540000046
j=1,2,…,20,为类型AAj的氨基酸在MSA中第i列出现的频率;
5)对于出现在蛋白质S中第Cj个位置的半胱氨酸残基
Figure BDA0002031757540000047
j∈{1,2,…,K}且W<Cj≤L-W,选择一个以
Figure BDA0002031757540000048
为中心的大小为2W+1的窗口,将窗口内残基对应的特征
Figure BDA0002031757540000049
组合成一个窗口特征,记作
Figure BDA00020317575400000410
其中K为蛋白质序列S中的半胱氨酸残基数目;
6)对蛋白质S中任意一对半胱氨酸残基
Figure BDA00020317575400000411
Figure BDA00020317575400000412
根据它们的窗口特征
Figure BDA00020317575400000413
Figure BDA00020317575400000414
计算它们之间有二硫键相互作用的概率
Figure BDA00020317575400000415
Figure BDA00020317575400000416
其中
Figure BDA00020317575400000417
表示窗口特征中第m个元素的值,当
Figure BDA00020317575400000418
大于阈值T,则将该对半胱氨酸残基预测为能形成二硫键的两个半胱氨酸残基,否则预测为不能形成二硫键的两个半胱氨酸残基;
7)返回蛋白质S中被预测为能形成二硫键的所有半胱氨酸残基对信息。
本实施例以蛋白质1avaC的二硫键信息预测为实施例,一种基于多序列联配信息的蛋白质二硫键预测方法,包括以下步骤:
1)输入待进行二硫键预测的蛋白质1avaC的序列信息,记作S;
2)对蛋白质S,分别使用PSI-BLAST(https://www.ebi.ac.uk/Tools/sss/psiblast/)与HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索蛋白质序列数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成两个不同的多序列联配信息,记作
Figure BDA0002031757540000051
Figure BDA0002031757540000052
3)将两个多序列联配信息
Figure BDA0002031757540000053
Figure BDA0002031757540000054
进行融合,融合后的多序列联配信息,记作MSAS
4)对蛋白质S中的每个残基Ri,i=1,2,…,L,从MSAS中选取与Ri对应的第i列残基比对信息,并统计20种常见氨基酸在该列比对信息中出现的频率,作为Ri的特征,记作
Figure BDA0002031757540000055
其中L为蛋白质序列S中的残基数目181,
Figure BDA0002031757540000056
j=1,2,…,20,为类型AAj的氨基酸在MSA中第i列出现的频率;
5)对于出现在蛋白质S中第Cj个位置的半胱氨酸残基
Figure BDA0002031757540000057
j∈{1,2,…,K}且W<Cj≤L-W,选择一个以
Figure BDA0002031757540000058
为中心的大小为2W+1的窗口,将窗口内残基对应的特征
Figure BDA0002031757540000059
组合成一个窗口特征,记作
Figure BDA00020317575400000510
其中K=4为蛋白质序列S中的半胱氨酸残基数目,W的值为5;
6)对蛋白质S中任意一对半胱氨酸残基
Figure BDA00020317575400000511
Figure BDA00020317575400000512
根据它们的窗口特征
Figure BDA00020317575400000513
Figure BDA00020317575400000514
计算它们之间有二硫键相互作用的概率
Figure BDA00020317575400000515
Figure BDA00020317575400000516
其中
Figure BDA00020317575400000517
表示窗口特征中第m个元素的值,当
Figure BDA00020317575400000518
大于阈值0.7,则将该对半胱氨酸残基预测为能形成二硫键的两个半胱氨酸残基,否则预测为不能形成二硫键的两个半胱氨酸残基;
7)返回蛋白质S中被预测为能形成二硫键的所有半胱氨酸残基对信息。
以蛋白质1avaC的二硫键信息预测为实施例,运用以上方法预测得到蛋白质1avaC的二硫键信息如图2所示。
以上说明是本发明以蛋白质1avaC的二硫键信息预测为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于多序列联配信息的蛋白质二硫键预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入待进行二硫键预测的蛋白质序列信息,记作S;
2)对蛋白质序列信息S,分别使用PSI-BLAST与HHblits程序搜索蛋白质序列数据库UniRef90,生成两个不同的多序列联配信息,记作
Figure FDA0002959424910000011
Figure FDA0002959424910000012
3)将两个多序列联配信息
Figure FDA0002959424910000013
Figure FDA0002959424910000014
进行融合,融合后的多序列联配信息,记作MSAS
4)对蛋白质序列信息S中的每个残基Ri,i=1,2,…,L,从MSAS中选取与Ri对应的第i列残基比对信息,并统计20种常见氨基酸在该列比对信息中出现的频率,作为Ri的特征,记作
Figure FDA0002959424910000015
其中L为蛋白质序列信息S中的残基数目,
Figure FDA0002959424910000016
为类型AAj的氨基酸在MSAS中第i列出现的频率;
5)对于出现在蛋白质序列信息S中第CJ个位置的半胱氨酸残基
Figure FDA0002959424910000017
J∈{1,2,…,K}且W<CJ≤L-W,选择一个以
Figure FDA0002959424910000018
为中心的大小为2W+1的窗口,将窗口内残基对应的特征
Figure FDA0002959424910000019
组合成一个窗口特征,记作
Figure FDA00029594249100000110
其中K为蛋白质序列信息S中的半胱氨酸残基数目;
6)对蛋白质序列信息S中任意一对半胱氨酸残基
Figure FDA00029594249100000111
Figure FDA00029594249100000112
根据它们的窗口特征
Figure FDA00029594249100000113
Figure FDA00029594249100000114
计算它们之间有二硫键相互作用的概率
Figure FDA00029594249100000115
Figure FDA00029594249100000116
其中
Figure FDA00029594249100000117
表示窗口特征中第m个元素的值,当
Figure FDA00029594249100000118
大于阈值T,则将该对半胱氨酸残基预测为能形成二硫键的两个半胱氨酸残基,否则预测为不能形成二硫键的两个半胱氨酸残基;
7)返回蛋白质序列信息S中被预测为能形成二硫键的所有半胱氨酸残基对信息。
CN201910311799.9A 2019-04-18 2019-04-18 一种基于多序列联配信息的蛋白质二硫键预测方法 Active CN110176272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910311799.9A CN110176272B (zh) 2019-04-18 2019-04-18 一种基于多序列联配信息的蛋白质二硫键预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910311799.9A CN110176272B (zh) 2019-04-18 2019-04-18 一种基于多序列联配信息的蛋白质二硫键预测方法

Publications (2)

Publication Number Publication Date
CN110176272A CN110176272A (zh) 2019-08-27
CN110176272B true CN110176272B (zh) 2021-05-18

Family

ID=67689911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910311799.9A Active CN110176272B (zh) 2019-04-18 2019-04-18 一种基于多序列联配信息的蛋白质二硫键预测方法

Country Status (1)

Country Link
CN (1) CN110176272B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081312B (zh) * 2019-12-04 2021-10-29 浙江工业大学 一种基于多序列联配信息的配体绑定残基预测方法
CN112837742B (zh) * 2021-01-22 2024-03-26 浙江工业大学 一种基于循环网络的蛋白质与蛋白质相互作用预测方法
CN115331728B (zh) * 2022-08-12 2023-06-30 杭州力文所生物科技有限公司 一种稳定折叠的富含二硫键的多肽设计方法及其电子设备
CN117198390B (zh) * 2023-09-08 2024-03-12 中国科学院广州生物医药与健康研究院 通过设计和改造二硫键交联位点的slc膜蛋白复合物的制备方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1507793A4 (en) * 2001-10-17 2006-02-01 Human Genome Sciences Inc NEUTROKIN ALPHA AND NEUTROKIN ALPHA SPLICE VERSION
WO2005017805A2 (en) * 2003-08-13 2005-02-24 California Institute Of Technology Systems and methods for predicting the structure and function of multipass transmembrane proteins
CN104063632B (zh) * 2014-06-27 2017-09-01 南京理工大学 基于回归森林模型的蛋白质序列二硫键连接模式的预测方法
EP3970748A1 (en) * 2014-12-24 2022-03-23 NexImmune, Inc. Nanoparticle compositions and methods for immunotherapy
US20190264197A1 (en) * 2016-07-27 2019-08-29 Protagonist Therapeutics, Inc. Disulfide-rich peptide libraries and methods of use thereof
CN106529212B (zh) * 2016-10-19 2019-01-25 哈尔滨工业大学深圳研究生院 基于序列依赖频率矩阵的生物序列进化信息提取方法
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN109637580B (zh) * 2018-12-06 2023-06-13 上海交通大学 一种蛋白质氨基酸关联矩阵预测方法
CN111944783B (zh) * 2018-12-13 2021-09-07 浙江大学 一种热稳定性提高的脂肪酶突变体及其应用

Also Published As

Publication number Publication date
CN110176272A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110176272B (zh) 一种基于多序列联配信息的蛋白质二硫键预测方法
Pakhrin et al. Deep learning-based advances in protein structure prediction
Higham et al. Fitting a geometric graph to a protein–protein interaction network
CN111063389B (zh) 一种基于深度卷积神经网络的配体绑定残基预测方法
Huang et al. Protein inference: a review
Guo et al. Prediction of inter-chain distance maps of protein complexes with 2D attention-based deep neural networks
CN105468781A (zh) 视频查询方法和装置
Guo et al. DeepUMQA: ultrafast shape recognition-based protein model quality assessment using deep learning
CN104573130A (zh) 基于群体计算的实体解析方法及装置
Wang et al. A heterogeneous network-based method with attentive meta-path extraction for predicting drug–target interactions
Li et al. Protein inter‐residue contact and distance prediction by coupling complementary coevolution features with deep residual networks in CASP14
Jing et al. Improved protein model quality assessment by integrating sequential and pairwise features using deep learning
Shao et al. Choosing appropriate models for protein–protein interaction networks: a comparison study
Liu et al. Why can deep convolutional neural networks improve protein fold recognition? A visual explanation by interpretation
Bi et al. Construction of multiscale genome-scale metabolic models: frameworks and challenges
CN112149885B (zh) 一种基于序列模板的配体绑定残基预测方法
Zheng et al. Improving deep learning protein monomer and complex structure prediction using DeepMSA2 with huge metagenomics data
Ghualm et al. Identification of pathway-specific protein domain by incorporating hyperparameter optimization based on 2D convolutional neural network
Guo et al. TRScore: a 3D RepVGG-based scoring method for ranking protein docking models
CN113539364A (zh) 一种深度神经网络框架预测蛋白质磷酸化的方法
CN112259157A (zh) 一种蛋白质相互作用预测方法
Zhao et al. Motion segmentation based on model selection in permutation space for rgb sensors
Kern et al. Predicting interacting residues using long-distance information and novel decoding in hidden markov models
CN112216345B (zh) 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法
Chung et al. Non-parametric Bayesian approach to post-translational modification refinement of predictions from tandem mass spectrometry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221125

Address after: N2248, Floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou, Guangdong 510,000

Patentee after: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Address before: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18

Patentee before: JIANG University OF TECHNOLOGY

Effective date of registration: 20221125

Address after: D1101, Building 4, Software Industry Base, No. 19, 17, 18, Haitian 1st Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong, 518000

Patentee after: Shenzhen Xinrui Gene Technology Co.,Ltd.

Address before: N2248, Floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou, Guangdong 510,000

Patentee before: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.