CN107330303B - 一种多域蛋白模板无缝比对方法 - Google Patents
一种多域蛋白模板无缝比对方法 Download PDFInfo
- Publication number
- CN107330303B CN107330303B CN201710436819.6A CN201710436819A CN107330303B CN 107330303 B CN107330303 B CN 107330303B CN 201710436819 A CN201710436819 A CN 201710436819A CN 107330303 B CN107330303 B CN 107330303B
- Authority
- CN
- China
- Prior art keywords
- template
- protein
- domain
- domain protein
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种多域蛋白模板无缝比对方法,从各单域蛋白的三维结构出发,首先,对模板的两端加上允许长度的空白序列;然后,采用蛋白质模板比对工具TM‑align搜索第一个单域蛋白在模板上的最佳比对位置,并从最后一个比对位置后的模板中搜索第二个单域蛋白的最佳比对位置,如果两者比对部分之间的间隙大于最大允许值,则采用无缝滑动窗口的方法搜索第二个单域蛋白的最佳比对位置,当第二个单域蛋白的最佳比对位置确定后,继续采用同样的方法搜索其他单域蛋白的最佳比对位置;最后,以各单域蛋白的最佳比对位置为当前查询蛋白与目标之间的最佳比对,本发明提供一种比对精度较高、效率较高的多域蛋白模板无缝比对方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种多域蛋白模板无缝比对方法。
背景技术
一个蛋白可能包含一个结构域和多个结构域,仅包含一个结构域的蛋白成为单域蛋白,包含两个以上结构域的蛋白称为多域蛋白。多域蛋白的三维结构预测是了解全长蛋白功能的重要步骤,由于多域蛋白一般比单域蛋白规模更大,从而增加了多域蛋白结构预测的难度。目前,最常用的多域蛋白结构预测方法都是同多域蛋白中的单域结构出发,通过对域和域之间的连接区域进行采样或者域和域结构的刚性对接来预测多域蛋白的三维结构。
从目前的研究结果可以看出,在基于模板的多域蛋白结构预测方法中,由于模板可以提供域和域之间的方向信息,因此预测精度较高。基于模板的预测方法通常包括模板搜索、模板比对以及组装构象的采样等步骤,其中,模板比对的质量直接决定着最后的预测精度。如果模板比对不精确,即使找到很优秀的模板,也无法预测得到精度较高的结构。由于多域蛋白由多个单域蛋白组成,而且各单域蛋白之间的连接对应到模板上连接的长度无法提前知道,因此无法采用单域蛋白的比对方法进行比对。
目前,常用的多域蛋白比对方法以穿线比对方法为主,然而穿线比对是从蛋白的整条序列出发,在比对过程中无法通过调整域和域之间连接长度使得比对达到最佳,从而使得与查询蛋白结构相似但连接长度不同的模板无法比对到最佳位置,从而影响比对精度。
因此,现有的多域蛋白模板比对方法在比对精度上存在缺陷,需要改进。
发明内容
为了克服现有的多域蛋白比对方法在比对精度方面的不足,本发明提供一种比对精度较高、效率较高的多域蛋白模板无缝比对方法。
本发明解决其技术问题所采用的技术方案是:
一种多域蛋白模板无缝比对方法,所述方法包括以下步骤:
1)参数初始化:设置相邻域之间的最大允许间隙Mgap,模板左边的最大允许空白Lgap,模板右边的最大允许空白Rgap;
2)输入查询蛋白的各单域三维结构以及需要比对的模板;
3)在模板左边加上长度为Lgap的空白序列,并在模板右边加上长度为Rgap的空白序列;
4)从模板的第一个空白位置开始,根据蛋白质模板比对工具TM-align搜索第一个单域的最佳比对位置,并记录最后一个序列的比对位置;
5)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,根据TM-align搜索第二个单域的最佳比对位置,并记录最后一个序列的比对位置;
6)若第二个单域蛋白和第一个单域蛋白的比对部分之间的间隙大于Mgap,则继续步骤7);
7)无缝滑动比对,过程如下:
7.1)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,将第二个单域蛋白比对到模板上,采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.2)将第二个单域蛋白向右滑动一个序列位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.3)继续滑动,直到第一个域和第二个域蛋白之间的间隙达到Mgap为止,每次滑动一个位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.4)取滑动过程中第二个单域蛋白和模板之间的得分最高的比对为第二个蛋白的最佳比对;
8)按照步骤4)-7)搜索其它单域蛋白的最佳比对位置,每次搜索一个单域蛋白,直到所有单域蛋白的最佳比对位置都搜索到为止;
9)以步骤8)中各单域蛋白的比对为当前查询蛋白和模板蛋白之间的最佳比对。
本发明的技术构思为:从各单域蛋白的三维结构出发,首先,对模板的两端加上允许长度的空白序列;然后,采用蛋白质模板比对工具TM-align搜索第一个单域蛋白在模板上的最佳比对位置,并从最后一个比对位置后的模板中搜索第二个单域蛋白的最佳比对位置,如果两者比对部分之间的间隙大于最大允许值,则采用无缝滑动窗口的方法搜索第二个单域蛋白的最佳比对位置,当第二个单域蛋白的最佳比对位置确定后,继续采用同样的方法搜索第三个单域蛋白的最佳比对位置,以此类推,直到所有单域蛋白的最佳比对位置被确定为止;最后,以各单域蛋白的最佳比对位置为当前查询蛋白与目标之间的最佳比对。
本发明的有益效果表现在:采用蛋白质模板比对工具TM-align和无缝滑动窗口结合的方法搜索各单域蛋白的最佳比对位置,以获得整个多域蛋白的最佳比对位置,可以提高比对精度和效率。
附图说明
图1是多域蛋白模板无缝比对方法的无缝滑动窗口搜索示意图。
图2是实施例的多域蛋白质与模板蛋白3rgfB之间的比对结果示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种多域蛋白模板无缝比对方法,包括以下步骤:
1)参数初始化:设置相邻域之间的最大允许间隙Mgap,模板左边的最大允许空白Lgap,模板右边的最大允许空白Rgap;
2)输入查询蛋白的各单域三维结构以及需要比对的模板;
3)在模板左边加上长度为Lgap的空白序列,并在模板右边加上长度为Rgap的空白序列;
4)从模板的第一个空白位置开始,根据蛋白质模板比对工具TM-align搜索第一个单域的最佳比对位置,并记录最后一个序列的比对位置;
5)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,根据TM-align搜索第二个单域的最佳比对位置,并记录最后一个序列的比对位置;
6)若第二个单域蛋白和第一个单域蛋白的比对部分之间的间隙大于Mgap,则继续步骤7);
7)无缝滑动比对,过程如下:
7.1)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,将第二个单域蛋白比对到模板上,采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.2)将第二个单域蛋白向右滑动一个序列位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.3)继续滑动,直到第一个域和第二个域蛋白之间的间隙达到Mgap为止,每次滑动一个位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.4)取滑动过程中第二个单域蛋白和模板之间的得分最高的比对为第二个蛋白的最佳比对;
8)按照步骤4)-7)搜索其它单域蛋白的最佳比对位置,每次搜索一个单域蛋白,直到所有单域蛋白的最佳比对位置都搜索到为止;
9)以步骤8)中各单域蛋白的比对为当前查询蛋白和模板蛋白之间的最佳比对。
本实施例序列长度为254的多域蛋白质2i53A为实施例,一种多域蛋白模板无缝比对方法,包括以下步骤:
1)参数初始化:设置相邻域之间的最大允许间隙Mgap=5,模板左边的最大允许空白Lgap=20,模板右边的最大允许空白Rgap=20;
2)输入查询蛋白的各单域三维结构以及需要比对的模板;
3)在模板左边加上长度为Lgap的空白序列,并在模板右边加上长度为Rgap的空白序列;
4)从模板的第一个空白位置开始,根据蛋白质模板比对工具TM-align搜索第一个单域的最佳比对位置,并记录最后一个序列的比对位置;
5)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,根据TM-align搜索第二个单域的最佳比对位置,并记录最后一个序列的比对位置;
6)若第二个单域蛋白和第一个单域蛋白的比对部分之间的间隙大于Mgap,则继续步骤7);
7)无缝滑动比对,过程如下:
7.1)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,将第二个单域蛋白比对到模板上,采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.2)将第二个单域蛋白向右滑动一个序列位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.3)继续滑动,直到第一个域和第二个域蛋白之间的间隙达到Mgap为止,每次滑动一个位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.4)取滑动过程中第二个单域蛋白和模板之间的得分最高的比对为第二个蛋白的最佳比对;
8)按照步骤4)-7)搜索其它单域蛋白的最佳比对位置,每次搜索一个单域蛋白,直到所有单域蛋白的最佳比对位置都搜索到为止;
9)以步骤8)中各单域蛋白的比对为当前查询蛋白和模板蛋白之间的最佳比对。
以序列长度为254的包含两个域的多域蛋白质2i53A为实施例,运用以上方法组装得到了该多域蛋白质与模板蛋白3rgfB之间的比对结果,如图2所示,两者之间的总模板比对得分为0.80。
以上说明是本发明以2i53A蛋白质为实例所得出的模板比对效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种多域蛋白模板无缝比对方法,其特征在于:所述模板无缝比对方法包括以下步骤:
1)参数初始化:设置相邻域之间的最大允许间隙Mgap,模板左边的最大允许空白Lgap,模板右边的最大允许空白Rgap;
2)输入查询蛋白的各单域三维结构以及需要比对的模板;
3)在模板左边加上长度为Lgap的空白序列,并在模板右边加上长度为Rgap的空白序列;
4)从模板的第一个空白位置开始,根据蛋白质模板比对工具TM-align搜索第一个单域的最佳比对位置,并记录最后一个序列的比对位置;
5)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,根据TM-align搜索第二个单域的最佳比对位置,并记录最后一个序列的比对位置;
6)若第二个单域蛋白和第一个单域蛋白的比对部分之间的间隙大于Mgap,则继续步骤7);
7)无缝滑动比对,过程如下:
7.1)从第一个单域蛋白的最后一个比对位置后的第一个位置开始,将第二个单域蛋白比对到模板上,采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.2)将第二个单域蛋白向右滑动一个序列位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.3)继续滑动,直到第一个域和第二个域蛋白之间的间隙达到Mgap为止,每次滑动一个位置,并重新采用TM-align计算第二个单域蛋白和模板之间的比对得分;
7.4)取滑动过程中第二个单域蛋白和模板之间的得分最高的比对为第二个蛋白的最佳比对;
8)按照步骤4)-7)搜索其它单域蛋白的最佳比对位置,每次搜索一个单域蛋白,直到所有单域蛋白的最佳比对位置都搜索到为止;
9)以步骤8)中各单域蛋白的比对为当前查询蛋白和模板蛋白之间的最佳比对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710436819.6A CN107330303B (zh) | 2017-06-12 | 2017-06-12 | 一种多域蛋白模板无缝比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710436819.6A CN107330303B (zh) | 2017-06-12 | 2017-06-12 | 一种多域蛋白模板无缝比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330303A CN107330303A (zh) | 2017-11-07 |
CN107330303B true CN107330303B (zh) | 2020-06-30 |
Family
ID=60195254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710436819.6A Active CN107330303B (zh) | 2017-06-12 | 2017-06-12 | 一种多域蛋白模板无缝比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330303B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101294970A (zh) * | 2007-04-25 | 2008-10-29 | 中国医学科学院基础医学研究所 | 蛋白质三维结构的预测方法 |
CN101957892A (zh) * | 2010-09-17 | 2011-01-26 | 深圳华大基因科技有限公司 | 一种全基因组复制事件的检测方法和系统 |
CN102521528A (zh) * | 2011-12-05 | 2012-06-27 | 中国科学院计算机网络信息中心 | 一种基因序列数据的筛选方法 |
WO2014165286A1 (en) * | 2013-03-12 | 2014-10-09 | Iowa State University Research Foundation, Inc. | Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models |
CN105468934A (zh) * | 2015-11-18 | 2016-04-06 | 浙江工业大学 | 一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法 |
-
2017
- 2017-06-12 CN CN201710436819.6A patent/CN107330303B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101294970A (zh) * | 2007-04-25 | 2008-10-29 | 中国医学科学院基础医学研究所 | 蛋白质三维结构的预测方法 |
CN101957892A (zh) * | 2010-09-17 | 2011-01-26 | 深圳华大基因科技有限公司 | 一种全基因组复制事件的检测方法和系统 |
CN102521528A (zh) * | 2011-12-05 | 2012-06-27 | 中国科学院计算机网络信息中心 | 一种基因序列数据的筛选方法 |
WO2014165286A1 (en) * | 2013-03-12 | 2014-10-09 | Iowa State University Research Foundation, Inc. | Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models |
CN105468934A (zh) * | 2015-11-18 | 2016-04-06 | 浙江工业大学 | 一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107330303A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | O-Pair Search with MetaMorpheus for O-glycopeptide characterization | |
Marco-Sola et al. | The GEM mapper: fast, accurate and versatile alignment by filtration | |
US9947103B1 (en) | Learning method and learning device for improving image segmentation and testing method and testing device using the same | |
Käll et al. | Semi-supervised learning for peptide identification from shotgun proteomics datasets | |
CN111063389A (zh) | 一种基于深度卷积神经网络的配体绑定残基预测方法 | |
Forshed et al. | Evaluation of different techniques for data fusion of LC/MS and 1H-NMR | |
CN107633159B (zh) | 一种基于距离相似度的蛋白质构象空间搜索方法 | |
Jansen et al. | HappyTools: a software for high-throughput HPLC data processing and quantitation | |
Junczys-Dowmunt et al. | Symgiza++: symmetrized word alignment models for statistical machine translation | |
CN104182657B (zh) | 一种高通量转录组测序数据的分析方法 | |
Mokhtari et al. | Automated characterization and parameter-free classification of cell tracks based on local migration behavior | |
CN103324706A (zh) | 具有时间约束的轨迹数据热点区域的方法 | |
Degroeve et al. | ionbot: a novel, innovative and sensitive machine learning approach to LC-MS/MS peptide identification | |
CN107330303B (zh) | 一种多域蛋白模板无缝比对方法 | |
CN111081312B (zh) | 一种基于多序列联配信息的配体绑定残基预测方法 | |
CN107180164B (zh) | 一种基于模板的多域蛋白结构组装方法 | |
Zhao et al. | Protein secondary structure prediction using NMR chemical shift data | |
CN109346125B (zh) | 一种快速精确的蛋白质绑定口袋结构对齐方法 | |
CN104458785B (zh) | 一种核磁共振波谱谱峰对齐及谱峰提取方法 | |
CN108268960A (zh) | 驾驶轨迹优化系统 | |
Zhu et al. | Online state-time trajectory planning using timed-esdf in highly dynamic environments | |
CN102339464A (zh) | 线搜索式角点检测方法 | |
CN107273713B (zh) | 一种基于TM-align的多域蛋白模板搜索方法 | |
Meng et al. | DiffClass: Diffusion-Based Class Incremental Learning | |
CN109782216A (zh) | 一种二维空间谱峰值搜索的简易方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |