CN107609340B - 一种多域蛋白距离谱构建方法 - Google Patents
一种多域蛋白距离谱构建方法 Download PDFInfo
- Publication number
- CN107609340B CN107609340B CN201710605462.XA CN201710605462A CN107609340B CN 107609340 B CN107609340 B CN 107609340B CN 201710605462 A CN201710605462 A CN 201710605462A CN 107609340 B CN107609340 B CN 107609340B
- Authority
- CN
- China
- Prior art keywords
- template
- domain
- distance spectrum
- protein
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 57
- 108091005763 multidomain proteins Proteins 0.000 title claims abstract description 44
- 238000010276 construction Methods 0.000 title claims abstract description 6
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 73
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 8
- 238000000455 protein structure prediction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 101710159527 Maturation protein A Proteins 0.000 description 1
- 101710091157 Maturation protein A2 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种多域蛋白距离谱构建方法,采用蛋白质比对工具对多域蛋白中各单域蛋白与模板的比对进行一对一打分,然后计算整个模板的综合得分;选取综合得分最高的部分模板蛋白提取所比对上的各残基之间的距离构建距离谱,并通过一系列条件来控制距离谱的质量,以保证距离谱的精确性。通过实际构象中各残基之间的距离与距离谱之间的平均误差对组装构象进行打分。本发明提供一种能够提高打分函数精确性的多域蛋白距离谱构建方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种多域蛋白距离谱构建方法。
背景技术
在现有蛋白数据库中,至少有75%的蛋白包含了多个域蛋白。随着新蛋白发现,多域蛋白的数量也在日益上升。大部分多域蛋白由于规模太大而无法一次性预测到期结构,现有多域蛋白结构预测方法有穿线法和单域组装法,其中最常用的单域组装法首先将多域蛋白分成多个单域蛋白,然后对每个单域蛋白的结构进行单独预测,最后在对每个单域蛋白的结构进行组装,从而得到完整的多域蛋白结构。
与单域蛋白结构预测一样,在多域蛋白中需要采用打分函数对组装得到的每一个构象进行打分,从而根据打分来判断构象的接受与否。现有单域蛋白结构的打分函数在多域蛋白结构组装中无法使用,例如域内各残基之间的相互作用力与域和域之间的作用力截然不同。为了解决上述问题,一些方法通过对各域蛋白之间的连接区域的构象进行采样,并采用单域蛋白结构预测方法的打分函数进行打分,从而选择质量较高的连接构象来组装各单域蛋白。然而,由于缺乏域和域之间的方向引导信息,现有打分函数不精确,导致一些质量较高的构象丢失,从而导致多域蛋白的结构预测较低。
因此,现有的多域蛋白打分函数在精确性上存在缺陷,需要改进。
发明内容
为了克服现有的多域蛋白打分函数精确性较低的不足,本发明采用蛋白质比对工具搜索多域蛋白的模板,从而通过提取模板蛋白中所比对上的各残基之间的距离构建距离谱,通过实际构象中各残基之间的距离与距离谱之间的平均误差对组装构象进行打分。本发明提供一种能够提高打分函数精确性的多域蛋白距离谱构建方法。
本发明解决其技术问题所采用的技术方案是:
一种多域蛋白距离谱构建方法,所述方法包括以下步骤:
1)参数初始化:距离谱提取模板蛋白个数T,模板得分阈值S,模板比对百分比P;
2)输入多域蛋白的各单域的三维结构;
3)根据对蛋白库中的每一个多域蛋白模板进行打分,过程如下:
3.1)采用蛋白质模板比对工具TM-align依次计算每一个单域蛋白与模板之间的比对得分TM-score1,TM-score2,…,TM-scoreD,其中,D为多域蛋白中单域蛋白的个数;
3.2)计算该模板的比对总得分:
其中,TM-scorei为第i个单域蛋白与模板之间的比对得分,Li为第i个单域蛋白的序列长度;
4)选取模板比对总得分最高的前T个蛋白建立距离谱,过程如下:
4.1)判断模板的比对总得分是否大于S,且该模板与各单域蛋白的比对残基个数是否均大于P×Li,如果满足以上两个条件,则继续步骤4.2);
4.2)针对两个相邻的单域蛋白,如果其第m个残基和第n个残基在模板上有比对残基Am和An,则继续步骤4.3);
4.3)如果0.8×|m-n|<|Am-An|<1.2×|m-n|,且(m-n)(Am-An)>0,则计算比对残基对Am和An之间的欧氏距离dmn;
4.5)计算第m个残基和第n个残基的距离谱:
4.6)根据步骤4.4)-4.5)计算该相邻的单域蛋白中其它残基对之间的距离谱,则得到这两个单域蛋白之间的距离谱;
4.7)根据步骤4.1)-4.6)计算每两个相邻单域蛋白的距离谱,则得到整个多域蛋白的距离谱。
本发明的技术构思为:本发明采用蛋白质比对工具对多域蛋白中各单域蛋白与模板的比对进行一对一打分,然后计算整个模板的综合得分;选取综合得分最高的部分模板蛋白提取所比对上的各残基之间的距离构建距离谱,并通过一系列条件来控制距离谱的质量,以保证距离谱的精确性。通过实际构象中各残基之间的距离与距离谱之间的平均误差对组装构象进行打分。本发明提供一种能够提高打分函数精确性的多域蛋白距离谱构建方法。
本发明的有益效果表现在:采用蛋白质模板比对工具对模板进行打分,并选取得分高的模板提取距离谱,通过距离谱来对组装蛋白进行打分,可以提高打分函数的精确性。
附图说明
图1是多域蛋白距离谱构建示意图。
图2是实施例的多域蛋白1a62A的距离谱。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种多域蛋白距离谱构建方法,包括以下步骤:
1)参数初始化:距离谱提取模板蛋白个数T,模板得分阈值S,模板比对百分比P;
2)输入多域蛋白的各单域的三维结构;
3)根据对蛋白库中的每一个多域蛋白模板进行打分,过程如下:
3.1)采用蛋白质模板比对工具TM-align依次计算每一个单域蛋白与模板之间的比对得分TM-score1,TM-score2,…,TM-scoreD,其中,D为多域蛋白中单域蛋白的个数;
3.2)计算该模板的比对总得分:
其中,TM-scorei为第i个单域蛋白与模板之间的比对得分,Li为第i个单域蛋白的序列长度;
4)选取模板比对总得分最高的前T个蛋白建立距离谱,过程如下:
4.1)判断模板的比对总得分是否大于S,且该模板与各单域蛋白的比对残基个数是否均大于P×Li,如果满足以上两个条件,则继续步骤4.2);
4.2)针对两个相邻的单域蛋白,如果其第m个残基和第n个残基在模板上有比对残基Am和An,则继续步骤4.3);
4.3)如果0.8×|m-n|<|Am-An|<1.2×|m-n|,且(m-n)(Am-An)>0,则计算比对残基对Am和An之间的欧氏距离dmn;
4.5)计算第m个残基和第n个残基的距离谱:
4.6)根据步骤4.4)-4.5)计算该相邻的单域蛋白中其它残基对之间的距离谱,则得到这两个单域蛋白之间的距离谱;
4.7)根据步骤4.1)-4.6)计算每两个相邻单域蛋白的距离谱,则得到整个多域蛋白的距离谱。
本实施例以多域蛋白质1a62A为实施例,一种多域蛋白距离谱构建方法,包括以下步骤:
1)参数初始化:距离谱提取模板蛋白个数T=200,模板得分阈值S=0.5,模板比对百分比P=0.6;
2)输入多域蛋白的各单域的三维结构;
3)根据对蛋白库中的每一个多域蛋白模板进行打分,过程如下:
3.1)采用蛋白质模板比对工具TM-align依次计算每一个单域蛋白与模板之间的比对得分TM-score1,TM-score2,…,TM-scoreD,其中,D为多域蛋白中单域蛋白的个数;
3.2)计算该模板的比对总得分:
其中,TM-scorei为第i个单域蛋白与模板之间的比对得分,Li为第i个单域蛋白的序列长度;
4)选取模板比对总得分最高的前T个蛋白建立距离谱,过程如下:
4.1)判断模板的比对总得分是否大于S,且该模板与各单域蛋白的比对残基个数是否均大于P×Li,如果满足以上两个条件,则继续步骤4.2);
4.2)针对两个相邻的单域蛋白,如果其第m个残基和第n个残基在模板上有比对残基Am和An,则继续步骤4.3);
4.3)如果0.8×|m-n|<|Am-An|<1.2×|m-n|,且(m-n)(Am-An)>0,则计算比对残基对Am和An之间的欧氏距离dmn;
4.5)计算第m个残基和第n个残基的距离谱:
4.6)根据步骤4.4)-4.5)计算该相邻的单域蛋白中其它残基对之间的距离谱,则得到这两个单域蛋白之间的距离谱;
4.7)根据步骤4.1)-4.6)计算每两个相邻单域蛋白的距离谱,则得到整个多域蛋白的距离谱。
以包含两个域的多域蛋白质1a62A为实施例,运用以上方法计算得到了该蛋白的距离谱,如图2所示,其与天然态结构之间的平均误差为1.62。
以上说明是本发明以1a62A蛋白质为实例所得出的距离谱效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种多域蛋白距离谱构建方法,其特征在于:所述距离谱构建方法包括以下步骤:
1)参数初始化:距离谱提取模板蛋白个数T,模板得分阈值S,模板比对百分比P;
2)输入多域蛋白的各单域的三维结构;
3)根据对蛋白库中的每一个多域蛋白模板进行打分,过程如下:
3.1)采用蛋白质模板比对工具TM-align依次计算每一个单域蛋白与模板之间的比对得分TM-score1,TM-score2,…,TM-scoreD,其中,D为多域蛋白中单域蛋白的个数;
3.2)计算该模板的比对总得分:
其中,TM-scorei为第i个单域蛋白与模板之间的比对得分,Li为第i个单域蛋白的序列长度;
4)选取模板比对总得分最高的前T个蛋白建立距离谱,过程如下:
4.1)判断模板的比对总得分是否大于S,且该模板与各单域蛋白的比对残基个数是否均大于P×Li,如果满足以上两个条件,则继续步骤4.2);
4.2)针对两个相邻的单域蛋白,如果其第m个残基和第n个残基在模板上有比对残基Am和An,则继续步骤4.3);
4.3)如果0.8×|m-n|<|Am-An|<1.2×|m-n|,且(m-n)(Am-An)>0,则计算比对残基对Am和An之间的欧氏距离dmn;
4.5)计算第m个残基和第n个残基的距离谱:
4.6)根据步骤4.4)-4.5)计算该相邻的单域蛋白中其它残基对之间的距离谱,则得到这两个单域蛋白之间的距离谱;
4.7)根据步骤4.1)-4.6)计算每两个相邻单域蛋白的距离谱,则得到整个多域蛋白的距离谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710605462.XA CN107609340B (zh) | 2017-07-24 | 2017-07-24 | 一种多域蛋白距离谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710605462.XA CN107609340B (zh) | 2017-07-24 | 2017-07-24 | 一种多域蛋白距离谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609340A CN107609340A (zh) | 2018-01-19 |
CN107609340B true CN107609340B (zh) | 2020-05-05 |
Family
ID=61060025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710605462.XA Active CN107609340B (zh) | 2017-07-24 | 2017-07-24 | 一种多域蛋白距离谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609340B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500292A (zh) * | 2013-09-27 | 2014-01-08 | 南京理工大学 | 配体特异性蛋白质-配体绑定区域预测方法 |
CN104951669A (zh) * | 2015-06-08 | 2015-09-30 | 浙江工业大学 | 一种用于蛋白质结构预测的距离谱构建方法 |
CN105808972A (zh) * | 2016-03-11 | 2016-07-27 | 浙江工业大学 | 一种基于谱知识从局部到全局的蛋白质结构预测方法 |
CN106605228A (zh) * | 2014-07-07 | 2017-04-26 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
CN106951738A (zh) * | 2017-04-20 | 2017-07-14 | 北京工业大学 | 一种蛋白质折叠类型分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101002206A (zh) * | 2004-07-09 | 2007-07-18 | 惠氏公司 | 用于预测蛋白质-配体偶联特异性的方法和系统 |
-
2017
- 2017-07-24 CN CN201710605462.XA patent/CN107609340B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500292A (zh) * | 2013-09-27 | 2014-01-08 | 南京理工大学 | 配体特异性蛋白质-配体绑定区域预测方法 |
CN106605228A (zh) * | 2014-07-07 | 2017-04-26 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
CN104951669A (zh) * | 2015-06-08 | 2015-09-30 | 浙江工业大学 | 一种用于蛋白质结构预测的距离谱构建方法 |
CN105808972A (zh) * | 2016-03-11 | 2016-07-27 | 浙江工业大学 | 一种基于谱知识从局部到全局的蛋白质结构预测方法 |
CN106951738A (zh) * | 2017-04-20 | 2017-07-14 | 北京工业大学 | 一种蛋白质折叠类型分类方法 |
Non-Patent Citations (2)
Title |
---|
Toward optimal fragment generations for ab initio protein structure assembly;Dong Xu and Yang Zhang;《PROTEINS》;20130228;第81卷(第2期);全文 * |
一种基于片段组装的蛋白质构象空间优化算法;郝小虎,等;《计算机科学》;20150331;第42卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107609340A (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN109117464A (zh) | 一种基于编辑距离的数据相似度检测方法 | |
CN107103205A (zh) | 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法 | |
CN111063389A (zh) | 一种基于深度卷积神经网络的配体绑定残基预测方法 | |
CN102760210A (zh) | 一种蛋白质三磷酸腺苷绑定位点预测方法 | |
CN110837566B (zh) | 一种针对cnc机床故障诊断的知识图谱的动态构建方法 | |
CN104866863B (zh) | 一种生物标志物筛选方法 | |
CN110765254A (zh) | 一种融合多视角答案重排序的多文档问答系统模型 | |
CN112817312B (zh) | 一种基于双重搜索优化算法的路径规划方法 | |
CN106528527A (zh) | 未登录词的识别方法及识别系统 | |
CN105354752A (zh) | 基于gwr的柔鱼资源与海洋环境因素关系的分析方法 | |
CN106021992A (zh) | 位置相关变体识别计算流水线 | |
CN110491443B (zh) | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 | |
CN107506614A (zh) | 一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法 | |
CN107609340B (zh) | 一种多域蛋白距离谱构建方法 | |
CN108734207A (zh) | 一种基于双优选半监督回归算法的模型预测方法 | |
CN103439441B (zh) | 一种基于子集错误率估计的肽鉴定方法 | |
CN105447477A (zh) | 基于公式库的公式识别方法及装置 | |
CN105787296B (zh) | 一种宏基因组和宏转录组样本相异度的比较方法 | |
CN103745465A (zh) | 一种稀疏编码背景建模方法 | |
Wang et al. | Contact-Distil: Boosting Low Homologous Protein Contact Map Prediction by Self-Supervised Distillation | |
CN107273713B (zh) | 一种基于TM-align的多域蛋白模板搜索方法 | |
CN109614999A (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
CN108898321B (zh) | 一种基于语义模板的制造技术问题标准冲突参数获取方法 | |
CN109326319B (zh) | 一种基于二级结构知识的蛋白质构象空间优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |