CN101598723A

CN101598723A - 一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法

Info

Publication number: CN101598723A
Application number: CNA2008101145888A
Authority: CN
Inventors: 刘鑫; 赵亚溥
Original assignee: Institute of Mechanics of CAS
Current assignee: Institute of Mechanics of CAS
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2009-12-09

Abstract

本发明公开一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，包括如下步骤：将已知的有代表性的蛋白质的非冗余数据集作为基础数据；将基础数据中的每个蛋白质分子按照m残基长划分成多肽段，构建多肽段总集合；构建多肽段总集合中每个多肽段的同源多肽段子集合；将待研究蛋白质分子按照m残基长划分成多肽段，并按其起始位置定义为j位多肽段，计算每个多肽段从演化区域跳转到另一区域的跳转概率；滤除进化允许的构象变化；跳转概率最高的多肽段即为可能导致蛋白构象病的关键位点。本发明采用先利用算法排查，再进行实验研究的技术路线，克服了现有蛋白质结构转换研究复杂程度高，人力、财力消耗巨大，耗时长、效率低等问题。

Description

一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法

技术领域

本发明涉及一种研究蛋白构象病的方法，尤其是一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法。

背景技术

蛋白质是生物体执行生理功能的基本物质。生物体内绝大多数生理/病理过程都有蛋白质的直接参与。其中存在一些蛋白质，它们会在病理状态下折叠成与正常态不同的错误结构，从而引起病变，这种疾病被称为蛋白构象病。判断蛋白质分子发生病态结构转换的发病位点是在分子水平上研究、治疗这类疾病的一项基本要求。对该问题的研究涉及生命现象的解析，构象病发病机制的排查，构象病临床疗法的制定，转基因生命体设计等诸多方向和领域。

该问题的研究对于临床医学尤为重要。例如，如果每个蛋白结构转换的发病位点都是已知的，我们就可以对临床中观察到的异常表达的某些蛋白进行人为的药物干预，阻断其错折叠途径，从而维持正常的生理功能、达到治疗目的。

蛋白质分子是由二十种氨基酸(不同的氨基酸由不同的字母来表示)首尾相连而成的一维长链。蛋白质的三维结构是通过链内和链外的作用力使该一维长链在三维空间中折叠、塌缩而成。当前研究构象病蛋白发病起始点的主要方法是实验方法。如通过单残基突变产生变异体，再观测其淀粉样沉淀的形成情况；观测病态蛋白的结构。目前的实验方法的研究路线存在两方面的不足：一方面是花费高昂，无论是资金，还是人力、物力、时间；更为重要的是，该路线必须有一个研究的前提，就是研究者必须拥有病态蛋白。但因为真正有汇总并能分析到分子水平的病例在实际临床中少之又少，所以真正能被纳入研究的只是沧海一粟，这就使得可供研究的蛋白种类会非常有限，因而无法对生命体的蛋白构象病进行全面的系统研究。

发明内容

针对蛋白构象病，我们经过研究发现，蛋白构象病的发病位点和蛋白质分子多肽相空间(把所有自然界中存在的多肽都映射为相应的代表点，并将这些代表点画在一个二维平面内，有亲缘关系的代表点以直线相连)的一个拓扑特征“双吸引域特性”密切相关。蛋白质分子的多肽相空间可以被分成两个基本隔离的区域，helix-donut区和strand-arc区，蛋白进化的过程中，多肽段的演化会主要在某一个区域进行，其同源肽段跳转到另一区域的几率很少，而一旦出现同源肽段从其演化区域跳转到另一区域，则对应着多肽段三维结构的剧烈变化，并由此会引起构象病。因此，通过研究同源肽段的这种跳转，可以预测出可能引起蛋白构象病的发病位点。

基于上述研究发现，本发明的目的在于提供一种判断蛋白构象病中蛋白质分子结构转化关键位点的方法，利用该方法可以预测出可能引起蛋白构象病的蛋白质分子结构转化的关键位点，从而为对蛋白构象病的系统研究创造条件。

为了实现上述目的，本发明提供一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，利用多肽相空间的“双吸引域特性”进行预测，具体包括如下步骤：

1)将已知的由自然界中有代表性的蛋白质所构成的非冗余数据集作为基础数据；

2)将基础数据中的每个蛋白质分子视为连续的多肽链，按照m残基长将每个蛋白质分子均划分成n-m+1个多肽段，由此构建一个多肽段总集合，其中n为蛋白质分子多肽链的残基数；

3)构建多肽段总集合中每一个多肽段的同源多肽段子集合；

4)将待研究蛋白质分子多肽链按照m残基长划分成n-m+1个多肽段，并将划分的各多肽段按其起始位置定义为j位多肽段，j＝2～n-m，计算每个多肽段从其演化区域跳转到另一区域的跳转概率；

5)滤除进化允许的构象变化，察看多肽段中心氨基酸两侧一定范围内是否既有螺旋态，又有β折叠态，如果是，则表明生理状态下，此段多肽既存在螺旋态和β折叠态的动态消长，排除可能导致蛋白构象病的可疑性；

6)统计、分析所研究蛋白质分子各个多肽段的跳转概率，跳转概率最高的多肽段即为可能导致蛋白构象病的关键位点。

进一步，所述步骤1)中的非冗余数据集具体为pdbselect25。

进一步，所述步骤2)中m具体为15。

进一步，所述步骤3)具体包括如下步骤：

①将待构建同源多肽段子集合的多肽段作为查询多肽段，在多肽段总集合中，查找与查询多肽段相比同时满足以下条件的其它多肽段，并将查找到的多肽段构建成查询多肽段的同源多肽段候选集合：

i)序列相似；

ii)结构相似；

iii)表面残基分布相似；

iv)具有低等同率；

②按同样条件构建多肽段总集合中的每一个多肽段的同源多肽段候选集合；

③如果有两个多肽段，其中一个是另一个的候选同源多肽，则将与二者相应的两个候选集合进行比对，如果两个候选集合中存在至少5个相同多肽段，则这两个多肽段被确认为互为同源多肽段；

④对总集中的每一多肽段，搜集与其同源的多肽段组成该多肽段的同源多肽段子集合。构建多肽段总集合中每一个多肽段的同源多肽段子集合，并最终形成一包含所有同源多肽段子集合的子集合数据库。

进一步，所述步骤4)具体为：

将待研究蛋白质分子多肽链按照15残基长划分成n-14个多肽段，并将划分的各多肽段按其起始位置定义为j位多肽段，j＝2～n-15，计算每个多肽段从其演化区域跳转到另一区域的跳转概率，具体计算步骤为：

①针对每一个j位多肽段，按步骤3)①中所列的四个条件，在多肽段总集合中查找符合该四个条件的多肽段，将查找到的所有多肽段的同源多肽段子集合合并成一与j位多肽段相关联的多肽段组；

②分别对多肽段组中每个多肽段的类别进行定义，将每个多肽段中心氨基酸两侧的两个7残基长子段定义为a_ia_i+1...a_i+6，其中i＝0或8，a代表多肽段上的残基，如果子段中至少4个残基处于螺旋态，则该子段被定义为H，如果其中至少4个残基处于β折叠态，则该子段被定义为E，否则被定义为C，由此15残基长多肽段可被定义为9类，即：HH，HC，CH，EE，EC，CE，EH，HE，CC，经研究发现，其中helix-donut区以HH+HC+CH为主，strand-arc区则以EE+EC+CE为主；

③根据多肽段组中各多肽段的类别，分别计算所研究的第j位多肽段属于HH+HC+CH和EE+EC+CE的概率P_j(HH+HC+CH)和P_j(EE+EC+CE)：

P_j(HH+HC+CH)＝属于HH+HC+CH的多肽段数/总样本数

P_j(EE+EC+CE)＝属于EC+EC+CE的多肽段数/总样本数

同时按相同步骤计算第j-1位和第j+1位多肽段分别属于HH+HC+CH和EE+EC+CE的概率；

④根据第j位多肽段的类别计算其跳转概率Q_j，当第j位多肽段位于helix-donut区，即HH+HC+CH区时，

Q_j＝(1-P_j-1(HH+HC+CH))P_j(EE+EC+CE)(1-P_j+1(HH+HC+CH))

当第j位多肽段位于strand-arc区，即EE+EC+CE区时，则

Q_j＝(1-P_j-1(EE+EC+CE))P_j(HH+HC+CH)(1-P_j+1(EE+EC+CE))

如果第j位多肽段不处于helix-donut区和strand-arc区，则Q_j＝0。

本发明方法通过引入计算机算法，进行研究路线的战略调整，由单纯的侧重实验的技术路线转化为先利用算法排查，再进行实验研究的技术路线，克服了现有技术中蛋白质结构转换研究复杂程度高，人力、财力消耗巨大，而且耗时长、效率低等问题，为对生命体的蛋白构象病进行全面的系统研究创造了条件。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明：

图1为本发明实施例1检测正常人Prion蛋白分子结构转化关键位点的结果图。

具体实施方式

实施例1：

本发明提供一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，利用多肽相空间的“双吸引域特性”进行预测，具体包括如下步骤：

1.将已知的由自然界中有代表性的蛋白质所构成的非冗余数据集作为基础数据。

自然界中，蛋白质彼此之间的相似程度是不同的。有些蛋白彼此非常相似，序列比对好后，残基相同率很高(比如大于90％)，被称为近同源蛋白。为了扣除这种近同源蛋白的影响，尽量使对数据集进行统计分析时，各个样本权重相近，人们利用已有技术对包含已知结构的全部蛋白的数据集进行了非冗余化处理；舍弃掉某些同源性过于相近的蛋白，从而得到一个代表集。对代表集中样本的研究就可以绝大部分的涵盖整个蛋白质数据集的性质。我们所采用的就是这样一个已有的非冗余数据集pdbselect25。该集中所有蛋白两两之间进行序列比对后，残基相同率均小于25％。

2.将基础数据中的每个蛋白质分子视为连续的多肽链，按照m残基长将每个蛋白质分子均划分成n-m+1个多肽段，由此构建一个多肽段总集合，其中n为蛋白质分子多肽链的残基数。

以15残基长的多肽段为例，一个包含n个残基的蛋白质就有n-14个多肽段。

3.构建多肽段总集合中每一个多肽段的同源多肽段子集合。

①将待构建同源多肽段子集合的多肽段作为查询多肽段，在多肽段总集合中，查找与查询多肽段相比同时满足以下条件的其它多肽段，并将查找到的多肽段构建成查询多肽段的同源多肽段候选集合；

i)序列相似；

ii)结构相似；

iii)表面残基分布相似；

iv)具有低等同率。

查询结果是：对每一个多肽段u，都得到了一组多肽段构成的集合{r}_u；这些多肽段是u的同源肽段的候选者。

②按同样条件构建多肽段总集合中的每一个多肽段的同源多肽段候选集合。

③为减少错误指定亲源关系的可能性，我们对以上所得的数据关联进行了优化。对于两个多肽段u，v，如果一个是另一个的候选同源多肽，即u∈{r}_v或v∈{r}_u，并且与二者相应的两个同源多肽段候选集合{r}_v和{r}_u中至少有5个条目是相同的，则u和v被认定具有亲源关系，编号被加入到彼此的“同源多肽段编号”索引区中。

数据库的每个条目包含两部分：多肽段及其编号、数据集中与该多肽段有同源关系的其它多肽段的编号。具体如下表所示：

多肽段	多肽段编号	同源多肽段编号
多肽段	多肽段编号	同源多肽段编号	TLTIDDGNIEIVGTG	1	34，56，78，23643...
LTIDDGNIEIVGTGV	2	6875，896，2345，786...	TLTIDDGNIEIVGTG	1	34，56，78，23643...
LTIDDGNIEIVGTGV	2	6875，896，2345，786...	TIDDGNIEIVGTGVK	3	7689，3455...
...	...	...	TIDDGNIEIVGTGVK	3	7689，3455...
...	...	...	IIIPGATCPGDYANA	239243	35456，789，244...

4.将待研究蛋白质分子多肽链按照15残基长划分成n-14个多肽段，并将划分的各多肽段按其起始位置定义为j位多肽段，j＝2～n-15，计算每个多肽段从其演化区域跳转到另一区域的跳转概率，具体计算步骤为：

①针对每一个j位多肽段，按步骤3①中所列的四个条件，在多肽段总集合中查找符合该四个条件的多肽段，将查找到的所有多肽段的同源多肽段子集合合并成一与j位多肽段相关联的多肽段组；

②分别对多肽段组中每个多肽段的类别进行定义，将每个多肽段中心氨基酸两侧的两个7残基长子段定义为a_ia_i+1...a_i+6，其中i＝0或8，a代表多肽段上的残基，如果子段中至少4个残基处于螺旋态，则该子段被定义为H，如果其中至少4个残基处于β折叠态，则该子段被定义为E，否则被定义为C，由此15残基长多肽段可被定义为9类，即：HH，HC，CH，EE，EC，CE，EH，HE，CC，经研究发现，其中helix-donut区以HH+HC+CH为主，strand-arc区则以EE+EC+CE为主；两区之间具有亲源关系的多肽段很少。

P_j(HH+HC+CH)＝属于HH+HC+CH的多肽段数/总样本数

P_j(EE+EC+CE)＝属于EE+EC+CE的多肽段数/总样本数

④根据第j位多肽段的类别计算其跳转概率Q_j，根据已知的多肽段的二级结构可以确定其属于哪个区域，当第j位多肽段位于helix-donut区，即HH+HC+CH区时，

Q_j＝(1-P_j-1(HH+HC+CH))P_j(EE+EC+CE)(1-P_j+1(HH+HC+CH))

其中1-P_k(HH+HC+CH)为k位多肽段不属于HH+HC+CH的概率

当第j位多肽段位于strand-arc区，即EE+EC+CE区时，则

Q_j＝(1-P_j-1(EE+EC+CE))P_j(HH+HC+CH)(1-P_j+1(EE+EC+CE))

其中1-P_k(EE+EC+CE)为k位多肽段不属于EE+EC+CE的概率

如果第j位多肽段不处于helix-donut区和strand-arc区，则Q_j＝0。

各位点均做此操作，跳转概率高者为高可疑区。

5.滤除进化允许的构象变化，察看多肽段中心氨基酸两侧一定范围内是否既有螺旋态，又有β折叠态，如果是，则表明生理状态下，此段多肽既存在螺旋态和β折叠态的动态消长，排除可能导致蛋白构象病的可疑性。

室温下蛋白质构象是时刻变化着的。对进化模型来说，一定范围内的构象改变是允许的，蛋白原有的螺旋态和β折叠态是可以进行伸长或缩短的。这样的构象改变不会引起构象病，应在算法中剔除其影响。

6.统计、分析所研究蛋白质分子各个多肽段的跳转概率，跳转概率最高的多肽段即为可能导致蛋白构象病的关键位点。

下面以正常人Prion蛋白作为检测蛋白举例说明。

正常人Prion蛋白序列如下：

LGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYS

NQNNFVHDCVNITIKQHTVTTTTKGENFTETDVK MMERVVEQMCITQ

YERESQAYYQR

以中心氨基酸为195的15残基长窗口TVTTTTKGENFTETD为例，查寻与其满足步骤3①中所要求4个条件的条目。所得结果如下：

对该多肽进行查询后，所有所得同源多肽段分别属于HH，HC，CH，EE，CE，EC的样本数分别为：361，115，97，46，45，23。样本总数为828。则

P_center195(HH+HC+CH)＝(361+115+97)/828＝0.692

P_center195(EE+EC+CE)＝(46+45+23)/828＝0.138

类似的可求得

P_center194(HH+HC+CH)＝0.835，P_center194(EE+EC+CE)＝0.041

P_center196(HH+HC+CH)＝0.847，P_center196(EE+EC+CE)＝0.036

由于TVTTTTKGENFTETD对应的二级结构为hhhhhhcccccchhh处于helix-donut区，则跳转概率计算为：

Q_center195＝(1-P_center194(HH+HC+CH))×P_center195(EE+EC+CE)(1-P₁₉₆(HH+HC+CH))＝(1-0.835)×0.138×(1-0.847)＝0.00348

由于该肽段不存在螺旋态和β折叠态的动态消长，所以跳转概率为0.00348。

使用采用上述算法的计算机程序对各位点均进行此计算，获得结果如图1所示。位点188-202被确定为发病起始区(由图1给出的跳转概率最高处所对应的15长多肽)，起始区内的位点被认为是关键位点。有实验结果支持这一判断。参见以下文献：

文献1：Cobb，N.J.，

F.D.，Mchaourab，H.and Surewicz，W.K.Molecular architecture of human prion protein amyloid：A parallel，inregisterβ-structure.Proc.Natl.Acad.Sci.USA 2007；104：18946-18951.

文献2：Kuwata K.，Nishida N.，Matsumoto T.(14 co-authors).Hotspots in prion protein for pathogenic conversion.Proc.Natl.Acad.Sci.USA2007；104：11921-11926.

此外，我们还研究了血红蛋白，抑丝酶，甲状腺素运载蛋白，β₂微球蛋白，Cystatin C，溶菌酶等蛋白。所得发病起始位点均见病理报道。这里只列出研究结果与参考文献。

Table 1.Predicted hot spots for proteins of different conformational diseases.For each predicted region，there are matched sites observed by experiment.

Proteins	Diseases	PDBIDChain	PredictedHotSpots	Phenomena Observed byExperiments[reference]
Proteins	Diseases	PDBIDChain	PredictedHotSpots	Phenomena Observed byExperiments[reference]	Haemoglobin	Sickle cellanaemia	1XZ2B	99-125	Mutation at sit 115 results in haemolyticanaemia[1，2]
Serpins	Antithrombindeficiencythromboembolicdisease	1E04A	372-386	Site 381 plays an important role instabilizing native，inserted，and activatedstate[3]	Haemoglobin	Sickle cellanaemia	1XZ2B	99-125	Mutation at sit 115 results in haemolyticanaemia[1，2]
Serpins	Antithrombindeficiencythromboembolicdisease	1E04A	372-386		Transthyretin	Familial amyloidneuropathy	1DVQA	46-69	Mutation at site 55 causes early-onsetfamilial amyloidotic polyneuropathy[4]
βmicroglobulin	Haemodialysisamyloidosis	2VB5A	7-23	Site 21-31 is amyloidgenic corefragment of β₂microglobulin[5，6，7]	Transthyretin	Familial amyloidneuropathy	1DVQA	46-69
βmicroglobulin	Haemodialysisamyloidosis	2VB5A	7-23		Cystatin C	Hereditarycerebralangiopathy	1G96A	61-74	Mutation L68Q is associated with asevere conformational disease[8，9]
Lysozyme	Familial visceral	1W08A	41-57	Mutations I56T，F57I cause disease.Structural rearrangement in 45-51 isobserved in T70N[10]	Cystatin C	Hereditarycerebralangiopathy	1G96A	61-74

References

[1]Outeirino，J.，Casey，R.，White，J.M.，and Lehmann，H.(1974)Haemoglobin Madridbeta 115(G17)alanine-proline：an unstable variant associated with haemolytic anaemia.Acta.Haematol.52：53-60.

[2]Ohga，S.，Nomura，A.，et al.(9co-authors).(2003)Dominant β-Thalassemia withhemoglobin Hradec kralove：Enhanced Hemolysis in the Spleen.Int.J.Hema.78：329-334.

[3]Johnson，D.J.D.，Huntington，J.A.(2004)The influence of hinge region residueGlu-381 on antithrombin allostery and metastability J.Biol.Chem.279：4913-4921

[4]Jacobson，D.R.，McFarlin，D.E.，Kane，I.，and Buxbaum，J.N.(1992)TransthyretinPro55，a variant associated with early-onset，aggressive，diffuse amyloidosis with cardiacand neurologic involvement.Hum.Genet.89：353-356.

[5]Hasegawa，K.，Ohhashi，Y.，Yamaguchi，I.，Takahashi，N.，Tsutsumi，S.，Goto，Y.，Gejyo，F.，and Naiki，H.(2003)Amyloidogenic synthetic peptides of β₂-microglobulinarole of the disulfide bond.Biochem.Biophys.Res.Commun.304：101C106.

[6]Hiramatsu，H.，Goto，Y.，Naiki，H.，and Kitagawa，T.(2004)Core structure of amyloidfibril proposed from IR-microscope linear dichroism.J.Am.Chem.Soc.126：3008-3009.

[7]Hiramatsu，H.，Goto，Y.，Naiki，H.，and Kitagawa，T.(2005)Structural Model of theAmyloid Fibril Formed by β₂-Microglobulin #21-31 Fragment Based on VibrationalSpectroscopy.J.Am.Chem.Soc.127：7988-7989.

[8]Abrahamson M.(1996)Molecular basis for amyloidosis related to hereditary brainhemorrhage.Scand.J.Clin.Lab.Invest.226：47-56.

[9]Olafsson I.，Grubb A.Hereditary cystatin C amyloid angiopathy.(2000)AmyloidInt.J.Exp.Clin.Invest.7：70-79.

[10]Johnson R.J.K.，Christodoulou J.，et al.(12co-authors).(2005)RationalisingLysozyme Amyloidosis：Insights from the Structure and Solution Dynamics of T70NLysozyme.J.Mol.Biol.352：823-836.

本实施例中只举了按15残基长来划分多肽段，分析可能在helix-donut区和strand-arc区之间进行跳转的关键位点。当然根据不同的实际需要，在本发明提供的方法的指导下，也可按其他的残基长来划分多肽段，同样可将蛋白质的螺旋态与折叠态划分为其他不同的区，同样可以利用本发明提供的方法预测出可能引发蛋白构像病的关键位点所以，基于上述的改动均应落入本发明的保护范围。

Claims

1.一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，其特征在于利用多肽相空间的“双吸引域特性”进行预测，具体包括如下步骤：

3)构建多肽段总集合中每一个多肽段的同源多肽段子集合；

2.根据权利要求1所述的判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，其特征在于，所述步骤1)中的非冗余数据集具体为pdbselect25。

3.根据权利要求1所述的判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，其特征在于，所述步骤2)中m具体为15。

4.根据权利要求3所述的判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，其特征在于，所述步骤3)具体包括如下步骤：

i)序列相似；

ii)结构相似；

iii)表面残基分布相似；

iv)具有低等同率；

5.根据权利要求4所述的判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法，其特征在于，所述步骤4)具体为：

P_j(HH+HC+CH)＝属于HH+HC+CH的多肽段数/总样本数

P_j(EE+EC+CE)＝属于EE+EC+CE的多肽段数/总样本数

Q_j＝(1-P_j-1(HH+HC+CH))P_j(EE+EC+CE)(1-P_j+1(HH+HC+CH))

当第j位多肽段位于strand-arc区，即EE+EC+CE区时，则

Q_j＝(1-P_j-1(EE+EC+CE))P_j(HH+HC+CH)(1-P_j+1(EE+EC+CE))

如果第j位多肽段不处于helix-donut区和strand-arc区，则Q_j＝0。