CN103902847B - 多聚谷氨酰胺致病机理的分析方法 - Google Patents

多聚谷氨酰胺致病机理的分析方法 Download PDF

Info

Publication number
CN103902847B
CN103902847B CN201210576343.3A CN201210576343A CN103902847B CN 103902847 B CN103902847 B CN 103902847B CN 201210576343 A CN201210576343 A CN 201210576343A CN 103902847 B CN103902847 B CN 103902847B
Authority
CN
China
Prior art keywords
protein
analysis method
individuality
configuration
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210576343.3A
Other languages
English (en)
Other versions
CN103902847A (zh
Inventor
彭丰斌
魏彦杰
张慧玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210576343.3A priority Critical patent/CN103902847B/zh
Publication of CN103902847A publication Critical patent/CN103902847A/zh
Application granted granted Critical
Publication of CN103902847B publication Critical patent/CN103902847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及一种多聚谷氨酰胺致病机理的分析方法,包括以下步骤,S1、选择蛋白质模型:二维整点HP模型;S2、确定能量函数;S3、搜索自由能最小的蛋白质二维构型:采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为,本发明提供的多聚谷氨酰胺致病机理的分析方法与现有技术相比,采用在多聚谷氨酰胺蛋白质构型群体中,构型个体的温度由该个体次序所决定,通过将较高的温度分配给较差的个体,使之更有可能向较好的个体变动;同时,使用降温因子加速收敛速度,采用并行方式可加快收敛速度。

Description

多聚谷氨酰胺致病机理的分析方法
【技术领域】
本发明涉及生物信息学,特别涉及一种基于并行群体模拟退火算法的多聚谷氨酰胺致病机理的分析方法。
【背景技术】
多聚谷氨酰胺(polyQ)疾病是三核苷酸CAG基因异常重复扩增导致多聚谷氨酰胺蛋白的神经系统功能障碍疾病。多聚谷氨酰胺疾病有九种,且致病蛋白质以及相应的基因各不相同,但其共同特征是患者的大脑细胞中形成不可溶的蛋白质聚集体、具有共同的多聚谷氨酰胺(polyQ)片段。
多聚谷氨酰胺蛋白质如何误折叠和聚集,进而导致疾病还有待研究。与其他多数神经退行性疾病(例如,老年痴呆证)相似,多聚谷氨酰胺疾病与多聚谷氨酰胺蛋白的误折叠有关。多聚谷氨酰胺蛋白长度达到35-40氨基酸时,就容易产生这种疾病,而且多聚谷氨酰胺蛋白长度越长疾病就越严重。蛋白质折叠研究有助于蛋白质分子药物的设计,因此,蛋白质折叠研究对探索多聚谷氨酰胺疾病的致病机理以及对多聚谷氨酰胺疾病的预防和治疗将起重大的帮助作用。
近年,生物物理学家提出了几种简化的蛋白质折叠研究的数学模型。其中国际上研究最广泛的模型是二维整点HP模型,该模型中蛋白质链由两种类型的氨基酸的序列构成,分别是亲水氨基酸(用P表示)和疏水氨基酸(用H表示),将每个氨基酸想象成一个节点,P用白球表示,H用黑球表示。
一个合法的蛋白质链空间构型必须满足以下三个条件:①序列中每个节点必须放在二维空间整数坐标上。②序列中每个节点相对其前驱节点(对多肽链的氨基酸序列编号后的前一个编号)除可以向前延伸一个单位距离外还能向左或向右延伸一个单位距离。③二维空间上的每个整数格点上最多只能放一个节点,即不允许蛋白质链自重叠。
对于每个合法构型都有其能量,每一对在蛋白质链中非直接相连而在二维空间里相邻(即距离为1)的疏水氨基酸H间的能量为-1(称其为H-H键),其他情况能量都为0。计算构型中所有非直接相连而相邻的H-H键的能量之和即是整个构型的能量。上述蛋白质结构模型氨基酸的亲水和疏水作用力,以最小能量作为优化指标,得出的蛋白质空间构型表现出疏水氨基酸H趋于构形内部,而亲水氨基酸P则分布在构型的外层,且该模型已被证实对预测蛋白质螺旋结构有极高的可信度。
虽然HP模型是最简单的简化模型,但求解基于该模型的蛋白质折叠问题依然困难,该问题已被证明是NP难度问题,这意味着不存在既完整又不是太慢的求解算法。
【发明内容】
本发明要解决的技术问题在于现有技术中多聚谷氨酰胺致病机理的分析收敛速度慢的问题。
为此,本发明提供一种多聚谷氨酰胺致病机理的分析方法,包括以下步骤,
S1、选择蛋白质模型:二维整点HP模型;
S2、确定能量函数:
E = &Sigma; i < j E &sigma; i &sigma; j &Delta; ( r i - r j ) + ( m - n ) A
其中,σi表示肽链上第i个氨基酸残基,ri表示第i个氨基酸位置;A为一正整数;m、n为网格节点数;
S3、搜索自由能最小的蛋白质二维构型:采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为,
S31、确定α,β以及Tref的值,每个进程随机产生个体i(i=0,...,N-1),并计算个体的能量函数Ei,初始化记录器;
S32、建立通信,确定个体的ri以及个体的温度Ti
S33、利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,对t累加;
S34、重复步骤S33,当迭代步数超过阈值,停止计算;否则,Tref=βTref,β为降温因子,返回步骤S32再次迭代。
进一步地,所述二维整点HP模型具体为,
蛋白质链由两种类型的氨基酸的序列构成,分别是亲水氨基酸用P表示和疏水氨基酸用H表示,将每个氨基酸定义为一个节点,P用白球表示,H用黑球表示。
进一步地,所述步骤S2还包括根据蛋白质折叠过程中的HP模型的构型变动集。
进一步地,所述初始化记录器包括MCS步数记录器t=0,迭代步数记录器k=0.。
进一步地,所述步骤S32具体为,
所有进程相互通信,根据每个个体i的能量函数决定个体的次序值ri,其中ri可为1到N的整数值。并根据下式确定每个个体的温度:
T i = &alpha; N - r i T r e f
其中,α为分配因子(0<α<1)。
进一步地,所述步骤S32具体为,
在每个进程中,对原来的二维构型利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,同时根据Metropolis准则确定新构型被接受(即替换原来的构型)的概率:
P ( o l d &RightArrow; n e w ) = m i n ( 1 , e - ( E n e w - E o l d T i ) ) .
进一步地,所述步骤S34中所述重复步骤次数为100次;并对迭代步数k赋值,k=k+1,当迭代步数k超过阈值,所述阈值为20,即kmax=20,停止计算。
进一步地,所述降温因子β取值为0.9。
本发明提供的多聚谷氨酰胺致病机理的分析方法与现有技术相比,采用在多聚谷氨酰胺蛋白质构型群体中,构型个体的温度由该个体次序所决定,通过将较高的温度分配给较差的个体,使之更有可能向较好的个体变动;同时,使用降温因子加速收敛速度,采用并行方式可加快收敛速度。
【附图说明】
图1示出本发明分析方法的流程图。
图2示出本发明分析方法的并行算法的流程图。
图3示出本发明分析方法的构型变动集的示意图。
【具体实施方式】
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供一种多聚谷氨酰胺致病机理的分析方法,包括以下步骤,
S1、选择蛋白质模型:二维整点HP模型;
S2、确定能量函数:
E = &Sigma; i < j E &sigma; i &sigma; j &Delta; ( r i - r j ) + ( m - n ) A
其中,σi表示肽链上第i个氨基酸残基,ri表示第i个氨基酸位置;A为一正整数;m、n为网格节点数;
S3、搜索自由能最小的蛋白质二维构型:采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为,
S31、确定α,β以及Tref的值,每个进程随机产生个体i(i=0,...,N-1),并计算个体的能量函数Ei,初始化记录器;其中,Tref为初始参考温度,α为分配因子,β为降温因子;
S32、建立通信,确定个体的次序值ri以及个体的温度Ti
S33、利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,对t累加;
S34、重复步骤S33,当迭代步数超过阈值,停止计算;否则,Tref=βTref,β为降温因子,返回步骤S32再次迭代。对于α,β以及Tref的值,例如可以为Tref=10.0,α=0.93,β=0.9,具体可以按照实际条件变更。
本发明的多聚谷氨酰胺致病机理的分析方法,采用在多聚谷氨酰胺蛋白质构型群体中,构型个体的温度由该个体次序所决定,通过将较高的温度分配给较差的个体,使之更有可能向较好的个体变动;同时,使用降温因子加速收敛速度,采用并行方式可加快收敛速度。
实施例
如图2所示,本发明实施例提供的多聚谷氨酰胺致病机理的分析方法,包括以下步骤,
S1、选择蛋白质模型:二维整点HP模型;
上述HP模型中蛋白质链由两种类型的氨基酸的序列构成,分别是亲水氨基酸(用P表示)和疏水氨基酸(用H表示),将每个氨基酸定义为一个节点,P用白球表示,H用黑球表示。
其中,合法的蛋白质链空间构型必须满足以下三个条件:
①、序列中每个节点必须在二维空间整数坐标上;
②、序列中每个节点相对其前驱节点除可以向前延伸一个单位距离外还能向左或向右延伸一个单位距离;
③、二维空间的每个整数格点上最多只能放一个节点,即不允许蛋白质链自重叠。
对于合法的蛋白质链空间构型都有其能量,每一对在蛋白质链中非直接相连而在二维空间中相邻,即距离为1的疏水氨基酸H间的能量为-1,并称其为H-H键,其他情况能量均为0。计算构型中所有非直接相连而相邻的H-H键的能量之和即是整个蛋白质链空间构型的能量。
上述蛋白质结构模型主要考虑了氨基酸的亲水和疏水作用力,以最小能量作为优化指标,其得出的蛋白质空间构型一般表现出疏水氨基酸H趋于构形内部,而亲水氨基酸P则分布在构型的外层,且该模型已被证实对预测蛋白质螺旋结构有极高的可信度。
S2、确定能量函数:
E = &Sigma; i < j E &sigma; i &sigma; j &Delta; ( r i - r j ) + ( m - n ) A
其中,σi表示肽链上第i个氨基酸残基,ri表示第i个氨基酸位置;A为一正整数;m、n为网格节点数;即当有m个网格节点被占据,一构型占据n个网格节点(n小于等于m),显然,m和n之差越大,惩罚也应该越大。
ri和rj非直接相连但相邻,则Δ(ri-rj)=1,否则Δ(ri-rj)=0;本实施例中H-H,H-P,P-P残基间的能量取值优选为:EHH=1,EHP=EPP=0。
相比于现有的能量函数:
E = &Sigma; i < j E &sigma; i &sigma; j &Delta; ( r i - r j ) .
不受两个或两个以上氨基酸在网格中不能占据网格中的同一个节点的限制。
进一步地,还包括根据蛋白质折叠过程中可能的HP模型的构型变动集,如图3所示,构型变动集是HP模型中蛋白质多肽链可能的变动形式组成的集合,即所有可能的构型变动集中最小的一个集合进行构型随机变动,且合理的使用上述构型变动集有助于加速算法的收敛速度。
S3、搜索自由能最小的蛋白质二维构型:采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为,
S31、初始化参数:确定α,β以及Tref的值,每个进程随机产生个体i(i=0,...,N-1),并计算个体的能量函数Ei,初始化记录器;随机选择多肽链变动位点,构型变动集里的方式,其中上述个体即为HP模型的蛋白质多肽链。
初始化记录器包括MCS(Metropolis式的随机变动)步数记录器t=0,迭代步数记录器k=0.。
S32、建立通信,确定个体的次序值ri以及个体的温度Ti
具体为:所有进程相互通信,根据每个个体i的能量函数大小次序决定个体的次序值ri,其中ri可为1到N的整数值。并根据下式确定每个个体的温度:
T i = &alpha; N - r i T r e f .
其中,α为分配因子(0<α<1)。
S33、利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,对t累加;即令t=t+1.;
具体为:在每个进程中,对原来的二维构型利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,同时根据Metropolis准则确定新构型被接受(即替换原来的构型)的概率(Metropolis式随机游动):
P ( o l d &RightArrow; n e w ) = m i n ( 1 , e - ( E n e w - E o l d T i ) ) .
S34、重复步骤S33,当迭代步数超过阈值,停止计算;否则,Tref=βTref,β为降温因子,返回步骤S32再次迭代。
上述重复步骤在本实施例中具体为100次,也可为50、200次等根据模型需求设定;并对迭代步数k赋值,k=k+1,当迭代步数k超过阈值,本实施例中设定阈值为20,即kmax=20,停止计算。
本实施例中,降温因子β取值为0.9。如图2所示,以上为本发明一进程的流程,其还包括并行进程,进程0、进程1、…进程N。
本发明提供的基于并行群体模拟退火算法的多聚谷氨酰胺疾病致病机理的高效分析方法,在多聚谷氨酰胺蛋白质构型群体中,每个构型个体的温度是由该个体在这个群体中按适应值,即能量函数排列所得到的次序所决定的。通过将较高的温度分配给较差的个体,使之更有可能向较好的个体变动,反之亦然。能够更容易跳出局部最小而达到全局最小,同时使用降温因子加速收敛速度,采用并行方式又大大加快收敛速度。基于本发明的高效分析方法,可以高效分析和研究蛋白质折叠的整个热动力学过程,进而从蛋白质误折叠和聚集的角度对多聚谷氨酰胺疾病的致病机理进行探索和分析。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (8)

1.一种多聚谷氨酰胺致病机理的分析方法,其特征在于,包括以下步骤,
S1、选择蛋白质模型:二维整点HP模型;
S2、确定能量函数:
E = &Sigma; i < j E &sigma; i &sigma; j &Delta; ( r i - r j ) + ( m - n ) A
其中,σi表示肽链上第i个氨基酸残基,ri表示第i个氨基酸位置;A为一正整数;m、n为网格节点数;
S3、搜索自由能最小的蛋白质二维构型:采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为,
S31、确定α,β以及Tref的值,每个进程随机产生个体i,其中i=0,…,N-1,,并计算个体的能量函数Ei,初始化记录器,其中,Tref为初始参考温度,α为分配因子,β为降温因子;
S32、建立通信,确定个体的ri以及个体的温度Ti
S33、利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,对t累加;
S34、重复步骤S33,当迭代步数超过阈值,停止计算;否则,Tref=βTref,β为降温因子,返回步骤S32再次迭代。
2.根据权利要求1所述的分析方法,其特征在于,所述二维整点HP模型具体为,
蛋白质链由两种类型的氨基酸的序列构成,分别是亲水氨基酸用P表示和疏水氨基酸用H表示,将每个氨基酸定义为一个节点,P用白球表示,H用黑球表示。
3.根据权利要求1所述的分析方法,其特征在于,所述步骤S2还包括根据蛋白质折叠过程中的HP模型的构型变动集。
4.根据权利要求1所述的分析方法,其特征在于,所述初始化记录器包括MCS步数记录器t=0,迭代步数记录器k=0。
5.根据权利要求1所述的分析方法,其特征在于,所述步骤S32具体为,
所有进程相互通信,根据每个个体i的能量函数决定个体的ri,其中ri可为1到N的整数值,并根据下式确定每个个体的温度:
T i = &alpha; N - r i T r e f
其中,α为分配因子,其中0<α<1。
6.根据权利要求1所述的分析方法,其特征在于,所述步骤S32具体为,
在每个进程中,对原来的二维构型利用构型变动集进行随机变动,构建新的构型,并计算新的能量函数Enew,同时根据Metropolis准则确定新构型被接受(即替换原来的构型)的概率:
P ( o l d &RightArrow; n e w ) = m i n ( 1 , e - ( E n e w - E o l d T i ) ) .
7.根据权利要求1所述的分析方法,其特征在于,所述步骤S34中所述重复步骤次数为100次;并对迭代步数k赋值,k=k+1,当迭代步数k超过阈值,所述阈值为20,即kmax=20,停止计算。
8.根据权利要求7所述的分析方法,其特征在于,所述降温因子β取值为0.9。
CN201210576343.3A 2012-12-26 2012-12-26 多聚谷氨酰胺致病机理的分析方法 Active CN103902847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210576343.3A CN103902847B (zh) 2012-12-26 2012-12-26 多聚谷氨酰胺致病机理的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210576343.3A CN103902847B (zh) 2012-12-26 2012-12-26 多聚谷氨酰胺致病机理的分析方法

Publications (2)

Publication Number Publication Date
CN103902847A CN103902847A (zh) 2014-07-02
CN103902847B true CN103902847B (zh) 2016-12-28

Family

ID=50994164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210576343.3A Active CN103902847B (zh) 2012-12-26 2012-12-26 多聚谷氨酰胺致病机理的分析方法

Country Status (1)

Country Link
CN (1) CN103902847B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7251281B2 (ja) * 2019-04-11 2023-04-04 富士通株式会社 結合構造探索装置、結合構造探索方法、及び結合構造探索プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236616A (zh) * 2008-02-27 2008-08-06 中山大学 基于蚁群算法的蛋白质折叠优化方法
CN101454335A (zh) * 2006-05-19 2009-06-10 斯克里普斯研究所 蛋白质错折叠的治疗

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101454335A (zh) * 2006-05-19 2009-06-10 斯克里普斯研究所 蛋白质错折叠的治疗
CN101236616A (zh) * 2008-02-27 2008-08-06 中山大学 基于蚁群算法的蛋白质折叠优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Generalized-ensemble algorithms for molecular simulations of biopolymers;Mitsutake A,et al.;《Peptide Science》;20011231;第60卷(第2期);96-123 *
应用GPU集群加速计算蛋白质分子场;张繁,等.;《计算机辅助设计与图形学学报》;20100331;第22卷(第3期);412-419 *

Also Published As

Publication number Publication date
CN103902847A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN106203625B (zh) 一种基于多重预训练的深层神经网络训练方法
Zhao et al. A matrix approach to the modeling and analysis of networked evolutionary games with time delays
CN107862377A (zh) 一种基于文本‑图像生成对抗网络模型的分组卷积方法
CN107122843A (zh) 一种基于改进遗传算法的旅行商问题求解方法
CN103593287A (zh) 一种基于遗传算法的数据流测试用例自动生成方法
CN103593703A (zh) 基于遗传算法的神经网络优化系统及方法
CN103902847B (zh) 多聚谷氨酰胺致病机理的分析方法
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
CN103778647A (zh) 一种基于层次超图优化的多目标跟踪方法
CN104143116B (zh) 一种基于粒子群算法的系统软防护组合优化方法
Lin et al. Deep generative models create new and diverse protein structures
CN108388961A (zh) 基于模块度优化的自适应随机邻居社团划分算法
CN105825075B (zh) 基于nga-ts算法的蛋白质结构预测方法
CN109033453A (zh) 一种基于rbm与差分隐私保护的聚类的电影推荐方法及系统
Hackett-Jones et al. Aggregation patterns from nonlocal interactions: Discrete stochastic and continuum modeling
CN114154758A (zh) 基于知识图谱的分子调控关系预测方法及系统
CN105930574A (zh) 基于遗传及神经网络算法的内燃机进气道模型设计方法
Wang et al. A virus spread model based on cellular automata in weighted scale-free networks
Joyce et al. Complexity in a brain-inspired agent-based model
Wu et al. Not Only Pairwise Relationships: Fine-Grained Relational Modeling for Multivariate Time Series Forecasting.
CN101840467B (zh) 蛋白质组过滤进化分类方法及其系统
CN116127371B (zh) 融合先验分布与同态混沌加密的多用户模型联合迭代方法
CN103631760B (zh) 一种用于硬件上任意波形合成的波形分解方法
Parsa et al. An EDA-based community detection in complex networks
Carrasco et al. Obstruction theory for extensions of categorical groups

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant