CN103902847B

CN103902847B - 多聚谷氨酰胺致病机理的分析方法

Info

Publication number: CN103902847B
Application number: CN201210576343.3A
Authority: CN
Inventors: 彭丰斌; 魏彦杰; 张慧玲
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-26
Filing date: 2012-12-26
Publication date: 2016-12-28
Anticipated expiration: 2032-12-26
Also published as: CN103902847A

Abstract

本发明涉及一种多聚谷氨酰胺致病机理的分析方法，包括以下步骤，S1、选择蛋白质模型：二维整点HP模型；S2、确定能量函数；S3、搜索自由能最小的蛋白质二维构型：采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为，本发明提供的多聚谷氨酰胺致病机理的分析方法与现有技术相比，采用在多聚谷氨酰胺蛋白质构型群体中，构型个体的温度由该个体次序所决定，通过将较高的温度分配给较差的个体，使之更有可能向较好的个体变动；同时，使用降温因子加速收敛速度，采用并行方式可加快收敛速度。

Description

多聚谷氨酰胺致病机理的分析方法

【技术领域】

本发明涉及生物信息学，特别涉及一种基于并行群体模拟退火算法的多聚谷氨酰胺致病机理的分析方法。

【背景技术】

多聚谷氨酰胺(polyQ)疾病是三核苷酸CAG基因异常重复扩增导致多聚谷氨酰胺蛋白的神经系统功能障碍疾病。多聚谷氨酰胺疾病有九种，且致病蛋白质以及相应的基因各不相同，但其共同特征是患者的大脑细胞中形成不可溶的蛋白质聚集体、具有共同的多聚谷氨酰胺(polyQ)片段。

多聚谷氨酰胺蛋白质如何误折叠和聚集，进而导致疾病还有待研究。与其他多数神经退行性疾病(例如，老年痴呆证)相似，多聚谷氨酰胺疾病与多聚谷氨酰胺蛋白的误折叠有关。多聚谷氨酰胺蛋白长度达到35-40氨基酸时，就容易产生这种疾病，而且多聚谷氨酰胺蛋白长度越长疾病就越严重。蛋白质折叠研究有助于蛋白质分子药物的设计，因此，蛋白质折叠研究对探索多聚谷氨酰胺疾病的致病机理以及对多聚谷氨酰胺疾病的预防和治疗将起重大的帮助作用。

近年，生物物理学家提出了几种简化的蛋白质折叠研究的数学模型。其中国际上研究最广泛的模型是二维整点HP模型，该模型中蛋白质链由两种类型的氨基酸的序列构成，分别是亲水氨基酸(用P表示)和疏水氨基酸(用H表示)，将每个氨基酸想象成一个节点，P用白球表示，H用黑球表示。

一个合法的蛋白质链空间构型必须满足以下三个条件：①序列中每个节点必须放在二维空间整数坐标上。②序列中每个节点相对其前驱节点(对多肽链的氨基酸序列编号后的前一个编号)除可以向前延伸一个单位距离外还能向左或向右延伸一个单位距离。③二维空间上的每个整数格点上最多只能放一个节点，即不允许蛋白质链自重叠。

对于每个合法构型都有其能量，每一对在蛋白质链中非直接相连而在二维空间里相邻(即距离为1)的疏水氨基酸H间的能量为-1(称其为H-H键)，其他情况能量都为0。计算构型中所有非直接相连而相邻的H-H键的能量之和即是整个构型的能量。上述蛋白质结构模型氨基酸的亲水和疏水作用力，以最小能量作为优化指标，得出的蛋白质空间构型表现出疏水氨基酸H趋于构形内部，而亲水氨基酸P则分布在构型的外层，且该模型已被证实对预测蛋白质螺旋结构有极高的可信度。

虽然HP模型是最简单的简化模型，但求解基于该模型的蛋白质折叠问题依然困难，该问题已被证明是NP难度问题，这意味着不存在既完整又不是太慢的求解算法。

【发明内容】

本发明要解决的技术问题在于现有技术中多聚谷氨酰胺致病机理的分析收敛速度慢的问题。

为此，本发明提供一种多聚谷氨酰胺致病机理的分析方法，包括以下步骤，

S1、选择蛋白质模型：二维整点HP模型；

S2、确定能量函数：

E = \underset{i < j}{Σ} E_{σ_{i} σ_{j}} Δ (r_{i} - r_{j}) + (m - n) A

其中，σ_i表示肽链上第i个氨基酸残基，r_i表示第i个氨基酸位置；A为一正整数；m、n为网格节点数；

S3、搜索自由能最小的蛋白质二维构型：采用对等模式的MPI并行算法搜索能量最小的蛋白质所对应的二维结构的步骤为，

S31、确定α,β以及T_ref的值，每个进程随机产生个体i(i＝0,...,N-1)，并计算个体的能量函数E_i，初始化记录器；

S32、建立通信，确定个体的r_i以及个体的温度T_i；

S33、利用构型变动集进行随机变动，构建新的构型，并计算新的能量函数E_new，对t累加；

S34、重复步骤S33，当迭代步数超过阈值，停止计算；否则，T_ref＝βT_ref，β为降温因子，返回步骤S32再次迭代。

进一步地，所述二维整点HP模型具体为，

蛋白质链由两种类型的氨基酸的序列构成，分别是亲水氨基酸用P表示和疏水氨基酸用H表示，将每个氨基酸定义为一个节点，P用白球表示，H用黑球表示。

进一步地，所述步骤S2还包括根据蛋白质折叠过程中的HP模型的构型变动集。

进一步地，所述初始化记录器包括MCS步数记录器t＝0，迭代步数记录器k＝0.。

进一步地，所述步骤S32具体为，

所有进程相互通信，根据每个个体i的能量函数决定个体的次序值r_i，其中r_i可为1到N的整数值。并根据下式确定每个个体的温度：

T_{i} = α^{N - r_{i}} T_{r e f}

其中，α为分配因子(0<α<1)。

进一步地，所述步骤S32具体为，

在每个进程中，对原来的二维构型利用构型变动集进行随机变动，构建新的构型，并计算新的能量函数E_new，同时根据Metropolis准则确定新构型被接受(即替换原来的构型)的概率：

P (o l d &RightArrow; n e w) = m i n (1, e^{- (\frac{E_{n e w} - E_{o l d}}{T_{i}})}) .

进一步地，所述步骤S34中所述重复步骤次数为100次；并对迭代步数k赋值，k＝k+1，当迭代步数k超过阈值，所述阈值为20，即k_max＝20，停止计算。

进一步地，所述降温因子β取值为0.9。

本发明提供的多聚谷氨酰胺致病机理的分析方法与现有技术相比，采用在多聚谷氨酰胺蛋白质构型群体中，构型个体的温度由该个体次序所决定，通过将较高的温度分配给较差的个体，使之更有可能向较好的个体变动；同时，使用降温因子加速收敛速度，采用并行方式可加快收敛速度。

【附图说明】

图1示出本发明分析方法的流程图。

图2示出本发明分析方法的并行算法的流程图。

图3示出本发明分析方法的构型变动集的示意图。

【具体实施方式】

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供一种多聚谷氨酰胺致病机理的分析方法，包括以下步骤，

S1、选择蛋白质模型：二维整点HP模型；

S2、确定能量函数：

E = \underset{i < j}{Σ} E_{σ_{i} σ_{j}} Δ (r_{i} - r_{j}) + (m - n) A

S31、确定α,β以及T_ref的值，每个进程随机产生个体i(i＝0,...,N-1)，并计算个体的能量函数E_i，初始化记录器；其中，T_ref为初始参考温度，α为分配因子，β为降温因子；

S32、建立通信，确定个体的次序值r_i以及个体的温度T_i；

S34、重复步骤S33，当迭代步数超过阈值，停止计算；否则，T_ref＝βT_ref，β为降温因子，返回步骤S32再次迭代。对于α,β以及T_ref的值，例如可以为T_ref＝10.0,α＝0.93,β＝0.9，具体可以按照实际条件变更。

本发明的多聚谷氨酰胺致病机理的分析方法，采用在多聚谷氨酰胺蛋白质构型群体中，构型个体的温度由该个体次序所决定，通过将较高的温度分配给较差的个体，使之更有可能向较好的个体变动；同时，使用降温因子加速收敛速度，采用并行方式可加快收敛速度。

实施例

如图2所示，本发明实施例提供的多聚谷氨酰胺致病机理的分析方法，包括以下步骤，

S1、选择蛋白质模型：二维整点HP模型；

上述HP模型中蛋白质链由两种类型的氨基酸的序列构成，分别是亲水氨基酸(用P表示)和疏水氨基酸(用H表示)，将每个氨基酸定义为一个节点，P用白球表示，H用黑球表示。

其中，合法的蛋白质链空间构型必须满足以下三个条件：

①、序列中每个节点必须在二维空间整数坐标上；

②、序列中每个节点相对其前驱节点除可以向前延伸一个单位距离外还能向左或向右延伸一个单位距离；

③、二维空间的每个整数格点上最多只能放一个节点，即不允许蛋白质链自重叠。

对于合法的蛋白质链空间构型都有其能量，每一对在蛋白质链中非直接相连而在二维空间中相邻，即距离为1的疏水氨基酸H间的能量为-1，并称其为H-H键，其他情况能量均为0。计算构型中所有非直接相连而相邻的H-H键的能量之和即是整个蛋白质链空间构型的能量。

上述蛋白质结构模型主要考虑了氨基酸的亲水和疏水作用力，以最小能量作为优化指标，其得出的蛋白质空间构型一般表现出疏水氨基酸H趋于构形内部，而亲水氨基酸P则分布在构型的外层，且该模型已被证实对预测蛋白质螺旋结构有极高的可信度。

S2、确定能量函数：

E = \underset{i < j}{Σ} E_{σ_{i} σ_{j}} Δ (r_{i} - r_{j}) + (m - n) A

其中，σ_i表示肽链上第i个氨基酸残基，r_i表示第i个氨基酸位置；A为一正整数；m、n为网格节点数；即当有m个网格节点被占据，一构型占据n个网格节点(n小于等于m)，显然，m和n之差越大，惩罚也应该越大。

r_i和r_j非直接相连但相邻，则Δ(r_i-r_j)＝1，否则Δ(r_i-r_j)＝0；本实施例中H-H，H-P，P-P残基间的能量取值优选为：E_HH＝1，E_HP＝E_PP＝0。

相比于现有的能量函数：

E = \underset{i < j}{Σ} E_{σ_{i} σ_{j}} Δ (r_{i} - r_{j}) .

不受两个或两个以上氨基酸在网格中不能占据网格中的同一个节点的限制。

进一步地，还包括根据蛋白质折叠过程中可能的HP模型的构型变动集，如图3所示，构型变动集是HP模型中蛋白质多肽链可能的变动形式组成的集合，即所有可能的构型变动集中最小的一个集合进行构型随机变动，且合理的使用上述构型变动集有助于加速算法的收敛速度。

S31、初始化参数：确定α,β以及T_ref的值，每个进程随机产生个体i(i＝0,...,N-1)，并计算个体的能量函数E_i，初始化记录器；随机选择多肽链变动位点，构型变动集里的方式，其中上述个体即为HP模型的蛋白质多肽链。

初始化记录器包括MCS(Metropolis式的随机变动)步数记录器t＝0，迭代步数记录器k＝0.。

S32、建立通信，确定个体的次序值r_i以及个体的温度T_i；

具体为：所有进程相互通信，根据每个个体i的能量函数大小次序决定个体的次序值r_i，其中r_i可为1到N的整数值。并根据下式确定每个个体的温度：

T_{i} = α^{N - r_{i}} T_{r e f} .

其中，α为分配因子(0<α<1)。

S33、利用构型变动集进行随机变动，构建新的构型，并计算新的能量函数E_new，对t累加；即令t＝t+1.；

具体为：在每个进程中，对原来的二维构型利用构型变动集进行随机变动，构建新的构型，并计算新的能量函数E_new，同时根据Metropolis准则确定新构型被接受(即替换原来的构型)的概率(Metropolis式随机游动)：

P (o l d &RightArrow; n e w) = m i n (1, e^{- (\frac{E_{n e w} - E_{o l d}}{T_{i}})}) .

上述重复步骤在本实施例中具体为100次，也可为50、200次等根据模型需求设定；并对迭代步数k赋值，k＝k+1，当迭代步数k超过阈值，本实施例中设定阈值为20，即k_max＝20，停止计算。

本实施例中，降温因子β取值为0.9。如图2所示，以上为本发明一进程的流程，其还包括并行进程，进程0、进程1、…进程N。

本发明提供的基于并行群体模拟退火算法的多聚谷氨酰胺疾病致病机理的高效分析方法，在多聚谷氨酰胺蛋白质构型群体中，每个构型个体的温度是由该个体在这个群体中按适应值，即能量函数排列所得到的次序所决定的。通过将较高的温度分配给较差的个体，使之更有可能向较好的个体变动，反之亦然。能够更容易跳出局部最小而达到全局最小，同时使用降温因子加速收敛速度，采用并行方式又大大加快收敛速度。基于本发明的高效分析方法，可以高效分析和研究蛋白质折叠的整个热动力学过程，进而从蛋白质误折叠和聚集的角度对多聚谷氨酰胺疾病的致病机理进行探索和分析。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种多聚谷氨酰胺致病机理的分析方法，其特征在于，包括以下步骤，

S1、选择蛋白质模型：二维整点HP模型；

S2、确定能量函数：

E = \underset{i < j}{Σ} E_{σ_{i} σ_{j}} Δ (r_{i} - r_{j}) + (m - n) A

S31、确定α,β以及T_ref的值，每个进程随机产生个体i，其中i＝0,…,N-1，，并计算个体的能量函数E_i，初始化记录器，其中，T_ref为初始参考温度，α为分配因子，β为降温因子；

S32、建立通信，确定个体的r_i以及个体的温度T_i；

2.根据权利要求1所述的分析方法，其特征在于，所述二维整点HP模型具体为，

3.根据权利要求1所述的分析方法，其特征在于，所述步骤S2还包括根据蛋白质折叠过程中的HP模型的构型变动集。

4.根据权利要求1所述的分析方法，其特征在于，所述初始化记录器包括MCS步数记录器t＝0，迭代步数记录器k＝0。

5.根据权利要求1所述的分析方法，其特征在于，所述步骤S32具体为，

所有进程相互通信，根据每个个体i的能量函数决定个体的r_i，其中r_i可为1到N的整数值，并根据下式确定每个个体的温度：

T_{i} = α^{N - r_{i}} T_{r e f}

其中，α为分配因子，其中0<α<1。

6.根据权利要求1所述的分析方法，其特征在于，所述步骤S32具体为，

P (o l d &RightArrow; n e w) = m i n (1, e^{- (\frac{E_{n e w} - E_{o l d}}{T_{i}})}) .

7.根据权利要求1所述的分析方法，其特征在于，所述步骤S34中所述重复步骤次数为100次；并对迭代步数k赋值，k＝k+1，当迭代步数k超过阈值，所述阈值为20，即k_max＝20，停止计算。

8.根据权利要求7所述的分析方法，其特征在于，所述降温因子β取值为0.9。