CN111755065A

CN111755065A - 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法

Info

Publication number: CN111755065A
Application number: CN202010543967.XA
Authority: CN
Inventors: 侯维刚; 尹欣; 郭磊; 巩小雪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-09
Anticipated expiration: 2040-06-15
Also published as: CN111755065B

Abstract

本发明公开了一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，包括将蛋白质构象预测问题转化为虚拟网络映射问题，基于上述数学模型构建一种蛋白质构象预测启发式算法，最后采用云并行计算预测蛋白质构象，把利用蛋白质构象预测启发式算法所求得的蛋白质折叠方向编码串作为初始种群中的一部分，并对种群进行子种群划分，每个子种群在各自的处理器上独立完成遗传算法对蛋白质构象的计算过程。子种群之间将具有最小自由能的蛋白质构象进行交换，继续执行遗传操作，直到到达规定的繁衍代数就停止操作。本发明建立蛋白质构象预测的数学模型，利用启发式和并行遗传算法，结合云并行计算加速预测蛋白质结构，能够准确高效地预测出蛋白质构象。

Description

一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法

技术领域

本发明涉及通信、计算机和生物工程的学科交叉技术，具体是一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法。

背景技术

蛋白质是生命活动的基础，蛋白质构象预测问题主要是根据氨基酸序列确定它的折叠路径和自然状态下的蛋白质结构，自然状态下的蛋白质结构是最稳定的蛋白质结构。蛋白质的正常功能与其结构有着密不可分的关系，对蛋白质结构的研究有利于进一步地了解蛋白质的功能，通过对蛋白质构象预测问题的研究不仅能够探索生命的基本过程，还能促进医药、农业和生物科技等应用领域的发展。比如，在医药学领域，相继发现了库鲁病、克雅氏综合症、格斯特曼综合症等，这些疾病都是由于蛋白质构象异常引发的。此外，利用蛋白谱可以反映出人体的健康和疾病发生以及发展的动态变化，对疾病进行有效的预防或干预，从而可广泛应用于医药学的一般理论研究和实际应用中。在农业领域中，农作物自身可以产生抗菌蛋白来抵制外界物质的侵入，人类可以通过提取抗菌蛋白的基因预测出该蛋白质的结构，以此来揭开该抗菌蛋白真正的特点与功能，使其可以被运用到更多的场景中去。在工业上，酶的催化效率倍受工业界青睐，但是在实际的高温、高压以及极端pH值等环境下，天然蛋白质的结构和功能容易被破坏，因此对蛋白质结构进行改造，设计出适合工业用途的稳定蛋白质尤为重要。

由于蛋白质的晶体难以培养，确定蛋白质结构的X射线晶体学方法对晶体结构测定的周期较长，而多维核磁共振方法对样品的需要量大、纯度要求高，目前只能测定小分子蛋白质结构。因此，通过生物实验方法确定蛋白质结构面临代价高、实验条件严苛、测定周期长等局限性，现实中的很多蛋白质结构往往只能用蛋白质构象算法预测。而现有的蛋白质构象预测算法存在复杂度高，预测速度慢，耗时长，预测精度低等问题。因此，对于蛋白质构象预测问题，亟需对其进行精准建模，设计相应的预测算法，搭建能够加速预测的计算系统。

利用蛋白质中氨基酸之间的亲疏水作用简化得到的二维HP格点模型是目前应用最广泛的一种数学模型，该模型不仅有效地简化了氨基酸序列，而且把简化得到的氨基酸序列放置到了网格中。根据分子动力学原理，网格中满足蛋白质自由能值最小的折叠构象即为自然状态下的蛋白质结构。自由能的定义为HP格点模型中相邻而不相连的H-H结构个数的相反数。故只要找到一种构象可以使该H-H结构个数最多，或者在网格中实现序列中每个氨基酸和连接它们的肽键的最优放置就可以使得H-H结构个数最多，即可成功解决蛋白质构象预测问题。

预测蛋白质构象的问题实际上就是搜寻具有最小自由能的蛋白质结构的过程，这与通信领域中如何更优的进行虚拟网络映射(即如何在底层物理网络中最优的部署各个虚拟网络节点和虚拟链路)在本质上是相通的。可以将底层物理网络看作二维HP格点模型，每个虚拟网络节点可看作某条氨基酸序列(肽链)上的带有亲(疏)水性的氨基酸，每条虚拟网络链路则可看作链接两个氨基酸的肽键。从而，可将蛋白质构象预测问题转化为虚拟网络映射问题进行建模，目前未见相关报道。利用理论建模的方法预测蛋白质结构的问题已被证明是NP困难的，其求解计算量庞大，而虚拟网络映射启发式算法，可以更加快速求解蛋白质构象预测模型的(近似)最优解(具有全局最小自由能的蛋白质结构)，截止目前，未见一种有效的上述启发式算法。

此外，通过数学建模和启发式算法预测蛋白质构象的过程都是串行的，实际效率并不高，对较长氨基酸序列进行预测时，仍存在耗时较大，计算成本较高等问题。随着大数据时代的到来，云计算已成为一种处理海量数据的高效计算方式和技术手段之一。因此，有必要将并行遗传算法与云并行计算系统相结合，加速预测蛋白质构象。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法。

为了实现上述目的，本发明采用的技术方案是，一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，包括以下步骤：

步骤1，将蛋白质构象按照以下方式转化到虚拟网络映射：某条肽链所含氨基酸集合为V，连接链上每个氨基酸的肽键集合为L，将该条肽链抽象成虚拟节点集合为V，虚拟链路集合为L的有向虚拟网络，S为HP格点集合，即物理网络节点集合，E为连接HP格点的链路集合，即物理网络链路集合；

步骤2，建立虚拟网络映射的蛋白质构象预测模型；

步骤3，把肽链表征的位于虚拟网络首尾两端的虚拟节点随机映射到物理网络中的任意一对物理格点上；

步骤4，根据步骤2所述蛋白质构象预测模型计算最小的自由能值以及该自由能值所对应的路径和折叠方向编码；

步骤5，将步骤4所述折叠方向编码划分为多个子种群，进行云并行计算。

与现有技术相比，本发明的有益效果是：

(1)本发明提出了基于虚拟网络映射的蛋白质构象预测问题数学模型，将蛋白质构象预测问题转化为虚拟网络映射问题，建立了蛋白质折叠问题的纯整数线性规划模型，使问题变为简单的线性表达式而非自定义非线性函数，这将使预测蛋白质构象的问题能够被已有针对ILP问题的程序和方法更方便的求解，模型很容易扩展到三维蛋白质构象，只需给出三维HP格点表征的物理网络拓扑即可不加任何修改的适用于三维蛋白质构象。对于长度较短氨基酸序列，可通过整数线性规划工具(如CPLEX)求解此数学模型。

(2)本发明提出了一种蛋白质构象预测启发式算法，由于算法只对节点和链路这两个元素进行操作，并不用考虑现实中物理网络具体是二维还是三维，所以这个算法也可以不加任何修改的直接用于三维结构的蛋白质构象，极具扩展性。同时，确定了一对源节点和目的节点之后，对最优构象的搜索过程其实完全独立，有着并行计算的优势，对于长度较短氨基酸序列，此方法可更加快速预测蛋白质构象。

(3)本发明提出了一种基于云并行遗传算法和云并行计算平台的蛋白质构象预测加速方法，该平台可以根据需求对算法进行灵活的改进来解决蛋白质折叠问题，又因为遗传算法本身具备并行性，故而结合该平台构造特点改进成适用于该平台执行的并行遗传算法，使得预测蛋白质构象的时间更短，速度更快。对于较长的氨基酸序列，相较启发式算法，求解时间更短，提高算法的执行效率。

附图说明

图1为本发明实施例提供的基于虚拟网络映射的蛋白质构象预测问题示意图；

图2为本发明实施例提供的云并行计算系统的基本结构示意图；

图3为本发明实施例提供的基于云并行遗传算法和云并行计算系统的蛋白质构象加速预测流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例把蛋白质构象预测问题转化成虚拟网络映射问题，某条肽链(氨基酸序列)所含氨基酸集合为V，连接链上每个氨基酸的肽键集合为L，暂不考虑环状肽链结构，则二者数量上满足|L|＝|V|-1；权值变量w_v表示肽链中编号为v的氨基酸的亲疏水情况，该变量值满足公式(1)：

将该条肽链抽象成虚拟节点集合为V，虚拟链路集合为L的有向虚拟网络。H表示具有疏水属性的氨基酸，P表示具有亲水属性的氨基酸。

如图1所示，将该条肽链抽象成虚拟节点集合为V＝{V1,V2,V3,V4,V5}，虚拟链路集合为L＝{L1,L2,L3,L4}的有向虚拟网络，各节点依次的权重为W_V1＝1,W_V2＝1,W_V3＝0,W_V4＝1,W_V5＝1。

S＝{S1,S2,S3,……,S25}为HP格点集合，即物理网络节点集合，E＝{E1,E2,E3,……,E40}为连接HP格点的链路集合，即物理网络链路集合，

表示某氨基酸表征的虚拟网络节点v映射至物理网络格点s。为保证任意一个氨基酸表征的虚拟节点只能映射到一个物理格点上，则有约束：

为保证每个物理格点至多只能接受一个氨基酸表征的虚拟节点，则有约束：

表示某肽键表征的虚拟链路l映射到从物理格点s指向物理格点d的链路上，为保证每条虚拟链路只能映射到一条物理链路上，则有约束：

假设某氨基酸表征的虚拟节点已映射成功，那么与其相邻的虚拟节点在物理网络上要满足链路流守恒约束：

式(5)中，l_start表示虚拟链路l的起点，l_end则表示虚拟链路l的终点，l＝l₁或l₂。

表示某肽键表征的虚拟链路l₁映射到从物理格点d指向物理格点s的链路上；

表示某肽键表征的虚拟链路l₂映射到从物理格点s指向物理格点d'的链路上。

为统计某蛋白质构象状态中相邻而不相连的H-H结构个数，新增二值变量

定义为：

这个统计值为1时应满足如下约束：

具有最小自由能的蛋白质构象满足公式(8)，即相邻而不相连的H-H结构总数的相反数的最小值，代表当前蛋白质构象最稳定。

Minimum()表示一个输出括号内表达式最小值的函数。

基于以上数学模型，本实施例提供的一种蛋白质构象预测启发式算法，包括如下步骤：

步骤1：把肽链表征的位于虚拟网络首尾两端的虚拟节点随机映射到物理网络中的任意一对物理格点上；

步骤2：寻找出被映射到的这一对物理格点之间符合上述公式(2)、(3)、(4)和(5)约束的全部路径；

步骤3：根据上述公式(7)和(8)，统计每条路径所具有的自由能值，且得到其中最小的自由能值以及该自由能值所对应的路径和折叠方向编码。折叠方向编码表示序列中每个氨基酸在形成蛋白质构象时的折叠方向，采用绝对方向表示法，首先确定第一个氨基酸的位置，1表示向右折叠，2表示向上折叠，3表示向左折叠，4表示向下折叠。例如某氨基酸序列片段折叠方向编码为234，表示第二个氨基酸在第一个氨基酸上方，第三个氨基酸在第二个氨基酸左方，第四个氨基酸在第三个氨基酸下方。如图1所示，当前映射后的路径最小自由能值为-1，对应的折叠方向编码为1143。

本实施例提供的一种面向蛋白质构象预测加速的云并行计算系统的基本结构示意图如图2所示，包括：平台由八块带有主频为4.0GHz的Intel Core i7-4790K的主板组成，并行计算平台包括一个头结点，称为Matlab任务调度管理器(MJS)，以及若干个工作节点(worker)，MJS负责将上层的计算任务进行拆分并将这些任务分配给下层的若干个工作节点，workers则负责各个分任务的计算以及结果的返回。

该系统的工作流程图如图3所示，包括一下步骤：

步骤1：初始化种群，初始种群就是氨基酸序列折叠方向编码串，把序列长度也就是序列中氨基酸的总个数记为length，产生一个含有1、2、3、4这四个数字的随机数列，序列在折叠过程中的每个氨基酸的折叠方向是随机的，则折叠方向编码串长度为length-1。该编码串的一部分可由上述蛋白质构象预测启发式算法获取(其他部分从1、2、3、4四个数随机产生，这样可保证初始种群由遗传进化后的新的种群比初始种群的自由能更优)，并对种群进行子种群划分。云并行计算平台实际开启的worker的个数即为子种群数。可以根据不同长度的氨基酸序列开启不同个数的worker。

步骤2：把每个子种群放在相应的worker上独立完成遗传算法对蛋白质构象的计算过程。遗传算法对蛋白质构象的计算可以选用本领域技术人员熟知的遗传算法实现。

步骤3：待运行到各worker出现优秀个体，挑选出各worker中的最优个体，即自由能最小的蛋白质构象所对应的折叠方向编码，传到Matlab任务调度管理器(Matlab JobScheduler，MJS)中，进行两两交换。各worker再把自己的最差个体用交换得到的最优个体替换掉，继续执行遗传操作，同时观察进化过程中历代蛋白质构象最小自由能的变化情况，设置合理的繁衍代数，直到规定的繁衍代数停止操作。

预测的时间和对预测结果的准确性是衡量算法优劣的标准。搜集了表1所示12条较为经典的氨基酸序列进行本实施例的性能测试。为了方便书写，例如将HHHHPPP简化为H₄P₃。表中，最小自由能是这些氨基酸序列目前已发现的最优解。

表1待测试的HP序列表

采用方法1(采用IBM ILOG CPLEX Optimization Studio软件直接求解基于虚拟网络映射的蛋白质折叠的数学模型)，方法2(上述的蛋白质构象预测启发式算法)和方法3(本发明的预测加速方法)，分别对上述12条待测序列进行计算，所求得的自由能值比较结果记录在表2中。

表2自由能值比较表

从表2可以看出，对于前五条长度的蛋白质序列而言，使用方法1进行求解得到的目标函数解与实际最小自由能的值相同，故而可以验证该模型的准确性。方法2的模拟结果与方法1所得的自由能值相同，都是这些序列目前已发现的最优解。虽然方法3的模拟解与方法1存在一些不同，但也接近于目前已发现的最小自由能值。对于较长的序列(序列6，7，8，9，10，11，12)，方法2只能得到次优解或是其它更接近最优解的结果，而方法3求得的自由能值虽然并不是目前已发现的最小自由能值，但也接近于该值。

表3记录了这三种方法预测蛋白质构象所需的执行时间。从表3可以看出，方法2和3的执行时间均低于方法1。由此可知，本发明方法可以加快预测蛋白质构象。虽然对于较短的氨基酸序列而言，方法2的执行时间非常短，但对于较长的氨基酸序列而言，方法3的时间更短。

表3时间比较表

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，其特征在于，包括以下步骤：

步骤2，建立虚拟网络映射的蛋白质构象预测模型；

2.根据权利要求1所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，其特征在于：所述蛋白质构象预测模型具体为：

权值变量w_v表示肽链中编号为v的氨基酸的亲疏水情况，该变量值满足公式(1)：

H表示具有疏水属性的氨基酸，P表示具有亲水属性的氨基酸。

表示某氨基酸表征的虚拟网络节点v映射至物理网络格点s，为保证任意一个氨基酸表征的虚拟节点只能映射到一个物理格点上，则有约束：

若某氨基酸表征的虚拟节点已映射成功，那么与其相邻的虚拟节点在物理网络上要满足链路流守恒约束：

式中，l_start表示虚拟链路l的起点，l_end则表示虚拟链路l的终点，l＝l₁或l₂；

表示某肽键表征的虚拟链路l₂映射到从物理格点s指向物理格点d'的链路上；

定义为：

这个统计值为1时应满足如下约束：

具有最小自由能的蛋白质构象满足公式(8)，即相邻而不相连的H-H结构总数的相反数的最小值，代表当前蛋白质构象最稳定；

3.根据权利要求2所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，其特征在于：所述步骤4的具体计算步骤为：

寻找出被映射到的步骤3所述的这一对物理格点之间符合所述公式(2)、(3)、(4)和(5)约束的全部路径；

再根据公式(7)和(8)，统计每条路径所具有的自由能值，且得到其中最小的自由能值以及该自由能值所对应的路径和折叠方向编码。

4.根据权利要求3所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，其特征在于：所述折叠方向编码表示序列中每个氨基酸在形成蛋白质构象时的折叠方向，采用绝对方向表示法，1表示向右折叠，2表示向上折叠，3表示向左折叠，4表示向下折叠。

5.根据权利要求1-4任一项所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法，其特征在于：所述云并行计算包括一个头节点和若干工作节点的计算，每个工作节点独立完成相应子种群对蛋白质构象的计算，待运行到各工作节点出现优秀个体，挑选出各工作节点中的最优个体，传到头节点中，进行两两交换，各工作节点再把自己的最差个体用交换得到的最优个体替换掉，继续执行蛋白质构象计算，直到达到预设的繁衍代数。