CN111554346A

CN111554346A - 基于多目标优化的蛋白质序列设计实现方法

Info

Publication number: CN111554346A
Application number: CN202010353838.4A
Authority: CN
Inventors: 沈红斌; 李瑞祥
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-18
Anticipated expiration: 2040-04-29
Also published as: CN111554346B

Abstract

一种基于多目标优化的蛋白质序列设计实现方法，通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识，并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间，然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。本发明通过集成结构、统计和物理力场三种信息引导蛋白质序列的搜索，得到的蛋白质序列无论是准确性和鲁棒性均由于其他方法，并且它的运行速度更快。本发明同样对设计的序列进行了生物实验验证，多个属于不同折叠类型的蛋白均能够正确表达，并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构。

Description

基于多目标优化的蛋白质序列设计实现方法

技术领域

本发明涉及的是一种生物工程领域的技术，具体是一种基于多目标优化的蛋白质序列设计实现方法。

背景技术

近年来，人工合成蛋白是一个备受瞩目的生物技术，它对制药、纳米科技、催化化学以及许多产业具有深远的影响。自然界中，蛋白质在生理过程中具有决定性的作用，例如产生能量、细胞和器官组织的结构构成，感知器，催化剂等。尽管氨基酸的种类只有20种，然而其组成的蛋白质分子在自然界中有无尽的复杂结构。鉴于目前的生物技术，一些自然界不存在的蛋白可以被人工合成，因此迅速准确的蛋白质设计方法对于快速发展的蛋白质工程非常重要。蛋白质设计是根据一个目标蛋白质的三级结构，设计出相应的蛋白质序列，该序列可以折叠成该目标的三级结构，它是蛋白质序列预测的逆过程。设计出的全新蛋白具有生物制药和生物工程的应用前景，因此蛋白质设计这一领域引起了广泛的关注。随着大量超级计算设备的发展，蛋白质设计算法取得了突出的进展，然而目前仍然有许多问题亟待解决。

对于当前盛行的方法，蛋白质设计被当作一个优化问题来解决。被优化的能量函数有Rosetta,SEF_V,CHARMM等。这些能量函数由众多不同的能量项线性组成，分别反映了蛋白质序列与结构映射关系的不同方面。这些能量函数大体上可以被分为三类：(1)基于物理力场的能量函数，(2)基于统计模型的函数，(3)基于结构信息的函数。由于蛋白质的长度较长(通常大于100)，一个单独的能量函数很难准确的捕捉到复杂结构的信息，这也是当前蛋白质设计方法效果受限的原因之一。当前绝大多数蛋白质设计方法是基于单目标优化的算法，有些多目标优化的算法其实是不同能量函数的线性加权，这种是粒度较粗的描述函数。而有的多目标优化方法仅仅是对不同能量函数划分优先级，这本质上还是一种单目标优化的方式。

尽管有一些蛋白质设计方法采用了部分多目标优化的思想，一个完整的基于多目标优化的蛋白质设计方法还没有被提出过。因而准确地结合不同类型能量函数的特点是解决蛋白质设计问题的关键。物理力场的能量函数通常较为耗时，因而在蛋白质设计问题中过多的迭代次数是非常耗时的。此外一个蛋白质序列长度通常大于100，因而有20¹⁰⁰种可能的序列，这是一个超高维的优化问题。这个问题通常不能用枚举的方法来解决，因而一个快速准确的序列搜索算法对解决这个问题来说非常重要。

目前，许多蛋白质设计方法取得了一定的进展：RosettaDesign采用蒙特卡洛随机算法来优化Rosetta能量函数，它曾经成功地设计出一个被称为Top7的自然界不存在的蛋白，并且该蛋白在湿实验中被验证与目标结构完美拟合；ABACUS同样采用蒙特卡洛算法来优化一个基于目标蛋白局部结构统计信息的能量函数；EvoDesign提出了一个基于同源蛋白结构信息的能量函数。

上述的方法都是基于备份交换的蒙特卡洛算法(REMC)来优化一个单独的目标能量函数。这种方法对非解析的能量函数(即黑盒模型)具有一定的适用性，但它仍然有如下缺点:

1)REMC需要很长的迭代次数产生较为理想的解。因为蛋白质序列的组合情况很多，20种残基之间很难建立量化的关系，所以在序列的搜索过程中，它们之间的联系网络很难被建立，意味着新产生的序列无法从之前较理想的序列中捕获有用的信息，所有的序列搜索都是完全随机进行的。所以REMC算法计算量非常大，若将其应用在多目标优化时，搜索的时间将会呈指数级别的增加，因为这种算法通常至少需要10条路径同时搜索。

2)理想的蛋白质序列在原始的蛋白质序列空间中呈现稀疏的分布。这是因为每个残基位置上不同的氨基酸没有明确的量化关系，蛋白质的序列长度很长，所以少数的最优解稀疏地分布在这个庞大的空间中，这会为搜索带来很大的麻烦。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于多目标优化的蛋白质序列设计实现方法，通过集成结构、统计和物理力场三种信息引导蛋白质序列的搜索，得到的蛋白质序列无论是准确性和鲁棒性均由于其他方法，并且它的运行速度更快。本发明同样对设计的序列进行了生物实验验证，多个属于不同折叠类型的蛋白均能够正确表达，并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构。

本发明是通过以下技术方案实现的：

本发明涉及一种基于多目标优化的蛋白质序列设计实现方法，通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识，并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间，然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。

所述的目标蛋白的相似结构信息，通过但不限于PDB数据库(Protein Data Bank)获得。

所述的基于局部结构的统计信息，通过但不限于DSSP数据库(Definition ofSecondary Structure of Proteins)获得。

所述的目标蛋白的相似结构信息，满足与目标蛋白结构相似的所有蛋白，相似度应满足TMscore>0.7，然后比对所得到的所有相似蛋白的氨基酸序列得到一个残基-位点的打分矩阵。

所述的基于局部结构的统计信息，满足统计目标蛋白不同残基位置的氨基酸概率分布并得到一个残基-位点打分矩阵。

所述的先验知识，通过将得到的两个残基-位点打分矩阵进行融合得到

所述的连续的蛋白质序列空间，根据融合的信息对目标蛋白的每个残基位置进行不同氨基酸的量化排序，从而实现蛋白质序列的空间变换。

所述的多目标粒子群优化，在变换的空间中使用多目标粒子群优化的算法同时优化两个目标能量函数，具体为：采用基于物理力场的Foldx能量函数和基于局部结构信息的能量函数。经过多轮迭代后从非支配解集中提取出最终的蛋白质序列作为输出。

所述的多目标粒子群优化，优选每一次迭代将结果映射到原来的蛋白质序列空间，以便计算不同能量函数的值。

本发明涉及一种实现上述方法的系统，包括：数据库信息统计模块、统计信息融合模块、空间变换模块、迭代计算模块、序列输出模块，其中：数据库信息统计模块输出信息至统计信息融合模块，融合后的信息被传输至空间变换模块进行量化变换，空间变换模块将信息传输至迭代计算模块进行迭代运算，运算的解集输出至序列输出模块进行最后的筛选。

技术效果

本发明整体解决了如何基于特定蛋白质结构设计生成可以折叠至目标结构的蛋白质序列的技术问题。

与现有技术相比，本发明可以并行优化多个目标函数、在变换后的量化空间中进行计算大大减少了迭代次数、设计的蛋白质序列能够更加精确地拟合为目标蛋白结构。

附图说明

图1为本发明流程图；

图2为空间变换示意图；

图3为实施例相似度结果对比图；

图4为实施例效果对比示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于多目标优化的蛋白质序列设计实现方法，包括以下步骤：

步骤1)建立先验信息，具体包括：

1.1：将输入的蛋白质PDB文件与筛选过后的PDB数据库中的所有文件进行TMalign比对，选出其中TMscore>0.7的所有蛋白，对这些蛋白的氨基酸序列进行多序列比对，得到残基-位点的打分矩阵。

所述的打分矩阵为：

其中：f(p,x)是多序列比对中残基x在位置p的频率，B(x,r)是BLOSUM62的元素值。

1.2：得到输入PDB文件的DSSP文件，然后在DSSP数据库中统计与每个残基位置局部结构信息相同的氨基酸分布情况，并得到打分矩阵为：

S(r,p)＝-lnp(r|structure properties atpositionp)，

步骤2)融合先验信息并进行空间变换，具体包括：

2.1)将之前得到的两个打分矩阵进行归一化：

根据归一化后的信息矩阵得到：F(r,p)＝λ₁M(r,p)'+λ₂S(r,p)'，其中：M(r,p)'和S(r,p)'分别是结构信息矩阵和统计信息矩阵的元素，λ₁和λ₂是两个系数来平衡二种信息的权重。

所述的系数会随着迭代的进行而改变，这样可以使得变换后的蛋白质空间发生振荡。因为通常不知道不同残基类型间的正确量化关系，因而这种振荡可以带来更多的探索可能，并且防止搜索陷入局部最优解。

2.2)空间变换为：Rⁿ＝R×R…×R＝{(x₁,x₂,…,x_n)|x_k∈R,k＝1,2,…,n}，其中：n是目标蛋白的长度，转换后的值为T(r,p)＝rank(F(r,p)),rank∈{1,2,…,20}，将其从小到大排序，因而

所述的空间变换的效果包括：1)最优解的搜索空间被大大减小；2)原来的离散空间优化问题可以被转变为连续优化问题。

步骤3)采用基于物理力场的Foldx能量函数和基于局部结构信息的能量函数实现多目标粒子群优化算法，具体为：

f₁＝w₁E_vdw+w₂E_solvH+w₃E_solvP+E_wb+E_hbond+E_el+E_Kon+w₄E_Smc+w₅E_Ssc，

f₂＝∑w₁ΔSS(p)+w₂ΔSA(p)+w₃(Δφ(p)+Δψ(p))，其中：ΔSS(p)是目标蛋白与设计序列之间的二级结构差异，具体为

其中：ΔSA是溶剂可及性的差异，Δφ(p)andΔψ(p)是扭转角的差异。

结合了两个能量函数的多目标优化算法为：

粒子位置为：

其中：

粒子的初始化包括：

其中：set(d)是根据目标蛋白残基位置d处的局部结构信息筛选得到的氨基酸类型集合。

粒子的迭代公式包括：

步骤4)通过类型蒙特卡洛的接受-拒绝机制进行优化，具体为：接受该序列的概率

其中：KT是温度参数。

非支配解集的更新方式由收敛距离和分散距离所决定，包括：

非支配解包括：

①所有的粒子靠近理想值并且具有好的分散性的情况：(d_cv(x)<mean(d_cv)and d_dv(x)>mean(d_dv))，

②粒子靠近理想值，但过于稠密的情况：(d_cv(x)<mean(d_cv)and d_dv(x)<mean(d_dv))；

③大多数例子远离理想值，然而一部分粒子分布在帕雷特边沿上，可能携带重要的信息的情况：(d_cv(x)>mean(d_cv)and d_dv(x)>mean(d_dv))；

④粒子远离理想值并且稠密地聚集在一起，因而它们的优先级最低的情况：(d_cv(x)>mean(d_cv)and d_dv(x)<mean(d_dv))。

非支配解的空间变换的振荡满足λ₁+λ₂＝1,λ＝(λ₁,λ₂),||λ^*-λ||＞d_threshold。

步骤5)从非支配解集中选出最优解以及距离最优解最远且满足d_cv(x)<mean(d_cv)的两个解作为本方法得到的蛋白质优化结构。

所述的距离

经过具体实际实验，本方法在linux系统环境设置下，以matlab软件运行，使用rosetta ab initio prediction工具验证能够得到的实验数据是：200个样本下，设计的序列折叠结构与目标结构属于同种结构的平均比例为40.1％，其中α蛋白可以达到70.5％；200个样本中与目标蛋白最相似的样本其tmscore平均为67.43，其中α蛋白可以达到75。

与现有技术相比，本方法平均迭代次数减少10³量级，结果蛋白序列拟合目标蛋白精确度提升，以rosetta ab initio工具验证精确度提升30.1％，同时该方法在生物平台上得到了验证，其中所设计的目标蛋白1ubq序列折叠后的蛋白质结构与原蛋白结构间的rmsd为

较当前主流方法精度提升

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于多目标优化的蛋白质序列设计实现方法，其特征在于，通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识，并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间，然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。

2.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的目标蛋白的相似结构信息，通过PDB数据库(Protein Data Bank)获得；所述的基于局部结构的统计信息，通过DSSP数据库(Definition of Secondary Structure of Proteins)获得。

3.根据权利要求2所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的目标蛋白的相似结构信息，满足与目标蛋白结构相似的所有蛋白，相似度应满足TMscore>0.7，然后比对所得到的所有相似蛋白的氨基酸序列得到一个残基-位点的打分矩阵；

所述的基于局部结构的统计信息，满足统计目标蛋白不同残基位置的氨基酸概率分布并得到一个残基-位点打分矩阵；

所述的先验知识，通过将得到的两个残基-位点打分矩阵进行融合得到。

4.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的连续的蛋白质序列空间，根据融合的信息对目标蛋白的每个残基位置进行不同氨基酸的量化排序，从而实现蛋白质序列的空间变换。

5.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的多目标粒子群优化，在变换的空间中使用多目标粒子群优化的算法同时优化两个目标能量函数，具体为：采用基于物理力场的Foldx能量函数和基于局部结构信息的能量函数，经过多轮迭代后从非支配解集中提取出最终的蛋白质序列作为输出。

6.根据权利要求1或5所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的多目标粒子群优化，每一次迭代将结果映射到原来的蛋白质序列空间，以便计算不同能量函数的值。

7.根据权利要求1或5所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的多目标粒子群优化算法，具体为：

其中：ΔSA是溶剂可及性的差异，Δφ(p)andΔψ(p)是扭转角的差异；

结合了两个能量函数的多目标优化算法为：

粒子位置为：

其中：

粒子的初始化包括：

其中：set(d)是根据目标蛋白残基位置d处的局部结构信息筛选得到的氨基酸类型集合；

粒子的迭代公式包括：

8.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，所述的多目标粒子群优化算法，通过类型蒙特卡洛的接受-拒绝机制进行优化，具体为：接受该序列的概率

其中：KT是温度参数；

非支配解包括：

④粒子远离理想值并且稠密地聚集在一起，因而它们的优先级最低的情况：(d_cv(x)>mean(d_cv)and d_dv(x)<mean(d_dv))；

9.根据权利要求8所述的基于多目标优化的蛋白质序列设计实现方法，其特征是，从非支配解集中选出最优解以及距离最优解最远且满足d_cv(x)<mean(d_cv)的两个解作为本方法得到的蛋白质优化结构；所述的距离

10.一种实现上述权利要求1～9中任一所述方法的系统，其特征在于，包括：数据库信息统计模块、统计信息融合模块、空间变换模块、迭代计算模块、序列输出模块，其中：数据库信息统计模块输出信息至统计信息融合模块，融合后的信息被传输至空间变换模块进行量化变换，空间变换模块将信息传输至迭代计算模块进行迭代运算，运算的解集输出至序列输出模块进行最后的筛选。