CN115331728B

CN115331728B - 一种稳定折叠的富含二硫键的多肽设计方法及其电子设备

Info

Publication number: CN115331728B
Application number: CN202210964860.1A
Authority: CN
Inventors: 吴炜坤; 张闻瀚; 金慧玲; 徐霖
Original assignee: Hangzhou Liwen Institute Biotechnology Co ltd
Current assignee: Hangzhou Liwen Institute Biotechnology Co ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2023-06-30
Anticipated expiration: 2042-08-12
Also published as: CN115331728A

Abstract

本发明公开了一种稳定折叠的富含二硫键的多肽设计方法及其电子设备，本方法可借助大量天然已知的富含二硫键的多肽家族的半胱氨酸序列分布和配对特点（序列的通配规则），来生成更容易折叠的多肽主链结构序列；也可以根据人为随机化已有序列的通配规则，扩大序列和结构的采样空间。更重要的是，本方法使用高精度的结构预测模型进行序列反向传播设计，同时考虑序列与结构的适配性，生成极具多样性的序列库。做到同时优化预设二硫键配对的半胱氨酸位点的距离分布，以及整体多肽中稀疏的相互作用密度。使得二硫键正确形成的同时，多肽每个位点之间存在足够多的相互作用接触，确保其折叠的稳定性。

Description

一种稳定折叠的富含二硫键的多肽设计方法及其电子设备

技术领域

本发明涉及蛋白设计领域，更具体的是涉及一种稳定折叠的富含二硫键的多肽设计方法及其电子设备。

背景技术

自从1953年首个人工合成的具有生物活性的多肽问世至今，多肽类药物和配体已被广泛应用于临床诊断和治疗。且相对于无规则卷曲的线型多肽分子，环肽类化合物因具有稳定的构象而具备与靶标蛋白结合的特异性和亲和力好、不容易被生物体系中的蛋白酶降解、生物利用率高等优点，因此针对环肽类化合物进行配体药物的研发引起了人们越来越多的关注。

富含二硫键的多肽分子普遍具有独特的生物活性，能为构建多元环肽分子探针和开发新型药物分子提供结构多样、复杂、稳定的大分子骨架模型，因此具有极高的研究价值。在这些骨架模型中插入活性多肽，可设计得到一系列潜在的药物分子的序列。因插入的活性多肽的序列不同，这类药物分子氧化折叠过程充满了复杂性和不可控性，设计的药物分子的序列是否能在自然界中稳定存在、构象是否稳定均需通过实验进行验证，这极大地限制了富含二硫键的多肽分子作为分子骨架模型进行探针和药物开发的潜能。

现有技术中，为了解决多肽在氧化折叠过程中不可控的问题，科学家们利用半胱氨酸类似物(如硒代半胱氨酸、青霉胺)替代多肽链中的半胱氨酸残基。虽然这些半胱氨酸类似物确实有效调控了二硫键的配对方式，但是这些类似物都属于非天然氨基酸，若将这些非天然氨基酸应用于生物体内表达多肽，工作量和难度都是很大的。同时这种严格调控二硫键配对的方法得到的多肽的序列多样性较差，不利于开发出新的药物分子，且开发出的药物分子的生物活性往往较低。因此发展出一种不依赖于非天然氨基酸且分子骨架稳定性高的多肽设计方法是很有必要的。

发明内容

针对现有技术存在的不足，本发明的目的之一在于利用深度学习算法对多肽分子的稳定性打分，将该多肽分子的二硫键能量和整体分子能量进行量化，优化二硫键配对的半胱氨酸位点的距离分布以及整体多肽中的相互作用密度，理性设计出多种构象稳定的富含二硫键多肽的设计方法。

为实现上述目的，本发明提供了如下技术方案：一种稳定折叠的富含二硫键的多肽设计方法，包括以下步骤：

1)设计初始多肽序列，所述初始多肽序列中设定形成二硫键的氨基酸位点为半胱氨酸，其他氨基酸位点为20种氨基酸中的一种，形成二硫键的半胱氨酸在一级序列上的距离大于5个氨基酸；

2)将所述初始多肽序列输入到AlphaFold2模型中得到距离分布矩阵，所述距离分布矩阵反映多肽三维结构中不同氨基酸位点之间的距离分布，所述距离分布矩阵包括二硫键信息，所述二硫键信息反映形成二硫键的两个半胱氨酸之间的距离分布；

3)根据所述二硫键信息计算二硫键交叉熵得到二硫键损失函数，根据所述距离分布矩阵计算多肽交叉熵得到多肽损失函数，加权计算所述二硫键损失函数和所述多肽损失函数得到多肽综合损失函数，对所述多肽综合损失函数进行反向传播求导得到梯度信息，根据所述梯度信息得到多肽序列；

4)将所述多肽序列作为新的初始多肽序列并重复所述步骤2)和步骤3)，得到新的多肽综合损失函数；

5)计算相邻的两个多肽综合损失函数的差值得到评分差，若累计n次所述评分差小于预设的评分差阈值，则停止计算并输出最新的初始多肽序列，否则重复步骤4)，n为大于1的整数；

或者累计反向传播求导的次数得到优化次数，若所述优化次数大于预设的次数阈值，则停止计算并输出最新的初始多肽序列，否则重复步骤4)。

作为优选，所述步骤1)中，根据已公开的环肽骨架分子确定所述初始多肽序列中形成二硫键的半胱氨酸。

作为优选，所述步骤1)中使用维度为Lx20的矩阵代表长度为L个氨基酸的多肽序列，采用离散型函数对多肽序列进行初始化，其中，将设定形成二硫键的半胱氨酸的向量进行加权偏倚，得到所述初始多肽序列。

作为优选，所述离散型函数为jax中的jax.random.gumbel()函数。

作为优选，所述步骤3)中，从所述二硫键信息中提取AlphaFold输出的蛋白残基距离分布矩阵的第一张量，所述第一张量的维度为LxLxM，M表示以M个bin将0->21.6875埃距离进行分箱，M为大于10的整数，所述第一张量表示形成二硫键的两个氨基酸Ca-Ca原子之间的距离分布，记为x₁；

将Ca-Ca原子距离小于预设的分箱阈值的距离分布进行softmax归一化，得到y₁，计算x₁与y₁的交叉熵求和得到所述二硫键损失函数；

从所述距离分布矩阵中提取Alphafold输出的蛋白残基距离分布矩阵的第二张量，所述第二张量的维度为LxLxM，M表示以M个bin将0->21.6875埃距离进行分箱，M为大于10的整数，所述第二张量表示某一氨基酸与其距离最近的一个或者两个氨基酸的Ca-Ca原子之间的距离分布，记为x₂；

将Ca-Ca原子距离小于预设的分箱阈值的距离分布进行softmax归一化，得到y₂，计算x₂与y₂的交叉熵求和得到所述多肽损失函数。

作为优选，所述步骤3)中，对所述多肽损失函数上每一行进行掩码设置，在一级序列上邻近的g个氨基酸之间的损失函数值不进行计算，g为大于5的整数。

作为优选，所述步骤3)中，M为64。

作为优选，所述步骤3)还输出所述初始多肽序列对应的二硫键损失函数；多肽设计方法还包括：

步骤6)根据所述二硫键损失函数得到若干个二硫键能量值，统计小于预设的二硫键能量阈值的二硫键能量值的数量得到二硫键成键量，将所述二硫键成键量与步骤1)预设的二硫键数量进行一致性比较，若相同则输出所述初始多肽序列，否则重复步骤1)。

作为优选，所述步骤5)中，预设的次数阈值为30～70。

针对现有技术存在的不足，本发明的目的之二在于能将上述算法进行运行的设备。

为实现上述目的，本发明提供了如下技术方案：一种电子设备，包括：

处理器以及

存储器，所述存储器存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上述稳定折叠的富含二硫键的多肽设计方法对应的算法。

与现有技术相比，本发明的优点在于：利用深度学习算法对多肽分子的稳定性打分，将该多肽分子的二硫键能量和整体分子能量进行量化，并利用反向传播求导优化多肽序列，同时优化预设二硫键配对的半胱氨酸位点的距离分布，以及整体多肽中稀疏的相互作用密度。使得二硫键正确形成的同时，多肽每个位点之间存在足够多的相互作用接触，确保其折叠的稳定性。

附图说明

图1为优化前多肽序列的接触图谱；

图2为优化后多肽序列的接触图谱；

图3为优化前某一对成二硫键的两个氨基酸位点的距离分布图；

图4为优化后某一对成二硫键的两个氨基酸位点的距离分布图。

具体实施方式

下面结合附图和实施例，对本发明进一步详细说明。

实施例1

现有技术中设计具有靶向性的多肽序列通常依靠多轮迭代的噬菌体库对多肽的某个区域进行随机饱和突变或随机插入不同长度氨基酸片段来体外筛选，筛选过程复杂且属于劳动密集型。饱和筛选的最大缺点是序列库中存在大量不可正常折叠/或形成二硫键的序列，本发明利用算法快速地解决了上述问题。

具体地，一种稳定折叠的富含二硫键的多肽设计方法，包括以下步骤：

1)设计初始多肽序列，所述初始多肽序列中设定形成二硫键的氨基酸位点为半胱氨酸，其他氨基酸位点为20种氨基酸中的一种。形成二硫键的半胱氨酸在一级序列上的距离大于5个氨基酸。本发明可借助大量天然已知的富含二硫键的多肽家族的半胱氨酸序列分布和配对特点(序列的通配规则)，来生成更容易折叠的多肽主链结构序列；本发明也可以根据人为随机化已有序列的通配规则，扩大序列和结构的采样空间；

3)根据所述二硫键信息计算二硫键交叉熵得到二硫键损失函数，根据所述距离分布矩阵计算多肽交叉熵得到多肽损失函数，加权计算所述二硫键损失函数和所述多肽损失函数得到多肽综合损失函数，对所述多肽综合损失函数进行反向传播求导得到梯度信息，根据所述梯度信息得到多肽序列。该步骤的特点在于同时优化预设二硫键配对的半胱氨酸位点的距离分布，以及整体多肽中稀疏的相互作用密度。使得二硫键正确形成的同时，多肽每个位点之间存在足够多的相互作用接触，确保其折叠的稳定性；

5)计算相邻的两个多肽综合损失函数的差值得到评分差，若累计n次所述评分差小于预设的评分差阈值，则停止计算并输出最新的初始多肽序列，否则重复步骤4)，n为大于1的整数(优选为3～6次)；

或者累计反向传播求导的次数得到优化次数，若所述优化次数大于预设的次数阈值(优选为30-70次)，则停止计算并输出最新的初始多肽序列，否则重复步骤4)。

实施例2：

与实施例1的不同之处在于：步骤1)中，根据已公开的环肽骨架分子确定所述初始多肽序列中形成二硫键的半胱氨酸。

实施例3：

与实施例1的不同之处在于：步骤1)中使用维度为Lx20的矩阵代表长度为L个氨基酸的多肽序列，采用离散型函数对多肽序列进行初始化，其中，将设定形成二硫键的半胱氨酸的向量进行加权偏倚，得到所述初始多肽序列。如本发明采用one-hot向量对设定形成二硫键的半胱氨酸进行加权偏移，对其他氨基酸位点的氨基酸种类进行初步预测。具体一种情况如表1所示，表1横列表示长度为L的多肽的不同氨基酸位点，纵列表示20种不同的氨基酸，第二列中的数字“1”代表第一位氨基酸位点是C(半胱氨酸)的概率是1，即确定该位点的氨基酸为半胱氨酸。第三列中数字“0.6”代表第二位氨基酸位点是L(亮氨酸)的概率为0.6，数字“0.4”代表第二位氨基酸位点是A(丙氨酸)的概率为0.4，形成的初始多肽序列中第二位氨基酸位点为L(挑选概率最高对应的氨基酸)。

表1

实施例4：

与实施例3的不同之处在于：所述离散型函数为jax中的jax.random.gumbel()函数。

实施例5：

与实施例1的不同之处在于：如图1所示，在三维空间不同的氨基酸位点之间的距离分布不同(不同颜色深度表示不同的距离分布)，由图1可知，优化前多肽中的氨基酸挤压在一起，没有形成很好的三维结构。如图2所示，优化后多肽中的氨基酸很好地在三维空间中分布。具体地，步骤3)中，从所述二硫键信息中提取AlphaFold输出的蛋白残基间距离分布矩阵的第一张量logits，所述第一张量logits的维度为LxLxM，M表示以M个bin将0->21.6875埃距离进行分箱，M为大于10的整数(优选为64，将0-20埃均匀分成64个区间，如0-0.3125埃，0.3125-0.625埃，...，19.375-19.6875埃，19.6875-20埃)。logits向量的维度与分箱数一致，其中值为Alphafold预测的第i个氨基酸和第j个氨基酸之间的距离落在每个区间的未归一化概率记为x1(概率归一化后具体呈现的概率大小看对应区间的柱状高度对应的概率)。具体地，如图3所示，优化前某一对预设形成二硫键的两个氨基酸位点之间的距离在5-15埃范围内的概率大部分在0.02附近。如图4所示，优化后同一对氨基酸位点之间的距离集中在3.2-4.2埃，在该距离范围内的概率高达0.9左右，说明此时对应的二硫键三维距离分布落在了天然蛋白二硫键距离分布区间内，二硫键构象符合真实物理规律。

将Ca-Ca原子距离小于预设的分箱阈值的距离分布logits张量进行softmax操作，得到归一化的距离概率矩阵y1，计算x1与y1的交叉熵求和得到所述二硫键损失函数，即sum(cce(x1，y1))；

从所述距离分布矩阵中提取Alphafold输出的蛋白残基距离分布矩阵的第二张量，所述第二张量的维度为LxLxM，M表示以M个bin将0->21.6875埃距离进行分箱，M为大于10的整数，所述第二张量表示某一氨基酸与其距离最近的一个或者两个氨基酸的Ca-Ca原子之间的logits距离分布，记为x2；

将Ca-Ca原子距离小于预设的分箱阈值(优选分箱阈值为14.0埃)的距离分布进行softmax归一化，得到y2，计算x2与y2的交叉熵求和得到所述多肽损失函数，即sum(cce(x2，y2))。

实施例6：

与实施例1的不同之处在于：步骤3)中，对所述多肽损失函数上每一行进行(i)掩码设置(设置1e8值)，在一级序列上邻近的g个氨基酸之间的损失函数值不进行计算，g为大于5的整数(优选为9)，优选的掩码位点为i+-9的区间，得到更加稀疏的矩阵，针对矩阵的每一行进行loss数值最低的topK个数值进行平均，最后对维度L的向量求平均得到总氨基酸相互作用损失函数值。

实施例7：

与实施例1的不同之处在于：使用pyRosetta的DisulfidizeMover,将二硫键位点配对指定并添加距离约束。最后使用Rosetta FastRelaxMover(使用默认值)对整体多肽结构进行侧链的优化和修复。

实施例8：

与实施例1的不同之处在于：所述步骤3)还输出所述初始多肽序列对应的二硫键损失函数；多肽设计方法还包括：

步骤6)使用pyRosetta的DisulfidizeMover组件对优化后结构中二硫键的成键情况进行检查，更具体的是，根据所述二硫键损失函数得到若干个二硫键能量值，统计小于预设的二硫键能量阈值的二硫键能量值的数量得到二硫键成键量，将所述二硫键成键量与步骤1)预设的二硫键数量进行一致性比较，若相同则输出所述初始多肽序列，否则重复步骤1)。

实施例9：

一种电子设备，包括：

处理器以及

存储器，所述存储器存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行实施例1-8公开的稳定折叠的富含二硫键的多肽设计方法对应的算法。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通研究人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种稳定折叠的富含二硫键的多肽设计方法，其特征在于包括以下步骤：

1）设计初始多肽序列，所述初始多肽序列中设定形成二硫键的氨基酸位点为半胱氨酸，其他氨基酸位点为20种氨基酸中的一种，形成二硫键的半胱氨酸在一级序列上的距离大于5个氨基酸；

2）将所述初始多肽序列输入到AlphaFold2模型中得到距离分布矩阵，所述距离分布矩阵反映多肽三维结构中不同氨基酸位点之间的距离分布，所述距离分布矩阵包括二硫键信息，所述二硫键信息反映形成二硫键的两个半胱氨酸之间的距离分布；

3）根据所述二硫键信息计算二硫键交叉熵得到二硫键损失函数，根据所述距离分布矩阵计算多肽交叉熵得到多肽损失函数，加权计算所述二硫键损失函数和所述多肽损失函数得到多肽综合损失函数，对所述多肽综合损失函数进行反向传播求导得到梯度信息，根据所述梯度信息得到多肽序列；

其中，从所述二硫键信息中提取AlphaFold输出的蛋白残基距离分布矩阵的第一张量，所述第一张量的维度为LxLxM，M表示以M个bin将0->21.6875埃距离进行分箱，M为大于10的整数，所述第一张量表示形成二硫键的两个氨基酸Ca-Ca原子之间的距离分布，记为x₁；

将Ca-Ca原子距离小于预设的分箱阈值的距离分布进行softmax归一化，得到y₂，计算x₂与y₂的交叉熵求和得到所述多肽损失函数；

4）将所述多肽序列作为新的初始多肽序列并重复所述步骤2）和步骤3），得到新的多肽综合损失函数；

5）计算相邻的两个多肽综合损失函数的差值得到评分差，若累计n次所述评分差小于预设的评分差阈值，则停止计算并输出最新的初始多肽序列，否则重复步骤4），n为大于1的整数；

或者累计反向传播求导的次数得到优化次数，若所述优化次数大于预设的次数阈值，则停止计算并输出最新的初始多肽序列，否则重复步骤4）。

2.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述步骤1）中，根据已公开的环肽骨架分子确定所述初始多肽序列中形成二硫键的半胱氨酸。

3.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述步骤1）中使用维度为Lx20的矩阵代表长度为L个氨基酸的多肽序列，采用离散型函数对多肽序列进行初始化，其中，将设定形成二硫键的半胱氨酸的向量进行加权偏倚，得到所述初始多肽序列。

4.根据权利要求3所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述离散型函数为jax中的jax.random.gumbel()函数。

5.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述步骤3）中，对所述多肽损失函数上每一行进行掩码设置，在一级序列上邻近的g个氨基酸之间的损失函数值不进行计算，g为大于5的整数。

6.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述步骤3）中，M为64。

7.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述步骤3）还输出所述初始多肽序列对应的二硫键损失函数；多肽设计方法还包括：

步骤6）根据所述二硫键损失函数得到若干个二硫键能量值，统计小于预设的二硫键能量阈值的二硫键能量值的数量得到二硫键成键量，将所述二硫键成键量与步骤1）预设的二硫键数量进行一致性比较，若相同则输出所述初始多肽序列，否则重复步骤1）。

8.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法，其特征在于，所述步骤5）中，预设的次数阈值为30~70。

9.一种电子设备，其特征在于，包括：

处理器以及

存储器，所述存储器存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1~8任意一项所述的稳定折叠的富含二硫键的多肽设计方法。