CN114446391A

CN114446391A - 一种基于量子退火的蛋白质折叠方法

Info

Publication number: CN114446391A
Application number: CN202210116503.XA
Authority: CN
Inventors: 钱龙
Original assignee: Shanghai Turing Intelligent Computing Quantum Technology Co Ltd
Current assignee: Shanghai Turing Intelligent Computing Quantum Technology Co Ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-05-06

Abstract

本发明提供一种基于量子退火的蛋白质折叠方法，属于量子计算技术领域。因为该方法将蛋白质折叠问题编码为可计算的优化问题(QUBO形式)，具体采用正四面体格点模型模拟氨基酸多肽链分子在三维空间中的构成，并定义编码后的二进制氨基酸序列中任一氨基酸在预定方向上的步长、坐标及任意两个氨基酸之间的距离，通过添加约束条件构建对应的伊辛哈密顿量，最后利用量子退火演化伊辛哈密顿量并得到最终的演化结果，即演化得到的能量最优解即为蛋白质对应的最稳定构像。因此该方法利用量子退火中的量子隧穿效应来解决上述蛋白质问题，可以大大压缩空间和时间复杂度，耗时少，具有广泛的应用前景。

Description

一种基于量子退火的蛋白质折叠方法

技术领域

本发明涉及量子计算技术领域，具体涉及一种基于量子退火的蛋白质折叠方法。

背景技术

蛋白质折叠(Protein folding)是蛋白质获得其功能性结构和构象的过程。通过这一物理过程，蛋白质从无规则卷曲折叠成特定的功能性三维结构。而“蛋白质折叠”的主要研究目的是依据蛋白质具体的氨基酸序列，对应预测蛋白质折叠的选取路径并确定其三维最终结构。

现有技术中提出的蛋白质随机构象在搜寻研究中具有一系列各种亚稳定中间态的假设来解决折叠时间的莱氏悖论–蛋白质折叠问题，如果通过遍历搜寻自由能最小的构象，利用现有技术提出的方法，需要耗费接随序列指数倍增长的时间。

量子退火算法(Quantum annealing algorithm)是根据经典的模拟退火算法改进的一类新的量子优化算法。不同于经典模拟退火算法利用热波动来搜寻问题的最优解，量子退火算法利用量子波动产生的量子隧穿效应来使算法摆脱局部最优，而实现全局优化。通常来说，量子退火能够自然地返回低能量解决方案，即应用在优化问题，寻找问题的低能态；或者提供良好的低能量样本(概率抽样问题)，因此本发明提出一种基于量子退火的蛋白质折叠方法。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于量子退火的蛋白质折叠方法。

本发明提供了一种基于量子退火的蛋白质折叠方法，具有这样的特征，包括：将待处理氨基酸序列中的每一个氨基酸映射到正四面体格点模型的每一个格点上；根据正四面体格点模型的预定结构将待处理氨基酸序列编码为对应的二进制氨基酸序列；定义二进制氨基酸序列中任一氨基酸在预定方向上的步长、坐标及任意两个氨基酸之间的距离；基于二进制氨基酸序列构建伊辛哈密顿量；利用量子退火机对伊辛哈密顿量进行演化，演化得到的能量最优解即为蛋白质对应的最稳定构像。

在本发明提供的方法中，还具有这样的特征：其中，正四面体格点模型中所有晶格包括第一类格点A与第二类格点B，一个第一类格点A分别指向四个第二类格点B，并将该指向的方向采用预定的方式进行编码。

在本发明提供的方法中，还具有这样的特征，还包括：其中，正四面体格点模型中所有晶格包括第一类格点A与第二类格点B，四个第一类格点A分别指向一个第二类格点B，并将该指向的方向采用预定的方式进行编码。

在本发明提供的方法中，还具有这样的特征：其中，二进制氨基酸序列包括：

q＝11 00 q₁ q₂ q₃ q₄ …q(2N-7)q(2N-6)

1100为待处理氨基酸序列中前三个氨基酸的编码方式。

在本发明提供的方法中，还具有这样的特征：任一氨基酸在预定方向上的步长的表达式如下：

其中，

所述

所述

及所述

分别表示氨基酸j在预定方向a、b、c、d上的步长。

在本发明提供的方法中，还具有这样的特征：基于任一氨基酸在预定方向上的步长任一氨基酸在预定方向上的坐标的表达式示如下：

其中，氨基酸j在预定方向a的坐标a_j的表达式如下：

氨基酸j在预定方向b的坐标b_j的表达式如下：

氨基酸j在预定方向c的坐标c_j的表达式如下：

氨基酸j在预定方向d的坐标d_j的表达式如下：

在本发明提供的方法中，还具有这样的特征：其中，任意两个氨基酸之间的距离表示为氨基酸j与氨基酸k之间的距离D_jk，该D_jk的表达式及范围分别如下：

D_jk＝(a_j-a_k)²+(b_j-b_k)²+(c_j-c_k)²+(d_j-d_k)²

在本发明提供的方法中，还具有这样的特征：伊辛哈密顿量H₀(q)的表达式如下：

H₀(q)＝H_back(q)+H_olap(q)+H_pair(q)

其中，q为二进制氨基酸序列，H_back(q)用于惩罚氨基酸折返，H_olap(q)用于惩罚氨基酸重叠，H_pair(q)表示对应晶格上相邻的非键合氨基酸之间的相互作用。

在本发明提供的方法中，还具有这样的特征：其中，基于步长的表达式，H_back(q)的表达式如下：

λ_back为常数，

H_olap(q)的表达式如下：

g(k,j)表示是否引入松弛项，表达式如下：

γ_jk＝λ_olap[2^μjk-D_jk-α_jk]²，γ_jk表示修改后的松弛项为了避免松弛变量α_jk为负值，λ_olap为常数，α_jk表示氨基酸j与氨基酸k的松弛变量，该松弛变量的范围为0≤α_jk≤(j-k)²-1，μjk为每个松弛变量需要编码的量子比特数，并且该量子比特数μjk的表达式如下：μjk＝[2log2(k-j)]g(k,j)。

在本发明提供的方法中，还具有这样的特征：其中，H_pair(q)的表达式如下：

P_jk为第j个氨基酸与第k个氨基酸之间的非键和相互作用，

ω_jk代表是否引入非键合相互作用，该ω_jk的表达式如下：

发明的作用与效果

根据本发明所涉及的基于量子退火的蛋白质折叠方法，因为该方法将蛋白质折叠问题编码为可计算的优化问题(QUBO形式)，具体采用正四面体格点模型模拟氨基酸多肽链分子在三维空间中的构成，并定义编码后的二进制氨基酸序列中任一氨基酸在预定方向上的步长、坐标及任意两个氨基酸之间的距离，通过添加约束条件构建对应的伊辛哈密顿量，最后利用量子退火演化伊辛哈密顿量并得到最终的演化结果，即演化得到的能量最优解即为蛋白质对应的最稳定构像。因此该方法利用量子退火中的量子隧穿效应来解决上述蛋白质问题，可以大大压缩空间和时间复杂度，耗时少，具有广泛的应用前景。

附图说明

图1是本发明实施例中基于量子退火的蛋白质折叠方法的总流程图。

图2是本发明实施例中对应的正四面体格点模型的整体结构示意图。

图3是本发明实施例中对应的正四面体格点模型的两种编码方式的结构示意图。

图4是本发明的实施例中基于量子退火的蛋白质折叠装置的结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明基于量子退火的蛋白质折叠方法作具体阐述。

<实施例>

如图1所示，本发明实施例中基于量子退火的蛋白质折叠方法包括如下步骤：

步骤S1，将待处理氨基酸序列中的每一个氨基酸对应到正四面体格点模型的每一个格点上。

本实施例中，采用正四面体格点模型编码三维蛋白质结构，具体将正四面体格点模型的每一个格点对应到蛋白质结构的每一个氨基酸上，并假设任意两个相邻的氨基酸之间的距离相等，把肽链中的氨基酸按照0,1,2,···,N-1的顺序进行排列。

如图2所示，在本发明实施例提供的正四面体格点模型中，正四面体格点模型中所有晶格包括第一类格点A与第二类格点B。图2中颜色较深的为第一类格点A，颜色较浅的为第二类格点B，并且任意一个第一类格点A或第二类格点B分别与之不同类别的四个格点相连接。

步骤S2，根据正四面体格点模型的预定结构将待处理氨基酸序列编码为对应的二进制氨基酸序列

图3是本发明实施例中对应的正四面体格点模型的两种编码方式的结构示意图，图3a为正四面体格点模型中第一种编码方式的结构示意图，图3b为正四面体格点模型中第二种编码方式的结构示意图。

如图3a所示，一个第一类格点A分别指向四个第二类格点B并分别对应氨基酸上的五个氨基酸，本实施例中，规定待处理氨基酸序列(共N个氨基酸)中前三个氨基酸编码为1100，剩余氨基酸采用01或10进行编码。具体地，第j+2个氨基酸与第j+3个氨基酸之间的二进制编码为：q_2j-3q_2j-2(j＝2,3……N-2)，因此，含有N个氨基酸肽链的二进制编码为：

q＝11 00 q₁ q₂ q₃ q₄ …q(2N-7)q(2N-6)

并依次将11对应第一个氨基酸与第二个氨基酸转变为0，00对应第二个氨基酸与第三个氨基酸转变为1，q₁q₂对应第三个氨基酸与第四个氨基酸转变为2，按照同样的方式将含有N个氨基酸的肽链进行二进制编码，则q(2N-7)q(2N-6)对应第(N-1)个氨基酸与第N个氨基酸转变为N-2即得到编码后的二进制氨基酸序列。

如图3b所示，四个第一类格点A分别指向一个第二类格点B，并将该指向的方向采用预定的方式进行编码。本实施例中，第二种编码方式和第一种编码方式一样，在此不再赘述。

步骤S3，定义二进制氨基酸序列中任一氨基酸在预定方向上的步长、坐标及任意两个氨基酸之间的距离。

本实施例中，定义第j个氨基酸在预定方向(即a、b、c即d四个方向)上的步长包括：

本实施例中，在定义好的第j个氨基酸的步长的加上正负号即可表示具体方向。

本实施例中，基于定义的第j个氨基酸在预定方向(即a、b、c及d四个方向)上的步长，定义第j个氨基酸分别在a、b、c及d四个方向的坐标。

其中，氨基酸j在预定方向a的坐标a_j的表达式如下：

氨基酸j在预定方向b的坐标b_j的表达式如下：

氨基酸j在预定方向c的坐标c_j的表达式如下：

氨基酸j在预定方向d的坐标d_j的表达式如下：

本实施例中，基于上述定义的第j个氨基酸在预定方向的坐标a_j、b_j、c_j、及d_j，则任意两个氨基酸(第j个氨基酸与第k个氨基酸)之间的距离为：

D_jk＝(a_j-a_k)²+(b_j-b_k)²+(c_j-c_k)²+(d_j-d_k)²

并且D_jk的取值范围如下：

本实施例中，在金刚石的晶格结构中的晶格沿同一方向步行两次之间必须有一次指向别的方向(即无法连续向同一个方向步行两次)。

步骤S4，基于二进制氨基酸序列构建伊辛哈密顿量。

本实施例中，基于步骤S2编码得到的二进制氨基酸序列，构建总的伊辛哈密顿量，且总的伊辛哈密顿量H₀(q)的表达式如下：

H₀(q)＝H_back(q)+H_olap(q)+H_pair(q)

具体地，当肽链的二进制编码中出现两个连续相同编码的氨基酸时，通过构建H_back(q)惩罚氨基酸折返，具体表达式如下：

其中，λ_back为已知的常数，可根据具体情况进行调解。

为第1个氨基酸在a方向上的步长，

为第i个氨基酸在a方向上的步长，

为第i+1个氨基酸在a方向上的步长。

具体地，当肽链经历多个步长后与前面的氨基酸重叠时，则构建用于惩罚氨基酸重叠的伊辛哈密顿量H_olap(q)的表达式如下：

其中g(k,j)表示是否引入松弛项，该表达式如下：

其中，γ_jk＝λ_olap[2^μjk-D_jk-α_jk]²，γ_jk表示修改后的松弛项为了避免松弛变量α_jk为负值，λ_olap为常数，α_jk表示氨基酸j与氨基酸k的松弛变量，该松弛变量α_jk的范围为0≤α_jk≤(j-k)²-1，μjk为每个松弛变量需要编码的量子比特数，并且该量子比特数μjk的表达式如下：μjk＝[2log2(k-j)]g(k,j)。

本实施例中构建的晶格上相邻的非键合氨基酸之间的相互作用的伊辛哈密顿量H_pair(q)的表达式如下：

其中，P_jk为第j个氨基酸与第k个氨基酸之间的非键和相互作用，ω_jk代表是否引入非键合相互作用，并且该ω_jk的表达式如下：

步骤S5，利用量子退火机对上述构建好的伊辛哈密顿量进行演化，演化得到的能量最优解即为蛋白质对应的最稳定构像。

图4是本发明实施例中基于量子退火的蛋白质折叠装置的结构示意图。

如图4所示，发明实施例中基于量子退火的蛋白质折叠装置100包括待处理氨基酸序列映射模块101、二进制氨基酸序列编码模块102、二进制氨基酸序列条件约束模块103、伊辛哈密顿量构建模块104以及蛋白质对应的最稳定构像获取模块105。

待处理氨基酸序列映射模块101采用步骤S1的方法将待处理氨基酸序列中的每一个氨基酸映射到正四面体格点模型的每一个格点上。

二进制氨基酸序列编码模块102采用步骤S2的方法根据正四面体格点模型的预定结构将待处理氨基酸序列编码为对应的二进制氨基酸序列。

二进制氨基酸序列条件约束模块103采用步骤S3的方法定义二进制氨基酸序列中任一氨基酸在预定方向上的步长、坐标及任意两个氨基酸之间的距离。

伊辛哈密顿量构建模块104采用步骤S4的方法基于二进制氨基酸序列构建伊辛哈密顿量。

蛋白质对应的最稳定构像获取模块105采用步骤S5的方法利用量子退火机对伊辛哈密顿量进行演化，演化得到的能量最优解即为蛋白质对应的最稳定构像。

实施例的作用与效果

根据本实施例所涉及的基于量子退火的蛋白质折叠方法，因为该方法将蛋白质折叠问题编码为可计算的优化问题(QUBO形式)，具体采用正四面体格点模型模拟氨基酸多肽链分子在三维空间中的构成，并定义编码后的二进制氨基酸序列中任一氨基酸在预定方向上的步长、坐标及任意两个氨基酸之间的距离，通过添加约束条件构建对应的伊辛哈密顿量，最后利用量子退火演化伊辛哈密顿量并得到最终的演化结果，即演化得到的能量最优解即为蛋白质对应的最稳定构像。因此该方法利用量子退火中的量子隧穿效应来解决上述蛋白质问题，可以大大压缩空间和时间复杂度，耗时少，具有广泛的应用前景。

进一步地，对于存储有计算机程序的存储介质，该计算机程序可以被设置为运行时执行本实施例提供的基于量子退火的蛋白质折叠方法。

进一步地，对于包含存储器和处理器的电子产品，该存储器中存储有计算机程序，并且该处理器被设置为运行其存储的计算机程序以执行本实施例提供的基于量子退火的蛋白质折叠方法。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。