CN114694744A

CN114694744A - 蛋白质结构预测

Info

Publication number: CN114694744A
Application number: CN202011623825.0A
Authority: CN
Inventors: 王童; 邵斌; 刘铁岩
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-07-01
Also published as: EP4272215A1; US20240006017A1; WO2022146631A1

Abstract

根据本公开的实现，提供了蛋白质结构预测的方案。根据该方案，获取针对目标蛋白质的约束集，约束集包括针对目标蛋白质的多个结构属性的多个约束。提取多个约束各自的特征信息，并基于多个约束的特征信息来确定多个约束各自对应的多个权重。每个权重指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度。基于约束集中的多个约束和多个权重来预测目标蛋白质的结构。根据该方案，通过对所使用的约束的预处理，可以解决约束集中的潜在冲突，并消除约束的冗余性。这有利于对目标蛋白质的结构的准确预测。

Description

蛋白质结构预测

背景技术

蛋白质是由氨基酸残基的长链组成的生物分子或大分子。蛋白质在生物体内执行许多重要的生命活动，并且蛋白质的功能主要由其三维(3D)结构决定。了解蛋白质结构有助于了解蛋白质的作用，了解蛋白质之间的相互作用，了解蛋白质如何行使其生物功能等。这对医学和生物技术领域是非常重要的。例如，如果某个蛋白质在某个疾病中起关键作用，可以基于该蛋白质的结构来设计药物分子，以治疗该疾病。

当前普遍通过实验手段来研究蛋白质结构。然而，通过实验手段来确定蛋白质的结构非常耗时耗力。相比于自然界中已有的蛋白质数目，目前以实验手段确定出的结构的蛋白质的数目很少。因此，低成本、高产出的蛋白质结构预测是当前蛋白质结构研究的重点。

发明内容

根据本公开的实现，提出了一种用于预测蛋白质结构的方案。在该方案中，获取针对目标蛋白质的约束集，约束集包括针对目标蛋白质的多个结构属性的多个约束。提取多个约束各自的特征信息，并基于多个约束的特征信息来确定多个约束各自对应的多个权重。每个权重指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度。基于约束集中的多个约束和多个权重来预测目标蛋白质的结构。根据该方案，通过对所使用的约束的预处理，可以解决约束集中的潜在冲突，并消除约束的冗余性。这有利于对目标蛋白质的结构的准确预测。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了蛋白质的结构属性的示意图；

图3示出了蛋白质的原子的示例空间坐标表示系统的示意图；

图4示出了根据本公开的一些实现的蛋白质结构预测系统的框图；

图5A和图5B示出了根据本公开的一些实现的针对结构属性的约束的示例；

图6示出了根据本公开的另一些实现的蛋白质结构预测系统的框图；

图7示出了根据本公开的另一些实现的蛋白质结构预测系统的框图；

图8示出了根据本公开的一些实现的在迭代过滤前和过滤后约束集中的约束之间的冲突和冗余的示例比较；

图9示出了根据本公开的一些实现的在具有遗传初始化和不具有遗传初始化的迭代蛋白质结构预测的示例比较；以及

图10示出了根据本公开的一个实现的蛋白质结构预测过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代，直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在使用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

蛋白质的结构通常分为多个层级，包括初级结构、二级结构、三级结构等。初级结构是指氨基酸的排列顺序，即氨基酸序列。二级结构是指主链原子沿着一定的轴形成的特定构象，包括但不限于α螺旋、β折叠、卷曲等。三级结构是指蛋白质在二级结构的基础上通过进一步的盘绕、折叠而形成的三维(3D)空间结构。蛋白质片段(也简称为“片段”)包括排布成三维空间结构的多个氨基酸残基。肽是一种蛋白质片段，其包括通过肽键相连的两个或两个以上的氨基酸。

如前文所提及的，蛋白质的结构主要影响了其功能，并且蛋白质结构预测，特别是对于三级结构的预测，已成为研究蛋白质结构的重要手段。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括预测模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。预测模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们也可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多个实现中的蛋白质结构预测。在本公开的多个实现中，蛋白质结构预测基于对待预测的蛋白质(称为“目标蛋白质”)的结构属性的多个约束。如图1所示，计算设备100可以通过输入设备150接收针对目标蛋白质的结构的约束集170。约束集170可以包括目标蛋白质的结构属性的多个约束。

计算设备100，例如计算设备100中的蛋白质结构预测模块122，可以基于多个约束来执行对目标蛋白质的结构的预测，提供与目标蛋白质的结构有关的预测结果180。预测结果180指示目标蛋白质的空间结构(例如3D空间结构)。例如，预测结果180可以包括目标蛋白质中的主要原子的空间坐标表示。

尽管在图1的示例中，计算设备100从输入设备150接收输入约束集170并且由输出设备160提供预测结果180，但这仅是示意性的而无意限制本公开的范围。计算设备100还可以经由通信单元140从其他设备(未示出)接收输入约束集170，和/或经由通信单元140对外提供预测结果180。

蛋白质的结构属性和空间坐标表示

如前文所提及的，蛋白质结构预测所需的输入是关于目标蛋白质的结构属性的约束信息，并且所预测的结构可以由蛋白质的原子的空间坐标表示。为了更好地理解本公开的实现，现在参考图2和图3来分别介绍蛋白质的结构属性和空间坐标表示。

图2示出了蛋白质的一个片段200的结构，其包括多个残基210、220和230。蛋白质的每个残基包括主链上的N原子、Cα原子、C原子以及侧链上的Cβ原子、O原子等。

蛋白质的结构属性可以包括多个残基之间的残基间距离。残基间距离可以包括两个残基中相同类型的原子之间的距离，例如Cα-Cα距离、Cβ-Cβ距离。Cα-Cα距离是指成对的Cα-Cα原子之间的距离(也称为残基间Cα距离)。Cα-Cα距离可以包括相邻的一对Cα原子之间的距离或者任意不相邻的Cα原子对之间的距离，例如图2中Cα原子211、221和231中的任意两个Cα原子之间的距离。Cβ-Cβ距离是指成对的Cβ-Cβ原子之间的距离(也称为残基间Cβ距离)。Cβ-Cβ距离可以包括相邻的一对Cβ原子之间的距离或者任意不相邻的Cβ原子对之间的距离，例如图2中Cβ原子212、222和232中的任意两个Cβ原子之间的距离。

蛋白质的结构属性可以还包括多个残基之间的残基间取向(orientation)。残基间取向可以包括两个残基中多个原子之间的角度，例如图2中所示的扭转角

和ω，主干角θ和τ，等。扭转角

是指针对N-Cα化学键的二面角。扭转角ω是指针对C-N化学键的二面角。例如，对于残基220和210，扭转角

是N原子224与Cα原子221之间的化学键的二面角。对于残基220和230，扭转角ω是C原子223与N原子234之间的化学键的二面角。主干角θ是指针对相邻残基的Cα-Cα-Cα化学键的二面角。主干角τ是指针对相邻残基的Cα-Cα化学键的二面角。例如，对于残基220，主干角θ是它的Cα原子221与相邻残基210和230中的Cα原子211和231所形成的三角形在Cα原子221处的夹角，主干角τ是Cα原子221与Cα原子231(或211)之间的连线的二面角。

蛋白质的结构属性还可以包括蛋白质的原子之间的其他取向。例如，结构属性还可以包括如图2中所示的残基内的扭转角ψ。扭转角ψ是指针对残基内的Cα-C化学键的二面角。例如，对于残基220，扭转角ψ是Cα原子221与C原子223之间的化学键的二面角。此外，蛋白质的结构属性还可以包括主链上的连续原子之间的键长和键角。键长可以包括每个残基的N-Cα原子、Cα-C原子、C-N原子之间的键长。键角可以包括每个残基的N-Cα-C原子、Cα-C-N原子、C-N-Cα原子之间的键角，等等。

蛋白质的3D结构可以被表示为蛋白质中每个残基的坐标表示。在预测蛋白质的结构时，可以确定蛋白质中每个残基的主要原子(例如，Cα原子或Cβ原子)的空间坐标表示。主要原子的空间坐标表示可以包括用于描述主要原子的空间位置的坐标参数和取向参数。

图3示出了蛋白质的原子(Cα原子或Cβ原子)的示例空间坐标表示系统300。原子的空间位置可以由空间坐标表示系统300中的笛卡尔坐标系(x,y,z)的三个坐标参数来表示。原子的取向可以由欧拉角的三个坐标参数(α,β,γ)来表示。

欧拉角是在空间中描述从用于表示某个固定参考系(例如图3中的坐标系(x,y,z))的已知方向，经过一系列基本旋转得到的新的代表另一个参考系(例如图3中的坐标系(X,Y,Z))的方向的方式。交轨线(N)是xy和XY坐标平面相交处的一条线。在欧拉角的三个坐标参数(α,β,γ)中，α指示的x轴和N轴之间的角度，β指的是z轴和Z轴之间的角度，γ指的是N轴和X轴之间的角度。

在预测蛋白质的结构时，如果一个残基的Cα原子或Cβ原子的空间坐标表示(例如，参数(x,y,z)和(α,β,γ))确定后，可以基于该Cα原子或Cβ原子的空间坐标表示来分别确定同一残基中的其他原子，包括N原子、C原子、O原子以及Cα和Cβ中另一个原子的空间坐标表示。

应当理解，以上仅给出了用于描述蛋白质的空间结构的一个示例。还可以存在其他空间结构的表示方式，本公开的实现在此方面不受限制。

基本工作原理

在蛋白质结构预测中，已经存在很多技术能够确定蛋白质的各个结构属性的预测信息，例如蛋白质的残基间距离和残基间取向。所获得的预测信息通常是关于特定结构属性在一定属性值范围内的概率分布信息。在给定蛋白质的结构属性的预测信息基础上，如何有效利用这些信息来折叠出蛋白质的3D空间结构(即，三级结构)是更有挑战的任务。

当前也提出了关于蛋白质的一些结构预测模型，用于将蛋白质的多个结构属性的预测信息作为多个约束来预测蛋白质的结构，以使所预测的结构属性满足约束。通常，这些结构预测模型将针对多个结构属性的所有约束直接作为模型输入，并且在结构预测过程中对所有约束都同等对待。

然而，对蛋白质的结构属性的预测信息并不是完全精确的，例如可能只能获得特定结构属性在一定属性值范围内的概率分布信息，因此不同结构属性的预测信息内或者不同结构属性的预测信息之间可能存在冲突或冗余。此外，由于残基间距离和残基间取向从不同角度来描绘蛋白质的结构，这也容易导致这些信息中的一些信息在蛋白质结构预测中是冗余的，甚至可能会导致冲突。

举一个简单例子。对于三角形，其结构可以由一个顶角和两条边长来确定，这意味着在预测三角形的结构时其他信息是冗余的。此外，冗余信息还可能带来冲突。例如，在给定两个顶角和两条边长时，由一个顶角和两条边长所组成的三角形可能不符合给定的另一顶角。类似于三角形的例子，在蛋白质结构预测过程中，不完全正确的预测信息的冲突和冗余会影响到蛋白质结构的优化。一方面，对于同一个残基的多个彼此冲突的预测信息可能会将优化推到不同方向。另一方面，不同残基之间的冲突和冗余预测信息可能会使得目标蛋白质的能量图景高低不平，从而无法有效优化。

根据本公开的实现，提出了一种改进的蛋白质结构预测的方案。根据该方案，在利用针对目标蛋白质的多个结构属性的约束集来执行预测时，对约束集执行处理。具体地，基于输入的约束集中多个约束的特征信息来确定多个约束各自的权重。每个权重指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度。基于多个约束和多个权重来预测目标蛋白质的结构。

在该方案中，提出了在利用约束集执行预测之前对约束的预处理，为多个约束确定的权重将决定该约束在多大程度上将影响蛋白质的结构的预测。例如，对于权重较小的约束，在预测蛋白质的结构时可以不考虑或者对结构的优化过程影响较低。对于权重较大的约束，期望所预测的蛋白质的结构中的结构属性应尽量满足该约束。通过对所使用的约束的预处理，可以解决约束集中的潜在冲突，并消除约束的冗余性。这有利于对目标蛋白质的结构的准确预测。

在一些实现中，通过指派权重来处理约束之外或者作为备选，还可以通过多次迭代的方式来预测蛋白质的结构，并且在每次迭代中随机丢弃一部分约束。

在一些实现中，还提出以迭代优化的方式来执行对目标蛋白质的结构的预测。在一些实现中，前一次迭代中产生的较好预测结构可以被用于引导下一次迭代中的结构的预测。在一个实现中，前一次迭代中产生的较好预测结构可以被用于从约束集中过滤出下一次迭代中使用的约束，从而实现以自适应方式实现动态约束过滤。在一个实现中，前一次迭代中产生的较好的预测结构还可以被用于初始化下一次迭代中要优化的目标蛋白质的结构。相比于在每次优化时均随机初始化目标蛋白质的结构，将前一次迭代中较好的预测结构“遗传”到下一次迭代可以更好地提升结构预测的准确性。

下文将参考图4至图10来更详细描述本公开的一些示例实现。

示例架构和约束处理的示例实例

图4示出了根据本公开的一些实现的蛋白质结构预测系统400的框图。蛋白质结构预测系统400可以被实现在计算设备100中，例如可以被包括在计算设备100的蛋白质结构预测模块122中。在图4的示例中，系统400包括约束处理模块410和结构预测模块420。系统400被配置为基于输入的针对目标蛋白质的约束集170来确定对目标蛋白质的结构的预测结果180。

约束集170包括针对目标蛋白质的多个结构属性的多个约束。多个结构属性可以包括关于目标蛋白质的不同类型的结构属性。在一些实现中，要考虑的结构属性包括组成目标蛋白质的多个残基的残基间距离和残基间取向。例如，残基间距离可以包括目标蛋白质中成对残基的Cα-Cα原子之间的距离，和/或Cβ-Cβ原子之间的距离。残基间取向可以包括目标蛋白质中成对残基中的多个原子之间的角度，扭转角

和ω，主干角θ等。结构属性还可以包括目标蛋白质的残基之间或者残基内的其他属性，例如其他距离或角度等。

约束集170中的每个约束可以指示针对对应结构属性的属性值的预测信息。由于目标蛋白质可能由多个残基构成，对于每个结构属性，可以存在多个约束。例如，对于Cβ-Cβ原子之间的距离，约束集170可以包括目标蛋白质的多个残基对的Cβ-Cβ原子之间的距离。又例如，对于扭转角

和ω和主干角θ中的每个角度，约束集170也可以分别包括针对多个残基对分别确定的多个角度。通常，可以通过对于目标蛋白质的结构属性的各种分析技术来预测结构属性的属性值。例如，基于从多序列比对(multiple sequence alignment，MSA)分析得出的序列信息和共进化信息，来确定约束集170中的各个约束。MSA指的是对蛋白质的三个以上的生物学序列，如蛋白质序列、DNA序列或RNA序列执行的序列比对。由当前可用或将来开发出的结构属性预测技术或方案所产生的预测信息均可以被用作约束集来实现蛋白质结构预测。

取决于所使用的结构属性的预测技术，约束集170中的一个或多个约束所指示的预测信息可能不是关于对应结构属性的准确属性值，而是该结构属性的属性值的概率分布信息。概率分布信息可以包括该属性值在一个属性值范围内的概率。例如，对于目标蛋白质中的两个残基中Cα-Cα原子之间的距离，对应概率分布信息可以包括其在一个距离范围内的各个离散距离中的概率。举例而言，距离范围可以被划分为10个距离区间，概率分布信息包括每个距离区间是该Cα-Cα原子之间的真实距离的概率。

在预测蛋白质结构时，约束集170中的约束用于帮助约束要预测的目标蛋白质的结构，使该结构的结构属性应尽可能满足约束集170中的约束。如以上讨论的，所获得的约束集170中的约束之间可能存在冲突或冗余，因此期望在使用之前先处理这些约束。图4的系统400包括约束处理模块410，其被配置为处理约束集170以提供用于结构预测模块420所使用的约束。

如图4所示，约束处理模块410包括约束权重确定模块412，其被配置为评估约束集170中的各个约束的质量，以确定每个约束对应的权重。该权重用指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度。例如，每个约束可以被指派从0到1区间的质量得分，其中1指示该约束质量最高并且可以被指派更高的权重，而0指示该约束质量最低，其可能被指派更低的权重或者不会被选择用于预测目标蛋白质的结构(例如其权重被设置为0)。

在确定约束的权重时，约束权重确定模块412可以提取约束集170中各个约束的特征信息。约束权重确定模块412可以利用约束质量分析模型416，基于所提取的特征信息来确定约束各自的质量得分。约束的质量得分可以用于确定该约束的权重。

通常，期望在结构预测中使用高质量的约束，其中高质量可以体现在该约束是准确的，与其他约束不会产生冲突，并且不是冗余的。约束的质量可以由该约束本身的特征体现。例如，如果一个约束指示对应结构属性的属性值的概率分布信息，那么概率分布信息对应的分布的形状可能一定程度上会体现对属性值的预测是否准确。例如，对结构属性的属性值的准确预测通常具有比较尖锐形状的概率分布，其中存在明显的波峰。不太好的预测通常具有扁平分布，每个区间中的概率类似。

图5A和图5B分别示出了针对结构属性的约束的两个示例。在这两个示例中，约束由结构属性的属性值的概率分布来指示。该结构属性的正确属性值均位于概率分布中条形块5对应的属性值区间。在图5A的示例中，约束所指示的概率分布510具有显著的峰值，其中条形块5的概率显著高于其他条形块的概率。因此，如果被应用于预测蛋白质的结构，条形块5对应的属性值区间更容易被应用于影响蛋白质的结构的预测。在图5B的示例中，概率分布520的各个条形块的概率类似。条形块0的概率比其他条形块的概率(包括条形块5的概率)更大，因而其对应的属性值区间更容易被应用于影响蛋白质的结构的预测。在图5A和图5B的示例的对比中，概率分布510可以被认为质量更好。

在一些实施例中，约束权重确定模块412在提取特征信息时，可以从约束提取能够指示约束的质量的一个或多个方面的特征。当然，在约束由概率分布信息表示的示例中，概率分布的形状仅是可能说明约束的质量的一种特征信息。约束的其他方面的特征信息也可以影响到约束的质量，进而影响到其权重的确定。

在一些实现中，如果约束集170中的一个约束由概率分布信息指示，所提取的特征信息可以包括与概率分布相关的特征信息，例如以下中的一项或多项：概率分布中的最高概率，概率分布中具有最高概率的条形块的中值，概率分布中最高概率与最低概率之间的差异，概率分布中最高概率与其相邻左条形块的概率之间的差异，最高概率与其相邻右条形块的概率之间的差异，最高概率与次高概率之间的差异，具有最高概率的条形块的中值与次高概率的条形块的中值之间的差异，等等。

在一些实现中，如果约束指示的结构属性是蛋白质的成对残基的残基间距离或残基间取向，还可以提取与这对残基相关的特征信息。例如这对残基在二级结构上的序列间隔，由目标蛋白质的长度归一化后的序列间隔，等等。

约束质量分析模型416可以被定义为机器学习模型或深度学习模型(例如，神经网络)，以处理针对约束集170中每个约束提取的特征信息。对于每个约束，所提取的多种特征信息可以组合在一起作为约束质量分析模型416的输入。约束质量分析模型416的输出为约束的质量得分，例如为从0到1之间的取值。

作为一个示例，约束质量分析模型416可以包括顺序连接的多个全连层(FC)，每个FC层包括一个或多个处理节点，每个处理节点被配置为相应的激活函数。例如，前几个FC层可以包括多个处理节点，其激活函数可以被选择为非线性激活函数，例如ReLU函数。最后一个FC层可以包括单个处理节点，其激活函数例如可以被选择为sigmoid函数，以提供归一化的模型输出。应当理解，这里仅提供了约束质量分析模型416的一个示例结构。其他模型结构也是可行的。

在一些实现中，约束质量分析模型416可以基于蛋白质的已知结构中的多个结构属性的真实属性值来被训练。当前已经通过实验室手段确定出一定数量的蛋白质的真实结构。这些蛋白质结构可以作为训练数据用于训练约束质量分析模型416。例如，CASP12蛋白质数据库提供了可用于模型训练的训练集和测试集。在训练约束质量分析模型416，对于结构已知的蛋白质，可以获取该蛋白质的多个结构属性的多个约束(例如，概率分布信息)，并基于多个约束对应的结构属性的真实属性值来标注质量得分。

对约束的标注可以遵循一些准则。如果约束指示对应结构属性的属性值的概率分布信息，对概率分布中的每个属性值区间进行标注。例如，对于表示残基间距离的概率分布信息中一个大于

(埃米，Angstrom)的条形块，(1)如果在该条形块中，天然(native)距离大于

并且在概率分布中该条形块的概率大于0.9，该约束被标注有质量得分1；(2)如果天然距离小于

并且在概率分布中该条形块的概率大于0.9，那么该约束被标注有质量得分0；(3)如果在概率分布中该条形块的概率小于0.9，那么该条形块被丢弃，并且概率分布中的其他条形块的概率被重新归一化。在重新归一化后，基于重新归一化后的概率分布来计算该残基间距离的期望值。如果期望值与真实距离之间的差异大于

该约束被标注有质量得分0，否则，该约束的质量得分可以基于下式来计算：

其中E表示重新归一化后的概率分布的期望值，G表示天然距离。在这里，“天然距离”指的是该残基间距离的真实属性值，其可以从蛋白质的已知结构中确定。

在训练所使用的约束以及约束的标注被确定的情况下，可以利用模型训练技术来训练约束质量分析模型416，使其学习到如何基于所提取的约束的特征信息来确定约束的质量得分。这里不限制所采用的具体模型训练技术。

以上讨论的示例实现描述了通过约束质量分析模型416来确定约束集170中多个约束的质量得分。质量得分进而影响约束集170中多个约束的权重的确定。在一些实现中，约束集170中的一个或多个约束的质量得分或者权重还可以由用户手动指示。

多个约束的权重被提供给结构预测模块420，以用于影响相应约束在用于预测目标蛋白质的结构时对预测的影响。结构预测模块420使用约束集170中的多个约束，并且基于所使用的约束的权重，来确定目标蛋白质的结构的预测结果180。

在一些实现中，结构预测模型420在预测目标蛋白质的结构时可以通过一个迭代过程来不断优化目标蛋白质的结构。在每次迭代中，结构预测模型420可以基于约束集170中的约束来生成目标蛋白质的至少一个预测结构，并且基于多次迭代中生成的多个预测结构来确定所述目标蛋白质的目标结构。

在迭代优化的示例实现中，约束处理模块410还可以包括约束丢弃模块414，其被配置为在对目标蛋白质的迭代预测过程中，在每一次迭代中都从原始的约束集170的全部约束中随机丢弃(dropout)一部分约束，以获得简化约束集。在这样的实现中，结构预测模型420在每次迭代中使用的约束不是原始的约束集170，而是简化约束集。

丢弃是在深度神经网络的模型训练中经常被用于防止过度拟合的一种操作。丢弃操作指的是在训练过程中，随机让网络中某些隐含层的处理节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但那些节点的权重得保留下来(只是暂时不更新)，在下一次样本输入时那些节点可能又会工作。

在本公开的一些实现中，在对目标蛋白质的结构的迭代优化过程中，通过随机丢弃一部分约束，可以在每一次迭代中利用不同约束子集的约束来预测蛋白质，从而能够缓解或避免约束集170中的约束冲突。在一些实现中，在每次迭代中丢弃的约束的比例可以是预定的，例如30％，20％等。在一些实现中，对于约束集170中不同类型的结构属性的约束，约束丢弃模块414可以单独应用约束的丢弃，从而避免从不同方面的约束的冲突。

在一些实现中，经过多次迭代中，结构预测模型420可以从最后一次迭代生成的目标蛋白质的预测结构中确定目标蛋白质的最终目标结构。在一些实现中，结构预测模型420在每次迭代中可以使用针对目标蛋白质的不同残基的约束，而由约束丢弃模块414从约束集170中丢弃其他残基约束。这样，结构预测模型420在每次迭代中生成的预测结构仅表示目标蛋白质的部分结构，即有约束的那些残基的折叠结构。在多次迭代之后，结构预测模块420可以将在多次迭代中针对目标蛋白质的全部残基确定的折叠结构进行组合，从而得到目标蛋白质的最终目标结构。

如以上提及的，目标蛋白质的结构可以由主要原子，例如Cα原或Cβ原子的空间坐标表示来指示，其他原子的空间坐标表示可以由Cα原或Cβ原子的空间坐标表示推导。因此，结构预测模块420执行结构预测时要确定Cα原或Cβ原子的空间坐标表示。结构预测模块420可以先初始化Cα原或Cβ原子的空间坐标表示，并不断优化Cα原或Cβ原子的空间坐标表示，以使得最终的预测结构符合所使用的约束。结构预测模块420可以利用各种蛋白质结构预测技术来执行预测。

在执行结构预测时，结构预测模块420可以通过构造与约束集170中所针对的多个结构属性(例如，不同类型的残基间距离和不同类型的残基间角度)分别对应的势能函数，并基于这些势能函数来优化目标蛋白质的结构。利用目标蛋白质的结构属性的约束所构建的势能函数是特定于目标蛋白质的，因此也被称为“蛋白质特定势能函数”。

例如，如果约束集170包括针对相邻残基的Cβ-Cβ原子之间的距离、扭转角

和ω和主干角θ的相应约束，那么结构预测模块420可以生成与这些结构属性分别对应的四个蛋白质特定势能函数。在每个蛋白质特定势能函数中，针对目标蛋白质的对应结构属性的一组约束被加权组合，每个约束的权重是由权重约束确定模块412确定的。例如，对于目标蛋白质的Cβ-Cβ原子之间的距离，可以利用约束集170中给出的多个Cβ-Cβ原子之间的距离来生成蛋白质特定势能函数。在迭代优化的实现中，每次迭代中使用的约束可能不同，那么相应的势能函数也可以基于所使用的约束及其权重来生成。

在一些实现中，蛋白质特定势能函数的生成基于约束集170的所有约束。在迭代优化的实现中，对于每次迭代，蛋白质特定势能函数的生成可以基于由约束丢弃模块414对约束集170中的约束执行丢弃后获得的简化约束集。

结构预测模块420可以利用当前已经定义的或将来定义的任何势能函数。在一些实现中，如果约束指示概率分布信息，概率分布中最后一个条形块的概率可以被选择为参考态。结构预测模块420可以计算概率分布中的每个条形块的概率与参考态之间的对数比率值，并通过三次样条差值(cubic spline interpolation)来将对数比率值转换成连续可微的势能。在其他实现中，结构预测模块420还可以通过其他方式来构造势能函数。

在确定分别与多个结构属性对应的蛋白质特定势能函数之后，结构预测模块420可以基于所确定的蛋白质特定势能函数，确定用于预测蛋白质结构的结构预测模型的目标函数。该目标函数可以包括多个蛋白质特定势能函数的组合，或者是它们的加权组合。在目标函数中蛋白质特定势能函数的权重可以被视为超参数，并且可以在参考蛋白质数据集(诸如，CASP12FM)上被调整，参考数据集包括结构已知的参考蛋白质的信息。

结构预测模块420可以利用结构预测模型来确定目标蛋白质的结构。结构预测模型可以被配置为使目标函数达到收敛目标来确定目标蛋白质的结构，以使所确定的结构的多个结构属性满足蛋白质特定势能函数中所使用的约束。收敛目标可以是使得目标函数最小化或降低到预期水平。例如，结构预测模型可以是基于梯度下降的蛋白质折叠框架，通过多个优化步骤不断达到收敛目标。

蛋白质结构的二级优化的示例实现

基于蛋白质特定势能函数优化得到的结构可以符合约束集170中对目标蛋白质的结构属性的约束。然而，本申请的发明人发现，基于这样的势能函数生成的一些结构可能在生物物理学上是不合理的，不符合蛋白质的基本几何结构属性。

在一些实现中，提出了对蛋白质结构的二级优化方案。在第一阶段的优化中，基于蛋白质特定势能函数来生成目标蛋白质的多个中间预测结构，并且在第二阶段的优化中，利用蛋白质的几何结构势能函数来调整第一阶段中获得的多个中间预测结构，以使得最终的结果在生物物理学上是合理的。第二阶段所使用的几何结构势能函数基于蛋白质的基本几何结构的至少一个约束。

图6示出了根据本公开的另一些实现的蛋白质结构预测系统400的框图。在图6的示例中，结构预测模块420被配置为执行蛋白质结构的二级优化过程。

如图6所示，结构预测模块420包括二级优化模块610，其包括第一阶段优化模块612和第二阶段优化模块614。二级优化模块610还可以包括结构初始化模块630，其为第一阶段优化模块612提供一个或多个初始结构用于执行优化。结构预测模块420还包括蛋白质特定势能函数生成模块620，其被配置为基于约束集170中的多个约束及其权重来生成与多个结构属性分别对应的多个蛋白质特定势能函数。蛋白质特定势能函数的生成在上文已描述，不再赘述。

此外，结构预测模块420还包括几何结构势能函数生成模块640，其被配置为生成一个或多个几何结构势能函数，用于约束目标蛋白质的几何结构，从而使得预测得到的结构是在生物物理学上合理的结构，符合蛋白质的基本几何结构属性的一个或多个约束。这里所使用的对于蛋白质的基本几何结构属性的一个或多个约束不是特定于要预测的目标蛋白质，而是从生物物理学的角度来看蛋白质的几何结构一般需要满足的。

在一些实现中，为了使预测的蛋白质结构更符合基本几何结构属性，几何结构势能函数生成模块640要考虑的基本几何结构属性可以包括以下至少一项：相邻Cα原子之间的成对距离、Cα原子之间的序列间隔，肽键的长度，残基的O原子与下一个残基中的N原子之间的距离，残基的O原子与所述残基的下一个残基中的Cα原子之间的距离，以及任一原子对(包括Cα原子、Cβ原子、N原子、O原子、C原子等)之间的距离与这两个原子的半径之和之间的差异等等。

几何结构势能函数生成模块640可以获得已知蛋白质的天然肽的一个或多个基本几何结构属性的属性值，并且将所获得的属性值作为对这些基本几何结构属性的约束。几何结构势能函数生成模块640可以基于对基本几何结构属性的约束来生成几何结构势能函数。

在一些实现中，几何结构势能函数生成模块640可以生成以下式(2)至式(7)中的第一几何结构势能函数至第六几何结构势能函数中的至少一个。

其中p₁表示第一几何结构势能函数，d_Cα表示为目标蛋白质结构预测的结构中的相邻Cα原子之间的成对距离，

是从天然肽中确定的相邻Cα原子之间的成对距离的统计值。

其中p₂表示第二几何结构势能函数，(i-j)表示目标蛋白质结构预测的结构中的Cα原子之间的序列间隔。

其中p₃表示第三几何结构势能函数，L_p表示为目标蛋白质结构预测的结构中的肽键的长度，

是天然肽键的长度的统计值。

其中p₄表示第四几何结构势能函数，d_N-O表示为目标蛋白质结构预测的结构中残基的O原子与下一个残基中的N原子之间的距离，

是天然肽键中残基的O原子与下一个残基中的N原子之间的距离的统计值。

其中p₅表示第五几何结构势能函数，d_O-Ca表示目标蛋白质结构预测的结构中残基的O原子与下一个残基中的Cα原子之间的距离，

是天然肽键中残基的O原子与下一个残基中的Cα原子之间的距离的统计值。

p₆＝|d-(r₁+r₂)| (7)

其中p₆表示第六几何结构势能函数，d表示目标蛋白质结构预测的结构中任一原子对(包括Cα原子、Cβ原子、N原子、O原子、C原子等)之间的距离，r₁和r₂分别表示这两个原子的半径。

应当理解，以上仅给出了几何结构势能函数的一些示例。在其他实现中，还可以考虑更多或更少的几何结构属性，并且可以构造更多、更少或不同的几何结构势能函数。

在二级优化模块610中，几何结构势能函数用于第二阶段优化，而蛋白质特定势能函数在第一阶段和第二阶段优化中均被使用。具体地，第一阶段优化模块612基于来自蛋白质特定势能函数生成模块620的多个蛋白质特定势能函数来生成目标蛋白质的一个或多个中间预测结构。基于多个蛋白质特定势能函数的结构预测如上文所描述的。第一阶段优化模块612可以通过组合多个蛋白质特定势能函数来确定第一阶段优化的目标函数(称为“第一目标函数”)，并且通过使第一目标函数达到收敛目标来确定目标蛋白质的一个或多个预测结构。多个预测结构有助于更好地采样蛋白质的构想空间。在第一阶段优化中生成的预测结构的多个结构属性满足多个蛋白质特定势能函数中所使用的约束。

第一阶段优化模块612生成的一个或多个优化结构被提供给第二阶段优化模块614。第二阶段优化模块614可以基于来自几何结构势能函数生成模块640的一个或多个几何结构势能函数来确定另一个目标函数(称为“第二目标函数”)。几何结构势能函数例如可以包括以上描述的第一几何势能函数至第六几何势能函数中的一个或多个。第二目标函数例如可以通过组合几何结构势能函数来确定，从而在第二目标函数达到收敛目标(例如，最小化或降低到预期值)时，为目标蛋白质确定的一个或多个结构的基本几何结构属性均满足约束。

第二阶段优化模块614在优化时还考虑多个蛋白质特定势能函数，以便使得最终的结构仍然满足约束集170中的一个或多个约束。在第二阶段的优化中，第二阶段优化模块614要优化的初始结构是来自第一阶段优化模型612的一个或多个中间预测结构。第二阶段优化模块614可以利用结构预测模型，通过使第一目标函数和第二目标函数均达到各自的收敛目标来更新至少一个中间预测结构。

通常，在第一阶段优化中，目标蛋白质已经从初始结构被快速折叠，折叠的结构的准确度已经得到提高。在第一阶段优化后确定的中间预测结构基本上收敛到满足约束集170中所使用的约束，但可能在局部细节上还存在不合理的地方。第二阶段优化借助蛋白质特定势能函数和几何结构势能函数，可以进一步细调这些局部细节，例如修补中间断裂的肽链，校正肽键中不合适的地方，修改不合理的二级结构，调整整体结构等等。

在一些实现中，经过第二阶段优化得到的结构可以被用于确定针对目标蛋白质的预测结果180。在一些实现中，如果结构预测模块420执行迭代优化过程，在一次迭代中由第二阶段优化模块614更新后的一个或多个中间预测结构可以被确定为在本次迭代中为目标蛋白质生成的预测结构，并且可以被传递到下一次迭代中。

迭代优化和迭代约束过滤的示例实现

在结构预测模块420执行迭代优化的一些实现中，前一次迭代中产生的较好的预测结构可以被用于从约束集170中过滤出下一次迭代中使用的约束，和/或用于初始化下一次迭代中要优化的目标蛋白质的结构。图7示出了蛋白质结构预测系统400的这样的实现。前一次迭代中提供的预测结构可以被称为“诱物”(decoy)。

在图7的示例中，约束处理模块410还包括迭代约束过滤模块716，其被配置为基于由结构预测模块410在前一次迭代中示出的多个预测结构中选择出的较好的预测结构，从约束集170中丢弃一个或多个约束，以获得在本次迭代中要使用的简化约束集。在每次迭代中，均从原始的约束集170中丢弃约束。

前一次迭代中的较好的预测结构可以用于帮助衡量约束集170中哪些约束是不好的约束，哪些约束是好的约束。一般而言，消除约束集170中的冲突和降低冗余的最有效途径是将约束集170中的约束与真实值(即，目标蛋白质的对应结构属性的真实属性值)进行比较。然而，在预测过程中，这样的真实值是未知。通常结构预测模块420为了更好地采样构想空间，会在每次迭代中生成多个预测结构。在本公开的一些实现中，前一次迭代中的较好预测结构在一定程度上可以被用于衡量约束的类似“真实值”。

在一些实现中，迭代约束过滤模块716从所选择的一个或多个较好预测结构确定多个结构属性的属性值。例如，如果约束集170包括一种或多种残基间距离和残基间取向，迭代约束过滤模块716可以相应地确定预测结构中的这些残基间距离和残基间取向的值。对于一个结构属性，从多个预测结构中确定的值可以被平均或者加权平均。从较好的预测结构中确定的属性值被用作对应结构属性的参考属性值。

对于多个结构属性中的每个结构属性或者对于其中的一些结构属性，迭代约束过滤模块716可以将约束集170中对相应结构属性的约束与对应的参考值进行比较。如果多个约束中的某个约束所指示的属性值与相应参考属性值之间的差异大于阈值差异，从约束集170中丢弃该约束。阈值差异是预定的。例如，对于涉及距离(例如，残基间距离)的结构属性，可以将阈值差异设置为

对于涉及角度(例如，残基间角度)的结构属性，可以将阈值差异设置为9.0°。当然，这仅是一个具体示例。针对阈值或距离的其他阈值差异也可以被相应设置。在一些实现中，对于不同类型的残基间距离和残基间角度，可以设置不同的阈值差异。

图8示出了在迭代过滤前和过滤后约束集中的约束之间的冲突和冗余的比较。在图8中，示例误差图810示出了示例蛋白质在残基间距离方面的误差，在图8中，横轴指示“预测距离与优化距离之间的误差”，其中预测距离指的是针对示例蛋白质的约束集中的残基间距离，优化距离指的是在系统400的第一次迭代中示出的最好的预测结构的残基间距离(在多个预测结构的情况下，是统计值)。竖轴指示“预测距离与真实距离之间的误差”，其中真实距离指的是从蛋白质的已知结构确定的真实残基间距离。示例误差图810中每个点指示针对一种蛋白质确定的误差。在示例误差图810中，框812指示一些蛋白质的约束集中的残基间距离与真实结构中的残基间距离之间具有冲突，框814指示一些蛋白质的约束集中的残基间距离与所生成的预测结构中残基间距离之间相对大的误差。

通过在多次迭代中利用较好预测结果来过滤蛋白质的约束集后，示例误差图820示出了在过滤得到的简化约束集中包括的预测距离与优化距离之间的误差和预测距离与真实距离之间的误差。可以看出，误差图810中框812和814对应的误差被消除，这意味着约束集中误差大和与其他约束有冲突的约束被消除。

通过图8的比较可以看出，在系统400中，迭代过滤约束集170中的约束，可以使冲突和冗余约束以自适应方式被消除。在多次迭代后所得到的预测结构将会依赖于冲突少且冗余度小的简化约束集来确定。这样生成的预测结构的准确度会更高。在一些实现中，系统400中的迭代次数可以是预定的。在一些实现中，在完成最后一次迭代后，所生成的多个预测结构可以被用于确定目标蛋白质的最终预测结果180。例如，高质量结构选择模块760可以从最后一次迭代的多个预测结果中选择一个或多个预测结果作为目标蛋白质的最终预测结构。

为了从每次迭代生成的多个预测结构中选择出较好的预测结构(例如，最佳诱物)，结构预测模块420还包括结构质量分析模型750，其被配置为确定每次迭代中生成的目标蛋白质的多个预测结构的排序。结构预测模块420还包括高质量结构选择模块760，其被配置为基于由结构质量分析模型750来确定的排序来从每次迭代的多个预测结构中选择一个或多个较好的预测结构，用于引导下一次迭代优化。例如，高质量结构选择模块760可以选择排序靠前的一个或多个预测结构，或者选择排序位置高于阈值的一个或多个预测结构。

当前存在一些针对蛋白质的结构质量分析模型，用于衡量蛋白质的预测结构的质量。这样的结构分析模型通常被配置为根据蛋白质的总势能来评估预测结构的合理性，并认为势能能量最低的结构具有最高的质量。然而，这样的结构分析模型高度依赖于势能函数如何描述蛋白质的天然结构。在本公开的示例实现中，不同于通过统计势能能量来给出预测结构的一个确定性质量得分，结构质量分析模型750被配置为基于排序学习来确定目标蛋白质的多个预测结构之间的更好或最优排序。这样的排序结果可以指示多个预测结构之间的相对质量得分。

在一些实施例中，结构质量分析模型750包括基于排序学习的神经网络模型。在基于排序算法的实现中，结构质量分析模型750利用排序学习算法来执行预测结构的成对比较并确定多个预测结构的排序。在一些实现中，结构质量分析模型750可以包括用于执行对象排序的RankNet模型和LambdaRank模型中的一个或多个。在一个实现中，结构质量分析模型750可以包括RankNet模型和LambdaRank模型的组合模型。在组合模型中，RankNet模型和LambdaRank模型的输入均是一对预测结构，这两个模型可以对每个预测结构确定一个质量得分。由此，基于质量得分可以确定多个预测结构的排序。可以通过联合考虑两个模型所确定的排序来确定多个预测结构中的最终排序。例如，对于每个预测结构，两个模型所给出的排序位置可以被平均或加权平均。

在组合模型的一些实现中，RankNet模型和LambdaRank模型可以被配置为具有相同的模型结构，例如可以包括由四个FC层组成的评分网络。RankNet模型和LambdaRank模型的区别在于在模型训练过程中，两个模型所使用的梯度计算不同。例如，RankNet模型可以使用基于二元交叉熵的梯度计算，而LambdaRank模型会对RankNet模型的梯度进行修改，将该梯度乘以要排序的两个预测结构的归一化折损累计增益(NDCG)的绝对误差值。

在RankNet模型和LambdaRank模型的训练中，这两个模型的损失函数可以被确定为基于优化多个预测结构的排序，该排序是模型对多个预测结构输出的质量得分。损失函数的最小化是RankNet模型和LambdaRank模型的训练目标。下文将简单介绍RankNet模型和LambdaRank模型的损失函数的构建。

假设将概率

定义为根据预测结构i和j的平均模板建模(TM)得分，预测结构i应当被排序到预测结构j之前的概率。概率

的计算如下：

Y_i，j＝max(-1，min(1，η*(y_i-y_j))) (9)

其中y_i和y_j分别表示两个预测结构i和j的TM得分(TM-Score)，η是一个可调节参数，例如可以被预设为4、3、5或任何其他值。预测概率可以通过sigmoid函数来确定，例如：

其中S_i和S_j分别表示RankNet模型或LambdaRank模型对两个预测结构i和j的预测质量得分，σ是一个可调节参数，例如可以被预设为1或任何其他值。

损失函数可以基于二元交叉熵来确定，例如可以被确定如下：

其中t表示在训练中所用的蛋白质的索引。在一些实现中，RankNet模型或LambdaRank模型的训练数据可以基于已知蛋白质的结构。

基于式(11)的损失函数，RankNet模型的训练所使用的梯度计算，例如关于方向w_k的梯度计算如下：

对于LambdaRank模型，其进一步基于预测结构的NDCG，通过下式(13)来修改式(12)中的参数λ_i，j

其中|Δ_NDCG|表示在切换预测结构i和j的顺序之后为预测结构i和j确定的NDCG的绝对误差值。

以上给出了基于两种不同的神经网络模型的组合来对一次迭代中的多个预测结构进行排序。在一些实现中，结构质量分析模型750还可以仅使用一种神经网络模型，例如RankNet模型或LambdaRank模型，或者其他类型的神经网络模型。

在一些实现中，除了用于迭代过滤约束集170中的约束之外，或者作为备选，前一次迭代中生成的一个或多个较好预测结构还可以用于确定下一次迭代中要使用的目标蛋白质的初始结构。如图7所示，由高质量结构选择模块760选择的一个或多个预测结构被提供给结构初始化模块630。这些预测结构被用于模板结构。在一些实现中，结构初始化模块630可以通过向所获得的一个或多个预测结构施加随机扰动数据，并将扰动后的预测结构作为初始结构提供给后续的结构优化模块，例如第一阶段优化模块612。在一些示例中，预测结构可以由目标蛋白质的Cα原子或Cβ原子的空间坐标表示来指示。在这种情况下，结构初始化模块630可以通过随机修改这些原子的空间坐标表示(例如，修改空间坐标表示的一个或多个参数值)来施加扰动数据。在一些示例中，结构初始化模块630可以从一个高斯分布中选择一个随机值用于修改Cα原子或Cβ原子的空间坐标表示。其他随机值的生成方法也是可以的。

利用前一次迭代的预测结构来执行下一次迭代的结构初始化，使得先前得到的预测结果可以不断遗传下去。这样的初始化也可以称为“遗传初始化”。遗传初始化可以使对目标蛋白质的预测结果180更准确。图9示出了在具有遗传初始化和不具有遗传初始化的迭代蛋白质结构预测的示例比较图900。在不具有遗传初始化的迭代预测过程中，每次迭代的初始结构通过随机初始化的方式确定的随机结构。

在图9中，曲线910指示在不具有遗传初始化的情况下不同次迭代中示出的预测结构的TM得分，曲线920指示在具有遗传初始化的情况下不同次迭代中示出的预测结构的TM得分。TM得分用于衡量蛋白质的结构的准确度。通过比较可以看出，从第二次迭代开始，基于遗传初始化生成的预测结构的准确度总是高于仅基于随机初始化生成的预测结构。

示例流程

图10示出了根据本公开一些实现的蛋白质结构预测过程1000的流程图。过程1000可以由计算设备100来实现。

在框1010，计算设备100获取针对目标蛋白质的约束集，约束集包括针对目标蛋白质的多个结构属性的多个约束。在框1020，计算设备100提取多个约束各自的特征信息。在框1030，计算设备100基于多个约束的特征信息来确定多个约束各自对应的多个权重。每个权重指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度。在框1040，计算设备100基于约束集中的多个约束和多个权重来预测目标蛋白质的结构。

在一些实现中，多个结构属性包括组成目标蛋白质的多个残基的残基间距离和残基间取向。在一些实现中，多个约束分别指示针对多个结构属性的属性值的概率分布信息。

在一些实现中，确定多个约束各自的多个权重包括：利用约束质量分析模型，基于所提取的特征信息来确定多个约束各自的多个质量得分，约束质量分析模型基于蛋白质的已知结构中的多个结构属性的真实属性值来被训练；以及基于多个约束各自的多个质量得分来向多个约束分别指派多个权重。

在一些实现中，预测目标蛋白质的结构包括：通过多次迭代来预测目标蛋白质的结构，在每一次迭代中，从约束集中丢弃至少一个约束，以获得简化约束集，以及基于简化约束集和向简化优化集中的多个约束指派的权重，来生成目标蛋白质的至少一个预测结构；以及基于多次迭代中生成的多个预测结构来确定目标蛋白质的目标结构。

在一些实现中，预测目标蛋白质的结构包括：生成与多个结构属性分别对应的多个蛋白质特定势能函数，每个蛋白质特定势能函数基于约束集中针对对应结构属性的一组约束的加权，该加权基于一组约束的相应权重；基于多个蛋白质特定势能函数，确定用于预测蛋白质结构的结构预测模型的第一目标函数；以及利用结构预测模型，至少通过使第一目标函数达到收敛目标来确定目标蛋白质的结构，结构的多个结构属性满足多个蛋白质特定势能函数中所使用的约束。

在一些实现中，至少通过使第一目标函数达到收敛目标来确定目标蛋白质的结构包括：生成至少一个几何结构势能函数，至少一个几何结构势能函数基于针对蛋白质的至少一个基本几何结构属性的至少一个约束，至少一个约束基于从已知蛋白质的天然肽确定的至少一个基本几何结构属性的属性值；基于至少一个几何结构势能函数来确定用于结构预测模型的第二目标函数；利用结构预测模型，通过使第一目标函数和第二目标函数分别达到各自的收敛目标来确定目标蛋白质的结构，结构的多个结构属性满足多个蛋白质特定势能函数中所使用的约束，并且结构的几何结构满足至少一个几何结构势能函数中所使用的约束。

在一些实现中，通过最小化第一目标函数和第二目标函数来确定目标蛋白质的结构包括：在第一阶段中，通过使第一目标函数达到收敛目标来生成目标蛋白质的至少一个中间预测结构，至少一个中间预测结构各自的多个结构属性满足多个蛋白质特定势能函数中所使用的约束；以及在第二阶段中，通过使第一目标函数和第二目标函数均达到各自的收敛目标来更新至少一个中间预测结构，以确定目标蛋白质的结构。

在一些实现中，至少一个基本几何结构属性包括以下至少一项：相邻Cα原子之间的成对距离，Cα原子之间的序列间隔，肽键的长度，残基的O原子与下一个残基中的N原子之间的距离，残基的O原子与残基的下一个残基中的Cα原子之间的距离，以及任一原子对之间的距离与原子对中的两个原子的半径之和之间的差异。

在一些实现中，预测目标蛋白质的结构包括：通过多次迭代来预测目标蛋白质的结构，在多次迭代中的给定迭代中，从给定迭代的前一次迭代生成的多个预测结构中选择至少一个预测结构，从所选择的至少一个预测结构确定多个结构属性各自的多个参考属性值，分别确定约束集中针对多个结构属性的多个约束与所确定的多个参考属性值之间的差异，如果多个约束中的至少一个约束所指示的属性值与相应参考属性值之间的差异大于阈值差异，从约束集中丢弃至少一个约束，以获得简化约束集，以及基于简化约束集和对简化优化集中的多个约束指派的权重，确定在给定迭代中目标蛋白质的多个预测结构。

在一些实现中，确定在给定迭代中目标蛋白质的多个预测结构包括：在给定迭代中，基于所选择的至少一个预测结构来确定目标蛋白质的至少一个初始结构；以及通过优化至少一个初始结构来确定在给定迭代中目标蛋白质的多个预测结构。

在一些实现中，选择至少一个预测结构包括：利用结构质量分析模型来确定前一次迭代生成的多个预测结构的排序，结构质量分析模型包括基于排序学习的一个或多个神经网络模型；以及基于排序来从多个预测结构中选择至少一个预测结构。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一个方面，本公开提供了一种计算机实现的方法。该方法包括：获取针对目标蛋白质的约束集，约束集包括针对目标蛋白质的多个结构属性的多个约束；提取多个约束各自的特征信息；基于多个约束的特征信息来确定多个约束各自对应的多个权重，每个权重指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度；以及基于约束集中的多个约束和多个权重来预测目标蛋白质的结构。

在另一方面，本公开提供了一种电子设备。该电子设备包括：处理器；以及存储器，耦合至处理器并且包含存储于其上的指令，指令在由处理器执行时使设备执行以下动作：获取针对目标蛋白质的约束集，约束集包括针对目标蛋白质的多个结构属性的多个约束；提取多个约束各自的特征信息；基于多个约束的特征信息来确定多个约束各自对应的多个权重，每个权重指示对应的约束在用于预测目标蛋白质的结构时对预测的影响程度；以及基于约束集中的多个约束和多个权重来预测目标蛋白质的结构。

在一些实现中，预测目标蛋白质的结构包括：生成与多个结构属性分别对应的多个蛋白质特定势能函数，每个蛋白质特定势能函数基于约束集中针对对应结构属性的一组约束的加权，加权基于一组约束的相应权重；基于多个蛋白质特定势能函数，确定用于预测蛋白质结构的结构预测模型的第一目标函数；以及利用结构预测模型，至少通过使第一目标函数达到收敛目标来确定目标蛋白质的结构，结构的多个结构属性满足多个蛋白质特定势能函数中所使用的约束。

在一些实现中，至少一个基本几何结构属性包括以下至少一项：相邻Cα原子之间的成对距离，Cα原子之间的序列间隔，肽键的长度，

残基的O原子与下一个残基中的N原子之间的距离，残基的O原子与残基的下一个残基中的Cα原子之间的距离，以及任一原子对之间的距离与原子对中的两个原子的半径之和之间的差异。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在计算机存储介质中并且包括计算机可执行指令，计算机可执行指令在由设备执行时使设备执行上述方面的方法。

在又一方面，本公开提供了一种计算机可读介质，其上存储有计算机可执行指令，计算机可执行指令在由设备执行时使设备执行上述方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实现的方法，包括：

获取针对目标蛋白质的约束集，所述约束集包括针对所述目标蛋白质的多个结构属性的多个约束；

提取所述多个约束各自的特征信息；

基于所述多个约束的特征信息来确定所述多个约束各自对应的多个权重，每个权重指示对应的约束在用于预测所述目标蛋白质的结构时对所述预测的影响程度；以及

基于所述约束集中的所述多个约束和所述多个权重来预测所述目标蛋白质的结构。

2.根据权利要求1所述的方法，其中所述多个结构属性包括组成所述目标蛋白质的多个残基的残基间距离和残基间取向，并且

其中所述多个约束分别指示针对所述多个结构属性的属性值的概率分布信息。

3.根据权利要求1所述的方法，其中确定所述多个约束各自的多个权重包括：

利用约束质量分析模型，基于所提取的特征信息来确定所述多个约束各自的多个质量得分，所述约束质量分析模型基于蛋白质的已知结构中的多个结构属性的真实属性值来被训练；以及

基于所述多个约束各自的多个质量得分来向所述多个约束分别指派所述多个权重。

4.根据权利要求1所述的方法，其中预测所述目标蛋白质的结构包括：

通过多次迭代来预测所述目标蛋白质的结构，在每一次迭代中，

从所述约束集中丢弃至少一个约束，以获得简化约束集，以及

基于所述简化约束集和向所述简化优化集中的多个约束指派的所述权重，来生成所述目标蛋白质的至少一个预测结构；以及

基于所述多次迭代中生成的多个预测结构来确定所述目标蛋白质的目标结构。

5.根据权利要求1所述的方法，其中预测所述目标蛋白质的结构包括：

生成与所述多个结构属性分别对应的多个蛋白质特定势能函数，每个蛋白质特定势能函数基于所述约束集中针对对应结构属性的一组约束的加权，所述加权基于所述一组约束的相应权重；

基于所述多个蛋白质特定势能函数，确定用于预测蛋白质结构的结构预测模型的第一目标函数；以及

利用所述结构预测模型，至少通过使所述第一目标函数达到收敛目标来确定所述目标蛋白质的结构，所述结构的所述多个结构属性满足所述多个蛋白质特定势能函数中所使用的约束。

6.根据权利要求5所述的方法，其中至少通过使所述第一目标函数达到收敛目标来确定所述目标蛋白质的结构包括：

生成至少一个几何结构势能函数，所述至少一个几何结构势能函数基于针对蛋白质的至少一个基本几何结构属性的至少一个约束，所述至少一个约束基于从已知蛋白质的天然肽确定的所述至少一个基本几何结构属性的属性值；

基于所述至少一个几何结构势能函数来确定用于所述结构预测模型的第二目标函数；

利用所述结构预测模型，通过使所述第一目标函数和所述第二目标函数分别达到各自的收敛目标来确定所述目标蛋白质的所述结构，所述结构的所述多个结构属性满足所述多个蛋白质特定势能函数中所使用的约束，并且所述结构的几何结构满足所述至少一个几何结构势能函数中所使用的约束。

7.根据权利要求6所述的方法，其中通过最小化所述第一目标函数和所述第二目标函数来确定所述目标蛋白质的所述结构包括：

在第一阶段中，通过使所述第一目标函数达到收敛目标来生成所述目标蛋白质的至少一个中间预测结构，所述至少一个中间预测结构各自的多个结构属性满足所述多个蛋白质特定势能函数中所使用的约束；以及

在第二阶段中，通过使所述第一目标函数和所述第二目标函数均达到各自的收敛目标来更新所述至少一个中间预测结构，以确定所述目标蛋白质的所述结构。

8.根据权利要求7所述的方法，其中所述至少一个基本几何结构属性包括以下至少一项：

相邻Cα原子之间的成对距离，

Cα原子之间的序列间隔，

肽键的长度，

残基的O原子与下一个残基中的N原子之间的距离，

残基的O原子与所述残基的下一个残基中的Cα原子之间的距离，以及

任一原子对之间的距离与所述原子对中的两个原子的半径之和之间的差异。

9.根据权利要求1所述的方法，其中预测所述目标蛋白质的结构包括：

通过多次迭代来预测所述目标蛋白质的所述结构，在所述多次迭代中的给定迭代中，

从所述给定迭代的前一次迭代生成的多个预测结构中选择至少一个预测结构，

从所选择的至少一个预测结构确定所述多个结构属性各自的多个参考属性值，

分别确定所述约束集中针对所述多个结构属性的所述多个约束与所确定的所述多个参考属性值之间的差异，

如果所述多个约束中的至少一个约束所指示的属性值与相应参考属性值之间的差异大于阈值差异，从所述约束集中丢弃所述至少一个约束，以获得简化约束集，以及

基于所述简化约束集和对所述简化优化集中的多个约束指派的所述权重，确定在所述给定迭代中所述目标蛋白质的多个预测结构。

10.根据权利要求9所述的方法，其中确定在所述给定迭代中所述目标蛋白质的多个预测结构包括：在所述给定迭代中，

基于所选择的所述至少一个预测结构来确定所述目标蛋白质的至少一个初始结构；以及

通过优化所述至少一个初始结构来确定在所述给定迭代中所述目标蛋白质的多个预测结构。

11.根据权利要求9所述的方法，其中选择所述至少一个预测结构包括：

利用结构质量分析模型来确定所述前一次迭代生成的所述多个预测结构的排序，所述结构质量分析模型包括基于排序学习的一个或多个神经网络模型；以及

基于所述排序来从所述多个预测结构中选择所述至少一个预测结构。

12.一种电子设备，包括：

处理器；以及

存储器，耦合至所述处理器并且包含存储于其上的指令，所述指令在由所述处理器执行时使所述设备执行以下动作：

提取所述多个约束各自的特征信息；

13.根据权利要求12所述的设备，其中确定所述多个约束各自的多个权重包括：

14.根据权利要求12所述的设备，其中预测所述目标蛋白质的结构包括：

15.根据权利要求12所述的设备，其中预测所述目标蛋白质的结构包括：

16.根据权利要求15所述的设备，其中至少通过使所述第一目标函数达到收敛目标来确定所述目标蛋白质的结构包括：

17.根据权利要求16所述的设备，其中通过最小化所述第一目标函数和所述第二目标函数来确定所述目标蛋白质的所述结构包括：

18.根据权利要求12所述的设备，其中预测所述目标蛋白质的结构包括：

19.根据权利要求18所述的设备，其中确定在所述给定迭代中所述目标蛋白质的多个预测结构包括：在所述给定迭代中，

20.一种计算机程序产品，所述计算机程序产品被有形地存储在计算机存储介质中并且包括计算机可执行指令，计算机可执行指令在由设备执行时使设备执行权利要求1至10所述的方法。