CN116206675B

CN116206675B - 用于预测蛋白质复合物结构的方法、设备、介质及程序产品

Info

Publication number: CN116206675B
Application number: CN202310431117.4A
Authority: CN
Inventors: 许锦波
Original assignee: Beijing Molecular Heart Technology Co ltd
Current assignee: Beijing Molecular Heart Technology Co ltd
Priority date: 2022-09-05
Filing date: 2023-04-20
Publication date: 2023-09-15
Anticipated expiration: 2043-04-20
Also published as: CN116206675A; CN117292743A

Abstract

本申请的目的是提供用于预测蛋白质复合物结构的方法、设备、介质及程序产品，该方法包括从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链MSA，其中，每个单链MSA对应所述目标蛋白质复合物的一个成分链；基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA；将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构，有效提高蛋白质复合物结构预测的准确性和计算效率。

Description

用于预测蛋白质复合物结构的方法、设备、介质及程序产品

本案要求CN202211078421.7(申请日2022-09-05)的优先权

技术领域

本申请涉及人工智能领域，尤其涉及一种用于预测蛋白质复合物结构的技术。

背景技术

大多数蛋白质以蛋白质复合物的形式发挥作用。因此，获得准确的蛋白质复合物结构对于理解生物功能是如何通过原子水平上的相互作用来实现的是至关重要的。现有技术中可以使用X射线晶体分析法、冷冻电镜技术等实验方法来获取高分辨率的蛋白质结构，或者蛋白质复合物结构预测(PCP)或者蛋白质-蛋白质对接等计算方法来预测蛋白质复合物结构。而通过前述实验方法来获取获取蛋白质结构，往往成本高、通量低、需要大量人力来制备用于结构测定的样品；通过前述计算方法获取的蛋白质结构往往精度有限。

发明内容

本申请的一个目的是提供一种用于预测蛋白质复合物结构的方法、设备、介质及程序产品。

根据本申请的一个方面，提供了一种用于预测蛋白质复合物结构的方法，该方法包括：

从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链MSA，其中，每个单链MSA对应所述目标蛋白质复合物的一个成分链；

基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA；

将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构。

根据本申请的一个方面，提供了一种用于预测蛋白质复合物结构的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如上所述任一方法的步骤。

根据本申请的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的步骤。

根据本申请的一个方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的步骤。

根据本申请的一个方面，提供了一种用于预测蛋白质复合物结构的设备，该设备包括：

一一模块，用于从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链MSA，其中，每个单链MSA对应所述目标蛋白质复合物的一个成分链；

一二模块，用于基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA；

一三模块，用于将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构。

与现有技术相比，本申请从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链MSA，其中，每个单链MSA对应所述目标蛋白质复合物的一个成分链；基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA；将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构，有效提高蛋白质复合物结构预测的准确性和计算效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个实施例的一种用于预测蛋白质复合物结构的方法流程图；

图2示出根据本申请一个实施例的一种用于预测蛋白质复合物结构的流程图；

图3示出根据本申请一个实施例的本方案中的MSA配对方法ColAttn与其他MSA配对方法的性能比较列表；

图4示出根据本申请一个实施例的蛋白质复合物结构预测性能提高和难易程度的关系图；

图5示出根据本申请一个实施例的三种MSA配对方法在不同测试集上的预测性能图；

图6示出根据本申请一个实施例的一种用于预测蛋白质复合物结构的设备结构图；

图7示出可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change Memory，PCM)、可编程随机存取存储器(Programmable Random Access Memory，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(Dynamic Random AccessMemory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如Android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable GateArray，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

PCP(蛋白质复合物结构预测)是计算结构生物学中一项基本且长期存在的挑战。发明人研究后发现，现有的各种PCP方法准确性有限。对于从头开始的蛋白质-蛋白质对接，其仅给出单链蛋白质序列作为输入，进行PCP更加困难，因为单链的未绑定结构(unboundedstructure)和复合物接口(complex interface)上的辅助信息不可用。深度学习在相当多的计算结构生物学任务中取得了实质性进展，例如，蛋白质接触预测、三级结构预测以及冷冻电镜结构测定等。其中，新发布的AlphaFold-Multimer(阿尔法折叠-多聚体)已被证明它优于先前的蛋白质复合物结构预测系统，例如，基于快速傅里叶变换的方法ClusPro(一种蛋白质-蛋白质刚性对接方法)。然而，与AlphaFold2在折叠单体上的精度相比，AlphaFold-Multimer的精度远不能令人满意。它的成功率约为70％，平均DockQ(一种蛋白质-蛋白质对接模型的质量评估标准)分数约为0.6(由DockQ判断为中等质量)。AlphaFold-Multimer最重要的输入特征是多序列比对(multiple sequence alignment，MSA)。与以单个蛋白质的MSA为输入的AlphaFold2相比，AlphaFold-Multimer需要构建一个用于蛋白质复合物结构预测的联合MSA(jointMSA)。然而，如何构建这样的联合MSA对于异聚体仍然是一个悬而未决的问题。其需要在各成分链对应的MSA中识别相互作用的同源物(interologs)。而对于异聚体，同一物种可能具有多个与成分链对应序列相似的序列(即，旁系同源物paralogs)，因而，异聚体蛋白质复合物结构可能是不确定的。在本申请中，发明人研究了为异聚体构建联合MSA的有效算法。

本申请提出了一种简单而有效的MSA配对算法，利用蛋白质语言模型的即时输出来构建联合MSA。利用列注意力(ColAttn)来构建用于蛋白质复合物结构预测的联合MSA(joint MSA)。相比于Block等非配对方法、Genome或者AF-Multimer等基线配对方法、InterLocalCos或者InterGlobalCos等蛋白质语言模型(protein language model，PLM)增强配对方法，ColAttn在三个测试集上(pConf70、pConf80和DockQ49)实现了最好的蛋白质复合物结构预测准确度。在测试中，发明人利用了来自AlphaFold-Multimer的5个模型来进行结构预测。当考虑这5个模型分别输出的预测结构中得分最好的预测结构时，本申请所述配对方法ColAttn在前述三个测试集上得分比前述其他配对方法分别高10.7％、7.3％和3.7％。此外，发明人还发现将ColAttn与其他配对方法相结合的得到的混合策略，与单一策略相比，也能够显著提高蛋白质复合物结构预测精度。进一步地，发明人还分析了ColAttn对来自真核生物、细菌和古细菌的蛋白质复合物的结构预测表现，ColAttn在难以进行interologs识别的真核生物的测试目标上表现最好。并且，在蛋白质复合物中存在一个成分链来自真核生物、一个成分链来自细菌时，ColAttn比其他配对方法表现更优，这有力地证明了ColAttn配对方法对来自不同总界(superkingdom，三域学说(Three DomainsTheory)中的生物分类)的目标的结构预测同样具有有效性与鲁棒性。

图1示出根据本申请一个实施例的一种用于预测蛋白质复合物结构的方法流程图，该方法包括：步骤S11、步骤S12和步骤S13。在步骤S11中，设备1从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链的MSA，其中每个单链MSA对应所述目标蛋白质复合物的一个成分链；在步骤S12中，设备1基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA；在步骤S13中，设备1将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构。

在步骤S11中，设备1从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链的MSA，其中每个单链MSA对应所述目标蛋白质复合物的一个成分链。在一些实施例中，所述设备1包括但不限于具有信息处理或者计算能力、可以用于蛋白质复合物结构预测的用户设备、网络设备，例如，平板电脑、计算机、服务器等。在一些实施例中，所述设备1可以利用相应的生物序列分析工具，基于目标蛋白质复合物中每个成分链的蛋白质序列在蛋白质序列数据库中搜索并生成该成分链的蛋白质序列对应的单链MSA。在一些实施例中，所述生物序列分析工具包括但不限于JackHMMER、BLAST、FASTA。所述蛋白质序列数据库包括但不限于UniProt数据库、InterPro数据库、GENATLAS数据库。在一些实施例中，所述单链MSA包括一个或多个来自不同物种的、与该一个成分链匹配的蛋白质序列。

在步骤S12中，设备1基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA。在一些实施例中，由于，蛋白质语言模型可以全面捕获蛋白质序列中编码的生物约束和共同进化信息，因而，设备1可以利用蛋白质语言模型对所有单链MSA中各蛋白质序列进行识别、匹配以获取相应的复合物同源序列(即interologs)，从而根据该复合物同源序列确定目标蛋白质复合物的MSA。

在步骤S13中，设备1将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构。在一些实施例中，所述深度学习模型包括但不限于前述AlphaFold-Multimer的模型，以及其他现有的或者未来可能出现的利用蛋白质复合物MSA来进行结构预测的深度学习模型。

在一些实施例中，所述步骤S12包括：设备1根据物种信息对所述单链MSA里的蛋白质序列进行分组，并构建每个物种组对应的复合物同源序列，其中，所述复合物同源序列由同一物种组中排名相同且来自不同单链MSA的蛋白质序列连接而成，每个物种组可以包括零个或者多个复合物同源序列；将所有复合物同源序列构成一个联合MSA，其中，该联合MSA即所述目标蛋白质复合物的MSA。

在一些实施例中，参考图2示出的一种用于预测蛋白质复合物结构的流程图，以属于异二聚体的目标蛋白质复合物为例，设备1基于该异二聚体对应的两个成分链(蛋白质序列A与蛋白质序列B)，利用JackHMMER查询UniProt数据库，从而可以分别获得蛋白质序列A与蛋白质序列B对应的单链MSA。所述设备1可以按照物种对所述单链MSA中蛋白质序列进行分组，例如，参考图2，将蛋白质序列A与蛋白质序列B各自对应的单链MSA中的蛋白质序列分至鼠类组与鸭类组。基于该物种组，设备1可以将同一物种组中排名相同且来自不同单链MSA的蛋白质序列连接得到相应的复合物同源序列。例如，若目标蛋白质复合物对应有n个单链MSA，则该复合物同源序列为同一物种组中分别来自这n个单链MSA且排名相同的n个蛋白质序列连接得到，复合物同源序列中每个蛋白质序列对应一个单链MSA。在一些情形下，存在单链MSA，其所包含的蛋白质序列均不属于某物种，则对于该物种对应的物种组，设备1无法进行前述将同一物种组中排名相同且来自不同单链MSA的蛋白质序列进行连接的工作，相应地，该物种组包括零个复合物同源序列。在一些情形下，存在物种组，每个单链MSA中均有至少一个蛋白质序列属于该物种组，则该物种组对应有至少一个复合物同源序列。设备1可以将所有复合物同源序列的集合确定为一个联合MSA，该联合MSA即为该目标蛋白质复合物对应的MSA。最后，设备1可以将该联合MSA输入AlphaFold-Multimer(AF-Multimer)的模型中以得到该目标蛋白质复合物的预测结构。

在一些实施例中，所述根据物种信息对所述单链MSA里的蛋白质序列进行分组，并构建每个物种组对应的复合物同源序列包括：设备1根据物种信息以及所述单链MSA，确定一个或者多个物种组，其中，每个物种组对应所述物种信息中一个物种，每个物种组包括多个子分类组，每个子分类组对应一个单链MSA，该子分类组包含该单链MSA中属于该物种的蛋白质序列；根据所述一个或者多个物种组，确定每个物种组对应的复合物同源序列。在一些实施例中，基于进化学说，来自同一祖先的蛋白质序列会有一定的同源性，亲缘关系越近的物种，其对应蛋白质序列同源性就越高。因而，可以通过将各单链MSA中蛋白质序列进行比对来对蛋白质序列进行分组，或者将各单链MSA中蛋白质序列与物种信息中相应物种对应的蛋白质序列进行比对来确定各蛋白质序列所属物种组。完成物种分组的蛋白质序列仍保留有其所属单链MSA的信息，以便于后续进行物种组内的各单链MSA对应蛋白质序列的排名及配对来得到相应复合物同源序列。

在一些实施例中，所述根据所述一个或者多个物种组，确定每个物种组对应的复合物同源序列包括：设备1确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息；基于所述相似度评分信息，确定每个物种组对应的复合物同源序列。在一些实施例中，设备1通过计算所述蛋白质序列与其对应的目标蛋白质复合物的成分链的相似性来确定所述相似度评分信息。基于该相似度评分信息，设备1可以进行每个物种组下各单链MSA对应蛋白质序列的排名，从而将该物种组中排名相同且来自不同单链MSA的蛋白质序列连接构成相应的复合物同源序列。在一些实施例中，若存在物种组未包含某单链MSA中蛋白质序列，即存在单链MSA所包含的所有蛋白质序列均不属于该物种组，则可以不必确定该相似度评分信息，该物种组包括0个复合物同源序列，以节约计算资源。

在一些实施例中，所述确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息包括：设备1确定每个单链MSA对应的列注意力矩阵；基于所述列注意力矩阵，确定相应的成对相似度矩阵；基于所述成对相似度矩阵，确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息。例如，设备1可以利用MSA Transformer获取单链MSA对应的列注意力矩阵其中，L为MSATransformer模型层数，H为每层的注意力头(attention heads)数量，C为该单链MSA对应的成分链的长度，N为该单链MSA所包含的蛋白质序列数量。所述设备1先对称化所述列注意力矩阵，再沿L、H、C维度聚合该对称矩阵，得到该单链MSA对应的成对相似度矩阵：

其中上标T为转置(transpose)记号，AGG(·)为聚合函数。该成对相似度矩阵是一个对称矩阵，可以基于该成对相似度矩阵的第一行确定该单链MSA中每个蛋白质序列对应的相似度评分信息，其中，S₁中数据可以看作该单链MSA中蛋白质序列与其对应的目标蛋白质复合物的成分链的相似度得分。基于上述方式，对所有单链MSA进行计算，从而可以确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息。

在一些实施例中，所述基于所述相似度评分信息，确定每个物种组对应的复合物同源序列包括：设备1基于所述相似度评分信息，对该物种组中每个子分类组对应的蛋白质序列进行排序；基于每个子分类组中排名相同的蛋白质序列，确定该物种组对应的复合物同源序列。例如，参考图2示例，在鼠类组中，对应于蛋白质序列A的单链MSA的子分类组的蛋白质序列的相似度评分分别为0.9、0.6、0.4，对应于蛋白质序列B的单链MSA的子分类组的蛋白质序列的相似度评分分别为0.8、0.7。基于评分高低，对各子分类组中蛋白质序列进行排序，可以确定对应蛋白质序列A的子分类组排名为(1，0.9)、(2，0.6)、(3，0.4)，对应蛋白质序列B的子分类组排名为(1，0.8)、(2，0.7)，则对应蛋白质序列A的评分0.9的蛋白质序列与对应蛋白质序列B的评分0.8的蛋白质序列均为各自子分类组中排名第一的序列，可以将两者连接确定为该物种组对应一个复合物同源序列，相似地，也可以将其中排名第二的蛋白质序列进行连接，得到该物种组对应的另一个复合物同源序列。

在一些实施例中，所述根据所述一个或者多个物种组，确定每个物种组对应的复合物同源序列包括：设备1基于每个单链MSA以及该单链MSA对应所述目标蛋白质复合物的一个成分链，确定相应的余弦相似度信息；基于所述余弦相似度信息，确定每个物种组对应的复合物同源序列。在一些实施例中，还可以利用余弦相似度来衡量单链MSA中蛋白质序列与对应的目标蛋白质复合物的成分链的相似度，相似地，也可以基于获取的各蛋白质序列对应的余弦相似度信息进行各物种组下子分类组的蛋白质序列排名，从而将物种组下各子分类组排名相同的蛋白质序列连接以获取相应的复合物同源序列。

在一些实施例中，所述基于每个单链MSA以及该单链MSA对应所述目标蛋白质复合物的一个成分链，确定相应的余弦相似度信息包括：设备1确定每个单链MSA对应的第一序列级嵌入以及该单链MSA对应所述目标蛋白质复合物的一个成分链对应的第二序列级嵌入；基于所述第一序列级嵌入以及所述第二序列级嵌入，确定相应的余弦相似度信息。

在一些实施例中，所述确定每个单链MSA对应的第一序列级嵌入包括：设备1确定所述每个单链MSA对应的残基级嵌入集合；基于所述残基级嵌入集合，确定所述每个单链MSA对应的第一序列级嵌入。

在一些实施例中，对于每个单链MSA：M∈A^N×C，其中，C为该单链MSA对应的成分链的长度，N为该单链MSA所包含的蛋白质序列数量。设备1可以获取该单链MSA对应的残基级嵌入(residue-level embedding)集合其中，d为嵌入维度(embedding dimension)，L为所使用的计算余弦相似度的蛋白质语言模型层数。设备1可以通过L、C维度的聚合获取所述第一序列级嵌入(sequence-level embedding)相似地，也可以同样的方式获取单链MSA对应所述目标蛋白质复合物的一个成分链对应的第二序列级嵌入E₁。基于该第一序列级嵌入E_n与第二序列级嵌入E₁，设备1可以确定相应的余弦相似度信息/>可以利用与前述基于列注意力机制确定复合物同源序列相似的方式，通过各子分类中蛋白质序列排名，确定相应的复合物同源序列。

在一些实施例中，所述步骤S12包括：设备1确定各单链MSA间的相似度得分矩阵；基于所述相似度得分矩阵，确定目标蛋白质复合物的MSA。例如，以异二聚体的计算为例，通过前述步骤S11的查询，可以确定该异二聚体对应的2条单链MSA，分别记为与/>设备1基于该M₁与M₂，分别获取相应的序列级嵌入其中，该序列级嵌入的获取方式与前述第一序列级嵌入的获取方式相同或相似，故不再赘述，以引用方式包含于此。基于前述获取的序列级嵌入，可以确定这2条单链MSA间的相似度得分矩阵/>其中，B_ij＝cos(E₁[i],E₂[j])。设备1可以基于该相似度得分矩阵B，利用全局最大优化或者局部最大优化算法，进行链间蛋白质序列配对，从而得到所述目标蛋白质复合物对应的联合MSA。

在过去十年中，基于共进化分析的蛋白质接触图和三维结构预测取得了实质性进展，并证明了单体(即单个蛋白质链)的状态准确性。这些方法利用MSA的信息来推断残基间的相互作用或目标单体的三维结构。AlphaFold2是基于共进化的方法之一，在CASP14中表现出无与伦比的准确性。AlphaFold-Multimer是用于多聚体的AlphaFold2的派生版本，在复合物结构预测方面具有很好的准确性。AlphaFold-Multimer不像许多基于FFT的方法那样假设每个输入单体是刚体，但它需要为目标复合物构建一个联合MSA。为了推断两条不同链之间的成对相关性，需要确定两条链的相互作用同源序列(interologs)，这对异二聚体来说是一个挑战。

已经提出了几种算法来从基因组数据中识别interologs，例如分析共同进化的基因、搜索共同定位的基因和比较系统发育树。基因组共定位和物种信息是两种常用的启发式方法。基因组共定位被广泛用作识别互斥体的启发式规则。这是基于观察到，在细菌中，许多相互作用的基因被编码在操纵子中，并被共同转录以执行它们的功能。然而，该规则不适用于来自具有大量旁系同源物的真核生物的复合物，因为消除正确的相互同源物变得更加困难。ComplexContact首次提出了另一个用于识别interologs的简单规则，AlphaFold-Multimer也使用了它。该规则称为基于系统发育的方法，首先从每条链的MSA中识别旁系同源物组(来自同一物种的序列)，根据它们与其对应链的序列相似性对旁系同源物进行排序，然后将来自同一物种的序列与同等级在一起。

蛋白质语言模型(PLM)学习蛋白质序列或MSA的表示，并且学习的表示可用作诸如接触预测等任务的特征、远程同源检测和突变效应预测。

在本申请中，发明人专注于MSA Transformer，这是一种在大型单链蛋白质MSA数据库上训练的PLM。MSA Transformer产生的中间表示包含了一些共进化信息。因此，发明人研究了如何利用MSA Transformer的学习表示来准确识别两个或者多个蛋白质是否形成interolog并提高AlphaFold-Multimer的预测准确性。

具体实现方法

在复合物结构预测中，目前的预测方法，比如AlphaFold-Multimer，通过匹配复合物每个成份链的MSA(多序列比对)里面的序列来获取成份链之间的共进化信号。目前所有的MSA匹配算法(包括AlphaFold-Multimer使用的)都不是很准确。发明人在这个专利里提出一个全新的MSA配对方法ColAttn，这个方法基于两个或者多个成份链的MSA构建一个联合MSA(joint MSA)。然后发明人可以把这个联合MSA输入一个深度学习模型(如AlphaFold-Multimer，RaptorX或者其他的软件)来预测复合物的结构。两个成份链的MSA配对的问题定义如下：给定两个成份链各自的MSA，分别记为M1和M2，发明人想找到一个从M1中的序列到M2中的序列对应关系。这个对应关系要求M1中两个不同序列不能对应到M2中同一个序列(相应地M2中两个不同序列不能对应到M1中同一个序列)，但是允许M1或者M2中的一些序列可能找不到对应的序列。这个定义也可以很容易地推广到多个成分链MSA的配对。

这一部分描述发明人的基于蛋白质语言模型(PLM)的MSA配对方法，即ColAttn。发明人的MSA匹配方法ColAttn主要利用蛋白质语言模型(PLM)的优势来探索一种更准确的MSA匹配策略，从而提高蛋白质复合物的结构预测。PLM可以学习到蛋白质序列中的共进化信号和蛋白质空间结构约束。此外，基于MSA的PLM通过轴向注意力机制可以进一步明确地捕获蕴含在MSA中的共进化信息。发明人目前使用最先进的基于MSA的PLM，即MSATransformer，来匹配成份链MSA里面的单链蛋白质序列，构建合理的interologs(蛋白质复合物同源序列)，从而改进复合物结构预测。当然发明人也可以使用其他的蛋白质语言模型。

发明人方法的总体框架如图1所示。给定一个需要预测结构的异二聚体，下面是为它构造联合MSA的具体步骤：1)第一步(对应图1步骤1)：发明人先搜索蛋白质序列数据库以获得每个成份链的MSA。2)第二步(对应图1步骤2)：发明人把单链MSA里面的序列按物种进行分组。3)第三步(对应图1步骤3)：发明人使用MSA-Transformer对所有的成份链MSA生成一系列的列注意力矩阵A_lhc，其中l是这个矩阵对应的MSA-Transformer层数、h是注意力头(attention head)的编号和c是一个残基(也就是蛋白质中的一个氨基酸)在蛋白质氨基酸序列中的位置。通过MSA的每一列计算的列注意力权重矩阵可以被视为衡量每列中对齐残基之间的成对相似度得分的度量。发明人对MSA-Transformer生成的每一列注意力矩阵进行对称化，然后沿前述的三个维度聚合对称矩阵得到MSA序列之间的成对相似度矩阵，记为S。一个矩阵的对称化即是计算它和它的转置的算术平均。S是对称的，它的第一行可以看作是衡量查询序列(也就是一个要预测结构的复合物的成份链的氨基酸序列)与MSA中其他序列之间的相似度得分。然后，根据每条序列和对应的查询序列的相似度得分从高到低在它自己的物种组内进行排序。4)第四步(对应图1步骤4)：将同一物种组中排名相同而且来自不同链的MSA的序列连接为复合物同源序列(interologs)，这些interologs构成了目标复合物的联合MSA。另外，通过补齐gaps，那些没有配对的序列也可以放到这个联合MSA里面。假如MSA M1里面的一条序列A1没有在MSA M2里找到配对，那么发明人在A1的末端加上gaps(个数跟M2里面的序列长度一样)，然后就可以把A1加到联合MSA里面。同样，如果MSA M2里面的一条序列B1没有在MSA M1里找到配对，那么发明人在B1的前端加上gaps(个数跟M1里面的序列长度一样)，然后就可以把B1加到联合MSA里面。

上面描述的是针对二聚体的联合MSA构造方法，但是发明人的方法ColAttn可以很容易地扩展到为具有多个蛋白质链构成的复合物构建联合MSA。

虽然发明人的MSA配对方法ColAttn平均性能要好于其他的MSA配对方法，发明人经过实验发现不同的MSA配对方法具有各自的优势，也就是说不同配对方法的预测结果之间有着互补性。为此，发明人开发了混合策略(mixing)来结合多种配对方法产生的复合物结构预测结果。具体地说，我们首先获得不同MSA配对方法的预测结果(也就是预测出来的复合物结构)，然后根据预估的复合物界面分数(也就是深度学习模型预测出来的TM分数，ipTM)由高到低进行排序，选取分数最高的预测作为最终的输出结果。发明人测试了混合ColAttn和另外两种MSA配对方法：基于序列一致性(sequence identity)的配对方法和基于基因距离的配对方法。发明人发现混合策略比任何单一de MSA配对方法都更有效。

实验装置

实验设置评估指标

发明人使用DockQ(https://journals.plos.org/plosone/article？id＝10.1371/journal.pone.0161879)分数评估预测的蛋白质复合物的准确性。具体来说，对于每个测试目标，发明人计算其N个预测模型中的最高DockQ得分，这些模型按预测的置信度得分排名。发明人将此指标称为top-N预测中最好的DockQ。

数据集

为了测试发明人方法的性能，发明人构建了一个满足以下标准的测试集：

1.给定物种限制，至少有100个序列可以配对。

2.每个测试的异二聚体目标的两个成份链之间的序列相似性最多为90％。其中，每个成份链有20到1024个残基(由于MSA-Transformer的约束)，并且每个二聚体中的残基总数少于1600个(由于GPU内存限制)。

发明人从PDB(Protein Data Bank)中随机抽取一些异二聚体做为测试目标。发明人将两个二聚体定义为最多x％相似，如果它们的成份链之间的最大序列序列相似性不超过x％。发明人随机抽样了801个测试复合物，这些复合物与数据集中的其他复合物最多有40％的相似性，并满足上述两个标准。最后，发明人使用AlphaFold-Multimer(使用其自带的MSA匹配算法)预测它们的复合物结构，并且根据预测置信度得分(pConf)构建了三个测试集：1)pConf70：92个目标的预测置信度得分(pConf)小于0.7；2)DockQ49：155个目标的最佳DockQ得分小于0.49；3)pConf80：168个复合物目标的pConf小于0.8。

基准线

发明人测试了下面两种启发式MSA配对策略。

AlphaFold-Multimer自带的默认策略。该策略首先在ComplexContact中提出，该策略首先按物种对来自成份链MSA的序列进行分组，并根据与查询序列的相似性对序列进行排序。最后，如果一个物种组中有多个序列，则该策略会连接同一物种组内所有相同等级的序列。

遗传距离。在细菌中，相互作用的基因有时位于操纵子中并共同转录形成蛋白质复合物。因此，我们发明人可以根据它们的遗传位置之间的距离来确定两种蛋白质是否相互作用。该策略将来自同一物种的序列配对，然后根据它们在重叠群中的位置距离来消除序列的歧义；从ENA中检索重叠群。在发明人的实现中，给定来自第一条链的序列，发明人将其与来自第二条链的序列配对，该序列在遗传距离方面最接近它。如果有多个最接近的序列，发明人选择具有最低E值的一个到第二个链的查询序列；E-value由用于构建链MSA的MSA搜索算法计算得出。

发明人报告了pConf70、Quality49和pConf80测试集的平均Top-5最佳DockQ得分、Top-1 DockQ得分和成功率(DockQ≥0.23)。

发明人的MSA配对方法ColAttn在异二聚体预测中优于其他MSA配对方法

发明人利用来自AlphaFold-Multimer软件包的五个AI模型来预测每个目标复合物的结构，然后发明人在图3所示表格中报告平均Top-5最佳DockQ分数、Top-1 DockQ分数和相应的成功率(SR)。ColAttn在所有三个测试集上都优于AF-Multimer默认配对策略(就前5个DockQ得分而言，pConf70上为0.259与0.234，pConf80上为0.423与0.406，Quality49上为0.265与0.242)。发明人的方法也优于基于遗传距离的方法。

发明人的MSA配对方法ColAttn在比较难的复合物测试目标上表现更好

如该表格所示，ColAttn相对于AF-Multimer的优势在pConf80上变得比在pConf70上更窄，改进率分别为3.7％和10.7％。

为了进行深入分析，发明人定量分析了AF-Multimer估计的预测置信度得分(pConf)与ColAttn和AF-Multimer之间Top-5 DockQ得分的性能差距之间的相关性，如图4所示。图4示出了复合物结构预测性能提高和难易程度的关系。其中，图4(a)表示预测置信度得分(pConf，x轴)和相对改善(％，y轴)的分布。红色曲线是拟合线性回归模型的可视化。Pearson相关系数约为-0.49，这强烈表明随着pConf的增加，ColAttn相对于AF-Multimer变窄的相对改善。图4(b)表示进一步以0.2的间隔分割了pConf的五个区域，并显示了不同区域的改进分布，这表明与AF-Multimer相比，ColAttn在低置信度目标上的表现更好。

可以看出，相对改善与预测置信度得分呈负相关(Pearson相关系数为-0.49)。当pConf小于0.2时，相对改进甚至达到100％，而当pConf大于0.8时，ColAttn的性能几乎与AF-Multimer相当。这是因为AF-Multimer可以在相对容易的目标上做得很好，进一步改进它比较困难。

ColAttn对真核生物目标具有更高的预测精度

如图5所示，发明人进一步比较了ColAttn、AF-Multimer和Genome在三个域(kingdoms)(即真核生物、真细菌和真核生物和真细菌)上的DockQ分布。ColAttn在真核生物数据明显优于其他两种MSA配对方法：ColAttn为0.420，AF-Multimer为0.402，基因组为0.369。这是因为很难识别真核生物里的复合物同源序列(interlog)，因此ColAttn在真核生物具有显著的优势。而在Eubacteria数据中，三种策略具有相似的性能(整个数据约为0.35)。最引人注目的是，ColAttn在Euba.&Euca数据上的性能优于其他两种方法：ColAttn为0.394，AF-Multimer为0.314，Genome在整个数据上为0.277。Euca.&Euba.是一个特殊结构域是指异二聚体中的两个组成链分别属于这两个结构域。具体来说，发明人数据集的异二聚体分别来自真核生物、真细菌、病毒、古细菌、真细菌：真核生物。发明人将来自真细菌、病毒和古细菌的数据归类为真细菌域。

混合MSA配对策略提高预测准确性

发明人发现不同的MSA配对方法各有优势，这意味着它们可以相互补充。为了验证这一点，发明人结合了由两种MSA配对方法中的任何一种预测的五个模型，从而为每个目标生成十个预测模型，然后发明人报告Top-5最佳DockQ得分的平均值。混合策略显著优于单一策略，例如ColAttn+ColAttn的DockQ得分为0.269，而ColAttn为0.259，这表明简单地增加每个模型的预测数量也有利于每个测试目标的结构预测精度。ColAttn加上任何一种策略总是比没有ColAttn的策略具有更好的性能，例如ColAttn+Genome的成功率为44.6％，而AF-Multimer+Genome的成功率为40.4％。最后，所有三种策略的混合以0.285的DockQ分数和46.8％的成功率达到最佳性能。

图6示出根据本申请一个实施例的一种用于预测蛋白质复合物结构的设备结构图，所述设备1包括一一模块11、一二模块12、一三模块13。一一模块11从蛋白质序列数据库中查询获取目标蛋白质复合物的所有单链MSA，其中，每个单链MSA对应所述目标蛋白质复合物的一个成分链；一二模块12基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA；一三模块13将所述目标蛋白质复合物的MSA输入深度学习模型以获得所述目标蛋白质复合物的预测结构。在此，所述图6示出的一一模块11、一二模块12、一三模块13对应的具体实施方式分别与前述步骤S11、步骤S12、步骤S13的具体实施例相同或相近，故不再赘述，以引用方式包含于此

图7示出了可被用于实施本申请中所述的各个实施例的示例性系统；

如图7所示在一些实施例中，系统300能够作为各所述实施例中的任意一个设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。

对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。

系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块310可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备320及(一个或多个)通信接口325提供接口。

例如，NVM/存储设备320可被用于存储数据和/或指令。NVM/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。

(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

除上述各实施例介绍的方法和设备外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM,DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于预测蛋白质复合物结构的方法，其中，所述方法包括：

基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA，其中，所述基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA，包括：根据物种信息对所述单链MSA里的蛋白质序列进行分组，并构建每个物种组对应的复合物同源序列，其中，所述复合物同源序列由同一物种组中排名相同且来自不同单链MSA的蛋白质序列连接而成，每个物种组包括零个或者多个复合物同源序列；将所有复合物同源序列构成一个联合MSA，其中，该联合MSA即所述目标蛋白质复合物的MSA，所述根据物种信息对所述单链MSA里的蛋白质序列进行分组，并构建每个物种组对应的复合物同源序列包括：根据物种信息以及所述单链MSA，确定一个或者多个物种组，其中，每个物种组对应所述物种信息中一个物种，每个物种组包括多个子分类组，每个子分类组对应一个单链MSA，该子分类组包含该单链MSA中属于该物种的蛋白质序列；根据所述一个或者多个物种组，确定每个物种组对应的复合物同源序列；

2.根据权利要求1所述的方法，其中，所述根据所述一个或者多个物种组，确定每个物种组对应的复合物同源序列包括：

确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息；

基于所述相似度评分信息，确定每个物种组对应的复合物同源序列。

3.根据权利要求2所述的方法，其中，所述确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息包括：

确定每个单链MSA对应的列注意力矩阵；

基于所述列注意力矩阵，确定相应的成对相似度矩阵；

基于所述成对相似度矩阵，确定每个物种组中所有子分类组中每个蛋白质序列对应的相似度评分信息。

4.根据权利要求2所述的方法，其中，所述基于所述相似度评分信息，确定每个物种组对应的复合物同源序列包括：

基于所述相似度评分信息，对该物种组中每个子分类组对应的蛋白质序列进行排序；

基于每个子分类组中排名相同的蛋白质序列，确定该物种组对应的复合物同源序列。

5.根据权利要求1所述的方法，其中，所述根据所述一个或者多个物种组，确定每个物种组对应的复合物同源序列包括：

基于每个单链MSA以及该单链MSA对应所述目标蛋白质复合物的一个成分链，确定相应的余弦相似度信息；

基于所述余弦相似度信息，确定每个物种组对应的复合物同源序列。

6.根据权利要求5所述的方法，其中，所述基于每个单链MSA以及该单链MSA对应所述目标蛋白质复合物的一个成分链，确定相应的余弦相似度信息包括：

确定每个单链MSA对应的第一序列级嵌入以及该单链MSA对应所述目标蛋白质复合物的一个成分链对应的第二序列级嵌入；

基于所述第一序列级嵌入以及所述第二序列级嵌入，确定相应的余弦相似度信息。

7.根据权利要求6所述的方法，其中，所述确定每个单链MSA对应的第一序列级嵌入包括：

确定所述每个单链MSA对应的残基级嵌入集合；

基于所述残基级嵌入集合，确定所述每个单链MSA对应的第一序列级嵌入。

8.根据权利要求1所述的方法，其中，所述基于蛋白质语言模型匹配所有单链MSA里面的蛋白质序列，以产生目标蛋白质复合物的MSA包括：

确定各单链MSA间的相似度得分矩阵；

基于所述相似度得分矩阵，确定目标蛋白质复合物的MSA。

9.一种用于预测蛋白质复合物结构的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。