CN117912566A

CN117912566A - 抗原抗体的复合体构象的获取方法、装置及电子设备

Info

Publication number: CN117912566A
Application number: CN202410137781.2A
Authority: CN
Inventors: 郜杰; 胡靖�; 刘荔行; 朱昆睿; 方晓敏; 张肖男; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-19

Abstract

本公开提供了一种抗原抗体的复合体构象的获取方法、装置及电子设备，涉及人工智能技术领域，具体涉及生物计算技术领域。具体实施方案为：获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列；对氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象；根据氨基酸序列、蛋白链的MSA序列和参考构象，获取抗原抗体的复合体构象。

Description

抗原抗体的复合体构象的获取方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，具体涉及生物计算技术领域，尤其涉及一种抗原抗体的复合体构象的获取方法、装置及电子设备。

背景技术

蛋白质构象尤其是蛋白复合体构象在生命科学研究中占有重要的意义，其不仅揭示了蛋白质之间相互作用的机制，还为药物设计、疾病研究和基因组学等领域提供了有价值的工具和见解。

抗原抗体复合体构象是其中一类特殊的蛋白复合体，抗原抗体的复合体构象决定了其在人体内发挥的功能，也决定了抗体活性，对抗体药物设计有重要的作用。然而，绝大部分抗体抗原复合体构象未知，基于实验的方法得到抗原抗体复合体构象的成本较高。

发明内容

本公开提供了一种用于抗原抗体的复合体构象的获取方法、装置及电子设备。

根据本公开的一方面，提供了一种抗原抗体的复合体构象的获取方法，包括：获取氨基酸序列，其中所述氨基酸序列包括抗原序列和参考抗体序列；对所述氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和所述蛋白链对应的参考构象；根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象。

根据本公开的另一方面，提供了一种抗原抗体的复合体构象的获取装置，包括：第一获取模块，用于获取氨基酸序列，其中所述氨基酸序列包括抗原序列和参考抗体序列；MSA模块，用于对所述氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和所述蛋白链对应的参考构象；第二获取模块，用于根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的抗原抗体的复合体构象的获取方法。

根据本公开另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序/指令，所述计算机指令用于使所述计算机执行上述一方面实施例所述的抗原抗体的复合体构象的获取方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的抗原抗体的复合体构象的获取方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种抗原抗体的复合体构象的获取方法的流程示意图；

图2为本公开实施例提供的另一种抗原抗体的复合体构象的获取方法的流程示意图；

图3为本公开实施例提供的另一种抗原抗体的复合体构象的获取方法的流程示意图；

图4为本公开实施例提供的另一种抗原抗体的复合体构象的获取方法的流程示意图；

图5为本公开实施例提供的对抗体序列进行优化的流程示意图；

图6为本公开实施例提供的另一种抗原抗体的复合体构象的获取方法的流程示意图；

图7为本公开实施例提供的获取复合体构象的流程示意图；

图8为本公开实施例提供的获取复合体构象的结构示意图；

图9为本公开实施例提供的一种抗原抗体的复合体构象的获取装置的结构示意图；

图10为用来实现本公开实施例的抗原抗体的复合体构象的获取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的抗原抗体的复合体构象的获取方法、装置和电子设备。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

生物计算是一种借鉴生物系统的原理和机制来解决计算问题的领域。它将生物学的一些特性和过程应用于计算系统中，以改进计算效率和性能。生物计算的目标是从生物系统中获取灵感，并将其转化为新的计算方法和技术，以解决复杂的问题。它在优化、模式识别、数据分析和仿真等领域都有广泛的应用，并且正在不断发展和扩展。

本公开实施例提供的抗原抗体的复合体构象的获取方法可以应用在药物设计，如抗体药物设计、嵌合抗原受体T细胞免疫疗法(Chimeric Antigen Receptor T-CellImmunotherapy，CAR-T)、嵌合抗原受体NK细胞治疗(Chimeric Antigen Receptor Naturekiller cell Immunotherapy，CAR-NK)、抗体偶联药物(Antibody-Drug Conjugates，ADC)设计等，以及免疫疾病机理研究等领域。

图1为本公开实施例提供的一种抗原抗体的复合体构象的获取方法的流程示意图。

如图1所示，该抗原抗体的复合体构象的获取方法，可包括：

S101，获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列。

需要说明的是，本公开实施例中抗原抗体的复合体构象的获取方法的执行主体可为具有数据处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括服务器、用户终端及其他智能设备。可选地，用户终端包括但不限于手机、电脑、智能语音交互设备等。可选地，服务器包括但不限于网络服务器、应用服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器等。本公开实施例不作具体限定。

可以理解的是，氨基酸序列是指蛋白质分子中由一系列氨基酸组成的顺序，它是蛋白质结构和功能的基础。抗原序列指的是一种生物分子(如蛋白质)或化学物质的序列，它可以被免疫系统识别并引发免疫应答。例如，在免疫学中抗原序列通常指的是蛋白质抗原的氨基酸序列。

抗体序列是由基因组中的免疫球蛋白基因编码的序列。每种抗体都有其独特的氨基酸序列，可以与特定的抗原结合。

在一些实现中，可以基于测序技术和基因组学方法，获取氨基酸序列，和/或，从蛋白质数据库中获取氨基酸序列。获取到的氨基酸序列包括抗原序列和参考抗体序列。

S102，对氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。

可以理解的是，多序列比对(Multiple Sequence Alignment，MSA)的可以用于分析氨基酸序列中不同蛋白链之间的相似性和差异性。通过MSA可以得到每条蛋白链的对比序列。

在一些实现中，可以基于MSA的算法，或者使用MSA的搜索工具，对氨基酸序列进行MSA，得到与氨基酸序列中每条蛋白链相似的MSA序列，以及蛋白链对应的参考构象。

S103，根据氨基酸序列、蛋白链的MSA序列和参考构象，获取抗原抗体的复合体构象。

在一些实现中，可以通过对氨基酸序列、蛋白链的MSA序列，进行特征提取，得到氨基酸和MSA序列的特征并对特征进行编码，得到氨基酸对的编码表示，以及MSA序列的编码表示。

进一步地，基于参考构象对氨基酸对的编码表示和MSA序列的编码表示进行优化更新。可选地，可以通过获取参考构象的结构特征，并将结构特征与氨基酸对的编码表示和MSA序列的编码表示进行融合，实现对氨基酸对的编码表示和MSA序列的编码表示进行优化更新。

进一步地，基于优化后的MSA序列的编码表示，确定氨基酸的编码表示，并根据氨基酸的编码表示和优化后的氨基酸对的编码表示，预测蛋白质的残基坐标，进而基于残基坐标构建抗原抗体的复合体构象。

可以理解的是，在蛋白质结构中，每个氨基酸残基都有其特定的三维空间坐标，称为残基坐标。残基坐标描述了氨基酸残基在三维空间中的位置和方向。其中，残基指的是由氨基酸组成的基本单元。

根据本公开实施例提供的抗原抗体的复合体构象的获取方法，通过获取氨基酸序列，并对氨基酸序列进行MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。进而通过对氨基酸序列、MSA序列和参考构象进行编码和优化，进而可以预测蛋白质的残基坐标，并构建复合体构象，提升了抗原抗体复合体构象预测的准确度，降低了复合体构象的预测成本。同时，也为与抗原抗体相关的药物设计提供了基础，有助于推动抗体药物设计的发展。

图2为本公开实施例提供的一种抗原抗体的复合体构象的获取方法的流程示意图。

如图2所示，该抗原抗体的复合体构象的获取方法，可包括：

S201，获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列。

S202，对氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。

步骤S201-S202的相关内容可参见上述实施例，这里不再赘述。

S203，获取氨基酸序列中氨基酸对之间的第一氨基酸对编码。

在一些实现中，可以基于氨基酸的位置关系，对氨基酸对进行编码，得到氨基酸对之间的第一氨基酸对编码，便于理解氨基酸之间的相互作用和联系，进而加深对蛋白质结构的理解。

在一些实现中，可以将氨基酸序列转换为编码表示，进而根据氨基酸在氨基酸序列中的位置，得到第一氨基酸对编码。通过对氨基酸序列进行嵌入层编码，得到氨基酸序列的嵌入编码，该嵌入编码就是氨基酸序列的编码表示。

进一步地，可以基于氨基酸的索引值，将氨基酸与其在序列中的位置进行关联。通过对氨基酸序列中氨基酸的索引值进行编码，得到位置编码，并对嵌入编码和位置编码进行融合，得到第一氨基酸对编码。

S204，根据MSA序列的特征和氨基酸序列的特征，得到第一MSA编码。

在一些实现中，通过对MSA序列和氨基酸序列进行特征化，得到MSA序列的特征和氨基酸序列的特征，并将MSA序列的特征和氨基酸序列的特征进行结合并编码，可以得到第一MSA编码，实现将MSA序列和氨基酸序的信息进行融合。

S205，根据第一氨基酸对编码、第一MSA编码和参考构象，获取抗原抗体的复合体构象。

在一些实现中，可以基于参考构象，对第一氨基酸对编码和第一MSA编码进行优化，得到优化后的第二氨基酸对编码和第二MSA编码。进而对第二氨基酸对编码和第二MSA编码进行残基坐标的预测，以构建抗原抗体的复合体构象。

可选地，可以基于参考构象的特征，对第一氨基酸对编码和第一MSA编码进行优化。可以将参考构象的特征进行编码，并与第一氨基酸对编码和第一MSA编码进行拼接融合，得到第二氨基酸对编码和第二MSA编码。

根据本公开实施例提供的抗原抗体的复合体构象的获取方法，通过获取氨基酸序列，并对氨基酸序列进行MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。通过对氨基酸序列进行嵌入层编码和索引值编码，得到第一氨基酸对编码。通过获取MSA序列的特征和氨基酸序列的特征，并进行编码得到第一MSA编码。进一步地，基于参考构象对第一氨基酸对编码和第一MSA编码进行优化，并预测蛋白质的残基坐标，构建复合体构象，提升了抗原抗体复合体构象预测的准确度，降低了复合体构象的预测成本。同时，也为与抗原抗体相关的药物设计提供了基础，有助于推动抗体药物设计的发展。

图3为本公开实施例提供的一种抗原抗体的复合体构象的获取方法的流程示意图。

如图3所示，该抗原抗体的复合体构象的获取方法，可包括：

S301，获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列。

S302，对氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。

S303，获取氨基酸序列中氨基酸对之间的第一氨基酸对编码。

S304，根据MSA序列的特征和氨基酸序列的特征，得到第一MSA编码。

步骤S301-S304的相关内容可参见上述实施例，这里不再赘述。

S305，获取参考构象的配对特征，并对配对特征进行编码，得到参考构象的第二编码，以及对第一氨基酸对编码和第二编码进行拼接，得到第二氨基酸对编码。

S306，获取参考构象的角度特征，并对角度特征进行编码，得到参考构象的第一编码，以及对第一MSA编码和第一编码进行拼接，得到第二MSA编码。

在一些实现中，参考构象的特征包括但不限于：配对特征和角度特征。其中，配对特征描述了氨基酸之间的相互作用特征，角度特征反映了氨基酸之间的空间排布。

在一些实现中，通过对参考构象进行特征提取，可以获取参考构象的配对特征和角度特征。进而分别对配对特征和角度特征进行编码，得到配对特征的第二编码和角度特征的第一编码。

进一步地，将第一氨基酸对编码和第二编码进行拼接，得到第二氨基酸对编码，可以将配对特征融合至第二氨基酸对编码上，实现对第一氨基酸对编码的优化。将第一MSA编码和第一编码进行拼接，得到第二MSA编码，可以将角度特征融合至第二MSA编码上，实现对第一MSA编码的优化。

可选地，可以将第二编码拼接在第一氨基酸对编码的后方，得到第二氨基酸对编码；将第一编码拼接第一MSA编码的后方，得到第二MSA编码。

S307，根据第二氨基酸对编码和第二MSA编码，获取抗原抗体的复合体构象。

在一些实现中，为了将第二氨基酸对编码和第二MSA编码进行信息交互，进一步实现对第二氨基酸对编码和第二MSA编码的优化，可以将第二氨基酸对编码和第二MSA编码输入模型骨架Evoformer网络中，通过Evoformer网络对第二氨基酸对编码和第二MSA编码进行信息交互，获取优化后的第三氨基酸对编码和第三MSA编码。

可以理解的是，Evoformer网络由三角自注意力(Triangle self-attention)构成，Triangle self-attention包括行注意力(Row-wise gated attention)和列注意力(Column-wise gated attention)。

可选地，通过将第二氨基酸对编码和第二MSA编码输入至Row-wise gatedattention和Column-wise gated attention中，实现对第二氨基酸对编码和第二MSA编码中行、列信息的交互，得到第三氨基酸对编码和第三MSA编码。

进一步地，可以根据第三氨基酸对编码和第三MSA编码，获取抗原抗体的复合体构象。可以通过获取蛋白质的原子三维坐标，也就是残基坐标，直观呈现复合体构象的空间结构，提升了构建抗原抗体的复合体构象的准确性。可选地，可以基于氨基酸编码、氨基酸对编码和结构信息预测原子三维坐标。

在一些实现中，氨基酸编码是MSA编码中的第一行，通过获取第三MSA编码的第一行元素，并对第一行元素进行变换，得到氨基酸编码。可选地，可以基于神经网络，对第一行元素进行变换。

进一步地，可以根据氨基酸编码和第三氨基酸对编码，以及初始化的结构信息进行坐标预测，得到蛋白质的原子三维坐标。可选地，结构信息可以对氨基酸编码和第三氨基酸对编码进行更新，实现在氨基酸编码和第三氨基酸对中增加空间结构信息，有助于提高预测复合体构象的准确性。

可选地，可以将氨基酸编码和第三氨基酸对编码输入不变性注意力网络(Invariant Point Attention，IPA)网络中进行处理，得到候选氨基酸编码和候选氨基酸对编码。其中，IPA网络用于构建氨基酸之间的互作用。

同时，将氨基酸编码和结构信息输入链级别信息交互网络(Invariant PointAttention，CIN)网络中进行处理，并基于CIN网络的输出对候选氨基酸编码和候选氨基酸对编码进行更新，得到目标氨基酸编码和目标氨基酸对编码。

进一步地，基于目标氨基酸编码和目标氨基酸对编码，获取原子三维坐标，并根据原子三维坐标，确定抗原抗体的复合体构象。可选地，可以基于分子对接软件，利用原子三维坐标，生成抗原抗体的复合体构象。

根据本公开实施例提供的抗原抗体的复合体构象的获取方法，通过获取氨基酸序列，并对氨基酸序列进行MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。通过对氨基酸序列进行嵌入层编码和索引值编码，得到第一氨基酸对编码。通过获取MSA序列的特征和氨基酸序列的特征并进行编码，得到第一MSA编码。进一步地，获取参考构象的特征对第一氨基酸对编码和第一MSA编码进行优化，得到第二氨基酸对编码和第二MSA编码，并使用Evoformer网络对第二氨基酸对编码和第二MSA编码进行更新，得到第三氨基酸对编码和第三MSA编码。进而根据第三MSA编码确定氨基酸编码，并基于氨基酸编码和第三氨基酸对编码，以及初始化的结构信息预测蛋白质的原子三维坐标，并构建复合体构象。本公开实施例的方法通过获取氨基酸的空间结构信息，以及氨基酸之间的互作用，提升了抗原抗体复合体构象预测的准确度，降低了复合体构象的预测成本。同时，也为与抗原抗体相关的药物设计提供了基础，有助于推动抗体药物设计的发展。

图4为本公开实施例提供的一种抗原抗体的复合体构象的获取方法的流程示意图。

如图4所示，该抗原抗体的复合体构象的获取方法，可包括：

S401，获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列。

S402，对氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。

S403，根据氨基酸序列、蛋白链的MSA序列和参考构象，获取抗原抗体的复合体构象。

步骤S401-S403的相关内容可参见上述实施例，这里不再赘述。

S404，根据复合体构象，获取参考抗体序列的抗体属性，并对参考抗体序列的抗体属性进行期望验证。

在一些实现中，对参考抗体序列的抗体属性进行期望验证，可以验证抗体属性是否达到要求，并在未达到要求时，对参考抗体序列进行优化，以提升参考抗体序列的抗体属性。

在一些实现中，可以基于复合体构象获取抗体属性。可选地，抗体属性包括但不限于：抗体与抗原的亲和力、抗体免疫原性、抗体的溶解度等。可选地，可以基于多个预先训练的抗体属性预测模型，分别对复合体构象进行抗体属性的预测，得到参考抗体序列的多个抗体属性。还可以基于一个抗体属性预测模型，对复合体构象进行抗体属性的预测，联合输出参考抗体序列的多个抗体属性。

进一步地，在得到了参考抗体序列的抗体属性后，可以确定每类抗体属性的属性值，通过将属性值与其对应的判断条件进行比较，可以实现对参考抗体序列的抗体属性进行验证，以验证抗体属性是否通过期望验证。

在一些实现中，参考抗体序列的抗体属性至少包括抗体与抗原的亲和力和抗体免疫原性。可以基于抗体与抗原的亲和力和抗体免疫原性的阈值，确定参考抗体序列的每类抗体属性各自的判定条件。

可选地，可以基于每类抗体属性各自的阈值，获取参考抗体序列的每类抗体属性各自的判定条件。进而将参考抗体序列的每类抗体属性的属性值与各自的判断条件进行比较，以对参考抗体序列的抗体属性进行验证。

可选地，响应于亲和力属性值大于亲和力阈值，且抗体免疫原性的属性值小于抗体免疫原性阈值，确定抗体属性通过期望验证，否则抗体属性未通过期望验证。

可选地，若参考抗体序列的抗体属性通过期望验证，确定参考抗体序列为抗原序列的目标抗体序列。若参考抗体序列的抗体属性未通过期望验证，对参考抗体序列进行突变，并重新获取复合体构象，直至迭代出的抗体序列为抗原序列的目标抗体序列。

在一些实现中，当参考抗体序列的抗体属性未通过期望验证时，可以对参考抗体序列进行突变，在参考抗体序列的基础上改善其性能，以优化参考抗体序列的抗体属性。可选地，可以通过获取参考抗体序列的可突变区域，并基于可突变区域对参考抗体序列进行突变，得到至少一个抗体序列。

根据本公开实施例提供的抗原抗体的复合体构象的获取方法，通过获取氨基酸序列，并对氨基酸序列进行MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。进而通过对氨基酸序列、MSA序列和参考构象进行编码和优化，进而可以预测蛋白质的残基坐标，并构建复合体构象，提升了抗原抗体复合体构象预测的准确度，降低了复合体构象的预测成本。同时，也为与抗原抗体相关的药物设计提供了基础，有助于推动抗体药物设计的发展。进一步地，基于复合体构象预测抗体属性，实现对抗体序列的优化，可以实现定向的设计优化抗体，从而提升了设计成功率。

如图5所示的对抗体序列进行优化的流程示意图。图5以对亲和力进行优化为例进行说明。通过获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列，使用本公开实施例的方法，对氨基酸序列的抗原抗体的复合体构象进行预测，得到抗原抗体的复合体构象。进而预测复合体构象的亲和力，并判断亲和力是否通过期望验证，在通过期望验证时，确定参考抗体序列为目标抗体序列；在未通过期望验证时，对参考抗体序列进行序列突变，并重新执行上述步骤。

示例性说明，使用本公开实施例提供的方法，获取抗原抗体的复合体构象，并对复合体构象的亲和力进行优化。

1、输入一个氨基酸序列，包括参考抗体序列和抗原序列，其中参考抗体序列可以为野生型抗体序列。

2、根据输入的序列，使用本公开实施例提供的方法进行抗原抗体复合体构象预测。

3、根据构象预测结果，使用分子动力学相关的方式，对亲和力进行预测。比如使用分子动力学(Molecular Mechanics Generalized Born Surface Area，MMGBSA)，或者Foldx模型等进行亲和力预测。

4、根据预测结果判断亲和力是否满足要求。例如，判断亲和力是否大于设定阈值。如果满足要求则得到优化后的抗体序列。如果不满足要求则进行第5步。

5、对抗体序列进行突变，并重新进行上述步骤。(比如可以突变抗体序列的重链或者轻链的高可变区域。)

图6为本公开实施例提供的一种抗原抗体的复合体构象的获取方法的流程示意图。

如图6所示，该抗原抗体的复合体构象的获取方法，可包括：

S601，获取氨基酸序列，其中氨基酸序列包括抗原序列和参考抗体序列。

S602，对氨基酸序列进行MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。

S603，获取氨基酸序列中氨基酸对之间的第一氨基酸对编码。

S604，根据MSA序列的特征和氨基酸序列的特征，得到第一MSA编码。

S605，获取参考构象的配对特征，并对配对特征进行编码，得到参考构象的第二编码，以及对第一氨基酸对编码和第二编码进行拼接，得到第二氨基酸对编码。

S606，获取参考构象的角度特征，并对角度特征进行编码，得到参考构象的第一编码，以及对第一MSA编码和第一编码进行拼接，得到第二MSA编码。

S607，将第二氨基酸对编码和第二MSA编码输入Evoformer网络中，通过Evoformer网络对第二氨基酸对编码和第二MSA编码进行信息交互，获取优化后的第三氨基酸对编码和第三MSA编码。

S608，获取第三MSA编码的第一行元素，并对第一行元素进行变换，得到氨基酸编码。

S609，根据氨基酸编码和第三氨基酸对编码，以及初始化的结构信息进行坐标预测，得到蛋白质的原子三维坐标。

S610，根据原子三维坐标，确定抗原抗体的复合体构象。

图7所示的获取复合体构象的流程示意图。获取氨基酸序列，并对氨基酸序列进行MSA，得到MSA序列和参考构象，并将氨基酸序列、MSA序列和参考构象，输入至特征提取模块中，分别获取氨基酸序列、MSA序列和参考构象的特征，并对特征进行编码得到编码表示。进一步地，将编码表示输入至几何建模模块中，对编码表示进行优化，得到优化后的编码表示。进而由结构预测模块对优化后的编码表示进行残基坐标的预测，并基于残基坐标构建复合体构象，最终输出复合体构象。

图8为获取复合体构象的结构示意图。通过获取氨基酸序列，并对氨基酸序列进行MSA，得到MSA序列和参考构象，通过对氨基酸对进行编码得到第一氨基酸对编码，对MSA序列进行编码得到第一MSA编码。基于第一MSA编码和第一氨基酸对编码，结合参考构象的特征，对第一MSA编码和第一氨基酸对编码进行拼接，得到第二氨基酸对编码和第二MSA编码，并一同输入至Evoformer网络中，由Evoformer网络中对第二氨基酸对编码和第二MSA编码进行优化，输出第三氨基酸对编码和第三MSA编码。可以从第三MSA编码中获取氨基酸编码，并将氨基酸编码和第三氨基酸对编码输入至IPA网络中进行处理，将氨基酸编码和结构信息输入至CIN网络中进行处理，最终得到目标氨基酸编码和目标氨基酸对编码。结合目标氨基酸编码和目标氨基酸对编码，对蛋白质的原子三维坐标进行预测，并构建复合体构象。

本公开实施例适用于需在给定抗原抗体序列，预测其复合体构象的场景，包括但不限于以下场景：

抗原抗体对接：本公开实施例可用于预测抗原抗体复合体构象，从而辅助于抗体设计。

抗原抗体构象预测：本公开实施例可用于预测抗原抗体复合体构象预测，从而辅助于对接面分析，亲和力成熟等。

抗原表位发现：本公开实施例可用于抗原表位分析，通过多次或者单次预测抗原抗体复合体构象，然后根据对接面的分析可以得到抗原表位信息。

抗体优化：本公开实施例可用于抗体优化，预测抗原抗体复合体构象，然后根据构象的对接及残基特征分析，可以用于抗体的性质优化，包括但不限于亲和力，免疫原性，活性等。

疾病机制研究：很多疾病的发生和发展与蛋白质之间的异常相互作用有关。蛋白-蛋白对接可以帮助研究人员理解这些异常相互作用的分子机制，从而为疾病的诊断和治疗提供新的思路。

与上述几种实施例提供的抗原抗体的复合体构象的获取方法相对应，本公开的一个实施例还提供了一种抗原抗体的复合体构象的获取装置，由于本公开实施例提供的抗原抗体的复合体构象的获取装置与上述几种实施例提供的抗原抗体的复合体构象的获取方法相对应，因此上述抗原抗体的复合体构象的获取方法的实施方式也适用于本公开实施例提供的抗原抗体的复合体构象的获取装置，在下述实施例中不再详细描述。

图9为本公开实施例提供的一种抗原抗体的复合体构象的获取装置的结构示意图。

如图9所示，本公开实施例的抗原抗体的复合体构象的获取装置900，包括第一获取模块901、MSA模块902和第二获取模块903。

第一获取模块901，用于获取氨基酸序列，其中所述氨基酸序列包括抗原序列和参考抗体序列。

MSA模块902，用于对所述氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和所述蛋白链对应的参考构象。

第二获取模块903，用于根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象。

在本公开的一个实施例中，所述第二获取模块903，还用于：获取所述氨基酸序列中氨基酸对之间的第一氨基酸对编码；根据所述MSA序列的特征和所述氨基酸序列的特征，得到第一MSA编码；根据所述第一氨基酸对编码、所述第一MSA编码和所述参考构象，获取抗原抗体的复合体构象。

在本公开的一个实施例中，所述第二获取模块903，还用于：对所述氨基酸序列进行嵌入层编码，得到所述氨基酸序列的嵌入编码；对所述氨基酸序列中氨基酸的索引值进行编码，得到位置编码；对所述嵌入编码和所述位置编码进行融合，得到所述第一氨基酸对编码。

在本公开的一个实施例中，所述第二获取模块903，还用于：获取所述参考构象的配对特征，并对所述配对特征进行编码，得到所述参考构象的第二编码，以及对所述第一氨基酸对编码和所述第二编码进行拼接，得到第二氨基酸对编码；获取所述参考构象的角度特征，并对所述角度特征进行编码，得到所述参考构象的第一编码，以及对所述第一MSA编码和所述第一编码进行拼接，得到第二MSA编码；根据所述第二氨基酸对编码和所述第二MSA编码，获取抗原抗体的复合体构象。

在本公开的一个实施例中，所述第二获取模块903，还用于：将所述第二氨基酸对编码和所述第二MSA编码输入模型骨架Evoformer网络中，通过所述Evoformer网络对所述第二氨基酸对编码和所述第二MSA编码进行信息交互，获取优化后的第三氨基酸对编码和第三MSA编码；根据所述第三氨基酸对编码和第三MSA编码，获取抗原抗体的复合体构象。

在本公开的一个实施例中，所述第二获取模块903，还用于：获取所述第三MSA编码的第一行元素，并对所述第一行元素进行变换，得到氨基酸编码；根据所述氨基酸编码和所述第三氨基酸对编码，以及初始化的结构信息进行坐标预测，得到蛋白质的原子三维坐标；根据所述原子三维坐标，确定所述抗原抗体的复合体构象。

在本公开的一个实施例中，所述第二获取模块903，还用于：将所述氨基酸编码和所述第三氨基酸对编码输入不变性注意力网络IPA网络中进行处理，得到候选氨基酸编码和候选氨基酸对编码；将所述氨基酸编码和所述结构信息输入链级别信息交互网络CIN网络中进行处理，并基于所述CIN网络的输出对所述候选氨基酸编码和所述候选氨基酸对编码进行更新，得到目标氨基酸编码和目标氨基酸对编码。

在本公开的一个实施例中，所述装置还包括：验证模块，用于根据所述复合体构象，获取所述参考抗体序列的抗体属性，并对所述参考抗体序列的抗体属性进行期望验证。

在本公开的一个实施例中，所述验证模块，还用于：若所述参考抗体序列的抗体属性通过期望验证，确定所述参考抗体序列为所述抗原序列的目标抗体序列；若所述参考抗体序列的抗体属性未通过期望验证，对所述参考抗体序列进行突变，并重新获取所述复合体构象，直至迭代出的抗体序列为所述抗原序列的目标抗体序列。

在本公开的一个实施例中，所述验证模块，还用于：获取所述参考抗体序列的每类抗体属性各自的判定条件；将所述参考抗体序列的每类抗体属性的属性值与各自的判断条件进行比较，以对所述参考抗体序列的抗体属性进行验证。

在本公开的一个实施例中，所述抗体属性至少包括抗体与抗原的亲和力和抗体免疫原性。

在本公开的一个实施例中，所述验证模块，还用于：获取所述参考抗体序列的可突变区域，并基于所述可突变区域对所述参考抗体序列进行突变，得到至少一个抗体序列。

根据本公开实施例提供的抗原抗体的复合体构象的获取装置，通过获取氨基酸序列，并对氨基酸序列进行MSA，得到每条蛋白链的MSA序列和蛋白链对应的参考构象。进而通过对氨基酸序列、MSA序列和参考构象进行编码和优化，进而可以预测蛋白质的残基坐标，并构建复合体构象，提升了抗原抗体复合体构象预测的准确度，降低了复合体构象的预测成本。同时，也为与抗原抗体相关的药物设计提供了基础，有助于推动抗体药物设计的发展。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序/指令或者从存储单元1006载到随机访问存储器(RAM)1003中的计算机程序/指令，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如抗原抗体的复合体构象的获取方法。例如，在一些实施例中，抗原抗体的复合体构象的获取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1006些实施例中，计算机程序/指令的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序/指令加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的抗原抗体的复合体构象的获取方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行抗原抗体的复合体构象的获取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序/指令中，该一个或者多个计算机程序/指令可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序/指令来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种抗原抗体的复合体构象的获取方法，其中，所述方法包括：

获取氨基酸序列，其中所述氨基酸序列包括抗原序列和参考抗体序列；

对所述氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和所述蛋白链对应的参考构象；

根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象。

2.根据权利要求1所述的方法，其中，所述根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象，包括：

获取所述氨基酸序列中氨基酸对之间的第一氨基酸对编码；

根据所述MSA序列的特征和所述氨基酸序列的特征，得到第一MSA编码；

根据所述第一氨基酸对编码、所述第一MSA编码和所述参考构象，获取抗原抗体的复合体构象。

3.根据权利要求2所述的方法，其中，所述获取所述氨基酸序列中氨基酸对之间的第一氨基酸对编码，包括：

对所述氨基酸序列进行嵌入层编码，得到所述氨基酸序列的嵌入编码；

对所述氨基酸序列中氨基酸的索引值进行编码，得到位置编码；

对所述嵌入编码和所述位置编码进行融合，得到所述第一氨基酸对编码。

4.根据权利要求2所述的方法，其中，所述根据所述第一氨基酸对编码、所述第一MSA编码和所述参考构象，获取抗原抗体的复合体构象，包括：

获取所述参考构象的配对特征，并对所述配对特征进行编码，得到所述参考构象的第二编码，以及对所述第一氨基酸对编码和所述第二编码进行拼接，得到第二氨基酸对编码；

获取所述参考构象的角度特征，并对所述角度特征进行编码，得到所述参考构象的第一编码，以及对所述第一MSA编码和所述第一编码进行拼接，得到第二MSA编码；

根据所述第二氨基酸对编码和所述第二MSA编码，获取抗原抗体的复合体构象。

5.根据权利要求4所述的方法，其中，所述根据所述第二氨基酸对编码和所述第二MSA编码，获取抗原抗体的复合体构象，包括：

将所述第二氨基酸对编码和所述第二MSA编码输入模型骨架Evoformer网络中，通过所述Evoformer网络对所述第二氨基酸对编码和所述第二MSA编码进行信息交互，获取优化后的第三氨基酸对编码和第三MSA编码；

根据所述第三氨基酸对编码和第三MSA编码，获取抗原抗体的复合体构象。

6.根据权利要求5所述的方法，其中，所述根据所述第三氨基酸对编码和第三MSA编码，获取抗原抗体的复合体构象，包括：

获取所述第三MSA编码的第一行元素，并对所述第一行元素进行变换，得到氨基酸编码；

根据所述氨基酸编码和所述第三氨基酸对编码，以及初始化的结构信息进行坐标预测，得到蛋白质的原子三维坐标；

根据所述原子三维坐标，确定所述抗原抗体的复合体构象。

7.根据权利要求6所述的方法，其中，所述根据所述氨基酸编码和所述第三氨基酸对编码，以及初始化的结构信息进行坐标预测，得到蛋白质的原子三维坐标，包括：

将所述氨基酸编码和所述第三氨基酸对编码输入不变性注意力网络IPA网络中进行处理，得到候选氨基酸编码和候选氨基酸对编码；

将所述氨基酸编码和所述结构信息输入链级别信息交互网络CIN网络中进行处理，并基于所述CIN网络的输出对所述候选氨基酸编码和所述候选氨基酸对编码进行更新，得到目标氨基酸编码和目标氨基酸对编码。

8.根据权利要求1-7中任一项所述的方法，其中，所述根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象之后，还包括：

根据所述复合体构象，获取所述参考抗体序列的抗体属性，并对所述参考抗体序列的抗体属性进行期望验证。

9.根据权利要求8所述的方法，其中，所述方法还包括：

若所述参考抗体序列的抗体属性通过期望验证，确定所述参考抗体序列为所述抗原序列的目标抗体序列；

若所述参考抗体序列的抗体属性未通过期望验证，对所述参考抗体序列进行突变，并重新获取所述复合体构象，直至迭代出的抗体序列为所述抗原序列的目标抗体序列。

10.根据权利要求9所述的方法，其中，所述对所述参考抗体序列的抗体属性进行期望验证，包括：

获取所述参考抗体序列的每类抗体属性各自的判定条件；

将所述参考抗体序列的每类抗体属性的属性值与各自的判断条件进行比较，以对所述参考抗体序列的抗体属性进行验证。

11.根据权利要求10所述的方法，其中，所述抗体属性至少包括抗体与抗原的亲和力和抗体免疫原性。

12.根据权利要求9所述的方法，其中，所述对所述参考抗体序列进行突变，包括：

获取所述参考抗体序列的可突变区域，并基于所述可突变区域对所述参考抗体序列进行突变，得到至少一个抗体序列。

13.一种抗原抗体的复合体构象的获取装置，其中，所述装置包括：

第一获取模块，用于获取氨基酸序列，其中所述氨基酸序列包括抗原序列和参考抗体序列；

MSA模块，用于对所述氨基酸序列进行多序列比对MSA，得到每条蛋白链的MSA序列和所述蛋白链对应的参考构象；

第二获取模块，用于根据所述氨基酸序列、所述蛋白链的MSA序列和所述参考构象，获取抗原抗体的复合体构象。

14.根据权利要求13所述的装置，其中，所述第二获取模块，还用于：

获取所述氨基酸序列中氨基酸对之间的第一氨基酸对编码；

15.根据权利要求14所述的装置，其中，所述第二获取模块，还用于：

16.根据权利要求14所述的装置，其中，所述第二获取模块，还用于：

17.根据权利要求16所述的装置，其中，所述第二获取模块，还用于：

18.根据权利要求17所述的装置，其中，所述第二获取模块，还用于：

根据所述原子三维坐标，确定所述抗原抗体的复合体构象。

19.根据权利要求18所述的装置，其中，所述第二获取模块，还用于：

20.根据权利要求13-19中任一项所述的装置，其中，所述装置还包括：

验证模块，用于根据所述复合体构象，获取所述参考抗体序列的抗体属性，并对所述参考抗体序列的抗体属性进行期望验证。

21.根据权利要求20所述的装置，其中，所述验证模块，还用于：

22.根据权利要求21所述的装置，其中，所述验证模块，还用于：

获取所述参考抗体序列的每类抗体属性各自的判定条件；

23.根据权利要求22所述的装置，其中，所述抗体属性至少包括抗体与抗原的亲和力和抗体免疫原性。

24.根据权利要求21所述的装置，其中，所述验证模块，还用于：

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-12中任一项所述的方法。