CN114464247A

CN114464247A - 基于抗原和抗体序列的结合亲和力预测方法和装置

Info

Publication number: CN114464247A
Application number: CN202210114590.5A
Authority: CN
Inventors: 赵宇; 黄志安; 姚建华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-05-10

Abstract

本申请公开了一种基于抗原和抗体序列的结合亲和力预测方法和装置。其中，该方法包括：获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，将M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，将M个融合特征输入到目标预测神经网络模型，得到预测的结合亲和力参数。本申请至少可以应用于智能医疗领域，本申请解决了相关技术中存在的抗原和抗体的结合亲和力预测方式复杂，预测效率较低的技术问题。

Description

基于抗原和抗体序列的结合亲和力预测方法和装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种基于抗原和抗体序列的结合亲和力预测方法和装置。

背景技术

蛋白质间相互作用(Protein-Protein Interaction,PPI)对于人体中广泛的生物学活动和功能至关重要，其中包括免疫系统。抗体-抗原系统是所有PPI中最重要的系统之一，常用的抗体亲和力测定方法，过程费时费力，而且具有很大的局限性，无法有效推断出影响抗体亲和力的重要因素，近年来利用计算辅助模型来预测抗体亲和力成为重要突破口，但这些计算模型往往需要三维蛋白结构信息或PPI热力学信息输入到计算模型中，考虑到目前这些信息仍难以获取，故不适用于处理大型多样的数据集，导致相关技术中存在的抗原和抗体的结合亲和力预测方式复杂，预测准确率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于抗原和抗体序列的结合亲和力预测方法和装置，以至少解决相关技术中存在的抗原和抗体的结合亲和力预测方式复杂，预测效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种基于抗原和抗体序列的结合亲和力预测方法，包括：获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；对所述M个维度的初始特征进行融合，得到M个融合特征；根据所述M个融合特征确定预测的结合亲和力参数，其中，所述预测的结合亲和力参数用于表示所述目标抗原与所述目标抗体的预测的结合亲和力。

根据本申请实施例的一个方面，提供了一种基于抗原和抗体序列的结合亲和力训练方法，包括：获取T个训练样本和对应的T个实际结合亲和力参数，其中，每个训练样本包括样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，每个实际结合亲和力参数用于表示对应的训练样本中的所述样本抗原和所述样本抗体的实际的结合亲和力；根据所述每个训练样本中的所述样本抗原的所述第一样本氨基酸序列和所述样本抗体的所述第二样本氨基酸序列，确定对应的一组样本初始特征，共得到T组样本初始特征，其中，每组样本初始特征包括M个维度的样本初始特征；使用所述T组样本初始特征和所述T个实际结合亲和力参数，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，得到所述目标特征融合模型和所述目标预测神经网络模型，其中，所述初始特征融合模型包括待训练的N个初始专家网络模型和M个初始门网络模型，T、M、N均为大于或等于2的整数。

根据本申请实施例的一个方面，提供了一种基于抗原和抗体序列的结合亲和力预测装置，包括：获取模块，用于获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；确定模块，用于根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；第一处理模块，用于对所述M个维度的初始特征进行融合，得到M个融合特征；第二处理模块，用于根据所述M个融合特征确定预测的结合亲和力参数，其中，所述预测的结合亲和力参数用于表示所述目标抗原与所述目标抗体的预测的结合亲和力。

可选地，所述装置用于通过如下至少之二的方式根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定M个维度的初始特征：根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定蛋白质结构动力学特征；根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定序列词向量特征；根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定功能性或结构性特征。

可选地，所述装置用于通过如下方式根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定蛋白质结构动力学特征：获取与所述第一氨基酸序列和所述第二氨基酸序列对应的蛋白质结构信息文件；将所述蛋白质结构信息文件输入到第一目标特征生成网络模型，得到所述蛋白质结构动力学特征，其中，所述第一目标特征生成网络模型用于根据所述蛋白质结构信息文件中的目标蛋白质的结构信息，确定所述蛋白质结构动力学特征。

可选地，所述装置用于通过如下方式根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定序列词向量特征：按照预设的目标序列长度，将所述第一氨基酸序列转换成第三氨基酸序列，并将所述第二氨基酸序列转换成第四氨基酸序列，其中，所述第三氨基酸序列的序列长度和所述第四氨基酸序列的序列长度均为所述目标序列长度；将所述第三氨基酸序列和所述第四氨基酸序列输入到第二目标特征生成网络模型，得到所述序列词向量特征，其中，所述第二目标特征生成网络模型用于将所述第三氨基酸序列和所述第四氨基酸序列，转换成所述序列词向量特征。

可选地，所述装置用于通过如下方式根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定功能性或结构性特征：对所述第一氨基酸序列和所述第二氨基酸序列进行序列编码，得到序列编码信息，其中，所述序列编码信息用于表示所述第一氨基酸序列和所述第二氨基酸序列中的氨基酸；获取与所述序列编码信息匹配的目标生物信息，并根据所述目标生物信息，确定所述功能性或结构性特征。

可选地，所述装置用于通过如下方式获取与所述序列编码信息匹配的目标生物信息，并根据所述目标生物信息，确定所述功能性或结构性特征：在所述功能性或结构性特征包括多种特征时，对于所述多种特征中的每一种特征，执行以下步骤，其中，在执行以下步骤时，所述每一种特征为当前特征：获取与所述序列编码信息匹配的、且用于确定所述当前特征的当前生物信息，调用与所述当前特征对应的当前特征提取模块，对所述当前生物信息执行与所述当前特征对应的运算操作，得到所述当前特征。

可选地，所述装置用于通过如下方式对所述第一氨基酸序列和所述第二氨基酸序列进行序列编码，得到序列编码信息：对所述第一氨基酸序列和所述第二氨基酸序列中的每个氨基酸进行编码，得到对应的序列编码向量，其中，所述序列编码信息包括对所述每个氨基酸进行编码得到的序列编码向量。

可选地，所述装置用于通过如下方式对所述M个维度的初始特征进行融合，得到M个融合特征：将所述M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，其中，所述目标特征融合模型包括所述N个目标专家网络模型和所述M个目标门网络模型，每个融合特征是通过所述N个目标专家网络模型和对应的一个目标门网络模型对对应的一个维度的初始特征进行处理得到的融合特征，N为大于或等于2的整数。

可选地，所述装置用于通过如下方式将所述M个维度的初始特征输入到目标特征融合模型，得到M个融合特征：在所述目标特征融合模型中，对每个维度的初始特征执行以下操作，得到对应的一个融合特征，其中，在执行以下操作时，所述每个维度的初始特征为当前初始特征：将所述当前初始特征输入到所述N个目标专家网络模型，得到N个候选融合特征；将所述当前初始特征输入到所述M个目标门网络模型中对应的当前目标门网络模型中，得到当前特征权重向量，其中，所述当前特征权重向量用于表示所述N个候选融合特征中对应的候选融合特征的权重；根据所述N个候选融合特征和所述当前特征权重向量，确定与所述当前初始特征对应的融合特征。

可选地，所述装置用于通过如下方式将所述当前初始特征输入到所述N个目标专家网络模型，得到N个候选融合特征：在所述当前初始特征包括维度为1×P的特征数据时，将所述当前初始特征输入到所述N个目标专家网络模型，得到所述N个候选融合特征，其中，所述N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据，P和Q为大于或等于2的整数，P>Q或P＝Q。

可选地，所述装置用于通过如下方式根据所述N个候选融合特征和所述当前特征权重向量，确定与所述当前初始特征对应的融合特征：在所述N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据、所述当前特征权重向量包括维度为N×Q的特征权重数据情况下，将所述N个候选融合特征中的所述每个候选融合特征中的维度为1×Q的特征数据与所述当前特征权重向量中对应的维度为1×Q的特征权重数据进行的点乘操作，得到N个加权融合特征，其中，每个加权融合特征包括维度为1×Q的加权特征数据，Q为大于或等于2的整数；对所述N个加权融合特征中的每个加权融合特征中的维度为1×Q的加权特征数据进行对应的相加操作，得到与所述当前初始特征对应的融合特征，其中，与所述当前初始特征对应的融合特征包括维度为1×Q的融合特征数据。

可选地，所述装置用于通过如下方式获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列：获取所述目标抗原的第一氨基酸序列、所述目标抗体的重链氨基酸序列和所述目标抗体的轻链氨基酸序列，其中，所述第二氨基酸序列包括所述重链氨基酸序列和所述轻链氨基酸序列。

根据本申请实施例的另一方面，提供了一种基于抗原和抗体序列的结合亲和力训练装置，包括：采样模块，用于获取T个训练样本和对应的T个实际结合亲和力参数，其中，每个训练样本包括样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，每个实际结合亲和力参数用于表示对应的训练样本中的所述样本抗原和所述样本抗体的实际的结合亲和力；构造模块，用于根据所述每个训练样本中的所述样本抗原的所述第一样本氨基酸序列和所述样本抗体的所述第二样本氨基酸序列，确定对应的一组样本初始特征，共得到T组样本初始特征，其中，每组样本初始特征包括M个维度的样本初始特征；训练模块，用于使用所述T组样本初始特征和所述T个实际结合亲和力参数，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，得到所述目标特征融合模型和所述目标预测神经网络模型，其中，所述初始特征融合模型包括待训练的N个初始专家网络模型和M个初始门网络模型，T、M、N均为大于或等于2的整数。

可选地，所述装置用于通过如下方式对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练：每次将一组样本初始特征输入到所述初始特征融合模型中，得到M个训练融合特征，每个训练融合特征是通过N个初始专家网络模型和对应的一个初始门网络模型对对应的一个维度的样本初始特征进行处理得到的融合特征；将所述M个训练融合特征输入到所述初始预测神经网络模型，得到预测的样本结合亲和力参数，其中，所述预测的样本结合亲和力参数用于表示对应的所述样本抗原与所述样本抗体的预测的结合亲和力；在所述预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值不满足预设损失条件时，调整所述N个初始专家网络模型、所述M个初始门网络模型、以及所述初始预测神经网络模型中的至少部分网络模型中的参数，在所述预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值满足所述预设损失条件时，结束训练，将结束训练时的所述初始特征融合模型确定为所述目标特征融合模型，并将结束训练时的所述初始预测神经网络模型确定为所述目标预测神经网络模型。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于抗原和抗体序列的结合亲和力预测方法。

根据本申请实施例的又一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上基于抗原和抗体序列的结合亲和力预测方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的基于抗原和抗体序列的结合亲和力预测方法。

在本申请实施例中，采用获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；对M个维度的初始特征进行融合，得到M个融合特征；根据M个融合特征确定预测的结合亲和力参数，其中，预测的结合亲和力参数用于表示目标抗原与目标抗体的预测的结合亲和力的方式，通过开发计算辅助模型能够实现高度精确的抗体亲合力预测，能快速有效地识别出最可开发的抗体分子，从而节省时间和成本，并降低下游临床开发的风险。

此外，本申请可以实现仅使用抗原和抗体的氨基酸序列作为输入的条件下，准确地预测抗体亲和力，不需要三维结构等额外信息，具有较强的适用性，达到了拥有处理大型多样数据集的能力的目的，从而实现了稳定有效地进行抗体亲和力预测，提高了亲和力的预测准确率的技术效果，进而解决了相关技术中存在的抗原和抗体的结合亲和力预测方式复杂，预测效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的基于抗原和抗体序列的结合亲和力预测方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的基于抗原和抗体序列的结合亲和力预测方法的流程示意图；

图3是根据本申请实施例的一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图4是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图5是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图6是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图7是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图8是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图9是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图；

图10是根据本申请实施例的一种可选的基于抗原和抗体序列的结合亲和力预测装置的结构示意图；

图11是根据本申请实施例的一种可选的基于抗原和抗体序列的结合亲和力预测产品的结构示意图；

图12是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

抗体是大型蛋白质，可通过抵消抗原在免疫系统中发挥重要作用。在抗体的顶端，有一个抗原结合片段，其中包含一个互补位，用于通过其表位识别独特的抗原。

抗体亲和力(affinity)的强弱取决于抗体对位与所用抗原表位之间的配合程度，包括接触面积的大小、亲和程度以及带点基团与疏水基因的分布等。抗体亲和力体现了一个抗体分子和抗原分子或半抗原的一个决定簇起反应的能力，是评价抗体质量的重要指标，反应了抗体与相应抗原之间的结合力度。亲和力越高，抗体与相应的抗原之间的结合程度越高，对抗体的应用具有重要的指导作用。

蛋白质结构动力学特征：蛋白质动力学是研究蛋白质静态结构和动态结构关系的桥梁,能够给出结构随时间变化的特征,即能够将蛋白质分子的微观内运动同生物功能联系起来，可以在原子、分子水平上理解蛋白质分子的生物功能，揭示产生这种功能的分子机制，蛋白质是生物体赖以存在和生长的重要大分子有机化合物,由20种不同的氨基酸通过肽键连接成线性高分子链,具有特殊的三维空间结构，蛋白质生物功能与结构动力学特征紧密相关，不同结构运动模式决定了蛋白质在生化过程中的不同生物功能，给定一种蛋白质的空间结构，通过建立结构动力学模型，进而得到蛋白质结构的运动轨迹，或者将结构整体运动分解为不同频率振动模态的叠加，能够帮助进一步理解蛋白质生物活性点在配体结合、催化过程中的运动特征。

序列词向量特征：词向量(Word embedding)，又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。本申请序列词向量特征是生物信息学应用的生物序列(例如DNA，RNA和蛋白质)中n-gram的词嵌入向量特征，通常指蛋白质载体用于蛋白质(氨基酸序列)和基因载体(GeneVec)用于基因序列的生物序列，这种表示可广泛用于深层应用学习蛋白质组学和基因组学，可以根据对潜在模式的生物化学和生物物理学解释来描述生物序列。

功能性或结构性特征：蛋白质的生物活性不仅取决于蛋白质分子的一级结构，而且作为在生命活动中起重要作用的生物大分子，其在生物体内的各种功能都由其空间结构决定。异常的蛋白质空间结构很可能导致其生物活性的降低、丧失，甚至会导致疾病。对于蛋白质空间结构的研究不仅有利于认识蛋白质的功能，也有利于认识蛋白质的生物功能以及蛋白质与蛋白质之间的相互作用。任何一个生物细胞都蕴含着多种蛋白质，它们的结构各不相同，各有其特殊的功能，其多样性的功能由其千差万别的结构所决定的。蛋白质的一级机构：蛋白质是由一条或者几条具有确定氨基酸序列的多肽链构成的大分子。蛋白质一级结构即指蛋白质多肽链的氨基酸残基序列。一条肽链由L型氨基酸按照一定序列排列，相邻氨基酸之间通过缩合脱去一分子水而形成肽键，肽键由羰基碳和酰胺氮连接而成。每一种蛋白质分子都有自己特有的氨基酸的组成和排列顺序即一级结构，由这种氨基酸排列顺序决定它的特定的空间结构，也就是蛋白质的一级结构决定了蛋白质的二级三级等高级结构。蛋白质的结合功能，蛋白质可以结合到其他分子上或者蛋白质上。特异性地识别其他分子是蛋白质功能的关键，这主要得益于蛋白质结构和表面化学性质的多样性，蛋白质可以作为活体中一些主要结构的元件，蛋白质的生物功能很大程度上取决于蛋白质的三维结构性质。

下面结合实施例对本申请进行说明：

根据本申请实施例的一个方面，提供了一种基于抗原和抗体序列的结合亲和力预测方法，可选地，在本实施例中，上述基于抗原和抗体序列的结合亲和力预测方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为终端设备或终端设备上安装的应用程序提供服务，应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，蛋白质数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，终端设备103可以是配置有应用程序的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(MobileInternet Devices，移动互联网设备)、PAD、台式电脑、智能电视等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器，使用上述基于抗原和抗体序列的结合亲和力预测方法的应用程序107通过终端设备103进行显示。

结合图1所示，上述基于抗原和抗体序列的结合亲和力预测方法可以在终端设备103通过如下步骤实现：

S1，在终端设备103获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；

S2，在终端设备103根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；

S3，在终端设备103对M个维度的初始特征进行融合，得到M个融合特征；

S4，在终端设备103根据M个融合特征确定预测的结合亲和力参数，其中，预测的结合亲和力参数用于表示目标抗原与目标抗体的预测的结合亲和力。

可选地，在本实施例中，上述基于抗原和抗体序列的结合亲和力预测方法还可以通过服务器实现，例如，图1所示的服务器101中实现；或由用户终端和服务器共同实现。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述基于抗原和抗体序列的结合亲和力预测方法包括：

S202，获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；

S204，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；

S206，对M个维度的初始特征进行融合，得到M个融合特征；

S208，根据M个融合特征确定预测的结合亲和力参数，其中，预测的结合亲和力参数用于表示目标抗原与目标抗体的预测的结合亲和力。

可选地，在本实施例中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的基于抗原抗体序列的用于预测抗原与抗体结合亲和力的技术，具体通过如下实施例进行说明:

可选地，在本实施例中，上述抗体是指机体由于抗原的刺激而产生的具有保护作用的蛋白质。它是一种被免疫系统用来鉴别与中和外来物质如细菌、病毒等的蛋白质。抗体能识别特定外来物的一个独特特征，该外来目标被称为抗原。

可选地，在本实施例中，上述第一氨基酸序列和第二氨基酸序列可以包括但不限于测序方式实现，例如，抗体测序是直接针对抗体蛋白进行从头测序。

可选地，在本实施例中，结合亲和力是指抗体与抗原表位或抗原决定簇之间的结合力，本质是一种非共价作用力，包含了对氨基酸之间的吸引力，氢键、疏水性作用力等，结合亲和力的强弱取决于抗体对位与所用抗原表位之间的配合程度，包括接触面积的大小、亲和程度以及带点基团与疏水基因的分布等。结合亲和力体现了一个抗体分子和抗原分子或半抗原的一个决定簇起反应的能力，是评价抗体质量的重要指标，反应了抗体与相应抗原之间的结合力度，亲和力越高，抗体与相应的抗原之间的结合程度越高，对抗体的应用具有重要的指导作用。

可选地，在本实施例中，上述氨基酸是指甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、甲硫氨酸(蛋氨酸)、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、苯丙氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天门冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸等组成生命体中的蛋白质的主要单元，第21和第22种氨基酸，硒半胱氨酸和赖氨酸，分别用通常的终止密码子UGA和UAG编码，在少数蛋白质中出现。

可选地，在本实施例中，上述第一氨基酸序列是对目标抗原进行测序得到的氨基酸序列，上述第二氨基酸序列是对目标抗体进行测序得到的氨基酸序列，其中，上述第二氨基酸序列可以包括但不限于重链氨基酸序列和轻链氨基酸序列。

例如，图3是根据本申请实施例的一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图3所示，上述目标抗原即为图3所示的antigen抗原，上述第一氨基酸序列即为对抗原进行测序得到的氨基酸序列，上述目标抗体即为图3所示的L由轻链L-chain、重链H-chain以及抗体结合部位paratope组成的内容，上述第二氨基酸序列即为对抗体进行测序得到的氨基酸序列，可以包括但不限于对轻链L-chain测序得到的氨基酸序列和对重链H-chain测序得到的氨基酸序列。

可选地，在本实施例中，上述M个维度的初始特征可以包括但不限于M个模态的初始特征，M为大于或等于2的整数可以理解为初始特征是多模态初始特征，例如，蛋白质结构动力学特征，序列词向量特征，多种功能性或结构性特征等至少两个模态构成的多模态初始特征。上述根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列确定M个维度的初始特征可以包括但不限于将第一氨基酸序列和第二氨基酸序列共同输入不同的特征提取模型中提取到M个维度或模态的初始特征。

例如，上述蛋白质结构动力学特征可以包括但不限于通过异向网络模型ANM确定，上述序列词向量特征可以包括但不限于通过双向LSTM网络模型提取得到，上述多种功能性或结构性特征可以包括但不限于通过蛋白质特征库(Pfeature库)提取得到。

可选地，在本实施例中，上述目标特征融合模型可以包括但不限于能够进行多模态特征融合的神经网络模型。多模态特征融合的方法大体分为三种：前端融合、中间融合和后端融合。

前端融合指的是将多个独立的数据集融合成一个单一的特征向量，然后输入到机器学习分类器中。多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息，如主成分分析(PCA)、最大相关最小冗余算法(mRMR)、自动解码器(Autoencoders)等。

需要说明的是，可以包括但不限于使用深层联合自编码模型，将三种模态的特征使用三层线性层将维度转化为同一维度，然后相加，最后将三者进行还原回去。

中间融合指的是将不同的模态数据先转化为高维特征表达，再于模型的中间层进行融合。以神经网络为例，中间融合首先利用神经网络将原始数据转化成高维特征表达，然后获取不同模态数据在高维空间上的共性。后端融合指的是将不同模态数据分别训练好的分类器输出打分(决策)进行融合，

在本实施例中，以多模态特征融合的方法是中间融合为例，例如，基于多门混合专家模型(Multi-gate Mixture-of-Experts，简称MMoE)来实现，旨在充分利用M个维度的初始特征的互补性和交叉性，利用主成分分析法(Principal Component Analysis)或自动编码器(Autoencoder)等方法来剔除冗余信息，利用神经网络将原始数据转化成高维特征表达，获取在高维空间上的共性后，可引入注意力机制提高融合效果，提高模型可解释性，除了注意力机制外，其他能以输出结果通过反向传播方式计算特征重要性的方法，亦可用于识别影响抗体亲和力的重要特征，可作为模型可解释性的有效表达。

需要说明的是，上述多门混合专家模型可以利用多门控网络的机制来平衡各模态特征之间的重要性，灵活地学习到不同组合的专家网络混合模式，通过最终输出权重的不同来实现对专家网络的选择性利用。MMoE模型可形式化的表达为y_k＝h^k(f^k(x))，

其中f_i中的i＝1,…,n是n个基于全连接层的专家网络，g是组合多专家网络的门控网络(可认为是所有专家网络的带权加和)，g^k(x)＝softmax(W_gkx)，矩阵W_gk代表在第g个专家网络中第k个特征的权重值。

可选地，在本实施例中，上述目标预测神经网络模型可以包括但不限于卷积神经网络模型CNN，还可以用除卷积神经网络外的其它机器学习(深度学习)模型，例如线性回归模型LR、决策树回归模型DTR等。

可选地，在本实施例中，图4是根据本申请实施例的另一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图4所示，以M个维度的初始特征为蛋白质结构动力学特征，序列词向量特征，多种功能性或结构性特征为例，可以包括但不限于如下步骤实现：

S1，输入第一氨基酸序列(图4所示抗原氨基酸序列)以及第二氨基酸序列(图4所示抗体氨基酸序列(重链)以及抗体氨基酸序列(轻链))；

S2-1-1，基于第一氨基酸序列以及第二氨基酸序列在RCSB PDB数据库中进行检索；

S2-1-2，下载与解析对应的PDB文件；

S2-1-3，将PDB文件输入异向性网络模型ANM(也可称之为各向异性网络模型)，得到蛋白质结构动力学特征(A)；

S2-2-1，对第一氨基酸序列以及第二氨基酸序列进行序列填补，得到新的一对维度相同的氨基酸序列；

S2-2-2，将一对维度相同的氨基酸序列输入双向LSTM网络模型，得到序列词向量特征(B)；

S2-3-1，对第一氨基酸序列以及第二氨基酸序列进行序列编码，得到序列编码信息；

S2-3-2，根据序列编码信息从蛋白质特征库中确定多种功能性或结构性特征(C)；

S3，将蛋白质结构动力学特征、序列词向量特征以及多种功能性或结构性特征输入多模态特征融合模块(对应于前述的目标特征融合模型)，得到融合后的特征A、特征B以及特征C；

S4，将融合后的特征A、特征B以及特征C输入基于卷积神经网络的回归模型，得到输出的结合亲和力参数。

上述仅是一种示例，本实施例不做任何具体的限定。

通过本实施例，采用获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；对M个维度的初始特征进行融合，得到M个融合特征；根据M个融合特征确定预测的结合亲和力参数，其中，预测的结合亲和力参数用于表示目标抗原与目标抗体的预测的结合亲和力的方式，通过开发计算辅助模型能够实现高度精确的抗体亲合力预测，能快速有效地识别出最可开发的抗体分子，从而节省时间和成本，并降低下游临床开发的风险。

作为一种可选的方案，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，包括以下至少之二：

根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定蛋白质结构动力学特征；

根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定序列词向量特征；

根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定功能性或结构性特征。

可选地，在本实施例中，上述蛋白质结构动力学特征可以包括但不限于基于获取到的RCSB PDB文件使用异向性网络模型(Anisotropic network model)提取残基运动的方向性信息，使用主成分分析提取异质的X-射线结构信息等。

可选地，在本实施例中，上述序列词向量特征可以包括但不限于用于识别由氨基酸序列的个别残基差异影响亲和力强弱的模式，即同种抗体与抗原氨基酸序列往往存在多个motif序列(模体序列，指序列中局部的保守区域，或者是一组序列中共有的一小段序列模式)，在上述motif序列中会存在个别残基差异，这些细微的差异会显著地影响亲和力的强弱。经过序列填补后，可用嵌入层映射到向量空间，然后可采用深度学习模型(如双向LSTM网络或基于自注意力机制的transformer模型)进行有监督训练，最终可通过嵌入层的权重获取嵌入向量作为序列词向量特征。

可选地，在本实施例中，上述功能性或结构性特征可以包括但不限于基于机器学习或统计分析的氨基酸序列分析工具提取，例如PROFEAT、PyBioMed、Pfeature等。利用这些工具可直接计算出能揭示氨基酸序列的功能性或结构性的特征信息，如物理化学属性组成(Physico-Chemical Properties Composition)、氨基酸成分组成(Amino-acidComposition)、重复性残基信息(Repetitive Residue Information)等。

作为一种可选的方案，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定蛋白质结构动力学特征，包括：获取与第一氨基酸序列和第二氨基酸序列对应的蛋白质结构信息文件；将蛋白质结构信息文件输入到第一目标特征生成网络模型，得到蛋白质结构动力学特征，其中，第一目标特征生成网络模型用于根据蛋白质结构信息文件中的目标蛋白质的结构信息，确定蛋白质结构动力学特征。

可选地，在本实施例中，上述维持蛋白质结构的力有很多种：一级结构为共价键，如肽键和二硫键；二级结构为氢键；三级结构的作用力主要是一些所谓弱的相互作用，即次级键或称非共价键，包括氢键、盐键、疏水键和范德华力等；四级结构有的蛋白质有，有的没有，多为一些次级键，如氢键，上述蛋白质结构信息文件用于表示上述维持蛋白质结构，上述目标蛋白质即为上述抗体或抗原对应的蛋白质，作为可选项，根据抗原与抗体的氨基酸序列确定其复合物的PDB数据库编号，也可以下载RCSB PDB文件后在下一步中用于提取蛋白质结构的主成分信息，增加额外的特征信息。

可选地，在本实施例中，上述蛋白质结构信息文件可以包括但不限于PDB文件，PDB蛋白质结构数据库(Protein Data Bank,简称PDB)是由结构生物信息学研究合作组织(Research Collaboratory for Structural Bioinformatics,简称RCSB)维护，和核酸序列数据库一样，可以通过网络直接向PDB数据库提交数据，PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库，是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。其内容包括生物大分子的原子坐标、参考文献、1级和2级结构信息，也包括了晶体结构因数以及NMR实验数据，等。PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索，可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。PDB数据库以文本文件的方式存放数据，每个分子各用一个独立的文件。

可选地，在本实施例中，上述第一目标特征生成网络模型可以包括但不限于异向性网络模型ANM等，用于从蛋白质结构文件中提取出蛋白质结构动力学特征。

例如，图5是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图5所示，可以包括但不限于如下步骤：

S1，根据第一序列信息和第二序列信息进行检索，确定RCSB PDB数据库的目标蛋白质；

S2，下载并解析目标蛋白质的PDB文件；

S3，将PDB文件输入异向性网络模型ANM；

S4，输出蛋白质结构力学特征。

上述仅是一种示例，本实施例不做任何具体限定。

作为一种可选的方案，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定序列词向量特征，包括：

按照预设的目标序列长度，将第一氨基酸序列转换成第三氨基酸序列，并将第二氨基酸序列转换成第四氨基酸序列，其中，第三氨基酸序列的序列长度和第四氨基酸序列的序列长度均为目标序列长度；

将第三氨基酸序列和第四氨基酸序列输入到第二目标特征生成网络模型，得到序列词向量特征，其中，第二目标特征生成网络模型用于将第三氨基酸序列和第四氨基酸序列，转换成序列词向量特征。可选地，在本实施例中，上述按照预设的目标序列长度，将第一氨基酸序列转换成第三氨基酸序列，并将第二氨基酸序列转换成第四氨基酸序列可以包括但不限于对第一氨基酸序列和第二氨基酸序列进行标准化处理，即序列填补。由于各氨基酸序列长度不一，需要进行序列填补以确保各序列能在统一的维度空间下获取序列向量表达。通常情况下，可预先设置目标序列长度，然后将各氨基酸序列固定为目标序列长度，如果原始序列长于目标序列长度则截断；如果原始序列短于目标序列长度则补齐(一般补0)。

可选地，在本实施例中，上述第二目标特征生成网络模型可以包括但不限于LSTM长短期记忆模型。

例如，图6是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图6所示，可以包括但不限于如下步骤：

S1，根据第一序列信息和第二序列信息进行序列填补，确定第三氨基酸序列和第四氨基酸序列；

S2，将第三氨基酸序列和第四氨基酸序列输入双向LSTM网络模型；

S4，输出序列词向量特征。

上述仅是一种示例，本实施例不做任何具体限定。

作为一种可选的方案，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定功能性或结构性特征，包括：

对第一氨基酸序列和第二氨基酸序列进行序列编码，得到序列编码信息，其中，序列编码信息用于表示第一氨基酸序列和第二氨基酸序列中的氨基酸；

获取与序列编码信息匹配的目标生物信息，并根据目标生物信息，确定功能性或结构性特征。

可选地，在本实施例中，上述目标生物信息可以包括但不限于根据人类的先验知识确定的生物信息，例如，物理组成信息、化学属性信息、氨基酸成分组成、重复性残基信息等。

可选地，在本实施例中，上述对第一氨基酸序列和第二氨基酸序列进行序列编码，得到序列编码信息可以包括但不限于对氨基酸通过one-hot编码实现，例如，而生命体蛋白质的主要由二十种氨基酸组成，分别由单字母缩写表示，如A表示丙氨酸(Alanine)，E表示谷氨酸(Glutamicacid)，X表示其余的或未知的氨基酸种类。因此需要通过序列编码方式完成转换，如机器学习中的one-hot编码，即一位有效编码。各种氨基酸会被映射到不同的整数值，再分别由对应的二进制向量表示，对应的索引位置被标记为1，其余为0。

例如，图7是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图7所示，可以包括但不限于如下步骤：

S1，根据第一序列信息和第二序列信息进行序列编码，确定序列编码信息；

S2，基于序列编码信息从Pfeature库确定功能性或结构性特征，其中，功能性或结构性特征包括但不限于物理化学属性成分、氨基酸成分组成以及重复性残基信息统计等。

上述仅是一种示例，本实施例不做任何具体限定。

作为一种可选的方案，获取与序列编码信息匹配的目标生物信息，并根据目标生物信息，确定功能性或结构性特征，包括：

在功能性或结构性特征包括多种特征时，对于多种特征中的每一种特征，执行以下步骤，其中，在执行以下步骤时，每一种特征为当前特征：

获取与序列编码信息匹配的、且用于确定当前特征的当前生物信息，调用与当前特征对应的当前特征提取模块，对当前生物信息执行与当前特征对应的运算操作，得到当前特征。

可选地，在本实施例中，上述生物信息包括但不限于氨基酸相关生物信息等，当前特征可以包括但不限于基于机器学习或统计分析的氨基酸序列分析工具提取，例如PROFEAT、PyBioMed、Pfeature等。利用上述工具可直接计算出能揭示氨基酸序列的功能性或结构性的特征信息，如物理化学属性组成(Physico-Chemical PropertiesComposition)、氨基酸成分组成(Amino-acid Composition)、重复性残基信息(RepetitiveResidue Information)等(对应于前述的多个特征)。

作为一种可选的方案，对第一氨基酸序列和第二氨基酸序列进行序列编码，得到序列编码信息，包括：

对第一氨基酸序列和第二氨基酸序列中的每个氨基酸进行编码，得到对应的序列编码向量，其中，序列编码信息包括对每个氨基酸进行编码得到的序列编码向量。

可选地，在本实施例中，上述对第一氨基酸序列和第二氨基酸序列中的每个氨基酸进行编码，得到对应的序列编码向量可以包括但不限于通过机器学习中的one-hot编码，即一位有效编码。各种氨基酸会被映射到不同的整数值，再分别由对应的二进制向量表示，对应的索引位置被标记为1，其余为0。

例如，图8是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图8所示，以第一氨基酸序列包括氨基酸A、氨基酸B以及氨基酸C为例，则上述对第一氨基酸序列中的每个氨基酸进行编码可以包括但不限于：

第一氨基酸序列中氨基酸的顺序为氨基酸B、氨基酸A、氨基酸C，则进行编码后的序列编码向量即为氨基酸B[1,0,0]、氨基酸A[0,1,0]，氨基酸C[0,0,1]。

上述仅是一种示例，本实施例不做任何具体限定。

作为一种可选的方案，对M个维度的初始特征进行融合，得到M个融合特征，包括：

将M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，其中，目标特征融合模型包括N个目标专家网络模型和M个目标门网络模型，每个融合特征是通过N个目标专家网络模型和对应的一个目标门网络模型对对应的一个维度的初始特征进行处理得到的融合特征，N为大于或等于2的整数。

可选地，在本实施例中，上述目标专家网络模型可以包括但不限于N个，其中，N个目标专家网络模块可以理解为是一种多专家模型(the mixture of experts model)，该模型的思想是训练多个神经网络(也就是多个专家)，每个神经网络(专家)被指定应用于数据集的不同部分。这就是说，数据集可能有着多个不同的来源(多模态特征，对应于前述的M个维度的初始特征)，不同来源提供的数据差距较大(但真实)，因此，为每个维度的初始特征指定一个专家神经网络来处理，而且模型还有一个managing neural net用来判断一个输入应该交给哪一个神经网络来处理。

需要说明的是，随着数据集规模的增大，该模型的表现会有明显的提高。更重要的是，单个的模型往往善于处理一部分数据，不擅长处理另外一部分数据(在这部分数据上犯错多)，而多专家系统则很好的解决了这个问题：系统中的每一个神经网络，也就是每一个专家都会有一个擅长的数据区域，在这组区域上其要比其他专家表现得好。

作为一种可选的方案，将M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，包括：

在目标特征融合模型中，对每个维度的初始特征执行以下操作，得到对应的一个融合特征，其中，在执行以下操作时，每个维度的初始特征为当前初始特征：

将当前初始特征输入到N个目标专家网络模型，得到N个候选融合特征；

将当前初始特征输入到M个目标门网络模型中对应的当前目标门网络模型中，得到当前特征权重向量，其中，当前特征权重向量用于表示N个候选融合特征中对应的候选融合特征的权重；

根据N个候选融合特征和当前特征权重向量，确定与当前初始特征对应的融合特征。

可选地，在本实施例中，上述目标门网络模型用于根据当前初始特征确定当前特征权重向量，用于表示N个候选融合特征中对应的候选融合特征的权重。

例如，以多门混合专家模型(Multi-gate Mixture-of-Experts，简称MMoE)为例，可用主成分分析法(Principal Component Analysis)或自动编码器(Autoencoder)等方法来剔除冗余信息，利用神经网络将原始数据转化成高维特征表达，获取在高维空间上的共性后，引入注意力机制提高融合效果，提高模型可解释性。

图9是根据本申请实施例的又一种可选的基于抗原和抗体序列的结合亲和力预测方法的示意图，如图9所示，以M＝3为例，浅色A、B、C分别为3个初始特征，深色A、B、C分别为3个初始特征对应的融合特征，上述基于多门混合专家模旨在利用多门控网络的机制来平衡各模态特征之间的重要性，灵活地学习到不同组合的专家网络混合模式，通过最终输出权重的不同来实现对专家网络的选择性利用。

MMoE模型可形式化的表达为：

上述仅是一种示例，本实施例不做任何具体的限定。

10.根据权利要求9的方法，作为一种可选的方案，将当前初始特征输入到N个目标专家网络模型，得到N个候选融合特征，包括：

在当前初始特征包括维度为1×P的特征数据时，将当前初始特征输入到N个目标专家网络模型，得到N个候选融合特征，其中，N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据，P和Q为大于或等于2的整数，P>Q或P＝Q。

11.根据权利要求9的方法，作为一种可选的方案，根据N个候选融合特征和当前特征权重向量，确定与当前初始特征对应的融合特征，包括：

在N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据、当前特征权重向量包括维度为N×Q的特征权重数据情况下，将N个候选融合特征中的每个候选融合特征中的维度为1×Q的特征数据与当前特征权重向量中对应的维度为1×Q的特征权重数据进行的点乘操作，得到N个加权融合特征，其中，每个加权融合特征包括维度为1×Q的加权特征数据，Q为大于或等于2的整数；

对N个加权融合特征中的每个加权融合特征中的维度为1×Q的加权特征数据进行对应的相加操作，得到与当前初始特征对应的融合特征，其中，与当前初始特征对应的融合特征包括维度为1×Q的融合特征数据。

可选地，在本实施例中，上述以图9为例，浅色A表示的当前初始特征是维度为1×3的特征数据，在分别输入专家网络1、专家网络2、专家网络3直到专家网络N后，分别得到N个候选融合特征，每个候选融合特征包括维度为1×Q的特征数据，再根据门网络得到的当前特征权重向量进行加权求和，以得到深色A表示的当前初始特征对应的融合特征。

上述仅是一种示例，本实施例不做任何具体的限定。

作为一种可选的方案，获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，包括：

获取目标抗原的第一氨基酸序列、目标抗体的重链氨基酸序列和目标抗体的轻链氨基酸序列，其中，第二氨基酸序列包括重链氨基酸序列和轻链氨基酸序列。

可选地，在本实施例中，如图3所示，上述重链氨基酸序列表示目标抗体的重链，上述轻链氨基酸序列表示目标抗体的轻链。

根据本申请实施例的一个方面，提供了一种基于抗原和抗体序列的结合亲和力训练方法，包括：

S1，获取T个训练样本和对应的T个实际结合亲和力参数，其中，每个训练样本包括样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，每个实际结合亲和力参数用于表示对应的训练样本中的样本抗原和样本抗体的实际的结合亲和力；

S2，根据每个训练样本中的样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，确定对应的一组样本初始特征，共得到T组样本初始特征，其中，每组样本初始特征包括M个维度的样本初始特征；

S3，使用T组样本初始特征和T个实际结合亲和力参数，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，得到目标特征融合模型和目标预测神经网络模型，其中，初始特征融合模型包括待训练的N个初始专家网络模型和M个初始门网络模型，T、M、N均为大于或等于2的整数。

可选地，在本实施例中，上述T个训练样本可以包括但不限于T个第一氨基酸序列对应的第一样本氨基酸序列，T个第二氨基酸序列对应的第二样本氨基酸序列，上述T个实际结合亲和力参数可以包括但不限于根据先验知识确定的实际结合亲和力参数。

可选地，在本实施例中，上述预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值所对应的预设损失条件可以包括但不限于采用斯皮尔曼系数(Spearman’s Rank Correlatoin)来衡量，以确定预测结果(预测的样本结合亲和力参数)与真实标签(实际结合亲和力参数)之间的相关性和差异性。

作为一种可选的方案，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，包括：

每次将一组样本初始特征输入到初始特征融合模型中，得到M个训练融合特征，每个训练融合特征是通过N个初始专家网络模型和对应的一个初始门网络模型对对应的一个维度的样本初始特征进行处理得到的融合特征；将M个训练融合特征输入到初始预测神经网络模型，得到预测的样本结合亲和力参数，其中，预测的样本结合亲和力参数用于表示对应的样本抗原与样本抗体的预测的结合亲和力；在预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值不满足预设损失条件时，调整N个初始专家网络模型、M个初始门网络模型、以及初始预测神经网络模型中的至少部分网络模型中的参数，在预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值满足预设损失条件时，结束训练，将结束训练时的初始特征融合模型确定为目标特征融合模型，并将结束训练时的初始预测神经网络模型确定为目标预测神经网络模型。

可选地，在本实施例中，上述调整N个初始专家网络模型、M个初始门网络模型、以及初始预测神经网络模型中的至少部分网络模型中的参数可以理解为在预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值不满足预设损失条件时，调整N个初始专家网络模型、M个初始门网络模型、以及初始预测神经网络模型中任一类网络模型的参数，或者，N个初始专家网络模型、M个初始门网络模型、以及初始预测神经网络模型中任两类模型的参数，或者，N个初始专家网络模型、M个初始门网络模型、以及初始预测神经网络模型中全部类型的模型的参数。

下面结合具体的示例，对本申请进行进一步的解释说明：

蛋白质间相互作用(PPI)对于人体中广泛的生物学活动和功能至关重要，其中包括免疫系统。抗体-抗原系统是所有PPI中最重要的系统之一，在PPI研究中发挥着独特的作用。抗体是大型蛋白质，可通过抵消抗原在免疫系统中发挥重要作用。在抗体的顶端，有一个抗原结合片段，其中包含一个互补位，用于通过其表位识别独特的抗原。抗体亲和力(affinity)的强弱取决于抗体对位与所用抗原表位之间的配合程度，包括接触面积的大小、亲和程度以及带点基团与疏水基因的分布等。抗体亲和力体现了一个抗体分子和抗原分子或半抗原的一个决定簇起反应的能力，是评价抗体质量的重要指标，反应了抗体与相应抗原之间的结合力度，亲和力越高，抗体与相应的抗原之间的结合程度越高，对抗体的应用具有重要的指导作用。每一种蛋白质分子都有自己特定的氨基酸组成和排列顺序，蛋白质一级结构的氨基酸序列(Primary Sequence)包含和确定了其三维折叠结构的全部信息，即一级结构决定了蛋白质的高级结构。

因此，本申请提出了一种基于抗原抗体序列的用于预测抗原与抗体结合亲和力的机器学习方法，有效利用海量的生物数据，实现干湿闭环，优化抗体开发，提高抗体研发效率。

本申请基于机器学习，深度学习，表征学习，统计方法，具体的步骤如下：

(1)对抗原与抗体(轻链与重链)的氨基酸序列进行序列填补(padding)和编码(encoding)等标准化操作；

(2)根据抗原与抗体的氨基酸序列确定其复合物的PDB数据库编号；

(3)利用一系列常用的机器学习与统计方法根据氨基酸序列计算功能性或结构性的蛋白质属性；

(4)利用表征学习方法来确定氨基酸序列的词嵌入表达(Word Embedding)向量；

(5)采用深度学习方法对氨基酸序列的词嵌入表达向量建模，识别出能影响抗原与抗体结合亲和力的重要特征；

(6)对于能识别到PDB数据库编号的复合物，快速灵活地获取的PDB或DCD文件，进行蛋白质结构变异分析和动力学分析，依赖网络模型从结构、动力学和功能之间提取相关的特征信息。

(7)基于所提取的不同特征矩阵作为输入，采用多模态数据融合的策略，训练出有效的回归模型，并对给定的抗原与抗体的氨基酸序列预测其结合的亲和力值。

本申请可以包括但不限于如下有益效果：

(1)通过开发计算辅助模型能够实现高度精确的抗体亲合力预测，能快速有效地识别出最可开发的抗体分子，从而节省时间和成本。

(2)本申请在仅使用抗原和抗体的氨基酸序列作为输入的条件下，能准确地预测抗体亲和力，不需要三维结构等额外信息，具有较强的适用性，拥有处理大型多样数据集的能力。

(3)本申请基于机器学习(深度学习)构建多维多模态的回归模型，不仅能稳定地实现有效的抗体亲和力预测，而且具有良好的模型可解释性，利用深度学习模型中包含的多个隐藏层来分析隐含在大型多样数据集中的关系，从数据驱动的角度为复杂的抗体设计与优化过程提供支持。

(4)本申请能基于抗原和抗体的氨基酸序列提取最多三种模态的特征信息：即蛋白质结构动力学特征(可选项)，序列词向量特征，功能性或结构性特征(多种)，解决了仅依赖于抗原和抗体氨基酸序列所提取的特征稀疏性的问题，然后利用多模态特征融合模块有效地解决了多模态融合因维度空间不统一所带来的互斥性问题，在采用了基于注意力机制的网络模型能实现多模态数据融合的协同表达，考虑到每个模态特征之间的相关性与相互作用，从而进一步提高融合的效果，增强整体模型的预测性能。

本申请利用机器学习(深度学习)技术基于抗原和抗体的氨基酸序列信息作为输入来预测抗原与抗体结合亲和力的强弱，目的是训练出有效的回归模型用来对完全未见过的和新的抗体变体进行预测和推断。因为仅需要使用抗原和抗体的氨基酸序列作为输入即可完成预测，不需要三维结构等额外信息，具有较强的适用性，有利于用来分析庞大的抗体序列空间。

本申请由数据处理，特征提取，以及回归模型三部分组成，如图4所示：

数据处理：对抗原和抗体的氨基酸序列进行标准化处理，即序列填补和序列编码。由于各氨基酸序列长度不一，需要进行序列填补以确保各序列能在统一的维度空间下获取序列向量表达。通常情况下，可先确定一个序列长度，然后把各氨基酸序列固定到这个长度上，如果原始序列是长于这个值就截断；如果原始序列是短于这个值就补齐(一般补0)。而生命体蛋白质的主要由二十种氨基酸组成，分别由单字母缩写表示，如A表示丙氨酸(Alanine)，E表示谷氨酸(Glutamicacid)，X表示其余的或未知的氨基酸种类。因此需要通过序列编码方式完成转换，如机器学习中的one-hot编码，即一位有效编码。各种氨基酸会被映射到不同的整数值，再分别由对应的二进制向量表示，对应的索引位置被标记为1，其余为0。根据抗原与抗体的氨基酸序列确定其复合物的PDB数据库编号，也可以下载RCSBPDB文件后在下一步中用于提取蛋白质结构的主成分信息，增加额外的特征信息。

特征提取：基于氨基酸序列从三个不同方面提取有用的特征信息，即多种功能性或结构性特征，序列词向量特征，以及蛋白质结构动力学分析。基于机器学习或统计分析的氨基酸序列分析工具，例如PROFEAT、PyBioMed、Pfeature等，可直接计算出能揭示氨基酸序列的功能性或结构性的特征信息，如物理化学属性组成(Physico-Chemical PropertiesComposition)、氨基酸成分组成(Amino-acid Composition)、重复性残基信息(RepetitiveResidue Information)等。序列词向量特征主要用于识别由氨基酸序列的个别残基差异影响亲和力强弱的模式，即同种抗体与抗原氨基酸序列往往存在多个motif序列，在这些motif序列中会存在个别残基差异，这些细微的差异会显著地影响亲和力的强弱。经过序列填补后，可用嵌入层映射到向量空间，然后可采用深度学习模型(如双向LSTM网络或基于自注意力机制的transformer模型)进行有监督训练，最终可通过嵌入层的权重获取嵌入向量作为序列词向量特征。结构动态分析，可基于获取到的RCSB PDB文件使用各向异性网络模型(Anisotropic network model)提取残基运动的方向性信息，使用主成分分析提取异质的X-射线结构信息等。

回归预测：多模态特征融合模块和回归模型。多模态融合模块旨在充分利用多个模态特征数据的互补性和交叉性，可用主成分分析法(Principal Component Analysis)或自动编码器(Autoencoder)等方法来剔除冗余信息，利用神经网络将原始数据转化成高维特征表达，获取在高维空间上的共性后，可引入注意力机制提高融合效果，提高模型可解释性。

本申请的多模态融合模块是基于多门混合专家模型(Multi-gate Mixture-of-Experts，简称MMoE)来实现，旨在利用多门控网络的机制来平衡各模态特征之间的重要性，灵活地学习到不同组合的专家网络混合模式，通过最终输出权重的不同来实现对专家网络的选择性利用。MMoE模型可形式化的表达为y_k＝h^k(f^k(x))，

然后，基于多模态特征融合后的数据表达，可使用常规的回归模型来完成训练和预测任务。本申请是基于卷积神经网络作为回归模型。

本申请在来源于公开数据集和文献收集到的抗体亲和力数据中进行测试，训练集共1706条(涉及473种抗体抗原复合物)，测试集共178条(涉及37种抗体抗原复合物)。采用斯皮尔曼系数(Spearman’s Rank Correlatoin)来衡量预测结果与真实标签之间的相关性和差异性，取得如下结果：

本申请的实施不用依赖三维蛋白结构信息或PPI热力学特性，仅需要基于抗原和抗体的氨基酸序列即可完成预测，具有处理大型多样数据集的适用性，可从生物大数据层面为复杂的抗体设计与优化过程提供支持。本申请具有良好的模型可解释性，利用深度学习模型中包含的多个隐藏层来分析隐含在大型多样数据集中的关系，从而能分析庞大的抗体序列空间，具有较强的泛化能力。本申请同时也具有强大的可拓展性，具有很大的应用潜力，可以此为基础开发出其他功能，如单克隆抗体的早期筛选、T细胞受体与抗原表位的关联关系预测等。

本申请的回归问题可以由分类问题替代，这主要由模型的输出性质决定，若为数值拟合则为回归问题，若为离散值(即抗原与抗体能否结合)则为分类问题。

本申请的回归模型可以用除卷积神经网络外的其它机器学习(深度学习)模型，例如线性回归模型LR、决策树回归模型DTR等。

本申请除了利用可获取的RCSB PDB文件，亦可利用基于氨基酸序列对蛋白质三个不同层次(即二级结构，三级结构，四级结构)进行预测，从而提取相应的结构信息，增强预测性能。例如：可采用有效的计算模型，仅基于蛋白质的一维氨基酸序列，即可有效预测蛋白质的三维折叠结构，如AlphaFold2。

本申请在可解释性方面，除了注意力机制外，其他能以输出结果通过反向传播方式计算特征重要性的方法，亦可用于识别影响抗体亲和力的重要特征，可作为模型可解释性的有效表达。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述基于抗原和抗体序列的结合亲和力预测方法的基于抗原和抗体序列的结合亲和力预测装置。如图10所示，该装置包括：

获取模块1002，用于获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；

确定模块1004，用于根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；

第一处理模块1006，用于对M个维度的初始特征进行融合，得到M个融合特征；

第二处理模块1008，用于根据M个融合特征确定预测的结合亲和力参数，其中，预测的结合亲和力参数用于表示目标抗原与目标抗体的预测的结合亲和力。

作为一种可选的方案，装置用于通过如下至少之二的方式根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征：根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定蛋白质结构动力学特征；根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定序列词向量特征；根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定功能性或结构性特征。

作为一种可选的方案，装置用于通过如下方式根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定蛋白质结构动力学特征：获取与第一氨基酸序列和第二氨基酸序列对应的蛋白质结构信息文件；将蛋白质结构信息文件输入到第一目标特征生成网络模型，得到蛋白质结构动力学特征，其中，第一目标特征生成网络模型用于根据蛋白质结构信息文件中的目标蛋白质的结构信息，确定蛋白质结构动力学特征。

作为一种可选的方案，装置用于通过如下方式根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定序列词向量特征：按照预设的目标序列长度，将第一氨基酸序列转换成第三氨基酸序列，并将第二氨基酸序列转换成第四氨基酸序列，其中，第三氨基酸序列的序列长度和第四氨基酸序列的序列长度均为目标序列长度；将第三氨基酸序列和第四氨基酸序列输入到第二目标特征生成网络模型，得到序列词向量特征，其中，第二目标特征生成网络模型用于将第三氨基酸序列和第四氨基酸序列，转换成序列词向量特征。

作为一种可选的方案，装置用于通过如下方式根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定功能性或结构性特征：对第一氨基酸序列和第二氨基酸序列进行序列编码，得到序列编码信息，其中，序列编码信息用于表示第一氨基酸序列和第二氨基酸序列中的氨基酸；获取与序列编码信息匹配的目标生物信息，并根据目标生物信息，确定功能性或结构性特征。

作为一种可选的方案，装置用于通过如下方式获取与序列编码信息匹配的目标生物信息，并根据目标生物信息，确定功能性或结构性特征：在功能性或结构性特征包括多种特征时，对于多种特征中的每一种特征，执行以下步骤，其中，在执行以下步骤时，每一种特征为当前特征：获取与序列编码信息匹配的、且用于确定当前特征的当前生物信息，调用与当前特征对应的当前特征提取模块，对当前生物信息执行与当前特征对应的运算操作，得到当前特征。

作为一种可选的方案，装置用于通过如下方式对第一氨基酸序列和第二氨基酸序列进行序列编码，得到序列编码信息：对第一氨基酸序列和第二氨基酸序列中的每个氨基酸进行编码，得到对应的序列编码向量，其中，序列编码信息包括对每个氨基酸进行编码得到的序列编码向量。

作为一种可选的方案，装置用于通过如下方式对M个维度的初始特征进行融合，得到M个融合特征：将M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，其中，目标特征融合模型包括N个目标专家网络模型和M个目标门网络模型，每个融合特征是通过N个目标专家网络模型和对应的一个目标门网络模型对对应的一个维度的初始特征进行处理得到的融合特征，N为大于或等于2的整数。

作为一种可选的方案，装置用于通过如下方式将M个维度的初始特征输入到目标特征融合模型，得到M个融合特征：在目标特征融合模型中，对每个维度的初始特征执行以下操作，得到对应的一个融合特征，其中，在执行以下操作时，每个维度的初始特征为当前初始特征：将当前初始特征输入到N个目标专家网络模型，得到N个候选融合特征；将当前初始特征输入到M个目标门网络模型中对应的当前目标门网络模型中，得到当前特征权重向量，其中，当前特征权重向量用于表示N个候选融合特征中对应的候选融合特征的权重；根据N个候选融合特征和当前特征权重向量，确定与当前初始特征对应的融合特征。

作为一种可选的方案，装置用于通过如下方式将当前初始特征输入到N个目标专家网络模型，得到N个候选融合特征：在当前初始特征包括维度为1×P的特征数据时，将当前初始特征输入到N个目标专家网络模型，得到N个候选融合特征，其中，N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据，P和Q为大于或等于2的整数，P>Q或P＝Q。

作为一种可选的方案，装置用于通过如下方式根据N个候选融合特征和当前特征权重向量，确定与当前初始特征对应的融合特征：在N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据、当前特征权重向量包括维度为N×Q的特征权重数据情况下，将N个候选融合特征中的每个候选融合特征中的维度为1×Q的特征数据与当前特征权重向量中对应的维度为1×Q的特征权重数据进行的点乘操作，得到N个加权融合特征，其中，每个加权融合特征包括维度为1×Q的加权特征数据，Q为大于或等于2的整数；对N个加权融合特征中的每个加权融合特征中的维度为1×Q的加权特征数据进行对应的相加操作，得到与当前初始特征对应的融合特征，其中，与当前初始特征对应的融合特征包括维度为1×Q的融合特征数据。

作为一种可选的方案，装置用于通过如下方式获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列：获取目标抗原的第一氨基酸序列、目标抗体的重链氨基酸序列和目标抗体的轻链氨基酸序列，其中，第二氨基酸序列包括重链氨基酸序列和轻链氨基酸序列。

根据本申请实施例的另一个方面，还提供了一种用于实施上述基于抗原和抗体序列的结合亲和力训练方法的基于抗原和抗体序列的结合亲和力训练装置。该装置包括：

采样模块，用于获取T个训练样本和对应的T个实际结合亲和力参数，其中，每个训练样本包括样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，每个实际结合亲和力参数用于表示对应的训练样本中的样本抗原和样本抗体的实际的结合亲和力；构造模块，用于根据每个训练样本中的样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，确定对应的一组样本初始特征，共得到T组样本初始特征，其中，每组样本初始特征包括M个维度的样本初始特征；训练模块，用于使用T组样本初始特征和T个实际结合亲和力参数，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，得到目标特征融合模型和目标预测神经网络模型，其中，初始特征融合模型包括待训练的N个初始专家网络模型和M个初始门网络模型，T、M、N均为大于或等于2的整数。

作为一种可选的方案，装置用于通过如下方式对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练：每次将一组样本初始特征输入到初始特征融合模型中，得到M个训练融合特征，每个训练融合特征是通过N个初始专家网络模型和对应的一个初始门网络模型对对应的一个维度的样本初始特征进行处理得到的融合特征；将M个训练融合特征输入到初始预测神经网络模型，得到预测的样本结合亲和力参数，其中，预测的样本结合亲和力参数用于表示对应的样本抗原与样本抗体的预测的结合亲和力；在预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值不满足预设损失条件时，调整N个初始专家网络模型、M个初始门网络模型、以及初始预测神经网络模型中的至少部分网络模型中的参数，在预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值满足预设损失条件时，结束训练，将结束训练时的初始特征融合模型确定为目标特征融合模型，并将结束训练时的初始预测神经网络模型确定为目标预测神经网络模型。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

图11示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理器1101(Central Processing Unit，CPU)，其可以根据存储在只读存储器1102(Read-Only Memory，ROM)中的程序或者从存储部分1108加载到随机访问存储器1103(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1103中，还存储有系统操作所需的各种程序和数据。中央处理器1101、在只读存储器1102以及随机访问存储器1103通过总线1104彼此相连。输入/输出接口1105(Input/Output接口，即I/O接口)也连接至总线1104。

以下部件连接至输入/输出接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时，执行本申请的系统中限定的各种功能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述基于抗原和抗体序列的结合亲和力预测方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图12所示，该电子设备包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；

S2，根据目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；

S3，对M个维度的初始特征进行融合，得到M个融合特征；

S4，根据M个融合特征确定预测的结合亲和力参数，其中，预测的结合亲和力参数用于表示目标抗原与目标抗体的预测的结合亲和力。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本申请实施例中的基于抗原和抗体序列的结合亲和力预测方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于抗原和抗体序列的结合亲和力预测方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1202具体可以但不限于用于存储氨基酸序列等信息。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述基于抗原和抗体序列的结合亲和力预测装置中的获取模块1002、确定模块1004、第一处理模块1006以及第二处理模块1008。此外，还可以包括但不限于上述基于抗原和抗体序列的结合亲和力预测装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1208，用于显示上述氨基酸序列或结合亲和力参数；和连接总线1210，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述基于抗原和抗体序列的结合亲和力预测方面的各种可选实现方式中提供的基于抗原和抗体序列的结合亲和力预测方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S3，对M个维度的初始特征进行融合，得到M个融合特征；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于抗原和抗体序列的结合亲和力预测方法，其特征在于，包括：

获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；

根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；

对所述M个维度的初始特征进行融合，得到M个融合特征；

根据所述M个融合特征确定预测的结合亲和力参数，其中，所述预测的结合亲和力参数用于表示所述目标抗原与所述目标抗体的预测的结合亲和力。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定M个维度的初始特征，包括以下至少之二：

根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定蛋白质结构动力学特征；

根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定序列词向量特征；

根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定功能性或结构性特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定蛋白质结构动力学特征，包括：

获取与所述第一氨基酸序列和所述第二氨基酸序列对应的蛋白质结构信息文件；

将所述蛋白质结构信息文件输入到第一目标特征生成网络模型，得到所述蛋白质结构动力学特征，其中，所述第一目标特征生成网络模型用于根据所述蛋白质结构信息文件中的目标蛋白质的结构信息，确定所述蛋白质结构动力学特征。

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定序列词向量特征，包括：

按照预设的目标序列长度，将所述第一氨基酸序列转换成第三氨基酸序列，并将所述第二氨基酸序列转换成第四氨基酸序列，其中，所述第三氨基酸序列的序列长度和所述第四氨基酸序列的序列长度均为所述目标序列长度；

将所述第三氨基酸序列和所述第四氨基酸序列输入到第二目标特征生成网络模型，得到所述序列词向量特征，其中，所述第二目标特征生成网络模型用于将所述第三氨基酸序列和所述第四氨基酸序列，转换成所述序列词向量特征。

5.根据权利要求2所述的方法，其特征在于，所述根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定功能性或结构性特征，包括：

对所述第一氨基酸序列和所述第二氨基酸序列进行序列编码，得到序列编码信息，其中，所述序列编码信息用于表示所述第一氨基酸序列和所述第二氨基酸序列中的氨基酸；

获取与所述序列编码信息匹配的目标生物信息，并根据所述目标生物信息，确定所述功能性或结构性特征。

6.根据权利要求5所述的方法，其特征在于，所述获取与所述序列编码信息匹配的目标生物信息，并根据所述目标生物信息，确定所述功能性或结构性特征，包括：

在所述功能性或结构性特征包括多种特征时，对于所述多种特征中的每一种特征，执行以下步骤，其中，在执行以下步骤时，所述每一种特征为当前特征：

获取与所述序列编码信息匹配的、且用于确定所述当前特征的当前生物信息，调用与所述当前特征对应的当前特征提取模块，对所述当前生物信息执行与所述当前特征对应的运算操作，得到所述当前特征。

7.根据权利要求5所述的方法，其特征在于，所述对所述第一氨基酸序列和所述第二氨基酸序列进行序列编码，得到序列编码信息，包括：

对所述第一氨基酸序列和所述第二氨基酸序列中的每个氨基酸进行编码，得到对应的序列编码向量，其中，所述序列编码信息包括对所述每个氨基酸进行编码得到的序列编码向量。

8.根据权利要求1所述的方法，其特征在于，所述对所述M个维度的初始特征进行融合，得到M个融合特征，包括：

将所述M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，其中，所述目标特征融合模型包括所述N个目标专家网络模型和所述M个目标门网络模型，每个融合特征是通过所述N个目标专家网络模型和对应的一个目标门网络模型对对应的一个维度的初始特征进行处理得到的融合特征，N为大于或等于2的整数。

9.根据权利要求8所述的方法，其特征在于，所述将所述M个维度的初始特征输入到目标特征融合模型，得到M个融合特征，包括：

在所述目标特征融合模型中，对每个维度的初始特征执行以下操作，得到对应的一个融合特征，其中，在执行以下操作时，所述每个维度的初始特征为当前初始特征：

将所述当前初始特征输入到所述N个目标专家网络模型，得到N个候选融合特征；

将所述当前初始特征输入到所述M个目标门网络模型中对应的当前目标门网络模型中，得到当前特征权重向量，其中，所述当前特征权重向量用于表示所述N个候选融合特征中对应的候选融合特征的权重；

根据所述N个候选融合特征和所述当前特征权重向量，确定与所述当前初始特征对应的融合特征。

10.根据权利要求9所述的方法，其特征在于，所述将所述当前初始特征输入到所述N个目标专家网络模型，得到N个候选融合特征，包括：

在所述当前初始特征包括维度为1×P的特征数据时，将所述当前初始特征输入到所述N个目标专家网络模型，得到所述N个候选融合特征，其中，所述N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据，P和Q为大于或等于2的整数，P>Q或P＝Q。

11.根据权利要求9所述的方法，其特征在于，所述根据所述N个候选融合特征和所述当前特征权重向量，确定与所述当前初始特征对应的融合特征，包括：

在所述N个候选融合特征中的每个候选融合特征包括维度为1×Q的特征数据、所述当前特征权重向量包括维度为N×Q的特征权重数据情况下，将所述N个候选融合特征中的所述每个候选融合特征中的维度为1×Q的特征数据与所述当前特征权重向量中对应的维度为1×Q的特征权重数据进行的点乘操作，得到N个加权融合特征，其中，每个加权融合特征包括维度为1×Q的加权特征数据，Q为大于或等于2的整数；

对所述N个加权融合特征中的每个加权融合特征中的维度为1×Q的加权特征数据进行对应的相加操作，得到与所述当前初始特征对应的融合特征，其中，与所述当前初始特征对应的融合特征包括维度为1×Q的融合特征数据。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列，包括：

获取所述目标抗原的第一氨基酸序列、所述目标抗体的重链氨基酸序列和所述目标抗体的轻链氨基酸序列，其中，所述第二氨基酸序列包括所述重链氨基酸序列和所述轻链氨基酸序列。

13.一种基于抗原和抗体序列的结合亲和力训练方法，其特征在于，包括：

获取T个训练样本和对应的T个实际结合亲和力参数，其中，每个训练样本包括样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，每个实际结合亲和力参数用于表示对应的训练样本中的所述样本抗原和所述样本抗体的实际的结合亲和力；

根据所述每个训练样本中的所述样本抗原的所述第一样本氨基酸序列和所述样本抗体的所述第二样本氨基酸序列，确定对应的一组样本初始特征，共得到T组样本初始特征，其中，每组样本初始特征包括M个维度的样本初始特征；

使用所述T组样本初始特征和所述T个实际结合亲和力参数，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，得到所述目标特征融合模型和所述目标预测神经网络模型，其中，所述初始特征融合模型包括待训练的N个初始专家网络模型和M个初始门网络模型，T、M、N均为大于或等于2的整数。

14.根据权利要求13所述的方法，其特征在于，所述对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，包括：

每次将一组样本初始特征输入到所述初始特征融合模型中，得到M个训练融合特征，每个训练融合特征是通过N个初始专家网络模型和对应的一个初始门网络模型对对应的一个维度的样本初始特征进行处理得到的融合特征；将所述M个训练融合特征输入到所述初始预测神经网络模型，得到预测的样本结合亲和力参数，其中，所述预测的样本结合亲和力参数用于表示对应的所述样本抗原与所述样本抗体的预测的结合亲和力；在所述预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值不满足预设损失条件时，调整所述N个初始专家网络模型、所述M个初始门网络模型、以及所述初始预测神经网络模型中的至少部分网络模型中的参数，在所述预测的样本结合亲和力参数与对应的实际结合亲和力参数之间的损失值满足所述预设损失条件时，结束训练，将结束训练时的所述初始特征融合模型确定为所述目标特征融合模型，并将结束训练时的所述初始预测神经网络模型确定为所述目标预测神经网络模型。

15.一种基于抗原和抗体序列的结合亲和力预测装置，其特征在于，包括：

获取模块，用于获取目标抗原的第一氨基酸序列和目标抗体的第二氨基酸序列；

确定模块，用于根据所述目标抗原的所述第一氨基酸序列和所述目标抗体的所述第二氨基酸序列，确定M个维度的初始特征，其中，M为大于或等于2的整数；

第一处理模块，用于对所述M个维度的初始特征进行融合，得到M个融合特征；

第二处理模块，用于根据所述M个融合特征确定预测的结合亲和力参数，其中，所述预测的结合亲和力参数用于表示所述目标抗原与所述目标抗体的预测的结合亲和力。

16.一种基于抗原和抗体序列的结合亲和力训练装置，其特征在于，包括：

采样模块，用于获取T个训练样本和对应的T个实际结合亲和力参数，其中，每个训练样本包括样本抗原的第一样本氨基酸序列和样本抗体的第二样本氨基酸序列，每个实际结合亲和力参数用于表示对应的训练样本中的所述样本抗原和所述样本抗体的实际的结合亲和力；

构造模块，用于根据所述每个训练样本中的所述样本抗原的所述第一样本氨基酸序列和所述样本抗体的所述第二样本氨基酸序列，确定对应的一组样本初始特征，共得到T组样本初始特征，其中，每组样本初始特征包括M个维度的样本初始特征；

训练模块，用于使用所述T组样本初始特征和所述T个实际结合亲和力参数，对待训练的初始特征融合模型和待训练的初始预测神经网络模型进行训练，得到所述目标特征融合模型和所述目标预测神经网络模型，其中，所述初始特征融合模型包括待训练的N个初始专家网络模型和M个初始门网络模型，T、M、N均为大于或等于2的整数。

17.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至12任一项中所述的方法，或者，执行所述权利要求13至14任一项中所述的方法。

18.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至12任一项中所述方法的步骤，或者，实现权利要求13至14任一项中所述方法的步骤。

19.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法，或者，执行所述权利要求13至14任一项中所述的方法。