CN117711525B

CN117711525B - 活性预测模型训练及活性预测相关产品

Info

Publication number: CN117711525B
Application number: CN202410161541.6A
Authority: CN
Inventors: 赵化建; 宋更申; 蔡利锋
Original assignee: Beijing Youcare Kechuang Pharmaceutical Technology Co ltd
Current assignee: Beijing Youcare Kechuang Pharmaceutical Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-05-10
Anticipated expiration: 2044-02-05
Also published as: CN117711525A

Abstract

本发明提供一种多肽与受体结合活性预测模型训练及活性预测相关产品。该模型训练方法的一具体实施方式包括：首先确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征。然后，基于训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。即，通过多肽和受体结合活性预测的多模态预测模型，进行全方面的信息融合，可提高多肽与受体活性预测的准确性。

Description

活性预测模型训练及活性预测相关产品

技术领域

本发明的实施例涉及多肽设计技术领域，具体涉及活性预测模型训练及活性预测相关产品，特别是多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

多肽具有抗病毒、抗菌、抗癌症等特性，且可穿过血脑屏障，为药物研发中的热点。在多肽设计领域，利用机器学习方法预测多肽和受体之间结合的活性，可以加快多肽设计的速度，并大大降低多肽设计的各种成本。

发明内容

本发明的实施例提出了活性预测模型训练及活性预测相关产品。

第一方面，本发明的实施例提供了一种多肽与受体结合活性预测模型训练方法，该方法包括：确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征；基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。

在一些可选的实施方式中，所述初始多肽与受体结合活性预测模型包括：序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型；以及

所述基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型，包括：

对于所述训练样本特征集中的训练样本特征，执行以下模型参数调整操作：将该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入所述序列对特征双向编码器、所述分子指纹特征提取模型和所述描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量；基于所述第一特征向量、第二特征向量和第三特征向量，确定联合特征向量；将所述联合特征向量输入所述活性值确定模型，得到实际预测活性值；基于所述实际活性预测值与该训练样本特征对应的标注样本活性值之间的差异调整所述初始多肽与受体结合活性预测模型的模型参数；

将所述模型参数调整后的所述初始多肽与受体结合活性预测模型确定为所述训练后的多肽与受体结合活性预测模型。

在一些可选的实施方式中，所述确定训练样本特征集，包括：

获取训练样本数据集，其中，训练样本数据包括样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值；

对于所述训练样本数据集中每个训练样本数据，执行以下词元序列拼接操作：分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列；按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列；

对于所述训练样本数据集中每个训练样本数据，执行以下序列对特征嵌入表示操作：按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列；对于所述拼接词元序列中的每个词元进行嵌入特征表示得到相应词元的嵌入特征表示，词元的嵌入特征表示包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征，其中，词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别；将所述拼接词元序列每个词元的嵌入特征表示按照该词元在所述拼接词元序列中的顺序进行拼接，得到与该训练样本数据对应的多肽序列和受体序列对特征；

对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作：将该训练样本数据中的样本多肽氨基酸序列依次转换为SMILES表达式和摩根分子指纹信息，以及基于所述摩根分子指纹信息确定与该训练样本数据对应的多肽分子指纹特征；

对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作：基于该训练样本数据中的样本多肽氨基酸序列，计算预设多肽描述符集合中每个多肽描述符，以及基于计算得到的各多肽描述符确定与该训练样本数据对应的多肽描述符特征；

基于所述训练样本数据集中每个训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定所述训练样本特征集。

在一些可选的实施方式中，所述分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列，包括：

确定该训练样本数据中的样本多肽氨基酸序列中的修饰基团序列；

将该训练样本数据中的样本多肽氨基酸序列中的每个修饰基团序列切分为相应修饰基团词元，将该训练数据中的样本多肽氨基酸序列中除修饰基团序列外的其它部分进行词元切分，得到与该训练样本数据对应的多肽词元序列；

将该训练样本数据中的样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的受体词元序列。

在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列之后，所述方法还包括：

在所述训练样本数据集中随机选取第一预设比例的训练样本数据作为第一被替换训练样本数据子集；

将每个所述第一被替换训练样本数据对应的样本受体词元序列中随机位置范围内的受体词元替换为预设替换用词元。

在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后，所述方法还包括：

在所述训练样本数据集中随机选取第二预设比例的训练样本数据作为第二被替换训练样本数据子集；以及

将每个所述第二被替换训练样本数据对应的多肽分子指纹特征替换为预设替换用多肽分子指纹特征。

在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作之后，所述方法还包括：

在所述训练数据集中随机选取第三预设比例的训练样本数据作为第三被替换训练样本数据子集；以及

将每个所述第三被替换训练样本数据对应的多肽描述符特征替换为预设替换用多肽描述符特征。

在一些可选的实施方式中，所述至少一个多肽描述符包括以下至少一项：氨基酸组成AAC、二肽组成DiC、k-间隔氨基酸基团对的组成CKSAAGP、伪氨基酸组成PAAC和理化性质PHYC。

在一些可选的实施方式中，所述序列特征双向编码器为Transformer模型中的编码器，所述分子指纹特征提取模型为第一卷积神经网络，所述多肽描述符特征提取模型为第二卷积神经网络，所述活性值确定模型为全连接网络。

第二方面，本发明的实施例提供了一种多肽与受体结合活性预测方法，该方法包括：确定与待测多肽氨基酸序列和待测受体氨基酸序列对应的待测多肽与受体多模态特征，所述待测多肽与受体多模态特征包括待测多肽序列和受体序列对特征、待测多肽分子指纹特征和待测多肽描述符特征，其中，所述待测多肽序列和受体序列对特征为基于所述待测多肽氨基酸序列和所述待测受体氨基酸序列进行特征表示得到的特征，所述待测多肽分子指纹特征为基于所述待测多肽氨基酸序列对应的摩根分子指纹信息得到的特征，所述待测多肽描述符特征为基于所述待测多肽氨基酸序列对应的至少一个多肽描述符得到的特征；

基于所述待测多肽序列和受体序列对特征、所述待测多肽分子指纹特征以及所述待测多肽描述符特征，通过多肽与受体结合活性预测模型，确定待测多肽与待测受体结合的活性值，其中，所述多肽与受体结合活性预测模型是采用如第一方面中任一实现方式描述的方法预先训练得到的。

第三方面，本发明的实施例提供了一种多肽与受体结合活性预测模型训练装置，该装置包括：

训练样本特征确定模块，被配置为确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征；

模型训练模块，被配置为基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。

所述模型训练模块包括：

参数调整单元，被配置为对于所述训练样本特征集中的训练样本特征，执行以下模型参数调整操作：将该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入所述序列对特征双向编码器、所述分子指纹特征提取模型和所述描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量；基于所述第一特征向量、第二特征向量和第三特征向量，确定联合特征向量；将所述联合特征向量输入所述活性值确定模型，得到实际预测活性值；基于所述实际活性预测值与该训练样本特征对应的标注样本活性值之间的差异调整所述初始多肽与受体结合活性预测模型的模型参数；

模型确定单元，被配置为将所述模型参数调整后的所述初始多肽与受体结合活性预测模型确定为所述训练后的多肽与受体结合活性预测模型。

在一些可选的实施方式中，所述训练样本特征确定模块包括：

样本数据获取单元，被配置为获取训练样本数据集，其中，训练样本数据包括样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值；

词元序列拼接单元，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下词元序列拼接操作：分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列；按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列；

特征嵌入表示单元，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下序列对特征嵌入表示操作：对于所述拼接词元序列中的每个词元进行嵌入特征表示得到相应词元的嵌入特征表示，词元的嵌入特征表示包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征，其中，词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别；将所述拼接词元序列每个词元的嵌入特征表示按照该词元在所述拼接词元序列中的顺序进行拼接，得到与该训练样本数据对应的多肽序列和受体序列对特征；

分子指纹特征提取单元，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作：将该训练样本数据中的样本多肽氨基酸序列依次转换为SMILES表达式和摩根分子指纹信息，以及基于所述摩根分子指纹信息确定与该训练样本数据对应的多肽分子指纹特征；

描述符特征提取单元，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作：基于该训练样本数据中的样本多肽氨基酸序列，计算预设多肽描述符集合中每个多肽描述符，以及基于计算得到的各多肽描述符确定与该训练样本数据对应的多肽描述符特征；

特征合并单元，被配置为基于所述训练样本数据集中每个训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定所述训练样本特征集。

在一些可选的实施方式中，所述训练样本特征确定模块还包括：第一鲁棒性增强单元，被配置为在对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列之后：

在一些可选的实施方式中，所述训练样本特征确定模块还包括：第二鲁棒性增强单元，被配置为在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后：

在一些可选的实施方式中，所述训练样本特征确定模块还包括第三鲁棒性增强单元，被配置为在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作之后：

第四方面，本发明的实施例提供了一种多肽与受体结合活性预测装置，该装置包括：

多模态特征确定模块，被配置为确定与待测多肽氨基酸序列和待测受体氨基酸序列对应的待测多肽与受体多模态特征，所述待测多肽与受体多模态特征包括待测多肽序列和受体序列对特征、待测多肽分子指纹特征和待测多肽描述符特征，其中，所述待测多肽序列和受体序列对特征为基于所述待测多肽氨基酸序列和所述待测受体氨基酸序列进行特征表示得到的特征，所述待测多肽分子指纹特征为基于所述待测多肽氨基酸序列对应的摩根分子指纹信息得到的特征，所述待测多肽描述符特征为基于所述待测多肽氨基酸序列对应的至少一个多肽描述符得到的特征；

活性预测模块，被配置为基于所述待测多肽序列和受体序列对特征、所述待测多肽分子指纹特征以及所述待测多肽描述符特征，通过多肽与受体结合活性预测模型，确定待测多肽与待测受体结合的活性值，其中，所述多肽与受体结合活性预测模型是采用如第一方面中任一实现方式描述的方法预先训练得到的。

第五方面，本发明的实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面和/或第二方面中任一实现方式描述的方法。

第六方面，本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被一个或多个处理器执行时实现如第一方面和/或第二方面中任一实现方式描述的方法。

第七方面，本发明的实施例还提供了一种计算机程序产品。该计算机程序产品包括指令，该指令被处理器执行时实现如第一方面和/或第二方面中任一实现方式描述的方法。

本发明的实施例提供的多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法、装置、电子设备、计算机可读存储介质和计算机程序产品，通过在训练过程中首先确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征。然后，基于训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。即，通过融合多肽序列和受体序列对的特征、多肽分子指纹特征和多肽描述符特征，设计用于多肽和受体结合活性预测的多模态预测模型，进行全方面的信息融合，可提高多肽与受体活性预测的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出具体实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1是根据本发明的多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法、装置、计算机可读存储介质和计算机程序产品可以应用于其中的一个实施例的系统架构图；

图2A是根据本发明的多肽与受体结合活性预测模型训练方法的一个实施例的流程图；

图2B是根据本发明的步骤201的一个实施例的分解流程图；

图2C是根据本发明的步骤2021中模型参数调整操作一个实施例的分解流程图；

图3是根据本发明的多肽与受体结合活性预测模型训练方法的又一个实施例的流程图；

图4是本发明所涉及的RSV所有受体蛋白序列图；

图5是根据本发明的从多肽氨基酸序列和首次氨基酸序列依次进行词元切分、嵌入特征表示以及输入序列对特征双向编码器进行特征提取得到第一特征向量的数据以及模型结构示意图；

图6为本发明所涉及的词元字典映射图（仅展示前100个词元）；

图7为一个多肽氨基酸序列与相应SMILES表达式和摩根分子指纹信息的具体示例示意图；

图8为根据本发明的多肽描述符信息示意图；

图9为根据本发明的对多肽分子指纹特征进行特征提取的第一卷积神经网络模型的结构示意图；

图10为根据本发明的对多肽描述符特征进行特征提取的第二卷积神经网络模型的结构示意图；

图11为本发明试验中输入的试验数据集的结构示意图；

图12为本发明试验中模型评估AUC结果对比图；

图13为本发明试验中模型消融试验AUC结果对比图；

图14是根据本发明的多肽与受体结合活性预测方法的一个实施例的流程图；

图15是根据本发明的多肽与受体结合活性预测模型训练装置的一个实施例的结构示意图；

图16是根据本发明的多肽与受体结合活性预测装置的一个实施例的结构示意图；

图17是适于用来实现本发明的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1示出了可以应用本发明的多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法、装置、电子设备、计算机可读存储介质和计算机程序产品的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如生物信息分析类应用、多肽活性预测类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有摄像头和显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块（例如用来提供多肽与受体结合活性预测模型训练服务），也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的多肽与受体结合活性预测模型训练类应用提供支持的后台服务器。后台服务器可以对接收到的训练数据集等进行相应处理。

在一些情况下，本发明所提供的多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法可以由终端设备101、102、103和服务器105共同执行，例如，“获取训练数据集”的步骤可以由终端设备101、102、103执行，“对于训练数据集中的每个训练数据，执行多模态特征提取操作”的步骤可以由服务器105执行。本发明对此不做限定。相应地，多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测装置也可以分别设置于终端设备101、102、103和服务器105中。

在一些情况下，本发明所提供的多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法可以由终端设备101、102、103执行，相应地，多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测装置也可以设置于终端设备101、102、103中，这时，系统架构100也可以不包括服务器105。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块（例如用来提供分布式服务），也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2A，其示出了根据本发明的多肽与受体结合活性预测模型训练方法的一个实施例的流程200，该流程200包括以下步骤：

步骤201，确定训练样本集。

在本实施例中，多肽与受体结合活性预测模型训练方法的执行主体（例如图1所示的服务器105）可以采用各种实现方式确定训练样本集。

这里，训练样本集中的每个训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值。样本多肽氨基酸序列可以为用于表征样本多肽一级结构中氨基酸残基排列顺序的文本数据，样本受体氨基酸序列可以为用于表征样本受体一级结构中氨基酸残基排列顺序的文本数据。

训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征。

在一些可选的实施方式中，至少一个多肽描述符可以包括以下至少一项：氨基酸组成（AAC，Amino Acid Composition）、二肽组成（DiC，Dipeptide Composition）、k-间隔氨基酸基团对的组成（CKSAAGP，k-Spaced Amino Acid Group Pairs）、伪氨基酸组成（PAAC，Pseudo Amino Acid Composition）和理化性质（PHYC，Physicochemical）。

在一些可选的实施方式中，步骤201可以包括如图2B所示的步骤2011到步骤2016：

步骤2011，获取训练样本数据集。

这里，训练样本数据集中的训练样本数据可以包括样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值。

步骤2012，对于训练样本数据集中每个训练样本数据，执行词元序列拼接操作。

这里，词元序列拼接操作可以如下进行：首先，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列。然后，按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列。

这里，可以采用各种分词方法分别对每个训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，以得到与训练样本数据对应的多肽词元序列和受体词元序列。多肽词元序列由至少一个多肽词元按照相应多肽词元在样本多肽氨基酸序列中的所在位置先后顺序排列而成。受体词元序列由至少一个受体词元按照相应受体词元在样本受体氨基酸序列中的位置所在先后顺序排列而成。多肽词元和受体词元均为词元切分的基本模块。

在一些可选的实施方式中，步骤2012中，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列，可以如下执行：

首先，可以确定该训练样本数据中的样本多肽氨基酸序列中的修饰基团序列。

然后，可以将该训练样本数据中的样本多肽氨基酸序列中的每个修饰基团序列切分为相应修饰基团词元，将该训练数据中的样本多肽氨基酸序列中除修饰基团序列外的其它部分进行词元切分，得到与该训练样本数据对应的多肽词元序列。

这里，对样本多肽氨基酸序列中除修饰基团序列外的其它部分进行词元切分的方法可以与步骤2012中的词元切分方法基本相同，在此不再赘述。

最后，将该训练样本数据中的样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的受体词元序列。

通过该可选实施方式，可以实现对于带有修饰基团的样本多肽，将修饰基团序列本身作为单独的修饰基团词元进行切分，丰富了样本多肽的类型，进而后续训练得到的多肽与受体结合活性预测模型，也可以实现对于带有修饰基团的多肽进行活性预测。

作为示例，按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，可以将与该训练样本数据对应的受体词元序列拼接在相应多肽词元序列之后，得到拼接词元序列。

步骤2013，对于训练样本数据集中每个训练样本数据，执行序列对特征嵌入表示操作。

这里，序列对特征嵌入表示操作包括：

首先，对于拼接词元序列中的每个词元进行嵌入特征表示得到相应词元的嵌入特征表示。

这里，词元的嵌入特征表示可以包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征。

这里，词元嵌入特征用于表征词元本身。词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别。而词元位置嵌入特征用于表征词元在拼接词元序列中的位置。

然后将拼接词元序列每个词元的词元嵌入特征表示按照该词元在拼接词元序列中的顺序进行拼接，即可得到与该训练样本数据对应的多肽序列和受体序列对特征。

步骤2014，对于训练样本数据集中每个训练样本数据，执行分子指纹特征提取操作。

这里，分子指纹特征提取操作可以包括：

首先，将该训练样本数据中的样本多肽氨基酸序列依次转换为SMILES表达式和摩根分子指纹信息。

具体而言，可以首先将该训练样本数据中的样本多肽氨基酸序列转换为SMILES表达式，再将转换得到的SMILES表达式转换为摩根分子指纹信息。

然后，再基于得到的摩根分子指纹信息确定与该训练样本数据对应的多肽分子指纹特征。

步骤2015，对于训练样本数据集中每个训练样本数据，执行描述符特征提取操作。

这里，描述符特征提取操作可以如下执行：

首先，基于该训练样本数据中的样本多肽氨基酸序列，计算预设多肽描述符集合中每个多肽描述符。

然后，再基于计算得到的各多肽描述符确定与该训练样本数据对应的多肽描述符特征。

步骤2016，基于训练样本数据集中每个训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定训练样本特征集。

具体而言，可以首先基于训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定相应训练样本数据对应的训练样本特征。例如，可以拼接训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定相应训练样本数据对应的训练样本特征。

然后，合并各训练样本数据对应的训练样本特征即可得到训练样本特征集合。

在一些可选的实施方式中，在步骤2013之前，即对于训练样本数据集中每个训练样本数据，执行序列对特征嵌入表示操作之前，上述执行主体还可以执行以下步骤2012'和步骤2012''：

步骤2012'，统计各训练样本数据对应的拼接词元序列中出现的不同词元。

步骤2012''，基于统计得到的各不同词元生成词元字典。

这里，词元字典用于表征词元和词元嵌入特征之间的对应关系，且词元字典中包括上述统计得到的各不同词元。

作为示例，词元字典中的词元嵌入特征可以为词元对应的出现次数。

基于该可选实施方式，步骤2013中对于拼接词元序列中的每个词元进行嵌入特征表示得到相应词元的嵌入特征表示，其中，每个词元的词元嵌入特征是通过在上述词元字典中查询得到的与相应词元对应的词元嵌入特征。

在一些可选的实施方式中，在对于训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列（即，步骤2012）之后，上述执行主体还可以执行以下步骤2012'''和步骤2012''''：

步骤2012'''，在训练样本数据集中随机选取第一预设比例的训练样本数据作为第一被替换训练样本数据子集。

步骤2012''''，将每个第一被替换训练样本数据对应的样本受体词元序列中随机位置范围内的受体词元替换为预设替换用词元。

训练样本数据集中部分训练样本数据对应的受体词元被替换后，训练样本数据集中部分训练样本数据对应的样本受体词元序列不再是真实样本受体词元序列，后续步骤2013中针对该训练样本数据所生成的训练样本特征中的多肽序列和受体序列对特征也会产生变化，不再是真实样本多肽氨基酸序列和样本受体氨基酸序列对应的多肽序列和受体序列对特征，进而步骤2016中所确定的训练样本特征集中相应训练样本特征中的多肽序列和受体序列对特征也不再是真实样本多肽氨基酸序列和样本受体氨基酸序列对应的多肽序列和受体序列对特征。通过上述替换操作，可以提高多肽与受体结合活性预测模型的鲁棒性。

在一些可选的实施方式中，在对于训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作（即，步骤2014）之后，上述执行主体还可以执行以下步骤2014'和步骤2014''：

步骤2014'，在训练样本数据集中随机选取第二预设比例的训练样本数据作为第二被替换训练样本数据子集。

步骤2014''，将每个第二被替换训练样本数据对应的多肽分子指纹特征替换为预设替换用多肽分子指纹特征。

训练样本数据集中部分训练样本数据对应的多肽分子指纹特征被替换后，后续步骤2016中所确定的训练样本特征集中相应训练样本特征中的多肽分子指纹特征不再是真实样本多肽对应的多肽分子指纹特征。通过上述替换操作，可以提高多肽与受体结合活性预测模型的鲁棒性。

在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作（即，步骤2015）之后，上述执行主体还可以执行以下步骤2015'和步骤2015''：

步骤2015'，在训练数据集中随机选取第三预设比例的训练样本数据作为第三被替换训练样本数据子集。

步骤2015''，将每个第三被替换训练样本数据对应的多肽描述符特征替换为预设替换用多肽描述符特征。

训练样本数据集中部分训练样本数据对应的多肽描述符特征被替换后，后续步骤2016中所确定的训练样本特征集中相应训练样本特征中的多肽描述符特征也不再是真实样本多肽对应的多肽描述符特征。通过上述替换操作，可以提高多肽与受体结合活性预测模型的鲁棒性。

步骤202，基于训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。

在本实施例中，上述执行主体可以采用各种机器学习方法，基于训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。其中，初始多肽与受体结合活性预测模型用于表征多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征与活性值之间的对应关系。即，可以以训练样本特征集中的训练样本特征为输入数据，以相应标注活性值为监督数据，对初始多肽与受体结合活性预测模型进行训练。经过训练的多肽与受体结合活性预测模型，由于融合了样本多肽和样本受体的多模态特征，相对于仅采用氨基酸序列的单一特征而言，可以提高多肽和受体结合活性预测的准确度。

在一些可选的实施方式中，初始多肽与受体结合活性预测模型可以包括：序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型。相应地，步骤202可以包括以下步骤2021和步骤2022：

步骤2021，对于训练样本特征集中的训练样本特征，执行模型参数调整操作。

这里，模型参数调整操作可以包括如图2C所示的步骤20211到步骤20214：

步骤20211，将该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入序列对特征双向编码器、分子指纹特征提取模型和描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量。

由于实践中多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征的特征维度仍然比较高，可能会导致训练过程计算量太大，以及相应地可能会导致初始多肽与受体结合活性预测模型的模型参数所需存储空间较大，另外后续在对待预测的多肽和受体预测结合活性值时，也相应会导致计算量增大并降低计算速度。因此，可以对该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，分别通过输入序列对特征双向编码器、分子指纹特征提取模型和描述符特征提取模型进行特征提取，以实现特征降维。

这里，序列对特征双向编码器用于对多肽序列和受体序列对特征进行特征提取。分子指纹特征提取模型用于对多肽分子指纹特征进行特征提取。描述符特征提取模型用于对多肽描述符特征进行特征提取。

在一些可选的实施方式中，序列特征双向编码器可以为Transformer模型中的编码器，分子指纹特征提取模型可以为第一卷积神经网络，多肽描述符特征提取模型可以为第二卷积神经网络，而活性值确定模型可以为全连接网络。

步骤20212，基于第一特征向量、第二特征向量和第三特征向量，确定联合特征向量。

这里，可以采用各种方式基于第一特征向量、第二特征向量和第三特征向量，确定联合特征向量。作为一个可选的实施方式，可以直接拼接第一特征向量、第二特征向量和第三特征向量，得到联合特征向量。

步骤20213，将联合特征向量输入活性值确定模型，得到实际预测活性值。

这里，活性值预测模型是各种用于表征向量与数值之间的模型。

步骤20214，基于实际活性预测值与该训练样本特征对应的标注样本活性值之间的差异调整初始多肽与受体结合活性预测模型的模型参数。

这里，可以采用各种参数优化方法，基于步骤20213得到的实际活性预测值与该训练样本特征对应的标注样本活性值之间的差异调整初始多肽与受体结合活性预测模型的模型参数。

经过至少一次执行步骤2021可以实现对初始多肽与受体结合活性预测模型进行模型参数调整。

步骤2022，将模型参数调整后的初始多肽与受体结合活性预测模型确定为训练后的多肽与受体结合活性预测模型。

经过上述步骤2021和步骤2022可以得到训练后的多肽与受体结合活性预测模型，且通过对训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征的分别进行进一步特征提取，达到减少多肽与受体结合活性预测模型的模型参数所需存储空间、提高训练速度的技术效果。且由于各个特征还在，也能实现融合样本多肽和样本受体的多模态特征，提高活性值预测准确度的技术效果。

本发明的上述实施例提供的多肽与受体结合活性预测模型训练方法，通过融合多肽序列和受体序列对的特征、多肽分子指纹特征和多肽描述符特征，设计用于多肽和受体结合活性预测的多模态预测模型，进行全方面的信息融合，可提高多肽与受体活性预测的准确性。

继续参考图3，其示出了具体试验中，本发明的多肽与受体结合活性预测模型训练方法的流程300。该多肽与受体结合活性预测模型训练方法，包括以下步骤：

步骤301，获取训练样本数据集。

在具体试验中，使用DRAVP数据库（http://dravp.cpu-bioinfor.org/）的RSV多肽数据、AVPdb数据库（http://crdd.osdd.net/servers/avpdb/）的RSV多肽数据、以及申请人已有的RSV多肽试验数据。共计获取897个RSV数据作为数据集。其中，RSV数据具体包括RSV多肽氨基酸序列、RSV受体氨基酸序列以及RSV多肽和受体之间结合活性值。其中多肽序列长度在6-56之间，受体多为RSV F蛋白。这里，RSV数据即相当于训练样本数据。

具体而言，对于RSV受体蛋白不确定的RSV多肽，选择RSV所有11个受体蛋白，不同RSV受体蛋白之间用特殊符号“;”进行分割。如图4所示，其示出的RSV受体蛋白序列源于NCBI中的RSV毒株RSV-A/NIV1114073/11的全基因组注释蛋白序列，分别为：NS1、NS2、N、P、M、SH、G、F、M2-1、M2-2、L（https://www.ncbi.nlm.nih.gov/nuccore/KC731483.1/），其序列编号分别为SEQ ID NO. 4-14。

将数据集按照3：1：1的比例进行分层采样，分别切分成训练样本数据集、验证样本数据集和测试样本数据集。训练样本数据集包括538个RSV数据，验证样本数据集包括180个RSV数据，测试样本数据集包括179个RSV数据。

步骤302，对于训练样本数据集中每个训练样本数据，执行词元序列拼接操作。

在具体实验中，首先分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列。

在具体试验中，对于训练样本数据集中每个RSV数据，将该RSV数据中RSV多肽氨基酸序列的修饰基团，直接切分为修饰基团词元，对该RSV数据中RSV多肽氨基酸序列的其它部分按照Kmer等于3，步长为1进行切分，即可得到与该RSV数据对应的多肽词元序列。而对该RSV数据中RSV受体氨基酸序列按照Kmer等于3，步长为1进行切分，即可得到与该RSV数据对应的受体词元序列。

具体可参考图5。例如，对于RSV多肽氨基酸序列“ASLRVPEG4”（SEQ ID NO. 1），首先将修饰基团“PEG4”直接切分成修饰基团词元“PEG4”，然后，对“ASLRVPEG4”其它部分“ASLRV”（SEQ ID NO. 2）按照Kmer等于3，步长为1进行切分，得到顺序排列的多肽词元（ASL，SLR，LRV），最后再将上述各多肽词元和修饰基团词元按照在RSV多肽氨基酸序列“ASLRVPEG4”中的出现顺序进行排列，即可得到与该RSV数据对应的多肽词元序列（ASL，SLR，LRV，PEG4）。而对RSV受体氨基酸序列“MGSNS”（SEQ ID NO. 3）按照Kmer等于3，步长为1进行切分，即可得到与该RSV数据对应的受体词元序列（MGS，GSN，SNS）。

在本试验中，在得到每个该训练样本数据对应的多肽词元序列和受体词元序列之后，在训练样本数据集中随机选择了50%的训练样本数据作为第一被替换训练样本数据，将第一被替换训练样本数据对应的样本受体词元序列中随机位置范围内的受体词元替换为预设替换用词元。这里，预设替换用词元对应下文所述整数字典中对应的词元标号为预设替换用词元标号，在本试验中，预设替换用词元对应下文所述整数字典中对应的词元标号为0。

然后，按照预设拼接方式拼接与每个训练样本数据对应的多肽词元序列和受体词元序列，得到相应的拼接词元序列。

在具体实验中，如图5所示，对RSV多肽氨基酸序列“ASLRVPEG4”和RSV受体氨基酸序列“MGSNS”，依次拼接起始词元“<start>”、多肽词元序列（ASL，SLR，LRV，PEG4）、结束词元“<end>”、受体词元序列（MGS，GSN，SNS）以及结束词元“<end>”，进而得到拼接词元序列（<start>，ASL，SLR，LRV，PEG4，<end>，MGS，GSN，SNS，<end>）。其中，第一个起始词元“<start>”和第一个结束词元“<end>”分别表示多肽词元序列的开始和结束，也就是说第一个起始词元“<start>”、多肽词元序列（ASL，SLR，LRV，PEG4）以及第一个结束词元“<end>”均属于多肽词元序列。同理，受体词元序列（MGS，GSN，SNS）以及第二个结束词元“<end>”均属于受体词元序列。

步骤303，对于训练样本数据集中每个训练样本数据，执行序列对特征嵌入表示操作。

为了后续对每个训练样本数据对应的拼接词元序列进行特征嵌入表示，可以在经过步骤302得到每个训练样本数据对应的拼接词元序列之后，首先统计训练样本数据集中所有训练样本数据对应的拼接词元序列中出现的不同词元（例如，可以包括多肽词元、受体词元、修饰基团词元、起始词元和结束词元）。然后，可以基于各不同词元生成词元字典，词元字典用于表征词元和词元嵌入特征之间的对应关系，且词元字典中包括上述统计的各不同词元。词元字典中的词元嵌入特征可以为各种数值形式，例如可以是整数。作为示例，可以统计上述各不同词元在所有训练样本数据对应的拼接词元序列中的出现次数，然后再可以将词元字典中词元对应的词元嵌入特征设置为相应词元的出现次数。在具体实验中，如图6所示，词元字典的键为词元，字典的值为词元嵌入特征，词元嵌入特征为从1开始的连续正整数，字典中的键按照词元的出现次数由高到低进行排序。在本试验中，词元字典中出现次数最多的前10个词元分别为：SLT、NIT、TTT、KKL、KLN、LLS、LSK、KLI、SLI、ILK。

接着，可以对每个训练样本数据对应的拼接词元序列进行特征嵌入表示，得到与该训练样本数据对应的多肽序列和受体序列对特征。多肽序列和受体序列对特征包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征。

具体而言，可以首先对拼接词元序列中的每个词元进行嵌入特征表示，得到相应词元的词元嵌入特征表示。然后再将每个词元的嵌入特征表示按照该词元在拼接词元序列中的顺序进行拼接。

由于不同训练样本数据对应的拼接词元序列所包括的词元个数可能不同，因此，可以基于所有训练样本数据对应的拼接词元序列包括的词元个数中的最大值确定为多肽序列和受体序列对词元数最大值。在本试验中，多肽序列和受体序列对词元数最大值为4700。如果拼接词元序列中词元的个数少于多肽序列和受体序列对词元数最大值（在本试验中为4700），那么在将所有词元的嵌入特征拼接结束后，继续补充预设补齐用词元特征，直到达到多肽序列和受体序列对词元数最大值（在本试验中为4700）个词元特征，最终每个训练样本数据，即每个RSV数据对应的多肽序列和受体序列对特征均为包括多肽序列和受体序列对词元数最大值（在本试验中为4700）个词元特征的特征矩阵。

这里，词元特征可以包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征。具体在本试验中，词元特征包括以上三项。即，可拼接词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征得到词元嵌入特征表示。进而，在本试验中，多肽序列和受体序列对特征为3×4700的特征矩阵。预设补齐用词元特征中的词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征可以均为0，即预设补齐用词元特征可以为（0,0,0）。

其中：

词元嵌入特征用于表征词元本身。具体而言，可以在上述词元字典中查询拼接词元序列中每个词元对应的词元嵌入特征，并将查到的词元嵌入特征作为与相应词元对应的词元嵌入特征。如图5所示，拼接词元序列（<start>，ASL，SLR，LRV，PEG4，<end>，MGS，GSN，SNS，<end>）中词元：<start>、ASL、SLR、LRV、PEG4、<end>、MGS、GSN、SNS、<end>的词元嵌入特征分别为：E_<start>、E_ASL、E_SLR、E_LRV、E_PEG4、E_<end>、E_MGS、E_GSN、E_SNS、E_<end>。

词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别。具体在本实验中，如图5所示，当词元出现在多肽词元序列中，则词元类型嵌入特征为E₀，而当词元出现在受体词元序列中，则词元类型嵌入特征为E₁。作为示例，E₀可以为0，E₁可以为1。

而词元位置嵌入特征用于表征词元在拼接词元序列中的位置。拼接词元序列（<start>，ASL，SLR，LRV，PEG4，<end>，MGS，GSN，SNS，<end>）中词元：<start>、ASL、SLR、LRV、PEG4、<end>、MGS、GSN、SNS、<end>的词元嵌入特征分别为：E₀、E₁、E₂、E₃、E₄、E₅、E₆、E₇、E₈、E₉。在本试验中，将词元位置嵌入特征设置为可学习的参数，其初始值设置为随机值。需要说明的是，词源位置嵌入特征中的E₀和E₁，不是词元类型嵌入特征中的E₀和E₁。

步骤304，对于训练样本数据集中每个训练样本数据，执行分子指纹特征提取操作。

在本试验中，首先利用软件RDKit，将该训练样本数据中的样本多肽氨基酸序列转换为SMILES表达式，再将转换得到的SMILES表达式转换为摩根分子指纹信息。这里，摩根分子指纹信息包括4096个整数。再将转换得到的摩根分子指纹信息确定与该训练样本数据对应的多肽分子指纹特征，即多肽分子指纹特征包括4096个特征。具体可参考图7，图7示出了一个多肽氨基酸序列与相应SMILES表达式和摩根分子指纹信息的具体示例，其中多肽氨基酸序列编号为SEQ ID NO. 15。

在本试验中，在得到每个该训练样本数据对应的多肽分子指纹特征之后，在训练样本数据集中随机选择了50%的训练样本数据作为第二被替换训练样本数据，将第二被替换训练样本数据对应的多肽分子指纹特征替换为预设替换用多肽分子指纹特征。在本试验中，预设替换用多肽分子指纹特征为包括4096个特征值为0的特征。

步骤305，对于训练样本数据集中每个训练样本数据，执行描述符特征提取操作。

首先，利用Python工具ifeatpro，基于该训练样本数据中的样本多肽氨基酸序列，计算预设多肽描述符集合中每个多肽描述符。在本试验中，计算了以下多肽描述符：氨基酸组成（AAC，Amino Acid Composition）、二肽组成（DiC，Dipeptide Composition）、k-间隔氨基酸基团对的组成（CKSAAGP，k-Spaced Amino Acid Group Pairs）、伪氨基酸组成（PAAC，Pseudo Amino Acid Composition）和理化性质（PHYC，Physicochemical），共计626个特征值，每个特征值为浮点数。然后，再将计算得到的各多肽描述符确定与该训练样本数据对应的多肽描述符特征（包括626个特征值）。具体可参考图8，图8中第一列示出的为多肽名称，其他列示出的为不同多肽描述符对应在某个多肽的相应取值。比如，第二列“charge”对应为“电子”描述符。“CKSAAGP_149”为“k-间隔氨基酸基团对的组成”中的第149个描述符取值。

在本试验中，还在计算得到每个训练样本数据对应的多肽描述符特征后，基于所有训练样本数据对应的多肽描述符特征，对每个训练样本数据对应的多肽描述符特征进行了归一化，使得每个训练样本数据对应的多肽描述符特征中每个特征值的取值范围均在0和1之间。

在本试验中，在得到每个该训练样本数据对应的多肽描述符特征之后，在训练样本数据集中随机选择了50%的训练样本数据作为第三被替换训练样本数据，将第三被替换训练样本数据对应的多肽描述符特征替换为预设替换用多肽描述符特征。在本试验中，预设替换用多肽描述符特征为包括626个特征值为0的特征。

步骤306，基于训练样本数据集中训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。

这里，初始多肽与受体结合活性预测模型包括序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型。

在本实验中，首先将训练样本数据集中训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入序列对特征双向编码器、分子指纹特征提取模型和描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量。

在本试验中，序列对特征双向编码器为Transformer模型中的编码器。具体地，如图5所示，序列对特征双向编码器由编码器层堆叠而成，编码器层堆叠次数为1-96。每个编码器包含两个子层连接结构，第一个子层包含多头自注意力层、规范化层和残差连接层；第二个子层包含前馈全连接层、规范化层和残差连接层。其中，多头自注意力层使每个注意力机制去优化每个词元的不同特征部分、均衡偏差，使词元有更多元的表达。规范化层用于加快模型收敛。残差连接层有助于构建更深的模型。前馈连接层用于提高注意力机制的拟合程度。在本试验中，编码器层堆叠次数为2，自注意力头数为3，丢弃法比率设为0.5，输出维度为64维。也就是说，序列对特征双向编码器用于将3×4700的特征矩阵进行特征提取，得到64维的第一特征向量。

具体参考图5，拼接词元序列（<start>，ASL，SLR，LRV，PEG4，<end>，MGS，GSN，SNS，<end>）对应的多肽序列和受体序列对特征为3×4700的特征矩阵，将上述特征矩阵输入序列对特征双向编码器后，输出的第一特征向量（O_t0，O_t1，O_t2，O_t3，O_t4，O_t5，O_t6，O_t7，O_t8，O_t9，...）为64维向量。

在本试验中，分子指纹特征提取模型为第一卷积神经网络。具体在本试验中，如图9所示，第一卷积神经网络包括一维卷积层、最大汇聚层（或称最大池化层）、批量归一化层（图9中未示出）、丢弃层（图9中未示出）、展平层（图9中未示出）和全连接层，激活函数使用RELU。在本试验中，使用3层卷积，卷积核大小为3，丢弃法比率设为0.5，输出维度为64维。也就是说，分子指纹特征提取模型用于将4096维的多肽分子指纹特征进行特征提取，得到64维的第二特征向量。

在本试验中，描述符特征提取模型为第二卷积神经网络。如图10所示，第二卷积神经网络包括一维卷积层、最大汇聚层（或称最大池化层）、批量归一化层（图9中未示出）、丢弃层（图9中未示出）、展平层（图9中未示出）和全连接层，激活函数使用RELU。具体在本试验中，使用3层卷积，卷积核大小为3，丢弃法比率设为0.5，输出维度为16维。也就是说，描述符特征提取模型用于将626维的多肽描述符特征进行特征提取，得到16维的第三特征向量。

然后，拼接第一特征向量、第二特征向量和第三特征向量，得到144（64+64+16=144）维的联合特征向量。

接着，将联合特征向量输入活性值确定模型，得到实际预测活性值。

在本试验中，活性值确定模型为全连接网络，该全连接网络的输入维度为144维，输出维度为2。

最后，采用NAdam优化器，基于实际预测活性值与相应标注活性值之间的差异，调整序列对特征双向编码器、分子指纹特征提取模型、描述符特征提取模型以及不同词元位置对应词元位置嵌入特征进行参数调整。

实施例1：

在参考文献（Francesca Grisoni, Michael Moret, Robin Lingwood, andGisbert Schneider. Bidirectional Molecule Generation with Recurrent NeuralNetworks. J. Chem. Inf. Model. 2020, 60, 3, 1175–1183）中以Kd/KI/IC50/EC50 指标来判断活性源于文献对于有活性值的多肽（所谓有活性值的多肽，是指跟RSV F蛋白作为受体之间结合有活性值），将Kd/KI/IC50/EC50 <10μM的RSV多肽设为有活性，标记为1。将Kd/KI/IC50/EC50≥10μM的RSV多肽设为无活性，标记为0。

将本发明图3所示的多肽与受体结合活性预测模型训练方法（为与传统随机森林模型进行区分，以下简称多模态深度学习模型）和参考文献中预测多肽活性主流的随机森林模型进行比对。

试验数据：如图3中步骤301中所述，获取897个RSV数据作为数据集，将数据集按照3：1：1的比例进行分层采样，分别切分成训练样本数据集、验证样本数据集和测试样本数据集。训练样本数据集包括538个RSV数据，验证样本数据集包括180个RSV数据，测试样本数据集包括179个RSV数据。

如图11所示，试验数据集采用自定义的字典实现，字典的键分别为input_ids1、attention_mask、segments、input_ids2、input_ids3、labels，即分别表示多肽序列和受体序列对特征中的词元嵌入特征、序列对特征双向编码器中多头自注意力层是否用特殊数字0来补齐输入、多肽序列和受体序列对特征中的词元类型嵌入特征、多肽描述符特征、多肽分子指纹特征、标注活性值。字典的值分别为键对应的数值，为浮点数或整数类型。训练过程中每个批次包括训练样本特征数量设置为16，并对每个批次进行打乱。

对于参考文献中的随机森林模型，只采用训练样本数据集中多肽描述符特征和标注活性值进行训练。将训练样本数据集中多肽描述符特征输入随机森林模型，并根据标注活性值对随机森林模型进行训练。

对于多模态深度学习模型，采用包括图11所示词元嵌入特征、词元类型嵌入特征、词元位置特征、多肽分子指纹特征、多肽描述符特征和标注活性值进行训练。

对于上述两种不同的模型，分别根据验证样本数据集的AUC（Area UnderCurve，），即ROC（Receiver Operating Characteristic，接受者操作特性）曲线下面积来选择最优模型进行保存。AUC介于0.1和1之间，可直观的评价分类器的好坏，AUC值越大，模型性能越好。若AUC为0.5，则为随机模型。若0.5 < AUC < 1，则模型优于随机模型。最后将测试样本数据集中的数据部分（对于随机森林模型，包括多肽描述特征；对于多肽与受体结合活性预测模型，包括词元嵌入特征、词元类型嵌入特征、词元位置特征、多肽分子指纹特征和多肽描述符特征）输入两种方法的最优模型中，并基于AUC值进行最终评估。

如图12所示，多模态深度学习模型的AUC值为0.8973。而随机森林模型的AUC值为0.8043。多模态深度学习模型的AUC值相比随机森林模型提高了9.30%。因此，多模态深度学习模型优于传统的随机森林模型，大幅提升了多肽与受体结合活性预测的准确性。

实施例2：

模型消融试验：以多模态深度学习模型作为基线，分别测试去除不同特征及相应特征提取模型，以及不使用增强模型鲁棒性方法（随机切分多肽受体序列、随机替换多肽分子指纹信息为0、随机替换多肽描述符信息为0）情况下的AUC值的变化，可得到不同特征及相应特征提取模型、不使用增强模型鲁棒性方法对模型性能的影响。

如图13所示，采用多模态深度学习模型的AUC值为0.8973（基线），而去除分子指纹模块（即，去除多肽分子指纹特征和分子指纹特征提取模型）后，AUC下降至0.8471；去除序列对模块（即，去除多肽序列和受体序列对特征和序列特征对双向编码器）后，AUC下降至0.8189；去除描述符模块（即，多肽描述符特征和描述符特征提取模型）后，AUC下降至0.8151；因此，序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型对多模态深度学习模型的AUC均有贡献，均不可缺失。

如图13所示，是否使用增强模型鲁棒性方法也影响模型的AUC值。这里，是否使用增强模型鲁棒性方法是指是否执行以下操作：

在得到每个该训练样本数据对应的多肽词元序列和受体词元序列之后，在训练样本数据集中随机选择了50%的训练样本数据作为第一被替换训练样本数据，将第一被替换训练样本数据对应的样本受体词元序列中随机位置范围内的受体词元替换为预设替换用词元。

在得到每个该训练样本数据对应的多肽分子指纹特征之后，在训练样本数据集中随机选择了50%的训练样本数据作为第二被替换训练样本数据，将第二被替换训练样本数据对应的多肽分子指纹特征替换为预设替换用多肽分子指纹特征。以及

在得到每个该训练样本数据对应的多肽描述符特征之后，在训练样本数据集中随机选择了50%的训练样本数据作为第三被替换训练样本数据，将第三被替换训练样本数据对应的多肽描述符特征替换为预设替换用多肽描述符特征。

经过试验发现，使用增强模型鲁棒性方法的多模态深度学习模型的AUC值为0.8973（基线），而不使用增强模型鲁棒性方法的多模态深度学习模型的AUC值为下降至0.8051，AUC下降了9.22%。由此可见，使用本发明上文记载的增强模型鲁棒性方法，对多模态深度学习模型的AUC也有贡献，不可去除。

经过模型消融试验发现，本发明提出的多模态深度学习模型整合了序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型，综合考虑了多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，增加了模型的AUC值，提高了模型预测效果。本发明提出的使用增强模型鲁棒性方法，提高了模型的AUC值，提升了模型性能。

继续参考图14，其示出了具体试验中，本发明的多肽与受体结合活性预测方法的流程1400。该多肽与受体结合活性预测方法，包括以下步骤：

步骤1401，确定与待测多肽氨基酸序列和待测受体氨基酸序列对应的待测多肽与受体多模态特征。

这里，待测多肽与受体多模态特征可以包括待测多肽序列和受体序列对特征、待测多肽分子指纹特征和待测多肽描述符特征。其中：

待测多肽序列和受体序列对特征可以为基于待测多肽氨基酸序列和待测受体氨基酸序列进行特征表示得到的特征。

待测多肽氨基酸序列可以为用于表征待测多肽一级结构中氨基酸残基排列顺序的文本数据，待测受体氨基酸序列可以为用于表征待测受体一级结构中氨基酸残基排列顺序的文本数据。

待测多肽分子指纹特征可以为基于待测多肽氨基酸序列对应的摩根分子指纹信息得到的特征。

待测多肽描述符特征可以为基于待测多肽氨基酸序列对应的至少一个多肽描述符得到的特征。

在一些可选的实施方式中，可以采用如图2B所示的步骤2011到步骤2016所示的通过训练数据确定训练样本的方法，通过待测多肽氨基酸序列和待测受体氨基酸序列，确定待测多肽与受体多模态特征可以包括待测多肽序列和受体序列对特征、待测多肽分子指纹特征和待测多肽描述符特征。

步骤1402，基于待测多肽序列和受体序列对特征、待测多肽分子指纹特征以及待测多肽描述符特征，通过多肽与受体结合活性预测模型，确定待测多肽与待测受体结合的活性值。

这里，多肽与受体结合活性预测模型可以是采用如图2A所示的实施例及其可选实施方式示出的或图3所示的实施例及其可选实施方式示出方法预先训练得到的。

本发明的上述实施例提供的多肽与受体结合活性预测方法，通过将待测多肽序列和受体序列对特征、待测多肽分子指纹特征以及待测多肽描述符特征输入采用图2A所示的实施例及其可选实施方式示出的或图3所示的实施例及其可选实施方式示出的方法预先训练得到的多肽与受体结合活性预测模型，可以得到待测多肽与待测受体结合的活性值，可以加快多肽设计的速度，并大大降低多肽设计的各种成本。

进一步参考图15，作为对上述各图所示方法的实现，本发明提供了一种多肽与受体结合活性预测模型训练装置的一个实施例，该装置实施例与图2A所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图15所示，本实施例的多肽与受体结合活性预测模型训练装置1500包括：训练样本特征确定模块1501，被配置为确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征；以及模型训练模块1502，被配置为基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。

在本实施例中，多肽与受体结合活性预测模型训练装置1500的训练样本特征确定模块1501和模型训练模块1502的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201和步骤202的相关说明，在此不再赘述。

在一些可选的实施方式中，所述初始多肽与受体结合活性预测模型可以包括：序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型；以及

所述模型训练模块1502可以包括：

参数调整单元15021，被配置为对于所述训练样本特征集中的训练样本特征，执行以下模型参数调整操作：将该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入所述序列对特征双向编码器、所述分子指纹特征提取模型和所述描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量；基于所述第一特征向量、第二特征向量和第三特征向量，确定联合特征向量；将所述联合特征向量输入所述活性值确定模型，得到实际预测活性值；基于所述实际活性预测值与该训练样本特征对应的标注样本活性值之间的差异调整所述初始多肽与受体结合活性预测模型的模型参数；

模型确定单元15022，被配置为将所述模型参数调整后的所述初始多肽与受体结合活性预测模型确定为所述训练后的多肽与受体结合活性预测模型。

在一些可选的实施方式中，所述训练样本特征确定模块1501可以包括：

样本数据获取单元15011，被配置为获取训练样本数据集，其中，训练样本数据包括样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值；

词元序列拼接单元15012，被配置为对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列；

特征嵌入表示单元15013，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下序列对特征嵌入表示操作：按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列；对所述拼接词元序列进行特征嵌入表示，得到与该训练样本数据对应的多肽序列和受体序列对特征，与该训练样本数据对应的多肽序列和受体序列对特征包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征，其中，词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别；

分子指纹特征提取单元15014，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作：将该训练样本数据中的样本多肽氨基酸序列依次转换为SMILES表达式和摩根分子指纹信息，以及基于所述摩根分子指纹信息确定与该训练样本数据对应的多肽分子指纹特征；

描述符特征提取单元15015，被配置为对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作：基于该训练样本数据中的样本多肽氨基酸序列，计算预设多肽描述符集合中每个多肽描述符，以及基于计算得到的各多肽描述符确定与该训练样本数据对应的多肽描述符特征；

特征合并单元15016，被配置为基于所述训练样本数据集中每个训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定所述训练样本特征集。

在一些可选的实施方式中，所述训练样本特征确定模块1501还可以包括：第一鲁棒性增强单元15012’，被配置为在对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列之后：

在一些可选的实施方式中，所述训练样本特征确定模块1501还可以包括：第二鲁棒性增强单元15014’，被配置为在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后：

在一些可选的实施方式中，所述训练样本特征确定模块1501还可以包括：第三鲁棒性增强单元15015’，被配置为在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作之后：

在一些可选的实施方式中，所述至少一个多肽描述符可以包括以下至少一项：氨基酸组成AAC、二肽组成DiC、k-间隔氨基酸基团对的组成CKSAAGP、伪氨基酸组成PAAC和理化性质PHYC。

在一些可选的实施方式中，所述序列特征双向编码器可以为Transformer模型中的编码器，所述分子指纹特征提取模型为第一卷积神经网络，所述多肽描述符特征提取模型为第二卷积神经网络，所述活性值确定模型为全连接网络。

需要说明的是，本发明的实施例提供的多肽与受体结合活性预测模型训练装置中各模块的实现细节和技术效果可以参考本发明中其它实施例的说明，在此不再赘述。

进一步参考图16，作为对上述各图所示方法的实现，本发明提供了一种多肽与受体结合活性预测装置的一个实施例，该装置实施例与图14所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图16所示，本实施例的多肽与受体结合活性预测装置1600包括：多模态特征确定模块1601，被配置为确定与待测多肽氨基酸序列和待测受体氨基酸序列对应的待测多肽与受体多模态特征，所述待测多肽与受体多模态特征包括待测多肽序列和受体序列对特征、待测多肽分子指纹特征和待测多肽描述符特征，其中，所述待测多肽序列和受体序列对特征为基于所述待测多肽氨基酸序列和所述待测受体氨基酸序列进行特征表示得到的特征，所述待测多肽分子指纹特征为基于所述待测多肽氨基酸序列对应的摩根分子指纹信息得到的特征，所述待测多肽描述符特征为基于所述待测多肽氨基酸序列对应的至少一个多肽描述符得到的特征；以及活性预测模块1602，被配置为基于所述待测多肽序列和受体序列对特征、所述待测多肽分子指纹特征以及所述待测多肽描述符特征，通过多肽与受体结合活性预测模型，确定待测多肽与待测受体结合的活性值，其中，所述多肽与受体结合活性预测模型是采用如图2A所示的实施例及其可选实施方式示出的方法预先训练得到的。

在本实施例中，多肽与受体结合活性预测装置1600的多模态特征确定模块1601和活性预测模块1602的具体处理及其所带来的技术效果可分别参考图14对应实施例中步骤1401和步骤1402的相关说明，在此不再赘述。

下面参考图17，其示出了适于用来实现本发明的终端设备的计算机系统1700的结构示意图。图17示出的计算机系统1700仅仅是一个示例，不应对本发明的实施例的功能和使用范围带来任何限制。

如图17所示，计算机系统1700可以包括处理装置（例如中央处理器、图形处理器等）1701，其可以根据存储在只读存储器（ROM）1702中的程序或者从存储装置1708加载到随机访问存储器（RAM）1703中的程序而执行各种适当的动作和处理。在RAM 1703中，还存储有计算机系统1700操作所需的各种程序和数据。处理装置1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出（I/O）接口1705也连接至总线1704。

通常，以下装置可以连接至I/O接口1705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置1706；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置1707；包括例如磁带、硬盘等的存储装置1708；以及通信装置1709。通信装置1709可以允许计算机系统1700与其他设备进行无线或有线通信以交换数据。虽然图17示出了具有各种装置的电子设备的计算机系统1700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1709从网络上被下载和安装，或者从存储装置1708被安装，或者从ROM 1702被安装。在该计算机程序被处理装置1701执行时，执行本发明的实施例的方法中限定的上述功能。

需要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备实现如图2A所示的实施例及其可选实施方式示出的多肽与受体结合活性预测模型训练方法，和/或，如图3所示的实施例及其可选实施方式示出的多肽与受体结合活性预测模型训练方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明的实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，训练样本特征确定模块还可以被描述为“确定训练样本特征集的模块”。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种多肽与受体结合活性预测模型训练方法，包括：

确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征；

基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型；其中，所述确定训练样本特征集，具体包括：

对于所述训练样本数据集中每个训练样本数据，执行以下序列对特征嵌入表示操作：对于所述拼接词元序列中的每个词元进行嵌入特征表示得到相应词元的嵌入特征表示，词元的嵌入特征表示包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征，其中，词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别；将所述拼接词元序列每个词元的嵌入特征表示按照该词元在所述拼接词元序列中的顺序进行拼接，得到与该训练样本数据对应的多肽序列和受体序列对特征；

2.根据权利要求1所述的方法，其中，所述初始多肽与受体结合活性预测模型包括：序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型；以及

对于所述训练样本特征集中的训练样本特征，执行以下模型参数调整操作：将该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入所述序列对特征双向编码器、所述分子指纹特征提取模型和所述描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量；基于所述第一特征向量、第二特征向量和第三特征向量，确定联合特征向量；将所述联合特征向量输入所述活性值确定模型，得到实际预测活性值；基于所述实际预测活性值与该训练样本特征对应的标注样本活性值之间的差异调整所述初始多肽与受体结合活性预测模型的模型参数；

3.根据权利要求1所述的方法，其中，所述分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列，包括：

将该训练样本数据中的样本多肽氨基酸序列中的每个修饰基团序列切分为相应修饰基团词元，将该训练样本数据中的样本多肽氨基酸序列中除修饰基团序列外的其它部分进行词元切分，得到与该训练样本数据对应的多肽词元序列；

4.根据权利要求1所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列之后，所述方法还包括：

5.根据权利要求1所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后，所述方法还包括：

6.根据权利要求1所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作之后，所述方法还包括：

在所述训练样本数据集中随机选取第三预设比例的训练样本数据作为第三被替换训练样本数据子集；以及

7.根据权利要求1所述的方法，其中，所述至少一个多肽描述符包括以下至少一项：氨基酸组成AAC、二肽组成DiC、k-间隔氨基酸基团对的组成CKSAAGP、伪氨基酸组成PAAC和理化性质PHYC。

8.根据权利要求2所述的方法，其中，所述序列特征双向编码器为Transformer模型中的编码器，所述分子指纹特征提取模型为第一卷积神经网络，所述多肽描述符特征提取模型为第二卷积神经网络，所述活性值确定模型为全连接网络。

9.一种多肽与受体结合活性预测方法，包括：

确定与待测多肽氨基酸序列和待测受体氨基酸序列对应的待测多肽与受体多模态特征，所述待测多肽与受体多模态特征包括待测多肽序列和受体序列对特征、待测多肽分子指纹特征和待测多肽描述符特征，其中，所述待测多肽序列和受体序列对特征为基于所述待测多肽氨基酸序列和所述待测受体氨基酸序列进行特征表示得到的特征，所述待测多肽分子指纹特征为基于所述待测多肽氨基酸序列对应的摩根分子指纹信息得到的特征，所述待测多肽描述符特征为基于所述待测多肽氨基酸序列对应的至少一个多肽描述符得到的特征；

基于所述待测多肽序列和受体序列对特征、所述待测多肽分子指纹特征以及所述待测多肽描述符特征，通过多肽与受体结合活性预测模型，确定待测多肽与待测受体结合的活性值，其中，所述多肽与受体结合活性预测模型是采用如权利要求1-8中任一所述的方法预先训练得到的。

10.一种多肽与受体结合活性预测模型训练装置，包括：

模型训练模块，被配置为基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型；

其中，所述确定训练样本特征集，具体包括：

11.一种多肽与受体结合活性预测装置，包括：

活性预测模块，被配置为基于所述待测多肽序列和受体序列对特征、所述待测多肽分子指纹特征以及所述待测多肽描述符特征，通过多肽与受体结合活性预测模型，确定待测多肽与待测受体结合的活性值，其中，所述多肽与受体结合活性预测模型是采用如权利要求1-8中任一所述的方法预先训练得到的。

12.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8和/或权利要求9中任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如权利要求1-8和/或权利要求9中任一所述的方法。

14.一种计算机程序产品，其特征在于，计算机程序产品包括指令，所述指令被处理器执行时实现如权利要求1-8和/或权利要求9中任一项所述的方法。