CN116469457A

CN116469457A - Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置

Info

Publication number: CN116469457A
Application number: CN202310704181.5A
Authority: CN
Inventors: 季序我; 王雪霏; 赵义; 李哲
Original assignee: Beijing Pukang Ruiren Medical Laboratory Co ltd; Predatum Biomedicine Suzhou Co ltd; Precision Scientific Technology Beijing Co ltd
Current assignee: Beijing Pukang Ruiren Medical Laboratory Co ltd; Predatum Biomedicine Suzhou Co ltd; Precision Scientific Technology Beijing Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-07-21
Anticipated expiration: 2043-06-14
Also published as: CN116469457B

Abstract

本发明公开了MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置，属于生物信息及细胞免疫技术领域。本发明构建了抗原多肽分别与MHC‑I及MHC‑II的结合、呈递及免疫原性的多任务学习神经网络模型，能够利用从充足的结合和呈递数据集中学习到的特征来增强对数据量较少的免疫原性的学习，并能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果，从而可以结合此三个免疫应答过程相互依赖的特点，对该抗原‑MHC分子对的重要生物意义产生综合判断。

Description

MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置

技术领域

本发明涉及生物信息及细胞免疫技术领域，尤其涉及一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置。

背景技术

来自外来抗原的多肽会被抗原呈递细胞上的主要组织相容性复合体（majorhistocompatibility complex, MHC）结合并呈递至T细胞，从而启动体内的免疫应答。了解何种抗原多肽能够与MHC分子结合、被MHC分子呈递至细胞表面、以及启动T细胞免疫应答反应对调控和利用细胞免疫系统至关重要。

目前已有诸多工具旨在预测抗原多肽与MHC分子的结合性能以及其免疫原性。比如，被广泛应用的NetMHCPan（Reynisson et al., 2020）基于单层神经网络分别预测MHC-I（由一个跨越细胞膜的α链和一个细胞外的β2微球蛋白组成）和MHC-II（由均跨越细胞膜的一个α链和一个β链组成）与相关抗原的结合性能；MHCflurry（O'Donnell et al., 2018）整合了多层前馈神经网络、卷积神经网络、逻辑斯蒂回归，用于预测MHC-I与抗原表位的结合；MixMHCpred（Bassani-Sternberg et al., 2017; Gfeller et al., 2018）利用混合模型和位置权重矩阵提取抗原表位的特征基序，从而预测其与MHC-I的结合性能； ImmunoBERT（Gasser et al., 2021）和BERTMHC（Cheng et al., 2021）均基于TAPE（Tasks AssessingProtein Embeddings）预训练模型，分别用于预测抗原多肽与MHC-I和MHC-II的结合与呈递；TransPHLA（Chu et al., 2022）采用基于Transformer的模型结构，预测抗原与MHC-I的结合；DeepNetBim（Yang et al., 2021）利用卷积神经网络和注意力机制，将抗原多肽与MHC-I的结合及免疫原性预测相结合；FIONA（Xu et al., 2022）基于卷积神经网络分别预测了抗原多肽被MHC-II的呈递及其免疫原性；BigMHC（Albert et al., 2022）基于BiLSTM单元，利用抗原-MHC-I呈递数据集进行训练，并迁移学习至抗原-MHC-I免疫原性数据集。

但是这些工具都存在如下的一些局限：1）受免疫原性数据量的限制，对于抗原多肽免疫原性的预测方法较少；2）由于编码MHC-II的HLA-II等位基因多态性较高，对于MHC-II相关抗原多肽免疫原性的预测比MHC-I相关方法更少且精度有限。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明第一方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，包括：

获取训练数据，所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据；

将所述训练数据输入至预测模型中，首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示，然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；

对预测模型进行迭代训练优化，得到训练好的预测模型；

其中，MHC为MHC-I或MHC-II。

优选地，所述预测模型包括自然语言预训练模型和多层感知机分类模型；所述得到MHC与抗原多肽氨基酸序列的嵌入特征表示包括：采用自然语言预训练模型将MHC与抗原多肽氨基酸序列嵌入表示为固定维度的向量，提取出氨基酸序列的嵌入特征表示。

优选地，所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括：基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。

优选地，所述训练数据从IEDB公用数据库获取，根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。

优选地，所述训练数据为MHC蛋白全长序列和抗原多肽序列，其中，抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。

优选地，所述分类预测值的取值范围为[0, 1]，划分阴阳性结果的阈值为0.5。

本发明第二方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置，包括：

训练数据获取模块，用于获取训练数据，所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据；

预测模块，用于将所述训练数据输入至预测模型中，首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示，然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；

优化模块，用于对预测模型进行迭代训练优化，得到训练好的预测模型；

其中，MHC为MHC-I或MHC-II。

本发明第三方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测方法，包括：

将MHC与抗原多肽输入到训练好的预测模型中，分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；

所述训练好的预测模型为利用第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。

本发明第四方面提供了一种存储器，存储有多条指令，所述指令用于实现如第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，或第三方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。

本发明第五方面提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，或第三方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。

本发明的有益效果是：本发明构建了抗原多肽分别与MHC-I及MHC-II的结合、呈递及免疫原性的多任务学习神经网络模型，能够利用从充足的结合和呈递数据集中学习到的特征来增强对数据量较少的免疫原性的学习，并能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果，从而可以结合此三个免疫应答过程相互依赖的特点，对该抗原-MHC分子对的重要生物意义产生综合判断。

附图说明

图1为本发明所述MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法流程示意图；

图2为本发明所述MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置的功能结构示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

实施例一

如图1所示，本发明实施例提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，包括：S101，获取训练数据，所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据；S102，将所述训练数据输入至预测模型中，首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示，然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；S103，对预测模型进行迭代训练优化，得到训练好的预测模型；其中，MHC为MHC-I或MHC-II。

本发明的目的是构建多任务学习神经网络模型，该模型既能够预测抗原与MHC-I的结合、呈递及免疫原性，还能够预测抗原与MHC-II的结合、呈递及免疫原性，以解决现有技术中MHC-II和抗原多肽免疫原性的预测方法少且精度低的问题；本发明构建的模型能够利用从充足的结合和呈递数据集中学习得到的特征来弥补和增强对数据量较少的免疫原性的学习，解决了免疫原性训练数据量少的问题；另外，采用本发明构建的模型，能够通过该同一模型，同时得到抗原多肽与MHC的结合、呈递及免疫原性预测结果，有利于对该抗原多肽和MHC分子对的重要生物意义进行综合判断。

其中，在步骤S101中，所述训练数据从IEDB（The Immune Epitope Database）公用数据库获取，并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。

在本发明的一个优选实施例中，所述训练数据为MHC蛋白全长序列和抗原多肽序列，其中，抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。本发明构建的预测模型，对于输入的抗原多肽序列及MHC蛋白全长序列，无需进行序列长度以及潜在结合域的额外筛选和编辑处理，使用方法简洁方便，满足多种应用需求。

在步骤S102中，所述预测模型包括自然语言预训练模型和多层感知机分类模型；可以首先采用自然语言预训练模型得到MHC与抗原多肽氨基酸序列的嵌入特征表示。即将训练数据输入至自然语言预训练模型中，输出MHC与抗原多肽氨基酸序列的嵌入特征表示。自然语言处理模型可以基于公开蛋白质数据库进行预训练和精调，将不同长度的蛋白序列表示为固定维度的向量，能够有效提取蛋白序列的特征。

MHC与抗原多肽氨基酸序列的嵌入特征表示可以作为基于多输入、多输出的多层感知机（multilayer perceptron，MLP）分类模型的输入，该MLP模型将抗原多肽与MHC分子的结合、呈递及免疫原性的预测均处理为二分类任务，同时输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；模型输出的预测值取值范围可以为[0, 1]，划分阴阳性结果的阈值可以为0.5。

可见，采用本发明构建的预测模型，能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果，从而可以结合此三个免疫应答过程相互依赖的特点，对该抗原-MHC分子对的重要生物意义产生综合判断。

执行步骤S103，得到训练好的预测模型。

在本发明实施例中，获取训练数据时，可以同时获取测试数据，训练数据与测试数据的比例可以按照8:2划分。

采用本发明提供的训练方法得到的训练好的预测模型进行抗原多肽与MHC-I的结合、呈递、免疫原性的预测，在测试数据集上的验证指标AUROC分别为0.9913、0.9927、0.8479；AUPRC分别为0.9940、0.9954、0.8052。采用本发明提供的训练方法得到的训练好的预测模型进行抗原多肽与MHC-II的结合、呈递、免疫原性的预测，在测试数据集上的验证指标AUROC分别为0.9943、0.9946、0.9345；AUPRC分别为0.9964、0.9965、0.9267。

因此，采用本发明提供的方法训练好的预测模型，对于抗原多肽与MHC-I及MHC-II的结合、呈递、免疫原性的预测，都具有非常高的准确度。

实施例二

如图2所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置，包括：训练数据获取模块201，用于获取训练数据，所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据；预测模块202，用于将所述训练数据输入至预测模型中，首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示，然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；优化模块203，用于对预测模型进行迭代训练优化，得到训练好的预测模型；其中，MHC为MHC-I或MHC-II。

进一步地，在所述预测模块中，所述预测模型包括自然语言预训练模型和多层感知机分类模型；所述得到MHC与抗原多肽氨基酸序列的嵌入特征表示包括：采用自然语言预训练模型将MHC与抗原多肽的氨基酸序列嵌入表示为固定维度的向量，并提取出氨基酸序列的嵌入特征表示。

进一步地，在所述预测模块中，所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括：基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。

进一步地，在所述训练数据获取模块中，所述训练数据从IEDB公用数据库获取，并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。

更进一步地，所述训练数据为MHC蛋白全长序列和抗原多肽序列，其中，抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。

其中，所述分类预测值的取值范围为[0, 1]，划分阴阳性结果的阈值为0.5。

该装置可通过上述实施例一提供的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

实施例三

本发明实施例提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测方法，包括：将MHC与抗原多肽输入到训练好的预测模型中，分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；所述训练好的预测模型为利用实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。具体的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法可参阅实施例一所述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，或实施例三所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，或实施例三所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，其特征在于，包括：

将所述训练数据输入至预测模型中，首先得到MHC与抗原多肽的氨基酸序列的嵌入特征表示，然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值；

对预测模型进行迭代训练优化，得到训练好的预测模型；

其中，MHC为MHC-I或MHC-II。

2.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，其特征在于，所述预测模型包括自然语言预训练模型和多层感知机分类模型；

所述得到MHC与抗原多肽的氨基酸序列的嵌入特征表示包括：采用自然语言预训练模型将MHC与抗原多肽的氨基酸序列嵌入表示为固定维度的向量，并提取出氨基酸序列的嵌入特征表示。

3.如权利要求2所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，其特征在于，所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括：基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。

4.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，其特征在于，所述训练数据从IEDB公用数据库获取，并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。

5.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，其特征在于，所述训练数据为MHC蛋白全长序列和抗原多肽序列，其中，抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。

6.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，其特征在于，所述分类预测值的取值范围为[0, 1]，划分阴阳性结果的阈值为0.5。

7.一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置，其特征在于，包括：

其中，MHC为MHC-I或MHC-II。

8.一种MHC与抗原多肽结合、呈递及免疫原性的预测方法，其特征在于，包括：

所述训练好的预测模型为利用权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。

9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，或权利要求8所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。

10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法，或权利要求8所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。