CN114242159B

CN114242159B - 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置

Info

Publication number: CN114242159B
Application number: CN202210170086.7A
Authority: CN
Inventors: 王天元; 翟珂
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-06-07
Anticipated expiration: 2042-02-24
Also published as: CN114242159A

Abstract

本申请涉及一种抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置。该构建方法包括：获取预选种类的目标HLA及与目标HLA对应的具有预设比例的正样本数据和负样本数据；将目标HLA及相应的正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的子模型；通过预设规则对各训练好的子模型进行筛选，获得包括优选子模型的预测模型；其中，预测模型综合优选子模型的预测呈递结果预测目标抗原肽被目标HLA呈递的结果。本申请提供的方案，能够通过预测模型快速预测抗原肽被HLA呈递的结果，降低研发成本，提高预测效率。

Description

抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置

技术领域

本申请涉及抗原肽技术领域，尤其涉及一种抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置。

背景技术

T细胞免疫是适应性免疫的重要组成部分，在对抗病原微生物感染及抗肿瘤中均发挥核心作用。T细胞免疫的关键步骤是TCR（T细胞抗原受体）与相应的pMHC（抗原肽-MHC分子复合物）的相互作用，其中，MHC-Ⅰ类分子通过呈递表位多肽供CTL（细胞毒性T淋巴细胞）识别而引发效应细胞对靶细胞的杀伤。研究抗原肽与MHC分子复合物的结构有助于深入理解T细胞免疫发生的细节和加快T细胞表位疫苗的开发。

人类的MHC分子也被称作HLA分子、HLA或HLA抗原。HLA结合并呈递抗原肽供TCR识别的过程中，必然涉及HLA和抗原肽的结合，特定的HLA可凭借所需要的共用基序（consensusmotif）选择性地结合抗原肽。相关技术中，一般采用湿实验的方法来确定能引发T细胞免疫反应的抗原肽，然而，这样的研究方式将耗费大量的时间和人力物力。

因此，如何快速、低成本的确定抗原肽与含有特定HLA的T细胞免疫呈递和应答的程度，是目前需要解决的问题。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置，能够通过预测模型快速预测抗原肽被HLA呈递的结果，降低研发成本，提高预测效率。

本申请第一方面提供一种抗原肽呈递预测模型的构建方法，包括：

获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据，其中，所述正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果；所述负样本数据包括与所述正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与所述目标HLA的负呈递结果；

将所述目标HLA及相应的所述正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的所述子模型；

通过预设规则对各所述训练好的子模型进行筛选，获得包括优选子模型的预测模型；其中，所述预测模型综合所述优选子模型的预测呈递结果预测目标抗原肽被所述目标HLA呈递的结果。

在一实施方式中，所述获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据，包括：

针对目标HLA，将正样本数据与负样本数据按照1：（8~10）生成训练数据，及将正样本数据与负样本数据按照1：（800~1000）生成测试数据。

在一实施方式中，将所述训练数据按照K折交叉验证划分获得训练集和验证集；和/或将所述训练数据按照K折交叉验证划分获得训练集和验证集，并将预设数量的所述伪标签数据加入所述训练集；其中，所述伪标签数据由空白标签的所述测试数据根据预先训练的子模型预测获得对应的伪标签后形成。

在一实施方式中，所述将所述目标HLA及相应的所述正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的所述子模型，包括：

将所述正样本数据中的正样本多肽序列及正呈递结果、和所述负样本数据中的负样本多肽序列及负呈递结果作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练，获得对应的训练好的所述子模型；和/或将所述正样本数据和所述负样本数据作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练，获得对应的训练好的所述子模型。

在一实施方式中，所述多种基于BERT模型的不同架构的子模型，包括以下至少之一：

BERT与CNN融合模型、BERT与LSTM融合模型、BERT与LSTM及GRU融合模型、含双层句向量隐藏层的BERT模型、含三层句向量隐藏层的BERT模型、含全局平均池化层的BERT模型、含词向量批标准化的BERT模型、及标准BERT模型。

在一实施方式中，所述通过预设规则对各所述训练好的子模型进行筛选，获得包括优选子模型的预测模型，包括：

分别获取各所述子模型的预测呈递结果的精确率和召回率；

根据所述精确率和召回率，通过预设评估函数确定各所述子模型的准确性评估分数；

根据对应的所述准确性评估分数，在所述子模型中筛选获得优选子模型。

在一实施方式中，所述分别获取各所述子模型的预测呈递结果的精确率和召回率，包括：

分别统计每个子模型的预测呈递结果中的TP、FP、FN的个数；

根据对应的TP、FP及FN的个数，确定对应的各所述子模型的精确率和召回率。

在一实施方式中，所述获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据之前，包括：

获得被候选HLA结合和呈递的多肽序列，并根据序列相似度对获得的被所述候选HLA结合和呈递的多肽序列进行聚类处理，获得多种候选HLA和对应的正样本多肽序列集；

在各所述候选HLA中筛选获得多种所述目标HLA，并将所述候选HLA对应的所述正样本多肽序列集作为所述目标HLA的正样本数据。

本申请第二方面提供一种抗原肽预测方法，其包括：

获取目标抗原肽序列；

根据上述构建的预测模型，预测所述目标抗原肽序列被所述预测模型中的目标HLA呈递的结果。

在一实施方式中，所述目标抗原肽序列的预设长度是8~11个。

本申请第三方面提供一种抗原肽呈递预测模型的构建装置，其包括：

样本获取模块，用于获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据，其中，所述正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果；所述负样本数据包括与所述正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与所述目标HLA的负呈递结果；

训练模块，用于将所述目标HLA及相应的所述正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的所述子模型；

筛选模块，用于通过预设规则对各所述训练好的子模型进行筛选，获得包括优选子模型的预测模型；其中，所述预测模型综合所述优选子模型的预测呈递结果预测目标抗原肽被所述目标HLA呈递的结果。

本申请第四方面提供一种抗原肽预测装置，其包括：

序列获取模块，用于获取目标抗原肽序列

预测模块，用于根据上述构建的所述预测模型，预测所述目标抗原肽序列被所述预测模型中的目标HLA的呈递的结果。

本申请第五方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第六方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请的技术方案，针对每种目标HLA分别获取关联的正样本数据，另外获取与正样本数据完全不同的负样本数据后，对多个不同的基于BERT模型的子模型进行训练，并从训练好的子模型中筛选优选子模型以综合形成整体的一个预测模型，从而可以根据各优选子模型输出的预测呈递结果进行综合，获得目标抗原肽是否被目标HLA呈递的预测结果，提高预测结果的准确性。本申请的方案，训练好的预测模型可以有效辅助研发人员预测抗原肽与HLA的结合与呈递，从而减少实验，减少人力物力，提高研发效率，降低研发成本，有助于研发人员判断什么样的抗原肽适合作为“肿瘤多肽疫苗”来刺激T细胞产生免疫活性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的抗原肽呈递预测模型的构建方法的流程示意图；

图2是本申请实施例示出的抗原肽呈递预测模型的构建方法的另一流程示意图；

图3为5种对比模型和本申请的预测模型根据测试结果绘制的精确率-召回率（precision–recall）曲线图；

图4是本申请实施例示出的抗原肽预测方法的流程示意图；

图5是本申请实施例示出的抗原肽呈递预测模型的构建装置的结构示意图；

图6是本申请实施例示出的抗原肽呈递预测模型的构建装置的另一结构示意图；

图7是本申请实施例示出的抗原肽预测装置的结构示意图；

图8是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，抗原肽与特定的HLA结合后可被呈递至供TCR识别，从而产生T细胞免疫。然而，一般采用湿实验的方法来逐一确定能引发T细胞免疫反应的抗原肽，实验的过程将耗费大量的时间、人力和物力。

针对上述问题，本申请实施例提供一种抗原肽呈递预测模型的构建方法和抗原肽预测方法，能够通过预测模型快速预测能被HLA呈递的抗原肽，降低研发成本，提高预测效率。

以下结合附图详细描述本申请实施例的技术方案。

图1是本申请实施例示出的抗原肽呈递预测模型的构建方法的流程示意图。

参见图1，本申请一实施例提供的抗原肽呈递预测模型的构建方法，包括：

S110，获取预选种类的目标HLA及与单个目标HLA对应的具有预设比例的正样本数据和负样本数据，其中，正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果；负样本数据包括与正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与目标HLA的负呈递结果。

可以理解，各目标HLA上具有用于接纳抗原肽的抗原结合槽，从而可以接纳结合抗原肽中的一定长度的氨基酸残基。本申请中，由于HLA的种类数以万计，根据实际需求，可以预先选择目标HLA的种类，目标HLA的种类可以是一种或多种。本实施例中的目标HLA可以选自人体HLA-I和/或HLA-II中的HLA。例如可以是选自中、美人群的HLA-I中的常见的4种HLA作为目标HLA，如A*11:01、A*24:02、C*07:02、A*02:01。

针对每一种类的目标HLA，均具有对应的正样本数据和负样本数据，且针对同一种类的目标HLA，其正样本数据与负样本数据完全不同。本步骤中，正样本数据中的正样本多肽序列是指可以与对应的目标HLA结合且可以被目标HLA呈递的多肽序列，其中正样本多肽序列的长度在第一预设长度阈值范围内，第一预设长度阈值范围可以是8~11；上游序列即为连接于正样本多肽序列N端的序列，下游序列即为连接于正样本多肽序列C端的序列，上游序列和下游序列的长度分别在第二预设长度阈值范围内，第二预设长度阈值范围可以是7~30。正呈递结果即为该正样本多肽序列可以被目标HLA呈递。相应地，负样本数据中的负样本多肽序列则为不能被目标HLA呈递的多肽序列，负样本多肽序列的上游序列和下游序列即为对应连接于该负样本多肽序列的N端和C端的序列。负样本多肽序列的长度在第一预设长度阈值范围内，其上游序列和下游序列的长度分别在第二预设长度阈值范围内。负呈递结果即为该负样本多肽序列不可以被目标HLA呈递。可以理解，每一种类的目标HLA对应的正样本多肽序列不同，目标HLA需要分别获取与对应的正样本数据不同的负样本数据。为了提高训练效率，可以预先筛选获取公用负样本数据，公用负样本数据与所有种类的目标HLA的正样本数据不同，每一种类的目标HLA均可以采用公用负样本数据作为各自的负样本数据。

进一步地，针对单个目标HLA，其对应的正样本数据可以通过已知的实验数据获得，从而确保正样本数据的准确性。另外，通过将正样本数据和负样本数据按照预设比例配置对应的数据量，例如负样本数据的数据量大于正样本数据的数据量，从而可以丰富模型的训练数据的同时，有助于在正样本数据充分度欠缺的情况下，提高模型预测结果的准确度。在一实施方式中，针对目标HLA，将正样本数据与负样本数据按照1：（8~10）生成训练数据，及将正样本数据与负样本数据按照1：（800~1000）生成测试数据。也就是说，训练数据中的负样本数据与正样本数据的比例小于测试数据中的比例，从而可以提高训练效率；测试数据中的负样本数据需要远大于正样本数据的数量，从而确保模型预测结果的准确度。

S120，将目标HLA及相应的正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的子模型。

其中，BERT模型（Bidirectional Encoder Representations fromTransformers，来自变换器的双向编码器表征量）是一种预训练语言模型，应用于蛋白质的BERT模型在预训练阶段通过字符遮蔽与下句预测等2个无监督任务学习了千万级别的Pfam数据库无标签蛋白质序列数据，对天然蛋白质序列的规律有所学习。本步骤中，可以采用多种不同的算法分别结合BERT模型，获得多种基于BERT模型的不同架构的子模型。

在一实施方式中，子模型可以是BERT与CNN融合模型（BERT-CNN）、BERT与LSTM融合模型（BERT-LSTM）、BERT与LSTM及GRU融合模型（BERT-LSTM-GRU）、含双层句向量隐藏层的BERT模型（BERT-2）、含三层句向量隐藏层的BERT模型（BERT-3）、含全局平均池化层的BERT模型（BERT-pool）、含词向量批标准化的BERT模型（BERT-Norm）、及标准BERT模型（BERT-standard）等8种模型中的至少一种。具体地，BERT与CNN融合模型、BERT与LSTM融合模型、BERT与LSTM及GRU融合模型可以获取各数据中的更深层次的信息；含双层句向量隐藏层的BERT模型、含三层句向量隐藏层的BERT模型可以获取各数据中的浅层信息；含全局平均池化层的BERT模型、含词向量批标准化的BERT模型及标准BERT模型可以获取各数据中的当前层信息。通过采用不同算法和不同架构的子模型对输入的数据进行不同层次的信息处理，各子模型分别输出对应的预测呈递结果，各子模型的预测呈递结果可能相同或不同，从而有助于后续步骤中的预测模型可以更全面地综合各预测呈递结果，以获得最终的预测结果。

具体地，BERT模型可以是包括6层隐藏层、504维、12头的mini-BERT，8种不同架构的子模型在此参数基础上与其他算法结合形成。如下表1所示：

表1

序号	子模型	隐向量来源	深层模型添加	策略	输出
						1	BERT-CNN	Layer-6	3*1dCNN	-	CNN隐变量
2	BERT-LSTM	Layer-6	1*BiLSTM	全局平均和最大池化	平均+双向末位隐变量+最大
						3	BERT-LSTM-GRU	Layer-6	BiLSTM+BiGRU	全局平均和最大池化	平均+双向末位隐变量+最大
4	BERT-2	Layer-5+6	-	-	双层句向量
						5	BERT-3	Layer-4+5+6	-	-	三层句向量
6	BERT-pool	Layer-6	-	全局平均池化	词向量平均
						7	BERT-Norm	Layer-6	-	BatchNorm	词向量批标准化
8	BERT-standard	Layer-6	-	-	句向量

表1展示基于BERT模型的架构进行改造，以更充分利用训练数据中的信息的具体方法。本申请使用的BERT模型层数为6，每层包括[CLS]向量中蕴含的句向量和其他[token]所蕴含的词向量。其中，表1中的BERT-CNN、BERT-LSTM及BERT-LSTM-GRU旨在挖掘训练数据中的更深信息，这三种子模型分别指在BERT模型中的第六层隐变量的基础上分别接入3层一维CNN、1层LSTM、和（1层LSTM+1层BiGRU），这三种子模型对应输出CNN的隐变量和LSTM/GRU的提取信息。这里的LSTM和GRU均为双向RNN架构，通过对其双向隐变量进行全局平均池化和全局最大池化，并取其双向的2个末位隐变量，将四部分连接作为其提取信息。

BERT-2和BERT-3旨在不错过训练数据中的浅层信息，这两种子模型分别指连接BERT模型中的倒数2层句向量和倒数3层句向量。BERT-pool、BERT-Norm和BERT-standard旨在提取当前层信息，这三种子模型分别对BERT模型中的第六层词向量做全局平均池化/批标准化和直接输出句向量。

本申请基于BERT模型进行了架构改造，获得上述8种不同架构的BERT模型。其中，一方面，提取标准BERT模型从最后1层，2层或3层的内部隐层[CLS]输出向量，与标准BERT模型最后一层的所有词向量的池化拼接，最后进行预测。另一方面利用标准BERT模型最后一个隐层隐变量信息。这些状态信息可以连接更深层的网络模型，如双向LSTM等。通过更深层的网络模型提取文本的更高维度特征，然后通过提取隐层状态、平均池化、最大池化等操作聚合双向GRU输出和隐层状态特征，最后拼接BERT模型的池化进行预测，从而获得上述多种优选子模型。当然，在其他实施例中，还可以基于BERT模型获得更多不同种类架构的BERT模型，于此不作限制。可以理解，根据子模型对应输出的概率值确定每一子模型输出的预测呈递结果。当概率值大于预设概率阈值时，则确定预测呈递结果为多肽序列可以被对应的目标HLA呈递，当概率值小于预设概率阈值时，则确定预测呈递结果为多肽序列不能被对应的目标HLA呈递。

进一步地，当目标HLA的种类只有一种时，根据目标HLA的正样本数据和负样本数据，分别对各子模型进行训练，获得训练好的各子模型。当目标HLA的种类为一种以上时，针对每一种架构的子模型，各目标HLA可以分别将对应的数据对该种架构的子模型进行训练，使每一种目标HLA均具有独立的训练好的子模型；可选地，也可以将所有的目标HLA的数据同步输入至同一种架构的子模型中进行训练，即所有目标HLA共用同一种架构的子模型。

进一步地，在一实施方式中，将正样本数据中的正样本多肽序列及正呈递结果、和负样本数据中的负样本多肽序列及负呈递结果作为训练数据输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的子模型；和/或，将正样本数据和负样本数据作为训练数据输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的子模型。也就是说，由步骤S110可知，正样本数据和负样本数据均包括4种类型的数据，本实施例中，针对每一种架构的子模型，可以仅采用其中2种类型（即样本多肽序列和呈递结果）的数据对部分架构的子模型或全部架构的子模型进行训练，获得对应的训练好的子模型，也可以采用全部4种类型的数据对部分架构的子模型或全部架构的子模型进行训练，获得对应的训练好的子模型。根据上述两种情形的数据选择，采用不同的样本数据训练子模型，从而可以多维度地获得不同的子模型。也就是说，针对同一种架构的子模型，当选择训练的数据不同时，则获得的训练好的子模型不同，训练好的子模型的预测准确率可能会不同，对同一抗原肽输出的预测呈递结果也可能不同，此时可以将上述采用不同训练数据的同一架构的训练好的子模型视为两个子模型。

可以理解，当多个种类的目标HLA共用同一种架构的子模型时，根据训练好的各个架构的子模型，可以针对任一目标抗原肽的序列，分别预测出该目标抗原肽是否可以被各目标HLA呈递，即同步输出各目标HLA对应的预测呈递结果。可选地，针对任一目标抗原肽，可以同步输入抗原肽序列和某一种目标HLA，则可以针对性地输出该目标抗原肽是否可以被该目标HLA呈递。当多个种类的目标HLA分别具有独立训练好的各个架构的子模型时，可以将同一目标抗原肽的序列分别输入对应的目标HLA的各子模型，各目标HLA的每一子模型可以分别输出对应的预测呈递结果。

S130，通过预设规则对各训练好的子模型进行筛选，获得包括优选子模型的预测模型；其中，预测模型综合优选子模型的预测呈递结果预测目标抗原肽被目标HLA呈递的结果。

可以理解，当步骤S120选定不同架构的子模型，以及根据不同类型的样本数据对各选定的不同架构的子模型进行训练后，所获得的训练好的子模型的数量是浮动的。例如，当同时选定上述8种架构的子模型，并同步采用上述两种情形的数据进行训练各子模型时，则可以获得16种训练好的子模型。进一步地，通过预设规则对各训练好的子模型进行筛选，从中选出预测准确率更高的几种子模型作为优选子模型，根据优选子模型形成最终的预测模型。本实施例中，预测模型通过综合多种基于BERT的不同的优选子模型的预测呈递结果，从而可以从不同层次的隐藏层更全面地获取数据中的特征向量，输出最终的预测结果，继而可以提高预测结果的全面性和准确性。通过该预测模型综合优选子模型的预测呈递结果，即可用于预测任一目标抗原肽是否可以被对应的目标HLA呈递。

为了便于理解，例如，当预测模型包括5种优选子模型时，每一优选子模型分别输出目标抗原肽的预测呈递结果，例如其中3个优选子模型预测该目标抗原肽可以被呈递，另外2个优选子模型预测该目标抗原肽不可以被呈递，则预测模型综合预测结果为该目标抗原肽可以目标HLA呈递。

可以理解，当目标HLA种类只有一种时，则具有对应的一个预测模型。当目标HLA种类为一种以上时，则每一种目标HLA具有各自独立的预测模型，或者各目标HLA具有共同的一个预测模型。针对后者情况，当需要预测一个目标抗原肽的呈递结果时，共同的预测模型则同步输出该目标抗原肽分别与每一种目标HLA的呈递结果。也就是说，本申请的预测模型，可以针对多种特定的目标HLA进行分别独立构建或统一构建，从而用于分别预测目标抗原肽结合各特定的目标HLA后的呈递结果。

从该示例可知，本申请的抗原肽呈递预测模型的构建方法，针对每种目标HLA分别获取关联的正样本数据，另外获取与正样本数据完全不同的负样本数据后，对多个不同的基于BERT模型的子模型进行训练，并从训练好的子模型中筛选优选子模型以综合形成整体的一个预测模型，从而可以根据各优选子模型输出的预测呈递结果进行综合，获得目标抗原肽是否被目标HLA呈递的预测结果，提高预测结果的准确性。本申请的方案，训练好的预测模型可以有效辅助研发人员预测抗原肽与HLA的结合与呈递，从而减少实验，减少人力物力，提高研发效率，降低研发成本，有助于研发人员判断什么样的抗原肽适合作为“肿瘤多肽疫苗”来刺激T细胞产生免疫活性。

图2是本申请实施例示出的HLA呈递预测模型的构建方法的另一流程示意图。

参见图2，本申请一实施例提供的HLA呈递预测模型的构建方法，包括：

S210，收集不同数据来源的候选HLA及各候选HLA对应的候选多肽序列，并进行数据过滤和整理，合并获得各候选HLA及各候选HLA对应的正样本多肽序列集。

本步骤中，可以从临床实验数据和/或各种公开的数据库获取多种候选HLA及候选多肽序列（包含正样本多肽序列和负样本多肽序列）。可以理解，针对不同的数据获取来源，基于数据的复杂性，可以针对性地采用对应的处理方式分别对获得的数据进行清洗和整理，获得候选HLA对应的可被结合和呈递的正样本多肽序列，以便后续步骤筛选获得目标HLA和对应的正样本多肽数据。

在临床实验数据中，收集了来自多个不同人体的不同组织的质谱数据，总计可包含数以万计的候选多肽序列，其中仅有部分多肽序列可被HLA-I结合和呈递以作为正样本多肽序列。因此，为了提高后续步骤的正样本数据的准确率，预先对候选多肽序列进行清洗和过滤，去除可能会产生假阳性结果的多肽序列和不能被各候选HLA结合呈递的多肽序列（即负样本多肽序列），筛选获得合理的正样本多肽序列。

针对上述临床实验数据，在一具体的实施方式中，在候选多肽序列中，筛选获得FDR值小于0.1的多个第一多肽序列；根据各第一多肽序列的检索ID，分别在已知数据库中进行ID匹配，筛选获得匹配成功的第二多肽序列；在已知数据库中获取各第二多肽序列对应的上游序列和下游序列，使第二多肽序列对应的样本数据补全；对各第二多肽序列按照预设过滤规则进行过滤，获得优选多肽序列。

具体地，例如借助Percolator算法（可用于质谱分析的大规模数据检索质量控制算法）进行清洗过滤，选择FDR（falsediscoveryrate，由Percolator计算的质谱蛋白错误率）<0.1的多个第一多肽序列。根据蛋白来源对每一第一多肽序列进行匹配获得相应的检索ID，例如Uniprot ID。根据检索ID，可以在已知数据库Ensembl中借助BioMart功能找到对应的Ensembl ID。如果多肽序列的检索ID可以在Ensembl数据库中找到相同的Ensembl ID，则表示ID匹配成功，即表示通过Ensembl数据库中可以找到该第一多肽序列的上游序列和下游序列（即获得第二多肽序列对应的上游序列和下游序列），从而使对应的样本数据补充完整。如果ID匹配失败，则删除该第一多肽序列，即这些无法获取上、下游序列的第一多肽序列不能作为第二多肽序列。

为了提高后续步骤中的预测结果的准确度，对于上述补全数据后的第二多肽序列按照下述预设过滤规则进一步过滤，以获得优选多肽序列。在一具体的实施方式中，如果第二多肽序列中包含非天然氨基酸（即不属于20种天然氨基酸）或数据格式异常或序列出现空值，则删除这些第二多肽序列；删除序列长度在8~11以外的第二多肽序列，因为这些序列长度在第一预设长度阈值范围之外的多肽序列往往难以与HLA结合；删除缺少蛋白质信息的第二多肽序列；删除重复多余的第二多肽序列。可以理解，上述过滤删除后的第二多肽序列则不作为后续步骤中的正样本多肽序列，而对于保留下的优选多肽序列，则需要进一步地确认是否能被HLA结合和呈递。也就是说，保留下的多肽序列为氨基酸是天然氨基酸、序列没有空缺、序列长度为8~11、不存在序列重复的优选多肽序列。进一步地，如果这些保留下的优选多肽序列的上、下游序列的氨基酸个数小于第二预设长度阈值，例如当第二预设长度阈值为30时，上游序列的氨基酸数量小于30个，则采用字符补全空缺位置，例如字符可以统一采用“X”代替，使上游序列的氨基酸数量达到30个，确保每一上、下游序列的氨基酸个数分别满足上述第二预设长度阈值。

进一步地，在上述各优选多肽序列中，一方面，需要从中筛选出可被候选HLA结合和呈递的正样本多肽序列，另一方面，需要将混合的多种候选HLA和混合的正样本多肽序列进行区分。本实施例中，以人体中的HLA-I为例，人体内的HLA-I具有3个分区，由于等位基因成对存在，故人体内天然包含有3*2即6个HLA-I等位基因，即每人可包含6种HLA-I，不同人体之间包含的HLA-I的种类可能全部相同、部分相同或全部不同。

由于所有人体中的HLA-I种类较多，而每种HLA-I可结合和呈递的正样本多肽序列数量不止1个，针对上述获得的优选多肽序列，在一实施方式中，获得被候选HLA结合和呈递的正样本多肽序列，并根据序列相似度对获得的被候选HLA结合和呈递的多肽序列进行聚类处理，获得多种候选HLA和对应的正样本多肽序列集。

在一具体的实施方式中，分别将临床实验数据中所有优选多肽序列按照不同的人体内的HLA-I对应分组，形成多个第一序列集合；在每个第一序列集合中，分别按照对应的人体中已知的HLA-I种类，在对应的第一序列集合中按照序列相似度形成多组能被对应的HLA-I结合和呈递的第二序列集合；将不同人体之间相同种类的HLA-I及对应的第二序列集合进行合并，获得多种HLA-I和对应的正样本多肽序列集。

为了便于理解，本实施例中，先将汇总的所有优选多肽序列按照不同的人体进行对应分组，一方面将具体的人体与多肽序列形成对应关系，另一方面根据每个人体中的HLA-I进行筛选，在优选多肽序列中保留下能被结合和呈递的正样本多肽序列，去除冗余的负样本多肽序列，从而获得由正样本多肽序列组成的第一序列集合。接着可以借助吉布斯聚类算法，分别对每个第一序列集合中的各正样本多肽序列进行聚类处理。需要知道的是，HLA-1对抗原肽的识别具有特异性，特异性指能与HLA-I类分子结合的抗原肽两端的锚着位以及与HLA-Ⅱ类分子相结合的4～5个位于核心序列中的锚着位，及相应的氨基酸残基组成相对恒定。由此，能够与同一种HLA分子相结合的抗原肽，其锚着位和锚着残基往往相同或相似，构成该HLA分子特有的共用基序。因此，每种HLA-I与多肽序列结合后都呈现有特定的共用基序。因此，本实施例中，通过测序方法获得每个人体中的候选HLA的基序后，即可将第一序列集合中的各个正样本多肽序列分别与各候选HLA的基序进行相似度比对，从而确定每个正样本多肽序列与其中一种候选HLA的对应关系。也就是说，每个人体对应的第一序列集合中，均可以通过该人体内的多种候选HLA的基序比对，聚类获得多组多肽序列的集合，即多组第二序列集合。当每个人体均对应获得多组第二序列集合后，将不同人体之间相同种类的候选HLA进行并集处理，从而可以获得合并后的多种候选HLA和对应的正样本多肽序列集。这样的设计，通过对获得的被候选HLA结合和呈递的正样本多肽序列进行聚类处理，从而可以便于后续步骤中的子模型针对性地提取各种目标HLA对应的正样本多肽序列的特征。

进一步地，还可以从各种公开的数据库获取候选HLA及对应的被结合和呈递的多肽序列（正样本多肽序列），即不同于临床实验数据中的多肽序列，这些从数据库中获取的多肽序列均为明确可被结合呈递的正样本多肽序列。例如，从Bulik-Sullivan数据库中，目前可以搜集到58种HLA-I（即候选HLA），及各自对应的可结合和呈递的多肽序列及其上下游序列。在abelin2017数据库中可以搜集到16种HLA-I（即候选HLA）及对应的可结合和呈递的多肽序列及其上下游序列。在Pearson2016中可以搜集到28种HLA-I（即候选HLA）及对应的可结合和呈递的多肽序列及其上下游序列。在Di Marco2017中可以搜集到17种HLA-I（即候选HLA）及对应的可结合和呈递的多肽序列。在SysteMHC中可以搜集到77种HLA-I（即候选HLA）及对应的可结合和呈递的多肽序列。在HLAthena中可以搜集到79种HLA-I（即候选HLA）及对应的可结合和呈递的多肽序列。在NetMHCpan中可以搜集到36种HLA-I，在IEDB可以搜集到119种HLA-I（即候选HLA）及对应的可结合和呈递的多肽序列。

可以理解，上述各搜集到的候选HLA来自不同的数据库，不同数据库的数据之间存在部分数据重复和部分数据不齐全（一些多肽序列缺少上、下游序列）的情形，为了提高后续步骤中的训练数据的完整性，可以对上述搜集到的候选HLA及相关序列数据进行补充、过滤和整理，使各种候选HLA的完整数据属性包括对应的HLA序列，及各种候选HLA对应的正样本多肽序列、多肽序列长度、上下游序列及呈递结果。

其中，针对上述个别数据库所搜集的单个候选HLA包含的数据属性不全，即存在部分数据库搜集的候选HLA的正样本多肽序列缺少上、下游序列的问题，为了补全正样本多肽序列对应的上游序列和下游序列，同理参照前述临床实验数据中的处理方法，可以根据正样本多肽序列的检索ID，通过BioMart功能与Ensembl数据库中的EnsemblID进行匹配，如果二者的ID号码相同，则匹配成功；如果匹配失败，即无法在Ensembl数据库中找到与检索ID对应的EnsemblID，则删除搜集到的该HLA及相关数据。进一步地，针对ID匹配成功后的候选HLA，可以借助对应的Ensembl ID在Ensembl数据库中进一步获取每种候选HLA的在Ensembl数据库中的完整数据，包括正样本多肽序列、正样本多肽序列所在的蛋白质序列、多肽序列上游序列及多肽序列下游序列，从而使各种候选HLA所对应的不齐全的序列数据得以补全。即每一种候选HLA对应的数据均包含HLA序列、及各HLA对应的正样本多肽序列、多肽序列长度、多肽上、下游序列及正呈递结果。在一具体实施方式中，正样本多肽序列的上游序列和下游序列的长度分别在第二预设长度阈值范围内，第二预设长度阈值范围可以是7~30。例如上、下游序列分别包括7~30个氨基酸，例如上、下游序列均包括7个或30个氨基酸；这样的设计，可以避免遗漏来自正样本多肽序列的上下游信息。

进一步地，针对上述从各种数据库中获得的且经过数据补全后的正样本多肽序列，可以参照上述预设过滤规则进行过滤筛选，获得更合理的序列数据，即过滤获得氨基酸是天然氨基酸、序列没有空缺、序列长度为8~11、不存在序列重复的正样本多肽序列。在进行同样的过滤操作后，各种候选HLA分别具有对应的最终保留下来的正样本多肽序列及上下游序列、及正呈递结果。

可以理解，如果数据获取来源同时包含了临床实验数据和各种公开的数据库，则最后将上述不同来源且经过对应的补全、过滤和整理后的各种候选HLA和对应的序列数据进行合并处理，获得多种候选HLA对应的正样本多肽序列集。需要明确的是，每一正样本多肽序列集包含了能被对应的候选HLA结合和呈递的多肽序列，及每一多肽序列对应的上、下游序列，从而确保这些数据可以作为后续步骤中的正样本数据。

S220，在各候选HLA中筛选获得多种目标HLA，并将候选HLA对应的正样本多肽序列集作为目标HLA的正样本数据。

可以理解，对于在人体中覆盖率更广的HLA种类，其具有更丰富的真实实验数据作为训练数据。本步骤中，在搜集的多种HLA中，可以预选多种HLA作为目标HLA，例如，可以从上述步骤整理后的多种HLA-I中筛选获得4种在中美人种中常见的目标HLA（如A*11:01、A*24:02、C*07:02、A*02:01），并分别将每种HLA的多肽序列集作为对应的正样本数据。

可以理解，针对不同种类的目标HLA，通过上述步骤中S210的处理，使每种目标HLA具有对应的正样本数据，不同的目标HLA之间的正样本数据互不干涉。

S230，根据单个目标HLA对应的正样本数据的数据量，获取预设比例的负样本数据；并根据正样本数据和负样本数据，确定训练数据和测试数据。

本步骤种，根据每种目标HLA，可以分别按照对应的正样本数据的数据量，各自独立选择预设比例的负样本数据，或者筛选一批公用的负样本数据集合，每种目标HLA在公用的负样本数据集合中获取预设比例的负样本数据。其中，负样本数据可以选自人源蛋白中的多肽序列，且每种目标HLA中的负样本多肽序列与其正样本数据中的正样本多肽序列不重复，从而确保针对同一个目标HLA，负样本多肽序列无法被呈递，即具有负呈递结果。

进一步地，为了获得足够的数据对预测模型进行训练，需要预先将各正样本数据和负样本数据划分形成训练数据和测试数据。在一实施方式中，针对目标HLA，将训练数据按照1：（8~10）分别获取正样本数据与负样本数据，及将测试数据按照1：（800~1000）分别获取正样本数据与负样本数据。也就是说，每个目标HLA分别具有各自的正样本数据和负样本数据，在此基础上，进一步划分形成训练数据和测试数据，其中训练数据的正样本多肽序列的数量与负样本多肽序列的数量的比例为1：（8~10），例如1:10；同理，测试数据中的正样本多肽序列的数量与负样本多肽序列的数量的比例为1：（800~1000），例如1:1000。可以理解，测试数据与训练数据所采用的样本数据不同，以确保通过测试数据测试评估训练后的子模型的准确率。

S240，将目标HLA及对应的训练数据分别输入多种基于BERT模型的不同架构的子模型进行训练，通过预设规则对各训练好的子模型进行筛选，获得优选子模型。

本步骤中，为了便于更好地评估子模型，本实施例采用K折交叉验证对多种基于BERT模型的不同架构的子模型进行训练。在一实施方式中，将训练数据按照K折交叉验证划分获得训练集和验证集。其中，K为自然数，例如K可以选自3、4、5或6等。例如，当K为5时，训练集和验证集按照五折交叉验证划分获得，其中训练集与验证集的比例可以为4:1。可以理解，每折数据中均包含正样本数据和负样本数据。

进一步地，为了评估不同类型的训练数据对不同架构的子模型的影响，选用两种相应的训练数据对各子模型进行训练，例如根据上述步骤S120介绍的8种架构的子模型，可以至多得到16种训练好的子模型，具体介绍参见步骤S120，于此不再赘述。当然，本实施例中，训练好的子模型数量不限，可以小于16种，或者根据更多的算法和架构、不同种类的训练数据，获得大于16种的训练好的子模型。

进一步地，为了评估各子模型，在一实施方式中，分别将每一训练好的子模型输出的预测呈递结果与对应的样本数据中的真实的正呈递结果和负呈递结果进行比较，可以对预测出的预测呈递结果进行标注。在一实施方式中，针对在每一种架构的子模型输入的正样本多肽序列或正样本多肽序列及其上下游序列，当预测出的正样本多肽序列预测呈递结果为呈递时，则标注为真阳性（TP，True Positive）；当预测出的预测呈递结果为不呈递时，则标注为假阴性（FN，False Negative）。针对在每一种架构的子模型输入的负样本多肽序列或负样本多肽序列及其上下游序列，当预测出的预测呈递结果为呈递时，则标注为假阳性，（FP，False Positive）；当预测出的预测呈递结果为不呈递时，则标注为真阴性（TN，Ture Negative）。也就是说，如果训练好的子模型的预测呈递结果与真实呈递结果不同，则代表子模型的预测结果错误；如果预测呈递结果与真实呈递结果相同，则代表子模型的预测结果正确。

在一实施方式中，分别统计每个基于BERT模型的子模型输出的预测呈递结果中的TP、FP、FN的个数；根据对应的TP、FP及FN的个数，确定对应的各子模型的精确率和召回率。其中，各子模型预测结果的精确率根据下述公式（1）确定，召回率根据下述公式（2）确定。根据精确率和召回率，可以根据下述公式（3）中的预设评估函数计算确定对应的子模型的准确性评估分数F_1分数。

在一实施方式中，分别获取各基于BERT模型的子模型的预测呈递结果的精确率和召回率；根据精确率和召回率，通过预设评估函数确定各基于BERT模型的子模型的准确性评估分数；根据对应的准确性评估分数，在各子模型中筛选获得优选子模型。也就是说，针对所有的基于BERT的训练好的子模型，可以通过准确性评估分数的数值大小进行排序，数值越大，则子模型的预测准确度越高，从而筛选获得预测结果的准确度相对较高的多个子模型作为优选子模型。

为了便于理解，以下采用HLA为A*02:01基因及相关的正样本数据和负样本数据训练上述8种不同架构子模型。其中，上述8种子模型均分别输入两种相应的训练数据，获得16个训练好的子模型。本示例中，每个子模型输入的训练数据采用五折交叉验证划分获得训练集和验证集。本实施例中，在每个子模型进行训练时，将每次划分训练集和验证集后的预测结果的5次概率值进行平均，从而输出最终的概率值，继而输出对应的预测呈递结果。

进一步地，为了提高预测模型的预测效果，在一实施方式中，将训练数据按照K折交叉验证划分获得训练集和验证集，并将预设数量的伪标签数据加入训练集，其中，伪标签数据由空白标签的测试数据根据预先训练的子模型预测获得对应的伪标签后形成。例如，以BERT-2模型和BERT-LSTM模型为例，在原训练数据按照五折交叉验证划分为训练集和验证集后，按照上述步骤S110至S120，将这两种架构的子模型预先训练完毕后，获得预先训练的两种子模型，接着再将每折将预设数量的伪标签数据加入上述预先训练时采用的训练集，使每折获得最新的训练集，并根据最新的训练集对这两种架构的子模型按照步骤S110至S120进行全新的训练，得到对应的训练好的子模型。例如，在五折交叉验证划分后的原始的训练集中，每份训练集再额外加入10%的伪标签数据，而验证集和测试数据仍然保持不变。也就是说，以架构为BERT-2模型的子模型为例，通过采用不同的训练数据，最多可以获得4种训练好的子模型，各子模型采用的训练数据分别是不包含伪标签数据和不包含上下游序列的正样本数据、不包含伪标签数据和包含上下游的正样本数据、包含伪标签数据和不包含上下游序列的正样本数据、包含伪标签数据和包含上下游的正样本数据。

需要说明的是，所述预先训练的子模型的获得与前述无伪标签的训练数据的训练方法相同，在此不再赘述。当然，预先训练的子模型不局限于上述示例的两种架构的子模型，还可以针对其他架构的子模型采用加入了伪标签数据的训练数据进行训练并获得更多种训练好的子模型。

具体的，伪标签数据的获得方式为：在测试数据中随机选择预设数量的具有空白标签的正、负样本数据输入预先训练的例如BERT-2架构的子模型和BERT-LSTM架构的子模型中，空白标签即表示不向模型输入多肽序列是否被HLA呈递的结果，仅通过预先训练好的子模型获得对应的预测呈递结果，该预测呈递结果即为各正、负样本数据的伪标签（非真实标签，可能与真实呈递结果相同或不同），使得空白标签的正、负样本数据形成为具有伪标签的正、负样本数据。再将这些带有伪标签的正、负样本数据即伪标签数据加入原始的训练集中，对BERT-2架构的子模型和BERT-LSTM架构的子模型进行全新的训练，获得对应的训练好的子模型。这样的设计，通过增加伪标签数据作为新的训练数据，可以丰富训练数据，有助于提高预测模型的预测结果的准确性。

随着训练数据的更新，在上述16个子模型之外，新增多个加入伪标签数据作为训练数据的子模型进行训练，即总共获得大于16个的训练好的子模型。在一具体实施例中，获取每个子模型在不同训练数据下，对应的f_1分数、精确率（precision）、准确率（accuracy）、交叉熵（loss），并按照f_1分数进行降序排列，筛选排名占前8位的优选子模型，具体数值如下表2所示：

表2

子模型	f1分数	精确率	交叉熵	准确率
					BERT-LSTM_pse	0.710821	0.784571	0.0703	0.9756
BERT-2_pse	0.685119	0.667891	0.0833	0.9682
					BERT-LSTM_ctex	0.645061	0.660463	0.154	0.9367
BERT-LSTM-GRU_ctex	0.642596	0.72525	0.1415	0.9432
					BERT-3_ctex	0.628945	0.632106	0.1628	0.9317
BERT-standard_pep	0.62685	0.664218	0.1395	0.9407
					BERT-LSTM_pep	0.623211	0.719886	0.1423	0.9413
BERT-2_pep	0.61751	0.633841	0.152	0.9374

其中，上表第一列中后缀为_pse的子模型，表示训练数据中的训练集额外加入了伪标签数据，且训练数据包含正、负样本多肽序列及对应的上、下游序列和相应的呈递结果。后缀为_ctex的子模型表示训练集中没有加入伪标签数据，且训练数据包含正、负样本多肽序列及上下游序列和相应的呈递结果。后缀为_pep的子模型表示训练集中没有加入伪标签数据，且训练数据包含正、负样本多肽序列和相应的呈递结果（即没有包含正、负样本多肽序列的上、下游序列）。表2中仅展示了f_1分数排名前8位的子模型数据，没有展示排名靠后的子模型的数据。

由表2可知，BERT-LSTM_pse和BERT-2_pse的f_1分数排名最靠前，说明在训练集中加入的伪标签数据，可以在训练过程中引入测试数据分布，从而能有效提高预测模型性能。另外，训练数据为多肽序列及其上下游序列的子模型的f_1分数大于训练数据为多肽序列的子模型的f_1分数，说明训练数据越详尽，预测结果的准确度越高。

S250，根据多种基于BERT模型的不同的优选子模型，形成预测模型，其中，预测模型综合优选子模型的预测呈递结果预测目标抗原肽被目标HLA呈递的结果。

本步骤中，预测模型可视为多个优选子模型综合形成的模型。针对待预测的目标抗原肽，每个优选子模型在输出预测呈递结果后，可以通过简单投票，以投票数更多的结果作为预测模型的预测结果。例如，8个优选子模型分别针对某一目标抗原肽的多肽序列是否被同一目标HLA呈递进行预测，其中5个优选子模型的多肽预测呈递结果为可以被对应的目标HLA结合及呈递，3个子模型的多预测呈递结果为不可以被对应的HLA结合及呈递，则预测模型最终的预测呈递结果为该目标抗原肽可以被对应的目标HLA结合及呈递。这样的方式，可以快速获得最终的预测结果，且最大限度地确保最终预测结果的准确性。

进一步地，将根据上述表2中的8种优选子模型形成的训练好的预测模型与市面上的其他模型例如NetMHCpan4.0、MixMHCpred及 HLAthena-MSiE进行测试对比。选择4种中美人群中常见的HLA即A*11:01、A*24:02、C*07:02及A*02:01，每种HLA均具有对应的呈递和不呈递的测试多肽序列作为测试数据。将对应同一种HLA的相同的测试数据分别输入本申请的预测模型和上述3个对比模型中，每一测试多肽序列均对应获得是否被对应的HLA呈递的预测结果。将每个模型的对应同一种HLA的预测结果根据对应的概率值降序排列，各模型的预测出的排名前100个正呈递结果中，确定各自的预测结果为TP（即预测结果和真实结果均为呈递）的数量，部分测试结果如下表3所示。

表3

HLA种类	NetMHCpan4.0	MixMHCpred	HLAthena-MSiE	本申请
					A2402	33	38	36	38
A0201	29	35	27	35
					A1101	23	35	33	49
C0702	10	15	13	47

从上表可知，针对不同的HLA，本申请的预测模型的预测结果数值在众多对比模型中均排名靠前，说明本申请的预测效果在综合性能上优于市面上已有的对比模型。

另外，参见图3，图3为上述3种对比模型和本申请的预测模型根据上述测试结果绘制的精确率-召回率（precision–recall）曲线图。由各个曲线图对比可知，对于0.1%ppv，即召回率为0.1%时的精确率，虽然BERT预测模型对于FN（即预测结果为呈递，真实结果为不呈递）的区分能力中游，在高预设阈值情况下预测结果可信度也处在中游；但是对于40%PPV来说，本申请的基于BERT的预测模型的表现较好，说明本申请的基于BERT的预测模型对于TN（即预测结果为不呈递，真实结果为呈递）的区分能力较优秀，在低预设阈值情况下对真实结果为呈递的样本的预测能力较好。综上可知，本申请的预测模型总体上的分类性能较好。

综上，从该示例可知，根据本申请的抗原肽呈递预测模型的构建方法，可以针对性的构建某种或多种目标HLA的预测模型，通过搜集整理已知的正样本数据和负样本数据，从而具备丰富的数据量训练模型；另外，可以根据f_1分数筛选出多个不同的优选子模型，从而有助于提高预测结果的准确性，并最终以简单投票的方式获得预测结果，提高预测效率。本申请的方法构建的预测模型，有助于在实际应用中帮助研发人员先决筛选抗原肽被HLA结合和呈递的结果，减少实验消耗的人力物力和时间，还可以满足研发人员不同类型的输入数据的需求，从而可能捕捉到HLA和多肽序列之间的长距离相互作用和多肽序列之间的长距离相互作用，后续可能在更多免疫学挑战和蛋白性质预测任务中降低成本方面体现价值。

图4是本申请实施例示出的抗原肽预测方法的流程示意图。

参见图4，本申请一实施例提供的抗原肽预测方法，包括：

S410，获取目标抗原肽序列。

本步骤中，目标抗原肽序列的预设长度可以是8~11，例如目标抗原肽的预设长度可以是8、9、10或11。其中，目标抗原肽序列为包含20种常见天然氨基酸。

可以理解，由于上述预测模型所采用的训练数据中的多肽序列及其上下游序列没有包含非标准氨基酸，在其他实施例中，如果采用包含非标准氨基酸的正、负样本数据对各种架构的子模型进行训练，获得对应的训练好的预测模型，则目标抗原肽序列也可以是包含非标准氨基酸的多肽序列，于此不作限制。

S420，根据预测模型，预测目标抗原肽序列被预测模型中的目标HLA的呈递的结果。

本步骤中，预测模型根据上述实施例中的抗原肽呈递预测模型的构建方法获得。在一实施例中，根据上述构建方法，分别针对每种目标HLA构建对应的预测模型，即预测模型可以是仅针对一种HLA的模型，预测模型仅需要针对输入的目标抗原肽序列预测出是否可以被该HLA结合及呈递的结果。在其他实施例中，预测模型也可以是针对多种目标HLA共同构建对应的预测模型，即预测模型可以是同时针对多种HLA构建好的模型，该预测模型可以同步针对输入的目标抗原肽序列分别预测出是否可以被各HLA结合及呈递。

本申请的抗原肽预测方法，根据预测模型预测出的呈递结果，可以初步判断输入的多肽序列对应的抗原肽是否可以被HLA结合和呈递，对于免疫疗法、细胞治疗、新抗原预测等前沿肿瘤免疫学治疗具有重要意义，对于开展“肿瘤多肽疫苗”疗法具有指导意义，可以大大减少湿实验消耗的人力、物力、时间等。同时，还可以根据预测结果，应用于抗体的去免疫原性改造上，改善抗体的可开发性。

与前述应用功能实现方法实施例相对应，本申请还提供了一种抗原肽呈递预测模型的构建装置、抗原肽预测装置、电子设备及相应的实施例。

图5是本申请实施例示出的抗原肽呈递预测模型的构建装置的结构示意图。

参见图5，本申请一实施例提供的抗原肽呈递预测模型的构建装置，包括样本获取模块510、训练模块520和筛选模块530，其中：

样本获取模块510用于获取预选种类的目标HLA及与目标HLA对应的具有预设比例的正样本数据和负样本数据，其中，正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果；负样本数据包括与正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与目标HLA的负呈递结果。

训练模块520用于将目标HLA及相应的正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的子模型。

筛选模块530用于通过预设规则对各训练好的子模型进行筛选，获得包括优选子模型的预测模型；其中，预测模型综合优选子模型的预测呈递结果预测目标抗原肽被目标HLA呈递的结果。

进一步地，在一实施方式中，样本获取模块510用于针对目标HLA，将正样本数据与负样本数据按照1：（8~10）生成训练数据，及将正样本数据与负样本数据按照1：（800~1000）生成测试数据。

训练模块520用于将训练数据按照K折交叉验证划分获得训练集和验证集；和/或将训练数据按照K折交叉验证划分获得训练集和验证集，并将预设数量的伪标签数据加入训练集；其中，伪标签数据由空白标签的测试数据根据预先训练的子模型预测获得对应的伪标签后形成。

进一步地，在一实施方式中，训练模块520用于分别根据BERT与CNN融合模型、BERT与LSTM融合模型、BERT与LSTM及GRU融合模型、含双层句向量隐藏层的BERT模型、含三层句向量隐藏层的BERT模型、含全局平均池化层的BERT模型、含词向量批标准化的BERT模型、及标准BERT模型进行训练。具体的，训练模块520用于将正样本数据中的正样本多肽序列及正呈递结果、和负样本数据中的负样本多肽序列及负呈递结果作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练，获得对应的训练好的子模型。和/或，训练模块520用于将正样本数据和负样本数据作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练，获得对应的训练好的子模型。

进一步地，参加图6，本申请的构建装置还包括筛选模块530，筛选模块530用于分别获取各子模型的预测呈递结果的精确率和召回率；根据精确率和召回率，通过预设评估函数确定各子模型的准确性评估分数；根据对应的准确性评估分数，在子模型中筛选获得优选子模型。筛选模块530还用于分别统计每个子模型的预测呈递结果中的TP、FP、FN的个数；根据对应的TP、FP及FN的个数，确定对应的各子模型的精确率和召回率。

进一步地，本申请的构建装置还包括聚类模块540，聚类模块540用于获得被候选HLA结合和呈递的多肽序列，并根据序列相似度对获得的被所述候选HLA结合和呈递的多肽序列进行聚类处理，获得多种候选HLA和对应的正样本多肽序列集。样本获取模块510用于在各所述候选HLA中筛选获得多种所述目标HLA，并将所述候选HLA对应的所述正样本多肽序列集作为所述目标HLA的正样本数据。

本申请的抗原肽呈递预测模型的构建装置，可以通过样本获取模块获取与HLA关联的正样本数据，另外获取与正样本数据完全不同的负样本数据，以便训练模块采用丰富的样本数据对各子模型进行训练，提高预测结果的准确性；另外筛选模块采用预设规则在多种基于BERT模型的训练好的子模型中获得多个优选子模型，以综合形成整体的一个预测模型，从而可以根据各优选子模型输出的预测呈递结果进行综合，获得最终的预测结果，进一步提高预测结果的准确性。本申请的构建装置可以构建出能够预测抗原肽与含有特定HLA的T细胞免疫呈递和应答的程度的预测模型，从而帮助研发人员减少实验，减少人力物力，提高研发效率，降低研发成本。

图7是本申请实施例示出的抗原肽预测装置的结构示意图。

参见图7，本申请一实施例提供的抗原肽预测装置，其包括序列获取模块710和预测模块720。其中：

序列获取模块710用于获取目标抗原肽序列。目标抗原肽序列的预设长度可以是8~11个。

预测模块720用于根据上述实施例构建的预测模型，预测目标抗原肽序列被预测模型中的目标HLA的呈递的结果。

本申请的抗原肽预测装置，可以根据上述构建装置构建好的预测模型，高效率地辅助预测出抗原肽是否可以被对应的目标HLA所结合和呈递，从而减少实验成本，减少对人力和时间的消耗，提高研发效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图8是本申请实施例示出的电子设备的结构示意图。

参见图8，电子设备1000包括存储器1010和处理器1020。

处理器1020可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被电子设备（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种抗原肽呈递预测模型的构建方法，其特征在于，包括：

获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据，其中，针对每种目标HLA，将正样本数据与负样本数据按照1：（8~10）生成训练数据，及将正样本数据与负样本数据按照1：（800~1000）生成测试数据；将所述训练数据按照K折交叉验证划分获得训练集和验证集；和将所述训练数据按照K折交叉验证划分获得训练集和验证集，并将预设数量的伪标签数据加入所述训练集；其中，所述伪标签数据由空白标签的所述测试数据根据预先训练的子模型预测获得对应的伪标签后形成；所述正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果；所述负样本数据包括与所述正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与所述目标HLA的负呈递结果；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标HLA及相应的所述正样本数据和负样本数据分别输入多种基于BERT模型的不同架构的子模型进行训练，获得多个训练好的所述子模型，包括：

将所述正样本数据中的正样本多肽序列及正呈递结果、和所述负样本数据中的负样本多肽序列及负呈递结果作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练，获得对应的训练好的所述子模型；和/或

将所述正样本数据和所述负样本数据作为训练数据对至少部分基于BERT模型的不同架构的子模型进行训练，获得对应的训练好的所述子模型。

3.根据权利要求1所述的方法，其特征在于，所述多种基于BERT模型的不同架构的子模型，包括以下至少之一：

4.根据权利要求1所述的方法，其特征在于，所述通过预设规则对各所述训练好的子模型进行筛选，获得包括优选子模型的预测模型，包括：

分别获取各所述子模型的预测呈递结果的精确率和召回率；

5.根据权利要求4所述的方法，其特征在于，所述分别获取各所述子模型的预测呈递结果的精确率和召回率，包括：

分别统计每个子模型的预测呈递结果中的TP、FP、FN的个数；

6.根据权利要求1所述的方法，其特征在于，所述获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据之前，包括：

7.一种抗原肽预测方法，其特征在于，包括：

获取目标抗原肽序列；

根据权利要求1至6中任一项构建所述的预测模型，预测所述目标抗原肽序列被所述预测模型中的目标HLA呈递的结果。

8.根据权利要求7所述的方法，其特征在于：

所述目标抗原肽序列的预设长度是8~11个。

9.一种抗原肽呈递预测模型的构建装置，其特征在于，包括：

样本获取模块，用于获取预选种类的目标HLA及与所述目标HLA对应的具有预设比例的正样本数据和负样本数据，其中，针对每种目标HLA，将正样本数据与负样本数据按照1：（8~10）生成训练数据，及将正样本数据与负样本数据按照1：（800~1000）生成测试数据；将所述训练数据按照K折交叉验证划分获得训练集和验证集；及将所述训练数据按照K折交叉验证划分获得训练集和验证集，并将预设数量的伪标签数据加入所述训练集；其中，所述伪标签数据由空白标签的所述测试数据根据预先训练的子模型预测获得对应的伪标签后形成；所述正样本数据包括正样本多肽序列、正样本多肽序列的上游序列、正样本多肽序列的下游序列、及正样本多肽序列与目标HLA的正呈递结果；所述负样本数据包括与所述正样本多肽序列不同的负样本多肽序列、负样本多肽序列的上游序列、负样本多肽序列的下游序列、及负样本多肽序列与所述目标HLA的负呈递结果；

10.一种抗原肽预测装置，其特征在于，包括：

序列获取模块，用于获取目标抗原肽序列

预测模块，用于根据权利要求9构建的所述预测模型，预测所述目标抗原肽序列被所述预测模型中的目标HLA的呈递的结果。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-8中任一项所述的方法。