CN115188418A

CN115188418A - 一种多肽和hla分型亲和力预测方法

Info

Publication number: CN115188418A
Application number: CN202210762255.6A
Authority: CN
Inventors: 莫凡
Original assignee: Hangzhou Xinyuanli Biotechnology Co ltd
Current assignee: Hangzhou Xinyuanli Biotechnology Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-10-14

Abstract

本发明公开了一种多肽和HLA分型亲和力预测方法，包括如下内容：一，获取多肽与HLA分型相互作用的特征关系；二，基于得到的特征关系分析结果，进行HLA分型和多肽的多维度内部特征挖掘，并进行特征筛选，从而生成用于构建机器学习模型的多维度训练数据；三、使用机器学习算法，将挖掘的多维度内部统计特征数据经过编码处理和特征筛选后作为模型输入数据，对分型进行生物类别的分类，各自建立完整独立的模型的训练，完成多肽和HLA分型的亲和力预测本发明通过对HLA分型和多肽分别进行多维度的内部特征挖掘统计，分析训练数据集原始特征之间的关联，从而抽取隐含信息提取新的特征。利用新的特征亲和力预测方法进行改进优化，提高了预测结果的准确性。

Description

一种多肽和HLA分型亲和力预测方法

技术领域

本发明涉及生物信息领域，特别是一种多肽和HLA分型亲和力预测方法。

背景技术

人类白细胞抗原(human leukocyte antigen，缩写HLA)是人类的主要组织相容性复合体(major histocompatibility complex，缩写MHC)，该系统是所知人体最复杂的多态系统。HLA与抗原多肽的结合对机体T细胞免疫反应的激活具有非常重要的作用。外源性或内源性抗原在抗原递呈细胞(antigen presenting cell,缩写APC)内经过一系列的步骤，最后通过水解或酶解成为带有抗原表位的短肽，再在胞内与MHC分子结合形成稳定的抗原多肽-MHC复合物(pMHC)后，被运送至细胞膜表面；T细胞可以通过T细胞受体(T cellreceptor,缩写TCR)识别并结合APC细胞表面的具有免疫原性的pMHC，从而激活T细胞。因此对于免疫疗法，尤其是个体化的肿瘤免疫疗法来说，准确地预测具有高度多态性的HLA与不同抗原之间的亲和力对治疗效果非常重要。

目前已有研究通过构建机器学习模型来预测HLA和抗原多肽的结合能力。主要用于多肽-HLA亲和力预测的方法包括NetMHC、NetMHCpan(参见文献Jurtz,V.et al.(2017)NetMHCpan-4.0:Improved Peptide–MHC Class I Interaction PredICtionsIntegrating Eluted Ligand and Peptide Binding Affinity Data.J.Immunol.,ji1700893)，ConvMHC(Han and Kim，2017)，ACME等。现有技术由于多肽片段长度不统一，模型构建过程中所涉及的HLA分型和多肽结合的内部特征非常稀少，且存在部分HLA分型和多肽结合的数据量少甚至没有数据，导致这些方法预测多肽与HLA分型亲和力的结果准确性不高，假阳性率高。

为解决现有技术的不足，市场需要一种能够提高预测的准确性的多肽-HLA亲和力预测的模型，本发明解决这样的问题。

发明内容

为解决现有技术的不足，本发明的目的在于提出一种多肽和HLA分型亲和力预测方法，本发明通过对HLA分型和多肽的多维度的特征统计分析得到用于模型训练的高维特征，再配合基于机器学习算法中LightGBM回归模型构建的iNeo-PRED模型(包括HLA-A模型、HLA-B模型和HLA-C模型)的构建优化，完成对多肽和HLA分型的亲和力预测，提高了预测结果的准确性。

为了实现上述目标，本发明采用如下的技术方案：

一种多肽和HLA分型亲和力预测方法，包括如下内容：

步骤一，特征关系：

获取多肽与HLA分型相互作用的数据，并进行数据处理分析后对数据进行增强得到两者的特征关系；

步骤二，特征工程：

分析步骤一得到的特征关系，进行HLA分型和多肽的特征挖掘，再进行特征筛选，从而生成用于构建机器学习模型的多维度训练数据；

步骤三，模型构建：

使用机器学习算法，将挖掘的多维度内部统计特征数据经过编码处理和特征筛选后作为模型输入数据，对分型进行生物功能层面的类别分类，对各类别分别建立完整独立的模型训练，完成多肽和HLA分型的亲和力预测。

作为一种多肽和HLA分型亲和力预测方法的进一步说明，步骤一中特征关系获取方式如下：

S1，搜集数据：

通过IEDB数据库、实验获取以及相关文献搜集的包含多肽和HLA分型相匹配的IC50数据和质谱数据作为训练数据；

S2，数据分析：

1)通过IC50数据和质谱数据分析亲和力值，分析包括IC50数据的亲和力值A的分布，质谱数据的亲和力值B的分布以及阳性阴性数据比例；

2)搜集数据中的多肽序列的长度分别包含了8、9、10和11个氨基酸四种，HLA分型对应的假设序列来源于多肽和HLA分型空间原子结合距离小于10埃的位置上的氨基酸；根据每个HLA分型所属的超型，得到HLA-A、HLA-B和HLA-C三类超型，然后根据超型筛选出三类训练数据集，并基于各超型的训练数据分别训练三个模型；

3)对步骤S1搜集得到的数据进行分析，分析包括：同一条多肽和不同HLA分型结合程度的数据比例分布，IC50中同一条多肽和不同HLA分型结合程度的总体数据分布，IC50中同一条多肽和不同HLA分型结合程度的阳性数据概率分布，IC50中同一条多肽和不同HLA分型结合程度的阴性数据概率分布，质谱中同一条多肽和不同HLA分型结合程度的总体数据概率分布，质谱中同一条多肽和不同HLA分型结合程度的阳性数据概率分布，质谱中同一条多肽和不同HLA分型结合程度的阴性数据概率分布；

同一个HLA分型和不同多肽结合程度的数据比例分布，IC50中同一个分型和不同多肽结合程度的总体数据分布，IC50中同一个分型和不同多肽结合程度的阳性数据概率分布，IC50中同一个分型和不同多肽结合程度的阴性数据概率分布，质谱中同一个分型和不同多肽结合程度的总体数据概率分布，质谱中同一个分型和不同多肽结合程度的阳性数据概率分布，质谱中同一个分型和不同多肽结合程度的阴性数据概率分布；

4)所有HLA分型对应多肽在同一位置出现不同氨基酸的频数，多肽序列的每一个位置的氨基酸下，HLA分型和多肽结合程度的阳性数据概率分布，HLA分型和多肽结合程度的阴性数据概率分布，对HLA-A超型和与其对应的多肽数据中氨基酸的motif分布、HLA-B超型和与其对应的多肽数据中氨基酸的motif分布、HLA-C超型和与其对应的多肽数据中的氨基酸motif分布进行分析；

S3，数据预处理：

通过对训练数据进行长度分析，选择长度为8-11个氨基酸的多肽和HLA分型数据作为模型训练数据集，将训练数据集按照亲和力值进行多肽与HLA分型之间有亲和力与无亲和力的分类；具体过程包括：

1)剔除不存在亲和力值的部分数据和剔除非人类的其他物种数据；

2)根据质谱数据的分布规律将质谱数据亲和力值B通过特定的转换变为亲和力值C，亲和力值C和IC50数据的亲和力值A合并在一起再做转换，生成亲和力值D；

3)通过结合BLOSUM编码、独热编码、理化性质编码，对HLA分型和多肽进行氨基酸编码；8-11个氨基酸长度的多肽以填充特定字符的形式固定为统一长度的氨基酸序列；不同HLA分型对应的假设序列在同一超型内固定为统一长度。

作为一种多肽和HLA分型亲和力预测方法的进一步说明，步骤S2，数据分析中，分析IC50数据的亲和力值A的分布，质谱数据的亲和力值B的分布具体内容为：IC50数据的亲和力值A是一个大于0的连续值，而质谱数据的亲和力值B取自0和1两个离散值，亲和力值A和亲和力值B分布存在差异。

作为一种多肽和HLA分型亲和力预测方法的进一步说明，步骤S2中HLA分型对应的假设序列来源于多肽和HLA分型空间原子结合距离小于4埃的位置上的氨基酸。

作为一种多肽和HLA分型亲和力预测方法的进一步说明，各个HLA分型和与其对应的多肽数据中的氨基酸存在不同的motif分布，根据此分布对多肽中每个氨基酸的位置分配相应的权重。

作为一种优选，BLOSUM编码为BLOSUM50编码矩阵。

作为一种优选，独热编码为One-hot独热编码。

作为一种多肽和HLA分型亲和力预测方法的进一步说明，

步骤S3中根据质谱数据的分布规律将质谱数据亲和力值B通过特定的转换变为亲和力值C，亲和力值C和IC50数据的亲和力值A合并在一起再做转换，生成亲和力值D的具体方法为：

IC50数据：为亲和力值A选择一个阈值来判断HLA分型和多肽的结合是否有亲和力，当亲和力值A小于阈值时，HLA分型和多肽的结合是具有亲和力的；亲和力值A大于阈值时，HLA分型和多肽没有产生结合，即没有亲和力；设置一个最大值来规范化数据边界，当亲和力值A大于最大值时，将其设置成最大值；

质谱数据：当亲和力值B为1时，HLA分型和多肽的结合是有效结合的，具有亲和力；当亲和力值B为0时，HLA分型和多肽没有产生结合，即没有亲和力；

对质谱数据中为离散值0和1的亲和力值B做有效处理：设置一个强亲和力值的区间，所述强亲和力值的区间截取于0-阈值之间，当质谱数据亲和力值B为1时，在此强亲和力值的区间随机产生一个整数作为亲和力值C；设置一个弱亲和力值区间，所述弱亲和力值区间截取于阈值-最大值之间，当质谱数据亲和力值B为0时，在所述弱亲和力值区间随机产生一个整数作为亲和力值C；

质谱数据的亲和力值C和IC50数据的亲和力值A合并在一起再做转换，生成亲和力值D：根据公式(1)把亲和力值A和亲和力值C转换成0-1之间的小数f(x)，其中x表示亲和力值A或亲和力值C，f(x)表示亲和力值D；

f(x)＝1-logx/log50000 (1)。

作为一种多肽和HLA分型亲和力预测方法的进一步的说明，步骤二中特征包括：多肽序列分布特征、HLA分型特征、多肽和HLA分型之间相关关联的特征或氨基酸的位置和分布特征中的一种或几种的组合。

作为一种多肽和HLA分型亲和力预测方法的进一步的说明，步骤二中所述多维度训练数据为：对同一条多肽进行数据筛选获得的特征、对同一分型进行数据筛选获得的特征或根据多肽序列的氨基酸位置提取获得的特征中的至少一个。

作为一种多肽和HLA分型亲和力预测方法的进一步的说明，

对同一条多肽进行数据筛选获得的特征的具体内容为：

统计存在的HLA分型个数、每条多肽和不同HLA分型结合程度的数据总数，每条多肽和不同HLA分型结合程度中有亲和力的数据数目、占比和亲和力值D的平均值和标准差，每条多肽和不同HLA分型结合程度中没有亲和力的数据数目、占比和亲和力值D的平均值和标准差；

对同一分型进行数据筛选获得的特征的具体内容为：

统计存在的多肽个数、每个HLA分型和不同多肽结合程度的数据总数，每个HLA分型和不同多肽结合程度中有亲和力的数据数目、占比和亲和力值D的平均值和标准差，每个HLA分型和不同多肽结合程度中没有亲和力的数据数目、占比和亲和力值D的平均值和标准差；

根据多肽序列的氨基酸位置提取获得的特征的具体内容为：对长度为8-11个氨基酸的多肽序列，以填充固定字符的形式生成固定长度的序列，统计每个位置的氨基酸和HLA分型有亲和力的数据数目、占比和亲和力值D的平均值和标准差，每个位置的氨基酸和HLA分型没有亲和力的数据数目、占比和亲和力值D的平均值和标准差，所有HLA分型对应多肽序列在同一位置出现不同氨基酸的频数特征，根据HLA-A超型和与其对应的多肽数据中氨基酸的motif分布集中程度分配不同位置氨基酸的权重，根据HLA-B超型和与其对应的多肽数据中氨基酸的motif分布集中程度分配不同位置氨基酸的权重，根据HLA-C超型和与其对应的多肽数据中氨基酸的motif分布集中程度分配不同位置氨基酸的权重；

以上生成的所有特征数据中，包含了类别型数据和数值型数据，数值型特征不做额外处理保留原始值，类别型特征转换为类别编码和独热编码，将原数据转换成机器学习模型能识别的数据形式。

作为一种多肽和HLA分型亲和力预测方法的进一步的说明，

步骤三中基于Python的机器学习算法LightGBM回归模型构建的iNeo-PRED模型，将挖掘的多维度内部统计特征经过编码处理和特征筛选后作为模型输入数据，分别训练HLA-A、HLA-B、HLA-C三大类超型各自的模型，构建完整独立的三个模型，完成多肽和HLA分型的亲和力预测。

本发明的有益之处在于：

本发明通过对HLA分型和多肽分别进行多维度的内部特征挖掘统计，分析训练数据集原始特征之间的关联，从而抽取隐含信息提取新的特征。对提取的特征做编码转换并利用Scikit-learn中的特征选择方法筛选特征，对训练数据集和测试数据集进行特征维数扩展，最终得到高维特征；

本发明根据质谱数据的分布规律将离散的亲和力值转换成特定的连续值，和IC50数据更好的融合在一起，增加了训练数据更有利于模型的训练和预测；根据HLA超型的相似性将训练数据集分成HLA-A、HLA-B和HLA-C三类，选择速度快、占用内存小且能处理海量数据的LightGBM回归模型；扩展得到的多维度统计特征可以单独使用也可以组合使用，完成三个模型的构建优化，最终完成对多肽和HLA分型的结合亲和力预测；

本发明通过高维特征配合优化构建的iNeo-PRED模型，二者在提高预测准确性具有协同效果，本发明的iNeo-PRED模型在预测效果上总体优于CNN模型、netMHCpan4.0和ACME模型，HLA-A测试集分型优于netMHCpan4.0的占比90.3％，HLA-B测试集分型优于netMHCpan4.0的占比在78.3％，而HLA-C测试集全部分型优于netMHCpan4.0。同时对多肽和HLA分型数据量非常稀少的测试集进行了预测结果评估对比，不管是AUC的平均值还是中位值，iNeo-PRED模型的表现都显著优于其他三个已有的模型，预测结果更稳定。在Benchmark小数据量文件(共43个)中，iNeo-PRED模型36个测试集(占比76.7％)AUC结果优于CNN模型，iNeo-PRED模型的32个测试集(占比74.4％)AUC结果优于netMHCpan4.0模型，iNeo-PRED模型的34个测试集(占比79.1％)AUC结果优于ACME模型。

附图说明

图1是本发明的数据中同一条多肽和HLA分型结合程度的统计个数的直方图；(横坐标表示区间标签，0代表同一多肽下HLA分型个数的数值落在0-10区间，1代表数值落在10-20区间，2代表数值落在20-30区间，3代表数值落在30-40区间，4代表数值落在40-50区间；纵坐标表示出现的数据次数，代表当前区间里，同一多肽下HLA分型的个数在数据集中出现的次数总数。)

图2是本发明的数据IC中同一条多肽和不同HLA分型结合程度的总体数据概率分布示意图；(横坐标seq_amount表示同一条多肽下HLA分型的个数，纵坐标表示所有IC50数据集中出现的概率值。)

图3是本发明的数据IC中同一条多肽和不同HLA分型结合程度的阳性数据概率分布示意图；(横坐标seq_pos_count表示同一条多肽和不同HLA分型结合程度的数据中有结合亲和力的HLA分型个数，纵坐标表示同一条多肽和不同HLA分型结合程度的数据中有结合亲和力数据出现的概率值。)

图4是本发明的数据中同一条多肽和不同HLA分型结合程度的阴性数据概率分布示意图；(横坐标seq_neg_count表示同一条多肽和不同HLA分型结合程度的数据中没有结合亲和力的HLA分型个数，纵坐标表示同一条多肽和HLA分型结合程度的数据中没有结合亲和力数据的概率值。)

图5是本发明的数据中同一条多肽和不同HLA分型结合程度的数据中相同位置出现相同氨基酸的次数示意图；(横坐标表示HLA分型表示的假设序列34个氨基酸的每个位置，纵坐标表示同一条多肽和HLA分型表示的假设序列每个位置相同氨基酸出现的次数)

图6是四个模型在Benchmark的HLA-A测试集上AUC总体对比图；(横坐标表示四个模型的名称，有基于特征A构建的iNeo-PRED_A模型、基于特征A和特征B构建的iNeo-PRED_AB模型、基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED_模型和netMHCpan4.0模型，纵坐标表示的是以上每个模型在Benchmark的HLA-A测试集上评估的AUC值，箱体图中的三角形代表了AUC的均值)

图7是四个模型在Benchmark的HLA-B测试集上AUC总体对比图；(横坐标表示四个模型的名称，有基于特征A构建的iNeo-PRED_A模型、基于特征A和特征B构建的iNeo-PRED_AB模型、基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED_模型和netMHCpan4.0模型，纵坐标表示的是以上每个模型在Benchmark的HLA-B测试集上评估的AUC值，箱体图中的三角形代表了AUC的均值)

图8是四个模型在Benchmark的HLA-C测试集上AUC总体对比图；(横坐标表示四个模型的名称，有基于特征A构建的iNeo-PRED_A模型、基于特征A和特征B构建的iNeo-PRED_AB模型、基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED_模型和netMHCpan4.模型，纵坐标表示的是以上每个模型在Benchmark的HLA-C测试集上评估的AUC值，箱体图中的三角形代表了AUC的均值)

图9是四个模型在Benchmark的HLA-A测试集上AUC总体对比图；(横坐标表示四个模型的名称，有基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED模型、基于所有特征(包含特征A、特征B和特征C)构建的CNN模型、netMHCpan4.0模型和ACME模型，纵坐标表示的是每个模型在Benchmark的HLA-A测试集上评估的AUC值，箱体图中的三角形代表了AUC的均值)

图10是四个模型在Benchmark的HLA-B测试集上AUC总体对比图；(横坐标表示四个模型的名称，有基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED模型、基于所有特征(包含特征A、特征B和特征C)构建的CNN模型、netMHCpan4.0模型和ACME模型，纵坐标表示的是每个模型在Benchmark的HLA-B测试集上评估的AUC值，箱体图中的三角形代表了AUC的均值)

图11是四个模型在Benchmark的HLA-C测试集上AUC总体对比图；(横坐标表示四个模型的名称，有基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED模型、基于所有特征(包含特征A、特征B和特征C)构建的CNN模型、netMHCpan4.0模型和ACME模型，纵坐标表示的是每个模型在Benchmark的HLA-C测试集上评估的AUC值，箱体图中的三角形代表了AUC的均值)

图12是四个模型在Benchmark的HLA-A、HLA-B、HLA-C测试集上多肽和HLA分型数据量稀少(数据量小于60条)的情况下AUC值总体对比的直方图；(横坐标表示四个模型的名称，有基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED模型、基于所有特征(包含特征A、特征B和特征C)构建的CNN模型、netMHCpan4.0模型和ACME模型，纵坐标表示的是每个模型对数据量小于60条的测试集预测结果的评估指标AUC值；箱体图中的三角形代表了AUC的均值)。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

步骤一，特征关系：

步骤一中特征关系获取方式如下：

通过IEDB数据库、实验获取以及相关文献搜集的包含多肽和HLA分型相匹配的IC50数据和质谱数据作为训练数据。以HLA-A02:01和HLA-C04:01分型的IC50数据、HLA-B07:02和HLA-A11:01的质谱数据为例，具体训练数据形式如表1所示：

表1

S2，数据分析：

分析IC50数据的亲和力值A的分布，质谱数据的亲和力值B的分布具体内容为：IC50数据的亲和力值A是一个大于0的连续值，而质谱数据的亲和力值B取自0和1两个离散值，亲和力值A和亲和力值B分布存在差异。

2)搜集数据中的多肽序列的长度分别包含了8、9、10和11个氨基酸四种，HLA分型对应的假设序列来源于多肽和HLA分型空间原子结合距离小于10埃的位置上的氨基酸，作为进一步的优选，HLA分型对应的假设序列来源于多肽和HLA分型空间原子结合距离小于4埃的位置上的氨基酸；取多肽和HLA分型空间原子结合距离小于4埃的位置上的所有氨基酸作为假设序列，HLA分型对应的假设序列长度是34个aa；根据每个HLA分型所属的超型，得到HLA-A、HLA-B和HLA-C三类超型，然后根据超型筛选出三类训练数据集，并基于各自的训练数据分别训练HLA-A、HLA-B和HLA-C三个模型；

同一个HLA分型和不同多肽结合程度的数据比例分布，IC50中同一个分型和不同多肽结合程度的总体数据分布，IC50中同一个分型和不同多肽结合程度的阳性数据概率分布，IC50中同一个分型和不同多肽结合程度的阴性数据概率分布，质谱中同一个分型和不同多肽结合程度的总体数据概率分布，质谱中同一个分型和不同多肽结合程度的阳性数据概率分布，质谱中同一个分型和不同多肽结合程度的阴性数据概率分布。

所有HLA分型对应多肽序列在同一位置出现不同氨基酸的频数，多肽序列的每一个位置的氨基酸下，HLA分型和多肽结合程度的阳性数据概率分布，HLA分型和多肽结合程度的阴性数据概率分布。

4)对HLA-A超型和与其对应的多肽数据中氨基酸的motif分布、HLA-B超型和与其对应的多肽数据中氨基酸的motif分布、HLA-C超型和与其对应的多肽数据中的氨基酸motif分布进行分析，具体方法为：

利用WebLogo软件(http://weblogo.berkeley.edu/)对HLA-A超型和与其对应的多肽数据中氨基酸的motif分布、HLA-B超型和与其对应的多肽数据中氨基酸的motif分布、HLA-C超型和与其对应的多肽数据中的氨基酸motif分布进行分析，模体(Motif)是指序列中局部的保守区域，或者是一组序列中共有的一小段序列模式。更多的时候是指有可能具有分子功能、结构性质或家族成员相关的任何序列模式。

不同HLA分型和与其对应的多肽数据中的氨基酸存在不同的motif分布，根据此分布对多肽中每个氨基酸的位置分配不同的权重(利用WebLogo软件(http://weblogo.berkeley.edu/)生成)：

HLA-A超型和与其对应的多肽数据中氨基酸的motif分布情况为：主要集中在第二个位置和第九个位置，说明这两个位置的氨基酸非常重要,同时第一个位置和第十个位置的氨基酸的权重次之,可以根据每个位置氨基酸分布集中程度分配相应的权重；

HLA-B超型和与其对应的多肽数据中氨基酸的motif分布情况为：主要集中在第二个位置和第九个位置，说明这两个位置的氨基酸非常重要，同时第一个位置、第三个位置和十个位置相对其他剩下的位置分布次集中，可以根据每个位置氨基酸分布集中程度分配相应的权重；

HLA-C超型和与其对应的多肽数据中氨基酸的motif分布情况为：主要集中在第一个位置和第九个位置，说明这两个位置的氨基酸非常重要，同时第二个、第三个位置和第八个位置相对其他剩下的位置分布次集中，可以根据每个位置氨基酸分布集中程度分配相应的权重。

S3，数据预处理：

步骤S3中根据质谱数据的分布规律将质谱数据亲和力值B做特定的转换为亲和力值C，亲和力值C和IC50数据的亲和力值A合并在一起再做转换，生成亲和力值D的具体方法为：

IC50数据：为亲和力值A选择一个阈值来判断HLA分型和多肽的结合是否有亲和力。当亲和力值A小于阈值时，HLA分型和多肽的结合是具有亲和力的；亲和力值A大于阈值时，HLA分型和多肽没有产生结合，即没有亲和力；设置一个最大值来规范化数据边界，当亲和力值A大于最大值时，将其设置成最大值；

对质谱数据中为离散值0和1的亲和力值B做有效处理：设置一个强亲和力值的区间，所述区间截取于0～阈值之间，当质谱数据亲和力值B为1时，在此区间随机产生一个整数作为亲和力值C；设置一个弱亲和力值区间，所述区间截取于阈值～最大值之间，当质谱数据亲和力值B为0时，在此区间随机产生一个整数作为亲和力值C；

f(x)＝1-logx/log50000 (1)。

3)通过结合BLOSUM编码、独热编码、理化性质编码，对HLA分型和多肽进行氨基酸编码；8-11个氨基酸长度的多肽以填充特定字符的形式固定为统一长度的氨基酸序列；不同HLA分型对应的假设序列在同一超型内固定为统一长度。作为一种优选实施例，BLOSUM编码为BLOSUM50编码矩阵。独热编码为One-hot独热编码。

步骤二，特征工程：

特征包括：多肽序列分布特征、HLA分型特征、多肽和HLA分型之间相关关联的特征或氨基酸的位置和分布特征中的一种或几种的组合。

多维度训练数据为：对同一条多肽进行数据筛选获得的特征、对同一分型进行数据筛选获得的特征或根据多肽序列的氨基酸位置提取获得的特征中的任意一个。

对同一条多肽进行数据筛选获得的特征的具体内容为：

对同一分型进行数据筛选获得的特征的具体内容为：

以上生成的所有特征数据中，包含了类别型数据和数值型数据。数值型特征不做额外处理保留原始值，类别型数据是无序的，在Pandas(Python的一个工具库)中的定义类型为object，比如字符‘A’，‘HLA’；数值型数据是有序的，比如100，1.0等数值。数值型特征不做额外处理，类别型特征用Scikit-learn(Python的一个机器学习算法库)数据处理模块中的LabelEncoder函数或者OneHotEncoder函数对特征进行编码，将原数据转换成机器学习模型能识别的数据形式。

再利用Scikit-learn中的递归消除特征法，通过递归减少考察的特征集规模来选择特征。首先，预测模型在原始特征上训练，每个特征指定一个权重。之后，那些拥有最小绝对值权重的特征被剔出特征集，如此往复递归，直至剩余的特征数量达到所需的特征数量。最终筛选保留了至少100维特征作为最终模型的输入数据。

步骤三，模型构建：

使用机器学习算法，将挖掘的多维度内部统计特征数据经过编码处理和特征筛选后作为模型输入数据，对分型进行生物类别的分类，各自建立完整独立的模型的训练，完成多肽和HLA分型的亲和力预测。作为进一步的优选，机器学习算法选择基于Python的机器学习算法LightGBM回归模型构建的iNeo-PRED模型；深度学习算法选择基于Python的卷积神经网络(CNN)框架。

具体过程为：

iNeo-PRED模型的损失函数选择L2损失，验证集评估指标是均方误差和ROC下曲线面积AUC(Area Under Curve)；模型重点调优的超参数有：树的数目n_estimators、最大叶子节点数目num_leaves、叶子节点最小样本数min_data_leaf、学习率、每棵树的特征采样比例和数据采样比例、特征的最大bin数目、正则化参数lambda_l1和lambda_l2；

先用LightGBM内嵌的cv函数调优，对连续的n_estimators参数进行快速交叉验证；其余参数用Scikit-learn库的模型选择模块中的网格搜索GridSearchCV函数进行五折交叉验证，得到最优参数；根据最优参数下的模型输出所有特征重要性排序，选择100-500个重要的特征作为最终模型的输入。提取HLA-A超型、HLA-B超型和HLA-C超型三类各自全部数据中的n个重要特征作为训练数据进行训练，构建完整独立的三个模型，完成多肽和HLA分型的亲和力预测。

基于Python的卷积神经网络(CNN)，将挖掘的多维度内部统计特征经过编码处理和特征筛选后作为模型输入数据，完成多肽和HLA分型的亲和力预测的具体过程为：输入的特征信息通过多个卷积层和最大池化层进行自动的提取和融合，最后利用大小为512的全连接层联系起来。CNN中使用了均方误差作为损失函数，Adam作为网络优化器，批处理大小为256，初始化学习率为0.001，模型训练过程中根据实际情况进行衰减。模型最大迭代次数设置为25，如果损失函数在10个迭代内停止改进，则强制提前停止。一共生成了5个模型，每个模型由25个以上深度神经网络组成，所有网络的预测平均分数作为最终的预测结果输出。

步骤四，模型评估：

选取了netMHCpan4.0提供的IEDB Benchmark多个数据集作为HLA分型和多肽亲和力模型的测试集，采用AUC(Area Under Curve)作为模型预测性能的评估指标；

测试集是netMHCpan4.0提供的IEDB Benchmark多个数据集，具体内容包括：

1)HLA-A超型下的测试数据集，包含的HLA分型有HLA-A*02:01、HLA-A*02:02、HLA-A*02:03、HLA-A*02:06、HLA-A*03:01、HLA-A*11:01、HLA-A*24:02、HLA-A*30:01、HLA-A*30:02、HLA-A*31:01、HLA-A*68:01、HLA-A*68:01等；

2)HLA-B超型下的测试数据集，包含的HLA分型有HLA-B*07:02、HLA-B*15:02、HLA-B27:03、HLA-B*27:04、HLA-B*27:05、HLA-B*27:06、HLA-B*35:01、HLA-B*38:01、HLA-B*39:06、HLA-B*40:01、HLA-B*44:03、HLA-B*55:02、HLA-B*57:01、HLA-B*58:01等；

3)HLA-C超型下的测试数据集，包含的HLA分型有HLA-C*03:03、HLA-C*04:01、HLA-C*05:01、HLA-C*06:02、HLA-C*07:01、HLA-C*07:02、HLA-C*08:02、HLA-C*12:03、HLA-C*14:02、HLA-C*15:02。

采用如下具体实施例的iNeo-PRED模型的预测方法与CNN模型、netMHCpan4.0模型和ACME模型在预测效果上的对比实验：

1、数据来源

从IEDB数据库、实验获取以及相关文献搜集两类来源的数据：IC50数据(数据形式如表2)和质谱数据(数据形式如表3)。

表2IC50数据

HLA分型	多肽序列	多肽序列长度	数据来源	亲和力值
					HLA-A11:01	EVAQRAYR	8	ic50	50843.6
HLA-C14:02	CKNFLKQVY	9	ic50	6530.075544
					HLA-A02:01	NYMPYVFTL	9	ic50	78125
HLA-B07:02	LSDDSGLMV	9	ic50	22
					HLA-B15:02	ETDQMDTIY	9	ic50	384
HLA-A02:06	ISKIPGGAMY	10	ic50	23810.60368
					HLA-A01:01	ATSRTLSYY	9	ic50	4.808301
HLA-C08:01	RPFNNILNL	9	ic50	70422.53521
					HLA-A01:01	SSSMRKTDWL	10	ic50	49792.02554
HLA-C03:03	CASSSDWFY	9	ic50	3
					HLA-A02:03	ILGAQALPVY	10	ic50	70422.53521
HLA-A68:01	LTKGTLEPEYC	11	ic50	3202.155159
					HLA-A24:02	ISAGFSLWIY	10	ic50	52.337642
HLA-B07:02	ATVAYFNMVY	10	ic50	892.776409
					HLA-A02:01	RYLALYNKY	9	ic50	6413.917478
HLA-A02:01	QTHFPQFYW	9	ic50	20000
					HLA-A01:01	YSDPLALREF	10	ic50	21.306046

表3质谱数据

2、数据分析

2.1亲和力值的分析

通过表2和表3观察到，数据的字段包括：HLA分型、多肽序列、多肽序列长度、数据来源、亲和力值(其中IC50数据为亲和力值A,其中质谱数据为亲和力值B)。IC50数据的亲和力值A是一个大于0的连续值，而质谱数据的亲和力值B是0和1两个离散值；亲和力值A和亲和力值B分布存在一定的差异。

2.2多肽和HLA分型的分析

多肽序列的长度分别包含了8、9、10和11个aa四种，取多肽和HLA分型空间原子结合距离小于4埃的位置上的所有氨基酸作为假设序列，HLA分型对应的假设序列长度是34个aa。HLA分型和多肽是否结合跟序列本身是息息相关的，所以通过统计分析现有训练集数据来挖掘HLA分型和多肽亲和力是否存在的规律，作为特定模型的输入，让模型更好地学习，从而提高亲和力预测的准确度。

多维度分析同一条多肽和HLA分型结合程度的数据的特点：

1)对同一条多肽和HLA分型的个数进行直方图的统计，按bins＝[0,10,20,30,40,50]进行分箱操作，labels＝[0,1,2,3,4],统计每个区间内的数量。如图1所示，从图中可以看到大部分同一条多肽对应的HLA分型个数集中在0标签(即0-10区间)。

2)IC数据中同一条多肽和不同HLA分型结合程度的总体数据seq_amount概率分布如图2所示，同一条多肽和不同HLA分型结合程度的数据中，全部有亲和力的数据占9.0％，全部没有亲和力的数据占比22.5％，剩下的68.5％是同时存在有亲和力和没有亲和力的情况。同一条多肽和HLA分型结合程度的阳性数据概率分布如图3所示。同一条多肽和HLA分型结合程度的阴性数据概率分布如图4所示。

3)数据中同一条多肽对应的HLA分型表示的假设序列长度是34个aa，其中序列的每个位置出现相同氨基酸个数的情况如图5所示。尤其当HLA超型是相同时(比如HLA-A*02:01和HLA-A*02：02，同属于HLA-A超型)，HLA分型表示的假设序列之间存在比较高的相似性，所以根据超型得到HLA-A、HLA-B和HLA-C三类。

基于超型筛选出各自的训练数据集，基于训练数据分别训练三个机器学习模型。分别用训练好的模型对IEDB的Benchmark测试数据集的HLA分型和多肽进行亲和力预测。根据预测结果显示，评价指标AUC的值得到提升，提高了预测准确性的同时也解决了由于部分HLA分型和多肽数据量少甚至没有训练数据而导致无法预测亲和力的问题，即当预测的测试集数据中HLA分型在训练数据集中不存在或者对应的数据量非常少时，利用HLA分型所属的超型类别训练的模型可以很好的解决前述HLA分型无法预测的问题，并能够得到比较准确的预测结果。

2.3多肽序列氨基酸位置的motif分析

HLA-A超型和与其对应的多肽数据中氨基酸的motif分布主要集中在第二个位置和第九个位置，说明这两个位置的氨基酸非常重要，同时第一个位置和第十个位置的氨基酸的权重次之,可以根据每个位置氨基酸分布集中程度分配相应的权重。

HLA-B超型和与其对应的多肽数据中氨基酸的motif分布主要集中在第二个位置和第九个位置，说明这两个位置的氨基酸非常重要，同时第一个位置、第三个位置和十个位置相对其他剩下的位置分布次集中，可以根据每个位置氨基酸分布集中程度分配相应的权重。

HLA-C超型和与其对应的多肽数据中氨基酸的motif分布主要集中在第一个位置和第九个位置，说明这两个位置的氨基酸非常重要，同时第二个位置、第三个位置和第八个位置相对其他剩下的位置分布次集中，可以根据每个位置氨基酸分布集中程度分配相应的权重。

3、数据预处理

通过对训练数据进行长度分析，选择长度为8-11个aa的多肽和HLA分型数据作为亲和力模型训练数据集，将训练数据集按照亲和力值进行多肽与HLA分型之间有亲和力与无亲和力的分类。

3.1数据清洗

1)部分数据不存在亲和力值的情况，需要剔除。

2)现有搜集到的数据中(表4)可以看到字段type(代表分型)中的MHC(主要组织相容性复合体)不仅包含人类的MHC(即HLA)，也包含了动物的分型(比如H2-Kb、Ptal-N01:01)，因此训练数据集中需要去除非人类的数据。

表4 MHC分型情况

sequence	type	target	tag
				AAFEFINSL	H2-Kb	1	mass
AARPATSTL	HLA-B07:02	1	mass
				AIMDKNIML	HLA-A02:01	1	mass
MYIFLHTVD	H2-Kb	1	mass
				VVMPLYQSHW	Ptal-N01:01	0	mass
KYFDEHYEY	HLA-C03:01	1	mass

3.2数据处理

IC50数据：当亲和力值A小于500时，HLA分型和多肽的结合是具有亲和力的；亲和力值A大于500时，HLA分型和多肽没有产生结合，即没有亲和力。亲和力值A大于40000的设置成固定值40000。

质谱数据：当亲和力值B为1时，HLA分型和多肽的结合是有效结合的，具有亲和力；亲和力值B为0时，HLA分型和多肽没有产生结合，即没有亲和力。

由于现有两个来源的数据展示亲和力值的形式不同，为了更好地融合数据，本研究对IC50的亲和力值A的连续值以及质谱数据中的亲和力值B的离散值做有效处理，以达到更好的模型训练效果。通过对质谱数据亲和力值B服从的正态分布以及log转换后正态分布分析，发现阴性数据主要集中在0-0.4数值之间，而阳性数据主要集中在0.4到0.8之间。因此，质谱数据亲和力值B为1的，在1-100数值之间服从均匀分布随机产生一个整数作为亲和力值C；质谱数据亲和力值B为0的，在1000-40000数值之间服从均匀分布随机产生一个整数作为亲和力值C。

质谱数据的亲和力值C和IC50数据的亲和力值A合并在一起，对亲和力值A和亲和力值C做转换,生成亲和力值D：根据公式(1)把亲和力值A和亲和力值C转换成0-1之间的小数f(x)，其中x表示HLA分型与多肽序列的亲和力值A或者亲和力值C,f(x)表示亲和力值D。亲和力值以数值500作为划分HLA分型和多肽是否有亲和力的临界点，即当x＝500时临界点计算f(x)得到的阈值为0.42562。

f(x)＝1-logx/log50000 (1)

3.3氨基酸编码

HLA分型和多肽的氨基酸编码方式包含BLOSUM编码(如表5的BLOSUM50编码矩阵)、独热编码、理化性质编码(如表6)三者编码的结合。8-11个aa可变长度的多肽在末尾填充X字符。使其编码为12个aa长度的序列(比如RAQNSPYDCXXX)；每个HLA分型对应的假设序列不同但是长度都是34个aa(如表7展示了部分HLA分型的假设序列)。

表5 BLOSUM50编码矩阵

A	5	-2	-1	-2	-1	-1	-1	0	-2	-1	-2	-1	-1	-3	-1	1	0	-3	-2	0
																					R	-2	7	-1	-2	-4	1	0	-3	0	-4	-3	3	-2	-3	-3	-1	-1	-3	-1	-3
N	-1	-1	7	2	-2	0	0	0	1	-3	-4	0	-2	-4	-2	1	0	-4	-2	-3
																					D	-2	-2	2	8	-4	0	2	-1	-1	-4	-4	-1	-4	-5	-1	0	-1	-5	-3	-4
C	-1	-4	-2	-4	13	-3	-3	-3	-3	-2	-2	-3	-2	-2	-4	-1	-1	-5	-3	-1
																					Q	-1	1	0	0	-3	7	2	-2	1	-3	-2	2	0	-4	-1	0	-1	-1	-1	-3
E	-1	0	0	2	-3	2	6	-3	0	-4	-3	1	-2	-3	-1	-1	-1	-3	-2	-3
																					G	0	-3	0	-1	-3	-2	-3	8	-2	-4	-4	-2	-3	-4	-2	0	-2	-3	-3	-4
H	-2	0	1	-1	-3	1	0	-2	10	-4	-3	0	-1	-1	-2	-1	-2	-3	2	-4
																					I	-1	-4	-3	-4	-2	-3	-4	-4	-4	5	2	-3	2	0	-3	-3	-1	-3	-1	4
L	-2	-3	-4	-4	-2	-2	-3	-4	-3	2	5	-3	3	1	-4	-3	-1	-2	-1	1
																					K	-1	3	0	-1	-3	2	1	-2	0	-3	-3	6	-2	-4	-1	0	-1	-3	-2	-3
M	-1	-2	-2	-4	-2	0	-2	-3	-1	2	3	-2	7	0	-3	-2	-1	-1	0	1
																					F	-3	-3	-4	-5	-2	-4	-3	-4	-1	0	1	-4	0	8	-4	-3	-2	1	4	-1
P	-1	-3	-2	-1	-4	-1	-1	-2	-2	-3	-4	-1	-3	-4	10	-1	-1	-4	-3	-3
																					S	1	-1	1	0	-1	0	-1	0	-1	-3	-3	0	-2	-3	-1	5	2	-4	-2	-2
T	0	-1	0	-1	-1	-1	-1	-2	-2	-1	-1	-1	-1	-2	-1	2	5	-3	-2	0
																					W	-3	-3	-4	-5	-5	-1	-3	-3	-3	-3	-2	-3	-1	1	-4	-4	-3	15	2	-3
Y	-2	-1	-2	-3	-3	-1	-2	-3	2	-1	-1	-2	0	4	-3	-2	-2	2	8	-1
																					V	0	-3	-3	-4	-1	-3	-3	-4	-4	4	1	-3	1	-1	-3	-2	0	-3	-1	5
X	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0

表6理化性质编码矩阵

A	0.51	0.169	0.471	0.279	0.141	0.294	0	0.262	0.512	0	0.404
												R	0.667	0.726	0.321	1	0.905	0.529	0.327	0.169	0.372	1	1
N	0.745	0.39	0.164	0.658	0.51	0.235	0.14	0.313	0.116	0.065	0.33
												D	0.745	0.304	0.021	0.793	0.515	0.235	0.14	0.601	0.14	0.956	0
C	0.608	0.314	0.76	0.072	0	0.559	0.14	0.947	0.907	0.028	0.285
												Q	0.667	0.531	0.178	0.649	0.608	0.529	0.14	0.416	0.023	0.068	0.36
E	0.667	0.482	0.092	0.883	0.602	0.529	0.14	0.561	0.163	0.96	0.056
												G	0	0	0.275	0.189	0.103	0	0	0.24	0.581	0	0.401
H	0.686	0.554	0.326	0.468	0.402	0.529	0.14	0.313	0.581	0.992	0.603
												I	1	0.65	1	0	0.083	0.824	0.308	0.424	0.93	0.003	0.407
L	0.961	0.65	0.734	0.081	0.138	0.824	0.308	0.463	0.907	0.003	0.402
												K	0.667	0.692	0	0.568	1	0.529	0.327	0.313	0	0.952	0.872
M	0.765	0.612	0.603	0.171	0.206	0.765	0.308	0.405	0.814	0.028	0.372
												F	0.686	0.772	0.665	0	0.114	0.853	0.682	0.462	1	0.007	0.339
P	0.353	0.372	0.012	0.198	0.411	0.588	0.271	0	0.302	0.03	0.442
												S	0.52	0.172	0.155	0.477	0.303	0.206	0	0.24	0.419	0.032	0.364
T	0.49	0.349	0.256	0.523	0.337	0.235	0.14	0.313	0.419	0.032	0.362
												W	0.686	1	0.681	0.207	0.219	1	1	0.537	0.674	0.04	0.39
Y	0.686	0.796	0.591	0.477	0.454	0.853	0.682	1	0.419	0.031	0.362
												V	0.745	0.487	0.859	0.036	0.094	0.647	0.234	0.369	0.674	0.003	0.399

表7 HLA分型对应的由34个aa组成的假设序列

4、特征工程

通过以上对训练数据集的各维度分析，发现在判断HLA分型和多肽是否有亲和力时存在很多可以挖掘的内部数据规律，所以本发明对HLA分型和多肽分别进行多维度的内部特征挖掘统计，将统计结果转换为训练数据集中同一条多肽和不同HLA分型结合程度的特征、同一HLA分型和不同多肽结合程度的特征、所有HLA分型对应多肽序列在同一位置出现不同氨基酸的频数特征、多肽序列每个位置的氨基酸和HLA分型结合的特征、不同HLA超型(HLA-A、HLA-B、HLA-C)与其对应的多肽数据中氨基酸的motif特征。通过以上方式抽取隐含信息，训练数据集和测试数据集进行特征维数扩展并经过特征编码和特征筛选保留500维特征。

4.1对同一条多肽进行数据筛选得到特征A：

统计存在的HLA分型个数、每条多肽和不同HLA分型结合程度的数据总数、每条多肽和不同HLA分型结合程度中有亲和力的数据数目、占比和亲和力值D的平均值和标准差、每条多肽和不同HLA分型结合程度中没有亲和力的数据数目、占比和亲和力值D的平均值和标准差。

4.2对同一分型进行数据筛选得到特征B：

统计存在的多肽个数、每个HLA分型和不同多肽结合程度的数据总数、每个分型和不同多肽结合程度中有亲和力的数据数目、占比和亲和力值D的平均值和标准差、每个分型和不同多肽结合程度中没有亲和力的数据数目、占比和亲和力值D的平均值和标准差。

4.3对多肽序列的氨基酸位置提取特征得到特征C：

长度为8-11个aa的多肽序列，通过在序列末尾处填充X的形式变为12个aa固定长度的序列(比如RANDCEAYLNXX)。提取每个位置的氨基酸生成12个新字段，分别对这12个新字段进行分组统计，统计每个位置多肽和不同HLA分型结合程度中有亲和力的数据数目、占比和亲和力值D的平均值和标准差、每个位置多肽和不同HLA分型结合程度中没有亲和力的数据数目、占比和亲和力值D的平均值和标准差。所有HLA分型对应多肽序列在同一位置出现不同氨基酸的频数特征、不同HLA超型(HLA-A、HLA-B、HLA-C)与其对应的多肽数据中氨基酸的motif分布集中程度分配不同的位置权重比例。

4.4特征编码

以上生成的所有特征数据中，包含了类别型数据和数值型数据。类别型数据是无序的，在Pandas(python的一个工具库)中的定义类型为object，比如字符‘A’，‘HLA’；数值型数据是有序的，比如100，1.0等数值。数值型特征不做处理，类别型特征用Scikit-learn(python的一个机器学习算法库)数据处理模块中的LabelEncoder函数或者OneHotEncoder函数对特征进行编码，将原数据转换成机器学习模型能识别的数据形式。

再利用Scikit-learn中的特征选择方法(单变量特征选择法、递归特征消除方法)，通过减少考察的特征集规模来选择特征。首先，预测模型在原始特征上训练，每个特征指定一个权重。之后，那些拥有最小绝对值权重的特征被踢出特征集，如此往复递归，直至剩余的特征数量达到所需的特征数量。最终筛选保留了500维特征作为最终模型的输入数据。

5、模型的选择

GBDT(Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。常用的机器学习算法，例如神经网络等算法，都可以以mini-batch的方式训练，训练数据的大小不会受到内存限制。而GBDT在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常长的时间。尤其面对工业级海量的数据，普通的GBDT算法受前述限制是无法满足需求的。提出LightGBM(Light Gradient Boosting Machine)的主要原因就是为了解决GBDT在处理海量数据遇到的问题。LightGBM框架使用基于直方图的算法，支持高效率的并行训练，且具有更快的训练速度、更低的内存消耗、更高的准确率、可以快速处理海量数据等优点。

5.1LightGBM的基本原理

1)基于直方图算法：先把连续的浮点特征值离散化成m个整数，同时构造一个宽度为m的直方图。在遍历数据的时候，以离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。好处是内存占用更小，计算代价更小。

2)直方图做差加速：一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到，与树模型相比在速度上可以提升一倍。通常构造直方图时，需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的k个桶。在实际构建树的过程中，LightGBM还可以先计算直方图小的叶子节点，然后利用直方图做差来获得直方图大的叶子节点，这样就可以用非常微小的代价得到它兄弟叶子的直方图。

3)带深度限制的Leaf-wise算法

在直方图算法之上，LightGBM进行进一步的优化。它抛弃了按层生长(level-wise)的决策树生长策略，而使用了带有深度限制的按叶子生长(leaf-wise)算法。Leaf-wise的增长策略是每次从当前所有叶子中找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，Leaf-wise的优点是：在分裂次数相同的情况下，Leaf-wise可以减少误差产生，得到更好的精度；Leaf-wise的缺点是：可能会长出比较深的决策树，产生过拟合。因此LightGBM会在Leaf-wise之上增加一个最大深度的限制，在保证高效率的同时防止过拟合。

4)单边梯度采样算法

单边梯度采样(GOSS)算法是一个样本的采样算法，目的是丢弃一些对计算信息增益没有帮助的样本、留下有帮助的样本。根据计算信息增益的定义，梯度大的样本对信息增益有更大的影响。因此，GOSS在进行数据采样的时候只保留梯度较大的数据，但是如果直接将所有梯度较小的数据都丢弃掉则会影响数据的总体分布。所以GOSS算法会更关注训练不足的样本，而不会过多改变原数据集的分布。

5)互斥特征捆绑算法

高维度的数据往往是稀疏的，这种稀疏性启发我们设计一种无损的方法来减少特征的维度。通常被捆绑的特征都是互斥的(比如one-hot)，这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥(部分情况下两个特征都是非零值)，可以用一个指标对两个特征的不互斥程度进行衡量，称之为冲突比率，当这个值较小时，可以选择把不完全互斥的两个特征捆绑，从而不影响最后的精度。互斥特征捆绑算法(Exclusive FeatureBundling)指出如果将一些特征进行融合绑定，则可以减少特征数量。

5.2HLA分型和多肽的模型构建和优化

本发明选择基于Python的机器学习算法LightGBM中的回归模型构建的iNeo-PRED模型，将挖掘的多维度内部统计特征经过编码处理和特征筛选后作为模型输入数据，利用HLA-A、HLA-B、HLA-C三大类超型分别进行各自的模型训练，建立完整独立的三个模型，完成多肽和HLA分型的亲和力预测。LightGBM涉及的超参数个数很多，因为叶子优先的分裂方法，所以重点调优的超参数有：树的数目n_estimators、最大叶子节点数目num_leaves、叶子节点最小样本数min_data_leaf、学习率、每棵树的特征采样比例和数据采样比例、特征的最大bin数目、正则化参数lambda_l1和lambda_l2。模型中的损失函数选择L2损失，验证集评估指标是均方误差和ROC下曲线面积AUC(Area Under Curve)。

用LightGBM内嵌的cv函数调优，速度极快，对连续的树的数目n_estimators参数进行快速交叉验证。其余参数用Scikit-learn模型选择模块中的网格搜索GridSearchCV函数进行五折交叉验证，得到最优参数，以及所有特征重要性排序。最优参数下的模型输出所有特征重要性排序中，选择前n(1-500)个重要的特征作为最终的输入。提取HLA-A、HLA-B和HLA-C三类超型各自全部数据中的n个重要特征作为训练数据进行模型训练，建立完整独立的三个模型，完成多肽和HLA分型的亲和力预测。

同时本发明构建了基于Python的卷积神经网络(CNN)模型，将挖掘的多维度内部统计特征经过编码处理和特征筛选后作为模型输入数据，完成多肽和HLA分型的亲和力预测。具体过程为：输入的特征信息通过多个卷积层和最大池化层进行自动的提取和融合，最后利用大小为512的全连接层联系起来。CNN中使用了均方误差作为损失函数，Adam作为网络优化器，批处理大小为256，初始化学习率为0.001，模型训练过程中根据实际情况进行衰减。模型最大迭代次数设置为25，如果损失函数在10个迭代内停止改进，则强制提前停止。一共生成了5个模型，每个模型由25个以上深度神经网络组成，所有网络的预测平均分数作为最终的预测结果输出。

5.3HLA分型和多肽模型的评估测试集

作为4.1-4.3三个特征的组合方式的实施例，分别基于特征A针对HLA-A超型、HLA-B超型、HLA-C超型每个超型构建了三个iNeo-PRED_A模型、基于特征A+特征B组合针对HLA-A超型、HLA-B超型、HLA-C超型每个超型构建了三个iNeo-PRED_AB模型、基于所有特征针对HLA-A超型、HLA-B超型、HLA-C超型每个超型构建了三个iNeo-PRED模型，用于预测HLA分型和长度为8-11个aa的多肽的亲和力预测。同时基于所有的输入特征构建了深度学习算法CNN模型和iNeo-PRED模型做对比。测试集是netMHCpan4.0提供的IEDB Benchmark多个数据集，评估指标是ROC曲线下的面积AUC值。

Benchmark测试集包含了以下数据：

1)HLA-A超型下的测试数据集，包含的HLA分型有HLA-A*02:01、HLA-A*02:02、HLA-A*02:03、HLA-A*02:06、HLA-A*03:01、HLA-A*11:01、HLA-A*24:02、HLA-A*30:01、HLA-A*30:02、HLA-A*31:01、HLA-A*68:01、HLA-A*68:01。

2)HLA-B超型下的测试数据集，包含的HLA分型有HLA-B*07:02、HLA-B*15:02、HLA-B27:03、HLA-B*27:04、HLA-B*27:05、HLA-B*27:06、HLA-B*35:01、HLA-B*38:01、HLA-B*39:06、HLA-B*40:01、HLA-B*44:03、HLA-B*55:02、HLA-B*57:01、HLA-B*58:01等。

5.4基于不同特征的HLA分型和多肽模型的结果对比

采用本发明构建的包含所有特征构建的iNeo-PRED模型，和基于特征A构建的iNeo-PRED_A模型、基于特征A和特征B组合构建的iNeo-PRED_AB模型、目前流行的netMHCpan4.0模型对IEDB中的Benchmark HLA-A、Benchmark HLA-B和Benchmark HLA-C的HLA分型和多肽的亲和力测试文件进行预测，对比综合结果，评估指标是ROC曲线下的面积AUC的值。AUC数值越高，即预测结果越准确。

1)利用Matplotlib箱线图分别对Benchmark HLA-A(图6)、Benchmark HLA-B(图7)和Benchmark HLA-C(图8)三类进行总体对比。

箱线图展示了数据的分布，包括上下四分位值、中位数、均值等信息，也可以用来反映数据是否存在异常情况。图中的横坐标表示采用的模型名称，纵坐标表示对应模型预测结果的AUC数值。

从图6-8可以看出，基于特征A和特征B组合构建的iNeo-PRED_AB模型比基于特征A构建的iNeo-PRED_A模型和netMHCpan4.0模型预测结果的效果好，不管是AUC的平均值还是中位数都比后两者高，即iNeo-PRED_AB模型的预测表现更好。而基于所有特征(包含特征A、特征B和特征C)构建的iNeo-PRED模型，不管是AUC平均值和中位值都比iNeo_PRED_A模型、iNeo_PRED_AB模型和netMHCpan4.0的数值更高，即iNeo_PRED模型的预测表现更好；iNeo_PRED模型的箱体分布更集中，代表其预测结果更稳定。以上可以看到基于所有特征(包含特征A、特征B和特征C)的建模预测效果比单独基于特征A、或者基于特征A和特征B组合的建模预测效果要好，说明增加更多提取的有效特征，可以提升模型的预测效果。

5.5HLA分型和多肽模型的结果对比

采用本发明构建的iNeo_PRED模型和和基于相同输入(包含特征A、特征B、特征C)的深度学习模型CNN，目前流行的netMHCpan4.0模型、ACME模型对HLA分型和多肽的亲和力进行预测，对比综合结果，评估指标是ROC曲线下的面积AUC的值。AUC数值越高，即预测结果越准确。

2)利用Matplotlib箱线图分别对Benchmark HLA-A(图9)、Benchmark HLA-B(图10)和Benchmark HLA-C(图11)三类进行总体对比。

箱线图展示了数据的分布，包括上下四分位值、中位数等信息，也可以用来反映数据是否存在异常情况。图中的横坐标表示采用的模型名称，纵坐标表示AUC的数值。

图9中iNeo_PRED模型和netMHCpan4.0模型两者AUC数值的p-value为0.00077，iNeo_PRED模型和ACME模型两者AUC数值的p-value为0.00176，iNeo_PRED模型和CNN模型两者AUC数值的p-value为0.045。

图10中iNeo_PRED模型和netMHCpan4.0模型两者AUC数值的p-value为0.01468，iNeo_PRED模型和ACME模型两者AUC数值的p-value为0.02558，iNeo_PRED模型和CNN模型两者AUC数值的p-value为0.224。

图11中iNeo_PRED模型和netMHCpan4.0模型两者AUC数值的p-value为0.02824，iNeo_PRED模型和ACME模型两者AUC数值的p-value为2.7929E-07，iNeo_PRED模型和netMHCpan4.0模型两者AUC数值的p-value为0.0186。

从图9-11可以看出，不管是，iNeo_PRED模型的AUC平均值和中位值都比其他三个已有的模型数值更高，即iNeo_PRED模型的预测表现更好；且iNeo_PRED模型的箱体分布更集中，代表其预测结果更稳定。

Benchmark HLA-A共31个测试集文件，其中26个测试集在iNeo-PRED模型测试的AUC结果优于netMHCpan4.0模型和ACME模型，2个测试集在iNeo-PRED模型测试的AUC结果和netMHCpan4.0模型、ACME模型相同，可见iNeo-PRED模型测试结果优于或等于其他两个模型的占比为28/31＝90.3％。尤其在预测HLA-A*02:02分型、HLA-A*02:03分型、HLA-A*02:06分型、HLA-A*03:01分型、HLA-A*11:01分型、HLA-A*68:02分型上iNeo-PRED模型测试评估指标AUC的值优于netMHCpan4.0模型。

Benchmark HLA-B共31个测试集文件，其中17个测试集在iNeo-PRED模型测试的AUC结果优于或等于ACME模型，占比为17/23＝73.9％；有18个测试集在iNeo-PRED模型测试的AUC结果优于或等于netMHCpan4.0模型，占比为18/23＝78.3％，尤其在预测HLA-B*27:05分型、HLA-B*27:06分型、HLA-B*35:01分型、HLA-B*39:06分型、HLA-B*40:01分型、HLA-B*44:03分型、HLA-B*44:03分型上iNeo-PRED模型测试评估指标AUC的值明显优于netMHCpan4.0模型。

共Benchmark HLA-C共11个测试集文件，全部测试集在iNeo-PRED模型测试的AUC结果都优于netMHCpan4.0模型和ACME模型，占比达到100％。

5.6HLA分型和多肽模型在小数据量测试集上的评估结果对比

本发明构建的iNeo-PRED模型和基于所有相同特征构建的CNN模型、现在流行的netMHCpan4.0模型和ACME模型在多肽和HLA分型数据量非常稀少的情况下进行了亲和力预测结果评估对比，评估指标是AUC的值(ROC曲线下的面积)。

利用箱线图分别对Benchmark中多肽和HLA分型数据量稀少(每个测试文件数据量小于60)的测试集进行模型评估，对比不同模型得到的AUC结果。

箱线图(图12)展示了评估结果AUC值的分布，包括上下四分位值、中位数等信息，也可以用来反映数据是否存在异常情况。图中的横坐标表示采用的模型名称，纵坐标表示当前模型对应的AUC的数值。图12中iNeo-PRED模型和netMHCpan4.0模型两者AUC数值的p-value为1E-05，iNeo-PRED模型和ACME模型两者AUC数值的p-value为7.12E-05。从图中可以看出，iNeo-PRED模型得到的AUC的平均值和中位值最高，即iNeo-PRED模型比其他三个已有的模型表现得更好；且箱体压缩的更小，即预测结果更稳定。

Benchmark在多肽和HLA分型数据量稀少的情况下测试集数据预测结果(共43个测试文件)中，33个测试集在iNeo-PRED模型测试的AUC结果优于基于相同特征构建的CNN模型(占比76.7％)，32个测试在iNeo-PRED模型测试的AUC结果优于netMHCpan4.0模型(占比74.4％)，34个测试集在iNeo-PRED模型测试的AUC结果优于ACME模型(占比79.1％)。

综合以上结果可知：本发明的iNeo-PRED模型在预测效果上相比CNN模型、netMHCpan4.0模型和ACME模型具有实质性的进步；本发明通过高维特征配合优化构建的iNeo-PRED三个模型，二者在提高亲和力预测准确性上具有很好的协同效果。当对多肽和HLA分型数据量非常稀少的测试集进行预测结果评估对比，不管是AUC的平均值还是中位值，iNeo-PRED模型的表现都显著优于其他三个已有的模型，预测结果更稳定。

以上实施例展示了本发明的基本原理、主要特征和优点。但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

序列表

<110> 杭州纽安津生物科技有限公司

<120> 一种多肽和HLA分型亲和力预测方法

<141> 2022-06-29

<160> 13

<170> SIPOSequenceListing 1.0

<210> 1

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 1

Tyr Phe Ala Met Tyr Gly Glu Lys Val Ala His Thr His Val Asp Thr

1 5 10 15

Leu Tyr Val Arg Tyr His Tyr Tyr Thr Trp Ala Val Leu Ala Tyr Thr

20 25 30

Trp Tyr

<210> 2

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 2

Tyr Ser Ala Gly Tyr Arg Glu Lys Tyr Arg Gln Ala Asp Val Asn Lys

1 5 10 15

Leu Tyr Leu Arg Phe Asn Phe Tyr Thr Trp Ala Glu Arg Ala Tyr Thr

20 25 30

Trp Tyr

<210> 3

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 3

Tyr Tyr Ser Glu Tyr Arg Asn Ile Tyr Ala Gln Thr Asp Glu Ser Asn

1 5 10 15

Leu Tyr Leu Ser Tyr Asp Tyr Tyr Thr Trp Ala Glu Arg Ala Tyr Glu

20 25 30

Trp Tyr

<210> 4

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 4

Tyr Tyr Ala Met Tyr Gln Glu Asn Val Ala Gln Thr Asp Val Asp Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Ala Ala Gln Ala Tyr Arg

20 25 30

Trp Tyr

<210> 5

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 5

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Arg

20 25 30

Gly Tyr

<210> 6

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 6

Tyr Ser Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Arg

20 25 30

Gly Tyr

<210> 7

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 7

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Met Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Arg

20 25 30

Gly Tyr

<210> 8

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 8

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Arg

20 25 30

Gly Tyr

<210> 9

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 9

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Leu Ala Tyr Arg

20 25 30

Gly Tyr

<210> 10

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 10

Tyr Phe Ala Met Tyr Gln Glu Asn Val Ala His Thr Asp Glu Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Arg

20 25 30

Gly Tyr

<210> 11

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 11

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Trp

20 25 30

Gly Tyr

<210> 12

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 12

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Val Ala Arg Val Tyr Arg

20 25 30

Gly Tyr

<210> 13

<211> 34

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 13

Tyr Phe Ala Met Tyr Gln Glu Asn Met Ala His Thr Asp Ala Asn Thr

1 5 10 15

Leu Tyr Ile Ile Tyr Arg Asp Tyr Thr Trp Ala Arg Arg Val Tyr Arg

20 25 30

Gly Tyr

Claims

1.一种多肽和HLA分型亲和力预测方法，其特征在于，包括如下内容：

步骤一，特征关系：

步骤二，特征工程：

步骤三，模型构建：

2.根据权利要求1所述的一种多肽和HLA分型亲和力预测方法，其特征在于，所述步骤一中特征关系获取方式如下：

S1，搜集数据：

S2，数据分析：

3)对步骤S1搜集得到的数据进行分析，分析包括：同一条多肽和不同HLA分型结合程度的数据比例分布，IC50中同一条多肽和不同HLA分型结合程度的总体数据分布，IC50中同一条多肽和不同HLA分型结合程度的阳性数据概率分布，IC50中同一条多肽和不同HLA分型结合程度的阴性数据概率分布，质谱中同一条多肽和不同HLA分型结合程度的总体数据概率分布，质谱中同一条多肽和不同HLA分型结合程度的阳性数据概率分布，质谱中同一条多肽和不同HLA分型结合程度的阴性数据概率分布。

S3，数据预处理：

3.根据权利要求2所述的一种多肽和HLA分型亲和力预测方法，其特征在于，所述步骤S2，数据分析中，分析IC50数据的亲和力值A的分布，质谱数据的亲和力值B的分布具体内容为：IC50数据的亲和力值A是一个大于0的连续值，而质谱数据的亲和力值B取自0和1两个离散值，亲和力值A和亲和力值B分布存在差异。

4.根据权利要求2所述的一种多肽和HLA分型亲和力预测方法，其特征在于，所述步骤S2中HLA分型对应的假设序列来源于多肽和HLA分型空间原子结合距离小于4埃的位置上的氨基酸。

5.根据权利要求2所述的一种多肽和HLA分型亲和力预测方法，其特征在于，各个HLA分型和与其对应的多肽数据中的氨基酸存在不同的motif分布，根据此分布对多肽中每个氨基酸的位置分配相应的权重。

6.根据权利要求2所述的一种多肽和HLA分型亲和力预测方法，其特征在于，所述BLOSUM编码为BLOSUM50编码矩阵。

7.根据权利要求2所述的一种多肽和HLA分型亲和力预测方法，其特征在于，所述独热编码为One-hot独热编码。

8.根据权利要求2所述的一种多肽和HLA分型亲和力预测方法，其特征在于，

所述步骤S3中根据质谱数据的分布规律将质谱数据亲和力值B通过特定的转换变为亲和力值C，亲和力值C和IC50数据的亲和力值A合并在一起再做转换，生成亲和力值D的具体方法为：

f(x)＝1-logx/log50000 (1)。

9.根据权利要求1所述的一种多肽和HLA分型亲和力预测方法，其特征在于，步骤二中所述特征包括：多肽序列分布特征、HLA分型特征、多肽和HLA分型之间相关关联的特征或氨基酸的位置和分布特征中的一种或几种的组合。

10.根据权利要求1所述的一种多肽和HLA分型亲和力预测方法，其特征在于，步骤二中所述多维度训练数据为：对同一条多肽进行数据筛选获得的特征、对同一分型进行数据筛选获得的特征或根据多肽序列的氨基酸位置提取获得的特征中的至少一个。

11.根据权利要求1所述的一种多肽和HLA分型亲和力预测方法，其特征在于，

所述对同一条多肽进行数据筛选获得的特征的具体内容为：

所述对同一分型进行数据筛选获得的特征的具体内容为：

所述根据多肽序列的氨基酸位置提取获得的特征的具体内容为：对长度为8-11个氨基酸的多肽序列，以填充固定字符的形式生成固定长度的序列，统计每个位置的氨基酸和HLA分型有亲和力的数据数目、占比和亲和力值D的平均值和标准差，每个位置的氨基酸和HLA分型没有亲和力的数据数目、占比和亲和力值D的平均值和标准差，所有HLA分型对应多肽序列在同一位置出现不同氨基酸的频数特征，根据HLA-A超型和与其对应的多肽数据中氨基酸的motif分布集中程度分配不同位置氨基酸的权重，根据HLA-B超型和与其对应的多肽数据中氨基酸的motif分布集中程度分配不同位置氨基酸的权重，根据HLA-C超型和与其对应的多肽数据中氨基酸的motif分布集中程度分配不同位置氨基酸的权重；

12.根据权利要求1所述的一种多肽和HLA分型亲和力预测方法，其特征在于，

所述步骤三中基于Python的机器学习算法LightGBM回归模型构建的iNeo-PRED模型，将挖掘的多维度内部统计特征经过编码处理和特征筛选后作为模型输入数据，分别训练HLA-A、HLA-B、HLA-C三大类超型各自的模型，构建完整独立的三个模型，完成多肽和HLA分型的亲和力预测。