CN111105843A

CN111105843A - 一种hla i型分子与多肽的亲和力预测方法

Info

Publication number: CN111105843A
Application number: CN201911411222.1A
Authority: CN
Inventors: 莫凡; 孙英强; 王奎; 陈荣昌; 王慧敏; 韩宁
Original assignee: Hangzhou Neoantigen Biotechnology Co ltd
Current assignee: Hangzhou Neoantigen Biotechnology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-05
Anticipated expiration: 2039-12-31
Also published as: CN111105843B

Abstract

本发明公开了一种HLA I型分子与多肽的亲和力预测方法，本发明将各种算法优势进行了系统整合，通过IEDB数据库、文献调研收集所得数据集以及实验产生数据集整合成数据库；对数据集中各个HLA分型所对应的肽段通过多种编码混合的转换方式进行数值型转换；得到最终的训练数据集；根据对不同学习器组合不同编码方式的深入研究及对数据特性的分析，本发明整合多种算法的混合模型，学习多肽序列的特征，既保证了单一分型在机器学习算法上训练的独立性，又保证了各HLA分型之间在深度学习算法上预测的互补性，从而实现对多肽与特定HLA分子亲和力的预测；本发明利用多个机器学习工具的组合实现了准确预测患者肿瘤中的新生抗原。

Description

一种HLA I型分子与多肽的亲和力预测方法

技术领域

本发明涉及生物信息领域，特别是一种HLA I型分子与多肽的亲和力预测方法。

背景技术

肿瘤免疫治疗是一种新兴的肿瘤治疗手段，其核心技术是以肿瘤新生抗原为靶标，刺激患者免疫系统，分化和增殖特异性针对肿瘤细胞的免疫效应细胞，精准作用于携带新生抗原靶标的肿瘤细胞。因此，肿瘤免疫治疗理论上可以清除所有携带特定抗原的肿瘤细胞，并做到对正常细胞没有伤害。反观传统的肿瘤治疗，无论是手术切除病变组织，或是服用化学药物杀灭增值过快的细胞，又或者是放射线照射杀伤，都会对患者的正常细胞造成不同程度的破坏，给患者带来诸多痛苦。

免疫系统消灭肿瘤细胞的过程，始于肿瘤新生抗原与肿瘤细胞HLA分子结合，然后该复合体被提呈到细胞膜表面被T细胞识别，进行被T细胞杀灭。这一过程的实现，有赖于两个条件：1.肿瘤新生抗原片段与细胞HLA分子结合2.HLA与抗原片段复合体被TCR识别。本发明旨在预测第1个条件达成所需的条件，即判断哪些肿瘤新生抗原多肽片段会与细胞HLA分子结合。

目前有许多可以预测多肽-HLA亲和力的算法，包括使用比较广泛的NetMHC、NetMHCpan、PSSM 以及pickpocket等。这些算法均存在各自的不足之处，例如，NetMHC系列软件仅使用单一学习器进行预测模型的构建，泛化能力不足，对很多HLA分型无法预测，分类效果不理想，且缺乏足够的实验证据支持。NetMHCpan使用人工神经网络(ANN)进行数据的训练，建立了所有HLA分型的统一预测模型，仅使用单一隐层神经元导致泛化效果不明显，而且对于数据量较大的HLA分型具有预测偏向性。PSSM和 pickpocket基于氨基酸的位置特异性矩阵构建模型，仅考虑了氨基酸之间的内在关系，却忽略了各HLA分型之间特征学习的独立性，对单一分型的预测效果并不理想。

其他软件，诸如MHCflurry、SYFPEFITHI、AI-MHC(Sidhom,Pardoll,&Baras,2018)、ACME(Hu et al., 2019)等，对不同分型的预测效果有明显的偏向性，对非常见HLA的预测效果较差。

此外，现有算法模型使用的训练数据大多来源于IEDB数据库，没有补充额外的实验数据，尤其是缺乏阴性结果，导致模型学习量不足或对阴性数据的召回率较低。现今的机器学习算法都有比较成熟的实现方式，因此对最终学习效果影响最大的因素是训练数据的质量和数量，如何收集到足够且符合预期阴阳比例的数据是该研究项目需要解决的难题。与HLA具有亲和力的多肽序列的来源主要有结合力实验和质谱分析两种，有许多文献和学术著作报道过这些实验数据，但目前并没有一个数据库全面汇总这些数据；市场需要一种将各种算法优势进行了系统整合，生成了一个能够提高分类效果，稳定性高，预测准确性高的预测模型。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种HLA I型分子与多肽的亲和力预测方法，通过对不同学习器组合不同编码方式的深入研究，将各种算法优势进行了系统整合，生成了一个能够提高分类效果，稳定性高，预测准确性高的预测模型。

为了实现上述目标，本发明采用如下的技术方案：

一种HLA I型分子与多肽的亲和力预测方法，包括如下内容：

一，选择数据集；

1)整合数据库，

通过IEDB数据库、临床验证数据和医学文献的调研以及实验产生的数据，共获得147321条多肽序列，多肽长度为8-11个氨基酸；

2)进一步筛选，

只选择肽段长度为9的数据集，最后得到109935条多肽数据，作为学习器的训练集；

收集获得的多肽序列用A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V这 20个字母表示；

对多肽序列进行量化，通过编码将多肽序列转换为数值型常量；编码方式包括：Blosum矩阵，HLA-Vec，独热编码；

三，选择学习器，

将多个学习器进行整合，得到混合学习器；所述学习器包括：整合随机森林(RF)，卷积神经网络(CNN)，人工神经网络(ANN)，支持向量机(SVM)，逻辑回归模型(LR)，K近邻模型(KNN)；

四，搭建机器学习框架，

将多肽序列编码完成后生成的数据使用皮尔逊相关系数计算每一个HLA分型所生成数值型矩阵的各维度之间的相关性及各维度与类标签的相关性，根据相关性矩阵，计算每一维度强相关性(PCC>0.6)个数占所有维度强相关性个数合的比例与其对应类标签相关性数值的和，将得到的一维权重矩阵与Blosum 转换后的数值型矩阵相乘，得到最终的训练数据集；

设定500nM为亲和力划分阈值，小于500nM认为两者具有亲和力，大于500nM认为两者无亲和力，将MHC I类亲和力预测问题转换为机器学习中两分类问题；

将Blosum编码后的数据集选择80％作为训练集、20％作为测试集，进行10折交叉验证，用来测试模型的准确性；

使用学习器进行训练，模型训练完成后使用每个分型剩余的20％数据进行测试。

前述的一种HLA I型分子与多肽的亲和力预测方法，Blosum矩阵为Blosum50编码矩阵。

前述的一种HLA I型分子与多肽的亲和力预测方法，独热编码包括：One-hot独热编码，One-hot_0.9 独热编码。

前述的一种HLA I型分子与多肽的亲和力预测方法，

三，选择学习器，

学习器为整合随机森林和卷积神经网络两种学习器的混合学习器；

以python3.6作为程序编程语言，调用其机器学习工具包scikit-learn(sklearn)、Keras进行模型构建。

前述的一种HLA I型分子与多肽的亲和力预测方法，卷积神经网络模型包括：2个1维卷积层，嵌入层和2个全连接层；

卷积层保留了局部空间信息，适合多肽之间连接氨基酸的空间位置信息；

嵌入层用20维向量空间表示每个氨基酸，输出大小为43x20的二维矩阵，向量空间矩阵与32个大小为7的滤波器进行一维卷积，并返回与输入数据相同的输出长度，从而得到大小为43×32的二维矩阵，激活函数使用的是带泄露修正线性单元(LeakyReLU)，默认学习率为0.3；全连接层dropout为正则化调节参数，通过在训练期间从CNN随机丢弃25％的单位来防止模型过度拟合；

使用的损失函数为二进制交叉熵函数，使用的优化器是学习率为0.004的Adam优化器，模型的最大迭代次数设置为100；若损失函数在2个迭代内停止改进，则强制提前停止。

前述的一种HLA I型分子与多肽的亲和力预测方法，随机森林学习器的训练过程中会将经过转换的 9*20维的数据中每一维作为一个特征进行选择性学习，进而根据特征选择的优先性构建分类决策树，特征之间选择的优先级是根据决策树构建的生成算法进行判定；

在随机森林学习过程中分类决策树的生成需要调节如下参数：弱分类器树(n_estimators)、决策树最大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数 (min_samples_leaf)，随机森林划分考虑的最大特征数(max_features)；

调节参数使用网格法进行穷举计算，调用sklearn.model_selection中的GridSearchCV工具包对各参数进行选择。

前述的一种HLA I型分子与多肽的亲和力预测方法，述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，卷积神经网络模型包括：2个1维卷积层，嵌入层和2个全连接层；

前述的一种HLA I型分子与多肽的亲和力预测方法，10折交叉验证的具体做法是：将数据集随机分成10份，每一次使用其中9份作为训练集，剩余一份作为测试集，该过程重复10次，每次测试都会得到相应的准确率，10次结果的平均值作为对模型精度的评估。

前述的一种HLA I型分子与多肽的亲和力预测方法，

决策树构建的具体流程为：

输入：训练数据集D，特征集A，阈值ε；

输出：决策树T；

1)如果D中所有的实例属于同一类C_k，则置T为单结点树，并将C_k作为该结点的类，返回T；

2)如果

则置T为单结点树，并将D中的实例数最大的类C_k作为该结点的类，则返回T；

3)否则，按公式

计算A中各特征对D的信息增益比，选择信息增益比最大的特征A_g；

4)如果A_g的信息增益比小于阈值ε，则置T为单结点树，并将D中实例数最大的类C_k作为该结点的类，返回T；

5)否则，对A_g的每一可能值a_i，依A_g＝a_i将D分割为若干非空子集D_i，将D_i中的实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；

6)对结点i，以D_i为训练集，以A-{A_g}为特征集，递归地调用步骤1)-步骤5)，得到子树T_i，返回T_i。

前述的一种HLA I型分子与多肽的亲和力预测方法，

调节参数使用网格法进行穷举计算，调用sklearn.model_selection中的GridSearchCV工具包对各参数进行选择，具体过程是：

第一，固定其他参数，将n_estimators值设定2到201之间，以2为步长进行模型训练，得到模型准确率最高值时对应的n_estimators值；

第二，将max_depth和min_samples_split的值设定在2到21之间，以2为步长，固定其他参数进行模型训练，得到模型准确率最高值时对应的max_depth和min_samples_split；

第三，将min_samples_leaf和min_samples_split值设定在2到21之间，以2为步长，固定其他参数进行模型训练，得到模型准确率最高值时对应的min_samples_leaf和min_samples_split；

第四，将max_features值设定在2到51之间，以2为步长进行模型训练，得到模型准确率最高值时对应的max_features；

经过四次网格穷举选择，最终确定随机森林模型构建所需最佳参数。

本发明的有益之处在于：

本发明将各种算法优势进行了系统整合，通过IEDB(Immune Epitope Database)数据库、文献调研收集所得数据集以及实验产生数据集整合成数据库；对数据集中各个HLA分型所对应的肽段通过多种编码(blosum矩阵、独热编码、自然语言编码等)混合的转换方式进行数值型转换；得到最终的训练数据集；

根据对不同学习器组合不同编码方式的深入研究及对数据特性的分析，本发明整合随机森林(RF)、卷积神经网络(CNN)、人工神经网络(ANN)、支持向量机(SVM)等算法的混合模型，学习多肽序列的特征，既保证了单一分型在机器学习算法上训练的独立性，又保证了各HLA分型之间在深度学习算法上预测的互补性，从而实现对多肽与特定HLA分子亲和力的预测；

模型通过外部数据测试、交叉验证等方法评判预测效果，通过ROC(receiveroperating characteristic curve，ROC)下的面积AUC(Area Under Curve)、F1等指标进行评判，最后构建出整合随机森林和卷积神经网络两种学习器的混合模型，具有优秀的分类效果，稳定性好，预测准确性高。

附图说明

图1是本发明训练数据中MHC I型短多肽的长度分布；

图2是本发明实验一的33个中国人群高频HLA在本发明和NetMHCpan的F1值结果图；(横坐标为 33个HLA分型，纵坐标为F1值，圆点代表本发明iNeo_PRED的预测结果，三角形代表NetMHCpan4.0)；

图3是本发明实验二在治疗过程中的免疫响应监测结果；(三角形代表：治疗前患者外周血中的T细胞对多肽的免疫响应率；菱形代表治疗后患者外周血中的T细胞对多肽的免疫响应率，星号代表该患者T细胞受体(TCR) 出现新生克隆或出现丰度显著增加的克隆)；

图4是本发明机器学习框架搭建过程中编码过程示例图；

图5是本发明机器学习框架搭建过程中得到最终的训练数据集的计算过程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

一种HLA I型分子与多肽的亲和力预测方法的优化过程，包括：

一、数据集的选择：

由于不同分型对应的训练数据量有较大差异，且不同分型对应的肽段之间有一定的相似性，导致之前软件的预测结果具有偏向性，对于数据量较少的分型效果同样很差。通过大量预测试，发现想要使用机器学习方法进行模型构建并得到较好的学习效果，每个分型至少需要1000条多肽序列作为训练数据，因此本发明使用数据量大于1000的分型用于机器学习模型的构建，对于数据量较少的分型(如下表1中短肽总数小于1000的HLA分型)使用深度学习网络模型(CNN)进行更深层次的特征挖掘，来弥补个别分型训练数据量上的不足。

表1

本发明用于MHC I类分子与短多肽的亲和力预测，数据主要来源于IEDB(ImmuneEpitope Database) 数据库、临床验证数据和医学文献(Pubmed数据库2005-2019年文献)的调研以及实验产生的数据，共获得147321条多肽序列，多肽长度为8-11个氨基酸。

在对原始数据进行整理时，去除了某些包含非蛋白质氨基酸的序列(非蛋白质氨基指的是除组成蛋白质的20种氨基酸以外的含有氨基和羧基的化合物)。

MHC在人类细胞中存在两种分子类型，分别是MHC I型分子和MHC II型分子。MHC I型分子可以呈递的多肽长度为8-11个氨基酸，其中以9肽居多，图1的柱图展示了训练数据中MHC I型短多肽的长度分布。

为保证肽段转换为数值矩阵维度的统一性，对数据进行再次筛选，只选择肽段长度为9的数据集，最后得到109935条多肽数据，作为学习器的训练集。

二、编码方式的选择：

在生物化学研究中，通常用英文字母来代表20个在人体中常见的氨基酸，对应关系如下表2所示：

表2

本发明收集获得的多肽序列均以‘A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、 Y、V’20个字母表示。这些多肽序列首先需要进行量化，转换为数值型常量，本发明选择的编码方式有三种，下面分别介绍：

2.1 Blosum矩阵，是一种最广泛的氨基酸打分矩阵，根据蛋白质模块数据库BLOCKS (http：//www.blocks.fhcrc.org/)中蛋白质序列的高度保守部分的比对而计算得到的，最常用的是Blosum50，矩阵如下表3所示：

表3

其表示以序列平均相似性为50％的BLOCK构建而成，单元格数值计算方式如下：

其中，q表示氨基酸对的出现频率，e表示氨基酸对出现的期望频率；

2.2HLA-Vec(Vang&Xie，2017)是一种类比自然语言的处理方法而生成的编码方式，根据已知肽段与 HLA分型的对应关系，将每一条肽段比作一段句子，每一个氨基酸比作一个单词，使用python机器学习工具包gensim.models中的词转向量法(Word2Vec)为每一个氨基酸生成一个20维的打分矩阵。如下表4所示：

表4

2.3，独热编码(One-Hot Encoding)，又称为一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效，在肽段编码方式中每一个氨基酸代表一个状态，20位状态寄存器对20个氨基酸进行编码，生成氨基酸独热编码表，

如下表5所示：

A	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
																					R	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
N	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
																					D	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
C	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
																					Q	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0
E	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0
																					G	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0
H	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0
																					I	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0
L	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0
																					K	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0
M	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0
																					F	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0
P	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0
																					S	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0
T	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0
																					W	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0
Y	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0
																					V	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1

表5

本发明对以上三种编码方式进行了深度的探究及验证，最终解决方案包括但不限于三种编码方式及其组合，通过在其中一种学习器随机森林(RF)上进行比较验证，结果显示(如下表6)，Blosum50编码方式的整体效果优于其他方法及其组合，但其他编码方式在个别分型上的预测效果表现也较为出众。

表6

说明：

1_Blosum：Blosum50编码方式；2_HLA_vec：自然语言编码方式；3_Blosum+HLA_Vec：Blosum50 编码方式和自然语言编码方式相混合；4_One-hot：独热编码方式；5_One-hot_0.9：独热编码方式(1替换为0.9，0替换为0.05)

为了能够提高预测模型的稳定性和健壮性，因此，本发明选择Blosum50、HLA_vec、One-hot中的其中一种或者组合作为肽段的编码方式

三，学习器的选择：

本发明运用混合学习器的实现方法，以下举例描述其中一种方法：采用了整合随机森林和卷积神经网络两种学习器的组合。

以python3.6作为程序编程语言，调用其机器学习工具包scikit-learn(sklearn)、Keras进行模型构建， sklearn是一款开源的机器学习工具包，它集成了分类、回归、聚类、数据降维、模型选择和数据处理等各种成熟的机器学习算法，且易于安装和使用。Keras是一个由Python编写的开源人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。本发明最初进行过不同学习器的测试，包括支持向量机(Support Vector Machine，SVM)、 K近邻(k-NearestNeighbor，K-NN)、随机森林(Random Forest，RF)、逻辑回归(Logistic Regression，LR)、 CNN(Convolutional Neural Networks)等，使用F1、AUC(Area Under Curve)、SRCC(Spearman rank correlation coefficients)等作为学习器的评价指标。

F1是查准率和查全率的调和平均值，对于两分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(True Positive)、假正例(False Positive)、真反例(True Negative)、假反例(False Negative) 四种情形，可分别用TP、FP、TN、FN表示，分类结果的混淆矩阵如表7所示

表7

查全率P可定义为：

查准率R可定义为：

则调和平均值F1定义为：

最大值为1，最小值为0，F1越大则表示模型预测效果越好。

本发明调用sklearn.metrics中的f1-score工具包计算模型预测结果的f1值。AUC(Area Under Curve) 表示受试者操作曲线(Receiver operating characteristic，ROC)下的面积，是用来评价模型分类效果的重要指标，ROC曲线可由假正例率

作为X轴，真正例率

作为Y轴制作图像获得，则曲线下的面积为AUC的值。

本发明调用sklearn.metrics中的roc_auc_score工具包计算模型预测结果的AUC值。斯皮尔曼相关系数(Spearman rank correlation coefficients，SRCC)它是衡量两个变量的依赖性的非参数指标，利用单调方程评价两个统计变量的相关性，计算方式如下：

其中x表示两个变量中的一个，y表示两个变量中的另一个，ρ越大表示两个变量的相关性越高，在本发明中表示真实类别与预测类别之间的相关性，调用scipy.stats中的spearmanr工具包进行SRCC值的计算。

如表8所示，通过实验结果验证和比较，对于上述收集到的训练数据而言，发现各个分类算法在不同的HLA分型上各有优势，不存在单一算法能够达到比其他算法都要好的结果，如RF在20个不同HLA分型上AUC值表现最好，而CNN在17个不同HLA分型上AUC值表现也很好，LR在HLA-A*02:01和 HLA-A*26:01上F1值同样达到了最高值，为了能够使最终模型达到更准确的预测结果，所以本发明整合了多个算法来构建分类模型，充分发挥不同算法在不同HLA分型上优势。

表8.中国人高频HLA分型在不同分类器上的验证结果比对

此表为33个HLA分型在五个机器学习分类器上的分类效果展示，每个分型中结果最好的加粗， RF:Random Forest随机森林模型；SVM：Support Vector Machine支持向量机模型；KNN：K-NearestNeighbor K近邻模型；LR：Logistic Regression逻辑回归模型，CNN:Convolutional Neural Networks卷积神经网络模型。

四、机器学习框架搭建：

针对步骤(1)选择得到的33个分型和109935个数据，使用步骤(2)选择的Blosum50进行编码处理。每一个9肽经过编码生成9*20的一维数据，编码过程示例如图4所示：

然后使用皮尔逊相关系数(Pearson Correlation Coefficient，PCC)计算每一个HLA分型所生成数值型矩阵的各维度之间的相关性及各维度与类标签的相关性，根据相关性矩阵，计算每一维度强相关性(PCC>0.6)个数占所有维度强相关性个数合的比例与其对应类标签相关性数值的和，将得到的一维权重矩阵与Blosum50转换后的数值型矩阵相乘，得到最终的训练数据集,计算过程如图5所示：

N：某一HLA分型样本数；180：九肽转化为180维数据；PCC：皮尔逊相关系数；target：每个样本对应的类别；N_pcc＞0.6：每一维相关性大于0.6的个数；W：每一维计算得到的权重；M_i：每一维与类别target 的相关性；N_i：每一维与另外179维相关性大于0.6的个数；B₅₀×W：未进行相关性计算的矩阵(N*180) 的每一维乘以其对应的权重W_i。

每一个分型对应的每一条肽段拥有一个表示两者关系的亲和力值(nM)。由于多肽和MHC分子的亲和力需要达到一定的程度才能形成稳定的聚合物，实验提供的亲和力阈值为500nM，亲和力小于500nM 认为有亲和力(Sette et al.,1994)(Paul et al.,2013)，所以本发明设定500nM为亲和力划分阈值，小于500nM 认为两者具有亲和力，大于500nM认为两者无亲和力，将MHC I类亲和力预测问题转换为机器学习中两分类问题。本发明的随机森林算法针对所有数据量较多(大于1000)的HLA分型单独建立了亲和力预测模型，卷积神经网络算法对所有HLA分型建立了模型。

随机森林框架搭建步骤如下：将Blosum50编码后的数据集选择80％作为训练集、20％作为测试集，进行10折交叉验证，用来测试模型的准确性。具体做法是将数据集随机分成10份，每一次使用其中9份作为训练集，剩余一份作为测试集，该过程重复10次，每次测试都会得到相应的准确率，10次结果的平均值作为对模型精度的评估。

使用随机森林学习器进行训练，训练过程中会将经过转换的9*20维的数据中每一维作为一个特征进行选择性学习，进而根据特征选择的优先性构建分类决策树，特征之间选择的优先级是根据C4.5生成算法进行判定，C4.5算法是决策树生成的一种经典算法，给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类，C4.5算法的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

在随机森林学习过程中分类决策树的生成需要调节如下参数：弱分类器树(n_estimators)、决策树最大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数 (min_samples_leaf),随机森林划分考虑的最大特征数(max_features)等。

为了得到上述参数的最佳数值，我们使用网格法进行穷举计算，本发明调用sklearn.model_selection中的GridSearchCV工具包对各参数进行选择，具体做法是：第一、固定其他参数，将n_estimators值设定2 到201之间，以2为步长进行模型训练，得到模型准确率最高值时对应的n_estimators值；第二、将max_depth 和min_samples_split的值设定在2到21之间，以2为步长，固定其他参数进行模型训练，得到模型准确率最高值时对应的max_depth和min_samples_split；第三、将min_samples_leaf和min_samples_split值设定在2到21之间，以2为步长，固定其他参数进行模型训练，得到模型准确率最高值时对应的 min_samples_leaf和min_samples_split；第四、将max_features值设定在2到51之间，以2为步长进行模型训练，得到模型准确率最高值时对应的max_features。经过四次网格穷举选择，最终确定随机森林模型构建所需最佳参数。模型训练完成后使用每个分型剩余的20％数据进行测试。

C4.5决策树构建流程：

输入：训练数据集D，特征集A，阈值ε；

输出：决策树T

(1)如果D中所有的实例属于同一类C_k，则置T为单结点树，并将C_k作为该结点的类，返回T；

(2)如果

(3)否则，按公式

(4)如果A_g的信息增益比小于阈值ε，则置T为单结点树，并将D中实例数最大的类C_k作为该结点的类，返回T；

(5)否则，对A_g的每一可能值a_i，依A_g＝a_i将D分割为若干非空子集D_i，将D_i中的实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；

(6)对结点i，以D_i为训练集，以A-{A_g}为特征集，递归地调用步骤1)-步骤5)，得到子树T_i，返回T_i。

以上所述的随机森林模型只能在数据量足够多(大于1000)的HLA分型上进行模型构建，CNN弥补了这种局限性。

CNN构建的MHC-pan模型通过加入假设序列解决了部分分型数据量过少而无法进行随机森林模型构建的问题。

每一个HLA分型的假设序列由34个氨基酸组成，加上氨基酸个数为9的对应肽段(9肽)，共得到 43个氨基酸，通过BLOSUM50将每一个氨基酸转换成长度为20的数据，如上所示。训练集和验证集分别采用数据的80％、20％用于模型构建，并生成5个基模型，测试集使用IEDB数据库提供的标准数据 (benchmark)中的69个数据集(即对应69个HLA分型)，取5个基模型训练结果的平均值作为最终预测值。

本发明CNN模型由2个1维卷积层，2个全连接层构成，CNN整个架构包括卷积层、嵌入层和全连接层。卷积层保留了局部空间信息，因此非常适合多肽之间连接氨基酸的空间位置信息，嵌入层用20维向量空间表示每个氨基酸，输出大小为43x20的二维矩阵，向量空间矩阵与32个大小为7的滤波器进行一维卷积，并返回与输入数据相同的输出长度，从而得到大小为43×32的二维矩阵，激活函数使用的是带泄露修正线性单元(LeakyReLU)，默认学习率为0.3。dropout为正则化调节参数，通过在训练期间从CNN 随机丢弃一定比例的单位来防止模型过度拟合。使用的损失函数为二进制交叉熵函数，使用的优化器是学习率为0.004的Adam优化器。模型的最大迭代次数设置为100，但是如果损失函数在2个迭代内停止改进，则强制提前停止。

实验一，

为了比较和说明该发明的效果，我们将随机森林和卷积神经网络的组合作为本发明混合模型的实施例 (iNeo-PRED)，测试IEDB数据提供的标准数据(Benchmark)，与NetMHCpan软件进行对比。NetMHCpan 是目前公认较好且使用最为广泛的MHC亲和力预测工具(Jurtz et al.,2017)

如图2是33个中国人群高频HLA在本发明和NetMHCpan的F1值比较。

通过比对结果显示，本发明在中国人高频HLA分型上能够得到比NetMHCpan软件更好的多肽亲和力预测效果。

随后又选取Benchmark数据集(标准数据集)中不同时间的65个HLA分型数据，用iNeo_PRED算法进行预测，并与NetMHCpan2.8、NetMHCpan3.0、NetMHCpan4.0三个软件的预测结果相比较，详细结果如下表9：

表9

说明：RF及CNN验证Benchmark上的多个HLA分型的预测结果。HLA分型：代表各HLA分型名称；数据类型：各HLA分型数据的表现形式；时间：各HLA分型数据Benchmark收录时间；肽段总数：各HLA分型内短肽数量；阳性肽总数：各HLA分型短肽数量中包含的阳性肽数量；iNeo-PRED：随机森林模型与CNN模型的组合；pan2.8：NetMHCpan2.8，MHC亲和力预测软件版本2.8 (http://www.cbs.dtu.dk/services/NetMHCpan-2.8/)；pan3.0： NetMHCpan3.0，MHC亲和力预测软件版本3.0 (www.cbs.dtu.dk/services/NetMHCpan- 3.0)；Npan4.0：NetMHCpan4.0，MHC亲和力预测软件版本4.0 (http://www.cbs.dtu.dk/ services/NetMHCpan/)

可以看到本发明的分类效果在所有36个HLA分型上都优于NetMHCpan软件，多数分型有大幅度的提升，对于不同数量的测试集同样也均达到了较好的效果，说明iNeo_PRED模型具有较高的稳定性，并且在多个HLA分型上AUC达到了1。

实验二：

为了检验本发明中混合模型对新生抗原多肽疫苗与MHC分子亲和力预测的准确性，我们对之前的新生抗原多肽疫苗治疗晚期肿瘤患者的临床试验(未使用本发明算法)进行了回顾性分析。

根据患者治疗后随访得到的免疫响应结果(外周血免疫细胞INFgamma的ELISpot实验结果)，我们在接受治疗的患者中选择了2例疗效较好的患者(T002和T005)和1例疗效较差的患者(T003)，采用本发明iNeo_PRED算法对这三例患者使用的多肽疫苗进行了多肽-MHC分子亲和力预测，并与实际临床响应结果进行相关性分析。

这3例患者在临床试验阶段接受的多肽疫苗序列如表10所示：

表10

这3名患者对应的HLA I类分子分型如表11所示：

表11

表11中T002和T005两例患者在多肽疫苗在实际治疗过程中表现出较好的临床响应，说明预测的新生抗原的确能够与MHC结合并被递呈至细胞表面，进一步激活T细胞，从而杀伤肿瘤细胞。患者接受疫苗注射后的随访中的体外ELISpot实验结果也证明了这些多肽能够有效激活患者外周血T细胞。部分 ELISpot结果如表12所示：

表12

然而，在同一临床试验中，针对患者T003的多肽疫苗的实际疗效较差。这很可能是由于之前采用的预测方法得到的新生抗原表位与MHC分子的亲和力的准确度不高造成的，多肽不能与MHC结合并被抗原递呈细胞递呈至细胞表面，故而未能有效激活患者T细胞。患者接受疫苗注射后随访中的体外ELISpot 实验结果也证明了患者外周血T细胞无法有效识别这些疫苗多肽。部分ELISpot结果如表13所示：

表13

通过分析比较ELISpot实验中测得的斑点数量，在表12和表13的“结果判断”这一列中给出了表格中对应的多肽是否能够与MHC结合并被抗原递呈细胞成功递呈至细胞表面，从而被患者T细胞有效识别并成功激活T细胞的最终实验判定。阳性结果表示该条多肽包含了能与MHC分子有效结合的新生表位，对患者外周血免疫细胞产生有效激活，具有免疫原性；阴性结果则表示该条多肽未包含能与MHC分子有效结合的表位，不具有免疫原性或免疫原性不显著。

实验结果表明，尽管采用之前的预测模型在临床试验中能够正确地预测出针对T002和T005两例患者的具有良好的MHC亲和力的多肽序列，产生良好免疫原性；但是针对患者T003进行预测得到的序列的免疫原性与实际临床试验中测得的免疫原性不符，很可能是由于预测的多肽与MHC分子的实际亲和力较小，未能实现抗原的有效递呈。

我们以这些回顾性分析数据为基础，采用之前预测方法所得到的多肽序列(表10)为待验证数据，对本发明iNeo-PRED的预测效果进行检验。首先将上述用于治疗的长度为16-30个氨基酸的疫苗多肽序列切分成为长度为8-11个氨基酸的短多肽序列，然后将这些短多肽序列与对应患者的HLA分型一起输入至本发明的模型中进行预测，得到的结果如表14所示：

表14

我们分析了本发明iNeo-PRED预测得到的新生抗原表位数量与“ELISPOT结果判定”的相关性。从表 14可以看出，“ELISPOT结果判定”均为阳性的T002和T005患者多肽序列中包含的递呈表位(与MHC 亲和力为阳性的新生抗原表位)数量平均值大于16条，最少为8条。而表14中“ELISPOT结果判定”均为阴性的T003患者多肽序列中包含的递呈表位数量几乎没有，最多的只有2条，其中有两条多肽的表位数为0。

这表明本发明iNeo-PRED预测得到的表位数量与真实临床试验中免疫响应的结果具有更强的相关性， iNeo-PRED在实际测试中对验证数据有较好的区分度(Wilcoxon ranksum test p＝0.001369)，初步证明了本发明iNeo-PRED能够更准确地预测新生抗原表位与MHC分子亲和力。

实验三，

我们开展了一项名为“基于新生抗原的个体化免疫治疗新技术用于晚期恶性肿瘤治疗的安全性和有效性临床研究”，旨在评价新生抗原多肽疫苗用于标准治疗失败的晚期实体瘤患者的可行性、安全性和初步有效性。通过该临床试验，我们进一步验证了本发明iNeo-PRED对新生抗原表位与MHC分子亲和力预测的准确性。

截止2019年5月31日，共有22位受试者进入临床试验，受试者基本情况见表15。通过对获取的受试者样本进行全外显子测序，根据测序得到的结果筛选了一批体细胞突变并预测出了这些突变对应的新生多肽序列，然后通过本发明iNeo-PRED预测出其中与MHC分子亲和力强的新生抗原表位，再根据最终的预测结果为每位受试者筛选出10条以上新生抗原多肽。按照临床使用标准进行多肽生产制备，最终为每位受试者制备了7-20条多肽疫苗。

表15

受试者按计划接受5次基础免疫和多次加强免疫，我们对整个治疗过程都进行了免疫监测，包括 ELISpot实验和TCR测序实验。其中，通过ELISpot实验能够检测治疗后是否激活了新生抗原多肽特异性 T细胞，能够直接证明新生抗原亲合力预测的准确性。

结果显示,利用本发明iNeo-PRED预测得到的新生抗原表位设计多肽，21位受试者(P014因提前出组除外)共有292条多肽用于临床给药，通过ELISpot实验检测发现，超过80％的多肽能够引起患者体内特异的T细胞激活，同时21位受试者中有12位(57％)治疗后T细胞受体出现的新的克隆或原有丰度显著增加(图3)，这些结果都证明了iNeo-PRED在此次临床试验中准确预测了大多数患者肿瘤细胞内存在的具有较强MHC亲和力、能够被抗原递呈细胞有效递呈给T细胞的新生抗原表位。

综上所述，本发明利用多个机器学习工具的组合实现了肿瘤新生抗原预测中MHC分子与新生抗原表位结合与否的判断，在标准数据和实施例中验证了实际临床应用效果，证明其可以准确预测患者肿瘤中的新生抗原。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

序列表

<110> 杭州纽安津生物科技有限公司

<120> 一种HLA I型分子与多肽的亲和力预测方法

<141> 2019-12-30

<160> 19

<170> SIPOSequenceListing 1.0

<210> 1

<211> 16

<212> PRT

<213> Artificial Sequence

<400> 1

His Ser Val Thr Asp Thr Val Asp Tyr Ser Leu Ala Met Pro Gly Ser

1 5 10 15

<210> 2

<211> 28

<212> PRT

<213> Artificial Sequence

<400> 2

Ala Asp Ala Ser His Cys Ile Gln Gln Ile Leu Glu Ala Ala Thr Leu

1 5 10 15

Pro Ser Asp Gly Arg Gly Pro Ser Gly Pro Glu Ala

20 25

<210> 3

<211> 25

<212> PRT

<213> Artificial Sequence

<400> 3

Glu Ser Lys Glu Pro Lys Glu Glu Lys Gln Trp Arg Arg Cys Lys Pro

1 5 10 15

Lys Lys Pro Thr Arg Arg Asp Ala Ser

20 25

<210> 4

<211> 25

<212> PRT

<213> Artificial Sequence

<400> 4

Gln Asn Met Tyr Arg Gly Tyr Arg Pro Arg Phe Arg Arg Gly Pro Leu

1 5 10 15

Arg Gln Arg Gln Pro Arg Glu Asp Gly

20 25

<210> 5

<211> 25

<212> PRT

<213> Artificial Sequence

<400> 5

Ala Gly Gly Leu Ala Glu Gly Ala Gly Ala Leu Ala Pro Pro Pro Leu

1 5 10 15

Pro Pro Gln Ile Lys Val Glu Pro Ile

20 25

<210> 6

<211> 27

<212> PRT

<213> Artificial Sequence

<400> 6

His Glu Ser Gln Val Tyr Thr Leu Asp Val Pro Asp Ala Phe Tyr Tyr

1 5 10 15

Ser Tyr Ser Pro Asp Pro Gly Asn Ala Lys Gly

20 25

<210> 7

<211> 23

<212> PRT

<213> Artificial Sequence

<400> 7

Leu Pro His Pro Arg Arg Arg Glu Ala Pro Gly Ser Leu Pro Leu Ser

1 5 10 15

Pro Arg Gly His Cys Pro Pro

20

<210> 8

<211> 23

<212> PRT

<213> Artificial Sequence

<400> 8

His Ala Gly Gly Asn Glu Lys Leu Val Met Leu Glu Ser Gly Leu Lys

1 5 10 15

Val Tyr Gly Gly Asp Asp Arg

20

<210> 9

<211> 30

<212> PRT

<213> Artificial Sequence

<400> 9

His Arg Pro Leu Tyr Gln Pro Met Gln Pro His Pro Gln His Leu Pro

1 5 10 15

Ser Met Gly Phe Asp Pro Arg Trp Leu Met Met Gln Ser Tyr

20 25 30

<210> 10

<211> 24

<212> PRT

<213> Artificial Sequence

<400> 10

Arg Arg Ala Gln Ser Ala Leu Ala Gln Leu Arg Gly Ile Leu Glu Glu

1 5 10 15

Glu Leu Glu Gly Ile Cys Gly Ala

20

<210> 11

<211> 27

<212> PRT

<213> Artificial Sequence

<400> 11

Gln Gln Asp Leu His Gly Gly Ala Gln Leu Arg Gly Pro Gly Ala Pro

1 5 10 15

Gly His Arg Ala Val Arg Gln Pro Trp Arg Pro

20 25

<210> 12

<211> 21

<212> PRT

<213> Artificial Sequence

<400> 12

Glu Asp Gln Asn Thr Gly Ala Ile Glu Asn Ile Ile Val Glu Val Lys

1 5 10 15

Lys Arg Ala Arg Cys

20

<210> 13

<211> 30

<212> PRT

<213> Artificial Sequence

<400> 13

Ser Lys Gly His Ile Ile His Phe Lys Ser Ala Ile Glu Lys Phe Thr

1 5 10 15

His Asp Tyr Ile Asn Leu Phe His Phe Pro Pro Leu Ile Lys

20 25 30

<210> 14

<211> 27

<212> PRT

<213> Artificial Sequence

<400> 14

Ala Gln Leu Gln Gly Pro Val His Arg Asn Pro Thr Tyr Leu Pro Arg

1 5 10 15

Tyr Arg Ser Arg Gly Pro Pro Arg Pro Arg Pro

20 25

<210> 15

<211> 25

<212> PRT

<213> Artificial Sequence

<400> 15

Leu Ser Ala Pro Arg Tyr Met Asp Leu Leu Met Asp Trp Ile Glu Glu

1 5 10 15

Gln Ile Asn Asn Glu Asp Leu Phe Pro

20 25

<210> 16

<211> 28

<212> PRT

<213> Artificial Sequence

<400> 16

Gly Lys Ala Leu Pro His Arg Gln Asp Pro Cys Gly Gln Asn Pro Gly

1 5 10 15

Gly Pro Gly Gly Arg Val Leu Glu Pro Leu Pro Asp

20 25

<210> 17

<211> 30

<212> PRT

<213> Artificial Sequence

<400> 17

Lys Arg Arg Pro Arg Ser Leu Leu Glu Lys Leu Arg Trp Val Thr Leu

1 5 10 15

Gly Tyr His Tyr Asn Trp Asp Ser Lys Lys Tyr Ser Ala Asp

20 25 30

<210> 18

<211> 29

<212> PRT

<213> Artificial Sequence

<400> 18

Ser Gly Ala Leu Pro Phe Pro Ser Pro Gly Pro Pro Gln Pro Pro Pro

1 5 10 15

Pro Pro Leu Ala Tyr Gly Pro Ala Pro Ser Thr Arg Pro

20 25

<210> 19

<211> 30

<212> PRT

<213> Artificial Sequence

<400> 19

Leu Tyr Glu Arg Gln Pro Phe Pro Asp Asn Tyr Val Asp Arg Leu Phe

1 5 10 15

Leu Glu Glu Leu Arg Lys Asn Ile His Ala Arg Lys Tyr Gln

20 25 30

Claims

1.一种HLA I型分子与多肽的亲和力预测方法，其特征在于，包括如下内容：

一，选择数据集；

1)整合数据库，

2)进一步筛选，

二，对多肽序列进行编码；

收集获得的多肽序列用A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V这20个字母表示；

三，选择学习器，

四，搭建机器学习框架，

将多肽序列编码完成后生成的数据使用皮尔逊相关系数计算每一个HLA分型所生成数值型矩阵的各维度之间的相关性及各维度与类标签的相关性，根据相关性矩阵，计算每一维度强相关性(PCC>0.6)个数占所有维度强相关性个数合的比例与其对应类标签相关性数值的和，将得到的一维权重矩阵与Blosum转换后的数值型矩阵相乘，得到最终的训练数据集；

2.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，所述Blosum矩阵为Blosum50编码矩阵。

3.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，所述独热编码包括：One-hot独热编码，One-hot_0.9独热编码。

4.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，

三，选择学习器，

5.根据权利要求4所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，卷积神经网络模型包括：2个1维卷积层，嵌入层和2个全连接层；

所述卷积层保留了局部空间信息，适合多肽之间连接氨基酸的空间位置信息；

6.根据权利要求4所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，所述随机森林学习器的训练过程中会将经过转换的9*20维的数据中每一维作为一个特征进行选择性学习，进而根据特征选择的优先性构建分类决策树，特征之间选择的优先级是根据决策树构建的生成算法进行判定；

在随机森林学习过程中分类决策树的生成需要调节如下参数：弱分类器树(n_estimators)、决策树最大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数(min_samples_leaf)，随机森林划分考虑的最大特征数(max_features)；

7.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，10折交叉验证的具体做法是：将数据集随机分成10份，每一次使用其中9份作为训练集，剩余一份作为测试集，该过程重复10次，每次测试都会得到相应的准确率，10次结果的平均值作为对模型精度的评估。

8.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法，其特征在于，

决策树构建的具体流程为：

输入：训练数据集D，特征集A，阈值ε；

输出：决策树T；

2)如果

3)否则，按公式

9.根据权利要求1所述的一种HLAI型分子与多肽的亲和力预测方法，其特征在于，