CN112002374A

CN112002374A - 基于深度学习的mhc-i表位亲和力预测方法

Info

Publication number: CN112002374A
Application number: CN202010539194.8A
Authority: CN
Inventors: 任树成; 宋瑾; 张恒辉; 沈宁
Original assignee: Beijing Zhenzhi Medical Technology Co ltd
Current assignee: Beijing Zhenzhi Medical Technology Co ltd
Priority date: 2020-06-14
Filing date: 2020-06-14
Publication date: 2020-11-27
Anticipated expiration: 2040-06-14
Also published as: CN112002374B

Abstract

本发明公开一种基于深度学习的MHC‑I表位亲和力预测方法，其包括：通过公共数据库获取多数个多肽；根据MHC‑I分子与肽的结合方式将所述多肽转换为21mer肽；提取所述多肽的特征，所述特征包括：序列特征、亲水性特征、极性特征和位置特征；分别对所述多肽的特征进行特征编码，得到4*21维的特征矩阵；将所述公共数据库中的多肽数据作为训练集进行模型训练，根据所述多肽的等位基因的分类，分别将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型，建立的预测模型的数量与所述多肽的等位基因的分类数据相对应；使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。通过本申请能够有效预测MHC‑I表位亲和力，预测准确性较高且更稳定。

Description

基于深度学习的MHC-I表位亲和力预测方法

技术领域

本发明涉及生物信息领域及肿瘤免疫治疗领域，尤其涉及一种基于深度学习的MHC-I表位亲和力预测方法。

背景技术

由于新抗原是免疫疗法的理想靶标，因此了解特异性肽与MHC的等位基因之间的结合亲和力是设计疫苗的必不可少的步骤。大量的肽链使研究费时且费力。随着测序技术和生物信息学的进步，预测肽与MHC等位基因之间的结合亲和力变得更加灵活和经济。

MHC(主要组织相容性复合体)是在大多数脊椎动物基因组中发现的一个基因家族，与免疫系统密切相关。人的MHC也称为人白细胞抗原(HLA)。MHC有两种类型。第一种MHC(MHC-I)处理蛋白质(例如病毒)的内部分解，第二种MHC(MHC-II)仅位于抗原呈递细胞(APC)。这些基因中的一些编码细胞表面抗原，这是不会混淆每个人细胞的“特征”。它们是免疫系统区别于异物的基础。HLA复合体位于6号染色体短臂的21.31区域(6p21.31)，由360万个碱基对组成。它是人类染色体中基因密度最高，多态性最多的区域，被称为“人类的化学指纹”。

近来，许多研究者集中在预测肽和MHC等位基因之间的结合亲和力的领域，也出现了一些有很多工具和算法。其中一些人专注于MHC-I，而另一些人专注于MHC-II。但是，目前缺少准确预测MHC-I蛋白与其肽之间的结合亲和力的技术方案。

发明内容

本发明的主要目的在于提供一种基于深度学习的MHC-I表位亲和力预测方法，以解决现有技术缺少准确预测MHC-I蛋白与其肽之间的结合亲和力的技术方案。

根据本发明实施例提出一种基于深度学习的MHC-I表位亲和力预测方法，其包括：通过公共数据库获取多数个多肽；根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽；提取所述多肽的特征，所述特征包括：序列特征、亲水性特征、极性特征和位置特征；分别对所述多肽的特征进行特征编码，得到4*21维的特征矩阵；将所述公共数据库中的多肽数据作为训练集进行模型训练，根据所述多肽的等位基因的分类，分别将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型，其中，建立的预测模型的数量与所述多肽的等位基因的分类数据相对应；使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。

其中，所述公共数据库的多数个多肽包括以下数据：等位基因、肽段、测量值、测量不等式、测量类型、测量来源和原始等位基因；所述方法还包括：选取所述公共数据库中的HLA-A等位基因和HLA-B等位基因，作为测试集对所述预测模型进行模型评估，评估所述测试模型的准确性。

其中，所述测量值为IC50值，设置小于500nm则为阳性的多肽。

其中，还包括：选取肽数大于20的等位基因的多肽建立预测模型。

其中，所述根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽的步骤，包括：确定MHC-I分子的锚定点的位置，在所述锚定点的位置插入氨基酸X，转换为11mer肽；在11mer肽的两侧分别插入5bp侧翼序列。

其中，还包括：通过BLOSUM62对多肽进行编码。

其中，在所述特征为序列特征的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：分别由数字1到21表示下列21种氨基酸：A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V和X。

其中，在所述特征为亲水性指数的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：为每个氨基酸设定亲水指数的特征编码：R为-2.5、K为-1.5、D为-0.9、Q为-0.85、N为-0.78、E为-0.74、H为-0.4、S为-0.18、T为-0.05、P为0.12、Y为0.26、C为0.29、G为0.48、A为0.62、M为0.64、W为0.81、L为1.1、V为1.1、F为1.2、I为1.4、X为0。

其中，在所述特征为极性特征的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：根据氨基酸R基团的极性或在pH值下与水相互作用的趋势，将氨基酸分为：极性不变、无极性、负极性、正极性；其中：极性不变的氨基酸包括：A、G、I、L、F、P和V，其特征编码为1；无极性的氨基酸包括：N、C、Q、S、T、W、Y和M，其特征编码为2；负极性的氨基酸包括：D和E，其特征编码为3；正极性的氨基酸包括：R、H和K，其特征编码为4；氨基酸X的特征编码为0。

其中，在所述特征为位置特征的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：肽在该位置存在氨基酸则特征编码为1、不存在则特征编码为0。

根据本发明的技术方案，通过使用编码的序列比较以及肽提取特征的化学性质，并使用了卷积神经网络(CNN)建立了预测模型，能够有效预测MHC-I表位亲和力，通过本申请的方法预测准确性较高且更稳定。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的基于深度学习的MHC-I表位亲和力预测方法的流程图；

图2是根据本发明实施例的肽(8-11mer)转换为11mer肽的插入示意图；

图3是根据本发明实施例的肽的特征进行编码的示意图；

图4是根据本发明实施例的每个等位基因的AUC表现示意图；

图5是根据本发明实施例的193个实验中的AUC分布图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

根据本发明实施例提供了一种基于深度学习的MHC-I表位亲和力预测方法，如图1所示，该方法包括以下步骤：

步骤S102，通过公共数据库获取多数个多肽。

为了避免预测结果的偏向性，应使用数据量较大的数据集进行训练。本申请通过公共数据库下载大量数据集，例如从IEDB affinity data(Vita et al.2018)、BD2013(Kimet al.2014)、MS data(Abelin et al.2017)等三篇文献数据集总共获得了525,672个肽段。

步骤S104，根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽。根据肽与MHC I的结合模式(Motif)将不同长度的肽整合到21mer中。

对于MHC-1复合物，α链具有三个结构域，其中由α1和α2区域形成的凹槽可以结合抗原肽，而α3区域是CD8结合区域。β链仅具有一个的域β2，形成微球蛋白结构。

HLA-I类分子的九个氨基酸的结合核心在MHC-I分子与亲和肽的结合中起主要作用。同时，两侧的肽侧翼残基(PFR)在结合中也起一定作用。在绑定核心中，位置2、3、6、7、9被称为“锚”，并且在绑定中比其他位置扮演更重要的角色。基于此，可以将8–10mer肽转换为11mer肽。具体地，将新的氨基酸(X)插入肽中。

肽的长度一般为8-10个氨基酸，并以9个氨基酸为多。如图2所示，以8-10mer肽为例。X是人工氨基酸，仅与自身有关，与其他20个氨基酸无关。通过与unipro数据库比对查找肽侧翼左右5bp大小残基序列，这样每条肽段就扩充为21mer。

在将所有肽转化为21mer后，所有肽均应由BLOSUM62基质编码(Styczynski等，2008)。X被编码为零的向量，但X与自身之间的分数是1。

步骤S106，提取所述多肽的特征，所述特征包括：序列特征、亲水性特征、极性特征和位置特征。

肽的化学性质强烈影响结合亲和力。当人体被感染时，诸如IFN-γ之类的炎性因子会改变蛋白酶体20S的β亚基组成，使蛋白酶体更可能裂解疏水性和碱性氨基酸(因此该肽更容易与MHC-1结合)。正如Udaka等人所说，(Udaka等1995)通常优选疏水性氨基酸。因此本申请提出了一种提取多肽特征的新方法，提取了四种特征：序列特征(+侧翼序列)、亲水性特征、极性特征和位置特征。

步骤S108，分别对所述多肽的特征进行特征编码，得到4*21维的特征矩阵。

对于序列特征，通过BLOSUM62对21种氨基酸进行了排序。‘A’，‘R’，‘N’，‘D’，‘C’，‘Q’，‘Ev，’G’，‘H’，‘I’，‘L’，‘K’，‘M’，‘F’，‘P’，‘S’，‘T’，‘W’，‘Y’，‘V’，’X’分别由数字1到21表示。

对于亲水性特征特征，使用Eisenberg共识量表(ECS)来评估每个氨基酸的亲水指数。其中，X的亲水指数为零。表1显示了每种氨基酸的编码。

表1

对于极性特征，将21个氨基酸分为五类。根据R基团的极性或在生理pH值(接近pH7.0)下与水相互作用的趋势，它们可分为无极性，无电荷的极性，正电荷(碱性)和负电荷(酸性)。并且，X的类别为零。表2显示了每种氨基酸的分类以及编码。

表2

对于位置特征，对肽长度采样One-hot编码，即肽在该位置存在氨基酸则编码为1，不存在则编码为0。

这样每个氨基酸可用一个4维的向量来表示，对于每种肽，其特征可使用4*21维的矩阵。

下面举例说明对多肽进行特征编码的详细过程。参考图3，肽段“DVGGGDRW”为8mer肽，在锚点位置插入氨基酸X，即在位置3插入2个氨基酸X、在位置7插入1个氨基酸X，从而得到11mer肽“DVGXXGGDRXW”。接着，通过与unipro数据库比对查找肽侧翼左右5bp大小残基序列(侧翼序列)“AEPTG”和“CWHLL”，在11mer肽的左右两侧插入侧翼序列，得到21mer肽“AEPTG DVGXXGGDRXW CWHLL”。下面对21mer肽进行特征编码，分别对21个氨基酸进行特征编码，得到4*21维的特征矩阵。

步骤S110，将所述公共数据库中的多肽数据作为训练集进行模型训练，将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型，其中，建立的预测模型的数量与所述多肽的等位基因的分类数量相对应。

CNN可以通过初始特征矩阵找出每种肽的真实特征。简而言之，CNN更适合于MHC-I表位结合亲和力的预测。在步骤S102中，总共获得了525,672个肽段，其中包括等位基因、肽段、测量值、测量不等式、测量类型、测量来源和原始等位基因等数据。使用这些肽作为训练集和验证集，选择肽数大于20的等位基因，然后剩下522,268个肽，这些肽属于193种等位基因，为每个等位基因建立模型，因此总共建立了193个模型。

在本申请中，测量值为IC50值，小于500nm的认为是阳性的肽。也就是说，设定500nm为亲和力划分阈值，小于500nm认为两者具有亲和力，大于500nM认为两者无亲和力，在这522,268个肽中，有338,978个阳性肽。

步骤S112，使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。

在Youngmahn Han和Dongsup Kim的论文中(Han and Kim，2017)，他们使用DeepCNN与NetMHCPan，SMM，ANN和PickPocket进行了比较(Zhang等，2009)。把IEDB中(上面三个数据集中第一个)按照等位基因和测量类型分组，并分为68个测试子集，其中包括15个HLA-A等位基因的43个子集和10个HLA-B等位基因的25个子集。此处使用了他们的统计数据并评估了基于新功能的CNN。这里称为新的CNN为CN³e方法，表示(Based on CNN Neoantigenprediction)。

F1评分用于评估模型。可以计算为：

在这里,真实阳性(TP)表示预测为阳性的阳性样本。假阴性(FN)表示预测为阴性的阳性样本。假阳性(FP)表示预测为阳性的阴性样本。

为了验证模型的准确性，进行了五次交叉验证。将本申请的方法与DCNN、NetMHCPan4.0、SMM、ANN和PickPocket进行了比较。在大多数情况下，本申请方法的准确性高于其他方法。表3中总结了HLA-A和HLA-B等位基因的预测结果。CN³e(CNN-NF)的F1评分的平均值分别为0.643和0.692。该值高于其他方法的值。除此之外，这两个实验的标准偏差均低于其他方法的标准偏差，这意味着本申请的方法更稳定。

表3

随机抽取训练集中该等位基因五分之一作为测试集。对193个等位基因实验的曲线下面积(AUC)进行绘图。图4为每个等位基因的AUC表现示意图，图5为193个实验中的AUC分布图。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于深度学习的MHC-I表位亲和力预测方法，其特征在于，包括：

通过公共数据库获取多数个多肽；

根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽；

提取所述多肽的特征，所述特征包括：序列特征、亲水性特征、极性特征和位置特征；

分别对所述多肽的特征进行特征编码，得到4*21维的特征矩阵；

将所述公共数据库中的多肽数据作为训练集进行模型训练，根据所述多肽的等位基因的分类，分别将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型，其中，建立的预测模型的数量与所述多肽的等位基因的分类数据相对应；

使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。

2.根据权利要求1所述的方法，其特征在于，所述公共数据库的多数个多肽包括以下数据：等位基因、肽段、测量值、测量不等式、测量类型、测量来源和原始等位基因；所述方法还包括：

选取所述公共数据库中的HLA-A等位基因和HLA-B等位基因，作为测试集对所述预测模型进行模型评估，评估所述测试模型的准确性。

3.根据权利要求2所述的方法，其特征在于，所述测量值为IC50值，设置小于500nm则为阳性的多肽。

4.根据权利要求1或2所述的方法，其特征在于，还包括：选取肽数大于20的等位基因的多肽建立预测模型。

5.根据权利要求1所述的方法，其特征在于，所述根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽的步骤，包括：

确定MHC-I分子的锚定点的位置，在所述锚定点的位置插入氨基酸X，转换为11mer肽；

在11mer肽的两侧分别插入5bp侧翼序列。

6.根据权利要求5所述的方法，其特征在于，还包括：通过BLOSUM62对多肽进行编码。

7.根据权利要求6所述的方法，其特征在于，在所述特征为序列特征的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：

分别由数字1到21表示下列21种氨基酸：A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V和X。

8.根据权利要求6所述的方法，其特征在于，在所述特征为亲水性指数的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：

为每个氨基酸设定亲水指数的特征编码：R为-2.5、K为-1.5、D为-0.9、Q为-0.85、N为-0.78、E为-0.74、H为-0.4、S为-0.18、T为-0.05、P为0.12、Y为0.26、C为0.29、G为0.48、A为0.62、M为0.64、W为0.81、L为1.1、V为1.1、F为1.2、I为1.4、X为0。

9.根据权利要求6所述的方法，其特征在于，在所述特征为极性特征的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：

根据氨基酸R基团的极性或在pH值下与水相互作用的趋势，将氨基酸分为：极性不变、无极性、负极性、正极性；其中：

极性不变的氨基酸包括：A、G、I、L、F、P和V，其特征编码为1；

无极性的氨基酸包括：N、C、Q、S、T、W、Y和M，其特征编码为2；

负极性的氨基酸包括：D和E，其特征编码为3；

正极性的氨基酸包括：R、H和K，其特征编码为4；

氨基酸X的特征编码为0。

10.根据权利要求6所述的方法，其特征在于，在所述特征为位置特征的情况下，所述分别对于每种肽的特征进行特征编码的步骤，包括：

肽在该位置存在氨基酸则特征编码为1、不存在则特征编码为0。