CN109671469B

CN109671469B - 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法

Info

Publication number: CN109671469B
Application number: CN201811511026.7A
Authority: CN
Inventors: 周展; 吴静成; 赵文艺; 周斌彬; 陈枢青
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2020-08-18
Anticipated expiration: 2038-12-11
Also published as: CN109671469A

Abstract

本发明公开了一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，包括：构建两个训练集，其中，训练集1包括多个由多肽‑HLA I型序列及其亲和力组成的训练样本；训练集2包括多个由多肽‑HLA I型序列及其结合关系组成的训练样本；以双向GRU或带有注意力机制的双向GRU为基础，再加一个Sigmoid函数作为输出层组成预测网络，利用训练集1和训练集2训练预测网络，获得回归模型和分类模型；将待预测的多肽‑HLA I型序列输入至回归模型和分类模型，经计算获得多肽与HLA I型之间的预测亲和力数值。该方法能够快速较准确地预测多肽与HLA I型分子之间结合亲和力或结合关系。

Description

基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法

技术领域

本发明属于计算机辅助生物分子结合领域，具体涉及一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法。

背景技术

随着对肿瘤研究的不断深入，肿瘤新抗原作为肿瘤免疫治疗的靶点以及疗效的指标已经得到了广泛的认可。然而，识别有效的肿瘤新抗原是一个巨大的挑战。

目前，全外显子组测序结合生物信息学方法已经广泛地应用于潜在新抗原的预测。现有文献报道的用于肿瘤新抗原预测的全流程集成软件有TSNAD(参见文献Zhou,Z.etal.(2017)TSNAD:An integrated software for cancer somatic mutation and tumour-specific neoantigen detection.R.Soc.Open Sci.,4,170050)，pVAC-Seq(参见文献Hundal,J.et al.(2016)pVAC-Seq:A genome-guided in silico approach toidentifying tumor neoantigens.Genome Med.,8,11)和INTERGATE-neo(参见文献Zhang,J.et al.(2017)INTEGRATE-neo:A pipeline for personalized gene fusionneoantigen discovery.Bioinformatics,33,555–557)。这些软件的最关键部分是多肽与HLA分子之间结合亲和力的预测。目前已有的用于多肽-HLA结合亲和力预测的方法有NetMHCpan(参见文献Jurtz,V.et al.(2017)NetMHCpan-4.0:Improved Peptide–MHCClass I Interaction Predictions Integrating Eluted Ligand and Peptide BindingAffinity Data.J.Immunol.,ji1700893)，PickPocket(参见文献Zhang,H.et al.(2009)The PickPocket method for predicting binding specificities for receptorsbased on receptor pocket similarities:Application to MHC-peptidebinding.Bioinformatics,25,1293–1299)，PSSMHCpan(参见文献Liu,G.et al.(2017)PSSMHCpan:A novel PSSM-based software for predicting class I peptide-HLAbinding affinity.Gigascience,6,1–11)，HLA-CNN(参见文献Vang,Y.S.and Xie,X.(2017)HLA class I binding prediction via convolutional neuralnetworks.Bioinformatics,33,2658–2665)等。

但是，实验结果表明，现有的工具由于假阳性率过高，不足以用于临床的新抗原预测。因此有必要研发新方法用于多肽-HLA结合亲和力的预测，从而促进肿瘤免疫治疗的发展。

发明内容

本发明的目的是提供一种预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，该方法简称为DeepHLApan。该方法基于深度学习中的循环神经网络(RecurrentNeural Network，RNN)，能够快速较准确地预测多肽与HLA I型分子之间的亲和力数值和结合关系。

为实现上述发明目的，本发明提供以下技术方案：

一种预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，包括以下步骤：

构建第一训练集和的第二训练集，其中，第一训练集包括多个由多肽-HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本；第二训练集包括多个由多肽-HLA I型序列、多肽与HLA I型之间的结合关系组成的训练样本，还包括多个由多肽-HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本；

以双向GRU(Gated Recurrent Unit，一种基础的RNN变体)或带有注意力机制的双向GRU为基础，再加一个Sigmoid函数作为输出层，组成预测网络，利用第一训练集和第二训练集对预测网络进行训练，获得回归模型和分类模型；

将待预测的多肽-HLA I型序列输入至回归模型和分类模型中，经计算获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。

该方法通过训练样本训练神经网路，获得能够很好学习训练样本特性的回归模型和分类模型，然后利用回归模型和分类模型学习时确定的模型参数对待预测的多肽-HLA I型序列进行预测，获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。

为了获得更稳定精准的预测模型，优选地，以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。三层的双向GRU和带有注意力机制的三层双向GRU的网络结构较深，能够更深度地学习训练样本的特性，确定更准确的模型参数。

为了优化回归模型的回归结果，即获得更准确的多肽与HLA I型之间的亲和力，还包括用于优化多肽与HLA I型之间的亲和力数值的全连接层；

训练时，以回归模型和分类模型对第一训练集中训练样本进行预测，输出的多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系作为全连接层的输入，以第一训练集中训练样本的亲和力数值作为全连接层的输出，以预测值和真实值之间的均方误差作为优选目标，对全连接层进行优化训练，确定全连接层参数；

应用时，若只需得到多肽与HLA I型之间的结合关系，将待预测的多肽-HLA I型序列输入至分类模型中，经计算获得多肽与HLA I型之间的预测结合关系；若想得到具体的亲和力数值，将待预测的多肽-HLA I型序列输入至回归模型和分类模型中，经计算获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系，并将该预测亲和力数值和预测结合关系输入至训练好的全连接层中，输出最终的多肽与HLA I型之间的预测亲和力数值。

全连接层能够根据训练样本对应的亲和力数据和结合关系数据对回归模型的输出结果进行优化，获得更准确的预测亲和力。

优选地，所述全连接层为由20个神经元组成的单层神经网络。

在训练样本和测试样本输入至模型前，需要对样本进行预处理，以适应模型的输入数据的格式要求。具体地，所述多肽-HLA I型序列由多肽和-HLA I型分子顺序连接而成，若序列长度小于49，则在连接后的序列后面添加虚拟氨基酸‘X’，使序列长度达到49。

再者，采用PSSM、稀疏编码或word2vec对多肽-HLA I型序列中氨基酸进行向量表示，获得能够直接输入至基础网络的训练样本。

PSSM最初的计算方法是在给定HLA分型的情况下，对与该分型结合的多肽中每个残基位置上不同氨基酸的频率进行计算。本发明不对单个HLA分型分别计算PSSM，而是对整个数据集中所有多肽进行PSSM的计算。每个位置上不同氨基酸的PSSM值由以下公式计算：

其中P_ap表示位置p上氨基酸a的PSSM值，F_ap表示位置p上氨基酸a的频率；ω表示Dirichlet分布的值；BG_a表示来自Ensembl数据库的氨基酸a的频率。根据公式得到的是20个常用氨基酸在不同位置的PSSM值，在数据输入时添加的虚拟氨基酸‘X’在每个位置上的PSSM值均为0。

稀疏编码也称为one-hot编码。本发明中稀疏编码是将20个常用氨基酸和1个虚拟氨基酸‘X’替换为一个长度为21的向量，其中只有一个位置为1，其他位置均为0，不同氨基酸所代表的向量互不相同。

word2vec是一个用于获取词向量的工具包，本发明利用该工具分别对训练集中的多肽序列进行氨基酸的向量表示。

本发明在Long Short-Term Memory(LSTM，一种基础的RNN变体)和GRU上，对氨基酸的向量表示进行了研究，发现稀疏编码的方法在测试集上的总体性能更好一些，但是在测试集的单独数据集上，PSSM的表现更好，在综合考虑结果之后，优选地，采用PSSM对多肽-HLA I型序列中氨基酸进行向量表示，获得能够直接输入至基础网络的训练样本。

优选地，回归模型输出的由0～1之间的小数，经预设的映射关系形成具体的预测亲和力数值；

分类模型输出的由0～1之间的小数，经预设的分类阈值形成具体的预测结合关系。

在训练和预测时，GRU的输出矩阵经Sigmoid函数(一种激活函数，用于隐层神经元输出)处理后，输出0～1之间的小数，该小数根据预设的映射关系映射处理后形成具体的亲和力数值，或根据预测的分类阈值分类处理后输出用0和1表示的结合关系，其中，0表示不结合，1表示结合。映射关系和分类阈值依实际情况设定，在此不受限制。

本发明具有的有益效果为：

本发明利用循环神经网络建立分类模型、回归模型以及优化全连接层，能够准确预测多肽与HLA I型之间的结合关系和结合力，该预测方法能够应用到肿瘤患者的新抗原预测，为癌症免疫治疗提供治疗靶点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的预测多肽与HLA I型分子之间结合亲和力的流程框图；

图2是实施例提供的网络模型和其他预测软件的ROC曲线图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本实施例提供的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，包括预测模型构建和预测应用两个阶段。具体地，预测模型构建包括训练集构建、模型建立和模型训练三个过程。

针对训练集构建：

首先，从公共数据库IEDB、SYFPEITHI、MHCBN和AntiJen等中获取HLA I类等位基因和肽之间的结合数据。从AntiJen和SYFPEITHI收集的数据仅包含结合肽，而其他数据包含结合肽和非结合肽。总共收集得到335102条多肽-HLA结合数据。

然后，对数据进行预处理，具体地，按照以下三个标准筛选多肽-HLA型组合：(1)HLA分子的亚型为HLA I型中的A，B和C亚型；(2)多肽的长度范围为8～15aa；(3)将实验结果不一致的组合舍去。其中，I型HLA与多肽结合的位点长度为34aa。

最后，将筛选获得的数据集分成三类，一类为测试数据集(测试集)，包含IEDB最新的多肽-HLA I型组合的信息。一类为用于训练回归模型的数据集(第一训练集)，该第一训练集中只包含有结合亲和力数据的多肽-HLAI型组合。一类为用于训练分类模型的数据集(第二训练集)，该第二训练集中不仅包含有结合亲和力数据的多肽-HLA组合(结合亲和力的数据以500nM为阈值转换为结合关系)，还包含没有结合亲和力数据，但有结合关系的组合，该结合关系是指除结合亲和力外，其他实验指标所判定的结合。这三个数据集中，第一训练集和第二训练集中的数据都不包含测试集的数据。第一训练集包含110266条多肽-HLAI型结合数据，第二训练集包含314229条多肽-HLA I型结合数据，测试集包含13773条结合数据。

针对模型建立：

经过大量的实验，本实施例选择以三层双向GRU或三层带有注意力机制的双向GRU(att-BGRU)为基础网络，再加一个Sigmoid函数作为输出层，组成网络模型，利用训练集1和训练集2对网络模型进行训练，获得回归模型和分类模型，其中，回归模型用于预测多肽与HLA I型之间的亲和力，分类模型用于预测多肽与HLA I型之间的结合关系。

为了优化多肽与HLA I型之间的亲和力，在训练好的回归模型和分类模型后增加一个全连接层，以实现对多肽与HLA I型之间的亲和力预测的优化。具体地，全连接层为由20个神经元组成的单层神经网络。

针对模型训练：

如图1所示，训练模型之前，需要对数据集中的数据进行预处理，具体为，将多肽与HLA I型分子的虚拟序列连接在一起，针对序列长度小于49的多肽-HLA I型序列，在序列后面添加虚拟氨基酸‘X’，使最终序列长度达到49，然后，采用PSSM对长度为49的多肽-HLA I型序列转化为矩阵，即将多肽-HLA I型序列中氨基酸进行向量表示，得到直接能输入至网络的数据。

PSSM最初的计算方法是在给定HLA分型的情况下，对与该分型结合的多肽中每个残基位置上不同氨基酸的频率进行计算。本实施例不对单个HLA分型分别计算PSSM，而是对整个数据集，如第一训练集或第二训练集中的所有多肽进行PSSM的计算。每个位置上不同氨基酸的PSSM值由以下公式计算：

其中P_ap表示位置p上氨基酸a的PSSM值，F_ap表示位置p上氨基酸a的频率；ω表示Dirichlet分布的值；BG_a表示来自Ensembl数据库的氨基酸a的频率。根据以上公式得到的是20个常用氨基酸在不同位置的PSSM值，在数据输入时添加的虚拟氨基酸‘X’在每个位置上的PSSM值均为0。

训练时，以第一训练集对应的多肽-HLA及其亲和力数据作为输入输出，对构建的基础网络进行训练，获得回归模型，以第二训练集对应的多肽-HLA及其结合关系作为输入输出，对构建的基础网络进行训练，获得分类模型。

下面以获得回归模型为例，具体说明训练过程。最开始的输入数据大小为110226*49*49(表示110226个维度为49*49的矩阵)，经过第一层的GRU/att-BGRU处理后，输出大小为110226*49*128/110226*49*256的矩阵，第二、三层GRU/att-BGRU处理后数据大小不变，即仍旧输出尺寸为110226*49*128/110226*49*256的矩阵。之后GRU经过flatten层压缩为110226*6272，att-BGRU则经过attention层压缩为110226*12544。

分类模型的训练过程与回归模型类似，区别在于回归模型所用的损失函数为均方误差(mse)，分类模型所用的损失函数为二分类交叉熵(binary cross-entropy)。

当回归模型与分类模型训练完毕后，固定回归模型与分类模型的模型参数，利用其后添加的全连接层对多肽与HLA I型之间的预测亲和力进行优化。

具有地，将分别用回归模型与分类模型对第一训练集进行预测得到的结果作为全连接层的输入，以第一训练集中对应的亲和力和结合关系作为全连接层的输出，以预测值和真实值之间的均方误差作为优选目标，对全连接层进行优化训练，确定全连接层参数。

在训练之前，第一训练集或第二训练集被随机分为五个子集。其中一个子集用作验证集，其余子集用作训练集，该过程重复五次，且每次用做验证集的子集不同。在训练过程中，如果当前模型在验证集上的准确度或均方误差优于之前的模型，则保存并替换之前的模型，该过程重复100次。

训练完模型后，对获得模型进行测试，具体利用测试集对模型进行测试。

受试者特性曲线下面积(AUC)是软件比较的主要标准，斯皮尔曼相关性系数(SRCC)是次要标准。由于GRU和att-BGRU的性能相差不多，所以我们将两者均整合进入最后的预测软件中，同时我们还为使用者提供两种预测的结果，分别是预测的亲和力数值(regression)和预测的结合关系(classification)。使用测试集对所提供的四种模型(即classification GRU，classification att-BGRU,combined GRU和combined att-BGRU)进行准确性，精确度进行测试，并与现有最优的各个软件进行性能的比较，发现每个模型的结果都要优于现有的软件(图2)

将测试集拆分为10个来自IEDB的数据集，分别对各软件进行性能的测试，发现本实施例提供的模型(DeepHLApan)在6个数据集里表现最好，而其他软件最多在3个数据集中表现最好(表1)。而SRCC的结果也证明本实施例提供的模型的表现优于其他软件(表2)。

表1

表2

针对预测应用：

如图1所示，以预测亲和力为例，应用时，首先，将待预测的多肽-HLA I型序列进行预处理，即利用虚拟氨基酸‘X’对待预测的多肽-HLA I型序列长度补足到49，再采用PSSM将多肽-HLA I型序列转化为矩阵；然后，将转化的矩阵输入至回归模型经计算输出0～1之间的小数，经预设的映射关系形成多肽与HLA I型之间的预测亲和力数值；将转化的矩阵输入至分类模型中，经计算输出0～1之间的小数，经预设的分类阈值形成多肽与HLA I型之间的预测结合关系，最后将该预测亲和力和预测结合关系输入至训练好的全连接层中，输出最终的多肽与HLA I型之间的预测亲和力数值。

上述方法，利用训练好的模型，能够快速较准确地预测多肽与HLA I型分子之间结合亲和力和结合关系。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，包括以下步骤：

构建第一训练集和第二训练集，其中，第一训练集包括多个由只包含有结合亲和力数据的多肽-HLA I型结合数据组成的训练样本；第二训练集包括多个由没有结合亲和力数据但有结合关系的多肽-HLA I型结合数据组成的训练样本，还包括有结合亲和力数据的多肽-HLA I型结合数据组成的训练样本；

以双向GRU或带有注意力机制的双向GRU为基础，再加一个Sigmoid函数作为输出层，组成预测网络，利用第一训练集和第二训练集对预测网络进行训练，获得回归模型和分类模型；

将待预测的多肽-HLA I型序列输入至回归模型和分类模型中，经计算获得多肽与HLAI型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。

2.如权利要求1所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，其特征在于，以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。

3.如权利要求2所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，其特征在于，还包括用于优化多肽与HLA I型之间的亲和力数值的全连接层；

训练时，以回归模型和分类模型对第一训练集中训练样本进行预测，输出的多肽与HLAI型之间的预测亲和力和多肽与HLA I型之间的预测结合关系作为全连接层的输入，以第一训练集中训练样本的亲和力数值作为全连接层的输出，以预测值和真实值之间的均方误差作为优选目标，对全连接层进行优化训练，确定全连接层参数；

应用时，若只需得到多肽与HLA I型之间的结合关系，将待预测的多肽-HLA I型序列输入至分类模型中，经计算获得多肽与HLA I型之间的预测结合关系；若想得到具体的亲和力数值，将待预测的多肽-HLA I型序列输入至回归模型和分类模型中，经计算获得多肽与HLAI型之间的预测亲和力数值和多肽与HLA I型之间的预测结合关系，并将该预测亲和力和预测结合关系输入至训练好的全连接层中，输出最终的多肽与HLA I型之间的预测亲和力数值。

4.如权利要求3所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，其特征在于，所述全连接层为由20个神经元组成的单层神经网络。

5.如权利要求1～4任一项所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，其特征在于，所述多肽-HLA I型序列由多肽和HLA I型分子顺序连接而成，若序列长度小于49，则在连接后的序列后面添加虚拟氨基酸‘X’，使序列长度达到49。

6.如权利要求5所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，其特征在于，采用PSSM、稀疏编码或word2vec对多肽-HLA I型序列中氨基酸进行向量表示，获得能够直接输入至基础网络的训练样本。

7.如权利要求3所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，其特征在于，回归模型输出的由0～1之间的小数，经预设的映射关系形成具体的预测亲和力数值；