CN112071361B

CN112071361B - 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法

Info

Publication number: CN112071361B
Application number: CN202010282222.2A
Authority: CN
Inventors: 陈健文; 鲁靖; 郑双佳; 王鲁泉
Original assignee: Xinhua Bio Pharmaceutical Guangzhou Co ltd
Current assignee: Xinhua Bio Pharmaceutical Guangzhou Co ltd
Priority date: 2020-04-11
Filing date: 2020-04-11
Publication date: 2024-05-24
Anticipated expiration: 2040-04-11
Also published as: CN112071361A

Abstract

本发明公开了一种基于Bi‑LSTM与Self‑Attention的多肽TCR免疫原性预测方法，使用双向长短期记忆神经网络框架配合自注意机制，训练用于预测多肽TCR免疫原性的深度神经网络模型，并将训练得到的深度神经网络模型用于多肽序列的免疫原性预测。本发明基于双向长短期记忆网络与自注意力机制的免疫原性预测方法，利用该算法进行预测的准确性和适用范围就会得到很大的提高。

Description

基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法

技术领域

本发明涉及生物信息学研究领域，具体涉及预测单肽或多肽如肿瘤相关新抗原是否具有被T细胞受体(T cell receptor，后面简写为TCR)识别并结合能力的方法。本发明的方法适用于优化抗体和重组蛋白类药物的设计；也适用于为肿瘤患者提供个性化的癌症疫苗的设计。

背景技术

免疫(Immunity)是人体的一种生理功能，人体依靠这种功能识别体内自身与非自身的物质，并通过免疫应答(Immune response)来破坏和排除进入人体的异物(如病菌、病毒等)或人体本身所产生的损伤细胞和肿瘤细胞等，以维持人体的健康。通常来说，人们把能诱导人体发生免疫应答的物质称为抗原 (Antigen)，把由于抗原的刺激而产生，可与相应抗原发生特异性结合反应，具有保护作用的蛋白质称为抗体(Antibody)。

免疫原性(Immunogenicity)是指能引起免疫应答的性能。进入到人体的抗原能刺激特定的免疫细胞(如T淋巴细胞(T lymphocyte))，使其发生活化 (Activation)、增殖(Growth)、分化(Differentiation)，最终产生抗体和致敏淋巴细胞(Primed lymphocyte)，并发生免疫反应。

抗抗体(Anti-Antibody)的产生是导致抗体药物和重组蛋白药物效率降低的重要因素，而T helper细胞是辅助抗抗体产生的重要介导因子。预测抗体和重组蛋白药物上的T细胞抗原表位可以辅助抗体药物和重组蛋白药物的设计，从而降低抗抗体产生的概率。

基于癌细胞的复杂性以及癌症患者的个体差异性，对每位患者具有特异性突变的肿瘤量身设计个性化治疗疫苗是治疗和抵抗癌症的重要方法，然而并非癌症表达的每个突变都可被用作疫苗的靶标。事实上，只有极少数癌症的体细胞突变会导致免疫应答，因此判断哪种突变可能具有免疫原性是癌症免疫治疗的关键目标。

从生物学的角度来看，为了使癌症的体细胞突变产生免疫应答，需要满足一些标准：

1)癌症体细胞应当表达包含有突变的等位基因，所述突变可能位于蛋白质编码区(Coding region)以及蛋白质非编码区(Noncoding region)。编码区中出现的突变可能是同义突变(Synonymous mutation)或非同义突变 (Non-synonymous mutation)。突变还可来自于转录过程中出现的的可变剪接 (Alternativesplicing)，可变转录起始位点(Alternative transcription start site)以及移码突变(Frameshiftmutation)等。

2)翻译以后的蛋白质应当被蛋白酶体剪切。

3)含有所述突变的表位(Epitope)应当被主要组织相容性复合体(Majorhistocompatibility complex，后面简写为MHC)呈递，呈递的表位应当被TCR 识别，最后由MHC分子、抗原多肽和TCR分子组成的TCR-pMHC复合体应当启动激活T淋巴细胞的信号级联。

目前已有的针对该问题的算法或软件有：NetTCR、Repitope等。

NetTCR软件针对MHC-1等位基因HLA-A*02:01。以IEDB和MIRA数据库中的多肽序列数据集和TCR的CDR3区beta链序列为正样本数据集，另外通过创建TCR和多肽的内部错误组合(即将TCR序列与不同于其同源靶标的多肽组合)来生成负样本数据集，然后合并正、负样本组合成样本数据集作为输入，使用卷积神经网络(Convolutional Neural Networks)进行模型训练。由于软件仅针对MHC-1等位基因HLA-A*02:01进行训练和预测，因此对其他MHC等位基因没有很好的预测准确率，仅适用于部分癌症患者。

Repitope仅使用超随机树(Extra random tree)机器学习算法进行模型训练，经检验该模型具有过拟合的现象，对于外部数据集的预测准确率偏低，预测效果有限。

发明内容

本发明提出一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，解决了现有技术中预测准确率低的问题。

本发明的技术方案是这样实现的：

一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，使用双向长短期记忆神经网络框架配合自注意机制，训练用于预测多肽TCR免疫原性的深度神经网络模型，并将训练得到的深度神经网络模型用于多肽序列的免疫原性预测。

作为本发明的一个优选实施例，使用双向长短期记忆神经网络框架配合自注意机制，训练用于预测多肽TCR免疫原性的深度神经网络模型，具体包括以下步骤：

获取用于模型训练的相关数据集；

对数据集进行编码，并将编码后的数据集划分为训练集和验证集；

将训练集和验证集输入基于Bi-LSTM与Self-Attention技术的深度学习模型，对模型进行训练和测试；

将另外独立收集的数据集作为测试集，输入训练和测试后的深度学习模型进行免疫原性的预测。

作为本发明的一个优选实施例，用于模型训练的相关数据集为多肽序列与对应的MHC类型的免疫原性的数据集。

作为本发明的一个优选实施例，根据多肽序列的同源性对训练集和验证集进行数量调整，将多肽序列及与其具有同源性多肽序列统一划分为训练集或验证集。

作为本发明的一个优选实施例，通过独热编码方式分别对训练集和验证集中的多肽序列进行编码，将多肽序列转换为词嵌入矩阵。

本发明的有益效果在于：基于双向长短期记忆网络(Bi-direction long shortterm memory，后面简写为Bi-LSTM)与自注意力机制(Self-Attention)的免疫原性预测方法，利用该算法进行预测的准确性和适用范围就会得到很大的提高。

附图说明

图1为本发明中独热编码示例图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，包括以下步骤：

(1)收集数据集

根据文献Quantitative Prediction of the Landscape of T Cell EpitopeImmunogenicity in Sequence Space.Masato Ogishi,Hiroshi Yotsuyanagi.H.Frontiersin immunology.Doi:10.3389/fimmu.2019.00827中公开的样本数据集作为训练集(Training set)和验证集(Validation set)，通过文献检索获得的其他样本数据集作为测试集(Test set)。数据集包含如下部分：

表1公开数据集的基本关系模式

需要进一步解释的是表格中Immunogenicity列和 Immunogenicity_Contradiction列之间的关系。只要有文献报道某种类型的抗原序列与相应的MHC之间能够发生免疫效应，那么表格中Immunogenicity列的值就设为Positive，否则则设为Negative。如果有多篇文献报道这一对抗原序列和 MHC之间的免疫反应，则根据报道的情况不同将Immunogenicity_Contradiction列分为True和False。当所有的文献报道均有发生免疫反应时，设置为False，表示报道之间没有发生冲突，否则设置为True，代表报道之间发生冲突。因此综合来看，所有数据只会有“Positive True”、“Positive False”和“NegativeTrue” 3种状态，没有“Negative False”状态。

依据MHC类型(MHC Type)的不同将数据集分为两个部分，分别是MHC-I 和MHC-II，分别进行训练和预测。

(2)对数据进行预处理

实验过程主要分为两个部分。第一个部分为(1)中公开数据集拆分成训练集(Training set)和验证集(Validation Set)进行基准(Baseline)测试，第二个部分为使用(1)中所有的数据作为训练集(Training set)，再使用独立收集的数据集作为测试集(Testset)。不管是哪个内容都必须要完成的一个工作是保证不要发生数据泄露，均会使得测试的结果偏高。具体来讲，就是要保证如下等式成立：

为了保证第一个式子成立，只需要去除整个公开数据集中重复的数据即可。为了保证第二个式子成立，只需要将收集到测试集数据在训练集数据中查询，如果在训练集中出现，则不使用这条数据作为测试，如果没有在训练集中出现，则使用这条数据作为测试。

下面将依据上述所说的两个部分，分别详细描述各自的数据处理流程。

第一个部分中为了完成基准测试，需要将公开数据集分成训练集和验证集，这里设定划分的比例为0.9，即训练集：验证集＝9:1，但实际操作的时候需要根据划分到的多肽序列的同源性(Homology)进行数量上的微小调整，以减小因多肽序列同源性带来的结果偏高的影响。具体的说，如果某条多肽序列被划分到训练集中，则与该多肽序列可能的同源性序列都会被纳入到训练集中，同理于验证集。因此每次实验中实际的划分比例会略有不同，但大约维持在9:1左右。

多肽序列的同源性是指两种蛋白质分子的多肽序列之间的相似程度。本质上说，是由于进化上或者个体发育上的共同来源而呈现的本质上的相似性，但其表达的功能不一定相同。为了检测上述的同源性，常用的软件或者方法包含有Blast和CD-HIT，本发明使用了第二种方法。CD-HIT是一种广泛用于聚集和比对多肽序列或核苷酸序列的程序。针对本实验来说，本申请设定了相似性参数(clustering threshold)为0.8，代表相似性大于80％的为一类。

第二个部分中，本发明使用了CD-HIT对训练集和测试集完成了去除重复性及区分同源性的工作。

最后，根据数据集中Immunogenicity列的不同属性值，将Positive设置为标签“1”，将Negative设置为标签“0”。至此，问题转化为：针对不同的多肽序列，是否能与对应类型的MHC发生可能的免疫效应，如果可以发生，则为“1”，如果不能发生，则为“0”，变成了一个二分类问题。问题的输入为不同的多肽序列，输出为标签“1”或者标签“0”。

(3)数据编码

输入到Bi-LSTM模型的多肽序列需要经过数字编码，本发明使用的是独热编码(One-Hot Encoding)，这种编码类型需要一个词典作为索引。由于本实验基于的大部分多肽序列都来源于人体，因此本发明使用了组成人体的20种氨基酸作为基础单词。在此基础上，为了填充长度不一样的序列为相同长度，使用了“<pad>”字符作为补充单词，并置于多肽序列的后方，如果出现了非上述提到20种的氨基酸，则使用“<unk>”字符作为补充单词，再根据数据集的统计，依据每种氨基酸出现的频数调整数字编码的先后顺序，完整的数字编码情况见

表2。

表2 20种氨基酸及对应数字编码，补充字符数字编码

对氨基酸进行编码以后，独热编码下一步会将每个氨基酸对应的正整数序列转化为一个向量，其维度为词典的大小，在本实验中为22，对应于位置0至位置21，再根据氨基酸的正整数编码在相应的位置上设置值“1”，其他位置设置值“0”。因此，如果设某个多肽序列的长度为L₀，经过等长的填充以后变成长度为L的序列，再经过独热编码以后，最终变为一个L×22的矩阵。在本实验中，填充的等长长度设置为L＝32。

图1为本发明独热编码示例图。(为展示方便这里假设填充的等长长度L＝8)

总的来说，经过独热编码后，多肽序列转换为词嵌入(Word embedding)矩阵S。

S＝(w₁，w₂，...，w_L)^T #(3)

其中每个w_i是一个d维行向量，对应一个独热向量，于是词嵌入矩阵S的维度就是L×d。

(4)构建模型

为了获得每条多肽序列中氨基酸与氨基酸之间的一些相关性，将词嵌入矩阵S输入到Bi-LSTM之中，获得两个方向的隐藏状态(Hiddenstate)。

其中t表示时刻。

下一步则将和/>拼接起来形成t时刻的隐藏状态h_t，即/>如果设 LSTM每个方向上的隐藏单元(Hidden unit)的数目为u，那么h_t的维度就是1×2u，再将所有的时刻拼接起来，得到隐藏状态矩阵H。

H＝(h₁，h₂，...，h_L)^T #(6)

其中，H的维度是L×2u。

接下来，为了寻找可能与MHC结合的多肽序列，本发明假设是因为序列当中存在某些特定的区域，使得这条序列更加容易与MHC结合，因此需要模型重点关注每一条多肽序列的部分区域，为此本发明使用了自注意力机制，能够针对多肽的不同区域赋予不同的权重值，如果权重值较大，说明这部分区域需要被模型重点关注，反之则是不太需要被模型重点关注。自注意力机制需要将整个Bi-LSTM的隐藏状态矩阵H作为输入，然后按照以下的公式得到自注意力的权重值：

a＝softmax(w₂tanh(W₁H^T)) #(7)

H进行转置变为H^T以后，维度变成2u×L，而W₁是一个可训练的权重矩阵，维度为d_a×2u，w₂是一个可训练的权重向量，维度为1×d_a，而d_a是模型的一个超参数，公式当中所有的相乘均为矩阵乘法。

经过公式(7)的计算以后，输出的向量a的维度是1×L，恰好与H的第一个维度相同，softmax函数则保证了向量a的所有分量的求和等于1。根据矩阵左乘的意义，W₁H^T相当于对H^T的每一列左乘W₁以后再进行拼接，而H^T的每一列恰好相当于多肽序列中每个位置的氨基酸的隐藏状态向量h，所以W₁相当于隐藏状态向量的权重矩阵。经过激活函数tanh以后，再左乘向量w₂，将模型重点关注的地方的权重映射为可以用于评估的一维实数。注意到公式(7)的计算只能让模型重点关注一个特定区域的序列，而通常一条多肽序列可能有多个区域能与MHC结合，因此这里将向量w₂扩充称为矩阵W₂，维度为r×d_a，r也是模型的一个超参数，这样子，公式(7)就变为：

A＝softmax(W₂tanh(W₁H^T)) #(8)

其中只有矩阵W₂的维度变为r×d_a，输出矩阵A的维度变为r×L，其他维度不发生改变。这样子，模型就可以从只关注1个区域变成关注r个区域。

最后一步，将输出的矩阵A左乘隐藏状态矩阵H，得到带权重的隐藏状态矩阵，即

M＝AH #(9)

其中矩阵M的维度为r×2u，然后将矩阵M与全连接层相连接并进入决策函数。

(5)模型正则化与模型参数

前面所讲的矩阵A可以为隐藏状态矩阵H提供r组权重值，但如果权重值之间比较相类似的话，那么通过注意力机制获得的词嵌入矩阵M就会显得冗余。因此在模型训练的过程中要考虑增加正则化项以便于区分开不同组的注意力机制，尽可能减少不同组的注意力机制关注同一片特定区域的概率。具体来说，由于矩阵A的维度为r×L，那么如果要区分开不同组的注意力机制，就要使得A中每一个行向量(维度为1×L)之间的距离尽可能的大。由于Softmax函数的限制，可以将每一个行向量理解为一个离散型的概率分布。正则化项公式定义为

P＝(||AA^T-I||_F)² #(10)

其中，I是指r阶单位矩阵，F-范数是Frobenius范数，数学的定义为矩阵P中所有元素的绝对值的平方和。

考虑A中任意两个不同的行向量aⁱ和a^j，那么矩阵AA^T中的对应的元素a_ij满足以下公式：

可知0≤a_ij≤1。如果i＝j，那么a_ij在AA^T的对角线上，再与单位矩阵做差值变成a_ij-1。优化正则化项意味着让a_ij-1趋近于0，也就是让a_ij趋近于1。极端情况下，如果a_ij＝1，那么由于softmax函数的限制，矩阵A中第i行的其他元素均为0，于是这个行向量就会将注意力机制放在多肽序列中第i位的氨基酸上，而不关注其他位置的氨基酸。因此在正则化项的优化过程中，每一个行向量aⁱ重点关注多肽序列中第i个氨基酸的位置，于是不同的行向量(或者说概率分布)之间就得以区分。

模型中主要关注的是如下的几个超参数，其他参数可参考实际代码。

表3模型主要调整的超参数

(6)模型性能评估

本发明模型评估所使用的指标包含有2个。第1个指标为模型预测的准确性(Accuracy，后面简写为ACC)，也就是模型预测分类正确的个数占所有样本的个数的百分比。第2个指标为接受者操作特性曲线(receiver operating characteristic curve，后面简写为ROC)下与坐标轴围成的区域的面积(Area under curve，后面简写为AUC)，根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)(True Positive Rate)为纵坐标，假阳性率(1-特异性)(False Positive Rate)为横坐标绘制的曲线。真阳性率是指学习器预测分类为正类，且事实上该样本也为正类的概率，也称为正类召回率。假阳性率是指学习器预测分类为负类，但事实上该样本为正类的概率。因此，AUC的数值可以衡量学习器优劣的一种重要的性能指标，值越大的时候代表学习器的分类性能越好。

二分类任务常用的损失函数为交叉熵损失函数，其具体的公式为

其中，y为样本的真实标签，即0或者1，而是由模型预测出来的一个在(0，1)之间的结果。再将所有样本的损失进行求和，得到一个汇总的交叉熵损失函数。

本发明提供基于双向长短期记忆网络(Bi-LSTM)与自注意力机制 (Self-Attention)的免疫原性预测方法，由于使用非单一MHC等位基因的数据集，该方法中算法的准确性和适用范围就会得到很大的提高。本发明使用深度学习模型，能有效的提取输入信息的特征，包括许多未发现的隐藏特征规律。本发明针对所有MHC等位基因皆可预测其结合的多肽的免疫原性，具有更广泛的适用性。本发明相较于已有的同类预测软件NetTCR、Repitope，预测所使用的时间要大大减少，便于使用者更为快速的获得预测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，其特征在于，使用双向长短期记忆神经网络框架配合自注意机制，训练用于预测多肽TCR免疫原性的深度神经网络模型，并将训练得到的深度神经网络模型用于多肽序列的免疫原性预测；

其中，使用双向长短期记忆神经网络框架配合自注意机制，训练用于预测多肽 TCR免疫原性的深度神经网络模型，具体包括以下步骤：

S1.获取用于模型训练的相关数据集；

S2.对数据集进行编码，并将编码后的数据集划分为训练集和验证集，根据多肽序列的同源性进行数量调整；

S3.将训练集和验证集输入基于Bi-LSTM与Self-Attention技术的深度学习模型，对模型进行训练和测试；

S4.将另外独立收集的数据集作为测试集，输入训练和测试后的深度学习模型进行免疫原性的预测。

2.根据权利要求1所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，其特征在于，用于模型训练的相关数据集为多肽序列与对应的MHC类型的免疫原性的数据集。

3.根据权利要求2所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，其特征在于，根据多肽序列的同源性对训练集和验证集进行数量调整，将多肽序列及与其具有同源性多肽序列统一划分为训练集或验证集。

4.根据权利要求3所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，其特征在于，通过独热编码方式分别对训练集和验证集中的多肽序列进行编码，将多肽序列转换为词嵌入矩阵。

5.根据权利要求1所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，其特征在于：用于优化抗体和重组蛋白药物的设计。

6.根据权利要求1所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法，其特征在于：用于个性化肿瘤疫苗的设计。