CN112071361B - 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 - Google Patents
基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 Download PDFInfo
- Publication number
- CN112071361B CN112071361B CN202010282222.2A CN202010282222A CN112071361B CN 112071361 B CN112071361 B CN 112071361B CN 202010282222 A CN202010282222 A CN 202010282222A CN 112071361 B CN112071361 B CN 112071361B
- Authority
- CN
- China
- Prior art keywords
- polypeptide
- immunogenicity
- self
- tcr
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 59
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 58
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 58
- 230000005847 immunogenicity Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims abstract description 8
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 14
- 206010028980 Neoplasm Diseases 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 238000010200 validation analysis Methods 0.000 claims description 6
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 claims description 5
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 claims description 5
- 238000013136 deep learning model Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 2
- 229960005486 vaccine Drugs 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 27
- 239000013598 vector Substances 0.000 description 16
- 108091008874 T cell receptors Proteins 0.000 description 13
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 13
- 150000001413 amino acids Chemical class 0.000 description 11
- 230000035772 mutation Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 239000000427 antigen Substances 0.000 description 7
- 108091007433 antigens Proteins 0.000 description 7
- 102000036639 antigens Human genes 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 7
- 230000028993 immune response Effects 0.000 description 7
- 108700028369 Alleles Proteins 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 210000001744 T-lymphocyte Anatomy 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000036039 immunity Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 206010069754 Acquired gene mutation Diseases 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 102000011786 HLA-A Antigens Human genes 0.000 description 2
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 2
- 108091092724 Noncoding DNA Proteins 0.000 description 2
- 108700009124 Transcription Initiation Site Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 229940125644 antibody drug Drugs 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 231100000221 frame shift mutation induction Toxicity 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000001900 immune effect Effects 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000037439 somatic mutation Effects 0.000 description 2
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 108010075704 HLA-A Antigens Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 102000004245 Proteasome Endopeptidase Complex Human genes 0.000 description 1
- 108090000708 Proteasome Endopeptidase Complex Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000002619 cancer immunotherapy Methods 0.000 description 1
- 229940022399 cancer vaccine Drugs 0.000 description 1
- 238000009566 cancer vaccine Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000002443 helper t lymphocyte Anatomy 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000008105 immune reaction Effects 0.000 description 1
- 230000002163 immunogen Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 229940021747 therapeutic vaccine Drugs 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Medicinal Chemistry (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种基于Bi‑LSTM与Self‑Attention的多肽TCR免疫原性预测方法,使用双向长短期记忆神经网络框架配合自注意机制,训练用于预测多肽TCR免疫原性的深度神经网络模型,并将训练得到的深度神经网络模型用于多肽序列的免疫原性预测。本发明基于双向长短期记忆网络与自注意力机制的免疫原性预测方法,利用该算法进行预测的准确性和适用范围就会得到很大的提高。
Description
技术领域
本发明涉及生物信息学研究领域,具体涉及预测单肽或多肽如肿瘤相关新抗原是否具有被T细胞受体(T cell receptor,后面简写为TCR)识别并结合能力的方法。本发明的方法适用于优化抗体和重组蛋白类药物的设计;也适用于为肿瘤患者提供个性化的癌症疫苗的设计。
背景技术
免疫(Immunity)是人体的一种生理功能,人体依靠这种功能识别体内自身与非自身的物质,并通过免疫应答(Immune response)来破坏和排除进入人体的异物(如病菌、病毒等)或人体本身所产生的损伤细胞和肿瘤细胞等,以维持人体的健康。通常来说,人们把能诱导人体发生免疫应答的物质称为抗原 (Antigen),把由于抗原的刺激而产生,可与相应抗原发生特异性结合反应,具有保护作用的蛋白质称为抗体(Antibody)。
免疫原性(Immunogenicity)是指能引起免疫应答的性能。进入到人体的抗原能刺激特定的免疫细胞(如T淋巴细胞(T lymphocyte)),使其发生活化 (Activation)、增殖(Growth)、分化(Differentiation),最终产生抗体和致敏淋巴细胞(Primed lymphocyte),并发生免疫反应。
抗抗体(Anti-Antibody)的产生是导致抗体药物和重组蛋白药物效率降低的重要因素,而T helper细胞是辅助抗抗体产生的重要介导因子。预测抗体和重组蛋白药物上的T细胞抗原表位可以辅助抗体药物和重组蛋白药物的设计,从而降低抗抗体产生的概率。
基于癌细胞的复杂性以及癌症患者的个体差异性,对每位患者具有特异性突变的肿瘤量身设计个性化治疗疫苗是治疗和抵抗癌症的重要方法,然而并非癌症表达的每个突变都可被用作疫苗的靶标。事实上,只有极少数癌症的体细胞突变会导致免疫应答,因此判断哪种突变可能具有免疫原性是癌症免疫治疗的关键目标。
从生物学的角度来看,为了使癌症的体细胞突变产生免疫应答,需要满足一些标准:
1)癌症体细胞应当表达包含有突变的等位基因,所述突变可能位于蛋白质编码区(Coding region)以及蛋白质非编码区(Noncoding region)。编码区中出现的突变可能是同义突变(Synonymous mutation)或非同义突变 (Non-synonymous mutation)。突变还可来自于转录过程中出现的的可变剪接 (Alternativesplicing),可变转录起始位点(Alternative transcription start site)以及移码突变(Frameshiftmutation)等。
2)翻译以后的蛋白质应当被蛋白酶体剪切。
3)含有所述突变的表位(Epitope)应当被主要组织相容性复合体(Majorhistocompatibility complex,后面简写为MHC)呈递,呈递的表位应当被TCR 识别,最后由MHC分子、抗原多肽和TCR分子组成的TCR-pMHC复合体应当启动激活T淋巴细胞的信号级联。
目前已有的针对该问题的算法或软件有:NetTCR、Repitope等。
NetTCR软件针对MHC-1等位基因HLA-A*02:01。以IEDB和MIRA数据库中的多肽序列数据集和TCR的CDR3区beta链序列为正样本数据集,另外通过创建TCR和多肽的内部错误组合(即将TCR序列与不同于其同源靶标的多肽组合)来生成负样本数据集,然后合并正、负样本组合成样本数据集作为输入,使用卷积神经网络(Convolutional Neural Networks)进行模型训练。由于软件仅针对MHC-1等位基因HLA-A*02:01进行训练和预测,因此对其他MHC等位基因没有很好的预测准确率,仅适用于部分癌症患者。
Repitope仅使用超随机树(Extra random tree)机器学习算法进行模型训练,经检验该模型具有过拟合的现象,对于外部数据集的预测准确率偏低,预测效果有限。
发明内容
本发明提出一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,解决了现有技术中预测准确率低的问题。
本发明的技术方案是这样实现的:
一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,使用双向长短期记忆神经网络框架配合自注意机制,训练用于预测多肽TCR免疫原性的深度神经网络模型,并将训练得到的深度神经网络模型用于多肽序列的免疫原性预测。
作为本发明的一个优选实施例,使用双向长短期记忆神经网络框架配合自注意机制,训练用于预测多肽TCR免疫原性的深度神经网络模型,具体包括以下步骤:
获取用于模型训练的相关数据集;
对数据集进行编码,并将编码后的数据集划分为训练集和验证集;
将训练集和验证集输入基于Bi-LSTM与Self-Attention技术的深度学习模型,对模型进行训练和测试;
将另外独立收集的数据集作为测试集,输入训练和测试后的深度学习模型进行免疫原性的预测。
作为本发明的一个优选实施例,用于模型训练的相关数据集为多肽序列与对应的MHC类型的免疫原性的数据集。
作为本发明的一个优选实施例,根据多肽序列的同源性对训练集和验证集进行数量调整,将多肽序列及与其具有同源性多肽序列统一划分为训练集或验证集。
作为本发明的一个优选实施例,通过独热编码方式分别对训练集和验证集中的多肽序列进行编码,将多肽序列转换为词嵌入矩阵。
本发明的有益效果在于:基于双向长短期记忆网络(Bi-direction long shortterm memory,后面简写为Bi-LSTM)与自注意力机制(Self-Attention)的免疫原性预测方法,利用该算法进行预测的准确性和适用范围就会得到很大的提高。
附图说明
图1为本发明中独热编码示例图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,包括以下步骤:
(1)收集数据集
根据文献Quantitative Prediction of the Landscape of T Cell EpitopeImmunogenicity in Sequence Space.Masato Ogishi,Hiroshi Yotsuyanagi.H.Frontiersin immunology.Doi:10.3389/fimmu.2019.00827中公开的样本数据集作为训练集(Training set)和验证集(Validation set),通过文献检索获得的其他样本数据集作为测试集(Test set)。数据集包含如下部分:
表1公开数据集的基本关系模式
需要进一步解释的是表格中Immunogenicity列和 Immunogenicity_Contradiction列之间的关系。只要有文献报道某种类型的抗原序列与相应的MHC之间能够发生免疫效应,那么表格中Immunogenicity列的值就设为Positive,否则则设为Negative。如果有多篇文献报道这一对抗原序列和 MHC之间的免疫反应,则根据报道的情况不同将Immunogenicity_Contradiction列分为True和False。当所有的文献报道均有发生免疫反应时,设置为False,表示报道之间没有发生冲突,否则设置为True,代表报道之间发生冲突。因此综合来看,所有数据只会有“Positive True”、“Positive False”和“NegativeTrue” 3种状态,没有“Negative False”状态。
依据MHC类型(MHC Type)的不同将数据集分为两个部分,分别是MHC-I 和MHC-II,分别进行训练和预测。
(2)对数据进行预处理
实验过程主要分为两个部分。第一个部分为(1)中公开数据集拆分成训练集(Training set)和验证集(Validation Set)进行基准(Baseline)测试,第二个部分为使用(1)中所有的数据作为训练集(Training set),再使用独立收集的数据集作为测试集(Testset)。不管是哪个内容都必须要完成的一个工作是保证不要发生数据泄露,均会使得测试的结果偏高。具体来讲,就是要保证如下等式成立:
为了保证第一个式子成立,只需要去除整个公开数据集中重复的数据即可。为了保证第二个式子成立,只需要将收集到测试集数据在训练集数据中查询,如果在训练集中出现,则不使用这条数据作为测试,如果没有在训练集中出现,则使用这条数据作为测试。
下面将依据上述所说的两个部分,分别详细描述各自的数据处理流程。
第一个部分中为了完成基准测试,需要将公开数据集分成训练集和验证集,这里设定划分的比例为0.9,即训练集:验证集=9:1,但实际操作的时候需要根据划分到的多肽序列的同源性(Homology)进行数量上的微小调整,以减小因多肽序列同源性带来的结果偏高的影响。具体的说,如果某条多肽序列被划分到训练集中,则与该多肽序列可能的同源性序列都会被纳入到训练集中,同理于验证集。因此每次实验中实际的划分比例会略有不同,但大约维持在9:1左右。
多肽序列的同源性是指两种蛋白质分子的多肽序列之间的相似程度。本质上说,是由于进化上或者个体发育上的共同来源而呈现的本质上的相似性,但其表达的功能不一定相同。为了检测上述的同源性,常用的软件或者方法包含有Blast和CD-HIT,本发明使用了第二种方法。CD-HIT是一种广泛用于聚集和比对多肽序列或核苷酸序列的程序。针对本实验来说,本申请设定了相似性参数(clustering threshold)为0.8,代表相似性大于80%的为一类。
第二个部分中,本发明使用了CD-HIT对训练集和测试集完成了去除重复性及区分同源性的工作。
最后,根据数据集中Immunogenicity列的不同属性值,将Positive设置为标签“1”,将Negative设置为标签“0”。至此,问题转化为:针对不同的多肽序列,是否能与对应类型的MHC发生可能的免疫效应,如果可以发生,则为“1”,如果不能发生,则为“0”,变成了一个二分类问题。问题的输入为不同的多肽序列,输出为标签“1”或者标签“0”。
(3)数据编码
输入到Bi-LSTM模型的多肽序列需要经过数字编码,本发明使用的是独热编码(One-Hot Encoding),这种编码类型需要一个词典作为索引。由于本实验基于的大部分多肽序列都来源于人体,因此本发明使用了组成人体的20种氨基酸作为基础单词。在此基础上,为了填充长度不一样的序列为相同长度,使用了“<pad>”字符作为补充单词,并置于多肽序列的后方,如果出现了非上述提到20种的氨基酸,则使用“<unk>”字符作为补充单词,再根据数据集的统计,依据每种氨基酸出现的频数调整数字编码的先后顺序,完整的数字编码情况见
表2。
表2 20种氨基酸及对应数字编码,补充字符数字编码
对氨基酸进行编码以后,独热编码下一步会将每个氨基酸对应的正整数序列转化为一个向量,其维度为词典的大小,在本实验中为22,对应于位置0至位置21,再根据氨基酸的正整数编码在相应的位置上设置值“1”,其他位置设置值“0”。因此,如果设某个多肽序列的长度为L0,经过等长的填充以后变成长度为L的序列,再经过独热编码以后,最终变为一个L×22的矩阵。在本实验中,填充的等长长度设置为L=32。
图1为本发明独热编码示例图。(为展示方便这里假设填充的等长长度L=8)
总的来说,经过独热编码后,多肽序列转换为词嵌入(Word embedding)矩阵S。
S=(w1,w2,...,wL)T #(3)
其中每个wi是一个d维行向量,对应一个独热向量,于是词嵌入矩阵S的维度就是L×d。
(4)构建模型
为了获得每条多肽序列中氨基酸与氨基酸之间的一些相关性,将词嵌入矩阵S输入到Bi-LSTM之中,获得两个方向的隐藏状态(Hiddenstate)。
其中t表示时刻。
下一步则将和/>拼接起来形成t时刻的隐藏状态ht,即/>如果设 LSTM每个方向上的隐藏单元(Hidden unit)的数目为u,那么ht的维度就是1×2u,再将所有的时刻拼接起来,得到隐藏状态矩阵H。
H=(h1,h2,...,hL)T #(6)
其中,H的维度是L×2u。
接下来,为了寻找可能与MHC结合的多肽序列,本发明假设是因为序列当中存在某些特定的区域,使得这条序列更加容易与MHC结合,因此需要模型重点关注每一条多肽序列的部分区域,为此本发明使用了自注意力机制,能够针对多肽的不同区域赋予不同的权重值,如果权重值较大,说明这部分区域需要被模型重点关注,反之则是不太需要被模型重点关注。自注意力机制需要将整个Bi-LSTM的隐藏状态矩阵H作为输入,然后按照以下的公式得到自注意力的权重值:
a=softmax(w2tanh(W1HT)) #(7)
H进行转置变为HT以后,维度变成2u×L,而W1是一个可训练的权重矩阵,维度为da×2u,w2是一个可训练的权重向量,维度为1×da,而da是模型的一个超参数,公式当中所有的相乘均为矩阵乘法。
经过公式(7)的计算以后,输出的向量a的维度是1×L,恰好与H的第一个维度相同,softmax函数则保证了向量a的所有分量的求和等于1。根据矩阵左乘的意义,W1HT相当于对HT的每一列左乘W1以后再进行拼接,而HT的每一列恰好相当于多肽序列中每个位置的氨基酸的隐藏状态向量h,所以W1相当于隐藏状态向量的权重矩阵。经过激活函数tanh以后,再左乘向量w2,将模型重点关注的地方的权重映射为可以用于评估的一维实数。注意到公式(7)的计算只能让模型重点关注一个特定区域的序列,而通常一条多肽序列可能有多个区域能与MHC结合,因此这里将向量w2扩充称为矩阵W2,维度为r×da,r也是模型的一个超参数,这样子,公式(7)就变为:
A=softmax(W2tanh(W1HT)) #(8)
其中只有矩阵W2的维度变为r×da,输出矩阵A的维度变为r×L,其他维度不发生改变。这样子,模型就可以从只关注1个区域变成关注r个区域。
最后一步,将输出的矩阵A左乘隐藏状态矩阵H,得到带权重的隐藏状态矩阵,即
M=AH #(9)
其中矩阵M的维度为r×2u,然后将矩阵M与全连接层相连接并进入决策函数。
(5)模型正则化与模型参数
前面所讲的矩阵A可以为隐藏状态矩阵H提供r组权重值,但如果权重值之间比较相类似的话,那么通过注意力机制获得的词嵌入矩阵M就会显得冗余。因此在模型训练的过程中要考虑增加正则化项以便于区分开不同组的注意力机制,尽可能减少不同组的注意力机制关注同一片特定区域的概率。具体来说,由于矩阵A的维度为r×L,那么如果要区分开不同组的注意力机制,就要使得A中每一个行向量(维度为1×L)之间的距离尽可能的大。由于Softmax函数的限制,可以将每一个行向量理解为一个离散型的概率分布。正则化项公式定义为
P=(||AAT-I||F)2 #(10)
其中,I是指r阶单位矩阵,F-范数是Frobenius范数,数学的定义为矩阵P中所有元素的绝对值的平方和。
考虑A中任意两个不同的行向量ai和aj,那么矩阵AAT中的对应的元素aij满足以下公式:
可知0≤aij≤1。如果i=j,那么aij在AAT的对角线上,再与单位矩阵做差值变成aij-1。优化正则化项意味着让aij-1趋近于0,也就是让aij趋近于1。极端情况下,如果aij=1,那么由于softmax函数的限制,矩阵A中第i行的其他元素均为0,于是这个行向量就会将注意力机制放在多肽序列中第i位的氨基酸上,而不关注其他位置的氨基酸。因此在正则化项的优化过程中,每一个行向量ai重点关注多肽序列中第i个氨基酸的位置,于是不同的行向量(或者说概率分布)之间就得以区分。
模型中主要关注的是如下的几个超参数,其他参数可参考实际代码。
表3模型主要调整的超参数
(6)模型性能评估
本发明模型评估所使用的指标包含有2个。第1个指标为模型预测的准确性(Accuracy,后面简写为ACC),也就是模型预测分类正确的个数占所有样本的个数的百分比。第2个指标为接受者操作特性曲线(receiver operating characteristic curve,后面简写为ROC)下与坐标轴围成的区域的面积(Area under curve,后面简写为AUC),根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)(True Positive Rate)为纵坐标,假阳性率(1-特异性)(False Positive Rate)为横坐标绘制的曲线。真阳性率是指学习器预测分类为正类,且事实上该样本也为正类的概率,也称为正类召回率。假阳性率是指学习器预测分类为负类,但事实上该样本为正类的概率。因此,AUC的数值可以衡量学习器优劣的一种重要的性能指标,值越大的时候代表学习器的分类性能越好。
二分类任务常用的损失函数为交叉熵损失函数,其具体的公式为
其中,y为样本的真实标签,即0或者1,而是由模型预测出来的一个在(0,1)之间的结果。再将所有样本的损失进行求和,得到一个汇总的交叉熵损失函数。
本发明提供基于双向长短期记忆网络(Bi-LSTM)与自注意力机制 (Self-Attention)的免疫原性预测方法,由于使用非单一MHC等位基因的数据集,该方法中算法的准确性和适用范围就会得到很大的提高。本发明使用深度学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律。本发明针对所有MHC等位基因皆可预测其结合的多肽的免疫原性,具有更广泛的适用性。本发明相较于已有的同类预测软件NetTCR、Repitope,预测所使用的时间要大大减少,便于使用者更为快速的获得预测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,其特征在于,使用双向长短期记忆神经网络框架配合自注意机制,训练用于预测多肽TCR免疫原性的深度神经网络模型,并将训练得到的深度神经网络模型用于多肽序列的免疫原性预测;
其中,使用双向长短期记忆神经网络框架配合自注意机制,训练用于预测多肽 TCR免疫原性的深度神经网络模型,具体包括以下步骤:
S1.获取用于模型训练的相关数据集;
S2.对数据集进行编码,并将编码后的数据集划分为训练集和验证集,根据多肽序列的同源性进行数量调整;
S3.将训练集和验证集输入基于Bi-LSTM与Self-Attention技术的深度学习模型,对模型进行训练和测试;
S4.将另外独立收集的数据集作为测试集,输入训练和测试后的深度学习模型进行免疫原性的预测。
2.根据权利要求1所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,其特征在于,用于模型训练的相关数据集为多肽序列与对应的MHC类型的免疫原性的数据集。
3.根据权利要求2所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,其特征在于,根据多肽序列的同源性对训练集和验证集进行数量调整,将多肽序列及与其具有同源性多肽序列统一划分为训练集或验证集。
4.根据权利要求3所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,其特征在于,通过独热编码方式分别对训练集和验证集中的多肽序列进行编码,将多肽序列转换为词嵌入矩阵。
5.根据权利要求1所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,其特征在于:用于优化抗体和重组蛋白药物的设计。
6.根据权利要求1所述的基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法,其特征在于:用于个性化肿瘤疫苗的设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282222.2A CN112071361B (zh) | 2020-04-11 | 2020-04-11 | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282222.2A CN112071361B (zh) | 2020-04-11 | 2020-04-11 | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112071361A CN112071361A (zh) | 2020-12-11 |
CN112071361B true CN112071361B (zh) | 2024-05-24 |
Family
ID=73657934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010282222.2A Active CN112071361B (zh) | 2020-04-11 | 2020-04-11 | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112071361B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230253068A1 (en) * | 2022-02-09 | 2023-08-10 | Nec Laboratories America, Inc. | T-cell receptor optimization with reinforcement learning and mutation policies for precision immunotherapy |
CN114242159B (zh) * | 2022-02-24 | 2022-06-07 | 北京晶泰科技有限公司 | 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置 |
CN114783521A (zh) * | 2022-03-21 | 2022-07-22 | 中国科学院深圳理工大学(筹) | 生成活性肽段的方法、装置、设备及存储介质 |
CN115458049B (zh) * | 2022-06-29 | 2023-07-25 | 四川大学 | 基于双向循环神经网络的普适性抗瓜氨酸化多肽抗体表位预测方法及装置 |
CN116913383B (zh) * | 2023-09-13 | 2023-11-28 | 鲁东大学 | 一种基于多模态的t细胞受体序列分类方法 |
CN117095825B (zh) * | 2023-10-20 | 2024-01-05 | 鲁东大学 | 一种基于多实例学习的人体免疫状态预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671469A (zh) * | 2018-12-11 | 2019-04-23 | 浙江大学 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
CN109783618A (zh) * | 2018-12-11 | 2019-05-21 | 北京大学 | 基于注意力机制神经网络的药物实体关系抽取方法及系统 |
WO2020046587A2 (en) * | 2018-08-20 | 2020-03-05 | Nantomice, Llc | Methods and systems for improved major histocompatibility complex (mhc)-peptide binding prediction of neoepitopes using a recurrent neural network encoder and attention weighting |
WO2020058174A1 (en) * | 2018-09-21 | 2020-03-26 | Deepmind Technologies Limited | Machine learning for determining protein structures |
-
2020
- 2020-04-11 CN CN202010282222.2A patent/CN112071361B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020046587A2 (en) * | 2018-08-20 | 2020-03-05 | Nantomice, Llc | Methods and systems for improved major histocompatibility complex (mhc)-peptide binding prediction of neoepitopes using a recurrent neural network encoder and attention weighting |
CN112912960A (zh) * | 2018-08-20 | 2021-06-04 | 南托米克斯有限责任公司 | 使用递归神经网络编码器和注意力加权来改进对新表位的主要组织相容性复合物(mhc)-肽结合预测的方法和系统 |
WO2020058174A1 (en) * | 2018-09-21 | 2020-03-26 | Deepmind Technologies Limited | Machine learning for determining protein structures |
CN109671469A (zh) * | 2018-12-11 | 2019-04-23 | 浙江大学 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
CN109783618A (zh) * | 2018-12-11 | 2019-05-21 | 北京大学 | 基于注意力机制神经网络的药物实体关系抽取方法及系统 |
Non-Patent Citations (2)
Title |
---|
A Dual-input Framework Incorporating the Attention Mechanism for Accurately Predicting TCR-peptide Binding;Xu, Y等;FRONTIERS IN GENETICS;20220822;第13卷;文献号942491 * |
实体―属性抽取的GRU+CRF方法;王仁武;孟现茹;孔琦;;现代情报;20181015(10);第59-66页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112071361A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112071361B (zh) | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 | |
JP7459159B2 (ja) | Mhcペプチド結合予測のためのgan-cnn | |
Widrich et al. | Modern hopfield networks and attention for immune repertoire classification | |
CN111105843B (zh) | 一种hlai型分子与多肽的亲和力预测方法 | |
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
JP2023534283A (ja) | ペプチドの結合、提示及び免疫原性を予測するための注意ベースのニューラルネットワーク | |
WO2022095167A1 (zh) | 剂量确定方法及装置 | |
CN110060738B (zh) | 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统 | |
US20240257902A1 (en) | Antigen prediction method and apparatus, device, and storage medium | |
CN117012281A (zh) | 抗原特异性确定方法、装置、设备及存储介质 | |
CN113807468B (zh) | 基于多模态深度编码的hla抗原呈递预测方法和系统 | |
CN116130005B (zh) | 多表位疫苗的串联设计方法及装置、设备、存储介质 | |
Charoenkwan et al. | StackTTCA: a stacking ensemble learning-based framework for accurate and high-throughput identification of tumor T cell antigens | |
CN116597903A (zh) | 人源TCR/HLA-I/Peptide三元复合物交互识别预测方法及系统 | |
Wu et al. | TPBTE: A model based on convolutional Transformer for predicting the binding of TCR to epitope | |
US20240153591A1 (en) | Method for predicting t cell activity of peptide-mhc, and analysis device | |
McIlwain et al. | Ranking antibody binding epitopes and proteins across samples from whole proteome tiled linear peptides | |
EP4182928B1 (en) | Method, system and computer program product for determining presentation likelihoods of neoantigens | |
KR20220167245A (ko) | 인공지능을 활용한 개체 및 계통 특이적 분류 변이 및 마커 선정 방법 및 시스템 | |
Gao et al. | Neo-epitope identification by weakly-supervised peptide-TCR binding prediction | |
CN117690495A (zh) | 一种肿瘤新抗原预测方法、系统、电子设备及存储介质 | |
Bist et al. | Identification Of Sars-cov-2 Viral Escape Sequences Using Escapetrans Network | |
Liu et al. | A Deep Learning Approach for NeoAG-Specific Prediction Considering Both HLA-Peptide Binding and Immunogenicity: Finding Neoantigens to Making T-Cell Products More Personal | |
CN117198405A (zh) | 基于监督对比学习的可解释mhc-ii肽结合亲和力预测方法 | |
CN113762416A (zh) | 基于多模态深度编码的抗原免疫原性预测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |