CN116469457A - Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 - Google Patents
Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 Download PDFInfo
- Publication number
- CN116469457A CN116469457A CN202310704181.5A CN202310704181A CN116469457A CN 116469457 A CN116469457 A CN 116469457A CN 202310704181 A CN202310704181 A CN 202310704181A CN 116469457 A CN116469457 A CN 116469457A
- Authority
- CN
- China
- Prior art keywords
- mhc
- immunogenicity
- antigen polypeptide
- presentation
- antigen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000427 antigen Substances 0.000 title claims abstract description 129
- 102000036639 antigens Human genes 0.000 title claims abstract description 129
- 108091007433 antigens Proteins 0.000 title claims abstract description 129
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 123
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 123
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 123
- 230000005847 immunogenicity Effects 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 46
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims 1
- 230000028993 immune response Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 3
- 230000007969 cellular immunity Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000000170 cell membrane Anatomy 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 101100204564 Arabidopsis thaliana SYCO gene Proteins 0.000 description 1
- 241000581877 Fiona Species 0.000 description 1
- 238000006008 O'Donnell synthesis reaction Methods 0.000 description 1
- 210000000612 antigen-presenting cell Anatomy 0.000 description 1
- 102000015736 beta 2-Microglobulin Human genes 0.000 description 1
- 108010081355 beta 2-Microglobulin Proteins 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置,属于生物信息及细胞免疫技术领域。本发明构建了抗原多肽分别与MHC‑I及MHC‑II的结合、呈递及免疫原性的多任务学习神经网络模型,能够利用从充足的结合和呈递数据集中学习到的特征来增强对数据量较少的免疫原性的学习,并能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果,从而可以结合此三个免疫应答过程相互依赖的特点,对该抗原‑MHC分子对的重要生物意义产生综合判断。
Description
技术领域
本发明涉及生物信息及细胞免疫技术领域,尤其涉及一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置。
背景技术
来自外来抗原的多肽会被抗原呈递细胞上的主要组织相容性复合体(majorhistocompatibility complex, MHC)结合并呈递至T细胞,从而启动体内的免疫应答。了解何种抗原多肽能够与MHC分子结合、被MHC分子呈递至细胞表面、以及启动T细胞免疫应答反应对调控和利用细胞免疫系统至关重要。
目前已有诸多工具旨在预测抗原多肽与MHC分子的结合性能以及其免疫原性。比如,被广泛应用的NetMHCPan(Reynisson et al., 2020)基于单层神经网络分别预测MHC-I(由一个跨越细胞膜的α链和一个细胞外的β2微球蛋白组成)和MHC-II(由均跨越细胞膜的一个α链和一个β链组成)与相关抗原的结合性能;MHCflurry(O'Donnell et al., 2018)整合了多层前馈神经网络、卷积神经网络、逻辑斯蒂回归,用于预测MHC-I与抗原表位的结合;MixMHCpred(Bassani-Sternberg et al., 2017; Gfeller et al., 2018)利用混合模型和位置权重矩阵提取抗原表位的特征基序,从而预测其与MHC-I的结合性能; ImmunoBERT(Gasser et al., 2021)和BERTMHC(Cheng et al., 2021)均基于TAPE(Tasks AssessingProtein Embeddings)预训练模型,分别用于预测抗原多肽与MHC-I和MHC-II的结合与呈递;TransPHLA(Chu et al., 2022)采用基于Transformer的模型结构,预测抗原与MHC-I的结合;DeepNetBim(Yang et al., 2021)利用卷积神经网络和注意力机制,将抗原多肽与MHC-I的结合及免疫原性预测相结合;FIONA(Xu et al., 2022)基于卷积神经网络分别预测了抗原多肽被MHC-II的呈递及其免疫原性;BigMHC(Albert et al., 2022)基于BiLSTM单元,利用抗原-MHC-I呈递数据集进行训练,并迁移学习至抗原-MHC-I免疫原性数据集。
但是这些工具都存在如下的一些局限:1)受免疫原性数据量的限制,对于抗原多肽免疫原性的预测方法较少;2)由于编码MHC-II的HLA-II等位基因多态性较高,对于MHC-II相关抗原多肽免疫原性的预测比MHC-I相关方法更少且精度有限。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,包括:
获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
优选地,所述预测模型包括自然语言预训练模型和多层感知机分类模型;所述得到MHC与抗原多肽氨基酸序列的嵌入特征表示包括:采用自然语言预训练模型将MHC与抗原多肽氨基酸序列嵌入表示为固定维度的向量,提取出氨基酸序列的嵌入特征表示。
优选地,所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括:基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。
优选地,所述训练数据从IEDB公用数据库获取,根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
优选地,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。
优选地,所述分类预测值的取值范围为[0, 1],划分阴阳性结果的阈值为0.5。
本发明第二方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
预测模块,用于将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
优化模块,用于对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
本发明第三方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测方法,包括:
将MHC与抗原多肽输入到训练好的预测模型中,分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
所述训练好的预测模型为利用第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或第三方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或第三方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
本发明的有益效果是:本发明构建了抗原多肽分别与MHC-I及MHC-II的结合、呈递及免疫原性的多任务学习神经网络模型,能够利用从充足的结合和呈递数据集中学习到的特征来增强对数据量较少的免疫原性的学习,并能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果,从而可以结合此三个免疫应答过程相互依赖的特点,对该抗原-MHC分子对的重要生物意义产生综合判断。
附图说明
图1为本发明所述MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法流程示意图;
图2为本发明所述MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置的功能结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
实施例一
如图1所示,本发明实施例提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,包括:S101,获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;S102,将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;S103,对预测模型进行迭代训练优化,得到训练好的预测模型;其中,MHC为MHC-I或MHC-II。
本发明的目的是构建多任务学习神经网络模型,该模型既能够预测抗原与MHC-I的结合、呈递及免疫原性,还能够预测抗原与MHC-II的结合、呈递及免疫原性,以解决现有技术中MHC-II和抗原多肽免疫原性的预测方法少且精度低的问题;本发明构建的模型能够利用从充足的结合和呈递数据集中学习得到的特征来弥补和增强对数据量较少的免疫原性的学习,解决了免疫原性训练数据量少的问题;另外,采用本发明构建的模型,能够通过该同一模型,同时得到抗原多肽与MHC的结合、呈递及免疫原性预测结果,有利于对该抗原多肽和MHC分子对的重要生物意义进行综合判断。
其中,在步骤S101中,所述训练数据从IEDB(The Immune Epitope Database)公用数据库获取,并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
在本发明的一个优选实施例中,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。本发明构建的预测模型,对于输入的抗原多肽序列及MHC蛋白全长序列,无需进行序列长度以及潜在结合域的额外筛选和编辑处理,使用方法简洁方便,满足多种应用需求。
在步骤S102中,所述预测模型包括自然语言预训练模型和多层感知机分类模型;可以首先采用自然语言预训练模型得到MHC与抗原多肽氨基酸序列的嵌入特征表示。即将训练数据输入至自然语言预训练模型中,输出MHC与抗原多肽氨基酸序列的嵌入特征表示。自然语言处理模型可以基于公开蛋白质数据库进行预训练和精调,将不同长度的蛋白序列表示为固定维度的向量,能够有效提取蛋白序列的特征。
MHC与抗原多肽氨基酸序列的嵌入特征表示可以作为基于多输入、多输出的多层感知机(multilayer perceptron,MLP)分类模型的输入,该MLP模型将抗原多肽与MHC分子的结合、呈递及免疫原性的预测均处理为二分类任务,同时输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;模型输出的预测值取值范围可以为[0, 1],划分阴阳性结果的阈值可以为0.5。
可见,采用本发明构建的预测模型,能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果,从而可以结合此三个免疫应答过程相互依赖的特点,对该抗原-MHC分子对的重要生物意义产生综合判断。
执行步骤S103,得到训练好的预测模型。
在本发明实施例中,获取训练数据时,可以同时获取测试数据,训练数据与测试数据的比例可以按照8:2划分。
采用本发明提供的训练方法得到的训练好的预测模型进行抗原多肽与MHC-I的结合、呈递、免疫原性的预测,在测试数据集上的验证指标AUROC分别为0.9913、0.9927、0.8479;AUPRC分别为0.9940、0.9954、0.8052。采用本发明提供的训练方法得到的训练好的预测模型进行抗原多肽与MHC-II的结合、呈递、免疫原性的预测,在测试数据集上的验证指标AUROC分别为0.9943、0.9946、0.9345;AUPRC分别为0.9964、0.9965、0.9267。
因此,采用本发明提供的方法训练好的预测模型,对于抗原多肽与MHC-I及MHC-II的结合、呈递、免疫原性的预测,都具有非常高的准确度。
实施例二
如图2所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置,包括:训练数据获取模块201,用于获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;预测模块202,用于将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;优化模块203,用于对预测模型进行迭代训练优化,得到训练好的预测模型;其中,MHC为MHC-I或MHC-II。
进一步地,在所述预测模块中,所述预测模型包括自然语言预训练模型和多层感知机分类模型;所述得到MHC与抗原多肽氨基酸序列的嵌入特征表示包括:采用自然语言预训练模型将MHC与抗原多肽的氨基酸序列嵌入表示为固定维度的向量,并提取出氨基酸序列的嵌入特征表示。
进一步地,在所述预测模块中,所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括:基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。
进一步地,在所述训练数据获取模块中,所述训练数据从IEDB公用数据库获取,并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
更进一步地,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。
其中,所述分类预测值的取值范围为[0, 1],划分阴阳性结果的阈值为0.5。
该装置可通过上述实施例一提供的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
实施例三
本发明实施例提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测方法,包括:将MHC与抗原多肽输入到训练好的预测模型中,分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;所述训练好的预测模型为利用实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。具体的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法可参阅实施例一所述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或实施例三所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或实施例三所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,包括:
获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽的氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
2.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述预测模型包括自然语言预训练模型和多层感知机分类模型;
所述得到MHC与抗原多肽的氨基酸序列的嵌入特征表示包括:采用自然语言预训练模型将MHC与抗原多肽的氨基酸序列嵌入表示为固定维度的向量,并提取出氨基酸序列的嵌入特征表示。
3.如权利要求2所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括:基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。
4.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述训练数据从IEDB公用数据库获取,并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
5.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。
6.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述分类预测值的取值范围为[0, 1],划分阴阳性结果的阈值为0.5。
7.一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
预测模块,用于将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
优化模块,用于对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
8.一种MHC与抗原多肽结合、呈递及免疫原性的预测方法,其特征在于,包括:
将MHC与抗原多肽输入到训练好的预测模型中,分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
所述训练好的预测模型为利用权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。
9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或权利要求8所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或权利要求8所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310704181.5A CN116469457B (zh) | 2023-06-14 | 2023-06-14 | Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310704181.5A CN116469457B (zh) | 2023-06-14 | 2023-06-14 | Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116469457A true CN116469457A (zh) | 2023-07-21 |
CN116469457B CN116469457B (zh) | 2023-10-13 |
Family
ID=87181080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310704181.5A Active CN116469457B (zh) | 2023-06-14 | 2023-06-14 | Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469457B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168918A (zh) * | 2012-03-19 | 2014-11-26 | 德国癌症研究中心 | 含有t-细胞表位的b细胞受体复合体结合蛋白质 |
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN111868080A (zh) * | 2018-02-27 | 2020-10-30 | 磨石肿瘤生物技术公司 | 利用泛等位基因模型进行的新抗原鉴别 |
CN112110995A (zh) * | 2019-06-19 | 2020-12-22 | 上海交通大学医学院 | 肿瘤新抗原多肽及其用途 |
US20210033608A1 (en) * | 2019-07-30 | 2021-02-04 | The Board Of Trustees Of The Leland Stanford Junior University | Methods and Systems for Identification of Human Leukocyte Antigen Peptide Presentation and Applications Thereof |
CN113474840A (zh) * | 2018-12-21 | 2021-10-01 | 百欧恩泰美国公司 | 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统 |
CN113762417A (zh) * | 2021-10-15 | 2021-12-07 | 南京澄实生物科技有限公司 | 基于深度迁移的对hla抗原呈递预测系统的增强方法 |
US20220076783A1 (en) * | 2018-12-20 | 2022-03-10 | Merck Sharp & Dohme Corp. | Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens |
CN114242159A (zh) * | 2022-02-24 | 2022-03-25 | 北京晶泰科技有限公司 | 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置 |
WO2022079255A1 (en) * | 2020-10-15 | 2022-04-21 | Myneo Nv | Method, system and computer program product for determining peptide immunogenicity |
US20220154281A1 (en) * | 2019-03-06 | 2022-05-19 | Gritstone Bio, Inc. | Identification of neoantigens with mhc class ii model |
CN115997254A (zh) * | 2020-07-17 | 2023-04-21 | 基因泰克公司 | 基于注意力的神经网络用以预测肽结合、呈递和免疫原性 |
-
2023
- 2023-06-14 CN CN202310704181.5A patent/CN116469457B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168918A (zh) * | 2012-03-19 | 2014-11-26 | 德国癌症研究中心 | 含有t-细胞表位的b细胞受体复合体结合蛋白质 |
CN111868080A (zh) * | 2018-02-27 | 2020-10-30 | 磨石肿瘤生物技术公司 | 利用泛等位基因模型进行的新抗原鉴别 |
US20220076783A1 (en) * | 2018-12-20 | 2022-03-10 | Merck Sharp & Dohme Corp. | Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens |
CN113474840A (zh) * | 2018-12-21 | 2021-10-01 | 百欧恩泰美国公司 | 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统 |
US20220154281A1 (en) * | 2019-03-06 | 2022-05-19 | Gritstone Bio, Inc. | Identification of neoantigens with mhc class ii model |
CN112110995A (zh) * | 2019-06-19 | 2020-12-22 | 上海交通大学医学院 | 肿瘤新抗原多肽及其用途 |
US20210033608A1 (en) * | 2019-07-30 | 2021-02-04 | The Board Of Trustees Of The Leland Stanford Junior University | Methods and Systems for Identification of Human Leukocyte Antigen Peptide Presentation and Applications Thereof |
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN115997254A (zh) * | 2020-07-17 | 2023-04-21 | 基因泰克公司 | 基于注意力的神经网络用以预测肽结合、呈递和免疫原性 |
WO2022079255A1 (en) * | 2020-10-15 | 2022-04-21 | Myneo Nv | Method, system and computer program product for determining peptide immunogenicity |
CN113762417A (zh) * | 2021-10-15 | 2021-12-07 | 南京澄实生物科技有限公司 | 基于深度迁移的对hla抗原呈递预测系统的增强方法 |
CN114242159A (zh) * | 2022-02-24 | 2022-03-25 | 北京晶泰科技有限公司 | 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置 |
Non-Patent Citations (4)
Title |
---|
GUANGSHUAI WANG ET AL.: "TLimmuno2: predicting MHC class II antigen immunogenicity through transfer learning", 《BRIEFINGS IN BIOINFORMATICS》, vol. 24, no. 03 * |
SHI XU ET AL.: "A Highly Effective System for Predicting MHC-II Epitopes With Immunogenicity", 《MOLECULAR AND CELLULAR ONCOLOGY》, vol. 12, pages 1 - 12 * |
吴静成: "基于深度学习的肿瘤新生抗原预测方法研究", 《中国博士学位论文全文数据库 医药卫生科技辑(月刊)》, no. 01, pages 1 - 82 * |
胡伟澎 等: "基于迁移学习的MHC-I型抗原表位呈递预测", 《遗传》, vol. 41, no. 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN116469457B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stuart et al. | Comprehensive integration of single-cell data | |
US20200279163A1 (en) | Device placement optimization with reinforcement learning | |
White et al. | Metabolic scaling is the product of life-history optimization | |
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
Pyne et al. | Automated high-dimensional flow cytometric data analysis | |
Perešíni et al. | Nanopore base calling on the edge | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
Hu et al. | Neural architecture search for LF-MMI trained time delay neural networks | |
Albert et al. | Deep neural networks predict class I major histocompatibility complex epitope presentation and transfer learn neoepitope immunogenicity | |
Gayoso et al. | Joint probabilistic modeling of paired transcriptome and proteome measurements in single cells | |
CN113611354B (zh) | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 | |
Weber et al. | Speciation dynamics and extent of parallel evolution along a lake-stream environmental contrast in African cichlid fishes | |
Li et al. | Cumulus: a cloud-based data analysis framework for large-scale single-cell and single-nucleus RNA-seq | |
CN116469457B (zh) | Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 | |
Bzdok et al. | Data science opportunities of large language models for neuroscience and biomedicine | |
Aronson et al. | Structure modeling and specificity of peptide-MHC class I interactions using geometric deep learning | |
CN112328777B (zh) | 一种答案检测方法及装置 | |
CN112908421B (zh) | 肿瘤新生抗原预测方法、装置、设备及介质 | |
CN117037917A (zh) | 细胞类型预测模型训练方法、细胞类型预测方法和装置 | |
US20220172055A1 (en) | Predicting biological functions of proteins using dilated convolutional neural networks | |
Glukhov et al. | Mhc-fine: Fine-tuned alphafold for precise mhc-peptide complex prediction | |
Pan et al. | Semibin: incorporating information from reference genomes with semi-supervised deep learning leads to better metagenomic assembled genomes (mags) | |
US20230386610A1 (en) | Natural language processing to predict properties of proteins | |
CN111259659B (zh) | 信息处理方法和装置 | |
KR102558549B1 (ko) | 인공지능 기술을 이용하여 tcr에 대한 예측 결과를 생성하기 위한 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |