CN116469457A - Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 - Google Patents

Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 Download PDF

Info

Publication number
CN116469457A
CN116469457A CN202310704181.5A CN202310704181A CN116469457A CN 116469457 A CN116469457 A CN 116469457A CN 202310704181 A CN202310704181 A CN 202310704181A CN 116469457 A CN116469457 A CN 116469457A
Authority
CN
China
Prior art keywords
mhc
immunogenicity
antigen polypeptide
presentation
antigen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310704181.5A
Other languages
English (en)
Other versions
CN116469457B (zh
Inventor
季序我
王雪霏
赵义
李哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Pukang Ruiren Medical Laboratory Co ltd
Predatum Biomedicine Suzhou Co ltd
Precision Scientific Technology Beijing Co ltd
Original Assignee
Beijing Pukang Ruiren Medical Laboratory Co ltd
Predatum Biomedicine Suzhou Co ltd
Precision Scientific Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pukang Ruiren Medical Laboratory Co ltd, Predatum Biomedicine Suzhou Co ltd, Precision Scientific Technology Beijing Co ltd filed Critical Beijing Pukang Ruiren Medical Laboratory Co ltd
Priority to CN202310704181.5A priority Critical patent/CN116469457B/zh
Publication of CN116469457A publication Critical patent/CN116469457A/zh
Application granted granted Critical
Publication of CN116469457B publication Critical patent/CN116469457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置,属于生物信息及细胞免疫技术领域。本发明构建了抗原多肽分别与MHC‑I及MHC‑II的结合、呈递及免疫原性的多任务学习神经网络模型,能够利用从充足的结合和呈递数据集中学习到的特征来增强对数据量较少的免疫原性的学习,并能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果,从而可以结合此三个免疫应答过程相互依赖的特点,对该抗原‑MHC分子对的重要生物意义产生综合判断。

Description

MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和 装置
技术领域
本发明涉及生物信息及细胞免疫技术领域,尤其涉及一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置。
背景技术
来自外来抗原的多肽会被抗原呈递细胞上的主要组织相容性复合体(majorhistocompatibility complex, MHC)结合并呈递至T细胞,从而启动体内的免疫应答。了解何种抗原多肽能够与MHC分子结合、被MHC分子呈递至细胞表面、以及启动T细胞免疫应答反应对调控和利用细胞免疫系统至关重要。
目前已有诸多工具旨在预测抗原多肽与MHC分子的结合性能以及其免疫原性。比如,被广泛应用的NetMHCPan(Reynisson et al., 2020)基于单层神经网络分别预测MHC-I(由一个跨越细胞膜的α链和一个细胞外的β2微球蛋白组成)和MHC-II(由均跨越细胞膜的一个α链和一个β链组成)与相关抗原的结合性能;MHCflurry(O'Donnell et al., 2018)整合了多层前馈神经网络、卷积神经网络、逻辑斯蒂回归,用于预测MHC-I与抗原表位的结合;MixMHCpred(Bassani-Sternberg et al., 2017; Gfeller et al., 2018)利用混合模型和位置权重矩阵提取抗原表位的特征基序,从而预测其与MHC-I的结合性能; ImmunoBERT(Gasser et al., 2021)和BERTMHC(Cheng et al., 2021)均基于TAPE(Tasks AssessingProtein Embeddings)预训练模型,分别用于预测抗原多肽与MHC-I和MHC-II的结合与呈递;TransPHLA(Chu et al., 2022)采用基于Transformer的模型结构,预测抗原与MHC-I的结合;DeepNetBim(Yang et al., 2021)利用卷积神经网络和注意力机制,将抗原多肽与MHC-I的结合及免疫原性预测相结合;FIONA(Xu et al., 2022)基于卷积神经网络分别预测了抗原多肽被MHC-II的呈递及其免疫原性;BigMHC(Albert et al., 2022)基于BiLSTM单元,利用抗原-MHC-I呈递数据集进行训练,并迁移学习至抗原-MHC-I免疫原性数据集。
但是这些工具都存在如下的一些局限:1)受免疫原性数据量的限制,对于抗原多肽免疫原性的预测方法较少;2)由于编码MHC-II的HLA-II等位基因多态性较高,对于MHC-II相关抗原多肽免疫原性的预测比MHC-I相关方法更少且精度有限。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,包括:
获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
优选地,所述预测模型包括自然语言预训练模型和多层感知机分类模型;所述得到MHC与抗原多肽氨基酸序列的嵌入特征表示包括:采用自然语言预训练模型将MHC与抗原多肽氨基酸序列嵌入表示为固定维度的向量,提取出氨基酸序列的嵌入特征表示。
优选地,所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括:基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。
优选地,所述训练数据从IEDB公用数据库获取,根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
优选地,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。
优选地,所述分类预测值的取值范围为[0, 1],划分阴阳性结果的阈值为0.5。
本发明第二方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
预测模块,用于将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
优化模块,用于对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
本发明第三方面提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测方法,包括:
将MHC与抗原多肽输入到训练好的预测模型中,分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
所述训练好的预测模型为利用第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或第三方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或第三方面所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
本发明的有益效果是:本发明构建了抗原多肽分别与MHC-I及MHC-II的结合、呈递及免疫原性的多任务学习神经网络模型,能够利用从充足的结合和呈递数据集中学习到的特征来增强对数据量较少的免疫原性的学习,并能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果,从而可以结合此三个免疫应答过程相互依赖的特点,对该抗原-MHC分子对的重要生物意义产生综合判断。
附图说明
图1为本发明所述MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法流程示意图;
图2为本发明所述MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置的功能结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
实施例一
如图1所示,本发明实施例提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,包括:S101,获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;S102,将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;S103,对预测模型进行迭代训练优化,得到训练好的预测模型;其中,MHC为MHC-I或MHC-II。
本发明的目的是构建多任务学习神经网络模型,该模型既能够预测抗原与MHC-I的结合、呈递及免疫原性,还能够预测抗原与MHC-II的结合、呈递及免疫原性,以解决现有技术中MHC-II和抗原多肽免疫原性的预测方法少且精度低的问题;本发明构建的模型能够利用从充足的结合和呈递数据集中学习得到的特征来弥补和增强对数据量较少的免疫原性的学习,解决了免疫原性训练数据量少的问题;另外,采用本发明构建的模型,能够通过该同一模型,同时得到抗原多肽与MHC的结合、呈递及免疫原性预测结果,有利于对该抗原多肽和MHC分子对的重要生物意义进行综合判断。
其中,在步骤S101中,所述训练数据从IEDB(The Immune Epitope Database)公用数据库获取,并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
在本发明的一个优选实施例中,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。本发明构建的预测模型,对于输入的抗原多肽序列及MHC蛋白全长序列,无需进行序列长度以及潜在结合域的额外筛选和编辑处理,使用方法简洁方便,满足多种应用需求。
在步骤S102中,所述预测模型包括自然语言预训练模型和多层感知机分类模型;可以首先采用自然语言预训练模型得到MHC与抗原多肽氨基酸序列的嵌入特征表示。即将训练数据输入至自然语言预训练模型中,输出MHC与抗原多肽氨基酸序列的嵌入特征表示。自然语言处理模型可以基于公开蛋白质数据库进行预训练和精调,将不同长度的蛋白序列表示为固定维度的向量,能够有效提取蛋白序列的特征。
MHC与抗原多肽氨基酸序列的嵌入特征表示可以作为基于多输入、多输出的多层感知机(multilayer perceptron,MLP)分类模型的输入,该MLP模型将抗原多肽与MHC分子的结合、呈递及免疫原性的预测均处理为二分类任务,同时输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;模型输出的预测值取值范围可以为[0, 1],划分阴阳性结果的阈值可以为0.5。
可见,采用本发明构建的预测模型,能够通过同一模型同时得到抗原多肽与MHC的结合、呈递及免疫原性的预测结果,从而可以结合此三个免疫应答过程相互依赖的特点,对该抗原-MHC分子对的重要生物意义产生综合判断。
执行步骤S103,得到训练好的预测模型。
在本发明实施例中,获取训练数据时,可以同时获取测试数据,训练数据与测试数据的比例可以按照8:2划分。
采用本发明提供的训练方法得到的训练好的预测模型进行抗原多肽与MHC-I的结合、呈递、免疫原性的预测,在测试数据集上的验证指标AUROC分别为0.9913、0.9927、0.8479;AUPRC分别为0.9940、0.9954、0.8052。采用本发明提供的训练方法得到的训练好的预测模型进行抗原多肽与MHC-II的结合、呈递、免疫原性的预测,在测试数据集上的验证指标AUROC分别为0.9943、0.9946、0.9345;AUPRC分别为0.9964、0.9965、0.9267。
因此,采用本发明提供的方法训练好的预测模型,对于抗原多肽与MHC-I及MHC-II的结合、呈递、免疫原性的预测,都具有非常高的准确度。
实施例二
如图2所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置,包括:训练数据获取模块201,用于获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;预测模块202,用于将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;优化模块203,用于对预测模型进行迭代训练优化,得到训练好的预测模型;其中,MHC为MHC-I或MHC-II。
进一步地,在所述预测模块中,所述预测模型包括自然语言预训练模型和多层感知机分类模型;所述得到MHC与抗原多肽氨基酸序列的嵌入特征表示包括:采用自然语言预训练模型将MHC与抗原多肽的氨基酸序列嵌入表示为固定维度的向量,并提取出氨基酸序列的嵌入特征表示。
进一步地,在所述预测模块中,所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括:基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。
进一步地,在所述训练数据获取模块中,所述训练数据从IEDB公用数据库获取,并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
更进一步地,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。
其中,所述分类预测值的取值范围为[0, 1],划分阴阳性结果的阈值为0.5。
该装置可通过上述实施例一提供的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
实施例三
本发明实施例提供了一种MHC与抗原多肽结合、呈递及免疫原性的预测方法,包括:将MHC与抗原多肽输入到训练好的预测模型中,分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;所述训练好的预测模型为利用实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。具体的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法可参阅实施例一所述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或实施例三所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或实施例三所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,包括:
获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽的氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
2.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述预测模型包括自然语言预训练模型和多层感知机分类模型;
所述得到MHC与抗原多肽的氨基酸序列的嵌入特征表示包括:采用自然语言预训练模型将MHC与抗原多肽的氨基酸序列嵌入表示为固定维度的向量,并提取出氨基酸序列的嵌入特征表示。
3.如权利要求2所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述利用得到的嵌入特征表示输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值包括:基于多输入、多输出的多层感知机分类模型分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值。
4.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述训练数据从IEDB公用数据库获取,并根据实验类型筛选得到相互独立的MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据。
5.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述训练数据为MHC蛋白全长序列和抗原多肽序列,其中,抗原多肽序列的长度符合MHC相关抗原表位的长度分布范围。
6.如权利要求1所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,其特征在于,所述分类预测值的取值范围为[0, 1],划分阴阳性结果的阈值为0.5。
7.一种MHC与抗原多肽结合、呈递及免疫原性的预测模型训练装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括MHC与抗原多肽的结合数据、MHC与抗原多肽的呈递数据以及MHC与抗原多肽的免疫原性数据;
预测模块,用于将所述训练数据输入至预测模型中,首先得到MHC与抗原多肽氨基酸序列的嵌入特征表示,然后利用得到的嵌入特征表示分别产生MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
优化模块,用于对预测模型进行迭代训练优化,得到训练好的预测模型;
其中,MHC为MHC-I或MHC-II。
8.一种MHC与抗原多肽结合、呈递及免疫原性的预测方法,其特征在于,包括:
将MHC与抗原多肽输入到训练好的预测模型中,分别输出MHC与抗原多肽的结合、呈递及免疫原性的分类预测值;
所述训练好的预测模型为利用权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法预先训练得到的。
9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或权利要求8所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的MHC与抗原多肽结合、呈递及免疫原性的预测模型训练方法,或权利要求8所述的MHC与抗原多肽结合、呈递及免疫原性的预测方法。
CN202310704181.5A 2023-06-14 2023-06-14 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置 Active CN116469457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310704181.5A CN116469457B (zh) 2023-06-14 2023-06-14 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310704181.5A CN116469457B (zh) 2023-06-14 2023-06-14 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN116469457A true CN116469457A (zh) 2023-07-21
CN116469457B CN116469457B (zh) 2023-10-13

Family

ID=87181080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310704181.5A Active CN116469457B (zh) 2023-06-14 2023-06-14 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN116469457B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168918A (zh) * 2012-03-19 2014-11-26 德国癌症研究中心 含有t-细胞表位的b细胞受体复合体结合蛋白质
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法
CN111868080A (zh) * 2018-02-27 2020-10-30 磨石肿瘤生物技术公司 利用泛等位基因模型进行的新抗原鉴别
CN112110995A (zh) * 2019-06-19 2020-12-22 上海交通大学医学院 肿瘤新抗原多肽及其用途
US20210033608A1 (en) * 2019-07-30 2021-02-04 The Board Of Trustees Of The Leland Stanford Junior University Methods and Systems for Identification of Human Leukocyte Antigen Peptide Presentation and Applications Thereof
CN113474840A (zh) * 2018-12-21 2021-10-01 百欧恩泰美国公司 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统
CN113762417A (zh) * 2021-10-15 2021-12-07 南京澄实生物科技有限公司 基于深度迁移的对hla抗原呈递预测系统的增强方法
US20220076783A1 (en) * 2018-12-20 2022-03-10 Merck Sharp & Dohme Corp. Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens
CN114242159A (zh) * 2022-02-24 2022-03-25 北京晶泰科技有限公司 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置
WO2022079255A1 (en) * 2020-10-15 2022-04-21 Myneo Nv Method, system and computer program product for determining peptide immunogenicity
US20220154281A1 (en) * 2019-03-06 2022-05-19 Gritstone Bio, Inc. Identification of neoantigens with mhc class ii model
CN115997254A (zh) * 2020-07-17 2023-04-21 基因泰克公司 基于注意力的神经网络用以预测肽结合、呈递和免疫原性

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168918A (zh) * 2012-03-19 2014-11-26 德国癌症研究中心 含有t-细胞表位的b细胞受体复合体结合蛋白质
CN111868080A (zh) * 2018-02-27 2020-10-30 磨石肿瘤生物技术公司 利用泛等位基因模型进行的新抗原鉴别
US20220076783A1 (en) * 2018-12-20 2022-03-10 Merck Sharp & Dohme Corp. Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens
CN113474840A (zh) * 2018-12-21 2021-10-01 百欧恩泰美国公司 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统
US20220154281A1 (en) * 2019-03-06 2022-05-19 Gritstone Bio, Inc. Identification of neoantigens with mhc class ii model
CN112110995A (zh) * 2019-06-19 2020-12-22 上海交通大学医学院 肿瘤新抗原多肽及其用途
US20210033608A1 (en) * 2019-07-30 2021-02-04 The Board Of Trustees Of The Leland Stanford Junior University Methods and Systems for Identification of Human Leukocyte Antigen Peptide Presentation and Applications Thereof
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法
CN115997254A (zh) * 2020-07-17 2023-04-21 基因泰克公司 基于注意力的神经网络用以预测肽结合、呈递和免疫原性
WO2022079255A1 (en) * 2020-10-15 2022-04-21 Myneo Nv Method, system and computer program product for determining peptide immunogenicity
CN113762417A (zh) * 2021-10-15 2021-12-07 南京澄实生物科技有限公司 基于深度迁移的对hla抗原呈递预测系统的增强方法
CN114242159A (zh) * 2022-02-24 2022-03-25 北京晶泰科技有限公司 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUANGSHUAI WANG ET AL.: "TLimmuno2: predicting MHC class II antigen immunogenicity through transfer learning", 《BRIEFINGS IN BIOINFORMATICS》, vol. 24, no. 03 *
SHI XU ET AL.: "A Highly Effective System for Predicting MHC-II Epitopes With Immunogenicity", 《MOLECULAR AND CELLULAR ONCOLOGY》, vol. 12, pages 1 - 12 *
吴静成: "基于深度学习的肿瘤新生抗原预测方法研究", 《中国博士学位论文全文数据库 医药卫生科技辑(月刊)》, no. 01, pages 1 - 82 *
胡伟澎 等: "基于迁移学习的MHC-I型抗原表位呈递预测", 《遗传》, vol. 41, no. 11 *

Also Published As

Publication number Publication date
CN116469457B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Stuart et al. Comprehensive integration of single-cell data
US20200279163A1 (en) Device placement optimization with reinforcement learning
White et al. Metabolic scaling is the product of life-history optimization
CN109671469B (zh) 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
Pyne et al. Automated high-dimensional flow cytometric data analysis
Perešíni et al. Nanopore base calling on the edge
CN114973062A (zh) 基于Transformer的多模态情感分析方法
Hu et al. Neural architecture search for LF-MMI trained time delay neural networks
Albert et al. Deep neural networks predict class I major histocompatibility complex epitope presentation and transfer learn neoepitope immunogenicity
Gayoso et al. Joint probabilistic modeling of paired transcriptome and proteome measurements in single cells
CN113611354B (zh) 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
Weber et al. Speciation dynamics and extent of parallel evolution along a lake-stream environmental contrast in African cichlid fishes
Li et al. Cumulus: a cloud-based data analysis framework for large-scale single-cell and single-nucleus RNA-seq
CN116469457B (zh) Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
Bzdok et al. Data science opportunities of large language models for neuroscience and biomedicine
Aronson et al. Structure modeling and specificity of peptide-MHC class I interactions using geometric deep learning
CN112328777B (zh) 一种答案检测方法及装置
CN112908421B (zh) 肿瘤新生抗原预测方法、装置、设备及介质
CN117037917A (zh) 细胞类型预测模型训练方法、细胞类型预测方法和装置
US20220172055A1 (en) Predicting biological functions of proteins using dilated convolutional neural networks
Glukhov et al. Mhc-fine: Fine-tuned alphafold for precise mhc-peptide complex prediction
Pan et al. Semibin: incorporating information from reference genomes with semi-supervised deep learning leads to better metagenomic assembled genomes (mags)
US20230386610A1 (en) Natural language processing to predict properties of proteins
CN111259659B (zh) 信息处理方法和装置
KR102558549B1 (ko) 인공지능 기술을 이용하여 tcr에 대한 예측 결과를 생성하기 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant