CN115836350A - 用于确定新抗原的呈递可能性的方法、系统和计算机程序产品 - Google Patents

用于确定新抗原的呈递可能性的方法、系统和计算机程序产品 Download PDF

Info

Publication number
CN115836350A
CN115836350A CN202180048981.5A CN202180048981A CN115836350A CN 115836350 A CN115836350 A CN 115836350A CN 202180048981 A CN202180048981 A CN 202180048981A CN 115836350 A CN115836350 A CN 115836350A
Authority
CN
China
Prior art keywords
training
sequence
input
output
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180048981.5A
Other languages
English (en)
Inventor
B·范特
C·博加尔特
N·阿黛尔·米勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minio Corp
Original Assignee
Minio Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minio Corp filed Critical Minio Corp
Publication of CN115836350A publication Critical patent/CN115836350A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及用于确定新抗原的呈递可能性的计算机实现的方法、计算机系统和计算机程序产品。此外,本发明涉及该方法、该系统和/或该计算机程序产品的用于确定对受试者的治疗的用途。

Description

用于确定新抗原的呈递可能性的方法、系统和计算机程序 产品
技术领域
本发明涉及用于确定新抗原的呈递可能性的计算机实现的方法、计算机系统和计算机程序产品。
背景技术
除了正常表位之外,癌细胞的表面可能呈递源自异常基因组事件的新抗原,并且可被T-细胞鉴定。
新抗原是先前未被免疫系统鉴定的新形成的抗原。近年来,靶向这些新抗原已经显示出是非常有希望的个性化医疗途径。
新的技术发展使得实际上在细胞表面结合到主要组织相容性复合体(MHC)分子的质谱推导的肽列表的可用性增加。这些列表被称为“配体组(ligandome)”。现有技术的新抗原发现方法开始于生成由癌细胞产生的所有潜在新抗原的列表,并依赖于计算机预测算法来提取最可能呈递在这些细胞表面的表位,潜在地引起免疫反应。
WO 2017106638描述了用于鉴定在受试者的肿瘤细胞中可能呈递在肿瘤细胞表面上的一种或多种新抗原的方法。此外,该文献公开了用于从肿瘤获得高质量测序数据和用于鉴定多态性基因组数据中的体细胞变异的系统和方法。最后,WO'638描述了独特的癌症疫苗。
US 20190311781描述了用于通过使用机器学习算法或统计推断模型来鉴定包括与成功的细胞加工、运输和MHC呈递相关联的特征的肽的方法。US 20180085447描述了用于鉴定免疫原性突变肽具有作为癌症疫苗的治疗效用的方法。更具体地,从所有遗传改变蛋白鉴定T-细胞活化新表位的方法。这些突变蛋白在通过抗原呈递细胞内的蛋白水解降解后有助于新表位。
EP 3256853描述了预测用于疫苗接种的T-细胞表位的方法。特别地,该文献涉及预测肽或多肽的修饰(诸如肿瘤相关联的新抗原)是否是免疫原性的(特别是用于疫苗接种)的方法,或预测这些修饰(modification)中的哪些是最具免疫原性的(特别是最适用于疫苗接种)的方法。
可获得解决相同问题的几种其它工具和方法,例如NetMHCpan或MHCflurry。这些方法使用预测对给定HLA等位基因的肽结合亲和力的方法。诸如EDGE或MARIA的其它方法也输出基于学习的呈递概率,但不考虑HLA序列并将HLA类型编码为分类变量。
此外,最初的预测方法使用候选新抗原对MHC的结合亲和力作为呈递在细胞表面的可能性的指标。然而,这些方法不能对整个细胞表面呈递过程建模,因此具有低的阳性预测值。此外,这些方法不能预测在训练模型时不包括的HLA分子的新表位呈递可能性。
本发明的目的是提供一种解决至少一些上述缺点的方案、以及对现有技术的改进。
发明内容
在第一方面,本发明涉及根据权利要求1的用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机实现的方法。
在第二方面,本发明涉及根据权利要求12的用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机系统。
在第三方面,本发明涉及根据权利要求13的用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机程序产品。
在第四方面,本发明涉及根据权利要求14的用于确定对受试者的治疗的用途。
本发明的目的是预测由所述细胞表达的HLA等位基因集合在癌细胞表面呈递可变长度新表位的可能性。为此,使用深度学习模型。
本发明是有利的,新表位对任何HLA等位基因的呈递可能性都可以被预测,即使该模型没有对HLA等位基因进行训练。
在权利要求2至12以及整个说明书和示例中讨论了本发明的优选实施方式。
附图说明
图1示出了作为在测试数据集上测试根据本发明的模型的结果而获得的精确率-召回率曲线。图1A示出了当在相同的测试数据集上测试时,根据本发明的模型和现有技术算法EDGE算法和MHCflurry算法的性能比较。图1B示出了当在新数据集上测试时根据本发明的模型的预测能力。
具体实施方式
在第一方面,本发明涉及用于确定新抗原集合的呈递可能性的计算机实现的方法。在第二方面和第三方面,本发明涉及一种计算机系统和计算机程序产品。在第四方面,本发明涉及任何方法、系统或产品的用于确定对受试者的治疗的用途。在下文中,将详细描述本发明,讨论优选实施方式,并且将通过非限制性示例来说明本发明。
除非另外定义,否则在公开本发明时使用的所有术语(包括技术和科学术语)都具有本发明所属领域的普通技术人员通常理解的含义。通过进一步的指导,包括说明书中使用的术语的定义以更好地理解本发明的教导。本文使用的术语或定义仅用于帮助理解本发明。
如本文使用的,以下术语具有以下含义:
如本文使用的“一个”、“一种”和“该”是指单数和复数所指事物,除非上下文另有明确说明。举例来说,“一个隔室”是指一个或多于一个隔室。
如本文使用的“包括”和“由…组成”与“包括”、“含有”是同义的,并且是包括性或开放式术语,其指定以下(例如组分)的存在,并且不排除或排除本领域已知的或其中公开的另外的未列举的组分、特征、要素、成员、步骤的存在。
由端点表述的数值范围的列举包括该范围内包括的所有数值和得分、以及所列举的端点。所有百分比应理解为重量百分比,除非另外定义的或不同的含义对于本领域技术人员来说从其使用和在其使用的上下文中是显而易见的。除非另外定义,否则本文和整个说明书中的表述“重量%”、“重量百分比”、“%wt”或“wt%”是指各组分与制剂总重量的相对重量。
尽管术语“一个或更多个”或“至少一个”(诸如,一组成员中的一个或更多个或至少一个成员)本身是清楚的,但通过进一步示例,该术语尤其涵盖对所述成员中的任一个或对所述成员中的任何两个或更多个的参考,例如,所述成员中的任何≥3、≥4、≥5、≥6或≥7等、并且直至所有所述成员。
除非另外定义,否则在公开本发明中使用的所有术语(包括技术和科学术语)具有本发明所属领域的普通技术人员通常理解的含义。通过进一步的指导,包括说明书中使用的术语的定义以更好地理解本发明的教导。本文使用的术语或定义仅用于帮助理解本发明。
在整个说明书中对“一个实施方式”或“一实施方式”的参考意味着结合该实施方式描述的特定特征、结构或特性包括在本发明的至少一个实施方式中。因此,在本说明书中各处出现的短语“在一个实施方式中”或“在一实施方式中”不一定都指同一实施方式,而是可以指同一实施方式。此外,在一个或更多个实施方式中,特定特征、结构或特性可以以任何合适的方式组合,这对于本领域技术人员来说从本公开将是显而易见的。此外,虽然在此描述的一些实施方式包括一些但不包括在其它实施方式中的其它特征,但是不同实施方式的特征的组合意味着在本发明的范围内,并且形成不同的实施方式,如本领域技术人员将理解的。例如,在以下权利要求中,所要求保护的实施方式中的任一个可以以任何组合使用。
此外,说明书和权利要求书中的术语第一、第二、第三等被用于区分相似的元件,而不一定用于描述顺序或时间顺序,除非特别说明。应当理解,如此使用的术语在适当的情况下是可互换的,并且在此描述的本发明的实施方式能够以不同于在此描述或示出的其它顺序操作。
在第一方面,本发明涉及用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机实现的方法。该方法优选地包括从受试者的与所述肿瘤相关联的肿瘤细胞和正常细胞获得外显子组(exome)或全基因组核苷酸测序数据和转录组核苷酸测序数据中的至少一者的步骤。该方法优选地还包括通过将来自肿瘤细胞的外显子组和/或全基因组核苷酸测序数据和转录组核苷酸测序数据与来自正常细胞的外显子组和/或全基因组核苷酸测序数据和转录组核苷酸测序数据进行比较,获得与所述肿瘤相关联的异常基因组事件集合的步骤。该方法优选地还包括获得表示至少部分地基于所述异常事件集合鉴定的新抗原集合中的各个新抗原的肽序列的数据的步骤,其中,各个新抗原的肽序列包括至少一个改变(alteration),该改变使其与从受试者的正常细胞鉴定的相应野生型肽序列不同。该方法优选地还包括基于来自肿瘤细胞的肿瘤外显子和/或全基因组核苷酸测序数据和转录组核苷酸测序数据获得表示HLA肽序列的数据的步骤。该方法优选地还包括在包括阳性数据集的训练数据集上训练深度学习模型的步骤,其中,所述阳性数据集包括多个输入-输出对,其中,每个输入-输出对包括作为输入的表位序列的条目,所述表位序列从由训练细胞表达的相应HLA等位基因编码的表面结合或分泌的HLA/肽复合体中鉴定或推断,其中,每个输入-输出对还包括作为输出的由相应HLA等位基因编码的α链的肽序列的条目。该方法优选地还包括通过经训练的模型确定HLA肽序列的新抗原集合中的各个新抗原的呈递可能性的步骤。
在第二方面,本发明涉及用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机系统。该计算机系统被配置成用于执行根据本发明的第一方面的计算机实现的方法。
在第三方面,本发明涉及用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机程序产品。该计算机程序产品包括指令,当该计算机程序产品由计算机执行时,该指令使该计算机执行根据本发明的第一方面的方法。
在第四方面,本发明涉及根据本发明的第一方面的方法和/或根据本发明的第二方面的计算机系统和/或根据本发明的第三方面的计算机程序产品的用于确定对受试者的治疗的用途。
本发明提供了用于确定受试者的肿瘤的肿瘤细胞对新抗原的呈递可能性的计算机实现的方法、计算机系统和计算机程序产品、以及任何所述方法、系统或产品的用于确定所述受试者的治疗的用途。本领域普通技术人员将理解,该方法在计算机程序产品中实现并使用计算机系统执行。本领域普通技术人员还清楚,新抗原集合的呈递可能性可以被用于确定受试者的治疗。在下文中,本发明的四个方面因此被一起处理。
本文使用的“受试者”是指现有技术中已知的术语,其应优选地理解为人体或动物体,最优选地理解为人体。本文使用的“动物”优选地指脊椎动物,更优选地指鸟类和哺乳动物,甚至更优选地指哺乳动物。如本文使用的,“有需要的受试者”应理解为将受益于治疗的受试者。
本发明的一个简单实施方式优选地提供:从受试者的与所述肿瘤相关联的肿瘤细胞和正常细胞获得外显子组或全基因组核苷酸测序数据和转录组核苷酸测序数据中的至少一者。一个简单实施方式优选地还提供:通过将来自肿瘤细胞的外显子组和/或全基因组核苷酸测序数据和转录组核苷酸测序数据与来自正常细胞的外显子组和/或全基因组核苷酸测序数据和转录组核苷酸测序数据进行比较来获得与所述肿瘤相关联的异常基因组事件集合的步骤。显然,将外显子组、全基因组核苷酸测序数据和转录组核苷酸测序数据分别与相应的核苷酸测序数据-数据类型进行比较。
本文使用的“新表位”是指现有技术中已知的术语,应优选地理解为由肿瘤特异性突变产生的一类主要组织相容性复合体(MHC)结合肽。这些肽表示新抗原的抗原决定簇。新表位被免疫系统鉴定为T-细胞的靶标,并且可以引发针对癌症的免疫应答。
本文使用的“新抗原”是指现有技术中已知的术语,其应优选地被理解为具有至少一种改变的抗原,所述改变使其与最密切相关的野生型抗原(即,相应的野生型序列)不同,例如通过肿瘤细胞突变、肿瘤细胞特定的翻译后修饰、融合、转座子插入、选择性剪接事件或本领域技术人员已知的任何改变方式。此外,新抗原可以包括或可以不包括多肽或核苷酸序列。
优选地,该异常基因组事件集合包括一个或更多个单核苷酸多态性(SNP)、indel(插入/缺失)突变、基因融合、染色体重排(诸如倒位、易位、复制或向时性(chronotropsms))、转座子插入或选择性剪接事件。在本说明书的上下文中,术语“indel”应理解为用于在生物体的基因组中插入或缺失一个或更多个核酸的分子生物学术语。此外,在本说明书的上下文中,术语“SNP”或“单核苷酸多态性”是指发生在生物体的基因组中的特定位置处的单核苷酸的取代。
本发明可以使用或不使用新表位发现管线产生的输入肽或新表位序列,从来自受试者(优选患者)的原始测序数据开始。该原始测序数据至少包括肿瘤DNA,优选活检产生的肿瘤DNA。优选地,该原始数据还包括肿瘤RNA,更优选地活检产生的肿瘤RNA。优选地,该原始数据还包括从受试者的样本(优选地,血液样本)产生的正常DNA。优选地,该原始数据还包括从受试者的样本(优选血液样本)产生的正常RNA。
如本文使用的“样本”是指现有技术中已知的术语,其应优选地理解为通过包括静脉穿刺、排泄、射精、按摩、活检、针吸、灌洗样本、刮擦、手术切口或干预或本领域中已知的任何其它方式取自受试者的单个细胞或多个细胞或细胞碎片或体液等分试样。
新表位发现管线输出肿瘤内发生的所有基因组和转录组改变事件的列表。这些“异常基因组事件”包括新的转座子插入事件、新的RNA异构体、新的基因融合物、新的RNA编辑事件以及在产生的蛋白质上的新的基于核苷酸的翻译后修饰事件。此外,它在RNA和DNA水平上检测单核苷酸多态性(SNP)和indels(定位的插入或缺失突变),并处理这两种分析的结果以产生高置信度SNP和indels的列表。
根据优选实施方式,至少部分地基于支持每个相关异常基因组事件的测序数据的测序读数的数目,将置信度得分与所述异常基因组事件集合中的每个异常基因组事件相关联。优选地,置信度得分还至少部分地基于支持每个相关异常基因组事件的测序数据在基因组中的普遍性。优选实施方式还包括:通过将所述异常基因组事件集合中的每个异常基因组事件的置信度得分与阈值进行比较来获得异常基因组事件的子集,其中如果相关联的置信度得分超过所述阈值,则将事件添加到所述子集。根据本优选实施方式,至少部分地基于所述异常事件的子集来鉴定至少部分地基于所述异常事件集合鉴定的新抗原集合。具有高置信度得分的事件显示高数目的测序读段并且在基因组中是普遍的,并且因此被选择用于进一步研究。结果,提高了性能。
应当注意,如果输入序列包括非标准氨基酸,本发明将不起作用。在本说明书的上下文中,术语“非标准氨基酸”应理解为非标准或非编码氨基酸,其不是天然编码的或在任何生物体的遗传密码中发现的。
本发明的一个简单实施方式优选提供:基于来自肿瘤细胞的肿瘤外显子组和/或全基因组核苷酸测序数据和转录组核苷酸测序数据获得表示HLA肽序列的数据。因此,使用用于鉴定该组新抗原的相同基因组数据来评估肿瘤活检的HLA组成。优选地,本发明提供基于来自肿瘤细胞的肿瘤外显子组和/或全基因组核苷酸测序数据和转录组核苷酸测序数据获得表示HLA集合中的各个HLA的肽序列的数据。
本文使用的“人类白细胞抗原(HLA)”是指现有技术中已知的术语,其应优选地被理解为对人类的“主要组织相容性复合体(MHC)”蛋白编码的基因复合体。这些细胞表面蛋白负责调节人类的免疫系统。HLA基因是高度多态性的,即,可能具有不同的等位基因,这允许它们微调受试者的适应性免疫系统。在本说明书的上下文中,术语“HLA结合亲和力”或“MHC结合亲和力”应被理解为特异性抗原与特异性MHC等位基因之间的结合亲和力。在本说明书的上下文中,术语“HLA类型”应被理解为HLA等位基因的补体。
本发明的一个简单实施方式优选地提供在训练数据集上训练深度学习模型。训练数据集优选地包括阳性数据集。阳性数据集优选地包括多个输入-输出对。每个输入-输出对优选地包括作为输入的表位序列的条目。表位序列优选地从由训练细胞表达的相应HLA等位基因编码的表面结合或分泌的HLA/肽复合体鉴定或推断。每个输入-输出对优选地还包括作为输出的由相应HLA等位基因编码的α链的肽序列的条目。
本文使用的“训练单元”应当优选地理解为从中得到样本的单元,并且其中所述样本用于获得阳性数据集中的输入-输出对的输入和输出。训练细胞可以是或可以不是从单等位基因细胞系(诸如,人类细胞系)的细胞、或从多等位基因组织(诸如,人组织)的细胞获得的。
根据最优选实施方式,每个阳性输入包括由被显示为呈递在细胞表面处的8-15个氨基酸组成的表位的序列。每个相关联的阳性输出同一数据集中的由细胞表达的HLA等位基因的α链的串联氨基酸序列(最多71个氨基酸)组成。
根据优选实施方式,通过质谱获得阳性数据集的每个输入-输出对中的输入的表位序列。在另一个或进一步实施方式中,通过质谱获得由阳性数据集的每个输入-输出对中的输出的相应HLA等位基因编码的α链的肽序列。
在本发明的实施方式中,阳性输入-输出对可以被分配不同的权重,优选地根据用于构建阳性训练集的质谱数据中的出现频率。权重修改了所述输入-输出对对深度学习模型的训练的影响。当用所述输入-输出对训练模型时,更大的权重将导致与深度学习模型相关联的参数的更大调整,如下面进一步解释的。
根据另一优选实施方式,用于训练深度学习模型的训练数据集还包括阴性数据集。阴性数据集优选地包括多个输入-输出对。每个输入-输出对优选地包括作为输入的肽序列的条目。所述肽序列优选是人类蛋白质组的随机序列。每个输入-输出对优选地还包括作为输出的由随机HLA等位基因编码的肽序列。
根据最优选实施方式,每个阳性输入是来自在任何配体组数据集中不呈递的人类蛋白质组的随机序列。输入是由8至15个氨基酸组成的随机序列。每个相关输出是阳性数据集中呈递的HLA等位基因的随机集合的α链序列的连结。
如本文使用的“蛋白质组”是指现有技术中已知的术语,其应优选地被理解为基因组、细胞、组织或生物体在特定时间表达或可以表达的整个蛋白质集合。它是在给定条件下在给定时间在给定类型的细胞或生物体中表达的蛋白质的集合。“蛋白质组学”是对蛋白质组的研究。
优选地,阳性数据集(更优选地阳性和阴性数据集两者)的输入-输出对的一部分(优选地大部分)被用于训练深度学习模型。优选地,阳性数据集(更优选地阳性和阴性数据集两者)的输入-输出对的一部分(优选地少数)被用于验证经训练的深度学习模型。
用于训练深度学习模型的阳性和阴性输入-输出对的数量之间的比率可以改变或可以不改变。所述比率是模型训练的重要参数。
用于验证深度学习模型的阳性和阴性输入-输出对的数量之间的比率可以改变或可以不改变。所述比率是验证模型的重要参数。
根据优选实施方式,阳性数据集包括单等位基因数据集和多等位基因数据集。单等位基因数据集优选地包括从来自单等位基因细胞系的训练细胞获得的输入-输出对。多等位基因数据集优选地包括从来自多等位基因组织的训练细胞获得的输入-输出对。从单等位基因细胞系获得的训练细胞优选是从单等位基因人类细胞系获得的细胞。从多等位基因组织获得的训练细胞优选地是从人类组织获得的细胞。多等位基因人类组织可以是或可以不是健康的或癌变的。
如本文使用的“单等位基因”是指现有技术中已知的术语,其应优选地理解为群体中仅一个等位基因出现在位点或基因座处的情况。
本文使用的“多等位基因”是指现有技术中已知的术语,其应优选地理解为当许多等位基因出现时的情况。多态性是“多等位基因(multiallelic)”,也称为“多等位基因(polyallelic)”。
根据优选实施方式,深度学习模型的训练包括两个或更多个训练周期。每个训练周期优选地包括多个训练步骤。每个训练步骤优选地包括处理多个输入-输出对中的一个输入-输出对。优选地,所述两个或更多个训练周期中的一个训练周期包括在单等位基因数据集上训练深度学习模型。优选地,所述两个或更多个训练周期中的一个训练周期包括在单等位基因数据集和多等位基因数据集上训练深度学习模型。
根据另一优选实施方式,本发明提供三个或更多个训练周期。所述三个或更多个周期中的一个训练周期是监督学习周期,其中,在单等位基因数据集和多等位基因数据集上训练模型以预测由等位基因的特定集合呈递的氨基酸的完整序列。所述三个或更多个周期中的一个训练周期是老化期(burn-in period),在老化期期间仅使用源自单等位基因数据集的样本,以便模型学习特定肽-HLA关系。所述三个或更多个周期中的一个周期是泛化期(generalization period),在该泛化期期间使用多等位基因数据集来泛化模型,从而学习患者数据。
根据优选实施方式,通过质谱获得阳性数据集的每个输入-输出对的输入的表位序列。新的技术发展使得实际上在细胞表面与MHC分子结合的质谱推导的肽列表的可用性增加。这些列表被称为“配体组(ligandome)”。在本文的上下文中,术语“配体组”应被理解为细胞和生物体中的蛋白质的分子配体的完整集合。优选地,从来自训练细胞的配体组数据构造输入-输出对的阳性集合。
优选地,根据本发明的深度学习模型是深度语义相似性模型、卷积深度语义相似性模型、递归深度语义相似性模型、深度相关性匹配模型、深度和宽度模型、深度语言模型、变换器网络、长短期记忆网络、所学习的深度学习文本嵌入、所学习的命名实体鉴定、Siamese神经网络、交互Siamese网络或词汇和语义匹配网络中的至少一者、或其任何组合。
优选地,训练深度学习模型包括确定得分函数。更优选地,其中,所述得分函数是均方误差得分函数、平均得分函数或最大得分函数中的一个或更多个。优选地,得分函数被构造为模型输出的可能性和与训练数据集相关联的HLA-新表位关系信息之间的误差平方和。此外,这可以通过使用得分0和1来实现。这些得分表示归因于训练数据集中的地面真值(ground truth)的“未呈递”(=0)和“呈递”(=1)的值。
在本发明的另一个实施方式中,在每个训练步骤调整模型的系数,以便最小化得分函数。神经网络由彼此连接的神经元组成;同时,我们的神经网络的每个连接与权重相关联,当乘以输入值时,该权重指示该关系在神经元中的重要性。为了使神经网络学习,与神经元连接相关联的权重必须在数据通过网络向前传递之后被更新。通常通过称为反向传播的过程,调整这些权重以帮助调和随后正向传递的实际结果和预测结果之间的差异。
优选地,根据本发明的深度学习模型是序列到序列模型。本文使用的“序列到序列模型(seq2seq)”是指现有技术中已知的术语,也称为编码器解码器模型,其优选地应当被理解为这样的模型,其中,编码器读取输入序列并输出单向量,并且其中解码器读取该向量以产生输出序列。因此,这种模型旨在将固定和/或不固定长度的输入与固定和/或不固定长度的输出进行映射,其中输入和输出的长度可以不同。使用seq2seq方法(其中HLA等位基因通过其整个结构的特定的功能上相关的部分的氨基酸序列建模)具有能够外推和预测新表位向HLA等位基因的呈递可能性的优点,该模型未针对HLA等位基因被训练。最优选地,seq2seq模型是变换器网络。
根据优选的实施方式,本发明提供了通过使用新表位嵌入器和位置编码器转换表位序列的相应条目,将多个输入-输出对中的一个输入-输出对的输入处理成嵌入的输入数值向量。嵌入的输入数值向量包括关于组成相应条目的表位序列的多个氨基酸和表位序列中的氨基酸的位置集合的信息。根据另一个优选实施方式,本发明提供了通过使用等位基因嵌入器和位置编码器转换α链的相应肽序列的条目来将该对的输出处理成嵌入的输出数值向量。嵌入的输出数值向量包括关于组成相应条目的肽序列的多个氨基酸和肽序列中的氨基酸的位置集合的信息。以上讨论的嵌入器和编码器允许在处理之前和之后、在训练、验证或使用期间将深度学习模型的输入和输出转换成适当的格式。
最优选地,深度学习模型是变换器网络或变换器。开发变换器网络以解决序列转导或神经机器翻译的问题。意思是,将输入序列变换或匹配到输出序列的任何任务。对于执行序列转导的模型,必须具有某种记忆。它需要计算出输入之间的相关性和连接,包括远程连接。这些变换神经网络利用自注意力的概念,并且能够代替在模型的编码器和解码器之间使用注意力的长短期记忆(long short-term memory,LSTM)或卷积神经网络(convolutional neural network,CNN)的早期方法。自注意力机制允许模型的输入彼此交互并找出它们应该更注意的元素或部分。输出是这些交互和注意力得分的集合。
更详细地,注意力函数可以被描述为将查询(即,序列)和一组密钥值对映射到输出,其中query(q)、keys(k)、value(v)和输出都是向量。密钥和值可以被看作模型的记忆,意味着之前已经处理的所有查询。计算得分以确定序列中的令牌(即,氨基酸)的自我注意力。序列的每个令牌(token)需要相对于需要自注意力计算的令牌进行评分。该得分确定当令牌被编码在某个位置时需要在序列的其它部分上放置多少焦点(focus)。通过取查询向量与被评分的相应令牌的密钥向量的点积来计算该得分。通过采用缩放的点积注意力,输出被计算为值的加权和,其中,分配给每个值的权重由查询与所有密钥的点积确定。
自注意力方法的使用有不同的动机。使用变换器型神经网络的主要优点是编码器自注意力可以被并行化,从而减少了整体模型训练时间。另外一个是网络中的长程依赖性之间的路径长度。学习长程依赖性是许多序列转导任务中的关键挑战。影响学习这种依赖性的能力的一个关键因素是前向和后向信号在网络中必须经过的路径的长度。输入和输出序列中的任何位置组合之间的这些路径越短,学习长程依赖性就越容易。
根据优选实施方式,变换器网络包括编码器和解码器。
所述编码器包括:
ο新表位嵌入器;
ο位置编码器;
ο一个或更多个序列编码器,每个序列编码器包括两个子层:
i.多头自注意力子层;
ii.前馈子层;
所述解码器包括:
ο一个或更多个序列解码器,每个序列解码器包括三个子层:
i.多头自注意力子层;
ii.多头编码器-解码器注意力子层;
iii.前馈子层;
οHLA序列嵌入器;
ο概率发生器,该概率发生器包括:
i.线性映射器;
ii.softmax层。
“嵌入器”使用嵌入算法将每个输入转换成向量或张量。这种变换是必要的,因为许多机器学习算法(包括深度神经网络)要求它们的输入是连续值的向量,因为它们不会对纯文本的字符串起作用。使用嵌入器给出了降维和上下文相似性的优点。通过减少特征或数据集的维数,模型精确率提高,算法训练更快,所需存储空间更少,冗余特征和噪声被去除。一对输入之间的相似性可以通过应用于相应向量对的某种相似性或距离测量来计算,从而给出数据的更有表现力的表示。
在变换中,自注意力忽略令牌在序列中的位置。然而,令牌(即,氨基酸)的位置和顺序是序列的必要部分。为了克服该限制,变换器明确地添加“位置编码”,位置编码是添加到每个令牌的关于它们在序列中的位置的信息片段。输入和输出嵌入序列都被位置编码,以允许自注意力过程正确地推断位置相关的相互依赖性。这些在总和进入第一注意力层之前被添加到输入或输出嵌入。
“序列编码器”由若干相同层的堆叠组成。每层具有两个子层。第一子层是“多头自注意力”机制,第二子层是简单的“前馈网络”。不是只计算一次注意力,而是多头机制多次平行地贯穿缩放点积注意力运行。独立的注意力输出被简单地连结并线性地变换成期望的维度。这扩展了模型聚焦于不同位置的能力。自注意力层的输出被馈送到简单的前馈神经网络,其中,信息仅在一个方向上进一步移动。在两个子层中的每个子层周围使用剩余连接或捷径,这允许模型在初始训练阶段使用更少的层,从而简化网络。每个层以对其自己的输出和剩余连接之和的归一化结束。“序列解码器”与编码器非常相似,但是具有额外的“多头编码器-解码器注意力子层”。编码器-解码器子层不同于编码器或解码器注意力子层。与多头自注意力不同,编码器-解码器注意力子层从它下面的层创建它的查询矩阵,它下面的层是解码器自注意力,并且从编码器层的输出获取密钥和值矩阵。这有助于解码器集中在输入序列中的适当位置。
通过使用“线性映射”或变换和“softmax函数”或“softmax层”,将解码器输出转换为所预测的下一令牌可能性。线性映射层减少了数据的维数以及网络参数的数量。softmax层是多类操作,意味着它们被用于一次确定多个类的概率。由于softmax函数的输出可以被解释为概率,即,它们必须总计为1,所以softmax层通常是在神经网络函数中使用的最终层。
根据优选实施方式,该深度学习模型的训练包括多个训练步骤,每个训练步骤包括根据以下步骤对该多个输入-输出对中的一个输入-输出对进行处理:
ο通过使用新表位嵌入器和位置编码器转换表位序列的相应条目来将所述输入-输出对的输入处理成嵌入的输入数值向量,所述嵌入的输入数值向量包括关于构成所述相应条目的表位序列的多个氨基酸以及所述氨基酸在所述表位序列
中的位置集合的信息;
ο通过使用等位基因嵌入器和位置编码器转换α链的相应肽序列条目来将该对的输出处理成嵌入的输出数值向量,该嵌入的输出数值向量包括关于构成该相应条目的肽序列的多个氨基酸和氨基酸在该肽序列中的位置集合的信息;
ο使用包括多头自注意力子层和前馈子层的至少一个序列编码器将嵌入的输入数值向量处理为经编码的输入数值向量,该经编码的输入数值向量包括关于
表位序列中的相应条目的表位序列的特征的信息;
ο使用多头自注意力子层将嵌入的输出数值向量处理成输出注意力数值向量,该输出注意力数值向量包括关于构成α链的相应肽序列条目的肽序列的多个
氨基酸的相互依赖性的信息;
ο使用多头编码器-解码器注意力子层和前馈子层将经编码的输入数值向量和相应的输出注意力向量处理成相关数值向量,该相关数值向量包括经编码的输
入数值向量和相应的输出注意力向量之间的相关信息;以及
ο使用概率发生器将相关数值向量处理为嵌入的输入数值向量和嵌入的输出数值向量之间的对应关系的概率。
在另一个实施方式中,该对的输入、表位序列和该对的输出、HLA肽序列的嵌入遵循不同模式(modality)之一。
根据第一种可能的模式,每个氨基酸位置是独热编码的,这意味着它被变换成1×20的向量,因为有20个标准氨基酸。除了存在1(一)的一个位置之外,在向量的每个位置处都是0(零)。存在1的位置表示存在实际的氨基酸。以这种方式,例如,9mer被变换成9×20矩阵,其中只有9个位置是1,而所有其它位置是0。
根据第二种可能的模式,每个氨基酸被单独令牌化,这意味着构造氨基酸-到数值字典,其中每个氨基酸由数值表示。例如,脯氨酸被表示为1,而缬氨酸被表示为2,…。以这种方式,9mer被变换成长度为9个数字的向量。
根据第三种可能的模式,每个氨基酸被n个数值的嵌入向量取代。这n个数值涉及氨基酸的特定特征,其可以是物理的、化学的或另外定义的。作为优选的示例,氨基酸通过源自一组物理化学性质/特征的n个主要成分的值被嵌入。因此,在这个示例中,9mer被变换成9×n数值矩阵。
三种可能的嵌入模式可以直接在单个氨基酸位置上执行,其中1个氨基酸被嵌入到1个嵌入向量中。在另一种或进一步的模式中,为了嵌入表位序列(输入)和HLA序列(输出),可以将序列分成长度大于1的串。以这种方式,不考虑单个氨基酸,而是考虑k-mers。
根据另一优选实施方式,所述多个输入-输出对中的一个输入-输出对的处理还包括以下步骤:
ο通过将嵌入的输入数值向量和嵌入的输出数值向量之间的对应关系的概率与和训练数据集相关联的对应关系信息进行比较,获得用于训练的得分函数的数据点;
ο调整与所述深度学习模型相关联的参数以优化所述得分函数;
优选地其中,所述得分函数是均方误差得分函数、平均得分函数或最大得分函数中的一个或更多个。
在一个实施方式中,得分函数可以是二进制交叉熵损失函数。
在本发明的实施方式中,如前所述,阳性输入-输出对可以被分配不同的权重,优选地取决于用于构建阳性训练集的质谱数据中的出现频率。权重修改了阳性输入-输出对对深度学习模型训练的影响。当用所述输入-输出对训练模型时,较大的权重将导致与深度学习模型相关联的参数的较大调整。
根据另一优选实施方式,变换器网络包括编码器但不包括解码器。在该网络中,输入表位序列和输入HLA序列嵌入向量都被处理为单向量。为了指示输入嵌入向量的值是否涉及新表位或HLA,执行一种类型的掩蔽(mask)。这意味着例如与表位输入相关联的数值的符号改变,而与HLA输入相关联的所述符号不改变。此外,在该网络模型中,将定制分隔符值插入输入嵌入向量的各个位置,特别是在向量的起点和/或终点处、以及在表位相关值和HLA相关值之间。这样,可以将两个输入序列处理为单向量,同时仍然能够区分两个输入序列。
根据另一个优选实施方式,在训练该模型之后,获得以下各项中的一项或更多项:
-在给定正确结构的情况下可用于再现其函数的系数集合;
-描述训练模型的所有方面的参数集合;
-可用于重新生成推理/测试模型的结构方案;
-在模型训练期间观察到的HLA字典。
根据一个实施方式,本发明提供了一种方法,其中可以相对于中心使用结构来训练其它半独立模型以考虑其它相关的生物参数。这些生物学参数包括:推导新表位的基因的RNA表达、样本中所有其它基因的RNA表达、非编码RNA的表达、翻译后修饰状态、RNA编辑事件、每种免疫细胞类型的免疫得分、样本的克隆性、所有基因组改变事件的置信度得分、通过其它工具预测的肽-MHC结合亲和力、肽-MHC复合体稳定性、肽稳定性和转化率、新表位原始蛋白内的相邻氨基酸、蛋白酶体活性和肽加工活性。以这样的方式设置模型结构,即,使得该列表上的任何缺失数据将不会阻止模型输出呈递概率。
根据一个优选实施方式,本发明还包括以下步骤:
-在半独立训练数据集上训练半独立神经网络,所述半独立训练数据集至少包括所述深度学习模型或其变体的阳性数据集和相关联的预测改进参数训练数据集,其中,所述相关联的预测改进参数训练数据集涉及以下一个或更多个生物参数:推导所述新表位的基因的RNA表达、癌组织样本中的多个基因的RNA表达、非编码RNA序列的表达、翻译后修饰信息、RNA编辑事件信息、多种免疫细胞类型的免疫得分、癌组织样本的克隆性、多个基因组改变事件的置信度得分、肽-MHC结合亲和力、肽-MHC复合体稳定性、肽稳定性和/或转化率、新表位序列内的相邻氨基酸、蛋白酶体活性和肽加工活性,
优选地,其中所述相关联的预测改进参数训练数据集至少涉及新表位序列中的相邻氨基酸;
-通过经训练的半独立神经网络确定HLA的肽序列的该组新抗原中的每一个的半独立呈递可能性;以及
-针对该组新抗原中的每种新抗原,组合所确定的半独立呈递可能性和通过训练模型获得的呈递可能性,以获得总体呈递可能性;
优选地,其中,通过经训练的单层神经网络执行组合;
优选地,其中,所述半独立神经网络是单层神经网络;
优选地,其中,来自受试者的与所述肿瘤相关联的肿瘤细胞和正常细胞的外显子组或全基因组核苷酸测序数据和转录组核苷酸测序数据中的至少一者分别是从受试者的癌组织样本和健康组织样本获得的。
根据一个实施方式,通过使用Adam-类型优化算法来执行所有子层的训练。优化器是用于改变您的神经网络的属性(诸如权重和学习率)以减少损失或误差并有助于更快地获得结果的算法或方法。该算法利用自适应学习速率方法的能力来为每个参数找到单独的学习速率。Adam使用梯度的第一矩和第二矩的估计来适应神经网络的每个权重的学习速率。
根据一个实施方式,针对5折交叉验证的5个时期来训练深度学习模型,优选地训练变换器网络。对于新数据的模型,k折交叉验证易于理解,易于实现,并且导致技能估计,其通常具有比其它方法更低的偏差。在k折交叉验证中,存在与k的选择相关联的偏差-方差折衷。使用k=5执行k折交叉验证,产生既不遭受过高偏差也不遭受极高方差的测试错误率估计。
本文使用的“时期(Epoch)”是指现有技术中已知的术语,其应当优选地被理解为机器学习算法完成时经过整个训练数据集的次数的指示。一个时期是通过整个训练数据集的一个周期。
本文使用的“k折交叉验证”是指现有技术中已知的术语,其应当优选地被理解为估计机器学习模型的技能的统计方法。该方法包括重复地将一组观察结果随机地分成k组,或近似相等大小的组(fold)。第一组被看作验证集合,并且该方法适用于剩余的k-1个组。k折交叉验证运行的结果通常用模型技能得分的平均值概述。还良好实践的是,包括技能得分的方差的度量,诸如标准偏差或标准误差。
通过以下非限制性示例进一步描述本发明,非限制性示例进一步说明本发明,并且不旨在也不应该被解释为限制本发明。
示例
示例1:
本示例涉及根据本发明的序列到序列变换模型的训练。
序列到序列变换模型具有以下结构:
-编码器:
ο新表位嵌入器;
ο位置编码器;
ο一个或更多个序列编码器,每个序列编码器包括两个子层:
i.多头自注意力子层;
ii.前馈子层;
-解码器:
ο一个或更多个序列解码器,每个序列编码器包括三个子层:
i.多头自注意力子层;
ii.多头编码器-解码器注意力子层;
iii.前馈子层;
οHLA序列嵌入器;
ο概率发生器,所述概率发生器包括:
i.线性映射器;
ii.softmax层。
通过经由该模型处理阳性和阴性输入-输出对的集合来训练上述序列到序列变换模型。
从来自单等位基因人类细胞系或多等位基因人类组织(健康的或癌变的)的配体组数据构建输入-输出对的阳性集合。每个阳性输入由给定数据集中的被显示为呈递在细胞表面的表位(8-15个氨基酸)的序列组成。每个相关的阳性输出由相同数据集中的细胞表达的HLA等位基因的α链的串联氨基酸序列(71个氨基酸)组成。
从人类蛋白质组构造输入-输出对的阴性集合。每个输入是来自在任何配体组数据集中的未呈递人类蛋白质组的随机8mer-15mer序列。每个相关输出是在阳性数据集中的呈递HLA等位基因的随机集合的α链的序列的连结。
通过该模型如下处理每个训练输入-输出对:
-如果需要的话,输入肽用“.”令牌填充至长度为15,然后通过新表位嵌入器将得到的序列嵌入到21*15独热张量中。
-基于序列的模型根据其两条与肽相互作用的α-螺旋的序列,通过等位基因嵌入器,将每个HLA嵌入到21*71独热张量中。
-然后对输入和输出嵌入序列进行位置编码,以允许自注意力过程正确地推断位置相关的相互依赖性。
-每个序列编码器顺序地处理嵌入的输入序列。自注意力子层学习肽内相互依赖性,并且前馈子层相应地处理输入嵌入。
-该编码过程的结果是输入的新肽的固定尺寸的特征代表性编码。
-依次处理嵌入的HLA序列输入,并在每个解码器中与经编码的新表位输入顺序地组合,逐渐形成嵌入的输出序列。自注意力子层学习等位基因内相互依赖性;肽注意力子层将经编码的肽表示与嵌入的输出相关联,并且前馈子层相应地对嵌入的输出施加修饰。在该步骤中,建立输入和输出之间的对应关系。应当注意,允许序列内相互依赖性的检测的注意力子层显著地改进了模型的整体预测能力。
-最后,通过生成器处理嵌入的输出以输出嵌入的输入和嵌入的输出之间的对应关系的概率,表示呈递的概率(0到1,1是最高概率)。
-得分函数被构建为模型输出的概率与实际HLA-肽关系之间的平方误差之和(0:肽不呈递在表达该等位基因的细胞表面,即,肽是上述阴性数据集的一部分-1:肽呈递在表达该等位基因的细胞表面,即,是上述阳性数据集的一部分)。
聚集数据的其它方式也是可能的,诸如考虑平均得分函数或最大得分函数。
-在每个训练步骤,即,利用每个新的输入-输出对处理,调整模型的系数以最小化如此定义的得分函数。
该模型被训练如下:
-该模型被训练5折交叉验证的5个时期。
-该模型的训练遵循以下步骤:首先,在所有样本上训练该模型以简单地逐个氨基酸地预测由等位基因的特定集合呈递的氨基酸的完整序列(自我监督学习)。然后,仅将从单等位基因HLA数据集(例如,从单等位基因细胞系)导出的样本用于训练(“老化”期),以便模型学习特定肽-HLA关系。最后,将HLA多等位基因实例用于训练,以便将模型学习泛化到实际的患者数据。
-使用ADAM-类型优化器来完成模型的所有层的训练。
在训练结束时,模型输出可用于在给定正确结构的情况下再现其函数的系数集合、描述模型的训练的所有方面的参数集合、可用于重新生成用于推断/测试的模型的结构方案、以及在模型训练期间看到的HLA字典。
示例2:
本示例涉及在根据本发明的工作流程中使用根据示例1的训练模型。
该实施方式提供了用于预测在癌细胞表面呈递由细胞表达的HLA等位基因集合的可变长度新表位的可能性的工作流程。
工作流程使用序列到序列变换模型。这种模型允许外推和预测新表位对任何HLA等位基因的呈递可能性,即使没有对其进行训练。
工作流程如下:
-首先,利用关于癌症活检的下一代测序数据发现新肽。DNA和RNA测序数据都用于提取可能递送新表位的异常基因组事件集合。
-这些事件基于支持它们的测序读数(reads)的数目和它们在基因组中的普遍性而被给予置信度得分,并且来自最高置信度事件的表位被选择用于后续步骤。
-还使用相同的基因组数据评估活检的HLA组成。
-将所选肽的序列与已知HLA的序列一起提供给经训练的模型。
-该模型计算所提供集合中的每个HLA的肽呈递概率,并基于这些单个值输出总体肽概率。
另外,工作流程可以包括或可以不包括通过向模型提供其它生物学参数(诸如,RNA表达水平、MHC结合可能性或新表位蛋白上下文)来使概率预测的步骤更精确。
示例3:
本示例涉及根据示例1的变换模型的另选实现。
如以上示例1所述,如果需要,输入的新表位序列用“.”令牌填充至长度为15,并且得到的序列然后由新表位嵌入器嵌入到21×15的独热张量中。示例1的模型因此要求序列在正确长度范围内。然而,该模型也可以被实现为允许任何长度的表位和HLA。类似地,该模型可以被实现为允许可变长度嵌入。此外,可以实现该模型以便允许嵌入到不同大小的矩阵上,矩阵达300×15。
如以上在示例1中所述,该模型是基于序列的,并且根据其两条与肽相互作用的α-螺旋的序列,通过等位基因嵌入器将每个HLA嵌入到21*71的独热张量中。另选地,模型可以将相关联的HLA处理为分类编码。分类编码是指将分类特征变换成一个或更多个数字特征。因此,根据中央储存库对每个HLA进行编码,该中央储存库重组在建立模型时已知的所有HLA序列。另选地,该模型也可以是非基于序列的。从而,HLA基于它们先前的中央储存库编码被独热编码。一个接一个地处理相关的HLA序列。因此,对于在特定样本中发现与之相关联的每个HLA序列,特定的新表位将被一次处理。如果HLA等位基因氨基酸序列未知,该模型将不能输出预测。这是一些不常发生的HLA等位基因的不常发生但真正的概率。
示例4:
本示例涉及使用根据示例2的工作流程来确定对受试者的治疗。
治疗的确定如下:
-基于所确定的呈递可能性选择所鉴定的新抗原集合的子集以获得所选择的新抗原的子集,
其中,该子集是通过将所述新抗原的集合中的每种新抗原的呈递可能性与阈值进行比较而获得的,并且其中,如果相关联的呈递可能性超过所述阈值,则将
新抗原添加至所述子集;以及
-鉴定对所述子集中的至少一种新抗原具有抗原特异性的一种或多种T-细胞。
示例5:
本示例涉及一种改进的模型,该模型包括根据示例1的序列到序列变换模型以及所述变换模型的一个或更多个半独立模型。改进的模型可以用在根据示例2的工作流中,以用于确定对受试者的治疗。
根据本示例,多个半独立单层神经网络模型相对于中心变换器结构被训练以考虑其它相关生物参数。因此,通过在半独立训练数据集上训练单层神经网络来训练所述多个半独立模型中的每个半独立模型,所述半独立训练数据集包括序列到序列变换模型的训练数据集和相关联的预测改进参数训练数据集。通过考虑来自预测改进参数训练数据集的参数,提高了整体预测准确度。
所述多个半独立单层神经网络模型中的每个的参数训练数据集涉及一个或更多个生物参数:推导新表位的基因的RNA表达、癌组织样本中除了推导新表位的基因之外的所有基因的RNA表达、非编码RNA序列的表达、翻译后修饰状态、RNA编辑事件、每种免疫细胞类型的免疫得分、癌组织样本的克隆性、所有基因组改变事件的置信度得分、通过其它工具预测的肽-MHC结合亲和力、肽-MHC复合体稳定性、肽稳定性和转化率、新表位原始蛋白内的相邻氨基酸、蛋白酶体活性和肽加工活性。
在训练每个半独立模型后,通过经训练的半独立神经网络确定HLA的肽序列的新抗原集合中的每个新抗原的半独立呈递可能性。然后,将所确定的半独立呈递可能性与所确定的半独立呈递可能性和通过训练模型获得的呈递可能性组合,以获得总呈递可能性。根据本示例,通过经训练的单层神经网络来执行组合。
实例6:
该示例涉及根据本发明的模型与现有技术算法、EDGE算法和MHCflurry算法之间的比较。
根据本发明的序列到序列变换模型被开发并对以下进行训练:
-阳性数据集,其包括326.297个公众可获得的输入-输出对,其中每个输入-输出对包括作为输入的表位序列的条目,所述表位序列从由训练细胞表达的相应HLA等位基因编码的表面结合或分泌的HLA/肽复合体鉴定或推断,其中每个输入-输出对还包括作为输出的由所述相应HLA等位基因编码的α链的肽序列的条目;可公开地从以下获得:Abelin等人,2017;Bulik-Sullivan等人,2019;di Marco等人,2017;Sarkizova等人,2019;以及Trolle等人,2016;以及
-包括652.594个输入-输出对的阴性数据集,每个输入-输出对包括作为输入的肽序列的条目,其中,所述肽序列是人类蛋白质组的随机序列,并且其中,每个输入-输出对还包括作为输出的由随机HLA等位基因编码的肽序列。
然后,在测试数据集上测试该模型,该测试数据集包括:
-729个阳性对,选自EDGE算法的已发表测试数据集(Bulik-Sullivan等人,2019),以及
-1.822.500个阴性对,每个阴性对包括作为输入的肽序列的条目,其中,所述肽序列是人类蛋白质组的随机序列,并且其中,每个阴性对还包括作为输出的由随机HLA等位基因编码的肽序列。
注意不将已经包括在模型的训练阶段中的对包括在测试数据集中。
生成测试数据集精确率-召回率曲线。精确率被测量为真正呈递的被称为阳性表位的比例,而召回率测量真正阳性表位(被准确地称为阳性的)的比例。这样,精确率-召回率曲线是模型准确地调用期望的阳性结果而不出错的能力的良好量度。模型越好,精确率-召回率曲线越偏向右上角。
结果在图1A中示出,其中根据本发明的变换模型的结果以蓝色示出(最偏向右上角),而EDGE算法的结果以黑色示出。此外,(基本平坦的)绿线表示基于亲和力的模型MHCflurry所达到的最佳精确率。
从这些结果可以清楚地看出,根据本发明的模型在相同的测试数据集上优于接近的现有技术算法EDGE、以及当前最先进的工业方法,如MHCflurry。
实例7:
该示例涉及根据本发明的模型用于外推和预测的能力。
作为序列到序列算法,模型不是从分类数据,而是从比较和绘制两个序列之间的相关性推导其预测能力。这意味着只要它们的蛋白质序列是已知的,就能够预测没有训练数据可用的HLA等位基因。
考虑到获得新的训练数据是长且昂贵的过程,这种外推/预测能力是真正的优点。
为了测试这种能力,如示例6中那样训练该模型,并且从与HLA-A*74:02等位基因唯一相关联的2.039个阳性对以及5.097.500个阴性对构建新的测试数据集,对于所述阳性对,在训练集中不存在数据,每个阴性对包括作为输入的肽序列的条目,其中,所述肽序列是人类蛋白质组的随机序列,并且其中,每个阴性对还包括作为输出的由随机HLA等位基因编码的肽序列。
结果如图1B所示。精确率-召回率曲线清楚地表明,根据本发明的模型具有非常好的预测能力,即使在这个以前看不见的等位基因上。

Claims (15)

1.一种用于确定受试者的肿瘤的肿瘤细胞对新抗原集合的呈递可能性的计算机实现的方法,所述计算机实现的方法包括以下步骤:
-从受试者的与所述肿瘤相关联的肿瘤细胞和正常细胞获得外显子组或全基因组核苷酸测序数据和转录组核苷酸测序数据中的至少一者;
-通过将来自所述肿瘤细胞的所述外显子组和/或全基因组核苷酸测序数据和所述转录组核苷酸测序数据与来自所述正常细胞的所述外显子组和/或全基因组核苷酸测序数据和所述转录组核苷酸测序数据进行比较,获得与所述肿瘤相关联的异常基因组事件集合;
-获得表示至少部分地基于所述异常事件集合鉴定的新抗原集合中的每种新抗原的肽序列的数据,其中,每种新抗原的肽序列包括至少一个改变,所述改变使所述肽序列与从所述受试者的所述正常细胞鉴定的相应野生型肽序列不同;
-基于来自所述肿瘤细胞的所述肿瘤外显子组和/或全基因组核苷酸测序数据和所述转录组核苷酸测序数据获得表示HLA的肽序列的数据;
-在包括阳性数据集的训练数据集上训练深度学习模型,其中,所述阳性数据集包括多个输入-输出对,其中,每个输入-输出对包括作为输入的表位序列的条目,所述表位序列从由训练细胞表达的相应HLA等位基因编码的表面结合或分泌的HLA/肽复合体鉴定或推断,其中,每个输入-输出对还包括作为输出的由所述相应HLA等位基因编码的α链的肽序列的条目;以及
-通过经训练的模型确定所述HLA的所述肽序列的所述新抗原集合中的每种新抗原的呈递可能性。
2.根据权利要求1所述的方法,所述方法还包括以下步骤:
-至少部分地基于支持每个相关联的异常基因组事件的测序数据的测序读数的数目,将置信度得分与所述异常基因组事件集合中的每个异常基因组事件相关联;
-通过将所述异常基因组事件集合中的每个异常基因组事件的所述置信度得分与阈值进行比较来获得异常基因组事件的子集,其中,如果所述相关联的置信度得分超过所述阈值,则将事件添加到所述子集;
其中,所述新抗原集合至少部分地基于所述异常基因组事件的子集来鉴定。
3.根据权利要求1或2中任一项所述的方法,其中,所述阳性数据集包括单等位基因和多等位基因数据集,其中,所述单等位基因数据集包括从来自单等位基因细胞系的训练细胞获得的输入-输出对,并且其中,所述多等位基因数据集包括从来自多等位基因组织的训练细胞获得的输入-输出对。
4.根据权利要求3所述的方法,其中,所述深度学习模型的训练包括两个或更多个训练周期,其中,每个训练周期包括多个训练步骤,其中,每个训练步骤包括处理所述多个输入-输出对中的一个输入-输出对,其中,所述两个或更多个训练周期中的一个训练周期包括对所述单等位基因数据集训练所述深度学习模型,并且其中,所述两个或更多个训练周期中的一个训练周期包括对所述单等位基因数据集和所述多等位基因数据集两者训练所述深度学习模型。
5.根据权利要求1至4中任一项所述的方法,其中,用于训练所述深度学习模型的所述训练数据集还包括阴性数据集,所述阴性数据集包括多个输入-输出对,每个输入-输出对包括作为输入的肽序列的条目,其中,所述肽序列是人类蛋白质组的随机序列,并且其中,每个输入-输出对还包括作为输出的由随机HLA等位基因编码的肽序列。
6.根据权利要求1至5中任一项所述的方法,其中,所述深度学习模型是深度语义相似性模型、卷积深度语义相似性模型、递归深度语义相似性模型、深度相关性匹配模型、深度和宽度模型、深度语言模型、变换器网络、长短期记忆网络、所学习的深度学习文本嵌入、所学习的命名实体鉴定、Siamese神经网络、交互Siamese网络或词汇和语义匹配网络或其组合中的至少一者。
7.根据权利要求1至6中任一项所述的方法,其中,所述深度学习模型是变换器网络。
8.根据权利要求1至7中任一项所述的方法,其中,所述深度学习模型的训练包括多个训练步骤,每个训练步骤包括根据以下步骤处理所述多个输入-输出对中的一个输入-输出对:
ο通过使用新表位嵌入器和位置编码器转换表位序列的相应条目,将所述输入-输出对的输入处理成嵌入的输入数值向量,所述嵌入的输入数值向量包括关于组成所述相应条目的表位序列的多个氨基酸和所述表位序列中的氨基酸的位置集合的信息;
ο通过使用等位基因嵌入器和位置编码器转换所述α链的所述肽序列的相应条目,将所述输入-输出对的所述输出处理成嵌入的输出数值向量,所述嵌入的输出数值向量包括关于组成所述相应条目的所述肽序列的多个氨基酸和所述肽序列中的所述氨基酸的位置集合的信息;
ο使用包括多头自注意力子层和前馈子层的至少一个序列编码器,将所述嵌入的输入数值向量处理为经编码的输入数值向量,所述经编码的输入数值向量包括关于所述表位序列的相应条目的所述表位序列的特征的信息;
ο使用多头自注意力子层将所述嵌入的输出数值向量处理成输出注意力数值向量,所述输出注意力数值向量包括关于组成所述α链的所述肽序列的所述相应条目的所述肽序列的所述多个氨基酸的相互依赖性的信息;
ο使用多头编码器-解码器注意力子层和前馈子层将所述经编码的输入数值向量和相应的输出注意力向量处理成相关数值向量,所述相关数值向量包括所述经编码的输入数值向量和相应的输出注意力向量之间的相关信息;以及
ο使用概率发生器将所述相关数值向量处理为所述嵌入的输入数值向量和所述嵌入的输出数值向量之间的对应关系的概率。
9.根据权利要求8所述的方法,其中,处理所述多个输入-输出对中的一个输入-输出对还包括以下步骤:
ο通过将所述嵌入的输入数值向量和所述嵌入的输出数值向量之间的对应关系的概率与和所述训练数据集相关联的对应关系信息进行比较,获得用于训练的得分函数的数据点;
ο调整与所述深度学习模型相关联的参数以优化所述得分函数;
优选地,其中,所述得分函数是误差平方和得分函数、平均得分函数或最大得分函数中的一者或更多者。
10.根据权利要求7至9中任一项所述的方法,其中,所述变换器网络包括编码器和解码器;
所述编码器包括:
ο新表位嵌入器;
ο位置编码器;
ο一个或更多个序列编码器,每个序列编码器包括两个子层:
i.多头自注意力子层;
ii.前馈子层;
所述解码器包括:
ο一个或更多个序列解码器,每个序列解码器包括三个子层:
i.多头自注意力子层;
ii.多头编码器-解码器注意力子层;
iii.前馈子层;
οHLA序列嵌入器;
ο概率发生器,所述概率发生器包括:
i.线性映射器;
ii.softmax层。
11.根据权利要求1至10中任一项所述的方法,所述方法还包括以下步骤:
-在半独立训练数据集上训练半独立神经网络,所述半独立训练数据集至少包括所述深度学习模型或其变体的阳性数据集和相关联的预测改进参数训练数据集,其中,所述相关联的预测改进参数训练数据集涉及以下一个或更多个生物参数:推导所述新表位的基因的RNA表达、癌组织样本中的多个基因的RNA表达、非编码RNA序列的表达、翻译后修饰信息、RNA编辑事件信息、多种免疫细胞类型的免疫分数、癌组织样本的克隆性、多种基因组改变事件的置信度得分、肽-MHC结合亲和力、肽-MHC复合体稳定性、肽稳定性和/或转化率、所述新表位序列内的相邻氨基酸、蛋白酶体活性和肽加工活性,优选地其中,所述相关联的预测改进参数训练数据集至少涉及所述新表位序列内的相邻氨基酸;
-通过所述经训练的半独立神经网络确定所述HLA的所述肽序列的所述新抗原集合中的每种新抗原的半独立呈递可能性;以及
-针对所述新抗原集合中的每种新抗原,组合所确定的半独立呈递可能性和通过所述经训练的模型获得的呈递可能性,以获得总体呈递可能性;
优选地,其中,通过经训练的单层神经网络执行组合;
优选地,其中,所述半独立神经网络是单层神经网络。
12.一种用于通过受试者的肿瘤的肿瘤细胞确定新抗原集合的呈递可能性的计算机系统,所述计算机系统被配置用于执行根据权利要求1至11中任一项所述的计算机实现的方法。
13.一种用于通过受试者的肿瘤的肿瘤细胞确定新抗原集合的呈递可能性的计算机程序产品,所述计算机程序产品包括指令,当所述计算机程序产品由计算机执行时,所述指令使所述计算机执行根据前述权利要求1至11中任一项所述的计算机实现的方法。
14.一种根据权利要求1至11中任一项所述的计算机实现的方法和/或根据权利要求12所述的计算机系统和/或根据权利要求13所述的计算机程序产品的用于确定对所述受试者的治疗的用途。
15.根据权利要求14所述的用途,其中,确定治疗包括:基于所确定的呈递可能性选择所鉴定的新抗原集合的子集以获得所选择的新抗原的子集,优选地其中,所述子集通过将所述新抗原集合中的每种新抗原的呈递可能性与阈值进行比较来获得,其中,如果所述相关联的呈递可能性超过所述阈值,则将新抗原添加至所述子集;以及鉴定对所述子集中的至少一种新抗原具有抗原特异性的一种或更多种T-细胞。
CN202180048981.5A 2020-07-14 2021-07-12 用于确定新抗原的呈递可能性的方法、系统和计算机程序产品 Pending CN115836350A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20185779.4 2020-07-14
EP20185779 2020-07-14
PCT/EP2021/069341 WO2022013154A1 (en) 2020-07-14 2021-07-12 Method, system and computer program product for determining presentation likelihoods of neoantigens

Publications (1)

Publication Number Publication Date
CN115836350A true CN115836350A (zh) 2023-03-21

Family

ID=71620189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180048981.5A Pending CN115836350A (zh) 2020-07-14 2021-07-12 用于确定新抗原的呈递可能性的方法、系统和计算机程序产品

Country Status (5)

Country Link
US (1) US20230298692A1 (zh)
EP (1) EP4182928A1 (zh)
JP (1) JP2023534220A (zh)
CN (1) CN115836350A (zh)
WO (1) WO2022013154A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512762B (zh) * 2022-10-26 2023-06-20 北京百度网讯科技有限公司 多肽序列的生成方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016128060A1 (en) 2015-02-12 2016-08-18 Biontech Ag Predicting t cell epitopes useful for vaccination
US20170199961A1 (en) 2015-12-16 2017-07-13 Gritstone Oncology, Inc. Neoantigen Identification, Manufacture, and Use
GB201607521D0 (en) 2016-04-29 2016-06-15 Oncolmmunity As Method
US10350280B2 (en) 2016-08-31 2019-07-16 Medgenome Inc. Methods to analyze genetic alterations in cancer to identify therapeutic peptide vaccines and kits therefore
WO2018227030A1 (en) * 2017-06-09 2018-12-13 Gritstone Oncology, Inc. Neoantigen identification, manufacture, and use

Also Published As

Publication number Publication date
US20230298692A1 (en) 2023-09-21
EP4182928A1 (en) 2023-05-24
WO2022013154A1 (en) 2022-01-20
JP2023534220A (ja) 2023-08-08

Similar Documents

Publication Publication Date Title
JP7275228B2 (ja) バリアントの分類のための深層畳み込みニューラルネットワーク
CN111161793B (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN110945594A (zh) 基于深度学习的剪接位点分类
Liu et al. An in-silico method for prediction of polyadenylation signals in human sequences
CA2930597A1 (en) Methods for the graphical representation of genomic sequence data
CN114023376B (zh) 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
CN110892484A (zh) 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
CN114420211A (zh) 一种基于注意力机制的rna-蛋白质结合位点预测方法
Yang et al. NCResNet: noncoding ribonucleic acid prediction based on a deep resident network of ribonucleic acid sequences
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
CN115836350A (zh) 用于确定新抗原的呈递可能性的方法、系统和计算机程序产品
Nabeel Asim et al. DNA-MP: a generalized DNA modifications predictor for multiple species based on powerful sequence encoding method
Wang et al. Enhancer-FRL: improved and robust identification of enhancers and their activities using feature representation learning
Souaiaia et al. ComB: SNP calling and mapping analysis for color and nucleotide space platforms
Azad et al. Effects of choice of DNA sequence model structure on gene identification accuracy
CN113539358B (zh) 基于Hilbert编码的增强子-启动子相互作用预测方法及装置
Nasser et al. Multiple sequence alignment using fuzzy logic
CN114582420A (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
Gupta et al. DAVI: Deep learning-based tool for alignment and single nucleotide variant identification
Sun et al. B-cell epitope prediction method based on deep ensemble architecture and sequences
Sanabria et al. The human genome’s vocabulary as proposed by the DNA language model GROVER
CN116364195B (zh) 一种基于预训练模型的微生物遗传序列表型预测方法
Ramachandran et al. HELLO: A hybrid variant calling approach
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
US20220327425A1 (en) Peptide mutation policies for targeted immunotherapy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination