CN115997254A - 基于注意力的神经网络用以预测肽结合、呈递和免疫原性 - Google Patents

基于注意力的神经网络用以预测肽结合、呈递和免疫原性 Download PDF

Info

Publication number
CN115997254A
CN115997254A CN202180046244.1A CN202180046244A CN115997254A CN 115997254 A CN115997254 A CN 115997254A CN 202180046244 A CN202180046244 A CN 202180046244A CN 115997254 A CN115997254 A CN 115997254A
Authority
CN
China
Prior art keywords
peptide
sequence
attention
representation
mhc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180046244.1A
Other languages
English (en)
Inventor
刘凯
N·W·卢恩斯伯里
W·J·斯瑞福特
A·Q·布劳徳维尔
L·Y·德拉玛尔
S·S·朱恩瓦拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genentech Inc
Original Assignee
Genentech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genentech Inc filed Critical Genentech Inc
Publication of CN115997254A publication Critical patent/CN115997254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/0005Vertebrate antigens
    • A61K39/0011Cancer antigens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Oncology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mycology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)

Abstract

本文公开的实施方案一般地涉及使用基于注意力的机器学习模型来生成输出,所述输出包括针对对应的肽‑免疫蛋白质复合体(IPC)组合的针对靶相互作用的相互作用预测、相互作用亲和力预测或关于靶相互作用的免疫原性预测中的至少一者。靶相互作用可以在肽与免疫原性复合体(IPC)之间,所述免疫原性复合体为诸如例如主要组织相容性复合体(MHC)、T细胞受体(TCR),或两者。可以识别、制造和/或使用包含一种或多种肽的药物组合物,经预测对所述一种或多种肽而言更有可能发生一种或多种靶相互作用。可以定义和/或使用包括施用此类药物组合物的治疗的方法。

Description

基于注意力的神经网络用以预测肽结合、呈递和免疫原性
相关申请的交叉引用
本申请要求2020年7月17日提交的标题为“基于注意力的神经网络用以预测肽结合、呈递和免疫原性”的美国临时申请第63/053,307号的优先权,并与在同一日期提交的标题为“基于注意力的神经网络用以预测肽结合、呈递和免疫原性”的美国专利申请第___号(代理人案卷号:59868.23US01)相关,两者均通过引用以其全文并入本文。
技术领域
本公开总体上涉及使用机器学习模型(例如,包括注意力机制)来生成与以下内容相关联的预测:目标肽(例如,突变肽)是否将经历与免疫蛋白复合物(IPC)的靶相互作用(例如,与MHC分子结合、由MHC分子呈递、与TCR结合等);与此类靶相互作用相关联的亲和力;和/或肽触发免疫应答的能力。本公开进一步涉及包括基于此类预测选择的用于治疗的某些突变肽(或相关联的前体或序列)的组合物和使用这些突变肽的方法。
背景技术
新抗原疫苗是用于提供个体化癌症治疗的一种相对较新的方法。新抗原是肿瘤特异性抗原,其来源于肿瘤中的体细胞突变,并由受试者的癌细胞和抗原呈递细胞呈递。
新抗原疫苗可以启动受试者的T细胞以识别和攻击表达一种或多种特定肿瘤新抗原的癌细胞。这种方法产生一种肿瘤特异性免疫应答,在靶向肿瘤细胞的同时避开健康细胞。然而,至于哪些新抗原既由受试者的肿瘤细胞产生,又由受试者的主要组织相容性复合体(MHC)分子呈递,受试者之间存在高度可变性。因此,可以开发个体化疫苗并将其用于特定受试者。个体化疫苗可以基于受试者特定肿瘤谱进行工程化或选取。可以通过确定来自受试者肿瘤细胞的DNA和/或RNA序列并使用这些序列来识别存在于肿瘤细胞中但不存在于正常细胞中的抗原来定义肿瘤谱。
在许多情况下,在肿瘤细胞中检测到突变序列的绝大多数对应于实际上并未在肿瘤细胞表面呈递的新抗原。此类新抗原将不适合个体化疫苗。例如,检测到的肽序列可以识别突变肽中的氨基酸,该突变肽在细胞内产生但未能与MHC-I或MHC-II分子结合和/或未能(在细胞表面)由MHC-I或MHC-II分子呈递。或者,能够由MHC-I或MHC-II分子呈递的突变肽可能不会在细胞内产生。在任一种情况下,突变肽都将无法触发免疫应答,例如在MHC-I分子的情况下通过CD8+细胞毒性T淋巴细胞触发或在MHC-II分子的情况下通过CD4+辅助T细胞触发。
因此,用于识别针对仅侧重于检测突变肽序列或预测哪些突变肽序列将发生单一生物相互作用(例如,肽是否会与分子结合)的疫苗的新抗原候选的序列分析可能会生成许多假正。这种类型的序列分析在开发旨在引发免疫应答的个体化疫苗方面是无效的。
因此,可能需要预测给定受试者的肿瘤细胞呈递哪些新抗原和/或包含该新抗原的疫苗将针对哪些新抗原触发强烈的免疫应答。
发明内容
在一个或多个实施例中,提供了一种方法。该方法包括访问表征肽集的肽序列集,该肽序列集的每个肽序列已通过处理来自受试者的疾病样品而识别。该方法包括访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列。该方法包括使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示免疫蛋白复合物(IPC)序列的IPC表示,以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。该方法包括基于输出生成报告。
在一个或多个实施例中,疫苗包括:一种或多种肽;编码一种或多种肽的多种核酸;或表达一种或多种肽的多种细胞。一种或多种肽选自基于由本文公开的一种或多种方法的部分或全部生成的报告的肽集。一种或多种肽是肽集的不完整子集。
在一个或多个实施例中,提供了一种用于制造疫苗的方法。该方法包括生产一种疫苗,该疫苗包括:一种或多种肽;编码一种或多种肽的多种核酸;或表达一种或多种肽的多种细胞。一种或多种肽选自基于由本文公开的一种或多种方法的部分或全部生成的报告的肽集。一种或多种肽是肽集的不完整子集。
在一个或多个实施例中,提供了包含一种或多种肽的药物组合物,该肽选自基于由本文公开的一种或多种方法的部分或全部生成的报告的肽集。一种或多种肽是肽集的不完整子集。
在一个或多个实施例中,提供了一种药物组合物,其包含编码一种或多种肽的核酸序列,该一种或多种肽已选自基于由本文公开的一种或多种方法的部分或全部生成的报告的肽集。一种或多种肽是肽集的不完整子集。
在一个或多个实施例中,提供了基于由本文公开的一种或多种方法的部分或全部生成的报告识别的免疫原性肽。
在一个或多个实施例中,提供了基于由本文公开的一种或多种方法的部分或全部生成的报告识别的核酸序列。
在一个或多个实施例中,提供了一种治疗受试者的方法。该方法包括施用基于由本文公开的一种或多种方法的部分或全部生成的报告而识别的一种或多种肽、一种或多种药物组合物或一种或多种核酸序列中的至少一者。
在一个或多个实施例中,提供了一种方法,该方法包括处理从受试者获得的生物样品集以生成表征肽集的肽序列集。该方法包括处理从受试者获得的生物样品集以生成针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列。该方法包括使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块生成表示肽序列集的肽表示集。该方法包括使用初始注意力子系统中的第二注意力块生成表示IPC序列的免疫蛋白复合物(IPC)表示。该方法包括处理肽表示集和IPC表示集以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者,该对应肽-IPC组合包括肽集中的肽。
在一个或多个实施例中,提供了一种方法。该方法包括在用户设备处接收为受试者设计个体化疫苗的请求。该方法包括从用户设备向远程系统发送通信,该通信包括受试者的标识符。远程系统被配置为:访问表征肽集的肽序列集,该肽序列集中的每个肽序列已通过处理来自受试者的疾病样品而识别;访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列;并使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示IPC序列的免疫蛋白复合物(IPC)表示,以生成输出。输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。远程系统被配置为基于输出生成报告;并且将报告传输到用户设备。该方法包括在用户设备处接收报告。
在一个或多个实施例中,提供了一种用于为受试者制造治疗的方法。该方法包括包括从计算设备接收报告的方法。计算设备被配置为:访问表征肽集的肽序列集,该肽序列集中的每个肽序列已通过处理来自受试者的疾病样品而识别;访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列;并使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示IPC序列的免疫蛋白复合物(IPC)表示,以生成输出。输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。计算设备被配置为基于输出生成报告。该方法进一步包括基于报告生成用于制造治疗的治疗制造规划。
在一个或多个实施例中,提供了一种方法,该方法包括将表征多个突变肽的多个变体编码序列输入到基于注意力的机器学习模型中,多个变体编码序列中的每个变体编码序列已通过处理来自受试者的疾病样品而识别。该方法包括将针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列输入到基于注意力的机器学习模型中。基于注意力的机器学习模型被配置为使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示多个变体编码序列的多个变体表示,并且使用初始注意力子系统中的第二注意力块处理表示IPC序列的免疫蛋白复合物(IPC)表示,以生成输出。输出包括针对对应突变肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。该方法包括接收基于输出生成的报告;并且基于该报告选取多个突变肽的子集以用于受试者的治疗。
在一个或多个实施例中,提供了一种方法,该方法包括:接收表征突变肽的肽序列,该肽序列包括相对于对应参考序列的变体;接收针对主要组织相容性复合体(MHC)识别的MHC序列;使用基于注意力的机器学习模型内不同的处理路径处理肽序列和MHC序列以生成输出,其中该输出提供关于与突变肽和MHC两者都相关的免疫学活性的信息;以及,基于输出生成报告。
在一个或多个实施例中,提供了一种方法,该方法包括:接收表征突变肽的肽序列,该肽序列包括相对于对应参考序列的变体;接收针对T细胞受体(TCR)识别的TCR序列;使用基于注意力的机器学习模型内的不同处理路径处理肽序列和TCR序列以生成输出,其中该输出提供关于与突变肽和TCR两者都相关的免疫学活性的信息;以及,基于输出生成报告。
在一些实施例中,提供了一种系统,该系统包括一个或多个数据处理器和非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质包括指令,该等指令在一个或多个数据处理器上执行时,使得一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品有形地体现在非暂时性机器可读存储介质中,并且包含指令,该指令配置为促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
附图说明
结合附图描述本公开:
图1是根据各个实施例的预测系统的框图。
图2是根据一个或多个实施例的用于使用机器学习模型生成预测的过程的流程图。
图3是根据一个或多个实施例的用于来自图1的机器学习模型的一种配置的示意图。
图4A是根据一个或多个实施例的机器学习模型400的示意图。
图4B是根据一个或多个实施例的用于机器学习模型400的不同配置的示意图。
图4C是根据一个或多个实施例的用于机器学习模型400的不同配置的示意图。
图5是根据一个或多个实施例的注意力块500的示意图。
图6是根据一个或多个实施例的使用示例性自注意力层用于处理序列表示的过程的流程图。
图7是根据一个或多个实施例的说明上述图6中描述的过程600的示意图。
图8是用于生成关于各种肽的免疫学活性信息的过程的流程图。
图9是用于生成关于各种肽的免疫学活性信息的过程的流程图。
图10是根据一个或多个实施例的用于训练机器学习模型和使用该经训练的机器学习模型以生成与肽和MHC相关的预测的流程图。
图11是根据一个或多个实施例的包括训练数据表的图示。
图12是根据一个或多个实施例的新抗原候选和对应潜在新表位候选的图示。
图13是根据一个或多个实施例的用于训练机器学习模型和使用该经训练的机器学习模型以生成与肽和TCR相关的预测的流程图。
图14A、图14B和图14C是根据一个或多个实施例的具有示例性精确率-召回率(PR)曲线的曲线图。
图15是根据一个或多个实施例的比较测试数据集中针对每个等位基因的模型A和P-MHC-I模型的洗脱配体输出的示例性平均精确率值的图。
图16A和图16B是根据一个或多个实施例的比较P-MHC-I模型在人类数据集上的性能与P-MHC-I模型在小鼠数据集上的性能的曲线图。
图17A和图17B是根据一个或多个实施例的比较P-MHC-II模型与模型C在呈递数据上的性能的曲线图。
图18A和图18B分别是根据一个或多个实施例的在保留数据集上比较P-MHC-II模型与模型C的性能的曲线图。
图19是根据一个或多个实施例的显示测试数据集上针对P-MHC-II模型与模型C的平均精确率的每个基因型比较的图。
图20是根据一个或多个实施例的接受者操作特征(ROC)曲线的曲线图,其示出了相对于CD 8多聚体的测定数据(第一测试免疫原性数据集)的P-MHC-I模型(EL输出)、模型A(EL输出)和模型B(BA输出)的性能。
图21A至图21D是根据一个或多个实施例的说明P-MHC-II模型(EL输出)、模型A(EL输出)和模型B(BA输出)的性能相对于ELISpot测定(第一测试免疫原性数据集)的曲线图。
图22A至图22D分别是根据一个或多个实施例的说明模型A(BA输出)、模型A(EL输出)、模型C(BA输出)和P-MHC-II模型(EL输出)的性能的曲线图。
图23是根据一个或多个实施例的使用TESLA多聚体测定数据比较模型A(EL输出)、模型B(BA输出)和P-MHC-II模型(EL输出)的ROC曲线的曲线图。
在附图中,相似的部件和/或特征可以具有相同的附图标记。进一步,可以通过在参考标号后面加上破折号和区分相似部位的第二标记来区分相同类型的各种部位。如果说明书中仅使用第一参考标号,则该描述适用于任何一个具有相同的第一参考标号的相似部位,而与第二参考标号无关。
具体实施方式
I.概述
认识到能够预测选择哪些突变肽(例如,新抗原)以作为用于个体化疫苗的候选的重要性,本文描述的实施例提供了用于比各种当前可用的方法和系统更准确地进行此类预测的方法和系统。本文描述的实施例使用机器学习方法和系统来提高预测性能,例如但不限于通过减少在分析表征突变肽的序列以确定那些突变肽作为疫苗候选的活力时生成的假阳性的数量。
例如,本文描述的实施例提供了:一种机器学习模型;以及使用机器学习模型和/或由机器学习模型生成的输出来分析经识别从来自受试者的疾病样品而来的序列的各种方法。为了预测在疾病样品中检测到的突变肽是否与主要组织相容性复合体(MHC)分子(例如MHC-I、MHC-II)相互作用,预测突变肽与MHC分子相互作用的程度,或两者都,机器学习模型最初与对应于MHC分子的MHC序列的表示的处理分开处理表征突变肽的序列的表示。表征突变肽的序列可以称为变体编码序列。MHC序列可以由MHC分子的完整序列的至少一部分(例如,完整序列;MHC分子的伪序列,即与肽结合袋相互作用的部分;包括伪序列的一些其他部分等)组成。
机器学习模型包括各种处理的子系统。机器学习模型可以包括例如表示子系统、表示注意力子系统、合成子系统、合成注意力子系统和输出子系统。每个“子系统”可以由一个或多个块组成,每个块由一个或多个子块和/或层组成。子块可以由任意数的层(或单元)组成。
表示子系统可以用于生成肽序列(其可包括变体编码序列)的肽表示和MHC序列的MHC表示。表示注意力子系统用于独立地或与MHC序列的表示分开(例如,并行地)处理肽序列的表示。这两个并行处理路径可以类似地或不同地配置,但每个都包括至少一个注意力机制。经由这些并行处理路径处理肽序列和MHC序列的表示提高了机器学习模型的预测性能。
此外,本文描述的实施例认识到并考虑到训练对应于一系列生物学事件的模型可能比训练对应于单个生物学事件的模型明显需要更多的数据。由于可能可观察到的序列数庞大,训练用于序列分析的模型可能特别复杂。不仅有数百万种潜在的新抗原,而且例如编码用于MHC I类分子的蛋白质的基因也具有高度多态性:人MHC I类有近20000个等位基因。因此,本文描述的实施例提供了用于训练既降低训练的复杂性又提高训练性能的机器学习模型的方法和系统。例如,可以选取和/或修剪用于训练的变体编码序列,使得使用具有等于或低于阈值氨基酸长度(例如,14个氨基酸)的氨基酸长度的变体编码序列进行训练。生成包含具有等于或短于阈值氨基酸长度的长度的变体编码序列的训练数据集可以降低训练的整体复杂性并且提高训练和/或预测性能(例如,减少每个时期的性能指标中的变化从而提高预测性能)。
因此,本文公开的技术包括用于生成与肽(诸如突变肽)相关联的免疫学活性相关联的预测的基于机器学习的方法。本文提供了一种生成包括一个或多个预测的输出的机器学习模型。例如,输出可以生成一个或多个相互作用预测、一个或多个相互作用亲和力预测、一个或多个免疫原性预测,或它们的组合。相互作用预测可以包括与肽(例如,突变肽,包括由给定变体编码序列识别的给定有序氨基酸集)是否经历一种或多种靶相互作用有关的预测。靶相互作用可以是例如与IPC(例如MHC分子、TCR)结合、由MHC分子在细胞表面呈递,或另一种类型的靶相互作用。相互作用亲和力预测可以包括对一种或多种靶相互作用的亲和力的预测。例如,相互作用亲和力预测可以指示相对于肽-MHC结合的结合亲和力。可以基于相互作用(例如结合)的趋势、强度和/或稳定性来确定相互作用(例如结合)亲和力。
此外,输出可以包括或指示肽的免疫原性。例如,输出可以预测肽是否会在特定受试者或受试者组中触发免疫应答。可以针对多种突变肽中的每种突变肽生成这些预测,并且预测可以用于选取将是包括在疫苗中和/或用于治疗的一种或多种突变肽。例如,但不限于,可以选取与高预测的结合亲和力、在肿瘤细胞表面呈递的高概率和/或高预测的免疫原性相关联的突变肽,用于包含在疫苗中或用于治疗。
本文描述的实施例提供了用于使用基于注意力的机器学习模型生成关于与肽和免疫蛋白复合物(IPC)相关的免疫学活性的预测的方法和系统。IPC可以是MHC或TCR。可以访问表征肽集的肽序列集,该肽序列集的每个肽序列已通过处理来自受试者的疾病样品而识别。可以针对受试者的免疫蛋白复合物(IPC)识别免疫蛋白复合物(IPC)序列。使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示IPC序列的免疫蛋白复合物(IPC)表示,以生成输出。输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。基于输出生成报告。
以下描述提供了这些方法和系统的示例性实施,以及生成的报告可以以何种方式用于计划、设计和/或制造治疗。
II.使用基于注意力的机器学习模型的与涉及突变肽的免疫学活性相关的预测
II.A.概述
现在参考附图,图1是根据各种实施例的预测系统100的框图。预测系统100用于生成与肽,特别是突变肽的免疫学活性相关的预测。预测系统100包括计算平台102、数据存储104和显示系统106。计算平台102可以采取各种形式。在一个或多个实施例中,计算平台102包括单个计算机(或计算机系统)或相互通信的多个计算机。在其它实例中,计算平台102采取云计算平台的形式。
数据存储104和显示系统106各自与计算平台102通信。在一些实例中,数据存储104、显示系统106或两者都可以被认为是计算平台102的一部分或以其它方式与其成一体。因此,在一些实例中,计算平台102、数据存储104和显示系统106可以是相互通信的单独部件,但是在其它实例中,这些部件的一些组合可以集成在一起。不同组件之间的通信可以使用任何数量的有线通信链路、无线通信链路、光通信链路或其组合来实现。
预测系统100包括序列分析仪108,该分析仪可以使用硬件、软件、固件或其组合来实现。在一个或多个实施例中,序列分析仪108在计算平台102中实现。序列分析仪108接收序列数据110用于处理。例如,序列数据110可以作为输入发送到序列分析仪108中,从数据存储104或一些其他类型的存储(例如,云存储)中检索,从云存储访问,或者以一些其他方式获得。在一些情况下,响应于接收用户经由输入设备输入的用户输入,可以从数据存储104检索序列数据110。
序列数据110可以从样品集112的处理中生成。样品集112可以采用来自一个或多个受试者的一种或多种生物样品的形式(例如,患病样品、健康样品、其组合)。样品集112可以包括从受试者的肿瘤中获得的样品。该肿瘤可以表现为例如肺癌、黑色素瘤、乳腺癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性髓细胞白血病、慢性髓细胞白血病、慢性淋巴细胞白血病、T细胞淋巴细胞白血病、非小细胞肺癌、小细胞肺癌或其组合。-
样品集112中的样品可以包括例如各种免疫蛋白复合物(IPC)分子和各种肽,或其组合。当样品集112包括患病样品时,肽可以包括一种或多种突变肽(例如,新抗原)。IPC分子可以包括例如各种MHC分子、各种TCR分子或其组合。
在一个或多个实施例中,样品集112包括免疫蛋白复合物(IPC)114(例如,MHC I类分子、MHC II类分子、TCR等)和氨基酸链116。氨基酸链116可以是包括肽118、N-侧翼120和C-侧翼122的氨基酸链。肽118可以定义为包括或不包括肽118和N-侧翼120之间的N-末端,以及包括或不包括肽118和C-侧翼122之间的C-末端。当肽118包括一种或多种变体(例如,一种或多种序列变体)时(当与对应参考序列相比时),肽118被认为是突变肽。在一些实施例中,样品集112还包括免疫蛋白复合物123(例如,MHC I类分子、MHC II类分子、TCR等)。
可以处理样品集112以生成序列数据110。在一些实施例中,可以在不同时间处理样品集112中的多个样品。在一些实施例中,预测系统110包括样品分析仪,其用于处理样品集112以生成序列数据110。序列数据110包括例如至少一种免疫蛋白复合物(IPC)序列124(例如,一种对应于免疫蛋白复合物114的IPC序列124)和至少一种肽序列126(例如,一种对应于肽118的肽序列126)。序列数据110还可以包括至少一个N-侧翼序列128(例如,一个对应于N-侧翼120的N-侧翼序列128)、至少一个C-侧翼序列130(例如,一个对应于C-侧翼122的C-侧翼序列130),或对应于各自的肽序列126的两者。
当免疫蛋白复合物114采用MHC的形式时,IPC序列124可以是例如表征MHC的至少一部分的MHC序列。当免疫蛋白复合物114采用TCR的形式时,IPC序列124可以是例如表征TCR的至少一部分的TCR序列。在又一些实施例中,IPC序列124可以包括TCR序列和MHC序列两者,其分别表征TCR分子的至少一部分和MHC分子(可以将肽呈递给TCR分子)的至少一部分。在一些实施例中,序列数据110可以包括表征MHC形式的免疫蛋白复合物114的至少一部分的MHC序列形式的IPC序列124,以及表征样品集112中的TCR(例如,免疫蛋白复合物123)的至少一部分的单独的TCR序列131。
肽序列126表征肽118的至少一部分。N-侧翼序列128表征N-侧翼120的至少一部分。例如,由于来自N-末端上游的氨基酸(或氨基酸残基)的数可能很大,所以可以修剪N-侧翼120的对应序列以生成N-侧翼序列128。C-侧翼序列130表征C-侧翼122的至少一部分。在某些情况下,当来自C-末端下游的氨基酸(或氨基酸残基)的数很大时,可以修剪C-侧翼122的对应序列以生成C-侧翼序列130。
序列分析仪108接收序列数据110作为输入用于处理。序列分析仪108包括处理序列数据110的机器学习模型132。在一些实施例中,序列分析仪108被直接发送到机器学习模型132中用于处理。在其他实施例中,序列分析仪108在将序列数据110发送到机器学习模型132中用于处理之前预处理序列数据110。
机器学习模型132可以以多种不同方式中的任一种方式来实现。在一个或多个实施例中,机器学习模型132采用基于注意力的机器学习模型的形式。机器学习模型132可以以训练模式或预测模式使用。在训练模式中,使用训练数据集133训练机器学习模型132。可以形成训练数据集的数据示例将在下面的第II.E节中进一步描述。机器学习模型132被训练成可以在预测模式中使用。
机器学习模型132经由IPC处理路径134处理IPC序列124并且经由肽处理路径136处理肽序列126。IPC和肽的这两条路径的分离能够提高机器学习模型132的预测性能。在一些实施例中,机器学习模型132经由N-侧翼处理路径138进一步处理N-侧翼序列128、经由C-侧翼处理路径140进一步处理C-侧翼序列130,或两者。
IPC处理路径134可以由一个或多个不同的路径组成。例如,在某些情况下,IPC处理路径134采用MHC处理路径的形式用于处理例如MHC序列形式的IPC序列124。在其他情况下,IPC处理路径134包括用于处理例如TCR序列形式的IPC序列124的TCR处理路径。在又一些情况下,IPC处理路径134包括用于处理包括MHC序列和TCR序列两者的IPC序列124的处理路径。在一些实施例中,当IPC处理路径134采用MHC处理路径的形式时,机器学习模型132还包括用于处理例如TCR序列131的TCR处理路径142。下面更详细地描述针对这些不同处理路径的实施的示例。
机器学习模型132处理序列数据110以生成用于生成报告144的输出。报告144可以包括机器学习模型132的确切输出,可以包括输出的转换或过滤的版本,或两者。在某些情况下,序列分析仪108可以基于机器学习模型132的输出生成通知、推荐、警报或其他信息,该附加信息包括在报告144中。
报告144可以是包括例如关于与一种或多种肽(例如一种或多种突变肽)相关的目标免疫学活性的信息的输出。例如,报告144可以包括关于与肽118和免疫蛋白复合物114(例如,MHC)、肽和免疫蛋白复合物123(例如,TCR)或两者有关的免疫学活性的信息。报告144可以包括例如相互作用信息146、免疫原性信息148或两者。相互作用信息1346可以提供关于肽118和免疫蛋白复合物114之间、肽118和免疫蛋白复合物123之间的选取相互作用集的预测,或两者。免疫原性信息148可以提供关于肽118的免疫原性的预测。
在一个或多个实施例中,报告144可以显示在显示系统106上的图形用户界面150上。用户可以经由图形用户界面150查看报告144和/或与报告144相互作用,并且使用报告144来做出关于从中获得(或收集)样品集112中的至少一个的受试者的治疗的决定。
在一些实施例中,预测系统100将报告144发送到远程系统152(例如,无线地)。远程系统152可以是云计算平台、云存储器、另一个计算机系统、用户设备(例如,智能手机、平板电脑、膝上型电脑等)或一些其他类型的平台。在一些实施例中,远程系统152可以是治疗制造系统(或机器)或其一部分。
图2是根据一个或多个实施例的用于使用机器学习模型生成预测的过程的流程图。过程200可以使用图1中描述的预测系统100来实现。例如,过程200可以使用图1中的序列分析仪108和机器学习模型132来实现。
过程200可以包括例如步骤202。步骤202包括使用包括训练肽序列数据、训练免疫蛋白复合物(IPC)数据和训练免疫学活性数据的训练数据集训练基于注意力的机器学习模型。
步骤204包括访问表征肽集的肽序列集,该肽序列集的每个肽序列已通过处理来自受试者的疾病样品而识别。
步骤206包括访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列。
步骤208包括使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示免疫蛋白复合物(IPC)序列的IPC表示,以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。第一注意力块独立于第二注意力块。
步骤210包括基于输出生成报告。该报告可用于促进治疗和/或治疗计划的设计和/或制造。例如,该报告可以识别该肽集中的肽子集或为该肽子集提供选取哪些肽以用于为受试者创建治疗的指示。治疗可以是例如肽子集、肽子集中的每个肽的前体或一些其他形式。
II.B.机器学习模型的示例性架构
II.B.1.一般特征和实施注意事项
如上所述,在各种实施例中,本文描述的实施例的机器学习模型,例如机器学习模型132,可以是基于注意力的机器学习模型(例如,包括一个或多个注意力层)。机器学习模型132可以实现例如一个或多个自注意力层。机器学习模型132可以使用自注意力机制、全局注意力机制、软注意力机制、局部注意力机制和/或硬注意力机制。
在一些情况下,基于注意力的机器学习模型可以被配置为学习比对(例如,在肽序列和MHC序列之间)。可以使用基于注意力的比对分数函数来学习和执行比对,诸如例如基于内容的函数、加法函数、基于位置的函数、点积函数和/或缩放的点积函数。机器学习模型132可以包括一个或多个编码器、一个或多个转换器和/或一个或多个转换器编码器。在一些实施例中,机器学习模型132可以使用如Vaswani,A等人“Attention is All You Need.”31st Conference on Neural Information Systems,http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf,2017.中所描述的一个或多个特征(例如,一个或多个编码器)。
机器学习模型132可以包括一个或多个编码器,该编码器被配置为例如将输入(例如,表示例如氨基酸序列、核酸序列、密码子序列等的序列表示)转换到更高维空间中。编码器可以是转换器编码器。编码器可以被配置为实现基于注意力的技术和/或包括一个或多个注意力层(例如,一个或多个自注意力层)。
在一些实施例中,机器学习模型132可以使用或可以省略卷积层、长短期记忆单元、递归结构和/或递归组件。例如,在一些情况下,机器学习模型132不包括任何卷积层、任何递归结构、任何长短期记忆(LSTM)单元和/或任何递归组件。在一些情况下,机器学习模型132不是递归机器学习模型和/或不包括递归神经网络。在一些情况下,机器学习模型包括递归神经网络和/或可以使用位置编码来提供跨越一个或多个序列的瞬时信息。在一些情况下,机器学习模型132不是卷积机器学习模型和/或不包括卷积神经网络。
机器学习模型132可以包括多个子系统(或子网络)。多个子系统中的每一个可以包括编码器、转换器编码器、一个或多个注意力层和/或一个或多个自注意力层。机器学习模型132可以包括具有用于处理肽表示的第一注意力块的注意力块,该第一注意力块独立于用于处理IPC序列(例如,MHC伪序列)的部分或全部的IPC表示的第二注意力块。在使用机器学习模型时,这些注意力块的独立性可以促进并行处理。此外,独立性可以提高机器学习模型132的性能(例如,预测的准确性)。
在机器学习模型132内,可以配置基于注意力的机制,使得任何在给定层的输出值不仅取决于对应输入值,而且取决于一个、多个或全部其他输入值。因此,机器学习模型132、损失函数和/或优化函数可以被配置为优化对应于单个位置的输出,该位置表示给定MHC分子(由相应的输入表示)将结合和/或呈递给定的肽(由另一个相应的输入表示)和/或响应于给定的肽触发免疫原性的程度。在一些情况下,转换器编码器的多个输出中的任一个输出可以表示这种发生概率,和/或可以相应地进行训练的模型。在一些情况下,端点(例如,剩余端点),诸如序列开始元素,可以表示(响应于训练)结合、呈递和/或免疫原性概率。例如,聚合的输出可以被馈送到另一个层和/或另一个子系统或注意力块(例如,包括注意力层和/或自注意力层和/或作为转换器编码器和/或编码器)。
在一些情况下,来自其他层和/或来自其他子系统或注意力块的输出的一个、两个或全部维度与馈送到其他层和/或其他子系统或注意力块的输入具有相同的大小。在一些情况下,馈送到此其他层和/或其他子系统或注意力块的输入具有沿一个轴的长度,其大于或等于IPC序列中的氨基酸数、氨在肽序列中的氨基酸数,并且可能地N-侧翼和C-侧翼中的一个或多个中的氨基酸数的总和。在一些情况下,输入的维度长度比氨基酸总数长。例如,当附加特征向量(例如,序列开始特征向量)附加到氨基酸特异性特征值时,输入沿一个轴的长度可能超过氨基酸的求和的计数。输入的另一个维度可以包括许多特征(例如,经由超参数定义的)。由其他层和/或其他子系统或注意力块生成的输出可能与其输入具有相同的大小。
由另一个层和/或其他子网络生成的输出值的子集可以由另一个神经网络(例如,完全连接的前馈网络)进一步处理。该值的子集可以包括可以对应于一种特征值集的一维向量。该一维向量可以对应于与序列开始特征向量相关联的特征值。
机器学习模型132内的神经网络可以被配置为输出一个或多个结果。该一个或多个结果可以包括例如数值结果、二进制结果和/或分类结果。一个或多个结果中的每个结果可以预测IPC和肽是否经历特定类型的反应(例如,结合在一起)和/或预测其程度。机器学习模型132可以包括一个或多个激活层以产生目标时间的结果(例如,将实数中间值转换成二进制和/或分类输出)。可以训练机器学习模型132以生成多种类型的预测(例如,相互作用预测、相互作用亲和力预测和/或免疫原性预测)。在一些情况下,预测可能是二进制或分类。其他预测可能是非二进制或非分类。例如,预测可以是标量的。
机器学习模型132可以包括和/或可以包括在集成模型内。集成模型可以包括多个(例如,相同的)子模型,该子模型可以使用训练数据集的不同部分进行训练。
II.B.2.用于机器学习模型的示例性配置
图3是根据一个或多个实施例的用于来自图1的机器学习模型132的一种配置的示意图。继续参考图1描述机器学习模型132。机器学习模型132具有配置300。在配置300的情况下,机器学习模型132包括表示子系统302、初始注意力子系统304、合成子系统306、合成注意力子系统308和输出子系统310。机器学习模型132内的每个“子系统”可以由一个或多个块、一个或多个子块、一个或多个层或其组合组成。机器学习模型132内的每个“块”可以由一个或多个子块、一个或多个层或其组合组成。机器学习模型132的每个“子块”可以由一个或多个层(或单元)组成。
表示子系统302接收序列数据110作为输入并生成针对序列数据110中的各种序列的表示。“表示”可以包括例如元素集(例如,每个元素包括一个或多个值),每个元素表示或识别表示的亲本序列中的一种或多种氨基酸或一种或多种核酸。例如,亲本序列中的每种氨基酸可以由值的唯一二进制串和/或向量表示,该唯一二进制串和/或向量与表示另一氨基酸的二进制串和/或向量不同。
初始注意力子系统304接收这些表示作为输入,处理这些表示,并且生成发送到合成子系统306的转换表示。初始注意力子系统304由各种注意力块组成,其中每个注意力块包括至少一个自注意力层。
在一个或多个实施例中,表示子系统302可以处理肽序列126以生成肽表示312,然后该肽表示由初始注意力子系统304中的注意力块314处理以生成转换肽表示316。这种处理可以形成图1中肽处理路径136的至少一部分。此外,表示子系统302可以处理IPC序列124以生成IPC表示318,然后该IPC表示由初始注意力子系统304中的注意力块320处理以生成转换IPC表示322。该处理可以形成图1中IPC处理路径134的至少一部分。当IPC序列124是MHC序列时,IPC表示318被称为MHC表示,并且转换IPC表示322被称为转换MHC表示。当IPC序列124是TCR序列时,IPC表示318被称为TCR表示,并且转换IPC表示322被称为转换TCR表示。
在一些实施例中,表示子系统302可以处理N-侧翼序列128以生成N-侧翼表示324,然后该N-侧翼表示由初始注意力子系统304中的注意力块326处理以生成转换N-侧翼表示328。该处理可以形成图1中的N-侧翼处理路径138的至少一部分。在一些实施例中,表示子系统302可以处理C-侧翼序列130以生成C-侧翼表示330,然后该C-侧翼表示由初始注意力子系统304中的注意力块332处理以生成转换C-侧翼表示334。该处理可以形成图1中的C-侧翼处理路径140的至少一部分。
当机器学习模型132还包括TCR处理路径142时,表示子系统302可以处理TCR序列131以生成TCR表示336,然后该TCR表示由初始注意力子系统304中的注意力块338处理以生成转换TCR表示340。该处理可以形成图1中TCR处理路径142的至少一部分。
合成子系统306接收从初始注意力子系统304输出的转换表示(例如,转换肽表示316、转换IPC表示322、转换N-侧翼表示328、转换C-侧翼表示334、转换TCR表示340或其组合)并执行一个或多个操作以生成合成表示342。例如,合成表示342可以是从初始注意力子系统304输出的转换表示的聚合。在一个或多个实施例中,合成表示可以包括连接层,该连接层连接从初始注意力子系统304输出的转换表示。在一些实施例中,合成表示342包括一个或多个附加特征向量(例如,其可以被添加到转换表示的开始或结束)。附加特征向量可以具有例如等于对应于在相应亲本序列中表示的每个单独氨基酸的特征数的长度。附加特征可以包括例如序列开始(BoS)元素。
合成表示342作为输入发送到合成注意力子系统308。合成注意力子系统308包括用于处理合成表示342的一个或多个注意力块。例如,合成注意力子系统308可以包括接收和处理合成表示342的注意力块344(其可以被称为合成注意力块)。合成注意力子系统308的输出被发送到用于处理的输出子系统310,其生成如图1中所述的报告144。
图4A至图4C是根据一个或多个实施例的用于机器学习模型400的不同配置的示意图。
图4A是根据一个或多个实施例的机器学习模型400的示意图。机器学习模型400是图1和图3中机器学习模型132的实施的一个示例。机器学习模型400是一种基于注意力的机器学习模型。机器学习模型400包括表示子系统401、初始注意力子系统403、合成子系统405、合成注意力子系统407和输出子系统409,其分别是图3中的表示子系统302、初始注意力子系统304、合成子系统306、合成注意力子系统308和输出子系统310的实施的示例。
表示子系统401包括肽表示块402和IPC表示块404。在一些实施例中,表示子系统401进一步包括N-侧翼表示块406、C-侧翼表示块408,或两者。在一些实施例中,当IPC表示块404对应于MHC并用作MHC表示块时,表示子系统401还可以包括TCR表示块410。这些不同的表示块中的每个表示块都包括至少一个嵌入层并且可能包括例如位置编码器。
嵌入层可以嵌入序列,例如通过将初始的非数值表示(例如,氨基酸标识符串)转换为数值表示以生成嵌入表示。例如,可以使用独热编码、进化动机编码(诸如BLOSUM)、随机或伪随机初始化学习嵌入或其组合来执行嵌入。嵌入表示可以被按位置编码以生成编码表示。由表示块产生的序列表示可以是编码表示或编码表示和嵌入表示的聚合(例如,连接或总和)。
在某些情况下,各种注意力机制可能无法检测到按输入数据集中的值的顺序所传达的潜在信息。可以使用位置编码器并将其添加到嵌入表示中,其中位置编码使用学习或固定的编码算法。例如,可以使用正弦和/或余弦函数来定义固定位置编码(例如,具有序列内位置和/或维度作为自变量)。位置编码可以具有与编码表示相同的维度。位置编码可以与嵌入表示求和以产生序列的被馈送到初始注意力子系统403的指示位置的嵌入表示。
例如,肽表示块402可以包括嵌入层412,其嵌入肽序列(例如,图1中的肽序列126)以生成嵌入肽表示;以及位置编码器414,其按位置编码嵌入肽表示,以生成表示肽序列的肽表示(例如,图3中的肽表示312)。IPC表示块404可以包括嵌入层416,其嵌入IPC序列(例如,图1中的IPC序列124)以生成嵌入IPC表示;以及位置编码器418,其按位置编码嵌入IPC表示,以生成表示IPC序列的IPC表示(例如,图3中的IPC表示318)。
此外,N-侧翼表示块406可以包括嵌入层420,其嵌入N-侧翼序列(例如,图1中的N-侧翼序列128)以生成嵌入N-侧翼表示;以及位置编码器422,其按位置编码嵌入N-侧翼表示,以生成表示N-侧翼序列的N-侧翼表示(例如,图3中的N-侧翼表示324)。C-侧翼表示408可以包括嵌入层424,其嵌入C-侧翼序列(例如,图1中的C-侧翼序列130)以生成嵌入C-侧翼表示;以及位置编码器426,其按位置编码嵌入C-侧翼表示,以生成表示C-侧翼序列的C-侧翼表示(例如,图3中的C-侧翼表示330)。
更进一步,TCR表示块410可以包括嵌入层428,其嵌入TCR序列(例如,图1中的TCR序列131)以生成嵌入TCR表示;以及位置编码器430,其按位置编码嵌入TCR表示以生成表示TCR序列的TCR表示(例如,图3中的TCR表示336)。
嵌入序列可以包括,例如,将初始的非数值表示(例如,包括氨基酸标识符串)转换为数值表示。嵌入可以包括独热编码、进化动机编码(诸如BLOSUM),或随机或伪随机初始化学习嵌入。该表示可以包括序列的位置编码和嵌入序列的总和和/或聚合(例如,连接)。
由表示子系统401生成的表示作为输入发送到初始注意力子系统403用于处理。初始注意力子系统403可以包括各种自注意力机制,其为表示中的一个、多个或全部位置的每个位置确定用于一个或多个其他位置的每个位置的值的注意力权重(例如,指示要给多少注意力)。然后可以使用注意力权重来生成位置的转换值。
初始注意力子系统401包括注意力块432和注意力块434。在一些实施例中,初始注意力子系统401还可以包括注意力块436、注意力块438、注意力块440或其组合。注意力块432从肽表示块402接收肽表示,并使用注意力子块集442来处理肽表示以生成转换肽表示(例如,图3中的转换肽表示316)。以下的图6中更详细地描述了注意力子块的实施的一个示例。注意力块434从IPC表示块404接收IPC表示,并使用注意力子块集444处理IPC表示以生成转换IPC表示(例如,图3中的转换IPC表示322)。
此外,当被包括时,注意力块436从N-侧翼表示块406接收N-侧翼表示,并使用注意力子块集446来处理N-侧翼表示以生成转换N-侧翼表示(例如,图3中的转换N-侧翼表示328)。注意力块438从C-侧翼表示块408接收C-侧翼表示,并使用注意力子块集448处理C-侧翼表示以生成转换C-侧翼表示(例如,图3中的转换C-侧翼表示334)。注意力块440从TCR表示块410接收TCR表示,并使用注意力子块集450处理TCR表示以生成转换TCR表示(例如,图3中的转换TCR表示340)。
从初始注意力子系统403输出的转换表示被发送到合成子系统405用于处理。合成子系统405包括合成块452。合成块452可以使用从初始注意力子系统403输出的转换表示形成合成表示(例如,图3中的合成表示342)。例如,合成块452可以聚合、连接或以其他方式组合转换表示以形成初始合成表示。在一些情况下,合成块452还在初始合成表示内添加一个或多个附加特征向量(例如,BoS向量)。
在一些实施例中,合成子系统405还可以包括位置编码器454。位置编码器454按位置对初始合成表示进行编码,从而生成输出到合成注意力子系统407的合成表示。当位置编码器454不存在于合成子系统405内时,由合成块452生成的初始合成表示可以是输出到合成注意力子系统407的合成表示。
合成注意力子系统407可以包括注意力块456(其也可以称为合成注意力块)。注意力块456包括注意力子块集458。注意力块456接收由合成子系统405生成的合成表示,并使用注意力子块集458处理合成表示以生成转换合成表示。然后将该转换合成表示输出到输出子系统409用于处理。
由合成注意力子系统407或合成注意力子系统407内的注意力子块生成的输出的大小可以等于馈送到合成注意力子系统407或合成注意力子系统407内的注意力子块的输入的大小。例如,大小可以是m x n,其中m等于被视为1(例如,针对序列开始表示)的氨基酸总数,并且n等于特征数(预定的值)。可以选取单个列(具有n个值)进行进一步处理。单个列可以是第一列和/或与序列开始表示相关联的列。在仅将到合成注意力子系统407或合成注意力子系统407内的注意力子块的输出的一部分馈送到输出子系统409的情况下,机器学习模型400的训练可以产生学习的参数值,其传递关于将在序列开始表示中表示的IPC序列和相关肽序列以及肽-IPC相互作用的相关信息。-在其他情况下,可以在从合成注意力子系统407输出之后汇集聚合表示以产生单个向量,然后可以将其馈送到输出子系统409。
输出子系统409可以包括用于生成最终输出的各种块、子块、层或其组合。在一个或多个实施例中,输出子系统409包括丢弃块460、完全连接块462和输出块464。丢弃块460可以包括例如一个或多个丢弃层。完全连接块462可以包括例如一个或多个全连接层。输出块464可以包括例如用于过滤、选取、变换或以其他方式生成输出的一个或多个层。例如,输出块464可以包括至少一个最大层465,其被配置为基于例如选取的阈值或范围来选取在输出块464处接收到的输入的子集。
在一些情况下,转换合成表示由丢弃块460接收和处理以生成由完全连接块462接收的第一输出。完全连接块462可以接收并处理该第一输出以生成第二输出,该第二输出的至少一部分由输出块464接收。输出块464接收并处理其输入以生成相互作用输出466、免疫原性输出468,或两者。
在一些实施例中,完全连接块462可以被配置为生成一个或多个输出,其维数小于馈送到完全连接块462的维数(例如,小于预定的特征数)。例如,完全连接块462的输出可以包括单个值、两个值或三个值——每个值对应于与靶相互作用或免疫应答有关的预测。完全连接块462可以包括例如单个隐藏层、两个隐藏层或三个或更多个隐藏层。初始隐藏层中的节点数可能大于后续隐藏层中的节点数。例如,第一隐藏层可以包括256个节点,而第二隐藏层可以包括126个节点。在各种实施例中,来自完全连接块462的每个输出可以包括实数分数,例如,可以将其转换为二进制和/或分类结果(例如,使用经训练的激活函数)和/或转换为缩放的数。例如,缩放的数可以包括从0到1比例上的概率。
相互作用输出466可以包括例如关于一个或多个目标相互作用的相互作用预测集470、相互作用亲和力预测集472,或两者。相互作用预测可以包括例如针对IPC(例如MHC、TCR)是否将结合肽的对应肽-IPC(例如肽-MHC、肽-TCR)组合的预测。相互作用预测可以包括例如针对IPC(例如MHC)是否将在细胞表面处呈递肽的对应肽-IPC(例如肽-MHC)组合的预测。此外,相互作用亲和力预测可以包括,例如,针对对应肽-IPC(例如,肽-MHC、肽-TCR)组合的靶相互作用的亲和力预测。靶相互作用可以是例如肽和IPC的结合。针对靶相互作用的亲和力(例如可以是结合亲和力)指示肽和IPC之间结合的强度、趋势和/或稳定性。
免疫原性输出466包括免疫原性预测集。免疫原性预测可以包括例如关于对应肽-IPC组合的免疫原性预测。例如,免疫原性预测可以指示肽引发关于特定目标IPC(例如,TCR或MHC和TCR复合物)的免疫应答的能力。
在某些情况下,来自完全连接块462的输出的第一部分被发送到输出块464,而来自完全连接块462的输出的第二部分处于其最终形式并用作相互作用亲和力预测集472。
在其他实施例中,在输出子系统409处接收的转换合成表示由完全连接块462接收和处理,该完全连接块处理转换合成表示以生成被发送到丢弃块460的第一输出。然后可以将丢弃块460的输出或其一部分发送到输出块464用于处理。
在一些实施例中,来自输出子系统409的输出可以包括多个结果,该结果包括针对每个IPC(例如MHC)等位基因,关于肽是否与IPC等位基因结合和/或关于其概率的预测。可以输出等位基因特异性预测,或者在某些情况下,最大层465可以用于确定等位基因特异性预测的最大值,并且可以输出最大值。
以此方式,输出子系统409可以以多种不同方式中的任一种方式实现,具有能够生成相互作用输出466、免疫原性输出468或两者的任何数量的不同块、子块和/或层。在合成子系统405之前将肽序列的处理与IPC序列(例如,MHC序列、TCR序列、组合的MHC-TCR序列等)的处理分开,增强了机器学习模型400的预测性能。例如,在生成合成表示之前,使用肽表示块402和注意力块432沿着与使用IPC表示块404和注意力块434生成转换IPC表示分离的路径生成转换肽表示(并且如果适用,与使用TCR表示块410和注意力块440生成转换TCR表示分离)增强了输出子系统409生成的输出的准确性。此外,这样的处理可以实现有效的处理(例如,使用减少的计算资源、更快的处理等),因为可以以模块化方式考虑多种肽-IPC(和肽-TCR)组合。
在各种实施例中,机器学习模型400可以促进关于预测哪个特定IPC等位基因将结合并呈递肽的自动化确定。例如,如果一个MHC分子包括6个MHC等位基因(如人的情况),则可以(例如,并行)执行至少部分神经网络处理的6次迭代——每个等位基因一次。每个处理都可以使用MHC等位基因的MHC序列的MHC表示和肽序列的至少一部分的肽表示作为输入。每个处理可以生成对应于关于肽是否将结合MHC等位基因和/或由MHC等位基因呈递的预测的输出。可以推断,与跨等位基因的最高预测值(例如,指示最可能的结合和/或呈递预测)相关联的肽是该肽将结合的肽和将呈递该肽的肽。
在一些情况下,针对6个MHC等位基因,可以通过运行6个不同的MHC等位基因序列经过相同的IPC表示块404并针对每个等位基因-肽组合生成合成表示来创建6个合成表示。在一些实施例中,6个合成表示中的每个合成表示可以聚合(例如,连接)在一起,连同已嵌入嵌入层的序列开始标记(向量)。然后可以将6个合成表示中的每个合成表示馈送通过合成子系统407,如上所述。
在一些实施例中,可以提取经处理的序列开始标记并将其馈送到完全连接块462以直接输出到机器学习模型400的最终节点。该BoS标记可以表示节点呈递可能性。在一些情况下,完全连接块462内的每个全连接子块可能具有应用的丢弃并且之后为批量归一化层。在一些实施例中,输出块464用于去卷积,通过对6个呈递预测应用激活函数(例如,通过Max层465,其中可能包括一个softmax函数),使得6对肽-MHC相互作用将对应于单个选取的MHC等位基因。在训练期间,选取的肽-MHC相互作用输出可以归一化为0和1之间的值,并且可以使用损失函数(例如,二进制损失函数)与真实呈递值进行比较,以生成用于调整模型参数的误差。
在又一些实施例中,机器学习模型400中包括的一个或多个注意力块或注意力子块可以用另一种类型的网络和/或处理单元代替以转换一个或多个序列的表示。该转换可以表示预测各种氨基酸(在特定位置)影响结合亲和力和/或呈递概率的程度和/或预测在单个序列或跨序列上发生的各种特定氨基酸组合(在特定位置)影响结合亲和力和/或呈递的程度。例如,一个或多个注意力子块可以由一个或多个门控递归单元代替。
图4B是根据一个或多个实施例的用于机器学习模型400的不同配置的示意图。针对图4B中描绘的配置,表示子系统401包括聚合表示块480。聚合表示块480接收聚合序列,诸如例如肽序列(例如,图1中的肽序列126)和N-侧翼序列(例如,图1中的N-侧翼序列128)和/或C-侧翼序列(例如,图1中的C-侧翼序列130)的聚合。
聚合表示块480可以包括例如嵌入层482,该嵌入层482处理聚合序列以形成可以由位置编码器483接收的嵌入聚合表示,位置编码器483按位置对嵌入聚合表示进行编码,生成聚合表示484。因此,聚合表示484可以包括亲本肽序列的肽表示485和亲本N-侧翼序列的N-侧翼表示486和/或亲本C-侧翼序列的C-侧翼表示487。
聚合表示484从聚合表示块480输出并发送到初始注意力子系统403中的注意力块488用于处理。注意力块488包括注意力子块集489,其处理聚合表示484以生成转换聚合表示,该转换聚合表示被发送到合成块452用于处理。
在一些实施例中,如果发送到聚合表示块480的聚合序列包括N-侧翼序列或C-侧翼序列中的一个但不包括另一个,则机器学习模型400还可以包括未包括在聚合序列中的序列对应表示块(例如,N-侧翼表示块406或C-侧翼表示块408)和对应注意力块(例如,分别为注意力块436或注意力块438)。
图4C是根据一个或多个实施例的用于机器学习模型400的不同配置的示意图。针对图4C中描绘的配置,由表示子系统401生成的肽表示和N-侧翼表示,以及可选地C-侧翼表示被发送到聚合块490。聚合块490可以聚合(例如,连接)这些表示以形成被发送到注意力块492的聚合表示。注意力块492包括处理聚合表示以生成转换聚合表示的注意力子块集494,该转换聚合表示被发送到合成块452用于处理。
如图4A至图4C所示,机器学习模型400可以使用各种子系统内的任意数量或组合的块、子块和/或层以多种不同的方式实现。因此,机器学习模型400是模块化的并且可以针对给定任务进行定制。
图5是根据一个或多个实施例的注意力块500的示意图。注意力块500可以是图3中的初始注意力子系统304、图3中的合成注意力子系统308或图4A至图4C中的初始注意力子系统403中的注意力块的实施的一个示例。此外,注意力块500可以是图4A至图4C中的注意力块456的实施的一个示例。
注意力块500包括一个或多个注意力子块。例如,注意力块500可以包括注意力子块1 501以及可选地最多到注意力子块n 504的一个或多个其他注意力子块。当注意力块500中存在多个注意力子块时,这些注意力子块可以串联连接(例如,菊链式连接在一起以产生最终输出)。
注意力子块1501可以以各种方式实现。在一个或多个实施例中,注意力子块1501包括例如自注意力层506、添加和归一化层508、前馈层510以及添加和归一化层512。由于注意力子块1 501的这种配置,注意力子块1 501也可以被称为转换器编码器。自注意力层506可以使用例如单头注意力单元或多头注意力单元来实现。如果存在,注意力块500中最多到注意力子块n的一个或多个其他注意力子块可以以类似于注意力子块1 501的方式实现。
在添加和归一化层中,可以将转换表示添加到序列的指示位置的嵌入表示中(经由残差连接),并且可以对求和的表示进行归一化。归一化数据可以被馈送到对应前馈层510(例如,完全连接的前馈网络)。针对每个位置,前馈网络可以影响(例如)一个、两个、三个或更多个线性转换和/或可以包括每个线性转换之间的激活(例如,ReLU激活)。例如,前馈层可以表示为:
FF(x)=max(0,xW1+b1)W2+b2,
其中x是层的输入,W1和W2是线性转换的斜率,并且b1和b2是线性转换的截距。特定注意力子块的前馈层的输出的维度可能与到该注意力子块的前馈层的输入的维度相同。因此,在一些情况下,为了保留各种类型信息的表示,可以对输入和输出求和和归一化(例如,经由通过另一个添加和归一化层的另一个残差连接)。
II.B.3.自注意力的示例性机制
图6是根据一个或多个实施例的使用示例性自注意力层用于处理序列表示的过程的流程图。过程600可以由例如图1和图3中的机器学习模型132中存在的一个或多个注意力块、图4A至图4C中的机器学习模型400中存在的一个或多个注意力块和/或图5中的注意力块500使用。
步骤602包括接收包括多个元素的序列表示。序列表示表示遗传序列内的氨基酸序列或遗传核酸序列,或密码子序列。在一个或多个实施例中,序列表示中的多个元素的每个元素表示氨基酸(或氨基酸残基)、核酸、密码子等。此外,每个元素与序列中的唯一位置相关联。
序列表示可以是例如肽表示、IPC表示、N-侧翼表示、C-侧翼表示、MHC表示、TCR表示、聚合表示或其他类型的表示。例如,序列表示可以表示以下部分或全部:变体编码序列、编码野生型或突变肽的序列的部分或全部、表位序列(例如,包括变体)、候选新表位序列、新抗原序列的部分或全部、在肽末端开始或结束的序列(例如,N-侧翼或C-侧翼)、MHC序列(例如,MHC伪序列)。序列表示例如可以使用图3中的表示子系统302或图4A至图4C中的表示子系统401来生成。
步骤304包括分别使用键权重集、值权重集和查询权重集来确定序列表示中的每个元素的键向量、值向量和查询向量。如果例如序列表示中表示的序列包括例如20个氨基酸,则可以生成20个键向量、20个值向量和20个查询向量。序列表示中的元素可以对应于例如二维序列表示中的行或列(例如,其中第一维表示序列中的不同氨基酸,而第二维表示例如表征单个氨基酸的不同组分)。
在一些实施例中,该键权重集是以键权重矩阵的形式。特定元素的键权重矩阵的大小可以等于元素的长度乘以键向量将是的长度。例如,元素的长度可能为20(例如,每个值对应于关于序列中的氨基酸是否与21个氨基酸中的特定1个相同的二进制指示),并且如果键向量的长度将是5(例如,表示5个组分或特征),则键权重矩阵的大小可以为[5,21]。键权重矩阵可以在训练期间学习(例如,并且在训练开始时随机初始化)。
元素的值向量可能与元素的键向量具有相同的大小。可以使用值权重集来确定值向量,该值权重集可以在训练期间学习并且可以包括在值权重矩阵内。给定元素的值权重矩阵可以具有键权重矩阵的大小和/或可以具有基于该元素的长度和该值向量将是的长度而定义的大小。
元素的查询向量可以具有与元素的键向量和/或值向量相同的大小。可以使用查询权重集来确定查询向量,该查询权重集可以在训练期间被学习并且可以包括在查询权重矩阵内。元素的查询权重矩阵可以具有键权重矩阵和/或值权重矩阵的大小和/或可以具有基于元素的长度和查询向量将是的长度而定义的大小。
步骤606包括为序列表示中的每个元素使用该元素的查询向量(使用查询权重和序列表示生成的)和多个元素的键向量(使用键权重和序列表示生成的)生成元素聚焦注意力分数集。针对给定元素,以元素聚焦注意力分数集可以指示赋予给定元素的值向量多少权重。键向量为其生成元素聚焦注意力分数集用于序列表示中的选取元素的多个元素可以包括序列表示中的一些或全部元素(例如,氨基酸表示部分或全部的表示)。多个元素可以包括元素聚焦(例如,正在为其确定元素聚焦注意力分数集的特定氨基酸)。
通过为序列表示的每个元素生成元素聚焦(第一元素)与相同或不同元素(第二元素)的每个配对的注意力分数来生成元素聚焦注意力分数集。针对该配对的注意力分数可以定义为第一元素的查询向量和第二元素的键向量的乘积。
在一些情况下,步骤606可以包括实现激活函数和/或标准化。标准化可以基于键向量(或查询向量)的维度。例如,归一化可以定义为键向量的长度的平方根。激活函数可以包括softmax函数。在一些情况下,在激活函数之前应用归一化。
步骤608包括执行多个元素的转换以形成多个修饰元素,其中使用为多个元素中的每个元素生成的元素聚焦注意力分数集和为多个元素中的每个元素确定的值向量来执行该转换。例如,如果序列表示包括11个元素(例如,表示11个氨基酸),并且如果针对元素的全部成对组合确定注意力分数,则生成包含多个修饰元素的修饰序列表示,其中使用可以定义为全部元素的值向量的加权平均值(使用注意力分数进行加权)来定义修饰元素。
步骤610包括使用转换序列表示、初始序列表示和前馈网络生成序列的编码。例如,可以将转换序列表示和初始序列表示求和。这个结果可能仍然包括多个元素(例如,每个元素都经由转换、求和和归一化进行更新)。然后前馈神经网络可以处理求和的表示(例如,通过执行一个、两个或多个线性转换和/或实现一个或多个激活函数)。对表示求和可以重新引入可能在转换序列表示中被遮挡的位置信息(由于在为给定元素生成转换值向量时关注其他元素的值)。
前馈神经网络可以被配置为单独处理更新的多个元素中的每个元素(例如,使用相同的技术和/或相同的参数集)。因此,前馈网络的输入可以包括对应于单个元素、单个氨基酸和/或单个序列位置的向量。前馈网络可以配置为使得前馈网络的输出与前馈网络的输入大小相同。在一些情况下,不是使用前馈网络处理转换序列表示和初始序列表示,而是采用卷积(例如,一维卷积)来执行跨位置/元素相同操作的局部转换。一维卷积可以用作解释前馈神经网络功能的另一种方式。
图6所示的技术与单头注意力有关(其中键向量、值向量和查询向量用于计算注意力分数)。可以替代地使用多头注意力。多头注意力中的每个注意力头都可能与它自己的键权重集、它自己的值权重集和它自己的查询权重集相关联。然后,多头注意力中的每个注意力头都可以产生不同的键向量、不同的值向量和不同的查询向量。多头注意力中的每个注意力头都可以使用这些不同的向量来为每个元素生成注意力分数和转换值。转换值可以被连接和投影。
还应当理解,虽然图6涉及各种向量的计算和使用,但是可以替代地使用矩阵表示。与逐个迭代地计算各种向量相反,矩阵表示可以有效地促进执行跨元素计算。
图7是根据一个或多个实施例的说明上述图6中描述的过程600的示意图。在图7中,表示和注意力过程700接收序列702作为输入。序列702可以是例如氨基酸序列。
在图7的说明性示例中,序列702包括多个氨基酸704(4个氨基酸:x1-x4)。包括多个元素a1-a4的序列表示706经由嵌入以及在一些实施例中的位置编码来生成。例如,每个元素ai可以具有数值向量。序列表示706可以是在图6的步骤602中接收的序列表示的一个示例。
可以为每个元素ai生成向量708(例如,查询向量qi、键向量ki和值向量vi)。向量708可以是针对图6中的步骤604中生成的向量的实施的示例。图示的示例对应于生成具有焦点在第一元素a1上的精选的元素聚焦注意力分数710,
Figure BDA0004022973240000301
元素聚焦注意力分数710是在图6中的步骤606中为特定元素生成的一个元素聚焦注意力分数集的示例。每个元素聚焦注意力分数
Figure BDA0004022973240000302
都定义为q1与ki的点积。计算权重设置为
Figure BDA0004022973240000303
的值向量vi的加权总和以执行生成修饰元素712,b1的转换。修饰元素712是在图6中的步骤608中生成的修饰元素的一个示例。可以对序列表示706的其他元素执行类似的转换。
II.C.使用机器学习模型的示例性方法
图1和图3中的机器学习模型132和图4A至图4C中的机器学习模型400可以以各种方式用于生成关于与包括突变肽(例如新抗原)的各种肽相关联的免疫学活性(例如,预测的结合、结合亲和力、预测的呈递发生、免疫原性等)的预测。
图8是用于生成关于各种肽的免疫学活性信息的过程的流程图。可以使用例如但不限于图1中描述的预测系统100来实施过程800的至少一部分。例如,过程800的至少一部分可以使用例如但不限于来自图1和图3的机器学习模型132或来自图4A至图4C的机器学习模型400来实现。
步骤802包括接收表征突变肽的肽序列,该肽序列包括相对于对应参考序列的变体。肽序列通过表征突变肽的至少一部分来表征突变肽。突变肽可以是例如新抗原。步骤802可以通过例如从数据存储(例如,图1中的数据存储104、云存储器、服务器或服务器系统等)中检索肽序列来执行。在一些实施例中,肽序列可以是通过机器学习模型处理的多个肽序列中的一个肽序列。
步骤804包括接收针对免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列。IPC可以是例如MHC、TCR或MHC-TCR复合物。因此,IPC序列可以是MHC序列、TCR序列或MHC-TCR序列。IPC序列通过表征IPC的至少一部分来表征IPC。步骤802可以通过例如从数据存储(例如,图1中的数据存储104、云存储器、服务器或服务器系统等)中检索IPC序列来执行。在一些实施例中,IPS序列可以是通过机器学习模型处理的多个IPC序列中的一个IPC序列。
步骤806包括使用基于注意力的机器学习模型内的不同处理路径处理肽序列和IPC序列以生成输出,其中该输出提供关于与突变肽和IPC两者都相关的免疫学活性的信息。步骤806包括例如通过对应表示块处理肽序列以生成肽表示,通过对应注意力块处理该肽表示以生成表示肽序列的转换肽表示。该肽处理路径与IPC处理路径分开,其中通过对应表示块处理IPC序列以生成IPC表示(例如,MHC表示、TCR表示、MHC-TCR表示),该通过对应注意力块处理IPC表示以生成表示IPC序列的转换IPC表示(例如,转换MHC表示、转换TCR表示、转换MHC-TCR表示)。
在一些实施例中,肽表示是聚合表示的一部分,该聚合表示还包括针对N-侧翼序列的N-侧翼表示和/或C-侧翼序列的C-侧翼表示。在这样的实施例中,聚合处理路径(其固有地包括肽处理路径)与IPC处理路径保持分离。
在各种实施例中,在步骤806中转换肽表示和转换IPC表示用于形成合成表示,然后进一步处理该合成表示以生成输出。例如,可以使用注意力块对合成表示进行转换,以生成转换合成表示,然后对其处理以生成输出。输出可以包括,例如但不限于相互作用预测集、相互作用亲和力预测集、免疫原性预测集或其组合。
步骤808包括基于输出生成报告。报告可能包括输出。在其他实施例中,报告包括输出的转换或过滤的版本。在又一些实施例中,报告包括输出的总结、概要或视觉表示。
在一些实施例中,过程800进一步包括步骤810。步骤810包括执行基于报告的动作集。该动作集可以包括与基于报告的治疗的设计和/或制造有关的各种动作。
图9是用于生成关于各种肽的免疫学活性信息的过程的流程图。可以使用例如但不限于图1中描述的预测系统100来实施过程900的至少一部分。例如,过程900的至少一部分可以使用例如但不限于来自图1和图3的机器学习模型132或来自图4A至图4C的机器学习模型400来实现。
步骤902包括接收包括多个肽序列和多个IPC序列的序列数据。
步骤904包括使用肽序列和IPC序列生成多个肽-IPC组合。肽-IPC组合中的每个肽-IPC组合都是唯一的组合。
步骤906包括针对每个肽-IPC组合,将该对应于该肽-IPC组合的肽序列输入到机器学习模型的肽处理路径中,将对应于该肽-IPC组合的IPC序列输入到机器学习模型的IPC处理路径中。
步骤908包括针对每个肽-IPC组合,使用第一注意力块处理肽序列的肽表示,并且使用第二注意力块处理IPC序列的IPC表示,以分别生成转换肽表示和转换IPC表示。
步骤910包括针对每个肽-IPC组合使用转换肽表示和转换IPC表示生成合成表示。
步骤912包括针对每个肽-IPC组合,使用第三注意力块处理合成表示,以生成转换合成表示。
步骤914包括基于转换合成表示生成输出。输出可提供哪些肽序列可以用于生成治疗的指示。例如,输出可以提供哪些肽序列(以及由此包含该肽序列的肽)具有与MHC结合的高可能性、被MHC呈递的高可能性、与肽-MHC结合的高相互作用亲和力,和/或具有免疫原性的高可能性从而触发免疫应答的指示。
II.C.1.示例性方法:肽和MHC
图10是根据一个或多个实施例的用于训练机器学习模型和使用该经训练的机器学习模型以生成与肽和MHC相关的预测的流程图。可以使用图1中的预测系统100来执行过程1000。例如,过程1000可以使用图1和图3中的机器学习模型132或图4A至图4C中的机器学习模型400来实现。在一些情况下,过程1000的部分或全部可以在相对于用户设备和/或实验室远程的远程计算系统处执行。远程计算系统可以是云计算系统。
步骤1002包括访问具有识别训练肽序列数据、训练MHC序列数据和训练免疫学活性数据的训练元素的训练数据集。训练数据集可以是图1中训练数据133的实施的一个示例。训练免疫学活性数据可以包括例如相互作用指示。
训练肽序列数据可以包括例如一个或多个用于训练的肽序列(其可以包括变体编码序列)。肽序列可以识别肽(例如,新抗原)内的有序氨基酸集。肽序列可以识别肽的表位(例如,其包括变体和/或其包括或为新表位)内的氨基酸。在一些实施例中,肽序列在还包括N-侧翼序列(例如,表征对应肽的N-末端的氨基酸链)或C-侧翼序列(例如,表征对应肽的C-末端的氨基酸链)。N-侧翼和C-侧翼都不与MHC分子结合,尽管每个都可能影响它是否由MHC分子呈递。
训练MHC序列数据可以包括用于训练的一个或多个MHC序列。例如,MHC序列可以识别部分或全部MHC分子(例如,MHC-I分子或MHC-II分子)内的氨基酸。MHC序列可以包括MHC伪序列(例如,包括34个氨基酸)。MHC序列可以识别例如MHC-I的1、2、3、4、5或6个MHC等位基因或MHC-II的1、2、3、4、5、6、7、8、9、10、11、12个MHC同种异型内的氨基酸。MHC序列可以识别构成HLA分子的部分或全部的氨基酸。
训练免疫学活性数据可以包括例如针对一种或多种肽-MHC组合的一种或多种相互作用指示。例如,训练数据集可以包括训练元素,其中每个训练元素包括用于训练的肽序列和MHC序列,以及针对对应肽-MHC组合的一个或多个相互作用指示。相互作用指示可以指示在肽和MHC之间是否发生靶相互作用(例如肽和MHC的结合、由MHC在细胞表面的肽呈递)或对靶相互作用的亲和力。
例如,相互作用指示可以是标记。负相互作用标记可以指示肽不结合MHC分子和/或不被MHC分子呈递。正相互作用标记可以指示肽与MHC分子结合和/或由MHC分子呈递。此外,相互作用标记可以指示肽与MHC分子结合的概率、MHC分子在细胞表面呈递肽的概率、对肽-MHC组合的结合亲和力、肽和MHC分子之间的结合强度,肽和MHC分子之间结合的稳定性,肽与MHC结合的趋势,或与MHC和肽之间的相互作用相关联的另一度量或特征。
训练数据集可能已由例如体外或体内实验和/或基于医疗记录生成。可能基于下文第II.E节中公开的一种或多种技术已生成训练数据。
访问训练数据集可以包括例如从本地或远程存储器检索训练数据集、加载训练数据集和/或从一个或多个数据存储(例如,云数据存储器、服务器系统或其他一些数据源)请求(和接收)部分或全部训练数据集。
在一些情况下,初始训练数据集(例如,其包括变体编码序列)可能主要包括负数据,因为发现序列组合(例如肽-MHC组合)的相对较小部分与实际靶相互作用相关联。训练数据集可以设计为包括负训练数据元素。在一些实施例中,可以定义负训练数据元素以识别正集(对应于观察到的呈递)中来源蛋白质的伪随机选取片段内的氨基酸。例如,可以基于正集来模拟负训练数据元素。可以选取片段具有在预定范围内的长度(例如,使用统一概率针对MHC-I在8和14个氨基酸之间,针对MHC-II在8-30个氨基酸之间)。N-末端和C-末端侧翼序列可以保留在负训练数据元素中,可能会施加最大长度(例如,10个氨基酸)。任何与正肽重叠的肽片段(例如,至少9聚体)都可以从负训练数据中丢弃。
在各种实施例中,基于正数据元素模拟负训练数据元素。此外,选取训练数据,以便在训练周期的每个时期使用不同的负训练数据元素集。例如,针对每个时期,可以从基于肽序列的正集识别的可用负肽序列的整体空间中选取负肽序列的不同“负子集”。为每个时期选取的负子集可能是唯一的,因为针对总的时期数,没有负肽序列在负子集中的任一负子集重复。因此,用于训练周期的每个时期的训练数据包括相同的正肽序列集但完全不同的负肽序列集。这种可以称为“负集切换”的技术可以为训练提供整体稳健性,并有助于确保由机器学习模型减少假负(例如,假负指示/预测)的数或确保没有多于一次地重复出现假负。此外,使用这种技术,机器学习模型可以在负肽序列的总数上进行训练,该负肽序列的数等于正肽序列的数乘以训练周期中的时期数。
步骤1004包括使用训练数据集训练机器学习模型。机器学习模型可以是例如图1和图3中的机器学习模型132或机器学习模型可以是例如图4A至图4C中的机器学习模型400。
机器学习模型132可以使用静态或动态学习率来训练。可以使用例如学习率退火来产生动态学习率。可以使用例如分类损失函数和/或回归损失函数来执行训练。损失函数可以基于例如均方误差、中值平方误差、平均绝对误差、中值绝对误差、基于熵的误差、交叉熵误差和/或二进制交叉熵误差。验证数据(例如,用于训练机器学习模型132的训练数据集的分离子集可用于评估机器学习模型132在训练时的性能。如果和/或当获得目标性能和/或已完成最大数的训练迭代时,可以终止训练。
步骤1006包括访问对应于突变肽集的受试者特定变体编码序列集。如上所述,变体编码序列是肽序列的一个示例。受试者特定变体编码序列集可以对应于突变肽集,使得受试者特定变体编码序列集中的每个变体编码序列识别该突变肽集的对应突变肽内的氨基酸和/或使得受试者特定变体编码序列集中的每个变体编码序列识别突变中的一个或多个氨基酸。受试者特定变体编码序列集的每个变体编码序列可以与特定受试者(例如,人受试者)相关联。该特定受试者可能已被诊断出患有(可能患有)和/或可能已经历与特定医疗状况(例如癌症)相关联的症状和/或收到与特定医疗状况(例如癌症)相关的测试结果。例如,可能已通过处理来自肿瘤的样品来识别受试者特定变体编码序列集。样品可以是或可以包括在例如图1中的样品集112内。
可以使用本文(例如,在第II.D节中)公开的技术来识别受试者特定变体编码序列集。例如,已可以通过执行测序技术来识别疾病样品中的肽,并将识别的肽与在健康样品或参考数据库中检测到的肽进行比较,以识别唯一的序列而识别变体编码序列的受试者特定集。在一些实施例中,如果唯一的序列是核酸序列,则每个唯一的核酸序列可以转换为氨基酸序列。
受试者特定变体编码序列集中的每个变体编码序列都可以识别肽内的氨基酸(其可以是新抗原的新表位内的氨基酸)。在一些情况下,一个、多个或全部受试者特定变体编码序列集中的每个变体编码序列可以是对应聚合序列的一部分,该聚合序列进一步包括在肽的N-侧翼处的序列和/或在肽的C-侧翼处的序列。
访问受试者特定变体编码序列集可以包括,例如,从本地或远程存储器检索受试者特定变体编码序列集和/或从另一个设备中请求受试者特定变体编码序列集。访问受试者特定变体编码序列集可以包括和/或可以与确定受试者特定变体编码序列集组合来执行。
已可以通过识别受试者疾病样品中的肽序列,并确定哪些肽序列未在参考、健康样品和/或野生型序列集中表示,而获得受试者特定变体编码序列集。-在使用健康样品进行比较的情况下,可能已(但不必已)从受试者收集健康样品。
步骤1008包括访问对应于MHC的MHC序列。MHC序列可以包括,例如,从受试者收集的样品内MHC(例如,MHC分子)的伪序列。在一些情况下,从来自受试者的相同样品或来自受试者的多个样品(例如,疾病样品和健康样品)识别MHC序列和受试者特定变体编码序列集。在一些情况下,从来自受试者和一个或多个其他受试者的样品中识别MHC序列和受试者特定变体编码序列集。因此,在某些情况下,MHC序列可能是特定受试者的。可能或可能已使用例如测序和/或质谱技术确定MHC序列。
访问MHC序列可以包括例如从本地或远程存储器检索MHC序列和/或从另一个设备请求受试者特定MHC序列。访问MHC序列可以包括确定MHC序列和/或与确定MHC序列组合来执行。
步骤1010包括,例如使用经训练的机器学习模型处理该受试者特定变体编码序列集和MHC序列以生成输出。步骤1010可以包括处理该受试者特定变体编码序列集的受试者特定变体编码序列和MHC序列的每个唯一组合(例如,变体编码-MHC组合或肽-MHC组合)以生成输出。
由机器学习模型生成的输出可以包括与用于训练机器学习模型的训练免疫活动数据中所包括的相同或相似类型的数据。针对每个唯一的组合,机器学习模型生成一个输出,该输出包括相互作用预测集或相互作用亲和力预测集中的至少一者。
相互作用预测集中的相互作用预测包括关于是否会在包括变体编码序列的突变肽和包括MHC序列的MHC之间发生靶相互作用的预测。例如,相互作用预测可以包括二进制或分类预测,即具有由受试者特定变体编码序列指示的氨基酸结构的突变肽是否将由如MHC序列指示的具有氨基酸结构的MHC分子呈递和/或与其结合。该相互作用亲和力预测集中的相互作用亲和力预测包括关于对目标相互作用的亲和力的预测。该亲和力可以基于例如目标相互作用的强度、趋势和/或稳定性来定义。例如,相互作用亲和力预测可以包括与突变肽相关联的预测的实数结合亲和力,该突变肽包括在受试者特定变体编码序列内识别的氨基酸和包括在MHC序列内识别的氨基酸的MHC分子。
步骤1012包括基于机器学习模型的输出生成报告。该报告可以被作为例如图1和图3中的报告144实施。报告可以是或包括输出。在某些情况下,报告可以是输出的转换或过滤的版本。
在一个或多个实施例中,基于输出对受试者特定变体编码序列集进行过滤、排序和/或以其他方式处理以生成用于包含在报告中的信息。例如,可以过滤受试者特定变体编码序列集以排除预测的相互作用亲和力(例如,结合亲和力)低于预定亲和力阈值和/或预测靶相互作用(例如,由MHC分子呈递或与MHC分子结合)的不会或不太可能发生的序列。在一些情况下,执行过滤以识别受试者特定变体编码序列集的预定数和/或分数。例如,可以执行过滤以识别与关于突变肽是否将与MHC分子结合和/或由MHC分子呈递的相对高的预测概率(例如,相对于受试者特定变体编码序列集中的未选取的变体编码序列)相关联的10、20、40、60、80、100、500或1000个变体编码序列。
该报告可以识别一种或多种变体编码序列(例如,未从该集中过滤掉的)和/或一种或多种突变肽(例如,与选取的变体编码序列相关联的)。突变肽可以通过例如其名称、通过其序列和/或通过识别变体编码序列中表示的对应野生型序列和变体两者来识别。
在一些实施例中,该报告可以识别与一种或多种变体编码序列或一种或多种突变肽相关联的一个或多个预测。该报告可以包括受试者的名字。例如,报告可以在本地呈递(例如,用于在用户设备的显示系统上显示,作为用户设备上的通知发送等)和/或传输到另一个设备(例如,发送到云计算系统,发送到云存储器,发送到与医学专业或实验室专业人员相关联的用户设备,作为电子邮件传输等)。
图11是根据一个或多个实施例的包括训练数据表的图示。表1100包括训练数据1102(例如,训练数据集)。训练数据1102可以是图1中训练数据133的一部分的一个示例。训练数据1102可以是训练数据集(诸如图11中的步骤1002中描述的训练数据集)的一部分的一个示例。
训练数据1102包括等位基因标识符1106、训练N-侧翼序列1108、训练肽序列1110、训练C-侧翼序列1112、训练MHC序列1114(例如,MHC伪序列)、结合亲和力1116和呈递指示1118。结合亲和力1116指示对以训练肽序列1110为特征的肽和以训练MHC序列1114为特征的相应MHC的结合的检测的(例如,观察到的)结合亲和力。呈递指示1118指示是否检测到(或观察到)MHC对肽的结合或呈递。
图12是根据一个或多个实施例的新抗原候选和对应潜在新表位候选的图示。当实施诸如过程1000的过程时,突变肽可以是新抗原。
针对作为新抗原候选1200的相对长的突变肽,可能由MHC分子呈递多个表位(称为新表位),其全部包含相同的突变或变体。因此,新抗原候选的免疫原性可以基于为新表位候选1202中的每个新表位候选生成的预测来预测。
免疫原性可以通过例如生成可能来自给定新抗原的全部可能新表位的列表并对列表中一些或全部新表位候选(具有构成最长10个氨基酸的表位的N-末端的上游和C-末端的下游的剩余氨基酸的侧翼)中的每个新表位候选生成预测来预测。从这些呈递预测中,选择关于MHC候选1204具有最大呈递可能性的新表位候选来呈递整个新抗原。或者,可以使用多个新表位候选-MHC对的汇总表示来获得表示新抗原的汇总分数。这种总结可以通过考虑全部候选新表位-MHC对或通过考虑每个MHC的最佳新表位然后跨全部MHC分子总结来进行。总结可以通过几个数学函数来完成,其包括例如取每个候选新表位-HLA对的呈递或结合亲和力分数的算术平均值或调和平均值。
尽管关于新抗原和新表位描述了图12,但类似的技术可用于其他类型的相对长的突变肽,其包含突变或变体并具有多个可能的表位候选。在一些实施例中,该技术可以与抗体药物序列结合使用。
II.C.2.示例性方法:肽和TCR
图13是根据一个或多个实施例的用于训练机器学习模型和使用该经训练的机器学习模型以生成与肽和TCR相关的预测的流程图。可以使用图1中的预测系统130来执行过程1300。例如,过程1300可以使用图1和图3中的机器学习模型132或图4A至图4C中的机器学习模型400来实现。在一些情况下,过程1300的部分或全部可以在相对于用户设备和/或实验室远程的远程计算系统处执行。远程计算系统可以是云计算系统。步骤1302至步骤1312可以以与图10中的步骤1002至步骤1012类似的但是关于TCR的方式实施。
步骤1302包括访问具有识别训练肽序列数据、训练TCR序列数据和训练免疫学活性数据的训练元素的训练数据集。训练TCR序列数据可以包括用于训练的一个或多个TCR序列。例如,TCR序列可以识别部分或全部TCR分子内的氨基酸。
训练免疫学活性数据可以包括例如一种或多种肽-TCR组合的一种或多种相互作用指示和/或一种或多种免疫原性预测。免疫原性预测可以预测关于TCR的肽的免疫原性。例如,训练数据集可以包括相互作用标记,该标记指示具有由变体编码序列识别的氨基酸的突变肽是否触发免疫应答(例如,突变肽是否具有免疫原性)。免疫原性可以指示突变肽激活了T细胞受体(例如,CD8+细胞毒性T淋巴细胞或CD4+辅助T细胞的受体)和/或触发了免疫应答。
训练数据集可以经由免疫和/或疫苗例如在样品(例如,一种或多种树突细胞)中表达各种突变肽和/或将各种突变肽引入(例如,引入样品或引入随后从中收集样品的受试者)而生成。突变肽可能已被单独表达或引入(例如,从而将每个实验集中在单个突变肽上)或成组表达或引入。
免疫原性可能已通过例如分析肿瘤浸润细胞进行了测试。例如,如果观察到:检测到突变肽的表位(例如,以高于阈值的量),干扰素γ(IFN-γ)或T细胞免疫球蛋白粘蛋白-3(TIM-3)测量的水平超过对应阈值,细胞毒性T细胞(例如,通常或显示与突变肽对应表位的细胞毒性T细胞)的检测到的量超过对应阈值,并且/或至少细胞凋亡的阈值程度,则已可以确定突变肽触发了免疫应答(并且因此是免疫源性的)。作为另一个示例,突变肽可能已在样品(例如,一个或多个树突细胞)中表达。如果例如确定所呈递的肽随后被T细胞识别,则已可以确定突变肽触发了免疫应答(因此是免疫原性的)。应当理解,一些实施例包括收集和/或确定训练数据集的至少一部分(例如,通过执行本文公开的一个或多个实验和/或分析)。
访问训练数据集可以包括例如从本地或远程存储器检索训练数据集、加载训练数据集和/或从一个或多个数据存储(例如,云数据存储器、服务器系统或其他一些数据源)请求(和接收)部分或全部训练数据集。
步骤1304包括使用训练数据集训练机器学习模型。机器学习模型可以是例如图1和图3中的机器学习模型132或机器学习模型可以是例如图4A至图4C中的机器学习模型400。
步骤1306包括访问对应于突变肽集的受试者特定变体编码序列集。
步骤1308包括访问对应于TCR的TCR序列。在一些情况下,从来自受试者的相同样品或来自受试者的多个样品(例如,疾病样品和健康样品)识别TCR序列和受试者特定变体编码序列集。在一些情况下,从来自受试者和一个或多个其他受试者的样品中识别TCR序列和受试者特定变体编码序列集。因此,在某些情况下,TCR序列可能是特定受试者的。可能或可能已使用例如测序和/或质谱技术确定TCR序列。
访问TCR序列可以包括例如从本地或远程存储器检索TCR序列和/或从另一个设备请求受试者特定TCR序列。访问TCR序列可以包括确定TCR序列和/或与确定TCR序列组合来执行。
步骤1310包括,例如使用经训练的机器学习模型处理该受试者特定变体编码序列集和TCR序列以生成输出。步骤1310可以包括处理该受试者特定变体编码序列集的受试者特定变体编码序列和TCR序列的每个唯一组合(例如,变体编码-TCR组合或肽-TCR组合)以生成输出。
由机器学习模型生成的输出可以包括与用于训练机器学习模型的训练免疫活动数据中所包括的相同或相似类型的数据。针对每个唯一的组合,机器学习模型会生成包括免疫原性预测集的输出。免疫原性预测集中的免疫原性预测可以指示突变肽是否触发了免疫应答(并且因此是免疫原性的)。在某些情况下,免疫原性预测指示一定程度的免疫原性(例如,低、中、高、非常高等)。
步骤1312包括基于机器学习模型的输出生成报告。该报告可以被作为例如图1和图3中的报告144实施。步骤1312可以以类似于图10中的步骤1012的方式来实现。
II.C.3示例性方法:使用机器学习模型用于训练和预测的附加注意事项
因此,本文描述的实施例提供了机器学习模型,该模型可用于生成与肽相关联的免疫学活性的预测,该肽可以是突变肽。表征突变肽的肽序列(例如,变体编码序列)可以通过具有表征IPC的IPC序列的机器学习模型进行分析,以便生成关于一种或多种靶相互作用(目标的相互作用)肽和IPC之间的一个或多个预测和/或关于肽引发免疫应答的能力。因此,由机器学习模型生成的输出可能因此包含一个或多个结果,其提供关于一种或多种靶标相互作用和/或肽的免疫原性的信息。
在一些实施例中,一个或多个变体编码序列可以基于来自本文描述的一个或多个机器学习模型的结果从特定于受试者的变体编码序列集的集中选取。输入数据可以包括MHC序列和对应于突变肽的变体编码序列的表示。机器学习模型可以使用指示哪些肽由MHC分子呈递的结合亲和力数据和质谱洗脱数据进行训练。结合亲和力数据可以包括定性数据(例如,使用ELISA、下拉测定和/或凝胶位移测定、荧光共振能量转移测定和质谱测定)或定量数据(例如,使用基于生物传感器的方法,诸如表面等离子共振、等温滴定比色法、生物层干涉法或微尺度热泳)。在一些情况下,结合亲和力数据可以包括来自竞争性结合测定的数据、来自免疫表位数据库的数据和/或在免疫表位数据库中的类型的数据。可以使用肽-MHC免疫沉淀收集洗脱数据,然后通过质谱洗脱和检测呈递的MHC配体。训练数据包括“正”实例(质谱分析结果指示MHC分子呈递了肽)和来自与正实例相同但未在质谱评估中检测到的蛋白质的“负”实例(对应于例如模拟的长度匹配的n-聚体(n聚体))。
在一些情况下,训练数据中正实例的量等于训练数据中负实例的量。在一些情况下,正实例的量小于或大于负实例的量。训练数据中的一个、多个或全部负实例中的每个负实例可以是与训练数据中的正实例长度匹配的。在一些情况下,训练数据中的序列的全部都具有相同的长度。
例如,可以使用数据编码来表示序列的一部分或全部。可以根据已知和/或静态规则或技术和/或使用经训练的网络来执行编码。例如,编码可以包括独热编码,使得针对序列的每个位置和针对氨基酸集(例如,21个)中的每个氨基酸,每个编码序列指示特定氨基酸是否存在于该位置。或者,进化驱动的编码(诸如BLOSUM)或学习的编码可用于表示序列中的氨基酸。编码可以包括位置编码(例如,学习的或固定的编码)。
在一些情况下,机器学习模型包括一个或多个用于序列处理的神经网络。神经网络可以进一步或替代地包括例如转换器网络的部分或全部和/或编码器神经网络。
机器学习模型可以包括基于注意力的机器学习模型,该模型包括一个或多个基于注意力的、缺少任何卷积层和/或缺少任何递归层的神经网络。基于注意力的机器学习模型可以(但不是必须)进一步包括一个或多个不基于注意力的其他神经网络,包括一个或多个卷积层和/或包括一个或多个递归层。
基于注意力的网络可以使用查询权重集、键权重集和值权重集来确定,针对给定的氨基酸表示,一个或多个其他氨基酸表示中的每个氨基酸表示在处理给定的氨基酸表示时将达到的待“关注”程度。自注意力层可以使用来自同一层的键、值和查询,使得例如编码器或解码器可以关注编码器或解码器的前一层中的全部位置。
当预测给定突变肽是否将结合特定MHC分子和/或被特定MHC分子呈递时,一个或多个转换器编码器可以分别处理变体编码序列和/或MHC序列的不同部分或全部的表示。每个转换器编码器可以包括自注意力层和前馈层。每个注意力层还可以包括一个或多个嵌入部件,该部件被配置为例如执行位置和/或非位置嵌入。在一些情况下,突变肽的N-侧翼区、突变肽的表位区、突变肽的C-侧翼区和MHC分子中的每一个的序列在转换器编码器的不同迭代中分别处理。针对序列中的每个氨基酸,序列的编码表示可以包括表示该氨基酸的特征向量。然后可以将序列的编码表示连接起来并馈送到转换器编码器的又一迭代。因此,连接可以包括针对变体编码序列的部分或全部中的每个氨基酸和针对MHC序列的全部或部分的特征向量。
一个或多个附加特征向量可以包括在连接中。例如,每个附加特征可以被分配用于特征向量的随机或伪随机值。连接表示(例如,包括附加特征向量)可以由附加转换器编码器处理以生成编码连接表示。序列组合的这种编码表示可以由前馈网络(例如,完全连接的神经网络)处理,其中可以应用丢弃和/或批量归一化。在一些情况下,附加特征向量的编码表示被选取性地传递到前馈网络(例如,对应于MHC分子和/或突变肽的单个氨基酸的特征向量则不是)。例如,假设MHC分子的子序列包括x1个氨基酸,突变肽的子序列(例如,以及一个或多个侧翼)包括x2个氨基酸,并且特征转换识别y个特征值来表示每个氨基酸。因此,包含1个附加特征向量的连接表示可以具有[(x1+x2+1),y]的大小。由前馈网络选取一个特征向量用于处理的情况下,馈送到前馈网络的输入可以具有[1,y]的大小。使用附加元素方法的一个优点是模型因而可以处理可变长度的序列。
前馈网络产生的结果可以对应于关于突变肽和MHC分子(例如受试者的MHC分子)之间的结合亲和力和/或突变肽是否将由MHC分子呈递的预测。结合亲和力预测可以是例如数值(例如,对应于预测的突变肽将与MHC分子结合的概率、预测的结合强度和/或预测的结合稳定性)、分类(例如,预测突变肽和MHC分子之间的结合稳定性的无、低或高)或二进制(例如,预测突变肽是否与MHC分子结合)。
生成的与突变肽相关联的呈递预测可以是例如数值(例如,对应于受试者的MHC分子在细胞表面呈递突变肽的预测的概率或表示突变肽的受试者中肿瘤细胞的预测分数)、分类(例如,预测由受试者的MHC分子无、不频繁或频繁地表示突变肽)或二进制(例如,预测突变肽是否由受试者中的MHC分子表达)。呈递预测可以(但不必)被归一化和/或表示条件预测。例如,如果突变肽已稳定地结合到MHC分子上,则呈递预测可以对应于关于受试者的MHC分子是否呈递突变肽的预测。
在一些情况下,机器学习模型生成对应于突变肽和MHC-I分子之间的一种或多种潜在相互作用的预测。例如,机器学习模型可以预测MHC-I分子和突变肽的结合亲和力和/或MHC-I分子是否会呈递突变肽。机器学习模型可以作为输入接收,并且可以处理(例如,使用一个或多个自注意力层)MHC-I分子的序列或子序列以及与突变肽相关联的变体编码序列。
在一些情况下,机器学习模型生成对应于突变肽和MHC-II分子之间的一种或多种潜在相互作用的预测。例如,机器学习模型可以预测MHC-II分子和突变肽的结合亲和力和/或MHC-II分子是否会呈递突变肽。机器学习模型可以作为输入接收,并且可以处理(例如,使用一个或多个自注意力层)MHC-II分子的序列或子序列以及突变肽的变体编码序列。
在一些情况下,机器学习模型生成对应于突变肽、MHC序列或子序列和T细胞受体之间的一种或多种潜在相互作用的预测(例如,代替或附加于生成对应于突变肽和MHC分子之间一种或多种潜在的相互作用)。然后机器学习模型可以预测例如突变肽和T细胞受体之间的结合亲和力和/或突变肽是否激活和/或触发T细胞中的免疫应答。机器学习模型可以作为输入接收,并且可以处理(例如,使用一个或多个自注意力层)T细胞受体的序列或子序列、MHC的序列或子序列以及突变肽的变体编码序列。
可以基于由本文公开的机器学习模型(例如,基于注意力的机器学习模型)生成的一个或多个结果来预测突变肽(例如,与特定受试者相关)的免疫原性。例如,当机器学习模型结果预测突变肽与MHC分子的结合亲和力低时,可以预测从受试者疾病样品中检测到的新抗原不会触发免疫原性或具有低免疫原性;MHC分子不会或不可能呈递突变肽;和/或突变肽不会触发T细胞受体的免疫应答。与突变肽相关联生成的免疫原性预测可以是例如数值(例如,对应于响应于突变肽将触发免疫原性反应的预测概率和/或对应于对突变肽任何免疫原性反应的预测强度)、分类(例如,预测无、低或高免疫应答)或二进制(例如,预测给定的突变肽是否触发受试者的免疫应答)。
预测的免疫原性可以进一步基于一种或多种免疫原性因素的预测和/或实验指示。决定免疫原性的因素包括:i)突变肽前体的蛋白质水平;ii)编码突变肽前体的转录物的表达水平;iii)免疫蛋白酶体对突变肽前体的加工效率;iv)编码突变肽前体的转录物的表达时间;v)突变肽对T细胞受体的结合亲和力;vi)突变肽中变体氨基酸的位置;vii)突变肽与MHC分子结合时的溶剂暴露;vii)当与MHC分子结合时变体氨基酸的溶剂暴露;x)肽中芳香族残基的含量;xi)变体氨基酸与野生型残基相比的性质;和/或xii)突变肽前体的性质;xiii)突变肽对已知微生物肽的微生物相似性;xiv)突变肽与野生型蛋白质组的自相似性或相异性,xv)野生型肽的胸腺表达。免疫原性因素可以进一步或附加地包括:蛋白质序列和/或突变肽的长度(例如,如通过在变体编码序列中识别的氨基酸数来指示)和/或在受试者中MHC等位基因的表达水平(例如,如通过RNA-Seq或质谱测量)。
结合亲和力预测和/或关于突变肽呈递(例如,由受试者中的一种或多种肿瘤细胞和/或一种或多种MHC分子)是否会发生(或发生概率)的预测可根据本文公开的技术(例如,使用基于注意力的机器学习模型)用于突变肽集(例如,在来自受试者的疾病样品中检测到的)中的每个突变肽。这些预测可用于选取该集的不完整子集(例如,小于该集的50%、小于该集的25%、小于该集的10%、小于该集的5%和/或小于该集的1%)。可以使用一个或多个相对阈值(例如,以识别该组中与MHC分子具有最稳定结合和/或相对于组中其他分子表示的最高可能性的突变肽)或一个或多个绝对阈值来选取不完整子集。例如,每个选取的突变肽可以具有与MHC的结合亲和力,其具有相对强的亲和力值(例如,在该集内的最佳50%、最佳25%、最佳10%或最佳5%亲和力值内)和/或绝对强亲和力值(例如,在IC50值的情况下,具有优于预定义阈值/截止值的亲和力值,诸如5000nM、1000nM或500nM)。该集的不完整子集可以包括与预定义的亲和力值阈值/截止值无关的1、2、3、4、5、6、7、8、9、10或更多个突变肽。该集的不完整子集可以包括20种或更多新抗原或30种或更多突变肽。
每个选取的突变肽可以被制造、实验测试(例如,以确定结合亲和力、呈递普遍性和/或其他免疫学因素),包括在组合物(例如,药物组合物,诸如疫苗和/或治疗)中,和/或施用于受试者。
生成结合亲和力和呈递预测的突变肽集中的每个突变肽可以包括与特定受试者(例如,特定人受试者)相关联的突变肽。突变肽集中的每个突变肽都可以是使用来自个体的疾病特异性样品识别的疾病特异性、免疫原性突变肽。可以通过对疾病样品中的遗传和/或核酸序列(例如,DNA、RNA和/或mRNA序列)进行测序并将每个识别的遗传和/或核酸序列与参考样品序列进行比较来识别个体变体编码序列。遗传和/或核酸序列内的密码子指示肽中对应氨基酸的存在。值得注意的是,多个密码子中的每个密码子都可以编码给定的氨基酸,因此虽然核酸序列可以指示(例如,确定性地)氨基酸序列,但相同的氨基酸序列可以由其他核酸序列编码。
在疾病样品中识别的一些序列可能是对应于非疾病肽的非疾病序列。为了识别疾病特异性核酸序列和/或疾病特异性氨基酸序列,针对由于对疾病特异性样品进行测序而检测到的每个序列,可以确定该序列是否也在参考序列数据中被识别。参考序列数据集可以包括已知、推断或假设该序列不指示或表征疾病(例如,任何疾病或给定疾病)的参考序列集。例如,参考序列数据集可以例如包括通过对从疾病特异性样品从其收集的同一受试者收集的一个或多个参考样品序列进行测序、对从未诊断出患有任何疾病或与疾病特异性样品相对应疾病的一个或多个其他受试者收集的一个或多个参考样品序列进行测序和/或对与特异性疾病不相关联的一种或多种细胞系进行测序而识别的序列。在一些情况下,参考序列数据集可以包括从一个或多个参考数据资源库收集的序列。检测到与疾病特异性样品相关但在参考序列数据集中未检测到(或以低于预定义阈值的频率检测到)的序列可以分类为变体编码序列(例如,一般或用于疾病特异性样品从其收集的受试者)。
在一些情况下,可以使用本文公开的机器学习模型(例如,基于注意力的机器学习模型)识别多个变体编码序列(例如,每个都已在疾病样品中检测到但未在参考样品序列中呈递),并且可以处理多个变体编码序列中的每个变体编码序列的表示(例如,单独地、顺序地和/或并行地)来预测结合亲和力和/或呈递预测。
疾病样品可以包括,例如,组织(例如,实体瘤)、血液和/或细胞集合(例如,可能已使用精细抽吸或腹腔镜检查收集的癌细胞)。疾病样品可以包括从已被诊断患有和/或患有例如肺癌、黑色素瘤、乳腺癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌的受试者收集的癌细胞、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性髓细胞白血病、慢性髓细胞白血病、慢性淋巴细胞白血病和T细胞淋巴细胞白血病、非小细胞肺癌或小细胞肺癌的受试者收集的癌性细胞。
在一些情况下,将初始样品分离成疾病样品和另一剩余样品(例如,可以丢弃或用作参考样品)。参考样品可以包括匹配的无病样品。疾病样品和参考样品中的每个样品可以从同一受试者收集和/或可以包括或可以是相同或相似的样品类型(例如,组织类型)。在一些情况下,疾病样品是从第一受试者(例如,已被诊断患有医学病症或疾病的人)收集的,并且参考样品是从不同的第二受试者(例如,尚未被诊断患有医学病症或疾病的人)收集的。在一些情况下,参考样品序列是从与生物体相关联的已知基因的数据库中检索的。
训练数据还可以包括一种或多种肽的序列,以及与MHC分子结合的每种肽是否由MHC分子呈递和/或触发免疫应答的指示。为了收集将序列数据与观察到的呈递和/或结合数据相关联的训练数据,可以(单独)处理疾病样品(以及可能的参考样品)以分离MHC/肽复合物(例如,通过使用特异于MHC的抗体进行免疫沉淀)和/或从MHC分子中洗脱(并由此测序)肽(例如,使用色谱和/或质谱)。在一些情况下,通过对一种或多种工程化细胞系进行测序以表达一种或多种MHC等位基因(例如,在疾病样品中检测到的)(其可包括MHC I类等位基因和/或MHC II类等位基因)来识别参考样品序列用于生成呈递数据等位基因。一种或多种细胞系可以包括从一个或多个受试者获得的或来源于一个或多个受试者的一种或多种人细胞系。出于本描述的目的,可以将使用疾病样品识别的但未在参考样品序列集中表示的肽序列识别为变体编码序列。
在一些实施例中,收集用于训练的免疫原性指示度量可以基于HLA分型分析,其可以识别受试者特定MHC分子谱。当受试者是人时,该谱可称为人白细胞抗原(HLA)谱,因为HLA复合物是编码人MHC蛋白的基因复合物。可以使用来自受试者的样品(例如,正常组织和/或非疾病样品)进行HLA分型分析。可以使用测序技术确定谱,诸如基于PCR的测序、直接测序和/或下一代测序。HLA分型分析可以包括,例如高分辨率分型(例如,其不包括指示未在细胞表面上表达的无效等位基因)或等位基因水平分型(例如,其指的是精确的核苷酸序列HLA基因测定)。HLA分型分析可以包括识别更广泛等位基因家族的低分辨率分型和/或HLA超分型。
针对任何类型的测序(例如,识别样品中的序列、与MHC分子键合的肽、HLA分型),结果可以识别一个或多个核酸序列或一个或多个氨基酸序列。当核酸序列被识别并且基于注意力的模型(或其他处理)被配置为处理氨基酸序列时,可以使用一种技术(例如,查找表)将核酸序列内的单个密码子转换为单个氨基酸。
一些实施例包括合成肽(例如,使用编码肽,诸如选取的肽的核酸序列)或选取的肽的前体。然后可以在实验中使用合成的肽或前体来识别对应呈递和/或结合数据(例如,验证预测的呈递和/或结合或生成用于训练的结果)。例如,实验可以包括使用ELISA下拉测定、凝胶位移测定或基于生物传感器的方法评估选取的肽与特定MHC分子的结合亲和力。作为另一个示例,实验可以包括通过使用肽-MHC免疫沉淀来收集指示选取的肽是否由MHC分子呈递的洗脱数据,随后通过质谱来洗脱和检测呈递的MHC配体。
除了指示单个肽是否与单个MHC结合和/或由单个MHC呈递的训练或验证数据之外,训练或验证数据可以指示单个肽是否触发免疫原性。免疫原性结果可以使用体内或体外测试来确定。测试一种或多种选取的肽可以被配置为研究一种或多种免疫原性因素(例如,确定给定事件是否发生和/或确定其程度)和/或免疫原性(例如,确定肽是否触发免疫应答和/或确定其程度)。测试可以被配置为研究将包含一种或多种肽的组合物(例如疫苗)施用于给定受试者(例如,已识别在突变肽选取期间使用的MHC序列)在预防或治疗医疗状况(例如,肿瘤)或疾病(例如,癌症)方面是否有效。受试者可以是人受试者。
一些实施例包括制造基于一种或多种选取的突变肽(或编码一种或多种选取的突变肽的多种核酸)的组合物。例如,一种或多种选取的突变肽中的每种突变肽可能已被预测为结合受试者的MHC分子并由受试者的MHC分子呈递(例如,至少达到阈值程度)。所述组合物可以包括一种或多种选取的突变肽中的每一种突变肽、一种或多种选取的突变肽的一种或多种前体、对应于一种或多种选取的突变肽的一种或多种多肽序列、对应于一种或多种选取的突变肽的RNA(例如,mRNA)、对应于一种或多种选取的突变肽的DNA、包括一种或多种选取的突变肽的细胞(例如,抗原呈递细胞)和/或编码这种肽的核酸、对应于一种或多种选取的突变肽的质粒和/或对应于一种或多种选取的突变肽的载体。
该组合物还可包括佐剂、赋形剂、免疫调节剂、检查点蛋白、PD-1拮抗剂(例如,抗PD-1抗体)和/或PD-L1拮抗剂(例如,抗PD-L1抗体)。该组合物可以是疫苗,诸如肿瘤疫苗。该组合物可以是为特定受试者制造或选取的个体化疫苗。
该组合物可以包括多核苷酸构建体(例如,DNA构建体或RNA构建体)。多核苷酸构建体是可以“移植”到靶组织或细胞中的人工构建的核酸片。多核苷酸构建体包含DNA或RNA(例如,mRNA)插入物,其含有编码一种或多种选取的突变肽的核苷酸序列。为了增加抗原呈递(例如,一种或多种选取的突变肽通过MHC分子的呈递),多核苷酸构建体可进一步包含为改善抗原呈递而开发的修饰,从而改善对一种或多种选取的突变肽的免疫原性。在一些情况下,修饰是将MHC分子链的跨膜区和胞质区掺入多核苷酸构建体中,如国际公开WO2005038030A1中所描述,该文献出于全部目的通过引用整体并入本文。
为了提供具有增强的稳定性和翻译效率的RNA插入物,多核苷酸构建体可以进一步包含为提高的稳定性和翻译而开发的修饰,从而提高对一种或多种选取的突变肽的免疫原性。在一些情况下,修饰是将具有至少两个拷贝的人β-珠蛋白基因的3'-非翻译区的核酸序列掺入多核苷酸构建体中,如国际公开WO2007036366A2中所描述,该文献出于全部目的通过引用整体并入本文。在其他情况下,修饰是掺入为3'-非翻译区编码的核酸序列,诸如国际公开WO2017060314A3中所描述的F1 3'UTR,该文献出于全部目的通过引用整体并入本文。
为了提供具有增强的稳定性和表达的RNA插入物,多核苷酸构建体可以进一步包括为改善的稳定性和表达而开发的修饰,从而改善对一种或多种选取的突变肽的免疫原性。在一些情况下,修饰是在RNA的末端加入一个帽,诸如5'-帽结构。帽结构可以是β-S-ARCA的D1非对映异构体,如在国际公开WO2011015347A1中所描述的,该文献出于全部目的通过引用整体并入本文。
为了将多核苷酸构建体以高选取性递送至抗原呈递细胞,该组合物可进一步包括阳离子脂质体或脂质复合物以改善多核苷酸构建体的摄取,从而改善对一种或多种选取的突变肽的免疫原性。在一些情况下,组合物包括包含多核苷酸构建体的纳米颗粒。该纳米颗粒可以是包含一种或多种脂质诸如DOTMA和DOPE的脂质复合物,如国际公开WO2013143683A1中所描述,该文献出于全部目的通过引用整体并入本文。
一些实施例包括通过向个体施用有效量的包含一种或多种选取的突变肽的组合物(例如疫苗)来治疗个体的医学病症(例如,肿瘤)或疾病(例如,癌症)。该个体可以是从其收集疾病样品的同一个体。在一些情况下,将疫苗施用于与从其收集疾病样品的个体不同的个体。例如,该不同的个体可以与从其收集疾病样品的个体有关,具有发展特定类型癌症的遗传风险,和/或具有MHC分子,该MHC分子具有对应于序列的一个、多个或全部等位基因,其与从其收集疾病样品的受试者的一个或多个MHC等位基因相同(或相似)。
在一些实施例中,针对突变肽集中的每种突变肽(例如,在受试者的样品中检测到的),本文公开的一种或多种技术用于预测突变肽是否将结合受试者的MHC分子(或强度、稳定性和/或这种结合的普遍性)和/或预测受试者的MHC分子是否会呈递突变肽(和/或这种呈递的普遍性)。预测可用于选取突变肽的不完整子集(例如,为其预测突变肽的MHC呈递是可能的)。针对每种突变肽,选取可以包括将对应于预测度量的度量与绝对阈值和/或与其他突变肽的度量的预测度量进行比较(例如,从而执行相对比较)。每个选取的突变肽可以被识别为具有:在肿瘤细胞表面上呈递的高可能性;能够诱导肿瘤特异性免疫应答的高可能性;能够被专职抗原呈递细胞(例如,树突细胞)呈递给天然T细胞的高可能性;经由中枢或外周耐受受到抑制的低可能性;和/或能够在受试者中诱导对正常组织的自身免疫应答的低可能性。
一些实施例包括生成和/或使用模型来识别可能与MHC分子结合并由MHC分子在肿瘤细胞表面呈递的一种或多种肽(例如,突变肽)。更具体地,训练数据集可以包括数据元素集,每个数据元素包括:表位(或肽)的序列(例如,以及肽的N-侧翼和肽的C-侧翼的可能序列)、MHC分子的子序列,以及与肽和MHC分子有关的一个或多个实验结果(例如,结合亲和力和/或洗脱配体呈递数据)。
可以使用至少部分训练数据集来训练基于注意力的机器学习模型。该训练数据集可以包括多个训练元素。每个训练数据元素可以包括序列和结果的表示(例如,指示对应于序列的肽的至少一部分是否由MHC分子呈递和/或触发免疫原性)。未检测到用于呈递的训练数据元素可以是通过计算生成的。例如,针对正组集中的每种来源蛋白质(对应于正洗脱配体呈递数据),可以生成一个、多个或全部可能的肽片段(例如,在预定义的长度范围内,诸如从8到11),针对每个长度可能具有均匀的概率。可以保留N-末端和C-末端侧翼序列(例如,可能具有最大长度,诸如10个氨基酸)。在一些情况下,针对训练数据中正实例中表示的每个等位基因,可以生成(例如,长度为8到11的一个、多个或全部的)肽片段。可以执行生成和/或随后的选取,使得具有给定长度的序列的出现概率在长度上是一致的。N-末端和C-末端侧翼序列可以是或可能已保留了特定的最大长度(例如,10个氨基酸的最大长度)。
基于注意力的机器学习模型可以包括1、2、3、4、5、6、7、8个或更多个转换器编码器网络(例如,每个都包括单头注意力和前馈网络)。例如,基于注意力的机器学习模型可以包括多个第一级转换器编码器,其包括被配置为处理肽的表示的转换器编码器、被配置为处理MHC分子的表示的转换器编码器、可能地被配置为处理肽N-侧翼的表示的转换器编码器,并且可能地被配置为处理肽C-侧翼的表示的转换器编码器。基于注意力的机器学习模型还可以包括第二级转换器编码器,该第二级转换器编码器被配置为处理由第一级转换器编码器生成的聚合(例如,连接)结果。
基于注意力的机器学习模型还可以包括前馈网络(例如,具有一个、两个或更多个隐藏层的全连接前馈网络),被配置为处理来自第五转换器编码的结果(例如,在应用丢弃之后)以生成预测的(例如,实数)结合亲和力和/或预测的呈递(例如,作为二进制预测。基于注意力的机器学习模型是一组模型内的一个或多个模型(例如,具有相同的配置)。训练数据集可以被随机解析、混洗和/或划分,以训练集成内的各种模型。损失函数可以使用误差项(例如,均方误差或中值平方误差)和/或熵项(例如,交叉熵或二进制交叉熵)。可以使用多任务学习,以便同时训练模型以预测两种不同类型的结果中的每种结果(例如,结合亲和力和呈递发生)。可以使用静态或非静态学习率。例如,学习率退火(例如,使用逐步退火或余弦退火)可用于降低迭代中的学习率。验证数据评估可用于可能地提前终止训练(例如,在确定已达到绩效目标时)。
MHC包括体内的多个等位基因(例如,每人6个等位基因)。因此,针对该单一的MHC分子,可以生成多个序列输入(例如,每个表示多个等位基因中的一个等位基因)。可以使用一个或多个神经网络(例如,一个或多个转换器编码器)分别处理多个序列输入中的每个序列输入,以便生成与每个等位基因相关的新抗原的预测结合或呈递值。函数(例如,softmax函数)可以识别多个等位基因中的哪个等位基因与最高呈递预测相关联。在训练期间,然后可以使用二进制损失函数将这个特定序列输入的最大呈递预测与真实呈递值进行比较,以生成用于调整参数的误差。
在一些情况下,不知道肽酶使用来自侧翼(例如,N-侧翼)的多少氨基酸来确定何时将长肽修剪成被呈递的肽核心。为了在生成训练数据时解决这个未知数,然后可以将侧翼修剪到基于技术(例如,伪随机选取技术)选取的长度,诸如预定义范围内的长度(例如,1到10个氨基酸)。选取技术可以使用分布(例如,均匀分布或高斯分布)来选取长度。在一些情况下,低于阈值长度(例如,10个氨基酸)的侧翼不被修剪。在一些情况下,侧翼修整以某种方式定义,以便将C侧保留在N-侧翼上。
经训练的模型然后可以接收输入数据集,其包括一个或多个突变肽序列(例如,N-侧翼区、候选表位区和/或C-侧翼区的)的表示和MHC分子(与受试者相关联)的子序列;并且生成预测的结合亲和力和/或呈递预测。如果预测突变肽将稳定地结合MHC分子并由MHC分子呈递,则可选取突变肽以包括在用于治疗受试者的组合物(例如疫苗)中。
II.D.用于机器学习模型的输入数据的示例性识别
本文描述的用于识别输入数据的示例性方法和系统可用于识别用于例如图1和图3中的机器学习模型132和/或图4A至图4C中描述的机器学习模型132的输入数据。
可以使用基于注意力的机器学习模型分析与给定受试者相关联的突变肽集中的每种突变肽,以生成关于突变肽的结合亲和力、呈递概率和/或免疫原性的一个或多个预测。为了生成这些预测,机器学习模型可以接收和处理对应于突变肽的肽(例如,编码)序列和一个或多个其他序列或子序列(例如,对应于MHC-I分子、MHC-II分子或T细胞受体)。在一些情况下,为肽序列集(例如,对应于突变肽集的变体编码序列集)中的每个肽序列生成预测。该突变肽集可以对应于从受试者收集的疾病样品中存在的但在一个或多个非疾病样品(例如,来自受试者或另一受试者)中未观察到的肽。
有多种方法可用于识别与给定受试者相关联的突变肽集。突变可存在于受试者患病细胞的基因组、转录、蛋白质组或外显子组中,但不存在于未患病样品中,例如来自受试者或来自另一受试者的未患病样品。突变包括但不限于(1)导致蛋白质中不同氨基酸的非同义突变;(2)通读突变,其中终止密码子被修饰或删除,导致在C-末端具有新的肿瘤特异性序列的较长蛋白质的翻译;(3)剪接位点突变,导致成熟mRNA中包含内含子,从而形成唯一的肿瘤特异性蛋白质序列;(4)染色体重排,在2种蛋白质的连接处产生具有肿瘤特异性序列的嵌合蛋白质(即基因融合);(5)移码插入或缺失,导致具有新的肿瘤特异性蛋白质序列的新开放阅读框。突变还可以包括一种或多种非移码插入缺失、错义或无义替换、剪接位点改变、基因组重排或基因融合,或导致新ORF的任何基因组或表达改变。
可以通过对患病样品中的DNA、RNA或蛋白质进行测序并将获得的序列与来自于未患病样品的序列进行比较,来识别在例如患病细胞中的剪接位点、移码、通读,或基因融合突变产生的具有突变的肽或突变的多肽。
在一些实施例中,可以获得并比较来自疾病样品和非疾病样品的全基因组测序(WGS)或全外显子组测序(WES)数据。在将非患病样品和患病样品读数与人参考基因组比对后,可以使用变异调用算法检测体细胞变异,其包括单核苷酸变异(SNV)、基因融合和插入或缺失变异(indel)。一种或多种变异调用者可用于检测不同的体细胞变异类型(即SNV、基因融合或插入缺失)(参见Xu等人“A review of somatic single nucleotide variantcalling algorithms for next-generation sequencing data.”Comput.Struct.Biotechnol.J.16:15-24(2018),该文献出于全部目的通过引用整体并入本文。
在一些示例中,突变肽是基于来自个体的疾病样品中的转录组序列来识别的。例如,可以从个体的患病组织获得全部或部分转录组序列(例如通过诸如RNA-Seq的方法)并进行测序分析。然后可以将从患病组织样品中获得的序列与从参考样品中获得的序列进行比较。任选地,对患病组织样品进行全转录组RNA-Seq。任选地,转录组序列在与参考样品比较之前“富集”特异性序列。例如,可以设计特异性探针以在进行测序分析之前富集某些所需序列(例如疾病特异性序列)。全转录组测序和靶向测序的方法是本领域已知的并且在例如以下所报告:Tang,F.等人,“mRNA-Seq whole-transcriptome analysis of a singlecell,”Nature Methods,2009,v.6,377-382;Ozsolak,F.,“RNA sequencing:advances,challenges and opportunities,”Nature Reviews,2011,v.12,87-98;German,M.A等人,“Global identification of microRNA-target RNA pairs by parallel analysis ofRNA ends,”Nature Biotechnology,2008,v.26,941-946;and Wang,Z.等人,“RNA-Seq:arevolutionary tool for transcriptomics,”Nature Reviews,2009,v.10,p.57-63。这些参考文献中的每个参考文献出于全部目的通过引用整体并入本文。
在一些实施例中,转录组测序技术包括但不限于RNA poly(A)文库、微阵列分析、平行测序、大规模平行测序、PCR和RNA-Seq。RNA-Seq是一种高通量技术,用于对部分或基本上全部转录组进行测序。简而言之,一个分离的转录组序列群被转换为一个衔接子附接至一端或两端的cDNA片段文库。然后无论有或没有扩增,分析每个cDNA分子以获得通常为30至400个碱基对的短段序列信息。然后将这些序列信息片段与参考基因组、参考转录本或从头组装以揭示转录本的结构(即转录边界)和/或表达水平。
一旦获得,就可以将患病样品中的序列与参考样品中的对应序列进行比较。通过将疾病组织中的核酸序列与参考样品中的对应序列进行比对,可以在核酸水平上进行序列比较。然后识别导致编码氨基酸中发生一种或多种变化的遗传序列变异。或者,可以在氨基酸水平上进行序列比较,即在进行比较之前首先将核酸序列经由电脑模拟转换为氨基酸序列。基于氨基酸的方法或基于核酸的方法可用于识别肽中的一种或多种突变(例如,一种或多种点突变)。关于基于核酸的方法,发现的变体可用于识别一种或多种核酸序列(例如DNA序列、RNA序列或mRNA序列),其会产生给定的可观察突变蛋白(例如,经由将单个肽突变与多个密码子变体相关联的查找表)。
在一些实施例中,来自疾病样品的序列与参考样品的序列的比较可以通过本领域已知的技术完成,诸如手动比对、FAST-All(FASTA)和局部序列排比检索基本工具(BLAST)。在一些实施例中,来自疾病样品的序列与参考样品的序列的比较可以使用短读段比对器例如GSNAP、BWA和STAR来完成。
在一些实施例中,参考样品是匹配的无病样品。如本文所用,“匹配的”无病组织样品是选自相同或相似样品的样品,例如来自与疾病样品相同或相似组织类型的样品。在一些实施例中,匹配的无病组织和疾病组织可以源自同一个体。在一些实施例中,本文描述的参考样品是来自同一个体的无病样品。在一些实施例中,参考样品是来自不同个体(例如没有患病的个体)的无病样品。在一些实施例中,参考样品获得自不同个体的群体。在一些实施例中,参考样品是与生物体相关联的已知基因的数据库。在一些实施例中,参考样品可以来自细胞系。在一些实施例中,参考样品可以是与生物体相关联的已知基因和来自匹配的无病样品的基因组信息的组合。在一些实施例中,变体编码序列可以包括氨基酸序列中的点突变。在一些实施例中,变体编码序列可以包括氨基酸缺失或插入。
在一些实施例中,首先基于基因组和/或核酸序列识别该变体编码序列集。然后基于转录组测序数据库中变体编码序列的存在,进一步过滤该初始集以获得更窄的表达变体编码序列集(并且因此被认为是“表达的”)。在一些实施例中,通过转录组测序数据库过滤,该变体编码序列集减少了至少约10、20、30、40、50或更多倍。
或者,蛋白质质谱可用于识别或验证突变(例如,与肿瘤细胞上的MHC蛋白结合的突变)肽的存在。肽可以从患病细胞(例如肿瘤细胞)或从来自肿瘤免疫沉淀的HLA分子进行酸洗脱,然后使用质谱进行识别。
突变肽可以具有例如5个或更多、8个或更多、11个或更多、15个或更多、20个或更多、40个或更多、80个或更多、100个或更多、120个或更少、100个或更少、80个或更少、60个或更少、50个或更少、40个或更少、30个或更少、25个或更少、20个或更少、18个或更少、15个或更少或13个或更少氨基酸。
还可以识别肿瘤特异性T细胞受体序列,例如,通过单细胞T细胞受体测序。例如,参见De Simone等人“Single Cell T Cell Receptor Sequencing:Techniques andFuture Challenges,”Front.Immunol.9:1638(2018);Zong等人“Very rapid cloning,expression and identifying specificity of T-cell receptors for T-cellengineering,”PloS ONE 15(2):e0228112(2020)(该文献出于全部目的通过引用整体并入本文)。也可以或替代地进行T细胞库的高通量测序,以识别特定疾病的肿瘤特异性特征。例如,参见Wang等人“High-throughput sequence of CD4+T cell repertoire revealsdisease-specific signatures in IgG4-related disease,”Arthritis Research&Therapy 21:295(2019)(该文献出于全部目的通过引用整体并入本文)。
MHC-I序列和/或MHC-II序列可以经由例如HLA基因分型或质谱来确定(Caron等人,“Analysis of Major Histocompatibility Complex(MHC)Immunopeptides UsingMass Spectroscopy,”Molecular and Cellular Proteomics 14(12):3105-3117(2015)(该文献出于全部目的通过引用整体并入本文)。
II.E.机器学习模型的训练数据的示例性识别
本文描述的用于识别训练数据的示例性方法和系统可用于识别针对例如图1和图3中的机器学习模型132和/或图4A至图4C中描述的机器学习模型132的训练数据。例如,这些方法和系统可用于识别图1中的训练数据131。
可以使用从多个其他样品(例如,可能与一个或多个其他受试者相关联)收集的数据生成训练集。多个其他样品中的每个样品可以包括例如组织(例如,活检)、单细胞、多细胞、细胞碎片或体液的等分试样。在一些情况下,与要由经训练的模型处理的输入数据相关联的受试者相比,从不同类型的受试者收集多个其他样品。例如,机器学习模型可以使用通过处理来自一个或多个细胞系的样品而收集的训练数据来训练,并且经训练的机器学习模型可以用于处理通过处理来自人受试者的一个或多个样品而确定的输入数据。
该训练数据集包括多个训练元素。多个训练元素中的每个元素可以包括输入数据,该输入数据包括肽序列集(其包括野生型或变体编码序列集),每个序列编码和/或表示对应肽中的任何变体,以及MHC分子的子序列或伪序列。可以根据本文(例如,在第II.D节中)公开的一种或多种技术收集输入数据。
每个训练元素还可以包括一个或多个基于实验的结果。基于实验的结果可以指示野生型肽或突变肽(与训练元素中的变体编码序列相关联)与MHC分子(与训练元素中的MHC分子子序列相关)之间的一种或多种特定类型的相互作用是否发生和/或指示其程度。特定类型的相互作用可以包括例如肽与MHC分子的结合和/或由MHC分子在细胞(例如,肿瘤细胞)表面上呈递肽。
结果可以包括肽和MHC分子之间的结合亲和力。基于表征给定肽是否与给定MHC分子结合的定性数据和/或定量数据,结果可以包括或可以是发生此类键的强度、此类键的稳定性和/或此类键的趋势。例如,二进制结合亲和力指示剂或定性二进制亲和力结果可以使用ELISA、下拉测定、凝胶位移测定、基于生物传感器的方法(诸如表面等离子共振、等温滴定比色、生物层干涉或微尺度热泳)生成。
例如,结果可以进一步或替代地表征给定MHC分子是否表示给定肽和/或表征其概率。MHC配体可以从样品中免疫沉淀出来。随后的洗脱和质谱可用于确定MHC分子是否呈递配体。
III.药学上可接受的组合物和制造
一个或多个变体编码序列可以基于来自本文描述的一个或多个机器学习模型的结果从受试者特异性变体编码序列集中选取。例如,选取可以包括识别受试者特定变体编码序列集的集中的每个集,针对该等序列预测的结合亲和力小于500nM,针对该等序列预测MHC分子将呈递通过变体编码序列识别的突变肽,和/或针对该等序列预测突变肽将触发免疫应答。应当理解,模型的输出可以在不同的尺度上,使得500nM可以对应于例如[0,1]尺度上的另一个值(例如,0.42)。
可使用一种、多种或全部选取的变体编码序列开发和/或制造药学上可接受的组合物。该组合物可以包括对应于单个选取的变体编码序列的突变肽。该组合物可以包括对应于多个选取的变体编码序列的突变肽和/或突变肽前体。-肽候选的子集(例如,与5、10、15、20、30或之间的任何数的最高呈递预测相关联)可用于进一步的前体开发。
组合物中的一种、多种或全部突变肽中的每种突变肽可以具有例如约7至约40个氨基酸(例如长度约7、8、9、10、11、12、13、14、15、17、20、22、25、30、35、40、45、50、60或70个氨基酸中的任一个长度)的长度。在一些实施例中,组合物中的一个、多个或全部突变肽中的每个突变肽的长度在预定范围内(例如,8至11个氨基酸、8至12个氨基酸或8至15个氨基酸)。在一些实施例中,组合物中的一种、多种或全部突变肽中的每种突变肽的长度为约8至10个氨基酸。组合物中的一种、多种或全部突变肽中的每种突变肽都可以是处于其分离形式。组合物中的一种或多种突变肽中的每种突变肽可以是通过将一种或多种肽添加到突变肽的末端(或到每个末端)而产生的“长肽”。组合物中的一种、多种或全部突变肽中的每种突变肽都可以被标记,可以是融合蛋白,和/或可以是杂合分子。
可开发和/或制造药学上可接受的组合物以包括或通过使用一种或多种核酸,该核酸针对一个、多个或全部选取的变体编码序列中的每个变体编码序列的如变体编码序列中所识别的包括氨基酸或由氨基酸组成的肽进行编码。核酸可以包括DNA、RNA和/或mRNA。鉴于多个密码子中的任一个密码子可以编码给定的氨基酸,可以选取密码子以例如优化或促进在给定类型的生物体中的表达。此类选取可以基于给定类型的生物体使用的多个潜在密码子中的每个密码子的频率、给定类型的生物体中多个潜在密码子中的每个密码子的翻译效率和/或给定类型的生物体针对多个潜在密码子中的每个密码子的偏置程度。
在一些情况下,组合物可以包括编码上述突变肽或突变肽的前体的核酸。核酸可以包括位于编码突变肽(或其前体)的序列侧翼的序列。在一些情况下,核酸包括对应于多于一种选取的变体编码序列的表位。在一些情况下,核酸是具有编码上述突变肽或前体的多核苷酸序列的DNA。
在一些情况下,核酸是RNA。在一些情况下,从具有编码上述突变肽或前体的多核苷酸序列的DNA模板逆转录RNA。在一些情况下,RNA为mRNA。在一些情况下,RNA为修饰的mRNA。在一些情况下,RNA为修饰的mRNA(例如,使用鱼精蛋白保护而免于降解的mRNA、含有修饰的5'CAP结构的mRNA,或含有修饰的核苷酸的mRNA)。在一些实施例中,RNA为单链mRNA。
该组合物可以包括包含突变肽和/或编码上述突变肽的核酸的细胞。该组合物还可包含一种或多种合适的载体和/或一种或多种用于突变肽和/或编码突变肽的核酸的递送系统。在一些情况下,包含突变肽和/或编码突变肽的核酸的细胞是非人细胞,例如细菌细胞、原生动物细胞、真菌细胞或非人动物细胞。在一些情况下,包含突变肽和/或编码突变肽的核酸的细胞是人细胞。在一些情况下,人细胞为免疫细胞。在一些情况下,免疫细胞为抗原呈递细胞(APC)。在一些情况下,APC是专业的APC,诸如巨噬细胞、单核细胞、树突细胞、B细胞和小胶质细胞。在其他情况下,专业APC是巨噬细胞或树突细胞。在一些情况下,包含突变肽和/或编码突变肽的核酸序列的APC用作细胞疫苗,从而诱导CD4+或CD8+免疫应答。在其他情况下,用作细胞疫苗的组合物包括由包含突变肽和/或编码突变肽的核酸序列的APC引发的突变肽特异性T细胞。
该组合物可以包括药学上可接受的佐剂和/或药学上可接受的赋形剂。佐剂是指混入组合物中可改变对突变肽的免疫应答的任何物质。可以使用例如免疫刺激剂来缀合佐剂。赋形剂可以增加特定突变肽的分子量以增强活性或免疫原性、赋予稳定性、增加生物活性和/或增加血清半衰期。
药学上可接受的组合物可以是疫苗,其可以包括对(例如,并且可能开发用于)特定受试者的特异性个体化疫苗。例如,可能已使用来自特定受试者的样品识别了MHC序列,并且可以开发组合物用于和/或用于治疗特定受试者。
疫苗可以是核酸疫苗。核酸可以编码突变肽或突变肽的前体。核酸疫苗可以包括位于编码突变肽(或其前体)的序列侧翼的序列。在一些情况下,核酸疫苗包括对应于多于一种选取的变体编码序列的表位。在一些情况下,核酸疫苗是基于DNA的疫苗。在一些情况下,核酸疫苗是基于RNA的疫苗。在一些情况下,基于RNA的疫苗包含mRNA。在一些情况下,基于RNA的疫苗包含裸露的mRNA。在一些情况下,基于RNA的疫苗包含修饰的mRNA(例如,使用鱼精蛋白保护而免于降解的mRNA、含有修饰的5'CAP结构的mRNA,或含有修饰的核苷酸的mRNA)。在一些实施例中,基于RNA的疫苗包含单链mRNA。
核酸疫苗可以包括为特定受试者制造的个体化新抗原特异性疗法,以用作下一代免疫疗法的一部分。可以通过首先检测特定受试者样品中的突变肽,并随后针对每个检测到的突变肽预测该肽是否与特定受试者的MHC结合和/或其程度来设计个体化疫苗、是否由MHC呈递和/或其程度、是否与特定受试者的T细胞受体结合和/或其程度,和/或是否触发免疫应答和/或其程度。基于这些预测,可以选取检测到的突变肽的子集(例如,具有至少1个、至少2个、至少3个、至少5个、至少8个、至少10个、至少12个、至少15个、至少18个、最多40个、最多30个、最多25个、最多20个、最多18个、最多15个和/或最多10个突变肽的子集)。针对每个选取的突变肽,可以识别为突变肽编码的合成mRNA序列。mRNA疫苗可以包括与脂质复合以形成mRNA-脂质复合物的mRNA(其编码部分或全部突变肽)。施用包含mRNA-脂质复合物的疫苗可导致mRNA刺激TLR7和TLR8,通过树突细胞触发激活T细胞。此外,施用可导致mRNA翻译成突变肽,其然后可与MHC分子结合并由MHC分子呈递以及诱导T细胞应答。
该组合物可以包括基本上纯的突变肽、其基本上纯的前体和/或基本上纯的编码突变肽或其前体的核酸。该组合物可以包括一种或多种合适的载体和/或一种或多种递送系统以包含突变肽、其前体和/或编码突变肽或其前体的核酸。合适的载体和递送系统包括病毒,诸如基于腺病毒、牛痘病毒、逆转录病毒、疱疹病毒、腺相关病毒或含有多于一种病毒元素的杂合体的系统。非病毒递送系统包括阳离子脂质和阳离子聚合物(例如阳离子脂质体)。在一些实施例中,可以使用诸如带有“基因枪”的物理递送。
在某些实施例中,基于RNA的疫苗包括RNA分子,该RNA分子在5'→3'方向上包含:(1)5'帽;(2)5'非翻译区(UTR);(3)编码分泌信号肽的多核苷酸序列;(4)编码由存在于肿瘤样品中的癌症特异性体细胞突变产生的一个或多个突变肽的多核苷酸序列;(5)编码主要组织相容性复合体(MHC)分子的跨膜和胞质结构域的至少一部分的多核苷酸序列;(6)3'UTR,其包括:(a)分裂的氨基末端增强子(AES)mRNA的3'非翻译区或其片段;和(b)线粒体编码的12S RNA的非编码RNA或其片段;以及(7)poly(A)序列。该示例RNA分子还用于评估基于注意力的预测模型的示例实施方式,如下文关于第V节所述。
在某些实施例中,RNA分子进一步包含编码氨基酸接头的多核苷酸序列;其中编码氨基酸接头的多核苷酸序列与一个或多个突变肽中的第一个形成第一接头-新表位模块;并且其中在5'→3'方向上,形成第一接头-新表位模块的多核苷酸序列在编码分泌信号肽的多核苷酸序列与编码MHC分子的跨膜和胞质结构域的至少一部分的多核苷酸序列之间。在某些实施例中,氨基酸接头包括序列GGSGGGGSGG。在某些实施例中,编码氨基酸接头的多核苷酸序列包括序列GGCGGCUCUGGAGGAGGCGGCUCCGGAGGC。
在某些实施例中,RNA分子在5'→3'方向上进一步包含:至少第二接头-表位模块,其中所述至少第二接头-表位模块包含编码氨基酸接头的多核苷酸序列和编码新表位的多核苷酸序列;其中在5'→3'方向上,形成第二接头-新表位模块的多核苷酸序列在编码第一接头-新表位模块的新表位的多核苷酸序列与编码MHC分子的跨膜和胞质结构域的至少一部分的多核苷酸序列之间;并且其中第一接头-表位模块的新表位不同于第二接头-表位模块的新表位。在某些实施例中,RNA分子包含5个接头-表位模块,其中5个接头-表位模块各自编码不同的新表位。在某些实施例中,RNA分子包含10个接头-表位模块,其中10个接头-表位模块各自编码不同的新表位。在某些实施例中,RNA分子包含20个接头-表位模块,其中20个接头-表位模块各自编码不同的新表位。
在某些实施例中,RNA分子进一步包含编码氨基酸接头的第二多核苷酸序列,其中编码氨基酸接头的第二多核苷酸序列在编码3'方向上最远的新表位的多核苷酸序列与编码MHC分子的跨膜和胞质结构域的至少一部分的多核苷酸序列之间。
在某些实施例中,5'帽包含以下结构的D1非对映异构体:
Figure BDA0004022973240000621
在某些实施例中,5'UTR包含序列UUCUUCUGGUCCCCACAGACUCAGAGAGAACCCGCCACC。在某些实施例中,5'UTR包含序列GGCGAACUAGUAUUCUUCUGGUCCCCACAGACUCAGAGAGAACCCGCCACC。
在某些实施例中,分泌信号肽包含氨基酸序列MRVMAPRTLILLLSGALALTETWAGS。在某些实施例中,编码分泌信号肽的多核苷酸序列包含序列AUGAGAGUGAUGGCCCCCAGAACCCUGAUCCUGCUGCUGUCUGGCGCCCUGGCCCUGACAGAGACAUGGGCCGGAAGC。
在某些实施例中,MHC分子的跨膜和胞质结构域的至少一部分包含氨基酸序列IVGIVAGLAVLAVVVIGAVVATVMCRRKSSGGKGGSYSQAASSDSAQGSDVSLTA。在某些实施例中,编码MHC分子的跨膜和胞质结构域的至少一部分的多核苷酸序列包含序列AUCGUGGGAAUUGUGGCAGGACUGGCAGUGCUGGCCGUGGUGGUGAUCGGAGCCGUGGUGGCUACCGUGAUGUGCAGACGGAAGUCCAGCGGAGGCAAGGGCGGCAGCUACAGCCAGGCCGCCAGCUCUGAUAGCGCCCAGGGCAGCGACGUGUCACUGACAGCC。
在某些实施例中,AES mRNA的3'非翻译区包含序列CUGGUACUGCAUGCACGCAAUGCUAGCUGCCCCUUUCCCGUCCUGGGUACCCCGAGUCUCCCCCGACCUCGGGUCCCAGGUAUGCUCCCACCUCCACCUGCCCCACUCACCACCUCUGCUAGUUCCAGACACCUCC。在某些实施例中,线粒体编码的12S RNA的非编码RNA包含序列CAAGCACGCAGCAAUGCAGCUCAAAACGCUUAGCCUAGCCACACCCCCACGGGAAACAGCAGUGAUUAACCUUUAGCAAUAAACGAAAGUUUAACUAAGCUAUACUAACCCCAGGGUUGGUCAAUUUCGUGCCAGCCACACCG。在某些实施例中,3'UTR包含序列CUCGAGCUGGUACUGCAUGCACGCAAUGCUAGCUGCCCCUUUCCCGUCCUGGGUACCCCGAGUCUCCCCCGACCUCGGGUCCCAGGUAUGCUCCCACCUCCACCUGCCCCACUCACCACCUCUGCUAGUUCCAGACACCUCCCAAGCACGCAGCAAUGCAGCUCAAAACGCUUAGCCUAGCCACACCCCCACGGGAAACAGCAGUGAUUAACCUUUAGCAAUAAACGAAAGUUUAACUAAGCUAUACUAACCCCAGGGUUGGUCAAUUUCGUGCCAGCCACACCGAGACCUGGUCCAGAGUCGCUAGCCGCGUCGCU。
在某些实施例中,poly(A)序列包含120个腺嘌呤核苷酸。
在某些实施例中,RNA疫苗包含RNA分子,该RNA分子在5'→3'方向上包含:多核苷酸序列GGCGAACUAGUAUUCUUCUGGUCCCCACAGACUCAGAGAGAACCCGCCACCAUGAGAGUGAUGGCCCCCAGAACCCUGAUCCUGCUGCUGUCUGGCGCCCUGGCCCUGACAGAGACAUGGGCCGGAAGC;编码由存在于肿瘤样品中的癌症特异性体细胞突变产生的一个或多个新表位的多核苷酸序列;以及多核苷酸序列AUCGUGGGAAUUGUGGCAGGACUGGCAGUGCUGGCCGUGGUGGUGAUCGGAGCCGUGGUGGCUACCGUGAUGUGCAGACGGAAGUCCAGCGGAGGCAAGGGCGGCAGCUACAGCCAGGCCGCCAGCUCUGAUAGCGCCCAGGGCAGCGACGUGUCACUGACAGCCUAGUAACUCGAGCUGGUACUGCAUGCACGCAAUGCUAGCUGCCCCUUUCCCGUCCUGGGUACCCCGAGUCUCCCCCGACCUCGGGUCCCAGGUAUGCUCCCACCUCCACCUGCCCCACUCACCACCUCUGCUAGUUCCAGACACCUCCCAAGCACGCAGCAAUGCAGCUCAAAACGCUUAGCCUAGCCACACCCCCACGGGAAACAGCAGUGAUUAACCUUUAGCAAUAAACGAAAGUUUAACUAAGCUAUACUAACCCCAGGGUUGGUCAAUUUCGUGCCAGCCACACCGAGACCUGGUCCAGAGUCGCUAGCCGCGUCGCU。
在一些实施例中,本文描述的突变肽(例如,包括或由有序的氨基酸集组成,如由基于本文描述的机器学习技术的结果选取的变体编码序列所识别的)可用于制备突变肽特异性治疗剂,诸如作为抗体疗法。例如,突变肽可用于产生和/或识别特异性识别突变肽的抗体。这些抗体可用作治疗剂。合成短肽已用于生成蛋白质反应性抗体。用合成肽免疫的一个优点是可以使用无限量的纯稳定抗原。这种方法涉及合成短肽序列,将它们与大载体分子偶联,并用肽载体分子免疫受试者。抗体的特性取决于主要的序列信息。通过仔细选取序列和偶联方法,通常可以生成对所需肽的良好应答。大多数肽都能引起良好的应答。抗肽抗体的优点是它们可以在确定突变肽的氨基酸序列后立即制备,并且可以特异性地靶向蛋白质的特定区域用于抗体生产。选取机器学习模型预测其免疫原性的突变肽和/或对其进行筛选,很有可能会导致产生的抗体可能识别肿瘤环境中的原生蛋白质。突变肽可以是例如15个或更少、18个或更少或20个或更少、25个或更少、30个或更少、35个或更少、40个或更少、50个或更少、60个或更少、70个或更少、85个或更少、100个或更少、110个或更少的残基。突变肽可以是,例如,9个或更多、10个或更多、15个或更多、20个或更多、25个或更多、30个或更多、50个或更多、或70个或更多的残基。较短的肽可以提高抗体的产生。
肽-载体蛋白偶联可以用于促进高效价抗体的产生。偶联方法可以包括例如定点偶联和/或依赖于氨基酸中的反应性官能团的技术,诸如-NH2、-COOH、-SH和酚类的-OH。在抗-肽抗体生产中使用的任何合适的方法都可以与通过本发明的方法识别的突变肽一起使用。两种此类已知方法是多抗原肽系统(MAPs)和脂质核心肽(LCP方法)。MAP的优点是共轭方法不是必需的。没有载体蛋白或连接键被引入免疫宿主。一个缺点是肽的纯度更难控制。此外,MAPs可以绕过某些宿主中的免疫应答系统。LCP方法已知提供比其他抗肽疫苗系统更高的滴度,因此可能是有利的。
本文还提供了分离的MHC/肽复合物,其包含使用本文公开的技术识别的一种或多种突变肽。此类MHC/肽复合物可例如用于识别抗体、可溶性TCR或TCR类似物。其中一种抗体被称为TCR模拟物,因为它们是在特定HLA环境中结合来自肿瘤相关抗原的肽的抗体。这种类型的抗体已显示介导在其表面表达复合物的细胞的裂解,并保护小鼠免受植入的表达复合物的癌细胞系的侵害(参见例如,Wittman等人,J.of Immunol.177:4187-4195(2006))。TCR模拟物作为IgG mAb的一个优点是可以进行亲和力成熟,并且这些分子通过目前的Fc结构域与免疫效应功能耦合。这些抗体还可用于将治疗分子靶向肿瘤,诸如毒素、细胞因子或药物产品。
使用诸如使用本发明的方法选取的那些突变肽、使用基于非杂交瘤的抗体生产或结合能力抗体片段的生产已开发的其他类型的分子,诸如噬菌体上的抗肽Fab分子。这些片段也可以与用于肿瘤递送的其他治疗分子缀合,诸如抗肽MHC Fab-免疫毒素缀合物、抗肽MHC Fab-细胞因子缀合物和抗肽MHC Fab-药物缀合物。
IV.包括免疫原性疫苗或T细胞的治疗方法
一些实施例提供了包括疫苗的治疗方法,该疫苗可以是免疫原性疫苗。在一些实施例中,提供了用于疾病(诸如癌症)治疗的方法,其可以包括向个体施用有效量的本文描述的组合物、使用本文公开的技术识别的突变肽、其前体或使用本文描述的技术识别的编码突变肽(或前体)的核酸。
在一些实施例中,提供了一种用于疾病(诸如癌症)治疗的方法。该方法可以包括从受试者收集样品(例如,血液样品)。可以分离和刺激T细胞。可以使用例如密度梯度沉降(例如,和离心)、免疫磁性选取和/或抗体复合物过滤来进行分离。刺激可以包括例如抗原非依赖性刺激,其可以使用有丝分裂原(例如,PHA或Con A)或抗CD3抗体(例如,与CD3结合并激活T细胞受体复合物)和抗CD28抗体(例如,与CD28结合并刺激T细胞)。可以(或可能已)选取一种或多种突变肽用于治疗受试者(例如,基于机器学习模型产生的结果,该模型对应于基于本文公开的一种或多种技术预测关于突变肽集的每种肽是否将结合个体的MHC分子和/或其程度、是否将由个体的MHC分子呈递和/或其程度,和/或是否将触发个体的免疫应答和/或其程度)。一种或多种突变肽可基于本文公开的技术选取,该技术包括识别和处理与受试者相关联的一种或多种序列表示(例如,表示:MHC序列、变体编码序列集和/或T细胞受体序列)。一种或多种序列可能已使用分离出T细胞的样品或不同样品检测到。
在一些情况下,一种或多种突变肽(或其前体)可用于产生突变肽(例如,新抗原)特异性T细胞。例如,可以从受试者中分离外周血T细胞并使其与一种或多种突变肽接触以诱导可以施用于受试者的突变肽特异性T细胞群。在一些示例中,可以对突变肽反应性T细胞的T细胞受体序列进行测序。如果测序识别有序的核酸集,则每个核酸的密码子可以翻译成氨基酸(例如,经由查找技术)。一旦获得T细胞受体序列(例如,氨基酸T细胞受体序列),T细胞可以被工程化以包括特异性识别突变肽的T细胞受体。然后可以将这些工程化T细胞施用于受试者。例如,参见Matsuda等人“Induction of Neoantigen-Specific Cytotoxic TCells and Construction of T-cell Receptor Engineered T Cells for OvarianCancer,”Clin.Cancer Res.1-11(2018),该文献出于全部目的通过引用整体并入本文。在本文提供的方法中的任一个方法中,T细胞可以在施用于受试者之前在体外和/或离体扩增。然后可以向受试者施用(例如,输注)包含扩增的T细胞群的组合物。
在一些情况下,提供了一种用于疾病(诸如癌症)治疗的方法,该方法可以包括向个体施用包含一种或多种突变肽(或其一种或多种前体)的有效量的组合物,用于:例如,在体内启动、激活和扩增T细胞。
在一些实施例中,提供了一种用于疾病(诸如癌症)治疗的方法,其可以包括向个体施用有效量的组合物,该组合物包括使用本文描述的技术选取的突变肽的前体。在一些实施例中,免疫原性疫苗可以包括使用本文描述的技术选取的药学上可接受的突变肽。在一些实施例中,免疫原性疫苗可以包括使用本文描述的技术选取的突变肽(诸如蛋白质、肽、DNA和/或RNA)的药学上可接受的前体。在一些实施例中,提供了一种用于疾病(诸如癌症)治疗的方法,其可以包括向个体施用有效量的使用本文描述的技术特异性识别选取的突变肽的抗体。在一些实施例中,提供了一种用于疾病(诸如癌症)治疗的方法,该方法可以包括向个体施用有效量的可溶性TCR或TCR类似物,该TCR或TCR类似物使用本文描述的技术特异性识别选取的突变肽。
在一些实施例中,癌症为以下中的任一种:癌症、淋巴瘤、胚泡瘤、肉瘤、白血病、鳞状细胞癌、肺癌(包括小细胞肺癌、非小细胞肺癌、肺腺癌和肺鳞癌)、黑素瘤、肾细胞癌、腹膜癌、肝细胞癌、胃癌或胃部癌症(包括胃肠道癌)、胰腺癌、成胶质细胞瘤、宫颈癌、卵巢癌、肝癌、膀胱癌、肝细胞瘤、乳腺癌、结肠癌、结直肠癌、子宫内膜癌或子宫癌、唾液腺癌、肾脏癌症或肾癌、肝癌、前列腺癌、外阴癌、甲状腺癌、肝细胞癌和各种类型的头颈癌,以及B细胞淋巴瘤(包括低级别/滤泡性非霍奇金淋巴瘤(NHL)、小淋巴细胞(SL)NHL、中级别/滤泡性NHL、中级别弥散性NHL、高级别免疫原性NHL、高级别淋巴母细胞性NHL、高级别小非裂解细胞性NHL、巨大肿块NHL、套细胞淋巴瘤、AIDS相关淋巴瘤和华氏巨球蛋白血症)、慢性淋巴细胞性白血病(CLL)、急性淋巴细胞白血病(ALL)、毛细胞白血病、慢性粒细胞性白血病和移植后的淋巴增生性疾病(PTLD),以及与斑痣性错构瘤、水肿(诸如与脑肿瘤有关的)、Meigs综合征相关联的异常血管增生。
本文公开的实施例可以包括识别部分或全部和/或实施部分或全部个体化医疗策略。例如,可以通过以下方式选取一种或多种突变肽用于疫苗中使用:使用来自个体的样品确定MHC序列和/或变体编码序列集;使用本文公开的机器学习模型(例如,基于注意力的机器学习模型)处理MHC序列和变体编码序列的表示。然后可以将一种或多种突变肽(和/或其前体)施用于同一个体。
在一些实施例中,提供了一种治疗个体中的疾病(诸如癌症)的方法,其包括:a)识别个体中的一种或多种突变肽(例如,基于机器学习模型产生的结果,该模型对应于基于本文公开的一种或多种技术预测关于突变肽集的每种肽是否将结合个体的MHC分子和/或其程度、是否将由个体的MHC分子呈递和/或其程度,和/或是否将触发个体的免疫应答和/或其程度);b)合成识别的突变肽或突变肽的一种或多种前体或编码识别的肽或肽前体的核酸(例如多核苷酸,诸如DNA或RNA);c)将突变肽、突变肽前体或核酸施用于个体。
在一些实施例中,提供了一种治疗个体中的疾病(诸如癌症)的方法,其包括:a)识别个体中的一种或多种突变肽(例如,基于机器学习模型产生的结果,该模型对应于基于本文公开的一种或多种技术预测关于突变肽集的每种肽是否将结合个体的MHC分子和/或其程度、是否将由个体的MHC分子呈递和/或其程度,和/或是否将触发个体的免疫应答和/或其程度);b)识别编码识别的突变肽或突变肽的一个或多个前体的核酸集(例如,多核苷酸,诸如DNA或RNA);c)合成该核酸集;d)将该核酸集施用于个体。
在一些实施例中,提供了一种治疗个体中的疾病(诸如癌症)的方法,其包括:a)识别个体中的一种或多种突变肽(例如,基于机器学习模型产生的结果,该模型对应于基于本文公开的一种或多种技术预测关于突变肽集的每种肽是否将结合个体的MHC分子和/或其程度、是否将由个体的MHC分子呈递和/或其程度,和/或是否将触发个体的免疫应答和/或其程度);b)产生特异性识别突变肽的抗体;c)将肽施用于个体。
本文提供的方法可用于治疗已被诊断患有或怀疑患有癌症的个体(例如,人)。在一些实施例中,个体可以是人。在一些实施例中,个体可以是至少约18岁、20岁、25岁、30岁、35岁、40岁、45岁、50岁、55岁、60岁、65岁、70岁、75岁、80岁或85岁中的任一年龄。在一些实施例中,个体可以是男性。在一些实施例中,个体可以是女性。在一些实施例中,个体可能已拒绝手术。在一些实施例中,个体可能在医学上不能手术。在一些实施例中,个体可以处于Ta、Tis、T1、T2、T3a、T3b或T4的临床阶段。在一些实施例中,癌症可以是复发性的。在一些实施例中,个体可以是表现出与癌症相关联的一种或多种症状的人。在一些实施例中,个体可以是在遗传上或以其他方式易患癌症的(例如,具有风险因素)。
本文提供的方法可以在辅助环境中实施。在一些实施例中,该方法在新辅助环境中实施,即,该方法可以在主要/确定性疗法之前进行。在一些实施例中,该方法用于治疗先前已接受过治疗的个体。本文提供的治疗方法中的任一种治疗方法都可用于治疗先前未接受过治疗的个体。在一些实施例中,该方法用作一线疗法。在一些实施例中,该方法用作二线疗法。
在一些实施例中,提供了降低个体中预先存在的癌症肿瘤转移(诸如肺转移或淋巴结转移)的发生率或负担的方法,其包括向个体施用有效量的本文公开的组合物。在一些实施例中,提供了一种延长个体癌症疾病进展时间的方法,其包括向个体施用有效量的本文公开的组合物。在一些实施例中,提供了一种延长患有癌症的个体的生存期的方法,其包括向个体施用有效量的本文公开的组合物。
在一些实施例中,除了本文公开的组合物之外,还可以施用至少一种或多种化疗剂。在一些实施例中,一种或多种化疗剂可以(但不一定)属于不同类别的化疗剂。
在一些实施例中,提供了一种治疗个体疾病(诸如癌症)的方法,其包括施用:a)本文公开的疫苗(例如,其包括基于本文公开的机器学习技术选取的突变肽或其前体);以及b)免疫调节剂。在一些实施例中,提供了一种治疗个体疾病(诸如癌症)的方法,其包括施用:a)本文公开的疫苗(例如,其包括基于本文公开的机器学习技术选取的突变肽或其前体);以及b)检查点蛋白的拮抗剂。在一些实施例中,提供了一种治疗个体疾病(诸如癌症)的方法,其包括施用:a)本文公开的疫苗(例如,其包括基于本文公开的机器学习技术选取的突变肽或其前体);以及b)程序性细胞死亡1(PD-1)的拮抗剂,诸如抗PD-1。在一些实施例中,提供了一种治疗个体疾病(诸如癌症)的方法,其包括施用:a)本文公开的疫苗(例如,其包括基于本文公开的机器学习技术选取的突变肽或其前体);以及b)程序性死亡配体1(PD-L1)的拮抗剂,诸如抗PD-L1。在一些实施例中,提供了一种治疗个体疾病(例如癌症)的方法,其包括施用:a)本文公开的疫苗(例如,其包括基于本文公开的机器学习技术选取的突变肽或其前体);以及b)细胞毒性T淋巴细胞相关蛋白4(CTLA-4)的拮抗剂,诸如抗CTLA-4。
应当理解,各种公开内容涉及氨基酸序列的使用。可以另外或替代地使用核酸序列。例如,可以对疾病特异性样品进行测序以识别核酸序列集,其不存在于对应非疾病特异性样品中(例如,来自相同受试者或不同受试者)。类似地,可以进一步识别MHC分子和/或T细胞受体的核酸序列。每个核酸疾病特异性核酸序列和MHC分子(或T细胞受体)的表示可以通过本文描述的基于注意力的模型来处理(例如,并且可能已使用核酸序列的表示训练过)。
V.实例
V.A.概述
本文开发了示例性的肽-MHC(MHC I类)基于注意力的机器学习模型(本文为“P-MHC-I模型”)和示例性的肽-MHC(MHC II类)基于注意力的机器学习模型(本文为“P-MHC-II模型”)(在此统称为P-MHC模型)。这些模型是图1中机器学习模型132的实施方式的示例。P-MHC-I模型架构和P-MHC-II模型架构都是相对应于图3中和图4A中描绘的架构实现的。
P-MHC模型是示例性的基于注意力的深度学习模型,用于预测个体化癌症疫苗开发中的新抗原呈递。P-MHC模型接收N-侧翼序列、肽序列和MHC序列(MHC伪序列)作为输入,并输出呈递或洗脱配体(EL)分数。建立了一个跨越天然存在的氨基酸空间的词汇表,将它们标记化以表示氨基酸序列。输入的氨基酸序列被标记化为字符,每个字符都由一个唯一的字符表示。该模型将输入的N-侧翼序列和肽序列与6个MHC等位基因中的一个配对,并将6个配对相互作用前馈到P-MHC-I模型中,并将12个MHC同种异型中的一个和12个配对相互作用前馈到P-MHC-II模型中,用于选取特异性结合的MHC等位基因。
因此,P-MHC模型在内部执行多等位基因数据的反卷积。洗脱的肽-MHC相互作用输出最有可能被归一化为0和1之间的值,并使用二进制交叉熵损失函数与真实呈递值进行比较,以生成调整模型参数的误差。为了防止过拟合和增强模型的稳健性,P-MHC模型在模型训练中使用了集成方法。
与P-MHC-I模型和P-MHC-II模型的训练和性能相对应示例结果和统计数据,与其他先前可用的模型(例如,P-MHC-I模型的NetMHCpan-4.0(此处称为“模型A”)、免疫表位数据库和分析资源(IEDB)v2.13(此处称为“模型B”)和P-MHC-II模型的NetMHCIIpan-4.1(此处称为“模型C”)相比较。P-MHC-I和P-MHC-II模型在肽呈递方面的表现始终优于其他模型,而P-MHC-I模型在CD8 T细胞应答预测方面的表现优于其他模型。P-MHC模型表现更好,至少因为它从多等位基因数据执行肽-MHC对的反卷积,可以很容易地在单等位基因和多等位基因格式两者的增强训练数据上进行训练。
V.B.材料和方法
V.B.1.训练P-MHC模型-免疫肽组学数据
来自质谱实验的肽洗脱数据用于构建用于训练P-MHC模型的免疫肽组学数据集。该数据包括私人和公共数据集的混合,其包括来自细胞系、组织样品和PBMC供体的多等位基因数据和单等位基因肽洗脱数据。
V.B.1.a.呈递-标记的数据
正集(EL=1)。针对每个批次,正肽-MHC(例如,肽-HLA)对以下列方式处理:
1)肽与人蛋白质组进行比对。
2)针对每个肽,长度不超过10个氨基酸的侧翼序列保留在N-末端和C-末端位置。
3)从下游分析中删除了映射到多个基因的肽。此类肽在EL=1集中没有出现。(没有对EL=0施加此类限制,因为EL=0肽仅由具有EL=1肽证据的蛋白质生成。)通过该标准过滤掉了48329种I类肽。虽然这是一个很大的数字,但它增强了对负集的信心。
4)映射到相同基因但具有不同侧翼序列的肽也从下游分析中删除。这进一步删除了11443种I类肽。
5)包含翻译后修饰(PTM)的肽也从下游分析中删除。删除了7080种I类肽。
负集(EL=0)。负肽-MHC(例如,肽-HLA)对是通过计算生成的。针对每个等位基因,针对正组(EL=1)中的每个来源蛋白质,全部可能的肽片段长度为8到11的MHC I类和8到30的MHC II类,每个长度的概率一致。最大长度为10个氨基酸的N-末端和C-末端侧翼序列也被保留。EL=1数据中出现的全部肽-基因型对均已从EL=0数据中删除。此外,针对为MHCII类构建的数据集,删除了可在EL=1肽(与相同基因型配对)中找到的任何长度为9的子序列的肽-基因型对。
V.B.1.b.基准数据集
通过将上述第VI.B.1.a节讨论的EL数据拆分为训练、验证和测试集来创建基准数据集。训练集和验证集用于训练P-MHC模型,而测试集明确不用于训练且仅用于量化模型的性能。针对MHC I类数据,单等位基因数据用于通过从每个等位基因的单等位基因数据中保留10%的肽而生成测试数据集。针对MHC II类数据,多等位基因和单等位基因的全部数据都用于生成测试/验证数据集。
数据集的特征包括:针对I类,全部肽长度都限制在[8,14]个氨基酸范围内;针对II类,则在[8,30]个氨基酸范围内。全部肽都被限制在主要序列(即表位)和侧翼序列中包含规范氨基酸。全部等位基因名称都被34个氨基酸亚序列取代,这些亚序列由MHCI蛋白中的以下氨基酸位置定义:(7,9,24,45,59,62,63,66,67,69,70,73,74,76,77,80,81,84,95,97,99,114,116,118,143,147,150,152,156,158,159,163,167,171),或在α和βMHCII蛋白内的位置:
α:9,11,22,24,31,52,53,58,59,61,65,66,68,72,73;以及
β:9,11,13,26,28,30,47,57,67,70,71,74,77,78,81,85,86,89,90。
这些位置先前已被描述为结合口袋中MHC-I/II蛋白与肽接触的位置。数据点的唯一子序列集此后可以称为“伪基因型”。在某些情况下,多个等位基因名称可能出现相同的34个氨基酸子序列。这些等位基因在用于训练基于注意力的P-MHC模型方面被认为是相同的。全部空侧翼序列(蛋白质末端的肽图)都被分配了一个特殊的氨基酸字符,“$”。由于某些编程语言将NA解释为“不适用”,因此氨基酸字母表中侧翼序列读取为“NA”的6个数据点不予考虑。
训练/验证/测试拆分以下列方式进行:
针对EL=1:针对每个处理批次(每个批次都基于数据集的原始来源),单等位基因数据以70/20/10的比例在训练/验证/测试组之间随机拆分。针对MHC II类,确保肽序列的长度为9的子序列在具有精确基因型匹配的肽的训练/验证/测试数据集之间没有重叠。单等位基因数据由105(41)个唯一的子序列组成,分别表示跨整个数据集的111(39)个唯一的MHC I类(MHC II类)等位基因。全部多等位基因数据完全用于I类数据集的训练。多等位基因数据由跨整个数据集的126(76)个唯一的MHC I类(MHC II类)基因型组成。跨处理批次的数据被合并并复制{肽,n侧翼,c侧翼,mhc0,mhc1,mhc2,mhc3,mhc4,mhc5}(MHC I类)和{肽,n侧翼,c侧翼,mhc_dq1_1,mhc_dq1_2,mhc_dq1_3,mhc_dq1_4,mhc_dp1_1,mhc_dp1_2,mhc_dp1_3,mhc_dp1_4,mhc_dr1_1,mhc_dr1_2,mhc_dr3_1,mhc_dr3_2,mhc_dr4_1,mhc_dr4_2,mhc_dr5_1,mhc_dr5_2}(MHC II类)元组已被删除。
针对EL=0:针对EL=0:针对每个处理批次,针对每个{肽,伪基因型}对,负肽数据与训练组和验证组中的EL=1的数据以1:1的比例进行采样。在测试组中,MHC I类以1:99的比例进行采样,MHC II类以1:9的比例进行采样。合并跨处理批次的数据,删除重复的观察。这最终导致针对MHC I类1.71%的测试数据为正(而不是1%),针对MHC II类为11.15%(而不是10%)。
针对“伪基因型”中具有多个子序列,即多等位基因数据的观察,通过消除每个等位基因的正肽来生成负肽,然后从源蛋白质中选择随机肽。
V.B.1.c.基准QC
遵循以下下游QC程序以确保数据中没有冗余:1)在肽、N侧翼和C侧翼序列中只允许规范氨基酸;2)每个{N侧翼,肽,C侧翼,伪基因型}元组集都是唯一的;3)EL=1和EL=0集合中的{N侧翼,肽,C侧翼,伪基因型}元组没有重叠。针对MHC II类,进一步确保针对具有相同伪基因型的肽,在EL=1和EL=0之间的肽序列内长度为9的子序列之间没有重叠。
MHC(HLA)伪基因型的数可能与等位基因的数不同,因为一些具有不同等位基因名称的等位基因(在2字段分辨率下,即4位分辨率)可能具有相同的伪基因型。
V.B.2.为评估P-MHC-I模型性能的免疫原性数据集
为评估P-MHC-I模型的性能,使用了两个不同的数据集。针对第一测试免疫原性数据集,肿瘤学受试者对其DNA进行了测序,并根据该标准P-MHC结合,使用IEDPv.2.13BA进行预测,以预测由MHC呈递和/或在MHC中结合的新抗原。使用它们的表达、变异等位基因的频率和肿瘤组织中的克隆性进一步优先考虑由此预测的新抗原。随后对受试者施用了上文介绍的RNA疫苗。使用多聚体和ELISPOT测定在施用的受试者中监测对RNA疫苗中引入的新抗原的T细胞应答。在这些测定中使用了几个对照,删除了被认为是技术伪影的T细胞应答。在第二免疫原性测试数据集中,测序数据从接收肿瘤新抗原选取联盟(TESLA)联合体识别的检查点阻断疗法(但不是RNA疫苗疗法)的肿瘤受试者获得。使用NetMHCcons 1.0进行P-MHC结合预测,以预测由MHC呈递和/或在MHC中结合的新抗原。对由P-MHC-I模型预测的新抗原进行免疫原性测定,并用于评估P-MHC-I模型的性能。
V.B.2.a.施用的受试者多聚体测定
针对第一测试免疫原性数据集,对通过肽-MHC多聚体检测CD8 T细胞的正或负结果进行了多聚体测定数据评估。保守标准用于宣布正结果:具体而言,双四聚体正CD8 T细胞计数是否大于0.05%。如果更接近的T细胞表型检查强烈提示T细胞应答,尽管一些新表位的新表位特异性CD8T细胞低于0.05%,但其仍被称为正。从多聚体测定数据中,1318个新表位被宣布为负,并且基于保守标准,其中一小部分预计为假负。27对新表位-HLA仅在接种后被宣布为正(称为全新的应答),并且20对被宣布为预先存在的CD8 T细胞应答。
V.B.2.b.施用的受试者ELISpot测定
进一步针对第一测试免疫原性数据集收集了ELISpot数据。对没有肽再刺激的负对照的点计数和肽再刺激的测试案例进行统计评估,以宣布正呼叫(使用排列方法),并进一步手动验证,以为给定的受试者访视指定新抗原免疫原性的正或负结果。如果新抗原在任何受试者访视(无论是治疗前或是治疗后)中显示出正结果,则新抗原在ELISpot测定中被宣布为正。基于以下标准进一步过滤新抗原:(a)评审员决定的测定结果值不是“NA”;(b)评估的P-MHC-1分数方法(P-MHC-I、模型A、模型B)均未将“NA”值指定给新抗原;且(c)合并的新抗原用于再刺激,不予考虑。
在全部过滤步骤之后,ELISpot测定中评估的每种细胞类型的正(免疫原性)和负(非免疫原性)新抗原分布如下所示。测定值_二进制为真表示免疫原性新抗原,非免疫原性结果标记为测定值_二进制为假。
Figure BDA0004022973240000751
基于来自ELISpot测定的斑点计数,正测定进一步分为两组。每个ELISpot分析都有重复实验,并且在重复中指定了平均斑点计数。针对正新抗原,考虑全部访问中平均点计数的最大值,并将正新抗原分为两组,一组该点计数值<50,另一组该点计数值>=50。后一组表示诱导更广泛T细胞应答的新抗原,与具有较少斑点计数的组相比,不太可能包含对ELISpot结果的假正解释。选择50个点是任意决定,因为它合理地高于用于调用ELISpot正的原始阈值(斑点计数>15)。
V.B.2.c.TESLA多聚体测定
针对第二测试免疫原性数据集,TESLA联合体已验证了新抗原预测。可根据TESLA的受试者标识符中获得受试者1、2、3、4、10、12和16的测定数据。由TESLA基于四种不同的测定提供检测结果:TCR_FLOW_I、TCR_FLOW_II、纳米颗粒测定和TCR反应性测定。本实例中使用了TCR_FLOW_I测定结果。由于以下原因,其他测定被忽略:(a)预计纳米颗粒检测具有较高的假正率,因为它是一种设计为非常敏感的单细胞检测;(b)TCR_FLOW_II在很大程度上与TCR_FLOW_I是多余的,两者都在不同的实验室进行,而TCR_FLOW_II的数据点较少。TCR反应性测定是在用IL-2和短肽预刺激T细胞7天,然后用短肽再刺激之后的细胞内IFNg/TNFa染色测定。TESLA团队不支持使用这种测定来评估肽-MHC呈递预测。选取的检测具有16个正结果和196个负结果。
V.B.3.比较模型-NetMHCpan和IEDB分数
为了与P-MHC-I模型进行性能比较,模型A和模型B用于将BA和EL值分配给肽-HLA对。为了与P-MHC-II模型进行性能比较,模型C用于将EL值分配给肽-MHC(HLA)对。通过这些方法输出为百分位分数的BA和EL值(在本示例中)称为BA或EL。这些百分位值的表现使得较低的值意味着较高的亲和力或呈递的可能性。通过取这些值的倒数来使用转换得分方案以获分数值(例如,针对MHC-I,模型A的结合亲和力分数,模型A的洗脱分数和模型B的结合亲和力分数;针对MHC-II,模型C的结合亲和力分数),其表现使得较高的值表示较强的亲和力或呈递可能性。针对新表位-HLA对,获得单一此类分数。针对新抗原,全部新表位-HLA对都被认为是包含突变的8至14聚体长的新表位候选,并选择分数最高的那对表示新抗原分数。
V.C.结果
V.C.1.P-MHC-I模型在呈递数据方面的性能
图14A至图14C是根据一个或多个实施例的具有示例性精确率-召回率(PR)曲线的图。图14A至图14C说明了P-MHC-I模型与先前使用的方法相比的性能。洗脱配体(EL)测试数据集用于评估P-MHC-I模型的EL输出、模型A的EL输出和模型C的结合亲和力(BA)输出之间的呈递预测性能。
图14A包括指示P-MHC-I模型的性能的曲线1400。图14B包括指示模型A关于其洗脱输出的性能的曲线1402。图14C包括指示模型B关于其结合亲和力输出的性能的曲线1404。图1400、图1402和图1404中的每个图的曲线上的点对应于分数的前1.71%分位数的分数阈值(由于1.71%的黄金标准测试数据为正而选取)。平均精确率(AP)表示与阈值无关的性能。F1分数、精确率和召回率基于1.71%的阈值。
模型A和模型B值是这些方法的百分位排名输出。P-MHC-I模型值取自P-MHC-I模型的(最终节点的)输出。基于这些PR曲线,图14A至图14C中结果表明P-MHC-I模型显示出优于模型A和模型C的性能(AP值为0.85,模型A为0.78,模型B为0.57)。在每个等位基因的基础上比较方法的AP值。
图15是比较根据一个或多个实施例的测试数据集中针对每个等位基因的A模型和P-MHC-I模型的洗脱配体输出的示例性平均精确率值的图1500。测试数据集为单等位基因,其包含至少1000个数据点,其中67个等位基因符合标准。如图1500所示,P-MHC-I模型较模型A表现出更高的性能。图1500中的标记图案表明等位基因是否来自HLA-A、B或C基因。标记的大小表示用于训练该等位基因的P-MHC-I模型的单等位基因数据量,这也与每个等位基因的测试数据量相关。
图16A和图16B分别是根据一个或多个实施例比较P-MHC-II模型在人数据集上的性能与P-MHC-I模型在小鼠数据集上的性能的曲线图1600和曲线图1602。如这些曲线图所示,P-MHC-I模型针对P-MHC-I模型的平均精确率针对人和小鼠数据集两者都相似的两个数据集都表现良好。这些结果表明,P-MHC-I模型可能是一种泛物种模型,可以在各种物种中以理想的性能使用。
V.C.2.P-MHC-II模型在呈递数据上的性能
图17A和图17B分别是根据一个或多个实施例的比较P-MHC-II模型与模型C在呈递数据上的性能的曲线图1700和曲线图1702。模型C值是百分位排名输出。P-MHC-II模型值取自P-MHC-II模型的(最终节点的)输出。使用来自PR曲线的平均精确率,图17A和图17B中的结果表明具有0.69的AP的P-MHC-II模型与具有0.31的AP的模型C相比显示出改进的性能。在每个等位基因的基础上比较这两种方法的AP值。
图18A和图18B分别是根据一个或多个实施例的在保留数据集上比较P-MHC-II模型与模型C的性能的曲线图1800和曲线图1802。同样,具有0.84的AP的P-MHC-II模型与具有0.46的AP的模型C相比显示出改进的性能。
图19是显示根据一个或多个实施例的测试数据集上的P-MHC-II模型与模型C的平均精确率的每个基因型比较的图1900。在每个基因型的基础上,P-MHC-II模型与C模型相比具有改进的性能。
V.C.3.第一和第二测试免疫原性数据集的性能
第一和第二测试免疫原性数据集用于评估P-MHC呈递对T细胞应答数据预测的性能。在这些评估中,没有针对免疫原性数据进行训练,仅使用新抗原和MHC蛋白的氨基酸序列来计算P-MHC呈递分数。其他特征,例如基因或突变等位基因的表达,未用于允许评估P-MHC呈递预测对以还原论方式预测CD8 T细胞应答的贡献。
V.C.3.a.施用的受试者多聚体测定
图20是根据一个或多个实施例的说明P-MHC-II模型(EL输出)、模型A(EL输出)和模型B(BA输出)的性能相对于CD 8多聚体的测定数据(第一测试免疫原性数据集)的接收器操作特性(ROC)曲线图2000。关于从多聚体测定中预测正新表位的能力评估性能。针对模型A和模型B,值分别进行逆转换以获得EL和BA分数,使得更高的值指示更强的结合亲和力或呈递可能性。基于阶跃函数计算曲线下面积(AUC)。用于绘制ROC曲线的阶跃函数在水平和垂直方向上将表示真正率(tpr)和假正率(fpr)的点连接起来。使用R包ROCR计算真正率(tpr)和假正率(fpr)值。
V.C.3.b.施用的受试者ELISpot测定
图21A至图21D是根据一个或多个实施例的说明P-MHC-II模型(EL输出)、模型A(EL输出)和模型B(BA输出)的性能相对于ELISpot测定(第一测试免疫原性数据集)的曲线图2102、2104、2106和2108。如图所示,P-MHC-I模型表现良好,具有很强的预测能力。这些图显示了示例性ROC曲线,其显示了针对PBMC ELISpot(图21A,PBMC面板)和CD8 ELISpot(图21B,CD8面板)的单独子图。将正CD8 ELISpot数据进一步分成两组,并制作ROC曲线,以获得更强的T细胞应答(图21C,CD8,斑点>=50)和相对较弱的T细胞应答(图D,CD8,斑点<50)。为了制作这两组的ROC曲线,使用了相同的负新抗原集。
V.C.3.c.TESLA多聚体测定
图22A至图22D分别是根据一个或多个实施例的说明模型A(BA输出)、模型A(EL输出)、模型C(BA输出)和P-MHC-II模型(EL输出)的性能的曲线图2202、2204、2206和2208。使用多聚体测定的结果对TESLA免疫原性数据(第二测试免疫原性数据集)评估了性能。这些图是对应于通过来自TESLA研究的多聚体测定评估的示例性新表位-HLA对的散点图。针对来自TESLA指定的检测的正结果,响应为TRUE,针对非免疫原性新表位,响应为FALSE。Wilcoxon秩和检验用于计算针对双边替代假设的p值。Y轴显示转换分数,使得较高的值对应于较强的肽-MHC结合或呈递。
图23是根据一个或多个实施例的使用TESLA多聚体测定数据比较模型A(EL输出)、模型B(BA输出)和P-MHC-II模型(EL输出)的ROC曲线的曲线图2300。多聚体测定是TCR_FLOW_I测定。P-MHC-I模型的曲线下面积最高。
V.D.结论
因此,在两种类型的评估数据集上评估了P-MHC呈递预测方法:来自免疫肽组学实验的P-MHC呈递数据和来自各种免疫原性测定的T细胞应答数据。与当前的在许多数据集上的生产方法(IEDBv2.13BA输出)相比,在免疫肽组学数据上训练的呈递预测器表现更好。P-MHC模型在许多数据集上显示出改进的性能值。因此,使用在免疫肽组学数据上训练的基于注意力的技术可以优于基于体外结合亲和力数据的模型。
VI.计算机实现的系统
图26是根据各个实施例的计算机系统的框图。计算机系统2600可以是上文图1中描述的计算平台102的一种实现的示例。
在一个或多个示例中,计算机系统2600可以包括总线2602或用于传递信息的其它通信机制,以及与总线2602耦接用于处理信息的处理器2604。在各种实施例中,计算机系统2600还可以包括存储器(其可以是随机存取存储器(RAM)2606或其它动态存储装置),该存储器耦接到总线2602用于确定要由处理器2604执行的指令。存储器还可以用于在执行要由处理器2604执行的指令期间存储临时变量或其它中间信息。在各种实施例中,计算机系统2600可以进一步包括耦接到总线2602的用于存储针对处理器2604的静态信息和指令的只读存储器(ROM)2608或其它静态存储装置。可以提供存储装置2610(诸如磁盘或光盘)并将其耦接到总线2602以用于存储信息和指令。
在各种实施例中,计算机系统2600可以经由总线2602耦接到显示器2612(诸如阴极射线管(CRT)或液晶显示器(LCD))用于向计算机使用者显示信息。包括字母数字键和其它键的输入装置2614可以耦接到总线2602,用于将信息和命令选择传递到处理器2604。另一类型的用户输入装置是光标控制2616(诸如鼠标、操纵杆、轨迹球、手势输入设备、基于注视的输入设备或光标方向键),用于将方向信息和命令选取传递到处理器2604并用于控制显示器2612上的光标移动。该输入装置2614通常在两个轴线(第一轴线(例如,x)和第二轴线(例如,y))上具有两个自由度,其允许该装置指定平面中的位置。然而,应当理解,本文也设想了允许三维(例如,x、y和z)光标移动的输入装置2614。
与本教导的某些实施一致,结果可以由计算机系统2600响应于处理器2604执行包含在RAM 2606中的一个或多个指令的一个或多个序列而提供。此类指令可以从另一计算机可读介质或计算机可读存储介质(诸如存储装置2610)读取进RAM 2606。包含在RAM 2606中的指令序列的执行可以使处理器2604执行本文描述的过程。替代性地,可以使用硬接线电路系统来代替软件指令或与软件指令结合来实现本教导。因此,本教导的实施不限于硬件电路系统和软件的任何特定组合。
如本文所用,术语“计算机可读介质”(例如,数据存储、数据存储器、存储器装置、数据存储器装置等)或“计算机可读存储介质”是指参与向处理器2604提供指令以供执行的任何介质。此类介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的实例可以包括但不限于光盘、固态硬盘、磁盘(诸如存储器装置2610)。易失性介质的实例可以包括但不限于动态存储器,诸如RAM2606。传输介质的实例可以包括但不限于同轴电缆、铜线和光纤,包括构成总线2602的线。
常见形式的计算机可读介质包括:例如,软盘、可折叠盘、硬盘、磁带或任何其他磁性介质;CD-ROM、任何其他光学介质;穿孔卡、纸带、任何其它具有孔图案的物理介质;RAM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或盒;或计算机可以读取的任何其它有形介质。
除了计算机可读介质之外,指令或数据也可以作为信号而提供在包括在通信设备或系统中的传输介质上,以将一个或多个指令序列提供给计算机系统2600的处理器2604以供执行。例如,通信设备可以包括具有指示指令和数据的信号的收发器。指令和数据被配置成使一个或多个处理器实现本文公开中概述的功能。数据通信传输连接的表示性实例可以包括但不限于电话调制解调器连接、广域网(WAN)、局域网(LAN)、红外数据连接、NFC连接、光通信连接等。
应当认识到,本文描述的方法、流程图、图和随附的公开内容可以使用计算机系统2600作为独立装置或在诸如云计算网络等共享计算机处理资源的分布式网络上实现。
根据应用,本文描述的方法可以通过各种方式来实现。例如,这些方法可以在硬件、固件、软件或它们的任何组合中实现。针对硬件实现,处理单元可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、设计用于执行本文描述的功能的其它电子单元、或其组合内实现。
在各种实施例中,本教导的方法可以被实施为固件和/或软件程序以及以C、C++、Python等常规编程语言编写的应用程序。如果被实现为固件和/或软件,则本文描述的实施例本文可以在其中存储有用于使计算机执行上述方法的程序的非暂时性计算机可读介质上实现。应当理解,本文描述的各种引擎可以提供在计算机系统上,诸如计算机系统2600,其中根据任一个存储器部件RAM 2606、ROM 2608或存储装置2610或其组合提供的指令以及经由输入装置2614提供的用户输入,处理器2604将执行由这些引擎提供的分析和确定。
VII.术语的示例性描述
如本文所用,术语“肽”、“多肽”和“蛋白质”可以互换使用以指代氨基酸残基的聚合物。该术语涵盖任何长度的氨基酸链,包括具有通过共价肽键连接的氨基酸残基的全长蛋白质。
如本文所用,“突变肽”可以指不存在于个体受试者的正常组织中(例如,正常组织的野生型氨基酸序列中)的肽。突变肽包含至少一种突变氨基酸并且可以存在于患病组织(例如,从特定受试者收集)中但不在正常组织(例如,从特定受试者收集、从不同受试者收集,和/或在数据库中识别为对应于正常组织)中。突变肽可以包括表位。表位是突变肽中与MHC分子或T细胞受体(TCR)结合的部分。因此,突变肽的表位与MHC分子或TCR之间的这种结合可以诱导免疫应答(由于突变肽与受试者的“自身”不相关联)。突变肽可以包括或可以是新抗原。突变肽可以来自例如:导致蛋白质中不同氨基酸的非同义突变(例如,点突变);通读突变,其中终止密码子被修饰或删除,导致在C-末端具有新的肿瘤特异性序列的较长蛋白质的翻译;剪接位点突变,导致唯一的肿瘤特异性蛋白质序列的;染色体重排,在两种蛋白质的连接处产生具有肿瘤特异性序列的嵌合蛋白(即基因融合)和/或移码插入或缺失,导致具有肿瘤特异性蛋白质的新开放阅读框序列。突变肽可以包括多肽(由多肽序列表征)和/或可以由核苷酸序列编码。
如本文所用,肽的“C-侧翼”是指来自亲本蛋白质的肽的C-末端上游的一个或多个氨基酸。任选地,肽的C-侧翼包括肽的C-末端上游的一个、两个、三个、四个、五个或更多个氨基酸残基。
如本文所用,肽的“N-侧翼”是指来自亲本蛋白质的肽的N-末端下游的一个或多个氨基酸。任选地,肽的N-侧翼包括肽的N-末端下游的一个、两个、三个、四个、五个或更多个氨基酸残基。
如本文所用,肽的“表位”可以指肽的C-侧翼和N-侧翼之间的并且可以被TCR识别的区域。肽的表位是被T细胞上的TCR和抗原呈递细胞上的MHC I识别的肽的一部分。例如,表位可以是TCR结合的肽,例如当肽与抗原呈递细胞上的MHC I结合时TCR结合的肽。
如本文所用,“配体”是在洗脱实验中发现由MHC分子在细胞表面呈递或在体外测定中发现与MHC结合的肽。
如本文所用,“序列”是指包括有序的氨基酸标识符集的氨基酸序列。
如本文所用,“肽序列”是指识别肽的至少一部分的氨基酸的序列。在一些情况下,肽序列包括变体编码序列,其包括在对应参考序列中未观察到的变体。
当肽包括突变肽时,变体编码序列识别突变或变体的氨基酸。然而,当肽不包括突变或变体时,变体编码序列不识别突变或变体的氨基酸(并且在这种情况下与参考序列相同)。可以通过收集疾病和/或肿瘤样品(例如,包括肿瘤细胞)并进行测序分析以识别对应于样品中疾病和/或肿瘤细胞的一个或多个序列来确定变体编码序列。在一些情况下,测序分析输出氨基酸序列。在一些情况下,测序分析输出核酸序列,随后可对其用于处理以将密码子转换为氨基酸标识符,从而产生氨基酸序列。变体编码序列可以包括新抗原序列。变体编码序列可以但不必包括肽的一个或多个末端(例如C-末端和/或N-末端)。变体编码序列可以包括肽的表位。变体编码序列可以识别肽内的氨基酸,该肽相对于对应参考序列具有一种或多种变体(例如,一种或多种氨基酸区别)。在一些情况下,变体编码序列包括有序的氨基酸集。在一些情况下,变体编码序列识别参考肽(例如,通过识别遗传参考序列,诸如通过基因、起始位置和/或结束位置;或通过基因、起始位置和/或长度)和相对于参考肽的一个或更多个点突变。
如本文所用,“参考序列”可以指识别非突变肽或野生型肽的至少一部分内的氨基酸的序列(例如,野生型、亲本序列)。非突变或野生型肽可以不包括变体或包括比突变肽中包括的更少的变体。参考序列可以包括由相对于包括对应变体编码序列的基因的相同基因内的遗传序列编码的氨基酸序列。参考序列可以包括由跨越基因内相同起点和终点的基因序列编码的氨基酸序列,所述基因序列相对于与对应变体编码序列相关联的基因序列相关的基因内位置。参考序列可以通过从一个或多个受试者(他们可以但不必包括从中收集疾病样品以确定变体编码序列的受试者)收集非疾病和/或非肿瘤样品来识别并使用样品进行测序分析。
如本文所用,MHC分子的“伪序列”可以指与肽接触的MHC分子的有序氨基酸集。
如本文所用,序列的“表示”可以包括表示或识别序列中的氨基酸的值集和/或表示或识别编码该序列的核酸的值集。例如,每个氨基酸可以由值的二进制串和/或向量表示,其与表示每个其他氨基酸的每个其他二进制串和/或向量不同。可以使用例如独热编码或使用块替换矩阵(BLOSUM)矩阵来生成表示。例如,多维(例如,20或21维)阵列被初始化(例如,随机或伪随机初始化)。针对每个氨基酸,初始化的阵列可以包括对应于该氨基酸的唯一向量。这些值可以是固定的,使得可以假定使用此类唯一的向量来表示对应氨基酸。假定多个密码子中的任一个密码子可以编码单个氨基酸,那么给定序列可以有多种可能的核酸表示。
如本文所用,肽的“呈递”是指肽的至少一部分通过以特定方式与MHC分子结合而在细胞表面上呈递。然后,其他细胞(诸如附近的T细胞)可以接触到呈递的肽。
如本文所用,“样品”可以包括组织(例如,活检)、单细胞、多细胞、细胞碎片或体液的等分试样。可以通过诸如例如但不限于静脉穿刺、排泄、射精、按摩、活检、针吸、灌洗样品、刮擦、手术切口、介入、以及另一类型的样品收集方式或其组合的方式来从受试者获得样品。
如本文所用,“受试者”涵盖一种或多种细胞、组织或生物体。受试者可以是人类或非人类的,无论是体内的、离体的还是体外的,也无论是雄性的还是雌性的。受试者可以是哺乳动物,诸如人。
如本文所用,“结合亲和力”是指肽(例如,特异性抗原的)和MHC(例如,MHC分子和/或MHC等位基因)之间的结合的亲和力。结合亲和力可以表征肽和MHC分子之间结合的稳定性、趋势和/或强度。
如本文所用,“免疫原性”可以指(例如,经由T细胞和/或B细胞)引发免疫应答的能力。“免疫原性”肽可以是能够引发免疫应答的肽。
如本文所用,“MHC”是指主要组织相容性复合物。人MHC也称为人白细胞抗原(HLA)复合物。
VIII.示例性实施例
实施例1.本文提供了一种方法。该方法包括访问表征肽集的肽序列集,该肽序列集的每个肽序列已通过处理来自受试者的疾病样品而识别。该方法包括访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列。该方法包括使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示免疫蛋白复合物(IPC)序列的IPC表示,以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者。该方法包括基于输出生成报告。
实施例2.根据实施例1所述的方法,其中包括:该肽序列集中的至少一个肽序列包含变体编码序列,该变体编码序列包括相对于对应参考序列的变体。
实施例3.根据实施例1或实施例2所述的方法,其中包括:该处理包括:接收针对该肽序列集的对应肽序列的该肽表示集的肽表示;并且经由第一注意力块将肽表示转换为转换肽表示,其中该第一注意力块包括注意力子块集,其中该注意力子块集的每个注意力子块包括自注意力层。
实施例4.根据实施例1至3中任一项所述的方法,其中包括:该处理包括:接收IPC表示;并且经由第二注意力块将IPC表示转换为转换IPC表示,其中该第二注意力块包括注意力子块集,其中该注意力子块集的每个注意力子块包括自注意力层。
实施例5.根据实施例1至4中任一项所述的方法,其中包括:该肽表示的至少一部分对应于该肽序列中的单体,并且该IPC表示的至少一部分对应于该IPC序列中的单体;并且其中该处理包括:基于使用第一注意力块和第一权重集的肽表示生成转换肽表示;基于使用第二注意力块和第二权重集的IPC表示生成转换IPC表示;以及使用转换肽表示和转换MHC表示生成合成表示。
实施例6.根据实施例1至5中任一项所述的方法,其进一步包括:嵌入该肽序列集的肽序列,以生成针对该肽序列的嵌入肽表示;以及按位置编码肽序列的嵌入肽表示,以生成表示肽序列的肽表示集的肽表示。
实施例7.根据实施例1至6中任一项所述的方法,其中包括:该第一注意力块包括注意力子块集;并且该注意力子块集的每个注意力子块包括神经网络,该神经网络包括至少一个自注意力层。
实施例8.根据实施例1至7中任一项所述的方法,其中包括:该第二注意力块包括注意力子块集;并且该注意力子块集的每个注意力子块包括神经网络,该神经网络包括至少一个自注意力层。
实施例9.根据实施例1至8中任一项所述的方法,其中包括:该第一注意力块包括第一多个注意力子块;该第二注意力块包括第二多个注意力子块;并且该第一注意力子块集和第二注意力子块集中的每个注意力子块包括神经网络,该神经网络包括至少一个自注意力层。
实施例10.根据实施例1至9中任一项所述的方法,其中包括:该肽表示集的肽表示形成使用第一注意力块处理的聚合表示的第一部分;并且该聚合表示的第二部分表示N-侧翼序列或C-侧翼序列中的至少一者。
实施例11.根据实施例1至10中任一项所述的方法,其中包括:该肽序列集的肽序列形成聚合序列的第一部分;聚合序列的第二部分包括N-侧翼序列或C-侧翼序列中的至少一者;并且基于注意力的机器学习模型包括表示块,该表示块接收并处理聚合序列以形成聚合表示,该聚合表示包括对应于肽序列的肽表示集的肽表示,其中该聚合表示由第一注意力块处理。
实施例12.根据实施例1至11中任一项所述的方法,其进一步包括:嵌入IPC序列以生成IPC序列的嵌入IPC表示;以及按位置编码IPC序列的嵌入IPC表示,以生成IPC表示。
实施例13.根据实施例1至12中任一项所述的方法,其中包括:该基于注意力的机器学习模型包括多个自注意力层,并且针对多个自注意力层中的每个自注意力层,包括对应下游前馈神经网络。
实施例14.根据实施例1至13中任一项所述的方法,其中包括:该第一注意力块包括第一神经网络,该第一神经网络被配置为接收和处理该肽表示集的肽表示以生成转换肽表示;并且第二注意力块包括第二神经网络,该第二神经网络被配置为接收和处理IPC表示以生成转换IPC表示;并且其中,第一神经网络和第二神经网络中的每个神经网络都包括至少一个自注意力层;以及其中,基于注意力的机器学习模型被配置为使用转换肽表示和转换IPC表示来生成合成表示。
实施例15.根据实施例1至14中任一项所述的方法,其中包括:该基于注意力的机器学习模型进一步包括:合成注意力块,其包括被配置为接收和处理该合成表示的神经网络,其中该神经网络包括自注意力层。
实施例16.根据实施例1至15中任一项所述的方法,其中包括:该基于注意力的机器学习模型进一步包括:合成注意力块,其包括注意力子块集,其中该注意力子块集中的每个注意力子块包括包含至少一个自注意力层的神经网络。
实施例17.根据实施例1至16中任一项所述的方法,其中包括:IPC包含主要组织相容性复合体(MHC)并且对应肽-IPC组合包括肽集中的肽和MHC,并且其中:针对对应肽-IPC组合的相互作用亲和力预测预测肽和MHC之间的结合亲和力;针对对应肽-IPC组合的相互作用预测预测MHC是否将在细胞表面呈递肽。
实施例18.根据实施例1至17中任一项所述的方法,其中包括:使用训练数据集训练该基于注意力的机器学习模型,该训练数据集包括多个训练肽序列和训练MHC序列集的实验相互作用亲和力数据或实验相互作用数据中的至少一者。
实施例19.根据实施例1至18中任一项所述的方法,其中包括:IPC是T细胞受体(TCR),并且对应肽-IPC对包括肽集中的肽,以及TCR或TCR与主要组织相容性复合体(MHC),并且其中:针对对应肽-IPC组合的免疫原性预测预测肽相对于TCR的免疫原性;并且使用训练数据集训练基于注意力的机器学习模型,该训练数据集包括多个训练肽序列和训练TCR序列集的实验免疫原性数据。
实施例20.根据实施例1至19中任一项所述的方法,其中包括:该训练数据集包括多个训练数据元素,该多个训练数据元素中的至少一个训练数据元素包括以下中的至少一项:训练肽序列,其表征不包括在肽集中的训练肽;训练IPC序列,其表征不同于IPC的训练IPC;以及基于实验的结果,识别训练肽和训练IPC之间的相互作用亲和力指示,其中使用基于测定或生物传感器的方法检测相互作用亲和力指示。
实施例21.根据实施例1至20中任一项所述的方法,其中包括:该训练数据集包括多个训练数据元素,该多个训练数据元素中的至少一个训练数据元素包括以下中的至少一项:训练肽序列,其表征不包括在肽集中的训练肽;训练MHC序列,其表征不同于IPC的训练MHC;以及基于实验的结果,包括识别训练肽是否由训练MHC在细胞表面呈递的相互作用指示,其中免疫沉淀或质谱中的至少一者用于确定相互作用指示。
实施例22.根据实施例1至21中任一项所述的方法,其进一步包括:在处理步骤之前,使用训练数据集训练基于注意力的机器学习模型,该训练数据集包括针对多个肽-IPC组合的结合亲和力、相互作用指示或免疫原性指示中的至少一种,其中训练数据集包括多个训练主要组织相容性复合体(MHC)序列或多个训练T细胞受体(TCR)序列中的至少一者以及多个训练肽序列。
实施例23.根据实施例1至22中任一项所述的方法,其中包括:该处理包括:使用第一注意力块处理肽表示集并且使用第二注意力块处理IPC表示,以生成针对肽-IPC组合集的合成表示集;处理该合成表示集以生成结果集;选取该肽-IPC组合集的子集,其中与该肽-IPC组合集的剩余子集相比,选取的相互作用集更可能与该子集的每个肽-IPC组合发生,其中报告识别子集内的每种肽。
实施例24.根据实施例1至23中任一项所述的方法,其中包括:该肽集中的每种肽用于形成肽-IPC组合集;并且基于注意力的机器学习模型被配置为针对肽-IPC组合集的每个肽-IPC组合生成免疫原性预测,针对肽-IPC组合集的肽-IPC组合的免疫原性预测是肽-IPC组合中肽的肿瘤特异性免疫原性预测。
实施例25.根据实施例1至24中任一项所述的方法,其中包括:该报告从该肽集中识别相对于该肽集的剩余部分具有增强的肿瘤特异性免疫原性的肽子集。
实施例26.根据实施例1至25中任一项所述的方法,其中包括:IPC是主要组织相容性复合体(MHC);该肽集中的每种肽用于形成肽-MHC组合集;并且基于注意力的机器学习模型被配置为生成肽-MHC组合集的每个肽-MHC组合的相互作用预测,针对肽-MHC组合集的肽-MHC组合的相互作用预测是预测肽-MHC组合中的肽是否由MHC在细胞表面呈递。
实施例27.根据实施例26所述的方法,其中包括:该报告从该肽集中识别相对于该肽集的剩余部分具有增强的由MHC呈递的可能性的肽子集。
实施例28.根据实施例1至27中任一项所述的方法,其中包括:该肽序列集的肽序列是表征突变肽的变体编码序列,该变体编码序列包括:识别突变肽的N-末端的序列的第一部分;以及识别突变肽的表位序列的第二部分;并且该处理包括:使用初始注意力子系统的第一自注意力层处理变体编码序列的第一部分的第一表示;使用初始注意力子系统的第二自注意力层处理变体编码序列的第二部分的第二表示。
实施例29.根据实施例28所述的方法,其中包括:第一表示和第二表示在第一注意力块内处理。
实施例30.根据实施例1至29中任一项所述的方法,其中包括:该基于注意力的机器学习模型包括一个或多个转换器编码器,其中该一个或多个转换器编码器中的每一个转换器编码器包括自注意力层。
实施例31.根据实施例1至30中任一项所述的方法,其中包括:IPC序列和该肽序列集中的每种肽包括有序的氨基酸标识符集。
实施例32.根据实施例1至31中任一项所述的方法,其中包括:使用疾病样品识别IPC序列。
实施例33.根据实施例1至32中任一项所述的方法,其中包括:使用来自受试者的生物样品识别IPC序列。
实施例34.根据实施例1至33中任一项所述的方法,其中包括:该疾病样品包括癌细胞。
实施例35.根据实施例1至34中任一项所述的方法,其中包括:受试者的IPC包括主要组织相容性复合体(MHC);IPC序列包括MHC序列;以及IPC表示包括MHC表示。
实施例36.根据实施例35所述的方法,其中包括:MHC包括MHC I类分子。
实施例37.根据实施例35所述的方法,其中包括:MHC包括MHC II类分子。
实施例38.根据实施例1至35中任一项所述的方法,其中包括:受试者的IPC包括T细胞受体(TCR);IPC序列包括TCR序列;以及IPC表示包括TCR表示。
实施例39.根据实施例1至38中任一项所述的方法,其中包括:该疾病样品包括组织。
实施例40.根据实施例1至39中任一项所述的方法,其中包括:该肽集中的至少一种肽是新抗原。
实施例41.根据实施例1至40中任一项所述的方法,其中包括:该肽序列集中的至少一个肽序列是来源于疾病样品的基因组序列。
实施例42.根据实施例1至41中任一项所述的方法,其中包括:该变体编码序列集中的至少一个变体编码序列中的每一个变体编码序列基于疾病样品的RNA序列。
实施例43.根据实施例1至42中任一项所述的方法,其中包括:对应肽-IPC组合包括来自肽集和IPC的肽;IPC是主要组织相容性复合体(MHC);相互作用亲和力预测是对肽和MHC之间结合的结合亲和力的预测;以及相互作用预测是由MHC在细胞表面呈递肽的预测。
实施例44.根据实施例1至43中任一项所述的方法,其进一步包括:接收用户输入的输入数据,该输入数据对应于该受试者;其中,响应于接收经由从数据存储中检索的输入数据,访问该肽序列集和该IPC序列;以及其中该报告从该肽集中识别肽的子集,以包括在个体化疫苗中以治疗受试者的医学病症。
实施例45.根据实施例44所述的方法,其进一步包括:为受试者生成包括个体化疫苗的治疗建议。
实施例46.根据实施例1至45中任一项所述的方法,其进一步包括:接收用户输入的输入数据,该输入数据对应于该受试者;其中,响应于接收经由从数据存储中检索的输入数据,访问该肽序列集和该IPC序列;并且基于报告确定包含在个体化疫苗中的治疗肽集;以及启动有助于制造包括该治疗肽集的个体化疫苗的动作。
实施例47.根据实施例46所述的方法,其中包括:启动动作包括:生成触发个体化疫苗制造中涉及的计算机化过程的警报。
实施例48.根据实施例1至47中任一项所述的方法,其中包括:该处理包括:从基于注意力的机器学习模型中的嵌入块接收包括多个元素的表示,其中该表示是表示肽序列集中的肽序列的肽表示集的肽表示或表示IPC序列的IPC表示;并且其中多元素数据集中的每个元素对应于肽序列或IPC序列中的单体;针对多个元素中的每个元素,分别基于与基于注意力的机器学习模型的自注意力层相关联的键权重集、值权重集和查询权重集来确定键向量、值向量和查询向量;执行多个元素的转换以形成多个修饰元素,其中使用为多个元素生成的注意力分数和为多个元素中的每个元素确定的值向量来执行转换;以及基于多个修饰元素生成输出。
实施例49.根据实施例48所述的方法,其中包括:对该多个元素中的选取元素执行该转换包括使用该选取元素的键向量和查询向量来确定该元素的注意力分数,其中该多个元素的剩余部分(除被选取元素之外的其他元素)形成剩余元素集;使用剩余元素的键向量和选取的元素的查询向量确定剩余元素集合中每个剩余元素的额外注意力分数,以形成额外注意力分数集合;使用注意力分数、附加注意力分数的集合和多个元素中的每个元素的值向量来生成修饰的元素。
实施例50.根据实施例1至49中任一项所述的方法,其进一步包括:在显示系统上的图形用户界面上显示报告。
实施例51.根据实施例1至50中任一项所述的方法,其中包括:该处理在第一计算平台上执行并且进一步包括通过通信链路集将该报告发送到第二计算平台,该通信链路包括有线通信链路或无线通信链路中的至少一者。
实施例52.根据实施例1至51中任一项所述的方法,其进一步包括:基于该报告确定以包括作为针对免疫疗法的靶标的该肽集中的至少一种肽。
实施例53.根据实施例52所述的方法,其中包括:免疫疗法选自自由以下项组成的组:T细胞疗法、个体化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
实施例54.根据实施例1至53中任一项所述的方法,其进一步包括:基于该报告确定以排除作为针对免疫疗法的靶标的该肽集中的至少一种肽。
实施例55.根据实施例54所述的方法,其中包括:免疫疗法选自自由以下项组成的组:T细胞疗法、个体化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
实施例56.根据实施例1至55中任一项所述的方法,其中包括:IPC为人白细胞抗原(HLA)分子。
实施例57.根据实施例1至56中任一项所述的方法,其进一步包括:对来自受试者的疾病样品进行测序;基于来自受试者的疾病样品的测序定义肽序列集;基于报告识别肽序列集的子集;合成编码包括在该肽集的子集中的至少一个肽的mRNA;将该mRNA与脂质复合以产生mRNA-脂质复合物治疗;以及将mRNA-脂质复合物治疗施用于受试者。
实施例58.一种疫苗包括:一种或多种肽;编码该一种或多种肽的多种核酸;或表达该一种或多种肽的多种细胞,其中该一种或多种肽选自基于由实施例1至49中任一项所述的方法生成的报告的肽集,其中该一种或多种肽是肽集的不完整子集。
实施例59.根据实施例58所述的疫苗,其中包括:该疫苗包括包含多个核酸的DNA或包含多种核酸的RNA。
实施例60.根据实施例58或实施例59所述的疫苗,其中包括:该疫苗包括mRNA,该mRNA包括该多种核酸。
实施例61.根据实施例58至60中任一项所述的疫苗,其中包括:该疫苗为肿瘤疫苗。
实施例62.一种制造疫苗的方法包括生产疫苗,所述生产疫苗包括:一种或多种肽;编码该一种或多种肽的多种核酸;或表达该一种或多种肽的多种细胞的疫苗,其中该一种或多种肽选自基于由实施例1至49中任一项所述的方法生成的报告的肽集,其中该一种或多种肽是肽集的不完整子集。
实施例63.根据实施例62所述的方法,其中包括:该疫苗包括包含多种核酸的DNA、包含多种核酸的RNA或包含多种核酸的mRNA。
实施例64.根据实施例62或实施例63所述的方法,其进一步包括:基于一种或多种肽内的氨基酸识别编码一种或多种肽的多种核酸,其中该疫苗包括多种核酸。
实施例65.根据实施例62至64中任一项所述的方法,其中包括:该疫苗为肿瘤疫苗。
实施例66.根据实施例65所述的方法,其中包括:针对该一种或多种肽中的每种肽,该肿瘤疫苗包含以下中的至少一种:编码每种肽的核苷酸序列、对应于每种肽的氨基酸序列、对应于每种肽的RNA、对应于每种肽的DNA、对应于每种肽的细胞、对应于每种肽的质粒,或对应于每种肽的载体。
实施例67.根据实施例62至66中任一项所述的方法,其中包括:该疫苗进一步包括赋形剂或佐剂中的至少一者。
实施例68.根据权利要求62至67中任一项所述的方法,其中包括:该疫苗包含RNA分子,该RNA分子在5'→3'方向上包含:
5'帽;
5'非翻译区(UTR);
编码分泌信号肽的多核苷酸序列;
编码一种或多种肽的多核苷酸序列;
编码主要组织相容性复合体(MHC)分子的跨膜和胞质结构域的至少一部分的多核苷酸序列;
3'UTR,其包括:
分裂的氨基末端增强子(AES)mRNA的3'非翻译区或其片段;和
线粒体编码的12S RNA的非编码RNA或其片段;以及
poly(A)序列。
实施例69.一种药物组合物包括一种或多种肽,该一种或多种肽选自基于由实施例1至49中任一项所述的方法生成的报告的肽集,其中该一种或多种肽是该肽集的不完整子集。
实施例70.一种药物组合物包括编码一种或多种肽的核酸序列,该一种或多种肽已选自基于由实施例1至49中任一项所述的方法生成的报告的肽集,其中该一种或多种肽是该肽集的不完整子集。
实施例71.基于由实施例1至49中任一项所述的方法生成的报告识别免疫原性肽。
实施例72.基于由实施例1至49中任一项所述的方法生成的报告识别核酸序列。
实施例73.根据实施例72所述的核酸序列,其中包括:该核酸序列包括DNA序列。
实施例74.根据实施例72或实施例73所述的核酸序列,其中包括:该核酸序列包括RNA序列。
实施例75.根据实施例72至74中任一项所述的核酸序列,其中包括:该核酸序列包括mRNA序列。
实施例76.一种治疗受试者的方法包括施用:基于由实施例1至49中任一项所述的方法生成的报告识别的一种或多种肽、一种或多种药物组合物或一种或多种核酸序列中的至少一者。
实施例77.一种方法包括:处理从受试者获得的生物样品集,以生成表征肽集的肽序列集;处理从受试者获得的生物样品集,以生成针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列;使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块生成表示肽序列集的肽表示集;使用初始注意力子系统中的第二注意力块生成表示免疫蛋白复合物(IPC)序列的IPC表示;处理该肽表示集和IPC表示以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者,该对应肽-IPC组合包括肽集中的肽。
实施例78.根据实施例77所述的方法,其中包括:处理从受试者获得的生物样品集以生成肽序列集包括:处理从受试者获得的生物样品集中的疾病样品以生成肽序列集。
实施例79.根据实施例77或实施例78所述的方法,其进一步包括:从受试者获得生物样品集,其中该生物样品集包括疾病样品。
实施例80.根据实施例77至79中任一项所述的方法,其进一步包括:基于输出生成报告。
实施例81.一种方法,其包括在用户设备上接收为受试者设计个体化疫苗的请求;从用户设备向远程系统传输通信,该通信包括受试者的标识符,其中该远程系统被配置为:访问表征肽集的肽序列集,该肽序列集的每个肽序列已通过处理来自受试者的疾病样品而识别,并访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列;使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示免疫蛋白复合物(IPC)序列的IPC表示以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;并且基于输出生成报告;并且将报告传输到用户设备;以及在用户设备处接收该报告。
实施例82.根据实施例81所述的方法,其进一步包括:从受试者收集疾病样品;使用色谱或质谱中的至少一者,从疾病样品中的MHC分子中洗脱包括肽集的多肽;对该肽集进行测序以生成初始序列集;将初始序列集中的每个初始序列与参考序列进行比较;以及基于比较定义该肽序列集,其中该肽序列集中的每个肽序列是变体编码序列,该变体编码序列包括相对于该参考序列的变体。
实施例83.本文提供了一种用于为受试者制造治疗的方法。该方法包括从计算设备接收报告,该计算设备被配置为:访问表征肽集的肽序列集,该肽序列集的每个肽序列已通过处理来自受试者的疾病样品而识别,并访问针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列;使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示肽序列集的肽表示集,并且使用初始注意力子系统中的第二注意力块处理表示免疫蛋白复合物(IPC)序列的IPC表示以生成输出,其中该输出包括针对对应肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;并且基于输出生成报告;以及基于报告生成针对制造治疗的治疗制造计划。
实施例84.根据实施例83所述的方法,其进一步包括:基于治疗制造计划制造治疗。
实施例85.一种方法包括:将表征多种突变肽的多个变体编码序列输入到基于注意力的机器学习模型中,多个变体编码序列中的每个变体编码序列已通过处理来自受试者的疾病样品而识别;将针对受试者的免疫蛋白复合物(IPC)识别的免疫蛋白复合物(IPC)序列输入到基于注意力的机器学习模型中,其中基于注意力的机器学习模型被配置为:使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块处理表示多个变体编码序列的变体表示,并且使用初始注意力子系统中的第二注意力块处理表示免疫蛋白复合物(IPC)序列的IPC表示以生成输出,其中该输出包括针对对应突变肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;并且接收基于输出生成的报告;以及基于该报告选取多种突变肽的子集以用于受试者的治疗。
实施例86.一种方法,其包括接收表征突变肽的肽序列,该肽序列包括相对于对应参考序列的变体;接收针对主要组织相容性复合体(MHC)识别的MHC序列;使用基于注意力的机器学习模型内不同的处理路径处理肽序列和MHC序列以生成输出,其中该输出提供关于与突变肽和MHC两者都相关的免疫学活性的信息;以及基于输出生成报告。
实施例87.根据实施例86所述的方法,其中包括:该处理包括经由基于注意力的机器学习模型内的肽处理路径处理肽序列,该肽处理路径包括第一嵌入块和包括至少一个自注意力层的第一注意力块;以及
经由基于注意力的机器学习模型内的MHC处理路径处理MHC序列,该MHC处理路径包括第二嵌入块和包含至少一个自注意力层的第二注意力块。
实施例88.根据实施例87所述的方法,其进一步包括:接收针对T细胞受体(TCR)识别的TCR序列;并且其中该处理进一步包括经由基于注意力的机器学习模型内的TCR处理路径处理TCR序列,该TCR处理路径包括第三嵌入块和包括至少一个自注意力层的第三注意力块。
实施例89.根据实施例86至88中任一项所述的方法,其中包括:免疫学活性包括免疫应答和包括关于突变肽激发免疫应答的能力的预测的信息。
实施例90.根据实施例86至89中任一项所述的方法,其中包括:该处理包括经由肽处理路径生成肽序列的转换肽表示;经由MHC处理路径生成MHC序列的转换MHC表示;使用转换肽表示和转换MHC表示生成合成表示;处理合成表示以生成输出。
实施例91.根据实施例86至90中任一项所述的方法,其中包括:免疫学活性包括突变肽与MHC的结合,并且其中输出包括对应于突变肽是否结合MHC的第一预测或对应于与结合相关联的亲和力的第二预测中的至少一者。
实施例92.根据实施例86至91中任一项所述的方法,其进一步包括:基于报告确定以包括作为免疫疗法的靶标的该突变肽。
实施例93.根据实施例92所述的方法,其中包括:免疫疗法选自自由以下项组成的组:T细胞疗法、个体化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
实施例94.根据实施例86至93中任一项所述的方法,其进一步包括以下至少一者:基于报告确定以排除作为免疫疗法的靶标的突变肽。
实施例95.根据实施例94所述的方法,其中包括:免疫疗法选自自由以下项组成的组:T细胞疗法、个体化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
实施例96.根据实施例86至95中任一项所述的方法,其进一步包括:基于该报告确定以包括突变肽、突变肽的前体、编码突变肽的核酸或在治疗中表达突变肽的多种细胞中的至少一者;以及制造治疗。
实施例97.根据实施例96所述的方法,其进一步包括用该治疗治疗受试者。
实施例98.根据实施例86至97中任一项所述的方法,其中包括:通过对来自受试者的疾病样品进行测序来识别表征突变肽的肽序列,其中该肽序列相对于对应参考序列具有至少一个序列变异,并且其中基于报告为受试者设计治疗。
实施例99.一种方法,其包括接收表征突变肽的肽序列,该肽序列包括相对于对应参考序列的变体;接收针对T细胞受体(TCR)识别的TCR序列;使用基于注意力的机器学习模型内的不同处理路径处理肽序列和TCR序列以生成输出,其中该输出提供关于与突变肽和TCR两者都相关的免疫学活性的信息;基于输出生成报告。
实施例100.根据实施例99所述的方法,其中包括:该处理包括经由基于注意力的机器学习模型内的肽处理路径处理肽序列,该肽处理路径包括第一嵌入块和第一注意力块;经由基于注意力的机器学习模型内的TCR处理路径处理TCR序列,该TCR处理路径包括第二嵌入块和第二注意力块。
实施例101.根据实施例100所述的方法,其进一步包括:接收针对主要组织相容性复合体(MHC)识别的MHC序列;并且其中该处理进一步包括经由基于注意力的机器学习模型内的MHC处理路径处理MHC序列,该MHC处理路径包括第三嵌入块和第三MHC块。
实施例102.根据实施例99至101中任一项所述的方法,其中包括:免疫学活性包括免疫应答和包括关于突变肽激发免疫应答的能力的预测的信息。
实施例103.根据实施例99至102中任一项所述的方法,其中包括:处理包括经由肽处理路径生成肽序列的转换肽表示;经由TCR处理路径生成TCR序列的转换TCR表示;使用转换肽表示和转换TCR表示生成合成表示;处理合成表示以生成输出。
实施例104.根据实施例99至103中任一项所述的方法,其中包括:免疫学活性包括突变肽与MHC的结合,并且其中输出包括对应于突变肽是否结合MHC的第一预测或对应于与结合相关联的亲和力的第二预测中的至少一者。
实施例105.根据实施例99至104中任一项所述的方法,其进一步包括:基于报告确定以包括作为免疫疗法的靶标的突变肽。
实施例106.根据实施例105所述的方法,其中包括:免疫疗法选自自由以下项组成的组:T细胞疗法、个体化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
实施例107.根据实施例99至106中任一项所述的方法,其进一步包括以下至少一者:基于报告确定以排除作为免疫疗法的靶标的突变肽。
实施例108.根据实施例107所述的方法,其中包括:免疫疗法选自自由以下项组成的组:T细胞疗法、个体化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
实施例109.根据实施例99至108中任一项所述的方法,其进一步包括:基于该报告确定以包括突变肽、突变肽的前体、编码突变肽的核酸或在治疗中表达突变肽的多种细胞中的至少一者;以及制造治疗。
实施例110.根据实施例109所述的方法,其进一步包括用该治疗治疗受试者。
实施例111.根据实施例99至110中任一项所述的方法,其中包括:通过对来自受试者的疾病样品进行测序来识别表征突变肽的肽序列,其中该肽序列相对于对应参考序列具有至少一个序列变异,并且其中基于报告为受试者设计治疗。
实施例112.本文提供了一种系统,其包括:一个或多个数据处理器;和非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质包含指令,该指令在该一个或多个数据处理器上执行时使一个或多个数据处理器执行实施例1至49、77至81、83、85至95以及99至108中的任一项。
实施例113.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包含指令,该指令被配置为使一个或多个数据处理器执行实施例1至49、77至81、83、85至95以及99至108中的任一项。
IX.其他注意事项
本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
该描述仅提供优选的示例性实施例,并且不旨在限制本公开的范围、适用性或配置。相反,优选的示例性实施例的描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件的功能和布置进行各种改变。
在以下描述中给出具体细节以提供对实施例的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他组件可以以框图形式显示为部件,以免在不必要的细节中混淆实施例。在其他情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施例。

Claims (113)

1.一种方法,其包括:
访问表征肽集的肽序列集,已通过处理来自受试者的疾病样品而识别所述肽序列集中的每个肽序列;
访问针对所述受试者的免疫蛋白质复合体(IPC)识别的免疫蛋白质复合体(IPC)序列;
使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块来处理表示所述肽序列集的肽表示集,并且使用所述初始注意力子系统中的第二注意力块来处理表示所述免疫蛋白质复合体(IPC)序列的IPC表示以生成输出,其中所述输出包括针对对应的肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;以及
基于所述输出生成报告。
2.根据权利要求1所述的方法,其中所述肽序列集中的至少一个肽序列包含变体编码序列,所述变体编码序列相对于对应的参考序列包含变体。
3.根据权利要求1或权利要求2所述的方法,其中所述处理包括:
接收针对所述肽序列集中的对应的肽序列的所述肽表示集中的肽表示;以及
经由所述第一注意力块将所述肽表示转换为经转换的肽表示,其中所述第一注意力块包括注意力子块集,其中所述注意力子块集中的每个注意力子块包括自注意力层。
4.根据权利要求1至3中任一项所述的方法,其中所述处理包括:
接收所述IPC表示;以及
经由所述第二注意力块将所述IPC表示转换为经转换的IPC表示,其中所述第二注意力块包括注意力子块集,其中所述注意力子块集中的每个注意力子块包括自注意力层。
5.根据权利要求1至4中任一项所述的方法,其中所述肽表示的至少一部分对应于所述肽序列中的单体,并且所述IPC表示的至少一部分对应于所述IPC序列中的单体;并且其中所述处理包括:
使用所述第一注意力块和第一权重集基于所述肽表示来生成经转换的肽表示;
使用所述第二注意力块和第二权重集基于所述IPC表示来生成经转换的IPC表示;以及
使用所述经转换的肽表示和经转换的MHC表示来生成合成表示。
6.根据权利要求1至5中任一项所述的方法,其进一步包括:
嵌入所述肽序列集中的肽序列,以生成针对所述肽序列的经嵌入的肽表示;以及
按位置编码针对所述肽序列的所述经嵌入的肽表示,以生成表示所述肽序列的所述肽表示集中的肽表示。
7.根据权利要求1至6中任一项所述的方法,其中:
所述第一注意力块包括注意力子块集;并且
所述注意力子块集中的每个注意力子块包括神经网络,所述神经网络包含至少一个自注意力层。
8.根据权利要求1至7中任一项所述的方法,其中:
所述第二注意力块包括注意力子块集;并且
所述注意力子块集中的每个注意力子块包括神经网络,所述神经网络包含至少一个自注意力层。
9.根据权利要求1至8中任一项所述的方法,其中:
所述第一注意力块包括第一多个注意力子块;
所述第二注意力块包括第二多个注意力子块;并且
所述第一注意力子块集和所述第二注意力子块集中的每个注意力子块包括神经网络,所述神经网络包含至少一个自注意力层。
10.根据权利要求1至9中任一项所述的方法,其中:
所述肽表示集中的肽表示形成使用所述第一注意力块处理的聚合表示的第一部分;并且
所述聚合表示的第二部分表示N-侧翼序列或C-侧翼序列中的至少一者。
11.根据权利要求1至10中任一项所述的方法,其中:
所述肽序列集中的肽序列形成聚合序列的第一部分;并且
所述聚合序列的第二部分包括N-侧翼序列或C-侧翼序列中的至少一者;并且
所述基于注意力的机器学习模型包括接收和处理所述聚合序列以形成聚合表示的表示块,所述聚合表示包括所述肽表示集中的对应于所述肽序列的肽表示,其中所述聚合表示由所述第一注意力块处理。
12.根据权利要求1至11中任一项所述的方法,其进一步包括:
嵌入所述IPC序列以生成所述IPC序列的经嵌入的IPC表示;以及
按位置编码所述IPC序列的所述经嵌入的IPC表示,以生成所述IPC表示。
13.根据权利要求1至12中任一项所述的方法,其中所述基于注意力的机器学习模型包括多个自注意力层,并且针对所述多个自注意力层中的每一个,包括对应下游前馈神经网络。
14.根据权利要求1至13中任一项所述的方法,其中:
所述第一注意力块包括被配置为接收和处理所述肽表示集中的肽表示以生成经转换的肽表示的第一神经网络;并且
所述第二注意力块包括被配置为接收和处理所述IPC表示以生成经转换的IPC表示的第二神经网络;并且
其中所述第一神经网络和所述第二神经网络中的每一者包含至少一个自注意力层;并且
其中所述基于注意力的机器学习模型被配置为使用所述经转换的肽表示和所述经转换的IPC表示来生成合成表示。
15.根据权利要求1至14中任一项所述的方法,其中所述基于注意力的机器学习模型进一步包括:
合成注意力块,其包括被配置为接收和处理所述合成表示的神经网络,其中所述神经网络包括自注意力层。
16.根据权利要求1至15中任一项所述的方法,其中所述基于注意力的机器学习模型进一步包括:
合成注意力块,其包括注意力子块集,其中所述注意力子块集中的每个注意力子块包括包含至少一个自注意力层的神经网络。
17.根据权利要求1至16中任一项所述的方法,其中所述IPC包含主要组织相容性复合体(MHC)并且对应的肽-IPC组合包括所述肽集中的肽和所述MHC,并且其中:
针对所述对应的肽-IPC组合的所述相互作用亲和力预测预测所述肽与所述MHC之间的结合亲和力;并且
针对所述对应的肽-IPC组合的所述相互作用预测预测所述MHC是否将在细胞表面呈递所述肽。
18.根据权利要求1至17中任一项所述的方法,其中使用训练数据集训练所述基于注意力的机器学习模型,所述训练数据集包括多个训练肽序列和训练MHC序列集的实验相互作用亲和力数据或实验相互作用数据中的至少一者。
19.根据权利要求1至18中任一项所述的方法,其中所述IPC为T细胞受体(TCR),并且对应的肽-IPC对包括所述肽集中的肽以及所述TCR或所述TCR和主要组织相容性复合体(MHC),并且其中:
针对对应的肽-IPC组合的所述免疫原性预测预测所述肽相对于所述TCR的免疫原性;并且
使用训练数据集训练所述基于注意力的机器学习模型,所述训练数据集包括多个训练肽序列和训练TCR序列集的实验免疫原性数据。
20.根据权利要求1至19中任一项所述的方法,其中所述训练数据集包括多个训练数据元素,所述多个训练数据元素中的至少一个训练数据元素包括以下中的至少一项:
训练肽序列,其表征不包括在所述肽集中的训练肽;
训练IPC序列,其表征不同于所述IPC的训练IPC;以及
基于实验的结果,其识别所述训练肽与所述训练IPC之间的相互作用亲和力指示,其中使用基于测定或生物传感器的方法检测所述相互作用亲和力指示。
21.根据权利要求1至20中任一项所述的方法,其中所述训练数据集包括多个训练数据元素,所述多个训练数据元素中的至少一个训练数据元素包括以下中的至少一项:
训练肽序列,其表征不包括在所述肽集中的训练肽;
训练MHC序列,其表征不同于所述IPC的训练MHC;以及
基于实验的结果,其包括识别所述训练肽是否由所述训练MHC在细胞表面呈递的相互作用指示,其中使用免疫沉淀或质谱中的至少一者确定所述相互作用指示。
22.根据权利要求1至21中任一项所述的方法,其进一步包括:
在处理步骤之前,使用训练数据集训练所述基于注意力的机器学习模型,所述训练数据集包括针对多个肽-IPC组合的结合亲和力、相互作用指示或免疫原性指示中的至少一者,
其中所述训练数据集包括多个训练主要组织相容性复合体(MHC)序列或多个训练T细胞受体(TCR)序列中的至少一者以及多个训练肽序列。
23.根据权利要求1至22中任一项所述的方法,其中所述处理包括:
使用所述第一注意力块处理所述肽表示集并且使用所述第二注意力块处理所述IPC表示,以生成针对肽-IPC组合集的合成表示集;
处理所述合成表示集以生成结果集;
选取所述肽-IPC组合集中的子集,其中所述子集中的每个肽-IPC组合与所述肽-IPC组合集中的其余子集相比更可能发生选取的相互作用集,
其中所述报告识别所述子集内的每种肽。
24.根据权利要求1至23中任一项所述的方法,其中:
使用所述肽集中的每种肽形成肽-IPC组合集;并且
所述基于注意力的机器学习模型被配置为生成针对所述肽-IPC组合集中的每个肽-IPC组合的所述免疫原性预测,针对所述肽-IPC组合集中的肽-IPC组合的所述免疫原性预测为对所述肽-IPC组合中肽的肿瘤特异性免疫原性的预测。
25.根据权利要求1至24中任一项所述的方法,其中所述报告从所述肽集中识别相对于所述肽集的其余部分具有增强的肿瘤特异性免疫原性的肽子集。
26.根据权利要求1至25中任一项所述的方法,其中:
所述IPC为主要组织相容性复合体(MHC);
使用所述肽集中的每种肽形成肽-MHC组合集;并且
所述基于注意力的机器学习模型被配置为生成针对所述肽-MHC组合集中的每个肽-MHC组合的所述相互作用预测,针对所述肽-MHC组合集中的肽-MHC组合的相互作用预测为对所述肽-MHC组合中的肽是否由所述MHC在细胞表面呈递的预测。
27.根据权利要求26所述的方法,其中所述报告从所述肽集中识别相对于所述肽集的其余部分具有增强的由所述MHC呈递的可能性的肽子集。
28.根据权利要求1至27中任一项所述的方法,其中:
所述肽序列集中的肽序列为表征突变肽的变体编码序列,所述变体编码序列包含:
第一部分,其识别在所述突变肽的N末端的序列;以及
第二部分,其识别所述突变肽的表位的序列;并且
所述处理包括:
使用所述初始注意力子系统的第一自注意力层处理所述变体编码序列的所述第一部分的第一表示;
使用所述初始注意力子系统的第二自注意力层处理所述变体编码序列的所述第二部分的第二表示。
29.根据权利要求28所述的方法,其中所述第一表示和所述第二表示在所述第一注意力块内处理。
30.根据权利要求1至29中任一项所述的方法,其中所述基于注意力的机器学习模型包括一个或多个转换器编码器,其中所述一个或多个转换器编码器中的每一个包括自注意力层。
31.根据权利要求1至30中任一项所述的方法,其中所述IPC序列和所述肽序列集中的每个肽序列包括有序的氨基酸标识符集。
32.根据权利要求1至31中任一项所述的方法,其中使用所述疾病样品识别所述IPC序列。
33.根据权利要求1至32中任一项所述的方法,其中使用来自所述受试者的生物学样品识别所述IPC序列。
34.根据权利要求1至33中任一项所述的方法,其中所述疾病样品包括癌细胞。
35.根据权利要求1至34中任一项所述的方法,其中:
所述受试者的所述IPC包括主要组织相容性复合体(MHC);
所述IPC序列包括MHC序列;并且
所述IPC表示包括MHC表示。
36.根据权利要求35所述的方法,其中所述MHC包括MHC I类分子。
37.根据权利要求35所述的方法,其中所述MHC包括MHC II类分子。
38.根据权利要求1至35中任一项所述的方法,其中:
所述受试者的所述IPC包括T细胞受体(TCR);
所述IPC序列包括TCR序列;并且
所述IPC表示包括TCR表示。
39.根据权利要求1至38中任一项所述的方法,其中所述疾病样品包括组织。
40.根据权利要求1至39中任一项所述的方法,其中所述肽集中的至少一种肽为新抗原。
41.根据权利要求1至40中任一项所述的方法,其中所述肽序列集中的至少一个肽序列为来源于所述疾病样品的基因组序列。
42.根据权利要求1至41中任一项所述的方法,其中所述变体编码序列集中的至少一个中的每个变体编码序列基于所述疾病样品的RNA序列。
43.根据权利要求1至42中任一项所述的方法,其中:
所述对应的肽-IPC组合包括来自所述肽集的肽和所述IPC;
所述IPC为主要组织相容性复合体(MHC);
所述相互作用亲和力预测为对所述肽与所述MHC之间的结合的结合亲和力的预测;并且
所述相互作用预测为对所述肽由所述MHC在细胞表面呈递的预测。
44.根据权利要求1至43中任一项所述的方法,其进一步包括:
接收由用户输入的输入数据,所述输入数据对应于所述受试者;
其中响应于接收所述输入数据,经由从数据存储中检索来访问所述肽序列集和所述IPC序列;并且
其中所述报告从所述肽集中识别肽的子集,以包括在个体化疫苗中来治疗所述受试者的医学病况。
45.根据权利要求44所述的方法,其进一步包括:
为所述受试者生成包括所述个体化疫苗的治疗建议。
46.根据权利要求1至45中任一项所述的方法,其进一步包括:
接收由用户输入的输入数据,所述输入数据对应于所述受试者;
其中响应于接收所述输入数据,经由从数据存储中检索来访问所述肽序列集和所述IPC序列;并且
基于所述报告确定用于包括在个体化疫苗中的治疗肽集;以及
启动有助于制造包括所述治疗肽集的所述个体化疫苗的操作。
47.根据权利要求46所述的方法,其中所述启动所述操作包括:
生成触发所述个体化疫苗的所述制造中涉及的计算机化过程的警示。
48.根据权利要求1至47中任一项所述的方法,其中所述处理包括:
从所述基于注意力的机器学习模型中的嵌入块接收包含多个元素的表示,
其中所述表示为表示所述肽序列集中的肽序列的所述肽表示集中的肽表示或表示所述IPC序列的所述IPC表示;并且
其中多元素数据集中的每个元素对应于所述肽序列或所述IPC序列中的单体;
针对所述多个元素中的每个元素,分别基于与所述基于注意力的机器学习模型的自注意力层相关联的键权重集、值权重集和查询权重集来确定键向量、值向量和查询向量;
执行所述多个元素的转换以形成多个经修改的元素,其中使用针对所述多个元素生成的注意力分数和针对所述多个元素中的每个元素确定的所述值向量来执行所述转换;以及
基于所述多个经修改的元素生成所述输出。
49.根据权利要求48所述的方法,其中针对所述多个元素中的选取的元素执行所述转换包括:
使用所述元素的所述键向量和所述查询向量来确定所述选取的元素的注意力分数,其中所述多个元素的除所述选取的元素以外的其余部分形成其余元素集;
使用所述其余元素的键向量和所述选取的元素的所述查询向量来确定所述其余元素集中的每个其余元素的附加注意力分数,以形成附加注意力分数集;以及
使用所述注意力分数、所述附加注意力分数集和所述多个元素中的每个元素的所述值向量来生成经修改的元素。
50.根据权利要求1至49中任一项所述的方法,其进一步包括:
在显示系统上的图形用户界面上显示所述报告。
51.根据权利要求1至50中任一项所述的方法,其中所述处理在第一计算平台上执行并且进一步包括:
通过包括有线通信链路或无线通信链路中的至少一者的通信链路集将所述报告发送到第二计算平台。
52.根据权利要求1至51中任一项所述的方法,其进一步包括:
基于所述报告确定包括所述肽集中的至少一种肽作为免疫疗法的靶标。
53.根据权利要求52所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
54.根据权利要求1至53中任一项所述的方法,其进一步包括:
基于所述报告确定排除所述肽集中的至少一种肽作为免疫疗法的靶标。
55.根据权利要求54所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
56.根据权利要求1至55中任一项所述的方法,其中所述IPC为人白细胞抗原(HLA)分子。
57.根据权利要求1至56中任一项所述的方法,其进一步包括:
对来自所述受试者的所述疾病样品进行测序;
基于对来自所述受试者的所述疾病样品的所述测序定义所述肽序列集;
基于所述报告识别所述肽序列集中的子集;
合成编码包括在所述肽集中的所述子集中的至少一种肽的mRNA;
将所述mRNA与脂质复合以产生mRNA-脂质复合物治疗;以及
将所述mRNA-脂质复合物治疗施用于所述受试者。
58.一种疫苗,其包含:
一种或多种肽;
编码所述一种或多种肽的多种核酸;或
表达所述一种或多种肽的多种细胞,
其中所述一种或多种肽基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而选自所述肽集,其中所述一种或多种肽为所述肽集中的不完整子集。
59.根据权利要求58所述的疫苗,其中所述疫苗包括包含所述多种核酸的DNA或包含所述多种核酸的RNA。
60.根据权利要求58或权利要求59所述的疫苗,其中所述疫苗包括包含所述多种核酸的mRNA。
61.根据权利要求58至60中任一项所述的疫苗,其中所述疫苗为肿瘤疫苗。
62.一种制造疫苗的方法,其包括:
产生疫苗,所述疫苗包括:
一种或多种肽;
编码所述一种或多种肽的多种核酸;或
表达所述一种或多种肽的多种细胞,
其中所述一种或多种肽基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而选自所述肽集,其中所述一种或多种肽为所述肽集中的不完整子集。
63.根据权利要求62所述的方法,其中所述疫苗包括包含所述多种核酸的DNA、包含所述多种核酸的RNA或包含所述多种核酸的mRNA。
64.根据权利要求62或权利要求63所述的方法,其进一步包括:
基于所述一种或多种肽内的氨基酸识别编码所述一种或多种肽的所述多种核酸,其中所述疫苗包含所述多种核酸。
65.根据权利要求62至64中任一项所述的方法,其中所述疫苗为肿瘤疫苗。
66.根据权利要求65所述的方法,其中针对所述一种或多种肽中的每种肽,所述肿瘤疫苗包含以下中的至少一者:编码每种肽的核苷酸序列、对应于每种肽的氨基酸序列、对应于每种肽的RNA、对应于每种肽的DNA、对应于每种肽的细胞、对应于每种肽的质粒或对应于每种肽的载体。
67.根据权利要求62至66中任一项所述的方法,其中所述疫苗进一步包含赋形剂或佐剂中的至少一者。
68.根据权利要求62至67中任一项所述的方法,其中所述疫苗包含RNA分子,所述RNA分子在5'→3'方向上包含:
5'帽;
5'非翻译区(UTR);
编码分泌信号肽的多核苷酸序列;
编码所述一种或多种肽的多核苷酸序列;
编码主要组织相容性复合体(MHC)分子的跨膜和胞质结构域的至少一部分的多核苷酸序列;
3'UTR,其包括:
分裂的氨基末端增强子(AES)mRNA的3'非翻译区或其片段;和
线粒体编码的12S RNA的非编码RNA或其片段;以及
poly(A)序列。
69.一种药物组合物,其包含一种或多种肽,所述一种或多种肽基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而选自所述肽集,其中所述一种或多种肽为所述肽集中的不完整子集。
70.一种药物组合物,其包含编码一种或多种肽的核酸序列,所述一种或多种肽已基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而选自所述肽集,其中所述一种或多种肽为所述肽集中的不完整子集。
71.一种基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而识别的免疫原性肽。
72.一种基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而识别的核酸序列。
73.根据权利要求72所述的核酸序列,其中所述核酸序列包括DNA序列。
74.根据权利要求72或权利要求73所述的核酸序列,其中所述核酸序列包括RNA序列。
75.根据权利要求72至74中任一项所述的核酸序列,其中所述核酸序列包括mRNA序列。
76.一种治疗受试者的方法,其包括施用基于通过根据权利要求1至49中任一项所述的方法生成的所述报告而识别的一种或多种肽、一种或多种药物组合物或一种或多种核酸序列中的至少一者。
77.一种方法,其包括:
处理从受试者获得的生物学样品集以生成表征肽集的肽序列集;
处理从所述受试者获得的所述生物学样品集以生成针对所述受试者的免疫蛋白质复合体(IPC)识别的免疫蛋白质复合体(IPC)序列;
使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块生成表示所述肽序列集的肽表示集;
使用所述初始注意力子系统中的第二注意力块生成表示所述免疫蛋白质复合体(IPC)序列的IPC表示;
处理所述肽表示集和所述IPC表示以生成输出,其中所述输出包括针对对应的肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者,所述对应的肽-IPC组合包括所述肽集中的肽。
78.根据权利要求77所述的方法,其中处理从所述受试者获得的生物学样品集以生成肽序列集包括:
处理从所述受试者获得的所述生物学样品集中的疾病样品以生成所述肽序列集。
79.根据权利要求77或权利要求78所述的方法,其进一步包括:
从所述受试者获得所述生物学样品集,其中所述生物学样品集包括疾病样品。
80.根据权利要求77至79中任一项所述的方法,其进一步包括:
基于所述输出生成报告。
81.一种方法,其包括:
在用户装置处接收为受试者设计个体化疫苗的请求;
从所述用户装置向远程系统传输通信,所述通信包括所述受试者的标识符,其中所述远程系统被配置为:
访问表征肽集的肽序列集,已通过处理来自受试者的疾病样品而识别所述肽序列集中的每个肽序列,以及
访问针对所述受试者的免疫蛋白质复合体(IPC)识别的免疫蛋白质复合体(IPC)序列;
使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块来处理表示所述肽序列集的肽表示集,并且使用所述初始注意力子系统中的第二注意力块来处理表示所述免疫蛋白质复合体(IPC)序列的IPC表示以生成输出,其中所述输出包括针对对应的肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;以及
基于所述输出生成报告;以及
将所述报告传输到所述用户装置;以及
在所述用户装置处接收所述报告。
82.根据权利要求81所述的方法,其进一步包括:
收集来自所述受试者的疾病样品;
使用色谱或质谱中的至少一者,从所述疾病样品中的MHC分子洗脱包括所述肽集的多种肽;
对所述肽集进行测序以生成初始序列集;
将所述初始序列集中的每个初始序列与参考序列进行比较;以及
基于所述比较定义所述肽序列集,其中所述肽序列集中的每个肽序列为相对于所述参考序列包含变体的变体编码序列。
83.一种用于为受试者制定治疗的方法,所述方法包括:
从计算装置接收报告,所述计算装置被配置为:
访问表征肽集的肽序列集,已通过处理来自受试者的疾病样品而识别所述肽序列集中的每个肽序列,以及
访问针对所述受试者的免疫蛋白质复合体(IPC)识别的免疫蛋白质复合体(IPC)序列;
使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块来处理表示所述肽序列集的肽表示集,并且使用所述初始注意力子系统中的第二注意力块来处理表示所述免疫蛋白质复合体(IPC)序列的IPC表示以生成输出,其中所述输出包括针对对应的肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;以及
基于所述输出生成所述报告;以及
基于所述报告生成用于制定所述治疗的治疗制定计划。
84.根据权利要求83所述的方法,其进一步包括:
基于所述治疗制定计划来制定所述治疗。
85.一种方法,其包括:
将表征多个突变肽的多个变体编码序列输入到基于注意力的机器学习模型中,已通过处理来自受试者的疾病样品而识别所述多个变体编码序列中的每个变体编码序列;
将针对所述受试者的免疫蛋白质复合体(IPC)识别的免疫蛋白质复合体(IPC)序列输入到所述基于注意力的机器学习模型中,
其中所述基于注意力的机器学习模型被配置为使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块来处理表示所述多个变体编码序列的多个变体表示,并且使用所述初始注意力子系统中的第二注意力块来处理表示所述免疫蛋白质复合体(IPC)序列的IPC表示,以生成输出,
其中所述输出包括针对对应的突变肽-IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;以及
接收基于所述输出生成的报告;以及
基于所述报告选取所述多个突变肽的子集以在针对所述受试者的治疗中使用。
86.一种方法,其包括:
接收表征突变肽的肽序列,所述肽序列相对于对应的参考序列包含变体;
接收针对主要组织相容性复合体(MHC)识别的MHC序列;
使用基于注意力的机器学习模型内的不同处理路径来处理所述肽序列和所述MHC序列以生成输出,
其中所述输出提供关于与所述突变肽和所述MHC两者相关的免疫学活性的信息;以及
基于所述输出生成报告。
87.根据权利要求86所述的方法,其中所述处理包括:
经由所述基于注意力的机器学习模型内的肽处理路径来处理所述肽序列,所述肽处理路径包括第一嵌入块和包含至少一个自注意力层的第一注意力块;以及
经由所述基于注意力的机器学习模型内的MHC处理路径来处理所述MHC序列,所述MHC处理路径包括第二嵌入块和包含至少一个自注意力层的第二注意力块。
88.根据权利要求87所述的方法,其进一步包括:
接收针对T细胞受体(TCR)识别的TCR序列;并且
其中所述处理进一步包括:
经由所述基于注意力的机器学习模型内的TCR处理路径来处理所述TCR序列,所述TCR处理路径包括第三嵌入块和包含至少一个自注意力层的第三注意力块。
89.根据权利要求86至88中任一项所述的方法,其中所述免疫学活性包括免疫应答并且所述信息包括关于所述突变肽激发所述免疫应答的能力的预测。
90.根据权利要求86至89中任一项所述的方法,其中所述处理包括:
经由所述肽处理路径来生成所述肽序列的经转换的肽表示;
经由所述MHC处理路径来生成所述MHC序列的经转换的MHC表示;
使用所述经转换的肽表示和所述经转换的MHC表示来生成合成表示;
处理所述合成表示以生成所述输出。
91.根据权利要求86至90中任一项所述的方法,其中所述免疫学活性包括所述突变肽与所述MHC的结合,并且其中所述输出包括对应于所述突变肽是否与所述MHC结合的第一预测或对应于与所述结合相关联的亲和力的第二预测中的至少一者。
92.根据权利要求86至91中任一项所述的方法,其进一步包括:
基于所述报告确定包括所述突变肽作为免疫疗法的靶标。
93.根据权利要求92所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
94.根据权利要求86至93中任一项所述的方法,其进一步包括以下中的至少一者:
基于所述报告确定排除所述突变肽作为免疫疗法的靶标。
95.根据权利要求94所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
96.根据权利要求86至95中任一项所述的方法,其进一步包括:
基于所述报告确定包括所述突变肽、所述突变肽的前体、编码所述突变肽的核酸或所述治疗中表达所述突变肽的多种细胞中的至少一者;以及
制定所述治疗。
97.根据权利要求96所述的方法,其进一步包括:
用所述治疗来治疗受试者。
98.根据权利要求86至97中任一项所述的方法,其中通过对来自受试者的疾病样品进行测序来识别表征所述突变肽的所述肽序列,其中所述肽序列相对于对应的参考序列具有至少一种序列变异,并且其中基于所述报告为所述受试者设计治疗。
99.一种方法,其包括:
接收表征突变肽的肽序列,所述肽序列相对于对应的参考序列包含变体;
接收针对T细胞受体(TCR)识别的TCR序列;
使用基于注意力的机器学习模型内的不同处理路径来处理所述肽序列和所述TCR序列以生成输出,
其中所述输出提供关于与所述突变肽和所述TCR两者相关的免疫学活性的信息;以及
基于所述输出生成报告。
100.根据权利要求99所述的方法,其中所述处理包括:
经由所述基于注意力的机器学习模型内的肽处理路径来处理所述肽序列,所述肽处理路径包括第一嵌入块和第一注意力块;以及
经由所述基于注意力的机器学习模型内的TCR处理路径来处理所述TCR序列,所述TCR处理路径包括第二嵌入块和第二注意力块。
101.根据权利要求100所述的方法,其进一步包括:
接收针对主要组织相容性复合体(MHC)识别的MHC序列;并且
其中所述处理进一步包括:
经由所述基于注意力的机器学习模型内的MHC处理路径来处理所述MHC序列,所述MHC处理路径包括第三嵌入块和第三MHC块。
102.根据权利要求99至101中任一项所述的方法,其中所述免疫学活性包括免疫应答并且所述信息包括关于所述突变肽激发所述免疫应答的能力的预测。
103.根据权利要求99至102中任一项所述的方法,其中所述处理包括:
经由所述肽处理路径来生成所述肽序列的经转换的肽表示;
经由所述TCR处理路径来生成所述TCR序列的经转换的TCR表示;
使用所述经转换的肽表示和所述经转换的TCR表示来生成合成表示;
处理所述合成表示以生成所述输出。
104.根据权利要求99至103中任一项所述的方法,其中所述免疫学活性包括所述突变肽与所述MHC的结合,并且其中所述输出包括对应于所述突变肽是否与所述MHC结合的第一预测或对应于与所述结合相关联的亲和力的第二预测中的至少一者。
105.根据权利要求99至104中任一项所述的方法,其进一步包括:
基于所述报告确定包括所述突变肽作为免疫疗法的靶标。
106.根据权利要求105所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
107.根据权利要求99至106中任一项所述的方法,其进一步包括以下中的至少一者:
基于所述报告确定排除所述突变肽作为免疫疗法的靶标。
108.根据权利要求107所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。
109.根据权利要求99至108中任一项所述的方法,其进一步包括:
基于所述报告确定包括所述突变肽、所述突变肽的前体、编码所述突变肽的核酸或所述治疗中表达所述突变肽的多种细胞中的至少一者;以及
制定所述治疗。
110.根据权利要求109所述的方法,其进一步包括:
用所述治疗来治疗受试者。
111.根据权利要求99至110中任一项所述的方法,其中通过对来自受试者的疾病样品进行测序来识别表征所述突变肽的所述肽序列,其中所述肽序列相对于对应的参考序列具有至少一种序列变异,并且其中基于所述报告为所述受试者设计治疗。
112.一种系统,其包括:
一个或多个数据处理器;以及
非暂时性计算机可读存储介质,其包含指令,所述指令当在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行权利要求1至49、77至81、83、85至95和99至108中的任一项。
113.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包含指令,所述指令被配置为使一个或多个数据处理器执行权利要求1至49、77至81、83、85至95和99至108中的任一项。
CN202180046244.1A 2020-07-17 2021-07-16 基于注意力的神经网络用以预测肽结合、呈递和免疫原性 Pending CN115997254A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063053307P 2020-07-17 2020-07-17
US63/053,307 2020-07-17
PCT/US2021/042105 WO2022016125A1 (en) 2020-07-17 2021-07-16 Attention-based neural network to predict peptide binding, presentation, and immunogenicity

Publications (1)

Publication Number Publication Date
CN115997254A true CN115997254A (zh) 2023-04-21

Family

ID=77265296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180046244.1A Pending CN115997254A (zh) 2020-07-17 2021-07-16 基于注意力的神经网络用以预测肽结合、呈递和免疫原性

Country Status (11)

Country Link
US (1) US20220122690A1 (zh)
EP (1) EP4182924A1 (zh)
JP (1) JP2023534283A (zh)
KR (1) KR20230042048A (zh)
CN (1) CN115997254A (zh)
AU (1) AU2021308081A1 (zh)
BR (1) BR112023000827A2 (zh)
CA (1) CA3180799A1 (zh)
IL (1) IL299801A (zh)
MX (1) MX2023000618A (zh)
WO (1) WO2022016125A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469457A (zh) * 2023-06-14 2023-07-21 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116844637A (zh) * 2023-07-07 2023-10-03 北京分子之心科技有限公司 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备
CN117037902A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220028487A1 (en) * 2020-07-27 2022-01-27 Shenzhen Neocura Biotechnology Corporation Deep learning-based method for predicting binding affinity between human leukocyte antigens and peptides
US20220198323A1 (en) * 2020-12-22 2022-06-23 Collibra Nv System for preparing machine learning training data for use in evaluation of term definition quality
AU2022243572A1 (en) * 2021-03-25 2023-09-07 Genentech, Inc. Using neural networks to predict peptide immunogenicity
WO2023249440A1 (ko) * 2022-06-24 2023-12-28 지니너스 주식회사 펩타이드와 t 세포 수용체간의 결합을 추정하는 방법 및 장치
CN115273979A (zh) * 2022-07-04 2022-11-01 苏州大学 基于自注意力机制的单核苷酸无义突变致病性预测系统
WO2024044362A1 (en) * 2022-08-26 2024-02-29 Massachusetts Institute Of Technology End-to-end machine learning-driven design of proteins
WO2024072802A1 (en) * 2022-09-26 2024-04-04 Bertis Bioscience Incorporated Methods and systems for classification of a condition using mass spectrometry data
CN115512396B (zh) * 2022-11-01 2023-04-07 山东大学 一种基于深度神经网络的抗癌肽和抗菌肽预测方法及系统
WO2024107754A1 (en) 2022-11-15 2024-05-23 Genentech, Inc. Selection of diverse candidate peptides for peptide therapeutics
WO2024123699A1 (en) * 2022-12-05 2024-06-13 Genentech, Inc. Methods and systems for prediction of peptide presentation by major histocompatibility complex molecules
WO2024123142A1 (ko) * 2022-12-09 2024-06-13 주식회사 엘지경영개발원 Mhc 클래스 ii 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램
CN116309596B (zh) * 2023-05-23 2023-08-04 杭州华得森生物技术有限公司 基于微流控芯片的ctc细胞检测方法及其系统
CN117831789B (zh) * 2024-03-05 2024-05-28 北京市肿瘤防治研究所 癌症治疗反应预测系统及其控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10347710B4 (de) 2003-10-14 2006-03-30 Johannes-Gutenberg-Universität Mainz Rekombinante Impfstoffe und deren Verwendung
DE102005046490A1 (de) 2005-09-28 2007-03-29 Johannes-Gutenberg-Universität Mainz Modifikationen von RNA, die zu einer erhöhten Transkriptstabilität und Translationseffizienz führen
EP2281579A1 (en) 2009-08-05 2011-02-09 BioNTech AG Vaccine composition comprising 5'-Cap modified RNA
WO2013143555A1 (en) 2012-03-26 2013-10-03 Biontech Ag Rna formulation for immunotherapy
WO2017059902A1 (en) 2015-10-07 2017-04-13 Biontech Rna Pharmaceuticals Gmbh 3' utr sequences for stabilization of rna
EP3841585A4 (en) * 2018-08-20 2022-08-03 NantOmics, LLC METHODS AND SYSTEMS FOR IMPROVED PREDICTION OF THE MAJOR HISTOCOMPATIBILITY COMPLEX (MHC) PEPTIDE BINDING OF NEOEPITOPES USING A RECURRENT NEURAL NETWORK ENCODER AND ATTENTION WEIGHTING

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469457A (zh) * 2023-06-14 2023-07-21 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116469457B (zh) * 2023-06-14 2023-10-13 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116844637A (zh) * 2023-07-07 2023-10-03 北京分子之心科技有限公司 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备
CN116844637B (zh) * 2023-07-07 2024-02-09 北京分子之心科技有限公司 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备
CN117037902A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法

Also Published As

Publication number Publication date
EP4182924A1 (en) 2023-05-24
AU2021308081A1 (en) 2022-11-17
US20220122690A1 (en) 2022-04-21
IL299801A (en) 2023-03-01
MX2023000618A (es) 2023-04-10
KR20230042048A (ko) 2023-03-27
BR112023000827A2 (pt) 2023-02-07
CA3180799A1 (en) 2022-01-20
WO2022016125A1 (en) 2022-01-20
JP2023534283A (ja) 2023-08-08

Similar Documents

Publication Publication Date Title
US20220122690A1 (en) Attention-based neural network to predict peptide binding, presentation, and immunogenicity
CN110168105B (zh) 用于对t细胞受体进行测序的系统和方法及其用途
KR102424222B1 (ko) 통합된, 분자, 체학, 면역요법, 대사, 후성적, 및 임상 데이터베이스
US20170028044A1 (en) Compositions And Methods For Viral Cancer Neoepitopes
JP2020536553A5 (zh)
Bailey‐Kellogg et al. CHOPPI: A web tool for the analysis of immunogenicity risk from host cell proteins in CHO‐based protein production
Paul et al. Evaluating the immunogenicity of protein drugs by applying in vitro MHC binding data and the immune epitope database and analysis resource
CN113424264B (zh) 用于生成个性化癌症疫苗的癌症突变选择
US20220076783A1 (en) Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens
US20210388438A1 (en) Method for selecting neoepitopes
CN110706742A (zh) 泛癌种肿瘤新生抗原高通量预测方法及其应用
KR102278586B1 (ko) 신생항원을 스크리닝하는 방법, 시스템 및 그의 용도
Ebrahimi-Nik et al. Reversion analysis reveals the in vivo immunogenicity of a poorly MHC I-binding cancer neoepitope
CA3217623A1 (en) Compositions and method for optimized peptide vaccines using residue optimization
CN116580771A (zh) 预测肿瘤新抗原的方法和装置
US20240021274A1 (en) Using neural networks to predict peptide immunogenicity
WO2024123699A1 (en) Methods and systems for prediction of peptide presentation by major histocompatibility complex molecules
KR20240021885A (ko) Rna 돌연변이 발현의 정량화
Xia et al. Accurate neoantigen prediction depends on mutation position relative to patient allele-specific MHC anchor location
WO2024107754A1 (en) Selection of diverse candidate peptides for peptide therapeutics
Zhang et al. Epitope-anchored contrastive transfer learning for paired CD8+ T cell receptor-antigen recognition
Tabibpour et al. Putative novel outer membrane antigens multi-epitope DNA vaccine candidates identified by Immunoinformatic approaches to control Acinetobacter baumannii
WO2024036308A1 (en) Methods and systems for prediction of hla epitopes
Lee Immunoinformatic identification of CD8+ T-cell epitopes
CN113762416A (zh) 基于多模态深度编码的抗原免疫原性预测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination