CN116547761A

CN116547761A - 用于制备含新肽的疫苗试剂的工艺

Info

Publication number: CN116547761A
Application number: CN202180065398.5A
Authority: CN
Inventors: T·特罗勒; 克里斯蒂安·加尔德; M·S·克劳森; J·克里格鲁姆
Original assignee: Evonson Biotechnology Co ltd
Current assignee: Evonson Biotechnology Co ltd
Priority date: 2020-07-30
Filing date: 2021-07-30
Publication date: 2023-08-04

Abstract

本发明提供了一种用于识别用于靶向恶性肿瘤的主动免疫疗法的新表位的改进方法。该方法将表达产物的体细胞变体的识别与这种变体的平衡评估相结合：1)结合MHC的能力，2)诱导免疫应答的能力，3)肿瘤组织中的克隆覆盖率，和4)逃避免疫应答的能力。此外，该方法还补充了一种有目的地取消选择新表位的方法，该新表位可能诱导针对正常细胞的不期望的免疫应答。还公开了制备免疫原性组合物的方法、治疗癌症的方法以及识别新表位和新肽的计算机系统。

Description

用于制备含新肽的疫苗试剂的工艺

发明领域

本发明涉及癌症免疫疗法领域。特别是，本发明涉及用于设计和生产靶向新表位的抗癌疫苗的改进方法和手段，新表位是患者恶性细胞的表达产物。

发明背景

对患者恶性肿瘤的治疗传统上关注通过手术、放射疗法和/或化学疗法来根除/去除恶性组织，所述化学疗法在剂量方案中使用细胞毒性药物，其目的在于与杀死非恶性细胞相比优先杀死恶性细胞。

除了使用细胞毒性药物之外，最近的方法关注于靶向癌细胞中的特定生物标志物，以减少经典化学疗法产生的全身性副作用。靶向癌症相关抗原的单克隆抗体疗法已被证明在延长许多恶性肿瘤的预期寿命方面相当有效。尽管是成功的药物，但靶向癌症相关抗原或抗原的单克隆抗体在其本质上只能被开发成靶向已知的并出现在多个患者中的表达产物，这意味着绝大多数癌症特异性抗原不能通过这种类型的疗法来处理，因为大量癌症特异性抗原仅出现在一个单一患者的肿瘤中，参见下文。

早在20世纪50年代末，免疫监视理论就被提出并认为，淋巴细胞识别并清除表现出改变的抗原决定簇的自体细胞(包括癌细胞)，如今人们普遍接受免疫系统在很大程度上抑制了癌症发生。然而，免疫监视并不是100％有效的，开发其中寻求提高/刺激免疫系统根除癌细胞的能力的癌症疗法是一项持续的任务。

一种方法是诱导针对癌症相关抗原的免疫，但即使这种方法可能有前途，它也具有与抗体疗法相同的缺点，即只能针对有限数量的抗原。

许多(如果不是全部的话)肿瘤表达突变。这些突变可能产生新的可靶向的抗原(新抗原)，如果有可能在临床相关时间范围内识别新抗原及其抗原决定簇(新表位)，则新抗原可能用于特异性T细胞免疫疗法。由于利用现有技术可以对细胞的基因组进行全序列分析，并分析改变的或新的表达产物的存在，因此可能设计基于新抗原的个性化疫苗。

因此，存在多个生物信息管道，用于从患者衍生的测序数据预测/识别新表位(参见Hundal,J.et al.2016；Bjerregaard,A.M.et al.2017；Bais,P.et al.2017；Rubinsteyn,A.et al.2017；Schenck,R.O.et al.2019)。在选择或排序新表位时，每个管道都会考虑不同的特征集合，这强调了新表位选择问题仍然没有解决。

发明目的

本发明实施方案的目的是为癌症患者中免疫原性表位的选择提供改进的方法和手段，所述免疫原性表位可被主动免疫疗法靶向。

发明简述

本发明基于发明者的观察，即为了识别新表位有效性的关键特征，必须了解细胞内相关的潜在机制。

细胞通过在基因组中积累体细胞变体而癌变，导致它们不受控制地生长。这些变体对肿瘤细胞是特异性的，因此是有吸引力的靶标，特别是对免疫疗法。体细胞变体的准确识别是新表位识别的关键步骤。不正确的体细胞变体调用可以导致i)选择在肿瘤细胞中不存在的肽序列或ii)选择了健康细胞中也存在的肽序列。

表达基因中的体细胞变体被转录并翻译成肿瘤特异性抗原。

这些抗原随后通过抗原呈递途径进行处理，在肿瘤细胞表面形成由MHC分子作为配体呈现的新表位。MHC在细胞表面呈现新表位是引发T细胞应答的先决条件。MHC结合和呈递是抗原呈递中最具限制性的步骤之一，因此是新表位有效性的基本特征。

虽然MHC呈递是引发免疫应答所必需的，但它本身是不够的。为了诱导抗肿瘤作用，新表位衍生的MHC配体也必须具有免疫原性，例如通过被细胞毒性CD8⁺T细胞所识别。

肿瘤是极其异构的，并表现出克隆变异，这意味着肿瘤的不同亚群中的癌细胞不一定包含体细胞基因变体的相同集合。存在于所有肿瘤细胞中的体细胞变体被定义为“克隆”，而所有其他变体则被定义为“亚克隆”。因此，由亚克隆产生的新表位将只存在于肿瘤细胞的子集中。靶向克隆性新表位具有允许激活的T细胞完全消除肿瘤而不是仅靶向肿瘤细胞的子集的临床益处。

由于新表位治疗产生的免疫压力，肿瘤细胞有一个积极的选择来“学习”避免表达的新表位。为了对抗这种情况，可以优先考虑在必要基因或致癌驱动因素中发现的新表位。这确保了试图下调带有新表位基因的肿瘤细胞要么无法存活，要么不是恶性的。

因此，在第一方面，本发明涉及一种用于识别衍生自个体中恶性肿瘤的独特氨基酸改变核苷酸突变集合的方法，所述方法包括：

a)将来自个体的恶性肿瘤的细胞和来自个体的正常细胞的遗传序列信息输入到至少2个不同的突变调用模型中，每个模型最终生成已识别的核苷酸突变集合和与该识别的核苷酸突变相关联的至少一个第一特征，并可选地将由所述遗传信息生成的至少一个第二特征附加到每个识别的核苷酸突变，其中至少一个第一特征和至少一个第二特征中的每一个在必要时转换为值≥0和≤1，并将每个识别的核苷酸突变的值≥0和≤1传递给机器学习模型，例如人工神经网络，其已使用验证的突变核苷酸序列进行训练，并且对每个识别的核苷酸突变计算其是对恶性肿瘤具有特异性的核苷酸突变的概率，或者

b)将来自个体的恶性肿瘤的细胞和来自个体的正常细胞的遗传序列信息输入到机器学习模型中，例如人工神经网络，其中机器学习模型已使用验证的突变核苷酸序列进行训练，并且其中机器学习模型对每个识别的突变核苷酸计算其为对恶性肿瘤具有特异性的核苷酸突变的概率；和

从机器学习模型输出对恶性肿瘤具有特异性的特定核苷酸突变集合。

在第二方面，本发明涉及一种用于识别至少一种氨基酸序列的方法，所述氨基酸序列构成推定的免疫原性新肽，所述方法包括识别根据第一方面的独特氨基酸改变核苷酸突变集合，并随后生成推定的新肽氨基酸序列，其是来自恶性肿瘤的蛋白质性质表达产物的子序列并且由核酸序列所编码，其包括集合的至少一个特定氨基酸改变核苷酸突变，对推定的新肽分析在个体中MHC配体的存在，其中所述MHC配体必须在其各自的氨基酸序列中包含由包括至少一个独特氨基酸改变核苷酸突变的核苷酸三联体所编码的氨基酸残基，并且如果分析这种MHC配体的存在导致阳性结果，将每个推定的新肽识别为推定的免疫原性新肽。

在第三方面，本发明涉及一种用于识别含有对患者施用是安全的肽的新表位的方法，其中每个新表位由包含至少一个改变核苷酸突变的氨基酸的核苷酸序列编码，所述方法包括对来自患者中正常细胞的表达产物或蛋白质组测试任何参考氨基酸序列的存在，其中

-所述氨基酸序列存在于来自患者并包含新表位的蛋白质性质表达产物中，和

-所述氨基酸序列具有至少7个氨基酸残基的长度(实际上限对于MHC I型是11个氨基酸残基，对于II型上限是约20个氨基酸)，和

-所述氨基酸序列包括改变至少一个氨基酸改变突变的氨基酸作为至少7个氨基酸之一；以及

-如果测试为阴性，则将新表位识别为对施用是安全的。

在第四方面，本发明涉及一种用于确定包含新表位的免疫原性新肽的组成或编码所述免疫原性新肽的核酸的组成的方法，其中免疫原性新肽衍生自恶性肿瘤，所述方法包括为推定的免疫原性新肽集合中的每一种分配概率得分，定义为A、B、C、D和E中至少两种的乘积，其中

A、B、C、D和E各为概率得分≥0和≤1并且其中

A是推定的免疫原性新肽的氨基酸序列包含由核苷酸序列编码的氨基酸的概率，所述核苷酸序列包含在本发明第一方面中识别的对恶性肿瘤具有特异性的独特氨基酸改变核苷酸突变，

B是推定的免疫原性新肽的氨基酸序列包含由核苷酸序列编码的氨基酸的概率，所述核苷酸序列包含在本发明第一方面中确定的在恶性肿瘤的所有细胞中存在的独特氨基酸改变核苷酸突变，

C是推定的免疫原性新肽在衍生恶性肿瘤的个体中包含MHC的配体的概率，如本发明第二方面中所确定的，

D是新肽在衍生恶性肿瘤的个体中具有免疫原性的概率，如本发明第二方面中所确定的；和

E是在本发明第二方面中所确定的新肽对免疫逃避具有恢复力的概率，

以及通过从组成中排除所述乘积不超过预定义阈值的任何新肽或核酸来确定组成，例如排除所述乘积不超过0.5的那些肽。

在第五方面，本发明涉及一种用于制备适合患有恶性肿瘤的患者的免疫原性组合物的方法，所述方法包括对来自患者中恶性细胞的DNA和RNA以及来自患者中正常细胞的至少DNA进行测序，以识别新肽集合，其包含衍生自所述恶性细胞的新表位，并通过将药学上可接受的载体或稀释剂与以下混合来制备免疫原性组合物：

1)至少1种融合蛋白，所述融合蛋白包含来自集合的新肽但排除来自集合的当通过第三方面的方法评估时对施用不安全的新肽，

2)来自集合的多个新肽，但排除来自集合的当通过第三方面的方法评估时对施用不安全的新肽，或

3)至少一种核酸，其编码1)中的至少一种融合构建体或2)中的多种新肽。

在第六方面，本发明涉及一种用于制备适合于患有恶性肿瘤的患者的免疫原性组合物的方法，所述方法包括对来自患者中恶性细胞的DNA和/或RNA以及至少来自患者中正常细胞的DNA进行测序，以识别新肽集合，所述新肽集合包含衍生自恶性细胞的新表位，并且随后通过将药学上可接受的载体或稀释剂与以下混合来制备免疫原性组合物：

i)至少1种融合蛋白，所述融合蛋白包含来自集合的新肽但排除来自集合的不是根据第一方面确定的组合物的一部分的新肽，

ii)来自集合的不是根据第五方面确定的组合物的一部分的多个新肽，或

iii)至少一种核酸，其编码i)中的至少一种融合构建体或ii)中的多种新肽。

在第七方面，本发明涉及用于治疗患有恶性肿瘤疾病的患者的方法，所述方法包括施用有效量的根据本发明第六方面的方法制备的免疫原性组合物。

在第八方面，本发明涉及计算机或计算机系统，包括

a)用于输入的装置和用于存储的装置，用于核酸序列，

b)用于输入的装置和用于存储的装置，用于a中输入的每个核酸序列的限定符，所述限定符指示输入的核酸序列是来源于恶性细胞还是非恶性细胞，

c)适于生成和存储由a中的装置输入并存储的核酸序列所编码的表达产物的氨基酸序列的可执行代码，并且其具有表明恶性细胞来源的限定符，

d)适于生成和存储由a中的装置输入和存储的核酸序列所编码的表达产物的氨基酸序列的可执行代码，并且其具有表明非恶性细胞来源的限定符，

e)适于识别氨基酸序列构成由c中的可执行代码生成和存储的序列或是其一部分、而不是构成由d中可执行代码生成和存储的序列或是其一部分的可执行代码，

f)用于标记和/或存储由e中的可执行代码识别的每个氨基酸序列的可执行代码，包括标记和/或存储识别相对于由d中的可执行代码生成和存储的序列中存在的最相似氨基酸序列的改变的氨基酸残基的信息，

g)可执行代码，其针对由f中的可执行代码标记或存储的每个氨基酸序列，详尽地比较了由c中的可执行代码输入和存储的那些氨基酸序列，其

-都有相同的长度X，其中X是≥7的整数，

-与f中的可执行代码标记和/或存储的氨基酸序列的每个重叠部分，以及

-每个都包括改变的氨基酸残基，其信息被标记和/或存储在f中，其中氨基酸序列由d中的可执行代码输入并存储，

h)用于输出和/或存储由f中的可执行代码标记或存储的氨基酸序列、而排除g中的可执行代码导致至少一个正比较的那些氨基酸序列的可执行代码。

附图说明

图1：Venn图显示了由两个最先进的变体调用方Mutect2和Strelka调用的体细胞变体之间的重叠，以及本发明的体细胞变体调用模型。

数据来源：(Shi,W.et al.2018)。左：病例3生物反应器A。右：病例5生物反应器A。

图2：图显示配体得分和概率之间的转换函数。

图3：图显示过滤体细胞变体调用的实例。

图4：图显示向特征概率变换添加权重的实例。

图5：HLA配体可能性转化和变体同种型表达的图示。

图6：方框图，说明了1)根据本发明评估的新表位质量和2)接种恶性黑色素瘤患者表现出的临床应答之间的关系。

X轴上的五组代表基于所有概率A-D(体细胞突变概率、克隆性概率、MHC配体概率和免疫原性概率)的联合新表位质量评估，以及基于个体概率A-D的新表位品质评估。

图7：方框图，说明了本发明评估的高质量新表位的频率与接种疫苗的恶性黑色素瘤患者的临床反应之间的关系。

发明内容

定义

“癌症特异性”抗原是在个体的非恶性体细胞中不作为表达产物出现，但在个体的癌细胞中作为表达产物出现的抗原。这与“癌症相关联的”抗原相反，后者在正常体细胞中也出现，虽然丰度低，但在至少一些肿瘤细胞中以较高水平存在。

术语“佐剂”具有其在疫苗技术领域中的通常含义，即1)本身不能引发针对疫苗的免疫原的特异性免疫应答，但2)仍能增强针对免疫原的免疫应答的物质或物质组合物。或者，换句话说，用佐剂单独的疫苗接种不能提供针对免疫原的免疫应答，用免疫原的疫苗接种可能产生或可能不产生针对免疫原的免疫应答，但是用免疫原和佐剂的组合疫苗接种诱导了针对免疫原的免疫应答，该免疫应答强于由免疫原单独诱导的免疫应答。

“新表位”是抗原决定簇(通常是MHC I型或II型限制性表位)，由于缺乏编码新表位的基因，其不作为个体中正常体细胞的表达产物存在，但其作为同一个体中突变细胞(诸如癌细胞)的表达产物存在。因此，从免疫学的角度来看，新表位确实是非自体的，尽管其是自体来源的，因此其可以被表征为个体中的肿瘤特异性抗原，其中其构成表达产物。由于是非自身的，新表位具有能够在个体中引发特异性适应性免疫应答的潜力，其中引发的免疫应答对含有新表位的抗原和细胞是特异性的。另一方面，新表位对个体而言是特异性的，因为相同的新表位在其他个体中成为表达产物的可能性极小。因此，若干特征将新表位与例如肿瘤特异性抗原的表位形成对比：后者将通常存在于多种相同类型的癌症中(因为它们可以是活化癌基因的表达产物)，并且/或者由于一种或多种相关基因在癌细胞中的过表达，它们将存在于非恶性细胞中，尽管数量很少。

“新肽”是在其序列中包含本文定义的新表位的肽(即多至约50个氨基酸残基的聚氨基酸)。新肽通常是“天然的”，即新肽的完整氨基酸序列构成可从个体中分离的表达产物的片段，但是新肽也可以是“人工的”，意思是其由新表位的序列和1或2个附加的氨基酸序列构成，所述附加的氨基酸序列中的至少一个不与新表位天然相关联。在后一种情况下，附加的氨基酸序列可以只充当新表位的运载体，或者甚至可以改善新表位的免疫原性(例如，通过促进抗原呈递细胞对新肽的加工，改善新肽的生物半衰期，或者改变溶解性)。

术语“氨基酸序列”是其中由肽键连接的氨基酸残基在肽和蛋白质链中的排列顺序。序列通常按N末端至C末端方向列出。

“免疫原性运载体”是免疫原或半抗原可以偶联以便增强针对免疫原/半抗原的免疫应答或使得能够引发针对免疫原/半抗原的免疫应答的分子或部分。免疫原性运载体在典型情况下是相对大的分子(例如破伤风类毒素、KLH、白喉类毒素等)，其可与免疫原/半抗原融合或缀合，所述免疫原/半抗原本身并没有足够的免疫原性——通常，免疫原性运载体能够引发针对由免疫原和免疫原性运载体构成的组合物质的强T辅助淋巴细胞应答，并且这进而提供了针对B淋巴细胞和细胞毒性淋巴细胞的免疫原的改善应答。最近，大的运载体分子在一定程度上被所谓的混杂T-辅助细胞表位(即被群体中大部分HLA单倍型识别并引发T-辅助细胞淋巴细胞应答的较短肽)所取代。

“T-辅助淋巴细胞应答”是基于肽引发的免疫应答，所述肽能够与抗原呈递细胞中的MHC II型分子(例如HLA II型分子)结合，并且由于T-细胞受体识别肽与呈递肽的MHC II型分子之间的复合物而刺激动物物种中的T-辅助淋巴细胞。

“免疫原”是一种能够在其免疫系统面对免疫原的宿主中诱导适应性免疫应答的物质。因此，免疫原是更大组“抗原”的子集，其为可被免疫系统特异性识别(例如，当被抗体结合时，或者可替代地，当与MHC分子结合的抗原片段被T细胞受体识别时)，但不一定能够诱导免疫的物质，然而，抗原总是能够引发免疫，这意味着对抗原具有已建立的记忆免疫的宿主将产生针对抗原的特异性免疫应答。

“半抗原”是小分子，其既不能诱导也不能引发免疫应答，但是如果与免疫原性运载体缀合，则当免疫系统面对半抗原运载体缀合物时，可以诱导识别半抗原的抗体或TCR。

“适应性免疫应答”是响应于面对抗原或免疫原的免疫应答，其中免疫应答对抗原/免疫原的抗原决定簇是特异性的–适应性免疫应答的实例是抗原特异性抗体产生的诱导或者T辅助淋巴细胞或细胞毒性淋巴细胞的抗原特异性诱导/活化。

“保护性、适应性免疫应答”是在受试者中作为对抗原免疫(人工或天然)的反应诱导的抗原特异性免疫应答，其中免疫应答能够保护受试者针对随后的抗原或包括抗原的病理学相关因子的攻击。通常，预防性疫苗接种旨在建立针对一种或多种病原体的保护性适应性免疫应答。

“免疫系统的刺激”意指物质或物质的组合物表现出一般的、非特异性的免疫刺激作用。许多佐剂和推定的佐剂(诸如某些细胞因子)都共有刺激免疫系统的能力。使用免疫刺激剂的结果是增强了免疫系统的“警觉性”，这意味着与单独使用免疫原相比，用免疫原同时或随后的免疫诱导了显著更有效的免疫应答。

术语“多肽”在本说明书中旨在指2至50个氨基酸残基的短肽、50至100个氨基酸残基的寡肽和超过100个氨基酸残基的多肽。此外，该术语还旨在包括蛋白质，即包含至少一种多肽的功能性生物分子；当包含至少两种多肽时，它们可以形成复合物，可以共价连接，或者可以非共价连接。蛋白质中的多肽可以被糖基化并且/或者被脂质化并且/或者包含辅基。

本发明的具体实施方案

第一方面

本发明第一方面的方法提供了改进的“突变调用”，即在处理恶性组织/细胞与正常组织/细胞之间遗传差异的识别方面的改进。这方面的核心是概率与氨基酸序列一起输出，而不是仅仅将一个序列识别为新肽或新表位的二进制输出。进而，这允许通过简单地选择最相关的肽来方便地确定输出的优先级，而不是被迫考虑所有被确定为同样好的候选疫苗的肽。

在执行选项a的情况下，如果尚未将第一和第二特征转换成概率值，则将其转换为概率值。在执行选项b的情况下，可以向机器学习模型供给与选项a中使用的至少第二特征相对应的数据。

无论如何，优选的是输出的对恶性肿瘤具有特异性的独特核苷酸突变是以下的集合：

-相对于计算的概率是优先的，和/或

-与它们各自计算的概率配对，和/或

-都有计算的概率，其超过阈值，例如阈值为0.5(50％)。

因此，后一种可能性筛选出对于所有实际目的而言必须被视为与疫苗剂无关的肽，而剩余的肽(优先排序和/或与概率配对)则需要进一步评估/选择。

至少一个第一特征和/或第二特征通常选自由肿瘤变体覆盖率、正常变体覆盖率、肿瘤变体等位基因频率、正常变体等位基因频率、肿瘤读取映射质量、正常读取映射质量、肿瘤碱基质量和正常碱基质量组成的组，但是任何可测量的质量都可能对发现的保真度产生影响，即氨基酸序列是对癌症具有特异性的新表位，原则上都可以成为评估信息的一部分。

可以识别/选择核苷酸突变的一个重要特征是“克隆性状态”，即突变在恶性肿瘤的所有细胞中或仅在一个或几个克隆系中存在的程度。不用说，仅在有限数量的恶性细胞中发现的突变无法产生针对肿瘤中的所有细胞的免疫应答。因此，靶向癌症的任何疫苗的组合物优选地包括来自核苷酸突变序列的表达产物，这些核苷酸突变序列一起针对癌症中的所有恶性细胞。因此，第一方面优选地要求对恶性肿瘤具有特异性的独特核苷酸突变集合中的每一个核苷酸突变评估克隆性状态，因为这允许靶向所有恶性细胞的疫苗的合理组成。因此，利用克隆性状态对列表进行优先排序，以便主要包括对恶性肿瘤具有特异性的独特核苷酸突变，这些突变存在于恶性肿瘤的大部分细胞中；或者至少在一起时靶向恶性细胞群中最大数量的克隆。

第二方面

分析MHC配体的存在优选地包括将MHC结合的预测与蛋白质表达产物的表达水平得分相整合，以避免靶向表达水平非常低的蛋白质。典型地，从RNA表达水平计算表达水平得分，并且在大多数实际实施方案中，RNA表达水平是氨基酸改变核苷酸突变的RNA表达水平。

在量化编码新表位的表达基因的表达水平时，重要的是要记住，大多数基因在癌症细胞中存在至少2个拷贝(等位基因)，并且这些等位基因可能不一定以相等的数量表达。大多数新表位来自癌症细胞基因组的随机突变。因此，对于许多(或大多数)新表位，只有子集(通常只有1个)的等位基因包含导致新表位的氨基酸改变体细胞突变。

用于量化RNA表达水平的标准最先进工具，如RSEM，不能区分同一基因的多个等位基因。然而，可以通过以下多种方式计算突变特异性表达水平：

1)可以计算每个基因组/转录组位置的表达水平，而不是计算每个基因或转录基的表达水平

2)可以通过RNA测序数据中观察到的体细胞突变的变体等位基因频率(VAF)，通过DNA测序数据中观测到的VAF标准化，来修改每个基因/转录物的表达水平：

使用这些方法来量化表达水平提供了表达水平得分准确的进一步确定，从而最小化了不相关蛋白被靶向的风险。

因此，在本发明第二方面的实施方案中，每个基因组/转录组位置计算表达水平得分，或者其中通过调整VAF_RNA/VAF_DNA的比率来修改表达水平得分(其中VAF表示包含核酸序列的变体等位基因的频率)，其包含在本发明第一方面中讨论的组的不同氨基酸改变核苷酸突变中的至少一个。

除了MHC结合，确定/评估推定的免疫原性新肽的免疫原性也很有价值。在实践中，这可以通过以下任何一个或多个步骤完成：当推定的免疫原性新肽是肽MHC复合物的一部分时，评估T细胞受体结合氨基酸残基的存在；评估MHC和推定的免疫原性新肽之间的复合物的稳定性(为此，可以使用本申请人当前未公开的欧洲专利申请20185772.9和20180876.3中公开的稳定性测定方法)，评估推定的免疫原性新肽和个体的自体肽之间的相似性(应避免相似性，也参见本文的第三方面)；评估MHC和推定的免疫原性新肽的一方面复合物与MHC和个体的自身肽的另一方面复合物之间的相似性；并通过卷积神经网络架构进行评估，以解锁影响免疫原性的进一步序列特征。

然而，需要考虑的另一个重要特征是作为靶标的长期相关性。由衍生自蛋白质的肽免疫原“对未来突变是开放的”，从而可能在疫苗中变得无关紧要，因为预期的靶标可以逃避引起的免疫应答。因此，每个推定的免疫原性新肽也优选地评估其对免疫逃避的恢复力。对恢复力的评估可能包括确定推定的免疫原性新肽是否来自致癌驱动突变和/或位于细胞生存所必需的表达产物中和/或仅与被肿瘤丢失或抑制的HLA相关——在前两种情况中，恶性细胞中同一蛋白质的进一步突变将对肿瘤有害，这意味着靶向这种蛋白质的新肽更有可能作为免疫原保持相关性。在后一种情况下，情况正好相反：即使识别的新肽满足成为优秀免疫原的所有标准，但它在患者中无效，因为来自相应靶标的肽没有在MHC环境中存在。事实证明，这与恶性细胞的HLA类型也有很高的相关性，以确保新肽包括在患者中实际存在的新表位。

第三方面

这方面的具体目标是提供表现出高度安全性的新肽。这一方面可以与第二方面的方法相组合，因为它只是旨在减少候选疫苗肽的最终数量，以避免潜在的有害肽。

当新表位被识别出来时，在最简单的情况下，相对于从正常细胞中的同一蛋白质中切除的肽只包含一个氨基酸的变化。在8个氨基酸残基的新表位的情况下，肽可以描述为:

ABCXEFGHI–其中所有字母都代表某些氨基酸，其中X是突变的氨基酸。

在癌症细胞中，这种肽将是较大蛋白质的一部分，例如具有部分序列的蛋白质：

…KLMNABCXEFGHIST…

为了确保ABDXEFGHI诱导的免疫应答没有潜在靶向正常细胞，将正常细胞的表达产物/转录组与来自恶性肿瘤的所有8个氨基酸序列进行比较，包括X:KLMNABCX、LMNABCXE、MNABCXEF、NABCXEFG、ABCXEFGH、BCXEFGHI、CXEFGHIS和XEFGHIST。只有在正常细胞中没有发现这些序列，肽ABCXEFGH才会被认为是安全的。

根据表位的长度和类型(I型或II型)，至少7个氨基酸可以是8、9、10、11、12、13、14、15或甚至更高数量的氨基酸。然而，从安全的角度来看，较低的氨基酸量将是优选的，因为这将排除最大数量的潜在有害疫苗剂。

第四方面

本方面旨在提供一种可重复的方法用于合成包含新表位的疫苗，并利用方面1-3的方法。简而言之，通过始终如一地利用每种特征的概率来考虑每种候选肽，可以实现对给患者施用的最终产品的选择集成了几乎所有可以影响每种肽的适用性的可用知识。

虽然一个优选实施方案要求计算所有A-E的概率乘积，但A、B、C、D和E中至少2个的乘积通常可以选自A和B、A和C、A和D、A和E、B和C、B和D、B和E、C和D、C和E、D和E、A和B和C、A和B和D、A和B和E、A和C和D、A和C和E、A和D和E、B和C和D、B和C和E、B和D和E、C和D和E、A和B和C和D、A和B和C和E、A和B和D和E、A和C和D和E、B和C和D和E、以及A和B和C和D和E的乘积组。

为了最终得出疫苗剂中包括的肽的组合物，组合物中的新肽优选地是那些具有概率得分的肽，其在前50名中(即在绝对数上，例如前49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11或10)，和/或具有概率得分在前50％中，例如前45％、前40％、前35％、前30％、前25％、前20％、前15％和前10％。

根据上述内容，优选地第四方面的方法与第三方面的方法相组合，以从最终组合物或试剂中排除潜在有害的肽。

第五和第六方面

这两个方面都涉及疫苗组合物的实际制备，以第三方面或第四方面的方法为起点。在这两种情况下，制备的免疫原性组合物将包括本领域已知的疫苗的标准组分。因此，根据本发明制备的组合物通常包含免疫佐剂，其通常是铝基佐剂或以下所述的其他佐剂之一：

增强免疫原性组合物有效性的佐剂包括但不限于：(1)铝盐(明矾)，如氢氧化铝、磷酸铝、硫酸铝等；(2)水包油乳液配方(含或不含其他特异性免疫刺激剂，如胞壁酰肽(见下文)或细菌细胞壁成分)，例如(a)MF59(WO 90/14837；疫苗设计中的第10章：亚单位和佐剂方法，Powell&Newman编辑，Plenum Press 1995)，含有5％鲨烯、0.5％吐温80和0.5％Span 85(可选地含有各种量的MTP-PE，尽管不是必需的)，使用微流器，如110Y型微流器(Microfluidics，Newton，MA)配制成亚微米颗粒，(b)SAF，含有10％的鲨烷、0.4％吐温80、5％pluronic封端聚合物L121和thr-MDP，或者微流体化为亚微米乳液，或者涡旋化以生成更大粒径的乳液，以及(c)Ribi佐剂系统(RAS)，(Ribi Immunochem，Hamilton，MT)，含有2％鲨烯、0.2％吐温80和一种或多种细菌细胞壁成分，所述细菌细胞壁组分选自由单磷酰脂质A(MPL)、海藻糖二元酸酯(TDM)和细胞壁骨架(CWS)，组成的组，优选MPL+CWS(DetoxTM)；(3)皂苷佐剂，如Stimulon^TM(Cambridge Bioscience,Worcester,MA)或由此产生的颗粒，例如ISCOMs(免疫刺激复合物)；(4)完全弗氏佐剂(CFA)和不完全弗氏辅助剂(IFA)；(5)细胞因子，例如白介素(例如IL-1、IL-2、IL-4、IL-5、IL-6、IL-7、IL-12等)、干扰素(例如γ干扰素)、巨噬细胞集落刺激因子(M-CSF)、肿瘤坏死因子(TNF)等；和(6)用作免疫刺激剂以增强组合物有效性的其他物质。

如上所述，胞壁酰肽包括但不限于N-乙酰基-胞壁酰-L-赖氨酰-D-异谷氨酰胺(thr-MDP)、N-乙酰基-去甲胞壁酰-L-丙氨酸-D-异谷氨酰(nor-MDP)，N-乙酰基胞壁酰-L-丙氨酸-D-异谷氨酰-L-丙氨酸-2”-2'-二棕榈酰-sn-甘油-3-羟基磷酰氧基)-乙胺(MTP-PE)等。

免疫原性组合物(如免疫抗原或免疫原或多肽或蛋白质或核酸、药学上可接受的运载体(和/或稀释剂和/或媒介物)和佐剂)通常将包含稀释剂，如水、生理盐水、甘油、乙醇等。此外，辅助物质，如润湿剂或乳化剂、pH缓冲物质等，可存在于此类媒介物中。

因此，药物组合物可以包含药学上可接受的运载体。术语“药学上可接受的运载体”是指用于施用治疗剂，如抗体或多肽、基因和其他治疗剂的运载体。该术语是指任何药物运载体，其本身不诱导产生对接受组合物的个体有害的抗体，并且可以在没有不适当毒性的情况下施用。合适的载体可以是大的、代谢缓慢的大分子，如蛋白质、多糖、聚乳酸、聚乙醇酸、聚合氨基酸、氨基酸共聚物和无活性的病毒颗粒。这种运载体为本领域一般技术人员所熟知。

其中可使用药学上可接受的盐，例如，矿物酸盐，如盐酸盐、氢溴化物、磷酸盐、硫酸盐等；和有机酸的盐，如醋酸盐、丙酸盐、丙酸盐、苯甲酸盐等。在Remington’sPharmaceutical Sciences(Mack Pub.Co.,N.J.1991)中对药学上可接受的赋形剂进行了彻底的讨论。

通常，将免疫原性组合物制备为注射剂，或作为液体溶液或悬浮液；也可以制备适合于在注射前在液体媒介物中溶解或悬浮的固体形式。如上面在药学上可接受的运载体下所讨论的，制备物也可以乳化或包封在脂质体中以增强辅助作用。

用作疫苗的免疫原组合物根据需要包含免疫有效量的相关免疫原以及任何其他上述组分。所谓“免疫有效量”，是指以单次剂量或作为一系列药物的一部分，向个人施用该量，对治疗或预防有效。该量取决于待治疗个体的健康和身体状况、待治疗个体(例如非人灵长类、灵长类等)的分类群、个体免疫系统合成抗体或通常产生免疫应答的能力、所需的保护程度、疫苗的配方、治疗医生对医疗状况的评估以及其他相关因素。预计免疫原的量将下降到相对较宽的范围内，可通过常规试验确定。然而，出于蛋白质疫苗接种的目的，每次免疫施用的量通常在0.5μg至500mg之间的范围(但通常不高于5,000μg)，并且通常在10至200μg之间的范围。

免疫原性组合物通常经胃肠外施用，例如通过注射，皮下、肌肉内或经皮/经皮给药(参见例如W0 98/20734)。适用于其他施用模式的其他制剂包括口服、肺和鼻制剂、栓剂和透皮应用。在核酸疫苗接种和抗体治疗的情况下，也可采用静脉或动脉内途径。

剂量治疗可以是单剂量方案或多剂量方案，例如在初始-加强剂量方案或在爆发方案中。疫苗可根据方便或需要与其他免疫调节剂联合施用。

第七方面

此外，该方面遵循本领域众所周知的标准程序；当如上所述确定了疫苗的精确组成和形式时，本发明通常依赖于医疗工作者所熟知的用于诱导免疫和随访患者的方法。这还需要疫苗的给药(在基于蛋白质/肽的疫苗的情况下，通常需要每个剂量0.5μg至500μg的施用，通常提供至少一个初始剂量，然后进行一次或多次加强免疫。

第八方面

本方面涉及实现第1-4方面中描述的方法的计算机或计算机系统。

用于输入核酸序列和/或识别物的装置通常选自用于将数据输入计算机存储器或存储介质的任何装置：原则上，连接到计算机的简单键盘可用于此目的，但通常核酸序列数据将通过连接的磁盘驱动器或其他数据运载体(记忆棒、存储卡、网络相关存储)或通过网络或互联网连接以及用于文件传输的合适协议(FTP，FTPS，SFTP，CSP，HTTP或HTTPS，AS2、3-和-4或PeSIT)从外部数据运载体或数据源读取。同样，用于存储核酸序列的装置可以是任何方便的数据运载体或存储介质(硬盘驱动器、固态硬盘驱动器、记忆棒)，但也可以直接存储在计算机或计算机系统的存储器(RAM)中。存储格式可以是任何方便的格式，例如关系数据库(面向行和面向列)、对象数据库中的记录形式，也可以是文本文件中的条目(例如，逗号分隔的值或合适的XML格式，或简单的文件系统或其他类似的根和树结构)。

计算机或计算机系统中的可执行代码能够访问连接的输入设备和存储介质以及计算机工作存储器，执行编码氨基酸序列、分类和比较氨基酸序列等的必要操作。

与本发明有关的进一步公开

体细胞变体的识别

生殖系突变、肿瘤样本中正常细胞的污染以及来自测序机器的噪音使得体细胞突变的识别变得困难。尽管如此，体细胞突变或体细胞变体的识别是一个广泛研究的问题，并且已经开发了用于调用体细胞变体的一些工具。Mutect(Cibulskis,K.et al.2013)、Mutect2(Cibulskis,K.et al.2013)、Strelka(Kim,S.et al.2018)、Varscan2(Koboldt,D.C.et al.2012)、SomaticSniper(Larson,D.E.et al.2012)、LoFreq*(Wilm,A.etal.2012)、SNVSNiffer(Liu,Y.et al.2016)和Shimmer(Hansen,N.F.et al.2013)构成但很少(Xu et al.2018)。然而，由于问题的复杂性，尚未找到完美的解决方案。

本发明提出了一种体细胞变体调用模型，其利用机器学习模型将“真实体细胞变体”的概率分配给潜在体细胞变体列表。该列表是由四个现有变体调用器(Mutect2、Strelka、SNVSNiffer和LoFreq*)之一调用的变体集合生成的。然而，本发明并不局限于这些变体调用器的使用，因为体细胞变体调用模型可以与任何变体调用器集合组合使用，包括仅基于基因组特征而没有来自变体调用器的特征进行训练的模型。

对于每一个潜在的体细胞变体，来自基因组比对的特征与体细胞变体调用器的特征一起提取。这些基因组比对特征包括但不限于肿瘤变体覆盖率(即支持该变体的读数)、正常变体覆盖率、肿瘤变体等位基因频率(VAF)、正常VAF、肿瘤读取映射质量、正常读取映射质量、肿瘤碱基质量和正常碱基质量等。可以将其他特性添加到集合中以潜在地提高性能。

特定于变量调用器的特性也会在可用的地方提取。不同的变体调用器将产生不同的特征信息，但通常会包括失败/通过描述符以及每个体细胞变体的计算概率或得分值。

每个特征被转换为≥0和≤1的值。本发明的方法使用具有预定义的最小值和最大值的线性转换，然而可以使用其他函数来转换输入特征。转换的选择将取决于机器学习模型的选择，以实现性能的最大化。

转换后的特征集被传递给机器学习模型，其调用体细胞变体。例如，这可以是输出0和1之间的值的人工神经网络或梯度增强机。使用单独的训练集合来校准模型，以将输出转换为表示给定突变是真实体细胞变体的概率的概率(参见实施例1)。

应用当前体细胞变体调用模型的影响如图1所示。该模型已经被调优，在调用变体方面更加精确和特异性。图1显示了从Shi,W.etal.2018(病例3和5)获得的全外显子组测序的两个实例，在Strelka和Mutect2中进行突变调用例程。“病例3”数据提供了Strelka识别的361个体细胞变体，Mutect 2识别的842个体细胞变体，有169个体细胞变体重叠。本发明方法的应用将该集合的169个常见体细胞变体减少到118个被认为是肿瘤特征的真正体细胞变体，加上1个仅被Strelka调用的真正体细胞变体和19个仅被Mutect 2调用的真正体细胞变体，总共识别出138个体细胞变体。

同样，“病例5”数据提供了Strelka识别的398个体细胞变体，Mutect 2识别的617个体细胞变体，两者识别的154个体细胞变体重叠。本发明方法的应用将该集合的154个通常识别的变体减少到125个。另外18个由Mutect2识别的体细胞变体和3个由Strelka识别的体细胞变体也通过本发明的方法识别出来，从而为肿瘤提供了总共146个真正的体细胞变体特征。

因此，由模型调用的体细胞变体通常是由其他几个变体调用器识别的高置信度体细胞变体的子集。

识别由MHC呈递的配体

首先，使用变体注释工具如VEP(McLaren,W.et al.2016)或SnpEff(Cingolani,P.et al.2012)注释体细胞和种系变体，并过滤到注释的子集以施加氨基酸变化，即非同义变体。所注释的氨基酸变化被引入到相应的参考蛋白序列中，从而形成肿瘤特异性蛋白序列。最后，在体细胞变体引起的每个氨基酸变化周围提取27个氨基酸的新肽序列(每侧13个氨基酸)。这些新肽序列用于预测宿主MHC配体由患者的HLA呈递。

这是通过从新肽序列生成适当大小的氨基酸低聚物来完成的，并且对于每个低聚物，预测针对各自HLA的抗原呈递的可能性。合适的寡聚物大小由相关HLA分子长度偏好决定，对于属于MHC I型的HLA分子，可以是8、9、10和11，属于MHC II型的HLA分子可以是13到19。

对于属于每个MHC型的HLA分子，最好的预测代表了由肿瘤细胞或专业抗原呈递细胞呈递新肽的可能性。该预测与新肽源蛋白的变体亚型的RNA-seq衍生表达水平相整合，并转换为抗原呈递的概率。用于预测给定肽的HLA配体可能性的神经网络模型是基于肽-MHC相互作用数据开发的，如结合亲和数据和MHC配体通过免疫肽组学发现。神经网络模型作为输入。

·BLOSUM编码的加工基序定义为肽中的前3个氨基酸和最后3个氨基酸。

·BLOSUM编码9-mer肽结合基序。

o对于短于9个氨基酸的肽，通过在肽中的每个氨基酸后插入通配符氨基酸段来生成结合基序。

o对于长度为9个氨基酸的肽，结合基序由肽序列给出。

ο对于长度超过9个氨基酸的肽，结合基序被定义为由肽所承载的9-mer，或9-mer基序被定义为在肽序列中引入缺失(即去除氨基酸段以将肽序列减少到9个氨基酸)。

·肽长度表示为L，其转换为

·对于属于MHC I型的HLA分子，1/(1+e^0.5×(L-9))

·对于属于MHC II型的HLA分子，1/(1+e^0.5×(L-15))

·9-mer结合基序在肽中的起始和结束位置。

可以设想应用其他机器学习框架，例如卷积神经网络、自动编码器、递归神经网络和概率学习模型的组合。

免疫原肽的选择

有几个因素可以解释免疫原性和非免疫原性肽-MHC复合物(“pMHC”)之间的差异(Calis，J.J.A.et al.2013)。首先，pMHC应该被T细胞受体识别。第二，pMHC应该是丰富的，具有更高的结合亲和力、结合稳定性和MHC与前体蛋白的表达水平，从而增加识别事件的频率。第三，T细胞识别pMHC后的免疫应答可以被调节过程所阻断/抑制。

可以训练模型(例如神经网络)来预测单独的肽配体或pMHC是免疫原性的。可以设想将上述因素纳入模型的方法如下:

·位置特异性肽序列编码：肽序列可以以将离散的分类氨基酸表示为位置特异性数字向量的方式编码或嵌入。肽序列编码指导T细胞受体与肽链中某些氨基酸结合的建模(例如，从MHC复合物突出的某些中心氨基酸的重要性)。

·位置特异性MHC序列编码：MHC序列的全部或部分可以以将离散的分类氨基酸表示为位置特异性数字向量的方式编码或嵌入。MHC序列编码指导T细胞受体与MHC链中某些氨基酸结合的建模(例如，与T细胞受体非常接近的特定链的氨基酸的重要性)，并指导MHC氨基酸和肽氨基酸与T细胞结合的相互依赖性。

·pMHC的测量或预测稳定性可输入到模型中，并有助于指导考虑pMHC丰度的免疫原性的建模。

·描述与自身肽或自身pMHC相似性的度量可以输入到模型中，以帮助指导影响免疫原性的调节过程的建模。这种度量可以是数值或编码的分类变量，其描述与相关靶标的相似性，例如新抗原的野生型、人类前体蛋白的免疫感受体或整个人类蛋白质组。

·卷积神经网络结构可以解锁肽或MHC序列的位置氨基酸下面的重要抽象序列特征，从而指导免疫原性的建模。

免疫原性可在四聚体/多聚体染色、ELISPOT、ICS等测定中测量。

预测得分到免疫原性概率的转换是通过在反映使用情况的适当免疫原性数据集上对预测因子进行基准测试来定义的，即具有上述定义的测定读取结果的数据。对基准数据集进行预测。在对预测进行排序之后，在沿着预测得分的移动窗口中计算精度。拟合了平滑且单调递增的函数，并可用于将预测得分与免疫原性概率进行校准。

克隆体细胞变体的选择

小读取测序中的DNA或RNA测序读取结果由一系列测序读数组成，每个测序读数均从肿瘤活检中存在的染色体中随机取样，肿瘤活检自然地由具有多种不同基因型的细胞组成，包括肿瘤组织中存在的健康细胞。另一个复杂的问题是，肿瘤细胞经常通过复制或去除染色体的大区段来重新排列染色体。来自活检的测序数据包含两个与计算推定新抗原的克隆状态相关的输出：i)每个位置的测序深度(覆盖率)和ii)数据中存在的每个变体突变)的突变等位基因频率(VAF)。根据这些数据，必须计算每个推定新抗原的肿瘤纯度(在给定活检中为肿瘤细胞的细胞份数)和克隆性状态(克隆或亚克隆)。

对于主要由克隆变体组成且具有高纯度的肿瘤类型，从样品计算的体细胞VAF将倾向于分布约为肿瘤纯度的1/2倍，因为每个染色体平均存在两个拷贝。因此，检测肿瘤纯度的简单方法是取所有VAF的平均值/中值，或取所有VAF分布的峰值并乘以2。然后通过纯度估计缩放VAF来计算克隆性概率。

通过将函数拟合到VAF和深度数据来解决肿瘤具有大量染色体重排或大量亚克隆突变的更复杂情况，其中输出是肿瘤纯度和基因组区段的拷贝数。一些算法使用不同的函数和各种拟合方式，例如FACETS(Shen,R.和V.E.Seshan 2016)、TPES(Locallo，A.,D.etal.2019)、hsegHMM(Choo-Wosoba,H.et al.2018；)、Sequenza(Favero,F.etal.2015)、ASCAT(Van Loo,P.et al.2010)、ichorCNA(Adalsteinson,V.A.et al.2017)、TITAN(Ha,G.et al.2014)、PureCN(Riester,M.etal.2016)、，PhyloWGS(Deshwar,A.G.et al.2015)、PyClone(Roth,A.et al.2014)以及其他一些。

逃避抗性新表位的选择

对肿瘤细胞的免疫逃避有抗性的新表位可大致分为3类:a)由致癌驱动突变产生的新表位；b)位于细胞生存所必需基因中的新表位；和c)仅与被肿瘤丢失或抑制的HLA相关的新表位。

致癌驱动基因突变是很好的靶标，因为它们在驱动细胞恶性肿瘤中起着关键作用。如果肿瘤细胞失去了致癌驱动因子，它的恶性程度可能会降低。致癌驱动基因突变可以从例如COSMIC(Tate,J.G.et al.2019)的各种数据库中识别。在这里，某些DNA突变或氨基酸变化发生的频率可以用作致癌性的替代品，因为显著选择的突变可能发挥重要作用。

重要基因中的新表位也是优先的，因为肿瘤细胞不能下调这些基因的表达而对细胞不是致命的。重要基因可以在各种实验中识别出来。一种方法是使用大规模CRISPR-Cas9功能丧失筛选(Wang,T.et al.2015；Meyers,R.M.et al.2017)，其中系统地敲除每个基因，以评估对细胞增殖和生存的影响。这些类型的筛选已经用于不同癌细胞系的大量类别。因此，基因的整体重要性可以简单地根据它在被测试的癌细胞系中重要性的频率来计算。

HLA基因的缺失或HLA表达的抑制是肿瘤逃避的一种已知机制(见https://pubmed.ncbi.nlm.nih.gov/29107330/)。如果肿瘤细胞丢失或仅仅抑制给定的HLA，则这个给定的HLA应该从进入MHC配体识别步骤的HLA集合中删除。通过对配对肿瘤/正常外显子序列研究与给定HLA相关的读取耗竭来识别HLA丢失。HLA表达的抑制可以从肿瘤细胞的RNA测序中定量。

实施例1

基于概率的新表位排序模式的概率

为上述每个特征生成的预测值不一定遵循相似的分布，因此在最终模型中组合它们是非常重要的。一种解决方案可以是使用机器学习来训练模型，但遗憾的是，可用的数据点数量非常少，并且无法以一致的方式生成。

在这里，我们提出了一种基于概率的模型，其中每个特征预测都被转换为预测为真的概率。然后可以将这些概率相乘，以给出给定新表位在给定患者中具有抗肿瘤作用的最终概率。

P(neo)＝P(S)*P(L)*P(I)*P(C)*P(E)

在理想情况下，创建一个连续函数，将特征得分转换为效果概率。示例如图2所示。这对于可以生成高质量评估数据集合的特征是可能的，其中可以在各种预测阈值下计算准确的精度。

对于某些特征，创建分类器而不是输出连续得分的工具可能是有意义的。一个例子可能是体细胞变体调用，其中可能希望添加对各种特征的不同过滤。在这种情况下，只需计算并直接使用每个类别中的精度。示例如图3所示。因此，这是上述示例的更简单的情况。

对于某些特征，可能需要限制其对最终概率得分的影响。如果所使用的评估数据集质量较低，或者如果与返回的得分相关的不确定性较高，则这是相关的。在这种情况下，可能需要确保减少特征上的权重。例如，可以使用以下公式进行计算：

f(x)＝W*x+(1-W)

其中W是浮点值≥0且≤1。各种权重如何影响最终“概率”的示例见图4。

HLA配体可能性的转换和变体同种型的表达是基于RNA序列和衍生自相同样品或在匹配条件下生长的细胞的免疫感受域数据集开发的。通过计算识别HLA配体对比2D盒中肽的随机集合的精度来定义该转换，在沿着一个轴的神经网络预测和沿着另一轴的变体同种型表达所跨越的网格中。示例提供在图5中。

更具体地说，如下所述实施。最初，从匹配的数据集衍生出神经网络预测和宿主转录表达值。然后，通过对神经网络预测和表达值进行单独的基准测试，将它们置于共同的尺度上。这是通过计算滑动窗口中的精度，然后拟合平滑和单调递增的函数来实现的，构成这两个单变量变换方案(参见A和B)。接下来，将这些单变量转换应用于神经网络预测和表达式值，以使它们具有共同的尺度。然后，在转换的神经网络预测和表达式值所跨越的网格中定义2D箱。计算每个箱的精度(见C)。最后的联合概率转换可以通过将平滑函数拟合到计算的精度景观来定义，这里我们应用线性样条插值。

实施例2

评估与本发明方法相关的临床应答

在接受实验性肽基新表位联合CAF09b佐剂治疗的9例黑色素瘤患者的群组上对在第4方面上述指定为A-D的4个特征的相关相进行了回顾性研究，CAF09b佐剂是一种脂质体佐剂，由Statens Serum Institut制造的N，N-二甲基-N，N-二十八烷基铵(溴盐)[DDA]，单羟基甘油类似物1[MMG]和聚硅氨酸：聚胞嘧啶酸[poly(I:C)]组成；Schmidt S.T.et al.，2020。对参与试验的患者的细胞进行DNA和RNA测序，并使用电子方法识别新表位。每个患者成功合成5-10个新表位，并纳入新表位疗法。患者共给药新表位疗法6次，每次给药间隔两周。前三剂经腹腔注射，后三剂经肌肉注射。在基线、三次疫苗接种和六次疫苗接种后对每个患者的肿瘤进行成像(PET-CT或CT扫描)，然后每12周进行成像，以评估疫苗接种的临床功效。根据RECIST v1.1标准评估肿瘤。在9名患者中，2名患者完全缓解，4名患者部分缓解，1名患者病情稳定，2名患有进展性疾病。因此，6名应答者和3名无应答者的客观缓解率为67％。

比较了递送给应答者和非应答者的新表位的概率得分A-D(参见本发明第四方面)，见图6。从该图中可以明显看出，每个概率得分A-D能够单独地将递送给应答者的新表位与递送给无应答者的新表位分开，其中一些概率(B和C，即分别新表位存在于所有肿瘤细胞中的概率以及新表位是MHC配体的概率)表现得比其他概率更好。A-D的组合概率计算也能够将应答者新表位与非应答者新抗原表位分开。

还比较了递送给每个患者的高质量新表位(高质量新抗原表位除以总施用的新表位)的频率。在这种情况下，高质量新表位被定义为在每个概率得分A-D中具有大于或等于0.5的得分。在这里也有应答者和无应答者之间的区别，与无应答者相比，应答者在其治疗中获得了更高比例的高质量新表位。见图7。

参考文献列表

1.Hundal,J.et al.2016；Genome Med.8:11.

2.Bjerregaard,A.M.et al.2017；Cancer Immunol.Immunother.66:1123–1130.

3.Bais,P.et al.2017；Bioinformatics 33:3110–3112.

4.Rubinsteyn,A.,J.et al.2017；Front.Immunol.8:1807.

5.Schenck,R.O.et al.2019；BMC Bioinformatics 20:264.

6.Cibulskis,K.,M.et al.2013；Nat.Biotechnol.31:213–219.

7.Kim,S.et al.2018；Nat.Methods 15:591–594.

8.Koboldt,D.C.et al.2012；Genome Res.22:568–576.

9.Larson,D.E.et al.2012；Bioinformatics 28:311–317.

10.Hansen,N.F.et al.2013；Bioinformatics 29:1498–1503.

11.Xu,C.2018；Comput.Struct.Biotechnol.J.16:15–24.

12.Shi,W.et al.2018；Cell Rep.25:1446–1457.

13.McLaren,W.et al.2016；Genome Biol.17:122.

14.Cingolani,P.et al.2012；Fly(Austin).6:80–92.

15.Calis,J.J.A.et al.2013；PLoS Comput.Biol.9.

16.Shen,R.,and V.E.Seshan 2016；Nucleic Acids Res.44:e131.

17.Locallo,A.,D.et al.2019；Bioinformatics 35(21):4433-4435.

18.Choo-Wosoba,H.et al.2018；BMC Bioinformatics 19:424.

19.Favero,F.et al.2015；Ann.Oncol.Off.J.Eur.Soc.Med.Oncol.26:64–70.

20.Van Loo,P.et al.2010；Proc.Natl.Acad.Sci.U.S.A.107:16910–5.

21.Adalsteinsson,V.A.et al.2017；Nat.Commun.8:1324.

22.Ha,G.et al.2014；Genome Res.24:1881–93.

23.Riester,M.et al.2016；Source Code Biol.Med.11:13.

24.Deshwar,A.G.et al.2015；Genome Biol.16:35.

25.Roth,A.et al.2014；Nat.Methods 11:396–8.

26.Tate,J.G.et al.2019；Nucleic Acids Res.47:D941–D947.

27.Wang,T.et al.2015；Science 350:1096–101.

28.Meyers,R.M.et al.2017；Nat.Genet.49:1779–1784.

29.Wilm,A.,et al.2012；Nucleic Acids Res.40(22):11189–11201.

30.Liu,Y.et al.2016；BMC Systems Biology 10:47.

31.Schmidt S.T.et al.2020；Pharmaceutics 2020 12(12):1237。

Claims

1.一种用于识别衍生自个体中恶性肿瘤的独特氨基酸改变核苷酸突变集合的方法，所述方法包括：

a)将来自个体的恶性肿瘤的细胞和来自个体的正常细胞的遗传序列信息输入到至少2个不同的突变调用模型中，每个模型生成已识别的核苷酸突变集合和与该识别的核苷酸突变相关联的至少一个第一特征，并可选地将由所述遗传信息生成的至少一个第二特征附加到每个识别的核苷酸突变，其中至少一个第一特征和至少一个第二特征中的每一个在必要时转换为值≥0和≤1，并将每个识别的核苷酸突变的值≥0和≤1传递给机器学习模型，例如人工神经网络，其已使用验证的突变核苷酸序列进行训练，并且对每个识别的核苷酸突变计算其是对恶性肿瘤具有特异性的核苷酸突变的概率，或者

b)将来自恶性肿瘤的细胞和来自个体的正常细胞的遗传序列信息输入到机器学习模型中，例如人工神经网络，其中机器学习模型已使用验证的突变核苷酸序列进行训练，并且其中机器学习模型对每个识别的突变核苷酸计算其是对恶性肿瘤具有特异性的核苷酸突变的概率；而且从机器学习模型输出对恶性肿瘤具有特异性的特定核苷酸突变集合。

2.根据权利要求1的方法，其中输出的对恶性肿瘤具有特异性的特定核苷酸突变为-相对于计算的概率是优先的，和/或

-与它们各自计算的概率配对，和/或

-都有计算的概率，其超过阈值，例如阈值为0.5(50％)。

3.根据权利要求1或2所述的方法，其中从由肿瘤变体覆盖率、正常变体覆盖率、肿瘤变体等位基因频率、正常变体等位基因频率、肿瘤读取映射质量、正常读取映射质量、肿瘤基质量和正常基础质量组成的组中选择至少一个第一特征和/或第二特征。

4.根据上述权利要求中任一项的方法，其中评估对恶性肿瘤具有特异性的特定核苷酸突变集中的每个核苷酸突变的克隆状态。

5.根据权利要求4所述的方法，其中利用克隆概率对列表进行优先排序，以便主要包括存在于恶性肿瘤的大部分细胞中对恶性肿瘤具有特异性的特定核苷酸突变。

6.一种用于识别至少一个氨基酸序列的方法，所述氨基酸序列构成推定的免疫原性新肽，所述方法包括识别根据前述权利要求中任一项所述的独特氨基酸改变核苷酸突变集，并随后生产推定的新肽氨基酸序列，其是来自恶性肿瘤的蛋白质性质表达产物的子序列并且其由核酸序列编码，其包括集合的至少一个特定氨基酸改变核苷酸突变，对推定的新肽分析在个体中MHC配体的存在，其中所述MHC配体必须在其各自的氨基酸序列中包含由包括集合的至少一个独特氨基酸改变核苷酸突变的核苷酸三联体所编码的氨基酸残基，并且如果分析此类MHC配体的存在导致阳性结果，则将每个推定的新肽识别为推定的免疫原性新肽。

7.根据权利要求6所述的方法，其中分析MHC配体的存在包括将MHC结合的预测与蛋白质表达产物的表达水平得分相整合。

8.根据权利要求7所述的方法，其中表达水平得分是从RNA表达水平计算的。

9.根据权利要求8所述的方法，其中RNA表达水平是氨基酸改变核苷酸突变的RNA表达水平。

10.根据权利要求7-9中的任何一种的方法，其中表达水平得分按每个基因组/转录组位置计算或其中表达水平得分通过调整比例VAF_RNA/VAF_DNA进行修改，其中VAF表示包含核酸序列的变体等位基因的频率，该核酸序列包括集合的独特氨基酸改变核苷酸突变中的至少一个。

11.根据权利要求6-9中的任何一种的方法，其进一步包括确定推定的免疫原性新肽的免疫原性。

12.根据权利要求11所述的方法，其中免疫原性的测定包括以下的一个或多个

-当推定的免疫原性新肽是肽-MHC复合物的一部分时，评估T细胞受体结合氨基酸残基的存在；

-评估MHC和推定的免疫原性新肽之间复合物的稳定性；

-评估个体的推定的免疫原性新肽和自体肽之间的相似性；

-评估MHC和推定免疫原性新肽的一方面复合物和MHC与个体自身肽的另一方面复合物之间的相似性；和

-通过卷积神经网络架构进行评估，以解锁影响免疫原性的进一步序列特征。

13.根据权利要求6-12中任一项所述的方法，其中对每个推定的免疫原性新肽进一步评估其对免疫逃避的恢复力。

14.根据权利要求13所述的方法，其中所述恢复力的评估包括确定推定的免疫原性新肽是否源自致癌驱动突变和/或是否位于细胞生存所必需的表达产物中和/或仅与肿瘤丢失或抑制的HLA相关。

15.一种用于识别含有对患者施用安全的肽的新表位的方法，其中每个新表位由包含至少一个氨基酸改变核苷酸突变的核苷酸序列所编码，所述方法包括对来自患者中正常细胞的表达产物或蛋白质组测试任何参考氨基酸序列的存在，其中

-所述氨基酸序列具有至少7个氨基酸残基的长度，和

-如果测试为阴性，则将新表位识别为对施用是安全的。

16.一种用于确定包含新表位的免疫原性新肽的组成或编码所述免疫原性新肽的核酸的组成的方法，其中免疫原性新肽衍生自恶性肿瘤，所述方法包括为推定的免疫原性新肽集合中的每一种分配概率得分，定义为A、B、C、D和E中至少两种的乘积，其中A、B、C、D和E各自为概率得分≥0和≤1并且其中

A是推定的免疫原性新肽的氨基酸序列包含由核苷酸序列编码的氨基酸的概率，所述核苷酸序列包含权利要求1-3中任一项识别的对恶性肿瘤具有特异性的独特氨基酸改变核苷酸突变，

B是推定的免疫原性新肽的氨基酸序列包含由核苷酸序列编码的氨基酸的概率，所述核苷酸序列包含权利要求4或5所确定的在恶性肿瘤的所有细胞中存在的独特氨基酸改变核苷酸突变，

C是推定的免疫原性新肽在衍生恶性肿瘤的个体中包含MHC的配体的概率，如权利要求6-10中任一项所确定的，

D是新肽在衍生恶性肿瘤的个体中具有免疫原性的概率，如权利要求11-12中任一项所确定的；和

E是在权利要求13-14中任一项所确定的新肽对免疫逃避具有恢复力的概率，

17.根据权利要求16所述的方法，其中A、B、C、D和E中的至少2个的乘积从以下乘积组中选择

A和B，

A和C，

A和D，

A和E，

B和C，

B和D，

B和E，

C和D，

C和E，

D和E，

A和B和C，

A和B和D，

A和B和E，

A和C和D，

A和C和E，

A和D和E，

B和C和D，

B和C和E，

B和D和E，

C和D和E，

A和B和C和D，

A和B和C和E，

A和B和D和E，

A和C和D和E，

B和C和D和E，以及

A和B和C和D和E。

18.根据权利要求16或17所述的方法，其中所述组成中的新肽是那些

-具有概率得分在前50位，和/或

-具有概率得分在前50％。

19.根据权利要求16-18中任一项所述的方法，其进一步包括仅由根据权利要求14的方法识别为对施用是安全的肽包括在组成中。

20.一种用于制备适合患有恶性肿瘤的患者的免疫原性组合物的方法，所述方法包括对来自患者中恶性细胞的DNA和RNA以及来自患者中正常细胞的至少DNA进行测序，以识别新肽集合，其包含衍生自恶性细胞的新表位，并随后通过将药学上可接受的载体或稀释剂与以下混合来制备免疫原性组合物：

1)至少1种融合蛋白，所述融合蛋白包含来自集合的新肽但排除来自集合的当通过权利要求15的方法评估时对施用不安全的新肽，

2)来自集合的多个新肽，但排除来自集合的当通过权利要求15的方法评估时对施用不安全的新肽，或

21.一种用于制备适合于患有恶性肿瘤的患者的免疫原性组合物的方法，所述方法包括对来自患者中恶性细胞的DNA和/或RNA以及至少来自患者中正常细胞的DNA进行测序，以识别新肽集合，所述新肽集合包含衍生自恶性细胞的新表位，并且随后通过将药学上可接受的载体或稀释剂与以下混合来制备免疫原性组合物：

i)至少1种融合蛋白，所述融合蛋白包含来自集合的新肽但排除来自集合的不是根据权利要求16-19中任一项确定的组合物的一部分的新肽，

ii)来自集合的不是根据权利要求16-19中任一项确定的组合物的一部分的多个新肽，或

22.根据权利要求21或22所述的方法，其进一步包括与免疫学佐剂或免疫调节剂进行混合。

23.一种用于治疗患有恶性肿瘤疾病的患者的方法，所述方法包括施用有效量的根据权利要求20-22中任一项制备的免疫原性组合物。

24.一种计算机或计算机系统，包括

a)用于输入核酸序列的装置和用于存储核酸序列的装置，

b)用于输入的装置和用于存储a中输入的每个核酸序列的限定符的装置，所述限定符指示输入的核酸序列是来源于恶性细胞还是非恶性细胞，

-都有相同的长度X，其中X是≥7的整数，

-每个都包括改变的氨基酸残基，其信息被标记和/或存储在f中，

其中氨基酸序列由d中的可执行代码输入并存储，

25.一种计算机或计算机系统，包括

a)用于输入核酸序列的装置和用于存储核酸序列的装置，

-都有相同的长度X，其中X是≥7的整数，

其中氨基酸序列由d中的可执行代码输入并存储，

h)用于输出和/或存储由f中的可执行代码标记或存储的氨基酸序列，而排除g中的可执行代码导致至少一个正比较的那些氨基酸序列的可执行代码。