CN113228190B

CN113228190B - 分类和/或鉴定癌症亚型的系统和方法

Info

Publication number: CN113228190B
Application number: CN201980085528.4A
Authority: CN
Inventors: H·Y·K·林; M·莫希于丁; L·姚
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2018-12-23
Filing date: 2019-12-20
Publication date: 2024-06-11
Anticipated expiration: 2039-12-20
Also published as: WO2020136133A1; CN113228190A; EP3899951A1; JP7340021B2; JP2022515200A; US20220130549A1

Abstract

本公开提供分类和/或鉴定癌症亚型的系统和方法。本公开还提供通过在计算方法中使用同义和非同义体细胞突变两者来增强对肿瘤突变负荷的预测的方法。据信，通过增加所述肿瘤突变负荷计算中的突变数量，可以导出相对更一致的肿瘤突变负荷，特别是对于靶向组合测序。据信，与从全外显子组测序数据计算出的肿瘤突变负荷相比，来自靶向组合的所述肿瘤突变负荷的一致计算允许对测序数据进行计算更快且成本更低的分析。

Description

分类和/或鉴定癌症亚型的系统和方法

背景技术

自从40年前引入到现有技术中，使用DNA测序对人类遗传变异进行研究已经经历了非凡的发展，这使得可以在几天之内对人类基因组进行测序和分析。2000年代中期，第一批“下一代测序”(NGS)仪器的发布引发了疾病研究的一场革命，以显著降低的成本极大提高了速度，从而使得只需数周生成人类全基因组序列。除了价格和性能之外，新的测序技术还证明可以弥补较旧的测序和基因分型技术的某些技术缺陷，从而可以以低成本对变体(包括新变体)进行全基因组检测。NGS在人类基因组学中的进一步突破是通过引入靶向富集方法，从而可以对目标区域进行选择性测序，从而显著降低了需要生成的序列数量。该方法基于收集代表基因组中靶序列的DNA或RNA探针，所述探针可以结合并提取源自靶区域的DNA片段。

全外显子测序(WES)能够对人类基因组中所有蛋白质编码区域(外显子)进行测序，从而迅速成为最广泛使用的靶向富集方法，尤其是对于单基因(“孟德尔”)疾病。该方法可以检测外显子(编码)以及剪接位点变体，而与全基因组测序相比仅需要约2％的测序“负荷”。所有基因的无偏分析消除了在测序前对耗时的候选基因选择的需求。据估计，外显子携带约85％的突变，这对疾病相关性状有很大影响。另外，显示外显子突变引起大多数单基因疾病，仅错义和无义突变占疾病突变的约60％。(参见Petersen et al.，Opportunitiesand Challenges of Whole-Genome and-Exome Sequencing，BMC Genet.2017；18：14).

基因组测序技术的最新进展提供了前所未有的机会来表征个体基因组地图，并识别与诊断和疗法相关的突变。实际上，近年来，NGS也越来越多地用于解决药物基因组学研究问题。不仅可以检测出可以解释为什么某些患者对某种药物没有反应的遗传原因，而且可以尝试根据遗传信息预测药物的成功。某些基因变体可以影响特定蛋白质的活性，并且这些基因变体可以用于估计靶向该蛋白质的药物的可能功效和毒性。因此，NGS的应用远远超出了发现引起疾病的变体。

所有人类中共享全部DNA中的约99.5％，正是这0.5％产生所有的差异。遗传变异或变体是使得每个人的基因组独特的差异。DNA测序通过将个体的DNA序列与基因组参考联盟(GRC)维护的参考基因组的DNA序列进行比较来识别个体的变体。据信，人类的基因组平均具有数百万个变体。一些变体出现在基因中，但大多数出现在基因外部的DNA序列中。少数变体与疾病有关，但大多数变体具有未知的作用。一些变体会导致人类之间的差异，例如不同的眼睛颜色和血型。随着更多的DNA序列信息可供研究团体使用，某些变体的作用可能会更好地理解。

最近针对免疫检查点抑制剂的免疫疗法的临床试验显示出对各种癌症的显著临床益处，包括黑色素瘤、非小细胞肺癌(NSCLC)、膀胱癌、头颈癌和结直肠癌。程序性细胞死亡1受体(PD-1)或程序性细胞死亡配体1(PD-L1)的阻断是研究最多的免疫检查点疗法之一。包括阿特珠单抗(atezolizumab)、纳武单抗(nivolumab)和派姆单抗(pembrolizumab)在内的多种抗PD-L1抗体已被FDA批准用于黑色素瘤和NSCLC患者。虽然这些免疫检查点阻断癌症疗法显著提高了免疫疗法的疗效，但只有一部分患者对治疗有应答。因此，为了最大化治疗益处，鉴定预测性生物标志物以区分应答性和非应答性患者是至关重要的。(参见Wolchok，J.D.et al.Overall Survival with Combined Nivolumab and Ipilimumab inAdvanced Melanoma.N.Engl.J.Med.377，1345-1356(2017)；Robert，C.et al.Ipilimumabplus dacarbazine for previously untreated metastaticmelanoma.N.Engl.H.Med.364，2517-2526(2011)；Borghaei，H.et al.Nivolumab versusDocetaxel in Advanced Nonsquamous Non-Small-Cell LungCancer.N.Engl.J.Med.373,1627-1639(2015)；Goldberg，S.B.et al.Pembrolizumab forpatients with melanoma or non-small-cell lung cancer and untreated brainmetastases：early analysis of a non-randomised，open-label，phase 2 trial.TheLancet Oncology 17，976-983(2016)；Aggen，D.H.＆Drake，C.G.Biomarkers forimmunotherapy in bladder cancer：a moving target.1-13(2017).doi：10.1186/s40425-017-0299-1；Saleh，K.，Eid，R.，Haddad，F.G.，Khalife-Saleh，N.＆Kourie，H.R.New developments in the management of head and neck cancer-impact ofpembrolizumab.TCRM Volume 14，295-303(2018)；FDA fast tracks nivolumab foradvanced non-squamous non-small cell lung cancer.The Pharmaceutical Journal(2015).doi：10.1211/pj.2015.20069525；Jean，F.，Tomasini，P.＆Barlesi，F.Atezolizumab：feasible second-line therapy for patients with non-small celllung cancer？A review of efficacy，safety and place in therapy.TherAdv MedOncol 9，769-779(2017).

多项研究表明，PD-L1表达水平、微卫星不稳定性高(MSI-H)和错配修复缺陷(dMMR)可能是抗PD-L1疗法临床结果的预测生物标志物。目前，PD-L1免疫组织化学(IHC)已被开发为抗PD-L1疗法的伴随或补充诊断测定。MSI-H和dMMR也是FDA批准的用于抗PD1癌症治疗的生物标志物。肿瘤突变负荷高(TMB-H)已被证明是抗PD-L1治疗的另一种新兴生物标志物。潜在的假设是来自超突变肿瘤的更多新抗原导致更强的适应性免疫应答。(见Reck，M.et al.Pembrolizumab versus Chemotherapy for PD-L1-Positive Non-Small-CellLung Cancer.N.Engl.J.Med.375，1823-1833(2016)；Le，D.T.et al.PD-1Blockade inTumors with Mismatch-Repair Deficiency.N.Engl.J.Med.372，2509-2520(2015)；Chalmers，Z.R.et al.Analysis of 100,000human cancer genomes reveals thelandscape of tumor mutational burdeh.1-14(2017)).

肿瘤突变负荷(TMB)是衡量肿瘤细胞携带的突变数量的指标，也是生物标志物研究的新兴关注领域。通过比较患者健康组织和肿瘤细胞的DNA序列，并使用多种复杂算法，可以确定存在于肿瘤而非正常组织中的获得性体细胞突变的数量。与免疫疗法(其特异于肿瘤表达的某些免疫蛋白)的大多数癌症生物标志物不同，TMB仅源自突变。据信，一些突变数量较多的肿瘤可能更容易受到免疫应答的影响。(见Chalmers，Z.R.et al.Analysis of100,000human cancer genomes reveals the landscape of tumor mutationalburdeh.1-14(2017).doi：10.1186/s13073-017-0424-2；Friends of Cancer Research：https://www.focr.org/tmb；Matthew D.Hellmann et al.Nivolumab(nivo)+ipilimumab(ipi)vs platinum-doublet chemotherapy(PT-DC)as first-line(1L)treatment(tX)foradvanced non-small cell lung cancer(NSCLC)：initial results from CheckMate227，AACR 2018).

发明内容

迄今为止，通过免疫组织化学检测到的肿瘤细胞表面程序性死亡配体1的表达水平，是目前唯一经过验证的在癌症(如肺癌)中用于检查点抑制剂疗法抗程序性细胞死亡-1或PD-L1的生物标志物。然而，单独的PD-L1表达通常不足以在几种肿瘤类型中筛选患者。最近，新的见解集中在这种情况下肿瘤突变负荷的重要作用。肿瘤基因组被认为是抗癌免疫的驱动，并且根据肿瘤突变负荷，对免疫疗法的应答各不相同，这表明这些突变产生的新抗原是T细胞在癌症免疫中的关键靶点。因此，肿瘤突变负荷是一种高度相关的工具，可用于评估患者对免疫疗法的敏感性。

肿瘤突变负荷是衡量肿瘤中体细胞突变数量的指标，广泛采用的计算标准是通过全外显子组测序确定每兆碱基的非同义体细胞突变数量。然而，目前有几个问题使得TMB难以用作临床决策生物标志物。据信，一个缺点是使用全外显子组测序和各种下一代测序靶向组合计算的TMB不一致(由于全外显子组测序成本相对高，因此需要靶向组合)。可变性的一个可能来源是针对癌症的靶向组合的设计，据信这些组合富含癌症驱动突变和突变热点。据信，这可能会导致对突变率的高估。虽然可以应用各种过滤策略来消除此类驱动突变(例如COSMIC可用于降低驱动突变)，然而，据信这些额外的过滤器的使用可能进一步导致计算中的不一致。

据信，另一个缺点是没有统计截止值来定义TMB高患者，以将其与TMB低患者区分开来。多个任意阈值，例如10或20/Mb已在各种研究文章和临床试验中使用，但这些任意阈值可能并不适用于所有肿瘤类型；应准确确定每种癌症类型的临床临界值，以便将TMB生物标志物的使用转化为临床实践。这是一个技术问题，本公开的系统和方法克服了这个固有的技术问题，例如通过开发一种计算机系统(包括测序系统)和/或方法，其能够在不使用任意截止值的情况下估计肿瘤突变负荷，同时将额外的测序数据(例如额外的突变数据)加入到解决方案中。申请人已经能够在不增加计算负荷的情况下这样做，即，尽管在TMB计算中使用了增加的测序数据量，但使用本文描述的过程没有增加计算负荷。申请人还提出，本文提出的解决方案能够实现对组合的TMB估计(其优于计数方法，如本文所述)，因为本公开的方法比通过计数方法进行的TMB估计相对更一致，同时在计算上并不繁重。还认为可以通过在肿瘤突变负荷计算方法中使用同义和非同义体细胞突变来系统地消除驱动突变效应。

鉴于上述内容，并且在本公开的一个方面，申请人已经开发了一种鉴定肿瘤突变负荷数据中的明确截止值的方法。在一些实施例中，是一种鉴定至少两种癌症亚型的方法，包括(i)对已估计的肿瘤突变负荷进行数据转换，和(ii)使用高斯混合模型对已转换的已估计的肿瘤突变负荷进行建模，其中高斯混合模型的每第K个分量代表一种癌症亚型。在一些实施例中，数据转换是对数转换。在一些实施例中，已转换的肿瘤突变负荷鉴定至少三种不同的癌症亚型，每种具有可区分的突变谱。在一些实施例中，针对结肠直肠癌、胃癌和子宫内膜癌中的每一种鉴定三种癌症亚型。在一些实施例中，使用已鉴定的非同义突变和已鉴定的同义突变估计肿瘤突变负荷。在一些实施例中，通过使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计，来估计肿瘤突变负荷。

本公开的另一方面是估计肿瘤突变负荷的方法，包括：(a)鉴定测序数据中的遗传改变；(b)使用已鉴定的遗传改变和多个预先确定的突变率参数，例如从训练群组导出的参数，进行最大似然估计。在一些实施例中，遗传改变包括非同义和同义突变。据信，同义和非同义突变的组合使用增加了每次肿瘤突变负荷计算的突变数量，并有助于消除驱动基因效应(也参见PCT公开No.WO2017/181134，其公开内容在此通过引用整体并入本文)。在一些实施例中，该方法进一步包括计算已估计的肿瘤突变负荷的数据转换。在一些实施例中，数据转换包括使数据符合正态性，例如使正偏斜的数据符合正态性。在一些实施例中，数据转换包括降低可变性的方法。在一些实施例中，数据转换包括计算已估计的肿瘤突变负荷的对数转换。在一些实施例中，该方法进一步包括基于对数转换的已估计的肿瘤突变负荷的建模对癌症亚型进行分类。

在一些实施例中，测序数据是训练数据，并且已估计的肿瘤突变负荷用于鉴定训练数据(例如特定类型癌症的训练数据)内的癌症亚型(例如新的癌症亚型)。例如，训练数据可用于鉴定训练数据内的三种不同癌症亚型(例如，公开可用的全外显子组测序数据)。在一些实施例中，所鉴定的三种不同癌症亚型包括“低TMB”、“高TMB”和“极端TMB。”

在一些实施例中，测序数据是测试数据，即来自患者的生物学样品的测序数据，并且利用已估计的肿瘤突变负荷将生物学样品分类为具有多种不同的预定癌症亚型(例如“低TMB”、“高TMB”和“极端TMB”)中的一种。在一些实施例中，如果生物学样品被分类为“高TMB”或“极端TMB”，则该方法进一步包括向患者施用免疫疗法。在一些实施例中，免疫疗法是检查点抑制剂。在一些实施例中，免疫疗法是抗PD-1抗体。在一些实施例中，抗PD-1抗体选自纳武单抗(也称为)或派姆单抗(Merck；也称为/>lambrolizumab，参见WO2008/156712)。其他合适的抗PD-1抗体公开于PCT公开号WO 2015/112900、WO2012/145493、WO 2015/112800、WO2014/179664、WO 2015/085847、WO2017/040790、WO 2017/024465、WO 2017/025016、WO 2017/132825和WO 2017/133540，其公开内容在此通过引用整体并入本文。

本公开的另一方面是一种用于对源自患者的肿瘤样品进行分类的系统，该系统包括：(i)一个或多个处理器，以及(ii)一个或多个存储器，所述一个或多个存储器与所述一个或多个处理器耦接，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述系统执行包括以下步骤的操作：在获得的测序数据内接收体细胞突变的鉴定，该测序数据来源于肿瘤样品；基于接收到的已鉴定的体细胞突变估计肿瘤突变负荷；并根据已估计的肿瘤突变负荷的对数转换为肿瘤样品分配癌症亚型。在一些实施例中，通过计算已估计的肿瘤突变负荷的对数(例如计算自然对数、log(1)、log(2)等)来导出已估计的肿瘤突变负荷的对数转换。据信，这是对固有技术问题的技术解决方案，并且本文描述的系统提供了改进源自测序数据的肿瘤样品的分类和/或降低与使用源自WES的测序数据对肿瘤样品进行分类相关的计算负荷的解决方案。

本公开的另一方面是对源自患者的肿瘤样品进行分类的方法，包括：获取源自肿瘤样品中的核酸的测序数据；鉴定样品中获得的测序数据内的体细胞突变；基于已鉴定的体细胞突变估计肿瘤突变负荷；计算已估计的肿瘤突变负荷的对数转换以提供对数转换的已估计的肿瘤突变负荷；并根据对数转换的已估计的肿瘤突变负荷为肿瘤样品分配癌症亚型。在一些实施例中，分配癌症亚型包括(i)将对数转换的已估计的肿瘤突变负荷建模为高斯混合模型，其中高斯混合模型的每第K个分量代表一种癌症亚型；(ii)计算高斯混合模型的每第K个分量的分配分数；(iii)确定具有最高分配分数的第K个分量；以及(iv)将与已鉴定的具有最高分配分数的第K个分量相关的癌症亚型分配为肿瘤样品的癌症亚型。在一些实施例中，使用基于训练数据(例如公开可用的训练数据，代表患有特定类型癌症的患者群体)的期望最大化算法来估计每第K个分量的参数。

在一些实施例中，使用已鉴定的非同义突变估计肿瘤突变负荷。在一些实施例中，通过将已鉴定的非同义突变的总数除以预定的基因组大小来估计肿瘤突变负荷。

在一些实施例中，使用已鉴定的非同义突变和已鉴定的同义突变估计肿瘤突变负荷。在一些实施例中，通过使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计来估计肿瘤突变负荷。在一些实施例中，多个预定突变率参数包括(i)基因特异性突变率因子，和(ii)上下文特异性突变率。在一些实施例中，上下文特异性突变率选自由(i)三核苷酸上下文特异性突变率、(ii)二核苷酸上下文特异性突变率和(iii)突变特征组成的组。在一些实施例中，通过对源自全外显子组测序的训练样品中每个基因的观察到的突变数量进行建模来获得多个预定突变率参数。在一些实施例中，建模是使用回归模型和贝叶斯框架内的最大似然算法来执行的。

在一些实施例中，预定突变率参数通过以下方式导出：(i)仅考虑已知影响因素，使用负二项回归、泊松回归、零膨胀泊松回归或零膨胀负二项回归中的一者来估计背景突变率；(ii)考虑未知的影响因素，使用单基因分析来估计背景突变率；以及(iii)在贝叶斯框架内组合(i)和(ii)的估计。在一些实施例中，零膨胀泊松回归用于仅考虑已知影响因素的背景突变率的估计。

在一些实施例中，该方法进一步包括基于分配给肿瘤样品的癌症亚型计算总存活。在一些实施例中，该方法进一步包括基于分配给肿瘤样品的癌症亚型计算无进展存活。在一些实施例中，该方法进一步包括基于分配给肿瘤样品的癌症亚型施用治疗剂。在一些实施例中，治疗剂为免疫疗法(例如抗PD1抗体)。在一些实施例中，免疫疗法是检查点抑制剂。

在一些实施例中，肿瘤样品的测序数据源自对源自肿瘤样品的核酸的全外显子组测序或靶向组合测序(targeted panel sequencing)。在一些实施例中，癌症亚型是低TMB、高TMB和极端TMB。在一些实施例中，极端TMB癌症亚型包括(i)高单核苷酸变体突变率；(ii)低INDEL突变率；和(iii)POLE基因中的高度非同义突变。在一些实施例中，高TMB癌症亚型包括(i)高MSI-H率；(ii)高INDEL突变率。

本公开的另一方面是对源自患者的肿瘤样品进行分类的方法，包括：对肿瘤样品进行全外显子组测序或靶向组合测序以获得测序数据；鉴定样品中衍生的测序数据内的体细胞突变；基于已鉴定的体细胞突变估计肿瘤突变负荷；计算已估计的肿瘤突变负荷的对数转换以提供对数转换的已估计的肿瘤突变负荷；并根据对数转换的已估计的肿瘤突变负荷为肿瘤样品分配癌症亚型。在一些实施例中，通过将对数转换的已估计的肿瘤突变负荷建模为高斯混合模型来分配癌症亚型。在一些实施例中，高斯混合模型的每第K个分量代表一种癌症亚型。在一些实施例中，使用已鉴定的非同义突变和已鉴定的同义突变估计肿瘤突变负荷。在一些实施例中，通过使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计来估计肿瘤突变负荷。在一些实施例中，多个预定突变率参数包括(i)基因特异性突变率因子，和(ii)上下文特异性突变率。在一些实施例中，预定突变率参数通过以下方式导出：(i)仅考虑已知影响因素，使用负二项回归、泊松回归、零膨胀泊松回归或零膨胀负二项回归中的一者来估计背景突变率；(ii)考虑未知的影响因素，使用单基因分析来估计背景突变率；以及(iii)在贝叶斯框架内组合(i)和(ii)的估计。

本公开的另一方面是一种治疗遭受肿瘤的受试者的方法，包括：(i)根据肿瘤突变负荷鉴定癌症亚型；(ii)向受试者施用治疗有效量的抗体或其抗原结合部分，该抗体或其抗原结合部分与PD-1受体特异性结合并抑制PD-1活性；其中癌症亚型是通过获取肿瘤样品的测序数据来鉴定的；鉴定样品中获得的测序数据内的体细胞突变；基于已鉴定的体细胞突变估计肿瘤突变负荷；计算已估计的肿瘤突变负荷的对数转换以提供对数转换的已估计的肿瘤突变负荷；并根据对数转换的已估计的肿瘤突变负荷为肿瘤分配癌症亚型；其中如果分配给肿瘤的癌症亚型是“高TMB”或“极端TMB”，则施用治疗有效量的与PD-1受体特异性结合并抑制PD-1活性的抗体或其抗原结合部分。在一些实施例中，“极端TMB”癌症亚型包括(i)高单核苷酸变体突变率；(ii)低INDEL突变率；和(iii)POLE基因中的高度非同义突变。在一些实施例中，通过将对数转换的已估计的肿瘤突变负荷建模为高斯混合模型来对癌症亚型进行分类。在一些实施例中，体细胞突变包括非同义和同义突变。

本公开的另一方面是一种对源自患者的肿瘤样品进行分类的方法，包括：获得肿瘤样品的测序数据；在获得的测序数据内鉴定体细胞突变；基于已鉴定的体细胞突变估计肿瘤突变负荷；计算已估计的肿瘤突变负荷的转换以提供转换的已估计的肿瘤突变负荷；并根据已转换的已估计的肿瘤突变负荷为肿瘤样品分配癌症亚型。在一些实施例中，已估计的肿瘤突变负荷的转换的计算包括计算已估计的肿瘤突变负荷的对数转换。在一些实施例中，对数转换选自自然对数、log(10)或log(2)。

本公开的另一方面是一种用于对源自患者的肿瘤样品进行分类的系统，该系统包括：(i)一个或多个处理器，以及(ii)一个或多个存储器，所述一个或多个存储器与所述一个或多个处理器耦接，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述系统执行包括以下步骤的操作：在肿瘤样品内获得的测序数据内接收体细胞突变的鉴定；基于接收到的已鉴定的体细胞突变估计肿瘤突变负荷；计算已估计的肿瘤突变负荷的对数转换以提供对数转换的已估计的肿瘤突变负荷；并根据对数转换的已估计的肿瘤突变负荷为肿瘤样品分配癌症亚型。

在一些实施例中，分配癌症亚型包括(i)将对数转换的已估计的肿瘤突变负荷建模为高斯混合模型，其中高斯混合模型的每第K个分量代表一种癌症亚型；(ii)计算高斯混合模型的每第K个分量的分配分数；(iii)确定具有最高分配分数的第K个分量；以及(iv)将与已鉴定的具有最高分配分数的第K个分量相关的癌症亚型分配为肿瘤样品的癌症亚型。在一些实施例中，使用基于训练数据的期望最大化算法来估计每第K个分量的参数。

在一些实施例中，使用已鉴定的非同义突变和已鉴定的同义突变估计肿瘤突变负荷。在一些实施例中，通过使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计来估计肿瘤突变负荷。在一些实施例中，多个预定突变率参数包括(i)基因特异性突变率因子，和(ii)上下文特异性突变率。在一些实施例中，上下文特异性突变率选自由(i)三核苷酸上下文特异性突变率、(ii)二核苷酸上下文特异性突变率和(iii)突变特征组成的组。

在一些实施例中，通过对源自全外显子组测序的训练样品中每个基因的观察到的突变数量进行建模来获得多个预定突变率参数。在一些实施例中，预定突变率参数通过以下方式导出：(i)仅考虑已知影响因素，使用负二项回归、泊松回归、零膨胀泊松回归或零膨胀负二项回归中的一者来估计背景突变率；(ii)考虑未知的影响因素，使用单基因分析来估计背景突变率；以及(iii)在贝叶斯框架内组合(i)和(ii)的估计。在一些实施例中，零膨胀泊松回归用于在仅考虑已知影响因素来估计背景突变率。在一些实施例中，零膨胀负二项式回归用于仅考虑已的影响因素来估计背景突变率。

在一些实施例中，该系统还包括用于基于分配给肿瘤样品的癌症亚型计算总存活的指令。在一些实施例中，该系统进一步包括用于基于分配给肿瘤样品的癌症亚型计算无进展存活的指令。在一些实施例中，接收到的已鉴定的体细胞突变源自对源自肿瘤样品的核酸的靶向组合测序。

本公开的另一方面是一种用于鉴定癌症类型的全外显子组测序数据内的癌症亚型的系统，该系统包括：(i)一个或多个处理器，以及(ii)一个或多个存储器，所述一个或多个存储器与所述一个或多个处理器耦接，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述系统执行包括以下步骤的操作：在获得的全外显子组测序数据内接收体细胞突变的鉴定；基于接收到的已鉴定的体细胞突变估计肿瘤突变负荷；计算已估计的肿瘤突变负荷的对数转换以提供对数转换的已估计的肿瘤突变负荷；并通过将对数转换的已估计的肿瘤突变负荷建模为高斯混合模型来鉴定癌症亚型。在一些实施例中，使用已鉴定的非同义突变和已鉴定的同义突变估计肿瘤突变负荷。在一些实施例中，通过使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计来估计肿瘤突变负荷。在一些实施例中，在源自患者群体(例如患有相同类型的癌症，例如结直肠癌、子宫内膜癌或胃癌)的全外显子组测序数据中鉴定三种癌症亚型，并且其中三种癌症亚型中的一种包括测序数据具有至少(i)高SNV突变率和(ii)低INDEL突变率的患者。

本公开的另一方面是一种存储用于估计肿瘤突变负荷的指令的非暂时性计算机可读介质，包括：鉴定测序数据中的非同义和同义突变；使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计。在一些实施例中，非暂时性计算机可读介质进一步包括用于导出多个预定突变率参数的指令，例如从训练数据导出的。在一些实施例中，通过对源自全外显子组测序的训练样品中每个基因的观察到的突变数量进行建模来获得多个预定突变率参数。在一些实施例中，非暂时性计算机可读介质进一步包括用于计算已估计的肿瘤突变负荷的对数转换的指令。在一些实施例中，非暂时性计算机可读介质进一步包括用于基于对数转换的已估计的肿瘤突变负荷来分类癌症亚型的指令。在一些实施例中，分类癌症亚型的包括将对数转换的已估计的肿瘤突变负荷建模为高斯混合模型，其中高斯混合模型的每第K个分量代表一种癌症亚型。

附图说明

有关对本公开特征的一般理解，请参考附图。在附图中，整个附图使用相同的附图标记来识别相同的元素。

图1示出了根据一些实施例的包括网络连接到计算机系统的测序装置的系统；

图2示出了根据一些实施例的具有与测序模块和/或存储系统可通信地耦接的训练模块和测试模块的系统。

图3A阐述了根据一些实施例的示出预测新样品的癌症亚型的方法的流程图。

图3B阐述了根据一些实施例的示出预测新样品的癌症亚型的方法的流程图，并进一步示出用于估计肿瘤突变负荷的参数的推导。

图4示出了根据一些实施例的将对数转换的已估计的肿瘤突变负荷建模的方法。

图5A提供了一流程图，其根据一些实施例示出估计不同类型的背景突变率的方法。

图5B提供了一流程图，其根据一些实施例示出估计不同类型的背景突变率的方法。

图5C提供了使用GMM示出基于对数转换的TMB的亚型分类的方法的图表。

图6A提供了结肠直肠癌的对数转换的TMB的(图形A1)分布图。通过高斯混合模型分类确定三个亚型，并在所有类别条中用黑色(TMB-低)、橙色(TMB-高)和蓝色(TMB-极端)标记。每个受试者的MSI状态在msi条中以绿色(MSS)和红色(MSI-H)显示。POLE或dMMR通路基因中存在(出现>1)的非同义突变，包括MLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2以蓝色显示，野生型以黄色显示。(图形B1)三个亚型的INDEL突变率和百分比显示在箱线图中。(图形C1)总结了dMMR/POLE基因中的非同义突变和MSI状态。进行了Fisher精确检验以生成亚型中每个突变谱的p值。

图6B提供(图形A1)子宫内膜癌的对数转换的TMB分布图。通过高斯混合模型分类确定三个亚型，并在所有类别条中用黑色(TMB-低)、橙色(TMB-高)和蓝色(TMB-极端)标记。每个受试者的MSI状态在msi条中以绿色(MSS)和红色(MSI-H)显示。POLE或dMMR通路基因中存在(出现>1)的非同义突变，包括MLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2以蓝色显示，野生型以黄色显示。(图形B1)三个亚型的INDEL突变率和百分比显示在箱线图中。(图形C1)总结了dMMR/POLE基因中的非同义突变和MSI状态。进行了Fisher精确检验以生成亚型中每个突变谱的p值。

图6C提供了胃癌的对数转换的TMB的(图形A1)分布图。通过高斯混合模型分类确定三个亚型，并在所有类别条中用黑色(TMB-低)、橙色(TMB-高)和蓝色(TMB-极端)标记。每个受试者的MSI状态在msi条中以绿色(MSS)和红色(MSI-H)显示。POLE或dMMR通路基因中存在(出现>1)的非同义突变，包括MLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2以蓝色显示，野生型以黄色显示。(图形B1)三个亚型的INDEL突变率和百分比显示在箱线图中。(图形C1)总结了dMMR/POLE基因中的非同义突变和MSI状态。进行了Fisher精确检验以生成亚型中每个突变谱的p值。

图7A示出了存活结果与三种癌症亚型的关联。显示了使用聚合的结直肠、子宫内膜和胃患者通过Kaplan-Meier分析得出的存活曲线。

图7B示出了存活结果与三种癌症亚型的关联。示出了通过cox比例危险模型进行的比例危险比分析。

图8示出了三种亚型中免疫浸润的丰度。

图9A和9B阐述了通过计数(蓝色)或使用本文提出的方法(红色)计算的TMB与x轴中通过“金标准方法”确定的TMB的比较。两个组合，包括FMI组合(A)和AVENIO组合(B)。“黄金标准”是指被广泛采用的计算标准，它是通过使用WES将非同义突变的数量(突变的计数)除以预定义基因组大小来确定的。广泛采用的计算标准显示在x轴上。需要对来自预定义基因组区域的突变总数进行计数的方法将被称为“计数方法”。当计数方法应用于从WES检测到的非同义突变时，它是当前标准TMB测量。据信，在使用计数方法时，基于WES的TMB和基于组合的TMB之间存在不一致。(基于WES的TMB是指由WES数据预测的TMB；基于组合的TMB是指通过靶向组合测序预测的TMB。)FMI组合是指FoundationOne CDxTM(https://www.foundationmedicine.com/genomic-testing/foundation-one-cdx)的靶向测序组合。该组合包含来自324个基因的区域。AVENIO P3组合是指AVENIO ctDNA Surveillance试剂盒的靶向测序组合(https://sequencing.roche.com/en/products-solutions/by-category/assays/ctdna-surveillance-kits.html)。该组合包含来自197个基因的区域。

图10A提供了与聚合的TMB高和TMB低组(底部)相比，在TMB极端组(顶部)中检测到的POLE中驱动突变的全景图。括号中显示了使用二项式检验的富集p值。

图10B和10C提供了与聚合的TMB极端和TMB低组(底部)相比，在TMB高组(顶部)中检测到的MLH3和MSH3中驱动突变的全景图。括号中显示了使用二项式检验的富集p值。

图11提供了一系列图，显示了每种已鉴定的癌症亚型(TMB-低(青色)、TMB-高(绿色)和TMB-极端(蓝色))的总体准确性(红色)、总体κ分数(橙色)和F1分数的比较，其使用通过TMB估计和分类(“ecTMB”)或计数方法预测的TMB进行TMB亚型分类。F1分数是一种衡量测试准确性的方法，它同时考虑了精确率和召回率。公式为F1＝2*(精确率*召回率)/(精确率+召回率)

图12A和12B提供的图显示了GLM模型和最终(3步)方法之间在训练集(图12A)和测试集(图12B)中的的模型准确度的比较。RMSE、MAE和R平方在同义突变的预测数量和每个样品中每个基因(顶部)和聚合样品中每个基因(底部)的观察值之间计算。

图12C、12D和12E示出了针对结直肠癌(图12C)、胃癌(图12D)和子宫内膜癌(图12E)中观察到的突变绘制的每个基因的背景同义(顶部)/非同义(底部)突变的预测数量。GLM模型做出的预测用青色标记，最终(3步)方法做出的预测用黄色标记。几个众所周知的驱动基因被圈出并标记在图12C、12D和12E中。

图13A提供了显示当使用不同比例的非同义突变时预测准确性的比较的图。在对数转换之前(顶部)和对数转换之后(底部)计算预测的TMB和标准基于WES的TMB之间的RMSE、MAE和相关系数。

图13B示出了当不同比例的非同义突变用于TMB估计时的偏差、上限和下限。显示了使用非对数转换值(顶部)和对数转换(底部)的结果。中间的圆圈表示偏差(平均差)，它周围的两条实线是偏差的95％置信区间。顶部的两条虚线是95％一致性上限的95％置信区间；底部的虚线是95％一致性下限的95％置信区间。偏差、上限和下限由Bland—Altman分析确定。

图13C示出了对数转换之前(顶部)和对数转换之后(底部)针对标准基于WES的TMB计算所绘制的预测的TMB。添加了线性回归线。通过计算非同义突变的数量，然后除以外显子组的大小来计算标准基于WES的TMB。

图14A提供了显示当不同比例的非同义突变用于每个癌症和每个组合时预测准确性的比较的图。在对数转换之前(顶部)和对数转换之后(底部)计算基于预测的基于组合的TMB和标准基于WES的TMB之间的RMSE、MAE和相关系数。每个图中的水平线表示使用计数方法时的测量值，它简单地计算每Mb的非同义突变数。

图14B示出了当使用不同比例的非同义突变时计算的偏差、上限和下限。每个图的第一列显示了通过计数方法对TMB预测进行的Bland Altman分析。使用非对数转换值的结果显示在顶部，使用对数转换值显示在底部。中间的圆圈表示偏差(平均差)，其周围的两条实线是偏差的95％置信区间。顶部的两条虚线是95％一致性上限的95％置信区间，底部的虚线是95％一致性下限的95％置信区间。

图14C列出了显示当使用不同比例的非同义突变时ecTMB对三种不同TMB亚型进行分类的总体准确性和κ分数的图。每个图中的水平虚线表示使用计数方法时的测量值。κ分数是指Cohen的κ系数。它是衡量两个分类器之间一致性的统计。其中p_o是观察到的分类器之间的一致性，并且p_e是偶然一致性的假设概率。

图15A提供散点图，其显示对于每种癌症类型和每个组合，针对预测的基于组合的TMB绘制的基于WES的标准TMB。两种方法用于基于组合的TMB预测，包括计数方法(青色)和ecTMB方法(红色)。在每个散点图中，对于每种方法，针对基于WES的TMB和性能测量(相关系数、MAE和RMSE)绘制了他们的线性回归线。

图15B提供了针对基于WES的TMB的计数方法(青色)和ecTMB方法(红色)的一系列Bland Altman分析结果。中间的圆圈表示偏差(平均差)，其周围的两条实线是偏差的95％置信区间。顶部的两条虚线是95％一致性上限的95％置信区间，底部的虚线是95％一致性下限的95％置信区间。

图16A、16B和16C提供了结直肠癌(图16A)、子宫内膜癌(图16B)和胃癌(图16B)的对数转换的TMB的分布图。通过高斯混合模型分类确定三个亚型，并在所有类别条中用黑色(TMB-低)、橙色(TMB-高)和蓝色(TMB-极端)标记。每个受试者的MSI状态在msi条中以绿色(MSS)和红色(MSI-H)显示。POLE或dMMR通路基因中存在(出现＞1)的非同义突变，包括MLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS2以蓝色显示，而野生型以黄色显示。

图17以对数标度提供了每种癌症类型的TMB分布图(左侧图形)。右侧图形中提供了对数转换的TMB分布的热图。K-means聚类方法用于生成五个聚类，如左侧所示。

图18A、18B、18C、18D和18E提供了每种癌症的对数转换的TMB的分布：1组(A)、2组(B)、3组(C)、4组(D)和5组(E)。每组中每种单独的癌症的对数转换的TMB分布显示在左侧。

图19A、19B、19C、19D和19E阐述了MLH1(图A)、PMS1(图B)、MSH2(图C)、MSH6(图D)和PMS2(图E)中的突变全景图在TMB-高(顶部)和聚合的TMB-极端和TMB-低组(底部)之间的比较。突变的发生率在y轴中示出。各种类型的突变用蓝色(框_移_缺失)、紫色(框_移_插入)、绿色(错义_突变)、橙色(无移_突变)和黄色(剪接_位点)标记。

图20A、20B和20C提供的图显示了每个样品的预测的基于组合的TMB和标准基于WES的TMB的平均值与其差异(即Bland-Altman分析的图，其绘制了x轴中的平均差、同一对象在y轴的两个度量的平均值。Bland-Altman分析如上所述。紫色区域中心的虚线表示偏差(平均差)，紫色区域表示偏差的95％置信区间。绿色区域显示上限及其95％置信区间，红色区域显示下限及其95％置信区间。对FoundationOne(A)、MSK-IMPACT(B)和TST170组合进行了Bland Altman分析。通过计数方法做出的预测显示在顶部，ecTMB做出的预测显示在底部。

图21提供的散点图比较基于WES的标准TMB与通过在移除COSMIC变体(蓝色)或添加同义突变(黄色)后计算非同义突变而预测的TMB。

图22提供的散点图显示对于每种癌症类型和组合，针对预测的基于组合的TMB绘制的基于WES的标准TMB。两种方法用于基于组合的TMB预测，包括计数方法(青色)和ecTMB(红色)。在每个散点图中，对于每种方法，针对基于WES的TMB和性能测量(相关系数、MAE和RMSE)绘制了他们的线性回归线。显示了针对基于WES的TMB的计数方法(青色)和ecTMB(红色)的Bland Altman分析结果。中间的圆圈表示偏差(平均差)，其周围的两条实线是偏差的95％置信区间。顶部的两条虚线是95％一致性上限的95％置信区间，底部的虚线是95％一致性下限的95％置信区间。

具体实施方式

还应该理解的是，除非指明是相反情况，否则在本文所要求保护的包括一个以上步骤或动作的任何方法中，所述方法的所述步骤或动作的顺序不必限于表述所述方法的所述步骤或动作的所述顺序。

如本文所用，除非上下文另有明确指示，否则单数形式“一(a/an)”和“该/所述”包括复数个指代物。同样，除非上下文另有明确指示，否则词语“或”旨在包括“和”。术语“包括”定义为包容性，如“包括A或B”是指包括A、B或A和B。

如本文在说明书和权利要求书中所用，“或”应理解为与上文定义的“和/或”具有相同的含义。例如，在分隔列表中的项目时，“或”或“和/或”应解释为具有包容性，即包含若干元素或元素列表中的至少一个元素，但也包含一个以上元素，以及可选地包含额外的未列出的项目。只有指明与之相反的术语，如“只有一个”或“恰好一个”，或者在权利要求中使用的“由...组成”，将指包含若干元素或元素列表中的恰好一个元素。一般来说，本文使用的术语“或者”只有在前面有“或”、“其中之一”、“只有一个”或“恰好一个”等排他性术语时，才应解释为表示排他性的替代选择(即“一个或另一个，但不是两个”)。在权利要求书中使用的“基本上由...组成”应具有在专利法领域使用的普通含义。

“包括”、“包含”、“具有”等术语可互换使用，且含义相同。类似地，“包括”、“包含”、“具有”等可互换使用并且具有相同的含义。具体而言，每个术语的定义都与普通美国专利法对“包括”的定义一致，因此每个术语都可理解为一个开放性术语，其含义为“至少以下”，并且也可理释为不排除额外的特征、限制、方面等。因此，例如“具有组件a、b和c的装置”是指所述装置至少包括组件a、b和c。同样，短语：“涉及步骤a、b和c的方法”是指所述方法至少包括步骤a、b和c。此外，尽管本文可以特定的顺序概述步骤和过程，但是本领域技术人员将认识到，所述顺序步骤和过程可能会有所不同。

如本文在说明书和权利要求书中所用，就一个或多个元素的列表而言，短语“至少一个”应理解为选自元素列表中任何一个或多个元素的至少一个元素，但不一定包括元素列表中具体列出的每个元素中的至少一个，也不排除元素列表中的任何元素组合。除了在短语“至少一个”所涉及的元素列表中具体确定的元素之外，该定义还允许其他元素可选地存在，无论这些元素与具体确定的元素相关与否。因此，作为一个非限制性实例，“A和B中的至少一个”(或者等效地，“A或B中的至少一个”，或者等效地，“A和/或B中的至少一个”)在一个实施例中可以指至少一个可选地包括一个以上的A，但没有B(以及选择性地包括B以外的元素)；在另一个实施例中，指至少一个选择性地包括一个以上的B，但没有A(以及选择性地包括A以外的元素)；在又一个实施例中，指至少一个选择性地包括一个以上的A，以及至少一个选择性地包括一个以上的B(以及选择性地包括其他元素)等。

如本文所用，术语“生物学样品”、“组织样品”、“标本”或类似的术语是指从包括病毒在内的任何生物体中获得的包括生物分子(例如蛋白质、肽、核酸、脂质、碳水化合物或其组合)在内的任何样品。其他生物体的实例包括哺乳动物(例如人类；兽类动物，如猫、狗、马、牛和猪；以及实验室动物，如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物学样品包括组织样品(例如组织切片和组织的穿刺活检)、细胞样品(例如细胞学涂片，如子宫颈涂片或血液涂片或通过显微解剖获得)，或细胞级分、碎片或细胞器(例如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物学样品的其他实例包括血液、血清、尿液、精液、粪便、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如，通过手术活检或穿刺活检获得)、乳头抽吸物、耵聍、乳汁、阴道分泌物、唾液、拭子(例如口腔拭子)、或任何含有生物分子且从第一生物学样品导出的材料。在某些实施例中，本文使用的术语“生物学样品”是指从受试者获得的肿瘤或其一部分制备的样品(例如经均质或液化处理的样品)。

如本文所用，术语“dMMR”代表有缺陷的错配修复。当细胞无法修复分裂过程中出现的错误时，就会发生MSI-H/dMMR。

如本文所用，术语“免疫疗法”是指通过包括诱导、增强、抑制或以其他方式改变免疫系统或免疫应答的方法治疗遭受疾病或有患病风险或复发疾病风险的受试者。在某些实施例中，免疫疗法包括向受试者施用抗体。在其他实施例中，免疫疗法包括向受试者施用小分子。在其他实施例中，免疫疗法包括施用细胞因子或其类似物、变体或片段。

如本文所用，术语“Indel”是指生物基因组中碱基的插入或缺失。它被归类为小的遗传变异，长度为1到10000个碱基对。

如本文所用，术语“MSI-H”代表微卫星不稳定性高。一般来说，这描述了癌细胞具有比正常数量更多的称为微卫星的遗传标记。微卫星是短的、重复的DNA序列。具有大量微卫星的癌细胞可能在纠正细胞中DNA复制时发生的错误的能力方面存在缺陷。微卫星不稳定性最常见于结直肠癌、其他类型的胃肠癌和子宫内膜癌。它也可能存在于乳腺癌、前列腺癌、膀胱癌和甲状腺癌中。

如本文所用，术语“非同义突变”或“非同义取代”是指改变蛋白质氨基酸序列的核苷酸突变。非同义取代不同于同义取代，同义取代不会改变氨基酸序列并且是(有时)沉默突变。由于非同义取代会导致生物体发生生物学变化。与同义突变相比，非同义突变对个体的影响要大得多。转录过程中序列中单个核苷酸的插入或缺失只是非同义突变的一种可能来源。然而，据信大多数非同义突变是由单个核苷酸的取代引起的。据信，具有单个核苷酸取代的非同义突变将通过取代称为错义突变的不同氨基酸或用称为无义突变的终止密码子代替原始氨基酸来改变氨基酸序列。无义突变会导致RNA转录提前终止。

如本文所用，术语“组合(panel)”或“癌症组合”是指对靶向癌症基因的子集进行测序的方法。在一些实施例中，该组合包括对至少约15种、至少约20种、至少约25种、至少约30种、至少约35种、至少约40种、至少约45种或至少约50种靶向癌症基因进行测序。

如本文所用，术语“POLE基因”是指编码DNA聚合酶ε的催化亚基的基因。该酶参与DNA修复和染色体DNA复制。该基因的突变与常染色体显性结肠腺瘤性息肉和结直肠癌的风险增加有关。

如本文所用，术语“程序性死亡-1”(PD-1)是指属于CD28家族的免疫抑制性受体。PD-1主要在体内先前活化的T细胞上表达，并与两种配体PD-L1和PD-L2结合。如本文所用，术语“PD-1”包括人PD-1(hPD-1)、hPD-1的变体、同种型和物种同源物，以及与hPD-1具有至少一个共同表位的类似物。完整的hPD-1序列可以在GenBank登录No.U64863下找到。

如本文所用，术语“程序性死亡配体-1”(PD-L1)是指PD-1的两种细胞表面糖蛋白配体中的一种(另一种是PD-L2)，其在与PD-1细胞结合后下调T细胞活化和细胞因子分泌。如本文所用，术语“PD-L1”包括人PD-L1(hPD—L1)、hPD-L1的变体、同种型和物种同源物，以及与hPD-L1具有至少一个共同表位的类似物。完整的hPD-L1序列可以在GenBank登录No.Q9NZQ7下找到。

如本文所用，术语“序列数据”或“测序数据”指技术人员已知的关于核酸分子的任何序列信息。序列数据可以包括有关必须转换成核酸序列的DNA或RNA序列、修饰的核酸、单链或双链体序列、或可替代地氨基酸序列的信息。序列数据可以另外包括关于测序设备、获取日期、读取长度、测序方向、已测序实体的来源、相邻序列或读取、重复的存在或本领域技术人员已知的任何其它合适的参数的信息。序列数据可以以本领域技术人员已知的任何合适的格式、档案、编码或文档来呈现。在一些实施例中，测序数据可以是训练数据(例如来自患有特定类型癌症的患者群组)或测试数据(例如来自受试者的“新”肿瘤样品)。

如本文所用，术语“单核苷酸变体”或“SNV”是指单个核苷酸中的变异，没有任何频率限制并且可能在体细胞中出现。

如本文所用，本文所用的术语“体细胞突变”是指受孕后发生的DNA获得性改变。体细胞突变可发生在除生殖细胞(精子和卵子)之外的任何身体细胞中，因此不会传递给儿童。这些改变可能但并不总是导致癌症或其他疾病。术语“种系突变”是指身体生殖细胞(卵子或精子)中的基因变化，该变化被整合到后代体内每个细胞的DNA中。种系突变从父母传给后代。也称为“遗传性突变”。在TMB分析中，种系突变被视为“基线”，并从肿瘤活检中发现的突变数量中减去以确定肿瘤内的TMB。由于在体内的每个细胞中都发现了种系突变，因此可以通过比肿瘤活检更小的侵入性样品(例如血液或唾液)收集来确定它们的存在。种系突变会增加患某些癌症的风险，并可能在对化疗的应答中发挥作用。

如本文所用，术语“受试者”包括任何人类或非人类动物，例如人类患者。在一些实施例中，受试者患有或疑似患有癌症。

如本文所用，术语“同义突变”或“同义取代”是指在编码蛋白质的基因的外显子中一种碱基对另一种碱基的演化取代，使得产生的氨基酸序列不被修饰。换句话说，同义突变是点突变，这意味着它们只是错误复制的DNA核苷酸，只会改变DNA的RNA拷贝中的一个碱基对。在一些实施例中，同义突变是编码蛋白质序列中的氨基酸但不改变编码的氨基酸的DNA序列的变化。由于遗传密码的冗余(同一氨基酸有多个密码子编码)，这些变化通常发生在密码子的第三个位置。例如，GGT、GGA、GGC和GGG都编码为甘氨酸。密码子第三个位置的任何变化(例如A-＞G)都会导致相同的氨基酸被并入蛋白质序列那个位置的中。

如本文所用，药物或治疗剂的“治疗有效量”或“治疗有效剂量”是当单独使用或与另一种治疗剂联合使用时保护受试者免于疾病发作或促进疾病消退的药物的任何量，所述疾病消退表现为疾病症状严重度的降低、无疾病症状期的频率和持续时间的增加、或预防由于疾病折磨引起的损伤或残疾。治疗剂促进疾病消退的能力可以使用技术人员已知的多种方法来评估，例如在临床试验期间在人类受试者中，在预测人类中疗效的动物模型系统中，或通过测定体外测定中的试剂活性。

如本文所用，术语“肿瘤突变负荷”或“TMB”是指肿瘤基因组中体细胞突变的数量和/或肿瘤基因组每区域的体细胞突变数量。在一些实施例中，如本文所用，TMB是指测序的DNA的每兆碱基(Mb)的体细胞突变数。在一些实施例中，当确定TMB时排除种系(遗传的)变体，鉴于免疫系统更有可能将这些变体识别为自身。肿瘤突变负荷(TMB)也可以与“肿瘤突变的载荷”、“肿瘤突变的负荷”或“肿瘤突变载荷”互换使用。在一些实施例中，TMB状态可以是数值或相对值，例如极端、高或低；在参考集的最高分位数内或最高三分位数内。

概述

在预测对免疫疗法的应答的新生物标志物中，突变载荷或肿瘤突变负荷已被证明与免疫治疗应答相关。肿瘤突变负荷提供了肿瘤基因组每个编码区域的体细胞非同义突变总数的定量测量。与免疫疗法(其特异于肿瘤表达的某些免疫蛋白)的大多数癌症生物标志物不同，TMB仅源自突变。据假设，具有较高突变负荷的肿瘤更有可能表达新抗原，并在存在免疫检查点抑制剂的情况下诱导更稳健的免疫应答。事实上，已经发现一些具有更多体细胞突变的肿瘤可能更容易受到免疫应答的影响，因此确定那些具有相对更高的肿瘤突变负荷的肿瘤很重要，以便可以鉴定和施用适当的疗法。例如，具有分类为“极端TMB”的癌症亚型的患者可能比具有分类为“高TMB”或“低TMB”的癌症亚型的患者对特定治疗性治疗(例如使用检查点抑制剂)更具有应答。因此，肿瘤突变负荷可作为预测免疫疗法疗效的稳健生物标志物。鉴于上述关于肿瘤突变负荷计算的不一致，申请人开发了一种利用已鉴定的非同义突变和同义突变计算肿瘤突变负荷的改进方法，该新方法有利地去除了驱动基因效应。

本公开提供分类和/或鉴定癌症亚型的系统和方法。在一些实施例中，本公开提供基于测试样品的预测的肿瘤突变负荷，来预测肿瘤突变负荷和/或鉴定癌症亚型的方法。本公开至少部分基于以下发现：确定从受试者获得的肿瘤组织样品中的体细胞突变(例如同义突变和/或非同义突变)的水平，预测肿瘤突变负荷，和/或分类癌症亚型可用作以下项的生物标志物(例如，预测性生物标志物)：用于治疗患有癌症的受试者、用于治疗怀疑患有癌症的受试者、用于诊断患有癌症或怀疑患有癌症的受试者、和/或用于确定患有癌症的受试者是否可能对抗癌疗法(例如包括免疫检查点抑制剂，例如抗PD-L1抗体的疗法)的治疗有应答。

本公开还提供通过在计算方法中使用同义和非同义体细胞突变两者来增强对肿瘤突变负荷的预测的方法。据信，通过增加肿瘤突变负荷计算中的突变数量，可以得到相对更一致的肿瘤突变负荷，特别是对于靶向组合测序(比较图9A和9B)。TMB测量的当前标准需要在肿瘤样品与匹配的正常样品的全外显子组测序中计算非同义体细胞突变的数量(本文称为“计数方法”)。然而，基于测序技术的临床诊断仍然严重依赖靶向组合测序。因此，关键的挑战是与使用计数方法基于WES的测量相比，基于组合的TMB测量的不一致。如上所述，据信基于组合的TMB可能会高估TMB，因为在应用计数方法时，组合富集了驱动突变和突变热点。两个靶向组合实例，如图9A(FMI组合)和9B(AVENIO组合)所示，示出了与计数方法(蓝色)进行的当前标准TMB测量(在x轴)相比，计数方法高估了TMB。本文提出的方法提供优于计数方法的组合(红色)的TMB估计，因为本公开的方法比通过计数方法进行的TMB估计相对更一致。还认为可以通过在肿瘤突变负荷计算方法中使用同义和非同义体细胞突变来系统地消除驱动突变效应。

图1阐述了系统100，包括通信地耦接至处理子系统102的测序装置110。测序设备110可以直接(例如通过一个或多个通信电缆)或通过一个或多个有线和/或无线网络130耦接至处理子系统102。在一些实施例中，处理子系统102可以包括在或集成在测序设备110中。在一些实施例中，系统100可以包括软件，以命令测序设备110使用某些用户可配置参数来执行某些操作，并将所获得的所得测序数据发送到所述处理子系统102或存储子系统(例如本地存储子系统或联网存储设备)。在一些实施例中，处理子系统102或测序设备110可耦接至网络130。在一些实施例中，存储设备耦接至网络130，用于存储或检索序列数据、患者信息和/或其它组织数据。所述处理子系统102可以包括显示器108和一个或多个输入设备(未示出)，用于从用户或操作员(例如，技术员或遗传学家)接收命令。在一些实施例中，用户界面由处理子系统102呈现并提供在显示器108上以(i)从测序装置检索数据；(ii)从数据库或存储系统240中检索患者信息和/或其他临床信息，例如可通过网络获得的；(iii)或利用测序数据进行进一步的处理操作。

处理子系统102可以包括单个处理器(其可以具有一个或多个核)，或者可以包括多个处理器(每个具有一个或多个核)。在一些实施例中，处理子系统102可以包括一个或多个通用处理器(例如CPU)、专用处理器(例如图形处理器，GPU)、数字信号处理器、或这些和其它类型的处理器的任意组合。在一些实施例中，可以使用例如专用集成电路(ASIC)或现场可编程门阵列(FPGA)之类的定制电路来实现处理子系统中的一些或所有处理器。在一些实施例中，这样的集成电路执行存储在电路本身上的指令。在其他实施例中，处理子系统102可以检索并执行存储在存储子系统和/或一个或多个存储器中的指令，并且这些指令可以由处理子系统102执行。举例来说，处理子系统102可以执行指令以接收和处理存储在本地或网络存储系统内的测序数据。

存储子系统240可以包括各种存储器单元，例如系统存储器、只读存储器(ROM)和永久存储装置。ROM可以存储处理子系统和系统的其它模块所需的静态数据和指令。所述永久存储设备可以是读写存储设备。该永久存储装置可以是即使在系统断电时也存储指令和数据的非易失性存储单元。在一些实施例中，大容量存储设备(例如磁盘或光盘或闪存)可以用作永久存储设备。其它实施例可以使用可移动存储设备(例如闪存驱动器)作为永久存储设备。所述系统存储器可以是读写存储装置，也可以是易失性读写存储器(例如动态随机存取存储器)。所述系统存储器可以存储处理器在运行时所需的部分或全部指令和数据。存储子系统可以包括非暂时性计算机可读存储介质的任意组合，包括各种类型的半导体存储芯片(DRAM、SRAM、SDRAM、闪存、可编程只读存储器)等等。

图2概述了在本公开的系统内利用的各种模块。在一些实施例中，系统采用具有一个或多个处理器209和一个或多个存储器201的计算机装置或计算机实现的方法，所述一个或多个201存储用于由一个或多个处理器执行的非暂时性计算机可读指令，以使一个或多个处理器209执行一个或多个模块(如模块202至207)中的指令(或存储数据)。在一些实施例中，系统包括训练模块230和测试模块210，两者都将在本文中描述。

参考图2、3A和3B，本公开提供了一种用于对肿瘤样品(例如来自人类患者的样品)进行分类的系统，包括：测序模块202，用于生成测序数据(步骤310)；突变鉴定模块203，用于鉴定获取的测序数据内的体细胞突变(步骤3210)；肿瘤突变负荷估计模块204，用于基于已鉴定的体细胞突变估计肿瘤突变负荷(步骤320)并计算已估计的肿瘤突变负荷的对数转换(步骤330)；和高斯混合模型模块205，用于基于对数转换的已估计的肿瘤突变负荷为肿瘤样品分配癌症亚型(步骤340)。在一些实施例中，模块203、204和205是测试模块210的一部分，由此生物学样品，例如来自被诊断患有癌症或怀疑患有癌症的患者的肿瘤样品被分类。

再次参考图2、3A和3B，本公开还提供了训练模块230。在一些实施例中，训练模块是系统100的一部分。在其他实施例中，训练模块是不同系统的一部分，但是其中使用训练模块230从训练得到的训练数据被提供给测试模块210，使得肿瘤样品可以基于训练数据(例如从训练得到的参数)进行分类。在一些实施例中，训练模块230可包括背景突变率训练模块206或高斯混合模型训练模块207中的一个或两个。在一些实施例中，背景突变率训练模块206使得可以导出用于估计肿瘤突变负荷的参数(步骤370)。因此，在一些实施例中，并参考图3B，系统可以使用背景突变率训练模块206来基于输入训练数据(例如从全外显子组测序导出的输入训练数据)导出用于估计肿瘤突变负荷的一个或多个参数(参见步骤360)，其中参数最终在最大似然估计过程内用于导出已估计的肿瘤突变负荷(步骤370)。在一些实施例中，系统还可以包括高斯混合模型训练模块208，使得用于将对数转换的TMB建模的参数可以在高斯混合模型内建模。技术人员还将理解，可以将额外的模块并入工作流程中，并与训练模块230或测试模块210一起使用。在一些实施例中，训练模块230可以与测试模块210共享模块203、204和205中的一些。

测序模块

在一些实施例中，对源自生物学样品的核酸样品(DNA、cDNA、mRNA、exoRNA、ctDNA和cfDNA)进行测序(步骤300)。在一些实施例中，核酸样品可以从任何类型的合适的生物学标本或样品(例如，测试样品)中分离。在癌症的背景下，生物学样品的非限制性实例包括癌性肿瘤、良性肿瘤、转移性肿瘤、淋巴结、血液或其任何组合。在一些实施例中，生物学样品是肿瘤组织活检，例如福尔马林固定的石蜡包埋(FFPE)的肿瘤组织或新鲜冷冻的肿瘤组织等。在一些实施例中，生物学样品是液体活检，在一些实施例中，其包含血液、血清、血浆、循环肿瘤细胞、exoRNA、ctDNA和cfDNA中的一种或多种。如本文所用，术语“血液”涵盖全血或血液的任何级分，诸如例如常规定义的血清和血浆。

测序技术的进步允许评估肿瘤的基因组突变全景图和/或生成用于下游分析的测序数据。本领域技术人员已知的任何测序方法可用于对来自生物学样品的核酸进行测序。例如，测序样品的方法在PCT公开号WO/2017/123316和WO/2017/181134中描述，其公开内容在此通过引用整体并入本文。

在一些实施例中，测序方法包括PCR或qPCR方法、Sanger测序和染料终止测序，以及下一代测序技术(例如基因组谱分析和外显子组测序)包括焦磷酸测序、纳米孔测序、基于微孔的测序、纳米球测序、MPSS、SOLiD、Illumina、Ion Torrent、Starlite、SMRT、tSMS、合成测序、连接测序、质谱测序、聚合酶测序、RNA聚合酶(RNAP)测序、基于显微镜的测序、微流控Sanger测序、基于显微镜的测序、RNAP测序、隧道电流DNA测序和体外病毒测序。此类方法在PCT公开号WO/2014/144478、WO/2015/058093、WO/2014/106076和WO/2013/068528中有所描述，其公开内容在此通过引用整体并入本文。

合成测序被定义为任何测序方法，其监测在测序反应期间掺入特定脱氧核苷-三磷酸后副产物的产生(Hyman，1988，Anal.Biochem.174：423-436；Rhonaghi et al.，1998，Science 281：363-365)。在一些实施例中，边合成边测序使用焦磷酸盐测序方法。在这种情况下，核苷酸掺入过程中焦磷酸盐的产生由导致化学发光信号产生的酶促级联监测。在一些实施例中，合成反应测序可以可替代地基于测序反应的终止染料类型。在这种情况下，掺入的染料脱氧核苷三磷酸(ddNTPs)结构单元包含可检测标记，其优选为防止新生DNA链进一步延伸的荧光标记。然后在将ddNTP结构单元掺入模板/引物延伸杂交体中后，例如通过使用包含3′-5′核酸外切酶或校对活性的DNA聚合酶去除和检测标记。在一些实施例中，使用下一代测序方法例如Illumina，Inc.提供的方法(“Illumina测序方法”)进行测序。据信，该过程同时鉴定DNA碱基，同时将它们掺入到核酸链中。每个碱基在添加到生长链时都会发出独特的荧光信号，用于确定DNA序列的顺序。

多核苷酸(例如DNA或RNA)的纳米孔测序可以通过对多核苷酸序列的链测序和/或外显子测序来实现。在一些实施方案中，链测序包括在多核苷酸模板的核苷酸穿过纳米孔时直接确定样品多核苷酸链的核苷酸碱基的方法。在一些实施例中，基于纳米孔的核苷酸测序使用四种核苷酸类似物的混合物，这些核苷酸类似物可以通过酶掺入生长链中。在一些实施方案中，多核苷酸可以通过将其穿过隔膜中的微孔来测序。在一些实施例中，碱基可以通过它们影响离子从隔膜的一侧流过孔到达另一侧的方式来鉴定。在一些实施方案中，一种蛋白质分子可以将DNA螺旋“解压缩”成两条链。第二种蛋白质可以在隔膜中产生孔并且保持“衔接子”分子。穿过孔的离子流可以产生电流，由此每个碱基都可以不同程度地阻挡离子流，从而改变电流。衔接子分子可以将碱基保持在适当位置足够长的时间，以便它们可以通过电子方式识别(参见PCT公布号Wo/2018/034745，以及美国专利申请公布号2018/0044725和2018/0201992，这些公布的公开内容据此全文以引用方式并入本文)。

在一些实施例中，进行全外显子组测序(步骤300)。外显子组是由外显子或编码区形成的基因组的一部分，当转录和翻译时会表达为蛋白质。外显子组仅占整个基因组的2％左右。因为整个基因组要大得多，外显子组能够以更低的成本以更大的深度(给定核苷酸测序的次数)进行测序。这种更大的深度被认为为低频变化提供了更大的信心。

通过使用靶向或“热点”测序组合，测序深度可以以更低的成本变得更大，该组合具有选定数量的特定基因、或已知含有导致疾病(例如一种癌症)发病机制的突变的基因内的编码区域，并且可能包括临床可操作的目标基因。因此，在一些实施例中，进行靶向测序，例如针对特定疾病、疾患或癌症的靶向组合(步骤300)。在一些实施例中，基因组(或基因)谱分析方法可以涉及一组预定基因，例如150-500个基因，并且在一些情况下，在该基因组合中评估的基因组改变与总体细胞相关。在一些实施例中，基因组谱分析涉及一组预定义的基因组合，包括少至五个基因或多至1000个基因、约25个基因至约750个基因、约100个基因至约800个基因、约150个基因至约500个基因、约200个基因至约400个基因，约250个基因至约350个基因。在一个实施例中，基因组谱包含至少300个基因、至少305个基因、至少310个基因、至少315个基因、至少320个基因、至少325个基因、至少330个基因、至少335个基因、至少340个基因、至少345个基因、至少350个基因、至少355个基因、至少360个基因、至少365个基因、至少370个基因、至少375个基因、至少380个基因、至少385个基因、至少390个基因、至少395个基因、或至少400个基因。在另一个实施例中，基因组谱包含至少325个基因。靶向定制组合的开发公开于US公开No.2009/0246788中，其公开内容在此通过引用整体并入本文。

组合的实例包括FoundationOne CDx和Memorial Sloan Kettering-Integrated Mutation Profiling of Actionable Cancer Targets(MSK-IMPACT)靶向测序组合，该组合针对468个单独的癌症相关基因，从而覆盖了1.5Mb的人类基因组。组合的另一个实例是测定，它被认为是一种实体瘤的全面基因组谱分析测定，实体瘤包括但不限于肺癌、结肠癌和乳腺癌、黑色素瘤和卵巢癌的实体瘤。据信，/>测定使用杂交捕获、下一代测序测试来鉴定基因组改变(碱基取代、插入和缺失、拷贝数改变和重排)并选择基因组特征(例如TMB和微卫星不稳定性)。该测定涵盖322个独特基因，包括315个癌症相关基因的整个编码区，以及从28个基因中选择的内含子。

在一些实施例中，在对输入生物学样品(或源自生物学样品的核酸样品)进行测序之后导出的测序数据可以存储在存储子系统240中以供以后检索。在一些实施例中，所获得的测序数据可以提供给测试模块210，例如突变鉴定模块203。可替代地，可以检索存储的测序数据并且可以将其提供给测试模块230，从而可以生成训练数据。

突变鉴定模块

在测序(步骤300)之后，可以分析测序数据，使得可以在测序数据内鉴定体细胞突变(步骤310)。在一些实施例中，从存储系统240检索测序数据。在一些实施例中，测序数据包括测试数据，即源自患者的生物学样品的测序数据。在其他实施例中，测序数据是训练数据，即源自公共可用数据库的测序数据，并且其包括患有相同类型疾病(例如同一种癌症)的多个患者的测序数据。

在一些实施例中，MuTect用于检测测序数据中的突变(参见https://software.broadinstitute.org/cancer/cga/mutect；也参见美国专利公开号2015/0178445，其公开内容在此通过引用整体并入本文)。例如，MuTect可以将配对的肿瘤样品和正常样品的下一代测序数据作为输入，并且在去除低质量读段后，确定是否有证据表明存在超出预期随机测序错误的变体(变体检测将在下面更详细地讨论)。然后将候选变体位点通过例如一个或多个过滤器以去除测序和比对伪影。接下来，可以使用一组法线来筛选出由只能使用更多样品才能检测到的罕见错误模式引起的剩余假阳性。最后，使用匹配的正常样品确定传递变体的体细胞或种系状态。

在一些实施例中，MuTect可以在读段与参考基因组比对和预处理步骤(包括例如标记重复读段、重新校准碱基质量分数和局部重新比对)之后，将来自匹配的肿瘤和正常DNA的序列数据作为输入。该方法独立操作每个基因组位点，包括四个关键步骤：(i)去除低质量的序列数据(基于已知方法)；(ii)使用贝叶斯分类器检测肿瘤中的变异；(iii)过滤以去除错误模型未捕获的相关测序伪像导致的假阳性；以及(iv)用第二个贝叶斯分类器将变体指定为体细胞的或种系的。

在一些实施例中，统计分析通过使用两个贝叶斯分类器来预测体细胞突变-第一个分类器旨在检测肿瘤的给定位点是否是非参考的，对于那些被发现为非参考的位点，第二个分类器确保正常样品不携带变体等位基因。在实践中，分类是通过计算LOD分数(logodds)并将其与由所考虑事件的先验概率的对数比确定的截止值进行比较来执行的。

作为MuTect的替代方案，其他体细胞变体调用包括MuSE、VarScan、VarDict、NeuSomatic、SomaticSeq、SEURAT和STRELKA。在一些实施例中，测序数据内的突变可以使用美国公开号2017/0132359和2017/0362659中公开的任何系统和方法来鉴定，其公开内容在此通过引用整体并入本文。

在一些实施例中，体细胞突变的鉴定包括鉴定非同义和同义突变。在其他实施例中，体细胞突变的鉴定包括仅鉴定同义突变。在一些实施例中，每个突变可以通过变体效应预测器进行注释，其可以预测突变的效应，包括该突变是同义突变还是非同义突变。(参见McLaren et al.，“The Ensembl Varient Effect Predictor，”Genome Biology 2016，17：122，其公开内容在此通过引用整体并入本文)。

一旦被鉴定，非同义和同义突变就可以存储在存储模块240中以供以后检索和/或下游处理。

肿瘤突变负荷估计模块

随后，基于已鉴定的体细胞突变(来自步骤310)估计肿瘤突变负荷(步骤320)。在一些实施例中，使用已鉴定的非同义突变估计肿瘤突变负荷。在这些实施例中，通过将鉴定的非同义突变的总数除以预定的基因组大小来估计肿瘤突变负荷，即样品中鉴定的突变总数除以样品中测序的碱基数。例如，对于全外显子组的组合，靶向区域可能约为50Mb，并且鉴定出约500个体细胞突变的样品可能具有10个突变/Mb的估计TMB。然后可以进一步处理以这种方式估计的肿瘤突变负荷，并且仅基于非同义突变，即进行对数转换，然后将对数转换数据提供给高斯混合模型模块205。

在一些实施例中，使用已鉴定的非同义突变和已鉴定的同义突变估计肿瘤突变负荷(步骤350)。在一些实施例中，通过使用已鉴定的非同义和同义突变以及多个预定突变率参数进行最大似然估计来估计肿瘤突变负荷。最大似然估计是一种确定模型参数值的方法。在一些实施例中，发现参数值使得它们最大化模型描述的过程产生实际观察到的数据的可能性。

例如，假设基因A的突变遵循均值λ(0＜λ＜10)的简单泊松分布。该统计模型的似然函数为样品S＝{1，2，3...}的基因A(X)中观察到的突变数量为X＝{5，2，4，...}。参数λ可以使用最大似然方法通过迭代表示λ(0，10)内的数字来估计，直到λ可以最大化似然函数/>

在一些实施例中，使用从训练(例如使用背景突变训练模块206)学习的预定义参数(本文所述)，对于给定的新样品s′，每个基因被建模为独立的零膨胀泊松过程。然后，最大似然估计(MLE)用于估计b_s’(样品突变率)，通过使用预定义参数和观察到的每个基因的突变计数最大化公式[1]。本步骤中，n为基因数，k为n个基因中观察到的突变为0的基因数，Y_g＝{y₁，y₂...，y_g}为样品s’中的同义突变计数(或非同义突变计数的一部分)。在一些实施例中，从训练中学习的参数(即，从使用背景突变率训练模块206的训练中学习到的)包括α′_g、p_g和E_g，例如本文所定义的。

在一些实施例中，多个预定突变率参数包括(i)基因特异性突变率因子，和(ii)上下文特异性突变率。在一些实施例中，上下文特异性突变率选自由(i)三核苷酸上下文特异性突变率、(ii)二核苷酸上下文特异性突变率和(iii)突变特征组成的组。

多项研究表明，不同基因的突变率与基因的位置、表达水平和基因的功能类型有关。例如，在DNA复制过程中复制较晚或不具有开放染色质状态的区域的基因的突变率相对更高。具有极低表达水平的基因或属于嗅觉受体基因家族的基因被认为具有较高的突变率。这些已知的因子可以通过回归聚合来生成基因特异性的突变因子(α)。

据报道，不同的诱变剂会导致特定的突变模式。例如，紫外线照射主要导致C＞T突变，其扩展上下文TC＞TT或(C|T)C＞(C|T)T。突变的DNA聚合酶ε可以在扩展上下文TCG>TTG或TCT>TAT中主要引起C>T突变。(参见Poon et al.，“Mutation signatures ofcarcinogen exposure：genome-wide detection and new opportunities for cancerprevention，”Genome Medicine20146：24，the disclosure of which is herebyincorporated by reference herein in its entirety)。此外，大群组分析揭示了许多突变特征，显示为六种取代亚型：C>A、C>G、C＞T、T＞A、T＞C和T＞G。(参见例如，https://cancer.sanger.ac.uk/cosmic/signatures，其公开内容在此通过引用整体并入本文)。这些突变特征中的一些被证明是由已知的诱变剂引起的。例如，COMSMIC数据库中的特征4显示是由吸烟引起的。

在一些实施例中，一旦估计了肿瘤突变负荷，则对已估计的肿瘤突变负荷进行转换(即执行数据转换)，例如使偏态分布更不偏态(即，使数据符合正态性或将正偏态分布正态化)，以提供可辨别的模式，或降低可变性(即稳定变异性)。在一些实施例中，转换为对数转换。在一些实施例中，一旦估计肿瘤突变负荷(步骤320)，例如使用(i)仅非同义突变或(ii)非同义突变和同义突变两者估计的肿瘤突变负荷，然后可以计算已估计的肿瘤突变负荷的对数转换(步骤330)。在一些实施例中，通过对已估计的肿瘤突变负荷取对数来计算对数转换。对数可以是，仅作为示例，自然对数(即Log(自然)计算数据集的自然(Naperian，以e为底的对数))、log(10)(即log(底10)计算常见的(以10为底的对数)数据集的对数)、log(2)等。例如，患者的TMB为10/Mb，经log10转换的TMB将为log10(10)＝1。如果使用log2转换，log2(10)≈3.32。对数转换的数据然后可以提供给高斯混合模型模块205用于进一步的下游处理。

高斯混合模型模块

在一些实施例中，对数转换的已估计的肿瘤突变负荷(在步骤330或350使用肿瘤突变负荷估计模块204计算)使用高斯混合模型建模，其中高斯混合模型的每第K个分量代表一种癌症亚型。

更具体地说，对数转换的肿瘤突变负荷可以建模为高斯混合模型，其中高斯混合模型的分量(K)代表癌症亚型(参见下面的等式[2])。高斯混合模型是一种概率模型，它假设所有数据点都是由有限数量的具有未知参数的高斯分布的混合生成的。人们可以将混合模型视为归纳k均值聚类，以合并有关数据协方差结构以及潜在高斯中心的信息。

在一些实施例中，可以使用期望最大化算法来估计具有训练数据的高斯混合模型中每个分量的参数(参见等式[2])。在一些实施例中，第K个分量的参数包括权重(π_k)、均值(μ_k)和方差(∑_k)。这些参数用于分配分数计算(如下所述)。据信，从未标记的数据生成高斯混合模型的主要困难在于，人们通常不知道哪些点来自哪个潜在分量。期望最大化是一种有充分根据的统计算法，可以通过迭代过程解决这个问题。首先，假设随机分量(随机以数据点为中心，从k-均值中学习，甚至只是围绕原点正态分布)并计算每个点由模型的每个分量生成的概率。然后，调整参数以最大化给定这些分配的数据的可能性。重复这个过程保证总是收敛到局部最优。

在一些实施例中，用高斯混合模型建模可用于鉴定癌症亚型，例如使用训练测序数据鉴定癌症亚型。在一些实施例中，癌症亚型是“低TMB”、“高TMB”和“极端TMB”。在本文的实例部分中描述了用于鉴定此类癌症亚型的过程(也参见图6A、6B和6C)。

据信，在这三种已鉴定的癌症亚型中观察到了不同的突变谱和肿瘤浸润免疫细胞群，这些癌症亚型是根据本文描述的方法由对数转换的TMB定义的。在一些实施例中，“低TMB”亚型的患者具有低突变率并且缺乏POLE基因或dMMR通路基因中的非同义突变。大多数被定义为“高TMB”的患者具有MSI-H状态和高INDEL突变率。“极端TMB”亚型的患者被认为具有极高的SNV突变率但低INDEL突变率。此外，大多数“极端TMB”患者在POLE基因中有非同义突变。还观察到，与“低TMB”亚型相比，即使在考虑了年龄和癌症分期后，“高TMB”和“极端TMB”亚型仍与改善的患者总存活显著相关。由对数转换的TMB定义的亚型与患者总存活的关联表明使用对数转换的TMB的亚型分类可用作预后生物标志物。

在一些实施例中，并参考图4，使用高斯混合模型建模可用于对测试样品(即源自患者例如诊断患有癌症或怀疑患有癌症的人类患者的生物学样品的测试测序数据)分类癌症亚型。当在测试测序数据中对癌症亚型进行分类时，为高斯混合模型的每第K个分量计算分配分数(步骤400)，如下文进一步所述。在计算每第K个分量的每个分配分数后，确定具有最高分配分数的第K个分量，例如可以对分配分数进行排序，从而可以鉴定具有最高排序的分数(步骤410)。在一些实施例中，然后为测试样品分配癌症亚型，并且该分配基于具有最高分配分数的第K个分量的鉴定(步骤420)，即与具有列为最高分配分数的第K个分量相关的癌症亚型被分配给测试样品。

特别地，对于给定的测试样品的对数转换TMB(y_i)，使用等式[3]使用预定义的参数(例如在步骤370导出的参数)计算每个分量(γ(b|C_k))的分配分数。在一些实施例中，第K个分量的分配分数等于新的对数转换的TMB属于第K个分量的概率除以新的对数转换的TMB属于每个分量的概率之和。测试样品将被分类到具有最高分配分数的分量。

例如，使用三个分量的预定义参数：

π＝{0.6，0.3，0.1}

μ＝{0.6，4.3，8}

∑＝{0.1，1，3}

一个对数转换的TMB为10的新样品，3个分量的分配分数将为：

根据这个实例，第三个分量的分配分数最高，样品将被分类为“极端TMB”。

背景突变率训练模块

本公开还提供了导出用于估计肿瘤突变负荷的参数的方法(步骤370)，例如通过使用背景突变率训练模块206。在一些实施例中，导出的参数存储在存储系统240中用于进一步检索和下游处理，例如供高斯混合模型模块205使用。据信，整合已知和未知基因以及上下文特定影响因素的方法，将允许一致预测靶向组合测序和全外显子组测序的肿瘤突变负荷。据信，这种方法通过使用同义和部分非同义突变数据有效地消除了驱动基因效应，减轻了对肿瘤突变负荷的高估(比较图9A至9B)。

在一些实施例中，首先获取训练测序数据，例如全外显子组测序数据。在一些实施例中，获得的测序数据包括所有蛋白质编码基因的复制时间、表达水平和开放染色质状态。

在一些实施例中，并参考图5A和5B，多个基因中每个基因的基因特异性背景突变率的概率分布的第一组参数，例如第一基因特异性均值(或基因特异性均值系数)和/或概率分布的离散度，可以通过考虑已知的影响因素来确定，例如复制时间(R)、表达水平(X)、开放染色质状态(C)以及基因是否是嗅觉受体(O)(步骤500)。在一些实施例中，如果使用的话，离散度可以是非基因特异性的并且可以是全基因组离散度。在一些实施例中，可以使用应用于多个基因和多个样品的测量结果的回归技术(例如，负二项式回归、泊松回归、线性回归、零膨胀泊松回归、零膨胀负二项式回归等)来确定第一组参数，用于估计已知突变影响因素对基因组中任一基因的相同作用。例如，每个基因的所有样品中同义突变的总数可以用作一个数据点，以确定概率分布的第二组参数。

据信，有多种因子可能会影响对同义突变计数建模的潜在突变率。首先，可能的同义突变的数量由基因的编码序列(例如密码子和长度)控制。更具体地说，对于基因g，可以将所有可能突变为同义突变的碱基的上下文特异性突变率相加，以确定同义突变的预期数量。其次，由于来自不同个体的样品预期具有不同的背景突变率，因此可以使用样品特异性因子(即样品突变率)b_s来表示样品s的总突变负荷。再次，一些额外的因子可能会影响给定基因的潜在突变率，包括复制时间(R)、表达水平(X)、开放染色质状态(C)以及基因是否是嗅觉受体(O)。复制时间、表达水平和开放染色质状态的值的可以按照M.S.Lawrence etal.，″Mutational heterogeneity in cancer and the search for new cancer-associated genes，″Nature499，214-8(2013)描述的提取。这些值可以通过对不同细胞系求平均值来确定。对于一组样品的突变特性的给定测定，这些值可以是固定的。这些值也可以更新为细胞系特异性值，用于突变特性的另一种测定。

在一些实施例中，可以通过考虑基因的多个样品来确定每个基因的基因特异性背景突变率的概率分布的第二组参数(步骤510)。在一些实施例中，第二组参数可以包括概率分布的第一基因特异性均值(或基因特异性均值系数)和/或基因特异性离散度。在一些实施例中，第二组参数可以通过基于多个样品中的每个样品的基因中的同义突变的数量，将概率分布拟合到该基因的多个样品的测量背景基因突变率来确定。在一些实施例中，每个基因的概率分布可包括负二项式分布、泊松分布或β二项式分布。

在一些实施例中，可以确定最拟合测量数据的多个样品中每个基因的基因特异性背景突变率的概率分布的一组优化参数(步骤520)。使用上述技术估计的第一组参数和第二组参数(参见步骤500和510)可以用作先验知识，以递归地优化最拟合测量数据的基因的基因特异性背景突变率的概率分布的那组参数，例如使用贝叶斯推理或非贝叶斯推理(例如，经典的频率预测、基于似然的推理等)。在一些实施例中，基因特异性突变率和/或分离散度在贝叶斯框架内被优化。

在一些实施例中，推导用于估计肿瘤突变负荷的参数的步骤进一步详细描述如下：

1.每个样品的突变率(b_s)

每个样品的突变率(b_s)由样品的突变总数除以评估的基因组大小(以Mb(兆碱基)为单位计)的来确定。如果仅使用非同义突变，则b_s等效于当前的标准TMB计算。

2.三核苷酸上下文特异性突变率

估计训练群组的三核苷酸上下文特异性突变率。在一些实施例中，考虑了96种可能的三核苷酸上下文(来自6种可能的单碱基取代类型-A/T-＞G/C、T/A-＞G/C、A/T-＞C/G，T/A-＞C/G，A/T-＞T/A，G/C-＞C/G-及其周围可能的核苷酸)加上indel。根据突变是否导致翻译的蛋白质的氨基酸序列发生变化，将突变分为同义或非同义突变。假设背景突变导致同义或非同义效应仅取决于核苷酸变化，同义突变根据背景突变率发生。

对于每个三核苷酸突变上下文i，计算在所有肿瘤样品中观察到的同义ni_(同义)和非同义n_i(非同义)突变的数量，并确定外显子组中可能的同义N_i(同义）和非同义N_i(非同义)变体的数量。对于非同义突变，只考虑不太可能成为驱动因素的基因，以避免扭曲背景非同义突变率；即大约底部60％的基因按突变样品的数量降序排列。在一些实施例中，通过使用非同义突变的基因子集引入的潜在偏差通过因子r校正，其使用矩方法估计，计算为以下的均值：

跨所有突变上下文。对于突变上下文i，突变率m_i是使用上面的公式计算的(等式[4])。在一些实施例中，在计算indel突变率m_indel时，假设所有蛋白质编码位置都可以具有indel，并且所有indel都被认为是非同义的。

3.基因特异性突变率因子α_g

(3i)跨基因的回归模型

假设同义突变的出现代表背景突变率，并且每个基因的同义突变数可以使用负二项式和泊松回归建模(参见PCT公开号WO/2017/181134，其公开内容在此通过引用整体并入本文)。在一些实施例中，利用零膨胀泊松回归。据信，这种技术表明可以通过单独的过程生成过多的零点，以便它可以对过度分散的数据进行建模。

考虑可能影响潜在突变率的多种因子来建模同义突变计数。在一些实施例中，可能的同义突变的数量由基因的编码序列(例如密码子和长度)控制。具体来说，对于基因g，我们得到所有可能突变为同义突变的碱基，并将它们的上下文特异性突变率加和为E_g(同义)＝∑_同义 _碱基m_i。其次，由于预期不同的个体具有不同的背景突变率，因此使用样品特异性因子b_s来表示样品的总突变负荷s。在一些实施例中，b_s是突变总数除以样品中测序的碱基数。再次，α_g是基因特异性突变率，受几个额外已知因子的影响，这些因子可以影响给定基因的潜在突变率，包括复制时间(R)、表达水平(X)、开放染色质状态(C)以及基因是否是嗅觉受体(O)。因子这些的影响是通过如下所述的负二项式回归来估计的。

在一些实施例中，假设跨基因的共同离散度φ，具有负二项式回归的基因g和样品s的同义突变计数y_gs被建模为：

y_gs～ZIP(均值＝α_gb_sE_g(同义)，额外零的概率＝p_g)[5]

其中

ln(α_g)＝X^Tβ，

logit(p_g)＝X^Tβ’

其中β和β′是通过使用所有基因和所有样品运行回归来估计的。X^T是相关回归量的向量，包括R、X、C和O。

(3ii)通过最大似然法捕捉未知因子的影响

在上面的等式[2]中，假设突变率因子仅取决于建议的回归量，但未知机制或生物学因子也会影响突变率。因此，每个基因都被建模为一个独立的零膨胀泊松过程，并且最大似然估计(MLE)(如上文所述)用于估计基因特异性额外的零的概率p_g和通过最大化等式[6](如下)。对于每个基因，n是训练群组中样品数，k_g是基因g中观察到的突变计数为0的样品数n，Y_g＝{y_g1，y_g2，...，y_gs}是不同样品中的同义突变计数。在这一步中，影响因素(R，X，C，O)不适用。

其中

(3iii)基因特异性突变率因子的优化

因为α_g是通过将所有基因汇集在一起获得的，所以据信它捕捉了背景突变率影响因素(R，X，C，O)的共同趋势。相反，据信是来自观察数据的基因特异性参数，与影响因素无关。在一些实施例中，/>和α_g并不总是相同的，这可能由技术噪声(例如突变调用算法中的错误)引起或反映真实的生物学机制(例如未包括在我们的回归模型中的影响背景突变率的因子)。在一些实施例中，并且由于每个基因中体细胞突变的数量很少，因此/>非常容易受到技术噪音的影响。因此，通过结合来自负二项式回归的参数和直接来自基因特异性估计的参数来找到优化的α′_g是有利的。在一些实施例中，α′_g的后验概率与似然函数乘以先验概率成正比，σ被估计为等式[11]。选择先验概率将α′_g约束成以α_g为中心。我们最大化[8]以获得每个基因的合适α′_g。

y_gs～ZIP(α_gb_sE_g(同义)，p_g)[9]

其中，σ可以由以下估计：

然后重复“基因特异性估计”和“基因均值优化”步骤，通过用α′_g替换来重新估计离散度，直到实现收敛。已估计的α′_g和p_g用于估计肿瘤突变负荷(图3B的步骤350)。

在其他实施例中，PCT公开号号WO/2017/181134(其公开内容在此通过引用整体并入本文)中描述的步骤可用于推导用于估计肿瘤突变负荷的参数。

高斯混合模型训练模块

在一些实施例中，可以使用高斯混合模型训练模块207来获取训练数据。在一些实施例中，训练模块207使用获得的测序数据，例如全外显子组测序数据或靶向组合测序数据(包括存储在存储系统240中的此类数据)来检测测序数据内的体细胞突变，包括SNV和INDEL。在一些实施例中，训练模块207采用突变鉴定模块203来鉴定获取的训练数据中的体细胞突变。在一些实施例中，训练模块207根据不同的方法确定肿瘤突变负荷，例如本文描述的那些并使用肿瘤突变负荷估计模块204。在一些实施例中，训练模块207利用的那些方法描述于PCT公开号WO/2018/183928和WO/2018/068028中，其公开内容在此通过引用整体并入本文。在一些实施例中，训练数据存储在存储系统240内。在一些实施例中，训练数据将是至少包含群组中每个样品的TMB的群组。

其他实施例

本说明书描述的主题和操作的实施例可以在数字电子电路，或在计算机软件、固件或硬件中实现，包括本说明书公开的结构及其类似结构，或它们中的一个或多个组合。本说明书所述主题的实施例可作为一个或多个计算机程序来实现，即作为一个或多个计算机程序指令模块来实现，为由数据处理设备执行，或控制数据处理设备的操作，所述一个或多个计算机程序指令模块可在计算机存储介质上编码。本文所述的任何模块均可以包括由所述处理器执行的逻辑。本文所使用的“逻辑”是指具有任何形式的可影响处理器操作的指令信号和/或数据的信息。软件是逻辑的一个实例。

计算机存储介质可以是或可包含在计算机可读存储设备、计算机可读存储基片、随机或串行存取存储器阵列或设备，或它们的一个或多个组合中。此外，尽管计算机存储介质不是传播信号，但它可以是在人工生成的传播信号中编码的计算机程序指令的源或目的。所述计算机存储介质也可以是或可包含在一个或多个单独的物理组件或介质(如多个CD、磁盘或其他存储设备)中。本说明书中所述的操作可以以由数据处理设备对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据进行的操作来实现。

术语“编程处理器”涵盖处理数据的各种设备、装置和机器，例如包括可编程微处理器、计算机、芯片上系统、或上述的多个或组合。所述设备可以包括特殊用途的逻辑电路，如FPGA(现场可编程门阵列)或ASIC(特定用途集成电路)。除硬件外，所述设备还可以包括为所述有关计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们的一个或多个组合的代码。所述设备和执行环境可以实现各种不同的计算模型基础架构，例如，网络服务、分布式计算和网格计算基础架构。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用任何形式的编程语言编写，包括编译型或解释型语言、说明性语言或程序化语言，并且它可以任何形式部署，包括作为独立程序或作为模块、组件、子程序、对象或其他适合在计算环境中使用的单元。计算机程序可以但不必与文件系统中的文件相对应。一个程序可以存储在保存其他程序或数据的文件的部分(如存储在标记语言文件中的一个或多个脚本)中，也可以存储在专门用于有关程序的单个文件中，或者存储在多个协调的文件(如存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以部署在一台计算机上执行，也可以部署在多台计算机上执行，这些计算机位于一个站点或分布在多个站点，并通过一个通信网络相互连接。

本说明书中描述的过程和逻辑流程可以由一个或多个执行一个或多个计算机程序以通过对输入数据的运算并产生输出结果完成操作的可编程处理器来执行。所述过程和逻辑流程也可以由特殊用途的逻辑电路执行，如FPGA(现场可编程门阵列)或ASIC(特定用途集成电路)，并且，设备也可实现为特殊用途的逻辑电路。

例如，适用于执行计算机程序的处理器包括通用和专用微处理器，以及数字计算机的任何一种或多种的处理器。一般来说，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是一个按照指令执行操作的处理器和一个或多个存储指令和数据的存储设备。一般来说，计算机还将包括或有效耦接至一个或多个用于存储数据的大容量存储设备(磁盘、磁光盘或光盘)，以从所述设备接收数据或向其传输数据或两者兼有。但是，计算机不需要这样的装置。此外，计算机可以嵌入另一个装置中，如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制器、全球定位系统(GPS)接收器或便携式存储设备(如通用串行总线(USB)闪存驱动器)等。适合存储计算机程序指令和数据的装置包括各种形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，如EPROM、EEPROM和闪存设备；磁盘，如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。所述处理器和所述存储器可以由特殊用途的逻辑电路提供，或并入其中。

为了方便与用户的交互，本说明书所述主题的实施例可以在计算机上实现，所述计算机具有向用户显示信息的显示装置，如LCD(液晶显示器)、LED(发光二极管)显示器或OLED(有机发光二极管)显示器，以及键盘和定点设备，如鼠标或轨迹球，所述用户可以通过它们实现对计算机的输入。在一些实施方式中，触摸屏可用于显示信息和接收用户的输入。其他种类的装置也可用于方便与用户的交互；例如，向用户提供的反馈可以是任何形式的感觉反馈，如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收用户的输入，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的装置发送文件以及从该装置接收文件实现与用户的交互；例如，通过响应从用户客户端设备上的网络浏览器接收的请求而向所述网络浏览器发送网页。

本说明书所述主题的实施例可以在计算系统中实现，所述计算系统包括后端组件，如作为数据服务器，或者包括中间软件组件，如应用服务器，或者包括前端组件，如具有图形用户界面或Web浏览器的客户端计算机，用户可以通过所述浏览器与本说明书所述主题的实施方式进行交互，或者一个或多个此类后端、中间软件或前端组件的任意组合。所述系统的各组件可以通过数字数据通信的任何形式或介质(如通信网络)相互连接。通信网络的实例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(如互联网)和对等网络(如专设对等网络)。例如，网络可以包括一个或多个局域网。

所述计算系统可以包括任何数量的客户端和服务器。通常，客户端和服务器之间彼此是远程设置，并且一般情况下通过一个通信网络进行交互。借助运行在各自计算机上的计算机程序以及彼此之间的客户端-服务器关系产生客户端和服务器之间的关系。在一些实施例中，服务器将数据(如HTML页面)传输到客户端设备(如用于向与所述客户端设备交互的用户显示数据和接收该用户的输入)。在所述客户端设备上产生的数据(如用户交互的结果)可以在所述服务器上从所述客户端设备接收。

在测序数据内鉴定癌症亚型的实例

概述

下面描述了一种肿瘤突变负荷方法，该方法利用显式背景突变模型来预测TMB并将样品分类为由TMB定义的生物学和临床相关亚型。

通过分析公开可用的TCGA数据，发现对数转换的TMB可以揭示三种隐藏的癌症亚型：结直肠癌、胃癌和子宫内膜癌中的TMB-低、TMB-高和新TMB-极端亚型(图6A-6C)。观察到这三种癌症亚型中的每一种都具有可区分的突变谱。在具有低突变率的患者和测序数据在POLE和dMMR通路基因中突变耗尽的患者中观察到TMB-低癌症亚型。TMB-高癌症亚型包括MSI-H患者和那些特征为具有高INDEL突变率的患者。令人惊讶地发现了TMB-极端癌症亚型，其中患者具有极高的SNV突变率但低INDEL突变率，并且患者富含POLE基因中的非同义突变(图6A-6C)。TMB-极端以前被模糊，因为它被归类为TMB-高，这阻碍了发现更准确的存活分析分层。

调查了存活结果。在考虑年龄和分期后，观察到TMB-高和TMB-极端与患者存活提高相关(TMB-高的危险比(HR)＝0.8，P值＝0.1；TMB-极端的危险比(HR)＝0.32，P值＝0.006)(图7A至7B)。TMB-极端的危险比显著低于TMB-高，表明存活率更高。在结直肠癌和子宫内膜癌中，TMB-高和TMB-极端均与较高的浸润性B细胞、CD8 T细胞和树突细胞相关(图8)。

前言

在过去的40年中，下一代测序(NGS)技术的进步为表征癌症基因组景观和鉴定与诊断和治疗相关的突变提供了前所未有的机会。已经表明癌症可能是由致癌基因或肿瘤抑制基因中基因突变的积累引起的，这会导致细胞增殖和存活的失调(Vogelstein，B.etal.Cancer genome landscapes.Science 339，1546-1558(2013))。这些突变被称为“驱动”突变，由于它们对肿瘤发生的贡献，它们被认为处于阳性选择之下。然而，预计肿瘤样品中数千个体细胞突变中只有很小一部分是驱动。剩余的大部分体细胞突变是“乘客”，在癌症进展过程中以背景突变率随机累积(Iranzo，J.，Martincorena，I.＆Koonin，E.V.Cancer-mutation network and the number and specificity of driver mutations.Proc.Natl.Acad.Sci.U.S.A.115，E6010-E6019(2018)).

此外，对大量癌症基因组的分析表明，背景突变率在不同癌症类型之间、在具有单一癌症类型的患者中以及在基因组区域内变化高达约1000倍(Lawrence，M.S.etal.Mutational heterogeneity in cancer and the search for new cancer-associated genes.Nature 499，214-218(2013))。突变率和基因组特征之间的关联分析已被用于鉴定癌症的区域突变异质性(Chapman，M.A.et al.Initial genome sequencingand analysis of multiple myeloma.Nature 471，467-472(2011)；Hodgkinson，A.＆Eyre-Walker，A.Variation in the mutation rate across mammalian genomes.NaturePublishing Group 12，756—766(2011)；Pleasance，E.D.et al.A comprehensivecatalogue of somatic mutations from a human cancer genome.Nature 463，191-196(2010))。例如，已发现基因表达水平与体细胞突变率呈负相关(Iranzo，J.，Martincorena，I.＆Koonin，E.V.Cancer-mutation network and the number and specificity ofdriver mutations.Proc.Natl.Acad.Sci.U.S.A.115，E6010-E6019(2018)).据信，晚复制区域具有更高的突变率。

已经鉴定了种系突变率的类似相关性(Stamatoyannopoulos，J.A.et al.Humanmutation rate associated with DNA replication timing.Nat.Genet.41，393—395(2009)；Koren，A.et al.AR TICLE Differential Relationship of DNA ReplicationTiming to Different Forms of Human Mutation and Variation.The American Joumalof Human Genetics 91，1033—1040(2012))。人们还认为，每个三核苷酸上下文的突变率是不同的，这是癌症基因组上的不同诱变过程的不同突变特征结果(AustralianPancreatic Cancer Genome Initiative et al.Signatures of mutational processesin human cancer.Nature 500，415-421(2013))。

即使在同一癌症类型的患者中，癌症突变率也可能有很大差异，例如胃癌中从0.01每兆碱基(Mb)到300每Mb，子宫内膜癌中从少于1每Mb到超过700每Mb。(AustralianPancreatic Cancer Genome Initiative et al.Signatures of mutational processesin human cancer.Nature 500，415—421(2013))。具有高体细胞突变率的患者被称为具有超突变表型。据信，背景突变率增加的可能根本原因包括DNA合成或修复错误的增加以及DNA损伤的增加(Roberts，S.A.＆Gordenin，D.A.Hypermutation in human cancergenomes：footprints and mechanisms.Nat.Rev.Cancer 14，786-800(2014))。每次细胞分裂时，DNA复制过程中都会发生大约100,000个聚合酶错误，因此DNA复制的校正机制对于基因组稳定性至关重要(Nebot-Bral，L.et al.Hypermutated tumours in the era ofimmunotherapy：The paradigm of personalised medicine.Eur.J.Cancer 84，290-303(2017))。这是通过聚合酶ε(POLE)和δ(POLD1)的3′-5′核酸外切酶活性、MMR系统和其他DNA修复基因如BRCA完成的(Rayner，E.et al.A panoply of errors：polymeraseproofreading domain mutations in cancer.Nat.Rev.Cancer 16，71—81(2016)；Jiricny，J.The multifaceted mismatch—repair system.Nat.Rev.Mol.Cell Biol.7，335—346(2006)；Zámborszky，J.et al.Loss of BRCA1 or BRCA2 markedly increasesthe rate of base substitution mutagenesis and has distinct effects on genomicdeletions.Oncogene 36，746-755(2017))。

据信，POLE、POLD1基因中的有害突变和MMR系统缺陷可能导致超突变表型(Lawrence，M.S.et a1.Mutational heterogeneity in cancer and the search for newcancer-associated genes.Nature 499，214—218(2013)；Roberts，S.A.＆Gordenin，D.A.Hypermutation in human cancer genomes：footprints andmechanisms.Nat.Rev.Cancer 14，786-800(2014)；Nebot-Bral，L.et al.Hypermutatedtumours in the era of immunotherapy：The paradigm of personalisedmedicine.Eur.J.Cancer 84，290-303(2017)；Campbell，B.B.et al.ComprehensiveAnalysis of Hypermutation in Human Cancer.Cell 171，1042-1056.e10(2017)；Finocchiaro，G.，Langella，T.，Corbetta，C.＆Pellegatta，S.Hypermutations ingliomas：a potential immunothcrapy target.Discov Med 23，113-120(2017))。七种基因已被鉴定为MMR系统的重要组分，包括MLH1、MLH3、MSH2、MSH3、MSH6、PMS1、PMS216，20。除了DNA合成/修复错误外，DNA损伤的增加也会导致超突变现象。例如，UV辐射可以增加双嘧啶位点的C-＞T率，这是皮肤癌4的危险因子。烟草成分可导致肺癌和膀胱癌吸烟者G-＞T颠换增加(Govindan，R.et al.Genomic landscape of non-small ccll lung cancer insmokers and never-smokers.Cell 150，1121-1134(2012))。据信，由细胞代谢或环境摄入的产物引起的氧化性DNA损伤可能是年龄依赖性突变和癌症的主要原因之一(Longo，V.D.，Lieber，M.R.＆Vijg，J.Turning anti-ageing genes against cancer.Nat.Rev.Mol.CellBiol.9，903-910(2008))。

如本文所述，针对免疫检查点抑制剂的免疫疗法，例如程序性细胞死亡蛋白1(PD-1)及其受体(PD-L1)和细胞毒性T淋巴细胞相关抗原4(CTLA-4)，对各种晚期癌症显示出显著的临床益处(Wolchok，J.D.et al.Overall Survival with Combined Nivolumab andIpilimumab in Advanced Melanoma.N.Engl.J.Med.377，1345-1356(2017)；Borghaei，H.et al.Nivolumab versus Docetaxel in Advanced Nohsquamous Non-Small-CellLung Cancer.N.Engl.J.Med.373，1627-1639(2015)；Aggen，D.H.＆Drake，C.G.Biomarkersfor immunotherapy in bladder cancer：a moving target.1-13(2017).doi：10.1186/s40425-017-0299-1；Saleh，K.，Eid，R.，Haddad，F.G.，Khalife-Saleh，N.＆Kourie，H.R.New developments in the management of head and neck cancer＆ndash；impactof pembrolizumab.TCRM Volume 14，295-303(2018))。虽然据信，这些免疫检查点阻断癌症疗法显著提高了免疫疗法的疗效，但只有一部分患者对治疗有应答。因此，为了最大限度地提高治疗益处，如本文所述，鉴定预测性生物标志物以区分应答性和非应答性患者是至关重要的。

PD-L1表达水平和微卫星不稳定性高(MSI-H)已被开发为抗PD-L1疗法临床结果的预测性生物标志物(Reck，M.et al.Pembrolizumab versus Chemotherapy for PD-L1-Positive Non-Small-Cell Lung Cancer.N.Engl.J.Med.375，1823-1833(2016)；Le，D.T.et al.PD-1Blockade in Tumors with Mismatch-RepairDeficiency.N.Engl.J.Med.372，2509-2520(2015))。微卫星不稳定性(MSI)是癌症中重复DNA区(称为微卫星)中缺失/插入的积累的表型。与超突变相似，有证据表明MSI是由MMR系统缺陷导致的突变表型(Laghi，L.，Bianchi，P.＆Malesci，A.Differences and evolutionof the methods for the assessment of microsatellite instability.Oncogene 27，6313-6321(2008)；Vilar，E.＆Gruber，S.B.Microsatellite instability in colorectalcancer-the stable evidence.Nat Rev Clin Oncol 7，153-162(2010))。

高突变首先与对2014年CTLA-4阻断疗法和2015年PD-1阻断疗法的应答相关(Snyder，A.，Wolchok，J.D.＆Chan，T.A.Genetic basis for clinical response toCTLA-4 blockade.N.Engl.J.Med.372，783-783(2015)；Rizvi，N.A.et a1.Mutationallandscape determines sensitivity to PD-1blockade in non-small cell lungcancer.Science 348，124-128(2015))。潜在的假设是，来自超突变肿瘤的更大量新抗原会导致更强的适应性免疫应答(Nebot-Bral，L.et al.Hypermutated tumours in the eraof immunotherapy：The paradigm of personalised medicine.Eur.J.Cancer 84，290-303(2017))。

肿瘤突变负荷是衡量体细胞突变丰度的一个指标，此后已成为预后和免疫疗法的一种新的、有前景的生物标志物(Samstein，R.M.et al.Tumor mutational load predictssurvival after immunotherapy across multiple cancer types.Nat.Genet.51，202-206(2019)；Hellmann，M.D.et a1.Nivolumab plus Ipilimumab in Lung Cancer with aHigh Tumor Mutational Burden.N.Engl.J.Med.378，2093-2104(2018)；Van Allen，E.M.et al.Genomic correlates of response to CTLA-4 blockade in metastaticmelanoma.Science 350，207-211(2015)；Hugo，W.et al.Genomic and TranscriptomicFeatures of Response to Anti-PD-1Therapy in Metastatic Melanoma.Cell 165，35-44(2016))。尽管如此，多重挑战仍然阻碍了TMB在临床决策中的应用。当前广为接受的TMB测量需要使用全外显子组测序(WES)对配对的肿瘤-正常样品中的非同义体细胞突变进行计数。然而，基于测序技术的临床诊断仍然严重依赖靶向组合测序。尽管研究表明基于组合的TMB测量与基于WES的TMB高度相关，但已经观察到这两种测量之间的不一致(Samstein，R.M.et al.Tumor mutational load predicts survival after immunotherapy acrossmultiple cancer types.Nat.Genet.51，202-206(2019)；Chalmers，Z.R.et al.Analysisof 100,000human cancer genomes reveals the landscape of tumor mutationalburden.1-14(2017).doi：10.1186/s13073-017-0424-2；de Velasco，G.et al.Targetedgenomic landscape of metastases compared to primary tumours in clear cellmetastatic renal cell carcinoma.Br.J.Cancer 118，1238-1242(2018)；Garofalo，A.etal.The impact of tumor profiling approaches and genomic data strategies forcancer precision medicine.Genome Med 8，1023(2016)).

这种不一致的一个原因被认为是靶向组合测序可能高估了TMB，因为它富含驱动突变和突变热点。事实上，基于WES的TMB被认为更能表明整体背景突变率，因为整个外显子组中的驱动突变和热点发生率很少。为了避免高估TMB，已经应用了各种过滤策略。例如Foundation Medicine使用COSMIC过滤驱动突变并添加同义突变以与基于WES的TMB达成一致(Chalmers，Z.R.et al.Analysis of 100,000human cancer genomes reveals thelandscape of tumor mutational burden.1-14(2017)).这些任意过滤器依赖于频繁更新的数据库，从而恶化了计算的不一致、可重复性和稳健性。另一个不可忽视的挑战是TMB高截止值的相对任意选择，例如10或20每Mb或前10％或20％分位数(Isharwal，S.etal.Prognostic Value of TERT Alterations.Mutational and Copy NumberAlterations Burden in Urothelial Carcinoma.Eur Urol Focus(2017)；Burden.N.Engl.J.Med.378，2093-2104(2018)；Chalmers，Z.R.et al.Analysis of 100,000human cancer genomes reveals the landscape of tumor mutational burden.1-14(2017)).尽管这些阈值足以示出TMB作为生物标志物的预测价值，但需要从复杂的研究或临床试验中得出适当的TMB截止值，如本文所述。

为了提高TMB测量和TMB亚型分类的稳健性，我们提出了一种称为ecTMB(TMB的估计和分类)的新方法(参见例如图5A-5C)。因为基于WES的TMB类似于整体背景突变率，我们使用贝叶斯框架构建了一个用于TMB预测的统计模型。如本文中详细描述的，该模型考虑了癌症中的异质突变上下文和其他影响因素，来估计样品和基因特异性背景突变率，这可以系统地降低驱动突变效应并在估计中包括同义突变。同样，如本文所述，通过分析公开可用的TCGA数据，发现对数转换的TMB可以揭示三种隐藏的癌症亚型：结直肠癌、胃癌和子宫内膜癌中的TMB-低、TMB-高和新TMB-极端亚型(图6A-6C)。

基于这一观察，具有高斯混合模型的ecTMB被扩展为按上述癌症亚型对样品进行分类。我们的方法是使用来自癌症基因组图谱(TCGA)的WES数据进行评估的。我们分析中包括的癌症类型是结肠腺癌(COAD)、直肠腺癌(READ)、胃腺癌(STAD)和子宫体子宫内膜样癌(UCEC)。基于之前的分析，READ和COAD由于它们的相似性，经常被组合起来进行分析(Network，T.C.G.A.Comprehensive molecular characterization of human colon andrectal cancer.Nature 487，330-337(2012))。此外，这些癌症类型的MSI状态的可用性为我们提供了研究TMB和MSI状态之间的关联的机会。

数据集

举例来说，MuTect2(在hg38的参考版本中)产生的体细胞突变和TCGA样品的临床谱可以从公开可用的数据库中下载(see，e.g.Grossman，R.L.et al.Toward a SharedVision for Cancer Genomic Data.N.Engl.J.Med.375，1109-1112(2016))。在一些实施例中，福尔马林固定石蜡包埋(FFPE)组织样品被排除在下游分析之外。也可下载肿瘤浸润免疫细胞丰度(see Li，T.etal.TIMER：A Web Server for Comprehensive Analysis ofTumor-Infiltrating Immune Cells.Cancer Research 77，e108-e110(2017))。可以提取所有蛋白质编码基因的复制时间、表达水平和开放染色质状态(参见Lawrence，M.S.etal.Mutational heterogeneity in cancer and the searchfor new cancer-associatedgenes.Nature 499，214-218(2013))。

全外显子组注释

在一些实施例中，可以下载和处理Ensembl 81 GRC38以生成所有可能的突变及其对基因组的功能影响。首先，编码区中的每个基因组碱基都被更改为其他三种可能的核苷酸，并使用变体效应预测器(VEP)来注释它们的功能影响。每个变体的功能影响都是按照以下标准挑选的：生物型＞结果＞转录本长度。报告了每个变体的三核苷酸上下文，包括突变碱基之前和之后，以及相对于蛋白质长度的相应氨基酸位置。

肿瘤突变负荷估计和亚型分类

基于获得的测序数据，使用本文描述的过程估计肿瘤突变负荷。然后使用诸如本文所述的高斯混合模型对已估计的肿瘤突变负荷的对数转换进行建模。建模提供了以下鉴定的结果。

BMR模型进行的背景突变预测

在每种癌症类型内，来自三分之二样品的WES数据用于训练以确定背景突变模型的参数。对于非同义突变和同义突变，在训练集和测试集的其余部分使用以下等式预测背景突变。

#预期的背景非同义突变＝α_gb_sE_g(非同义)

#预期的背景同义突变＝α_gb_sE_g(同义)

癌症亚型分类和表征

在每种癌症类型(结肠直肠癌、子宫内膜癌和胃癌)中，使用本文所述的高斯混合模型对由每Mb的突变总数或每Mb的非同义突变数定义的对数转换的TMB进行建模。每个样品根据其分配分数被分配到TMB-低、TMB-高和TMB-极端类别之一。对于每个样品，总结了包括MLH1、MLH3、MSH2、MSH3、MSH6、PMS1和PMS2在内的POLE和dMMR通路基因中的indel发生率、已估计的免疫细胞丰度和非同义突变的存在(出现＞1)。使用maftools绘制POLE和MMR系统基因的突变(Mayakonda，A.，Lin，D.-C.，Assenov，Y.，Plass，C.＆Koeffler，H.P.Mafiools：efficient and comprehensive analysis of somatic variants in cancer.GenomeRes.28，1747-1756(2018))。

癌症存活分析

Kaplan-Meier存活分析用于估计癌症亚型与结直肠癌、子宫内膜癌和胃癌患者总存活的相关性。此外，我们使用R中的coxph函数进行了比例危险比分析，包括年龄、阶段和亚型作为协变量。通过Wald检验评估协变量的显著性。总存活的计算是从癌症的初始诊断日期到疾病特异性死亡(生命状态被称为死亡的患者)和到最后一次随访的月数(对于活着的患者)。

组合的TMB预测

为了评估组合的ecTMB预测，进行了经由电脑模拟的分析。从Illumina的网站下载了Illumina TruSight Tumor 170的组合坐标床文件(组合大小524kb)(https://support.illumina.com/content/dam/illumina-support/documents/downloads/productfiles/trusight/trusight-tumor-170/tst170-dna-targets.zip)。FoundationOne CDx的基因列表和可操作癌症靶标的综合突变谱分析(MSK-IMPACT)可分别从Foundation Medicine网站(https://www.foundationmedicine.com/genomic-testing/foundation-one-cdx)和FDA文件下载(https://www.accessdata.fda.gov/cdrh_docs/reviews/den170058.pdf)。相应的组合坐标床是根据FoundationOne CDx和MSK-IMPACT的基因列表生成的。FoundationOne CDx和MSK-IMPACT组合的最终大小分别为5.4Mb和10Mb，其可能比确切的商业组合大。选择位于给定组合中的突变来代表可以通过该靶向组合测序检测的突变。在每种癌症类型内，来自三分之二样品的WES数据用于训练以确定背景突变模型参数。来自三分之一样品的经由电脑模拟的靶向组合测序数据用于测试。ecTMB和计数方法都应用于测试数据。使用R包blandr执行Bland-Altman分析。

基于TMB分布的聚类癌症类型

从GDC下载了29种癌症类型的WES突变数据。对于每种癌症类型，对数转换的TMB密度由bin＝1生成。然后我们使用K均值聚类方法根据对数转换的TMB密度的相似性将癌症类型分为5个聚类。在每个聚类中，将突变数据聚合以供进一步分析。

结果

背景突变建模

背景突变率(BMR)建模是驱动突变检测的主要挑战之一。已经开发了多种方法来建模BMR。MutSigCV应用基因组特征估计BMR44，而DrGaP构建贝叶斯框架将11种突变类型纳入BMR估计的考虑(Hua，X.et al.DrGaP：a powerful tool for identifying drivergenes and pathways in cancer sequencing studies.Am.J.Hum.Genet.93，439-451(2013))。然而，癌症突变异质性要复杂得多，包括样品、基因组区域和三核苷酸上下文之间的差异。因此，我们开发了一种新方法，以特定于样品和基因的方式对BMR进行明确建模，同时考虑到已知和未知的影响因素。

假设沉默突变的发生遵循BMR，没有选择压力；而背景体细胞突变的数量遵循负二项式分布。为了纳入所有已知因子，例如三核苷酸上下文、基因组成、样品突变负荷、基因表达水平和复制时间，通过将基因汇集在一起，使用广义线性模型(GLM)来估计这些因子的一般影响(图5B)。为了评估我们的模型，我们将对应于每种癌症类型的样品以70％：30％的比例划分为训练集和测试集。训练集用于估计模型参数，然后可用于基于负二项式预测每个样品的每个基因的突变数量，如本文所述。由于假设同义突变与BMR一起累积，因此可以使用预测的同义突变数与观察到的同义突变数的比较来衡量模型的性能。我们发现GLM模型无法解释观察到的同义突变数量的所有变化。例如，膜相关粘蛋白(MUC16)和肌联蛋白(TTN)，这是两个可疑的假阳性驱动基因(Lawrence，M.S.et al.Mutationalheterogeneity in cancer and the search for new cancer-associatedgenes.Nature499，214-218(2013))，其同义突变预测数量远低于训练和测试集中的实际观察结果(图12)。因此假设可能存在影响BMR的未知测序或生物学因子。

为了处理未知因子，第二步将每个基因建模为独立的负二项式过程。然后通过贝叶斯框架产生最终调整的基因特异性背景突变率，以合并来自前两个步骤的估计量(例如根据本文所述的方法)(也参见图5B)。与GLM对同义突变的预测相比，最终模型将训练集中的R平方值从0.5提高到约0.9，在测试集中从0.3提高到约0.6，并进一步降低了平均绝对误差(MAE)和均方根误差(RMSE)。同时，MUC16和TTN的同义/非同义突变预测变得更接近观察值(图12)。当应用本文所述的方法时，这些结果显示出改进的性能。

由于阳性选择，预计驱动基因相对于其BMR具有更高的非同义突变频率。事实上，发现了一些众所周知的癌症特异性驱动基因，其观察到的非同义突变数量远高于预测的背景突变数量。这些驱动基因的例子包括结直肠癌中的TP53、KRAS、PIK3CA和SMAD4(Network，T.C.G.A.Comprehensive molecular characterization of human colon and rectalcancer.Nature 487，330-337(2012))，TP53，ARID1A and PIK3CA in stomach cancer(Cui，J.et al.Comprehensive characterization of the genomic alterations inhuman gastric cancer.Int.J.Cancer 137，86-95(2015))，and PTEN，ARID1A，PIK3CA andTP53in endometrial cancer (Cancer Genome Atlas Research Network etal.Integrated genomic characterization of endometrial carcinoma.Nature 497，67-73(2013))(参见图12)。总之，这些结果表明所公开的方法可以准确地建模背景突变并因此系统地降低驱动基因影响。

TMB预测

在本文描述的模型内存在三个BMR决定因素，即序列组成、基因特异性BMR和样品特异性BMR。根据上述训练过程，可以在假设样品的样品特异性BMR可以计算为每Mb的所有突变数或每Mb的非同义突变数的前提下，估计基因特异性BMR。因此，样品特异性BMR等效于TMB。在这里，我们使用非同义突变的数量作为TMB进行以下TMB预测和分类。使用如上所述从训练集中确定的基因特异性BMR，可以使用最大似然估计(MLE)通过将每个基因建模为独立的负二项式过程，来估计新样品的样品特异性BMR(也参见图5B)。

使用测试集，我们首先评估了当使用来自WES的所有突变(即非同义突变和同义突变)时，ecTMB对TMB的预测有多好。与ecTMB进行比较的标准TMB测量是基于WES的TMB，其是通过非同义突变的数量除以测序的基因组区域大小计算得出。TMB变化很大，在训练和测试集中从每Mb约0.01到每Mb约760。大多数样品(76％)的TMB小于每Mb约10。因此，为了处理数据的大动态范围并避免平均绝对差仅由大数决定，我们提出了具有对数转换值和非对数转换值的性能度量。相关系数(R)被广泛用于评估TMB测量在测定之间的一致性。然而，高相关并不意味着任何两种方法都一致，因为R衡量两个变量之间关系的强度，而不是它们之间的确切一致性(analysis：A paradigm to understandcorrelation and agreement.Turk J Emerg Med 18，139-141(2018))。为了综合评估ecTMB预测与基于WES的标准TMB计算的一致性，我们不仅使用了相关系数，还测量了MAE和RMSE；并进行了Bland-Altman分析。据信Bland-Altman分析是一种广泛使用的方法来评估两种不同测定之间的一致性，提供偏差测量(平均差)、一致性限制和这些测量的95％置信区间/>发现ecTMB进行的TMB预测与标准TMB计算在相关性(相关系数＞0.998)和绝对误差(MAE＜1.833线性标度和MAE＜0.063对数标度)水平上高度一致。

ecTMB可以使用同义突变进行TMB预测，因为同义突变遵循背景突变积累。同时，它还能够合并非同义突变，其中大部分也遵循BMR。进一步评估了包括来自不同基因比例的非同义突变的影响。根据每种癌症类型训练集中的突变频率对基因进行排序，并且至少来自突变基因的非同义突变(底部0％、20％、60％、80％、85％、90％、95％和100％)添加到预测中。总之，对不同比例的非同义突变的比较表明，仅具有同义突变的预测已经与基于WES的标准TMB具有很大的一致性，R＞0.975且偏差几乎为0。然而，非同义突变的添加进一步提高了一致性，当使用所有非同义突变时，R＞0.999且偏差为0(参见图13A和13B)。参见图13B，对于一组n个样品，对每个样品进行两次测定，产生2n个数据点。然后，通过将两次测量的均值作为x值，将两个值之间的差作为y值，在图上表示n个样品中的每一个。固定偏差(d)：在1样品t检验的基础上，差异的均值与0显著不同：偏差估计的标准误差(平均差)：√(Var(y)/n)；95％差异的上下限：d±(1.96*sd(y))；95％差异的上下限标准误差：√(3*var(y)/n)。

通过计数方法和ecTMB在三个癌症组合上进一步对基于组合的TMB预测进行了经由电脑模拟的评估，包括FoundationOne CDx、可操作癌症目标靶标的综合突变谱分析(MSK-IMPACT)50和Illumina TruSight Tumor170(TST170)。由于FoundationOne CDx和MSK-IMPACT缺乏确切的组合坐标，从基因列表转换的组合的大小比真正的商业组合大。只有每个组合覆盖的突变用于基于组合的TMB预测。通过简单地计算非同义突变的数量，检测到基于WES的标准TMB和基于组合的TMB之间的高度相关性。但是，Bland-Altman分析通过计数显示了基于组合的TMB的显著偏差(＞0)，表明尤其是对于低TMB样品的高估(图22和图6A、6B和6C)。

具有低TMB的样品往往更容易被高估，因为较少的背景突变导致癌症相关突变在计数中的较高代表性。相比之下，ecTMB预测，使用同义突变和95％的非同义突变，不仅与基于WES的TMB具有可比或改进的相关系数，而且还降低了MSE、RMSE和偏差。例如，对于子宫内膜癌中TST170组合的预测，当与计数预测相比，ecTMB将相关系数从0.938提高到0.956，将MAE从0.848降低到0.381并消除偏差(平均差从0.03(95％置信区间[-0.04，0.1])变为0.84(95％置信区间[0.76，0.92]))(图22)。每个单独的Bland-Altman分析图都可以在(图20)中找到。使用95％的非同义突变的原因是1)在每个组合内检测到的同义突变越少，导致预测的准确性越低；2)驱动基因突变过多导致预测偏差(图14)。事实上，FoundationOne、MSK-IMPACT和TST170组合的结直肠癌中同义突变平均数分别为4.83、5.67、3.55。

由于该组合较小，对于FoundationOne、MSK-IMPACT和TST170组合，每个结直肠癌患者的同义突变平均数分别为4.83、5.67、3.55。与每位患者有数千个突变的WES数据相比，据信生成稳健的TMB预测具有挑战性。

因此，进行了一系列分析，为基于组合的TMB预测添加了不同比例的非同义突变。根据每种癌症类型训练集中的突变频率对基因进行排序，并且将至少来自突变基因的非同义突变(底部0％、20％、60％、80％、85％、90％、95％和100％)添加到预测中。结果表明，添加的突变越多，它就越准确。然而，当添加5％最常突变基因的非同义突变(这是最常驱动突变)时，预测偏差成为一个严重的问题。因此，除了所有同义突变外，还使用了95％的非同义突变。

对数转换的TMB揭示的三种癌症亚型

在探索TMB的分布时，发现对数转换的基于WES的TMB的分布(定义为每Mb的所有突变数或每Mb的非同义突变数)类似于结直肠癌、胃癌和子宫内膜癌中的高斯混合(图6A-6C和16)。对这种现象的调查扩展到了TCGA中的所有癌症类型。然而，据信许多癌症类型没有大量的超突变样品，例如肾上腺皮质癌(ACC)。为了具有超突变样品的大群体，我们考虑将癌症类型聚合在一起。然而，人们发现癌症类型之间的突变谱不同，表明每种癌症的超突变群体的阈值不同。例如，皮肤黑色素瘤(SKCM)的中位突变率约为每Mb 10个突变；急性髓系白血病(LAML)的中位数低于每Mb 1个突变。因此，决定基于对数转换的TMB分布的相似性对癌症类型进行聚类(图17)，从而可以检查每组内的对数转换的TMB的分布。然而，在这些组中无法确定相同的模式，据信这可能是由于极少的超突变样品，例如第1组和第5组，或可能导致连续突变谱的环境因子，例如由SKCM、肺鳞状细胞癌(LUSC)、肺腺癌(LUAD)和膀胱尿路上皮癌(BLCA)组成的第2组(图18)。由于基于这些癌症类型的对数转换的数据缺乏明确的亚型，因此分析仅集中在结直肠癌、胃癌和子宫内膜癌上。

发现这三种癌症类型具有的前两个高斯聚类分别由低和高TMB样品组成。在结直肠癌和子宫内膜癌中，存在第三个高斯聚类，其中样品具有极高的TMB。这三个隐藏的亚型被称为TMB-低、TMB-高和TMB-极端。在每种癌症类型内使用高斯混合模型(GMM)将每个样品进一步分类为这三个亚型，以进一步研究这些亚型的生物学和临床显著性。

据信，超突变表型可能是由突变的POLE或MMR系统缺陷引起的。为了深入了解哪种机制可能导致三种亚型中不同的TMB水平，检查了POLE和七个MMR基因中的非同义突变，并检测了MSI状态，如早期工作所述(参见Network，T.C.G.A.Comprehensive molecularcharacterization of human colon and rectal cancer.Nature 487，330-337(2012)；Cui，J.et al.Comprehensive characterization of the genomic alterations inhuman gastric cancer.Int.J.Cancer 137，86-95(2015)；and Cancer Genome AtlasResearch Network et al.Integrated genomic characterization of endometrialcarcinoma.Nature 497，67-73(2013))。结果发现，几乎所有的TMB-高样品，分别为94％、78％和91％的结直肠癌、子宫内膜癌和胃癌，都是MSI-高(MSI-H)。在结直肠癌和子宫内膜癌中，大部分(92％)TMB极端样品在POLE中至少具有一个非同义突变。据观察，TMB-极端亚型中的MSI-H病例相对较少，而TMB-高亚型中的突变POLE病例相对较少(图6A-6C)。据信，这可能是由于基因组不稳定性的相互排斥机制。在之前的研究中(Govindan，R.etal.Genomic landscape of non-small cell lung cancer in smokers and never-smokers.Cell 150，1121-1134(2012))，MMR系统缺陷与增加的缺失/插入(INDEL)有关，这导致我们探索亚型之间的INDEL率。发现与我们在TMB-低(～5％)和TMB-极端(～1％)样品两者中观察到的相比，TMB-高样品通常具有显著更高比例(～17％)的INDEL突变(图6A-6C)。这些不同的突变谱表明，由对数转化的TMB定义的三种亚型不仅描述了不同水平的TMB，而且代表了同一癌症内的患者突变异质性的不同生物学原因，其中MMR系统缺陷(MSI-H表型)是TMB-极端的TMB高和突变的POLE系统的可能原因。

据信，并非所有非同义突变对蛋白质功能都有有害影响。事实上，观察到了TMB-低和TMB-高亚型中POLE基因的非同义突变以及TMB-低和TMB-极端亚型中MMR系统的非同义突变。因此，为了研究是否任何驱动突变会导致TMB-高和TMB-极端表型，将TMB-极端样品的POLE中的非同义突变与其余的进行比较；并且我们还使用聚合的结直肠癌、胃癌和子宫内膜癌数据将TMB高样品的七个MMR基因中的非同义突变与其余基因进行了比较(图10和19)。正如预期的那样，发现了几个驱动突变，包括POLE中的P286R和V411L、MLH3中的N6741fs*6和MSH3中的K383Rfs*32(图10)。POLE中的P286R和V411L是已知的驱动突变，这些突变与超突变表型有关(Campbell，B.B.et al.Comprehensive Analysis of Hypermutation inHuman Cancer.Cell 171，1042-1056.e10(2017))。在POLE中至少有一个非同义突变的59个TMB极端样品中，我们鉴定了二十个具有P286R/S的样品和12个具有V411L的样品，其与其余样品相比显著富集，二项式检验p值分别为1.38*10-11和5.88*10-5。MLH3中的N6741fs*6和MSH3中的K383Rfs*32已在其他研究中检测到，但从未被报告为MSI-H或超突变表型的驱动突变(Van Allen，E.M.et a1.The genetic landscape of clinical resistance to RAFinhibition in metastatic melanoma.Cancer Discov 4，94-109(2014)；Mouradov，D.etal.Colorectal cancer cell lines are representative models of the mainmolecular subtypes of primary cancer.Cancer Research 74，3238-3247(2014)；Kumar，A.et al.Substantial interindividual and limited intraindividual genomicdiversity among tumors from men with metastatic prostate cancer.Nat Med 22，369-378(2016)；Giannakis，M.et al.Genomic Correlates of Immune-Cell Infiltratesin Colorectal Carcinoma.CellReports 17，1206(2016)；and Wang，K.et al.Whole-genome sequencing and comprehensive molecular profiling identify new drivermutations in gastric cancer.Nat.Genet.46，573-582(2014))。

在这项研究中，我们发现在MLH3中至少有一个非同义突变的25个TMB-高样品中有10个具有N6741fs*6突变，而在TMB-低和TMB-极端亚型(p值＝0)中的35个MSH3突变样品中有0个具有此突变。此外，36个TMB高MSH3突变样品中有15个具有K383Rfs*32突变，而在TMB低和TMB极端亚型(p值＝6.63*10-15)中的38个MSH3突变样品中有1个具有此突变。TMB高亚型中的这些突变的高出现率表明它们在导致MSI-H和相对高的TMB表型方面具有潜在的驱动突变效应。

为了研究由对数转化的TMB衍生的三种亚型的临床相关性，检查了亚型与肿瘤浸润免疫细胞丰度和总体患者存活的关联。在更早期的工作中，Li T.等人使用TCGA数据生成了跨多种癌症类型的免疫浸润的综合资源(Li，T.et al.TIMER：A Web Server forComprehensive Analysis of Tumor-Infiltrating Immune Cells.Cancer Research 77，e108-e110(2017))。从https://cistrome.shinyapps.io/timer/下载了TCGA样品的免疫浸润估计，并分析了结直肠癌和子宫内膜癌中TMB-低、TMB-高和TMB-极端的免疫浸润丰度的差异，其中检测到TMB-极端亚型。发现TMB-高和TMB-极端样品具有更高丰度的浸润性CD8 T细胞和树突细胞(DC)。此外，与TMB-高和TMB-低相比，仅在TMB-极端亚型中浸润B细胞的丰度显著更高。通过Wilcoxon秩检验在子宫内膜癌中所有差异均显著，但在结直肠癌的TMB-极端亚型中不显著，这可能是由于样品量小(n＝12)(图8)。先前已经注意到，肿瘤微环境中细胞毒性CD8+T细胞、B细胞和成熟活化DC的存在与大多数癌症类型的良好临床结果相关(Giraldo，N.A.et al.The clinical role of the TME in solid cancer.Br.J.Cancer120，45-53(2019))，表明TMB-高和TMB-极端亚型可能具有更好的总存活结果。由于结直肠癌中TMB极端组的规模较小，因此对每个聚合的结直肠癌、胃癌和子宫内膜癌进行了存活分析。研究发现，在考虑年龄和癌症分期后，TMB-高和TMB-极端与不同水平的患者存活提高相关(TMB-高的危险比(HR)＝0.8，p值＝0.1；TMB-极端的危险比＝0.32，p值＝0.006)(图7A和7B)，表明对数转换的TMB亚型具有临床相关性。

分类性能

随着对数转换的TMB定义的生物学和临床意义亚型的发现，我们扩展了我们的方法以使用GMM对TMB亚型进行分类(图5A-5C)。使用基于WES的TMB确定的亚型作为真相，我们在测试集中使用ecTMB和计数方法预测的基于组合的TMB评估分类准确性。与计数方法相比，使用ecTMB的分类不仅提高了整体准确度和κ一致性分数，还提高了每个亚型分类的F1分数(图11)。

讨论

TMB是一种新兴的癌症免疫疗法和预后生物标志物。然而，测定之间TMB测量缺乏一致性以及TMB亚型分类缺乏有意义的阈值已成为其用作临床决策生物标志物的障碍。在我们的研究中，我们描述了一个强大而灵活的统计框架，不仅可以预测各种测定的准确和一致的TMB测量，还可以将样品分类为一种或多种被认为具有生物学和临床相关性的TMB亚型。

TMB被认为是肿瘤中新抗原数量的代表，因为它是根据历史通过计算每Mb基因组范围内的非同义突变数来计算的。据信，TMB是样品特异性BMR，因为大多数突变是整个外显子组中的乘客突变。因此，基于第二次观察，我们首次为TMB预测实施显式背景突变模型。我们的背景突变模型通过贝叶斯框架考虑了已知的突变异质因子(包括三核苷酸上下文、基因组成、样品突变负荷、基因表达水平和复制时间)以及未知因子。已经表明，该方法改进了背景突变模型并成功预测了同义/非同义背景突变，揭示了几个众所周知的癌症特异性驱动基因。与简单地枚举每Mb测序区域内观察到的突变数量的计数方法相比，ecTMB有几个优点。

首先，ecTMB提高了测定之间TMB预测的一致性。另一方面，TMB预测的计数方法因不同的测定而异，例如FoundationOne CDx、MSK-IMPACT和TST170以及用于预测的不同类型的突变。例如，1)由于驱动突变的高度富集和癌症靶向组合中的突变热点，其突变率通常高于BMR(图14和22)，因此在靶向组合测序中将检测到更高的TMB；2)去除COSMIC报告的驱动突变可能导致较低的TMB；3)合并同义突变将导致更高的TMB。即使这些数字与基于WES的TMB高度相关(图21)，固定或成比例的偏差会导致测定之间的不一致。然而，ecTMB能够预测一致的TMB值，与基于WES的TMB更好地一致，尽管使用了不同的组合，无论是合并同义突变，还是如本研究所示使用非同义突变的比例。

其次，ecTMB能够合并同义突变以进行TMB预测。尽管由于成本较低和DNA输入要求较少，在临床实践中需要进行组合靶向测序，但代价是将会检测到的每位患者的突变数量降低。同义突变的合并有可能提高基于组合的TMB预测的准确性。

此外，ecTMB通过将每个基因视为独立的负二项式过程来预测TMB，与基于单个计数值预测TMB相比，这提供了更稳健的预测。虽然还有其他因子影响TMB在测定中的一致性，例如测序深度和体细胞突变调用，但已经证明，当这些因子固定时，ecTMB可以帮助提高TMB测量的稳定性。潜在地，可以将更多因子添加到我们的统计框架中，以进一步提高TMB测量的一致性。

如本文所述，TMB分类的阈值是一个有争议的话题，并且已经使用了不同的TMB任意截止值。许多研究试图通过分析与充分表征的生物标志物(例如MSI、存活结果或免疫疗法应答)的关联来评估基于这些任意截止值的TMB亚型的生物学和临床解释。一些研究发现MSI-H与高TMB之间存在关联，其中MSI-H倾向为一个子集(Chalmers，Z.R.et al.Analysisof 100,000human cancer genomes reveals the landscape of tumor mutationalburden.1-14(2017)).然而，没有决定性的阈值来定义有意义的TMB亚型来研究关联。在我们的工作中，我们仅基于对数转换的TMB发现了三种癌症亚型，即TMB-低、TMB-高和TMB-极端。

已经表明，这些亚型不仅描述了不同水平的TMB，而且还与超突变和总体患者存活的各种原因有关。第一个亚型是TMB-低，其突变率低，极少有POLE中的突变或MMR缺陷(MSI-H)。第二种亚型(TMB-高)的特点是TMB相对高、INDEL突变率高、MSI-H病例高富集。该亚型是患有MMR系统缺陷(其导致MSI-H和相对高的TMB表型)的子集。有趣的是，已经发现了两个针对MMR缺陷的新驱动突变。最后一个亚型是TMB-极端，其特点是SNV突变率极高，但INDEL突变率低，POLE突变低和MMR缺陷少。还发现了该亚型中两个已知的POLE驱动突变。这表明功能失调的POLE可能是TMB极端亚型的根本原因。总之，我们的工作首次清楚地示出了MSI-H与高TMB之间的关联，而MSI-H是由MMR缺陷引起的，是高突变肿瘤的一种亚型。与TMB-高(MSI-H)亚型相比，新型TMB-极端亚型显示出更好的总存活结果，并且与几种肿瘤浸润淋巴细胞(TIL)显著相关，表明TMB-极端可能是预测患者预后或指导癌症治疗的另一个有希望的标志物。三个TMB亚型的发现使我们能够扩展ecTMB以使用高斯混合模型基于预测的TMB值对样品进行分类。

这三种不同的亚型在结直肠癌、胃癌和子宫内膜癌中检测到，已知这些癌症具有高MSI-H患者比例，据报道其他癌症类型的MSI-H病例很少(Hause，R.J.，Pritchard，C.C.，Shendure，J.＆Salipante，S.J.Classification and characterization ofmicrosatellite instability across 18cancer types.Nat Med 22，1342-1350(2016))。因此，这些亚型可能是MSI-H病例百分比高的癌症所独有的。在其他癌症类型中，发现大多数癌症类型具有它们自己的基本突变率，由第一高斯分布表示(图18)，这可能与其组织类型相关。例如，低级别神经胶质瘤(LGG)的基础突变率低于食管癌(ESCA)(图18)，这可能是由于脑中细胞增殖率低于食管组织所致。已被证明与环境因子(例如，UV、烟草)相关的癌症具有持续、更广泛的高TMB谱。同时，在其余癌症类型中检测到超突变样品，其在POLE和MMR系统中也以高突变为特征，表明其他突变生物标志物的组合可能有助于进一步分类这些癌症。

最近的工作发现了TMB测量的问题(Mel éndez，B.et al.Methods ofmeasurement for tumor mutational burden in tumor tissue.Transl Lung CancerRes7，661-667(2018))。例如，TMB测量在不同测定之间不一致，需要更高的成本，因为需要设计特殊的更大的组合来仅捕获TMB，并且没有确定的分类阈值，这阻碍了其在临床实践中的应用。在这里，我们描述了一种新颖而强大的方法来预测TMB并基于TMB稳健地对样品进行分类。它提出了TMB的另一种解释，即样品特异性背景突变率，并阐明了生物学和临床相关的TMB亚型。据信本文描述的系统和方法可以帮助促进采用TMB作为临床诊断中的生物标志物。

本说明书中提到的和/或应用数据表中列出的所有美国专利、美国专利申请公开、美国专利申请、国外专利、国外专利以及非专利公开均通过引用整体并入本文。如有必要，可对实施例的各个方面进行修改，从而采用各类专利、应用和公开的概念来提供其他进一步的实施例。

尽管已经参照一些说明性实施例描述了本公开，但应当理解，本领域技术人员可以在本公开原则的精神和范围内设计出许多其他的修改和实施例。更具体地，在不违背本公开的精神的情况下，在上述公开、附图和所附权利要求的范围内，所述主题组合排列的组成部分和/或布置可以进行合理的变化和修改。除了在所述组成部分和/或布置中的变化和修改外，对于本领域技术人员来说，替代用途也将是显而易见的。

Claims

1.一种用于对源自患者的肿瘤样品进行分类的系统，所述系统包括：

(i)一个或多个处理器，以及(ii)耦接至所述一个或多个处理器的一个或多个存储器，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时，使所述系统执行包括以下步骤的操作：

(a)接收在获得的测序数据内的对体细胞突变的鉴定，所述测序数据源自所述肿瘤样品；

(b)通过使用所述经鉴定的非同义和同义突变以及多个预定突变率参数执行最大似然估计，来基于已接收的经鉴定的体细胞突变来估计肿瘤突变负荷，其中所述预定突变率参数通过以下方式导出：(i)仅考虑已知影响因素，使用负二项回归、泊松回归、零膨胀泊松回归或零膨胀负二项回归中的一者来估计背景突变率；(ii)考虑未知的影响因素，使用单基因分析来估计背景突变率；以及(iii)在贝叶斯框架内组合(i)和(ii)的估计；以及

(c)基于经估计的肿瘤突变负荷的转换，为所述肿瘤样品分配癌症亚型，其中通过对所述经估计的肿瘤突变负荷进行对数转换来计算所述经估计的肿瘤突变负荷的转换，且其中所述癌症亚型的分配包括(i)将所述经估计的肿瘤突变负荷的转换建模为高斯混合模型，其中所述高斯混合模型的每第K个分量代表一种癌症亚型；(ii)计算所述高斯混合模型的每第K个分量的分配分数；(iii)鉴定具有最高分配分数的第K个分量；以及(iv)将与经鉴定的具有最高分配分数的第K个分量相关的所述癌症亚型分配为所述肿瘤样品的所述癌症亚型。

2.根据权利要求1所述的系统，其中基于训练数据，使用期望最大化算法来估计每第K个分量的参数。

3.根据权利要求1所述的系统，其中所述多个预定突变率参数包括(i)基因特异性突变率因子，和(ii)上下文特异性突变率。

4.根据权利要求3所述的系统，其中所述上下文特异性突变率选自由(i)三核苷酸上下文特异性突变率、(ii)二核苷酸上下文特异性突变率和(iii)突变特征组成的组。

5.根据权利要求1所述的系统，其中所述零膨胀泊松回归用于仅考虑已知影响因素来估计所述背景突变率。

6.根据权利要求1所述的系统，其中所述零膨胀负二项回归用于仅考虑已知影响因素来估计所述背景突变率。

7.根据权利要求1所述的系统，其进一步包括用于基于分配给所述肿瘤样品的所述癌症亚型来计算总存活的指令。

8.根据权利要求1所述的系统，其中所述已接收的经鉴定的体细胞突变源自对源自所述肿瘤样品的核酸的全外显子组测序或靶向组合测序。

9.一种对源自患者的肿瘤样品进行分类的计算机实现的方法，所述方法包括：

(a)获得所述肿瘤样品的测序数据；

(b)在获得的测序数据内鉴定体细胞突变；

(c)通过使用所述经鉴定的非同义和同义突变以及多个预定突变率参数执行最大似然估计，来基于经鉴定的体细胞突变来估计肿瘤突变负荷，其中所述预定突变率参数通过以下方式导出：(i)仅考虑已知影响因素，使用负二项回归、泊松回归、零膨胀泊松回归或零膨胀负二项回归中的一者来估计背景突变率；(ii)考虑未知的影响因素，使用单基因分析来估计背景突变率；以及(iii)在贝叶斯框架内组合(i)和(ii)的估计；

(d)计算经估计的肿瘤突变负荷的转换以提供对数转换的经估计的肿瘤突变负荷；以及

(e)基于已转换的经估计的肿瘤突变负荷为所述肿瘤样品分配癌症亚型，所述癌症亚型的分配包括(i)将所述已转换的经估计的肿瘤突变负荷建模为高斯混合模型，其中所述高斯混合模型的每第K个分量代表一种癌症亚型；(ii)计算所述高斯混合模型的每第K个分量的分配分数；(iii)鉴定具有最高分配分数的第K个分量；以及(iv)将与经鉴定的具有最高分配分数的第K个分量相关的所述癌症亚型分配为所述肿瘤样品的所述癌症亚型。

10.根据权利要求9所述的方法，其中基于训练数据，使用期望最大化算法来估计每第K个分量的参数。

11.根据权利要求9所述的方法，其中所述多个预定突变率参数包括(i)基因特异性突变率因子，和(ii)上下文特异性突变率。

12.根据权利要求11所述的方法，其中所述上下文特异性突变率选自由(i)三核苷酸上下文特异性突变率、(ii)二核苷酸上下文特异性突变率和(iii)突变特征组成的组。

13.根据权利要求9所述的方法，其中所述零膨胀泊松回归用于仅考虑已知影响因素来估计所述背景突变率。

14.根据权利要求9所述的方法，其进一步包括基于分配给所述肿瘤样品的所述癌症亚型来计算总存活。

15.根据权利要求9所述的方法，其进一步包括基于分配给所述肿瘤样品的所述癌症亚型来施用治疗剂。

16.根据权利要求15所述的方法，其中所述治疗剂是免疫疗法。

17.根据权利要求16所述的方法，其中所述免疫疗法是检查点抑制剂。

18.根据权利要求9所述的方法，其中所述肿瘤样品的获得的测序数据源自对源自所述肿瘤样品的核酸的全外显子组测序或靶向组合测序。

19.根据权利要求9所述的方法，其中所述癌症亚型是低TMB、高TMB和极端TMB。

20.根据权利要求19所述的方法，其中所述极端TMB癌症亚型包括(i)高单核苷酸变体突变率；(ii)低INDEL突变率；和(iii)POLE基因中的高度非同义突变。