CN115699205A

CN115699205A - 根据性能度量生成癌症检测分析组

Info

Publication number: CN115699205A
Application number: CN202180036132.8A
Authority: CN
Inventors: 项晶; 安东·瓦卢耶夫
Original assignee: Grail Inc
Current assignee: Grail Inc
Priority date: 2020-04-21
Filing date: 2021-04-20
Publication date: 2023-02-03
Also published as: US20210324477A1; AU2021259295A1; WO2021216477A1; JP2023522940A; CA3174294A1; EP4128269A1

Abstract

一种系统，生成癌症检测分析组。该系统被配置成生成具有最小化尺寸和数量的基因组区域、同时仍能检测在特定性能阈值处或之上的癌症的存在的测定。为了选择用于分析组的基因组区域，系统采用分类模型。分类模型接收可以与疾病存在相关联的一组基因组区域。然后，该模型确定每个基因组区域的灵敏度记分，并根据其记分对这些区域进行排序。灵敏度记分是基于基因组区域中的变异指示癌症的可能性。然后，该模型基于它们的排序顺序选择用于分析组的基因组区域。该模型针对所需的检测性能而仅选择所需的尽可能多的基因组指示物。基因组区域可以与实体癌或液体癌、病毒区域或癌症热点相关。

Description

根据性能度量生成癌症检测分析组

相关技术的描述

计算技术可用于DNA测序数据以鉴别DNA中可对应于各种类型的癌症或其它疾病的突变或变体。然而，设计有效地下拉测序数据以鉴别变体和突变的疾病检测分析组是一个具有挑战性的过程。通常，疾病检测分析组包括为该分析组选择的大量基因组区域。选择所包括的区域是因为那些区域中的变异在以前已经显示出指示疾病存在和/或疾病类型。然而，通常，所包括的区域不是以任何方式缩减的，并且所得到的分析组大而且昂贵。

发明内容

本文公开了一种产生用于疾病分类的简化基因分析组(reducedgenepanel)的方法。所述方法可以由计算机系统实现。首先，所述系统获得第一组基因组区域的测序数据。例如，一组50个基因组区域。该系统从所述第一组基因组区域的测序数据导出多个特征值。

然后，所述系统将分类模型应用于所述特征值。所述分类模型使用特征值来预测疾病分类。为此，分类模型产生对应于第一组基因组区域的一组模型系数。然后系统根据它们的模型系数对基因组区域进行排序。例如，首先对具有最高模型系数的基因组区域进行排序。

所述系统基于排序鉴别出基因组区域的优化疾病分类的第一亚组。例如，通过从具有最高模型系数的第一组基因组指示物中选择41个基因组指示物。进而，系统产生包括第一亚组基因组区域的简化基因分析组，例如，包括该亚组中的41个基因组指示物的基因分析组。

在一些实施方式中，测序数据是通过对从多个患者获得的生物样本中存在的细胞游离核酸分子进行测序而获得的。以这样的方式，第一组基因组区域可以包括癌症相关基因、突变热点和/或病毒区域中的至少一种。在一些示例中，第一组基因组区域包括与高信号癌症或液体癌相关的基因组区域。

在一些实施方式中，特征值包括在第一组基因组区域中的每个基因组区域处的变体的最大等位基因频率。在各种示例中，特征值可以代表对应于变体是否存在、平均等位基因频率、小变体的总数和真实变体的等位基因频率中的至少之一的特征。变体可以是单核苷酸变体、插入和/或缺失。

在一些实施方式中，分类模型包括逻辑回归模型。因此，所述一组模型系数包括通过用导出的特征值训练逻辑回归模型而获得的回归系数。

如上所述，系统鉴别了优化疾病分类的基因组区域的第一亚组。在一些实施方式中，为了鉴别第一亚组，系统在初次迭代中基于对应于第一基因组区域的特征值来训练分类模型以预测疾病分类。也就是说，第一基因组区域对应于最高排序顺序的基因组区域。然后系统确定在第一基因组区域上训练的分类模型的性能度量。

为了继续，在随后的迭代中，系统通过并入剩余的排序基因组区域并在并入每个额外的基因组区域后评估性能度量来重新训练分类模型。在每次随后的迭代中，系统应用贪婪算法以将剩余的排序基因组区域的次高排序基因组区域添加到分类模型中。因此，系统使用与添加的次高排序顺序的基因组区域以及在前一次迭代中先前添加的基因组区域相关的特征值来重新训练分类模型。因此，系统然后确定重新训练的分类模型的性能度量，并评估每次迭代获得的性能度量。基于所评估的性能度量，系统鉴别出产生优化的性能度量的第一亚组基因组区域。

在一些实施方式中，优化的性能度量是由分类模型实现的最大性能度量。例如，优化的性能度量可以是在一组基因组指示物的预定特异性水平上的优化的灵敏度水平。用简化基因分析组获得的性能度量基本上类似于用包含完整的第一组基因组区域的完整基因分析组获得的性能度量。

在一些实施方式中，第一组基因组区域包含与高信号癌症相关的基因组区域，并具有约2Mb的组尺寸(setsize)。因此，第一亚组基因组区域可以具有小于300kb的亚组尺寸(subsetsize)，但也可以是其它尺寸。因此，简化基因分析组包括不超过300kb的总分析组尺寸(totalpanelsize)。

在一些情况下，系统可以使用第二组基因组区域确定第二亚组基因组区域。在这种情况下，系统鉴别第二亚组基因组区域，所述第二亚组基因组区域进一步改善由第一亚组基因组区域实现的疾病分类。一旦被鉴别出，则系统就产生包括第一亚组基因组区域和第二亚组基因组区域的简化基因分析组。

为此，系统获得第二组基因组区域的第二组测序数据。然后，该系统对第二组基因组区域进行排序，并基于排序的第二组基因组区域来鉴别第二亚组基因组区域。在一个示例中，第二组基因组区域可以根据每个患者的体细胞突变的频率和/或被编码区域长度标准化的频率来排序。

在一些实施方式中，其它另外亚组的基因组区域使用另外组的基因组区域。例如，该系统鉴别了第三亚组基因组区域，其进一步改善了由简化基因分析组实现的疾病分类。然后，该系统在简化基因分析组中包括第三亚组基因组区域。第三亚组基因组区域可以优化简化分析组的疾病类型预测准确度。此外，第三组基因组区域可以是癌症特异性基因和热点。

可以包括的一些另外的基因组区域包括对应于单核苷酸变体、插入或缺失的热点区域。另一个基因组区域可以包括对应于病毒相关癌症的病毒靶区域。在这些情况下，分类模型可以选择任何数量的基因组区域以包括在简化分析组中。

在一些实施方式中，疾病分类可包括用于预测癌症或非癌症的双类别分类。该分类还可以包括和/或用于预测癌症类型的多类别分类。

在一些实施方式中，该系统可以在存储一个或多个程序的非暂时性计算机可读介质上实现。所述程序可以包括指令，所述指令在由包括处理器的电子设备执行时使所述设备执行前述权利要求的任何方法。

在一些实施方式中，电子设备可以包括一个或多个处理器、存储器和一个或多个程序。一个或多个程序可以存储在存储器中，并且被配置为由设备的一个或多个处理器执行。所述一个或多个程序包括用于执行前述权利要求的任何方法的指令。

如上所述，系统可以产生疾病检测(例如，癌症)测定分析组。为了产生该分析组，系统可以从以下的任何一种中选择基因组区域：(i)与高信号癌基因和液体癌基因相关的第一组基因组区域，(ii)与癌症特异性基因和癌症特异性热点相关的第二组基因组区域，和(iii)与针对单核苷酸变体或indel的热点相关的第三组基因组区域，和(iv)与病毒靶相关的第四组基因组区域。然后，该系统产生包括多个探针组的癌症测定分析组。多个探针组中的每个探针组可以包括一对探针，用于靶向第一、第二、第三和第四组基因组区域中的至少一个基因组区域。

在从第一、第二、第三和/或第四组基因组区域中选择基因组区域时，系统可以应用分类模型来评价每个基因组区域对癌症测定分析组的检测灵敏度的贡献。

在一些实施方式中，第一组基因组区域包含本文表1中公开的一个或多个基因组区域；第三组基因组区域包含本文表3、表4、表5和/或表6中公开的一个或多个基因组区域。在一些实施方式中，系统选择提高分析组的检测灵敏度的第五组基因组区域，并且第五组基因组区域包含本文表2中公开的一个或多个基因组区域。

在一些实施方式中，第二组基因组区域包含CASP8、IDH1、TERT1和EGFR中的一种或多种。在一些实施方式中，第四组基因组区域包含位于HPV16、HPV18、EBV和HBV中的一个或多个基因组区域处的一个或多个位点。

所述系统可利用本文所述的基因组区域产生一分析组。该分析组可用于评价发展疾病状态的风险、检测疾病状态和/或诊断疾病状态的方法中。该方法可以包括在一组基因的至少一个基因中的体细胞突变。基因可以从细胞游离核酸样本获得。然后，该方法基于检测到的体细胞突变来确定疾病状态。在各种实施方式中，检测体细胞突变可包括检测SNV、插入和/或缺失。在一种实施方式中，该方法还可以包括根据基因和在该基因处检测到的体细胞突变进行治疗、预后或诊断。

在一种实施方式中，所述一组基因可以包括选自第一群组基因中的三个、五个或十个或更多个基因。第一群组基因可以包括KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP和APC。

在一种实施方式中，所述一组基因可以包括KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63和KEAP1。所述一组基因还可以包括选自CDK12、KMT2D、DICER1、TET2、LAT52、ETV5、GRIN2A、EPHA7、ASXL2和RET中的一个或多个基因。所述一组基因还可以包括选自TP53、NRAS、KMT2D、TET2、KMT2C、SF3B1和LRP1B中的一个或多个基因。所述一组基因还可以包括选自MYD88、CBL、BRAF、CREBBP和APC中的一个或多个基因。

在一种实施方式中，所述一组基因还包括来自第二群组基因的一个或多个基因。第二群组基因与针对SNV和indel的热点相关。第二群组基因可包括AKT1、ERBB3、IDH1、PTEN、ARAF、EZH2、IDH2、PTPRD、CD79A、FGFR3、MAP3K1、RHOA、CDKN2A、GATA3、MAPK1、RNF43、DNMT3A、GNAS、MSH2、SPTA1、EP300、HRAS、PREX2和TERT中的任一种。

在一种实施方式中，所述一组基因还包括来自第三群组基因的一个或多个基因。第三群组基因与病毒热点有关。第三群组基因可包括HPV16、HPV18、EBV和HBV中的任一种。

在一种实施方式中，该方法可以通过非暂时性计算机可读介质来实现。所述介质可以存储包括指令的一个或多个程序，所述指令在由包括处理器的电子设备执行时使得所述设备执行任何所述方法。

在一种实施方式中，电子设备可以包括一个或多个处理器、存储器和用于执行该方法的一个或多个程序。也就是说，电子设备包括存储在存储器中并被配置为由一个或多个处理器执行的一个或多个程序。所述程序包括用于执行所述方法的指令。

在一种实施方式中，本文所述的任何系统可产生经由所述方法产生的癌症测定分析组。例如，癌症测定分析组可以包含选自与高信号癌症或液体癌相关的第一群组基因中的一个或多个基因、选自与针对单核苷酸变体(SNV)或indel的热点相关的第二群组基因中的一个或多个基因、以及选自与病毒热点相关的第三群组基因中的一个或多个基因。

在一种实施方式中，第一群组基因由以下组成：KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP和APC。

在一种实施方式中，第二群组基因包括与针对SNV的热点相关的一组基因。所述一组基因由AKT1、CDKN2A、DNMT3A、EP300、ERBB3、FGFR3、GNAS、HRAS、IDH1、IDH2、MAP3K1、MAPK1、PREX2、PTEN、PTPRD、RHOA、SPTA1、TERT、和EZH2组成。在一种实施方式中，第二群组基因包括与indel相关的一组基因。所述一组基因由ARAF、CD79A、GATA3、MSH2、PTEN和RNF43组成。在一种实施方式中，第三群组基因由HPV16、HPV18、EBV和HBV组成。

在一种实施方式中，本文所述的系统、装置或存储器中的任一个可实施用于产生最小化的癌症检测分析组来确定患者中癌症是否存在的方法。例如，方法可以用生成分析组的工作流表示。

首先，系统接收生成检测分析组的请求，所述请求包括检测分析组的集合千碱基尺寸(aggregate kilobase size)。然后，系统接收多个基因组区域，每个基因组区域与基因组区域的特征变异指示癌症的可能性相关。每个基因组区域具有千碱基尺寸。

该系统对多个基因组区域应用分类器模型以产生检测分析组。该系统采用分类器模型来确定每一个基因组区域的灵敏度记分。灵敏度记分量化对检测分析组的检测灵敏度的贡献。检测灵敏度对在癌症检测分析组中包括的基因组区域组中的特征变异指示癌症的可能性进行量化。在一种实施方式中，指示癌症的特征变异是基因组区域的单核苷酸变体的最大变体等位基因频率。

接着，系统使用分类器模型根据基因组区域的灵敏度记分对多个基因组区域进行排序。然后，模型基于多个基因组区域的排序顺序选择一个或多个基因组区域作为检测分析组的一组基因组区域。检测分析组中的所述一组基因组区域的千碱基尺寸之和小于集合千碱基尺寸。在一种实施方式中，可以将确定的一组基因组区域发送到传送请求的客户端设备。所述一组基因组区域可用于产生用于确定患者中癌症存在的分析组。

在一种实施方式中，一个或多个所述基因组区域指示与癌症相关的病毒。病毒可以是HPV16、HPV18、EBV和HBV中的任一种。在一种实施方式中，一个或多个所述基因组区域与实体癌相关。与实体癌相关的基因组区域可以是本文表1和表2中公开的那些区域之一。在一种实施方式中，一个或多个基因组区域与液体癌相关。与液体癌相关的基因组区域可以是本文表1和表2中公开的那些区域之一。在一种实施方式中，一个或多个基因组区域指示癌症热点。与癌症热点相关的基因组区域可以是本文表3、表4或表5中公开的那些区域之一。在一种实施方式中，一个或多个基因组区域与特定类型的癌症相关。

由于所述一组基因组区域具有小于阈值千碱基尺寸，所以在一种实施方式中，检测分析组包括少于65、55或45个基因组区域。类似地，集合千碱基尺寸可以是390,000、330,000、270,000、210,000、150,000或更少千碱基中的任一个。

在一种实施方式中，请求包括由被设计的检测分析组来检测的癌症类型。在这种情况下，灵敏度记分量化检测分析组对癌症类型的检测灵敏度的贡献。此外，对指示物进行排序还包括基于由被设计的检测分析组检测的癌症类型，对基因组区域进行排序。

在一种实施方式中，本文所述的一个或多个分析组包含一组被设计用于促进高品质检测测定的探针。例如，癌症测定分析组可以包括至少探针数量的探针对。探针数量的对中的每一对均包括两个探针，它们被配置成通过重叠序列彼此重叠。

重叠序列包含重叠数量的核碱基。重叠序列可以来自为分析组选择的基因组指示物。在重叠序列内，重叠数量的核碱基与对应于一个或多个基因组区域的文库分子杂交。每个基因组区域具有例如基因组区域的单核苷酸变体的最大变体等位基因频率。基因组区域的至少一些变体等位基因频率出现在癌变样本中。其它体细胞变异和这些变异的定量也是可能的。

在一种实施方式中，癌变样本来自患有特定起源组织(tissue of origin，“TOO”)的癌症的受试者。特定TOO的癌症可以是乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾尿路上皮癌、除尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结肠直肠癌、肝胆癌、胰腺癌、鳞状上胃肠癌、除鳞状上胃肠癌以外的上胃肠癌、头颈癌、肺腺癌、小细胞肺癌、除肺腺癌或小细胞肺癌以外的肺癌。神经内分泌癌、肺神经内分泌瘤和其它高级神经内分泌瘤、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。

在一种实施方式中，每个探针包含70-140个核苷酸。其它数量的核苷酸也是可能的。在一种实施方式中，探针数量的探针对是1000、1500、2000、2500或3000个探针对。在一种实施方式中，重叠序列中重叠数量的核碱基为20、30、40、50、60、70或80个核碱基。

在一种实施方式中，癌症测定分析组包括至少2900个由本文公开的分类器模型选择的探针。分类器模型基于对2900个探针中每一个探针的检测灵敏度进行定量而得到的灵敏度记分来选择至少2900个探针。所述至少2900个探针的集合千碱基尺寸小于靶千碱基尺寸。在这种情况下，分类器模型选择具有最高灵敏度记分、同时保持低于靶千碱基尺寸的2900个探针。

在一种实施方式中，一个或多个基因组区域是在本文公开的表1、表2、表3、表4或表5中。在一种实施方式中，一个或多个基因组区域与病毒区域相关，病毒区域指示与癌症相关的病毒序列。

附图简述

图1是根据一种实施方式的制备测序用核酸样本的方法的流程图。

图2A是根据一种实施方式的用于处理序列读段的处理系统的框图。

图2B是根据一种实施方式的用于生成分析组的分析组生成器的框图。

图3是根据一种实施方式的用于确定序列读段的变体的方法流程图。

图4是根据一种实施方式的用于生成疾病检测分析组的工作流的流程图。

图5示出了接收器操作特征图，其显示了基于包括大组基因组区域(大约2Mb)的分析组的三种分类器的性能，所述基因组区域没有以本文所述的方式鉴别或选择。

图6A示出了根据实施例的由应用于训练数据的双分类器和单分类器生成的分析组的ROC图。

图6B示出了根据一种实施方式的针对图6A中的ROC图的ROC结果图。

图6C示出了根据一种实施方式的由应用于真实数据的双分类器和单分类器生成的分析组的ROC图。

图6D示出了根据一种实施方式的针对图6C的ROC图的ROC结果图。

图7A示出了根据一种实施方式的由应用于训练样本的双分类器和单分类器生成的分析组的ROC图。

图7B示出了根据一种实施方式的针对图7A的ROC图的ROC结果图。

图7C示出了根据一种实施方式的由应用于测试样本的双分类器和单分类器生成的分析组的ROC图。

图7D示出了根据一种实施方式的针对图7C中的ROC图的ROC结果图。

图8A示出了根据一种实施方式的针对实体癌的系数图。

图8B示出了根据一种实施方式的实体癌的癌变频率图。

图8C示出了根据一种实施方式的针对实体癌的非癌变频率图。

图9A示出了根据一种实施方式的针对液体癌的系数图。

图9B示出了根据一种实施方式的针对液体癌的癌变频率图。

图9C示出了根据一种实施方式的针对液体癌的非癌变频率图。

图10示出了根据一种实施方式的针对实体癌和液体癌的系数图。

图11A示出了根据一种实施方式的针对实体癌的检测贡献图。

图11B示出了根据一种实施方式的针对液体癌的检测贡献图。

图12示出了根据一种实施方式的针对实体癌的尺寸贡献图。

图13A示出了根据一种实施方式的覆盖度图。

图13B示出了根据一种实施方式的覆盖度大小图。

图14示出了根据一种实施方式的类型分类图。

图15示出了根据一种实施方式的针对分析组的准确度贡献图。

图16示出了根据一种实施方式的生成用于确定癌症存在的分析组的示例性工作流。

图17A是根据一种实施方式的一组训练数据的群体图。

图17B是根据一种示例性实施方式的灵敏度图。

图18A是根据一种实施方式的针对一组测试数据的群体图。

图18B是根据一种示例性实施例的灵敏度图。

图19示出了根据一种实施方式的用于生成小于阈值分析组尺寸的分析组的示例性工作流。

图20A示出了根据一种实施方式的用于大组分析组的不同癌症类型的SNV计数图。

图20B示出了根据一种实施方式的针对大组分析组的不同癌症阶段的SNV计数图。

图20C示出了根据一种实施方式的针对使用分析组生成器生成的分析组的不同癌症类型的SNV计数图。

图20D示出了根据一种实施方式的针对使用分析组生成器生成的分析组的不同癌症阶段的SNV计数图。

图20E示出了根据一种实施方式的针对大组分析组的不同癌症类型的SNV差曲值图。

图20F示出了根据一种实施方式的使用分析组生成器生成的分析组的不同癌症阶段的SNV差值图。

图21A示出了根据一种实施方式的针对大组检测组的不同癌症类型的indel计数图。

图21B示出了根据一种实施方式的针对大组分析组的不同癌症阶段的indel计数图。

图21C示出了根据一种实施方式的使用分析组生成器生成的分析组的不同癌症类型的indel计数图。

图21D示出了根据一种实施方式的使用分析组生成器生成的分析组的不同癌症阶段的indel计数图。

图21E示出了根据一种实施方式的针对大组分析组的不同癌症类型的indel差值图。

图21F示出了根据一种实施方式的使用分析组生成器生成的分析组的不同癌症阶段的indel差值图。

具体实施方式

I.定义

术语“个体”是指人类个体。术语“健康个体”是指假定不患有癌症或疾病的个体。术语“受试者”是指已知患有或者有可能患有癌症或疾病的个体。

术语“序列读段(sequence reads)”是指从由个体获得的样本中读取的核碱基序列。序列读段可以通过本领域已知的各种方法获得。

术语“读取片段(read segment)”或“读段(read)”是指包含从个体获得的序列读段的任何核碱基序列和/或由从个体获得的样本中读取的初始序列衍生的核碱基序列。例如，读取片段可以指对齐的序列读段、折叠的序列读段或拼接的读段。此外，读取片段可以指单核碱基，例如单核碱基变体。

术语“单核碱基变体”或“SNV”是指在核碱基序列(例如，从个体读取的序列)的一定位置(例如，位点)处将一个核碱基取代成不同的核碱基。从第一核碱基X到第二核碱基Y的取代可以表示为“X>Y”。例如，胞嘧啶至胸腺嘧啶的SNV可表示为“C>T”。

术语“indel”是指具有一定长度和位置(也可以称为锚定位置)的一个或多个碱基对在序列读段中的任何插入或缺失。插入对应于正长度(positive length)，而缺失对应于负长度(negative length)。

术语“突变”是指一个或多个SNV或indel。

术语“真阳性”是指指示真实生物学的突变，例如，在个体中存在潜在的癌症、疾病或种系突变。真阳性不是由在健康个体中天然存在的突变(例如，频发突变)或其它人为因素来源(例如在核酸样本的测定制备期间的过程误差)引起的。

术语“假阳性”是指错误地确定为真阳性的突变。通常，当处理与更大的平均噪声率或更大的噪声率不确定性相关联的序列读段时，假阳性更可能发生。

术语“细胞游离核酸(cell-free nucleic acid)”、“细胞游离DNA”或“cfDNA”是指在个体体内(例如血流)循环并且源自一个或多个健康细胞和/或源自一个或多个癌细胞的核酸片段。cfDNA可以从血样中获得。

术语“循环肿瘤DNA”或“ctDNA”是指源自肿瘤细胞或其它类型的癌细胞的核酸片段，其可以由于生物学过程如死亡细胞的凋亡或坏死而释放到个体的血流中或由活肿瘤细胞主动释放。在一些情况下，ctDNA是在cfDNA中发现的DNA。

术语“基因组核酸”、“基因组DNA”或“gDNA”是指包括源自一个或多个健康细胞的染色体DNA的核酸。在一些情况下，认为白细胞是健康细胞。

术语“白细胞DNA”或“wbcDNA”是指包括源自白细胞的染色体DNA的核酸。通常，wbcDNA是gDNA，并且被认为是健康DNA。

术语“组织核酸”、“癌组织DNA”或“tDNA”是指包括来自从癌组织或肿瘤获得的肿瘤细胞或其它类型癌细胞的染色体DNA的核酸。在一些情况下，tDNA获自肿瘤的活检。

术语“替代等位基因(alternative allele)”或“ALT”是指相对于参考等位基因(例如，对应于已知基因)具有一个或多个突变的等位基因。

术语“测序深度”或“深度”是指从个体获得的样本的读取片段的总数。

术语“交替深度(alternate depth)”或“AD”是指样本中支持ALT(例如包括ALT的突变)的读取片段的数量。

术语“交替频率(alternate frequency)”或“AF”是指给定ALT的频率。对于给定的ALT，可以通过将样本的相应AD除以样本深度来确定AF。

II.示例性测定方案

图1是根据一种实施方式的用于制备测序用核酸样本的方法的流程图。工作流(workflow)100包括但不限于以下步骤。例如，工作流100的任何步骤可以包括本领域技术人员已知的用于质量控制或其它实验室测定程序的定量子步骤。

在步骤110中，从受试者中提取核酸样本(DNA或RNA)。在本公开中，除非另有说明，否则DNA和RNA可以互换使用。也就是说，以下的在变体识别(variant calling)和质量控制中使用错误源信息的实施方式均可适用于DNA和RNA类型的核酸序列。然而，为了清楚和解释的目的，在此描述的实施例可以集中在DNA上。样本可以是人类基因组的任何亚组，包括整个基因组。样本可以从已知患有或怀疑患有癌症的受试者中提取。样本可以包括血液、血浆、血清、尿、粪便、唾液、其它类型的体液，或者它们的任何组合。在一些情况下，样本可以包括组织或从组织中提取的体液。在一些实施方式中，抽取血液样本的方法(例如，注射器或手指刺针)可以比获得组织活检的程序(其可能需要外科手术)侵入性小。提取的样本可以包括cfDNA和/或ctDNA。对于健康个体，人体可自然清除cfDNA和其它细胞碎片。如果受试者患有癌症或疾病，则提取的样本中的ctDNA可以以诊断用的可检测水平存在。

另外，提取的样本可以包括wbcDNA。提取核酸样本可以进一步包括使wbcDNA与cfDNA和/或ctDNA分离。当从样本中分离DNA时，可以从cfDNA和/或ctDNA中提取wbcDNA。在血液样本的情况下，wbcDNA是从血液样本的血沉棕黄层(buff coat)部分获得的。可以剪切wbcDNA以获得长度小于300个碱基对的wbcDNA片段。将wbcDNA与cfDNA和/或ctDNA分离使得wbcDNA独立于cfDNA和/或ctDNA而进行测序。通常，wbcDNA的测序过程类似于cfDNA和/或ctDNA的测序过程。

在步骤120中，制备测序文库。在文库制备期间，通过接头(adapter)连接将独特分子标识符(unique molecular identifiers，UMI)添加到核酸分子(例如DNA分子)中。独特分子标识符是短核酸序列(例如，4-10个碱基对)，其在接头连接期间被添加到DNA片段的末端。在一些实施方式中，独特分子标识符是简并(degenerate)碱基对，其用作可用于识别源自特定DNA片段的序列读段的独特标签。在接头连接后的PCR扩增过程中，独特分子标识符与所连接的DNA片段一起复制，这提供了一种在下游分析中识别来自同一初始片段的序列读段的方法。

在步骤130中，从文库中富集靶DNA序列。在富集过程中，杂交探针(本文中也称为“探针”)用于靶向和下拉对癌症(或疾病)是否存在、癌症状态或癌症分类(例如癌症类型或起源组织)方面提供信息的核酸片段。对于给定的工作流，探针可以被设计成与DNA或RNA的靶(互补)链退火或(杂交)。靶链可以是“正”链(例如，被转录成mRNA、随后被翻译成蛋白质的链)或互补的“负”链。探针的长度范围可以是10s、100s或1000s碱基对。在一种实施方式中，基于这样的基因分析组，即用于分析被怀疑对应于某些癌症或其它类型疾病的基因组(例如，人或另外生物体的)的特定突变或靶区域，来设计探针。此外，探针可以覆盖靶区域的重叠部分。通过使用被靶向的基因分析组，而不是对基因组的所有表达基因进行测序(也称为“全外显子测序”)，可用工作流100来增大靶区域的测序深度，其中深度是指已被测序的样本内给定靶序列计数次数。增大测序深度减少了所需的核酸样本输入量。杂交步骤后，捕获杂交的核酸片段，也可以用PCR扩增。

在步骤140中，由富集的DNA序列生成序列读段。可以通过本领域已知的方法从富集的DNA序列获得测序数据。例如，工作流100可以包括下一代测序(NGS)技术，包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(Ion Torrentsequencing)、单分子实时测序(Pacific Biosciences)、连接测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或配对末端测序。在一些实施方式中，使用具有可逆染料终止子的边合成边测序(sequencing-by-synthesis)进行大规模平行测序。在其它实施方式中，可使用基于扩增的检测或甲基化特异性扩增方法，例如通过聚合酶链反应(PCR)、数字PCR(dPCR)、定量PCR(qPCR)、实时PCR(RT-PCR)、定量实时PCR(qRT-PCR)或本领域中其它熟知的方法来检测序列。

在一些实施方式中，可以使用本领域已知的方法将序列读段与参考基因组比对以确定比对位置信息。比对位置信息可指示参考基因组中一定区域的起始位置和终止位置，所述区域对应于给定序列读段的起始核碱基和末端核碱基。比对位置信息还可以包括序列读段长度，其可以由开始位置和终止位置确定。参考基因组中的区域可以与基因或基因片段相关联。由于cfDNA和/或ctDNA和wbcDNA是独立测序的，因此可独立产生cfDNA和/或ctDNA和wbcDNA的序列读段。

在各个实施方式中，序列读段由以R₁和R₂表示的读段对组成。例如，第一读段R₁可以从核酸片段的第一端测序，而第二读段R₂可以从核酸片段的第二端测序。因此，第一读段R₁和第二读段R₂的核碱基对可以一致地(例如，以相反的方向)与参考基因组的核碱基进行比对。源自读段对R₁和R₂的比对位置信息可包括参考基因组中对应于第一读段(例如R₁)末端的起始位置和参考基因组中对应于第二读段(例如R₂)末端的终止位置。换言之，参考基因组中的起始位置和终止位置代表核酸片段所对应的参考基因组内的可能位置。可以生成和输出具有SAM(序列比对映射)格式或BAM(二进制)格式的输出文件以用于进一步的分析，例如变体识别，如下面参考图2所描述的。

III.示例性处理系统

图2A是根据一种实施方式的用于处理序列读段和生成疾病检测分析组(diseasedetection panel)的处理系统200的框图。处理系统200包括序列处理器205、序列数据库210、模型数据库215、机器学习引擎220、模型225(例如，包括一个或多个贝叶斯分层模型或联合模型)、参数数据库230、记分引擎235、变体识别器(variant caller)240和分析组生成器(panel generator)250。图2B示出了根据一种实施方式的用于生成分析组的分析组生成器的框图。分析组生成器250包括分类预测模型270、指示物数据库(indicator database)290和探针生成器260。

III.A由序列确定变体

图3是根据一种实施方式的用于确定序列读段变体的工作流的流程图。在一些实施方式中，处理系统200执行工作流300以基于输入的测序数据执行变体识别(例如，针对SNV和/或indel)。此外，处理系统200可以从与使用上述工作流100制备的核酸样本相关联的输出文件中获得输入测序数据。工作流300包括但不限于以下步骤，这些步骤是针对处理系统200的组件描述的。在其它实施方式中，工作流300的一个或多个步骤可以由用于生成变体识别(variant calls)的不同过程的步骤来代替，例如使用变体识别格式(VariantCall Format，VCF)，如HaplotypeCaller、Varscan、Strelka或SomaticSniper。

在步骤310，序列处理器205对输入测序数据的比对序列读段进行折叠。在一种实施方式中，折叠序列读段包括使用独特分子标识符以及任选的来自输出文件(例如，来自图1所示的工作流100)的测序数据的比对位置信息，将多个序列读段折叠成共有序列(consensus sequence)，用于确定核酸片段或其一部分的最可能的序列。由于独特分子标识符与所连接的核酸片段通过富集和PCR一起复制，因此序列处理器205可以确定某些序列读段源自核酸样本中的同一分子。在一些实施方式中，具有相同或相似的比对位置信息(例如，在阈值偏移量以内的起始和终止位置)并且包括共同的独特分子标识符的序列读段被折叠，并且序列处理器205产生折叠的读段(在本文中也称为共有读段)以表示核酸片段。如果相应的折叠的读段对具有共同的独特分子标识符，这表明初始核酸分子的正链和负链均被捕获，则序列处理器205指定共有读段为“双链体(duplex)”；否则，折叠的读段被指定为“非双链体”。在一些实施方式中，序列处理器205可对序列读段执行其它类型的纠错，作为对折叠的序列读段的替代或补充。

在步骤315，序列处理器205基于相应的比对位置信息拼接(stitches)折叠的读段。在一些实施方式中，序列处理器205比较第一读段和第二读段之间的比对位置信息，以确定第一读段和第二读段的核碱基对是否在参考基因组中重叠。在一种使用情况下，响应于确定第一读段和第二读段之间的重叠区(overlap)(例如，给定数量的核碱基的重叠区)大于阈值长度(例如，核碱基的阈值数量)，序列处理器205将第一读段和第二读段指定为“拼接”；否则，折叠的读段被指定为“未拼接”。在一些实施方式中，如果重叠区大于阈值长度并且如果重叠区不是滑动重叠区(sliding overlap)，则第一读段和第二读段被拼接。例如，滑动重叠区可包括均聚物运行区(run)(例如，单一重复核碱基)、二核碱基运行区(例如，二个核碱基序列)或三核碱基运行区(例如，三个核碱基序列)，其中均聚物运行区、二核碱基运行区或三核碱基运行区具有至少阈值长度的碱基对。

在步骤320，序列处理器205将读段组装成路径(path)。在一些实施方式中，序列处理器205组装读段以生成针对靶区域(例如基因)的定向图，例如德布鲁因图(de Bruijngraph)。定向图的单向边缘表示靶区域中的k个核碱基(本文中也称为“k-mers”)的序列，并且边缘通过顶点(或节点)连接。序列处理器205将折叠的读段对准到定向图，使得任何折叠的读段可以由边缘的亚组和相应的顶点按顺序表示。

在一些实施方式中，序列处理器205确定描述定向图的参数组并处理定向图。另外，该参数组可以包括从折叠读段到由定向图中的节点或边缘表示的k-mer的成功对准的k-mer的计数。序列处理器205例如将定向图和相应的参数组(其可以被检索以更新图或生成新的图)存储在序列数据库210中。例如，序列处理器205可以基于该参数组生成定向图的压缩版本(例如，或修改现有图)。在一种使用情况下，为了滤除具有较低重要性等级的定向图的数据，序列处理器205移除(例如，“微调(trims)”或“剪除(prunes)”)具有小于阈值的计数的节点或边缘，并维持具有大于或等于阈值的计数的节点或边缘。

在步骤325，变体识别器240从由序列处理器205组装的路径中生成候选变体。在一种实施方式中，变体识别器240通过将定向图(其可以通过剪除步骤310中的边缘或节点而被压缩)与基因组靶区域的参考序列进行比较来产生候选变体。变体识别器240可以将定向图的边缘与参考序列对齐，并记录错配边缘和与这些边缘相邻的错配核碱基的基因组位置作为候选变体的位置。另外，变体识别器240可以基于靶区域的测序深度生成候选变体。特别地，变体识别器240在鉴别具有更大测序深度的靶区域中的变体方面可以更可靠，例如是因为更多的序列读段有助于解决(例如，使用冗余)序列之间的错配或其它碱基对变异。

在一种实施方式中，变体识别器240使用变体模型225生成候选变体，以确定受试者序列读段的预期噪声率。变体模型225可以是贝叶斯分层模型，但是在一些实施方式中，处理系统200使用一个或多个不同类型的模型。此外，贝叶斯分层模型可以是众多可能的模型体系结构中的一种，这些模型体系结构可以被用于生成候选变体，并且它们彼此相关，是由于它们均对特定位置的噪声信息进行建模以便提高变体识别的灵敏度/特异性。更具体地，机器学习引擎220使用来自健康个体的样本来训练变体模型225，以对序列读段的每个位置的预期噪声率进行建模。

此外，多个不同的模型可以被存储在模型数据库215中或者被检索以便在训练后应用。例如，训练第一模型以对SNV噪声率建模，并且训练第二模型以对indel噪声率建模。此外，记分引擎235可以使用变量模型225的参数来确定序列读段中的一个或多个真阳性的似然性。记分引擎235可以基于该似然性来确定质量记分(例如，在对数标度上)。例如，质量记分是Phred质量记分Q＝-10·log₁₀P，其中P是错误候选变体识别(例如，假阳性)的似然性。

在步骤330，记分引擎235基于变体模型225或相应的真阳性或质量记分的似然性对候选变体进行记分。

在步骤335，处理系统200输出候选变体。在一些实施方式中，处理系统200输出一些或全部所确定的候选变体以及相应的记分。下游系统，例如在处理系统200外部或处理系统200的其它组件，可以利用候选变体和记分用于各种应用，包括但不限于预测癌症、疾病或种系突变的存在。

输出cfDNA和/或ctDNA和wbcDNA的候选变体。在本文中，通常，wbcDNA的候选变体是“正常”，而cfDNA和/或ctDNA的候选变体是“变体”。各种检测方法和模型可以将变体与正常进行比较，以确定变体是否包括癌症或任何其它疾病的特征。在各种实施方式中，可以使用任何其它方法、任何数量的样本(例如，肿瘤活检或血液样本)或访问存储候选变体的数据库来产生正常和变体。

III.B生成分析组

回到图2B，分析组生成器250使用由处理系统200确定的各种特征、记分、序列等来生成疾病检测分析组。本文描述的一个示例性疾病检测分析组是癌症检测分析组，但是该疾病检测分析组也可以检测其它疾病。

分析组生成器250包括存储基因组区域的指示物数据库290。更具体地，指示物数据库290存储测序数据(例如，变体和正常)，这些测序数据可用于检测受试者的样本中是否存在癌症信号，和/或另外预测受试者患有癌症的可能性。测序数据可以与其相应的基因组区域相关联并被一起存储。指示物数据库还可以存储由系统200处理的测序数据，但是还可以存储未由系统200处理的测序数据，例如从外部源加载的测序数据和/或另外从外部或公共数据库检索的测序数据。下面更详细地描述存储在指示物数据库290中的基因组区域。

分析组生成器250采用分类预测模型270(“分类模型”)来鉴别基因组区域以将其包含在分析组中。分类模型270预测包括被鉴别的基因组区域的分析组的分类能力。用于鉴别和选择分析组的基因组区域的方法在下面进行更详细地描述。

分类模型270可以采用鉴别不同类型基因组区域的不同模型。为了举例说明，分类模型270可以：(i)使用相关基因模型272鉴别癌症相关基因的基因组区域，(ii)使用区域覆盖度模型274鉴别癌变样本中的指示性基因组区域，(iii)使用癌症类型模型276鉴别指示癌症类型的基因组区域，(iv)使用热点区域模型278鉴别热点基因组区域，和(v)使用病毒区域模型280鉴别与癌症相关的病毒基因组区域。下面描述各种模型。

分析组生成器250还包括探针生成器260。探针生成器260确定针对分析组的所鉴别的基因组区域的癌症检测探针。下面将更详细地描述探针生成器260。

IV.指示癌症的变体

指示物数据库290包括可指示疾病存在的基因组区域的组(“指示物组”)。每个指示物组可以包括从不同的样本类型、经由不同的过程等获得的序列。例如，第一指示物组可以包括从癌变样本和非癌变样本获得的序列，而第二指示物组可以包括仅从癌变样本获得的序列。在另一个示例中，第一指示物组可以包括从实体癌和液体癌获得的序列，而第二指示物组可以包括仅从实体癌获得的序列。应注意，由分析组生成器250生成的检测分析组可以包括以任意组合、部分或全部的一个或多个指示物组，如下所述。

一些指示物组选自已建立的指示物库。例如，指示物组可以包括选自在“循环细胞游离基因组图谱研究(The Circulating Cell-free Genome Atlas Study)”(“CCGA”；Clinical Trial.gov identifier NCT02889978)中的一个或多个基因组区域。CCGA研究是一项前瞻性、观察性、纵向的研究，其被设计用于表征有和无癌症的人的血液中的基因组癌症信号的情况。从遍及美国和加拿大的142个地点处收集约15,000名参与者的去鉴别的生物样本。选择样本以确保每个群组中所有地点的癌症类型和非癌症类型按预先指定进行分布，并且癌症和非癌症样本根据性别进行频率-年龄匹配。表1列出了根据本文所述的各种实施方式的包含50个选自CCGA研究的基因组区域或基因的示例CCGA指示物组。

表1:50个CCGA基因组区域

在另一个示例中，指示物组可以包括一个或多个选自可公开获得的数据库的基因组区域，所述数据库例如在癌基因组图谱程序(The Cancer Genome Atlas Program)(“TCGA”；Clinical Trial.gov identifier NCT02889978)中鉴别的基因数据库。TCGA数据库是通过国家癌症研究所(National Cancer Institute，NCI)和国家人类基因组研究院(National Human Genome Research Institute，NHGRI)之间的协作开发的公共资源，其在分子结构上表征了超过20,000个原发性癌症并匹配了跨越33种癌症类型的正常样本。表2列出了根据本文所述的各种实施方式的包含19个选自TCGA的基因组区域或基因的示例TCGA指示物组。

表2:19个TCGA基因组区域。

CDH10	CSMD3	DCDC1	FAM135B	ZNF536	BRINP3
						NFE2L2	HCN1	SPTA1	CNTNAP5	PCDH11X	CDH9
RYR2	PAPPA2	NPAP1	DCAF4L2	ZNF479	PCDH10
						COL11A1

在另一个示例中，指示物组可以包括具有指示癌症的特定序列(“突变热点”)的基因组区域。在一些示例中，这样的热点位点可在文献中、可公开获得的癌症数据平台(例如基因组数据公共数据站点(Genomic Data Commons Data Portal，“GDC”))中找到，和/或用其它研究例如上文描述的CCGA研究来证实。例如，EZH2中的在CCGA患者中频繁突变的启动子热点位点可以被包括或被认为包括在检测分析组中。表3列出了包含18个具有指示癌症的热点的基因组区域的示例性热点指示物组。括号中的数字表示该基因或基因组区域中指示癌症的热点位点的数量。

表3:18个具有热点位点的热点基因组区域。

在另一个示例中，指示物组可包括其突变指示癌症的含SNV和/或indel的基因组区域(“列表A”)。表4列出了列表A指示物组的24个基因组区域。括号中的字母表示基因组区域是否包含一个或多个SNV(S)、一个或多个indels(I)或两者。根据各种实施方式，列表A指示物组中的一个或多个基因组区域可以被包含在检测分析组中。在一些示例中，检测分析组中仅包括对应于SNV的基因组区域。

表4：列表A基因组区域

AKT1(S)	DNMT3A(S)	FGFR3(S)	IDH1(S)	MSH2(I)	RHOA(S)
						ARAF(I)	EP300(S)	GATA3(I)	IDH2(S)	PREX2(S)	RNF43(I)
CD79A(I)	ERBB3(S)	GNAS(S)	MAP3K1(S)	PTEN(I)(S)	SPTA1(S)
						CDKN2A(S)	EZH2(S)	HRAS(S)	MAPK1(S)	PTPRD(S)	TERT(S)

在另一个示例中，另一个指示物组可以包括其突变指示癌症的含有SNV和/或indel的基因组区域(“列表B”)。表5列出了列表B指示物组的64个基因组区域。括号中的字母表示基因组区域是否包含一个或多个SNV(S)、一个或多个indel(I)或两者。根据各种实施方式，列表B指示物组中的一个或多个基因组区域可以被包含在检测分析组中。在一些示例中，检测分析组中仅包括对应于SNV的基因组区域。

表5：列表B基因组区域

AKT1(S)	DNMT1(S)	GLI1(I)	MSH2(I)	RHOA(S)
					AMER1(S)(I)	DNMT3A(S)	GNAQ(S)	MSH6(S)	RNF43(I)
ARAF(I)	EP300(S)	GNAS(S)	NF1(S)	SLIT2(S)
					ARID2(S)	EPHA3(I)	HRAS(S)	NSD1(I)	SOX9(I)
ASXL1(I)	EPHA5(S)	IDH1(S)	NTRK1(S)	SPTA1(S)
					BARD1(I)	ERBB3(S)	IDH2(S)	PBRM1(S)(I)	STK11(I)
BCOR(S)	ERBB4(S)(I)	IL7R(I)	PIK3R3(I)	TAF1(S)
					BCORL1(I)	EZH2(S)	KDR(S)	POLE(S)	TCF7L2(S)
CARD11(I)	FGF14(S)	KLHL6(S)	PREX2(S)	TERT(S)
					CD79A(I)	FGFR1(S)	KMT2B(I)	PRKDC(S)(I)	TET1(I)
CDKN2A(S)	FGFR3(S)	MAP2K1(S)	PTEN(S)(I)	top2A(I)
					CYLD(I)	FLT4(I)	MAP3K1(S)	PTPRD(S)	ZFHX3(I)
DDR2(S)	GATA3(S)(I)	MAPK1(S)	PTPRT(S)(I)

在另一个示例中，另外的指示物组可以包括其突变指示癌症的含有SNV和/或indel的基因组区域(“列表C”)。表6列出了列表C指示物组的153个基因组区域。括号中的字母表示基因组区域是否包含一个或多个SNV(S)、一个或多个indel(I)或两者。根据各种实施方式，列表C指示物组中的一个或多个基因组区域可以被包含在检测分析组中。在一些示例中，检测分析组中仅包括对应于SNV的基因组区域。

表6：列表C基因组区域

在另一个示例中，指示物组可以包括指示病毒相关癌症的病毒基因组区域(“Viral”)。例如，在CCGA研究中使用全基因组亚硫酸氢盐测序来鉴别与癌症正相关的病毒。根据本文所述的各种实施方式，分析组生成器250可以确定要包含在检测分析组中的靶区域的最佳数量。仅作为示例，病毒指示物组可在以下基因组区域中的每一个中包括10个位点：HPV16、HPV18、HBV和EBV。

其它指示物组也是可以的。

V.疾病检测分析组

V.A测定分析组

处理系统200包括分析组生成器250，其被配置为生成用于确定疾病状态的疾病检测分析组(“分析组”)，所述疾病状态例如患者中疾病(“疾病分类”)是否存在。在一些情况下，该分析组也可用于确定疾病的阶段和/或起源组织。通常，将分析组应用于从患者获得的样本(例如血液、组织等)以确定疾病分类。为了方便起见，本文中的由分析组生成器250生成的示例分析组将被配置为分类样本中癌症的存在(“癌症存在”)，但是其他疾病也是可能的。

分析组包括一组基因组区域。分析组中的每个基因组区域包括位于染色体上一个或多个特定位点(“编码区”)的一个或多个核碱基序列。基因组区域可以具有一个或多个特征，其变异指示疾病状态，例如癌症是否存在、癌症阶段和/或严重性、和/或癌症类型(例如，预测癌症的起源组织)。例如，癌症检测分析组可以包括位于3p22.1的基因组区域CTNNB1。CTNNB1的特征的变异可以指示癌症的存在，更具体地，可以指示癌症类型是肝胆癌。

用一种或多种检测探针对分析组中的每个编码区进行测序。检测探针包括与编码区中的核碱基对应的互补核碱基序列。当应用于样本时，检测探针靶向编码区中的核碱基序列并下拉核酸片段(即，测试序列)。测试序列包括特征、并且这些特征的变异(“特征变异”)可以指示癌症的存在。为了举例说明，当与群体(例如，健康群体)中编码区处的indel相比时，特征可以是测试序列的编码区处的indel的变异。

分析组生成器250生成可用于确定癌症存在的分析组。为了简要说明，分析组生成器250生成包含针对至少一个基因组区域的一个或多个检测探针的分析组。当应用于样本时，检测探针生成与基因组区域相关的编码区域的测试序列。处理系统(例如，系统200)鉴别测试序列中的变体。变体可以是单一的核碱基变体(“SNV”)、插入、或缺失(后两个统称为“indel”)。系统200将变体的特征与群体(例如，健康群体)中的相同特征进行比较。该特征相对于群体的特征变异可以指示癌症的存在(例如，癌症信号的存在)。特征变异可以被量化为特征值。例如，系统200可以导出描述SNV的最大变体等位基因频率(“maxVAF”)的特征值。因此，系统200可以基于特征值来确定样本中的癌症存在。也就是说，如果SNV的最大变体等位基因频率指示癌症存在。

其它特征、特征变异和特征值也是可能的。例如，特征值可以量化对应于变体是否存在、平均等位基因频率、小变体的总数和/或真实变体的等位基因频率中的至少一种的特征变异。

在一些配置中，系统200可基于特征值来确定癌症存在的可能性。例如，对于每个基因组区域，SNV的特定maxVAF可以对应于癌症存在的可能性。因此，如果所确定的可能性高于阈值可能性，则系统200可以确定样本包括癌症存在。

V.B分析组尺寸

分析组生成器250生成具有分析组尺寸的分析组。分析组尺寸是包含在分析组中的基因组区域的核碱基总数。在一些示例中，每个基因组区域具有针对基因组区域的单核苷酸变体的最大变体等位基因频率，以及针对基因组区域的至少一些变体等位基因频率出现在癌变样本中。给出额外的背景，一旦确定了分析组的基因组区域，分析组生成器250可以进一步确定分析组的探针覆盖度(例如，使用探针生成器260)。在一些示例中，探针生成器260使探针平铺以覆盖包含在分析组中的每个靶基因组区域的重叠部分。例如，分析组的探针可以成对排列，使得每对探针彼此重叠，重叠的序列为例如60个核苷酸。重叠序列的其它长度也是可能的，例如10-、20-、30-、40-、50-、70-、80-、90-、100个核苷酸重叠长度等，并且在一些情况下可以取决于下面描述的所需探针尺寸。在这样的示例中，分析组的总探针覆盖度大小比该分析组尺寸本身大得多。可将分析组的探针应用于样本以产生用于确定癌症存在的测试序列。

包含在分析组中的探针具有一定的探针尺寸，并且该探针尺寸是探针中核碱基(或核苷酸，在本文中可互换使用)的数量。例如，包括核碱基[CAGGTCGAATTC]的探针具有12个核碱基的探针尺寸。具有其它探针尺寸的其它探针也是可能的。例如，探针可具有40、60、80、100、120、140、160、200或一些其它数量的核碱基。在一些示例中，该数量的核碱基可包括与引物序列一起用作侧翼区的额外数量的核碱基，或另外与该额外数量的核碱基组合。这种侧翼区可位于探针的末端并具有额外的10、20、30、40、50、60或其它数量的核碱基。例如，120个碱基加上40个侧翼区用碱基(例如，探针每端的20个碱基的侧翼区)的探针尺寸产生160个核碱基/探针的总大小。通常，分析组中的探针具有相同的探针尺寸。

如本文所用，由分析组探测的基因组区域具有一指示物尺寸。指示物尺寸是对应于该基因组区域的探针的总探针尺寸。为了举例说明，分析组包括指示癌症存在的第一基因组区域。通过探针尺寸为120个核碱基的四个探针对第一基因组区域进行测序。因此，基因组区域的指示物尺寸是480个核碱基。

因此，对于包含在分析组中的所有基因组区域而言，分析组的总探针尺寸是指示物尺寸的总和。为了举例说明，分析组包括第一基因组区域和第二基因组区域。第一基因组区域的指示物尺寸为2.3K核碱基(或“kb”)，第二基因组区域的指示物尺寸为5.8kb。因此，分析组的总探针覆盖度大小是8.1kb。

V.D分析组检测能力

存在几种量化分析组的疾病检测能力的度量。在一个示例中，分析组生成器250生成具有检测灵敏度和/或检测特异性的分析组。检测灵敏度是分析组的真实阳性率(truepositive rate)的定量，检测特异性是分析组的真实阴性率(true negative rate)的定量。用于量化分析组的能力的其它度量也是可能的。

为了举例说明，系统200使用由分析组生成器250生成的分析组来确定95个样本中的癌症存在。样本包括80个癌变样本和15个非癌变样本。系统200确定出70个癌变样本，并且1个非癌变样本指示癌症。系统200还确定出10个癌变样本，并且14个非癌变样本没有指示癌症。因此，分析组的检测灵敏度为88％，分析组的检测特异性为93％。

V.E性能度量

分析组生成器250可以基于性能度量生成分析组。性能度量可包括例如分析组尺寸、分析组检测能力、靶疾病(例如癌症)、疾病类型(例如喉癌、肝癌等)和/或疾病阶段(例如I期、II期等)等。

为了举例说明，图4示出了根据一实施方式的用于根据性能度量生成分析组的示例工作流。工作流400可以由系统200或其它类似系统执行。工作流400可以包括额外的或更少的步骤，并且这些步骤可以以不同的顺序排列。

系统200接收请求以生成确定疾病分类(例如，癌症)的分析组(410)。该请求包括定义应该如何设计该分析组的性能度量。分析组生成器250访问指示物数据库290中的一个或多个指示物组(420)，每个组包括一个或多个基因组区域及其测序数据。分析组生成器250通过选择一个或多个其变异可指示癌症存在的被访问的基因组区域来生成分析组(430)。下面更详细地描述了针对分析组来确定和选择指示性基因组区域。分析组生成器250将包括所选择的基因组区域的分析组传输到请求者(440)。在一些示例中，分析组生成器250(例如，经由探针生成器260)确定或以其它方式设计一组探针，以覆盖所选择的基因组区域并将探针和/或探针覆盖度传输到请求者。

vi.分类模型

分析组生成器250使用分类模型270来鉴别基因组区域，以将其包含在分析组中。分类模型270通过预测分析组(其包括所鉴别的基因组区域的不同组合)的分类能力来鉴别基因组区域。分类模型270可以包括几个不同的模型，并且每个模型可以鉴别不同的基因组区域。

为了产生分析组，分析组生成器250访问包括一个或多个基因组区域的指示物组(例如，从指示物数据库290中)，并将它们输入到分类模型270中。分析组生成器250利用分类模型270来确定所访问的基因组区域中的哪一个可以指示癌症存在(“指示物”)，并选择适当的指示物以包含在分析组中。分类模型270中的各种模型中的每一个都可以以不同的方式确定指示物，以将其包含在分析组中。例如，相关基因模型272可以确定其特征变异与癌症存在相关的基因组区域应该被包含在分析组中作为相关的指示物。在另一个示例中，病毒区域模型280可以确定与癌症相关病毒相关的基因组区域应该包含在分析组中作为病毒指示物。本文更详细地描述了各种模型。

分类模型270的几种其它配置也是可能的。在一种配置中，分析组生成器250使用分类模型270来根据一个或多个性能度量来确定分析组的指示物。例如，分析组生成器250可以生成具有最高检测灵敏度同时具有小于阈值分析组尺寸的分析组尺寸的分析组。在另一个示例中，分析组生成器250可以生成具有最小分析组尺寸同时具有高于阈值灵敏度的检测灵敏度的分析组。

在另一配置中，当分类模型270基于多于一个特征来确定指示物时，分析组生成器250可以生成具有增强的检测能力的分析组。例如，分类模型270可以基于SNV和indel两者的特征变异来确定指示物。

VI.A示例分类模型性能

分析组的检测能力取决于分类模型270的配置。接收器操作特性曲线图(“ROC图”)使分析组的检测能力可视化。在ROC图中，x轴是假阳性率，y轴是真阳性率。假阳性率比灵敏度低1倍，而真阳性率是该灵敏度。

图5示出了显示基于包括大组基因组区域(大约2Mb)的分析组的三种分类器的性能的ROC图，所述基因组区域没有以本文所述的方式进行鉴别或选择。ROC图510包括三条曲线，其显示出三种示例分类模型270的癌症/非癌症检测能力。第一曲线显示出由被配置为分析在拷贝数像差(copy number aberrations，“CNA”)中的特征变异来确定癌症存在的分类模型所生成的分析组的检测能力(CNA 512)。第二曲线显示出由被配置成分析SNV和indel中的特征变异来确定癌症存在的分类模型所生成的分析组的检测能力(双分类器514)。第三条曲线显示出由被配置为分析SNV、indel和CNA中的特征变异的分类器所生成的分析组的检测能力(多分类器516)。表7给出了图5所示的三个模型的检测能力的比较。

表7：大组基因组区域上的示例分类器的检测能力

分类器	95％特异性	98％特异性	99％特异性
				SNV/INDEL	0.3697	0.3479	0.3348
CNA	0.3053	0.2541	0.2334
				MULTI	0.3860	0.3675	0.3490

VII.相关指示物

如上所述，分类模型270包括相关基因模型272(“相关模型272”)。相关模型272确定指示物组中哪些基因组区域与癌症存在相关。为了定量基因组区域和癌症存在之间的关系，分析组生成器250确定每个基因组区域的模型系数。对于相关模型272，模型系数量化基因组区域的癌症存在的特征值指示(“灵敏度系数”)。例如，灵敏度系数0.05表示基因组区域的衍生特征值指示癌症存在的可能性低，而灵敏度系数0.55表示基因组区域的特征值指示癌症存在的可能性高。

为了提供背景，考虑包括一基因组区域的被访问的指示物组。该基因组区域与指示物组中的癌变和非癌变测序数据相关。分析组生成器250导出并分析测序数据的特征值。例如，分析组生成器250确定所访问的测序数据中的SNV的maxVAF。在这种情况下，如果测序数据中SNV的maxVAF的变异指示癌症存在，则分析组生成器250确定基因组区域具有高灵敏度系数(例如0.60)。相反，如果测序数据中SNV的maxVAF变异没有指示癌症存在，则基因组区域具有低灵敏度系数(例如0.06)。

有几种确定模型系数的方法。在一个示例中，分析组生成器250使用相关模型272来对被访问的测序数据执行L2惩罚逻辑回归。在这种情况下，模型系数(例如，灵敏度系数)是为每个基因组区域确定的回归系数。在其它示例中，分类模型270可以执行L1惩罚逻辑回归、弹性网络分类器逻辑回归支持向量机(SVM)、

Bayes和随机森林以确定模型系数。

分析组生成器250使用分类模型270，以基于其确定的模型系数对访问的基因组区域进行排序。然后，分析组生成器250为分析组选择基因组区域作为相关的指示物。下面将更详细地描述排序和选择相关指示物。

VII.A相关模型性能

本文所述的基于回归的模型(例如，相关模型272)具有比针对大组基因组区域发现的检测能力更强的检测能力。为了举例说明，表8将使用基于回归的分类模型270产生的分析组(例如，简化的、优化的分析组)的检测能力与来自上表7所示的大组基因组区域的分类模型进行比较。更具体地，该表比较了被配置用于分析SNV和indel的特征变异的分析组的检测能力。此外，该表将三种不同的基于逻辑回归的分类模型的检测能力与大组基因组区域的检测能力进行比较。如表所示，log-reg-l2是L2逻辑回归分类器，log-reg-L1是L1逻辑回归分类器，log-reg-en是弹性网络逻辑回归分类器。如图所示，基于使用L2或弹性网络逻辑回归的简化分析组的分类器性能相比于大组基因组区域的分类器性能在特异性上改善了95％、98％和99％，而使用L1逻辑回归的简化分析组的分类器性能通常实现相似的性能，或者以其它方式在特异性上再现/维持大组分类器的性能。

表8：分类模型比较

VII.B单分类器和双分类器

分析组生成器250可以使用分类模型270以通过分析基因组区域的一个或多个衍生特征值来生成分析组。通常，基于两个特征值(即，基于SNV和indel两者)生成的分析组实现了与基于单个特征值(例如，仅基于SNV)生成的分析组类似的检测能力。为了举例说明，图6A-6D示出了由使用分析SNV和indel的特征值的分类模型(“双分类器”)、以及仅分析SNV的特征值的分类模型(“单分类器”)的分析组生成器250所生成的分析组的检测能力。在图6A-6D中，分类器被应用于包括低信号和高信号癌症的样本。

图6A示出了根据一些实施方式的用于由双分类器和单分类器生成的分析组的ROC图，所述双分类器和单分类器被应用于训练包括低信号和高信号癌症的数据。双分类器612包括用SNV和indel作为特征的L2逻辑回归分类器，而单分类器614是仅针对SNV的L2逻辑回归分类器。如ROC图610所示，双分类器612在高检测灵敏度下具有比单分类器614稍好的检测能力，但是性能通常是相同的。

图6B示出了根据一些实施方式的针对图6A中的ROC图的ROC结果图。在ROC结果图中，x轴是特异性，y轴是灵敏度。ROC结果图比较了双分类器与单分类器在不同特异性上的灵敏度。如ROC结果图620中所示，针对一定的特异性，双分类器622相对于单分类器624具有稍微更高的灵敏度，但是性能通常仍然是相同的。换言之，针对根据本文所述的方法设计的分析组仅使用SNV将导致临床灵敏度仅有最小程度损失(例如，1-2％)，同时使得分析组更简单和更经济。

图6C示出了根据一些实施方式的由应用于测试数据的双分类器和单分类器生成的分析组的ROC图。例如，在如图6A-6B中在训练数据上训练双分类器和单分类器之后，经过训练的分类器可以对一组测试数据执行分类。如图6A-6B中所示，双分类器632包括用SNV和indel作为特征的L2逻辑回归分类器，而单分类器634是仅针对SNV的L2逻辑回归分类器。如ROC图630所示，通常双分类器632的检测能力比单分类器634的检测能力优秀最小程度，导致分类性能类似。

图6D示出了根据一些实施方式的针对图6C的ROC图的ROC结果图。如ROC结果图640所示，相对于单分类器644，双分类器642在95％和99％的特异性下的灵敏度高最小程度，并且在98％的特异性下具有与单分类器644相同的灵敏度。换言之，对测试数据的分类确认了针对如本文所述的分析组设计仅使用SNV将实现与针对SNV和indel设计的分析组类似的性能，同时还提供了更简单的分析组。

图7A-7D进一步说明了仅针对高信号癌症而言双分类器相对于单分类器的检测能力的提高。具体而言，在图7A-7D中，分析组适用于仅包括高信号癌症的样本，而不是包括如图6A-6D所示的高信号和低信号癌症的样本。图7A-7D中所示的两种分类器包括L2逻辑回归。

图7A示出了根据一些实施方式的由用于训练样本的双分类器和单分类器生成的分析组的ROC图。如ROC图710所示，双分类器712的检测能力在高检测灵敏度下比单分类器714的检测能力优秀最低程度。因此，根据本文所述的方法，针对高信号癌症的分析组设计仅使用SNV将导致临床灵敏度仅损失最小程度，同时允许分析组更简单和更经济。

图7B示出了根据一些实施方式的针对图7A的ROC图的ROC结果图。如ROC结果图720中所示，对于所有的特异性而言，双分类器722相对于单分类器724的灵敏度高最低程度。因此，双分类器722和单分类器724可以被认为在高信号癌症上实现类似的分类性能。

表9比较了图7A和7B中的分析组的结果。

表9：用于训练数据的分类器类型之间的比较

log-reg-L2分类器	95％特异性	98％特异性	99％特异性
				双分类器(SNV+Indel)	0.6330	0.6116	0.5937
单分类器(SNV)	0.6124	0.5881	0.5736

图7C示出了根据一些实施方式的由用于高信号癌症测试样本的双分类器和单分类器生成的分析组的ROC图。例如，在如图7A-7B所示在高信号癌症训练数据上训练双分类器和单分类器之后，经过训练的分类器可以对一组高信号癌症测试数据执行分类。如ROC图730所示，双分类器732的检测能力在高检测灵敏度下比单分类器734的检测能力优秀最低程度。

图7D示出了根据一些实施方式的图7C中的ROC图的ROC结果图。如ROC结果图740所示，对于所有的特异性，双分类器742的灵敏度相对于单分类器744高最低程度。因此，如对测试数据的分类进一步示出的，根据本文所述的方法，针对高信号癌症的分析组设计仅使用SNV将导致临床灵敏度仅损失最低程度，同时允许分析组更简单和更经济。

表10比较了图7C和7D中的分析组的结果。

表10：针对真实数据的分类器类型之间的比较

log-reg-L2分类器	95％特异性	98％特异性	99％特异性
				双分类器(SNV+Indel)	0.6007	0.5714	0.4835
单分类器(SNV)	0.5934	0.5385	0.4578

VIII.排序基因组区域

如上所述，分析组生成器250通过将分类模型270应用到被访问的基因组区域来生成分析组。分类模型270包括相关模型272，其导出每个被访问指示物的特征值。然后，相关模型272确定基因组区域的模型系数，并基于它们的模型系数对基因组区域进行排序。这里，模型系数是基于回归的分类器的回归系数，但是可以是基因组区域对癌症存在的指征的另一个量化。

应注意，分类预测模型270的多个模型之一可以包括基于回归的分类器和/或其它模型，所述其它模型用于对基因组区域进行排序或另外选择将被包含在分析组设计中的基因组区域。例如，相关模型272可以包括在一组训练数据上训练的逻辑回归分类器，所述训练数据例如包括如以上在图6A-6D和7A-7D中所讨论的高信号癌症和/或其他癌症的一组训练数据。此外，相关模型272可以包括针对仅SNV分析组设计的仅使用SNV的单分类器，或者针对SNV和indel分析组设计的使用SNV和indel的双分类器。如上所述，在一些情况下，当可以预期或以其它方式实现类似的分类性能时，针对仅SNV分析组的仅基于SNV的分类方式可以比SNV与indel组合的方法更优。此外，在一些示例中，用于对基因组区域进行排序或选择的一个或多个模型可以包括用于定制(customizing)或编策(curating)来自各种来源(例如数据库和/或文献)的基因组区域的模型或方法。应注意，分类预测模型270可以包括这种分类模型和/或定制技术的任何组合，如下面进一步讨论的。

图8A-8C、图9A-9C和图10示出了由将相关模型272应用到指示物组的分析组生成器250确定的模型系数。指示物组可以是例如CCGA指示物组，其包括实体和/或液体测序数据。相关模型272可以是基于回归的分类器，诸如在一组训练数据(例如，仅高信号癌症训练数据，或高和低信号癌症训练数据)上训练的L2逻辑回归分类器。

VIII.A实体癌

图8A示出了根据一些实施方式的与高信号癌症(例如实体癌)相关的45个基因的系数图。系数图说明了多个基因组区域的模型系数。也就是说，x轴上的每个柱代表不同的基因或基因组区域，并且所述柱沿y轴的高度是基因组区域的模型系数的定量(以任意单位)。

在系数图810中，基因组区域根据其确定的模型系数而进行排序。也就是说，基因组区域根据它们的指示癌症存在或为癌症存在提供信息的特征值进行排序。本文中，基因组区域对应于与实体癌相关的基因，并列于下表11中。因此，系数图810左侧的基因组区域比系数图810右侧的基因组区域更能指示实体癌的存在。

图8B示出了根据一种实施方式的实体癌的癌变频率图。癌变频率图说明了具有癌症存在的样本中基因组区域的指示性特征值频率。也就是说，x轴上的每个柱代表不同的基因组区域，并且y轴上的柱的高度是该基因组区域中的特征值指示癌变样本的频率的定量。此外，在x轴上每个位置的基因组区域是图8A的系数图中相应位置的相同基因组区域。例如，图8A中的基因组区域1与图8B中的基因组区域1相同，等等。

在所示的癌变频率图820中，指示癌症的特征是针对基因组区域的SNV的最大变体等位基因频率。因此，指示性特征值频率是指示性最大变体等位基因频率在具有实体癌存在的样本中出现的频率的定量。值得注意的是，基因组区域的指示性特征值频率不是按照其相应的模型系数进行类似地排序。这表明高指示特征变异频率不一定对应于高度指示癌症存在的基因组区域。

图8C示出了根据一种实施方式的实体癌的非癌变频率图。非癌变频率图说明针对非癌变样本中基因组区域的指示性特征值频率。本文中，在x轴上每个位置的基因组区域是图8A和8B中相应位置的相同基因组区域。

在非癌变频率图830中，指示性特征值频率是在非癌变样本中指示性最大变体等位基因频率出现的频率的定量。非癌变样本中的频率远低于癌变样本中的频率，表明所示的指示物具有高特异性。

VIII.B液体癌

图9A-9C示出了与图8A-8C类似的曲线，不同之处在于模型系数和特征变异频率是从在液体癌变样本上训练的回归分类器导出的。此外，图9A-9C包括几个补充基因组区域(即基因组区域46-50)。图9A-9C中x轴上每个位置的基因组区域是图8A-8C的相应位置中的相同基因组区域。

图9A示出了根据一些实施方式的当用于检测液体癌时的基因组区域的系数图。在系数图910中，基因组区域沿x轴以它们的排序顺序列出，用于指示实体癌的存在。然而，由于液体癌的模型系数与实体癌的模型系数不同，因此基因组区域不能被适当地排序用于液体癌检测。另外，补充基因组区域具有比许多原始基因组区域更高的模型系数。这表明分析组生成器250可以基于将被探测的癌症类型来为分析组选择基因组区域。

图9B示出了根据一些实施方式的用于液体癌的癌变频率图。在癌变频率图920中，指示性特征值频率是癌变样本中指示性最大变体等位基因频率出现的频率的定量。在x轴上每个位置的基因组区域是图8A-8C的相应位置中的相同基因组区域。类似于图8B，特征变异频率不对应于基因组区域的排序。

图9C示出了根据一些实施方式的用于液体癌的非癌变频率图。在非癌变频率图930中，指示性特征值频率是在非癌变样本中指示性最大变体等位基因频率出现的频率的定量。与图8C类似，非癌变样本中的频率变化远低于癌变样本中的频率变化。

VIII.C实体癌对比液体癌

图10示出了根据一些实施方式的实体癌和液体癌的系数图。系数图1010说明了实体癌和液体癌的基因组区域的模型系数之间的差异。在系数图1010中，填充的柱代表模型系数实体癌1012，而未填充的柱代表液体癌1014的模型系数。在x轴上每个位置的基因组区域是图9A-9C的相应位置中的相同基因组区域。如图所示，基因组区域5、6、10和39的模型系数指示实体癌和液体癌的癌症存在。基因组区域1-45中的模型系数通常指示存在实体癌，而基因组区域46-50中的模型系数通常指示存在液体癌。

IX.选择指示物

如上所述，分析组生成器250通过将分类模型270应用到被访问的基因组区域来生成分析组。分类模型270为每个基因组区域确定和排序模型系数。然后，分析组生成器250基于它们的排序模型系数来选择分析组的基因组区域作为指示物。

分析组生成器250可以以多种方式选择指示物。在第一配置中，分析组生成器250由特征值来确定模型系数，并且在单次迭代中对那些系数进行排序。然后，分析组生成器250可以基于单次迭代的排序为分析组选择基因组区域。分类模型270还可以应用于不同的指示物组，并且以类似的方式为每个指示物组选择分类模型270。

在另一种配置中，在为分析组选择了每个基因组区域之后，分析组生成器250可以确定和排序模型系数。例如，在第一次迭代后选择具有最高排序顺序的基因组区域之后，分析组生成器250模型可以将分类模型270应用到剩余的指示物，以在第二次迭代中导出特征并排序模型系数。然后，分析组生成器可以基于在第二迭代中确定的模型系数来选择基因组区域。迭代选择过程可以根据需要继续，并且可以包括不同的指示物组。

另外，当决定如何配置分析组生成器250以选择指示物时，需要考虑几个设计方面。一些分类模型针对分析组选择尽可能多的指示物，认为每个额外的指示物增加了该分析组的检测能力。然而，如下所述，分析组的检测能力不一定随着每个额外的指示物而增大。此外，为分析组选择额外的指示物增加了该分析组的复杂性和成本。因此，分析组生成器250可以被配置为基于性能度量来选择指示物。如上所述，一些性能度量包括检测能力(例如，分类灵敏度、分类准确度)、分析组尺寸、分析组靶标(例如，实体癌、液体癌等)和/或其任何组合。

IXA.检测能力

分析组生成器250可以生成具有优化的检测能力的分析组。用于测量检测能力的一个性能度量是例如在95％特异性下的分析组灵敏度(“检测能力度量”)，但是其它性能度量也是可能的。因此，在本示例中，分析组生成器250连续选择基因组区域作为相关的指示物，直到性能度量随着另外的基因组区域或相关指示物的加入而降低、逐渐下降、和/或趋于平稳。可以迭代地选择相关的指示物，每次迭代选择具有最高的被确定的模型系数的指示物。

为了举例说明，图11A示出了根据一些实施方式的实体癌的检测贡献图。在检测贡献图1110中，x轴表示添加到分析组中的基因组区域，y轴表示该分析组的检测能力度量。本文中，性能度量是在给定的特异性下的灵敏度。基因组区域根据它们对实体癌的模型系数，按排序顺序被添加到分析组中。如图所示，在分析组中添加基因组区域增大了检测能力度量，直至贡献拐点1112处。在贡献拐点1112处，添加额外的基因组区域降低了检测能力度量。在所示的示例中，贡献拐点1112在45个基因组区域处出现，之后检测能力度量降低。因此，分析组生成器250可以选择前45个基因组区域(例如，从200个基因组区域的大组中选择)作为分析组的相关指示物。表11给出了例如为用于确定实体癌存在的分析组所选择的45个相关指示物。下表显示了它们的名称、尺寸和在基因组上的位置。

表11：为实体癌所选择的相关分类器

图11B示出了根据一些实施方式的用于液体癌的检测贡献图。在检测贡献图1120中，x轴表示添加到分析组中的基因组区域，y轴表示该分析组的性能度量。本文中，性能度量是在给定的特异性下的灵敏度。基因组区域根据其对于液体癌的模型系数，按排序顺序添加到分析组中。在所示的示例中，贡献拐点1122是5个基因组区域，此后性能度量通常是平稳的。因此，分析组生成器250可以选择前5个基因组区域(例如，从9个基因组区域的较大组中选择)作为分析组的相关指示物。表12给出了例如为用于测定液体癌存在的分析组所选择的5个相关指示物。下表示出了它们的名称、尺寸和在基因组上的位置。

表12：用于液体癌的相关分类器

编号	基因名称	尺寸(bp)	位置
				1	MYD88	954	3p22.2
2	CBL	2,721	11q23.3
				3	BRAF	2,301	7q34
4	CREBBP	7,329	16p13.3
				5	APC	8,697	5q22.2

IX.B分析组尺寸

分析组生成器250可以选择排序的指示物以生成分析组尺寸小于阈值分析组尺寸的分析组。例如，分析组生成器250可以被配置成生成小于500kb的分析组。阈值分析组尺寸可以是分析组生成器250的配置、系统200管理员的指定，或从系统200的用户处接收。

为了举例说明，图12示出了根据一些实施方式的实体癌的尺寸贡献图。在尺寸贡献图1210中，x轴表示添加到分析组中的排序基因组区域的数量，y轴表示分析组的分析组尺寸。虚线水平线1212表示期望的200kb的阈值分析组尺寸。如图所示，向分析组中添加基因组区域增大了分析组尺寸，并且添加的第45个指示物使分析组尺寸高于阈值分析组尺寸。因此，选择的分析组包括前44个基因组区域。

X.额外的指示物

如上所述，分析组生成器250采用分类模型270来确定基因组区域以将其作为相关的指示物包含在分析组中。如本文所述，分类模型根据相关基因模型272为分析组选择基因组区域。然而，在一些情况下，相关基因模型272由于其配置而可能不能鉴别出能够增大分析组的检测能力的一些基因组区域。因此，分类模型270可以使用一个或多个额外的模型来鉴别和选择额外的基因组区域作为分析组的指示物。如下所述，一些额外的模型例如为区域覆盖度模型274、癌症类型模型276、热点区域模型278和病毒区域模型280。

XA.覆盖度指示物

如上所述，分析组生成器250可以从指示物数据库280中访问包括基因组区域的指示物组。分析组生成器250例如训练相关模型272，以使用从指示物组中鉴别的指示物来生成分析组。然而，在一些情况下，指示物组不适于训练相关模型272。在这些情况下，分析组生成器250可以应用不同的模型来选择分析组的额外的基因组区域作为提高分析组覆盖度的覆盖度指示物。覆盖度是指指示物组中被分析组中包含的基因组区域鉴别出的样本数量的定量。覆盖度不是灵敏度的定量。

为了举例说明，考虑包括仅从癌变样本中获得的基因组区域的指示物组。在这种情况下，分析组生成器250不能训练相关模型272，是因为指示物组包括从癌变样本中确定的基因组区域，但是缺少从非癌变样本中获得的控制数据。因此，分析组生成器250可以应用区域覆盖度模型(“覆盖度模型274”)来确定覆盖度指示物，以将其包含在分析组中。

覆盖度模型274以与相关模型270相似的方式来鉴别指示物组中每个基因组区域的模型系数。在该示例中，模型系数是当将基因组区域添加到分析组(“覆盖度系数”)时鉴别出多少额外样本(例如，训练组和/或测试组中的患者样本)的量度。然后，分析组生成器250对确定的覆盖系数进行排序，并且随后从排序的列表中选择基因组区域以包含到分析组中作为覆盖度指示物。分析组生成器250可以按照它们的排序顺序，通过一些其它度量，或者不需要其它度量来选择覆盖度指示物。

例如，在一些示例中，覆盖度模型274使用贪婪算法将基因添加到分析组中直到性能(例如，灵敏度)平稳。例如，初始分析组可以包括由上述相关基因模型272选择的前50个基因。在一些情况下，可以使用额外的数据组如TCGA数据来鉴别要包含在分析组中的额外的基因。在这种情况下，可以在TCGA数据上评估分析组的性能(例如，灵敏度)，由此覆盖度模型274鉴别额外的基因，除了初始50个基因之外，所述额外的基因还进一步增大分析组的灵敏度。例如，对于SNV组合设计，覆盖度模型274可以从TCGA SNV数据评估高信号癌症和液体癌，并且随后使用贪婪算法向分析组中添加基因，直到达到灵敏度平稳性和/或期望的分析组尺寸。这样，覆盖度模型274可以通过每个患者的体细胞突变的频率和/或通过由编码区长度标准化的频率来对TCGA数据中的基因进行排序，然后通过添加TCGA基因来检查可以捕获或以其他方式覆盖多少额外的患者(例如，样本)。在一些情况下，由覆盖度模型274鉴别的基因组区域被认为是候选基因(例如TCGA基因)，其然后可以通过与其它数据库交叉检查(例如通过观察GDC癌门脉和文献上的突变谱)，除了和/或替代评估它们对性能的贡献，来手动编策以添加到分析组中。

为了举例说明，图13A示出了根据一些实施方式的覆盖度图。覆盖度图示出了应用有访问的指示物组(例如，TCGA指示物组)的分析组的覆盖度。在覆盖度图1310中，x轴表示为分析组选择的基因组区域的数量，而y轴表示分析组的覆盖度(例如，覆盖的患者样本的数量)。在该示例中，前50个基因组区域是根据相关模型272选择的相关指示物1312。剩余的基因组区域是根据覆盖度模型274选择的TCGA基因组区域指示物组中的覆盖度指示物1314。

覆盖度图1310包括描绘覆盖度指示物的覆盖度的两条线：(i)第一条线示出了随着分析组中指示物的数量增加而对应的覆盖度(例如，未标准化1316)，以及(ii)第二条线示出了随着分析组中指示物的数量增加而对应的覆盖度(例如，标准化1318)，其通过编码区域长度而标准化(例如，标准化1318)。在任一种情况下，随着分析组中基因组区域的数量增加，覆盖度图1310显示出向完全覆盖度的渐近增长。在一些情况中，分析组生成器250可以根据分析组上的剩余空间和/或分析组的期望尺寸来选择分析组的任何覆盖度指示物。例如，分析组生成器250可以为分析组选择三个覆盖度指示物。表13表示为分析组选择的三个覆盖度指示物的名称、尺寸和位置。

表13：为分析组选择的覆盖度指示物

编号	基因名称	尺寸(bp)	位置
				1	CDH10	2,367	5p14.2
2	CSMD3	11,182	8q23.3
				3	NFE2L2	1,818	2q31.2

图13B示出了根据一些实施方式的覆盖度大小图。覆盖度大小图1320以不同的方式传输图13A中的信息。本文中，x轴表示分析组尺寸，y轴表示分析组的覆盖度。本文中，分析组尺寸的增加源于根据它们各自的模型向分析组中添加基因组区域。添加的基因组区域以与图13A的覆盖度图1310相同的顺序出现。

在覆盖度大小图1320中，分析组尺寸的前240kb是从根据相关模型272(相关指示物1322)选择的指示物得到的，并且分析组尺寸中的额外碱基来自根据覆盖度模型274(覆盖度指示物1324)选择的指示物。此外，覆盖度图1320包括两条线：(i)第一条线显示随着分析组尺寸的增加而覆盖度增加(未标准化1328)，以及(ii)第二条线显示随着分析组尺寸的增加而覆盖度增加，但是通过添加的指示物的编码区域长度而标准化(标准化1326)。

X.B癌症类型指示物

如上所述，分析组生成器250访问指示物组，并根据它们的模型系数对指示性基因组区域进行排序。就此而言，模型系数仅定量了基因组区域对于癌症存在的决定程度，或基因组区域增加了多少覆盖度。然而，在一些配置中，基因组区域和它们的模型系数也可以指示癌症类型。

为了举例说明，图14示出了根据一些实施方式的类型分类图。对于各种癌症类型，类型分类图说明基因组区域的变异频率。所示的类型分类图1410显示了十五种癌症类型的50个基因组区域(例如，上述表11和12中选择的50个基因)中的体细胞突变的频率。变异频率范围从0.00到0.60。基因组区域与图9A-9C中的相关指示物相同，并类似地排序。十五种癌症类型可以分别是例如肺癌、乳腺癌、结肠直肠癌、胰腺癌、食道癌、胃癌、肝胆癌、白血病、淋巴瘤、多发性骨髓瘤、膀胱癌、肛门直肠癌、头颈癌、卵巢癌和宫颈癌。其它癌症类型也是可能的，但是并未举例说明。

分类类型图1410说明了在具有不同癌症类型的样本中基因组区域的特征变异(例如，最大变体等位基因频率的变异)出现的频率上的差异。例如，第一种癌症类型由第一个基因组区域的特征变异指示，而第12种癌症类型很少由相同基因组区域的特征变异指示。在另一个示例中，第4种癌症类型由第3个基因组区域的特征变异指示，而第5种癌症类型很少由相同基因组区域的特征变异指示。

对于每个基因组区域，具有高度特征变异的癌症类型的数量越多，基因组区域越可能指示癌症的存在。也就是说，在几种癌症类型中具有高度特征变异的基因组区域具有更高的模型系数(例如，灵敏度系数)。这在类型分类图1410中示出为图左侧的基因组区域(即，具有较高模型系数的那些区域)在所有癌症类型中的较高变异频率的密度要高于在图右侧的基因组区域(即，具有较低模型系数的那些区域)。

在一些情况中，基因组区域的特征变异出现于单一癌症类型而不出现于其它癌症类型。例如，第19个基因组区域中的特征变异指示第13种癌症类型，但不指示其他癌症类型。这表明，如果分析组检测到第19个基因组区域的特征变异，则该变异可能指示第13种癌症类型。

因此，一些基因组区域可以提高分析组的类型准确度。类型准确度是分析组确定存在癌症的样本中的癌症类型的精确程度的定量。因此，为了提高类型准确度，分析组生成器250可以应用癌症类型模型276来确定基因组区域，以将其包含在分析组中作为类型指示物。

癌症类型模型276可以是对包括指示性基因组区域的指示物组进行的多分类逻辑回归。分析组生成器250将癌症类型模型276应用到指示物组的特征值，并为每个基因组区域确定一组模型系数(“类型系数”)。该组类型系数量化基因组区域对不同癌症类型的指示。然后，分析组生成器250对确定的每种癌症类型的类型系数进行排序，并且随后从排序的列表中选择基因组区域以包含到分析组中作为类型指示物。分析组生成器250可以按照排序顺序，通过一些其它度量，或者不需要其它度量来选择类型指示物。

在一些实施方式中，分析组生成器250将类型指示物添加到分析组中，直到随后类型指示物降低分析组的类型准确度，或者无助于分析组的类型准确度的增加。为了举例说明，图15示出了根据一些实施方式的分析组的准确度贡献图。在准确度贡献图1510中，x轴表示分析组的潜在类型指示物的数量，y轴表示分析组的类型准确度。x轴上的类型指示物根据它们的模型系数按排序顺序选择。

如图所示，向分析组添加额加的类型指示物增大了类型准确度，直至贡献拐点1512为止。在贡献拐点1512处，添加类型指示物降低了分析组的类型准确度。在所示示例中，贡献拐点出现在9个类型指示物处，但是在其它示例中也可以是其它数量。因此，分析组生成器250可以将9个额外的基因组区域的任何组合或全部添加到分析组中以提高其类型准确度。例如，分析组生成器250可以为分析组选择5个类型指示物。表14示出了为分析组选择的五种类型指示物的名称、尺寸和位置。

表14：为分析组选择的类型指示物

编号	基因名称	尺寸(bp)	位置
				1	CASP8	1,713	2q33.1
2	EGFR	3,878	7p11.2
				3	NFE2L2	1,818	2q31.2
4	CDH10	2,367	5p14.2
				5	CSMD3	11,182	8q23.3

X.C热点指示物

如上所述，分析组生成器250可以将任何数量的基因组区域添加到分析组中以确定癌症的存在。然而，在一些情况中，分析组生成器250可以确定的是，添加基因组区域的一个或多个部分可以以类似于添加完整基因组区域的方式来确定癌症的存在。

为了举例说明，考虑长度为1568bp的基因组区域。基因组区域中的特征变异指示癌症存在。在该示例中，特征变异在群体(population)中以特定频率发生在基因组区域的342bp片段。如果特定频率大于阈值频率(例如，群体的至少1％)，则分析组生成器250可以将该片段鉴别为热点。分析组生成器250可以将该热点添加到分析组中作为热点指示物(例如，342bp片段)，而不是添加整个基因组区域(例如，1568bp区域)。

有几种方法来确定分析组的热点指示物。在一种实施方式中，分析组生成器250可以将热点区域模型278应用到指示物组以确定热点指示物。热点区域模型278可以确定包含在被访问的指示物组中的任何基因组区域的热点。为此，分析组生成器250使用热点区域模型278来分析指示物组中的每个基因组区域并确定易于发生特征变异的热点。分析组生成器250可以基于一个或多个标准来选择热点作为分析组的热点指示物。为了举例说明，该标准可以包括：(i)热点的特征变异大于样本群体的阈值百分比，(ii)当分析两个或更多个指示物组时鉴别热点，(iii)在片段库中将该热点鉴别为可能指示癌症存在，(iv)该片段存在于由分类模型270中的其它模型为分析组选择的基因组区域中，(v)该片段不存在于分类模型270中的其它模型为分析组选择的基因组区域中，并且(vi)该热点在所述指示物组中以大于阈值数量的序列的情况存在。

不同的标准选择影响分析组尺寸和分析组的检测能力。例如，采用利用第四标准的热点区域模型278的分析组生成器250可以用热点指示物替换基因组区域。用热点指示物替换基因组区域可以减小分析组尺寸，同时降低分析组的检测能力。相反，采用利用第五标准的热点区域模型278的分析组生成器250可以向分析组添加大量的热点。添加热点指示物增大了分析组尺寸，并且通常增大了分析组的检测能力。标准的许多其它组合也是可能的。

在一个示例中，分析组生成器250为以大于1％群体存在的先前未被分类模型270中的其它模型鉴别出的热点选择36个热点指示物。表15表示为分析组选择的13个热点指示物的基因组区域的名称、该基因组区域上热点的数量、以及位置。

表15：为分析组选择的热点指示物

编号	名称	热点	位置
				1	AKT	1	14q32.32
2	CDKN2A	10	9p21.2
				3	DNMT3A	1	2p23.3
4	EP300	1	22q13.2
				5	ERBB3	1	12q13.2
6	FGFR3	2	4p16.3
				7	GNAS	2	20q13.32
8	HRAS	4	11p15.5
				9	IDH1	2	2q32
10	IDH2	2	15q21
				11	MAPK1	1	22q11.22
12	PTEN	8	10q23.31
				13	EZH2	1	7q36.1

X.D病毒指示物

如上所述，分析组生成器250确定在指示物组中指示癌症存在的基因组区域以产生分析组。在一些情况中，指示物组包括与癌症存在相关的病毒基因组。因此，分析组生成器250可以选择与癌症存在相关的病毒的基因组区域作为分析组的病毒指示物。为了举例说明，HPV病毒与宫颈癌有关，并且在大部分患有宫颈癌的患者中存在。因此，分析组生成器250可以包括增大分析组对宫颈癌的检测能力的病毒指示物。

有几种方法来确定分析组的病毒指示物。在一种实施方式中，分析组生成器250可以应用病毒片段模型来确定病毒指示物。病毒片段模型从访问的指示物组中确定病毒指示物。为此，分析组生成器250使用病毒片段模型来确定针对病毒基因组的一个或多个片段(“病毒片段”)的病毒系数。病毒系数量化病毒片段与癌症存在之间的关联，并且在一些情况下，量化病毒片段与癌症类型之间的关联。然后，分析组生成器250对所确定的病毒系数进行测序(针对分类和/或类型)，并且随后从排序列表中选择片段以作为病毒指示物包含到分析组中。病毒指示物可以按排序顺序通过一些其它度量来选择，或者无需其它度量来选择。例如，分析组生成器250只能选择病毒系数高于阈值的病毒指示物。另外，在一些情况下，病毒片段模型可以每个病毒选择多于一个的病毒片段以包含在分析组中。例如，分析组生成器250可以选择10个HPV病毒片段以包含在分析组中。

表16示出了病毒的名称、包括作为病毒指示物的病毒片段的数量、以及病毒指示物的尺寸。

表16：为分析组选择的覆盖度指示物

编号	名称	片段
			1	HPV16	10
2	HPV18	10
			3	EBV	10
4	HBV	10

XI.示例分析组生成

如本文所述，分析组生成器250可以根据几个性能度量生成分析组，并且该部分描述了根据性能度量生成分析组的分析组生成器250的几个示例。

XI.A增强分类能力

在一个示例中，性能度量是分类能力。因此，分析组生成器250生成用于确定癌症存在的分析组。图16示出了根据一种实施方式的用于生成用来确定癌症存在的分析组的示例性工作流。工作流1600可以由系统200或另外类似的系统200执行。工作流400可以包括额外的或更少的步骤，并且这些步骤可以以不同的顺序排列。

分析组生成器250获得第一组基因组区域的测序数据(例如，测试序列)(1610)。第一组基因组区域可以是CCGA指示物组，但也可以是另一组基因组区域。第一组中的每个基因组区域与许多测试序列相关，并且可以与癌症相关基因、突变热点和病毒区域相关。

分析组生成器250导出第一组中每个基因组区域的特征值(1612)。例如，每个基因组区域的特征值可以是与该基因组区域相关的测序数据中用于测试序列的SNV的maxVAF。其它特征值也是可能的。例如，特征值可以是变体的不存在或存在、平均等位基因频率、小变体的总数、真实变体的等位基因频率等。

分析组生成器250采用分类模型270，分类模型270基于基因组区域的特征值来预测分析组的疾病分类能力。疾病分类能力可以包括对例如癌症是否存在和/或癌症的类型进行分类。在任何一种情况下，分析组的分类能力都可以通过性能度量来量化，所述性能度量例如分析组在特定特异性下的灵敏度。

为了预测疾病分类能力，分析组生成器250将分类模型270应用于特征值以生成一组模型系数(1614)。每个模型系数对应于指示物组中的基因组区域，并量化其相应基因组区域对疾病分类的指征。

分析组生成器250根据基因组区域的模型系数对基因组区域进行排序(1616)。例如，首先对具有最高模型系数的基因组区域进行排序，而最后对具有最低模型系数的基因组区域进行排序。

分析组生成器250基于基因组区域的排序鉴别基因组区域的第一亚组(1618)。例如，分析组生成器250可以鉴别基因组区域中的优化分析组的疾病分类的亚组。分析组生成器250生成包含所鉴别的基因组区域的第一亚组的分析组(1620)。

在一些实施方式中，分析组生成器250可以访问一个或多个额外的指示物组，并将分类模型270应用于额外的指示物组。为此，分析组生成器250可以鉴别一个或多个额外的基因组区域亚组以包含到分析组中。

在第一示例中，分析组生成器250可以访问第二指示物组并导出该组中基因组区域的特征值。当应用于第二指示物组时，分类模型270确定每个基因组区域的模型系数，并根据模型系数对基因组区域进行排序。分类模型270可以基于它们的排序来鉴别在分析组中包含的基因组区域的第二亚组。可以基于与基因组区域的第一亚组相同或不同的性能度量为分析组选择所鉴别的第二组区域。在第一示例中，第二组基因组区域可以优化分析组的覆盖度，而非疾病分类能力。在第二示例中，所选择的基因组区域可以增大由分析组覆盖的热点的数量。在第三示例中，所选择的基因组区域可以与癌症相关病毒相关。

图17A-18B示出了根据工作流1600由分析组生成器250生成的分析组的分类准确度。

图17A是根据一种实施方式的一组训练数据的群体图。在群体图1710中，x轴是癌症的类型，y轴是训练群体中具有该癌症类型的样本的数量。在群体图中，癌症的类型分别是肛门直肠癌、膀胱癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、白血病、肺癌、淋巴瘤、多发性骨髓瘤、卵巢癌、胰腺癌和乳腺癌。

图17B是根据一个示例性实施方式的灵敏度图。在灵敏度图1720中，x轴是癌症的类型，y轴是分析组对训练群体的数量检测灵敏度。

表17示出了第一分析组和第二分析组对训练数据的检测能力。第一分析组是包含相关指示物的分析组。第二分析组是包含相关指示物、覆盖度指示物、类型指示物、热点指示物和病毒指示物的分析组。表中的每个条目都是所示特异性的灵敏度。

表17：由分析组生成器生成的分析组的检测能力

分析组	95％特异性	98％特异性	99％特异性
				第一分析组	0.6076	0.5540	0.5299
第二分析组	0.5912	0.5737	0.5449

图18A是根据一种实施方式的一组测试数据的群体图。在群体图1810中，x轴是癌症的类型，y轴是在测试群体中具有该癌症类型的样本的数量。在群体图中，癌症的类型分别是肛门直肠癌、膀胱癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、白血病、肺癌、淋巴瘤、多发性骨髓瘤、卵巢癌、胰腺癌和乳腺癌。

图18B是根据一个示例性实施方式的灵敏度图。在灵敏度图1820中，x轴是癌症的类型，y轴是分析组对测试群体的数量检测灵敏度。

表18示出第一分析组和第二分析组对测试数据的检测能力。第一分析组是包含相关指示物的分析组。第二分析组是包含相关指示物、覆盖度指示物、类型指示物、热点指示物和病毒指示物的分析组。表中的每个条目都是所示特异性的灵敏度。

表18：由分析组生成器生成的分析组的检测能力

分析组	95％特异性	98％特异性	99％特异性
				第一分析组	0.5092	0.4945	0.4725
第二分析组	0.5275	0.5091	0.4762

XI.B减小的分析组尺寸

在一个示例中，性能度量是分析组尺寸。因此，分析组生成器250生成小于阈值分析组尺寸的用于确定癌症存在的分析组。图19示出了根据一种实施方式的用于生成小于阈值分析组尺寸的分析组的示例性工作流。工作流1900可以由系统200或另外类似的系统200执行。工作流1900可以包括额外的或更少的步骤，并且这些步骤可以以不同的顺序排列。

系统200接收用来产生确定患者中癌症存在的分析组的请求(1910)。该请求包括针对分析组的阈值分析组尺寸。在一个示例中，系统200从系统200的用户处接收包括阈值分析组尺寸的请求，但是该请求也可以从其它来源(例如，连接的客户端系统200、系统200管理员等)处接收。为了举例说明，系统200的用户向系统200发送请求以生成阈值分析组尺寸为400,000个碱基对的分析组，但是其它阈值分析组尺寸也是可能的。例如，阈值分析组尺寸可以是10kb、35kb、70kb、150kb、300kb等。

系统200利用分析组生成器250来确定一个或多个基因组区域以包含在分析组中。分析组生成器250访问指示物组(1912)，所述指示物组包括针对在分析组中可包括的基因组区域的测序数据。在表I-V中描述了包含在基因组区域数据库中的一些示例性基因组区域。在其它示例中，可以从其它来源访问或接收测序。例如，系统200可以从用户接收一个或多个基因组区域，或者系统200可以使用本文所述的任何方法来确定一个或多个基因组区域。

分析组生成器250导出指示物组中每个基因组区域的特征值(1914)，并将分类模型270应用于该特征值以确定指示物组中每个基因组区域的模型系数(1916)。如上所述，分析组生成器250对所确定的模型系数进行排序(1918)。

分析组生成器250鉴别分析组的基因组区域的亚组，使得所得到的分析组的分析组尺寸小于阈值分析组尺寸(1920)。为了举例说明，继续前面的示例，分析组的阈值分析组尺寸是16.0kb。分析组生成器250迭代地选择分析组的基因组区域，并且相应的分析组尺寸基于所选基因组区域的尺寸而增加。如果额外的基因组区域将导致所得的分析组尺寸高于阈值分析组尺寸，则分析组生成器250不为分析组选择该额外的基因组区域。

分析组生成器250生成包括所鉴别的基因组区域的第一亚组的分析组(1922)。产生分析组可以包括将鉴别的基因组区域亚组发送给请求者。例如，分析组生成器250将分析组发送到请求分析组的系统200的用户。

XI.C过滤

有几种过滤方法可以提高由分析组生成器生成的分析组的检测能力。在第一示例中，分析组生成器只能导出基因组区域的特征值，所述基因组区域在测序数据中阈值数量的序列中具有变体。在第二示例中，分析组生成器可以复制分析组中的基因组区域，或去除基因组区域的复制段，以提高检测能力。在第三示例中，系统管理员可以去除分析组中的基因组区域。最后，分析组生成器可以基于基因组区域黑名单去除分析组中的基因组指示物。基因组区域黑名单可包括专利基因组区域、已知引起假阳性的基因组区域、或可降低分析组的检测能力的任何其它基因组区域。

XII.产生用于分析分析组的探针

分析组生成器250还可以使用探针生成器260来生成用于分析组的探针。为此，探针生成器260可以输入为该分析组选择的基因组区域，并输出一个或多个对该基因组区域的测序的探针。例如，探针生成器260可以输入为分析组选择的4.5kb的基因组区域。探针生成器260可输出5个探针以对该基因组区域进行测序(例如，4个1kb探针和1个500kb探针)。

在一些示例中，探针生成器260可将基因组区域的探针标准化为靶探针长度。换言之，探针生成器260确保所产生的用于基因组区域的所有探针具有靶长度。在各种实施方式中，探针生成器260可以(i)将探针分段成靶长度，和/或(ii)当标准化探针时将探针增加到靶长度。探针生成器260可以将探针分段和/或增加任何次数，以将探针标准化到靶长度。

为了举例说明，例如，考虑由探针生成器260产生的包括第一基因组区域的组。探针生成器260确定第一基因组区域的第一探针和第二探针。第一探针的尺寸为2564个核碱基，第二探针的尺寸为112个核碱基。分析组中探针的靶尺寸是例如120个核碱基。探针生成器260通过以下步骤使第一探针标准化化：(i)将第一探针分段成22个探针，21个探针具有120个核碱基，1个探针具有44个核碱基，和(ii)将具有44个核碱基的探针填充到120个核碱基。填充探针包括将非信息性核碱基附加到探针的边缘。探针生成器260通过将探针填充到120个核碱基来使第二探针标准化。

在一些情况下，探针对探针边缘附近的编码区进行错误测序的概率更高。例如，如果探针包括120个核碱基，则前10个核碱基和后10个核碱基具有更高的对与那些核碱基相关的编码区进行不适当测序的可能性。因此，分析组生成器可以集聚(centralize)为分析组确定的一个或多个探针。集聚探针包括将非信息性核碱基附加到探针的边缘。为了举例说明，例如，考虑包括150个核碱基的基因组区域的探针。探针生成器260通过将15个核碱基附加到每个边缘来集聚探针，使得探针包括180个核碱基。其它数量的核碱基可以附加到探针的边缘。

在一些情况下，即使编码区不在探针边缘附近，探针也可能对编码区进行不适当的序列测定。这样，探针生成器260可以平铺(tile)探针以更准确地对编码区进行序列测定。平铺探针包括产生探针，其中编码区中的每个核碱基出现在至少两个探针中。通常，平铺探针被认为是相邻的。相邻的探针是探针对，其中该探针对的每个探针中的一部分核碱基是相同的。在一些示例中，该部分是一半，但也可以是其它部分。

为了举例说明，例如，考虑具有用以下核碱基组合测序的编码区的基因组区域：TCGAAACGGTC。探针生成器260通过生成以下探针来平铺探针：(i)[xxTC]，(ii)[TCGA]，(iii)[GAAA]，(iv)[AACG]，(v)[CGGT]，(vi)[GTCx]和(vii)[Cxxx]。在该示例中，探针(i)和(ii)、(ii)和(iii)、(iii)和(iv)等是相邻的对，其中探针的一半是相同的。利用这些探针，编码区的每个核碱基被测序两次。

在一些实施方式中，探针生成器260集聚并标准化所确定的探针。为了举例说明，例如，考虑具有330个核碱基的基因组区域的探针。探针的靶尺寸为120个核碱基。在该示例中，探针生成器260通过将5个核碱基附加到每个探针的边缘来集聚探针。这样，探针生成器260通过生成三个120个核碱基的探针来集聚并标准化探针。产生的每一个探针在中心具有110个信息性核碱基，在边缘具有5个非信息性核碱基。集聚和标准化探针的其它示例也是可能的。

XIII.由分析组识别的变体

系统200可以使用由分析组生成器250生成的分析组来识别变体。为了举例说明，图20A-20F给出了显示由大组分析组识别的变量数量和由分析组(由分析组生成器250生成)识别的变量数量的统计分析的箱须(box and whisker plot)图。

图20A示出了根据一种实施方式的针对大组分析组的不同癌症类型的SNV计数图。在SNV计数图2010中，x轴是癌症的类型，y轴是该癌症类型的测序数据中的变体的数量。癌症类型可以分别是膀胱癌、乳腺癌、结肠直肠癌、食道癌、头颈癌、午餐、淋巴瘤、卵巢癌、肾癌和子宫癌。

图20B示出了根据一种实施方式的针对大组分析组的不同癌症阶段的SNV计数图。在SNV计数图2020中，x轴是癌症的阶段，y轴是癌症的该阶段的测序数据中的变体的数量。

图20C示出了根据一种实施方式的针对使用分析组生成器生成的分析组的不同癌症类型的SNV计数图。在SNV计数图2030中，x轴是癌症的类型，y轴是该癌症类型的测序数据中的变体的数量。

图20D示出了根据一种实施方式的针对使用分析组生成器生成的分析组的不同癌症阶段的SNV计数图。在SNV计数图2040中，x轴是癌症的阶段，y轴是癌症的该阶段的测序数据中的变体的数量。

图20E示出了根据一种实施方式的针对大组分析组的不同癌症类型的SNV差值图。在SNV差值图2050中，x轴是癌症的类型，y轴是针对大组分析组和由分析组生成器250生成的分析组之间的癌症类型的测序数据中的变体数量的差值。

图20F示出了根据一种实施方式的针对大组分析组的不同癌症阶段的SNV差值图。在SNV差值图2060中，x轴是癌症的类型，y轴是针对大组分析组和由分析组生成器250产生的分析组之间的癌症阶段的测序数据中的变体数量的差值。

图21A示出了根据一种实施方式的针对大组分析组的不同癌症类型的indel计数图。在indel计数图2110中，x轴是癌症的类型，y轴是该癌症类型的测序数据中的变体的数量。癌症类型可以分别是膀胱癌、乳腺癌、结肠直肠癌、食道癌、头颈癌、午餐、淋巴瘤、卵巢癌、肾癌和子宫癌。

图21B示出了根据一种实施方式的针对大组分析组的不同癌症阶段的indel计数图。在indel计数图2121中，x轴是癌症的阶段，y轴是癌症的该阶段的测序数据中的变体的数量。

图21C示出了根据一种实施方式的针对使用分析组生成器生成的分析组的不同癌症类型的indel计数图。在indel计数图2130中，x轴是癌症的类型，y轴是该癌症类型的测序数据中的变体的数量。

图21D示出了根据一种实施方式的针对使用分析组生成器生成的分析组的不同癌症阶段的indel1计数图。在indel计数图2140中，x轴是癌症的阶段，y轴是癌症的该阶段的测序数据中的变体的数量。

图21E示出了根据一种实施方式的针对大组分析组的不同癌症类型的indel差值图。在indel差值图2150中，x轴是癌症的类型，y轴是针对大组分析组和由分析组生成器250产生的分析组之间的癌症类型的测序数据中的变体数量的差值。

图21F示出了根据一种实施方式的针对大组分析组的不同癌症阶段的indel差值图。在indel差值图2160中，x轴是癌症的类型，而y轴是针对在大组分析组和由分析组生成器250生成的组之间的癌症阶段的测序数据中的变体数量的差异。

XIV.附加注意事项

上述本发明的实施方式的描述是为了举例说明的目的而呈现的；这并不意指是穷尽的或将本发明限制于所公开的精确形式。相关领域的技术人员可以理解，根据上述公开，许多修改和变型是可能的。

本说明书的某些部分根据算法和对信息的操作的符号表示来描述本发明的实施方式。这些算法描述和表示通常由数据处理领域的技术人员使用，以将他们的工作的实质内容有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行了描述，但是被理解为由计算机程序或等效电路、微代码等来实现。此外，事实证明，在不丧失一般性的情况下，有时将这些操作的布置称为模块，也是很方便的。所描述的操作及其相关联的模块可体现于软件、固件、硬件或其任何组合中。

本文所述的任何步骤、操作或过程可以用一个或多个硬件或软件模块单独或与其他设备联用来执行或实施。在一种实施方式中，软件模块用计算机程序产品实施，所述计算机程序产品包括含计算机程序代码的计算机可读非暂时性介质(computer-readable non-transitory medium)，所述计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或所有步骤、操作或过程。

本发明的实施方式还可以涉及由本文描述的计算过程产生的产品。这种产品可以包括由计算过程产生的信息，其中该信息被存储在非暂时性、有形的计算机可读存储介质上，并且可以包括计算机程序产品或本文所述的其它数据组合的任何实施方式。

最后，本说明书中使用的语言主要是为了可读性和指导目的而选择的，并且可能不是为了划定或限定本发明的主题而选择的。因此，意指本发明的范围不限于该详细描述，而是由基于此的申请文件中发布的任何权利要求来限定。因此，本发明的实施方式的公开旨在说明而非限制本发明的范围，本发明的范围在所附权利要求中进行了阐述。

Claims

1.一种生成用于疾病分类的简化基因分析组的方法，包括：

获取第一组基因组区域的测序数据；

从所述第一组基因组区域的测序数据中导出多个特征值；

基于所述多个特征值应用预测疾病分类的分类模型，其中所述分类模型生成与所述第一组基因组区域对应的一组模型系数；

根据所述一组模型系数对所述第一组基因组区域进行排序；

使用所述排序来鉴别出优化所述疾病分类的所述第一组基因组区域的第一亚组基因组区域；和

生成包含所述第一亚组基因组区域的所述简化基因分析组。

2.如权利要求1所述的方法，其中所述测序数据是通过对由多个患者获得的生物样本中存在的细胞游离核酸分子进行测序而获得的。

3.如权利要求1至2中任一项所述的方法，其中所述第一组基因组区域包括癌症相关基因、突变热点和病毒区域中的至少一种。

4.如权利要求1至3中任一项所述的方法，其中所述第一组基因组区域包括与高信号癌症或液体癌相关的基因组区域。

5.如权利要求1至4中任一项所述的方法，其中所述多个特征值包括在所述第一组基因组区域中的每个基因组区域处的变体的最大等位基因频率。

6.如权利要求1至5中任一项所述的方法，其中所述多个特征值代表对应于是否存在变体、平均等位基因频率、小变体的总数和真实变体的等位基因频率中的至少之一的特征。

7.如权利要求5至6中任一项所述的方法，其中所述变体包括单核苷酸变体、插入和缺失中的至少一种。

8.如权利要求1至7中任一项所述的方法，其中所述分类模型包括逻辑回归模型，并且所述一组模型系数包括通过用所述多个特征值来训练所述逻辑回归模型而获得的回归系数。

9.如权利要求1至8中任一项所述的方法，其中鉴别出所述第一亚组基因组区域包括：

在初次迭代时，训练所述分类模型以基于与第一基因组区域对应的特征值来预测疾病分类，其中所述第一基因组区域与最高排序顺序的基因组区域对应；

确定在所述第一基因组区域上训练的所述分类模型的性能度量；

在随后的迭代中，并入剩余的排序基因组区域来重新训练所述分类模型，并在并入每个额外的基因组区域之后评估所述性能度量，其中每个随后的迭代包括：

应用贪婪算法将所述剩余的排序基因组区域中的次高排序顺序的基因组区域添加到所述分类模型中；

使用与所添加的次高排序顺序的基因组区域以及在前一次迭代中先前添加的基因组区域相关联的特征值来重新训练所述分类模型；和

确定所述重新训练的分类模型的性能度量；和

评估每一次迭代获得的所述性能度量，以鉴别产生优化的性能度量的所述第一亚组基因组区域。

10.如权利要求9所述的方法，其中所述优化的性能度量包括由所述分类模型实现的最大性能度量。

11.如权利要求1至10中任一项所述的方法，其中所述第一组基因组区域优化包括在预定特异性水平处的灵敏度水平的性能度量。

12.如权利要求1至11中任一项所述的方法，其中所述疾病分类包括用于预测癌症或非癌症的双类分类和用于预测癌症类型的多类分类中的至少一种。

13.如权利要求1至12中任一项所述的方法，其中用所述简化基因分析组获得的性能度量基本上与用包含完整的所述第一组基因组区域的完整的基因分析组获得的性能度量相似。

14.如权利要求1至13中任一项所述的方法，其中所述第一组基因组区域包含与高信号癌症相关联的基因组区域，并且具有约2Mb的组尺寸，其中所述第一亚组基因组区域的亚组尺寸小于300kb。

15.如权利要求1至14中任一项所述的方法，还包括：

鉴别第二亚组基因组区域，所述第二亚组基因组区域进一步改善由所述第一亚组基因组区域实现的所述疾病分类；和

生成包含所述第一亚组基因组区域和所述第二亚组基因组区域的所述简化基因分析组。

16.如权利要求15所述的方法，还包括：

获得第二组基因组区域的第二组测序数据；

根据每个患者的体细胞突变的频率和通过编码区域长度而标准化的频率中的至少一个来对所述第二组基因组区域进行排序；和

基于所述排序的第二组基因组区域来鉴别所述第二亚组基因组区域。

17.如权利要求1至16中任一项所述的方法，还包括：

鉴别第三亚组基因组区域，所述第三亚组基因组区域进一步改善通过所述简化基因分析组实现的疾病分类，其中所述第三亚组基因组区域优化疾病类型预测准确度；和

包括在所述简化基因分析组中的所述第三亚组基因组区域。

18.如权利要求17所述的方法，其中所述第三组基因组区域是癌症特异性基因和热点。

19.如权利要求1至18中任一项所述的方法，其还包括将额外的热点区域添加到所述简化基因分析组中，其中所述热点区域对应于单核苷酸变体、插入或缺失。

20.如权利要求1至19中任一项所述的方法，还包括将额外的病毒靶区域添加到所述简化基因分析组中，其中所述病毒靶区域对应于病毒相关的癌症。

21.如权利要求1至20中任一项所述的方法，其中所述简化基因分析组包括不超过300kb的总分析组尺寸。

22.一种存储一个或多个程序的非暂时性计算机可读介质，所述一个或多个程序包括指令，所述指令在由包括处理器的电子设备执行时使所述设备执行前述任何权利要求的方法。

23.一种电子设备，包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行前述任何权利要求的方法的指令。

24.一种生成癌症测定分析组的方法，包括：

选择与高信号癌症基因和液体癌基因相关的第一组基因组区域；

选择与癌症特异性基因和癌症特异性热点相关的第二组基因组区域；

选择与针对单核苷酸变体或indel的热点相关的第三组基因组区域；

选择与病毒靶标相关的第四组基因组区域；和

生成包括多个探针组的癌症测定分析组，其中所述多个探针组中的每个探针组包括用于靶向所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一个基因组区域的一对探针。

25.如权利要求24所述的方法，其中选择用于所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一组基因组区域的基因组区域，包括应用分类模型以评估每个基因组区域对所述癌症测定分析组的检测灵敏度的贡献。

26.如权利要求24至25中任一项所述的方法，其中所述第一组基因组区域包括表1中的一个或多个基因组区域。

27.如权利要求26所述的方法，进一步包括选择提高所述分析组的检测灵敏度的第五组基因组区域，其中所述第五组基因组区域包括表2中的一个或多个基因组区域。

28.如权利要求24至27中任一项所述的方法，其中所述第二组基因组区域包括CASP8、IDH1、TERT1和EGFR中的一种或多种。

29.如权利要求24至28中任一项所述的方法，其中所述第三组基因组区域包括表3中的一个或多个基因组区域。

30.如权利要求24至29中任一项所述的方法，其中所述第三组基因组区域包括位于表4中的一个或多个基因组区域处的一个或多个位点。

31.如权利要求24至30中任一项所述的方法，其中所述第三组基因组区域包括位于表5中的一个或多个基因组区域处的一个或多个位点。

32.如权利要求24至31中任一项所述的方法，其中所述第三组基因组区域包括位于表6中的一个或多个基因组区域处的一个或多个位点。

33.如权利要求24至32中任一项所述的方法，其中所述第四组基因组区域包括位于HPV16、HPV18、EBV和HBV中的一个或多个基因组区域处的一个或多个位点。

34.如权利要求24至33中任一项所述的方法，其中所述癌症测定分析组的总分析组尺寸小于或等于300千碱基。

35.通过权利要求24至34中任一项所述的方法制备的癌症测定分析组。

36.一种用于评估发展疾病状态的风险、检测疾病状态和/或诊断疾病状态的方法，所述方法包括：

从获自受试者的细胞游离核酸样本中检测一组基因中的至少一个基因的体细胞突变，其中所述一组基因包括来自由以下组成的第一群组中的三个或更多个基因：KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP和APC；和

基于检测到的体细胞突变确定所述疾病状态。

37.如权利要求36所述的方法，其中所述一组基因包括所述第一群组中的5个或更多个基因。

38.如权利要求36至37中任一项所述的方法，其中所述一组基因包括所述第一群组中的10个或更多个基因。

39.如权利要求36所述的方法，其中所述一组基因包括KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63和KEAP1。

40.如权利要求39所述的方法，其中所述一组基因还包括CDK12、KMT2D、DICER1、TET2、LAT52、ETV5、GRIN2A、EPHA7、ASXL2和RET中的一种或多种。

41.如权利要求36至40中任一项所述的方法，其中所述一组基因包括TP53、NRAS、KMT2D、TET2、KMT2C、SF3B1、LRP1B。

42.如权利要求41所述的方法，其中所述一组基因进一步包括MYD88、CBL、BRAF、CREBBP和APC中的一种或多种。

43.如权利要求36至42中任一项所述的方法，其中检测所述体细胞突变包括检测SNV。

44.如权利要求43所述的方法，其中检测所述体细胞突变进一步包括检测indel。

45.如权利要求36至44中任一项所述的方法，其中所述一组基因还包括来自与针对SNV和indel的热点相关的第二群组基因中的一个或多个基因，所述第二群组基因由以下组成：AKT1、ERBB3、IDH1、PTEN、ARAF、EZH2、IDH2、PTPRD、CD79A、FGFR3、MAP3K1、RHOA、CDKN2A、GATA3、MAPK1、RNF43、DNMT3A、GNAS、MSH2、SPTA1、EP300、HRAS、PREX2和TERT。

46.如权利要求36至45中任一项所述的方法，其中所述一组基因还包括来自与病毒热点相关的第三群组基因中的一个或多个基因，所述第三群组基因由HPV16、HPV18、EBV和HBV组成。

47.如权利要求36至46中任一项所述的方法，还包括：

根据所述基因和在所述基因处检测到的体细胞突变进行治疗、预后或诊断。

48.一种存储一个或多个程序的非暂时性计算机可读介质，所述一个或多个程序包括指令，所述指令在由包括处理器的电子设备执行时使所述设备执行前述任何权利要求的方法。

49.一种电子设备，包括：

一个或多个处理器；

存储器；和

50.通过权利要求36至49中任一项的方法制备的癌症测定分析组。

51.一种癌症测定分析组，包括：

选自与高信号癌症或液体癌相关的第一群组基因中的一个或多个基因；

选自与针对单核苷酸变体(SNV)或indel的热点相关的第二群组基因中的一个或多个基因；和

选自与病毒热点相关的第三群组基因中的一个或多个基因。

52.如权利要求51所述的分析组，其中所述第一群组基因由以下组成：KRAS、TP53、ERBB2、EPHB1、NRAS、ACVR1B、TP63、KEAP1、CDK12、KMT2D、DICER1、TET2、LATS2、ETV5、GRIN2A、EPHA7、ASXL2、RET、CHD2、RB1、CDH1、PDGFRA、BRCA2、TFRC、ALK、KDM5A、SMAD4、ATR、NOTCH1、NRG1、CTNNB1、KMT2C、SNCAIP、MTOR、PIK3CA、SF3B1、NBN、LRP1B、TNFRSF14、ARID1A、INPP4A、ETS1、KAT6A、FBXW7、MGA、MYD88、CBL、BRAF、CREBBP和APC。

53.如权利要求51至52中任一项所述的分析组，其中所述第二群组基因包括与针对SNV的热点相关的一组基因，所述一组基因由以下组成：AKT1、CDKN2A、DNMT3A、EP300、ERBB3、FGFR3、GNAS、HRAS、IDH1、IDH2、MAP3K1、MAPK1、PREX2、PTEN、PTPRD、RHOA、SPTA1、TERT和EZH2。

54.如权利要求51至53中任一项所述的分析组，其中所述第二群组基因包括与indel相关的一组基因，所述一组基因由以下组成：ARAF、CD79A、GATA3、MSH2、PTEN和RNF43。

55.如权利要求51至54中任一项所述的分析组，其中所述第三群组基因由HPV16、HPV18、EBV和HBV组成。

56.如权利要求51至55中任一项所述的分析组，其中所述测定分析组检测受试者中是否存在癌症。

57.如权利要求51至56中任一项的分析组，其中所述测定分析组检测受试者中的癌症类型。

58.一种生成用于确定患者中是否存在癌症的癌症检测分析组的方法，所述方法包括：

接收生成所述检测分析组的请求，所述检测分析组包括一组基因组区域，所述请求包括所述检测分析组的集合千碱基尺寸；

接收多个基因组区域，每个基因组区域与所述基因组区域的特征变异指示癌症的可能性相关，并且每个基因组区域具有千碱基尺寸；和

将分类器模型应用于所述多个基因组区域以生成所述检测分析组，所述分类器模型：

确定每一个所述基因组区域的灵敏度记分，所述灵敏度记分量化对所述检测分析组的检测灵敏度的贡献，所述检测灵敏度对在所述癌症检测分析组中包括的所述一组基因组区域中的特征变异指示癌症的可能性进行量化，

根据所述多个基因组区域的灵敏度记分对所述多个基因组区域进行排序，和

基于所述多个基因组区域的排序，选择一个或多个基因组区域作为所述检测分析组的所述一组基因组区域，所述检测分析组中的所述一组基因组区域的千碱基尺寸之和小于集合千碱基尺寸。

59.如权利要求58所述的方法，进一步包括：

使用所述分析组来确定患者中癌症的存在。

60.如权利要求58至59中任一项所述的方法，还包括：

将所述一组基因组区域发送至传送所述生成所述检测分析组的请求的客户端设备。

61.如权利要求58至60中任一项所述的方法，其中所述基因组区域的特征是单核苷酸变体。

62.如权利要求61所述的方法，其中指示癌症的所述特征变异是基因组区域的单核苷酸变体的最大变体等位基因频率。

63.如权利要求58至61中任一项所述的方法，其中一个或多个所述基因组区域指示与癌症相关的病毒。

64.如权利要求63所述的方法，其中所述病毒是HPV16、HPV18、EBV和HBV中的任一种。

65.如权利要求58至64中任一项所述的方法，其中一个或多个所述基因组区域与实体癌相关。

66.如权利要求65所述的方法，其中所述基因组区域是表1或表2中的基因组区域。

67.如权利要求58至66中任一项所述的方法，其中一个或多个所述基因组区域与液体癌相关。

68.如权利要求67所述的方法，其中所述基因组区域是表1或表2中的基因组区域。

69.如权利要求58至68中任一项所述的方法，其中一个或多个所述基因组区域指示癌症热点。

70.如权利要求69所述的方法，其中所述基因组区域是表3、表4或表5中的基因组区域。

71.如权利要求58至70中任一项所述的方法，其中一个或多个所述基因组区域与特定类型的癌症相关。

72.如权利要求58至71中任一项所述的方法，其中所述检测分析组包括少于65、55或45个基因组区域。

73.如权利要求58至72中任一项所述的方法，其中所述集合千碱基尺寸为390,000、330,000、270,000、210,000或150,000千碱基。

74.如权利要求58至73中任一项所述的方法，其中

所述请求包括所述检测分析组设计用来检测的癌症类型，和

灵敏度记分量化所述检测分析组对所述癌症类型的检测灵敏度的贡献。

75.如权利要求58至74中任一项所述的方法，其中对所述指示物进行排序还包括：

基于由被设计的所述检测分析组来检测的癌症类型对所述基因组区域进行排序。

76.一种癌症测定分析组，其包含：

至少探针数量的探针对，其中所述探针数量的所述对中的每一对均包括两个探针，所述两个探针被配置成通过重叠序列而彼此重叠，

其中所述重叠序列包含重叠数量的核碱基，和

其中包含所述重叠数量的核碱基的所述重叠序列与对应于一个或多个基因组区域的文库分子杂交，每个所述基因组区域对于所述基因组区域的单核苷酸变体均具有最大变体等位基因频率，并且对于在癌变样本中出现的所述基因组区域均具有至少一些所述变体等位基因频率。

77.如权利要求76所述的癌症测定分析组，其中所述癌变样本来自患有特定TOO癌症的受试者，其中所述特定TOO癌症选自：乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾尿路上皮癌、除尿路上皮癌外的肾癌、前列腺癌、肛门直肠癌、结肠直肠癌、肝胆癌。胰腺癌、鳞状上胃肠癌、除鳞状上胃肠癌以外的上胃肠癌、头颈癌、肺腺癌、小细胞肺癌、除肺腺癌或小细胞肺癌以外的肺癌、神经内分泌癌、肺神经内分泌瘤和其它高级神经内分泌瘤、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。

78.如权利要求76至77中任一项所述的癌症测定分析组，其中每个所述探针包括70-140个核苷酸。

79.如权利要求76至78中任一项所述的癌症测定分析组，其中一个或多个所述基因组区域是表1或表2中的基因组区域。

80.如权利要求76至79中任一项所述的癌症测定分析组，其中一个或多个所述基因组区域是表3、表4或表5中的基因组区域。

81.如权利要求76至80中任一项所述的癌症测定分析组，其中一个或多个所述基因组区域与病毒区域相关，所述病毒区域指示与癌症相关的病毒序列。

82.如权利要求76至81中任一项所述的癌症测定分析组，其中至少2900个所述探针被分类器模型选出，所述分类器模型根据对所述2900个探针中的每一个探针的检测灵敏度进行定量而得的灵敏度记分来选择所述至少2900个探针。

83.如权利要求76至82中任一项所述的癌症测定分析组，其中所述至少2900个探针的集合千碱基尺寸小于靶千碱基尺寸，所述分类器模型选择具有最高灵敏度记分同时保持低于所述靶千碱基尺寸的所述2900个探针。

84.如权利要求76至83中任一项所述的癌症测定分析组，其中所述探针数量的探针对是1000、1500、2000、2500或3000个探针对。

85.如权利要求76至84中任一项所述的癌症测定分析组，其中所述重叠序列中所述重叠数量的核碱基为20、30、40、50、60、70或80个核碱基。

86.一种存储指令的非暂时性计算机可读存储介质，所述指令在由硬件处理器执行时使所述硬件处理器执行以下步骤：

选择与高信号癌基因和液体癌基因相关的第一组基因组区域；

选择与病毒靶相关的第四组基因组区域；和

生成包含多个探针组的癌症测定分析组，其中在所述多个探针组中的每个探针组包括用于靶向所述第一基因组区域、所述第二基因组区域、所述第三基因组区域和所述第四组基因组区域中的至少一组基因组区域的一对探针。

87.如权利要求85所述的非暂时性计算机可读存储介质，其中选择用于所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一组基因组区域的基因组区域，包括应用分类模型以评估每个基因组区域对所述癌症测定分析组的检测灵敏度的贡献。

88.如权利要求85至86中任一项所述的非暂时性计算机可读存储介质，其中所述第一组基因组区域包括表1中的一个或多个基因组区域。

89.如权利要求87所述的非暂时性计算机可读存储介质，其中所述指令在被执行时使所述硬件处理器执行进一步的步骤，所述进一步的步骤包括选择提高所述分析组的检测灵敏度的第五组基因组区域，其中所述第五组基因组区域包括表2中的一个或多个基因组区域。

90.如权利要求85至88中任一项所述的非暂时性计算机可读存储介质，其中所述第二组基因组区域包括CASP8、IDH1、TERT1和EGFR中的一种或多种。

91.如权利要求85至89中任一项所述的非暂时性计算机可读存储介质，其中所述第三组基因组区域包括表3中的一个或多个基因组区域。

92.如权利要求85至90中任一项所述的非暂时性计算机可读存储介质，其中所述第三组基因组区域包括位于表4中的一个或多个基因组区域处的一个或多个位点。

93.如权利要求85至91中任一项所述的非暂时性计算机可读存储介质，其中所述第三组基因组区域包括位于表5中的一个或多个基因组区域处的一个或多个位点。

94.如权利要求85至92中任一项所述的非暂时性计算机可读存储介质，其中所述第三组基因组区域包括位于表6中的一个或多个基因组区域处的一个或多个位点。

95.如权利要求85至93中任一项所述的非暂时性计算机可读存储介质，其中所述第四组基因组区域包括位于HPV16、HPV18、EBV和HBV中的一个或多个基因组区域处的一个或多个位点。

96.如权利要求85至94中任一项所述的非暂时性计算机可读存储介质，其中所述癌症测定分析组的总分析组尺寸小于或等于300千碱基。

97.一种系统，包括硬件处理器和存储指令的非暂时性计算机可读存储介质，所述指令在由所述硬件处理器执行时使所述硬件处理器执行以下步骤：

选择与病毒靶标相关的第四组基因组区域；和

生成包含多个探针组的癌症测定分析组，其中所述多个探针组中的每个探针组包括用于靶向所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一个所述基因组区域的一对探针。

98.如权利要求96所述的系统，其中选择用于所述第一组基因组区域、所述第二组基因组区域、所述第三组基因组区域和所述第四组基因组区域中的至少一组基因组区域的基因组区域，包括应用分类模型以评估每个基因组区域对所述癌症测定分析组的检测灵敏度的贡献。

99.如权利要求96至97中任一项所述的系统，其中所述第一组基因组区域包括表1中的一个或多个基因组区域。

100.如权利要求98所述的系统，其中所述指令在被执行时使所述硬件处理器执行进一步的步骤，所述进一步的步骤包括选择提高所述分析组的检测灵敏度的第五组基因组区域，其中所述第五组基因组区域包括表2中的一个或多个基因组区域。

101.如权利要求96至99中任一项所述的系统，其中所述第二组基因组区域包括CASP8、IDH1、TERT1和EGFR中的一种或多种。

102.如权利要求96至100中任一项所述的系统，其中所述第三组基因组区域包括表3中的一个或多个基因组区域。

103.如权利要求96至101中任一项所述的系统，其中所述第三组基因组区域包括位于表4中一个或多个基因组区域处的一个或多个位点。

104.如权利要求96至102中任一项所述的系统，其中所述第三组基因组区域包括位于表5中的一个或多个基因组区域处的一个或多个位点。

105.如权利要求96至103中任一项所述的系统，其中所述第三组基因组区域包括位于表6中的一个或多个基因组区域处的一个或多个位点。

106.如权利要求96至104中任一项所述的系统，其中所述第四组基因组区域包括位于HPV16、HPV18、EBV和HBV中的一个或多个基因组区域处的一个或多个位点。

107.如权利要求96至105中任一项所述的系统，其中所述癌症测定分析组的总分析组尺寸小于或等于300千碱基。

108.一种存储指令的非暂时性计算机可读存储介质，所述指令用于生成来确定患者中是否存在癌症的癌症检测分析组，所述指令在由硬件处理器执行时被配置成使所述硬件处理器执行以下步骤，所述步骤包括：

根据所述基因组区域的灵敏度记分对所述多个基因组区域进行排序，和

基于所述多个基因组区域的排序，选择一个或多个所述基因组区域作为所述检测分析组的所述一组基因组区域，所述检测分析组的所述一组基因组区域的千碱基尺寸之和小于所述集合千碱基尺寸。

109.如权利要求107所述的非暂时性计算机可读存储介质，其中所述指令在被执行时使所述硬件处理器执行进一步的步骤，所述进一步的步骤包括：

使用所述分析组来确定患者中癌症的存在。

110.如权利要求107至108中任一项所述的非暂时性计算机可读存储介质，其中所述指令在被执行时使所述硬件处理器执行进一步的步骤，所述进一步的步骤包括：

111.如权利要求107至109中任一项所述的非暂时性计算机可读存储介质，其中所述基因组区域的特征是单核苷酸变体。

112.如权利要求110所述的非暂时性计算机可读存储介质，其中指示癌症的所述特征变异是所述基因组区域的所述单核苷酸变体的最大变体等位基因频率。

113.如权利要求107至110中任一项所述的非暂时性计算机可读存储介质，其中一个或多个所述基因组区域指示与癌症相关的病毒。

114.如权利要求112所述的非暂时性计算机可读存储介质，其中所述病毒是HPV16、HPV18、EBV和HBV中的任一种。

115.如权利要求107至113中任一项所述的非暂时性计算机可读存储介质，其中一个或多个所述基因组区域与实体癌相关。

116.如权利要求114所述的非暂时性计算机可读存储介质，其中所述基因组区域是表1或表2中的基因组区域。

117.如权利要求107至115中任一项所述的非暂时性计算机可读存储介质，其中一个或多个基因组区域与液体癌相关。

118.如权利要求116所述的非暂时性计算机可读存储介质，其中所述基因组区域是表1或表2中的基因组区域。

119.如权利要求107至117中任一项所述的非暂时性计算机可读存储介质，其中一个或多个所述基因组区域指示癌症热点。

120.如权利要求118所述的非暂时性计算机可读存储介质，其中所述基因组区域是表3、表4或表5中的基因组区域。

121.如权利要求107至119中任一项所述的非暂时性计算机可读存储介质，其中一个或多个所述基因组区域与特定类型的癌症相关。

122.如权利要求107至120中任一项所述的非暂时性计算机可读存储介质，其中所述检测分析组包括少于65、55或45个基因组区域。

123.如权利要求107至121中任一项所述的非暂时性计算机可读存储介质，其中所述集合千碱基尺寸是390,000、330,000、270,000、210,000或150,000千碱基。

124.如权利要求107至122中任一项所述的非暂时性计算机可读存储介质，其中

所述请求包括所述检测分析组设计用来检测的癌症类型，和

125.如权利要求107至123中任一项所述的非暂时性计算机可读存储介质，其中，对所述指示物进行排序还包括：

126.一种生成用于确定患者中是否存在癌症的癌症检测分析组的系统，所述系统包括硬件处理器和存储指令的非暂时性计算机可读存储介质，所述指令在由所述硬件处理器执行时被配置成使所述硬件处理器执行以下步骤：

基于所述多个基因组区域的排序，选择一个或多个所述基因组区域作为所述检测分析组的所述一组基因组区域，所述检测分析组中的所述一组基因组区域的千碱基尺寸之和小于所述集合千碱基尺寸。

127.如权利要求125所述的系统，其中，所述指令在被执行时使所述硬件处理器执行进一步的步骤，所述进一步的步骤包括：

使用所述分析组来确定患者中癌症的存在。

128.如权利要求125至126中任一项所述的系统，其中，所述指令在被执行时使所述硬件处理器执行进一步的步骤，所述进一步的步骤包括：

129.如权利要求125至127中任一项所述的系统，其中所述基因组区域的所述特征是单核苷酸变体。

130.如权利要求128所述的系统，其中指示癌症的所述特征变异是所述基因组区域的所述单核苷酸变体的最大变体等位基因频率。

131.如权利要求125至129中任一项所述的系统，其中一个或多个所述基因组区域指示与癌症相关的病毒。

132.如权利要求130所述的系统，其中所述病毒是HPV16、HPV18、EBV和HBV中的任一种。

133.如权利要求125至131中任一项所述的系统，其中一个或多个所述基因组区域与实体癌相关。

134.如权利要求132所述的系统，其中所述基因组区域是表1或表2中的基因组区域。

135.如权利要求125至133中任一项所述的系统，其中一个或多个所述基因组区域与液体癌相关。

136.如权利要求134所述的系统，其中所述基因组区域是表1或表2中的基因组区域。

137.如权利要求125至135中任一项所述的系统，其中一个或多个所述基因组区域指示癌症热点。

138.如权利要求136所述的系统，其中所述基因组区域是表3、表4或表5中的基因组区域。

139.如权利要求125至137中任一项所述的系统，其中一个或多个所述基因组区域与特定类型的癌症相关。

140.如权利要求125至138中任一项所述的系统，其中所述检测分析组包括少于65、55或45个基因组区域。

141.如权利要求125至139中任一项所述的系统，其中所述集合千碱基尺寸为390,000、330,000、270,000、210,000或150,000千碱基。

142.如权利要求125至140中任一项所述的系统，其中

所述请求包括所述检测分析组设计用来检测的癌症类型，和

所述灵敏度记分量化所述检测分析组对所述癌症类型的检测灵敏度的贡献。

143.如权利要求125至141中任一项所述的系统，其中，对所述指示物进行排序还包括：