CN113337604A

CN113337604A - 循环核酸肿瘤标志物的鉴别和用途

Info

Publication number: CN113337604A
Application number: CN202110494880.2A
Authority: CN
Inventors: M·迪恩; A·A·阿利扎德; A·M·纽曼; S·V·布拉特曼
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2013-03-15
Filing date: 2014-03-12
Publication date: 2021-09-03
Also published as: WO2014151117A1; US20220195530A1; EP3421613A1; EP3795696B1; EP4253558A1; US20160032396A1; CN105518151B; EP3795696A1; EP2971152A1; EP3421613B1; US20140296081A1; EP2971152B1; ES2946689T3; CN105518151A; EP2971152A4; ES2831148T3

Abstract

提供一些方法用于制备突变的基因组区域的选择子，并用于采用选择子集合来分析在无细胞核酸样品中的基因变异。所述方法可用于测量受试者血液样品中来源于肿瘤的核酸，并因此用于监控受试者疾病的进展，所述方法也可用于癌症筛查、癌症诊断、癌症预测和癌症疗法设计。

Description

循环核酸肿瘤标志物的鉴别和用途

本申请是与母案发明名称相同的分案申请，母案的中国申请号是201480028360.0，国际申请号是PCT/US2014/025020，申请日是2014 年3月12日。

政府支持声明

本发明是国防部授予的资助号为W81XWH-12-1-0285的政府资助项目。政府对该发明享有某些权利。

背景技术

肿瘤不断地将DNA流入到循环中，在那里可以轻易地获得 (Stroun et al.(1987)EurJCancer Clin Oncol 23:707-712)。分析此类源于癌症的无细胞DNA(cfDNA)具有使检测和监控癌症发生革命性变化的潜力。对实体瘤而言，非侵害性的获取恶性DNA尤其具有吸引力，实体瘤不能不用侵害性的方法进行反复取样。对非小细胞肺癌 (NSCLC)而言，之前使用基于PCR的测试检测血浆DNA中的基因复发点，例如KRAS或EGFR的突变(Taniguchiet al.(2011)Clin.Cancer Res.17:7808-7815；Gautschi et al.(2007)CancerLett.254:265-273； Kuang et al.(2009)Clin.Cancer Res.15:2630-2636；Rosell etal.(2009) N.Engl.J.Med.361:958-967)，但是绝大多数患者缺乏这些基因的突变。

其他研究建议通过全基因组测序(WGS)接着再进行cfDNA断点qPCR，鉴别特定患者肿瘤中的染色体重排(Leary et al.(2010)Sci. Transl.Med.2:20ra14；McBride etal.(2010)Genes Chrom.Cancer 49:1062-1069)。尽管灵敏，此类方法需要优化每位患者的分子测试，限制了其广泛地应用于临床。最近，有几个团队报道了用基于扩增子的深度测序方法可检测最多6个反复突变基因的cfDNA突变(Forshew et al.(2012)Sci.Transl.Med.4:136ra168；Narayan et al.(2012)Cancer Res.72:3492-3498；Kindeet al.(2011)Proc.Natl Acad.Sci.USA 108:9530-9535)。虽然很有效，但是这些方法受限于可测的突变的数量(Rachlin et al.(2005)BMC Genomics 6:102)和不能检测基因组融合体。

PCT国际专利申请公布No.2011/103236描述了用“配对”库在癌症患者中鉴别个体化肿瘤标志物的方法。这些方法受限于监控体细胞染色体重排，然而，必须对每位患者进行个体化测试，因此，限制了其应用并且增加了其成本。

美国专利申请公布No.2010/0041048A1描述了用“辐射 (BEAMing)”技术(Beads,Emulsion,Amplification,and Magnetics)对结直肠癌患者进行肿瘤特异性无细胞DNA的定量。尽管该技术具有高灵敏度和特异性，但是该方法是针对单一突变，因此仅可将任一特定的测试应用于患者子集和/或需要针对特定患者进行优化。美国专利申请公布No.2012/0183967A1描述了鉴别和对基因变异进行定量的另外方法，包括用“辐射”技术分析DNA群体中的次要变体。

美国专利申请公布No.2012/0214678A1描述了检测胎儿核酸及确定在母体样品中循环的无细胞胎儿核酸分数的方法和组合物。虽然灵敏，这些方法对出现在母体和胎儿核酸之间的多态性进行分析，而不是对产生于肿瘤细胞中的体细胞突变的多态性进行分析。另外，这些检测母体血液循环中的胎儿核酸的方法比检测癌症患者血液循环中肿瘤核酸的方法需要少得多的灵敏度，因为胎儿核酸的量比肿瘤核酸的量要多得多。

美国专利申请公布Nos.2012/0237928A1及2013/0034546描述了测定包含核酸混合物的受试样品中的有关序列的拷贝数变化的方法。虽然极可能应用于癌症的分析，这些方法涉及测定核酸中重大结构变化例如易位、缺失和扩增，而不是单一的核苷酸变化。

美国专利申请公布No.2012/0264121A1描述了估测基因组分数，例如胎儿分数，多态性如小基数变化或插入物缺失的方法。然而，这些方法不使用已优化的多态性文库，例如，包含反复突变的基因组区域的库。

美国专利申请公布No.2013/0024127A1描述了用计算机计算混合样品中主要来源和次要来源中无细胞核酸百分比贡献的方法。然而，这些方法在鉴别或将已优化的多态性文库用于分析上不具有任何优势。

PCT国际公布号WO 2010/141955 A2描述了通过分析从患者那里获得的样品的基因嵌板及确定该嵌板中的基因突变状态来检测癌症的方法。这些方法依靠相对小数量的已知癌症基因，然而，它们并不根据检测相关突变的有效性提供任何基因排序。另外，这些方法不能检测大多数实际癌症患者血浆样品中突变的存在。

因此，有对新的并且改进的检测及监控癌症患者中肿瘤相关核酸方法的需求。

发明内容

本发明提供了用于循环肿瘤DNA(ctDNA)例如，存在于个体血液中的、来源于肿瘤细胞DNA序列的高灵敏度分析的组合物和方法，包括生物信息学分析方法。本发明的这些方法可称作深度测序的癌症个体化概况分析(CAPP-Seq)。特别相关的肿瘤有实体瘤，包括但不限于癌、肉瘤、神经胶质瘤、淋巴瘤、黑素瘤等，尽管不排除血液癌，例如白血病。

本发明的方法将优化的库制备方法与多相生物信息学方法相结合，以设计DNA低聚核苷酸“选择子”群体，这些低聚核苷酸相应于目标癌症的反复突变区域。DNA低聚核苷酸选择子群体，它可称为选择子集合，包含用于多个基因组区域的探针，并且设计使得在多个基因组区域中的至少一种突变存在于大部分具有特定癌症的受试者中，并且在优选的实施方案中，大部分具有特定癌症的受试者中存在多个突变。

在本发明的某些实施方案中，提供了用于鉴别适合于具体肿瘤类型的选择子集合的方法。还提供了选择子集合的低聚核苷酸组合物，这些组合物可以依附于固体底物提供，标记用于亲和性筛选等；及包含此类选择子集合的试剂盒。包括但不限于，适用于非小细胞肺癌(NSCLC)分析的选择子集合。此类试剂盒可包含用于CAPP-Seq数据生物信息学分析的可执行指令。

在其他实施方案中，本发明提供了在诊断和监控个体患者癌症中使用选择子集合的方法。在此类实施方案中，选择子集合用于富集相应于最可能含有肿瘤特异性体细胞突变的基因组区域的ctDNA，例如通过杂交筛选。然后将“所筛选的”ctDNA扩增并测序，以确定在具体肿瘤中那些所筛选的基因组区域发生突变。最初将个体的种系 DNA序列和/或个体肿瘤活检样品任选进行比较。这些体细胞突变提供了区别ctDNA和种系DNA的方法，因此提供了关于个体中肿瘤细胞的存在和数量的有用信息。

在某些实施方案中，在一个或多个时间点，任选与治疗方案结合，测定了个体血液中或血液衍生物样品中的ctDNA含量。ctDNA 的存在与肿瘤负荷有关，可用于监控对疗法的响应，监控残余的疾病，监控转移的存在，监控总的肿瘤负荷等等。虽然没要求，对某些方法而言，CAPP-Seq可与肿瘤影像学方法，例如PET/CT扫描等联合进行。

在其他实施方案中，CAPP-Seq用于癌症筛查和无活检肿瘤基因型分型，其中患者ctDNA样品不用对照活检样品进行分析。在某些此类实施方案中，其中CAPP-Seq鉴别ctDNA样品中临床上可操作的靶标突变，这些方法包括提供适合于该靶标的疗法。此类突变包括但不限于，涉及致癌基因、受体酪氨酸激酶等的重排和其他突变。可操作的靶标可包括，例如ALK,ROS1,RET,EGFR,KRAS等。

CAPP-Seq方法可包括数据分析步骤，它可以作为计算机可执行的指令程序提供，并通过计算机中组装的软件元件进行。此类方法包括用于鉴别目标癌症的选择子集合的设计。提供用于当循环肿瘤DNA可在背景之上检测时确定并定量的其他生物信息学方法，例如使用将信息内容和突变类型整合到检测索引中的方法。

本文公开了一种通过检测个体体细胞突变在无细胞核酸 (cfNA)样品中确定肿瘤核酸(tNA)存在的方法。该方法可包含(a)获得 cfNA样品；(b)筛选序列相应于目标癌症多个突变区域的cfNA；(c)对所筛选的cfNA进行测序；(d)确定体细胞突变的存在，其中体细胞突变的存在可以指示个体中存在肿瘤细胞；及(e)为个体提供肿瘤细胞存在的评估。

无细胞核酸可以是无细胞DNA(cfDNA)。无细胞核酸可以是无细胞RNA(cfRNA)。无细胞核酸可以是无细胞DNA(cfDNA)和无细胞 RNA(cfRNA)的混合物。肿瘤核酸可以是源于肿瘤细胞的核酸。肿瘤核酸可以是肿瘤衍生的DNA(tDNA)。肿瘤核酸可以是循环肿瘤DNA(ctDNA)。肿瘤核酸可以是肿瘤衍生的RNA(tRNA)。肿瘤核酸可以是循环肿瘤RNA(ctRNA)。肿瘤核酸可以是肿瘤衍生的DNA和肿瘤衍生的RNA的混合物。肿瘤核酸可以是ctDNA和ctRNA的混合物。

筛选cfNA可包含(i)将无细胞核酸样品与多个含有特定结合元件的选择子集合探针杂交；(ii)将杂交的核酸与补充的特定结合元件结合；及(iii)洗掉未结合的DNA。

cfNA样品可与来源于个体的已知的肿瘤DNA序列比较。

cfNA样品可以重新进行存在体细胞突变的分析。

体细胞突变可包括单一核苷酸变化、插入、缺失、拷贝数目变化及重排。

多个突变区域可包含至少5,10,15,20,25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100,125,150,175或200个不同的基因组区域。多个突变区域可包含至少500个不同的基因组区域。多个突变基因组区域可包含总共100-500kb序列。

对目标癌症而言，患者群体中至少60％,65％,70％,72％,75％, 77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％的个体可存在至少一种体细胞突变。

目标癌症可以是白血病。目标癌症可以是实体瘤。癌症可以是恶性肿瘤。恶性肿瘤可以是腺癌或鳞状细胞癌。恶性肿瘤可以是非小细胞肺癌。

个体可以是事先未诊断出癌症。个体可以是正在进行癌症治疗。

在一段时间内可以获得个体的两个或更多个样品并比较残余疾病或肿瘤负荷。

所述方法可进一步包含按照肿瘤细胞存在的分析结果治疗个体。所述方法可进一步包含根据体细胞突变的检测结果治疗个体。

确定体细胞突变的存在可包含：(i)将cfDNA片段整合到所有体细胞SNVs中；(ii)进行位置特异性背景调节；及(iii)通过跨越选择子的背景等位基因的Monte Carlo取样，来评价统计学意义，其中步骤 (i)–(iii)作为计算机可执行的指令程序体现，并通过装载在计算机中的软件元件来进行。

所述方法可进一步包含通过比较特定cfDNA样品中的其丰度分数与组中的其丰度分数来分析插入和/或缺失。所述方法可进一步包含将丰度分数组合到单一Z-分数中。

所述方法可进一步包含整合不同的突变类型以评估肿瘤负荷量的重要性。

确定体细胞突变的存在可以通过下述方法鉴别基因组融合事件和断点：该方法包括:(i)鉴别不一致的读数；(ii)检测碱基对分辨率断点；及(iii)电子验证候选融合体，其中步骤(i)-(iii)作为计算机可执行的指令程序体现，并通过装载在计算机中的软件元件来进行。

确定体细胞突变的存在可包含下述步骤：(i)从单一cfDNA样品中获取等位基因频率并筛选高质量数据；(ii)测试特定的输入cfDNA 等位基因是否可与相应的成对种系等位基因明显不同；(iii)通过二项分布法组装cfDNA背景等位基因频率数据库；(iv)测试特定的输入等位基因在相同的位置上是否与cfDNA背景明显不同，并筛选具有预定阈值的平均背景频率的那些，及(v)通过离群分析从剩余背景噪音中辨别出肿瘤衍生的SNVs，其中步骤(i)-(v)可作为计算机可执行的指令程序体现，并通过装载在计算机中的软件元件来进行。

选择子集合探针可包含相应于突变的基因组区域的序列，该区域的鉴别方法包括，从可能在特定癌症中发生突变的一组基因组区域中辨别出多个基因组区域。

鉴别多个基因组区域可包含对多个基因组区域中的每个基因组区域而言，将基因组区域排序以使所有患有在该基因组区域中具有至少一种突变的、特定癌症的受试者的数量最大化。

鉴别多个基因组区域可包含：(i)筛选已知在目标癌症中是驱动子的基因以形成已知的驱动子池；(ii)从具有最高复发指数(RI)的已知驱动子中筛选外显子，与步骤(a)相比，能鉴别出至少一位新患者；并且不断重复直到无更多的外显子符合这些标准；(iii)在相关数据库中，用RI≥30及SNVs覆盖≥3的患者，鉴别已知驱动子的剩余外显子，在仅有1SNV的患者中产生最大的减少；并且不断重复直到无更多的外显子符合这些标准；(iv)用RI≥20重复步骤(b)；(v)加入之前预测庇护驱动子突变的其他基因的所有外显子；及(vi)对已知复发重排而言，加入在融合事件中最经常涉及的内含子及侧面外显子，其中步骤 (i)-(vi)作为计算机可执行的指令程序体现，并通过装载在计算机中的软件元件来进行。

目标癌症中的多个突变区域可选自表2中描述的区域。

权利要求27所述的方法，其中多个突变区域可包含表2中所述至少5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95, 或100个区域。

本文进一步公开了包含选择子集合探针的组合物。所述组合物可包含一组长度至少约25个核苷酸的选择子集合探针，包含具体的结合元件，及包含选自表2中所述至少100个区域的序列。

该组选择子探针可包含含表2的至少300个区域的序列的低聚核苷酸。该组选择子探针可包含含表2的至少500个区域的序列的低聚核苷酸。

本文进一步公开了无细胞DNA(cfDNA)群体。所述cfDNA群体可以是富集群体。所述cfDNA的富集群体可通过杂交筛选制备。杂交筛选可包含使用一种或多种选择子集合探针。所述选择子集合探针可附在固体的或半固体的支持物上。该支持物可包含阵列。所述支持物可包含珠。所述珠可以是涂覆的珠。所述珠可以是链酶亲和素珠。所述固体支持物可包含平整表面。所述固体支持物可包含载片。所述固体支持物可包含载玻片。

本文进一步公开了检测、诊断、预测或治疗筛选患有疾病或病症的受试者的方法。该方法可包含：(a)获得受试者无细胞DNA (cfDNA)样品的序列信息；及(b)用从(a)获得的序列信息检测样品中无细胞非种系DNA(cfNG-DNA)，其中所述方法能够检测可少于2％总 cfDNA的cfNG-DNA百分比。

所述方法能够检测可少于1.5％总cfDNA的ctDNA百分比。所述方法能够检测可少于1％总cfDNA的ctDNA百分比。所述方法能够检测可少于0.5％总cfDNA的ctDNA百分比。所述方法能够检测可少于 0.1％总cfDNA的ctDNA百分比。所述方法能够检测可少于0.01％总cfDNA的ctDNA百分比。所述方法能够检测可少于0.001％总cfDNA的 ctDNA百分比。所述方法能够检测可少于0.0001％总cfDNA的ctDNA 百分比。

样品可以是血浆或血清样品(汗液、呼吸、眼泪、唾液、尿、大便、羊水)。所述样品可以是脑脊液样品。在某些情况中，所述样品不是帕氏涂片(Pap smear)液样品。在某些情况中，所述样品不是囊肿液样品。在某些情况中，所述样品不是胰液样品。

所述序列信息可包含与至少10,20,30,40,100,200,或300个基因组区域相关的信息。所述基因组区域可包含基因、外显子区域、内含子区域、未翻译区域、未编码区域或其组合。所述基因组区域可包含外显子区域、内含子区域及未翻译区域中的两个或更多个。所述基因组区域可包含至少一个外显子区域和至少一个内含子区域。至少5％的所述基因组区域可包含内含子区域。至少约20％的所述基因组区域可包含外显子区域。

所述基因组区域可包含少于1.5兆碱基(Mb)的基因组。所述基因组区域可包含少于1Mb的基因组。所述基因组区域可包含少于500 千碱基(kb)的基因组。所述基因组区域可包含少于50,75,100或350kb 的基因组。所述基因组区域可包含100kb-300kb之间的基因组。

所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更多个包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于25,30,40,50,60,70,80,90,100或更多个包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于多个基因组区域的信息。

所述多个基因组区域可基于包含基因组区域的选择子集合，所述基因组区域包含癌症受试者群体的一个或多个受试者中存在的一种或多种突变。至少约5％,10％,15％,20％,25％,30％,35％,40％, 45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％的多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含癌症受试者群体的一个或多个受试者中存在的一种或多种突变。

所述选择子集合的基因组区域的全部大小可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150kb 的基因组。所述选择子集合的基因组区域的全部大小可以是100kb -300kb之间的基因组。

所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30, 40,50,60,70,80,90,100或更多个选自表2的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80, 90,100或更多个选自表6的基因组区域。所述选择子集合可包含1,2,3, 4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表7的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10, 15,20,25,30,40,50,60,70,80,90,100或更多个选自表8的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40, 50,60,70,80,90,100或更多个选自表9的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90, 100或更多个选自表10的基因组区域。所述选择子集合可包含1,2,3,4, 5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表11的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10, 15,20,25,30,40,50,60,70,80,90,100或更多个选自表12的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40, 50,60,70,80,90,100或更多个选自表13的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90, 100或更多个选自表14的基因组区域。所述选择子集合可包含1,2,3,4, 5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表15的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10, 15,20,25,30,40,50,60,70,80,90,100或更多个选自表16的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40, 50,60,70,80,90,100或更多个选自表17的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90, 100或更多个选自表18的基因组区域。在某些情况中，所述受试者不患有胰腺癌。

获得无细胞DNA样品的序列信息可包含进行大规模的平行测序。大规模的平行测序可在cfDNA样品中的cfDNA基因组子集中进行。所述基因组子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb), 350kb,300kb,250kb,200kb,或150kb的基因组。所述基因组的子集可包含100kb-300kb之间的基因组。

获得无细胞DNA样品的序列信息可包含使用单分子进行条形编码。使用单分子进行条形编码可包括将含有不同序列的条形码与 cfDNA样品中的核酸连接。

所述序列信息可包含属于衔接子的序列信息。所述序列信息可包含属于分子条形码的序列信息。所述序列信息可包含属于样品索引的序列信息。

所述方法可包含从受试者的两个或更多个样品中获得无细胞 DNA样品的测序信息。所述方法可包含从两个或更多个不同受试者中获得无细胞DNA样品的测序信息。所述两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可以是两个不同类型的样品。所述两个或更多个样品可以从处于相同时间点的受试者获得。所述两个或更多个样品可以从处于两个或更多个时间点的受试者获得。两个或更多个不同受试者的样品可以编入索引并在测序之前合并在一起。

使用序列信息可包含检测一种或多种突变。所述一种或多种突变可包含受试者基因组的所选区域中的一个或多个SNVs、插入/缺失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复、拷贝数变体或其组合。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的一种或多种。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。使用序列信息可包含检测受试者基因组的所选区域中的至少一个SNV、插入/缺失、拷贝数变体及重排。

在某些情况中，检测一种或多种突变不涉及进行数字PCR (dPCR)。

检测一种或多种突变可包含将运算法则应用于序列信息以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的至少约 60％癌症受试者中的一种或多种突变。

所述cfNG-DNA可源自于受试者中的肿瘤。所述方法可进一步包括基于检测cfNG-DNA来检测受试者中的癌症。所述方法可进一步包括基于检测cfNG-DNA来诊断受试者中的癌症。诊断癌症的灵敏度可为至少约50％,52％,55％,57％,60％,62％,65％,67％,70％,72％, 75％,77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％, 95％,96％,97％,或99％。诊断癌症的特异性可为至少约50％,52％, 55％,57％,60％,62％,65％,67％,70％,72％,75％,77％,80％,82％, 85％,87％,89％,90％,91％,92％,93％,94％,95％,96％,97％,或99％。所述方法可进一步包括基于检测cfNG-DNA来预测受试者中的癌症。预测癌症的灵敏度可为至少约50％,52％,55％,57％,60％,62％,65％, 67％,70％,72％,75％,77％,80％,82％,85％,87％,89％,90％,91％, 92％,93％,94％,95％,96％,97％,或99％。预测癌症的特异性可为至少约50％,52％,55％,57％,60％,62％,65％,67％,70％,72％,75％,77％, 80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％,96％, 97％,或99％。所述方法可进一步包括基于检测cfNG-DNA来确定受试者的治疗方案。所述方法可进一步包括基于检测cfNG-DNA给予受试者抗癌疗法。

所述cfNG-DNA可源自于受试者中的胎儿。所述方法可进一步包括基于检测cfNG-DNA来诊断胎儿中的疾病或病症。诊断胎儿中的疾病或病症的灵敏度可为至少约50％,52％,55％,57％,60％,62％, 65％,67％,70％,72％,75％,77％,80％,82％,85％,87％,89％,90％, 91％,92％,93％,94％,95％,96％,97％,或99％。诊断胎儿中的疾病或病症的特异性可为至少约50％,52％,55％,57％,60％,62％,65％,67％, 70％,72％,75％,77％,80％,82％,85％,87％,89％,90％,91％,92％, 93％,94％,95％,96％,97％,或99％。

所述cfNG-DNA可源自于受试者中的移植器官、细胞或组织。所述方法可进一步包括基于检测cfNG-DNA来诊断受试者中的器官移植排斥。诊断器官移植排斥的灵敏度可为至少约50％,52％,55％, 57％,60％,62％,65％,67％,70％,72％,75％,77％,80％,82％,85％, 87％,89％,90％,91％,92％,93％,94％,95％,96％,97％或99％。诊断器官移植排斥的特异性可为至少约50％,52％,55％,57％,60％,62％, 65％,67％,70％,72％,75％,77％,80％,82％,85％,87％,89％,90％, 91％,92％,93％,94％,95％,96％,97％,或99％。所述方法可进一步包括基于检测cfNG-DNA来预测受试者中的器官移植排斥风险。预测器官移植排斥风险的灵敏度可为至少约50％,52％,55％,57％,60％,62％, 65％,67％,70％,72％,75％,77％,80％,82％,85％,87％,89％,90％, 91％,92％,93％,94％,95％,96％,97％,或99％。预测器官移植排斥风险的特异性可为至少约50％,52％,55％,57％,60％,62％,65％,67％, 70％,72％,75％,77％,80％,82％,85％,87％,89％,90％,91％,92％, 93％,94％,95％,96％,97％,或99％。所述方法可进一步包括基于检测 cfNG-DNA为受试者确定免疫抑制疗法。所述方法可进一步包括基于检测cfNG-DNA给予受试者免疫抑制治疗。

本文进一步公开了诊断癌症的方法。所述方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信息，其中所述序列信息可源自于至少80％受癌症折磨的受试者群体的突变区域；及(b) 基于所述序列信息诊断受试者中的癌症，所述癌症选自肺癌、乳腺癌、结直肠癌和前列腺癌，其中所述方法的灵敏度为至少80％。

所述突变区域可包括总范围少于1.5Mb的基因组。所述突变区域可包括总范围少于1Mb的基因组。所述突变区域可包括总范围少于500kb的基因组。所述突变区域可包括总范围少于350kb的基因组。所述突变区域可包括总范围少于300kb的基因组。所述突变区域可包括总范围少于250kb的基因组。所述突变区域可包括总范围少于200 kb的基因组。所述突变区域可包括总范围少于150kb的基因组。所述突变区域可包括总范围少于100kb的基因组。所述突变区域可包括总范围少于50kb的基因组。所述突变区域可包括总范围少于40kb的基因组。所述突变区域可包括总范围少于30kb的基因组。所述突变区域可包括总范围少于20kb的基因组。所述突变区域可包括总范围少于10kb 的基因组。

所述突变区域可包括总范围在100kb-300kb之间的基因组。所述突变区域可包括总范围在5kb-200kb之间的基因组。所述突变区域可包括总范围在5kb-150kb之间的基因组。所述突变区域可包括总范围在5kb-100kb之间的基因组。所述突变区域可包括总范围在5kb -75kb之间的基因组。所述突变区域可包括总范围在1kb-50kb之间的基因组。

所述序列信息可源自于2个或更多个区域。所述序列信息可源自于3个或更多个区域。所述序列信息可源自于4个或更多个区域。所述序列信息可源自于5个或更多个区域。所述序列信息可源自于6个或更多个区域。所述序列信息可源自于7个或更多个区域。所述序列信息可源自于8个或更多个区域。所述序列信息可源自于9个或更多个区域。所述序列信息可源自于10个或更多个区域。所述序列信息可源自于20个或更多个区域。所述序列信息可源自于30个或更多个区域。所述序列信息可源自于40个或更多个区域。所述序列信息可源自于50 个或更多个区域。所述序列信息可源自于60个或更多个区域。所述序列信息可源自于70个或更多个区域。所述序列信息可源自于80个或更多个区域。所述序列信息可源自于90个或更多个区域。所述序列信息可源自于100个或更多个区域。

所述受癌症折磨的受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基因组图集(Cancer Genome Atlas)(TCGA)。

所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约60％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约70％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约80％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约90％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约95％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约99％受癌症折磨的受试者群体中。

所述序列信息可源自于至少65％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少70％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少75％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少80％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少85％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少90％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少95％受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于至少99％受癌症折磨的受试者群体中可能突变的区域。

获得所述序列信息可包括测序非编码区域。所述非编码区域可包含一种或多种lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。

或者，或另外，获得所述序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一种或多种外显子、内含子、未翻译区域，或其组合。

在某些情况中，至少所述区域之一不包含KRAS或EGFR。在某些情况中，至少所述区域中的两个不包含KRAS和EGFR。在某些情况中，至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中，至少所述区域中的两个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中，至少所述区域中的四个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。

所述方法可进一步包括基于测序信息检测该区域的突变。可基于检测突变诊断癌症。检测至少3种突变可提示有癌症。检测三个或更多个区域中的一种或多种突变可提示有癌症。

乳腺癌可以是BRCA1癌症。

所述方法的灵敏度可为至少85％,87％,90％,91％,92％,93％, 94％,95％,96％,97％,98％,或99％。

所述方法的特异性可为至少50％,52％,55％,57％,60％,62％, 65％,67％,70％,72％,75％,77％,80％,82％,85％,87％,90％,91％, 92％,93％,94％,95％,96％,97％,98％,或99％。

所述方法可进一步包括提供包含癌症诊断的计算机形成的报告。

本文进一步公开了确定有需要的受试者中病症或疾病的预测的方法。所述方法可包括(a)获得源自于受试者样品的无细胞基因组 DNA序列信息，其中所述序列信息可来自至少80％受病症折磨的受试者群体的突变区域；及(b)基于该序列信息确定受试者病症或疾病的预测。

所述突变区域可包含总范围少于1.5Mb的基因组。所述突变区域可包含总范围少于1Mb的基因组。所述突变区域可包含总范围少于 500kb的基因组。所述突变区域可包含总范围少于350kb的基因组。所述突变区域可包含总范围少于300kb的基因组。所述突变区域可包含总范围少于250kb的基因组。所述突变区域可包含总范围少于200 kb的基因组。所述突变区域可包含总范围少于150kb的基因组。所述突变区域可包含总范围少于100kb的基因组。所述突变区域可包含总范围少于50kb的基因组。所述突变区域可包含总范围少于40kb的基因组。所述突变区域可包含总范围少于30kb的基因组。所述突变区域可包含总范围少于20kb的基因组。所述突变区域可包含总范围少于10kb的基因组。

所述突变区域可包含总范围在100kb-300kb之间的基因组。所述突变区域可包含总范围在5kb-200kb之间的基因组。所述突变区域可包含总范围在5kb-150kb之间的基因组。所述突变区域可包含总范围在5kb-100kb之间的基因组。所述突变区域可包含总范围在5kb -75kb之间的基因组。所述突变区域可包含总范围在1kb-50kb之间的基因组。

所述受癌症折磨的受试者群体可以是来自一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基因组图集(TCGA)。

获得所述序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。

或者，或另外，获得所述序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译区域，或其组合。

在某些情况中，至少所述区域之一不包含KRAS或EGFR。在某些情况中，至少所述区域中的两个不包含KRAS和EGFR。在某些情况中，至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中，至少所述区域中的两个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2或BRCA1。在某些情况中，至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2或BRCA1。在某些情况中，至少所述区域中的四个不包含KRAS, EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。

所述方法可进一步包括基于测序信息检测所述区域的突变。预测病症或疾病可基于检测突变。检测至少3种突变可提示病症或疾病的结果。检测三个或更多个区域中的一种或多种突变可提示病症或疾病的结果。

所述病症可以是癌症。所述癌症可以是实体瘤。所述实体瘤可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌症。所述癌症可以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。

所述方法的灵敏度可为至少50％,52％,55％,57％,60％,62％, 65％,67％,70％,72％,75％,77％,80％,82％,85％,87％,90％,91％, 92％,93％,94％,95％,96％,97％,98％,或99％。

所述方法可进一步包含提供包括病症预测的由计算机形成的报告。

本文进一步公开了为受癌症折磨或易于患癌症的受试者诊断、预测或确定治疗方案的方法。所述方法可包括(a)获得受试者无细胞DNA样品中的基因组DNA选择区域的序列信息；(b)利用该序列信息确定所述选择区域中一种或多种突变的存在或者不存在，其中至少 70％受癌症折磨的受试者群体在所述区域具有突变；及(c)基于一种或多种突变的存在或者不存在，提供该受试者的诊断、预测或治疗方案报告。

所述选择区域可包含总范围少于1.5Mb的基因组。所述选择区域可包含总范围少于1Mb的基因组。所述选择区域可包含总范围少于 500kb的基因组。所述选择区域可包含总范围少于350kb的基因组。所述选择区域可包含总范围少于300kb的基因组。所述选择区域可包含总范围少于250kb的基因组。所述选择区域可包含总范围少于200 kb的基因组。所述选择区域可包含总范围少于150kb的基因组。所述选择区域可包含总范围少于100kb的基因组。所述选择区域可包含总范围少于50kb的基因组。所述选择区域可包含总范围少于40kb的基因组。所述选择区域可包含总范围少于30kb的基因组。所述选择区域可包含总范围少于20kb的基因组。所述选择区域可包含总范围少于10kb的基因组。

所述选择区域可包含总范围在100kb-300kb之间的基因组。所述选择区域可包含总范围在5kb-200kb之间的基因组。所述选择区域可包含总范围在5kb-150kb之间的基因组。所述选择区域可包含总范围在5kb-100kb之间的基因组。所述选择区域可包含总范围在5kb-75 kb之间的基因组。所述选择区域可包含总范围在1kb-50kb之间的基因组。

所述受癌症折磨的受试者群体可以是来自一个或多个数据库的受试者。所述一个或多个数据库可包括癌症基因组图集(TCGA)。

获得序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs或其组合。

或者，或另外，获得所述序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译区域或其组合。

检测至少3种突变可提示癌症的结果。检测至少4种突变可提示癌症的结果。检测至少5种突变可提示癌症的结果。检测至少6种突变可提示癌症的结果。

检测三个或更多个区域中的一种或多种突变可提示癌症的结果。检测四个或更多个区域中的一种或多种突变可提示癌症的结果。检测五个或更多个区域中的一种或多种突变可提示癌症的结果。检测六个或更多个区域中的一种或多种突变可提示癌症的结果。

所述癌症可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌症。所述癌症可以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。

所述诊断或预测癌症的方法的灵敏度可为至少50％,52％, 55％,57％,60％,62％,65％,67％,70％,72％,75％,77％,80％,82％, 85％,87％,90％,91％,92％,93％,94％,95％,96％,97％,98％,或 99％。所述诊断或预测癌症的方法的特异性可为至少50％,52％,55％, 57％,60％,62％,65％,67％,70％,72％,75％,77％,80％,82％,85％,87％,90％,91％,92％,93％,94％,95％,96％,97％,98％,或99％。

本发明可进一步包括给予受试者治疗药物。本发明可进一步包括修改治疗方案。修改治疗方案可包括停止治疗方案。修改治疗方案可包括增加治疗方案的剂量或频次。修改治疗方案可包括减少治疗方案的剂量或频次。修改治疗方案可包括启动治疗方案。

本文进一步公开了为治疗有需要的受试者病症而确定治疗区域的方法。所述方法可包括(a)获得来源于受试者样品的无细胞基因组DNA的序列信息，其中所述序列信息可源自于至少80％受病症折磨的受试者群体的突变区域；及(b)基于所述序列信息为受试者的病症确定治疗方案。

所述突变区域可包含总范围少于1.5Mb的基因组。所述突变区域可包含总范围少于1Mb的基因组。所述突变区域可包含总范围少于500kb的基因组。所述突变区域可包含总范围少于350kb的基因组。所述突变区域可包含总范围少于300kb的基因组。所述突变区域可包含总范围少于250kb的基因组。所述突变区域可包含总范围少于200 kb的基因组。所述突变区域可包含总范围少于150kb的基因组。所述突变区域可包含总范围少于100kb的基因组。所述突变区域可包含总范围少于50kb的基因组。所述突变区域可包含总范围少于40kb的基因组。所述突变区域可包含总范围少于30kb的基因组。所述突变区域可包含总范围少于20kb的基因组。所述突变区域可包含总范围少于10kb的基因组。

所述突变区域可包含总范围在100kb-300kb之间的基因组。所述突变区域可包含总范围在5kb-200kb之间的基因组。所述突变区域可包含总范围在5kb-150kb之间的基因组。所述突变区域可包含总范围在5kb-100kb之间的基因组。所述突变区域可包含总范围在5 kb-75kb之间的基因组。所述突变区域可包含总范围在1kb-50kb之间的基因组。

所述序列信息可源自于2个或更多个区域。所述序列信息可源自于3个或更多个区域。所述序列信息可源自于4个或更多个区域。所述序列信息可源自于5个或更多个区域。所述序列信息可源自于6 个或更多个区域。所述序列信息可源自于7个或更多个区域。所述序列信息可源自于8个或更多个区域。所述序列信息可源自于9个或更多个区域。所述序列信息可源自于10个或更多个区域。所述序列信息可源自于20个或更多个区域。所述序列信息可源自于30个或更多个区域。所述序列信息可源自于40个或更多个区域。所述序列信息可源自于50个或更多个区域。所述序列信息可源自于60个或更多个区域。所述序列信息可源自于70个或更多个区域。所述序列信息可源自于80 个或更多个区域。所述序列信息可源自于90个或更多个区域。所述序列信息可源自于100个或更多个区域。

所述序列信息可包含属于可存在于至少约60％受癌症折磨的受试者群体的至少一种突变的信息。所述序列信息可包含属于可存在于至少约70％受癌症折磨的受试者群体的至少一种突变的信息。所述序列信息可包含属于可存在于至少约80％受癌症折磨的受试者群体的至少一种突变的信息。所述序列信息可包含属于可存在于至少约 90％受癌症折磨的受试者群体的至少一种突变的信息。所述序列信息可包含属于可存在于至少约95％受癌症折磨的受试者群体的至少一种突变的信息。所述序列信息可包含属于可存在于至少约99％受癌症折磨的受试者群体的至少一种突变的信息。

获得序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,,或其组合。

所述方法可进一步包括基于测序信息检测所述区域的突变。确定治疗方案可基于所述突变的检测。

本文进一步公开了评估有需要的受试者中肿瘤负荷的方法。所述方法可包括(a)获得来源于受试者样品的无细胞核酸的序列信息； (b)用计算机可读的介质测定样品中循环肿瘤DNA(ctDNA)的量；(c) 基于所述ctDNA的量评估肿瘤负荷；及(d)向该受试者或该受试者的代表报告肿瘤负荷。

测定ctDNA的量可包括测定ctDNA的绝对量。测定ctDNA的量可包括测定ctDNA的相对量。测定ctDNA的量可通过计数属于该 ctDNA的序列读数来进行。测定ctDNA的量可通过定量PCR进行。测定ctDNA的量可通过数字PCR进行。测定ctDNA的量可包括计数该 ctDNA的测序读数。

测定ctDNA的量可通过该ctDNA的分子条形编码进行。 ctDNA的分子条形编码可包括将衔接子连接到该ctDNA的一个或多个末端。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链和单链部分。例如，所述衔接子可以是Y-型衔接子。所述衔接子可以是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将分子条形码与引物序列连接。接头序列可将样品索引与引物序列连接。

所述衔接子可包含分子条形码。所述分子条形码可包含随机序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作用最小化。所述分子条形码可优化以能够鉴别，即使具有扩增或测序错误。例如，第一个分子条形码的扩增可能引入单个碱基错误。所述第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因此，所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所述分子条形码可包含4-6个核苷酸。

所述衔接子可包含样品索引。所述样品索引可包含随机序列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化以能够鉴别，即使具有扩增或测序错误。例如，第一个样品索引的扩增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其他样品索引的单一碱基。因此，所述具有单一碱基错误的第一个样品索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述样品索引可包含4-6个核苷酸。

所述衔接子可包含引物序列。所述引物序列可以是PCR引物序列。所述引物序列可以是测序引物。

所述衔接子可与样品中的核酸的一个末端连接。所述核酸可以是DNA。所述DNA可以是无细胞DNA(cfDNA)。所述DNA可以是循环肿瘤DNA(ctDNA)。所述核酸可以是RNA。衔接子可与所述核酸的两端连接。衔接子可与单链核酸的一端或多端连接。衔接子可与双链核酸的一端或多端连接。

衔接子可通过连接反应与核酸连接。连接反应可以是平端连接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延长与核酸连接。衔接子可通过反转录与核酸连接。衔接子可通过杂交与核酸连接。衔接子可包含至少与核酸部分互补的序列。或者，在某些情况中，衔接子不包含与核酸互补的序列。

所述序列信息可包含与一个或多个基因组区域相关的信息。所述序列信息可包含与至少2,3,4,5,6,7,8,9,10,20,30,40,100,200, 300个基因组区域相关的信息。所述基因组区域可包含基因、外显子区域、内含子区域、未翻译区域、非编码区域或其组合。

所述基因组区域可包含外显子区域、内含子区域及未翻译区域中的两个或更多个。所述基因组区域可包含至少一个外显子区域及至少一个内含子区域。至少1％,2％,3％,4％,5％,6％,7％,8％,9％, 10％,15％,20％,或25％的基因组区域可包含内含子区域。至少1％, 2％,3％,4％,5％,6％,7％,8％,9％,10％,15％,20％,或25％的基因组区域可包含未翻译区域。至少约10％,15％,20％,25％,30％,35％,40％, 45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可包含外显子区域。至少少于约97％,95％,93％,90％,87％, 85％,83％,80％,75％,70％,65％,60％,55％,50％的基因组区域可包含外显子区域。

所述基因组区域可包含少于1.5兆碱基(Mb)的基因组。所述基因组区域可包含少于1Mb的基因组。

所述基因组区域可包含少于500千碱基(kb)的基因组。

所述基因组区域可包含少于350kb的基因组。所述基因组区域可包含少于300kb的基因组。所述基因组区域可包含少于250kb的基因组。所述基因组区域可包含少于200kb的基因组。所述基因组区域可包含少于150kb的基因组。所述基因组区域可包含少于100kb的基因组。所述基因组区域可包含少于50kb的基因组。所述基因组区域可包含少于40kb,30kb,20kb,或10kb的基因组。

所述基因组区域可包含在100kb-300kb之间的基因组。所述基因组区域可包含在100kb-200kb之间的基因组。所述基因组区域可包含在10kb-300kb之间的基因组。所述基因组区域可包含在10 kb-300kb之间的基因组。所述基因组区域可包含在10kb-200kb之间的基因组。所述基因组区域可包含在10kb-150kb之间的基因组。所述基因组区域可包含在10kb-100kb之间的基因组。所述基因组区域可包含在10kb-75kb之间的基因组。所述基因组区域可包含在5kb-70kb之间的基因组。所述基因组区域可包含在1kb-50kb之间的基因组。

所述序列信息可包含属于包含多个基因组区域的选择子集合的1,2,3,4,5,6,7,8,9,10,15,20或更多个基因组区域的信息。所述序列信息可包含属于包含多个基因组区域的选择子集合的25,30,40, 50,60,70,80,90,100或更多个基因组区域的信息。

所述序列信息可包含属于多个基因组区域的信息。

所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一种或多种突变。至少约5％,10％,15％,20％,25％,30％,35％,40％, 45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％的多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一种或多种突变。

所述选择子集合基因组区域的总范围可包含少于1.5兆碱基 (Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150kb的基因组。所述选择子集合基因组区域的总范围可以是在100kb-300kb 的基因组。

所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,40,50,60,70,80,90,100或更多个来自表2的基因组区域。

获得序列信息可包括进行大规模的平行测序。大规模的平行测序可在样品的无细胞核酸基因组子集中进行。

所述基因组子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基 (kb),350kb,300kb,250kb,200kb,150kb,100kb,75kb,50kb,40kb, 30kb,20kb,10kb,或5kb的基因组。所述基因组子集可包含在100 kb-300kb之间的基因组。所述基因组子集可包含在100kb-200kb之间的基因组。所述基因组子集可包含在10kb-300kb之间的基因组。所述基因组子集可包含在10kb-200kb之间的基因组。所述基因组子集可包含在10kb-100kb之间的基因组。所述基因组子集可包含在5 kb-100kb之间的基因组。所述基因组子集可包含在5kb-70kb之间的基因组。所述基因组子集可包含在1kb-50kb之间的基因组。

所述方法可包括从受试者的两个或更多个样品中获得无细胞DNA样品的测序信息。所述方法可包括从两个或更多个受试者的两个或更多个样品中获得无细胞DNA样品的测序信息。所述两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可以是两种不同类型的样品。所述两个或更多个样品可以在相同时间点获得。所述两个或更多个样品可以在两个或更多个时间点获得。

测定ctDNA的量可包括检测一种或多种突变。测定ctDNA的量可包括检测两种或更多种不同类型的突变。突变的类型包括，但不限于在受试者基因组的选定区域中的SNVs、插入/缺失、融合、断点、结构变体、串联重复序列的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复，或其组合。测定ctDNA 的量可包括检测受试者基因组的选定区域中的SNVs、插入/缺失、拷贝数变体，及重排中的一种或多种。测定ctDNA的量可包括检测受试者基因组的选定区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。测定ctDNA的量可包括检测受试者基因组的选定区域中的至少一个SNV、插入/缺失、拷贝数变体及重排。

在某些情况中，测定ctDNA的量包括进行数字PCR(dPCR)。测定ctDNA的量可包括将运算法则应用于所述序列信息中以测定选择子集合中一个或多个基因组区域的量。

所述选择子集合可包含多个基因组区域，该区域包含存在于癌症受试者群体的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个基因组区域，该区域包含存在于癌症受试者群体的一个或多个癌症受试者中的两种或更多种不同类型的突变。所述选择子集合可包含多个基因组区域，该区域包含存在于癌症受试者群体的至少约60％癌症受试者中的一种或多种突变。

所述受试者的代表可以是健康护理提供者。所述健康护理提供者可以是护士、医生、医疗技师或医院工作人员。所述受试者的代表可以是该受试者的家庭成员。所述受试者的代表可以是该受试者的法定监护人。

本文进一步公开了确定受试者体内癌症疾病状态的方法。所述方法可包括(a)获得受试者样品中的循环肿瘤DNA(ctDNA)的量； (b)获得受试者肿瘤的体积；及(c)基于ctDNA的量与肿瘤体积的比率确定受试者癌症的疾病状态。高ctDNA-体积比可提示影像学上隐藏的疾病。低ctDNA-体积比可提示非恶性状态。

所述方法可进一步包括基于ctDNA的量与肿瘤体积的比率修改癌症的诊断或预测。所述方法可包括基于ctDNA的量与肿瘤体积的比率诊断癌症所处的阶段。修改诊断可包括基于ctDNA的量与肿瘤体积的比率改变癌症所处的阶段。例如，受试者可能诊断出患有III期癌症。然而，低ctDNA量-肿瘤体积比可导致将癌症的诊断调整到I期或 II期癌症。修改癌症的预测可包括改变癌症预测的结果或状态。例如，医生可能基于肿瘤的体积预测受试者体内的癌症处于减轻状态。然而，高ctDNA量-肿瘤体积比可产生癌症复发的预测。

获得肿瘤体积可包括获得肿瘤的影像。获得肿瘤体积可包括获得肿瘤的CT扫描。

获得ctDNA量可包括PCR。获得ctDNA量可包括数字PCR。获得ctDNA量可包括定量PCR。

获得ctDNA量可包括获得ctDNA的测序信息。所述测序信息可包括与基于选择子集合的一个或多个基因组区域相关的信息。

获得ctDNA量可包括ctDNA与阵列的杂交。所述阵列可包括多个基于选择子集合的一个或多个基因组区域的选择性杂交的探针。所述选择子集合可包括来自表2的一个或多个基因组区域。所述选择子集合可包括包含一种或多种突变的一个或多个基因组区域，其中所述一种或多种突变可存在于患癌症受试者群体中。所述选择子集合可包括包含多种突变的多个基因组区域，其中所述多种突变可存在于至少60％的患癌症受试者群体中。

本文进一步公开了检测有需要的受试者I期癌症的方法。所述方法可包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA可基于包含多个基因组区域的选择子集合；(b)用计算机可读媒介物测定无细胞DNA的量；及(c)基于无细胞DNA的量检测样品的I期癌症。

测定无细胞DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞 DNA的量可通过定量PCR测定。

测定无细胞DNA(cfDNA)的量可通过cfDNA的分子条形编码进行。cfDNA的分子条形编码可包括将衔接子与cfDNA的一个或多个末端连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链和单链部分。例如，所述衔接子可以是Y-型衔接子。所述衔接子可以是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将分子条形码与引物序列连接。接头序列可将样品索引与引物序列连接。

衔接子可与cfDNA的一个末端连接。衔接子可与cfDNA的两端连接。衔接子可与单链cfDNA的一端或多端连接。衔接子可与双链 cfDNA的一端或多端连接。

衔接子可通过连接反应与cfDNA连接。连接反应可以是平端连接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延长与cfDNA连接。衔接子可通过反转录与cfDNA连接。衔接子可通过杂交与cfDNA连接。衔接子可包含至少与cfDNA部分互补的序列。或者，在某些情况中，衔接子不包含与cfDNA互补的序列。

测序可包括大规模平行测序。测序可包括鸟枪法测序。

所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100个或更多个来自表2的基因组区域。

所述选择子集合中的至少20％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多的基因组区域可基于表2的基因组区域。

所述多个基因组区域可包含存在于至少60％,62％,65％,67％, 70％,72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或 99％或更多患癌症的受试者群体中的一种或多种突变。

所述选择子集合的多个基因组区域的总范围可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述选择子集合的多个基因组区域的总范围可包含少于100kb,90kb,80kb,70kb,60kb,50kb,40kb,30kb,20kb,10kb, 5kb,或1kb的基因组。

所述选择子集合的多个基因组区域的总范围可以是100 kb-300kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是100kb-200kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是10kb-300kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是10kb-200kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是10kb-100kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是5kb-100kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是5 kb-75kb之间的基因组。所述选择子集合的多个基因组区域的总范围可以是5kb-50kb之间的基因组。

所述检测I期癌症的方法的灵敏度可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测I期癌症的方法的灵敏度可至少为60％。所述检测I期癌症的方法的灵敏度可至少为70％。所述检测I期癌症的方法的灵敏度可至少为80％。所述检测I期癌症的方法的灵敏度可至少为90％。所述检测I期癌症的方法的灵敏度可至少为95％。

所述检测I期癌症的方法的特异性可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测I期癌症的方法的特异性可至少为60％。所述检测I期癌症的方法的特异性可至少为70％。所述检测I期癌症的方法的特异性可至少为80％。所述检测I期癌症的方法的特异性可至少为90％。所述检测I期癌症的方法的特异性可至少为95％。

所述方法可检测至少50％,52％,55％,57％,60％,62％,65％, 70％,72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或更多的I期癌症。所述方法可检测至少50％或更多的I期癌症。所述方法可检测至少60％或更多的I期癌症。所述方法可检测至少70％或更多的 I期癌症。所述方法可检测至少75％或更多的I期癌症。

本文进一步公开了检测II期癌症的方法。所述方法可包括(a) 对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞 DNA可基于包含多个基因组区域的选择子集合；(b)用计算机可读媒介物测定无细胞DNA的量；及(c)基于无细胞DNA的量检测样品的II期癌症。

测序可包括大规模平行测序。测序可包括鸟枪法测序。

所述检测II期癌症的方法的灵敏度可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测II期癌症的方法的灵敏度可至少为60％。所述检测II期癌症的方法的灵敏度可至少为70％。所述检测II期癌症的方法的灵敏度可至少为80％。所述检测II期癌症的方法的灵敏度可至少为90％。所述检测II期癌症的方法的灵敏度可至少为95％。

所述检测II期癌症的方法的特异性可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测II期癌症的方法的特异性可至少为60％。所述检测II期癌症的方法的特异性可至少为70％。所述检测II期癌症的方法的特异性可至少为80％。所述检测II期癌症的方法的特异性可至少为90％。所述检测II期癌症的方法的特异性可至少为95％。

所述方法可检测至少50％,52％,55％,57％,60％,62％,65％, 70％,72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或更多的II期癌症。所述方法可检测至少50％或更多的II期癌症。所述方法可检测至少60％或更多的II期癌症。所述方法可检测至少70％或更多的II期癌症。所述方法可检测至少75％或更多的II期癌症。所述方法可检测至少80％或更多的II期癌症。所述方法可检测至少85％或更多的II期癌症。所述方法可检测至少90％或更多的II期癌症。

本文进一步公开了检测有需要的受试者III期癌症的方法。所述方法可包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA可基于包含多个基因组区域的选择子集合；(b)用计算机可读媒介物测定无细胞DNA的量；及(c)基于无细胞DNA的量检测样品的III期癌症。

测序可包括大规模平行测序。测序可包括鸟枪法测序。

所述检测III期癌症的方法的灵敏度可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测III期癌症的方法的灵敏度可至少为60％。所述检测III 期癌症的方法的灵敏度可至少为70％。所述检测III期癌症的方法的灵敏度可至少为80％。所述检测III期癌症的方法的灵敏度可至少为90％。所述检测III期癌症的方法的灵敏度可至少为95％。

所述检测III期癌症的方法的特异性可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测III期癌症的方法的特异性可至少为60％。所述检测III 期癌症的方法的特异性可至少为70％。所述检测III期癌症的方法的特异性可至少为80％。所述检测III期癌症的方法的特异性可至少为90％。所述检测III期癌症的方法的特异性可至少为95％。

所述方法可检测至少50％,52％,55％,57％,60％,62％,65％, 70％,72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或更多的III期癌症。所述方法可检测至少50％或更多的III期癌症。所述方法可检测至少60％或更多的III期癌症。所述方法可检测至少70％或更多的III期癌症。所述方法可检测至少75％或更多的III期癌症。所述方法可检测至少80％或更多的III期癌症。所述方法可检测至少85％或更多的III期癌症。所述方法可检测至少90％或更多的III期癌症。

本文进一步公开了检测有需要的受试者IV期癌症的方法。所述方法可包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA可基于包含多个基因组区域的选择子集合；(b)用计算机可读媒介物测定无细胞DNA的量；及(c)基于无细胞DNA的量检测样品的IV期癌症。

测序可包括大规模平行测序。测序可包括鸟枪法测序。

所述检测IV期癌症的方法的灵敏度可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测IV期癌症的方法的灵敏度可至少为60％。所述检测IV期癌症的方法的灵敏度可至少为70％。所述检测IV期癌症的方法的灵敏度可至少为80％。所述检测IV期癌症的方法的灵敏度可至少为90％。所述检测IV期癌症的方法的灵敏度可至少为95％。

所述检测IV期癌症的方法的特异性可至少为60％,65％,70％, 75％,77％,80％,82％,85％,87％,90％,92％,95％,97％,或99％或更高。所述检测IV期癌症的方法的特异性可至少为60％。所述检测IV期癌症的方法的特异性可至少为70％。所述检测IV期癌症的方法的特异性可至少为80％。所述检测IV期癌症的方法的特异性可至少为90％。所述检测IV期癌症的方法的特异性可至少为95％。

所述方法可检测至少50％,52％,55％,57％,60％,62％,65％, 70％,72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或更多的IV期癌症。所述方法可检测至少50％或更多的IV期癌症。所述方法可检测至少60％或更多的IV期癌症。所述方法可检测至少70％或更多的IV期癌症。所述方法可检测至少75％或更多的IV期癌症。所述方法可检测至少80％或更多的IV期癌症。所述方法可检测至少85％或更多的IV期癌症。所述方法可检测至少90％或更多的IV期癌症。

本文进一步公开了制备选择子集合的方法。所述方法可包括 (a)鉴别包含来自患癌症受试者群体的一个或多个受试者中的突变的基因组区域；(b)基于复发指数(RI)将基因组区域排序，其中所述基因组区域的RI通过将在所述基因组区域有突变的受试者或肿瘤数量除以所述基因组区域的大小测定；及(c)基于RI制备包含一个或多个基因组区域的选择子集合。

至少排序基因组区域的子集可为外显子区域。至少20％,2％, 30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％, 90％,95％,或97％的排序基因组区域可包含外显子区域。至少30％的排序基因组区域可包含外显子区域。至少40％的排序基因组区域可包含外显子区域。至少50％的排序基因组区域可包含外显子区域。至少 60％的排序基因组区域可包含外显子区域。少于97％,95％,92％,90％, 87％,85％,82％,80％,77％,75％,72％,70％,67％,65％,62％,60％, 57％,55％,52％,50％,45％,或40％的排序基因组区域可包含外显子区域。少于97％的排序基因组区域可包含外显子区域。少于92％的排序基因组区域可包含外显子区域。少于84％的排序基因组区域可包含外显子区域。少于75％的排序基因组区域可包含外显子区域。少于 65％的排序基因组区域可包含外显子区域。

至少选择子集合的基因组区域的子集可包含外显子区域。至少20％,2％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％, 80％,85％,90％,95％,或97％的选择子集合的基因组区域可包含外显子区域。至少30％的选择子集合的基因组区域可包含外显子区域。至少40％的选择子集合的基因组区域可包含外显子区域。至少50％的选择子集合的基因组区域可包含外显子区域。至少60％的选择子集合的基因组区域可包含外显子区域。少于97％,95％,92％,90％,87％,85％, 82％,80％,77％,75％,72％,70％,67％,65％,62％,60％,57％,55％, 52％,50％,45％,或40％的选择子集合的基因组区域可包含外显子区域。少于97％的选择子集合的基因组区域可包含外显子区域。少于 92％的选择子集合的基因组区域可包含外显子区域。少于84％的选择子集合的基因组区域可包含外显子区域。少于75％的选择子集合的基因组区域可包含外显子区域。少于65％的选择子集合的基因组区域可包含外显子区域。

至少排序基因组区域的子集可为内含子区域。至少20％,2％, 30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％, 90％,95％,或97％的排序基因组区域可包含内含子区域。至少30％的排序基因组区域可包含内含子区域。至少40％的排序基因组区域可包含内含子区域。至少50％的排序基因组区域可包含内含子区域。至少 60％的排序基因组区域可包含内含子区域。少于97％,95％,92％,90％, 87％,85％,82％,80％,77％,75％,72％,70％,67％,65％,62％,60％, 57％,55％,52％,50％,45％,或40％的排序基因组区域可包含内含子区域。少于97％的排序基因组区域可包含内含子区域。少于92％的排序基因组区域可包含内含子区域。少于84％的排序基因组区域可包含内含子区域。少于75％的排序基因组区域可包含内含子区域。少于 65％的排序基因组区域可包含内含子区域。

至少选择子集合的基因组区域的子集可包含内含子区域。至少20％,2％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％, 80％,85％,90％,95％,或97％的选择子集合的基因组区域可包含内含子区域。至少30％的选择子集合的基因组区域可包含内含子区域。至少40％的选择子集合的基因组区域可包含内含子区域。至少50％的选择子集合的基因组区域可包含内含子区域。至少60％的选择子集合的基因组区域可包含内含子区域。少于97％,95％,92％,90％,87％,85％, 82％,80％,77％,75％,72％,70％,67％,65％,62％,60％,57％,55％, 52％,50％,45％,或40％的选择子集合的基因组区域可包含内含子区域。少于97％的选择子集合的基因组区域可包含内含子区域。少于 92％的选择子集合的基因组区域可包含内含子区域。少于84％的选择子集合的基因组区域可包含内含子区域。少于75％的选择子集合的基因组区域可包含内含子区域。少于65％的选择子集合的基因组区域可包含内含子区域。

至少排序基因组区域的子集可为未翻译区域。至少20％,2％, 30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％, 90％,95％,或97％的排序基因组区域可包含未翻译区域。至少30％的排序基因组区域可包含未翻译区域。至少40％的排序基因组区域可包含未翻译区域。至少50％的排序基因组区域可包含未翻译区域。至少 60％的排序基因组区域可包含未翻译区域。少于97％,95％,92％,90％, 87％,85％,82％,80％,77％,75％,72％,70％,67％,65％,62％,60％, 57％,55％,52％,50％,45％,或40％的排序基因组区域可包含未翻译区域。少于97％的排序基因组区域可包含未翻译区域。少于92％的排序基因组区域可包含未翻译区域。少于84％的排序基因组区域可包含未翻译区域。少于75％的排序基因组区域可包含未翻译区域。少于 65％的排序基因组区域可包含未翻译区域。

至少选择子集合的基因组区域的子集可包含未翻译区域。至少20％,2％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％, 80％,85％,90％,95％,或97％的选择子集合的基因组区域可包含未翻译区域。至少30％的选择子集合的基因组区域可包含未翻译区域。至少40％的选择子集合的基因组区域可包含未翻译区域。至少50％的选择子集合的基因组区域可包含未翻译区域。至少60％的选择子集合的基因组区域可包含未翻译区域。少于97％,95％,92％,90％,87％,85％, 82％,80％,77％,75％,72％,70％,67％,65％,62％,60％,57％,55％, 52％,50％,45％,或40％的选择子集合的基因组区域可包含未翻译区域。少于97％的选择子集合的基因组区域可包含未翻译区域。少于 92％的选择子集合的基因组区域可包含未翻译区域。少于84％的选择子集合的基因组区域可包含未翻译区域。少于75％的选择子集合的基因组区域可包含未翻译区域。少于65％的选择子集合的基因组区域可包含未翻译区域。

至少排序基因组区域的子集可为非编码区域。至少20％,2％, 30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％, 90％,95％,或97％的排序基因组区域可包含非编码区域。至少30％的排序基因组区域可包含非编码区域。至少40％的排序基因组区域可包含非编码区域。至少50％的排序基因组区域可包含非编码区域。至少 60％的排序基因组区域可包含非编码区域。少于97％,95％,92％,90％, 87％,85％,82％,80％,77％,75％,72％,70％,67％,65％,62％,60％, 57％,55％,52％,50％,45％,或40％的排序基因组区域可包含非编码区域。少于97％的排序基因组区域可包含非编码区域。少于92％的排序基因组区域可包含非编码区域。少于84％的排序基因组区域可包含非编码区域。少于75％的排序基因组区域可包含非编码区域。少于 65％的排序基因组区域可包含非编码区域。

至少选择子集合的基因组区域的子集可包含非编码区域。至少20％,2％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％, 80％,85％,90％,95％,或97％的选择子集合的基因组区域可包含非编码区域。至少30％的选择子集合的基因组区域可包含非编码区域。至少40％的选择子集合的基因组区域可包含非编码区域。至少50％的选择子集合的基因组区域可包含非编码区域。至少60％的选择子集合的基因组区域可包含非编码区域。少于97％,95％,92％,90％,87％,85％, 82％,80％,77％,75％,72％,70％,67％,65％,62％,60％,57％,55％, 52％,50％,45％,或40％的选择子集合的基因组区域可包含非编码区域。少于97％的选择子集合的基因组区域可包含非编码区域。少于 92％的选择子集合的基因组区域可包含非编码区域。少于84％的选择子集合的基因组区域可包含非编码区域。少于75％的选择子集合的基因组区域可包含非编码区域。少于65％的选择子集合的基因组区域可包含非编码区域。

基于RI制备选择子集合可包括筛选复发指数在前第60、第 65、第70、第72、第75、第77、第80、第82、第85、第87、第90、第 92、第95，或第97或更高的百分位数的基因组区域。基于RI制备选择子集合可包括筛选复发指数在前第80或更高的百分位数的基因组区域。基于RI制备选择子集合可包括筛选复发指数在前第70或更高的百分位数的基因组区域。基于RI制备选择子集合可包括筛选复发指数在前第90或更高的百分位数的基因组区域。

制备选择子集合可进一步包括筛选导致在所述基因组区域具有一种突变的受试者数量最大减少的基因组区域。

制备选择子集合可包括将运算法则应用到排序的基因组区域的子集中。所述运算法则可应用2,3,4,5,6,7,8,9,10或更多次。所述运算法则可应用两次或更多次。所述运算法则可应用三次或更多次。

制备选择子集合可包括筛选可使选择子集合的每个受试者的突变中位数最大化的基因组区域。制备选择子集合可包括筛选可使选择子集合的受试者数最大化的基因组区域。

制备选择子集合可包括筛选可使所述基因组区域的总范围最小化的基因组区域。

所述选择子集合可包含属于多个基因组区域的信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述选择子集合可包含属于多个基因组区域的信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的1,2,3,4,5,6,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多种突变。所述选择子集合可包含属于多个基因组区域的信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的25,30,35,40,45,50,55,60,65,70,75,80, 85,90,95,100,110,120,130,140,150,160,170,180,190,200或更多种突变。

所述选择子集合可包含属于多个基因组区域的信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述多个基因组区域中的一种或多种突变可存在于至少1,2,3,4, 5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多个患有癌症的受试者中。所述多个基因组区域中的一种或多种突变可存在于至少25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120,130, 140,150,160,170,180,190,200或更多个患有癌症的受试者中。

所述选择子集合可包含属于多个基因组区域的信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体中的至少1％,2％,3％,4％,5％,6％,8％,9％,10％,11％,12％, 13％,14％,15％,16％,17％,18％,19％,20％或更多的受试者中。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体中的至少25％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％, 80％,85％,90％,95％或更多的受试者中。

所述选择子集合可包含属于多个基因组区域的序列信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述选择子集合可包含属于多个基因组区域的序列信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的1,2,3,4,5, 6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多种突变。所述选择子集合可包含属于多个基因组区域的序列信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,110,120,130,140,150,160,170,180, 190,200或更多种突变。

所述选择子集合可包含属于多个基因组区域的序列信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述多个基因组区域中的一种或多种突变可存在于至少1,2, 3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多个患有癌症的受试者中。所述多个基因组区域中的一种或多种突变可存在于至少25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120, 130,140,150,160,170,180,190,200或更多个患有癌症的受试者中。

所述选择子集合可包含属于多个基因组区域的序列信息，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体中的至少1％,2％,3％,4％,5％,6％,8％,9％,10％,11％, 12％,13％,14％,15％,16％,17％,18％,19％,20％或更多的受试者中。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体中的至少25％,30％,35％,40％,45％,50％,55％,60％,65％, 70％,75％,80％,85％,90％,95％或更多的受试者中。

所述选择子集合可包含属于多个基因组区域的基因组坐标，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述选择子集合可包含属于多个基因组区域的基因组坐标，所述基因组区域包含存在于至少一个患有癌症的受试者中的1,2, 3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多种突变。所述选择子集合可包含属于多个基因组区域的基因组坐标，所述基因组区域包含存在于至少一个患有癌症的受试者中的25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,170, 180,190,200或更多种突变。

所述选择子集合可包含属于多个基因组区域的基因组坐标，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述多个基因组区域中的一种或多种突变可存在于至少1, 2,3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多个患有癌症的受试者中。所述多个基因组区域中的一种或多种突变可存在于至少25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110, 120,130,140,150,160,170,180,190,200或更多个患有癌症的受试者中。

所述选择子集合可包含属于多个基因组区域的基因组坐标，所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突变。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体中的至少1％,2％,3％,4％,5％,6％,8％,9％,10％, 11％,12％,13％,14％,15％,16％,17％,18％,19％,20％或更多的受试者中。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体中的至少25％,30％,35％,40％,45％,50％,55％,60％,65％, 70％,75％,80％,85％,90％,95％或更多的受试者中。

所述选择子集合可包含含有一种或多种类型突变的基因组区域。所述选择子集合可包含含有两种或更多种类型突变的基因组区域。所述选择子集合可包含含有三种或更多种类型突变的基因组区域。所述选择子集合可包含含有四种或更多种类型突变的基因组区域。突变的类型可包括，但不限于单一核苷酸变体(SNVs)，插入/缺失(插入/缺失)，重排及拷贝数变体(CNVs)。

所述选择子集合可包含含有两种或更多种不同类型突变的基因组区域，所述突变类型选自由单一核苷酸变体(SNVs)，插入/缺失(插入/缺失)，重排及拷贝数变体(CNVs)组成的群组。所述选择子集合可包含含有三种或更多种不同类型突变的基因组区域，所述突变类型选自由单一核苷酸变体(SNVs)，插入/缺失(插入/缺失)，重排及拷贝数变体(CNVs)组成的群组。所述选择子集合可包含含有四种或更多种不同类型突变的基因组区域，所述突变类型选自由单一核苷酸变体(SNVs)，插入/缺失(插入/缺失)，重排及拷贝数变体(CNVs) 组成的群组。

所述选择子集合可包含含有至少一个SNV的基因组区域和含有至少一个其他类型突变的基因组区域。所述选择子集合可包含含有至少一个SNV的基因组区域和含有至少一个插入/缺失的基因组区域。所述选择子集合可包含含有至少一个SNV的基因组区域和含有至少一个重排的基因组区域。所述选择子集合可包含含有至少一个SNV 的基因组区域和含有至少一个CNV的基因组区域。

所述选择子集合可包含含有至少一个插入/缺失的基因组区域和含有至少一个其他类型突变的基因组区域。所述选择子集合可包含含有至少一个插入/缺失的基因组区域和含有至少一个SNV的基因组区域。所述选择子集合可包含含有至少一个插入/缺失的基因组区域和含有至少一个重排的基因组区域。所述选择子集合可包含含有至少一个插入/缺失的基因组区域和含有至少一个CNV的基因组区域。

所述选择子集合可包含含有至少一个重排的基因组区域。所述选择子集合可包含含有至少一个重排的基因组区域和含有至少一个其他类型突变的基因组区域。所述选择子集合可包含含有至少一个重排的基因组区域和含有至少一个SNV的基因组区域。所述选择子集合可包含含有至少一个重排的基因组区域和含有至少一个插入/缺失的基因组区域。所述选择子集合可包含含有至少一个重排的基因组区域和含有至少一个CNV的基因组区域。

所述选择子集合可包含含有至少一个CNV的基因组区域和含有至少一个其他类型突变的基因组区域。所述选择子集合可包含含有至少一个CNV的基因组区域和含有至少一个SNV的基因组区域。所述选择子集合可包含含有至少一个CNV的基因组区域和含有至少一个插入/缺失的基因组区域。所述选择子集合可包含含有至少一个 CNV的基因组区域和含有至少一个重排的基因组区域。

至少约1％,2％,3％,4％,5％,6％,7％,8％,9％,10％,11％,12％, 13％,14％,15％,16％,17％,18％,19％,或20％的所述选择子集合的基因组区域可包含SNV。至少约25％,30％,35％,40％,45％,50％,55％, 或60％的所述选择子集合的基因组区域可包含SNV。至少约10％的所述选择子集合的基因组区域可包含SNV。至少约15％的所述选择子集合的基因组区域可包含SNV。至少约20％的所述选择子集合的基因组区域可包含SNV。至少约30％的所述选择子集合的基因组区域可包含 SNV。至少约40％的所述选择子集合的基因组区域可包含SNV。至少约50％的所述选择子集合的基因组区域可包含SNV。至少约60％的所述选择子集合的基因组区域可包含SNV。

少于99％,98％,97％,95％,92％,90％,87％,85％,82％,80％, 77％,75％,72％,70％,67％,65％,62％,60％,57％,55％,52％,50％的所述选择子集合的基因组区域可包含SNV。少于97％的所述选择子集合的基因组区域可包含SNV。少于95％的所述选择子集合的基因组区域可包含SNV。少于90％的所述选择子集合的基因组区域可包含SNV。少于85％的所述选择子集合的基因组区域可包含SNV。少于77％的所述选择子集合的基因组区域可包含SNV。

所述选择子集合的基因组区域可包含约10％-约95％的SNVs。所述选择子集合的基因组区域可包含约10％-约90％的SNVs。所述选择子集合的基因组区域可包含约15％-约95％的SNVs。所述选择子集合的基因组区域可包含约20％-约95％的SNVs。所述选择子集合的基因组区域可包含约30％-约95％的SNVs。所述选择子集合的基因组区域可包含约30％-约90％的SNVs。所述选择子集合的基因组区域可包含约30％-约85％的SNVs。所述选择子集合的基因组区域可包含约 30％-约80％的SNVs。

至少约1％,2％,3％,4％,5％,6％,7％,8％,9％,10％,11％,12％, 13％,14％,15％,16％,17％,18％,19％,或20％的所述选择子集合的基因组区域可包含插入/缺失。至少约25％,30％,35％,40％,45％,50％, 55％,或60％的所述选择子集合的基因组区域可包含插入/缺失。至少约1％的所述选择子集合的基因组区域可包含插入/缺失。至少约3％的所述选择子集合的基因组区域可包含插入/缺失。至少约5％的所述选择子集合的基因组区域可包含插入/缺失。至少约8％的所述选择子集合的基因组区域可包含插入/缺失。至少约10％的所述选择子集合的基因组区域可包含插入/缺失。至少约15％的所述选择子集合的基因组区域可包含插入/缺失。至少约30％的所述选择子集合的基因组区域可包含插入/缺失。

少于99％,98％,97％,95％,92％,90％,87％,85％,82％,80％, 77％,75％,72％,70％,67％,65％,62％,60％,57％,55％,52％,50％的所述选择子集合的基因组区域可包含插入/缺失。少于97％的所述选择子集合的基因组区域可包含插入/缺失。少于95％的所述选择子集合的基因组区域可包含插入/缺失。少于90％的所述选择子集合的基因组区域可包含插入/缺失。少于85％的所述选择子集合的基因组区域可包含插入/缺失。少于77％的所述选择子集合的基因组区域可包含插入/缺失。

所述选择子集合的基因组区域可包含约10％-约95％的插入/ 缺失。所述选择子集合的基因组区域可包含约10％-约90％的插入/缺失。所述选择子集合的基因组区域可包含约10％-约85％的插入/缺失。所述选择子集合的基因组区域可包含约10％-约80％的插入/缺失。所述选择子集合的基因组区域可包含约10％-约75％的插入/缺失。所述选择子集合的基因组区域可包含约10％-约70％的插入/缺失。所述选择子集合的基因组区域可包含约10％-约60％的插入/缺失。所述选择子集合的基因组区域可包含约10％-约50％的插入/缺失。

至少约1％,2％,3％,4％,5％,6％,7％,8％,9％,10％,11％,12％, 13％,14％,15％,16％,17％,18％,19％,或20％的所述选择子集合的基因组区域可包含重排。至少约1％的所述选择子集合的基因组区域可包含重排。至少约2％的所述选择子集合的基因组区域可包含重排。至少约3％的所述选择子集合的基因组区域可包含重排。至少约4％的所述选择子集合的基因组区域可包含重排。至少约5％的所述选择子集合的基因组区域可包含重排。

至少约1％,2％,3％,4％,5％,6％,7％,8％,9％,10％,11％,12％, 13％,14％,15％,16％,17％,18％,19％,或20％的所述选择子集合的基因组区域可包含CNV。至少约25％,30％,35％,40％,45％,50％,55％, 或60％的所述选择子集合的基因组区域可包含CNV。至少约1％的所述选择子集合的基因组区域可包含CNV。至少约3％的所述选择子集合的基因组区域可包含CNV。至少约5％的所述选择子集合的基因组区域可包含CNV。至少约8％的所述选择子集合的基因组区域可包含 CNV。至少约10％的所述选择子集合的基因组区域可包含CNV。至少约15％的所述选择子集合的基因组区域可包含CNV。至少约30％的所述选择子集合的基因组区域可包含CNV。

少于99％,98％,97％,95％,92％,90％,87％,85％,82％,80％, 77％,75％,72％,70％,67％,65％,62％,60％,57％,55％,52％,50％的所述选择子集合的基因组区域可包含CNV。少于97％的所述选择子集合的基因组区域可包含CNV。少于95％的所述选择子集合的基因组区域可包含CNV。少于90％的所述选择子集合的基因组区域可包含CNV。少于85％的所述选择子集合的基因组区域可包含CNV。少于77％的所述选择子集合的基因组区域可包含CNV。

所述选择子集合的基因组区域可包含约5％-约80％的CNV。所述选择子集合的基因组区域可包含约5％-约70％的CNV。所述选择子集合的基因组区域可包含约5％-约60％的CNV。所述选择子集合的基因组区域可包含约5％-约50％的CNV。所述选择子集合的基因组区域可包含约5％-约40％的CNV。所述选择子集合的基因组区域可包含约5％-约35％的CNV。所述选择子集合的基因组区域可包含约5％-约 30％的CNV。所述选择子集合的基因组区域可包含约5％-约25％的 CNV。

所述选择子集合可用于受试者的样品的分类。所述选择子集合可用于受试者的2,3,4,5,6,7,8,9,10,11,12,13,14,或15或更多个样品的分类。所述选择子集合可用于受试者的两个或更多个样品的分类。

所述选择子集合可用于一个或多个受试者的一个或多个样品的分类。所述选择子集合可用于两个或更多个受试者的两个或更多个样品的分类。所述选择子集合可用于2,3,4,5,6,7,8,9,10,11,12, 13,14,15,16,17,18,19,或20或更多个受试者的多个样品的分类。

所述样品可以是相同类型的样品。所述样品可以是两种或更多种不同类型的样品。所述样品可以是血浆样品。所述样品可以是肿瘤样品。所述样品可以是种系样品。所述样品可包含肿瘤衍生的分子。所述样品可包含非肿瘤衍生的分子。

所述选择子集合可将样品分类为有肿瘤的。所述选择子集合可将样品分类为无肿瘤的。

所述选择子集合可以是个体化的选择子集合。所述选择子集合可用于诊断有需要的受试者的癌症。所述选择子集合可用于预测有需要的受试者的癌症状态或结果。所述选择子集合可用于确定有需要的受试者的癌症治疗方案。

或者，所述选择子集合可以是通用型选择子集合。所述选择子集合可用于诊断有需要的多个受试者的癌症。所述选择子集合可用于预测有需要的多个受试者的癌症状态或结果。所述选择子集合可用于确定有需要的多个受试者的癌症治疗方案。

所述多个受试者可包括5,10,15,20,25,30,35,40,50,60,70, 80,90,或100或更多个受试者。所述多个受试者可包括5或更多个受试者。所述多个受试者可包括10或更多个受试者。所述多个受试者可包括25或更多个受试者。所述多个受试者可包括50或更多个受试者。所述多个受试者可包括75或更多个受试者。所述多个受试者可包括 100或更多个受试者。

基于来自一个或多个受试者的一个或多个样品，所述选择子集合可用于将一个或多个受试者分类。所述选择子集合可用于将受试者按疗法的响应者分类。所述选择子集合可用于将受试者按疗法的非响应者分类。

所述选择子集合可用于设计多个低聚核苷酸。所述多个低聚核苷酸可选择性地与一个或多个由所述选择子集合识别的基因组区域杂交。至少两个低聚核苷酸可选择性地与一个基因组区域杂交。至少三个低聚核苷酸可选择性地与一个基因组区域杂交。至少四个低聚核苷酸可选择性地与一个基因组区域杂交。

所述多个低聚核苷酸中的低聚核苷酸的长度可以是至少约 10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或 100个核苷酸。低聚核苷酸的长度可以是至少约20个核苷酸。低聚核苷酸的长度可以是至少约30个核苷酸。低聚核苷酸的长度可以是至少约40个核苷酸。低聚核苷酸的长度可以是至少约45个核苷酸。低聚核苷酸的长度可以是至少约50个核苷酸。

所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于300,275,250,225,200,190,180,170,160,150,140,130,125,120, 115,110,105,100,95,90,85,80,75,或70个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于200个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于 110个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于100个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于80个核苷酸。

所述多个低聚核苷酸中的低聚核苷酸的长度可以是约20-200 个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约 20-170个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约20-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约20-130个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约20-120个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约30-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约30-120个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约40-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约40-120个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约50-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约50-120个核苷酸。

所述多个低聚核苷酸中的低聚核苷酸可与固体支持物相连接。所述固体支持物可以是珠。所述珠可以是涂覆的珠。所述珠可以是链酶亲和素涂覆的珠。所述固体支持物可以是阵列。所述固体支持物可以是载玻片。

本文进一步公开了制备个体化选择子集合的方法。该方法可包括(a)获得受试者肿瘤的基因型；(b)基于肿瘤的基因型识别包含一种或多种突变的基因组区域；及(c)制备包含至少一个基因组区域的选择子集合。

获得受试者肿瘤的基因型可包括对受试者的样品进行测序反应。测序可包括全基因组测序。测序可包括全外显子组(exome)测序。

测序可包括使用一个或多个衔接子。所述衔接子可与样品的一个或多个核酸连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链和单链部分。例如，所述衔接子可以是Y-型衔接子。所述衔接子可以是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将分子条形码与引物序列连接。接头序列可将样品索引与引物序列连接。

衔接子可与样品中核酸的一个末端连接。所述核酸可以是 DNA。该DNA可以是无细胞DNA(cfDNA)。该DNA可以是循环肿瘤 DNA(ctDNA)。该核酸可以是RNA。衔接子可与核酸的两端连接。衔接子可与单链核酸的一端或多端连接。衔接子可与双链核酸的一端或多端连接。

基于肿瘤的基因型识别包含一种或多种突变的基因组区域可包括确定包含所述一种或多种突变的基因组区域的共有序列。确定共有序列可基于衔接子。确定共有序列可基于所述衔接子的分子条形码部分。确定共有序列可包括分析属于分子条形码的序列读数。确定共有序列可包括基于所述分子条形码测定具有相同序列的序列读数的百分比。识别包含一种或多种突变的基因组区域可包括基于所述共有序列百分比制作基因组区域的清单。制作基因组区域的清单可包括基于分子条形码，筛选具有至少80％,82％,85％,87％,90％,91％,92％, 93％,94％,95％,96％,97％,98％,99％,或100％共有区的基因组区域。例如，可将序列信息编排到分子条形码族中(例如，具有相同分子条形码的序列被分在一组)。分析分子条形码族可揭示两个不同的序列。 1000个序列读数可能与第一序列相关，而10个序列读数可能与第二序列相关。显性序列(例如，第一序列)可具有99％的共有区(例如， (1000除以1010)乘以100％)。所述基因组区域清单可包含所述基因组区域的显性序列。所述基因组区域清单可包含基于分子条形码具有90％共有区的基因组区域。所述基因组区域清单可包含基于分子条形码具有95％共有区的基因组区域。所述基因组区域清单可包含基于分子条形码具有98％共有区的基因组区域。所述基因组区域清单可包含基于分子条形码具有100％序列共有区的基因组区域。识别包含一种或多种基于肿瘤基因型突变的基因组区域可包括制作按其序列共有区百分比排列的基因组区域清单。

识别包含一种或多种基于肿瘤基因型突变的基因组区域可包括计算所述基因组区域的丰度分数。识别包含一种或多种基于肿瘤基因型突变的基因组区域可包括从按其序列共有区百分比排列的基因组区域清单中计算所述基因组区域的丰度分数。丰度分数可通过属于具有一种或多种突变的基因组区域的序列读数数除以基因组区域的序列读数总数计算。例如，基因组区域可包含基因X的外显子2。属于基因组区域的序列读数总数可能是1000，其中100个序列读数在基因X的外显子2中有插入。所述在基因X的外显子2中有插入的基因组区域的丰度分数为0.1(例如，100个序列读数除以1000)。识别包含一种或多种基于肿瘤基因型突变的基因组区域可包括制作按其丰度分数排列的基因组区域清单。

制备选择子集合可包括从按其丰度分数排列的基因组区域清单中筛选一个或多个基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于50％,47％,45％,42％,40％,37％,35％,34％,33％, 31％,30％,29％,28％,27％,26％,25％,24％,23％,22％,21％,20％, 19％,18％,17％,16％,15％,14％,13％,12％,11％,10％,9％,8％,7％, 6％,5％,4％,3％,2％,或1％的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于37％的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于33％的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于30％的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于27％的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于25％的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数在约0.00001％-约35％之间的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数在约0.00001％-约30％之间的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数在约0.00001％-约27％之间的基因组区域。

所述选择子集合可包含至少1,2,3,4,5,6,7,8,9,10或更多个基因组区域。所述选择子集合可包含一个基因组区域。所述选择子集合可包含至少2个基因组区域。所述选择子集合可包含至少3个基因组区域。

所述选择子集合的基因组区域可包含一种或多种之前未识别的突变。所述选择子集合的基因组区域可包含2种或更多种之前未识别的突变。所述选择子集合的基因组区域可包含3种或更多种之前未识别的突变。所述选择子集合的基因组区域可包含4种或更多种之前未识别的突变。

所述基因组区域可包含一种或多种选自由SNVs，插入/缺失，重排及CNVs组成的群组的突变。所述基因组区域可包含两种或更多种选自由SNVs，插入/缺失，重排及CNVs组成的群组的突变。所述基因组区域可包含三种或更多种选自由SNVs，插入/缺失，重排及CNVs组成的群组的突变。所述基因组区域可包含四种或更多种选自由SNVs，插入/缺失，重排及CNVs组成的群组的突变。

所述基因组区域可包含选自由SNVs，插入/缺失，重排及 CNVs组成的群组的一种或多种类型突变。所述基因组区域可包含选自由SNVs，插入/缺失，重排及CNVs组成的群组的两种或更多种类型突变。所述基因组区域可包含选自由SNVs，插入/缺失，重排及 CNVs组成的群组的三种或更多种类型突变。所述基因组区域可包含选自由SNVs，插入/缺失，重排及CNVs组成的群组的四种或更多种类型突变。

本文进一步公开了用于本文公开的方法中的计算机可读媒介物。所述计算机可读媒介物可包括两个或更多个基因组区域的序列信息，其中(a)所述基因组区域可包含来自受癌症折磨的受试者群体的大于80％肿瘤中的一种或多种突变；(b)所述基因组区域代表小于1.5 Mb的基因组；及(c)下述中的一种或多种：(i)所述病症可能不是毛细胞白血病、卵巢癌、瓦尔登斯特伦巨球蛋白血症；(ii)基因组区域可包含至少一个受癌症折磨的受试者中的至少一种突变；(iii)所述癌症包括两种或更多种不同类型的癌症；(iv)所述两个或更多个基因组区域可衍生自两种或更多种不同的基因；(v)所述基因组区域可包含两种或更多种突变；或(vi)所述两个或更多个基因组区域可包含至少 10kb。

在某些情况中，所述病症不是毛细胞白血病。

所述基因组区域可包含来自受另一种类型癌症折磨的另外的受试者群体的大于60％肿瘤中的一种或多种突变。

所述基因组区域可衍生自2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个不同的基因。所述基因组区域可衍生自25,30,35,40,45,50,60,70,80,90,100或更多个不同的基因。

所述基因组区域可包含至少1,2,3,4,5,6,7,8,9,10,15,20, 25,30,35,40,45,或50kb。所述基因组区域可包含至少5kb。所述基因组区域可包含至少10kb。所述基因组区域可包含至少50kb。

所述序列信息可包含属于2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个基因组区域的基因组坐标。所述序列信息可包含属于25,30,35,40,45,50,55,60,65,70,75,80,85,90,95, 100或更多个基因组区域的基因组坐标。所述序列信息可包含属于125, 150,175,200,225,250,275,300,325,350,375,400,425,450,475,500 或更多个基因组区域的基因组坐标。

所述序列信息可包含属于2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个基因组区域的核酸序列。所述序列信息可包含属于25,30,35,40,45,50,55,60,65,70,75,80,85,90,95, 100或更多个基因组区域的核酸序列。所述序列信息可包含属于125, 150,175,200,225,250,275,300,325,350,375,400,425,450,475,500 或更多个基因组区域的核酸序列。

所述序列信息可包含2,3,4,5,6,7,8,9,10,11,12,13,14,15, 16,17,18,19,20或更多个基因组区域的长度。所述序列信息可包含25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,100或更多个基因组区域的长度。所述序列信息可包含125,150,175,200,225,250,275, 300,325,350,375,400,425,450,475,500或更多个基因组区域的长度。

本文进一步公开了用于本文所公开的方法和系统的组合物。所述组合物可包含一组与多个基因组区域选择性杂交的低聚核苷酸，其中(a)大于80％的来自于癌症受试者群体的肿瘤包括一种或多种所述基因组区域中的突变；(b)所述多个基因组区域代表小于1.5Mb的基因组；及(c)所述低聚核苷酸组可包含5个或更多个与多个基因组区域选择性杂交的不同的低聚核苷酸。

所述低聚核苷酸组中的低聚核苷酸可包含标签。所述标签可以是生物素。所述标签可以是标记。所述标记可以是荧光标记或染料。所述标签可以是衔接子。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表2中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,或525个表2中所识别那些中的区域。所述基因组区域可包含至少2个表2中所识别的那些区域。所述基因组区域可包含至少20个表2中所识别的那些区域。所述基因组区域可包含至少60个表2中所识别的那些区域。所述基因组区域可包含至少100个表2中所识别的那些区域。所述基因组区域可包含至少300个表2中所识别的那些区域。所述基因组区域可包含至少400个表2中所识别的那些区域。所述基因组区域可包含至少500个表2中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表2中所识别的区域。至少约5％的基因组区域可以是表2中所识别的区域。至少约10％的基因组区域可以是表2中所识别的区域。至少约20％的基因组区域可以是表2中所识别的区域。至少约30％的基因组区域可以是表2中所识别的区域。至少约40％的基因组区域可以是表2中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表6中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,550,600,650,700,750, 800,或830个表6中所识别的那些区域。所述基因组区域可包含至少2 个表6中所识别的那些区域。所述基因组区域可包含至少20个表6中所识别的那些区域。所述基因组区域可包含至少60个表6中所识别的那些区域。所述基因组区域可包含至少100个表6中所识别的那些区域。所述基因组区域可包含至少300个表6中所识别的那些区域。所述基因组区域可包含至少600个表6中所识别的那些区域。所述基因组区域可包含至少800个表6中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表6中所识别的区域。至少约5％的基因组区域可以是表6中所识别的区域。至少约10％的基因组区域可以是表6中所识别的区域。至少约20％的基因组区域可以是表6中所识别的区域。至少约30％的基因组区域可以是表6中所识别的区域。至少约40％的基因组区域可以是表6中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表7中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,125,150,175,200,225,250,275,300,325,350,375,400,425, 或450个表7中所识别的那些区域。所述基因组区域可包含至少2个表7 中所识别的那些区域。所述基因组区域可包含至少20个表7中所识别的那些区域。所述基因组区域可包含至少60个表7中所识别的那些区域。所述基因组区域可包含至少100个表7中所识别的那些区域。所述基因组区域可包含至少200个表7中所识别的那些区域。所述基因组区域可包含至少300个表7中所识别的那些区域。所述基因组区域可包含至少400个表7中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表7中所识别的区域。至少约5％的基因组区域可以是表7中所识别的区域。至少约10％的基因组区域可以是表7中所识别的区域。至少约20％的基因组区域可以是表7中所识别的区域。至少约30％的基因组区域可以是表7中所识别的区域。至少约40％的基因组区域可以是表7中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表8中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表8中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,或1050个表8中所识别的那些区域。所述基因组区域可包含至少2个表8中所识别的那些区域。所述基因组区域可包含至少20个表8 中所识别的那些区域。所述基因组区域可包含至少60个表8中所识别的那些区域。所述基因组区域可包含至少100个表8中所识别的那些区域。所述基因组区域可包含至少300个表8中所识别的那些区域。所述基因组区域可包含至少600个表8中所识别的那些区域。所述基因组区域可包含至少800个表8中所识别的那些区域。所述基因组区域可包含至少1000个表8中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表8中所识别的区域。至少约5％的基因组区域可以是表8中所识别的区域。至少约10％的基因组区域可以是表8中所识别的区域。至少约20％的基因组区域可以是表8中所识别的区域。至少约30％的基因组区域可以是表8中所识别的区域。至少约40％的基因组区域可以是表8中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表9中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表9中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1100,1200,1300,1400,或1500个表9中所识别的那些区域。所述基因组区域可包含至少2个表9中所识别的那些区域。所述基因组区域可包含至少20个表9中所识别的那些区域。所述基因组区域可包含至少60个表9中所识别的那些区域。所述基因组区域可包含至少100个表9中所识别的那些区域。所述基因组区域可包含至少300个表9中所识别的那些区域。所述基因组区域可包含至少500个表9中所识别的那些区域。所述基因组区域可包含至少1000个表9中所识别的那些区域。所述基因组区域可包含至少1300个表9中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表9中所识别的区域。至少约5％的基因组区域可以是表9中所识别的区域。至少约10％的基因组区域可以是表9中所识别的区域。至少约20％的基因组区域可以是表9中所识别的区域。至少约30％的基因组区域可以是表9中所识别的区域。至少约40％的基因组区域可以是表9中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表10中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表10中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,或330个表 10中所识别的那些区域。所述基因组区域可包含至少2个表10中所识别的那些区域。所述基因组区域可包含至少20个表10中所识别的那些区域。所述基因组区域可包含至少60个表10中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表10中所识别的区域。至少约5％的基因组区域可以是表10中所识别的区域。至少约10％的基因组区域可以是表10中所识别的区域。至少约20％的基因组区域可以是表10中所识别的区域。至少约30％的基因组区域可以是表10中所识别的区域。至少约40％的基因组区域可以是表10中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表11中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表11中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,或460个表11中所识别的那些区域。所述基因组区域可包含至少2个表11中所识别的那些区域。所述基因组区域可包含至少20个表11中所识别的那些区域。所述基因组区域可包含至少60 个表11中所识别的那些区域。所述基因组区域可包含至少100个表11 中所识别的那些区域。所述基因组区域可包含至少200个表11中所识别的那些区域。所述基因组区域可包含至少300个表11中所识别的那些区域。所述基因组区域可包含至少400个表11中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表11中所识别的区域。至少约5％的基因组区域可以是表11中所识别的区域。至少约10％的基因组区域可以是表11中所识别的区域。至少约20％的基因组区域可以是表11中所识别的区域。至少约30％的基因组区域可以是表11中所识别的区域。至少约40％的基因组区域可以是表11中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表12中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表12中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,460,480或500个表12中所识别的那些区域。所述基因组区域可包含至少2个表12中所识别的那些区域。所述基因组区域可包含至少20个表12中所识别的那些区域。所述基因组区域可包含至少60个表12中所识别的那些区域。所述基因组区域可包含至少100个表12中所识别的那些区域。所述基因组区域可包含至少200个表12中所识别的那些区域。所述基因组区域可包含至少300个表12中所识别的那些区域。所述基因组区域可包含至少400个表12中所识别的那些区域。所述基因组区域可包含至少500个表12中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表12中所识别的区域。至少约5％的基因组区域可以是表12中所识别的区域。至少约10％的基因组区域可以是表12中所识别的区域。至少约20％的基因组区域可以是表12中所识别的区域。至少约30％的基因组区域可以是表12中所识别的区域。至少约40％的基因组区域可以是表12中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表13中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表13中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1050,1100,1150,1200,1250,1300,1350,1400,或1450个表13 中所识别的那些区域。所述基因组区域可包含至少2个表13中所识别的那些区域。所述基因组区域可包含至少20个表13中所识别的那些区域。所述基因组区域可包含至少60个表13中所识别的那些区域。所述基因组区域可包含至少100个表13中所识别的那些区域。所述基因组区域可包含至少300个表13中所识别的那些区域。所述基因组区域可包含至少500个表13中所识别的那些区域。所述基因组区域可包含至少1000个表13中所识别的那些区域。所述基因组区域可包含至少1300 个表13中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表13中所识别的区域。至少约5％的基因组区域可以是表13中所识别的区域。至少约10％的基因组区域可以是表13中所识别的区域。至少约20％的基因组区域可以是表13中所识别的区域。至少约30％的基因组区域可以是表13中所识别的区域。至少约40％的基因组区域可以是表13中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表14中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表14中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1050,1100,1150,1200,1210,1220,1230,或1240个表14中所识别的那些区域。所述基因组区域可包含至少2个表14中所识别的那些区域。所述基因组区域可包含至少20个表14中所识别的那些区域。所述基因组区域可包含至少60个表14中所识别的那些区域。所述基因组区域可包含至少100个表14中所识别的那些区域。所述基因组区域可包含至少300个表14中所识别的那些区域。所述基因组区域可包含至少500个表14中所识别的那些区域。所述基因组区域可包含至少1000 个表14中所识别的那些区域。所述基因组区域可包含至少1100个表14 中所识别的那些区域。所述基因组区域可包含至少1200个表14中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表14中所识别的区域。至少约5％的基因组区域可以是表14中所识别的区域。至少约10％的基因组区域可以是表14中所识别的区域。至少约20％的基因组区域可以是表14中所识别的区域。至少约30％的基因组区域可以是表14中所识别的区域。至少约40％的基因组区域可以是表14中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表15中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,110,120,130,140,150,160,或170个表15中所识别的那些区域。所述基因组区域可包含至少2个表15中所识别的那些区域。所述基因组区域可包含至少20个表15中所识别的那些区域。所述基因组区域可包含至少60个表15中所识别的那些区域。所述基因组区域可包含至少100个表15中所识别的那些区域。所述基因组区域可包含至少120 个表15中所识别的那些区域。所述基因组区域可包含至少150个表15 中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表15中所识别的区域。至少约5％的基因组区域可以是表15中所识别的区域。至少约10％的基因组区域可以是表15中所识别的区域。至少约20％的基因组区域可以是表15中所识别的区域。至少约30％的基因组区域可以是表15中所识别的区域。至少约40％的基因组区域可以是表15中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表16中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表16中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1100,1200,1300,1400,1500,1600,1700,1800,1900,2000,或 2050个表16中所识别的那些区域。所述基因组区域可包含至少2个表 16中所识别的那些区域。所述基因组区域可包含至少20个表16中所识别的那些区域。所述基因组区域可包含至少60个表16中所识别的那些区域。所述基因组区域可包含至少100个表16中所识别的那些区域。所述基因组区域可包含至少300个表16中所识别的那些区域。所述基因组区域可包含至少500个表16中所识别的那些区域。所述基因组区域可包含至少1000个表16中所识别的那些区域。所述基因组区域可包含至少1200个表16中所识别的那些区域。所述基因组区域可包含至少 1500个表16中所识别的那些区域。所述基因组区域可包含至少1700 个表16中所识别的那些区域。所述基因组区域可包含至少2000个表16 中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表16中所识别的区域。至少约5％的基因组区域可以是表16中所识别的区域。至少约10％的基因组区域可以是表16中所识别的区域。至少约20％的基因组区域可以是表16中所识别的区域。至少约30％的基因组区域可以是表16中所识别的区域。至少约40％的基因组区域可以是表16中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表17中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表17中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1010,1020,1030,1040,1050,1060,1070,或1080个表17中所识别的那些区域。所述基因组区域可包含至少2个表17中所识别的那些区域。所述基因组区域可包含至少20个表17中所识别的那些区域。所述基因组区域可包含至少60个表17中所识别的那些区域。所述基因组区域可包含至少100个表17中所识别的那些区域。所述基因组区域可包含至少300个表17中所识别的那些区域。所述基因组区域可包含至少500个表17中所识别的那些区域。所述基因组区域可包含至少1000 个表17中所识别的那些区域。所述基因组区域可包含至少1050个表17 中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表17中所识别的区域。至少约5％的基因组区域可以是表17中所识别的区域。至少约10％的基因组区域可以是表17中所识别的区域。至少约20％的基因组区域可以是表17中所识别的区域。至少约30％的基因组区域可以是表17中所识别的区域。至少约40％的基因组区域可以是表17中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表18中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表18中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,460,480,500,520,540,或555个表18中所识别的那些区域。所述基因组区域可包含至少2个表18中所识别的那些区域。所述基因组区域可包含至少20个表18中所识别的那些区域。所述基因组区域可包含至少60个表18中所识别的那些区域。所述基因组区域可包含至少100个表18中所识别的那些区域。所述基因组区域可包含至少200个表18中所识别的那些区域。所述基因组区域可包含至少300 个表18中所识别的那些区域。所述基因组区域可包含至少400个表18 中所识别的那些区域。所述基因组区域可包含至少500个表18中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的基因组区域可以是表18中所识别的区域。至少约5％的基因组区域可以是表18中所识别的区域。至少约10％的基因组区域可以是表18中所识别的区域。至少约20％的基因组区域可以是表18中所识别的区域。至少约30％的基因组区域可以是表18中所识别的区域。至少约40％的基因组区域可以是表18中所识别的区域。

所述组的低聚核苷酸可与小于1.5,1.45,1.4,1.35,1.3,1.25, 1.2,1.15,1.1,1.05,或1.0兆碱基(Mb)的基因组杂交。所述组的低聚核苷酸可与小于1000,900,800,700,600,550,500,450,400,350,300, 250,200,150,或100kb的基因组杂交。所述组的低聚核苷酸可与小于 1.5兆碱基(Mb)的基因组杂交。所述组的低聚核苷酸可与小于1.25兆碱基(Mb)的基因组杂交。所述组的低聚核苷酸可与小于1兆碱基(Mb)的基因组杂交。所述组的低聚核苷酸可与小于1000kb的基因组杂交。所述组的低聚核苷酸可与小于500kb的基因组杂交。所述组的低聚核苷酸可与小于300kb的基因组杂交。所述组的低聚核苷酸可与小于100kb的基因组杂交。所述组的低聚核苷酸可有能力与大于50kb的基因组杂交。

所述组的低聚核苷酸能够与5,10,15,20,25,30,35,40,45, 50,60,70,80,90,100,150,200,250,300,350,400,450,或500或更多不同的基因组区域杂交。所述组的低聚核苷酸能够与5或更多不同的基因组区域杂交。所述组的低聚核苷酸能够与20或更多不同的基因组区域杂交。所述组的低聚核苷酸能够与50或更多不同的基因组区域杂交。所述组的低聚核苷酸能够与100或更多不同的基因组区域杂交。

所述多个基因组区域可包含2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,60,70,80,90,100或更多不同的蛋白质编码区域。所述蛋白质编码区域可包含外显子、内含子、未翻译区域或其组合。

所述多个基因组区域可包含2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,60,70,80,90,100或更多不同的非编码区域。所述非编码区域可包含非编码RNA、核糖体RNA(rRNA)、转移RNA(tRNA) 或其组合。

所述低聚核苷酸可与固体支持物连接。所述固体支持物可以是珠。所述珠可以是涂覆的珠。所述珠可以是链酶亲和素珠。所述固体支持物可以是阵列。所述固体支持物可以是载玻片。

本文公开了用于本文所公开的任一方法或系统中的循环肿瘤DNA(ctDNA)群体。循环肿瘤DNA(ctDNA)群体可包含通过杂种筛选富集的ctDNA，所述杂种筛选采用包含本文所公开的组的低聚核苷酸的任一组合物。ctDNA群体可包含通过所述ctDNA的选择性杂交富集的ctDNA，所述杂交采用基于本文所公开的选择子集合的低聚核苷酸组。ctDNA群体可包含通过选择性杂交富集的ctDNA，所述杂交采用基于表2和6-18中任一个的低聚核苷酸组。

本文进一步公开了用于本文所公开的任一方法和系统的阵列。所述阵列可包含多个低聚核苷酸以选择性地捕获基因组区域，其中所述基因组区域可包含存在于大于60％患癌症的受试者群体中的多个突变。

所述多个突变可存在于大于60％患另一类型癌症的另外的受试者群体中。所述多个突变可存在于大于60％患两种或更多种其他类型癌症的另外的受试者群体中。所述多个突变可存在于大于60％患三种或更多种其他类型癌症的另外的受试者群体中。所述多个突变可存在于大于60％患四种或更多种其他类型癌症的另外的受试者群体中。

所述低聚核苷酸组中的低聚核苷酸可包含标签。所述标签可以是生物素。所述标签可包含标记。所述标记可以是荧光标记或染料。所述标签可以是衔接子。所述衔接子可包含分子条形码。所述衔接子可包含样品索引。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表2中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,或525个表2中所识别的那些区域。所述基因组区域可包含至少2个表2中所识别的那些区域。所述基因组区域可包含至少20个表2中所识别的那些区域。所述基因组区域可包含至少60个表2中所识别的那些区域。所述基因组区域可包含至少100个表2中所识别的那些区域。所述基因组区域可包含至少300个表2中所识别的那些区域。所述基因组区域可包含至少400 个表2中所识别的那些区域。所述基因组区域可包含至少500个表2中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表2中所识别的区域。至少约5％的所述基因组区域可以是表 2中所识别的区域。至少约10％的所述基因组区域可以是表2中所识别的区域。至少约20％的所述基因组区域可以是表2中所识别的区域。至少约30％的所述基因组区域可以是表2中所识别的区域。至少约 40％的所述基因组区域可以是表2中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表6中所识别的区域。至少约5％的所述基因组区域可以是表 6中所识别的区域。至少约10％的所述基因组区域可以是表6中所识别的区域。至少约20％的所述基因组区域可以是表6中所识别的区域。至少约30％的所述基因组区域可以是表6中所识别的区域。至少约 40％的所述基因组区域可以是表6中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表7中所识别的区域。至少约5％的所述基因组区域可以是表 7中所识别的区域。至少约10％的所述基因组区域可以是表7中所识别的区域。至少约20％的所述基因组区域可以是表7中所识别的区域。至少约30％的所述基因组区域可以是表7中所识别的区域。至少约 40％的所述基因组区域可以是表7中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表8中所识别的区域。至少约5％的所述基因组区域可以是表 8中所识别的区域。至少约10％的所述基因组区域可以是表8中所识别的区域。至少约20％的所述基因组区域可以是表8中所识别的区域。至少约30％的所述基因组区域可以是表8中所识别的区域。至少约 40％的所述基因组区域可以是表8中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表9中所识别的区域。至少约5％的所述基因组区域可以是表 9中所识别的区域。至少约10％的所述基因组区域可以是表9中所识别的区域。至少约20％的所述基因组区域可以是表9中所识别的区域。至少约30％的所述基因组区域可以是表9中所识别的区域。至少约 40％的所述基因组区域可以是表9中所识别的区域。

所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表10中所识别的那些区域。所述基因组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表10中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,或330个表10 中所识别的那些区域。所述基因组区域可包含至少2个表10中所识别的那些区域。所述基因组区域可包含至少20个表10中所识别的那些区域。所述基因组区域可包含至少60个表10中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表10中所识别的区域。至少约5％的所述基因组区域可以是表10中所识别的区域。至少约10％的所述基因组区域可以是表10中所识别的区域。至少约20％的所述基因组区域可以是表10中所识别的区域。至少约30％的所述基因组区域可以是表10中所识别的区域。至少约40％的所述基因组区域可以是表10中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表11中所识别的区域。至少约5％的所述基因组区域可以是表11中所识别的区域。至少约10％的所述基因组区域可以是表11中所识别的区域。至少约20％的所述基因组区域可以是表11中所识别的区域。至少约30％的所述基因组区域可以是表11中所识别的区域。至少约40％的所述基因组区域可以是表11中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表12中所识别的区域。至少约5％的所述基因组区域可以是表12中所识别的区域。至少约10％的所述基因组区域可以是表12中所识别的区域。至少约20％的所述基因组区域可以是表12中所识别的区域。至少约30％的所述基因组区域可以是表12中所识别的区域。至少约40％的所述基因组区域可以是表12中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表13中所识别的区域。至少约5％的所述基因组区域可以是表13中所识别的区域。至少约10％的所述基因组区域可以是表13中所识别的区域。至少约20％的所述基因组区域可以是表13中所识别的区域。至少约30％的所述基因组区域可以是表13中所识别的区域。至少约40％的所述基因组区域可以是表13中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表14中所识别的区域。至少约5％的所述基因组区域可以是表14中所识别的区域。至少约10％的所述基因组区域可以是表14中所识别的区域。至少约20％的所述基因组区域可以是表14中所识别的区域。至少约30％的所述基因组区域可以是表14中所识别的区域。至少约40％的所述基因组区域可以是表14中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表15中所识别的区域。至少约5％的所述基因组区域可以是表15中所识别的区域。至少约10％的所述基因组区域可以是表15中所识别的区域。至少约20％的所述基因组区域可以是表15中所识别的区域。至少约30％的所述基因组区域可以是表15中所识别的区域。至少约40％的所述基因组区域可以是表15中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表16中所识别的区域。至少约5％的所述基因组区域可以是表16中所识别的区域。至少约10％的所述基因组区域可以是表16中所识别的区域。至少约20％的所述基因组区域可以是表16中所识别的区域。至少约30％的所述基因组区域可以是表16中所识别的区域。至少约40％的所述基因组区域可以是表16中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表17中所识别的区域。至少约5％的所述基因组区域可以是表17中所识别的区域。至少约10％的所述基因组区域可以是表17中所识别的区域。至少约20％的所述基因组区域可以是表17中所识别的区域。至少约30％的所述基因组区域可以是表17中所识别的区域。至少约40％的所述基因组区域可以是表17中所识别的区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述基因组区域可以是表18中所识别的区域。至少约5％的所述基因组区域可以是表18中所识别的区域。至少约10％的所述基因组区域可以是表18中所识别的区域。至少约20％的所述基因组区域可以是表18中所识别的区域。至少约30％的所述基因组区域可以是表18中所识别的区域。至少约40％的所述基因组区域可以是表18中所识别的区域。

所述低聚核苷酸可选择性地捕获5,10,15,20,25,或30或更多不同的基因组区域。

所述低聚核苷酸可与小于1.5,1.47,1.45,1.42,1.40,1.37,1.35, 1.32,1.30,1.27,1.25,1.22,1.20,1.17,1.15,1.12,1.10,1.07,1.05,1.02, 或1.0兆碱基(Mb)的基因组杂交。所述低聚核苷酸可与小于1000,900, 800,700,600,500,400,300,200,100,90,80,70,60,50,40,30,20,或 10kb的基因组杂交。

所述低聚核苷酸能够与大于1,2,3,4,5,6,7,8,9,10,15,20, 25,30,35,40,45,或50kb的基因组杂交。所述低聚核苷酸能够与大于 5kb的基因组杂交。所述低聚核苷酸能够与大于10kb的基因组杂交。所述低聚核苷酸能够与大于30kb的基因组杂交。所述低聚核苷酸能够与大于50kb的基因组杂交。

所述多个基因组区域可包含2个或更多个不同的蛋白质编码区域。所述多个基因组区域可包含至少3个不同的蛋白质编码区域。所述蛋白质编码区域可包含外显子、内含子、未翻译区域或其组合。

所述多个基因组区域可包含至少一个非编码区域。所述非编码区域可包含非编码RNA、核糖体RNA(rRNA)、转移RNA(tRNA) 或其组合。

本文进一步公开了测定循环肿瘤DNA(ctDNA)的量的方法。所述方法可包括(a)将一个或多个衔接子与源自于受试者样品的无细胞DNA(cfDNA)连接以生成一个或多个衔接子连接的cfDNA；(b)对所述一个或多个衔接子连接的cfDNA进行测序，其中所述待测序的衔接子连接的cfDNA基于包含多个基因组区域的选择子集合；及(c)基于从衔接子连接的cfDNA获得的测序信息，采用计算机可读媒介物测定来自肿瘤的cfDNA量。

在某些情况中，测序不包括全基因组测序。在某些情况中，测序不包括全外显子组测序。测序可包括大规模平行测序。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 或525个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表2中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约30％的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约 40％的所述选择子集合的基因组区域可以是表2中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 550,600,650,700,750,800,或830个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少600个表6 中所识别的那些区域。所述选择子集合的基因组区域可包含至少800 个表6中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约30％的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约 40％的所述选择子集合的基因组区域可以是表6中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,125,150,175,200,225,250,275,300, 325,350,375,400,425,或450个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表7 中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约30％的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约 40％的所述选择子集合的基因组区域可以是表7中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000,或1050个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表8 中所识别的那些区域。所述选择子集合的基因组区域可包含至少300 个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少600个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少800个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表8中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约30％的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约 40％的所述选择子集合的基因组区域可以是表8中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000,1100,1200,1300,1400,或 1500个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少1300个表9中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约30％的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约 40％的所述选择子集合的基因组区域可以是表9中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,或330个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表10中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表10中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,或460 个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表11中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表11中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480 或500个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表12中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表12中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1250,1300,1350,1400,或1450个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表13 中所识别的那些区域。所述选择子集合的基因组区域可包含至少500 个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少1300个表13中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表13中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1210,1220,1230,或1240个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少1100个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少1200个表14中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表14中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,或 170个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少120个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少150个表15中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表15中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1100,1200,1300,1400, 1500,1600,1700,1800,1900,2000,或2050个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表 16中所识别的那些区域。所述选择子集合的基因组区域可包含至少 300个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1200个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1500个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1700个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少2000个表16中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表16中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1010,1020,1030,1040, 1050,1060,1070,或1080个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少1050个表17中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约30％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表17中所识别的区域。

所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480, 500,520,540,或555个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表 18中所识别的那些区域。所述选择子集合的基因组区域可包含至少 500个表18中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表18中所识别的区域。

所述多个基因组区域可包含存在于至少60％,62％,65％,67％, 70％,72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或 99％或更多的患癌症受试者群体中的一种或多种突变。所述多个基因组区域可包含存在于至少60％或更多的患癌症受试者群体中的一种或多种突变。所述多个基因组区域可包含存在于至少72％或更多的患癌症受试者群体中的一种或多种突变。所述多个基因组区域可包含存在于至少80％或更多的患癌症受试者群体中的一种或多种突变。

所述多个选择子集合的基因组区域的总范围可包含小于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于1.5Mb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于1Mb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于500kb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于300kb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于100,90,80,70,60,50,40,30,20,10或5kb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于100kb 的基因组。所述多个选择子集合的基因组区域的总范围可包含小于75 kb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于 50kb的基因组。

所述多个选择子集合的基因组区域的总范围可为在100 kb-1000kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在100kb-500kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在100kb-300kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在5kb-500kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在5kb-300kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在5kb-200kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在1 kb-100kb之间的基因组。所述多个选择子集合的基因组区域的总范围可为在1kb-50kb之间的基因组。

本文进一步公开了制备测序文库的方法。所述方法可包括(a) 对源自于样品的无细胞DNA(cfDNA)进行扩增反应以产生多个扩增子，其中所述扩增反应可包括20个或更少的扩增周期；及(b)制备测序文库，所述文库包括多个扩增子。

所述扩增反应可包括19,18,17,16,15,14,13,12,11,或10个或更少的扩增周期。所述扩增反应可包括15个或更少的扩增周期。

所述方法可进一步包括将衔接子与cfDNA的一端或多端连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链和单链部分。例如，所述衔接子可以是Y-型衔接子。所述衔接子可以是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将分子条形码与引物序列连接。接头序列可将样品索引与引物序列连接。

衔接子可与样品中核酸的一个末端连接。所述核酸可以是 DNA。该DNA可以是无细胞DNA(cfDNA)。该DNA可以是循环肿瘤 DNA(ctDNA)。核酸可以是RNA。衔接子可与核酸的两端连接。衔接子可与单链核酸的一端或多端连接。衔接子可与双链核酸的一端或多端连接。

所述方法可进一步包括将cfDNA分段。所述方法可进一步包括cfDNA末端修复。所述方法可进一步包括将cfDNA A-加尾。

本文进一步公开了确定选择子集合统计学显著性的方法。所述方法可包括(a)检测来自于受试者的一个或多个样品中的一种或多种突变的存在，其中所述一种或多种突变可基于包括含所述一种或多种突变的基因组区域的选择子集合；(b)确定存在于样品中的一种或多种突变的突变类型；及(c)通过基于存在于所述一种或多种样品中的突变的突变类型的p值计算ctDNA检测指数，确定所述选择子集合的统计学显著性。

在某些情况中，如果在两个或更多个受试者样品中观察到重排，那么该ctDNA检测指数为0。至少所述两个或更多个样品之一可以是血浆样品。至少所述两个或更多个样品之一可以是肿瘤样品。所述重排可以是融合或断点。

在某些情况中，如果存在一种类型的突变，那么该ctDNA检测指数为所述一种类型的突变的p值。

在某些情况中，如果(i)样品中存在两种或更多种类型的突变； (ii)所述两种或更多种类型突变的p值小于0.1；及(iii)重排不是所述突变类型之一，那么该ctDNA检测基于所述两种或更多种突变的组合p 值计算。所述两种或更多种突变的p值可根据Fisher法组合。所述两种或更多种类型突变之一可以是SNV。该SNV的p值可以通过蒙特卡罗抽样法测定。所述两种或更多种类型突变之一可以是插入/缺失。

在某些情况中，如果(i)样品中存在两种或更多种类型的突变； (ii)至少所述两种或更多种类型突变之一的p值大于0.1；及(iii)重排不是所述突变类型之一，那么该ctDNA检测基于所述两种或更多种类型突变之一的p值计算。所述两种或更多种类型突变之一可以是SNV。该ctDNA检测指数可基于该SNV的p值计算。所述两种或更多种类型突变之一可以是插入/缺失。

本文进一步公开了识别一种或多种核酸中重排的方法。所述方法可包括(a)获得属于多个基因组区域的测序信息；(b)制作基因组区域的清单，其中所述基因组区域可与一个或多个候选物重排位点相邻或所述基因组区域可包含一个或多个候选物重排位点；及(c)将运算法则应用于该基因组区域清单以验证候选物重排位点，从而识别重排。

所述测序信息可包括比对文件。所述比对文件可包括配对末端(pair-end)读数、外显子坐标及对照基因组的比对文件。

所述测序信息可从数据库获得。该数据库可包含属于患疾病或病症的受试者群体的测序信息。所述疾病或病症可以是癌症。

所述测序信息可从一个或多个受试者的一个或多个样品中获得。

制作基因组区域清单可包括基于所述测序信息识别不一致的读数(read)对。所述不一致的读数对可以指读数及其配偶体，其中： (i)插入片段大小可不等于预计的数据集分布；或(ii)读数的作图方向可能是意料不到的。

制作基因组区域清单可包括基于所述测序信息将不一致的读数对分类。制作基因组区域清单可进一步包括将所述基因组区域排序。所述基因组区域可按不一致读数深度的递减顺序排序。

制作基因组区域清单可包括筛选具有最小用户定义的读数深度的基因组区域。

所述最小用户定义的读数深度可以是至少2x,3x,4x,5x,6x, 7x,8x,9x,10x或更多。

所述方法可进一步包括消除重复片段。

制作基因组区域清单可包括应用一种或多种运算法则。所述运算法则可正确地分析成对的读数，其中所述成对的读数之一可以被截以形成软-剪的(soft-clipped)读数。所述运算法则可基于模式分析软 -剪的读数。所述模式可基于跳过的碱基(skippedbases)的x值(Sx)和相邻的作图碱基(mapped bases)的y值(My)。所述模式可以是MySx或 SxMy。

应用所述运算法则验证候选物重排位点可包括删除读出频率小于2的候选物重排。应用所述运算法则验证候选物重排位点可包括基于其读出频率将候选物重排排序。

应用所述运算法则验证候选物重排位点可包括比较两种或更多种候选物重排的读数。应用所述运算法则验证候选物重排位点可包括将候选物重排识别为重排，如果两个或更多个读数具有序列排比。

应用所述运算法则验证候选物重排位点可包括评估读数间的一致性。评估读数间的一致性可包括将所述候选物重排位点的第一个测序读数分成多个长度为l的子序列。评估读数间的一致性可包括将所述候选物重排位点的第二个测序读数分成多个长度为l的子序列。评估读数间的一致性可包括比较所述第一个测序读数的子序列与所述第二个测序读数的子序列。如果可达到最小的匹配阈值，所述第一和第二个测序读数可以认为是一致的。

应用所述运算法则验证候选物重排位点可包括用计算机进行所述候选物重排位点的验证。用计算机验证可包括将所述候选物重排位点的测序读数与对照重排序列比对。所述对照重排序列可从对照基因组获得。候选物重排位点可被认为是重排，如果读数与对照重排序列定位的同一性至少为70％,75％,80％,85％,90％,95％,97％或更多。

候选物重排位点可被识别是重排，如果所述比对序列的长度可以是所述候选物重排位点读数长度的至少70％,75％,80％,85％, 90％,或95％或更多。

本文进一步公开了识别源自肿瘤的单一核苷酸变体(SNVs) 的方法。该方法可包括(a)获得患癌症的或怀疑患癌症的受试者样品； (b)对该样品进行测序反应以生成测序信息；(c)将运算法则应用于该测序信息以形成基于步骤(b)的测序信息的候选物肿瘤等位基因清单，其中候选物肿瘤等位基因可包含可能不是种系SNP的非显性碱基；及(d)基于所述候选物肿瘤等位基因清单识别源自肿瘤的SNVs。

制作候选物肿瘤等位基因清单可包括按其丰度分数将肿瘤等位基因排序。制作候选物肿瘤等位基因清单可包括筛选丰度分数为百分位数前第70、第75、第80、第85、第87、第90、第92、第95、或第97的肿瘤等位基因。制作候选物肿瘤等位基因清单可包括筛选丰度分数小于受试者样品中总等位基因的1％,0.9％,0.8％,0.7％,0.6％, 0.5％,0.4％,0.3％,0.2％,0.1％的肿瘤等位基因。

制作候选物肿瘤等位基因清单可包括按其测序深度将肿瘤等位基因排序。制作候选物肿瘤等位基因清单可包括筛选满足最小测序深度的肿瘤等位基因。所述最小测序深度可以是至少100x,200x, 300x,400x,500x,600x,700x,800x,900x,1000x或更多。

制作候选物肿瘤等位基因清单可包括计算肿瘤等位基因的链偏差百分比。制作候选物肿瘤等位基因清单可包括基于其链偏差百分比将肿瘤等位基因排序。制作候选物肿瘤等位基因清单可包括筛选具有用户定义的链偏差百分比的肿瘤等位基因。所述用户定义的链偏差百分比可小于或等于60％,65％,70％,75％,80％,85％,90％,95％, 或97％。

制作候选物肿瘤等位基因清单可包括将肿瘤等位基因序列与对照肿瘤等位基因相比。制作候选物肿瘤等位基因清单可进一步包括识别不同于对照肿瘤等位基因的肿瘤等位基因。

识别不同于对照肿瘤等位基因的肿瘤等位基因可包括采用一种或多种统计学分析。所述一种或多种统计学分析可包括采用 Bonferroni法计算肿瘤等位基因的Bonferroni校正二项式概率。

制作候选物肿瘤等位基因清单可包括基于Bonferroni校正二项式概率筛选肿瘤等位基因。候选物肿瘤等位基因的Bonferroni校正二项式概率可小于或等于3x10^-8,2.9x10^-8,2.8x10^-8,2.7x10^-8,2.6 x10^-8,2.5x10^-8,2.3x10^-8,2.2x10^-8,2.1x10^-8,2.09x10^-8,2.08x10^-8,2.07 x10^-8,2.06x10^-8,2.05x10^-8,2.04x10^-8,2.03x10^-8,2.02x10^-8,2.01x10^-8或2x10^-8。候选物肿瘤等位基因的Bonferroni校正二项式概率可小于或等于2.08x10^-8。

识别不同于对照肿瘤等位基因的肿瘤等位基因可进一步包括将Z检验应用于Bonferroni校正二项式概率以生成肿瘤等位基因的 Bonferroni校正单尾Z分数。Bonferroni校正单尾Z分数大于或等于6, 5.9,5.8,5.7,5.6,5.5.,5.4,5.3,5.2,5.1,或5.0的肿瘤等位基因可被认为与对照肿瘤等位基因不同。

所述样品可以是血液样品。所述样品可以是成对的样品。

本文进一步公开了制备选择子集合的方法。该方法可包括(a) 获得患癌症受试者肿瘤样品的测序信息；(b)将所述肿瘤样品的测序信息与该受试者的非肿瘤样品的测序信息比较以识别特定于该肿瘤样品测序信息的一种或多种突变；及(c)制备包含一个或多个基因组区域的选择子集合，所述基因组区域包含特定于该肿瘤样品测序信息的一种或多种突变。

所述选择子集合可包含属于一个或多个基因组区域的测序信息。所述选择子集合可包含属于一个或多个基因组区域的基因组坐标。

所述选择子集合可用于制备多个选择性地与一个或多个基因组区域杂交的低聚核苷酸。所述多个低聚核苷酸可以是生物素化的。

所述一种或多种突变可包括SNVs。所述一种或多种突变可包括插入/缺失。所述一种或多种突变可包括重排。

制备选择子集合可包括用本文所公开的方法识别源自肿瘤的SNVs。

制备选择子集合可包括用本文所公开的方法识别源自肿瘤的重排。

附图说明

图1：深度测序的癌症个体化概况分析(CAPP-Seq)的开发。(a) CAPP-Seq选择子的流程描述设计及其在评价循环肿瘤DNA上的应用。(b)NSCLC选择子的多阶段设计。阶段1：捕获含有NSCLC中已知 /可疑驱动子突变的基因组区域。阶段2-4：用来自TCGA的肺腺癌和鳞状细胞癌的WES数据加入含复发SNV的外显子(n＝407)。迭代筛选区域以使突变/肿瘤数最大化，而使选择子大小最小化。复发指数＝每 kb的外显子所覆盖的全部具有突变的独特患者。阶段5-6：加入预测的NSCLC驱动子的外显子和在涉及ALK,ROS1,和RET的重排中含断点的内含子/外显子。底部：在各设计阶段期间选择子长度的增加。(c) 分析TCGA WES组中由NSCLC选择子覆盖的SNV/肺腺癌数(训练； n＝229)及独立的肺腺癌WES数据集(验证；n＝183)。结果与从外显子组中随机取样的选择子比较(随机选择子和NSCLC选择子之差的P<1.0x10^-6)。(d)SNV/从来自TCGA的结肠(COAD)、直肠(READ)和子宫内膜样(UCEC)癌的三个腺癌的WES数据中由NSCLC选择子识别的患者数。

图2：分析性能。(a-c)血浆cfDNA的代表性CAPP-Seq分析的质量参数，包括所测序的cfDNA片段(a)的长度分布，选择子中所有基因组区域中的测序范围的深度(b)。(c)4个患者cfDNA样品中的测序深度变化。橙色被膜代表s.e.m.。(d)分析从13个NSCLC患者和5个健康个体收集的40个血浆cfDNA样品的背景比率。(e)分析d中的生物学背景，聚焦在来自之前报道的SnaPshot小组的107个复发体细胞突变。排除给定患者肿瘤中发现的突变。所有受试者的平均频率为～0.01％。单一异常值突变(TP53 R175H)由橙色菱形表示。(f)e中的个体突变按最多到最少复发排序，根据那40个cfDNA样品的平均频率。p-值阈值 0.01(水平线)相应于d中整个选择子背景的第99百分位数。(g)用 CAPP-Seq对突变体等位基因频率的预期值与实测值的稀释液系列分析。稀释液系列通过将成片段的HCC78 DNA加入到对照cfDNA中制备。(h)分析所考虑的SNV数对丰度分数估计值的影响(95％置信区间，以灰色表示)。(i)用小图h的数据分析所考虑的SNV数对预期的和实测的癌症分数(蓝色虚线)之间的平均相关系数的影响。显示了e-f 的95％置信区间。g的统计学变化显示为s.e.m。

图3：灵敏度和特异性分析。(a)来自预处理样品和健康对照的cfDNA样品的接受者操作特性(ROC)分析，分成所有期(n＝13个患者) 和II-IV期(n＝9个患者)。曲线下面积(AUC)值有统计学意义，P< 0.0001。Sn，灵敏度；Sp，特异性。(b)与a相关的原始数据。TP，真阳性；FP，假阳性；TN，真阴性；FN，假阴性。(c)由CT或PET/CT 测定的肿瘤体积与由CAPP-Seq测定的预处理样品(n＝9)ctDNA的pg /mL之间的一致性。患者P6和P9被排除，分别由于不能准确地评价肿瘤体积和与融合捕获相关的差别。值得注意的是，在非-log空间中进行线性回归；log-log轴和虚线对角线的目的仅为显示。

图4：循环肿瘤DNA的无创检测和监控。(a-h)用CAPP-Seq监控疾病。(a-b)响应于III期NSCLC患者治疗的疾病负荷变化，采用SNV 和插入/缺失(a)，而IV期NSCLC患者采用三个重排断点(b)。(c)IV期 NSCLC患者中不同报道基因(SNV和融合)之间的一致性。(d)在IV期NSCLC患者中检测亚克隆EGFR T790M耐药突变。优势克隆和含 T790M克隆的丰度分数在原发性肿瘤(左)和血浆样品(右)中显示。 (e-f)后处理cfDNA样品的CAPP-Seq结果对IIB期NSCLC患者(e)和 IIIB期NSCLC患者(f)的临床结果是由预测性的。(g-h)两个IB期NSCLC 患者的肿瘤负荷监控，在完成肿瘤切除(g)和立体定向放疗(SABR)(h) 后。(i)CAPP-Seq潜在应用于无活检肿瘤基因型分型或癌症筛查的探索性分析。在不知原发性肿瘤突变的情况下检查所有表1中患者血浆 cfDNA样品的突变体等位基因异常值的存在；显示了具有可检测的突变的样品，以及两个确定是癌症阴性的样品(P1-2和P16-3)及无源自于肿瘤的SNV的样品(P9-5；参见表1)。所检测的最低突变体等位基因分数是～0.5％(点状水平线)。误差条d表示s.e.m。Tu，肿瘤；Ef，胸腔积液；SD，稳定的疾病；PD，进行性疾病；PR，部分响应；CR，完全响应；DOD，死于疾病。

图5：与检测血浆中ctDNA的其他方法比较。(a)对血浆中肿瘤 cfDNA的不同检测限而言，做CAPP-Seq,WES,和WGS分析模型。计算基于每个NSCLC用CAPP-Seq检测的突变的中位数(例如，4)和NSCLC外显子组和基因组中的突变的报道数。垂直的虚线表示该研究中NSCLC患者血浆中的源自于肿瘤的cfDNA的中间分数(见下)。 (b)WES和WGS达到与CAPP-Seq相同的理论检测限的成本(如图5a 的黑色实线所示)。

图6：CAPP-Seq计算流程。用图表表示血浆中突变发现和定量的生物信息学流程的主要步骤。

图7：频发突变的NSCLC外显子捕获已知驱动子的统计学富集。我们采用两个度量以优先排列包括在CAPP-SeqNSCLC选择子中的具有频发突变的外显子。第一个，称为复发指数(RI)，定义为具有体细胞突变的独特患者(例如肿瘤)数/千碱基的给定外显子，第二个度量基于在给定kb的外显子中具有突变的独特患者(例如肿瘤)的最小数。在407个肺腺癌(LUAD)和鳞状细胞癌(SCC)患者的合并的组中，我们分析了含至少一个由TCGA基因分型(n＝47,769)的非沉默 SNV的外显子。(a)在RI≥30(插入)时已知/疑似NSCLC驱动子高度富集，包含1.8％(n＝861)所分析的外显子。(b)在≥3具有突变的患者/ 外显子(插入)时已知/疑似NSCLC驱动子高度富集，包括16％所分析的外显子。

图8：断点定位的FACTERA分析流程。FACTERA采用主要步骤以准确地从比对的配对末端测序数据中识别基因组断点，用两个假设基因w和v说明。(a)不合适配对的，或“不一致”读数(以黄色表示) 用于定位潜在融合中涉及的基因(在该情形中，w和v)。(b)因为被截断的(例如，软剪的)读数可表示融合断点，在由w和v描述的基因组区域内的任何此类读数也被进一步分析。(c)考虑软剪的读数，R1 和R2，其非剪除的部分分别定位于w和v。如果R1和R2来源于包含w 和v之间的真实融合的片段，那么R1的定位部分应与R2的软剪的部分匹配，反之亦然。这通过FACTERA评价，采用快速k-mer索引和比较。 (d)描述了R1和R2的四种可能方向。然而，仅病例1a和2a可产生有效的融合。因此，在k-mer比较之前(小图c)，对病例1b和2b分别采取 R1的反向补充，将它们转变成病例1a和2a。(e)在某些情形中，立即位于断点侧面的短序列是相同的，防止该断点的含糊的确定。令迭代子i和j表示R1和R2之间的第一匹配序列位置。为了调解序列重叠，采用通过bp2和i及bp1和j之间的距离差确定的序列抵消，FACTERA任意地调节R2中的断点(例如，bp2)以与R1匹配(例如，bp1)。说明了两个病例，相应于d中描述的序列方向。

图9：FACTERA在NSCLC细胞系NCI-H3122和HCC78上的应用，及断点的Sanger-验证。(a)堆存NCI-H3122中识别的定位于 EML4-ALK融合的软剪的读数的子集以及相应的Sanger色谱图。(b)同 a，但是HCC78中识别的SLC34A2-ROS1易位。

图10：用优化的文库制备方法改善CAPP-Seq性能。用32ng 血浆输入cfDNA，我们比较了标准和‘用珠’⁵文库制备方法，以及两个商业上可获得的DNA聚合酶(Phusion和KAPAHiFi)。我们用退化的低聚核苷酸PCR(DOP)也比较了模板预扩增与全基因组扩增(WGA)。这些比较所考虑的指标包括(a)测序过的捕获的cfDNA片段的长度，(b) 选择子中所有基因组区域中的测序范围的深度和一致性，及(c)序列定位和捕获统计，包括唯一性。共同地，这些比较识别了KAPA HiFi 聚合酶和具有最鲁棒和一致性能的“用珠”方案。

图11：优化Illumina文库制备期间从低输入cfDNA中回收等位基因。条形表示CAPP-Seq文库的相对产率，这些文库由4ng cfDNA 构建，通过将CAPP-Seq中n＝4预筛选报道基因的定量PCR测定值与预定义的扩增效率平均计算。(a)于16℃、十六小时的连接反应增加了连接反应效率和报道基因回收率。(b)衔接子连接反应体积对连接反应效率和报道基因回收率不具有显著影响。(c)进行“用珠”酶促反应以使试管转移步骤最小化增加报道基因回收率。(d)在连接反应期间增加衔接子浓度增加了连接反应效率和报道基因回收率。当采用KAPA HiFi DNA聚合酶时报道基因回收率也比用Phusion DNA聚合酶要高 (e)及当采用a-d中有修改的KAPA文库制备试剂盒时，与带自动化 Mondrian SP工作站的NuGENSP Ovation超低文库系统比较(f)。采用 2^-ΔCt法通过qPCR测定相对报道基因丰度。具有相等方差的双侧t检验用于测试组间的统计学意义。所有值均以平均值±s.d.表示，N.S.，无统计学意义。基于这些结果，我们估计合并a和c–e中的方法上的修改提高了NGS文库的产率3.3倍。

图12：各种输入cfDNA的量的CAPP-Seq性能。(a)测序过的捕获的cfDNA片段的长度。(b)选择子中所有基因组区域中的测序范围的深度(复制前去除)。(c)序列定位和捕获统计。按预期，更多的输入cfDNA质量与更多所测序的唯一片段相关。

图13.文库复杂性和分子回收率分析。(a)将所有患者和对照样品的复制后读数中的附加的文库复杂性的预期比例作图，包括血浆 cfDNA(n＝40)和成对肿瘤/PBL样品(各自的n＝17)。由于自然出现在血浆中的cfDNA片段的高度刻板大小，当与超声剪切的基因组DNA比较时，血浆中循环的DNA的任何两个片段天生地更可能偶然从不同的原始分子产生，要么考虑肿瘤要么非肿瘤细胞作为该cfDNA的来源。为了估计该“失去的”复杂性，我们推理，具有相同开始/终止坐标的两个DNA片段(例如，配对的末端读数)，它们不同于单一优先定义的种系变体(例如，一个母系的和一个父系的等位基因)，代表两个唯一的和独立的起始分子而不是技术性人工制品(例如PCR复制品)。因此，分享具有杂合SNP的母系和父系种系等位基因的相同开始/终止坐标的片段数用于估测附加文库的复杂性。表3、20和21也提供了更新了这些数据中因素的文库复杂性估测并按本文所描述的确定。(b)通过测定所产生的DNA的质量凭经验评价cfDNA(n＝40)中的分子回收，基于质量输入、PCR周期数和效率(平均值＝46％)与预测的文库产率比较。(a-b)值以平均值±95％置信区间表示。

图14.文库交叉污染分析。评估了相同泳道中多路复用的 cfDNA样品中的患者特异性纯合子种系SNP的等位基因分数。按方法中描述的呼唤SNP。cfDNA样品中的平均“交叉污染”率为0.06％，以水平圆点线表示。该污染水平太低以致于不能影响我们的肿瘤负荷估测，该负荷给出低分数的NSCLC患者血浆中源自于肿瘤的cfDNA(中位数为～0.1％；图5a)(例如，给定样品将平均代表由另一个样品 ctDNA污染为0.06x 0.1＝0.006％)。值得注意的是，为了使样品间污染的风险最小化，我们使用气溶胶屏蔽顶端，在通风橱中工作，并且在相同泳道不多路复用肿瘤和血浆文库。

图15.所捕获的序列中的选择子宽度偏差分析。因为NSCLC 选择子被设计用于靶向hg19对照基因组，我们推理，SNV的选择子偏差，如果有，杂合种系SNP中非对照与对照等位基因的系统性更低的比率应该是可辨别的。因此，我们分析患者PBL样品中由VarScan检测的高度信心SNP，其中高度信心被定义为具有dbSNP(版本137.0) 的普通SNP子集中的非对照分数>10％的变体。如所示，我们检测到了对于对照得非常小的偏离(11个样品中的8个的中位非对照等位基因频率为49％；剩余3个样品无偏差)。重要的是，此类偏差太小以致于不能显著地影响我们的结果。方框表示四分点范围，晶须 (whiskers)包括了第10和第90百分位数。种系SNP用VarScan 2识别。

图16：用两个NSCLC细胞系进行CAPP-Seq的凭经验加入分析。(a)加入到对照HCC78 DNA中的NCI-H3122 DNA的预期的和实测的(由CAPP-Seq)分数是线性的，对所有测试的分数而言(0.1％,1％, 及10％；R²＝1)。(b)采用a中的数据，分析所考虑的SNV数对丰度分数估测值的影响(95％置信区间，以灰色表示)。(c)用小图a的数据分析所考虑的SNV数对平均相关系数和预期的和实测的癌症分数(蓝色虚线)之间的变化系数的影响。(d)在所有测试的加入浓度中，HCC78 中的EML4-ALK融合的预期的和实测的分数是线性的(R²＝0.995)(断点证明，参见图9b)。基于100％H3122 DNA中的融合的相对丰度将实测的EML4-ALK分数标准化。此外，单一杂合插入(‘插入/缺失’；chr7: 107416855,+T)和NCI-H3122中的4.9kb纯合子缺失(‘缺失’,chr17: 29422259-29592392)与规定浓度是一致的。a中的值以平均值±s.e.m表示。

图17：为所有患者定位的碱基对分辨率断点和FACTERA列举的细胞系。涉及ALK(a)和ROS1(b)的基因融合用图表描述。顶部小图的图表表示ALK,ROS1,EML4,KIF5B,SLC34A2,CD74,MKX,和FYN中的断点的准确基因组位置(HG19 NCBI Build 37.1/GRCh37)。底部小图描述了位于所预测基因融合侧面的外显子，符号标明5’融合伴侣基因，及最后融合的外显子及随后的3’融合伴侣基因和第一融合外显子。例如，在S13del37中，SLC34A2的R34外显子1-13(排除外显子 13的3’37核苷酸)与ROS1的外显子34-43融合。FYN中的外显子来自其 5’UTR并在第一编码外显子前面。在所预测的FYN-ROS1融合中的绿色点状线表示ROS1外显子33中的第一框内蛋氨酸，它保留编码ROS1 激酶域的开放阅读框。所有重排各自独立地由PCR和/或FISH证实。

图18：融合的存在与CAPP-Seq检测的SNV数反向相关。对表 1所列的每个患者而言，对所识别的SNV数与所检测的基因组融合的有(n＝11)或无(n＝6)作图。用双侧Wilcoxon秩和检验确定统计学意义，并将所总结的值以平均值±s.e.m.表示。

图19.CAPP-Seq性能的接受者操作曲线(ROC)分析包括预处理和后处理样品。灵敏度和特异性的比较获得了非重复数据删除数据 (小图a和c)和重复数据删除(PCR后复制除去)数据(小图b和d)。另外，所有阶段(小图a和b)均与晚期(II-IV期，小图c和d)的中间阶段比较。最后，对所有ROC分析而言，显示了插入/缺失/融合滤器对灵敏度/特异性的影响。表4提供了非重复数据删除和重复数据删除 cfDNA样品的报道基因分数。

图20.所有患者报告中CAPP-Seq灵敏度和特异性及所测序的血浆cfDNA样品。所显示的所有值显示ctDNA检测指数为0.03。检测度量、癌症阳性，癌症阴性和未知类别的确定详见方法。

图21.用CAPP-Seq进行无创癌症筛查，涉及图4i。(a)用患有 NSCLC的患者样品识别所证明的血浆cfDNA中的候选物SNV的步骤 (P6，参见表4)。逐步过滤之后，应用异常值检测。(b)同a，但是采用其肿瘤手术除去的患者的血浆cfDNA样品。如预料，未识别出 SNV。(c,d)三个另外的有代表性的样品，对在该研究中分析的患者应用可追溯的筛选。P2和P5样品证实了源自于肿瘤的SNVs，虽然P9 是癌症阳性但是缺乏源自于肿瘤的SNVs。红点，证实了源自于肿瘤的SNVs；绿点，背景噪音。

图22描述了患者分析的流程图。

图23显示了实施本公开的方法的系统。

具体实施方式

由于体细胞突变，癌细胞的基因组序列从来源于此的个体基因组序列变成，这是癌细胞的特征。大多数人类癌症在个体基因的体细胞突变上是相对混杂的。具体地说，在大多数人类肿瘤中，单一基因的频发体细胞改变占患者的少数，而仅少数肿瘤类型可用在预定位置的少数频发突变来定义。本发明通过使用从具有选择子集合的总基因组核酸中，富集来源于肿瘤的核酸分子来解决这一问题。选择子的设计是关键，因为(1)它指示对具有特定癌症的患者而言那些突变可以高概率被检测，及(2)所述选择子的大小(以kb计)直接影响成本和序列范围的深度。

虽然具体的基因变化在个体与个体之间及癌症类型之间不同，但是有显示复发变化的基因组区域存在。在那些区域中，任何特定个体的癌症将显示基因变异的可能性增加。癌细胞中的基因改变提供了一种手段，通过它可以将癌细胞与正常(例如非癌症)细胞区分。无细胞DNA，例如在血液样品中发现的DNA片段可分析肿瘤细胞基因变异特异性的存在。然而，此类样品中肿瘤DNA的绝对水平通常是小的，基因变异可能仅占整个基因组中的非常小的一部分。本发明通过提供选择性检测与癌症相关的突变区域的方法解决该问题，从而使得癌细胞DNA或RNA能从正常细胞DNA或RNA背景中准确地检测出。虽然本文所公开的方法可能具体地指DNA(例如,无细胞DNA, 循环肿瘤DNA)，但是应理解的是本文所公开的方法、组合物和系统能应用于所有类型的核酸(例如,RNA,DNA,RNA/DNA杂化物)。

本文提供了检测不均匀样品中少量核酸的超灵敏方法。所述方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息；及(b)用来源于(a)的序列信息检测样品中的无细胞少量核酸，其中所述方法能够检测小于总cfDNA的2％的无细胞少量核酸的百分比。所述少量核酸可指源自于不同于受试者正常细胞或组织的细胞或组织的核酸。例如，受试者可能受病原体例如细菌感染，少量核酸可能是来源于病原体的核酸。在另一个例子中，受试者是捐献者细胞、组织或器官的接受者，少量核酸可能是来源于捐献者细胞、组织或器官的核酸。在另一个例子中，受试者是怀孕的受试者，少量核酸可能是来源于胎儿的核酸。所述方法可包括采用序列信息检测胎儿中的一种或多种体细胞突变。所述方法可包括采用序列信息检测胎儿中的一种或多种受精卵形成后突变。或者，受试者可能患有癌症，少量核酸可能是来源于癌细胞的核酸。

本文提供了检测样品中循环肿瘤DNA的超灵敏方法。所述方法可称为深度测序的癌症个体化概况分析(CAPP-Seq)。所述方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息；及(b) 用来源于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA)，其中所述方法能够检测小于总cfDNA的2％的ctDNA的百分比。CAPP-Seq 可准确地定量早期和晚期阶段肿瘤中的无细胞肿瘤DNA。CAPP-Seq 可以识别检测限为<0.01％的突变体等位基因下至0.025％。来源于肿瘤的DNA水平通常与不同疗法的临床响应平行，CAPP-Seq可识别可操作突变。CAPP-Seq可常规地应用于非侵害性检测和监控肿瘤，因此促进了个体化癌症治疗。

本文公开了测定样品中循环肿瘤DNA(ctDNA)量的方法。所述方法可包括(a)将一个或多个衔接子与源自于受试者样品的无细胞 DNA(cfDNA)连接以生成一个或多个衔接子连接的cfDNA；(b)对所述一个或多个衔接子连接的cfDNA进行测序，其中所述待测序的衔接子连接的cfDNA基于包含多个基因组区域的选择子集合；及(c)基于从所述衔接子连接的cfDNA获得的测序信息，采用计算机可读媒介物测定源自于肿瘤的cfDNA的量。

本文进一步公开了检测、诊断、或预测受试者癌症状态或结果的方法。该方法可包含：(a)获得源自于受试者无细胞DNA(cfDNA) 样品的序列信息；(b)用从(a)获得的序列信息检测样品中无细胞肿瘤 DNA(ctDNA)，其中所述方法能够检测少于总cfDNA 2％的ctDNA百分比。

本文进一步公开了诊断受试者癌症状态或结果的方法。所述方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信息，其中所述序列信息源自于至少80％受癌症折磨的受试者群体的突变基因组区域；及(b)基于所述序列信息诊断受试者中的癌症，所述癌症选自由肺癌、乳腺癌、结直肠癌和前列腺癌组成的群组，其中所述方法的灵敏度为80％。

本文进一步公开了预测受试者癌症状态或结果的方法。所述方法可包括(a)获得源自于受试者样品的无细胞基因组DNA序列信息，其中所述序列信息来自至少80％受病症折磨的受试者群体的突变区域；及(b)基于该序列信息确定受试者病症的预测。

本文进一步公开了为患癌症的受试者筛选疗法的方法。所述方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息；及(b)用从(a)获得的序列信息检测样品中无细胞肿瘤 DNA(ctDNA)，其中所述方法能够检测少于2％总cfDNA的ctDNA含量。

或者，所述方法可包括(a)获得源自于受试者样品的无细胞基因组DNA序列信息，其中所述序列信息来自至少80％受病症折磨的受试者群体的突变区域；及(b)基于该序列信息确定受试者病症的治疗方案。

本文进一步公开了为受癌症折磨或易于患癌症的受试者诊断、预测或确定治疗方案的方法。所述方法可包括(a)获得受试者无细胞DNA样品中的基因组DNA选择区域的序列信息；(b)利用该序列信息确定所述选择区域中一种或多种突变的存在或者不存在，其中至少 70％受癌症折磨的受试者群体在所述区域具有突变；及(c)基于一种或多种突变的存在或者不存在，提供受试者的诊断、预测或治疗方案报告。

本文进一步公开了评估受试者中肿瘤负荷的方法。所述方法可包括(a)获得来自于受试者样品中无细胞核酸的序列信息；(b)用计算机可读的介质测定该样品中循环肿瘤DNA(ctDNA)的量；(c)基于所述ctDNA的量评估肿瘤负荷；及(d)向该受试者或该受试者的代表报告肿瘤负荷。

本文进一步公开了确定受试者体内癌症疾病状态的方法。所述方法可包括(a)获得受试者样品中的循环肿瘤DNA(ctDNA)的量；(b) 获得受试者肿瘤的体积；及(c)基于ctDNA的量与肿瘤体积的比率确定受试者癌症的疾病状态。

本文公开了特异性大于90％的检测至少50％I期癌症的方法。所述方法可包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b)基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量；及(c)基于无细胞DNA的量检测样品的I期癌症。

本文公开了特异性大于90％的检测至少60％II期癌症的方法，所述方法包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA的量；及(c)基于无细胞DNA的量检测样品的II期癌症。

本文公开了特异性大于90％的检测至少60％III期癌症的方法，所述方法包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞 DNA的量；及(c)基于无细胞DNA的量检测样品的III期癌症。

本文公开了特异性大于90％的检测至少60％IV期癌症的方法，所述方法包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA的量；及(c)基于无细胞DNA的量检测样品的IV期癌症。

本文还提供了用于本文所公开的方法的选择子集合。所述选择子集合可包括多个包含存在于患癌症的受试者群体中的一种或多种突变的基因组区域。所述选择子集合可以是用于CAPP-Seq方法的频发突变的基因组区域的文库。频发突变的基因组区域的靶向可区别肿瘤细胞DNA和正常DNA。另外，频发突变的基因组区域的靶向可同时检测点突变、拷贝数变体、插入/缺失及重排。

所述选择子集合可以是计算机可读媒介物。所述计算机可读媒介物可包括两种或更多种基因组DNA区域的核酸序列信息，其中(a) 所述基因组区域包含来自受癌症折磨的受试者群体的大于80％肿瘤中的一种或多种突变；(b)所述基因组DNA区域表示小于1.5Mb的基因组；及(c)下述中的一种或多种:(i)所述病症不是毛细胞白血病、卵巢癌、瓦尔登斯特伦巨球蛋白血症；(ii)各基因组DNA区域包含至少一个受癌症折磨的受试者中的至少一种突变；(iii)所述癌症包括两种或更多种不同类型的癌症；(iv)所述两个或更多个基因组区域衍生自两种或更多种不同的基因；(v)所述基因组区域包含两种或更多种突变；或(vi)所述两个或更多个基因组区域包含至少10kb。

所述选择子集合可提供，例如，用于选择性扩增源自肿瘤的核酸的低聚核苷酸。所述选择子集合可提供，例如，可用于选择性捕获或富集源自肿瘤的核酸的低聚核苷酸。本文公开了包含一组基于所述选择子集合的低聚核苷酸的组合物。所述组合物可包含一组与多个基因组DNA区域选择性杂交的低聚核苷酸，其中(a)＞80％的来自于癌症受试者群体的肿瘤包括一种或多种所述基因组DNA区域中的突变；(b)所述多个基因组DNA区域表示小于1.5Mb的基因组；及(c)所述组的低聚核苷酸包含5个或更多个与多个基因组DNA区域选择性杂交的不同的低聚核苷酸。

所述组合物可包含与多个基因组区域选择性杂交的低聚核苷酸，其中所述基因组区域包含存在于>60％患癌症受试者群体的多个突变。

本文进一步公开了阵列，该阵列包含多个低聚核苷酸以选择性捕获基因组区域，其中所述基因组区域包含存在于>60％患癌症受试者群体的多个突变。

本文进一步公开了制备用于癌症的选择子集合的方法。所述制备用于癌症的选择子集合的方法可包括(a)识别所选择的癌症的频发突变的基因组DNA区域；及(b)用一个或多个下列标准将区域优先排序：(i)所述基因组区域的复发指数(RI)，其中所述RI为具有体细胞突变的特殊患者或肿瘤数/基因组区域的长度；及(ii)在一定基因组区域长度内具有突变的特殊患者或肿瘤的最小数。

本文公开了富集样品中的循环肿瘤DNA的方法。所述方法可包括将样品中的无细胞核酸与多个低聚核苷酸接触，其中所述多个低聚核苷酸与多个含存在于>60％患癌症受试者群体中的多种突变的多个基因组区域选择性地杂交。

或者，所述方法可包括将样品中的无细胞核酸与一组低聚核苷酸接触，其中所述组的低聚核苷酸选择性地与多个基因组区域杂交，其中(a)>80％的癌症受试者群体的肿瘤包括在该基因组区域中的一种或多种突变；(b)所述多个基因组区域表示小于1.5Mb的基因组；及(c)所述组的低聚核苷酸包含5个或更多个选择性地与多个基因组区域杂交的不同低聚核苷酸。

本文进一步公开了制备用于测序的核酸样品的方法。所述方法可包括(a)对源自于样品的无细胞DNA(cfDNA)进行扩增反应以产生多个扩增子，其中所述扩增反应包含20或更少的扩增周期；及(b) 制备测序文库，所述文库包含多个扩增子。

本文进一步公开了用于实施本文所公开的方法的一个或多个方法或步骤的系统。图23显示为实施本文所公开的方法(例如制备选择子集合和/或数据分析)所设置或配置的计算机系统(本文中也称为“系统”)2301。系统2301包括中央处理器(CPU，本文中也称为 “处理器”和“计算机处理器”)2305，它可以是单核或多核处理器，或用于平行处理的多个处理器。系统2301也包括存储器2310(例如，随机存取存储器，只读存储器，闪存)，电子存储单元2315(例如，硬盘)，用于与一个或多个其他系统通讯的通讯接口2320(例如，网络适配器)，及外部设备2325，例如快速缓冲贮存区，其他存储器，数据保存和/或电子显示适配器。存储器2310、存储单元2315、接口2320 及外部设备2325通过通讯总线(实线)(例如母板)与CPU2305连通。存储单元2315可以是用于存储数据的数据存储单元(或数据仓库)。系统2301在通讯接口2320的帮助下有效地与计算机网络(“网络”) 2330连接。网络2330可以是国际互联网、互联网和/或外联网，或内联网和/或与国际互联网连通的外联网。在某些情况中，网络2330是电信和/或数据网络。网络2330可包括一个或多个计算机服务器，该服务器能分配计算机的运作，如云计算。在某些情况中，网络2330，在系统2301的帮助下，能实施对等网络，这能使与系统2301连接的设备表现为客户端或服务器。

系统2301与处理系统2335连通。处理系统2335可被装配以实施本文所公开的方法。在某些例子中，处理系统2335是核酸测序系统，例如，如下一代测序系统(例如，Illumina测序仪，Ion Torrent测序仪， Pacific Biosciences测序仪)。处理系统2335可通过网络2330，或通过直接(例如，有线的，无线的)连接与系统2301连通。处理系统2335 可被装配用于分析，例如核酸序列分析。

本文所公开的方法可通过存储在系统2301的电子存储位置中的机器(或计算机处理器)可执行编码(或软件)(例如，如存储器2310或电子存储单元2315)实施。在使用期间，编码可通过处理器 2305执行。在某些例子中，编码可从存储单元2315中检索并存储在存储器2310中，以便处理器2305便利地获取。在某些情形中，电子存储单元2315可以排除，而机器可执行的指令存储在存储器2310中。

本文公开了用于计算一个或多个基因组区域复发指数的计算机可实施系统。所述计算机可实施系统可包括(a)包含装配用于实施可执行的指令的操作系统的数字处理设备和存储设备；及(b)计算机程序，包括可通过该数字处理设备执行的指令以生成复发指数，所述计算机程序包含(i)装配的第一个软件模块以接收属于多个突变的数据；(ii)装配的第二个软件模块以便将多个突变与一个或多个基因组区域和/或一个或多个受试者联系起来；及(iii)装配的第三个软件模块以计算一个或多个基因组区域的复发指数，其中所述复发指数基于突变数/受试者/核苷酸序列的千碱基数。

选择子集合

本文所公开的方法、试剂盒和系统可包括一个或多个选择子集合或其用途。选择子集合可以是包含与目标一种或多种癌症相关的基因组(例如，基因组区域)的区域序列信息的生物信息学构建物。选择子集合可以是包含用于一个或多个基因组区域的基因组坐标的生物信息学构建物。所述基因组区域可包含一个或多个频发突变的区域。所述基因组区域可包含一种或多种与一种或多种目标癌症相关的突变。

选择子集合中的基因组区域数可随癌症性质而变。大量基因组区域的内含物一般可增加特殊体细胞突变将被识别的可能性。在文库中包含太多基因组区域并不是不计成本的，然而，因为基因组区域数直接与分析中必须测序的核酸长度相关。极端地来说，肿瘤样品和基因组样品的全基因组能够被测序，而所得序列可以比较以记录任何差别。

本发明的选择子集合可通过识别特定癌症中的频发突变的基因组区域处理该问题，然后将这些区域排序以使该区域将包括区别特殊肿瘤中的体细胞突变的可能性最大化。频发突变的基因组区域的文库，或“选择子集合”在特定癌症或癌症类型的全部群体中可使用，而不需要为每个受试者优化。

所述选择子集合可包含至少约2,3,4,5,6,7,8,或9个不同的基因组区域。所述选择子集合可包含至少约10个不同的基因组区域；至少约25个，至少约50个，至少约100个，至少约150个，至少约200 个，至少约250个，至少约300个，至少约350个，至少约400个，至少约500个，至少约600个，至少约700个，至少约800个，至少约900个，至少约1000个或更多个不同的基因组区域。

所述选择子集合可包含约10-约1000个不同的基因组区域。所述选择子集合可包含约10-约900个不同的基因组区域。所述选择子集合可包含约10-约800个不同的基因组区域。所述选择子集合可包含约 10-约700个不同的基因组区域。所述选择子集合可包含约20-约600个不同的基因组区域。所述选择子集合可包含约20-约500个不同的基因组区域。所述选择子集合可包含约20-约400个不同的基因组区域。所述选择子集合可包含约50-约500个不同的基因组区域。所述选择子集合可包含约50-约400个不同的基因组区域。所述选择子集合可包含约 50-约300个不同的基因组区域。

所述选择子集合可包含多个基因组区域。所述多个基因组区域可包含最多5000个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多2000个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多1000个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多500个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多400个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多300个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多 200个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多150个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多100个不同的基因组区域。在某些实施方案中，所述多个基因组区域包含最多50个不同的基因组区域或者甚至更少。

基因组区域可包含蛋白质编码区域，或其部分。蛋白质编码区域可指为蛋白质编码的基因组的区域。蛋白质编码区域可包含内含子、外显子和/或未翻译区域(UTR)。基因组区域可包含两个或更多个蛋白质编码区域，或其部分。例如，基因组区域可包含外显子部分和内含子部分。基因组区域可包含三个或更多个蛋白质编码区域，或其部分。例如，基因组区域可包含第一外显子部分、内含子部分和第二外显子部分。或者，或另外，基因组区域可包含外显子部分、内含子部分和未翻译区域部分。

基因组区域可包含基因。基因组区域可包含仅基因的一部分。基因组区域可包含基因的外显子。基因组区域可包含基因的内含子。基因组区域可包含基因的未翻译区域(UTR)。在某些情况中，基因组区域不包含全基因。基因组区域可包含少于90％,85％,80％,75％, 70％,65％,60％,55％,50％,45％,40％,35％,30％,25％,20％,15％, 10％,或5％的基因。基因组区域可包含少于60％的基因。

基因组区域可包含非蛋白质编码区域。非蛋白质编码区域也可称为非编码区域。非蛋白质编码区域可指不对蛋白质进行编码的基因组区域。非蛋白质编码区域可转录到非编码RNA(ncRNA)中。非编码RNA可具有已知功能。例如，非编码RNA可以是转移RNA(tRNA)、核糖体RNA(rRNA)，和/或调节RNA。非编码RNA可具有未知功能。 ncRNA的例子包括，但不限于，tRNA,rRNA,核小RNA(snRNA)，核仁小RNA(snoRNA),微小RNA,小干扰RNA(siRNAs)，Piwi-相互作用RNA(piRNA),及长ncRNA(例如,Xist,HOTAIR)。基因组区域可包含假基因、转位子和/或反转录转座子。

基因组区域可包含频发突变的区域。频发突变的区域可指基因组(通常为人类基因组)的区域，其中总体上相对于基因组，目标癌症中的基因组突变的可能性增加。频发突变区域可指含在所述群体中复发的一种或多种突变的基因组区域。例如，频发突变区域可指含存在于群体中的两个或更多个受试者中的突变的基因组区域。频发突变的区域的特征可在于“复发指数”(RI)。RI通常指在特定千碱基的基因组序列中发生突变的个体受试者(例如，癌症患者)的数目(例如，具有突变的患者数/基因组区域kb长度)。基因组区域的特征还可在于具有突变的患者数/外显子。各度量的阈值(例如RI和患者/外显子或基因组区域)可以选择以在统计学上为目标癌症的已知/疑似驱动子富集。目标癌症的已知/疑似驱动子可以是基因。在非小细胞肺癌 (NSCLC)中，这些度量值可使已知/疑似驱动子富集(参见表2中所列的基因)。阈值也可通过任意挑选各度量值的前百分位数筛选。

选择子集合可包含基因组区域，该基因组区域包含在群体中不复发的突变。例如，基因组区域可包含存在于特定受试者中的一种或多种突变。在某些情况中，受试者中包含一种或多种突变的基因组区域可用于制备用于该受试者的个体化选择子集合。

术语“突变”可指有机体的基因组中的基因变更。对本发明的目的而言，有关突变通常是相对于种系序列的变化，例如癌细胞特定变化。突变可包括单一核苷酸变体(SNV)，拷贝数变体(CNV)，插入，缺失和重排(例如，融合)。所述选择子集合可包括含选自由SNV，CNV，插入，缺失和重排组成的群组的一种或多种突变的一个或多个基因组区域。所述选择子集合可包括含选自由SNV，CNV，插入，缺失和重排组成的群组的两种或更多种突变的多个基因组区域。所述选择子集合可包括含选自由SNV，CNV，插入，缺失和重排组成的群组的三种或更多种突变的多个基因组区域。所述选择子集合可包括含选自由SNV，CNV，插入，缺失和重排组成的群组的四种或更多种突变的多个基因组区域。所述选择子集合可包括含选自由SNV，CNV，插入，缺失和重排组成的群组的五种或更多种突变的多个基因组区域。所述选择子集合可包括含至少一个SNV，插入和缺失的多个基因组区域。所述选择子集合可包括含至少一个SNV和重排的多个基因组区域。所述选择子集合可包括含至少一个插入、缺失和重排的多个基因组区域。所述选择子集合可包括含至少一个缺失和重排的多个基因组区域。所述选择子集合可包括含至少一个插入和重排的多个基因组区域。所述选择子集合可包括含至少一个SNV，插入、缺失和重排的多个基因组区域。所述选择子集合可包括含至少一个重排和至少一个选自由SNV，插入和缺失组成的群组的突变的多个基因组区域。所述选择子集合可包括含至少一个重排和至少一个选自由SNV，CNV，插入和缺失组成的群组的突变的多个基因组区域。

选择子集合可包括在已知与癌症相关的基因组区域中的突变。所述在已知与癌症相关的基因组区域中的突变可称为“已知体细胞突变”。已知体细胞突变可以是位于已知与癌症相关的一个或多个基因中的突变。已知体细胞突变可以是位于一个或多个致癌基因中的突变。例如，已知体细胞突变可包括位于p53,EGFR,KRAS和/或 BRCA1中的一种或多种突变。

选择子集合可包括在预测与癌症相关的基因组区域中的突变。选择子集合可包括未报道与癌症相关的基因组区域中的突变。

基因组区域可包括足够大小的人类基因组序列以捕获一种或多种频发突变。本发明的方法可涉及cfDNA，它的长度通常小于约 200bp，因此基因组区域可通常小于约10kb。选择子集合中基因组区域的长度可平均为约100bp，约125bp，约150bp，175bp，约200bp，约225bp，约250bp，约275bp，或约300bp。通常所述SNV的基因组区域可以是非常短的，长度约45-约500bp，而融合体或其他基因组重排的基因组区域可能较长，长度约1Kbp-约10Kbp。选择子集合中基因组区域的长度可小于约10Kbp,9Kbp,8Kbp,7Kbp,6Kbp,5Kbp,4Kbp,3Kbp,2Kbp,或1Kbp。选择子集合中基因组区域可小于约1000 bp,900bp,800bp,700bp,600bp,500bp,400bp,300bp,200bp,或 100bp。基因组区域可被说成“识别”突变，当该突变在所述基因组区域的序列内时。

在某些实施方案中，选择子集合所覆盖的总序列小于约1.5 兆碱基对(Mbp),1.4Mbp,1.3Mbp,1.2Mbp,1.1Mbp,1Mbp。选择子集合所覆盖的总序列可小于约1000kb，小于约900kb，小于约800kb，小于约700kb，小于约600kb，小于约500kb，小于约400kb，小于约350kb，小于约300kb，小于约250kb，小于约200kb，或小于约150kb。选择子集合所覆盖的总序列可在约100kb-500kb之间。选择子集合所覆盖的总序列可在约100kb-350kb之间。选择子集合所覆盖的总序列可在约100kb-150kb之间。

所述选择子集合可包含多个基因组区域中的2,3,4,5,6,7,8, 9,10,11,12,13,14,15,16,17,18,19,20或更多个突变。所述选择子集合可包含多个基因组区域中的25,30,35,40,45,50,55,60,65,70,75, 80,85,90,95,100或更多个突变。所述选择子集合可包含多个基因组区域中的125,150,175,200,250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000或更多个突变。

至少所述突变的一部分可以在相同基因组区域内。至少约2, 3,4,5,6,7,8,9,10或更多个突变可以在相同基因组区域内。至少约2 个突变可以在相同基因组区域内。至少约3个突变可以在相同基因组区域内。

至少所述突变的一部分可以在不同基因组区域内。至少约2, 3,4,5,6,7,8,9,10或更多个突变可以在两个或更多个不同基因组区域内。至少约2个突变可以在两个或更多个不同基因组区域内。至少约3个突变可以在两个或更多个不同基因组区域内。

两种或更多种突变可以在相同非编码区域的两个或更多个不同基因组区域中。两种或更多种突变可以在相同蛋白质编码区域的两个或更多个不同基因组区域中。两种或更多种突变可以在相同基因的两个或更多个不同基因组区域中。例如，第一突变可位于包含第一基因的第一外显子的第一基因组区域内，而第二突变可位于包含第一基因的第二外显子的第二基因组区域内。在另一个例子中，第一突变可位于包含第一长非编码RNA的第一部分的第一基因组区域内，而第二突变可位于包含第一长非编码RNA的第二部分的第二基因组区域内。

或者，或另外，两种或更多种突变可以在两种或更多种不同非编码区域、蛋白质编码区域和/或基因的两个或更多个不同基因组区域中。例如，第一突变可位于包含第一基因的第一外显子的第一基因组区域内，而第二突变可位于包含第二基因的第二外显子的第二基因组区域内。在另一个例子中，第一突变可位于包含第一基因的第一外显子的第一基因组区域内，而第二突变可位于包含微小RNA部分的第二基因组区域内。

所述选择子集合可识别至少2，通常至少3，及优选至少4个不同突变的中位数/个体受试者。所述选择子集合可识别至少5,6,7,8, 9,10,11,12,13或更多个不同突变的中位数/个体受试者。不同突变可在一个或多个基因组区域。不同突变可在1,2,3,4,5,6,7,8,9,10,11, 12,13,14,15或更多个基因组区域。不同突变可在1,2,3,4,5,6,7,8,9, 10,11,12,13,14,15或更多个频发突变的区域。

由所述选择子集合识别的突变中位数可在最大到10，最大到 25，最大到25，最大到50，最大到87，最大到100或更多受试者群体中确定。由所述选择子集合识别的突变中位数可在最大到125,150, 175,200,225,250,275,300,325,350,375,400或更多受试者群体中确定。在此类群体中，目标选择子集合可识别至少60％，至少65％，至少70％，至少75％，至少80％，至少82％，至少85％，至少87％，至少 90％，至少92％，至少95％或更多受试者中的一种或多种突变。

由所述选择子集合识别的总突变可存在于至少60％，至少 65％，至少70％，至少75％，至少80％，至少82％，至少85％，至少87％，至少90％，至少92％，至少95％或更多受试者群体中。例如，所述选择子集合可识别存在于20％受试者中的第一突变和80％受试者中的第二突变，因此由所述选择子集合识别的总突变可存在于80％-100％受试者群体中。

除生物信息学构建物外，选择子集合可用于产生用于特异性捕获、测序和/或相应于基因组区域的cfDNA扩增的低聚核苷酸或低聚核苷酸组。低聚核苷酸组可包括至少一个用于待靶向的各基因组区域的低聚核苷酸。低聚核苷酸可具有有足够长度的通性以独特地识别所述基因组区域，例如长度通常至少约15个核苷酸，至少约16,17,18, 19,20个核苷酸。低聚核苷酸可进一步包含用于测序系统的衔接子；用于分类的标签；特异性结合标签，例如生物素，FITC等。用于扩增的低聚核苷酸可包含一对位于目标区域侧面和相反方向的序列。所述低聚核苷酸可包含引物序列。所述低聚核苷酸可包含与至少所述基因组区域的一部分互补的序列。

本文所述方法可产生包含选择子集合序列信息的生物信息学构建物。为了将所述选择子集合用于患者的诊断和预测方法中，一组选择子探针可从所述选择子集合库中产生。该组选择子探针可包含来自至少约20个基因组区域，至少约30个基因组区域，至少约40个基因组区域，至少约50个基因组区域，至少约60个基因组区域，至少约 70个基因组区域，至少约80个基因组区域，至少约90个基因组区域，至少约100个基因组区域，至少约200个基因组区域，至少约300个基因组区域，至少约400个基因组区域，或者至少约500个基因组区域的序列。所述基因组区域可选自表2和6-18中的任何一个中所提及基因组区域。筛选可基于生物信息学标准，包括该区域所提供的其他数值， RI等。在某些实施方案中，患者的预设范围用作取舍点，例如当至少 90％具有一种或多种SNV时，当至少95％具有一种或多种SNV时，当至少98％具有一种或多种SNV时。

所述选择子集合可包含一个或多个表2所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 或525个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表2中所识别的那些区域。

所述选择子集合可包含一个或多个表6所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 550,600,650,700,750,800,或830个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表6中所识别的那些区域。所述选择子集合的基因组区域可包含至少600个表6 中所识别的那些区域。所述选择子集合的基因组区域可包含至少800 个表6中所识别的那些区域。

所述选择子集合可包含一个或多个表7所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,125,150,175,200,225,250,275,300, 325,350,375,400,425,或450个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表7中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表7 中所识别的那些区域。

所述选择子集合可包含一个或多个表8所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550,600, 650,700,750,800,850,900,950,1000,或1050个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表8 中所识别的那些区域。所述选择子集合的基因组区域可包含至少300 个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少600个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少800个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表8中所识别的那些区域。

所述选择子集合可包含一个或多个表9所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550,600, 650,700,750,800,850,900,950,1000,1100,1200,1300,1400,或 1500个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表9中所识别的那些区域。所述选择子集合的基因组区域可包含至少1300个表9中所识别的那些区域。

所述选择子集合可包含一个或多个表10所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,或330个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表10中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表10中所识别的那些区域。

所述选择子集合可包含一个或多个表11所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,或460 个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表11中所识别的那些区域。

所述选择子集合可包含一个或多个表12所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480 或500个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表12中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表12中所识别的那些区域。

所述选择子集合可包含一个或多个表13所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1250,1300,1350,1400,或1450个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表13 中所识别的那些区域。所述选择子集合的基因组区域可包含至少500 个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少1300个表13中所识别的那些区域。

所述选择子集合可包含一个或多个表14所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1210,1220,1230,或1240个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少1100个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少1200个表14中所识别的那些区域。

所述选择子集合可包含一个或多个表15所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,或170 个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少120个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少150个表15中所识别的那些区域。

所述选择子集合可包含一个或多个表16所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1100,1200,1300,1400, 1500,1600,1700,1800,1900,2000,或2050个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表 16中所识别的那些区域。所述选择子集合的基因组区域可包含至少 300个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1200个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1500个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少1700个表16中所识别的那些区域。所述选择子集合的基因组区域可包含至少2000个表16中所识别的那些区域。

所述选择子集合可包含一个或多个表17所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1010,1020,1030,1040, 1050,1060,1070,或1080个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少500个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少1050个表17中所识别的那些区域。

至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约5％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约10％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约20％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约 30％的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约40％的所述选择子集合的基因组区域可以是表17中所识别的区域。

所述选择子集合可包含一个或多个表18所识别的基因组区域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480, 500,520,540,或555个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少20个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少100个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少200个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少300个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少400个表 18中所识别的那些区域。所述选择子集合的基因组区域可包含至少 500个表18中所识别的那些区域。

选择子集合探针的长度可为至少约15,20,25,30,35,40,45, 50,55,60,65,70,75,80,85,90,95或100个核苷酸。选择子集合探针的长度可为至少约20个核苷酸。选择子集合探针的长度可为至少约30 个核苷酸。选择子集合探针的长度可为至少约40个核苷酸。选择子集合探针的长度可为至少约50个核苷酸。

选择子探针的长度可为约15-约250个核苷酸。选择子集合探针的长度可为约15-约200个核苷酸。选择子集合探针的长度可为约 15-约170个核苷酸。选择子集合探针的长度可为约15-约150个核苷酸。选择子集合探针的长度可为约25-约200个核苷酸。选择子集合探针的长度可为约25-约150个核苷酸。选择子集合探针的长度可为约 50-约150个核苷酸。选择子集合探针的长度可为约50-约125个核苷酸。

1,2,3,4,5,6,7,8,9,10或更多个选择子集合探针可相应于一个基因组区域。两个或更多个选择子集合探针可相应于一个基因组区域。三个或更多个选择子集合探针可相应于一个基因组区域。一组选择子集合探针因此可具有从其中获得的选择子集合的复杂性。选择子探针可用常规方法合成，或通过任一其他合适的分子生物学方法产生。选择子探针可与cfDNA杂交用于杂化物捕获，如本文所描述的。选择子探针可包含允许捕获杂化物的结合部分。可用于该目的的各种结合部分(例如，标签)在本领域是已知的，包括但不限于生物素、 HIS标签,MYC标签,FITC等。

表2和6-18提供了例示的选择子集合。包含表2中所识别的一个或多个基因组区域的选择子集合可用于非小细胞肺癌(NSCLC)。包含表6中所识别的一个或多个基因组区域的选择子集合可用于乳腺癌。包含表7中所识别的一个或多个基因组区域的选择子集合可用于结直肠癌。包含表8中所识别的一个或多个基因组区域的选择子集合可用于弥漫性大B细胞淋巴瘤(DLBCL)。包含表9中所识别的一个或多个基因组区域的选择子集合可用于埃利希腹水癌(EAC)。包含表10 中所识别的一个或多个基因组区域的选择子集合可用于滤泡性淋巴瘤(FL)。包含表11中所识别的一个或多个基因组区域的选择子集合可用于头颈鳞状细胞癌(HNSC)。包含表12中所识别的一个或多个基因组区域的选择子集合可用于NSCLC。包含表13中所识别的一个或多个基因组区域的选择子集合可用于NSCLC。包含表14中所识别的一个或多个基因组区域的选择子集合可用于卵巢癌。包含表15中所识别的一个或多个基因组区域的选择子集合可用于卵巢癌。包含表16 中所识别的一个或多个基因组区域的选择子集合可用于胰腺癌。包含表17中所识别的一个或多个基因组区域的选择子集合可用于前列腺腺癌。包含表18中所识别的一个或多个基因组区域的选择子集合可用于皮肤黑素瘤。表2和6-18中的任何一个的选择子集合可用于癌和一般以下(sub-generically)用于腺癌或鳞状细胞癌。

制备选择子集合的方法

本文公开了制备选择子集合的方法。设计选择子集合的一个目标可包括使所覆盖的患者分数和突变数/所覆盖的患者最大化，同时使选择子大小最小化。评估基因组区域的所有可能组合以建立此类选择子集合可能是指数上的大问题(例如，2ⁿ个可能的外显子组合得到n个外显子)，致使采用近似算法临界值。因此，可采用启发式策略以制备选择子集合。

本文所公开的选择子集合可为特定的ctDNA检测限、测序成本和/或DNA输入质量合理地设计。此类选择子集合可采用选择子设计计算器设计。选择子设计计算器可基于下列分析模型：对特定测序读数深度而言回收至少1个血浆中单一突变体等位基因的读数的概率 P和血浆中ctDNA的检测限可通过二项分布制作模型。特定P，检测血浆中所有确定的肿瘤突变的概率可通过几何分布制作模型。用这一设计计算器，可以首先估计将需要多少肿瘤受体以达到期望的灵敏度，然后可以靶向选择子的大小，该选择子的大小权衡该数目与成本和 DNA质量输入。图5a以图显示用CAPP-Seq对血浆ctDNA的不同检测限检测血浆ctDNA的概率P(黑色，粗线)、全外显子序列(i和ii)、及全基因组序列(iii)。

所述制备选择子集合的方法可包括(a)用在所述基因组区域具有一个或多个突变的受试者数除以该基因组区域的长度，计算多个基因组区域的基因组区域的复发指数；及(b)通过基于复发指数筛选基因组区域，制备包含多个基因组区域的一个或多个基因组区域的选择子集合。例如，10个受试者可能在包含100个碱基的基因组区域中有一个或多个突变。复发指数可通过用在所述一个或多个基因组区域具有突变的受试者数除以该基因组区域的长度计算。在该例子中，该基因组区域的复发指数将为10个受试者除以100个碱基，等于0.1个受试者/碱基。

所述方法可进一步包括用复发指数将多个基因组区域的基因组区域排序。基于复发指数制备选择子集合可包括筛选复发指数在百分位数前第70、第75、第80、第85、第90、或第95或更高的基因组区域。基于复发指数制备选择子集合可包括筛选复发指数在百分位数前第90的基因组区域。例如，第一基因组区域的复发指数可在百分位数前第80，而第二基因组区域的复发指数可在百分位数倒数第20。基于复发指数在百分位数前第75的基因组区域的选择子集合可包含第一基因组区域，但不包含第二基因组区域。

所述方法可进一步包括通过在所述基因组区域具有一个或多个突变的受试者数将基因组区域排序。制备选择子集合可进一步包括筛选在该基因组区域具有一个或多个突变的受试者数在百分位数前第70、第75、第80、第85、第90、或第95或更高的基因组区域。制备选择子集合可进一步包括筛选在该基因组区域具有一个或多个突变的受试者数在百分位数前第90或更高的基因组区域。

基因组区域的长度可以是千碱基。基因组区域的长度可以是数个碱基。对含与癌症相关的已知体细胞突变的基因组区域而言，该基因组区域的长度可主要由已知突变的子序列组成。对含与癌症相关的已知体细胞突变的基因组区域而言，该基因组区域的长度可主要由已知突变的子序列和在该已知突变子序列侧面的一个或多个碱基组成。对含与癌症相关的已知体细胞突变的基因组区域而言，该基因组区域的长度可主要由已知突变的子序列和在该已知突变子序列侧面的1-5个碱基组成。对含与癌症相关的已知体细胞突变的基因组区域而言，该基因组区域的长度可主要由已知突变的子序列和在该已知突变子序列侧面的5个或更少的碱基组成。包含已知体细胞突变的基因组区域的复发指数可基于已知突变子序列的长度或在该已知突变子序列侧面具有其他碱基的已知突变子序列的长度重新计算。例如，基因组区域可包含200个碱基，而在该基因组区域内的已知体细胞突变可包含100个碱基。复发指数可通过用在该基因组区域内含一个或多个突变的受试者数除以在该基因组区域内体细胞突变的长度(例如， 100个碱基)计算。

本文进一步公开了制备选择子集合的方法，所述方法包括(a) 借助于计算机处理器，通过分析属于患癌症受试者群体的多个基因组区域的数据，识别含一个或多个突变的多个基因组区域；及(b)将运算法则应用于该数据以制备包含多个基因组区域的两个或更多个基因组区域的选择子集合，其中所述运算法则用于使在该受试者群体中选择子集合的基因组区域中的突变中位数最大化。

识别所述多个基因组区域可包括计算多个基因组区域的一个或多个基因组区域的复发指数。运算法则可应用于属于复发指数在百分位数前第40、第45、第50、第55、第57、第60、第63、或第65 或更高的基因组区域的数据。运算法则可应用于属于复发指数在百分位数为至少约15,20,25,30,35,40,45,或50或更多的基因组区域的数据。

识别所述多个基因组区域可包括确定在基因组区域中具有一个或多个突变的受试者数。运算法则可应用于属于在该基因组区域具有一个或多个突变的受试者数在百分位数前第40、第45、第50、第 55、第57、第60、第63、或第65或更高的基因组区域的数据。

通过识别导致在该基因组区域具有一种突变的受试者最大减少的基因组区域，所述运算法则可使突变中位数最大化。制备选择子集合可包括筛选导致在该基因组区域具有一种突变的受试者最大减少的基因组区域。

运算法则可应用于属于达到最小阈值的基因组区域的数据。所述最小阈值可属于复发指数。例如，运算法则可应用于复发指数在百分位数前第60的基因组区域。在另一个例子中，运算法则可应用于复发指数大于或等于30的基因组区域。或者，或另外，所述最小阈值可属于在该基因组区域中具有一个或多个突变的受试者数在百分位数前第60的基因组区域。

运算法则可使用1,2,3,4,5,6,7,8,9,10或更多次。运算法则可使用一次或更多次。运算法则可使用两次或更多次。运算法则可应用于达到第一最小阈值的第一组基因组区域。例如，运算法则可应用于复发指数在百分位数前第60及在该基因组区域中具有一个或多个突变的受试者数在百分位数前第60的第一组基因组区域。运算法则可应用于达到第二最小阈值的第二组基因组区域。例如，运算法则可应用于复发指数大于或等于20的第二组基因组区域。

受试者群体的基因组区域内的突变中位数可为至少约2,3,4, 5,6,7,8,9,10或更多突变。受试者群体的基因组区域内的突变中位数可为至少约2,3,或4或更多突变。

所述运算法则可进一步用于使在选择子集合的基因组区域内含一个或多个突变的受试者数最大化。所述运算法则可进一步用于使选自在选择子集合的基因组区域内含一个或多个突变群体的受试者百分比最大化。来自在基因组区域内含一个或多个突变群体的受试者百分比可为至少约60％,65％,70％,75％,80％,85％,87％,90％,92％,95％,或97％或更多。

或者，制备选择子集合的方法可包括(a)获得属于患癌症受试者群体的多个基因组区域的数据；及(b)将运算法则应用于该数据以制备包含多个基因组区域中的两个或更多个基因组区域的选择子集合，其中所述运算法则用于使在该选择子基因组区域内含一个或多个突变的受试者数最大化。

通过计算基因组区域的复发指数，运算法则可使含一个或多个突变的受试者数最大化。制备选择子集合可包括基于该复发指数筛选一个或多个基因组区域。

通过识别包含在2,3,4,5,6,7,8,9,10或更多受试者中发现的一个或多个突变的基因组区域，运算法则可使含一个或多个突变的受试者数最大化。通过识别包含在5或更多受试者中发现的一个或多个突变的基因组区域，运算法则可使含所述一个或多个突变的受试者数最大化。制备选择子集合可包括基于在受试者群体的基因组区域内的突变频率筛选一个或多个基因组区域。

制备选择子集合可包括基因组区域与选择子集合的迭代相加。制备选择子集合可包括筛选一个或多个基因组区域，所述基因组区域能从受试者群体中识别至少一个新受试者的突变。例如，选择子集合可包括基因组区域A、B和C，其中含在受试者1,2,3,4,5,6,7和 8中观察到的突变。基因组区域D可含在受试者1-4和10中观察到的突变。基因组区域E可含在受试者1-5中观察到的突变。基因组区域D识别至少一个另外的受试者(例如，受试者10)并可加到该选择子集合中，而基因组区域E不识别另外的受试者，并且不加到该选择子集合中。

制备选择子集合可包括基于使已经被选择子识别的受试者的重叠最小化筛选一个或多个基因组区域。例如，选择子集合可包括基因组区域A、B、C和D，其中含在受试者1,2,3,4,5,6,7，8，9和 10中观察到的突变。基因组区域E可含在受试者1-5，11和13中观察到的突变。基因组区域F可含在受试者12和15中观察到的突变。基因组区域E有5个受试者与该选择子集合相同，而基因组区域F无受试者与该选择子集合相同。因此，基因组区域F可加到选择子集合中。

所述运算法则可用于使来自在选择子的基因组区域内含一个或多个突变群体的受试者百分比最大化。来自在基因组区域内含一个或多个突变群体的受试者百分比可为至少约60％,65％,70％,75％, 80％,85％,87％,90％,92％,95％,或97％或更多。

所述运算法则可进一步用于使受试者群体中的受试者基因组区域内的突变中位数最大化。受试者基因组区域内的突变中位数可为至少约2,3,4,5,6,7,8,9,10或更多突变。受试者基因组区域内的突变中位数可为至少约2,3,或4或更多突变。

制备所述选择子集合可进一步包括加入包含已知与癌症相关的一个或多个突变的基因组区域。制备所述选择子集合可进一步包括加入包含预测与癌症相关的一个或多个突变的基因组区域。制备所述选择子集合可进一步包括加入包含一个或多个重排的基因组区域。制备所述选择子集合可进一步包括加入包含一个或多个融合的基因组区域。

所述方法可进一步包括识别含一个或多个癌症频发突变的一个或多个基因组区域。识别这些频发突变可较大程度上得益于可利用数据库例如，如癌症基因组图集(TCGA)及其子集。此类数据库可作为识别选择子集合的频发突变的基因组区域的起始点。所述数据库也可提供在特定百分比的患特定癌症受试者内发生的突变样品。

所述制备选择子集合的方法可包括(a)识别多个基因组区域；

(b)按优先顺序排列多个基因组区域；及(c)筛选一个或多个包含到选择子集合中的基因组区域。下列设计策略可用于识别和优先排列包含到选择子集合中的基因组区域。三阶段可包含已知的和疑似的驱动子基因，以及已知参与临床上可操作的融合的基因组区域，而另一个三阶段可利用运算方法使所覆盖的患者数和SNVs/患者都最大化，该运算方法采用本文所描述的“复发指数”(RI)。该策略可使用初始患者数据库来评价包括选择子集合中的基因组区域的效用。用于该目的的典型数据库可包括来自至少25、至少50、至少100、至少200、至少300 或更多具体肿瘤的序列信息。所述制备选择子集合的方法可包括下列阶段的一个或多个：

·阶段1(已知驱动子)。基于之前在肿瘤中识别的SNVs模式筛选已知是目标癌症中的驱动子的基因。

·阶段2(使覆盖最大化)。为了使覆盖最大化，对在起始数据库中SNVs 覆盖≥5癌症患者的各外显子而言，筛选当与前阶段比较时识别至少1 个新患者的具有最高RI的外显子。在具有同高RI的外显子中，加入在已经由选择子捕获的患者中具有最小重叠的外显子。重复直到无更多的外显子符合这些标准。

·阶段3(RI≥30)。对在相关数据库中RI≥30并且SNVs覆盖≥3患者的各剩余外显子而言，识别导致仅有1个SNV的患者最大减少的外显子。为了在相同最好外显子中打破束缚，选择具有最高RI的外显子。重复该阶段直到无另外的外显子满足这些标准。

·阶段4(RI≥20)。重复阶段3中的程序，但是用RI≥20。

·阶段5(预测的驱动子)。加入来自之前预测在目标癌症中有隐匿驱动子突变的其他基因的所有外显子。

·阶段6(加入融合体)。向已知复发重排加入融合事件中最常涉及的内含子和侧面外显子。

应理解，然而，加入已知驱动子、预测驱动子和融合体可独立地以任何次序进行。

制备选择子集合的方法可包括(a)通过用在多个基因组区域的基因组区域中含一个或多个突变的受试者数除以该基因组区域的大小，计算患癌症受试者群体的多个基因组区域的复发指数；及(b) 基于其复发指数将所述多个基因组区域排序。

制备选择子集合的方法可包括(a)通过用在多个基因组区域的基因组区域中含一个或多个突变的受试者数除以该基因组区域的大小，计算患癌症受试者群体的多个基因组区域的复发指数；及(b) 制备包含多个基因组区域的两个或更多个基因组区域的选择子集合，通过(i)采用复发指数使用于受试者群体的选择子集合的覆盖范围最大化；和/或(ii)采用复发指数使突变中位数/受试者群体中的受试者最大化。

使受试者覆盖范围最大化可包括使用称为“复发指数”(RI) 的度量标准。RI可指在特定千碱基的基因组序列中有隐匿突变(例如，SNVs/插入/缺失)的受试者数。该度量标准可进一步通过受试者数/研究标准化使得可以比较不同研究和明确的癌症。类似的方法用于制备用于非小细胞肺癌(NSCLC)的选择子集合(参见图1b)。对一个示例的NSCLC选择子集合而言，外显子是主要基因组单元，而不认为插入/缺失是。一部分外显子可含已知体细胞突变。在该情形中，运算法则仅包括含已知由用户定义的缓冲剂侧面损害(默认，＝1个碱基)的一部分外显子的子序列。在该调节之后对各外显子可再计算 RI。运算法则可将基因组区域按RI递减顺序排列。运算法则可考虑基因组区域的子集。例如，运算法则可仅考虑RI和/或受试者数/外显子都在百分位数前P的基因组区域(默认P＝第90百分位数，但是可用户更改的)。选择子设计可通过反复穿越排列的基因组区域清单，筛选用最小的另外的空间加入另外的受试者覆盖范围的各基因组区域进行。这可以继续直到所有满足百分位数过滤器的基因组区域被评价和/或达到用户定义的最大选择子大小。

制备所述选择子集合可包括使突变中位数/受试者最大化。使突变中位数/受试者最大化可包括使用一种或多种运算法则。使突变中位数/受试者最大化可包括利用一个或多个阈值或过滤器以评价包含到所述选择子集合中的基因组区域。所述阈值或过滤器可基于复发指数。例如，所述过滤器可以是复发指数的百分位数过滤器。所述百分位数过滤器可以被放宽以允许评价包含到所述选择子集合中的另外基因组区域。所述百分位数过滤器可设置为(2/3)xP，其中P是RI 的前百分位数。阈值可为用户定义的。阈值可大于或等于2/3。或者，阈值小于或等于2/3。P也可为用户定义的。运算法则可通过按RI递减排序的基因组区域清单，反复加入最大地增加突变中位数/受试者的区域进行。在评价完所有通过百分位数过滤器的基因组区域，和/ 或如果达到所期望的选择子大小端点后，可结束该程序。通过继续放宽百分位数阈值，该程序可重复第三回或更多回。使突变中位数/受试者最大化可包括(i)基于其复发指数将两个或更多个基因组区域排序；(ii)制作包含所述基因组区域子集的基因组区域清单，其中所述清单中的基因组区域的复发指数在百分位数的前第60；及(iii)通过将基因组区域加入到初级选择子集合中并计算所述初级选择子集合中的突变中位数/受试者，制备初级选择子集合。

本文进一步公开了制备选择子集合的方法，所述方法包括(a) 获得属于一个或多个基因组区域的数据；(b)将运算法则应用于该数据以确定基因组区域：(i)在所述基因组区域中存在一个或多个突变； (ii)在该基因组区域中具有突变的受试者数；及(iii)复发指数(RI)，其中所述RI通过用在该基因组区域具有突变的受试者数除以基因组区域的大小确定；及(c)基于所述一个或多个基因组区域的复发指数制备包含一个或多个基因组区域的选择子集合。

所述方法可进一步包括再计算包含已知突变的一个或多个基因组区域的复发指数。所述已知突变的大小可小于所述基因组区域的大小。再计算复发指数可包括用在该基因组区域具有已知突变的受试者数除以该已知突变的大小。例如，基因组区域的大小可以是200 个碱基对，而所述基因组区域内的已知突变的大小可能为100个碱基对。基因组区域的复发指数可通过用在该基因组区域中具有已知突变的受试者数除以已知突变的大小(例如，100个碱基对)而不是除以整个基因组区域的大小(例如，200个碱基对)来确定。

所述方法可进一步包括基于所述复发指数将两个或更多个基因组区域排序。排序的基因组区域清单可包括按所述复发指数排序的基因组区域的子集。排序的基因组区域清单可包括满足一个或多个标准的基因组区域的子集。所述一个或多个标准可基于复发指数。例如，排序的基因组区域清单可包括复发指数的百分位数在前第90的基因组区域的子集。制备所述选择子集合可包括基于复发指数筛选一个或多个基因组区域。制备所述选择子集合可包括基于所述两个或更多个基因组区域的排序筛选一个或多个基因组区域。所述两个或更多个基因组区域可借助于运算法则排序。基于再现用于排列两个或更多个基因组区域的运算法则可与用于确定所述一个或多个基因组区域的复发指数的运算法则相同。运算法则可与用于确定复发指数的运算法则不同。

所述方法可进一步包括反复穿越排列的基因组区域清单并筛选提供加入到所建议的选择子集合的基因组区域总大小最小的另外的受试者覆盖范围的基因组区域。例如，第一基因组区域可将两个新受试者加入到所建议的选择子集合中并且所建议的选择子集合的大小可增加10个碱基对，而第二基因组区域可将两个新受试者加入到所建议的选择子集合中并且所建议的选择子集合的大小可增加100 个碱基对。该第一基因组区域与该第二基因组区域相比可被选中包含到所建议的选择子集合中。排列的基因组区域的整个清单可被贯穿。或者，一部分排列的基因组区域清单可被贯穿。例如，基因组区域的穿越和筛选可基于用户定义的最大选择子大小。一旦达到最大选择子大小，穿越排列的基因组区域清单和筛选基因组区域的步骤可结束。运算法则可用于穿越排列的基因组区域情况并用于筛选包含到选择子集合中的基因组区域。运算法则可与用于确定复发指数的运算法则相同。运算法则可与用于确定复发指数的运算法则不同。

所述方法可进一步包括反复穿越排列的基因组区域清单并筛选使在选择子集合的受试者群体中突变中位数/受试者最大化的基因组区域。可确定所建议的选择子集合的突变中位数/受试者，通过(a) 计数所建议的选择子集合的所有基因组区域中各受试者的突变数N；及(b)通过按突变数将受试者分类应用运算法则确定突变中位数。例如，所建议的选择子集合可包含10个基因组区域，该基因组区域包含9个受试者群体中的20个突变。第一个受试者可能有4个突变，第二个受试者可能有2个突变，第三个受试者可能有3个突变，第四个受试者可能有6个突变，第五个受试者可能有8个突变，第六个受试者可能有6个突变，第七个受试者可能有8个突变，第八个受试者可能有4个突变，及第九个受试者可能有2个突变。{2,2,3,4,4,6,8, 8}的中位数为4。如果包含该基因组区域增加了在选择子集合中的受试者群体的突变中位数/受试者，基因组区域可被选用于被包含到选择子集合中。例如，第一基因组区域可能含2/10的受试者中存在的一个突变，而第二基因组区域可能含3/10的受试者中存在的一个突变。第二基因组区域与第一基因组区域相比可被选中包含到选择子集合中，因为加入第二基因组区域到选择子集合中将比加入第一基因组区域产生更大增加的突变中位数/受试者。排列的基因组区域的整个清单可被贯穿。或者，一部分排列的基因组区域清单可被贯穿。例如，基因组区域的穿越和筛选可基于用户定义的最大选择子大小。一旦达到最大选择子大小，穿越排列的基因组区域清单和筛选基因组区域的步骤可结束。

制备选择子集合的方法可包括：(a)获得患癌症受试者的肿瘤样品的测序信息；(b)将该肿瘤样品的测序信息与该受试者非肿瘤样品的测序信息比较，以识别特定于该肿瘤样品的测序信息的一个或多个突变；及(c)制备包含一个或多个基因组区域的选择子集合，该基因组区域包含特定于该肿瘤样品的测序信息的一个或多个突变。该选择子集合可包含属于该一个或多个基因组区域的测序信息。该选择子集合可包含属于该一个或多个基因组区域的基因组坐标。该选择子集合可包含选择性地与该一个或多个基因组区域杂交的多个低聚核苷酸。所述多个低聚核苷酸可以是生物素化的。所述一个或多个突变包含 SNVs。所述一个或多个突变包含插入/缺失。所述一个或多个突变包含重排。制备选择子集合可包含基于本文所公开的方法识别源自于肿瘤的SNVs。制备选择子集合可包含基于本文所公开的方法识别源自于肿瘤的重排。

将本文所公开的方法应用于非小细胞肺癌中的突变基因组区域可产生如表2所示的选择子集合。按照本发明方法产生的选择子集合可识别极可能包括肿瘤序列中可识别的突变的基因组区域。该选择子集合可包括相对小的基因组区域总数和因此相对短的基因组区域累积长度，但是可提供更大的群体中可能的突变总范围。该选择子集合，因此，不需要进行逐个患者的优化。相对短的基因组区域累积长度也意味着用这些文库分析源自于癌症的无细胞DNA可能是高度灵敏的。相对短的基因组区域累积长度可使无细胞DNA的测序更深入。

按照本发明的方法产生的包含频发突变的基因组区域的选择子集合使高百分比受试者基因组区域内的患者特异性突变和/或肿瘤特异性的突变能够识别。具体地说，在这些选择子集合中，多个基因组区域内的至少一个突变可存在于至少60％的患特定癌症受试者群体中。在某些实施方案中，多个基因组区域内的至少两个突变存在于至少60％的患特定癌症受试者群体中。在特定的实施方案中，多个基因组区域内的至少三个，或甚至更多的突变存在于至少60％的患特定癌症受试者群体中。

产生选择子集合的方法，如本文所公开的，可通过程序化的计算机系统实施。因此，根据另一方面，本公开提供了产生选择子集合的计算机系统(例如，频发突变的基因组区域的文库)。此类系统可包含至少一个处理器和存储计算机可执行指令的非暂时性计算机可读媒介物，当由至少一个处理器执行时，这些指令使计算机系统执行本文所公开的方法以产生选择子集合(例如，文库)。

ctDNA检测指数

本文中所公开的方法、试剂盒和系统可包含ctDNA检测指数或其用途。一般而言，ctDNA检测指数基于存在于受试者样品中一种或多种类型突变的p-值。ctDNA检测指数可包含全部多个突变和体细胞突变类型的整体信息内容。ctDNA检测指数可与假阳性率类似。 ctDNA检测指数可基于决策树，其中由于其不存在的背景融合断点占优势和/或其中多个类型的突变的p-值可被整合。突变的类型可包括，但不限于SNVs、插入/缺失、拷贝数变体和重排。

ctDNA检测指数可用于评估选择子集合的统计学意义，该选择子集合包含含有多个类型突变的基因组区域。例如，ctDNA检测指数可用于评估包含含有SNVs和插入/缺失的基因组区域的选择子集合的统计学意义。在另一个例子中，ctDNA检测指数可用于评估包含含有SNVs和重排的基因组区域的选择子集合的统计学意义。在另一个例子中，ctDNA检测指数可用于评估包含含有重排和插入/缺失的基因组区域的选择子集合的统计学意义。在另一个例子中，ctDNA检测指数可用于评估包含含有SNVs、插入/缺失、拷贝数变体和重排的基因组区域的选择子集合的统计学意义。ctDNA检测指数的计算可基于在受试者中检测到的选择子集合的基因组区域内的突变类型(例如，分类)。例如，选择子集合可包含含有SNVs、插入/缺失、拷贝数变体和重排的基因组区域，然而，在受试者中检测到的选择子的突变类型可能是SNVs和插入/缺失。ctDNA检测指数可通过合并SNVs 的p-值和插入/缺失的p-值确定。适合于合并独立的、部分试验的任何方法都可用于合并SNVs和插入/缺失的p-值。合并SNVs和插入/ 缺失的p-值可基于Fisher法。

确定ctDNA检测指数的方法可包括(a)检测一个或多个受试者样品中的一个或多个突变的存在，其中所述一个或多个突变基于包含含有所述一个或多个突变的基因组区域的选择子集合；(b)确定该样品中存在的一个或多个突变的突变类型；及(c)基于存在于所述一个或多个样品中突变的突变类型p-值计算ctDNA检测指数。

例如，其中单一类型的突变存在于受试者样品中，ctDNA检测指数基于该单一类型突变的p-值。单一类型突变的p-值可通过蒙特卡洛取样法估算。蒙特卡洛取样法可采用依赖于重复随机取样的宽范围计算机可计算的运算法则以获得p-值。该ctDNA检测指数可等于该单一类型突变的p-值。

例如，其中在受试者肿瘤样品和血浆样品中检测到重排(例如，融合)，ctDNA检测指数基于该重排的p-值。该重排的p-值可以是0。因此，该ctDNA检测指数是该重排的p-值，它为0。

例如，其中仅在受试者肿瘤样品中而没有在受试者血浆样品中检测到重排(例如，融合)，ctDNA检测指数基于其他类型突变的 p-值。

例如，其中(a)在受试者样品中检测到SNV和插入/缺失；(b) SNV的p-值小于0.1和插入/缺失的p-值小于0.1；及(c)在受试者血浆样品中未检测到重排，ctDNA检测指数基于合并的SNVs和插入/缺失的p-值计算。适合于合并独立的、部分试验的任何方法都可用于合并SNVs和插入/缺失的p-值。SNVs和插入/缺失的p-值可根据Fisher 法合并。因此，该ctDNA检测指数是合并的SNVs和插入/缺失的p- 值。

例如，其中(a)在受试者样品中检测到SNV和插入/缺失；(b) SNV的p-值不小于0.1或插入/缺失的p-值不小于0.1；及(c)在受试者血浆样品中未检测到重排，ctDNA检测指数基于SNV的p-值。因此，该ctDNA检测指数是SNV的p-值。

如果ctDNA检测指数小于或等于0.10,0.09,0.08,0.07,0.06, 0.05,0.04,0.03,0.02,或0.01，该ctDNA检测指数可能有意义。如果 ctDNA检测指数小于或等于0.05，该ctDNA检测指数可能有意义。如果ctDNA检测指数小于或等于假阳性率(FPR)，该ctDNA检测指数可能有意义。

可基于他或她的报道基因阵列(例如，突变)采用下列规则计算受试者的ctDNA检测指数，可以任何顺序执行：

(i)对患者肿瘤中仅有单一报道基因类型的情形而言，采用相应的p- 值(按蒙特卡洛取样法估算)。

(ii)如果检测到SNV和插入/缺失报道基因，并且如果各自的p-值独立地<0.1，其p-值分别用Fisher法合并。否则，指定在选择子设计中 SNVs的优先顺序，采用该SNV的p-值。

(iii)如果在相同患者的肿瘤样品中识别的融合断点(例如，涉及ROS1, ALK,或RET)在其血浆DNA中找到，这胜过所有其他突变类型，并采用其p-值(～0)。

(iv)如果在肿瘤中检测到的融合未在相应的血浆中发现(很可能由于杂交无效)，采用任一剩余突变类型的p-值。

如果ctDNA检测指数≤0.05(≈假阳性率(FPR)≤5％)，该 ctDNA检测指数可被认为有意义，这是使CAPP-Seq灵敏度和ROC分析的特异性最大化的阈值(对完美的分类器通过欧几里得距离测定，例如，真实阳性报告(TPR)＝1和FPR＝0)。

计算ctDNA检测指数可包括确定SNVs的统计学意义。在某些实施方案中，为了评价SNVs的意义，策略是整合所有体细胞SNVs 中的cfDNA片段，进行位置特异性背景的调节，并用蒙特卡洛取样法评估整个选择子的背景等位基因的统计学意义。这使得具有潜在的高等位基因丢失率的低水平的ctDNA定量成为可能。评价SNVs的统计学意义的方法可采用下列步骤：

·对特定的cfDNA样品θ，用方程式f*＝max{0,f-(e-μ)}调节来自患者P的每个nSNVs的等位基因分数f，其中f是cfDNA中的粗等位基因分数，e是所有cfDNA样品中特定等位基因的位置特异性出错率，及μ表示平均选择子宽度背景率；

·用蒙特卡洛模拟法比较调节的平均SNV分数F*(＝(∑f^*)/n)与整个选择子的背景等位基因的零值分配；

·测定患者P的SNV p-值作为关于θ中背景等位基因的零值分配的百分位数的F*。

计算ctDNA检测指数可包括确定重排的统计学意义。可指定源自于肿瘤的基因组融合(重排)的回收率的p-值为～0，由于非常低的出错率。

计算ctDNA检测指数可包括确定插入/缺失的统计学意义。插入和缺失(插入/缺失)的分析可分别评估，采用下列步骤：

·对患者P中的每个插入/缺失而言，用Z-检验比较其在特定cfDNA样品θ中的分数与其在一个组中每个cfDNA样品中的分数(排除来自相同患者P的cfDNA样品)；其中各读出的链任选分别评估并合并到单一Z-分数中；

·如果患者P有多于1个插入/缺失，将所有插入/缺失特异性的Z-分数合并到最终的Z统计数据中。

可以整合不同突变类型的p-值以评价肿瘤负荷定量的统计学意义(例如，p-值)。因此，ctDNA检测指数，它整合了不同突变类型的p-值，可用于评价肿瘤负荷定量的统计学意义。对各样品而言，可基于所检测的多个体细胞突变的p-值整合计算ctDNA检测指数。

ctDNA检测指数可基于本文中所公开的方法测定。对样品中仅存在单一体细胞突变的情形而言，可采用相应的p-值。如果在相同患者的肿瘤样品中确定的融合断点在其cfDNA中找到，则可采用该融合断点的p-值。如果检测到SNV和插入/缺失体细胞突变，并且如果各自的 p-值独立地<0.1，可合并其各自的p-值并采用所得的p-值。如果测定 ctDNA检测指数为0.05，那么肿瘤负荷定量的p-值为0.05。ctDNA 检测指数≤0.05可提示受试者的突变在该受试者样品中是明显可检测的。ctDNA检测指数小于假阳性率(FPR)可提示受试者的突变在该受试者样品中是明显可检测的。

选择子集合的灵敏度和特异性

可选择所述选择子集合以提供所期望的灵敏度和/或特异性。

正如本领域所知，预测性模型的相对灵敏度和/或特异性可“调整”到有利于要么选择性度量要么灵敏度度量，其中这两个度量具有相反的关系。灵敏度和特异性之一或两者可为至少约0.6，至少约0.65，至少约0.7，至少约0.75，至少约0.8，至少约0.85，至少约0.9或更高。

灵敏度和特异性可能是选择子集合发挥功能的性能统计学测量。例如，选择子集合的灵敏度可用于评估选择子集合的用途以正确地诊断或预测受试者癌症的状态或结果。选择子集合的灵敏度可测量正确地确定为患有癌症的受试者的比例。选择子集合的灵敏度也可测量选择子集合的用途以正确地筛选受试者中的癌症。选择子集合的灵敏度也可测量选择子集合的用途以正确地诊断受试者中的癌症。选择子集合的灵敏度也可测量选择子集合的用途以正确地预测受试者中的癌症。选择子集合的灵敏度也可测量选择子集合的用途以正确地识别作为治疗方案响应者的受试者。灵敏度可为至少约60％,61％,62％,63％,64％,65％,66％,67％,68％,69％,70％或更高。灵敏度可为至少约72％,75％,77％,80％,82％,85％,87％,90％,92％,95％,97％或更高。

灵敏度可随肿瘤阶段而变化。I期肿瘤的灵敏度可为至少约 50％，至少约52％，至少约55％，至少约57％，至少约60％，至少约62％，至少约65％，至少约67％，至少约70％，至少约72％，至少约75％，至少约77％，至少约80％，至少约85％，至少约87％，至少约90％，至少约92％，至少约95％，至少约98％，至少约99％或更高。I期肿瘤的灵敏度可为至少约50％。I期肿瘤的灵敏度可为至少约65％。I期肿瘤的灵敏度可为至少约72％。I期肿瘤的灵敏度可为至少约75％。I期肿瘤的灵敏度可为至少约85％。I期肿瘤的灵敏度可为至少约92％。

II期肿瘤的灵敏度可为至少约50％，至少约52％，至少约55％，至少约57％，至少约60％，至少约62％，至少约65％，至少约67％，至少约70％，至少约72％，至少约75％，至少约77％，至少约80％，至少约85％，至少约87％，至少约90％，至少约92％，至少约95％，至少约98％，至少约99％或更高。II期肿瘤的灵敏度可为至少约60％。II期肿瘤的灵敏度可为至少约75％。II期肿瘤的灵敏度可为至少约 85％。II期肿瘤的灵敏度可为至少约92％。

III期肿瘤的灵敏度可为至少约50％，至少约52％，至少约 55％，至少约57％，至少约60％，至少约62％，至少约65％，至少约67％，至少约70％，至少约72％，至少约75％，至少约77％，至少约80％，至少约85％，至少约87％，至少约90％，至少约92％，至少约95％，至少约98％，至少约99％或更高。III期肿瘤的灵敏度可为至少约60％。III期肿瘤的灵敏度可为至少约75％。III期肿瘤的灵敏度可为至少约85％。III期肿瘤的灵敏度可为至少约92％。

IV期肿瘤的灵敏度可为至少约50％，至少约52％，至少约 55％，至少约57％，至少约60％，至少约62％，至少约65％，至少约67％，至少约70％，至少约72％，至少约75％，至少约77％，至少约80％，至少约85％，至少约87％，至少约90％，至少约92％，至少约95％，至少约98％，至少约99％或更高。IV期肿瘤的灵敏度可为至少约60％。IV期肿瘤的灵敏度可为至少约75％。IV期肿瘤的灵敏度可为至少约85％。IV期肿瘤的灵敏度可为至少约92％。

健康者对照的灵敏度可为至少约60％,至少约65％,至少约 70％,至少约75％,至少约80％，至少约85％，至少约87％，至少约90％，至少约92％，至少约95％，至少约98％，至少约99％或更高。

AUC值也可随肿瘤阶段而变化。I期癌症的AUC值可为至少约0.50，至少约0.52，至少约0.55，至少约0.57，至少约0.60，至少约0.62，至少约0.65，至少约0.67，至少约0.70，至少约0.72，至少约0.75，至少约0.77，至少约0.80，至少约0.82，至少约0.85，至少约0.87，至少约0.90，至少约0.92，至少约0.95，至少约0.97或更大。I期癌症的AUC值可为至少约0.50。I期癌症的AUC值可为至少约0.55。I期癌症的AUC值可为至少约0.60。I期癌症的AUC值可为至少约0.70。I期癌症的AUC值可为至少约0.75。I期癌症的 AUC值可为至少约0.80。

II期癌症的AUC值可为至少约0.50，至少约0.52，至少约 0.55，至少约0.57，至少约0.60，至少约0.62，至少约0.65，至少约 0.67，至少约0.70，至少约0.72，至少约0.75，至少约0.77，至少约 0.80，至少约0.82，至少约0.85，至少约0.87，至少约0.90，至少约 0.92，至少约0.95，至少约0.97或更大。II期癌症的AUC值可为至少约0.50。II期癌症的AUC值可为至少约0.55。II期癌症的AUC值可为至少约0.60。II期癌症的AUC值可为至少约0.70。II期癌症的 AUC值可为至少约0.75。II期癌症的AUC值可为至少约0.80。II期癌症的AUC值可为至少约0.90。II期癌症的AUC值可为至少约0.95。

III期癌症的AUC值可为至少约0.50，至少约0.52，至少约 0.55，至少约0.57，至少约0.60，至少约0.62，至少约0.65，至少约 0.67，至少约0.70，至少约0.72，至少约0.75，至少约0.77，至少约 0.80，至少约0.82，至少约0.85，至少约0.87，至少约0.90，至少约 0.92，至少约0.95，至少约0.97或更大。III期癌症的AUC值可为至少约0.50。III期癌症的AUC值可为至少约0.55。III期癌症的AUC 值可为至少约0.60。III期癌症的AUC值可为至少约0.70。III期癌症的AUC值可为至少约0.75。III期癌症的AUC值可为至少约0.80。 III期癌症的AUC值可为至少约0.90。III期癌症的AUC值可为至少约0.95。

IV期癌症的AUC值可为至少约0.50，至少约0.52，至少约 0.55，至少约0.57，至少约0.60，至少约0.62，至少约0.65，至少约 0.67，至少约0.70，至少约0.72，至少约0.75，至少约0.77，至少约 0.80，至少约0.82，至少约0.85，至少约0.87，至少约0.90，至少约 0.92，至少约0.95，至少约0.97或更大。IV期癌症的AUC值可为至少约0.50。IV期癌症的AUC值可为至少约0.55。IV期癌症的AUC 值可为至少约0.60。IV期癌症的AUC值可为至少约0.70。IV期癌症的AUC值可为至少约0.75。IV期癌症的AUC值可为至少约0.80。 IV期癌症的AUC值可为至少约0.90。IV期癌症的AUC值可为至少约0.95。

健康者对照的AUC值可为至少约0.70，至少约0.75，至少约0.80，至少约0.85，至少约0.90，至少约0.95。

选择子的特异性可测量正确地确定为未患癌症的受试者的比例。选择子集合的特异性也可测量选择子集合的用途以正确地诊断受试者中没有癌症。选择子集合的特异性也可测量选择子集合的用途以正确地识别作为治疗方案的非响应者的受试者。所述特异性可为至少约60％,61％,62％,63％,64％,65％,66％,67％,68％,69％,70％或更大。所述特异性可为至少约72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或更大。

基于对受试者样品的选择子集合中的一个或多个基因组区域内的一个或多个突变的检测，所述选择子集合可用于检测、诊断和 /或预测受试者中癌症的状态或结果。选择子集合检测、诊断和/或预测受试者中癌症的状态或结果的灵敏度和/或特异性可通过ctDNA检测指数调整(例如，调节/修改)。ctDNA检测指数可用于评估用选择子集合检测的受试者样品中的突变类型的统计学意义。ctDNA检测指数可用于确定用该选择子集合检测的一个或多个突变类型是否有意义。例如，ctDNA检测指数可确定用该选择子集合检测的第一个受试者中的突变类型有统计学意义，这可导致诊断出该第一个受试者中有癌症。ctDNA检测指数可确定用该选择子集合检测的第二个受试者中的突变类型无统计学意义，这可导致诊断出该第二个受试者中无癌症。如此，ctDNA检测指数可影响选择子集合检测、诊断和/或预测受试者中癌症状态或结果的灵敏度和/或特异性的分析。

重排的识别

本文进一步公开了识别重排的方法。所述重排可以是基因组融合事件和/或断点。该方法可用于ctDNA样品的重新分析。或者，该方法可用于已知肿瘤/种系DNA样品的分析。该方法可包括启发式近似法。通常，该方法可包括(a)获得配对末端读数、外显子坐标、对照基因组或其组合的比对文件；及(b)将运算法则应用于来自该比对文件的信息以识别一个或多个重排。该运算法则可用于属于一个或多个基因组区域的信息。该运算法则可用于与一个或多个基因组区域重叠的信息。

该方法可称为FACTERA(FACile易位枚举和恢复算法)。作为输入，FACTERA可采用配对末端读数、外显子坐标和对照基因组的比对文件。另外，分析可任选限制于重叠特定基因组区域的读数。 FACTERA可以三个连续的阶段处理输入：识别不一致的读数，以碱基对分辨率检测断点，及用计算机验证候选物融合。

本文进一步公开了识别重排的方法，该方法包括(a)获得属于多个基因组区域的测序信息；(b)制作与一个或多个候选物重排位点邻近的基因组区域清单；(c)将运算法则应用于验证候选物重排位点，从而识别重排。

所述测序信息可包括比对文件。该比对文件可包括配对末端读数、外显子坐标和对照基因组的比对文件。该测序信息可从数据库获得。该数据库可包括属于患疾病或病症的受试者群体的测序信息。该数据库可以是药物基因组学数据库。该测序信息可从一个或多个受试者的一个或多个样品中获得。

制作与一个或多个候选物重排位点邻近的基因组区域清单可包括基于测序信息识别不一致的读数对。不一致的读数对可指读数及其配偶体，其中插入片段大小不等于(例如，大于或小于)所期望的数据集分配，或其中读数的定位方向是意料之外的(例如，两者都在相同链上)。制作与一个或多个候选物重排位点邻近的基因组区域清单可包括基于测序信息将不一致的读数对分类。

不一致的读数对可由NGS文库准备和/或测序人工制品(例如，跳跃式PCR)引入。然而，它们也可能位于真正的融合事件的断点的侧面。制作与一个或多个候选物重排位点邻近的基因组区域清单可进一步包括将基因组区域排序。基因组区域可按不一致的读数深度的递减顺序排序。所述方法可进一步包括排除复制片段。制作与一个或多个候选物重排位点邻近的基因组区域清单可包括筛选具有最小用户定义的读数深度的基因组区域。该读数深度可为至少2x,3x,4x, 5x,6x,7x,8x,9x,10x或更多。该读数深度可为至少约2x。

制作与一个或多个候选物融合位点邻近的基因组区域清单可包括使用一种或多种运算法则。所述运算法则可恰当地分析成对的读数，其中两个读数之一是“软-剪的”或是被截的。软-剪可指缩短成对的读数的一端或多端。软-剪可通过从所述成对的读数中消除少于或等于10,9,8,7,6,5,4,3,2,1个碱基或碱基对缩短一端或多端。软- 剪可包括从所述成对的读数消除至少一个碱基或碱基对。软-剪可包括从所述成对读数的一端消除至少一个碱基或碱基对。软-剪可包括从所述成对读数的两端消除至少一个碱基或碱基对。软-剪的读数可允许精确的断点确定。该精确断点可通过分解与各定位读数相关的 CIGAR线来识别，这细密地指定了用于各碱基的比对操作(例如定位My＝y邻近碱基，跳过了Sx＝x碱基)。所述运算法则可用特定的模式分析软-剪的读数。例如，所述运算法则可用下列模式分析软- 剪的读数，SxMy或MySx。跳过的碱基数x可具有最小要求。通过设置跳过的碱基数x的最小要求，可减少非特定序列比对的影响。跳过的碱基数可至少为10,11,12,13,14,15,16,17,18,19,20,21,22,23, 24,25或更多。跳过的碱基数可至少为16。跳过的碱基数可以为用户定义的。邻近碱基数y也可为用户定义的。

运算法则可用于验证候选物重排位点。所述运算法则可确定所述候选物重排位点的读出频率。所述运算法则可排除不符合最小读出频率的候选物重排位点。该最小读出频率可为用户定义的。该最小读出频率可为至少约2,3,4,5,6,7,8,9,10或更多个读数。该最小读出频率可为至少约2个读数。所述运算法则可基于所述读出频率排列该候选物重排位点。候选物重排位点可包含多个软-剪的读数。所述运算法则可为候选物重排位点筛选有代表性的软-剪的读数。筛选有代表性的软-剪的读数可基于选择长度最接近于该读数长度一半的软 -剪的读数。如果有代表性的软-剪的读数的定位区域与该候选物重排位点的另一个软-剪的读数的定位区域相匹配，该运算法则可将该候选物重排位点标注为重排事件。如果有代表性的软-剪的读数的定位区域与该候选物重排位点的另一个软-剪的读数的定位区域相匹配，该运算法则可将该候选物重排位点确定为重排。如果有代表性的软- 剪的读数的定位区域与该候选物重排位点的另一个软-剪的读数的定位区域相匹配，该运算法则可将该候选物重排位点标注为融合事件。将所述运算法则应用于验证候选物重排可包括将该候选物重排确定为重排，如果所述两个或更多个读数具有序列比对。

验证候选物重排位点可进一步包括将运算法则应用于评价读数间一致性。该运算法则可通过将候选物重排位点软-剪的序列的第一序列读数分成多个用户定义的长度k的可能的子序列评价读数间一致性。软-剪的序列的第二序列读数可被分成长度为k的子序列。该第二序列读数大小为k的子序列可与第一测序读数比较，从而确定所述两个读数的一致性。例如，候选物融合的软-剪的序列可能是100 个碱基而该软-剪的序列可再分成10个碱基的用户定义的长度。该长度为10的子序列可从第一读数中提取并存储。第二读数可通过在该第二读数中筛选10个碱基的子序列与该第一读数比较。用户定义的长度可使该第二读数的部分与该第一读数的软-剪的(例如，非定位的)部分联合成复合序列，然后评价该序列的改进定位性质。验证所述候选物重排可包括将第一读数分成k-mers的子序列。为了迅速地与该第一读数比较，第二读数可分成k-mers。如果任何k-mers重叠第一读数，计数它们并用于评价序列的相似性。如果达到最小匹配阈值，这两个读数可认为是一致的。最小匹配阈值可以是用户定义的值。最小匹配阈值可以是被比较的两个序列最短长度的50％。例如，第一序列读数可能是100个碱基而第二序列读数可能是130个碱基。最小匹配阈值可为50个碱基(例如，100个碱基乘以0.50)。最小匹配阈值可以是被比较的两个序列最短长度至少10％,20％,25％,30％, 35％,40％,45％,50％,55％,60％,65％,70％,75％,或80％。该运算法则可处理各不一致的基因(或基因组区域)对的100,200,300,400,500, 600,700,800,900,1000,1500,2000或更多假定的断点对。该运算法则处理的假定的断点对数可为用户定义的。此外，对基因对而言，该运算法则可比较其方向与有效融合一致的读数。此类读数可具有面向相反方向的软-剪的序列。当该条件未满足时，该运算法则可采用读数1的相反补充进行k-mer分析。

在某些情况中，位于真实断点侧面的基因组子序列可几乎或完全相同，引起软-剪的读数的比对的部分重叠。这可防止该断点的单值确定。如此，运算法则可用于调节一个读数(例如，读数2)中的断点使与另一个(例如，读数1)匹配。对读数而言，该运算法则可计算该断点与相应于读数之间该第一k-mer匹配的读数坐标之间的距离。例如，将x定义为读数1的断点坐标与第一匹配k-mer指数之间的距离，j,和y定义为读数2的相应距离。那么，偏移被评定为这两个读数之间距离(x,y)的差。因此，例如如果其中融合事件不能不含糊地基于序列读数确定，那么运算法则用于确定融合位点。

所述方法可进一步包括用计算机验证候选物重排位点。运算法则可进行候选物重排位点的读数相对对照重排序列的局部重新比对。对照重排序列可从对照基因组获得。局部比对可以是位于该候选物重排位点侧面的序列。该局部比对可以是该候选物重排位点100, 200,300,400,500,600,700,800,900,或1000或更多个碱基对中的序列。该局部比对可以是该候选物重排位点500个碱基对中的序列。 BLAST可用于比对所述序列。BLAST数据库可通过收集定位至候选物融合序列的读数构建，这些读数包括不一致读数和软-剪的读数，以及在最初输入文件中未定位的读数。定位至具有用户定义的同一性 (例如，至少95％)和/或所比对的序列长度的对照重排序列的读数是该输入读数长度的用户定义的百分比(例如，90％)。可计数围绕或位于该断点侧面的读数。该用户定义的同一性可为至少约70％, 75％,80％,85％,90％,95％,97％或更多。所比对的序列长度可为该输入读数长度(例如，候选物重排序列的读数长度)的至少约70％,75％, 80％,85％,90％,或95％或更多。输出冗余度可通过消除至少20个碱基对的间隔或更多的具有更大读数支持和具有相同序列方向(以避免消除相互融合)的融合序列内的融合序列最小化。

所述方法可进一步包括产生属于重排的输出。该输出可包括下列基因对、重排的基因组坐标、重排的方向(例如，向前-向前或向前-向后)、该重排50bp内的基因组序列，及围绕该重排并位于该重排侧面的读数的深度统计数字中的一个或多个。

所述方法可进一步包括列举融合等位基因频率。例如，被测序cfDNA中的融合等位基因频率可按照本文所公开的及实施例1列举。融合等位基因频率可按α/β计算，其中α是断点围绕的读数数，而β是在该断点周围预定距离的基因组区域内的平均总深度。因此，融合等位基因频率可通过将重排围绕的读数数除以在该断点周围预定距离的基因组区域内的平均总深度计算。

识别重排的方法可应用于全基因组测序数据或其他适合的下一代测序数据集。包含由该数据识别的重排的基因组区域可用于设计选择子集合。

识别重排的方法可应用于受试者的测序数据。该方法可识别选择子集合捕获的肿瘤基因组DNA中的特定受试者的断点。该方法可用于确定特定受试者的断点是否存在于该受试者的血浆DNA样品中。

源自于肿瘤的SNVs的识别

本文进一步公开了识别源自于肿瘤的SNVs的无创性方法。

源自于肿瘤的SNVs可以在未知在相应肿瘤活检样品中识别的体细胞变异的之前被识别。在本发明的某些实施方案中，未与患者已知肿瘤 DNA样品比较即可分析cfDNA。在此类实施方案中，cfDNA的存在采用迭代模型用于(i)成对种系DNA中的背景噪音，(ii)整个选择子集合中的cfDNA的碱基对分辨率背景频率，及(iii)cfDNA中的测序错误。这些方法可采用下列步骤，这些步骤可通过数据点迭代以自动呼叫源自于肿瘤的SNVs：

·从单一cfDNA样品中取得等位基因频率并选择高质量的数据；

·测试特定的输入cfDNA等位基因是否与相应成对的种系等位基因明显不同；

·汇集cfDNA背景等位基因频率的数据库；

·测试特定的输入等位基因是否与相同位置的cfDNA背景明显不同，并筛选那些具有预定阈值的平均背景频率，例如5％或更大；2.5％或更大等。

·通过异常值分析从剩余背景噪音中区别源自于肿瘤的SNVs。

所述识别源自于肿瘤的SNVs的无创性方法可包括(a)获得患癌症或怀疑患癌症的受试者的样品；(b)对该样品进行测序反应以产生测序信息；及(c)基于步骤(b)的测序信息将运算法则应用于该测序信息以形成候选物肿瘤等位基因清单，其中候选物肿瘤等位基因包含不是种系SNP的非显性碱基；及(d)基于候选物肿瘤等位基因清单识别源自于肿瘤的SNVs。候选物肿瘤等位基因可指包含候选物SNV的基因组区域。

候选物肿瘤等位基因可以是高质量候选物肿瘤等位基因。高质量背景等位基因可指具有最高丰度分数的非显性碱基，不包括种系 SNPs。候选物肿瘤等位基因的丰度分数可通过将支持性读数数除以该基因组位置的总测序深度计算。例如，对第一基因组区域中的候选物突变而言，二十个序列读数可包含具有候选物突变的第一序列而 100个序列读数可含有无候选物突变的第二序列。该候选物肿瘤等位基因可以是含候选物突变的第一序列。基于该实例，候选物肿瘤等位基因的丰度分数将为20除以120，即～17％。制作候选物肿瘤等位基因清单可包括基于其丰度分数排列该肿瘤等位基因。制作候选物肿瘤等位基因清单可包括筛选具有最高丰度分数的肿瘤等位基因。制作候选物肿瘤等位基因清单可包括筛选具有丰度分数在百分位数前第70、第75、第80、第85、第87、第90、第92、第95、或第97的肿瘤等位基因。候选物肿瘤等位基因的丰度分数可为小于属于受试者样品中候选物肿瘤等位基因的总等位基因的35％,30％,27％,25％,20％, 18％,15％,13％,10％,9％,8％,7％,6.5％,6％,5.5％,5％,4.5％,4％, 3.5％,3％,2.5％,2％,1.75％,1.50％,1.25％,或1％。候选物肿瘤等位基因的丰度分数可为小于属于受试者样品中候选物肿瘤等位基因的总等位基因的1％,0.9％,0.8％,0.7％,0.6％,0.5％,0.4％,0.3％,0.2％,或0.1％。候选物肿瘤等位基因的丰度分数可为小于受试者样品中总等位基因的0.5％。该样品可包含来自受试者的成对样品。因此，该丰度分数可基于受试者的成对样品。成对样品可包含含疑似源自于肿瘤的核酸的样品及含非源自于肿瘤的核酸的样品。例如，所述成对样品可包含血浆样品及含外周血淋巴细胞(PBLs)或外周血单核细胞(PBMCs) 的样品。

候选物肿瘤等位基因可具有最小测序深度。制备候选物肿瘤等位基因清单可包括基于其测序深度排列肿瘤等位基因。制备候选物肿瘤等位基因清单可包括筛选满足最小测序深度的肿瘤等位基因。最小测序深度可为至少100x,200x,300x,400x,500x,600x,700x,800x, 900x,1000x或更多。最小测序深度可为至少约500x。最小测序深度可为用户定义的。

候选物肿瘤等位基因可具有链偏差百分比。制备候选物肿瘤等位基因清单可包括计算肿瘤等位基因的链偏差百分比。制备候选物肿瘤等位基因清单可包括基于其链偏差百分比排列肿瘤等位基因。制备候选物肿瘤等位基因清单可包括筛选链偏差百分比小于或等于 60％,65％,70％,75％,80％,85％,90％,95％,或97％的肿瘤等位基因。制备候选物肿瘤等位基因清单可包括筛选链偏差百分比小于或等于 90％的肿瘤等位基因。链偏差百分比可为用户定义的。

制备候选物肿瘤等位基因清单可包括将该肿瘤等位基因序列与对照肿瘤等位基因序列比较。对照肿瘤等位基因可以是种系等位基因。制备候选物肿瘤等位基因清单可包括确定该候选物肿瘤等位基因是否与对照肿瘤等位基因不同。制备候选物肿瘤等位基因清单可包括筛选不同于对照肿瘤等位基因的肿瘤等位基因。

确定肿瘤等位基因是否与对照肿瘤等位基因不同可包括采用一种或多种统计学分析方法。所述统计学分析方法可包括用Bonferroni校正法计算肿瘤等位基因的Bonferroni法调整的二项式概率。Bonferroni法调整的二项式概率可通过所期望的p-值截止点(α) 除以所测试的假设数计算。所测试的假设数可通过选择子中的碱基数乘以可能的碱基变化数计算。Bonferroni法调整的二项式概率可通过所期望的p-值截止点(α)除以选择子中的碱基数再乘以可能的碱基变化数计算。Bonferroni法调整的二项式概率可用于确定肿瘤等位基因是否偶然出现。制备候选物肿瘤等位基因清单可包括基于Bonferroni法调整的二项式概率筛选肿瘤等位基因。候选物肿瘤等位基因的Bonferroni法调整的二项式概率可为小于或等于3x10^-8,2.9 x10^-8,2.8x10^-8,2.7x10^-8,2.6x10^-8,2.5x10^-8,2.3x10^-8,2.2x10^-8,2.1 x10^-8,2.09x10^-8,2.08x10^-8,2.07x10^-8,2.06x10^-8,2.05x10^-8,2.04x10^-8, 2.03x10^-8,2.02x10^-8,2.01x10^-8或2x10^-8。候选物肿瘤等位基因的Bonferroni法调整的二项式概率可为小于或等于2.08x10^-8。

确定肿瘤等位基因是否与对照肿瘤等位基因不同可包括采用二项式分布。所述二项式分布可用于装配候选物肿瘤等位基因频率的数据库。运算法则，例如Z-检验，可用于确定候选物肿瘤等位基因是否与相同位置的典型循环等位基因明显不同。明显不同可指不可能偶然发生的差别。Z-检验可应用于肿瘤等位基因的Bonferroni法调整的二项式概率以产生Bonferroni法调整的单尾Z-分数。Bonferroni 法调整的单尾Z-分数可用正常分布测定。Bonferroni法调整的单尾 Z-分数大于或等于6,5.9,5.8,5.7,5.6,5.5.,5.4,5.3,5.2,5.1,或5.0的肿瘤等位基因被认为与对照肿瘤等位基因不同。制备候选物肿瘤等位基因清单可包括筛选Bonferroni法调整的单尾Z-分数大于或等于6, 5.9,5.8,5.7,5.6,5.5.,5.4,5.3,5.2,5.1,或5.0的肿瘤等位基因。制备候选物肿瘤等位基因清单可包括筛选Bonferroni法调整的单尾Z-分数大于5.6的肿瘤等位基因。

候选物肿瘤等位基因可基于选择子集合的基因组区域。候选物肿瘤等位基因清单可包括频率小于或等于10％,9％,8％,7％,6.5％, 6％,5.5％,5％,4.5％,4％,3.5％,或3％的候选物肿瘤等位基因。候选物肿瘤等位基因清单可包括频率小于5％的候选物肿瘤等位基因。

基于所述候选物肿瘤等位基因清单识别源自于肿瘤的SNVs 可包括测试来自该候选物肿瘤等位基因清单的候选物肿瘤等位基因的测序错误。测试候选物肿瘤等位基因的测序错误可基于该候选物肿瘤等位基因的复制速度。复制速度可通过比较候选物肿瘤等位基因的支持性读数的非重复数据删除(nondeduped)数据(例如，符合质量控制标准的所有片段)与重复数据删除数据(例如，符合质量控制标准的唯一片段)确定。候选物肿瘤等位基因可基于其复制速度排列。源自于肿瘤的SNV可在候选物肿瘤等位基因具有低复制速度。

识别源自于肿瘤的SNVs可进一步包括采用异常值分析。所述异常值分析可用于从剩余背景噪音中辨别源自于候选物肿瘤的 SNVs。所述异常值分析可包括比较鲁棒距离Rd(马氏距离 (Mahalanobis distance))的平方根与卡方分布Cs分位数的平方根。源自于肿瘤的SNVs可从异常值分析中的异常值识别。

所述测序信息可属于位于选择子集合的一个或多个基因组区域侧面的区域。所述测序信息可属于位于选择子集合的基因组坐标侧面的区域。所述测序信息可属于选择子集合的基因组区域的100, 200,300,400,500,600,700,800,900,1000或更多个碱基对内的区域。所述测序信息可属于选择子集合的基因组区域的500个碱基对内的区域。所述测序信息可属于选择子集合的基因组坐标的100,200,300, 400,500,600,700,800,900,1000或更多个碱基对内的区域。所述测序信息可属于选择子集合的基因组坐标的500个碱基对内的区域。

计算机程序

本文中所描述的方法可通过计算机程序产品实施，所述计算机程序产品包括录制在计算机可读媒介物中的计算机可执行逻辑。例如，所述计算机程序可执行某些或所有下列功能：(i)控制从样品中分离核酸，(ii)预扩增该样品中的核酸或(iii)筛选、扩增、测序或排列该样品中的特定区域，(iv)识别和定量样品中的体细胞突变，(v)比较从该样品检测到的体细胞突变数据与预定阈值，(vi)基于该cfDNA中体细胞突变的存在确定肿瘤负担，及(vii)宣布肿瘤负担、残余疾病、对疗法的响应或最初诊断的评估结果。该计算机程序可计算复发指数。该计算机程序可按复发指数排列基因组区域。该计算机程序可基于复发指数选择一个或多个基因组区域。该计算机程序可制备选择子集合。该计算机程序可将基因组区域加入到选择子集合中。该计算机程序可使该选择子集合的受试者范围最大化。该计算机程序可使突变中位数/群体中受试者最大化。该计算机程序可计算ctDNA检测指数。

该计算机程序可计算一种或多种类型的突变的p-值。该计算机程序可识别存在于一个或多个患癌症受试者中的包含一个或多个突变的基因组区域。该计算机程序可识别存在于一个或多个患癌症受试者中的新突变。该计算机程序可识别存在于一个或多个患癌症受试者中的新融合。

所述计算机可执行逻辑可在任何计算机中工作，该计算机可以是各种类型的多种用途计算机例如个人电脑、网络服务器、工作站、或目前或稍后开发的其他计算机平台中的任何一个。在某些实施方案中，计算机程序产品被描述成包含存储于其中的具有计算机可执行逻辑(计算机软件程序，包括程序编码)的计算机可用媒介物。计算机可执行逻辑可通过处理器执行，使该处理器实施本文中所描述的功能。在其他实施方案中，某些功能主要在计算机硬件中实施，例如，采用硬件状态机。为了实施本文中所描述的功能安装硬件状态机对相关领域中的技术人员而言将是显而易见的。

程序可提供通过获取反映所选择的个体cfDNA序列，和/或该个体循环中cfDNA的一个或多个核酸的定量的数据评估个体中肿瘤细胞存在的方法。待定量的循环中cfDNA的一个或多个核酸可基于由选择子集合提供的基因组区域或基因组坐标。

在一个实施方案中，执行本发明的计算机逻辑的计算机也可包括数字输入设备例如扫描仪。该数字输入设备可提供核酸信息，例如多态性水平/量。

在某些实施方案中，本发明提供了包含记录在其上的一组指令的计算机可读媒介物以使计算机进行步骤(i)接收样品中所检测的一个或多个核酸的数据；及(ii)诊断或预测肿瘤负担、残余疾病、对疗法的响应或基于定量的最初诊断结果。

测序

将ctDNA基因分型和/或ctDNA的检测、识别和/定量可采用测序。测序可用高通量系统完成。在某些情形中，高通量测序产生至少1,000,至少5,000,至少10,000,至少20,000,至少30,000,至少 40,000,至少50,000,至少100,000或至少500,000个序列读数/小时；各读数至少50,至少60,至少70,至少80,至少90,至少100,至少 120或至少150个碱基/读数。测序可采用本文所描述的核酸例如来自RNA转录或RNA作为模板的基因组DNA、cDNA进行。测序可包括大规模平行测序。

在某些实施方案中，高通量测序涉及采用太阳神生物科学公司(剑桥，马萨诸塞州)[Helicos BioSciences Corporation(Cambridge, Massachusetts)]的技术例如通过合成单分子测序法[Single Molecule Sequencing by Synthesis(SMSS)]。在某些实施方案中，高通量测序涉及采用454Lifesciences,Inc.(Branford,Connecticut)的技术例如Pico Titer Plate设备，该设备包括纤维光学板，该光学板传送通过待由该仪器中CDD照相机记录的测序反应产生的化学发光信号。该纤维光学板的使用使得在4.5小时内检测最少2千万碱基对成为可能。

在某些实施方案中，高通量测序采用克隆单分子阵列(Solexa, Inc.)或利用可逆终止子化学的通过合成测序法 [sequencing-by-synthesis(SBS)]进行。这些技术在部分地在美国专利 Nos.6,969,488；6,897,023；6,833,246；6,787,308，和美国公布申请Nos.200401061 30；20030064398；20030022207及Constans,A,The Scientist 2003,17(13):36中有描述。

在某些实施方案中，RNA或DNA的高通量测序可用AnyDot. 芯片(Genovoxx,Germany)进行，该芯片使得监控生物进程[例如， miRNA表达或等位基因变异性(SNP检测)]成为可能。尤其是， AnyDot芯片能使核苷酸荧光信号检测增强10倍–50倍。其他高通量测序系统包括Venter,J.,et al.Science，2001年2月16日；Adams,M. et al,Science，2000年3月24日；及M.J,Levene,et al.Science， 299:682-686,2003年1月；以及美国公布申请No.20030044781和 2006/0078937中所公开的那些系统。使核酸链生长及识别所加的核苷酸类似物可能被重复，以便该核酸链进一步延伸，并确定靶核酸的序列。

本文所公开的方法可包括基于选择子集合的一个或多个基因组区域进行测序反应。所述选择子集合可包括一个或多个表2的基因组区域。测序反应可在基于表2的选择子集合的10,20,30,40,50, 60,70,80,90,100或更多基因组区域上进行。测序反应可在基于表2 的选择子集合的5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多基因组区域上进行。

测序反应可在选择子集合的基因组区域子集上进行。测序反应可在选择子集合的10,20,30,40,50,60,70,80,90,100,110,120, 130,140,150,160,170,180,190,200,210,220,230,240,250,260,270, 280,290,300或更多基因组区域上进行。测序反应可在选择子集合的 325,350,375,400,425,450,475,500或更多基因组区域上进行。

测序反应可在选择子集合的所有基因组区域上进行。或者，测序反应可在选择子集合的5％、10％,15％,20％,25％,30％,35％, 40％,45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,95％或更多基因组区域上进行。测序反应可在选择子集合的至少10％基因组区域上进行。测序反应可在选择子集合的至少30％基因组区域上进行。测序反应可在选择子集合的至少50％基因组区域上进行。

测序反应可在选择子集合的少于5％,10％,15％,20％,25％, 30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％, 90％,95％基因组区域上进行。测序反应可在选择子集合的少于10％基因组区域上进行。测序反应可在选择子集合的少于30％基因组区域上进行。测序反应可在选择子集合的少于50％基因组区域上进行。

本文所公开的方法可包括获得选择子集合的一个或多个基因组区域的测序信息。可获得基于表2的选择子集合的10,20,30,40, 50,60,70,80,90,100或更多基因组区域的测序信息。可获得基于表2 的选择子集合的5％,10％,15％,20％,25％,30％,35％,40％,45％,50％, 55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多基因组区域的测序信息。

可获得选择子集合的基因组区域子集的测序信息。可获得选择子集合的10,20,30,40,50,60,70,80,90,100,110,120,130,140, 150,160,170,180,190,200,210,220,230,240,250,260,270,280,290, 300或更多基因组区域的测序信息。可获得选择子集合的325,350, 375,400,425,450,475,500或更多基因组区域的测序信息。

可获得选择子集合的所有基因组区域的测序信息。或者，可获得选择子集合的5％,10％,15％,20％,25％,30％,35％,40％,45％, 50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多基因组区域的测序信息。可获得选择子集合的至少10％基因组区域的测序信息。可获得选择子集合的至少30％基因组区域的测序信息。

可获得选择子集合的少于5％,10％,15％,20％,25％,30％, 35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或 95％基因组区域的测序信息。可获得选择子集合的少于10％基因组区域的测序信息。可获得选择子集合的少于30％基因组区域的测序信息。可获得选择子集合的少于50％基因组区域的测序信息。可获得选择子集合的少于70％基因组区域的测序信息。

扩增

本文所公开的方法可包括脱细胞DNA(cfDNA)和/或循环肿瘤DNA(ctDNA)的扩增。扩增可包括基于PCR的扩增。或者，扩增可包括非基于PCR的扩增。

cfDNA和/或ctDNA的扩增可包括采用珠扩增接着采用 Marguiles et al."在微量制备的高密度pricolitre反应器中的基因组测序(Genome sequencing inmicrofabricated high-density pricolitre reactors)",Nature,doi:10.1038/nature03959；以及美国公布申请Nos. 20020012930；20030058629；20030100102；20030148344；20040248 161；20050079510,20050124022；和20060078909中所描述的纤维光学检测。

核酸的扩增可包括采用一个或多个聚合酶。该聚合酶可以是 DNA聚合酶。该聚合酶可以是RNA聚合酶。该聚合酶可以是高保真聚合酶。该聚合酶可以是KAPA HiFi DNA聚合酶。该聚合酶可以是 Phusion DNA聚合酶。

扩增可包括20或更少的扩增周期。扩增可包括20,19,18,17, 16,15,14,13,12,11,10,或9或更少的扩增周期。扩增可包括18或更少的扩增周期。扩增可包括16或更少的扩增周期。扩增可包括15 或更少的扩增周期。

样品

本文所公开的方法、试剂盒和系统可包括一个或多个样品或其用途。“样品”可指从受试者中分离的任何生物学样品。样品可包括，但不限于，等分试样的体液、全血、血小板、血清、血浆、红细胞、白细胞或白血球、内皮细胞、组织活检、滑液、淋巴液、腹水及间质液或细胞外液。术语“样品”也可包含细胞间隙中的液体，包括齿龈缝液、骨髓、脑脊液(CSF)、唾液、粘液、痰、精液、汗、尿或任何其他体液。“血液样品”可指全血或其任何组分，包括血细胞、红细胞、白细胞或白血球、血小板、血清和血浆。样品可来自体液。样品可以是血浆样品。样品可以是血清样品。样品可以是肿瘤样品。样品可通过包括但不限于静脉穿刺、排泄、射精、按摩、活检、针抽、灌洗、刮、外科切开、或介入等手段或本领域已知的其他手段从受试者获得。

可用于本发明方法的样品可包括无细胞DNA(cfDNA)，例如，不含在细胞中的样品中的DNA。通常这样的DNA可以是片段化的，并且可能长度为平均约170个核苷酸，这可能与单个核小体周围的DNA的长度一致。cfDNA可能一般是正常细胞和肿瘤细胞DNA 的非均匀混合物，而cfDNA的最初样品一般可能不富含癌细胞基因组的频发突变的区域。术语ctDNA、无细胞肿瘤DNA或“循环肿瘤”DNA可用于指源自于肿瘤的样品中的cfDNA部分。本领域技术人员将理解，肿瘤来源和正常细胞来源之间的种系序列可能不会被区分，但是含体细胞突变的序列具有高度的源自于肿瘤DNA的可能性。样品可以是对照种系DNA样品。样品可以是已知肿瘤DNA样品。样品可以是从怀疑其样品中有ctDNA的个体获得的cfDNA。

本文中所公开的方法可包括获得一个或多个受试者的样品。所述一个或多个样品可以是肿瘤核酸样品。或者，或另外，所述一个或多个样品可以是基因组核酸样品。应理解，从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核酸样品的步骤可一步发生。或者，从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核酸样品的步骤可分步发生。例如，从患者，例如从活检样品获得单一组织样品是可能的，该活检样品既包括肿瘤核酸又包括基因组核酸。从受试者分开的样品、分开的组织中，或者甚至在分开的时间获得肿瘤核酸样品和基因组核酸样品，也在该步骤的范围内。

样品可包含核酸。所述核酸可以是无细胞核酸。所述核酸可以是循环核酸。所述核酸可来自肿瘤。所述核酸可以是循环肿瘤DNA (ctDNA)。所述核酸可以是无细胞DNA(cfDNA)。所述核酸可以是基因组核酸。所述核酸可以是肿瘤核酸。

从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核酸样品的步骤也可包括从具有特定癌症的受试者中提取生物液体或组织样品的过程。这些特定的步骤对医学领域普通技术人员，尤其是那些在医学实验室工作的人员而言，是能充分理解的。

从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核酸样品的步骤可另外包括提高产率或回收样品中核酸的方法。例如，该步骤可包括从可能存在于生物液体或组织样品中的其他细胞成分和污染物中分离核酸的实验室方法。如所说明的，此类步骤可提高产率和/或可促进测序反应。

也应理解，从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核酸样品的步骤可由商业实验室进行，该实验室甚至不直接接触受试者。例如，该商业实验室可从医院或例如，在那里进行活检或其他程序以从受试者获得组织的其他临床机构获得核酸样品。该商业实验室因此可应受试者在那里进行治疗或诊断的机构的要求，或在其指示下执行目前公开的方法中的所有步骤。

使用本文所描述的选择子集合，可筛选样品中相应于频发突变的区域的DNA。在某些实施方案中，筛选程序包括下列方法。从细胞来源获得的DNA可被分成大约cfDNA大小，例如，长度为约 50-约1KB的片段。然后可使该DNA变性，并与包含特定结合元件 (例如生物素等)的选择子集合探针群体杂交。杂交的DNA的组合物然后可应用于补充的结合元件，例如抗生物蛋白，链酶亲和素，特定用于标签等的抗体，及没有洗涤的未结合的DNA。所筛选的DNA 群体然后可洗去未结合的DNA。

所捕获的DNA然后可按任何合适的方案测序。在某些实施方案中，所捕获的DNA在测序之前先扩增，其中扩增引物可采用适合于高通量测序的引物或低聚核苷酸。所得产物可以是富含相应于在有关癌症中有频发突变的基因组区域序列的一组DNA序列。剩余的分析可采用生物信息学方法，这可随体细胞突变的类型(例如SNV、 SNV、融合等)而变。

本文进一步公开了制备下一代测序(NGS)文库的方法。该方法可包括(a)将衔接子与多个核酸连接以产生多个衔接子修饰的核酸；及(b)扩增所述多个衔接子修饰的核酸，从而形成NGS文库，其中扩增包括1-20个扩增周期。

本文所公开的方法可包括将衔接子与核酸连接。将衔接子与核酸连接可包括将衔接子与核酸连接反应。将衔接子与核酸连接可包括将衔接子与核酸杂交。将衔接子与核酸连接可包括引物延伸。

所述多个核酸可来自样品。将衔接子与多个核酸连接可包括将样品与衔接子接触。

将衔接子与核酸连接可包括将衔接子与核酸在特定的温度或温度范围下孵育。将衔接子与核酸连接可包括将衔接子与核酸在 20℃下孵育。将衔接子与核酸连接可包括将衔接子与核酸在低于20 ℃下孵育。将衔接子与核酸连接可包括将衔接子与核酸在19℃,18 ℃,17℃,16℃或更低温度下孵育。或者，将衔接子与核酸连接可包括将衔接子与核酸在不同温度下孵育。例如，将衔接子与核酸连接可包括温度循环。将衔接子与核酸连接可包括将衔接子与核酸在第一温度下孵育第一时间段，接着在一个或多个另外的温度下孵育一个或多个另外的时间段。所述一个或多个另外的温度可大于所述第一温度或前面的温度。或者，或另外，所述一个或多个另外的温度可小于所述第一温度或前面的温度。例如，所述核酸和衔接子可在10℃孵育30 秒，接着在30℃孵育30秒。在10℃孵育30秒和在30℃孵育30 秒的温度循环可重复多次。例如，通过温度循环将衔接子与核酸连接可包括温度在30秒内从10℃-30℃交替增加总时间段12-16小时。

衔接子与核酸可在规定的温度或温度范围下孵育一段时间。衔接子与核酸可在规定的温度或温度范围下孵育至少约15分钟。衔接子与核酸可在规定的温度或温度范围下孵育至少约30分钟、60分钟、90分钟、120分钟或更长。衔接子与核酸可在规定的温度或温度范围下孵育至少约1小时、2小时、3小时、4小时、5小时、6小时、 7小时、8小时、9小时、10小时、12小时、14小时、16小时或更长。衔接子与核酸可在规定的温度或温度范围下孵育至少约16小时。

通过在温度小于或等于20℃下将核酸与衔接子孵育至少约 20,30,40,50,60,70,80,90,100或更多分钟，衔接子可与核酸连接。通过在温度小于或等于20,19,18,17,16℃下将核酸与衔接子孵育至少约1小时，衔接子可与核酸连接。通过在温度小于或等于18℃下将核酸与衔接子孵育至少约1,2,3,4,5,6,7,8,9,10,11,12,13,14,15, 16或更多小时，衔接子可与核酸连接。通过在温度小于或等于20,19, 18,17,16℃下将核酸与衔接子孵育至少约5小时，衔接子可与核酸连接。通过在温度小于或等于16℃下将核酸与衔接子孵育至少约5 小时，衔接子可与核酸连接。

将衔接子与核酸连接可包括使用一种或多种酶。该酶可以是连接酶。该连接酶可以是DNA连接酶。该DNA连接酶可以是T4 DNA 连接酶、大肠杆菌(E.coli)DNA连接酶、哺乳动物连接酶或其组合。哺乳动物连接酶可以是DNA连接酶I、DNA连接酶III、或DNA连接酶IV。所述连接酶可以是耐热连接酶。

所述衔接子可包括通用引物结合序列。所述衔接子可包括引物序列。该引物序列可使衔接子修饰的核酸的测序成为可能。该引物序列可使衔接子修饰的核酸的扩增成为可能。衔接子可包括条形码。该条形码能够区分相同分子种类的两个或更多个分子。该条形码能够定量一个或多个分子。

所述方法可进一步包括将多个核酸与多个珠接触以形成多个珠缀合的核酸。将衔接子与核酸连接之后，多个核酸可与多个珠接触。或者，或另外，在衔接子修饰的核酸扩增之前，多个核酸可与多个珠接触。或者，或另外，在衔接子修饰的核酸扩增之后，多个核酸可与多个珠接触。

所述珠可以是磁珠。所述珠可以是涂覆珠。所述珠可以是抗体涂覆的珠。所述珠可以是蛋白涂覆的珠。所述珠可以用一个或多个官能团涂覆。所述珠可以用一个或多个低聚核苷酸涂覆。

扩增多个衔接子修饰的核酸可包括本领域已知的任何方法。例如，扩增可包括基于PCR的扩增。或者，扩增可包括非基于PCR 的扩增。扩增可包括本文所公开的任一扩增方法。

扩增多个衔接子修饰的核酸可包括扩增衔接子修饰的核酸的产物或衍生物。衔接子连接的核酸的产物或衍生物可包括珠缀合的核酸、富集的核酸、成片段的核酸、末端修复过的核酸、A-尾的核酸、条形编码的核酸或其组合。

扩增衔接子修饰的核酸可包括1-20个扩增周期。扩增衔接子修饰的核酸可包括1-18个扩增周期。扩增衔接子修饰的核酸可包括1-17个扩增周期。扩增衔接子修饰的核酸可包括1-16个扩增周期。扩增衔接子修饰的核酸可包括2-20个扩增周期。扩增衔接子修饰的核酸可包括2-18个扩增周期。扩增衔接子修饰的核酸可包括2-16个扩增周期。扩增衔接子修饰的核酸可包括3-20个扩增周期。扩增衔接子修饰的核酸可包括3-19个扩增周期。扩增衔接子修饰的核酸可包括3-17个扩增周期。扩增衔接子修饰的核酸可包括4-20个扩增周期。扩增衔接子修饰的核酸可包括4-18个扩增周期。扩增衔接子修饰的核酸可包括4-16个扩增周期。扩增衔接子修饰的核酸可包括5-20 个扩增周期。扩增衔接子修饰的核酸可包括5-19个扩增周期。扩增衔接子修饰的核酸可包括5-18个扩增周期。扩增衔接子修饰的核酸可包括5-17个扩增周期。扩增衔接子修饰的核酸可包括5-16个扩增周期。扩增衔接子修饰的核酸可包括5-15个扩增周期。

扩增衔接子修饰的核酸可包括20,19,18,17,16,15,14,13, 12,11,10,9,8,7,6,5,4,3,或2个或更少扩增周期。扩增衔接子修饰的核酸可包括20个或更少扩增周期。扩增衔接子修饰的核酸可包括 18个或更少扩增周期。扩增衔接子修饰的核酸可包括16个或更少扩增周期。扩增衔接子修饰的核酸可包括15个或更少扩增周期。

所述方法可进一步包括将多个核酸分段以产生多个成片段的核酸。多个核酸可在将衔接子与所述多个核酸连接之前分段。多个核酸可在衔接子与所述多个核酸连接之后分段。多个核酸可在衔接子修饰的核酸扩增之前分段。多个核酸可在衔接子修饰的核酸扩增之后分段。将多个核酸分段可包括使用一种或多种限制性内切酶。将多个核酸分段可包括使用超声波仪。将多个核酸分段可包括剪断核酸。

所述方法可进一步包括对多个核酸进行末端修复反应以形成多个末端修复的核酸。所述末端修复反应可在将衔接子与多个核酸连接之前进行。所述末端修复反应可在将衔接子与多个核酸连接之后进行。所述末端修复反应可在衔接子修饰的核酸扩增之前进行。所述末端修复反应可在衔接子修饰的核酸扩增之后进行。所述末端修复反应可在将多个核酸分段之前进行。所述末端修复反应可在将多个核酸分段之后进行。进行所述末端修复反应可包括采用一种或多种末端修复酶。

所述方法可进一步包括对多个核酸进行加A尾反应以生成多个加A尾的核酸。所述加A尾反应可在将衔接子与多个核酸连接之前进行。所述加A尾反应可在将衔接子与多个核酸连接之后进行。所述加A尾反应可在衔接子修饰的核酸扩增之前进行。所述加A尾反应可在衔接子修饰的核酸扩增之后进行。所述加A尾反应可在多个核酸分段之前进行。所述加A尾反应可在多个核酸分段之后进行。所述加A尾反应可在多个核酸的末端修复之前进行。所述加A尾反应可在多个核酸的末端修复之后进行。进行所述加A尾反应可包括采用一种或多种加A尾酶。

所述方法可进一步包括将多个核酸与多个分子条形码接触以产生多个条形编码核酸。制备所述多个条形编码核酸可在将衔接子与多个核酸连接之前发生。制备所述多个条形编码核酸可在将衔接子与多个核酸连接之后发生。制备所述多个条形编码核酸可在衔接子修饰的核酸扩增之前发生。制备所述多个条形编码核酸可在衔接子修饰的核酸扩增之后发生。制备所述多个条形编码核酸可在将多个核酸分段之前发生。制备所述多个条形编码核酸可在将多个核酸分段之后发生。制备所述多个条形编码核酸可在多个核酸的末端修复之前发生。制备所述多个条形编码核酸可在多个核酸的末端修复之后发生。制备所述多个条形编码核酸可在多个核酸加A尾之前发生。制备所述多个条形编码核酸可在多个核酸加A尾之后发生。所述条形码能够区分相同分子种类的两个或更多个分子。所述条形码能够定量一个或多个分子。所述条形码可以是分子条形码。该分子条形码可用于区分相同分子种类的两个或更多个分子。分子条形码可用于区分相同基因组区域的两个或更多个分子。所述条形码可以是样品索引。该样品索引可用于识别分子(例如，核酸)来自其中的样品。例如，来自第一样品的分子可与第一样品索引相关，而来自第二样品的分子可与第二样品索引相关。来自两个或更多个样品的样品索引可以是不同的。所述两个或更多个样品可来自相同受试者。所述两个或更多个样品可来自两个或更多个受试者。所述两个或更多个样品可在相同时间获得。或者，或另外，所述两个或更多个样品可在两个或更多个时间点获得。

所述方法可进一步包括将多个核酸与多个测序衔接子接触以产生多个适合于测序仪的核酸。制备多个适合于测序仪的核酸可在将衔接子与多个核酸连接之前发生。制备多个适合于测序仪的核酸可在将衔接子与多个核酸连接之后发生。制备多个适合于测序仪的核酸可在衔接子修饰的核酸扩增之前发生。制备多个适合于测序仪的核酸可在衔接子修饰的核酸扩增之后发生。制备多个适合于测序仪的核酸可在多个核酸分段之前发生。制备多个适合于测序仪的核酸可在多个核酸分段之后发生。制备多个适合于测序仪的核酸可在多个核酸的末端修复之前发生。制备多个适合于测序仪的核酸可在多个核酸的末端修复之后发生。制备多个适合于测序仪的核酸可在多个核酸加A尾之前发生。制备多个适合于测序仪的核酸可在多个核酸加A尾之后发生。制备多个适合于测序仪的核酸可在制备条形编码核酸之前发生。制备多个适合于测序仪的核酸可在制备条形编码核酸之后发生。测序衔接子可使核酸的测序成为可能。

所述方法可进一步包括将多个核酸与多个引物衔接子接触以产生多个适合于引物的核酸。制备多个适合于引物的核酸可在将衔接子与多个核酸连接之前发生。制备多个适合于引物的核酸可在将衔接子与多个核酸连接之后发生。制备多个适合于引物的核酸可在衔接子修饰的核酸扩增之前发生。制备多个适合于引物的核酸可在衔接子修饰的核酸扩增之后发生。制备多个适合于引物的核酸可在多个核酸分段之前发生。制备多个适合于引物的核酸可在多个核酸分段之后发生。制备多个适合于引物的核酸可在多个核酸的末端修复之前发生。制备多个适合于引物的核酸可在多个核酸的末端修复之后发生。制备多个适合于引物的核酸可在多个核酸加A尾之前发生。制备多个适合于引物的核酸可在多个核酸加A尾之后发生。制备多个适合于引物的核酸可在制备条形编码核酸之前发生。制备多个适合于引物的核酸可在制备条形编码核酸之后发生。制备多个适合于引物的核酸可在制备适合于测序仪的核酸之前发生。制备多个适合于引物的核酸可在制备适合于测序仪的核酸之后发生。制备多个适合于引物的核酸可包括将所述引物衔接子与核酸连接。所述引物衔接子可使核酸的测序成为可能。所述引物衔接子可使核酸的扩增成为可能。

所述方法可进一步包括进行杂交反应。所述杂交反应可包括使用固体支持物。所述杂交反应可包括将多个核酸与固体支持物杂交。所述杂交反应可包括使用多个珠。所述杂交反应可包括将多个核酸与多个珠杂交。所述方法可进一步包括在酶促反应之后进行杂交反应。所述酶促反应可包括连接反应。所述酶促反应可包括断裂反应。所述酶促反应可包括末端修复反应。所述酶促反应可包括加A尾反应。所述酶促反应可包括扩增反应。所述方法可进一步包括在一个或多个选自由连接反应、断裂反应、末端修复反应、加A尾反应和扩增反应组成的群组的反应之后进行杂交反应。所述方法可进一步包括在两个或更多个选自由连接反应、断裂反应、末端修复反应、加A 尾反应和扩增反应组成的群组的反应之后进行杂交反应。所述方法可进一步包括在三个或更多个选自由连接反应、断裂反应、末端修复反应、加A尾反应和扩增反应组成的群组的反应之后进行杂交反应。所述方法可进一步包括在四个或更多个选自由连接反应、断裂反应、末端修复反应、加A尾反应和扩增反应组成的群组的反应之后进行杂交反应。所述杂交反应可在选自由连接反应、断裂反应、末端修复反应、加A尾反应和扩增反应组成的群组的各反应之后进行。

核酸检测方法

本文提供了检测不均匀样品中少量核酸的超灵敏方法。所述方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息；及(b)用来自于(a)的序列信息检测样品中的少量无细胞核酸，其中所述方法能够检测小于2％总cfDNA的少量无细胞核酸的百分比。少量核酸可指来自于受试者的、不同于正常细胞或组织的细胞或组织的核酸。例如，受试者可能感染上病原体(例如细菌)而少量核酸可能是来自该病原体的核酸。在另一个实例中，受试者是捐献者细胞、组织或器官的接受者而少量核酸可能是来自该捐献者细胞、组织或器官的核酸。在另一个实例中，受试者是怀孕受试者而少量核酸可能是来自胎儿的核酸。所述方法可包括采用序列信息检测胎儿中的一个或多个体细胞突变。所述方法可包括采用序列信息检测胎儿中的一个或多个合子形成后突变。或者，受试者可能正患癌症而少量核酸可能是来自癌细胞的核酸。

本文提供了检测样品中循环肿瘤DNA的超灵敏方法。该方法可称为深度测序的癌症个体化概况分析(CAPP-Seq)。该方法可包括 (a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息；及(b)用来自于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA)，其中所述方法能够检测小于2％总cfDNA的ctDNA的百分比。CAPP-Seq 可准确地定量早期和晚期肿瘤中的无细胞肿瘤DNA。CAPP-Seq可识别检测限<0.01％的、下至0.025％的突变体等位基因。源自于肿瘤的 DNA水平经常与临床上对各种疗法的响应平行，而CAPP-Seq可识别可反应的突变。CAPP-Seq可常规上用于无创检测并监控肿瘤，因此促进了个体化癌症治疗。

本文公开了测定样品中循环肿瘤DNA(ctDNA)的量的方法。该方法可包括(a)将一个或多个衔接子与源自于受试者样品的无细胞 DNA(cfDNA)连接以形成一个或多个与衔接子连接的cfDNA；(b)对所述一个或多个与衔接子连接的cfDNA进行测序，其中待测序的与衔接子连接的cfDNA基于包含多个基因组区域的选择子集合；及(c) 基于从与衔接子连接的cfDNA获得的测序信息，采用计算机可读媒介物测定来自于肿瘤的cfDNA的量。来自于肿瘤的cfDNA可称为无细胞肿瘤DNA或循环肿瘤DNA(ctDNA)。ctDNA的量可以是百分比。测定ctDNA的量可包括测定选择子集合的一个或多个基因组区域的序列。测定ctDNA的量可包括测定许多序列读数，这些读数含相应于基于选择子集合的一个或多个基因组区域中的一个或多个突变的突变序列。测定ctDNA的量可包括测定许多序列读数，这些读数含有不含突变的序列，所述突变相应于基于选择子集合的一个或多个基因组区域中的一个或多个突变。测定ctDNA的量可包括计算序列读数的百分比，这些读数含具有一个或多个突变的序列，所述突变相应于基于选择子集合的一个或多个基因组区域中的一个或多个突变。例如，选择子集合可用于获得第一基因组区域的测序信息。该序列信息可包括属于该第一基因组区域的二十个测序读数。分析该测序信息可确定含相应于基于选择子集合的第一基因组区域中第一突变的突变的测序读数中的两个，及不含相应于基于选择子集合的第一基因组区域中突变的突变的测序读数中的十八个。因此，ctDNA的量可等于具有相应于第一基因组区域中突变的突变的测序读数的百分比，这将为 10％(例如，2个读数除以20个读数乘以100％)。对属于基于选择子集合的两个或更多个基因组区域的序列信息而言，测定ctDNA 的量可包括计算所述两个或更多个基因组区域的平均百分比。例如，含相应于第一基因组区域中第一突变的突变的测序读数百分比为 20％，而含相应于第二基因组区域中第二突变的突变的测序读数百分比为40％；该ctDNA的量是所述两个基因组区域的平均百分比，即 30％[例如，(20％+40％)除以2]。ctDNA的量可通过ctDNA的百分比乘以总无细胞DNA的绝对浓度/单位体积折合成质量/单位体积值。例如，ctDNA的百分比可能是30％而无细胞DNA的浓度可能是10 纳克/毫升(ng/mL)；ctDNA的量可能为3ng/mL(例如，0.30乘以 10ng/mL)。

或者，或另外，测定ctDNA的量可包括采用包含条形码序列的衔接子。两个或更多个衔接子可包含两个或更多个不同的条形码序列。条形码序列可以是随机序列。基因组区域可与含条形码序列的衔接子连接。相同基因组区域可与含不同条形码序列的衔接子连接。非相同基因组区域可与含不同条形码序列的衔接子连接。条形码序列可用于计数基因组区域出现的数目。ctDNA的量可基于基于选择子集合计数基因组区域出现的数目。与其ctDNA的量基于测序读数数，倒不如ctDNA的量可基于与一个或多个基因组区域相关的不同条形码的数。例如，十个不同的条形码可与含相应于基于选择子集合的第一基因组区域中的突变的突变序列相关，所得ctDNA的量为10。对两个或更多个基因组区域而言，ctDNA的量可以是所述两个或更多个基因组区域的量的总合。例如，十个不同的条形码可与含相应于第一基因组区域中的突变的突变序列相关，而二十个不同的条形码可与含相应于第二基因组区域中的突变的突变序列相关，所得ctDNA的量为 30。ctDNA的量可以是总无细胞DNA的百分比。例如，十个不同的条形码可与含相应于第一基因组区域中的突变的突变序列相关，而四十个不同的条形码可与不含相应于第一基因组区域中的突变的突变序列相关，所得ctDNA的量为20％[例如,(10除以50)乘以100％]。

本文公开了富集样品中循环肿瘤DNA的方法。该方法可包括将样品中的无细胞核酸与多个低聚核苷酸接触，其中所述多个低聚核苷酸选择性地与多个基因组区域杂交，该基因组区域包含存在于>60％患癌症受试者群体中的多个突变。

或者，所述方法可包括将样品中的无细胞核酸与一组低聚核苷酸接触，其中所述组的低聚核苷酸选择性地与多个基因组区域杂交，其中(a)>80％癌症受试者群体的肿瘤包括所述基因组区域中的一个或多个突变；(b)所述多个基因组区域表示小于1.5Mb的基因组；及(c)所述组的低聚核苷酸包含5个或更多个选择性地与多个基因组区域杂交的不同低聚核苷酸。所述无细胞核酸可以是DNA。所述无细胞核酸可以是RNA。

应用

根据本文所描述的方法制备的选择子集合可用于分析基因变更，尤其是用于比较癌症患者的肿瘤和基因组序列。如图2所示，通过对肿瘤和基因组核酸样品中的选择子文库的基因组区域测序并比较结果，该患者组织活检样品可用于发现肿瘤中的突变。可设计选择子集合用于识别大比例的所有患者肿瘤中的突变，因此，优化每个患者的文库可能不是必要的。

在本发明的某些方法中，将体细胞突变的cfDNA的分析与从个体已知肿瘤样品的体细胞突变开发的最初的数据集中个体化的肿瘤标志物比较。为了开发该数据集，可获得肿瘤细胞或已知肿瘤DNA 的样品，将该样品与种系样品比较。优选，虽然不必要，种系样品可来自于该个体。

“分析”可包括通过测定DNA序列测定与样品相关的一组值，并将该序列与相同受试者的样品或一组样品、对照品、本领域已知的参考值等的序列比较。“分析”可包括进行统计学分析。

CAPP-seq可采用相应于频发突变的区域的cfDNA的杂种筛选以诊断和监控个体患者的癌症。在此类实施方案中，选择子集合探针用于富集(例如通过杂种筛选)相应于很可能含肿瘤特异性体细胞突变的基因组区域的ctDNA。然后扩增并测序“所筛选的”ctDNA以确定该个体肿瘤中那个所筛选的基因组区域发生突变。最初任选将个体的种系DNA序列和/或该个体的肿瘤活检样品比较。这些体细胞突变提供了区分ctDNA和种系DNA的手段，因此提供了有关该个体中存在肿瘤细胞和肿瘤细胞的量的有用信息。该过程的流程图如图22所示。

在其他实施方案中，CAPP-seq用于癌症筛查和免活检肿瘤基因型分型，其中患者的ctDNA样品不参照活检样品来分析。在某些此类实施方案中，其中CAPP-Seq从ctDNA样品中识别出临床上可作用的靶中的突变，所述方法包括提供适合于该靶的疗法。此类突变包括，但不限于，重排和其他涉及致癌基因、受体酪氨酸激酶等的突变。

本文进一步公开了为癌症患者进行检测、诊断、预测或疗法选择的方法，该方法包括：(a)获得源自于受试者无细胞DNA(cfDNA) 样品的序列信息；及(b)用来自于(a)的序列信息检测样品中的无细胞非种系DNA(cfNG-DNA)，其中所述方法能够检测小于2％总cfDNA 的cfNG-DNA的百分比。该方法能够检测小于1.5％总cfDNA的ctDNA 的百分比。该方法能够检测小于1％总cfDNA的cfNG-DNA的百分比。该方法能够检测小于0.5％总cfDNA的cfNG-DNA的百分比。该方法能够检测小于0.1％总cfDNA的cfNG-DNA的百分比。该方法能够检测小于0.01％总cfDNA的cfNG-DNA的百分比。该方法能够检测小于 0.001％总cfDNA的cfNG-DNA的百分比。该方法能够检测小于 0.0001％总cfDNA的cfNG-DNA的百分比。样品可以是血浆或血清样品。样品可以是脑脊液样品。在某些情况中，样品不是帕氏涂片样品。在某些情况中，样品是囊肿液样品。在某些情况中，样品是胰液样品。序列信息可包括与至少10,20,30,40,100,200,300个基因组区域相关的信息。所述基因组区域可包括基因、外显子区域、内含子区域、未翻译区域、非编码区域或其组合。所述基因组区域可包括外显子区域、内含子区域和未翻译区域中的两个或更多个。所述基因组区域可包括至少一个外显子区域和至少一个内含子区域。至少5％的所述基因组区域可包括内含子区域。至少20％的所述基因组区域可包括外显子区域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因组。所述基因组区域可包含小于1Mb的基因组。所述基因组区域可包含小于500千碱基(kb)的基因组。所述基因组区域可包含小于350kb的基因组。所述基因组区域可包含100kb-300kb之间的基因组。所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于25,30,40, 50,60,70,80,90,100或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于多个基因组区域的信息。所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。至少约5％,10％,15％,20％,25％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％的所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。所述选择子集合的基因组区域的总范围可包含少于1.5兆碱基 (Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150kb 的基因组。所述选择子集合的基因组区域的总范围可以是100kb-300 kb之间的基因组。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15, 20,25,30,40,50,60,70,80,90,100或更多个选自表2的基因组区域。在某些情况中，所述受试者不患有胰腺癌。获得序列信息可包含进行大规模的平行测序。大规模的平行测序可在cfDNA样品中的cfDNA基因组子集中进行。所述基因组子集可包含少于1.5兆碱基(Mb),1Mb, 500千碱基(kb),350kb,300kb,250kb,200kb,或150kb的基因组。所述基因组的子集可包含100kb-300kb之间的基因组。获得序列信息可包含使用单分子进行条形编码。使用单分子进行条形编码可包括将含有不同序列的条形码与cfDNA样品中的核酸连接。所述序列信息可包含属于条形码的序列信息。该方法可包括获得受试者两个或更多个样品中的无细胞DNA样品的测序信息。所述两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可以是两个不同类型的样品。所述两个或更多个样品可在相同时间点从受试者获得。所述两个或更多个样品可在两个或更多个时间点从受试者获得。该方法可包括获得两个或更多个不同受试者的无细胞DNA样品的测序信息。来自两个或更多个不同受试者的样品可在获得该测序信息之前编入索引并合并在一起。使用序列信息可包括在受试者基因组的所选区域中检测一种或多种SNVs、插入/缺失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复、或其组合。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的一种或多种。使用序列信息可包含检测受试者基因组的所选区域中的 SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。使用序列信息可包含检测受试者基因组的所选区域中的至少一个SNV、插入/ 缺失、拷贝数变体及重排。在某些情况中，检测不涉及进行数字PCR (dPCR)。检测无细胞非种系DNA可包含将运算法则应用于序列信息以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的至少 60％癌症受试者中的一种或多种突变。所述cfNG-DNA可源自于受试者中的肿瘤。所述方法可进一步包括基于检测cfNG-DNA来检测受试者中的癌症。所述方法可进一步包括基于检测cfNG-DNA来诊断受试者中的癌症。诊断癌症的灵敏度可为至少约75％,77％,80％,82％, 85％,87％,89％,90％,91％,92％,93％,94％,95％,96％,97％,或99％。诊断癌症的特异性可为至少约75％,77％,80％,82％,85％,87％,89％, 90％,91％,92％,93％,94％,95％,96％,97％,或99％。所述方法可进一步包括基于检测cfNG-DNA来预测受试者中的癌症。预测癌症的灵敏度可为至少约75％,77％,80％,82％,85％,87％,89％,90％,91％,92％, 93％,94％,95％,96％,97％,或99％。预测癌症的特异性可为至少约 75％,77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％, 95％,96％,97％或99％。所述方法可进一步包括基于检测cfNG-DNA 来确定受试者的治疗方案。所述方法可进一步包括基于检测 cfNG-DNA给予受试者抗癌疗法治疗。所述cfNG-DNA可源自于受试者中的胎儿。所述方法可进一步包括基于检测cfNG-DNA来诊断胎儿中的疾病或病症。诊断胎儿中的疾病或病症的灵敏度可为至少约75％, 77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％, 96％,97％,或99％。诊断胎儿中的疾病或病症的特异性可为至少约75％, 77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％, 96％,97％,或99％。所述cfNG-DNA可源自于受试者中的移植器官、细胞或组织。所述方法可进一步包括基于检测cfNG-DNA来诊断受试者中的器官移植排斥。诊断器官移植排斥的灵敏度可为至少约75％, 77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％, 96％,97％,或99％。诊断器官移植排斥的特异性可为至少约75％,77％, 80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％,96％, 97％,或99％。所述方法可进一步包括基于检测cfNG-DNA来预测受试者中的器官移植排斥风险。预测器官移植排斥风险的灵敏度可为至少约75％,77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％, 95％,96％,97％,或99％。预测器官移植排斥风险的特异性可为至少约 75％,77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％, 95％,96％,97％,或99％。所述方法可进一步包括基于检测cfNG-DNA 为受试者确定免疫抑制疗法。所述方法可进一步包括基于检测 cfNG-DNA给予受试者免疫抑制治疗。

本文进一步公开了检测、诊断、或预测受试者中癌症状态或结果的方法。该方法可包括(a)获得源自于受试者无细胞DNA(cfDNA) 样品的序列信息；(b)用来自于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA)，其中所述方法能够检测小于2％总cfDNA的ctDNA 的百分比。该方法能够检测小于1.5％总cfDNA的ctDNA的百分比。该方法能够检测小于1％总cfDNA的ctDNA的百分比。该方法能够检测小于0.5％总cfDNA的ctDNA的百分比。该方法能够检测小于0.1％总 cfDNA的ctDNA的百分比。该方法能够检测小于0.01％总cfDNA的 ctDNA的百分比。该方法能够检测小于0.001％总cfDNA的ctDNA的百分比。该方法能够检测小于0.0001％总cfDNA的ctDNA的百分比。样品可以是血浆或血清样品。样品可以是脑脊液样品。在某些情况中，样品不是帕氏涂片样品。在某些情况中，样品是囊肿液样品。在某些情况中，样品是胰液样品。序列信息可包括与至少10,20,30,40,100, 200,300个基因组区域相关的信息。所述基因组区域可包括基因、外显子区域、内含子区域、未翻译区域、非编码区域或其组合。所述基因组区域可包括外显子区域、内含子区域和未翻译区域中的两个或更多个。所述基因组区域可包括至少一个外显子区域和至少一个内含子区域。至少5％的所述基因组区域可包括内含子区域。至少20％的所述基因组区域可包括外显子区域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因组。所述基因组区域可包含小于1Mb的基因组。所述基因组区域可包含小于500千碱基(kb)的基因组。所述基因组区域可包含小于350kb的基因组。所述基因组区域可包含100kb-300kb之间的基因组。所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20 或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于25,30,40,50,60,70,80,90,100或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于多个基因组区域的信息。所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。至少约5％,10％,15％,20％, 25％,30％,35％,40％,45％,50％,55％,60％,65％,70％,75％,80％, 85％,90％,或95％的所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。所述选择子集合的基因组区域的总范围可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb, 250kb,200kb,或150kb的基因组。所述选择子集合的基因组区域的总范围可以是100kb-300kb之间的基因组。所述选择子集合可包含1, 2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表2的基因组区域。在某些情况中，所述受试者不患有胰腺癌。获得序列信息可包含进行大规模的平行测序。大规模的平行测序可在 cfDNA样品中的cfDNA基因组子集中进行。所述基因组子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb, 或150kb的基因组。所述基因组的子集可包含100kb-300kb之间的基因组。获得序列信息可包含使用单分子进行条形编码。使用单分子进行条形编码可包括将含有不同序列的条形码与cfDNA样品中的核酸连接。所述序列信息可包含属于条形码的序列信息。该方法可包括获得受试者两个或更多个样品中的无细胞DNA样品的测序信息。所述两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可以是两个不同类型的样品。所述两个或更多个样品可在相同时间点从受试者获得。所述两个或更多个样品可在两个或更多个时间点从受试者获得。该方法可包括获得两个或更多个不同受试者的无细胞DNA 样品的测序信息。来自两个或更多个不同受试者的样品可在获得测序信息之前编入索引并合并在一起。使用序列信息可包括在受试者基因组的所选区域中检测一种或多种SNVs、插入/缺失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复或其组合。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的一种或多种。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。使用序列信息可包含检测受试者基因组的所选区域中的至少一个 SNV、插入/缺失、拷贝数变体及重排。在某些情况中，检测不涉及进行数字PCR(dPCR)。检测ctDNA可包含将运算法则应用于序列信息以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的至少 60％癌症受试者中的一种或多种突变。所述ctDNA可源自于受试者中的肿瘤。所述方法可进一步包括基于检测ctDNA来检测受试者中的癌症。所述方法可进一步包括基于检测ctDNA来诊断受试者中的癌症。诊断癌症的灵敏度可为至少约75％,77％,80％,82％,85％,87％,89％, 90％,91％,92％,93％,94％,95％,96％,97％,或99％。诊断癌症的特异性可为至少约75％,77％,80％,82％,85％,87％,89％,90％,91％,92％, 93％,94％,95％,96％,97％,或99％。所述方法可进一步包括基于检测 ctDNA来预测受试者中的癌症。预测癌症的灵敏度可为至少约75％, 77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％, 96％,97％,或99％。预测癌症的特异性可为至少约75％,77％,80％,82％,85％,87％,89％,90％,91％,92％,93％,94％,95％,96％,97％,或 99％。所述方法可进一步包括基于检测ctDNA来确定受试者的治疗方案。所述方法可进一步包括基于检测ctDNA给予受试者抗癌疗法治疗。

本文进一步公开了诊断受试者癌症状态或结果的方法。所述方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信息，其中所述序列信息源自于至少80％受癌症折磨的受试者群体的突变的基因组区域；及(b)基于所述序列信息诊断受试者中的癌症，所述癌症选自肺癌、乳腺癌、结直肠癌和前列腺癌，其中所述方法的灵敏度为80％。所述突变的区域可包括总范围少于1.5Mb的基因组。所述突变的区域可包括总范围少于1Mb的基因组。所述突变的区域可包括总范围少于500kb的基因组。所述突变的区域可包括总范围少于 350kb的基因组。所述突变的区域可包括总范围100kb-300kb之间的基因组。所述序列信息可源自于2个或更多个区域。所述序列可源自于10个或更多个区域。所述序列可源自于50个或更多个区域。所述受癌症折磨的受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基因组图集(TCGA)。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约60％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约70％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约80％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约90％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约 95％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约99％受癌症折磨的受试者群体中。所述序列信息可源自于至少85％受癌症折磨的受试者群体中的突变区域。所述序列信息可源自于至少90％受癌症折磨的受试者群体中的突变区域。所述序列信息可源自于至少95％受癌症折磨的受试者群体中的突变区域。所述序列信息可源自于至少99％受癌症折磨的受试者群体中的突变区域。获得序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA, piRNA,tiRNA,PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA, uaRNA,x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。获得序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译区域，或其组合。在某些情况中，至少所述区域之一不包含KRAS或EGFR。在某些情况中，至少所述区域中的两个不包含KRAS和EGFR。在某些情况中，至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。所述方法可进一步包括基于测序信息检测所述区域的突变。可基于检测突变诊断癌症。检测至少3种突变可提示有癌症。检测三个或更多个区域中的一种或多种突变可提示有癌症。乳腺癌可以是BRCA1癌症。所述方法的灵敏度可为至少85％, 87％,90％,91％,92％,93％,94％,95％,96％,97％,98％,或99％。所述方法的特异性可为至少70％,72％,75％,77％,80％,82％,85％,87％, 90％,91％,92％,93％,94％,95％,96％,97％,98％,或99％。所述方法可进一步包括提供包含癌症诊断的计算机形成的报告。

本文进一步公开了预测受试者癌症状态或结果的方法。所述方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信息，其中所述序列信息源自于至少80％受病症折磨的受试者群体的突变区域；及(b)基于所述序列信息确定受试者中病症的预测。所述突变区域可包括总范围少于1.5Mb的基因组。所述突变区域可包括总范围少于1Mb的基因组。所述突变区域可包括总范围少于500kb的基因组。所述突变区域可包括总范围少于350kb的基因组。所述突变区域可包括总范围100kb-300kb之间的基因组。所述序列信息可源自于2 个或更多个区域。所述序列可源自于10个或更多个区域。所述序列可源自于50个或更多个区域。所述受病症折磨的受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基因组图集(TCGA)。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约60％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约70％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约80％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约90％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约95％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约 99％受病症折磨的受试者群体中。所述序列信息可源自于至少85％受病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少90％受病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少95％受病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少99％受病症折磨的受试者群体中的突变区域。获得序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA, snoRNA,siRNA,miRNA,piRNA,tiRNA,PASR,TASR,aTASR, TSSa-RNA,snRNA,RE-RNA,uaRNA,x-ncRNA,hY RNA,usRNA, snaR,vtRNA,T-UCRs,假基因,GRC-RNAs,aRNAs,PALRs, PROMPTs,LSINCTs,或其组合。获得序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译区域，或其组合。在某些情况中，至少所述区域之一不包含KRAS 或EGFR。在某些情况中，至少所述区域中的两个不包含KRAS和 EGFR。在某些情况中，至少所述区域之一不包含KRAS,EGFR,p53, PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的三个不包含KRAS,EGFR,p53, PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。所述方法可进一步包括基于测序信息检测所述区域的突变。可基于检测突变预测病症。检测至少3种突变可提示有病症的结果。检测三个或更多个区域中的一种或多种突变可提示有病症的结果。所述病症可以是癌症。该癌症可以是实体瘤。该实体瘤可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌。所述癌症可以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。所述方法的灵敏度可为至少75％,77％,80％,82％, 85％,87％,90％,91％,92％,93％,94％,95％,96％,97％,98％,或99％。所述方法的特异性可为至少70％,72％,75％,77％,80％,82％,85％, 87％,90％,91％,92％,93％,94％,95％,96％,97％,98％,或99％。所述方法可进一步包含提供包括病症的预测的由计算机形成的报告。

本文公开了特异性大于90％的、检测至少50％I期癌症的方法。所述方法可包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量；及(c)基于无细胞DNA的量检测样品的I期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规模的平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或更多个基因组区域。所述选择子集合中至少20％,30％,35％,40％,455, 50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多的基因组区域基于表2的基因组区域。多个基因组区域可包含存在于至少 60％,62％,65％,67％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或99％或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75％,77％,80％, 82％,85％,87％,90％,92％,95％,97％,或99％或更多。所述方法可检测至少52％,55％,57％,60％,62％,65％,70％,72％,75％,77％,80％, 82％,85％,87％,90％,92％,95％,97％或更多的I期癌症。

本文公开了特异性大于90％的、检测至少60％II期癌症的方法，所述方法包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量；及(c)基于无细胞DNA的量检测样品的II期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规模地平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或更多个基因组区域。所述选择子集合中至少20％,30％,35％,40％,455, 50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多的基因组区域可基于表2的基因组区域。多个基因组区域可包含存在于至少60％,62％,65％,67％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或99％或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75％,77％,80％, 82％,85％,87％,90％,92％,95％,97％,或99％或更多。所述方法可检测至少60％,62％,65％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或更多的II期癌症。

本文公开了特异性大于90％的、检测至少60％III期癌症的方法，所述方法包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量；及(c)基于无细胞DNA的量检测样品的III期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规模地平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或更多个基因组区域。所述选择子集合中至少20％,30％,35％,40％,455, 50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多的基因组区域可基于表2的基因组区域。多个基因组区域可包含存在于至少60％,62％,65％,67％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或99％或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75％,77％,80％, 82％,85％,87％,90％,92％,95％,97％,或99％或更多。所述方法可检测至少60％,62％,65％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或更多的III期癌症。

本文公开了特异性大于90％的、检测至少60％IV期癌症的方法，所述方法包括(a)对源自于样品的无细胞DNA进行测序，其中所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合；(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量；及(c)基于无细胞DNA的量检测样品的IV期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规模地平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或更多个基因组区域。所述选择子集合中至少20％,30％,35％,40％,455, 50％,55％,60％,65％,70％,75％,80％,85％,90％,或95％或更多的基因组区域可基于表2的基因组区域。多个基因组区域可包含存在于至少60％,62％,65％,67％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或99％或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75％,77％,80％, 82％,85％,87％,90％,92％,95％,97％,或99％或更多。所述方法可检测至少60％,62％,65％,70％,72％,75％,77％,80％,82％,85％,87％, 90％,92％,95％,97％或更多的IV期癌症。

本文进一步公开了为患癌症的受试者选择疗法的方法。该方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息； (b)用来自于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA)；及(c)基于ctDNA的检测为受试者确定疗法，其中所述方法能够检测小于2％总cfDNA的ctDNA的百分比。该方法能够检测小于1.5％总 cfDNA的ctDNA的百分比。该方法能够检测小于1％总cfDNA的 ctDNA的百分比。该方法能够检测小于0.5％总cfDNA的ctDNA的百分比。该方法能够检测小于0.1％总cfDNA的ctDNA的百分比。该方法能够检测小于0.01％总cfDNA的ctDNA的百分比。该方法能够检测小于0.001％总cfDNA的ctDNA的百分比。该方法能够检测小于0.0001％总cfDNA的ctDNA的百分比。样品可以是血浆或血清样品。样品可以是脑脊液样品。在某些情况中，样品不是帕氏涂片样品。在某些情况中，样品是囊肿液样品。在某些情况中，样品是胰液样品。序列信息可包括与至少10,20,30,40,100,200,300个基因组区域相关的信息。所述基因组区域可包括基因、外显子区域、内含子区域、未翻译区域、非编码区域或其组合。所述基因组区域可包括外显子区域、内含子区域和未翻译区域中的两个或更多个。所述基因组区域可包括至少一个外显子区域和至少一个内含子区域。至少5％的所述基因组区域可包括内含子区域。至少20％的所述基因组区域可包括外显子区域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因组。所述基因组区域可包含小于1Mb的基因组。所述基因组区域可包含小于500千碱基(kb)的基因组。所述基因组区域可包含小于350kb的基因组。所述基因组区域可包含100kb-300kb之间的基因组。所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于25,30,40,50,60,70,80,90,100或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于多个基因组区域的信息。所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。至少约5％,10％,15％,20％,25％,30％, 35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或 95％的多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。所述选择子集合的基因组区域的总范围可包含少于 1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb, 或150kb的基因组。所述选择子集合的基因组区域的总范围可以是 100kb-300kb之间的基因组。所述选择子集合可包含1,2,3,4,5,6,7, 8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表2的基因组区域。在某些情况中，所述受试者不患有胰腺癌。获得序列信息可包含进行大规模的平行测序。大规模的平行测序可在cfDNA样品中的cfDNA基因组子集中进行。所述基因组子集可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述基因组的子集可包含100kb-300kb之间的基因组。获得序列信息可包含使用单分子进行条形编码。使用单分子进行条形编码可包括将含有不同序列的条形码与cfDNA样品中的核酸连接。所述序列信息可包含属于条形码的序列信息。该方法可包括获得受试者两个或更多个样品中的无细胞DNA样品的测序信息。所述两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可以是两个不同类型的样品。所述两个或更多个样品可在相同时间点从受试者获得。所述两个或更多个样品可在两个或更多个时间点从受试者获得。该方法可包括获得两个或更多个不同受试者的无细胞DNA 样品的测序信息。来自两个或更多个不同受试者的样品可在获得测序信息之前编入索引并合并在一起。使用序列信息可包括在受试者基因组的所选区域中检测一种或多种SNVs、插入/缺失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复或其组合。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的一种或多种。使用序列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。使用序列信息可包含检测受试者基因组的所选区域中的至少一个 SNV、插入/缺失、拷贝数变体及重排。在某些情况中，检测不涉及进行数字PCR(dPCR)。检测ctDNA可包含将运算法则应用于序列信息以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的至少60％癌症受试者中的一种或多种突变。所述ctDNA可源自于受试者中的肿瘤。确定疗法可包括向受试者给予疗法。确定疗法可包括修改治疗方案。修改治疗方案可包括终止治疗方案。修改治疗方案可包括调节疗法的剂量。修改治疗方案可包括调节疗法的频率。治疗方案可基于ctDNA量的变化修改。疗法的剂量可在响应ctDNA量的增加时增加。疗法的剂量可在响应ctDNA量的减少时减少。疗法的频率可在响应ctDNA量的增加时增加。疗法的频率可在响应ctDNA量的减少时减少。

或者，所述方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信息，其中所述序列信息源自于至少80％受病症折磨的受试者群体的突变区域；及(b)基于所述序列信息确定受试者中病症的治疗方案。所述突变区域可包括总范围少于1.5Mb的基因组。所述突变区域可包括总范围少于1Mb的基因组。所述突变区域可包括总范围少于500kb的基因组。所述突变区域可包括总范围少于350kb的基因组。所述突变区域可包括总范围100kb-300kb之间的基因组。所述序列信息可源自于2个或更多个区域。所述序列可源自于10个或更多个区域。所述序列可源自于50个或更多个区域。所述受病症折磨的受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基因组图集(TCGA)。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约60％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约70％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约80％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约90％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约95％受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约99％受病症折磨的受试者群体中。所述序列信息可源自于至少85％受病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少90％受病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少95％受病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少99％受病症折磨的受试者群体中的突变区域。获得序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。获得序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译区域，或其组合。在某些情况中，至少所述区域之一不包含KRAS或EGFR。在某些情况中，至少所述区域中的两个不包含KRAS和EGFR。在某些情况中，至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。所述方法可进一步包括基于测序信息检测所述区域的突变。可基于检测突变确定治疗方案。所述病症可以是癌症。该癌症可以是实体瘤。该实体瘤可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌。所述癌症可以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。

本文进一步公开了为受癌症折磨的或怀疑患有癌症的受试者诊断、预测或确定治疗方案的方法。所述方法可包括(a)获得来自于受试者无细胞DNA样品的基因组DNA的所选区域的序列信息；(b)用所述序列信息确定所选区域中一种或多种突变的存在或者不存在，其中至少70％受癌症折磨的受试者群体在所述区域具有突变；及(c)基于所述一种或多种突变的存在或者不存在，向受试者提供诊断、预测或治疗方案的报告。所选区域可包括总范围少于1.5Mb的基因组。所选区域可包括总范围少于1Mb的基因组。所选区域可包括总范围少于 500kb的基因组。所选突变的区域可包括总范围少于350kb的基因组。所选区域可包括总范围100kb-300kb之间的基因组。所述序列信息可源自于2个或更多个所选区域。所述序列可源自于10个或更多个所选区域。所述序列可源自于50个或更多个所选区域。所述受癌症折磨的受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基因组图集(TCGA)。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约60％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约70％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约80％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约90％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约95％受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息，该突变可存在于至少约99％受癌症折磨的受试者群体中。所述序列信息可源自于至少85％受癌症折磨的受试者群体中的突变区域。所述序列信息可源自于至少90％受癌症折磨的受试者群体中的突变区域。所述序列信息可源自于至少95％受癌症折磨的受试者群体中的突变区域。所述序列信息可源自于至少99％受癌症折磨的受试者群体中的突变区域。获得序列信息可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA,x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。获得序列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译区域，或其组合。在某些情况中，至少所述区域之一不包含KRAS或EGFR。在某些情况中，至少所述区域中的两个不包含KRAS和EGFR。在某些情况中，至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中，至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。检测到至少3种突变的结果可提示有癌症。在三个或更多个区域检测到一个或多个突变的结果可提示有癌症。该癌症可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌。所述癌症可以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。所述诊断或预测癌症的方法的灵敏度至少为75％,77％,80％,82％,85％,87％,90％,91％, 92％,93％,94％,95％,96％,97％,98％,或99％。所述诊断或预测癌症的方法的特异性至少为70％,72％,75％,77％,80％,82％,85％,87％, 90％,91％,92％,93％,94％,95％,96％,97％,98％,或99％。所述方法可进一步包括给予受试者治疗药物。所述方法可进一步包括修改治疗方案。修改治疗方案可包括终止治疗方案。修改治疗方案可包括增加该治疗方案的剂量或频率。修改治疗方案可包括减少该治疗方案的剂量或频率。修改治疗方案可包括启动该治疗方案。

在某些实施方案中，所述方法进一步包括基于所述分析选择治疗方案。在一个实施方案中，所述方法进一步包括基于所述分析为受试者确定治疗进程。在此类实施方案中，个体中肿瘤细胞的存在(包括肿瘤负担的评估)提供了指导临床决定制定的信息，该临床决定指规定和治疗的扩大以及治疗药剂的选择，患者对所述药剂最可能显示出稳定的响应。

由CAPP-seq获得的信息可用于(a)确定所保证的治疗介入的类型和水平(例如较多对较少攻击性疗法，单一疗法对联合疗法，联合疗法的类型)，及(b)优化治疗药剂的选择。用该方法，根据在不同时间、在治疗的过程中获得的特异性数据，治疗方案可个体化及量身定制，从而提供了适合于个人的治疗方案。另外，可在治疗过程中的任何点获得患者样品用于分析。

治疗方案可基于具体患者的情况选择。当CAPP-seq用作最初的诊断时，ctDNA的存在为阳性的样品可显示需要另外的诊断实验以证实肿瘤的存在，和/或启动肿瘤细胞减少疗法，例如给予化学疗法药物，给予放射疗法，和/或手术除去肿瘤组织。

本文进一步公开了评估受试者肿瘤负荷的方法。所述方法可包括(a)获得源自于受试者样品中无细胞核酸的序列信息；(b)用计算机可读的媒介物测定该样品中循环肿瘤DNA(ctDNA)的量；(c)基于所述ctDNA的量评估肿瘤负荷；及(d)向该受试者或该受试者的代表报告肿瘤负荷。测定ctDNA的量可包括测定ctDNA的绝对量。测定 ctDNA的量可包括测定ctDNA的相对量。测定ctDNA的量可通过计数属于该ctDNA的序列读数进行。测定ctDNA的量可通过定量PCR 进行。测定ctDNA的量可通过数字PCR进行。测定ctDNA的量可通过该ctDNA的分子条形编码进行。该ctDNA的分子条形编码可包括将条形码连接到该ctDNA的一个或多个末端。所述条形码可包含随机序列。两个或更多个条形码可包含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连接可包括将条形码与ctDNA 的一端或多端连接反应。序列信息可包括与一个或多个基因组区域相关的信息。序列信息可包括与至少10,20,30,40,100,200,300个基因组区域相关的信息。所述基因组区域可包括基因、外显子区域、内含子区域、未翻译区域、非编码区域或其组合。所述基因组区域可包括外显子区域、内含子区域和未翻译区域中的两个或更多个。所述基因组区域可包括至少一个外显子区域和至少一个内含子区域。至少5％的所述基因组区域可包括内含子区域。至少20％的所述基因组区域可包括外显子区域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因组。所述基因组区域可包含小于1Mb的基因组。所述基因组区域可包含小于500千碱基(kb)的基因组。所述基因组区域可包含小于350 kb的基因组。所述基因组区域可包含100kb-300kb之间的基因组。所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于25,30,40,50,60,70,80,90,100或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含属于多个基因组区域的信息。所述多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。至少约5％,10％,15％,20％,25％,30％, 35％,40％,45％,50％,55％,60％,65％,70％,75％,80％,85％,90％,或 95％的多个基因组区域可基于包含基因组区域的选择子集合，该基因组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突变。所述选择子集合的基因组区域的总范围可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb, 或150kb的基因组。所述选择子集合的基因组区域的总范围可以是 100kb-300kb之间的基因组。所述选择子集合可包含1,2,3,4,5,6,7, 8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表2的基因组区域。获得序列信息可包含进行大规模的平行测序。大规模的平行测序可在样品的无细胞核酸中的基因组子集中进行。所述基因组子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb, 250kb,200kb,或150kb的基因组。所述基因组的子集可包含100 kb-300kb之间的基因组。该方法可包括获得受试者两个或更多个样品中的无细胞DNA样品的测序信息。所述两个或更多个样品是相同类型的样品。所述两个或更多个样品是两个不同类型的样品。所述两个或更多个样品在相同时间点从受试者获得。所述两个或更多个样品在两个或更多个时间点从受试者获得。测定ctDNA的量可包括在受试者基因组的所选区域中检测一种或多种SNVs、插入/缺失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复或其组合。测定 ctDNA的量可包含检测受试者基因组的所选区域中的SNVs、插入/ 缺失、拷贝数变体及重排中的一种或多种。测定ctDNA的量可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。测定ctDNA的量可包含检测受试者基因组的所选区域中的至少一个SNVs、插入/缺失、拷贝数变体及重排。测定ctDNA的量不涉及进行数字PCR(dPCR)。测定ctDNA的量可包含将运算法则应用于序列信息以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个基因组区域，该基因组区域包含存在于癌症受试者群体中的至少60％癌症受试者中的一种或多种突变。所述受试者的代表可以是卫生保健提供者。所述卫生保健提供者可以是护士、医生、医疗技术人员或医院工作人员。所述受试者的代表可以是该受试者的家属。所述受试者的代表可以是该受试者的法定监护人。

本文进一步公开了确定受试者体内癌症疾病状态的方法。所述方法可包括(a)获得受试者样品中的循环肿瘤DNA(ctDNA)的量； (b)获得受试者肿瘤的体积；及(c)基于ctDNA的量与肿瘤体积的比率确定受试者癌症的疾病状态。高ctDNA-体积比可提示影像学上隐藏的疾病。低ctDNA-体积比可提示非恶性状态。获得肿瘤体积可包括获得肿瘤的影像。获得肿瘤体积可包括获得肿瘤的CT扫描。获得 ctDNA量可包括数字PCR。获得ctDNA量可包括获得ctDNA的测序信息。所述测序信息可包括与基于选择子集合的一个或多个基因组区域相关的信息。获得ctDNA量可包括ctDNA与阵列的杂交。所述阵列可包括多个基于选择子集合的一个或多个基因组区域的选择性杂交的探针。所述选择子集合可包括来自表2的一个或多个基因组区域。所述选择子集合可包括包含一种或多种突变的一个或多个基因组区域，其中所述一种或多种突变存在于患癌症受试者群体中。所述选择子集合可包括包含多种突变的多个基因组区域，其中所述多种突变存在于至少60％的患癌症受试者群体中。

在某些实施方案中，个体血液或血液衍生物样品中ctDNA的含量在一个或多个时间点上测定，任选与治疗方案结合。ctDNA的存在与肿瘤负荷相关，并可用于监控对疗法的响应，监控残余疾病，监控转移的存在，监控总肿瘤负荷等。虽然未要求，对某些方法而言，CAPP-Seq可与肿瘤影像学方法，例如PET/CT扫描等结合进行。当 CAPP-seq用于评估肿瘤负荷或残余疾病时，肿瘤细胞的存在随时间而增加提示需要通过逐渐增加剂量、选择药剂等增加治疗。相应地，当CAPP-seq显示无残余疾病的迹象，患者可取消治疗，或降低剂量。

CAPP-seq也可用于新药的临床研究，以确定对目标癌症治疗的功效，其中肿瘤负荷的减少提示有效而肿瘤负荷的增加提示无效。

目标癌症可以是具体的癌症，例如非小细胞癌，子宫内膜样癌等；或可以是一类癌的统称，例如上皮癌(癌)；肉瘤；淋巴瘤；黑素瘤；神经胶质瘤；畸胎瘤等；或亚属，例如腺癌；鳞状细胞癌等。

术语“诊断”可指鉴别分子或病理状态，疾病或病症，例如鉴别乳腺癌、前列腺癌或其他类型癌症的分子亚型。

术语“预测”可指预测癌症引起的死亡或恶化的可能性，包括复发，转移扩散，及耐药，预测肿瘤病，例如卵巢癌。术语“预测” 可指基于观察、经验或科学推理进行预言或评估的行为。在一个实例中，医生可预言患者在手术除去原发瘤和/或化疗一段时间而无癌症复发后将存活的可能性。

术语“治疗”、“处理”等可指为了获得效果的目的，给予药剂，或实施程序。效果在完全或部分预防疾病或其症状方面可以是预防性的，和/或在影响疾病和/或疾病症状的部分或完全治愈方面可以是治疗性的。“治疗”，如本文所用，可包括哺乳动物，尤其是人的肿瘤的治疗，并包括：(a)预防发生在受试者中的疾病或疾病症状，该受试者可能有患该疾病的倾向但还未诊断出患有该疾病(例如，包括可能与原发病相关或由其引起的疾病)；(b)抑制疾病，例如，阻止其发展；及(c)缓解疾病，例如，引起疾病的消退。

定义

许多通常用于细胞培养领域的术语自始至终用于本公开。为了提供对说明书和权利要求清楚的和一致的理解，及此类术语的给定范围，提供了下列定义。

应理解的是，本发明不限于特定的方法学，方案，细胞系，动物种类或属，及所描述的试剂，因为这可变化。也应理解的是，本文中所使用的术语目的仅为了描述特定的实施方案，而无意限制本发明的范围，本发明仅受所附的权利要求的限制。

如本文所使用，单数形式“一个”、“一种”和“该”包括复数指示物，除非上下文另外清晰地说明。因此，例如，提及“一种细胞” 可包括多个此类细胞而提及“该培养物”可包括一个或多个培养物及其本领域技术人员已知的相等物等等。本文中所使用的所有技术和科学术语具有与本领域技术人员通常所理解的相同含义，所述领域是本发明所属的领域，除非另外清晰地说明。

“测量”或“测定”在本教导的上下文中可指确定临床上或来自于受试者样品的物质的存在，缺少，量，数量，或有效量，包括此类物质的存在，缺少，或浓度水平，和/或基于对照评估受试者临床参数的值或进行分门别类。

除非上下文中显而易见，本发明的所有要素，步骤或特征可与其他要素，步骤或特征任意组合使用。

分子生物学和细胞生物学的一般方法可在此类标准教科书中找到，如分子克隆法：实验室手册(Molecular Cloning:A Laboratory Manual),第3版(Sambrook et al.,Harbor Laboratory Press 2001)；分子生物学中的短方案(ShortProtocols inMolecular Biology),第4版， (Ausubel et al.eds.,John Wiley&Sons 1999)；蛋白质方法(Protein Methods)(Bollag et al.,John Wiley&Sons 1996)；基因疗法的非病毒载体(Nonviral Vectors for Gene Therapy)(Wagner et al.eds., Academic Press 1999)；病毒载体(Viral Vectors)(Kaplift&Loewy eds.,Academic Press 1995)；免疫学方法手册(Immunology Methods Manual)(I.Lefkovits ed.,Academic Press 1997)；及细胞和组织培养：生物技术中的实验室方法(Cell and Tissue Culture:Laboratory Proceduresin Biotechnology)(Doyle&Griffiths,John Wiley&Sons 1998)。用于涉及本公开基因操纵的试剂、克隆载体及试剂盒可从商业供应商获得，例如BioRad,Stratagene,Invitrogen,Sigma-Aldrich,及 ClonTech。

本发明根据本发明人发现或推荐的具体实施方案进行了描述，以包含实施本发明的优选方式。本领域技术人员将领会，按照本公开，在所例举的特定实施方案中可进行许多修改和改变而不背离本发明的预期范围。出于对生物学功能等价的考虑，可进行蛋白质结构改变而不影响生物学作用的类型或量。所有此类修改打算包括在所附的权利要求的范围中。

术语“受试者”、“个体”和“患者”在本文中可互换使用，并可指被评估治疗和/或正在治疗的哺乳动物。在一个实施方案中，该哺乳动物是人类。术语“受试者”、“个体”和“患者”可包括，但不限于，患有癌症或怀疑患有癌症的个体。受试者可以是人类，但也包括其他哺乳动物，尤其是那些可用作人类疾病的实验室模型的哺乳动物，例如小鼠、大鼠等。也包括如犬科动物、猫科动物等的驯养和其他种类动物的哺乳动物。

术语“癌症”、“瘤”、和“肿瘤”在本文中可互换使用，并可指呈现自发的、不受控制生长的细胞，以至于它们呈现特征在于在细胞增殖中明显失去控制的异常生长表型。本申请中用于检测、分析或治疗的目标细胞可包括，但不限于，癌症前期的(例如良性的)、恶性的、转移前的、转移性的及非转移性的细胞。实际上每个组织的癌症是已知的。短语“癌症负荷”可指受试者中癌细胞的量或癌症体积。相应地减轻癌症负荷可指减少受试者中癌细胞的数目或癌症体积。本文中所使用的术语“癌细胞”可指为癌细胞或从癌细胞衍生(例如癌细胞的克隆)的任何细胞。对本领域技术人员而言癌症的许多类型是已知的，包括实体瘤如癌、肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓瘤等，及循环癌症如白血病。癌症的实例包括，但不限于，卵巢癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、宫颈癌、卵巢癌、肝癌、膀胱癌、尿道癌、甲状腺癌、肾癌、癌、黑素瘤、头颈癌和脑癌。

癌症的“病理”可包括，但不限于，损害患者安康的所有现象。这包括，但不限于，异常或不可控的细胞生长、转移、干扰邻近细胞的正常功能、以非正常水平释放细胞因子或其他分泌产物、抑制或加重炎性或免疫应答、瘤形成、初癌、恶性、侵入周围或远处组织或器官例如淋巴结等。

如本文所使用，术语“癌症复发”和“肿瘤复发”及其语法上的变体可指诊断出癌症之后瘤或癌细胞的进一步生长。尤其是，当更多的癌细胞生长发生在癌组织中时，可发生复发。类似地，当肿瘤细胞在局部或远处组织和器官中传播时，可发生“肿瘤扩散”；因此肿瘤扩散可包括肿瘤转移。当肿瘤生长在局部扩散通过压制、破坏和/或阻止正常器官功能损害所涉及的组织的功能时，可发生“肿瘤入侵”。

如本文所使用，术语“转移”可指癌性肿瘤在器官或身体中的生长，其不直接与原癌性肿瘤的器官相关。转移可包括微小转移，它是器官或人体中存在的、不直接与原癌性肿瘤的器官相关的不可检测量的癌细胞。转移也可定义为一个过程中的几步，例如癌细胞从原肿瘤位置的离开，及癌细胞迁移和/或入侵到机体的其他部位。

如本文所使用，DNA、RNA、核酸、核苷酸、低聚核苷酸、多聚核苷酸可互换使用。除非另外明确地陈述，术语DNA包括任何类型的核酸(例如，DNA,RNA,DNA/RNA杂化物及其类似物)。在 RNA用于本文所公开的方法的情况中，所述方法可进一步包括RNA 的反转录以产生互补DNA(cDNA)或DNA拷贝。

本说明书中所引用的所有出版物和专利申请通过引用结合至本文中，好像各单独的出版物或专利申请具体地和分别地通过引用结合至本文中那样。

本发明根据本发明人发现或推荐的特定实施方案进行了描述，以包含实施本发明的优选方式。本领域技术人员将领会，按照本公开，在所例举的特定实施方案中可进行许多修改和改变而不背离本发明的预期范围。例如，由于密码子过多，在下面的DNA序列中可进行改变而不影响蛋白质序列。在另一个实例中，由于DNA和RNA 的相似性，所述方法、组合物和系统可同等地应用于所有类型的核酸 (例如，DNA,RNA,DNA/RNA杂化物及其类似物)。此外，出于对生物学功能等价的考虑，可进行蛋白质结构改变而不影响生物学作用的类型或量。所有此类修改打算包括在所附的权利要求的范围中。

提出下列实施例是为了给本领域技术人员提供如何产生和使用本发明的完整的公开和描述，而不是意于限制本发明人把其发明看成是什么的范围，也不是他们意于呈现下列试验是所有或唯一的进行的试验。努力确保有关所使用的数目(例如量、温度等)的准确性但应考虑某些试验上的错误和偏差。除非另外指明，份是重量份数，分子量是重均分子量，温度是摄氏温度，及压力是大气压或接近大气压。

实施例

实施例1：定量宽患者范围的循环肿瘤DNA的超灵敏方法

循环肿瘤DNA(ctDNA)代表疾病负荷的无创检测和复发监控的有希望的生物标志物。然而，现有的ctDNA检测方法受限于灵敏度、聚焦在小数量的突变上，和/或需要患者特异性的优化。为了解决这些缺点，开发了深度测序的癌症个体化概况分析(CAPP-Seq)，一种对几乎每个患者进行血浆ctDNA定量的、经济的且高度灵敏的方法。我们对非小细胞肺癌(NSCLC)进行了CAPP-Seq，设计成识别>95％肿瘤突变，同时检测点突变、插入/缺失、拷贝数变体和重排。当肿瘤突变特性已知时，我们检测了100％II-IV期NSCLC预处理血浆样品及50％I期NSCLC样品中的ctDNA，特异性为95％的突变体等位基因分数下至～0.02％。ctDNA的绝对量明显与肿瘤体积相关。此外，后处理样品中的ctDNA水平有助于区别残余疾病与治疗相关的影像变化，并提供比X光照射法更早的响应评估。最后，我们探索了该方法在无活检肿瘤基因型分型和癌症筛查上的用途。 CAPP-Seq可以常规上应用于临床检测和监控各种恶性肿瘤，因此促进了个体化癌症治疗。在此我们展示技术性能并探索CAPP-Seq在早期和晚期NSCLC患者中的临床用途。

用于NSCLC的CAPP-Seq选择子的设计。对CAPP-Seq的最初实施而言，我们聚焦在NSCLC上，虽然我们的方法可用于已识别出频发突变的任何癌症。我们采用多阶段方法设计特定于NSCLC的选择子，目标在于识别在该疾病中频发突变的基因组区域(图1b，表1)。我们从包括外显子开始，该外显子覆盖来自癌症体细胞突变目录(COSMIC)数据库以及其他来源(例如KRAS,EGFR,TP53)的潜在驱动基因中的频发突变。接下来，采用癌症基因组图集(TCGA)描述的407个NSCLC患者的全外显子组测序(WES)数据，我们采用迭代算法使错义突变/患者数最大化而使选择子大小最小化。我们的方法依靠复发指数，它能识别已知驱动子突变以及频繁突变的未表征的基因，因此可能在NSCLC发病机理中涉及(图7和表2)。

大约8％的NSCLC存在临床上可作用的重排，这些重排涉及受体酪氨酸激酶、ALK、ROS1和RET。这些结构的偏差是临床上可作用的，因为它们是药理抑制剂的靶，趋向于不成比例地发生在具有明显较少吸烟历史的年轻患者中，而他们的肿瘤比其他NSCLC患者存在更少的体细胞变异。为了使用在结构重排的唯一连接序列中固有的个体化性质和更低的假检测率，我们在最后的设计阶段中，在这些基因中包括了跨越复发融合断点的内含子和外显子(图1b)。为了检测肿瘤和血浆DNA中的融合，我们开发了称为FACTERA的断点定位运算法则(图8)。将FACTERA应用于已知用之前未表征的断点隐藏融合的2个NSCLC细胞系的下一代测序(NGS)数据，以核苷酸分辨率容易的识别断点，并且这些在两个病例中被独立证实了(图 9)。

全体上，NSCLC选择子设计靶向139个频发突变基因的521 个外显子和13个内含子，总覆盖～125kb(图1b)。在这小靶(0.004％的人类基因组)中，选择子识别4个点突变的中位数并覆盖96％的肺腺癌或鳞状细胞癌患者。为了验证所覆盖的突变/肿瘤数，我们检查了来自183个肺腺癌患者的独立小组的WES数据中的选择子区域。该选择子覆盖了中位数为4SNVs/患者的88％患者，因此验证了我们的选择子设计运算法则(P<1.0x10^-6；图1c)。当与随机取样外显子组比较时，被NSCLC选择子靶向的区域捕获了～4倍多的突变/患者(以中位数，图1c)。由于在癌症主要致癌机理上的类似性，NSCLC选择子表现为对其他癌有利。确实，该选择子成功地捕获了99％的结肠癌，98％的直肠癌，和97％的子宫内膜样癌，中位数分别为12个、7 个和3个突变/患者(图1d)。这说明了靶向成百的频发突变基因组区域的价值并显示了可以设计单一选择子以同时覆盖多个恶性肿瘤的频发突变。

方法学优化和性能评估。我们用NSCLC选择子进行深度测序以实现～10,000x覆盖(预复制去除，～10-12个样品/泳道)，并描述了总共90个样品，包括2个NSCLC细胞系，17个原发瘤活检和匹配的外周血白细胞(PBL)样品，及18个人类受试者的40个血浆样品，包括5个健康成人和13个在各种癌症治疗之前和之后的NSCLC患者(表3、20和21)。为了评估和优化选择子的性能，我们首先将它应用于从健康对照血浆纯化得到的cfDNA，观察效能和基因组 DNA的唯一捕获(表3、20和21)。测序过的cfDNA片段的长度中位数为～170bp(图2a)，几乎相应于包含在染色体内的DNA的长度。为了优化从少量cfDNA制备的文库，我们探索了连接反应和连接反应后扩增步骤的各种改进，包括温度、孵育时间、DNA聚合酶及PCR纯化。所优化的方案使覆盖有效率增加了>300％并且降低了构建小如 4ng cfDNA的文库的偏差(图10、11和12)。因此，测序深度的波动是极小的(图2b,c)。

CAPP-Seq的检测限受下列因素的影响：(i)cfDNA分子的输入数和回收率，(ii)样品交叉污染，(iii)捕获试剂的潜在等位基因偏差，及(iv)PCR或测序错误(例如，“技术的”背景)。我们检查了这些要素中的每个，从而更好地理解了其对CAPP-Seq灵敏度的潜在影响。首先，通过比较输入DNA分子/样品数与文库复杂性的预估(图13a)，我们计算出cfDNA分子回收率≥49％(表3,20和21)。这与用PCR 后质量产量计算的分子回收效率一致(图13b)。其次，通过分析样品中患者特异性的同型结合SNP，我们发现多路复用cfDNA中的交叉污染为～0.06％(图14)。在大多数应用中虽然太低以至于不能影响ctDNA检测，我们从进一步的分析中排除任何源自于肿瘤的SNV，如果在另一个描述过的患者中作为种系SNP发现。为了分析可能的捕获偏差，我们接下来评估了患者PBL(外周血淋巴细胞)样品中的杂合性SNP(单一核苷酸多形性)中的等位基因扭曲。我们观察到中位数杂合性等位基因分数为51％(图15)，表明对捕获对照等位基因有最小偏差。最后，我们分析了40个cfDNA样品中非对照等位基因在选择子中的分布，排除了源自于肿瘤的SNVs和种系SNPs(图 2d)。我们发现平均和中位数技术背景率分别为0.006％和0.0003％(图 2d)，两者都比之前报道的基于NGS的ctDNA分析方法要低很多。

除了技术背景外，由于各种组织中的肿瘤发生前细胞的贡献，突变体cfDNA在无癌症的情况下可存在，而该“生物学”背景可影响灵敏度。我们假设生物学背景(如果存在)在已知癌症驱动基因中的频发突变位置特别高，因此分析了所有40个血浆样品中的107个所选癌症相关的SNV的突变率，排除了在患者肿瘤中发现的体细胞突变。虽然丰度分数中位数可与整体选择子背景相比(～0％)，平均值稍高～0.01％(图2e)。令人侧目的是，一个突变(TP53 R175H)以～0.18％的中位数频率从所有cfDNA样品中被检测到，包括患者的和健康受试者的(图2f)。因为该等位基因明显高于整个背景(P<0.01；图 2f)，我们假设这反映了真实的生物学背景，因此排除了它作为潜在的报告基因。更一般地针对背景，在评估ctDNA检测的统计学意义时我们也使背景率中的等位基因特异性差异标准化。结果，我们发现生物学背景不是检测限在～0.01％之上的ctDNA定量的重要因素。

接下来，通过将NSCLC细胞系的规定浓度的成片段基因组 DNA加入到健康个体的cfDNA(图2g)中或加入到第二NSCLC系 (图16a)的基因组DNA中，我们凭经验用基准物质测定了等位基因频率检测限和CAPP-Seq的线性。NSCLC DNA的规定输入在丰度分数为0.025％-10％之间、高度线性(R²≥0.994)下被准确检测。SNP报道基因数对错误规格的影响的分析显示仅最低改善在4个报道基因的阈值之上(图2h,i,图16b,c)，等于SNV/该选择子识别的NSCLC 肿瘤的中位数。我们也测试了融合断点、插入/缺失和CNV是否能用作线性报道基因并发现这些突变类型的丰度分数与所预期的浓度高度相关(R²≥0.97；图16d)。

识别NSCLC患者中的体细胞突变。设计、优化和评估了 CAPP-Seq的技术性能之后，我们将其应用到发现从17个NSCLC患者的各组中收集的肿瘤中的体细胞突变(表1和表19)。为了测试用于识别结构性重排的CAPP-Seq的用途(这种重排更经常在非吸烟者肿瘤中见到)，我们入组了6个临床上证实有融合的患者。这些易位用作阳性对照，连同之前由临床试验(表19)识别的其他肿瘤中的 SNV。肿瘤样品包括福尔马林固定的外科或活检样品和含恶性肿瘤细胞的胸膜液。以肿瘤和成对的种系样品(表3、20和21)中～5,000x (除去预复制)的平均测序深度，我们检测了100％之前识别的SNV 和融合(分别是7和8)并发现许多其他体细胞变体(表1和表19)。此外，表征了8个重排中的每一个的伴侣基因和碱基对分辨率断点 (图17)。含融合的肿瘤几乎全部来自从不吸烟者，正如预期的那样，比那些缺乏融合的含更少的SNV(图18)。排除了具有融合的患者(<TCGA设计小组的10％)，我们确定了6个SNV(3个错义)/患者的中位数(表1)，与我们的选择子设计阶段的预测一致(图1b-c)。

灵敏度和特异性。接下来，用5个健康对照血浆样品和35 个从13个NSCLC患者收集的连续样品，除了一个患者有可用的预处理和后处理样品外，我们评估了用于疾病监控和最小残余疾病检测的CAPP-Seq的灵敏度和特异性(表1；表5)。CAPP-Seq用于测定整个血浆cfDNA样品格(40个血浆样品中，13个患者特异性的体细胞报道基因组，或520对)中的肿瘤负荷，用整合了多个情况中的信息内容和体细胞突变类型的方法以增加灵敏度和特异性。采用ROC 分析，对所有预处理肿瘤和健康对照，我们分别实现了85％的最大灵敏度和95％的最大特异性(AUC＝0.95)。I期肿瘤的灵敏度为50％而 II-IV期患者的灵敏度为100％，特异性为96％(图3a,b)。此外，当在 ROC分析中既考虑预处理又考虑后处理样品时，CAPP-Seq展示出鲁棒性能，所有阶段的AUC值为0.89及II-IV期的为0.91(P<0.0001；图19)。此外，通过调节ctDNA检测指数，我们能将特异性增加到最高 98％而仍然捕获2/3的所有癌症阳性样品和3/4的II-IV期癌症阳性样品(图20)。这表明我们的方法随讨论中的应用而可适合于递送所期望的灵敏度和特异性及CAPP-Seq可实现NSCLC患者肿瘤负荷的鲁棒评估。

监控血浆样品中的NSCLC肿瘤负荷。我们接下来问ctDNA 明显可检测的水平是否与影像学上测定的肿瘤体积和对疗法的临床响应相关。通过SNV和/或插入/缺失报道基因检测血浆中的源自于肿瘤DNA的分数的范围为～0.02％-3.2％(表1)，预处理样品中的中位数为～0.1％。此外，预处理血浆中的ctDNA绝对水平明显与计算机断层扫描(CT)和正电子成像术(PET)成像测定的肿瘤体积相关(R²＝0.89, P＝0.0002；图3c)。

为了确定ctDNA浓度是否反映纵向样品中的疾病负荷，我们分析了三个具有高度疾病负荷的患者的血浆ctDNA，这些患者经历了几次转移性NSCLC治疗，包括手术、放射疗法、化学疗法和酪氨酸激酶抑制剂(图4a-c)。作为预处理样品，ctDNA水平与治疗期间的肿瘤体积高度相关(对P15而言，R²＝0.95；对P9而言，R²＝0.85)。在从不吸烟者(P6)中，我们检测了3个SNV和KIF5B-ALK融合体，两个突变类型都同时在血浆cfDNA中可检测到并且在对克唑替尼疗法的响应上有可比性(图4c)。在所有3个患者中，观察到所测定的突变类型是SNV和插入/缺失(P15,图4a)，多个融合(P9,图4b)，还是SNV 和融合(P6,图4c)的集合这种行为，验证了各种源自于肿瘤的体细胞损伤的用途。值得注意的是，在一个患者中(P9)我们确定了典型的 EML4-ALK融合和两个之前未报道的涉及ROS1:FYN-ROS1和 ROS1-MKX的融合(图17)。所有融合都通过基因组DNA的qPCR扩增证实并独立地在血浆样品中回收(表5)。虽然这些新ROS1融合体的潜在功能是未知的，尽我们所知这是第一次在同一个NSCLC患者中观察到ROS1和ALK融合。

NSCLC选择子被设计用于检测多个SNV/肿瘤，如果存在，多于1种类型的突变/肿瘤。在一个患者的肿瘤中(P5)，该设计使我们能识别具有激活EGFR突变的支配性克隆以及具有EGFR T790M“看门人”突变的亚克隆。克隆之间的比例在肿瘤活检中于同时取样的血浆相同(图4d)，显示通过检测多个报道基因/肿瘤，我们的方法可用于检测和定量临床上相关的亚克隆。

验证了CAPP-Seq对晚期患者的性能后，我们接下来检查了 ctDNA生物标志物可能用于其中的其他临床情景。经历了具有治愈意图的决定性的放射疗法的II-III期NSCLC患者经常进行CT和/或 PET/CT扫描监视，由于放射诱导的炎症和肺和周围组织中的纤维化变化结果难于解释。这些可延迟复发的诊断或导致不必要的活检和引起患者焦虑。为了比较ctDNA定量与常规监视成像的结果，我们分析了2个患者的放射疗法前和放射疗法后血浆cfDNA。对患者P13而言，该患者用放射疗法单独治疗IIB期NSCLC，复查影像学显示出感觉象征残余疾病的大块。然而，在相同时间点上的ctDNA是不可检测的(图 4e)并且该患者22个月后依然无疾病，支持该ctDNA结果。第二个患者(P14)用同时放化疗治疗IIIB期NSCLC而复查影像学显示胸部的几乎完全响应(图4f)。然而，ctDNA浓度比预处理稍微增加，提示隐藏的微小疾病的进展。确实，7个月后临床上检测到了进展并且该患者最后死于NSCLC。这些数据突出了cfDNA分析作为影像学研究的互补形式和作为复发的早期诊断方法的用途。

我们接下来问CAPP-Seq的低检测限是否能监控对早期 NSCLC治疗的响应。大约60-70％的I期NSCLC是可用手术或立体定向放疗(SABR)治愈的。患者P1(图4g)和P16(图4h)分别经历了IB期 NSCLC的手术和SABR治疗。我们在患者P1的预处理血浆中检测到源自于肿瘤的cfDNA，但在手术后的3或32个月未检测到，提示该患者已无疾病且可能已痊愈。对患者P16而言，SABR后的最初的监视 PET-CT扫描显示有残余块存在，这被解释为代表要么是残余肿瘤要么是放射疗法后炎症。我们用ctDNA未检测到残余疾病的迹象，这支持后者，并且该患者最后在治疗后复查21个月后仍然无病。总而言之，这些结果显示了CAPP-Seq作为无创临床测试在测定早期和晚期 NSCLC肿瘤负荷上及在不同类型的疗法期间监控ctDNA上的用途。

无创肿瘤基因型分型和癌症筛查。最后，我们探索cfDNA的 CAPP-Seq分析是否能潜在地用于无创肿瘤基因型分型和癌症筛查 (例如，无之前的肿瘤突变的了解)。我们使我们自己不理会各患者肿瘤中的突变并应用新的统计学方法测试我们小组中的各血浆样品的癌症DNA的存在(图21)。该方法能识别含丰度分数在0.4％以上 ctDNA的全血浆样品中的突变体等位基因，而无假阳性(图4i)。因此，该方法具有对局部晚期或转移患者进行无创肿瘤基因型分型的用途。因为由低剂量CT确定的、具有发展为NSCLC高风险的患者中～95％结节是假阳性的，CAPP-Seq也可用作补充无创筛查测试。

在该研究中，我们将CAPP-Seq作为ctDNA定量的新方法介绍。我们的方法的关键特征包括高灵敏度和特异性，覆盖几乎所有 NSCLC患者，无需患者特异性优化，及低成本。通过包含优化的文库构建和生物信息学方法，CAPP-Seq达到了目前用于ctDNA分析的任一基于NGS方法的最低背景错误率和最低检测限。通过整合多个情况的信息内容和体细胞突变的类型我们的方法也降低了随机噪音的潜在影响和肿瘤负荷定量的生物学变化性(例如，接近检测限的突变或亚克隆肿瘤演变)。这些特征促进了最小残余疾病的检测和用深度测序进行I期NSCLC肿瘤的ctDNA定量的第一报告。虽然我们聚焦于 NSCLC，我们的方法也可应用于有频发突变数据的任何恶性肿瘤。

在许多患者中，ctDNA水平比之前描述的基于测序的方法的检测阈值要低很多。例如，在大多数肺癌和结直肠癌(及可能其他癌症)患者中预处理ctDNA浓度为<0.5％，而在大部分早期和许多晚期患者中<0.1％。治疗后，ctDNA浓度通常下降，使得高度灵敏的方法，如CAPP-Seq，甚至更关键。最近，实施了基于扩增子的深度测序方法以检测最大到6个频发突变基因/测试。此类方法受可同时调查的突变数和类型的限制，并且所报道的血浆中～2％等位基因检测限排除了大多数NSCLC患者的ctDNA检测。几个研究报道了对cfDNA进行全外显子组或基因组测序在分析体细胞SNV(单一核苷酸变体) 和CNV(拷贝数变体)上的应用。这些方法的SNV检测灵敏度明显受测序成本的限制，甚至比我们用CAPP-Seq法的测序深度大10倍，将不足于检测大多数NSCLC患者(图5a)中的ctDNA。同样，据报道血浆中通过WGS的CNV定量的检测限为～1％，限制了该方法用于高肿瘤负荷患者。

在检测阈值方面的另外收获是值得期待的。实现这些收获的方法包括采用条形编码策略，这些策略阻止由文库制作产生的PCR 错误，增加用于ctDNA分析的血浆量在平均水平～1.5mL以上用于该研究，进一步改善文库制作期间的连接反应和捕获效率，并增加选择子的大小以增加肿瘤特异性突变/患者数。第二个限制是无效捕获融合的潜在性，这可导致低估肿瘤负荷(例如，P9)。然而，该偏差可在分析上处理，当其他报道基因类型存在时(例如，P6；表4)。最后，虽然我们发现CAPP-Seq可定量CNV，但是我们目前的选择子设计不优先处理这些类型的偏差。为某些CNV增加覆盖范围可用于监控各种类型的癌症。

总的来说，cfDNA的靶向杂化物捕获和高通量测序使得以低成本、高灵敏度和无创检测癌症患者的ctDNA成为可能。CAPP-Seq 可常规地应用于临床以加速癌症的个体化检测、治疗和监控。 CAPP-Seq在各种临床环境中是有价值的，包括测定低癌细胞含量的生物液体和样品中的癌症DNA。

患者筛选。2010年4月至2012年6月，正在进行治疗的新诊断的或复发的NSCLC患者被招募到由斯坦福大学机构审查委员会 (StanfordUniversity Institutional ReviewBoard)批准的一项研究中并提供了知情同意书。所招募的患者在3个月的血液收集内未接受输血。患者特征见表3、20和21。所有治疗和影像学检查均作为标准临床护理的一部分进行。肿瘤负荷的体积测定基于CT上的可见肿瘤并按照椭球公式：(长度/2)*(宽度^2)计算。

样品收集和预处理。将患者外周血收集在EDTA真空采血管 (BD)中。在收集的3小时内处理血液样品。以2,500x g的速度离心 10分钟分离血浆，转移到小离心管中，并以16,000x g的速度离心 10分钟除去细胞碎片。采用DNeasy血液和组织试剂盒(Qiagen)，最初离心得到的细胞颗粒用于分离PBL(外周血白细胞)中的种系基因组DNA。匹配的肿瘤DNA从FFPE样品或从胸腔积液的细胞颗粒中被分离。基因组DNA用Quant-iT PicoGreen dsDNA测定试剂盒 (Invitrogen)定量。

无细胞DNA纯化和定量。用QIAamp循环核酸试剂盒 (Qiagen)从1-5mL血浆中分离无细胞DNA(cfDNA)。所纯化的cfDNA 的浓度通过定量PCR(qPCR)测定，该方法采用染色体1上的81bp 扩增子和完整的男性人类基因组DNA的一系列稀释液(Promega)作为标准曲线。Power SYBR Green用于qPCR，用HT7900实时PCR仪 (AppliedBiosystems)，采用标准PCR热循环参数。

Illumina NGS文库构建。编入索引的Illumina NGS文库由 cfDNA和切断的肿瘤、种系及细胞系基因组DNA制备。对患者cfDNA 而言，7-32ng DNA用于文库构建而无需另外的分段。对肿瘤、种系和细胞系基因组DNA而言，69-1000ng DNA在文库构建之前用采用推荐设置的Covaris S2仪切成200bp的片段。详见表2。

NGS文库用KAPA文库制备试剂盒(Kapa Biosystems)构建，采用拥有强3'-5'核酸外切酶(或校正)活性的DNA聚合酶并展示所有商业上可获得的B族DNA聚合酶的最低发表错误率(例如最高保真度)。用Agencourt AMPure XP珠(Beckman-Coulter)修改产生商的方案以加入用珠的酶促和清除步骤。用100倍摩尔过量的编入索引的 Illumina TruSeq衔接子、在16℃进行连接反应16小时。通过加入40μL (0.8X)PEG缓冲液富集所连接的DNA片段进行一步规模的筛选。所连接的片段然后用500nM Illumina主链低聚核苷酸和4-9PCR周期进行扩增，该周期取决于输入的DNA质量。文库的纯度和浓度分别用分光光度计(NanoDrop 2000)和qPCR(KAPA Biosystems)测定。片段长度用DNA 1000试剂盒(Agilent)在2100生物分析仪上测定。

杂化物筛选的文库设计。杂化物筛选用常规SeqCap EZ选择文库(RocheNimbleGen)进行。该文库通过采用基因组构建物HG19 NCBI构建物37.1/GRCh37和最大接近匹配(Maximum Close Matches)设置为1的NimbleDesign门户(v1.2.R1)设计。根据NSCLC中最频繁突变的基因和外显子筛选输入基因组区域。这些区域由 COSMIC数据库、TCGA和其他出版来源识别。最终的选择子坐标见表1提供。

杂化物筛选和高通量测序。按照产生商的方案经修改使用 NimbleGen SeqCap EZChoice。在9-12个编入索引的Illumina文库之间包括进单一捕获反应。杂化物筛选后，采用1X KAPA HiFi Hot Start Ready Mix和2μM Illumina主链低聚核苷酸、在4-6个分开的50μL 反应中，将所捕获的DNA片段PCR扩增12-14周期。然后将反应物合并并用QIAquickPCR纯化试剂盒(Qiagen)处理。用2x 100bp配对末端运行(pared-end runs)、在Illumina HiSeq 2000上进行多路复用文库测序。

NGS数据的定位和质量控制。用BWA 0.6.2(默认参数)定位配对末端读数至hg19对照基因组，并用SAMtools分类/编入索引。 QC用常规Perl脚本评估以收集各种统计数字，包括定位特征、读数质量、及选择子中靶率(例如，与选择子空间交叉的独特读数数除以所有比对的读数的数)，这些数字分别通过SAMtools flagstat,FastQC, 和BEDToolscoverageBed产生，修改以计数各读数最多一次。片段长度分布对序列深度/范围的图自动形成用于视觉QC评价。为了减轻测序错误的影响，不涉及融合的分析受限制于适当配对的读数，并且仅Phred质量分数≥30(≤0.1％测序错误的概率)的碱基进一步进行分析。

通过CAPP-Seq分析检测阈值。配制两个系列的稀释液以评估用于定量源自于肿瘤的cfDNA的CAPP-Seq法的线性和精确性。在一个试验中，将NSCLC细胞系(HCC78)的切断的基因组DNA加入到健康个体的cfDNA中，而在第二个试验中，将一个NSCLC细胞系(NCI-H3122)的切断的基因组DNA加入到第二个NSCLC细胞系 (HCC78)的切断的基因组DNA中。总共32ng DNA用于文库的构建。在定位和质量控制之后，同型结合报道基因被确定为对各样品唯一的等位基因，具有至少20x测序深度和等位基因分数>80％。在HCC78 基因组DNA和血浆cfDNA(图2g-h)之间十四个此类报道基因被确定，而在NCI-H3122和HCC78基因组DNA(图16)之间24个报道基因被发现。

统计分析。采用独立的肺腺癌小组(图1c)、用计算机验证 NSCLC选择子。为了评估统计学意义，我们采用10,000个随机从外显子组取样的选择子分析了相同的小组，各外显子组对CAPP-Seq NSCLC选择子具有相同大小分布。随机选择子的性能具有正常分布，并且因此计算了p-值。要注意的是，所有确定的体细胞损害在该分析中均被考虑。

为了评价报道基因数对肿瘤负荷预测的影响，我们使用了蒙特卡洛取样法（MonteCarlo sampling）(1,000x)，在两个加入试验中改变可用的报道基因的数{1,2,…,max n}(图2g-i；图13a-b)。

为了评价血浆cfDNA中肿瘤负荷预测的统计学意义，我们比较了患者特异性SNV频率与选择子宽背景等位基因的零分布。采用突变特异性背景率和Z统计分别分析了插入/缺失。由于其超低的假检测率，当出现>0读数支持时融合断点被认为有统计学意义。不同报道基因类型的p-值被结合到单一ctDNA检测索引中，如果度量 ≤0.05(≈FPR≤5％)，使ROC分析中的CAPP-Seq灵敏度和特异性最大化的阈值(通过完美的分类器的欧式距离测定，例如，TPR＝1和FPR＝0；图3,图4,表1,表4)，则认为有统计学意义。

关于图5，对特定深度和检测限而言回收血浆中单一突变体等位基因的至少2个读数的概率P按二项式分布建模。特定的P，检测所有确定的血浆中的肿瘤突变的概率(例如，CAPP-Seq的中位数为4)按几何分布建模。图5a中的预测基于250百万100bp读数/ 泳道(例如，采用IlluminaHiSeq 2000平台)。此外，假设CAPP-Seq 和WES的中靶率为60％(图5)。

分子生物学方法

细胞系。肺腺癌细胞系NCI-H3122和HCC78分别从ATCC 和DSMZ获得，并在含L-谷氨酰胺(Gibco)、补充10％胎牛血清 (Gembio)和1％青霉素/链霉素混合物的RPMI 1640中生长。细胞在 37℃、5％CO₂孵化器中保持以对数中期生长。基因组DNA用DNeasy 血液和组织试剂盒(Qiagen)从新鲜收获的细胞中纯化。

胸膜液处理和流式细胞仪，及细胞分选。于300x g、4℃下离心5分钟收获来自患者P9和P6胸膜液的细胞并在FACS染色缓冲液(HBSS+2％热失活的小牛血清[HICS])中洗涤。用ACK裂解缓冲液 (Invitrogen)将红血细胞裂解，将凝块通过100μm尼龙过滤器除去。将过滤的细胞旋转并再悬浮于染色缓冲液中。放在冰上的同时，将该细胞悬浮液用10μg/mL大鼠IgG封阻20分钟，然后用APC缀合的小鼠抗人EpCAM(BioLegend,克隆9C4)，PerCP-Cy5.5-缀合的小鼠抗人CD45(eBioscience,克隆2D1),及PerCP-eFluor710-缀合的小鼠抗人CD31(eBioscience,克隆WM59)染色20分钟。染色后，将细胞洗涤并再悬浮于含1μg/mLDAPI的染色缓冲液中，分析，并用 FACSAria II细胞分类器(BD Biosciences)分类。从分析和分类中将细胞双峰(Cell doublets)和DAPI阳性细胞排除。将 CD31^–CD45^–EpCAM⁺细胞挑选到染色缓冲液中，旋转，并在液氮中闪式冷冻。用QIAamp DNA微试剂盒(Qiagen)分离DNA。

从低输入cfDNA制备NGS文库的优化。逐步比较Illumina文库构建方案，目的在于(1)优化衔接子连接反应效率，(2)衔接子连接反应后减少必需的PCR周期数，(3)保存cfDNA片段的自然发生大小分布，及(4)使所有捕获的基因组区域测序范围的深度的可变性最小化。最初的优化用Illumina的NEBNext DNA文库制备试剂盒(New EnglandBioLabs)完成，这包括用于cfDNA片段的末端修复、加A尾、衔接子连接反应、及所连接片段用Phusion高保真PCR Master Mix扩增的试剂。对所有条件而言，输入是4ng cfDNA(从相同健康志愿者的血浆获得)。所构建的文库中的相对等位基因丰度通过4个基因组基因座的 qPCR(Roche NimbleGen:NSC-0237,NSC-0247,NSC-0268,及 NSC-0272)评估并用2^-ΔCt法比较。

连接反应在20℃进行15分钟(按照产生商的方案)，在16℃ 进行16小时，或者按之前描述的温度循环16小时。连接反应体积从标准(50μL)变化到下至10μL，同时保持DNA连接酶、cfDNA片段和 Illumina衔接子的恒定浓度。随后的优化包括在16℃、50μL反应体积中进行连接反应16小时。

接下来，我们比较标准SPRI珠处理程序，其中在各酶促反应之后加入新的AMPureXP珠并将DNA从珠中洗脱出来进行下一反应，用珠的方案修改如前所述3。我们比较该连接反应中Illumina衔接子的 2个浓度：12nM(对cfDNA片段而言，10-倍摩尔过量)和120nM(100- 倍摩尔过量)。

采用所优化的文库制备程序，我们接下来比较NEBNextDNA 文库制备试剂盒(含Phusion DNA聚合酶)与KAPA文库制备试剂盒 (含KAPA HiFi DNA聚合酶)。含我们的修改的KAPA文库制备试剂盒也与带自动化Mondrian SP工作站的NuGEN SP Ovation Ultralow文库系统比较。

基于CAPP-Seq性能，评估文库制备的修改。我们用标准文库制备方法、用NEBNext试剂盒对32ng cfDNA进行CAPP-Seq，或者用优化过的方法、采用NEBNext试剂盒或KAPA文库制备试剂盒。我们用KAPA试剂盒、用我们优化的方法平行地对4ng和128ng cfDNA进行CAPP-Seq。构建编入索引的文库，并且以多路进行杂化物筛选。后捕获多路复用文库用Illumina主链引物扩增14个PCR周期，然后在 IlluminaHiSeq 2000的配对末端100bp泳道上测序。

全基因组扩增(WGA)后我们也评估了超低输入的CAPP-Seq。我们使用SeqPlexDNA扩增试剂盒(Sigma-Aldrich)，该试剂盒采用变性的低聚核苷酸引物PCR。简要地说，用SYBR Green I(Sigma-Aldrich) 实时监控、在HT7900实时PCR仪(Applied Biosystems)上对1ng cfDNA 进行扩增。17个周期后终止扩增，得到2.8μg DNA。引物去除步骤得到～600ng DNA，用NEBNext试剂盒、用本文所描述的优化方法，该全部的量用于文库制备。

CAPP-Seq检测的变体验证。所有结构性重排和CAPP-Seq检测的肿瘤SNV的子集独立地由qPCR和/或扩增的片段的Sanger测序证实。对HCC78而言，120bp含SLC34A2-ROS1断点的片段从基因组DNA扩增，采用下列引物：5’-AGACGGGAGAAAATAGCACC-3’ 和5’-ACCAAGGGTTGCAGAAATCC-3’。对NCI-H3122而言，143bp 含EML4-ALK断点的片段采用下列引物扩增： 5’-GAGATGGAGTTTCACTCTTGTTGC-3’和 5’-GAACCTTTCCATCATACTTAGAAATAC-3’。5ng基因组DNA用作模板，在50μL反应液中含250nM低聚核苷酸和1X Phusion PCR MasterMix(NEB)。将产物用2.5％琼脂糖凝胶溶解并除去所期望大小的带。用Qiaquick凝胶提取试剂盒(Qiagen)纯化所扩增的DNA片段并用于Sanger测序(Elim Biopharm)。对P9而言，基因组DNA断点由qPCR证实，采用下列引物：对EML4-ALK而言， 5’-TCCATGGAAGCCAGAAC-3’和5’-ATGCTAAGATGTGTCTGTCA-3’；对ROS1-MKX而言， 5’-CCTTAACACAGATGGCTCTTGATGC-3’和5’-TCCTCTTTCCACCTTGGCTTTCC-3’；及对FYN-ROS1而言， 5’-GGTTCAGAACTACCAATAACAAG-3’和 5’-ACCTGATGTGTGACCTGATTGATG-3’。对qPCR而言，10ng预扩增基因组DNA用作模板，在10μL反应液中含250nM低聚核苷酸和1X Power SyberGreen Master Mix，一式三份在HT7900实时PCR 仪(Applied Biosystems)上进行。使用标准PCR热循环参数。在P9中检测到的跨度全部3个断点的扩增子的扩增在肿瘤基因组DNA以及血浆cfDNA中得到证实，而PBL基因组DNA用作阴性对照。

CAPP-Seq证实了体细胞肿瘤突变(SNV和重排)，这些突变由作为标准临床护理的一部分的临床测试检测(表3、20和21)。临床突变测试在福尔马林固定的石蜡包埋的组织上进行。SNV用 SNaPshot测试⁴检测。重排用荧光原位杂交法(FISH)检测，该方法采用靶向ALK基因座(Abbott)或ROS1基因座(Cytocell)的分离探针。

生物信息学和统计方法

CAPP-Seq检测阈值度量。选择子基线水平背景。我们用从 NSCLC和健康个体收集的所有40个血浆cfDNA样品(在本工作中分析)(表2)评估NSCLC选择子的基线水平背景分布(图2d)。具体的说，对各背景而言，选择子位置的基线具有≥500x的总测序深度，计算所有cfDNA样品的异常值校正均值。虽然我们测试了专用的异常值校正方法，如迭代格拉布斯法和ROUT，我们的经验分析表明简单的除去最小值和最大值最好。重要的是，为了将我们的分析限制于背景基线，将各患者样品预过滤以除去种系，减少杂合性(LOH)和/或由VarScan 2⁶产生的体细胞变体呼叫(体细胞p-值＝0.01；否则，默认参数)。

作为报道基因的SNV的统计学意义。为了评价血浆中源自于肿瘤的SNV的统计学意义，我们采取了一个策略，该策略积分了所有体细胞SNV中的cfDNA分数，进行了位置特异性的背景调节，并用整个选择子中的背景等位基因的蒙特卡洛取样法评价统计学意义。我们注意到，该方法与之前的方法根本不同，在之前的方法中分别对突变进行检查。与这些方法不同，我们的策略减少了随机噪音和生物学变量(例如，接近检测限的突变，或肿瘤发展)对肿瘤负荷定量的影响，允许更鲁棒的统计学评估。特别是，这使得CAPP-Seq能够定量潜在高比率的等位基因掉出的低水平的ctDNA。

对给定的血浆cfDNA样品θ而言，为了使选择子技术/生物学背景对统计学预测的影响最小化，我们开始为患者P的各n SNV 调节等位基因分数f。具体地说，对各等位基因，我们进行下列简单操作，f*＝max{0,f-(e-μ)}，其中f是血浆cfDNA中的粗等位基因分数，e是给定的等位基因在整个cfDNA样品中的位置特定性错误率 (见上)，而μ表示平均选择子宽背景率(在该研究中＝0.006％，参见B1.1小节和图2d)。事实上，该调节将所有n SNV的平均值推近了整体选择子平均μ，减轻了技术/生物学背景的混乱影响。采用蒙特卡洛模拟法，我们比较了调整过的平均SNV分数F*(＝∑f*)/n与该选择子中的背景等位基因的零分布。具体地说，对各i循环(在该工作中＝10,000)，n背景等位基因从θ中随机取样，之后其分数用上述公式调节并平均。患者P的SNV p-值以相对于θ中背景等位基因的零分布的F*的百分位数测定。因此，如果F*排在θ中所调节的背景等位基因的第96百分位数，患者P的一组SNV将赋予0.04的检测 p-值。我们注意到，背景调节总是改善我们的ROC分析中的CAPP-Seq 特异性。

作为报道基因的插入/缺失的统计学意义。基于群体统计我们实施了一种方法以评价分别来自SNV的插入/缺失的统计学意义。对患者P中各插入/缺失而言，我们使用Z-检验以比较其在给定血浆 cfDNA样品θ中的分数与其在我们的小组中每个cfDNA样品中的分数(排除来自相同患者P的cfDNA样品)。为了增加统计的鲁棒性，各读数链(正或反方向)分开评估，各插入/缺失产生两个Z-分数。这些分数按Stouffer法(积分Z统计数字的未加权方法)组合到单一 Z-分数中。最后，如果患者P有多于1个插入/缺失，将所有插入/缺失特异性Z-分数按Stouffer法组合到最后的Z统计数字中，这一般转化为p-值。

作为报道基因的融合的统计学意义。在独立的文库中给出与检测相同NSCLC融合断点相关的非常低的假阳性率，血浆cfDNA 中源自于肿瘤的基因组融合的CAPP-Seq回收被(任意地)赋予p- 值为～0。

整合不同突变类型以评估肿瘤负荷定量的统计学意义。对各患者而言，基于从他或她的报道基因阵列的p-值积分(表1和表19) 我们计算了ctDNA检测指数(相似于假阳性率)。对患者肿瘤中仅存在单一报道基因类型的病例而言，采用相应的p-值。如果检测到SNV和插入/缺失报道基因，并且如果各自独立的p-值<0.1，我们按 Fisher法(Fisher,1925)组合其各自的p-值，并采用所得的p-值。否则，在选择子设计中给定SNV的优先顺序，采用SNVp-值。如果肿瘤样品中识别的融合断点(例如，涉及ROS1,ALK,或RET)从相同患者的血浆cfDNA中回收，这胜过所有其他突变类型，而采用其p-值(～0)。如果肿瘤中检测到的融合未在相应的血浆中发现(可能由于杂交无效；参见C4小节)，采用任一剩余突变类型的p-值。重要的是，随着新患者被选入，我们交叉检查增长的样品数据库中的报道基因类型以改善特异性(在下面B1.6小节中描述)并识别潜在的红旗。

针对灵敏度和特异性评估的插入/缺失/融合纠正。涉及图3，在用本文所公开的方法计算了所有cfDNA样品中每组报道基因的 ctDNA检测指数后，我们采用另一步骤以增加特异性。也就是，为了开拓比SNV更低的插入/缺失和融合断点的技术背景，我们采用了“插入/缺失/融合纠正”。具体地说，如果在患者X肿瘤中发现的插入/缺失/融合报道基因能在患者X血浆cfDNA中唯一地被检测(例如，未在任何其他患者或对照cfDNA样品中检测)，那么在每个不匹配的 cfDNA样品中将相应于患者X的ctDNA检测指数设为1(例如，ctDNA不可检测)。换句话说，患者X的报道基因将不称为另一个患者中的假阳性。虽然我们还未遇到两个患者具有相同的插入/缺失/ 融合报道基因，如果是这种情况，纠正将不应用于一个患者到另一个患者。

为了以盲法进行该纠正，如图3(a和b小图)所示，我们识别了各cfDNA和PBL样品中的种系SNP，并将各cfDNA样品赋予给具有最高SNP一致性的肿瘤/正常对(揭盲后，发现所有cfDNA样品正确地与其相应的肿瘤/正常对匹配)。如图19所示，该纠正一致地增加了CAPP-Seq的特异性。种系SNP用VarScan 2识别，p-值阈值为0.01，最小序列范围为100x，最小平均质量分数为30(Phred)，否则默认参数。

灵敏度和特异性分析。我们通过屏蔽所有患者的身份信息，包括疾病阶段、cfDNA时间点、治疗等，以盲法测试CAPP-Seq的性能。然后我们测试了本文所描述的我们的检测度量以正确地呼唤整个格子中去标识的血浆cfDNA样品的肿瘤负荷(全部40个血浆样品，或520对中的13个患者特异性体细胞报道基因组)。为了计算灵敏度和特异性，我们自己“未设盲”并将患者样品分成癌症阳性组(例如，癌症存在于该患者的体内)，癌症阴性组(例如，患者被治愈)，或癌症未知组(例如，数据不足以确定真实的类别)。我们考虑有放射性复发迹象的患者的每个时间点及所有IV期癌症阳性患者，而不管在有关时间点上的临床进展。由于在最近的复查时“无疾病迹象 (NED)”状态，患者13(P13；IIB期NSCLC)的后处理时间点被认为是癌症未知的，从其治疗开始几乎2年(图4e)。患者2(P2；IIIB 期NSCLC)在完全的手术切除后被归类为NED，也被认为是癌症未知的。由于有限的复查，所有后处理I期NSCLC患者样品都被保守地看作“癌症未知”而不是真实的阴性。

文库复杂性的分析

文库复杂性估测。我们用330个基因组同等物/1ng输入DNA 估测单倍体基因组同等物/文库的数(表2)，并将整个“分子回收” 作为复制去除后中位数深度计算，除以下列两项中较小的那个：(i) 复制去除之前中位数深度和(ii)所估测的单倍体基因组同等物数。给定测序深度的分子回收估测为：对cfDNA而言，38％；对肿瘤DNA 而言，37％；对PBL(所有样品中的最高DNA输入质量)而言，48％。

与基因组DNA相反，血浆cfDNA自然断裂并且具有与核小体间距有关的高的已成陈规的大小分布，中位数长度为～170bp和非常低的分散度(图2a，表3、20和21)。如此，我们假设具有相同开始/结束坐标的独立输入分子可使cfDNA的复制率膨胀，导致被低估的分子回收率。

我们通过分析杂合种系SNP测试了该假设，推断：具有相同开始/结束坐标的并且通过单一预定定义种系变体进行区分的DNA 片段(例如，配对的末端读数)比技术性人工产物(例如，PCR复制品)更可能代表独立的起始分子。用VarScan 2(如本文所描述)识别了所有九十个样品(表2)中的杂合SNP，并过滤得到等位基因频率在40％-60％之间的变体，此类变体存在于dbSNP的共同SNP子集中(版本137.0)。对各杂合共同SNP,A/B而言，我们计数具有支持 A,B,或AB的唯一开始/末端坐标的所有片段。在具有给定A/B SNP 的分子中，当随机取样两个分子(AB或BA)时有50％的机会将A和B 聚集在一起，有合并的50％的机会得到要么AA要么BB。因为AB 的唯一开始/末端位置的数(标注为N)表示至少两倍的分子(≥2N)，并且合并的≥2N分子可以假设从支持A,或B的唯一开始/末端坐标失去，总失去文库复杂性的更低边界按公式3N/S确定，其中S表示包含A, B,和AB的唯一开始/末端坐标的总数。在各输入样品的SNP中，我们计算出平均失去文库复杂性，在cfDNA样品中是30％，在肿瘤和 PBL基因组DNA中平均失去文库复杂性分别是4％和6％(图13a)。表2中提供了为所估测的复杂性损失而调节的分子回收率，提示平均分子回收率在cfDNA中至少49％，在肿瘤基因组DNA中(大多数是FFPE)为37％，而在PBL基因组DNA中为51％。

复制率。普通重复数据删除工具，如SAMtools rmdup和 Picard toolsMarkDuplicates(http://picard.sourceforge.net)，基于序列坐标和质量而不是序列组合物识别和/或瓦解读数。这可导致源自于肿瘤的读数(代表不同的分子)的除去，这些读数碰巧与种系读数共享序列坐标。这对cfDNA而言尤其成问题，因为对大的分子分数而言，有其他独特的分子具有相同的开始和末端(见上)。针对这一问题，我们开发了常规的Perl脚本，该脚本忽视低质量的碱基(此处，Phred Q<30)，并且仅瓦解那些具有100％序列同一性的片段(读数对)，这些片段也共享基因组坐标。表2和4中提供了所得复制后读数和相应的非重复数据删除数据，这些数据分别覆盖测序统计数字和cfDNA 监控结果。

通过PCR和质量输入测定的文库复杂性。作为分开的文库复杂性的估测，对由cfDNA构建的各Illumina NGS文库而言，我们从实际产率和预期(理想)产率计算了预期文库产率的分数(图13b)。实际文库产率从所构建的文库的摩尔浓度和体积确定(在杂化物筛选之前)。预期文库产率从用于文库制备的cfDNA的质量和所实施的 PCR周期数计算，假设连接反应100％有效及每个周期PCR 95％有效。从在Illumina TruSeq文库的连续稀释液上进行的qPCR观察到95％的 PCR效率(4个独立试验的平均值为R²>0.999)。

CAPP-Seq选择子设计。大多数人类癌症在个体基因的体细胞突变上是相对混杂的。具体地说，在大多数人类肿瘤中，单一基因的再现体细胞变化占患者的少数，而仅少数肿瘤类型可以用少数预定义位置上的频发突变(<5-10)定义。因此，选择子的设计对CAPP-Seq方法是关键，因为(1)它命令那类突变可以在患有特定癌症高可能性的患者中检测到，及(2)选择子大小(以kb计)直接影响成本和序列范围的深度。例如，在目前全外显子组捕获试剂盒中可得到的杂化物筛选文库范围为51-71Mb，相对全基因组测序提供了～40-60倍的最大理论富集。潜在的富集度与选择子大小成反比，使得对～100kb选择子而言，>10,000倍的富集应该可达到。

我们采用如下所述的六阶段设计策略为CAPP-Seq NSCLC 选择子识别和优先排序基因组区域。三阶段用于结合已知的和疑似的 NSCLC驱动子基因，以及已知要参与临床上可作用的融合的基因组区域(阶段1,5,6)，而另外三阶段采用运算方法以使所覆盖的患者数和SNV/患者均最大化(阶段2-4)。后者依赖于我们称之为“复发指数”(RI)的度量，为该实施例定义为具有在特定千碱基的外显子序列中发生的SNV的NSCLC患者数(例如，具有突变的患者数/外显子长度kb)。RI因此为测定外显子水平的患者水平复发频率服务，而同时使基因/外显子大小标准化。作为整个大组的患者中的相同基因型的体细胞突变数据的来源，在阶段2-4中，我们分析了在TCGA全外显子组测序数据中识别的非沉默SNV，这些数据来自肺鳞状细胞癌数据集(SCC)中178个患者和肺腺癌(LUAD)数据集中229个患者(TCGA问讯日期是2012年3月13日)。选择各度量的阈值(例如， RI和患者/外显子)以在统计上富集SCC和LUAD数据中的已知/ 疑似驱动子(图7)。通过UCSC表浏览器(问讯日期是2012年4月 11日)获得了RefSeq外显子坐标(hg19)。

下列运算法则用于设计CAPP-Seq选择子(括号中的描述与图1b中说明的设计阶段相符)。

·阶段1(已知驱动子)

基于其在NSCLC中的突变频率选择最初的种子基因。COSMIC(v57) 的分析识别了在≥9％NSCLC中频发突变的已知驱动子基因(分母 ≥500病例)。基于之前在NSCLC中识别的SNV的模式选择这些基因的特定外显子。种子清单也包括来自频发突变基因的单一外显子，这些突变发生的频率低但是具有强的是驱动子突变的迹象，如BRAF 外显子15，它包含<2％NSCLC中的V600E突变。

·阶段2(最大范围)

对在LUAD和SCC中覆盖≥5患者的具有SNV的各外显子而言，我们选择当与前阶段比较时识别至少1个新患者的具有最高RI的外显子。在具有同等高RI的外显子中，我们加入在已被选择子捕获的患者中具有最小重叠的外显子。重复该阶段直到无更多的外显子满足这些标准。

·阶段3(RI≥30)

对RI≥30和在LUAD和SCC中覆盖≥3患者的具有SNV的各剩余外显子而言，我们识别了将在仅有1个SNV的患者中导致最大减少的外显子。为了打破同等好的外显子之间的联系，选择具有最高RI的外显子。重复该阶段直到无另外的外显子满足这些标准。

·阶段4(RI≥20)

与阶段3相同的程序，但用RI≥20。

·阶段5(预测的驱动子)

我们包括了来自之前预测在NSCLC中包含驱动子突变的另外的基因的所有外显子。

·阶段6(加入融合)

对在涉及受体酪氨酸激酶ALK，ROS1和RET的NSCLC中的复发重排而言，包括了最频繁牵涉到融合事件中的内含子和位于侧面的外显子。

表1中提供了所有包括在选择子中的外显子，以及其相应的 HUGO基因符号和基因组坐标，以及NSCLC和各种其他癌症的患者统计数字，该表由选择子设计阶段组织。

CAPP-Seq计算流程

突变发现：SNVs/插入/缺失。对检测体细胞SNV和插入/缺失事件而言，我们采用VarScan 2(体细胞p-值＝0.01，最小变异频率＝5％,链过滤器＝准确，否则默认参数)。体细胞变异呼唤(SNV或插入/缺失)在成对的正常样品(PBL)中存在小于0.5％突变体等位基因频率，但是所处的位置保持具有至少PBL中的1000x总深度和肿瘤中的100x深度，及在各链上具有至少1x读数深度(表3、20和21)。虽然选择子被设计来主要捕获外显子，实际上，它也捕获位于各靶向区域侧面的有限序列内容物。例如，该现象是通过在NSCLC中复发重排的激酶基因如ALK和ROS1的融合伴侣的CAPP-Seq(它未被包括在该选择子中)(因此更)一致成功的回收的基础。如此，我们也考虑了在500bps定义的选择子坐标内检测的变体呼唤。如果存在于非编码重复区域内这些呼唤被排除，因为重复可能使定位的准确性混乱。用UCSC表浏览器中的RepeatMasker跟踪(hg19)获得重复序列坐标。在多路复用cfDNA样品中给出低的、但是可测的交叉污染率～0.06％(表14)，我们也排除了在相同泳道样品中发现作为种系SNP 的任何SNV。另外，我们排除了在整个选择子背景前第99.9百位分数的SNV(>0.27％样品宽背景率；参见图2d和上述B1.1小节)。最后，我们排除了在至少1个cfDNA样品中在至少500x的深度下不存在的任何SNV。变体标注自动地从SeattleSeq标注137网络服务器下载。表3、20和21提供了所有识别的SNV和插入/缺失的完整细节。要注意的是，所有深度阈值指复制前除去读数。

突变发现：融合。对实用的和鲁棒的重新计数的基因组融合事件和配对末端下一代测序数据的断点而言，我们开发了新的、启发式的方法，称为FACTERA[FACile易位计数和回收运算法则(FACile Translocation Enumeration and Recovery Algorithm)]。FACTERA具有最小的外部依赖，直接在先前存在的.bam比对文件上工作，并且容易地产生可翻译的输出。该运算法则的主要步骤概述如下，并用图表补充以说明该断点识别方法的关键因素(图8)。FACTERA被编码到Perl中并在要求时可自由获取。

作为输入，FACTERA需要由BWA产生的配对末端读数的.bam比对文件，.bed格式的外显子坐标(例如，hg19 RefSeq坐标)，及.2bit对照基因组以使能够快速序列恢复(例如，hg19)。另外，分析可以任选限制于重叠特定基因组区域的读数(.bed文件)，例如用于该工作的CAPP-Seq选择子。

FACTERA以三个连续阶段处理输入：识别不一致的读数，以碱基对分辨率检测断点，及用计算机验证候选物融合。下面详细描述各阶段。

识别不一致的读数。为了迭代减少基因融合识别的序列空间，FACTERA，像其他运算法则一样(例如BreakDancer)，能识别和分类不一致的读数对。此类读数表示位于附近的融合事件，因为他们要么定位不同的染色体要么被大的插入片段尺寸(例如总片段长度) 意外分开，如按BWA定位运算法则测定。伴随各比对读数的按位标志编码各种定位特征(例如，不合适配对的，未定位的，错误方向等)，并用杠杆作用迅速过滤不一致对的输入。各不一致读数的最紧密的外显子随后被识别，并用于将不一致对簇集到不同的基因-基因组中，产生与候选物融合位点相邻的基因组区域R的清单。对不一致基因对的各成员基因而言，通过在该簇中获取最小量的所有3’外显子/读数坐标，及该簇中最大量的所有5’外显子/读数坐标定义基因组区域R_i。这些区域用于在下一阶段中优先处理断点的搜寻(图8a)。

以碱基对分辨率检测断点。不一致读数对可通过NGS文库制备和/或测序人工制品(例如，跳跃PCR)引入。然而，它们也可能位于真实融合事件的断点侧面。如此，所有在前阶段中识别的不一致基因对以不一致读数深度递减的顺序排序(复制片段被排除以纠正可能的PCR偏差)，并进一步评估深度至少为2x(默认)的基因组区域的潜在断点。在各区域内，FACTERA分析了其中两个读数之一是 “软-剪的”或截断的所有适当配对的读数(参见图8a)。软-剪的读数允许精确的断点测定，并且通过分析与各定位的读数相关的CIGAR 字符串很容易地识别，这紧凑地说明了用于各碱基的比对操作(例如 My＝y相邻碱基被定位，Sx＝x碱基被跳过)。为了简化该步骤，仅考虑具有下列两个模式的软-剪的读数，SxMy和MySx，跳过的碱基数x需要至少16(≤1，4.3B随机)以减少非特异性序列比对的影响。

为了验证潜在的基因组断点，该断点定义为软-剪的读数的边缘，FACTERA执行了图8中描述的下列常规。对各不一致基因对而言(例如图8a中的基因w和v)，将所有候选物断点作表，并测定各自的支持物(例如读数频率)。从进一步分析中排除由少于2个读数(默认)支持的断点。从具有最高支持物的两个断点开始，FACTERA 选择各断点的有代表性的软-剪的读数，以使所剪除的序列的长度最接近读数长度的一半(图8b)。如果所定位的一个读数的区域与另一个的软-剪的区域相匹配，FACTERA记录为推定融合事件。为了评估读数间坐标(例如参见图8c中的读数1和2)，FACTERA采用了下列运算法则。用滚动窗口(k＝10，默认)将读数1的定位区域描述到所有长度为k的可能的子序列中(例如，k-mers)。将各k-mer，以及其读数1中的最低序列索引，存储在散列表数据结构中，使得k-mer成员能在恒定的时间内被评估(图8c，左边)。随后，将读数2的软- 剪的序列描述到长度为k的子序列中，并且查询散列表以匹配k-mers (图8c，右边)。如果达到最小匹配阈值(＝0.5x，两个被比较的子序列的最小长度)，于是这两个读数被认为一致。FACTERA将处理各不一致基因对的最多1000(默认)各推定断点对。此外，对各基因对而言，FACTERA将仅比较其方向与有效融合兼容的读数。此类读数在相反方向具有软-剪的序列(图8d，上面)。当该条件不被满足时， FACTERA采用读数1的反面补充以进行k-mer分析(图8d，下面)。

在某些情形中，位于真实断点侧面的基因组子序列可以是几乎或完全相同，引起软-剪的读数的比对部分重叠。不幸的是，这防止了该断点的含糊的测定。如此，FACTERA包含了简单的运算法则以任意调节一个读数(例如，读数2)中的断点使与另一个匹配(例如，读数1)。取决于读数方向，有两条方向这可发生，两者都在图8e中例举。对各读数而言，FACTERA计算断点与相应于读数之间的第一 k-mer匹配的读数坐标之间的距离。例如，如图8e所示，x定义为读数1的断点坐标和第一匹配k-mer索引j之间的距离，而y表示读数 2的相应距离。预计抵消为两个读数之间的距离(x,y)差(参见图8e)。

用计算机验证候选物融合。为了用计算机证实各候选物断点，FACTERA对从.2bit对照基因组提取的模板融合序列(±500bp在假定的断点周围)进行读数的局部重新比对。BLAST目前用于该目的，虽然BLAT或其他快速比对器可以被替代。BLAST数据库通过收集所有定位至各候选物融合序列的读数构建，这些读数包括不一致读数和软-剪的读数，以及在原始输入.bam文件中所有未定位的读数。保留定位于特定融合坐标的、具有至少95％同一性和最小长度为90％的输入读数长度(默认)的所有读数，并计数跨越或位于断点侧面的读数。作为最后的步骤，通过除去任何具有更大的读数支持和相同序列方向(以避免除去相互融合)的任何融合序列20bp间隔内的融合序列使输出过剩最小化。

FACTERA产生了简单的输出文本文件，对各融合序列而言该文件包括基因对，断点的染色体序列坐标，融合方向(例如，正-正或正-反)，50bp的断点内的基因组序列，及跨越该断点和在其侧面的读数的深度统计数字。表3、20和21中提供了在该工作中分析的患者中识别的融合。

FACTERA的试验验证。为了在试验上评价FACTERA的性能，我们从两个NSCLC细胞系中产生了NGS数据，这两个细胞系是 HCC78(21.5M x 100bp配对末端读数)和NCI-H3122(19.4M x 100bp 配对末端读数)，每个都有已知的重排(分别是ROS1和ALK)，并有断点，据我们所知，该断点之前还未发表。FACTERA很容易地揭示了前者SLC34A2-ROS1相互易位和后者EML4-ALK融合的迹象。 FACTERA预测的精确断点在试验上通过PCR扩增和Sanger测序验证(图9，也可参见由CAPP-Seq检测的变体的验证)。重要的是， FACTERA在实际时间(～90sec)内完成了每次运行，仅在六芯3.4GHz Intel Xeon E5690芯片上采用单线程。这些最初的结果说明了 FACTERA作为CAPP-Seq分析流程一部分的用途。

模板融合发现。我们实施了用户导向的选项以在期望的候选物基因中“猎取”融合。融合可能被FACTERA遗失，如果由FACTERA 应用的融合检测标准不完全地令人满意—例如如果识别出不一致的读数，而不是软-剪的读数-当肿瘤中的融合等位基因频率极其低时将最可能发生。作为输入，该方法供给候选物融合基因序列作为“诱饵”。所有在输入.bam文件中未定位的和软-剪的读数随后比对到这些模板(采用blastn)以识别对两者具有足够相似性的读数(对各读数而言，95％同一性，e-值<1.0e-5，及至少30％的读数长度必须定位于该模板，默认)。此类读数是作为手工分析的用户清单的输出。

我们对发现含ALK融合的低纯度肿瘤样品用FISH而不是 FACTERA测试了该简单方法(例如，病例P9)。采用ALK模板和其普通融合伴侣ELM4,在总深度为～1900x的区域中，我们识别了定位于两者的4个读数。0.21％的估测等位基因频率与由FACS测定的 0.22％肿瘤纯度非常相似(图17)，证实了该模板融合发现方法的用途。我们随后用FACS-排空CD45+免疫种群并再测序该患者的肿瘤。在该富集的肿瘤样品中，FACTERA识别了EML4-ALK融合，以及两个新的ROS1融合(图4b,表3,20和21)。

突变回收:SNVs/插入/缺失。采用常规Perl脚本，将之前识别的报道基因等位基因与为每个血浆cfDNA样品生成的SAMtools mpileup文件交叉，并对各报道基因等位基因计算支持读数的数和频率。仅考虑适当配对的、在至少500x总深度(预复制除去)的读数中的报道基因(表4)。

突变回收：融合。对在所测序的血浆DNA中融合频率的枚举而言，FACTERA用那组之前识别的融合模板执行发现阶段的最后步骤(例如，用计算机验证候选物融合，见上)。将融合等位基因频率计算为α/β，其中α是跨越断点的读数数，而β是该断点周围基因组区域±5bps内的平均总深度。关于该工作中描述的NSCLC选择子，后者的计算总是在该NSCLC选择子文库中含的单一基因上进行。如果两个融合基因在选择子文库内被靶向，总深度则通过取所计算的两个基因的平均深度估测。

尤其是，在某些情形中我们观察到比杂合等位基因预期的更低的融合等位基因频率(例如，参见表3、20和21中的细胞系融合)。这在细胞系中可见，在凭经验的加入试验中，及在一个患者的肿瘤和血浆样品中(例如，P6)，并且能潜在地由其伴侣不在选择子中的融合的无效“下拉(pull-down)”产生。无论如何，融合体是有用的报道基因-它们拥有事实上无背景信号并且在加入实验的规定浓度下显示线性行为(图16d)。此外，通过将所测定的血浆中的频率除以相应的肿瘤中的频率，对此类无效很容易地调节血浆等位基因频率。在所测序的肿瘤组织不纯的情况下，肿瘤含量可用SNV(或插入/缺失) 频率作为对照框架估测，使得融合分数能够相应地标准化(表4)。

无肿瘤DNA的知识而筛选血浆cfDNA。我们设计下列统计学运算法则作为面向无创肿瘤基因型分型和用CAPP-Seq筛查癌症的最初步骤。该方法用下列的迭代模型识别候选物SNV：(i)配对种系DNA (在该工作中，为PBL)中的背景噪音，(ii)整个选择子的血浆cfDNA 中的碱基对分辨率背景频率，及(iii)cfDNA中的测序错误。图21提供了实例。该运算法则以四个主要步骤工作，详述如下。

作为输入，该运算法则从单一血浆cfDNA样品中取等位基因频率并分析高质量背景等位基因，第一步定义各基因组位置为具有最高丰度分数的非显性碱基。仅分析深度至少500x和链偏差<90％(保守的，默认)的等位基因。为了与变体呼唤一致，我们允许筛选方法询问所定义的坐标的500bp内的选择子区域，将有效序列空间从～125kb扩展到～600kb。

第二，二项式分布用于测试给定的输入cfDNA等位基因是否明显与相应配对种系等位基因不同(图21a-b)。在此成功的可能性被带向PBL中背景等位基因的频率上，并且试验数是血浆cfDNA中的等位基因的相应深度。为了避免等位基因在可能污染PBL的罕见循环肿瘤细胞中的贡献，不再考虑配对PBL(默认)中丰度分数大于0.5％的或 Bonferroni调节的二项式概率大于2.08x10^-8的输入等位基因(α为0.05/ [～600kb*4等位基因/位置])。

第三，组装cfDNA背景等位基因频率数据库。在此，我们使用在本研究中分析的样品(例如，预处理NSCLC样品和来自健康志愿者的1个样品)，除了输入样品被省去以避免偏差外。基于所有背景等位基因分数按正常分布的假设，采用Z-检验测试给定的输入等位基因是否明显与相同位置上的典型cfDNA背景不同(图21a-b)。评价了选择子内的所有等位基因，未再进一步考虑平均背景频率为5％或更大的(默认)或Bonferroni-调节的单一加尾Z-分数<5.6的那些(α为 0.05，如上调节)。

最后，测试了候选物等位基因的剩余的可能测序错误。该步骤用杠杆撬动了观察：血浆cfDNA中的非肿瘤变体(例如，“错误”) 趋向于比在患者肿瘤中可检测的真实的变体具有更高的复制率(数据未显示)。如此，对于非重复数据删除的(所有片段符合QC标准)和重复数据删除的数据(仅独特的片段符合QC标准)之间的各输入等位基因，比较了支持读数数。然后将异常值分析用于区别候选物源自于肿瘤的SNV与剩余背景噪音(图21a-c)。具体地说，为了揭示数据中的异常值倾向，将鲁棒距离Rd(马氏距离)的平方根与开平方分布的分位数Cs的平方根相比。该转换揭示了真实SNV和癌症患者假阳性之间的自然分离(图21a,c)，尤其是，揭示了在缺乏源自于肿瘤的SNV 的患者样品中异常值结构的缺少(图21b,c)。为了无之前的知识而自动呼唤SNV，筛选方法由减少Rb反复通过数据点并重新计算点1-i的Rd 和Cs之间的Pearson相关系数Rho，其中Rd_i是当前最大的Rd。运算法则迭代地报告异常值(例如，候选物SNV)直到Rho≥0.85时结束。

实施例2：设计个体化选择子集合

在某些情形中，用“现有的”策略监控已知患有癌症的患者中的肿瘤负荷可能是不切实际的，该策略应用来自相同肿瘤类型的患者小组的知识，用CAPP-Seq选择性地捕获在该肿瘤类型中频发突变的基因组区域。这些情况包括，但不限于下列病例，其中(1)肿瘤具有未知的原组织学(例如，CUP)；(2)组织学是已知的，但是太罕见以致没有足够的之前描述的肿瘤类型的患者数来规定平均患者肿瘤体细胞基因全景(例如，亚型的软组织肉瘤)；(3)组织学是已知的，但是在该肿瘤类型中的复发体细胞损害的平均值/中位数太低以致于不能达到所预期的灵敏度水平(例如，儿科肿瘤等)；或(4)组织学是已知的，复发体细胞损害的平均值/中位数是合理的，但是平均肿瘤体积的负荷如此之小以致于要采用更多的突变/肿瘤才能达到额外的灵敏度(例如，早期恶性黑素瘤)。在此类情形中，监控肿瘤负荷的个体化策略可能克服这些疾病监控上的障碍。

在此，已知患有癌症的患者的肿瘤通过描绘肿瘤基因组、外显子组、或期望富集体细胞畸变的靶向区域的特征进行基因分型。可将癌症的基因型与相同患者的种系基因型比较。所产生的损害然后被分类并用于构建定制的、个体化的选择子，该选择子包含一组用于选择性杂化亲和性捕获相应循环肿瘤DNA(ctDNA)分子的生物素化的低聚核苷酸。在血液或体液中循环的和含有此类ctDNA分子的无细胞 DNA将被分离，并用于构建包括分子标签(“条形码”)的连接反应的鸟枪基因组文库，这些分子标签能区别此类序列与其他序列，使得能阻止在用耐热DNA聚合酶作为聚合酶链反应的一部分的cfDNA扩增期间引入的假错误。该个体化的选择子然后将以与“现有”CAPP-Seq 工作流程相同的方式应用于捕获目标片段，测序和分析，使得能跟踪和定量那些最初在相应cfDNA中原发瘤中发现的突变。作为 ctDNA/cfDNA的基于亲和性的杂化物捕获的备选，用分子条形码选择性编入索引的此类片段，特定于相应区域的扩增子能被PCR查询，这类似允许区别PCR期间引入的测序错误。

实施例3、选择子集合在诊断癌症上的用途

血浆样品从乳房中有异常肿块的女性受试者中获得。无细胞 DNA(cfDNA)从该血浆样品中提取。通过在无菌微量离心管(或者其他合适的无菌容器)中，混合各成分，如下对该cfDNA进行末端修复反应：

成分	体积(μL)
		cfDNA	1-75
磷酸化反应缓冲液(10X)	10
		T4DNA聚合酶	5
T4多核苷酸激酶	5
		dNTPs	4
DNA聚合酶I,大的(Klenow)	1
		无菌H<sub>2</sub>O	-加至总体积为100μL

将该末端修复反应混合物于20℃、在热循环仪中孵育30分钟。

末端修复的cfDNA的净化通过将160μL(1.6X)再悬浮的 AMPure XP珠加入到该末端修复反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物室温孵育5分钟。将该反应物置于磁性支架上以从上清液中分离珠。溶液澄清后(大约5分钟)，将上清液除去并弃去。通过将 200μL 80％新鲜配制的乙醇加入到还在磁性支架上的反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥10分钟，同时反应物仍在磁性支架上。通过加入40μL无菌水并涡旋或用移液管上下吸水从珠中洗脱cfDNA。将反应物放回到磁性支架上。一旦溶液澄清，将32μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

如下，通过在无菌微量离心管中混合下列成分，进行末端修复cfDNA的加dA-尾：

成分	体积(μL)
		末端修复cfDNA	32
NE缓冲液2(10X)	5
		脱氧腺苷5’-三磷酸	10
Klenow片段(3’→5’exo-)	3

将加dA-尾反应物于37℃、在热循环中孵育30分钟。

加dA-尾的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到加dA-尾反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物室温孵育5分钟。将反应物置于磁性支架上以从上清液中分离珠。溶液澄清后(大约5分钟)，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥10分钟，同时反应物仍在磁性支架上。通过加入15μL无菌水并涡旋或用移液管上下吸水从珠中洗脱cfDNA。将反应物放回到磁性支架上。一旦溶液澄清，将10μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

如下，通过在无菌微量离心管中混合下列成分进行加dA-尾的cfDNA的衔接子连接反应：

成分	体积(μL)
		加dA-尾的cfDNA	10
快速连接反应缓冲液(2X)	25
		Illumina衔接子	10
快速T4 DNA连接酶	5

[0860] 将衔接子连接反应物于16℃孵育16小时。通过用移液管上下吸加入3μL的USER^TM酶混合物并于37℃孵育终止衔接子连接反应。

衔接子连接的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物室温孵育5分钟。将反应物置于磁性支架上以从上清液中分离珠。溶液澄清后(大约5分钟)，将上清液除去并弃去。通过在磁性支架上的时候，将200μL80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥10分钟，同时反应物仍在磁性支架上。通过加入105μL无菌水并涡旋或用移液管上下吸水从珠中洗脱cfDNA。将反应物放回到磁性支架上。一旦溶液澄清，将100μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

一般的PCR扩增用靶向衔接子的引物，在衔接子连接的 cfDNA上进行。PCR扩增采用14个扩增周期进行。选择子集合探针用于选择性地捕获衔接子连接的cfDNA的扩增产物的子集。在所捕获的扩增产物上进行测序反应。所捕获的扩增cfDNA在Illumina HiSeq2000的配对末端100bp泳道上测序。

通过基于选择子集合，检测一个或多个基因组区域中的突变分析测序信息。选择子集合含属于发生在一个或多个基因组区域中的突变的信息，其中所述突变存在于至少约70％患乳腺癌受试者群体中。为了确定样品中检测到突变的统计学意义，计算不同类型突变的 p-值。ctDNA检测指数用于评估检测两个或更多个类型突变的统计学意义。

向医生提供在样品中检测到的突变和检测突变的统计学意义的报告。基于在三个基因组区域的至少三个突变的检测，医生可诊断受试者中的乳腺癌。

实施例4、用选择子集合确定癌症状态或结果

无细胞DNA(cfDNA)从被诊断患有前列腺癌的受试者样品纯化。如下，通过在无菌微量离心管(或者其他合适的无菌容器)中混合各成分对cfDNA进行末端修复反应：

成分	体积(μL)
		1-5μg cfDNA	1-85
10X末端修复缓冲液	10
		末端修复酶混合物	5
无菌H<sub>2</sub>O	-加至总体积为100μL

将末端修复反应混合物于20℃、在热循环仪中孵育30分钟。

末端修复的cfDNA的净化通过将160μL(1.6X)再悬浮的 AMPure XP珠加入到末端修复反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15 分钟，同时反应物仍在磁性支架上。通过将珠彻底地再悬浮于32.5μL 洗脱缓冲液并在室温下孵育2分钟从珠中洗脱cfDNA。室温下将反应物放回到磁性支架上，保持15分钟或直到溶液澄清。将30μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

如下，通过在无菌微量离心管中混合下列成分进行末端修复的cfDNA的加dA-尾：

成分	体积(μL)
		末端修复的cfDNA	30
10X加A-尾缓冲液	5
		加A-尾酶	3
无菌水	12

将加dA-尾反应物于30℃、在热循环中孵育30分钟。

加dA-尾的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到加dA-尾反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后(大约5分钟)，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15分钟，同时反应物仍在磁性支架上。通过将珠彻底地再悬浮于32.5μL洗脱缓冲液并在室温下孵育2分钟从珠中洗脱 cfDNA。将反应物放回到磁性支架上，室温下保持15分钟或直到溶液澄清。将30μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

成分	体积(μL)
		加dA-尾的cfDNA	30
5X连接反应缓冲液	10
		Illumina衔接子	5
DNA连接酶	5

将衔接子连接反应物于16℃孵育16小时。

衔接子连接的cfDNA的净化通过将50μL再悬浮的AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15分钟，同时反应物仍在磁性支架上。将珠再悬浮于52.5μL洗脱缓冲液。将反应物放回到磁性支架上，室温下孵育15分钟或直到溶液澄清。将50 μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

衔接子连接的cfDNA的第二次净化通过将50μL再悬浮的 AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15分钟，同时反应物仍在磁性支架上。将珠再悬浮于32.5 μL洗脱缓冲液并室温下孵育2分钟。将反应物放回到磁性支架上，室温下孵育15分钟或直到溶液澄清。将30μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

一般的PCR扩增用靶向衔接子的引物，在衔接子连接的 cfDNA上进行。PCR扩增采用16个扩增周期进行。选择子集合探针用于选择性地捕获扩增的衔接子连接的cfDNA的子集。扩增的 cfDNA在Illumina HiSeq 2000的配对末端100bp泳道上测序。

通过基于选择子集合，检测一个或多个基因组区域中的突变分析测序信息。选择子集合含属于发生在一个或多个基因组区域中的突变的信息，其中所述突变存在于至少约70％患乳腺癌受试者群体中。基于测序读数测定循环肿瘤DNA(ctDNA)的量。

向医生提供包含ctDNA的量的报告。基于ctDNA的量，医生提供受试者中前列腺癌的预测。

实施例5、用选择子集合确定癌症治疗的治疗方案

无细胞DNA(cfDNA)从被诊断患有甲状腺癌的受试者样品纯化。如下，通过在无菌微量离心管(或者其他合适的无菌容器)中混合各成分对cfDNA进行末端修复反应：

将末端修复反应混合物于20℃、在热循环仪中孵育30分钟。

将加dA-尾反应物于30℃、在热循环中孵育30分钟。

加dA-尾的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到加dA-尾反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后(大约5分钟)，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15分钟，同时反应物仍在磁性支架上。通过将珠彻底地再悬浮于32.5μL洗脱缓冲液并在室温下孵育2分钟从珠中洗脱cfDNA。将反应物放回到磁性支架上，室温下保持15分钟或直到溶液澄清。将30μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

成分	体积(μL)
		加dA-尾的cfDNA	30
5X连接反应缓冲液	10
		衔接子	5
DNA连接酶	5

衔接子连接反应物在16℃孵育16小时。在孵育期间增加衔接子的浓度。衔接子是Y-型衔接子。Y-型衔接子裂开部分的5’链包含分子条形码和样品索引。Y-型衔接子的双链的部分包含通用序列。通用序列用于PCR富集和测序。

衔接子连接的cfDNA的净化通过将50μL再悬浮的AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育5分钟或直到溶液澄清。溶液澄清后，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15 分钟，同时反应物仍在磁性支架上。将珠再悬浮于52.5μL洗脱缓冲液。将反应物放回到磁性支架上，室温下孵育5分钟或直到溶液澄清。将50μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

衔接子连接的cfDNA的第二次净化通过将50μL再悬浮的 AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多)混合到溶液中。将反应物置于磁性支架上并在室温下孵育5分钟或直到溶液澄清。溶液澄清后，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥10分钟，同时反应物仍在磁性支架上。将珠再悬浮于105 μL洗脱缓冲液并室温下孵育2分钟。将反应物放回到磁性支架上，室温下孵育直到溶液澄清。将100μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。

衔接子连接的cfDNA的基于珠的大小选择通过将80μL AMPure XP珠加入到衔接子连接的cfDNA中进行。将反应物通过涡旋反应物或用移液管上下吸溶液至少10次进行混合。将反应物在室温下孵育5分钟。将反应物置于磁性支架上5分钟或直到溶液澄清。一旦溶液澄清，将上清液转移到新管中。将20μL AMPure XP珠加入到上清液中(涡旋或用移液管上下吸至混合)并室温孵育5分钟。将反应物置于磁性支架上5分钟或直到溶液澄清。一旦溶液澄清，将上清液除去并弃去。置于磁性支架上的同时，用200μL新鲜配制的80％乙醇洗涤珠两次。将乙醇洗液室温下孵育30秒并除去和弃去。将珠室温空气干燥10分钟。通过将珠再悬浮于25μL无菌水或0.1X TE 缓冲液从珠中洗脱cfDNA。将反应物放回到磁性支架上。一旦溶液澄清，将20μL上清液转移到新的微量离心管中。

衔接子连接的cfDNA的PCR富集通过混合下列成分进行：

成分	体积(μL)
		衔接子连接的cfDNA	20
通用PCR引物(25μM)	2.5
		索引引物(25μM)	2.5
Phusion高保真PCR Master Mix	25

PCR富集采用循环条件进行，1个周期，98℃，30秒；17个周期，98℃，10秒；65℃，30秒，及72℃，30秒,接着1个周期，72℃，5分钟并在4℃下保持。

PCR富集的cfDNA的净化通过将50μL(1X)再悬浮的 AMPure XP珠加入到PCR富集的cfDNA反应混合物中进行。将 AMPure珠在涡旋混合器上或用移液管上下吸(例如，10次或更多) 混合到溶液中。将反应物置于磁性支架上并在室温下孵育5分钟或直到溶液澄清。溶液澄清后，将上清液除去并弃去。通过在磁性支架上的时候，将200μL 80％新鲜配制的乙醇加入到反应物中，洗涤珠两次。对每次洗涤而言，乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥10分钟，同时反应物仍在磁性支架上。将珠再悬浮于30μL的0.1XTE。将反应物放回到磁性支架上，室温下孵育直到溶液澄清。将25μL上清液转移到新鲜、无菌容器中(例如，微量离心管)。加入无核酸酶的水将富集的cfDNA稀释20倍。

将富集的cfDNA与包含选择子集合探针的阵列杂交。用基于阵列的杂交测定循环肿瘤DNA(ctDNA)的量。阵列的图像被获得并且基于阵列上的强度信号计算ctDNA的量。

向医生提供包含ctDNA的量、发现的突变及抗癌疗法清单的报告。基于ctDNA的量，所发现的突变的类型及抗癌疗法清单，医生提供治疗受试者甲状腺癌的治疗方案。

所有专利、专利出版物和其他本文中提及的发表的参考文献均通过引用而整体结合到本文中，好像各自已分别地和具体地通过引用结合到本文中。

虽然提供了具体的实施例，但是上述描述是说明性的，不是限制性的。前面所描述的实施方案的特征中的任一个或多个可以任何方式与本发明中任一其他实施方案的一个或多个特征结合。此外，在浏览了说明书后，本发明的许多变化对本领域技术人员而言将是显而易见的。因此，本发明的范围应参照随附的权利要求以及其等同方案的全部范围而定。

序列表

<110> 莱兰斯坦福初级大学评议会

M. 迪恩

A. A. 阿利扎德

A. M. 纽曼

S. V. 布拉特曼

<120> 循环核酸肿瘤标志物的鉴别和用途

<130> STAN-866WO

<140> PCT/US 14/025020

<141> 2014-03-12

<150> US 61/798,925

<151> 2013-03-15

<160> 32

<170> PatentIn version 3.5

<210> 1

<211> 101

<212> DNA

<213> 智人

<400> 1

agaaatacta ataaaatgat taaagaaggt gtgtctttaa ttgaagcatg atttaaagta 60

aatgcaaagc taaaaatcag accactgcac tccagcctgg g 101

<210> 2

<211> 101

<212> DNA

<213> 智人

<400> 2

tactaataaa atgattaaag aaggtgtgtc tttaattgaa gcatgattta aagtaaatgc 60

aaagctaaaa atcagaccac tgcactccag cctggggaac a 101

<210> 3

<211> 101

<212> DNA

<213> 智人

<400> 3

aaatgattaa agaaggtgtg tctttaattg aagcatgatt taaagtaaat gcaaagctaa 60

aaatcagacc actgcactcc agcctgggga acaagagtga a 101

<210> 4

<211> 101

<212> DNA

<213> 智人

<400> 4

gtgtgtcttt aattgaagca tgatttaaag taaatgcaaa gctaaaaatc agaccactgc 60

actccagcct ggggaacaag agtgaaaccc catctcaaaa a 101

<210> 5

<211> 100

<212> DNA

<213> 智人

<400> 5

gtgtctttaa ttgaagcatg atttaaagta aatgcaaagc taaaaatcag accactgcac 60

tccagcctgg ggaacaagag tgaaacccca tctcaaaaac 100

<210> 6

<211> 100

<212> DNA

<213> 智人

<400> 6

gtctttaatt gaagcatgat ttaaagtaaa tgcaaagcta aaaatcagac cactgcactc 60

cagcctgggg aacaagagtg aaaccccatc tcaaaaacaa 100

<210> 7

<211> 92

<212> DNA

<213> 智人

<400> 7

tgaagcatga tttaaagtaa atgcaaagct aaaaatcaga ccactgcact ccagcctggg 60

gaacaagagt gaaaccccat ctcaaaaaca aa 92

<210> 8

<211> 92

<212> DNA

<213> 智人

<400> 8

atgatttaaa gtaaatgcaa agctaaaaat cagaccactg cactccagcc tggggaacaa 60

gagtgaaacc ccatctcaaa aacaaacaaa ca 92

<210> 9

<211> 92

<212> DNA

<213> 智人

<400> 9

agtaaatgca aagctaaaaa tcagaccact gcactccagc ctggggaaca agagtgaaac 60

cccatctcaa aaacaaacaa acaaaacaaa ac 92

<210> 10

<211> 100

<212> DNA

<213> 智人

<400> 10

atgcaaagct aaaaatcaga ccactgcact ccagcctggg gaacaagagt gaaaccccat 60

ctcaaaaaca aacaaacaaa acaaaacaaa aaaaactaag 100

<210> 11

<211> 40

<212> DNA

<213> 智人

<400> 11

atgcaaagct aaaaatcaga ccactgcact ccagcctggg 40

<210> 12

<211> 101

<212> DNA

<213> 智人

<400> 12

tgtcagagta gtggtggttt ataagacggg agaaaatagc acctcacttc cagaaagctt 60

taagacaaaa ggtgagtact agagtaagat tcagtctcag a 101

<210> 13

<211> 101

<212> DNA

<213> 智人

<400> 13

gagtagtggt ggtttataag acgggagaaa atagcacctc acttccagaa agctttaaga 60

caaaaggtga gtactagagt aagattcagt ctcagatctg g 101

<210> 14

<211> 103

<212> DNA

<213> 智人

<400> 14

gtggtggttt ataagacggg agaaaatagc acctcacttc cagaaagctt taagacaaaa 60

ggtgagtact agagtaagat tcagtctcag atctgggtga cac 103

<210> 15

<211> 101

<212> DNA

<213> 智人

<400> 15

gtttataaga cgggagaaaa tagcacctca cttccagaaa gctttaagac aaaaggtgag 60

tactagagta agattcagtc tcagatctgg gtgacacaaa g 101

<210> 16

<211> 101

<212> DNA

<213> 智人

<400> 16

ataagacggg agaaaatagc acctcacttc cagaaagctt taagacaaaa ggtgagtact 60

agagtaagat tcagtctcag atctgggtga cacaaaggac c 101

<210> 17

<211> 101

<212> DNA

<213> 智人

<400> 17

agaaaatagc acctcacttc cagaaagctt taagacaaaa ggtgagtact agagtaagat 60

tcagtctcag atctgggtga cacaaaggac catggatttc t 101

<210> 18

<211> 101

<212> DNA

<213> 智人

<400> 18

aatagcacct cacttccaga aagctttaag acaaaaggtg agtactagag taagattcag 60

tctcagatct gggtgacaca aaggaccatg gatttctgca a 101

<210> 19

<211> 104

<212> DNA

<213> 智人

<400> 19

acctcacttc cagaaagctt taagacaaaa ggtgagtact agagtaagat tcagtctcag 60

atctgggtga cacaaaggac catggatttc tgcaaccctt ggtg 104

<210> 20

<211> 101

<212> DNA

<213> 智人

<400> 20

cagaaagctt taagacaaaa ggtgagtact agagtaagat tcagtctcag atctgggtga 60

cacaaaggac catggatttc tgcaaccctt ggtgcctttc t 101

<210> 21

<211> 101

<212> DNA

<213> 智人

<400> 21

aagacaaaag gtgagtacta gagtaagatt cagtctcaga tctgggtgac acaaaggacc 60

atggatttct gcaacccttg gtgcctttct tgggaaccca t 101

<210> 22

<211> 40

<212> DNA

<213> 智人

<400> 22

aagacaaaag gtgagtacta gagtaagatt cagtctcaga 40

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 23

agacgggaga aaatagcacc 20

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 24

accaagggtt gcagaaatcc 20

<210> 25

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 25

gagatggagt ttcactcttg ttgc 24

<210> 26

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 26

gaacctttcc atcatactta gaaatac 27

<210> 27

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 27

tccatggaag ccagaac 17

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 28

atgctaagat gtgtctgtca 20

<210> 29

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 29

ccttaacaca gatggctctt gatgc 25

<210> 30

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 30

tcctctttcc accttggctt tcc 23

<210> 31

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 31

ggttcagaac taccaataac aag 23

<210> 32

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成多核苷酸

<400> 32

acctgatgtg tgacctgatt gatg 24

Claims

1. 一种在有需要的受试者中检测、诊断、预测癌症或选择癌症疗法的方法，所述方法包括：

(a) 获得源自于受试者的无细胞DNA(cfDNA)样品的序列信息；及

(b) 用来自于(a)的序列信息检测所述样品中的循环肿瘤DNA (ctDNA)，其中所述方法能够检测的ctDNA的百分比小于或等于总cfDNA的2%。

2.权利要求1所述的方法，其中所述方法能够检测的ctDNA的百分比小于或等于总cfDNA的1.75%、1.5%、1.25%、1%、0.75%、0.50%、0.25%、0.1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、0.05%、0.01%、0.009%、0.008%、0.007%、0.006%、0.005%、0.004%、0.003%、0.002%、0.001%、0.0005%或0.00001%。

3.权利要求1所述的方法，其中所述样品是血浆、血清、汗、呼吸、眼泪、唾液、尿、大便、羊水或脑脊液样品。

4.权利要求1所述的方法，其中所述样品不是帕氏涂片、囊肿液或胰液样品。

5.权利要求1所述的方法，其中所述序列信息包含与至少2、3、5、8、10、20、30、40、100、200、或300个基因组区域相关的信息。

6.权利要求5所述的方法，其中所述基因组区域包含外显子区域、内含子区域和未翻译区域中的两个或更多个。

7. 权利要求5所述的方法，其中所述基因组区域包含小于1.5兆碱基(Mb)、1 Mb、500kb、350 kb、100 kb、75 kb、50 kb或25 kb的基因组。

8.权利要求1所述的方法，其中所述序列信息包含属于1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100或更多个基因组区域的信息，所述基因组区域来自含多个基因组区域的选择子集合。

9.权利要求8所述的方法，其中所述多个基因组区域基于包含基因组区域的选择子集合，所述基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一个或多个突变。

10.权利要求8所述的方法，其中至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、或95%的所述多个基因组区域基于包含基因组区域的选择子集合，所述基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一个或多个突变。

11.权利要求9或10所述的方法，其中所述选择子集合包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100或更多个选自表2和-18中任何一个的基因组区域。

12.权利要求1所述的方法，其中所述获得步骤（a）的序列信息包括进行大规模的平行测序。

13.权利要求1所述的方法，其中所述获得步骤（a）的序列信息包括使用一个或多个衔接子。

14.权利要求13所述的方法，其中所述一个或多个衔接子包括含随机序列的分子条形码。

15.权利要求1所述的方法，其中使用步骤(b)的序列信息包括检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体和重排中的一个或多个。

16.权利要求1所述的方法，其中使用步骤(b)的序列信息包括检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体和重排中的两个或更多个。

17. 权利要求1所述的方法，其中所述步骤(b)的检测不涉及进行数字PCR (dPCR)。

18.权利要求1所述的方法，其中所述步骤(b)的检测包括将运算法则应用于所述序列信息以确定选择子集合的一个或多个基因组区域的量。

19.权利要求1所述的方法，进一步包括基于ctDNA的检测，检测、诊断、预测受试者中的癌症或选择癌症的疗法。

20.权利要求19所述的方法，其中诊断或预测癌症的灵敏度为至少约50%、52%、55%、57%、60%、62%、65%、67%、70%、72%、75%、77%、80%、82%、85%、87%、89%、90%、91%、92%、93%、94%、95%、96%、97%、或99%。

21.权利要求19所述的方法，其中诊断或预测癌症的特异性为至少约50%、52%、55%、57%、60%、62%、65%、67%、70%、72%、75%、77%、80%、82%、85%、87%、89%、90%、91%、92%、93%、94%、95%、96%、97%或99%。

22.制备用于癌症的选择子集合的方法，所述方法包括：

(a) 识别患癌症受试者群体中的一个或多个受试者中的包含突变的基因组区域；

(b) 基于复发指数(RI)排列所述基因组区域的顺序，其中所述基因组区域的RI通过将在该基因组区域中有突变的受试者或肿瘤的数除以所述基因组区域的大小确定；及

(c) 基于所述RI制备选择子集合。

23.权利要求22所述的方法，其中所述基因组区域的至少一个子集是外显子区域、内含子区域、未翻译区域或其组合。

24.权利要求22所述的方法，其中基于RI制备选择子集合包括选择复发指数在百分位数前第70、第75、第80、第85、第90、或第95或更大的基因组区域。

25.权利要求22所述的方法，其中制备选择子集合包括将运算法则应用于排序的基因组区域的子集。

26.权利要求22所述的方法，其中制备选择子集合包括选择使所述选择子集合的突变中位数/受试者最大化的基因组区域。

27.权利要求22所述的方法，其中制备选择子集合包括选择使所述选择子集合的受试者数最大化的基因组区域。

28.权利要求22所述的方法，其中制备选择子集合包括选择使所述基因组区域的总大小最小化的基因组区域。

29.一种计算机可读媒介物，包含两个或更多个基因组区域的序列信息，其中：

(a) 所述两个或更多个基因组区域包含一个或多个突变，所述突变存在于患第一类型癌症的第一受试者群体中大于或等于80%肿瘤中；

(b) 所述两个或更多个基因组区域表示小于1.5 Mb的基因组；及

(c) 下述中的一个或多个：

(i) 所述病症不是毛细胞白血病、卵巢癌、瓦尔登斯特伦巨球蛋白血症；

(ii) 基因组区域包含在至少一个受癌症折磨的受试者中的至少一种突变；

(iii) 所述两个或更多个基因组区域包含一个或多个突变，所述突变存在于患第二类型癌症的第二受试者群体中；

(iv) 所述两个或更多个基因组区域源自于两个或更多个不同的基因；

(v) 所述基因组区域包含两个或更多个突变；或

(vi) 所述两个或更多个基因组区域包含至少10kb。

30.权利要求29所述的计算机可读媒介物，其中所述基因组区域包含一个或多个突变，所述突变存在于患第二类型癌症的第二受试者群体中大于或等于60%肿瘤中。

31.权利要求29所述的计算机可读媒介物，其中所述基因组区域源自于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100或更多个不同的基因。

32. 权利要求29所述的计算机可读媒介物，其中所述基因组区域包含至少1、5、10、15、20、25、30、35、40、45、或50 kb。

33.权利要求29所述的计算机可读媒介物，其中所述序列信息包含属于所述两个或更多个基因组区域的基因组坐标。

34.权利要求29所述的计算机可读媒介物，其中所述序列信息包含属于所述两个或更多个基因组区域的核酸序列。

35.权利要求29所述的计算机可读媒介物，其中所述序列信息包含所述两个或更多个基因组区域的长度。

36.一种包含一组低聚核苷酸的组合物，所述低聚核苷酸选择性地与多个基因组区域杂交，其中：

(a) 大于或等于80%的来自于癌症受试者群体的肿瘤包括在所述基因组区域中的一种或多种突变；

(b) 所述多个基因组区域表示小于1.5 Mb的基因组；及

(c) 所述低聚核苷酸组包含选择性地与多个基因组DNA区域杂交的5个或更多个不同的低聚核苷酸。

37.权利要求36所述的组合物，其中所述基因组DNA区域包含至少2个在表2和6-18中的任何一个中所识别那些中的区域。

38. 权利要求36所述的组合物，其中所述组的低聚核苷酸与约5 kb -1000kb之间的基因组杂交。

39.权利要求36所述的组合物，其中所述组的低聚核苷酸能够与5个或更多个不同的基因组区域杂交。

40.权利要求36所述的组合物，其中所述低聚核苷酸与固体支持物连接。

41.权利要求40所述的组合物，其中所述固体支持物是珠。

42.权利要求40所述的组合物，其中所述固体支持物是阵列。

43. 一种用于制备测序文库的方法，所述方法包括：

(a) 对源自于样品的无细胞DNA (cfDNA)进行扩增反应以产生多个扩增子，其中所述扩增反应包括20或更少的扩增周期；及

(b) 制备测序文库，所述文库包含多个扩增子。

44.权利要求43所述的方法，其中所述扩增反应包括15或更少的扩增周期。

45.权利要求43所述的方法，进一步包括将衔接子与所述无细胞DNA连接。

46.权利要求45所述的方法，其中所述衔接子包含分子条形码。

47.权利要求45所述的方法，其中所述衔接子包含样品索引。

48.权利要求45所述的方法，其中所述衔接子包含引物序列。

49.权利要求45所述的方法，其中所述衔接子包含Y-型衔接子。

50.权利要求43所述的方法，进一步包括将所述cfDNA分段。

51.权利要求43所述的方法，进一步包括末端修复所述cfDNA。

52.权利要求43所述的方法，进一步包括使所述cfDNA加A-尾。

53.一种确定选择子集合的统计学意义的方法，所述方法包括：

(a) 检测来自于受试者的一个或多个样品中的一种或多种突变的存在，其中所述一种或多种突变基于包含含所述一种或多种突变的基因组区域的选择子集合；

(b) 确定存在于该样品中的一种或多种突变的突变类型；及

(c) 通过基于存在于所述一个或多个样品中的突变的突变类型的p-值，计算ctDNA检测指数，确定所述选择子集合的统计学意义。

54.权利要求53所述的方法，其中如果在所述受试者的两个或更多个样品中观察到重排，那么该ctDNA检测指数为0。

55.权利要求54所述的方法，其中至少所述两个或更多个样品之一是血浆样品。

56.权利要求54所述的方法，其中至少所述两个或更多个样品之一是肿瘤样品。

57.权利要求54所述的方法，其中所述重排是融合或断点。

58.权利要求53所述的方法，其中如果存在一种类型的突变，那么该ctDNA检测指数为所述一种类型突变的p-值。

59.权利要求53所述的方法，其中如果：(i)在所述样品中存在两种或更多种类型的突变；(ii)所述两种或更多种类型突变的p-值为小于0.1；及(iii)重排不是所述突变类型之一，那么该ctDNA检测基于所述两种或更多种突变的合并p-值计算。

60.权利要求59所述的方法，其中所述两种或更多种突变的p-值按照Fisher法合并。

61.权利要求59所述的方法，其中所述两种或更多种类型突变之一是SNV。

62.权利要求61所述的方法，其中所述SNV的p-值按照蒙特卡洛取样法确定。

63.权利要求59所述的方法，其中所述两种或更多种类型突变之一是插入/缺失。

64.权利要求53所述的方法，其中如果：(i)在所述样品中存在两种或更多种类型的突变；(ii)至少所述两种或更多种类型突变之一的p-值为大于0.1；及(iii)重排不是所述突变类型之一，那么该ctDNA检测基于所述两种或更多种类型突变之一的p-值计算。

65.权利要求64所述的方法，其中所述两种或更多种类型突变之一是SNV。

66.权利要求65所述的方法，其中所述ctDNA检测指数基于所述SNV的p-值计算。

67.权利要求64所述的方法，其中所述两种或更多种类型突变之一是插入/缺失。

68.一种识别一个或多个核酸中重排的方法，所述方法包括：

(a) 获得属于多个基因组区域的测序信息；

(b) 制作基因组区域清单，其中所述基因组区域与一个或多个候选物重排位点相邻或所述基因组区域包含一个或多个候选物重排位点；

(c) 将运算法则应用于所述基因组区域清单以验证候选物重排位点，从而识别重排。

69.权利要求68所述的方法，其中所述测序信息包含比对文件。

70.权利要求69所述的方法，其中所述比对文件包含配对末端读数、外显子坐标和对照基因组的比对文件。

71.权利要求68所述的方法，其中所述测序信息从数据库获得。

72.权利要求68所述的方法，其中所述测序信息从一个或多个受试者的一个或多个样品获得。

73.权利要求68所述的方法，其中制作基因组区域清单包括基于所述测序信息识别不一致的读数对。

74.权利要求73所述的方法，其中制作基因组区域清单包括基于所述测序信息将所述不一致的读数对分类。

75.权利要求73所述的方法，其中制作基因组区域清单进一步包括将所述基因组区域排序。

76.权利要求75所述的方法，其中所述基因组区域按不一致的读数深度的递减顺序排序。

77.权利要求68所述的方法，其中制作基因组区域清单包括采用运算法则分析恰当配对的读数，其中截去所述配对的读数之一以形成软-剪的读数。

78.权利要求68所述的方法，其中所述运算法则基于一定的模式分析软-剪的读数。

79. 权利要求78所述的方法，其中所述模式基于跳过的碱基数x (Sx)及相邻的定位碱基数y (My)。

80.权利要求79所述的方法，其中所述模式为MySx或SxMy。

81.权利要求68所述的方法，其中将运算法则应用于验证候选物重排位点包括基于其读出频率将所述候选物重排排序。

82.权利要求68所述的方法，其中将运算法则应用于验证候选物重排位点包括比较所述候选物重排的两个或更多个读数。

83.权利要求82所述的方法，其中将运算法则应用于验证候选物重排位点包括如果所述两个或更多个读数具有序列比对，则将所述候选物重排识别为重排。

84.一种识别源自于肿瘤的单一核苷酸变异(SNVs)的方法，所述方法包括：

(a) 获得患癌症的或怀疑患癌症的受试者的样品；

(b) 对该样品进行测序反应以产生测序信息；

(c) 将运算法则应用于所述测序信息以基于步骤(b)的测序信息制作候选物肿瘤等位基因清单，其中候选物肿瘤等位基因包含不是种系SNP的非显性碱基；及

(d) 基于所述候选物肿瘤等位基因的清单识别源自于肿瘤的SNVs。

85.权利要求84所述的方法，其中制作候选物肿瘤等位基因清单包括按其丰度分数将所述肿瘤等位基因排序。

86.权利要求85所述的方法，其中制作候选物肿瘤等位基因清单包括基于测序深度将所述肿瘤等位基因排序。

87.权利要求86所述的方法，其中制作候选物肿瘤等位基因清单包括筛选满足最小测序深度的肿瘤等位基因。

88.权利要求87所述的方法，其中所述最小测序深度为至少100×、200×、300×、400×、500×、600×、700×、800×、900×、1000×或更多。

89.一种制备选择子集合的方法，所述方法包括：

(a) 从患癌症的受试者中获得肿瘤样品的测序信息；

(b) 将所述肿瘤样品的测序信息与该受试者的非肿瘤样品的测序信息比较以识别特定于该肿瘤样品测序信息的一种或多种突变；及

(c) 制备包含一个或多个基因组区域的选择子集合，所述基因组区域包含特定于该肿瘤样品测序信息的一种或多种突变。

90.权利要求89所述的方法，其中所述选择子集合包括属于一个或多个基因组区域的测序信息。

91.权利要求90所述的方法，其中所述选择子集合包括属于一个或多个基因组区域的基因组坐标。

92.权利要求90所述的方法，其中所述选择子集合包括多个选择性地杂交所述一个或多个基因组区域的低聚核苷酸。

93.权利要求92所述的方法，其中所述多个低聚核苷酸是生物素化的。

94.权利要求89所述的方法，所述一种或多种突变包括SNVs、插入/缺失、重排或其组合。

95.权利要求94所述的方法，其中制备选择子集合包括基于权利要求84-88中任一项所述的方法识别源自于肿瘤的SNVs。

96.权利要求94所述的方法，其中制备选择子集合包括基于权利要求68-83中任一项所述的方法识别源自于肿瘤的重排。