CN115443341A

CN115443341A - 分析无细胞核酸的方法及其应用

Info

Publication number: CN115443341A
Application number: CN202180030144.XA
Authority: CN
Inventors: M·迪恩; A·A·阿里扎德; J·J·查本; D·M·库兹; M·S·伊斯法哈尼
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2020-02-24
Filing date: 2021-02-24
Publication date: 2022-12-06
Also published as: CN116113436A; EP4110957A2; KR20220157976A; CA3172675A1; EP4110957A4; WO2021173724A1; EP4110397A1; WO2021173722A3; CA3172670A1; AU2021227229A1; AU2021225854A1; US20230242980A1; WO2021173722A2; EP4110397A4; KR20220145891A

Abstract

描述了从活检物中检测赘生物的方法和材料。描述了构建测序文库的方法和材料。描述了进行靶向测序的方法和材料。描述了减轻混杂源的方法和材料。可对无细胞核酸进行测序，并且测序结果可用于检测源自赘生物的序列。

Description

分析无细胞核酸的方法及其应用

相关申请的交叉引用

本申请要求2020年2月24日提交的标题为“Methods of Analyzing Cell FreeNucleic Acids and Applications Thereof”的美国临时专利申请第62/980,972号的权益，所述美国临时专利申请通过引用以其整体并入本文。

关于联邦资助研究的声明

这项发明是根据国立卫生研究院授予的合同CA186569和CA188298在政府支持下完成的。政府拥有本发明的某些权利。

技术领域

本公开总体上涉及分析无细胞核酸的方法，更具体地说，涉及去除混杂变量(confounding variable)的方法。

背景技术

基于无细胞核酸(例如cfDNA和cfRNA)的分析可以检测体细胞变化(例如突变的核酸)的无创血液检测由于获得生物样本(例如生物流体)的相对容易而可能是癌症筛查应用的有吸引力的候选者。

发明内容

目前临床使用的无细胞核酸测定可用于晚期疾病患者的无创基因分型，其中循环肿瘤DNA(circulating tumor DNA,ctDNA)水平明显高于早期肿瘤患者中的循环肿瘤DNA水平。另外，无细胞核酸样品可包含具有体细胞改变和/或独特表观遗传学特征的无细胞核酸片段，其来源于除肿瘤外的组织。这些非肿瘤来源的无细胞核酸片段可能混淆循环肿瘤核酸在癌症检测中的用途。

一方面，本公开提供了DNA分子，其包含：获自或源自生物样品的核酸区段，其中所述核酸区段是DNA；纠错的独特标识符对，其与所述核酸区段连接以产生连接产物，其中该纠错独特标识符对位于所述核酸区段的侧翼，其中该纠错独特标识符对中的每一个都是DNA区段，其中该纠错独特标识符对共同提供了该核酸区段相对于一组测序读数中代表的其它核酸区段的独特鉴定；以及与连接产物连接的纠错双指数样品条形码对(pair oferror-correcting dual index sample barcodes)，其中该纠错双指数样品条形码对中的每一个都是DNA区段，并且其中该纠错双指数样品条形码对共同提供了该生物样品相对于一组测序读数中代表的其它生物样品的独特鉴定。

在一些实施方案中，所述核酸区段是互补DNA(cDNA)。在一些实施方案中，所述核酸区段获自或源自无细胞DNA样品。在一些实施方案中，该纠错双指数样品条形码对位于连接产物的侧翼。

另一方面，本公开提供了包含多种DNA分子的集合。

另一方面，本公开提供了制备用于测序的DNA文库的方法，该方法包括：将部分Y-衔接子对连接到多种核酸区段上，以通过部分Y-衔接子对侧接所述多种核酸区段的每一种，从而产生多种连接产物，其中所述多种核酸区段中的每一种都是DNA，并且其中所述多种核酸区段获自或源自生物样品，其中所述部分Y-接头对中的每一个都包含引物用于在接枝聚合酶链式反应(grafting polymerase chain reaction)中退火的纠错独特标识符和序列，并且其中所述多种核酸区段中每一个上的纠错独特标识符对共同提供了所述核酸区段相对于所述多种核酸区段中的其它核酸区段的独特鉴定；以及将纠错双指数样品条形码对接枝到所述多种连接产物的每一种上，以通过纠错双指数样品条形码侧接连接产物，其中所述纠错双指数样品条形码共同提供生物样品的独特鉴定。

在一些实施方案中，所述核酸区段是互补DNA(cDNA)。在一些实施方案中，所述生物样品包括无细胞DNA样品。在一些实施方案中，所述纠错双指数样品条形码共同提供了生物样品相对于DNA文库中代表的其它生物样品的独特鉴定。

另一方面，本公开提供了检测个体中的赘生物的方法，该方法包括：获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子是获自或源自所述个体的第一身体样品；获得或已经获得多种细胞来源的核酸分子的细胞来源的核酸测序读数，其中所述多种细胞来源的核酸分子获自或源自所述个体的第二身体样品；鉴定或已经鉴定了存在于所述无细胞核酸测序读数和细胞来源的核酸测序读数二者中的单核苷酸变体；至少部分基于将第一计算模型应用于所鉴定的单核苷酸变体，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述第一计算模型是利用来自具有赘生物的第一组个体和没有赘生物的第二组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中所述第一计算模型整合了一个或多个以下特征：细胞来源的DNA贝叶斯背景、无细胞DNA贝叶斯背景、种系深度(germlone depth)、短片段得分1、短片段得分2、无细胞DNA分子的基因组起始位置和终止位置及其任意组合；以及至少部分基于所述无细胞核酸测序读数包含指示源自赘生物的无细胞核酸分子的核苷酸的确定，检测个体中的赘生物。

在一些实施方案中，第一计算模型还整合了一个或多个以下特征：转换/颠换、双链体支持、传递异常值(pass outlier)、作图质量(mapping quality)、癌症热点(cancerhotspot)、校正的UMI错误(UMI error corrected)、Phred质量评分(phred qualityscore)、变体等位基因频率(VAF％)、平均条形码家族规模、无细胞DNA分子中的变异位置、多基因风险评分、核酸酶基序及其任意组合。在一些实施方案中，第一身体样品和第二身体样品获自或源自相同的血液样品，其中血液活检物被分成无细胞级分和细胞级分，其中无细胞核酸分子获自或源自无细胞级分，并且其中细胞来源的核酸分子获自或源自细胞级分。在一些实施方案中，从分析中去除一种或多种经鉴定的单核苷酸变体，其中去除的单核苷酸变体包括来自克隆性造血基因的变体。在一些实施方案中，从分析中去除经鉴定的单核苷酸变体中的一种或多种，并且其中去除的单核苷酸变体包括存在于细胞来源的核酸测序读数中的变体。

在一些实施方案中，所述方法还包括：鉴定或已经鉴定了存在于无细胞核酸测序读数和细胞来源的核酸测序读数二者中的拷贝数变异；以及至少部分基于将第二计算模型应用于所鉴定的拷贝数变异，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述第二计算模型是利用来自具有赘生物的第三组个体和没有赘生物的第四组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中第二计算模型整合了一个或多个以下特征：一些均匀分布的基因组窗口区域、一些GISTIC“热点”区域、与均匀窗口相比的GISTIC“热点”区域的富集以及其任意组合。

在一些实施方案中，所述方法还包括：在无细胞核酸测序读数中鉴定或已经鉴定了多种独特的经测序的无细胞核酸分子中每一种的第一个核苷酸和最后一个核苷酸的基因组位置；确定或已经确定所述多种独特的经测序的无细胞核酸分子中每一个的第一个核苷酸和最后一个核苷酸的基因组位置的频率；以及至少部分基于将第三计算模型应用于所述多种独特的经测序的无细胞核酸分子中每一个的第一个核苷酸和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定所述无细胞核酸测序读数包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述第三计算模型是利用来自具有赘生物的第五组个体和没有赘生物的第六组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的。

在一些实施方案中，所述方法还包括：从第一计算模型、第二计算模型和第三计算模型中的每一种生成置信度得分；以及整合置信度得分以生成指示个体是否具有赘生物的汇总得分(summarized score)。在一些实施方案中，所述方法还包括至少部分基于检测到的赘生物对个体进行临床操作。在一些实施方案中，所述方法还包括至少部分基于检测到的赘生物来治疗个体。

另一方面，本公开提供了检测个体中的赘生物的方法，所述方法包括：获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子获自或源自所述个体的第一身体样品；获得或已经获得多种细胞来源的核酸分子的细胞来源的核酸测序读数，其中所述多种细胞来源的核酸分子获自或源自所述个体的第二身体样品；鉴定或已经鉴定了所述无细胞核酸测序读数和所述细胞来源的核酸测序读数二者中均存在的拷贝数变异；以及至少部分基于将计算模型应用于所鉴定的拷贝数变异，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述计算模型是利用来自具有赘生物的第一组个体和没有赘生物的第二组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中计算模型整合了一个或多个以下特征：一些均匀分布的基因组窗口区域、一些GISTIC“热点”区域、与均匀窗口相比的GISTIC“热点”区域的富集以及其任意组合；以及至少部分基于所述无细胞核酸测序数据包含指示源自赘生物的无细胞核酸分子的核苷酸的确定，检测个体中的赘生物。

另一方面，本公开提供了检测个体中的赘生物的方法，所述方法包括：获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子获自或源自个体的身体样品；在测序读数中鉴定或已经鉴定了多种独特的经测序的无细胞核酸分子中每一个的第一个核苷酸和最后一个核苷酸的基因组位置；确定或已经确定所述多种独特的经测序的无细胞核酸分子中每一个的第一个核苷酸和最后一个核苷酸的经鉴定的基因组位置的频率；以及至少部分基于将计算模型应用于所述多种独特的经测序的无细胞核酸分子中每一个的第一个核苷酸和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述计算模型是利用来自第一组具有赘生物的个体和第二组没有赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；以及至少部分基于所述无细胞核酸测序数据包含指示源自赘生物的无细胞核酸分子的核苷酸的确定，检测个体中的赘生物。

在一些实施方案中，所述方法还包括确定在多个基因组位置中每一个处开始的cfDNA分子的第一组定量测量和在多个基因组位置中每一个处终止的cfDNA分子的第二组定量测量中的至少一个；以及分析第一组定量测量或第二组定量测量中的至少一个，以检测赘生物。在一些实施方案中，所述方法还包括使用训练过的机器学习分类器分析第一组定量测量和第二组定量测量中的至少一个，以检测赘生物。在一些实施方案中，所述方法还包括分析第一组定量测量和第二组定量测量中的至少一个，以确定赘生物的肿瘤变体等位基因频率。在一些实施方案中，所述方法还包括分析第一组定量测量和第二组定量测量中的至少一个，以确定赘生物的代谢肿瘤体积。在一些实施方案中，所述方法还包括检测AUC至少约为0.80的赘生物。

另一方面，本公开提供了检测个体中的赘生物的方法，所述方法包括：获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子获自或源自所述个体的身体样品；在测序读数中鉴定或已经鉴定了多种独特的经测序的无细胞核酸分子中每一个的片段长度；选择所述测序读数的子集，所述测序读数的子集对应于所述多种独特的经测序的无细胞核酸分子中的具有指示亚单核体片段或亚二体片段的片段长度的无细胞核酸分子；分析所述测序读数的子集以确定指示所述亚单核体片段或亚二体片段的所鉴定的片段长度的频率；以及至少部分基于将计算模型应用于指示亚单核体片段或亚二体片段的所鉴定的片段长度，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述计算模型是利用来自第一组具有赘生物的个体和第二组没有赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；以及至少部分基于所述无细胞核酸测序数据包含指示源自赘生物的无细胞核酸分子的核苷酸的确定，检测个体中的赘生物。

在一些实施方案中，小于160个碱基对(bp)的片段长度表示亚单核体片段(sub-mononucleosomal fragment)。在一些实施方案中，230bp与310bp之间的片段长度表示亚二体片段(sub-disomal fragment)。在一些实施方案中，至少部分通过对个体的身体样品的核酸分子进行大小选择以富集亚单核体片段和亚二体片段中的至少一种来获得所述多种无细胞核酸分子。

另一方面，本公开提供了检测个体中的赘生物的方法，所述方法包括：获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子获自或源自个体的身体样品；分析测序读数以确定多个单核苷酸变体(single nucleotidevariant,SNV)的变体等位基因频率(variant allele frequency,VAF)；以及至少部分基于将计算模型应用于所确定的多个SNV的VAF，确定或已经确定无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中计算模型是利用来自第一组具有赘生物的个体和第二组没有赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；以及至少部分基于无细胞核酸测序数据包含指示源自赘生物的无细胞核酸分子的核苷酸的确定，检测个体中的赘生物。

在一些实施方案中，所述方法还包括确定所述多个SNV中的所确定的VAF的平均值；以及至少部分基于将计算模型应用于所测定的平均值，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸。在一些实施方案中，所述方法还包括将所述多个SNV中的所测定的VAF的测定平均值与参考值进行比较，以确定无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸。在一些实施方案中，所述方法还包括确定所检测的赘生物的代谢肿瘤体积。在一些实施方案中，所述方法还包括确定检测到的赘生物的分期。在一些实施方案中，所述方法还包括确定检测到的赘生物复发的可能性。在一些实施方案中，使用一组捕获诱饵分子从个体的身体样品中富集多种无细胞核酸分子，其中所述捕获诱饵分子的组被配置成选择性地与至少部分与所述捕获诱饵分子的组中的至少一个序列互补的序列杂交，其中所述捕获诱饵分子的组被配置成选择性地与至少部分与选自表1中的基因组基因座的组的至少一个基因组基因座互补的序列杂交。在一些实施方案中，赘生物包括肺癌。

另一方面，本公开提供了用于杂交捕获的诱饵组，所述诱饵组包含至少1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、200种、300种、400种、500种、600种、700种、800种、900种、1000种、1200种、1400种、1600种、1800种、2000种、2200种、2400种、2600种、2800种、3000种、3200种、3400种、3600种、3800种、4000种、4200种、4400种、4600种、4800种或5000种不同的含多核苷酸的探针，其中所述含多核苷酸的探针被共同配置成与源自表1中所示的基因组区域的至少5％的cfDNA杂交。

在一些实施方案中，每种含多核苷酸的探针具有长度为至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、120个、140个、160个、180个、200个、220个、240个、260个、280个或300个核苷酸的核酸序列。在一些实施方案中，每个含多核苷酸的探针具有长度不超过300个、280个、260个、240个、220个、200个、180个、160个、140个、120个、100个、90个、80个、70个、60个、50个、40个、30个、20个、10个、9个、8个、7个、6个、5个、4个、3个或2个核苷酸的核酸序列。在一些实施方案中，将每个含多核苷酸的探针与亲和部分缀合。在一些实施方案中，亲和部分包含生物素。在一些实施方案中，多核苷酸探针被共同配置为与来源于表1中所列的基因组区域的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或100％的cfDNA杂交。在一些实施方案中，诱饵组中的全部多核苷酸探针被配置成与源自表1中所示的基因组区域的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或100％的cfDNA分子杂交。

另一方面，本公开提供了混合物，其包含：来自生物样品的DNA；和本公开的诱饵组。

另一方面，本公开供了进行捕获杂交的方法，所述方法包括：获得源自无细胞DNA来源的多种DNA分子；以及将一定比例的所述多种DNA分子与一组捕获诱饵分子混合，其中所述一组捕获诱饵分子被配置成选择性地与至少部分与所述捕获诱饵分子的组的至少一个序列互补的DNA分子杂交，其中所述捕获诱饵分子的组被配置成选择性地与DNA分子杂交，所述DNA分子包含含有选自表1中的基因组基因座的组的基因组基因座的至少一部分的序列。

在一些实施方案中，基因组座位的部分包含基因组基因座的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、120个、140个、160个、180个、200个、220个、240个、260个、280个或300个连续核苷酸。在一些实施方案中，所述比例为所述多种DNA分子的至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。在一些实施方案中，所述方法还包括优化所述多种DNA分子与所述捕获诱饵分子的组的比例摩尔比，以产生独特分子总数的最佳回收率，或产生双链化的无细胞DNA分子总数的最佳回收率，其中对所述来源的无细胞DNA双链体的两条链都进行测序，其中所述摩尔比至少为约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。在一些实施方案中，所述方法还包括使用捕获杂交的计算机模拟来确定与捕获诱饵分子的组混合的多种DNA分子的比例，其中所述比例不超过约100％、95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％或5％。在一些实施方案中，捕获诱饵分子的组包括本公开的诱饵组。

另一方面，本公开提供了一种DNA分子，包括:来源于生物样品的核酸分子，其中核酸分子是DNA或cDNA一对位于所述核酸分子侧翼的纠错独特标识符，其中所述纠错独特标识符各自是DNA分子，并且所述纠错独特标识符的组合在测序结果中提供了所述核酸分子的鉴定；和纠错双指数样品条形码对，其中纠错独特标识符是每个DNA分子，纠错独特标识符的组合在测序结果中提供了生物样品的鉴定。

另一方面，本公开提供了制备用于测序的DNA文库的方法，其包括：将成对的部分Y-衔接子连接到核酸分子的集合上，使得每个核酸分子的侧翼为一对部分Y-衔接子，其中每个核酸分子是DNA或cDNA，并且核酸分子的集合来源于生物样品，其中每个部分Y-衔接子包括纠错独特标识符和在接枝聚合酶链式反应中退火的引物的序列，并且其中每个核酸分子上两个纠错独特标识符的每个侧翼组合鉴定该对部分Y-衔接子与该核酸分子的连接；以及将纠错双指数样品条形码对和通用引物的序列接枝到每个连接产物上，使得连接产物的侧翼是纠错双指数样品条形码和通用引物的序列，其中所述纠错双指数样品条形码的组合鉴定核酸分子的集合。

另一方面，本公开提供了减轻在测序文库制备过程中出现的核苷酸颠换的方法，其包括：在反应混合物中用活性氧种类清除剂或酶进行序列文库制备。

在一些实施方案中，用反应混合物中的活性氧种类清除剂次牛磺酸进行序列捕获反应。在一些实施方案中，活性氧种类清除剂是谷胱甘肽、次牛磺酸或亚硫酸钠；并且其中所述酶是尿嘧啶-DNA糖基化酶(UDG)、甲酰胺基嘧啶[fapy]-DNA糖基化酶(FPG)或过氧化氢酶。

另一方面，本公开提供了对个体进行临床操作的方法，所述方法包括：获得或已经获得无细胞核酸分子的集合的测序结果，其中所述无细胞核酸分子的集合来源于个体的第一活检物；获得或已经获得细胞衍生的核酸分子集合的测序结果，其中细胞来源的核酸分子的集合来源于个体的第二活检物；在无细胞核酸测序结果和细胞来源的核酸测序结果中鉴定或已经鉴定了单核苷酸变体；利用第一计算模型和所鉴定的单核苷酸变体，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中所述第一计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中所述第一计算模型整合了一个或多个以下特征：细胞来源的DNA贝叶斯背景、cfDNA贝叶斯背景、种系深度、短片段得分1、短片段得分2或cfDNA分子的基因组起始和终止位置；以及基于确定无细胞核酸测序结果包含源自赘生物的核酸序列，对个体进行临床操作。

在一些实施方案中，第一计算模型还整合了一个或多个以下特征：转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量评分、变体等位基因频率(VAF％)、平均条形码家族规模、cfDNA分子中的变异位置、多基因风险评分、核酸酶基序。在一些实施方案中，第一活检物和第二活检物是相同的血液活检物，并且血液活检物被分成无细胞级分和细胞级分，并且其中无细胞级分用于来源无细胞核酸分子，而细胞级分用于来源细胞来源的核酸分子。在一些实施方案中，从分析中去除了许多经鉴定的变体，其中被去除的变体包括来自克隆性造血基因的变体或其它非恶性组织类型中的体细胞突变。在一些实施方案中，从分析中去除许多经鉴定的变体，且其中所去除的变体包括存在于细胞来源的核酸测序结果中的变体。

在一些实施方案中，所述方法还包括：在无细胞核酸测序结果和细胞来源的核酸测序结果中鉴定或已经鉴定了拷贝数变异；以及利用第二计算模型和所鉴定的拷贝数变异，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中所述第二计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中第二计算模型整合了一个或多个以下特征：均匀分布的基因组窗口区域的数量、GISTIC“热点”区域的数量和与均匀窗口相比的GISTIC“热点”区域的富集；其中对个体进行临床操作基于确定无细胞核酸测序结果包含源自赘生物的核酸序列。

在一些实施方案中，所述方法还包括：在两个无细胞核酸测序结果中鉴定或已经鉴定了每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的基因组位置；确定或已经确定每个独特的经测序的无细胞核酸的第一个和最后一个核苷酸的经鉴定的基因组位置的频率；以及利用第三计算模型和每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中第三计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；其中对个体进行临床操作基于确定无细胞核酸测序结果包含源自赘生物的核酸序列。在一些实施方案中，所述方法还包括：从第一计算模型、第二计算模型和第三计算模型中的每一种生成置信度得分；以及整合置信度得分以生成指示该个体具有赘生物的汇总得分；其中对所述个体进行所述临床操作基于指示所述个体具有赘生物的汇总评分。

另一方面，本公开提供了治疗个体中的赘生物的方法，所述方法包括：获得或已经获得无细胞核酸分子的集合的测序结果，其中无细胞核酸分子的集合来源于个体的第一活检物；获得或已经获得细胞来源的核酸分子的集合的测序结果，其中细胞来源的核酸分子的集合来源于个体的第二活检物；在无细胞核酸测序结果和细胞来源的核酸测序结果中鉴定或已经鉴定了单核苷酸变体；利用第一计算模型和所鉴定的单核苷酸变体，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中第一计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中第一计算模型整合了一个或多个以下特征：细胞来源的DNA贝叶斯背景、cfDNA贝叶斯背景、种系深度、短片段得分1、短片段得分2或cfDNA分子的基因组起始和终止位置；以及基于确定无细胞核酸测序结果包含源自赘生物的核酸序列来治疗个体。

在一些实施方案中，第一计算模型还整合了一个或多个以下特征：转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量评分、变体等位基因频率(VAF％)、平均条形码家族规模、cfDNA分子中的变异位置、多基因风险评分、核酸酶基序。在一些实施方案中，第一活检物和第二活检物是相同的血液活检物，并且血液活检物被分成无细胞级分和细胞级分，并且其中无细胞级分用于来源无细胞核酸分子，而细胞级分用于来源细胞来源的核酸分子。在一些实施方案中，从分析中去除了许多经鉴定的变体，其中被去除的变体包括来自克隆性造血基因的变体。在一些实施方案中，从分析中去除许多经鉴定的变体，且其中所去除的变体包含存在于细胞来源的核酸测序结果中的变体。

在一些实施方案中，所述方法还包括：在无细胞核酸测序结果和细胞来源的核酸测序结果中鉴定或已经鉴定拷贝数变异；利用第二计算模型和所鉴定的拷贝数变异，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中第二计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且其中第二计算模型整合了一个或多个以下特征：均匀分布的基因组窗口区域的数量、GISTIC“热点”区域的数量和与均匀窗口相比的GISTIC“热点”区域的富集；其中治疗个体是基于确定无细胞核酸测序结果包含源自赘生物的核酸序列。

在一些实施方案中，所述方法还包括：在两个无细胞核酸测序结果中鉴定或已经鉴定了每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的基因组位置；确定或已经确定每个独特的经测序的无细胞核酸的第一个和最后一个核苷酸的经鉴定的基因组位置的频率；以及利用第三计算模型和每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中第三计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；其中治疗个体基于确定无细胞核酸测序结果包含源自赘生物的核酸序列。

在一些实施方案中，所述方法还包括：从第一计算模型、第二计算模型和第三计算模型中的每一种生成置信度得分；以及整合置信度得分以生成指示该个体具有赘生物的汇总得分；其中对个体的治疗基于表明个体具有赘生物的汇总评分。

另一方面，本发明提供了在测序文库上进行捕获杂交的方法，所述方法包括：获得测序文库，该测序文库包含源自无细胞DNA来源的多种独特的测序分子；将一定比例的所述测序文库与捕获诱饵分子混合，以杂交并下拉被捕获诱饵识别的特定序列，其中所述测序文库的比例至少为10％、25％或50％。

在一些实施方案中，优化测序文库与捕获诱饵的比例摩尔比以产生总独特分子的最佳回收率或产生总双链化的无细胞DNA分子的最佳回收。

其中对来源的无细胞DNA双链体的两条链进行测序。在一些实施方案中，捕获杂交的计算机模拟被用于确定与捕获诱饵混合的测序文库的比例。

另一方面，本发明提供了治疗个体中的赘生物的方法，所述方法包括：获得或已经获得无细胞核酸分子的集合的测序结果，其中无细胞核酸分子的集合来源于个体的第一活检物；获得或已经获得细胞来源的核酸分子的集合的测序结果，其中细胞来源的核酸分子的集合来源于个体的第二活检物；在无细胞核酸测序结果和细胞来源的核酸测序结果中鉴定或已经鉴定了拷贝数变异；利用计算模型和所鉴定的拷贝数变异，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中第二计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据建立的，并且其中第二计算模型整合了一个或多个以下特征：均匀分布的基因组窗口区域的数量、GISTIC“热点”区域的数量以及与均匀窗口相比的GISTIC“热点”区域的富集；以及基于确定无细胞核酸测序结果包含源自赘生物的核酸序列来治疗该个体。

另一方面，本公开提供了治疗个体中的赘生物的方法，所述方法包括：获得或已经获得无细胞核酸分子的集合的测序结果，其中无细胞核酸分子的集合来源于个体的活检物；在两个无细胞核酸测序结果中鉴定或已经鉴定了每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的基因组位置；确定或已经确定每个独特的经测序的无细胞核酸的第一个和最后一个核苷酸的经鉴定的基因组位置的频率；以及利用计算模型和每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定无细胞核酸测序结果包含源自赘生物的核苷酸，其中第三计算模型是利用来自具有赘生物的个体的队列和没有赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据建立的；以及基于确定无细胞核酸测序结果包含源自赘生物的核酸序列来治疗该个体。

附图说明

参考下面的附图和数据图表，将更全面地理解说明书和权利要求书，所述附图和数据图表是作为本发明的示例性实施方案给出的，它们不应该被解释为对本发明范围的全部记载。

图1提供了基于在测序结果中检测循环肿瘤核酸序列而对个体进行临床干预的过程的流程图。

图2A显示在具有相同起始和终止位置的cfDNA分子中差异1bp的分子条形码(即，独特标识符或UID(unique identifier)过量表明UID中的测序错误可产生错误的UID家族。描述了当比较来自使用一组串联衔接子测序的不同组的条形码去重的(即独特的)cfDNA分子的UID时，条形码汉明编辑距离(barcode Hamming edit distance)(UID编辑距离)的预期和观察到的分布。串联衔接子利用随机的4聚UID，得到256个不同的不能被纠错的UID。UID编辑距离在所有256个UID中的理论分布(即，彼此之间相异1bp、2bp、3bp和4bp的UID的比例)由第1、第5、第9和第13条柱(例如每组四个条柱中的第1条柱)显示。另外的条形码代表在用串联衔接子测序的健康对照cfDNA样品中(n＝24个个体)观察到的UID编辑距离的分布。随机采样的UID由第2、第6、第10和第14条柱(例如每组四个条柱中的第2条柱)显示。来自具有不同基因组起始和终止位置的cfDNA分子的UID由第3、第7、第11和第15条柱(例如每组四个条柱中的第3条柱)显示。共有相同起始和终止位置的cfDNA分子由第4、第8、第12和第16条柱(例如每组四条柱中的第4条柱)显示。当将具有相同起始和终止位置的cfDNA分子(每组四个条柱中的第四条柱)与其它UID分布中的每一个进行比较时，仅相异一个碱基的UID明显过多，这表明1-bp错误正在错误地产生新的UID家族。除在与理论分布进行比较时使用非配对双侧t检验(P<1×10^-8)外，组间比较均使用配对双侧t检验。条柱表示平均值，误差柱表示平均值的标准误差。

图2B提供了构建测序文库的过程的示意图。

图3提供了测序衔接子的示意图。

图4A提供了在用各种化学或酶促产品处理的样品中鉴定错误率(以及出现的相应类型的错误)的图表。

图4B提供了显示活性氧种类可以如何导致颠换以及活性氧种类清除剂可以如何防止这种颠换的示意图。

图5提供了在测序结果中检测循环肿瘤核酸序列的示意流程图。

图6提供了描述在模型中用于检测测序结果中的循环肿瘤核酸序列的特征及其重要性的图表。

图7显示为了提高检测等位基因水平的灵敏度，开发并测试了一些方法，用于使独特的、成功测序的cfDNA分子的产量最大化，同时使它们的相关测序错误分布最小化。

图8显示了CAPP-Seq方法的分子生物学模拟，其包括cfDNA输入、捕获前、捕获和捕获后的工作流程步骤，以在每个工作流程步骤产生测序数据和独特分子的百分比(％)。

图9显示了使用基于随机二项式取样的计算机模型，追踪CAPP-seq分子生物学工作流程中的每一步的原始独特(顶部带圆圈的实线)cfDNA分子和双链体(底部带圆圈的实线)cfDNA分子(独特深度；右轴)和包括PCR副本的总分子(未去重深度；左轴)的比例。在这个模型中，只考虑中靶分子，其中追踪来自原始DNA双链体的两条单独的DNA链。显示了两个模拟，其中将8.3％(顶部)和100％(底部)的扩增的测序文库输入到杂交反应中用于靶标富集。

图10显示了模拟模型的经验验证；包括在将不同比例的测序文库输入到杂交捕获反应中后，通过测序恢复的中位独特去重(即，‘去重’)(左)和双链体(右)深度的比较。在每个条件下，来自四个健康成年人中每个人的总共32ng cfDNA被用作输入，并且在条形码去重复之前，将每个样品降采样到1亿个测序读数，以便于比较。利用配对双侧t检验进行比较。

图11显示了当将8.3％或100％的测序文库输入杂交捕获反应时，由模型预测的去重(顶部)测序深度和双链体(底部)测序深度与实验观察到的测序深度的比较。模拟中考虑了一系列捕获效率(7.5-75％杂交捕获效率)，其中置信包络表示模型预测的所得范围。图10中描绘的实验数据(每个捕获条件n＝4个cfDNA样品)在条形码去重复之前被降采样，以使得能够跨不同测序读数产量(x轴)进行比较。圆点表示中值，误差条表示最小值和最大值。

图12显示了在将每个测序文库的8.3％(n＝138个cfDNA样品)相比≥25％(n＝145个cfDNA样品)输入杂交捕获反应后获得的去重(左)测序深度和双链体(右)测序深度的比较。所有样品都具有32ng cfDNA作为文库制备的输入，并在条形码去重复之前被降采样至2500万次读数，以便于比较。在箱线图中，中线表示中值，方框包含四分位范围，晶须表示距方框边缘不超过1.5×IQR的极值(Tukey风格)。

图13显示：当比较用和不用次牛磺酸捕获的12名健康成人的cfDNA样品的错误分布时，发现用ROS清除剂捕获的样品具有显著更低的背景错误率和更少的G>T错误。

图14显示：在用ROS清除剂捕获的104个健康对照cfDNA样品中，与未用次牛磺酸捕获的69个对照cfDNA样品相比，观察到G>T错误(所有错误16％对比57％，Wilcoxon秩和检验，P<1x10^-8)和背景错误率(约50％的减少，Wilcoxon秩和检验，P<0.0001)的相对减少。

图15显示使用肿瘤知情方法在早期肿瘤患者中确定ctDNA检测率。这一策略为基于CAPP-Seq的肿瘤初筛方法确立了最大的灵敏度。

图16显示：通过使用355千碱基(kb)CAPP-Seq小组对肺癌中复发突变的255个基因进行靶向深度测序，对85名I-III期NSCLC患者的肿瘤组织、治疗前血浆cfDNA和白细胞DNA进行了基因分型。

图17显示：使用图16的小组(其为“基于群体”的方法(例如不需要患者特异性的分子生物学定制))，在肿瘤标本(范围为0-35个)中每个患者鉴定了中值4个突变，并且在49％(42/85)的NSCLC患者中以95％的特异性检测到ctDNA。随着监测的肿瘤突变数量的增加，检测的灵敏度显著更高。

图18显示：为了经验性地测试追踪更多突变会提高总体ctDNA检测率的观察结果，基于17名患者的肿瘤外显子组测序数据设计了定制的捕获小组，在所述患者中使用基于群体的肺癌小组最初不能检测到ctDNA。这种定制方法将可用于监测的突变数量从中值4增加至68(配对双侧t检验，P<0.01)。使用这些定制的测定，在11/17(65％)的患者中检测到ctDNA，中位AF为0.0019％，水平低至10⁶个分子中1.5个。

图19显示：组合基于群体(n＝68)和定制(n＝17)的肿瘤知情策略的结果，在大多数早期NSCLC患者(53/85或62％)中检测到ctDNA，分别包括在52％、67％和88％的I、II和III期患者中。

图20显示鉴定了ctDNA分子的特性，所述特性可以通知肿瘤初筛。克隆性肿瘤突变，定义为估计在所有肿瘤细胞中均一存在的那些变体，在血浆中更频繁地被检测到，并且以比它们的亚克隆对应物更高的等位基因频率被观察到(Fisher精确检验P<0.05，Wilcoxon秩和检验P<0.001)。

图21显示cfDNA片段的大小分布也被认为是富集肿瘤来源的cfDNA分子(例如ctDNA)的潜在手段。发现存在于匹配肿瘤样品中的携带突变的cfDNA分子显著短于其非突变对应物(Wilcoxon秩和检验P<1x10^-8)。

图22显示突变的cfDNA分子被富集在亚单核体片段(<160bp)和亚二体片段(230-310bp，图21)中。当仅考虑<160bp和230bp与310bp之间的分子时，观察到肿瘤来源的突变的VAF有2.7倍的中位富集(范围为0-9.2，图21)。发现53.6％的突变分子落在这些区域中，相比之下，24.7％的非突变分子落在这些区域中(图21)，表明在这些窗口中分子的大小选择可能被证明是有用的。然而，尽管大多数突变(74％，271/366)在这些大小窗口中富集，但26％的突变(95/366)在大小选择后VAF下降，其中78％的此类突变(75/95)变得不可检测。

图23显示：虽然大小选择提高了通过定制小组追踪的具有许多突变的患者中ctDNA检测的总体灵敏度，但是在用我们的基于群体的肺癌小组监测的患者中，由于在任何短cfDNA分子上不存在的肿瘤突变的丢失，灵敏度下降。

图24显示：已经在大多数早期NSCLC患者中观察到可检测的ctDNA，接下来寻求鉴定这些患者中ctDNA水平的临床和病理相关性。发现ctDNA水平与进展期密切相关，其中I期、II期和III期疾病的中位VAF分别为0.015％、0.14％和0.52％(Wilcoxon秩和检验，P<0.0001)。

图25-26显示发现了ctDNA水平与代谢肿瘤体积(MTV)之间的显著关联性，如通过[18F]FDG PET/CT所测量的(斯皮尔曼r＝0.40，P＝0.004)。

图27显示发现了ctDNA水平与代谢肿瘤体积(MTV)之间的显著关联性，如用非腺癌组织学所测量的(Wilcoxon秩和检验，P<0.01)。在多变量分析中，分期、MTV和非腺癌组织学分别与ctDNA负荷独立相关，表明ctDNA水平是多个生物学参数的函数。

图28显示：在具有主要毛玻璃成分(≥25％GGO)的患者当中，ctDNA的检测频率和浓度低于GGO＜25％的患者(Fisher精确检验P<0.05，Wilcoxon秩和检验P<0.05)。

图29显示：当在腺癌组织学亚型中比较ctDNA水平时，实体瘤和乳头状瘤患者的ctDNA水平高于腺泡或鳞屑瘤患者，尽管这种关系没有达到统计学显著性。

图30显示：在其肿瘤有坏死迹象或接触中央气道或动脉的患者中，可更频繁地检测到ctDNA。

图31显示了鉴于已知与疾病侵袭性相关的ctDNA脱落与成像参数之间的相关性，检验了治疗前ctDNA水平与临床结果的关联性。ctDNA水平高于中值的患者具有显著较低的无复发率(风险比＝3.88，P＝0.0009)。

图32显示了鉴于已知与疾病侵袭性相关的ctDNA脱落与成像参数之间的相关性，检验了治疗前ctDNA水平与临床结果的关联性。ctDNA水平高于中值的患者具有显著较低的无复发生存率(风险比为3.51，P＝0.001)。

图33-34显示当仅考虑I期疾病患者(n＝48)时，治疗前ctDNA水平具有类似的预后性。

图35显示在包括MTV和分期的多变量分析中，只有ctDNA与结果显著相关。

图36-37显示：由于在局部化NSCLC治疗后，远处转移是癌症相关死亡率的主要原因，因此也检验了治疗前ctDNA水平与未来转移的关联性。在单变量和多变量分析中，较高的ctDNA浓度与较低的远处转移自由度显著相关。

图38显示了治疗前ctDNA浓度是局部化NSCLC的预后因素，其可鉴定患有微转移疾病的患者。

图39显示：平均而言，与风险匹配的对照和低风险对照相比，NSCLC患者在cfDNA中包含显著更多的非同义突变(Wilcoxon秩和检验，P<0.01及P<0.0001)。

图40显示在cfDNA中最高VAF下观察到的突变也存在于76％的患者和91％的对照的匹配WBC中。

图41显示除了12个与CH经典相关的最多复发突变的基因外，48％的WBC+cfDNA突变也在其它基因中。此外，94.8％的WBC+cfDNA突变是专有的，这突出了对匹配的白细胞进行基因分型以可靠地确定cfDNA突变是否是CH来源的重要性。

图42显示在NSCLC患者和对照中观察到相似比率的CH变体，无论是直接从WBC还是从cfDNA鉴定突变。在细胞区室和无细胞区室中观察到的突变的等位基因比例显著相关(皮尔逊r＝0.83，P<1x10^-8)。

图43显示：与大多数CH变体是专有的且在我们的队列中具有低等位基因比例的趋势不同，在≥2％VAF下出现的WBC中77％(20/26)的变体影响典型的CH基因，其中DNMT3A、TET2和TP53最常受到影响。

图44-45显示，由于已知CHIP发生率随年龄增加，因此检测了与年龄相关的WBC+cfDNA突变的数量。WBC+cfDNA突变的数量与年龄显著相关，而WBC-cfDNA突变的数量不相关(皮尔逊r＝0.43,P<1x10^-8)。

图46显示，与这些突变构成CH事件的概念一致，最常包含WBC+突变的基因是典型的CH基因，包括DNMT3A、TET2、TP53、SF3B1和PPM1D。

图47显示：为了检查WBC+cfDNA突变的时间变化，考虑在两个时间点提取血浆样品的队列的亚组(8名NSCLC患者，抽血之间的中位间隔＝12天；5个风险匹配的对照，中位间隔＝19个月)。在第一采血时间点检测到的WBC+cfDNA突变当中，73％(41/56)也在第二时间点检测到，并具有高度相关的VAF(皮尔逊r＝0.99，P<0.0001；对照组的皮尔逊r＝0.74，P＝0.02)。

图48-49显示：为了鉴定可用于将CH突变与肿瘤来源的突变区分开的CH突变的特性，将WBC+cfDNA突变与WBC-cfDNA突变的突变特征与来自CH和肺癌文献的先前发表的突变数据集组进行了比较并对比。在病例和对照中在cfDNA中检测到的WBC+突变受衰老相关突变特征(特征1)支配。

图50显示WBC+cfDNA突变和WBC-cfDNA突变在TP53蛋白中的分布相似，其中两类突变均主要影响其DNA结合结构域。

图51显示：与全局特征分析的结果一致，WBC-TP53 cfDNA突变显示出比它们的WBC+对应物显著更强的吸烟特征证据(Wilcoxon秩和检验，P<0.01)。

图52显示SNV模型利用了特异于每个个体变体的关键生物学和技术特征，包括背景频率、cfDNA片段大小、吸烟特征贡献、在NSCLC中频繁突变的基因中的存在和CH可能性。

图53显示接受者-操作者特征曲线形状揭示了肺-CLiP可以根据目标临床应用容易地被调整至所需的特异性。

图54显示在80％特异性下，观察到I期患者的灵敏度为63％，II期患者的灵敏度为69％，III期患者的灵敏度为75％；另外，在98％的特异性下，观察到I期患者的灵敏度为41％,II期患者的灵敏度为54％，III期患者的灵敏度为67％。

图55显示在患者cfDNA中重复鉴定出突变的基因包括预期的NSCLC驱动因子，诸如TP53、KRAS和EGFR。对患者分类影响最大的分类器特征包括SNV VAF水平、cfDNA片段大小、检测到的SNV数量、检测到的CNV数量，以及以前是否在肺癌中观察到改变。

图56显示了肺-CLiP评分与肿瘤知情ctDNA水平和临床病理学特征的比较。重要的是，98％特异性下的灵敏度与使用肿瘤知情ctDNA分析观察到的没有显著差异，表明肺-CLiP获得了与肿瘤知情ctDNA检测相似的灵敏度。此外，发现肿瘤初始肺-CLiP评分与肿瘤知情ctDNA水平显著相关(斯皮尔曼r＝0.59，P<0.0001)。

图57显示，来自通过肺-CLiP分类为阳性的NSCLC患者的肿瘤显著大于分类为阴性的那些(Wilcoxon秩和检验，P<0.01)，并且类似地，具有非腺癌组织学的患者被更频繁地检测到(Fisher精确检验，P<0.01)。

图58显示肺-CLiP测定的表现在46名NSCLC患者的独立队列中得到验证(n＝32名I期；n＝9名II期；n＝5名III期)和48名LDCT扫描阴性的风险匹配的对照，他们在不同的机构进行了前瞻性登记。

图59显示了验证队列中模型的分期匹配的表现与通过AUC和灵敏度度量在训练中观察到的表现在统计学上相似，其中I期表现的数值差异归因于验证队列中IA期对比IB期病例的较大比例。

图60显示了当应用于验证队列中的对照时，在训练队列中设置的特异性阈值表现类似，表明肺-CLiP评分被很好地校准。

图61显示了对组合的训练和验证队列进行几个探索性分析。检验了测序深度或相关度量对灵敏度的影响。发现cfDNA输入、血浆体积输入和独特的测序深度与肺-CLiP的灵敏度没有显著关联。

图62显示，考虑到具有可用MTV数据的所有NSCLC患者(n＝103)，在MTV与肺-CLiP的灵敏度之间观察到强相关，其中对于1mL肿瘤、10mL肿瘤和>100ml肿瘤，灵敏度分别约为16％(95％CI:4％-24％)、52％(95％CI:32％-72％)和80％(95％CI:60％-96％)。

图63-65显示了从三个健康供体中每一个抽取血液到两个Streck管和两个K₂EDTA管中，并使用我们研究中使用的方案进行处理。如本文所述进行cfDNA提取和文库制备，每个样品输入25ng cfDNA。如本文所述进行测序和数据处理，并且在条形码去重复之前将每个样品降采样至8000万次读数，以便于比较。

图63显示在训练队列中的104名NSCLC患者和56名风险匹配的对照上训练肺-CLiP模型，并将其应用于从抽取到Streck和K₂EDTA管中的血浆中提取的cfDNA样品。描述了在训练数据中定义的98％(第1和第3条柱)和80％(第2和第4条柱)特异性阈值下被肺-CLiP分类为阴性的供体比例。比较从抽取到两种类型的管中的血浆中提取的cfDNA样品中的中位cfDNA片段大小、以ng ml^-1为单位的cfDNA浓度、去重复深度、双链体深度和错误度量。来自同一供体的cfDNA样品用虚线连接，使用配对双侧t-检验进行比较。

图64显示了提取到两种类型的管中的cfDNA样品的片段大小分布的比较。

图65显示如本文所述对从三个供体抽取到两种类型的管中的血浆中提取的cfDNA样品进行基因分型。供体1和供体3各自在cfDNA中鉴定出一个突变，该突变存在于从抽取到两种类型的管中的血浆中提取的样品中，并且也存在于匹配的WBC(WBC⁺)中。供体2在抽取到任一种类型的管中的血浆中提取的cfDNA样品中没有鉴定出突变。

图66A显示使用液滴数字PCR(ddPCR)对在患者和对照的亚组中观察到的15个WBC+cfDNA突变进行正交验证。使用从Bio-Rad获得的试剂、引物和探针在Bio-Rad QX200仪器上进行ddPCR。验证了4个专有的突变(private mutation)，以及在11个cfDNA样品中观察到的DNMT3A和JAK2中的两个复发性热点突变。发现在cfDNA和WBC gDNA区室中，100％(15/15)的测试突变通过ddPCR得到验证，并且通过CAPP-Seq和ddPCR定量的VAF显著相关。

图66B显示了用不同的SNV VAF调整策略在cfDNA中观察到的个体突变(n＝323)的(左)VAF。使用配对双侧t检验进行比较；(中间)在采用不同调整策略可检测到ctDNA的患者(n＝48)中，追踪所有追踪的突变的平均cfDNA VAF。使用配对双侧t检验进行比较；和(右)与m中相同的数据由分期分开。在箱形图中，中心线表示中值，方框包含四分位范围，晶须表示距方框边缘不超过1.5×IQR的极值(Tukey风格)。如本文所述进行拷贝数和克隆形成能力调整。

图67显示了在整个测序小组中观察到片段起始位置的惊人的定型性质。

图68显示了对所有8,192个信息位置(informative position)的起始CPM进行求和以产生“StartUp评分”，旨在用于将肺癌患者与非癌症对照进行分类。重要的是，StartUp评分与疾病负担的生物学测量(包括ctDNA肿瘤等位基因比例和代谢肿瘤体积)相关。

图69显示也评估了StartUp评分与肺-CLiP之间的相关性。有趣的是，虽然StartUp评分与训练队列中的肺-CLiP评分显著相关，但这种相关性在验证组中减弱，表明片段起始定位代表了具有独立的分类效用的SNV和SCNA的生物学正交特征。

图70显示评估了在三个独立的队列(包括训练队列和两个独立的验证队列)中区分肺癌患者与非癌症对照的StartUp评分的效用。在每个所测试的队列中，肺癌患者的StartUp评分都高于对照。

图71-72显示了用于区分肺癌患者与对照的StartUp评分的表现在训练队列和验证队列中是相似的(在训练队列中AUC＝0.82，在验证队列1中AUC＝0.86，在验证队列2中AUC＝0.80)。

图73显示了描述在NSCLC患者和对照中影响典型克隆性造血基因的WBC⁺和WBC^-cfDNA突变的比例的流程图。匹配白细胞中以≥1％VAF存在的WBC⁺cfDNA突变比以低于1％的水平存在的WBC⁺cfDNA突变更频繁地影响经典克隆性造血基因。以≥1％VAF存在的WBC⁺cfDNA突变对比以<1％VAF存在的WBC⁺cfDNA突变分别影响典型CH基因(匹配白细胞中51/64对比223/460；P＝1.9×10^-6，Fisher精确检验)。只有在cfDNA中从头鉴定的突变才被考虑，所述突变在匹配的WBC中的存在可以被可信地评估。

图74显示了在<2％和≥2％的VAF下，影响患者和对照中的典型克隆性造血基因的从WBC DNA从头基因分型的突变的百分比(考虑了所有患者和对照)。通过Fisher精确检验进行比较。

图75显示了在最常包含WBC⁺cfDNA突变的十个基因中具有一个或多个突变的对照组(左)和NSCLC患者(右)的百分比。基因中仅有WBC⁺突变、仅有WBC^-突变或有WBC⁺和WBC^-两种突变的NSCLC患者和对照分别用红色、灰色和粉红色描绘。每个条柱旁边的数字代表在NSCLC患者(右)或对照组(左)中为WBC⁺的该基因中的所有cfDNA突变的百分比。NSCLC患者相比于对照在TP53z中具有显著更多的WBC^-cf DNA突变(患者和对照组中分别为19/32和0/4。*P＝0.04，Fisher精确检验)。

图76显示了在所有NSCLC患者(n＝104)和对照(n＝98)中观察到的WBC⁺cfDNA突变的基因的突变频率。y轴描绘具有影响给定基因的WBC⁺cfDNA突变的组合队列的百分比。描绘了组合队列中四个或更多个体中具有突变的所有基因。

图77显示了比较NSCLC患者(左图，n＝54个突变，n＝8个个体)和对照(右图，n＝12个突变，n＝6个个体)中多个时间点的WBC⁺cfDNA突变的VAF的散点图。通过对两个时间点检测到的突变进行皮尔逊相关分析来进行统计学比较。

图78显示了使用dNdScv R包对在NSCLC患者和对照中观察到的所有同义和非同义WBC⁺(n＝693个突变，红色)和WBC^-(n＝526个突变，灰色)cfDNA突变进行了正选择分析，其中dNdScv R包进行了修改以针对我们的测序小组覆盖的给定基因的比例。x轴表示所有替代类型的经dNdScv调整的P值(Q值)。如果Q值小于0.05，则基因被认为处于正选择状态。符合此阈值的所有基因均被展示。

图79显示了在NSCLC患者和对照中在p53蛋白上的WBC⁺和WBC-cfDNA突变的分布。

图80显示了在NSCLC患者和对照中WBC⁺和WBC^-cfDNA突变的短片段富集，其被定义为在对图21中被发现为ctDNA富集的cfDNA片段大小进行计算机大小选择后，给定突变的VAF的倍数变化。中线表示中值，方框包含四分位范围，晶须表示第10个和第90个百分位值。

图81显示了在专用逻辑回归‘SNV模型’中用作特征的每个单独变体所特有的生物学和技术参数。Y轴上显示了特征名称，x轴上显示了在训练集显示了特征名称，x轴显示了在训练组中在单变量线性模型中，通过比较NSCLC患者(来自n＝104个个体的n＝574个突变)与风险匹配对照(来自n＝56个个体的n＝64个突变)中所有过滤后的SNV得到的P值的负log₁₀。显示了P值小于0.01的所有特征，P值是使用非配对双侧t检验计算的。本文中提供了关于每个特征的附加信息。

图82示出了肺-CLiP模型的接收者操作特性(receiver operatingcharacteristic,ROC)曲线，其描绘了在训练集(n＝104名NSCLC患者和n＝56名风险匹配对照)中按肿瘤分期分层的表现。

图83显示了在前瞻性登记的独立验证队列中进行年度肺癌筛查的46名早期NSCLC患者和48名风险匹配对照中观察到的临床病理相关性和选定特征的谱。

图84示出了肺-CLiP模型的接收者操作特征曲线，其描绘了验证集中按肿瘤分期分层的表现(n＝46名NSCLC患者和n＝48名风险匹配对照)。

图85显示了在训练队列中定义的不同阈值下在验证队列中观察到的特异性的比较。圆点表示1000个自举重采样(bootstrap resampling)中的中位特异性，误差条表示四分位范围。对非自举数据采用皮尔逊相关进行统计比较。

图86A-86D显示了以98％特异性被正确分类的NSCLC患者(阳性)与被错误分类的患者(阴性)中的代谢肿瘤体积(图86A)、用于文库制备的cfDNA输入(图86B)、所使用的血浆体积(图86C)和独特测序深度(图86D)的比较。考虑了训练队列和验证队列中所有NSCLC患者(图86A中n＝103名具有代谢肿瘤体积测量的患者，以及图86B-86D中n＝150名患者)。在箱线图中，中线表示中值，方框包含四分位范围，晶须表示距方框边缘不超过1.5×IQR的极值(Tukey风格)。

具体实施方式

现在转向附图和数据，提供了与癌症的无细胞核酸测序和检测相关的实施方案。在一些实施方案中，从液体活检物中提取无细胞核酸(cfDNA或cfRNA)并将其制备用于测序。在许多实施方案中，通过计算模型分析无细胞核酸的测序结果，以检测循环肿瘤核酸(ctDNA或ctRNA)序列(例如源自赘生物的核酸序列)。因此，在各种实施方案中，通过从个体中提取液体活检物并对源自该液体活检物的无细胞核酸进行测序以检测循环肿瘤核酸序列，可以检测个体中的赘生物(包括癌症),循环肿瘤核酸序列的存在表明该个体患有赘生物。在一些实施方案中，基于赘生物的检测对个体进行临床干预。

图1中提供了基于检测个体生物样品中的循环肿瘤核酸来进行临床干预的过程。在一些实施方案中，循环肿瘤核酸的检测表明存在赘生物(例如癌症)，因此可以进行适当的临床干预。

过程100可以包括获得、制备获自非侵入性活检物(例如液体或废物活检物)的无细胞核酸以及对其进行测序(101)。在一些实施方案中，cfDNA和/或cfRNA提取自血浆、血液、淋巴、唾液、尿液、粪便和/或其它适当的体液。在一些实施方案中，在任何癌症迹象之前提取活检物。在一些实施方案中，提取活检物以提供早期筛查，从而检测赘生物(例如癌症)。在一些实施方案中，提取活检物以检测治疗后是否存在残留赘生物(例如癌症)。可以进行任何特定癌症的筛查。要了解更多可被检测出来以进行干预的癌症的实例，参见“临床干预”一节。

在一些实施方案中，从具有已知的癌症发展风险的个体(例如那些具有疾病家族史或具有已知风险因素的个体(例如吸烟者))中提取活检物。在许多实施方案中，从普通人群中的任何个体提取活检物。在一些实施方案中，从具有较高癌症风险的特定年龄组中的个体(例如50岁以上的老年个体)中提取活检物。

在许多实施方案中，制备提取的无细胞核酸用于测序。因此，无细胞核酸被转化成用于测序的分子文库。在一些实施方案中，衔接子和引物被连接到无细胞核酸上以促进测序。在一些实施方案中，要进行特定基因组基因座的靶向测序，因此在测序前通过杂交来捕获对应于特定基因座的特定序列。在一些实施方案中，在文库和/或捕获操作期间包括各种试剂，以减轻混杂因子(cofounding factor)。在一些实施方案中，在一个或多个测序准备操作期间包括抗氧化剂，以防止导致核苷酸颠换的各种核苷酸的氧化。在一些实施方案中，抗氧化剂次牛磺酸用于各种测序制备操作中。

在一些实施方案中，可以利用任何合适的测序技术，所述测序技术可以检测指示循环肿瘤核酸的序列变异。测序技术包括(但不限于)454例测序、Illumina测序、SOLiD测序、离子激流测序(Ion Torrent sequencing)、单末端测序(single-read sequencing)、配对末端测序(paired-end sequencing)等。

过程100分析(103)无细胞核酸测序结果，以检测循环肿瘤核酸序列。因为赘生物(尤其是转移性肿瘤)正在活跃地生长和扩张，所以瘤形成细胞经常释放生物分子(尤其是核酸)到脉管系统、淋巴系统和/或废物系统中。另外，由于其局部环境的生物物理限制，瘤形成细胞经常破裂，将其内部细胞内容物释放到脉管系统、淋巴系统和/或废物系统中。因此，从液体或废物活织物中检测远端原发肿瘤和/或转移是可能的。

在许多实施方案中，分析无细胞核酸测序结果以检测无细胞核酸样品中是否存在体细胞单核苷酸变体(SNV)、拷贝数变异(copy number variation,CNV)、基因组位置特征和/或种系SNV。在一些实施方案中，特定体细胞SNV、CNV、基因组位置特征和/或种系SNV的存在指示循环肿瘤核酸序列(并因此指示肿瘤的存在)。在各种实施方案中，利用计算模型来分析检测到的体细胞SNV、CNV、基因组位置特征和/或种系SNV，以确定这些检测到的分子元素是否指示循环肿瘤核酸。在一些实施方案中，计算模型提供了关于特定样品是否含有循环肿瘤核酸的相对指示(例如数值置信度得分)。在一些实施方案中，对在患者和匹配对照中检测到的体细胞SNV、CNV、基因组位置特征和/或种系SNV训练计算模型。

在一些实施方案中，从无细胞核酸测序结果中去除了混杂因子。现在已经知道克隆性造血(clonal hematopoiesis,CH)是无细胞核酸样品中的体细胞SNV和CNV的混杂源。因此，在各种实施方案中，从进一步分析中去除与CH相关的体细胞SNV和CNV。在一些实施方案中，为每个分析的特定个体确定源自CH的体细胞SNV和CNV。为了检测个体的源自CH的特定体细胞SNV和CNV，收集个体的白细胞或白血细胞(WBC)或造血细胞，提取它们的核酸并测序，以检测源自这些细胞的体细胞SNV和CNV。在一些实施方案中，在分析无细胞核酸测序结果期间，去除了在WBC中检测到的体细胞SNV和CNV。

循环肿瘤核酸序列的检测表明受检个体中存在赘生物。因此，基于循环肿瘤核酸的检测，可以进行临床干预(105)。在一些实施方案中，执行临床操作，诸如(例如)验血、医学成像、体检、肿瘤活检或其任意组合。在一些实施方案中，进行诊断以确定癌症的特定分期。在一些实施方案中，进行治疗，诸如(例如)化学疗法、放射疗法、免疫疗法、激素疗法、靶向药物疗法、医学监测或其任意组合。在一些实施方案中，个体由医学专业人员诸如医生、护士、营养师等评估和/或治疗。

虽然上文描述了用于分子分析无细胞核酸和进行临床干预的过程的具体实例，但是该过程的一些操作可以以不同的顺序进行，并且某些操作可以是任选的。因此，该过程的一些操作在适当情况下可用于特定应用的要求。此外，可以利用适合给定应用要求的用于分子分析无细胞核酸的多种方法中的任一种。

测序文库制备

一些实施方案涉及制备用于测序的无细胞核酸样品，包括无细胞DNA(cell-freeDNA,cfDNA)和/或无细胞RNA(cell-free RNA,cfRNA)。因此，实施方案涉及从具有胞外核酸的生物样品中提取核酸。生物样品包括(但不限于)血液、血浆、淋巴液、脑脊液、唾液、尿液、粪便等。可以通过本领域已知的任何合适的手段分离和纯化无细胞核酸。在一些实施方案中，利用柱纯化(例如来自Qiagen,Hilden,Germany的QIAamp Circulating Nucleic Acid试剂盒)。在一些实施方案中，分离的RNA片段可以被转化成互补的DNA用于进一步的下游分析。

一些实施方案涉及制备用于测序的细胞来源的核酸样品。因此，一些实施方案分离待分析的细胞和/或组织(例如肿瘤细胞、瘤形成细胞、血细胞)。可如本领域所理解的那样提取和分离细胞和组织。在一些实施方案中，通过离心从血浆中分离血细胞(例如白细胞)。此外，可以通过本领域已知的任何合适的手段分离和纯化来自细胞和组织的核酸。在一些实施方案中，利用柱纯化(例如来自Qiagen,Hilden,Germany的DNeasy Blood andTissue试剂盒)。核酸可以被分解成更小的片段(例如50-450bp),用于通过任何合适的手段(例如超声处理)制备文库。

在一些实施方案中，可将分离的核酸片段制备成测序文库。在许多实施方案中，利用具有独特标识符(UID)和双指数样品条形码的衔接子来构建文库，每一个衔接子都具有优化的GC含量和序列多样性。在许多这些实施方案中，将UID和双指数条形码是解耦(例如每个都是独特的条形码)。在一些实施方案中，UID是预定义的(例如非随机的)序列，以提供纠错益处。在文库制备过程中，通常会在UID或样品条形码中引入错误，这会导致通过测序观察到的独特分子计数不准确。为了纠正这些错误，一些实施例利用具有成对汉明编辑距离的预定义序列，其可用于纠错。例如，当使用6bp UID序列时，序列可被设计成成对汉明编辑距离≥3，使得能够纠正1bp错误和检测2bp错误。同样，当使用8bp样品条形码序列时，序列可被设计成成对汉明编辑距离≥5，这使得能够纠正1或2bp错误并检测3bp错误。

在许多实施方案中，将UID和样品条形码的GC含量优化至大约50％的GC含量，这可能有利于退火并改善序列多样性。一些实施方案还涉及开发具有序列多样性的UID和条形码。在这些实施方案中，UID和样品条形码序列以及衔接子中的附加序列，被设计成在每个碱基位置处具有几乎相等的核苷酸选择。例如，在UID、样品条形码和周围的衔接子序列内的每个碱基位置处，衔接子的集合可以具有大约25％的A核苷酸、25％的C核苷酸、25％的T核苷酸和25％的G核苷酸。序列多样性可以改善测序仪的光学功能，以便正确校准。通过将增加的序列多样性工程化到衔接子中，去除了对PhiX测序的必要性，增加了测序读取产量。在许多实施方案中，双指数是指利用两个样品条形码(通常添加在序列读数的两侧)的衔接子。

一些实施方案涉及用于测序反应的文库分子。在一些实施方案中，核酸是DNA，因此可以直接用于文库制备。在一些实施方案中，核酸是RNA，因此在文库制备之前必需转化成cDNA。在许多实施方案中，将一对纠错UID连接至DNA(或cDNA)片段上，使得DNA(或cDNA)的每一侧都有UID。一对侧翼UID提供了源自生物来源的特定核酸分子的指示，这可使得能够更准确地计数原始的独特分子(例如每对UID指示在扩增操作之前发生的该核酸分子的连接事件，使得能够鉴定由于扩增操作而产生的重复分子)。在一些实施方案中，将一对索引样品条形码连接至DNA(或cDNA)片段，使得DNA(或cDNA)的每一侧都侧连有索引样品条形码，其指示样品来源(例如源自样品的侧翼为该对索引样品条形码)。在一些实施方案中，双指数样品条形码的使用更好地确保了测序产物实际上是来自样品来源的真正产物，如通过使两个索引条形码都适当地位于侧翼所确定的。在一些实施方案中，整合了侧翼UID和侧翼样品条形码的分离的样品DNA(或cDNA)片段还整合了用于PCR和/或测序的通用引物的退火位点。

图2A显示在具有相同起始和末端位置的cfDNA分子中差异1bp的过量分子条形码(即，独特标识符或UID)表明UID中的测序错误可产生错误的UID家族。描述了当比较来自使用一组串联衔接子测序的不同组的条形码去重的(即独特的)cfDNA分子的UID时，条形码汉明编辑距离(UID编辑距离)的预期和观察到的分布。

索引衔接子的使用可导致显著的错误抑制；然而，只有来自单链分子的信息可能被考虑，因为亲本双链“双链体”分子可能不会被重建。能够鉴定哪些单链最初配对成双链体可以允许额外的错误抑制。因此，设计了“串联衔接子”，其可包括两种外源条形码：用于单链错误抑制的索引条形码和用于双链错误抑制的专用条形码。后者以2-碱基条形码的形式掺入衔接子的双链部分，并在每次主要测序读取开始时读取(其可称为‘插入’条形码)。因为插入条形码是用主要读数测序的，所以从每个DNA片段的每个末端获得二核苷酸插入条形码，产生4个碱基的插入条形码和每基因组起始/终止位置256个分子的最大多样性。在一些实施方案中，索引和/或插入条形码可以放置在其它衔接子位置或合成为不同的长度，以适应更高或更低的分子多样性。

串联衔接子可以利用随机4聚体UID，导致256个不能被纠错的独特UID。UID编辑距离在所有256个UID中的理论分布(即，彼此之间相异1bp、2bp、3bp和4bp的UID的比例)由第1、第5、第9和第13条柱(例如每组四个条柱中的第1条柱)显示。另外的条形码代表在用串联衔接子测序的健康对照cfDNA样品中(n＝24个个体)观察到的UID编辑距离的分布。随机采样的UID由第2、第6、第10和第14条柱(例如每组四个条柱中的第2条柱)显示。来自具有不同基因组起始和结束位置的cfDNA分子的UID由第3、第7、第11和第15条柱(例如每组四个条柱中的第3条柱)显示。共有相同起始和结束位置的cfDNA分子由第4、第8、第12和第16条柱(例如每组四条柱中的第4条柱)显示。当将具有相同起始和结束位置的cfDNA分子(每组四个条柱中的第四条柱)与其它UID分布中的每一个进行比较时，仅相异一个碱基的UID明显过多，这表明1-bp错误正在错误地产生新的UID家族。除在与理论分布进行比较时使用非配对双侧t检验(P<1×10^-8)外，组间比较使用配对双侧t检验。条柱表示平均值，误差条形表示平均值的标准误差。

图2B提供了使用双链DNA(或cDNA)分子作为输入来制备文库的方法的实施方案。如图所示，Y形部分衔接子连接到DNA(或cDNA)分子上。每个Y形部分衔接子包含纠错独特标识符(UID),其描绘了在扩增前标识特定DNA(或cDNA)分子的分子条形码。可以使用任何适当的纠错UID分子条形码，其长度通常为至少3bp。在一些实施方案中，纠错UID分子条形码是3bp、4bp、5bp、6bp、7bp或8bp。在一些实施方案中，UID与样品条形码的解耦允许UID多样性和样品复用能力的单独定制。

图3中提供了Y形部分衔接子的实例。可以看出，该衔接子具有6bp的UID，其侧翼为1bp的偏移序列(offset sequence)和0-3bp的交错序列。在许多实施方案中，1bp偏移序列和/或0-3bp交错序列具有序列多样性，使得在每个碱基位置处有等同的核苷酸选择。在退火碱基T之前具有交错有助于增加序列多样性，潜在地有益于测序仪上的光学功能。1bp可以帮助确保准确读取UID，因为错误最常发生在被测序的第一个碱基上。此外，Y形部分衔接子具有用于接枝PCR的启动子的退火序列(见P5和P7)。

在连接Y形部分衔接子后，连接产物用于接枝表示待测序的样品(例如生物来源)的纠错双指数条形码。因此，在许多实施方案中，对每个样品用特定的一组接枝引物进行接枝PCR。为了进行光栅PCR(grating PCR)，在一些实施方案中，利用接枝PCR引物将样品特异性纠错条形码接枝到连接产物上(参见操作3和4)。在许多实施方案中，接枝PCR包括以下一种或多种：样品特异性纠错条形码、接枝引物序列和用于通用引物的退火序列。因此，在一些实施方案中，接枝PCR产生DNA分子文库。在一些实施方案中，文库中的每个DNA分子具有分离的样品DNA片段的序列和一个或多个下列序列：侧翼的一对纠错UID、侧翼的纠错双指数样品条形码对和用于在测序之前使通用引物退火以进行通用PCR的序列。

在一些实施方案中，为许多样品制备文库，可将所述样品组合起来进行测序。因此，在许多这些实施方案中，每个样品都具有其自己的样品特异性纠错条形码，所述条形码可从接枝PCR中获得。另外，在一些实施方案中，每个样品文库共享一种或多种相同的通用PCR引物退火序列，这允许在测序之前在相同的反应中扩增组合的样品。并且在一些实施方案中，在同一反应中对组合的样品进行测序。

在一些实施方案中，增强文库以帮助检测某些分子元件，诸如(例如)基因组特定基因座中的单核苷酸变体(SNV)。为了能够检测超出检测限的分子元件，可能需要增强，特别是当分子元件是稀有的和/或体细胞SNV时。因此，在一些实施方案中，在制备的文库上进行靶向测序。在许多实施方案中，利用捕获杂交来选择性地下拉具有特定序列(例如目标基因组基因座位的序列)的文库分子。在一些实施方案中，在文库上进行捕获杂交，以下拉具有特定基因组基因座的DNA分子，以便通过测序检测这些基因座中的分子特征。在一些实施方案中，在文库上进行捕获杂交，以便检测基因组基因座中的稀有和/或体细胞SNV，已知所述基因组基因座含有涉及癌症和/或致癌病理学的SNV。在一些实施方案中，在文库上进行捕获杂交，以检测已知含有SNV的基因组基因座中的稀有和/或体细胞SNV，如在肿瘤样品的先前测序结果中检测到的。

捕获杂交

一些实施方案利用捕获杂交技术进行靶向测序。当对无细胞核酸进行测序时，为了提高特定基因组基因座的分辨率，可在测序之前通过杂交捕获文库产物。当试图在特定基因组基因座位处从样品中检测体细胞变体和/或种系变体时，捕获杂交可能特别有用。在一些情况下，体细胞变体的检测表明核酸的来源，包括源自肿瘤或其它瘤形成来源的核酸。在一些情况下，与赘生物发病机制相关的特定种系变体的鉴定可以支持赘生物存在。因此，捕获杂交是可增强无细胞核酸中循环肿瘤核酸的检测的工具。

一方面，本公开提供了用于杂交捕获的诱饵组，该诱饵组包含至少1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、200种、300种、400种、500种、600种、700种、800种、900种、1000种、1200种、1400种、1600种、1800种、2000种、2200种、2400种、2600种、2800种、3000种、3200种、3400种、3600种、3800种、4000种、4200种、4400种、4600种、4800种或5000种不同的含多核苷酸探针，其中所述含多核苷酸探针共同被配置成与源自表1中所列的基因组区域的至少5％的cfDNA杂交。

表1.肺-CliP基因组基因座(人基因组，Build hg19(GRCh37))。

在一些实施方案中，含多核苷酸的探针被配置成选择性地与至少部分地和所述含多核苷酸的探针的至少一部分互补的DNA分子杂交。在一些实施方案中，所述部分为所述含多核苷酸的探针的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％或至少99％。在一些实施方案中，所述部分为所述含多核苷酸的探针的至少2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个连续核苷酸。

在一些实施方案中，含多核苷酸的探针被配置成与给定靶序列(例如基因组区域)的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％或至少99％杂交。在一些实施方案中，含多核苷酸的探针被配置成与整个靶序列(例如基因组区域)杂交。

在一些实施方案中，每种含多核苷酸的探针具有长度为至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、120个、140个、160个、180个、200个、220个、240个、260个、280个或300个核苷酸的核酸序列。在一些实施方案中，每个含多核苷酸的探针具有长度不超过300个、280个、260个、240个、220个、200个、180个、160个、140个、120个、100个、90个、80个、70个、60个、50个、40个、30个、20个、10个、9个、8个、7个、6个、5个、4个、3个或2个核苷酸的核酸序列。在一些实施方案中，将每个含多核苷酸的探针与亲和部分缀合。在一些实施方案中，所述亲和部分包含生物素。

在一些实施方案中，所述多核苷酸探针被共同配置成与源自表1中所示的基因组区域的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或100％的cfDNA杂交。在一些实施方案中，诱饵组中的全部多核苷酸探针被配置成与来源于表1中所示的基因组区域的至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或100％的cfDNA分子杂交。

一方面，进行捕获杂交的方法可包括获得源自无细胞DNA源的多种DNA分子；以及将一定比例的多种DNA分子与一组捕获诱饵分子混合。在一些实施方案中，捕获诱饵分子组被配置成选择性地与包含序列的DNA分子杂交，所述序列包含选自表1中的基因组基因座之组中的基因组基因座的至少一部分。

在一些实施方案中，基因组基因座的部分包含基因组基因座的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、120个、140个、160个、180个、200个、220个、240个、260个、280个或300个连续核苷酸。在一些实施方案中，所述比例为所述多种DNA分子的至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。

在一些实施方案中，所述方法还包括优化所述多种DNA分子与所述捕获诱饵分子的组的比例摩尔比，以产生独特分子总数的最佳回收率，或产生双链化的无细胞DNA分子总数的最佳回收率，其中对所述来源的无细胞DNA双链体的两条链都进行测序，其中所述摩尔比至少为约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。

在一些实施方案中，所述方法还包括使用捕获杂交的计算机模拟来确定与捕获诱饵分子的组混合的多个DNA分子的比例，其中所述比例不超过约100％、95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％或5％。

通过计算机分析，发现在基于捕获的测序方法中观察到的最常见的测序伪影(sequencing artifact)是在杂交捕获步骤期间发生的鸟嘌呤(G)的氧化，这导致鸟嘌呤转化为8-氧代鸟嘌呤。这种非预期的体外氧化结果会导致G>T颠换，这会混淆测序结果，尤其是在样品中搜索多态性变体时。还注意到G>T颠换是体内(尤其是在赘生物或癌症中)发生的常见诱变事件。一些环境因素(例如紫外线辐射、香烟烟雾、自由基)氧化鸟嘌呤(G),导致G>T颠换，因此G>T颠换可能在提取前已经在生物源中发生(图4A-4B)。因此，为了减轻体外诱变的混淆，假设酶和/或抗氧化剂可以防止在杂交捕获过程中发生的氧化。为了检验这一假设，利用酶和/或活性氧种类(reactive oxygen species,ROS)清除剂来观察在捕获杂交过程中，哪种清除剂可以阻止8-氧代鸟嘌呤的体外形成。测试的酶包括尿嘧啶-DNA糖基化酶(UDG)、甲酰胺基嘧啶[fapy]-DNA糖基化酶(FPG)和过氧化氢酶。测试的抗氧化剂包括谷胱甘肽、次牛磺酸和亚硫酸钠。发现这些酶和化合物，尤其是次牛磺酸，减少了捕获杂交过程中8-氧代鸟嘌呤的形成(图4A-4B)。

在一些实施方案中，在杂交捕获测定过程中包括抗氧化剂和/或酶。在一些实施方案中，抗氧化剂是次牛磺酸。各种实施方案涉及其中将次牛磺酸加入到杂交反应混合物中的捕获杂交方法。在许多这些实施方案中，在测序方案中使用次牛磺酸来减少在测序准备期间发生的测序结果中的体外G>T颠换的检测。因此，在一些实施方案中，次牛磺酸用于捕获特定DNA分子，然后将其用于测序反应。

从无细胞核酸中检测循环肿瘤核酸

一些实施方案涉及利用计算模型来确定无细胞核酸样品是否包含循环肿瘤核酸。在一些实施方案中，通过计算模型分析无细胞核酸样品测序结果中的SNV和/或CNV，以确定SNV和/或CNV是否源自循环肿瘤核酸。在一些实施方案中，在源自癌症患者和未受累个体的核酸样品上训练计算模型。

在一些实施方案中，基于源自无细胞核酸测序结果的测序读数内的SNV，利用计算模型来检测循环肿瘤核酸。在许多实施方案中，将计算模型用于基于CNV检测循环肿瘤核酸，所述CNV基于源自无细胞核酸测序结果的测序读数。在一些实施方案中，计算模型考虑测序读数的基因组位置。在一些实施方案中，计算模型考虑了源自测序结果的多基因风险评分(polygenic risk score,PRS)。在各种实施方案中，计算模型产生置信度得分，该得分指示无细胞核酸测序结果包括循环肿瘤核酸序列的可能性。在一些实施方案中，利用分类器，所述分类器组合各种计算模块的置信度得分，以基于无细胞核酸测序结果包含循环肿瘤核酸的可能性来对其进行分类。在一些实施方案中，对计算模块进行组合、分层、嵌套、顺序使用、串联使用或其任意组合。

在各种实施方案中，利用直接从癌细胞(例如患者肿瘤)提取的核酸的测序结果来训练计算模型，其可用于鉴定真阳性结果。在一些实施方案中，利用从另一宿主源(例如造血细胞)提取的核酸的测序结果来训练计算模型，其可用于鉴定假阳性结果。在一些实施方案中，将从造血细胞中提取的核酸的测序结果用于去除无细胞核酸中经常存在的混杂变体，诸如源于克隆性造血(CH)的变体。在一些实施方案中，无细胞核酸片段长度被用作特征，因为已经发现，与含有非肿瘤来源的突变的分子相比，含有肿瘤来源的突变的该cfDNA分子具有不同的片段大小分布。

在许多实施方案中，检测循环肿瘤核酸的计算模型被专门用于检测特定癌症类型。在一些情况下，癌症特异性检测模型可以利用特异于该特定癌症的特征，这可以提供更好的预测。例如，已知在特定癌症中出现的基因组基因座“热点”内出现的SNV和/或CNV可用于模型中。在一些情况下，“热点”是致癌驱动基因。在另一个实例中，与吸烟突变特征一致的SNV和/或CNV可用于检测肺癌。可以为一些癌症建立模型，所述癌症包括(但不限于)急性淋巴母细胞性白血病(ALL)、急性髓细胞样白血病(AML)、肛门癌、星形细胞瘤、基底细胞癌、胆管癌、膀胱癌、乳腺癌、宫颈癌、慢性淋巴细胞性白血病(CLL)、慢性髓细胞性白血病(CML)、慢性骨髓增生性肿瘤、结直肠癌、子宫内膜癌、室管膜瘤、食道癌、嗅神经母细胞瘤、尤因肉瘤、输卵管癌、胆囊癌、胃癌、胃肠道类癌、毛细胞白血病、肝细胞癌、霍奇金淋巴瘤、下咽癌、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、默克尔细胞癌、间皮瘤、口腔癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、胰腺神经内分泌肿瘤、咽癌、垂体瘤、前列腺癌、直肠癌、肾细胞癌、视网膜母细胞瘤、皮肤癌、小细胞肺癌、小肠癌、颈部鳞癌、T细胞淋巴瘤、睾丸癌、胸腺瘤、甲状腺癌、子宫癌、阴道癌和血管肿瘤。然而，应该注意的是，可以建立计算模型来检测循环肿瘤核酸以用于泛癌分析(例如一般性地检测癌症，而不是特定的亚型)。

图5中提供了建立和利用计算模型以利用测序结果检测无细胞核酸中的循环肿瘤核酸分子的方法。方法500可以从获得(501)无细胞核酸的测序结果开始。可以利用任何合适的测序结果。在一些实施方案中，从个体中提取液体或废物活检物，处理该活组检物中的无细胞核酸，然后进行测序。在一些实施方案中，还利用了源自癌细胞(例如肿瘤)和/或混杂源(例如造血细胞)的测序结果，尤其是用于模型训练。

方法500任选地利用(503)体细胞单核苷酸变体模块来确定无细胞核酸测序结果中的变体是否源自循环肿瘤核酸。体细胞SNV在源自瘤形成细胞的核酸中非常常见，因此在循环肿瘤核酸中也很常见。因此，在无细胞核酸测序结果中体细胞SNV的检测提供了SNV的来源来自瘤形成组织的指示。

尽管体细胞SNV通常源自瘤形成组织，但检测到的体细胞SNV通常可能是由除肿瘤生长外的原因(包括(但不限于)自然衰老、克隆性造血和其它无害来源)引起的。因此，利用能够准确预测检测到的SNV是否源自赘生物源(neoplastic source)的系统是有益的。在一些实施方案中，利用计算模型来提供无细胞核酸测序结果中检测到的SNV是否真正源自循环肿瘤核酸分子的指示。

一些实施方案涉及源自循环肿瘤核酸分子的变体调用和过滤被调用的变体，这可以在变体的计算分析之前进行。在一些实施方案中，去除种系变体，这可以利用另一宿主源(例如造血细胞)的测序结果来鉴定。在一些实施方案中，去除低深度位置(例如<50％的中位深度)处的变体，以及重复区域、内含子区域、基因间区域或假基因区域中的变体。在一些实施方案中，去除落在具有差的独特性或可映射性的区域中的变体。在一些实施方案中，去除通过合适的数据库(例如gnomAD数据库)鉴定的群体等位基因频率>0.1％的变体。在一些实施方案中，去除了反复出现的背景伪影。在一些实施方案中，去除存在于匹配的宿主源(例如造血细胞)中的真正变体(例如检测指数P值<0.10的变体)。在一些实施方案中，去除与克隆性造血(CH)正常相关的基因中的变体。CH基因包括(但不限于)DNMT3A、TET2、ASXL1、PPM1D、GNB1、CBL、JAK2、STAT3、GNAS、MYD88和SF3B1。在一些实施方案中，如果已观察到被去除的变体与癌症相关，则拯救被去除的变体。在一些实施方案中，如果被去除的变体存在于已被观察到与癌症相关的基因中，则拯救它们。

在一些实施方案中，利用计算模型来区分肿瘤裁定变体与非裁定变体(例如检测变体是否源自癌性组织)。在各种实施方案中，计算模型利用监督的、半监督的或无监督的训练，其可以包括使用患者数据，所述患者数据包括无细胞核酸测序结果和匹配的肿瘤测序结果。在许多实施方案中，利用回归模型来区分肿瘤裁定变体和非裁定变体。可以利用任何合适的回归模型，包括(但不限于)线性回归、弹性净回归、逻辑回归、多项式回归、逐步回归、岭回归、LASSO回归和任意组合的回归模型。在一些实施方案中，训练半监督弹性净逻辑回归模型，以在没有匹配的肿瘤样品的样品中将肿瘤裁定变体与非裁定变体区分开。在一些实施方案中，给每个检测到的SNV赋予一个评分，表明SNV源自赘生物源的置信度。在一些实施方案中，可以利用肿瘤知情分析来鉴定和定义训练模型的特征，在所述肿瘤知情分析中，分析患者的无细胞核酸和匹配的肿瘤来源的核酸(例如直接来源于肿瘤活检物的)。在这些实施方案中的一些中，使用学习模型来学习来源于瘤形成细胞的变体特征，并使用这些特征来赋予该变体源自瘤形成细胞的标签和置信度得分。在一些实施方案中，将样品中的置信度得分组合、求和、求平均值、加权或以其它方式汇总，以提供样品的汇总评分，指示样品包含循环肿瘤核酸分子的可能性。

在一些实施方案中，鉴定源自循环肿瘤核酸分子的SNV的模型整合了对每个单独变体特异的生物学和技术特征，包括(但不限于)变体的背景频率、无细胞核酸分子的片段大小、特定来源所共有的变异体特征、在癌症(或特定癌症类型)中频繁突变的基因组基因座(例如致癌基因)中的存在、变体源自CH的可能性，以及相对于cfDNA中的变体的VAF和造血细胞中的位置深度，可以确信地评估宿主造血细胞中是否存在突变。图6中提供了一组示例性模型特征及其对模型的贡献，所述模型特征用于确定特定的SNV是否源自循环肿瘤核酸分子。这组示例性特征包括WBC贝叶斯背景、cfDNA贝叶斯背景、变体等位基因频率(VAF％)、种系深度、平均条形码家族规模、短片段得分1、短片段得分2、转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量和读数中的变体位置。关于这些特征的细节，参见示例性实施方案部分。尽管这组示例性特征是专门为鉴定非小细胞肺癌(NSCLC)中的ctDNA而开发的，但是相同和/或相似的这组特征也可以用于泛癌或其它特定癌症的模型中。因此，各种实施方案利用模型来检测循环肿瘤核酸，所述检测基于整合了一个或多个以下特征的SNV的鉴定：细胞来源的DNA贝叶斯背景、cfDNA贝叶斯背景、变体等位基因频率(VAF％)、种系深度、平均条形码家族规模、短片段得分1、短片段得分2、转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量和读数中的变体位置。在一些实施方案中，模型结合了这些特征中的两个或更多个特征。在一些实施方案中，模型结合了这些特征中的三个或更多个特征。在一些实施方案中，模型结合了这些特征中的四个或更多个特征。在一些实施方案中，模型结合了这些特征中的五个或更多个特征。在一些实施方案中，模型结合了这些特征中的六个或更多个特征。在一些实施方案中，模型结合了这些特征中的七个或更多个特征。在一些实施方案中，模型结合了这些特征中的八个或更多个特征。在一些实施方案中，模型结合了这些特征中的九个或更多个特征。在一些实施方案中，模型结合了这些特征中的十个或更多个特征。在一些实施方案中，模型结合了这些特征中的十一个或更多个特征。在一些实施方案中，模型结合了这些特征中的十二个或更多个特征。在一些实施方案中，模型结合了这些特征中的十三个或更多个特征。在一些实施方案中，模型结合了这些特征中的十四个或更多个特征。在一些实施方案中，模型结合了这些特征中的所有十五个特征。

回到图5，方法500任选地利用(505)拷贝变异模块来确定无细胞核酸测序结果中的拷贝数变异(CNV)是否源自循环肿瘤核酸分子。体细胞CNV在瘤形成细胞中非常常见，因此可用于检测循环肿瘤核酸。因此，在无细胞核酸测序结果中体细胞CNV的检测提供了CNV的来源来自瘤形成组织的指示。尽管体细胞CNV通常源自瘤形成组织，但检测到的体细胞CNV通常可能是由除赘生物生长外的原因(包括(但不限于)自然衰老、克隆性造血和其它无害来源)引起的。因此，利用能够准确预测检测到的CNV是否源自赘生物源的系统是有益的。在一些实施方案中，利用计算模型来提供无细胞核酸测序结果中检测到的CNV是否真正源自循环肿瘤核酸分子的指示。

在一些实施方案中，CNV能够从靶向测序结果(例如缺少全基因组或外显子组覆盖的测序结果)中被检测到。在许多实施方案中，在一组在基因组上均匀分布的窗口(例如5MB窗口)中检查拷贝数。在许多实施方案中，在一组已知在癌症中具有拷贝数改变的基因组基因座“热点”中检查拷贝数。在一些实施方案中，利用GISTIC2.0来鉴定基因组基因座“热点”(关于GISTIC2.0的更多内容，参见C.H.Mermel等人，Genome Biol.12,1–14(2011)，其通过引用并入本文)。在一些实施方案中，应用过滤器来去除背景噪声。在一些实施方案中，应用过滤器去除组成型或CH来源的拷贝数事件。

在各种实施方案中，将均匀分布的窗口区域和GISTIC“热点”区域的数量以及第三特征用作拷贝数模型中的特征，所述第三特征捕获与均匀窗口相比，已知在癌症(例如GISTIC)中重复拷贝数改变的区域是否存在富集。在一些实施方案中，基于体细胞CNV的检测，计算模型产生无细胞核酸测序结果包括循环肿瘤核酸序列的置信度得分。

方法500还任选地利用(507)基因组位置读数模块来确定来自无细胞核酸测序结果的具有特定基因组位置的测序读数是否源自循环肿瘤核酸分子。现在已经理解，循环肿瘤DNA的前两个和最后两个核苷酸的基因组位置不同于无非肿瘤细胞DNA的基因组位置。在各种实施方案中，无细胞DNA分子的基因组位置可用于区分循环肿瘤核酸与非肿瘤无细胞DNA。在一些实施方案中，无细胞DNA分子的第一个和最后一个核苷酸的基因组位置可用于区分循环肿瘤核酸与非肿瘤无细胞DNA。在一些实施方案中，以单碱基对分辨率区分循环肿瘤DNA的基因组位置与非肿瘤无细胞DNA的基因组位置。在一些实施方案中，测序读数的第一个和/或最后一个碱基的基因组位置得到确定和定量，揭示了具有特定基因组位置的读数的计数。在一些实施方案中，将读数的计数归一化(例如每百万次读取的计数)。

在一些实施方案中，在分类器或其它计算模型中利用测序读数的基因组位置来确定测序结果是否包含源自循环肿瘤DNA的读数。在许多这些实施方案中，使用癌症患者和对照的无细胞核酸测序结果来训练分类器或其它计算模型。关于利用无细胞分子的基因组位置来鉴定循环肿瘤核酸的更多信息，参见示例性实施方案部分中的实施例2。

方法500还任选地利用(509)多基因风险评分(PRS)模块来确定测序结果中的种系变体是否表明个体中的癌症风险。各种研究已经确定，一些种系变体在各种癌症中更常见(参见，J.Dai等人，Lancet Respir.Med.7,881-891(2019)；J.L.Weissfeld等人，JThorac.Oncol.10,1538–1545(2015)；和D.C.Qian等人，Cancer Epidemiol.BiomarkersPrev.25,1208–1215(2016)；所述参考文献的每一篇通过引用并入本文)。测序结果中特定变体的鉴定可用于计算PRS，从而提供个体发展为癌症的可能性。因此，PRS可与无细胞核酸测序分析一起使用，以进一步支持循环肿瘤核酸的鉴定。换句话说，PRS可以与计算模型结合、一起用于或者在计算模型内用于检测循环肿瘤核酸。关于如何计算PRS的更多内容，参见J.Dai，等人(2019),J.L.Weissfeld，等人(2015)和D.C.Qian，等人(2016)，如上文引用。

可以利用任何合适的测序结果来确定PRS，包括(但不限于)无细胞核酸测序、全基因组测序、外显子组测序、靶向测序和RNA测序。为了进行靶向测序，可以使用特异性靶向基因座的探针，所述基因座包含用于计算PRS的变体的位置。在一些实施方案中，对无细胞核酸分子进行靶向测序以确定PRS。

方法500还任选地利用(511)模块来鉴定无细胞核酸分子的起始和/或终止处的核酸酶基序。现在可以理解的是，cfDNA分子起始和/或终止处的序列，通常(但不是必须的)是cfDNA分子的前1-4bp和/或最后后1-4bp的序列，可以用来告知哪些特定的核酸酶消化了cfDNA片段。应当理解，所鉴定的序列可用于推断完整的核酸酶识别位点，包括从cfDNA分子上切割下来的任何序列。在一些实施方案中，可从cfDNA分子的基因组起始和/或终止位置推断出的基序的切除部分(例如1-4bp基因组相邻的序列)可用于告知哪些特定的核酸酶消化了cfDNA片段。此外，在许多情况下，各种核酸酶通常与特定的细胞和/或组织相关联。(L.Serpas，等人，Proc.Natl.Acad.Sci.U.S.A.116,641-649(2019)；和D.S.C.Han，等人，Am.J.Hum.Genet.106,202-214(2020)；所述参考文献的每一篇通过引用并入本文)。因此，在一些实施方案中，核酸酶识别位点(例如基序)用于提供cfDNA分子的细胞和/或组织来源的指示(例如指示肺细胞来源或肿瘤来源的基序)。在许多实施方案中，cfDNA基序频率可从测序结果中确定，这又可以用于计算个体患有癌症的可能性。因此，基序频率可与无细胞核酸测序分析一起使用，以进一步支持循环肿瘤核酸的鉴定。应该理解的是，核酸酶基序频率可与计算模型结合、一起用于或在计算模型内用于检测循环肿瘤核酸。

方法500在对无细胞核酸测序结果进行分类的分类器中整合(513)一个或多个模块的结果。因此，在一些实施方案中，分类器整合了来自各种模块的置信度得分，以产生无细胞核酸测序结果包括循环肿瘤核酸序列的总置信度得分。在许多实施方案中，所使用的分类器是以下之一：5-最近邻(5NN)、3NN、朴素贝叶斯、逻辑回归、决策树或其任意组合。在一些实施方案中，利用了中利用两个或更多个分类器的集成分类器。在一些实施方案中，利用了中利用三个或更多个分类器的集成分类器。在一些实施方案中，利用了其中利用四个或更多个分类器的集成分类器。在一些实施方案中，利用了其中利用五个或更多个分类器的集成分类器。在许多实施方案中，通过自举样来执行样品装袋。在一些实施方案中，利用的每个分类根据其在装袋步骤中的变化而受到惩罚。并且在一些实施方案中，产生分类器的汇总评数。评分可以以任何适当的方式相加、平均或组合。基于最终评分，无细胞核酸样品可被分类为对含有循环肿瘤核酸序列呈阳性。

在各种实施方案中，可以利用留出交叉验证(holdout cross validation)、K-fold交叉验证或留一法交叉检验(leave-one-out cross-validation)来验证计算模型。在一些实施方案中，利用验证队列来验证计算模型。

在一些实施方案中，可以修改灵敏度、特异性和曲线下面积(AUC)度量来实现所需表现。在一些情况下，可能需要更高的特异性来确保循环肿瘤核酸的稳健检测。在一些情况下，需要更高的灵敏度，使得检测限更低，从而减少错过真阳性结果的数量。因此，在各种实施方案中，特异性被设置为以下之一：70％、75％、80％、85％、90％、95％、98％、100％或其间。

虽然上文描述了用于构建单核苷酸变体模型、拷贝数变异模型、基因组位置读取模型、PRS和集成分类器的方法的具体实例，但是该方法的各种操作可以以不同的顺序进行，并且某些操作可以是任选的。例如，各种SNV、CNV或基因组位置读取模块可单独用于确定无细胞核酸样品是否含有循环肿瘤核酸序列。因此，可以根据具体应用的要求适当地使用该方法的各种操作。此外，可以利用适合给定应用要求的用于构建单核苷酸变体模型、拷贝数变异模型、基因组位置读取模型、PRS和集成分类器的多种方法中的任一种。除了本文描述的任何模型之外，还可以组合或使用用于检测个体的癌症的其它分类系统。

一些实施方案涉及利用计算模型来确定个体是否患有癌症。在许多实施方案中，确定个体是否患有癌症的方法如下：

(a)从个体提取液体或废弃活检物，

(b)对无细胞核酸和其它宿主源(例如WBC)进行测序，

(c)利用一个或多个计算模型中的测序结果来检测无细胞核酸测序结果中的循环肿瘤核酸序列。

应当理解，本文所述的任何计算模型都可以单独使用或组合使用。因此，在一些实施方案中，利用SNV模型来提供个体是否患有癌症的指示。在一些实施方案中，利用CNV模型来提供个体是否患有癌症的指示。在一些实施方案中，基因组位置读取模型被用于提供个体是否患有癌症的指示。在一些实施方案中，将各种SNV、CNV和/或基因组位置读取模型集成在分类器中，以将个体分类为患有癌症。

在各种实施方案中，利用计算模型来提供癌症的早期检测。在一些实施方案中，计算模型可以检测患有I、II或III期癌症的个体的癌症。在一些实施方案中，利用计算模型来检测癌症治疗后个体的残留癌症。

临床干预

各种实施方案涉及利用癌症检测来执行临床干预。在一些实施方案中，个体具有通过本文描述的方法筛选和处理的液体或废弃活组检物，以指示该个体患有癌症，因此要进行干预。临床干预包括临床操作和治疗。临床操作包括(但不限于)验血、医学成像、体检和肿瘤活组织检查。治疗包括(但不限于)化学疗法、放射疗法、免疫疗法、激素疗法、靶向药物疗法和医学监测。在一些实施方案中，进行诊断以确定癌症的特定分期。在一些实施方案中，个体由医学专业人员诸如医生、护士、营养师等评估和/或治疗。

用于临床干预的癌症检测

在本文所述的一些实施方案中，可以利用源自血液、血清、脑脊液、淋巴液、尿液或粪便的无细胞核酸的测序结果来检测癌症。在一些实施方案中，对另一种宿主源(例如造血细胞)进行测序，以提供对无细胞核酸的测序结果是否包括循环肿瘤核酸序列的更可靠的确定。使用造血细胞进行测序可有助于鉴定和去除混杂信号，诸如源自自然老化、克隆性造血和其它无害来源的体细胞SNV和CNV。在进行靶向测序的实施方案中，各种实施方案在杂交捕获期间利用抗氧化剂(例如次牛磺酸)。另外，一些实施方案利用计算模型(包括本文所述的那些)，基于计算模型提供的置信度得分来确定无细胞核酸的测序结果是否包括循环肿瘤核酸的序列。因此，在一些实施方案中，对无细胞核酸进行提取、加工和测序，并分析测序结果以检测癌症。该方法在提供诊断扫描的临床设置中特别有用。

用于对个体进行诊断扫描的示例性程序如下：

(a)从个体提取液体或废弃活检物，

(b)制备无细胞核酸和宿主源(例如WBC)并对其进行测序，

(c)利用一个或多个计算模型的测序结果来检测无细胞核酸测序结果中的循环肿瘤核酸序列，

(d)基于循环肿瘤核酸序列的检测进行临床干预。

在各种实施方案中，可以对任何赘生物类型进行诊断扫描，所述癌症包括(但不限于)急性淋巴母细胞性白血病(ALL)、急性髓细胞样白血病(AML)、肛门癌、星形细胞瘤、基底细胞癌、胆管癌、膀胱癌、乳腺癌、宫颈癌、慢性淋巴细胞性白血病(CLL)、慢性髓细胞性白血病(CML)、慢性骨髓增生性肿瘤、结直肠癌、子宫内膜癌、室管膜瘤、食道癌、嗅神经母细胞瘤、尤因肉瘤、输卵管癌、胆囊癌、胃癌、胃肠道类癌、毛细胞白血病、肝细胞癌、霍奇金淋巴瘤、下咽癌、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、默克尔细胞癌、间皮瘤、口腔癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、胰腺神经内分泌肿瘤、咽癌、垂体瘤、前列腺癌、直肠癌、肾细胞癌、视网膜母细胞瘤、皮肤癌、小细胞肺癌、小肠癌、颈部鳞癌、T细胞淋巴瘤、睾丸癌、胸腺瘤、甲状腺癌、子宫癌、阴道癌和血管肿瘤。

在一些实施方案中，利用诊断扫描来提供癌症的早期检测。在一些实施方案中，诊断扫描可以检测患有I、II或III期癌症的个体的癌症。在一些实施方案中，利用诊断扫描来检测癌症治疗后个体中的残留癌症。

癌症诊断和治疗

一些实施方案涉及对个体的无细胞核酸进行诊断扫描，然后基于指示癌症的扫描结果，进行进一步的临床操作和/或治疗该个体。

在一些实施方案中，可以检测许多类型的赘生物，所述赘生物包括(但不限于)急性淋巴母细胞性白血病(ALL)、急性髓细胞样白血病(AML)、肛门癌、星形细胞瘤、基底细胞癌、胆管癌、膀胱癌、乳腺癌、宫颈癌、慢性淋巴细胞性白血病(CLL)、慢性髓细胞性白血病(CML)、慢性骨髓增生性肿瘤、结直肠癌、子宫内膜癌、室管膜瘤、食道癌、嗅神经母细胞瘤、尤因肉瘤、输卵管癌、胆囊癌、胃癌、胃肠道类癌、毛细胞白血病、肝细胞癌、霍奇金淋巴瘤、下咽癌、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、默克尔细胞癌、间皮瘤、口腔癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、胰腺神经内分泌肿瘤、咽癌、垂体瘤、前列腺癌、直肠癌、肾细胞癌、视网膜母细胞瘤、皮肤癌、小细胞肺癌、小肠癌、颈部鳞癌、T细胞淋巴瘤、睾丸癌、胸腺瘤、甲状腺癌、子宫癌、阴道癌和血管肿瘤。

在一些实施方案中，一旦指示了赘生物生长的诊断，可以进行一些后随访断程序，包括(但不限于)体检、医学成像、乳房x线照相术、内窥镜检查、粪便取样、巴氏检查(paptest)、甲胎蛋白血液检查、CA-125检查、前列腺特异性抗原(PSA)检查、活检物提取、骨髓抽吸和肿瘤标志物检测测试。医学成像包括(但不限于)X射线、磁共振成像(MRI)、计算机断层扫描(CT)、超声波和正电子发射断层扫描(PET)。内窥镜检查包括(但不限于)支气管镜检查、结肠镜检查、阴道镜检查、膀胱镜检查、食管镜检查、胃镜检查、腹腔镜检查、神经内窥镜检查、直肠镜检查和乙状结肠镜检查。

在一些实施方案中，一旦诊断出赘生物生长，可以进行一些治疗，包括(但不限于)手术、化学疗法、放射疗法、免疫疗法、靶向疗法、激素疗法、干细胞移植和输血。在一些实施方案中，施用抗癌剂和/或化学治疗剂，包括(但不限于)烷化剂、铂剂、紫杉烷类、长春花碱剂、抗雌激素药物、芳香酶抑制剂、卵巢抑制剂、内分泌/激素剂、双膦酸盐治疗剂和靶向生物治疗剂。药物包括(但不限于)环磷酰胺、氟尿嘧啶(或5-氟尿嘧啶或5-FU)、甲氨蝶呤、噻替派、卡铂、顺铂、紫杉烷类、紫杉醇、蛋白结合的紫杉醇、多西他赛、长春瑞滨、他莫昔芬、雷洛昔芬、托瑞米芬、氟维司群、吉西他滨、伊立替康、伊沙匹隆、替莫唑胺、拓扑替康、长春新碱、长春碱、艾立布林、突变霉素、卡培他滨、卡培他滨、阿那曲唑、依西美坦、来曲唑、亮丙瑞林、阿巴瑞林、布塞林(buserlin)、戈舍瑞林、醋酸甲地孕酮、利塞膦酸盐、帕米膦酸盐、伊班膦酸盐、阿曲膦酸盐、唑来膦酸盐、泰克泊、柔红霉素、多柔比星、表柔比星、伊达比星、戊柔比星米托蒽醌、贝伐单抗、西妥昔单抗、伊匹木单抗、阿多-曲妥珠单抗-埃姆坦辛、阿法替尼、阿地白介素、艾乐替尼(alectinib)、阿仑单抗、阿替利珠单抗、阿维鲁单抗、阿昔替尼、贝利木单抗、贝林司他、贝伐珠单抗、博纳吐单抗、硼替佐米、波舒替尼、维布妥昔单抗、vedoitn、briatinib、卡博替尼、卡那奴单抗、卡非佐米、certinib、西妥昔单抗、考比替尼、克唑替尼、达拉非尼、达雷木单抗、达沙替尼、地诺单抗、地努妥昔单抗、度伐利尤单抗、依洛珠单抗、恩西地平、埃罗替尼、依维莫司、吉非替尼、替伊莫单抗(ibritumomab tiuxetan)、伊布替尼、伊德拉利西布(idelalisib)、伊马替尼、伊匹木单抗、伊沙佐米、拉帕替尼、乐伐替尼(lenvatinib)、米哚妥林、耐昔妥珠单抗、奈拉替尼、尼洛替尼、尼拉帕尼、纳武单抗、奥比妥珠单抗、奥法木单抗、奥拉帕利、loaratumab、奥希替尼、帕博西尼、帕尼单抗、帕比司他、帕博利珠单抗、培妥珠单抗、泊那替尼、雷莫芦单抗、瑞格非尼、瑞博西尼、利妥昔单抗、罗米地新、卢卡帕利、芦可替尼、司妥昔单抗、sipuleucel-T、sonidebib、索拉非尼、坦西莫司、托珠单抗、托法替尼、托西莫单抗、曲美替尼、曲妥珠单抗、凡德他尼、威罗菲尼、维奈托克(venetoclax)、维莫德吉(vismodegib)、伏立诺他和ziv-阿柏西普。在一些实施方案中，可通过本文所述的单一药物或药物组合来治疗个体。一种常见的治疗组合是环磷酰胺、甲氨蝶呤和5-氟尿嘧啶(CMF)。

许多实施方案涉及在个体的癌症治疗期间执行的诊断或伴随诊断扫描。当在治疗期间进行诊断扫描时，可以监测剂治疗赘生物生长的能力。大多数抗癌治疗剂导致瘤形成细胞死亡和坏死，这可能会从这些细胞中释放更大量的核酸到被测试的样品中。因此，可以随着时间的推移监测循环肿瘤核酸的水平，因为该水平可能在治疗期间升高，并随着瘤形成细胞数量的减少而开始降低。在一些实施方案中，基于对瘤形成细胞的治疗效果来调整治疗。例如，如果治疗对瘤形成细胞没有细胞毒性，则可以增加剂量量或可以施用具有更高细胞毒性的剂。或者，如果瘤形成细胞的细胞毒性好，但不希望的副作用高，则可以减少剂量量或可施用副作用较少的剂。

各种实施方案还涉及在个体治疗后进行的诊断扫描，以检测残余疾病和/或赘生物生长的复发。如果诊断扫描显示赘生物生长的残留和/或复发，则可如本文所述进行进一步的诊断测试和/或治疗。如果赘生物生长和/或个体易复发，则可频繁进行诊断扫描以监测任何潜在的复发。

实施例

通过其中提供的几个实施例可以更好地理解本公开的实施方案。描述了无细胞核酸测序工具和方法的许多示例性结果。还提供了诊断学(尤其是对于非小细胞肺癌(NLCLC))的描述。

实施例1：整合基因组特征用于无创早期肺癌检测

肺癌是癌症死亡的主要原因，并且大多数患者被诊断患有通常不可治愈的转移性疾病。然而，很大一部分患有局部疾病(I-III期)的患者是可以治愈的，这说明了早期检测的效用。事实上，通过低剂量计算机断层扫描(LDCT)筛查高风险成年人可以降低肺癌相关死亡率，因此，建议对高风险人群进行年度放射学筛查。尽管LDCT筛查有效，但其临床实用性因高假发现率(>90％)和低依从性而变得复杂，目前在美国只有不到5％的合格个体接受筛查。多种因素导致了这种低采用率，包括获得合格的放射中心的限制和患者的不便。因此，对于改进高危个体中早期可切除肺癌的早期检测的新方法存在未满足的需求。

可基于cfDNA分析检测肿瘤来源的体细胞变化的无创验血由于相对容易获得血液样本而成为癌症筛查应用的有吸引力的候选。然而，目前临床使用的cfDNA测定旨在用于晚期疾病患者的无创基因分型，在所述晚期疾病患者中ctDNA水平明显高于早期肿瘤患者。另外，一些检查局部非小细胞肺癌(NSCLC)患者的ctDNA的研究可使用其中肿瘤组织必须首先进行基因分型的肿瘤知情方法。虽然这种方法最大限度地提高了灵敏度，但其可能对筛查没有用处。最后，克隆性造血(CH),包括获得非恶性造血祖细胞的体细胞改变，并产生突变的无细胞DNA片段，使ctDNA用于早期癌症检测变得复杂。

本实施例描述了通过深度测序(CAPP-seq)对癌症个体化谱分析的方法学增强，其促进早期癌症中ctDNA的检测或治疗后残余癌症的检测(关于CAPP-Seq的更多内容，参见A.M.NewmanNat.Biotechnol.34,547-555(2016)，其通过引用并入本文)。将改进的方法应用于来自早期NSCLC患者的血浆和肿瘤样品，最初采用肿瘤知情策略来确定其肿瘤流出可检测的ctDNA的患者比例。该方法被扩展到早期检测，使用肿瘤初始方法(tumor-

approach)筛查肺癌患者和肺癌高危对照的血浆样品。发现来自病例和对照的cfDNA均含有循环体细胞变体，其中大部分可归因于CH。重要的是，鉴定了关键的分子特征，包括突变特征和区分CH变体与肿瘤衍生突变的片段长度特征。最后，这些发现被用于开发并独立验证用于无创早期肺癌检测的血浆中肺癌可能性(肺-CLiP)测定。

改进对极其罕见的循环变体的检测

已经证明，局部肺癌中的ctDNA水平较低，大多数I期疾病患者的循环变体等位基因频率(VAF)水平低于约0.1％。为了提高这种低等位基因水平的检测灵敏度，开发了一些方法来最大化独特的、成功测序的cfDNA分子的产量，同时最小化它们的相关测序错误分布，并对所述方法进行了测试(图7)。

通过将防止样品交叉污染的双指数纠错样品条形码与使得能够更准确计数独特cfDNA分子的纠错双链体分子条形码(例如独特标识符或‘UID’)相结合，开发了用于文库制备的新衔接子方案。此外，UID和样品条形码的解耦允许基于应用对UID多样性和复用容量(multiplexing capacity)进行独立定制(图2和图3)。

使用这些定制的衔接子，我们然后寻求鉴定与独特cfDNA分子的最大损失相关的关键操作。为此，在CAPP-Seq分子生物学工作流程的计算机模拟中，从文库制备开始到其最终测序，对cfDNA片段的单链进行跟踪(图8和图9)。模拟预测，最大的损失发生在杂交捕获操作中，这是由于通常仅将每个扩增测序文库的一小部分输入到杂交反应中用于靶标富集而导致的。这种效应是由于PCR后原始分子的不均匀表现而产生的。许多杂交捕获测序方法在捕获操作中复用(multiplex)样品(例如在单个反应中一起捕获许多样品)，这可能导致每个文库总量的一小部分被捕获。例如，如果每个测序文库有2,000ng，并且要将20个样品复用到单个1,000ng捕获反应中，则每个单独的测序文库只有2.5％(50ng)被输入到捕获反应中。增加输入到反应中的文库的比例提高了分子回收率。例如，将测序文库输入的比例从8.3％增加到100％显著提高了全部独特分子的回收率和两条链都被测序的来源cfDNA双链体的比例(图10到图12)。值得注意的是，将测序文库的输入百分比从8.3％增加到25％实现了独特分子回收的最大可能收益，输入50％或更多提高了两条链都被测序的原始cfDNA双链体的比例。此外，测序文库输入与捕获诱饵(例如用于富集感兴趣基因组区域的生物素化寡核苷酸)的比率也影响捕获反应后的分子回收率。

另外，还寻求进一步改善CAPP-Seq的技术误差分布。在CAPP-Seq和其它基于杂交捕获的测序方法中观察到的最常见的测序伪影是G>T颠换，这是由于在杂交捕获反应期间发生的氧化损伤引起的，并导致8-氧代鸟嘌呤的产生(参见A.M.Newman，等人，Nat.Biotechnol.(2016年)，上文引用的；和M.Costelleo，等人，Nucleic Acids Res.41,1-12(2013)，其通过引用并入本文)。有趣的是，G>T颠换也是肺癌中最常见的碱基取代，是由于暴露于香烟烟雾中的致癌物而在体内产生的(图4A-图4B)。因此，在杂交捕获期间来自体外氧化的G>T颠换可以模拟和混淆真正的肺癌来源的突变的检测。假设添加活性氧种类(ROS)的清除剂将减少氧化损伤导致的G>T伪影(图4A-图4B)。在测试了几种抗氧化剂和自由基清除剂后，次牛磺酸(一种亚磺酸)被鉴定为有利的候选物。次牛磺酸是半胱氨酸至牛磺酸途径的天然中间产物，具有抗ROS的非酶促保护作用。当我们比较用和未用次牛磺酸捕获的来自12名健康成人的cfDNA样品的错误分布时，发现用ROS清除剂捕获的样品具有显著更低的背景错误率和更少的G>T错误(Wilcoxon秩和检验P<0.001，图13)。相较于未用次牛磺酸捕获的69个对照cfDNA样品，在用ROS清除剂捕获的104个健康对照cfDNA样品中观察到G>T错误(16％对比57％的所有错误，Wilcoxon秩和检验，P<1x10^-8)和背景错误率(大约50％的减少，Wilcoxon秩和检验，P<0.0001)的相似相对减少(图14)。

肿瘤知情ctDNA检测

作为开发无创非小细胞肺癌筛查方法的一个步骤，使用肿瘤知情方法测定了早期肿瘤患者的ctDNA检出率。该策略为基于CAPP-Seq的肿瘤初筛方法建立了最大的灵敏度(图15)。使用355千碱基(kb)的CAPP-Seq小组，通过对肺癌中复发突变的255个基因进行靶向深度测序，对85名I-III期NSCLC患者的肿瘤组织、治疗前血浆cfDNA和白细胞DNA进行了基因分型(图16，表1)。使用这种“基于群体”的方法(例如不需要患者特异性分子生物学定制)的小组，在肿瘤样本(范围为0-35)中每个患者被鉴定出为4个突变的中值，并且在49％(42/85)的NSCLC患者中检测到ctDNA，特异性为95％。随着监测的肿瘤突变数量增加，检测的灵敏度显著更高(图17)。为了经验性地检验跟踪更多突变提高总体ctDNA检测率的观察结果，基于17名患者的肿瘤外显子组测序数据设计了定制的捕获小组，所述患者最初使用基于群体的肺癌小组不能检测到ctDNA。这种定制方法将可用于监测的突变数量从为4的中位数增加至68(配对双侧t检验，P<0.01)。使用这些定制的测定，在11/17(65％)患者中检测到ctDNA，中位VAF为0.0019％，水平低至10⁶个分子中1.5个(图18)。

结合基于群体(n＝68)和定制(n＝17)的肿瘤知情策略的结果，在大多数早期NSCLC患者(包括分别为52％、67％和88％的I、II和III期患者)(53/85或62％)中检测到ctDNA(图19)。在肿瘤知情方法中，可根据追踪的突变数量和测序的cfDNA分子数量来确定患者特异性分析检测限(limit of detection,LOD)。在检测不到ctDNA的患者中，LOD显著较低(Wilcoxon秩和检验，P<0.001，图19)，表明可检测ctDNA的总比率可以通过增加突变数量或独特的分子深度来提高。事实上，当仅考虑可达到至少0.01％的LOD的患者(n＝43)时，对于I期、II期和III期肿瘤，灵敏度分别增加到73％、82％和100％(图19)。引人注目的是，分别为48％、38％和7％的I期、II期和III期患者的ctDNA水平低于0.01％(图19)。因此，大多数局部化NSCLC产生ctDNA，但许多I-III期病例的ctDNA水平相对较低。

鉴定了ctDNA分子的特性，这可以有助于肿瘤初筛。克隆性肿瘤突变(定义为估计在所有肿瘤细胞中均匀存在的那些变体)在血浆中被更频繁地检测到，并以比它们的亚克隆性对应物更高的等位基因频率被观察到(Fisher精确检验P<0.05，Wilcoxon秩和检验P<0.001，图20)。

cfDNA片段的大小分布也被认为是富集肿瘤来源的cfDNA分子(例如ctDNA)的潜在手段。发现在匹配的肿瘤样品中存在的包含突变的cfDNA分子比它们的非突变对应物显著更短(Wilcoxon秩和检验P<1x10^-8，图21)。在亚单核体小体片段(＜160bp)和亚二体片段(230-310bp，图21)中富集突变cfDNA分子。当仅考虑<160bp和230bp与310bp之间的分子时，观察到肿瘤来源突变的VAF有2.7倍的中值富集(范围为0-9.2，图21)。发现53.6％的突变分子落在这些区域中，相比之下，24.7％的非突变分子落在这些区域中(图21)，表明在这些窗口中分子的大小选择可能被证明是有用的。然而，尽管大多数突变(74％，271/366)在这些大小窗口中富集，但26％的突变(95/366)在大小选择后VAF下降，其中78％的此类突变(75/95)变得不可检测(图22)。此外，通过大小选择进行的ctDNA富集不成比例地倾向于具有较高预富集VAF的变体(图22)。有趣的是，虽然大小选择提高了通过定制小组追踪的具有许多突变的患者的ctDNA检测的总体灵敏度，但在我们基于群体的肺癌小组中监测的患者中灵敏度下降，这是因为肿瘤突变的缺失没有在任何短cfDNA分子上表现出来(图23)。这表明即使NSCLC来源的cfDNA分子倾向于比非突变cfDNA分子更短，除非考虑到许多突变，否则大小选择会妨碍低VAF下的ctDNA检测。

值得注意的是，实际测量的ctDNA片段大小可取决于方法测序制备和/或分析数据。使用本文所述的方法(例如在本实施例中)，发现亚单核体ctDNA片段小于160bp，并且发现亚二体ctDNA片段为230bp至310bp(见图21)。一般来说，富集的ctDNA片段在大小上比非瘤形成cfDNA片段相对较短，并且此处指定的区域不应被解释为ctDNA富集的独特大小窗口。例如，小于150bp的分子也富含ctDNA。另外，分析方法的可变性会影响发现哪些特定区域富含ctDNA。可影响经发现富含ctDNA的cfDNA分子的特定大小的因素包括(但不限于)：1)所用的作图算法，2)从数据中去除PCR副本的方式，3)从测序读数的3’端修剪衔接子通读的方式，4)考虑测序数据的量(例如仅考虑两个测序读数都以正确对作图的cfDNA分子)，5)作图质量或与测序数据相关的其它质量度量可用于确定什么cfDNA分子被考虑。

ctDNA检测的临床相关性

已经在大多数早期NSCLC患者中观察到可检测的ctDNA，接下来寻求鉴定这些患者中ctDNA水平的临床和病理学相关性。发现ctDNA水平与进展期密切相关，I期疾病的中位VAF为0.015％，II期疾病为0.14％，III期疾病为0.52％(Wilcoxon秩和检验，P<0.0001，图24)。如通过[18F]FDG PET/CT(斯皮尔曼r＝0.40，P＝0.004，图25和图26)和利用非腺癌组织学(Wilcoxon秩和检验，P<0.01，图27)所测量的，发现ctDNA水平与代谢肿瘤体积(MTV)之间存在显著相关性。在多变量分析中，分期、MTV和非腺癌组织学各自独立地与ctDNA负荷相关(图27)，表明ctDNA水平是多个生物学参数的函数。

肺腺癌以从侵入前到侵入性明显的上皮增殖的范围存在，所述范围与从纯毛玻璃不透明性(GGO)到实体病变的放射学外观的差异相关。由于GGO主导的肺癌生长缓慢，临床上通常不活跃，因此假设它们比实体瘤流出的ctDNA少。在具有主要毛玻璃成分(≥25％GGO)的患者中，与具有<25％GGO的患者相比，检测到ctDNA的频率较低且浓度较低(Fisher精确检验P<0.05，Wilcoxon秩和检验P<0.05，图28)。类似地，当在腺癌组织学亚型之间比较ctDNA水平时，具有实体瘤和乳头状瘤的患者的ctDNA水平比具有腺泡瘤或鳞屑瘤的患者的ctDNA水平高，尽管这种关系没有达到统计学显著性(图29)。另外，在其肿瘤有坏死迹象或接触中央气道或动脉的患者中，可更经常地检测到ctDNA(图30)。因此，NSCLC的解剖学和放射学特征与ctDNA流出相关联，并且可能有助于确定最适合无创性分析的患者。

考虑到ctDNA流出与已知与疾病侵袭性相关的成像参数之间的相关性，研究了治疗前ctDNA水平与临床结果的相关性。具有高于中位ctDNA水平的患者的无复发率(风险比＝3.88，P＝0.0009，图31)和无复发存活率(风险比＝3.51，P＝0.001，图32)显著较低。当仅考虑I期疾病患者时，治疗前ctDNA水平具有类似的预后(n＝48，图33和图34)。重要的是，在包括MTV和分期两者的多变量分析中，只有ctDNA与结果显著相关(图35)。由于远处转移是局部NSCLC治疗后癌症相关死亡率的主要原因，因此也研究了治疗前ctDNA水平与未来转移的关联性。在单变量和多变量分析中，较高的ctDNA浓度与较低的无远处转移显著相关(图35至图37)。因此，治疗前ctDNA浓度是NSCLC的预后因子，其可鉴定患有微转移性疾病的患者(图38)。

cfDNA体细胞变体的来源

克隆性造血(CH)由非恶性造血祖细胞的体细胞改变引起，是与衰老相关的常见生物学现象。造血细胞是cfDNA的主要来源，并为cfDNA库提供体细胞CH变体，在局限性NSCLC患者和非癌症对照中对CH进行了表征，以鉴定区分CH来源的突变与肿瘤来源突变的潜在方法。

检查最初在cfDNA中发现的变体，以确定它们是否也在NSCLC患者(n＝104)和对照受试者(n＝98)的匹配的白细胞(WBC)DNA中被检测到。使用了两个独立的对照组：(1)接受年度LDCT筛查的年龄、性别和吸烟状况匹配的成人(“风险匹配的对照”)，和(2)不匹配的成年献血者(“低风险对照”，图16)。平均而言，与风险匹配的对照和低风险对照相比，NSCLC患者在cfDNA中包含显著更多的非同义突变(Wilcoxon秩和检验，P<0.01和P<0.0001，图39)。类似地，与两个对照组相比，来自肺癌患者的cfDNA包含更多在匹配的白细胞(例如“WBC-”)中不存在的变体。有趣的是，与NSCLC患者相似，风险匹配的对照比低风险对照具有更多的cfDNA总突变和更多的CH变体(例如“WBC+”)(Wilcoxon秩和检验，P<0.0001)。这一观察强调了风险匹配病例和对照在基于cfDNA的早期检测研究中的重要性。值得注意的是，在肺癌患者(58％)、风险匹配的对照(93％)和低风险对照(77％)中，大多数检测到的cfDNA中的变体可归因于CH。此外，在cfDNA中最高VAF处观察到的突变也存在于76％的患者和91％的对照的匹配的WBC中(图40)。48％的WBC+cfDNA突变存在于除了与CH典型相关的12个最反复突变的基因之外的其它基因中(图41)。此外，94.8％的WBC+cfDNA突变是专有的(图41)，突出了对匹配的白细胞进行基因分型以可靠地确定cfDNA突变是否是CH来源的重要性。

在NSCLC患者和对照组中观察到相似的CH变体率，无论是直接从WBC还是从cfDNA鉴定突变(图42)。在细胞区室和无细胞区室中观察到的突变的等位基因比例显著相关(皮尔逊r＝0.83，P<1x10-⁸，图42)。在cfDNA或WBC中最初鉴定的1,017个突变中，57％在两个区室中都被发现，而25％仅在cfDNA中被观察到，18％仅在WBC中被观察到。重要的是，73％的WBC+cfDNA变体在白细胞中的VAF低于1％，这突出了对白细胞DNA和cfDNA进行同等深度测序以确定cfDNA突变是否源于CH的重要性。

在没有血液赘生物的个体中、在WBC DNA中以≥2％的VAF发生的与白血病相关的基因中的CH突变的检测通常被称为意义不明的克隆性造血(clonal hematopoiesis ofindeterminate potential，CHIP)。在13.5％(14/104)的肺癌病例、7.1％(4/56)的风险匹配的对照的WBC中观察到一个或多个此类突变，但在(0/42)低风险对照组中观察到所述突变。正如所预期的，患有CHIP的个体明显比没有CHIP证据的个体年龄大(Wilcoxon秩和检验，P＝0.011)。有趣的是，与我们队列中大多数CH变体具有专有性和低等位基因比例的趋势不同，在WBC中以≥2％的VAF发生的变体的77％(20/26)影响典型CH基因，其中DNMT3A、TET2和TP53最常受到影响(图43)。

由于已知CHIP的发生率随着年龄的增长而增加，因此检查了与年龄相关的WBC+cfDNA突变的数量。WBC+cfDNA突变的数量，而不是WBC-cfDNA突变的数量，与年龄显著相关(皮尔逊r＝0.43，P<1x10^-8，图44和图45)。与这些突变构成CH事件的概念一致，最常包含WBC+突变的基因是典型CH基因，包括DNMT3A、TET2、TP53、SF3B1和PPM1D(图46)。

为了检查WBC+cfDNA突变的时间变化，考虑了在两个时间点抽取血浆样品的队列的亚组(8名NSCLC患者，抽血的中间间隔＝12天；5个风险匹配的对照，中位间隔＝19个月)。在第一采血时间点检测到的WBC+cfDNA突变中，73％(41/56)也在第二时间点被检测到，并与VAF高度相关(对于患者，皮尔逊r＝0.99，P<0.0001；对于对照，皮尔逊r＝0.74，P＝0.02，图47)。类似地，当考虑所有患者和对照中的所有WBC+cfDNA突变时，典型CH基因具有比同义变体更高的非同义突变率(图46)，与正选择下的这些突变一致。这些观察结果与在研究随时间推移CH克隆在WBC中的等位基因水平时CH克隆的相对稳定性一致。

为了鉴定可用于将它们与肿瘤来源的突变区分开来的CH突变的特性，将WBC+和WBC-cfDNA突变的突变特征进行比较和对比，以及与来自CH和肺癌文献的先前公布的突变数据集进行比较和对比。在病例和对照中在cfDNA中检测到的WBC+突变受衰老相关的突变特征支配(特征1，图48和图49)。值得注意的是，特征4与吸烟相关，并且是NSCLC肿瘤基因组的主要突变特征，在NSCLC患者的WBC-中而非WBC+cfDNA突变中被观察到(P<0.001)，并且在有或无吸烟史的对照中的任一种区室中都未被观察到(P<0.001)。这与先前的观察结果一致，即不同的DNA损伤模式因暴露于不同致癌剂而导致，并表明除了测序匹配的WBC之外，cfDNA变体的碱基取代谱可用于区分癌源性突变与CH来源的突变。

TP53是人癌症中最常见的突变基因；然而，TP53突变在CH中也很常见。因此，区分癌源性TP53和CH来源的TP53突变是基于cfDNA的癌症筛查方法的重要考虑因素。值得注意的是，在cfDNA中发现的大部分TP53变体在白细胞中也可检测到，无论是考虑肺癌病例(40.6％；32个中的13个)还是所有对照(100％；4个中的4个，Fisher精确检验P<0.05，图46)。WBC+和WBC-cfDNA突变在TP53蛋白中的分布相似，两类突变主要影响其DNA结合结构域(图50)。与全局特征分析的结果一致，WBC-TP53 cfDNA突变显示出比它们的WBC+对应物显著更强的吸烟特征证据(Wilcoxon秩和检验，P<0.01，图51)。

检测了匹配的白细胞或匹配的肿瘤活检物中含有变体的cfDNA分子的片段大小分布。发现携带WBC+突变的cfDNA分子(例如“CH突变”)显示了与跨越相同基因组位置的非突变cfDNA分子几乎相同的大小分布(图51)。相比之下，在匹配的肿瘤活检样本中也存在的具有突变的cfDNA分子(例如“肿瘤裁定的突变”)显示出变化的大小分布，其中肿瘤裁定的变体明显更短(Wilcoxon秩和检验，P<1x10^-8，图51)。因此，在我们的肿瘤知情分析中发现为ctDNA富集的片段大小的计算机选择(<160bp或230-310bp，图21)没有增加NSCLC患者或对照的cfDNA中WBC+CH变体的VAF(患者和对照中的中位富集分别为0.94和0.91，图51)。相比之下，NSCLC患者中WBC-突变的VAF随着大小选择而显著富集，而对照中没有(Wilcoxon秩和检验P<0.001，患者和对照中的中位富集分别为1.99和0.51)。这表明除了碱基取代的类型以外，cfDNA片段大小也可用于区分癌源性突变与CH来源的突变。

估计血浆中肺癌可能性的方法

在已经鉴定了区分肿瘤来源的和CH来源的cfDNA片段的特性后，开发了血浆中肺癌可能性(Lung Cancer Likelihood in Plasma，肺-CLiP)测定。利用概率方法来在不使用肿瘤变异的先验知识的情况下估计血浆样品含有肿瘤来源的cfDNA的可能性。这种方法涉及血浆cfDNA和匹配的白细胞的深度测序，并整合了SNV和全基因组拷贝数分析。使用来自在4个癌症中心进行年度肺癌放射筛查的104名肺癌患者和56名高危对照的发现队列的样品来训练肺-CLiP测定(图35，表4)。为了开发该测定法，采用了多层机器学习方法，其中首先训练模型来估计给定cfDNA SNV是肿瘤来源的概率。SNV模型利用了特异于每个个体变体的关键生物学和技术特征，包括背景频率、cfDNA片段大小、吸烟特征贡献、在NSCLC中频繁突变的基因中的存在和CH可能性(图52，关于模型特征参见图6)。另外，为了鉴定拷贝数变异(CNV),基因组被分箱到5兆碱基(MB)区域中，来自CAPP-Seq的中靶和脱靶测序读数被用于鉴定全基因组拷贝数改变。将SNV模型的结果与全基因组拷贝数改变(通过分析中靶和脱靶测序读数生成的)整合在最终的患者水平概率分类器中，所述分类器估计给定的血液样品包含肺癌来源的cfDNA的可能性(例如“CLiP评分”)(表4)。

接受者-操作者特征曲线形状揭示了肺-CLiP可以根据目标临床应用被容易地调整到所需的特异性(图53)。例如，作为独立的筛查测试，高特异性将是使假阳性减少至最少所期望的。在98％的特异性下，肺-CLiP灵敏度在I期患者中为41％，II期患者中为54％，III期患者中为67％(图54)。或者，如果将该测定应用于约95％的处于危险中的个体，则较低的特异性可以是可接受的，所述个体目前由于接触限制或其它障碍而没有经历LDCT。在这种情况下，将测定调整到较低的特异性(例如80％，这与NLST试验中LDCT的特异性相似)将是合理的，因为阳性试验的反射测试将是LDCT。在80％的特异性下，我们观察到I期患者的灵敏度为63％，II期患者为69％，III期患者为75％(图54)。在患者cfDNA中反复鉴定出突变的基因包括预期的NSCLC驱动因子，诸如TP53、KRAS和EGFR(图55)。对患者分类影响最大的分类器特征包括SNV VAF水平、cfDNA片段大小、检测到的SNV数量、检测到的CNV数量以及先前是否在肺癌中观察到改变(图55)。

将肺-CLiP评分与肿瘤知情ctDNA水平和临床病理特征进行比较。重要的是，98％的特异性的灵敏度与使用肿瘤知情ctDNA分析观察到的灵敏度没有显著差异(图56)，表明肺-CLiP实现了与肿瘤知情ctDNA检测相似的灵敏度。此外，发现肿瘤初始肺-CLiP评分(tumor-

Lung-CLiP score)与肿瘤知情ctDNA水平显著相关(皮尔逊r＝0.59，P<0.0001，图56)。正如所预料的，被肺-CLiP分类为阳性的NSCLC患者的肿瘤明显大于被分类为阴性的那些(Wilcoxon秩和检验，P<0.01，图57)，并且类似地，具有非腺癌组织学的患者被更频繁地检测到(Fisher精确检验，P<0.01，图57)。综上所述，这些数据表明肺-CLiP评分捕获了与总体ctDNA负荷相关的生物学上有意义的因素。

最后，肺-CLiP测定的表现在46名NSCLC患者的独立队列(n＝32期；n＝9第二阶段；n＝5期)和48名肯的LDCT扫描阴性的风险匹配的对照中得到验证，所述风险匹配的对照在不同的机构进行了前瞻性登记(图35和图58；表4)。在独立的临床试验点进行验证队列的前瞻性登记是研究设计的关键方面，因为其代表了一个严格的测定测试，并降低了报告过于乐观结果的风险。验证队列中模型的分期匹配的表现与通过AUC(图53和59)和灵敏度度量(图59)在训练中观察到的表现在统计上相似，其中I期表现的数值差异可归因于验证队列中IA期对比IB期病例的较大比例(图59)。此外，当应用于验证队列中的对照时，在训练队列中设置的特异性阈值表现相似，表明肺-CLiP评分被很好地校准(图60)。

最后，对组合的训练和验证队列进行了若干探索性分析。首先，检查测序深度或相关度量对灵敏度的影响。发现cfDNA输入、血浆体积输入和独特的测序深度与肺-CLiP的灵敏度无显著相关性(图61)。然而，考虑到所有具有可用MTV数据的NSCLC患者(n＝103)，观察到MTV与肺-CLiP的灵敏度之间有很强的相关性，其中对于1mL肿瘤、10mL肿瘤和>100mL的肿瘤，灵敏度分别约为16％(95％CI:4％-24％)、52％(95％CI：32％-72％)和80％(95％CI：60％-96％)(图62)。

研究设计和患者

本研究中分析的所有生物样本都是在知情同意的情况下从其各自中心(包括斯坦福大学、MD安德森癌症中心、梅奥诊所、范德比尔特大学医学中心和马萨诸塞州总医院)的机构审查委员会批准的方案中登记的受试者中收集的。所有患者都被去鉴定，患有AJCC v7I-III NSCLC期，接受手术或放射疗法的治愈性治疗。

这项研究由两个队列(发现队列和验证队列)组成。图35中提供了两个队列中患者的临床特征。发现队列由两组患者组成：(1)肿瘤知情NSCLC患者和(2)肺-CLiP训练NSCLC病例。这两组由2009年11月至2018年7月期间在斯坦福大学(n＝80)、范德比尔特大学(n＝21)、梅奥诊所(n＝14)和MD安德森癌症中心(n＝7)登记的肺癌患者组成。肿瘤知情NSCLC病例由85名具有可用的匹配的肿瘤组织的患者组成，其中大部分(67/85)用图7中描述的改进的CAPP-Seq工作流程的所有方面进行分析。肺-CLiP训练组仅限于使用改进的工作流程进行分析并被研究用于肿瘤初始分析的患者(n＝104)，用作肺-CLiP分类器的训练组。在104例肺-CLiP训练NSCLC病例中，67例与肿瘤知情组的85名患者重叠。在对无创分类器进行初始训练后，独立验证队列(46例肺癌病例)中的NSCLC患者于2018年1月至12月期间在马萨诸塞州总医院(MGH)进行了前瞻性登记。

发现队列由两个独立的对照组组成(图35)。第一组由42名风险不匹配的成年献血者组成(“低风险对照组”)。第二组由56名年龄、性别和吸烟状况匹配的成人组成(“风险匹配的对照组”)，他们在斯坦福大学进行了针对肺癌筛查的阴性低剂量计算机断层扫描(LDCT)，并用作肺-CLiP分类器的训练组。验证队列包含第三对照组，由48名在马萨诸塞州总医院接受LDCT筛查的风险匹配的成人组成，他们于2018年1月至12月期间被前瞻性招募。该对照组仅被考虑用于肺-CLiP模型的验证。

血液采集和处理

在4℃下储存后，立即或在4小时内处理在K₂EDTA管中收集的全血。在72小时内处理在无细胞DNA BCT(STRECK)管中收集的全血。在室温下，将K2EDTA管以1,800x g离心10分钟，将STRECK管以1,600x g离心10分钟。离心后，将血浆以1.8ml的等份于-80℃下储存，直至cfDNA分离。在-80℃下储存去血浆的全血，用于从白细胞中分离DNA。

根据制造商的说明，使用QIAamp Circulating Nucleic Acid试剂盒(Qiagen)从2至16mL血浆(中值为3.6mL)中提取无细胞DNA。分离后，使用Qubit dsDNA HighSensitivity试剂盒(Thermo Fisher Scientific)和高灵敏度NGS片段分析仪(Agilent)对cfDNA进行定量。使用Qiagen DNeasy Blood and Tissue试剂盒从匹配的去血浆全血(例如“WBC”或“白细胞”)中提取基因组DNA(gDNA)，使用Qubit dsDNA High Sensitivity试剂盒进行定量，并使用Covaris S2超声仪片段化至170bp的目标大小。超声处理后，使用QIAquick PCR Purification试剂盒(Qiagen)纯化片段化的gDNA。对于cfDNA，将38ng(8-85ng)的中值输入文库制备中。对DNA输入进行缩放以控制高分子量DNA污染，基于片段分析仪数据(当可用时),靶向输入40ng在50-450bp大小范围内的cfDNA。对于来自白细胞的gDNA，将≤100ng的片段化gDNA输入文库制备中。

与验证队列的预期收集相关的后勤考虑要求使用STRECK血液收集管，而K₂EDTA收集管用于训练队列。研究设计防止此类分析前变量驱动病例对比对照的分类，因为验证队列中的所有样品(例如病例和对照)都收集在STRECK管中。然而，为了证实收集管的类型不会混淆肺-CLiP模型，在K₂EDTA和STRECK管中从三名健康供体收集血液，并比较关键度量，包括肺-CLiP分类、cfDNA突变一致性、片段大小、cfDNA浓度、分子回收和错误分布，发现这些度量都不受所用收集管类型显著影响(图63至图65)。

肿瘤组织的收集和处理

根据制造商的说明，使用Qiagen DNeasy Blood and Tissue试剂盒从冷冻活检样品中提取肿瘤DNA，或使用Qiagen AllPrep DNA/RNA FFPE试剂盒从FFPE活检样品中提取肿瘤DNA。提取后，以与来自去血浆全血的gDNA相同的方式对DNA进行定量和片段化，并将≤100ng的剪切的DNA输入文库制备中。

文库的制备和测序

开发了新的衔接子方案，灵活纠错双链体衔接子(“FLEX衔接子”)，其将衔接子的包含双链体分子条形码(例如独特标识符或“UID”)的部分与包含样品条形码的部分解耦(图2和图3)。FLEX衔接子利用具有优化的GC含量和序列多样性的双指数8bp样品条形码(成对编辑距离≥5)和6bp纠错UID(成对编辑距离≥3)。按照KAPA Hyper Prep试剂盒制造商的说明进行末端修复、末端加A(A-tailing)和接头连接，其中在4℃过夜进行连接。使用含有6bp UID和连接所需的T悬突的部分Y衔接子进行衔接子连接(图3)。连接后，使用SPRIselect磁珠(Beckman Coulter)进行珠粒清除。接下来，进行“接枝PCR”以添加双指数8bp样品条形码和制备功能性Illumina测序文库所必需的剩余衔接子序列。在另一次SPRI珠粒纯化后，进行通用PCR。

FLEX衔接子的基本原理：需要一种策略，该策略将允许用于DNA高通量测序的分子生物学和生物信息学工作流程中的灵活性和效率，并且将同时防止在测序期间观察到的两个主要错误来源。这两个来源包括：(1)导致给定样品中独特DNA分子错误识别的测序错误，和(2)样品之间潜在的交叉污染。当DNA输入有限和/或需要鉴定低等位基因比例事件时，通过测序观察到的独特分子的精确计数是重要的，如无细胞DNA分析的情形。在对高深度靶向测序中观察到的独特分子进行计数时，一个重要的考虑因素是去除PCR副本，以避免对给定的独特分子进行多次计数。在cfDNA测序过程中，通常使用分子的基因组起始和终止位置以及在衔接子连接过程中连接于分子每一侧的分子条形码(例如独特标识符或“UID”)来鉴定PCR副本。具有相同起始位置、终止位置和UID的分子被视为PCR副本，并通过称为“条形码去重”的过程折叠成一个代表性“独特分子”文库制备过程中引入的UID的错误可导致测序深度的人为增加。当先前观察到的分子的PCR副本的UID中的一个或多个错误导致该分子被错误分类为属于单独的条形码家族，从而导致该分子在条形码去重过程中未被去除时，就会发生这种情况。研究了基因组膨胀(genome inflation)是否会导致被测序的独特cfDNA分子计数不准确。为了评估这种膨胀，将具有相同起始/终止位置的cfDNA分子的UID“编辑距离”与随机预期的理论分布以及具有不同起始/终止位置的分子的UID“编辑距离”进行比较。所测量的编辑距离代表将一种UID改变为另一种UID所需的碱基变化的数量，这可由PCR和/或测序错误引起。假设如果基因组膨胀存在，在具有相同起始/终止位置的分子中将会看到更多数量的仅相隔1个碱基(即编辑距离为1)的UID。事实上，当将具有相同起始/终止位置的cfDNA分子与每种另外的UID分布进行比较时，发现相差1bp的UID明显过量。这强烈表明当使用我们上一代衔接子时，1bp错误可以错误地产生新的UID系列，从而促使新FLEX衔接子中的纠错方案抑制它们。

随着测序到更高的独特深度，具有相同起始/终止位置的不同亲本分子接受相同外源UID的可能性增加。减轻此类条形码冲突的一种方法是增加所使用的UID的数量。另外，随着高通量测序技术的改进，对许多样品进行平行测序的能力(样品复用)变得越来越重要。

这种新方案有几个优于传统设计的潜在优势，包括：(I)复用容量的更经济的扩展；(ii)使用双指数样品条形码更高效地防止样品交叉污染；(iii)使用纠错样品条形码增加解复用测序读取产量；(iv)通过将UID多样性增加到1,024种UID(与先前方案中的256个相比),更准确地去移PCR副本以防止条形码冲突；和(v)纠错双链UID的使用防止了错误的深度膨胀，当UID中的错误导致PCR副本被错误分类为独特分子时，会发生所述错误的深度膨胀。

文库制备后，进行杂交捕获(SeqCap EZ Choice,NimbleGen)。在这项研究中，使用了定制的355kb NSCLC聚焦小组，该小组靶向肺癌中255个复发突变的基因和11个与克隆性造血典型相关的基因(表3)。根据制造商的方案进行混合捕获，其中所有47℃操作均在热循环仪上进行。富集后，在Illumina HiSeq4000上以2x150 bp的配对末端读段对文库进行测序。

测序数据分析和变体调用

Fastq文件使用自定义管道进行解复用，其中仅当8bp样品条形码和6bp UID均与纠错后的预期序列匹配时，才考虑读段对。解复用后，去除UID，使用AfterQC从读段的3’末端修剪衔接子通读以保留短片段。使用BWA ALN将读段与人参考基因组(hg19，GRCh37)进行比对。

错误抑制和变量调用：如前所述(参见A.M.Newman,Nat.Biotechnol.(2016)，上文引用的)进行分子条形码介导的错误抑制和背景抛光。为了利用通过用ROS清除剂亚牛磺酸捕获样品而提供的改善的错误分布，从12个保留的健康对照血浆样品构建的背景数据库被用于背景抛光，所述健康对照血浆样品是用次牛磺酸捕获的。错误抑制后，如前所述使用定制的变体调用算法进行选择器范围的单核苷酸变体(SNV)调用，所述算法经优化用于从深度测序数据中检测低等位基因频率变体(参见A.M.Newman,Nat.Biotechnol.(2016)，上文引用的)。这种方法(被称为“自适应变体调用(adaptive variant calling)”)考虑了背景错误率的局部和全局变化，以确定每个样品中位置特异性变体调用阈值。然后，自适应变型调用被如下进一步过滤：(I)去除在来自研究中的任何个体的WBC gDNA中鉴定的＞25％VAF的种系变体，(II)去除低深度位置(<中位深度的50％)处的变体，以及重复区域、内含子区域、基因间区域或假基因区域中的变体，(III)除去落在具有差的独特性或可作图性的区域的变体，(IV)除去gnomAD数据库中群体等位基因频率>0.1％的变体，(V)使用从430个WBCgDNA样品的数据库中获得的特异于我们的靶向测序空间的黑名单去除反复出现的背景伪影。在变体调用和过滤之后，根据组织区室和正在执行的分析(如下所述)应用附加过滤器。

肿瘤基因分型

除以下要求外，如前一部分所述进行肿瘤组织中的体细胞变体调用：(1)5％的最小等位基因频率阈值，(2)匹配的WBC中可能不存在变体，以及(3)去除除TP53外的典型克隆性造血基因中的变体。

肿瘤知情ctDNA检测

为了使用在匹配的肿瘤组织中鉴定的突变来查询血浆中ctDNA的存在，使用了基于Monte Carlo的ctDNA检测指数(参见A.M.Newman等人，Nat.Biotechnol.(2016)，上文引用的)。ctDNA检测指数阈值被设定为在56份来自用相同选择器分析的阴性LDCT扫描患者的保留对照cfDNA样品中达到≥95％的特异性。在具有可检测的ctDNA的样品中，根据肿瘤的拷贝数状态调整突变的血浆VAF。然后通过对用于监测的所有肿瘤变体(包括样品中突变读数为0的变体)的VAF取平均值，计算每个样品的ctDNA VAF。

如前所述(参见A.M.Newman等人，et al.,Nat.Biotechnol.(2016)，上文引用的)确定患者特异性的分析性检测限(LOD)。简言之，LOD被定义为基于二项式分布、追踪的突变数量和独特的分子深度，预期产生含3个或更多突变的cfDNA分子的最低肿瘤分数，置信度为95％。

根据制造商的方案，使用SeqCap EZ Exome 3.0版捕获试剂(NimbleGen)对17名患者进行了肿瘤DNA和匹配的白细胞DNA的全外显子组测序。如上所述对测序数据进行解复用并作图，使用“samtools rmdup”去除重复读数。使用VarScan2、Mutect和Strelka来调用单核苷酸变体(关于VarScan、Mutect和Strelka的更多内容，参见D.C.Kobo等人，GenomeRes.22,568–576(2012)；K.Cibulskis等人，Nat.Biotechnol.31,213–219(2013)；以及C.T.Saunders等人，Bioinformatics 28,1811–1817(2012)；所述文献的每一篇均通过引用并入本文)。由≥2个调用者调用的变体随后被进一步过滤，要求：(i)VAF≥5％，(ii)在肿瘤和种系中≥30倍的位置深度，(iii)0个种系读数，(iv)在gnomAD数据库中群体等位基因频率≤0.1％，并去除位于重复区域、内含子区域、基因间区域或假基因区域中的变体(关于gnomAD数据库的更多内容，参见K.J.Karczewski等人，bioRxiv 531210(2019)，其通过引用并入本文)。然后设计定制捕获小组(SeqCap EZ Choice,NimbleGen)，每个捕获小组靶向来自5-7名患者的突变联合，大小范围为212-487kb。使用这些定制小组重新捕获每个患者的肿瘤和匹配的白细胞测序文库，并使用典型CAPP-Seq管线从靶向测序数据中重新调用肿瘤变异体。然后将这些最终的变体列表(以每名患者68个突变的中值为目标(范围为7-543))用于ctDNA检测。

为了使用定制的CAPP-Seq小组查询ctDNA的存在，将用于标准CAPP-Seq肿瘤知情检测的相同的基于Monte Carlo的取样方法应用于分子的两个不同子集：(i)对于其观察到原始cfDNA双链体的两条链的cfDNA分子，和(ii)大小为<160bp或230-310bp的cfDNA分子。然后，我们使用Fisher方法将这两个P值组合起来。然后将ctDNA检测指数阈值设定为在使用相同测序小组分析的24份健康对照cfDNA样品中达到≥95％的特异性。

癌细胞比例分析

为了确定在肿瘤样品中鉴定的突变的克隆性，如前所述使用ABSOLUTE来估计含有每个体细胞突变的肿瘤细胞的比例(例如癌细胞比例，CCF)(关于ABSOLUTE的更多内容，参见S.L.Carter等人，Nat.Biotechnol.30,413–421(2012)，其通过引用并入本文)。全基因组分段拷贝数调用和点突变的位置和VAF用作输入。克隆突变被定义为CCF置信区间的上限>0.95，而CCF估计值低于该阈值的突变被定义为亚克隆。如果在肿瘤样品中仅鉴定到1个突变，则该突变被认为是克隆性的，因为不可能获得CCF估计值。

ctDNA片段大小分析

为了比较肿瘤来源的cfDNA分子与非突变的cfDNA分子的大小分布，询问血浆的与匹配的肿瘤样品中鉴定的突变的基因组位置重叠的cfDNA分子。提取包含肿瘤来源的突变的每个分子(例如“突变分子”或“ctDNA”)和跨越同一个体中同一基因组基因座的每个非突变分子的cfDNA片段大小(SAM Spec v1.6中的TLEN字段)。然后合并所有位置的突变和非突变片段长度，以生成所描述的片段大小分布。将同一方法应用于在肿瘤初始变体调用后鉴定的cfDNA突变，以生成“CH”和“肿瘤裁定的”(Tumor-adjudicated)突变片段大小分布。

为了确定对于ctDNA富集了什么片段大小的窗口，使用R(zoo包)中的rollapply函数计算落入5bp滑动窗口的所有突变分子和非突变体分子的比例。然后，对于50bp与500bp之间的每个cfDNA片段大小，计算突变分子对比非突变体分子的相对富集(例如“ctDNA富集”)。

ctDNA检测的临床相关性

使用全身[18F]FDG正电子发射断层扫描(PET)-CT扫描确定代谢肿瘤体积。由胸部放射科医师使用胸部计算机断层扫描(CT)进行预处理成像，确定毛玻璃样阴影百分比(GGO)、坏死的存在和肿瘤位置。GGO的定义是存在模糊的、增加的肺部阴影，保留支气管和血管边缘。GGO百分比是通过在轴位、矢状位和冠状位重建上检查病变的整个体积来确定的，整个肿瘤中的GOO百分比被定量并被四舍五入到最近的四分位数。病理学家在福尔马林固定、石蜡包埋的肿瘤组织可用于分析的患者亚组(48/63例腺癌患者)中评估腺癌组织学亚型。对于单变量和多变量分析，进行逻辑回归以将分期、MTV和非腺癌组织学与平均ctDNAVAF(作为连续因变量)相关联。MTV和平均ctDNA VAF被对数转换以产生正态分布数据。

考虑了以下生存终点：(1)无复发(放射照相或活组织检查证实的复发)，(2)无转移(放射照相或活组织检查证实的至远处器官或对侧肺的转移)，(3)无复发存活(放射照相或活组织检查证实的复发或任何原因引起的死亡)，(4)无转移存活(放射照相或活组织检查证实的至远处器官或对侧肺的转移或任何原因引起的死亡)，(5)总存活(任何原因引起的死亡)。在最后一次放射照相随访时检查了无事件患者。使用Kaplan-Meier方法估计存活概率，使用时序检验比较各组的存活率。通过Cox比例风险建模进行回归分析，用对数似然检验评估P值，所有P值都是双侧的。对于回归分析，使用对数转换的平均VAF和肿瘤体积测量；执行对数转换以产生正态分布数据。将所有变量标准化，以使得能够使用Cox模型比较危险比和95％置信区间。

cfDNA和WBC中克隆性造血的表征

为了表征cfDNA和WBC区室中的克隆性造血(CH),利用以下附加过滤器，如本文所述的“错误抑制和变体调用”部分中所述调用变体：(1)除阳性选择分析和突变特征分析(其中也考虑同义突变)外，所需突变是非同义的，(2)如果突变在以下12个经典与CH相关联的基因中，则将其从黑名单中解救出来：ASXL1、PPM1D、DNMT3A、TET2、GNB1、CBL、JAK2、STAT3、GNAS、MYD88、SF3B1、TP53和(3)如果典型肺癌驱动基因中的突变在≥10个COSMIC肺癌病例中被观察到，则将它们从黑名单中解救出来(CosmicGenomeScreens v85)。

使用匹配的白细胞(WBC)测序，将在cfDNA中鉴定的突变如下标记为WBC-、WBC+或WBC未确定：

(i)如果突变在匹配的WBC中高于背景(如使用用于肿瘤知情ctDNA检测的相同的Monte Carlo方法并且需要检测指数P值<0.05所评估的)，则认为是WBC+。

(ii)如果在匹配的WBC DNA中有0个支持读数，并且只要在血浆中观察到VAF，则在匹配的WBC DNA中有足够的深度来鉴定突变，则该突变被认为是WBC-。具体来说，只有在给定cfDNA中变体的VAF和WBC中的位置深度下在WBC中观察到ε1个支持性读数的概率＞95％，才将突变标记为WBC-。

(iii)如果WBC中有>0个支持性读数，但检测指数P值≥0.05(例如WBC中突变不显著高于背景)，或者如果有0个支持性读数，但考虑到cfDNA中变异的VAF和WBC中的位置深度，在匹配的WBC中观察到突变的概率≤95％，则认为突变是WBC未确定的。

只有在cfDNA中从头鉴定的突变(其在匹配的WBC中的存在可以被确信地评估(标记为WBC-或WBC+))才被考虑用于所有分析，但有以下例外：

(i)对于图42和图45，也考虑了从WBC中从头鉴定的突变。

(ii)对于比较在cfDNA和WBC中发现的突变的VAF的分析，如上所述，只要可以确信地评估两个组织区室中改变的存在或不存在，就考虑在任一区室(cfDNA或WBC)中被称为从头突变的突变。因此，WBC中从头鉴定的突变被标记为cfDNA-、cfDNA+或cfDNA未确定的，其方式与确定WBC支持cfDNA突变的方式相同(见上文)。

使用dNdScv R包对所有同义和非同义的WBC+和WBC-cfDNA突变进行了正选择分析，所述dNdScv R包进行了修改以说明测序小组覆盖的给定基因的部分(关于dNdScv R包的更多内容，参见I.Martincorena Cell 171,1029-1041.e21(2017)，其通过引用并入本文)。如果dNdScv报告的所有替代类型的Q值<0.05，则认为基因处于非同义突变的正选择下。

已知突变过程对我们在cfDNA中观察到的突变的贡献利用使用COSMIC signatureset(v2)的deconstructSigs R包进行了评估(关于deconstructSigs R包的更多内容，参见R.Rosenthal等人，Genome Biol.17,1-11(2016)，其通过引用并入本文)。由于每个个体的突变数量有限，所以对于给定的比较(例如患者对比对照组、吸烟者对比不吸烟者)，将个体间的突变合并，以评估WBC+和WBC-区室中存在的突变特征。为了评估特征4(吸烟)对不同组突变的贡献的差异的统计学显著性，对每个感兴趣的比较(患者WBC+对比患者WBC-、患者WBC-对比对照WBC-、吸烟者WBC+对吸烟者WBC-、吸烟者WBC-对非吸烟者WBC-)进行1,000次排列)，其中突变标记被打乱，突变特征贡献用deconstructSigs重新计算。对于每个排列，计算两个突变组之间特征4贡献的差异以产生零分布，并且通过将真实突变组之间特征4的观察差异与零分布进行比较来确定经验P值。为了校正由于队列大小的差异(例如在被比较的组中不同数量的突变)而具有不平衡标记计数的突变组，在重新计算突变特征贡献之前，在每次迭代中，将突变的数量降采样至较少表示的标记的总数。

为了给每个突变赋予反映其由吸烟相关突变过程导致的可能性的得分，考虑了突变的三核苷酸环境和碱基替换，然后从由deconstructSigs提供的COSMIC特征4向量中提取该环境的权重。

肺-CLiP模型

肺-CLiP模型是集成分类框架(ensemble classification framework)，使用五种不同的分类规则(5-最近邻(5-nearest neighbor,5NN)、3NN、朴素贝叶斯、逻辑回归和决策树)，集成了两个组成SNV和CNV模型的输出。对于SNV模型，开发了统计模型来区分在患者中观察到的cfDNA突变与在对照中观察到的cf DNA突变。在该模型中，利用了半监督学习框架(在该框架中，对弹性净逻辑回归模型进行训练，以区分具有匹配的肿瘤的患者的亚组中肿瘤裁定的变体与非裁定的变体(‘肿瘤裁定模型’)。这种肿瘤裁定模型用于标记没有匹配的肿瘤样品的患者的变体。然后，使用由半监督肿瘤裁定模型赋予的标记，将SNV模型用于给患者和对照中的所有变体赋予分数。赋予变体分数后，进行“患者SNV特征化(Patient SNVFeaturization)”以总结每个样品中的变体分数。然后，这些将汇总分数用于最终的弹性净逻辑回归模型，该模型被训练用于区分患者与对照组。所有这些操作都在嵌套的患者级留一框架中执行。

CNV模型使用两个注释列表列举了改变的基因组区域：(1)一组跨基因组均匀分布的5MB窗口，和(2)通过在1,017个TCGA非小细胞肺癌病例上运行GISTIC2.0鉴定的循环改变的区域(例如“热点区域”)(关于GISTIC2.0的更多内容，参见C.H.Mermel等人，GenomeBiol.(2011)，上文引用的)。5MB区域和GISTIC“热点”区域的数量用作拷贝数模型中的特征以及第三特征，所述第三特征捕获已知在NSCLC中与均匀分箱相反的被循环改变的拷贝数的区域(例如“热点”)是否存在富集。

基本原理：血浆中肺癌可能性(肺-CLiP)方法是作为概率方法开发的，所述概率方法用于估计血浆样品含有肿瘤来源的cfDNA的概率，而无需使用肿瘤变体的先验知识。这种方法包括对血浆cfDNA和匹配的白细胞进行深度测序，以用于对每个区室中的体细胞变体进行基因分型，然后整合SNV和全基因组拷贝数改变。使用肺-CLiP对给定血液样品的分类是通过应用多层机器学习框架来实现的，在该框架中，子分类层最初估计给定cfDNA SNV来自肿瘤的概率。如下所述，该SNV模型(如下所述)整合了特异于每个个体变体的关键生物学和技术特征，包括背景频率、cfDNA片段大小、吸烟特征贡献、NSCLC中频繁突变的基因的存在和CH可能性。第二CNV模型(如下所述)列举了cfDNA和白细胞中体细胞拷贝数的改变，并适当考虑了CH来源和组成拷贝数的改变。最终的患者水平概率集成分类器然后整合SNV和CNV模型的输出，以估计给定血液样品包含肺癌来源的cfDNA的可能性(例如“CLiP评分”)。

使用采用来自254名受试者的样本的病例:对照设计和训练以及独立验证框架，其中病例包括局限性NSCLC患者，对照包括经历通过LDCT的肺癌的年度放射学筛选的风险匹配的成人。肺-CLiP分类器首先使用来自160名受试者的发现队列的样品进行训练，所述受试者包括5个参与癌症中心中的4个(如上所述，斯坦福、MDACC、梅奥和范德比尔特)的肺癌患者和高风险对照；另外一组18名具有可用于分析的肿瘤组织的NSCLC患者也用于发现队列，并用于在肿瘤知情分析中告知ctDNA特征的鉴定。在发现队列中，在留一交叉验证框架中执行模型训练，并且将在训练样品中实现98％和80％特异性的肺-Clip评分阈值应用于独立验证队列。如上所述，这个独立的验证队列包括94名受试者，包括非小细胞肺癌患者(n＝46)和LDCT扫描呈阴性的风险匹配的对照(n＝48)，LDCT扫描阴性，所述受试者是从独立的机构(MGH/哈佛)前瞻性招募的。然后将模型在验证队列中的表现与训练中观察到的测量结果(包括灵敏度、AUC和特异性度量)进行比较。

SNV模型

如本文所述的“错误抑制和变体调用”部分中所述，用以下附加过滤器对变体进行基因分型和过滤：(1)去除了检测指数P值＜0.10的匹配的WBC中存在的突变，(2)去除了典型CH基因DNMT3A、TET2、ASXL1、PPM1D、GNB1、CBL、JAK2、STAT3、GNAS、MYD88、SF3B1中的突变，(3)如果在COSMIC(CosmicGenomeScreens v85)中在一个或多个肺癌病例中观察到以下肺癌癌基因中的突变，则将其从黑名单中拯救出来：EGFR、KRAS、PIK3CA、BRAF、MET、U2AF1、NFE2L2、TERT、ERBB2、HRAS、NRAS、TERT、RAF1。

SNV模型中使用了15个特征，下面按照特征重要性的顺序进行详细说明：

(1)WBC贝叶斯背景：该度量衡量变体的VAF与430个WBC样品的背景分布之间的差异显著性。

为了对每个变体

的背景分布建模(由基因组位置p和碱基变化bc(x→y；x≠y∈{A，C，G，T})定义)，WBC样品队列中的背景分布首先通过零膨胀β分布建模为

(为了简单起见，在下文中去掉了上标p和bc)。所有参数都是从“背景队列”

)中估计出来的。在此模型中，π₁被估计为集合

中该位置被更改为bc，(从而导致

)的样品所占的比例。然后，该集合

仅限于它们的位置p改变为bc的样品，如由

所示的。然后，对于背景集合

中的每个样品，从β分布

产生20个随机数(以0和1为界)，

其中

是样品冲覆盖位置p(具有如bc中的非参考等位基因)的支持读数的数目，

是样品i中位置p中的总深度。组合的“计算机背景VAF矢量”被定义为：

接下来，如下估计该位置中的总体β分布参数：计算

的平均值和标准偏差，然后使用推断α^p，bc和β^p，bc的“矩估法(method of moments)”。这种β分布将有效地捕捉目标位置的背景样品中的随机噪声因子。更重要的是，背景集合中的每个样品都将有相同的权重的机会(由于来自上述单个样本变体操作的20次随机抽取)。

利用从“背景队列”推断的这种情况，对于具有n_alt个支持突变读数和n个总深度(n＝n_ref·+n_alt))的观察到的变体，将贝叶斯显著性值计算为

(2)cfDNA贝叶斯背景：该度量测量变体的VAF与51个保留的对照cfDNA样品(完全从肺-CLIP队列中保留的“低风险对照”)的背景分布之间差异的显著性。此处如上所述使用相同的方法，同时使用保留的对照cfDNA样品作为集合

(3)变体等位基因频率(VAF％)：目标变体的变体等位基因频率。

(4)种系深度：给定cfDNA中变体的VAF和WBC中变体的位置深度，在匹配的WBC中观察到≥2个支持性读数的概率。

(5)平均条形码家族规模：支持目标变体的条形码去重复的cfDNA分子的平均条形码家族规模(例如支持每个独特cfDNA分子的PCR副本的平均数量)。

(6)短片段得分1：通过进行Fisher精确检验以比较突变和非突变读数计数来计算P值，所述突变和非突变读数计数覆盖针对ctDNA富集的片段大小(＜160bp或230-310bp)进行计算机大小选择之前和之后的变体的位置。参考和非参考计数在计算机大小选择之前和之后分别用n_ref.，n_alt.，

和

表示。然后用这些计数生成列联表，并计算碱基变化状态(参考对比改变)与cfDNA片段大小之间的任何相关的p值。然后最后一个特征被定义为：

(7)短片段得分2：每个支持变体的cfDNA分子根据其片段大小被赋予富集值。所有片段大小s∈[30，400]的片段大小似然比(FSLR)λ(s)首先被定义为：

使用经验数据，首先估计这些量，并且通过插入方法将FSLR估计为：

其中

表示具有长度l＝s和肿瘤裁定的变体的片段的数量，

表示在突变位置具有野生型等位基因的长度l＝s的片段的数量。在该定义中，n^mut和n^wt分别表示具有突变型和野生型等位基因(在与突变型片段相同的位置中)的片段总数。接下来，对于具有支持(野生型和突变型)片段{f₁，f₂，...，f_m}的给定的变体v_i，找到相应的片段大小{s₁，s₂，...，s_m}，然后将评分计算为：

(8)转换/颠换：二元变量，其表示变体的碱基替换是转换还是颠换。

(9)双链体支持：支持目标变体的双链体cfDNA分子的数量。

(10)传递异常值截断值(pass outlier cutoff)：二元变量，其表示目标变体的VAF是否高于每个样品中定义的VAF阈值，该阈值被设计成鉴定推定的低VAF异常值突变。

(11)作图质量：支持目标变体的读数的平均作图质量。

(12)肺癌热点：二元特征，其表示在COSMIC(CosmicGenomeScreens v85)中具有>20次观察的肺癌驱动基因中的突变，以及EGFR、KRAS、NRAS和BRAF中的典型激活突变。

(13)校正的UMI错误：支持变体的所有cfDNA分子中的在UID中校正的错误的平均数量。

(14)Phred质量：支持变体的所有碱基中的平均Phred质量评分。

(15)读数中的变体位置：支持变体的所有测序读数中的变体的平均归一化位置。

在留一法交叉验证框架(leave-one-out cross validation framework)中训练模型，以区分在患者中观察到的cfDNA突变与在对照组中观察到的cfDNA突变，其中每个变体SNV_i，j由p特征组成(前一节“SNV模型特征”中所描述的)。嵌套在该模型中，利用半监督学习框架，其中训练弹性净逻辑回归模型以在具有匹配的肿瘤的训练集(validation fold)中的患者的亚组中区分肿瘤裁定的变体与非裁定的变体(“肿瘤裁定模型”)。然后，如表2所示，将该模型用于标记没有匹配的肿瘤样品的患者的变体。

表2.标记来自有或无匹配的肿瘤样品的患者的变体。

一旦赋予了标签，通过组合来自患者和对照的所有变量，创建了完整的特征矩阵X。由y表示的响应向量是“强标记”(例如肿瘤判定的)、“中等标记”(例如来自无肿瘤患者的变体，通过自我学习模型标记的)和“弱标记”(例如具有匹配肿瘤的患者中的非裁定变体和对照中的变体)的组合。为了加入这些软标签，如下对样品进行了加权：“强标签”的标签为1，权重为1，“中间标签”的标签由自我训练模型赋予(0或1)，其权重(在0与1之间)由标记它们的模型的置信度确定，“弱标签”的标签为0，权重为1。然后，SNV特征矩阵以及相应的标签和权重被用于l₁-正则化逻辑回归(例如具有“二项式”族的lasso)中，并对正则化参数进行交叉验证。然后，对应于最小交叉验证的正则化参数被用于最终模型。然后，使用经过训练的模型对保留集中的所有变体(例如来自保留受试者的变体)进行评分。重要的是，使用嵌套交叉验证来确保在使用变异评分(如下所述)的监督患者分类之前，在保留样品中没有发现变体。

在嵌套的留一法框架内，在将变体评分已赋予训练和保留集中的所有变体后，进行“患者SNV特征化”以如下总结每个样品中的变体评分：

对于每个样品j，生成一个评分向量，一个评分向量对应一个SNV，

其中n_j是表示通过分类方案的样品中的变体总数的非负数。将每个样品向量转换成一组13个特征的变换被定义为：f：s_j→x_j∈R^p，其中p是可用于患者分类的特征数量。由于输入向量的维数因样品而异(例如在每个样品中观察到的SNV的数量不同)，所以利用了一组作为函数f的汇总统计。下面总结了这些功能：

其中|·|表示集合的基数，

表示平均值，s_j，(1)表示最大顺序统计量，s_j，(2)表示第二大顺序统计量。在零变体的情况下，0被用作每个汇总统计的值。在只有一个变体的情况下，0用作s_j，(2)的值。除了这些汇总统计数据之外，还定义了三个列举变体的附加特征：(1)主要与吸烟突变特征相关的碱基变化取代(特征4；C＞A/G＞T)，(2)与衰老突变特征相关的碱基变化取代(特征名1；C＞T/G＞A)，以及(3)具有分别由

和|SNV_热点|表示的这些特征的肺癌热点突变的患者水平计数。

然后，使用13个变体概要特征，将弹性网络(其中α＝0.5))用于对每个体进行评分。使用样品自举(例如训练样本的装袋)运行弹性网络30次，并将平均评分作为最终评分。在弹性网络的每次运行中，执行CV-glmnet以获得最佳正则化参数。该模型得出基于SNV的患者分类评分，对于样品i用

表示。

CNV模型

对于拷贝数模型，使用了两个注释列表：(1)一组跨基因组均匀分布的5Mb窗口，和(2)通过对1,017个TCGA NSCLC病例运行GISTIC2.0鉴定的循环改变的区域(例如“热点区域”)。然后在这些区域中调用拷贝数改变(如对于“从靶向测序中检测全基因组拷贝数变异”部分所述)，并应用以下过滤器去除背景噪声和组成型或CH来源的拷贝数事件(注意，对于基于Z评分的过滤器，我们考虑改变的方向性)：

I.要求拷贝数Z-评分的绝对值＞2.58；

II.去除在>20％的保留对照cfDNA样品(n＝42)中观察到的绝对Z-评分＞2.58的改变；

III.去除在匹配的WBC中观察到的Z-评分＞2.58的变化；

IV.要求cfDNA与种系Z-评分之间＞0.5的绝对差值；

V.要求种系背景p值＜0.05；

VI.要求对照背景p值＜0.05；

VII.去除19号染色体上的任何改变。

超过这些阈值的5MB区域和GISTIC“热点”区域的数量被用作拷贝数模型中的特征。除了这些计数之外，还定义了第三特征，所述第三特征捕获已知在NSCLC中与均匀分箱相反的被循环改变的拷贝数的区域(例如“热点”)是否存在富集。该特征被定义为由对数几率(log-odds)的10倍富集符号表示的P值，所述对数几率获自Fisher精确检验，以比较改变的5MB分箱的数量(总共500个分箱)与改变的GISTIC分箱的数量(总共85个分箱)。使用了这三个变量：(1)过滤的5MB CNV计数(2)过滤的GISTIC CNV计数和(3)Fisher P值，作为广义线性模型(例如“CNV模型”)中的特征。该模型为最终肺-CLIP模型中的每个样品i产生由

表示的分数。

集成肺-CLiP分类器

最后，将上述两个模型(SNV模型和CNV模型)组合以建立血浆中肺癌可能性(肺-CLiP)分类模型，该模型生成给定血浆样品包含肺癌ctDNA的可能性。此处，我们使用了五个从SNV和CNV模型产生的变量，其中

和

表示样品i的基于SNV和基于CNV的患者分类评分，abs(.)表示绝对值，|.|表示集合的基数，每个样品的编码如下：

然后如下使用集成分类器给每个个体赋予最终肺-CLiP评分。开发了使用以下五种不同分类规则的集成分类器：5-最近邻(5NN)、3NN、朴素贝叶斯、逻辑回归和决策树。除了分类规则之外，还通过自举样品进行样品装袋。然后，每个分类规则根据其在装袋步骤中的变化而受到惩罚。将所有惩罚分数线性组合用于这些分类器。

根据靶向测序检测全基因组拷呗数变异

为了鉴定拷贝数变异(CNV)，利用了来自CAPP-Seq的中靶和脱靶读数。简言之，CAPP-Seq工作流程中的每个文库通常接收约3000万到6000万个双端测序读数。这些读数被定位于人基因组(构建hg19，GRCh37)，其中约60％至80％的读数落在靶向基因组坐标中(“中靶读数”)。其余约20％至40％的读数主要由映射到人基因组其余部分的读数(“脱靶读数”)组成。为了将靶向测序空间中的高深度数据与脱靶标空间中的低通数据组合起来，分别处理这些组中的每个组的读数，然后进行统计整合。

为了检测靶向测序空间中的CNV，如下生成归一化的位置水平深度的向量。从经过条形码重复数据消除的BAM文件开始，执行了以下操作：(1)使用bedtools genomcov在选择器中的每个位置生成深度向量；对于约355kb的选择器，这导致355,000乘1的向量；(2)将该向量以中值作归一化；以及(3)执行GC校正。GC校正如下进行：首先，基于基因组中该位置周围的201Bp窗口，为选择器中的每个位置赋予GC含量值。然后，通过绘制深度相对GC含量的关系图，进行深度的LOESS拟合；该LOESS拟合然后被用于去除GC偏离量(GC-bias)。在GC校正后，将每个样品(4)以源自12个保留的对照cfDNA样品的中位深度向量作归一化。最后，为了消除在每个测序泳道中观察到的批效应，(5)针对测序运行中所有剩余样品的中位深度，对测序泳道中的每个样品进行LOESS拟合。然后计算该值的log2，该值(拷贝数比率的log2(L2CNR))反映了每个样品在中靶空间的每个位置处的归一化拷贝数状态。

中靶L2CNR向量以零为中心，以-和+无穷大为界，方差为σ²。为了获得每个位置的拷贝数改变状态的统计置信水平，需要估计σ。给定具有未知的CN分布的具有M个中靶位置的新样品，计算向量：

其中每个位置i∈{1，...，M}都有L2CNR，其可被描述为从以μ_i(真实的log2拷贝数比率)为中心的正态分布(标准偏差为σ_i)中提取。假设所有σ_i都是相等的，即，

为了估计样品水平的标准差σ，假设在子向量[L2CNR_m，...，L2CNR_m+k]中，对于为k的小值μ_m＝μ_m+1＝…＝μ_nm+k。也就是说，两个位置的真实L2CNR在基因组空间中的小区域中是相同的。因此，子向量[L2CNR_m，...，L2CNR_m+k]间的标准偏差σ代表样品范围内标准差的估计值。选择器空间中k＝5,000个连续位置的子向量被用来估计标准偏差；取10,000个此类二次抽样的中值作为给定样品的标准偏差的最终估计值。最后，在每个样品中获得位置水平z-评分zL2CNR：

因此，zL2CNR_i提供了以0为中心的每个位置的拷贝数状态的估计，其标准偏差为1，即标准正态分布。这种z-评分的产生使得样品能够在不同的测序深度上具有可比性。类似的程序允许将z-评分赋予中靶空间的任何大小的区域。

为了鉴定脱靶空间中的CNV，从经过samtools重复数据消除的BAM文件(‘samtoolsrmdup’)开始，执行了以下操作：(1)将基因组分成100kb的窗口；(2)计算落入每个窗口的脱靶读数的数量，并对样品中测序读数的总数进行归一化。然后(3)通过LOESS回归对每个窗口的经归一化的读数计数进行GC含量校正，并以来自12个保留的对照cfDNA样品的队列的预期读数计数作归一化。(4)然后排除包含我们的靶向测序小组的坐标或在12个保留的对照cfDNA样品的队列中显示高差异的窗口。每个窗口的经归一化的读数计数的该向量被表示为log2相对于正常二倍体对照样品的拷贝数比率(L2CNR)。类似于中靶CNV处理，每个100kb的分箱现包含L2CNR值，以0为中心，以-和+无穷大为边界，方差为σ²。此处，类似于中靶测序空间中的位置处理每个分箱，并且样品水平的差异是通过取基因组中100个连续分箱的二次抽样向量(即，k＝100))和取标准偏差发现的。这种二次抽样进行了10,000次，其中中值代表我们对样品范围内方差的估计。将L2CNR的100kb分箱向量除以σ的该估计值，得到分箱水平zL2CNR，其以0为中心，标准偏差为1。

为了组合来自中靶数据和脱靶数据的拷贝数状态的估计，首先将基因组分箱到5MB的区域。然后，从包含在该5Mb区域内的中靶碱基和包含在该5Mb区域内的脱靶100kb分箱计算拷贝数状态的z-评分。然后通过Stouffer的方法将这两个z-评分估计值结合起来，为给定的5Mb区域的拷贝数状态提供单一、统一的z-评分。

用于肿瘤知情ctDNA检测的拷贝数状态调整

当进行肿瘤知情ctDNA检测时，对1)亚克隆突变和2)与具有显著拷贝数改变的肿瘤区域重叠的突变的血浆变体等位基因频率(VAF)进行了调整。为了确定在肿瘤样品中鉴定的突变的克隆性，使用ABSOLUTE来估计含有每个体细胞突变的肿瘤细胞的比例(即，癌细胞比例，cancer cell fraction,CCF)。CCF置信区间的上限<0.95的突变被认为是亚克隆的，并将这些突变的血浆VAF乘以1/CCF(其中CCF＝突变的癌细胞比例)。

另外，随着显著的拷贝数改变，调整与肿瘤区域重叠的突变的血浆VAF。仅当在血浆中观察到肿瘤突变，且该突变与肿瘤的拷贝数改变区域重叠，且拷贝数的绝对值Z评分>2.58(即，CNV检测的理论假阳性率为1％)以及绝对log2拷贝数比率(L2CNR)>0.25时，才进行这种调整(关于这些度量的详细内容于“来自靶向测序的全基因组拷贝数变异的检测”中提供)。如下调整落入此类区域的突变的VAF：

I.样品的肿瘤纯度计算为落在拷贝中性区的所有突变的平均VAF的2倍。如果拷贝中性区中不存在突变，则如前所述⁷，利用全基因组分段拷贝数调用以及点突变的位置和VAF(用作输入)，使用绝对值来估计肿瘤纯度。

II.假设了以下情况：

a.缺失区域中的突变不在缺失的等位基因上(否则它们不会被观察到)。

b.如果突变的2倍VAF大于肿瘤纯度，则扩增区域中的突变被假定是在扩增的等位基因上。

c.如果突变的2倍VAF小于肿瘤纯度(如果WT等位基因被扩增)，则扩增区域中的突变被认为不在扩增的等位基因上。

III.然后使用肿瘤中拷贝数改变的等位基因的拷贝数状态(CNS)来计算调整因数，如下将所述调节因子用于调节血浆中观察到的突变的VAF：

a.CNS被定义为：

i.CNS＝(2^L2CNR)*2–1

b.如果突变落在肿瘤的缺失区域内：

i.调整因子＝突变的VAF*CNS

c.如果突变落在肿瘤中扩增的等位基因上的扩增区域中：

i.调整因子＝突变的VAF/CNS

d.如果突变落在肿瘤中非扩增的等位基因上的扩增区域中

i.调整因子＝突变的VAF*CNS

根据肿瘤的拷贝数状态进行该调整后，通过对用于监测的所有肿瘤变体的等位基因比例求平均值，计算每个样品的ctDNA等位基因比例。

CAPP-seq分子生物学工作流程的计算机模拟

为了优化从CAPP-seq回收基因组等效物，开发了分子生物学工作流程的理想化模拟，所述工作流程从无血浆细胞DNA分子开始，以测序读数结束。该模型基于随机二项式抽样，允许模拟不同的分子生物学条件，以及估计在每个步骤中通过测序观察到的独特分子的数量。出于该模型的目的，考虑了靶向人基因组的200kb部分的通用CAPP-Seq选择器。假设从人基因组中随机抽取的cfDNA的总输入质量为32ng(估计单倍体互补序列的大小为3x10⁹bp),并且平均cfDNA分子大小为170bp，则预计总共有：

在计算机模型中，这些cfDNA分子中的每一个都被独立地考虑。此外，假设每个cfDNA分子具有顶部和底部链(即‘Watson’和‘Crick’链)，所述链被独立地考虑。为了说明某些分子不能作为双链体回收(即，Watson链和Crick链都不能被回收，尽管进行了过度测序)的观察结果，在模型中包括30％的单链“切刻率”。模型中考虑了以下操作，并所示效率如下：

此处，‘效率’被定义为分子成功地使其通过工作流程步骤的概率。例如，接头连接的效率为0.8意味着每个单个分子有80％的机会成功连接衔接子。对于扩增操作，1.5的效率意味着每轮PCR平均导致DNA增加50％—因此，每个分子在每个循环中有50％的机会扩增。此处，根据CAPP-Seq工作流程的先验知识和DNA的预期浓度来估计每个操作的效率。值得注意的是，对杂交捕获的效率没有可靠的估计—因此，考虑了一系列的捕获效率。通过将最终分子的池降采样至固定数量的分子来对‘测序’建模。

在这个计算机模型中，独立地考虑了来自原始双链体DNA分子的每个原始DNA链(例如每个‘Watson’链和‘Crick’链)。通过工作流程的每个操作，跟踪DNA的每个原始Watson链和Crick的PCR副本数量，其中通过用于二项式采样的MATLAB“binornd”函数执行扩增和降采样。

执行了多个模型模拟，将进入捕获的预捕获文库的量从8.3％变化到100％。为了从每次模型运行中确定预期的独特分子深度和双链体深度，假定170bp分子的均一覆盖跨越200kb选择器。因此，如下计算估计的独特分子深度：

并且双链体深度被估计为：

液滴式数字PCR

使用液滴式数字PCR(ddPCR)对在一组患者和对照中观察到的15个WBC+cfDNA突变进行正交验证。使用获自Bio-Rad的试剂、引物和探针在Bio-Rad QX200仪上进行ddPCR。验证了四个专有的突变，以及在11个cfDNA样品中观察到的DNMT3A和JAK2中的两个复发热点突变。发现在cfDNA和WBC gDNA区室中均通过ddPCR验证的100％(15/15)的所测试突变与通过CAPP-seq和ddPCR定量的VAF显著相关(图66A)。

统计数据分析

在R(3.4.0版和3.5.2版)和MATLAB(R2018a)以及GraphPadPrism7(8.3.0版)中执行统计分析。肺-CLiP分类框架采用了R包glmnet、caret、ETC、pROC、survival、optparse和MASS。通篇使用的统计测试包括：Wilcoxon秩和检验(双侧)、配对t检验(双侧)、Fisher精确检验、皮尔逊相关、皮尔逊相关和Cox比例风险模型。当通过皮尔逊或斯皮尔曼相关评估一致性时，通过F检验评估统计学显著性。使用Kaplan-Meier方法估计存活概率，使用时序检验比较基于ctDNA水平的患者组的存活率。通过逻辑回归对ctDNA水平的临床相关性进行多变量分析。灵敏度和AUC估计值的置信区间是通过在训练和验证队列中对肺-CLiP分类评分进行1000次bootstrap重新采样而生成的。进行效力分析以确定以确定肺-CLiP验证队列的合适规模。假设在训练队列中确定的特异性为98％，则计算出48个对照将具有80％的效力来检测真实特异性>＝90％(单侧α＝0.05的单臂二项式检验)。肿瘤知情ctDNA检测的统计显著性通过基于Monte Carlo的ctDNA检测指数来确定。吸烟突变特征对选择突变组的贡献的统计显著性通过改变SNV标记来进行。

表3.聚焦于NSCLC的CAPP-序列选择器概述。

a＝Bailey等人(Comprehensive Characterization of Cancer Driver Genesand Mutations.Cell 2018)鉴定的推定的肺癌驱动基因。

b＝与克隆性造血典型相关的基因

该表列出了本研究中使用的355kb CAPP-Seq选择器部分或完全覆盖的266个基因。

表4.训练和验证队列中NSCLC患者和风险匹配的对照的肺CLiP评分。

实施例2：StartUp评分：分析测序读数的基因组位置以检测循环肿瘤DNA

无细胞DNA(cell-free DNA,cfDNA)的分析是肿瘤学中的重要技术，应用于癌症检测、治疗监测和突变基因分型。此处，使用靶向cfDNA测序数据，已经发现当比较肺癌患者与非癌症对照时，存在cfDNA片段起始和终止基因组位置的定型差异。因此，cfDNA的起始和终止基因组位置可用于帮助诊断个体的肺癌。例如，个体的生物样品的一组cfDNA分子的起始和终止基因组位置可用作一组输入特征，该组输入特征使用训练过的机器学习分类器来进行分析，以诊断个体的肺癌。

方法

通过CAPP-seq对来自下文所述的训练和验证队列中的肺癌患者和非癌症对照的cfDNA进行测序，达到高独特分子深度，其中对于病例深度为23,570x/5,012x(标称/独特)，对于风险匹配的对照深度为19,534x/4,075x。对样品进行测序，并如下处理测序数据：在测序之前，使用定制的355kb NSCLC聚焦小组进行杂交捕获富集，所述NSCLC聚焦小组靶向255个在肺癌中反复突变的基因和11个与克隆性造血典型相关的基因。将测序读数映射到人基因组(hg19，GRCh37)上，随后进行条形码介导的PCR去重以获得每个基因组位置上独特片段数量的精确计数。在重复数据消除之后，在训练病例和对照中评估在每个样品中的每个位置处开始和终止的片段的数目，通过片段总数*1,000,000(例如每百万计数(CPM))进行归一化。换句话说，起始CPM的一组定量测量由在训练病例和对照中的每个样品中的每个位置处开始的片段的数量来确定，通过片段总数*1,000,000来进行归一化。类似地，终止CPM的一组定量测量由在训练病例和对照中的每个样品中每个位置处终止的片段的数量确定，通过片段总数*1,000,000进行归一化。

首先从104名肺癌患者和56名风险匹配的对照的训练队列分析cfDNA测序数据，用于建立实施例1中描述的血浆中肺癌可能性(肺-CLiP)模型。对于每个样品，以碱基对分辨率评估在每个被靶向用于测序的基因组坐标处开始的cfDNA片段的数目和终止的cfDNA片段的数目。然后评估具有给定起始或终止位置的片段的频率的定量差异(定量为CPM，如上所述),比较肺癌病例与风险匹配的对照。最后，在鉴定肺癌患者中的片段起始或片段末端位置富集的基因组位置之后，构建分类器以区分训练队列中的肺癌患者与风险匹配的对照。将分类器应用于两个独立的验证队列，第一队列包括46名肺癌患者和48名风险匹配的对照(肺-CLiP研究中考虑的相同验证队列)，第二独立验证队列(肺-CLiP研究中未考虑的新队列)包括24名肺癌患者和54名低风险对照组(根据年龄和吸烟史风险不匹配的对照)。

结果

在整个测序小组中观察到片段起始位置的惊人的定型性质(图67)。特定的基因组位置能够以单碱基对分辨率区分病例(例如肺癌患者)与风险匹配的对照。在每个位置的起始位置CPM上进行三次独立的统计测试。首先，对病例与对照之间起始CPM的分布进行t检验。第二，评估起始CPM与循环肿瘤DNA(ctDNA)变体等位基因频率的相关性，如在具有可用肿瘤组织的患者的亚组中通过肿瘤知情SNV评估的。最后，评估超始CPM与代谢肿瘤体积(MTV)的相关性。通过Fisher方法组合来自这些统计检验的三个p值。然后选择具有名义上统计显著的P值(即，<0.05)的位置作为将病例与对照分开的信息性位置。在测序结果中总共鉴定了8,192个这样的位置。

对所有8,192个信息性位置的每百万起始计数(CPM)的定量测量值的组求和，以生成给定样品的‘StartUp评分’,该评分可用于将肺癌患者与非癌症对照进行分类或区分肺癌患者与非癌症对照。重要的是，StartUp评分与疾病负担的生物学测量(包括ctDNA肿瘤等位基因比例和代谢肿瘤体积)相关(图68)。因此，可以分析StartUp评数以确定赘生物(例如肺癌)的ctDNA肿瘤等位基因比例和/或代谢肿瘤体积。

还评估了StartUp评分与肺-CLiP之间的相关性。有趣的是，虽然在训练队列中StartUp评分与肺-CLiP评分显著相关，但在验证组中所述相关性减弱，表明片段起始定位代表具有独立分类效用的SNV和SCNA的生物正交特征(图69)。

评估了StartUp评分在三个独立的队列(包括训练队列和两个独立的验证队列)中区分肺癌患者与非癌症对照的效用。在每个所测试的队列中，肺癌患者中的StartUp评分高于对照组(图70)。重要的是，用于区分肺癌患者与对照的StartUp评分的表现在训练队列和验证队列中是相似的(在训练组中AUC＝0.82，在验证组1中AUC＝0.86，在验证组2中AUC＝0.80)(图71和图72)。

等同原则

虽然上述描述包含许多具体实施方式，但是这些不应该被解释为对本发明范围的限制，而是作为其中一个实施方案的示例。因此，本发明的范围不应由所示实施方案来确定，而是由所附权利要求书及其等同物来确定。

Claims

1.一种DNA分子，其包含：

获自或源自生物样品的核酸区段，其中所述核酸区段是DNA；

纠错的独特标识符对，其与所述核酸区段连接以产生连接产物，其中所述纠错的独特标识符对位于所述核酸区段的侧翼，其中所述纠错的独特标识符对中的每一个都是DNA区段，其中所述纠错的独特标识符对共同提供所述核酸区段相对于一组测序读数中代表的其它核酸区段的独特鉴定；和

与所述连接产物连接的纠错的双指数样品条形码对，其中所述纠错的双指数样品条形码中的每一个都是DNA区段，并且其中所述纠错的双指数样品条形码对共同提供了所述生物样品相对于一组测序读数中代表的其它生物样品的独特鉴定。

2.根据权利要求1所述的DNA分子，其中所述核酸区段是互补DNA(cDNA)。

3.根据权利要求1或2所述的DNA分子，其中所述核酸区段获自或源自无细胞DNA样品。

4.根据权利要求1至3中任一项所述的DNA分子，其中所述纠错双指数样品条形码对位于所述连接产物的侧翼。

5.一种集合，其包含多种根据权利要求1至4中任一项所述的DNA分子。

6.一种制备用于测序的DNA文库的方法，所述方法包括：

将成对的部分Y-衔接子连接到多种核酸区段上，以通过一对部分Y-衔接子侧接所述多种核酸区段的每一种，从而产生多种连接产物，

其中所述多种核酸区段中的每一种都是DNA，并且其中所述多种核酸区段获自或源自生物样品，

其中所述部分Y-衔接子中的每一个都包含用于在接枝聚合酶链式反应中引物退火的纠错的独特标识符和序列，并且

其中所述多种核酸区段中的每一种上的纠错的独特标识符对共同提供了对所述核酸区段相对于所述多种核酸区段中的其它核酸区段的独特鉴定；以及

将一对纠错的双指数样品条形码接枝到所述多种连接产物的每一种上，以通过所述纠错的双指数样品条形码侧接所述连接产物，其中所述纠错的双指数样品条形码共同提供所述生物样品的独特鉴定。

7.根据权利要求6所述的方法，其中所述核酸区段是互补DNA(cDNA)。

8.根据权利要求6或7所述的方法，其中所述生物样品包括无细胞DNA样品。

9.根据权利要求6至8中任一项所述的方法，其中所述纠错的双指数样品条形码共同提供所述生物样本相对于所述DNA文库中所代表的其它生物样品的独特鉴定。

10.一种检测个体中的赘生物的方法，所述方法包括：

获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子是获自或源自所述个体的第一身体样品；

获得或已经获得多种细胞来源的核酸分子的细胞来源的核酸测序读数，其中所述多种细胞来源的核酸分子获自或源自所述个体的第二身体样品；

鉴定或已经鉴定了存在于所述无细胞核酸测序读数和所述细胞来源的核酸测序读数二者中的单核苷酸变体；

至少部分基于将第一计算模型应用于所鉴定的单核苷酸变体，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，

其中所述第一计算模型是利用来自第一组具有赘生物的个体和第二组不具有赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且

其中所述第一计算模型整合了一个或多个以下特征：细胞来源的DNA贝叶斯背景、无细胞DNA贝叶斯背景、种系深度、短片段得分1、短片段得分2、所述无细胞DNA分子的基因组起始位置和终止位置及其任意组合；以及

至少部分基于所述无细胞的核酸测序读数包含指示源自赘生物的无细胞的核酸分子的核苷酸的确定，检测所述个体的所述赘生物。

11.根据权利要求10所述的方法，其中所述第一计算模型还整合了一个或多个以下特征：转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量评分、变体等位基因频率(VAF％)、平均条形码家族规模、无细胞DNA分子中的变异位置、多基因风险评分、核酸酶基序及其任意组合。

12.根据权利要求10或11所述的方法，其中所述第一身体样品和所述第二身体样品获自或源自相同的血液样品，其中所述血液活检物被分成无细胞级分和细胞级分，其中所述无细胞核酸分子获自或源自所述无细胞级分，并且其中所述细胞来源的核酸分子获自或源自所述细胞级分。

13.根据权利要求10至12中任一项所述的方法，其中从分析中去除一种或多种所述鉴定的单核苷酸变体，并且其中所述去除的单核苷酸变体包括来自克隆性造血基因的变体。

14.根据权利要求10至13中任一项所述的方法，其中从分析中去除一种或多种所鉴定的单核苷酸变体，并且其中所述去除的单核苷酸变体包括存在于所述细胞来源的核酸测序读数中的变体。

15.根据权利要求10至14中任一项所述的方法，其中还包括：

鉴定或已经鉴定了存在于所述无细胞核酸测序读数和所述细胞来源的核酸测序读数二者中的拷贝数变异；以及

至少部分基于将第二计算模型应用于所鉴定的拷贝数变异，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，

其中所述第二计算模型是利用来自第三组患有赘生物的个体和第四组未患赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且

其中所述第二计算模型整合了一个或多个以下特征：多个均匀分布的基因组窗口区域、多个GISTIC“热点”区域、与均匀窗口相比的GISTIC“热点”区域的富集以及其任意组合。

16.根据权利要求10至15中任一项所述的方法，其中还包括：

在所述无细胞核酸测序读数中鉴定或已经鉴定了多种独特的经测序的无细胞核酸分子中每一种的第一个核苷酸和最后一个核苷酸的基因组位置；

确定或已经确定所述多种独特的经测序的无细胞核酸分子中每一种的第一个核苷酸和最后一个核苷酸的基因组位置的频率；以及

至少部分基于将第三计算模型应用于所述多种独特的经测序的无细胞核酸分子中每一种的第一个核苷酸和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定所述无细胞核酸测序读数包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述第三计算模型是利用来自第五组患有赘生物的个体和第六组未患赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的。

17.根据权利要求16所述的方法，所述方法还包括：

从所述第一计算模型、所述第二计算模型和所述第三计算模型中的每一个生成置信度得分；以及

整合所述置信度得分以生成指示所述个体是否患有赘生物的汇总得分。

18.根据权利要求10至17中任一项所述的方法，所述方法还包括至少部分基于所述检测的赘生物对所述个体进行临床操作。

19.根据权利要求10至18中任一项所述的方法，所述方法还包括至少部分基于所述检测的赘生物来治疗所述个体。

20.一种检测个体中的赘生物的方法，所述方法包括：

至少部分基于将计算模型应用于所鉴定的拷贝数变异，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，

其中所述计算模型是利用来自患有赘生物的第一组个体和未患赘生物的第二组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且

其中所述计算模型整合了一个或多个以下特征：多个均匀分布的基因组窗口区域、多个GISTIC“热点”区域、与均匀窗口相比的GISTIC“热点”区域的富集以及其任意组合；以及

至少部分基于所述无细胞核酸测序数据包含指示源自赘生物的无细胞核酸分子的核苷酸的确定，检测所述个体中的赘生物。

21.一种用于检测个体中的赘生物的方法，所述方法包括：

获得或已经获得多种无细胞核酸分子的无细胞核酸测序读数，其中所述多种无细胞核酸分子获自或源自所述个体的身体样品；

在所述测序读数中鉴定或已经鉴定了多种独特的经测序的无细胞核酸分子中每一种的第一个核苷酸和最后一个核苷酸的基因组位置；

至少部分基于将计算模型应用于所述多种独特的经测序的无细胞核酸分子中的每一种的第一个核苷酸和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述计算模型是利用来自患有赘生物的第一组个体和未患赘生物的第二组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；以及

22.根据权利要求10至21中任一项所述的方法，所述方法还包括确定在多个基因组位置中每一个处开始的cfDNA分子的第一组定量测量和在多个基因组位置中每一个处结束的cfDNA分子的第二组定量测量中的至少一个；以及分析所述第一组定量测量或所述第二组定量测量中的至少一个，以检测所述赘生物。

23.根据权利要求22所述的方法，所述方法还包括使用训练过的机器学习分类器分析所述第一组定量测量和所述第二组定量测量中的至少一个，以检测所述赘生物。

24.根据权利要求22或23所述的方法，所述方法还包括分析所述第一组定量测量和所述第二组定量测量中的至少一个，以确定所述赘生物的肿瘤变体等位基因频率。

25.根据权利要求22至24中任一项所述的方法，所述方法还包括分析所述第一组定量测量和所述第二组定量测量中的至少一个，以确定所述赘生物的代谢肿瘤体积。

26.根据权利要求22至25中任一项所述的方法，所述方法还包括检测AUC至少约为0.80的赘生物。

27.一种用于检测个体中的赘生物的方法，所述方法包括：

在所述测序读数中鉴定或已经鉴定了多种独特的经测序的无细胞核酸分子中每一种的片段长度；

选择所述测序读数的子集，所述测序读数的子集对应于所述多种独特的经测序的无细胞核酸分子中的具有指示亚单核体片段或亚二体片段的片段长度的无细胞核酸分子；

分析所述测序读数的子集以确定指示所述亚单核体片段或所述亚二体片段的所鉴定的片段长度的频率；以及

至少部分基于将计算模型应用于指示所述亚单核体片段或所述亚二体片段的所鉴定的片段长度，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述计算模型是利用来自患有赘生物的第一组个体和未患赘生物的第二组对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；以及

28.根据权利要求27所述的方法，其中小于160个碱基对(bp)的片段长度表示所述亚单核体片段。

29.根据权利要求27或28所述的方法，其中230bp与310bp之间的片段长度表示所述亚二体片段。

30.根据权利要求27至29中任一项所述的方法，其中至少部分通过对所述个体的身体样品的核酸分子进行大小选择以富集所述亚单核体片段和所述亚二体片段中的至少一种来获得多种无细胞核酸分子。

31.一种用于检测个体中的赘生物的方法，所述方法包括：

分析所述测序读数以确定多个单核苷酸变体(SNV)的变体等位基因频率(VAF)；以及

至少部分基于将计算模型应用于所述多个SNV的所确定的VAF，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸，其中所述计算模型是利用来自第一组患有赘生物的个体和第二组未患赘生物的对照个体的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；以及

32.根据权利要求31所述的方法，所述方法还包括确定所述多个SNV中的所确定的VAF的平均值；以及至少部分基于将计算模型应用于所测定的平均值，确定或已经确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸。

33.根据权利要求31或32所述的方法，所述方法还包括将所述多个SNV中的所测定的VAF的测定平均值与参考值进行比较，以确定所述无细胞核酸测序读数是否包含指示源自赘生物的无细胞核酸分子的核苷酸。

34.根据权利要求31至33中任一项所述的方法，所述方法还包括确定所检测的赘生物的代谢肿瘤体积。

35.根据权利要求31至34中任一项所述的方法，所述方法还包括确定所检测的赘生物的分期。

36.根据权利要求31至35中任一项所述的方法，所述方法还包括确定所检测的赘生物复发的可能性。

37.根据权利要求10至36中任一项所述的方法，其中使用一组捕获诱饵分子从所述个体的身体样品中富集所述多种无细胞核酸分子，

其中所述捕获诱饵分子的组被配置成选择性地与至少部分地和所述捕获诱饵分子组中的至少一个序列互补的序列杂交，

其中所述捕获诱饵分子的组被配置成选择性地与至少部分和选自表1中的基因组基因座的组中的至少一个基因组基因座互补的序列杂交。

38.根据权利要求10至37中任一项所述的方法，其中所述赘生物包括肺癌。

39.一种用于杂交捕获的诱饵组，所述诱饵组包含至少1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、200种、300种、400种、500种、600种、700种、800种、900种、1000种、1200种、1400种、1600种、1800种、2000种、2200种、2400种、2600种、2800种、3000种、3200种、3400种、3600种、3800种、4000种、4200种、4400种、4600种、4800种或5000种不同的含多核苷酸的探针，其中所述含多核苷酸的探针被共同配置成与源自表1中所示的基因组区域的至少5％的cfDNA杂交。

40.根据权利要求39所述的诱饵组，其中每种所述含多核苷酸的探针具有长度为至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、120个、140个、160个、180个、200个、220个、240个、260个、280个或300个核苷酸的核酸序列。

41.根据权利要求39或40所述的诱饵组，其中每个所述含多核苷酸的探针具有长度不超过300个、280个、260个、240个、220个、200个、180个、160个、140个、120个、100个、90个、80个、70个、60个、50个、40个、30个、20个、10个、9个、8个、7个、6个、5个、4个、3个或2个核苷酸的核酸序列。

42.根据权利要求39至41中任一项所述的诱饵组，其中将每个所述含多核苷酸的探针与亲和部分缀合。

43.根据权利要求42所述的诱饵组，其中所述亲和部分包含生物素。

44.根据权利要求39至43中任一项所述的诱饵组，其中所述多核苷酸探针被共同配置成与来源于表1中所示基因组区域的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或100％的cfDNA杂交。

45.根据权利要求39至44中任一项所述的诱饵组，其中所述诱饵组中的全部多核苷酸探针被配置成与源自表1中所示的基因组区域的至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或100％的cfDNA分子杂交。

46.一种混合物，其包含：

来自生物样品的DNA；和

权利要求39至45中任一项的诱饵组。

47.一种进行捕获杂交的方法，所述方法包括：

获得源自无细胞DNA来源的多种DNA分子；以及

将一部分的所述多种DNA分子与捕获诱饵分子组混合，其中所述捕获诱饵分子组被配置成选择性地与至少部分地和所述捕获诱饵分子组的至少一个序列互补的DNA分子杂交，

其中所述捕获诱饵分子组被配置成选择性地与DNA分子杂交，所述DNA分子包含含有选自表1中基因组基因座的组中的基因组基因座的至少一部分的序列。

48.根据权利要求47所述的方法，其中所述基因组基因座的所述部分包含所述基因组基因座的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、120个、140个、160个、180个、200个、220个、240个、260个、280个或300个连续核苷酸。

49.根据权利要求47或48所述的方法，其中所述部分为所述多种DNA分子的至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。

50.根据权利要求47所述的方法，所述方法还包括优化所述多种DNA分子部分与所述捕获诱饵分子组的摩尔比，以产生独特分子总数的最佳回收率，或产生双链化的无细胞DNA分子总数的最佳回收率，其中对所述来源的无细胞DNA双链体的两条链都进行测序，其中所述摩尔比为至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。

51.根据权利要求47所述的方法，所述方法还包括使用所述捕获杂交的计算机模拟来确定与所述捕获诱饵分子组混合的所述多种DNA分子部分，其中所述部分不超过约100％、95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％或5％。

52.根据权利要求47至51中任一项所述的方法，其中所述捕获诱饵分子组包括权利要求39至45中任一项的诱饵组。

53.一种核酸分子，其包含：

来源于生物样品的核酸分子，其中所述核酸分子是DNA或cDNA；

位于所述核酸分子侧翼的纠错独特标识符对，其中所述纠错独特标识符各自是DNA分子，并且所述纠错独特标识符的组合在测序结果中提供了所述核酸分子的鉴定；和

纠错双指数样品条形码对，其中所述纠错独特标识符各自是DNA分子，并且所述纠错独特标识符组合在测序结果中提供了生物样品的鉴定。

54.一种制备用于测序的DNA文库的方法，其包括：

将部分Y-衔接子对连接到核酸分子的集合上，使得每种核酸分子的侧翼为部分Y-衔接子对，

其中每个核酸分子是DNA或cDNA，并且核酸分子的所述集合来源于生物样品，

其中每个部分Y-衔接子包括纠错独特标识符和在接枝聚合酶链式反应中退火的引物的序列，并且

其中每个核酸分子上所述两个纠错独特标识符的每个侧翼组合鉴定所述部分Y-衔接子对与该核酸分子的连接；以及

将纠错双指数样品条形码对和通用引物的序列接枝到每个连接产物上，使得所述连接产物的侧翼是所述纠错双指数样品条形码和所述通用引物的序列，其中所述纠错双指数样品条形码的组合鉴定所述核酸分子的集合。

55.一种减轻在测序文库制备过程中出现的核苷酸颠换的方法，其包括：

在反应混合物中用活性氧种类清除剂或酶进行序列文库制备。

56.根据权利要求55所述的方法，其中在所述反应混合物中用所述活性氧种类清除剂次牛磺酸进行序列捕获反应。

57.根据权利要求55或56所述的方法，其中所述活性氧种类清除剂是谷胱甘肽、次牛磺酸或亚硫酸钠；并且其中所述酶是尿嘧啶-DNA糖基化酶(UDG)、甲酰胺基嘧啶[fapy]-DNA糖基化酶(FPG)或过氧化氢酶。

58.一种对个体进行临床操作的方法，所述方法包括：

获得或已经获得无细胞核酸分子的集合的测序结果，其中所述无细胞核酸分子的集合来源于个体的第一活检物；

获得或已经获得细胞衍生的核酸分子集合的测序结果，其中所述细胞来源的核酸分子的集合来源于所述个体的第二活检物；

在所述无细胞核酸测序结果和所述细胞来源的核酸测序结果中鉴定或已经鉴定了单核苷酸变体；

利用第一计算模型和所鉴定的单核苷酸变体，确定或已经确定所述无细胞核酸测序结果包含源自赘生物的核苷酸，

其中所述第一计算模型是利用来自患有赘生物的个体的队列和未患赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且

其中所述第一计算模型整合了一个或多个以下特征：细胞来源的DNA贝叶斯背景、cfDNA贝叶斯背景、种系深度、短片段得分1、短片段得分2或cfDNA分子的基因组起始和结束位置；以及

基于确定所述无细胞核酸测序结果包含源自赘生物的核酸序列，对所述个体进行临床操作。

59.根据权利要求58所述的方法，其中所述第一计算模型还整合了一个或多个以下特征：转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量评分、变体等位基因频率(VAF％)、平均条形码家族规模、cfDNA分子中的变异位置、多基因风险评分或核酸酶基序。

60.根据权利要求58或59所述的方法，其中所述第一活检物和所述第二活检物是相同的血液活检物，并且所述血液活检物被分成无细胞级分和细胞级分，并且其中所述无细胞级分用于来源无细胞核酸分子，而所述细胞级分用于来源细胞来源的核酸分子。

61.根据权利要求58至60中任一项所述的方法，其中从分析中去除了一些经鉴定的变体，其中所述被去除的变体包括来自克隆性造血基因的变体或其它非恶性组织类型中的体细胞突变。

62.根据权利要求58至61中任一项所述的方法，其中从分析中去除一些经鉴定的变体，且其中被去除的变体包括存在于所述细胞来源的核酸测序结果中的变体。

63.根据权利要求58至62中任一项所述的方法，所述方法还包括：

在所述无细胞核酸测序结果和细胞来源的核酸测序结果中鉴定或已经鉴定了拷贝数变异；以及

利用第二计算模型和所鉴定的拷贝数变异，确定或已经确定了所述无细胞核酸测序结果包含源自赘生物的核苷酸，

其中所述第二计算模型是利用来自患有赘生物的个体的队列和未患赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的，并且

其中所述第二计算模型整合了一个或多个以下特征：均匀分布的基因组窗口区域的数量、GISTIC“热点”区域的数量和与均匀窗口相比的GISTIC“热点”区域的富集；

其中对所述个体进行临床操作是基于确定了所述无细胞核酸测序结果包含源自赘生物的核酸序列。

64.根据权利要求58至63中任一项所述的方法，所述方法还包括：

在所述两个无细胞核酸测序结果中鉴定或已经鉴定了每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的基因组位置；

确定或已经确定了每个独特的经测序的无细胞核酸的第一个和最后一个核苷酸的经鉴定的基因组位置的频率；以及

利用第三计算模型和每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的经鉴定的基因组位置的频率，确定或已经确定了所述无细胞核酸测序结果包含源自赘生物的核苷酸，其中所述第三计算模型是利用来自患有赘生物的个体的队列和未患赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；

其中对所述个体进行临床操作是基于确定所述无细胞核酸测序结果包含源自赘生物的核酸序列。

65.根据权利要求64所述的方法，所述方法还包括：

整合所述置信度得分以生成指示所述个体患有赘生物的汇总得分；

其中对所述个体进行所述临床操作是基于指示所述个体患有赘生物的汇总得分。

66.一种对个体治疗赘生物的方法，所述方法包括：

基于确定所述无细胞核酸测序结果包含源自赘生物的核酸序列来治疗所述个体。

67.根据权利要求66所述的方法，其中所述第一计算模型还整合了一个或多个以下特征：转换/颠换、双链体支持、传递异常值、作图质量、癌症热点、校正的UMI错误、Phred质量评分、变体等位基因频率(VAF％)、平均条形码家族规模、cfDNA分子中的变异位置、多基因风险评分或核酸酶基序。

68.根据权利要求66或67所述的方法，其中所述第一活检物和所述第二活检物是相同的血液活检物，并且所述血液活检物被分成无细胞级分和细胞级分，并且其中所述无细胞级分用于来源无细胞核酸分子，而所述细胞级分用于来源细胞来源的核酸分子。

69.根据权利要求66至68中任一项所述的方法，其中从分析中去除了一些经鉴定的变体，其中所述被去除的变体包括来自克隆性造血基因的变体。

70.根据权利要求66至69中任一项所述的方法，其中从分析中去除一些经鉴定的变体，且其中所去除的变体包含存在于所述细胞来源的核酸测序结果中的变体。

71.根据权利要求66至70中任一项所述的方法，所述方法还包括：

在所述无细胞核酸测序结果和所述细胞来源的核酸测序结果中鉴定或已经鉴定了拷贝数变异；

其中治疗所述个体是基于确定了所述无细胞核酸测序结果包含源自赘生物的核酸序列。

72.根据权利要求66至71中任一项所述的方法，所述方法还包括：

利用第三计算模型和每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的经鉴定的基因组位置的所述频率，确定或已经确定了所述无细胞核酸测序结果包含源自赘生物的核苷酸，其中所述第三计算模型是利用来自患有赘生物的个体的队列和未患赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据构建的；

其中对所述个体进行治疗是基于确定了所述无细胞核酸测序结果包含源自赘生物的核酸序列。

73.根据权利要求72所述的方法，所述方法还包括：

以及整合所述置信度得分以生成指示所述个体患有赘生物的汇总得分；

其中对所述个体进行治疗是基于表明所述个体患有赘生物的汇总得分。

74.一种在测序文库上进行捕获杂交的方法，所述方法包括：

获得测序文库，所述测序文库包含源自无细胞DNA来源的多种独特的测序分子；

将所述测序文库的部分与捕获诱饵分子混合，以杂交并下拉被所述捕获诱饵识别的特定序列，其中所述测序文库的部分为至少10％、25％或50％。

75.根据权利要求74所述的方法，其中优化所述测序文库的部分与所述捕获诱饵的摩尔比以产生总独特分子的最佳回收率或产生总双链化的无细胞DNA分子的最佳回收，其中对所述来源的无细胞DNA双链体的两条链进行测序。

76.根据权利要求74或75所述的方法，其中所述捕获杂交的计算机模拟被用于确定与捕获诱饵混合的测序文库的部分。

77.一种对个体治疗赘生物的方法，所述方法包括：

获得或已经获得细胞衍生的核酸分子的集合的测序结果，其中所述细胞来源的核酸分子的集合来源于所述个体的第二活检物；

在所述无细胞核酸测序结果和所述细胞来源的核酸测序结果二者中鉴定或已经鉴定了拷贝数变异；

利用计算模型和所鉴定的拷贝数变异，确定或已经确定了所述无细胞核酸测序结果包含源自赘生物的核苷酸，

其中所述第二计算模型整合了一个或多个以下特征：均匀分布的基因组窗口区域的数量、GISTIC“热点”区域的数量以及与均匀窗口相比的GISTIC“热点”区域的富集；以及

78.一种治疗个体中的赘生物的方法，所述方法包括：

获得或已经获得无细胞核酸分子的集合的测序结果，其中所述无细胞核酸分子的集合来源于个体的活检物；

确定或已经确定了每个独特的经测序的无细胞核酸的第一个和最后一个核苷酸的经鉴定的基因组位置的频率；

利用计算模型和每个独特的经测序的无细胞核酸分子的第一个和最后一个核苷酸的经鉴定的基因组位置的所述频率，确定或已经确定了所述无细胞核酸测序结果包含源自赘生物的核苷酸，其中所述第三计算模型是利用来自患有赘生物的个体的队列和未患赘生物的对照个体的队列的无细胞核酸测序数据和细胞来源的核酸测序数据建立的；以及

基于确定了所述无细胞核酸测序结果包含源自赘生物的核酸序列来治疗所述个体。