CN117604082A

CN117604082A - 分析核酸片段的方法

Info

Publication number: CN117604082A
Application number: CN202311593488.9A
Authority: CN
Inventors: 欧金尼·纳姆萨拉伊夫; 马尼什·简恩
Original assignee: Greer Co ltd
Current assignee: Greer Co ltd
Priority date: 2016-08-10
Filing date: 2017-08-10
Publication date: 2024-02-27
Also published as: EP3497242A1; US20230203565A1; EP3497242A4; CN109844132A; US10626443B2; CN109844132B; US20180066306A1; US20200248234A1; WO2018031808A1; US11603553B2

Abstract

本申请涉及分析核酸片段的方法。本文提供了用于富集生物样品中的靶核酸并分析所述核酸的方法。在一些情况下，富集生物样品中与癌症或肿瘤相关的靶核酸。在一些情况下，富集生物样品中的靶核酸，并且所述靶核酸的长度不同。在一些情况下，使用一种或多种探针来富集所述生物样品中的靶核酸。在一些情况下，一种或多种探针与靶核酸的一个或多个末端杂交。

Description

分析核酸片段的方法

本申请是申请日为2017年08月10日，申请号为201780062670.8，发明名称为“分析核酸片段的方法”的申请的分案申请。

交叉引用

本申请要求于2016年8月10日提交的美国临时专利申请号62/373,332的权益，该申请通过引用整体并入本文。

发明背景

核酸的扩增和所得扩增产物的分析用于克隆、测序、基因型分型和基因表达。已开发了多种核酸扩增技术，如聚合酶链反应(PCR)、链置换扩增和基于转录的扩增。遗憾的是，目前的方法在保留核酸末端的序列信息方面是非特异性的。例如，在PCR中，正向和反向寡核苷酸与靶核酸的结合将产生具有对应于正向与反向寡核苷酸之间的靶核酸序列的序列的扩增子。在许多情况下，正向和反向寡核苷酸可在除靶核酸末端外的区域结合，从而产生比该靶核酸更短的扩增子(例如，丢失靶核酸末端的序列信息)。然而，核酸片段(例如，无细胞核酸片段)末端处的序列信息在疾病预测和诊断中可能非常有用。因此，本公开内容提供了用于富集和扩增样品中的靶核酸、同时保留靶核酸末端处的序列信息的方法。

核酸扩增和所得扩增产物(例如，扩增子)的后续分析可以在包括分子克隆、测序、基因型分型和基因表达在内的许多分子测定中进行。当样品含有相对少量的起始模板材料(例如，核酸)时，扩增可能特别有用。多个报道指出血浆中的循环无细胞DNA(cfDNA)可能是非随机片段化的。血浆中极低浓度的cfDNA(10-5000个基因组/ml)可使片段化模式的研究和检测变得困难。虽然已经开发了诸如全基因组扩增(WGA)等技术来扩增少量核酸，但扩增子可能比产生出扩增子的模板片段更短。在一些情况下，起始模板核酸片段末端处的核苷酸不被复制(例如，这些技术可能无法保留模板核酸片段末端处的序列信息)，并且不能用于确定核酸片段化模式。本公开内容提供了用于扩增核酸分子(例如，无细胞DNA分子)、同时保留分子末端处的序列信息的组合物和方法。此外，本公开内容提供了用于确定扩增(其中保留了核酸分子末端处的序列信息)后的核酸片段化模式的实施方案。

发明内容

在一些方面，本公开内容提供了包括通过分析来自受试者的生物样品中的无细胞脱氧核糖核酸(DNA)片段来鉴别所述受试者中的核酸片段化模式的方法。在一些实施方案中，所述无细胞DNA片段源自正常细胞并且可能来自病变细胞。在一些实施方案中，所述方法包括从所述受试者获得所述生物样品。在一些实施方案中，所述方法包括富集所述生物样品。在一些实施方案中，所述方法包括富集所述生物样品中的具有可映射到一个或多个基因座的末端的一组无细胞DNA片段。在一些实施方案中，所述一个或多个基因座与疾病相关。在一些实施方案中，所述富集包括使至少一种探针与所述无细胞DNA片段的每个末端杂交。在一些实施方案中，所述探针包含与所述无细胞DNA片段的至少一个末端互补的给定序列。在一些实施方案中，所述探针的给定序列的每个核苷酸与所述无细胞DNA片段杂交。在一些实施方案中，所述方法包括对该组富集的无细胞DNA片段或其衍生物进行测序以获得多个序列。在一些实施方案中，所述方法包括将所述多个序列与参考进行比对以确定所述多个序列的基因组位置。在一些实施方案中，所述基因组位置包括对应于所述无细胞DNA片段的末端的位置。在一些实施方案中，所述方法包括鉴别所述多个序列中具有特定片段化模式的一组基因座。在一些实施方案中，该组基因座对应于与所述疾病相关的一个或多个基因座。在一些实施方案中，所述方法包括对获得的生物样品进行酶促操作。在一些实施方案中，对该组无细胞DNA片段进行测序不包括对富集的无细胞DNA片段进行DNA扩增的步骤。在一些实施方案中，鉴别一组基因座包括将所述多个序列与参考基因组进行比较以鉴别具有特定片段化模式的该组基因座。在一些实施方案中，在该组基因座的每个基因座处，相对于所述参考基因组具有序列变异的序列的数目高于阈值。在一些实施方案中，所述疾病为肿瘤。在一些实施方案中，所述病变细胞包括肿瘤细胞。在一些实施方案中，所述多个序列为多个序列读取。

在一些方面，本公开内容提供了包括通过分析来自受试者的生物样品中的无细胞脱氧核糖核酸(DNA)片段来鉴别所述受试者中的核酸片段化模式的方法。在一些实施方案中，所述无细胞DNA片段源自正常细胞并且可能来自病变细胞。在一些实施方案中，所述方法包括从所述受试者获得所述生物样品。在一些实施方案中，所述方法包括通过探针捕获来富集所述生物样品中的具有可映射到一个或多个基因座的末端的一组无细胞DNA片段。在一些实施方案中，所述一个或多个基因座与疾病相关。在一些实施方案中，所述富集包括使至少一种探针与所述无细胞DNA片段的每个末端杂交。在一些实施方案中，所述探针包含与所述无细胞DNA片段的至少一个末端互补的给定序列。在一些实施方案中，所述探针的给定序列的每个核苷酸与所述无细胞DNA片段杂交。在一些实施方案中，所述方法包括鉴别该组富集的无细胞DNA片段中具有特定片段化模式的一组基因座。在一些实施方案中，通过阵列杂交鉴别该组基因座。在一些实施方案中，通过核酸扩增鉴别该组基因座。在一些实施方案中，所述核酸扩增包括聚合酶链反应(PCR)。在一些实施方案中，所述疾病为癌症。

在一些方面，本公开内容提供了包括扩增来自受试者的生物样品中的无细胞核酸分子的方法。在一些实施方案中，所述方法包括将衔接子连接到来自所述受试者的生物样品的所述无细胞核酸分子的每个末端。在一些实施方案中，所述衔接子包含用于限制性内切核酸酶的识别序列。在一些实施方案中，所述限制性内切核酸酶能够在所述衔接子与所述无细胞核酸分子的末端之间的连接处切割。在一些实施方案中，所述方法包括使用在所述无细胞核酸分子的每个末端处的衔接子扩增在每个末端处包含衔接子的所述无细胞核酸分子，以生成在每个末端处包含衔接子的扩增的无细胞核酸分子。在一些实施方案中，所述方法包括使用所述限制性内切核酸酶将至少一个衔接子与在每个末端包含衔接子的所述扩增的无细胞核酸分子的至少一个末端分离。在一些实施方案中，所述分离发生在所述衔接子与所述无细胞核酸分子的末端之间的连接处。在一些实施方案中，所述无细胞核酸分子是双链的。在一些实施方案中，所述限制性内切核酸酶是II型核酸酶。在一些实施方案中，所述II型核酸酶选自BtsCI、FOKI、AP内切核酸酶和S1内切核酸酶。在一些实施方案中，所述样品中的所述无细胞核酸分子的浓度为每毫升约10至10000个基因组。在一些实施方案中，所述生物样品选自全血、血浆、血清、尿液、脑脊液、血沉棕黄层及其组合。在一些实施方案中，所述方法包括修复来自所述受试者的生物样品的所述无细胞核酸分子的一个或多个末端。在一些实施方案中，所述修复包括使所述无细胞核酸分子的一个或多个末端中的至少一个平端化，以包含末端5′-磷酸基团和3′-羟基基团中的至少一种。在一些实施方案中，所述修复进一步包括在所述无细胞核酸分子的一个或多个末端处附接脱氧腺苷核苷酸。在一些实施方案中，所述衔接子是双链的。在一些实施方案中，所述方法包括使至少一种探针与所述扩增的无细胞核酸分子的每个末端杂交。在一些实施方案中，所述探针包含与所述扩增的无细胞核酸分子的至少一个末端互补的给定序列。在一些实施方案中，所述探针的给定序列的每个核苷酸与扩增的无细胞核酸分子杂交。在一些实施方案中，所述方法包括对所述扩增的无细胞核酸分子进行测序。在一些实施方案中，所述方法包括对所述扩增的无细胞核酸分子进行测序以获得对应于所述无细胞核酸分子的多个序列。在一些实施方案中，所述方法包括将所述多个序列与参考基因组进行比对。在一些实施方案中，所述方法包括确定所述多个序列的末端在该处以高于阈值的速率发生的所述参考基因组中的一组基因组位置，从而确定所述受试者中的核酸片段化模式。

在一些方面，本公开内容提供了包括扩增来自受试者的生物样品中的无细胞核酸分子的方法。在一些实施方案中，所述方法包括将衔接子连接到来自所述受试者的生物样品的所述无细胞核酸分子的每个末端。在一些实施方案中，与所述无细胞核酸分子连接的所述衔接子的末端包含腺嘌呤碱基和胸腺嘧啶碱基。在一些实施方案中，所述方法包括使用在所述无细胞核酸分子的每个末端处的所述衔接子扩增在每个末端处包含衔接子的所述无细胞核酸分子，以生成在每个末端包含衔接子的扩增的无细胞核酸分子。在一些实施方案中，所述扩增的无细胞核酸分子的扩增子在所述胸腺嘧啶碱基的位置包含尿嘧啶碱基、尿苷碱基和脱氧尿苷碱基中的一种。在一些实施方案中，所述方法包括使用所述限制性内切核酸酶将至少一个衔接子与在每个末端处包含衔接子的所述扩增的无细胞核酸分子的至少一个末端分离。在一些实施方案中，所述分离发生在所述衔接子与所述无细胞核酸分子的末端之间的连接处。在一些实施方案中，所述方法包括用尿嘧啶-DNA糖基化酶(UDG)处理所述扩增的无细胞核酸分子，其中所述UDG处理去除所述尿嘧啶碱基、所述尿苷碱基和所述脱氧尿苷碱基中的一种，从而产生脱嘌呤/脱嘧啶(AP)位点。在一些实施方案中，所述扩增包括使用在所述一个或多个引物的3’端处包含尿嘧啶碱基、尿苷碱基和脱氧尿苷碱基中的一种的一个或多个引物。在一些实施方案中，所述限制性内切核酸酶为AP内切核酸酶，并且所述AP内切核酸酶在所述AP位点处产生切口。在一些实施方案中，所述方法包括用对单链核酸具有特异性的另外的核酸酶处理所述多个无细胞核酸分子，从而在切割位点处将所述衔接子与所述无细胞核酸分子分离。

在一些方面，本公开内容提供了包括分析来自所述受试者的生物样品中的无细胞核酸分子的方法。在一些实施方案中，所述方法包括从所述受试者获得所述生物样品。在一些实施方案中，所述方法包括通过探针捕获来富集所述生物样品中的具有可映射到一个或多个基因座的末端的一组无细胞核酸片段。在一些实施方案中，所述一个或多个基因座与疾病相关。在一些实施方案中，所述富集包括使探针与所述无细胞核酸片段的每个末端杂交。在一些实施方案中，所述探针包含与所述无细胞核酸片段的第一末端互补的第一序列和与所述无细胞核酸片段的第二末端互补的第二序列。在一些实施方案中，所述第一序列和所述第二序列被第三序列分离。在一些实施方案中，所述方法包括将所述无细胞核酸分子的所述第一末端与所述无细胞核酸分子的所述第二末端连接，从而形成包含对应于所述第三序列的序列的环化无细胞核酸分子。在一些实施方案中，所述方法包括确定所述生物样品中所述环化的无细胞核酸分子的量。在一些实施方案中，该组无细胞核酸分子中的至少两个是不同长度的。在一些实施方案中，所述方法包括将所述无细胞核酸分子的所述第一末端延伸到所述无所述细胞核酸分子的所述第二末端。在一些实施方案中，使用连接酶进行所述连接。在一些实施方案中，所述方法包括扩增所述环化的无细胞核酸分子。在一些实施方案中，所述扩增包括进行滚环扩增。在一些实施方案中，所述确定包括进行定量聚合酶链反应(PCR)。在一些实施方案中，所述疾病为癌症。

在另一方面，本公开内容提供了核酸探针。在一些实施方案中，所述核酸探针包含沿着所述核酸探针的3’端的第一探针序列。在一些实施方案中，所述第一探针序列沿着靶核酸的3’端与第一靶序列至少部分互补。在一些实施方案中，所述核酸探针包含沿着所述核酸探针的5’端的第二探针序列。在一些实施方案中，所述第二探针序列沿着所述靶核酸的5’端与第二靶序列至少部分互补。在一些实施方案中，所述核酸探针包含所述第一探针序列与所述第二探针序列之间的第三探针序列。在一些实施方案中，与无细胞核酸分子的其他区域相比，所述核酸探针能够以至少80％的富集效率富集所述无细胞核酸分子的末端。在一些实施方案中，所述富集效率为至少90％。在一些实施方案中，所述富集效率为至少95％。在一些实施方案中，所述富集效率为至少98％。在一些实施方案中，所述第一探针序列和所述第二探针序列中的至少一个可映射到与疾病相关的一个或多个基因座。在一些实施方案中，所述疾病为癌症。

在一些方面，本公开内容提供了用于分析来自受试者的生物样品中的无细胞核酸分子的试剂盒。在一些实施方案中，所述试剂盒包含一种或多种核酸探针。在一些实施方案中，所述试剂盒包含关于指导受试者使用核酸探针组分析来自所述受试者的生物样品中的所述无细胞核酸分子的说明书。

援引并入

本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文，其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请均通过引用并入。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。通过参考以下对其中利用到本发明的一些原理的说明性实施方式加以阐述的详细描述和附图，将会获得对本发明的特征和优点的更好理解，在这些附图中：

图1A-图1C图示了靶核酸片段的变性，以及探针(例如，捕获探针)可以如何与核酸片段的每个末端杂交的一些实施方案；

图2A图示了单个捕获探针与靶核酸的一条链的杂交，其中单个捕获探针比靶核酸长，并且包含与靶核酸链基本上或部分互补的序列。图2B图示了单个捕获探针与靶核酸链的杂交，其中该捕获探针包含与靶核酸的末端互补的区域，其中靶核酸末端与捕获探针的杂交导致靶核酸形成核酸环；

图3A-图3B图示了单链连接探针与同靶核酸链的任一端杂交的捕获探针的杂交，以及连接探针与靶核酸链的酶促连接；

图4A-图4B图示了双链连接探针与同靶核酸链的任一端杂交的捕获探针的杂交，其中该双链连接探针包含与同靶核酸链的末端不互补的捕获探针的至少一部分基本上互补的粘端突出端。图4C图示了单个连接探针与同靶核酸链的两端杂交的捕获探针的杂交，从而形成包含靶核酸和连接探针的环；

图5A-图5C图示了捕获探针可如何与靶核酸链的至少一个3’端杂交的一些实施方案，以及DNA合成可在其下发生以延伸靶核酸链的3’端的条件；

图6图示了连接探针与捕获探针的杂交，该杂交在邻近于与靶核酸链互补的区域的捕获探针区域处，以及连接探针与靶核酸链的连接；以及

图7A-图7C图示了(图7A-图7B)单个捕获探针或(图7C)两部分捕获探针(例如，两个探针)与靶核酸链的杂交，其中捕获探针的一部分包含与靶核酸的末端互补的两个区域，其中靶核酸末端与捕获探针的杂交导致靶核酸形成核酸环。

图8A-图8B图示了本公开内容的实施方案，其中衔接子连接到核酸片段的每个平端，并且引物与衔接子杂交以扩增核酸片段。

图9A-图9B图示了衔接子与核酸片段在II型切割位点处的分离，其中衔接子包含IIs型酶识别序列，并且酶切割位点位于核酸片段的末端处。

图10A-图10C图示了本公开内容的实施方案，其中在衔接子末端处包含胸腺嘧啶(T)和/或胸苷碱基的衔接子与核酸片段连接，dU被引入扩增产物，产生AP位点，并且该位点被切割。

图11图示了本公开内容的另一实施方案，其中在用AP内切核酸酶处理以在AP位点处产生切口并加热以使链变性后，使用对单链核酸具有特异性的核酸酶将衔接子的剩余单链部分与核酸片段分离。

图12A图示了示例性捕获探针，其包含5’端、共同(common)序列和3’端。图12B图示了捕获探针和4种不同长度的潜在杂交靶标。

图13图示了根据本公开内容方法的示例性热循环工作流程。

图14A图示了与靶核酸杂交的捕获探针，并且进行间隙填充反应以合成靶核酸的3’与5’端之间的序列。图14B图示了在间隙填充反应后使用连接酶连接靶核酸的3’和5’端，从而使靶核酸环化。

图15图示了对环化的靶核酸进行的qPCR。

图16描绘了示出靶核酸浓度与qPCR信号之间的相关性的示例性结果。

具体实施方式

通常，本公开内容的实施方案涉及用于选择性富集和/或扩增样品中的靶核酸同时保留靶核酸的一个或多个末端的序列信息的方法。本公开内容还提供了用于选择性富集和/或扩增靶核酸同时保留靶核酸的一个或多个末端的序列信息的计算机软件产品和系统。

下面参考示例性应用来描述数个方面以供说明。应当理解，阐述了许多具体细节、关系和方法以提供对本文所述特征的完全理解。对于本领域普通技术人员将会显而易见的是，可以在没有一个或多个具体细节的情况下或使用其他方法实践本文所述的特征。本文所述的特征不受所说明的动作或事件的顺序的限制，因为一些动作可以以不同的顺序发生和/或与其他动作或事件同时发生。此外，并非需要所有说明的动作或事件来实现根据本文所述的特征的方法。

本文使用的术语仅出于描述特定情况的目的，而非意在限制。如本文所用，除非上下文另有明确说明，否则单数形式“一个”、“一种”和“该”也旨在包括复数形式。此外，在术语“包括”、“具有”、“伴有”或其变体用于详细描述和/或权利要求时，这样的术语旨在是包含性的，类似于术语“包含”。

术语“约”或“大约”可指在由本领域普通技术人员确定的特定值的可接受误差范围内，该可接受误差范围将部分取决于该值如何测量或确定，即，测量系统的局限性。例如，根据本领域中的实践，“约”可指标准偏差在1或大于1内。或者，“约”可指给定值的至多20％、至多10％、至多5％或至多1％的范围。或者，特别是对于生物系统或过程，该术语可指在某值的数量级内，在5倍以内，更优选在2倍以内。在本申请和权利要求中描述了特定值的情况下，除非另有说明，否则应该假定术语“约”是指在该特定值的可接受的误差范围内。术语“约”具有本领域普通技术人员所通常理解的含义。在一些实施方案中，术语“约”是指±10％。在一些实施方案中，术语“约”是指±5％。

术语“附接”、“结合”、“耦合”和“连接”可互换使用，并且可指共价相互作用(例如，通过化学耦合)或非共价相互作用(例如，离子相互作用、疏水相互作用、氢键、杂交等)。

术语“特异性的”、“特异性地”或“特异性”可指与第一分子与多个其他分子中的任一个之间相比，第一分子与第二分子之间的稳定复合物的优先识别、接触和形成(例如，第一分子与多个其他分子中的任一个之间的稳定复合物的识别、接触或形成基本上很少至没有)。例如，两个分子可以是特异性附接的、特异性结合的、特异性耦合的或特异性连接的。例如，第一核酸与第二核酸之间的特异性杂交可以指在严格条件下第一核酸优先与第二核酸的特定核苷酸序列结合、双链体化或杂交。可能需要核酸序列中足够数目的互补碱基对来与靶核酸序列特异性杂交。针对涉及杂交的特异性和灵敏度可能需要高度的互补性，但不必是100％。

如本文所用的术语“癌症”可以指细胞的过度增殖、不受调节的细胞生长、缺乏分化、局部组织侵入、细胞发育异常(例如，细胞形状、数目、大小或色素形成的变化)或细胞转移。癌症的非限制性实例包括肾上腺癌、肛门癌、基底细胞癌、胆管癌、膀胱癌、血液癌症、骨癌、脑肿瘤、乳腺癌、支气管癌、心血管系统癌症、宫颈癌、结肠癌、结肠直肠癌、消化系统癌症、内分泌系统癌症、子宫内膜癌、食管癌、眼癌、胆囊癌、胃肠道肿瘤、肾癌、造血系统恶性肿瘤、咽喉癌、白血病、肝癌、肺癌、淋巴瘤、黑素瘤、间皮瘤、肌肉系统癌症、骨髓增生异常综合征(MDS)、骨髓瘤、鼻腔癌、鼻咽癌、神经系统癌症、淋巴系统癌症、口腔癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、直肠癌、肾盂癌、生殖系统癌症、呼吸系统癌症、肉瘤、唾液腺癌、骨骼系统癌症、皮肤癌、小肠癌、胃癌、睾丸癌、喉癌、胸腺癌、甲状腺癌、肿瘤、泌尿系统癌症、子宫癌、阴道癌或外阴癌。术语“淋巴瘤”可以指任何类型的淋巴瘤，包括B细胞淋巴瘤(例如，弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、小淋巴细胞淋巴瘤、套细胞淋巴瘤、边缘区B细胞淋巴瘤、伯基特淋巴瘤、淋巴浆细胞淋巴瘤、多毛细胞白血病或原发性中枢神经系统淋巴瘤)或T细胞淋巴瘤(例如，前体T淋巴母细胞淋巴瘤或外周T细胞淋巴瘤)。术语“白血病”可以指任何类型的白血病，包括急性白血病或慢性白血病。白血病的类型包括急性髓性白血病、慢性髓性白血病、急性淋巴细胞白血病、急性未分化白血病或慢性淋巴细胞白血病。在一些情况下，癌症患者未患有特定类型的癌症。例如，在一些情况下，患者可能患有不是乳腺癌的癌症。癌症的实例可包括引起实体瘤的癌症以及不引起实体瘤的癌症。此外，本文提及的任何癌症可以是原发性癌症(例如，以其首先开始生长的身体部位命名的癌症)或者继发性或转移性癌症(例如，源自身体的另一部位的癌症)。

术语“样品”、“生物样品”或“受试者样品”意在包括衍生自存活的或死亡的受试者的任何组织或材料。生物样品可以是无细胞样品。生物样品通常包含核酸(例如，DNA或RNA)或其片段。样品中的核酸可以是无细胞核酸。样品可以是液体样品或固体样品(例如，细胞或组织样品)。生物样品可以是体液，如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如，睾丸的鞘膜积液)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如，甲状腺、乳房)的抽吸液等。还可使用粪便样品。在各个实施方案中，已经富集无细胞DNA的生物样品(例如，经由离心方案获得的血浆样品)中的大部分DNA可以是无细胞的(例如，大于50％、60％、70％、80％、90％、95％或99％的DNA可以是无细胞的)。可以处理生物样品以物理地破坏组织或细胞结构(例如，离心和/或细胞裂解)，从而将细胞内组分释放到溶液中，该溶液可进一步含有用于制备样品以供分析的酶、缓冲液、盐、洗涤剂等。

本文公开的方法通常可用于分析和/或富集核酸(例如，循环和/或无细胞DNA片段)。本领域技术人员将会理解，核酸通常可指其分子由以长链连接的许多核苷酸组成的物质。核酸的非限制性实例包括人工核酸类似物(例如，肽核酸、吗啉代寡聚物、锁定核酸、乙二醇核酸或苏糖核酸)、染色质、niRNA、cDNA、DNA、单链DNA、双链DNA、基因组DNA、质粒DNA或RNA。在一些实施方案中，核酸可以是双链的或单链的。在一些实施方案中，样品可包含核酸，并且该核酸可以是细胞内的。在一些实施方案中，样品可包含核酸，并且该核酸可以是细胞外的(例如，无细胞的)。在一些实施方案中，样品可包含核酸(例如，染色质)，并且该核酸可以是片段化的。

可以以任何量富集样品。例如，本公开内容的方法可用于使样品中的一种或多种核酸富集50％(例如，富集效率可为约50％，从而导致样品中一种或多种核酸的浓度增加约50％)。本公开内容的任何方法的富集效率可小于约1％、约1％、约2％、约3％、约4％、约5％、约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约100％或大于约100％。在一些实施方案中，富集效率可落在一定范围内。例如，本公开内容的方法的富集效率可为约10％至约40％。

在一些实施方案中，本公开内容的方法包括使用一种或多种探针(例如，捕获探针和连接探针)和/或衔接子。通常，探针或衔接子可以是单链或双链的。探针或衔接子可以是包含一个或多个条形码、引物结合位点和/或切割位点的多核苷酸。探针可用于靶向和/或结合感兴趣的核酸，并且可用于后续富集步骤以富集样品中的靶核酸。在一些实施方案中，本公开内容的方法可包括与第二探针(例如，连接探针)相关联或结合的第一探针(例如，捕获探针)。例如，本公开内容的方法可包括与靶核酸结合的捕获探针，从而在核酸与具有粘性端突出端的捕获探针之间产生复合物。然后可使用连接探针与捕获探针的粘性端突出端结合。本公开内容的任何探针或衔接子可与可用于富集样品中的靶核酸的固体支撑物或提取部分相关联或耦合。在另一实例中，本公开内容的方法可包括与靶核酸的每个平端结合的双链衔接子。该衔接子可随后用于扩增靶核酸。

条形码序列通常可指一系列允许相应探针被唯一识别的核苷酸。条形码序列可具有任何数目的核苷酸。在一些实施方案中，条形码可包含少于约10个核苷酸。在一些实施方案中，条形码可包含约10个核苷酸。在一些实施方案中，条形码可包含约20个核苷酸。在一些实施方案中，条形码可包含约30个核苷酸。在一些实施方案中，条形码可包含约40个核苷酸。在一些实施方案中，条形码可包含约50个核苷酸。在一些实施方案中，条形码可包含约75个核苷酸。在一些实施方案中，条形码可包含至少约100个核苷酸。在一些实施方案中，条形码可包含至少约500个核苷酸。在一些实施方案中，条形码可包含约5至约15个核苷酸。在一些实施方案中，条形码可包含约15至约50个核苷酸。在一些实施方案中，条形码可包含约50至约100个核苷酸。例如，条形码可包含约15个核苷酸。在另一实例中，条形码序列可包含约50个核苷酸至约75个核苷酸。

通常，引物结合位点可以是其中单链寡核苷酸结合以启动复制的核酸区域。在包含双链核酸的一些实施方案中，引物结合位点可以在两条互补链中的一条(例如，待复制的链)上。引物结合位点可包含任何数目的核苷酸。在一些实施方案中，引物结合位点可包含约1至约50个核苷酸。在一些实施方案中，引物结合位点可包含约18至约22个核苷酸。在一些实施方案中，GC含量(例如，鸟嘌呤和胞嘧啶核苷酸的数目占引物结合位点中核苷酸总数目的百分比)可为约30％至70％。在一些实施方案中，GC含量可小于40％。在一些实施方案中，GC含量可大于60％。

切割位点通常可以指位点特异性分子(例如，蛋白酶、内切核酸酶或酶)能够在该处切割多核苷酸的特定核苷酸序列。在一个实例中，在切割位点处切割多核苷酸将靶核酸从多核苷酸(例如，捕获探针、连接探针和/或衔接子)释放。识别位点通常可以指位点特异性分子(例如，蛋白酶、内切核酸酶或酶)所识别以切割多核苷酸的多核苷酸上的特定核苷酸序列。在一个实例中，在切割位点处切割多核苷酸将靶核酸从多核苷酸(例如，捕获探针、连接探针和/或衔接子)释放。在一些实施方案中，核酸酶在该处切割多核苷酸的位点可发生在核酸酶的识别位点之外。例如，II型限制性内切核酸酶可用于切割II型限制性内切核酸酶的识别序列外的多核苷酸。在一些实施方案中，切割位点可包含至少一个内切核酸酶识别位点。在一些实施方案中，内切核酸酶识别位点可包括I型内切核酸酶识别位点、II型内切核酸酶识别位点、IIS型内切核酸酶识别位点、IIP型内切核酸酶识别位点、IIC型内切核酸酶识别位点、IIT型内切核酸酶识别位点、III型内切核酸酶识别位点、IV型内切核酸酶识别位点或V型内切核酸酶识别位点。内切核酸酶识别位点的非限制性实例包括AatII识别位点、Acc65I识别位点、AccI识别位点、AclI识别位点、AatII识别位点、Acc65I识别位点、AccI识别位点、AclI识别位点、AcuI识别位点、AfeI识别位点、AflII识别位点、AgeI识别位点、AlwI识别位点、ApaI识别位点、ApaLI识别位点、ApoI识别位点、AscI识别位点、AseI识别位点、AsiSI识别位点、AvrII识别位点、BaeI识别位点、BamHI识别位点、BbsI识别位点、BbsI-HF识别位点、BbvI识别位点、BccI识别位点、BceAI识别位点、BcgI识别位点、BciVI识别位点、BclI识别位点、BclVI识别位点、BcoDI识别位点、BfuAI识别位点、BglII识别位点、Bme1580I识别位点、BmrI识别位点、BmtI识别位点、BpmI识别位点、BpuEI识别位点、BsaI识别位点、BsaI-HF识别位点、BsaHI识别位点、BsaXI识别位点、BseRI识别位点、BsgI识别位点、BsiEI识别位点、BsiWI识别位点、BsmAI识别位点、BsmBI识别位点、BsmFI识别位点、BsmI识别位点、BspCNI识别位点、BspMI识别位点、BspQI识别位点、BspEI识别位点、BspHI识别位点、BsrDI识别位点、BsrI识别位点、BsrGI识别位点、BssHII识别位点、BstBI识别位点、BstZ17I识别位点、BtgI识别位点、BtgZI识别位点、BtsCI识别位点、BtsI识别位点、BtsIMutI识别位点、ClaI识别位点、CspCI识别位点、DraI识别位点、EaeI识别位点、EagI识别位点、EarI识别位点和EciI识别位点、EcoRI识别位点、EcoRV识别位点、FauI识别位点、FokI识别位点、FseI识别位点、FspI识别位点、HaeII识别位点、HgaI识别位点、HincII识别位点、HindIII识别位点、HpaI识别位点、HphI识别位点、HpyAV识别位点、KasI识别位点、KpnI识别位点、MboII识别位点、MfeI识别位点、MluI识别位点、MlyI识别位点、MmeI识别位点、MnlI识别位点、MscI识别位点、MspA1I识别位点、MfeI识别位点、MluI识别位点、MscI识别位点、MspA1I识别位点、NaeI识别位点、NarI识别位点、NcoI识别位点、NdeI识别位点、NgoMIV识别位点、NheI识别位点、NmeAIII识别位点、NotI识别位点、NruI识别位点、NsiI识别位点、NspI识别位点、PacI识别位点、PciI识别位点、PleI识别位点、PmeI识别位点、PmlI识别位点、PsiI识别位点、PspOMI识别位点、PstI识别位点、PvuI识别位点、PvuII识别位点、SacI识别位点、SacII识别位点、SalI识别位点、SapI识别位点、SbfI识别位点、ScaI识别位点、SfaNI识别位点、SfcI识别位点、SfoI识别位点、SgrAI识别位点、SmaI识别位点、SmlI识别位点、SnaBI识别位点、SpeI识别位点、SphI识别位点、SspI识别位点、StuI识别位点、SwaI识别位点、XbaI识别位点、XhoI识别位点和XmaI识别位点。在特定实例中，切割位点可包含NotI内切核酸酶识别位点。

在一些实施方案中，探针与靶核酸的结合可形成双链DNA(例如，双链体复合物)。在一些实施方案中，整个靶核酸链可以与探针结合(例如，产生在靶核酸链的长度上为双链的DNA分子)。在一些情况下，并非靶核酸的所有核苷酸都可与探针杂交，从而导致形成二级核酸结构(例如，发夹、单核苷酸凸起、多核苷酸凸起或环)。当靶核酸链的两个区域(当在相反方向上读取时核苷酸序列基本上互补)进行碱基配对以形成末端为未配对环的双螺旋时，可发生发夹结构。当基本上互补但不完全互补的两条链形成双链体复合物从而产生在非互补的核苷酸位置处的单核苷酸或多核苷酸凸起时，可发生单核苷酸凸起或多核苷酸凸起。核酸环通常可指其中核酸链的5’和3’端直接耦合(例如，通过5’端与3’端的连接)或间接耦合(例如，通过将核酸的5’端与探针的5’端杂交，并将核酸的3’端与探针的3’端杂交)的复合物。

用于疾病筛查的无细胞DNA

病变细胞可将核酸片段释放到受试者的循环系统中。例如，肿瘤可将肿瘤衍生的DNA片段释放到循环系统中(Bettegowda,等人‘Detection of Circulating Tumor DNA inEarly-and Late-Stage Human Malignancies.’Sci.Trans.Med.,2014,1-25页)。检测血浆、血清和其他体液中的无细胞核酸的突变对癌症筛查试验的发展具有吸引力，因为它们可以提供相对非侵入地获取肿瘤相关的遗传和基因组变化，并替代肿瘤活检的直接评估。可以在无细胞核酸群体中检测与肿瘤、癌症或恶性肿瘤相关的所有形式的遗传和基因组变化。本文提供了癌症相关变化或癌症特异性变化的实例。癌症特异性通常可以指来自癌细胞的变化，并且癌症相关可指变化由于解剖学接近、生理学关联、发育关联或对癌症存在的反应而来自癌细胞或癌前病灶或其他组织。以高度临床灵敏度和特异性筛查许多不同癌症的测试可检测大范围和大量的突变。

考虑了本公开内容的方法可用于检测非肿瘤衍生的核酸。例如，本公开内容的方法可用于检测和/或富集胎儿衍生的核酸。检测胎儿衍生的核酸可用于多种原因，如检测异常染色体数、确定性别检测或鉴别亲本遗传性病症。非整倍性是异常的染色体数，通常以存在单个染色体的额外拷贝或缺少单个染色体的一个拷贝为特征。例如，21三体性是存在21号染色体的额外拷贝，并且可以引起唐氏综合征。胎儿的性别可以通过检测和/或富集衍生自Y染色体的核酸片段来确定。类似地，如果父亲受遗传病况影响，则本公开内容的方法可用于富集无细胞胎儿DNA(例如，来自Y染色体)，并且可用于分析是否存在与该病况相关的特定突变。在另一实例中，例如，可以使用胎儿衍生的DNA与母体DNA的比例来确定妊娠阶段。

在另一实例中，本公开内容的方法还可以用于检测衍生自移植组织的核酸。当细胞经历细胞凋亡时，细胞衍生的DNA可以沉积到血流中。因此，移植组织衍生的DNA的递增浓度可以指示移植组织的排斥。在一些情况下，本公开内容的方法可用于监测受试者中移植组织的排斥。

测试灵敏度(例如，广度和深度)

为了获得与血浆EBV DNA测试针对NPC检测相同的灵敏度(Chan等人Cancer 2013；119:1838-1844)，测试可以检测携带癌症相关变化的至少约500个血浆DNA拷贝，以实现循环中一个肿瘤细胞的等效DNA含量的检测。这可以通过检测一个肿瘤相关变化的500个拷贝来实现(如在血浆EBV DNA测试的情况下)，或者500个不同肿瘤相关突变中的每一个检测一个拷贝，或组合，即检测一组<500个突变的多个拷贝。血浆DNA片段的长度通常为<200bp。检测任何一种癌症相关变化可涉及检测携带这样的变化的一种血浆DNA片段，该DNA片段被称为信息性癌症DNA片段。

广度

癌症可以是高度异质的。突变谱在不同器官的癌症之间可变化很大，在具有相同器官的癌症的不同受试者之间可变化很大，甚至在相同受试者的相同器官中的不同肿瘤病灶之间可变化很大(Gerlinger等人N Engl J Med 2012；366:883-892)。在一些情况下，任一种肿瘤相关突变在任何癌症受试者较小子集中是阳性的。例如，癌症体细胞突变目录(COSMIC)数据库记录了在肿瘤组织中已被检测到的基因突变的范围。

用于癌症检测或初步筛查的血浆DNA测试可以通过基因组内更广泛的搜索空间进行侦察，以收集足够的突变(例如，相对于诸如组成型基因组、亲本基因组、人类基因组或其变体等参考基因组的拷贝数异常和序列变体)或者其他癌症特异性变化或癌症相关变化(例如，甲基化变化)以构成每个癌细胞共500个癌症特异性血浆DNA片段。在一些情况下，在任一个肿瘤中发生任一个证据充分的癌症相关突变的几率可能是1％。在这样的情况下，测试可以针对50,000个推定的突变位点的检测，以便每个肿瘤检测到至少500个突变(基于泊松概率分布)。可以测试500,000个推定的突变或癌症相关变化，以便具有代表任一个肿瘤的至少5,000个突变或癌症相关变化。在一些情况下，在任一个肿瘤中发生任一个证据充分的癌症相关突变或变化的几率可能是1％。在这样的情况下，则可测试50,000个突变或变化，以便具有代表任一个肿瘤的至少50个突变或变化。

该测试可实现对样品中的血浆DNA片段的广泛调查，以便鉴别携带任一类型的癌症相关变化或突变的足够片段。调查的广度可以通过使用基因组范围的方法或覆盖大部分基因组的靶向方法来实现，例如足以覆盖至少50,000个靶标的方法。

深度

可以检测携带突变的多个血浆DNA片段以达到指定的阈值，例如，对于癌细胞的每个基因组当量为500个信息性癌症DNA片段。例如，如果在特定肿瘤中仅鉴别出一个突变，则可以使用覆盖该突变的500个血浆DNA片段。如果肿瘤中平均存在50个不同的突变，则可以检测覆盖这50个突变中的每一个的至少10个信息性癌症DNA片段。

肿瘤DNA可代表血浆中的次要DNA群体。一些癌症相关变化本质上可以是杂合的(例如，每个二倍体基因组有一个变化)。为了检测每个基因座的10个信息性癌症DNA片段(即，携带至少一个癌症相关变化的血浆DNA片段)的拷贝，可以分析来自具有20％肿瘤DNA部分的血浆样品中的基因座的至少100个分子。检测覆盖任何单个突变位点的多个血浆DNA片段的能力可取决于对血浆样品进行研究的深度。血浆样品中可存在有限数目的癌细胞基因组，这可影响血浆DNA分析的深度和广度两者。

测试或方案可检测样品中1％的肿瘤部分。每毫升血浆中可存在1000个基因组当量的DNA，因此在具有1％的肿瘤DNA部分的毫升样品中可存在10个癌细胞当量的DNA。可以检测样品中的每个癌症特异性DNA片段，并且任一种癌症相关变化的10个基因组当量可用于检测。靶向检测可提供10个基因组当量的信号。在一些情况下，这可能缺乏在1％部分浓度下稳健检测癌症的分析灵敏度。如果检测到的突变是杂合的，则可能有5个血浆DNA片段示出这种突变。

对于1％的肿瘤DNA部分，该突变位点处的分析深度可以是至少1,000倍，从而能够检测10个基因组当量的具有突变的血浆DNA。在这种情况下，分析的广度可以弥补每个突变位点检测到的相对较少的拷贝数。在一些情况下，选择性检测少量甚至数百个突变位点可以达到检测早期癌症的筛查测试所需的灵敏度。

在一些情况下，在样品处理步骤、DNA测序文库制备步骤和基于探针的靶标捕获杂交过程期间，血浆DNA模板和信息性癌症DNA片段可能丢失或减少。一些步骤可能在不同突变之间以及癌症和非癌症衍生的DNA之间的相对比例中引入偏差。例如，在一些情况下，靶序列文库、基因组DNA测序文库和扩增子测序的PCR扩增可引入GC偏差以及产生PCR重复。对于大规模平行DNA测序，测序片段的鉴别错误可能由PCR扩增期间或测序期间、碱基判定期间出现的测序错误引起或由比对错误造成。在针对突变检测可以提供确信的阳性读出之前，分析平台的信号检测机制可具有检测限(例如，可能需要5个突变片段以产生可检测信号)。

恶性肿瘤携带的体细胞突变的数目可以为约1,000至几万(参见例如Lawrence等人Nature 2013；499:214-218)。在一些情况下，根据血浆样品中肿瘤DNA的部分浓度，可以在血浆样品中获得足够的信息性癌症DNA片段(在一些情况下，每次抽血可获得<10毫升血浆)以实现早期非侵入性癌症检测。

在一些情况下，可以使可在每个血浆样品中可获得的癌症信息含量最大化，例如，以达到癌症筛查的灵敏度。本文提供了可以富集样品中感兴趣的靶核酸(例如，肿瘤衍生的核酸)同时保留核酸的一端或两端处的序列信息的方法。在本申请中，描述了用于扩增样品中的核酸片段同时保留核酸片段的一端或两端处的序列信息的方法。本公开内容的一些实施方案可以通过使用探针(例如，捕获探针)与感兴趣的DNA片段的至少一端结合来富集生物样品的信息性癌症DNA片段。提高样品中感兴趣的靶核酸(例如，肿瘤衍生的DNA)的浓度可以帮助实现癌症筛查测试的临床灵敏度和特异性。在各个实施方案中，进行超深和超广测序、穷举测序或全模板测序。可以进行无PCR的大规模平行测序以提高超深和超广测序、穷举测序或全模板测序的成本效益。通过单分子测序可实现超深和超广测序、穷举测序或全模板测序。

靶向富集

本公开内容包括用于将探针选择性连接到靶核酸末端的方法，使得靶核酸可以通过PCR或其他扩增方法在一个或多个多重反应中进行扩增。

本文公开的方法通常可用于分析核酸(例如，无细胞DNA片段)。核酸的非限制性实例包括人工核酸类似物(例如，肽核酸、吗啉代寡聚物、锁定核酸、乙二醇核酸或苏糖核酸)、染色质、niRNA、DNA、cDNA、循环DNA、无细胞DNA或RNA、单链DNA或RNA、双链DNA或RNA、基因组DNA、质粒DNA或RNA(例如，mRNA、tRNA等)。在一些实施方案中，核酸可以是双链的或单链的。在一些实施方案中，样品可包含核酸，并且该核酸可以是细胞内的。在一些实施方案中，样品可包含核酸，并且该核酸可以是细胞外的(例如，无细胞的)。在一些实施方案中，样品可包含核酸(例如，基因组DNA)，并且该核酸可以是片段化的。

可以处理靶核酸以修复靶核酸分子的末端。可以修复通过雾化、声剪切或核酸酶进行片段化的双链DNA。例如，受损的双链DNA可以通过聚合酶和磷酸酶的混合物转化为具有5ˊ-磷酸和3ˊ-羟基的平端DNA。

可以修复不同类型的3’或5’端损伤。例如，可以通过用一种或多种外切核酸酶处理来修复3’或5’端损伤，使得通过降解去除链末端的受损核苷酸。通过用涉及DNA碱基切除修复途径的一种或多种AP内切核酸酶进行酶处理可去除靶核酸末端的受损核苷酸。

在一些实施方案中，可以有意地省略DNA末端修复，例如以确保仅分析具有在凋亡期间通过天然DNA切割产生的DNA末端的靶核酸。机械片段化的DNA分子可含有受损和不可连接的末端，并且在一些情况下，具有受损或不可连接末端的机械片段化DNA分子无法有效地用于末端3’或5’端连接。

可以使用针对特定核酸的富集步骤。例如，可以通过使用不同的技术富集含有RNA、单链(ss)和双链(ds)DNA分子的混合物中的仅RNA、ss或dsDNA。RNA分子可被RnA酶降解而不影响DNA分子。Ss和ds DNA分子也可被ss或ds DNA特异性外切核酸酶降解。在一些情况下，可首先进行该步骤，然后进行末端修复步骤。

本文提供的方法可包括使至少一种探针与靶核酸的末端或每个末端杂交(参见例如，图1A)。在第一步中，使寡核苷酸捕获探针1和2退火至感兴趣的单链特异性序列的3’和5’端。捕获探针1包含至少一个互补区域11和第二非互补区域12。在退火步骤中，靶核酸的5’端(例如，5’端的一个或多个核苷酸)与捕获探针的5’端(例如，5’端的一个或多个核苷酸)在互补区域11处杂交。互补区域可包含任何数目的核苷酸。例如，互补区可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、75、100个或更多个核苷酸。在一些实施方案中，互补区域包含约10至约25个核苷酸。可以选择长度和序列以向模板赋予杂交的稳定性和特异性。区域12可形成突出的3’端，其含有与靶核酸序列的不互补的序列。非互补区域可包含任何数目的核苷酸。例如，非互补区域可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、75、100个或更多个核苷酸。在一些实施方案中，非互补区域包含约2至约25个核苷酸。

在一些实施方案中，设计区域11与12之间的连接处，使得靶标的5’端形成与靶标和捕获探针1之间的双链体复合物中的连接处完全匹配的位置(图1B)。如果靶标在5’端的位置处长数个核苷酸，则靶标的5’端将与区域12的非互补序列的核苷酸错配。如果靶核酸的5’端短数个核苷酸，则在探针的退火的5’端旁边将形成未退火序列的间隙(图1B)。

在一些实施方案中，捕获探针2包含互补区域21和第二非互补区域22(图1C)。在退火步骤中，感兴趣的序列的3’端与捕获探针的3’端在互补区域21处杂交。互补区域可包含任何数目的核苷酸。例如，互补区域可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50个或更多个核苷酸。在一些实施方案中，互补区域包含约10至约25个核苷酸。可以选择长度和序列以向模板赋予杂交的稳定性和特异性。区域21可以形成突出的5’端，其含有与靶核酸的序列不互补的序列。非互补区域可包含任何数目的核苷酸。例如，非互补区域可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50个或更多个核苷酸。在一些实施方案中，非互补区域包含约2至25个核苷酸。

在一些实施方案中，设计区域21与22之间的连接处使得靶核酸的3’端形成完整的双链体复合物。如果靶标在3’端处的位置长数个核苷酸，则靶标的3’端将与区域12的非互补序列的核苷酸错配(图1C)。如果靶核酸的3’端短数个核苷酸，则在退火的3’端旁边将形成未退火序列的间隙(图1C)。

在图2A所示的另一实施方案中，捕获探针可包含对应于靶核酸的整个序列的序列。在一些情况下，捕获探针可以长于靶核酸，并且在探针邻近于与靶核酸互补的区域的一端或两端处包含突出端或非互补区域(例如，区域12或22)。在一些实施方案中，核酸可以在核酸的一个或多个末端处包含单链突出端。在一些实施方案中，突出端可以发生在核酸的3’端上。在一些实施方案中，突出端可以发生在核酸的5’端上。突出端可包含任何数目的核苷酸。例如，突出端可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40、50个或更多个核苷酸。此外，捕获探针的互补区域可含有连接成一个序列的两个或更多个互补序列，只要互补区域11和21在5’和3’端处与靶分子形成复合物即可。非互补区域12和22可以连接在捕获探针的互补区域的3’或5’端处。在杂交期间，靶核酸或探针的未配对核苷酸可形成由于未配对的核苷酸的环或凸起(图2B)。

在一些实施方案中，包括捕获探针与靶标之间杂交(图3A)的方法还可包括将连接探针3和4添加到由靶核酸和捕获探针1和2形成的复合物。连接探针可在末端具有可以与复合物的其余部分形成稳定双链体或瞬时复合物以供连接反应的互补序列。在酶促连接反应期间，可通过将靶标的5’和3’端与连接探针连接形成连续序列来闭合切口。可以有效连接复合物上的完全配对的末端。在一些情况下，末端或间隙结构处的任何错配核酸将无法完成连接，并将不会在连接探针3、靶序列与连接探针4之间形成连续分子。

图3B图示了包含探针3和探针4与靶核酸的连接的组合物。连接探针3可被设计成包含至少一个区域31，其与捕获探针1的区域12互补并且可以支持连接探针的3’端与靶序列的5’端之间的连接。区域31的长度可以是例如约2至约25bp。区域12和31的完全匹配的序列可以支持连接3’与5’端之间的末端。在一些情况下，任何错配的、未退火的5’端或靶标的5’端处的间隙将无法支持连接探针的3’端的有效连接。

在一些实施方案中，连接探针4可被优选地设计成包含至少一个区域41，其与探针2的区域22互补并且可以支持连接探针的5’端与靶序列的3’端之间的连接。区域41的长度可以是例如约2至约25个核苷酸。在一些实施方案中，仅区域22和41的完全匹配的序列将能够支持连接3’与5’端之间的末端。在一些情况下，靶标的任何错配的或未退火的3’端或者3’端处的间隙可能无法支持与连接探针4的5’端的有效连接。在连接后，靶标的完全匹配的5’和3’端将会连接到连接探针3和4成为一个连续序列。可以向连接探针添加额外的区域以供后续使用。区域33和43可用作用于最终连接产物的PCR扩增的共同或特异性引物。如果需要检测多个靶标，则区域32和42可用于条形码序列。

在另一实施方案中，图4A呈现了连接探针的不同修饰，连接探针可以是具有相应突出端的双链，因此其可以与靶标的突出端形成含有切口的完全匹配的双链复合物。连接后，切口将闭合，并且连接探针链将与靶序列连接。只要互补末端的长度将支持连接，连接探针还可以具有与捕获探针的突出端部分互补的区域。参见图4B对于含有与捕获探针1的区域12部分互补的区域31的连接探针3的图示。可以使用相同类型或混合类型的连接探针以通过连接末端来附接至靶序列的5’和3’端。连接探针可以是一个连续分子如分子倒置探针(MIP)的一部分，并在连接反应完成后产生环状分子(图4C)。

可以对单个或多靶标连接进行连接探针向靶序列上的附接(图3B)。在一个实施方案中，对于每个特定靶标可设计靶标特异性捕获探针组。区域11和21可以是靶标特异性的，但区域12和22可以是所有靶标之间共同的。在这种情况下，共同的连接探针3和4可用于与多个靶标连接。

在另一实施方案中，捕获探针是靶标特异性的。还可以将靶标特异性连接探针区域31和41设计成与相应的捕获探针区域12和22匹配。但是共同序列可以用于区域33和43，因此可以用共同PCR引物进行多重PCR扩增。

在图5A所示的另一方面，在靶序列与捕获探针之间进行杂交的第一步之后，可以在第二步中使用两个混合的酶促反应。连接探针可用于通过如上所述的连接附接至靶序列的5’端。靶分子的3’端将通过聚合酶反应复制来自捕获探针5的序列而延伸。两个酶促反应：i)通过连接在靶标的5’端附接连接探针(未示出)；和ii)使用捕获探针5作为模板进行靶标的3’端的聚合酶延伸，可以同时或分别进行。

图5A图示了一个实施方案，其包含用于延伸靶核酸3’端的捕获探针5。探针5含有与靶序列的3’端互补的至少一个区域。选择区域51以在可以是例如约10至25个核苷酸的长度上与靶核酸互补。选择长度和序列以向模板赋予杂交的稳定性和特异性。捕获探针还可含有另外的区域。5’端处的区域53可用作用于PCR扩增的引物结合位点。区域52可包含条形码。条形码序列通常可指一系列允许相应探针被唯一识别的核苷酸。条形码序列可具有任何数目的核苷酸。条形码可包含任何数目的多核苷酸。在一些实施方案中，条形码可包含少于约10个核苷酸。在一些实施方案中，条形码可包含至少约10个核苷酸。在一些实施方案中，条形码可包含至少约20个核苷酸。在一些实施方案中，条形码可包含至少约30个核苷酸。在一些实施方案中，条形码可包含至少约40个核苷酸。在一些实施方案中，条形码可包含至少约50个核苷酸。在一些实施方案中，条形码可包含至少约75个核苷酸。在一些实施方案中，条形码可包含至少约100个核苷酸。在一些实施方案中，条形码可包含至少约500个核苷酸。在一些实施方案中，条形码可包含至少约1000个核苷酸。在一些实施方案中，条形码可包含约5至约50个核苷酸。在一些实施方案中，条形码可包含约50至约100个核苷酸。在一些实施方案中，条形码可包含约100至约150个核苷酸。例如，探针可包含标签，并且标签可包含20个核苷酸的条形码。在另一实例中，条形码序列可包含约50个核苷酸至约75个核苷酸。

如果靶核酸的3’端的位置由于3’端处的额外核苷酸而移动，则所得的靶标与捕获探针之间的复合物可具有错配的3’端(图5B)。没有3’-5’外切核酸酶活性的DNA聚合酶可用于防止延伸任何错配的3’端(图5B)。

如果靶核酸的3’端的位置相对于捕获探针5的区域51移动，使得其形成间隙(例如，靶标的3’端与区域51的5’端不匹配)，则间隙(例如，区域51的未退火序列)可通过3’延伸来填充。如果靶标在3’端较短并且间隙的大小超过捕获序列51的长度(例如，靶标不与捕获探针结合)，则可能不形成产物。如果间隙的大小较小并且靶标的3’端的剩余序列能够与捕获探针的区域51形成复合物，则3’端可以延伸。

在另一实施方案中，如果靶核酸的3’端的位置未被明确限定，则捕获探针5可以被有意地设计成有间隙，从而使得任何可能的3’位置可进行延伸(图5C)。

在图6所示的另一方面，当靶标的5’或3’端的位置没有被明确限定或者不同的靶标中存在5’和3’端的多个位置时，较大的捕获探针可用于第一步的退火。捕获的序列可覆盖可能的末端位置的区域，其中捕获探针的序列大于感兴趣的靶标的最大预期大小或者感兴趣的靶标的3’或5’端的最远位置。

在另一实施方案中，捕获探针可能无需含有靶标的连续互补序列，并且可以仅含有与靶标的5’和3’端互补的序列，从而在杂交期间形成环结构。

在另一实施方案中，可以将连接探针6和7添加到靶核酸与捕获探针之间形成的复合物。连接探针6在3’端处含有区域61。该区域可为约2至约15个核苷酸，并且在5’端处包含核苷酸组合物或随机组合物的所有可能组合。在退火期间，连接探针6可在靶核酸的5’端处形成瞬时互补复合物，并且连接酶可以将连接探针6的3’端与靶分子的5’端连接。本领域技术人员将理解，可以使用多种连接酶来完成与长度仅为数个核苷酸的瞬时稳定双链体结构的连接。类似地，连接探针7在5’端处含有区域71。该区域可包含约2至约15个核苷酸，并且在3’端处含有核苷酸组合物或随机组合物的所有可能组合。在退火/定位期间，连接探针7的正确或适当的序列组成可在靶标的3’端处形成互补复合物。连接酶可用于将连接探针7与靶核酸的3’端连接。探针6和7可含有区域62和72，其可用作PCR引物位点并用作共同PCR引物。在具有多种末端位置的多个靶标的混合物中，NGS测序可允许每个单独靶核酸的5’和3’端位置的去卷积。

图7A-图7C图示了本公开内容的另一方面。靶核酸分子的3’端和5’端可以形成环状探针，使得3’端和5’端处的序列信息得以保留。靶核酸的后续测序可以阐明3’和/或5’端所保留的序列信息。

在一个实施方案中(图7A)图示，靶标的3’和5’端通过单个连接事件连接。在第一步中，包含互补区域71和72的捕获探针7与感兴趣的靶标杂交。如果靶标的3’和5’端与捕获探针的区域71和72完全匹配，则可在第二步中通过连接来随后连接切口。

在一个实施方案中，捕获探针7的区域71和72具有支持与靶分子形成的稳定异源双链体的序列组成和长度。在另一实施方案中，区域71和72中只有一个具有支持与靶分子形成的稳定双链体的序列组成和长度，并且第二个区域具有形成瞬时或较不稳定复合物的序列组成和长度。

稳定双链体的序列长度可以是例如约10个核苷酸至约25个核苷酸。在一些实施方案中，稳定双链体的序列长度可以是约10个核苷酸、约20个核苷酸、约40个核苷酸或更长。瞬时或较不稳定双链体的序列长度可以是例如2个核苷酸至10个核苷酸。在一些实施方案中，瞬时双链体的序列长度可以是1个核苷酸、2个核苷酸、3个核苷酸、4个核苷酸、5个核苷酸、6个核苷酸、7个核苷酸、8个核苷酸、9个核苷酸、10个核苷酸或大于10个核苷酸、大于20个核苷酸、大于30个核苷酸、大于40个核苷酸或大于50个核苷酸。

在另一个实施方案中，如果仅明确限定靶标的一端的组成或位置，且靶标的另一端的组成或位置是未知的，则捕获探针可以由与已知序列匹配的一个区域和可含有不是碱基特异性的核苷酸(例如，肌苷)以支持双链体的非特异性形成的另一个区域组成。

为了检测或区分环化的靶分子，在连接步骤后，捕获探针7的3’端可以用聚合酶进行延伸或通过滚环扩增进行扩增，因此色到超出背景的富集。

在另一方面(图7B)，捕获探针7可含有在捕获探针与靶分子之间杂交时形成间隙的额外的区域73。在这种情况下，在杂交后的第二步中进行两个酶促反应。第一步，通过聚合酶延伸靶分子的3’端以闭合间隙；第二步，将新合成的链的3’端连接到靶分子的5’端，形成闭合的环。在这种情况下，区域73的组成可以含有用于扩增或条形码编码的另外的序列。外切核酸酶处理可用于去除任何线性分子，包括延伸或连接产物或者过量捕获探针；环化的靶标产物可抵抗外切核酸酶处理。

在另一方面(图7C)，捕获探针8是部分双链的。将双链区域81与另一个探针83退火，从而形成稳定的双链体。在探针83和靶分子的存在下使捕获探针8退火，形成具有两个切口的异源双链体分子。如果靶分子的5’端和3’端与探针区域80和82完全匹配，则两个切口的连接可形成含有靶标和探针83的杂合环化分子。在这种情况下，区域83的组成可以含有用于扩增或条形码编码的另外的序列。外切核酸酶处理可用于去除任何线性分子，包括延伸或连接产物或者过量捕获探针；环化的靶标产物可抵抗外切核酸酶处理。

在一些实施方案中，本公开内容的方法可不包括测序。在一些实施方案中，可以使用本领域已知的任何方法鉴别具有特定片段化模式和/或与癌症相关的一组基因座。在一些实施方案中，可通过阵列杂交鉴别一组基因座。在一些实施方案中，与阵列耦合的探针可对应于肿瘤衍生片段的末端。在一些实施方案中，与阵列耦合的探针可对应于非肿瘤衍生片段(例如，衍生自正常细胞的DNA片段)的末端。例如，在富集生物样品中的一组无细胞DNA片段后，可以使样品与包含对应于肿瘤衍生片段末端的一个或多个寡核苷酸探针的阵列接触。在一些情况下，可以直接从患者获得肿瘤衍生片段末端的序列信息。在一些实施方案中，可以从数据库获得肿瘤衍生片段末端的序列信息。在一些实施方案中，在多个序列读数中鉴别具有特定片段化模式的一组基因座可以包括测定对应于片段的数目的参数值。在一些实施方案中，鉴别一组基因座可以包括测定对应于肿瘤衍生DNA片段的数目的参数值。在一些实施方案中，鉴别一组基因座可以包括测定对应于非肿瘤衍生DNA片段(例如，衍生自正常细胞的DNA片段)的数目的参数值。在一些实施方案中，鉴别一组基因座可以包括测定对应于肿瘤衍生DNA片段的数目与非肿瘤衍生DNA片段的数目之比的参数值。在一些实施方案中，鉴别一组基因座可以包括测定对应于具有特定末端序列的肿瘤衍生DNA片段的数目的参数值。在一些实施方案中，鉴别一组基因座可以包括测定对应于具有特定末端序列的肿瘤衍生DNA片段的数目与非肿瘤衍生DNA片段的数目之比的参数值。例如，鉴别具有特定片段化模式的一组基因座可以包括测定对应于与阵列上的特定探针杂交的核酸片段的数目的荧光信号强度。

在本公开内容包含的所有捕获探针设计中，捕获探针序列可含有尿嘧啶碱基以确保酶促步骤后过量捕获探针的降解。

衔接子介导的扩增

为了检测测试的受试者的血浆(或其他含有无细胞DNA的样品类型)中任何癌症相关的变化，检测这样的变化的概率理论上可随着所分析的DNA分子数目的增加而增加。这里，我们使用假设的实例来说明该原理。假设癌症受试者中20％的血浆DNA衍生自肿瘤，并且肿瘤在特定核苷酸位置处具有点突变。突变仅发生在两个同源染色体中的一个中。因此，覆盖该特定核苷酸位置的10％的血浆DNA携带该突变。如果分析覆盖该核苷酸位置的一个DNA分子，则检测突变的概率为10％。如果分析覆盖该核苷酸变化的10个血浆DNA分子，则检测突变的概率增加至65.1％(概率＝1-0.9¹⁰)。如果分析的分子数增加至100，则检测突变的概率增加至99.99％。

使用当大规模平行测序分析来自癌症受试者的血浆DNA时，该数学原理可用于预测检测癌症相关突变的概率。然而，典型大规模平行测序平台(例如，具有TruSeq文库制备试剂盒的Illumina HiSeq2000测序系统)用于对血浆测序，可在测序前对模板DNA进行PCR扩增。

扩增可以指导致模板DNA量与原始输入核酸相比增加(超过1倍)的过程。然而，目前的扩增方法可能无法保留模板核酸片段末端的序列信息。在一些实施方案中，扩增过程可以在DNA模板分析步骤例如测序之前进行，以扩增具有较低的总无细胞DNA浓度或较低的感兴趣核酸(例如，肿瘤衍生的DNA)浓度的样品中的核酸。在一些情况下，可以使用附接于核酸片段末端的衔接子进行扩增，其中该衔接子能够在扩增后与核酸片段分离。此外，在一些情况下，衔接子与核酸片段的分离导致来自核酸片段的序列信息(例如，核苷酸)的损失最小或没有损失(例如，分离发生在核酸片段与衔接子之间的连接处)。

可以在本公开内容的一些实施方案中进行测序。例如，可以对基因组DNA或肿瘤衍生的核酸进行测序以确定对应于肿瘤衍生核酸的片段化位点的一组基因座。可以使用本领域已知的任何方法对核酸进行测序。在一些实施方案中，测序可包括下一代测序(例如，Illumina/Solexa测序、Roche 454测序、Ion torrent测序和/或SOLiD测序)。

Roche 454测序通常可以指利用酶ATP硫酸化酶和萤光素酶的使用的焦磷酸测序技术。在通过DNA聚合酶掺入每个核苷酸后，可释放焦磷酸盐，其进一步参与下游产生光的反应。光的量可以与掺入的核苷酸数目成比例。DNA可以是片段化的，并且可以在两端连接有衔接子。可以将片段与携带与文库衔接子互补的衔接子的琼脂糖珠混合，因此每个珠子可以与唯一的DNA片段相关联。珠子与DNA片段可以在单个胶束中分离，其中发生乳液PCR并且可以将单个片段的数百万个拷贝扩增到每个珠子的表面上。可将每个珠子放置在皮量滴定板(PTP)的孔中，因为该孔的尺寸使得每孔仅可安放一个珠子。可将酶添加到珠子中，并且可用即时成像步骤添加纯核苷酸溶液。在阵列的一侧，CCD(电荷-光学装置)相机记录由每个珠子发射的光。前四个核苷酸(TCGA)可与衔接子的起点相同，这允许根据添加的核苷酸类型校准发射的光。

Illumina测序可包括三个步骤：扩增、测序和分析。可以将核酸切碎成较小的片段并给予衔接子、标记体(indice)和其他类型的分子修饰，该修饰在扩增、测序和分析期间充当参考点。可以将经修饰的核酸加载到扩增和测序将在其中发生的专门的芯片上。沿着芯片的底部可以有数十万个寡核苷酸(短的合成核酸片段)。它们可以锚定至芯片并且能够抓取具有互补序列的核酸片段。一旦附接了片段，就会开始称为簇生成的时期。该步骤使核酸的每个片段产生约一千个拷贝。接下来，引物和经修饰的核苷酸进入芯片。这些核苷酸具有迫使引物一次仅添加一个核苷酸的可逆的3’阻断剂以及荧光标签。在每轮合成之后，相机拍摄芯片的照片。计算机根据荧光标签的波长确定添加的碱基，并对于芯片上的每个点记录该碱基。每轮后，可以洗去未掺入的分子。然后可使用化学去阻断步骤在单个步骤中去除3’端阻断基团和染料。该过程持续直至可对完整的核酸分子进行测序。利用该技术，可以经由大规模平行测序一次对整个基因组的数千个位置进行测序。

离子半导体测序可以指基于DNA聚合期间可释放的氢离子的检测进行的DNA测序方法。这可以是“通过合成测序”的方法，在此期间可以基于模板链的序列构建互补链。可用单一种类的脱氧核糖核苷酸三磷酸(dNTP)充满含有待测序的模板DNA链的微孔。如果引入的dNTP可以与前导模板核苷酸互补，则其可以掺入生长的互补链中。这导致释放触发ISFET离子传感器的氢离子，该释放指示发生了反应。如果均聚物重复可存在于模板序列中，则在单个循环中将掺入多个dNTP分子。这导致相应数目的释放的氢和比例更高的电子信号。

SOLiD测序通常可以指利用DNA片段文库的平台，该DNA片段文库的两侧可以是连接的衔接子。可以将片段附接到小的顺磁性珠上，并且可以进行乳液PCR以扩增片段。可以通过利用DNA连接酶而非聚合酶进行通过合成的测序。每个测序循环涉及连接荧光标记的通用八聚体引物的简并群体。八聚体的特定位置(例如，碱基5)携带荧光标记。连接后，可以在四个通道中获得图像，然后在位置5与位置6之间切割八聚体，从而去除荧光标记。在能够对每个第5个碱基(例如，碱基5、碱基10、碱基15和碱基20)进行测序的几轮八聚体连接后，延伸的引物可以变性。可以使用不同的引物来检查前一个或后一个位置(例如，碱基3或6)。

在一些实施方案中，可以使用链终止测序、杂交测序、质谱分析测序、大规模平行签名测序(MPSS)、Maxam-Gilbert测序、纳米孔测序、聚合酶集落测序、焦磷酸测序、鸟枪法测序、单分子实时(SMRT)测序或其任何组合对核酸进行测序。

核酸内特定核苷酸在测序过程期间可被读取的次数或平均次数(例如，测序深度)可以比被测序的核酸的长度大数倍。在一些情况下，当测序深度相比核酸的长度足够大(例如，至少5倍)时，该测序可被称为“深度测序”。在本文公开的任何实施方案中，对核酸进行分析可包括深度测序。例如，可以对核酸进行测序，使得测序深度比核酸长度大约20倍。在一些情况下，当测序深度比核酸长度大至少约100倍时，该测序可被称为“超深度测序”。在本文公开的任何实施方案中，对核酸进行分析可包括超深度测序。在一些实施方案中，测序深度可以是平均至少约5倍、至少约10倍、至少约20倍、至少约30倍、至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍。

图8A-图8B图示了本公开内容的实施方案，其中衔接子(1和2)与核酸片段的每个平端连接，并且引物与衔接子结合以扩增核酸片段。在一些情况下，核酸片段化可产生具有受损末端的核酸片段。受损核酸末端的非限制性实例可包括具有3’突出端、5’突出端的末端，以及包含部分或受损核苷酸的3’或5’端。这些受损末端可降低衔接子的连接效率，或者阻止衔接子与核酸完全连接的能力。因此，在本公开内容的一些方面，受损核酸可以被平端化以产生能够与衔接子连接的末端(图8A)。一旦连接，就可以使用引物与衔接子结合以供核酸片段的后续扩增(图8B)。

通过掺入在识别序列之外具有切割位点的核酸酶的识别序列(例如，切割位点发生在核酸片段与衔接子的连接处)，可以在扩增后将衔接子与核酸序列分开，同时在核酸片段的一个或多个末端保留序列信息。本领域技术人员将理解，核酸的扩增可以通过多种技术进行。扩增技术的非限制性实例包括逆转录-PCR、实时PCR、定量实时PCR、数字PCR(dPCR)、数字乳液PCR(dePCR)、克隆PCR、扩增片段长度多态性PCR(AFLP PCR)、等位基因特异性PCR、装配PCR、不对称PCR(其中针对选定链可以使用大量过量的引物)、集落PCR、解旋酶依赖性扩增(HDA)、热启动PCR、反向PCR(IPCR)、原位PCR、长PCR(DNA的延伸大于约5千碱基)、多重PCR、巢式PCR(使用多于一对引物)、单细胞PCR、降落PCR、环介导的等温PCR(LAMP)、重组酶聚合酶扩增(RPA)和基于核酸序列的扩增(NASBA)。在一些情况下，扩增包括线性扩增、等温扩增或等温线性扩增。一种用于核酸扩增的技术是PCR。通常，PCR是核酸扩增的过程，其涉及用于制备指数数量的特定核酸序列的酶促链反应。具体地，PCR可涉及使反应的温度循环以使核酸变性为单链，将引物退火至与引物互补的核酸区域，并使用酶和核苷酸通过从引物延伸或伸长来拷贝变性核酸。该过程可以产生新合成的延伸产物。这些新合成的序列可以成为引物的模板，并且变性、引物退火和延伸的重复循环可以导致被扩增的特定序列的指数积累。

在一些实施方案中，扩增可以在单一温度下进行。例如，扩增核酸可包括PCR，并且该PCR可以在72摄氏度下进行。在一些实施方案中，扩增可以在约20摄氏度、约25摄氏度、约30摄氏度、约35摄氏度、约40摄氏度、约45摄氏度、约50摄氏度、约55摄氏度、约60摄氏度、约65摄氏度、约70摄氏度、约75摄氏度、约80摄氏度、约85摄氏度、约90摄氏度、约95摄氏度、约100摄氏度或高于约100摄氏度下进行。在一些实施方案中，扩增可以在多个温度下进行。例如，扩增可包括进行PCR，并且该PCR反应可包含第一温度下的第一步骤(例如，变性)、第二温度下的第二步骤(例如，退火)和第三温度下的第三步骤(例如，延伸或伸长)。本领域技术人员将理解，PCR反应可包含任何数目的步骤，每个步骤在给定温度下进行。在一些实施方案中，至少两个步骤可以在相同温度下进行。在一些实施方案中，至少两个步骤可以在不同温度下进行。例如，扩增可包括进行PCR，并且该PCR反应可包含在约95摄氏度下的变性步骤、在约55摄氏度下的退火步骤和在约75摄氏度下的延伸步骤。在一些实施方案中，扩增可包含多个温度的多个循环。在一些实施方案中，扩增可包含至少5个循环。在一些实施方案中，扩增可包含约10个、约15个、约20个、约25个、约30个、约35个、约40个、约45个或约50个循环。在一些实施方案中，扩增可包含多于约50个循环。在一些实施方案中，每个循环可包含在任何数目的不同温度下进行的任何数目的步骤。例如，扩增可包括进行PCR，并且该PCR反应可包含进行25个循环，其中一个循环包含进行变性步骤，然后进行退火步骤，然后进行延伸步骤。在一些实施方案中，扩增可包含多个循环，每个循环可包含多个步骤，并且给定循环内的每个步骤可以发生任何时间量。例如，扩增可包括进行PCR，并且该PCR反应可包含进行30个循环，其中一个循环包含进行变性步骤2分钟，然后进行退火步骤1分钟，然后进行延伸步骤1分钟。循环中的任何步骤可以进行任何时间量。在一些实施方案中，步骤可以进行至多约5秒。在一些实施方案中，步骤可以进行至少约5秒、至少约10秒、至少约20秒、至少约30秒、至少约45秒、至少约60秒、至少约90秒、至少约120秒、至少约150秒、至少约180秒、至少约210秒、至少约240秒、至少约270秒或至少约300秒。在一些实施方案中，步骤可以进行多于约300秒。

如图9A-图9B所示，包含针对在核酸酶识别位点外切割的核酸酶的核酸酶识别序列(12)的衔接子(11+12)与核酸片段(100)连接。特别地，切割位点(虚线)发生在衔接子与核酸片段之间的连接处。核酸酶识别位点可以与衔接子与核酸片段之间的连接处相距任何数目的核苷酸。在核酸片段扩增后，可以通过在切割位点将衔接子从核酸片段切割来去除衔接子。衔接子的长度可以是任何数目的核苷酸。在一些实施方案中，衔接子可包含约3个核苷酸、约4个核苷酸、约5个核苷酸、约6个核苷酸、约7个核苷酸、约8个核苷酸、约9个核苷酸、约10个核苷酸、约15个核苷酸、约20个核苷酸、约25个核苷酸、约30个核苷酸、约35个核苷酸、约40个核苷酸、约45个核苷酸、约50个核苷酸或多于约50个核苷酸。衔接子可以包含在衔接子与核酸片段之间的连接处具有切割位点的核酸酶的识别位点(例如，识别序列)。识别序列可以是能够被核酸酶识别和/或结合的任何序列。在一些实施方案中，核酸酶可以是II型核酸酶。II型核酸酶的非限制性实例包括AcuI、AlwI、BaeI、BbsI*、BbsI-HF*、BbvI、BccI、BceAI、BcgI、BciVI、BcoDI、BfuAI、BmrI、BpmI、BpuEI、BsaI*、BsaI-BsaXI、BseRI、BsgI、BsmAI、BsmBI*、BsmFI、BsmI、BspCNI、BspMI、BspQI、BsrDI、BsrI、BtgZI*、BtsCI、BtsI、BtsIMutI、CspCI、EarI、FauI、FokI、HgaI、HphI、HpyAV、MboII、MlyI、MmeI、MnlI、NmeAIII、PleI、SapI*和SfaNI。在一些实施方案中，识别序列可以在与核酸片段结合的衔接子的末端(例如，邻近于衔接子与核酸片段之间的连接处)。在一些实施方案中，核酸酶识别序列可以与衔接子与核酸片段之间的连接处相距约1个核苷酸、约2个核苷酸、约3个核苷酸、约4个核苷酸、约5个核苷酸、约6个核苷酸、约7个核苷酸、约8个核苷酸、约9个核苷酸、约10个核苷酸、约15个核苷酸、约20个核苷酸、约25个核苷酸、约30个核苷酸、约35个核苷酸、约40个核苷酸、约45个核苷酸、约50个核苷酸或多于约50个核苷酸。

图10A-图10C图示了本公开的另一实施方案，其中在衔接子末端包含胸腺嘧啶(T)和/或胸苷碱基的衔接子(1和2)与核酸片段(100)连接。随后进行PCR以扩增核酸片段，并在衔接子与核酸片段的末端之间用尿嘧啶、尿苷和/或脱氧尿苷碱基替换胸腺嘧啶(T)和/或胸苷碱基(图10A，底部)。在已用尿嘧啶、尿苷和/或脱氧尿苷碱基替换胸腺嘧啶(T)和/或胸苷碱基后，可进行尿嘧啶-DNA糖基化酶(UDG)处理，以在扩增子(例如，核酸扩增产物)中用脱嘌呤/脱嘧啶(AP)位点取代尿嘧啶、尿苷和/或脱氧尿苷碱基。该方法可包括用AP内切核酸酶进行后续处理以在AP位点产生切口(图10B，底部)，并用对单链核酸具有特异性的核酸酶处理以将衔接子与核酸片段分离(图10C，底部)。可以使用各种药剂在AP位点切割多核苷酸的磷酸二酯骨架。在一些情况下，该药剂是AP内切核酸酶。在其他实施方案中，该药剂是N,N′-二甲基乙二胺(DMED)。在其他实施方案中，该药剂可以是热、碱性条件、酸性条件或烷化剂。考虑到可将另外的尿嘧啶、尿苷和/或脱氧尿苷碱基掺入到衔接子中的一个或多个其他位置(例如，除了衔接子末端之外的位置)，这可以提高衔接子降解的效率。还考虑到可使用其他类型的修饰碱基(例如，代替dU)。例如，可以将RNA碱基掺入与衔接子结合的前体序列中，然后用RNA酶切割；8-氧鸟嘌呤或其他修饰碱基可被DNA修复酶(例如Fpg)切割。

图11图示了本公开内容的另一实施方案，其中在用AP内切核酸酶处理以在AP位点处产生切口后，使用热来使衔接子的单链部分变性并去除衔接子的单链部分。用对单链核酸具有特异性的核酸酶进行的后续处理用于将衔接子的剩余单链部分与核酸片段分离。将另外的尿嘧啶、尿苷和/或脱氧尿苷碱基添加到衔接子中的一个或多个其他位置(例如，除了衔接子末端之外的位置)可以在使用热使衔接子变性时提高衔接子的降解效率。

实施例

包括以下实施例仅用于说明目的，并不意在限制本发明的范围。

实施例1.通过间隙填充化学捕获血浆中的肝特异性DNA片段

根据肝移植受体的基因型分型数据，鉴别供体特异性的单核苷酸多态性(SNP)。根据测序数据，选择与供体特异性SNP重叠的片段。含有供体特异性SNP的顶部位点被用于设计捕获探针和合成靶标。在每个顶部位点内，选择(a)具有共同5’端和/或(b)与非供体特异性片段可区分的供体特异性片段用于寡核苷酸设计。

合成靶标

每个供体特异性靶标具有至少两个不同长度的序列。两个序列具有相同的5’端和不同的3’端，从而代表群体的短片段和长片段。例如：

短：

ACAATACCTGGCGGTGTGTCTGTGAGGTCTGAATAAAAATTAAAT

GCGCAAAGGCAGGTAAGATCCTGAGCTCAGTGCCCGGTGCACAG

ACACCATTGCGGGTGTGGTTCCTGTCATTACTCAGGGCCTGCCCTG

GTGTGTATGT

长：

ACAATACCTGGCGGTGTGTCTGTGAGGTCTGAATAAAAATTAAAT

GCGCAAAGGCAGGTAAGATCCTGAGCTCAGTGCCCGGTGCACAG

ACACCATTGCGGGTGTGGTTCCTGTCATTACTCAGGGCCTGCCCTG

GTGTGTATGTGACTGCATGTGTTTGTGT

两个序列的寡核苷酸可以作为合成靶标进行排序，该靶标例如来自Integrated DNA Technologies/>

捕获/间隙填充探针

还基于前述两个序列设计探针。捕获探针可具有三个区段。示例性探针示于图12A中。探针的5’端(1201)与靶标(例如，约20个碱基)的共同5’端互补。共同序列(1202)含有针对qPCR探针的靶序列。探针的3’端(1203)与靶标(1204描绘了多个靶标)的3’端互补。其含有(a)与短靶标的3’端的～20个碱基互补的序列，和(b)与长靶标的3’端互补的另外序列。如图12B所示，探针将捕获短靶标(1205)和长靶标(1206)以及两个不同3’端之间的序列。捕获探针能够捕获(例如，杂交)任何长度的靶核酸。

还考虑到试剂盒。例如，试剂盒可包含一种或多种捕获探针，以及一种或多种用于进行本公开内容的方法的试剂(例如，用于扩增靶核酸的试剂)。在另一实例中，试剂盒可包含一种或多种捕获探针，以及关于指导受试者使用核酸探针组分析来自受试者的生物样品中的无细胞核酸分子的说明书。

qPCR引物

从靶标5’和3’端侧翼的序列设计qPCR引物。PCR的方向彼此背离，因此除非捕获和间隙填充步骤可闭合间隙，否则不会有PCR信号。

捕获和间隙填充工作流程

工作流程通常可由3个步骤组成(例如，杂交、间隙填充和可选的Exo处理步骤)，然后是qPCR。示例性热循环方案示于图13中。工作流程开始于杂交步骤(1301)；将单个合成靶标或合成靶标的汇集与10uL的1X Ampligase缓冲液和添加剂如DMSO中的各个探针混合。每次反应的探针量为1nmole，并且每次反应的靶标量为100amole至10zmole。将混合物加热至98℃达5分钟，缓慢冷却至50℃并温育2小时。

接下来，在间隙填充步骤(1302)期间，随后将反应混合物加热至56℃。添加10ul的间隙填充混合物。间隙填充混合物含有1X Amligase缓冲液、2U的KlenTaq(缺乏外切核酸酶活性)、5U的Amligase和10uM dNTP。将反应在56℃下温育30分钟。如图14A所示，示出了间隙填充反应，其中间隙(1401)被聚合酶和dNTP填充，该dNTP将共同部分(例如，qPCR探针)复制到靶(1402)分子。如图14B所示，用连接酶(1404)封闭切口(1403)，并且靶分子被环化。

Exo处理是可选的(1303)，以去除探针和非环化靶标。在温度降低至37℃后，添加2uL的Exo I(20U)和Exo III(200U)。温育30分钟，并使外切核酸酶在95℃下失活达10分钟。可以在qPCR中检测所得环化靶标(1501)，如图15所示。实时定量PCR(qPCR)与常规PCR非常相似。主要区别在于，对于qPCR，在每轮扩增后测量PCR产物的量，而对于常规PCR，仅在扩增的终点测量PCR产物的量。扩增产物被测量，因为它们使用荧光标记(1502)产生。在扩增期间，荧光染料直接与积累的核酸分子结合或经由标记的杂交探针(1503)间接地与积累的核酸分子结合，并且在扩增过程的每个循环期间记录荧光值。荧光信号在较宽范围内与核酸浓度成正比，并且使用PCR产物与荧光强度之间的线性相关性来计算在反应开始时存在的模板量。荧光首次被检测为高于基线或背景的具有统计显著性的点被称为阈值循环或Ct值。可以建立该阈值以量化样品中核酸的量。其可以与初始拷贝数的对数负相关。可将阈值设置成高于扩增基线并且在指数增加阶段(在对数图中看起来是线性的)内。仪器可以通过确定基线(背景)平均信号并将阈值设置为比该平均值高10倍来自动计算荧光信号的阈值水平。理论上，在任何给定的荧光水平下，所有反应中都存在相同数目的分子。因此，在阈值水平处，假设所有反应都含有相同数目的特定扩增子。样品核酸的初始量越高，荧光图中检测到累积产物越快，并且Ct值越低。

样品结果

在滴定实验中单独测试推定的肝特异性靶标。每次反应的靶标量为10amole、1amole、100zmole和10zmole。使用功能人基因组DNA作为载体。示例性结果示于图16中。靶标的连续稀释中的四个点(1到4)示出信号是特异性和灵敏的。点1是1_10amole(例如，20ul反应中10amole的靶标)，点2是2_1amole(例如，20ul反应中1amole的靶标)，点3是3_100zmole(例如，20ul反应中100zmole的靶标)，并且点4_10zmole是20ul反应中10zmole的靶标。在图例中，HL对应于人肝。基于先前的NGS研究，靶标代表血浆中的肝特异性片段末端。靶标命名中的“T”对应于“靶标”，而“TL”对应于“长靶标”，因为在该实验中分析了两种大小的靶标。随着靶标量的增加，qPCR信号增加(例如，Ct值降低)。短靶标(例如，HL55TL)和长靶标(例如，HL55T)是可检测的并且示出相似的剂量反应。

实施例2.用于癌症筛查的肿瘤衍生核酸的靶标特异性富集

靶标特异性富集可用于通过感兴趣的靶核酸的浓度。使用靶标特异性捕获探针扩增感兴趣的特定核酸(例如，无细胞核酸、肿瘤衍生的核酸或与特定染色体位置进行比对的核酸片段)可以减小测序深度和/或广度以实现诊断测试的临床灵敏度或特异性。

在一个实例中，将从人类患者获得的血液样品离心以将血浆与剩余的血液组分(例如，红细胞、白细胞和血小板)分离。通过使用冷冻离心机以1,000-2,000x g离心10分钟来从血浆去除细胞。以2,000x g离心15分钟耗尽血浆样品中的血小板。离心后，立即使用巴斯德吸管将血浆样品转移到干净的聚丙烯管中。处理时将样品保持在2-8℃下。

为了富集样品中的肿瘤衍生的核酸，设计一组单链捕获探针，其与独特的靶核酸序列(例如，对应于人基因组的不同区域)杂交。每个捕获探针的长度为约40个碱基，并且该捕获探针包含(i)靶核酸结合区域和(ii)不与靶核酸结合并具有与连接探针互补的序列的区域。用一组捕获探针(10微摩尔)和连接探针(5微摩尔)在100mM磷酸钾缓冲液(pH 7)中制备反应混合物，并添加到来自血浆样品的10ng DNA提取物中(总反应体积为20μl)。在捕获探针与靶核酸杂交以及连接探针与捕获探针的后续杂交后，将连接探针与靶核酸连接。向混合物中添加2μl的T4 DNA连接酶；将混合物在室温下温育约10分钟，并在65℃下加热灭活10分钟。连接探针包含用于后续扩增的引物序列以及条形码序列。使用GoGreen主混合物进行PCR扩增。每种PCR反应混合物由20μl PCR主混合物；4μM的每种正向和反向引物组成，并添加到反应混合物。热循环开始于95℃下持续4min的第一变性步骤，然后是95℃下30s、58℃下60s和72℃下60s的25个循环，以及72℃下10分钟的最终延伸。仅扩增其中捕获探针的靶核酸结合区域与靶核酸完全杂交的靶核酸。扩增后，对扩增子进行测序并与参考基因组进行比对。确定具有一个或多个突变的核酸片段数目，并将其与参考值进行比较以确定受试者是否患有癌症。

实施例3.扩增核酸用于靶标特异性富集的方法

在一些情况下，血浆样品中无细胞DNA的浓度可能过低，无法进行肿瘤衍生的DNA的靶特异性富集；在这种情况下，可首先使用无细胞DNA的扩增。

在一个实例中，从人类患者获得血液样品并离心以将血浆与剩余的血液组分(例如，红细胞、白细胞和血小板)分离。通过使用冷冻离心机以1,000-2,000x g离心10分钟来从血浆去除细胞。以2,000x g离心15分钟耗尽血浆样品中的血小板。离心后，立即使用巴斯德吸管将血浆样品转移到干净的聚丙烯管中。处理时将样品保持在2-8℃下。在PCR扩增之前，使用能够水解末端磷酸二酯键从而去除任何末端未配对的碱基(例如，突出端)的外切核酸酶从无细胞核酸片段的末端去除末端未配对的核苷酸。通过在dNTP存在下用DNA聚合酶填充凹陷的3’端，使具有5’突出端的DNA片段平端化。将包含BtsCI II型核酸酶识别序列和引物结合位点的双链衔接子连接到无细胞核酸的每个平端。具体地，BtsCI核酸酶识别序列位于衔接子中，使得在衔接子与无细胞核酸末端连接后，BtsCI II型核酸酶可以在衔接子与无细胞核酸之间的连接处(例如，切割位点)从无细胞核酸切割衔接子。在将衔接子与无细胞核酸连接后，使用能够结合衔接子上的引物结合位点的引物进行PCR扩增。使用GoGreen主混合物进行PCR扩增。每个PCR反应混合物由10μl PCR主混合物；4μM的每种正向和反向引物以及250ng DNA提取物组成，并用去离子水将样品体积调至20μl。热循环开始于95℃下持续4min的第一变性步骤，然后是95℃下30s、58℃下60s和72℃下60s的25个循环，以及72℃下10分钟的最终延伸。扩增后，向样品添加约1单位BtsCI核酸酶，并将样品转移至37℃的热浴达30分钟，以从扩增的核酸片段切割衔接子(例如，在衔接子与核酸片段之间的连接处)。随后将来自扩增的产物(例如，扩增子)中的肿瘤衍生的DNA进行富集并分析以检测受试者中的癌症，如实施例2中所述。

虽然本文已经示出并描述了本发明的优选实施方案，但是对于本领域技术人员显而易见的是，这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将想到多种变化、改变和替换。应当理解，本文所述的本发明实施方案的各种替代方案均可用于实践本发明。所附权利要求旨在限定本发明的范围，从而覆盖这些权利要求范围内的方法和结构及其等同项。

本申请提供了以下内容：

1).一种通过分析来自受试者的生物样品中的无细胞脱氧核糖核酸(DNA)片段来鉴别所述受试者中的核酸片段化模式的方法，所述无细胞DNA片段源自正常细胞并且可能来自病变细胞，所述方法包括：

(a)从所述受试者获得所述生物样品；

(b)富集所述生物样品中的一组无细胞DNA片段，所述无细胞DNA片段具有可映射到与疾病相关的一个或多个基因座的末端，其中所述富集包括使至少一种探针与所述无细胞DNA片段的每个末端杂交，其中所述探针包含与所述无细胞DNA片段的至少一个末端互补的给定序列，并且其中所述探针的所述给定序列的每个核苷酸与所述无细胞DNA片段杂交；

(c)对(b)中富集的该组无细胞DNA片段或其衍生物进行测序以获得多个序列；

(d)将所述多个序列与参考进行比对以确定所述多个序列的基因组位置，所述基因组位置包括对应于所述无细胞DNA片段的末端的位置；以及

(e)鉴别所述多个序列中具有特定片段化模式的一组基因座，其中该组基因座对应于所述与疾病相关的一个或多个基因座。

2).根据1)所述的方法，进一步包括在(a)之后对获得的生物样品进行酶促操作。

3).根据1)所述的方法，其中对该组无细胞DNA片段进行测序不包括对(b)中富集的无细胞DNA片段进行DNA扩增的步骤。

4).根据1)所述的方法，其中(e)包括将所述多个序列与参考基因组进行比较，以鉴别具有特定片段化模式的该组基因座。

5).根据4)所述的方法，其中在该组基因座的每个基因座处，相对于所述参考基因组具有序列变异的序列的数目高于阈值。

6).根据1)所述的方法，其中所述疾病为肿瘤。

7).根据1)所述的方法，其中所述病变细胞包括肿瘤细胞。

8).根据1)所述的方法，其中所述多个序列为多个序列读取。

9).一种通过分析来自受试者的生物样品中的无细胞脱氧核糖核酸(DNA)片段来鉴别所述受试者中的核酸片段化模式的方法，所述无细胞DNA片段源自正常细胞并且可能来自病变细胞，所述方法包括：

(a)从所述受试者获得所述生物样品；

(b)通过探针捕获来富集所述生物样品中的一组无细胞DNA片段，所述无细胞DNA片段具有可映射到与疾病相关的一个或多个基因座的末端，其中所述富集包括使至少一种探针与所述无细胞DNA片段的每个末端杂交，其中所述探针包含与所述无细胞DNA片段的至少一个末端互补的给定序列，并且其中所述探针的给定序列的每个核苷酸与所述无细胞DNA片段杂交；以及

(c)鉴别在(b)中富集的该组无细胞DNA片段中具有特定片段化模式的一组基因座。

10).根据9)所述的方法，其中通过阵列杂交鉴别该组基因座。

11).根据9)所述的方法，其中通过核酸扩增鉴别该组基因座。

12).根据11)所述的方法，其中所述核酸扩增包括聚合酶链反应(PCR)。

13).根据9)所述的方法，其中所述疾病为癌症。

14).一种用于扩增来自受试者的生物样品中的无细胞核酸分子的方法，所述方法包括：

(a)将衔接子连接到来自所述受试者的生物样品的所述无细胞核酸分子的每个末端，其中所述衔接子包含用于限制性内切核酸酶的识别序列，其中所述限制性内切核酸酶能够在所述衔接子与所述无细胞核酸分子的末端之间的连接处切割；

(b)使用在所述无细胞核酸分子的每个末端处的所述衔接子扩增在每个末端处包含衔接子的所述无细胞核酸分子，以生成在每个末端处包含衔接子的扩增的无细胞核酸分子；以及

(c)使用所述限制性内切核酸酶将至少一个衔接子与在每个末端包含衔接子的所述扩增的无细胞核酸分子的至少一个末端分离，其中所述分离发生在所述衔接子与所述无细胞核酸分子的末端之间的连接处。

15).根据14)所述的方法，其中所述无细胞核酸分子是双链的。

16).根据14)所述的方法，其中所述限制性内切核酸酶是II型核酸酶。

17).根据16)所述的方法，其中所述II型核酸酶选自BtsCI、FOKI、AP内切核酸酶和S1内切核酸酶。

18).根据14)所述的方法，其中所述样品中的所述无细胞核酸分子的浓度为每毫升约10至10000个基因组。

19).根据14)所述的方法，其中所述生物样品选自全血、血浆、血清、尿液、脑脊液、血沉棕黄层及其组合。

20).根据14)所述的方法，进一步包括修复来自所述受试者的生物样品的所述无细胞核酸分子的一个或多个末端。

21).根据20)所述的方法，其中所述修复包括使所述无细胞核酸分子的一个或多个末端中的至少一个平端化，以包含末端5′-磷酸基团和3′-羟基基团中的至少一种。

22).根据21)所述的方法，其中所述修复进一步包括在所述无细胞核酸分子的一个或多个末端处附接脱氧腺苷核苷酸。

23).根据14)所述的方法，其中所述衔接子是双链的。

24).根据14)所述的方法，进一步包括使至少一个探针与所述扩增的无细胞核酸分子的每个末端杂交，其中所述探针包含与所述扩增的无细胞核酸分子的至少一个末端互补的给定序列，并且其中所述探针的给定序列的每个核苷酸与扩增的无细胞核酸分子杂交。

25).根据14)所述的方法，进一步包括：

(d)对所述扩增的无细胞核酸分子进行测序以获得对应于所述无细胞核酸分子的多个序列；

(e)将所述多个序列与参考基因组进行比对；以及

(f)确定所述多个序列的末端在该处以高于阈值的速率发生的所述参考基因组中的一组基因组位置，从而确定所述受试者中的核酸片段化模式。

26).一种用于扩增来自受试者的生物样品中的无细胞核酸分子的方法，所述方法包括：

(a)将衔接子连接到来自所述受试者的生物样品的所述无细胞核酸分子的每个末端，其中与所述无细胞核酸分子连接的所述衔接子的末端包含腺嘌呤碱基和胸腺嘧啶碱基；

(b)使用在所述无细胞核酸分子的每个末端处的所述衔接子扩增在每个末端处包含衔接子的所述无细胞核酸分子，以生成在每个末端包含衔接子的扩增的无细胞核酸分子，其中所述扩增的无细胞核酸分子的扩增子在所述胸腺嘧啶碱基的位置包含尿嘧啶碱基、尿苷碱基和脱氧尿苷碱基中的一种；以及

(c)使用所述限制性内切核酸酶将至少一个衔接子与在每个末端处包含衔接子的所述扩增的无细胞核酸分子的至少一个末端分离，其中所述分离发生在所述衔接子与所述无细胞核酸分子的末端之间的连接处。

27).根据26)所述的方法，进一步包括用尿嘧啶-DNA糖基化酶(UDG)处理所述扩增的无细胞核酸分子，其中所述UDG处理去除所述尿嘧啶碱基、所述尿苷碱基和所述脱氧尿苷碱基中的一种，从而产生脱嘌呤/脱嘧啶(AP)位点。

28).根据26)所述的方法，其中所述扩增包括使用在一个或多个引物的3’端处包含尿嘧啶碱基、尿苷碱基和脱氧尿苷碱基中的一种的一个或多个引物。

29).根据27)所述的方法，其中所述限制性内切核酸酶为AP内切核酸酶，并且所述AP内切核酸酶在所述AP位点处产生切口。

30).根据29)所述的方法，进一步包括用对单链核酸具有特异性的另外的核酸酶处理所述多个无细胞核酸分子，从而在切割位点处将所述衔接子与所述无细胞核酸分子分离。

31).一种用于分析来自受试者的生物样品中的无细胞核酸分子的方法，所述方法包括：

(a)从所述受试者获得所述生物样品；

(b)通过探针捕获来富集所述生物样品中的一组无细胞核酸片段，所述无细胞核酸片段具有可映射到与疾病相关的一个或多个基因座的末端，其中所述富集包括使探针与所述无细胞核酸片段的每个末端杂交，其中所述探针包含与所述无细胞核酸片段的第一末端互补的第一序列和与所述无细胞核酸片段的第二末端互补的第二序列，并且其中所述第一序列和所述第二序列被第三序列分离；

(c)将所述无细胞核酸分子的所述第一末端与所述无细胞核酸分子的所述第二末端连接，从而形成包含对应于所述第三序列的序列的环化无细胞核酸分子；以及

(d)确定所述生物样品中所述环化的无细胞核酸分子的量。

32).根据31)所述的方法，其中该组无细胞核酸分子中的至少两个是不同长度的。

33).根据31)所述的方法，进一步包括将所述无细胞核酸分子的所述第一末端延伸到所述无所述细胞核酸分子的所述第二末端。

34).根据31)所述的方法，其中使用连接酶进行所述连接。

35).根据31)所述的方法，进一步包括扩增所述环化的无细胞核酸分子。

36).根据35)所述的方法，其中所述扩增包括进行滚环扩增。

37).根据31)所述的方法，其中所述确定包括进行定量聚合酶链反应(PCR)。

38).根据31)所述的方法，其中所述疾病为癌症。

39).一种核酸探针，其包含：

(a)沿着所述核酸探针的3’端的第一探针序列，所述第一探针序列沿着靶核酸的3’端与第一靶序列至少部分互补；

(b)沿着所述核酸探针的5’端的第二探针序列，所述第二探针序列沿着所述靶核酸的5’端与第二靶序列至少部分互补；以及

(c)所述第一探针序列与所述第二探针序列之间的第三探针序列，

其中与无细胞核酸分子的其他区域相比，所述核酸探针能够以至少80％的富集效率富集所述无细胞核酸分子的末端。

40).根据39)所述的探针，其中所述富集效率为至少90％。

41).根据39)所述的探针，其中所述富集效率为至少95％。

42).根据39)所述的探针，其中所述富集效率为至少98％。

43).根据39)所述的探针，其中所述第一探针序列和所述第二探针序列中的至少一个可映射到与疾病相关的一个或多个基因座。

44).根据43)所述的探针，其中所述疾病为癌症。

45).一种用于分析来自受试者的生物样品中的无细胞核酸分子的试剂盒，其包含：

一种或多种如39)中的核酸探针；以及

关于指导受试者使用核酸探针组分析来自所述受试者的生物样品中的所述无细胞核酸分子的说明书。

Claims

1.一种计算机系统，所述计算机系统用于实施鉴别受试者中的核酸片段化模式的方法，所述方法包括：

(a)富集来自所述受试者的生物样品中的一组无细胞DNA片段，所述无细胞DNA片段具有可映射到与疾病相关的一个或多个基因座的末端，其中所述富集包括使至少一种探针与所述无细胞DNA片段中的每一个的5′端和3′端两者杂交，其中沿着所述至少一种探针的3′端的第一序列与包含所述无细胞DNA片段的最3′端核苷酸的第一靶序列互补，或者沿着所述至少一种探针的5′端的第二序列与包含所述无细胞DNA片段的最5′端核苷酸的第二靶序列互补；

(b)对(a)中富集的该组无细胞DNA片段进行测序以获得多个序列；

(c)将所述多个序列与参考基因组进行比对以确定所述多个序列的基因组位置，所述基因组位置包括对应于所述无细胞DNA片段的末端的位置；以及

(d)鉴别所述多个序列中具有特定片段化模式的一组基因座，其中该组基因座对应于所述与所述疾病相关的一个或多个基因座。

2.根据权利要求1所述的计算机系统，其中对该组无细胞DNA片段进行测序无需且不依赖于对(a)中富集的无细胞DNA片段进行任何DNA扩增。

3.根据权利要求1所述的计算机系统，其中所述鉴别具有特定片段化模式的该组基因座包括将所述多个序列与所述参考基因组进行比较，以鉴别具有特定片段化模式的该组基因座。

4.根据权利要求3所述的计算机系统，其中在该组基因座的每个基因座处，相对于所述参考基因组具有序列变异的序列的数目高于阈值。

5.根据权利要求1所述的计算机系统，其中所述疾病为肿瘤。

6.根据权利要求1所述的计算机系统，其中所述多个序列为多个序列读取。

7.一种计算机系统，所述计算机系统用于实施鉴别受试者中的核酸片段化模式的方法，所述方法包括：

(a)通过探针捕获来富集来自所述受试者的生物样品中的一组无细胞DNA片段，所述无细胞DNA片段具有可映射到与疾病相关的一个或多个基因座的末端，其中所述富集包括使至少一种探针与具有可映射到与疾病相关的一个或多个基因座的末端的所述无细胞DNA片段中的每一个的5′端和3′端两者杂交，其中沿着所述至少一种探针的3′端的第一序列与包含所述无细胞DNA片段的最3′端核苷酸的第一靶序列互补，或者沿着所述至少一种探针的5′端的第二序列与包含所述无细胞DNA片段的最5′端核苷酸的第二靶序列互补；以及

(b)鉴别在(a)中富集的该组无细胞DNA片段中具有特定片段化模式的一组基因座。

8.根据权利要求7所述的计算机系统，其中通过阵列杂交鉴别该组基因座。

9.根据权利要求7所述的计算机系统，其中通过核酸扩增鉴别该组基因座。

10.根据权利要求9所述的计算机系统，其中所述核酸扩增包括聚合酶链反应(PCR)。

11.根据权利要求7所述的计算机系统，其中所述疾病为癌症。

12.一种计算机系统，所述计算机系统用于实施用于分析来自受试者的生物样品中的无细胞核酸分子的方法，所述方法包括：

(a)通过探针捕获来富集所述生物样品中的一组无细胞核酸片段，所述无细胞核酸片段具有可映射到与疾病相关的一个或多个基因座的末端，其中所述富集包括使探针与具有可映射到与疾病相关的一个或多个基因座的末端的所述无细胞核酸片段中的每一个的5′端和3′端两者杂交，其中沿着所述至少一种探针的3′端的第一序列与包含所述无细胞核酸片段的最3′端核苷酸的第一靶序列互补，或者沿着所述至少一种探针的5′端的第二序列与包含所述无细胞核酸片段的最5′端核苷酸的第二靶序列互补，并且其中所述第一序列和所述第二序列被所述探针中的第三序列分离；

(b)对于具有可映射到一个或多个基因座的末端的所述无细胞核酸片段中的每一个，将所述无细胞核酸片段的所述3′端与所述无细胞核酸片段的所述5′端连接，从而形成包含对应于所述第三序列的序列的环化无细胞核酸分子；以及

(c)确定在(b)中形成的所述环化无细胞核酸分子的量。

13.根据权利要求12所述的计算机系统，其中该组无细胞核酸分子片段中的至少两个是不同长度的。

14.根据权利要求12所述的计算机系统，其中所述连接包括将所述无细胞核酸片段的所述3′端延伸到所述无细胞核酸分子片段的所述5′端。

15.根据权利要求12所述的计算机系统，其中所述连接包括使用连接酶进行连接。

16.根据权利要求12所述的计算机系统，进一步包括扩增所述环化无细胞核酸分子。

17.根据权利要求16所述的计算机系统，其中所述扩增包括进行滚环扩增。

18.根据权利要求12所述的计算机系统，其中所述确定包括进行定量聚合酶链反应(PCR)。

19.根据权利要求12所述的计算机系统，其中所述疾病为癌症。

20.一种试剂盒，所述试剂盒包含一种或多种核酸探针，所述核酸探针中的每一种包含：

(a)沿着所述核酸探针的3′端的第一探针序列，所述第一探针序列沿着靶核酸的3′端与第一靶序列至少部分互补；

(b)沿着所述核酸探针的5′端的第二探针序列，所述第二探针序列沿着所述靶核酸的5′端与第二靶序列至少部分互补；以及

其中与无细胞核酸分子的其他区域相比，所述核酸探针被配制成以至少80％的富集效率富集所述无细胞核酸分子的末端。

21.一种或多种核酸探针在制备用于分析来自受试者的生物样品中的无细胞核酸分子的试剂盒中的用途，所述核酸探针中的每一种包含：

22.根据权利要求21所述的用途，其中所述富集效率为至少90％。

23.根据权利要求21所述的用途，其中所述富集效率为至少95％。

24.根据权利要求21所述的用途，其中所述富集效率为至少98％。

25.根据权利要求21所述的用途，其中所述第一探针序列和所述第二探针序列中的至少一个可映射到与疾病相关的一个或多个基因座。

26.根据权利要求25所述的用途，其中所述疾病为癌症。

27.根据权利要求21所述的用途，其中所述第一探针序列和所述第二探针序列中的一个或两者具有支持与所述靶核酸形成的稳定异源双链体的序列组成和长度。