CN111154754A

CN111154754A - 分析dna样品的探针集合和使用所述探针集合的方法

Info

Publication number: CN111154754A
Application number: CN202010050583.4A
Authority: CN
Inventors: C·O·F·达尔; O·J·埃里克松; F·卡尔松; F·罗斯
Original assignee: Vanadis Diagnostics AB
Current assignee: Vanadis Diagnostics AB
Priority date: 2015-09-18
Filing date: 2016-09-16
Publication date: 2020-05-15
Anticipated expiration: 2036-09-16
Also published as: RU2753883C2; CN106536735B; JP2018527915A; CA2993914A1; RU2018113795A3; AU2016325100B2; EP3350342A1; RU2018113795A; WO2017046775A1; ES2788737T3; BR112018001686A2; JP6785839B2; PL3350342T3; EP3670671B1; US20230159991A1; US20170081702A1; EP3350342B1; US20210024976A1; AU2016325100A1; US10822640B2

Abstract

分析DNA样品的探针集合和使用所述探针集合的方法。本公开尤其提供一种分析核酸样品的探针系统。在一些实施方案中，探针系统可以包含：序列B的标示寡核苷酸，式X’‑A’‑B’‑Z’的夹板寡核苷酸集合，其中序列A’与基因组片段互补并且序列B’与标示寡核苷酸集合的至少一个成员互补，并且包含X和Z的探针序列。每个夹板寡核苷酸能够杂交至：探针序列、标示寡核苷酸集合的成员和基因组片段，从而产生式X‑A‑B‑Z的可连接复合物。探针系统可以例如用来鉴定无细胞DNA中的染色体非整倍体。

Description

分析DNA样品的探针集合和使用所述探针集合的方法

本申请是申请号为201680000966.2的专利申请的分案申请。

交叉引用

本申请要求2015年9月18日提交的临时申请系列号62/220,746的权益，所述申请通过引用的方式完整并入本文。

背景

可以分析无细胞DNA(“cfDNA”)以提供多种疾病和病状的预后、诊断或预测对多种疾病和病状的治疗的反应，所述疾病和病状包括多种癌症、移植失败或成功、炎性疾病、感染性疾病和胎儿非整倍性。

无细胞胎儿DNA(cffDNA)存在于孕妇的血液中。这个发现导致有可能使用来自孕妇的血液样品开展胎儿的非侵入性产前检验(NIPT)。非侵入性产前检验(例如，羊膜穿刺术或绒毛膜绒毛采样(CVS))可能对母亲造成压力并且一些人认为这类手术可能增加流产风险。NIPT可以提供与多种遗传缺陷(包括唐氏综合征(染色体21三体)、Patau综合征(13三体)和爱德华综合征(18三体))相关的信息。这类方法应当高度稳健，因为假阳性可以导致不必要的医疗过程，并且假阴性可能剥夺满怀期望的母亲对可用医疗选项的理解。

存在与按照临床规模执行非侵入性产前检验相关的许多技术障碍。例如，许多NIPT工作已经致力于分析cffDNA以鉴定特定序列(例如，来自染色体21的序列)的拷贝数变化。然而，这类方法难以按照稳健方式执行，部分原因在于血液样品中的绝大部分cfDNA是母体来源的并且在许多情况下仅非常小的数量(例如，平均约10％并低至约3％)来自胎儿。例如，可以通过将对应于染色体21的序列的拷贝数与对应于常染色体的序列的拷贝数比较，确定在胎儿中染色体(如染色体21)的额外拷贝存在或不存在。尽管这类方法听起来有吸引力，但是它们实际上富有挑战性，因为母体血液中胎儿DNA相对于母源DNA的分数浓度可能低至3％。因而，对于母体血流存在的每1000个对应于染色体21的序列，仅小百分比的这些序列 (例如，如果胎儿分数是3％，则30个序列)来自胎儿。因此，胎儿中某染色体的额外副本仅将导致母体血流中对应于该染色体的序列的数目增加相对少。例如，如果胎儿分数是4，则胎儿21三体将仅导致母体血流中对应于染色体21的片段的数目增加1.5％。由于这个问题，统计严格性仅可以通过计数与疑似具有拷贝数差异的染色体区域相对应的大量序列(例如，至少1,000个和有时至少5,000个或更多个序列)并且将该数值与不疑似具有拷贝数差异的另一个染色体区域的相似数值比较来实现。能够一致并准确地计数片段对许多NIPT方法取得成功最重要。

一些NIPT方法使用聚合酶链反应(PCR)扩增DNA。广泛地使用PCR，但是它遭受可能不利影响结果准确度的多种限制。PCR可以在样品中引入序列人为假象并产生扩增偏倚。PCR序列人为假象是PCR反应向PCR扩增产物的DNA序列中引入的错误。PCR序列人为假象可能通过多种事件引起，如通过形成嵌合分子(例如，两个不同的DNA小片尾对尾连接)、形成异源双链体DNA(例如，两个不同的DNA分子彼此杂交)和通过扩增酶产生的错误(例如，由Taq DNA聚合酶在DNA模板设置错配的核苷酸) 引起。来自PCR的序列偏倚是与原始样品相比，PCR产物的分布偏斜。 PCR序列偏倚可以通过各种事件引起，如模板扩增效率的固有差异或因 DNA模板自我退火而抑制扩增。PCR错误导致不同DNA分子的不等扩增，从而扩增的样品不再代表原始样品。PCR还众所周知对来自环境的外源 DNA污染敏感。归因于PCR期间DNA的指数型扩增，PCR反应中甚至非常少量的外源DNA污染就可以导致高度不准确的结果。外源DNA污染可以从飘在空气中的雾化液滴引入或可以从污染的设备转入反应中。

使用滚环扩增(RCA)分析母体血液中的cfDNA避免了许多与PCR相关的问题。但是，RCA产物不是很容易按提供统计稳健性的方式定量。在实践层面，虽然RCA反应中产物的绝对数目可能足够高到提供统计稳健性，但是不同RCA产物可以到按不同效率扩增和检测，因此，一致地均匀检测数万或数十万RCA产物已经成为难题。

概述

连同其他，本文中描述了分析核酸样品的探针系统。探针可以按如此方式设计，从而它们可以连接至来自不同基因座(例如，不同染色体)的基因组DNA的靶片段(本文也称作“靶序列”或仅“片段”)以产生环状DNA分子。环状DNA分子，即便它们含有来自不同染色体的片段，均含有相同的“主链”序列。另外，在一些实施方案中，含有来自相同基因座的片段的全部环状DNA分子均含有相同基因座特异性标示序列(identifier sequence)，即，基因座特异性条形码。在这些实施方案中，可以使用与主链中序列杂交的引物扩增环状DNA分子，并且可以通过RCA产物与标记的寡核苷酸杂交，检测衍生已克隆片段的基因座，其中标记的寡核苷酸与基因座特异性标示序列杂交。如将显而易见，可以使用多个基因座特异性标示序列和与这些序列杂交的可区分地标记的寡核苷酸，多路复用该方法的这个实施方案。因为全部环状产物具有相同的主链并且彼此仅因已克隆片段的序列和基因座特异性条形码而不同，所以一致地扩增从这些产物扩增的RCA产物，并且可以准确检测到对应于这些RCA产物的基因座。还提供了利用该探针系统的方法，以及开展该方法的试剂盒。

如下文将更详细地讨论，在某些情况下，使用来自怀有胎儿的孕妇的 cfDNA的样品，该方法可以用来检测胎儿中的染色体异常(例如，21三体)。

提供一种分析核酸样品的探针系统。在一些实施方案中，该探针系统可以包含：(a)序列B的标示寡核苷酸集合；(b)式X’-A’-B’-Z’的夹板寡核苷酸集合，其中：在该集合中：(i)序列A’和B’变动，并且(ii)序列X’和Z’彼此不同并且不是可变的；并且，在每个夹板寡核苷酸中：(i)序列A’与核酸样品的基因组片段互补并且(ii)序列B’与标示寡核苷酸集合的至少一个成员互补；和(c)一个或多个包含X和Z的探针序列，其中序列X和Z不是可变的并且与序列X’和Z’杂交；其中每个夹板寡核苷酸能够杂交至： (i)探针序列，(ii)标示寡核苷酸集合的成员和(iii)基因组片段，从而产生式 X-A-B-Z的可连接复合物。在一些实施方案中，不同的标示寡核苷酸及其互补序列B’鉴定不同的染色体，例如，染色体21、18和13。

在一些实施方案中，标示寡核苷酸集合可以包含至少两个(例如，2个、 3个或4个或更多个)不同的B序列标示寡核苷酸，并且在夹板寡核苷酸集合中存在至少100个不同的A’序列和与至少两个不同的标示寡核苷酸互补的至少两个不同的B’序列。

在一些实施方案中，每个标示寡核苷酸或其在夹板寡核苷酸中的互补 B’序列可以对应于基因组片段。

在一些实施方案中，每个标示寡核苷酸或其在夹板寡核苷酸中的互补 B’序列可以指示基因组片段所来源的基因组中的基因座。

在一些实施方案中，每个标示寡核苷酸或其在夹板寡核苷酸中的互补 B’序列可以指示基因组片段所来源的染色体。

在一些实施方案中，基因组片段来自哺乳动物基因组。

在一些实施方案中，每个标示寡核苷酸或其在夹板寡核苷酸中的互补 B’序列可以鉴定染色体21、染色体18和染色体13的一者或多者。

在一些实施方案中，基因组片段可以是限制性片段。

在一些实施方案中，(c)的一个或多个探针序列还可以包含了包含序列 Y的寡核苷酸，并且其中可连接复合物是线状的。

在一些实施方案中，探针系统还可以与(c)的一个或多个探针杂交的 PCR引物对。

在一些实施方案中，(c)的一个或多个探针序列可以包含式X-Y-Z的主链探针，其中Y包含寡核苷酸序列，从而可连接复合物是式X-A-B-Z-Y 的环状可连接复合物，其中序列Y接合序列X和Z。

在一些实施方案中，探针系统还可以包含与主链探针中的序列杂交的滚环扩增引物。

在一些实施方案中，探针系统还可以包含(A)使序列与主链探针杂交的滚环扩增引物；和(B)至多四个可区分地标记的检测寡核苷酸，其中每个可区分地标记的检测寡核苷酸与B’序列杂交。

还提供一种分析样品的方法。在一些实施方案中，方法可以包括：(a) 将上文总结的探针系统的任何实施方案与包含基因组片段的测试基因组样品杂交，以产生式X-A-B-Z的可连接复合物；(b)连接可连接复合物以产生式X-A-B-Z的产物DNA分子；并且(c)计数与序列B的每个基因座标示物相对应的产物DNA分子。

在一些实施方案中，可以通过以下方式进行计数：对产物DNA分子或其扩增产物测序，以产生序列读出结果，并且计数包含每个序列B或其互补物的序列读出结果的数目。

在一些实施方案中，产物DNA分子可以是环状的，并且计数可以包括通过滚环扩增法扩增产物DNA分子，并计数包含每个序列B或其互补物的扩增产物的数目。在这些实施方案中，该方法可以包括使用与序列B’杂交的可区分地标记的探针标记RCA产物，并且通过对每种可区分的标记物计数RCA产物的数目，进行计数。

在一些实施方案中，该方法可以包括：i.在平面支持物上沉积RCA产物；并且ii.在支持物的某区域中计数各个标记的RCA产物的数目。在这些实施方案中，支持物可以例如是载玻片或多孔透明毛细管膜。

在一些实施方案中，不同序列B及其互补序列B’鉴定不同的染色体，并且方法还包括将包含B或B’的第一序列的产物DNA分子的数目与包含 B或B’的第二序列的产物DNA分子的数目比较，以确定基因组样品是否具有非整倍体。

在一些实施方案中，该方法可以包括将步骤(c)的计数结果与从一份或多份参比样品获得的计数结果比较。

在一些实施方案中，测试基因组样品可以来自疑似患有疾病或病状或面临患有疾病或病状风险的患者，并且步骤(c)的计数结果提供患者或其胎儿是否患有疾病或病状的指示。

在一些实施方案中，疾病或病状可以是癌症、感染性疾病、炎性疾病、移植排斥或三体性。

在一些实施方案中，片段是限制性片段。

附图简述

技术人员将理解，下文描述附图仅用于说明目的。附图不意在以任何方式限制本发明教导内容的范围。

图1示意地显示本发明探针系统的一些特征。

图2示意地显示序列B怎样起到鉴定序列A的基因座的作用。

图3示意地显示一些示例性探针系统布局。

图4示意地显示主题方法的实施方案的一些特征。

图5示意地显示主题方法的一个实施方案的一些特征。

图6示意地显示探针系统的设计。

图7显示使用两个不同探针系统获得的数据。

图8显示从分析临床样品获得的数据。

定义

在更详细地描述示例性实施方案前，阐述以下定义以显示并定义说明书中所用术语的含义和范围。

数值范围包括界定该范围的数值。除非另外说明，否则分别地，核酸从左至右以5'至3'方向书写，并且氨基酸序列从左至由以氨基至羧基方向书写。

除非另外定义，否则本文中所用的全部技术与科学术语均具有如本发明所属领域的普通技术人员通常理解的相同含义。Singleton等人, DICTIONARY OF MICROBIOLOGYAND MOLECULAR BIOLOGY,第2 版,John Wiley and Sons,New York(1994)和Hale与Markham,THE HARPER COLLINS DICTIONARY OF BIOLOGY,Harper Perennial,N.Y. (1991)向技术人员提供本文中所使用的众多术语的一般含义。另外，为清晰和易于参考，下文定义某些术语。

必须指出，除非上下文另外明确指出，否则如本文中和所附权利要求中所用，单数形式“一个(a)”、“一种(an)”和“该(an)”包括复数称谓。例如，术语“引物”指一种或多种引物，即，单一引物和多重引物。进一步指出，可以起草这些权利要求以排除任何任选的要素。因而，这种声明意在充当与描述权利要求要素相联系地使用这类排他性术语如“单独”、“仅”等或使用“否定式”限制的先行基础。

术语“核苷酸”是意在包括不仅含有已知嘌呤碱基和嘧啶碱基、还含有已经修饰的其他杂环碱基的那些部分。这类修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶，烷基化的核糖或其他杂环。此外，术语“核苷酸”包括含有半抗原或荧光标记物并且可以不仅含有常规的核糖和脱氧核糖糖，还含有其他糖的那些部分。修饰的核苷或核苷酸还包括在糖部分上的修饰，例如，其中一个或多个羟基替换为卤原子或脂族基团，官能化为醚、胺等。

术语“核酸”和“多核苷酸”在本文中互换地用来描述任何长度(例如，大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、至多约10,000个或更多个碱基)的由核苷酸(例如，脱氧核糖核苷酸或核糖核苷酸)组成并且可以酶促或合成产生的聚合物(例如，如美国专利号5,948,902及其中引用的参考文献中所述的PNA)，所述聚合物可以与天然存在的核酸按照与两个天然存在核酸类似的序列特异性方式杂交，例如，可以参与Watson-Crick碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶、尿嘧啶(分别是G、C、A、 T和U)。DNA和RNA分别具有脱氧核糖和核糖糖主链，而PNA的主链由通过肽键连接的重复性N-(2-氨基甲基)-甘氨酸单元组成。在PNA中，多种嘌呤碱基和嘧啶碱基通过亚甲基羰基键与主链连接。锁核酸(LNA)，经常称作不可及性RNA，是修饰的RNA核苷酸。LNA核苷酸的核糖部分以连接 2'氧和4'碳的额外桥进行修饰。这个桥将核糖“锁定”处于3'-内(North)构象，这种构象经常存在A形式双链体中。无论何时需要，LNA核苷酸均可以与寡核苷酸中的DNA残基或RNA残基混合。术语“非结构化核酸”或“UNA”是含有彼此以降低的稳定性结合的非天然核苷酸的核酸。例如，非结构化核酸可以含有G’残基和C’残基，其中这些残基对应于G和C的非天然存在形式，即，类似物，所述的非天然存在形式彼此以降低的稳定性发生碱基配对，但是保留分别与天然存在的C和G残基发生碱基配对的能力。非结构化核酸在US 20050233340中描述，所述文献通过引用的方式就UNA公开内容并入本文。

如本文所用的术语“寡核苷酸”指约2至200个核苷酸、直至500个核苷酸长度的核苷酸单链多聚体。寡核苷酸可以是合成的或可以酶促产生，并且在一些实施方案中具有30至150个核苷酸长度。寡核苷酸可以含有核糖核苷酸单体(即，可以是寡核糖核苷酸)或脱氧核糖核苷酸单体。寡核苷酸可以例如具有10至20、21至30、31至40、41至50、51至60、61至70、71至 80、80至100、100至150或150至200个核苷酸长度。

如本文中所用的术语“引物”指一种寡核苷酸，所述寡核苷酸在置于引起与一条核酸链互补的引物延伸产物合成的条件下(即存在核苷酸和诱导物质(如DNA聚合酶)并在适宜的温度和pH)时能够充当合成的起始点。引物可以是单链的并且必须足够长到在诱导物质存在下引发所需延伸产物的合成。引物的确切长度将取决于众多因素，包括温度、引物来源和方法的用途。例如，对于诊断性应用，取决于靶序列或片段的复杂程度，寡核苷酸引物一般含有15-25个或更多个核苷酸，不过它可以含有更少的核苷酸。选择本文中引物的以与特定靶DNA序列的不同链基本上互补。这意味着引物必须充分互补以与其相应的链杂交。因此，引物序列不需要反映模板的确切序列。例如，非互补性核苷酸片段可以与引物的5'末端连接，引物序列的剩余部分与链互补。备选地，非互补性碱基或更长的序列可以散布入引物中，只要该引物序列与所述链的序列具有足够互补性以与之杂交，从而形成用于合成延伸产物的模板。

术语“杂交”指其中核酸链在正常杂交条件下与第二互补性核酸链复性并形成稳定双链体(同源双链体或异源双链体)并且在相同的正常杂交条件下不与不相关的核酸分子形成稳定双链体的过程。双链体的形成通过使两条互补性核酸链在杂交反应中复性完成。可以通过以下方式使杂交反应具有高度特异性：调整杂交反应发生的杂交条件(经常称作杂交严格性)，从而两条核酸链之间的杂交将不形成稳定双链体，例如，在正常严格性条件下保留双链区域的双链体，除非这两条核酸链在基本上或完全互补的特定序列中含有一定数目的核苷酸。轻易确定任何给定杂交反应的“正常杂交或正常严格性条件”。参见，例如，Ausubel等人,Current Protocols in Molecular Biology,John Wiley&Sons,Inc.,New York，或Sambrook等人, Molecular Cloning:A Laboratory Manual,Cold SpringHarbor Laboratory Press。如本文中所用，术语“杂交”指核酸分子链通过碱基配对作用与互补链结合的任何过程。

如果一个核酸和一个参比核酸序列在高严格性杂交和洗涤条件下彼此特异性杂交，则该核酸视为“选择性可杂交于”参比核酸序列。中度和高严格性杂交条件是已知的(参见，例如，Ausubel等人,Short Protocols in Molecular Biology,第3版,Wiley&Sons1995和Sambrook等人,Molecular Cloning:A Laboratory Manual,第3版,2001ColdSpring Harbor,N.Y.)。高严格性条件的一个示例包括在约42℃于50％甲酰胺，5×SSC，5×Denhardt's 溶液，0.5％SDS和100μg/ml变性载体DNA中杂交，随后在室温于2×SSC和0.5％SDS中洗涤2次并且在42℃于0.1×SSC和0.5％SDS中额外洗涤2次。

如本文所用，术语“条形码序列”或“分子条形码”，指用来a)鉴定和/或追溯反应中多核苷酸的来源和/或b)计数初始分子被测序多少次(例如，在样品中基本上每个分子均用不同序列加标签的并且随后扩增样品的情况下)的独特核苷酸序列。条形码序列可以在寡核苷酸的5′端、3’端或在其中部。条形码序列可以在大小和组成方面广泛变动；以下参考文献提供选择适用于具体实施方案的条形码序列集合的指南：Casbon(Nuc.Acids Res.2011,22e81)；Brenner美国专利号5,635,400；Brenner等人,Proc.Natl.Acad. Sci.,97:1665-1670(2000)；Shoemaker等人,Nature Genetics,14:450-456 (1996)；Morris等人，欧洲专利公开0799897A1；Wallace，美国专利号 5,981,179等。在具体的实施方案中，条形码序列可以具有4至36个核苷酸、或6至30个核苷酸或8至20个核苷酸范围内的长度。

如本文所用，术语“测序”指借以获得多核苷酸的至少10个连续核苷酸的身份(例如，至少20、至少50、至少100个或至少200个或更多个连续核苷酸的身份)的方法。

术语“下一代测序”指目前例如Illumina、Life Technologies和Roche等所用的所谓平行化合成测序平台或连接测序平台。下一代测序方法还可以包括纳米孔测序方法或基于电子检测的方法，如，例如，由Life Technologies 商业化的Ion Torrent技术。

如本文所用，术语“双链体”或“双链体的”描述了发生碱基配对(即，杂交在一起)的两个互补性多核苷酸。

术语“确定”、“测量”、“评价”、“评估”、“验定”和“分析”在本文中可互换地用来指多种测量形式，并且包括确定某要素是否存在或不存在。这些术语包括定量性和/或定性确定。评估可以是相对或绝对的。

如本文所用，术语“亲和标签”指可以用来分离连接至亲和标签的分子与不含有亲和标签的其他分子的部分。“亲和标签”是特异性结合对子(即，这样的两个分子，其中一个分子通过化学或物理手段与特异性结合另一个分子)的成员。特异性结合对子的互补性成员(在本文中称作“捕获剂”)可以固定化(例如，固定化至色谱支持物、珠或平面表面)以产生特异性结合亲和标签的亲和色谱支持物。换而言之，“亲和标签”可以与“捕获剂”结合，其中亲和标签与捕获剂特异性结合，从而促进连接至亲和标签的分子与不含有亲和标签的其他分子分开。

如本文所用，术语“生物素部分”指包括生物素或生物素类似物如脱硫生物素、氧生物素、2’-亚氨基生物素、二氨基生物素、生物素亚砜、生物胞素等的亲和剂。生物素部分以至少10^-8M的亲和力与链霉亲和素结合。生物素亲和剂还可以包含接头，例如，─LC-生物素、─LC-LC-生物素、─SLC-生物素或─PEG_n-生物素，其中n是3-12。

如本文所用，术语“末端核苷酸”，指在核酸分子5’末端或3’末端的核苷酸。核酸分子可以处于双链形式(即，双链体)或处于单链形式。

如本文所用，术语“连接”指第一DNA分子5'末端处的末端核苷酸与第二DNA分子3'末端处的末端核苷酸的酶促催化连接。

术语“多个”、“集合”和“群体”互换地用来指含有至少2个成员的某个实体。在某些情况下，多个可以具有至少10、至少100、至少100、至少10,000、至少100,000、至少10⁶、至少10⁷、至少10⁸或至少10⁹个或更多个成员。

术语“消化”意在指示核酸由限制性酶切割的过程。为了消化核酸，限制性酶和含有该限制性酶的识别位点的核酸在适于限制性酶发挥作用的条件下接触。适于市售限制性酶活性的条件是已知的并且当购买时与这些酶提供。

“寡核苷酸结合位点”指在靶多核苷酸或片段中与寡核苷酸杂交的位点。如果寡核苷酸“提供”引物的结合位点，随后则该引物可以与寡核苷酸或其互补物杂交。

如本文所用，术语“分开”，指物理分开两种要素(例如，借助大小或亲和力等)以及降解一种要素，留下另一种要素保持完整。

如本文所用，术语“参比染色体区域”指核苷酸序列已知的染色体区域，例如其序列例如保藏于NCBI Genbank数据库或其他数据库的染色体区域。

如本文所用的术语“链”指由通过共价键(例如，磷酸二酯键)共价连接在一起的核苷酸构成的核酸。

在细胞中，DNA通常以双链形式存在，如此具有两个核酸互补链，在本文中称作“顶部”链和“底部”链。在某些情况下，染色体区域的互补链可以称作“正”和“负”链、“第一”链和“第二”链、“编码”链和“非编码”链、“Watson”链和“Crick”链或“有义”和“反义”链。链归属为顶部或底部链是任意的并且不暗示任何特定的取向、功能或结构。几个示例性哺乳动物染色体区域(例如，BAC、装配物、染色体等)的第一链的核苷酸序列是已知的，并且可以例如在NCBI Genbank数据库中找到。

如本文所用，术语“顶部链”指核酸的任一条链，而不是核酸的两条链。当寡核苷酸或引物仅与顶部链结合或复性时，它仅与一条链结合，但是不与另一条链结合。如本文所用，术语“底部链”指与“顶部链”互补的链。当寡核苷酸仅与一条链结合或复性时，它仅与一条链(例如，第一链或第二链)结合，但是不与另一条链结合。

术语“共价连接”指在两个分开的分子(例如，双链核酸的顶部链和底部链)之间产生共价键。连接(ligating)是一种类型的共价连接。

如本文所用，术语“变性”指将双链体置于合适的变性条件，使核酸双链体的至少一部分碱基对分开。变性条件是本领域熟知的。在一个实施方案中，为了使核酸双链体变性，双链体可以暴露于双链体解链温度的温度，从而令双链体的一条链从另一条链释放。在某些实施方案中，核酸可以通过使核酸暴露于至少90℃的温度持续适量的时间(例如，至少30秒，直至 30分钟)而变性。核酸也可以化学地变性(例如，使用脲或NaOH)。

如本文所用，术语“标记物”指可以用来提供可检测(优选地可定量)作用并且可以与核酸或蛋白质连接的任何原子或分子。标记物包括但不限于单独或与可以通过荧光共振能量转移(FRET)抑制或偏移发射光谱的部分组合的染料和放射标记物如³²P；结合部分如生物素；半抗原如洋地黄甙；激活发光、磷光或发荧光部分；和荧光染料。标记物可以提供通过荧光、放射性活度、比色法、重量分析法、X射线衍射或吸收、磁性、酶活性等可检测的信号。标记物可以是带电荷部分(正电荷或负电荷)或可选地，可以是电中性的。标记物可以包含核酸或蛋白质序列或由其组成，只要包含标记物的序列是可检测的。

如本文所用，术语“标记的寡核苷酸”和“标记的探针”指具有亲和标签 (例如，生物素部分)的寡核苷酸、用使得分离或检测成为可能(例如，赋予不同密度的溴-脱氧尿苷或胶体金粒子)的原子或基团修饰的寡核苷酸，和用可光学检测的标记物(例如，荧光或另一个类型的光发射标记物)修饰的寡核苷酸。仅含有天然存在的核苷酸的寡核苷酸不是标记的寡核苷酸。

如本文所用，术语“延伸”指使用聚合酶通过添加核苷酸而延伸引物。如果与核酸复性的引物延伸，核酸充当延伸反应的模板。

如本文所用，在短语“连接第一和第二寡核苷酸至片段的相应末端”中，术语“相应末端”意指将一个寡核苷酸添加至该片段的一个末端并将另一个寡核苷酸添加至靶片段的另一端。

如本文所用，在彼此可连接相邻的两个寡核苷酸序列的语境下，术语“可连接相邻的”意指在两个寡核苷酸之间不存在间插性核苷酸并且它们可以彼此连接。

如本文所用，如本文所用，术语“夹板寡核苷酸”指与两个或更多个其他多核苷酸杂交时，寡核苷酸充当“夹板”以使这些多核苷酸彼此相邻定位，从而它们可以连接在一起，如图1中所示。

如本文所用，术语“环状核酸分子”指处于无游离3’或5'末端的闭合圆环形式的链。

如本文所用，术语“对应于”及语法等同物，例如，“相应”，指本术语所指的各要素之间的特定关系。例如，对应于基因组中某序列的RCA含有与基因组中该序列相同的核苷酸序列。

本文所述的某些多核苷酸可以由某个式(例如，“X’-A’-B’-Z’”)提及。除非另外说明，否则由某个式限定的多核苷酸可以5’至3’方向或5’至3’方向定向。例如，由式“X’-A’-B’-Z’”限定的多核苷酸可以是“5’-X’-A’-B’-Z’-3’”或“3’-X’-A’-B’-Z’-5’”。式的组分，例如，“A”，“X”和“B”等，分别指多核苷酸中可分开定义的核苷酸序列，其中，除非从上下文提示(例如，在“特定式的可连接复合物的上下文中)，否则各序列共价连接在一起，从而由某个式描述的多核苷酸是单个分子。在许多情况下，式的组分在单个分子中彼此紧邻。遵循习惯，式中所示的序列的互补物将用单引号(')指示，从而序列“A”的互补物将是“A'”。另外，除非另外说明或从上下文提示，由某个式限定的多核苷酸可以在其3’末端、其5'末端或同时在3'末端和5'末端具有额外的序列、引物结合位点、分子条形码、启动子或间隔序列等。如果由某个式限定的多核苷酸将描述为环状，则这些分子的末端直接或间接地连接在一起。例如，在式X-A-B-Z-Y的环状复合物的情况下，则该分子的5'末端直接或间接地连接至分子的3’末端以产生一个环。如将显而易见，多核苷酸的各种组分序列(例如，A、B、C、X、Y、Z等)可以独立地是任何所需的长度，只要它们能够执行所需的功能(例如，与另一个序列杂交)。例如，多核苷酸的各种组分序列可以独立地具有8-80个核苷酸(例如，10-50 个核苷酸或12-30个核苷酸)范围内的长度。

术语(例如，式X-A-B-Z的)“可连接复合物”指其中多种寡核苷酸(以环状或线状形式)彼此可连接地相邻，由夹板寡核苷酸结合在一起的复合物，如图1中所示。

术语(例如，式X-A-B-Z-Y的)“可连接环状复合物”指其中多种寡核苷酸彼此在环中可连接地相邻，由夹板寡核苷酸结合在一起的环状复合物。

如本文所用的术语“基因座”、“基因组座位”指基因组(例如，动物或植物基因组如人、猴、大鼠、鱼或昆虫或植物的基因组)的限定区域。基因座可以是短到100kb的染色体区域，并且可以长达一个染色体臂或整个染色体。

术语“第一基因座”和“第二基因座”指不同的基因座，即，基因组中的不同区域，例如，不同的染色体臂或不同的染色体。

术语“基因座的片段”指特定基因座的限定片段的群体(这可以使用限制性酶或借助RNA指导的再编程核酸内切酶如CAS9产生)。基因座的全部片段并非都需要分析。因为多种基因组的序列已经公开，所以设计与基因座的某个片段杂交的寡核苷酸是例行工作。

术语“与片段互补的”指与某片段的链(顶部链或底部链)互补的序列。

如本文所用，术语“基因组序列”指基因组中存在的序列。

在可变的两个或更多个核酸序列的语境下，术语“可变”指相对于彼此具有不同的核苷酸序列的两个或更多个核酸。换句话说，如果某群体的多核苷酸具有可变序列或特定序列“变化”，则该群体的多核苷酸分子的核苷酸序列在各分子之间变动。术语“可变”不得解读为要求群体中的每个分子具有与群体中其他分子不同的序列。

如果两个核酸(例如，序列A和A’)是“互补的”，则它们在高严格性条件下彼此杂交。在许多情况下，互补的两个序列具有至少10个，例如，至少12、至少15、至少20或至少25个核苷酸的互补性并且在某些情况下可以具有一个、两个或三个非互补碱基。

在鉴定基因座的序列的上下文中，术语“鉴定”指对基因座而言独一无二的分子条形码。这种序列不来自基因座本身，反而它是一种向正在分析的基因座的片段添加并且确定这些片段来自该基因座的分子条形码，其通常具有正在分析的样品中不存在的序列。例如，如果来自第一基因座的片段连接至第一标示序列并且来自第二基因座的片段连接至第二标示序列，则可以通过检测哪个标示序列已经与这些片段连接，确定这些片段的来源(与它们对应的基因座)。

术语”反向”在按反向与其他序列杂交的两个序列的上下文指其中序列之一的5’和3’末端与另一个序列以其中所述末端彼此面对的方式杂交的结构，作如在图3B的顶部所示。

如本文所用，术语“滚环扩增”或(缩写)“RCA”指使用链置换聚合酶产生环状核酸模板线性连环化副本的等温扩增。RCA是分子生物学领域中熟知的并且在多种出版物中描述，包括但不限于Lizardi等人(Nat.Genet. 1998 19:225-232)、Schweitzer等人(Proc.Natl.Acad.Sci.2000 97:10113-10119)、Wiltshire等人(Clin.Chem.2000 46:1990-1993)和 Schweitzer等人(Curr.Opin.Biotech 2001 12:21-27)，所述文献通过引用的方式并入本文。

如本文所用，术语“滚环扩增产物”指滚环扩增反应的连环化体产物。如本文所用，术语“荧光标记的滚环扩增产物”指已经例如通过荧光标记的寡核苷酸与滚环扩增产物杂交或其他手段(例如，通过扩增期间荧光核苷酸掺入产物中)被荧光标记的滚环扩增产物。

如本文所用，在支持物的区域或图像的区域的上下文中，术语“区域”指连续或不连续区域。例如，如果方法涉及确定计数某区域内标记的RCA 产物的数目，将计数RCA产物的区域可以是单一连续性空间或多个不连续空间。

如本文所用，术语“成像”指借以检测到来自对象表面的光学信号并且与位置关联的数据(即，“像素”)存储的过程。对象的数字图像可以从该数据重建。可以使用单幅图像或一幅或多幅图像，对支持物的某个区域成像。

如本文所用，术语“各个标记的RCA产物”指标记的各个RCA分子。

如本文所用，术语“计数”指确定更大集合中各个对象的数目。“计数”需要检测多个对象中来自各个对象的独立信号(并非来自多个对象的集体信号)并且随后通过计数各个信号确定多个对象中存在多少个对象。在本发明方法的情况下，通过确定信号阵列中各个信号的数目，进行“计数”。

如本文所用，谈及RCA产物阵列时，术语“阵列”指在平面表面上的单个RCA产物的集合，其中RCA产物在表面的平面上相互空间分离(到这样的程度，依据泊松分布，该阵列是否为真实随机的)。“随机”阵列是其中要素(例如，RCA产物)在基材表面上按未预定的位置分布的阵列。在一些情况下，RCA产物在随机阵列上的分布可以由泊松统计学描述，从而，例如，随机阵列的RCA产物之间距离的分布按泊松分布逼近。

其他术语定义可以在本说明书通篇范围内出现。

示例性实施方案的描述

在描述多种实施方案之前，应当理解本公开的教导内容不限于所述的具体实施方案，并且本身当然可以变动。还应当理解本文所用的术语其目的仅在于描述具体实施方案，并且不意图是限制性的，因为本发明教导内容的范围将仅由所附的权利要求限制。

本文所用的章节标题仅出于组织目的并且不得以任何方式解释为限制所描述的主题。尽管结合多种实施方案描述了本发明教导内容，本发明的教导内容不意图限于这类实施方案。相反，本发明教导内容涵盖各种备选物、修饰和等同物，如本领域技术人员将领会。

除非另外定义，本文中所用的全部技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同意义。尽管与本文所述的那些方法和材料相似或等同的任意方法和材料也可以用于本发明教导内容的实施或检验，然而现在描述一些示例性方法和材料。

对任何出版物的引用是因其在申请日前的披露并且不应当解释为承认因在先发明而不认为本发明权利要求早于这种出版物。此外，所提供的公开日可能不同于需要独立核实的实际公开日。

如本领域技术人员阅读本公开时将显而易见，本文所描述和展示的各个变型的每一者都具有可以轻易地与其他几种实施方案的任一者的特征分离或与之组合的独立组分和特征，而不脱离本发明教导内容的范围或精神。任何所述的方法可以按列举的事件顺序或按逻辑上可能的任何其他顺序实施。

本文提到的全部专利和出版物，包括这些专利和出版物内公开的所有序列在内，均明确地通过引用的方式并入。

探针组合物

探针系统的一些实施方案可以包含：(a)序列B的标示寡核苷酸集合； (b)式X’-A’-B’-Z’的夹板寡核苷酸集合，其中：在该集合中：(i)序列A和B’变动，并且(ii)序列X’和Z’彼此不同并且不是可变的；并且，在每个夹板寡核苷酸中：(i)序列A’与核酸样品的基因组片段互补并且(ii)序列B’与标示寡核苷酸集合的至少一个成员互补；和(c)一个或多个包含X和Z的探针序列，其中序列X和Z不是可变的并且与序列X’和Z’杂交；其中每个夹板寡核苷酸能够杂交至：(i)探针序列，(ii)标示寡核苷酸集合的成员和 (iii)基因组片段，从而产生式X-A-B-Z的可连接复合物。如下文将更详细地描述，在一些实施方案中，不同的标示寡核苷酸及其互补序列B’鉴定不同的染色体，例如，染色体21、18和13。

图1显示式X-A-B-Z的可连接复合物，其结构表征本发明探针系统。如图1中所示，在复合物中，序列X、A、B和Z彼此可连接地相邻，由夹板寡核苷酸固定就位。如图1中所示，序列A是基因组的靶片段(例如，限制性片段的链)，并且序列B鉴定衍生相邻序列A的基因座(例如，染色体上的特定区域、特定染色体臂或特定染色体等)。序列A和B之间的关系在2图中显示，所述图2显示与各种基因组片段(A₁至A₆)杂交的简单探针集合。如图2 中所示，在(序列A₁、A₂和A₃的)顶部三个复合物中的基因组片段来自第一基因座(例如，染色体21)并且在(序列A₄、A₅和A₆的)底部三个复合物中的基因组片段来自第二基因座(例如，染色体18)。衍生顶部三个复合物中基因组片段的基因座借助单个序列(B₁)鉴定，并且衍生底部三个复合物中基因组片段的基因座借助不同的序列(B₂)鉴定。序列X和Z在全部所示的复合物中均相同。

如将显而易见，夹板寡核苷酸集合可以是如所需那样复杂，并且在一些实施方案中，序列A’可以具有至少100、至少1,000、至少5,000、至少 10,000或至少50,000或更大的复杂度，其意指夹板寡核苷酸可以，总体上与至少100、至少1,000、至少5,000、至少10,000或至少50,000个或更多个基因组DNA片段杂交。夹板寡核苷酸集合中的序列B’可以具有小得多的多样性，因为它单纯充当基因座标示物。从而，在夹板寡核苷酸集合中，序列B’可以具有至少2(例如，3或4)的复杂度，不过在一些实施方案中，序列B’可以具有至少10、至少100或至少1000的复杂度。如将显而易见，因为序列B’与序列B互补，所以基因座特异性寡核苷酸集合的复杂度可以是与序列B’的复杂度相同。例如，如果存在三个标示寡核苷酸，则可以存在三个不同的B’序列。集合中夹板寡核苷酸的数目可以大幅度变动，这取决于基因座的长度和靶片段的数目。在一些实施方案中，每个夹板寡核苷酸集合可以含有至少10、至少50、至少100、至少500、至少1,000、至少5,000、至少10,000或至少50,000个不同的夹板寡核苷酸。

例如，在一些实施方案中，夹板寡核苷酸集合可以含有：(i)含有至少 100个A’序列(例如，集合A_1,X’，x＝1-100+)的第一夹板寡核苷酸亚群，所述A’序列与第一基因座的不同片段(例如，染色体21的片段，或，例如，集合A_1,X，x＝1-100+)互补，其中这个夹板寡核苷酸亚群的每一者具有相同的B’序列，例如，B₁’；(ii)含有至少100个A’序列(例如，集合A_2,X’，x＝1-100+) 的第二夹板寡核苷酸亚群，所述A’序列与第二基因座的不同片段(例如，染色体18的片段，或例如，集合A_2X，x＝1-100+)互补，其中这个夹板寡核苷酸亚群的每一者具有与第一(或任何其他)亚群的B’序列不同的相同B’序列，例如，B₂’；(iii)含有至少100个A’序列(例如，集合A_3,X’，x＝1-100+) 的第三夹板寡核苷酸亚群，所述A’序列与第三基因座的不同片段(例如，染色体18的片段，或，例如，集合A_3X，x＝1-100+)互补，其中这个夹板寡核苷酸亚群的每一者具有与任何其他亚群的B’序列不同的相同B’序列，例如，B₃’；(iv)含有至少100个A’序列(例如，集合A_4X’，x＝1-100+)的任选的第四夹板寡核苷酸亚群，所述A’序列与第四基因座的不同片段(例如，另一个染色体的片段或，例如，集合A_4,X，x＝1-100+)互补，其中这个夹板寡核苷酸亚群的每一者具有与任何其他亚群的B’序列不同的B’序列，例如， B₄’。

如图3中所示，探针系统可以按多种不同方式设置，这取决于将会怎样使用它。例如，如图3A、图3C和图3D中所示，序列X和Z可以在不同的分子中，并且因此，可连接的复合物是线状的。在这些实施方案中，一个或多个含有序列X和Y的探针可以包含了包含序列X的第一寡核苷酸和包含序列Y的第二寡核苷酸。在这些实施方案中，第一和第二寡核苷酸不需要加尾，如图3A中所示。在这些实施方案中，在连接后，可以扩增连接产物，使用，例如，与序列X和Z杂交的加尾(talked)PCR引物扩增。在一些实施方案中(如图3C和图3D中所示)，第一和/或第二寡核苷酸可以本身具有提供引物结合位点以促进扩增和计数的尾。在一些实施方案中，尾可以含有分子索引器(例如，随机序列)，所述分子索引器允许在那些分子已经扩增和测序后计数原始连接产物的数目。在可选实施方案中和如图3B 中所显示，含有序列X和Y的一个或多个探针可以是式X-Y-Z的单一主链探针。在这些实施方案中和如所示，可连接复合物是式X-A-B-Z-Y的环状可连接复合物，其中序列Y接合序列X和Z。在图3E中所示的另一个实施方案中，一个或多个含有序列X和Z的探针可以本身是夹板寡核苷酸的部分。在这些实施方案中，连接产物可以是“哑铃”型，如图3E中所示。

在这些实施方案中，探针系统还可以包含PCR引物对，所述PCR引物对与一个或多个包含序列X和Z的探针杂交，从而允许扩增连接产物的中央部分(即，含有序列A和B的部分)。在一些实施方案中，例如，图3B中所示的实施方案，探针系统还可以包含与主链探针中的序列杂交的滚环扩增引物，从而促进这些产物由滚环扩增法扩增。在一些实施方案中，探针系统可以包含使序列与主链探针杂交的滚环扩增引物；和至多四个可区分地标记的寡核苷酸，其中每个可区分地标记的寡核苷酸与序列B’的互补物杂交。这将在下文更详细地解释。

从而，探针系统的一些实施方案可以包含夹板寡核苷酸、主链探针和一个或多个基因座特异性寡核苷酸。探针系统还可以包含一个或多个扩增引物，如杂交主链探针中序列的滚环扩增引物或与主链探针中位点杂交的 PCR引物对，和，任选地，一个或多个与基因座特异性寡核苷酸的互补物杂交的标记探针。

如上文所示，序列A’在集合的不同成员之间变化，并且A’的序列各自设计成与基因组的不同靶片段互补。A’的序列可以独立地长度和序列各异，并且在一些情况下，可以是处于8至80个核苷酸，例如，10至60个核苷酸长度范围内，这取决于靶片段的长度和序列。序列B’鉴定相邻片段所来源的基因座(例如，特定染色体，如染色体18或21，等)。序列B’可以具有任何合适的长度，但是在一些实施方案中，它处于8至30个核苷酸长度范围内。在任何单一测定法中，序列X’和Z’彼此不同并且不是可变的。序列X’和Z’可以具有任何合适的长度，但是在一些实施方案中，它们独立地处于 8至30个核苷酸长度范围内，不过可以使用更长或更短的序列。夹板寡核苷酸的总体长度可以处于50至200个核苷酸范围内。在一些实施方案中，夹板寡核苷酸可以是生物素酰化的，从而允许连接产物(下文讨论)在扩增之前与未连接的其他产物分离。如将显而易见，序列X和Z(其可以具有任何合适的长度，但是在一些实施方案中，它们独立地处于8至30个核苷酸长度范围内)不是可变的并且与序列X’和Z’杂交。基因座特异性寡核苷酸具有序列B，再次，所述序列B可以具有任何合适的长度，例如，处于8至 30个核苷酸长度范围内。

如上文所示，使用上述探针系统产生的复合物可以是线状或环状(如图3中所示)。图4显示图3B中所示的环状实施方案的一些特征。

如图4中所示，在一些实施方案中，探针系统可以包含夹板寡核苷酸集合2(式X’-A’-B’-Z’，其可以处于5’至3’或3’至5’方向)、式X-Y-Z的主链探针6，其中序列X和Z不是可变的并且以反向与序列X’和Z’杂交(即，从而，主链的末端指向彼此，如所显示)，和具有序列B的基因座特异性寡核苷酸集合8。主链探针中的序列Y可以是任何便利长度，例如，20至100个核苷酸。主链探针6的总长度可以处于50至300个核苷酸长度范围内，或在某些情况下更长。

如图4中所示，探针集合在多种寡核苷酸中的表征，可以与基因组片段杂交以产生可连接环状复合物10的第一集合(即，复合物中主链探针6的末端、基因座特异性寡核苷酸8和基因组片段4彼此可连接地相邻并且由夹板寡核苷酸2彼此可连接相邻地固定)。如所示的例子中显示，主链探针6、基因座特异性寡核苷酸8和片段4与第一夹板寡核苷酸2杂交以产生式 X-A-B-Z-Y的可连接环状复合物10的集合，其中序列Y接合序列X和Z。在可连接环状复合物10的这个集合中存在的片段4可以来自至少2、至少5、至少10，或至少50个或更多个不同的基因座(例如，不同染色体)，并且相邻片段所来源的基因座(例如，特定染色体)的身份由对于每个基因座而言序列相同的基因座特异性寡核苷酸8提供。在这个例子中，序列A和A’(对应于不同基因组片段的序列)变动，B和B’(基因座标示物)变动，并且序列 X、Y和Z不变动。

如下文将更详细地描述，在这个实施方案中，探针系统(其包含夹板寡核苷酸2的第一集合、主链探针6和基因座特异性寡核苷酸8)可以与包含基因组4的片段的样品杂交以产生式X-A-B-Z-Y的可连接环状复合物10的第一集合，如所显示。在连接可连接环状复合物以产生式X-A-B-Z-Y的环状DNA分子12的第一集合后，环状DNA分子第一集合可以通过滚环扩增 (RCA)进行扩增以产生RCA产物16的第一集合。可以使用与主链探针6中序列杂交的滚环扩增引物14(如图4中所示)或与连接片段侧翼的位点杂交的PCR引物进行RCA。如此，在某些实施方案中，探针系统可以另外包含滚环扩增引物14(所述引物与主链探针6中序列杂交)或与连接片段侧翼的位点杂交的PCR引物对。在RCA后，特定的RCA产物16中的已克隆片段的“来源”(即，已克隆的基因组片段所来源的基因座，例如，特定染色体)则可以通过第一标记的寡核苷酸18与序列B的互补物(即，B’)杂交或通过测序确定。如将显而易见，标记的寡核苷酸18可以包含序列B的至少一些。从而，在某些实施方案中，探针系统可以另外包含与第一基因座特异性寡核苷酸8的互补物杂交的标记寡核苷酸。

如将显而易见，如果来自两个或更多个不同基因座的序列将在相同反应中检出，则探针系统可以包含额外的可区分地标记的寡核苷酸，每个基因座标示物B各一个，从而可以同时鉴定两个RCA产物集合。在这些实施方案中，探针系统还可以包含至多四个可区分地标记的寡核苷酸(例如， B₁、B₂、B₃、B₄)，其中每个可区分地标记的寡核苷酸与序列B’的互补物(例如，B₁’、B₂’、B₃’、B₄’)杂交。

如将显而易见，与夹板寡核苷酸杂交的片段是正在分析的基因组的限制性片段。另外，上文描述的探针、寡核苷酸或引物的任一者(例如，主链探针)可以含有分子条形码(例如，索引序列如随机或半随机序列)，从而每个环状DNA分子能够依据克隆片段和条形码的结合区分，从而允许计数有多少初始分子被测序，甚至在分子已经扩增后也是如此(参见，例如， Casbon等人)。

方法

本文中还提供一种方法，所述方法包括：(a)将如上文所述的探针系统与包含基因组的片段的测试基因组样品杂交，以产生式X-A-B-Z的可连接复合物；(b)连接可连接复合物以产生式X-A-B-Z的产物DNA分子；并且 (c)计数与序列B的每个基因座标示物相对应的产物DNA分子。在一些实施方案中，可以通过以下方式进行计数：对产物DNA分子或其扩增产物测序，以产生序列读出结果，并且计数包含每个序列B的序列读出结果的数目。

在其中产物DNA分子为环状的实施方案中，计数可以包括通过滚环扩增法扩增产物DNA分子，并计数包含每个序列B的扩增产物的数目。在这些实施方案中，所述方法可以包括使用与序列B杂交的可区分地标记的探针标记RCA产物，和通过对每种可区分的标记物计数RCA产物的数目，进行计数。图4中显示这种方法的一个实施的一般原理。如将显而易见，与夹板寡核苷酸杂交的片段可以(独立地)是正在分析的基因组的顶部链或底部链限制性片段。可以通过用一种或多种限制性酶(例如，具有四碱基识别序列的酶的组合)消化基因组并且随后使消化的样品变性，产生这些片段。从而，正在克隆的片段具有确定的末端，从而允许设计夹板寡核苷酸以克隆这些片段。存在产生具有确定末端的片段的其他方式(例如，使用瓣状核酸内切酶、核酸外切酶、缺口填补等的方法)。

如上文所示，这种方法可以多路复用以提供分析两个或更多个不同基因座的方式，如图5中所示。参考图5，含有基因组DNA40的片段的样品可以：a)与探针系统42杂交，所述探针系统42包含：(i)如上文所述的夹板探针的第一集合；(ii)如上文所述的第一基因座特异性寡核苷酸；(iii) 如上文所述的夹板探针的第二集合；(iv)如上文所述的第二基因座特异性寡核苷酸；和，(v)如上文所述的主链探针，以产生混合物44，所述混合物44包含式X-A-B-Z-Y的可连接环状复合物的第一集合(所述可连接环状复合物含有来自第一基因座(例如，第一染色体)的片段以及来自第二基因座(例如，第二染色体)的片段)。接下来，该方法包括(b)连接可连接环状复合物以产生环状DNA分子46的混合物(所述混合物含有环状DNA分子的第一和第二集合)，并且用核酸外切酶处理样品以除去线性核酸分子后，(c) 使用与主链探针杂交的单一引物通过滚环扩增法扩增环状DNA分子46，以产生RCA产物48。随后可以通过以下方式鉴定含于每种RCA产物中的每个片段所来源的基因座：将RCA产物与可区分地标记的第一和第二寡核苷酸探针杂交，所述寡核苷酸探针与每种产物中存在的基因座特异性寡核苷酸的互补物杂交，以产生标记的样品50。在这些实施方案中，该方法可以包括：(d)分别：(i)使用与第一基因座标示物序列杂交的标记探针，检测含有来自第一基因座的片段的RCA产物和(ii)使用与第二基因座标示物序列杂交的标记探针检测含有来自第二基因座的片段的RCA产物，其中标记探针是可区分地标记的。如上文所示，在连接后，如果夹板寡核苷酸是生物素酰化的，则使用，例如，链霉亲和素珠，环状产物可以与未连接的产物分离。在任一种情况下，连接的样品可以用核酸外切酶处理，从而从反应中移除线性DNA分子。这种原理可以扩展至计数针对任何数目的基因座(例如，3、4，直至10或至多100个或更多个基因座)产生的连接产物的数目。

在一些实施方案中，检测步骤可以(d)包括：(i)在支持物上沉积RCA 产物；并且(ii)分别计数支持物的区域中用一种标记物标记的各个标记的 RCA产物的数目和用另一种标记物标记的各个标记的RCA产物的数目。如将理解，标记的寡核苷酸的杂可以在RCA产物于支持物上分布前或在 RCA产物于支持物上分布后进行。

也就是说，可以通过例如以下方式估计与每个基因座相对应的滚环扩增产物的数目：在支持物(载片或多孔膜)的表面上分布RCA产物、使用标记的寡核苷酸(例如，荧光标记的寡核苷酸)杂交RCA产物并且随后例如，使用荧光读数仪，计数支持物的区域中离散信号的数目。标记可以在产物已经于支持物上分布之前或之后进行，并且，因为每个RCA产物含有上千个副本的相同序列，应当存在标记寡核苷酸的上千个结合位点，从而增加信号。在多重实施方案(例如，其中计数与两个不同基因座相对应的RCA 产物)中，与一个基因座相对应的RCA产物可以用一种荧光团标记并且与另一个基因座相对应的RCA产物可以用不同荧光团标记，从而允许分别计数不同的RCA产物。

在某些实施方案中，该方法包括：(a)经多孔透明毛细管膜过滤含有滚环扩增(RCA)产物的液体样品，从而在该膜上浓缩RCA产物并产生RCA 产物的阵列；(b)在步骤(a)之前或之后将RCA产物荧光标记；并且，(c)计数膜区域中各个标记的RCA产物的数目，从而提供对样品中标记的RCA 产物数目的评估。在一些实施方案中，多孔透明毛细管膜可以是多孔阳极氧化铝膜。在这些实施方案中，可以通过在步骤(a)之前或之后将荧光标记的寡核苷酸与RCA产物杂交，进行步骤(b)。在某些实施方案中，该方法可以包括对膜区域成像以产生一幅或多幅图像并计数一幅或多幅图像中各个标记的RCA产物的数目。这类方法的例子在2016年5月2日提交的 PCT/IB2016/052495中描述，所述文献通过引用的方式并入本文。

定量来自各个RCA产物的信号是有意义的，因为在许多应用(例如，依据cfDNA分析的非侵入性产前诊断)中，与特定染色体(例如，染色体 21)相对应的片段的数目需要相当准确地和在无偏倚的情况下测定。常见分析方法使用PCR，如熟知，所述PCR是一种非常有偏倚的方法，因为一些序列的扩增效率比其他序列高得多。对于许多诊断工作而言，这使得基于PCR的策略不切实际。

在具体的实施方案中，样品可以含有多个RCA产物群体(例如，2个、 3个或4个或更多个RCA产物群体，如第一标记的RCA产物群体和第二RCA 产物群体)，其中不同的RCA产物群体可区分地标记，这意味着每个RCA 产物群体标记物的各自成员可以独立地检出并计数，甚至当群体混合时也是如此。在主题方法中可用的合适的可区分荧光标记物对例如包括Cy-3和 Cy-5(Amersham Inc.,Piscataway,NJ)、Quasar 570和Quasar 670(BiosearchTechnology,Novato CA)、Alexafluor555和Alexafluor647(Molecular Probes, Eugene,OR)、BODIPY V-1002和BODIPY V1005(Molecular Probes,Eugene, OR)、POPO-3和TOTO-3(Molecular Probes,Eugene,OR)以及POPRO3和 TOPRO3(Molecular Probes,Eugene,OR)。其他合适的可区分可检测标记物可以例如在Kricka等人(Ann Clin Biochem.39:114-29,2002)中找到。例如， RCA产物可以用ATTO、ALEXA、CY或二聚体菁染料如YOYO、TOTO等的任何组合标记。也可以使用其他标记物。

在一些情况下，RCA产物群体可以通过用多重标记物标记它来可区分地标记，从而增加多路复合的可能性。例如，在一些情况下，群体可以用两种可区分染料(例如，Cy3和Cy5)标记，当读取时，所述群体将与用单一染料(例如，Cy3或Cy5)标记的群体可区分。在一些实施方案中，第一RCA 产物群体代表标记的RCA产物的“测试”群体并且第二RCA产物群体代表第一RCA产物的数目可以与之比较的RCA产物“参比”群体。例如，在一些实施方案中，第一RCA产物群体可以对应于第一染色体区域(例如，第一染色体如染色体21)并且第二RCA产物群体可以对应于第二染色体区域(例如，第二染色体如染色体13或18或第一染色体的不同区域)，并且第一RCA 产物群体和第二RCA产物群体的数目可以计数并且比较以确定是否存在该区域的拷贝数差异(提示存在测试区域的复制或缺失)。在一些实施方案中，样品含有至少第一RCA产物群体和第二RCA产物群体，其中将第一和第二标记的RCA产物群体在标记步骤(步骤(b))中可区分地标记。在这些实施方案中，该方法包括计数膜区域中第一标记的RCA产物的数目和计数膜区域(相同区域或不同区域)中第二标记的RCA产物的数目，从而提供对样品中第一和第二RCA产物群体的数量的评估。这个实施方案还可以涉及将样品中第一RCA产物的数目与样品中第二RCA产物的数目比较。

在该方法的这些实施方案中的某些实施方案内，该方法可以包括对第一和第二标记的RCA产物群体成像以产生一幅或多幅图像(例如，分别是第一图像和第二图像)并且，任选地，(i)计数一幅或多幅图像中标记的RCA 产物的数目，从而提供对样品中第一和第二标记的RCA产物群体数目的评估。可以使用已知的方法(例如，使用适宜的滤器等)分别检测第一和第二标记的RCA产物群体。该方法的这些实施方案还可以包括将样品中第一标记的RCA产物的数目与样品中第二标记的RCA产物的数目比较。该方法的这个步骤可以涉及计数第一群体中至少1,000个(例如，至少5,000、至少 10,000、至少20,000、至少50,000、至少100,000、至少500,000个直至1百万个或更多个)标记的RCA产物并且计数膜区域中至少1,000个(例如、至少 5,000、至少10,000、至少20,000或至少50,000、至少100,000、至少500,000 个直至1百万个或更多个)标记的RCA产物，从而确保可以按统计严格性描述拷贝数的差异。

在可选实施方案中，可以使用与那些序列翼侧的位点杂交或与之相同的PCR引物，通过PCR扩增DNA分子中的克隆片段(和，任选地，环状DNA 分子中的任何索引序列)。在这个实施方案中，PCR产物可以使用所述引物扩增。在这个实施方案中，可以通过任何合适的qPCR测定法(例如，Taqman 测定法)等对产物的数量定量。在另一个实施方案中，产物可以测序(在扩增或不扩增的情况下)。在这些实施方案中，与每个基因座相对应的环状分子的数量可以通过计数与基因座相对应的序列读出结果的数目(例如，计数有多少序列读出结果具有特定的基因座特异性条形码序列)来估计。在一些实施方案中，如果使用索引序列，可以通过确定有多少不同分子条形码序列与每个基因座特异性条形码序列相关，计数与每个基因座相对应的环状分子的数目。

如将显而易见，在这个实施方案中，所用的引物可以与在下列的应用中相容的序列，例如，Illumina的可逆性终止子方法、Roche的焦磷酸测序法方法(454)，LifeTechnologies的连接测序法(SOLiD平台)或Life Technologies的Ion Torrent平台。以下参考文献中描述了这类方法的例子： Margulies等人(Nature 2005 437:376–80)；Ronaghi等人(Analytical Biochemistry 1996 242:84–9)；Shendure(Science 2005 309:1728)；Imelfort 等人(Brief Bioinform.2009 10:609-18)；Fox等人(Methods Mol Biol. 2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)和 Morozova(Genomics.2008 92:255-64)，所述文献通过引用的方式并入用于总体描述方法和这些方法的具体步骤，包括每个步骤的全部起始产物、试剂和终产物。

测试基因组样品可以来自疑似患有疾病或病状或面临患有疾病或病状风险的患者，并且步骤(c)的结果提示患者或其胎儿是否患有疾病或病状。在一些实施方案中，疾病或病状可以是癌症、感染性疾病、炎性疾病、移植排斥或染色体缺陷如三体性。

如上文所示，在一些情况下，使用这种方法分析的样品可以是从血液(例如，从孕妇血液)获得的cfDNA的样品。在这些实施方案中，该方法可以用来检测正在发育的胎儿中的染色体异常(如上文所述)或用来例如计算样品中胎儿DNA的分数。

可以使用该方法检测到的示意性拷贝数异常包括但不限于21三体、13 三体、18三体、16三体、XXY、XYY、XXX、X单体、21单体、22单体、16单体和15单体。下表中列出可以使用本发明方法检测到的其他拷贝数异常。

本文所述的方法可以用于分析实际上来自任何生物(包括但不限于植物、动物(例如，爬行类、哺乳动物、昆虫、蠕虫、鱼类等))、组织样品、细菌、真菌(例如，酵母)、噬菌体、病毒、尸体组织、考古/古代样品等的基因组DNA。在某些实施方案中，该方法中使用的基因组DNA可以衍生自哺乳动物，其中在某些实施方案中，哺乳动物是人。在示例性实施方案中，基因组样品可以含有来自哺乳动物细胞(如人、小鼠、大鼠或猴细胞) 的基因组DNA。样品可以从培养的细胞或临床样品的细胞(例如，组织活检样品、刮擦物或灌洗液的细胞或法医样品的细胞(即，在犯罪现场采集的样品的细胞))制得。在具体的实施方案中，核酸样品可以从生物样品(如细胞、组织、体液和粪便)获得。目的体液包括但不限于血清、血浆、唾液、粘液、痰(phlegm)、脑脊液、胸膜液、泪、阴道管液(lactal duct fluid)、淋巴液、痰(sputum)、脑脊液、滑液、尿、羊水和精液。在具体的实施方案中，样品可以从受试者(例如，人)获得。在一些实施方案中，分析的样品可以是从血液(例如，从孕妇血液)获得的cfDNA的样品。

例如，在一些实施方案中，可以获得DNA的样品并且将样品用一种或多种限制性酶(或RNA指导的核酸内切酶如cas9)消化以产生可预测片段(所述片段的中位大小可以处于20-100个碱基范围内)。上文描述的方法可以对消化的DNA进行，并且使用本文所述的方法，对应于一个基因座(例如，一条染色体)的片段的数目可以与对应于另一个基因座(例如，另一条染色体)的片段的数目比较。如所示，该方法可以用来鉴定与疾病或病状相关的拷贝数差异，例如，染色体非整倍体。

如上文所示，在一些情况下，分析的样品可以是从血液(例如，从孕妇血液)获得的cfDNA的样品。在这些实施方案中，该方法可以用来检测正在发育的胎儿中的染色体异常或用来例如计算样品中胎儿DNA的分数。

试剂盒

本公开还提供用于实施如上文所述的主题方法的试剂盒。在某些实施方案中，试剂盒可以包含：(a)式X’-A’-B’-Z’的夹板寡核苷酸集合，其中：在集合中：(i)A和B’的序列变动，以及(ii)X’和Z’的序列彼此不同并且不是可变的；并且在每个分子中：(i)序列A’与基因组的片段互补并且(ii)序列B’鉴定从中衍生基因组片段的基因座，所述基因组片段与相邻的A’序列杂交；(b)一个或多个包含序列X和Z的探针，其中：i.序列X和Z不是可变的并且与序列X’和Z’杂交，和(c)序列B的基因座特异性寡核苷酸集合；并且其中：(a)的每个夹板寡核苷酸均能够杂交至(i)(b)的探针序列； (ii)(c)的基因座特异性寡核苷酸；和，(iii)(a)的基因组片段，以产生式 X-A-B-Z的可连接复合物，其中序列B鉴定相邻序列A的基因座。在一些实施方案中，(b)的一个或多个探针包含了包含序列X的第一寡核苷酸和包含序列Y的第二寡核苷酸。在一些实施方案中，试剂盒还可以与一个或多个包含序列X和Y的探针杂交的PCR引物对。在某些实施方案中， (b)的一个或多个探针序列是式X-Y-Z的主链探针，并且可连接复合物是式 X-A-B-Z-Y的环状可连接复合物，其中序列Y连接序列X和Z，并且序列B鉴定相邻序列A的基因座。在这些实施方案中，试剂盒还可以包含与主链探针中的序列杂交的滚环扩增引物。在这些实施方案中，试剂盒可以包含多个可区分地标记的寡核苷酸，其中每个可区分地标记的寡核苷酸与B’序列的互补物杂交。试剂盒可以另外含有用于进行滚环扩增的连接酶和/或链置换聚合酶。

试剂盒的各种组分可以存在于独立的容器中或某些相容的组分(例如，第一和第二夹板探针集合和第一和第二基因座特异性探针)可以根据需要预先合并至单个容器中。

除上文提到的组分之外，主题试剂盒还可以包括使用试剂盒的组分以实施主题方法的说明书。

实施例

提供以下实施例从而为本领域普通技术人员提供如何制造和使用本发明的附加公开和描述，并且不意图限制本发明人视为其发明的范围，它们也不意图表明下文的实验是所进行的全部或仅有实验。

实施例I

验证方法的初始数据

这个实验的目的是将使用具有染色体特异性的主链寡核苷酸(例如，用来捕获来自第一染色体(例如，染色体21)的片段的主链寡核苷酸与用来捕获来自第二染色体(例如，染色体18)的片段的主链寡核苷酸不同，如 WO 2015083001和WO 2015083002中所述)的方法与其中相同主链寡核苷酸用于全部所检验的染色体的方法比较。这在图6中显示。如显示，“新”设计中使用作为靶片段克隆至相同环状产物中的染色体特异性序列(例如， A或B)，确定已克隆片段的来源。在新方法中，使用单一主链寡核苷酸(与先前方法中的多重主链寡核苷酸相比)，并且可以使用相同RCA引物或单一PCR引物对扩增来自全部染色体的已克隆片段。

将细胞系DNA(10ng)消化、变性并与“旧”设计探针和“新”设计探针杂交。在杂交和连接后，连接反应接受核酸外切酶处理，以移除溶液中的任何非环化DNA。剩下的环状产物充当RCA反应中的模板，所述RCA反应产生环状产物的连环体拷贝。将这些RCA产物用互补于“夹板”序列的荧光标记的寡核苷酸标记，并沉积至固相支持物上以便检测。

来自孕妇的13份cfDNA样品是接受如上文所述的相同反应处理。

对于全部反应，以每种颜色计数各个对象(RCA产物)的数目。对于每份样品，计算按颜色A/B计的对象数目的比率并且计算变异系数作为测定法精度的度量。低变异系数使得精确测量胎儿分数低的样品成为可能。通过添加含有低加标量21三体细胞系样品的样品展示这一点。

根据图7中所显示的数据，新设计对细胞系DNA和cfDNA均产生较低的CV，使得更精确测量染色体异常的胎儿DNA成为可能。

在不希望受任何具体理论约束的情况下，认为这种方法可能对样品中的杂质较不敏感。

实施例II

临床样品分析

从26位正常怀孕个体和4位怀有存在21三体的胎儿的个体制备 cfDNA样品。离心来自每位患者的血液(10ml)以分离血浆与红细胞和暗黄覆盖层。相应血浆(约3-5ml/患者)接受基于珠的DNA提取方案处理，产生稀释于50μl缓冲液中的提取cfDNA。

cfDNA随后接受上文所述的方法处理并通过使用荧光显微镜数字式计数滚环产物进行分析。全部4个阳性病例均以高于3以上的z-评分检出。正常样品的CV经计算为0.49％，从而显示测定法的高精度。

Claims

1.一种式X-A-B-Z的可连接复合物，其中在复合物中，序列X、A、B和Z彼此可连接地相邻并通过夹板寡核苷酸固定就位，并且其中序列A是基因组的靶片段，序列B鉴定衍生相邻序列A的基因座。

2.根据权利要求1所述的可连接复合物，其中所述夹板寡核苷酸是式X’-A’-B’-Z’。

3.根据权利要求1或2所述的可连接复合物，其中序列A是人基因组的靶片段。

4.根据权利要求1-3中任一项所述的可连接复合物，其中所述靶片段是限制性片段的链。

5.根据权利要求1-4中任一项所述的可连接复合物，其中序列B鉴定染色体上的区域。

6.根据权利要求1-5中任一项所述的可连接复合物，其中序列B鉴定特定染色体臂。

7.根据权利要求1-6中任一项所述的可连接复合物，其中序列B鉴定特定染色体。

8.根据权利要求1-7中任一项所述的可连接复合物，其中序列B指示相邻序列A来自染色体21。

9.根据权利要求1-8中任一项所述的可连接复合物，其中所述复合物是式X-A-B-Z-Y的环状可连接复合物，其中序列Y接合序列X和Z。

10.根据权利要求1-8中任一项所述的可连接复合物，其中所述复合物是线性的。

11.根据权利要求1-10中任一项所述的可连接复合物，其中所述夹板寡核苷酸是式X’-A’-B’-Z’，并且其中序列A’处于8至80个核苷酸长度范围内。

12.根据权利要求1-11中任一项所述的可连接复合物，其中所述夹板寡核苷酸是式X’-A’-B’-Z’，并且其中序列B’处于8至30个核苷酸长度范围内。

13.根据权利要求1-12中任一项所述的可连接复合物，其中序列X和Z独立地处于8至30个核苷酸长度范围内。