CN110869515B

CN110869515B - 用于基因组重排检测的测序方法

Info

Publication number: CN110869515B
Application number: CN201880045564.3A
Authority: CN
Inventors: M·科里尼; D·N·罗伯茨
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2017-07-12
Filing date: 2018-07-10
Publication date: 2024-08-23
Anticipated expiration: 2038-07-10
Also published as: US11505826B2; EP3652345A4; JP2024099616A; EP3652345A2; US20220364169A1; WO2019014218A3; JP2020530270A; JP7539770B2; US20190017113A1; WO2019014218A2; CN110869515A

Abstract

本公开涉及用于改进检测多核苷酸中存在的基因组重排比如缺失、插入、倒位和易位的单端测序方法。衔接子上的第一引发事件允许靶序列的测序，并且第二引发事件允许鉴定通过选择性扩增而扩增和加标签的序列。在相同方向上的引发事件的组合有助于读段比对和任何基因组重排的鉴定。

Description

用于基因组重排检测的测序方法

相关申请的交叉引用

本申请主张2017年7月12日提交的美国非临时申请15/648,240号的权益，在此通过题述并入其全部内容。

发明领域

本公开涉及用于改进基因组重排(诸如融合基因)的检测的测序方法、组合物和试剂盒。本公开还涉及包含基因组重排的靶多核苷酸文库的制备方法。

背景

已经证明使用核酸测序方法鉴定基因组重排的能力在人类遗传障碍和疾病的检测中是非常有益的。基因组重排通常是指核酸链中的任何核苷酸重排，包括一个或多个核苷酸的缺失、插入、倒位或易位，并且可以通过对感兴趣的核酸测序并将序列数据与参考(比如已知的核酸序列)比较而加以检测。可以使用下一代测序(NGS)来快速分析多核苷酸并检测多核苷酸中的任何基因组重排。NGS允许同时平行分析大量序列。在一些形式中，将诸如DNA之类的多核苷酸通过一个或多个衔接子固定在固体表面上，并扩增以增加信号强度。通常，通过将样品片段化成多核苷酸片段，用一个或多个衔接子将片段加标签，以及扩增多核苷酸片段，从而制备用于测序的文库。可以用一种或多种扩增引物扩增片段。在通过合成形式测序时，使片段与测序引物杂交，并且以酶促方式添加标记的双脱氧核苷酸。检测并分析来自标记的双脱氧核苷酸的信号，以确定序列。

可以使用单端或双端测序方法分析感兴趣的多核苷酸。单端测序方法涉及从片段的一端向另一端进行基因组片段的测序。单端测序读段为每片段提供一个读段，所述一个读段对应于片段两端之一的n个碱基对，其中n是测序循环数。单端测序通常不太适合检测大规模基因组重排和重复序列元件。跨融合连接点的单端读取为融合事件提供碱基对证据。然而，可能难以确保的是，单端读取已进行到足以鉴定融合事件的碱基对数目。

双端方法涉及从一端到另一端读取核酸片段直至达到指定的读长，然后从片段的另一侧进行另一轮读取。对于双端方法，进行正向序列读取和反向序列读取，并将数据配对为相邻序列。将序列与参考样品匹配，以鉴定变体。双端测序方法通常用于检测基因组重排，因为这样的方法通常提供良好的定位信息，从而更容易解析基因组中存在的结构重排。然而，许多测序仪器没有执行双端测序的配置，而仅能够进行单端测序。

WO 2007133831A2论述了使用散布在靶多核苷酸中的衔接子获得靶序列的核苷酸序列信息的方法和组合物。所述方法可用于在靶多核苷酸或片段内的间隔位置插入多个衔接子。衔接子可以用作使用各种测序化学来询问相邻序列的平台，所述测序化学诸如通过引物延伸、探针连接等鉴定核苷酸的那些。本公开包括用于将已知的衔接子序列插入到靶序列中使得连续的靶序列被衔接子中断的方法和组合物。本公开指出，通过对衔接子的“上游”和“下游”两者测序，可以完成整个靶序列的鉴定。

WO2015112974A1论述了与用于制备和分析核酸的方法有关的方面。在一些实施方案中，提供了用于序列分析(例如，使用下一代测序)的核酸的制备方法。

WO2015148219A1论述了一种分析靶核酸片段的方法，所述方法包括使用靶标的一条链作为模板通过使用第一寡核苷酸引物的引物延伸生成第一链，所述第一寡核苷酸引物包含从5'至3'的突出端衔接子区、引物ID区、测序引物结合位点和与靶片段的一端互补的靶标特异性序列区；任选地去除未结合的引物；从生成的第一链扩增靶标以产生扩增产物；和检测扩增产物。本公开还论述了为什么独特的引物可用于这样的靶分析方法。

使用单端测序检测基因组重排的改进方法将对该领域做出有用的贡献，特别是如果该方法与高通量测序分析结合使用的话。

发明概述

提供了用于检测多核苷酸中的基因组重排的方法、组合物和试剂盒。本发明的方法、组合物和试剂盒可用于利用感兴趣的核酸的单端测序更容易和可靠地检测基因组重排。

结合所附权利要求书，根据以下详细说明，本发明的这些和其他特征和优点将显而易见。

附图简要说明

当结合附图阅读时，根据以下详细说明将最好地理解本教导。这些特征不一定是按比例绘制的。

图1展示了用于测序的多核苷酸的制备方法的一个实施方案。

图2展示了用于测序的多核苷酸的制备方法的另一个实施方案。

定义的术语

应当理解，本文中使用的术语是仅仅出于描述具体实施方案的目的，而不意图限制。所定义的术语是对如本教导的技术领域中通常理解和接受的定义的术语的技术和科学含义的补充。

如在说明书和所附权利要求书中使用的，除了它们的普通含义外，术语“实质的”或“基本上”意味着在本领域普通技术人员可接受的限度或程度内。例如，“基本上取消”意味着本领域技术人员认为取消是可接受的。

如在说明书和所附权利要求书中使用的，除了其普通含义外，术语“大致”和“大约”意味着在本领域普通技术人员可接受的限度或量之内。术语“大约”通常指的是指示数值的正或负15％。例如，“大约10”可以指示8.7到1.15的范围。例如，“大致相同”表示本领域普通技术人员认为所比较的事项相同。

术语“多核苷酸”和“核酸”在本文中可互换使用，用于描述任何长度的聚合物，例如大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、至多约10,000个或更多个碱基组成的核苷酸，例如脱氧核糖核苷酸或核糖核苷酸，或通过合成产生的化合物(例如PNA，如美国专利No.5,948,902和其中引用的参考文献所述)，其可以以序列特异性方式与天然存在的核酸杂交，所述方式类似于两个天然存在的核酸的杂交，例如可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶(分别为G、C、A和T)。如在说明书和所附权利要求书中使用的，除非另有说明，否则多核苷酸可以是带衔接子的多核苷酸、多核苷酸扩增子或带衔接子的多核苷酸扩增子。带衔接子的多核苷酸与感兴趣的多核苷酸的不同之处在于已将衔接子添加到感兴趣的多核苷酸中。

如本文中使用的，术语“靶核酸”或“靶”指的是含有靶核酸序列的核酸。靶核酸可以是单链或双链的，并且常常是双链DNA。如本文中使用的，“靶核酸序列”、“靶序列”或“靶区域”表示特定的序列或其互补序列。靶序列可以在细胞的基因组之内的体外或体内核酸中，可以为单链或双链核酸的任何形式。

“杂交(hybridization)”或“杂交(hybridizing)”是指完全或部分互补的核酸链在指定的杂交条件下聚到一起以形成双链结构或区域的过程，其中两个组成链通过氢键连接。虽然氢键一般在腺嘌呤和胸腺嘧啶或尿嘧啶(A和T或U)之间或者在胞嘧啶和鸟嘌呤(C和G)之间形成，其他碱基对也可以形成氢键(例如，Adams等人，"The Biochemistry of theNucleic Acids,"11th ed.,1992)。

术语“引物”是指酶促制备或合成的寡核苷酸，其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并且从其3'端沿着所述模板延伸，从而形成延伸的双链体。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列决定。引物用作通过DNA聚合酶、RNA聚合酶或逆转录酶催化的核苷酸聚合的起始点。引物的长度可以是4-1000个碱基或更长，例如10-500个碱基。

如本文中使用的，术语“引物延伸”是指通过使用聚合酶将特定的寡核苷酸退火到引物上而延伸引物。术语“衔接子”是指与感兴趣的多核苷酸附接以形成合成多核苷酸的核酸分子。衔接子可以是单链或双链的，并且可以包含DNA、RNA和/或人工核苷酸。衔接子可以位于感兴趣的多核苷酸的末端，或者可以位于中间或内部。衔接子可以给感兴趣的多核苷酸添加一种或多种功能或特性，比如提供用于扩增或测序的引发位点或添加条形码。举例来说，衔接子可包括通用引物和/或通用引发位点，包括用于测序的引发位点。作为进一步的实例，衔接子可含有各种类型的或出于各种目的的一个或多个条形码，比如分子条形码、样品条形码和/或靶特异性条形码。各种衔接子是本领域已知的，并且可用于本发明的方法、组合物和试剂盒中或经修饰后使用。例如，衔接子包括Y衔接子，其可与多核苷酸附接以产生具有变化的5'端的文库。衔接子还可包括单独的序列(例如A/B衔接子)，其中A衔接子与多核苷酸的一端附接，而B衔接子与多核苷酸的另一端附接。衔接子还包括茎-环衔接子，其中发夹环与多核苷酸的末端附接；一部分(通常是茎)可以在扩增或测序之前被切割。衔接子可以通过任何适合的技术与感兴趣的多核苷酸附接，包括但不限于连接、转座酶的使用、杂交和/或引物延伸。例如，可以将衔接子与感兴趣的多核苷酸的末端连接。作为另一个实例，通过使用转座酶将包含衔接子的转座子插入到感兴趣的多核苷酸中来附接衔接子，由此将衔接子提供在感兴趣的多核苷酸的片段的末端。在一些实施方案中，衔接子包含靶特异性引物和靶特异性条形码，其允许通过靶特异性引物的引物延伸将衔接子附接到感兴趣的多核苷酸上(更具体地，附接到互补多核苷酸上)。

术语“测序”是指确定一个或多个核苷酸的身份，即，核苷酸是否为G、A、T或C。

术语“单端测序”是指使用来自多核苷酸一端的读取(“单端读取”)确定多核苷酸的序列。可通过任何测序过程进行单端读取，包括下一代测序和其他大规模平行测序技术。被配置为执行单端测序的仪器可从许多公司商购获得。例如，Illumina的Hiseq 2500可提供单端50bp和单端100bp的读长。在一些实施方案中，单端读取的标称、平均、均值或绝对长度是至少20个连续核苷酸，或者至少30个连续核苷酸，或者至少40个连续核苷酸，或者至少50个连续核苷酸。在一些实施方案中，单端读取的标称、平均、均值或绝对长度是至多300个连续核苷酸，至多200个连续核苷酸，或者至多150个连续核苷酸，或者至多120个连续核苷酸，或者至多100个连续核苷酸。可以将前述最小值和最大值组合形成一定的范围。

如本文中使用的，术语序列的“部分”或“片段”是指比完整序列小的序列的任何部分(例如，核苷酸亚序列或氨基酸亚序列)。多核苷酸的部分的长度可以是任何长度，例如长度为至少5、10、15、20、25、30、40、50、75、100、150、200、300或500个或更多个核苷酸。引导序列的一部分可以是引导序列的约50％、40％、30％、20％、10％，例如引导序列的三分之一或更短，例如7、6、5、4、3或2个核苷酸长度。

术语“融合基因”是指由两个先前分开的基因形成的多核苷酸。融合基因可由易位、中间缺失或染色体倒位产生，它们经常在人类癌细胞中出现。融合基因可以导致融合转录物的表达，融合转录物被翻译成改变细胞的正常调控途径和/或促进癌细胞生长的融合蛋白。基因变体也可能产生影响正常调控途径的异常蛋白质。许多融合基因多核苷酸是已知的，并且更多正在被发现。例如，US20100279890、US20140120540、US20140272956和US20140315199公开了许多与癌症和其他疾病相关的融合基因，以及检测这样的融合基因的方法。本发明的方法、组合物和试剂盒可用于检测已知的基因融合，而且可用于发现先前未知的基因融合。

如本文中使用的，术语“引发位点”是指被配置为与引物杂交的寡核苷酸或多核苷酸之内的位点，从而可以例如通过引物延伸将相邻序列或对于单端测序足够接近的序列扩增或测序。引发位点可以是在感兴趣的多核苷酸中存在的序列，也可以是通过添加包含引发位点的衔接子而添加到多核苷酸中的序列。可以通过连接、通过使用转座酶、通过引物延伸或通过其他技术来添加含有引发位点的衔接子。

在本公开中，数值范围包括定义该范围的数字。在本公开中，无论何处见到词语“包含”，可以预期的是，可以使用短语“基本上由...组成”或“由......组成”取而代之。应当认识到，出于说明的目的，可以延伸或扩展化学结构和化学式。

如在说明书和所附权利要求中使用的，术语“一个”、“一种”和“该”包括单数和复数指示物，除非上下文另外明确地指示。因此，例如，“引物”包括一个引物和多个引物。在本公开中，诸如术语第一、第二、第三等的序数不表示第一事件在第二事件之前发生(除非上下文另有指示)；相反，它们用于彼此区分不同的事件。

除非另外定义，本文中使用的全部技术术语和科学术语具有与本公开所属领域的从业人员通常所理解的相同的含义。

如本文中公开的，提供了许多数值范围。应当理解的是，还具体公开了在该范围的上限和下限之间的以下限的单位的十分之一为间隔(除非上下文明确地另行指明)的各居间值。在所陈述范围中的任何陈述值或居间值与在该陈述范围中的任何其他的陈述值或居间值之间的各个较小范围涵盖在本发明范围内。这些较小范围的上限和下限可独立地包括或排除在所述范围，并且在极限值任一者、两者都不、或两者都被包括在这些较小范围中的各个范围也涵盖在本发明范围内，受限于陈述范围中的任何明确排除的极限值。当陈述范围包括极限值之一或两者时，排除这些被包括的极限值的任一者或两者的范围也包括在本发明中。

除非另外定义，本文中使用的全部技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同的含义。尽管可以在本发明教导的实践或测试中使用类似于或等同于本文所述那些的任何方法和材料，但目前描述了一些示例性的方法和材料。

本文中提及的所有专利和出版物都通过提述明确并入本文。任何出版物的引用是因为其公开在申请日之前，并且不应被解释为承认本权利要求书没有资格先于这样的出版物。此外，提供的出版日期可能与可被独立证实的实际出版日期不同。

对于本领域技术人员在阅读本公开内容后将显而易见的是，本文中描述和展示的每个单独的实施方案具有离散的部件和特征，其可以容易地与任何其他几个实施方案的特征分离或组合，而不脱离本发明教导的范围或精神。任何叙述的方法可以按照叙述的事件的顺序或以逻辑上可能的任何其他顺序进行。

发明详述

在一些实施方案中，本公开提供了通过附接靶特异性条形码来制备用于测序的多核苷酸的方法。所述方法包括用第一扩增引物和第二扩增引物扩增多核苷酸，其中第一扩增引物包含第一引发序列和靶特异性条形码，其中第一引发序列与多核苷酸的第一引发位点杂交。此扩增产生多核苷酸扩增子，其中所述多核苷酸扩增子包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列。

所述第一扩增引物包括靶特异性的(即，与带衔接子的多核苷酸内的靶序列互补和/或杂交的)第一扩增引物。所述第一扩增引物进一步包含靶特异性条形码，其是对靶序列特异的条形码，例如，对基因的一部分(如融合基因的一部分)特异的条形码。所述扩增产生多核苷酸扩增子，其中所述多核苷酸扩增子包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列。所述第二扩增引物(1)与附接到多核苷酸上的衔接子的一部分在距第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，其中第二引发位点在距第一引发位点的一定距离处。在一些实施方案中，所述方法可进一步包括将衔接子附接到多核苷酸上以形成带衔接子的(adapted)多核苷酸，其中所述衔接子包含第二引发位点和任选的衔接子条形码。在一些实施方案中，第二引发位点在衔接子上并且是通用引发位点和/或测序引物的位点，并且/或者第二引物结合位点是在带衔接子的多核苷酸的5'端的通用引发位点。在一些实施方案中，衔接子和/或第二引发位点在多核苷酸的链的5'端，并且第一引发位点在所述链的3'端。在一些实施方案中，衔接子条形码是样品条形码或分子条形码。分子条形码可以是独特序列，因为它在附接到感兴趣的多核苷酸池的一组衔接子内是独特的。

在一些实施方案中，本公开提供了用于通过附接靶特异性条形码来制备用于测序的多核苷酸文库的方法、组合物和试剂盒。使用第一组扩增引物和第二组扩增引物扩增多核苷酸池，其中第一组扩增引物与多核苷酸池内的多个不同序列杂交，其中第一组扩增引物中的每一个包含不同的靶特异性条形码。在一些实施方案中，将包含衔接子条形码的衔接子附接到多核苷酸扩增子上。所述第二组扩增引物(1)与附接到多核苷酸上的衔接子的一部分在距第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，其中第二引发位点在距第一引发位点的一定距离处。用第一和第二组引物扩增产生多核苷酸扩增子文库。可以将衔接子添加至多核苷酸扩增子。在一些实施方案中，在扩增之前添加衔接子，并且衔接子包含与第二组扩增引物杂交的第二引发位点。在一些实施方案中，在扩增之后添加衔接子，例如以便在多核苷酸扩增子上提供测序引发位点。

通过进行第一引物延伸和第二引物延伸，可以在两个位置对多个多核苷酸扩增子中的每一个进行测序，其中对于带衔接子的多核苷酸扩增子中的每一个，在相同方向上进行第一引物延伸和第二引物延伸的测序。可以基于从第一引物延伸和第二引物延伸的测序生成的数据来鉴定基因组重排。

在其他实施方案中，本公开提供了用于检测在具有第一结合位点的多核苷酸中的基因组重排的组合物和试剂盒。所述组合物和试剂盒包含第一和第二扩增引物。所述第一扩增引物包含靶特异性引物和靶特异性条形码。所述组合物和试剂盒可进一步包含衔接子。衔接子包含第二引发位点和衔接子条形码。在一些实施方案中，第二扩增引物包含与衔接子内的序列互补或相同的引发序列，例如第二引发位点。在组合物和试剂盒的一些实施方案中，所述第二扩增引物(1)与附接到多核苷酸上的衔接子的一部分在距第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，其中第二引发位点在距第一引发位点的一定距离处。在一些实施方案中，衔接子和/或第二引发位点在多核苷酸的链的5'端，并且第一引发位点在所述链的3'端。

在其他实施方案中，本公开提供了用于检测多核苷酸中的基因组重排的方法、组合物和试剂盒。所述方法、组合物和试剂盒包括用第一扩增引物和第二扩增引物扩增多核苷酸。所述第一扩增引物与多核苷酸的第一引发位点杂交，并且所述第一扩增引物进一步包含靶特异性条形码。所述扩增产生多核苷酸扩增子，其包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列。通过进行第一引物延伸和第二引物延伸，在第一和第二位置对多核苷酸扩增子进行测序。可以在相同方向上进行第一引物延伸和第二引物延伸。

在前述方法、组合物和试剂盒中，靶特异性条形码对靶是特异的，所述靶比如基因、基因的一部分、融合基因、融合基因的一部分或其他感兴趣的多核苷酸。融合基因可以是已知的融合基因，包括已知的融合基因的连接点，并且/或者融合基因可以是可疑的或假设的融合基因、或这种融合基因的连接点。靶可以是基因组重排，比如感兴趣的多核苷酸中的缺失、插入、倒位和易位。在一些实施方案中，靶是cDNA连接点或外显子连接点。

在一些实施方案中，第二扩增引物与衔接子的一部分比如第二引发位点杂交，所述第二引发位点可以是衔接子的测序引发位点。在一些实施方案中，带衔接子的多核苷酸在5'端包含衔接子和/或在3'端包含靶特异性条形码。

在一些实施方案中，感兴趣的多核苷酸包括多个感兴趣的多核苷酸，并且所述方法包括将多个衔接子附接到多个多核苷酸上，由此形成各自包含不同的衔接子条形码的多个带衔接子的多核苷酸。可替代地或另外地，其中感兴趣的多核苷酸包括多个感兴趣的多核苷酸，并且第一扩增引物包括具有不同的靶特异性引物和靶特异性条形码的多个第一扩增引物，由此形成各自包含不同的靶特异性条形码的多个带衔接子的多核苷酸扩增子。

在一些实施方案中，通过进行第一引物延伸和第二引物延伸在第一和第二位置对带衔接子的多核苷酸扩增子进行测序，其中第一引物延伸和第二引物延伸在相同方向上进行。在一些实施方案中，用与衔接子的一部分比如第二引发位点互补或相同的第一测序引物进行第一引物延伸。在一些实施方案中，用与第一扩增引物的一部分互补或相同的第二测序引物进行第二引物延伸，所述第一扩增引物的一部分比如与靶特异性条形码相邻或足够接近以用于靶特异性条形码的单端测序的部分。

按如下进行通过引物延伸的测序：将引物与多核苷酸扩增子杂交；通过添加一个或多个标记的核苷酸延伸引物，由此产生掺入的标记核苷酸；并且检测掺入的标记核苷酸。测序引物可与衔接子上的序列互补或相同。在一些实施方案中，第一引物延伸和第二引物延伸在分别的测序运行中在所述多核苷酸上以相同方向进行。在一些实施方案中，测序是下一代测序(NGS)或大规模平行测序。可以将从第一引物延伸和/或第二引物延伸的测序生成的数据与已知核酸序列(比如已知gDNA序列)比较。

本发明的方法、组合物和试剂盒可用于多核苷酸的测序，所述多核苷酸包括基因组DNA(gDNA)、衍生自RNA模板(例如信使RNA(mRNA)或微小RNA(microRNA))的互补DNA(cDNA)、线粒体DNA(mtDNA)、RNA(比如mRNA、microRNA)和其他多核苷酸。多核苷酸可以是任何来源的，比如微生物、病毒、真菌、植物或哺乳动物。

在一些实施方案中，本发明的方法、组合物和试剂盒用于检测感兴趣的多核苷酸中基因组重排的存在、位置或不存在。基因组重排可以是缺失、重复、插入、倒位或易位，并且所述方法、组合物和试剂盒可用于检测在感兴趣的多核苷酸中某些基因组序列或基因是否已被缺失、重复、插入、倒位或易位。在一些实施方案中，本发明的方法、组合物和试剂盒用于检测基因组缺失。在一些实施方案中，本发明的方法、组合物和试剂盒用于检测基因组重复。在一些实施方案中，本发明的方法、组合物和试剂盒用于检测基因组插入。在一些实施方案中，本发明的方法、组合物和试剂盒用于检测基因组倒位。在一些实施方案中，本发明的方法、组合物和试剂盒用于检测基因组易位。在一些实施方案中，本发明的方法、组合物和试剂盒用于检测多核苷酸比如gDNA或源自RNA的cDNA中的基因组重排。在一些实施方案中，基因组重排的频率为约100％或更低，或者约50％或更低，或者约10％或更低，或者约5％或更低，或者约1％或更低。在一些实施方案中，本发明方法进一步包括使用多核苷酸扩增子的单端测序来检测基因组重排，例如通过基于从第一引物延伸和第二引物延伸的测序生成的数据来鉴定基因组重排。在一些实施方案中，基因组重排是易位。

提供了可用于检测多核苷酸中的基因组重排的测序方法。本发明方法可用于利用感兴趣的核酸的单端测序更容易和可靠地检测基因组重排。本发明方法可用于下一代测序(NGS)过程中，以检测感兴趣的多核苷酸中的缺失、插入、倒位和易位。本发明方法涉及在相同方向上的第一和第二引物延伸的测序，以提高多核苷酸重排检测的准确性。来自第一和第二引物延伸的组合序列数据有助于多核苷酸中的读段比对和基因组重排的鉴定。在相同方向上产生的读段的组合允许更准确地鉴定多核苷酸中核酸的相对位置。与标准的单端测序方法相比，本发明方法提高了单端测序过程鉴定基因组中核苷酸相对位置的能力，从而产生更有效的结构重排解析。

本发明方法可用于高通量测序方法中，比如下一代测序(NGS)过程。在一些实施方案中，高通量测序方法包括三个步骤：文库的制备、固定和测序。通常对多核苷酸进行随机片段化，并将衔接子连接至片段的一端或两端。衔接子可以是线性衔接子、环状衔接子或气泡衔接子。将测序文库片段固定在固体支持物上，并进行平行测序反应来询问多核苷酸序列。高通量测序方法可采用乳液PCR、桥式PCR或滚环扩增来提供原始多核苷酸的拷贝。

聚合酶趋于在PCR期间产生错误(最常见的是核苷酸的错误掺入)，如果这些错误发生在早期循环中，它们会在测序数据分析中作为变体出现。分子条形码可用于将PCR错误与感兴趣的多核苷酸中的实际变体区分开。分子条形码的概念是，待扩增库中的每个多核苷酸都与独特的分子条形码附接。具有不同的分子条形码的序列读段代表不同的原始DNA分子，而具有相同条形码的读段是从同一个原始分子的PCR复制的结果。在美国专利8,481,292(Population Genetics Technologies Ltd.)中公开了被称为简并碱基区(DBR)的分子条形码。DBR是附接到样品中存在的分子上的随机序列标签。DBR和其他分子条形码允许将样品制备过程中的PCR错误与原始多核苷酸中存在的突变和其他变体区分开。

将衔接子与多核苷酸附接

在一些实施方案中，将多核苷酸附接到衔接子上以形成带衔接子的多核苷酸。可以在扩增之前或之后将衔接子附接到多核苷酸上，在一些实施方案中，多核苷酸是多核苷酸扩增子，并且带衔接子的多核苷酸是带衔接子的多核苷酸扩增子。衔接子可以通过任何适合的技术附接，比如通过连接、转座酶的使用、杂交和/或引物延伸。在一些实施方案中，多核苷酸在一端或两端与衔接子连接。在连接反应中，在两个或多个多核苷酸(比如感兴趣的核酸)或寡核苷酸(比如衔接子)的末端之间形成共价键或连接。键或连接的性质可以变化，并且可以酶促或化学方式进行连接。通常以酶促方式进行连接，以在一个多核苷酸或寡核苷酸的末端核苷酸的5'碳与另一个多核苷酸或寡核苷酸的3'碳之间形成磷酸二酯键。在一些实施方案中，衔接子是Y衔接子，其可以产生具有变化的5'端并具有适合在MiniSeq、NextSeq和HiSeq3000/4000测序仪器上使用的P5和P7引发位点的文库。

在一些实施方案中，A/B衔接子与感兴趣的多核苷酸附接，其中A衔接子与多核苷酸的一端附接，而B衔接子与多核苷酸的另一端附接。在一些实施方案中，通过随机连接或使用转座酶或通过引物延伸进行扩增来附接A/B衔接子。可以预期A衔接子和B衔接子的个体特征提供的是，在测序程序中包括的每个多核苷酸将包括A和B衔接子两者(即，一种类型的衔接子附接到经历测序的每个多核苷酸的5'端，而另一种类型的衔接子附接在3'端，表示为A/B衔接子组合)。由于连接步骤的随机性质，还将产生带A/A和B/B衔接子的多核苷酸，并且可以采用后续处理步骤来确保仅具有A/B衔接子组合的分子被选择和/或包括在测序程序中。可以在本文所述的用于附接靶特异性条形码的扩增之前或之后，使用针对衔接子的部分的引物扩增带衔接子的多核苷酸，以增加感兴趣的多核苷酸的量。在一些实施方案中，衔接子以一定的方式并且与足够数目的多核苷酸连接，以产生用于大规模平行测序的完全可测序的文库。

在一些实施方案中，衔接子包含衔接子条形码。衔接子条形码可用作任何期望的目的，比如多核苷酸的来源或性质的标识符。条形码通常是指用于多核苷酸鉴定、分组或处理的任何序列信息。可以包括条形码以鉴定单独的读段、读段组、与探针相关的读段子集、与外显子相关的读段子集、与样品或任何其他组相关的读段子集或其任何组合。例如，可以通过参考条形码信息通过样品、外显子、探针组或其组合对序列进行分选(例如，使用计算机处理器)。条形码信息可用于组装重叠群。计算机处理器可以识别条形码，并通过将条形码组织在一起来组装读段。

可以通过任何适合的机制获得多核苷酸。感兴趣的多核苷酸可以是基因组脱氧核糖核酸(gDNA)、cDNA、mRNA、线粒体DNA或其他类型。多核苷酸可以是哺乳动物的、病毒的、真菌的或细菌的多核苷酸或其混合物。在一些实施方案中，在将衔接子附接到多核苷酸上之前，使用任何适合的技术使多核苷酸链比如基因组DNA片段化。如本领域已知的，可以使用物理片段化、酶促片段化或化学剪切片段化使多核苷酸链片段化。在一些实施方案中，使用物理片段化方法比如超声处理、声剪切或流体动力剪切使多核苷酸片段化。在一些实施方案中，使用限制酶使多核苷酸片段化。在一些实施方案中，使用酶例如DNase I或转座酶使多核苷酸片段化。在一些实施方案中，在金属阳离子的存在下使用化学剪切方法比如热消化使多核苷酸片段化。在一些实施方案中，多核苷酸是随机片段化的。在一些实施方案中，可以用亚硫酸氢钠或其他化学改性剂处理多核苷酸。在一些实施方案中，多核苷酸片段用于填充(populate)测序文库。

多核苷酸片段可以具有任何适合的碱基长度。在一些实施方案中，多核苷酸片段具有约30至约2,000的碱基长度。在一些实施方案中，多核苷酸片段具有约30至约800的碱基长度。在一些实施方案中，多核苷酸片段具有约30至约500的碱基长度。在一些实施方案中，多核苷酸片段具有约100至约800的碱基长度。在一些实施方案中，多核苷酸片段具有约200至约600的碱基长度。

在片段化之后，可将一个或多个衔接子附接到多核苷酸片段上。在一些实施方案中，衔接子是线性衔接子、环状衔接子或气泡衔接子。在一些实施方案中，将多核苷酸连接至至少一个环状衔接子。在一些实施方案中，使多核苷酸片段与环状衔接子接触以生成环状多核苷酸分子。在一些实施方案中，在扩增过程中仅扩增环状多核苷酸分子。在任何这些实施方案中，衔接子可包含衔接子条形码。

靶多核苷酸的扩增

本发明方法包括在多核苷酸附接至衔接子之前和/或之后扩增所述多核苷酸。在一些实施方案中，衔接子位于多核苷酸中感兴趣的序列的5'端，并且衔接子提供了用于扩增感兴趣的序列的引发位点。使用第一扩增引物和第二扩增引物扩增带衔接子的多核苷酸。第一扩增引物对多核苷酸中的靶序列具有序列特异性，并且能够与靶序列的一部分(感兴趣的多核苷酸)杂交。第二扩增引物能够与衔接子的引发位点或与感兴趣的多核苷酸的靶特异性引发位点杂交。在扩增步骤期间，第一扩增引物与靶序列杂交，第二引物与衔接子上的序列引发位点杂交。在一些实施方案中，第一扩增引物在带衔接子的多核苷酸的5'端杂交。本发明方法的引物应足够大，以提供与多核苷酸的靶序列的充分杂交。

为了扩增，将感兴趣的多核苷酸与包含靶特异性条形码的第一扩增引物杂交。第一扩增引物与多核苷酸的至少一部分互补。第一扩增引物与多核苷酸的第一引发位点杂交。多核苷酸在3'端包含靶序列，任选地随后是衔接子。如果靶序列存在于带衔接子的多核苷酸中，则第一扩增引物与带衔接子的多核苷酸杂交，由此允许靶序列的选择性扩增和检测。第一扩增引物可以与基因组重排互补和/或杂交，所述基因组重排比如感兴趣的多核苷酸中的缺失、插入、倒位或易位。在一些实施方案中，第一扩增引物与cDNA连接点或外显子连接点互补和/或杂交。在一些实施方案中，第一扩增引物与融合基因互补和/或杂交，所述融合基因比如已知的融合基因，包括已知的融合基因的连接点和/或疑似的或假设的融合基因、或疑似的或假设的融合基因的连接点。

第二扩增引物与多核苷酸或衔接子在距第一引发位点一定距离处杂交。在一些实施方案中，第二扩增引物与在距第一引发位点一定距离处附接到多核苷酸上的衔接子的一部分杂交。在一些实施方案中，第二扩增引物与多核苷酸的第二引发位点杂交，其中第二引发位点与第一引发位点相距一定距离。

可以使用任何适合的方法扩增感兴趣的多核苷酸。在一些实施方案中，使用聚合酶链反应(PCR)扩增多核苷酸。通常，PCR包括多核苷酸链的变性(例如DNA解链)，引物到变性的多核苷酸链的退火，以及用聚合酶延伸引物以合成互补的多核苷酸。所述过程通常需要DNA聚合酶、正向和反向引物、脱氧核苷三磷酸、二价阳离子和缓冲溶液。在一些实施方案中，通过线性扩增将多核苷酸扩增。在一些实施方案中，使用乳液PCR、桥式PCR或滚环扩增来扩增多核苷酸。可以使用适合的测序方法分析扩增的多核苷酸以确定碱基对的顺序。

在一些实施方案中，将一种或多种引物或多核苷酸固定在固体支持物上。扩增引物和/或多核苷酸的固定化可以促进多核苷酸的洗涤以去除任何不希望的种类(例如，脱氧核苷酸)。在一些实施方案中，多核苷酸包含一个或多个附接到固体支持物上的衔接子，从而使多核苷酸固定在支持物上。在一些实施方案中，将多核苷酸固定在流动池或载玻片的表面上。在一些实施方案中，将多核苷酸固定在微量滴定孔或磁珠上。在一些实施方案中，可以用附接至官能团或模块的聚合物包被固体支持物。在一些实施方案中，固体支持物可带有官能团，比如氨基、羟基或羧基，或其他模块，比如亲和素或链霉亲和素，用于附接衔接子。

多核苷酸扩增子可以是带衔接子的多核苷酸扩增子。在一些实施方案中，带衔接子的多核苷酸或多核苷酸扩增子包含结合配偶体，比如生物素模块。可将多核苷酸附接至包含结合配偶体的衔接子，或可使用一种或多种包含结合配偶体的引物扩增多核苷酸。在一些实施方案中，本发明方法包括在相互结合配偶体之间形成复合物，比如生物素化的引物延伸产物和固体支持的抗亲和素或链霉亲和素。所述方法还可包括通过与相互结合配偶体结合来富集包含含有结合配偶体的带衔接子的多核苷酸的样品。亲和素和链霉亲和素蛋白质与生物素和某些生物素类似物形成异常紧密的复合物。通常，当生物素通过其羧基侧链与第二个分子偶联时，所得的缀合物仍被亲和素或链霉亲和素紧密结合。当制备这样的缀合物时，第二个分子被说成是被“生物素化”。通常，本发明方法涉及将生物素化的核酸与亲和素或链霉亲和素复合，然后检测、分析和/或使用复合物。在一些实施方案中，将生物素化的多核苷酸固定在用链霉亲和素包被的流动池或用链霉亲和素包被的金属珠上。在本发明的方法、组合物和试剂盒的一些实施方案中，靶特异性引物(例如，第一扩增引物)可以附接至结合配偶体，比如生物素模块，以允许通过结合至相互结合配偶体比如链霉亲和素或亲和素进行选择或纯化。有用的结合配偶体包括生物素:亲和素、生物素:链霉亲和素、抗体:抗原和互补核酸。在一些实施方案中，靶特异性引物可包括结合配偶体，比如生物素，以允许捕获选择性扩增的池。

为了下一代测序的多核苷酸的制备，通常在下一代测序之前采用靶富集，并且一种或多种靶富集方案可以包括在本方法中。通过富集一种或多种期望的靶多核苷酸，可以更专注于测序，同时减少工作量和费用和/或提高覆盖深度。当前用于下一代测序的富集方案的实例包括基于杂交的捕获方案，比如Agilent的SureSelect Hybrid Capture和Illumina的TruSeq Capture。其他实例包括基于PCR的方案，比如Agilent的HaloPlex；ThermoFisher的AmpliSeq；Illumina的TruSeq Amplicon；以及Raindance的乳液/数字PCR。

在一些实施方案中，使用诸如PCR的方法扩增在两端具有通用接头的多核苷酸的文库。可以将包含定制衔接子的靶特异性引物添加到反应中，以扩增靶序列。在这样的实施方案中，生成两个片段池：(a)在两端具有通用接头的片段池，和(b)在一端或两端具有序列特异性接头的通过选择性扩增生成的片段池。如果需要，可以对片段的混合池进行靶富集。

在本发明的方法、组合物和试剂盒的一些实施方案中，采用或提供了多于一种的靶特异性引物用于扩增。扩增可以是单重或多重的。多重PCR是一种分子生物学技术，用于在单个PCR实验中扩增多个核酸靶。可从Multiplicom NV获得用于靶序列多重扩增的试剂盒。

在本发明的方法、组合物和试剂盒的一些实施方案中，多核苷酸扩增子用于转座因子(TE)方案中。通过使用转座酶插入包含衔接子的转座子，可以将衔接子附接到扩增子上，由此在扩增子片段的末端提供衔接子。在一些实施方案中，多核苷酸可以同时被片段化和条形码化。例如，可以使用转座酶(例如，NEXTERA)使多核苷酸片段化并向多核苷酸添加条形码。

融合基因

靶特异性引物可以与任何已知或疑似的融合基因的一部分互补或相同。举例来说，靶特异性引物可以与US20100279890、US20140120540、US20140272956或US20140315199中公开的任何融合基因互补或相同。作为进一步的实例，靶特异性引物可以与以下任何融合基因互补或相同：BCR-ABL、EML4–ALK、TEL-AML1、AML1-ETO和TMPRSS2-ERG。或者，靶特异性引物可与新发现的融合基因或这种融合基因的连接点互补或相同。或者，靶特异性引物可与疑似或假设的融合基因或这种融合基因的连接点互补或相同。

在一些实施方案中，本发明的方法、组合物和试剂盒包含用于不同融合基因的多种靶特异性引物。例如，多个靶特异性引物可包括用于BCR-ABL连接点的第一靶特异性引物和用于EML4-ALK的第二靶特异性引物。在一些实施方案中，本发明的方法、组合物和试剂盒包含用于单个融合基因(包括用于单个融合基因的多个连接点)的多个靶特异性引物。例如，多个靶特异性引物可包括用于第一EML4-ALK连接点的第一靶特异性引物和用于第二EML4-ALK连接点的第二靶特异性引物。本发明的方法、组合物和试剂盒可包含第三靶特异性引物、第四靶特异性引物、第五靶特异性引物，直至第二十种靶特异性引物，或甚至更多种靶特异性引物。

靶序列的测序

扩增后，可以对带衔接子的多核苷酸扩增子进行测序。例如，可以通过在扩增过程中产生的带衔接子的多核苷酸扩增子的第一引物延伸和第二引物延伸来进行测序。在一些实施方案中，在单独的扩增子或一组相同的扩增子上以相同的方向进行第一和第二引物延伸。第一引物延伸通过检测由于第一引物(和其他引物)的延伸而掺入的碱基来确定测序，从而允许确定多核苷酸的靶序列的至少一部分，特别是位于衔接子的5'的那些。带衔接子的多核苷酸可包含测序引发位点，比如P5或P7引发位点。在一些实施方案中，第一引物延伸也可用于检测衔接子条形码的序列。第二引物延伸通过检测由于第二引物延伸而掺入的碱基来确定测序，从而允许检测靶特异性条形码。靶特异性条形码的测序用于证实对感兴趣的多核苷酸中的靶特异性条形码特异的基因或其他多核苷酸的存在和/或位置。

在一些实施方案中，通过大规模平行测序进行测序，所述测序使用利用可逆染料终止子的边合成边测序。在一些实施方案中，通过使用边连接边测序的大规模平行测序进行测序。在一些实施方案中，通过单分子测序进行测序。在一些实施方案中，使用焦磷酸测序进行测序。

可以使用任何适合的反应方法将多核苷酸测序。在一些实施方案中，可以使用单一核苷酸(即，对应于G、A、T或C的核苷酸)完成单个反应循环，并且该方法涉及检测是否掺入了核苷酸。如果掺入了核苷酸，则核苷酸的身份将变得已知。在这样的实施方案中，所述方法可涉及依次循环遍历所有四种核苷酸(即，对应于G、A、T和C的核苷酸)，并且应当掺入所述核苷酸之一。在这样的实施方案中，可以通过例如检测焦磷酸盐释放、质子释放或荧光来检测核苷酸的添加，对于这些方法是已知的。例如，在一些实施方案中，链终止剂核苷酸可以是末端磷酸酯标记的荧光核苷酸(即，具有附接至末端磷酸酯的荧光团的核苷酸)，并且鉴定步骤包括读取荧光。在其他实施方案中，链终止剂核苷酸可以是包含在末端磷酸酯上的猝灭剂的荧光核苷酸。在这样的实施方案中，核苷酸的掺入从核苷酸上去除了猝灭剂，由此允许检测荧光标记物。在其他实施方案中，可以用质量标签、电荷标记物、电荷阻断标记物、化学发光标记物、氧化还原标记物或其他可检测标记物在末端磷酸酯上对末端磷酸酯标记的链终止子核苷酸进行标记。

在一些实施方案中，可以使用全部四种核苷酸(即，对应于G、A、T和C的核苷酸)进行单个反应循环，其中每种核苷酸用不同的荧光团标记。在这样的实施方案中，测序步骤可包括将对应于G、A、T和C的四种链终止子添加到扩增的多核苷酸中，其中四种链终止子包含不同的荧光团。在这样的实施方案中，鉴定步骤可包括鉴定四种链终止子中的哪一种被添加到引物的末端。

可以使用单端测序进行测序步骤，即，以相同方向读取第一引物延伸序列和第二引物延伸序列。在一些实施方案中，启用单端的基因组分析仪用于将多核苷酸测序。在一些实施方案中，所述方法包括实时地连续监测测序反应(即碱基掺入)。这可以简单地通过在链延伸反应混合物中包括“检测酶”并同时进行链延伸和检测或信号生成、反应来实现。在一些实施方案中，作为第一反应步骤首先单独进行链延伸反应，然后进行单独的“检测”反应，其中随后检测引物延伸产物。

测序数据分析

可以基于从第一引物延伸和第二引物延伸的测序生成的数据来鉴定基因组重排。本发明方法包括基于从第一引物延伸和第二引物延伸测序生成的数据来鉴定多核苷酸中的基因组重排。来自第一引物延伸的测序数据提供了靶序列的碱基对序列。来自第二引物延伸的测序数据提供了衔接子的碱基对序列，所述衔接子可用于指示或证实靶序列的存在，因为衔接子被设计为与多核苷酸样品中的靶序列特异性地杂交。由两次引物延伸提供的组合数据提供了用于确定多核苷酸中任何基因组重排的位置信息。

将从第一和第二引物延伸生成的数据与参考样品比较。在参考样品与从第一和第二引物延伸生成的数据之间的任何差异均表明，正在研究的样品中可能存在基因组重排。参考样品的序列以及相对于参考样品由第一引物延伸和第二引物延伸生成的序列可用于鉴定任何基因组重排的类型和位置。

本发明的方法、组合物和试剂盒可用于检测任何感兴趣的序列，包括与常见的缺失综合征相关的序列。

实施例1

图1展示了通过将衔接子和条形码附接到多核苷酸上来制备用于测序的多核苷酸的方法，以及通过本技术生成的带衔接子的多核苷酸和带衔接子的多核苷酸扩增子。根据本发明的一个实施方案，所述带衔接子的多核苷酸可用于使用选择性基因扩增来检测融合事件。在图1中，带衔接子的多核苷酸102包含感兴趣的核酸，在这种情况下为融合基因的连接点。带衔接子的多核苷酸102包含第一基因104和第二基因106。带衔接子的多核苷酸102在每个末端还包含衔接子108、110。可以通过任何适合的程序比如通过连接来附接衔接子。衔接子中的至少一个包含衔接子条形码112，其可以是分子条形码或样品条形码。

在时段A，制备带衔接子的多核苷酸用于靶特异性扩增。可以使带衔接子的多核苷酸变性以提供单链多核苷酸，或者可以提供双链多核苷酸用于扩增。在一些实施方案中，以非特异性方式扩增带衔接子的多核苷酸(例如，通过用与附接至带衔接子的多核苷酸的文库成员的衔接子上的引发位点互补的引物来扩增带衔接子的多核苷酸。在一些实施方案中，如上文论述，通常在扩增带衔接子的多核苷酸之前富集带衔接子的多核苷酸。

制备带衔接子的多核苷酸，使其与包含靶特异性引物116的第一扩增引物114接触。靶特异性引物116与已知或疑似存在于带衔接子的多核苷酸中的序列(例如第二基因106内的序列)互补。第一扩增引物114还包含靶特异性条形码118，其对已知或疑似存在于被分析样品或感兴趣的多核苷酸中的基因的一部分或其他靶是特异的。在此上下文中，基因特异的并不意味着它与基因互补，而是条形码与基因特异性地相关，因此检测到基因特异性条形码的序列可靠地表明相关序列是存在的。

在时段B，在第一扩增引物114和第二扩增引物120的存在下对带衔接子的多核苷酸进行扩增，以生成带衔接子的多核苷酸扩增子的文库。带衔接子的多核苷酸扩增子包含感兴趣的核酸、衔接子或其互补序列以及基因特异性条形码或其互补序列。为了便于说明，图1显示了一组第一扩增引物114和第二扩增引物120，尽管扩增反应可以针对各种序列采用大量靶特异性引物，并且可以生成大量感兴趣的核酸的扩增子。在一些实施方案中，从多核苷酸池富集带衔接子的多核苷酸，例如其中标签包括生物素或另一种结合配偶体。

在一些实施方案中(其可以附加于富集或替代富集)，可以用外部或内部引物或嵌套引物扩增多核苷酸(包括带衔接子的多核苷酸)。在这样的实施方案中，外部引物或在较早的扩增轮次中使用的引物是靶特异性引物，其不必包括靶特异性条形码。内部引物或用于扩增的后续轮次的引物也是靶特异性引物，并且其包含靶特异性条形码。通常，巢式PCR是指使用一种或多种新引物进行的一轮或多轮后续PCR扩增，所述新引物在内部通过至少一个碱基对与在较早轮次中使用的引物结合。巢式PCR通过在后续反应中仅扩增来自前一个具有正确内部序列的扩增产物，从而减少了不需要的扩增靶的数目。巢式PCR通常需要设计完全在先前的外部引物结合位点内部的引物。

然后可以对带衔接子的多核苷酸扩增子进行测序。在一些实施方案中，采用与衔接子108的第一引发位点124互补的第一测序引物122来进行第一引物延伸，以便对至少第一基因104测序。在测序反应中将标记的核苷酸添加到引物中，并且生成与带衔接子的多核苷酸扩增子互补的第一延伸序列126，从而提供有关带衔接子的多核苷酸的序列信息。第一引物延伸发生在带衔接子的多核苷酸扩增子的第一位置。第一引发位点124通常可以在衔接子条形码的5'或3'，这取决于是否希望与第一基因104一起或与第一基因104分开对衔接子条形码进行测序。使用第二测序引物128来进行第二引物延伸，从而至少对基因特异性条形码118进行测序。第二测序引物128与第一扩增引物114的部分130互补，所述部分130为基因特异性条形码118的3'和靶特异性序列116的5'。在测序反应中将标记的核苷酸添加到引物中，并且生成与基因特异性条形码互补的第二延伸序列132，从而提供有关基因特异性条形码的序列信息。如上所述，序数第一和第二并不意味着在第二引物之前使用第一引物；相反，它们用于彼此区分不同的引物。

在时段C，处理并解释来自测序反应的数据。在一些实施方案中，第一延伸序列126被确定为第一基因的序列，第二延伸序列132被确定为与第二基因相关的基因特异性条形码的序列。基于这些确定，数据被解释为表明在感兴趣的核酸中存在融合基因。融合基因包含第一基因和第二基因的多个部分，并且即使不直接对第二基因106本身进行测序也可以确定其存在。

实施例2

图2展示的是，在有或没有衔接子的早期附接的情况下可以用靶特异性引物扩增多核苷酸。可以通过如下制备用于测序的多核苷酸：将衔接子附接到多核苷酸上，然后是靶特异性的(图2左侧的工作流程)，或者还有通过本技术生成的带衔接子的多核苷酸和带衔接子的多核苷酸扩增子。根据本发明的一个实施方案，所述带衔接子的多核苷酸可用于使用选择性基因扩增来检测基因组重排或其他融合事件。在图2中，多核苷酸202包含感兴趣的核酸，在这种情况下为融合基因的连接点。多核苷酸102包含第一基因204和第二基因206。

在时段A，制备多核苷酸用于靶特异性扩增。可以使多核苷酸变性以提供单链多核苷酸，或者可以提供双链多核苷酸用于扩增。在一些实施方案中，以非特异性方式扩增多核苷酸(例如，通过用与附接至带衔接子的多核苷酸的文库成员的衔接子上的引发位点互补的引物来扩增多核苷酸。在一些实施方案中，如上文论述，通常在扩增多核苷酸之前富集多核苷酸。

制备多核苷酸，使其与包含靶特异性引物216的第一扩增引物214接触。靶特异性引物216与已知或疑似存在于多核苷酸中的序列例如基因206内的序列互补。第一扩增引物214还包含基因特异性条形码218，其对已知或疑似存在于被分析样品或感兴趣的多核苷酸中的基因的一部分是特异的。还制备多核苷酸，使其与包含靶特异性引物217的第二扩增引物215接触。靶特异性引物217与已知或疑似存在于多核苷酸中的序列例如基因204内的序列互补。第二扩增引物215还包含条形码219，比如靶特异性条形码、样品条形码、分子条形码或其他条形码、或条形码的组合。第一和第二扩增引物中的一者或两者可包含衔接子。

在时段B，在第一扩增引物214和第二扩增引物215的存在下对多核苷酸进行扩增，以生成多核苷酸扩增子的文库。多核苷酸扩增子包含感兴趣的核酸和靶特异性条形码或其互补序列。所述多核苷酸扩增子可以是带衔接子的多核苷酸扩增子，其中它们包含感兴趣的核酸、衔接子或其互补序列以及靶特异性条形码或其互补序列。为了便于说明，图2显示了一组第一扩增引物214和第二扩增引物215，尽管扩增反应可以针对各种序列采用大量靶特异性引物，并且可以生成大量感兴趣的核酸的扩增子。

然后可以对多核苷酸扩增子进行测序，或者可以对它们进行另外的处理步骤，比如富集、进一步扩增和/或衔接子的附接。例如，可以将衔接子附接到扩增子的每个末端上，使得带衔接子的多核苷酸扩增子具有测序引发位点，并且/可以将衔接子附接到固体支持物上。在时间段C中，多核苷酸扩增子已与附接到固体支持物上的引物杂交，并且所述引物已被延伸以提供附接到支持物上的多核苷酸扩增子的互补序列。采用与衔接子208的第一引发位点224互补的第一测序引物222来进行第一引物延伸，以便对至少第一基因204测序。在测序反应中将标记的核苷酸添加到引物中，并且生成与带衔接子的多核苷酸扩增子互补的第一延伸序列226，从而提供有关带衔接子的多核苷酸的序列信息。第一引物延伸发生在带衔接子的多核苷酸扩增子的第一位置。第一引发位点224通常可以在衔接子条形码的5'或3'，这取决于是否希望与第一基因204一起或与第一基因204分开对衔接子条形码进行测序。使用第二测序引物228来进行第二引物延伸，从而至少对基因特异性条形码218进行测序。第二测序引物228与第一扩增引物214的部分230互补，所述部分230为基因特异性条形码218的3'和靶特异性序列216的5'。在测序反应中将标记的核苷酸添加到引物中，并且生成与基因特异性条形码互补的第二延伸序列232，从而提供有关基因特异性条形码的序列信息。如上所述，序数第一和第二并不意味着在第二引物之前使用第一引物；相反，它们用于彼此区分不同的引物。

在时段C，处理并解释来自测序反应的数据。在一些实施方案中，第一延伸序列226被确定为第一基因的序列，第二延伸序列232被确定为与第二基因相关的基因特异性条形码的序列。基于这些确定，数据被解释为表明在感兴趣的核酸中存在融合基因。融合基因包含第一基因和第二基因的多个部分，并且即使不直接对第二基因206本身进行测序也可以确定其存在。

示例性实施方案

实施方案1.一种通过附接靶特异性条形码制备用于测序的多核苷酸的方法，所述方法包括：用第一扩增引物和第二扩增引物扩增多核苷酸，其中第一扩增引物与多核苷酸的第一引发位点杂交，并且第一扩增引物包含靶特异性条形码；其中所述扩增产生多核苷酸扩增子，并且其中所述多核苷酸扩增子包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列。

实施方案2.实施方案1的方法，其中所述第二扩增引物(1)与附接到多核苷酸上的衔接子的一部分在距第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，其中第二引发位点在距第一引发位点的一定距离处。

实施方案3.实施方案1的方法，其进一步包括在距第一引发位点一定距离处将衔接子附接到多核苷酸上，其中所述衔接子包含第二引发位点。

实施方案4.实施方案3的方法，其中所述衔接子进一步包含衔接子条形码，其中所述衔接子条形码是样品条形码或分子条形码。

实施方案5.前述实施方案中任一项的方法，其中所述第一引发位点是融合基因的一部分，并且所述靶特异性条形码对所述融合基因的所述部分是特异的。

实施方案6.实施方案5的方法，其中所述融合基因的所述部分是所述融合基因的连接点。

实施方案7.前述实施方案中任一项的方法，其中所述多核苷酸是基因组DNA(gDNA)或衍生自RNA模板的互补DNA(cDNA)。

实施方案8.前述实施方案中任一项的方法，其中所述感兴趣的多核苷酸包括多个感兴趣的多核苷酸，并且所述方法包括将多个衔接子附接到多个多核苷酸上，由此形成多个带衔接子的多核苷酸，其中多个带衔接子的多核苷酸中的每一个包含不同的分子条形码。

实施方案9.前述实施方案中任一项的方法，其中所述感兴趣的多核苷酸包括多个感兴趣的多核苷酸，并且第一扩增引物包括具有不同的靶特异性引物和不同的靶特异性条形码的多个第一扩增引物，由此形成多个带衔接子的多核苷酸扩增子，其中多个带衔接子的多核苷酸扩增子中的每一个包含不同的靶特异性条形码。

实施方案10.前述实施方案中任一项的方法，其中所述多核苷酸扩增子或带衔接子的多核苷酸包含结合配偶体，例如生物素模块。

实施方案11.前述实施方案中任一项的方法，进一步包括通过进行第一引物延伸和第二引物延伸在第一和第二位置对多核苷酸扩增子进行测序，其中第一引物延伸和第二引物延伸在相同方向上进行。在第一位置的测序可提供感兴趣的多核苷酸的至少一部分的序列，而在第二位置的测序可提供靶特异性条形码的序列。

实施方案12.实施方案11的方法，其中第一引物延伸和第二引物延伸在分别的测序运行中在所述多核苷酸上以相同方向进行。

实施方案13.实施方案11的方法，其中所述测序是下一代测序(NGS)或大规模平行测序。

实施方案14.前述实施方案中任一项的方法，进一步包括使用多核苷酸扩增子的至少一个的单端测序来检测基因组重排，例如通过基于从第一引物延伸和第二引物延伸的测序生成的数据来鉴定基因组重排。

实施方案15.实施方案14的方法，其中基因组重排的频率为约10％或更小，或者5％或更小。

实施方案16.实施方案14的方法，其中基因组重排是易位。

实施方案17.实施方案14的方法，其中将从第一引物延伸的测序生成的数据与已知的核酸序列比如已知的gDNA序列进行比较，以确定基因组重排。

实施方案18.一种通过附接靶特异性条形码制备用于测序的多核苷酸的文库的方法，所述方法包括：使用第一组扩增引物和第二组扩增引物扩增多核苷酸池，其中第一组扩增引物与多核苷酸池内的多个不同序列杂交，其中第一组扩增引物的每一个包含不同的靶特异性条形码。

实施方案19.实施方案18的方法，其进一步包括：生成带衔接子的多核苷酸的文库，其中每个带衔接子的多核苷酸包含附接到多核苷酸上的衔接子，并且所述衔接子包含第二引发位点和衔接子条形码。

实施方案20.实施方案19的方法，其中第二组扩增引物与衔接子上的第二引发位点杂交，由此产生带衔接子的多核苷酸扩增子。

实施方案21.实施方案18的方法，其进一步包括通过进行第一引物延伸和第二引物延伸，在两个位置对多个带衔接子的多核苷酸扩增子中的每一个进行测序，其中对于多核苷酸扩增子中的每一个，在相同方向上进行第一引物延伸和第二引物延伸的测序。

实施方案22.实施方案21的方法，进一步包括：基于从第一引物延伸和第二引物延伸的测序生成的数据来鉴定基因组重排。

实施方案23.一种用于检测具有第一结合位点的多核苷酸中的基因组重排的组合物或试剂盒，所述组合物或试剂盒包含：第一扩增引物，其包含靶特异性引物和靶特异性条形码；和第二扩增引物。

实施方案24.实施方案23的组合物或试剂盒，进一步包含：衔接子，其包含第二引发位点和衔接子条形码，并且其中所述第二扩增引物包含与所述衔接子内的序列互补或相同的引发序列。

实施方案25.实施方案23的组合物或试剂盒，其中所述第二扩增引物(1)与附接到多核苷酸上的衔接子的一部分在距第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，其中第二引发位点在距第一引发位点的一定距离处。

实施方案26.实施方案24的组合物或试剂盒，其中所述衔接子和/或第二引发位点在多核苷酸的链的5'端，并且第一引发位点在所述链的3'端。

实施方案27.一种检测多核苷酸中的基因组重排的方法，所述方法包括：用第一扩增引物和第二扩增引物扩增多核苷酸，其中所述第一扩增引物与所述多核苷酸的第一引发位点杂交，并且所述第一扩增引物进一步包含靶特异性条形码，其中所述扩增产生多核苷酸扩增子，其包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列；并且通过进行第一引物延伸和第二引物延伸在第一和第二位置对所述多核苷酸扩增子进行测序，其中第一引物延伸和第二引物延伸在相同方向上进行。

实施方案28.实施方案27的方法，其中在第一位置的测序提供感兴趣的多核苷酸的至少一部分的序列，在第二位置的测序提供靶特异性条形码的序列。

实施方案29.实施方案27或28的方法，其中第一引物延伸和第二引物延伸在分别的测序运行期间在该多核苷酸上以相同方向进行。

实施方案30.实施方案27至39中任一项的方法，其中所述测序是下一代测序(NGS)或大规模平行测序。

实施方案31.实施方案27至30中任一项的方法，进一步包括使用多核苷酸扩增子的至少一个的单端测序来检测基因组重排，例如通过基于从第一引物延伸和第二引物延伸的测序生成的数据来鉴定该基因组重排。

实施方案32.实施方案31的方法，其中基因组重排的频率为约10％或更小。

实施方案33.实施方案31或32的方法，其中基因组重排是易位。

实施方案34.实施方案27至33中任一项的方法，其中将从第一引物延伸的测序生成的数据与已知的核酸序列例111如已知的gDNA序列进行比较，以确定基因组重排。

鉴于本公开应当注意的是，可以与本教导一致地实施所述方法。此外，各种部件、材料、结构和参数仅为了说明和示例而被包括在内，而没有任何限制性的意义。鉴于本公开，可以在其他应用中实施本教导，并且可以确定实施这些应用的部件、材料、结构和设备，同时保持在所附权利要求书的范围内。

Claims

1.一种通过附接靶特异性条形码来制备用于测序的多核苷酸的方法，所述方法包括：

用第一扩增引物和第二扩增引物扩增多核苷酸，其中第一扩增引物与该多核苷酸的第一引发位点杂交，并且第一扩增引物包含靶特异性条形码，其中所述第二扩增引物(1)与附接到所述多核苷酸上的衔接子的一部分在距所述第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，其中第二引发位点在距所述第一引发位点的一定距离处，其中所述第一引发位点是融合基因的一部分，并且所述靶特异性条形码对该融合基因的所述部分是特异的；

其中所述扩增产生多核苷酸扩增子，其中该多核苷酸扩增子包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列，

其中该方法进一步包括通过进行第一测序引物延伸和第二测序引物延伸在第一和第二位置对多核苷酸扩增子进行单端测序，其中第一测序引物延伸和第二测序引物延伸在相同方向上进行。

2.权利要求1所述的方法，其进一步包括将衔接子附接到所述多核苷酸上距第一引发位点一定距离处，其中所述衔接子包含第二引发位点。

3.权利要求1所述的方法，其中该融合基因的所述部分是该融合基因的连接点。

4.权利要求1所述的方法，其中所述感兴趣的多核苷酸包括多个感兴趣的多核苷酸，并且所述方法包括将多个衔接子附接到所述多个多核苷酸上，由此形成多个带衔接子的多核苷酸，该多个带衔接子的多核苷酸各自包含不同的分子条形码。

5.权利要求1所述的方法，其中所述感兴趣的多核苷酸包括多个感兴趣的多核苷酸，并且所述第一扩增引物包括具有不同的靶特异性引物和不同的靶特异性条形码的多个第一扩增引物，由此形成多个带衔接子的多核苷酸扩增子，其中该多个带衔接子的多核苷酸扩增子各自包含不同的靶特异性条形码。

6.权利要求1所述的方法，其中所述多核苷酸扩增子或带衔接子的多核苷酸包含结合配偶体。

7.权利要求6所述的方法，其中所述结合配偶体是生物素模块。

8.权利要求1所述的方法，其中第一测序引物延伸和第二测序引物延伸在分别的测序运行中在所述多核苷酸上以相同方向进行。

9.一种用于通过单端测序检测具有第一引发位点的多核苷酸中的基因组重排的组合物或试剂盒，所述组合物或试剂盒包含：

第一扩增引物，其包含靶特异性引物和靶特异性条形码；和

第二扩增引物，

其中所述第一引发位点是融合基因的一部分，并且所述靶特异性条形码对该融合基因的所述部分是特异的，

其中所述第二扩增引物(1)与附接到所述多核苷酸上的衔接子的一部分在距所述第一引发位点一定距离处杂交，或(2)与多核苷酸的第二引发位点杂交，

其中所述单端测序包括进行第一测序引物延伸和进行第二测序引物延伸，其中第一测序引物延伸和第二测序引物延伸在相同方向上进行。

10.权利要求9所述的组合物或试剂盒，进一步包含：

衔接子，其包含第二引发位点和衔接子条形码，并且

其中所述第二扩增引物包含与所述衔接子内的序列互补或相同的引发序列。

11.一种检测多核苷酸中的基因组重排的方法，所述方法包括：

用第一扩增引物和第二扩增引物扩增多核苷酸，其中所述第一扩增引物与所述多核苷酸的第一引发位点杂交，并且所述第一扩增引物进一步包含靶特异性条形码，

其中所述扩增产生多核苷酸扩增子，其包含与感兴趣的多核苷酸和靶特异性条形码相同或互补的序列；并且

通过进行第一测序引物延伸和第二测序引物延伸在第一和第二位置对所述多核苷酸扩增子进行单端测序，其中第一测序引物延伸和第二测序引物延伸在相同方向上进行,

其中该方法不用于诊断疾病。

12.权利要求11所述的方法，其中在所述第一位置的测序提供感兴趣的多核苷酸的至少一部分的序列，在所述第二位置的测序提供靶特异性条形码的序列。

13.权利要求11所述的方法，其中第一测序引物延伸和第二测序引物延伸在分别的测序运行中在所述多核苷酸上以相同方向进行。

14.权利要求11所述的方法，其中所述测序是下一代测序或大规模平行测序。

15.权利要求11所述的方法，进一步包括利用对所述多核苷酸扩增子中的至少一个的单端测序来检测基因组重排。

16.权利要求15所述的方法，其中通过基于从对第一测序引物延伸和第二测序引物延伸的测序生成的数据来鉴定基因组重排。

17.权利要求15所述的方法，其中所述基因组重排的频率为10%或更小。

18.权利要求15所述的方法，其中所述基因组重排是易位。

19.权利要求11所述的方法，其中将从对第一引物延伸的测序生成的数据与已知的核酸序列进行比较，以确定基因组重排。

20.权利要求19所述的方法，其中所述已知的核酸序列是已知的gDNA序列。