CN105705515B

CN105705515B - 多种用于dna操作的转座酶适体

Info

Publication number: CN105705515B
Application number: CN201480061214.8A
Authority: CN
Inventors: 亚历山大·S·贝尔亚夫
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2013-11-07
Filing date: 2014-09-05
Publication date: 2021-05-25
Anticipated expiration: 2034-09-05
Also published as: US10287622B2; CN105705515A; US20190284613A1; WO2015069374A1; EP3066114A4; EP3066114A1; JP2016534757A; EP3066114B1; US20160289737A1; JP6626830B2

Abstract

本发明涉及转座酶适体及其用途，包括在制备DNA分子、体外扩增、对核酸测序和筛选DNA文库中感兴趣的序列以及核酸递送中的用途。

Description

多种用于DNA操作的转座酶适体

相关申请的交叉引用

本申请要求2013年11月7日递交的美国临时专利申请No.61/901,037和2014年6月18日递交的美国临时专利申请No.62/013,833的优先权。所述申请的内容通过引用整体并入本文中。

发明领域

本发明涉及转座酶适体及其用途，包括在制备DNA分子、体外扩增、对核酸测序和筛选DNA文库中感兴趣的序列以及将核酸递送到活细胞中的用途。

发明背景

转座酶是结合到转座子的末端并通过剪贴(cut and paste)机制或复制型转座机制催化转座子移动到基因组的另一部分的一类酶。这些酶已被用在制备用于下一代测序(NGS)、诱变、核酸递送(基因疗法)的样品和产生用于再生医学的多能细胞中。在这些应用中，转座酶不是作为分离蛋白起作用，而是作为与特定DNA序列形成复合体的核蛋白起作用。这类序列通常被称为转座酶识别序列、转座子末端、反向重复右侧(IRR)、反向重复左侧(IRL)或适体(adapter)。

当用于NGS文库制备时，转座酶-适体复合体被用于使基因组DNA片段化，这是实现高通量测序的关键步骤。相较于其它片段化技术，例如声处理和DNA酶处理，基于转座酶的片段化允许节省许多倍的时间、劳动和设备经费，考虑到样品制备构成全部测序成本的约50％。然而，通过目前可用的转座酶-适体复合体的DNA片段化不太随机。换言之，它偏向于在某些区域产生较多读出而在其它区域产生较少读出，这通常导致高1-3％的重复率和更多的测序工作来实现相同的整体覆盖度。另外，常规基于转座酶的NGS样品制备方法需要去除适体，这是耗时的且不适合处理含有很少量DNA的样品。

因此，对具有合适活性和用于提高随机性和降低重复率的不同性质的不同转座酶适体的需求未被满足。对在含有很少量DNA的样品的转座酶反应中更有效和/或适合直接处理的方法的需求未被满足。

发明概述

本发明通过提供多种转座酶适体而解决了上述未被满足的需求。

在一个方面，本发明提供了分离的合成核酸适体，其包括含有第一序列的第一链和含有第二序列的第二链。第一序列和第二序列彼此完全互补或者基本互补，且适体被转座酶识别。

分离的合成核酸适体包括相较于转座酶的天然识别序列具有一个或多个修饰的转座酶识别序列。例如，第一序列是转座酶的亲本、天然或已知识别序列的修饰版本，或者第二序列是亲本适体序列的互补物的修饰版本，或者二者均是这样的修饰版本。

相较于转座酶的天然识别序列，分离的合成核酸适体可具有一个或多个以下修饰：(a)一个或多个在第一序列(在第一链上)的5’末端(第1位置)、或者在第二序列(在第二链上)的3’末端、或者在二者上的修饰；(b)一个或多个在第一链或第一序列中的修饰核苷酸，其中所述修饰核苷酸阻碍所述第一链的引物延伸；和(c)一个或多个在第二链或第二序列中的硫代磷酸酯键。

在一个实施方式中，分离的合成核酸适体具有一个或多个相较于转座酶的天然或已知识别序列(亲本适体序列或亲本识别序列)在第一序列的5’末端(第1位置)、或者相较于天然识别序列的互补物在第二序列的3’末端、或者在两个所述末端的修饰。例如，相较于亲本识别序列，第一序列可在其5’末端具有不同的核苷酸，至少一个额外的核苷酸或者缺少一个核苷酸。类似地，相较于所述互补物，第二序列也可在其3’末端具有至少一个不同的核苷酸，额外核苷酸或者缺少一个核苷酸。图3B、4B和5C中显示了这些适体的实例。

在另一个实施方式中，上文提到的部分(b)中的一个或多个修饰核苷酸选自由脱氧尿苷、无碱基位点、2’OMe修饰的核糖核酸(RNA)和反向胸苷组成的组。反向胸苷优选地在第一链的3’末端。在一些实例中，一个或多个修饰核苷酸的前面(即，在修饰核苷酸的5’)是硫代磷酸酯键或间隔子。第二链可以不含这样的一个或多个修饰核苷酸。

在另一个实施方式中，至少一个硫代磷酸酯键在第二链或第二序列的3’最后一个核苷酸和3’倒数第二个核苷酸之间。第二链或第二序列可含有约1-18(例如，2-15、3-14或4-10，例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18)个硫代磷酸酯键。第一链或第一序列可以不含硫代磷酸酯键。

在上文提到的适体中，第一链和第二链可形成双链体。双链体的长度可以为15-30bp。在这种情况下，双链体可以在第一链或第二链的3’或5’末端(例如，在第二链的3’末端或者第一链的5’末端)具有平末端或交错末端。在适体中，第一或第二序列中的一个或多个修饰可导致双链体中一个或多个未配对的核苷酸，例如未配对的碱基或悬挂(例如，在第一或第二链的一个或多个末端)。

优选地，第一或第二序列(或链)的长度为17-80、18-60或19-50个核苷酸，例如17、18、19、20、21、22、23、24、25、30、40、50、60或80个核苷酸。在一些更优选的实施方式中，第一或第二序列的长度为19-21个核苷酸，即长度为19或20或21个核苷酸。

在一些优选的实施方式中，亲本、天然或已知识别序列在第1位置具有C。这类亲本识别序列的实例包括图1中所示的那些。在一个实施方式中，本发明的适体在第二序列(即，图3-5中所示的底链)的第1位置上具有G到A的替换(例如，以下的实施例2中所述和图5中所示的适体6、8、13、17和27)。在另一个实施方式中，适体既在第二序列的第1位置上具有G到A的替换，又在相对链上(即，第一序列中的第1位置)具有错配碱基(例如，在该位置上具有错配的C的适体8和27)。在另一个实施方式中，适体在第二序列的第1位置上具有天然的G，但在相对链上具有错配碱基(例如，在该位置上分别具有错配的T和G的适体7和12)。所有这些适体相较于亲本适体赋予提高的活性。

在另一实施方式中，适体可在第一序列的第1位置C的5’具有额外的碱基或者在适体序列的第1位置G的3’具有额外的碱基(例如，适体5、9和10)。这些适体的重复率低于或者比得上亲本适体的重复率。

在一些实施方式中，第一或第二链可包含至少一个修饰核苷酸，所述核苷酸选自由2-氨基嘌呤、2,6-二氨基嘌呤、5-溴dU、脱氧尿苷、反向dT、反向双脱氧-T、双脱氧-C、5-甲基dC、脱氧肌苷、通用碱基包括5-硝基吲哚、2’-O-甲基RNA碱基、异-dC、异-dG、核糖核苷酸、吗啉代、蛋白核苷酸类似物、乙醇酸核苷酸类似物(glycoic nucleotide analogue)、锁核苷酸类似物、苏糖核苷酸类似物、链终止核苷酸类似物、硫尿苷、假尿苷、二氢尿苷、辫苷和丫苷组成的组。在另一些实施方式中，第一或第二链中至少一个核苷酸可以被磷酸化或者为核糖核苷酸，或者具有修饰糖、非天然的键、无碱基位点、双脱氧碱基、5-甲基碱基或间隔子。在一些实施方式中，第二链还可包含在第二序列的5’的标签序列。类似地，第一链还可包含在第一序列的3’例如如图1中所示超过第19位的标签序列。第一和第二序列的标签可以基于它们的用途不彼此互补，如下文所述。对于适体，转座酶可以是“切割和粘贴”转座酶，例如Vibrio Harveyi转座酶或超活性Tn5转座酶。

本发明还提供了分离的合成核酸适体的集合，其具有上文提到的(i)第一分离的合成核酸适体和(ii)第二分离的合成核酸适体，其中第一适体和/或第二适体相较于它们各自的亲本识别序列或其互补物具有至少一个不同的修饰。例如，两个适体中至少一个是上文所述的分离的合成核酸适体。两个适体可被相同的转座酶或者被两种不同的转座酶识别。

集合的实例包括以下适体的任意组合：图5C中所示的适体4-10、12-23和27-28，图13中所示的适体3U2、8U2、3U4、8U4、3i0*dT和8i0*dT，适体E8(图18)和图19中所示的那些适体。

第一序列和第二序列可以分别包括以下序列、基本上由以下序列组成或者由以下序列组成：SEQ ID NOs:73和74、SEQ ID NOs:75和76、SEQ ID NOs:28和36、SEQ ID NOs:28和22、SEQ ID NOs:2和36、SEQ ID NOs:2和74、SEQ ID NOs:2和76、SEQ ID NOs:26和22、SEQID NOs:26和36、SEQ ID NOs:26和39、SEQ ID NOs:26和41、SEQ ID NOs:24和22、SEQ IDNOs:24和36、SEQ ID NOs:24和39、SEQ ID NOs:24和41、SEQ ID NOs:28和39、SEQ ID NOs:28和41、SEQ ID NOs:2和39、SEQ ID NOs:2和41、SEQ ID NOs:75和36或者SEQ ID NOs:73和36。另一些实例包括图11中所示的适体1和5-10的集合，适体5-10的集合，适体6、8、13、17和27的集合，适体8和27的集合，适体7和12的集合，以及适体5和9的集合。额外的实例包括适体5-10、12、13、17和27的任意组合。另一些实例包括图13中所示的适体对2-4，和图19中所示的那些的任意组合。

还提供了试剂盒，所述试剂盒具有上文提到的第一适体和第一转座酶，所述第一适体具有被转座酶识别的序列。试剂盒还可包括至少一种选自缓冲剂、聚合酶、内切核酸酶和限制酶的组分，和由靶DNA制造DNA文库的说明。在一些实施方式中，适体的第二链还包含在第二序列的5’的标签序列且试剂盒还包括与标签序列互补的引物。在另一些实施方式中，试剂盒还可包括不同于第一适体但可被第一转座酶或不同的转座酶识别的第二适体。

在另一方面，本发明提供了使靶DNA分子片段化的体外方法。该方法包括以下步骤：得到转座酶；得到可被所述转座酶识别的上述分离的合成核酸适体；混合适体、转座酶和靶DNA分子；在用于进行转座反应的条件下孵育适体、转座酶和靶DNA，其中适体和转座酶与靶DNA分子相联合并通过转座酶介导的切割来切割靶DNA分子从而提供经切割的DNA产物。

在另一些方面，本发明提供了转座酶复合体，其包括具有至少一种转座酶的转座酶组分和本发明的适体。为了产生转座酶复合体，可以将一种或多种转座酶与一种或多种本发明的适体一起孵育，所述适体含有转座酶的识别序列，以及允许足够的时间使适体与转座酶结合，从而产生转座酶复合体。这种转座酶复合体可与固体基质结合。在这种情况下，可以使用含有特异性结合对的连接子组分。所述特异性结合对的一个成员可以与适体结合且另一个成员与固体基质结合。在这样的与固体基质结合的转座酶复合体中，每个复合体中至少一个适体与特异性结合对的成员结合。

在另一方面，本发明提供了使靶DNA分子片段化的体外方法。该方法包括：使靶DNA分子与上文提到的转座酶复合体接触以形成反应混合物，和在用于进行转座反应的条件下孵育反应混合物。靶DNA分子可以获自由少数个细胞(例如，1-10个细胞、1-3个细胞或单个细胞)或染色体组成的样品。

本发明还提供制备用于靶DNA分子的测序或微阵列分析的试验样品的方法。该方法包括：使靶DNA分子与复合体接触以形成反应混合物，所述复合体具有上述分离的合成核酸适体和与适体结合的转座酶；在用于进行转座反应的条件下孵育反应混合物以产生经切割的DNA产物；和扩增经切割的DNA产物。如本文所公开的，由于所述适体的优越性，无需在扩增步骤之前去除适体。换言之，扩增步骤在没有在之前去除适体的情况下进行。

还提供了用于微阵列的DNA样品制备的方法。该方法包括：使样品DNA分子与复合体接触以形成反应混合物，所述复合体具有本文所公开的分离的合成核酸适体和与适体结合的转座酶；在用于进行转座反应的条件下孵育反应混合物以产生样品DNA分子的DNA片段。所述适体具有寡核苷酸标签且DNA片段的两端都用寡核苷酸标签加上标签。该方法还可包括：使用与寡核苷酸标签互补的引物扩增DNA片段。标签可被用作与标签互补的引物的着陆(landing)位点。可以在使用包含至少一种用荧光团标记的dNTP的dNTP混合物的聚合酶反应中延伸一种或多种引物。

说明书和以下附图中陈述了本发明的一个或多个实施方式的细节。本发明的其它特征、目标和优点从说明书、附图和权利要求中显而易见。

附图简介

图1是转座酶的天然TRL和IRR，以及经修饰的适体(仅显示一条链)的列表，其中适体中的第一个位置(C)是保守的且不同颜色阐释了不同适体的相似和不同。每个序列之后的括号内的数字指的是序列的SEQ ID NO。

图2是这样的图，其显示了具有DDE基序的Tn5转座酶的催化位点和适体。保守的C(如图1中所示，在第1位置)和相对适体链上保守的G带下划线。

图3A和B是这样的列表，其图示了(A)Vibhar转座酶的亲本适体双链体，其包括第一和第二适体序列和(B)多个经修饰的适体，其中顶链和底链分别对应于上文提到的第一序列和第二序列。每个序列之后的括号内的数字指的是序列的SEQ ID NO。

图4A和B是这样的列表，其图示了(A)“超活性”Tn5转座酶的亲本适体和(B)多个经修饰的适体，其中顶链和底链分别对应于上文提到的第一序列和第二序列。每个序列之后的括号内的数字指的是序列的SEQ ID NO。

图5A-C是这样的图，其展示了基于核苷酸的替换和添加的Vibhar转座酶的适体的实例：(A)亲本适体，(B)基于在第1位置的改变/添加的适体编号，和(C)衍生适体的实例。每个序列之后的括号内的数字指的是序列的SEQ ID NO。

图6A-C是这样的图，其显示了：在高DNA输入下，用于的NGS的样品制备中多种适体的活性的评估。在2％的琼脂糖凝胶中分离使用带有不同适体的Vibhar转座酶产生的NGS样品并用溴化乙锭染色。

图7是这样的图，其显示了：在高DNA输入下，适体8相较于其它衍生适体和亲本适体1的更高活性的确认。在2％的琼脂糖凝胶中分离使用带有不同适体的Vibhar转座酶产生的NGS样品并用溴化乙锭染色。

图8A-D是这样的一组图，其显示了：在中等(A和B)和低(C和D)DNA输入下，用于NGS的样品制备中多种适体的活性的评估。在2％的琼脂糖凝胶中分离使用带有不同适体的Vibhar转座酶产生的NGS样品并用溴化乙锭染色。

图9是这样的图，其显示了：在不同的转座酶浓度(A-5ug/ml,B-1.7ug/ml,C-0.56ug/ml)下，适体8相较于亲本适体1赋予转座酶更高的活性的确认。0–没有转座酶的阴性对照。在2％的琼脂糖凝胶中分离使用带有不同适体的Vibhar转座酶产生的NGS样品并用溴化乙锭染色。

图10是这样的图，其显示了：在低DNA输入下，适体8相较于亲本适体1以及如果不添加DNA的无背景(NC)赋予转座酶更高的活性的确认。在2％的琼脂糖凝胶中分离使用带有不同适体的Vibhar转座酶产生的NGS样品并用溴化乙锭染色。

图11是这样的图，其显示了：不同适体及其混合物赋予Vibhar转座酶的重复率。

图12是这样的图，其显示了：不同适体赋予Vibhar转座酶的AT漏失(ATdropouts)。

图13A-B阐释了一些现有技术的寡核苷酸和一些本发明的示例性经修饰的寡核苷酸，包括AgPl、AgP2、3ilb、8ilb、3i0、8i0、3U2、8U2、3U4、8U4、3i0*dT和8i0*dT(SEQ ID No分别为79-90)：(A)转座酶反应的典型产物的实例，所述转座酶反应包括DNA插入物，即用3ilb/3i0和8ilb/8i0适体加上标签的DNA片段，以及用于在PCR中扩增DNA片段的AgPl和AgP2引物。显示了DNA插入物两端的缺口；缺口处的箭头表示缺口的DNA聚合酶修复的方向。(B)现有技术的适体和经修饰的适体。箭头的实线部分表示杂交的寡核苷酸；虚线部分表示延伸部分，即通过DNA聚合酶复制。粗体X代表受阻或阻断的DNA聚合酶延伸。dU：脱氧尿苷；InvdT：反向胸苷；星号：硫代磷酸酯键。

图14A-B是这样的照片，其阐释了直接来自转座酶反应而不进行SPRI纯化的转座酶反应产物的扩增：(A)不利用靶DNA，但利用带有适体对1、3或4的Vibhar转座酶进行转座酶反应持续25分钟；(B)在利用带有适体对1、3或4的Vibhar转座酶的转座酶反应中使人类DNA(20ng/20ul)片段化和标签化持续20分钟或45分钟

图15是这样的照片，其阐释了：高靶DNA输入(200ng/20ul)转座酶反应之后，利用或不利用SPRI纯化得到的PCR产物的比较。

图16是这样的图，其阐释了用于NGS的样品制备的标准适体和示意图，包括AgPl、AgP2、3ilb、8ilb、3ilt和8ilt(SEQ ID NO分别为79、116、81、82和91-92)。P5和P7指定了附着到Illumina流动池(flow cell)所必需的部分。

图17是这样的照片，其阐释了：使用标准适体、利用50ng/ml和100ng/ml转座酶(分别为"A"和"B")持续15分钟、25分钟或42分钟时，观察到的对DNA片段化和标签化的核酸酶活性。

图18是这样的照片，其显示了：利用20pg人类DNA输入(对应于～3个二倍体细胞)时，在不同转座酶浓度(即，A-180ng/ml、B-120ng/ml、C-80ng/ml)下，使用适体78对转座酶DNA片段化和标签化缺乏核酸酶活性，在不同转座酶浓度(即，A-180ng/ml、B-120ng/ml、C-80ng/ml)下，使用适体78的硫代磷酸酯衍生物(适体E8)赋予提高的转座酶活性。

图19A-C显示了转座酶适体的衍生物：(A)适体78的硫代磷酸酯衍生物的实例；(B)标准适体的硫代磷酸酯衍生物(仅显示了关于图16中所述的顶链)；和(C)组合了错配、反向dT和dU修饰的硫代磷酸酯适体。括号内的数字指的是SEQ ID NO。

图20阐释了适合在Illumina仪器上进行NGS测序的样品制备的4引物PCR反应中，用于适体78或其衍生物的PCR扩增的引物。P5和P7指定了附着到Illumina流动池所必需的部分。括号内的数字指的是SEQ ID NO。

图21A-C是这样的一组图，其显示了用于微阵列的样品制备中的DNA片段化/标签化(A)、扩增(B)和标记(C)。

图22A-B的照片显示了这样的人类DNA，其在转座酶反应中被片段化和标签化并且在利用与用于微阵列的标签互补的引物的PCR中被扩增。A：16pg DNA输入，B：200ng DNA输入。

发明详述

本发明至少部分基于多种分离的合成核酸转座酶适体的意外发现。令人惊讶地，虽然这些合成适体在大部分保守位点与已知的功能转座酶适体(天然的或经修饰的二者)不同，但合成适体保留活性且它们中的一些具有甚至更高的活性，从而导致用于NGS时提高的随机性、降低的重复率或二者。在一些实施方式中，已证明了：可通过修饰天然适体中保守的第1位置来产生多种赋予所选的转座酶不同性质的有用的适体。还惊讶地发现：对适体的一些修饰允许制备用于NGS的DNA样品而不用耗时地去除适体，和/或允许处理具有很少量DNA的样品。

适体

本发明提供分离的合成核酸适体，其含有第一链和第二链，所述第一链和第二链分别包含上文提到的第一序列和第二序列、基本上由上文提到的第一序列和第二序列组成或者由上文提到的第一序列和第二序列组成。所述第一序列和第二序列彼此完全互补或者基本互补，且适体被转座酶识别。

如上文所述，转座酶不作为分离蛋白起作用，而是与特定DNA序列或适体形成复合体起作用，所述特定DNA序列或适体可以与转座酶形成稳定的复合体并因此使得它们有活性。适体可以是在自然中发现的转座酶识别序列，或者它们也可以是经修饰的天然序列。通常，作为惯例，仅一种这样的序列被推荐与特定转座酶一起使用。例如，被突变以使得更加活跃、更加稳定且更好表达的“超活性(hyperactive)”Tn5转座酶识别“嵌合体(mosaic)”序列(适体)，所述“嵌合体”序列也是由天然序列突变的且仅这种序列被推荐与这种转座酶一起使用(Zhou等人,J Mol Biol.1998,276(5):913-25；Brouilette等人,Dev Dyn.2012,241(10):1584-90)。

已知转座酶DDE氨基酸基序是催化位点的一部分且对于转座酶活性是必需的(Nesmelova和Hackett,Adv Drug Deliv Rev.2010,30；62(12):1187-95；Steiniger-White等人,Curr Opin Struct Biol.2004年2月；14(l):50-7)。由于DDE基序以及适体在其附近存在这二者对于活性是必要的，所以发明人意识到：可通过改变位于接近DDE基序的催化位点的适体中的核苷酸来适当调节复合体的性质。然而，本领域已知，类似于严格保守的DDE基序，最接近催化位点的适体中的核苷酸也严格保守。为此，图1列出了一些已知的转座酶的天然适体和经修饰的适体，其中仅显示了一条链。如图所示，在适体中的第一位置的C在所有的不同适体中是保守的。

当在本文中使用时，术语“适体”指的是非靶核酸组分，一般是DNA，其提供了寻址(addressing)其随后连接的核酸片段的方式。例如，在一些实施方式中，适体包含这样的核苷酸序列，所述核苷酸序列允许与适体相连的DNA的鉴定、识别和/或分子或生化操作(例如，通过为寡核苷酸退火提供位点，所述寡核苷酸例如用于通过DNA聚合酶延伸的引物，或者用于捕获或连接反应的寡核苷酸)。如本文所公开的，本发明的适体具有(i)具有第一序列的第一链，所述第一序列是转座酶的天然或已知识别序列的修饰版本，和/或(ii)具有第二序列的第二链，所述第二序列是所述识别序列的互补物的修饰版本。适体的一条链可以是天然的，而另一条链可以含有修饰。

术语“转座酶的识别序列”、“转座酶识别序列”、“转座酶结合序列”和“转座酶结合位点”在本文中可交换使用，其指的是在转座子末端序列内发现的当介导转座时转座酶特异性地与其结合的核苷酸序列。转座酶结合序列可包括多于一个结合转座酶亚基的位点。

“转座酶”指的是这样的酶，其能够与含转座子末端的组合物(例如，转座子、转座子末端、转座子末端组合物)形成功能复合体并且催化含转座子末端的组合物插入或转座到在体外或体内转座反应中与其一起孵育的双链靶DNA中。

术语“转座子末端”表示仅展示与在体外或体内转座反应中有功能的转座酶或整合酶形成复合体所必需的核苷酸序列(“转座子末端序列”)的双链DNA。转座子末端形成“复合体”、“联合复合体(synaptic complex)”或“转座体复合体”。转座子末端展示两条互补的序列，所述序列由(i)“转移的转座子末端序列”或“转移链”和(ii)“非转移的转座子末端序列”或“非转移链”组成。例如，图3中显示了Vibhar转座酶的一些转座子末端/适体。每种中的顶链(例如，Vibhar IRR的5'-CTGTCTCTTGATCACAAGT-3'，SEQ ID NO:2)是展示非转移的转座子末端序列的非转移链，而底链(例如，Vibhar IRR的3'-GACAGAGAACTAGTGTTCA-5'或5'-ACTTGTGATC AAGAGACAG-3'，SEQ ID NO:22)是展示转移的转座子末端序列的转移链。类似地，在图4中，每种中的顶链(例如，嵌合体的5'-CTGTCTCTTATACACATCT-3'(经修饰的Tn5，SEQ ID NO:6)是非转移链，而底链(例如，嵌合体的5'-AGATGTGTATAAGAGACAG-3'(经修饰的Tn5)，SEQ ID NO:48)是转移链。当在本文中使用时，术语“第一链”指的是非转移链且在图3-5中，这类第一链/非转移链被显示为每种适体的顶链。术语“第二链”指的是转移链且在图3-5中，这类第二链/转移链被显示为每种适体的底链。在野生型转座子末端中，非转移链/第一链/顶链在其5’末端具有保守的C且相应的转移链/第二链/底链在其3’末端具有保守的G。在图13、16、18、19和21中，非转移链/第一链被显示为每种适体的底链而相应的转移链/第二链被显示为每种适体的顶链。在图1中，仅显示了非转移链/第一链且它们全部在5’末端或者第1位置具有保守的C。

当在本文中使用时，术语“第1位置”指的是这样的位置，其对应于图1中所示的野生型转座子末端的非转移链/第一链上的5’末端C核苷酸并对应于例如图3-5中所示的相应转移链/第二链/底链上的3’末端G核苷酸。此外，如图2中加下划线显示的，第1位置(非转移链/第一链的C和转移链/第二链/底链的G)在转座酶的催化位点。

如上所述，在一些实施方式中，本发明的适体内的第一序列和第二序列彼此互补或基本互补。当在本文中使用时，除非另有说明，当用于描述与第二核苷酸序列相关的第一核苷酸序列时，如本领域技术人员能够理解的，术语“互补”或“基本互补”指的是含第一核苷酸序列的寡核苷酸或多核苷酸在条件下与含第二核苷酸序列的寡核苷酸或多核苷酸杂交并形成双链体结构的能力。

这包括含第一核苷酸序列的寡核苷酸或多核苷酸与含第二核苷酸序列的寡核苷酸或多核苷酸在第一核苷酸序列和第二核苷酸序列的全长上的碱基配对。在本文中，这种序列可以称为彼此的“完全互补”。然而，在一些实施方式中，第一核苷酸序列和第二核苷酸序列可彼此基本互补，即除非另有说明，至少约80％、90％、95％、96％、97％、98％或95％彼此互补。当在本文中使用时，当第一序列被称为与本文的第二序列“基本互补”时，所述两个序列可以完全互补，或一旦杂交它们可以形成一个或多个，但在19-21bp的长度上一般不超过例如4个、3个、2个或1个错配碱基对，优选地2个或1个错配碱基对，同时保留在与它们的最终应用最相关条件下的杂交能力。然而，当将两个寡核苷酸被设计成一旦杂交就形成一个或多个单链悬挂时，在确定互补性时这种悬挂不应该被认做是错配。

当在本文中使用时，只要满足以上与它们的杂交能力有关的要求，“互补”序列可以包括Watson-Crick碱基对、非Watson-Crick碱基对和/或由非天然核苷酸和修饰核苷酸形成的碱基对，或完全由这些碱基对形成。

A.在第1位置具有修饰的适体

在一个实施方式中，本发明的适体具有具有以下序列的链，所述序列一般是转座酶的天然或已知识别序列的修饰版本。由于天然或已知识别序列的第1位置上严格保守的属性，所以通过改变这些核苷酸来调节转座酶复合体性质的任务看起来令人生畏。的确，本领域充分理解：在严格保守的核苷酸位置的改变应该不可避免地导致活性骤降，正如保守DDE基序的改变使得转座酶完全没有活性一样，因此应该避免。

然而，发明人出乎意料地发现：在严格保守的核苷酸位置的一些改变能够与活性相容，因为自然中的选择没有被应用于适体中的这类变异成为这些保守位置中未配对的或经修饰的核苷酸。即便在自然界中这类变化可不常见地发生，它们也会被立即修复。因此，没有机制能将它们保留在子代中。这些位置是保守的，因此对于调节转座酶活性非常重要，但应该可以引入一些对其没有选择压力的变化并因此调节活性。为此，不能明显推断出哪种核苷酸变化将导致何种调节类型，例如，在多种体外反应条件(pH、温度、Mn⁺⁺或Mg⁺⁺浓度、盐(例如，NaCl和KC1)、甘油等)下或者取决于体内应用(递送载剂、细胞类型、细胞器类型)，更高或更低的活性，在高度稀释状态下的活性(低输入应用)，更有可能识别AT或GC丰富的核苷酸序列，复合体稳定性，在固体支持物上的活性，在半纯化或原始样品中的活性，以及上述的表现程度。然而，鉴于本文的公开内容，技术人员能够立刻意识到多种合适的适体在其应用中的益处并能够根据项目和其希望解决的具体问题来设计实验选择最合适的适体。下文将展示此类项目和实验设计的实例。

相较于转座酶的天然或已知识别序列，本发明的适体可具有多种变化。在转座事件中最接近切割(天然朝向转座子内部)且在相同家族的转座酶中保守的核苷酸位置对修饰是优选的，例如图1中所示的第1位置。第2位置和/或第3位置也可以被修饰，但是是次优选的，因为第1位置对调节转座酶性质最为重要，这是由于它邻近切割且位于催化位点中，例如如图2中关于Tn5转座酶所示。如图3中关于Vibhar转座酶所示和图4中关于“超活性”Tn5转座酶所示，可通过以下方式修饰该第1位置：将任一条链或两条链上的一个核苷酸替换为天然的或经修饰的核苷酸，或者向一条链或两条链上添加至少一个天然的或经修饰的核苷酸，或者从一条链中移除至少一个核苷酸，或者以上的组合。

B.具有阻碍引物延伸的修饰的适体

在另一个实施方式中，本发明的适体具有一个或多个在例如PCR反应中阻碍引物延伸的修饰。这类适体对使用转座酶的用于NGS的DNA样品制备是有用的。

通常，用于NGS的DNA样品制备涉及：使用带有寡核苷酸适体的转座酶使靶DNA片段化和标签化，随后从未使用的适体纯化带标签的DNA片段，和片段的PCR扩增。目前，必须使用例如Agencourt Ampure XP SPRI磁珠(Beckman-Coulter)或RNA-结合纳米旋转柱(Agilent Technologies)从小得多的适体纯化较大尺寸的DNA片段。试图省略纯化步骤导致靶DNA实际上不扩增或者期望DNA片段的产率非常差。相反，产生了小尺寸的副产物(通常小于100bp)，其可能包括适体-引物二聚体。本质上，这种PCR反应被这些副产物而非靶DNA片段的优先扩增所“毒害”。

如本文所公开的，具有一个或多个阻碍引物延伸的修饰的适体允许在转座酶反应之后取消上述纯化步骤以简化NGS样品制备。这使得NGS样品制备更快、更便宜且更容易自动化。

用于使用转座酶的DNA片段化和标签化的一般方法和组合物在本领域是已知的。参见，例如，美国专利申请20120301925。例如，包含Vibrio harveyi(Vibhar)转座酶识别序列的19bp寡核苷酸可被“装载”到转座酶上，所述转座酶可以与这样的寡核苷酸/适体形成复合体。当与靶DNA混合时，经装载的转座酶切割靶DNA并用适体给片段(DNA插入物)加上标签，如图13A中所示。除了双链的19bp区域之外，适体可以含有能够为PCR引物提供着陆位点的单链区域。如图13A中所示，PCR引物AgPl和AgP2含有用于Illumina流动池位点P5和P7的DNA序列。

图13A中还图示了转座酶反应的典型产物。如图所示，适体(杂交的寡核苷酸3ilb/3i0和8ilb/8i0)与靶DNA片段(DNA插入物)的末端相连。DNA插入物在寡核苷酸3ilb和8ilb与适体相连。它在使用引物AgPl和AgP2的PCR中被扩增。然而，DNA插入物的两端都有缺口。该缺口在PCR步骤(缺口中的箭头)中被修复，从而导致3i0和8i0寡核苷酸的置换。发明人假设：在PCR步骤中，经置换的寡核苷酸可以彼此相互作用并与AgPl和AgP2PCR引物相互作用，从而形成适体-引物二聚体。发明人还假设：因为3i0和8i0寡核苷酸仅在转座酶反应步骤中有用并且没有其它用途，所以它们可被修饰为阻碍二聚体的产生，只要这种修饰不阻碍转座酶反应即可。

如以下的实施例4中所示，至少一个使DNA聚合酶停止的修饰被引入到适体的至少一条链中。因为经常用于扩增的Pfu DNA聚合酶停留在dU残基上(Hogrefe等人,Proc.Natl.Acad.Sci.USA,99(2),596-601,2002.)，所以dU修饰被引入到适体对2和3中(图13B)。修饰被引入到PCR引物AgPl和AgP2的着陆位点的下游以阻碍在PCR中适体的底链(寡核苷酸3U2、8U2、3U4和8U4)的复制。因此，虽然适体的复制和扩增停止了，但靶DNA片段的扩增畅通无阻地进行，因为缺口修复之后，带标签的DNA片段不含经修饰的核苷酸。使聚合酶停止的其它修饰(例如，无碱基位点或使Pfu聚合酶停止的2'OMe修饰的RNA)可被本领域技术人员用于该目的(参见，例如US 7,659,069)。类似地，使聚合酶停止的任何修饰均可被使用并且可以彼此组合，只要它们不阻碍转座酶反应即可。

另一种方法也可用于相同目的。更具体地，经修饰的核苷酸可以与适体链相连。如图13B和以下的实施例4中所示，利用标准适体对1时，寡核苷酸AgPl和AgP2充当模板；当与它们杂交时，寡核苷酸3i0和8i0充当模板，从而在PCR反应中产生不期望的副产物。发明人假设：这可以促进适体-引物二聚体的产生。因此，用反向dT封闭适体的底链的3’末端以阻止该过程(图13B，适体对4)。此外，反向dT前面可以是硫代磷酸酯键以防止反向dT通过DNA聚合酶3’外切核酸酶活性被去除。其它方法，例如，使反向dT或其它3’封闭基团前面为间隔子，可用于相同目的。为此，鉴于本文的公开内容，许多3’封闭基团可被使用。

本发明中公开的寡核苷酸修饰的应用不限于使用转座酶的基因组DNA样品制备。它们可被用于消除目前需要从合成的寡核苷酸中纯化靶核酸片段以进行PCR的其它技术中的适体/标签/载体纯化步骤，例如HaloPlex、SureSelect、使用声处理的基因组DNA样品制备等。特别地，单细胞应用可从本发明中受益。无纯化步骤(包括SPRI纯化)100％有效。因此，取消PCR扩增之前的纯化步骤是有益的，因为初始基因组材料的任何损失均有害于基因组覆盖度并导致等位基因漏失。

C.具有硫代磷酸酯键的适体

在另一个实施方式中，本发明的适体具有一个或多个硫代磷酸酯键。这类适体对由初始输入很低的DNA(例如，由少数个细胞，即1个细胞或几个细胞(2、3、4、5、6、7、8、9或10个细胞))的NGS测序或者微阵列分析的样品制备是有用的。

在使用标准Vibhar适体和转座酶的典型NGS测序样品制备中，适体含有被转座酶识别的19bp双链部分并且还含有被用作PCR引物的着陆位点的单链部分。参见例如，图16和美国专利申请20120301925。在转座酶反应中，输入DNA被切割且产生片段的两端均用适体加上标签。接下来，在使用与适体序列互补的引物的PCR中扩增DNA片段。同时，片段具有连接到例如Illumina流动池结合位点P5和P7所必需的DNA序列。Vibhar转座酶、适体设计、形成转座酶-适体复合体的方法和组合物，输入DNA片段化和标签化的机制在本领域是已知的。参见例如，美国专利申请20120301925。

Vibhar转座酶制品含有痕量核酸酶活性，其可源自E.coli表达宿主或者(如下文所讨论的)转座酶的微弱固有非特异性的核酸酶活性。虽然在来自几千个人类细胞的平常DNA输入下，这不会呈现出大问题，但在低DNA输入下这是不能接受的。如图17中所示，利用来自3个细胞的DNA时，在转座酶反应25分钟之后观察到了令人满意的合适DNA片段的产率，但用于NGS的期望大小范围(200-500bp)的片段在反应42分钟时几乎完全消失。这暗示：即使在转座酶反应25分钟时，合适材料的损失可以是很大的并可为50％或更多的量，这对于利用低DNA或细胞数目输入的NGS测序是不能接受的。

本领域已知硫代磷酸酯键赋予对核酸酶攻击的抵抗。参见例如，Stein等人,Nucl.Acids Res.,16:8,3209-3221,1988，其通过引用并入本文。适体中包含这类键对于保护免受核酸外切酶攻击可以是有用的，因为适体连接到片段的两端。然而，若推断的话，并不清楚适体中非天然的键是否会致使适体在转座酶反应中没有活性。的确，硫代磷酸酯键不是天然的且观察到：含这种键的DNA相较于仅含天然磷酸二酯键的DNA对于酶是效率较低的底物(Ciafre等人,Nucl.Acids Res.,23:20,4134-4142)。

如下文的实施例5中所示，硫代磷酸酯键被少量引入到适体的仅一条链中(转移链)以赋予抗击核酸酶的保护而不会没必要地破坏转座酶活性。出乎意料地发现了：硫代磷酸酯键的组合(例如，适体E8)赋予转座酶反应效率的大幅提高(图18)。

由于仅适体的转移链与DNA片段相连，所以硫代磷酸酯键被引入到该链中，且被来自靶DNA片段的缺口分离的互补适体链不含硫代磷酸酯键。不含硫代磷酸酯键的那些链将不受保护，因为如本文所公开，使这些链不适合PCR扩增是有益的。

在转座酶浓度不同和孵育时间不同的一些实验中，始终能够观察到改善。然而，这种改善多半与针对核酸酶的保护无关。的确，当利用具有相同核苷酸序列但不含硫代磷酸酯键的短适体78时，几乎没有观察到核酸酶降解(图18)。不同于标准适体，适体78及其硫代磷酸酯衍生物E8仅由19bp的双链体组成，所述双链体被转座酶识别、与转座酶结合并且可能大部分被隐藏且被保护免受核酸酶攻击。核酸酶活性可以识别标准适体的单链部分并翻转到它所消化的DNA片段的内部。这种策略将需要大尺寸的蛋白质(例如，转座酶二聚体(MW～102KD))。来自E.coli的固有核酸酶似乎不可能负责DNA降解，因为它们的尺寸小，深入研究了E.coli，E.coli中没有描述这种活性。无论是什么机制，从实际角度来看重要的是，可通过向适体中添加硫代磷酸酯键来大幅提高转座酶反应的效率。

如本文所讨论的，转座酶反应效率提高数倍对于单细胞基因组几乎完全的基因组覆盖度是必需的。本发明的修饰适体允许实现这种提高。为了进一步提高效率，可以采取额外的方法，包括改组、添加或去除硫代磷酸酯键，以及本文所公开的对适体的其它修饰。程序也可以针对微阵列应用进行调整并且提供在Illumina或者其它类型的仪器上测序所必需的标签，这是通过在PCR中或者DNA连接酶反应中添加此类标签来实现的。例如但并非限制性的，用于提供Illumina标签的一些此类适体和PCR引物被展示在图19和20中。

上文公开的适体解决了本领域中对来自少数个细胞(例如，单细胞)的核酸进行测序的需要。单细胞测序有望用于更好地理解、诊断和治疗癌症的一些形式。然而，尽管该领域迅速发展，但存在以下共识：所有方法中都有高错误率且没有一个方法足够好。其中一个问题是：获自单细胞的少量DNA未被直接处理(片段化和标签化)用于测序或微阵列。首先，它在使用高度进行性聚合酶和简并引物的全基因组扩增(WGA)中被扩增以产生更多DNA，然后扩增的DNA才被处理(Zheng等人,J Zhejiang Univ Sci B.2011年1月；12(1):1-11；Hou等人Cell.2013年12月19日；155(7):1492-506)。

普遍接受的是，大多数错误是在WGA步骤中产生的。首先，错误在聚合酶阅读中产生，但甚至更重要的是，基因组的一些区域比其它区域更有效地扩增而一些区域根本不扩增。这就产生了偏向，从而使得基因拷贝数的分析复杂化。更糟糕的是，其导致等位基因漏失。由于这种原因，很少企图由染色体DNA进行单个癌细胞基因组测序。相反，进行癌细胞的转录组的测序或微阵列分析。集中于转录组减轻了等位基因丢失的问题，因为基因往往由多个mRNA拷贝来代表(Lawrence等人Nature.2013年7月11日；499(7457):214-8)。然而，这导致信息大部分是关于癌细胞的蛋白质编码区域，而不是关于基因调控区域，例如启动子、增强子和沉默子。并且，这没有解决本领域中的需要，因为大部分负责复杂性状(例如，对大多数形式的癌症和其它广泛传播的复杂疾病的易感性)的遗传和表观遗传变异位于非编码的调控区域(Mitchison A.Immunogenetics.1997；46(1):46-52；Gaffney等人,GenomeBiology,2012,13:R7,1-15；Knight JC.Clin Sci(Lond).2003年5月；104(5):493-501；Savinkova等人,Biochemistry(Mosc).2009年2月；74(2):117-29；Wang等人,Carcinogenesis.2013年5月；34(5):1012-7；Elahi等人,Biochim Biophys Acta.2009年3月；1792(3):163-72；Ruiz-Narváez EA.Med Hypotheses.2011年5月；76(5):638-42；Zabaleta J.Methods Mol Biol.2012；863:411-35；Susantitaphong等人,Nephron ClinPract.2012；122(3-4):107-13；Itzykson R,Fenaux P.Leukemia.2013年11月19日.doi:10.1038/leu.2013.343]；Vezzoli等人J Transl Med.2011年11月22日；9:201；Martini等人,Diabetes.2013年7月；62(7):2605-12；和Clark SJ.Hum Mol Genet.2007年4月15日；16Spec No 1:R88-95)。

由于常规方法的技术限制，当聚焦于转录组时，与癌症发展和对其它广泛传播的复杂疾病的易感性二者最相关的大量基因调控信息仍然难以获得，因为基因启动子未被测序。转录组测序提供了关于可与疾病相关的转录物的丰度的信息，也被称为表达数量性状位点(eQLTs)。然而，在同一个体中，一种细胞类型与另一种细胞类型的基因表达谱差别很大，且容易得到的细胞(例如，淋巴细胞)表达谱经常没有用。例如，脂肪组织中所有基因表达性状的多于50％与和肥胖有关的临床性状强相关，而在血液中则少于10％(Emillson等人,Nature,2008,452:423-430)。此外，大部分相关细胞(例如，阿尔兹海默病的脑细胞)的活检可能难以进行。虽然知道基因组DNA的直接测序能够解决这些问题，但由于常规单细胞基因组测序技术的现状，所以目前这并不现实。

除了个体癌细胞的基因组测序之外，单细胞测序的另一种应用是非侵入性产前诊断(NIPD)。分离自母亲血液的胎儿的单个有核红细胞的分析有望用于超过十亿美元NIPD市场(Kantak等人,Lab Chip.2014年3月7日；14(5):841-54)。目前，“小细胞数目”技术的最大商业应用是在快速植入前遗传学诊断(PGD)中(Harper等人,Eur J Hum Genet.2013)。

PGD最常由1-2个在胚胎发育第三天的细胞或者由约5个在第五天的细胞(囊胚)进行。最近，囊胚方法越来越受欢迎，因为它更加可靠，即利用来自更多细胞的材料时较少的等位基因漏失问题，在囊胚阶段较少镶嵌现象，且对胚胎损害较小，因为取的是滋养外胚层细胞(胎盘细胞的前身)而非胚胎细胞(Harper和Sengupta.Hum Genet.2012年2月；131(2):175-86)。过去，仅仅使用PCR和FISH技术进行分析(如前所述)，目前转变成微阵列并进一步转变成NGS技术(Yin等人,Biol Reprod.2013年3月21日,88(3):69；和Zhang等人,PLoSOne.2013,8(1):e54236.)。微阵列和NGS方法二者均需要WGA，因为来自1-5个细胞的材料不足以进行分析。然而，WGA不仅仅是使拷贝数变异(CNV)估算复杂化的偏向的主要来源，它还是PGD工作流中时间的主要分配。考虑到PGD的挑战和及时性，需要比WGA更快并且提供比得上或者更好的性能的技术。

这些问题的诱人解决方案是来自单细胞的DNA的直接处理(片段化和标签化)，从而完全避免WGA方法。然而，广泛使用的通过声处理片段化不适合该目的，因为在极低的DNA浓度下，随后难以将寡核苷酸标签连接到片段上。相反，在转座酶方法中，DNA的片段化和标签化在一个步骤中同时发生，这看起来提供了解决方案。除了用一个步骤而非两个步骤之外，转座酶反应基本上是2组分反应，因此固有地比WGA中的3组分连接方法要有效得多。适合在Illumina仪器上测序的来自单细胞的文库可以使用Vibhar转座酶在几分钟内产生。虽然预期这种方法提供更快且更加经济的样品处理，但目前这种方法具有与WGA方法相同的问题，因为在低DNA输入下转座酶反应的效率不足。的确，如以下实施例中所示，利用来自一个至几个细胞的DNA输入时，在标准转座酶反应中仅少数输入DNA材料被处理。因此，为了发展用于NGS和微阵列的样品制备的“无WGA”单细胞方法，需要转座酶反应的效率被提高(即，输出/输入比被提高)。

用于NGS的DNA样品制备包括：转座酶反应中靶DNA的片段化和标签化，随后是片段的PCR扩增。类似地，转座酶可被用在用于基因组畸变的微阵列分析的DNA样品的制备中。在最广泛使用的来自几千个人类细胞的DNA输入(10-50ng DNA)下，单个HiSeq运行提供足够的基因组覆盖度和相对低的重复率(分别超过90％和低于6％)。然而，如果在转座酶反应中直接处理来自单个细胞或者来自几个细胞的DNA而不利用WGA，则基因组覆盖度大幅降低，且重复率相应升高。例如，来自3个人类细胞基因组的DNA输入通常产生仅42％的覆盖度，但72％的重复率。

本文公开的适体允许在低DNA输入下将基于转座酶的DNA制备的性能提高数倍，以至于即使在单细胞输入下也能实现比得上或者更好的测序覆盖度。这种效率提高允许用于NGS和微阵列分析的输入非常低的基因组DNA(例如，来自单个或几个细胞或者个体染色体的样品)的无WGA处理。此外，在较高的基因组DNA和cDNA输入下，它同样导致更好的基因组覆盖度和降低的偏向。

本文所公开的适体也可以用在用于微阵列应用的样品制备中。尽管事实上用于NGS和用于微阵列的样品制备具有可利用转座酶技术使其更容易的共同步骤，但目前转座酶尚未被用在用于微阵列的样品制备中。除了NGS和微阵列之外，本发明的转座子适体还可被用于诱变、基因疗法和产生用于再生医学的多能细胞(Palazzoli等人Geneteca,2010,138(3):285-99)。

D.额外的适体修饰

经修饰的核苷酸的实例包括，例如但不限于，2-氨基嘌呤、2,6-二氨基嘌呤、5-溴dU、脱氧尿苷、反向dT、反向双脱氧-T、双脱氧-C、5-甲基dC、脱氧肌苷、通用碱基例如5-硝基吲哚、2’-O-甲基RNA碱基、异-dC、异-dG、核糖核苷酸、吗啉代、蛋白核苷酸类似物、乙醇酸核苷酸类似物、锁核苷酸类似物、苏糖核苷酸类似物、链终止核苷酸类似物、硫尿苷、假尿苷、二氢尿苷、辫苷、丫苷核苷酸。这些可被掺入或者添加到天然适体序列、经修饰的适体序列(例如，“嵌合体”)或者上述修饰中。

此外，有用的修饰不一定包括经修饰的碱基。例如，它们可以包括无碱基位点；官能团，例如炔烃官能团、叠氮化物官能团例如叠氮化物(NHS酯)；非天然键，例如硫代磷酸酯键；间隔子，例如1’,2’-双脱氧核糖(dSpacer)，己二醇，可光解的(photo-cleavable)间隔子，具有不同碳原子数目的不同长度的间隔子，例如C3间隔子亚磷酰胺，C9间隔子，例如三甘醇间隔子，C18，18原子六-乙二醇间隔子等。此类间隔子可被合并在适体的5'-末端或3'-末端或者内部。此外，本发明的适体的至少一条链可以被磷酸化修饰，即如图1中所示包含在第1位置的5'磷酸，或者包含在相同位置但在互补链上的3'磷酸，或者二者。具有或不具有上述修饰的寡核苷酸可以由一些供应商定制，例如Integrated DNA Technologies(Coralville,Iowa)、TriLink(San Diego,CA)、Eurofins MWG Operon(Huntsville,AL)、GenScript(Piscataway,NJ)。当在本文中使用时，“间隔子”指的是连接两个部分的分子或一组分子。典型的间隔子可包括例如选自亚烷基(碳-碳)、醚、氨基、酰胺、酯、氨基甲酸酯、脲和酮及其组合的那些键。间隔子可包括短的亚烷基部分，其与一种或多种类型的含杂原子的连接键相间或者两侧是所述连接键。非限制性实例包括但不限于--CH₂OCH₂CH₂CH₂--、--CH₂C(O)NHCH₂--、--C(O)OCH₂--、--OC(O)NHCH₂CH₂--、--CH₂CH₂NHCH₂、--CH₂CH₂C(O)CH₂CH₂--、--CH₂CH₂CH₂C(O)NHCH₂CH₂NH--和--CH₂CH₂CH₂C(O)NHCH₂CH₂NHC(O)CH₂CH₂--等。间隔子部分可以是水解稳定的或者可包括可生理水解的或者可酶促降解的连接键(例如，酯连接键)。

在适体的底链上的修饰(图3和4)不需要一定适合被DNA修复酶(例如，聚合酶、激酶和连接酶)识别，因为转座酶在切割靶DNA之后留下缺口且经修饰的适体可例如在缺口修复步骤中被置换，从而产生适合体外和体内应用的双链的未经修饰的DNA。鉴于本文的公开内容，本领域技术人员能够立刻意识到：取决于应用，不同的寡核苷酸序列可以与此类适体相连，例如连接到Illumina芯片上所必需的序列(美国专利申请20120301925)。此外，鉴于本文的公开内容，本领域技术人员能够立刻意识到：可以通过在转座酶活性位点修饰适体序列来修饰转座酶性质和针对具体需要选择具有改善的性质的适体。

除了识别序列区域之外，本发明的适体通常包括至少一个其它区域，该区域可被设计为用于扩增或其它聚合反应的引物结合。引物结合区域可以是双链的或者单链的，并且可以被设计为包括任何合适的引物结合序列。设计引物结合序列和相应的引物是本领域技术人员的常规工作，由实际工作者考虑用于引物结合、延伸和扩增(例如，PCR、多重置换扩增(Lasken RS.Biochem Soc Trans.2009年4月；37(Pt 2):450-3)、基于多重退火和成环的扩增循环(Zong等人,Science.2012年12月21日；338(6114):1622-6.))等的合适序列。

适体可进一步包含一种或多种双链DNA(dsDNA)或单链DNA(ssDNA)序列(在本文中也被称为“标签”)。标签可被包括以允许产生的DNA片段连接到测序芯片(例如，Illumina芯片)上，并允许鉴定靶DNA文库的来源(例如，指标序列(Index sequences))。

在一个方面，适体具有含简并碱基区域(DBR)的标签，其随后可被测序(例如，进行某些处理步骤(例如，扩增和/或富集)之后)。存在于测序运行中的不同DBR序列的数目可用于确定/估计个体多核苷酸分子的数目，该个体多核苷酸分子来源于已在特定序列分析配置或过程中测序的相同原始样品的相同基因组区域。DBR可用于改善许多不同核酸测序应用的分析。例如，DBR使得能够在基因分型测定法中确定无法单独通过读出数目获得的等位基因调用统计值。

DBR是与样品中的其它带标签的多核苷酸相比可具有可变碱基组成或序列(其可被视为“随机的”)的区域。在样品的一群多核苷酸中的不同DBR的数目将取决于DBR中碱基的数目以及可存在于每个位置的不同碱基的潜在数目。例如，一群连接有具有2个碱基位置(其中每个位置可以为A、C、G和T中的任一者)的DBR的多核苷酸将潜在地具有2⁴或16种不同的DBR(AA、AC、AG等)。DBR可因此包含1、2、3、4、5、6、7、8、9、10个或更多个碱基，包括15个或更多个、20个或更多个等，以产生2¹-2²⁰或更多个不同的排列。在某些实施方式中，DBR的长度为3至10个碱基。此外，DBR中的每个位置可具有不同的碱基组成。例如，4个碱基的DBR可具有任一种以下组成：NNNN、NRSN、SWSW、BDHV。还应当注意，在某些实施方式中，DBR中的碱基可因具有可检测的修饰或连接到其上的其它部分而不同。例如，某些下一代测序平台(例如，Pacific Biosciences.TM.)可用于在测序过程中检测碱基中的甲基化差异。因此，DBR中的非甲基化碱基能够与DBR中的甲基化碱基区分。因此，不旨在对DBR的长度或碱基组成进行限制。

DBR可以是单个区域(即，所有核苷酸碱基彼此相邻)或可存在于多核苷酸上的不同位置(即，DBR的碱基被非DBR序列分离，也称为断裂DBR)。例如，DBR可以在多核苷酸上的第一位置的第一适体中具有一个或多个碱基并在相同多核苷酸上的第二位置的第二适体中具有一个或多个碱基(例如，DBR可具有存在于不对称标签化的多核苷酸(即具有不对称适体的多核苷酸)的两端的碱基)。就这一点而言，不旨在进行限制。

生成具有DBR的适体可通过任何适宜的方式实现，例如使用本领域熟知的DNA合成方法。一旦连接到亲本样品中的多核苷酸后，多核苷酸可接受进一步的处理和最终测序。可以进行的处理步骤包括使用者期望的任何处理步骤，例如富集、扩增等等。在测序步骤中，获得了DBR以及多核苷酸的一部分(例如，含有感兴趣的区域)的序列。一旦获得序列，便确定与感兴趣多核苷酸相连的不同DBR的数目。该数目可用于确定或估计测序结果中展示的来自起始亲本样品的不同感兴趣多核苷酸的数目，其中在一些实施方式中，该确定的数目是测序结果中展示的来自起始亲本样品的不同感兴趣多核苷酸的最小数目。

如上所述，本发明的适体特别适合使来自用于NGS或微阵列分析的含有非常少量DNA的样品的DNA片段化。用于这种样品制备早期的常规方法可导致全部对应于一个等位基因的读出的高覆盖度，并且这种情况的发生可比根据二项分布应预期的情况多出许多次。这是由于几个DNA分子(或甚至单个分子)的扩增所致，该扩增导致了源自单条染色体(即，两条二倍体染色体中只有一条实际存在于感兴趣样品中)上基因座位的大量读出。其结果是随覆盖度而变化的误差大大偏离预测的二项误差。使用DBR可提高从具有有限量DNA的样品中进行等位基因调用的置信度。例如，如果来自基因座位中一个等位基因的16个测序读出均包含相同的DBR序列，则所有这些读出可能均来自相同的亲本多核苷酸分子(并因此不能证明为纯合等位基因调用)。然而，如果这16个测序读出每一个均具有不同的DBR序列，则可以更可信地作出纯合调用，因为每个读出均来自不同的亲本多核苷酸分子。

在遗传分析中，DBR结构域在与NGS平台相结合时非常有效，其中许多提供存在于待进行测序的样品中的各个个体多核苷酸的序列数据。与其中对多核苷酸的个体克隆进行单独测序的常规测序方法相比，NGS平台同时提供样品中多个不同多核苷酸的序列。这种差异允许完成样品特异性统计分析，而不受限于必须进行克隆并单独地对每个多核苷酸测序。因此，本文所述的DBR结构域分析与本发明的修饰适体和NGS平台协同，从而提供改进的统计方法，以分析得自合并样品的极大量的序列数据。此外，DBR序列可用于其它分析中，例如异质样品(包括复杂基因组或合并物)中序列变体的统计验证。例如，DBR可用于分析肿瘤样品、微生物样品、环境样品等中的复杂基因组。参见，例如，美国专利8481292，其内容通过引用并入本文中。

为了应用至下一代测序，优选地，大约一半的适体末端用一种类型的标签来标签化而另一半用不同的标签来标签化，以使得转座酶介导的靶DNA片段化之后，一种标签连接在靶DNA片段的一个末端，而另一种类型连接在相对的末端，以允许在两个方向读取DNA片段。发明人已经意识到：通过将两种不同的转座酶识别序列(即，特定组合物中的一些(例如，约50％)适体包含转座酶的第一识别序列，剩余的适体包含不同的第二识别序列)组合，可以实现用于进一步分析的片段的制备的改进的DNA片段化(例如，片段化的随机化得到改进)。识别序列可以是转座酶的天然存在的序列，或可以是为适体提供额外或替代功能的工程改造的序列。

在一些示例性实施方式中，对于要片段化的靶DNA的每个末端，识别序列是不同的。在一些实施方式中，在靶DNA片段末端的两条序列可以是相同或基本相同的，彼此具有至少90％(即，90％-100％)的序列同一性。在一些其他实施方式中，两条序列是不同的，彼此具有小于90％(即，89％或更小，最小约30％)的同一性。但是，优选地，两种识别序列可以被与它们一同使用的转座酶以大约同样的程度识别。为此，可以分别评价对于几种识别序列的转座酶片段化效率，并选择有几乎相同效率的识别序列一起使用。或者，可以将效率较低的适体与效率较高的适体混合，其中后者比前者的用量少。在一些示例性实施方式中，识别序列包含天然序列和经修饰的序列二者，例如图1和图3-5中所示的那些。此外，可以使用一种类型的天然序列或经修饰的识别序列，或者可以同时使用任意组合的两种或更多种天然序列或经修饰的识别序列。本领域技术人员可以使用任何转座酶并容易地辨别它的识别序列，因为已知识别序列以IRR和IRL重复的形式在转座酶基因的侧翼存在。

本领域技术人员会意识到：在寡核苷酸合成期间或通过其它方法，例如使用DNA连接酶，可以容易地将任何核苷酸序列与识别序列相连。这类序列可以为测序引物和PCR引物提供着陆位点以扩增DNA片段，并用于使DNA片段与DNA测序芯片(例如，Illumina芯片)相连的目的。额外的核苷酸序列优选是单链的或大部分单链的，否则转座酶可能会被抑制，因为其会将过量的dsDNA识别为底物。连接的单链延伸也可降低转座酶活性，但程度要低得多，因此优选将连接物的大小保持在最小。为此，有利地使用两种不同的识别序列，这是通过允许引物的着陆位点可以延伸到识别序列的在二者之间不同的部分来实现的(参见，例如，美国专利申请20120301925，其内容通过引用并入本文中)。该设计允许仅使用两种引物进行DNA片段的PCR扩增，相比之下，对于两种适体使用同样的转座酶识别序列的NEXTERA^TM系统使用四种引物。使用两种而非四种引物是相对于现有系统的优势，因为其在PCR扩增中更加简单且更加有效。

为了制造适体，适体被设计为特异性地结合所产生的转座酶。因而，在合成适体之前，必须存在于每个适体上的识别序列是已知的。天然的识别序列经常构成反向重复，所述反向重复可以在转座酶开放阅读框上游的50-200个核苷酸处或紧邻下游找到，且本领域技术人员能够在基因组序列中鉴定出它们。适体可以使用任何合适的技术制作，包括化学合成。适体包括至少一个双链的部分。因而，在使用前，优选使两个互补的部分在杂交发生的条件下暴露于彼此，以产生双链部分。

在一些实施方式中，本发明的适体包含特异性结合对的成员。该成员可以与适体的核酸共价结合并允许与特异性结合对的另一成员特异性结合。在一些示例性实施方式中，特异性结合对的另一成员可以与固体基质相连。以这种方法，适体可以与固体基质特异性结合，这便于例如纯化相应的转座酶以及使用适体-转座酶复合体产生结合于固体基质的转座酶切割产物(例如，用于扩增/表征的DNA片段)。一般来说，优选通过适体的一条链的5’末端连接结合对成员，例如生物素。然而，结合对成员还可以连接到远离DNA插入物的3’末端，或3’末端与5’末端二者，以避免抑制转座酶复合体的活性。

如上文所提到和下文所例示的，本发明的合成适体与已知功能的转座酶适体(天然的或经修饰的)在大部分保守位点不同，但出乎意料地保留了活性。甚至更加令人惊奇地，它们中的一些具有甚至更高的活性，从而导致当用于NGS时提高的随机性或降低的重复率或者二者。

一些实施方式中显示：赋予所选的转座酶不同性质的多个有用适体可通过修饰天然适体中保守的第1位置来产生。本领域技术人员能够利用此来产生多个用于所选转座酶的适体，并根据转座酶应用和根据可能存在于样品中的杂质应用多个适体来优化转座酶性质，例如选择对于未纯化血清或半纯化血液样品、用于单细胞基因组测序、用于来自福尔马林固定的石蜡包埋载片的DNA的测序等的最佳适体。

对于许多应用，尤其是对于低DNA输入反应条件，例如当需要分析具有低DNA浓度的样品时，提高的活性是有用的。例如，为了理解癌症发展的机制和抗癌药物的研发，对单细胞基因组测序特别有兴趣。公认的是，对极少量DNA进行测序(从少至等价于来自少至单个人类细胞的DNA开始，并利用尽可能少的扩增循环)的能力对于个体化药物、伴随诊断的发展和对癌症的整体理解是非常有益的(Navin和Hicks,Genome Medicine 2011,3:31)。此外，对于某些应用，例如对于对分离的染色体或小基因组进行测序，期望少于等价于一个人类细胞的DNA输入(Giorgi等人,PLoS One.2013；8(2):e57994.doi:10.1371/journal.pone.0057994)。

低DNA输入的一个主要应用是负责转移活性的单分离癌细胞，而非它们与肿瘤中的“过路细胞”的混合物的基因组测序。这应该使得能够更好地理解癌症并导致改善的癌症治疗和诊断。对个体细胞基因组进行测序是必需的，因为相对少的肿瘤细胞负责癌症发展及其在患者中的传播(转移)。大多数癌细胞仅仅是“过路细胞”，肿瘤样品的分析往往不能给出关于引起癌症的突变的答案，因为在由肿瘤细胞混合物产生的文库中，背景“过路细胞”基因组主要被测序。目前的单细胞基因组测序方法通常需要全基因组扩增，随后由扩增的DNA制备样品。使用这种方法，可以由单个细胞产生大(微克)量DNA，并将其处理用于NGS。然而，由于选择性扩增，这导致单细胞基因组的仅部分序列覆盖度。所以，需要从单细胞DNA直接产生用于NGS的文库，并且期望能够处理(片段化和标签化)低DNA浓度的极少量DNA的更高活性的转座酶。

另一个应用是来自人血的游离DNA的分析。从肿瘤中分离负责转移的癌细胞，这些癌细胞易碎且它们的DNA常常存在于血液中，但常常处于低浓度。单独的应用是孕妇血液中游离DNA的分析。这种DNA可以来源于胎儿且其分析对于遗传性疾病或对复杂疾病的易感性的诊断是有价值的(Papageorgiou和Patsalis,BMC Med.2013,11(1):56)。此外，低输入方法可被用于检测人血、食物或环境样品中的致病因子。另一个应用涉及理解复杂的生态系统。不利用单细胞NGS技术时，仅可以对人类微生物组或环境样品中的微生物进行部分分析，因为许多微生物目前不能在其环境之外被培养(Fodor等人,PLoS One.2012；7(7):e41294.doi:10.1371)。

转座酶-适体复合体和相关组合物

本发明还提供上述适体和转座酶的复合体以及包含所述复合体的组合物。

多种转座酶可被用于制造复合体。它们可以是在体外具有转座酶活性的任何蛋白质，例如天然存在的转座酶或者重组转座酶。转座酶可以是至少某种程度上从其天然环境(即，细胞核或细胞质)中分离或纯化。优选地，转座酶是重组产生的，且优选地，是从重组宿主环境(即，细胞核或细胞质)中分离或纯化的。最优选地，在包含于本发明的组合物中之前，去除其它细胞组分，转座酶被纯化至90％或更高的水平。优选地，转座酶是约95％或更高的纯度水平，例如约98％纯，约99％纯，或高于99％纯。基于用于测定纯度的常用技术，例如通过考马斯亮蓝染色、银染、HPLC、质谱法或用于检测蛋白样品中杂质的其它灵敏技术来测定纯度。DNA杂质也可以被评估，例如使用PCR。在一些示例性实施方式中，转座酶是具有“剪贴”转座机制的转座酶(Yuan和Wessler,Proc Natl Acad Sci U S A.2011年5月10日；108(19):7884-9)，并且是转座酶的IS4家族的成员，例如在Vibrio种包括但不限于Vibrioharveyi中天然发现的。在一些实施方式中，转座酶不是Tn5转座酶或者来源于Tn5转座酶的转座酶，例如通过野生型Tn5转座酶的诱变。

当转座酶处于不同于其在自然界中存在的环境或其产生的环境的环境中时，认为该转座酶是分离或纯化的。例如，转座酶可以处于这样的环境，该环境中某些或所有其它生物分子从产生这些的细胞中去除。如果转座酶是在并非天然发现所述转座酶的细胞中产生的，则其是重组的，而如果它们具有与它们所衍生或来源的转座酶的天然存在的序列不同的氨基酸序列，则它们是经修饰的。例如，根据本发明的转座酶可以具有天然存在的转座酶(野生型)的氨基酸序列，或具有经修饰的转座酶的氨基酸序列，所述经修饰的转座酶的一个或多个天然存在的氨基酸被缺失或被替换为不同的氨基酸，或者所述经修饰的转座酶可以具有添加至野生型序列的氨基酸序列。此外，天然存在的氨基酸序列可以通过在序列中的一个或多个位点添加一个或多个氨基酸而被打断。在一些实施方式中，所述转座酶是嵌合蛋白质，即它们是包括来自两种或更多种不同转座酶的氨基酸序列的混合物的蛋白质。

复合体可包含一种或多种转座酶分子和一种或多种适体。在包含至少两种转座酶的复合体中，转座酶中的至少两种与核酸或寡核苷酸适体相结合。在复合体包含两种转座酶的一些实施方式中，复合体可以表现出类似于联合复合体(synaptic complex)的形式。更高阶的复合物也是可以的，例如包含四种转座酶、八种转座酶的复合体，或不同大小数目的复合体的混合物。在包含多于两种转座酶的一些复合体中，并非所有转座酶都需要结合寡核苷酸。相反，两种转座酶是结合的是足够的，虽然可以结合额外的寡核苷酸。通常，当两种或更多种转座酶分子存在于复合体中时，复合体中使用同一种转座酶。然而，在一些实施方式中，优选在一个复合体中使用两种或更多种不同的转座酶。例如，复合体中的一种或多种转座酶分子可以通过对其氨基酸序列的修饰而部分或完全地失活，可以利用有活性的与部分或完全失活的转座酶分子的混合物来调节有活性的亚基之间的距离，由此调节复合体所产生的DNA片段的平均大小。同样地，可以使用具有不同识别序列的不同复合体，例如包含具有对高GC序列的识别序列的转座酶和另一种具有对低GC含量的序列的识别序列的转座酶的复合体。通过混合识别序列中具有不同GC和AT含量的转座酶，允许为靶DNA序列定制片段化模式。虽然可以使用一种类型的寡核苷酸适体使DNA片段化，但是在片段化之后接着对片段化的DNA进行扩增和测序的一些实施方式中，优选使用至少两种寡核苷酸适体，以便于DNA片段的PCR扩增，并为用于从两个方向测序DNA片段的不同DNA测序引物提供不同的着陆位点。可以使用一种或多种转座酶识别序列来设计寡核苷酸，因为不像某些限制性内切核酸酶，转座酶不一定限于一种精确的识别序列。

转座酶可以存在于组合物中，所述组合物除了所述转座酶之外还包含至少一种其它物质。组合物中存在的物质的数目和类型并无特别限制。一般而言，液体组合物包含水和复合体。通常地，存在一种或多种其它物质，例如盐、离子、缓冲性化合物、金属或一种或多种生物分子。一般而言，组合物中可以包括任何数目的物质。多种额外组分的身份、数目和量通常是由组合物的应用或使得特定转座酶复合体获得最优活性的具体需求而决定的。

在某些实施方式中，组合物包含两种或更多种不同的转座酶。其它物质的性质和数目并无特别限制。在许多实施方式中，组合物至少包含水，但某些实施方式涉及冷冻的组合物或干燥的(例如，冻干的)组合物。在一些示例性实施方式中，组合物包含处于细胞裂解物中或DNA片段化反应混合物中的转座酶，其在一些实施方式中补充有EDTA和/或寡核苷酸。EDTA螯合二价阳离子，从而抑制宿主细胞核酸酶，否则核酸酶(其活性通常需要Mg²⁺离子)会降解寡核苷酸。事实上转座酶-寡核苷酸复合体的形成无需二价阳离子，这使得能够向粗制细胞裂解物中添加EDTA或其它核酸酶抑制剂而不破坏复合体的形成或维持。

在一些实施方式中，本发明的这一方面的组合物包含与处于产生转座酶(而且在细胞裂解之前或之后已向其添加了适体)的细胞的细胞裂解物中的转座酶或纯化的转座酶相结合的适体。纯化的转座酶-适体复合体组合物，无论复合体是在溶液中游离或者与固体基质结合，也可以被包含在酶促反应(例如DNA切割/片段化反应)组合物中。可存在于此类组合物中的非限制性的示例性物质包括：待被转座酶复合体切割的靶DNA；用于靶DNA片段聚合的寡核苷酸引物；一种或多种DNA聚合酶；限制性内切核酸酶；DNA修饰酶；多糖；脂质膜；纳米颗粒；珠子，包括磁珠；转染试剂；和去污剂。

本发明的转座酶-适体复合体可以连接到固体基质或支持物上。术语“固体基质”和“固体支持物”依照它们在本领域的含义被使用。因此，它们是本领域已知的在纯化和/或酶促反应的条件下适合结合和保留核酸的任何材料。本领域技术人员熟知适合用作固体基质的材料。可用于本发明中的固体基质的非限制性实例包括：尼龙，硅酸钇(YSi)和聚乙烯甲苯(PVT)珠子，包括磁珠(参见，例如，Dorgan等人,Journal of Magnetism and MagneticMaterials,第194卷:第69-75页,1999)；尼龙，硝化纤维素或PVDF膜；和塑料表面，例如包含聚苯乙烯或聚丙烯的那些，后者发现在用于核酸的PCR扩增的板或孔上，例如包覆链霉亲和素的STREP Thermo-Fast PCR板(Abgene,Surrey,英国)。固体支持物可以被化学修饰，例如胺化(伯胺或者仲胺)或者羧化，以便于连接具体结合对。

复合体连接到固体支持物上可以通过复合体的适体或转座酶部分来实现。在后一种情况下，转座酶部分可以带有允许连接到固体支持物的标签。例如，生物素标签可以通过C-末端或N-末端链霉亲和素-结合肽连接到重组转座酶上(Keefe等人,Protein ExprPurif.,第23卷,第3期,第440-446页,2001；Duffy等人,Anal Biochem.,第262卷,第2期,第122-128页,1998)且复合体可以连接到包覆链霉亲和素的珠子或板上。然而，转座酶直接连接到固体支持物上可在空间上阻碍转座酶分子的移动，而转座酶分子的移动对于其酶活性很重要。此外，带有肽标签的融合蛋白往往具有比天然蛋白更差的活性，因为这种标签可干扰蛋白折叠。因此，发明人想出了一种优良的解决方案：通过转座酶-适体复合体的适体部分连接转座酶-适体复合体同时使用天然转座酶蛋白质。存在许多可以被本领域技术人员使用的此类标签。依照本发明可以使用任何合适的特异性结合对，其中所述对的至少一个成员被固定在固体支持物上，且技术人员可以基于任何考虑自由选择合适的对。结合对的非排他性列表包括：抗生物素蛋白或链霉亲和素和生物素；纳米标签和链霉亲和素(参见，例如，Lamla和Erdmann,Protein Expr Purif.第33卷,第1期,第39-47页,2004)，抗体(或其抗原结合部分)和它特异性结合的抗原/表位，例如FLAG标签的Myc；酶-底物对，例如谷胱甘肽转移酶和还原型谷胱甘肽；多组氨酸和镍基树脂；适配子及其特异性靶分子，以及Si-标签和二氧化硅颗粒(参见，例如，Motomura等人,Protein Expr Purif.,第77卷,第2期,第173-177页,2011)。

特异性结合对成员可以与适体共价连接，优选地在其5’端。连接可以通过任何已知的用于将物质与核酸化学连接的合适技术来进行。唯一的限制是特异性结合对成员不应干扰适体与转座酶的结合、在结合于固体基质时消除转座酶的活性、或妨碍结合于固体基质的DNA片段在PCR中的扩增。为此，可以在特异性结合对成员与识别序列之间提供接头。参见，例如，US20120301925和共同待决的美国专利申请号13/960,837，其内容通过引用并入本文中。

使用结合于固体支持物的转座酶复合体的一个优点来源于一个适体与固体支持物结合这一事实。因此，当转座酶复合体切割靶DNA时，靶DNA通过适体被捕获在固体支持物上。反应的结果是用靶标替代酶，这是产生可以容易地从反应组分中纯化的DNA片段的良好方法。它还是产生以下DNA片段的良好方法，所述DNA片段可以经受多种反应而无需多步骤纯化DNA片段，因为它们可以通过简单的清洗而容易被纯化。

本发明还提供制造上述适体-转座酶复合体的方法。一般而言，所述方法包括：将一种或多种转座酶与含有转座酶的识别序列的适体寡核苷酸混合，和允许所述适体结合所述转座酶以形成复合体。所述“允许”的步骤包括提供所述的作用发生的条件。这类条件可以是任何合适的条件，包括但不限于在从大约0℃到大约室温(即，大约21℃-25℃)下孵育转座酶和适体寡核苷酸几个小时(例如，5-14小时)。可以使用更高的温度和更短的孵育时间，但是是次优选的，因为转座酶活性可能损失。所述方法可以进一步包括产生转座酶、适体或两者。当所述方法包括产生转座酶时，该方法包括在裂解宿主细胞前在该细胞中表达转座酶。转座酶可以在其被天然发现的细胞中表达，或者可以在不是其天然宿主细胞的宿主细胞中重组地表达。本领域知晓多种用于重组产生蛋白质的宿主细胞，例如，细菌、酵母、植物、昆虫或哺乳动物细胞，且操作者自由选择任何合适的宿主细胞。在一些示例性实施方式中，使用E.coli细胞作为宿主细胞来重组产生转座酶。

用途

上文所述的适体和适体-转座酶复合体具有许多用途。在这些用途中，本文件例示了转座酶复合体用于制备将在进一步分析程序(例如，高通量测序)中使用的片段化DNA的制备和用于将基因递送到植物和动物细胞的用途。

A.DNA片段化和相关用途

上文所述的适体和适体-转座酶复合体可被用于使DNA分子(例如，基因组DNA)片段化。片段化的DNA可用于许多目的，包括无细胞扩增(例如，PCR)或高通量测序。

在一个方面，提供了用适体使DNA片段化，并且优选地标签化所述DNA的方法。一般而言，所述方法包括：组合要片段化的靶DNA与可以结合于固体基质的转座酶复合体，并在适合转座酶复合体切割DNA的条件下孵育所述组合，以生成结合于固体基质的片段化靶DNA。然后，结合固体基质的DNA片段可以用于多种分析反应中。在一些实施方式中，将反应混合物中未结合于固体基质的组分去除，例如通过本领域已知的任何合适的清洗步骤。在一些实施方式中，结合于固体基质的DNA片段在产生后立即使用，没有额外的纯化或制备。例如，可以提供一次混合的(one-mix)DNA片段化和扩增混合物，其中使靶DNA在允许DNA片段化的条件下与结合于固体基质的转座酶复合体组合以产生结合于固体基质的DNA片段，然后使所述混合物处于允许结合的DNA片段无细胞扩增的条件下，例如通过PCR。

在一个实施方式中，提供了用于产生DNA片段文库的体外方法。所述方法包括：在用于进行转座反应的条件下，将转座子复合体与感兴趣的靶DNA一起孵育，所述转座子复合体包括本发明的适体和相应的转座酶。转座反应导致靶DNA的片段化，并将转座子末端整合入片段化的靶DNA的5’末端。

在一个实施方式中，所述方法还包括以下步骤：在使用片段化的靶DNA的5’末端中的/与转座子末端互补的第一和第二寡核苷酸引物的扩增反应中，扩增片段化的靶DNA。第一和第二引物任选地包含5’标签，5’标签将在下文中进一步描述。在另一个实施方式中，所述方法还包括以下步骤：使片段化的靶DNA的5’末端包含转座子末端的靶DNA片段与具有5’-3’外切核酸酶或链置换活性的DNA聚合酶接触，以至于由靶DNA片段产生完全双链的DNA分子。该步骤被用来填补在转座反应的转座产物中产生的缺口。缺口长度是特定转座酶的特征。为了制备用于下游步骤(例如PCR)的转座产物，所述方法还包括以下步骤：使完全双链的DNA分子变性以产生用于扩增反应的单链DNA。

如果转座子末端序列包含工程切割位点，则所述方法可包括下述另外的步骤：将片段化的靶DNA与对切割位点特异的酶一起孵育，以使得整合到片段化的靶DNA的转座子末端在切割位点被切割。切割酶可以是N-糖基化酶或者限制酶，分别例如尿嘧啶-N-糖基化酶或者甲基化特异性限制酶。

在一个实施方式中，所述方法中使用的第一和/或第二PCR引物的5’标签包括下组中的一个或多个：扩增标签、测序标签和/或检测标签。扩增标签是这样的核酸序列，所述核酸序列提供与将在下一轮扩增中使用的寡核苷酸引物互补的特异性序列。例如，该序列可被用来便于所获得核酸的扩增。测序标签提供这样的核酸序列，所述核酸序列允许使用获自扩增反应的扩增的DNA片段作为下一代测序的模板。例如，测序标签可以为在固相上的杂交测序提供退火位点。这种测序标签可以是Life Technologies离子激流(ION TORRENT)测序标签,Roche 454A和454B测序标签、Applied Biosystems SOLiD^TM测序标签、ILLUMINA^TMSOLEXA^TM测序标签、Pacific Biosciences'SMRT^TM测序标签、Pollonator Polony测序标签和Complete Genomics测序标签。另一方面，检测标签允许检测和监控中间产物。检测标签可以含有便于检测获自扩增步骤的核酸的序列或可检测的化学或生物化学部分。检测标签的实例包括特异性核酸序列、荧光和化学发光染料、绿色荧光蛋白和在底物存在的情况下可检测的酶，例如碱性磷酸酶和NBT加BCIP，或者过氧化物酶和合适的底物。通过使用不同的检测标签(例如，条码)，来自多个样品的序列可以在同一仪器运行中被测序并通过检测标签的序列被鉴定。实例是TruSeq DNA样品制备试剂盒中的Illumina's指示序列，或者Life Technologies'SOLiD^TM DNA条码试剂盒中的分子条码。

当用于使DNA片段化时，根据本发明的适体优选地存在于由至少两个转座酶分子构成的复合体中，其中每个复合体中至少两个转座酶通过化学键与具有适体的DNA寡核苷酸相关联，所述DNA寡核苷酸至少部分是双链的。在一些优选的实施方式中，复合体包括两个转座酶分子，每个通过适体结合。在转座酶复合体内，每个转座酶可以是相同的，或者具有相同的DNA识别序列。或者，如果转座酶能够识别区别几个核苷酸的序列，则识别序列可以不同(参见，例如，US20120301925和美国专利号13/960,837)。此外，二者的身份和/或识别序列可以不同。当两个转座酶具有不同的识别序列时，适当地设计适体以使得每个转座酶都能结合适体。在一个实施方式中，所使用的转座系统基于Vibrio种(例如，Vibrioharveyi)的转座酶。对于该方法，可以在US20120301925中所述的条件下在体外组装稳定但无催化活性的Vibrio harveyi转座复合体。

适体可以在适体的dsDNA区域化学结合于复合体的转座酶，所述dsDNA区域包括转座酶的识别序列。特定复合体中的适体可以但不一定包含特定转座酶的单个识别序列。在一些实施方式中，适体可以包括同一转座酶的两个或更多个识别序列。或者，当复合体中有两个不同的转座酶，且每个转座酶具有不同的识别序列时，复合体的一个适体具有其中一个转座酶的识别序列，且另一个适体具有另一个转座酶的识别序列。

当用于使DNA分子片段化时，选择特定范围的DNA输入的转座酶负载很重要。例如，人血或白血球计数中游离DNA的浓度在不同患者中可显著变化。因此，选择能够覆盖一定范围的指定浓度的转座酶-适体负载将允许用于NGS的自动化样品处理而无需之前的DNA浓度测量和调节。选择更合适的适体不限于仅仅不同的DNA输入。取决于具体需要，可以对许多参数进行选择/筛选。例如，可以对处理原始的、半纯化或未纯化的DNA样品(例如，来自土壤、来自血液或者其它体液或组织)的能力进行选择。在另一方面，可以对以下能力进行选择：处理可能已经受损(即，由于暴露于要素而部分降解)的样品，即，年代久远的和法医样品，或者如同FFPE载片情况下的样品制备技术和储存(Fortes等人,Bioessays.2013年8月,35(8):690-5；Sah等人,Genome Med.2013年8月30日；5(8):77)。例如，选择降解样品中较小尺寸的转座酶生成片段时，可以使用以下实施例中描述的适体8。

配对末端测序(Illumina)和离子激流(Ion Torrent)(Life Sciences)在NGS平台中最广泛地使用。用于任一平台的样品可以通过使用声处理的DNA片段化和随后的适体连接，或者通过在同一反应混合物中在几分钟内同时进行DNA片段化和适体连接的转座酶方法来制备。这些方法有利有弊；声处理实现了更随机的DNA片段化，但其比转座酶方法要费力、耗时和昂贵得多。转座酶方法要快得多且目前比较便宜。然而，DNA片段化不太随机，即它具有偏向，从而导致某些区域中较多读出和较好的基因组覆盖度，但其它区域中较少，这往往表现为高1-3％的重复率和相应地更多的测序工作来实现相同的整体覆盖度。鉴于利用转座酶方法时会节省许多倍的时间、劳动、设备经费并考虑到样品制备构成全部测序成本的约50％，这看起来损失不大。尽管如此，仍然非常期望降低重复率。

如本文所公开，不同适体赋予不同的重复率。如图11中所示，相较于第一个位置具有天然CG对的标准适体1，适体9和5赋予显著更低的重复率；相较于适体1，适体6和8赋予更高重复率且适体7和10赋予大约相同的重复率。令人惊讶地，适体的混合物赋予比任何适体都低得多的重复率(图11)。可能的解释是：负载不同适体的转座酶偏向于靶DNA上的不同位置。更容易被转座酶识别的这些位置被称为“热点”(Berg等人,Genetics.1983,105(4):813-28)。这些热点是重复的主要原因，因为热点区域被更频繁地测序。然而，不同适体赋予不同的热点。因为热点因不同适体而异，所以应用负载不同适体的转座酶混合物使热点随机化并降低了重复率。此外，选择单独赋予低重复率的适体的混合物能够更进一步地降低重复率。负载不同适体的转座酶负载的其它性质也不同，例如不同的AT漏失率(图12)。

B.与低细胞数测序和微阵列有关的用途

如上所述，本文公开的适体可被用于制备微阵列中所用的样品。微阵列技术被用于大规模基因型分析、基因表达谱、比较基因组杂交、DNA测序、基因发掘、途径重建和疾病诊断(Dufva M.Methods Mol Biol.2009；529:1-22；Gibriel AA.Brief FunctGenomics.2012年7月；11(4):311-8)。尽管在该领域中有不可否认的优点，但在临床环境中的应用仍然限于在几个高度专业化的实验室中使用传统微阵列技术(Guarnaccia等人,Genomics.2014pii:S0888-7543(14))。主要原因是微阵列技术的复杂性，其适合研究实验室但不适合临床实验室，如上所述。

用于微阵列的DNA样品制备一般包括：(i)DNA片段化，(ii)DNA扩增(任选的并取决于起始材料的量)，和(iii)用荧光团标记DNA以允许检测与固定在固体支持物上的DNA探针杂交的样品。参照和主题样品可以分开处理并且用不同荧光团标记以允许在样品之间进行比较(Agilent基于寡核苷酸阵列的CGH用于基因组DNA分析.流程版本7.2 2012年7月)。一般而言，可以利用限制性内切核酸酶消化或者热DNA片段化来使用于微阵列的DNA样品片段化。在这些常规方法中，内切核酸酶消化提供更好的表现，但它约需2小时20分钟来完成。相比之下，在95℃下的DNA片段化在仅4分钟内便可完成。然而，它往往不像限制性核酸酶消化那样强烈并且不适合SNP分析应用，例如SurePrint G3CGH+SNP。

如本文所公开的，本发明提供了在所有3个阶段的显著改善。更具体地，在第一个阶段，转座酶使DNA片段化为特定的尺寸(200-500bp，即对于Agilent阵列是理想的)同时提供确定的19bp标签(图21A)。在扩增阶段，与在目前的Agilent流程和其它WGA方法中不同，使用确定的19bp引物而非可靠性低得多的随机引物(图21B)。最后，在标记步骤中，实现了快得多的标记，因为使用了相同的确定引物而非随机引物(图21C)。

如以下的实施例6中所示，可以使用转座酶-寡核苷酸复合体将样品DNA片段化，然后可以用寡核苷酸标签使DNA片段的两端带上标签。可以使用寡核苷酸标签并利用与标签互补的引物来扩增DNA片段，或者可以使用寡核苷酸标签作为与标签互补的引物的着陆位点且引物在使用包含至少一种用荧光团标记的dNTP的dNTP混合物的聚合酶反应中延伸。

取决于DNA输入，反应可以耗费短至仅5-20分钟。更重要的是，寡核苷酸标签与所产生的DNA片段的每个末端相连(图21A)。如实施例6中所示，没有观察到DNA损伤，因为反应在约中性pH、45℃下进行短时间。利用转座酶方法，产生了对于Agilent阵列是理想尺寸的DNA片段(Agilent基于寡核苷酸阵列的CGH用于基因组DNA分析.流程版本7.22012年7月)。如图22中所示，在16pg-200ng范围内的DNA输入下，常规产生200-500b.p.之间的理想片段长度。

片段化的DNA可以经受扩增，这是任选的。换言之，如果对于1-包装(pack)、2-包装或4-包装Agilent微阵列，gDNA的量少于0.5ug或者对于8-包装微阵列，gDNA的量少于0.2ug，则需要扩增。在以下的实施例6中，利用PCR进行DNA扩增，其中使用与在转座酶反应中连接到DNA片段末端的标签互补的引物(图21B)。例如但非限制性的，如果片段用含硫代磷酸酯的寡核苷酸5’-A*G*A*T*G*T*G*A*T*CAAGAGACA*G-3’(SEQ ID NO.:95)标签化，其中所述寡核苷酸在具有其磷酸二酯互补物的双链体中，则利用引物7 5’-AGATGTGATCAAGAGACAG-3’(SEQ ID NO.:93,图21B)扩增片段。PCR循环数取决于起始DNA的量。

许多热稳定的DNA聚合酶和聚合酶组合物可以用于该目的，实例包括Taq、Taq2000、Pfu、PfuUltra、PicoMaxx和Herculase。或者，可以使用高度进行性聚合酶(例如，Bst或Phi29)进行扩增。通过使用本发明的确定引物(例如引物7)代替现有技术的随机引物，可以实现快得多且质量更好的扩增。利用确定引物时获得了较好的质量(较少偏向)，因为随机引物是全基因组扩增(WGA)方法中产生的偏向的主要原因。此外，由随机引物的引发效率低，这是由于到着陆位点的6-mer引物的相对浓度低，因为有4096种六聚体组合。其效率低的另一个原因是：反应温度比随机引物Tm高～30℃(Agilent基于寡核苷酸阵列的CGH用于基因组DNA分析.流程版本7.2 2012年7月)。表面上看来，后一个问题可以通过降低反应温度来解决，但这样的话温度变得对酶促反应是次优的。因此，使用本发明的确定引物不仅允许降低扩增偏向，而且允许样品的更快处理，因为反应条件是最优的。

微阵列样品制备中的第三个步骤是DNA标记。改善DNA标记的步骤的基本原理与改善DNA扩增步骤的基本原理相同，都是：与现有技术的随机引物相反，在本发明中使用确定引物。一般而言，利用花菁3-dUTP标记参照样品且利用花菁5-dUTP标记试验样品(Agilent基于寡核苷酸阵列的CGH用于基因组DNA分析.流程版本7.2 2012年7月)。E.coli DNA聚合酶的Exo(-)Klenow片段与随机引物组合使用。标记反应需要约2个小时的孵育，主要是因为随机引物的效率低。利用本文所公开的确定引物能够将反应时间缩短至几分钟，因为通过聚合酶I的碱基对合成速率平均在10-20个核苷酸/秒之间。利用确定引物时，与200-500个核苷酸的DNA片段的3’末端(图21C)牢固退火约10分钟对标记反应是足够的。由于聚合酶I的速率相对低且解离率高，所以本领域技术人员可以选择具有更好进行性的较快的酶以进一步减少时间(Anderson等人,Incorporation of reporter-labeled nucleotides byDNA polymerases.2005,BioTechniques 38:257-264)。在PCR反应中标记也是一种选择，例如使用Taq、Vent外-或Pfu外-聚合酶。

简而言之，本文公开的适体和方法允许实现微阵列样品制备的显著性能改善。在DNA片段化步骤中实现了改善的质量，对于低DNA输入尤其如此，因为使用限制性内切核酸酶的通常优选的常规方法在低输入时不能实行。虽然热DNA片段化比限制性内切核酸酶更适合低输入，但其损伤DNA且不适合SNP应用。此外，在扩增阶段实现了质量的显著改进(较少的文库偏向)，因为没有使用随机引物。还在所有3个步骤中实现了效率提高和时间降低。如上所述，在DNA片段化步骤中，常规的限制性内切核酸酶消化通常耗费约2小时，而转座酶方法耗费约5-20分钟(取决于DNA输入)；在利用50ng DNA输入的DNA扩增步骤中，常规的WGA/PCR耗费约3小时，而转座酶-PCR方法耗费约1小时；在标记步骤中，常规的目前的随机引物法耗费2小时，而转座酶限定的引物法耗费约10分钟。节省的总时间可以多达约4-5小时或者更多。

本发明的适体允许降低用于微阵列的DNA样品制备的复杂性并且允许快得多的样品处理和改善的性能。相较于标准流程(例如，Agilent基于寡核苷酸阵列的CGH用于基因组DNA分析样品制备流程)，使用这种方法能够提高效率，将样品制备的时间减少几个小时，并且减少偏向。如上所述，这些对于SNP分析、拷贝数变异和植入前诊断中的单细胞或低细胞数应用也很重要。

C.核酸递送

转座酶被良好建立为将基因递送到真核细胞中的工具，所述真核细胞例如，哺乳动物(Suganuma等人,Biol Reprod.2005年12月；73(6):1157-63)、昆虫(Rowan等人,InsectBiochem Mol Biol.2004年7月；34(7):695-705.)和植物(Wu等人,Plant J.2011ct；68(1):186-200；Wu等人,Plant Mol Biol.2011年9月；77(1-2):117-27)。还参见美国专利Nos.8283518和8227432。本发明的适体和适体-转座酶复合体可被包含在核酸递送载剂中以将核酸(例如，基因)递送到植物和动物细胞中用于治疗疾病、生产有用的蛋白质以及产生遗传修饰的植物和动物。

典型的转座酶基因递送系统不包含转座体，而是包含两个质粒，一个编码与启动子可操作地连接的感兴趣基因的供体质粒，和另一个编码转座酶的质粒。参见，例如，Meir和Wu,MChang Gung Med J.2011年11-12月；34(6):565-79；Yusa等人,Proc.Natl.Acad.Sci.USA,第108卷,第4期,1531-1536,2011；Germon等人,Genetic,V第173卷,第3期:265-276,2009；De Silva等人,Human Gene Therapy,21:1603-1613,2010)。在供体质粒中，感兴趣的基因和启动子的侧翼是相对于彼此倒置的转座酶识别序列。在辅助质粒中，编码转座酶的序列与启动子可操作地连接。共转染到真核宿主细胞的细胞质中以后，一些辅助质粒到达细胞核，转座酶基因可以在细胞核中转录为mRNA，mRNA然后可以被转运到细胞质中并翻译成转座酶蛋白质。转座酶与供体质粒DNA中的转座酶识别序列结合，切除额外的质粒DNA序列，并与侧翼是识别序列的感兴趣基因形成复合体(即，转座体)。接下来，复合体被转运到细胞核中，其可以在此处作用于基因组DNA并整合入与基因组DNA。

于2013年3月13日递交的美国申请61/779,623中描述了替代性的基于转座酶的基因递送系统，该申请的内容被整体并入本文中。这种替代系统大大改善了到植物和动物细胞的基因递送。替代系统的核心包括这样的复合体，所述复合体包含与靶元件可逆地或者可释放地连接的转座体(即，至少一种转座酶与具有两个转座酶结合位点的核酸相结合)，所述靶元件使得转座体靶向含预选择DNA的靶细胞器(例如，细胞核或线粒体)或者感兴趣的宿主细胞。在使用中，复合体被递送到感兴趣的细胞中，被细胞摄取，并在细胞内被转运到含预选择DNA的细胞器中。一旦在含预选择DNA的细胞器内部，转座体和靶元件通常分开，且转座体将核酸插入宿主细胞的DNA内。

本发明的适体和适体-转座酶复合体可被用在常规系统和替代系统中。这些系统和相关的基因递送方法可被用于通过例如于2013年3月13日递交的美国申请61/779,623中所述的方法将核酸插入到基因组DNA或含预选择DNA的细胞器的DNA中。

考虑到这些用途，本发明的适体和适体-转座酶复合体可被用在治疗遭受或者很可能发展疾病或病症的对象的方法中。所述方法可以是治疗遭受疾病或病症的对象的治疗性方法。或者，所述方法可以是治疗怀疑将来很可能发展疾病或病症的对象的预防方法。在另一些实施方式中，所述方法是预防对象的疾病或病症的方法，例如通过DNA疫苗。通过将编码期望基因并且在某些控制元件下的核酸递送到对象的细胞中，某些蛋白质或核酸可以在细胞中表达，或者，某些蛋白质或核酸的表达可以减低或消除，从而达到治疗对象的目的。

递送具有感兴趣序列的核酸的能力还可以用于产生转基因非人动物和植物。这种转基因非人动物和植物可具有一种或多种期望的表型特征，包括对某些病毒或细菌免疫、耐受某些药物或毒素、抗旱性、蛋白质-脂肪比提高、营养物产生增加、表达药物活性物质和有害物质产生降低。

试剂盒

本发明的另一方面提供试剂盒。一般而言，根据本发明的试剂盒包括至少一种上文所述的本发明的适体以及在例如用于使DNA片段化、用于片段化和测序、或者用于核酸递送中有用的额外试剂。

在本发明的试剂盒的一个实施方式中，一种或多种寡核苷酸适体被提供在一个或多个容器中。适体可以以在一个或多个容器中的液体溶液(例如，水溶液或醇溶液)的形式提供。或者，适体可以以一个或多个容器中的干燥组合物的形式提供。在一些实施方式中，两种或更多种不同的适体可以被提供在单个容器中或在两个或更多个容器中。当提供两个或更多个容器时，每个容器可以包含单独的适体，或者一个、一些、或所有容器可以包含一种、一些、或所有适体的混合物。

试剂盒还可包括一种或多种纯化的转座酶。转座酶可以以在一个或多个容器中的液体溶液或者干燥组合物的形式提供。在一些实施方案中，两种或更多种不同的纯化的转座酶被提供在单个容器中或在两个或更多个容器中。当提供两个或更多个容器时，每个容器可以包含单独的转座酶，或者一个、一些、或所有容器可以包含一种、一些、或所有转座酶的混合物。

优选地，至少一种适体包含至少一种转座酶的识别序列。更优选地，提供至少一种适体，所述适体具有试剂盒中至少一种转座酶的识别序列。在该实施方式中，应该注意，因为特定的转座酶可能识别多种相关的序列，所以试剂盒中的转座酶和适体不需要是一对一的匹配。如其它的实施方式一样，在试剂盒的该实施方式中，转座酶和适体可以在不同的容器中单独地提供，或可以在任何数目的容器中提供转座酶和适体任意混合物。

在另一个实施方式中，试剂盒可包括一种或多种转座酶复合体。如同另一些实施方式，复合体可以以液体组合物的形式或以干燥材料的形式提供。此外，可在试剂盒中提供任何数目的不同复合体。如同上述，复合体可以在不同容器里面或上面单独地提供，或可以在任何数量容器里面或上面提供复合体的任意混合物。

在一个示例性实施方式中，试剂盒包含一种或多种结合于固体支持物(例如，珠子或纳米颗粒)的转座酶复合体。在该实施方式中，固体支持物被视为是复合体的容器。复合体通过接头，例如借助特异性结合对结合于固体支持物。在一个示例性实施方式中，复合体是以结合于PCR板的孔的表面的形式提供的。在该实施方式中，每个孔可以包含一种类型的复合体，或其可以包含两种或更多种不同的复合体。在试剂盒的另一个示例性实施方式中，复合体是以结合于尼龙膜，例如尼龙带的表面的形式提供的。在该实施方式中，复合体可以以任何期望的顺序和几何形状，以及以任何组合分布在膜上。例如，所述膜可以具有在膜上布置成一系列的线或点的单种复合体。或者，可以提供不同复合体的一系列线或点(例如，将复合体1布置在点1上，将复合体2布置在点2上，等等)。然而，还可以将两种或更多种复合体的混合物布置在点上、线上等等。

如上文所指出的，在某些实施方式中，优选提供具有不同识别序列的两种或更多种不同的转座酶复合体以降低GC相比于AT的偏向，并因此提供对基因组DNA的片段化的优良控制。在包含转座酶复合体的混合物的试剂盒的语境中，在制作试剂盒前，可以通过改变混合物中的复合体的比例来优化一种或多种混合物，以使得对于特定靶DNA的偏向最小化。本领域技术员人能够容易地意识到如何制作转座酶-适体复合体的不同混合物、如何将它们固定在固体支持物上、以及如何将它们用于靶DNA片段化。本领域技术人员还知晓如何扩增和测序片段、分析测序数据、选择具有最小偏向的混合物组合(比例)、以及基于这一组合产生试剂盒。应该注意，对于不同DNA靶标可以推荐不同的比例，且对于不同种类的靶标可以生产不同的试剂盒。例如，本领域技术人员能够意识到：对于富含AT的靶标，应该使用更多具有AT偏向性的转座酶-适体复合体。

在存在两种不同转座酶的试剂盒的某些实施方式中，试剂盒优选包含四种不同的寡核苷酸适体。两种适体包含一种转座酶的识别序列，但其中仅有一种包含特异性结合对成员。另两种适体包含另一转座酶的识别序列，但其中仅有一种包含特异性结合对成员。通过使用适体的组合，转座酶复合体可以形成并通过特异性结合对成员结合于固体基质。

本发明的试剂盒可以包含任意数目的对于实践本发明的方法有用的额外试剂或物质。这类物质包括但不限于：用于裂解宿主细胞的试剂(包括缓冲剂)、二价阳离子螯合剂或抑制核酸酶的其它试剂、用于确保转座酶复合体和反应的其它组分正常发挥功能的对照DNA、DNA片段化试剂(包括缓冲剂)、PCR反应试剂(包括缓冲剂)、以及清洗溶液。本发明的试剂盒可以以任意温度提供。例如，对于含有在液体中的转座酶、适体、或复合体的试剂盒的储存，优选将其在低于0℃下提供和维持，优选在-20℃或以下，或者其他方式的冰冻状态下提供和维持。

试剂盒的组分可以被提供在容器内或者固体基质上。容器和固体基质是在合适的包装中以经过包装的组合的方式提供的，所述合适的包装例如由纸板、塑料、金属、或其组合制成的盒子。用于生物技术试剂的合适包装材料是本领域知晓并广泛使用的，因此本文中无需规定。

当在本文中使用时，术语“核酸”指的是DNA分子(例如，基因组DNA或cDNA)、RNA分子(例如，mRNA)、或者DNA或RNA类似物。DNA或RNA类似物可以由核苷酸类似物合成。核酸分子可以是单链的或者双链的，但优选是双链DNA。本发明的核酸适体可以包括规范的和/或非规范的核酸碱基。术语“规范的”用来指通常在DNA中发现的四种常见核酸碱基：腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶，或者指含有规范碱基的对应的脱氧核苷、脱氧核苷酸或2'-脱氧核苷-5'-三磷酸。术语“非规范的”用来指DNA中不同于四种规范碱基的核酸碱基，或者指含有非规范碱基的对应的脱氧核苷、脱氧核苷酸或2'-脱氧核苷-5'-三磷酸。例如，虽然尿嘧啶在RNA中是常见核酸碱基，但尿嘧啶在DNA中是非规范碱基。作为非规范核苷酸掺入(例如，通过使用寡核苷酸合成仪合成或者通过使用DNA聚合酶合成)的结果或者作为对已有碱基的修饰(规范的或非规范的)的结果，“非规范的碱基”被发现在核酸中。

术语“寡核苷酸”指的是核苷酸和/或核苷酸类似物的短聚合物。寡核苷酸优选地为至少4个核苷酸，例如至少约10-15、10-20、15-25或15-200个核苷酸。精确的大小取决于许多因素，这些因素继而取决于寡核苷酸的最终功能或用途。寡核苷酸可以以任何方式生成，包括化学合成，DNA复制、反转录、PCR、连接或其组合。

“分离的核酸”是这样的核酸，其结构与任何天然存在的核酸的结构或者天然存在的基因组核酸的任何片段不相同。因此，该术语包括，例如，(a)具有天然存在的基因组DNA分子的一部分的序列，但其侧翼不是该分子天然存在的生物体基因组中该部分分子两侧的序列的DNA；(b)整合入到载体中或者原核细胞或真核细胞的基因组DNA中，其整合方式使得所产生的分子与任何天然存在的载体或基因组DNA不同的核酸；(c)单独的分子，例如cDNA、基因组片段、通过聚合酶链式反应(PCR)产生的片段或者限制性片段；和(d)重组核苷酸序列，其是杂合基因的一部分。

当在本文中使用时，除非另有说明，术语“分离的”、“以分离”、“分离”、“纯化的”、“以纯化”、“纯化”及本文中使用的其语法等同物指的是来自从其中分离物质的样品或者来源(例如，细胞)的至少一种污染物(例如，蛋白质和/或核酸序列)的量减少。因此，纯化导致“富集”，即样品中期望的蛋白质和/或核酸序列的量增加。

当在本文中使用时，“标签”指的是非靶核酸组分，一般是DNA，其提供了寻址其所连接的核酸片段的方式。例如，在一些优选的实施方式中，标签包含这样的核苷酸序列，所述核苷酸序列允许与标签相连的DNA的鉴定、识别和/或分子或生化操作(例如，通过为寡核苷酸退火提供位点，所述寡核苷酸例如用于通过DNA聚合酶延伸的引物，或者用于捕获或连接反应的寡核苷酸)。将标签与DNA分子连接的过程在本文中有时被称为“标签化”且经受标签化或者含有标签的DNA被称为“带标签的”(例如，“带标签的DNA”)。“标签部分”或者“标签结构域”表示展示用于期望的预期目的或应用的序列的标签部分或标签结构域。

当在本文中使用时，“测序标签”或“测序标签结构域”表示展示以下序列的标签或标签结构域，所述序列是为了便于对标签所连接的ssDNA片段进行测序，其中使用合成带标签的环状ssDNA片段的方法连接标签(例如，目的是为合成测序提供引发位点，或者为连接测序提供退火位点，或者为杂交测序提供退火位点)。例如，在一些实施方式中，测序标签结构域为所述ssDNA片段或所述ssDNA片段的互补物的引发DNA合成提供位点。

当在本文中使用时，“扩增标签”或“扩增标签结构域”表示展示以下序列的标签或标签结构域，所述序列是为了便于对附加所述标签的核酸进行扩增。例如，在一些实施方式中，扩增标签或结构域为使用DNA聚合酶的核酸扩增反应(例如，PCR扩增反应或链置换扩增反应，或滚环扩增反应)提供引发位点，或者为在核酸扩增反应(例如，连接链式反应)中使用模板依赖型连接酶的探针连接提供连接模板。

当在本文中使用时，“检测标签”或“检测标签结构域”表示展示以下序列或者可检测的化学或生物化学部分的标签或标签结构域，所述序列或者可检测的化学或生物化学部分是为了便于对带标签的ssDNA片段进行检测(例如，其中所述序列或者化学部分包含可检测的分子或者与可检测的分子相连接；例如选自可见、荧光、化学发光或其它可检测染料的可检测的分子；在底物存在的情况下可检测的酶，例如碱性磷酸酶和NBT加BCIP或者过氧化物酶和合适的底物)；可检测的蛋白质，例如绿色荧光蛋白；和与可检测部分结合的或者能够与另一种可检测的亲和-结合分子形成亲和结合对或者特异性结合对的亲和-结合分子；或者本领域已知的许多其它可检测分子或系统中的任何。

当在本文中使用时，“地址标签”或“地址标签结构域”表示展示以下序列的标签或标签结构域，所述序列允许特定样品的识别(例如，其中转移链具有不同的地址标签结构域，所述地址标签结构域对于每种样品展示不同的序列)。

当在本文中使用时，“DNA片段文库”或“DNA片段的文库”表示由靶DNA产生的带标签的DNA片段的集合或群体，其中集合或群体中带标签的DNA片段的组合展示出定性地和/或定量地代表带标签的DNA片段是由其产生的靶DNA的序列的序列，且其中集合或群体中的带标签的DNA片段尚未利用基于靶DNA的核苷酸或序列组成包括或者排除带标签的DNA片段的方法有意地选择或排除。由于多种原因，DNA片段文库可以不含代表每种序列的带标签的DNA片段，所述序列通过靶DNA来展示。

当在本文中使用时，“靶DNA”指的是经受转座的任何感兴趣的dsDNA，例如用于产生带标签的DNA片段的文库。靶DNA可以来源于任何体内或体外来源，包括来自一个或多个存活的或死亡的细胞、组织、器官或生物体，或者来自任何生物或环境来源(例如，水、空气、土壤)。例如，在一些实施方式中，靶DNA包括真核和/或原核dsDNA或者由真核和/或原核dsDNA组成，所述dsDNA源于或者衍生于人类、动物、植物、真菌(例如，霉菌或酵母)、细菌、病毒、类病毒、支原体或其它微生物。在一些实施方式中，靶DNA包括基因组DNA、亚基因组DNA、染色体DNA(例如，来自分离的染色体或染色体的一部分，例如来自一个或多个基因或者来自染色体的基因座)、线粒体DNA、叶绿体DNA、来自质粒或其它附加体的DNA(或者其中所含的重组DNA)，或者双链cDNA或者由上述组成，其中所述双链cDNA是通过如下产生的：使用RNA依赖型DNA聚合酶或反转录酶进行RNA的反转录以产生第一链cDNA，然后延伸与第一链cDNA退火的引物以产生dsDNA。在一些实施方式中，靶DNA包括在核酸分子来源中的或者由所述核酸分子制备的多种dsDNA分子(例如，在基因组DNA或由RNA制备的cDNA中的或者由基因组DNA或由RNA制备的cDNA制备的多种dsDNA分子，其在或者来自生物(例如，细胞、组织、器官、生物体)或者环境(例如，水、空气、土壤、唾液、痰、尿液、排泄物)。在一些实施方式中，靶DNA来自体外来源。例如，在一些实施方式中，靶DNA包括下述dsDNA或者由其组成，所述dsDNA是在体外由单链DNA或者由单链RNA或双链RNA制备的(例如，使用本领域众所周知的方法，例如使用合适的DNA-依赖型和/或RNA-依赖型DNA聚合酶(反转录酶)的引物延伸)。在一些实施方式中，靶DNA包括下述dsDNA或者由其组成，所述dsDNA是由一种或多种双链的或单链的DNA或RNA分子的全部或一部分使用本领域已知的任何方法制备的，所述方法包括用于：DNA或RNA扩增(例如，PCR或反转录酶-PCR(RT-PCR)，转录介导的扩增方法，其中一种或多种核酸分子的全部或一部分被扩增)；质粒、福斯质粒(fosmid)、BAC或随后在合适宿主细胞中复制的其它载体中的一种或多种核酸分子的全部或一部分的分子克隆；或者通过杂交捕获一种或多种核酸分子，例如通过与阵列或微阵列上的DNA探针杂交(例如，通过“序列捕获”；例如，使用来自ROCHE NIMBLEGEN、AGILENT或FEBIT的试剂盒和/或阵列)。

“引物”是寡核苷酸(“寡聚体”)，一般具有可通过核酸聚合酶延伸的自由3’-OH基团。对于模板依赖型聚合酶，一般而言，引物寡聚体的至少3’部分与模板核酸的一部分互补，其中寡聚体通过氢键或其它分子力“结合”(或者“复合”、“退火”或者“杂交”)到模板从而产生引物/模板复合物以通过DNA聚合酶起始合成，且在DNA合成过程中，寡聚体通过添加连接在其3’-末端的与模板互补的共价结合碱基来延伸(即，“引物延伸”)。结果是引物延伸产物。模板依赖型DNA聚合酶(包括反转录酶)一般需要寡核苷酸引物与单链模板的复合来起始DNA合成(“引发”)，但RNA聚合酶一般不需要与DNA模板互补的引物来合成RNA(转录)。

如本文所公开，提供了一些数值范围。应该理解，除非上下文另外明确指明，在该范围的上限和下限之间的每一个中间值至下限单位的十分之一也被具体公开。任何所述值或所述范围内的中间值与任何其它所述值或该所述范围内的中间值之间的每个较小范围均包含在本发明中。这些较小范围的上限和下限可以被独立地包含在该范围中或者排除该范围，且当限值中的1个、0个或2个被包含在较小范围中时，每个范围也包括在本发明中，在所述范围中经受任何特定排除的限值。如果所述的范围包括限值中的1个或2个，不包括包含限值的那些范围中的一个或两个的范围也包括在本发明中。

实施例

实施例1 设计多种用于特定转座酶的适体

该实施例描述了基于天然或已知的转座酶识别序列来设计和生成转座酶适体。

天然或已知的转座酶识别(适体)序列获自出版物，例如，“超活性”Tn5转座酶的“嵌合体”(Zhou等人,J Mol Biol.1998；276(5):913-25)，或者使用关于Vibhar转座酶的生物信息方法(美国申请20120301925)，图1。简而言之，在NCBI Microbial NucleotideBLAST网站(blast.ncbi.nlm.nih.gov/Blast.cgi？PAGE_TYPE＝BlastSearch&PROG_DEF＝blastn&BLAST_PROG_DEF＝megaBlast&SHOW_DEFAULTS＝on&BLAST_SPEC＝MicrobialGenomes)上使用blastn算法(针对高度相似的序列进行优化的Megablast，仅代表性基因组，最大靶序列为250，期望阈值为10，缺口损失为线性，过滤低复杂度区域)针对已知的转座酶识别序列执行微生物核苷酸blast。发现的转座酶识别序列(适体)的正确性是通过在序列附近找到转座酶基因来确认的。

接下来，基于天然转座酶适体或者基于已经针对特定转座酶开发的修饰适体(例如，用于Tn5转座酶的“嵌合体”或者用于Vibhar转座酶的适体3il和8il(美国专利申请20120301925))来设计多种适体。选择在转座事件中最接近切割(天然朝向转座子内部)且在相同家族的转座酶中保守的核苷酸位置进行修饰。图1中所示的第1位置是优选的而第2位置和/或第3位置是次优选的，因为第1位置对调节转座酶性质最为重要，这是由于它邻近切割且位于催化位点中，例如如图2中关于Tn5转座酶所示。

如图3中关于Vibhar转座酶所示和图4中关于“超活性”Tn5转座酶所示，可通过以下方式修饰该位置：将任一条链或两条链上的一个核苷酸替换为天然的或经修饰的核苷酸，或者向一条链或两条链上添加至少一个天然的或经修饰的核苷酸，或者从一条链中移除至少一个核苷酸，或者以上的组合。上文已经描述了经修饰的核苷酸的实例。

实施例2 选择用于高输入、中等输入和低输入NGS的适体

在该实施例中，检测在不同DNA输入水平下，在以上的实施例1中产生的一些转座酶适体使用于NGS的基因组DNA片段化的活性。

为了简化说明，如图5B中所示对该实施例中使用的适体进行编号，其中只显示了在两条链的第1位置上的碱基和在顶链的5’的碱基和在底链的3’的碱基。Vibhar转座酶负载带有额外核苷酸序列的3il和8il适体，所示额外核苷酸序列对于如前所述在Illumina仪器上测序(美国专利申请20120301925)是必需的并被应用于E.coli DNA的片段化(ATCCCat#8739D-5)。

对于高DNA输入，在含200ng E.coli DNA Escherichia coli(Migula)Castellani和Chalmers(ATCC,Manassas,VA)、10mM二甘氨酸-NH4pH 7.5、5mM MnCl2、12mM谷氨酸钾和50ug Vibhar转座酶的20μl反应混合物中进行片段化。在46℃或56℃下孵育反应混合物15分钟，然后通过添加高达20mM的EDTA来终止。使用Agencourt AMPure XP体系，即SPRI珠子(Beckmam Coulter,Indianapolis,印度)并根据制造商的指示从未整合的适体纯化片段化且带标签的DNA。从珠子中洗脱来自1个PCR反应的DNA到20μl水中。

接下来，在PCR中扩增片段化且带标签的DNA。20μl反应混合物含有2μl SPRI珠子-纯化的模板、4μl 5x Herculase II Rxn缓冲液、0.5μl

II(AgilentTechnologies,Santa Clara,加拿大)、1mM dNTPs、5％DMSO、正向引物AgP1 5’-AATGATACGGCGACCACCGAGATCTACACGCTGAC GTCGAGACTTGTGA-3’(SEQ ID No.:77)和反向引物AgP2 5’-CAAGCAGAAGACGGCATACGAGA TCGGTGGAGCTGTGCGTAGATGTGA-3’(SEQ ID No.:78)，两种引物的浓度均为1uM。利用在72℃下孵育2分钟来开始扩增以填补适体缺口和置换底部的适体链，随后是在95℃下3分钟的DNA解链步骤，和11个以下循环：i)在95℃下变性40秒，ii)在61℃下退火1.5分钟，iii)在72℃下延伸3分钟。循环之后接着在72℃下孵育10分钟以确保PCR片段完全是双链的。在2％的琼脂糖凝胶上分离PCR片段并用溴化乙锭染色。使用MultiImage^TM多图像光室(Alpha Innotech,San Leandro,加拿大)在302nM下对凝胶拍照。

由图6中所示的凝胶可见，在高DNA输入下，大部分适体展示出对于在Illumina仪器上的NGS是合适的DNA片段化和标签化活性，这表明在保守第1位置的大部分变化耐受良好。因此，创建了多种具有合适活性的适体，尽管改变了Vibhar天然适体的第1位置上的保守CG对。此外，适体赋予转座酶不同的性质，例如，适体8显示出赋予更高的活性，该活性表现在更小的片段大小并且在额外实验中被证实(图7)。

提高的活性对于许多应用是有用的，当需要分析具有低DNA浓度的样品时尤其如此。这些用途的实例包括单细胞基因组测序，测序分离的染色体或小基因组，分析来自血液的游离DNA，和理解复杂的生态系统。参见，例如，Giorgi等人,PLoS One.2013；8(2):e57994.doi:10.1371/journal.pone.0057994,Fodor等人,PLoS One.2012；7(7):e41294.doi:10.1371)。因此，对于中等和低DNA输入，评估一些适体。

类似于关于高DNA输入进行实验，除了：在这些研究中使用更少DNA和更少转座酶并应用更多PCR扩增循环。由图8A中所示的数据可见，在20ng输入、11个PCR循环，利用适体12获得了最好的活性。在1ng输入(B)、15个PCR循环时，同一适体12，连同适体6、7、8和27，同样展示出比亲本适体1和其它衍生适体显著更高的活性。

类似地，在68pg输入(C)、扩增19个PCR循环时，适体6、8、12和27，以及适体13和17展示出较高的活性。最后，在4pg输入(D)(即，少于单个人类细胞的DNA含量)时，适体8、17和27展示出最好的活性。扩增进行23个循环。在宽范围的负载转座酶浓度下，适体8始终比适体1赋予更好的DNA片段的产率(图9)。重要的是，即使在0.5pg的低DNA输入(二倍体人类细胞的DNA含量的约1/13)下，也没有来自任何试剂的背景(图10)。作为比较，使用可商购的试剂盒(Nextera XT DNA样品制备试剂盒,Illumina,San Diego,加拿大)处理所推荐的最少DNA量为1ng，或者为人类细胞的DNA含量的～150倍。总而言之，第1位置上G到A的替换赋予更高的活性(适体6、8、13、17和27)，且G到A的替换与该位置上的错配的组合进一步提高了在相对链上包括C的适体8和27的活性。第1位置上具有天然G但相对链上具有错配的适体7和12也赋予提高的活性。另一个重要的方面是：负载不同适体的转座酶量在特定范围的转座酶负载和靶DNA浓度内起作用。例如，在实验条件下，负载适体12的Vibhar转座酶在68ng-20ng的DNA输入范围内良好起作用，而负载适体17的转座酶在4ng-68pg的范围内良好起作用，在1ng下具有很低活性且在每20μl转座酶反应20ng的较高DNA输入下几乎没有活性(图8)。适体13赋予狭窄的活性范围且仅在68pg DNA输入下起最好作用。

实施例3 使用于NGS的样品制备中的偏向最小化

配对末端测序(Illumina)和离子急流(Ion Torrent)(Life Sciences)在NGS平台中最广泛地使用。用于任一平台的样品可以使用转座酶方法来制备，所述方法在几分钟内在同一反应混合物中同时进行DNA片段化和适体连接。然而，如上所述，常规的转座酶介导的DNA片段化不太随机且需要提高随机性和降低重复率。

在该实施例中，发现了不同适体赋予不同的重复率。如图11中所示，相较于第一个位置具有天然CG对的标准适体1，适体9和5赋予显著更低的重复率；相较于适体1，适体6和8赋予更高重复率且适体7和10赋予大约相同的重复率。令人惊讶地，适体的混合物赋予比任何适体都低得多的重复率(图11)。

可能的解释是：负载不同适体的转座酶偏向于靶DNA上的不同位置。更容易被转座酶识别的这些位置被称为“热点”(Berg等人,Genetics.1983,105(4):813-28)。这些热点是重复的主要原因，因为热点区域被更频繁地测序。然而，不同适体赋予不同的热点。因为热点因不同适体而异，所以应用负载不同适体的转座酶混合物使热点随机化并降低了重复率。此外，选择单独赋予低重复率的适体的混合物能够更进一步地降低重复率。负载不同适体的转座酶负载的其它性质也不同，例如不同的AT漏失率(图12)。

实施例4 用于NGS样品制备的引物延伸的阻碍

在该实施例中，进行试验来检测用于NGS样品制备的具有阻碍引物延伸的修饰的转座酶适体。

在一种方法中，Pfu DNA聚合酶在其所处位置停止的dU修饰被引入到PCR引物AgP1和AgP2的着陆位点下游的图13B中所示的适体对2和3中以阻碍PCR中适体的底链(寡核苷酸3U2、8U2、3U4和8U4)的复制。虽然适体的复制和扩增停止了，但靶DNA片段的扩增畅通无阻地进行，因为缺口修复之后，带标签的DNA片段不含经修饰的核苷酸。在另一种方法中，用反向dT封闭适体的底链的3’末端以阻止引物延伸过程(参见图13B，适体对4)。反向dT前面是硫代磷酸酯键以防止反向dT通过DNA聚合酶3’核酸外切酶活性被去除。

以上文所述的方式进行转座酶反应，然后在使用Pfu DNA聚合酶(HerculaseII,Agilent Technologies)、利用AgP1和AgP2引物的PCR中直接扩增转座酶反应产物，在2％的琼脂糖凝胶上分离并用溴化乙锭染色，其中1kb+的DNA梯状条带(Life Technologies)与所检测的DNA样品一起电泳。

如图14A中所示，当在使用AgP1和AgP2引物但无靶DNA输入的PCR中扩增时，利用负载标准适体对1的Vibhar转座酶的转座酶反应产生了大量小尺寸的副产物。相比之下，当使用适体对3和4时，这些小尺寸副产物的产生被阻碍。当在转座酶反应中使用中等DNA输入(即，每20μl转座酶反应20ng靶人类DNA和5ug负载转座酶)时，使用标准转座酶适体对1的反应的PCR扩增导致几乎没有有用的产物。参见图14B。相比之下，适体对3或4导致令人满意的带标签的DNA产物的产率。

以上结果表明：利用dU或反向dT的阻碍大幅减少了适体-引物二聚体的产生，并且在中等DNA输入下导致了令人满意的带标签的DNA PCR产物的产率。

还使用高DNA输入(即，每20μl转座酶反应200ng靶人类DNA和50ug负载转座酶)进行该试验。如图15中所示，在高DNA输入下，如果使用标准的转座酶适体1、或者适体对2或3，则利用相同引物的转座酶反应的扩增再次导致几乎没有有用的产物。然而，如果使用负载适体对4的转座酶，则带标签的DNA片段的产率是令人满意的。这些结果表明：在高DNA输入下，适体对2和3的阻碍能力不如适体对4的阻碍能力有效，且如在适体对4中封闭3’末端代表了优选的实施方式。

重要的是，本发明的所有适体修饰均与转座酶反应相容。如果在SPRI纯化之后进行PCR扩增，则经修饰的适体对2、3、4或未经修饰的适体对1产生可比较量的靶DNA片段(图15，SPRI+)。此外，利用适体对4时，这些片段的产率在进行或不进行SPRI纯化的情况下几乎相同(图15)。

总而言之，当较少适体被用在转座酶反应中并因此较少适体被添加到PCR中时，适体对3和4二者均能够有效防止PCR反应“中毒”(图14B)，但利用增加的靶DNA和适体输入时，仅适体对4有效防止PCR“中毒”(图15)。鉴于这些结果，如何根据转座酶反应中使用的负载转座酶的量、靶DNA输入和特定的适体修饰来优化负载转座酶的量对本领域技术人员会是立即显而易见的。

实施例5 由少数个细胞制备用于NGS的DNA样品

在该实施例中，使用具有或没有硫代磷酸酯键的转座酶适体，由少数个细胞制备用于NGS的DNA样品。

简而言之，由20pg人类DNA(对应于来自3个人类细胞的DNA材料)制备DNA。在具有不同浓度的转座酶(50或100ng/ml)、使用不含硫代磷酸酯键的的标准适体3il/8il的转座酶反应中使DNA片段化和标签化，在使用AgP1和AgP2引物的PCR循环中扩增。然后在2％的琼脂糖凝胶中分离PCR片段并用溴化乙锭染色。图17中显示了结果。如图所示，利用来自3个细胞的DNA时，在转座酶反应25分钟之后观察到了令人满意的合适DNA片段的产率，但用于NGS的期望大小范围(200-500bp)的片段在反应42分钟时几乎完全消失。结果表明：即使在转座酶反应25分钟时，合适材料的损失可以是很大的并可占50％或更多，这对于NGS应用是不能接受的。

利用适体E8和适体78重复以上试验。除了适体E8在如图18的顶部所示的位置上具有硫代磷酸酯键之外，这两种适体是相同的。图18中显示了结果。

如图所示，出乎意料地，硫代磷酸酯键的组合(适体E8)赋予转座酶反应效率大幅提高。在转座酶浓度不同(利用20pg人类DNA输入时，180ng/ml、120ng/ml和80ng/ml)和孵育时间不同(6-70分钟)的一些实验中，始终能够观察到提高。还发现：这种提高大多不是由于针对核酸酶的保护。实际上，当利用具有相同核苷酸序列但不含硫代磷酸酯键的短适体78时，几乎没有观察到核酸酶降解(图18)。

不同于标准适体3il和8il(图16)，适体78及其硫代磷酸酯衍生物E8仅由19bp的双链体组成，所述双链体被转座酶识别、与转座酶结合并且可能大部分被隐藏且被保护免受核酸酶攻击。核酸酶活性可以识别标准适体的单链部分并翻转到它所消化的DNA片段的内部。这种策略将需要大尺寸的蛋白质，例如转座酶二聚体(MW～102KD)。来自E.coli的固有核酸酶似乎不可能负责DNA降解，因为它们的尺寸小；深入研究了E.coli；E.coli中没有描述这种活性。

简而言之，结果表明：通过向适体中加入硫代磷酸酯键，大幅提高了转座酶反应的效率。

实施例6 制备用于微阵列应用的DNA样品

在该实施例中，使用具有或没有硫代磷酸酯键的转座酶适体来制备用于微阵列应用的DNA样品。为此，使16pg DNA和200ng DNA经受图21A-C中所示的过程。

首先，使用转座酶-寡核苷酸复合体使样品DNA片段化并利用具有含硫代磷酸酯的寡核苷酸5’-A*G*A*T*G*T*G*A*T*CAAGAGACA*G-3’(SEQ ID NO.:95)(与其磷酸二酯互补物的二链体形式)的寡核苷酸标签使两个末端带上标签。然后，在扩增阶段，使用引物7(5’-AGATGTGATCAAGAGACAG-3’,SEQ ID NO.:93)PCR扩增片段化的DNA，所述引物与转座酶反应中连接到DNA片段末端的标签互补(图21B)。此处，不同于常规流程和WGA方法中，使用确定的19bp引物而非可靠性低得多的随机引物(图21B)。PCR循环数取决于起始DNA的量。最后，在标记步骤中，在包含至少一种用荧光团标记的dNTP的dNTP混合物的存在下，使用寡核苷酸标签和引物来扩增DNA片段。该步骤在约10分钟内完成，这比基于随机引物的常规方法要快得多。

在2％的琼脂糖凝胶上分离产生的PCR片段和1kb+的DNA梯状条带(LifeTechnologies)并用溴化乙锭染色。图22A-B中显示了结果。如图所示，DNA输入在16pg-200ng范围中时，常规产生了长度在200-500bp之间的片段，这表明：在DNA片段化阶段，转座酶使DNA片段化为特定的尺寸(200-500bp，即对于阵列是理想的)同时提供确定的19bp标签(图21A)。没有观察到DNA损伤，因为反应在约中性pH、45℃下进行短时间。利用转座酶方法，产生了对于Agilent微阵列是理想尺寸的DNA片段(Agilent基于寡核苷酸阵列的CGH用于基因组DNA分析(Oligonucleotide Array-Based CGH for Genomic DNA analysis.)流程版本7.2 2012年7月)。

已发现：通过使用确定的引物(例如引物7)代替现有技术的随机引物，实现了更快且质量更好的扩增。结果表明：使用确定的引物不仅允许降低扩增偏向，而且允许样品的更快处理，因为反应条件是最优的。

前述的实施例和优选实施方式的说明应该作为例证，而不是如权利要求限定一样限制本发明。容易理解的是，可以利用上文所列特征的多种变化和组合而不脱离权利要求中所述的本发明。这些变化不认为是脱离本发明的范围，且所有这些变化旨在包括在下述权利要求的范围内。本文引用的所有参考文献均整体并入本文中。

Claims

1.分离的合成的核酸适体，其由以下组成：

由第一序列组成的第一链；和

由第二序列组成的第二链；

其中所述分离的合成的核酸适体包含相较于转座酶的天然识别序列具有一个或多个修饰的转座酶识别序列，所述一个或多个修饰在所述第一序列的5’末端，或者在所述第二序列的3’末端，或者在二者；

其中所述第一序列的5’末端为在转座事件中最接近切割的核苷酸位置，

其中所述适体被所述转座酶识别，以及

其中所述第一序列和所述第二序列分别为：SEQ ID NOs:73和74、SEQ ID NOs:75和76、SEQ ID NOs:28和36、SEQ ID NOs:28和22、SEQ ID NOs:2和36、SEQ ID NOs:2和74、SEQ IDNOs:2和76、SEQ ID NOs:26和22、SEQ ID NOs:26和36、SEQ ID NOs:26和39、SEQ ID NOs:26和41、SEQ ID NOs:24和22、SEQ ID NOs:24和36、SEQ ID NOs:24和39、SEQ ID NOs:24和41、SEQ ID NOs:28和39、SEQ ID NOs:28和41、SEQ ID NOs:2和39、SEQ ID NOs:2和41、SEQ IDNOs:75和36、或者SEQ ID NOs:73和36。

2.权利要求1所述的适体，其中所述一个或多个经修饰核苷酸的前面是硫代磷酸酯键或间隔子。

3.权利要求1-2中任一项所述的适体，其中所述第二链不含所述一个或多个经修饰核苷酸。

4.权利要求2所述的适体，其中一个硫代磷酸酯键在所述第二链或所述第二序列的3’最后一个核苷酸和3’倒数第二个核苷酸之间。

5.权利要求4所述的适体，其中所述第二链或所述第二序列含有1-18个硫代磷酸酯键。

6.权利要求5所述的适体，其中所述第二链或所述第二序列含有2-15个硫代磷酸酯键。

7.权利要求6所述的适体，其中所述第二链或所述第二序列含有9个硫代磷酸酯键。

8.权利要求1所述的适体，其中所述第一链或所述第一序列不含硫代磷酸酯键。

9.权利要求1-2中任一项所述的适体，其中所述第一链或所述第二链的长度为17-80个核苷酸。

10.权利要求1所述的适体，其中所述第一链和所述第二链形成长度为15-30bp的双链体。

11.权利要求10所述的适体，其中所述双链体在所述第二链的3’末端或者所述第一链的5’末端具有平末端或交错末端。

12.权利要求10或11所述的适体，其中所述第一序列或所述第二序列中的所述一个或多个修饰导致所述双链体中一个或多个未配对的核苷酸。

13.权利要求1-2中任一项所述的适体，其中所述第一链或所述第二链包含至少一个经修饰核苷酸，所述经修饰核苷酸选自由2-氨基嘌呤、2,6-二氨基嘌呤、5-溴dU、脱氧尿苷、反向dT、反向双脱氧-T、双脱氧-C、5-甲基dC、脱氧肌苷、通用碱基包括5-硝基吲哚、2’-O-甲基RNA碱基、异-dC、异-dG、核糖核苷酸、吗啉代、蛋白核苷酸类似物、乙醇酸核苷酸类似物、锁核苷酸类似物、苏糖核苷酸类似物、链终止核苷酸类似物、硫尿苷、假尿苷、二氢尿苷、辫苷和丫苷组成的组。

14.权利要求1-2中任一项所述的适体，其中所述第一链或所述第二链中至少一个核苷酸被磷酸化。

15.权利要求1-2中任一项所述的适体，其中所述第一链或所述第二链中至少一个核苷酸包括选自由经修饰糖、非天然的键、无碱基位点、双脱氧碱基、5-甲基碱基和间隔子组成的组中的一个或多个。

16.权利要求1-2中任一项所述的适体，其中所述第一链或所述第二链中至少一个核苷酸是核糖核苷酸。

17.权利要求1-2中任一项所述的适体，其中所述转座酶是“剪贴”转座酶。

18.权利要求1-2中任一项所述的适体，其中所述转座酶是Vibrio Harveyi转座酶或超活性Tn5转座酶。

19.权利要求1-2中任一项所述的适体，其中所述天然识别序列在所述第一序列的5’末端具有C。

20.权利要求1-2中任一项所述的适体，其中所述天然识别序列是选自SEQ ID NOs:1-21中的序列。

21.权利要求1-2中任一项所述的适体，其中所述第二链还包含在所述第二序列的5’的标签序列或者所述第一链还包含在所述第一序列的3’的标签序列。

22.权利要求21所述的适体，其中所述标签序列包含简并碱基区域。

23.分离的合成的核酸适体的集合，其包含(i)权利要求1-22中任一项的第一分离的合成的核酸适体，和(ii)权利要求1-22中任一项的第二分离的合成的核酸适体，其中所述第一序列和所述第二序列相较于天然识别序列或其互补物具有至少一个不同的修饰。

24.转座酶复合体，其包含一种或多种转座酶分子和一种或多种根据权利要求1-22中任一项所述的适体。

25.使靶DNA分子片段化的体外方法，所述方法包括：使靶DNA分子与权利要求24所述的转座酶复合体接触以形成反应混合物；和在用于进行转座反应的条件下孵育所述反应混合物。

26.权利要求25所述的方法，其中所述靶DNA分子获自由1-10个细胞组成的样品。

27.权利要求26所述的方法，其中所述靶DNA分子获自由1-3个细胞组成的样品。

28.制备用于靶DNA分子的测序或微阵列分析的试验样品的方法，所述方法包括：

使靶DNA分子与复合体接触以形成反应混合物，所述复合体具有权利要求1-22中任一项所述的分离的合成的核酸适体和与所述适体结合的转座酶；

在用于进行转座反应的条件下孵育所述反应混合物以产生经切割的DNA产物；和

扩增所述经切割的DNA产物。

29.权利要求28所述的方法，其中进行所述扩增步骤之前不从所述反应混合物中去除所述适体或者分离所述经切割的DNA产物。

30.用于微阵列的DNA样品制备的方法，所述方法包括：使样品DNA分子与复合体接触以形成反应混合物，所述复合体具有权利要求1-22中任一项所述的分离的合成的核酸适体和与所述适体结合的转座酶；以及在用于进行转座反应的条件下孵育所述反应混合物以产生所述样品DNA分子的DNA片段，其中所述适体包含寡核苷酸标签且所述DNA片段的两端都用所述寡核苷酸标签标签化。

31.权利要求30所述的方法，其还包括：使用与所述寡核苷酸标签互补的引物扩增所述DNA片段。

32.权利要求30所述的方法，其中所述标签被用作与所述标签互补的引物的着陆位点。

33.权利要求31或32所述的方法，其中在使用包含至少一种用荧光团标记的dNTP的dNTP混合物的聚合酶反应中延伸一种或多种引物。