CN109477134A

CN109477134A - 转座酶竞争物控制系统

Info

Publication number: CN109477134A
Application number: CN201780024500.0A
Authority: CN
Inventors: 马丁·冉妮科; 威廉·布尔恩; 埃里克·范德沃特; J·谢; 阿布雷·德比尔; 格里达·尤伊斯; 保罗·麦克尤恩
Original assignee: Kappa Bio System Inc
Current assignee: Kappa Bio System Inc; Kapa Biosystems Inc
Priority date: 2016-04-19
Filing date: 2017-04-19
Publication date: 2019-03-15
Also published as: JP7022699B2; EP4194563A1; EP3445874A1; WO2017184691A1; US20180195059A1; US11932847B2; JP2019513406A

Abstract

公开了一种片段化DNA的方法，包括使靶DNA样品在适合转座体活性的条件下与以下接触：(a)包含活性转座体的组合物，以及(b)包含非活性转座体的组合物，其中(b)组合物中非活性转座体的量与(a)组合物中活性转座体的量的比率决定了平均片段尺寸和插入偏倚水平。

Description

转座酶竞争物控制系统

技术领域

本公开涉及分子生物学领域；并且，更具体地使用转座酶作为片段化DNA的分子工具。

相关申请

本申请要求2016年4月19日提交的美国临时申请号62/324,683的优先权和权益，其内容通过引用整体并入本文。

通过引用并入序列表

在2017年4月18日创建并且大小为80KB的文本文件名为“RMSI-007-001WO_ST25”的内容通过引用整体并入本文。

背景技术

基于转座酶的DNA测序文库的产生面临许多挑战，这些挑战在本公开之前尚未解决。技术挑战涉及克服这样的事实：单个转座体仅能够进行单次插入切割事件，并且该复合物随后不会被释放以插入和切割其他地方。因此，现有技术难以控制插入尺寸。该方法对DNA输入量敏感并且存在显着的插入位点偏倚。这种偏倚是由以下事实引起的：尽管转座体可以插入不同的位点，但它对多种DNA序列显示出多种偏好，达到可以确定共有的优选序列的程度。因此，插入模式是半随机的，并且转座体能够被认为是序列特异性的DNA结合复合物，尽管其具有高度不完全的序列识别。

发明内容

本公开提供了基于转座体的文库制备系统，其克服了本领域长期以来未满足的对于片段化DNA方法的需要，片段化DNA方法与现有方法相比保持了所需的平均片段尺寸，同时降低了插入偏倚。而且，无论使用多少量的DNA，本公开的方法都同样有效。

本公开的方法涉及表达转座酶(Tnp)，并用转座酶结合末端序列(ES)DNA(也称为“臂”)激活(也称为“负载”)以产生转座体。ES序列通常但不一定是“嵌合”序列，因为它不是天然ES，而是每个插入序列(IS)存在的两个天然ES(内部和外部)的组合。臂可以携带序列特异性序列或衔接子。将转座体和靶DNA接触导致“标签片段化”，该术语旨在描述同时的DNA片段化和测序衔接子插入。本公开的方法包括使“活性”和“非活性”转座体的混合物与靶DNA接触。非活性转座体能够与DNA结合，但不能切割任何DNA链。

具体地，本公开提供了片段化DNA的方法，包括使靶DNA样品在适合转座体活性的条件下与以下接触：(a)包含活性转座体的组合物，以及(b)包含非活性转座体的组合物；其中(b)组合物中的非活性转座体的量与(a)组合物中的活性转座体的量的比率决定了平均片段尺寸和插入偏倚水平。

在本公开方法的某些实施方式中，(a)组合物中的活性转座体和(b)组合物中的非活性转座体的组合占据大于50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％的输入DNA的转座体结合位点。在本公开方法的某些实施方式中，(a)组合物中的活性转座体和(b)组合物中的非活性转座体的组合占据100％的输入DNA的转座体结合位点。

在本公开方法的某些实施方式中，非活性转座体和活性转座体优先结合靶DNA内的共有序列。在某些实施方式中，非活性转座体和活性转座体以完全互补性结合共有序列。在某些实施方式中，非活性转座体和活性转座体以不完全互补性结合共有序列。本公开的靶DNA内的示例性共有序列可包含富含A/T和/或富含C/G的序列。在某些实施方式中，本公开的靶DNA内的共有序列可包含富含A/T的序列，其在每个末端侧接G/C对。本公开的靶DNA内的示例性共有序列可包含至少2、3、4、5、6、7、8、9或10个连续相同核苷酸的序列。本公开的靶DNA内的示例性共有序列可包含至少2、3、4、5、6、7、8、9或10个非连续相同核苷酸的序列。

在本公开方法的某些实施方式中，非活性转座体和/或活性转座体可以与靶DNA内的非优选的、半随机的或随机的序列结合，例如，当全部或大部分优选结合位点被占用时。当本发明的非活性转座体和/或活性转座体与靶DNA内的非优选的、半随机的或随机的序列结合时，靶DNA内的非优选的、半随机的或随机的序列可能不具有任何序列相似性或同一性。

在本公开方法的某些实施方式中，输入DNA的量或靶DNA的量是未知的。靶DNA的数量可能无关紧要的，因为即使(a)组合物中活性转座体和(b)组合物中非活性转座体的组合占据小于100％的输入DNA或目标DNA的转座体结合位点，该方法也将是有效的。

在本公开方法的某些实施方式中，非活性转座体是活性转座体的修饰形式。该修饰可以抑制非活性转座体切割靶DNA的能力并保留非活性转座体结合靶DNA的能力。在本公开方法的某些实施方式中，非活性转座体可以包含编码非活性转座体的转座酶的氨基酸序列中的突变。示例性突变可以发生在非活性转座体的转座酶的催化结构域内的位置。例如，非活性转座酶可以是野生型或过度活跃的Tn5衍生的转座酶，并且突变可以发生在选自D97、D188和E326的催化三联体内的位置(参见Davies等人(2000)Science 289:77–85)。替代地，非活性转座酶可能涉及野生型或过度活跃的Tn5衍生的转座酶(例如Tn5转座酶的序列或剪接变体，或者具有但源自另外物种或类型的转座子或插入元件的保守序列的转座酶，或者衍生自插入序列IS4家族的任何成员的转座酶)并且突变可以发生在催化三联体内的位置，催化三联体是选自由D97、D188和E326组成的组的三联体的功能等同物。在某些实施方式中，过度活跃的Tn5转座酶可以由包含以下(催化三联体加粗并下划线)的氨基酸序列编码：

在本公开方法的某些实施方式中，非活性转座体是活性转座体的修饰形式。该修饰可以抑制非活性转座体切割靶DNA的能力并保留非活性转座体结合靶DNA的能力。在本公开方法的某些实施方式中，非活性转座酶可以包含编码非活性转座体的转座酶的氨基酸序列中的突变。示例性突变可以发生在非活性转座体的转座酶的催化结构域内的位置。例如，非活性转座酶可以是与Tn5-Tnp不同的酶，诸如源自潮汐异希瓦氏菌(Alishewanellaaestuarii)(TnAa-Tnp)的转座酶，并且突变可以发生在选自由D90、D190和E323组成组的催化三联体内的位置。在某些实施方式中，TnAa转座酶可以由包含以下(催化三联体加粗并下划线)的氨基酸序列编码：

过度活跃Tn5衍生的转座酶和TnAa衍生的转座酶的比对揭示了催化三联体的残基在转座酶之间是高度保守的。类似的比对可用于鉴定其他转座酶中功能等同的催化三联体。

TnAa衍生的转座酶和过度活跃Tn5衍生的转座酶(催化三联体加粗并下划线)的比对如下：

比对的氨基酸残基下方的符号表示该位置的保守程度。星号，“*”表示具有单个完全保守残基的位置。“：”(冒号)表示具有强烈相似性质的基团之间的保守性——在GonnetPAM 250矩阵中评分>0.5。“。”(句号)表示弱相似性质的基团之间的保守性——在GonnetPAM 250矩阵中评分＝<0.5。短划线“-”表示对齐间距。

以下为TnAa(SEQ ID NO：3)和HyperTn(SEQ ID NO：4)的比对。

本公开的非活性转座体可以是本公开的活性转座体的修饰形式。该修饰可以抑制非活性转座体切割靶DNA的能力并保留非活性转座体结合靶DNA的能力。

本公开的非活性转座体可包含修饰的DNA臂。在某些实施方式中，修饰的DNA臂可以是嵌合DNA臂。本公开的示例性修饰的DNA臂包括但不限于以下中的一种或多种：臂转移链末端核苷酸上的3'-磷酸代替3'-OH，臂转移链末端核苷酸处的双脱氧核苷酸，空间抑制链转移的庞大基团，或其任何组合。

在本公开方法的某些实施方式中，转座体的修饰臂包括在转移链3'-末端处化学上不同于3'-羟基的基团，使得这些化学基团阻止链转移。标准合成DNA寡核苷酸在3'-末端处含有3'-OH基团。促进链转移的优选基团是3'-OH，如下所示：

在本公开方法的某些实施方式中，非活性转座体可以包含在具有不同化学部分的转移链中的3'-末端核苷酸碱基(即，不同于在3'-末端含有3'-OH基团的标准合成DNA寡核苷酸)如下面标有“X”：

如下所示，与转移链的3'-末端碱基的3'-碳附连的“X”部分可以是能够阻止或抑制链转移的任何化学部分，从而产生本公开的非活性转座体。

本公开的“X”部分与一种或多种链转移机制不相容，使得非活性转座体识别并负载臂DNA，同时防止非活性转座体切刻和/或将修饰的DNA转移至靶DNA(例如基因组DNA)。

示例性“X”部分包括但不限于：

A.3'-H。(参见ME_MR寡核苷酸。

下图描绘了上面显示的ME_MR寡核苷酸中的3'-末端碱基(鸟嘌呤)。

ME_MR寡核苷酸包含3'末端碱基，其具有3'-氢而不是常规的3'-OH部分。

B.3'-磷酸：

下图描绘了上面显示的ME_MR寡核苷酸中的3'-末端碱基(鸟嘌呤)。ME_MR寡核苷酸包含具有3'-磷酸而不是常规3'-OH部分的3'末端碱基。

类似地，本公开的“X”部分可包括一个或多个空间抑制链转移的大体积基团(下面所示的结构附连至转移链的3'-末端碱基的3'-碳)并且包括但不限于：

C.己二醇

D.3-碳间隔区

E.三乙二醇，

F.六乙二醇，

或其任何组合。

本公开的非活性转座体可包含修饰的碱基、合成碱基或核苷酸类似物代替转移链中3'-末端核苷酸碱基(下文标记为“Z”)。示例性修饰的碱基、合成碱基或核苷酸类似物使转座酶能够识别和负载臂DNA，但防止非活性转座体切刻和/或将修饰的DNA转移至靶DNA(例如基因组DNA)。

示例性“Z”修饰的碱基、合成碱基或核苷酸类似物可包括但不限于：

A.反向碱基。在下面所示构象中转移链的3'-末端碱基(通常是鸟嘌呤)将阻止转座酶插入转移链。

B.一个脱碱基位点

示例性“Z”核苷酸类似物可包括但不限于：锁核酸(LNA)、桥核酸(BNA)或异核酸(XNA)。示例性“Z”核苷酸类似物还可以包含在3'-末端核苷酸或核苷酸类似物的3'-碳上的本公开的“X”部分，以防止将转移链添加至靶DNA，同时允许转座体识别并负载修饰的臂，导致产生非活性转座体。

在本公开方法的某些实施方式中，(b)组合物中非活性转座体的量与(a)组合物中活性转座体的量的比率的变化导致平均片段尺寸变化。

在本公开方法的某些实施方式中，(b)组合物中非活性转座体的量与(a)组合物中活性转座体的量的比率的增加导致平均片段尺寸增加。

在本公开方法的某些实施方式中，(b)组合物中非活性转座体的量与(a)组合物中活性转座体的量的比率的减少导致平均片段尺寸减少。

在本公开方法的某些实施方式中，与不包括使靶DNA与非活性转座体接触的方法相比，插入偏倚水平降低。

本公开还提供了片段化DNA的方法，包括使靶DNA样品在适合于转座体活性的条件下与以下接触：(a)包含活性转座体的组合物，以及(b)包含DNA结合蛋白质的组合物，DNA结合蛋白质不是转座酶或转座体，其中(b)组合物中DNA结合蛋白质的量与(a)组合物中活性转座体的量的比率决定了平均片段尺寸和插入偏倚水平。

附图说明

图1是一对凝胶的照片，示出了不同克隆的转座酶的表达水平；来自潮汐异希瓦氏菌(Alishewanella aestuarii)(TnAa-Tnp，泳道4和8)的野生型转座酶在不同的转座酶候选物中给出最高产率，而来自霍乱弧菌(Vibrio cholerae)的野生型转座酶(TnVc-Tnp，泳道3和7)也给出了显著高的产率。泳道1，分子量标准；泳道2，TnVh-Tnp级分3；泳道3，TnVc-Tnp级分3；泳道4，TnAa-Tnp级分3；泳道5，TnSp级分3；泳道6，pET29空载体；泳道7，TnVc-Tnp级分2；泳道7，TnAa-Tnp级分4。

图2是凝胶的照片，其上分离了标签片段化反应(tagmentation reaction)的PCR产物。两种转座酶类型(TnAa-Tnp和TnVc-Tnp)显示为Aa和Vc。使用四种不同的臂类型(MEHyp、ME Har、OE Hyp和IE Har)。混合的长片段，表现为“拖尾状”，表示成功的标签片段化和扩增。结果显示，只有TnAa-Tnp产生了具有任何测试臂组合的长片段。臂ME Hyp、OE Har和IE Har似乎特别适用于该方法。

图3是描绘了相对于DNA片段尺寸绘制的安捷伦生物分析仪荧光单位迹线的图。该迹线示出了甘油浓度对TnAa转座体标签片段化效率的影响。在缓冲液中添加甘油提高了标签片段化效率，这表现为扩增的文库片段从较大片段(0％甘油，青色线，更低效率)到逐渐较小的片段(40％甘油，红线，更高效率)的尺寸移动。

图4是描绘了相对于DNA片段尺寸绘制的安捷伦生物分析仪荧光单位迹线的图。该迹线示出了TnAa转座体标签片段化的不同效率，这取决于是否使用野生型或突变体(P47K)形式的TnAa转座酶。突变型形式产生的片段小于与野生型(红线，更高效率)小于野生型(蓝线，效率更低)。

图5是描绘了相对于迁移时间绘制的安捷伦生物分析仪荧光单位迹线的图。该迹线示出了锰对TnAa-Tpn-P47K衍生的转座体的标签片段化效率的影响。锰浓度增加导致更短的片段，这是标签片段化增加的结果。

图6是描绘了相对于片段尺寸绘制的安捷伦生物分析仪荧光单位迹线的图。该迹线示出了转座体浓度对TnAa-Tpn-P47K衍生的转座体的标签片段化效率的影响。复合物量的增加导致片段更短，这是标签片段化增加的结果，

图7A-图7C是一系列示意图，描绘了不同条件下的标签片段化过程。子图A描述了已经在促进转座体插入的条件下进行了的标签片段化过程。这可以随着有效的(例如高锰浓度)和活性的转座体的饱和量发生。最终结果是DNA文库具有低的切割位置偏倚，但其平均片段尺寸太小而无法使用。子图B描述了已经在不促进转座体插入的条件下进行了的标签片段化过程。这可以随着有效的(例如高锰浓度)和活性的转座体非饱和量发生。它也可以随着非有效的(例如由于时间不足或因为它缺乏辅因子诸如Mn²⁺)但仍然活性的转座体的潜在饱和量发生。在任何一种情况下，最终结果是DNA库具有较大片段尺寸并且表现出高插入偏倚。子图C描述了在饱和量的活性的和非活性的(能够结合但不能插入)转座体的混合物的情况下，已经在促进插入的条件下进行了的标签片段化过程。在这种情况下，靶DNA完全被转座体占据，但仅在活性转座体遇到靶DNA的位点被切割(标签片段化)。活性和非活性转座体竞争优选的插入位点。

图8是凝胶照片，示出了涉及标签片段化随后凝胶电泳的实验结果，其证明3'-磷酸化臂产生非活性的转座体。载有标准嵌合臂(MERC，泳道2)、R1/R2臂(R1R2RC，泳道3)、3'-磷酸修饰的嵌合臂(3PRC，泳道4)或3'-间隔区修饰的嵌合臂(3CRC，泳道5)的等摩尔量转座酶(TnAa-Tnp-P47K)用于标签片段化200ng大肠杆菌(E.coli)基因组DNA。通过GHCl处理和AMPure XP试剂(Beckman Coulter)提纯纯化，随后将DNA在1％琼脂糖凝胶上分离。只有载有3'-磷酸臂的转座酶不能标签片段化基因组DNA。

图9A-图9B是一对图示，出了来自标签片段化和扩增实验的片段尺寸分布，如使用DNA HiSensitivity芯片的LabChip GXII(Perkin Elmer)的曲线。该曲线证明，向饱和量的活性转座体添加非活性的转座体降低了完全标签片段化的片段的比例并且增加了文库中插入尺寸。(A)用160ng活性转座体进行标签片段化，然后在标签片段化后纯化，并且扩增后，用3×体积的AMPure XP试剂(Beckman Coulter)，得到的文库具有在180至300bp(蓝色)之间的完全标签片段化片段的窄尺寸分布，由于文库的高浓度，300-400bp之间的小峰是LabChip的人为现象。添加80ng非活性转座体(2:1活性:非活性)降低了完全标签片段化的小片段(红色)的比例，并添加160ng非活性转座体(1:1活性:非活性)进一步降低了完全标签片段化的小片段的比例(棕色)。(B)示出了与(A)相同的结果，除了使用了一半量的转座体的情况下。

图10是示出了来自标签片段化测序文库制备实验的片段尺寸分布的图，如使用DNA HiSensitivity芯片的LabChip GXII(Perkin Elmer)的曲线。该曲线证明了，添加非活性的转座体以剂量响应方式增加了平均片段尺寸。将160ng活性转座体与0ng、80ng、160ng或360ng非活性转座体组合，并用于标签片段化1ng大肠杆菌基因组DNA。纯化步骤使用1×体积的AMPure XP试剂(Beckman Coulter)，其通常用于产生有用的测序文库。显示的文库产量已经在负载LabChip之前进行了5倍稀释调整。对于含有0ng、80ng、160ng或360ng非活性转座体的反应，平均片段尺寸分别为：364bp、459bp、577bp和761bp。

图11是证明了在非活性转座体存在下通过标签片段化增加插入尺寸的图。通过以下方法由1ng大肠杆菌基因组DNA构建文库：用仅载有未修饰臂(以产生活性转座体)的TnAa转座酶P47K(紫色)标签片段化或者用载有活性臂的TnAa转座酶和载有3'-磷酸化臂(以产生非活性的转座体)的增加量的TnAa转座酶的混合物(使得活性与非活性转座体的比率为2:1(淡紫色)、1:1(绿色)和1:2.25(红色))进行标签片段化。在与参考基因组比对后，基于读数映射位置计算了文库插入尺寸。在饱和量的活性转座体存在下增加非活性转座体的量会增加文库插入尺寸。

图12A-图12B是一系列图，证明了在非活性转座体存在下通过标签片段化降低插入偏倚。通过以下方法由1纳克大肠杆菌基因组DNA构建文库：用载有未修饰臂(以产生活性转座体)的TnAa转座酶P47K标签片段化或者用载有活性臂的TnAa转座酶P47K和载有3'-磷酸化臂(非活性转座体)的增加量的TnAa转座酶P47K的混合物标签片段化。位置0描绘了基因组中的插入位点，而负位置和正位置代表相对于插入位点的基因组区域5'和3'。子图A示出了起始位点偏倚，用读数起始位点侧翼位置处的累积核苷酸碱基变异度估计。子图B示出了每个位置的碱基偏好。

图13是一个图，证明了用活性和非活性转座体的混合物进行标签片段化降低了系统对DNA输入和数量变化的敏感性。仅用活性转座体标签片段化200pg(浅灰色线(0.2ng输入+0ng非活性))和5ng(深灰色线(5ng输入+0ng非活性))基因组DNA，产生了含有不同插入尺寸的文库，如预期的那样，5纳克输入文库包含更大的片段。相比之下，用活性和非活性转座体的混合物标签片段化200pg(深蓝色线(0.2ng输入+320ng非活性))和5ng(浅蓝色线(5ng输入+320ng非活性))基因组DNA产生了具有相同插入尺寸的文库，其与用Nextera(橙色线)和Kapa HyperPlus(绿色线)试剂盒产生的文库相当。

具体实施方式

本公开提供了基于转座体的文库制备系统。制备基于转座体的文库制备系统的现有方法可以包括以下步骤：(1)表达转座酶，用其中含有测序仪特异性序列DNA衔接子(在本文中也称为“臂”)激活(在本文中也称为“负载”)转座酶以形成转座体，以及(2)使转座体和靶DNA接触以同时片段化靶DNA并插入衔接子，这一过程在本文中称为“标签片段化”。因为单个转座体仅能够单次插入，所以现有方法存在若干问题。这些问题包括难以控制插入尺寸、对DNA输入的敏感性和显着的插入偏倚(由转座体对某些DNA序列的偏好引起)。

公开了通过使用竞争性抑制来减少转座体插入偏倚的组合物和方法。与现有的基于转座酶的文库制备系统相比，本公开的组合物和方法提供了几种优异的性质，包括但不限于：插入尺寸的控制、对DNA靶标插入量的不敏感性、降低的插入偏倚和增加的文库复杂性，所有这些都显着改善了所得测序文库的覆盖度和测序指标。

本公开提供了工作示例以证明本文提供的组合物和方法如何克服困扰现有技术的问题。

转座子技术

自现代分子遗传学的出现以来，插入序列(IS)及其相关的转座子(Tn)已被用作分子工具。存在不同类型的转座子，并且这些转座子通常基于转座机制进行分组。

IS4组包括插入序列和转座子，其利用“切割和粘贴”机制进行转座。这涉及从其原始位置精确切除转座子，然后插入靶DNA中的新位置。插入能够导致创建短重复区域，其在插入位点处支持插入序列。该过程由转座酶(Tnp)的作用驱动。IS4家族中研究得最多的成员是转座子Tn5(及其相关的插入序列IS50)。

Tn5型转座的分子机制是很好理解的并且已经在别处描述(例如ReznikoffW.S.(2008)Ann.Rev.Genet.42：269-286)。简而言之，两个转座酶分子形成二元复合物，其以高度序列特异性的方式与19pb反向重复序列或在转座子末端发现的末端序列(ES)相关联。然后转座酶在ES的极限处切割DNA以在每个末端产生3'-OH，并且释放转座子-DNA-转座酶-二聚体复合物。这种复合物(以及用作分子工具的合成形式)被不同地称为转座体(Tsome)，转座体或突触复合物。释放后，复合物与靶DNA结合并发生插入步骤；在这里，ES的3'-OH基团与活性位点内的关键酸性氨基酸(称为催化三联体)之间的相互作用对于切刻和链侵入是关键的。

Tn5已被广泛用作分子遗传学中的工具，最初和主要用于创建基因敲除，但是在最近的时期，其用途变得更加复杂(例如Reznikoff WS(2006)Biochem.Soc.Trans.34：320-323)。通过创建转座酶的突变形式以产生更活跃的Tn5转座酶(Tn5-Tnp)，增强了转座子和相关转座酶的实用性。这些被集体地和单独地称为过度活跃或超形式(由超-Tn5-Tnp驱动的超-Tn5)。携带突变E54K、M56A和L372P的Tn5转座酶是常用的超形式(参见美国专利号5965443，其内容通过引用整体并入本文)。

现已将Tn5转座酶用于产生用于下一代测序(NGS)的测序文库(Picelli等人(2014)Genome Research.2014.24：2033-2040)。简而言之，纯化的转座酶和合成的ds-DNAES在体外组装以形成转座体。当这些超-Tn5-Tsomes与DNA靶标接触时，它们插入多个但不完全随机的位置。因为末端序列是分开的，并且不像它们在天然突触复合物中那样连接，结果是DNA的切割，其中ES安装在切割末端。一旦添加衔接子，可以通过各种方法由这些切割的片段制备测序文库。可以在组装转座体之前将这种衔接子序列添加到ES的末端。

基于转座酶的DNA测序文库的产生面临许多挑战，这些挑战在本公开之前尚未解决。技术挑战涉及克服这样的事实：单个转座体仅能够进行单次插入切割事件，并且该复合物随后不会被释放以插入和切割其他地方。因此，现有技术难以控制插入尺寸。该方法对DNA输入量敏感并且存在显着的插入位点偏倚。这种偏倚是由以下事实引起的：尽管转座体可以插入不同的位点，但它对多种DNA序列显示出多种偏好，达到可以确定共有的优选序列的程度。因此，插入模式是半随机的，并且转座体能够被认为是序列特异性DNA结合复合物，尽管其具有高度不完全的序列识别。

定义

如在整个公开中所使用的，单数形式“一”，“一个”和“该”包括复数指示物，除非上下文另有明确说明。因此，例如，提及“一种方法”包括多种这样的方法，并且提及“一种转座酶”包括对一种或多种转座酶及其本领域技术人员已知的等同物，等等。

本公开内容提供了分离的或基本上纯化的多核苷酸或蛋白质组合物。“分离的”或“纯化的”多核苷酸或蛋白质或其生物活性部分，基本上或本质上不含有以下组分：通常与多核苷酸或蛋白质相伴或相互作用的组分，如在其自然存在的环境中所发现的那样。因此，当通过重组技术产生时，分离的或纯化的多核苷酸或蛋白质基本上不含其他细胞物质或培养基，或当化学合成时基本上不含化学前体或其他化学物质。最佳地，“分离的”多核苷酸(最佳蛋白质编码序列)不含在该多核苷酸源自的生物体基因组DNA中天然地位于该多核苷酸侧翼的序列(即，位于多核苷酸的5'和3'末端的序列)。例如，在各种实施方式中，分离的多核苷酸能够含有少于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的在该多核苷酸侧翼源自的细胞基因组DNA中天然地位于该多核苷酸侧翼的核苷酸序列。基本上不含细胞物质的蛋白质包括以下蛋白质制剂：该蛋白质制剂含有少于约30％、20％、10％、5％或1％(以干重计)污染蛋白质。当重组产生本公开的蛋白质或其生物活性部分时，最佳培养基存在小于约30％、20％、10％、5％或1％(以干重计)的化学前体或非目标蛋白质的化学物质。

本公开提供了所公开的DNA序列的片段、变体、突变体(突变)和由这些DNA序列编码的蛋白质。如在整个公开中所使用的，术语“片段”是指DNA序列的一部分或氨基酸序列的一部分，以及因此由其编码的蛋白质。包含编码序列的DNA序列的片段可以编码保留天然蛋白质的生物活性并且因此保留对本文所述的靶DNA序列的DNA识别或结合活性的蛋白质片段。替代地，可用作杂交探针的DNA序列片段通常不编码保留生物活性的蛋白质或不保留启动子活性。因此，DNA序列的片段可以从至少约20个核苷酸、约50个核苷酸、约100个核苷酸，并且直至本公开的全长多核苷酸。

本公开的核酸或蛋白质能够通过模块化的方法构建，包括预组装靶载体的单体单元和/或重复单元，靶载体随后能够组装成最终的目标载体。本公开的多肽可以包含本公开的重复单体，并且能够通过预组装靶载体中的重复单元通过模块化方法构建，靶载体随后能够组装成最终的目标载体。本公开提供了通过该方法产生的多肽以及编码这些多肽的核酸序列。本公开提供了包含编码该模块化方法产生的多肽的核酸序列的宿主生物和细胞。

“结合”是指大分子之间(例如，蛋白质和核酸之间，或两蛋白质之间)的特异性非共价相互作用。这种特异性结合通常基于特定结构基序之间的特定相互作用，特定结构基序通常但不总是反映在天然生物环境中存在的那些。

“序列特异性结合”是指大分子之间(例如，蛋白质和核酸之间)的序列特异性非共价相互作用。并非结合相互作用的所有组分都需要是序列特异性的(例如，与DNA骨架中磷酸残基的接触)，只要整个相互作用是序列特异性的。术语“序列特异性结合”不限于强的、窄的序列偏好，而且还包括由分子显示的弱的偏好，该分子可以在多种多核苷酸靶标处结合，但对某些相对于另一些有偏好。这种结合还可称为“半随机序列结合”或“偏倚序列结合”。

术语“优先结合”是指转座酶或转座体(活性或非活性)与靶DNA(例如基因组DNA)内的序列结合的分级顺序。本公开的转座酶或转座体(活性或非活性)将优先结合某个位点，并且因此这些优选序列比替代序列更容易被占据。当这些优选序列被占据时，转座酶或转座体(活性或非活性)可以更自由结合替代的和不太优选的序列。在饱和浓度下，转座酶或转座体(活性或非活性)将结合所有可用的序列；但是，优选位点将趋于首先被占用。因此，在本发明的转座酶或转座体(活性或非活性)的低浓度下，首先被占据的序列被“优先结合”。

术语“包含”旨在指组合物和方法包括所列举的要素，但不排除其他要素。当用于定义组合物和方法时，“基本上由......组成”是指当用于预期目的时排除对该组合具有任何本质意义的其他要素。因此，基本上由本文定义的元素组成的组合物不排除痕量污染物或惰性载体。“由......组成”是指排除其他成分和实质性方法步骤的痕量要素。由这些过渡术语中的每一个定义的实施方式都在本公开的范围内。

如本文所用，“表达”是指多核苷酸转录成mRNA的过程和/或转录的mRNA随后被翻译成肽、多肽或蛋白质的过程。如果多核苷酸源自基因组DNA，则表达可包括在真核细胞中mRNA的剪接。

“基因表达”是指包含在基因中的信息转化为基因产物。基因产物可以是基因的直接转录产物(例如，mRNA、tRNA、rRNA、反义RNA、核酶、shRNA、微RNA、结构RNA或任何其他类型的RNA)或通过mRNA翻译产生的蛋白质。基因产物还包括通过以下方法修饰的RNA：诸如加帽、聚腺苷酸化、甲基化和编辑；以及通过以下方法修饰的蛋白质：例如甲基化、乙酰化、磷酸化、泛素化、ADP-核糖基化、豆蔻酰化(myristilation)和糖基化。

公开了非共价连接的组分以及制备和使用非共价连接组分的方法。各种组分可采用如本文所述的各种不同形式。例如，可以使用非共价连接(即可操作地连接)的蛋白质以允许临时的相互作用，这避免了本领域中一个或多个问题。非共价连接组分(例如蛋白质)缔合和解离的能力仅或主要在期望的活性需要这种缔合的情况下能够进行功能性缔合。连接可以具有充足的持续时间以允许期望的效果。

“结合位点”或“结合序列”是定义了转座酶、DNA衔接子和/或转座体将结合(如果存在足够的结合条件)的核酸的一部分的靶核酸序列。

“共有序列”是定义了转座酶、DNA衔接子和/或转座体将结合(如果存在足够的结合条件)的核酸的一部分的靶核酸序列，其存在于结合序列或结合位点的超过一种变体中。尽管本公开的转座酶、DNA衔接子和/或转座体可优选结合第一序列，但如果包含该序列的所有位点被占据了，则本发明的转座酶、DNA衔接子和/或转座体可结合第二序列，该第一和第二序列包含共有序列。例如，在第一和第二序列比对时，尽管一个或多个碱基可以变化，但是不变的剩余碱基可以包含共有序列。

在整个公开中，术语“靶”和“输入”DNA可以互换使用。

术语“核酸”或“寡核苷酸”或“多核苷酸”是指共价连接在一起的至少两个核苷酸。单链的描述还定义了互补链的序列。因此，核酸还可包括所描绘的单链的互补链。本公开的核酸还包括基本上相同的核酸及其互补物，其保留相同的结构或编码相同的蛋白质。

本公开的核酸可以是单链的或双链的。即使当大部分分子是单链时，本发明的核酸也可以含有双链序列。即使当大部分分子是双链时，本公开的核酸也可以含有单链序列。本公开的核酸可以包括基因组DNA、cDNA、RNA或其杂合体。本公开的核酸可以含有脱氧核糖核苷酸和核糖核苷酸的组合。本发明的核酸可以含有碱基的组合，碱基包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤次黄嘌呤、异胞嘧啶和异鸟嘌呤。可以合成本公开的核酸以包含非天然氨基酸修饰。本发明的核酸可以通过化学合成方法或通过重组方法获得。

本公开的核酸，无论是其整个序列，还是其任何部分，可以是非天然存在的。本公开的核酸可含有一种或多种非天然存在的突变、取代、缺失或插入，使得整个核酸序列非天然存在。本公开的核酸可含有一个或多个复制的、反向的或重复的序列，其所得序列不是天然存在的，使得整个核酸序列是非天然存在的。本公开的核酸可以含有非天然存在的修饰的、人工的或合成的核苷酸，使得整个核酸序列非天然存在。

鉴于遗传密码中的冗余，多个核苷酸序列可编码任何特定蛋白质。本文设想了所有这样的核苷酸序列。

如在整个公开中所使用的，术语“基本上互补”是指第一序列与第二序列的互补序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、180、270、360、450、540或更多核苷酸或氨基酸区域内至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％或99％相同，或者两个序列在严格杂交条件下杂交。

如在整个公开中所使用的，术语“基本上相同”是指第一和第二序列，在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、180、270、360、450、540或更多核苷酸或氨基酸的区域内至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％或99％相同，或者对于核酸，如果第一序列与第二序列的互补序列基本上互补。

如在整个公开中所使用的，术语“完全互补性”是指第一和第二序列彼此杂交而没有沿核酸双链体长度上的碱基缺口或错配。例如，根据Watson-Crick碱基配对规则，第一和第二序列可以彼此杂交并具有完全的互补性。

如在整个公开中所使用的，术语“不完全互补性”是指第一和第二序列彼此杂交而没有沿着核酸双链体长度上的一个或多个碱基的一个或多个缺口或者一个或多个错配。例如，第一和第二序列可以相互杂交，沿核酸双链体长度上碱基之间彼此杂交70％、75％、80％、85％、90％、95％、99％或任何百分比。

如在整个公开中所使用的，当用于描述核酸时，术语“变体”是指(i)所指核苷酸序列的一部分或片段；(ii)所指核苷酸序列的互补序列或其部分；(iii)与所指核酸或其互补序列基本相同的核酸；或(iv)在严格条件下与所指核酸、其互补序列或与其基本相同的序列杂交的核酸。

如在整个公开中所使用的，当用于描述肽或多肽时，术语“变体”是指通过氨基酸的插入、缺失或保守取代而在氨基酸序列上不同，但保留至少一种生物活性的肽或多肽。变体还可以指其氨基酸序列与所指蛋白质基本相同的蛋白质，具有保留至少一种生物活性的氨基酸序列。

氨基酸的保守取代，即用具有相似性质的不同氨基酸(例如，带电区域的亲水性、强度和分布)替换氨基酸，在本领域中被认为通常涉及微小变化。如本领域所理解的，可以通过考虑氨基酸的亲水指数来部分地鉴定这些微小变化。Kyte等人，J.Mol.Biol.157:105-132(1982)。氨基酸的亲水指数基于其疏水性和电荷的考虑。具有相似亲水指数的氨基酸可被取代并仍保留蛋白质功能。在一个方面，具有±2的亲水指数的氨基酸被取代。氨基酸的亲水性也可用于揭示导致蛋白质保留生物学功能的取代。在肽的背景下考虑氨基酸的亲水性允许计算该肽的最大局部平均亲水性，据报道该有用的度量与抗原性和免疫原性良好相关。美国专利No.4,554,101，通过引用全部并入本文。

具有相似亲水性值的氨基酸的取代能够导致肽保留生物活性，例如免疫原性。可以用亲水性值在彼此±2内的氨基酸进行取代。氨基酸的疏水性指数和亲水性值都受该氨基酸的特定侧链的影响。与该观察结果一致，与生物功能相容的氨基酸取代被理解为取决于氨基酸的相对相似性，并且特别是那些氨基酸的侧链，如疏水性、亲水性、电荷、尺寸和其他性质所揭示的。

如本文所用，“保守”氨基酸取代可以如下表A、表B或表C中所示限定。在一些实施方式中，融合多肽和/或编码此类融合多肽的核酸包括通过修饰编码本公开多肽的多核苷酸引入的保守取代。可根据物理性质和对二级和三级蛋白质结构的贡献对氨基酸进行分类。保守取代是将一个氨基酸取代为具有相似性质的另一种氨基酸。示例性保守取代列于表A中。

表A--保守取代I

替代地，保守氨基酸可以如Lehninger(Biochemistry,Second Edition；WorthPublishers,Inc.NY,N.Y.(1975),pp.71-77)中所述进行分组，如表B所示。

表B--保守取代II

替代地，在表C中列出示例性保守取代。

表C--保守取代III

原始残基	示例性取代
		Ala(A)	ValLeuIleMet
Arg(R)	LysHis
		Asn(N)	Gln
Asp(D)	Glu
		Cys(C)	SerThr
Gln(Q)	Asn
		Glu(E)	Asp
Gly(G)	AlaValLeuPro
		His(H)	LysArg
Ile(I)	LeuValMetAlaPhe
		Leu(L)	IleValMetAlaPhe
Lys(K)	ArgHis
		Met(M)	LeuIleValAla
Phe(F)	TrpTyrIle
		Pro(P)	GlyAlaValLeuIle
Ser(S)	Thr
		Thr(T)	Ser
Trp(W)	TyrPheIle
		Tyr(Y)	TrpPheThrSer
Val(V)	IleLeuMetAla

应当理解，本公开的多肽旨在包括具有一个或多个氨基酸残基的插入、缺失或取代或其任何组合的多肽以及氨基酸残基除插入、缺失或取代之外的修饰。本公开的多肽或核酸可以含有一个或多个保守取代。

如在整个公开中所使用的，术语“超过一个”上述氨基酸取代是指2、3、4、5、6、7、8、9、10、11、12、13、14，15、16、17、18、19或20或更多个所述氨基酸取代。术语“超过一个”可以指2、3、4或5个所述氨基酸取代。

本公开的多肽和蛋白质，无论其整个序列，还是其任何部分，可以是非天然存在的。本公开的多肽和蛋白质可含有一个或多个不是天然存在的突变、取代、缺失或插入，使得整个氨基酸序列非天然存在。本公开的多肽和蛋白质可含有一个或多个复制的、反向的或重复的序列，其所得序列不是天然存在的，使得整个氨基酸序列非天然存在。本公开的多肽和蛋白质可含有不是天然存在的修饰的、人造的或合成的氨基酸，使得整个氨基酸序列非天然存在。

如在整个公开中所使用的，“序列同一性”的确定可以通过使用用于BLAST分析两个序列(bl2seq)的独立可执行BLAST引擎程序，其可以从国家生物技术信息中心(NCBI)ftp站点检索，使用默认参数(Tatusova和Madden,FEMS Microbiol Lett.,1999,174,247-250；其全部内容通过引用并入本文)。当在两个或更多个核酸或多肽序列的背景中使用时，术语“相同”或“同一性”是指在每个序列的指定区域上指定百分比的相同残基。该百分比可以通过以下来计算：最佳地比对两个序列，在特定区域上比较两个序列，确定在两个序列中存在相同残基的位置的数量，以得到匹配位置的数量，将匹配位置的数量除以指定区域中的位置总数，并将结果乘以100以得到序列同一性的百分比。在两个序列具有不同长度或者比对产生了一个或多个交错末端并且指定的比较区域仅包括单个序列的情况下，单个序列的残基包括在计算的分母中而不包括在分子中。当比较DNA和RNA时，胸腺嘧啶(T)和尿嘧啶(U)可被认为是等同的。同一性可以手动进行或通过使用计算机序列算法诸如BLAST或BLAST2.0进行。

如在整个公开中所使用的，术语“内源的”是指核酸或蛋白质序列与其所引入的靶基因或宿主细胞天然相关。

除非另有说明，否则所有百分比和比率均按重量计算。

除非另有说明，否则所有百分比和比率均基于总组合物计算。

整个公开给出的每个最大数值限制包括每个较低的数值限制，如同这些较低的数值限制在本文中明确写出一样。整个公开给出的每个最小数值限制包括每个更高的数值限制，如同这些较高的数值限制在本文中明确写出一样。整个公开给出的每个数值范围将包括落入这个更宽数值范围内的每个更窄的数值范围，如同这些更窄的数值范围全在本文中明确写出一样。

本文公开的数值不应理解为严格限于所述的确切数值。相反，除非另有说明，否则每个这样的数值旨在表示所引用的数值和围绕该值的功能等效范围两者。例如，公开为“20μm”的值旨在表示“约20μm”。

除非明确排除或以其他方式限制，否则本文引用的每篇文件，包括任何交叉引用的或相关的专利或申请，均通过引用整体并入本文。任何文件的引用并不是承认它是关于本文公开或要求保护的任何发明的现有技术，或者其单独的或与任何其他一个或多个参考文献的任何组合，教导、暗示或公开任何这样的发明。此外，如果在本文件中术语的任何含义或定义与通过引用并入的文件中的相同术语的任何含义或定义相冲突，则以本文件中赋予该术语的含义或定义为准。

虽然已经说明和描述了本公开的特定实施方式，但是能够进行各种其他改变和修改，而不脱离本公开的精神和范围。所附权利要求的范围包括在本公开范围内的所有这些改变和修改。

实施例

为了可以更有效地理解本文公开的发明，下面提供实施例。应该理解的是，这些实施例仅用于说明目的，不应被解释为以任何方式限制本发明。在这些实施例中，分子克隆反应和其它标准重组DNA技术根据以下方法进行：(1)在Maniatis et al.,MolecularCloning-ALaboratory Manual,2nd ed.,Cold Spring Harbor Press(1989)中描述的方法，使用商购试剂，(2)使用商业试剂盒和试剂的供应商推荐的方法，除非另有说明。在这些实施例中，除非另有说明，否则根据商业试剂盒和试剂的供应商推荐的方法进行蛋白质表达、纯化、测定和可视化以及其他标准蛋白质生产技术。

实施例1：转座酶的鉴定、克隆和表达。

已经鉴定了在不同的IS4型插入序列中发现的代表4种转座酶的序列。插入序列发现于以下细菌的基因组中：潮汐异希瓦氏菌、霍乱弧菌、哈维氏弧菌(Vibrio harveyi)、腐败希瓦氏菌(Shewanellaputrefaciens)。该转座酶与公知的Tn5转座酶显着不同，如下表1所示。

表1

以下提供了相关转座酶的蛋白质序列：

超活性Tn5-Tnp是野生型转座酶的突变型形式，在其中并入了突变型E54K、M56A和L327P(突变在下面的序列中加粗并加下划线)。

TnAa-Tnp来自潮汐异希瓦氏菌(野生型序列如下)：

TnVc-Tnp来自霍乱弧菌(野生型序列如下)：

TnVh-Tnp来自哈维氏弧菌(野生型序列如下)：

TnSp-Tnp来自腐败希瓦氏菌(野生型序列如下)：

将候选转座酶基因克隆到pET29(Novagen)表达载体中，其与大肠杆菌宿主中的C末端HIS标签融合。通过自动诱导诱导克隆基因的表达。通过标准方法纯化转座酶。简言之：通过离心收集来自50ml诱导的培养物的沉淀，并在冰上重悬于4ml 1×LEW缓冲液(50mMNaH₂PO₄,300mM NaCl，pH 8.0)中。通过-80℃下冷冻和解冻2个循环裂解细胞，然后在10mMMgCl₂存在下用核酸酶benzonase在冰上处理30分钟。离心后，将上清液负载到预平衡的Protino Ni-TED 2000填充重力流动柱上，温度为4℃。将柱用4mL1×LEW缓冲液在4℃洗涤两次，并用1×洗脱缓冲液(50mM NaH₂PO₄,300mM NaCl，250mM咪唑，pH 8.0)在4℃进行洗脱。收集500μL洗脱级分，并通过分光光度法测量各个级分的蛋白质浓度，以鉴定携带最多His标签蛋白质的级分。

负载10μL级分样品并在10％SDS-PAGE凝胶上分离。结果显示在图1中。仅示出了每个样品含有最高转座酶水平的那些级分。转座酶预计为约55kDa。从SDS-PAGE分析可以看出，来自潮汐异希瓦氏菌的野生型转座酶(图1，TnAa-Tnp，泳道4和8)在不同的转座酶候选物中给出了最高产量，而来自霍乱弧菌的野生型转座酶(图1，TnVc-Tnp，泳道3和7)也给出了显着的产率。其他候选物表达的转座酶很少。

实施例2：测试转座酶的标签片段化能力。

测试野生型转座酶TnVc-Tnp和TnAa-Tnp标签片段化800ngλDNA的能力。这是通过以下来完成的：将转座酶负载不同类型DNA臂、标签片段化λDNA并对纯化的标签片段化DNA进行PCR以扩增标签片段化的DNA。此后，通过凝胶电泳可视化PCR产物。简述：

臂的类型：在每个转座酶的情况下分别负载四种不同类型的臂，这些臂基于：(a)超Tn5的嵌合末端，这些臂称为ME Hyp；(b)来自哈维氏弧菌的转座子的嵌合末端，这些臂被称为ME Har；(c)超Tn5的外端，这些臂被称为OE Hyp；(d)来自哈维氏弧菌的转座子的内端，这些臂被称为IE Har。

表达和纯化：基本上如实施例1所述，使用200mL诱导的培养物纯化TnAa-Tnp和TnVc-Tnp。纯化后，合并含有转座酶的级分并使用Microcon YM-10离心过滤器浓缩。使用含有Sephadex G-50DNA的NICK尺寸排阻柱进行了缓冲液交换。用50mM Tris-Cl pH 7.4，250mM KCl洗脱纯化的样品，并以50μL收集级分。

制备臂：从IDT获得寡核苷酸。将包含每个臂的两个寡核苷酸通过等摩尔量混合以及加入20×谷氨酸盐钾(500mM谷氨酸盐钾；200mM Tris-乙酸盐，pH7.5)进行退火，并在25℃下在热循环仪中温育60s。然后在90℃下保持30s，随后以2％缓慢降至20℃，之后在20℃保持5min，并且最后保持在4℃。

负载臂以制备转座体：将6.7μL TnAa-Tnp(1.79mg/mL)与6.7μL各组臂混合；将4μLTnVc-Tnp(4.96mg/mL)与4μL各组臂混合，并将混合物在环境温度下温育70min。

标签片段化反应：将20μL 4×转座缓冲液(25mM Tris-乙酸盐pH 7.5,25mM谷氨酸钾，10mM MnCl₂)与20μΜλDNA(40μg/mL)、10μL退火的臂和30μL H₂O混合。将70μL该混合物加入到8μL负载的转座酶中，并在47℃下孵育25min。对照反应是相同的，除了使用未负载的转座酶(未负载的Aa，未负载的Vc)或不使用转座酶(不加酶)。

扩增：用Qiagen酶纯化试剂盒纯化反应物，并且根据制造商的说明书使用以下进行PCR：臂特异性引物、5μL纯化的标签片段化反应物/20μL PCR和Kapa Biosystems 2GRobust聚合酶。如下将样品进行了循环：72℃持续4min，(94℃持续40sec，56℃持续45sec，72℃持续2min)×20，72℃持续10min。

可视化：扩增后，在0.8％琼脂糖凝胶上分离了PCR产物。结果如图2所示。

预期功能性转座酶产生大量不同尺寸的PCR产物，并且这在凝胶上显示为“拖尾状”。这可以在图2中看到，其中片段尺寸可以大于2kb。标签片段化失败的地方只能看到短产物。标签片段化仅在野生型TnAa-Tnp中成功。臂ME Hyp、OE Har和IE Har似乎特别适用于该方法

实施例3：缓冲液修饰和甘油的包含。

测试了不同的缓冲液添加剂以确定使用野生型TnAa转座体的标签片段化效率是否可以进一步提高。进行了标准的标签片段化反应，但缓冲液中包括了不同的添加剂。初步结果证明，甘油大大提高了标签片段化。因此进行了进一步的测试。简而言之，基本上如实施例2所述进行了标签片段化，但具有以下差异：

臂：使用了ME-Hyp臂。

负载臂以制备转座体：将1.44mg/mLTnAa-Tnp(27μM，在20mM PIPES pH 7.5，250mMKCl，50％甘油中)与等体积的ME Hyp臂(50μM)组合，并在环境温度下温育80min。

标签片段化反应：将1μL大肠杆菌DNA(50ng)与4μL负载的TnAa-Tnp和1.2μL MEHyp臂(50μM)混合。这最终制成最终体积为20μL，并且最终组合物为25mM Tris-乙酸盐pH 7.5、10mM MnCl₂、10mM NaCl、15％DMSO和0.05％NP40/Igepal CA630，具有各种甘油浓度。制备了具有0％，5％，10％，20％和40％甘油浓度的五种不同混合物。将混合物在47℃下温育50min。

扩增和可视化：这基本上与实施例2相同，除了使用高灵敏度DNA芯片在安捷伦生物分析仪2100上分离样品，或使用DNAHiSens芯片在Perkin Elmer Labchip GXII TouchHT上分离样品。

结果如图3所示。发现向标签片段化期间使用的缓冲液中加入甘油提高了标签片段化效率。在该实验中，由于更多的标签片段化和因此更高水平的靶切割，提高的效率将表现为文库片段尺寸的减少。甘油的增强作用能够在图3中看到，其中无甘油缓冲液导致大片段(青色线，效率较低)，而包含增加量的甘油导致更短的片段，其中40％甘油导致最短片段(红线，效率更高)。

实施例4：TnAa转座酶的突变。

在Tn5-Tnp中，E54K突变增加了酶对负载臂的能力，从而提高了整个转座效率；它是用于创建Tn5-Tnp过度活跃形式的突变之一。为了提高TnAa-Tsome的活性和文库制备效率，将等同突变插入TnAa-Tnp中。

如下所示，通过比对鉴定了TnAa-Tnp中的等同位置。在TnAa-Tpn中，等同位置(位置47)包含脯氨酸残基。我们将其改为赖氨酸以产生TnAa转座酶(TnAa-Tnp-P47K)的P47K突变体。

在另一种过度活跃的Tn5-Tnp中，除E54K外还包括两种其他突变体。这些是M56A和L372P。虽然在TnAa-Tnp中没有位置(下面，框中)对应于L372位置，但是Tn5-Tnp中M56的相应位置是TnAa-Tnp中的M50。该内部甲硫氨酸可以是内部翻译起始位点，其导致截短的抑制剂蛋白的产生(下面以粗体斜体显示)。在野生型TnAa-Tnp和TnAa-Tnp-P47K突变体中该位置已经改变，以产生突变形式TnAa-Tnp-M50A和TnAa-Tnp-P47K/M50A。

对于Tn5-Tnp-E54K/M56A，比对以下：Tn5_wt(SEQ ID NO：20)，Hperactive_Tn5(SEQ ID NO：21)，TnAa_wt(SEQ ID NO：22)，Shew_putre(SEQ ID NO：23)Vib_chol(SEQ IDNO：24)，Vib_harveyi(SEQ ID NO：25)。

对于Tn5-Tnp-L372，比对以下：Tn5_wt(SEQ ID NO：26)，Hperactive_Tn5(SEQ IDNO：27)，TnAa_wt(SEQ ID NO：28)，Shew_putre(SEQ ID NO：29)，Vib_chol(SEQ ID NO：NO：30)，Vib_harveyi(SEQ ID NO：31)。

以下提供了突变转座酶TnAa-Tnp-P47K、TnAa-Tnp-M50A和TnAa-Tnp-P47K/M50A的序列。

基本上如上所述表达和纯化突变转座酶。虽然最初证明M50A突变体难以使用，但P47K突变转座酶可以纯化至有用水平。TnAa-Tnp-P47K用于进行标签片段化实验，并在同一实验中与野生型TnAa-Tnp比较，基本上如前所述。简而言之，基本上如实施例2和3所述进行标签片段化，具有以下差异：

臂：使用了ME/R1R2臂。这包括两种类型臂的等摩尔混合物，每一种是与不同测序衔接子(R1或R2)结合的标准嵌合末端(ME)，如下所示

负载臂以制备转座体：以酶:臂比为1:2负载。将1.5mg/mL TnAa-Tnp与等体积的ME/R1R2臂(50μM)组合，并将0.75mg/mL TnAa-Tnp-P47K与等体积的ME/R1R2臂(25μM)组合。

标签片段化反应：将1μL大肠杆菌DNA(50ng)与2μL负载的TnAa-Tnp或4μL负载的TnAa-Tnp-P47K混合。最终使其最终体积为20μL，最终组合物为：25mM Tris-乙酸盐pH 7.5、10mM MnCl₂、20％甘油、15％DMSO和0.05％NP40。将混合物在47℃下温育5min

扩增：用Qiagen酶促清洁试剂盒纯化反应物，如上在实施例2中所述，但以15μL进行洗脱。根据制造商的说明，使用以下进行了PCR：R1和R2臂特异性引物、使用13μL纯化的标签片段化反应物/50μL PCR和Kapa Biosystems HiFi PCR试剂盒。如下将样品进行了循环：72℃持续3min、98℃持续30sec，(98℃持续15sec，56℃持续30sec，72℃持续3min)×6、72℃持续10分钟。扩增后，使用2×体积的AMPure XP试剂(Beckman Coulter)纯化DNA，最后根据制造商的说明，以10μL 10mM Tris-HCl，pH8进行洗脱。

可视化：这基本上与实施例3相同；将样品在安捷伦生物分析仪2100或PerkinElmer Labchip GXII Touch HT上分离。

结果如图4所示。生物分析仪迹线证明了P47K突变转座体表现出了更好的标签片段化效率，如通过产生了比野生型复合体(图4；蓝线＝TnAa-Tnp野生型)更短的片段所示(图4；红线＝TnAa-Tnp-P47K突变体)。

实施例5：优选的标签片段化方法。

在TnAa-Tnp的开发及其用于标签片段化的过程中，开发了优化方案。该方案用作后续工作的基础(根据特定实验的需要进行修改)。该方案有几个步骤，如下：

臂制备：寡核苷酸获得自商业供应商。将每种寡核苷酸重悬于20mM PIPES pH7.5中至100μM。然后通过混合等体积的两种互补寡核苷酸双链化寡核苷酸，加入20×谷氨酸钾(500mM谷氨酸钾；200mM Tris-乙酸盐，pH7.5)，并在热循环仪中将混合物在在25℃下温育60s，然后在90℃下30s，然后以2％缓慢降至20℃，之后将混合物在20℃下保持5min。用20mMPIPES pH7.5将寡核苷酸双链体(现称为“臂”)稀释至25μM，并储存在-20℃。能够使用不同的寡核苷酸和臂(下面指定)。通常，寡核苷酸之一是嵌合末端逆向互补链(Mosaic EndReverse Compliment，ME-RC，如实施例4中所示)；这是非转移链。

负载臂以制备转座体：以1:1的臂:转座酶摩尔比负载臂；通常将25μM臂与等体积未负载的转座酶(0.72mg/mL，53.3％甘油，333mM KCl和20mM PIPES，pH7.5)组合。将混合物在47℃温育60min，在此期间发生臂的负载和转座体的组装。温育后，转座体(负载各自臂的转座酶)的浓度为0.36mg/mL(在166.7mM KCl，26.7％甘油和20mM PIPES中，pH 7.5)。然后将转座体样品用储存缓冲液(166.7mM KCl，52.9％甘油，20mM PIPES，pH 7.5)稀释至0.18mg/mL浓度，最终缓冲液制剂为166.7mM KCl，39.8％甘油和20mM PIPES，pH 7.5。

标签片段化反应：对于每个标签片段化反应，将不同量(下面指定)的DNA与10μL 2×反应缓冲液(40％甘油，30％DMSO，50mM Tris乙酸盐，pH 7.5)，2μL 10×氯化锰混合(各种浓度)和4μL转座体(各种浓度)组合以至终体积为20μL。通常，对于大量靶DNA(例如50ng)，将使用2μL氯化锰(100mM)和4μL转座体(0.18mg/mL)。通常，对于少量靶DNA(例如1ng)，将使用2μL氯化锰(10mM)和4μL转座体(0.0.2mg/mL)。将反应物在具有加热盖(105℃)的热循环仪中于55℃下温育5min。通过加入20μL终止溶液(4.5M GHCl，25mM Tris-HCl，pH8)立即终止反应，并在室温下温育5min。使用不同体积(下文指定)的AMPure XP试剂(Beckman Coulter)纯化DNA，最后根据制造商的说明使用10mM Tris-HCl，pH8进行洗脱。在一些情况下，标签片段化的DNA能够在琼脂糖凝胶上分离和可视化。

扩增：使用不同体积(下文指定)洗脱的标签片段化的DNA用于扩增。能够使用不同的PCR试剂盒和条件(下文指定)。扩增后，使用不同体积(下文指定)的AMPure XP试剂(Beckman Coulter)纯化产物，最后使用10mM Tris-HCl pH8进行洗脱。

可视化：样品能够在琼脂糖凝胶上分离，或在安捷伦生物分析仪2100上使用高灵敏度DNA芯片分离，或在Perkin Elmer Labchip GXII Touch HT上使用DNAHiSens芯片分离。

实施例6：锰浓度对标签片段化的影响。

研究了锰浓度对标签片段化效率和片段长度的影响。使用了TnAa-Tnp-P47K以在反应中使用不同锰浓度进行标签片段化实验。基本上如实施例5所述标签片段化，具有以下特定条件：

标签片段化反应：使用1ng大肠杆菌DNA作为靶标。锰的最终浓度为1mM至0.0125mM，而转座体保持在80ng/反应。标签片段化后，使用3×体积的AMPure XP试剂(Beckman Coulter)纯化DNA，最后使用10uL 10mM Tris-HCl，pH8进行洗脱。

扩增：根据制造商的说明，使用R1和R2臂特异性引物、8uL标签片段化的DNA和KapaBiosystems HiFi PCR试剂盒进行PCR。将样品扩增12个循环。扩增后，使用3×体积的AMPure XP试剂(Beckman Coulter)纯化DNA，最后使用20μL 10mM Tris-HCl，pH8进行洗脱。

可视化：在安捷伦生物分析仪2100上分离未稀释的样品。

结果如图5所示。使用3×体积的AMPure XP试剂确保即使小片段保留到过程结束，因此迹线反映了标签片段化工作的程度。在此示例中，迁移时间用作片段尺寸的代表。较短的迁移时间证明片段较短，并且发生了更多标签片段化。生物分析仪迹线证明了P47K突变转座体在1mM锰存在下显示出有效的标签片段化(图5；红线)，如短片段的产生所示。逐渐减少的锰导致逐渐减少的标签片段化和更大的片段。

实施例7：转座体浓度对标签片段化的影响。

研究了转座体浓度对标签片段化效率和片段长度的影响。使用了TnAa-Tnp-P47K以在反应中使用不同量的转座体进行标签片段化实验。基本上如实施例5和实施例6所述进行标签片段化，具有以下特定条件：

臂：使用ME/R1R2臂。其包括两种类型臂的等摩尔混合物，每一种是与不同测序衔接子(R1或R2)结合的标准嵌合末端(ME)，如下所示。

标签片段化反应：使用了1ng大肠杆菌DNA作为靶标。转座体在80ng至5ng/反应之间变化，而锰保持在1mM。标签片段化后，使用3×体积的AMPure XP试剂(Beckman Coulter)纯化DNA，最后使用22uL 10mM Tris-HCl，pH8进行洗脱。

扩增：根据制造商的说明，使用R1和R2臂特异性引物、20uL标签片段化的DNA和Kapa Biosystems HiFi PCR试剂盒进行PCR。将样品扩增12个循环。扩增后，使用3×体积的AMPure XP试剂(Beckman Coulter)纯化DNA，最后使用30μl 10mM Tris-HCl，pH8进行洗脱。

可视化：在安捷伦生物分析仪2100上分离未稀释的样品。

结果如图6所示。使用3×体积的AMPure XP试剂确保即使是小片段也保留到过程结束，因此迹线反映了标签片段化工作的程度。较短的片段证明正在发生更多标签片段化。生物分析仪的迹线证明了，在1mM锰的存在下，P47K突变转座体在高浓度下显示出有效的标签片段化(例如80ng/反应，图5；蓝线)，如短片段的产生所示。逐渐减少的转座子导致逐渐减少的标签片段化和更大的片段。

实施例8：片段化特征，靶标饱和度和转座体竞争物控制的概念。

锰和转座体测定的结果可以解释如下：很明显，转座体水平和锰水平都影响转座体的活性(定义为靶DNA中的切割数除以靶DNA的质量)。减少转座体对靶DNA靶标的比率引起尺寸增加。类似地，使辅助因子(例如锰)的反应缺乏导致片段尺寸增加(图7A)。如果存在过量的转座体，并且反应没有另外限制，则产生具有由约40个碱基对分开的插入位点的短片段。应注意，图6中示出的约200bp片段尺寸的峰数值(和图5中60sec迁移时间的等效峰)代表40bp的插入位点分离，因为片段包括ES和衔接子序列。

似乎存在绝对限制，超过该限制就不能制造更小的片段。这意味着如果添加过量的锰和转座体，则靶DNA的每个区域都被结合并最终被切割，并且插入位点之间最小的40bp是由于空间限制(图7A)。

相反，如果转座体或锰(或可能的其他必需因子)是限制性的，则复合物将倾向于首先在转座体的优选位点结合并切割。转座体在切割后仍然结合在插入位点处，因此它不能逃逸并且不能在其他较不优选的位点切割(图7B)。仅转座体进一步添加将导致那些额外复合物在靶DNA上较不优选位点处结合和切割。

如果正是这种情况，则当DNA被转座体饱和时插入偏倚应该更低，因为最终不太优选的位点被切割了，而不仅仅是优选位点。将在对转座酶保持开放的剩余“停放空间”内的偏好水平上选择优选结合位点。相反，当转座体以某种方式受限时，插入偏倚应该高，例如通过辅助因子缺乏或低转座体浓度，因为首先使用优选位点，并且因为转座体不足而较不优选逃逸切割。

因此，如果活性转座体(能够在靶标位点结合、切割和插入)和非活性转座体(能够结合，但不能在靶标位点切割或插入)的混合物与靶DNA接触，然后活性和非活性复合物将竞争每个潜在的结合位点，并且活性和非活性复合物的比例将影响片段尺寸和插入偏倚两者(图7C)。

实施例9：包含活性和非活性转座体的组合物。

本公开的非活性转座体以与活性转座体相同的效率和偏倚结合靶DNA，然而，非活性的转座体不会在任何程度或任何位点(甚至在DNA缺口)切割靶DNA。相反，本公开的活性转座体结合靶DNA并在其结合的每个位点切割靶DNA。

本公开的组合物可以包含非活性和活性转座体。当将这些组合物以例如饱和浓度负载到DNA靶标上时，靶DNA仅在活性转座体结合靶DNA的位置处被切割。通过改变组合物中活性和非活性转座体的比例，将通过该比率将确定所需的片段尺寸，并且靶DNA的量变得无关紧要(图7C)。

通过改变活性转换酶与非活性转座酶的比率，可以在不知道所用靶DNA量的情况下控制片段尺寸。此外，通过使用竞争性抑制，切割位置偏倚(本文也称为插入偏倚)较低，因为所有位点都具有相同的切割机会，因为所有位点都负载有转座体(活性或非活性转座体)。

实施例10：含有修饰的DNA衔接子/臂的非活性转座体。

当使用修饰的臂以产生非活性的转座体时，可以使用不同的方法实现活性与非活性转座体的所需比例。以下提供非限制性实例。

混合负载的转座体：采用该策略的方法包括以下步骤：将转座酶制剂负载标准臂(转移链是3'-OH)，产生活性转座体；将转座酶制剂负载修饰臂(转移链不是3'-OH，其中3'-基团是抑制链转移的一种，例如3'-磷酸或诸如如果将3'-双脱氧核苷酸用于3'末端获得的3'-H，等等)，产生非活性转座体；并且以期望比例(例如1:3)混合活性和非活性转座体，得到包含活性和非活性转座体的组合物。与使用仅含有活性转座体的组合物相比，使用该组合物用于靶DNA的片段化引起文库特点改善。

混合衔接子和转座酶：采用该策略的方法包括以下步骤：以期望的比例诸如1:3，制备标准臂(转移的链是3'-OH)和修饰的臂(转移的链不是3'-OH，其中3'-基团是抑制链转移的一种，例如3'-磷酸或诸如如果将3'-双脱氧核苷酸用于3'末端获得的3'-H，等等)的混合物，并且用上述臂的混合物负载转座酶导致产生包含活性和非活性转座体的组合物。与使用仅含有活性转座酶的组合物相比，使用该组合物用于靶DNA的片段化引起文库特点的改善。

修饰的衔接子：本公开的非活性转座体的修饰臂可包含3'-末端，其被阻断以防止链转移，并因此防止靶DNA的切割。3'-OH提供链交换期间亲核攻击所需的电子。优选地，本公开的修饰臂在3'末端含有双脱氧核苷酸(3'-OH被3'-H替换)，或在3'末端含有3'-磷酸化核苷酸(3'-OH被3'-磷酸替换)。

为了测试修饰方法，将具有嵌合末端臂的转座体与靶DNA(未修饰的末端臂含有天然3'羟基)接触，该转座体包含在臂转移链末端核苷酸处的3'-3碳间隔区(亚磷酰胺)或3'-磷酸。

修饰的衔接子如下所示：

嵌合末端臂(未修饰的)“MERC”，包含寡核苷酸ME_MR和ME_RC：

R1臂“R1RC”，包含寡核苷酸R1和ME_RC：

R2臂“R2RC”，包含寡核苷酸R2和ME_RC：

3'-磷酸嵌合末端臂“3PRC”，包含寡核苷酸3P和ME_RC：

3'-间隔嵌合末端臂“3CRC”，包含寡核苷酸3C和ME_RC：

扩增引物(包括样品标签)：

i501(或通用i5xx——表示不同的样品标签引物)

i701(或通用i7xx——表示不同的样品标签引物)

对于SEQ ID NO：57和58，(*)代表硫代磷酸键。

基本上如实施例5所述进行标签片段化，具有以下特定条件：

臂制备：从IDT获得未修饰的ME_RC、ME_MR、R1、R2和修饰的3P和3C寡核苷酸。将每个寡核苷酸重悬于20mM PIPES pH7.5中至100μM。如实施例5中所述，将ME_MR、R1、R2、3P和3C寡核苷酸与ME_RC寡核苷酸分别双链化。双链化产物分别形成50μM的MERC、R1RC、R2RC、3PRC和3CRC臂，并用20mM PIPES pH7.5各自稀释至25μM。

负载臂以制备转座体：MERC、3PRC和3CRC(25μM)臂分别与未负载的TnAa转座酶-P47K以1∶1摩尔比组合。将R1RC和R2RC臂与未负载的TnAa转座酶-P47K以1∶1∶2的比率组合。如实施例5中所述完成转座体的组装。

标签片段化反应：对于每个标签片段化反应，使用了200ngAffymetrix大肠杆菌基因组DNA(4μL 50ng/μL DNA)。在每个反应中分别使用了2μL的10×氯化锰(100mM)，4μL负载MERC的转座酶或负载RIR2RC的转座酶或负载3PRC的转座酶或负载3CRC的转座酶(0.18mg/mL)。标签片段化后，根据制造商的说明，使用3×体积(120μL)的AMPure XP试剂(BeckmanCoulter)纯化DNA，并最终使用12μL 10mM Tris-HCl，pH8进行洗脱。

可视化：将10μL洗脱液与6μL负载染料组合，并将1μL每种混合物负载到1％琼脂糖凝胶上的各个泳道中，用于片段分离。没有进行扩增步骤。

结果如图8所示。凝胶电泳示出了仅在载有3PRC(3'-磷酸)臂的转座体的情况下，DNA基本上是完整的(图8，泳道4)。这证明虽然负载MERC、RIR2RC和3CRC的转座体成功标签片段化了基因组DNA(图8，分别为泳道2、3和5)，但负载3PRC的转座体不会引起DNA的大量切割。值得注意的是，3'-间隔区修饰的臂是活性的并且导致了DNA的标签片段化，可能是因为仍然存在羟基。

实施例11：通过向反应中加入载有3'-磷酸修饰的嵌合末端臂的转座体来调节片段尺寸。

在以下实施例中，DNA纯化步骤允许分离和扩增短片段。这是为了研究转座体混合物的插入谱，并且不是典型的用于产生有用测序文库的方法。

转座体制备：如实施例10所述制备了臂和转座体。使用稀释缓冲液(166.7mM KCl，39.8％甘油和20mM PIPES，pH7.5)将负载R1R2RC的转座体(活性转座体)和负载3PRC的转座体(非活性转座体)各自进一步从0.18mg/mL稀释至0.08mg/mL(或80ng/μL)和0.04mg/mL(或40ng/μL)。

标签片段化反应：标签片段化反应基本上如实施例5中所述，具有以下特定条件：对于每个标签片段化反应，将1ng大肠杆菌基因组DNA(4μL 0.25ng/μL DNA)与10μL 2×反应缓冲液和2μL 10×氯化锰(10mM)组合。包括的转座体是：a)2μL负载R1R2RC的转座体(80ng/μL)和2μL稀释缓冲液，总共160ng活性转座体，不包含非活性转座体；b)2μL负载R1R2RC的转座体(80ng/μL)和2μL负载3PRC的转座体(40ng/μL)，用于2:1的活性:非活性转座体比率；以及c)2μL负载R1R2RC的转座体(80ng/μL)和2μL负载3PRC的转座体(80ng/μL)，用于1:1的活性:非活性酶转座体比率。

除了使用一半量的转座体以外，基本上如上所述组装了单独的附加的一组标签片段化反应。停止反应后，使用3×体积(120μL)的AMPure XP试剂(Beckman Coulter)纯化DNA，最后使用22μL 10mM Tris-HCl，pH8洗脱。

扩增：根据说明书，使用Kapa Biosytems HiFi PCR试剂盒扩增了20μL洗脱的标签片段化DNA。每个5μL反应中包括5μL的2.5μM i5xx标签引物和5μL的2.5μM i7xx标签引物。进行了12个PCR扩增循环(72℃持续3min，98℃持续30s，12×(98℃持续15s，62℃持续30s，72℃持续3min)，保持在4℃)。使用3×体积(150μL)的AMPure XP试剂(Beckman Coulter)纯化扩增产物，并在30μL 10mM Tris-HCl pH8中最终洗脱。在LabChip GXII(Perkin Elmer)上分析15μL洗脱的产物。

结果如图9所示。在这些实施例中，可以看出，向饱和量的活性转座体添加非活性转座体降低了完全标签片段化的文库片段的比例。添加相等额外量的活性但未负载的转座酶不会产生这种效果。

实施例12：通过向标签片段化反应添加负载有3'-磷酸修饰的嵌合末端臂的转座体来调节测序文库片段尺寸。

在以下实施例中，DNA纯化步骤在标签片段化后除去短片段并促进有用的较长片段的分离和扩增。这是用于生成有用测序文库的典型方法。

转座体制备：如实施例11所述制备了臂和转座体。

标签片段化反应：标签片段化反应基本上如实施例11中所述，具有以下特定条件：组装4个反应，所有这些反应均包含160ng非活性转座体复合物和0ng、80ng、160ng或360ng非活性转座体。标签片段化后，使用1×体积(40μl)的AMPure XP试剂(Beckman Coulter)纯化DNA，最后用22μL 10mM Tris-HCl(pH8)洗脱。

扩增：扩增如实施例11，然而在这种情况下，使用0.8×体积(40μl)的AMPure XP试剂(Beckman Coulter)纯化扩增产物，并最终用12μL 10mM Tris-HCl pH8进行洗脱。

用10mM Tris-HCl pH8将2μL反应物稀释5倍至10μL，使用DNA HiSensitivity芯片在LabChip GXII(Perkin Elmer)上进行片段分析。

结果如图10所示。可以看出，在保持活性转座体量恒定为160ng的同时，0ng，80ng，160ng和360ng的非活性转座体的添加以剂量-响应方式增加了片段尺寸的平均值。平均片段尺寸分别为：364bp、459bp、577bp和761bp。文库产量分别为：48nM、62nM、40nM和20nM。

实施例13：用活性和非活性转座体的混合物产生的文库的测序。

虽然向饱和量的活性转座体添加非活性转座体导致文库插入尺寸的增加和标签片段化程度的降低，但有必要确定这些扰动对所得测序文库的特点的影响。

由1ng大肠杆菌基因组DNA(ATCC，MG1655)构建全基因组测序文库并使用v32×150化学在Illumina MiSeq仪器上测序。基本上如上所述，在实施例12中，进行了酶制备和扩增程序，具有下述特定条件。每个文库标签片段化一式两份，并用唯一的标签对进行了扩增。例如，通过2次重复标签片段化反应，在PCR扩增期间一种用i501和i701标签化，而另一种用i502和i701标签化。

第1部分：在反应中不存在非活性转座体的情况下，使用具有3种浓度的氯化锰(最终反应浓度10mM、1mM和0.025mM)和80ng活性转座体的标签片段化反应以证明锰对测序指标的影响。

第2部分：使用具有1mM锰最终反应浓度和不同比率的活性:非活性转座体的标签片段化反应来证明非活性转座体对测序指标的影响。活性:非活性的转座子比率如下：(a)2:1，160ng活性:80ng非活性；(b)1:1，160ng活性:160ng非活性；(c)1:2.25，160ng活性:360ng非活性，以及；(d)160ng活性:0ng非活性，无竞争物控制。

第3部分：针对1ng DNA输入和双链TruSeq衔接子，通过Illumina Nextera XT试剂盒和KAPAHyperPlus试剂盒使用标准方案(根据制造商的说明书)构建比较文库。

在与参考基因组比对后，分析了测序数据。基于读数映射位置计算了文库插入尺寸(如图11所示)。通过计算在起始位点侧翼位置处的累积核苷酸碱基变异度来估计起始位点偏倚(图12A中所示)。起始位点偏倚也显示为每个位置的核苷酸碱基频率(图12B)。增加的起始位点偏好(偏倚)表现为插入位点周围的核苷酸碱基变异度增加和某些核苷酸在基因组基线核苷酸频率之上的频率增加。

这些实验的结果如下：锰的减少又导致更大的片段和增加的插入偏倚。

向标签片段化反应中添加非活性转座体以产生Illumina相容文库导致更大的测序插入尺寸(图11)。此外，通过添加非活性转座体也可获得改善的起始位点偏倚(图12)。在图12A中，核苷酸碱基变异度的累积变异度越高，文库中的平均插入位点越有特异性(且有偏倚)。具有低累积插入位点变异度的文库通常具有更高的复杂性和更均匀的覆盖率，这些因素有利于NGS文库制备。在图12B中，可以看出，随着该量的非活性转座体的添加，每个位置的碱基频率更窄并趋向于25％(无偏倚)。由于深度取样(每个文库/处理500,000个读数或更多)，在完全无偏倚的系统中，插入位点周围的四种核苷酸碱基中每一种的碱基频率将等于大肠杆菌基因组中的平均碱基频率。

从该工作可以清楚地看出，转移链被3'-磷酸化的嵌合末端臂(如上所述的“3PRC”)可以与TnAa-Tpn P47K转座酶组合以产生非活性转座体。当与活性转座体以总饱和量组合使用以产生NGS文库(包括与Illumina相容的NGS文库)时，非活性转座体的存在导致插入尺寸增加，同时插入特异性降低(基于转座酶的NGS文库制备系统的两个期望特点)。

实施例14：通过向标签片段化反应添加负载有其他类型修饰臂的转座体以调节测序文库片段尺寸和插入位点偏倚。

迄今提供的实施例已经证明了控制片段尺寸和插入偏倚的方法的功效和实用性。所提供的实施例证明，可以使用在转移链上具有3'-磷酸的臂来产生非活性转座体。其他类型的修饰臂可以起到类似作用。使用的修饰臂允许转座酶识别并负载修饰臂(并因此形成非活性转座体)，但防止非活性转座体将臂插入靶DNA或甚至引起靶DNA模板的切刻。

为了证明这一点，使用与实施例5、6、7、8、9、10、11和12中描述的那些类似但不必相同的方法。简言之，寡核苷酸用于产生修饰的臂，并且将它们负载以制备非活性转座体。然后使用不同比率的活性和非活性转座体对选择的DNA靶进行标签片段化反应。反应用于创建测序文库，并对这些文库进行测序。然后分析序列数据并确定插入偏倚和片段长度。

可替代修饰的臂也可用于产生非活性转座体，并且这些臂载在决定片段尺寸和插入偏倚中具有实用性。

实施例15：通过向标签片段化反应添加由突变转座酶形成的转座体来调节测序文库片段尺寸和插入位点偏倚。

到目前为止提供的实施例已经证明了控制片段尺寸和插入偏倚的方法的功效和实用性。所提供的实施例表明，可以使用在转移链上具有3'-磷酸的臂来产生非活性转座体。非活性转座体也可以通过使用突变的转座酶产生，并且这些突变形式可以用于调节所公开的活性转座体的功能。

为了证明这一点，创建了转座酶基因的突变形式。突变包括但不限于催化三联体的修饰。克隆、表达和纯化转座酶的突变和野生型形式两者。然后将转座酶的突变和野生型形式分别用于制备非活性和活性转座体，并且然后将这些并入本发明。

对于标签片段化和文库制备，使用与实施例5、6、7、8、9、10、11和12中描述的那些类似但不必相同的方法。简言之，创建臂并将其负载到野生型转座酶和突变转座酶上以制备活性或非活性转座体。然后使用不同比率的活性和非活性转座体对选择的DNA靶标进行标签片段化反应。反应用于创建测序文库，并对这些文库进行测序。然后分析序列数据并确定插入偏倚和片段长度。

突变转座酶也可用于产生非活性转座体，并且这些转座酶在决定片段尺寸和插入偏倚中具有实用性。

实施例16：通过在不同时间施用活性和非活性转座体来调节测序文库片段尺寸和插入位点偏倚。

到目前为止提供的实施例已经证明了控制片段尺寸和插入偏倚的方法的功效和实用性。提供的实施例已经使用了活性和非活性转座体，其作为混合物施用于靶DNA。片段尺寸和插入偏倚也可以通过单独施用它们来操纵。例如，可以在施用活性转座体之前将特定量的非活性转座体施用于靶标以阻断优选的插入位点。

为了证明这一点，使用与实施例5、6、7、8、9、10、11和12中描述的那些类似但不必相同的方法。简而言之，制备臂(来自修饰的或未修饰的寡核苷酸)并将其负载到转座酶(野生型或突变体)上以制备活性或非活性转座体。然后将各种量的活性和非活性转座体复合物在不同时间点、持续不同时间、以不同的顺序与所选择的DNA靶标接触。反应用于创建测序文库，并对这些文库进行测序。然后分析序列数据并确定插入偏倚和片段长度。

将活性和非活性转座体以不同于混合物的方式施用于靶DNA在标签片段化反应中具有实用性，并且这可用于控制片段尺寸和插入偏倚。

实施例17：通过来自其他转座子和插入元件的活性和非活性转座体的混合物调节测序文库片段尺寸和插入位点偏倚。

到目前为止提供的实施例已经证明了控制片段尺寸和插入偏倚的方法的功效和实用性。提供的实施例已经使用了源自TnAa的转座酶。由来自其他来源的转座酶产生的转座体(如所公开的制成活性的和非活性的)也可用于通过本文公开的方法进行标签片段化及其其控制。

为了证明这一点，活性和非活性转座体(使用先前公开的原理产生)由Tn5转座酶或来自插入序列IS4家族的其他转座酶或通过“切割和粘贴”机制起作用的其他转座酶产生。然后将这些转座酶并入本发明中。

对于标签片段化和文库制备，使用与实施例5、6、7、8、9、10、11和12中描述的那些类似但不必相同的方法。简而言之，制备臂(来自修饰的或未修饰的寡核苷酸)并将其负载到转座酶(野生型或突变体)上以制备活性或非活性转座体。然后使用不同比率的活性和非活性转座体对选择的DNA靶标进行标签片段化反应。反应用于产生测序文库，并对这些文库进行测序。然后分析序列数据并确定插入偏倚和片段长度。

不同的转座酶(和突变形式)也可用于创建活性和非活性转座体，并且这些在标签片段化反应中有实用性，并且该混合物可用于控制片段尺寸和插入偏倚。

实施例18：用于由各种靶DNA类型制备测序文库的方法的用途。

到目前为止提供的实施例已经证明了控制片段尺寸和插入偏倚的方法的功效和实用性。提供的实施例已经使用大肠杆菌DNA作为靶标。这里描述的方法还可以应用于更复杂和商业上相关的靶标。它还可以应用于存在不同重复程度的DNA靶标，或者富含G/C或富含A/T的DNA靶标，或者具有其他修饰的DNA靶标。

为了证明这一点，该方法应用于多种基因组DNA或cDNA靶标。这些包括但不限于：人、哺乳动物、动物、植物、原生生物、真菌、古细菌和真细菌DNA或cDNA样品。

对于标签片段化和文库制备，使用与实施例5、6、7、8、9、10、11和12中描述的那些类似但不必相同的方法。简而言之，制备臂并将其负载到转座酶上以制备活性或非活性转座体。然后使用不同比率的活性和非活性转座体对包含人、哺乳动物、动物、植物、原生生物、真菌、古细菌或真细菌DNA或cDNA的DNA进行标签片段化反应。反应用于创建测序文库，并对这些文库进行测序。然后分析序列数据并确定插入偏倚和片段长度。

本公开的方法可以与不同类型的DNA靶标一起使用。

实施例19：利用不相似的转座酶和其他DNA结合蛋白质。

到目前为止提供的实施例已经证明了控制片段尺寸和插入偏倚的方法的功效和实用性。所提供的实施例利用衍生自相同转座子的转座酶来产生活性和非活性转座体二者。活性和非活性转座体的转座酶不需要来自相同的来源，并且事实上，如果远缘相关或不相似的转座酶在插入偏倚中显示出一些重叠，则可以使用它们。不是转座酶但能够与活性转座体竞争结合的DNA结合蛋白质将通过它们的存在影响标签片段化，因此影响片段尺寸和插入偏倚。因此，这些组合可用于测序文库制备。

为了证明这一点，使用与实施例5、6、7、8、9、10、11和12中描述的那些类似但不必相同的方法。简而言之，活性转座体由源自特定转座子或IS的转座酶制成。将它们与源自不同转座子或IS的转座酶制成的非活性转座体(使用此前公开的原理产生)混合。可替代地，将活性转座体与发挥非活性转座体作用的不相关的DNA结合蛋白质混合。然后使用不同比率的活性转座体和竞争物对选择的DNA靶标进行标签片段化反应。反应用于创建测序文库，并对这些文库进行测序。然后分析序列数据并确定插入偏倚和片段长度。

与用于活性转座体的转座酶不同或远缘相关或不相关的DNA结合蛋白质也可以控制片段尺寸和插入偏倚。

实施例20：用活性和非活性转座体的混合物进行标签片段化赋予对DNA输入量的不敏感性。

已知标签片段化反应对DNA输入量敏感，DNA量的微小变化导致可变的文库插入尺寸和产量。为了测试在标签片段化反应中非活性转座体和活性转座体的组合赋予的对DNA输入量不敏感的预测，用由80纳克活性转座体组成的混合物或由80纳克活性转座体和320纳克非活性转座体组成的混合物标签片段化不同量的大肠杆菌基因组DNA。使用v32×150化学在Illumina MiSeq仪器上扩增文库并测序。文库插入尺寸通过将成对读数与参考基因组比对来确定并且与使用Nextera XT试剂盒(Illumina)和Kapa HyperPlus试剂盒时观察到的典型插入尺寸进行比较。结果如图13所示。仅用活性转座体对200pg(浅灰色线(0.2ng输入+0ng非活性))和5ng(深灰色线(5ng输入+0ng非活性)的基因组DNA进行标签片段化生成了包含不同的插入尺寸的文库，其中5纳克输入文库包含更大的片段，正如预期的那样。相比之下，用活性和非活性转座体混合物对200pg(深蓝色线(0.2ng输入+320ng非活性))和5ng(浅蓝色系)5ng输入+320ng非活性))基因组DNA进行标签片段化产生了具有相同的插入尺寸的文库，其与使用Nextera(橙色线)和Kapa HyperPlus(绿色线)试剂盒生成的文库相当。集体地，这些结果表明用活性和非活性转座体的混合物进行标签片段化降低了系统对DNA输入量变化的敏感性。

Claims

1.一种片段化DNA的方法，包括使靶DNA样品在适合于转座体活性的条件下与以下接触：

(a)包含活性转座体的组合物，以及

(b)包含非活性转座体的组合物，

其中，所述(b)组合物中所述非活性转座体的量与所述(a)组合物中所述活性转座体量的比率决定了平均片段尺寸和插入偏倚水平。

2.根据权利要求1所述的方法，其中，所述(a)组合物中所述活性转座体和所述(b)组合物中所述非活性转座体的组合占据大于50％的输入DNA的转座体复合物结合位点。

3.根据权利要求1所述的方法，其中，所述(a)组合物中所述活性转座体和所述(b)组合物中所述非活性转座体的组合占据大于75％的输入DNA的转座体复合物结合位点。

4.根据权利要求1所述的方法，其中，所述(a)组合物中所述活性转座体和所述(b)组合物中所述非活性转座体的组合占据大于90％的输入DNA的转座体复合物结合位点。

5.根据权利要求1所述的方法，其中，所述(a)组合物中所述活性转座体和所述(b)组合物中所述非活性转座体的组合占据大于99％的输入DNA的转座体复合物结合位点。

6.根据权利要求1-5中任一项所述的方法，其中，所述输入或靶DNA的量是未知的。

7.根据权利要求1-6中任一项所述的方法，其中，所述非活性转座体和所述活性转座体优先结合所述靶DNA内的共有序列。

8.根据权利要求7所述的方法，其中，所述非活性转座体和所述活性转座体以完全互补性结合所述共有序列。

9.根据权利要求7所述的方法，其中，所述非活性转座体和所述活性转座体以不完全互补性结合所述共有序列。

10.根据权利要求1-9中任一项所述的方法，其中，所述非活性转座体是所述活性转座体的修饰形式。

11.根据权利要求10所述的方法，其中，所述修饰抑制所述非活性转座体切割所述靶DNA的能力并保持所述非活性转座体结合所述靶DNA的能力。

12.根据权利要求11所述的方法，其中，所述非活性转座体包含编码非活性转座酶的氨基酸序列中的突变。

13.根据权利要求12所述的方法，其中，所述突变发生在所述非活性转座酶的催化结构域内的位置。

14.根据权利要求12所述的方法，其中，所述非活性转座酶是Tn5转座酶的过度活跃形式，并且所述突变发生在催化三联体内的位置，所述催化三联体选自由D97、D188和E326组成的组。

15.根据权利要求14所述的方法，其中，所述突变发生在催化三联体内的位置，所述催化三联体是选自由D97、D188和E326组成的组的三联体的功能等同物。

16.根据权利要求14或15所述的方法，其中，Tn5的过度活跃转座酶由氨基酸序列编码，所述氨基酸序列包括：

MITSALHRAADWAKSVFSSAALGDPRRTARLVNVAAQLAKYSGKSITISSEGSKAAQEGAYRFIRNPNVSAEAIRKAGAMQTVKLAQEFPELLAIEDTTSLSYRHQVAEELGKLGSIQDKSRGWWVHSVLLLEATTFRTVGLLHQEWWMRPDDPADADEKESGKWLAAAATSRLRMGSMMSNVIAVCDREADIHAYLQDKLAHNERFVVRSKHPRKDVESGLYLYDHLKNQPELGGYQISIPQKGVVDKRGKRKNRPARKASLSLRSGRITLKQGNITLNAVLAEEINPPKGETPLKWLLLTSEPVESLAQALRVIDIYTHRWRIEEFHKAWKTGAGAERQRMEEPDNLERMVSILSFVAVRLLQLRESFTPPQALRAQGLLKEAEHVESQSAETVLTPDECQLLGYLDKGKRKRKEKAGSLQWAYMAIARLGGFMDSKRTGIASWGALWEGWEALQSKLDGFLAAKDLMAQGIKI(SEQ ID NO:15)。

17.根据权利要求12所述的方法，其中，所述非活性转座酶源自转座酶TnAa，并且所述突变发生在催化三联体内的位置，所述催化三联体选自由D90、D190和E323组成的组。

18.根据权利要求17所述的方法，其中，所述TnAa转座酶由氨基酸序列编码，所述氨基酸序列包括：

MNNAQWAKSTFGQADLGDPRRTTRLVKLAETLANDPGKPFVSITQSPADMEGAYRFIRNEHVNADAIAKAGYLVTAAQAAKHNLLLALEDTTAITYSHRSVRDELGHVNQGNNYRGILAHSVLLFAPEQQELVGLIEQSRWTRDISTRGKKHVRTQTPYEEKESFKWQSASVNLSARLGTKMADVISVCDREADIYEYLQYKLSKQHRFVVRSMQSRHIEQSEQKLYDYAAGLESAGQKQIHIAQKGGRKARTATVDIVFAPVTLQVPANKRGESLSLYYVGCEERADDKNALNWHLLTTEPVQSKADALNIIRYYEHRWLVEEYHKAWKTDGTDIENARLQSKDNIERLVTISAFIAVRIVQLKFAREQPDEISCEQVLSPKAWKLLWIKRVSRTLPDTVPSMKWAYTELAKLGGWKDTKQTGKASVKVLWQGWFKLQTILEGYDLAKSLEADL(SEQ ID NO:16)。

19.根据权利要求11所述的方法，其中，所述非活性转座体包含修饰的DNA臂。

20.根据权利要求19所述的方法，其中，所述修饰的DNA臂是嵌合DNA臂。

21.根据权利要求19或20所述的方法，其中，所述修饰的DNA臂包含位于所述臂的转移链3'末端核苷酸处的磷酸。

22.根据权利要求19或20所述的方法，其中，所述修饰的DNA臂包含位于所述臂的转移链3'末端核苷酸处的双脱氧核苷酸。

23.根据权利要求19或20所述的方法，其中，所述修饰的DNA臂包含位于所述臂的转移链3'末端核苷酸处的碳连接子、己二醇、3-碳间隔区、三乙二醇或六乙二醇。

24.根据权利要求19或20所述的方法，其中，所述修饰的DNA臂包含位于所述臂的转移链3'末端核苷酸处的修饰碱基、合成碱基或核苷酸类似物。

25.根据权利要求24所述的方法，其中，所述修饰碱基、所述合成碱基或所述核苷酸类似物是反向碱基。

26.根据权利要求24所述的方法，其中，所述修饰碱基、所述合成碱基或所述核苷酸类似物包含脱碱基位点。

27.根据权利要求24所述的方法，其中，所述核苷酸类似物包含锁核酸(LNA)、桥核酸(BNA)或异核酸(XNA)。

28.根据权利要求24-27中任一项所述的方法，其中，所述修饰的DNA臂还包含位于所述臂的转移链3'末端核苷酸处的磷酸、双脱氧核苷酸、碳连接子、己二醇、3-碳间隔区、三乙二醇或六乙二醇。

29.前述权利要求中任一项所述的方法，其中，所述(b)组合物中所述非活性转座体的量与所述(a)组合物中所述活性转座体的量的比率的变化导致所述平均片段尺寸变化。

30.根据权利要求29所述的方法，其中，所述(b)组合物中所述非活性转座体的量与所述(a)组合物中所述活性转座体的量的比率的增加导致所述平均片段尺寸增加。

31.根据权利要求29所述的方法，其中，所述(b)组合物中所述非活性转座体的量与所述(a)组合物中所述活性转座体的量的比率减少导致所述平均片段尺寸减少。

32.前述权利要求中任一项所述的方法，其中，与不包括使所述靶DNA与所述非活性转座体接触的方法相比，所述插入偏倚水平改变。

33.前述权利要求中任一项所述的方法，其中，与不包括使所述靶DNA与所述非活性转座体接触的方法相比，所述插入偏倚水平降低。

34.一种片段化DNA的方法，包括使靶DNA样品在适合转座体活性的条件下与以下接触：

(a)包含活性转座体的组合物，以及

(b)包含DNA结合蛋白质的组合物，其中，所述DNA结合蛋白质不是转座酶或转座体复合物，

其中，所述(b)组合物中所述DNA结合蛋白的量与所述(a)组合物中所述活性转座体的量的比率决定了平均片段尺寸和插入偏倚水平。