CN108026525A

CN108026525A - 多核苷酸组装的组合物和方法

Info

Publication number: CN108026525A
Application number: CN201680053423.7A
Authority: CN
Inventors: 詹姆斯·爱德华·约翰·菲尔德; 哈里森·弗雷德里克·里克比
Original assignee: Genius Laboratory Ltd
Current assignee: Genius Laboratory Ltd
Priority date: 2015-09-15
Filing date: 2016-09-15
Publication date: 2018-05-11
Also published as: US20180230455A1; EP3350326A1; WO2017046594A1; EP3350326B1; CA3036443A1; US10837012B2; GB201516348D0; HK1251252A1

Abstract

本发明提供用于组装包含至少第一双链多核苷酸(DSP)和至少第二DSP以及任选地包含其他DSP的靶多核苷酸序列的方法。该方法包含组装反应，所述组装反应包括提供包含第一DSP的一条链的多核苷酸序列的第一单链多核苷酸(SSP)和包含第二DSP的一条链的多核苷酸序列的第二SSP，以及将SSP通过引物和聚合酶介导的延伸反应转换成双链形式的步骤。DSP包含与组装反应内的多核苷酸序列互补的多核苷酸序列，使得第一和第二以及其他DSP各自的排序和方向由独特的突出端配对确定。本发明还提供核酸库和构建该库的方法。

Description

多核苷酸组装的组合物和方法

技术领域

本发明涉及多核苷酸组装和核酸库生成领域。

背景技术

目前，长双链多核苷酸(例如基因序列)的合成通过以下方法进行，该方法包括提供对应于靶双链多核苷酸序列的每条链的片段的多个相对短的单链寡核苷酸，将第一链的每个片段的一部分退火并与第二链的片段的一部分结合。

这导致包含片段化的第一链和第二链的部分双链序列。然后使用聚合酶填充各链的片段之间产生的间隙(如图1所示)。该方法依赖于单链寡核苷酸的有效和特异性退火。使用这种方法，难以准确地组装特定的多核苷酸设计，特别是包含以下特征的设计：

-重复基序

-高或低的GC含量

-二级结构(由基序、如反向基序导致的)

-简并性(例如库)。

对于包含一个或多个上述特征的序列，单链寡核苷酸的有效和特异性退火(其是传统多核苷酸组装方法所需的)会被脱靶退火和二级结构形成所抑制。本发明提供了一种较少受到由脱靶退火和二级结构形成引起上述问题的新方法。结果，这种新颖的方法与现有方法相比，可更容易或以更高保真度产生特定的多核苷酸序列或多核苷酸序列库。

发明内容

根据本发明，第一方面提供了组装包含至少第一双链多核苷酸(DSP)和第二DSP的靶多核苷酸序列的体外方法，该方法包括组装反应，所述组装反应包括以下步骤：

(i)提供包含第一DSP的一条链的多核苷酸序列的第一单链多核苷酸(SSP)和包含第二DSP的一条链的多核苷酸序列的第二SSP，

(ii)提供结合于第一SSP末端的第一引物和结合于第二SSP末端的第二引物，并通过聚合酶介导的第一引物和第二引物的延伸将第一SSP转换成第一DSP，将第二SSP转换成第二DSP，其中，第一DSP包含与第二DSP的多核苷酸序列互补的多核苷酸序列，

(iii)通过形成包含互补多核苷酸序列的至少一部分的3'或5'突出端，在第一和第二DSP上各自产生单链多核苷酸的区域；和

(iv)通过互补突出端的退火将第一DSP连接到第二DSP，从而组装靶多核苷酸序列，其中，第一个和第二DSP各自的排序和方向通过独特的突出端配对确定。

在具体实施方式中，该方法至少包括第三DSP。在这样的实施方式中，该方法包括：

(i)提供包含第一DSP的一条链的多核苷酸序列的第一单链多核苷酸(SSP)，包含第二DSP的一条链的多核苷酸序列的第二SSP，以及至少包含第三DSP的一个链的多核苷酸序列的第三SSP；

(ii)提供结合于第一SSP末端的第一引物，结合于第二SSP的端的第二引物，以及结合于第三DSP末端的第三引物，并且通过聚合酶介导的第一，第二和第三引物的延伸将第一SSP转换成第一DSP，第二SSP转换成第二DSP，以及第三SSP转换成第三DSP，

其中，第一DSP包含与第二DSP的多核苷酸序列互补的第一互补多核苷酸序列(CPS1)，第二DSP包含与第一DSP的CPS1互补的第二互补多核苷酸序列(CPS2)以及与第三DSP的多核苷酸序列互补的第三互补多核苷酸序列(CPS3)，并且第三DSP包含与第二DSP的CPS3互补的第四互补多核苷酸序列(CPS4)；

(iii)通过形成包含第一至第四互补多核苷酸序列(CPS1-4)的至少一部分的3'或5'突出端，在第一，第二和第三DSP的每一个上产生单链多核苷酸的区域；和

(iv)通过互补突出端的退火将第一DSP连接至第二DSP，将第二DSP连接至第三DSP来组装靶多核苷酸序列，其中，第一、第二和第三DSP各自的排序和方向通过在第一至第四互补多核苷酸序列(CPS1-4)内的独特的突出端配对来确定。

在实施方式中，所述方法可以包括不少于四个DSP，其中，所述不少于四个DSP中的每一个的排序和方向通过各个互补多核苷酸序列内的独特的突出端配对确定。或者，所述方法可以包括多个DSP，其中，所述多个DSP中的每一个的排序和方向通过各个互补多核苷酸序列内的独特突出端配对确定。该方法在实施方式中可以包括不少于8个DSP，其中，所述不少于8个DSP中的每一个的排序和方向通过各个互补多核苷酸序列内的独特突出端配对确定。

在本发明方法的任意实施方式中，步骤(i)至(iii)可以在分开的反应容器中进行。在一些实施方式中，步骤(iv)在单个反应容器中进行。

有利的是，每个互补的多核苷酸序列可以是不同的，并且仅允许退火至组装反应内的另一个互补序列。具体而言，每个互补的多核苷酸序列可与组装反应内的另一个互补多核苷酸序列形成独特的结合对，并且在组装反应内的独特结合对的总数可比在组装反应中的DSP的总数少一个。

在一些实施方式中，引物包含至少一个尿嘧啶核苷酸。在实施方式中，SSP包含至少一个尿嘧啶核苷酸，且该尿嘧啶核苷酸被包含在互补多核苷酸序列内。在一些实施方式中，至少一个引物包含至少一个尿嘧啶核苷酸，并且至少一个SSP包含在互补多核苷酸序列内的至少一个尿嘧啶核苷酸。

在其中引物和/或SSP包含至少一个尿嘧啶核苷酸的任意实施方式中，产生单链多核苷酸区域的步骤(iii)可以通过将DSP暴露于尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII的混合物中，用这些酶介导脱氧尿嘧啶切除和骨架裂解反应来发生。

任选地，步骤(iv)通过经由互补突出端的退火来连接DSP可以包括连接反应。在实施方式中，所述连接反应由DNA连接酶催化。

在一些实施方式中，互补多核苷酸序列在长度上不超过15个碱基，任选地在长度上不超过12个碱基，合适地在长度上不超过8个碱基。在实施方式中，互补多核苷酸序列在长度上可以不少于4个碱基，任选地在长度上不少于6个碱基，合适地长度上不少于8个碱基。

在具体实施方式中，产生的突出端还包括在第一个和最后一个DSP的末端产生的突出端，所述DSP不退火结合至另一个DSP，使得所组装的靶多核苷酸序列在两个末端都包含突出端。在这样的实施方式中，所组装的靶多核苷酸序列可以具有包含与线性化载体的突出端的序列互补的序列的突出端。有利地，该线性化载体可以通过使用含有至少一个尿嘧啶核苷酸的引物的聚合酶介导的环状载体的延伸，然后消化成线性载体，以及尿嘧啶特异性切除试剂(USER)介导的尿嘧啶切除和骨架裂解反应以产生突出端来产生。

本发明的第二方面提供了装配靶多核苷酸序列的体外方法，其中，所述方法包括第一侧翼双链多核苷酸(DSP)，第二侧翼DSP和至少一个插入DSP，所述方法包括包含以下步骤的装配反应：

(i)提供包含第一侧翼DSP的一条链的多核苷酸序列的第一侧翼单链多核苷酸(SSP)，包含第二侧翼DSP的一条链的多核苷酸序列的第二侧翼SSP，以及包含所述至少一个插入DSP的一条链的多核苷酸序列的至少另一个SSP；

(ii)提供结合于第一侧翼SSP的末端的第一引物，结合于第二侧翼SSP末端的第二引物和结合于所述插入DSP末端的第三引物，并且通过聚合酶介导的第一，第二和第三引物的延伸将第一侧翼SSP转换成第一侧翼DSP，将第二侧翼SSP转换成第二侧翼DSP，并将插入SSP转换成插入DSP，

其中，第一侧翼DSP包含与插入DSP的多核苷酸序列互补的第一互补多核苷酸序列(CPS1)，插入DSP包含与第一侧翼DSP的CPS1互补的第二互补多核苷酸序列(CPS2)以及与第二侧翼DSP的多核苷酸序列互补的第三互补多核苷酸序列(CPS3)，并且第二侧翼DSP包含与插入DSP的CPS3互补的第四互补多核苷酸序列(CPS4)；

(iii)通过形成包含第一至第四互补多核苷酸序列(CPS1-4)的至少一部分的3'或5'突出端，在每个DSP上产生单链多核苷酸的区域；和

(iv)通过互补突出端的退火将第一侧翼DSP连接到插入DSP，并将插入的连接到第二侧翼DSP来装配靶多核苷酸序列，其中，第一侧翼、插入的和第二侧翼DSP中的每一个的排序和方向通过在第一至第四互补多核苷酸序列(CPS1-4)内的独特的突出端配对来确定。

在实施方式中，所述方法包括多个插入DSP，其中，所述多个插入DSP中的每一个相对于彼此以及相对于第一侧翼和第二侧翼DSP的排序和方向通过在相应的互补多核苷酸序列内的独特突出端配对来确定。

在有利的实施方式中，每个互补的多核苷酸序列是不同的，并且仅允许退火至组装反应之内的另一个互补序列。在这样的实施方式中，每个互补的多核苷酸序列可以与组装反应之内的另一个互补多核苷酸序列形成独特的结合对，并且组装反应之内的独特结合对的总数可以比组装反应中DSP的总数少一个。

在一些实施方式中，结合于第一侧翼SSP末端的第一引物包含至少一个脱氧尿嘧啶核苷酸。在根据第二方面的方法的该实施方式和其他的实施方式中，在至少一个插入SSP的末端结合的引物可以包含至少一个脱氧尿嘧啶核苷酸。在实施方式中，至少一个插入SSP包含至少一个脱氧尿嘧啶核苷酸，并且脱氧尿嘧啶核苷酸被包含在互补多核苷酸序列内。在另一实施方式中，第二侧翼SSP包含至少一个脱氧尿嘧啶核苷酸，并且脱氧尿嘧啶核苷酸被包含在互补多核苷酸序列内。在插入SSP和/或第二侧翼SSP包含脱氧尿嘧啶核苷酸的一些实施方式中，所述至少一个脱氧尿嘧啶核苷酸位于离SSP的5'末端不超过15个碱基处。

在其中引物和/或SSP包含脱氧尿嘧啶核苷酸的任意实施方式中，产生单链多核苷酸区域的步骤(iii)可通过将DSP暴露于尿嘧啶特异性切除试剂(USER)介导的脱氧尿嘧啶切除和骨架裂解反应中来发生。在这样的实施方式中，将DSP暴露于USER介导的脱氧尿嘧啶切除可以包括将DSP暴露于尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII的混合物中。

在根据本发明的第二方面的方法的任意实施方式中，第一和/或第二侧翼DSP可以包括载体序列。

在一些实施方式中，第一和/或第二侧翼DSP包含一种或多种DNA序列，所述DNA序列编码用于展示结合蛋白或肽的抗生素抗性标记、荧光蛋白、调节蛋白、抗体构架或蛋白中的一种或多种。调节蛋白可以包含转录因子。在实施方式中，第一和/或第二侧翼DSP包含编码噬菌体、酵母或细菌的表面蛋白的DNA序列。这样的实施方式有利地适合用作噬菌体展示、酵母展示或大肠杆菌展示方案的一部分。

在本发明的任意方法的实施方式中，包含在组装反应之内的至少一个DSP包含简并多核苷酸序列。

在根据上述第一或第二方面的方法的具体实施方式中，一个或多个SSP共价连接至包含结合在SSP末端的引物的多核苷酸序列。

第三方面，本发明提供了产生包含多个DNA片段的库的方法，其中，每个DNA片段包含根据上述第一和第二方面的任意实施方式的方法组装的靶多核苷酸序列。

本发明的第四方面提供了包含多个DNA片段的库，其中，所述库已经使用上述第三方面的方法来产生。

本发明的方法对于构建使用现有方法难以产生的多核苷酸序列特别有效。现有的多核苷酸构建方法遇到的两个问题包括靶多核苷酸序列的产量低以及副反应产物(例如非靶多核苷酸序列)的积聚。这两个问题都是由于单链多核苷酸序列参与非优势的分子内和分子间的相互作用所引起或加剧的。在这里，我们将单链多核苷酸序列情况中的非优势的分子内和分子间的相互作用称为“脱靶退火”。本发明的方法克服了与当前组装方法相关的脱靶退火问题。这在某种程度上通过在组装之前将单链多核苷酸序列转化成双链状态来实现。锁定双链状态下DSP链接所不需要的多核苷酸序列的部分降低了当尝试退火单链寡核苷酸的部分时可发生脱靶相互作用的可能性。因此，本发明能够产生目前不能用现有基因合成技术制备的合成多核苷酸序列，例如高度重复序列和大型库(特别是在大量核苷酸位置含有简并性的库设计)。与现有方法相比，本发明还额外地使得待组装的靶多核苷酸序列更有效(例如更高的产率、更低水平的副反应产物、更高的保真度等)。

附图说明

图1显示了生产双链多核苷酸的现有方法。

图2显示了其中SSP与包含引物的多核苷酸序列共价连接的实施方式。

图3显示了其中引物包含退火序列和不退火结合至SSP的突出端序列的实施方式。

图4显示了寡核苷酸连接方法。

图5显示了经由中间靶DSP生产靶多核苷酸序列的分级组装方法。

图6显示了使用IIS型限制酶产生突出端的组装方法。

图7显示了使用修饰的聚合酶延伸产生突出端的方法。

图8显示了使用修饰的聚合酶延伸产生突出端的方法。

图9是组装方法的一个实施方式的示意图。

图10是组装方法的实施方式的示意图，其中n部分线性多核苷酸被组装成环化载体。

图11是n部分线性多核苷酸的组装方法的实施方式的示意图。

图12是体内同源介导的组装的示意图。

图13显示了用于从SSP模板产生DSP的聚合酶延伸反应的产量。

图14显示了确定引物最佳退火温度的实验结果。

图15A、15B和15C显示了如何利用USER克隆将DSP库插入到载体中的示例。

图16a和16b显示了根据本发明的实施方式确定从库生成过程获得的靶序列的简并部分中的碱基分布的实验结果。

具体实施方式

在阐述本发明之前，提供有助于理解本发明的多个定义。本文引用的所有参考文献全文以引用的方式并入本文。除非另外定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。

如本文所使用的，术语“包含”表示必须包括任何所述的要素，且可以可选地包括其他要素。“基本上由......组成”意味着必须包括任何所列举的要素，排除将实质上影响所列要素的基本的和新颖的特征的要素，并且可以可选地包括其他要素。“由...组成”意味着除列出的要素以外的所有要素被排除在外。由这些术语中的每一个定义的实施方式都在本发明的范围内。

“多核苷酸”是核苷酸的单链或双链共价连接的序列，其中每个核苷酸上的3'和5'末端被磷酸二酯键连接。多核苷酸可以由脱氧核糖核苷酸碱基或核糖核苷酸碱基构成。多核苷酸包括DNA和RNA，并且可以在体外合成制备或从天然来源中分离。通常将多核苷酸的大小表示为双链多核苷酸的碱基对(bp)的数量，或者在单链多核苷酸的情况下以核苷酸的数量(nt)表示。一千bp或nt等于千碱基(kb)。长度上小于约40个核苷酸的多核苷酸通常被称为“寡核苷酸”。多核苷酸可以由脱氧核糖核苷酸碱基或核糖核苷酸碱基构成，并且可以在体外合成制备或从天然来源中分离。多核苷酸可以进一步包括修饰的DNA或RNA，例如已被甲基化的DNA或RNA，或已进行翻译后修饰的RNA，例如，用7-甲基鸟苷进行的5'帽子，3'加工、如切割和聚腺苷酸化，以及剪接。本发明的多核苷酸还可以包括合成的核酸(XNA)，例如己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、甘油核酸(GNA)、锁核酸(LNA)和肽核酸(PNA)。

在本文中也称为“多核苷酸”的核酸的大小通常以双链多核苷酸的碱基对(bp)的数目表示，或在单链多核苷酸的情况下以核苷酸的数目(nt)表示。一千bp或nt等于千碱基(kb)。长度上小于约100个核苷酸的多核苷酸通常被称为“寡核苷酸”，并且可以包含用于操作DNA的引物，例如通过聚合酶链式反应(PCR)。

术语“靶多核苷酸序列”包括使用本发明的方法构建的双链多核苷酸序列。

如本文所使用的，术语“3”(“3起始”)和“5”(“5起始”)使用其在本领域中的常规含义，即用于区分多核苷酸的末端。多核苷酸具有5'和3'末端，并且多核苷酸序列通常以5'至3'方向书写。

术语“双链多核苷酸”包括(i)具有钝端且不具有单链多核苷酸区域的完全双链多核苷酸，和(ii)具有5'和/或3'突出端的双链多核苷酸。突出端可以位于双链多核苷酸序列的任一条链上或两条链上。

如本文所使用的，术语“突出端”是指在双链(或部分双链)多核苷酸序列末端的一段未配对的核苷酸。

当多核苷酸序列的特征(例如引物退火位点或互补序列)被描述为在多核苷酸序列的“末端”或“在一个或两个末端”时，这意味着(i)该特征位于序列的最末端，即其包括序列中的最终的核苷酸，或(ii)该特征位于末端区域，即朝向多核苷酸序列的5'或3'末端，但不包括最终的核苷酸，并且可能不包括更多数量的5'或3'末端核苷酸，例如2、3、4、5、10、15、20、25、30、35、40个核苷酸。

如本文所使用的，术语“保真度”指与靶序列相匹配的组装方法的最终产物(例如在将构建体组装并转化到细菌中之后的测序克隆)的百分比。

如本文所使用的，术语“表达度(representation)”是指每个碱基在简并序列中出现在混合位置处的比率。例如，对于标准的“N”位置(即A、C、T、G中的每一个应具有相等概率的位置)，每个碱基应以相等的频率出现-25％腺嘌呤(A)、25％鸟嘌呤G)、25％胸腺嘧啶(T)、25％胞嘧啶(C)。

本发明提供了组装靶双链多核苷酸(DSP)序列的方法。靶多核苷酸序列可以是任意双链多核苷酸。靶多核苷酸序列通过将至少第一DSP和第二DSP连接在一起来组装。整合到靶多核苷酸序列中的至少一种DSP是在所述方法的步骤(ii)中通过将引物退火至SSP并通过聚合酶的作用延伸引物来从单链多核苷酸(SSP)产生。第二DSP也可以使用这种方法从SSP生成。或者，第二DSP可以单独提供，例如以载体或染色体的形式提供。例如，可能提供一种线性化载体，该载体的一个或两个末端包含与位于第一DSP的一个或两个末端的区域互补的区域。靶多核苷酸序列可以由多于两个的DSP、例如至少3、4、5、6、7、8、9或10个DSP组装而成。靶多核苷酸序列可以由数十个DSP、数百个DSP或甚至数千个DSP组装而成。

在一些实施方式中，靶多核苷酸序列从步骤(ii)中产生的DSP群体组装而成。DSP群体中的所有DSP由步骤(i)中提供的SSP群体通过聚合酶介导的引物延伸产生。第二DSP可以是或可以不是在步骤(ii)中生成的群体的DSP。当从DSP群体组装靶多核苷酸序列时，也可以将不是步骤(ii)中产生的DSP群体的一部分的一个或多个另外的DSP引入靶多核苷酸序列中。群体和非群体DSP可以以任意期望的顺序组装以产生靶多核苷酸序列。例如，DSP群体可以作为连续序列连接在一起，而非群体DSP可以连接到所得序列的一端或两端，以形成靶多核苷酸序列。或者，例如，群体DSP可以在两个末端连接到非群体DSP，以形成包含散布有非群体DSP的群体DSP的靶多核苷酸序列。在一个实施方式中，一个或多个靶多核苷酸序列由与群体的至少一个其他DSP连接的群体的一个或多个DSP构建而成。在一个实施方式中，一个或多个靶多核苷酸序列由与至少一个不是该群体的DSP的其他DSP相连接的群体中的一个或多个DSP构建而成。

在一个实施方式中，DSP群体由多个DSP“n”组成，并且n-2个DSP在该方法的步骤(iii)中被连接到群体中的另外两个DSP。剩余的两个DSP可以分别连接到群体中的另一个DSP，并且任选地连接到不是来自群体的另一个DSP。以这种方式，可以将包含群体的DSP的连续序列插入到例如载体的非群体DSP中。DSP通过互补区域以正确的顺序和方向进行组装。这在下面更详细地讨论。

有利地，本发明的方法可用于同时组装多个相同的靶多核苷酸序列和/或同时组装多个不同的靶多核苷酸序列。这通过提供对应于每个靶多核苷酸序列的SSP或SSP群体，并且对每个起始SSP或同时对SSP群体执行方法步骤来完成。由于与靶多核苷酸序列对应的DSP之间的特异性互补，使得每个靶多核苷酸序列的正确组装成为可能。

本发明的方法可用于组装靶多核苷酸序列的库。这里，术语库用于描述多个独特的多核苷酸序列设计，每个多核苷酸序列设计可以映射回单个简并多核苷酸序列设计。如果多核苷酸序列设计可用于描述多个独特的多核苷酸序列，则称其为简并。

例如，在一个实施方式中，简并靶多核苷酸设计可以使用由国际纯粹与应用化学联合会(IUPAC)开发的公知的核苷酸符号来描述。下表中描述符号。

IUPAC符号	相应的核苷酸碱基	符号类型
			A	A	非简并
C	C	非简并
			G	G	非简并
T	T	非简并
			U	U	非简并
R	A或G	简并
			T	C或T	简并
S	G或C	简并
			W	A或T	简并
K	G或T	简并
			M	A或C	简并
D	A或G或T	简并
			H	A或C或T	简并
V	A或C或G	简并
			N	A或C或G或T	简并

例如，在IUPAC描述的多核苷酸序列的情况中，符号“W”可以对应“A”和“T”。因此，简并多核苷酸序列设计“WAT”具有两种可能的物质表现“AAT”和“TAT”。多核苷酸序列设计“ANC”具有四种物质表现“ATC”、“AAC”、“AGC”和“ACC”。多核苷酸序列设计“NNN”具有64(4^3)个潜在的物质表现。或者，可以使用其他符号来描述使用IUPAC符号不能充分描述的简并序列设计。

在一个实施方式中，本发明的方法用于组装一个或多个靶多核苷酸序列，每个靶多核苷酸序列可以对应于一个或多个简并多核苷酸序列设计。该组装的靶多核苷酸序列的群体可包含由简并多核苷酸序列设计描述的整个设计集。或者，组装的靶多核苷酸序列的群体可以包含由简并多核苷酸序列设计描述的整个设计集的子集。

因此，一方面，本发明提供了制备靶多核苷酸序列库的方法，该方法包括使用本发明第一方面的方法同时产生多个不同的靶多核苷酸序列。多核苷酸序列库可对应于一个或多个简并多核苷酸序列设计。

一旦已经产生了靶多核苷酸序列或多个靶多核苷酸序列，就可以对它们进行一个或多个进一步的处理步骤。例如，靶多核苷酸序列可以使用PCR扩增，进行序列验证，和/或使用本领域已知的任意合适的技术转化到宿主细胞中。

生成DSP

在步骤(ii)中，通过将引物退火至SSP并通过聚合酶的作用延伸引物，将SSP转化成DSP。SSP包含至少一个引物退火位点。可以在SSP的一端或两端提供引物退火位点。优选地，每个SSP包含单个引物退火位点，并被使用单一引物延伸反应转化为DSP，由此单一引物被退火至SSP并通过聚合酶的作用延伸。

在一个实施方式中(参见图2)，引物可以共价连接至其对应的SSP。引物与SSP的共价连接可以在SSP合成期间实现。共价连接的引物序列可以另外包含发夹基序，其通过形成分子内二级结构允许引物退火至SSP。一旦退火，引物可以通过聚合酶的作用延伸以产生DSP。发夹基序可以包括一个或多个可切割位点(例如尿嘧啶碱基)，所述可切割位点允许其随后的移除。这些可切割的发夹引物可以添加到DSP的一端或两端。可切割位点可定位成使得在切割发生后形成预定设计的突出端。在一些实施方式中，可以在SSP中的一个或多个核苷酸碱基被固定在固体支持物上时实施该方法。这个实施方式有几个优点。首先，将引物共价连接到SSP增加了SSP将被转化成DSP的可能性。其次，使用与SSP共价结合的引物，通过引物的不当退火形成副反应产物的可能性降低。第三，其可以无损去除DSP的引物退火位点。因此，有可能组装包含简并性水平较高的靶多核苷酸设计。该实施方式的另一个优点是通过将尿嘧啶位点置于发夹引物内的特定位置，可以用聚合酶变体进行聚合酶介导的引物延伸反应，否则所述聚合酶变体将在尿嘧啶位点停止。

引物退火位点可以是源自靶多核苷酸序列的SSP的区域。在使用SSP群体的情况下，群体中的一些或所有SSP可以包含通用的引物退火位点，使得可以使用相同的引物序列将SSP转化为DSP。引物退火位点和其周围的一个或多个碱基可以在SSP转化为DSP之后被去除。引物将包含引物退火位点的反向互补序列。引物可以另外在其5'末端包含不退火至SSP的核苷酸。引物可以从许多商业供应商(例如Thermo Fisher、Eurofins MWG Operon、SigmaAldrich、Integrated DNA Technologies(IDT))订购。典型地，引物退火温度将在约50℃至约72℃的区域内，退火温度取决于许多因素，包括序列特异性参数，例如引物的GC含量和长度以及例如PCR反应发生所需的缓冲剂等因素。对于特定的引物/SSP组合的最佳温度可通过计算预测，或通过在一定范围的退火温度下评估DSP产量凭经验确定。在较高的退火温度下，DSP的收率降低，因为较少的引物会退火结合至SSP。然而，优选在DSP产量下降之前使用最高退火温度以使非特异性引物退火最小化。有许多方法可用于确定SSP到DSP转换反应的质量。例如，可以通过诸如凝胶电泳、质谱或毛细管电泳的方法来测定反应产物。异源双链体在反应产物中的存在可以使用诸如SURVEYOR突变检测试剂盒(IDT)的试剂盒进行检测。

引物的延伸通过聚合酶进行。合适的聚合酶的例子包括但不限于Pfu聚合酶(Stratagene)，PfuTurboCx Hotstart DNA聚合酶(PfuCx)(Stratagene)，Hotmaster Taq(Eppendorf)，Taq(Invitrogen)，Phusion(Finnzymes)，Pwo(Roche)和Q5聚合酶(NEB)。任意标准试剂(如缓冲液，DMSO和dNTPs)都可用于转化步骤中，反应条件由选定的聚合酶根据公认的生产商指南确定。

优选的，不使用扩增方法(如使用PCR扩增)从SSP产生DSP。在组装靶多核苷酸序列之前避免DSP扩增有几个优点。例如，由单一引物延伸产生的DSP(与扩增相反)将具有更高的保真度，这是由于(i)异源双链体形成水平降低，(ii)不正确的碱基掺入水平降低和(iii)避免由脱靶退火引起的PCR副反应。

在SSP至DSP转换反应中，使用单引物延伸(而非PCR)在库创建的情况中特别有利。例如，当使用PCR将SSP群体转换成DSP群体时，一个SSP可能会产生多个DSP。当PCR产生差异的SSP富集时，在产生的DSP群体中一些设计可能过度表现或表现不足。相反，在单引物扩展方法中，一个SSP被转换成一个DSP。因此，由此产生的DSP群体应该包含相应SSP群体的较小偏差的采样。在需要高DSP多样性的情况下(例如在库创建中)，可以使用单引物扩展方法将独特的SSP设计的大群体转换为独特的DSP设计的相应群体。当产生高度重复的序列时，单引物延伸也可能是有利的。将这些序列暴露于多轮熔解和退火增加了引物错误退火和SSP之间形成异源双链体，随后聚合酶延伸的可能性。所得到的副反应产物可以(i)抑制SSP至DSP的转化反应，(ii)干扰靶多核苷酸序列组装，和(iii)产生非靶核苷酸序列。如果靶多核苷酸序列要转化到细胞中，则反应产物中非靶多核苷酸序列的存在可以产生含有靶多核苷酸序列和非靶多核苷酸序列的细胞群，这是特别不利的。

一旦生成，可能对DSP进行一个或多个错误去除步骤和/或纯化，以除去不需要的反应组分或副反应产物。例如，错误消除步骤可以包括去除包含错配并因此包含异源双链体的DSP。可以使用错配结合剂(例如MutS)或者通过利用电泳迁移率的差异来去除这些DSP。或者，可以使用异源双链体特异性核酸酶切割DSP群体中的异源双链体。然后可以使用一种或多种物理分离技术去除裂解的异源双链体。这种分离技术可以包括电泳制备技术(例如PAGE)或HPLC。分析级技术(例如质谱或HPLC)可用于随后评估上述异源双链体去除方法的效果。另外，可以将DSP样品进行缓冲交换反应，以赋予与下游反应步骤的相容性。

SSP可包含SSP转化成的DSP的一条链的多核苷酸序列或由其组成。在一些实施方式中，DSP包含另外的多核苷酸序列，因此在这样的实施方式中，SSP将不包含其被转化成的DSP的一条链的完整多核苷酸序列。例如，SSP可包含在步骤(ii)中SSP转换成的DSP的一条链的多核苷酸的至少70％、至少80％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％。形成非SSP衍生的DSP链的另外的多核苷酸序列可以来源于引物。在这样的实施方式中，引物可以包含退火序列和突出端序列。退火序列退火结合至SSP，而突出端序列不退火结合至SSP并产生突出端。其一个示例性实施方式如图3所示。在该实施方式中，SSP具有引物结合位点(下划线)。该引物具有引物结合位点的反向互补的序列(也是下划线)以及在其5'末端的附加序列(粗体)，其不与SSP退火，并且一旦引物退火至SSP就形成突出端。

在这个实施例中，引物含有5'突出端。该突出端包含与SSP的3'区域不互补的区域(ATG)。在第一步(步骤1)中，引物退火结合至SSP。在第二步(步骤2)中，引物在SSP至DSP转化反应中通过聚合酶延伸。所得的链被称为S1(来自SSP)和S2(来自引物)。S1链也通过聚合酶在5'-3'方向延伸，其将序列CAT添加至S1链的3'末端。CAT是引物的非互补区域的反向互补序列。序列S1包含CCCTGACTGACGATGAGATAAGGGCTATGATTAGAAAG(SEQ ID_NO:1)+CAT。因此，S1包含SSP和引物的5'非互补序列的反向互补序列。因此，在一个实施方式中，在步骤(ii)中由SSP形成的DSP的一条链包含该SSP和不与该SSP退火的SSP相应引物的任意5'区域的反向互补序列。

如上述实施例所示，本发明方法的步骤(ii)除了引物的延伸之外还可以包括聚合酶介导的5'至3'方向的SSP延伸。引物和SSP的延伸可以同时发生。

SSP可以通过本领域已知的化学合成方法来生产。具有所需序列的化学合成的SSP可以从一系列商业供应商(例如IDT，Bio-Synthesis公司)订购。通过目前的技术，商业供应商通常提供长达200-400个碱基的SSP。如果需要更长的SSP，其可以使用称为寡核苷酸连接的已有技术来生产。这参照图4进行描述，其中将要被连接在一起的两个寡核苷酸标记为DNA1和DNA2。可以使用夹板固定式连接反应将两个寡核苷酸连接在一起，以形成更长的多核苷酸序列。其中一个寡核苷酸必须在其3'末端未修饰且具有3'羟基，另一个必须附着有5'磷酸基团。连接反应由酶DNA连接酶催化，并且需要通过同时杂交至互补桥接寡核苷酸将DNA1和DNA2聚集在一起。连接反应有时用于从长寡核苷酸或PCR产物组装基因(仅通过使用5'磷酸标记的PCR引物，可以将5'磷酸基团引入PCR产物中)。DNA1和DNA2可以是任意长度，例如，100mer合成寡核苷酸或500mer PCR产物，而桥接寡核苷酸只需要是长度约25个碱基的短寡核苷酸。可以使用DNA片段和桥接寡核苷酸的混合物同时施行多个连接反应，以从几个片段组装长段DNA。

用于本发明方法的SSP可具有从约30个碱基至约1000个碱基或更多中的任意长度，例如至少30、40、50、100、200、300、400、500、600、700、800、900或1000个碱基长。

在将SSP群体转换为DSP群体的情况下，可以将SSP在空间上彼此分开以用于转换步骤。例如，可以将SSP固定在固体支持物上。固定在固体支持物上的SSP可以额外包含允许释放DSP的可切割连结。例如，可以将一个或多个SSP通过可光切割连结固定到固体支撑物上。在这个实施例中，可以使用辐射源(例如激光)来从固体支持物释放所得的DSP。这可以以高度可控的、精确的和可编程的方式通过相对于固体支撑物移动激光(并因此照射的部位)来实现。这种方法的优点是其允许不同的DSP从固定的DSP群体中选择性地释放。一旦释放，DSP通过其互补区域从固体支持物脱离成为DSP连接反应中的微粒。或者，可以通过隔离分区来实现空间分隔。例如，每个SSP可以在单独的反应容器中转换成DSP。或者，可以通过微滴处理来实现空间分离。这种技术可以用于以可扩展和高通量的方式产生靶序列。

通过互补序列连接DSP

通过在称为“定向组装”的方法中以正确的顺序和取向将至少两个DSP连接在一起来组装靶多核苷酸序列。通过仔细设计每个DSP的一个或两个末端区域，促进多个DSP子部分的定向组装以形成靶多核苷酸序列。第一DSP可以通过末端定位的互补序列的相互作用连接到第二DSP。为了进行这种相互作用，一个DSP上的末端定位序列必须能够自由地与第二个DSP上的互补末端定位序列相互作用。优选地，不需要其他组分如单链桥连寡核苷酸来促进靶多核苷酸序列的组装。优选地，只有待直接连接在一起的DSP将会包含彼此互补的序列。然而，在一些情况下，不连接(直接地)在一起的DSP可以包含互补序列。在这种情况下，互补序列在组装步骤期间将不能彼此结合，例如，互补序列可以在DSP的非末端区域中以不可接近的状态被隔离。在一些实施方式中，不直接连接在一起的DSP将不包含彼此互补的序列。可以同时组装多个相同的靶序列，因此针对靶多核苷酸序列中的每个位置将存在一组相同的DSP。例如，如果靶多核苷酸序列是线性的并且依次包含DSP 1，DSP 2和DSP 3，则可能有一组相同的DSP 1片段，一组相同的DSP 2片段和一组相同的DSP 3片段。任意DSP 1片段可以通过互补序列连接到任意DSP 2片段，但是DSP 1片段不能连接到DSP 3片段，因为它们不包含彼此互补的序列。这些DSP因此被设计为包括特定的互补序列，其将确保给定的DSP只能连接适当的DSP，以形成靶序列。

互补序列的长度可以是约1至约50个碱基，更优选约3至约25个碱基。例如，互补序列的长度可以是至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个碱基。非同一性DSP的每个末端定位互补序列应该是独特的，并且可以与其他DSP的互补序列有至少1、2、3、4、5或更多个碱基不同。这是为了确保DSP在组装靶多核苷酸序列的过程中只能连接正确的对应DSP。如上所述，当组装多个相同的靶多核苷酸序列时，可以存在多组相同的DSP。在这种情况下，相同的DSP将具有相同的互补区域，但这并不重要，因为相同的DSP可以互相替换。

在一个实施方式中，将在该方法的步骤(ii)中产生的DSP组装成线性化载体，其中DSP和载体之间的连接点由它们各自的互补区域确定。以这种方式可以将多个DSP插入到线性化载体中。例如，将在所述方法的步骤(ii)中产生的DSP群体组装成线性化载体，其中所述载体的一个端部连接到群体中的第一DSP，载体的另一端连接到群体中的第二DSP。可以将任意数量的其他DSP掺入线性化载体两端之间的靶多核苷酸序列中。

在一个实施方式中，通过多个DSP的分级组装来组装靶多核苷酸序列。这里使用术语“分级组装”来描述其中最终靶多核苷酸序列经由一个或多个中间靶序列的相继组装来组装的方法。例如，如图5所示，在第一步中，可以使用两对不同的DSP对来构建两个中间靶多核苷酸序列。然后可以在第二步中连接包含DSP的这些中间靶多核苷酸序列，以产生最终的靶多核苷酸序列。在分级组装过程中，中间靶多核苷酸序列可以任选地在被连接到另一个DSP之前被扩增和/或纯化。

互补区可作为DSP的任一条链的单链突出端来提供。因此，单链突出端可以是约1至约50个碱基长度，更优选约3至约25个碱基长度，例如至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个碱基长度。非同一性DSP的单链突出端应该是独特的，并且可以与其他DSP的单链突出端有至少1、2、3、4、5或更多个碱基不同。每个DSP可以在一个或两个末端具有突出端，并且可以具有5'和3'突出端的任意组合。

在生成DSP之后，可以使用酶去除双链序列的一条链的一部分来产生突出端。如果要产生突出端，可以将SSP设计成使得它们所转换成的DSP针对特定的位点，以暴露所需的突出端。突出端可以使用许多已知的酶和试剂产生。例子包括USER^TM(尿嘧啶特异性切除试剂)酶混合物，IIS型限制酶和外切核酸酶。在优选的实施方式中，使用在下文中称为“USER酶混合物”的包含尿嘧啶DNA糖基化酶(UDG)(例如大肠杆菌G/U错配特异性DNA糖基化酶(EC：3.2.2.28))和DNA糖基化酶切割内切核酸酶(例如大肠杆菌核酸内切酶8)的酶混合物来产生突出端。UDG催化尿嘧啶碱基的切除，形成脱碱基(无嘧啶)位点，同时保持磷酸二酯骨架完整。核酸内切酶VIII的裂解酶活性在脱碱基位点的3'和5'侧断裂磷酸二酯主链，从而释放无碱基脱氧核糖。USER酶混合物可从商业供应商获得(例如来自New EnglandBiolabs(NEB)的USER^TM酶)。USER^TM酶混合物含有尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII。

使用USER酶混合物进行的多核苷酸组装称为“USER克隆”。USER克隆依赖于双链DSP中的某位置上尿嘧啶碱基的存在。这可以如实施例2中所述引入到SSP设计和/或引物设计中。尿嘧啶和作为尿嘧啶5'的所有多核苷酸残基被USER酶去除，由此产生突出端。USER克隆的方案示例如下。可以将USER酶混合物添加到包含将被组装的等摩尔的DSP的反应混合物中，然后可以将整个反应混合物在37℃温育20分钟以允许通过USER酶混合物产生突出端，并且在21℃下20分钟以允许突出端退火。USER切除步骤和退火步骤可能需要不同的温度。例如，如果反应混合物中包含较大量的DSP，则USER酶可能需要额外的时间来产生突出端。关于USER克隆的更多信息可以在Bitinaite,J.et al.USER friendly DNAengineering and cloning method by uracil excision.Nucleic Acids Res.35,1992–2002(2007)，和Methods in Molecular Biology 643,Chapter 13 USER Cloning andUSER Fusion:The Ideal Cloning Techniques for Small and Big Laboratories,Hussam H.Nour-Eldin,Fernando Geu-Flores,and Barbara A.Halkier中找到。

IIS型限制酶克隆方法利用酶在其识别位点外的切割作用来允许无创伤多核苷酸组装。当应用于本文公开的方法时，用3'端存在的引物结合位点合成SSP以允许DSP形成，用在一个或两个末端的具有相邻末端互补序列的酶识别位点合成SSP以允许在限制性酶消化后组装。该方法可以应用于多于两个的组分DSP。这可以通过在SSP的两端包括IIS型限制位点来实现。由于重叠不依赖于酶的识别序列(其在限制时被去除)，每个接头突出端可以被设计成与形成完整靶多核苷酸序列的相邻DSP具有特异互补性。一旦SSP已经转化为DSP，可以通过添加IIS型限制酶将整个靶多核苷酸序列组装在一个罐中，以暴露特定的突出端。可以任选加入T4连接酶以将这些部分连接在一起。在反应中加入T4连接酶的优点是其可以增加靶序列的产量。这是因为两个连接的DSP将缺少IIS型识别序列，因此无法被切割。相反，如果将被切割的链重新连接到其亲本DSP上，则IIS型识别序列重新形成，所得到的多核苷酸序列可以通过限制酶重新被切割。

基于IIS型限制酶的组装方法的一个实施方式示于图6。在此实施例中，组装了包含两个DSP、即DSP 1和DSP 2的靶多核苷酸序列。将引物退火到第一SSP、SSP1和第二SSP、SSP2。使用聚合酶延伸引物，以形成DSP-1和DSP-2。两种DSP在其待连接的末端都含有IIS型限制酶BsaI的识别位点。用IIS型限制酶BsaI消化DSP，其导致相邻DSP(NNNN)上的互补4个碱基对突出端暴露并去除BsaI识别位点。将互补序列退火以组装靶多核苷酸序列。考虑到每个突出端序列具有合适的特异性，可以同时按照定义的顺序组装多个DSP。

基于核酸外切酶的组装方法的一个实施方式包括将DSP混合物与核酸外切酶(例如T5核酸外切酶)、聚合酶(例如Phusion聚合酶)和热稳定连接酶(例如Taq连接酶)一起温育。核酸外切酶使DSP的一条链回退，与退火的相邻DSP产生兼容的突出端。由过度回退引起的缺口由热稳定聚合酶活性填补，骨架中的缺口由热稳定连接酶修复。在由外切核酸酶产生突出端的情况下，突出端长度可以由反应条件确定。

在一个实施方式中，突出端不是使用限制酶产生的。SSP和/或DSP可能不包含限制酶识别位点。使用不同于基于限制酶的方法来产生突出端的优点是，其避免了脱靶切割，使得可设计突出端长度和更好地利用合成能力。

在一个实施方式中，可以通过将四氢呋喃无碱基位点引入SSP和引物中来产生突出端，如在Autosticky PCR中一样。例如，可以通过在SSP的5'末端引入四氢呋喃无碱基位点而在SSP的5'末端产生突出端。在聚合酶延伸反应期间，聚合酶将到达该四氢呋喃无碱基位点并失速，导致聚合酶反应停止，留下突出端。通过使用包含所需突出端序列和在这些序列之间具有四氢呋喃无碱基位点的退火序列的引物，可以在3'末端产生突出端。退火序列与SSP退火，而突出端序列不与SSP退火。随后的引物延伸形成DSP，引物中的无碱基位点抑制相对链的延伸，留下突出端。这两种技术的结合导致在DSP的两端形成突出。聚合酶在这些无碱基位点的作用各不相同，例如，Taq聚合酶在与DNA解离之前会添加至少1个碱基，而聚合酶如Pfu和Vent则不会。在SSP和引物的设计过程中，这是非常重要的，因为在无碱基位点对面包含碱基可大大提高组装效率。由于Pfu和Vent没有在无碱基位点对面引入碱基，因此必须在相邻DSP的互补突出端中包含一个。Taq则恰恰相反，其不需要在互补突出端中的额外的碱基。在完全组装的DSP转变成宿主细胞后，这些无碱基位点通过宿主酶体内修复。有关autosticky-PCR技术的更多信息可以在Gál J et al.Directional cloning ofnative PCR products with preformed sticky ends(autosticky PCR).Mol GenGenet.569-73.1999Jan中找到。

在一个实施方式中，可以在该方法的步骤(ii)中通过使用修饰的聚合酶延伸反应产生突出端。例如，可以通过使引物向SSP 3'末端的上游退火来产生突出端，使得当引物在5'至3'方向延伸时，单链序列的区域留在引物的5'末端。可替代地或额外地，可以使用阻断寡核苷酸。阻断寡核苷酸由修饰的寡核苷酸组成，以防止由DNA聚合酶引起的在特定位置的DNA聚合。这些修饰包括但不限于锁定核酸(LNA)、化学逆转核苷酸、3'磷酸基团、3'-SpacerC3CPG和肽核酸(PNA)。为了形成突出端，可将封闭寡核苷酸退火至形成突出端的SSP序列，如图7步骤1所示。以正常方式退火并延伸引物以形成DSP，直至到达阻断寡核苷酸，此时聚合停止(图7的步骤2)。然后去除阻断寡核苷酸以留下突出端(图7的步骤3)。在该实施方式中，引物也从SSP的3'区域向上游退火。这些技术的结合导致在DSP两端形成突出端。

另一个实施方式涉及使用包含所需突出端序列和退火序列的引物。退火序列与SSP退火，而突出端序列不会退火结合至SSP(如图8步骤1所示)。阻断寡核苷酸与引物的突出端序列退火。任选地，第二阻断寡核苷酸可以退火结合至图8所示的实施方式中的SSP。延伸引物以形成DSP。最后，去除阻断寡核苷酸，留下突出端，如图8步骤3所示。上述技术的任意组合及其变体可用于产生突出端。本发明的方法可以包括将步骤(ii)中由SSP产生的DSP连结到不是从SSP产生的第二DSP。不是从SSP产生的DSP可以包括突出端，并且其可以使用本文公开的任何方法来产生。

图9显示了完整组装方法的一个实施例，其涉及使用互补突出端由两种组分DSP组装环化靶多核苷酸序列。引物在引物退火位点被退火结合至SSP的3'末端，并且该引物被使用DNA聚合酶延伸以形成第一DSP。处理该第一DSP以在每一端形成突出端。提供第二DSP，其被类似地处理以产生与第一DSP的突出端互补的突出端。将互补突出端退火，使得第一DSP以正确的方向插入第二DSP中，以形成环化的靶多核苷酸序列。

尽管可以基于互补突出序列的退火实现靶多核苷酸序列的组装，但是可以使用连接酶进一步连接组装的DSP。连接酶可以是T3DNA连接酶、T4DNA连接酶、T7DNA连接酶、TaqDNA连接酶、大肠杆菌DNA连接酶、Sso7-连接酶融合物，以及其任意变体，或其任意组合。

图10显示了根据本发明的实施方式的将n部分线性多核苷酸组装成环化载体的方法的实施例。在该实施方式中，明确显示了两部分靶序列被组装成质粒。本领域技术人员将理解，线性部分(靶序列)实际上可以包含3个或更多个双链多核苷酸(DSP 1至DSP n)和相应的单链多核苷酸(SSP1至SSPn)，其中DSP的设计、生成和组装遵循相同的原则。具体地，在所示的实施方式中，提供了第一单链多核苷酸(SSP1)和至少第二第一单链多核苷酸(SSPn)。例如在需要库生成的情况下，这些SSP中的一个或两个可包含一个或多个简并DNA片段。

然后使用每种SSP的单引物(即引物1至n)(其中每种引物结合在SSP末端)通过聚合酶介导的引物延伸将每种SSP转化为其各自的DSP。

每个DSP包含与另一个DSP的多核苷酸序列互补的多核苷酸序列。有利的是，这些互补序列对于单个DSP对是唯一的，即每对互补序列仅存在于一对DSP中。

然后突出端在每个DSP的两侧产生。在该实施方式中，突出端由USER介导的脱氧尿嘧啶切除产生。因此，每个SSP和每个引物包含用于由USER酶识别的尿嘧啶核苷酸。类似地，每个SSP可以在与引物结合的末端相反的末端包含尿嘧啶核苷酸。突出端包含至少一部分在成对DSP之间互补的序列。

然后通过将突出端上的互补序列退火和随后的片段连接来组装靶序列。有利地，由于突出端中的互补序列对于反应内的单个DSP对是唯一的，因此该组装将导致特定的排序和方向。这是本发明方法的一个关键的有利特征，并且不限于任意特定的突出端生成和组装方法。用于多核苷酸组装的先前的技术的明显缺点是，排序和方向通常可能受到损害，产生导致反应中产率和保真度降低的“搅乱”污染副产物。

平行地，可以制备载体以与上面获得的线性产物组装。在该实施方式中，提供质粒，连同包含用于突出端生成的尿嘧啶核苷酸的特异性引物。类似于对线性靶序列的片段进行的操作，设计引物，使得在通过USER介导的脱氧尿嘧啶切除裂解后，产生包含与组装的靶序列的任一末端互补的序列的突出端。在PCR线性化，消化和USER介导的脱氧尿嘧啶切除后，具有突出端的线性化质粒可以通过突出端的退火和连接与靶序列组装，类似于针对线性靶组装中的任意其他DSP所做的。

图11显示了根据本发明实施方式的组装n部分线性多核苷酸的方法的实施例。在该实施方式中，示出了第一侧翼DSP，第二侧翼DSP和一个插入DSP。本领域技术人员将理解，线性部分(靶序列)实际上可以包含2个或更多个插入的DSP(DSP 2至DSP n-1)和相应的单链多核苷酸(SSP2至SSPn-1)，其中DSP的设计、生成和组装遵循相同的原则。

具体地，在所示的实施方式中，提供了第一侧翼单链多核苷酸(SSP1)，第二侧翼SSP(SSPn)和至少一个另外的单链多核苷酸(SSPx，其中1<x<n)。在组装反应用于产生DNA序列库的情况下，取决于所需库的类型，任意或所有这些SSP可包含简并或随机化DNA序列的一个或多个区段。

然后使用结合第一侧翼SSP(SSP1)的末端的第一引物(p1)，结合SSPn末端的第二引物(pn)和针对每个SSPx的引物(px，其中1<x<n)(其中每个引物结合SSPx的一个末端)，通过聚合酶介导的引物p1、pn和px的延伸，将每个SSP转化成其相应的DSP。

上面获得的第一侧翼DSP(DSP 1)包含与第一插入DSP(DSP 2)的多核苷酸序列互补的序列CPS1。第一插入DSP(DSP 2)包含与DSP 1的CPS1互补的第二互补多核苷酸序列CPS2。如果使用单个插入DSP，则第一插入DSP(DSP 2)额外包含与下一个插入DSP(DSP 3)或第二侧翼DSP(DSP n)的多核苷酸序列互补的第三互补多核苷酸序列(CPS3)。该下一个插入DSP包含与CPS3互补的第四互补多核苷酸序列(CPS4)。在使用单个插入DSP的实施方式中，第二侧翼DSP(DSP n)包含CPS4。

然后，在每个侧翼DSP的一个末端以及在每个插入DSP的两个末端创建突出端。突出端包含互补多核苷酸序列(CPS1-4)的至少一部分。在所示的实施方式中，突出端由USER介导的脱氧尿嘧啶切除产生。因此，向引物p1和px提供尿嘧啶核苷酸以供USER酶识别。此外，每个插入SSP(SSPx)和第二侧翼SSP(SSPn)在引物(分别是px和pn)不结合的末端包含尿嘧啶核苷酸。

因为突出端含有互补序列CPS1-4，所以突出端之后可以被退火，并且最终的组装产物被连接。有利地，设计突出端，使得互补序列存在于单个部分中，并且每对互补序列CSP1-CSP2、CSP3-CSP4可以形成于单个部分对之间。因此，通过第一至第四互补多核苷酸序列(CPS1-4)内的独特的突出端配对，确定第一侧翼、插入和第二侧翼DSP中每一个的排序和方向。

在一些实施方式中，步骤(ii)中产生的至少一个DSP和任选地所有DSP处于完全双链状态，并且不包含5'或3'突出端。在这样的实施方式中，互补序列以双链形式存在。这样的DSP可以通过同源重组连接到群体中的其他DSP和/或非群体DSP。该方法优选在体内进行，例如在酵母中。酵母中的同源性介导组装，称为转化相关重组(TAR)，是一种在酿酒酵母中在体内将线性双链多核苷酸片段组装成环状质粒的技术。它依赖于≥2个线性双链多核苷酸片段的转化，每个片段的两端都有区域，与其将连接的片段互补。一旦这些片段被转化到酵母中，酵母进行同源重组以将所有片段连接在一起。图12显示了一个实施方式。这里，通过在酵母中进行同源重组来组装三个钝端DSP，以形成环化的靶多核苷酸序列。包含互补序列的区域如A、B、C所示，DSP片段标记为1、2和3。DSP 1包含由DSP 2共享的互补区域B。DSP2包含由DSP 3共享的互补区域C。DSP 3含有由DSP 1共享的互补区A。与大多数克隆一样，插入的一个或多个片段优选含有选择标记，以允许成功转化和组装的质粒被分离。酵母中同源重组的更多细节可以在Kuijpers et al..Microbial Cell Factories 2013,12:47中找到。

设计SSP

可以使用以下步骤来设计可用于根据本文所述的多核苷酸组装方法构建一个或多个靶DSP序列的一组SSP和附随的引物。

(1)提供待组装的靶多核苷酸序列。

(2)鉴定靶多核苷酸序列中的多个序列，每个序列可以包含末端定位的DSP之间的重叠。这些子序列称为“互补序列”。

(3)任选地使用可包括以下因素的因素来过滤多个互补序列：

·互补序列的长度，

·互补序列在互补序列群体中是否是唯一的，

·互补序列是否含有任意简并碱基。

(4)生成多个互补序列组合。由于互补序列组合的总数通常非常大，因此可能优选通过增加筛选器数目/严格度来减少步骤(3)中所鉴定的互补序列的数目。

(5)筛选互补序列组合以除去那些含有在靶多核苷酸序列中重叠的互补序列的组合。

(6)使用筛选后的多个互补序列组合来生成多个DSP设计。

(7)使用可包括以下因素的因素评估DSP设计：

·合成参数(如成本、周转时间、规模、保真度、合成的轻易度)，

·SSP转换成DSP的轻易度和保真度(受引物结合位点组成，二级结构形成等因素的影响)。

(8)使用可包括以下因素的因素评估DSP连接过程：

·互补序列特性(例如相互作用强度、错误退火的可能性)

·互补序列正交性(例如，两个非互补重叠部分错误退火的估计概率)

·制作靶DSP所需的DSP片段数量(DSP编号和最终产品产量可能呈负相关)。

(9)使用多参数优化来选择一个或多个候选设计。

(10)对每个候选设计，使用多参数优化来确定应该如何获得每个DSP。

(11)提供输出报告，所述输出报告包括一组或多组SSP以及将所述SSP转换成可被组装成所述靶DSP序列的DSP群体所需的相应引物组。

一方面，本发明提供了一种设计多个SSP的方法，所述多个SSP可以被转化为DSP，用于组装成靶多核苷酸序列。该方法优选地包括执行以上步骤(1)至(11)。这些步骤中的一个或多个可以由计算机执行。优选地，步骤(2)至(11)全部可以由计算机执行。

本发明还提供了一种计算机程序，用于设计多个SSP，用于转换成多个DSP，用以组装成靶多核苷酸序列，该程序寄存在硬件计算机可读存储介质上并具有多个指令，所述指令在被处理器执行时，导致处理器施行包括以上步骤(2)至(11)的操作。

可以设计末端互补序列以与一种或多种DSP连结技术兼容。例如，在不涉及DSP末端附近的一个或多个识别位点的酶促加工(例如同源重组，基于核酸外切酶的组装或Autosticky单一引物延伸)的DSP连结方法的情况下，互补序列可以包含作为靶多核苷酸序列的连续子序列的任意序列。相反，在基于USER的DSP连结方法的情况中，互补序列可以来自靶多核苷酸序列的任意连续子序列，只要其在一端具有'A'，而在另一端具有'T'。对于给定的靶多核苷酸序列，潜在的USER重叠部分的总数可以通过将给定链中的A的数量乘以相同链中的T的数量来计算。使用限制酶，互补序列来源于特异性限制酶识别位点，在该位点上限制酶将结合DNA并切割。在IIS型限制酶的情况中，该识别位点可以在切割期间被去除，因此互补序列可以包含作为靶多核苷酸序列的连续子序列的任何序列，只要适当的切割位点被设定到SSP中，使得其会在酶切过程中被去除。

对于所有上述的DSP连结方法，随着靶多核苷酸序列的长度增加，可能的重叠部分的数量非线性地增加。理论上可以使用确定性方法列出针对给定靶多核苷酸序列和DSP连结方法的所有潜在重叠部分。这就是说，当潜在重叠部分的数量非常大时，完成这项任务所需的计算时间可能会过多。在诸如此类的情况下，可能优选的是针对给定的靶多核苷酸序列和DSP连结方法对潜在重叠部分的总数进行采样。采样可以使用随机性或确定性方法来完成。

应用

这种组装方法的应用领域之一是构建高度简并的DNA库。不同基因序列的库可能在鉴定具有特定功能的蛋白质中有用。例如，商业上有价值的功能序列可以通过表达不同核酸序列的库，测试所得蛋白质的特定功能，并分离那些性能良好的序列来鉴定。通过多样化和选择性的重复循环，可以针对特定功能进一步优化序列。这个过程可能被称为定向进化。选自不同序列池的序列可用于生物学、医学或工业应用。例如，通过定向进化鉴定的序列可用于抗体工程。

这些库与广泛的应用领域相关。一旦创建了库，就可以将它们插入表达框(无细胞或生物体，如大肠杆菌、酵母、哺乳动物细胞等)，并筛选(可能通过高通量方法，如微流体细胞分选或噬菌体展示)所需的特征。然后可以选择表现出最佳特征的细胞同基因群体，之后，可以从每个群体中分离和测序来自库的插入dsDNA。

或者，细胞的许多同基因群体可以具有量化的某些感兴趣的特征，这些单个的同基因群体随后可以被分离和测序。这将使得库中的特定序列与感兴趣特征(性能数据)的量化相关联。然后可以使用该数据集从计算方面上预测性能数据不存在的序列的性能。这可以通过采用机器学习技术来完成，例如线性或逻辑回归、神经网络等。

蛋白质表达和折叠可以通过创建含有调节元件库(例如启动子、RBS、增强子元件等)的构建体来优化。可以构建到库中的大量简并意味着可以对非常大的潜在序列空间进行采样。本发明的方法有助于产生比先前存在的等同物具有更大数量级的多样性的库。

这些库在蛋白质工程领域中也是非常有价值的，其中这些库可以含有编码不同氨基酸序列的变体。使用现有的基因合成方法创建这样的大型库在技术上是不可能的，但是使用本发明的方法是可能的。如抗体工程等领域需要这种高水平的可变性，其中轻微改变氨基酸序列可以改变抗体结合亲和力，从而改变其效力。

虽然任何IUPAC序列都可以通过计算设计，但现有的实验技术只允许其子集在简并碱基总数和位置严重受限的情况下可行。本发明的方法允许进行更长和更简并的库设计。这代表了当前现有技术状态在物理dsDNA库内的水平变异性和对这种变异性的控制量方面的显着改进。这些库可以为任何遗传因子或因子组合而创建，可以线性或循环的格式创建。

本发明方法的另一个应用领域是构建含有重复基序(例如编码基于蛋白质的嵌段共聚物的多核苷酸序列)的多核苷酸序列。在自然界中，基于蛋白质的嵌段共聚物显示出突出的物理性质。蜘蛛丝就是这样一个例子，其具有与钢的抗拉强度相似的抗拉强度，同时能够拉伸至其自身长度的5倍。另一个例子是贻贝足蛋白，它是一种强力且不溶于水的粘合剂。现有方法不适合构建含有重复基序的多核苷酸序列。相反，使用本文公开的方法可以容易地组装使用传统方法难以组装的多核苷酸序列。相应地，本发明的方法可用于高效设计基于蛋白质的嵌段共聚物。

含有大量重复基序的蛋白质通常具有高度重复的DNA序列，特别是由于宿主生物体密码子使用偏倚。在编码DNA中这些重复基序的存在使得由于高水平的序列内同源性，使用现有方法难以组装这些基因。在本发明的方法中，这些重复基序位于双链多核苷酸形式内，因此不能干扰DSP组装过程。此外，重复基序可以在SSP的设计期间首先被分成单独的SSP。将该SSP转化为DSP，然后将DSP在独特的重叠区进行组装，以形成包含重复基序的靶多核苷酸序列。

在本发明方法的另一个应用中，使用这种方法产生的靶多核苷酸序列可以应用于CRISPR-Cas9系统，特别是在基因组编辑领域。Cas9或其任意变体(例如Cas9D10A)是在DNA中、在非常特定的位置形成断裂的原核生物蛋白。其与两种RNA分子(crRNA和trancrRNA)联合来完成，所述RNA分子可以被合成地结合成合成的指导RNA(sgRNA)。该指导RNA含有20个核苷酸序列，其与待编辑的靶DNA序列互补。在表达这两种组分后，Cas9蛋白与sgRNA复合并定位于目的DNA，在该位点Cas9切割DNA。如果供体模板在该断裂处的任一侧提供有同源区域，则使用同源介导的修复途径将断裂处修复，将供体DNA引入基因组中。或者，如果没有提供供体模板，并且两条链已被切割(例如通过野生型Cas9)，则受损DNA将通过非同源末端连结途径修复，导致在目的DNA的缺失或插入。有关CRISPR-Cas9系统的更多信息可以参见Jinek,M.,et al.A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.(2012)Science,337,816-821 and Cong L.,et al.Multiplexgenome engineering using CRISPR/Cas system(2013)Science,339,819-823。

当设计这种基因组编辑系统时，可以使用本发明产生供体DNA和/或sgRNA，其中这些靶多核苷酸序列任选地包含简并DNA。通过创建供体DNA的简并库并将它们转化为宿主细胞，连同CRISPRCas9系统的其余部分，可以同时将许多不同DSP引入不同细胞的基因组中。然后可以筛选这些转化的库的性能，分离具有所需特征的克隆，并对其DNA进行测序。

本发明各方面的优选特征是对各方面在细节上作了优化的修改。本文提及的现有技术文件在法律允许的最大程度上被并入。

现在将通过参考下面的实施例来进一步描述本发明，这些实施例仅仅是为了说明的目的而提供的，并不应被解释为限制本发明。

实施例1：使用单步聚合酶延伸将ssDNA转化为dsDNA

概述

在该实验中，证明了使用单引物聚合酶延伸，简并ssDNA寡核苷酸可以有效地转化为dsDNA。常规地，在聚合酶链式反应(PCR)中使用热稳定聚合酶延伸来扩增dsDNA，使用两种引物，一种退火至正义DNA链，另一种退火至反义链。然而，在这种情况下，为了避免通过扩增对简并DNA库引入的偏差，使用退火结合至合成的简并SSP库恒定区3'末端的单个引物。然后单一聚合酶延伸将ssDNA高效转化为dsDNA，以便进行进一步的组装。

方法

单步聚合酶延伸反应

在PCR管中制备以下反应物：

试剂	用量
		10X PfuTurbo Cx反应缓冲剂	5μl
10mM dNTPs	1μl
		10μM引物	2.5μl
单链合成模板DNA	100ng
		DMSO	1.5μl
双蒸水	补足至50μl
		PfuTurbo Cx聚合酶	1μl

将反应物转移到热循环仪中并以以下条件运行：

步骤	温度(℃)	时间
			变性	95	2.5分钟
引物退火	53	30秒
			聚合酶延伸	72	11分钟
保存	4	无限

使用Quanti-iT Picogreen定量dsDNA

根据Quant-iT PicoGreen dsDNA试剂和试剂盒(英杰公司)的制造商说明书对单聚合酶延伸过程中产生的dsDNA的量进行定量。

结果

验证ssDNA-dsDNA转化

最初，这种单引物聚合酶延伸方法的验证是，通过使用一个反应条件和几个对照将引物退火至200bp SSP并用Pfu Cx聚合酶延伸来获得。使用Quanti-iT Picogreen试剂定量由该反应产生的DSP的量。除非另有说明，所有阴性对照包含相同的试剂，并且暴露于与样品相同的条件下。在定量前，将阳性对照中的200ng dsDNA在水中稀释至总体积50μl。结果总结在图13中。在考虑由引物杂交和SSP模板的二级结构产生的背景dsDNA信号(由缺乏聚合酶的阴性对照说明)之后，结果显示从100ng的SSP模板产生了101.6ng的DSP产物。考虑到ssDNA具有dsDNA分子量的一半的事实之后，计算出反应的效率为50.8％。

单步聚合酶延伸的优化

除了该技术的这种基本验证之外，通过改变引物的退火温度来寻求工艺的优化。这里同时使用了退火温度梯度(50-65℃)，并测试了其对DSP产量的影响。结果如图14所示。正如预期的那样，使用较高的退火温度，DSP产物的量下降，这是由于更少的引物退火结合至模板DNA。为了将来使用不同模板/引物组合进行的单引物聚合酶延伸，需首先做此实验，以便发现在产量受到负面影响(在此情况下为55.9℃)之前的最高可能退火温度。这最大限度地减小了非特异性引物退火(产生不正确的产物)的影响，同时最大限度地提高了DSP产量。

总结

本实施例表明了具有恒定结合区域的简并SSP模板可以被有效地转换成DSP。可以使用温度梯度来评估在每种模板/引物组合的具体情况下，可以使产量最大化且非特异性产物最少化的最佳退火温度。

实施例2定向库插入

概述

设计实验以说明使用USER克隆将150个碱基对多核苷酸库定向插入到体中。在本实施例中，USER克隆依赖于在双链插入物和载体的任一端引入尿嘧啶碱基。这些尿嘧啶位点和位于该位点5'末端的DNA被USER酶去除，暴露出突出端。突出端使得插入物特异性退火结合至载体，并因此组装所需的构建体。

计算的序列设计

使用特制的算法来设计SSP和转换成DSP所需的引物。SSP设计最终使得DSP能够以确定的顺序进行组装，以产生用户的靶多核苷酸序列。使用的精确算法取决于用户偏好的实验方法和DSP末端。下面是一个所述算法的描述，其可以用于定向的基于USER的两部分组装反应，其中一部分是简并库，第二部分是载体。

算法名称：LabGene150()

算法输入：

算法输出

算法工作流程：

实验室实测组装

使用以下实验步骤。

1.多核苷酸采购：

算法设计的SSP和引物是从商业供应商(Integrated DNA Technologies，Inc.)购买的。

2.SSP->DSP转换：

使用方法变体2B将SSP转换成DSP(参见上文)。该反应涉及PfuCx Turbo聚合酶的使用。使用这种聚合酶是因为其具有高保真度，并且可以通读尿嘧啶碱基。将DSP产物进行凝胶纯化并定量。

3.载体准备：

使用PCR线性化载体骨架。该反应涉及含尿嘧啶的引物和PfuCx Turbo聚合酶的使用。将PCR产物进行凝胶纯化和定量。

4.DNA组装：

a.组装反应如下进行：

b.将200ng DSP与150ng载体在含有1X限制酶(CutSmart)缓冲液和1单位USER酶混合物(NEB)的25μl反应物中混合。将反应混合物在热循环仪中、在37℃温育20分钟，然后在25℃温育20分钟。

C.将整个反应转移到50μl化学感受态BL21T7表达大肠杆菌中，转移并涂布在LB琼脂(含氯霉素作为选择剂)上。

5.验证：

随机挑取8个菌落，在LB培养基中过夜培养，少量回收并测序。结果总结如下。

菌落	克隆接合	插入保真度
			A	正确	200/200(100％)
B	正确	199/200(99.5％)(1x置换)
			C	正确	200/200(100％)
D	正确	200/200(100％)
			E	正确	200/200(100％)
F	正确	x1删除(1bp),x1置换
			G	正确	200/200(100％)
H	正确	200/200(100％)

值得注意的是，每个定序的插入物是唯一的。这些插入序列如下所示：

设计简并库用于检测不同DNA序列(编码相同蛋白质序列)对基因表达的影响。下表显示了8个DNA库的翻译产物。除了包含错误的两个菌落(菌落B和菌落F)外，所有其他菌落含有编码正确蛋白序列(MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL SEQID NO：10)的插入物。

菌落	插入序列(蛋白质)
		A	MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL(SEQ ID_NO:10)
B	MSPILGYWKIKGLVQPTRLLLEYL*(SEQ ID_NO:11)
		C	MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL(SEQ ID_NO:10)
D	MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL(SEQ ID_NO:10)
		E	MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL(SEQ ID_NO:10)
F	MSPYLDTGRLRDSFNLRVFCSSISRRNTKNISMNGTRAINGATRSLNWGX(SEQ ID_NO:12)
		G	MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL(SEQ ID_NO:10)
H	MSPILGYWKIKGLVQPTRLLLEYLEEKYEEHLYERDEGDKWRNKKFELGL(SEQ ID_NO:10)

总结

该实验表明了使用USER克隆可将多达150个碱基的简并区域定向克隆到载体中。

实施例3(电子，In-silico)设计用于组装贻贝脚蛋白的单链多核苷酸

在该实施例中，设计用于组装编码贻贝足蛋白的靶序列的单链多核苷酸。该靶序列如下所示：

基于USER的组装：

为了使用本文公开的DNA组装技术利用USER组装来生产靶序列，可以使用以下方法。

步骤1：靶序列片段化

在第一步中，将靶序列片段化成几个SSP设计。这些SSP片段各自的长度为60-200个碱基。SSP片段长度影响以下变量：

·合成成本(每个碱基)。

·合成保真度(取决于耦合效率)。

·反应成功的可能性(通过减少对用以覆盖完整的靶序列的较高数量的SSP的需求，组装效率可以最大化)。

每个片段代表靶序列的连续部分。将靶序列片段化，使得在每个片段间连接处产生独特的同源区域。

设计片段，使得反向引物可以特异性地结合其3'区域(允许有效转化成双链片段)，并且包含尿嘧啶碱基以允许下游USER组装。

第2步：SSP至DSP的转换

使用单引物延伸将每个SSP转换成DSP。这个过程产生带有一个或两个USER可切割末端的DSP。

第3步：DSP组装

有序定向组装是通过产生互补突出端(通过DSP的USER处理)实现的。这些突出端的长度可以通过设计SSP片段来调整。在这个实施例中，其被设置为5-10个碱基。SSP的设计也确保了每个连接都是唯一的。

选择该电子测试的靶序列是因为使用传统的DNA组装技术难以合成该序列。当DNA合成公司Integrated DNA Technologies被要求制作靶序列时，他们报告了由于多重错误或复杂性导致无法合成该序列，这证实利用传统方法难以合成该序列。这些多重错误和复杂性包括：重复序列的高密度；重复序列的高长度；接近序列末端的大量重复性；以及低GC含量。

实施例4：抗体库的制备

概述

在该实验中，使用本发明的方法组装线性DNA片段库。该库对照未纯化的和PAGE纯化的寡核苷酸来制备，以确定使用这些不同的输入产生的库的保真度和代表性。用桑格(Sanger)和下一代测序(NGS)测定库的质量。库设计包含2个可变抗体互补决定区，其最终被直接转化到酵母中用于显示和筛选(不是本实验的一部分)。

电子(In silico)DNA设计

在实验室实测组装之前，使用一种算法来确定SSP设计，包括引物结合位点以及促进组装的互补突出端(通过USER酶产生)的位置和组成。算法过程概述如下：

1.用户输入他们的目标片段序列。在该实施例中，靶序列是308个碱基长的序列，其包含位置129至140处的12个核苷酸(NNBNNBNNBNNB SEQ ID NO：36)和位置180至209处的30个核苷酸(NNBNNBNNBNNBNNBNNBNNBNNBNNBNNB SEQ ID NO：37)的简并序列。

2.用户输入测定SSP设计的若干预定义的参数，包括引物解链温度(72℃)，最小和最大突出端长度(4-12bp)，最小和最大SSP长度(100-200bp)。

3.该算法基于用户输入的所需参数和若干非变量参数来优化SSP设计，一些非变量参数列出如下：

避免突出端中的回文序列，

避免突出端中的半回文序列，

避免突出端中的简并碱基，

避免突出端中的三联体序列“AAA”、“TTT”、“CCC”、“GGG”，

避免具有≥4个连续或不连续的同源性碱基的非配对突出端，以及

突出端应被定位以使SSP长度最小化。

使用这些参数，算法收敛于最佳设计。

4.除了这些库之外，还设计引物以包括标记的Illumina NGS衔接子，以便允许线性产物在组装后直接NGS。这些衔接子不直接退火到SSP，而是在延伸反应过程中被填充。使用衔接子标记来区分在最终的NGS数据集中用PAGE纯化和脱盐制备的序列。标记6用于脱盐SSP，而标记12用于PAGE纯化的SSP。

实验室实测组装

单引物延伸

1.通过算法确定的SSP及其相应的引物通过商业供应商订购。

2.在下面所示的延伸反应中，SSP及其相应的引物转化为DSP。使用Phusion U聚合酶，使聚合酶通读SSP模板中的脱氧尿嘧啶。阴性对照组分遵照样品反应。

单引物延伸反应：

阴性对照单引物延伸反应：

组分	体积(μL)	浓度
			Phusion U Master Mix(2X)	25	1X
反向引物(10μM)	2.5	0.5μM
			模板SSP(1μg/μl)	5	100ng/uL
Milli-Q水(补足至50μl)	12.5	-

3.将反应置于热循环仪中，并在以下条件下运行：

步骤	温度(℃)	时间
			变性	98	40秒
引物退火	60	20秒
			延伸	72	11分钟
保存	4	无限

4.根据制造商说明书，使用硅胶柱PCR纯化试剂盒纯化DNA。

5.使用Nanodrop分光光度计，通过测量260nm处的吸光度对DNA进行定量。其结果如下所示，其中第一个表显示使用标准延伸引物的延伸反应结果，第二个使用包括突出的NGS衔接子序列的延伸引物：

用标准引物延伸后的DSP浓度：

DNA浓度使用NanoDrop分光光度计测定。

用包括Illumina NGS衔接子序列的引物延伸后的DSP浓度：

DNA浓度使用NanoDrop分光光度计测定。

DNA组装

1.两个DSP部分在USER连接反应中组合，详见下表，这两个DSP以等摩尔量加入。

2.将这些反应物在37℃温育20分钟，以便USER切割脱氧尿嘧啶碱基，然后在21℃过夜，使突出端退火并通过T4连接酶密封切口。

3.每个反应在用1X SYBR安全核酸染料预染的1％琼脂糖凝胶上进行电泳，90V电压下进行1小时。图像显示如下，其中输入DSP约150-200bp，而完全组装的片段显示为～350bp。

4.用手术刀切出适当尺寸的条带，并使用标准硅胶柱基凝胶提取试剂盒根据制造商说明书书进行凝胶提取。

5.使用NanoDrop分光光度计通过测量260nm处的吸光度对终产物进行定量，结果如下所示。

终点克隆测序

为了对库内的单个变体进行桑格测序，组装的片段需要被克隆到大肠杆菌相容的质粒中，转化到大肠杆菌中，并在琼脂平板上生长，以便库的单个变体被挑选、预备和测序。将库片段插入组成性表达的GFP盒的荧光团中，阻断其成功表达。这样做可以从背景中选择成功插入的片段。

1.根据制造商说明书(链接)中详述的标准PCR条件，使用Phusion PCR线性化含有组成性表达GFP盒的标准pSB1C3生物砖克隆载体。

2.每个反应在用1X SYBR安全核酸染料预染的1％琼脂糖凝胶上进行电泳，90V电压下进行1小时。根据制造商说明书，用手术刀切下适当大小的条带，并使用标准的硅胶基柱凝胶提取试剂盒提取。

3.使用NanoDrop分光光度计对提取的DNA定量。

4.将线性化的载体DNA在钝端连接反应中合并，用多核苷酸激酶添加5'磷酸盐来促进连接：

5.将5μl该反应物与50μl化学感受态DH10B大肠杆菌混合，通过热休克转换并涂布在34μg/ml氯霉素LB琼脂平板上，在37℃下过夜生长。

6.第二天，用无菌移液管头从每个脱盐和PAGE纯化组装物挑选20个菌落，并接种到5ml含有34μg/ml氯霉素的无菌LB肉汤中，在225RPM振荡下，在37℃下过夜生长。

7.使用标准硅胶柱试剂盒根据制造商说明书(链接)实施这些培养物的质粒制备。

8.然后用NanoDrop分光光度计对质粒制备物进行定量，将它们的浓度标准化至75ng/μl，分成15μl每份，然后利用商业供应商进行桑格测序。

该结果总结如下。从分析中排除了背景载体或质量差的读数。

在各个克隆亚克隆到标准载体，转化到大肠杆菌和桑格测序后分析两个库的保真度：

脱盐保真度和PAGE纯化的库片段之间没有统计学意义(p>0.05，皮尔森卡方检验(Pearson’s chi-squared test))。然而，这里的样本量相当低，在下一代测序过程中会发现更丰富的数据集。

使用Illumina MiSeq系统进行下一代测序

由于在单引物延伸反应期间将Illumina TruSeq衔接子添加至DSP，所以所得到的组装库片段在测序之前不需要任何库制备过程。因此，DNA被直接送到商业NGS服务提供商，他们使用Illumina MiSeq系统进行qPCR定量、标准化和测序。在对测序数据进行任何数据分析之前，从数据集中移除所有低Phred分数的读数。

逐个碱基分布分析

首先，分析片段第一个“NNB”区域的碱基分布，以评估在合成和组装过程中引入了多少(如果有的话)偏差。我们还想评估SSP的纯化方法是否与此偏差有关。结果总结在图14a和14b的条形图中。这些分布与预期频率(对于每个碱基N＝25％，对于C、G或T B＝33.3％)以及相互之间没有显著差异(p>0.05，费希尔精确检验(Fisher’s exact test))。这一结果表明，在库合成过程中，逐个碱基的方法几乎不引入偏差。

分子量偏差分析

接下来，评估跨越可变区的任意分子量偏差的存在。合成的寡核苷酸的PAGE纯化可导致偏向更高或更低的分子量，这取决于提取的条带的面积。这通过计算每个被测序变体中的可变区分子量来完成。我们使用这个作为衡量标准，因为每个碱基都有自己的分子量，并且因为这些数据的均值和分布可以与预期的数据进行比较。下表显示了这些数据的摘要：

样品	平均分子量可变区±标准误差	标准偏差
			PAGE纯化	5252.015±0.07	49.96
脱盐	5245.66±0.11	51.35
			预期	5265.60±0.12	52.64

记录的数据与可变区预期分子量之间存在显著的统计学差异(p<0.01，两样本配对T检验)。考虑到T检验对大数据集的敏感性，这种统计差异并不令人惊讶；平均值(<20Da)和标准偏差(<3Da)之间的实际差异非常小，这意味着这些库的偏差不太可能对最后的筛选产生任意实质性影响。

保真度分析

最后，分析库的保真度。首先，直接针对模板序列检查DNA序列，以检查“设计内”变体-即与模板设计完美匹配的序列。接下来，将每个DNA序列翻译成蛋白质序列，并对照蛋白质模板序列进行检查-这会产生蛋白质设计内速率和框内速率。最后，因为简并的'NNB'密码子正确翻译为终止密码子，为了评估多少移码突变归结为合成错误而不是正确发生的终止密码子，从分析中排除可变区域。该分析的结果总结在下表中。

PAGE纯化和脱盐库之间的保真度差异没有统计学显著性(p>0.05，皮尔森卡方检验)。这很有趣，因为PAGE纯化应该去除寡核苷酸合成期间出现的大量截断物和缺失物。但是，有可能由于这种简并SSP分子量存在如此大的变异性，因此PAGE凝胶上的全长带可能显得模糊不清。如果在整个条带上进行纯化，则最常见的合成错误(1-2bp缺失物)将被携带至纯化过程，并出现在最终的库中。

该实施例显示了使用本发明的方法可以获得具有随机化简并部分的高质量序列库。

实施例5：使用自引导SSP

该实施例证明了使用自引导SSP(即与包含引物的多核苷酸序列共价连接的SSP，如关于图2所解释的)使SSP转化成DSP，而不使用单独的引物序列。自引导序列含有可切割的碱基，允许产生用于定向DNA组装的突出端和去除大部分引发区。这样，当组装可变SSP时，所需的恒定DNA序列的比例可以减少到突出端的长度(～6bp)而不是结合引物序列(18-25bp)的长度。这使得用户在其DNA库中定位简并碱基时有更多自由。此外，由于引物序列包含在SSP内，所以引导退火到SSP的其他区域的机会较小。因此这样做可以提高引物延伸反应的保真度，改善最终DNA库的整体保真度。

为了使SSP可以自引导，在SSP序列内需要一个茎环结构，以允许SSP折回自身，并允许自我引导区退火到其互补序列。此外，脱氧尿嘧啶定位于自我引导区的两条链上，一个位于SSP的5'末端，因此，在聚合酶延伸后，USER酶将去除引物区域，茎环在DSP的两个末端留下突出端，以允许组装(该方法的概述参见图2，其中仅创建了一个突出端；图2中标记为“切割位点”的脱氧尿嘧啶也可以包括在SSP的5'端，以便在两个末端都产生突出端)。

DNA设计

在实验室实测组装之前，必须设计用于载体线性化的SSP和PCR引物。这种设计最重要的方面是确保在聚合酶的延伸温度下，茎环结构保持稳定。之前已经鉴定了稳定的环结构，四环结构被确认为是一些最稳定的环结构。因此，将GTTA序列引入SSP以促进茎结合。茎序列本身被设计成具有高的Tm，使得其在聚合酶延伸期间是稳定的：

5'ACTCACG 3'

3'TGAGTGC 5'

序列的其余部分被设计成可以插入到目标载体中。SSP包含组成性启动子(J23101)，而载体线性化PCR从通常会组成性表达GFP的构建体消除启动子。这将便于很快识别出包含插入的DSP的克隆。完整的SSP序列如下所示。SSP设计(SEQ ID_NO:38):

5’CAGCAUTTGACGGCTAGCTCAGTCCTAGGTACAGTGCTAGCTAATACGACTCACTATAGGGAGATACTAGAGACCGTCGAGTA

CCTTTACAGCTAGCTCAGTCCTAGGTATTATGCTAGCUACTCACGTTAGTGAGTAGCTAGCAUAATACC3’

正向的载体线性化引物(SEQ ID_NO:39):

5’ATGCTAGCUGAGAAATCAAATTAAGGAGGTAAG 3’

反向的载体线性化引物(SEQ ID_NO:40):

5’ATGCTGUCCAGAAATCATCCTTAGCG 3’

实验室实测验证

SSP转换成DSP

在试图将DSP克隆到载体之前，验证不使用外部引物情况下将SSP转换为DSP。

1.SSP通过商业供应商订购。

2.反应设置如下表所示：

组分	体积(μL)
		Phusion U Master Mix	25
ULT8(1μg/μl)	1
		Milli-Q水(补足至50μl)	24

阴性对照设置如下表所示：

组分	体积(μL)
		5x Phusion HF/GC Buffer	10
10mM dNTPs	1
		ULT8(1μg/μl)	1
Milli-Q水(补足至50μl)	38

反应以如下条件在热循环仪中运行：

步骤	温度(℃)	时间
			变性	98	40秒
退火	62.4–72梯度	20秒
			延伸	72	11分钟
保存	4	无限

3.每个反应取10μl进行琼脂糖凝胶电泳以检查大小。

4.根据制造商说明书使用硅胶柱PCR纯化试剂盒立即纯化剩余的反应物。

5.使用Nanodrop分光光度计进行量化。下面显示了聚合酶延伸反应后的标准化DNA浓度和产量。这些值相对于阴性对照(不含DNA聚合酶)进行标准化。

这些结果表明了SSP通过自我引导成功地被DNA聚合酶转化为双链DNA。然而，很难从这些数据中得知茎环是否按预期形成，或者是否发生了导致错误组装的错误退火。为此，将DSP克隆到载体中，然后验证序列。

从DSP中分离出茎环序列并克隆到载体中

1.使用含有脱氧尿嘧啶碱基的引物进行PCR来线性化含有组成性表达的GFP盒的质粒，以促进突出端产生。

2.用DpnI限制酶处理得到的PCR产物，以除去所有背景载体。

3.然后将该混合物在琼脂糖凝胶上电泳，然后凝胶提取正确大小的产物。

4.然后将该纯化的PCR产物与在前面实验中制备的具有最高退火温度的DSP混合。还包括两个阴性对照，都缺乏DSP，其中一个还缺少USER酶，用T4连接酶代替。用以下试剂和反应条件设定反应：

组分	用量
		DSP	200ng
线性化载体	150ng
		CutSmart buffer(10x)	2.5μl
USER酶(1U/μl)	1μl
		Milli-Q水	补足至25μl

为阴性对照1设置缺乏DSP插入并用T4连接酶替代USER酶的反应如下：

为阴性对照2设置缺乏DSP插入的反应如下：

组分	用量
		DSP	0ng
线性化载体	150ng
		CutSmart buffer(10x)	2.5μl
USER酶(1U/μl)	1μl
		Milli-Q水	补足至25μl

USER介导的DSP和线性化载体组装的反应条件如下：

步骤	温度(C)	时间
			USER切除	37	20分钟
突出端退火	21	20分钟
			保存	4	无限

5.将5μl该反应物通过42℃热休克转化至化学感受态大肠杆菌，37℃下生长1小时后涂布在含有34μg/ml氯霉素的LB琼脂上。

6.在蓝光下对平板进行成像以检查荧光菌落的存在。结果(未显示)表明，添加DSP恢复了荧光。由没有DSP插入的连接反应产生的菌落，由于它们的启动子已被除去而没有荧光，而在没有USER酶和DSP插入的情况下，在平板上生长非常少(非荧光)的菌落。

因此，结果显示了用样品组装混合物转化的菌落是荧光的，表明DSP已被正确地克隆到载体中，恢复启动子并允许GFP表达。为了证实这一点，挑取来自样品平板的5个菌落，在含有34μg/ml氯霉素的5ml无菌LB培养基中生长过夜。然后根据制造商说明书将这些培养物用硅基柱系统制备质粒，并将其送至商业供应商进行测序。

3/5构建体被正确插入，而1个克隆包含13bp缺失，另一个包含14bp缺失。这些缺失可能是由于自我引导区域的错误退火引起的。延伸后，使用USER酶进行切割，脱氧尿嘧啶在序列中没有正确定位，这意味着存在额外序列丢失。

结论

本实施例是一个原理论证实验，展示了使用自我引导SSP来促进SSP-DSP转换，并随后去除茎环结构以便无痕组装至载体。可以改进茎环序列的设计，以确保其正确地形成并且没有序列丢失。要做到这一点，可以用一些不同的茎环序列设计重复实验。另外，还可以选择更严格的报告子，这样序列中的任何错误都会阻碍其正确表达。例如，插入物可以位于荧光蛋白内，而不是其启动子。DSP中的任意INDEL都会敲除荧光蛋白的正确表达。在此过程中，对保真度的分析只需要计算荧光与无荧光菌落的比例。

本发明思想的替代表述可见于以下编号的条款中：

1.组装包含第一DSP和第二DSP的靶双链多核苷酸(DSP)的方法，所述方法包括：

(i)提供在一个或两个末端包含引物退火位点的单链多核苷酸(SSP)，其中所述SSP包含第一DSP的一条链的多核苷酸序列的一部分；

(ii)将引物退火至SSP并通过聚合酶介导的引物延伸将SSP转化为第一DSP，其中第一DSP包含与第二DSP的多核苷酸序列互补的多核苷酸序列；以及

(iii)通过经由其互补多核苷酸序列将第一DSP连接至第二DSP来组装靶多核苷酸序列。

2.根据条款1所述的方法，其中，所述靶多核苷酸序列由DSP群体组装而成，其中，

步骤(i)包括提供单链多核苷酸(SSP)群体，每个单链多核苷酸在一个或两个末端包含引物退火位点，其中每个SSP包含群体中DSP的一条链的多核苷酸序列的一部分，

步骤(ii)包括使引物退火至群体中的SSP，并通过聚合酶介导的引物的延伸将SSP转化为DSP群体，其中群体中的一些或全部DSP包含与(a)群体中另一个DSP的多核苷酸序列或(b)不是群体一部分的DSP的多核苷酸序列互补的多核苷酸序列，以及

步骤(iii)包括通过将群体中的一些或全部DSP与群体中的至少一个其他DSP和/或不是群体中的DSP的至少一个DSP相结合来组装所述靶多核苷酸序列。

3.根据条款2所述的方法，其中，DSP群体由n个DSP组成，并且n-2个DSP与群体中的另外两个DSP相连接，未与群体中另外两个DSP相连的两个DSP各自连接到群体中的另外一个DSP，并任选地连接到不是来自所述群体的另一个DSP。

4.根据条款2所述的方法，其中，群体中的每个DSP连接到不是所述群体的DSP的DSP，并且任选地不直接连接到所述群体的任意其他DSP。

5.前述条款中任一项所述的方法，其中，步骤(ii)中产生的DSP或一些或全部DSP群体包含形成包含互补多核苷酸序列的3'或5'突出端的单链多核苷酸区域。

6.根据条款5所述的方法，其中，突出端由USER(尿嘧啶特异性切除试剂)酶混合物，IIS型限制酶或外切核酸酶产生。

7.根据条款5所述的方法，其中，突出端通过使用修饰的聚合酶延伸反应产生。

8.根据条款5-7中任一条所述的方法，其中，在步骤(iii)中，DSP通过互补突出端的退火而连接在一起。

9.根据条款8所述的方法，其中，每个DSP的排序和方向由独特的突出端配对来确定。

10.根据条款8或条款9所述的方法，还包括使用连接酶连接DSP。

11.根据条款10所述的方法，其中，所述连接酶是T3DNA连接酶、T4DNA连接酶、T7DNA连接酶、大肠杆菌DNA连接酶、Taq连接酶、9N DNA连接酶，其任意变体或其任意组合。

12.根据条款5-11中任一项的方法，其中突出端长度为至少1、2、3、4、5、6、7、8、9、10、11或12个碱基。

13.根据条款1-4中任一项的方法，其中，步骤(ii)中产生的DSP或至少一个DSP群体处于完全双链状态，并且不包含5'或3'突出端。

14.根据条款13所述的方法，其中，在步骤(iii)中，DSP通过同源重组连接在一起。

15.根据前述任一项所述的方法，其中，同时组装多个相同的靶多核苷酸序列，和/或其中，同时组装多个不同的靶多核苷酸序列。

16.根据条款15所述的方法，其中，所述多个不同的靶多核苷酸序列可以单独对应于一个或多个简并多核苷酸设计。

17.根据条款2-16中任一条所述的方法，其中，在步骤(ii)期间SSP在空间上分离。

18.根据条款17所述的方法，其中，通过将SSP固定到固体支持物上来促进空间分离。

19.根据前述条款中任一项所述的方法，其中，所述SSP或每种SSP包含其在步骤(ii)中转化成的DSP的一条链的多核苷酸序列的至少70％、至少80％、至少90％或至少95％。

20.根据前述条款中任一项所述的方法，其中，在步骤(ii)中由SSP形成的DSP的一条链包含SSP和不退火到SSP的SSP相应引物的任意5'区域的反向互补序列。

21.根据前述条款中任一项所述的方法，其中，所述SSP或每种SSP包含单个引物退火位点，并且其中群体中的第一DSP或多个DSP通过单一引物延伸反应来产生。

22.根据前述条款中任一项所述的方法，其中，在步骤(i)中，SSP共价连接至包含与步骤(ii)中的SSP退火的引物的多核苷酸序列，或者在使用SSP群体的情况下，群体中的一个或多个SSP各自共价连接至包含与步骤(ii)中的SSP退火的引物的多核苷酸序列。

23.根据前述任一项所述的方法，其中，使用扩增方法不生成DSP。

24.根据前述条款中任一项所述的方法，其中，每个SSP的长度为至少30、40、50、100、200、300、400、500、600、700、800、900或1000个碱基。

25.根据前述任一项条款所述的方法，还包括对DSP执行一个或多个错误移除步骤。

26.根据条款25所述的方法，其中，错误消除步骤包括由错配结合剂切割DSP。

27.根据条款2-26中任一项所述的方法，其中，多个SSP各自在给定末端包含一个通用引物结合位点，并且其中与所述通用引物结合位点互补的通用引物用于将SSP在基于聚合酶的反应中转化为DSP。

28.根据前述任一项条款所述的方法，还包括纯化DSP，以去除不需要的反应组分。

29.根据前述任一项条款所述的方法，其中，两个或更多个DSP的组装通过分级组装进行。

30.根据前述任一项条款所述的方法，还包括将靶多核苷酸序列转化到宿主细胞中。

31.根据前述任一项条款所述的方法，其中，在步骤(iii)之后，扩增靶多核苷酸序列。

32.根据前述任一项条款所述的方法，所述方法还包括对所述靶多核苷酸序列进行序列验证。

33.一种制备靶多核苷酸序列库的方法，所述方法包括使用前述任一条款的方法同时产生多个不同的靶多核苷酸序列。

34.根据条款33所述的方法产生的双链多核苷酸库。

除非另有说明，本发明的实践采用了在本领域普通技术人员能力范围内的化学、分子生物学、微生物学、重组DNA技术和化学方法的常规技术。这些技术也在文献中有解释，例如M.R.Green,J.Sambrook,2012,Molecular Cloning:A Laboratory Manual,FourthEdition,Books 1-3,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY；Ausubel,F.M.et al.(1995and periodic supplements；Current Protocols inMolecular Biology,ch.9,13,and 16,John Wiley&Sons,New York,N.Y.)；B.Roe,J.Crabtree,and A.Kahn,1996,DNA Isolation and Sequencing:Essential Techniques,John Wiley&Sons；J.M.Polak and James O'D.McGee,1990,In Situ Hybridisation:Principles and Practice,Oxford University Press；M.J.Gait(Editor),1984,Oligonucleotide Synthesis:A Practical Approach,IRL Press；和D.M.J.Lilley andJ.E.Dahlberg,1992,Methods of Enzymology:DNA Structure Part A:Synthesis andPhysical Analysis of DNA Methods in Enzymology,Academic Press。这些文章中的每一篇都通过引用并入本文。

尽管已经在此详细公开了本发明的特定实施方式，但是这仅是通过示例的方式实施，并且仅出于说明的目的。上述实施方式并非旨在限制所附权利要求的范围。发明人预期可以对本发明进行各种替换、改变和修改而不脱离如权利要求所限定的本发明的精神和范围。

Claims

1.一种组装包含至少第一双链多核苷酸DSP和第二DSP的靶多核苷酸序列的体外方法，所述方法包括组装反应，该组装反应包括以下步骤：

(i)提供包含第一DSP的一条链的多核苷酸序列的第一单链多核苷酸SSP和包含第二DSP的一条链的多核苷酸序列的第二SSP；

(ii)提供结合于第一SSP的末端的第一引物和结合于第二SSP末端的第二引物，并且通过聚合酶介导的第一和第二引物的延伸将第一SSP转化成第一DSP，将第二SSP转化成第二DSP，其中，第一DSP包含与第二DSP的多核苷酸序列互补的多核苷酸序列；

(iv)通过互补突出端的退火将第一DSP连接到第二DSP来组装靶多核苷酸序列，其中，第一和第二DSP各自的排序和方向由独特的突出端配对确定。

2.根据权利要求1所述的方法，其中，所述方法至少包括第三DSP，所述方法包括：

(i)提供包含第一DSP的一条链的多核苷酸序列的第一单链多核苷酸SSP，包含第二DSP的一条链的多核苷酸序列的第二SSP，和包含第三DSP的一条链的多核苷酸序列的至少第三SSP；

(ii)提供结合于第一SSP末端的第一引物，结合于第二SSP末端的第二引物和结合于第三DSP末端的第三引物，并通过聚合酶介导的第一、第二和第三引物的延伸将第一SSP转化为第一DSP，第二SSP转化为第二DSP，第三SSP转化为第三DSP；

其中，第一DSP包含与第二DSP的多核苷酸序列互补的第一互补多核苷酸序列CPS1，第二DSP包含与第一DSP的CPS1互补的第二互补多核苷酸序列CPS2，以及与第三DSP的多核苷酸序列互补的第三互补多核苷酸序列CPS3，并且第三DSP包含与第二DSP的CPS3互补的第四互补多核苷酸序列CPS4；

(iii)通过形成包含第一至第四互补多核苷酸序列CPS1-4的至少一部分的3'或5'突出端，在第一、第二和第三DSP中的每一个上产生单链多核苷酸区域；和

(iv)通过将互补突出端退火，将第一DSP连接至第二DSP，将第二DSP连接至第三DSP，从而组装靶多核苷酸序列，其中，第一、第二和第三DSP中的每一个的排序和方向通过第一至第四互补多核苷酸序列CPS1-4内的独特突出端配对来确定。

3.根据权利要求2所述的方法，其中，所述方法包括不少于四个DSP，其中，所述不少于四个DSP中每一个的排序和方向由各自的互补多核苷酸序列内的独特突出端配对确定。

4.根据权利要求2所述的方法，其中，所述方法包括多个DSP，其中所述多个DSP中的每一个的排序和方向由各自的互补多核苷酸序列内的独特突出端配对确定。

5.根据权利要求2所述的方法，其中，所述方法包括不少于8个DSP，其中所述不少于8个DSP中的每一个的排序和方向由相应互补多核苷酸序列内的独特突出端配对确定。

6.根据权利要求1至5中任一项所述的方法，其中，步骤(i)至(iii)发生在分开的反应容器中。

7.根据权利要求1至6中任一项所述的方法，其中，步骤(iv)发生在单个反应容器中。

8.根据权利要求1至7中任一项所述的方法，其中，每个互补多核苷酸序列是不同的，并且仅允许在组装反应中退火至另一个互补序列。

9.根据权利要求8所述的方法，其中，所述组装反应内每个互补多核苷酸序列与另一个互补多核苷酸序列形成独特的结合对，并且，其中所述组装反应内的独特结合对的总数比组装反应中的DSP总数少一个。

10.根据权利要求1至9中任一项所述的方法，其中，所述引物包含至少一个尿嘧啶核苷酸。

11.根据权利要求1至10中任一项所述的方法，其中，所述SSP包含至少一个尿嘧啶核苷酸，并且，其中所述尿嘧啶核苷酸包含在所述互补多核苷酸序列内。

12.根据权利要求1至9中任一项所述的方法，其中，至少一个引物包含至少一个尿嘧啶核苷酸，且至少一个SSP包含互补多核苷酸序列内的至少一个尿嘧啶核苷酸。

13.根据权利要求10至12中任一项所述的方法，其中，产生单链多核苷酸区域的步骤(iii)通过将DSP暴露于尿嘧啶DNA糖基化酶UDG和DNA糖基化酶-裂解酶核酸内切酶VIII的混合物中来发生，这些酶介导脱氧尿嘧啶切除和骨架裂解反应。

14.根据权利要求1至13中任一项所述的方法，其中，步骤(iv)通过退火互补突出端来连接DSP包括连接反应。

15.根据权利要求14所述的方法，其中，所述连接反应由DNA连接酶催化。

16.根据权利要求1至15中任一项所述的方法，其中，互补多核苷酸序列的长度不超过15个碱基，任选地不超过12个碱基，合适地不超过8个碱基。

17.根据权利要求1至16中任一项所述的方法，其中，互补多核苷酸序列的长度不少于4个碱基，任选地不小于6个碱基，合适地不小于8个碱基。

18.根据权利要求1至17中任一项所述的方法，其中，产生的突出端还包括第一个和最后一个DSP的末端产生的突出端，所述DSP不退火结合至另一DSP，从而使组装的靶多核苷酸序列在两个末端都包含突出端。

19.根据权利要求18所述的方法，其中，组装的靶多核苷酸序列具有突出端，所述突出端包含与线性化载体的突出端序列互补的序列。

20.根据权利要求19所述的方法，其中，线性化载体通过使用含有至少一个尿嘧啶核苷酸的引物的聚合酶介导的环状载体延伸来产生，接着消解成线性载体并且进行尿嘧啶特异性切除试剂USER介导的尿嘧啶切除和骨架裂解反应，以产生突出端。

21.一种组装靶多核苷酸序列的体外方法，其中，所述方法包括第一侧翼双链多核苷酸DSP，第二侧翼DSP和至少一个插入DSP，所述方法包括组装反应，所述组装反应包括以下步骤：

(i)提供包含第一侧翼DSP的一条链的多核苷酸序列的第一侧翼单链多核苷酸SSP，包含第二侧翼DSP的一条链的多核苷酸序列的第二侧翼SSP，以及至少另一个SSP，其包含所述至少一个插入DSP的一条链的多核苷酸序列；

(ii)提供结合于第一侧翼SSP末端的第一引物，结合于第二侧翼SSP末端的第二引物和结合于插入DSP末端的第三引物，并且通过聚合酶介导的第一、第二和第三引物的延伸将第一侧翼SSP转换至第一侧翼DSP，第二侧翼SSP转换至第二侧翼DSP，插入SSP转换至插入DSP，

其中，第一侧翼DSP包含与插入DSP的多核苷酸序列互补的第一互补多核苷酸序列CPS1，插入DSP包含与第一侧翼DSP的CPS1互补的第二互补多核苷酸序列CPS2，以及与第二侧翼DSP的多核苷酸序列互补的第三互补多核苷酸序列CPS3，并且第二侧翼DSP包含与插入DSP的CPS3互补的第四互补多核苷酸序列CPS4；

(iii)通过形成包含第一至第四互补多核苷酸序列CPS1-4的至少一部分的3'或5'突出端，在每个DSP上产生单链多核苷酸区域；和

(iv)通过互补突出端的退火将第一侧翼DSP连接到插入DSP，并将插入连接到第二侧翼DSP来组装靶多核苷酸序列，其中，第一侧翼、插入和第二侧翼DSP中的每一个的排序和方向通过第一至第四互补多核苷酸序列CPS1-4内的独特突出端配对确定。

22.根据权利要求21所述的方法，其中，所述方法包括多个插入DSP，其中所述多个插入DSP中的每一个相对于彼此以及相对于第一侧翼和第二侧翼DSP的排序和方向由各自的互补多核苷酸序列内独特的突出端配对确定。

23.根据权利要求21至22中任一项所述的方法，其中，每个互补多核苷酸序列是不同的，并且仅允许在组装反应中退火至另一个互补序列。

24.根据权利要求23所述的方法，其中，每个互补多核苷酸序列与组装反应内的一个其他互补多核苷酸序列形成独特的结合对，并且其中组装反应内独特结合对的总数比组装反应中的DSP总数少一个。

25.根据权利要求21至24中任一项所述的方法，其中，结合于第一侧翼SSP的末端的第一引物包含至少一个脱氧尿嘧啶核苷酸。

26.根据权利要求21至25中任一项所述的方法，其中，在所述至少一个插入SSP的末端结合的引物包含至少一个脱氧尿嘧啶核苷酸。

27.根据权利要求21至26中任一项所述的方法，其中，所述至少一个插入SSP包含至少一个脱氧尿嘧啶核苷酸，并且其中所述脱氧尿嘧啶核苷酸包含在互补多核苷酸序列内。

28.根据前述权利要求中任一项所述的方法，其中，第二侧翼SSP包含至少一个脱氧尿嘧啶核苷酸，并且其中所述脱氧尿嘧啶核苷酸包含在互补多核苷酸序列内。

29.根据权利要求27或28中任一项所述的方法，其中，所述至少一个脱氧尿嘧啶核苷酸位于离所述SSP的5'末端不超过15个碱基处。

30.根据权利要求25至27中任一项所述的方法，其中，产生单链多核苷酸区域的步骤(iii)通过将DSP暴露于尿嘧啶特异性切除试剂USER介导的脱氧尿嘧啶切除和骨架裂解反应来发生。

31.根据权利要求29所述的方法，其中，将DSP暴露于USER介导的脱氧尿嘧啶切除包括将DSP暴露于尿嘧啶DNA糖基化酶UDG和DNA糖基化酶-裂解酶核酸内切酶VIII的混合物中。

32.根据权利要求21至30中任一项所述的方法，其中，第一侧翼DSP和/或第二侧翼DSP包括载体序列。

33.根据权利要求21至32中任一项所述的方法，其中，第一和/或第二侧翼DSP包含一种或多种DNA序列，所述DNA序列编码用于展示结合蛋白或肽的抗生素抗性标记、荧光蛋白、调节蛋白、抗体构架或蛋白中的一种或多种。

34.根据权利要求1至33中任一项所述的方法，其中，组装反应中包含的至少一个DSP中包含简并多核苷酸序列。

35.根据权利要求1至34中任一项所述的方法，其中，一个或多个SSP共价连接至一多核苷酸序列，该序列包含结合于SSP末端的引物。

36.一种产生包含多个DNA片段的库的方法，其中，每个DNA片段包含根据权利要求1至35中任一项所述的方法组装的靶多核苷酸序列。

37.包含多个DNA片段的库，其中，所述库使用权利要求36的方法构建。