CN105934541B

CN105934541B - 核酸文库及其制造方法

Info

Publication number: CN105934541B
Application number: CN201480074047.0A
Authority: CN
Inventors: J·雅各布森; D·辛德勒; I·萨奥尔默; N·J·圭多
Original assignee: Gen9 Inc
Current assignee: Gen9 Inc
Priority date: 2013-11-27
Filing date: 2014-11-25
Publication date: 2019-07-12
Anticipated expiration: 2034-11-25
Also published as: US20210040477A1; EP3074554B1; CA2931989C; EP3943646A1; EP3074554A2; IL245909A0; AU2019264596A1; CN110219055A; WO2015081114A3; CN105934541A; WO2015081114A2; EP3074554A4; AU2022202347A1; CA2931989A1; AU2014354852B2; AU2014354852A1; IL245909B; US20170175110A1

Abstract

本发明提供了用于设计和产生非随机核酸文库的方法。具体地，采用通过多重多聚核苷酸合成进行的非随机文库合成。各文库成员可编码启动子、核糖体结合位点和多肽。

Description

核酸文库及其制造方法

相关申请

本申请要求2013年11月27日提交的美国临时申请号61/909,537的权益和优先权，其全部内容通过引用纳入本文。

关于序列表

本说明书包括所附序列表，其包括创建于2014年11月25日，名为"127662-014601PCT_ST25.txt"、大小为6,327字节的文件，其内容通过引用全文纳入本文。

发明领域

本发明的方法和组合物涉及核酸文库，具体涉及包含非随机变体的核酸文库的设计和组装。

背景

重组和合成核酸在研究、工业、农业和医学中有许多应用。可以使用重组和合成核酸来表达和获得大量的多肽，包含酶、抗体、生长因子、受体和其它可用于多种医学、工业或农业目的的多肽。也可以使用重组和合成核酸来产生遗传修饰的生物体，包含修饰的细菌、酵母、哺乳动物、植物和其它生物体。遗传修饰的生物体可以用于研究(例如，疾病的动物模型、理解生物过程的工具等)、工业(例如，作为蛋白表达的宿主生物体、用于产生工业产物的生物反应器、环境补救的工具、分离或修饰具有工业应用的天然化合物等)、农业(例如，具有增加的产率或增加的对疾病或环境压力的抗性的经修饰作物等)和用于其它应用。重组和合成核酸也可以用作治疗组合物(例如，用于修饰基因表达、用于基因治疗等)或用作诊断工具(例如，病症的探针等)。

已经开发了多种技术用于修饰存在的核酸(例如，天然存在的核酸)来产生重组核酸和核酸变体。具体而言，已采用变体文库来选择或筛选具有所需性质的核酸或蛋白质产物。因此，极其需要核酸的从头合成法，用于更广泛的应用。

发明内容

本发明的方面涉及生成非随机核酸文库的方法，所述非随机核酸文库包含多种感兴趣的预选定或预定序列。本发明的其它方面涉及非随机核酸文库，其包含多种感兴趣的预选定或预定序列。

本发明的方面涉及生成非随机核酸文库的方法，所述方法包括如下步骤：(a)提供第一体积的第一组部分双链核酸(partial double-stranded nucleic acid)，其中第一组双链核酸中的各核酸具有相同的单链突出端，其中第一组部分双链核酸中的各核酸具有不同于第一组部分双链核酸中的另一核酸的预定序列的预定序列；(b)提供第二体积的第二组部分双链核酸，其中第二组部分双链核酸中的各核酸具有与第一组部分双链核酸中的突出端互补的相同的单链突出端，和(c)通过将第一组部分双链核酸与第二组部分双链核酸混合来组装所述核酸文库，所述混合在使互补的突出端杂交的条件下进行，以形成非随机变体靶核酸的文库。在一些实施方式中，第二组部分双链核酸具有预定序列，所述预定序列可以不同于第二组部分双链核酸中的另一序列。而在其它实施方式中，第二组部分双链核酸具有预定序列，所述预定序列可与第二组部分双链核酸中的另一序列相同。

在一些实施方式中，第一和第二组部分双链核酸具有3'突出端。而在其它实施方式中，第一和第二组部分双链核酸具有5'突出端。

在一些实施方式中，组装步骤可以在单一反应体积中进行。

在一些实施方式中，在组装步骤中，互补的突出端杂交以形成无缺口的接合(gapless junction)。在一些实施方式中，连接所述无缺口的接合。

在一些实施方式中，所述方法包括：提供第一体积的第一组钝端双链核酸集，其中第一钝端双链核酸集里的第一核酸具有从第一钝端双链核酸集里的第二核酸偏移n个碱基的序列，并且，其中各钝端双链核酸集中的各双链核酸是该集中另一双链核酸的变体。在一些实施方式中，所述方法还包括提供第二体积的第二组钝端双链核酸集，其中第二钝端双链核酸集里的第一核酸具有从第二钝端双链核酸集里的第二核酸偏移n个碱基的序列。在一些实施方式中，n可以是2、3、4、5、6、7，或8个碱基。在一些实施方式中，n可以是大于8个碱基。例如，n可以是9、10、11、12、13、14、15、16、17、18、19、20或更多碱基。第一组钝端双链核酸集可以在第一体积中解链或去杂交，以形成第一体积的单链核酸。类似地，第二体积的第二组钝端双链核酸集可以经变性或去杂交以形成第二体积的单链核酸。多个单链寡核苷酸可退火以形成第一体积的具有单链突出端的第一组部分双链寡核苷酸和第二体积的具有单链突出端的第二组部分双链寡核苷酸。

在一些实施方式中，第二组钝端双链核酸集中的各双链核酸是该集中的另一双链核酸的变体。

在一些实施方式中，所述方法还包括第三体积的第三组部分双链核酸，其中第三组双链核酸中的各核酸具有相同的单链突出端，其中第三组部分双链核酸中的各核酸具有预定序列，该预定序列不同于第三组部分双链核酸中的另一核酸的预定序列。

在一些实施方式中，所述方法还包括组装变体核酸的文库，该组装通过在足以与互补的突出端杂交的条件下混合第一、第二和第三组部分双链核酸来进行，由此形成非随机变体靶核酸的文库。

在一些实施方式中，所生成的文库可以是基因文库。在一些实施方式中，各双链核酸的大小可以是约20个碱基对-约200个碱基对。

在一些实施方式中，所生成的文库可以是基因文库。在一些实施方式中，各双链核酸的大小可以是约200个碱基对-约500个碱基对。

而在其它实施方式中，所生成的文库可以是代谢通路文库。在一些实施方式中，各双链核酸的大小可以是约500个碱基对-约3,000个碱基对。在一些实施方式中，各双链核酸可以是基因或基因的集。在一些实施方式中，各双链核酸可包含遗传元件。在一些实施方式中，各双链核酸可以是操纵子，其包括启动子序列、核糖体结合位点序列、基因或基因的集、终止子或其任何组合。在一些实施方式中，所述文库可以是操纵子文库，其包含具有不同强度的启动子。在一些实施方式中，所述文库可以是操纵子文库，其包含具有不同强度的核糖体结合位点。

根据本发明的一些方面，生成核酸文库的方法包括如下步骤：鉴定靶核酸、在靶核酸中鉴定第一区域，其中第一区域包含变体核酸序列；和在靶核酸中鉴定第二区域，其中第二区域包含非变体序列。在一些实施方式中，靶核酸可包含一个或多个非变体区或恒定区、一个或多个可变区及其组合。

然后，可在包含变体核酸序列的至少第一组寡核苷酸和包含非变体核酸序列的至少第二组寡核苷酸中解析靶核酸。可提供并组装至少第一和第二组寡核苷酸。在一些实施方式中，该文库可以采用基于聚合酶的组装反应、基于连接酶的组装反应，或其组合来组装。

在一些实施方式中，靶核酸可编码具有一个或多个结构域的多肽。在一些实施方式中，变体核酸序列可包含编码一个或多个结构域的至少部分的核酸序列的缺失、编码一个或多个结构域的至少部分的核酸序列的插入，或其组合。在一些实施方式中，所述变体核酸序列可具有如下任何情况：一个或多个核酸序列的缺失、一个或多个核酸序列的插入、一个或多个取代，或前述任何情况的两种或更多种的任意组合。在一些实施方式中，所述缺失可以是编码一个或多个结构域的至少部分的核酸序列的缺失。在一些实施方式中，所述插入可以是编码一个或多个结构域的至少部分的核酸序列的插入。在一些实施方式中，所述取代可以是编码一个或多个结构域的至少部分的核酸序列中的核苷酸的取代。在一些实施方式中，所述缺失、插入或取代(或前述任何组合)可以是一个或多个倍数的3核苷酸。在一些实施方式中，所述缺失、插入或取代(或前述任何组合)可包含单一倍数的3个连续核苷酸。在其它实施方式中，所述缺失、插入或取代(或前述任何组合)可包含五组或更少组的3个连续核苷酸。在一些实施方式中，所述缺失、插入或取代(或前述任何组合)可包含6个或更少，7个或更少，8个或更少，10个或更少，11个或更少，11个或更少，12个或更少，或更多组的3个连续核苷酸。在一些实施方式中，取代可以是3个连续核苷酸取代的倍数，或可涵盖任何数量的核苷酸，包括但不限于，一个核苷酸，或两个核苷酸，或多于两个核苷酸。

在一些实施方式中，所述靶核酸是基因或基因的集。在一些实施方式中，所述缺失、插入或取代(或前述任何组合)在所述基因或基因的集的非编码序列中。在一些实施方式中，基因或基因的集的非编码序列可包含缺失、插入或取代(或前述任何组合)。尤其在位于非编码序列时，缺失、插入或取代(或前述任何组合)可包含任何数量的核苷酸，包括一个或多个倍数(一组或多组)的3个连续核苷酸。根据本发明的一个实施方式，缺失、插入或取代(或前述任何组合)可见于编码区、非编码区，或两者。

在一些实施方式中，用于生成核酸文库的方法包括：选择靶核酸序列，选择待在一个或多个选定位置缺失或插入的至少一个核酸序列，设计在该选定位置具有变体序列的第一集的寡核苷酸和具有非变体序列的至少第二集的寡核苷酸，和组装第一和至少第二集的寡核苷酸。在一些实施方式中，在所述选择步骤中，待缺失、插入或取代(或前述任何组合)的核酸序列可以是一组或多组的3核苷酸。在一些实施方式中，在所述选择步骤中，待缺失、插入或取代(或前述任何组合)的核酸序列可包含5组或更少组的3个连续核苷酸。在一些实施方式中，在所述选择步骤中，待缺失、插入或取代(或前述任何组合)的核酸序列可包含6个或更少，7个或更少，8个或更少，10个或更少，11个或更少，11个或更少，12个或更少，或更多组的3个连续核苷酸。在一些实施方式中，取代可以是3个连续核苷酸取代的倍数，或可涵盖任何数量的核苷酸，包括但不限于，一个核苷酸，或两个核苷酸，或多于两个核苷酸。

在一些实施方式中，第一和第二集一起可包含靶核酸序列。在一些实施方式中，第一和第二集一起可包含靶核酸序列的片段。在一些实施方式中，所述选定位置可包含核苷酸、密码子、核苷酸序列或其组合。

在一些实施方式中，靶核酸是基因或基因的集。在一些实施方式中，所述缺失、插入或取代(或前述任何组合)在所述基因或基因的集的非编码序列中。尤其在位于非编码序列时，缺失、插入或取代(或前述任何组合)可包含任何数量的核苷酸，包括一组或多组的3核苷酸。根据本发明的一个实施方式，插入和/或缺失可见于编码区、非编码区，或上述两者。

附图说明

图1A-1B说明产生用于构建非随机变体文库的突出端核酸的非限制性示例性方法。图1A显示在第一集合中产生具有3’突出端的核酸双链体。图1B显示在第二集合中产生具有3’突出端的核酸双链体。

图2A和2B说明用于产生非随机变体文库的，组装具有突出端的核酸双链体的非限制性示例性方法。

图3A-3C说明构建非随机变体文库的非限制性示例性方法。图3A显示在第一单一反应体积中制备的双链文库核酸或片段。图3B显示在第一单一反应体积中制备的双链文库片段。图3C显示单一体积中双链文库片段混合物的生成。

图4A-B说明构建非随机变体文库的非限制性示例性方法。图4A显示一个实施方式，其中两个片段A交错杂交产物{A1，A2}、四个片段B交错杂交产物{B1，B2，B3，B4}，和两个片段C交错杂交产物{C1，C2}合并形成核酸的非随机文库。图4B显示这些集的交错杂交产物A、B、C在单一反应体积的连接。

图5说明在密码子、核苷酸和多个核苷酸水平具有缺失和/或插入的离散合成的序列和所述序列的组合组装的非限制性实施方式。缺失和插入以下划线标示。合成在密码子水平具有缺失和/或插入的离散序列：寡聚物1，寡聚物1a具有核苷酸CTG的缺失和3核苷酸CCG的插入(下划线标示)，寡聚物1b具有3核苷酸插入CTG、3核苷酸插入CCG(下划线标示)和3核苷酸CCG(下划线标示)。合成在核苷酸水平具有缺失和/或插入的离散序列：寡聚物2，寡聚物2a具有单一核苷酸缺失，寡聚物2b具有单一核苷酸A插入(下划线标示)。合成在多重核苷酸水平具有缺失和/或插入的离散序列：寡聚物3，寡聚物3a具有12个核苷酸缺失(下划线标示)，寡聚物3b具有12个核苷酸插入(下划线标示)。可将寡核苷酸组装成具有由用户指定的精确序列的完全变体构建体：变体1：寡聚物1+寡聚物2+具有12个核苷酸缺失的寡聚物3a，和变体2：具有3核苷酸缺失和3核苷酸插入的寡聚物1a+具有单一核苷酸缺失的寡聚物2a+具有12个核苷酸缺失的寡聚物3a。

发明详述

本发明的方面涉及用于生成非随机核酸文库的方法和组合物，所述非随机核酸文库包含多种感兴趣的预选定或预定序列。本发明的一些方面涉及化学合成用于广泛应用的核酸文库，包括抗体设计和代谢通路最优化。制造核酸文库的一般方法是由终产物的单一示例开始(例如，可能编码抗体的基因)，然后随机突变该基因，例如通过采用易错聚合酶进行扩增。用于产生变体文库的另一方法是将变异引入DNA合成，例如，通过在DNA合成反应的具体偶联步骤中偶联核苷酸碱基(例如a、c、t和g)的混合物。这些方法的不足之处在于，这些方法产生的随机文库包含大量的文库成员，其不太可能是感兴趣的变体，但又必须经过筛选。此外，这些方法可能会占据可用筛选资源的大部分。

本发明的方面涉及合理设计并生成合理设计的变体文库的方法，其中所述文库的基本每个成员或所述文库成员的大部分经设计或工程改造以具有非随机序列。所述方法能够限制经合成和筛选的文库成员的数量，以更好地利用可用的文库筛选资源。因此，本发明的方面涉及能够减小变体核酸文库的复杂性的方法和组合物，由此减少在筛选过程中对这些文库的过度取样，并提高筛选效率。

本发明的方面可纳入核酸组装过程来，例如，提高组装保真度、通量和/或效率，降低成本，和/或缩短组装时间。在一些实施方式中，本发明的方面可以自动化和/或在高通量组装环境下进行来促进平行产生靶核酸序列的许多不同变体。

本文使用的术语“核酸”、“多核苷酸”、“寡核苷酸”可互换使用，并且指核苷酸的天然产生或合成的聚合物形式。本发明所述寡核苷酸和核酸分子可以从天然产生的核苷酸形成，例如形成脱氧核糖核酸(DNA)或核糖核酸(RNA)分子。在一些实施方式中，寡核苷酸和核酸分子可被甲基化。或者，该天然产生的寡核苷酸可以包含改变其性质的结构修饰，例如肽核酸(PNA)或锁核酸(LNA)。用天然产生碱基或人工碱基的寡核苷酸和核酸分子的固相合成为本领域熟知。应理解，这些术语包含从核苷酸类似物中生成的RNA或DNA的等同物、类似物和应用于要描述的实施方式时的单链或双链多核苷酸。本发明中可用的核苷酸包含例如天然产生的核苷酸(例如核糖核苷酸或脱氧核糖核苷酸)，或者核苷酸的天然或合成修饰、或者人工碱基。本文使用的术语单体指小分子组成员，其是并且能结合在一起以形成低聚物、聚合物或由两个或更多成员构成的化合物。聚合物中所述单体的特定顺序在本文中称为聚合物的“序列”。所述单体组包含但不限于例如常见L-氨基酸组、D-氨基酸组、合成和/或天然氨基酸组、核苷酸组及戊糖和己糖组。本发明所述方面主要涉及制备和应用寡核苷酸，也可容易地用于制备其它聚合物例如肽或多肽、多糖、磷脂、异聚物、聚酯、聚碳酸酯、聚脲、聚酰胺、聚乙烯亚胺、聚芳撑硫、聚硅氧烷、聚酰亚胺、聚乙酸酯或任何其它聚合物。

术语“基因”指的是，表达特定蛋白质的核酸片段，包括调控序列，例如处于编码序列之前(5′非编码序列)和之后(3′非编码序列)的调控序列。

“启动子”指的是能够控制编码序列或功能性RNA的表达的核苷酸序列。通常，编码序列位于启动子序列的3'。

本文使用的术语“预确定序列”、“预定序列”或“预选定序列”可互换使用，并且指在所述聚合物合成或组装前已知并选择聚合物的序列。具体地，本文所述本发明的各方面主要涉及核酸分子的制备，在核酸分子合成或组装前已知且已选择核酸的序列。在本文所提供技术的一些实施方式中，固定的寡核苷酸或多核苷酸被用作材料来源。在各种实施方式中，本文所述方法使用合成的寡核苷酸，其序列基于待合成的最终多核苷酸构建体的序列确定。在一个实施方式中，寡核苷酸是短核酸分子。例如，寡核苷酸的长度可以是10至约300个核苷酸、20至约400个核苷酸、30至约500个核苷酸、40至约600个核苷酸，或超过约600个核苷酸。然而，可以使用更短或更长的寡核苷酸。寡核苷酸可设计成具有不同长度。在一些实施方式中，多核苷酸构建体序列可以分成多个更短序列，该序列能使用本文所述方法平行合成并组装成单个或多个所需多核苷酸构建体。在一些实施方式中，所述组装过程可以包括数种平行和/或顺序反应步骤，其中多个不同核酸或寡核苷酸被合成或固定、引物延伸或扩增，并且合并以组装(如通过本文所述延伸或连接)生成更长核酸产物，从而用于进一步组装、克隆或其它应用。

本文所用的“非随机”核酸文库序列指的是所述文库中的靶核酸序列在组装之前是基本预选定或预定的，这与经变性或随机衍生不同。本文所用的术语“非随机变体文库”和“通过多重多核苷酸合成的变体文库(VL-MPS)”可互换使用。在一些实施方式中，根据本发明方面的非随机文库基本不含随机序列变异(例如包含少于10％，少于5％，少于1％，少于0.1％，或少于0.01％的随机变异)。本领域技术人员应理解，变体核酸可包括待变化的参照核酸序列的任意各种变异位点。

在一些实施方式中，非随机文库的变体成员可以是基于预定的参照序列而言包含单一或多个序列变异的相关序列。根据本发明的一些方面，非随机文库可以从多种核酸(例如，多核苷酸、寡核苷酸等)组装，以形成较长的核酸产物。文库可包含包括相同的(非变异)区域和序列变异区域的核酸。因此，某些待组装的核酸可与非变体序列区域相对应，而其它待组装的核酸可与预定的序列变异区域中的若干预定序列变体之一相对应。在一些实施方式中，非随机核酸文库可包含编码两种或更多种感兴趣的多肽的两种或更多种核酸。在一些实施方式中，非随机文库可经设计以表达任何类型的多肽，例如支架蛋白质、抗体、酶等……

合成寡核苷酸

在一些实施方式中，本文提供的方法和装置使用固定在表面或基底上的寡核苷酸(如结合支持物的寡核苷酸)。结合支持物的寡核苷酸包括例如与构建寡核苷酸互补的寡核苷酸、锚定寡核苷酸和/或间隔子寡核苷酸。本文使用的术语“支持物”、“基底”和“表面”可互换使用，并且指聚合物例如核酸在上面合成或固定的多孔或非多孔溶剂不溶性材料。本文使用的“多孔”是指所述材料包含有基本一致直径(例如nm范围内)的孔。多孔材料包括纸、合成滤器等。在这种多孔材料中，所述反应可以在孔中进行。所述支持物能具有很多形状中的任何一种，例如销型、条、板、平盘、杆状、弯曲、圆柱形结构、颗粒(包含珠、纳米颗粒)等。所述支持物可有可变宽度。所述支持物可以是亲水性的，或可以制成亲水性的，并且包含无机粉末(如二氧化硅、硫酸镁和氧化铝)、天然聚合材料(特别是纤维素材料和纤维素衍生材料，例如包含纤维的纸(如滤纸、色谱纸等))、合成或改性天然产生的聚合物(如硝酸纤维素、乙酸纤维素、聚(氯乙烯)、聚丙烯酰胺、交联的葡聚糖、琼脂糖、聚丙烯酸酯、聚乙烯、聚丙烯、聚(4-甲基丁烯)、聚苯乙烯、聚甲基丙烯酸酯、聚(对苯二甲酸乙二酯)、尼龙、聚(丁酸乙烯酯)、聚偏二氟乙烯(PVDF)膜、玻璃、可控孔度玻璃、磁性可控孔度玻璃、陶瓷、金属等)，或者单独使用或与其它材料联用。在一些实施方式中，以阵列形式合成寡核苷酸。例如，在常见支持物上原位合成单链寡核苷酸，其中在基底上的单独或离散的部位(或点)上合成各寡核苷酸。在一个实施方式中，单链寡核苷酸结合到所述支持物或特征部位的表面上。本文所用的术语“阵列”是指用于存储、扩增和释放寡核苷酸或互补寡核苷酸用于进一步反应的离散特征的排列。在一个优选实施方式中，所述支持物或阵列是可寻址的：所述支持物在该支持物上具体的预定位置(即，“地址”)处包括两个或更多个离散的可寻址特征。因此，阵列上的各寡核苷酸分子位于所述支持物上已知和确定的位置。各寡核苷酸序列能从其在所述支持物上的位置来确定。所述阵列可以包含特征部位之间的区域。特征部位之间可以在其表面载有任何寡核苷酸，并且可对应惰性空间。

在一些实施方式中，寡核苷酸在表面或阵列的离散特征上连接、点样、固定、表面结合、支持或合成。

本发明的一些方面涉及多核苷酸组装过程，其中，合成的寡核苷酸经设计并且用作引物延伸反应、合成互补寡核苷酸的模板，并用于组装多核苷酸成为更长多核苷酸构建体。在一些实施方式中，该方法包含在链延伸反应中使用第一组单链寡核苷酸作为模板合成多个寡核苷酸或多核苷酸。如前所述，可以首先在表面的多个离散特征部位上或在多个支持物(如珠)上合成寡核苷酸，或可将寡核苷酸置于支持物的多个特征部位上或多个支持物上。支持物可以包含至少100、至少1,000、至少10⁴、至少10⁵、至少10⁶、至少10⁷、至少10⁸个特征。在一些实施方式中，所述寡核苷酸共价连接至所述支持物。在一些实施方式中，所述多个寡核苷酸固定在固体表面上。

在一些实施方式中，所述结合支持物的寡核苷酸可通过其5'末端连接。在其它实施方式中，所述结合支持物的寡核苷酸通过其3’末端连接。在一些实施方式中，所述结合支持物的寡核苷酸可以通过核苷酸序列(如简并结合序列)、接头或间隔子(如光可切割的接头或化学接头)固定在支持物上。应理解，3’末端是指所述5’末端的下游序列，和5’末端是指所述3’末端的上游序列。例如，寡核苷酸可通过不参与杂交的间隔子、核苷酸序列或接头固定在支持物上。然后，所述结合支持物的寡核苷酸的3’末端表示接头或间隔子的上游序列。

在某些实施方式中，寡核苷酸可以设计成具有与要组装的预测定靶标多核苷酸序列的不同部分相同或互补的序列。因此，在一些实施方式中，每条寡核苷酸可以具有与双链靶核酸的两条链之一的部分相同或互补的序列。本文使用的术语"互补"指两个核苷酸之间精确配对的能力。例如，如果在核酸给定位点的核苷酸能与另一核酸的核苷酸形成氢键，则认为两个核酸分子在该位点彼此互补。两条单链核酸间的互补性可以是“部分的”，其中仅有一些核苷酸结合，或者当单链分子间存在完全互补性时为完全互补。术语“正交”表示所述序列不同、不具干扰性或不互补。

在一些实施方式中，提供多种传导寡核苷酸(conduction oligonucleotide)。在一些实施方式中，构建寡核苷酸(construction oligonucleotide)采用结合支持物的寡核苷酸作为模板来合成。

在一些实施方式中，设计多个构建寡核苷酸，例如多个构建寡核苷酸各在其5’末端具有与另一个构建寡核苷酸5’末端的序列区域互补的序列区域，和在其3’末端具有与不同构建寡核苷酸3’末端的序列区域互补的序列区域。在一些实施方式中，设计多个构建寡核苷酸，例如多个构建寡核苷酸各在其5’末端具有与另一个构建寡核苷酸5’末端的序列区域相同的序列区域，和在其3’末端具有与不同构建寡核苷酸3’末端的序列区域相同的序列区域。本文所用的“构建”寡核苷酸指的是，用于生成偏移二聚体以用于核酸组装的多个单链或双链寡核苷酸或其群之一。多个构建寡核苷酸可以是双链的，并且可包含针对靶多核苷酸的正义和反义链的寡核苷酸。构建寡核苷酸可以是钝端寡核苷酸双链体。构建寡核苷酸可有任何长度，所述长度设计为适合重叠或互补序列。构建寡核苷酸可具有相同大小或不同大小。在优选实施方式中，所述构建寡核苷酸跨越靶多核苷酸的整个序列且无缺口。在其他实施方式中，所述构建寡核苷酸部分重叠，使得在互相杂交时产生构建寡核苷酸之间的缺口。在一些实施方式中，构建寡核苷酸可具有除所述靶多核苷酸序列以外的其它序列。例如，构建寡核苷酸可以是具有插入和/或缺失的经修饰的构建寡核苷酸。在一些实施方式中，所述构建寡核苷酸可具有一个或多个取代。在一些实施方式中，所述构建寡核苷酸可具有一个或多个插入、一个或多个缺失、一个或多个取代，或前述任何组合。在一些实施方式中，构建寡核苷酸的集合或群包含具有重叠序列(互补的或相同)的构建寡核苷酸。

本文所用术语“二聚体”指寡核苷酸双链体或双链寡核苷酸分子。术语“偏移二聚体”和“偏移双链体”可互换使用，并且指具有3’和/或5’突出端(或粘性末端，即，非钝端)的寡核苷酸双链体。在一些实施方式中，偏移二聚体是部分双链核酸(例如寡核苷酸)，由此，所述核酸包含第一单链突出端和第二单链突出端。例如，所述偏移二聚体可具有3’突出端或所述偏移二聚体可具有5’突出端。

在一些实施方式中，所述偏移二聚体通过对集合中的构建寡核苷酸进行变性和重新杂交来产生。

应该理解不同的寡核苷酸可以设计成有重叠序列区域的不同长度。重叠序列区域可以是相同的(即对应核酸片段的相同链)或互补的(即对应核酸片段的互补链)。重叠序列可以具有任何合适的长度。重叠序列可以长约5–约500个核苷酸(如长约10–100、约10-75、约10-50、约20、约25、约30、约35、约40、约45、约50个核苷酸等)。然而，可以使用更短、更长或中间的重叠长度。应该理解用于组装反应的不同输入核酸之间的重叠(5'或3'区域)可以有不同长度。

在一些实施方式中，核酸采用基于连接酶的组装技术组装。在一些实施方式中，寡核苷酸经设计以提供靶多核苷酸构建体的全长正义(或正链)和反义(或负链)链。在正义和反义寡核苷酸杂交以形成偏移二聚体之后，偏移二聚体经历连接，以形成靶多核苷酸构建体或亚组装产物。参考美国专利号5,942,609，其全文纳入本文。基于连接酶的组装技术可以涉及一种或多种合适的连接酶，所述酶能催化临近3'和5'核酸末端的共价连接(如在互补模板核酸上退火的核酸的5'磷酸和3'羟基，从而所述3'末端紧邻5'末端)。因此，如果第一和第二核酸在模板核酸上互相临近退火，连接酶可以催化第一核酸的5'磷酸和第二核酸的3'羟基之间的连接反应。连接酶可以获自重组或天然来源。连接酶可以是热稳定的连接酶。在一些实施方式中，可以使用来自嗜热生物的热稳定连接酶。热稳定DNA连接酶的例子包括但不限于：Tth DNA连接酶(来自嗜热栖热菌(Thermus thermophilus)，可来自例如欧基公司(Eurogentec)和GeneCraft公司)；Pfu DNA连接酶(来自激烈火球菌(Pyrococcusfuriosus)的超嗜热连接酶)；Taq连接酶(来自水生栖热菌(Thermus aquaticus))，Ampli(来自Epicenter生物技术公司)任何其它合适的热稳定连接酶，或其任意组合。在一些实施方式中，可以使用一种或多种较低温度的连接酶(如T4DNA连接酶)。较低温度的连接酶可以用于可能在较高温度下不稳定的更短突出端(如约3、约4、约5、或约6个碱基的突出端)。非酶促技术，例如化学连接，可用于连接核酸。

多重多核苷酸合成

本发明的方面涉及用于广泛应用的核酸文库的化学合成。本发明的一些实施方式涉及用于合成核酸文库的快速且经济的方法。应理解，多核苷酸合成成本的主要部分是进行多核苷酸合成反应的试剂成本。为了降低成本，反应可在较小体积中进行。在一些实施方式中，反应可在个体微体积(例如液滴)中进行。根据本发明的一些方面，多种不同核酸可以在多重核酸合成中的单一合成反应体积中合成。本领域技术人员应理解，所述文库可通过依序、平行或分级多重组装过程来组装。在一些实施方式中，可在单一反应中组装所述文库，或分开组装中间核酸片段然后在一轮或多轮组装(例如杂交和连接)中将其合并。

应理解，在第一步中，设计构建核酸序列或构建寡核苷酸。构建核酸可以是合成的寡核苷酸，如本文中所述，扩增产物、限制片段或其它合适的核酸。在一些实施方式中，某些构建核酸可包括一种或多种序列变异。在一些实施方式中，可设计所述构建核酸，从而在第一集合中的第一构建核酸的5’端与第二集合中的第二构建核酸的3’端相同。

根据本发明的一些方面，非随机文库可通过合并两个或更多个核酸集合(各核酸具有预定序列)来组装。在一些实施方式中，一个或多个池可具有核酸变体序列。例如，所述核酸文库可通过合并一个核酸变体集合和具有不可变(或恒定)序列的一个核酸集合来组装。而在其它实施方式中，所述核酸文库可通过合并多个核酸变体集合来组装。因此，可设计并组装具有不同类型或变体或不同变体密度的不同文库。

在一些实施方式中，合并的各核酸的浓度可以经调节以改善组装反应并驱动所述反应，以形成全长核酸。在一些实施方式中，各核酸的浓度是偏向(biased)的，以改变代表的核酸变体的比例。在一些实施方式中，可以预确定的比例添加各构建核酸，以使所得核酸文库偏向。例如，如果需要该文库具有某一水平的特定变异并在相同或不同位点具有较低水平的另一变异，可通过添加较高水平的所需变异来使该文库偏向。在一些实施方式中，具有可变序列的核酸可与具有不可变序列的核酸以预定比例合并，以使核酸文库偏向。

用于产生具有预定序列的核酸的文库的多重核酸组装反应的某些实施方式参照图1-4进行说明。应理解，本文所述的合成和组装方法(包含，例如，寡核苷酸合成、分步组装、多重核酸组装、核酸片段的等级组装或其任意组合)可以任意合适的模式实施，包含在反应试管中、在多孔平板中、在表面上、在柱中、在微流体装置(例如，微流体管)中、毛细管中等。

在多重组装反应(例如，多重的酶介导反应、多重化学组装反应或其组合)中可以从多个不同起始核酸(例如，寡核苷酸)组装成文库的预定核酸成员。通过对多重寡核苷酸组装反应的某些实施方式的以下描述显示了多重核酸组装反应的某些方面。应该理解寡核苷酸环境下组装反应的描述并不意在构成限制。可以使用从一个或多个不同来源(例如，合成或天然多核苷酸、核酸扩增产物、核酸降解产物、合成或天然寡核苷酸、合成或天然基因等)得到的起始核酸，来实施本文所述的组装反应。起始核酸可以被称为组装核酸(例如，组装寡核苷酸)。如本文所用，组装核酸或偏移二聚体具有的序列设计为待纳入组装过程所产生核酸产物中的序列。然而，应该理解在双链核酸环境下组装反应的描述并不意在构成限制。在一些实施方式中，在图中所示和本文所述的起始核酸的一个或多个可以单链核酸提供。因此，应理解，当图和说明表示粘性末端双链核酸的组装时，考虑一个或多个单链核酸的存在。

在各个实施方式中，靶核酸首先可被分成两个或更多重叠的核酸片段(亚组装片段)。每个核酸片段然后被再分为两个或更多的重叠的更小核酸片段。

可以使用任意合适的技术来合成寡核苷酸。例如，可以在柱或其它支持物(例如，芯片或阵列)上合成寡核苷酸。基于芯片的合成技术的例子包括自CombiMatrix、安捷伦(Agilent)、艾菲美特(Affymetrix)或其它来源可得的合成装置或方法中使用的技术。合成寡核苷酸可以是任意合适的大小，例如10-1000个核苷酸长(例如，10-200、200-500、500-1000个核苷酸长或其任意组合)。组装反应可以包含多个寡核苷酸，每个寡核苷酸的长度可以各自独立为10-300个核苷酸(例如，20-250、30-200、50-150、50-100或任意中间数的核苷酸)。然而，在某些实施方式中可以使用一个或多个较短或较长的寡核苷酸。

如本文所用，寡核苷酸可以是包括至少两个共价结合的核苷酸残基的核酸分子。在一些实施方式中，寡核苷酸长度可以是10-1000个核苷酸。例如，寡核苷酸长度可以是约10～约500个核苷酸，或约500～约1,000个核苷酸。在一些实施方式中，寡核苷酸长度可以是约20-约300个核苷酸(例如，约30-250、40-220、50-200、60-180，或约65或约150个核苷酸)、约100-约200、约200-约300个核苷酸、约300-约400，或约400-约500个核苷酸。然而，可以使用更短或更长的寡核苷酸。寡核苷酸可以是单链核酸。然而，在一些实施方式中，可以如本文所述使用双链寡核苷酸。在某些实施方式中，寡核苷酸可以是化学合成的，如以下详述。在一些实施方式中，可以在使用前扩增输入的核酸(例如，合成寡核苷酸或核酸片段)。所得的产物可以是双链的。

在某些实施方式中，每条寡核苷酸可以设计成具有与待组装的预定靶核酸的序列的不同部分相同的序列。因此，在一些实施方式中，每条寡核苷酸可以具有与双链靶核酸的两条链之一的部分相同的序列。为清楚起见，双链核酸的两条互补链在本文中被称为正链(P)和负链(N)。这种名称并不意在暗示链是编码序列的正义链和反义链。它们仅仅是指核酸(例如，靶核酸，中间体核酸片段等)的两条互补链，无关核酸的序列或功能。因此，在一些实施方式中，P链可以是编码序列的正义链，而在其它实施方式中，P链可以是编码序列的反义链。应理解，本文提及的互补核酸或互补核酸区域是指具有互相反向互补使得它们能够以天然DNA典型的反向平行方式杂交的核酸或其区域。

按照本发明的一个方面，靶核酸可以是P链、N链或包括P链和N链的双链核酸。应理解，不同的寡核苷酸可以被设计为具有不同的长度。在一些实施方式中，一种或多种不同的偏移寡核苷酸可以具有重叠的序列区域或突出端(例如，重叠的5'区域和/或重叠的3'区域)。重叠序列区域可以是相同的(即对应核酸片段的相同链)或互补的(即对应核酸片段的互补链)。多种偏移寡核苷酸二聚体可以包含有相同重叠序列区域的一个或多个寡核苷酸对、有重叠互补序列区域的一个或多个寡核苷酸对，或其组合。重叠序列可以具有任何合适的长度。例如，重叠序列可以包括在组装反应中使用的一个或多个核酸的全长。重叠序列可以是约2-约50(例如，3-20、3-10、3-8、或4、5、6、7、8、9个等核苷酸长)。然而，可以使用更短、更长或中间的重叠长度。应该理解用于组装反应的不同偏移寡核苷酸二聚体之间的重叠可以有不同长度和/或序列。例如，重叠序列可以与另一个序列差异至少1个核苷酸、2个核苷酸、3个核苷酸或更多。

在一个设计为产生预定核酸片段的多重寡核苷酸组装反应中，在反应中不同寡核苷酸的合并序列可以在正链、负链、两条链或正链的部分和负链的部分的结合上跨越完整核酸片段的序列。多个不同的寡核苷酸可以对应待组装核酸片段的完整序列提供正链序列、负链序列或正链和负链序列的组合。

在本发明的一个方面，核酸片段可以在连接酶介导的组装反应中组装自多个在一轮或多轮连接酶介导的连接中合并并且连接的寡核苷酸。基于连接酶的组装技术可以涉及一种或多种合适的连接酶，所述酶能催化临近3'和5'核酸末端的共价连接(如在互补模板核酸上退火的核酸的5'磷酸和3'羟基，从而所述3'末端紧邻5'末端)。因此，如果第一和第二核酸彼此相邻地在模板核酸上退火，连接酶可以催化所述第一核酸的5'磷酸和第二核酸的3'羟基之间的连接反应。

应理解，多重多核苷酸组装反应可在单一体积例如孔中进行，或可在局部单独微体积中进行。在一些实施方式中，所述延伸和/或组装反应在微滴中进行(见PCT申请PCT/US2009/55267和PCT申请PCT/US2010/055298，各通过引用全文纳入本文)。

文库构建

本发明的一些方面涉及具有粘性末端的偏移双链体(本文中也称为偏移二聚体)的设计和产生，以及该偏移双链体的组装，以形成变体文库。图1A-1B显示多重偏移双链体(或二聚体)制备的示例方法。图1A-1B说明偏移二聚体结构模块(本文中也称为具有双链突出端的寡核苷酸)的多重制备。

在一些实施方式中，第一和至少第二组具有双链突出端的核酸以结构模块的形式生成，用于非随机核酸文库的组装。在一些实施方式中，来自该文库的各核酸通过对具有互补的突出端(或粘性末端)的核酸进行杂交和连接来组装。

根据本发明的一些方面，所述方法包括，提供部分双链寡核苷酸的第一群，由此各第一寡核苷酸包含第一和第二单链突出端，和提供部分双链寡核苷酸的第二群，由此各第二寡核苷酸包含第一单链突出端和第二单链突出端。在一些实施方式中，第一群中的第一突出端是相同的，且第一群中的第二突出端是相同的。在一些实施方式中，第一群的寡核苷酸的相同的第一突出端与第二寡核苷酸群的相同第一突出端互补。根据本发明的一些方面，第一寡核苷酸可以通过第一寡核苷酸的单链突出端和第二寡核苷酸的单链突出端连接至第二寡核苷酸，产生第一连接产物。第一连接产物可包含第一寡核苷酸的第一突出端和第二寡核苷酸的第二突出端。

参照图1A，产生具有交错突出端的第一组核酸(A)。在一些实施方式中，构建寡核苷酸可以从模板支持物结合的寡核苷酸扩增。例如，寡核苷酸〖A'〗₁、〖A'〗₂、〖A"〗₁、〖A"〗₂可以从模板寡核苷酸扩增，以形成单一第一反应体积的多种钝端双链寡核苷酸。应理解，多种双链构建寡核苷酸可获自市售来源，或可设计和/或合成至固体支持物(例如阵列)之上。然而，应理解，可采用其它核酸(例如，单链或双链核酸降解产物、限制片段、扩增产物、天然产生的小核酸、其它多核苷酸等)。

在一些实施方式中，设计第一集的钝端双链寡核苷酸(例如〖A'〗₁、〖A"〗₁)的寡核苷酸，从而各序列从该集的另一序列偏移n个碱基。在一些实施方式中，偏移n可以是2～8个碱基。例如，该偏移可以是2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基或更多。例如，参照图1A，设计寡核苷酸，从而第一集的钝端双链寡核苷酸〖A'〗₁和〖A"〗₁以及第二集的钝端双链寡核苷酸〖A'〗₂和〖A"〗₂具有彼此偏移4个碱基的序列。

在一些实施方式中，提供第二集的钝端双链寡核苷酸。在一些实施方式中，钝端双链寡核苷酸的第二集的钝端双链寡核苷酸可以是钝端双链寡核苷酸的第一集的钝端双链寡核苷酸的序列变体。例如，第二集的寡核苷酸可包含突变、取代等。所述突变可以位于预定的位点或随机位点。在一些实施方式中，第二集的钝端双链寡核苷酸包含来自核酸变体文库的核酸。在一些实施方式中，核酸变体文库可从参照基因设计，并且可包含预定数量的突变(n)。各集中的突变可位于相同或不同位置；和位于任何位置。

在一些实施方式中，各集中的钝端双链寡核苷酸可经历促进变性的条件(例如通过将温度升高至高于解链温度)，然后允许重新杂交以形成具有突出端的双链寡核苷酸。

参照图1A下部，双链寡核苷酸〖A'〗₁₍SEQ ID NO:1)、〖A'〗₂₍SEQ ID NO:2)、〖A"〗₁(SEQ ID NO；3)、〖A"〗₂(SEQ ID NO；4)可去杂交或变性(例如通过解链)并重新杂交以形成交错杂交产物。根据一些实施方式，具有突出端的双链寡核苷酸可具有不同的内部双链序列但相同的单链突出端。仍参照图1A，偏移二聚体产物(例如A₁和A₂)可具有相同的n个碱基突出端(例如3’端突出端)但可具有不同内部序列。如图1A中所示，偏移二聚体A₁具有序列(tccgatttacgggt，SEQ ID NO:1)，其与偏移二聚体A₂(tccgatctacgggt，SEQ ID NO:2)的不同之处在于存在‘t’核苷酸替代‘c’核苷酸。参照图1A，杂交产生产物A1(SEQ ID NO:1，SEQID NO:7)和A2(SEQ ID NO:2和SEQ ID NO:8)。杂交反应还可产生产物A₁*(SEQ ID NO:1，SEQ ID NO:9)和A₂*(SEQ ID NO:2，SEQ ID NO:10)。

参照图1B，具有交错突出端的第二组核酸(B)可以是按照对于第一组核酸(例如核酸A)描述的相同方法来生成。在变性和重新杂交后，所述核酸能形成具有单链突出端的部分双链核酸。例如，如图1B所示，可形成具有3’突出端的核酸B₁(SEQ ID NO:5，SEQ ID NO:11)。此外，也可形成具有5’突出端的核酸B₁*(SEQ ID NO:6，SEQ ID NO:12)。

图2A-2B说明采用三个偏移二聚体组装两种核酸变体的非限制性示例。根据一些实施方式，具有互补的突出端的核酸可杂交以形成无缺口可连接的接合，并且可经连接以形成较长的核酸序列。例如，具有3’突出端的核酸可与具有互补的3’单链突出端的核酸杂交。参照图2A-2B，变体文库可通过混合并组装具有图1的互补的突出端的核酸来产生。仍参照图2A-2B，具有与变体A₁和A₂互补的突出端的偏移二聚体B1可在单一反应体积中连接至变体A₁(图2A)和A₂(图2B)，以形成变体文库产物A₁B₁(SEQ ID NO:13，SEQ ID NO:14)和A₂B₁(SEQ ID NO:15，SEQ ID NO:16)。

本发明的方面涉及复杂变体文库的合成。图3A-3C和图4A-4B说明通过多重多核苷酸组装产生更复杂的变体文库的实施方式。参照图3A，双链文库核酸或片段{〖A'〗1、〖A'〗₂、〖A'〗₃…〖A'〗_N}可在第一单一反应体积中制备。例如，双链核酸可通过阵列上结合支持物的寡核苷酸的扩增来合成。双链文库片段{〖B'〗₁、〖B'〗₂、〖B'〗₃…〖B'〗_N}可在第二单一反应体积中制备，并且双链文库片段{〖C'〗₁、〖C'〗₂、〖C'〗₃…〖C'〗_N}可在第三反应体积中制备等。

参照图3B，双链文库片段{〖A"〗₁、〖A"〗₂、〖A"〗₃…〖A"〗_N}可在第一单一反应体积中制备。在一个示例性实施方式中，双链寡核苷酸可采用阵列上模板结合支持物的寡核苷酸来扩增。双链文库片段{〖B"〗₁、〖B"〗₂,…〖B"〗_N}可在第二单一反应体积中制备，{〖C"〗₁、〖C"〗₂、〖C"〗₃…〖C"〗_N}可在第三反应体积中制备等。

参照图3C，双链文库片段{〖A'〗₁、〖A'〗₂,〖A'〗₃…〖A'〗_N}与双链文库片段{〖A"〗₁、〖A"〗₂、〖A"〗₃…〖A"〗_N}在单一体积中合并。双链核酸可经历一定条件以去杂交(例如通过解链)，然后经历促进重新杂交的条件以形成交错杂交产物{A₁、A₂、A₃…A_N}，如上所述。类似地，双链文库片段{〖B'〗₁、〖B'〗₂,〖B'〗₃…〖B'〗_N}可以与双链文库片段{〖B"〗₁、〖B"〗₂,〖B"〗₃…〖B"〗_N}在单一体积中合并，然后去杂交(例如通过解链)并重新杂交，以形成交错杂交产物{B₁，B₂，B₃…B_N}等。

图4A显示特定示例，其中两个片段A交错杂交产物{A₁，A₂}，四个片段B交错杂交产物{B₁，B₂，B₃，B₄}，和两个片段C交错杂交产物{C₁，C₂}合并，以形成非随机核酸文库。

交错杂交产物A的上游单链突出端序列(全部右端的序列)经设计以彼此相同，并且与交错杂交产物B的下游单链突出端序列(全部左端的序列)(其进而全部设计为相同)互补(且能够杂交)。类似地，交错杂交产物B的上游单链突出端序列(全部右端的序列)经设计以彼此相同，并且与交错杂交产物C的下游单链突出端序列(全部左端的序列)(其均设计为相同)互补并杂交。

参照图4B，然后，这些集的交错杂交产物A、B、C可在单一反应体积中连接，以形成16(＝2*4*2)个变体{A₁B₁C₁，A₁B₁C₂，A₁B₁C₃….A₂B₄C₂}。

在一些实施方式中，变体文库的成员总数与各片段A，B，C等的变体数量的产物相等。实践中，连接反应可对连接的2～10个片段而言高效。在示例性的实施方式中，10个片段(A,B,C…J)，各自有4个变体，将产生410～1百万个成员的变体文库。

一些实施方式中，所述片段的尺寸可以是约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp或更大。而在一些实施方式中，所述片段的尺寸可以是约200bp、约300bp、约400bp、约400bp、约500bp、约600bp、约700bp、约800bp、约900bp、约1000bp、约2000bp、约3000bp或更大。

应理解，如果片段A、B、C等是寡核苷酸(约20bp～200bp)的尺寸，那么10个片段的组装产生的文库产物可在个体基因(约200bp～2Kbp)的尺寸范围内。其中各成员可以是基因变体的所述变体文库可能高度有利于感兴趣的蛋白质的最优化。例如，该变体文库可有利于抗体(例如具有特定或改善的结合性质的抗体)的最优化。在一些实施方式中，筛选可以通过采用噬菌体或酵母展示或本领域已知的任何合适的方法来高效地完成。感兴趣的产物可经反向测序以寻求对具有所需性质(例如结合性质)的文库成员的鉴定。

还应理解，如果片段A、B、C等是基因尺寸(例如500bp～2.5Kbp，包括启动子和核糖体结合位点(RBS))，那么该文库产物可导致代谢通路。由此，所述变体文库可导致代谢通路变体文库。在一些实施方式中，对于具有包含启动子或核糖体结合位点的M个核酸和编码蛋白质的基因的代谢通路，可优化M个酶，从而来自各酶反应的催化输出产物与下一酶的输入匹配，并且最优化代谢物的整体输出流。假设启动子保持恒定并且2个RBS水平足以用于产生足够的变体以调节代谢通路，这代表2*2M个通路。如果M＝10，那么所需通路的数量是2*2¹⁰＝2,048个通路。如果各由平均长度为约10Kbp的序列编码，则通路的总数可由约20Mbp的DNA合成(其代表数百万美元)来表示。通过采用本文所述的方法，变体文库(例如通过多重通路合成法(VL-MPS)的变体文库)有可能在单一反应中构建，其中各片段(A、B、C等)可代表启动子+RBS+酶编码基因，并且其中各片段集合(A、B、C等)具有针对启动子或RBS的强度的若干(例如2-4)个变异。可通过通路变体文库的鸟枪(shotgun)转化进入表达宿主细胞来筛选所述文库。质谱可用于所需代谢物生成的读出。或者，基于细胞的传感器(例如基于转录因子的那些)可用于检测所需代谢物生成(参考文献：Chou,Howard H.和Jay D.Keasling."改进增加的代谢物产生的编程适应性控制(Programming adaptive control to evolveincreased metabolite production)."Nature Communications 4(2013))。例如，可产生允许细胞通过流式细胞术分选的视觉信号(例如通过启动绿色荧光蛋白)。在一些实施方式中，可产生允许所述代谢物生产型细胞在药物标志物或缺陷型培养基下存活的因子，因此选择最佳代谢生产通路。

插入和/或缺失变体文库

插入和/或缺失可以是生成可具有所需性质的独特序列的变体文库的有力工具。然而，本领域技术人员应理解，易错聚合酶链式反应(PCR)，或采用简并碱基的核酸合成，可能不足以产生预定序列(本文中也称为离散特定序列)的插入或缺失。同样地，取代可以是产生独特序列的变体文库的有力工具。根据本发明，取代可单独利用，或与插入和/或缺失联用。在一些实施方式中，取代可通过如下组合来实现：在核酸序列的编码区的相同位置中发生的至少(1)1、2、3或更多个核苷酸的缺失，和(2)相同数量的核苷酸的插入。在一些实施方式中，取代可以是3个连续核苷酸取代的倍数，或可涵盖任何数量的核苷酸，包括但不限于，一个核苷酸，或两个核苷酸，或多于两个核苷酸。

易错PCR是用于将变异引入DNA序列的群的成熟方法，其中易错聚合酶在扩增DNA时产生错误。然而，该方法会导致位于随机位置上的变体，并且不允许设计排除不需要的变体的具体序列。类似地，当显示具体位置上的简并碱基导致在该位置添加任何可能的核苷酸来确定变体时，进行采用简并碱基的DNA的合成。在合成过程中，核苷酸可随机选自可能的核苷酸的集合。因为相对于先前随机选择的核苷酸的下一个简并碱基不受控制，该方法不允许排除或纳入具体的序列段，例如不需要的密码子或相关序列的较长片段。由此，这些方法均不允许预定位置上具体碱基的插入或缺失。

在本发明的一些方面中，精确预定序列的核酸合成和组装可以是独特适合的，以产生包含插入和/或缺失的遗传物质文库。在一些实施方式中，所述方法允许产生几乎不包含或不包含具有预定序列的靶核酸的外源序列变体的文库。在一些实施方式中，提供合成在个体碱基水平、密码子水平或较长核苷酸序列水平具有核酸序列插入和/或核酸序列缺失的核酸的方法。在一些实施方式中，所述方法可采用核酸合成法，例如DNA合成法，以允许在个体碱基、密码子水平或以较大核酸序列部分包括DNA区段插入和/或缺失的用户定制序列。参照图5，合成在密码子水平(例如SEQ ID NO:17，SEQ ID NO:18，SEQ ID NO:19)，核苷酸水平(例如SEQ ID NO:20，SEQ ID NO:21，SEQ ID NO:22)和多重核苷酸水平(例如SEQ IDNO:23，SEQ ID NO:24，SEQ ID NO:25)具有缺失和/或插入的离散序列。解析各特定序列，从而寡核苷酸可被分开合成并组装成具有由用户定制的精确序列的完整变体构建体(参见图5，SEQ ID NO:26和SEQ ID NO:27)。仍参照图5，合成并组装在密码子、核苷酸和多重核苷酸水平具有缺失和/或插入的离散序列。合成在密码子水平具有缺失和/或插入的离散序列：寡聚物1，具有核苷酸CTG的缺失和3核苷酸CCG的插入(下划线标示)的寡聚物1a，具有CTG、CCG(下划线标示)和CCG(下划线标示)的插入的寡聚物1b。合成在核苷酸水平具有缺失和/或插入的离散序列：寡聚物2，具有单一核苷酸缺失的寡聚物2a，具有单一核苷酸A插入(下划线标示)的寡聚物2b。合成在多重核苷酸水平具有缺失和/或插入的离散序列：寡聚物3，具有12个核苷酸缺失(下划线标示)的寡聚物3a，具有12个核苷酸插入(下划线标示)的寡聚物3b。可将寡核苷酸组装成具有由用户指定的精确序列的完全变体构建体：变体1：寡聚物1+寡聚物2+具有12个核苷酸缺失的寡聚物3a，和变体2：具有3核苷酸缺失和3核苷酸插入的寡聚物1a+具有单一核苷酸缺失的寡聚物2a+具有12个核苷酸缺失的寡聚物3a。在一些其它实施方式中，在多重核苷酸水平具有缺失和/或插入的离散序列可包含不是3核苷酸的倍数的缺失和/或插入，例如，13个核苷酸缺失和/或插入。

核酸合成(例如脱氧多核苷酸合成)化学是成熟方法。近期，可被合成的序列的长度已经变长，而合成的成本已下降。此外，新组装方法允许多重连续的合成产物的构建形成用于合成生物学的相关模块，例如基因、小遗传网络、甚至基因组。在已经拥有了产生该遗传物质的能力的情况下，在一些实施方式中，核酸合成能够杠杆式地产生许多个体序列的独特变体。所述序列可用于产生，例如，药物和化学生产者或可用于学术研究。

核酸(例如DNA)个体序列的高度多样化的文库可通过相关筛选和/或选择来发掘，以寻找具有用于所需应用的希望的性质的文库个体成员。因此，可采用相对较小的文库来筛选或选择感兴趣的功能或结构。在一些实施方式中，变体文库在预定数量的位置具有大量的可能有用的氨基酸取代，或在更多位置具有可能有用的氨基酸取代，或其组合。

在一些实施方式中，为了产生包含插入和/或缺失的不同但可控的序列含量，各离散、独特的序列可分开合成并组装。在一些实施方式中，可采用特别设计的构建寡核苷酸的各种组合。本文所用的术语"构建寡核苷酸"指的是可用于组装比构建寡核苷酸本身要长的核酸分子的单链或双链寡核苷酸。构建寡核苷酸可用于通过本文所述的方法组装核酸分子。术语"多核苷酸构建体"指的是具有比构建寡核苷酸长的预定序列的核酸分子。多核苷酸构建体可从构建寡核苷酸的集和/或亚组装物的集组装。

在一些实施方式中，具有指示变体的参照序列可首先被断裂或解析成处于可被合成的长度范围内的较小的寡核苷酸。一些寡核苷酸可以是当与原先的“野生型”序列相比包括插入或缺失的碱基的变体寡核苷酸。具有缺失、插入、变异、其组合或无变化的全部可能的寡核苷酸可被合成，组成整体所需序列的部分。在一些实施方式中，待组装的变体寡核苷酸的纳入需要以这样的方式解析这些序列：避免寡核苷酸待组装的接合处附近的变异。然后可合成组成整体较大序列的所有部分的个体寡核苷酸。这些变体序列可以组合地组装，产生包含插入和/或缺失的构建体序列的所有可能的变体。

根据一些实施方式，所述方法可允许采用单独合成的寡核苷酸中的各指定变体从寡核苷酸区段构建每个特定序列。组装后，各核酸序列(例如完整构建体或亚组装构建体)可仅包含明确指示的变体，由此，通过组合将会产生较少的外来的构建体变体至不产生外来的构建体变体。

因此，本发明的方面特别有用于产生包含大量指定序列变体的文库。本发明的一些方面涉及具有包含大量的指定序列变体和较少或没有指定序列的外来变体的文库。本发明的文库可用于选择性地筛选或分析大量的不同预定核酸和/或由所述核酸编码的不同的肽。

在一些实施方式中，本发明的方法允许核酸文库，例如DNA文库，编码具有缺失和/或插入的变体序列。在一些实施方式中，插入可以是3核苷酸的倍数。在一些实施方式中，缺失可以是3核苷酸的倍数。在一些实施方式中，插入可包含5组或更少组3核苷酸。在一些实施方式中，插入可包含6或更少、7或更少、8或更少、9或更少、10或更少、11或更少、12或更少，或更多组3核苷酸。在一些实施方式中，缺失可包含5组或更少组3核苷酸。在一些实施方式中，缺失可包含6或更少、7或更少、8或更少、9或更少、10或更少、11或更少、12或更少，或更多组3核苷酸。而在一些实施方式中，插入或缺失不是3核苷酸的倍数。所述文库可允许新蛋白质修饰。在一些实施方式中，本发明的方法允许核酸文库编码具有较大缺失和/或较大插入的变体序列。所述文库可允许，例如，编码一种或多种蛋白质结构域或蛋白质结构域的部分的核酸序列的入环(loop-in)或出环(loop-out)。

本发明的方面涉及合并和组装构建寡核苷酸变体的一个或多个(例如，1、2、3、4、5、6、7、8、9、10或更多)集合和构建寡核苷酸变体或非变体序列的一个或多个集合，各集合对应于靶文库的不同区域。各集合包含针对靶核酸区域选择的核酸序列。因此，本发明的方面特别有用于产生包含大量的预定序列变体的文库。

根据本发明的一些方面，生成核酸文库的方法包括如下步骤：鉴定靶核酸、在靶核酸中鉴定第一区域，其中第一区域包含变体核酸序列；和在靶核酸中鉴定第二区域，其中第二区域包含非变体序列。在一些实施方式中，靶核酸可包含一个或多个恒定区、一个或多个可变区及其组合。本文中所用的术语“恒定”、“非变体”和“不可变”序列可互换使用。

然后，可在包含变体核酸序列的至少第一组寡核苷酸和包含非变体核酸序列的至少第二组寡核苷酸中解析靶核酸。可提供，例如，合成并组装至少第一和第二组寡核苷酸。在一些实施方式中，该文库可以采用基于聚合酶的组装反应、基于连接酶的组装反应，或其组合来组装。

在一些实施方式中，靶核酸可编码具有一个或多个结构域的多肽。在一些实施方式中，变体核酸序列可包含编码一个或多个结构域的至少部分的核酸序列的缺失、编码一个或多个结构域的至少部分的核酸序列的插入，或其组合。在一些实施方式中，所述缺失和/或插入可以是3核苷酸的倍数。在一些实施方式中，所述缺失和/或插入可包含五组或更少组3核苷酸。在一些实施方式中，所述缺失和/或插入可包含6或更少、7或更少、8或更少、10或更少、11或更少、11或更少、12或更少，或更多组3核苷酸。

在一些实施方式中，所述插入和/或缺失可在核酸的非编码区中，例如在基因的非编码调控元件中。例如，所述插入和/或缺失可以是非编码序列。在一些实施方式中，所述缺失和/或插入可以是单一核苷酸，2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多核苷酸。在一些实施方式中，所述缺失和/或插入可以是多于20、多于25、多于30、多于35、多于40、多于45、多于50、多于55、多于60个核苷酸。

在一些实施方式中，用于生成核酸文库的方法包括：选择靶核酸序列，选择待在一个或多个选定位置缺失或插入的至少一个核酸序列，设计在该选定位置具有变体序列的第一集的寡核苷酸和具有非变体序列的至少第二集的寡核苷酸，和组装第一和至少第二集的寡核苷酸。在一些实施方式中，在选择步骤中，待缺失或插入的核酸序列可以是3核苷酸的倍数。在一些实施方式中，在选择步骤中，待缺失或插入的核酸序列可包含五组或更少组3核苷酸。在一些实施方式中，在选择步骤中，待缺失或插入的核酸序列可包含6或更少、7或更少、8或更少、9或更少、10或更少、11或更少、12或更少，或更多组3核苷酸。在一些实施方式中，第一和第二集一起可包含所述靶核酸序列。在一些实施方式中，第一和第二集一起可包含靶核酸序列的片段。在一些实施方式中，所述选定位置可包含核苷酸、密码子、核苷酸序列或其组合。

单链突出端

在某些实施方式中，相邻核酸片段之间的重叠互补区域设计(或选择)成有足够的差异来促进(例如，热力学上有利)核酸片段的唯一排列(例如，选定或设计的片段排列)。例如，可设计或选择相邻核酸片段之间的重叠互补区域以实现核酸片段的独特比对(例如，选定或设计的片段比对)的足够热动力有利的组装。惊人地，在合适的连接条件下，少至一个核苷酸的差异在完美匹配(100％互补粘性末端)和错配(低于100％的互补粘性末端)之间产生足够的区分力。如此，4-碱基突出端能允许高至(4^4+1)＝257个不同片段的高特异性和高保真连接。

应理解，可以使用不同长度的重叠区域。在一些实施方式中，当组装较大数量的核酸片段时，可以使用较长的粘性末端。较长的粘性末端可以提供更多的灵活性来设计或选择充分区别的序列来区分正确粘性末端退火(例如，涉及设计互相退火结合的粘性末端)和错误粘性末端退火(例如，在非互补粘性末端之间)。

为了实现这样的高保真组装，可以使用一种或多种合适的连接酶。连接酶可以获自重组或天然来源。在一些实施方式中，可以使用T3DNA连接酶、T4DNA连接酶、T7DNA连接酶和/或大肠杆菌DNA连接酶。这些连接酶可以在相对低的温度下(例如，室温)使用并且特别用于相对短的突出端(例如，约3、约4、约5或约6个碱基的突出端)。在某些连接反应(例如，室温下30分钟的孵育)中，对于多重方式的连接，T7DNA连接酶可以比其它连接酶更高效。也可以使用热稳定的连接酶，如Tth DNA连接酶、Pfu DNA连接酶、Taq连接酶、任意其它合适的热稳定的连接酶或其任意组合中的一种或多种。

在一些实施方式中，可以在不同核酸片段间设计或选择两对或更多对互补粘性末端使其具有相同或相似的序列来促进含有相对随机排列(和/或数量)的具有相似或相同粘性末端的片段的产物的组装。这可以用于产生具有某些内部序列区域的不同序列排列和/或不同拷贝数量的核酸产物的库。

应注意为了确保连接特异性，突出端可以被选择或设计为对每个连接位点唯一，即被设计为在组装产物中相邻的两个片段的每对互补突出端应该是唯一的并且与任何其它对互补突出端的差异至少1个核苷酸。

也可以使用其它用于产生粘性末端的方法。例如，可以使用基于聚合酶的方法(例如，T4DNA聚合酶)来合成需要的粘性末端。无论用何种方法产生特异性突出端(例如，用于设计在组装核酸产物中相邻的核酸的互补突出端)，可以设计和/或产生不同长度的突出端。在一些实施方式中，可以使用长单链突出端(3'或5')来促进特异性和/或高效组装。例如，3'或5'单链突出端可以长于8个碱基长，例如长8-14、14-20、20-25、25-50、50-100、100-500个或更多碱基。

在一些实施方式中，突出端的长度可以是1～4个碱基、5-12个碱基、1-12个碱基、5-13个碱基、6-12个碱基。在一些实施方式中，突出端的长度可以是至多12、至多13、至多14、至多15、至多16、至多17、至多18、至多19、至多20个碱基。

在一些实施方式中，突出端可以由IIS型限制酶产生。例如，突出端长度可以是1～4个碱基，或更长。有特异性结合和/或切割位点的多种限制性内切核酸酶市售可得，例如来自NEB公司(马萨诸塞州贝弗利)。在各种实施方式中，可采用产生3’突出端、5’突出端的限制性核酸内切酶。在一些实施方式中，特异性限制性内切核酸酶形成的粘性末端可以用于促进以所需排列组装子组件。所述术语“IIs型限制性内切核酸酶”指有非回文识别序列和在所述识别位点外(如识别位点远端0–约20核苷酸)出现的剪切位点的限制性内切核酸酶。IIs型限制性内切核酸酶可以在双链核酸分子上生成切口，或者生成产生钝末端或粘性末端的双链断裂(如5’或3’突出端)。IIs型限制性内切核酸酶的示例包括例如生成3’突出端的酶，例如但不限于Bsr I、Bsm I、BstF5I、BsrD I、Bts I、Mnl I、BciV I、Hph I、Mbo II、Eci I、Acu I、Bpm I、Mme I、BsaX I、Bcg I、Bae I、Bfi I、TspDT I、TspGW I、Taq II、Eco57I、Eco57M I、Gsu I、Ppi I、和Psr I；生成5’突出端的酶，如BsmA I、Ple I、Fau I、SapI、BspM I、SfaN I、Hga I、Bvb I、Fok I、BceA I、BsmF I、Ksp632I、Eco31I、Esp3I、Aar I；和生成钝末端的酶，如Mly I和Btr I。IIs型限制性内切核酸酶市售可得并且为本领域所熟知(马萨诸塞州贝弗利的NEB公司)。

在一些实施方式中，可设计突出端，从而它们具有最小的自互补。例如，可将突出端设计成5～12个碱基长，并且具有最小的形成发卡的趋势。而在其它实施方式中，突出端可经设计以具有自互补。例如，突出端可经设计以具有3～12个碱基的长度，具有形成发夹的趋势。

高保真组装

按照本发明的方面，可以在单个过程中组装多个核酸片段，其中在促进片段的共价组装的条件下将多个片段混合在一起来产生特异性的较长核酸。按照本发明的方面，可以使用连接酶在体外共价组装多个核酸片段。在一些实施方式中，可以组装5个或更多(例如，10个或更多、15个或更多、15-20、20-25、25-30、30-35、35-40、40-45、45-50、50个或更多等)不同的核酸片段。然而，应理解，可以使用合适的组装技术组装任意数量的核酸(例如，2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个等)。组装的每个核酸片段可以是约100个核苷酸-约1000个核苷酸长(例如，约200、约300、约400、约500、约600、约700、约800、约900)。然而，可以使用组装技术(例如，鸟枪组装进入质粒载体)组装更长(例如，约2500个或更多核苷酸长、约5000个或更多核苷酸长、约7500个或更多核苷酸长、约10000个或更多核苷酸长等)或更短的核酸片段。应理解，每个核酸片段的大小独立于加入组装的其它核酸片段的大小。然而，在一些实施方式中，每个核酸片段可以是大约相同的大小或长度(例如，约100个核苷酸长-约400个核苷酸长)。例如，寡核苷酸的长度可以是中值长度在约100个核苷酸长和约400个核苷酸长之间，并且变化范围为约+/-1个核苷酸、+/-4个核苷酸、+/-10个核苷酸。应理解，双链核酸片段的长度可以由碱基对的数量来表示。如本文所用，当称为“x”个核苷酸长的核酸片段用于双链核酸片段的内容中时对应于“x”个碱基对的长度。在一些实施方式中，在一个反应中组装的一个或多个核酸(例如，1-5、5-10、10-15、15-20个等)可以是密码子优化的和/或非天然存在的。在一些实施方式中，在一个反应中组装的所有核酸都是密码子优化的和/或非天然存在的。

在本发明的一些方面中，组装的核酸片段被设计为具有重叠互补序列。在一些实施方式中，核酸片段是具有3'和/或5'单链突出端的双链核酸片段。这些突出端可以是能与不同核酸片段上的互补粘性末端退火结合的粘性末端。按照本发明的方面，在两个核酸片段上的互补序列(和特定互补粘性末端)的存在促进了它们的共价组装。在一些实施方式中，组装了具有不同重叠互补单链粘性末端的多个核酸片段并且通过在每个片段上的粘性末端的特性确定它们在组装的核酸产物中的顺序。例如，可以设计核酸片段使得第一核酸具有与第二核酸的第一个粘性末端互补的第一粘性末端以及与第三核酸的第一个粘性末端互补的第二粘性末端。第二核酸的第二个粘性末端可以与第四核酸的第一个粘性末端互补。第三核酸的第二个粘性末端可以与第五核酸的第一个粘性末端互补。以此类推至最后的核酸。按照本发明的一些方面，可以使用该技术来产生含有以预定线性顺序(例如，第一、第二、第三、第四……最后)组装的核酸片段的线性排列。

在某些实施方式中，相邻核酸片段之间的重叠互补区域设计(或选择)成有足够的差异来促进(例如，热力学上有利)核酸片段的唯一排列(例如，选定或设计的片段排列)的组装。惊人地，在合适的连接条件下，少至一个核苷酸的差异在完美匹配(100％互补粘性末端)和错配(低于100％的互补粘性末端)之间产生足够的区分力。如此，4-碱基突出端理论上能允许高至(4^4+1)＝257个不同片段的高特异性和高保真连接。

在一些实施方式中，混合核酸片段并且用连接酶孵育。应理解，在促进粘性末端的特异性退火的条件下的孵育可以增加组装(例如，正确组装)频率。在一些实施方式中，设计具有相似解链温度(例如，互相差5℃以内)的不同粘性末端，使得在相同的条件下促进所有片段的正确退火。不同温度可以促进正确退火，所述温度取决于所用粘性末端长度。在一些实施方式中，可以使用约4-约30个核苷酸长度的粘性末端(例如，约5、约10、约15、约20、约25或约30个核苷酸长度)。孵育温度可以为约20℃-约50℃(包含，例如室温)。然而，可以使用更高或更低的温度。孵育的长度可以基于混合在一起的不同核酸的数量(和因此不同突出端的数量)、突出端的长度、突出端的复杂度来优化。孵育时间也可以取决于退火温度和混合物中是否存在其它试剂。例如，可以加入核酸结合蛋白和/或重组酶(例如，RecA，例如热稳定的RecA蛋白)。

所得的核酸复合物可以在一对靶序列特异性引物的存在下经过聚合酶链反应，来扩增并且选择正确的连接产物(例如，靶核酸)。或者，所得的核酸复合物可以被连接入合适的载体中并转化到宿主细胞中用于进一步菌落筛选。

支持物

本文使用的术语“支持物”和“基底”可互换使用，并且是指多孔或非孔的溶剂不溶性材料，在其上合成或固定聚合物例如核酸。本文使用的“多孔”是指所述材料包含有基本一致直径(例如纳米范围内)的孔。多孔材料可以包含但不限于，纸张、合成过滤器等。在这种多孔材料中，所述反应可以在孔中进行。所述支持物能有很多形状中的任意一种，例如销、条、板、盘、杆、弯曲、圆柱形结构、颗粒(包含珠、纳米颗粒)等。所述支持物可有可变宽度。

支持物可以是亲水性的或能够呈现出亲水性的。所述支持物可以包含无机粉末如二氧化硅、硫酸镁、和氧化铝；天然聚合材料，特别是纤维素材料和纤维素衍生材料，例如包含纤维的纸，如滤纸、色谱纸等；合成或改性天然产生的聚合物，如硝酸纤维素、乙酸纤维素、聚(氯乙烯)、聚丙烯酰胺、交联葡聚糖、琼脂糖、聚丙烯酸酯、聚乙烯、聚丙烯、聚(4-甲基丁烯)、聚苯乙烯、聚甲基丙烯酸酯、聚(对苯二甲酸乙二酯)、尼龙、聚(丁酸乙烯酯)、聚偏二氟乙烯(PVDF)膜、玻璃、可控孔度玻璃、磁性可控孔度玻璃、陶瓷、金属等；这些材料或单独使用或与其它材料联用。

在一些实施方式中，在阵列形式上合成寡核苷酸。例如，在常见支持物上原位合成单链寡核苷酸，其中在基底上的单独或离散的特征(或点)上合成各寡核苷酸。在优选实施方式中，单链寡核苷酸结合到所述支持物或特征的表面上。本文所用的术语“阵列”是指为进一步反应存储、定向(routing)、扩增和释放寡核苷酸或互补寡核苷酸的离散特征的排列。在优选实施方式中，所述支持物或阵列是可寻址的：所述支持物包含在所述支持物上特定预定位置(即“地址”)上的两个或更多离散的可寻址特征。因此，阵列上的各寡核苷酸分子位于所述支持物上已知和确定的位置。各寡核苷酸序列能从其在所述支持物上的位置来确定。另外，可寻址的支持物或阵列能够直接控制单独分离的体积如液滴。可以选择限定特征的大小来使得在所述特征上形成微体积的液滴，每个液滴保持互相分离。如本文所述，多个特征通常(但不必需)由特征间的间隔分离从而确保两个相邻部位之间的液滴不会融合。特征间通常在其表面上不携带任何寡核苷酸，并且对应惰性空间。在一些实施方式中，特征间和特征通常在其亲水性或疏水性性质上不同。在一些实施方式中，特征间和特征可以包含本文所述的改性剂。

阵列可以被构建、定制或购自供应商(例如，CombiMatrix、Agilent(安捷伦)、Affymetrix(艾菲美特)、Nimblegen)。寡核苷酸被连接、点样、固定、表面结合、支持或合成在表面或阵列的离散特征上。寡核苷酸可以共价连接到表面或在表面上沉积。各种构建方法为本领域熟知，如无掩膜阵列合成器、利用掩膜的光导向法、流动通道方法、点样法等。

在另一个实施方式中，多个寡核苷酸可以合成或固定(连接)在多个支持物，如珠上。一个示例是描述于例如美国专利号5,770,358、5,639,603和5,541,061的基于珠的合成方法。为了在珠上合成分子例如寡核苷酸，大量的珠悬浮于容器中的合适运载体(如水)中。所述珠具有任选的间隔子分子，所述分子有供复合的活性位点，任选地是保护基团。在合成的各步骤中，所述珠分到多个容器中来偶联。新生寡核苷酸链脱保护后，不同单体溶液加入到各容器中，从而在给定容器内的所有珠上，发生相同的核苷酸加成反应。然后，所述珠用过量试剂洗涤，并入单个容器中，混合并重新分到另一组多个容器以准备下一轮合成。应注意到由于在开始利用了大量珠，相似地在容器内随机分布了大量珠，在多轮随机加入碱基后，各自在其表面具有合成的独特寡核苷酸序列。个体珠可标记有对其上的双链寡核苷酸而言独特的序列，以允许应用过程中的鉴定。

在另一个实施方式中，可以在纳米颗粒上连接或合成多个寡核苷酸。纳米颗粒包括但不限于金属(例如，金、银、铜和铂)、半导体(例如，CdSe、CdS和用ZnS涂覆的CdS)和磁性(例如，铁磁体)胶体材料。将寡核苷酸连接到纳米颗粒的方法在本领域中已知。在另一个实施方式中，纳米颗粒连接到基底上。含有或不含固定的寡核苷酸的纳米颗粒可以连接到基底上，如Grabar等，Analyt.Chem.,67,73-743(1995)；Bethell等，J.Electroanal.Chem.,409,137(1996)；Bar等，Langmuir,12,1172(1996)；Colvin等，J.Am.Chem.Soc.,114,5221(1992)中所述。裸纳米颗粒可以首先连接到基底上并且寡核苷酸可以连接到固定的纳米颗粒上。

预合成的寡核苷酸和/或多核苷酸序列可连接至支持物或用下述方法原位合成：本领域已知的光定向法、流体通道和定点法、喷墨法、销型方法(pin-basedmethod)和珠基方法。在一些实施方式中，预合成的寡核苷酸连接到支持物上或使用点样方法合成，其中单体溶液通过从区域到区域移动的分配器(如喷墨)逐滴置入。在一些实施方式中，使用例如机械波驱动的分配器将寡核苷酸点样在支持物上。

应用

本发明各方面可以用于涉及合成核酸的生成和/或使用的多种应用。如本文所述，本发明提供了具有提高的效率的组装合成核酸的方法。所得组装核酸可以体外扩增(如使用PCR、LCR，或任何合适的扩增技术)，体内扩增(如通过克隆到合适的载体中)，分离和/或纯化。组装的核酸(单独或克隆到载体中)可以转化入宿主细胞(如原核、真核、昆虫、哺乳动物或其它宿主细胞)。在一些实施方式中，所述宿主细胞可以用于增殖所述核酸。在某些实施方式中，所述核酸可以整合到所述宿主细胞的基因组中。在一些实施方式中，所述核酸可以取代细胞基因组上的对应核酸区域(如通过同源重组)。因此，核酸可以用于生成重组生物体。在一些实施方式中，靶核酸可以是用于取代全部或部分宿主生物体的基因组的整个基因组或基因组大片段。重组生物体也可以用于多种研究、工业、农业、和/或医学应用。

许多本文所述的技术可以一起使用，在一个或多个点上应用合适的组装技术来产生长核酸分子。例如，可以使用基于连接酶的组装来组装低于100到超过10000个碱基对长度(例如，100聚体-500聚体、500聚体-1000聚体、1000聚体-5000聚体、5000聚体-10000聚体、25000聚体、50000聚体、75000聚体、100000聚体等)的寡核苷酸双链体和核酸片段。在示例性实施方式中，本文所述方法可以在组装生物体(如病毒、细菌、酵母或其它原核或真核生物)的整个基因组(或其大片段，如约10％、20％、30％、40％、50％、60％、70％、80％、90％或更多)中使用，可选将特异性修饰整合到序列中一个或多个所需位置处。

可以任意合适的形式(例如，在稳定的缓冲液中，冻干等)包装任意的核酸产物(例如，包含经扩增、克隆、纯化、分离等的核酸)用于存储和/或运输(例如，用于运输至分配中心或客户)。相似地，可以在合适的缓冲液中制备任意的宿主细胞(例如，用载体转化的或具有经修饰基因组的细胞)用于储存和/或运输(例如，用于分配至客户)。在一些实施方式中，可以冷冻细胞。然而，也可以使用其它稳定的细胞制品。

宿主细胞可以在培养中生长和扩增。可以使用宿主细胞来表达一个或多个感兴趣的RNA或多肽(例如，治疗用、工业用、农业用和/或医用蛋白)。表达的多肽可以是天然多肽或非天然多肽。可以分离或纯化多肽用于后续使用。

因此，使用本发明的方法产生的核酸分子可以被纳入到载体中。载体可以是克隆载体或表达载体。在一些实施方式中，载体可以是病毒载体。病毒载体可以包含能够感染靶细胞的核酸序列。相似地，在一些实施方式中，可操作地连接至合适启动子系统的原核表达载体可以用于转化靶细胞。在其它实施方式中，可操作连接至合适启动子系统的真核载体可以用于转染靶细胞或组织。

本文所述的构建体的转录和/或翻译可以在体外(例如，使用不含细胞的系统)或体内(例如，在细胞中表达)进行。在一些实施方式中，可以制备细胞裂解液。在某些实施方式中，可以分离或纯化表达的RNA或多肽。本发明的核酸也可以用于向表达的多肽或其片段添加检测和/或纯化标签。基于多肽的融合/标签的例子包含但不限于六组氨酸(His⁶)Myc和HA，和其它有用的多肽，如GFP₅GST、MBP、几丁质等。在一些实施方式中，多肽可以包含一个或多个非天然氨基酸残基。

在一些实施方式中，可以针对由一个或多个合成核酸编码的多肽或其片段制备抗体。在某些实施方式中，合成核酸可以提供为文库用于研究和开发中的筛选(例如，鉴定潜在的治疗性蛋白或多肽，鉴定用于药物开发的潜在蛋白靶标等)。在一些实施方式中，合成核酸可用作治疗物(例如，用于基因治疗，或用于基因调控)。例如，可以向患者提供足量合成核酸以表达治疗量的蛋白。在其它实施方式中，可向患者给予足量合成核酸以调控(例如，下调)基因表达。

应理解，本文所述的不同行动或实施方式可以独立实施并且可以在美国或美国以外的不同地方实施。例如，接受靶核酸的订单、分析靶核酸序列、设计一个或多个起始核酸(例如，寡核苷酸)、合成起始核酸、纯化起始核酸、组装起始核酸、分离组装的核酸、确认组装的核酸的序列、处理组装的核酸(例如，扩增、克隆、插入宿主基因组等)中的每个行动和任意其它行动或这些行动中的任意部分可以在美国或美国以外的一个位置或不同地点单独实施。在一些实施方式中，组装过程可以包括在一个地点(在美国或美国以外)实施的多个行动和在一个或多个远程地点(在美国以内或美国以外)实施的多个行动的组合。

自动化应用

本文提供的方法和设备方面可以包含自动操作本文所述的一个或多个行动(act)。在一些实施方式中，扩增和/或组装反应中的一个或多个步骤可以使用一个或多个自动化样品处理装置(如一个或多个自动化液体或流体处理设备)来自动操作。自动化设备和方法可以用于递送反应试剂，包含下列中的一种或多种：起始核酸、缓冲液、酶(如一种或多种连接酶和/或聚合酶)、核苷酸、盐、和任何其它试剂如稳定剂。自动化设备和方法也可以用于控制反应条件。例如，自动化热循环仪可以用于控制可以使用的反应温度和任何温度循环。在一些实施方式中，扫描激光器可以被自动化以提供适于孵育多核苷酸的一个或多个反应温度或温度循环。相似地，经组装多核苷酸产物的后续分析可以自动进行。例如，测序可以使用测序设备和自动化测序方案自动进行。其它步骤(如扩增、克隆等)也可以使用一种或多种合适设备和相关方案自动进行。应理解，本文所述的一个或多个设备或设备组件可以组合在某一系统(如机器人系统)或微环境(如微流体反应室)中。组装反应混合物(如液体反应样品)可以从所述系统的一个组件向另一个组件转移，使用自动化设备和过程(如样品和/或样品容器的机械化操作和/或转移，包含自动化移液设备、微系统等)。所述系统和其任何组件可以通过控制系统来控制。

由此，本文所提供设备的方法步骤和/或方面可以使用例如计算机系统(如计算机控制系统)自动进行。能实施本文所提供技术方面的计算机系统可以包含用于任何处理类型(如本文所述序列分析和/或自动化设备控制)的计算机。然而，应该理解某些处理步骤可以通过作为所述组装系统一部分的一种或多种自动化设备来提供。在一些实施方式中，计算机系统可包含两台或更多台计算机。例如，一台计算机可以通过网络连接第二台计算机。一台计算机可以进行序列分析。第二台计算机可以控制系统中的一个或多个自动化合成和组装设备。其它方面中，其它计算机可以包含在网络中以控制一个或多个分析或处理运行。各计算机可以包含内存和处理器。所述计算机可采用任何形式，因为本文提供的技术方面对在任何特定计算机平台上实施没有限制。相似地，所述网络能采用任何形式，包含专用网络或公共网络(如互联网)。显示设备能与一个或多个设备和计算机关联。替代或补充地，根据本文提供的技术，显示设备可以位于远程位点并且连接用于显示分析输出。所述系统不同组件之间的连接可以通过有线、光纤、无线传送，卫星传送，任何其它合适的传送，或者上述两种或多个的任意组合。

本文所提供技术的各个不同方面、实施方式、或行动能以多种方式中的任一种独立自动进行和实施。例如，各个方面、实施方式或运行能使用硬件、软件或其组合独立实施。当以软件实施时，所述软件密码能在任何合适的处理器或处理器集合上执行，无论在单独计算机中提供或分布在多个计算机上。应该理解完成上述功能的任何组件或组件集合能通常看作控制上面所讨论功能的一个或多个控制器。所述一个或多个控制器能以多种方式实施，例如有使用微码或软件程序控制的专用硬件或通用目的硬件(例如，一个或多个处理器)以完成上述功能。

在这方面，应该理解本文所提供技术实施方式的一种实现中包含了编码有计算机程序(例如，多种指令)的至少一种计算机可读介质(例如，计算机内存、软盘、光盘、磁带等)，当在处理器上运行时，完成本文所提供技术的一种或多种上述功能。所述计算机可读介质可运输，从而其上存储的程序能加载到任何计算机系统来源以运行本文所提供技术的一种或多种功能。另外，应该理解执行时，提及完成上面讨论功能的计算机程序不限于在主机上运行应用程序。相反，所述术语计算机程序在本文以一般意义使用，指任何类型的计算机编码(如软件或微码)，能用于编程处理器以进行上面讨论的本文所提供的技术方面。

应该理解与处理存储于计算机可读介质上的数个本文所提供技术的实施方式一致，所述计算机实施的处理在其执行过程中可以接收手工输入(如来自用户)。

因此，本文所述组装设备或组件的整体系统水平控制可以通过系统控制器进行，所述系统控制器可以提供控制信号给：相关的核酸合成器、液体处理设备、热循环仪、测序设备、相关的机械化组件，以及其它合适系统来运行所需的输入/输出或其它控制功能。因此，所述系统控制器与任何设备控制器一起形成控制核酸组装系统运作的控制器。所述控制器可以包含通用目的数据处理系统和其它相关设备，所述通用目的数据处理系统可以是通用目的计算机或通用目的计算机的网络，所述其它相关设备包含通信设备、调制解调器、和/或其它回路或组件，以进行所需的输入/输出或其它功能。所述控制器也能(至少部分)作为单个特定目的集成电路(例如，ASIC)或ASIC阵来实施，各有用于整体、系统水平控制的主要或中央处理器部分，和专用的分离部分以在中央处理器部分控制下进行多种不同特定计算、功能和其它处理。所述控制器也能使用多种分离的专用程序集成或其它电子回路或设备实施，例如硬连线电子或逻辑回路如分立元件电路或可编程逻辑设备。所述控制器也能包含任何其它组件或设备，如用户输入/输出设备(监控器、显示器、打印机、键盘、用户点击设备、触摸屏、或其它用户界面等)、数据存储设备、驱动马达、连接、阀控制器、机械化设备、真空和其它泵、压力传感器、检测器、电源供应、脉冲源、通信设备或其它电子电路或组件等。所述控制器也可以控制系统其它部分的运作，如自动化客户订单处理、质量控制、包装、运输、开票等，以进行本领域已知而本文没有详述的其它合适功能。

本发明的各方面可以单独使用、联用或以前述实施方式未具体讨论的各种排列来使用，并且因此其应用并不限制于前面描述或附图说明所示组件的细节和排列。例如，一个实施方式的所述方面可与其它实施方式所述方面以任何方式组合。

权利要求中修饰所提要素使用的顺序术语“第一”、“第二”、“第三”等本身并不暗指所提要素其一相对另一个的任何优先、居先或级别高低，或实行方法多个行动的时间顺序，而是仅仅用作标记把有某一名称的所提要素与有相同名称的另一要素(但是就顺序术语使用而言)区分开以区别所提的多个要素。

而且，本文所用的词语和术语是为了描述目的，而不是限制性的。本文使用“包含”、“包括”、或“具有”、“含有”、“涉及”及其变化意味着涵盖其后列出的项目及其等价物，以及额外的项目。

等同形式

本发明提供合成核酸文库的新方法。尽管讨论了本发明的具体实施方式，但以上说明书仅为说明性而非限制性的。本领域的技术人员在阅读本说明书后将清楚了解本发明的许多变化。本发明的全部范围应该通过参考所附权利要求书连同其等同物的全部范围，以及说明书连同此类变化来确定。

通过引用纳入

参考国际专利申请公开号PCT/US12/052036和美国临时申请序列号61/792,245(2013年3月15日提交)，题为“用于多重核酸合成的组合物和方法”，其各自通过引用其全文纳入本文。本文提到的所有发表物、专利和序列数据库条目在此通过引用全文纳入，就好像各个单独发表物或专利特定和单独地表明通过引用纳入。

Claims

1.一种用于产生核酸文库的方法，所述核酸文库包含多个独特非随机变体靶核酸，所述方法包括：

(a)提供第一体积的第一组部分双链核酸，其中所述第一组双链核酸中的各核酸具有变体序列和相同的单链突出端，其中所述第一组部分双链核酸中的各核酸具有在所述第一组部分双链核酸中独特的预定序列；

(b)提供第二体积的第二组部分双链核酸，其中所述的各核酸具有非变体序列和与第一组部分双链核酸中的突出端互补的相同的单链突出端；其中，所述第二组部分双链核酸中的每一个具有相同的非变体序列；和

(c)通过将第一组部分双链核酸与第二组部分双链核酸混合来组装核酸文库，所述混合在使互补的突出端杂交的条件下进行，以形成独特非随机变体靶核酸的文库。

2.如权利要求1所述的方法，其中，在组装步骤中，所述互补的突出端杂交以形成无缺口的接合，并被连接。

3.如权利要求1所述的方法，其中，在提供步骤中，第一和第二组部分双链核酸具有3’突出端，或者第一和第二组部分双链核酸具有5’突出端。

4.如权利要求1所述的方法，其中，组装步骤在单一反应体积中进行。

5.如权利要求1所述的方法，其中，提供第一和第二组部分双链核酸的步骤包括：

(i)提供第一体积的第一组钝端双链核酸集，

其中，第一钝端双链核酸集里的第一核酸具有从第一钝端双链核酸集里的第二核酸偏移n个碱基的序列，和

其中，各钝端双链核酸集里的各双链核酸是独特的；

(ii)提供第二体积的第二组钝端双链核酸集，其中第二钝端双链核酸集里的第一核酸具有从第二钝端双链核酸集里的第二核酸偏移n个碱基的序列；

(iii)使第一体积的第一组钝端双链核酸集解链，由此形成第一体积的单链核酸，和，使第二体积的第二组钝端双链核酸集解链，由此形成第二体积的单链核酸；和

(iv)使所述单链寡核苷酸退火，以形成第一体积的第一组部分双链寡核苷酸，和第二体积的第二组部分双链寡核苷酸。

6.如权利要求5所述的方法，其中，n是2、3、4、5、6、7或8个碱基。

7.如权利要求1所述的方法，其中，第二组部分双链核酸中的各核酸具有相同的预定序列。

8.如权利要求1-7中任一项所述的方法，其还包括：第三体积的第三组部分双链核酸，其中，所述第三组双链核酸中的各核酸具有相同的单链突出端，其中，所述第三组部分双链核酸中的各核酸具有预定序列，所述预定序列是独特的。

9.如权利要求8所述的方法，其还包括：通过将第一、第二和第三组部分双链核酸混合来组装变体核酸的文库，所述混合在使互补的突出端杂交的条件下进行，以形成非随机变体靶核酸的文库。

10.如权利要求1所述的方法，其中，所述文库是基因文库。

11.如权利要求1所述的方法，其中，各部分双链核酸的大小是20个碱基对-200个碱基对。

12.如权利要求1所述的方法，其中，所述文库是代谢通路文库。

13.如权利要求1所述的方法，其中，各部分双链核酸的大小是500个碱基对-3000个碱基对。

14.如权利要求1所述的方法，其中，各部分双链核酸是基因或基因的集。

15.如权利要求1所述的方法，其中，各部分双链核酸是操纵子，其包含启动子序列、核糖体结合位点序列，和基因或基因的集，及其任何组合。

16.如权利要求1所述的方法，其中，所述文库是包含不同长度的启动子的操纵子的文库。

17.如权利要求1所述的方法，其中，所述文库是包含不同长度的核糖体结合位点的操纵子的文库。