CN107974448A

CN107974448A - 一种序列复杂基因的合成方法

Info

Publication number: CN107974448A
Application number: CN201610920370.6A
Authority: CN
Inventors: 黄小罗; 翟春华; 张丽华; 柳振宇
Original assignee: Nanjing Jinsirui Science and Technology Biology Corp
Current assignee: Nanjing Jinsirui Science and Technology Biology Corp
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2018-05-01
Anticipated expiration: 2036-10-21
Also published as: CN107974448B

Abstract

本发明公开了一种序列复杂基因的合成方法。本发明方法包括：1)利用本发明提供的基因分段和单链寡核苷酸设计规则，设计一系列包含基因正，负链序列的30bp‑150bp的单链寡核苷酸序列，2)挑选1中获得的单链寡核苷酸片段，根据正，负链互补配对的原则，利用本发明设计的退火程序，每对正，负链单链寡核苷酸片段单独退火成双链寡核苷酸片段，并装载到目标载体上，测序，验证；3)利用“识别序列外切割”的核酸内切酶，基于2中获得的双链寡核苷酸片段，经过1‑3轮的体外连接组装，克隆，验证，完成100bp‑20kb序列复杂基因的合成组装。本发明提供的方法，能够有效的合成传统方法无法合成或者合成起来困难的序列复杂基因。

Description

一种序列复杂基因的合成方法

技术领域

本发明涉及生物工程领域，具体涉及一种序列复杂基因的合成方法。

技术背景

根据DNA序列人工合成基因，为现代分子生物学和合成生物学的发展提供了基础。利用基因合成技术，科研人员能够根据特定的需求，任意编辑或者复制自然存在的基因以及创造出自然界不存在的基因。人工合成的基因在农业，食品工程，医药，新材料以及新能源等领域都有广泛的用途。

目前已报道的基因合成方法，主要包括基于聚合酶链式反应(Polymerase ChainReaction,PCR)的组装方法以及基于连接酶(ligase)的连接组装方法。两种方法都需要先利用化学合成法，比如固相合成法，磷酸二酯法，磷酸三酯法，亚磷酸三酯法，芯片合成法等，合成短的单链寡核苷酸片段，然后将这些短的单链寡核苷酸片段组装成一条完整的基因。其中基于PCR的组装方法中，合成的单链寡核苷酸一部分位于基因的正链，一部分位于基因的负链；位于正链上的单链寡核苷酸以及位于负链上的单链寡核苷酸能够通过一定长度的互补配对重叠区，以搭桥的形式覆盖整条基因。这些化学合成的单链寡核苷酸因而能够互为模板和引物，在经过一轮或着多轮PCR过后，能够被组装成一条完整的基因。其中基于连接酶的连接组装的方法中，合成的单链寡核苷酸一半位于基因的正链，一半位于基因的负链；位于正链上的单链寡核苷酸能够和位于负链上的单链寡核苷酸进行交错互补配对，在设定的退火程序下，在一个反应体系里形成仅在寡核苷酸之间缺乏磷酸二酯键连接的完整DNA双链。这些未被连接的磷酸二酯键缺口，在接下来的连接反应中，能够被连接酶连接成一条完整的DNA双链。基于连接酶的组装方法还能和基于PCR的组装方法进行结合，来进一步的提高合成的基因的产量和长度。通过连接酶法连接获得的DNA，能够通过首尾引物进行大量的PCR扩增以及进一步的通过重叠延伸PCR，将多个基因片段组装成一条更长的基因。通常来说，通过上述方法获得的基因DNA，还需要被克隆到质粒载体上，进行测序验证，以及大量的扩增和复制(PCR法和连接酶法进行基因合成的参考文献包括Stemmer etal.,1995；Kodumal et al.,2004；Reisinger et al.,2006；Xiong et al.,2004；Xiong etal.,2006；Gupta et al.,1968；Hsiung et al.,1979；Eren and Swenson,1989；Grundstrom et al.,1985；Au et al.,1998；Smith et al.,1990；Jayaraman et al.,1991；Strizhov et al.,1996和Smith et al.,2003等)。

上述这些方法通常对一些序列中重复较少，GC/AT分布均匀，总体GC含量在40％-60％的基因具有较好的合成能力。然而对于含有正向或者反向重复序列，局部高GC，局部低GC，全部高GC，全部低GC的序列组成复杂的基因合成能力非常有限。这些特殊的序列组成，往往使得在利用PCR法或者连接酶法进行基因合成的时候，单链寡核苷酸引物之间能够形成复杂的二级结构或者单链寡核苷酸之间由于复杂序列带来的重复，造成错配使得合成失败。

为了合成这些复杂基因，目前已有报道尝试优化传统的方法来合成一些复杂基因。比如，王素莲等2010年发明了利用优化引物的设计方法，将重复序列分割在不同的引物段中，来合成重复序列在10-30bp，重复序列间隔在11-80bp的基因。然而，对于重复序列大于30bp的情况或者其它一些复杂基因(比如富含GC或者富含AT的基因)，该方法合成能力有限(王素莲等，CN 102031250 B，2010)。也有报道，利用新的基因合成方法能够合成一些包含特殊序列的基因。比如2006年，马立新等，报道利用一个7bp任意DNA库和金门组装的方法能够合成一些包含特殊序列的基因(马立新等，专利号CN 104109683 A，2006)。但是该方法未对合成特殊序列的能力给出说明和定义。目前，也未见有相当规模的基因合成公司利用该方法进行基因合成。其原因应该是，保存7bp的质粒库，成本很高。使用的时候从7bp的片段，进行全基因的组装过程非常繁琐。同时，该方法所阐述的对比如含重复序列的合成能力，是相对有限地。比如该方法要求第一个7bp的片段和第二个7bp的片段含有3个碱基的重叠接头。这对实际常见的比如接头区恰好位于连续4个单碱基以上的重复序列，合成就会产生错配。

鉴于目前的方法在序列复杂基因上较低的合成能力，各大基因合成公司在合成这些基因的时候有别于其标准服务(见各大基因合成公司网站)。目前各大公司对序列复杂基因的定义不同，但是基本涵盖在以下的范围内：1平均GC高于60％或者低于40％；2，局部(“局部”指的是基因内部的一段连续DNA序列)GC≥80％或≤20％(长度≥25bp)；3，含有大于等于2个的包含10个碱基的正向或者反向重复序列；4，连续10个碱基的G/C或者连续10个碱基的AT。对于这些序列复杂基因的合成，各大基因合成公司通常会直接拒绝服务或者花费正常基因3-10倍的合成周期来尝试合成其中的部分基因。

发明内容

本发明的目的在于解决目前序列复杂基因合成困难的问题，提供一种有效而且适用面广的序列复杂基因的合成方法。

本发明的技术概述如下(流程图，见图1)：

步骤1：将3kb-20kb之间的DNA人工或者利用软件分成2-15个600bp-3kb的DNA片段，标记为A1，A2…An；其中相邻的片段之间包含几个碱基的重叠区(该重叠区能够在加入步骤2中涉及的“识别序列外切割”的核酸内切酶X1的识别序列接头后，被核酸内切酶X1切割产生互补配对的粘性末端)。目的基因长度小于3kb忽略此步骤；

步骤2在600bp-3kb的基因单元An的两端加上“识别序列外切割”的核酸内切酶X1的识别接头序列，将带有接头序列的DNA片段标记为A1’，A2’…An’；目的基因长度小于3kb忽略此步骤；

步骤3将600bp-3kb的DNA片段An’人工或者利用软件分成2-15个100bp-600bp的DNA片段，标记为An’B1，An’B2…An’Bn；其中相邻的片段之间包含几个碱基的重叠区(该重叠区能够在加入步骤4中涉及的“识别序列外切割”的核酸内切酶X2的识别序列接头后，被核酸内切酶X2切割产生互补配对的粘性末端)。目的基因长度大于等于600bp,小于等于3kb，目的基因等同于该步骤中的An’。目的基因小于600bp，忽略此步骤。

步骤4：在每个An’Bn片段的末端加上“识别序列外切割”的核酸内切酶X2的接头序列，将带有接头序列的DNA片段标记为An’B1’，An’B2’…An’Bn’。目的基因小于600bp，忽略此步骤。

步骤5：将DNA长度在100bp-600bp的DNA片段An’Bn’人工或者利用软件分成2-15个30bp-150bp的寡核苷酸片段，标记为An’Bn’C1，An’Bn’C2…An’Bn’Cn；其中相邻的片段之间包含几个碱基的重叠区(该重叠区能够在加入步骤6中涉及的“识别序列外切割”的核酸内切酶X3的识别序列接头后，被核酸内切酶X3切割产生互补配对的粘性末端)。目的基因长度小于等于600bp的时候，目的基因等同于该步骤中的An’Bn’。

步骤6：给设计的寡核苷酸双链片段An’Bn’Cn的两端加上“识别序列外切割”的核酸内切酶X3的识别序列接头，将带有接头序列的DNA片段标记为An’Bn’C1’，An’Bn’C2’…An’Bn’Cn’。

步骤7：利用化学合成法分别合成An’Bn’Cn’双链寡核苷酸片段的正链和负链；

步骤8：利用本发明设定的退火程序，将An’Bn’Cn’双链寡核苷酸片段的正链和负链退火形成双链，连接到平末端的目标载体上，转化大肠杆菌，克隆筛选并测序，获得带有正确An’Bn’Cn’序列的克隆(流程图，见图2)；

步骤9：从步骤8中所获得的正确克隆中，抽提带有正确An’Bn’Cn’DNA的质粒，加入目标载体，利用“识别序列外切割”的核酸内切酶X3和连接酶，将An’Bn’Cn’之间相互组装成一条DNA片段An’Bn’，并装到目标载体上，转化大肠杆菌，克隆筛选并测序，获得带有正确An’Bn’序列的克隆(流程图，见图3)。

步骤10：从步骤9中所获得的正确克隆中，抽提带有正确An’Bn’DNA的质粒，加入目标载体，利用“识别序列外切割”的核酸内切酶X2和连接酶，将An’Bn’之间相互组装成一条完整的DNA片段An’，并装到目标载体上，转化大肠杆菌，克隆筛选并测序，获得带有正确An’序列的克隆。DNA长度小于600bp忽略此步骤。

步骤11：从步骤10中所获得的正确克隆中，抽提带有正确An’DNA的质粒，加入目标载体，利用“识别序列外切割”的核酸内切酶X1和连接酶，将An’之间相互组装成一条完整的DNA，并装到目标载体上。DNA长度小于3kb忽略此步骤。

上述序列复杂基因合成方法，其中序列复杂基因指的是以下序列情况中的任何一种：a.平均GC高于60％或者低于40％的基因；b.含有局部(“局部”指的是基因内部的一段连续DNA序列)GC≥80％或≤20％(长度≥25bp)的基因c.含有大于等于2个的包含10个碱基的正向或者反向重复序列的基因；d，包含连续10个碱基的G/C或者连续10个碱基的AT的基因。

上述序列复杂基因合成方法，其中步骤7中所述的化学合成法优选为基因芯片合成法，固相合成法，磷酸二酯法，磷酸三酯法和亚磷酸三酯法中的任意一种。

上述序列复杂基因合成方法，其中所涉及的“识别序列外切割”的核酸内切酶指的是一类识别位点和切割位点分开的内切核酸酶；该类酶识别保守的序列，在识别序列的5’端或者3’端以外的固定数目的碱基处进行切割。该类酶比如隶属于Type IIS限制性内切酶分类的BsaI，BbsI，BsmBI；隶属于Type IIG的限制性内切酶BpuSI，Eco571等(“识别序列外切割”的核酸内切酶酶切识别位点和切割位点举例，见图4)。

上述序列复杂基因合成方法，其中步骤8使用的目标载体为任意载体，比如pUC57氨卞抗性载体，pUC57卡拉抗性载体。

上述序列复杂基因合成方法，其中步骤9中使用的目标载体为任意载体，优先为抗性不同于步骤8中的目标载体。步骤9使用的目标载体上带有两个“识别序列外切割”的核酸内切酶X3的酶切识别序列，而且利用“识别序列外切割”的核酸内切酶X3进行酶切后，产生的两个粘性末端能够和An’Bn’C1’以及An’Bn’Cn’经过“识别序列外切割”的核酸内切酶X3酶切产生的位于目标基因末端的粘性末端，互补配对。

上述序列复杂基因合成方法，其中步骤10中使用的目标载体为任意载体，优先为抗性不同于步骤9中的目标载体。步骤10使用的目标载体上带有两个“识别序列外切割”的核酸内切酶X2的酶切识别序列，而且利用“识别序列外切割”的核酸内切酶X2进行酶切后，产生的两个粘性末端能够和An’B1’以及An’Bn’经过“识别序列外切割”的核酸内切酶X2酶切，产生的位于目标基因末端的粘性末端，互补配对。

上述序列复杂基因合成方法，其中步骤11中使用的目标载体为任意载体，优先为抗性不同于步骤10中使用的目标载体。步骤11使用的目标载体上带有两个“识别序列外切割”的核酸内切酶X1的酶切识别序列，而且利用“识别序列外切割”的核酸内切酶X1进行酶切后，产生的两个粘性末端能够和A1’以及An’经过“识别序列外切割”的核酸内切酶X1酶切后，产生的位于目标基因末端的粘性末端，互补配对。

上述序列复杂基因合成方法，其中步骤9，10，11使用的目标载体，为特殊制备合成的载体，保证载体上含有“识别序列外切割”的核酸内切酶的酶切位点识别序列。

上述序列复杂基因合成方法，其中步骤8中,寡核苷酸正链和负链退火的方法优先为：将每对1ul(50uM)的An’Bn’Cn’双链寡核苷酸的正链和1ul(50uM)的An’Bn’Cn’双链寡核苷酸的负链单独加入到1.5ml离心管中，补充水至20ul.通过如下程序退火：95℃变性5min,室温放置30min到1hour。

上述序列复杂基因合成方法，其中步骤8中的平末端载体的制备优先为：从含有目标质粒的大肠杆菌的过夜培养物中，利用碱裂解法或者试剂盒抽提质粒。然后利用EcoRV限制性内切酶将所获得的质粒切割形成平末端载体。酶切体系为：1ug纯化所得的质粒，2.5ulEcoRV限制性内切酶，补水至100ul,37℃酶切2小时。酶切后的产物经过琼脂糖电泳跑胶以后，切胶，利用试剂盒回收成待用的载体。

上述序列复杂基因合成方法，其中步骤8中的载体与退火后的寡核苷酸片段的连接体系优先为：1ul酶切回收的目标载体，7ul退火形成的连接产物，1ul 10倍浓缩的连接酶buffer(500mM Tris-HCl,100mM MgCl₂,10mM ATP,100mM DTT)，1ul连接酶，室温连接30min。

上述序列复杂基因合成方法，其中步骤9，10，11，酶切和连接过程可以在分开的反应体系中进行或者放在一起在同一个反应体系中进行。

上述序列复杂基因合成方法，其中步骤9，10，11，酶切和连接在分开的反应体系的时候，其酶切体系和反应条件优先为：加入测序正确的带有An’Bn’Cn’，An’Bn’或An’DNA的质粒或者目标载体26ul,“识别序列外切割”的核酸内切酶1ul,“识别序列外切割”的核酸内切酶10倍浓缩buffer(500mM KAC,200mM Tris-AC,100mM Mg(AC)₂,1mg/ml BSA)3ul,37℃酶切2hour.

上述序列复杂基因合成方法，其中步骤9，10，11，酶切和连接在分开的反应体系的时候，其连接体系和反应条件优先为：回收经过“识别序列外切割”的核酸内切酶切割得到的An’Bn’Cn’，An’Bn’或An’DNA片段，加入7ul到1.5ml反应管中；回收经过“识别序列外切割”的核酸内切酶切割得到的线性化的目标载体，加入1ul到1.5ml反应管中；加入1ul 10倍浓缩的连接酶buffer到1.5ml反应管中；加入1ul T4连接酶到反应管中；室温连接1hour。

上述序列复杂基因合成方法，其中步骤9，10，11，酶切和连接在同一个反应体系中的时候，其反应体系和程序优先为：加入测序正确的带有An’Bn’Cn’，An’Bn’或An’DNA的质粒1ul,加入目标载体1ul，“识别序列外切割”的核酸内切酶1ul,T4DNA连接酶buffer 2ul,T4DNA连接酶1ul，加入水至20ul。利用如下反应程序：37℃反应2min,16℃反应5min,重复25次，50℃反应5min，80℃反应10min。

有益效果：

本发明提供了一种有效，而且适用面广的序列复杂基因的合成方法，其能够高效的合成任何形式的序列复杂基因，能够方便的应用于工业化流程，进行规模化的序列复杂基因生产。本发明能够有效的解决传统基因合成方法无法合成或者合成困难的具有高重复，高GC或者高AT序列的基因。该方法使用独特的流程以及设计，区别于传统的基因合成方法，避免了序列复杂基因单链寡核苷酸引物在组装中的任何错配或者二级结构的影响。该方法经过4个合成周期，能够有效的合成长至20kb的任意序列复杂基因，是一种非常有效和高效的方法。本发明首先利用了每个寡核苷酸对，单独慢退火，连接，克隆，测序的步骤，保证了筛选得到任何高重复，高GC或者高AT的20-150bp双链DNA序列。这个步骤是本发明有效合成序列复杂基因的核心之一。单独慢退火的过程，有利于实现复杂序列之间相对高效率的形成正确的双链。克隆，测序筛选的过程有效的排除了序列复杂的基因由于高重复或者复杂的二级结构而形成的错误的DNA双链寡核苷酸进一步用于更长片段的DNA组装。本发明另外通过在每一轮合成的目的基因中间片段两端加“识别序列外切割”的核酸内切酶的酶切识别序列接头，使得加上接头的片段被切割后，能够在相邻片段的重叠区产生互补配对的粘性末端；这使得每一轮获得的目的基因中间片段能够以搭桥连接的形式，实现向更长的目的基因中间片段的组装。由于“识别序列外切割”的核酸内切酶依赖的酶切，酶连组装不受目的基因内部的序列结构影响，保证了任意序列的目的基因中间片段向更长一级片段的组装合成，从而进一步保证了本发明中序列复杂基因的合成。本发明同时设计了一套独特的基因分段和单链寡核苷酸设计规则，有效的保证了后续合成中利用“识别序列外切割”的核酸内切酶进行多轮组装的要求以及每一轮合成中最大效率的组装。本发明每一轮的合成长度都经过了大量的实验优化，经过四轮合成周期能够合成20kb序列复杂的基因。这种优化的分步流程，保证了该方法能够直接应用于高通量的工业化序列复杂基因的生产。总之，本发明提供的方法，设计独特，在序列复杂基因的合成上适用面广，有效的补充了目前存在的基因合成技术的短板，将为合成生物学和分子生物学的发展做出非常有价值的贡献。

附图说明：

图1 基因分段及单链寡核苷酸设计流程

图2 An’Bn’Cn’寡核苷酸的正链和负链退火形成双链DNA An’Bn’Cn’

图3 装载在载体上的An’Bn’Cn’片段通过酶切酶连形成An’Bn’片段

图4 “识别序列外切割”的核酸内切酶举例

图5 pUCG1载体图谱(BsaI位于多克隆位点两端)

图6 pUCG2载体图谱(BbsI位于多克隆位点两端)

图7 pUCG3载体图谱(BsmBI位于多克隆位点两端)

具体实施方式：

为了进一步了解本发明所阐述的方法，以下结合附图及实施例对本发明做进一步的阐述。

本实施例的基因合成过程如下：

本实施例合成的目的序列是一条，GC含量在72.3％，长度在3459bp的高GC基因。该基因同时还有100多种10bp-23bp正向，反向以及互补链的重复序列，是一条典型的序列复杂基因。其序列如序列表中SEQ ID NO.1所示。

本实施例的基因合成过程如下：

步骤1：将目的基因人工分割成1208bp,1211bp,1048bp 3个片段，标记为A1，A2和A3。其中A1的3’端和A2的5’端之间；A2的3’端和A3 5’端之间保留4个碱基的重叠区(该重叠区在接下来加上“识别序列外切割”核酸内切酶BsaI的识别序列接头后，能够被BsaI切割，产生互补配对的粘性末端)。A1,A2，A3的序列如序列表中SEQ ID NO.2-4所示。

步骤2 如下所示，在A1，A2，A3片段的两端加上BsaI的识别接头序列(5’端GGTCTCa；3’端为aGAGACC)。同时A1的5’端以及A3的3’端额外加入能够与目标载体连接的粘性末端重叠区序列(位于A1’的5’端与目标载体连接的粘性末端重叠区序列为GAAT,位于A3’3’端与目标载体连接的粘性末端重叠区序列为GCTT)。将带有接头序列的DNA片段标记为A1’，A2’和A3’，其序列如序列表中SEQ ID NO.5-7所示。

步骤3 类似于步骤1的分割方法，将A1’进一步分割成片段A1’B1，A1’B2，A1’B3以及A1’B4,相邻序列之间留下4个碱基的重叠区；A2’进一步分割成片段A2’B1，A2’B2，A2’B3以及A2’B4,相邻序列之间留下4个碱基的重叠区；A3’进一步分割成片段A3’B1，A3’B2，A3’B3以及A3’B4,相邻序列之间留下4个碱基的重叠区(此步序列分割中，序列之间的重叠区在接下来加上“识别序列外切割”核酸内切酶BbsI的识别序列接头后，能够被BbsI切割，产生互补配对的粘性末端)。

步骤4 类似于步骤2的分割方法将A1’B1，A1’B2，A1’B3，A1’B4；A2’B1，A2’B2，A2’B3，A2’B4；A3’B1，A3’B2，A3’B3和A3’B4的两端分别加上BbsI的切割接头序列(5’端为GAAGACaa；3’端为aaGTCTTC)；同时，A1’B1，A2’B1，A3’B1的5’端额外加上和目标载体连接的粘性末端重叠区序列GAAT；A1’B4，A2’B4和A3’B4的3’端额外加上目标载体连接的粘性末端重叠区序列GCTT。加上接头的序列，分别标记为A1’B1’，A1’B2’，A1’B3’，A1’B4’；A2’B1’，A2’B2’，A2’B3’，A2’B4’；A3’B1’，A3’B2’，A3’B3’和A3’B4’，其序列如序列表中SEQ IDNO.8-19所示。

步骤5：将A1’B1’，A1’B2’，A1’B3’，A1’B4’；A2’B1’，A2’B2’，A2’B3’，A2’B4’；A3’B1’，A3’B2’，A3’B3’，A3’B4’用类似于步骤1，3分别分割成5个片段，片段和片段之间保持4个碱基的互补重叠区(此步序列分割中，序列之间的重叠区在接下来加上“识别序列外切割”核酸内切酶，BsmBI的识别序列接头后，能够被BsmBI切割，产生互补配对的粘性末端)。

步骤6：分别在A1’B1’，A1’B2’，A1’B3’，A1’B4’；A2’B1’，A2’B2’，A2’B3’，A2’B4’；A3’B1’，A3’B2’，A3’B3’，A3’B4’各自分解的5个片段两端加上BsmBI的切割接头序列(其中5’端为gaattcCGTCTCa，3’端为aGAGACGaagctt)；同时每个片段分解出来的5个片段的第一个片段的末端5’端额外加上和目标载体连接的粘性末端重叠区序列GAAT,第5个片段的3’端额外加上和目标载体连接的粘性末端重叠区序列GCTT。获得的设计好的序列如下表所示：

步骤7：利用化学合成法分别合成从A1’B1’C1’到A3’B4’C5’如上表所示60个片段双链寡核苷酸片段的正链和负链。

步骤8：寡核苷酸片段的正链和负链退火：将1ul(50uM)的A1’B1’C1’到A3’B4’C5’双链寡核苷酸的正链和负链分别加入到1.5ml离心管中，补充水至20ul.通过如下程序退火：95℃，变性5min,室温放置30min到1hour。

步骤9：从步骤8中退火形成的A1’B1’C1’到A3’B4’C5’的双链寡核苷酸产物中各取7ul,分别加入1ul EcoRV酶切回收的pUC57载体，1ul 10倍浓缩的连接酶buffer，1ul连接酶，室温连接30min。转化连接产物到大肠杆菌，抽提质粒，测序获得带有正确A1’B1’C1’到A3’B4’C5’双链寡核苷酸序列的克隆。

步骤10：从步骤9中选择测序正确的带有pUC57-An’Bn’C1’,pUC57-An’Bn’C2’,pUC57-An’Bn’C3’,pUC57-An’Bn’C4’和pUC57-An’Bn’C5’的质粒各1ul，加入pUCG1目标载体1ul(目标载体上带有BsmBI酶切识别序列，经过BsmBI切割后产生的粘性末端能够和经过BsmBI切割后的An’Bn’Cn’片段产生的粘性末端匹配，图5)，限制性内切酶BsmBI 1ul,T4DNA连接酶buffer 2ul,T4DNA连接酶1ul，加入水至20ul。利用如下反应程序：37℃反应2min,16℃反应5min,重复25次，50℃反应5min，80℃反应10min；将An’Bn’Cn’片段组装成An’Bn’片段,并连接到pUCG1载体上。转化连接产物到大肠杆菌，抽提质粒，测序获得带有正确An’Bn’寡核苷酸序列的克隆。

步骤11：从步骤10中选择测序正确的带有pUCG1-An’B1’,pUCG1-An’B2’,pUCG1-An’B3’和pUCG1-An’B4’的质粒各1ul，加入pUCG2目标载体(目标载体上带有BbsI酶切识别序列，经过BbsI切割后产生的粘性末端能够和经过BbsI切割后的An’Bn’Cn’片段产生的粘性末端匹配，图6)，限制性内切酶BsmBI 1ul,T4DNA连接酶buffer 2ul,T4 DNA连接酶1ul，加入水至20ul。利用如下反应程序：37℃反应2min,16℃反应5min,重复25次，50℃反应5min，80℃反应10min；将An’Bn’片段组装成An’片段，并连接到pUCG2载体上。转化连接产物到大肠杆菌，抽提质粒，测序获得带有正确An’寡核苷酸序列的克隆。

步骤12：从步骤11中选择测序正确的带有pUCG2-A1’，pUCG2-A2’和pUCG2-A3’的质粒各1ul,加入pUCG3目标载体1ul(目标载体上带有BsaI酶切识别序列，经过BsaI切割后产生的粘性末端能够和经过BsaI切割后的An’片段产生的粘性末端匹配，图7),限制性内切酶BsaI 1ul，T4 DNA连接酶buffer 2ul,T4 DNA连接酶1ul，加入水至20ul。利用如下反应程序：37℃反应2min,16℃反应5min,重复25次，50℃反应5min，80℃反应10min；将An’Bn’片段组装成An’片段，并连接到pUCG3载体上。转化连接产物到大肠杆菌，抽提质粒，测序获得带有正确完整目的序列的克隆。

结果：经过以上步骤的设计和四轮组装，成功的获得了长度3459bp的高GC目的基因。该基因，我们尝试用传统的连接酶法以及PCR法进行合成，经历多次失败后，未得到全长正确基因。这表明我们的方法在序列复杂基因的合成具有优越性。我们同时用该方法合成超过200条高GC(包括GC含量在90％的序列)，高AT(包括AT含量在90％的序列)，高重复的序列复杂的基因，表明我们的方法是一种适用性很广，且适用于工业化的序列复杂基因合成的方法。

Claims

1.一种序列复杂基因的合成方法，其特征在于包含以下步骤：

步骤1：将3kb-20kb之间的目的基因人工或者利用软件分成2-15个600bp-3kb的DNA片段，标记为A1，A2…An；其中相邻的片段之间包含几个碱基的重叠区；该重叠区能够在加入步骤2中涉及的“识别序列外切割”的核酸内切酶X1的识别序列接头后，被核酸内切酶X1切割产生互补配对的粘性末端；目的基因长度小于3kb忽略此步骤；

步骤2：在600bp-3kb的基因单元An的两端加上“识别序列外切割”的核酸内切酶X1的识别接头序列，将带有接头序列的DNA片段标记为A1’，A2’…An’；目的基因长度小于3kb忽略此步骤；

步骤3：将600bp-3kb的DNA片段An’人工或者利用软件分成2-15个100bp-600bp的DNA片段，标记为An’B1，An’B2…An’Bn；其中相邻的片段之间包含几个碱基的重叠区，该重叠区能够在加入步骤4中涉及的“识别序列外切割”的核酸内切酶X2的识别序列接头后，被核酸内切酶X2切割产生互补配对的粘性末端；目的基因长度大于等于600bp,小于等于3kb，目的基因等同于该步骤中的An’，目的基因小于600bp，忽略此步骤；

步骤4：在每个An’Bn片段的末端加上“识别序列外切割”的核酸内切酶X2的接头序列，将带有接头序列的DNA片段标记为An’B1’，An’B2’…An’Bn’；目的基因小于600bp，忽略此步骤；

步骤5：将DNA长度在100bp-600bp的DNA片段An’Bn’人工或者利用软件分成2-15个30bp-150bp的寡核苷酸片段，标记为An’Bn’C1，An’Bn’C2…An’Bn’Cn；其中相邻的片段之间包含几个碱基的重叠区，该重叠区能够在加入步骤6中涉及的“识别序列外切割”的核酸内切酶X3的识别序列接头后，被核酸内切酶X3切割产生互补配对的粘性末端；目的基因长度小于等于600bp的时候，目的基因等同于该步骤中的An’Bn’；

步骤6：给设计的寡核苷酸双链片段An’Bn’Cn的两端加上“识别序列外切割”的核酸内切酶X3的识别接头序列，将带有接头序列的DNA片段标记为An’Bn’C1’，An’Bn’C2’…An’Bn’Cn’；

步骤8：利用本发明设定的退火程序，将An’Bn’Cn’双链寡核苷酸片段的正链和负链退火形成双链，连接到平末端的目标载体上，转化大肠杆菌，克隆筛选并测序，获得带有正确An’Bn’Cn’序列的克隆；

步骤9：从步骤8中所获得的正确克隆中，抽提带有正确An’Bn’Cn’DNA的质粒，加入目标载体，利用“识别序列外切割”的核酸内切酶X3和连接酶，将An’Bn’Cn’之间相互组装成一条DNA片段An’Bn’，并装到目标载体上，转化大肠杆菌，克隆筛选并测序，获得带有正确An’Bn’序列的克隆；

步骤10：从步骤9中所获得的正确克隆中，抽提带有正确An’Bn’DNA的质粒，加入目标载体，利用“识别序列外切割”的核酸内切酶X2和连接酶，将An’Bn’之间相互组装成一条完整的DNA片段An’，并装到目标载体上，转化大肠杆菌，克隆筛选并测序，获得带有正确An’序列的克隆；DNA长度小于600bp忽略此步骤；

步骤11：从步骤10中所获得的正确克隆中，抽提带有正确An’DNA的质粒，加入目标载体，利用“识别序列外切割”的核酸内切酶X1和连接酶，将An’之间相互组装成一条完整的DNA，并装到目标载体上；DNA长度小于3kb忽略此步骤。

2.根据权利要求1所述的序列复杂基因的合成方法，其特征在于所述的“识别序列外切割”的核酸内切酶是一类识别位点和切割位点分开的内切核酸酶；该类酶识别保守的序列，在识别序列的5’端或者3’端以外的固定数目的碱基处进行切割。

3.根据权利要求2所述的序列复杂基因的合成方法，其特征在于所述的“识别序列外切割”的核酸内切酶X1、X2、X3选自Type IIS限制性内切酶或Type IIG的限制性内切酶。

4.根据权利要求3所述的序列复杂基因的合成方法，其特征在于所述的“识别序列外切割”的核酸内切酶X1、X2、X3选自BsaI，BbsI，BsmBI，BpuSI，Eco571中的任意一种。

5.根据权利要求1所述的序列复杂基因的合成方法，其特征在于步骤8使用的目标载体为任意载体，优选pUC57氨卞青霉素抗性载体，pUC57卡拉霉素抗性载体。

6.根据权利要求1所述的序列复杂基因的合成方法，其特征在于步骤9中使用的目标载体为任意载体，该目标载体上带有两个“识别序列外切割”的核酸内切酶X3的酶切识别序列，而且利用“识别序列外切割”的核酸内切酶X3进行酶切后，产生的两个粘性末端能够和An’Bn’C1’以及An’Bn’Cn’经过“识别序列外切割”的核酸内切酶X3酶切产生的位于目标基因末端的粘性末端，互补配对；优先为抗性不同于步骤八中的目标载体。

7.根据权利要求1所述的序列复杂基因的合成方法，其特征在于步骤10中使用的目标载体为任意载体，该目标载体上带有两个“识别序列外切割”的核酸内切酶X2的酶切识别序列，而且利用“识别序列外切割”的核酸内切酶X2进行酶切后，产生的两个粘性末端能够和An’B1’以及An’Bn’经过“识别序列外切割”的核酸内切酶X2酶切，产生的位于目标基因末端的粘性末端，互补配对；优先为抗性不同于步骤九中的目标载体。

8.根据权利要求1所述的序列复杂基因合成方法，其特征在于步骤11中使用的目标载体为任意载体，该目标载体上带有两个“识别序列外切割”的核酸内切酶X1的酶切识别序列，而且利用“识别序列外切割”的核酸内切酶X1进行酶切后，产生的两个粘性末端能够和A1’以及An’经过“识别序列外切割”的核酸内切酶X1酶切后，产生的位于目标基因末端的粘性末端，互补配对；优先为抗性不同于步骤10中使用的目标载体。

9.根据权利要求1所述的序列复杂基因合成方法，其特征在于步骤8每对An’Bn’Cn’双链寡核苷酸片段的正链和负链进行单独慢退火：首先用高温将寡核苷酸对变性5-15min,再将变性后的寡核苷酸对置于低于30℃的条件下自然冷却或以每分钟减少0.1-2℃降低温度；所述的高温优选95℃。

10.根据权利要求1所述的序列复杂基因合成方法，其特征在于步骤9，10，11，酶切和连接过程在分开的反应体系中进行或者放在一起在同一个反应体系中进行。