CN114774404A - 一种dna串联重复序列的合成方法 - Google Patents

一种dna串联重复序列的合成方法 Download PDF

Info

Publication number
CN114774404A
CN114774404A CN202111615173.0A CN202111615173A CN114774404A CN 114774404 A CN114774404 A CN 114774404A CN 202111615173 A CN202111615173 A CN 202111615173A CN 114774404 A CN114774404 A CN 114774404A
Authority
CN
China
Prior art keywords
base
iis
sequence
cleavage
recognition sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111615173.0A
Other languages
English (en)
Inventor
元英进
谢泽雄
赵昊乾
殷振宁
许王月
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111615173.0A priority Critical patent/CN114774404A/zh
Publication of CN114774404A publication Critical patent/CN114774404A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物技术领域,尤其涉及一种DNA串联重复序列的合成方法。本发明通过对目标DNA片段进行分析、拆分后,在拆分单元两侧加入特定序列获得组装单元的序列,利用Golden Gate对组装单元进行组装,实现了DNA串联重复序列的人工合成。同时通过编写python代码RepeatsAssembly,使得这一过程自动化进行。该方法大大提高了合成串联重复序列的效率,为人工合成染色体中特殊区域(如着丝粒区域)提供了可行的方法,为自动化合成DNA序列以及合成整个染色体基因组奠定了基础。

Description

一种DNA串联重复序列的合成方法
技术领域
本发明涉及生物技术领域,尤其涉及一种DNA串联重复序列的合成方法。
背景技术
串联重复序列是指以相对恒定的短序列为重复单位,首尾相接,串联连接形 成的重复序列,又称卫星DNA(satellite DNA)。串联重复序列广泛分布在各种 生物的基因组中,主要成簇集中在重要的非功能区,如端粒、着丝粒等区域。 随着各种生物的基因组测序工作的完成,串联重复序列在基因组中被大量发现。 如在水稻(Oryza sativaspp.Japonica)基因组测序过程中发现,水稻染色体着 丝粒区域包含大量的串联重复序列,在其VIII号染色体上功能性着丝粒区域约 为750kb,串联重复单元CentO以三个重复簇分布在其中。人类基因组测序计 划于2001年公布首个人类基因组草图,于2003年完成,但序列仍有8%的缺失 或错误。在2020年,“端粒到端粒”(T2T)联盟公布了完整的全长人类X染色 体序列,解析了X染色体着丝粒周围区域等的串联重复序列。串联重复序列在 基因组上的解析使串联重复序列的人工合成成为可能。
目前,随着DNA序列合成技术的不断进步,各种DNA组装方法也日渐成 熟。目前的DNA组装方法依赖于不同的酶的作用以实现序列的组装,如使用 DNA聚合酶的重叠延伸PCR(Overlap extension PCR)、使用混合酶体系的 Gibson组装等。目前的DNA体外组装技术根据所使用的酶的不同,可分为以 下几类:
(一)PCA技术:PCA技术通过将全长DNA序列打断为部分序列互补的 寡核苷酸,通过退火、延伸及全长组装和扩增获得全长DNA片段的方法。过程 如下:
①单链寡核苷酸末端序列互补,互为引物和模板;
②在DNA聚合酶(聚合酶活性)的作用下,退火延伸成更长的双链DNA;
③与其他寡核苷酸片段或延长片段进行PCR循环;
④全长DNA片段扩增;见图5。
该方法需要寡核苷酸之间存在唯一、特异的互补序列,由于任意两个串联 重复单元之间均有较大的同源性,因此对串联重复序列的组装存在困难。
(二)重叠延伸PCR技术:采用具有互补末端的引物,使PCR产物形成 了重叠链,从而在随后的扩增反应中通过重叠链的延伸,将不同来源的扩增片 段重叠拼接起来。过程如下:
①引物末端重叠;
②在DNA聚合酶(聚合酶活性)的作用下,获得末端重叠的双链DNA;
③在最上游及最下游引物的作用下进行全长DNA片段扩增;见图6。
与PCA方法类似,该方法需要需要组装的DNA序列在两端具有特异的同 源序列,同样难以组装串联重复序列。
(三)SLIC组装技术:利用T4 DNA聚合酶在不存在dNTP时的3’-5’外切 酶活性,将具有同源臂的DNA序列进行切割,获得互补的黏性末端后退火实现 连接。过程如图7。
该技术仍然受限于序列本身。要求序列之间具有特异的同源臂,无法组装 串联重复序列。
(四)TA克隆/TOPO TA克隆:把PCR片段与一个具有3‘-T突出的载体 DNA连接起来。要求载体具有3‘-T突出碱基,使用Taq DNA聚合酶和DNA 连接酶实现组装。过程如图8。
该方法由于要求3’端必须是T突出的碱基,虽然可以用于串联重复序列的 组装,但每次只能组装一个片段,在组装效率上远低于其他方法。
(五)连接酶链式反应技术(LCR):以DNA连接酶将某一DNA链的5`- 磷酸与另一相邻链3`-羟基连接为基础,应用两对互补的引物,双链DNA经加 热变性后,两对引物分别与模板复性,通过连接酶连接。过程如图9。
该方法要求寡核苷酸的5’端进行磷酸化处理,同时要求寡核苷酸之间互补 的部分的特异性,无法实现串联重复序列的组装。
(六)BioBrick、BglBrick、iBrick、PS-Brick方法:此类方法依赖于同尾 酶和DNA连接酶进行实现。不同的限制性内切酶在切割后获得相同的黏性末 端,再使用DNA连接酶进行连接。图10依次为BioBrick、BglBrick、iBrick示 意。
该方法虽然在组装过程中不需要同源部分,但在组装串联重复序列时存在 以下问题。一是每次只能组装一个DNA序列,虽然可以重复组装,但在组装效 率上极低;二是组装后片段之间存在疤痕,即额外引入的DNA序列,无法实现 串联重复序列的无缝组装。PS-Brick虽然消除了片段之间的疤痕,但仍然受到 组装效率的限制。
(七)Gibson组装:通过DNA聚合酶和DNA连接酶的混合使用,实现 具有同源臂的序列的连接。该方法可以同时连接多个DNA序列,但仍然受限于 同源臂的特异性,无法实现串联重复序列的连接。
(八)Golden Gate组装方法:IIS型限制酶和传统的限制酶不同,其切割 位点和识别位点不同,会在识别序列外切割出4个碱基的黏性末端,因此可以 定制切割序列,而识别位点不会出现在最后的序列中,可以完成准确的无缝克 隆。Golden Gate组装使用IIS型限制性内切酶和DNA连接酶,实现序列的无 缝连接。该方法不依赖于序列本身的序列信息,仅需要4个碱基的特异黏性末 端,在串联重复序列的组装上具有独特的优势,同时具有较高的组装效率。目 前Golden Gate最多组装了52个片段,完成了40kb DNA的组装,但是正确率只有50%左右,在组装的正确率上仍然需要提升。
总之,目前成熟的DNA体外组装方法受限于同源臂的特异性或组装效率, 无法实现大规模的串联重复序列的体外组装。
发明内容
有鉴于此,本发明提供了一种DNA串联重复序列的体外合成方法。该方 法
为了实现上述发明目的,本发明提供以下技术方案:
一种DNA串联重复序列的合成方法,包括:
步骤1:分析目标DNA串联重复序列,确定重复单元的长度;
步骤2:根据所述重复单元的长度确定所述DNA串联重复序列中所有的 拆分位点,所述拆分位点以黏性末端表示;
其中,每个拆分位点,即每两个相邻重复单元的黏性末端,由以下方法 确定:
1)、将两个相邻的重复单元定义为S1和S2,S1和S2的长度为m;
Figure BDA0003436707600000041
Figure BDA0003436707600000042
寻找S1和S2之间的差异位点,找到长度为k的黏性末端:
Figure BDA0003436707600000043
2)、选择长度为2k的黏性末端区间,计算每个kbp黏性末端的汉明距离, 得到汉明距离最大的kbp的序列作为黏性末端,当存在多个相同汉明距离时 随机选择,获取黏性末端:
Figure BDA0003436707600000044
Figure BDA0003436707600000051
3)、所述步骤2)中已经获得的黏性末端在后续黏性末端的查找中不会再 重复获取;
4)、将所述黏性末端分配给所述两个相邻的重复单元S1和S2,获得拆分 单元1和拆分单元2;
5)、按照步骤1)~4)的方法,获得所述DNA串联重复序列中所有的拆 分单元;
步骤3:将步骤2获得的拆分单元进行分组,将每组中的每个拆分单元两 侧加入特殊碱基序列,获得组装单元;
所述加入的特殊碱基序列包括限制性内切酶II的保护碱基及识别序列、 切割间隔碱基、限制性内切酶IIS的反向识别序列及保护碱基中的一种或几种;
步骤4:合成所述组装单元,组装,获得DNA串联重复序列。
在步骤2中3)中,已经获取的黏性末端在后续黏性末端的查找中不会再 重复获取。在本发明中,这个过程可由软件实现,通过在程序中建立一个新 的列表(黏性末端记录表),已经输出的黏性末端会被保存在这个黏性末端记录 表中。后续的生成的粘性末端会与黏性末端记录表中的粘性末端记录进行比 对,如果生成的粘性末端已经在黏性末端记录表中有记录,那么将重新寻找 黏性末端,从而保证已经出获取过的黏性末端不会再次重复获取。
本发明提供的DNA串联重复序列的合成方法中,步骤1~3所涉及的过程 均可通过软件实现,也可人工手动分析、设计。目前,申请人通过软件(软 件命名为Tandem Split)只能设计2步组装,更多步骤的组装需要手动对拆分 单元进行设计,为了保证组装单元之间能够连接,需要在一个拆分单元的一 侧加入与之相连的拆分单元的4个碱基,即拆分位点序列(本文中称为黏性 末端)。
本发明提供的DNA串联重复序列的合成方法中,所述DNA串联重复序 列中的重复单元之间包含间隔序列时,间隔序列包含三种情况:短间隔区序 列、中等间隔区序列或长间隔区序列,按照图2A所示的方法进行拆分:
1、为短间隔序列时,将其与其相邻的拆分单元合并,作为一个拆分单元;
2、为中等间隔区序列时,将其与作为一个独立的拆分单元进行拆分、设 计;
3、(为长间隔区序列时,可将其拆分为一个以上的拆分单元进行后续的 拆分并进行后续的设计。
间隔区长度根据用户设置的合成单元长度判定,长代表其长度在两个合 成单元长度以上时;中代表其长度为1个合成单元长度左右;短代表其长度 在一个合成单元长度以下。
当DNA串联重复序列中包含以上间隔区序列时,拆分单元的黏性末端的 寻找方法如图2-B所示,在图2-B,首先对比两个单元的序列,找到突变位置 后以突变位置为中心得到拆分区间。在区间内部对比每4个碱基之间的汉明 距离,汉明距离较大的作为可能的拆分位点。并与之前已经存在的拆分位点 进行对比,如果之前已经存在,则拆分位点不可行,重新寻找。如果不存在, 则可行。当存在多个可行的拆分位点时,随机选择。
具体地,所述步骤1中分析过程如下:
1)输入目标串联重复序列信息;
2)设置待查找的重复单元的长度区间,允许的重复单元之间的错配率r, 其中,允许的错配率r为0~100%,优选为0~40%;
3)根据设置的长度区间,以每一长度为基准单独进行查找,直至覆盖整 个区间,具体查找方法如下:
假设从第i个重复单元开始按照长度k’查找;将序列分为三个部分:sub1、 sub2和sub3;其中,1<k’<n/2,k’为重复单元长度,sub1、sub2的长度为k’, n为DNA串联重复序列的总长度;
Sub1=SiSi+1Si+2...Si+k’-1
Sub2=Si+kSi+k’+1Si+k’+2...Si+2k’-1
Sub3=Si+2k’Si+2k’+1Si+2k’+2...Sn
Figure BDA0003436707600000061
计算sub1、sub2的汉明距离,如果汉明距离≤k’×r,则满足错配率的要求, 认为sub1、sub2是串联重复序列中的两个相邻的重复单元;
Sub1=Si+A’Si+k’+1Si+k’+2...Si+2k’-1
Sub2=Si+2k’Si+2k’+1Si+2k’+2...Si+3k’-1
Sub3=Si+3k’Si+3k’+1Si+3k’+2...Sn
之后将sub3重新定义为sub1’、sub2’和sub3’,按照sub1、sub2相同的方法 继续计算sub1’、sub2’的汉明距离;直至不满足要求为止,过程结束;
其中,所述汉明距离根据之前用户设置的错配率决定;如果汉明距离> k’×r,则不满足错配率的要求,判定sub1、sub2不是串联重复序列中的两个相 邻的重复单元,以重复单元长度为k’+1进行查找,重复以上的查找过程,直 至覆盖整个串联重复单元长度区间;
举例说明,如果重复单元长度k’为100bp,用户设置的错配率r为10%, 则此时汉明距离大于10bp时不满足要求。通常根据不同的生物序列设定不同 的参数,在没有特殊要求的时候可以设置为重复单元长度的10%;
自动判断串联重复单元的信息,输出重复度最小的重复单元的查找结果。
一些实施方案中,步骤2中4)所述分配具体为:
假设按照5’到3’的顺序,S1和S2相邻,如果将所述黏性末端归入到重复 单元S1中,获得拆分单元1,那么,同时将所述黏性末端添加到重复单元S2的5’末端中,获得拆分单元2;反之,如果将所述黏性末端归入到重复单元 S2中,获得拆分单元2,那么,同时将所述黏性末端添加到重复单元S1的3’ 末端,获得拆分单元1。
一些实施方案中,步骤3中,所述IIS型限制性内切酶的个数为n,记为 IIS-n,n为≥1的整数。
一些实施方案中,所述步骤3具体包括如下步骤:
假设将步骤2获得的拆分单元分为M组,每组包括N个拆分单元,经过 如下设计,获得组装单元:
在第1组的第1个拆分单元的5’末端顺序加入限制性内切酶II-1的保护 碱基及识别序列,在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序 列及保护碱基;
在第1组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1 的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的 反向识别序列及保护碱基;
在第1组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别 序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-2的反向识 别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列 及保护碱基。
在第i-1组的第一个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识 别序列及切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列及切 割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及 保护碱基;
在第i-1组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1 的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的 反向识别序列及保护碱基;
在第i-1组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识 别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-2的反向 识别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序 列及保护碱基;
在第i组的第一个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别 序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列、切割 间隔碱基、II-1的切割碱基及补充碱基、IIS-3的识别序列及切割间隔碱基; 在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1 的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的 反向识别序列及保护碱基;
在第i组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别 序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-3的反向识 别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-2的反向识别序列、 II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列及保护碱 基;
第M组第1个至第N-1个拆分单元的设计与第i组各拆分单元的设计方 法相同;
在第M组的第N个拆分单元的5‘末端顺序加入:保护碱基、IIS-1的识 别序列及切割间隔碱基;在其3’末端顺序加入:II-2的识别序列及保护碱基;
其中,2≤i<m。
以上步骤3所涉及的方法为所有的二次组装中第一个二次组装组装单元 的设计方法。
一些实施方案中,步骤4中所述组装的次数至少为两次,包括:步骤4 中所述组装的次数至少为两次,包括:将每一组中N个组装单元进行一次组 装;一次组装的结果中每i组之间进行一个二次组装;将二次组装的结果再进 行三次组装,以此类推,最终将M个组装单元组装在一起;
每个二次组装中的第一组的第一个拆分单元前,顺序加入保护碱基、IIS-1 的识别序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列、 切割间隔碱基、II-1的切割碱基及补充碱基、IIS-3的识别序列及切割间隔碱 基,其他位置的设计方法与第一个二次组装(第1至第i组)相同。
所述三次组装、四次组装以及x次组装对拆分单元的设计与二次组装一 致,只需在每组二次组装中的第一个拆分单元5‘端添加的序列和拆分位点(即 本发明分析过程中确定的黏性末端)之间再加入IIS-n的识别序列、切割间隔 碱基和切割序列;在第n个拆分单元3’端添加的序列和拆分单元的黏性末端 之间再添加切割序列、切割间隔碱基和IIS-n的反向识别序列,其中n大于3。
其中,由于三次组装及之后的组装在本发明的Tandem Split软件中无法实 现,需要手动添加。而添加的切割序列是根据与之相连的组装片段决定的。
IIS-n的切割序列是指在进行更多次组装时添加的相邻组装单元的序列。 具体为与其相连的上一个二次组装结果的5’末端的四个碱基或为与其相连的 下一个二次组装结果的3’末端的四个碱基。目前,软件只能设计2步组装, 更多步骤的组装需要手动对拆分单元进行设计,为了保证组装单元之间能够 连接,需要手动添加切割序列。
本发明中,组装过程中不使用II酶,加入II酶的相关序列(如II酶的切 割碱基和补充碱基),目的是为了让组装序列与质粒连接。每个第二次组装中 的第一组的第一个拆分单元前加入两个II-1的切割碱基及补充碱基是为了保 证在每次组装后的序列都可以通过II-1的切割碱基与质粒连接。也就是说, 每种IIS酶的序列都表示序列会发生一次组装,在使用IIS-1后,IIS-1相关序 列会从组装序列上消失,最外侧的序列变成II-1序列,与质粒连接,之后再 使用IIS-2,进行二次组装,IIS-2相关序列以及IIS-2上游的II-1序列消失, 组装完毕之后,最外侧仍然是II-1序列,与质粒连接。
所述三次组装、四次组装以及x次组装对拆分单元的设计与二次组装一 致,只需在每组二次组装中的第一个拆分单元5‘端添加的序列和拆分位点(即 本发明分析过程中确定的黏性末端)之间再加入IIS-n的识别序列、切割间隔 碱基和切割序列;在第n个拆分单元3’端添加的序列和拆分序列之间再添加 切割序列、切割间隔碱基和IIS-n的反向识别序列,其中n大于3。参考图1A, 第一次组装:每组中单元的分别组装,获得组1,组2到组n;第二次组装: 组1-组n的组装,获得N1,N2等;第三次组装:N1,N2等的组装,之后依 此类推。
图1中,A为序列构成及分组的示意图,B为组装示意图。首先进行组内 序列的组装。在每组的组装中,将所有片段与经过II-1与II-2,即XhoI与XbaI, 处理过的线性质粒混合,使用IIS-1,即BsaI,进行Golden Gate组装,获得 装载在质粒上的组1、组2到组n。根据我们的设计,在成功组装的组1到组 n两侧包含II-1及II-2的酶切位点。
组1到组n的组间组装过程为第二次组装,使用IIS-2,即BsmBI,进行 Golden Gate反应即可,其他与第一次组装相同,成功组装的序列两侧仍然含 有II-1及II-2的酶切位点。
本发明中,所述保护碱基随机由所使用的II及IIS型限制性内切酶确定; 所述切割碱基为所采用的II型限制性内切酶型限制性内切酶的识别序列;所 述补充碱基由II型限制性内切酶酶决定。这里使用的是IIS型限制性内切酶酶 来获得与II型限制性内切酶酶相同的黏性末端,以使组装序列与质粒连接。 由于IIS型限制性内切酶酶获得的黏性末端在与质粒连接后并不能复原II型限 制性内切酶酶的识别序列,会有一个碱基的缺失。为了复原II型限制性内切 酶酶的识别序列,补充一个碱基。因此具体补充什么碱基由所使用的II型限 制性内切酶酶决定;所述切割间隔碱基随机组成,优选为A。
一些实施方案中,所述步骤2的拆分位点还包括II型限制性内切酶位点 或其互补序列,以及II型限制性内切酶的识别位点或其互补序列。
本发明中,构建了限制性内切酶酶库,存在限制性内切酶酶及相应的保 护碱基,在拆分时,首先将序列中的酶切位点打断(即作为拆分位点),以免 影响组装过程。在此过程,用户输入组装过程中使用的限制性内切酶即可, 要求2个II型限制性内切酶,n个IIS型限制性内切酶,n≥1。
本发明中,所述组装采用的质粒载体为缺失IIS型限制性内切酶的识别序 列及互补序列的载体。本领域技术人员可根据组装单元长度的不同选择不同 的质粒进行组装,对于10kb以下,使用pRS系列质粒均可;10kb以上推荐 使用BAC、YAC质粒或其他质粒。同时为保证组装结果的正确性,将所用质 粒上所有额外的II、IIS型限制性内切酶酶的识别序列及互补序列进行突变消 除。一些具体实施例中,组装单元所用质粒载体为pUC57,一次组装所用载 体为pRS413-BsaI-Free;二次组装所用载体为pZH001,为经过改造的BAC 质粒。
所述组装的反应体系包括:
Figure BDA0003436707600000111
反应程序为:
Figure BDA0003436707600000112
本发明利用串联重复序列之间的突变位点,设计了一种寻找最有切割位 点的串联重复序列分割及设计方式,并设计了可用于长片段串联重复序列的 组装方法,以实现串联重复序列的人工合成。与现有技术相比,本发明提供 的DNA串联重复序列的合成方法,具有以下有益效果:
第一,需要较少的DNA模板量可实现高效的体外连接,并且可以多次连 接,理论上无组装上限;
第二,无需对组装结果进行扩增,反应得到的为环形重组质粒,可直接转 化受体细胞完成克隆,无需酶切、纯化等后续处理步骤;
第三,反应过程不依靠DNA聚合酶扩增反应,不涉及复杂的重组过程, 突变率低,反应效率和保真度高;
第四,反应体系简单,成本低,便于操作,可适用于各种DNA片段的组 装,在串联重复序列的组装上具有独特的优势。
附图说明
图1示DNA串联重复序列的设计和组装流程示意图,图A为串联重复序 列的设计方法,图B为串联重复序列的组装过程示意;
图2示DNA串联重复序列的拆分和查找过程,图A为串联重复序列分割 过程;图B为串联重复序列单元间组装黏性末端的寻找过程;
图3示酶切验证组装单元片段的电泳结果;
图4示酶切验证目标DNA串联重复序列的电泳结果;
图5示PCA技术示意图;
图6示重叠延伸PCR技术示意图;
图7示SLIC组装技术示意图;
图8示TA克隆/TOPO TA克隆示意图;
图9示连接酶链式反应技术(LCR)示意图;
图10示BioBrick、BglBrick、iBrick、PS-Brick方法示意图。
具体实施方式
本发明提供了一种DNA串联重复序列的合成方法。本领域技术人员可以 借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替 换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。 本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不 脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与 组合,来实现和应用本发明技术。
本发明采用的试材皆为普通市售品,皆可于市场购得。
下面结合实施例,进一步阐述本发明:
实施例1
步骤1:分析目标DNA串联重复序列,确定重复单元的长度;
1)输入目标串联重复序列信息;
2)设置待查找的重复单元的长度区间,允许的重复单元之间的错配率, 本实施例中,错配率为0~40%;
3)Tandem Split软件根据设置的长度区间,以每一长度为基准单独进行 查找,直至覆盖整个区间,具体查找方法如下:
假设从第i个重复单元开始按照长度k’查找,将序列分为三个部分:sub1、 sub2和sub3;其中,1<k’<n/2,sub1、sub2的长度为k’,n为DNA串联重复 序列的长度;
Sub1=SiSi+1Si+2...Si+k’-1
Sub2=Si+k’Si+k’+1Si+k’+2...Si+2k’-1
Sub3=Si+2k’Si+2k’+1Si+2k’+2...Sn
Figure BDA0003436707600000131
计算sub1、sub2的汉明距离,如果汉明距离≤k’×r,则满足错配率的要求, 判定为sub1、sub2是DNA串联重复序列中的两个相邻的重复单元;
Sub1=Si+k’Si+k’+1Si+k’+2...Si+2k’-1
Sub2=Si+2k’Si+2k’+1Si+2k’+2...Si+3k’-1
Sub3=Si+3k’Si+3k’+1Si+3k’+2...Sn
之后将sub3重新定义为sub1’、sub2’和sub3’,按照sub1、sub2相同的方法 继续计算sub1’、sub2’的汉明距离(通常根据不同的生物序列设定不同的参数, 本实施例中设置为重复单元长度的40%),直至不满足要求为止,过程结束;
以重复单元长度为k+1进行查找,重复以上的查找过程,直至覆盖整个 串联重复单元长度区间;
自动判断串联重复单元的信息,输出重复度最小的重复单元的查找结果。
经过以上分析,重复单元的长度可确定。
步骤2:根据所述重复单元的长度确定所述DNA串联重复序列中所有的 拆分位点,所述拆分位点以黏性末端表示;
其中,每个拆分位点,即每两个相邻重复单元的黏性末端,由以下方法 确定:
1)、将两个相邻的重复单元定义为S1和S2,S1和S2的长度为m;
Figure BDA0003436707600000132
Figure BDA0003436707600000133
寻找S1和S2之间的差异位点,找到长度为k的黏性末端:
Figure BDA0003436707600000134
2)、选择长度为2k的黏性末端区间,计算每个kbp黏性末端的汉明距离, 得到汉明距离最大的kbp的序列作为黏性末端,当存在多个相同汉明距离时 随机选择:
Figure BDA0003436707600000141
3)、已经获取的黏性末端被记录,在后续黏性末端的结果中不会重复获 取;该步骤这个过程可由软件实现,通过在程序中建立一个新的列表(黏性末 端记录表),已经输出的黏性末端会被保存在这个黏性末端记录表中。后续的 生成的粘性末端会与黏性末端记录表中的粘性末端记录进行比对,如果生成 的粘性末端已经在黏性末端记录表中有记录,那么将重新寻找黏性末端,从 而保证已经出获取过的黏性末端不会再次重复获取。
4)、将所述黏性末端分配给所述两个相邻的重复单元S1和S2,获得拆分 单元1和拆分单元2;
5)、按照步骤1)~4)的方法,获得所述DNA串联重复序列中所有的拆 分单元;
步骤3:假设将步骤2获得的拆分单元分为M组,每组包括N个拆分单 元,经过如下设计,获得组装单元:
在第1组的第1个拆分单元的5’末端顺序加入限制性内切酶II-1的保护 碱基及识别序列,在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序 列及保护碱基;
在第1组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1 的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的 反向识别序列及保护碱基;
在第1组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别 序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-2的反向识 别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列 及保护碱基。
在第i-1组的第一个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识 别序列及切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列及切 割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及 保护碱基;
在第i-1组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1 的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的 反向识别序列及保护碱基;
在第i-1组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识 别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-2的反向 识别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序 列及保护碱基;
在第i组的第一个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别 序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列、切割 间隔碱基、II-1的切割碱基及补充碱基、IIS-3的识别序列及切割间隔碱基; 在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1 的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的 反向识别序列及保护碱基;
在第i组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别 序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-3的反向识 别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-2的反向识别序列、 II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列及保护碱 基;
第M组第1个至第N-1个拆分单元的设计与第i组各拆分单元的设计方 法相同;
在第M组的第N个拆分单元的5‘末端顺序加入:保护碱基、IIS-1的识 别序列及切割间隔碱基;在其3’末端顺序加入:II-2的识别序列及保护碱基;
其中,2≤i<m。
步骤4:合成所述组装单元,组装,获得DNA串联重复序列。
针对每个组装单元,进行如下操作:
1)合成组装单元,装载在pUC57质粒上。
2)合成得到的质粒取1μL转化50μL大肠杆菌感受态,涂布在100μg/mL 的LB培养基上,37℃过夜培养。
3)挑选单菌落,在100μg/mL的LB培养基划线培养。
4)将划线培养的菌落接种至5mL 100μg/mL的LB液体培养基中,37℃ 过夜培养。
5)提质粒,使用II-1和II-2进行酶切验证,结果见图3,其中,目标条 带长度约为350bp,为1个组装单元的长度。
6)胶回收目的条带,使用Qubit测量DNA浓度。
注:红色框线内的为目标DNA电泳条带。
在每一次组装过程中,进行如下操作:
1)将质粒载体使用II-1和II-2进行线性化,回收得到的线性质粒,测量 浓度。
2)配置以下反应体系:
表1
Figure BDA0003436707600000162
3)在如下条件下反应:
表2
Figure BDA0003436707600000161
4)将10μL反应后体系转化50μL大肠杆菌,涂布在相应抗性的LB培 养基上,37℃过夜培养。
5)挑选单菌落,在相应抗性的LB培养基划线培养。
6)将划线培养的菌落接种至5mL相应抗性的LB液体培养基中,37℃ 过夜培养。
7)提质粒,使用II-1和II-2进行酶切验证,正确条带长度为组装结果的 长度。
实施例2
利用本发明步骤步骤1可完成重复序列的分析及查找
查找序列:
GATGTTATATACCGGAATCAAAAAGTTCAAAAAGCACCAAAACATG ATTTTTCGACATATTGGAGTGTATTGGGTGCGTTCGTGGCAAAAACTCAC TTCGCGACTCGCGCGGTGAACTTTTGTCAATTAATGCCGATATTGCCACA CGTGGGTGCGATGTAATATACCGGAATCAAAAAGTTCAAAAAGCACCAA AACATGATTTTTGGACGTATTAGAGTGTATTGGGTGCGTTCGTGGCAAAA ACTCACTTCGCGACTCGCGCGGTGAACTTTTGTCAATTAATGCCGATATT GCCACACGTGGGAGCGACGTAATATACTAGAATCAAAAATTTCAAAAAG CACCAAAACATGATTTTTAGACATATTGGAGTGTATTGGGTGTGTTCGTC GCAAAAACTTACTTCGCGACTCGCGCGGTGAACTTTTGTCAATTAATGC CGATATTGCCACTCGTGGGTGCGTTGTTTTTAACCGGAACGAAAAAGTT CAAAAAGCACAAAAACATGATTTTTGGACATATTGGAGTGTATTGGGTG CGTTCGTGGCAAAAACTTACTTCGCGACTCGCGCGGTGAACTTTTCTCAATTAATGCCGATATTGCCACTCGTGGGTGCGTTGTTTTTAACCGGAACGA AAAAGTTCAAAAAGCACCAAAACATGATTTTTGGACATATTGGAGTGTA TTGGGTGCGTTCGTGGTAAAAACTCACTTCGCGACACGCGCGGCGAACT TTTGTCAGTTAATGCCGATATTGCCACTCGCTGGTGCATTGCTTTTAACCG GAACAAAAAAGTTCAAAAAGCACCAAAACATAATTTTTGGACATATTGG AGTGTATTGGGTGCGTTCGTGGCAAAAACTCACTTCGCGACTCGCGCGG TGAACTTTTCTCAATTAATGCCGATATTGCCACTCGTGGGTGCGTTGTTTT TAACCGGAACAAAAAAGTTCAAAAAGCACCACAACATGATTTTTGGAC ATATTTGAGTGTATTGGGTGCGTTCGTGGCAACAACTCACTTCGCGACTC GCGCGGTGAACTTTTGTCAATCAATGCCGATATTGCCACTCGTGGGTGCG TTGGTTTTAACCGGAACGAAAAAGTTCAAAAAGCAACGAAACATGATTT TTGGACATATTGGAGTGTATTGGGTGCGTTCGTGGCAAAAACTCACTTCG TGACTCGCGCGGTGAAATTTTCTCAATTAAAGCCGATATTGCCACACGTG GGTGCGATGTTGTATACCGGAATCAAAAATTTCAAAAAGCACCAAAACA TGATTTTTGGACATATTGAAGTGTATTGGGTGCGTTCGTGGCAAAAACTC ACTTCGCGACTCGCGCAGTGAACTTTTTGCCAATTAAGGCCCAAATTTG CCCCCCCGGGGGGGGGTTGTTTTTACCCCGGAACCAAAAAGTTCCAAA AACCCCCCAAACCTGGTTTTTGGGAAAAATTGGGAGGGATTTGGGGGG GGTTTGGGGGCAAAAAACCCCTTTTGGGGACTCGGGGGGGGAAAATTT TTTCCAATTAATGCCGATATTGCCACTCGTGGGTGCGATGTTTTTAACCG GAACGAAAAAGATCAAAAAGCACCAAAACATGATTTTTGGACATATTGG TGTGTATTGGGTGCGTTCGTGGCAAAAACTCACTTCGCAACTCGCGCGG TGAGCTTTTGTCAATTAATGGCGATATTGCGACTCGTGGGTGCGTTGTTT TTAACCGGAACGAAAAAGTTCAAAAAGCACCAAAACATGATTTTTGGA CATATTGGAGTGTATTGGGTGCGTTCGTGGCAAAAACTCACATCGCGACT CGCGCGGTGAACCTTTCTCACTTAATGCCGACATTGCCACACGTTGGTG CGATGTTGTATACCGTAATCAAAAAGTTCAAAAAGCACCAAAACATGAT TTTTGGACATATTGGCGTGTACTGGGTGCGTTCGTGGCAAAAACTCAATT CGCGACTCGCGCGGCGAACTTTTGTCAATTAATGCCGATATTGCCACTCG TGGGTGCGATGTTTTTAGCCGGAATCAAAAAGTTCAAAAAGCACCAAA ACATGATTTTTGGACATATTGGAGTGTACTGGGTGCGTTCATGGCAAAAA CTCACTTCGCGACTCGTGCGGTGAACTTTTGTCACTTAATGCCGATATTG GCACACGTTGGTGCGTTGTTGTATACCGGAATCAAAAAGTTCAAAAAGC ACCAAAACATGATTTTTGGACATATTGGAGTGTATTGGGTGCGTTCGTGG TATAAACTCACTTCGCGACTCGCGCGGCGAGCTTTTGTCAATTAATGCCG ATATTGGCACACGTGGGTGCGTTGTTTTTAACCGGAACCAAAAAGTTCA AAAAGCACCAAAACATGATTTTTGGACATATTGGAGTGTATTGGGTATGT TCGTGGCAAAAACTCACGTCGCGACTCGCGCGGTGAACCTTTTTCACTT AATGGCGATATTGCCACACGTTTGTGCGATGTTGTATACCGTAATCAAAA AGTTCAAAAAGCACCAAAACATGATTTTTTGACATATTGGAGTGTATTGG GTGCGTTCGTGGCAAAAACTCATTTCGCGACTCGCGCGGCGATCTTTTG TCAATTAATGCCGATATTGCCACTCGTGGGTGCGTTGTTTTTAACTGGAA TGAAAAAGTTCAAAAAGCACCAAAACATGTTTTTTGGACATATTGGTGT GTACTGGGTACGTTCGTGGCAAAAACTCACTTTGCGACTCGCGCGGCGA ACTTTTGTCAATTAATGCCGATATTGCCACACGTGGGTGCGATGTAATATA CCGGAATCAAAATGTTCAAAAAGCACCAAAACATGATTTTTGGACATAT TGGAGTGTATTGGGTGCGTTCGCGGCAAAAACTCACTTCGCGACTCGCG CGGCGAGCTTTTGTCAATTAATGCCGATATTGCCACTCGTGGGTGCGATG TTTTTAGCCGGAATCAAAAAGTTCAAAAAGCATCAAAACATGATTTTTG GACATATTCGAGTGTATTGGGTGCGTTCGTGGCAAAAACTCACTTCGTG ACTCGCGCGGCGACCTTTTGTCAATTAATGCCGATATTGCCACACGTGGG TGCGATGTTATATACCGGAATCAAAAAGTTCGAAAAGCACCAAAACATG ATTTTTGGACATATTGGAGTGTATTGGGTGCGTTCGAGTCAAAAACTCAC TTCGCGACTCGTGCGGTGAACTTTTGTCACTTAATGCCGATATTGGCACA CGTTGGTGCGTTGTTGTATACCGGAATCAAAAAGTTCAAAAAGCACCAA AACATGATTTTTGGACATATTGGAGTGTATTGGGTGCGTTCGTGGCAAAA ACTCACTTCGCGACTCGCGCGGCGAGCTTTTGTCAATTAATGCCGATACT GCCACACGTGGGTGCGTTGTTTTTAACCGGAACCAAAAAGTTCAAAAA GCACTAAAACATGATTTTTGGACATATTGGAGTGTATTGGGTGCGTTCGT GGCAAAAACTCACGTCGCGACTCGCGCGGTCAACCTTTCTCACTTAATG CCGACATTGCCACACGTTGGTGCGATGTTGTATACCGTAATCAAAAAGTT CAAAAAGCACCAAAACATGATTTTTTGACATATTGGAGTGTATTGGGTGC GTTCGTGGGTGCGTTCGTGGCAAAAACTCACTTTGCGACTCGCGCGGCG AACTTTTGTCAATTAATGCCGATATTGCCACTCGTGGGTGCGATGTTTTTA ACCGGAACGAAAAAGATCAAAAAGCACCAAAACATGATTTTTGGACATA TTGGTGTGTATTGGGTGCGTTCGTGGCAAAAACTCACTTCGCAACTCGC GCGGTGAGCTTTTGTCAATTAATGGCGATATTGCGACTCGTGGGTGCGTT GTTTTTAACCGGAACGAAAAAGTTCAAAAAGCACCAAAACATGATTTTT GGACATATTGGAGTGTATTGGGTGCGTTCGTGGCAAAAACTCACATCGC GACTCGCGCGGTGAACCTTTCTCACTTAATGCCGACATTGCCACACGTT GGTGCGATGTTGTATACCGTAATCAAAAAGTTCAAAAAGCACCAAAACA TGATTTTTGGACATATTGGCGTGTACTGGGTGCGTTCGTGGCAAAAACTC AATTCGCGACTCGCGCGGCGAACTTTTGTCAATTAATGCCGATATTGCCA CTCGTGGGTGCGATGTTTTTAGCCGGAATCAAAAAGTTCAAAAAGCACC AAAACATGATTTTTGGACATATTGGAGTGTACTGGGTGCGTTCATGGCAA AAACTCACTTCGCGACTCGTGCGGTGAACTTTTGTCACTTAATGCCGATA TTGGCACATGTTGGTGCGTTGTTGTATACCGGAATCAAAAAGTTCAAAA AGCACCAAAACATGTTTTTTGGACATATTGGTGTGTATTGGGTGCGTTCG TGGCAAAAACTCACTTCGCGACTCGCGCGGCGAGCTTTTGTCAATTAAT GCCGATATTGCCACACGTGGGGTGCGATGTTATATACCGGAATCAAAAAG TTCAAAAAGCACCAAAACATGATTTTTGGACATATTGGAGTGTATTGGGT GCGTTCGAGGCAAAAACCTCACTTCGTGGACTCGCGCGGGGAAATTTTT CTCAATTAAAGCCGATATTGCCACACGTGGGTGCGATGTTTTATACCGGA ATCAAAAATTTCAAAAAGCACCAAAACATGATTTTTGGACATATTGAAG TGTATTGGGTGCGTTCGTGGCAAAAACTCACTTCGCGACTCGCGCAGTG AACTTTTGTCAATCAATGCCGATATTGCCACTCGTGGGAGCGTTGTTTAT AACCGGAACGAAAAAGTTCAAAAAGCACCAGAACATGATTTTTGGATAT ATTGGAGTGTATTGGGTGCGTTCGTGGTAAAAACTCACTTCGCGACTCG CGCGGCGAACTTTTGTCAGTTAATGCCGATACTGCCACTAGCTGGTGCAT TGCTTTTAACCGGAACAAAAAAGTTCAAAAAGCACCACAACATGATTTT TGG。
表3重复单元查找结果:
Figure BDA0003436707600000191
Figure BDA0003436707600000201
Figure BDA0003436707600000211
Figure BDA0003436707600000221
表4串联重复单元突变位点
Figure BDA0003436707600000222
Figure BDA0003436707600000231
Figure BDA0003436707600000241
Figure BDA0003436707600000251
实施例3采用本发明方法对目标序列分析、拆分
目标DNA序列:实施例2中的分析序列。
按照本发明实施例1的方法拆分获得的结果如下:
表5
Figure BDA0003436707600000252
Figure BDA0003436707600000261
Figure BDA0003436707600000271
按照本发明实施例1的方法设计获得的组装单元结果如下:
表6
Figure BDA0003436707600000272
Figure BDA0003436707600000281
Figure BDA0003436707600000291
Figure BDA0003436707600000301
Figure BDA0003436707600000311
实施例4
合成实施例3拆分获得的目标DNA的拆分片段以及组装单元,分别按照 实施例1的方法进行组装,获得重组质粒,将获得的重组质粒进行酶切检测, 并进行测序,结果见图4。结果中有两个条带,下侧条带为正确条带,长度在 2.5kb左右。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种DNA串联重复序列的合成方法,其特征在于,包括:
步骤1:分析目标DNA串联重复序列,确定重复单元的长度;
步骤2:根据所述重复单元的长度确定所述DNA串联重复序列中所有的拆分位点,所述拆分位点以黏性末端表示;
其中,每个拆分位点,即每两个相邻重复单元的黏性末端,由以下方法查找获得:
1)、将两个相邻的重复单元定义为S1和S2,S1和S2的长度为m;
Figure FDA0003436707590000011
Figure FDA0003436707590000012
寻找S1和S2之间的差异位点,找到长度为k的黏性末端:
Figure FDA0003436707590000013
2)、选择长度为2k的黏性末端区间,计算每个kbp黏性末端的汉明距离,得到汉明距离最大的kbp的序列作为黏性末端,当存在多个相同汉明距离时随机选择,获取黏性末端:
Figure FDA0003436707590000014
3)、所述步骤2)中已经获得的黏性末端在后续黏性末端的查找中不会再重复获取;
4)、将所述黏性末端分配给所述两个相邻的重复单元S1和S2,获得拆分单元1和拆分单元2;
5)、按照步骤1)~4)的方法,获得所述DNA串联重复序列中所有的拆分单元;
步骤3:将步骤2获得的拆分单元进行分组,将每组中的每个拆分单元两侧加入特殊碱基序列,获得组装单元;
所述加入的特殊碱基序列包括限制性内切酶II的保护碱基及识别序列、切割间隔碱基、限制性内切酶IIS的反向识别序列及保护碱基中的一种或几种;
步骤4:合成所述组装单元,组装,获得DNA串联重复序列。
2.根据权利要求1所述的合成方法,其特征在于,步骤1中所述分析具体包括:
1)输入目标串联重复序列信息;
2)设置待查找的重复单元的长度区间,允许的重复单元之间的错配率r,其中,允许的错配率r为0~100%;
3)根据设置的长度区间,以每一长度为基准单独进行查找,直至覆盖整个区间,具体查找方法如下:
假设从第i个重复单元开始按照长度k’查找;其中,k’为重复单元长度,n为串联重复序列的总长度;将序列分为三个部分:sub1、sub2和sub3;其中,1<k’<n/2,sub1、sub2的长度为k’,n为DNA串联重复序列的总长度;
Sub1=SiSi+1Si+2…Si+k’-1
Sub2=Si+k’Si+k’+1Si+k’+2…Si+2k’-1
Sub3=Si+2kSi+2k’+1Si+2k’+2…Sn
Figure FDA0003436707590000021
计算sub1、sub2的汉明距离,如果汉明距离≤k’×r,则满足错配率的要求,判定为sub1、sub2是DNA串联重复序列中的两个相邻的重复单元;
Sub1=Si+k’Si+k’+1Si+k’+2…Si+2k’+1
Sub2=Si+2kSi+2k’+1Si+2k’+2…Si+3k’-1
Sub3=Si+3kSi+3k’+1Si+3k’+2…Sn
之后将sub3重新定义为sub1’、sub2’和sub3’,按照sub1、sub2相同的方法继续计算sub1’、sub2’的汉明距离,直至不满足要求为止,查找过程结束;
如果汉明距离>k’×r,则不满足错配率的要求,以重复单元长度为k’+1进行查找,重复以上的查找过程,直至覆盖整个串联重复单元长度区间;
自动判断串联重复单元的信息,输出重复度最小的重复单元的查找结果。
3.根据权利要求1所述的合成方法,其特征在于,步骤2中4)所述分配具体为:
假设按照5’到3’的顺序,S1和S2相邻,如果将所述黏性末端归入到重复单元S1中,获得拆分单元1,那么,同时将所述黏性末端添加到重复单元S2的5’末端中,获得拆分单元2;反之,如果将所述黏性末端归入到重复单元S2中,获得拆分单元2,那么,同时将所述黏性末端添加到重复单元S1的3’末端,获得拆分单元1。
4.根据权利要求1所述的合成方法,其特征在于,步骤3中,所述IIS型限制性内切酶的个数为n,记为IISn,n为≥1的整数。
5.根据权利要求1所述的合成方法,其特征在于,所述步骤3具体包括如下步骤:
假设将步骤2获得的拆分单元分为M组,每组包括N个拆分单元,经过如下设计,获得组装单元:
在第1组的第1个拆分单元的5’末端顺序加入限制性内切酶II-1的保护碱基及识别序列,在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第1组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第1组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-2的反向识别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i-1组的第一个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i-1组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i-1组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-2的反向识别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i组的第一个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-3的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i组的第2至第N-1个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-1的反向识别序列及保护碱基;
在第i组的第N个拆分单元的5’末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:切割间隔碱基、IIS-3的反向识别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-2的反向识别序列、II-2的切割碱基及补充碱基、切割间隔碱基、IIS-1的反向识别序列及保护碱基;
第M组第1个至第N-1个拆分单元的设计与第i组各拆分单元的设计方法相同;
在第M组的第N个拆分单元的5‘末端顺序加入:保护碱基、IIS-1的识别序列及切割间隔碱基;在其3’末端顺序加入:II-2的识别序列及保护碱基;
其中,2≤i<m。
6.根据权利要求5所述的合成方法,其特征在于,步骤4中所述组装的次数至少为两次,包括:将每一组中N个组装单元进行一次组装;一次组装的结果中每i组之间进行一个二次组装;将二次组装的结果再进行三次组装,以此类推,最终将M个组装单元组装在一起;
每个二次组装中的第一组的第一个拆分单元前,顺序加入保护碱基、IIS-1的识别序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-2的识别序列、切割间隔碱基、II-1的切割碱基及补充碱基、IIS-3的识别序列及切割间隔碱基,其他位置的设计方法与第一个二次组装(第1至第i组)相同;
所述三次组装、四次组装以及x次组装对拆分单元的设计与二次组装一致,只需在每组二次组装中的第一个拆分单元5‘端添加的序列和拆分位点之间再加入IIS-n的识别序列、切割间隔碱基和切割序列;在第n个拆分单元3’端添加的序列和拆分单元的黏性末端之间再添加切割序列、切割间隔碱基和IIS-n的反向识别序列,其中n大于3;
所述切割序列为与其相连的上一个二次组装结果的5’末端的四个碱基或为与其相连的下一个二次组装结果的3’末端的四个碱基。
7.根据权利要求1~6任选一项所述的合成方法,其特征在于,所述保护碱基随机由所使用的II及IIS酶确定;所述切割碱基为所采用的II型限制性内切酶的识别序列;所述补充碱基由II型限制性内切酶决定;切割间隔碱基随机组成,优选为A。
8.根据权利要求1~7任一项所述的合成方法,其特征在于,所述步骤2的拆分位点还包括II型限制性内切酶位点或其互补序列,以及IIS型限制性内切酶的识别位点或其互补序列。
9.根据权利要求1所述的合成方法,其特征在于,所述组装采用的质粒载体为缺失II限制性内切酶和IIS限制性内切酶的识别序列及互补序列的载体。
CN202111615173.0A 2021-12-27 2021-12-27 一种dna串联重复序列的合成方法 Pending CN114774404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111615173.0A CN114774404A (zh) 2021-12-27 2021-12-27 一种dna串联重复序列的合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111615173.0A CN114774404A (zh) 2021-12-27 2021-12-27 一种dna串联重复序列的合成方法

Publications (1)

Publication Number Publication Date
CN114774404A true CN114774404A (zh) 2022-07-22

Family

ID=82422879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111615173.0A Pending CN114774404A (zh) 2021-12-27 2021-12-27 一种dna串联重复序列的合成方法

Country Status (1)

Country Link
CN (1) CN114774404A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090136924A1 (en) * 2005-04-08 2009-05-28 Larionov Vladimir L Rapid generation of long synthetic centromeric tandem repeats for mammalian artificial chromosome formation
CN110229871A (zh) * 2019-04-26 2019-09-13 上海晶准生物医药有限公司 一种通用的短串联重复序列等位基因阶梯的制备方法
CN113388607A (zh) * 2021-05-20 2021-09-14 北京擎科生物科技有限公司 一种复杂dna的合成方法及其应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090136924A1 (en) * 2005-04-08 2009-05-28 Larionov Vladimir L Rapid generation of long synthetic centromeric tandem repeats for mammalian artificial chromosome formation
CN110229871A (zh) * 2019-04-26 2019-09-13 上海晶准生物医药有限公司 一种通用的短串联重复序列等位基因阶梯的制备方法
CN113388607A (zh) * 2021-05-20 2021-09-14 北京擎科生物科技有限公司 一种复杂dna的合成方法及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI-HUA CHEN等: "The MASTER (methylation-assisted tailorable ends rational) ligation method for seamless", NUCLEIC ACIDS RESEARCH, vol. 41, no. 8, pages 2 *
崔文静;张矫;马祥敏;王雯雯;王欣;: "含串联多拷贝DNA序列的质粒载体的构建", 天津医药, no. 07 *

Similar Documents

Publication Publication Date Title
Jansen et al. Methods for obtaining and analyzing whole chloroplast genome sequences
AU2021204166B2 (en) Reagents, kits and methods for molecular barcoding
EP2354243A1 (en) Complexity reduction method
Hunt A rapid, simple, and inexpensive method for the preparation of strand-specific RNA-Seq libraries
US20200131504A1 (en) Plasmid library comprising two random markers and use thereof in high throughput sequencing
US11912988B2 (en) Method and kit for constructing a simplified genomic library
Hammelmann et al. Optimized generation of vectors for the construction of Haloferax volcanii deletion mutants
US20150072344A1 (en) Barcoded Universal Marker Indicator (BUMI) Tags
JPWO2017086394A1 (ja) 標的核酸の定量方法及びそのためのキット
EP3643788A1 (en) Pcr primer pair and application thereof
CN114774404A (zh) 一种dna串联重复序列的合成方法
KR20200081318A (ko) 멀티플렉스 시스템을 이용한 인간 객체의 y str 유전좌위 분석방법 및 이를 이용한 분석 키트
CN116497087A (zh) 选择性扩增目标序列的方法及其应用
KR102159008B1 (ko) 자가 증폭이 가능한 헤어핀 구조의 ngs 라이브러리 제작용 어댑터 및 이를 이용한 ngs 라이브러리 제조방법
Kodumal et al. DNA ligation by selection
CN111979258B (zh) 一种高通量的基因编辑方法
Chembath et al. Nondegenerate Saturation Mutagenesis: Library Construction and Analysis via MAX and ProxiMAX Randomization
CN117904263A (zh) 一种利用otarms系统特异性扩增靶标基因的引物对和方法
JP6164755B2 (ja) 異質倍数体酵母の接合型判別方法
US10087484B2 (en) Method for synthesizing gene using high-depth oligonucleotide tiling
CN106967833B (zh) 用于二倍体a基因组棉种和/或四倍体棉种鉴定的引物及其pcr鉴定方法
JPWO2021053208A5 (zh)
RU2616279C1 (ru) Способ получения маркерных лестниц для гель-электрофоретического определения размеров фрагментов нуклеиновых кислот
KR20240002713A (ko) Rna 염기서열 분석을 위한 라이브러리 제작 방법
CN118109633A (zh) 用于鉴定香菇杂交群体温型的InDel标记引物及鉴定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination