CN103898099B - 一种实现基因组定点修饰的蛋白表达载体的方法 - Google Patents

一种实现基因组定点修饰的蛋白表达载体的方法 Download PDF

Info

Publication number
CN103898099B
CN103898099B CN201210572536.1A CN201210572536A CN103898099B CN 103898099 B CN103898099 B CN 103898099B CN 201210572536 A CN201210572536 A CN 201210572536A CN 103898099 B CN103898099 B CN 103898099B
Authority
CN
China
Prior art keywords
sequence
seq
sequences
talen
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210572536.1A
Other languages
English (en)
Other versions
CN103898099A (zh
Inventor
袁晶
王惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhi Medicine Tumor Medicine Research Co Ltd Compro
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210572536.1A priority Critical patent/CN103898099B/zh
Publication of CN103898099A publication Critical patent/CN103898099A/zh
Application granted granted Critical
Publication of CN103898099B publication Critical patent/CN103898099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Enzymes And Modification Thereof (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明涉及生物基因克隆表达技术,特别是一种快速高效地构建转录激活因子样效应蛋白切割酶(TALEN)表达载体的方法。特别适合用于大规模的构建针对高等动物基因组遗传修饰的表达载体,以研究动物基因的功能。

Description

一种实现基因组定点修饰的蛋白表达载体的方法
技术领域
本发明涉及生物基因克隆表达技术,特别是一种快速高效地构建转录激活因子样效应蛋白切割酶(TALEN)表达载体的方法。特别适合用于大规模的构建针对高等动物基因组遗传修饰的表达载体,以研究动物基因的功能。
背景技术
一.TALEN技术的介绍和应用
随着越来越多的物种全基因组序列测定工作的完成,当前的基因组学研究热点已经由结构基因组学转向了功能基因组学,因此发展能够快速、高效、高通量的基因功能研究方法和策略具有广泛的需求。基因敲除(Knockout)技术是当今动物基因功能研究中最为重要的手段。近一年多来,陆续有文献报导转录激活因子样效应蛋白(TALE:TranscriptionActivator Like Effectors)能够高效的用于基因组的修饰,从而达到调控动植物内源基因的转录调控,其特异性高,操作简便,重复性好。
转录激活因子样效应蛋白(TALE:Transcription Activator Like Effectors)是植物致病菌Xanthomonas通过III型分泌系统注入到宿主细胞内的一种蛋白质(参考文献1-4)。TALE蛋白的奇特之处在于它包括一个DNA结合结构域,该DNA结合结构域不同于其他已知的DNA结合结构域。它是由数量不同(通常15到35个)的重复单元组成,每一个重复单元能够特异识别一个DNA碱基对。通常情况下每个重复单元由34个氨基酸组成,除了第12和13位的氨基酸存在变化,其他位点的氨基酸高度保守。这两个不保守的氨基酸被命名为RVD(Repeat Variable Diresidue)。现在已经确定,每个重复单元中12和13位的氨基酸和识别的核苷酸种类有特殊的一一对应关系:HD单元对应碱基C;NI单元对应碱基A;NG单元对应碱基T;NN单元对应碱基G。
TALE蛋白的特异DNA序列识别的特性以及DNA结合结构域中重复单元的可组装性为它们在生物学和生物技术中的应用提供了巨大的前景,理论上科学家们可以设计和组装任意的TALE单元去识别目标DNA序列。目前为止,利用TALE蛋白这一特性的应用中,前途最为广阔的是用于构造切割特异双链DNA序列的工具酶TALEN (TALE Nuclease)。TALEN把限制性内切酶(FokI)融合表达于TALE蛋白的羧基端,通过在细胞中表达一对TALEN融合蛋白,称之为5’端TALEN蛋白和3’端TALEN蛋白。它们的DNA结合结构域可以分别特异识别并结合目标DNA序列,实现对基因组中目的基因的锚定。5’端TALEN蛋白和3’端TALEN蛋白的羧基端融合的限制性内切酶FokI,在空间上靠近后可以形成二聚体,切割位于DNA结合结构域锚定的DNA序列之间的DNA双螺旋,形成DNA双链断裂。见图1。
绝大多数物种在进化中都形成了天然的DNA断裂修复机制。通过TALEN识别并结合指定的基因组中的特定位点,高效并且精确地造成靶位点DNA断裂。然后,细胞可以自发的识别基因组中的DNA双链断裂,利用天然的DNA修复过程——“同源定向修复”或“非同源末端连接”来修复靶DNA断裂。研究人员可以利用这个过程,进行各种形式的基因组编辑或修饰。通过“非同源末端连接”,可以导入DNA碱基插入和碱基缺失,从而实现基因敲除;通过“同源定向修复”,可以实现基因替换和定向的基因添加。传统的基因敲除技术依赖于细胞内自然发生的同源重组,其效率非常低,通常为10-6级别。而TALEN技术可以实现在基因组的特定DNA位点产生缺口,通过细胞内源的同源重组或非同源末端连接来实现目的基因的敲除,因此极大的提高了基因敲除的效率,可以达到10-25%。迄今为止,TALEN已经成功应用于模式物种果蝇、斑马鱼、小鼠和大鼠的细胞和个体水平的基因组修饰(参考文献5-9)。
二.TALEN技术实现的难点
通过TALEN技术实现在动物细胞或者个体中进行基因组修饰,必须通过分子生物学技术构建TALEN蛋白的表达载体。TALEN蛋白的结构包括氨基端蛋白片段、羧基端蛋白片段和位于前二者之间的DNA结合结构域。DNA结合结构域由数量不同(通常15到20个)的重复单元组成,每一个重复单元特异识别一个DNA碱基对。其中,最后一个重复单元(末位重复单元)是一个部分完整的重复单元。组成重复单元的34个氨基酸中,只有第12和13位点的氨基酸存在变化,这种氨基酸片段的高度重复结构使得构建TALEN蛋白的表达元件非常有难度。
目前,已知的构建TALEN蛋白表达载体的方法主要有2种:
第一种是采用顺序克隆的方法(见图2)。顺序克隆的内容是:将4个不同的重复单元(分别HD单元;NI单元;NG单元和NN单元)的表达元件,分别构建于一个克隆载体中,然后通过DNA酶切和DNA连接,每次将一个重复单元的表达元件DNA切下,并且插入到最终目的表达载体,完成一个重复单元的组装。第一个重复单元组装后,再进行第二个重复单元的组装,直到依次将所有的重复单元组装完毕。第二种方法采用全化学合成的方法,合成TALEN蛋白的DNA结合结构域的表达元件,来实现表达载体的构建。
上述2种方法虽然能够成功构建TALEN蛋白表达载体,但是明显存在不足,主要表现在以下几个方面:
1.步骤繁琐,克隆效率低。顺序克隆方法中,每一轮操作都需要DNA的酶切、片段的纯化回收、DNA插入片度和载体的连接、大肠杆菌的转化、含有重组载体的阳性菌的筛选鉴定以及阳性菌中的重组载体质粒的提取。一轮操作下来所需要的时间最少为3天。用于基因组修饰的TALEN蛋白,通常需要DNA结合结构域包括15到20个重复单元。因此要实现含有15到20个重复单元的TALEN蛋白的表达载体的构建,通常需要5轮上述操作。待完整的TALEN蛋白表达元件构建完成,需要再进行一轮操作,将整个表达元件酶切下来,连接到最终的真核生物表达载体中。
2.成本高。顺序克隆方法中,每一轮操作都包括:DNA的酶切、目的DNA片段的纯化回收、DNA插入片度和载体的连接、连接产物转化大肠杆菌、筛选鉴定含有重组载体的阳性菌和重组载体质粒的提取。“顺序克隆”方法构建一个含有20个重复单元的TALEN蛋白的真核表达载体,需要6轮操作。每一个步骤都意味着投入的耗材、试剂和人力的成本。化学合成方法现阶段最大的不足在于化学合成长片段的DNA片段成本非常高。按照现在主要提供商的产品合成价格,合成一个含有20个重复单元的DNA结合结构域的表达元件DNA,成本高于2-3万人民币。
因此,在本领域中,仍有对快速、高效、低成本地构建TALEN蛋白表达载体的需要。
参考文献:
1.Plant Pathogen Recognition Mediated by Promoter Activation ofthePepper Bs3 Resistance Gene.PatrickSimone Hahn,Tina Jordan,TinaStrau,Ulla Bonas,Thomas Lahaye.Science 318,645(2007)
2.A Bacterial Effector Acts as a Plant Transcription Factor andInduces aCell Size Regulator.Sabine Kay,Simone Hahn,Eric Marois,Gerd Hause,UllaBonas.Science 318,648(2007)
3.A Simple Cipher Governs DNA Recognition by TALEffectors.MatthewJ.Moscou and Adam J.Bogdanove.SCIENCE 326,1501(2009)
4.Breaking the Code of DNA Binding Specificity of TAL-TypeIII.JensBoch,Heidi Scholze,Sebastian Schornack,Angelika Landgraf,Simone Hahn,Sabine Kay,Thomas Lahaye,Anja Nickstadt,Ulla Bonas.Science 326,1509(2009)
5.A TALE nuclease architecture for efficient genome editing.JeffreyCMiller,Siyuan Tan,Guijuan Qiao,Kyle A Barlow,Jianbin Wang,Danny FXia,Xiangdong Meng,David E Paschon,Elo Leung,Sarah J Hinkley,Gladys PDulay,KevinL Hua,Irina Ankoudinova,Gregory J Cost,Fyodor D Urnov,SteveZhang,Michael CHolmes,Lei Zhang,Philip D Gregory & Edward J Rebar,Nature Biotechnol.29,143–148(2011)
6.Knockout rats generated by embryo microinjection ofTALENs.LaurentTesson,Claire Usal,Séverine Ménoret,Elo Leung,Brett J Niles,Séverine Remy,Yolanda Santiago,Anna I Vincent,Xiangdong Meng,Lei Zhang,PhilipDGregory,Ignacio Anegon & Gregory J Cost,Nature Biotechnol.29,695–696(2011)
7.Targeted gene disruption in somatic zebrafish cells usingengineeredTALENs.Jeffry D Sander,Lindsay Cade,Cyd Khayter,Deepak Reyon,Randall TPeterson,J Keith Joung & Jing-Ruey J Yeh.Nature Biotechnol.29,697-698(2011)
8.Heritable gene targeting in zebrafish using customizedTALENs.PengHuang,An Xiao,Mingguo Zhou,Zuoyan Zhu,Shuo Lin & BoZhang.NatureBiotechnol.29,699-700(2011)
9.Genetic engineering of human pluripotent cells using TALEnucleases.Dirk Hockemeyer,Haoyi Wang,Samira Kiani,Christine S Lai,Qing Gao,John PCassady,Gregory J Cost,Lei Zhang,Yolanda Santiago,Jeffrey C Miller,BryanZeitler,Jennifer M Cherone,Xiangdong Meng,Sarah J Hinkley,Edward JRebar,Philip D Gregory,Fyodor D Urnov & Rudolf Jaenisch.Nature Biotechnol.29,731-734(2011)
发明内容
在本申请中,除非另行指明,对于核苷酸序列,A、C、T、G代表核苷酸碱基的单字母缩写,而下述大写字母代表选自多个碱基中的任一个:
R----A/G
Y----C/T
M----A/C
K----G/T
S----G/C
W---A/T
H----A/T/C
B----G/T/C
V----G/A/C
D----G/A/T
N----A/G/C/T。
在本申请中,除非另行指明,“-”只表明序列之间的连接关系,本身不代表任何序列。
本发明由下述段落所描述:
1.一种核苷酸序列,所述核苷酸序列包含下述结构:
R1-Ln-Xn-Ln+1-R2
其中n选自1至m的自然数,m为7、8、9、10、11、12、13或14;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
当n=1时,Xn为YD1
当n=m时,Xn为YE,
当n为2至m-1时,Xn选自YDn或YSn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
YE为FLm-Ym-FRE,
其中,
当n=1时,
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
其他情况下:
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRn为空序列,
其中Yn、YLn、YRn彼此独立地为碱基A、C、T或G的TALE识别序列的编码序列。
2.一种试剂盒,所述试剂盒包括m种核苷酸序列,且任选地包括表达载体,其中m为7、8、9、10、11、12、13或14,
其中第n种核苷酸序列包含下述结构:
R1-Ln-Xn-Ln+1-R2
其中n选自1至m的自然数;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
当n=1时,Xn为YD1
当n=m时,Xn为YE,
当n为2至m-1时,Xn选自YDn或YSn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
YE为FLm-Ym-FRE,
其中,
当n=1时,
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
其他情况下:
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRE为空序列,
其中Yn、YLn、YRn彼此独立地为碱基A、C、T或G的TALE识别序列的编码序列。
其中所述表达载体包含下述结构:
PN-L1-R2-M-R1-Lm+1-PC-NE,
R1和R2的定义如上所述;
PN为SEQ ID NO:2的编码序列的1至j1-1位,但当j1=1时,该PN为空序列;
PC为SEQ ID NO:3的编码序列的jm+1+i至729位,但当jm+1=730-i时,该PC为空序列;
NE为核酸内切酶的编码序列;
M为选择性标记。
3.一种试剂盒,所述试剂盒包括20(m-1)种核苷酸序列,且任选地包括表达载体,其中m为7、8、9、10、11、12、13或14,
所述20(m-1)种核苷酸序列分为m组,
其中第n组核苷酸序列包含下述共同结构:
R1-Ln-Xn-Ln+1-R2
其中n选自1至m的自然数;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
对于第1组,Xn为YD1
YD1为FL1-YL1-FM1-YR1-FR1
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
FR1为SEQ ID NO:1的编码序列的1至j2-1位,但当j2=1时,该FRn为空序列,
FM1为SEQ ID NO:1的编码序列,
第1组共包括16个序列,在这16个序列中,YL1和YR1分别为碱基A、C、T或G的TALE识别序列的编码序列的不同组合;
对于第m组,Xn为YE,
YE为FLm-Ym-FRE,
其中,
FLm为SEQ ID NO:1的编码序列的jm+i至96位,但当jm=97-i时,该FLm为空序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRE为空序列,
第m组共包括4个序列,在这4个序列中,Yn分别为碱基A、C、T或G的TALE识别序列的编码序列;
对于第2至m-1组,Xn选自YDn或YSn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
其中,
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
对于第2至m-1组,每组共包括20个序列,在其中16个序列中,Xn为YDn,且YLn和YRn分别为碱基A、C、T或G的TALE识别序列的编码序列的不同组合,在剩下4个序列中,Xn为YSn,且Yn分别为碱基A、C、T或G的TALE识别序列的编码序列;
其中所述表达载体包含下述结构:
PN-L1-R2-M-R1-Lm+1-PC-NE,
R1和R2的定义如上所述;
PN为SEQ ID NO:2的编码序列的1至j1-1位,但当j1=1时,该PN为空序列;
PC为SEQ ID NO:3的编码序列的jm+1+i至729位,但当jm+1=730-i时,该PC为空序列;
NE为核酸内切酶的编码序列;
M为选择性标记。
4.一种组装DNA结合结构域元件的方法,其中所述DNA序列由不多于20个碱基组成:
(1)根据目标DNA序列,将DNA序列按5’到3’端分为m个碱基组,第一个碱基组由2个碱基组成,第m个碱基组由1个碱基组成,其他各组由1个或2个碱基组成,其中m为7、8、9、10、11、12、13或14;
(2)根据所述m个碱基组的碱基序列,设计m个对应的核苷酸序列,和表达载体;
其中第n种核苷酸序列包含下述结构:
R1-Ln-Xn-Ln+1-R2
其中n是1至m的自然数;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
对于第1个碱基组,Xn为YD1
对于第m个碱基组,Xn为YE,
对于第2至m-1个碱基组,当该碱基组由一个碱基组成时,Xn为YSn,而当该碱基组由两个碱基组成时,Xn为YDn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
YE为FLm-Ym-FRE,
其中,
当n=1时,
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
其他情况下:
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRE为空序列,
其中Yn、YLn、YRn彼此独立地为碱基A、C、T或G的TALE识别序列的编码序列。
当该碱基组由一个碱基组成时,Yn为该碱基的TALE识别序列的编码序列,而当该碱基组由两个碱基组成时,YLn和YRn分别为所述碱基组中第一个和第二个YDn碱基的TALE识别序列的编码序列;
其中所述表达载体包含下述结构:
PN-L1-R2-M-R1-Lm+1-PC-NE,
R1和R2的定义如上所述;
PN为SEQ ID NO:2的编码序列的1至j1-1位,但当j1=1时,该PN为空序列;
PC为SEQ ID NO:3的编码序列的jm+1+i至729位,但当jm+1=730-i时,该PC为空序列;
NE为核酸内切酶的编码序列;
M为选择性标记;
任选地,所述m种核苷酸序列并非设计的,而是直接从如本发明第三个方面所述的20(m-1)个核苷酸中选取的;
(3)将所述m种核苷酸序列,所述表达载体,与R1和R2对应的限制性内切酶IIS,和DNA连接酶混合;
(4)将(3)中的混合物用所述IIS型限制性内切酶酶切,并用DNA连接酶连接,获得包含组装的DNA结合结构域元件的表达载体;
任选地,本发明的该方面还包括回收所述包含组装的DNA结合结构域元件的表达载体的方法,所述方法进一步包括下述步骤:
(5)用(4)的反应产物转化、转导或转染宿主细胞,并针对选择性标记M筛选包含表达载体的宿主细胞;
(6)在适于表达载体增殖的条件下,培养经筛选的宿主细胞,和
(7)从培养的宿主细胞回收经增殖的表达载体。
5.段落1-4任一项的核苷酸序列、试剂盒或方法,其中所述SEQ ID NO:1的编码序列为:
GGNGGNAARCARGCNYTNGARACNGTNCARMGNYTNYTNCCNGTNYTNTGYCARGAYCAYGGNYTNACNCCNGAYCARGTNGTNGCNATHGCNWSN(SEQ ID NO:5);和/或
所述SEQ ID NO:2的编码序列为:
ATGGCNWSNWSNCCNCCNAARAARAARMGNAARGTNWSNTGGAARGAYGCNWSNGGNTGGWSNMGNATGCAYGCNGAYCCNATHMGNCCNMGNMGNCCNWSNCCNGCNMGNGARYTNYTNCCNGGNCCNCARCCNGAYMGNGTNCARCCNACNGCNGAYMGNGGNGTNWSNGCNCCNGCNGGNWSNCCNYTNGAYGGNYTNCCNGCNMGNMGNACNGTNWSNMGNACNMGNYTNCCNWSNCCNCCNGCNCCNWSNCCNGCNTTYWSNGCNGGNWSNTTYWSNGAYYTNYTNMGNCCNTTYGAYCCNWSNYTNYTNGAYACNWSNYTNYTNGAYWSNATGCCNGCNGTNGGNACNCCNCAYACNGCNGCNGCNCCNGCNGARTGGGAYGARGCNCARWSNGCNYTNMGNGCNGCNGAYGAYCCNCCNCCNACNGTNMGNGTNGCNGTNACNGCNGCNMGNCCNCCNMGNGCNAARCCNGCNCCNMGNMGNMGNGCNGCNCARCCNWSNGAYGCNWSNCCNGCNGCNCARGTNGAYYTNMGNACNYTNGGNTAYWSNCARCARCARCARGARAARATHAARCCNAARGTNMGNWSNACNGTNGCNCARCAYCAYGARGCNYTNGTNGGNCAYGGNTTYACNCAYGCNCAYATHGTNGCNYTNWSNCARCAYCCNGCNGCNYTNGGNACNGTNGCNGTNACNTAYCARCAYATHATHACNGCNYTNCCNGARGCNACNCAYGARGAYATHGTNGGNGTNGGNAARCARTGGWSNGGNGCNMGNGCNYTNGARGCNYTNYTNACNGAYGCNGGNGARYTNMGNGGNCCNCCNYTNCARYTNGAYACNGGNCARYTNGTNAARATHGCNAARMGNGGNGGNGTNACNGCNATGGARGCNGTNCAYGCNWSNMGNAAYGCNYTNACNGGNGCNCCNYTNAAYYTNACNCCNGAYCARGTNGTNGCNATHGCNWSN(SEQ ID NO:6);和/或
所述SEQ ID NO:3的编码序列为:
GGNGGNAARCARGCNYTNGARWSNATHGTNGCNCARYTNWSNMGNCCNGAYCCNGCNYTNGCNGCNYTNACNAAYGAYCAYYTNGTNGCNYTNGCNTGYYTNGGNGGNMGNCCNGCNATGGAYGCNGTNAARAARGGNYTNCCNCAYGCNCCNGARYTNATHMGNMGNGTNAAYMGNMGNATHGGNGARMGNACNWSNCAYMGNGTNGCNGAYTAYGCNCARGTNGTNMGNGTNYTNGARTTYTTYCARTGYCAYWSNCAYCCNGCNTAYGCNTTYGAYGARGCNATGACNCARTTYGGNATGWSNMGNAAYGGNYTNGTNCARYTNTTYMGNMGNGTNGGNGTNACNGARYTNGARGCNMGNGGNGGNACNYTNCCNCCNGCNWSNCARMGNTGGGAYMGNATHYTNCARGCNWSNGGNATGAARMGNGCNAARCCNWSNCCNACNWSNGCNCARACNCCNGAYCARGCNWSNYTNCAYGCNTTYGCNGAYWSNYTNGARMGNGAYYTNGAYGCNCCNWSNCCNATGCAYGARGGNGAYCARACNMGNGCNWSNWSNMGNAARMGNWSNMGNWSNGAYMGNGCNGTNACNGGNCCNWSNGCNCARCARGCNGTNGARGTNMGNGTNCCNGARCARMGNGAYGCNYTNCAYYTNCCNYTNWSNTGGMGNGTNAARMGNCCNMGNACNMGNATHTGGGGNGGNYTNCCNGAYCCNATHWSNMGNWSNCAR(SEQ IDNO:7)。
6.段落1-5任一项的核苷酸序列、试剂盒或方法,其中m为8至12的自然数,优选m为9至11的自然数,更优选m是10。
7.段落1-6任一项的核苷酸序列、试剂盒或方法,其中所述核苷酸序列是载体,优选适于在宿主细胞中复制的载体,更优选可在宿主细胞中大量复制的载体。
8.段落1-7任一项的核苷酸序列、试剂盒或方法,其中所述载体是质粒,优选地,所述质粒是多拷贝质粒。
9.段落1-8任一项的核苷酸序列、试剂盒或方法,其中所述宿主是真核宿主。
10.段落1-9任一项的核苷酸序列、试剂盒或方法,其中所述宿主是原核宿主,优选大肠杆菌。
11.段落1-10任一项的核苷酸序列、试剂盒或方法,其中所述载体是病毒载体。
12.段落1-11任一项的核苷酸序列、试剂盒或方法,其中i为3、4或5,优选i为4。
13.段落1-12任一项的核苷酸序列、试剂盒或方法,其中所述IIS型限制性内切酶是BsmBI,R1是BsmBI识别序列CGTCTCN,而R2是BsmBI识别序列的反向互补序列NGAGACG,和i=4。
14.段落1-13任一项的核苷酸序列、试剂盒或方法,其中
j1为1至970-i的自然数;和/或
jm+1为1至730-i的自然数;和/或
当k为2至m时,jk为1至97-i的自然数。
15.段落1-14任一项的核苷酸序列、试剂盒或方法,其中当k为2至m时,jk选自a至b的自然数,其中a和b均选自1至97-i的自然数,且a≤b。
16.段落1-15任一项的核苷酸序列、试剂盒或方法,其中当k为2至m时,jk为57至86的自然数。
17.段落1-16任一项的核苷酸序列、试剂盒或方法,其中FMn为:
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,或
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGC,
18.段落1-17任一项的核苷酸序列、试剂盒或方法,其中j1选自a至b的自然数,其中a和b均选自1至970-i的自然数,且a≤b,优选地,j1选自891至967,更优选j1选自901至961,更优选j1选自911至951,更优选j1选自921至941,更优选j1为931。
19.段落1-18任一项的核苷酸序列、试剂盒或方法,其中FL1为:
ACCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC。
20.段落1-19任一项的核苷酸序列、试剂盒或方法,其中当k为2至m时,FLk为:
GGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
GCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
CCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
CTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
TGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
GACTCCGGACCAAGTGGTGGCTATCGCCAGC,
ACCCCGGACCAAGTGGTGGCTATCGCCAGC,
CGGACCAAGTGGTGGCTATCGCCAGC,或
CGCCAGC。
21.段落1-20任一项的核苷酸序列、试剂盒或方法,其中FRn为:
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGA,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGAC,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACC,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCA,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCAT,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATG,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGG,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTG,或
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGG。
22.段落1-21任一项的核苷酸序列、试剂盒或方法,其中jm+1选自a至b的自然数,其中a和b均选自1至730-i的自然数,且a≤b,优选地,jm+1选自1至727,更优选jm+1选自3至143,更优选jm+1选自13至133,更优选jm+1选自23至123,更优选jm+1选自33至113,更优选jm+1选自43至103,更优选jm+1选自53至93,更优选jm+1选自63至83,更优选jm+1为73。
23.段落1-22任一项的核苷酸序列、试剂盒或方法,其中FRE为:
GGCGGCAAGCAAGCGCTCGAAAGCATTGTGGCCCAGCTGAGCCGGCCTGATCCGGCGTTGGCCGCGTTGACC。
24.段落1-23任一项的核苷酸序列、试剂盒或方法,
其中L1为CTGA;和/或
Lm+1为AACG;和/或
Lk选自
CTGA,
CCAT,
CATG,
ATGG,
TGGC,
GGCC,
GCCT,
CCTG,
ACCC,和
CTAT;
其中k为2至m。
25.段落1-24任一项的核苷酸序列、试剂盒或方法,其中所述NE为FokI的编码序列,优选地,所述NE为SEQ ID NO:4的编码序列,更优选地,所述NE为SEQ ID NO:8。
26.段落1-25任一项的核苷酸序列、试剂盒或方法,其中所述选择性标记M为LacZ。
27.段落1-26任一项的核苷酸序列、试剂盒或方法,其中所述荧光蛋白是GFP或RFP。
28.段落1-27任一项的核苷酸序列、试剂盒或方法,其中所述表达载体为pCMV-TALEN、pCMV-TALEN-GFP或pCMV-TALEN-RFP。
29.段落3的试剂盒,包括下述180个DNA序列:
(1)144个包含“双碱基重复单元表达元件”的DNA序列,所述“双碱基重复单元表达元件”的序列如SEQ ID NO:11~154所示;
(2)32个包含“单碱基重复单元表达元件”的DNA序列,所述“单碱基重复单元表达元件”的序列如SEQ ID NO:155~186所示;
(3)4个包含“末位单碱基重复单元表达元件”的DNA序列,所述“末位单碱基重复单元表达元件”的序列如SEQ ID NO:187~190所示;
任选地,所述试剂盒还包括
(4)已构建的哺乳动物真核表达载体,其可为pCMV-TALEN。
30.段落29的试剂盒,包括下述180个环状质粒:
(1)144个“双碱基重复单元表达元件质粒”,每个质粒由一个“双碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,命名为pXX-n,XX为A、C、T、G的所有16种两两组合,n为1-9,其中所述双碱基重复单元表达元件”的序列如SEQ ID NO:11~154所示;
(2)32个“单碱基重复单元表达元件质粒”,每个质粒由一个“单碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,命名为pX-n,X为A、T、C或G,n为2-9,其中所述“单碱基重复单元表达元件”的序列如SEQ ID NO:155~186所示;
(3)4个“末位单碱基重复单元表达元件质粒”,每个质粒由一个“末位单碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,分别是pC-L、pG-L、pA-L和pT-L,其中所述“末位单碱基重复单元表达元件”的序列如SEQ ID NO:187~190所示;
其中,所述5’和3’侧翼质粒骨架序列分别为SEQ ID NO:9和10;
任选地,所述试剂盒还包括
(4)已构建的哺乳动物真核表达载体,其可为pCMV-TALEN。
31.SEQ ID NO:1-193的氨基酸序列或核苷酸序列。
附图说明
图1:TALEN蛋白用于基因组定点修饰的原理示意图。
图2:“顺序克隆”策略构建TALEN蛋白表达载体示意图。
图3:本发明方法中构建TALEN蛋白表达载体示意图。多片段DNA定向连接克隆的示意图。示意图中演示在一个反应体系中按照正确的顺序组装10个DNA片段。这种连接策略使用IIS型限制性内切酶(本发明中使用BsmBI),其特点在于DNA识别序列和切割序列不重叠。预先在所有10个DNA片段中精准设计相同的BsmBI的DNA识别序列和不同的DNA切割序列。经过BsmBI切割后,所有的DNA片段都会产生4碱基长的粘末端。只有具有反向互补序列粘末端的DNA片段,在连接酶作用下,实现两个DNA片段的定向连接。同理,通过在需要连接的多个DNA片段两侧精准设计好酶切序列,待IIS型限制性内切酶作用后,可以获得含有不同序列的4碱基长的粘末端,便可以实现多片段DNA的定向组装。
图4:本发明中包含重复单元表达元件的载体质粒结构示意图。
图5:哺乳动物表达载体pCMV-TALEN结构示意图。
具体实施方式
定义
核苷酸序列和氨基酸序列
在本文中,除非另行指明,核苷酸序列从左向由为5’至3’方向,氨基酸序列从左向右为氨基至羧基方向。
TALE重复单元和TALE识别序列
在本文中,所谓“TALE重复单元”是指TALE蛋白中DNA结合结构域中的重复单元,所述重复单元通常由34个氨基酸组成,其氨基酸序列为LTPEQVVAIASZ1Z2 GGKQALETVQRLLPVLCQAHG,其中,Z1Z2代表两个氨基酸残基,称作RVD(Repeat Variable Diresidue)。RVD的选择决定了该TALE重复单元所识别的DNA碱基:
当RVD为HD时,该TALE重复单元识别碱基C;
当RVD为NI时,该TALE重复单元识别碱基A;
当RVD为NG时,该TALE重复单元识别碱基T;
当RVD为NN时,该TALE重复单元识别碱基G。
在上述情况下,识别特定碱基的RVD序列即称为该碱基的TALE识别序列。
IIS型限制性内切酶
限制性内切酶是存在于许多物种中,能够在识别位点序列特异性结合DNA,并且在结合位点处或接近结合位点处切割DNA。IIS型限制性内切酶(或简称IIS型酶)是一类在与识别位点不同的位点切割DNA的限制性内切酶。举例而言,BsaI催化DNA的双链切割,其识别位点为,而在一条链距离其识别位点1个核苷酸处,而在另一条链距离其识别位点5个核苷酸处切割DNA双链。
本发明中可使用的IIS型限制性内切酶包括但不限于表1中所列出的这些:
表1:本发明可用的IIS型限制性内切酶
本领域技术人员知道,由于DNA是互补双链,因此当需要从相反方向切割时,比如本发明中R2的情况,其在编码链上的序列也可为上表中识别序列中的反向互补序列。例如当该IIS型限制性内切酶是BsmBI时,识别序列为CGTCTCN,其反向互补序列可为NGAGACG。
表达载体:
本发明涉及表达载体,所述表达载体包含编码本发明的多核苷酸、启动子和转录和翻译终止信号。多种核苷酸和调控序列可以结合在一起以产生重组表达载体,所述表达载体可以包括一个或多个(几个)方便的限制位点以允许在这些位点插入或取代编码本发明的多核苷酸。或者,可以通过在适当的用于表达的载体中插入包含所述多核苷酸的核酸构建体或多核苷酸来表达所述多核苷酸。在制备表达载体的过程中,可将编码序列置于载体中,从而使该编码序列与适当的表达调控序列可操作地连接。
表达载体可以是在其中能够方便地进行重组DNA步骤,并且能够产生多核苷酸的表达的任何载体(例如,质粒或病毒)。载体的选择将通常依赖于载体与该载体所引入的宿主细胞的相容性。载体可以是线状或闭合环状质粒。
所述载体可以是自主复制载体,即,复制独立于染色体复制而作为染色体外实体存在的载体,例如,质粒、染色体外元件、微型染色体或人工染色体。载体可以含有任何用于确保自复制的结构。或者,载体可以在引入宿主细胞中时,整合到基因组中并且与整合了该载体的染色体一起复制。还可以使用转座子。
所述载体优选地含有一个或多个(几个)选择性标记,其使得可方便地经转化、转染、转导等的细胞进行选择。选择性标记包括其产物提供杀生物剂(如抗生素,抗真菌剂,抑菌剂等)或病毒抗性、对重金属的抗性、对营养缺陷型的原养性等的基因。
细菌选择性标记的实例是来自地衣芽孢杆菌或枯草芽孢杆菌的dal基因,或赋予抗生素抗性的标记,所述抗生素抗性例如氨苄青霉素、氯霉素、卡那霉素或四环素抗性。
所述载体优选含有使得载体能够整合入宿主细胞基因组或使得载体能够在细胞中独立于基因组的自主复制的元件。
为了整合入宿主细胞基因组,载体可依赖编码变体的多核苷酸的序列,或用于通过同源或非同源重组整合入基因组的任何其它载体元件。或者,载体可以含有其他用于指导通过同源重组整合入宿主细胞基因组染色体中的精确位置的核苷酸序列。为了增加在精确位置整合的可能性,整合元件应含有足够数量的核苷酸,如100至10,000碱基对,400至10,000碱基对,和800至10,000碱基对,其与相应的目标序列具有高度同一性以增强同源重组的概率。整合元件可以是与宿主细胞基因组中的目标序列同源的任何序列。此外,整合元件可以是非编码或编码的核苷酸序列。另一方面,可以将载体通过非同源重组整合到宿主细胞的基因组中。
为了自主复制,载体可以进一步包含使载体能够在所述的宿主细胞中自主复制的复制起点。复制起点可以是能够在宿主细胞中介导自主复制的任何质粒复制子,。术语“复制起点”或“质粒复制子”意指能够使质粒或载体体内复制的核苷酸序列。
可以将多于一个拷贝的本发明的多核苷酸插入宿主细胞以增加多肽的产生。多核苷酸拷贝数的增加可通过如下方法获得:将至少一个额外拷贝的序列整合入宿主细胞基因组,或将可扩增的选择性标记基因置于多核苷酸,可通过在合适的选择剂存在下培养细胞来选择含有选择性标记基因的扩增拷贝,由此获得含有多核苷酸的额外拷贝的细胞。
用于连接上述元件以构建本发明的重组表达载体的方法是本领域技术人员熟知的。
宿主细胞
本发明还涉及包含本发明的多核苷酸的重组宿主细胞。如前文所述,将包含本发明的多核苷酸的载体引入宿主细胞从而将所述载体作为染色体整合体或作为自复制的染色体外载体保持。术语“宿主细胞”也包含亲本细胞的任何因为在复制过程中发生的突变而与该亲本细胞不同的子代。宿主细胞的选择在很大程度上会依赖于编码多肽的基因及其来源。
宿主细胞可为单细胞微生物,例如原核生物,或非单细胞微生物,例如真核生物。
可用的单细胞微生物为细菌细胞如革兰氏阳性细菌,包括但不限于芽孢杆菌属(Bacillus)细胞或链霉菌(Streptomyces)细胞,或革兰氏阴性细菌如大肠杆菌(E.coli)和假单胞菌属(Pseudomonas)细胞。在一个优选的方面,所述细菌宿主细胞是大肠杆菌或枯草芽孢杆菌细胞。
可通过下述方法将载体导入细菌宿主细胞:原生质体转化(参见,例如,Chang和Cohen,1979,Molecular General Genetics 168:111-115),使用感受态细胞(参见,例如,Young和Spizizin,1961,Journal of Bacteriology 81:823-829或Dubnau和Davidoff-Abelson,1971,Journal of Molecular Biology 56:209-221),电穿孔(参见,例如,Shigekawa和Dower,1988,Biotechniques 6:742-751)或接合(参见,例如,Koehler和Thorne,1987,Journal of Bacteriology169:5771-5278)。
宿主细胞还可以是真核生物,如哺乳动物、昆虫、植物或真菌的细胞。
编码序列
在本文中,“氨基酸序列的编码序列”,是指可翻译成为该氨基酸序列的核苷酸序列。由于遗传密码的简并性,一个氨基酸序列的编码序列并不是唯一的。例如,氨基酸序列HD的编码序列可为CATGAT、CATGAC、CACGAT或CACGAC。
调控序列
术语“调控序列”在本文定义为包括对编码本发明多肽的多核苷酸表达是必需的或有利的所有组分。各个调控序列对于编码所述多肽的核苷酸序列可以是天然的或外源的。此类调控序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。最低限度,调控序列包括启动子和转录和翻译的终止信号。调控序列可以和目的为引入特异性限制位点的接头一起提供,所述特异性限制位点促进调控序列与编码多肽的核苷酸序列编码区的连接。
可操作地连接
术语“可操作地连接”在本文表示这样的构型,其中将调控序列置于相对于多核苷酸序列的编码序列的适当位置,使得调控序列指导多肽编码序列的表达。
重复单元表达元件
在本文中,重复单元表达元件指下述结构:
R1-Ln-Xn-Ln+1-R2
其中,当Xn为YDn时,这个重复单元表达元件称作“双碱基重复单元表达元件”;
当Xn为YSn时,这个重复单元表达元件称作“单碱基重复单元表达元件”;和
当Xn为YE时,这个重复单元表达元件称作“末位单碱基重复单元表达元件”。
其中R1、Ln、Xn、Ln+1、R2、YDn、YSn和YE的定义参见下文详述。
组装DNA结合结构域元件的方法和用于该方法的核苷酸序列
在第一个方面,本发明涉及核苷酸序列,所述核苷酸序列包含下述结构:
R1-Ln-Xn-Ln+1-R2
其中n选自1至m的自然数,m为7、8、9、10、11、12、13或14;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
当n=1时,Xn为YD1
当n=m时,Xn为YE,
当n为2至m-1时,Xn选自YDn或YSn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
YE为FLm-Ym-FRE,
其中,
当n=1时,
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
其他情况下:
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRn为空序列,
其中Yn、YLn、YRn彼此独立地为碱基A、C、T或G的TALE识别序列的编码序列。
在第二个方面,本发明涉及试剂盒,所述试剂盒包括m种核苷酸序列,且任选地包括表达载体,其中m为7、8、9、10、11、12、13或14,
其中第n种核苷酸序列包含下述结构:
R1-Ln-Xn-Ln+1-R2
其中n选自1至m的自然数;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
当n=1时,Xn为YD1
当n=m时,Xn为YE,
当n为2至m-1时,Xn选自YDn或YSn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
YE为FLm-Ym-FRE,
其中,
当n=1时,
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
其他情况下:
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRE为空序列,
其中Yn、YLn、YRn彼此独立地为碱基A、C、T或G的TALE识别序列的编码序列。
其中所述表达载体包含下述结构:
PN-L1-R2-M-R1-Lm+1-PC-NE,
R1和R2的定义如上所述;
PN为SEQ ID NO:2的编码序列的1至j1-1位,但当j1=1时,该PN为空序列;
PC为SEQ ID NO:3的编码序列的jm+1+i至729位,但当jm+1=730-i时,该PC为空序列;
NE为核酸内切酶的编码序列;
M为选择性标记。
在第三个方面,本发明涉及试剂盒,所述试剂盒包括20(m-1)种核苷酸序列,且任选地包括表达载体,其中m为7、8、9、10、11、12、13或14,
所述20(m-1)种核苷酸序列分为m组,
其中第n组核苷酸序列包含下述共同结构:
R1-Ln-Xn-Ln+1-R2
其中n选自1至m的自然数;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
对于第1组,Xn为YD1
YD1为FL1-YL1-FM1-YR1-FR1
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
FR1为SEQ ID NO:1的编码序列的1至j2-1位,但当j2=1时,该FRn为空序列,
FM1为SEQ ID NO:1的编码序列,
第1组共包括16个序列,在这16个序列中,YL1和YR1分别为碱基A、C、T或G的TALE识别序列的编码序列的不同组合;
对于第m组,Xn为YE,
YE为FLm-Ym-FRE,
其中,
FLm为SEQ ID NO:1的编码序列的jm+i至96位,但当jm=97-i时,该FLm为空序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRE为空序列,
第m组共包括4个序列,在这4个序列中,Yn分别为碱基A、C、T或G的TALE识别序列的编码序列;
对于第2至m-1组,Xn选自YDn或YSn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
其中,
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
对于第2至m-1组,每组共包括20个序列,在其中16个序列中,Xn为YDn,且YLn和YRn分别为碱基A、C、T或G的TALE识别序列的编码序列的不同组合,在剩下4个序列中,Xn为YSn,且Yn分别为碱基A、C、T或G的TALE识别序列的编码序列;
其中所述表达载体包含下述结构:
PN-L1-R2-M-R1-Lm+1-PC-NE,
R1和R2的定义如上所述;
PN为SEQ ID NO:2的编码序列的1至j1-1位,但当j1=1时,该PN为空序列;
PC为SEQ ID NO:3的编码序列的jm+1+i至729位,但当jm+1=730-i时,该PC为空序列;
NE为核酸内切酶的编码序列;
M为选择性标记。
在本发明中,上述核苷酸序列的其余部分是不重要的,只要其包含上述结构即可。然而,优选地,上述核苷酸序列的其余部分不包含该IIS型限制性内切酶识别位点。
在第四个方面,本发明涉及一种组装DNA结合结构域元件的方法,其中所述DNA序列由不多于20个碱基组成:
(1)根据目标DNA序列,将DNA序列按5’到3’端分为m个碱基组,第一个碱基组由2个碱基组成,第m个碱基组由1个碱基组成,其他各组由1个或2个碱基组成,其中m为7、8、9、10、11、12、13或14;
(2)根据所述m个碱基组的碱基序列,设计m个对应的核苷酸序列,和表达载体;
其中第n种核苷酸序列包含下述结构:
R1-Ln-Xn-Ln+1-R2
其中n是1至m的自然数;
R1和R2分别为IIS型限制性内切酶识别序列及其反向互补序列;
Ln和Ln+1为i个核苷酸的接头序列,i为该IIS型选择性内切酶酶切产生的粘性末端的长度;
其中,
L1为SEQ ID NO:2的编码序列的j1至j1+i-1位;
Lm+1为SEQ ID NO:3的编码序列的jm+1至jm+1+i-1位;
Lk为SEQ ID NO:1的编码序列的jk至jk+i-1位,k是2至m的自然数;
其中j1选自1至970-i;
jm+1选自1至730-i;
当k为2至m时,jk选自1至97-i,
且L1至Lm+1彼此各不相同;
对于第1个碱基组,Xn为YD1
对于第m个碱基组,Xn为YE,
对于第2至m-1个碱基组,当该碱基组由一个碱基组成时,Xn为YSn,而当该碱基组由两个碱基组成时,Xn为YDn
其中YDn为FLn-YLn-FMn-YRn-FRn
YSn为FLn-Yn-FRn
YE为FLm-Ym-FRE,
其中,
当n=1时,
FL1为SEQ ID NO:2的编码序列的j1+i至969位,但当j1=970-i时,该FL1为空序列,
其他情况下:
FLn为SEQ ID NO:1的编码序列的jn+i至96位,但当jn=97-i时,该FLn为空序列,
FRn为SEQ ID NO:1的编码序列的1至jn+1-1位,但当jn+1=1时,该FRn为空序列,
FMn为SEQ ID NO:1的编码序列,
FRE为SEQ ID NO:3的编码序列的1至jm+1-1位,但当jm+1=1时,该FRE为空序列,
其中Yn、YLn、YRn彼此独立地为碱基A、C、T或G的TALE识别序列的编码序列。
当该碱基组由一个碱基组成时,Yn为该碱基的TALE识别序列的编码序列,而当该碱基组由两个碱基组成时,YLn和YRn分别为所述碱基组中第一个和第二个YDn碱基的TALE识别序列的编码序列;
其中所述表达载体包含下述结构:
PN-L1-R2-M-R1-Lm+1-PC-NE,
R1和R2的定义如上所述;
PN为SEQ ID NO:2的编码序列的1至j1-1位,但当j1=1时,该PN为空序列;
PC为SEQ ID NO:3的编码序列的jm+1+i至729位,但当jm+1=730-i时,该PC为空序列;
NE为核酸内切酶的编码序列;
M为选择性标记;
任选地,所述m种核苷酸序列并非设计的,而是直接从如本发明第三个方面所述的20(m-1)个核苷酸中选取的;
(3)将所述m种核苷酸序列与所述表达载体混合;
(4)将(3)中的混合物用所述IIS型限制性内切酶酶切,然后用DNA连接酶连接;
任选地,本发明的该方面还包括回收所述包含组装的DNA结合结构域元件的表达载体的方法,所述方法进一步包括下述步骤:
(5)用(4)的反应产物转化、转导或转染宿主细胞,并针对选择性标记M筛选包含表达载体的宿主细胞;
(6)在适于表达载体增殖的条件下,培养经筛选的宿主细胞,和
(7)从培养的宿主细胞回收经增殖的表达载体。
在本发明中,上述核苷酸序列的其余部分是不重要的,只要其包含上述结构即可。然而,优选地,上述核苷酸序列的其余部分不包含该IIS型限制性内切酶识别位点。
在一个实施方案中,SEQ ID NO:1的编码序列为:
GGNGGNAARCARGCNYTNGARACNGTNCARMGNYTNYTNCCNGTNYTNTGYCARGAYCAYGGNYTNACNCCNGAYCARGTNGTNGCNATHGCNWSN(SEQ ID NO:5)
在一个实施方案中,SEQ ID NO:2的编码序列为:
ATGGCNWSNWSNCCNCCNAARAARAARMGNAARGTNWSNTGGAARGAYGCNWSNGGNTGGWSNMGNATGCAYGCNGAYCCNATHMGNCCNMGNMGNCCNWSNCCNGCNMGNGARYTNYTNCCNGGNCCNCARCCNGAYMGNGTNCARCCNACNGCNGAYMGNGGNGTNWSNGCNCCNGCNGGNWSNCCNYTNGAYGGNYTNCCNGCNMGNMGNACNGTNWSNMGNACNMGNYTNCCNWSNCCNCCNGCNCCNWSNCCNGCNTTYWSNGCNGGNWSNTTYWSNGAYYTNYTNMGNCCNTTYGAYCCNWSNYTNYTNGAYACNWSNYTNYTNGAYWSNATGCCNGCNGTNGGNACNCCNCAYACNGCNGCNGCNCCNGCNGARTGGGAYGARGCNCARWSNGCNYTNMGNGCNGCNGAYGAYCCNCCNCCNACNGTNMGNGTNGCNGTNACNGCNGCNMGNCCNCCNMGNGCNAARCCNGCNCCNMGNMGNMGNGCNGCNCARCCNWSNGAYGCNWSNCCNGCNGCNCARGTNGAYYTNMGNACNYTNGGNTAYWSNCARCARCARCARGARAARATHAARCCNAARGTNMGNWSNACNGTNGCNCARCAYCAYGARGCNYTNGTNGGNCAYGGNTTYACNCAYGCNCAYATHGTNGCNYTNWSNCARCAYCCNGCNGCNYTNGGNACNGTNGCNGTNACNTAYCARCAYATHATHACNGCNYTNCCNGARGCNACNCAYGARGAYATHGTNGGNGTNGGNAARCARTGGWSNGGNGCNMGNGCNYTNGARGCNYTNYTNACNGAYGCNGGNGARYTNMGNGGNCCNCCNYTNCARYTNGAYACNGGNCARYTNGTNAARATHGCNAARMGNGGNGGNGTNACNGCNATGGARGCNGTNCAYGCNWSNMGNAAYGCNYTNACNGGNGCNCCNYTNAAYYTNACNCCNGAYCARGTNGTNGCNATHGCNWSN(SEQ ID NO:6)。
在一个实施方案中,SEQ ID NO:3的编码序列为:
GGNGGNAARCARGCNYTNGARWSNATHGTNGCNCARYTNWSNMGNCCNGAYCCNGCNYTNGCNGCNYTNACNAAYGAYCAYYTNGTNGCNYTNGCNTGYYTNGGNGGNMGNCCNGCNATGGAYGCNGTNAARAARGGNYTNCCNCAYGCNCCNGARYTNATHMGNMGNGTNAAYMGNMGNATHGGNGARMGNACNWSNCAYMGNGTNGCNGAYTAYGCNCARGTNGTNMGNGTNYTNGARTTYTTYCARTGYCAYWSNCAYCCNGCNTAYGCNTTYGAYGARGCNATGACNCARTTYGGNATGWSNMGNAAYGGNYTNGTNCARYTNTTYMGNMGNGTNGGNGTNACNGARYTNGARGCNMGNGGNGGNACNYTNCCNCCNGCNWSNCARMGNTGGGAYMGNATHYTNCARGCNWSNGGNATGAARMGNGCNAARCCNWSNCCNACNWSNGCNCARACNCCNGAYCARGCNWSNYTNCAYGCNTTYGCNGAYWSNYTNGARMGNGAYYTNGAYGCNCCNWSNCCNATGCAYGARGGNGAYCARACNMGNGCNWSNWSNMGNAARMGNWSNMGNWSNGAYMGNGCNGTNACNGGNCCNWSNGCNCARCARGCNGTNGARGTNMGNGTNCCNGARCARMGNGAYGCNYTNCAYYTNCCNYTNWSNTGGMGNGTNAARMGNCCNMGNACNMGNATHTGGGGNGGNYTNCCNGAYCCNATHWSNMGNWSNCAR(SEQ IDNO:7)。
在一个实施方案中,m为8至12的自然数。在一个优选实施方案中,m为9至11的自然数。在一个优选实施方案中,m是10。
在一个实施方案中,所述核苷酸序列是载体。本领域技术人员可选择合适的载体,所述载体以适于在宿主细胞中复制为宜。在一个优选实施方案中,所述载体可在所述宿主细胞中大量复制。
在一个实施方案中,所述载体是质粒。在一个优选实施方案中,所述质粒是多拷贝质粒。
在一个实施方案中,所述宿主是真核宿主。在另一个实施方案中,所述宿主是原核宿主。在一个优选实施方案中,所述原核宿主是大肠杆菌。
在一个实施方案中,所述载体是病毒载体。
在一个实施方案中,i为3、4或5,优选为4。
在一个实施方案中,所述IIS型限制性内切酶是BsmBI,而相应地,R1和R2分别是BsmBI识别序列CGTCTCN及其反向互补序列NGAGACG,i=4。
在一个实施方案中,j1为1至969的自然数,即1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729、730、731、732、733、734、735、736、737、738、739、740、741、742、743、744、745、746、747、748、749、750、751、752、753、754、755、756、757、758、759、760、761、762、763、764、765、766、767、768、769、770、771、772、773、774、775、776、777、778、779、780、781、782、783、784、785、786、787、788、789、790、791、792、793、794、795、796、797、798、799、800、801、802、803、804、805、806、807、808、809、810、811、812、813、814、815、816、817、818、819、820、821、822、823、824、825、826、827、828、829、830、831、832、833、834、835、836、837、838、839、840、841、842、843、844、845、846、847、848、849、850、851、852、853、854、855、856、857、858、859、860、861、862、863、864、865、866、867、868、869、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884、885、886、887、888、889、890、891、892、893、894、895、896、897、898、899、900、901、902、903、904、905、906、907、908、909、910、911、912、913、914、915、916、917、918、919、920、921、922、923、924、925、926、927、928、929、930、931、932、933、934、935、936、937、938、939、940、941、942、943、944、945、946、947、948、949、950、951、952、953、954、955、956、957、958、959、960、961、962、963、964、965、966、967、968、969。在一个优选的实施方案中,j1选自891至967,更优选j1选自901至961,更优选j1选自911至951,更优选j1选自921至941,更优选j1为931。
或者,在一个实施方案中,j1为a至b的自然数,其中a和b均选自1至969的自然数,即a和b选自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729、730、731、732、733、734、735、736、737、738、739、740、741、742、743、744、745、746、747、748、749、750、751、752、753、754、755、756、757、758、759、760、761、762、763、764、765、766、767、768、769、770、771、772、773、774、775、776、777、778、779、780、781、782、783、784、785、786、787、788、789、790、791、792、793、794、795、796、797、798、799、800、801、802、803、804、805、806、807、808、809、810、811、812、813、814、815、816、817、818、819、820、821、822、823、824、825、826、827、828、829、830、831、832、833、834、835、836、837、838、839、840、841、842、843、844、845、846、847、848、849、850、851、852、853、854、855、856、857、858、859、860、861、862、863、864、865、866、867、868、869、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884、885、886、887、888、889、890、891、892、893、894、895、896、897、898、899、900、901、902、903、904、905、906、907、908、909、910、911、912、913、914、915、916、917、918、919、920、921、922、923、924、925、926、927、928、929、930、931、932、933、934、935、936、937、938、939、940、941、942、943、944、945、946、947、948、949、950、951、952、953、954、955、956、957、958、959、960、961、962、963、964、965、966、967、968、969,且a≤b。
在一个实施方案中,jk为1至96的自然数,即1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96。在一个优选实施方案中,jk为5至90的自然数。在一个优选实施方案中,jk为10至85的自然数。在一个优选实施方案中,jk为15至80的自然数。在一个优选实施方案中,jk为20至75的自然数。在一个优选实施方案中,jk为25至70的自然数。在一个优选实施方案中,jk为30至65的自然数。在一个优选实施方案中,jk为35至60的自然数。在一个优选实施方案中,jk为40至55的自然数。在一个优选实施方案中,jk为45至50的自然数。
在一个优选实施方案中,jk为49至94的自然数。在一个优选实施方案中,jk为50至93的自然数。在一个优选实施方案中,jk为51至92的自然数。在一个优选实施方案中,jk为52至91的自然数。在一个优选实施方案中,jk为53至90的自然数。在一个优选实施方案中,jk为54至89的自然数。在一个优选实施方案中,jk为55至88的自然数。在一个优选实施方案中,jk为56至87的自然数。在一个优选实施方案中,jk为57至86的自然数。
或者,在一个实施方案中,jk为a至b的自然数,其中a和b均选自1至96的自然数,即a和b选自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96,且a≤b。
在一个实施方案中,jm+1为1至729的自然数,即1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729。在一个优选的实施方案中,j1选自891至967,更优选j1选自901至961,更优选j1选自911至951,更优选j1选自921至941,更优选j1为931。在一个优选实施方案中,jm+1选自1至727,更优选jm+1选自3至143,更优选jm+1选自13至133,更优选jm+1选自23至123,更优选jm+1选自33至113,更优选jm+1选自43至103,更优选jm+1选自53至93,更优选jm+1选自63至83,更优选jm+1为73。
或者,在一个实施方案中,jm+1为a至b的自然数,其中a和b均选自1至729的自然数,即a和b选自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729,且a≤b。
在一个优选实施方案中,FMn可为:
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,或
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGC。
在一个优选实施方案中,FL1可为:
ACCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC。
在一个优选实施方案中,其中当k为2至m时,FLk可为:
GGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
GCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
CCTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
CTGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
TGACCCCGGACCAAGTGGTGGCTATCGCCAGC,
GACTCCGGACCAAGTGGTGGCTATCGCCAGC,
ACCCCGGACCAAGTGGTGGCTATCGCCAGC,
CGGACCAAGTGGTGGCTATCGCCAGC,或
CGCCAGC。
在一个优选实施方案中,FRn可为:
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGA,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGAC,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACC,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCA,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCAT,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATG,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGG,
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTG,或
GGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGG。
在一个优选实施方案中,FRE可为:
GGCGGCAAGCAAGCGCTCGAAAGCATTGTGGCCCAGCTGAGCCGGCCTGATCCGGCGTTGGCCGCGTTGACC。
在一个优选实施方案中,L1为CTGA。
在一个优选实施方案中,Lm+1为AACG。
在一个优选实施方案中,Lk选自
CTGA,
CCAT,
CATG,
ATGG,
TGGC,
GGCC,
GCCT,
CCTG,
ACCC,和
CTAT;
其中k为2至m。
在一个优选实施方案中,所述NE为Fok I的编码序列,优选地,所述NE为SEQ IDNO:4的编码序列,更优选地,所述NE为SEQ ID NO:8。
在一个实施方案中,所述选择性标记M为LacZ。
在一个实施方案中,所述表达载体还包含荧光蛋白。在一个优选实施方案中,所述荧光蛋白是GFP。在一个优选实施方案中,所述荧光蛋白是RFP。在一个优选实施方案中,所述表达载体为pCMV-TALEN。在一个优选实施方案中,所述表达载体为pCMV-TALEN-GFP。在一个优选实施方案中,所述表达载体为pCMV-TALEN-RFP。
在一个特别优选的实施方案中,本发明第三个方面所述的试剂盒是包括下述180个DNA序列的试剂盒:
(1)144个包含“双碱基重复单元表达元件”的DNA序列,所述“双碱基重复单元表达元件”的序列如SEQ ID NO:11~154所示;
(2)32个包含“单碱基重复单元表达元件”的DNA序列,所述“单碱基重复单元表达元件”的序列如SEQ ID NO:155~186所示;
(3)4个包含“末位单碱基重复单元表达元件”的DNA序列,所述“末位单碱基重复单元表达元件”的序列如SEQ ID NO:187~190所示;
任选地,所述试剂盒还包括
(4)已构建的哺乳动物真核表达载体,其可为pCMV-TALEN。
在一个特别优选的实施方案中,本发明第三个方面所述的试剂盒是包括下述180个环状质粒的试剂盒:
(1)144个“双碱基重复单元表达元件质粒”,每个质粒由一个“双碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,命名为pXX-n,XX为A、C、T、G的所有16种两两组合,n为1-9,其中所述双碱基重复单元表达元件”的序列如SEQ ID NO:11~154所示;
(2)32个“单碱基重复单元表达元件质粒”,每个质粒由一个“单碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,命名为pX-n,X为A、T、C或G,n为2-9,其中所述“单碱基重复单元表达元件”的序列如SEQ ID NO:155~186所示;
(3)4个“末位单碱基重复单元表达元件质粒”,每个质粒由一个“末位单碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,分别是pC-L、pG-L、pA-L和pT-L,其中所述“末位单碱基重复单元表达元件”的序列如SEQ ID NO:187~190所示;
其中,所述5’和3’侧翼质粒骨架序列分别为SEQ ID NO:9和10;
任选地,所述试剂盒还包括
(4)已构建的哺乳动物真核表达载体,其可为pCMV-TALEN。
使用组装的DNA结合结构域元件实现基因组的定向修饰
在使用上述方法组装了DNA结合结构域元件之后,可以用其来实现基因组的定向修饰。举例而言,可选择目标序列中相距8~30个,优选相距12~25个,优选相距16~19个核苷酸的两段核苷酸序列,这两段核苷酸序列优选不多于20个核苷酸。以这两段核苷酸序列中靠5’端的序列为TALEN蛋白识别结合的5’侧位点序列,以靠3’端的序列的反向互补序列为TALEN蛋白识别结合的3’侧位点序列,分别对其如上所述方法设计并组装DNA结合结构域元件。将分别包含这两个组装的DNA结合结构域元件的表达载体在宿主细胞中增殖之后进行提取,然后用提取的表达载体转染哺乳动物目标细胞,在该目标细胞中表达这两种表达载体,从而实现目标细胞中目标序列的定向修饰,例如敲除。
本发明使用一种新型的DNA结合结构域元件构建策略和配套使用的核苷酸序列,可以实现TALEN蛋白的真核表达载体的快速构建,并且用于哺乳动物基因组的定点遗传修饰。
与传统的TALEN蛋白的真核表达载体的构建方法相比,本发明在以下方面具有优势:
一.载体构建的时间缩短。
“顺序克隆”方法来构建一个含有15-19个重复单元的TALEN蛋白的真核表达载体,需要6轮操作,每一轮操作所需要的时间为3天,总共需要18天左右。本发明中,通过使用“多片段DNA定向连接策略”和配套的核苷酸序列,构建一个含有15-19个重复单元的TALEN蛋白的真核表达载体,只需要1轮操作,耗时2天左右。
二.载体构建的成本降低
“顺序克隆”方法中,每一轮操作都包括:DNA的酶切、目的DNA片段的纯化回收、DNA插入片度和载体的连接、连接产物转化大肠杆菌、筛选鉴定含有重组载体的阳性菌和重组载体质粒的提取。每一个步骤都意味着投入的耗材、试剂和人力的成本。“顺序克隆”方法来构建一个含有20个重复单元的TALEN蛋白的真核表达载体,需要6轮操作。本发明中,通过使用新型核苷酸序列连接策略和配套的核苷酸序列,构建一个含有15-19个重复单元的TALEN蛋白的真核表达载体,只需要1轮操作。每轮操作包括:一管式核苷酸序列连接、连接产物转化细菌、筛选鉴定含有重组载体的阳性菌和重组表达载体质粒的提取。以当前耗材和试剂成本考虑,构建20个重复单元的TALEN蛋白的真核表达载体,较之“顺序克隆”方法,耗材和试剂成本可以降低95%。
三.载体建构的技术难度降低
“顺序克隆”方法构建一个含有15-19个重复单元的TALEN蛋白的真核表达载体,需要6轮操作,每一轮操作所需要的时间为3天,这种操作水平需要有经验的熟练技工才能够实现。本发明中,通过使用新型核苷酸序列连接策略和配套的核苷酸序列,简化了所有的需要经验操作的步骤,实现操作流程化,因此消除了对熟练技工的经验依赖。
四.本发明中,表达载体的载体骨架上可引入选择性标记的表达单元,通过筛选可以直接鉴定出含有阳性重组质粒的菌落克隆,极大的简化了阳性重组载体的筛选过程。
五.本发明中,可在表达载体的基础上,分别添加了绿色荧光蛋白GFP和红色荧光蛋白RFP的表达元件,衍生出含GFP和RFP的载体。在进行基因组修饰的细胞水平实验中,所述载体极大的方便了转化、转染、转导细胞的效率检测和TALEN蛋白表达的检测。
六.本发明中,可在表达载体中的TALEN表达元件前设置T7启动子,可以用于TALEN蛋白mRNA的体外转录制备,适宜于需要通过TALENmRNA来实现基因组修饰的实验。
七.本发明的整个过程操作简单、成本低、效率高,很容易实现自动化和高通量操作。
该方法不仅适用于实验室小规模的单个基因功能研究,也适用于大规模的功能基因组学研究。
下面以实施例对本发明进行进一步说明。所述实施例仅以例示本发明为目的,而非对本发明进行任何方式的限定。本发明要求保护的范围以所附权利要求书为准。
我们提供了6个实施例来对本发明进一步说明,分别对以下基因进行基因组敲除修饰:
实施例1:利用本发明的方法,构建实现对小鼠基因组中的GDF8基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
实施例2:利用本发明的方法,构建实现对人基因组中的FUT1基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
实施例3:利用本发明的方法,构建实现对猪基因组中的Myostatin基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
实施例4:利用本发明的方法,构建实现对牛基因组中的朊蛋白PRNP基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
实施例5:利用本发明的方法,构建实现对人基因组中的Leptin基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
实施例6:利用本发明的方法,构建实现对小鼠基因组中的Leptin基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
实施例1:利用本发明的方法,构建实现对小鼠基因组中的GDF8基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
一.小鼠GDF8基因TALEN作用位点的选择
根据小鼠的GDF8基因DNA序列(来源NCBI,GI:NM_010834.2),选择cctacaacagtgtttgtgc(19个碱基,下划线标记)作为TALEN蛋白识别结合的5’侧位点序列,选择accgtctttcatgggttt(18个碱基,粗体标记序列的反向互补序列)作为TALEN蛋白识别结合的3’侧位点序列
1 gtctctcgga cggtacatgc actaatattt cacttggcat tactcaaaag caaaaagaag
61 aaataagaac aagggaaaaa aaaagattgt gctgattttt aaaatgatgc aaaaactgca
121 aatgtatgtt tatatttacc tgttcatgct gattgctgct ggcccagtgg atctaaatga
181 gggcagtgag agagaagaaa atgtggaaaa agaggggctg tgtaatgcat gtgcgtggag
241 acaaaacacg aggtactcca gaatagaagc cataaaaatt caaatcctca gtaagctgcg
301 cctggaaaca gctcctaaca tcagcaaaga tgctataaga caacttctgc caagagcgcc
361 tccactccgg gaactgatcg atcagtacga cgtccagagg gatgacagca gtgatggctc
421 tttggaagat gacgattatc acgctaccac ggaaacaatc attaccatgc ctacagagtc
481 tgactttcta atgcaagcgg atggcaagcc caaatgttgc ttttttaaat ttagctctaa
541 aatacagtac aacaaagtag taaaagccca actgtggata tatctcagac ccgtcaagac
601 tcctacaaca gtgtttgtgc aaatcctgag actcatcacaag
661 gtatactgga atccgatctc tgaaacttga catgagccca ggcactggta tttggcagag
721 tattgatgtg aagacagtgt tgcaaaattg gctcaaacag cctgaatcca acttaggcat
781 tgaaatcaaa gctttggatg agaatggcca tgatcttgct gtaaccttcc caggaccagg
841 agaagatggg ctgaatccct ttttagaagt caaggtgaca gacacaccca agaggtcccg
901 gagagacttt gggcttgact gcgatgagca ctccacggaa tcccggtgct gccgctaccc
961 cctcacggtc gattttgaag cctttggatg ggactggatt atcgcaccca aaagatataa
1021 ggccaattac tgctcaggag agtgtgaatt tgtgttttta caaaaatatc cgcatactca
1081 tcttgtgcac caagcaaacc ccagaggctc agcaggccct tgctgcactc cgacaaaaat
1141 gtctcccatt aatatgctat attttaatgg caaagaacaa ataatatatg ggaaaattcc
1201 agccatggta gtagaccgct gtgggtgctc atgagctttg cattaggtta gaaatttccc
1261 aagtcatgga aggtcttccc ctcaatttcg aaactgtgaa ttcaagcacc acaggctgta
1321 ggccttgagt atgctctagt aacgtaagca caagctacag tgtatgaact aaaagagaga
1381 atagatgcaa tggttggcat tcaaccacca aaataaacca tactatagga tgttgtatga
1441 tttccagagt ttttgaaata gatggagatc aaattacatt tatgtccata tatgtatatt
1501 acaactacaa tctaggcaag gaagtgagag cacatcttgt ggtctgctga gttaggaggg
1561 tatgattaaa aggtaaagtc ttatttccta acagtttcac ttaatattta cggaagaatc
1621 tatatgtagc ctttgtaaag tgtaggattg ttatcattta aaaacatcat gtacacttat
1681 atttgtattg tatacttggt aagataaaat tccacaaagt aggaatgggg ccttacatac
1741 acattgccat tcctattata attggacaat ccaccacggt gctaatgcag tgctgaatgg
1801 ctcctactgg acctctcgat agaacactct acaaagtacg agtctctctc tcccttccag
1861 gtgcatctcc acacacacag cactaagtgt tcaatgcatt ttctttaagg aaagaagaat
1921 ctttttttct agaggtcaac tttcagtcaa ctctagcaca gcgggagtga ctgctgcatc
1981 ttaaaaggca gccaaacagt attcattttt taatctaaat ttcaaaatca ctgtctgcct
2041 ttatcacatg gcaattttgt ggtaaaataa tggaaatgac tggttctatc aatattgtat
2101 aaaagactct gaaacaatta catttatata atatgtatac aatattgttt tgtaaataag
2161 tgtctccttt tatatttact ttggtatatt tttacactaa tgaaatttca aatcattaaa
2221 gtacaaagac atgtcatgta tcacaaaaaa ggtgactgct tctatttcag agtgaattag
2281 cagattcaat agtggtctta aaactctgta tgttaagatt agaaggttat attacaatca
2341 atttatgtat tttttacatt atcaacattc acttatggtt tcatggtggc tgtatctatg
2401 aatgtggctc ccagtcaaat ttcaatgccc caccatttta aaaattacaa gcattactaa
2461 acataccaac atgtatctaa agaaatacaa atatggtatc tcaataacag ctactttttt
2521 attttataat ttgacaatga atacatttct tttatttact tcagttttat aaattggaac
2581 tttgtttatc aaatgtattg tactcatagc taaatgaaat tatttcttac ataaaaatgt
2641 gtagaaacta taaattaaag tgttttcaca tttttgaaag gc
二.载体构建步骤
1.重复单元表达元件质粒载体的选择
根据5’侧位点序列CCTACAACAGTGTTTGTGC,N=19,构建5’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pCC-1、pTA-2、pCA-3、pAC-4、pAG-5、pTG-6、pTT-7、pTG-8和pTG-9;
选择第19位碱基对应的“末位单碱基重复单元表达元件质粒”pC-L。
根据3’侧位点序列ACCGTCTTTCATGGGTTT,N=18,构建3’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pAC-1、pCG-2、pTC-3、pTT-4、pTC-5、pAT-6、pGG-7和pGT-8;
选择第17位碱基对应的“单碱基重复单元表达元件质粒”pT-9;
选择第18位碱基对应的“末位单碱基重复单元表达元件质粒”pT-L。
2.选择一个哺乳动物真核表达载体,pCMV-TALEN。
3.分别对构建5’侧和3’侧TALEN蛋白的重复单元表达质粒进行多片段DNA连接反应,实现含有完整DNA结合结构域元件的TALEN蛋白表达元件一步法克隆到哺乳动物表达载体。
反应体系1:
选择的5’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应体系2:
选择的3’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应条件:将上述2个反应体系分别置于PCR仪器中,运行程序
10个循环: 37℃ 5分钟
16℃ 10分钟
1个循环: 50℃ 5分钟
1个循环: 80℃ 5分钟
4.取上述2个反应体系中的反应产物分别转化细菌感受态细胞。
5.将上述2组感受态细胞分别涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。
6.待上述LB固体平板生长出细菌单菌落,挑选白色菌落克隆,进行菌体PCR,鉴定转化了重组质粒的阳性克隆。PCR扩增使用的引物为:TALE_F1:ttgatgcctggcagttccct和TALE_R1:cgaaccgaacaggcttatgt。实验结果表明,2组感受态细胞的阳性克隆率均大于95%。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
55℃ 20秒
72℃ 1.5分钟
1个循环: 72℃ 5分钟
7.对于2组感受态细胞分别选择转化了重组质粒的阳性克隆,挑取单菌落接种于5ml的LB液体培养基(含50ug/L Amp),过夜培养。
8.对于2组培养分别提取质粒,用于小鼠基因组中GDF8基因的基因敲除。
三.TALEN载体表达蛋白活性验证
9.准备小鼠成肌细胞系C2C12,在12孔细胞培养板中对C2C12细胞进行质粒转染,实验中使用脂质体Lipofectamine2000(Invitrogen)进行转染。
10.等比例混合2微克5端TALEN表达载体质粒和2微克3端TALEN表达载体质粒,转染导入培养板的细胞。
11.转染后,培养72小时,收获细胞,提取总基因组DNA。
12.设计PCR引物,对小鼠基因组中修饰后的目的基因片段进行PCR扩增。PCR扩增使用的引物为:GDF8-F1:tgactttctaatgcaagcgg和GDF8-R1:cctggtcctgggaaggttac。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
56℃ 20秒
72℃ 40秒
1个循环: 72℃ 5分钟
13.将上述PCR产物纯化后,进行TA克隆,连接到测序载体,转化细菌感受态细胞。将上述感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。待上述LB固体平板生长出细菌单菌落,挑选50个白色菌落单克隆,进行测序。
14.经过测序,共获得49条DNA序列,经过分析,结果如下:
36条是野生型的目的序列,这是没有被TALEN进行修饰的目的DNA;
13条是包括不同突变型类型的目的序列(结果如下),这是被TALEN进行修饰过的DNA,
Ccgtcaagactcctacaacagtgtttgtgcaaatcctgagactcatcacaag 野生型
Ccgtcaagactcctacaacagtgtttgtgcaaatcctg--actcatcacaag 突变型1
ccgtcaagactcctacaacagtgtttgtgcaaatcc---gactcatcacaag 突变型2
ccgtcaagactcctacaacagtgtttgtgcaaatcc-----ctcatcacaag 突变型3
ccgtcaagactcctacaacagtgtttgtgcaaatc------ctcatcacaag 突变型4
ccgtcaagactcctacaacagtgtttgtgcaaa------gactcatcacaag 突变型5
ccgtcaagactcctacaacagtgtttgtgcaaa-------------cacaag 突变型6
ccgtcaagactcctacaacagtgtttgt--------------tcatcacaag 突变型7
ccgtcaagactcctacaacagtgtttgtgcaaa-----------tcacaag 突变型8
ccgtcaagactcctacaacagtgtttgtgcaaa----------tcacaag 突变型9
因此,本试验中针对小鼠基因组中GDF8基因,在细胞水平通过TALEN蛋白实现基因敲除的效率为13/49=25%。
实施例2:利用本发明的方法,构建实现对人基因组中的FUT1基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
一.人FUT1基因TALEN作用位点的选择
根据人的FUT1序列(来源NCBI,GI:NM 000148.3),选择gatgctgcggctgctcaga(19个碱基,下划线标记)作为TALEN蛋白识别结合的5’侧位点序列,选择gcgcgaaggcttcaccc(17个碱基,粗体标记序列的反向互补序列)作为TALEN蛋白识别结合的3’侧位点序列
1 gaaagtccct gactggagtt ggcagccaag ccaggccctg gagtgggcac ccagagggaa
61 gacaggttgg ctaatttcct ggagccccta agggtgcaag ggggaagaac acccacccgc
121 aaagccccgt agggctggac cctacgttag cctgccctgc tcggggttgg cgatgctgga
181 ggtgggcctt ggaccagaga aaatgcttta attaggtgac aagcgggcag aggcctttgt
241 ctctggcgcc ggcagccacg gcccccgctg acggcgtggg aaacagaccc tgttccactc
301 cggtctccag ccttggaatg gttgccttcg tgcagtgcag gaggacgcgg cagagggcgg
acgatcgctc cactcgccgg gaccaggtgc gggggccctg cccagccgct ggggcgtggc
421 caggctcgaa gcacccaggt gtcgggggcc gactctaagc cctggcaccg gaagagagag
481 ggcggcggat tggacctccc ggctccagca ttgcaactgg gcgctccgtc tcctggtcca
541 cgcaatgatg ctgcggctgc tcagaagcca ggtagcctgc cct
601 aggtcaatga cggggcggag gggcagggcg cggtcccctg catccccgat ctggggagcg
661 gtgggcccag gggccatcgc cttagcccct ggcgctgggg ctcggcgcca agtgacgggc
721 ggggctccac cttccagcca tccgcccggc ccgggagggc ggacgctgcg agactcccgg
781 ccgcgccctc tccttcctct cctccccaag ccctcgctgc cagtccggac aggctgcgcg
841 gaggggaggg ctgccgggcc ggatagccgg acgcctggcg ttccaggggc ggccggatgt
901 ggcctgcctt tgcggagggt gcgctccggc cacgaaaagc ggactgtgga tctgccacct
gcaagcagct cggccatgtg gctccggagc catcgtcagc tctgcctggc cttcctgcta
1021 gtctgtgtcc tctctgtaat cttcttcctc catatccatc aagacagctt tccacatggc
1081 ctaggcctgt cgatcctgtg tccagaccgc cgcctggtga cacccccagt ggccatcttc
1141 tgcctgccgg gtactgcgat gggccccaac gcctcctctt cctgtcccca gcaccctgct
1201 tccctctccg gcacctggac tgtctacccc aatggccggt ttggtaatca gatgggacag
1261 tatgccacgc tgctggctct ggcccagctc aacggccgcc gggcctttat cctgcctgcc
1321 atgcatgccg ccctggcccc ggtattccgc atcaccctgc ccgtgctggc cccagaagtg
1381 gacagccgca cgccgtggcg ggagctgcag cttcacgact ggatgtcgga ggagtacgcg
1441 gacttgagag atcctttcct gaagctctct ggcttcccct gctcttggac tttcttccac
1501 catctccggg aacagatccg cagagagttc accctgcacg accaccttcg ggaagaggcg
1561 cagagtgtgc tgggtcagct ccgcctgggc cgcacagggg accgcccgcg cacctttgtc
1621 ggcgtccacg tgcgccgtgg ggactatctg caggttatgc ctcagcgctg gaagggtgtg
1681 gtgggcgaca gcgcctacct ccggcaggcc atggactggt tccgggcacg gcacgaagcc
1741 cccgttttcg tggtcaccag caacggcatg gagtggtgta aagaaaacat cgacacctcc
1801 cagggcgatg tgacgtttgc tggcgatgga caggaggcta caccgtggaa agactttgcc
1861 ctgctcacac agtgcaacca caccattatg accattggca ccttcggctt ctgggctgcc
1921 tacctggctg gcggagacac tgtctacctg gccaacttca ccctgccaga ctctgagttc
1981 ctgaagatct ttaagccgga ggcggccttc ctgcccgagt gggtgggcat taatgcagac
2041 ttgtctccac tctggacatt ggctaagcct tgagagccag ggagactttc tgaagtagcc
2101 tgatctttct agagccagca gtacgtggct tcagaggcct ggcatcttct ggagaagctt
2161 gtggtgttcc tgaagcaaat gggtgcccgt atccagagtg attctagttg ggagagttgg
2221 agagaagggg gacgtttctg gaactgtctg aatattctag aactagcaaa acatcttttc
2281 ctgatggctg gcaggcagtt ctagaagcca cagtgcccac ctgctcttcc cagcccatat
2341 ctacagtact tccagatggc tgcccccagg aatggggaac tctccctctg gtctactcta
2401 gaagaggggt tacttctccc ctgggtcctc caaagactga aggagcatat gattgctcca
2461 gagcaagcat tcaccaagtc cccttctgtg tttctggagt gattctagag ggagacttgt
2521 tctagagagg accaggtttg atgcctgtga agaaccctgc agggccctta tggacaggat
2581 ggggttctgg aaatccagat aactaaggtg aagaatcttt ttagtttttt tttttttttt
2641 ttggagacag ggtctcgctc tgttgcccag gctggagtgc agtggcgtga tcttggctca
2701 ctgcaacttc cgcctcctgt gttcaagcga ttctcctgtc tcagcctcct gagtagatgg
2761 gactacaggc acaggccatt atgcctggct aatttttgta tttttagtag agacagggtt
2821 tcaccatgtt ggccaggatg gtctcgatct cctgaccttg tcatccacct gtcttggcct
2881 cccaaagtgc tgggattact ggcatgagcc actgtgccca gcccggatat ttttttttta
2941 attatttatt tatttattta tttattgaga cggagtcttg ctctgtagcc caggccagag
3001 tgcagtggcg cgatctcagc tcactgcaag ctctgcctcc cgggttcatg ccattctgcc
3061 tcagcctcct gagtagctgg gactacaggc gcccgccacc acgcccggct aatttttttt
3121 gtatttttag tagagacggg gtttcatcgt gttaaccagg atggtctcga tctcctgacc
3181 tcgtgatctg cccacctcgg cctcccacag tgctgggatt accggcgtga gccaccatgc
3241 ctggcccgga taattttttt taatttttgt agagacgagg tcttgtgata ttgcccaggc
3301 tgttcttcaa ctcctgggct caagcagtcc tcccaccttg gcctcccaga atgctgggtt
3361 tatagatgtg agccagcaca ccgggccaag tgaagaatct aatgaatgtg caacctaatt
3421 gtagcatcta atgaatgttc caccattgct ggaaaaattg agatggaaaa caaaccatct
3481 ctagttggcc agcgtcttgc tctgttcaca gtctctggaa aagctggggt agttggtgag
3541 cagagcggga ctctgtccaa caagccccac agcccctcaa agactttttt ttgtttgttt
3601 tgagcagaca ggctaaaatg tgaacgtggg gtgagggatc actgccaaaa tggtacagct
3661 tctggagcag aactttccag ggatccaggg acactttttt ttaaagctca taaactgcca
3721 agagctccat atattgggtg tgagttcagg ttgcctctca caatgaagga agttggtctt
3781 tgtctgcagg tgggctgctg agggtctggg atctgttttc tggaagtgtg caggtataaa
3841 cacaccctct gtgcttgtga caaactggca ggtaccgtgc tcattgctaa ccactgtctg
3901 tccctgaact cccagaacca ctacatctgg ctttgggcag gtctgagata aaacgatcta
3961 aaggtaggca gaccctggac ccagcctcag atccaggcag gagcacgagg tctggccaag
4021 gtggacgggg ttgtcgagat ctcaggagcc ccttgctgtt ttttggaggg tgaaagaaga
4081 aaccttaaac atagtcagct ctgatcacat cccctgtcta ctcatccaga ccccatgcct
4141 gtaggcttat cagggagtta cagttacaat tgttacagta ctgttcccaa ctcagctgcc
4201 acgggtgaga gagcaggagg tatgaattaa aagtctacag cactaa
二.载体构建步骤
1.重复单元表达元件质粒载体的选择
根据5’侧位点序列GATGCTGCGGCTGCTCAGA,N=19,构建5’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pGA-1、pTG-2、pCT-3、pGC-4、pGG-5、pCT-6、pGC-7、pTC-8和pAG-9;
选择第19位碱基对应的“末位单碱基重复单元表达元件质粒”pA-L。
根据3’侧位点序列GCGCGAAGGCTTCACCC,N=17,构建3’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pGC-1、pGC-2、pGA-3、pAG-4、pGC-5、pTT-6和pCA-7;
选择第15位碱基和16位碱基对应的“单碱基重复单元表达元件质粒”pC-8和pC-9;
选择第17位碱基对应的“末位单碱基重复单元表达元件质粒”pC-L。
2.选择一个哺乳动物真核表达载体,pCMV-TALEN。
3.分别对构建5’侧和3’侧TALEN蛋白的重复单元表达质粒进行多片段DNA连接反应,实现含有完整DNA结合结构域元件的TALEN蛋白表达元件一步法克隆到哺乳动物表达载体。
反应体系1:
选择的5’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应体系2:
选择的3’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应条件:将上述2个反应体系分别置于PCR仪器中,运行程序
10个循环: 37℃ 5分钟
16℃ 10分钟
1个循环: 50℃ 5分钟
1个循环: 80℃ 5分钟
4.取上述2个反应体系中的反应产物转化细菌感受态细胞
5.将上述2组感受态细胞分别涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。
6.待上述LB固体平板生长出细菌单菌落,挑选白色菌落克隆,进行菌体PCR,鉴定转化了重组质粒的阳性克隆。PCR扩增使用的引物为:TALE_F1:ttgatgcctggcagttccct和TALE_R1:cgaaccgaacaggcttatgt。实验结果表明,2组感受态细胞的阳性克隆率均大于95%。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
55℃ 20秒
72℃ 1.5分钟
1个循环: 72℃ 5分钟
7.对于2组感受态细胞分别选择转化了重组质粒的阳性克隆,挑取单菌落接种于5ml的LB液体培养基(含50ug/L Amp),过夜培养。
8.对于2组培养分别提取质粒,用于人基因组中FUT1基因的基因敲除。
三.TALEN载体表达蛋白活性验证
9.准备人胎肾细胞系HEK293,在12孔细胞培养板中对HER293细胞进行质粒转染,实验中使用脂质体Lipofectamine2000(Invitrogen)进行转染,
10.等比例混合2微克5端TALEN表达载体质粒和2微克3端TALEN表达载体质粒,转染导入培养板的细胞。
11.转染后,培养72小时,收获细胞,提取总基因组DNA。
12.设计PCR引物,对人基因组中修饰后的目的基因片段进行PCR扩增。PCR扩增使用的引物为:FUT1-F1:cactcgccgggaccaggtgc和FUT1-R1:cgcgcagcctgtccggactg。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
56℃ 20秒
72℃ 50秒
1个循环: 72℃ 5分钟
13.将上述PCR产物纯化后,进行TA克隆,连接到测序载体,转化细菌感受态细胞。将上述感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。待上述LB固体平板生长出细菌单菌落,挑选60个白色菌落单克隆,进行测序。
14.经过测序,共获得58条DNA序列,经过分析,结果如下:
42条是野生型的目的序列,这是没有被TALEN进行修饰的目的DNA;
16条是包括不同突变型类型的目的序列(结果如下),这是被TALEN进行修饰过的DNA,
cgcaatgatgctgcggctgctcagaagccaggtagcctgccctaggtcaatga 野生型
cgcaatgatgctgcggctgctcagaagccagg---cctgccctaggtcaatga 突变型1
cgcaatgatgctgcggctgctcagaagccaggt---ctgccctaggtcaatga 突变型2
cgcaatgatgctgcggctgctcagaagcca--------gccctaggtcaatga 突变型3
cgcaatgatgctgcggctgctcagaagcca------gccctaggtcaatga 突变型4
cgcaatgatgctgcggctgctcagaagccaggt--------aggtcaatga 突变型5
cgcaatgatgctgcggctgctcagaagccag-gccctaggtcaatga 突变型6
cgcaatgatgctgcggctgctcag---------------ccctaggtcaatga 突变型7
cgcaatgatgctgcggctgctcagaagccagg-----tgccctaggtcaatga 突变型8
因此,本试验中针对人基因组中FUT1基因,在细胞水平通过TALEN蛋白实现基因敲除的效率为16/58=28%。
实施例3:利用本发明的方法,构建实现对猪基因组中的Myostatin基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
一.猪Myostatin基因TALEN作用位点的选择
根据猪的Myostatin基因DNA序列(来源NCBI,GI:NM 214435),选择caaggtaacagacacacc(18个碱基,下划线标记)作为TALEN蛋白识别结合的5’侧位点序列,选择catcacagtcgagtccaaa(19个碱基,粗体标记序列的反向互补序列)作为TALEN蛋白识别结合的3’侧位点序列
1 atgcaaaaac tgcaaatcta tgtttatatt tacctgttta tgctgattgt tgctggtccc
61 gtggatctga atgagaacag cgagcaaaag gaaaatgtgg aaaaagaggg gctgtgtaat
121 gcatgtatgt ggagacaaaa cactaaatct tcaagactag aagccataaa aattcaaatc
181 ctcagtaaac ttcgcctgga aacagctcct aacattagca aagatgctat aagacaactt
241 ttgcccaaag ctcctccact ccgggaactg attgatcagt acgatgtcca gagagatgac
301 agcagtgatg gctccttgga agatgatgat tatcacgcta cgacggaaac gatcattacc
361 atgcctacag agtctgatct tctaatgcaa gtggaaggaa aacccaaatg ctgcttcttt
421 aaatttagct ctaaaataca atacaataaa gtagtaaagg cccaactgtg gatatatctg
481 agacccgtca agactcctac aacagtgttt gtgcaaatcc tgagactcat caaacccatg
541 aaagacggta caaggtatac tggaatccga tctctgaaac ttgacatgaa cccaggcact
601 ggtatttggc agagcattga tgtgaagaca gtgttgcaaa attggctcaa acaacctgaa
661 tccaacttag gcattgaaat caaagcttta gatgagaatg gtcatgatct tgctgtaacc
721 ttcccaggac caggagaaga tgggctgaat ccctttttag aagtcaaggt aacagacaca
781 ccaaaaagat ccaggagaga tagcactcaac agaatctcga
841 tgctgtcgtt accctctaac tgtggatttt gaagcttttg gatgggactg gattattgca
901 cccaaaagat ataaggccag ttactgctct ggagagtgtg aatttgtatt tttacaaaaa
961 taccctcaca ctcatcttgt gcaccaagca aaccccagag gttcagcagg cccctgctgt
1021 actcccacaa agatgtctcc aatcaatatg ctatatttta atggcaaaga acaaataata
1081 tatgggaaaa ttccagccat ggtagtagat cgctgtgggt gctcatga
二.载体构建步骤
1.重复单元表达元件质粒载体的选择
根据5’侧位点序列CAAGGTAACAGACACACC,N=18,构建5’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pCA-1、pAG-2、pGT-3、pAA-4、pCA-5、pGA-6、pCA-7和pCA-8;
选择第17位碱基对应的“单碱基重复单元表达元件质粒”pC-9;
选择第18位碱基对应的“末位单碱基重复单元表达元件质粒”pC-L。
根据3’侧位点序列CATCACAGTCGAGTCCAAA,N=19,构建3’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pCA-1、pTC-2、pAC-3、pAG-4、pTC-5、pGA-6、pGT-7、pCC-8和pAA-9。
选择第19位碱基对应的“末位单碱基重复单元表达元件质粒”pA-L。
2.选择一个哺乳动物真核表达载体,pCMV-TALEN。
3.分别对构建5’侧和3’侧TALEN蛋白的重复单元表达质粒进行多片段DNA连接反应,实现含有完整DNA结合结构域元件的TALEN蛋白表达元件一步法克隆到哺乳动物表达载体。
反应体系1:
选择的5’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应体系2:
选择的3’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应条件:将上述2个反应体系置于PCR仪器中,运行程序
10个循环: 37℃ 5分钟
16℃ 10分钟
1个循环: 50℃ 5分钟
1个循环: 80℃ 5分钟
4.取上述2个反应体系中的反应产物转化细菌感受态细胞。
5.将上述2组感受态细胞分别涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。
6.待上述LB固体平板生长出细菌单菌落,挑选白色菌落克隆,进行菌体PCR,鉴定转化了重组质粒的阳性克隆。PCR扩增使用的引物为:TALE_F1:ttgatgcctggcagttccct和TALE_R1:cgaaccgaacaggcttatgt。实验结果表明,2组感受态细胞的阳性克隆率均大于95%。
PCR的反应条件:
1个循环 : 94 2分钟
30个循环: 94℃ 20秒
55℃ 20秒
72℃ 1.5分钟
1个循环: 72℃ 5分钟
7.对于2组感受态细胞分别选择转化了重组质粒的阳性克隆,挑取单菌落接种于5ml的LB液体培养基(含50ug/L Amp),过夜培养。
8.对于2组培养分别提取质粒,用于猪基因组中Myostatin基因的基因敲除。
三.TALEN载体表达蛋白活性验证
9.准备猪胚胎成纤维细胞,在12孔细胞培养板中对细胞进行质粒转染,实验中使用脂质体Lipofectamine2000(Invitrogen)进行转染,
10.等比例混合2微克5端TALEN表达载体和2微克3端TALEN表达载体,转染导入培养板的细胞。
11.转染后,培养72小时,收获细胞,提取总基因组DNA。
12.设计PCR引物,对猪基因组中修饰后的目的基因片段进行PCR扩增。PCR扩增使用的引物为:Myostatin-F1:ttcccaggaccaggagaaga和Myostatin-R1:tgcttggtgcacaagatgag。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
56℃ 20秒
72℃ 40秒
1个循环: 72℃ 5分钟
13.将上述PCR产物纯化后,进行TA克隆,连接到测序载体,转化细菌感受态细胞。将上述感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。待上述LB固体平板生长出细菌单菌落,挑选100个白色菌落单克隆,进行测序。
14.经过测序,共获得93条DNA序列,经过分析,结果如下:
82条是野生型的目的序列,这是没有被TALEN进行修饰的目的DNA;
11条是包括不同突变型类型的目的序列(结果如下),这是被TALEN进行修饰过的DNA,
Agaagtcaaggtaacagacacaccaaaaagatccaggagagatagcac 野生型
Agaagtcaaggtaacagacacaccaaaaa--tccaggagagatagcac 突变型1
Agaagtcaaggtaacagacacaccaaaaa---ccaggagagatagcac 突变型2
Agaagtcaaggtaacagacacaccaaaaag------gagagatagcac 突变型3
Agaagtcaaggtaacagacacaccaaaaaga----------atagcac 突变型4
Agaagtcaaggtaacagacacaccaaa----------agagatagcac 突变型5
Agaagtcaaggtaacagacacaccaaaaagatcca-gagagatagcac 突变型6
Agaagtcaaggtaacagacacaccaaaaagatcaggagagatagcac 突变型7
Agaagtcaaggtaacagacacaccaaaa----------agatagcac 突变型8
Agaagtcaaggtaacagacacaccaaaaagat-----gagatagcac 突变型9
因此,本试验中针对猪基因组中Myostatin基因,在细胞水平通过TALEN蛋白实现基因敲除的效率为11/93=11%。
实施例4:利用本发明的方法,构建实现对牛基因组中的朊蛋白PRNP基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
一.牛PRNP基因TALEN作用位点的选择
根据牛的PRNP序列(来源NCBI,GI:NM_181015),选择ggagtgacgtgggcctct(18个碱基,下划线标记)作为TALEN蛋白识别结合的5’侧位点序列,选择gttccatcctcctccaggt(19个碱基,粗体标记序列的反向互补序列)作为TALEN蛋白识别结合的3’侧位点序列
1 gccagtcgct gacagccgca gagctgagag cgtcttctct ctcgcagaag caggacttct
61 gaatatattt gaaaactgaa cagtttcaac caagccgaag catctgtctt cccagagaca
121 caaatccaac ttgagctgaa tcacagcaga tataagtcat catggtgaaa agccacatag
181 gcagttggat cctggttctc tttgtggcca tgtggagtga cgtgggcctc tgcaagaagc
241 gaccaaaactg gggggagccg atacccagga cagggcagtc
301 ctggaggcaa ccgttatcca cctcagggag ggggtggctg gggtcagccc catggaggtg
361 gctggggcca gcctcatgga ggtggctggg gccagcctca tggaggtggc tggggtcagc
421 cccatggtgg tggctgggga cagccacatg gtggtggagg ctggggtcaa ggtggtaccc
481 acggtcaatg gaacaaaccc agtaagccaa aaaccaacat gaagcatgtg gcaggagctg
541 ctgcagctgg agcagtggta gggggccttg gtggctacat gctgggaagt gccatgagca
601 ggcctcttat acattttggc agtgactatg aggaccgtta ctatcgtgaa aacatgcacc
661 gttaccccaa ccaagtgtac tacaggccag tggatcagta tagtaaccag aacaactttg
721 tgcatgactg tgtcaatatc acagtcaagg aacacacagt caccaccacc accaaggggg
781 agaacttcac cgaaactgac atcaagatga tgaagcgagt ggtggagcaa atgtgcatta
841 cccagtacca gagagaatcc caggcttatt accaacgagg ggcaagtgtg atcctcttct
901 cttcccctcc tgtgatcctc ctcatctctt tcctcatttt tctcatagta ggataggggc
961 aaccttcctg ttttcattat cttcttaatc tttaccaggt tgggggaggg agtatctacc
1021 tgcagccccg tagtggtggt gtctcatttc gtgcttctct ctttgttacc tgtatgctaa
1081 tacccttggc gcttatagca ctgggaaatg aagagcagac atgagatgct gtttattcaa
1141 gtcccgttag ctcagtatgc taatgcccca tcttagcagt gattttgtag caattttctc
1201 atttgtttca agaacacgtg actacatttc ccttttggaa tagcatttct gccaagtctg
1261 gaaggaggcc acataatatt cattcaaaaa aacaaaccgg aaatccttag ttcatagacc
1321 cagggtccac ctggttgaga gcttgtgtcc tgtgtctgca gagaactata aaggatattc
1381 tgcattttgc aggttacatt tgcaggtaac acagccagct attgcatcaa gaatggatat
1441 tcatgcaacc tttgacttat gggtagagga cattttcaca aggaatgaac ataatacgaa
1501 aggcttctga gactaaaaaa ttccaacata tgggagaggt gcccttggtg gcagccttcc
1561 attttgtatg tttaaagcac cttcaagtgg tattcctttc tttagtaaca aagtatagat
1621 aattaagtta ccttaattta attaaactac cttctagaca ctgagagcaa atctgttgtt
1681 tatctggaac ccaggatgat tttgacattg tttagagatg tgagagttga actgtaaaga
1741 aagctgagtg ctgaagaatt gatgcttttg aactctagtg ttggagaaaa cttgagagtc
1801 ccttggactg caaggagatc aaattagtcc atcctaaagg agatcagtcc tgaatattca
1861 ttggaaggac tgatgctgaa cgtgaaactc caatactttg gccacctgat gggaagaact
1921 gaaggcagga ggagaagggg atgacagagg atgaagatgg ctggatggca tcatggattc
1981 aatggacatg agcttgagta aactccagga gttggcaatc gacggagtcc tggcatcctg
2041 cagtccatgg tgtcgcagag ttggacacga ctgagtgact gaactgaggt gaacccagat
2101 tttaacatag agaatgcaga tataaaaact ccatattcat ttgattgaat cttttcctta
2161 accagtgcta gtgttggact ggtaagatta taacaacaaa tataggttat gtgatgaaga
2221 gaatagtgta caaagaaaag aaatatgtgc atttctttat tgctatcata attgtcaaaa
2281 aacaaaatta ggtccttggt ttctgtaaaa ttaacttttg aatcaacagg gaggcattta
2341 aagaaatatc ttaaattaga gacagtagaa atctgataca ttcagagtgg aaaaagaaat
2401 tctattacga ttatttaaga aggtaaaatt atttcctggg ttgttcaata ttgtcaccta
2461 gcagatagac actattgttc tgcactgtta ttactggctt gcactttgtg gtatcctatg
2521 taaaaataca tatattgcat atgacagact taagaatttc tgttagagca attaacatct
2581 gaactatcta atgcattacc tgtttttgta aggtactttt tgtaaggtac taaggagacg
2641 tgggtttaat ccctaggtca tgtaaatccc ctggaggagg aaatagcaac ccactccagt
2701 attcttgcca ggagaatccc atgggcagag gagcctggca gggtgcagtc catgcatagg
2761 gttgcaaaga gtcagacaag acttgagcta ctaaacaata acaacaataa atgctgggtt
2821 ggctaaaagg ttcattaggt tttttttctg taagatggct gtctttaact tcattcgaaa
2881 caattttgtt agattgtatg tgacagctct tgtatcagca tgcatttgaa aaagaaaaca
2941 acttaccaaa attggtgaat ttttgtatag ccattttact attgaagatg gaagaaaaga
3001 agcaaaattt tcagcatatc atgctgtatt atttcaagaa agataacaca accaaaatgc
3061 gaaaatgtat ttgtgcagtg tatggagaag gtgctgcaac tgatcaagct tgtcaaagta
3121 gtttgtgaag tattgtgctg gagatttctt actggacaat gctccacagt cgggtatacc
3181 agttgaagtt gatagtgatc aaattgagat attgagaaca atcaatgtta taccacgtgg
3241 gagatagctg acatactcaa aatatccaaa tagaaccttg aaaaccattt gcaccatctc
3301 agttatgtta ataactttga tgtttgagtt ccacataaat taagcaaaaa aaaaacaaaa
3361 acaaaaacac acaaccttga ccatatttgc atatgcagtt ctctactgaa atgaatgaaa
3421 acacttttgt ttttaaaaac agattttgat gaacagtgga tactatacaa taacgtagaa
3481 tggaaaagac tgtggggtga gcaaaatgaa ccagcaccac caaaggccag gcttcatcca
3541 aagaagatgt gtgtatggtg ggattggaaa gtaatcctct attatgggat tcttctggaa
3601 aaccaaaaaa tcaattccaa caagtactgc tcctaattag accaactgaa agcagcattc
3661 aacgaaaagc acccagaacc agccaacaga aagcacacaa ccccccacca ggacaacaca
3721 agactacatt tctttgatga cccagcatgg ctgagaggtt ctgattcacc tgctgtattc
3781 agacattgca tctttggatt tccatttatt tcagtctaca gaattatcat catgaaaaaa
3841 atttccattc cctggaagat tgtaaagtgc atctggaaaa cttctttgct caaaaagata
3901 aaaagttttg tgaacacaga attatgaagt tgcctgaaaa acagcagaag atagtgacta
3961 tgttgttcag taaagttctt ggtgcaaatg tgtcttttat ttttatttaa acactaaagg
4021 cacgttttgg ccaacccaat actgaatact taaaggaaac tcttccgtgt tgtccttagc
4081 cttacagcgt gcactgaata gttttgtata agaatccaga gtgatatttg aaatacgcat
4141 gtgcttatat tttctatatt tgtaactttg catgtacttg ttttgtgtta aaagtttata
4201 aatatttaat atctgactaa aattaaacag gagctaaaag gagg
二.载体构建步骤
1.重复单元表达元件质粒载体的选择
根据5’侧位点序列GGAGTGACGTGGGCCTCT,N=18,构建5’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pGG-1、pAG-2、pTG-3、pAC-4、pGT-5、pGG-6、pGC-7和pCT-8;
选择第17位碱基对应的“单碱基重复单元表达元件质粒”pC-9;
选择第18位碱基对应的“末位单碱基重复单元表达元件质粒”pT-L。
根据3’侧位点序列GTTCCATCCTCCTCCAGGT,N=19,构建3’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pGT-1、pTC-2、pCA-3、pTC-4、pCT-5、pCC-6、pTC-7、pCA-8和pGG-9;
选择第19位碱基对应的“末位单碱基重复单元表达元件质粒”pT-L。
2.选择一个哺乳动物真核表达载体,pCMV-TALEN。
3.分别对构建5’侧和3’侧TALEN蛋白的重复单元表达质粒进行多片段DNA连接反应,实现含有完整DNA结合结构域元件的TALEN蛋白表达元件一步法克隆到哺乳动物表达载体。
反应体系1:
选择的5’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4 DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应体系2:
选择的3’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应条件:将上述2个反应体系置于PCR仪器中,运行程序
10个循环: 37℃ 5分钟
16℃ 10分钟
1个循环: 50℃ 5分钟
1个循环: 80℃ 5分钟
4.取上述2个反应体系中的反应产物转化细菌感受态细胞
5.将上述2组感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。
6.待上述LB固体平板生长出细菌单菌落,挑选白色菌落克隆,进行菌体PCR,鉴定转化了重组质粒的阳性克隆。PCR扩增使用的引物为:TALE_F1:ttgatgcctggcagttccct和TALE_R1:cgaaccgaacaggcttatgt。实验结果表明,2组感受态细胞的阳性克隆率均大于95%。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
55℃ 20秒
72℃ 1.5分钟
1个循环: 72℃ 5分钟
7.对于2组感受态细胞分别选择转化了重组质粒的阳性克隆,挑取单菌落接种于5ml的LB液体培养基(含50ug/L Amp),过夜培养。
8.对于2组培养分别提取质粒,用于牛PRNP基因的基因敲除。
三.TALEN载体表达蛋白活性验证
9.准备牛胚胎成纤维细胞,在12孔细胞培养板中对牛胚胎成纤维细胞进行质粒转染,实验中使用脂质体Lipofectamine2000(Invitrogen)进行转染,
10.等比例混合2微克5端TALEN表达载体和2微克3端TALEN表达载体,转染导入培养板的细胞。
11.转染后,培养72小时,收获细胞,提取总基因组DNA。
12.设计PCR引物,对牛基因组中修饰后的目的基因片段进行PCR扩增。PCR扩增使用的引物为:PRNP-F1:catggtgaaaagccacatag和PRNP-R1:cctccaccaccatgtggctg。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
56℃ 20秒
72℃ 50秒
1个循环: 72℃ 5分钟
13.将上述PCR产物纯化后,进行TA克隆,连接到测序载体,转化细菌感受态细胞。将上述感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。待上述LB固体平板生长出细菌单菌落,挑选85个白色菌落单克隆,进行测序。
14.经过测序,共获得83条DNA序列,经过分析,结果如下:
75条是野生型的目的序列,这是没有被TALEN进行修饰的目的DNA;
8条是包括不同突变型类型的目的序列,这是被TALEN进行修饰过的DNA,
Ccatgtggagtgacgtgggcctctgcaagaagcgaccaaaactggg 野生型
Ccatgtggagtgacgtgggcctctgcaag-agcgaccaaaactggg 突变型1
Ccatgtggagtgacgtgggcctctgcaag-----accaaaactggg 突变型2
Ccatgtggagtgacgtgggcctctgca-----cgaccaaaactggg 突变型3
Ccatgtggagtgacgtgggcctctgc--------accaaaactggg 突变型4
Ccatgtggagtgacgtgggcctctgcaaga-gaccaaaactggg 突变型5
Ccatgtggagtgacgtgggcctctgcaag---accaaaactggg 突变型6
因此,本试验中针对牛基因组中PRNP基因,在细胞水平通过TALEN蛋白实现基因敲除的效率为8/83=9%。
实施例5:利用本发明的方法,构建实现对人基因组中的Leptin基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
一.人Leptin基因TALEN作用位点的选择
根据人的Leptin序列(来源NCBI,GI:BC069527),选择atgccttccagaaacgtga(19个碱基,下划线标记)作为TALEN蛋白识别结合的5’侧位点序列,选择cccggaggttctccaggt(18个碱基,粗体标记序列的反向互补序列)作为TALEN蛋白识别结合的3’侧位点序列
1 atcgcagcgc caacggttgc aaggcccaag aagcccatcc tgggaaggaa aatgcattgg
61 ggaaccctgt gcggattctt gtggctttgg ccctatcttt tctatgtcca agctgtgccc
121 atccaaaaag tccaagatga caccaaaacc ctcatcaaga caattgtcac caggatcaat
181 gacatttcac acacgcagtc agtctcctcc aaacagaaag tcaccggttt ggacttcatt
241 cctgggctcc accccatcct gaccttatcc aagatggacc agacactggc agtctaccaa
301 cagatcctca ccagtatgcc ttccagaaac gtgatccaaa tatccaacg
361 atc ttcttcacgt gctggccttc tctaagagct gccacttgcc ctgggccagt
421 ggcctggaga ccttggacag cctggggggt gtcctggaag cttcaggcta ctccacagag
481 gtggtggccc tgagcaggct gcaggggtct ctgcaggaca tgctgtggca gctggacctc
541 agccctgggt gctgaggcct tgaaggtcac tcttcctgca aggactacgt taagggaagg
601 aactc
二.载体构建步骤
重复单元表达元件质粒载体的选择
根据5’侧位点序列ATGCCTTCCAGAAACGTGA,N=19,构建5’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pAT-1、pGC-2、pCT-3、pTC-4、pCA-5、pGA-6、pAA-7、pCG-8和pTG-9;
选择第19位碱基对应的“末位单碱基重复单元表达元件质粒”pA-L。
根据3’侧位点序列CCCGGAGGTTCTCCAGGT,N=18,构建3’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pCC-1、pCG-2、pGA-3、pGG-4、pTT-5、pCT-6、pCC-7和pAG-8;
选择第17位碱基对应的“单碱基重复单元表达元件质粒”pG-9;
选择第18位碱基对应的“末位单碱基重复单元表达元件质粒”pT-L。
2.选择一个哺乳动物真核表达载体,pCMV-TALEN。
3.分别对构建5’侧和3’侧TALEN蛋白的重复单元表达质粒进行多片段DNA连接反应,实现含有完整DNA结合结构域元件的TALEN蛋白表达元件一步法克隆到哺乳动物表达载体。
反应体系1:
选择的5’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应体系2:
选择的3’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应条件:将上述2个反应体系置于PCR仪器中,运行程序
10个循环: 37℃ 5分钟
16℃ 10分钟
1个循环: 50℃ 5分钟
1个循环: 80℃ 5分钟
4.取上述2个反应体系中的反应产物转化细菌感受态细胞
5.将上述2组感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。
6.待上述LB固体平板生长出细菌单菌落,挑选白色菌落克隆,进行菌体PCR,鉴定转化了重组质粒的阳性克隆。PCR扩增使用的引物为:TALE_F1:ttgatgcctggcagttccct和TALE_R1:cgaaccgaacaggcttatgt。实验结果表明,2组感受态细胞的阳性克隆率均大于95%。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
55℃ 20秒
72℃ 1.5分钟
1个循环: 72℃ 5分钟
7.对于2组感受态细胞分别选择转化了重组质粒的阳性克隆,挑取单菌落接种于5ml的LB液体培养基(含50ug/L Amp),过夜培养。
8.对于2组培养分别提取质粒,用于Leptin基因的基因敲除。
三.TALEN载体表达蛋白活性验证
9.准备人HER293细胞系,在12孔细胞培养板中对HER293细胞进行质粒转染,实验中使用脂质体Lipofectamine2000(Invitrogen)进行转染,
10.等比例混合2微克5端TALEN表达载体和2微克3端TALEN表达载体,转染导入培养板的细胞。
11.转染后,培养72小时,收获细胞,提取总基因组DNA。
12.设计PCR引物,对人基因组中修饰后的目的基因片段进行PCR扩增。PCR扩增使用的引物为:hLeptin-F1:cacgcagtcagtctcctcc和hLeptin-R1:tgccacagcatgtcctgcag。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
56℃ 20秒
72℃ 50秒
1个循环: 72℃ 5分钟
13.将上述PCR产物纯化后,进行TA克隆,连接到测序载体,转化细菌感受态细胞。将上述感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。待上述LB固体平板生长出细菌单菌落,挑选75个白色菌落单克隆,进行测序。
14.经过测序,共获得74条DNA序列,经过分析,结果如下:
59条是野生型的目的序列,这是没有被TALEN进行修饰的目的DNA;
15条是包括不同突变型类型的目的序列(结果如下),这是被TALEN进行修饰过的DNA,
Accagtatgccttccagaaacgtgatccaaatatccaacgatctt 野生型
Accagtatgccttccagaaacgtgatccaaata-ccaacgatctt 突变型1
Accagtatgccttccagaaacgtgatccaaat--ccaacgatctt 突变型2
Accagtatgccttccagaaacgtgatccaaa---ccaacgatctt 突变型3
Accagtatgccttccagaaacgtgatcc------ccaacgatctt 突变型4
Accagtatgccttccagaaacgtgatccaaat-----acgatctt 突变型5
Accagtatgccttccagaaacgtgatcca--------acgatctt 突变型6
Accagtatgccttccagaaacgtgatccaaa--ccaacgatctt 突变型7
Accagtatgccttccagaaacgtgatcca--ccaacgatctt 突变型8
因此,本试验中针对人基因组中Leptin基因,在细胞水平通过TALEN蛋白实现基因敲除的效率为15/74=20%。
实施例6:利用本发明的方法,构建实现对小鼠基因组中的Leptin基因位点进行修饰的TALEN蛋白哺乳动物细胞表达载体。
一.小鼠Leptin基因TALEN作用位点的选择
根据小鼠的Leptin序列(来源NCBI,GI:FJ374142),选择atcaacaggtcctcaccag(19个碱基,下划线标记)作为TALEN蛋白识别结合的5’侧位点序列,选择cattggctatctgcagca(18个碱基,粗体标记序列的反向互补序列)作为TALEN蛋白识别结合的3’侧位点序列。
1 atgtgctgga gacccctgtg tcggttcctg tggctttggt cctatctgtc ttatgttcaa
61 gcagtgccta tccagaaagt ccaggatgac accaaaaccc tcatcaagac cattgtcacc
121 aggatcaatg acatttcaca cacgcagtcg gtatccgcca agcagagggt cactggcttg
181 gacttcattc ctgggcttca ccccattctg agtttgtcca agatggacca gactctggca
241 gtctatcaac aggtcctcac cagcctgcct tcccaaaatgac
301 ctggagaatc tccgagacct cctccatctg ctggccttct ccaagagctg ctccctgcct
361 cagaccagtg gcctgcagaa gccagagagc ctggatggcg tcctggaagc ctcactctac
421 tccacagagg tggtggcttt gagcaggctg cagggctctc tgcaggacat tcttcaacag
481 ttggatgtta gccctgaatg ctga
二.载体构建步骤
重复单元表达元件质粒载体的选择
根据5’侧位点序列ATCAACAGGTCCTCACCAG,N=19,构建5’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pAT-1、pCA-2、pAC-3、pAG-4、pGT-5、pCC-6、pTC-7、pAC-8和pCA-9;
选择第19位碱基对应的“末位单碱基重复单元表达元件质粒”pG-L。
根据3’侧位点序列CATTGGCTATCTGCAGCA,N=18,构建3’侧TALEN蛋白,选取的重复单元表达元件质粒的载体是:
选择第1/2位、第3/4、第5/6位、第7/8位、第9/10位、第11/12位、第13/14位、第15/16位和17/18碱基对应的“双碱基重复单元表达元件质粒”:pCA-1、pTT-2、pGG-3、pCT-4、pAT-5、pCT-6、pGC-7和pAG-8;
选择第17位碱基对应的“单碱基重复单元表达元件质粒”pC-9;
选择第18位碱基对应的“末位单碱基重复单元表达元件质粒”pA-L。
2.选择一个哺乳动物真核表达载体,pCMV-TALEN。
3.分别对构建5’侧和3’侧TALEN蛋白的重复单元表达质粒进行多片段DNA连接反应,实现含有完整DNA结合结构域元件的TALEN蛋白表达元件一步法克隆到哺乳动物表达载体。
反应体系1:
选择的5’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应体系2:
选择的3’侧重复单元质粒: 各100纳克
哺乳动物真核表达载体: 100纳克
IIS限制性内切酶BsmBI: 1微升(10单位)
T4DNA连接酶: 1微升
10X T4DNA连接酶反应缓冲液: 1.5微升
加水补齐到15微升的反应体积
反应条件:将上述2个反应体系置于PCR仪器中,运行程序
10个循环: 37℃ 5分钟
16℃ 10分钟
1个循环: 50℃ 5分钟
1个循环: 80℃ 5分钟
4.取上述2个反应体系中的反应产物转化细菌感受态细胞。
5.将上述2组感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。
6.待上述LB固体平板生长出细菌单菌落,挑选白色菌落克隆,进行菌体PCR,鉴定转化了重组质粒的阳性克隆。PCR扩增使用的引物为:TALE_F1:ttgatgcctggcagttccct和TALE_R1:cgaaccgaacaggcttatgt。实验结果表明,2组感受态细胞的阳性克隆率均大于95%。
PCR的反应条件:
1个循环 94℃ 2分钟
30个循环 94℃ 20秒
55℃ 20秒
72℃ 1.5分钟
1个循环: 72℃ 5分钟
7.对于2组感受态细胞分别选择转化了重组质粒的阳性克隆,挑取单菌落接种于5ml的LB液体培养基(含50ug/L Amp),过夜培养。
8.对于2组培养提取质粒,用于小鼠Leptin基因的基因敲除。
三.TALEN载体表达蛋白活性验证
9.准备小鼠C2C12细胞系,在12孔细胞培养板中对C2C12细胞进行质粒转染,实验中使用脂质体Lipofectamine2000(Invitrogen)进行转染,
10.等比例混合2微克5端TALEN表达载体和2微克3端TALEN表达载体,转染导入培养板的细胞。
11.转染后,培养72小时,收获细胞,提取总基因组DNA。
12.设计PCR引物,对小鼠基因组中修饰后的目的基因片段进行PCR扩增。PCR扩增使用的引物为:mLeptin-F1:gtatccgccaagcagagggt和mLeptin-R1:cgccatccaggctctctggc。
PCR的反应条件:
1个循环: 94℃ 2分钟
30个循环: 94℃ 20秒
56℃ 20秒
72℃ 50秒
1个循环: 72℃ 5分钟
13.将上述PCR产物纯化后,进行TA克隆,连接到测序载体,转化细菌感受态细胞。将上述感受态细胞涂布于含有Amp(50ug/L)20mg/mL的X-gal和0.1M的IPTG的LB固体平板,37℃过夜培养。待上述LB固体平板生长出细菌单菌落,挑选75个白色菌落单克隆,进行测序。
14.经过测序,共获得74条DNA序列,经过分析,结果如下:
61条是野生型的目的序列,这是没有被TALEN进行修饰的目的DNA;
13条是包括不同突变型类型的目的序列(结果如下),这是被TALEN进行修饰过的DNA,
Cagtctatcaacaggtcctcaccagcctgccttcccaaaatgacctgg 野生型
Cagtctatcaacaggtcctcaccagcctgcct---caaaatgacctgg 突变型1
Cagtctatcaacaggtcctcaccagcctgcct------aatgacctgg 突变型2
Cagtctatcaacaggtcctcaccagcctg------caaaatgacctgg 突变型3
Cagtctatcaacaggtcctcaccagcctgc--------aatgacctgg 突变型4
Cagtctatcaacaggtcctcaccagcctgcct-caaaatgacctgg 突变型5
Cagtctatcaacaggtcctcaccagcctgcct----aaatgacctgg 突变型6
Cagtctatcaacaggtcctcaccagcctgcc----caaatgacctgg 突变型7
因此,本试验中针对小鼠基因组中Leptin基因,在细胞水平通过TALEN蛋白实现基因敲除的效率为13/74=17%。
在上述实施例中,通过TALEN实现基因敲除的效率为9~28%。与此同时,通过传统同源重组实现基因敲除的效率为0.0001%。由此可见,本发明的方法使得基因敲除的效率提高了上万倍。
本方法在载体构建方面与现有技术中的其他的方法的比较参见下表:
由此可见,本发明的方法极大地减少了构建时间和需要进行的DNA连接反应的次数,提高了阳性克隆的比例,并且极大地节约了成本。
尽管已经参照具体实施方式解释和描述了本发明,但其并不限于此。在不背离本发明精神的情况下,本领域技术人员可对其进行各种修饰和改变,所有这些修饰和改变也属于如权利要求所限定的本发明的范围。

Claims (4)

1.一种试剂盒,包括下述180个DNA序列:
(1)144个包含“双碱基重复单元表达元件”的DNA序列,所述“双碱基重复单元表达元件”的序列如SEQ ID NO:11~154所示;
(2)32个包含“单碱基重复单元表达元件”的DNA序列,所述“单碱基重复单元表达元件”的序列如SEQ ID NO:155~186所示;以及
(3)4个包含“末位单碱基重复单元表达元件”的DNA序列,所述“末位单碱基重复单元表达元件”的序列如SEQ ID NO:187~190所示。
2.权利要求1的试剂盒,所述试剂盒还包括
(4)已构建的哺乳动物真核表达载体,其为pCMV-TALEN。
3.权利要求1的试剂盒,包括下述180个环状质粒:
(1)144个“双碱基重复单元表达元件质粒”,每个质粒由一个“双碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,命名为pXX-n,XX为A、C、T、G的所有16种两两组合,n为1-9,其中所述双碱基重复单元表达元件”的序列如SEQ ID NO:11~154所示;
(2)32个“单碱基重复单元表达元件质粒”,每个质粒由一个“单碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,命名为pX-n,X为A、T、C或G,n为2-9,其中所述“单碱基重复单元表达元件”的序列如SEQ ID NO:155~186所示;以及
(3)4个“末位单碱基重复单元表达元件质粒”,每个质粒由一个“末位单碱基重复单元表达元件”和该元件两翼的5’和3’侧翼质粒骨架序列组成,分别是pC-L、pG-L、pA-L和pT-L,其中所述“末位单碱基重复单元表达元件”的序列如SEQ ID NO:187~190所示;
其中,所述5’和3’侧翼质粒骨架序列分别为SEQ ID NO:9和10。
4.权利要求3的试剂盒,所述试剂盒还包括
(4)已构建的哺乳动物真核表达载体,其为pCMV-TALEN。
CN201210572536.1A 2012-12-25 2012-12-25 一种实现基因组定点修饰的蛋白表达载体的方法 Active CN103898099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210572536.1A CN103898099B (zh) 2012-12-25 2012-12-25 一种实现基因组定点修饰的蛋白表达载体的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210572536.1A CN103898099B (zh) 2012-12-25 2012-12-25 一种实现基因组定点修饰的蛋白表达载体的方法

Publications (2)

Publication Number Publication Date
CN103898099A CN103898099A (zh) 2014-07-02
CN103898099B true CN103898099B (zh) 2017-08-25

Family

ID=50989670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210572536.1A Active CN103898099B (zh) 2012-12-25 2012-12-25 一种实现基因组定点修饰的蛋白表达载体的方法

Country Status (1)

Country Link
CN (1) CN103898099B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12043835B2 (en) * 2015-03-16 2024-07-23 Institute Of Genetics And Developmental Biology, Chinese Academy Of Sciences Method for making site-directed modification to plant genomes by using non-inheritable materials
EP3095870A1 (en) 2015-05-19 2016-11-23 Kws Saat Se Methods for the in planta transformation of plants and manufacturing processes and products based and obtainable therefrom

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102702332A (zh) * 2012-05-23 2012-10-03 上海斯丹赛生物技术有限公司 一对转录激活子样效应因子核酸酶l1和r2及其编码基因与应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102702332A (zh) * 2012-05-23 2012-10-03 上海斯丹赛生物技术有限公司 一对转录激活子样效应因子核酸酶l1和r2及其编码基因与应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A novel TALE nuclease scaffold enableshigh genome editing activity in combinationwith low toxicity";Claudio Mussolino;《Nucleic Acids Research》;20110803;第39卷(第21期);摘要,图5,第9289页左栏第2段,图1,图2,第9285页右栏第3段 *
"A Transcription Activator-Like Effector(TALE) Toolbox for Genome Engineering";Neville E.Sanjana;《Nature Protocol》;20120105;第7卷(第1期);摘要和第8页,第5页第2段-第6页第3段,第11页倒数第1段-到20页第8段,第37页表1 *
TALE 核酸酶介导的基因组定点修饰技术;王昕 等;《中国生物化学与分子生物学报》;20120331;第28卷(第3期);211-216 *

Also Published As

Publication number Publication date
CN103898099A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
US20200385697A1 (en) Thermostable cas9 nucleases
US10314297B2 (en) DNA knock-in system
US11345903B2 (en) Engineered enzymes
JP6688231B2 (ja) 標的遺伝子座を修飾するための方法及び組成物
EP3222728B1 (en) Method for regulating gene expression using cas9 protein expressed from two vectors
CN109306361B (zh) 一种新的a/t到g/c碱基定点转换的基因编辑系统
US11414681B2 (en) Mutants of the bacteriophage lambda integrase
US20120315670A1 (en) Compositions and Methods for the Regulation of Multiple Genes of Interest in a Cell
CN107109434A (zh) 新颖cho整合位点和其用途
EP3011011A2 (en) Targeted integration
Ma et al. An integrated CRISPR Bombyx mori genome editing system with improved efficiency and expanded target sites
KR20220110778A (ko) 신규 mad 뉴클레아제
CN109136248A (zh) 多靶点编辑载体及其构建方法和应用
CN106086031B (zh) 猪肌抑素基因编辑位点及其应用
WO2019120193A1 (zh) 拆分型单碱基基因编辑系统及其应用
CN110300802A (zh) 用于动物胚胎碱基编辑的组合物和碱基编辑方法
CN106754949B (zh) 猪肌抑素基因编辑位点864-883及其应用
US11332742B1 (en) Mad nucleases
CN103898099B (zh) 一种实现基因组定点修饰的蛋白表达载体的方法
WO2015182941A9 (ko) 신규 카탈라아제 신호서열 및 이를 이용한 카탈라아제 발현방법
US20120309011A1 (en) Targeting of modifying enzymes for protein evolution
Fauser et al. Systematic Development of Reprogrammed Modular Integrases Enables Precise Genomic Integration of Large DNA Sequences
Forner Germline-Transmitted Genome Editing Methodology in Arabidopsis thaliana Using TAL Effector Nucleases
WO2024124204A2 (en) Retrotransposon compositions and methods of use

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180411

Address after: 102206 5 floor, 11 building, No. 8, life Garden Road, Changping District Life Science Park, Beijing.

Patentee after: Beijing Zhi medicine tumor medicine research Co. Ltd. Compro

Address before: 100085 West Haidian District 1211, information road, 22, Beijing.

Co-patentee before: Wang Hui

Patentee before: Yuan Jing

TR01 Transfer of patent right