背景技术
CRISPR簇是一个广泛存在于细菌和古生菌基因组中的特殊DNA重复序列家族,其序列由一个前导区(Leader)、多个短而高度保守的重复序列区(Repeat)和多个间隔区(Spacer)组成。前导区一般位于CRISPR簇上游,是富含AT长度为300~500bp的区域,被认为可能是CRISPR簇的启动子序列。重复序列区长度为21~48bp,含有回文序列,可形成发卡结构。重复序列之间被长度为26~72bp的间隔区隔开。Spacer区域由俘获的外源DNA组成,类似免疫记忆,当含有同样序列的外源DNA入侵时,可被细菌机体识别,并进行剪切使之表达沉默,达到保护自身安全的目的。
通过对CRISPR簇的侧翼序列分析发现,在其附近存在一个多态性家族基因。该家族编码的蛋白质均含有可与核酸发生作用的功能域(具有核酸酶、解旋酶、整合酶和聚合酶等活性),并且与CRISPR区域共同发挥作用,因此被命名为CRISPR关联基因(CRISPRassociated),缩写为Cas。目前发现的Cas包括Cas1~Cas10等多种类型。Cas基因与CRISPR共同进化,共同构成一个高度保守的系统。
当细菌抵御噬菌体等外源DNA入侵时,在前导区的调控下,CRISPR被转录为长的RNA前体(Pre RISPR RNA,pre-crRNA),然后加工成一系列短的含有保守重复序列和间隔区的成熟crRNA,最终识别并结合到与其互补的外源DNA序列上发挥剪切作用。
目前发现的CRISPR/Cas系统有三种不同类型即I型、II型和III型,它们存在于大约40%已测序的真细菌和90%已测序的古细菌中。其中II型的组成较为简单,以Cas9蛋白以及向导RNA(gRNA)为核心组成,也是目前研究中最深入的类型。
在II型系统中pre-crRNA的加工由Cas家族中的Cas9单独参与。Cas9含有在氨基末端的RuvC和蛋白质中部的HNH2个独特的活性位点,在crRNA成熟和双链DNA剪切中发挥作用。此外,pre-crRNA转录的同时,与其重复序列互补的反式激活crRNA(Trans-activatingcrRNA,tracrRNA)也转录出来,并且激发Cas9和双链RNA特异性RNase III核酸酶对pre-crRNA进行加工。加工成熟后,crRNA、tracrRNA和Cas9组成复合体,识别并结合于crRNA互补的序列,然后解开DNA双链,形成R-loop,使crRNA与互补链杂交,另一条链保持游离的单链状态,然后由Cas9中的HNH活性位点剪切crRNA的互补DNA链,RuvC活性位点剪切非互补链,最终引入DNA双链断裂(DSB)。CRISPR/Cas9的剪切位点位于crRNA互补序列下游邻近的PAM区(Protospacer Adjacent Motif)的5'-GG-N18-NGG-3'特征区域中的NGG位点,而这种特征的序列在每128bp的随机DNA序列中就重复出现一次。研究结果表明,Cas9还可以剪切线性和超螺旋的质粒,其剪切效率堪比限制性内切酶。
人类多能干细胞(Humanpluripotent stem cells,hPSCs)和基因组编辑技术结合所建立的细胞模型,为疾病研究提供了一个独特的实验平台。利用这个平台体系,研究人员可以研究特定基因突变甚至染色体结构变异对人类多种细胞类型和组织器官功能的影响及其详细的分子机制,并可建立携带不同遗传突变的“个性化”疾病模型用于大规模药物筛选。该模型体系的建立得益于基因组编辑技术,尤其是CRISPR/Cas9(Clustered regularlyinterspaced short palindromic repeats/CRISPR-associated proteins9,CRISPR/Cas9)技术的飞速发展。
最近研究人员利用CRISPR/Cas9技术,建立了在人多能干细胞中进行基因敲除或者敲入的基因组编辑体系。研究以位于人2号染色体上的LINC00116基因组区域为例,利用CRISPR/Cas9技术对人多能干细胞中的该基因组区域进行了基因敲除、FLAG短肽序列定点插入和基因组大片段删除,获得的多个突变干细胞株为下一步对该基因组区域进行功能分析提供了特有的细胞平台。
这项研究的重要性表现在:通过在基因编码框中引入移码突变进行基因敲除;通过单链DNA提供外源模板经由同源重组定点敲入FLAG序列;通过同时靶向多个位点诱导基因组大片段删除。研究结果表明CRISPR/Cas9可以对多能干细胞进行高效基因编辑,获得的突变干细胞株有助于对基因和基因组区域的功能进行分析和干细胞疾病模型的建立。
利用CRISPR对多能干细胞中多个基因组区域进行靶向的研究结果显示,经由NHEJ引入碱基插入或缺失突变的效率为大于50%,提示利用CRISPR技术可以进行高效的基因敲除,甚至多个基因的同时敲除。
这项研究在由同源重组敲入特定点突变或者外源序列方面,通过单链核苷酸模板定点敲入FLAG小肽序列的效率偏低,仅为1.1%。研究还利用同时导入两条gRNA对基因组区域进行了大片段靶向删除,效率约为5%。靶向删除基因组大片段的效率不仅和每条gRNA的基因编辑活性相关,同时也和片段长度相关。靶向删除片段长度的增加可能带来效率的降低。此外,导入两条或者多条gRNAs,不仅可以引入基因组区域缺失,同时还可以引发其他多种染色体结构变异,包括染色体区域插入(Insertion)、重复(Duplication)、易位(Translocation)和倒位(Inversion)等。基因靶向潜在的问题是脱靶效应。这充分说明,在现有技术中,针对基因编辑技术的效果提高以及靶向性的提高有巨大的需求。
CRISPR基因组编辑技术平台由于载体构建简单、靶向位点选择灵活、靶向效率稳定,目前已经被广泛用于各类细胞和模式动物的基因组编辑,它在干细胞平台中的应用潜力也远远超出了这篇文章涉及的这几个方面,但是基因编辑效率的低下严重影响后续的科研研究,因此开发一种增加基因编辑效率的新方法变得迫在眉睫。
实施例3实施例2的系统在人U2OS细胞中的效率分析
按照实施例2制备得到的系统,转入人U2OS细胞,其中人U2OS细胞分别采用导入或不导入实施例1所述的增效蛋白作为对照。由于在人U2OS细胞中修复引起的移码或突变会使HPRT失活,HPRT失活的细胞将产生6-巯基鸟嘌呤(6-TG)抗性。利用公知的6-TG筛选方法筛选4周后,抗6-TG的细胞克隆将形成,该形成频率与在无6-TG筛选下的细胞克隆形成频率之比值代表真正的6-TG抗性细胞克隆形成效率。这个效率代表内源HPRT基因被编辑的效率。结果如图3所示,在U2OS细胞内,未导入增效蛋白的细胞内sgRNA介导的内源HPRT基因编辑效率为52.6%,在导入了实施例1增效蛋白的U2OS细胞内HPRT基因编辑效率为79.8%,其中P值均小于0.01,具有统计学意义。由此可见,本发明的增效蛋白具有较好的增加基因编辑效率的结果,而且具有在人类细胞的普遍适用性。
综上所述,本发明首次提供了一些新的增效蛋白,能够显著提高细胞内基因编辑效率。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
序列表
<110> 洛阳轩智生物科技有限公司
<120> 特异性增强CRISPR-CAS系统基因编辑效率的方法
<160> 4
<170> SIPOSequenceListing 1.0
<210> 1
<211> 1578
<212> DNA
<213> 人工序列(2 Ambystoma laterale x Ambystoma jeffersonianum)
<400> 1
atgcaggaga acctggcccc ctggggcgag ctggccaccg acaacatcat cctgaccgtg 60
cccaccacca acctgcaggc cctgaaggac cccgagcccg tgctgaggct gtgggacgag 120
atgatgcagg ccgtggccag gctggccgcc gagcccttcc ccttcaggag gcccgagagg 180
atcgtggccg acgtgcagat cagcgccggc tggatgcaca gcggctaccc catcatgtgc 240
cacctggaga gcgtgaagga gatcatcaac gagatggaca tgaggagcag gggcgtgtgg 300
ggccccatcc acgagctggg ccacaaccag cagaggcacg gctgggagtt ccccccccac 360
accaccgagg ccacctgcaa cctgtggagc gtgtacgtgc acgagaccgt gctgggcatc 420
cccagggccc aggcccacga ggccctgagc ccccccgaga gggagaggag gatcaaggcc 480
cacctgggca agggcgcccc cctgtgcgac tggaacgtgt ggaccgccct ggagacctac 540
ctgcaggtgc tgagcaggaa cagcggcagg aggggcgtgg acggcaggct ggtgcacacc 600
tgcatcaagg ccggcgccgt gaggtggctg gccaggggcc agaccggcaa ggtgggcgtg 660
aacaccaacc tgaaggacct gtgccccctg ctgagcgagc acggcctgca gtgcagcctg 720
gagccccacc tgaacagcga cctgtgcgtg tactgctgca aggcctacag cgacaaggag 780
gccaagcagc tgcaggagtt cgtggccgag ggcggcggcc tgctgatcgg cggccaggcc 840
tggtggtggg ccagccagaa ccccggccac tgccccctgg ccggcttccc cggcaacatc 900
atcctgaact gcttcggcct gagcatcctg ccccagaccc tgaaggccgg ctgcttcccc 960
gtgcccaccc ccgagatgag gagctaccac ttcaggaagg ccctgagcca gttccaggcc1020
atcctgaacc acgagaacgg caacctggag aagagctgcc tggccaagct gagggtggac1080
ggcgccgcct tcctgcagat ccccgccgag ggcgtgcccg cctacatcag cctgcacagg1140
ctgctgagga agatgctgag gggcagcggc ctgcccgccg tgagcaggga gaaccccgtg1200
gccagcgaca gctacgaggc cgccgtgctg agcctggcca ccggcctggc ccacagcggc1260
accgactgca gccagctggc ccagggcctg ggcacctgga cctgcagcag cagcctgtac1320
cccagcaagc accccatcac cgtggagatc aacggcatca accccggcaa caacgactgc1380
tgggtgagca ccggcctgta cctgctggag ggccagaacg ccgaggtgag cctgagcgag1440
gccgccgcca gcgccggcct gagggtgcag atcggctgcc acaccgacga cctgaccaag1500
gccaggaagc tgagcagggc ccccatggtg acccaccagt gctggatgga caggaccgag1560
aggagcgtga gctgcctg 1578
<210> 2
<211> 526
<212> PRT
<213> 人工序列(2 Ambystoma laterale x Ambystoma jeffersonianum)
<400> 2
Met Gln Glu Asn Leu Ala Pro Trp Gly Glu Leu Ala Thr Asp Asn Ile
1 5 10 15
Ile Leu Thr Val Pro Thr Thr Asn Leu Gln Ala Leu Lys Asp Pro Glu
20 25 30
Pro Val Leu Arg Leu Trp Asp Glu Met Met Gln Ala Val Ala Arg Leu
35 40 45
Ala Ala Glu Pro Phe Pro Phe Arg Arg Pro Glu Arg Ile Val Ala Asp
50 55 60
Val Gln Ile Ser Ala Gly Trp Met His Ser Gly Tyr Pro Ile Met Cys
65 70 75 80
His Leu Glu Ser Val Lys Glu Ile Ile Asn Glu Met Asp Met Arg Ser
85 90 95
Arg Gly Val Trp Gly Pro Ile His Glu Leu Gly His Asn Gln Gln Arg
100 105 110
His Gly Trp Glu Phe Pro Pro His Thr Thr Glu Ala Thr Cys Asn Leu
115 120 125
Trp Ser Val Tyr Val His Glu Thr Val Leu Gly Ile Pro Arg Ala Gln
130 135 140
Ala His Glu Ala Leu Ser Pro Pro Glu Arg Glu Arg Arg Ile Lys Ala
145 150 155 160
His Leu Gly Lys Gly Ala Pro Leu Cys Asp Trp Asn Val Trp Thr Ala
165 170 175
Leu Glu Thr Tyr Leu Gln Val Leu Ser Arg Asn Ser Gly Arg Arg Gly
180 185 190
Val Asp Gly Arg Leu Val His Thr Cys Ile Lys Ala Gly Ala Val Arg
195 200 205
Trp Leu Ala Arg Gly Gln Thr Gly Lys Val Gly Val Asn Thr Asn Leu
210 215 220
Lys Asp Leu Cys Pro Leu Leu Ser Glu His Gly Leu Gln Cys Ser Leu
225 230 235 240
Glu Pro His Leu Asn Ser Asp Leu Cys Val Tyr Cys Cys Lys Ala Tyr
245 250 255
Ser Asp Lys Glu Ala Lys Gln Leu Gln Glu Phe Val Ala Glu Gly Gly
260 265 270
Gly Leu Leu Ile Gly Gly Gln Ala Trp Trp Trp Ala Ser Gln Asn Pro
275 280 285
Gly His Cys Pro Leu Ala Gly Phe Pro Gly Asn Ile Ile Leu Asn Cys
290 295 300
Phe Gly Leu Ser Ile Leu Pro Gln Thr Leu Lys Ala Gly Cys Phe Pro
305 310 315 320
Val Pro Thr Pro Glu Met Arg Ser Tyr His Phe Arg Lys Ala Leu Ser
325 330 335
Gln Phe Gln Ala Ile Leu Asn His Glu Asn Gly Asn Leu Glu Lys Ser
340 345 350
Cys Leu Ala Lys Leu Arg Val Asp Gly Ala Ala Phe Leu Gln Ile Pro
355 360 365
Ala Glu Gly Val Pro Ala Tyr Ile Ser Leu His Arg Leu Leu Arg Lys
370 375 380
Met Leu Arg Gly Ser Gly Leu Pro Ala Val Ser Arg Glu Asn Pro Val
385 390 395 400
Ala Ser Asp Ser Tyr Glu Ala Ala Val Leu Ser Leu Ala Thr Gly Leu
405 410 415
Ala His Ser Gly Thr Asp Cys Ser Gln Leu Ala Gln Gly Leu Gly Thr
420 425 430
Trp Thr Cys Ser Ser Ser Leu Tyr Pro Ser Lys His Pro Ile Thr Val
435 440 445
Glu Ile Asn Gly Ile Asn Pro Gly Asn Asn Asp Cys Trp Val Ser Thr
450 455 460
Gly Leu Tyr Leu Leu Glu Gly Gln Asn Ala Glu Val Ser Leu Ser Glu
465 470 475 480
Ala Ala Ala Ser Ala Gly Leu Arg Val Gln Ile Gly Cys His Thr Asp
485 490 495
Asp Leu Thr Lys Ala Arg Lys Leu Ser Arg Ala Pro Met Val Thr His
500 505 510
Gln Cys Trp Met Asp Arg Thr Glu Arg Ser Val Ser Cys Leu
515 520 525
<210> 3
<211> 23
<212> DNA
<213> 人工序列(2 Ambystoma laterale x Ambystoma jeffersonianum)
<400> 3
atgcaggaga acctggcccc ctg 23
<210> 4
<211> 22
<212> DNA
<213> 人工序列(2 Ambystoma laterale x Ambystoma jeffersonianum)
<400> 4
caggcagctc acgctcctct cg 22