CN110819620A - 一种对类球红细菌进行基因突变的方法 - Google Patents

一种对类球红细菌进行基因突变的方法 Download PDF

Info

Publication number
CN110819620A
CN110819620A CN201810902108.8A CN201810902108A CN110819620A CN 110819620 A CN110819620 A CN 110819620A CN 201810902108 A CN201810902108 A CN 201810902108A CN 110819620 A CN110819620 A CN 110819620A
Authority
CN
China
Prior art keywords
gene
lys
leu
sequence
seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810902108.8A
Other languages
English (en)
Other versions
CN110819620B (zh
Inventor
席建忠
骆宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810902108.8A priority Critical patent/CN110819620B/zh
Publication of CN110819620A publication Critical patent/CN110819620A/zh
Application granted granted Critical
Publication of CN110819620B publication Critical patent/CN110819620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

本发明公开了一种对类球红细菌进行基因突变的方法。本发明提供了一种对类球红细菌进行基因点突变从而获得突变菌株的方法,包括如下步骤:基于基因编辑技术,用融合蛋白对类球红细菌的基因组进行编辑,通过筛选获得突变菌株;所述融合蛋白中含有具有DNA靶向作用的蛋白和具有单核苷酸定向突变功能的酶。本发明方法整个流程操作简单、步骤少;在针对特定代谢通路的调控上更加精准严密、脱靶率低;且具普遍适用性,是在工业生产和环境保护等方面具有重要应用价值的新型微生物基因改造技术。

Description

一种对类球红细菌进行基因突变的方法
技术领域
本发明涉及基因操作技术领域,具体涉及一种对类球红细菌进行基因突变的方法,特别涉及一种在类球红细菌中进行高通量基因点突变的方法,是一种基于基因编辑技术,将具有DNA靶向作用的蛋白和具有单核苷酸定向突变功能的酶融合在一起构建编辑质粒转化入类球红细菌中进行筛选、获得突变菌株的方法。
背景技术
基因编辑是指对靶标基因序列进行有目的地“修改”,包括DNA片段的插入、缺失、单个或多个碱基的突变等。原理是在特定核酸酶作用下导致靶标基因双链的断裂(Double-stranded break,DSB),激活细胞天然的修复机制,通过非同源末端连接(Non-homologousend joining,NHEJ)或同源重组(Homology recombination,HR)等途径修复,从而实现对基因序列的改变。基因编辑技术发展迅速,已历经三代。
第一代为锌指核糖核酸酶(Zinc finger nucleases,ZFN),ZFN由一个DNA识别域和一个非特异性核酸内切酶FOKI构成。DNA识别域是由一系列Cys2-His2锌指蛋白串联组成(一般3-4个),每个锌指蛋白识别并结合一个特异的三联体碱基。但此技术专利被公司垄断,且锌指蛋白数量有限,可以识别的DNA序列数量也有限,其应用受到很大的限制。
第二代为转录激活因子样效应物核酸酶(Transcription activator-likeeffector nuclease,TALEN),它借助于TAL效应子:一种由植物细菌分泌的天然蛋白来识别特异性DNA碱基对,理论上可被设计识别和结合所有的目的DNA序列,但其操作过程较为繁琐,一定程度上限制了其应用。
第三代为成簇的有规律间隔的短回文重复序列/关联蛋白(Clustered regularlyinterspaced short palindromic repeats/CRISPR associated proteins,CRISPR/Cas)。CRISPR序列最早是1987年在大肠杆菌基因组中发现,但当时还不能解释,功能也未知。直到2007年该研究取得重大突破,分析得到对噬菌体有抗性的菌株基因组中含有获得的间隔序列并且该间隔序列能够匹配到对应的噬菌体上。这提供给我们一个假设:CRISPR/Cas系统会对入侵过的病毒或质粒进行遗传记忆,将其一段序列整合入自己的基因组中,等到第二次入侵的时候,便能够重启记忆,激活免疫反应。然后在2013年该系统被应用于细胞的基因组编辑,随即超越ZFN、TALEN,成为第三代的新型基因操作技术,进而引发了全球范围的基因编辑热潮并持续至今。
从CRISPRdb网站(http://crispr.i2bc.paris-saclay.fr/)收录的数据来看,大约87%的古菌和45%的细菌基因组中含有预测的较为可信的CRISPR系统。目前比较权威的划分方法是把CRISPR分作两大类(Class 1和Class 2):Class 1为多亚基效应因子的复合物;Class 2为单个效应因子的蛋白。其中Class 1包括Type I、Type III、Type IV,Class 2包括Type II、Type V、Type VI。对Cas蛋白的数量、crRNA加工和打靶的机制、靶标是DNA还是RNA,不同类型各异。
CRISPR/Cas系统的作用机制可简单地分为三个步骤:获取(Acquisition)、表达(Expression)和干扰(Interference)。第一为获取阶段,首次入侵的外源DNA的前间隔序列(Protospacer)被古菌或细菌中的Cas蛋白获取,并作为间隔序列(Spacer)插入CRISPR中的两段重复序列之间。第二为表达阶段,外源DNA再次入侵时,细菌开始转录CRISPR,形成初级转录产物pre-crRNA,再由核糖核酸酶或Cas蛋白在重复序列位点内切割形成成熟的crRNA。第三为干扰阶段,成熟的crRNA与特异的CRISPR效应蛋白形成核糖核蛋白复合体,识别并切割能与crRNA互补配对的外源DNA。
细菌能够通过PAM分辨内源和外源序列,PAM通常为2-5bp长,TypeⅠ和TypeⅤ的PAM在5’端,TypeⅡ的PAM在3’端,而TypeⅢ不依赖PAM。不同来源的Cas9蛋白识别不同的PAM,除了经典的Streptococcus pyogenes(5’-NGG-3’)外,还有Staphylococcus aureus(5’-NNGRRT-3’)、Streptococcus thermophilus(5’-NNAGAAW-3’)等。目前报道的新凶手弗朗西斯菌Francisella novicida U112、氨基酸球菌Acidaminococcus sp.BV3L6和毛螺科菌Lachnospiraceae bacterium ND2006来源的Cpf1(以下分别简称为FnCpf1、AsCpf1和LbCpf1),其PAM分别为(5’-YTN-3’)和(5’-TTTN-3’)。
截至目前,研究最深入、应用最广泛的当属CRISPR Class 2的TypeII-A、来源于化脓链球菌Streptococcus pyogenes serotype M1的Cas9蛋白(以下简称SpCas9)。该蛋白全长1368个氨基酸(包含3个RuvC-like和1个HNH核酸酶结构域),可以在sgRNA的引导下同时切割靶标DNA的模板链和非模板链。将SpCas9第10位的天冬氨酸突变为丙氨酸得到只切割非模板链(也叫反义链、互补链)的nCas9(D10A),将SpCas9第840位的组氨酸突变为丙氨酸得到只切割模板链(也叫正义链、非互补链)的nCas9(H840A),同时将这两个氨基酸突变为丙氨酸得到只具有DNA结合活性而没有切割活性的dCas9。
而CRISPR Class 2的TypeV-A的FnCpf1、AsCpf1和LbCpf1,分别含有1 300、1 307和1 228个氨基酸,与Cas9蛋白相比分子量较小,更适合病毒包装。Cpf1只需一段42-44个核苷酸组成的单链crRNA即可识别和剪切DNA,从而简化了实验设计步骤,更有利于多基因编辑;此外,Cpf1能够识别富含胸腺嘧啶(T)的PAM序列,进一步扩大了基因靶点的选择范围;由于Cpf1剪切会产生黏性末端,可促进目的基因通过非同源重组的方式插入靶点,便于新DNA序列插入。基于CRISPR-Cpf1的开发有利于突破和克服CRISPR-Cas9应用中的一些限制,这也是未来的一个热门方向。
胞嘧啶脱氨酶能将胞嘧啶(C)的氨基脱去形成尿嘧啶(U),细胞在DNA复制的过程中会错误地把尿嘧啶这个变体识别成胸腺嘧啶来进行复制,因此最终把胞嘧啶突变成了胸腺嘧啶(C→T)。尿嘧啶-DNA糖基化酶(UDG)催化从含尿嘧啶的DNA上释放尿嘧啶,而尿嘧啶DNA糖苷酶抑制剂(UGI)可以与UDG进行竞争,使DNA上的尿嘧啶保留下来,进而提高了C→T置换的效率。同理,腺苷酸脱氨酶可以催化腺嘌呤(A)变为次黄嘌呤(I),次黄嘌呤又可以与胞嘧啶进行配对,因此最终把腺嘌呤突变成了鸟嘌呤(A→G)。
类球红细菌(Rhodobacter Sphaeroides)属于紫色非硫细菌,光合细菌的一种。不仅可以产生辅酶Q10、类胡萝卜素、超氧化物歧化酶、5-氨基乙酰丙酸、氢气和D-阿洛酮糖等,还能降解农药残留、有机废水和多环芳烃等,固定二氧化碳和氮气以及补救放射性污染。Rhodobacter sphaeroides 2.4.1最早于1989年测出全基因组,作为该属的模式菌株,一直被作为发酵生产辅酶Q10的出发菌株,具有很高的工业价值。
传统的细菌基因敲除技术包括:质粒插入失活基因、转座子随机整合突变基因以及同源双交换介导的基因缺失等。其中同源双交换是最常用的方法,但其需要在质粒上先克隆出一个与靶基因有两个同源片段的突变基因,然后再进行二次交换,操作仍然费时耗力、效率低、周期长、而且通量有限,无法大规模筛选。
尽管CRISPR/Cas系统来自原核生物,但是目前却被广泛运用在真核生物中,一个很可能的因素是DNA的修复能力。一般地,DSB会被体内的非同源末端连接(NHEJ)途径或者同源重组(HR)途径来修复。在真核生物中,NHEJ占主导,HR仅仅发生在S晚期和G2期;而在原核生物中,HR占主导,几乎没有NHEJ。所以,在细菌中进行基因编辑的时候,一般都要同时引入同源重组的模板(环状的质粒DNA或者线性的双链DNA或者线性的单链DNA)。当不添加外源模板时,细菌往往直接死亡。
所以,从遗传操作水平来说,截止目前还没有通用的高效率、高通量的细菌基因编辑技术;从工业生产层面来讲,中国的次级代谢产物的产量及性质、市场占有率均不如日本、欧美等国;亟待开发出新型的针对有重大工业价值的微生物的基因组改造专利。
发明内容
本发明的目的是提供一种快速、有效、高通量的对类球红细菌进行基因点突变的方法。
本发明提供了一种对类球红细菌进行基因点突变从而获得突变菌株的方法。该方法可包括如下步骤:基于基因编辑技术,利用融合蛋白对类球红细菌的基因组进行编辑,通过筛选获得突变菌株;所述融合蛋白中含有具有DNA靶向作用的蛋白和具有单核苷酸定向突变功能的酶。
其中,所述基因编辑技术可为如下任一:CRISPR-Cas9技术、CRISPR-Cpf1技术、TALEN技术、ZFN技术等。所述具有DNA靶向作用的蛋白可为如下任一:Cas9蛋白、Cpf1蛋白、TALEN蛋白、ZFN蛋白等。所述具有单核苷酸定向突变功能的酶可为胞嘧啶脱氨酶或者腺苷酸脱氨酶。根据需要,所述融合蛋白中还可含有尿嘧啶DNA糖苷酶抑制剂。如所述融合蛋白为由所述具有DNA靶向作用的蛋白、所述具有单核苷酸定向突变功能的酶和所述尿嘧啶DNA糖苷酶抑制剂融合而成的融合蛋白。所述融合蛋白中的所述具有单核苷酸定向突变功能的酶和/或所述尿嘧啶DNA糖苷酶抑制剂既可以融合于所述具有DNA靶向作用的蛋白的N端,也可以融合于所述具有DNA靶向作用的蛋白的C端。
在本发明中,所述方法具体包括如下步骤(A)或(B):
(A)基于CRISPR-Cas9技术,将Cas9蛋白的编码基因、胞嘧啶脱氨酶的编码基因(或者腺苷酸脱氨酶的编码基因)融合在一起,得到融合基因A;利用所述融合基因A和sgRNA表达盒构建编辑质粒,所述sgRNA表达盒能够表达特异于待突变靶基因的sgRNA,然后将所述编辑质粒转化入类球红细菌中进行筛选,获得突变菌株。
(B)基于CRISPR-Cpf1技术,将Cpf1蛋白的编码基因、胞嘧啶脱氨酶的编码基因(或者腺苷酸脱氨酶的编码基因)融合在一起,得到融合基因B;利用所述融合基因B和crRNA表达盒构建编辑质粒,所述crRNA表达盒能够表达特异于待突变靶基因的crRNA,然后将所述编辑质粒转化入类球红细菌中进行筛选,获得突变菌株。
所述突变菌株中的所述待突变靶基因序列发生点突变,导致基因功能的丧失或者改变。
该方法是一种基于CRISPR-Cas9或CRISPR-Cpf1系统,利用Cas9-sgRNA或Cpf1-crRNA的定位功能和胞嘧啶脱氨酶(或腺苷酸脱氨酶)的脱氨基作用来对靶点附近的胞嘧啶进行突变成为胸腺嘧啶(或对腺嘌呤进行突变成为鸟嘌呤)的方法。
进一步地,所述融合基因A自5’端到3’端由如下组成:所述Cas9蛋白的编码基因、连接肽的编码基因、所述胞嘧啶脱氨酶的编码基因(或所述腺苷酸脱氨酶的编码基因)、所述尿嘧啶DNA糖苷酶抑制剂的编码基因。
进一步地,所述融合基因B自5’端到3’端由如下组成:所述胞嘧啶脱氨酶的编码基因或者所述腺苷酸脱氨酶的编码基因、连接肽的编码基因、所述Cpf1蛋白的编码基因。
在本发明的具体实施方式中,所述Cas9蛋白具体为来自于化脓链球菌的dCas9蛋白或nCas9(D10A)蛋白或nCas9(H840A)蛋白(这三个蛋白实际上是来源于一个蛋白SpCas9的三个突变体,其中dCas9蛋白是SpCas9蛋白的第10位和第840位的氨基酸同时突变为丙氨酸,nCas9(D10A)蛋白是SpCas9蛋白的第10位天冬氨酸突变为丙氨酸,nCas9(H840A)蛋白是SpCas9蛋白的第840位的组氨酸突变为丙氨酸),所述Cpf1蛋白具体为来自于新凶手弗朗西斯菌的dCpf1(将FnCpf1蛋白的第917位、第1006位以及第1255位氨基酸同时突变为丙氨酸得到)(还可以为来源于别的物种的功能相似的其他蛋白,如也可以是其他的具有靶向性的DNA结合蛋白,如ZFN、TALEN等)。所述胞嘧啶脱氨酶具体为来自于七腮幔的胞嘧啶脱氨酶pmCDA1(还可以为来源于别的物种的功能相似的其他蛋白,如来自于大鼠的APOBEC1、来自于人的AICDA等)。所述腺苷酸脱氨酶具体为来自于大肠杆菌的tRNA腺苷酸脱氨酶TadA(还可以为来源于别的物种的功能相似的其他蛋白)。所述尿嘧啶DNA糖苷酶抑制剂具体为来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI(还可以为来源于别的物种的功能相似的其他蛋白)。
进一步地,所述来自于化脓链球菌的dCas9蛋白的氨基酸序列具体为SEQ IDNo.1,所述nCas9(D10A)蛋白的氨基酸序列具体为将SEQ ID No.1的第840位的丙氨酸替换为组氨酸后得到的序列,所述nCas9(H840A)蛋白的氨基酸序列为将SEQ ID No.1的第10位的丙氨酸替换为天冬氨酸后得到的序列。所述来自于新凶手弗朗西斯菌的dCpf1蛋白的氨基酸序列为SEQ ID No.2。所述来自于七腮幔的胞嘧啶脱氨酶pmCDA1的氨基酸序列具体为SEQ ID No.3。所述来自于大肠杆菌的tRNA腺苷酸脱氨酶TadA的氨基酸序列具体为SEQ IDNo.4。所述来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI的氨基酸序列具体为SEQ ID No.5。所述连接肽(Linker)的氨基酸序列具体为SEQ ID No.6。
根据需要,以上各蛋白的编码基因是经过密码子优化后的序列,除了按照大肠杆菌密码子优化,还可以按照其他物种的密码子表进行优化,只需保证蛋白正常表达即可。连接肽(Linker)除了本方法中的121个氨基酸外还可以是其他的柔性序列,长度及序列都无要求,只需保证不影响融合蛋白功能即可。
对应于基因水平,所述来自于化脓链球菌的dCas9蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.7;所述nCas9(D10A)蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为将SEQ ID No.7的第2518-2520位核苷酸突变为CAC后得到的序列;所述nCas9(H840A)蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为将SEQ ID No.7的第28-30位核苷酸突变为GAT后得到的序列。所述来自于新凶手弗朗西斯菌的dCpf1蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.8。所述来自于七腮幔的胞嘧啶脱氨酶pmCDA1的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.9。所述来自于大肠杆菌的tRNA腺苷酸脱氨酶TadA的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.10。所述来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.11。所述连接肽(Linker)的编码基因的核苷酸序列为SEQ IDNo.12。
在所述方法中,所述编辑质粒中可存在一个所述sgRNA或crRNA表达盒(如对一个靶基因设计一个靶点),也可以同时存在若干个串联的所述sgRNA或crRNA表达盒(如对一个靶基因设计多个靶点或者对多个靶基因设计多个靶点)。
这里,需要额外说明的是:当对一个基因设计一个靶点时,首先用引物sgRNA-1F(此引物中的20个N对应具体的靶点序列)和sgRNA-R以合成的sgRNA质粒为模板扩增出骨架产物,然后用引物sgRNA-2F和sgRNA-R以骨架产物为模板再次扩增得到“一个所述的sgRNA表达盒”;当对一个基因设计多个靶点或者对多个基因设计多个靶点时,具体可按照包括如下步骤的方法构建所述“若干个串联的所述sgRNA表达盒”:在两个所述sgRNA表达盒间设计接头序列adaptor,利用重叠延伸SOE PCR扩增出来多个所述sgRNA表达盒后再利用GibsonAssembly方法将其连接至目的质粒。例如用引物sgRNA-N1-1F和sgRNA-N1-R,以合成的sgRNA质粒为模板先扩增得到骨架再以该骨架产物为模板用sgRNA-N1-2F和sgRNA-N1-R扩增得到对应的完整sgRNA-N1,同理可得sgRNA-N2、sgRNA-N3…….sgRNA-Nn-1、sgRNA-Nn,将这些sgRNA按顺序两两混合扩增可以得到2个sgRNA的串联体,再两两混合扩增可以得到4个sgRNA串联;以此类推可以最终得到n个sgRNA的串联(具体引物序列可参见表1)。构建crRNA的引物与sgRNA类似,同理可得到一个所述crRNA表达盒或者若干个所述串联的crRNA表达盒。
其中,所述sgRNA表达盒自5’端到3’端由启动子、用于表达间隔序列(spacer)的DNA序列(即用于表达sgRNA中的crRNA中用于识别所述待突变靶基因中的靶标序列的DNA序列)、用于表达与Cas9蛋白结合部分的DNA序列以及终止子区域组成。
进一步地,所述启动子可为pj23119启动子。当然也可以换为其他的,如诱导型启动子T7、pLtetO-1等。spacer序列长度包括但不限于20bp,比如可以是18-25nt,只需保证Cas9结合效果即可。
更进一步地,所述pj23119启动子为SEQ ID No.13的第1-35位;所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.13的第36-55位;所述用于表达与Cas9蛋白结合部分的DNA序列为SEQ ID No.13的第56-97位;所述终止子区域为SEQ ID No.13的第98-137位。
更加具体地,所述sgRNA表达盒的序列为SEQ ID No.13。
所述crRNA表达盒自5’端到3’端由启动子、重复序列、用于表达间隔序列(spacer)的DNA序列、以及终止子区域组成。
进一步地,所述启动子可为pj23119启动子。当然也可以换为其他的,如诱导型启动子T7、pLtetO-1等。间隔序列长度包括但不限于24bp,只需保证Cpf1结合效果即可。
更进一步地,所述pj23119启动子为SEQ ID No.14的第1-35位;所述重复序列为SEQ ID No.14的第36-55位;所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.14的第56-79位;所述终止子区域为SEQ ID No.14的第80-119位。
更加具体地,所述crRNA表达盒的序列为SEQ ID No.14。
相应的,所述编辑质粒可按照包括如下步骤的方法制备获得:(a1)向pIND4载体中克隆入筛选标记基因(如SacB基因)和多克隆位点(MCS),得到中间质粒1;(a2)将所述融合基因克隆入所述中间质粒1的多克隆位点(MCS)处,得到中间质粒2;(a3)将一个所述sgRNA或crRNA表达盒或者若干个串联的所述sgRNA或crRNA表达盒克隆入所述中间质粒2,所得重组质粒即为所述编辑质粒。
进一步地,步骤(a1)是通过如下实现的:先对pIND4载体用NcoI和HindIII进行双酶切,得到pIND4载体骨架片段;然后将单链的引物MCS-1F和MCS-1R、引物MCS-2F和MCS-2R(具体序列见实施例)分别两两退火形成带有接头的双链DNA,接着进行磷酸化处理,然后与所述pIND4载体骨架片段连接(用T4连接酶),形成质粒pIND4-MCS(带有多个酶切位点序列);然后用MscI单酶切质粒pIND4-MCS后通过Gibson Assembly方法连入SacB基因,形成质粒pIND4-SacB-MCS(在高蔗糖浓度下该质粒会丢失),即为所述中间质粒1。
进一步地,步骤(a2)是通过如下实现的:将所述中间质粒1(即质粒pIND4-SacB-MCS)用AgeI和SpeI进行双酶切,通过Gibson Assembly方法,将所述融合基因连入相应的酶切位点,形成质粒pIND4-dCas9(nCas9)-CDA-UL或pIND4-dCpf1-CDA-UL或pIND4-TadA-dCas9(nCas9)或pIND4-TadA-dCpf1,即为所述中间质粒2。
进一步地,步骤(a3)是通过如下实现的:将所述中间质粒2(即质粒pIND4-dCas9(nCas9)-CDA-UL或pIND4-dCpf1-CDA-UL或pIND4-TadA-dCas9(nCas9)或pIND4-TadA-dCpf1)用SpeI和SalI进行双酶切,通过Gibson Assembly方法,将一个所述sgRNA或crRNA表达盒或者若干个串联的所述sgRNA或crRNA表达盒连入相应的酶切位点,形成质粒pIND4-dCas9(nCas9)-CDA-UL-sgRNA或pIND4-dCpf1-CDA-UL-crRNA或pIND4-TadA-dCas9(nCas9)-sgRNA或pIND4-TadA-dCpf1-crRNA,即为所述编辑质粒。
其中,所述编辑质粒的制备过程中所涉及的克隆方法不仅仅是Gibson Assembly,也可以是酶切连接或者是直接基因合成质粒,只需保证序列正确即可。
所述编辑质粒的制备过程中所采用的原始质粒也可以是除pIND4载体外的其他表达质粒(如pBBR1MCS-2、pRKSK1等),带有别的抗性或者筛选标记,在细菌中能稳定存在并且表达蛋白的质粒都可以,拷贝数也无要求。pIND4载体自带卡那霉素抗性,其复制子为pBR322高拷贝数复制子,在酶切位点前有诱导型的Lac启动子,需要外源添加IPTG诱导蛋白表达。
在所述方法中,当融合胞嘧啶脱氨酶时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“C*GG”、“CC*G”。其中,*表示8-20个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G。所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“TT*C”、“G*AA”。其中,*表示8-24个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G。
在所述方法中,当融合腺苷酸脱氨酶时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“A*GG”、“CC*T”。其中,*表示8-20个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G。所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“TT*A”、“T*AA”。其中,*表示8-24个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G。
在本发明的具体实施方式中,所述待突变靶基因具体为appA基因和/或ppsR基因和/或crtB基因。
其中,所述appA基因的核苷酸序列如SEQ ID No.15所示;所述ppsR基因的核苷酸序列如SEQ ID No.16所示;所述crtB基因的核苷酸序列如SEQ ID No.17所示。
利用CRISPR-Cas9系统进行基因编辑时,当融合胞嘧啶脱氨酶时,所述待突变靶基因为所述appA基因时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列具体为SEQ ID No.15的第174-193位的反向互补序列和/或第293-312位的反向互补序列。当所述待突变靶基因为所述ppsR基因时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.16的第1030-1049位和/或第1064-1083位的反向互补序列。当所述待突变靶基因为所述crtB基因时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.17的第589-606位。
利用CRISPR-Cas9系统进行基因编辑时,当融合腺苷酸脱氨酶时,所述待突变靶基因为所述appA基因时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列具体为SEQ ID No.15的第1-16位。当所述待突变靶基因为所述ppsR基因时,所述sgRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.16的第1-12位。
利用CRISPR-Cpf1系统进行基因编辑时,当融合胞嘧啶脱氨酶时,所述待突变靶基因为所述appA基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列具体为SEQ ID No.15的第304-327位。当所述待突变靶基因为所述ppsR基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.16的第547-570位。当所述待突变靶基因为所述crtB基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.17的第817-840位。
利用CRISPR-Cpf1系统进行基因编辑时,当融合腺苷酸脱氨酶时,所述待突变靶基因为所述ppsR基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.16的第1-11位。当所述待突变靶基因为所述crtB基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.17的第1-17位。
另外,本发明还要求保护如下生物材料或应用:
所述生物材料为如下任一:(A1)前文所述的融合基因或所述的融合蛋白;(A2)前文所述的编辑质粒。
所述应用为如下任一:(B1)所述融合基因在制备所述编辑质粒中的应用;(B2)所述融合基因或所述融合蛋白或所述编辑质粒在对类球红细菌进行基因突变从而获得突变菌株中的应用。
本发明提供的是一种基于CRISPR-Cas9或CRISPR-Cpf1,高通量对类球红细菌基因引入点突变的方法;整个流程操作简单、步骤少、无需添加外源修复模板,相比传统的同源双交换效率明显更高、实验周期明显更短;而且在针对特定的代谢通路的调控上将会更加精准严密、脱靶率低。由于dCas9或nCas9或dCpf1在细菌中一般都能表达而且毒性较小,对于较难利用wtCas9或wtCpf1直接来编辑的一些细菌来说,基因的点突变是很好的一种选择。因此本方法具有普遍适用性,是在工业生产和环境保护等方面具有重要应用价值的新型微生物基因改造技术。
附图说明
图1为编辑质粒图谱(以pIND4-dCas9(nCas9)-CDA-UL-sgRNA为例)。
图2为实验操作流程图。
图3为待测菌株测序峰图(以ΔappA、ΔappAΔppsR为例)。
图4为待测菌株表型图(以ΔappA、ΔappAΔppsR为例)。
注:图3和图4中的NO.1为ΔappA1的突变株;NO.2为ΔappA2的突变株;NO.3为ΔappA1ΔppsR2的突变株;WT是野生型菌株。
具体实施方式
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所使用的材料、试剂等,如无特殊说明,均可从商业途径得到。
质粒:pK18mobsacB来自于BioVector质粒载体菌种细胞基因保藏中心;pIND4记载于文献“Alice C.Ind et.al.Inducible-expression plasmid for Rhodobactersphaeroides and Paracoccus denitrificans.Appl Environ Microbiol.2009Oct;75(20):6613-5”,公众可从申请人处获得,仅可用于重复本发明实验使用。
下述实施例中所用到的引物序列具体如表1所示。
表1下述实施例中所用到的引物
Figure BDA0001759672990000081
Figure BDA0001759672990000101
实施例1、利用CRISPR-Cas9系统对类球红细菌进行单个基因的突变
本实施例以构建appA、ppsR、crtB基因突变株来验证本发明所述突变方法的有效性。编辑质粒图谱如图1所示,实验操作流程图如图2所示。
一、编辑质粒的构建
1、以化脓链球菌的dCas9或nCas9(nCas9蛋白分为两种,即nCas9(D10A)蛋白和nCas9(H840A)蛋白)、七腮幔的胞嘧啶脱氨酶pmCDA1(或大肠杆菌的腺苷酸脱氨酶TadA)、枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI原始序列为基础,在IDT网站(http://sg.idtdna.com/codonopt)按照大肠杆菌密码子表进行密码子优化,形成新的dCas9或nCas9、pmCDA1(或TadA)、UGI。
来自于化脓链球菌的dCas9蛋白的氨基酸序列为SEQ ID No.1;nCas9(D10A)蛋白的氨基酸序列为将SEQ ID No.1的第840位的丙氨酸替换为组氨酸后得到的序列;nCas9(H840A)蛋白为将SEQ ID No.1的第10位的丙氨酸替换为天冬氨酸后得到的序列。来自于七腮幔的胞嘧啶脱氨酶pmCDA1的氨基酸序列为SEQ ID No.3。来自于大肠杆菌的tRNA腺苷酸脱氨酶TadA的氨基酸序列为SEQ ID No.4。来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI的氨基酸序列为SEQ ID No.5。
来自于化脓链球菌的dCas9蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.7;nCas9(D10A)蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.7的第2518-2520碱基突变为CAC后得到的序列;nCas9(H840A)蛋白的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为将SEQ ID No.7的第28-30位碱基突变为GAT后得到的序列。来自于七腮幔的胞嘧啶脱氨酶pmCDA1的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.9。来自于大肠杆菌的tRNA腺苷酸脱氨酶TadA的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.10。来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI的编码基因的核苷酸序列(按照大肠杆菌密码子优化)具体为SEQ ID No.11。
全基因合成以上密码子优化后的dCas9或nCas9、pmCDA1(或TadA)、UGI序列,通过引物扩增(各引物及具体序列参见表1)连接至表达质粒pIND4,形成pIND4-dCas9(nCas9)-CDA-UL或pIND4-TadA-dCas9(nCas9)。具体操作如下:
由于表达质粒pIND4自身可用的酶切位点不多,首先对pIND4用NcoI/HindIII进行酶切,通过两对引物MCS-1F/1R、MCS-2F/2R磷酸化退火等程序插入新的酶切位点以方便进一步的分子克隆操作,形成质粒pIND4-MCS;以pK18mobsacB为模板通过SacB-F/R引物扩增得到SacB基因(SEQ ID No.18),然后用MscI单酶切pIND4-MCS后连接SacB基因,形成质粒pIND4-SacB-MCS,再将pIND4-SacB-MCS用AgeI/SpeI酶切,通过Gibson Assembly方法,将dCas9或nCas9、pmCDA1(或TadA)、UGI同时扩增后融合在一起(各引物及具体序列参见表1,最终所形成的融合基因自5’端到3’端由如下组成:dCas9或nCas9蛋白的编码基因、连接肽linker的编码基因、pmCDA1的编码基因、UGI的编码基因;或自5’端到3’端由如下组成:TadA的编码基因、连接肽linker的编码基因、dCas9或nCas9蛋白的编码基因。其中,连接肽linker的氨基酸序列为SEQ ID No.6,核苷酸序列为SEQ ID No.12),构建质粒pIND4-dCas9(nCas9)-CDA-UL或pIND4-TadA-dCas9(nCas9)。并经测序验证正确。
2、根据目的基因DNA的序列,设计对应的spacer,靶点的选择原则为PAM“NGG”的5’上游20bp左右序列。由于细菌基因组较小,脱靶效应极低,理论上对靶点无特殊要求。具体的sgRNA表达盒序列组成如下,从5’到3’依次为pj23119启动子、20bp左右的靶点、与Cas9结合的部分以及终止子区域。合成sgRNA表达盒的序列,具体如下:
TTGACAGCTAGCTCAGTCCTAGGTATAATACTAGTNNNNNNNNNNNNNNNNNNNNGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTT(SEQ ID No.13)。其中,N表示A或T或G或C。
其中,SEQ ID No.13的第1-35位为pj23119启动子,第36-55位为靶点(即用于表达间隔序列spacer的DNA序列),第56-97位为用于表达与Cas9蛋白结合部分的DNA序列,第98-137位为终止子区域。
本实施例选取在类球红细菌中具有颜色表型的appA基因(RSP_1565,核苷酸序列如SEQ ID No.15所示)、ppsR基因(RSP_0282,核苷酸序列如SEQ ID No.16所示)、以及与辅酶Q10合成相关的crtB基因(RSP_0270,核苷酸序列如SEQ ID No.17所示)作为目的基因,其中当appA基因敲除后细菌由红色变为白色,而当ppsR基因敲除后细菌由红色变为深红色,而当crtB基因序列改变后可能会对辅酶Q10的产量有影响。
当融合的是胞嘧啶脱氨酶时,为了将appA、ppsR基因失活,将这两个基因序列按照“CGA*GG”或“CAG*GG”或“CAA*GG”或“CC*TGG”或“CC*ATG”的要求搜索合适的靶点来引入终止密码子(如CGA、CAG、CAA对应变为TGA、TAG、TAA;TGG变为TGA、TAG、TAA)或者突变起始密码子(如ATG变为ATA),以终止该基因表达来失活该基因功能。注:其中*指的是若干DNA碱基,数量为6-18不等。当待突变靶基因为appA基因时,靶点位置具体为SEQ ID No.15的第174-193位的反向互补序列以及第293-312位的反向互补序列(以下简称appAsgRNA1和appAsgRNA2)。当待突变靶基因为ppsR基因时,靶点位置具体为SEQ ID No.16的第1030-1049位以及第1064-1083位的反向互补序列(以下简称ppsRsgRNA1和ppsRsgRNA2)。为了仅将crtB基因序列改变,将该基因序列按照“C*GG”或“CC*G”的大规律寻找靶点。当所述待突变靶基因为所述crtB基因时,靶点位置具体为SEQ ID No.17的第589-606位(以下简称crtBsgRNA3)。
当融合的是腺苷酸脱氨酶时,为了将appA、ppsR基因失活,将这两个基因序列按照“CC*ATG”的要求搜索合适的靶点来突变起始密码子(如ATG变为ACG),以终止该基因表达来失活该基因功能。注:其中*指的是若干DNA碱基,数量为6-18不等。当待突变靶基因为appA基因时,靶点位置具体为SEQ ID No.15的第1-16位(以下简称appAsgRNA3)。当待突变靶基因为ppsR基因时,靶点位置具体为SEQ ID No.16的第1-12位(以下简称ppsRsgRNA3)。
3、将步骤2中得到的sgRNA分别克隆至pIND4-dCas9(nCas9)-CDA-UL或pIND4-TadA-dCas9(nCas9)中形成编辑质粒pIND4-dCas9(nCas9)-CDA-UL-appAsgRNA1/2、pIND4-dCas9(nCas9)-CDA-UL-ppsRsgRNA1/2、pIND4-dCas9(nCas9)-CDA-UL-crtB3和pIND4-TadA-dCas9(nCas9)-appAsgRNA3、pIND4-TadA-dCas9(nCas9)-ppsRsgRNA3。具体操作如下:对pIND4-dCas9(nCas9)-CDA-UL或pIND4-TadA-dCas9(nCas9)用SpeI/SalI进行酶切,通过Gibson assembly方法将步骤2设计得到的sgRNA插入形成最终的编辑质粒。将经测序验证正确的编辑质粒先热激转化入大肠杆菌DH5α中,挑取单克隆摇菌培养,进行质粒大提操作,具体步骤见产品说明书。
上述步骤中所涉及的常规扩增PCR反应体系为:10-100ng模板;2.5μL正向引物(10μM);2.5μL反向引物(10μM);25μL 2×Q5reaction mix;ddH2O补足至50μL。(当以菌落为模板时,需要另外添加1μL DMSO)
上述步骤中所涉及的常规扩增PCR反应程序为:98℃2min;98℃10s,50-60℃20s,72℃2Kb/min,30个循环;72℃5min;4℃保存。
上述步骤中所涉及的酶切反应体系为:1μg质粒;1μL NEB限制性内切酶A;1μL NEB限制性内切酶B;5μL 10×NEB CutSmart Buffer;ddH2O补足至50μL。(若是单酶切时只需添加一种限制性内切酶并且其余用ddH2O补足体系即可)。
上述步骤中所涉及的酶切反应程序为:37℃1h;65℃或80℃(不同的酶热变性失活的温度不一样)20min终止反应。
上述步骤中所涉及的连接反应体系为:2μL待连接片段;1μL已酶切回收的质粒;1μL10×T4DNA ligase buffer;1μL T4DNA ligase;ddH2O补足至10μL。
上述步骤中所涉及的连接反应程序为:16℃12h。
上述步骤中所涉及的Gibson Assembly连接体系为:1μL已酶切回收的质粒;1μL待连接的片段;2μL 2×Gibson Assembly mix。
上述步骤中所涉及的Gibson Assembly反应程序为:50℃20min;65℃10min终止反应。
上述步骤中所涉及的引物磷酸化反应体系为:1μL引物1(100μM);1μL引物2(100μM);1μL T4Pnk;2μL 10×T4Pnk Buffer;2μL rATP(10mM);ddH2O补足至20μL。
上述步骤中所涉及的引物磷酸化反应程序为:37℃1h。
上述步骤中所涉及的菌落鉴定PCR反应体系为:1μL菌液;1μL正向引物(10μM);1μL反向引物(10μM);10μL 2×Taq PCR MasterMix;ddH2O补足至20μL。
上述步骤中所涉及的菌落鉴定PCR反应程序为94℃5min;94℃30s,50-60℃30s,72℃1Kb/min,24个循环;72℃5min;4℃保存。
二、质粒转化及转化子筛选
1、将美国ATCC公司产品——货号为#17023的标准菌株Rhodobacter sphaeroidesATH 2.4.1(以下简称类球红细菌2.4.1)划线分离出单克隆,挑菌摇瓶培养制备电转化感受态,具体步骤如下:(1)从PYG平皿上挑取单个菌落于10ml摇菌管中过夜活化。(2)将活化的菌液按1:100转接到500ml三角瓶中摇至OD=0.6-0.8。(3)将三角瓶放置在冰上预冷10-30min。(4)把菌液分装至50ml灭菌离心管中,5000rpm离心5-10min。(5)弃上清,加入40mlddH2O,洗涤菌体数次后5000rpm离心10min。(6)弃上清,加入40ml 10%甘油,洗涤菌体数次后6000rpm离心10min。(7)弃上清,加入20ml 10%甘油,洗涤菌体数次后6000rpm离心10min。(8)弃上清,加入10ml 10%甘油,洗涤菌体数次后6000rpm离心10min。(9)弃上清,加入5ml 10%甘油,均匀混合菌体,在冰上分装至1.5ml灭菌离心管中。(10)于液氮中速冻并存放于-80℃冰箱。
其中,培养基及相关生长条件如下:
PYG培养基成分:胰蛋白胨10g/L;酵母提取物5g/L;葡萄糖1g/L;ddH2O添加至1L,若用固体培养基则需另外添加琼脂粉15g-20g/L;若要消除质粒则需另外添加高浓度蔗糖;pH用盐酸调节为6.8~7.0。
PYG培养基115℃灭菌20min备用,若要添加抗生素需再添加卡那霉素至终浓度25μg/mL。这里需要说明的是:所述的培养基配方也可以是其他营养成分的组合,只需保证细菌的正常生长要求即可。
细菌28-30℃培养,摇床转速180-220rpm。
2、取步骤一中大提的编辑质粒1-5μg加入步骤1中制备的100μL电转化类球红细菌2.4.1感受态中,先在冰上静置一会,然后转移至预冷的0.1cm电击杯中,设置电转仪参数1.8kv并按下电击按钮,然后加入预热的PYG培养基(此时可添加适量IPTG),30℃摇床恢复培养3-4h,最后均匀涂布在终浓度为0.5mM IPTG的卡那霉素抗性平皿上,放置于培养箱中培养。
这里需要说明的是:上述步骤中的所述大提质粒、电转化感受态的制备,也可以采用结合转移的方法进行,如利用带有编辑质粒的大肠杆菌S-17等直接与宿主菌悬液按适当比例混合也能够得到结合转化子,且此种方法无需大提质粒操作。
3、待5至7天后,步骤2中平皿上长出一定数量的克隆,随机挑取几个克隆,将其转移至含有高蔗糖的无抗性平皿上观察表型(当appA基因敲除后细菌由红色变为白色,而当ppsR基因敲除后细菌由红色变为深红色,而当crtB基因敲除后细菌由红色变为黄绿色),同时利用菌落鉴定PCR检测靶点基因上下游1Kb附近是否有突变,具体反应体系见步骤一。上样琼脂糖电泳之后切取目的大小条带送样测序,相关鉴定引物如表1所示,其中appA-test-F/R扩增大小为1977bp,ppsR-test-F/R扩增大小为2162bp,crtB-test-F/R扩增大小为1989bp。
4、结果
待测菌株测序峰图如图3所示。待测菌株表型图如图4所示。统计待测菌株的序列差异及总的突变概率,详细见表2。当融合胞嘧啶脱氨酶时,对于dCas9的appAsgRNA1和appAsgRNA2靶点,阳性率为100%;ppsRsgRNA1靶点阳性率为88.9%;ppsRsgRNA2靶点阳性率为40%;crtBsgRNA3靶点的阳性率为25%;对于nCas9的appAsgRNA1、appAsgRNA2靶点和ppsRsgRNA2靶点,阳性率为100%;ppsRsgRNA1靶点阳性率为96.3%;crtBsgRNA3靶点的阳性率为66.7%。当融合腺苷酸脱氨酶时,对于dCas9的appAsgRNA3靶点阳性效是100%,对ppsRsgRNA3靶点阳性率是80%;对于nCas9的appAsgRNA3靶点的效率是100%,对ppsRsgRNA3靶点阳性率是87.5%。
表2单个基因突变数据统计(加阴影的碱基为突变碱基)
Figure BDA0001759672990000141
Figure BDA0001759672990000151
注:表中下划线为PAM“NGG”所在区域,PAM的5’上游为20bp靶点序列。括号内的分子为含有相应突变的克隆数,分母为检测的总克隆数
实施例2、利用CRISPR-Cas9系统对类球红细菌进行多个基因的同时突变
实施例2中所涉及的实验步骤同实施例1,不同的是实施例2中的sgRNA为多个sgRNA表达盒的串联,具体如下:
当要构建两个及以上的串联sgRNA时,按照顺序先把前两个sgRNA1、sgRNA2混合作模板,用两头的引物(sgRNA1-2F/sgRNA2-R)扩增得到sgRNA1-sgRNA2,再以该串联sgRNA1-sgRNA2和后面的sgRNA3混合作模板,用新的两头引物(sgRNA1-2F/sgRNA3-R)扩增得到sgRNA1-sgRNA2-sgRNA3,再以该串联sgRNA1-sgRNA2-sgRNA3和后面的sgRNA4混合作模板,用新的两头引物(sgRNA1-2F/sgRNA4-R)扩增得到sgRNA1-sgRNA2-sgRNA3-sgRNA4,依此类推可得到若干个sgRNA串联。
本实施例中具体操作如下:用表1中的引物appAsgRNA1-N1-1F和appAsgRNA1-N1-R以合成的sgRNA质粒为模板先扩增得到骨架产物,再用引物appAsgRNA1-N1-2F和appAsgRNA1-N1-R以该骨架产物为模板扩增得到appAsgRNA1,同理可得到appAsgRNA2,然后以appAsgRNA1、appAsgRNA2的混合物为模板,用两头的引物appAsgRNA1-N1-2F和appAsgRNA2-N2-R进行SOE PCR扩增得到两个串联的sgRNA,即appAsgRNA1-appAsgRNA2,同理可得到appAsgRNA1-ppsRsgRNA2以及appAsgRNA3-ppsRsgRNA3。当构建三个串联的sgRNA时,用ppsRsgRNA2-N2-1F/ppsRsgRNA2-N2-R’和ppsRsgRNA2-N2-2F/ppsRsgRNA2-N2-R’先后扩增得到ppsRsgRNA2,再按上述步骤得到appAsgRNA1-ppsRsgRNA2-crtBsgRNA3。
经过上述操作,实现:
1、将appAsgRNA1和appAsgRNA2串联得到对appA单个基因设计两个靶点的质粒pIND4-dCas9(nCas9)-CDA-UL-appA1appA2,并经测序验证正确。
2、将appAsgRNA1和ppsRsgRNA2或者将appAsgRNA3和ppsRsgRNA3串联得到对appA、ppsR这两个基因各设计一个靶点的质粒pIND4-dCas9(nCas9)-CDA-UL-appA1ppsR2或pIND4-TadA-dCas9(nCas9)-appA3ppsR3,并经测序验证正确。
3、将appAsgRNA1、ppsRsgRNA2、crtBsgRNA3串联得到对appA、ppsR、crtB这三个基因各设计一个靶点的质粒pIND4-dCas9(nCas9)-CDA-UL-appA1ppsR2crtB3,并经测序验证正确。
将上述质粒转化入类球红细菌2.4.1中,筛选转化子,结果如表3和表4所示。当融合胞嘧啶脱氨酶时,对于dCas9的appA1-appA2和appA1-ppsR2靶点,获得纯的双突变克隆的概率是33.3%(1/3),appA1-ppsR2-crtB3靶点没有获得纯的三突变克隆,因此还需在含有相对较多突变的转化子的基础上进一步诱导突变并且分离纯化;对于nCas9的appA1-appA2和appA1-ppsR2靶点,仅获得混合的双突变克隆,而appA1-ppsR2-crtB3靶点同样没有获得纯的三突变克隆,这样就都需要对挑选的转化子再经过一次诱导突变并且分离纯化,不过最终都能得到相应的突变。当融合腺苷酸脱氨酶时,对于dCas9的appA3-ppsR3靶点,获得的双突变克隆的概率是33.3%(1/3);对于nCas9的appA3-ppsR3靶点仅获得混合的双突变克隆。
表3多个基因突变数据统计(融合胞嘧啶脱氨酶)
表4多个基因突变数据统计(融合腺嘌呤脱氨酶)
Figure BDA0001759672990000162
Figure BDA0001759672990000171
注:mut为突变基因型,mix为混合的基因型,wt为野生基因型。
实施例3、利用CRISPR-Cpf1系统对类球红细菌进行单个基因的突变
本实施例同实施例1,不同的是将Cas9换为dCpf1,将sgRNA换为crRNA。
其中dCpf1蛋白来自于新凶手弗朗西斯菌,该蛋白的氨基酸序列为SEQ ID No.2,对应的核苷酸序列(大肠杆菌密码子优化)为SEQ ID No.8。
crRNA表达盒的序列具体如下:
TTGACAGCTAGCTCAGTCCTAGGTATAATGGATCCGAATTTCTACTGTTGTAGATNNNNNNNNNNNNNNNNNNNNNNNNTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTT(SEQ ID No.14)。其中,N表示A或T或G或C。
其中,SEQ ID No.14的第1-35位为启动子;SEQ ID No.14的第36-55位为重复序列;SEQ ID No.14的第56-79位为用于表达间隔序列的DNA序列;SEQ ID No.14的第80-119位为终止子区域。
当融合胞嘧啶脱氨酶时,为了将appA、ppsR、crtB基因失活,按照“TT*CGA”、“TT*CAG”、“TT*CAA”、“ATG*AA”的要求来寻找靶点。注:其中*指的是若干DNA碱基,数量为6-21不等。当所述待突变靶基因为所述appA基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列具体为SEQ ID No.15的第304-327位(以下简称为appAcrRNA1)。当所述待突变靶基因为所述ppsR基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.16的第547-570位(以下简称为ppsRcrRNA1)。当所述待突变靶基因为所述crtB基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ IDNo.17的第817-840位(以下简称为crtBcrRNA1)。
当融合腺苷酸脱氨酶时,为了将ppsR、crtB基因失活,按照“ATG*AA”要求来寻找靶点。注:其中*指的是若干DNA碱基,数量为6-21不等。当所述待突变靶基因为所述ppsR基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.16的第1-11位(以下简称为ppsRcrRNA2)。当所述待突变靶基因为所述crtB基因时,所述crRNA表达盒中所述用于表达间隔序列(spacer)的DNA序列为SEQ ID No.17的第1-17位(以下简称为crtBcrRNA2)。
首先,全基因合成经过大肠杆菌密码子优化的dCpf1、pmCDA1、UGI、TadA,通过引物扩增构建连接等步骤构建pIND4-dCpf1-CDA-UL或pIND4-TadA-dCpf1。
然后,将设计的crRNA克隆至上述中间载体形成pIND4-dCpf1-CDA-UL-appAcrRNA1、pIND4-dCpf1-CDA-UL-ppsRcrRNA1、pIND4-dCpf1-CDA-UL-crtBcrRNA1或pIND4-TadA-dCpf1-ppsRcrRNA2、pIND4-TadA-dCpf1-crtBcrRNA2。
接着将上述编辑质粒电转化进类球红细菌2.4.1中,筛选转化子,结果如下表5所示。
当融合胞嘧啶脱氨酶时,对于dCpf1的appAcrRNA1、ppsRcrRNA1、crtBcrRNA1靶点,阳性率分别为66.6%、100%、60%;当融合腺苷酸脱氨酶时,对于dCpf1的ppsRcrRNA2靶点阳性效是100%,对crtBcrRNA2靶点阳性率是75%。
表5单个基因突变数据统计(加阴影的碱基为突变碱基)
Figure BDA0001759672990000181
注:表中下划线为PAM“TTN”所在区域,PAM的3’下游为24bp靶点序列。括号内的分子为含有相应突变的克隆数,分母为检测的总克隆数
实施例4、利用CRISPR-Cpf1系统对类球红细菌进行多个基因的同时突变
本实施例同实施例3,不同的是本例中crRNA为多个crRNA表达盒的串联。
将appAcrRNA1和ppsRcrRNA1串联后连接至pIND4-dCpf1-CDA-UL得到pIND4-dCpf1-CDA-UL-appA1ppsR1,将appAcrRNA1、ppsRcrRNA1、crtBcrRNA1串联后连接至pIND4-dCpf1-CDA-UL得到pIND4-dCpf1-CDA-UL-appA1ppsR1crtB1,将ppsRcrRNA2、crtBcrRNA2串联后连接至pIND4-TadA-dCpf1得到pIND4-TadA-dCpf1-ppsR2crtB2。上述质粒经测序验证正确。
接着将上述编辑质粒电转化进类球红细菌2.4.1中,筛选转化子,结果如下表6和表7所示。
当融合胞嘧啶脱氨酶时,对于双靶点appA1ppsR1,效率为66.6%,对于三靶点appA1ppsR1crtB1,未能一次获得突变,需要进一步诱导分离纯化。当融合腺苷酸脱氨酶时,对于双靶点ppsR2crtB2,效率为33.3%。
表6多个基因突变数据统计(融合胞嘧啶脱氨酶)
表7多个基因突变数据统计(融合腺苷酸脱氨酶)
注:mut为突变基因型,mix为混合的基因型,wt为野生基因型。
若是用于单个靶点的突变,可以发现无论是用dCas9或者是nCas9都能获得相应的突变株,总的来说nCas9的效率高于dCas9;但是若是用于多靶点的突变,由于nCas9的微弱毒性可能长出来的克隆数会更少,因此这个时候利用dCas9会有优势。而且本研究发现,若对第一次长出来的混合的转化子进行二次诱导,那么将会获得更多的和更稳定的突变株。因此只需提高本底的细菌数量及诱导时间和剂量有望获得更多的突变类型。
另外,对高GC含量的类球红细菌全基因组进行分析,其编码基因有4287个,符合“C*GG”或“CC*G”或“A*GG”或“CC*T”要求的靶点所对应的基因几乎占100%;符合“CGA*GG”或“CAG*GG”或“CAA*GG”或“CC*TGG”或“CC*ATG”要求的靶点所对应的基因占98.6%(4226/4287)。所以本方法的实施覆盖范围广、靶点选择多。
综上所述,本发明是一种基于CRISPR-Cas9或CRISPR-Cpf1系统,利用Cas9-sgRNA或Cpf1-crRNA的定位功能和胞嘧啶脱氨酶(或腺苷酸脱氨酶)的脱氨基作用来对靶点附近胞嘧啶进行突变成为胸腺嘧啶(或者对腺嘌呤进行突变成为鸟嘌呤)的方法。对于单个基因的突变效率为25%-100%,对于两个基因的同时突变效率为33.3%,对于三个基因同时突变效率为10%,对于更多基因的同时突变,可以在含有相对较多突变的菌株的基础上进一步加诱导剂后分离纯化。本文中的编辑质粒含有SacB基因,在高蔗糖浓度的条件下会发生丢失,因此还可以通过将获得的单个基因或多个基因的突变株消除质粒之后制备成感受态,再转化入带有新的靶点的质粒筛选将获得新的更多个基因突变的菌株。本方法操作简单、重复性好、通量高,可以建立质粒文库在全基因组水平进行筛选,实现精准基因突变,并可适用于其他细菌。
<110> 北京大学
<120> 一种对类球红细菌进行基因突变的方法
<130> GNCLN181319
<160> 18
<170> PatentIn version 3.5
<210> 1
<211> 1368
<212> PRT
<213> Streptococcus pyogenes serotype M1
<400> 1
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 2
<211> 1300
<212> PRT
<213> Francisella tularensis subsp. novicida (strain U112)
<400> 2
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Ala Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Ala Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Ala Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 3
<211> 208
<212> PRT
<213> Petromyzon marinus (sea lamprey)
<400> 3
Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr
1 5 10 15
Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg
20 25 30
Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys
35 40 45
Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly
50 55 60
Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg
65 70 75 80
Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro
85 90 95
Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu
100 105 110
Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr
115 120 125
Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn
130 135 140
Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg
145 150 155 160
Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp
165 170 175
Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser
180 185 190
Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val
195 200 205
<210> 4
<211> 397
<212> PRT
<213> Escherichia coli
<400> 4
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
385 390 395
<210> 5
<211> 84
<212> PRT
<213> Bacillus phage AR9
<400> 5
Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu
1 5 10 15
Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val
20 25 30
Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp
35 40 45
Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu
50 55 60
Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys
65 70 75 80
Ile Lys Met Leu
<210> 6
<211> 121
<212> PRT
<213> Artificial sequence
<400> 6
Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Ala Glu Tyr Val Arg Ala
1 5 10 15
Leu Phe Asp Phe Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe Lys Lys
20 25 30
Gly Asp Ile Leu Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp Trp Asn
35 40 45
Ala Glu Asp Ser Glu Gly Lys Arg Gly Met Ile Pro Val Pro Tyr Val
50 55 60
Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp
65 70 75 80
His Asp Ile Asp Tyr Lys Asp Asp Asp Asp Lys Ser Arg Leu Glu Ser
85 90 95
Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp
100 105 110
Tyr Lys Asp Asp Asp Asp Lys Ser Arg
115 120
<210> 7
<211> 4107
<212> DNA
<213> Artificial sequence
<400> 7
atggataaga aatactcaat aggcttagct atcggcacaa atagcgtcgg atgggcggtg 60
atcactgatg aatataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120
cacagtatca aaaaaaatct tataggggct cttttatttg acagtggaga gacagcggaa 180
gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240
tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300
cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360
aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420
aaattggtag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480
atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540
gtggacaaac tatttatcca gttggtacaa acctacaatc aattatttga agaaaaccct 600
attaacgcaa gtggagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660
cgattagaaa atctcattgc tcagctcccc ggtgagaaga aaaatggctt atttgggaat 720
ctcattgctt tgtcattggg tttgacccct aattttaaat caaattttga tttggcagaa 780
gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840
caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900
ttactttcag atatcctaag agtaaatact gaaataacta aggctcccct atcagcttca 960
atgattaaac gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020
caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080
ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140
gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200
aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260
gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320
gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380
cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440
gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500
aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560
tataacgaat tgacaaaggt caaatatgtt actgaaggaa tgcgaaaacc agcatttctt 1620
tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680
gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740
tcaggagttg aagatagatt taatgcttca ttaggtacct accatgattt gctaaaaatt 1800
attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860
ttaacattga ccttatttga agatagggag atgattgagg aaagacttaa aacatatgct 1920
cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980
cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040
gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100
agtttgacat ttaaagaaga cattcaaaaa gcacaagtgt ctggacaagg cgatagttta 2160
catgaacata ttgcaaattt agctggtagc cctgctatta aaaaaggtat tttacagact 2220
gtaaaagttg ttgatgaatt ggtcaaagta atggggcggc ataagccaga aaatatcgtt 2280
attgaaatgg cacgtgaaaa tcagacaact caaaagggcc agaaaaattc gcgagagcgt 2340
atgaaacgaa tcgaagaagg tatcaaagaa ttaggaagtc agattcttaa agagcatcct 2400
gttgaaaata ctcaattgca aaatgaaaag ctctatctct attatctcca aaatggaaga 2460
gacatgtatg tggaccaaga attagatatt aatcgtttaa gtgattatga tgtcgatgcc 2520
attgttccac aaagtttcct taaagacgat tcaatagaca ataaggtctt aacgcgttct 2580
gataaaaatc gtggtaaatc ggataacgtt ccaagtgaag aagtagtcaa aaagatgaaa 2640
aactattgga gacaacttct aaacgccaag ttaatcactc aacgtaagtt tgataattta 2700
acgaaagctg aacgtggagg tttgagtgaa cttgataaag ctggttttat caaacgccaa 2760
ttggttgaaa ctcgccaaat cactaagcat gtggcacaaa ttttggatag tcgcatgaat 2820
actaaatacg atgaaaatga taaacttatt cgagaggtta aagtgattac cttaaaatct 2880
aaattagttt ctgacttccg aaaagatttc caattctata aagtacgtga gattaacaat 2940
taccatcatg cccatgatgc gtatctaaat gccgtcgttg gaactgcttt gattaagaaa 3000
tatccaaaac ttgaatcgga gtttgtctat ggtgattata aagtttatga tgttcgtaaa 3060
atgattgcta agtctgagca agaaataggc aaagcaaccg caaaatattt cttttactct 3120
aatatcatga acttcttcaa aacagaaatt acacttgcaa atggagagat tcgcaaacgc 3180
cctctaatcg aaactaatgg ggaaactgga gaaattgtct gggataaagg gcgagatttt 3240
gccacagtgc gcaaagtatt gtccatgccc caagtcaata ttgtcaagaa aacagaagta 3300
cagacaggcg gattctccaa ggagtcaatt ttaccaaaaa gaaattcgga caagcttatt 3360
gctcgtaaaa aagactggga tccaaaaaaa tatggtggtt ttgatagtcc aacggtagct 3420
tattcagtcc tagtggttgc taaggtggaa aaagggaaat cgaagaagtt aaaatccgtt 3480
aaagagttac tagggatcac aattatggaa agaagttcct ttgaaaaaaa tccgattgac 3540
tttttagaag ctaaaggata taaggaagtt aaaaaagact taatcattaa actacctaaa 3600
tatagtcttt ttgagttaga aaacggtcgt aaacggatgc tggctagtgc cggagaatta 3660
caaaaaggaa atgagctggc tctgccaagc aaatatgtga attttttata tttagctagt 3720
cattatgaaa agttgaaggg tagtccagaa gataacgaac aaaaacaatt gtttgtggag 3780
cagcataagc attatttaga tgagattatt gagcaaatca gtgaattttc taagcgtgtt 3840
attttagcag atgccaattt agataaagtt cttagtgcat ataacaaaca tagagacaaa 3900
ccaatacgtg aacaagcaga aaatattatt catttattta cgttgacgaa tcttggagct 3960
cccgctgctt ttaaatattt tgatacaaca attgatcgta aacgatatac gtctacaaaa 4020
gaagttttag atgccactct tatccatcaa tccatcactg gtctttatga aacacgcatt 4080
gatttgagtc agctaggagg tgactga 4107
<210> 8
<211> 3903
<212> DNA
<213> Artificial sequence
<400> 8
atgtcgatct accaggagtt cgtgaataaa tatagcctga gcaagaccct ccggttcgag 60
ctgatccccc aggggaagac gctggagaat atcaaagcgc gcgggctgat cctggatgat 120
gagaaacgcg cgaaggatta taagaaagcc aagcagatca tcgacaaata ccatcagttc 180
ttcatcgaag agatcctgtc ctccgtctgc atctccgaag atctgctcca gaactattcg 240
gacgtgtatt tcaaactgaa gaaatccgac gacgacaatc tccagaagga tttcaagtcc 300
gcgaaagata cgatcaagaa acagatctcc gagtacatca aggactccga gaaattcaag 360
aatctgttca atcagaacct catcgacgcg aaaaaggggc aggagagcga tctcatcctg 420
tggctgaagc agtcgaagga caatggcatc gagctcttca aggcgaatag cgacatcacg 480
gacatcgacg aagccctgga gatcatcaag agcttcaaag gctggacgac gtacttcaaa 540
ggcttccatg aaaatcggaa aaatgtgtat tcctcgaacg acatccccac gtcgatcatc 600
tatcgcatcg tggatgataa tctgcccaaa ttcctggaaa ataaagccaa atacgagagc 660
ctgaaagata aggccccgga ggccatcaat tacgaacaga tcaagaaaga cctcgcggaa 720
gaactgacct tcgatatcga ctacaaaacc tcggaggtga accagcgcgt cttcagcctc 780
gatgaagtct tcgaaatcgc caatttcaat aactacctca accagtcggg gatcaccaaa 840
ttcaatacca tcatcggggg gaaattcgtc aacggcgaga ataccaagcg caagggcatc 900
aacgaatata tcaacctgta ttcgcagcag atcaacgaca aaaccctcaa gaaatacaag 960
atgagcgtgc tcttcaaaca gatcctctcg gataccgagt ccaagtcgtt cgtgatcgac 1020
aaactggagg acgactcgga tgtggtcacc accatgcagt cgttctatga gcagatcgcg 1080
gccttcaaga cggtggagga aaaaagcatc aaagaaacgc tcagcctcct gttcgacgac 1140
ctcaaagcgc agaaactgga cctgtccaag atctatttca agaatgacaa aagcctgacc 1200
gacctgagcc agcaggtgtt cgacgactac agcgtcatcg gcacggcggt cctggaatat 1260
atcacccagc agatcgcgcc gaaaaatctg gacaatccca gcaaaaaaga gcaggagctg 1320
atcgccaaaa aaaccgagaa ggccaagtac ctcagcctgg agacgatcaa actcgcgctc 1380
gaagaattca ataaacatcg ggatatcgac aaacagtgcc gcttcgagga aatcctggcg 1440
aatttcgcgg cgatccccat gatcttcgac gaaatcgcgc agaataagga taatctcgcg 1500
cagatctcga tcaaatatca gaatcagggg aagaaagacc tcctccaggc ctccgccgaa 1560
gatgatgtga aggccatcaa ggacctcctc gaccagacca acaatctgct ccacaaactc 1620
aaaatcttcc atatcagcca gtccgaagat aaggccaata tcctggataa ggatgaacat 1680
ttctatctcg tgttcgaaga gtgctatttc gaactcgcca acatcgtgcc gctctataat 1740
aaaatccgga actacatcac gcagaagccc tattcggacg aaaaattcaa gctcaatttc 1800
gaaaactcca cgctcgcgaa cggctgggat aagaacaagg agcccgataa tacggcgatc 1860
ctcttcatca aggatgataa gtactacctg ggggtcatga ataaaaaaaa caacaaaatc 1920
ttcgacgaca aggcgatcaa ggagaataag ggggaagggt acaagaaaat cgtctataaa 1980
ctgctgccgg gcgccaataa aatgctgccg aaagtcttct tcagcgccaa atcgatcaag 2040
ttctataatc cgagcgaaga tatcctccgc atccgcaatc attcgaccca caccaagaat 2100
ggcagcccgc agaaaggcta tgaaaaattc gagttcaaca tcgaggattg ccggaaattc 2160
atcgacttct ataaacagtc gatctccaaa caccccgaat ggaaggactt cgggttccgc 2220
ttctcggata cgcagcgcta taacagcatc gatgagttct atcgggaggt cgagaatcag 2280
ggctacaaac tgaccttcga gaatatctcg gagagctaca tcgattccgt ggtcaatcag 2340
ggcaaactct acctcttcca gatctacaac aaggatttct cggcctacag caaagggcgg 2400
cccaacctgc atacgctgta ctggaaagcc ctcttcgatg aacgcaacct ccaggacgtc 2460
gtctacaaac tcaatgggga agccgagctc ttctatcgca aacagtcgat cccgaaaaag 2520
atcacccacc ccgccaaaga ggccatcgcc aacaagaaca aagacaatcc caagaaagag 2580
tccgtcttcg agtatgacct gatcaaagat aagcggttca ccgaagataa attcttcttc 2640
cactgcccga tcaccatcaa cttcaaatcc tccggcgcca acaaattcaa tgatgagatc 2700
aacctgctgc tgaaagagaa ggccaatgac gtccatatcc tctccatcgc gcgcggggag 2760
cggcatctgg cctattacac cctcgtggat gggaaaggca acatcatcaa acaggacacg 2820
ttcaacatca tcggcaatga ccgcatgaag acgaactacc atgacaaact ggccgccatc 2880
gagaaagatc gggattccgc ccggaaggat tggaagaaga tcaataatat caaagagatg 2940
aaagaaggct acctgagcca ggtcgtgcat gaaatcgcga agctcgtgat cgaatataac 3000
gccatcgtcg tcttcgccga cctgaacttc gggttcaagc gcgggcgctt caaggtcgag 3060
aaacaggtct atcagaagct cgaaaagatg ctgatcgaga aactcaatta tctcgtcttc 3120
aaggataacg aattcgataa aacgggcggg gtcctccggg cgtaccagct caccgcgccg 3180
ttcgagacgt tcaaaaagat gggcaaacag accgggatca tctattatgt ccccgccggc 3240
ttcacgagca agatctgccc cgtcaccggc ttcgtcaatc agctctaccc gaagtacgag 3300
tccgtgtcca agagccagga gttcttcagc aaattcgaca aaatctgcta taacctcgac 3360
aaaggctact tcgagttctc cttcgactat aaaaacttcg gcgacaaggc cgcgaagggc 3420
aagtggacga tcgccagctt cggcagccgg ctgatcaatt tccgcaactc ggacaaaaat 3480
cataactggg atacgcggga agtctacccc acgaaggagc tggagaaact cctgaaggat 3540
tacagcatcg aatacggcca cggcgaatgc atcaaagcgg ccatctgcgg ggaatcggac 3600
aaaaagttct tcgcgaagct gacgtccgtc ctcaatacca tcctccagat gcggaattcg 3660
aagacgggca ccgagctgga ttacctgatc tcgcccgtgg cggatgtcaa tggcaatttc 3720
ttcgatagcc ggcaggcgcc caagaatatg ccccaggacg ccgccgcgaa cggggcgtat 3780
catatcggcc tgaaagggct catgctgctc gggcggatca aaaataacca ggaggggaaa 3840
aaactgaacc tggtcatcaa gaatgaagag tatttcgaat tcgtgcagaa ccgcaacaac 3900
tga 3903
<210> 9
<211> 627
<212> DNA
<213> Artificial sequence
<400> 9
atgaccgacg ctgagtacgt gagaatccat gagaagttgg acatctacac gtttaagaaa 60
cagtttttca acaacaaaaa atccgtgtcg catagatgct acgttctctt tgaattaaaa 120
cgacggggtg aacgtagagc gtgtttttgg ggctatgctg tgaataaacc acagagcggg 180
acagaacgtg gcattcacgc cgaaatcttt agcattagaa aagtcgaaga atacctgcgc 240
gacaaccccg gacaattcac gataaattgg tactcatcct ggagtccttg tgcagattgc 300
gctgaaaaga tcttagaatg gtataaccag gagctgcggg ggaacggcca cactttgaaa 360
atctgggctt gcaaactcta ttacgagaaa aatgcgagga atcaaattgg gctgtggaat 420
ctcagagata acggggttgg gttgaatgta atggtaagtg aacactacca atgttgcagg 480
aaaatattca tccaatcgtc gcacaatcaa ttgaatgaga atagatggct tgagaagact 540
ttgaagcgag ctgaaaaacg acggagcgag ttgtccatta tgattcaggt aaaaatactc 600
cacaccacta agagtcctgc tgtttga 627
<210> 10
<211> 1191
<212> DNA
<213> Artificial sequence
<400> 10
atgtcggagg tggagttctc gcacgagtac tggatgcgcc acgccctgac cctggccaaa 60
cgcgcctggg acgagcgtga agtgccggtg ggtgccgtgc tggtgcacaa caaccgcgtg 120
atcggcgagg gctggaaccg tccgatcggc cgccatgatc cgacagccca cgccgagatc 180
atggcccttc gccagggcgg cctggtgatg cagaactacc gcctgatcga cgccaccctg 240
tacgtgaccc tggagccgtg cgtgatgtgc gccggcgcca tgatccactc gcgcatcggc 300
cgcgtggtgt ttggtgcccg cgacgccaaa accggcgccg ccggctctct gatggacgtg 360
ctgcaccacc cgggcatgaa ccaccgcgtg gagatcaccg agggcatcct ggccgacgaa 420
tgcgccgccc tgctgtcgga cttcttccgc atgcgccgcc aggagatcaa ggcccagaag 480
aaggcccagt cgtcgaccga ttcgggcggt tcgtcgggcg gttcgtcggg ctctgaaacc 540
ccgggcacct cggaatcggc caccccggaa tcgtcgggcg gctcttctgg cggctcgtcg 600
gaggtggagt tctcgcacga gtactggatg cgccacgccc tgacccttgc caaacgcgcc 660
cgcgatgagc gcgaagtgcc ggtgggtgcc gtgctggtgc tgaacaaccg cgtgatcggc 720
gagggttgga accgcgccat cggcctgcat gatccgaccg cccacgccga gatcatggcc 780
cttcgccagg gcggcctggt gatgcagaac taccgcctga tcgacgccac cctgtacgtg 840
accttcgagc cgtgcgtgat gtgcgccggc gccatgatcc actcgcgcat cggccgcgtg 900
gttttcggcg tgcgcaacgc caaaaccggc gccgccggct ctctgatgga cgtgctgcac 960
tacccgggca tgaaccaccg cgtggagatc accgagggca tcctggccga cgaatgcgcc 1020
gccctgctgt gctacttctt ccgcatgccg cgccaggtgt tcaacgccca gaagaaggcc 1080
cagtcgtcga ccgattcggg cggctcgtcg ggtggttcgt cgggctcgga aaccccgggc 1140
acctcggaat cggccacccc ggaatcgtcg ggcggttcgt cgggtggctc t 1191
<210> 11
<211> 255
<212> DNA
<213> Artificial sequence
<400> 11
atgaccaacc tttccgacat catagagaag gaaacaggca aacagttggt catccaagag 60
tcgatactca tgcttcctga agaagttgag gaggtcattg ggaataagcc ggaaagtgac 120
attctcgtac acactgcgta tgatgagagc accgatgaga acgtgatgct gctcacgtca 180
gatgccccag agtacaaacc ctgggctctg gtgattcagg actctaatgg agagaacaag 240
atcaagatgc tagga 255
<210> 12
<211> 363
<212> DNA
<213> Artificial sequence
<400> 12
ggtggaggag gttctggagg tggaggttct gctgagtatg tgcgagccct ctttgacttt 60
aatgggaatg atgaagagga tcttcccttt aagaaaggag acatcctgag aatccgggat 120
aagcctgagg agcagtggtg gaatgcagag gacagcgaag gaaagagggg gatgattcct 180
gtcccttacg tggagaagta ttccggagac tataaggacc acgacggaga ctacaaggat 240
catgatattg attacaaaga cgatgacgat aagtctaggc tcgagtccgg agactataag 300
gaccacgacg gagactacaa ggatcatgat attgattaca aagacgatga cgataagtct 360
agg 363
<210> 13
<211> 137
<212> DNA
<213> Artificial sequence
<220>
<221> misc_feature
<222> (36)..(55)
<223> n为a或t或c或g
<400> 13
ttgacagcta gctcagtcct aggtataata ctagtnnnnn nnnnnnnnnn nnnnngtttt 60
agagctagaa atagcaagtt aaaataaggc tagtccgtta tcaacttgaa aaagtggcac 120
cgagtcggtg ctttttt 137
<210> 14
<211> 119
<212> DNA
<213> Artificial sequence
<220>
<221> misc_feature
<222> (56)..(79)
<223> n为a或t或c或g
<400> 14
ttgacagcta gctcagtcct aggtataatg gatccgaatt tctactgttg tagatnnnnn 60
nnnnnnnnnn nnnnnnnnnt tatcaacttg aaaaagtggc accgagtcgg tgctttttt 119
<210> 15
<211> 1353
<212> DNA
<213> Rhodobacter sphaeroides 2.4.1
<400> 15
atgcaacacg acctcgaggc ggacgtcacg atgacgggct cggatctggt ttcctgctgc 60
taccgcagcc tggcggcccc ggatctgacg ctgcgcgacc tcctcgacat cgtcgagacc 120
tcgcaggcgc acaatgcccg ggcgcagctg accggcgcgc tcttctacag ccagggcgtc 180
ttcttccagt ggctcgaagg ccgccccgcc gccgtggcgg aggtcatgac ccacatccag 240
cgggaccggc gccacagcaa cgtcgagatc ctcgcagagg aaccgatcgc caagcgccgc 300
tttgcgggat ggcacatgca gctctcctgc tcggaggccg acatgcgcag cctcgggctg 360
gccgagagcc ggcagatcgt gaccgtgggc cgcagcctgg tggccgacaa caccaacatc 420
ttctctttcg ataggatcgc cgccgtgcgc cgtttcctct ccgacgtctg cgcagcgcgg 480
actctcgccc ccgatacccc cgtcgaggcg gacaccttcg ccctttatgc cctgaccgag 540
gcgcaggcgg gccgctccgg ccgtgccaag gccgtggcgc ggctctccga tctgctgagc 600
accgatccgc tcggtcgcct gaccgaggtc gaggagctgc tgcgcgccca tgcgccgacc 660
gccgccgatt tcgcgcggct gttcgaggcc tgcgccgagc gcctgacgcg cgcgctggcc 720
gaggatcgca tctcgcggat gcaggtgacg ctggcctatt cggccctgca gatggcgctg 780
cgccggatcc atcacctgcc cgacccgcag aagagcgtgg gcgccgtgct ggtcgccggc 840
gtgccgggtc acaagccgat cctcgaggcg gccctcgcgg ccgagatgct gcgcgccgtg 900
ggctggtcga cctcggtcgt gcatcccgag agcgtcgcgg ccctggccgc gcggctgaag 960
acctcgcgca cctcgacgct ggtcgtggcg ccgagccttc tggagggaac cgagcaggag 1020
gccgacacgc tgcggttcgt ctccgcgctc agggcgcgga ccgatcttcc cggcctgagc 1080
atcctggtcg ggggccggct ggcgcaactt cccccctcga agctgaagga ctccggcgcc 1140
gatgccgggt tcgcacatct tgcgctgctt ccggccgccc tcgcccgtgt ggcctgcccg 1200
gccaatgccg actgctgctc gatgcgcgcc tgccggatgc ccgcgtccca atgctgcgac 1260
aagcgcatca accccgaatt cctgctggcg aacgtcatgc cgagcgtgct gacccgcatc 1320
tcctcgcgcc aggaccgccg ccgcagcgcc tga 1353
<210> 16
<211> 1395
<212> DNA
<213> Rhodobacter sphaeroides 2.4.1
<400> 16
atgctggccg gcgggagcct cccgtccctc gctccggacc tcgtgcgcga cctgatcgcg 60
accgcggccg acatctcgct gctcgtctcg caggaagggg tggtccggga ggtgatggcc 120
aacccgcacc acccgagctt cggccagctt tcggagtggg agggtcgccc gctcgaggaa 180
gtgctgaccg ccgagagcgt cgccaagttc cgcctgcgca gcgaggggct tgaacccggc 240
cgcggatcgg tcgcggtcga gctgaaccac atcgatccgc gcagcttcga gtttccgatc 300
cgctacatcc tgcaccgcct gccggccgac cgctcgatcc tgatgctcgg gcgcgacctg 360
cgccccatcg cagaggtgca gcagcagctg gtcgcggcgc agcttgcgat ggaacgcgac 420
tacgagaccc agcgcgagat ggagacccgc taccgcgtgg tgctcgacgt gtcgcgcgat 480
ccgatggtgc tcgtctcgat gtccaccggg cggatcgtcg atctgaacag cgcggcgggg 540
ctcttgctcg gcggcgtgcg ccaggacctg ctgggcgcgg ccatcgcgca ggagttcgag 600
ggacggcggc gcggcgagtt catggagacg atgaccaatc tcgcggcgac cgaaagtgct 660
gcgccggtcg aggtgctggc gcggcggtcg cagaagcggc ttctggtggt gccgcgtgtc 720
ttccgcgcgg cgggcgagcg gctgctcctg tgccagatcg acccggccga tgcgacgcag 780
ccggtgggcg acgagctgtc cgagaacctc gcccggctct atcacgaggg ggtggacgga 840
atcgtcttct ccgatgccga cggcacgatc cggggcgcca acgaggcctt cctcaacatg 900
accgactcgt cgagcctcgc cgcgatccgc ggccgctcga tcgccgattt cctcgcccgc 960
ggcagcgtcg acctgcgcgt gctgatcgac agtgtcagac gcactggaca actgcggctc 1020
tatgccaccc gactcaccac cgacttcgcg gggcagattg ccgcagagat ctcggccacc 1080
tggctcgatg accgcgagcg cccgctgctc gttcttgtcg tgcgggacac gagccgggcc 1140
gacacgatgc gcaggcccgt gcccgcgacg ggcgtgatcg acgagcccgc ccgcaatgtt 1200
atggagctgg tcgggaattc caccctcaag gacatcgttg cggaaaccac tgatgttgtt 1260
gagaaaatgt gcatcgagac ggcactggag ctgacgcgga acaaccgcgt ggccgcggcc 1320
gagatgctct cgctgtcgcg gcagtcgctt tatgtgaagc tgcgcaagtt cggcctcctg 1380
aacaaggacg agtga 1395
<210> 17
<211> 1068
<212> DNA
<213> Rhodobacter sphaeroides 2.4.1
<400> 17
atgattgcct ctgccgatct cgatgcctgc cgggagatga tccgcaccgg ctcctattcc 60
ttccatgccg cgtcccgcct gctgcccgag cgcgtgcgcg cgccgtcgct ggcgctctat 120
gccttctgcc gcgtggccga cgatgcggtc gacgaggcgg tgaacgatgg acagcgcgag 180
gaggatgccg aggtcaagcg ccgcgccgtc ctgagcctgc gcgaccggct ggacctcgtc 240
tatggcggcc gcccgcgcaa tgcgccggcc gaccgcgcct tcgccgcggt ggtcgaggag 300
ttcgagatgc cccgggcgct gcccgaggcg ctgctcgagg ggctcgcctg ggacgcggtg 360
gggcggagct acgacagttt ctcgggcgtg ctcgactatt cggcgcgggt ggccgcggcg 420
gtgggggcga tgatgtgcgt cctcatgcgg gtgcgcgatc ccgacgtgct ggcccgggcc 480
tgcgatctgg gcctcgccat gcagctcacc aacatcgccc gcgacgtggg gaccgacgcg 540
cgctcgggac ggatctatct gccgcgcgac tggatggagg aggaggggct gccggtcgag 600
gagttcctcg cccggccggt ggtcgacgac cgcatccgcg cggtgacgca ccgcctgctg 660
cgcgcggccg accggctcta tctgcgttcg gaagcggggg tctgcggcct gcctctggcc 720
tgccggcccg gcatctatgc cgcgcgccac atctatgcgg gtatcggcga cgagatcgcg 780
cggaacggct atgacagcgt gacgcgccgc gccttcacca cgcggcgcca gaagctcgtc 840
tggctcgggc tctcggccac acgcgcggcc ctcagcccgt tcggccccgg ctgcgccacg 900
ctgcatgcgg cgcccgagcc cgaagtggcc ttcctcgtca atgccgccgc ccgggcccgg 960
ccgcagcgcg gccgctccga ggcgctgatc tcggttctgg cccagctcga ggcgcaggat 1020
cggcagatct cgcggcagcg actggggaac cgggccaacc cgatctag 1068
<210> 18
<211> 1868
<212> DNA
<213> Artificial sequence
<400> 18
cacatatacc tgccgttcac tattatttag tgaaatgaga tattatgata ttttctgaat 60
tgtgattaaa aaggcaactt tatgcccatg caacagaaac tataaaaaat acagagaatg 120
aaaagaaaca gatagatttt ttagttcttt aggcccgtag tctgcaaatc cttttatgat 180
tttctatcaa acaaaagagg aaaatagacc agttgcaatc caaacgagag tctaatagaa 240
tgaggtcgaa aagtaaatcg cgcgggtttg ttactgataa agcaggcaag acctaaaatg 300
tgtaaagggc aaagtgtata ctttggcgtc accccttaca tattttaggt ctttttttat 360
tgtgcgtaac taacttgcca tcttcaaaca ggagggctgg aagaagcaga ccgctaacac 420
agtacataaa aaaggagaca tgaacgatga acatcaaaaa gtttgcaaaa caagcaacag 480
tattaacctt tactaccgca ctgctggcag gaggcgcaac tcaagcgttt gcgaaagaaa 540
cgaaccaaaa gccatataag gaaacatacg gcatttccca tattacacgc catgatatgc 600
tgcaaatccc tgaacagcaa aaaaatgaaa aatatcaagt ttctgaattt gattcgtcca 660
caattaaaaa tatctcttct gcaaaaggcc tggacgtttg ggacagctgg ccattacaaa 720
acgctgacgg cactgtcgca aactatcacg gctaccacat cgtctttgca ttagccggag 780
atcctaaaaa tgcggatgac acatcgattt acatgttcta tcaaaaagtc ggcgaaactt 840
ctattgacag ctggaaaaac gctggccgcg tctttaaaga cagcgacaaa ttcgatgcaa 900
atgattctat cctaaaagac caaacacaag aatggtcagg ttcagccaca tttacatctg 960
acggaaaaat ccgtttattc tacactgatt tctccggtaa acattacggc aaacaaacac 1020
tgacaactgc acaagttaac gtatcagcat cagacagctc tttgaacatc aacggtgtag 1080
aggattataa atcaatcttt gacggtgacg gaaaaacgta tcaaaatgta cagcagttca 1140
tcgatgaagg caactacagc tcaggcgaca accatacgct gagagatcct cactacgtag 1200
aagataaagg ccacaaatac ttagtatttg aagcaaacac tggaactgaa gatggctacc 1260
aaggcgaaga atctttattt aacaaagcat actatggcaa aagcacatca ttcttccgtc 1320
aagaaagtca aaaacttctg caaagcgata aaaaacgcac ggctgagtta gcaaacggcg 1380
ctctcggtat gattgagcta aacgatgatt acacactgaa aaaagtgatg aaaccgctga 1440
ttgcatctaa cacagtaaca gatgaaattg aacgcgcgaa cgtctttaaa atgaacggca 1500
aatggtacct gttcactgac tcccgcggat caaaaatgac gattgacggc attacgtcta 1560
acgatattta catgcttggt tatgtttcta attctttaac tggcccatac aagccgctga 1620
acaaaactgg ccttgtgtta aaaatggatc ttgatcctaa cgatgtaacc tttacttact 1680
cacacttcgc tgtacctcaa gcgaaaggaa acaatgtcgt gattacaagc tatatgacaa 1740
acagaggatt ctacgcagac aaacaatcaa cgtttgcgcc gagcttcctg ctgaacatca 1800
aaggcaagaa aacatctgtt gtcaaagaca gcatccttga acaaggacaa ttaacagtta 1860
acaaatga 1868

Claims (10)

1.一种对类球红细菌进行基因突变从而获得突变菌株的方法,包括如下步骤:基于基因编辑技术,用融合蛋白对类球红细菌的基因组进行编辑,通过筛选获得突变菌株;所述融合蛋白中含有具有DNA靶向作用的蛋白和具有单核苷酸定向突变功能的酶。
2.根据权利要求1所述的方法,其特征在于:所述基因编辑技术为如下任一:CRISPR-Cas9技术、CRISPR-Cpf1技术、ZFN技术、TALEN技术;和/或
所述具有单核苷酸定向突变功能的酶为胞嘧啶脱氨酶或者腺苷酸脱氨酶;和/或
所述融合蛋白中还含有尿嘧啶DNA糖苷酶抑制剂。
3.根据权利要求1或2所述的方法,其特征在于:所述方法包括如下步骤(A)或(B):
(A)基于CRISPR-Cas9,将Cas9蛋白的编码基因、胞嘧啶脱氨酶的编码基因或者腺苷酸脱氨酶的编码基因以及尿嘧啶DNA糖苷酶抑制剂的编码基因融合在一起,得到融合基因A;利用所述融合基因A和sgRNA表达盒构建编辑质粒,所述sgRNA表达盒能够表达特异于待突变靶基因的sgRNA,然后将所述编辑质粒转化入类球红细菌中进行筛选,获得突变菌株;
(B)基于CRISPR-Cpf1技术,将胞嘧啶脱氨酶的编码基因或者腺苷酸脱氨酶的编码基因以及Cpf1蛋白的编码基因融合在一起,得到融合基因B;利用所述融合基因B和crRNA表达盒构建编辑质粒,所述crRNA表达盒能够表达特异于待突变靶基因的crRNA,然后将所述编辑质粒转化入类球红细菌中进行筛选,获得突变菌株;
进一步地,所述融合基因A自5’端到3’端由如下组成:所述Cas9蛋白的编码基因、连接肽的编码基因、所述胞嘧啶脱氨酶的编码基因或者所述腺苷酸脱氨酶的编码基因、所述尿嘧啶DNA糖苷酶抑制剂的编码基因;
进一步地,所述融合基因B自5’端到3’端由如下组成:所述胞嘧啶脱氨酶的编码基因或所述腺苷酸脱氨酶的编码基因、连接肽的编码基因、所述Cpf1蛋白的编码基因。
4.根据权利要求3所述的方法,其特征在于:所述Cas9蛋白为来自于化脓链球菌的dCas9蛋白或nCas9(D10A)蛋白或nCas9(H840A)蛋白;和/或
所述Cpf1蛋白为来自于新凶手弗朗西斯菌的dCpf1蛋白;和/或
所述胞嘧啶脱氨酶为来自于七腮幔的胞嘧啶脱氨酶pmCDA1或来自于大鼠的APOBEC1或来自于人的AICDA;和/或
所述腺苷酸脱氨酶为来自于大肠杆菌的TadA;和/或
所述尿嘧啶DNA糖苷酶抑制剂为来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI。
5.根据权利要求4所述的方法,其特征在于:所述来自于化脓链球菌的dCas9蛋白的氨基酸序列为SEQ ID No.1,所述nCas9(D10A)蛋白的氨基酸序列为将SEQ ID No.1的第840位的丙氨酸替换为组氨酸后得到的序列,所述nCas9(H840A)蛋白的氨基酸序列为将SEQ IDNo.1的第10位的丙氨酸替换为天冬氨酸后得到的序列;
所述来自于新凶手弗朗西斯菌的dCpf1蛋白的氨基酸序列为SEQ ID No.2;
所述来自于七腮幔的胞嘧啶脱氨酶pmCDA1的氨基酸序列为SEQ ID No.3;
所述来自于大肠杆菌的腺苷酸脱氨酶TadA的氨基酸序列为SEQ ID No.4;
所述来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI的氨基酸序列为SEQID No.5;
所述连接肽的氨基酸序列为SEQ ID No.6。
6.根据权利要求5所述的方法,其特征在于:所述来自于化脓链球菌的dCas9蛋白的编码基因的核苷酸序列为SEQ ID No.7,所述nCas9(D10A)蛋白的编码基因的核苷酸序列为将SEQ ID No.7的第2518-2520位核苷酸突变为CAC后得到的序列,所述nCas9(H840A)蛋白的编码基因的核苷酸序列为将SEQ ID No.7的第28-30位核苷酸突变为GAT后得到的序列;
所述来自于新凶手弗朗西斯菌的dCpf1蛋白的编码基因的核苷酸序列为SEQ ID No.8;
所述来自于七腮幔的胞嘧啶脱氨酶pmCDA1的编码基因的核苷酸序列为SEQ ID No.9;
所述来自于大肠杆菌的腺苷酸脱氨酶TadA的编码基因的核苷酸序列为SEQ ID No.10;
所述来自于枯草芽孢杆菌噬菌体的尿嘧啶DNA糖苷酶抑制剂UGI的编码基因的核苷酸序列为SEQ ID No.11;
所述连接肽的编码基因的核苷酸序列为SEQ ID No.12。
7.根据权利要求3-6中任一所述的方法,其特征在于:所述编辑质粒中存在一个所述sgRNA表达盒或所述crRNA表达盒,或者所述编辑质粒中存在若干个串联的所述sgRNA表达盒或所述crRNA表达盒;
和/或
所述sgRNA表达盒自5’端到3’端由启动子、用于表达间隔序列的DNA序列、用于表达与Cas9蛋白结合部分的DNA序列以及终止子区域组成;
进一步地,所述启动子为pj23119启动子;
更进一步地,所述pj23119启动子为SEQ ID No.13的第1-35位;所述用于表达间隔序列的DNA序列为SEQ ID No.13的第36-55位;所述用于表达与Cas9蛋白结合部分的DNA序列为SEQ ID No.13的第56-97位;所述终止子区域为SEQ ID No.13的第98-137位;
更加具体地,所述sgRNA表达盒的序列为SEQ ID No.13;
和/或
所述crRNA表达盒自5’端到3’端由启动子、重复序列、用于表达间隔序列的DNA序列、以及终止子区域组成;
进一步地,所述启动子可为pj23119启动子;
更进一步地,所述pj23119启动子为SEQ ID No.14的第1-35位;所述重复序列为SEQ IDNo.14的第36-55位;所述用于表达间隔序列的DNA序列为SEQ ID No.14的第56-79位;所述终止子区域为SEQ ID No.14的第80-119位;
更加具体地,所述crRNA表达盒的序列为SEQ ID No.14。
8.根据权利要求7所述的方法,其特征在于:所述编辑质粒按照包括如下步骤的方法制备获得:(a1)向pIND4载体中克隆入筛选标记基因和多克隆位点,得到中间质粒1;(a2)将所述融合基因克隆入所述中间质粒1的多克隆位点处,得到中间质粒2;(a3)将一个所述sgRNA表达盒或所述crRNA表达盒或若干个串联的所述sgRNA达盒或所述crRNA表达盒克隆入所述中间质粒2,所得重组质粒即为所述编辑质粒。
9.根据权利要求3-8中任一所述的方法,其特征在于:
当所述具有单核苷酸定向突变功能的酶为胞嘧啶脱氨酶时,所述sgRNA表达盒中所述用于表达间隔序列的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“C*GG”、“CC*G”;其中,*表示8-20个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G;
当所述具有单核苷酸定向突变功能的酶为胞嘧啶脱氨酶时,所述crRNA表达盒中所述用于表达间隔序列的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“TT*C”、“G*AA”;其中,*表示8-24个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G;
当所述具有单核苷酸定向突变功能的酶为腺苷酸脱氨酶时,所述sgRNA表达盒中所述用于表达间隔序列的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“A*GG”、“CC*T”;其中,*表示8-20个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G;
当所述具有单核苷酸定向突变功能的酶为腺苷酸脱氨酶时,所述crRNA表达盒中所述用于表达间隔序列的DNA序列所针对的所述待突变靶基因中的靶标序列具有如下所示结构中的任意一种:“TT*A”、“T*AA”;其中,*表示8-24个连续的脱氧核糖核苷酸,每个脱氧核糖核苷酸均可为A或T或C或G。
10.生物材料或应用,其特征在于:
所述生物材料为如下任一:(A1)权利要求1-9任一中所述的融合蛋白或权利要求3-8任一中所述的融合基因;(A2)权利要求3-9任一中所述的编辑质粒;
所述应用为如下任一:(B1)所述融合基因在制备所述编辑质粒中的应用;(B2)所述融合基因或所述融合蛋白或所述编辑质粒在对类球红细菌进行基因突变从而获得突变菌株中的应用。
CN201810902108.8A 2018-08-09 2018-08-09 一种对类球红细菌进行基因突变的方法 Active CN110819620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810902108.8A CN110819620B (zh) 2018-08-09 2018-08-09 一种对类球红细菌进行基因突变的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810902108.8A CN110819620B (zh) 2018-08-09 2018-08-09 一种对类球红细菌进行基因突变的方法

Publications (2)

Publication Number Publication Date
CN110819620A true CN110819620A (zh) 2020-02-21
CN110819620B CN110819620B (zh) 2022-11-01

Family

ID=69541538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810902108.8A Active CN110819620B (zh) 2018-08-09 2018-08-09 一种对类球红细菌进行基因突变的方法

Country Status (1)

Country Link
CN (1) CN110819620B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114574467A (zh) * 2022-01-21 2022-06-03 华南农业大学 一种基因表达调控系统及其应用
CN116751799A (zh) * 2023-06-14 2023-09-15 江南大学 一种多位点双重碱基编辑器及其应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170121693A1 (en) * 2015-10-23 2017-05-04 President And Fellows Of Harvard College Nucleobase editors and uses thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170121693A1 (en) * 2015-10-23 2017-05-04 President And Fellows Of Harvard College Nucleobase editors and uses thereof

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KE ZHENG ET AL: "Highly efficient base editing in bacteria using a Cas9-cytidine deaminase fusion", 《COMMUNICATIONS BIOLOGY》 *
NICOLE M. GAUDELLI ET AL: "Programmable base editing of A•T to G•C in genomic DNA without DNA cleavage", 《NATURE》 *
YUFENG LUO ET AL: "CRISPR/Cas9‑deaminase enables robust base editing in Rhodobacter sphaeroides 2.4.1", 《MICROBIAL CELL FACTORIES》 *
刘佳慧等: "单碱基基因编辑系统的研究进展", 《世界科技研究与发展》 *
李力等: "基因改造Rhodobacter sphaeroides 提高辅酶Q10 的产量", 《微生物学通报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114574467A (zh) * 2022-01-21 2022-06-03 华南农业大学 一种基因表达调控系统及其应用
CN114574467B (zh) * 2022-01-21 2023-05-23 华南农业大学 一种基因表达调控系统及其应用
CN116751799A (zh) * 2023-06-14 2023-09-15 江南大学 一种多位点双重碱基编辑器及其应用
CN116751799B (zh) * 2023-06-14 2024-01-26 江南大学 一种多位点双重碱基编辑器及其应用

Also Published As

Publication number Publication date
CN110819620B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
AU2018271257B2 (en) Crispr enabled multiplexed genome engineering
JP7223377B2 (ja) 熱安定性cas9ヌクレアーゼ
CN106922154B (zh) 使用空肠弯曲杆菌crispr/cas系统衍生的rna引导的工程化核酸酶的基因编辑
KR102339365B1 (ko) 키메라 게놈 조작 분자 및 방법
JP6552969B2 (ja) 定方向進化のためのライブラリーの作製方法
CN106755037A (zh) 一种维吉尼亚链霉菌IBL14 type I‑B‑sv14型CAS基因编辑系统
CN113136374A (zh) 一种重组突变型Tn5转座酶的制备及应用
CN106589134A (zh) 嵌合蛋白pAgoE及构建方法、应用以及使用向导的嵌合蛋白pAgoE及构建方法、应用
CN110819620B (zh) 一种对类球红细菌进行基因突变的方法
CN112481309B (zh) Ago蛋白的用途及组合物和基因编辑方法
Jiang et al. Highly efficient genome editing in Xanthomonas oryzae pv. oryzae through repurposing the endogenous type I‐C CRISPR‐Cas system
KR20200134333A (ko) 발효에 의한 히스타민 생산을 위해 조작된 생합성 경로
CN107574178B (zh) 真菌人工染色体、组成、方法和用途
CN110951705B (zh) 胺脱氢酶突变体、酶制剂、重组载体、重组细胞及其制备方法和应用
CN114008070A (zh) 导致大肠杆菌赖氨酸产量增加的全基因组合理设计的突变
CN113166741A (zh) Dna文库的多重确定性组装
KR102358538B1 (ko) 유전자 총법을 이용한 미세조류의 교정 방법
JP2005237393A (ja) BglII制限エンドヌクレアーゼ及び修飾メチラーゼのクローニング及び産生方法
CN107523580B (zh) 一种卤代对羟基苯甲酸氧化脱羧酶基因odcA及其应用
CN107619832B (zh) 一种氯代硝基苯酚类化合物氧化还原酶基因簇cnpAB及其应用
EP1097990B1 (en) A mutant kanamycin nucleotidyltransferase and a method of screening thermophilic bacteria using the same
CN112079903A (zh) 一种错配结合蛋白的突变体及其编码基因
JP5935382B2 (ja) RrhJ1IIヌクレアーゼおよびその遺伝子
JP6171406B2 (ja) Dna修飾酵素およびその遺伝子
Perrotta et al. Machine Learning and Directed Evolution of Base Editing Enzymes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant