CN114934031A - 新型Cas效应蛋白、基因编辑系统及用途 - Google Patents
新型Cas效应蛋白、基因编辑系统及用途 Download PDFInfo
- Publication number
- CN114934031A CN114934031A CN202210576535.8A CN202210576535A CN114934031A CN 114934031 A CN114934031 A CN 114934031A CN 202210576535 A CN202210576535 A CN 202210576535A CN 114934031 A CN114934031 A CN 114934031A
- Authority
- CN
- China
- Prior art keywords
- sequence
- nucleic acid
- target nucleic
- cas9 protein
- lys
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/46—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
- C07K14/47—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
- C07K14/4701—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
- C07K14/4702—Regulators; Modulating activity
- C07K14/4703—Inhibitors; Suppressors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
- C12N15/1137—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing against enzymes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/70—Vectors or expression systems specially adapted for E. coli
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/78—Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6816—Hybridisation assays characterised by the detection means
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Y—ENZYMES
- C12Y305/00—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
- C12Y305/04—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
- C12Y305/04001—Cytosine deaminase (3.5.4.1)
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/22—Vectors comprising a coding region that has been codon optimised for expression in a respective host
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Y—ENZYMES
- C12Y302/00—Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2)
- C12Y302/01—Glycosidases, i.e. enzymes hydrolysing O- and S-glycosyl compounds (3.2.1)
- C12Y302/01023—Beta-galactosidase (3.2.1.23), i.e. exo-(1-->4)-beta-D-galactanase
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biochemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Microbiology (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Toxicology (AREA)
- Gastroenterology & Hepatology (AREA)
- Virology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Peptides Or Proteins (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
本发明提供了一种新型Cas效应蛋白、基因编辑系统及用途。所述Cas效应蛋白为CasRfg.3及其相似蛋白。本发明的CasRfg.3蛋白(又称为Ca2)比目前常用的SpCas9蛋白具有相对短的氨基酸序列长度,可被轻易包装入小容量基因治疗载体中,对应于独特的PAM序列。同时,其靶向编辑靶核酸序列的特异性好,且其对于温度适应性好,耐受的温度范围宽,适应高温条件,例如至少可在25℃~55℃实现针对靶核酸的切割或修饰功能。本发明的新型Cas效应蛋白在基因疗法等方面具有重要的应用价值。
Description
技术领域
本发明属于基因编辑领域,更具体地,本发明涉及新型Cas效应蛋白、基因编辑系统及用途。
背景技术
CRISPR-CAS系统可分为两大类:第1类CRISPR-CAS系统利用多种Cas蛋白组成的复合物来降解外源核酸,第2类则利用单个的大Cas效应蛋白来降解外源核酸。第1类CRISPR-CAS系统又可分为I、III、IV型,第2类可分为II、V、VI类型,以上6个类型还可细分为至少19个亚型。大多数CRISPR-CAS系统具有Cas1蛋白。许多原核生物同时具有多个CRISPR-CAS系统,表明这些CRISPR-CAS系统相互之间可共存,而且可能共享某些组件。
Cas9是最早从酿脓链球菌中发现的最具代表性的Cas蛋白之一,它属于2类家族的II型。来源于化脓性链球菌(Streptococcus pyogenes)的SpCas9是目前最常用的Cas9。Cas9是一种DNA核酸内切酶,由一个与靶DNA序列互补的crRNA小分子、一个单独的反式激活CRISPR RNA(tracrRNA)共同激活。crRNA由一个负责使蛋白质与crRNA结合的同向重复(DR)序列与一个间隔区序列(指导序列)组成。间隔区序列可以被人工设计为与任何核酸靶序列形成互补的序列。通过这种方式,CRISPR系统可以通过人工设计crRNA的间隔区序列来靶向DNA或RNA靶标。crRNA可与tracrRNA融合,形成单分子向导RNA(sgRNA)以更好地发挥作用。sgRNA与Cas9结合后会与其靶DNA结合,并引导Cas9对靶DNA进行结合或切割。
目前对于开发可在多种实验条件下应用于遗传研究和基因组编辑领域中的具有改进的序列特异性核酸检测、裂解和调节的试剂仍存在持续的需求。
现有的序列特异性基因组编辑工具(包括Cas9)无法做到在所有条件或生物体中使用。例如,序列特异性核酸酶一般对热敏感,并且因此不适用于在严格嗜热微生物中使用。严格嗜热微生物指其能够在41-122℃之间生长,并且能够在45-80℃的温度范围中最佳生长的微生物。例如,在工业发酵中使用的微生物,再比如在较高温度进行体外应用的微生物。
迄今为止,来源于酿脓链球菌的SpCas9以及来源于金黄色葡萄球菌的SaCas9是用于基因组工程的最良好表征和最广泛使用的Cas9。有报道称SpCas9在≥42℃时即无活性,而SaCas9在≥36℃时即成为未折叠的失活状态。
SpCas9尺寸较大,为1368aa,成为限制其应用的重要因素。有复旦大学学者将SpCas9截短至1248aa,保留了一定程度的活性,但其尺寸仍然偏大,难以与gRNA编码序列一起包装进腺相关病毒(AAV)中。
此外,现有的Cas蛋白在所能选择的基因编辑靶点方面还有限制(例如受限于PAM序列的多样性还不够)。
发明内容
本发明的目的在于提供新型Cas效应蛋白、基因编辑系统及用途。
在本发明的第一方面,提供一种CRISPR-CAS复合物,其包括:
(1) Cas9蛋白;和
(2) 向导RNA;
其中,所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合:
(a) 分离自厚壁菌门(firmicutes)厌氧弧菌属(Anaerovibrio sp.)的菌株;
(b) 包含SEQ ID NO:1所示多肽,包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物,为SEQ ID NO:1所示多肽,或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物;
(c) 其序列中包含RuvC结构域和HNH结构域;
(d) 能与向导RNA形成复合物,能在向导RNA引导下结合靶核酸,或能在向导RNA引导下切割或修饰靶核酸;
(e) 识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T;或
(f) 在25℃~55℃能发挥(d)中任一项功能。
在一种或多种实施方式中,所述Cas9蛋白包括选自下组的多肽:
(i) SEQ ID NO: 1所示氨基酸序列的多肽;
(ii)与SEQ ID NO:1所示多肽有至少90%(较佳地至少92%;更佳地至少94%;更佳至少95%,如至少96%、98%、99%或99.5%)序列同一性的多肽;
(iii)将(i)的多肽的氨基酸序列经过一个或多个(如1-60个,较佳地1-50个,更佳地1-40个,更佳地1-30个,更佳地1-20个,更佳地1-15个,更佳地1-10个,更佳地1-5个,更佳地1-3个或1-2个)氨基酸残基的取代、缺失或添加而形成的,且具有(i)多肽的功能的多肽;
(iv) (i)~(iii)任一所述多肽的片段,其包含RuvC结构域、HNH结构域或结合靶核酸序列的结构域,且具有(i)多肽的功能;或
(v) (i)~(iv)任一所述多肽的N或C末端添加包括(但不限于)标签序列、定位序列(如核定位序列),或在其N或C末端添加信号肽序列后形成的多肽。
在一种或多种实施方式中,所述多肽中,其RuvC结构域序列是保守的。
在一种或多种实施方式中,所述多肽中,其HNH结构域序列是保守的。
在一种或多种实施方式中,所述Cas9蛋白为Cas9-nickase,所述Cas9-nickase为所述Cas9蛋白的变体,所述Cas9-nickase在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链;较佳地,相应于SEQ ID NO:1所示多肽,其D10、E520、H603、N626、H749或D752位点发生突变。
在一种或多种实施方式中,所述Cas9蛋白为dCas9(dead Cas9),所述dCas9为所述Cas9蛋白的变体,其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失,其在向导RNA引导下能与靶核酸序列结合;较佳地,相应于SEQ ID NO:1所示多肽,其D10、E520、H603、N626、H749或D752位点发生突变。
在一种或多种实施方式中,所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA,tracrRNA)序列,所述指导序列与靶序列互补,所述tracrRNA可与Cas9蛋白和DR序列相互作用。
在一种或多种实施方式中,所述tracrRNA与DR序列连接成为向导RNA的骨架序列,所述骨架序列的长度范围为≤190nt,还可以为≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt或≤180nt。
在一种或多种实施方式中,所述指导序列的长度范围为10nt-60nt,还可以为10nt-50nt、10nt-40nt、10nt-30nt、15nt-60nt、15nt-50nt、15nt-40nt或15nt-30nt。
在一种或多种实施方式中,所述向导RNA包含茎环(发夹)结构;较佳地,所述 向导RNA包含≤3个茎环(发夹)结构;更佳地,所述向导RNA包括如图18的含茎环 1、茎环2、茎环3、凸起1、双链体1的骨架。
在一种或多种实施方式中,茎环1的茎部具有8~35对(如10、12、14、16、18、20、22、24、26、28、30、32对)碱基对;或茎环2的茎部具有4~12对(如5、6、7、8、9、10、11对)碱基对;或茎环3的茎部具有3~10对(如4、5、6、7、8、9对)碱基对;或双链体1具有4~11对(如5、6、7、8、9、10对)碱基对;或凸起1具有2-8个(如4、6个)非互补碱基;或茎环1的环部具有4~12个(如5、6、7、8、9、10、11、12个)非互补碱基;或茎环2的环部具有2~10个(如3、4、5、6、7、8、9个)非互补碱基;或茎环3的环部具有6~20个(如7、8、9、10、12、15、18、19个)非互补碱基。
在一种或多种实施方式中,所述茎环结构包括含茎环1、茎环2、茎环3、凸起1、双链体1的骨架,可选地还可包括其它茎环结构或片段。
在一种或多种实施方式中,所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体;较佳地,所述截短体具有SEQ ID NO: 4-7所示的核苷酸序列。
在一种或多种实施方式中,编码所述向导RNA的DNA被包含在表达载体中。
在一种或多种实施方式中,所述复合物(复合体)包括组合、组合物或混合物。
在一种或多种实施方式中,所述Cas9蛋白在25℃~55℃能发挥以下任一项功能:与向导RNA形成复合物,在向导RNA引导下结合靶核酸,在向导RNA引导下切割或修饰靶核酸。
在一种或多种实施方式中,所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T。
在本发明的另一方面,提供一种分离的Cas9蛋白,所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合:
(a) 分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株;
(b) 包含SEQ ID NO:1所示多肽,包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物,为SEQ ID NO:1所示多肽,或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物;
(c) 其序列中包含RuvC结构域和HNH结构域;
(d) 能与向导RNA形成复合物,能在向导RNA引导下结合靶核酸,或能在向导RNA引导下切割或修饰靶核酸;
(e) 识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T;或
(f) 在25℃~55℃能发挥(d)中任一项功能。
在一种或多种实施方式中,所述Cas9蛋白包括选自下组的多肽:
(i) SEQ ID NO: 1所示氨基酸序列的多肽;
(ii)与SEQ ID NO:1所示多肽有至少90%(较佳地至少92%;更佳地至少94%;更佳至少95%,如至少96%、98%、99%或99.5%)序列同一性的多肽;
(iii)将(i)的多肽的氨基酸序列经过一个或多个(如1-60个,较佳地1-50个,更佳地1-40个,更佳地1-30个,更佳地1-20个,更佳地1-15个,更佳地1-10个,更佳地1-5个,更佳地1-3个或1-2个)氨基酸残基的取代、缺失或添加而形成的,且具有(i)多肽的功能的多肽;
(iv) (i)~(iii)任一所述多肽的片段,其包含RuvC结构域、HNH结构域及结合靶核酸序列的结构域,且具有(i)多肽的功能;或
(v) (i)~(iv)任一所述多肽的N或C末端添加包括(但不限于)标签序列、定位序列(如核定位序列),或在其N或C末端添加信号肽序列后形成的多肽。
在一种或多种实施方式中,所述Cas9蛋白为Cas9-nickase,所述Cas9-nickase为所述Cas9蛋白的变体,其在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链;较佳地,相应于SEQ ID NO:1所示多肽,其D10、E520、H603、N626、H749或D752位点发生突变。
在一种或多种实施方式中,所述Cas9蛋白为dCas9(dead Cas9),所述dCas9为所述Cas9蛋白的变体,其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失,其在向导RNA引导下能与靶核酸序列结合;较佳地,相应于SEQ ID NO:1所示多肽,其D10、E520、H603、N626、H749或D752位点发生突变。
在一种或多种实施方式中,所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA,tracrRNA)序列,所述指导序列与靶序列互补,所述tracrRNA可与Cas9蛋白和DR序列相互作用。
在一种或多种实施方式中,所述tracrRNA与DR序列连接成为向导RNA的骨架序列,所述骨架序列的长度范围为≤190nt,还可以为≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt或≤180nt。
在一种或多种实施方式中,所述指导序列的长度范围为10nt-60nt,还可以为10nt-50nt、10nt-40nt、10nt-30nt、15nt-60nt、15nt-50nt、15nt-40nt或15nt-30nt。
在一种或多种实施方式中,所述向导RNA包含茎环(发夹)结构;较佳地,所述 向导RNA包含≤3个茎环(发夹)结构;更佳地,所述向导RNA包括如图18的含茎环 1、茎环2、茎环3、凸起1、双链体1的骨架。
在一种或多种实施方式中,所述Cas9蛋白在25℃~55℃能发挥以下任一项功能:与向导RNA形成复合物,在向导RNA引导下结合靶核酸,在向导RNA引导下切割或修饰靶核酸。
在一种或多种实施方式中,所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T。
在本发明的另一方面,提供一种融合蛋白,其包含:前面任一所述的Cas9蛋白,以及与之融合的异源功能结构域。
在一种或多种实施方式中,所述异源功能结构域在所述Cas9蛋白的N端、C端或内部进行融合。
在一种或多种实施方式中,所述异源功能结构域任选自:报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶(HDAC)、DNA或RNA 连接酶,或以上任意的组合。
在一种或多种实施方式中,述异源功能结构域任选自:腺苷脱氨酶,胞苷脱氨酶,碱基切除修复抑制剂,核定位信号(NLS),核输出信号(NES),或以上任意的组合。
在一种或多种实施方式中,所述异源功能结构域与所述Cas9蛋白之间还包括接头。
在本发明的另一方面,提供一种缀合物,所述缀合物包含:前面任一所述的Cas9蛋白,以及与之缀合的异源功能部分。
在一种或多种实施方式中,所述异源功能部分缀合于所述Cas9蛋白的N端、C端或内部。
在一种或多种实施方式中,所述异源功能部分任选自:报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶(HDAC)、DNA或RNA 连接酶、功能性化学分子,或以上任意的组合。
在一种或多种实施方式中,所述异源功能部分任选自:腺苷脱氨酶,胞苷脱氨酶(AID),碱基切除修复抑制剂,核定位信号(NLS),核输出信号(NES),或以上任意的组合。
在一种或多种实施方式中,所述异源功能部分与所述Cas9蛋白之间还包括接头序列。
在本发明的另一方面,提供一种向导RNA,其引导前面任一所述的Cas9蛋白结合至靶序列,所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA,tracrRNA)序列,所述指导序列与靶序列互补,所述tracrRNA可与所述Cas9蛋白和DR序列相互作用。
在一种或多种实施方式中,所述tracrRNA与DR序列连接成为gRNA的骨架序列,所述骨架序列的长度范围为20nt-190nt。
在一种或多种实施方式中,所述的向导RNA包含茎环(发夹)结构;
在一种或多种实施方式中,所述向导RNA包含≤3个茎环(发夹)结构;
在一种或多种实施方式中,所述茎环结构包括如图18的含茎环1、茎环2、茎环 3、凸起1、双链体1的骨架。
在一种或多种实施方式中,茎环1的茎部具有8~35对(如10、12、14、16、18、20、22、24、26、28、30、32对)碱基对;或茎环2的茎部具有4~12对(如5、6、7、8、9、10、11对)碱基对;或茎环3的茎部具有3~10对(如4、5、6、7、8、9对)碱基对;或双链体1具有4~11对(如5、6、7、8、9、10对)碱基对;或凸起1具有2-8个(如4、6个)非互补碱基;或茎环1的环部具有4~12个(如5、6、7、8、9、10、11、12个)非互补碱基;或茎环2的环部具有2~10个(如3、4、5、6、7、8、9个)非互补碱基;或茎环3的环部具有6~20个(如7、8、9、10、12、15、18、19个)非互补碱基。
在一种或多种实施方式中,所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体;较佳地,所述截短体具有SEQ ID NO: 4-7所示的核苷酸序列。
在本发明的另一方面,提供分离的多核苷酸,其编码权前面任一所述的Cas9蛋白、前面任一所述的融合蛋白或前面任一所述的缀合物的蛋白质部分。
在一种或多种实施方式中,所述的多核苷酸为天然序列或为密码子优化的序列。
在一种或多种实施方式中,所述Cas9蛋白的多核苷酸具有SEQ ID NO: 2所示的核苷酸序列,或与其简并的序列。
在本发明的另一方面,提供一种重组载体,它含有(a)前面所述的多核苷酸,(b)编码前面任一所述向导RNA的多核苷酸,或(a)与(b)的组合。
在一种或多种实施方式中,所述多核苷酸还与启动子、增强子和/或终止子可操作地连接。
在一种或多种实施方式中,所述启动子包括:组成型启动子、诱导型启动子、广谱表达型启动子或组织特异性启动子。
在一种或多种实施方式中,该载体包括:病毒载体或非病毒载体;较佳地,所述载体包括(但不限于):慢病毒载体、腺病毒载体、腺相关病毒载体(AAV)、逆转录病毒载体、噬菌体载体或单纯疱疹病毒(HSV)载体。
在本发明的另一方面,提供一种重组细胞,它含有前面任一所述的重组载体。
在一种或多种实施方式中,所述的重组细胞包括真核细胞或原核细胞。
在一种或多种实施方式中,所述真核细胞包括(但不限于):哺乳动物细胞(非人类哺乳动物细胞、人类细胞)、植物细胞、真菌细胞(如酵母)或昆虫细胞。
在一种或多种实施方式中,所述原核细胞包括(但不限于):大肠杆菌、枯草杆菌、沙门氏菌、梭菌或链霉菌。
在本发明的另一方面,提供一种制备前面任一所述的Cas9蛋白、任一所述的融合蛋白或任一所述的缀合物的蛋白部分的方法,包括:培养所述的重组细胞,从培养物中分离出所述的Cas9蛋白、融合蛋白或缀合物的蛋白部分。
在本发明的另一方面,提供前面任一所述的Cas9蛋白、任一所述的融合蛋白或任一所述的缀合物或任一所述CRISPR-CAS复合物的用途,用于结合、切割或修饰靶核酸序列,或用于制备结合、切割或修饰靶核酸序列的试剂。
在一种或多种实施方式中,所述Cas9蛋白、融合蛋白或缀合物与向导RNA形成复合物,针对靶核酸序列的特定位点进行核酸序列结合、切割或修饰;较佳地,所述靶核酸序列的特定位点附近包括PAM序列:5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T。
在一种或多种实施方式中,所述Cas9蛋白为Cas9核酸酶,其用于切割靶核酸序列,或用于制备切割靶核酸序列的试剂。
在一种或多种实施方式中,所述Cas9蛋白为Cas9-nickase,其用于结合或切割靶核酸序列,或用于制备结合或切割靶核酸序列的试剂。
在一种或多种实施方式中,所述Cas9蛋白为dCas9,其用于调控靶核酸的转录激活或转录抑制,或用于制备调控靶核酸的转录激活或转录抑制的试剂。
在一种或多种实施方式中,所述靶核酸在细胞内;较佳地,所述靶核酸为:疾病相关的核酸(靶点),动植物性状相关的核酸(靶点)。
在一种或多种实施方式中,所述靶核酸为DNA或RNA。
在本发明的另一方面,提供一种递送系统,其包含:递送载体;以及,前面任一所述的Cas9蛋白、任一所述的融合蛋白、任一所述的缀合物、任一所述的CRISPR-CAS复合物或任一所述的载体;较佳地,所述递送载体包括(但不限于):纳米颗粒、脂质体、细胞外囊泡。
在本发明的另一方面,提供一种结合、切割或修饰靶核酸的方法,所述方法包括:使得前面任一所述的CRISPR-CAS复合物结合至靶核酸、切割靶核酸或修饰靶核酸。
在一种或多种实施方式中,所述靶核酸在细胞内;较佳地,所述靶核酸为:疾病相关的核酸(靶点),动植物性状相关的核酸(靶点)。
在一种或多种实施方式中,通过直接引入的方式将所述的CRISPR-CAS复合物(蛋白+向导RNA)引入细胞,结合至靶核酸;较佳地,将CRISPR-CAS复合物中Cas9蛋白处理(包括注射)细胞或藉由穿膜肽引入细胞,将CRISPR-CAS复合物中的向导RNA处理(包括注射)细胞。
在一种或多种实施方式中,将编码所述CRISPR-CAS复合物的多核苷酸或含有该多核苷酸的表达构建体(如表达载体)转化细胞,在细胞内表达并形成所述CRISPR-CAS复合物(蛋白+向导RNA),结合至靶核酸。
在一种或多种实施方式中,所述靶核酸为真核DNA或真核RNA。
在一种或多种实施方式中,所述真核DNA或真核RNA包括(但不限于):非人类哺乳动物DNA或RNA、非人类灵长类DNA或RNA、人类DNA或RNA、植物DNA或RNA、昆虫DNA或RNA、鸟类DNA或RNA、爬行动物DNA或RNA、啮齿动物 DNA或RNA、鱼类DNA或RNA、蠕虫/线虫DNA或RNA、酵母DNA或RNA等。
在一种或多种实施方式中,所述Cas9-nickase或dCas9靶向的靶序列位于启动子区。
在一种或多种实施方式中,所述方法在25℃~55℃进行。
在本发明的另一方面,提供一种检测待测样品中靶核酸存在情况的方法,包括使得前面任一所述的CRISPR-CAS复合物与靶核酸结合;所述CRISPR-CAS复合物包括:前面任一所述的融合蛋白或任一所述的缀合物;所述融合蛋白或缀合物含有Cas9蛋白且含有可检测标记;其中当CRISPR-CAS复合物与靶核酸结合时,含有Cas9蛋白的融合蛋白或缀合物结合、切割或修饰靶核酸,通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况;较佳地,所述可检测标记如荧光基团、显色剂、显影剂或放射性同位素。
在本发明的另一方面,提供一种组合物,其包括:前面任一所述的Cas9蛋白、任一所述的融合蛋白、任一所述的缀合物、任一所述的CRISPR-CAS复合物、任一所述的载体或所述的递送系统。
在一种或多种实施方式中,所述组合物为药物组合物。
在一种或多种实施方式中,较佳地所述组合物中还包括:生理学或药学上可接受的药学载体。
在本发明的另一方面,提供一种试剂盒或药盒,其中包括:前面任一所述的Cas9蛋白、任一所述的融合蛋白、任一所述的缀合物、任一所述的CRISPR-CAS复合物、任一所述的载体、所述的递送系统,或所述的组合物。
以上内容即为对本发明的总体描述,以下单独部分将对本发明的各个方面进行更详细的描述。然而,对本发明的描述应作如下理解:为了简化和减少冗余,本发明的某些实施方案仅在一个部分进行描述,或仅在权利要求或实施例中描述。因此,还应作如下理解:除非特别声明否认或组合形式不当,本发明的任何一个实施方案,包括仅在一个方面、一个部分或仅在权利要求或实施例中描述的实施方案,都可以与本发明中所述任何其它实施方案进行组合。
附图说明
图1、CasRfg.3蛋白的结构域分布。
图2、CasRfg.3蛋白识别PAM序列。
图3、CasRfg.3-N2-Target质粒载体图谱。
图4、CasRfg.3-N4-Target质粒载体图谱。
图5、CasRfg.3-N2切割产物电泳图,切割断裂片段长度为1589bp/1605bp。
图6、CasRfg.3-N4切割产物电泳图,切割断裂片段长度为1582bp/1580bp。
图7、CasRfg.3-N2切割片段测序结果。
图8、CasRfg.3-N4切割片段测序结果。
图9、CasRfg.3-N2在多次重复试验中可稳定地切割。
图10、CasRfg.3在不同温度的切割效果。
图11A-图11G、RNAfold预测的不同骨架序列的二级结构。
图12、骨架序列不同的截短sgRNA切割同一底物的结果。
图13A、sgRNA(CasRfg.3-sgRNA-全长)切割包含不同PAM的Ca2-N2底物。
图13B、sgRNA(tracSL2-1+2-全长)切割包含不同PAM的Ca2-N2底物。
图14、含不同长度指导序列的gRNA的切割活性。
图15、CasRfg.3、SaCas9和SpCas9的多序列比对,用于识别CasRfg.3的催化残基。
图16、用于表达Ca9-89重组蛋白的pXC09-89-GFPgRNA质粒图谱。
图17A-图17C、CBE-Ca2-LacZgRNA02单碱基编辑大肠杆菌β-半乳糖苷酶基因 的测序峰图。图17B、17C示出了编辑后各碱基位置A、T、C或G所占比例。
图18、向导RNA的含茎环1、茎环2、茎环3、凸起1、双链体1的骨架结构。
具体实施方式
本发明人经过深入的研究筛选,提供一种新型Cas效应蛋白,称为CasRfg.3(又称为Ca2)。本发明的CasRfg.3蛋白比目前常用的SpCas9蛋白具有相对短的氨基酸序列长度,可被轻易包装入小容量基因治疗载体中,例如AAV载体。同时,其靶向编辑靶核酸序列特异性好,且其对于温度适应性好,耐受的温度范围宽,适应高温条件,例如可在25℃~55℃实现针对靶核酸的结合、切割或修饰功能。本发明的新型Cas效应蛋白在基因疗法等方面具有重要的应用价值。
术语
如本文所用,“CasRfg.3效应蛋白”、“CasRfg.3”、“Ca2”可互换使用。“Cas9蛋白”可包括“Cas9核酸酶”或基于该Cas9核酸酶改造的Cas9-nickase(Cas9n)或dCas9。
如本文所用,“Cas9核酸酶”一般指核酸酶结构域未完全失活的Cas9蛋白,非限制性实例例如野生型Cas9,例如未完全失活的Cas9(例如保留野生型Cas9的核酸酶活性的99%以上、95%以上、90%以上、80%以上、70%以上、60%以上、50%、40%以上、30%以上、20%以上、10%以上的Cas9突变体)。
如本文所用,术语“切割”(cleavage/cleaving)是指使多核苷酸的核糖基磷酸二酯主链中的共价键(例如共价磷酸二酯键)断裂,包括但不限于:使单链多核苷酸断裂,使含两条互补单链的双链多核苷酸的任一条单链断裂,使含两条互补单链的双链多核苷酸的两条单链都断裂。
如本文所用,术语“修饰”定义为包括以下的一种或多种:核酸碱基置换,核酸碱基缺失,核酸碱基插入,将核酸甲基化,将核酸去甲基化,和将核酸碱基去胺基化。
如本文所用,术语“gRNA”、“向导RNA”、“引导RNA”、“sgRNA”、“guide RNA”通常可互换使用。
如本文所用,术语“同向重复序列”与“DR序列”可互换使用。
如本文所用,术语“反式激活crRNA”、“反式激活CRISPR RNA”与“tracrRNA”可互换使用。
如本文所用,术语“RuvC结构域”与“RuvC核酸酶结构域”可互换使用,术语“HNH结构域”与“HNH核酸酶结构域”可互换使用。
如本文所用,术语“靶核酸”,是指含有靶序列的多核苷酸。靶核酸可以包含任何多核苷酸,如DNA(靶DNA)或RNA(靶RNA)。“靶核酸”是指gRNA引导Cas9蛋白到达、进行靶向或修饰的核酸。术语“靶核酸”可以是对细胞(例如,真核细胞)而言任何内源或外源的多核苷酸。例如,“靶核酸”可以是一种存在于真核细胞中的多核苷酸,也可以是一个编码基因产物(例如,蛋白质)的序列(或其一部分)或一个非编码序列(或其一部分)。在某些情况下,“靶核酸”可以包括一个或多个疾病相关基因和多核苷酸以及信号传导生化途径相关基因和多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比,在来源于疾病(例如遗传病、慢性病、传染病或癌症等)影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在某些情况下,所述靶核酸为DNA。在某些情况下,所述靶核酸为整个染色体DNA分子。所述靶核酸可以是任何目标核酸(包括DNA或RNA)分子,包括天然存在的核酸分子与工程化RNA分子。
如本文中使用的,术语“靶序列”是指靶核酸分子中的一小段序列,其可与gRNA分子的指导序列互补(完全互补或部分互补)或杂交。靶序列的长度经常为数十bp,例如,可以为约10bp、约20bp、约30bp、约40bp、约50bp、约60bp。
如本文所用,所述“特异指导序列”也称为“指导序列”,是向导RNA中的一段序列,其能将CRISPR-CAS复合物引导至靶核酸序列并发生特异性结合,该特异指导序列与靶核酸中的靶序列互补(部分互补或完全互补)和/或杂交。
测量Cas9蛋白、缀合物或融合蛋白与靶核酸的结合的方法是本领域已知的,包括但不限于染色质免疫沉淀测定、凝胶迁移率变动测定、报告蛋白或报告基因产物测定、微孔板捕获和检测测定。类似地,测量靶核酸的切割或修饰的方法在本领域中是已知的。
如本文所用,术语“序列同一性”(identity或percent identity)用于指两个多肽之间或两个核酸之间序列的匹配情况。 通常, 在将两个序列比对以产生最大序列同一性时进行比较。这样的比对可通过使用已公开和可商购的比对算法和程序,诸如但不限于ClustalΩ、MAFFT、Probcons、T-Coffee、Probalign、BLAST,本领域的普通技术人员可合理选择使用。本领域技术人员能确定用于比对序列的适宜参数,例如包括对所比较序列全长实现较优比对或最佳对比所需要的任何算法。
如本文所用,术语“保守性变异多肽”是指基本上保持野生型的多肽(如本发明中为分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株的CasRfg.3)相同的生物学功能或活性的多肽。所述的“保守性变异多肽”可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的多肽,而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的,或(ii)在一个或多个氨基酸残基中具有取代基团的多肽,或(iii)成熟多肽与另一个化合物(比如延长多肽半衰期的化合物,例如聚乙二醇)融合所形成的多肽,或(iv)附加的氨基酸序列融合到此多肽序列而形成的多肽(如前导序列或分泌序列或用来纯化此多肽的序列或蛋白原序列,或与抗原IgG片段的形成的融合蛋白)。根据本文的教导,这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。在更具体的方式中,所述“保守性变异多肽”可以指与SEQ ID NO: 1所示的氨基酸序列相比,有至多100个,较佳地至多80个,较佳地至多60个,较佳地至多50个,更佳地至多30个,更佳地至多20个,更佳地至多10个或5个氨基酸被性质相似或相近的氨基酸所替换而形成的多肽。所述“保守性变异多肽”基本上保持与本发明的Cas9蛋白相同的生物学功能或活性。
如本文所用,“突变”指序列(例如核酸或氨基酸序列)内的残基用另一个残基取代或序列内一个或多个残基的变为另一种残基,或发生缺失或插入。
如本文所用,“插入/缺失”指核酸内的核苷酸碱基的插入或缺失。此类插入或缺失可能可以导致基因编码区内的移码突变。
如本文所用,术语“变体”或“突变体”是指与参照序列相比,通过一个或多个氨基酸的插入、缺失或取代使氨基酸序列发生变化但保留至少一种生物活性的肽或多肽。本文任一实施方案所述的变体包括与参照序列(如本文所述的SEQ ID NO:1)具有至少90%,较佳地至少92%;更佳地至少94%;更佳至少95%,如至少96%、98%、99%或99.5%的序列相同性(同一性)并保留参照序列的生物学活性(如作为核酸酶)的氨基酸序列。可采用例如NCBI的BLASTp计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的氨基酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留参照序列生物学活性的氨基酸序列。所述一个或多个通常指1-60个,较佳地1-50个,更佳地1-40个,更佳地1-30个,更佳地1-20个,更佳地1-15个,更佳地1-10个,更佳地1-5个,更佳地1-3个或1-2。所述取代优选是保守性取代。例如,在本领域中,用性质相似或相近的氨基酸进行保守性取代时,通常不会改变蛋白质或多肽的功能。“性质相似或相近的氨基酸”包括例如,具有相似侧链的氨基酸残基的家族,这些家族包括具有碱性侧链的氨基酸(例如赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如天冬氨酸、谷氨酸)、具有不带电荷的极性侧链的氨基酸(例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、具有β-分支侧链的氨基酸(例如苏氨酸、缬氨酸、异亮氨酸)和具有芳香侧链的氨基酸(例如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此,在本发明多肽中用来自同一侧链类的另一氨基酸残基替换一个或几个位点,将不会在实质上影响其活性。
所述“被性质相似或相近的氨基酸所替换”可定义为侧链性质相似的氨基酸之间的取代。因此,所述取代可以是,例如(1)芳香族氨基酸之间的取代(Phe、Trp、Tyr)、(2)非极性脂肪族氨基酸(Gly、Ala、Val、Leu、Met、Ile、Pro)之间的取代、(3)不带电极性氨基酸(Ser、Thr、Cys、Asn、Gln)之间的取代、(4)碱性氨基酸(Lys、Arg、His)之间的取代,或(5)酸性氨基酸(Asp、Glu)之间的取代。
如本文所用,所述“可操作地连接”指这样一种状况,即DNA序列的某些部分能够调节或控制同一DNA序列其它部分的活性。例如,如果启动子控制蛋白编码序列的转录,那么它就是可操作地连接于编码序列。
如本文所用,“接头”指连接两个分子或部分,例如融合蛋白的两个域,例如Cas9酶和脱氨酶的化学基团或分子。在一些连接方式中,接头位于两个基团、分子或其他部分之间或侧翼,并且通过共价键连接两者。在一些实施方案中,接头是氨基酸或多个氨基酸(例如肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。接头的长度以及类型,可以根据需要来进行设计。
如本文所用,“功能性化学分子”指的是既不是氨基酸、也不是肽的化学分子。例如包括(但不限于):荧光基团、显色剂、显影剂或放射性同位素。
分离的Cas9蛋白
本发明提供了一种分离的Cas9蛋白。
在一些实施方式中,所述Cas9蛋白任选自:
具有核酸酶活性的Cas9核酸酶;
由所述Cas9核酸酶改造的Cas9-nickase(Cas9n)或dCas9;或
含有该所述Cas9核酸酶、Cas9-nickase或dCas9的融合蛋白或缀合物。
在一些实施方式中,所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合:
(a) 分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株;
(b) 包含SEQ ID NO:1所示多肽,包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物,为SEQ ID NO:1所示多肽,或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物;
(c) 其序列中包含RuvC结构域和HNH结构域;
(d) 能与向导RNA形成复合物,能在向导RNA引导下结合靶核酸,能在向导RNA引导下切割靶核酸,或能在向导RNA引导下修饰靶核酸;
(e) PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T;或
(f) 在25℃~55℃能发挥(d)中任一项功能。
在一些实施方式中,所述Cas9蛋白分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株。在一些实施方式中,所述Cas9蛋白分离自具有与 NCBI数据库中编号为GCA_902786545.1所示基因组ANI(平均核苷酸同一性)值≥95%基因组的物种。在一些实施方式中,所述Cas9蛋白分离自具有与NCBI数据库中编号RUG13183的分离株基因组ANI值≥95%基因组的物种。
“平均核苷酸同一性(average nucleotide identity,ANI)”是一种在核酸水平上评价两个基因组之间所有直系同源蛋白编码基因的相似性的指标,对于细菌/古细菌一般以阈值ANI=95%来作为判断是否为同一物种的依据(Richter M, Rosselló-Móra R.Shifting the genomic gold standard for the prokaryotic species definition.Proc Natl Acad Sci USA. 2009 Nov 10;106(45):19126-31),因此,本发明以上述阈值进行界定,认为与上述基因组ANI值≥95%的物种均为同一物种,来源于其的Cas9蛋白与本发明要求保护的蛋白具有同源性,功能相似,属于本发明的范围。
在一些实施方式中,所述Cas9蛋白包括选自下组的多肽:
(i) SEQ ID NO: 1所示氨基酸序列的多肽;
(ii)与SEQ ID NO:1所示多肽有至少90%(较佳地至少92%;更佳地至少94%;更佳至少95%,如至少96%、98%、99%或99.5%)序列同一性的多肽;
(iii)将(i)的多肽的氨基酸序列经过一个或多个(如1-60个,较佳地1-50个,更佳地1-40个,更佳地1-30个,更佳地1-20个,更佳地1-15个,更佳地1-10个,更佳地1-5个,更佳地1-3个或1-2个)氨基酸残基的取代、缺失或添加而形成的,且具有(i)多肽的功能的多肽;
(iv) (i)~(iii)任一所述多肽的片段,其包含RuvC结构域、HNH结构域及结合靶核酸序列的结构域,且具有(i)多肽的功能;或
(v) (i)~(iv)任一所述多肽的N或C末端添加包括(但不限于)标签序列、定位序列(如核定位序列),或在其N或C末端添加信号肽序列后形成的多肽。
在一些实施方式中,所述Cas9蛋白序列中包含RuvC核酸酶结构域和HNH核酸酶结构域。其中,HNH核酸酶结构域剪切指导序列的互补链,RuvC核酸酶结构域剪切非互补链,可特异性产生双链断裂(DSB)。
在一些实施方式中,所述Cas9核酸酶包含PI(PAM interaction)结构域。
在一些实施方式中,可将所述Cas9蛋白(包括但不限于CasRfg.3蛋白)中一个或多个氨基酸残基(如催化残基)突变,调节其结合、切割或修饰靶核酸的活性。Cas9通过两个核酸酶结构域RuvC和HNH来产生双链断裂,而进一步可通过对关键残基进行突变,来形成Cas9-nickase(Cas9切刻酶,Cas9n),使得RuvC结构域和HNH结构域中的一个失活,Cas9-nickase在向导RNA引导下能与靶核酸序列结合并切割靶核酸(如靶DNA)的单链。从而,靶核酸序列待切割/修饰区需要两个正确识别的Cas9n分子,才能产生双链断裂,这与野生型Cas9核酸酶相比,可实现特异性的增强。
在一些实施方式中,可将所述Cas9蛋白(包括但不限于CasRfg.3蛋白)中一个或多个氨基酸残基(如催化残基)突变,使得所述其作为Cas9核酸酶完全或部分丧失在向导RNA引导下的核酸酶活性,例如使得RuvC结构域和HNH结构域同时失活。这样的变化的蛋白,称为dead Cas9(dCas9)。dCas9尽管降低或丧失了核酸酶的活性、不进行靶核酸的切割,但是其仍然可以靠近和结合至靶核酸,可进行对靶核酸的转录激活或转录抑制。在一些实施方式中,dCas9序列中包含失活或降低活性的RuvC结构域,和失活或降低活性的HNH结构域;在一些实施方式中,可通过修饰来降低核酸酶活性,如相比野生型蛋白质核酸酶至少失活50%、60%、70%、80%、90%、95%、97%或100%。核酸酶活性可以通过本领域已知的几种方法来降低,例如将突变引入蛋白质的核酸酶(催化)结构域。在一些实施方式中,发现了一些核酸酶活性的催化残基,而且这些酸残基可以被不同的氨基酸残基(例甘氨酸或丙氨酸)取代以降低核酸酶活性。在一些实施方式中,上述氨基酸取代是保守氨基酸取代(保守性替换,Conservative Replacement或Conservative Substitution)。在一些实施方式中,上述氨基酸取代是非保守氨基酸取代。
本申请将标题为“Crystal Structure of Staphylococcus aureus Cas9”的文献(http://dx.doi.org/10.1016/j.cell.2015.08.007)引用至本文中。该文献详细研究了SaCas9的晶体结构,并与SpCas9序列进行了比对;另外还识别了SaCas9和SpCas9的催化残基(例如该文献的图S3),SaCas9的催化残基包括D10、E477、H557、N580、H701、D704残基。
发明人利用在线的MAFFT v7.504 程序(E-INS-i 算法,其他为默认参数设置),将CasRfg.3(又称为Ca2)蛋白与SaCas9和SpCas9进行多序列比对(如图15所示),在上述SaCas9的催化残基的对应位置,识别出CasRfg.3的催化残基分别为D10、E520、H603、N626、H749、D752残基。因此通过对CasRfg.3的上述任意一个或多个催化残基进行突变,可以得到dead CasRfg.3或CasRfg.3 nickase。对于本申请的其他Cas9蛋白(例如CasRfg.3的保守性变异多肽或同源物),也可以参照此方法识别确定,得到相应的dCas9或Cas9 nickase。
在一些实施方式中,所述Cas9蛋白与脱氨酶结构域融合形成单碱基编辑器,可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器,可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器,可将C·G碱基对转变为T·A碱基对。
在一些实施方式中,所述Cas9-nickase为所述Cas9核酸酶的变体,其包含失活的RuvC结构域或失活的HNH结构域,其在向导RNA引导下能与靶核酸序列结合并切割靶核酸(例如靶DNA)的单链。在一些实施方式中,所述Cas9-nickase相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变(一个或多个位点发生突变)。在一些实施方式中,所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器,可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器,可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器,可将C·G碱基对转变为T·A碱基对。
在一些实施方式中,所述dCas9为所述Cas9核酸酶的变体,其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失,其在向导RNA引导下能与靶核酸序列结合。在一些实施方式中,所述dCas9相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变(一个或多个位点发生突变)。在一些实施方式中,所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器,可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器,可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器,可将C·G碱基对转变为T·A碱基对。
在一些实施方式中,本发明提供了CasRfg.3蛋白、其保守性变异多肽或同源物,或还包含另一个共价或非共价连接的其它蛋白质或多肽或其它分子(例如检测试剂或药物/化学部分)。此类其它蛋白质/多肽/其它分子可以通过如化学偶联、基因融合或其它非共价连接(如生物素-链霉亲和素结合)进行连接。此类衍生蛋白质不影响原始蛋白质的功能,如与本发明中向导RNA结合形成复合物的能力以及在向导RNA引导下能够在特定位点结合、切割或修饰靶核酸。
在一些实施方式中,可以不使用全长的所述Cas9蛋白,例如不使用全长的CasRfg.3蛋白(SEQ ID NO: 1)、其保守性变异多肽或同源物,而是使用它们的功能片段。所述“功能片段”指的是SEQ ID NO: 1多肽、其保守性变异多肽或同源物的片段或其衍生物,它的序列短于全长序列。所述功能片段中的缺失残基可以在N末端、C末端和/或内部。所述功能片段保留了至少一部分SEQ ID NO: 1多肽的功能。非限制性示例例如可以仅使用所述CasRfg.3蛋白的RuvC结构域、HNH结构域或PI结构域。例如可以使用CasRfg.3蛋白的RuvC结构域和HNH结构域。
在一些实施方式中,可在所述Cas9蛋白内部插入其他结构域,仍能维持原Cas9蛋白的一些功能,例如其与向导RNA形成复合物、靶向至靶核酸、结合靶核酸、切割靶核酸、或修饰靶核酸的能力。例如可在所述Cas9蛋白内部插入脱氨酶结构域、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、或核酸酶结构域(如FokI)等等。这些改造过的蛋白也都在本发明保护范围内。
在一些实施方式中,CasRfg.3蛋白、其保守性变异多肽或同源物可以不是天然存在的,例如可能与天然存在的序列相比有至少一个氨基酸的差异。
在一些实施方式中,所述Cas9蛋白可与本发明中向导RNA形成复合物。
在一些实施方式中,所述Cas9蛋白可在本发明中向导RNA引导下结合靶核酸。
在一些实施方式中,所述Cas9蛋白可在本发明中向导RNA引导下切割或修饰靶核酸。
在一些实施方式中,所述Cas9蛋白可在本发明中向导RNA引导下用于调控靶核酸的转录激活或转录抑制。
在一些实施方式中,所述Cas9蛋白可与本发明中向导RNA组合用于调控靶核酸的转录激活或转录抑制。
在一些实施方式中,所述Cas9蛋白可在25℃~55℃范围内:
与本发明中向导RNA形成复合物;
在本发明中向导RNA引导下结合靶核酸;
在本发明中向导RNA引导下切割或修饰靶核酸;或
与本发明中向导RNA组合用于调控靶核酸的转录激活或转录抑制。
进一步地,所述温度范围可以为35℃-55℃。再进一步地,所述温度为37℃-55℃、40℃-55℃、45℃-55℃或50℃-55℃。
在一些实施方式中,所述Cas9蛋白(包括但不限于CasRfg.3)识别的PAM序列为5’-DDRGDNN-3’(D为A、G或T;R为A或G;N为A、C、G或T)。进一步地,在一些实施方式中,所述Cas9蛋白(包括但不限于CasRfg.3)对应的PAM序列选自:5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’、5’-GGGGGAT-3’。
在一些实施方式中,所述Cas9蛋白(包括但不限于CasRfg.3)不具有实质性/可检测的附加核酸酶活性(如DNA酶/RNA酶活性)。此处“附加的核酸酶活性”是指非特异性核酸酶活性。例如,包含Cas9蛋白的复合物通过与靶核酸(例如靶DNA)结合被激活后,会发生构象变化,进而导致所述复合物充当一个非特异性核酸酶,对附近核酸分子(例如DNA或RNA分子)进行裂解和/或降解(即“附加”的效应)。
缀合物
本发明提供了一种缀合物,所述缀合物包含:本发明所述Cas9蛋白,以及与之缀合的异源功能部分。
在一些实施方式中,所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶(包括但不限于未发生突变的野生型Cas9蛋白,例如CasRfg.3蛋白)、Cas9-nickase(Cas9n,nCas9)、dCas9、或其衍生物或功能片段,且所述Cas9蛋白可与一个或多个异源功能部分缀合。这些异源功能部分可以具有各种活性,例如甲基化酶活性、脱甲基酶活性、脱氨酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性,以及切换活性(如光诱导)。
所述异源功能部分可包括但不限于:定位信号(例如核定位信号NLS、核输出信号NES)、报告蛋白或报告基因产物(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记或检测标记(如FITC或DAPI这种荧光染料)、靶向部分、DNA结合域(例如MBP、Lex A DBD、Gal4 DBD)、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨酶或脱氨基域(例如ADAR1,ADAR2,APOBEC,AID或TAD)、碱基切除修复抑制剂(如尿嘧啶-DNA糖基化酶抑制剂(UGI))、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性域、dsRNA裂解活性域、ssDNA裂解活性域、dsDNA裂解活性域、DNA或RNA连接酶、功能性化学分子,或以上任意的组合。
例如,所述缀合物可以包括一个或多个NLS,此类NLS可以在所述Cas9蛋白的N端、C端和/或内部。
在一些实施方式中,所述缀合可以是共价键连接或非共价键连接。
在一些实施方式中,所述缀合可以是通过接头连接,即所述异源功能部分与所述Cas9蛋白之间还包括接头,所述异源功能部分、接头、Cas9蛋白之间通过共价键或非共价键进行连接。所述接头的非限制性示例包括氨基酸、肽、氨基酸衍生物(例如Ahx、β-Ala、GABA或Ava)或PEG等。
通常,异源功能部分的缀合不影响原始蛋白的功能,例如与本发明中向导RNA结合形成复合物的能力,或在向导RNA引导下能够在特定位点结合或切割靶核酸的能力。
在一些实施方式中,所述缀合物可与本发明中向导RNA形成复合物。
在一些实施方式中,所述缀合物可在本发明中向导RNA引导下结合靶核酸。例如可与NLS缀合,在NLS引导下进入真核细胞的细胞核内与靶核酸结合。
在一些实施方式中,所述缀合物可在本发明中向导RNA引导下切割或修饰靶核酸。例如本发明Cas9蛋白可与NLS缀合,在NLS引导下进入真核细胞的细胞核内切割靶核酸,之后借助细胞内的NHEJ或HDR修复机制还可以继续修饰靶核酸(例如导致靶核酸的碱基插入/删除[indel])。例如本发明Cas9蛋白(例如Cas9-nickase)可与脱氨酶缀合,或者与脱氨酶和尿嘧啶-DNA糖基化酶抑制剂(UGI)缀合,构建得到包含本发明Cas9蛋白的单碱基编辑器,所述单碱基编辑器还可以缀合有NLS。所述单碱基编辑器可以在本发明中向导RNA引导下修饰靶核酸(例如进行核酸碱基置换)。
在一些实施方式中,所述缀合物可与向导RNA组合用于调控靶核酸的转录激活或转录抑制。例如本发明Cas9蛋白(例如dCas9)可与转录激活域(例如VP64或VPR)或转录抑制域(例如KRAB或SID部分)缀合,然后与向导RNA(例如靶向目的基因的启动子区或增强子区)组合用于调控靶核酸的转录激活或转录抑制。
在一些实施方式中,所述缀合物可在25℃~55℃范围内:
与本发明中向导RNA形成复合物;
在本发明中向导RNA引导下结合靶核酸;
在本发明中向导RNA引导下切割或修饰靶核酸;或
与本发明中向导RNA组合用于调控靶核酸的转录激活或转录抑制。
进一步地,所述温度范围可以为35℃-55℃。再进一步地,所述温度为37℃-55℃、40℃-55℃、45℃-55℃或50℃-55℃。
在一些实施方式中,所述缀合物识别的PAM序列为5’-DDRGDNN-3’(D为A、G或T;R为A或G;N为A、C、G或T)。进一步地,在一些实施方式中,所述缀合物对应的PAM序列选自:5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’、5’-GGGGGAT-3’。
融合蛋白
本发明提供了一种融合蛋白,所述融合蛋白包含:前文任一项所述的Cas9蛋白,以及与之融合的异源功能结构域。
在一些实施方式中,所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶(包括但不限于未发生突变的野生型Cas9蛋白[例如CasRfg.3蛋白],以及所述野生型Cas9蛋白的活性突变体)、Cas9-nickase(Cas9n,nCas9)、dCas9、或其衍生物或功能片段,且所述Cas9蛋白可与一个或多个异源功能结构域融合或缔合(例如通过融合蛋白、接头肽等)。这些功能域可以具有各种活性,例如甲基化酶活性、脱甲基酶活性、脱氨酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性,以及切换活性(如光诱导)。
所述异源功能结构域可包括但不限于:定位信号(例如核定位信号NLS、核输出信号NES)、报告蛋白或报告基因产物(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记或检测标记(如FITC或DAPI这种荧光染料)、靶向部分、DNA结合域(例如MBP、Lex A DBD、Gal4 DBD)、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨酶或脱氨基域(例如ADAR1,ADAR2,APOBEC,AID或TAD)、碱基切除修复抑制剂(如尿嘧啶-DNA糖基化酶抑制剂(UGI))、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性域、dsRNA裂解活性域、ssDNA裂解活性域、dsDNA裂解活性域、DNA或RNA连接酶,或以上任意的组合。
在一些实施方式中,所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶(包括但不限于未发生突变的野生型Cas9蛋白[例如CasRfg.3蛋白],以及所述野生型Cas9蛋白的活性突变体)。所述Cas9核酸酶与脱氨酶结构域融合形成单碱基编辑器,可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器,可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器,可将C·G碱基对转变为T·A碱基对。
在一些实施方式中,所述Cas9蛋白为Cas9-nickase,其包含失活的RuvC结构域或失活的HNH结构域,其在向导RNA引导下能与靶核酸序列结合并切割靶核酸(例如靶DNA)的单链。在一些实施方式中,所述Cas9-nickase相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变。在一些实施方式中,所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器,可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器,可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器,可将C·G碱基对转变为T·A碱基对。
在一些实施方式中,所述Cas9蛋白为dCas9,其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失,其在向导RNA引导下能与靶核酸序列结合。在一些实施方式中,所述dCas9相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变。在一些实施方式中,所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器,可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器,可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器,可将C·G碱基对转变为T·A碱基对。
在一些实施方式中,存在多个(例如2、3、4、5、6、7、8或更多个)相同或不同的功能域。例如,所述融合蛋白可以包括一个或多个NLS,例如1个、2个、3个、4个、5个或更多个NLS,例如≥1个、≥2个、≥3个或≥4个NLS。此类NLS可以位于Cas9蛋白的N端、C端、或内部。
在一些实施方式中,所述异源功能结构域与所述Cas9蛋白之间还包括接头,所述异源功能结构域、接头、Cas9蛋白之间通过共价键或非共价键进行连接。所述接头的非限制性示例包括氨基酸、肽、氨基酸衍生物(例如Ahx、β-Ala、GABA或Ava)等。在一些实施方式中,所述功能域与一个接头序列(如柔性接头序列或刚性接头序列)缔合或融合。
在一些实施方式中,融合异源功能结构域后不影响原始Cas9蛋白的功能,例如与本发明中向导RNA结合形成复合物的能力,以及在向导RNA引导下能够在特定位点结合或切割靶核酸的能力。
所述一个或多个功能域在Cas9蛋白上的位置。这种位置可以使得所述功能域有正确的空间定向,从而对靶标产生附带的功能效应。例如,如果所述功能结构域是转录激活子(如VP16、VP64或p65),转录激活子则被放置于能够影响靶标转录的空间定向上。同理,一个转录抑制子会被放置于能够影响靶标转录的定位上,一个核酸酶(如Fok1)会被放置于能够切割或部分切割靶标的定位上。在一些实施方式中,所述功能结构域位于Cas9蛋白的N端。在一些实施方式中,所述功能结构域位于Cas9蛋白的C端。在一些实施方式中,所述功能结构域位于Cas9蛋白的N端和C端。在一些实施方式中,所述的dCas9/nCas9经过修饰,修饰后的该dCas9/nCas9在N端包含第一功能域并在C端包含第二功能域。
在一些实施方式中,所述融合蛋白可与本发明中向导RNA形成复合物。
在一些实施方式中,所述融合蛋白可在本发明中向导RNA引导下结合靶核酸。例如可与NLS融合,在NLS引导下进入真核细胞的细胞核内与靶核酸结合。
在一些实施方式中,所述融合蛋白可在本发明中向导RNA引导下切割或修饰靶核酸。例如本发明Cas9蛋白可与NLS融合,在NLS引导下进入真核细胞的细胞核内切割靶核酸,之后借助细胞内的NHEJ或HDR修复机制还可以继续修饰靶核酸(例如导致靶核酸的碱基插入/删除[indel])。例如本发明Cas9蛋白(例如Cas9-nickase)可与脱氨酶融合,或者与脱氨酶和尿嘧啶-DNA糖基化酶抑制剂(UGI)融合,构建得到包含本发明Cas9蛋白的单碱基编辑器,所述单碱基编辑器还可以融合有NLS。所述单碱基编辑器可以在本发明中向导RNA引导下修饰靶核酸(例如进行核酸碱基置换)。
在一些实施方式中,所述融合蛋白可与向导RNA组合用于调控靶核酸的转录激活或转录抑制。例如本发明Cas9蛋白(例如dCas9)可与转录激活域(例如VP64或VPR)或转录抑制域(例如KRAB或SID部分)融合,然后与向导RNA(例如靶向目的基因的启动子区或增强子区)组合用于调控靶核酸的转录激活或转录抑制。
在一些实施方式中,所述融合蛋白可在25℃~55℃范围内:
与本发明中向导RNA形成复合物;
在本发明中向导RNA引导下结合靶核酸;
在本发明中向导RNA引导下切割或修饰靶核酸;或
与本发明中向导RNA组合用于调控靶核酸的转录激活或转录抑制。
进一步地,所述温度范围可以为35℃-55℃。再进一步地,所述温度为37℃-55℃、40℃-55℃、45℃-55℃或50℃-55℃。
在一些实施方式中,所述融合蛋白识别的PAM序列为5’-DDRGDNN-3’(D为A、G或T;R为A或G;N为A、C、G或T)。进一步地,在一些实施方式中,所述融合蛋白对应的PAM序列选自:5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’、5’-GGGGGAT-3’。
CRISPR-CAS复合物
本发明也提供一种CRISPR-CAS复合物,其包括:
(1) 本发明所述的任意Cas9蛋白;和
(2) 向导RNA。
在一些实施方式中,所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶,或由该Cas9核酸酶改造的Cas9-nickase(Cas9n)或dCas9,或含有该Cas9核酸酶、Cas9-nickase或dCas9的融合蛋白或缀合物。
在一些实施方式中,所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合:
(a) 分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株;
(b) 包含SEQ ID NO:1所示多肽,包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物,为SEQ ID NO:1所示多肽,或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物;
(c) 其序列中包含RuvC结构域和HNH结构域;
(d) 能与向导RNA形成复合物,能在向导RNA引导下结合靶核酸,能在向导RNA引导下切割靶核酸,或能在向导RNA引导下修饰靶核酸;
(e) PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T;或
(f) 在25℃~55℃能发挥(d)中任一项功能。
本发明的CRISPR-CAS复合物可用于多种应用,如运用于基于基因编辑的治疗,因为CasRfg.3蛋白要显著小于本领域的许多Cas9蛋白,因此编码CasRfg.3蛋白、其保守性变异多肽或其同源物的核酸及它们的引导RNA编码序列更适宜于被包装到有大小限制的递送系统中(如AAV载体)。
向导RNA
本发明还提供了一种向导RNA,能与本发明Cas9蛋白相互作用或形成复合物,或者能引导本发明Cas9蛋白结合至靶核酸,或能引导本发明Cas9蛋白切割或修饰靶核酸,或能与本发明Cas9蛋白组合用于调控靶核酸的转录激活或转录抑制。
在一些实施方式中,所述向导RNA包含指导序列、同向重复序列(DR序列)。
在一些实施方式中,所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA,tracrRNA)序列。
所述指导序列与靶核酸上的靶序列相互作用、结合、互补(部分互补或完全互补)或杂交;或者所述指导序列将Cas9-向导RNA复合物引导至靶核酸序列并发生特异性结合。所述tracrRNA可与所述Cas9蛋白相互作用或结合,所述tracrRNA可与所述DR序列互补(部分互补或完全互补)、相互作用或结合。
在一些实施方式中,本文所述的CRISPR系统含有向导RNA。所述的CRISPR系统可包括一或多个向导RNA (例如1~12个;具体地如1、2、3、4、5、6、7、8或更多个RNA向导)。
在一些实施方式中,所述DR序列连接至所述指导序列的3’末端,例如通过共价键连接。
DR序列与指导序列合称为crRNA。所述tracrRNA与crRNA可以共价连接。在一些实施方式中,所述tracrRNA与DR序列连接成为gRNA的骨架序列,例如通过嵌入1个、2个、3个、4个、5个、6个或更多个核苷酸而将tracrRNA与DR序列连接起来。进而形成单分子gRNA。从5’到3’末端依次排列顺序为:指导序列→DR序列→tracrRNA序列。
所述骨架序列的长度范围为20nt-190nt。
优选地,在一些实施方式中,所述crRNA、tracrRNA或骨架序列能够形成茎-环结构(stem-loop)。
在一些实施方式中,所述骨架序列能够形成1个、2个、3个、4个、5个、6个或更多个茎-环结构。在一些实施方式中,所述骨架序列能够形成1个、2个或3个茎-环结构。在一些实施方式中,所述骨架序列能够形成≥1个、≥2个或≥3个茎-环结构。在一些实施方式中,所述骨架序列能够形成≤1个、≤2个或≤3个茎-环结构。
在一些实施方式中,所述骨架序列能够形成茎-环结构,核心结构可如图18所示。
在一些实施方式中,所述骨架序列从5’端到3’端依次包含双链体、凸起、茎环1。在一些实施方式中,所述骨架序列从5’端到3’端依次包含双链体、凸起、茎环1、可选的连接序列、茎环2。在一些实施方式中,所述骨架序列从5’端到3’端依次包含双链体、凸起、茎环1、可选的连接序列1、茎环2、可选的连接序列2、茎环3。
在一些实施方式中,所述骨架序列的长度为≥20nt、≥30nt、≥40nt、≥50nt、≥60nt、≥70nt、≥80nt、≥90nt、≥100nt、≥110nt、≥120nt、≥130nt、≥140nt、≥150nt或≥160nt。在一些实施方式中,所述骨架序列的长度为≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt、≤180nt或≤190nt。所述nt意指核苷酸。
在一些实施方式中,所述骨架序列的长度范围为20nt-190nt、20nt-160nt、20nt-140nt、20nt-120nt、20nt-110nt、20nt-100nt、40nt-160nt、40nt-140nt、40nt-120nt、40nt-110nt、40nt-100nt、60nt-160nt、60nt-140nt、60nt-120nt、60nt-110nt、60nt-100nt、80nt-160nt、80nt-140nt、80nt-120nt、80nt-110nt、80nt-100nt、100nt-160nt、100nt-140nt或100nt-120nt。
在一些实施方式中,所述指导序列的长度范围为10nt-60nt、10nt-50nt、10nt-40nt、10nt-30nt、15nt-60nt、15nt-50nt、15nt-40nt、15nt-30nt。
在一些实施方式中,所述指导序列的长度范围为16nt-30nt。在一些实施方式中,所述指导序列的长度范围为18nt-25nt。在一些实施方式中,所述指导序列的长度范围为20nt-24nt。在一些实施方式中,所述指导序列的长度为16nt、17nt、18nt、19nt、20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt或30nt。
在一些实施方式中,所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体。在一些实施方式中,所述截短体具有SEQ ID NO: 4-7所示的核苷酸序列。
本发明所用的“同向重复序列”(DR序列)可以指所述CRISPR基因座中的DNA编码序列,当描述为RNA水平时,每个T应理解为代表一个U。
为减少脱靶相互作用,如为了减少特异指导序列与低互补性靶序列的相互作用,可以在CRISPR系统引入突变,使CRISPR系统能够区分靶序列和脱靶序列,这些靶序列和脱靶序列有大于80%、85%、90%或95%的互补性。在一些实施方式中,这种互补程度是80%-95%,如约83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93 %、94%或95%(例如,可以区分一个有18个核苷酸的靶标与一个有1、2或3个错配的18个核苷酸的脱靶标)。因此,在一些实施方式中,一种特异指导序列与其对应的靶序列的互补程度大于94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99 %、99.5%或99.9%。 在一些实施方式中,互补程度为100%。
在本领域中已知,有足够的互补性能够发挥作用则不需要完全互补性。可以通过引入错配来调节切割效率,例如引入一种或多种错配,如在特异指导序列和靶序列之间引入1或2个错配。若一个错配(如双错配)位于越靠近中心的位置(即不在3’或5’末端),对切割效率的影响越大。因此,可以将错配引入沿着该特异指导序列的位置来调节切割效率。例如,如果期望实现少于100%的靶标切割,则可以将1或2个特异指导序列与靶序列之间的错配引入间隔序列中。
化学修饰可被引入到所述向导RNA的磷酸骨架、糖和/或碱基。骨干修饰(如硫代磷酸酯)修饰磷酸主链上的电荷,并帮助寡核苷酸的递送和核酸酶抗性(参见如Eckstein,Nucl. Acid Ther., 24, pp. 374-387, 2014);糖的修饰,例如2’-O-甲基(2’-OMe)、2’-F、锁核酸(LNA)的修饰,可增强碱基配对和核酸酶抗性(参见如Allerson,J. Med. Chem.48.4: 901-904, 2005),糖的修饰还可包括2’-脱氧修饰。经化学修饰的碱基,例如2-硫尿苷或N6-甲基腺苷,可以使得碱基配对变强或变弱(参见如,Bramsen,Front. Genet., 2012Aug. 20; 3:154)。此外,向导RNA可以在5’和/或3’末端与各种功能部分缀合,包括荧光染料、聚乙二醇或蛋白质。向导RNA的5’端可有额外的核苷酸与指导序列相连接,非限制性示例例如5’末端可以包含2个附加的鸟嘌呤核苷酸,用于提高靶向特异性。
在一些实施方式中,用2’-OMe修饰向导RNA,可以提高核酸酶抗性,从而改变Watson-Crick碱基配对的结合能。此外,2’-OMe修饰可影响寡核苷酸与细胞中转染试剂、蛋白质或与其它任何分子的相互作用。这些修饰的效果可经实证检验获得。
在一些实施方式中,所述向导RNA包含一种或多种硫代磷酸酯修饰。在一些实施方式中,为增强碱基配对和/或增加核酸酶抗性,所述向导RNA包括一种或多种锁核酸。在一些实施方式中,所述向导RNA的一个或多个核糖核苷酸可被脱氧核糖核苷酸替代。
多核苷酸
本发明还提供了分离的多核苷酸,其编码前文任意所述的Cas9蛋白、所述的融合蛋白、所述的缀合物的蛋白质部分。
在一些实施方式中,所述分离的多核苷酸包含:(i)SEQ ID NO:2所示核苷酸序列;(ii)与SEQ ID NO:2相比有一个或多个核苷酸缺失、添加和/或取代;(iii)与SEQ ID NO:2相比具有至少40%、至少50%、至少60%、至少70%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%序列同一性的一种多核苷酸;(iv)一种多核苷酸,在严格条件下可与(i)-(iii)的多核苷酸中的任何一种或其互补序列杂交;(v)(i)-(iii)的任何多核苷酸的互补序列。上述多核苷酸序列的简并的序列也是可用的。
在一些实施方式中,所述的多核苷酸为天然序列、突变序列或为密码子优化的序列。
在一些实施方式中,多核苷酸被进行了密码子优化以在原核生物中表达。在一些实施方式中,多核苷酸被进行了密码子优化以在真核生物如人类或人类细胞中表达。
在一些实施方式中,所述核酸是一种合成核酸。在一些实施方式中,所述核酸是一个DNA分子。 在一些实施方式中,所述核酸是一个RNA分子(如编码所述Cas9蛋白、其衍生物或其功能片段的mRNA分子)。在一些实施方式中,上述mRNA被加帽、聚腺苷酸化、被5-甲基胞嘧啶核苷取代、被伪尿苷取代,或以上任意组合。
在一些实施方式中,所述核酸(如DNA)被可操作地连接至调节元件(如启动子),以便控制核酸的表达。在一些实施方式中,上述启动子可以是组成型启动子。在一些实施方式中,上述启动子可以是诱导型启动子。在一些实施方式中,上述启动子可以是细胞特异性启动子。在一些实施方式中,上述启动子可以是生物体特异性启动子。
合适的启动子可以是本领域已知的启动子,包括如pol I启动子、pol II启动子、pol III启动子、T7启动子、U6启动子、H1启动子、逆转录病毒劳斯肉瘤病毒LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如,U6启动子可用于调节本文所述向导RNA分子表达。
在一些实施方式中,所述一种或多种核酸存在于一个载体中(如病毒载体或噬菌体)。该载体可以是一个克隆载体或表达载体。该载体可以是一个质粒、噬菌粒、粘粒等。该载体可以包括一种或多种调节元件,让这种载体得以在目的细胞(例如细菌细胞或哺乳动物细胞)中复制。在一些实施方式中,该载体含有一个核酸,该核酸编码本文所述的CRISPR关联(Cas)系统一个单个组分。在一些实施方式中,该载体包括多个核酸,每个核酸编码本文所述的CRISPR关联(Cas)系统的一个组分。
重组载体
本发明还提供了一种重组载体,它含有(a)前述的任意的多核苷酸序列,或含有(b)编码前述任意向导RNA的多核苷酸,或含有(a)与(b)的组合。
在一些实施方式中,所述多核苷酸还与启动子、增强子和/或终止子可操作地连接。在一些实施方式中,所述启动子包括:组成型启动子、诱导型启动子、广谱表达型启动子或组织特异性启动子。
在一些实施方式中,所述重组载体包括:病毒载体或非病毒载体;较佳地,所述载体包括(但不限于):质粒、慢病毒载体、腺病毒载体、腺相关病毒载体(AAV)、逆转录病毒载体、噬菌体载体或单纯疱疹病毒(HSV)载体。
重组细胞
本发明还提供了一种重组细胞,它含有前述的重组载体。
在一种或多种实施方式中,所述原核细胞包括(但不限于):大肠杆菌、枯草杆菌、沙门氏菌、梭菌或链霉菌。
在一些实施方式中,所述重组载体会表达本发明的Cas9蛋白和向导RNA,进而靶向、结合、切割或修饰细胞的一种或多种核酸(包括DNA或RNA)分子。例如,这种修饰可以增加DNA的转录、翻译或表达。在其它实施方案中,这种修饰可降低DNA的转录、翻译或表达。
在一种或多种实施方式中,所述的重组细胞包括真核细胞或原核细胞。
在一种或多种实施方式中,所述真核细胞包括(但不限于):哺乳动物细胞(非人类哺乳动物细胞、人类细胞)、植物细胞、真菌细胞(如酵母)或昆虫细胞。在一种或多种实施方式中,所述原核细胞包括(但不限于):大肠杆菌、枯草杆菌、沙门氏菌、梭菌或链霉菌。
在一些实施方式中,所述细胞是真核细胞,例如哺乳动物细胞,包括人类细胞(例如人类原代细胞或已建立的人类细胞系)。在一些实施方式中,所述细胞为非人类哺乳动物细胞,例如来自非人类灵长类动物(如猴子)、奶牛/公牛/家牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小、大鼠、仓鼠)等。在一些实施方式中,所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟,包括小鸡、鸭、鹅)、爬行动物、贝类(如牡蛎、蛤、龙虾、虾)、昆虫、蠕虫、酵母等。在一些实施方式中,所述细胞来自植物,如单子叶植物或双子叶植物。在一些实施方式中,上述植物是粮食作物,例如大麦、木薯、棉花、花生、玉米、小米、油棕果、土豆、豆类、油菜籽或低芥酸菜子、大米、黑麦、高粱、大豆、甘蔗、糖甜菜、向日葵和小麦。在一些实施方式中,上述植物是谷物(大麦、玉米、小米、大米、黑麦、高粱和小麦)。在一些实施方式中,上述植物是块茎(木薯和土豆)。在一些实施方式中,上述植物是糖料作物(甜菜和甘蔗)。在一些实施方式中,上述植物是含油作物(大豆、花生、油菜籽或低芥酸菜子、向日葵和油棕果)。在一些实施方式中,上述植物是纤维作物(棉花)。在一些实施方式中,上述植物是树(如桃树或油桃树、苹果或梨树、坚果树(如杏仁或核桃树或开心果树)或柑橘属树(例如橙子、葡萄柚或柠檬树 )、草、蔬菜、水果或藻类。在一些实施方式中,上述植物是茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia)植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。
在一个相关方面,本文提供了经修饰的细胞或其后代,修饰方法是本发明中使用所述CRISPR系统的方法。
在一些实施方式中,所述细胞在体外、体内或离体进行修饰。
在一些实施方式中,所述细胞是干细胞。
在一些实施方式中,所述细胞是胚胎干细胞。较佳地,所述胚胎干细胞为未经过体内发育的受精14天以内的人类胚胎分离或者获取干细胞技术。较佳地,所述胚胎干细胞为已建系的、传代的胚胎干细胞,或为商品化的胚胎干细胞。
制备方法
本发明还提供了一种制备前述Cas9蛋白、融合蛋白、或缀合物的蛋白部分的方法,包括:培养携带有编码这些蛋白的多核苷酸的重组细胞,从培养物中分离出所述的Cas9蛋白、融合蛋白或缀合物的蛋白部分。
递送系统
本发明还提供了一种递送系统,其包含:
(a)递送载体;以及
(b)CRISPR系统或其任何组分,包括(但不限于)前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、或重组载体。
所述递送载体将所述CRISPR系统或其任何组分递送至靶核酸。
在一些实施方式中,所述递送载体包括(但不限于):纳米颗粒、脂质体、细胞外囊泡、质粒、病毒载体。如使用腺相关病毒(即AAV)、慢病毒、腺病毒、逆转录病毒载体、其它病毒载体,或以上载体的组合。递送方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声处理、基因枪等。
靶核酸可以位于真核细胞内、原核细胞内、或动物(如人)体内。在一些实施方式中,将载体(如质粒或病毒载体)递送至动物体的目标组织,是通过例如肌内注射、静脉内施用、透皮施用、鼻内施用、口服施用或粘膜施用等方式。这种递送可以是单剂量或多剂量的。本领域专业人员应理解,本文所述的递送实际剂量,会根据多种因素而可能产生很大的变化,所述因素如载体的选择、靶细胞、生物体、组织、待治疗对象的总体情况、施用途径、施用模式等。如要应用于细菌中,可以利用一个噬菌体,将对所述CRISPR系统中任何组分进行编码的核酸递送至细菌内。
在一些实施方式中,所述递送是通过质粒完成。剂量可以是能够引起应答的足够数量的质粒。
在一些实施方式中,所述递送是通过纳米颗粒或细胞外囊泡(例如外泌体、微囊泡和凋亡小体)完成的。
在一些实施方式中,通过细胞穿透肽(CPP)将所述CRISPR系统或其任何组分引入细胞。在一些实施方式中,一个细胞穿透肽与所述CRISPR系统或其任何组分连接,或混合后递送。
CRISPR系统的应用
本发明还提供了关于本发明所述的Cas9蛋白、融合蛋白、缀合物、和CRISPR-CAS复合物的用途,用于结合、切割或修饰靶核酸序列,或用于制备结合、切割或修饰靶核酸序列的试剂。
在一些实施方式中,所述Cas9蛋白、融合蛋白或缀合物与向导RNA形成复合物,针对靶核酸序列的特定位点、靶序列、或靶序列附近的核苷酸序列进行核酸序列结合、切割或修饰。在一些实施方式中,所述靶核酸序列的特定位点附近包括PAM序列:5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T。
在一些实施方式中,所述Cas9蛋白为Cas9核酸酶、Cas9-nickase或dCas9,其:
用于结合靶核酸序列;
用于制备结合靶核酸序列的试剂;
用于切割靶核酸序列;
用于制备切割靶核酸序列的试剂;
用于修饰靶核酸序列,例如使靶DNA的碱基被置换,例如将所述Cas9与腺苷脱氨酶融合后得到单碱基编辑器(可将靶核酸特定位点的A·T碱基对转变为G·C碱基对),或与胞嘧啶脱氨酶融合后得到单碱基编辑器(可将靶核酸特定位点的C·G碱基对转变为T·A碱基对);或
用于制备修饰靶核酸序列的试剂。
在一些实施方式中,所述Cas9蛋白与转录激活域或转录抑制域融合后用于调控靶核酸的转录激活或转录抑制,或所述Cas9蛋白用于制备调控靶核酸的转录激活或转录抑制的试剂。
在一些实施方式中,所述靶核酸在细胞内(例如真核细胞或原核细胞,非限制性示例例如哺乳动物细胞,例如人细胞)。在一些实施方式中,所述靶核酸为:疾病相关的核酸(靶点),动植物性状相关的核酸(靶点)。在一些实施方式中,所述靶核酸为DNA或RNA。
在一些实施方式中,所述结合、切割或修饰靶核酸序列包括修饰多种细胞类型中的靶多核苷酸或靶核酸(例如删除、插入、转运、失活或活化)。所述结合、切割或修饰靶核酸序列包括:各种疾病(如遗传性疾病)的治疗、DNA/RNA检测、核酸跟踪与标记、控制干扰RNA或miRNA、检测循环肿瘤DNA、药物筛选、疾病诊断和预后等方面。
在一些实施方式中,所述结合、切割或修饰靶核酸序列包括多种与DNA相关的应用,例如调节基因表达,降解DNA分子,抑制DNA表达,筛选DNA或DNA产物,确定lincRNA或非编码RNA的功能,诱导细胞休眠,诱导细胞周期停滞,减少细胞生长和/或细胞增殖,诱导细胞无反应,诱导细胞凋亡,诱导细胞坏死,诱导细胞死亡和/或诱导程序性细胞死亡。应理解,本领域在此前的发展中,已经发现了很多基因/蛋白调控(如抑制)靶点与人畜/植物疾病、动植物性状等等具有相关性,基于发明所建立的CRISPR系统对于此类靶点的改造均是可用的。
在不同的实施方案中,本文所述的方法可以在体外,体内或离体进行。
例如,可以将前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、重组载体、递送系统、或细胞等用于一个患有疾病或病症(例如遗传病、慢性病、癌症等等)的受试者,或用于制备针对性的药物,或调节基因表达,或用于改变患者的基因序列(例如碱基插入、删除、替换),或用以靶向和诱导处于患病状态的细胞(例如癌细胞或被感染因子感染的细胞)的死亡。例如在一些实施方式中,本文所述的CRISPR系统可用于靶向并诱导癌细胞中的细胞死亡,所述癌细胞来自患有:血液系统肿瘤,消化系统肿瘤,妇科及生殖系统肿瘤,神经系统肿瘤,泌尿系统肿瘤或其他系统肿瘤的受试者。
在一些实施方式中,所述Cas9蛋白、融合蛋白、缀合物、和CRISPR-CAS复合物可被引入一个细胞中,使得该细胞和/或其后代改变一种或多种细胞产物,如细胞信号通路蛋白、代谢物、抗体、淀粉、乙醇或任何其它想要改变的产物。这种细胞及其后代包括在本发明的范围内。
在一些实施方式中,所述结合、切割或修饰靶核酸序列包括:在农林业领域,帮助植物(尤其是林木、经济作物等)抵御疾病,种植出性状更优的植物;用于帮助植物增强抗逆性(包括但不限于抗热性、抗旱性、抗冷性、抗毒性),植物抗热性和抗旱性的增强有利于抵御气候变化的影响如全球变暖导致的干旱;用于帮助植物优化株型性状,例如抵抗倒伏。
在一些实施方式中,所述结合、切割或修饰靶核酸序列包括:在农药学领域,例如针对一些对植物有威胁的昆虫,已知一些具有广谱性虫生真菌(如绿疆菌、白僵菌等)能够抑制此类昆虫,可以运用本发明的系统来增加此类虫生真菌抑制昆虫的能力。
在一些实施方式中,所述结合、切割或修饰靶核酸序列包括:用于调节动植物的营养组成,例如动物的脂肪/脂肪酸组成,植物的淀粉组成等等,从而优化人类的食品质量或优化工业产品质量。
在一些实施方式中,所述结合、切割或修饰靶核酸序列包括:检测待测样品中靶核酸存在情况,例如检测样品中是否存在特定病毒(如新冠病毒、HBV、HIV)。
结合、切割或修饰靶核酸的方法
本发明还提供了一种结合、切割或修饰靶核酸的方法,所述方法包括:使得前述的CRISPR-CAS复合物结合至靶核酸、切割靶核酸或修饰靶核酸;或使得前述的Cas9蛋白、缀合物或融合蛋白与前述的向导RNA一起结合至靶核酸、切割靶核酸或修饰靶核酸。
在一些实施方式中,所述CRISPR-CAS复合物中,所述Cas9蛋白为Cas9核酸酶,其结合至靶核酸,或结合并切割靶核酸的双链;或
所述Cas9蛋白为Cas9-nickase,其结合至靶核酸后,切割靶核酸的单链;或
所述Cas9蛋白为dCas9,其结合至靶核酸后,调控靶核酸的转录激活或转录抑制。
在一些实施方式中,所述靶核酸在细胞内。在一些实施方式中,所述靶核酸为:疾病相关的核酸(靶点),动植物性状相关的核酸(靶点)。在一些实施方式中,所述靶核酸为DNA或RNA。在一种或多种实施方式中,所述靶核酸为真核DNA或真核RNA。在一种或多种实施方式中,所述真核DNA或真核RNA包括(但不限于):非人类哺乳动物DNA或RNA、非人类灵长类DNA或RNA、人类DNA或RNA、植物DNA或RNA、昆虫DNA或RNA、鸟类DNA或RNA、爬行动物DNA或RNA、啮齿动物 DNA或RNA、鱼类DNA或RNA、蠕虫/线虫DNA或RNA、酵母DNA或RNA等。
在一些实施方式中,通过直接引入的方式将所述的CRISPR-CAS复合物(蛋白+向导RNA)引入细胞,结合至靶核酸。在一些实施方式中,将CRISPR-CAS复合物中Cas9蛋白处理(包括注射)细胞或藉由穿膜肽引入细胞,将CRISPR-CAS复合物中的向导RNA处理(包括注射)细胞。在一些实施方式中,将编码所述CRISPR-CAS复合物的多核苷酸或含有该多核苷酸的表达构建体(如表达载体)转化细胞,在细胞内表达并形成所述CRISPR-CAS复合物(蛋白+向导RNA),结合至靶核酸。
在一些实施方式中,所述CRISPR-CAS复合物中所述Cas9蛋白为Cas9核酸酶,其用于结合、切割或修饰靶核酸。
在一些实施方式中,所述CRISPR-CAS复合物中所述Cas9蛋白为Cas9-nickase,其用于结合、切割或修饰靶核酸(如切割靶DNA的单链),或与腺苷脱氨酶融合后用于将靶核酸特定位点的A·T碱基对转变为G·C碱基对,或与胞嘧啶脱氨酶融合后用于将靶核酸特定位点的C·G碱基对转变为T·A碱基对。
在一些实施方式中,所述CRISPR-CAS复合物中所述Cas9蛋白为dCas9,所述dCas9与转录激活域或转录抑制域融合后用于调控靶核酸的转录激活或转录抑制,或与腺苷脱氨酶融合后用于将靶核酸特定位点的A·T碱基对转变为G·C碱基对,或与胞嘧啶脱氨酶融合后用于将靶核酸特定位点的C·G碱基对转变为T·A碱基对。
在一些实施方式中,所述Cas9-nickase或dCas9靶向的靶序列位于启动子区。
在一些实施方式中,所述方法在25℃~55℃进行。
用于核酸检测
本发明还提供了一种检测待测样品中靶核酸存在情况的方法,其包括:使得前述的CRISPR-CAS复合物与靶核酸接触或结合,或使得前述的Cas9蛋白和前述的向导RNA一起与靶核酸接触或结合。
在一些实施方式中,所述CRISPR-CAS复合物包括:前述的Cas9蛋白、融合蛋白或缀合物。
在一些实施方式中,所述融合蛋白或缀合物含有可检测标记。在一些实施方式中,当CRISPR-CAS复合物与靶核酸接触或结合时,含有Cas9蛋白序列的融合蛋白或缀合物切割或修饰靶核酸,通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况。在一些实施方式中,所述可检测标记如荧光基团、显色剂、显影剂或放射性同位素。
组合物或药物组合物
本发明还提供了一种组合物,其包括:前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、载体或递送系统。
在一些实施方式中,所述组合物为药物组合物。
在一些实施方式中,所述组合物中还包括:生理学或药学上可接受的药学载体。
试剂盒
本发明提供一种试剂盒,所述试剂盒包含了本文所述CRISPR系统或其任何组分,所述CRISPR系统或其任何组分包括:前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、载体、递送系统,或组合物。
在一些实施方式中,该试剂盒还包括了如何使用其中组分的说明书,和/或如何与在别处获得的其它组分组合使用的说明书。
在一些实施方式中,该试剂盒还包含一个或多个核苷酸,这些核苷酸有些可响应将RNA编码序列插入一个载体的核苷酸,而上述编码序列在操作上可以连接至该载体中一个或多个控制元件。
在一些实施方式中,该试剂盒还包含一种或多种缓冲液,这种缓冲液可用于溶解任何组分,和/或为一种或多种组分提供合适的反应条件。所述缓冲剂可包括一种或多种以下缓冲剂:PBS、HEPES、Tris、MOPS、Na2CO3、NaHCO3、NaB或以上任意组合。在一些实施方式中,上述反应条件包括适当的pH值,例如一个碱性pH值。在一些实施方式中,所述pH值在7-10之间。
在一些实施方式中,该试剂盒中任何一种或多种组分可以存储在合适的容器中。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如J.萨姆布鲁克等编著,分子克隆实验指南,第三版,科学出版社中所述的条件,或按照制造厂商所建议的条件。
以下实施例中所称的sgRNA对应于上文中的向导RNA(gRNA)。
实施例1、CasRfg.3蛋白的筛选
本发明人经过广泛的研究筛选以及实验验证,从大量的候选蛋白中筛选到一种新的Cas9核酸酶(称为CasRfg.3或Ca2)。这一新的Cas9核酸酶的序列显著不同于已知的Cas9核酸酶。
CasRfg.3蛋白的基因组序列来源如表1所示。
表1、CasRfg.3蛋白的基因组序列的来源
CasRfg.3蛋白的序列如下所示(SEQ ID NO: 1,1046 aa):
MKRKIGIGLDVGIGSVGFAVLSYDKVYDARIEQVGVRLFDSGEEPKTKVSKNQGRRQYRAGRRLIRRRYHRKERAKRFIERIGLLSADKIKEWQEVNGNQNIYYVRFRGLSEKLTPQEIADCVIHFCNHRGYREFYEDDVADEKEAGKIKTALSRFDEKMAAGKYVSVADMILHDNEFSTNTQFPDFHNHKGDDDEKYFLIKRAALRDELRAILRKQQEFYEQLTEHNIDFLCDDIVFVQRDFEDGPGDKTDKKRKFMGFLDSIGCCMFYKEEVRGYRSTVIADIYSLVNGLSKMMYVDSTTGEITFLPEAADKIIDFALKNASITEKDIKEILKKYNLTLIKAEKLEENIPQTIKTLKILKKILDDSGYSYDELIKEEQFDFDRPSKLHELCSLLASNITPKRRRKALEKAGWNKALQEQTRRIHFGGTSNVCYRYMLEAIDAFRHGELYGNFQARRNKEQLTDEAENTEKVRLLPPFTKEMDEDVVKNVVVFKAINETRKIINALIGKYGSPAYINIEVADELGHSIE T RRKMTKANNEKMKKKEAISTKLVELGLRKEGEVSGKDIARYRLWEQQDGIDLYTGENIPEADVLSGQYDIDHIIPFS LILDDTLNNKVLTGMGSNRQAKSNKAPREYLSDKAELEFIKRVNILLKKKIISKKKYKYLMVKNLRDSKLLDEWKSR NINDTRYISRFLVNYLNNMLLFNSDKKKNVYAINGAITSKMRKLWLNKRTWGTPEKNRENNLHHAADAIVIANLTPA AVELASDNLKLQNIFRQNGKRVTEEYDNYLDKAVRKMEKYYHLNEELAKNLLVRKDRIPSMVRSLREETDKRLVDTSLEEFNMVTPEAFRKNLEQYYNDSDFVASIQMPLVSYKQSKRFSGSFTKDNPIKKKDKEDSSSVKMDSLGNENILDAKSYYCLEVYSTKDNKTALRGLRYVDFKLKNKKMFINVPNPDNYDKHIMYLFKNDYIVVYNKKGEERIKGYYTGIKNIKANRFYLISNNDAVRKDFTLSKDDTIKKYHIDILGQIGGEVKCSAPFLSITEKE
经鉴定,上述蛋白中,第1-52(Ruvc_I)、473-530(Ruvc_II)、686-834(Ruvc_III)位氨基酸残基(下划线部分)为RuvC核酸酶结构域;第531-685位氨基酸残基(斜体部分)为HNH核酸酶结构域。其中,HNH核酸酶结构域剪切互补链, RuvC核酸酶结构域剪切非互补链,特异性产生双链断裂(DSB)。
CasRfg.3蛋白的结构域分布如图1所示。
上述CasRfg.3蛋白的天然(野生型)DNA编码序列如下所示(SEQ ID NO: 2,3141bp):
atgaaaagaaaaattggaatcgggttggatgttggtataggttctgtaggttttgctgtattgtcgtatgataaggtatatgatgcccgtatcgaacaggtaggggtccggctttttgattctggggaagaacccaaaacaaaagtcagtaagaaccaggggagacggcaatatagggctggtcgtagattgattcggcgtagataccatcgtaaagagcgggcaaagagatttattgagcggataggtttattaagtgcggacaaaattaaagaatggcaggaagtaaatggcaatcagaatatttactatgtgagatttaggggattgtcggaaaagctcaccccacaagaaattgccgattgcgttatccatttttgcaaccatagaggttatcgtgaattctatgaagatgatgttgcggatgaaaaggaagctggcaagataaagaccgccctatccagatttgatgaaaaaatggcagctggtaagtatgtatccgttgccgatatgattttgcatgataatgaattttctacaaacacccagtttccagatttccataatcataaaggtgatgacgacgaaaaatattttcttattaaacgggcagcgttaagggatgaacttagggcaatactccggaagcaacaggaattctatgaacagttgacggaacataatattgatttcttatgtgacgacatagtttttgttcagcgggattttgaggatggacccggggataaaactgataaaaagcgtaagtttatgggttttttggatagcataggctgctgtatgttttataaggaagaagttagaggctataggtccacagtaattgcagatatttattccttggtaaacggtttgtccaagatgatgtatgttgacagcaccactggtgaaataacatttttaccggaagctgctgacaaaattattgattttgccctaaaaaatgcatccattactgaaaaagatatcaaagaaatactgaagaaatacaatttgacccttataaaggctgaaaagctagaggaaaacataccgcagactataaagactctgaagatattgaaaaagatattggatgatagtgggtatagttatgatgaattgatcaaggaagaacaatttgattttgataggccatccaaactccatgaattatgtagtttgttagccagcaatattaccccaaaacgcagaagaaaagcattggaaaaagctggctggaataaagcattgcaagaacaaaccaggagaatacactttggtggaacatcaaatgtatgctatcgctacatgctagaagctattgatgccttcagacatggtgaattatatggtaatttccaagcccgacgaaataaggaacagcttacagatgaagcagaaaatacggagaaggtaagattattaccaccgttcacaaaagaaatggatgaagatgtggtaaagaatgtagtggttttcaaggcaatcaatgaaacccgcaagataatcaatgcccttataggcaagtacggttcgccggcatatatcaatattgaggtggctgatgaactggggcacagtattgaaaccaggcggaaaatgaccaaagccaacaacgaaaaaatgaaaaaaaaggaggctattagtacaaagctggttgaactgggacttcgtaaagagggggaagtatctggtaaagatatagcgcgttatcgtctatgggagcagcaggatgggatagatttatatacgggggaaaatattccagaagcggatgtgctgagtgggcaatatgatattgatcacattatcccattttcgctgatattggatgataccctaaataataaggtactgactggtatggggagcaatcgtcaggcaaaatccaataaagctcctagagaatatttatctgataaggctgaattggagtttataaagagagtaaatatcttactgaagaaaaaaataatctcaaagaaaaagtacaagtacttgatggtaaagaaccttcgtgacagtaaactgctggatgagtggaagtcaagaaatattaacgacaccagatatataagtcgttttttagtgaactatctaaataatatgttgctatttaacagcgataaaaagaaaaatgtatatgcaatcaatggtgccattacatccaaaatgcgaaaactgtggcttaataagcgaacctggggaactccggaaaagaacagggaaaataatttgcatcatgcagctgatgctatagttattgccaatcttactccagctgcagtggaactggccagtgataaccttaaactccagaatattttccgtcaaaatggcaagcgagtgacggaggaatatgataattatcttgataaggcagttcgcaagatggagaagtattatcacttaaatgaagaattggccaagaatctgctggtacgaaaggatcgtattccatccatggtaaggtcattgcgggaggaaacggataagagattggtggatacaagtcttgaggaattcaatatggttacaccagaagcattccgcaaaaatctagagcagtattataatgactctgattttgttgcttccatacagatgccgttggtatcctataagcagtccaagcggttttctggaagctttactaaggataatcctataaagaaaaaagataaagaagactcatcaagtgtaaaaatggactctttaggcaatgaaaatattttggatgccaaatcgtattactgtttggaggtgtattccacaaaagataataagacggctttgcgcggccttaggtatgttgattttaaattgaaaaacaaaaagatgtttatcaatgttcctaatccagataattatgataagcatattatgtatttgtttaagaatgattatattgtggtgtacaacaaaaaaggagaggaaagaattaaaggttattatacaggaataaaaaacatcaaagctaatagattttatttgataagtaacaatgatgcggtgcgaaaagattttacattatctaaagatgatactataaaaaaatatcacattgatattcttgggcaaattggtggtgaggtaaaatgttccgctccattcttgtcaataacggagaaagaataa
CasRfg.3蛋白经密码子优化的DNA编码序列如下所示(SEQ ID NO: 10):
atgaagagaaagatcggcatcggcctggacgtgggcatcggcagcgtgggcttcgccgtgctgagctacgacaaggtgtacgacgccagaatcgagcaggtgggcgtgagactgttcgacagcggcgaggagcccaagaccaaggtgagcaagaaccagggcagaagacagtacagagccggcagaagactgatcagaagaagataccacagaaaggagagagccaagagattcatcgagagaatcggcctgctgagcgccgacaagatcaaggagtggcaggaggtgaacggcaaccagaacatctactacgtgagattcagaggcctgagcgagaagctgaccccccaggagatcgccgactgcgtgatccacttctgcaaccacagaggctacagagagttctacgaggacgacgtggccgacgagaaggaggccggcaagatcaagaccgccctgagcagattcgacgagaagatggccgccggcaagtacgtgagcgtggccgacatgatcctgcacgacaacgagttcagcaccaacacccagttccccgacttccacaaccacaagggcgacgacgacgagaagtacttcctgatcaagagagccgccctgagagacgagctgagagccatcctgagaaagcagcaggagttctacgagcagctgaccgagcacaacatcgacttcctgtgcgacgacatcgtgttcgtgcagagagacttcgaggacggccccggcgacaagaccgacaagaagagaaagttcatgggcttcctggacagcatcggctgctgcatgttctacaaggaggaggtgagaggctacagaagcaccgtgatcgccgacatctacagcctggtgaacggcctgagcaagatgatgtacgtggacagcaccaccggcgagatcaccttcctgcccgaggccgccgacaagatcatcgacttcgccctgaagaacgccagcatcaccgagaaggacatcaaggagatcctgaagaagtacaacctgaccctgatcaaggccgagaagctggaggagaacatcccccagaccatcaagaccctgaagatcctgaagaagatcctggacgacagcggctacagctacgacgagctgatcaaggaggagcagttcgacttcgacagacccagcaagctgcacgagctgtgcagcctgctggccagcaacatcacccccaagagaagaagaaaggccctggagaaggccggctggaacaaggccctgcaggagcagaccagaagaatccacttcggcggcaccagcaacgtgtgctacagatacatgctggaggccatcgacgccttcagacacggcgagctgtacggcaacttccaggccagaagaaacaaggagcagctgaccgacgaggccgagaacaccgagaaggtgagactgctgccccccttcaccaaggagatggacgaggacgtggtgaagaacgtggtggtgttcaaggccatcaacgagacaagaaagatcatcaacgccctgatcggcaagtacggcagccccgcctacatcaacatcgaggtggccgacgagctgggccacagcatcgagacaagaagaaagatgaccaaggccaacaacgagaagatgaagaagaaggaggccatcagcaccaagctggtggagctgggcctgagaaaggagggcgaggtgagcggcaaggacatcgccagatacagactgtgggagcagcaggacggcatcgacctgtacaccggcgagaacatccccgaggccgacgtgctgagcggccagtacgacatcgaccacatcatccccttcagcctgatcctggacgacaccctgaacaacaaggtgctgaccggcatgggcagcaacagacaggccaagagcaacaaggcccccagagagtacctgagcgacaaggccgagctggagttcatcaagagagtgaacatcctgctgaagaagaagatcatcagcaagaagaagtacaagtacctgatggtgaagaacctgagagacagcaagctgctggacgagtggaagagcagaaacatcaacgacaccagatacatcagcagattcctggtgaactacctgaacaacatgctgctgttcaacagcgacaagaagaagaacgtgtacgccatcaacggcgccatcaccagcaagatgagaaagctgtggctgaacaagagaacctggggcacccccgagaagaacagagagaacaacctgcaccacgccgccgacgccatcgtgatcgccaacctgacccccgccgccgtggagctggccagcgacaacctgaagctgcagaacatcttcagacagaacggcaagagagtgaccgaggagtacgacaactacctggacaaggccgtgagaaagatggagaagtactaccacctgaacgaggagctggccaagaacctgctggtgagaaaggacagaatccccagcatggtgagaagcctgagagaggagacagacaagagactggtggacaccagcctggaggagttcaacatggtgacccccgaggccttcagaaagaacctggagcagtactacaacgacagcgacttcgtggccagcatccagatgcccctggtgagctacaagcagagcaagagattcagcggcagcttcaccaaggacaaccccatcaagaagaaggacaaggaggacagcagcagcgtgaagatggacagcctgggcaacgagaacatcctggacgccaagagctactactgcctggaggtgtacagcaccaaggacaacaagaccgccctgagaggcctgagatacgtggacttcaagctgaagaacaagaagatgttcatcaacgtgcccaaccccgacaactacgacaagcacatcatgtacctgttcaagaacgactacatcgtggtgtacaacaagaagggcgaggagagaatcaagggctactacaccggcatcaagaacatcaaggccaacagattctacctgatcagcaacaacgacgccgtgagaaaggacttcaccctgagcaaggacgacaccatcaagaagtaccacatcgacatcctgggccagatcggcggcgaggtgaagtgcagcgcccccttcctgagcatcaccgagaaggag
根据表1中细菌基因组序列,提示CasRfg.3蛋白对应的crRNA的DR序列、tracrRNA序列分别如下:
DR序列(SEQ ID NO: 11):
guuuuaguucuauguuggauauugauaaacugauac;
tracrRNA序列(SEQ ID NO: 12):
uugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc。
实施例2、CasRfg.3蛋白的制备
1、载体构建
pET28a载体质粒经BamHI和XhoI双酶切后,琼脂糖凝胶电泳切胶回收线性化的载体,将用常规方法制备得到的编码CasRfg.3蛋白的DNA序列通过同源重组的方式插入到载体pET28a的克隆区,目的是构建重组载体CasRfg.3-pET28a。反应液转化Stbl3感受态,涂布硫酸卡那霉素抗性的LB平板,37℃过夜培养后,挑取克隆测序鉴定。构建好的重组载体CasRfg.3-pET28a的序列如SEQ ID NO: 13。
序列正确的阳性克隆挑取单克隆过夜培养,提取质粒后转化表达菌株Rosetta(DE3),涂布硫酸卡那霉素抗性的LB平板,37℃过夜培养。
2、蛋白表达
挑取单克隆接种至5ml硫酸卡那霉素抗性的LB培养液,37℃过夜培养。
以1:100比例转接种500ml 硫酸卡那霉素抗性的LB培养液中,以220rpm的转速,37℃培养至OD 0.6,加IPTG至终浓度0.2mM,16℃诱导24h。
15ml PBS漂洗菌体后离心收集菌体,加裂解缓冲液超声破碎,10,000g离心30min获得含重组蛋白的上清液,上清经过0.45μm滤膜过滤后即可上柱纯化。
3、蛋白纯化
CasRfg.3重组蛋白氨基酸数目1135aa(其中CasRfg.3蛋白自身的氨基酸序列为1046aa),架构为His tag-NLS-CasRfg.3-SV40 NLS-nucleoplasmin NLS。以N端的6个His作为纯化标签,通过IMAC (Ni Sepharose 6 Fast Flow,CYTIVA)纯化,以及离子交换层析(cytiva HiTrapTM Q FF)和分子筛层析(cytiva SuperdexTM 200 Increase 10/300 GL)纯化CasRfg.3重组蛋白,纯化的重组蛋白经过SDS-PAGE电泳可见呈一条带。
实施例3、确定CasRfg.3蛋白PAM序列
本实施例中,将包含有特异指导序列的sgRNA(single guide RNA)以及实施例2纯化的CasRfg.3重组蛋白混合,对体外切割底物(包含间隔序列和7nt随机序列)进行切割,37℃孵育后纯化,建库,进行NGS测序、分析CasRfg.3的PAM序列,具体步骤如下:
A. CasRfg.3蛋白体外切割底物
CasRfg.3蛋白体外切割底物序列为(SEQ ID NO: 14):
ggagttcagacgtgtgctcttccgatctcagcacaaaaggaaactcaccctaactgtaaagtaattgtgtgttttgagactataaatatgcatgcgagaaaagccttgtttgccaccatgGAACGGCTCGGAGATCATCATTGCGNNNNNNNgtgagcaagggcgaggagctgttcaccggggtggtgcccatcctggtcgagctggacggcgacgtaaacggccacaagttcagcgtgtccggcagatcggaagagcacacgtctgaactcc
序列中N代表A、T、C、G任意一种。
使用常规的PCR扩增方法制备得到含上述序列的双链DNA,作为体外切割底物。
取切割底物至测序公司进行PCR-Free文库构建及NGS测序,针对7nt随机序列组成的PAM库进行复杂度和丰度的分析,结果如下:
A、T、G、C 4种碱基组成基本一致;同时7nt随机序列组成的PAM库包含不同组合数为4^7=16384种,100%被检测到。PAM库复杂度和丰度合格。
B. 与CasRfg.3联合的sgRNA的制备
在含有T7 RNA转录酶、四种三磷酸核糖核苷酸以及带T7启动子的DNA模板体系中37℃体外转录合成包含特异指导序列的sgRNA(CasRfg.3-sgRNA),转录产物用Ribo™RNAmax-T7体外转录试剂盒的纯化试剂进行纯化。sgRNA序列如下(SEQ ID NO: 15):
5’-GAACGGCUCGGAGAUCAUCAUUGCGguuuuaguucuauguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc-3’;
大写碱基即为sgRNA的特异指导序列。
C. NGS建库及PAM分析
配制包含CasRfg.3蛋白、sgRNA、体外切割底物和缓冲液的反应体系,37℃反应3h,75℃ 15 min)。如表2。
表2
切割后的片段通过连接反应将包含有生物素标记的接头Adapter1添加至缺口末端。添加生物素标记接头的切割产物与链霉亲和素标记的磁珠(Beads)进行特异结合,从而被特异性纯化,再通过PCR放大特异纯化的片段进行NGS测序。
NGS建库具体步骤如下:
a.向反应产物添加68.16ul SPRISelect Beads(Beckman COULTER,B23318) 混匀,室温放置5min,将产物移至磁力架吸附5min, 移取上清至新的1.5ml管; 再添加34.08ul SPRISelect Beads(Beckman COULTER,B23318) 混匀,室温放置5min,将产物移至磁力架吸附5min, 弃去上清,利用85%乙醇洗涤2次,室温放置10min 风干,添加50ul ddH2O洗脱。
b.按照表3体系进行产物补平以及加dA-tailing(NEB, E6053L), 37℃ 30min。
表3. Ca2切割产物添加dA-tailing
c.按照表4体系添加Adapter 1(上游引物:5’Biosg/gttgacatgctggattgagacttcctacactc tttccctacacgacgctcttccgatc*t(SEQ ID NO: 16)和下游引物:gatcggaagagcgtcgtgtagggaaaga gtgtaggaagtctcaatccagcatgtcaac(SEQ ID NO: 17)退火获得,20℃ 30min,16℃过夜反应。
表4. 添加Adapter 1反应体系
上述反应产物过夜反应后,利用SPRISelect Beads进行纯化。
d.利用链霉亲和素标记的磁珠 Dynabeads® M-280 Streptavidin(Invitrogen,11206D)进行产物纯化。
e.Recover PCR
设计表5的引物,按照表6体系以及表7的反应程序利用Q5® Hot Start High-Fidelty 2x Master Mix (NEB, M0494L)进行Recover PCR。
表5. Recover PCR引物
表6. Recover PCR反应体系
表7. Recover PCR反应程序
f.Recover PCR产物移至磁力架,吸附5min,将上清移至新的1.5ml离心管,取 3ulRecovery PCR 产物,添加148.5ul ddH2O稀释。
g.Index PCR
选用表8的引物,按照表9体系以及表10的反应程序进行Index PCR。
表8. Index PCR引物
表9. Index PCR反应体系
表10. Index PCR反应程序
h.Index PCR 产物添加0.7x SPRISelect Beads进行产物纯化,添加38ul ddH2O进行洗脱,利用Qubit进行浓度测定浓度为22.4ng/ul,符合送测要求,送NGS测序;
i.对NGS结果进行分析:通过NGS测序,参考文献(A compact Cas9 ortholog fromStaphylococcus Auricularis (SauriCas9) expands the DNA targeting scope. PLoSbiology, 2020,18(3), e3000686.)方法用WebLogo软件分析,得到如图2所示的CasRfg.3的PAM序列。
因此,CasRfg.3的PAM序列包括:5’-DDRGDNN-3’(D为A、G或T;R为A或G;N为A、C、G或T)。具体地,PAM序列包括:5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’。
CasRfg.3独特的PAM拓展了可选的靶序列范围。
实施例4、根据PAM分析结果选取人类基因组中靶核酸序列进行切割验证
根据上述实施例3确定的CasRfg.3蛋白PAM序列在人类基因组中选取与分析出的PAM序列一致的靶序列进行切割活性验证,具体步骤如下:
A、切割底物扩增
根据分析出的PAM序列,从人类基因组中选取PAM序列分别为TTGGTCT和GAGGTCG的两个不同的片段CasRfg.3-N2和CasRfg.3-N4进行切割测试。
1、片段CasRfg.3-N2和CasRfg.3-N4序列信息
>CasRfg.3-N2 序列(SEQ ID NO: 22):
gaatgggctatttctaagcacggcaggtaccgtcttccccttcccccgccaacacagctggcccaggacaagaaggtgcagagacaaacagggggcaccctgcctgtcctgctaggaactgcaaggcagcgtgccgcacacgctgcctgggccaatgccacccaggccaggagagggtttggggccagacaccagcccatacccaagggtcccaggggatgtggggagaaggggaatccaccttttccttccctcccacctcccaaATAACACACAGACAGCTCTGTTGGTCTgagaatgatggacatttagacactggcgccaggtttgcgcctgaccggcgccacgcaggggtgggcggagcaaagacacacaggtgggctacaggtgtcacacggcaccagccagggcccggggtggctggggtgaggatgggtgtttggccagtgaccaggagtcaggtcaagtccaggtggtcagtgccaggggctccaggaggggagggcagtgccataaccctcctggtgtccag
>CasRfg.3-N4 序列(SEQ ID NO: 23):
ggcactgtgccctccagattcctcagagcctggtgccaggtgcacctccccagccctctcagcccctgagctctgccaccctgcccgggcttctgcccttgggtcctggcctctcagggtctcctcagctctgcaaggaggggctgggagcaggtcccaggctagcagtgggctggaggcctcctgtgtggtctctacctgtccatgCCGAGGGGTCACCTCTGGGTGAGGTCGcacccacccccctcacggggctgctttgccagaaggtctgttcccctcatggcctctgctactctttacacttagttcttcccaggaagggcccggtggctgcagataatgtttcccatctgtggagccttcaagggctgggcccatgaggattctgctcccagcttgctcttcctctccagcctgcacccaccaggccccagaatcctgaggatggagctgctcctgtcccctgaggtggtctaaacctctggggaggcactgga
大写碱基区域对应靶序列;下划线碱基为PAM序列。
2、载体构建
扩增CasRfg.3-N2和CasRfg.3-N4序列片段,与pEASY®-Blunt Zero Cloning(全式金,CB501)载体进行连接,连接产物热激转化至大肠杆菌2T1感受态(易锦生物,CC007)。转化至2T1感受态的连接产物进行测序验证。
构建好的CasRfg.3-N2-Target质粒如图3和SEQ ID NO: 24;CasRfg.3-N4-Target质粒如图4和SEQ ID NO: 25。
构建好的CasRfg.3-N2-Target质粒和CasRfg.3-N4-Target质粒利用XmnI(NEB,R0194)进行酶切线性化,线性化体系如表11。
表11
按照上述体系37℃反应完成后利用Wizard® SV Gel and PCR Clean-Up System(Progema,A9282)进行产物纯化,并用Nanodrop测定浓度。
B、CasRfg.3-N2对应 sgRNA和CasRfg.3-N4对应sgRNA的体外转录
根据CasRfg.3-N2以及CasRfg.3-N4靶序列设计2个sgRNA并进行体外转录,CasRfg.3-N2和CasRfg.3-N4对应的sgRNA序列如下:
CasRfg.3-N2-sgRNA序列(SEQ ID NO: 26):
5’-AUAACACACAGACAGCUCUGguuuuaguucuauguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc-3’
CasRfg.3-N4-sgRNA序列(SEQ ID NO: 27):
5’-ccgaggggucaccucuggguguuuuaguucuauguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc-3’
大写字母为指导序列。
转录产物用Ribo™ RNAmax-T7 体外转录试剂盒提供的纯化试剂进行纯化,Nanodrop测定RNA浓度备用。
C、体外切割实验
按照表12和表13的切割体系配制反应体系,37℃切割,75℃灭活。
表12、CasRfg.3-N2体外切割反应体系
表13、CasRfg.3-N4体外切割反应体系
切割产物添加6uL上样缓冲液,取30 uL电泳检测,检查切割效果,电泳结果见图5,图6。结果显示,CasRfg.3蛋白具备gRNA指导的核酸酶活性,切割效率高。
将切割下的片段胶回收后测序,测序结果见图7,图8。可见具有切割活性,且可看出其切割位点。
实施例5、CasRfg.3蛋白切割稳定性实验
按照表14配制反应体系,37℃下重复测试切割效果。
表14、CasRfg.3-N2体外切割反应体系
75℃灭活后,产物添加6uL上样缓冲液,取30uL电泳检测,结果见图9,表明在多次实验中可稳定地裂解DNA。
实施例6、CasRfg.3蛋白不同温度切割效果
按照表15配制反应体系,分别于25℃、30℃、34.9℃、37℃、39.9℃、45.4℃、50℃、55℃切割相同时间;75 ℃灭活。
表15、CasRfg.3-N2体外切割反应体系
切割产物分别添加6uL上样缓冲液,取30uL电泳检测,检查切割效果,电泳图见图10。从25℃到55℃均检测到切割活性,且在约35℃-55℃时活性更高,在约50℃时达到最佳切割活性。
实施例7、sgRNA骨架序列的改造
前述实施例已验证通过连接CasRfg.3对应的天然DR序列和tracrRNA序列得到的单分子的sgRNA具有活性,其骨架序列为下述CasRfg.3-sgRNA-骨架。
>CasRfg.3-sgRNA-骨架(SEQ ID NO: 3,160nt;将天然DR序列和tracrRNA序列连接成sgRNA骨架;图11A):
5’-GUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUGCUUUGAGUAUUAAGCUGCUACAUCAUGUAGCAGC-3’
发明人对CasRfg.3-sgRNA-骨架的序列进行部分删除以及截短,从而获得了保留活性的、更短的、易于化学合成的sgRNA。具体设计的截短的骨架序列如下(SEQ ID NO: 4-9):
>tracSL2(SEQ ID NO: 4,126nt;删除茎环4和片段1;图11B):
5’-GUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’
>tracSL2-1(SEQ ID NO: 5,112nt;删除茎环4和片段1,缩短茎环1;图11C):
5’-GUUUUAGUUCUAUGUUGGAUAUUGAUAAAGAAAUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’
>tracSL2-2(SEQ ID NO: 6,114nt;删除茎环4和片段1,缩短茎环1;图11D):
5’-GUUUUAGUUCUAUGUUGGAUAUUCUGAUACGAAAUUGUCAGAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’
>tracSL2-1+2(SEQ ID NO: 7,100nt;删除茎环4和片段1,进一步缩短茎环1;图11E):
5’-GUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’
>trac1-05(SEQ ID NO: 8,108nt;图11F):
5’-GUUUUAGUUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’
>trac2-05(SEQ ID NO: 9,105nt;图11G):
5’-GUUUUAGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’
使用RNAfold预测了上述骨架序列的二级结构,如图11A-G所示。
将指导序列(5’-auaacacacagacagcucug-3’ (SEQ ID NO: 24))分别连接至上述骨架序列的5’端,得到sgRNA全长序列。体外转录得到这些全长sgRNA,采用与前述实施例类似的方法,分别与Cut Buffer、实施例2的CasRfg.3蛋白和实施例4制备的CasRfg.3-N2-Target线性化质粒混合后进行切割,电泳检测切割效果。
结果如图12所示,以CasRfg.3-sgRNA-骨架截短后的tracSL2、tracSL2-1、tracSL2-2、tracSL2-1+2为骨架组成的全长gRNA保留切割活性。
CasRfg.3-sgRNA-骨架中的茎环4和片段1是可删除片段;茎环1可缩短,例如其茎部分可被截短而不影响复合物的切割活性。
实施例8、不同的具体PAM的测试
CasRfg.3蛋白PAM为5’-DDRGDNN-3’,设计简并引物构建含CasRfg.3-N2对应间隔序列(spacer)及不同的具体PAM序列的切割底物,用于测试不同PAM情况下切割活性。
a. 切割底物PCR扩增
扩增引物如表16。
表16、扩增引物
将表中引物进行稀释至10 pmol/μl,备用;其中以Blunt-PR1+Ca2PAMs-PF2、
Ca2PAMs-PR2+Blunt-PF1这2组引物针对CasRfg.3-N2-Target质粒进行PCR扩增,分别获得片段F1和F2,两个片段通过Gibson反应克隆至pEASY-Blunt-Zero载体(全式金CB501-01),涂布Amp平板,然后挑取不同阳性克隆送测序,获得含CasRfg.3-N2对应间隔序列及具体PAM序列的不同克隆。
b. 不同PAM底物活性测试
上述不同PAM的质粒各取5ug利用XmnI线性化后75℃ 15min热失活XmnI,然后取5ul热失活产物作为切割底物,分别使用如下sgRNA进行切割实验:
>tracSL2-1+2-全长(其中小写字母为指导序列) (SEQ ID NO: 32)
auaacacacagacagcucugGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG
>CasRfg.3-sgRNA-全长(其中小写字母为指导序列) (SEQ ID NO: 33)
auaacacacagacagcucugGUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUGCUUUGAGUAUUAAGCUGCUACAUCAUGUAGCAGC
CasRfg.3-N2不同PAM体外切割反应体系如表17。
表 17
37℃反应,切割产物添加5ul Loading Buffer,取15ul电泳检测。
结果如图13A和图13B所示,CRISPR-CasRfg.3系统可识别多种PAM,包括表18所示。
表 18
5’-ataggct-3’ | 5’-agggtcg-3’ | 5’-aaggct-3’ | 5’-gaggtcc-3’ | 5’-ttgggct-3’ |
5’-tggggta-3’ | 5’-tgggggc-3’ | 5’-gggggga-3’ | 5’-agaggat-3’ | 5’-agggtcc-3’ |
5’-ataggga-3’ | 5’-gtagaat-3’ | 5’-ggggaag-3’ | 5’-taaggtt-3’ | 5’-tgggtag-3’ |
实施例9、指导序列长度对切割活性的影响
本发明人利用截短的gRNA骨架,构建指导序列20nt-24nt的sgRNA,进行切割活性测试。
体外转录得到含不同长度指导序列的sgRNA,序列如下:
>20nt 指导序列(SEQ ID NO: 34):
ataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG
>21nt 指导序列(SEQ ID NO: 35):
aataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG
>22nt 指导序列(SEQ ID NO: 36):
aaataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG
>23nt 指导序列(SEQ ID NO: 37):
caaataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG
>24nt 指导序列(SEQ ID NO: 38):
ccaaataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG
将上述sgRNA分别与Cut Buffer、实施例2表达的CasRfg.3蛋白和实施例4制备的CasRfg.3-N2-Target线性化质粒混合。37℃反应30min,取15ul切割产物,添加3ul LoadingBuffer混匀后电泳检测切割效果,切割产物电泳。
结果如图14所示,指导序列长度为20nt-24nt时,CasRfg.3均有切割活性,且在22nt时活性最强。
实施例10、NCBI公开的特定的相似蛋白未检出DNA切割活性
NCBI公开了相似蛋白(Reference Sequence: WP_085022725.1),注释为Cas9核酸酶,发明人将此蛋白命名为Ca9-89,其氨基酸序列为(SEQ ID NO: 39):
MKRKVGFGLDVGIGSVGFAVLSYDKVYDARIEQVGVRLFDSGEEVKNHKRASKNQGRRQYRSGRRLIRRRYHRKERAKRFIERIGLLSAAKIKEWQEVNGNQNIYSIRFRGLSEKLTPEEIADCVIHFCNHRGYREFYEDDVDEKEAGKIKTALFRFDEKMTEGKYVSVADMILHDKEFATDTQFPNFHNHKNDDEEKYFLIKRAALRDELRAILQKQQEYYKQLTDQNIAFLCDEIVFVQRDFEDGPGDKNDKNRKFMGFLDTIGCCMFYKEELRGFRSTVIADIYSLVNGLSQMMYVDSTTGEITFLPEAADDIIEFALKNASITEKDIKKILEKYNLTLIKAEKLEENIPQTIKTLKVLKKVLDASGYSYDELIQEEQFDFDKPSKLHELCNLLASNITPKRRRKALEKAGWNKDFQAQTKRIHFGGTSNVCYRYMLEAIDAFRHGELYGNFQARRKQEQLTDEAENTERVKLLPPFTKEMDEDVVKNVVVFKAINETRKIINALIGKYGSPAYINIEVADELGHSIETRRKMTKANNDNMKKKEAIGAKLVELGLRKEGEVSGKDIARYRLWEQQNGIDLYTGNNIPEADVLSGQYDVDHIIPFSLILDDTLNNKVLTGMGSNRQAKSNTAPREYLSDKAEAEFIKRVNVLLKKKISKKKYQYLMVKNLRDSKLLNEWKSRNINDTRYISRFLANYLNNTLIFNSDKKKNVYAINGAITSRMRKMWLNKKTWGNPEKNRENNLHHAADAIVIANLTPAAVELASDNLKLQNIFRQNGKRVTEEYENYLDRAVRKIEKYYHFNPELAKKLLVSKDRIPSMVRLLREETDKRLVDPSLEEFKMVTPESFRQNLEQYYNDPEFVASIQMPLVSYKQSKRFSGSFTKDKPIKKKEREDSSTVKIDSLGNENILDAKSYYCLEVYSTKDNKTALRGLRYVDFKLKDKKMFITVPNPENYGKHIMYLFKNDYIVVYNKKGEEKARGFYSSVKAITRDQLYLKDNNTNVDIIFTIKKDDTVKKYHIDILGQIGGEIKCSAPFLSITEKE。
NCBI同时公开了该蛋白来源细菌的基因组序列,发明人据此分析其DR序列为(SEQID NO: 40):
5’-GTTTTAGTTCTATGTTGGATATTGATAAACTGATA-3’;
tracrRNA序列为(SEQ ID NO: 41):
5’-TTGTCAGTTTATCAATATCCAACAATAGTTCTAAGATAAGGCCTTATGTGCCGTAGGGTATAGCGGTATCCCGAACAATTCCGCTCCTTTGTTCATTAAGCTGCTACATTATGTAGCGGCTTTT-3’。
常规方法制备得到质粒载体pXC09-89-GFPgRNA(SEQ ID NO: 42),其含有Ca9-89重组蛋白编码序列以及对应sgRNA(使用本领域常用的GAAA连接序列将DR序列和tracrRNA序列连接成为sgRNA骨架)编码序列。质粒图谱如图16所示。
将pXC09-89-GFPgRNA质粒利用Lip2000转染293T细胞,转染48h后利用Western及IP细胞裂解液(碧云天P0013)进行裂解,离心5min后取上清,0.45μm滤膜过滤,通过heparin柱(cytiva HiTrapTM Heparin HP)纯化,然后离子交换层析(cytiva HiTrapTM Q FF)和分子筛层析(cytiva SuperdexTM 200 Increase 10/300 GL)纯化,纯化的Ca9-89重组蛋白经过SDS-PAGE电泳可见呈一条带。
通过体外转录获得Ca9-89对应的sgRNA。
>Ca9-89sgRNA序列(SEQ ID NO: 43):
GAACGGCUCGGAGAUCAUCAUUGCGGUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUAGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUCCUUUGUUCAUUAAGCUGCUACAUUAUGUAGCGGC
使用实施例3的方法,将上述Ca9-89重组蛋白与sgRNA、10xCut Buffer以及实施例3的体外切割底物一起进行体外切割反应。37℃反应3h;75℃ 15 min。采用与实施例3相同的方法,将假定的切割后的片段通过连接反应将包含有生物素标记的接头Adapter1添加至缺口末端,添加生物素标记接头的假定的切割产物与链霉亲和素标记的磁珠(Beads)进行特异结合,从而被特异性纯化,再通过PCR放大特异纯化的片段,经测定浓度仅为0.355ng/ul,无法满足NGS测序要求,这也说明Ca9-89蛋白无DNA切割活性或活性很弱。因此,本发明的CasRfg.3蛋白取得了预料不到的技术效果。
实施例11、Ca2融合蛋白的单碱基编辑活性检测
A. Ca2蛋白单碱基编辑系统克隆构建
大肠杆菌BL21菌株中包含有β-半乳糖苷酶基因,通过NCBI检索获得BL21-Gold(DE3)pLysS AG菌株的基因组序列,GenBank号CP001665.1,经过序列分析查找获得β-半乳糖苷酶基因ECBD_3313序列,设计符合Ca2蛋白PAM序列的靶向该基因的sgRNA。同时基于BL21(DE3)pLysS感受态细胞(上海唯地生物,CAT#: EC1003),通过PCR扩增,测序验证ECBD_3313序列的正确性,PCR验证引物、最终验证的ECBD_3313序列、设计的sgRNA序列如下:
PCR验证引物序列:
引物LacZKO-PF1:ACGCCATCAAAAATAATTCGCGTC(SEQ ID NO: 44)
引物LacZKO-PR1:CCGACTGGAAAGCGGGCAGTG(SEQ ID NO: 45)
PCR扩增后,测序得到的ECBD_3313序列:
>ECBD_3313(SEQ ID NO: 46):
atgaccatgattacggattcactggccgtcgttttacaacgtcgtgactgggaaaaccctggcgttacccaacttaatcgccttgcagcacatccccctttcgccagctggcgtaatagcgaagaggcccgcaccgatcgcccttcccaacagttgcgcagcctgaatggcgaatggcgctttgcctggtttccggcaccagaagcggtgccggaaagctggctggagtgcgatcttcctgaggccgatactgtcgtcgtcccctcaaactggcagatgcacggttacgatgcgcccatctacaccaacgtgacctatcccattacggtcaatccgccgtttgttcccacggagaatccgacgggttgttactcgctcacatttaatgttgatgaaagctggctacaggaaggccagacgcgaattatttttgatggcgt
sgRNA序列(SEQ ID NO: 47):
5’-uauuacgccagcuggcgaaaGUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUGCUUUGAGUAUUAAGCUGCUACAUCAUGUAGCAGC-3’
(其中uauuacgccagcuggcgaaa(SEQ ID NO: 48)为指导序列,指导序列在ECBD_3313中紧邻的PAM序列为5’-gggggat-3’)
在Ca2蛋白的N端和C端分别融合脱氨酶(APOBEC-1 Domain)以及尿嘧啶DNA糖基化酶抑制剂(UGI Domain),得到APOBEC-1-Ca2-UGI融合蛋白(SEQ ID NO: 49)。
利用分子生物学方法构建上述APOBEC-1-Ca2-UGI融合蛋白针对大肠杆菌β-半乳糖苷酶基因的单碱基编辑载体,获得质粒CBE-Ca2-LacZgRNA02(SEQ ID NO: 50),用lacUV5 promoter驱动融合蛋白表达,同时利用J23119 promoter驱动sgRNA表达。
B. 单碱基编辑检测
CBE-Ca2-LacZgRNA02质粒热击转化BL21(DE3)pLysS感受态细胞(上海唯地生物,CAT#: EC1003),热击转化后添加无抗性的LB培养基,孵育培养2h,涂布Amp平板,过夜培养后挑取单克隆(菌斑1和菌斑2)接种至包含浓度为100μg/ml氨苄青霉素的LB培养基中培养4h,利用引物引物LacZKO-PF1和引物LacZKO-PR1以及高保真的PCR酶(易锦生物UltraHiPFTMDNA Polymerase Kit,CAT#: PC019)对培养的菌液进行PCR扩增,将PCR产物送至测序公司进行一代测序(图17A),针对sgRNA靶点分析C突变为T的情况,分析Ca2融合蛋白的单碱基编辑活性。
上述测序结果显示Ca2融合蛋白可以将sgRNA靶点中的C突变为T,导致测序峰图中出现A+G的套峰,证明了Ca2融合蛋白的单碱基编辑活性。在菌斑1和菌斑2中G→A的突变效率较高,分别可达59%、63%,如图17B和图17C,其中图17B对应菌斑1,图17C对应菌斑2。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。同时,在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。
序列表
<110> 广州瑞风生物科技有限公司
浙江迅识生物科技有限公司
<120> 新型Cas效应蛋白、基因编辑系统及用途
<130> 219584
<160> 50
<170> SIPOSequenceListing 1.0
<210> 1
<211> 1046
<212> PRT
<213> 厚壁菌门(firmicutes)
<400> 1
Met Lys Arg Lys Ile Gly Ile Gly Leu Asp Val Gly Ile Gly Ser Val
1 5 10 15
Gly Phe Ala Val Leu Ser Tyr Asp Lys Val Tyr Asp Ala Arg Ile Glu
20 25 30
Gln Val Gly Val Arg Leu Phe Asp Ser Gly Glu Glu Pro Lys Thr Lys
35 40 45
Val Ser Lys Asn Gln Gly Arg Arg Gln Tyr Arg Ala Gly Arg Arg Leu
50 55 60
Ile Arg Arg Arg Tyr His Arg Lys Glu Arg Ala Lys Arg Phe Ile Glu
65 70 75 80
Arg Ile Gly Leu Leu Ser Ala Asp Lys Ile Lys Glu Trp Gln Glu Val
85 90 95
Asn Gly Asn Gln Asn Ile Tyr Tyr Val Arg Phe Arg Gly Leu Ser Glu
100 105 110
Lys Leu Thr Pro Gln Glu Ile Ala Asp Cys Val Ile His Phe Cys Asn
115 120 125
His Arg Gly Tyr Arg Glu Phe Tyr Glu Asp Asp Val Ala Asp Glu Lys
130 135 140
Glu Ala Gly Lys Ile Lys Thr Ala Leu Ser Arg Phe Asp Glu Lys Met
145 150 155 160
Ala Ala Gly Lys Tyr Val Ser Val Ala Asp Met Ile Leu His Asp Asn
165 170 175
Glu Phe Ser Thr Asn Thr Gln Phe Pro Asp Phe His Asn His Lys Gly
180 185 190
Asp Asp Asp Glu Lys Tyr Phe Leu Ile Lys Arg Ala Ala Leu Arg Asp
195 200 205
Glu Leu Arg Ala Ile Leu Arg Lys Gln Gln Glu Phe Tyr Glu Gln Leu
210 215 220
Thr Glu His Asn Ile Asp Phe Leu Cys Asp Asp Ile Val Phe Val Gln
225 230 235 240
Arg Asp Phe Glu Asp Gly Pro Gly Asp Lys Thr Asp Lys Lys Arg Lys
245 250 255
Phe Met Gly Phe Leu Asp Ser Ile Gly Cys Cys Met Phe Tyr Lys Glu
260 265 270
Glu Val Arg Gly Tyr Arg Ser Thr Val Ile Ala Asp Ile Tyr Ser Leu
275 280 285
Val Asn Gly Leu Ser Lys Met Met Tyr Val Asp Ser Thr Thr Gly Glu
290 295 300
Ile Thr Phe Leu Pro Glu Ala Ala Asp Lys Ile Ile Asp Phe Ala Leu
305 310 315 320
Lys Asn Ala Ser Ile Thr Glu Lys Asp Ile Lys Glu Ile Leu Lys Lys
325 330 335
Tyr Asn Leu Thr Leu Ile Lys Ala Glu Lys Leu Glu Glu Asn Ile Pro
340 345 350
Gln Thr Ile Lys Thr Leu Lys Ile Leu Lys Lys Ile Leu Asp Asp Ser
355 360 365
Gly Tyr Ser Tyr Asp Glu Leu Ile Lys Glu Glu Gln Phe Asp Phe Asp
370 375 380
Arg Pro Ser Lys Leu His Glu Leu Cys Ser Leu Leu Ala Ser Asn Ile
385 390 395 400
Thr Pro Lys Arg Arg Arg Lys Ala Leu Glu Lys Ala Gly Trp Asn Lys
405 410 415
Ala Leu Gln Glu Gln Thr Arg Arg Ile His Phe Gly Gly Thr Ser Asn
420 425 430
Val Cys Tyr Arg Tyr Met Leu Glu Ala Ile Asp Ala Phe Arg His Gly
435 440 445
Glu Leu Tyr Gly Asn Phe Gln Ala Arg Arg Asn Lys Glu Gln Leu Thr
450 455 460
Asp Glu Ala Glu Asn Thr Glu Lys Val Arg Leu Leu Pro Pro Phe Thr
465 470 475 480
Lys Glu Met Asp Glu Asp Val Val Lys Asn Val Val Val Phe Lys Ala
485 490 495
Ile Asn Glu Thr Arg Lys Ile Ile Asn Ala Leu Ile Gly Lys Tyr Gly
500 505 510
Ser Pro Ala Tyr Ile Asn Ile Glu Val Ala Asp Glu Leu Gly His Ser
515 520 525
Ile Glu Thr Arg Arg Lys Met Thr Lys Ala Asn Asn Glu Lys Met Lys
530 535 540
Lys Lys Glu Ala Ile Ser Thr Lys Leu Val Glu Leu Gly Leu Arg Lys
545 550 555 560
Glu Gly Glu Val Ser Gly Lys Asp Ile Ala Arg Tyr Arg Leu Trp Glu
565 570 575
Gln Gln Asp Gly Ile Asp Leu Tyr Thr Gly Glu Asn Ile Pro Glu Ala
580 585 590
Asp Val Leu Ser Gly Gln Tyr Asp Ile Asp His Ile Ile Pro Phe Ser
595 600 605
Leu Ile Leu Asp Asp Thr Leu Asn Asn Lys Val Leu Thr Gly Met Gly
610 615 620
Ser Asn Arg Gln Ala Lys Ser Asn Lys Ala Pro Arg Glu Tyr Leu Ser
625 630 635 640
Asp Lys Ala Glu Leu Glu Phe Ile Lys Arg Val Asn Ile Leu Leu Lys
645 650 655
Lys Lys Ile Ile Ser Lys Lys Lys Tyr Lys Tyr Leu Met Val Lys Asn
660 665 670
Leu Arg Asp Ser Lys Leu Leu Asp Glu Trp Lys Ser Arg Asn Ile Asn
675 680 685
Asp Thr Arg Tyr Ile Ser Arg Phe Leu Val Asn Tyr Leu Asn Asn Met
690 695 700
Leu Leu Phe Asn Ser Asp Lys Lys Lys Asn Val Tyr Ala Ile Asn Gly
705 710 715 720
Ala Ile Thr Ser Lys Met Arg Lys Leu Trp Leu Asn Lys Arg Thr Trp
725 730 735
Gly Thr Pro Glu Lys Asn Arg Glu Asn Asn Leu His His Ala Ala Asp
740 745 750
Ala Ile Val Ile Ala Asn Leu Thr Pro Ala Ala Val Glu Leu Ala Ser
755 760 765
Asp Asn Leu Lys Leu Gln Asn Ile Phe Arg Gln Asn Gly Lys Arg Val
770 775 780
Thr Glu Glu Tyr Asp Asn Tyr Leu Asp Lys Ala Val Arg Lys Met Glu
785 790 795 800
Lys Tyr Tyr His Leu Asn Glu Glu Leu Ala Lys Asn Leu Leu Val Arg
805 810 815
Lys Asp Arg Ile Pro Ser Met Val Arg Ser Leu Arg Glu Glu Thr Asp
820 825 830
Lys Arg Leu Val Asp Thr Ser Leu Glu Glu Phe Asn Met Val Thr Pro
835 840 845
Glu Ala Phe Arg Lys Asn Leu Glu Gln Tyr Tyr Asn Asp Ser Asp Phe
850 855 860
Val Ala Ser Ile Gln Met Pro Leu Val Ser Tyr Lys Gln Ser Lys Arg
865 870 875 880
Phe Ser Gly Ser Phe Thr Lys Asp Asn Pro Ile Lys Lys Lys Asp Lys
885 890 895
Glu Asp Ser Ser Ser Val Lys Met Asp Ser Leu Gly Asn Glu Asn Ile
900 905 910
Leu Asp Ala Lys Ser Tyr Tyr Cys Leu Glu Val Tyr Ser Thr Lys Asp
915 920 925
Asn Lys Thr Ala Leu Arg Gly Leu Arg Tyr Val Asp Phe Lys Leu Lys
930 935 940
Asn Lys Lys Met Phe Ile Asn Val Pro Asn Pro Asp Asn Tyr Asp Lys
945 950 955 960
His Ile Met Tyr Leu Phe Lys Asn Asp Tyr Ile Val Val Tyr Asn Lys
965 970 975
Lys Gly Glu Glu Arg Ile Lys Gly Tyr Tyr Thr Gly Ile Lys Asn Ile
980 985 990
Lys Ala Asn Arg Phe Tyr Leu Ile Ser Asn Asn Asp Ala Val Arg Lys
995 1000 1005
Asp Phe Thr Leu Ser Lys Asp Asp Thr Ile Lys Lys Tyr His Ile Asp
1010 1015 1020
Ile Leu Gly Gln Ile Gly Gly Glu Val Lys Cys Ser Ala Pro Phe Leu
1025 1030 1035 1040
Ser Ile Thr Glu Lys Glu
1045
<210> 2
<211> 3141
<212> DNA
<213> 厚壁菌门(firmicutes)
<400> 2
atgaaaagaa aaattggaat cgggttggat gttggtatag gttctgtagg ttttgctgta 60
ttgtcgtatg ataaggtata tgatgcccgt atcgaacagg taggggtccg gctttttgat 120
tctggggaag aacccaaaac aaaagtcagt aagaaccagg ggagacggca atatagggct 180
ggtcgtagat tgattcggcg tagataccat cgtaaagagc gggcaaagag atttattgag 240
cggataggtt tattaagtgc ggacaaaatt aaagaatggc aggaagtaaa tggcaatcag 300
aatatttact atgtgagatt taggggattg tcggaaaagc tcaccccaca agaaattgcc 360
gattgcgtta tccatttttg caaccataga ggttatcgtg aattctatga agatgatgtt 420
gcggatgaaa aggaagctgg caagataaag accgccctat ccagatttga tgaaaaaatg 480
gcagctggta agtatgtatc cgttgccgat atgattttgc atgataatga attttctaca 540
aacacccagt ttccagattt ccataatcat aaaggtgatg acgacgaaaa atattttctt 600
attaaacggg cagcgttaag ggatgaactt agggcaatac tccggaagca acaggaattc 660
tatgaacagt tgacggaaca taatattgat ttcttatgtg acgacatagt ttttgttcag 720
cgggattttg aggatggacc cggggataaa actgataaaa agcgtaagtt tatgggtttt 780
ttggatagca taggctgctg tatgttttat aaggaagaag ttagaggcta taggtccaca 840
gtaattgcag atatttattc cttggtaaac ggtttgtcca agatgatgta tgttgacagc 900
accactggtg aaataacatt tttaccggaa gctgctgaca aaattattga ttttgcccta 960
aaaaatgcat ccattactga aaaagatatc aaagaaatac tgaagaaata caatttgacc 1020
cttataaagg ctgaaaagct agaggaaaac ataccgcaga ctataaagac tctgaagata 1080
ttgaaaaaga tattggatga tagtgggtat agttatgatg aattgatcaa ggaagaacaa 1140
tttgattttg ataggccatc caaactccat gaattatgta gtttgttagc cagcaatatt 1200
accccaaaac gcagaagaaa agcattggaa aaagctggct ggaataaagc attgcaagaa 1260
caaaccagga gaatacactt tggtggaaca tcaaatgtat gctatcgcta catgctagaa 1320
gctattgatg ccttcagaca tggtgaatta tatggtaatt tccaagcccg acgaaataag 1380
gaacagctta cagatgaagc agaaaatacg gagaaggtaa gattattacc accgttcaca 1440
aaagaaatgg atgaagatgt ggtaaagaat gtagtggttt tcaaggcaat caatgaaacc 1500
cgcaagataa tcaatgccct tataggcaag tacggttcgc cggcatatat caatattgag 1560
gtggctgatg aactggggca cagtattgaa accaggcgga aaatgaccaa agccaacaac 1620
gaaaaaatga aaaaaaagga ggctattagt acaaagctgg ttgaactggg acttcgtaaa 1680
gagggggaag tatctggtaa agatatagcg cgttatcgtc tatgggagca gcaggatggg 1740
atagatttat atacggggga aaatattcca gaagcggatg tgctgagtgg gcaatatgat 1800
attgatcaca ttatcccatt ttcgctgata ttggatgata ccctaaataa taaggtactg 1860
actggtatgg ggagcaatcg tcaggcaaaa tccaataaag ctcctagaga atatttatct 1920
gataaggctg aattggagtt tataaagaga gtaaatatct tactgaagaa aaaaataatc 1980
tcaaagaaaa agtacaagta cttgatggta aagaaccttc gtgacagtaa actgctggat 2040
gagtggaagt caagaaatat taacgacacc agatatataa gtcgtttttt agtgaactat 2100
ctaaataata tgttgctatt taacagcgat aaaaagaaaa atgtatatgc aatcaatggt 2160
gccattacat ccaaaatgcg aaaactgtgg cttaataagc gaacctgggg aactccggaa 2220
aagaacaggg aaaataattt gcatcatgca gctgatgcta tagttattgc caatcttact 2280
ccagctgcag tggaactggc cagtgataac cttaaactcc agaatatttt ccgtcaaaat 2340
ggcaagcgag tgacggagga atatgataat tatcttgata aggcagttcg caagatggag 2400
aagtattatc acttaaatga agaattggcc aagaatctgc tggtacgaaa ggatcgtatt 2460
ccatccatgg taaggtcatt gcgggaggaa acggataaga gattggtgga tacaagtctt 2520
gaggaattca atatggttac accagaagca ttccgcaaaa atctagagca gtattataat 2580
gactctgatt ttgttgcttc catacagatg ccgttggtat cctataagca gtccaagcgg 2640
ttttctggaa gctttactaa ggataatcct ataaagaaaa aagataaaga agactcatca 2700
agtgtaaaaa tggactcttt aggcaatgaa aatattttgg atgccaaatc gtattactgt 2760
ttggaggtgt attccacaaa agataataag acggctttgc gcggccttag gtatgttgat 2820
tttaaattga aaaacaaaaa gatgtttatc aatgttccta atccagataa ttatgataag 2880
catattatgt atttgtttaa gaatgattat attgtggtgt acaacaaaaa aggagaggaa 2940
agaattaaag gttattatac aggaataaaa aacatcaaag ctaatagatt ttatttgata 3000
agtaacaatg atgcggtgcg aaaagatttt acattatcta aagatgatac tataaaaaaa 3060
tatcacattg atattcttgg gcaaattggt ggtgaggtaa aatgttccgc tccattcttg 3120
tcaataacgg agaaagaata a 3141
<210> 3
<211> 160
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(160)
<223> sgRNA骨架
<400> 3
guuuuaguuc uauguuggau auugauaaac ugauacgaaa uugucaguuu aucaauaucc 60
aacaauaguu cuaagauaag gccuuaugug ccguagggua uagcgguauc ccgaacaauu 120
ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 160
<210> 4
<211> 126
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(126)
<223> 截短的骨架序列
<400> 4
guuuuaguuc uauguuggau auugauaaac ugauacgaaa uugucaguuu aucaauaucc 60
aacaauaguu cuaagauaag gccuuaugug ccguagggua uagcgguauc ccgaacaauu 120
ccgcug 126
<210> 5
<211> 112
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> allele
<222> (1)..(112)
<223> 截短的骨架序列
<400> 5
guuuuaguuc uauguuggau auugauaaag aaauuuauca auauccaaca auaguucuaa 60
gauaaggccu uaugugccgu aggguauagc gguaucccga acaauuccgc ug 112
<210> 6
<211> 114
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(114)
<223> 截短的骨架序列
<400> 6
guuuuaguuc uauguuggau auucugauac gaaauuguca gaauauccaa caauaguucu 60
aagauaaggc cuuaugugcc guaggguaua gcgguauccc gaacaauucc gcug 114
<210> 7
<211> 100
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(100)
<223> 截短的骨架序列
<400> 7
guuuuaguuc uauguuggau auugaaaaau auccaacaau aguucuaaga uaaggccuua 60
ugugccguag gguauagcgg uaucccgaac aauuccgcug 100
<210> 8
<211> 108
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(108)
<223> 截短的骨架序列
<400> 8
guuuuaguug uuggauauug auaaacugau acgaaauugu caguuuauca auauccaaca 60
aggccuuaug ugccguaggg uauagcggua ucccgaacaa uuccgcug 108
<210> 9
<211> 105
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(105)
<223> guuuuaguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcug
<400> 9
guuuuaguug gauauugaua aacugauacg aaauugucag uuuaucaaua uccaacaagg 60
ccuuaugugc cguaggguau agcgguaucc cgaacaauuc cgcug 105
<210> 10
<211> 3138
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(3138)
<223> CasRfg.3蛋白经密码子优化的DNA编码序列
<400> 10
atgaagagaa agatcggcat cggcctggac gtgggcatcg gcagcgtggg cttcgccgtg 60
ctgagctacg acaaggtgta cgacgccaga atcgagcagg tgggcgtgag actgttcgac 120
agcggcgagg agcccaagac caaggtgagc aagaaccagg gcagaagaca gtacagagcc 180
ggcagaagac tgatcagaag aagataccac agaaaggaga gagccaagag attcatcgag 240
agaatcggcc tgctgagcgc cgacaagatc aaggagtggc aggaggtgaa cggcaaccag 300
aacatctact acgtgagatt cagaggcctg agcgagaagc tgacccccca ggagatcgcc 360
gactgcgtga tccacttctg caaccacaga ggctacagag agttctacga ggacgacgtg 420
gccgacgaga aggaggccgg caagatcaag accgccctga gcagattcga cgagaagatg 480
gccgccggca agtacgtgag cgtggccgac atgatcctgc acgacaacga gttcagcacc 540
aacacccagt tccccgactt ccacaaccac aagggcgacg acgacgagaa gtacttcctg 600
atcaagagag ccgccctgag agacgagctg agagccatcc tgagaaagca gcaggagttc 660
tacgagcagc tgaccgagca caacatcgac ttcctgtgcg acgacatcgt gttcgtgcag 720
agagacttcg aggacggccc cggcgacaag accgacaaga agagaaagtt catgggcttc 780
ctggacagca tcggctgctg catgttctac aaggaggagg tgagaggcta cagaagcacc 840
gtgatcgccg acatctacag cctggtgaac ggcctgagca agatgatgta cgtggacagc 900
accaccggcg agatcacctt cctgcccgag gccgccgaca agatcatcga cttcgccctg 960
aagaacgcca gcatcaccga gaaggacatc aaggagatcc tgaagaagta caacctgacc 1020
ctgatcaagg ccgagaagct ggaggagaac atcccccaga ccatcaagac cctgaagatc 1080
ctgaagaaga tcctggacga cagcggctac agctacgacg agctgatcaa ggaggagcag 1140
ttcgacttcg acagacccag caagctgcac gagctgtgca gcctgctggc cagcaacatc 1200
acccccaaga gaagaagaaa ggccctggag aaggccggct ggaacaaggc cctgcaggag 1260
cagaccagaa gaatccactt cggcggcacc agcaacgtgt gctacagata catgctggag 1320
gccatcgacg ccttcagaca cggcgagctg tacggcaact tccaggccag aagaaacaag 1380
gagcagctga ccgacgaggc cgagaacacc gagaaggtga gactgctgcc ccccttcacc 1440
aaggagatgg acgaggacgt ggtgaagaac gtggtggtgt tcaaggccat caacgagaca 1500
agaaagatca tcaacgccct gatcggcaag tacggcagcc ccgcctacat caacatcgag 1560
gtggccgacg agctgggcca cagcatcgag acaagaagaa agatgaccaa ggccaacaac 1620
gagaagatga agaagaagga ggccatcagc accaagctgg tggagctggg cctgagaaag 1680
gagggcgagg tgagcggcaa ggacatcgcc agatacagac tgtgggagca gcaggacggc 1740
atcgacctgt acaccggcga gaacatcccc gaggccgacg tgctgagcgg ccagtacgac 1800
atcgaccaca tcatcccctt cagcctgatc ctggacgaca ccctgaacaa caaggtgctg 1860
accggcatgg gcagcaacag acaggccaag agcaacaagg cccccagaga gtacctgagc 1920
gacaaggccg agctggagtt catcaagaga gtgaacatcc tgctgaagaa gaagatcatc 1980
agcaagaaga agtacaagta cctgatggtg aagaacctga gagacagcaa gctgctggac 2040
gagtggaaga gcagaaacat caacgacacc agatacatca gcagattcct ggtgaactac 2100
ctgaacaaca tgctgctgtt caacagcgac aagaagaaga acgtgtacgc catcaacggc 2160
gccatcacca gcaagatgag aaagctgtgg ctgaacaaga gaacctgggg cacccccgag 2220
aagaacagag agaacaacct gcaccacgcc gccgacgcca tcgtgatcgc caacctgacc 2280
cccgccgccg tggagctggc cagcgacaac ctgaagctgc agaacatctt cagacagaac 2340
ggcaagagag tgaccgagga gtacgacaac tacctggaca aggccgtgag aaagatggag 2400
aagtactacc acctgaacga ggagctggcc aagaacctgc tggtgagaaa ggacagaatc 2460
cccagcatgg tgagaagcct gagagaggag acagacaaga gactggtgga caccagcctg 2520
gaggagttca acatggtgac ccccgaggcc ttcagaaaga acctggagca gtactacaac 2580
gacagcgact tcgtggccag catccagatg cccctggtga gctacaagca gagcaagaga 2640
ttcagcggca gcttcaccaa ggacaacccc atcaagaaga aggacaagga ggacagcagc 2700
agcgtgaaga tggacagcct gggcaacgag aacatcctgg acgccaagag ctactactgc 2760
ctggaggtgt acagcaccaa ggacaacaag accgccctga gaggcctgag atacgtggac 2820
ttcaagctga agaacaagaa gatgttcatc aacgtgccca accccgacaa ctacgacaag 2880
cacatcatgt acctgttcaa gaacgactac atcgtggtgt acaacaagaa gggcgaggag 2940
agaatcaagg gctactacac cggcatcaag aacatcaagg ccaacagatt ctacctgatc 3000
agcaacaacg acgccgtgag aaaggacttc accctgagca aggacgacac catcaagaag 3060
taccacatcg acatcctggg ccagatcggc ggcgaggtga agtgcagcgc ccccttcctg 3120
agcatcaccg agaaggag 3138
<210> 11
<211> 36
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(36)
<223> DR序列
<400> 11
guuuuaguuc uauguuggau auugauaaac ugauac 36
<210> 12
<211> 120
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(120)
<223> tracrRNA序列
<400> 12
uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 60
uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 120
<210> 13
<211> 8641
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(8641)
<223> CasRfg.3-pET28a载体序列
<400> 13
tggcgaatgg gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg tggttacgcg 60
cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt tcttcccttc 120
ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc tccctttagg 180
gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg gtgatggttc 240
acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg agtccacgtt 300
ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct cggtctattc 360
ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg agctgattta 420
acaaaaattt aacgcgaatt ttaacaaaat attaacgttt acaatttcag gtggcacttt 480
tcggggaaat gtgcgcggaa cccctatttg tttatttttc taaatacatt caaatatgta 540
tccgctcatg aattaattct tagaaaaact catcgagcat caaatgaaac tgcaatttat 600
tcatatcagg attatcaata ccatattttt gaaaaagccg tttctgtaat gaaggagaaa 660
actcaccgag gcagttccat aggatggcaa gatcctggta tcggtctgcg attccgactc 720
gtccaacatc aatacaacct attaatttcc cctcgtcaaa aataaggtta tcaagtgaga 780
aatcaccatg agtgacgact gaatccggtg agaatggcaa aagtttatgc atttctttcc 840
agacttgttc aacaggccag ccattacgct cgtcatcaaa atcactcgca tcaaccaaac 900
cgttattcat tcgtgattgc gcctgagcga gacgaaatac gcgatcgctg ttaaaaggac 960
aattacaaac aggaatcgaa tgcaaccggc gcaggaacac tgccagcgca tcaacaatat 1020
tttcacctga atcaggatat tcttctaata cctggaatgc tgttttcccg gggatcgcag 1080
tggtgagtaa ccatgcatca tcaggagtac ggataaaatg cttgatggtc ggaagaggca 1140
taaattccgt cagccagttt agtctgacca tctcatctgt aacatcattg gcaacgctac 1200
ctttgccatg tttcagaaac aactctggcg catcgggctt cccatacaat cgatagattg 1260
tcgcacctga ttgcccgaca ttatcgcgag cccatttata cccatataaa tcagcatcca 1320
tgttggaatt taatcgcggc ctagagcaag acgtttcccg ttgaatatgg ctcataacac 1380
cccttgtatt actgtttatg taagcagaca gttttattgt tcatgaccaa aatcccttaa 1440
cgtgagtttt cgttccactg agcgtcagac cccgtagaaa agatcaaagg atcttcttga 1500
gatccttttt ttctgcgcgt aatctgctgc ttgcaaacaa aaaaaccacc gctaccagcg 1560
gtggtttgtt tgccggatca agagctacca actctttttc cgaaggtaac tggcttcagc 1620
agagcgcaga taccaaatac tgtccttcta gtgtagccgt agttaggcca ccacttcaag 1680
aactctgtag caccgcctac atacctcgct ctgctaatcc tgttaccagt ggctgctgcc 1740
agtggcgata agtcgtgtct taccgggttg gactcaagac gatagttacc ggataaggcg 1800
cagcggtcgg gctgaacggg gggttcgtgc acacagccca gcttggagcg aacgacctac 1860
accgaactga gatacctaca gcgtgagcta tgagaaagcg ccacgcttcc cgaagggaga 1920
aaggcggaca ggtatccggt aagcggcagg gtcggaacag gagagcgcac gagggagctt 1980
ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacct ctgacttgag 2040
cgtcgatttt tgtgatgctc gtcagggggg cggagcctat ggaaaaacgc cagcaacgcg 2100
gcctttttac ggttcctggc cttttgctgg ccttttgctc acatgttctt tcctgcgtta 2160
tcccctgatt ctgtggataa ccgtattacc gcctttgagt gagctgatac cgctcgccgc 2220
agccgaacga ccgagcgcag cgagtcagtg agcgaggaag cggaagagcg cctgatgcgg 2280
tattttctcc ttacgcatct gtgcggtatt tcacaccgca tatatggtgc actctcagta 2340
caatctgctc tgatgccgca tagttaagcc agtatacact ccgctatcgc tacgtgactg 2400
ggtcatggct gcgccccgac acccgccaac acccgctgac gcgccctgac gggcttgtct 2460
gctcccggca tccgcttaca gacaagctgt gaccgtctcc gggagctgca tgtgtcagag 2520
gttttcaccg tcatcaccga aacgcgcgag gcagctgcgg taaagctcat cagcgtggtc 2580
gtgaagcgat tcacagatgt ctgcctgttc atccgcgtcc agctcgttga gtttctccag 2640
aagcgttaat gtctggcttc tgataaagcg ggccatgtta agggcggttt tttcctgttt 2700
ggtcactgat gcctccgtgt aagggggatt tctgttcatg ggggtaatga taccgatgaa 2760
acgagagagg atgctcacga tacgggttac tgatgatgaa catgcccggt tactggaacg 2820
ttgtgagggt aaacaactgg cggtatggat gcggcgggac cagagaaaaa tcactcaggg 2880
tcaatgccag cgcttcgtta atacagatgt aggtgttcca cagggtagcc agcagcatcc 2940
tgcgatgcag atccggaaca taatggtgca gggcgctgac ttccgcgttt ccagacttta 3000
cgaaacacgg aaaccgaaga ccattcatgt tgttgctcag gtcgcagacg ttttgcagca 3060
gcagtcgctt cacgttcgct cgcgtatcgg tgattcattc tgctaaccag taaggcaacc 3120
ccgccagcct agccgggtcc tcaacgacag gagcacgatc atgcgcaccc gtggggccgc 3180
catgccggcg ataatggcct gcttctcgcc gaaacgtttg gtggcgggac cagtgacgaa 3240
ggcttgagcg agggcgtgca agattccgaa taccgcaagc gacaggccga tcatcgtcgc 3300
gctccagcga aagcggtcct cgccgaaaat gacccagagc gctgccggca cctgtcctac 3360
gagttgcatg ataaagaaga cagtcataag tgcggcgacg atagtcatgc cccgcgccca 3420
ccggaaggag ctgactgggt tgaaggctct caagggcatc ggtcgagatc ccggtgccta 3480
atgagtgagc taacttacat taattgcgtt gcgctcactg cccgctttcc agtcgggaaa 3540
cctgtcgtgc cagctgcatt aatgaatcgg ccaacgcgcg gggagaggcg gtttgcgtat 3600
tgggcgccag ggtggttttt cttttcacca gtgagacggg caacagctga ttgcccttca 3660
ccgcctggcc ctgagagagt tgcagcaagc ggtccacgct ggtttgcccc agcaggcgaa 3720
aatcctgttt gatggtggtt aacggcggga tataacatga gctgtcttcg gtatcgtcgt 3780
atcccactac cgagatatcc gcaccaacgc gcagcccgga ctcggtaatg gcgcgcattg 3840
cgcccagcgc catctgatcg ttggcaacca gcatcgcagt gggaacgatg ccctcattca 3900
gcatttgcat ggtttgttga aaaccggaca tggcactcca gtcgccttcc cgttccgcta 3960
tcggctgaat ttgattgcga gtgagatatt tatgccagcc agccagacgc agacgcgccg 4020
agacagaact taatgggccc gctaacagcg cgatttgctg gtgacccaat gcgaccagat 4080
gctccacgcc cagtcgcgta ccgtcttcat gggagaaaat aatactgttg atgggtgtct 4140
ggtcagagac atcaagaaat aacgccggaa cattagtgca ggcagcttcc acagcaatgg 4200
catcctggtc atccagcgga tagttaatga tcagcccact gacgcgttgc gcgagaagat 4260
tgtgcaccgc cgctttacag gcttcgacgc cgcttcgttc taccatcgac accaccacgc 4320
tggcacccag ttgatcggcg cgagatttaa tcgccgcgac aatttgcgac ggcgcgtgca 4380
gggccagact ggaggtggca acgccaatca gcaacgactg tttgcccgcc agttgttgtg 4440
ccacgcggtt gggaatgtaa ttcagctccg ccatcgccgc ttccactttt tcccgcgttt 4500
tcgcagaaac gtggctggcc tggttcacca cgcgggaaac ggtctgataa gagacaccgg 4560
catactctgc gacatcgtat aacgttactg gtttcacatt caccaccctg aattgactct 4620
cttccgggcg ctatcatgcc ataccgcgaa aggttttgcg ccattcgatg gtgtccggga 4680
tctcgacgct ctcccttatg cgactcctgc attaggaagc agcccagtag taggttgagg 4740
ccgttgagca ccgccgccgc aaggaatggt gcatgcaagg agatggcgcc caacagtccc 4800
ccggccacgg ggcctgccac catacccacg ccgaaacaag cgctcatgag cccgaagtgg 4860
cgagcccgat cttccccatc ggtgatgtcg gcgatatagg cgccagcaac cgcacctgtg 4920
gcgccggtga tgccggccac gatgcgtccg gcgtagagga tcgagatctc gatcccgcga 4980
aattaatacg actcactata ggggaattgt gagcggataa caattcccct ctagaaataa 5040
ttttgtttaa ctttaagaag gagatatacc atgggcagca gccatcatca tcatcatcac 5100
agcagcggcc tggtgccgcg cggcagccat atggctagca tgactggtgg acagcaaatg 5160
ggtcgcggat ccccggcagc taagaaaaag aaactggatg gcagcgtcga catgaagaga 5220
aagatcggca tcggcctgga cgtgggcatc ggcagcgtgg gcttcgccgt gctgagctac 5280
gacaaggtgt acgacgccag aatcgagcag gtgggcgtga gactgttcga cagcggcgag 5340
gagcccaaga ccaaggtgag caagaaccag ggcagaagac agtacagagc cggcagaaga 5400
ctgatcagaa gaagatacca cagaaaggag agagccaaga gattcatcga gagaatcggc 5460
ctgctgagcg ccgacaagat caaggagtgg caggaggtga acggcaacca gaacatctac 5520
tacgtgagat tcagaggcct gagcgagaag ctgacccccc aggagatcgc cgactgcgtg 5580
atccacttct gcaaccacag aggctacaga gagttctacg aggacgacgt ggccgacgag 5640
aaggaggccg gcaagatcaa gaccgccctg agcagattcg acgagaagat ggccgccggc 5700
aagtacgtga gcgtggccga catgatcctg cacgacaacg agttcagcac caacacccag 5760
ttccccgact tccacaacca caagggcgac gacgacgaga agtacttcct gatcaagaga 5820
gccgccctga gagacgagct gagagccatc ctgagaaagc agcaggagtt ctacgagcag 5880
ctgaccgagc acaacatcga cttcctgtgc gacgacatcg tgttcgtgca gagagacttc 5940
gaggacggcc ccggcgacaa gaccgacaag aagagaaagt tcatgggctt cctggacagc 6000
atcggctgct gcatgttcta caaggaggag gtgagaggct acagaagcac cgtgatcgcc 6060
gacatctaca gcctggtgaa cggcctgagc aagatgatgt acgtggacag caccaccggc 6120
gagatcacct tcctgcccga ggccgccgac aagatcatcg acttcgccct gaagaacgcc 6180
agcatcaccg agaaggacat caaggagatc ctgaagaagt acaacctgac cctgatcaag 6240
gccgagaagc tggaggagaa catcccccag accatcaaga ccctgaagat cctgaagaag 6300
atcctggacg acagcggcta cagctacgac gagctgatca aggaggagca gttcgacttc 6360
gacagaccca gcaagctgca cgagctgtgc agcctgctgg ccagcaacat cacccccaag 6420
agaagaagaa aggccctgga gaaggccggc tggaacaagg ccctgcagga gcagaccaga 6480
agaatccact tcggcggcac cagcaacgtg tgctacagat acatgctgga ggccatcgac 6540
gccttcagac acggcgagct gtacggcaac ttccaggcca gaagaaacaa ggagcagctg 6600
accgacgagg ccgagaacac cgagaaggtg agactgctgc cccccttcac caaggagatg 6660
gacgaggacg tggtgaagaa cgtggtggtg ttcaaggcca tcaacgagac aagaaagatc 6720
atcaacgccc tgatcggcaa gtacggcagc cccgcctaca tcaacatcga ggtggccgac 6780
gagctgggcc acagcatcga gacaagaaga aagatgacca aggccaacaa cgagaagatg 6840
aagaagaagg aggccatcag caccaagctg gtggagctgg gcctgagaaa ggagggcgag 6900
gtgagcggca aggacatcgc cagatacaga ctgtgggagc agcaggacgg catcgacctg 6960
tacaccggcg agaacatccc cgaggccgac gtgctgagcg gccagtacga catcgaccac 7020
atcatcccct tcagcctgat cctggacgac accctgaaca acaaggtgct gaccggcatg 7080
ggcagcaaca gacaggccaa gagcaacaag gcccccagag agtacctgag cgacaaggcc 7140
gagctggagt tcatcaagag agtgaacatc ctgctgaaga agaagatcat cagcaagaag 7200
aagtacaagt acctgatggt gaagaacctg agagacagca agctgctgga cgagtggaag 7260
agcagaaaca tcaacgacac cagatacatc agcagattcc tggtgaacta cctgaacaac 7320
atgctgctgt tcaacagcga caagaagaag aacgtgtacg ccatcaacgg cgccatcacc 7380
agcaagatga gaaagctgtg gctgaacaag agaacctggg gcacccccga gaagaacaga 7440
gagaacaacc tgcaccacgc cgccgacgcc atcgtgatcg ccaacctgac ccccgccgcc 7500
gtggagctgg ccagcgacaa cctgaagctg cagaacatct tcagacagaa cggcaagaga 7560
gtgaccgagg agtacgacaa ctacctggac aaggccgtga gaaagatgga gaagtactac 7620
cacctgaacg aggagctggc caagaacctg ctggtgagaa aggacagaat ccccagcatg 7680
gtgagaagcc tgagagagga gacagacaag agactggtgg acaccagcct ggaggagttc 7740
aacatggtga cccccgaggc cttcagaaag aacctggagc agtactacaa cgacagcgac 7800
ttcgtggcca gcatccagat gcccctggtg agctacaagc agagcaagag attcagcggc 7860
agcttcacca aggacaaccc catcaagaag aaggacaagg aggacagcag cagcgtgaag 7920
atggacagcc tgggcaacga gaacatcctg gacgccaaga gctactactg cctggaggtg 7980
tacagcacca aggacaacaa gaccgccctg agaggcctga gatacgtgga cttcaagctg 8040
aagaacaaga agatgttcat caacgtgccc aaccccgaca actacgacaa gcacatcatg 8100
tacctgttca agaacgacta catcgtggtg tacaacaaga agggcgagga gagaatcaag 8160
ggctactaca ccggcatcaa gaacatcaag gccaacagat tctacctgat cagcaacaac 8220
gacgccgtga gaaaggactt caccctgagc aaggacgaca ccatcaagaa gtaccacatc 8280
gacatcctgg gccagatcgg cggcgaggtg aagtgcagcg cccccttcct gagcatcacc 8340
gagaaggaga caggcggcgg ccccggcggc ggcgccgccg ccggcagcgg cagccctaag 8400
aaaaaacgaa aagttggcag cggaagcaaa aggccggcgg ccacgaaaaa ggccggccag 8460
gcaaaaaaga aaaagtaact cgagcaccac caccaccacc actgagatcc ggctgctaac 8520
aaagcccgaa aggaagctga gttggctgct gccaccgctg agcaataact agcataaccc 8580
cttggggcct ctaaacgggt cttgaggggt tttttgctga aaggaggaac tatatccgga 8640
t 8641
<210> 14
<211> 273
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(273)
<223> CasRfg.3蛋白体外切割底物序列
<400> 14
ggagttcaga cgtgtgctct tccgatctca gcacaaaagg aaactcaccc taactgtaaa 60
gtaattgtgt gttttgagac tataaatatg catgcgagaa aagccttgtt tgccaccatg 120
gaacggctcg gagatcatca ttgcgnnnnn nngtgagcaa gggcgaggag ctgttcaccg 180
gggtggtgcc catcctggtc gagctggacg gcgacgtaaa cggccacaag ttcagcgtgt 240
ccggcagatc ggaagagcac acgtctgaac tcc 273
<210> 15
<211> 185
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(185)
<223> sgRNA序列
<400> 15
gaacggcucg gagaucauca uugcgguuuu aguucuaugu uggauauuga uaaacugaua 60
cgaaauuguc aguuuaucaa uauccaacaa uaguucuaag auaaggccuu augugccgua 120
ggguauagcg guaucccgaa caauuccgcu gcuuugagua uuaagcugcu acaucaugua 180
gcagc 185
<210> 16
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(59)
<223> 引物
<400> 16
gttgacatgc tggattgaga cttcctacac tctttcccta cacgacgctc ttccgatct 59
<210> 17
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(58)
<223> 引物
<400> 17
gatcggaaga gcgtcgtgta gggaaagagt gtaggaagtc tcaatccagc atgtcaac 58
<210> 18
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(19)
<223> 引物
<400> 18
ggagttcaga cgtgtgctc 19
<210> 19
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(24)
<223> 引物
<400> 19
gttgacatgc tggattgaga cttc 24
<210> 20
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(58)
<223> 引物
<400> 20
aatgatacgg cgaccaccga gatctacact atagcctaca ctctttccct acacgacg 58
<210> 21
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(57)
<223> 引物
<400> 21
caagcagaag acggcatacg agatcgagta atgtgactgg agttcagacg tgtgctc 57
<210> 22
<211> 532
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(532)
<223> CasRfg.3-N2 序列
<400> 22
gaatgggcta tttctaagca cggcaggtac cgtcttcccc ttcccccgcc aacacagctg 60
gcccaggaca agaaggtgca gagacaaaca gggggcaccc tgcctgtcct gctaggaact 120
gcaaggcagc gtgccgcaca cgctgcctgg gccaatgcca cccaggccag gagagggttt 180
ggggccagac accagcccat acccaagggt cccaggggat gtggggagaa ggggaatcca 240
ccttttcctt ccctcccacc tcccaaataa cacacagaca gctctgttgg tctgagaatg 300
atggacattt agacactggc gccaggtttg cgcctgaccg gcgccacgca ggggtgggcg 360
gagcaaagac acacaggtgg gctacaggtg tcacacggca ccagccaggg cccggggtgg 420
ctggggtgag gatgggtgtt tggccagtga ccaggagtca ggtcaagtcc aggtggtcag 480
tgccaggggc tccaggaggg gagggcagtg ccataaccct cctggtgtcc ag 532
<210> 23
<211> 500
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(500)
<223> CasRfg.3-N4 序列
<400> 23
ggcactgtgc cctccagatt cctcagagcc tggtgccagg tgcacctccc cagccctctc 60
agcccctgag ctctgccacc ctgcccgggc ttctgccctt gggtcctggc ctctcagggt 120
ctcctcagct ctgcaaggag gggctgggag caggtcccag gctagcagtg ggctggaggc 180
ctcctgtgtg gtctctacct gtccatgccg aggggtcacc tctgggtgag gtcgcaccca 240
cccccctcac ggggctgctt tgccagaagg tctgttcccc tcatggcctc tgctactctt 300
tacacttagt tcttcccagg aagggcccgg tggctgcaga taatgtttcc catctgtgga 360
gccttcaagg gctgggccca tgaggattct gctcccagct tgctcttcct ctccagcctg 420
cacccaccag gccccagaat cctgaggatg gagctgctcc tgtcccctga ggtggtctaa 480
acctctgggg aggcactgga 500
<210> 24
<211> 3194
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> allele
<222> (1)..(3194)
<223> CasRfg.3-N2-Target质粒
<400> 24
agcgcccaat acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc 60
acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc 120
tcactcatta ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa 180
ttgtgagcgg ataacaattt cacacaggaa acagctatga ccatgattac gccaagctca 240
gaattaaccc tcactaaagg gactagtcca gggatctgga caccaggagg gttatggcac 300
tgccctcccc tcctggagcc cctggcactg accacctgga cttgacctga ctcctggtca 360
ctggccaaac acccatcctc accccagcca ccccgggccc tggctggtgc cgtgtgacac 420
ctgtagccca cctgtgtgtc tttgctccgc ccacccctgc gtggcgccgg tcaggcgcaa 480
acctggcgcc agtgtctaaa tgtccatcat tctcagacca acagagctgt ctgtgtgtta 540
tttgggaggt gggagggaag gaaaaggtgg attccccttc tccccacatc ccctgggacc 600
cttgggtatg ggctggtgtc tggccccaaa ccctctcctg gcctgggtgg cattggccca 660
ggcagcgtgt gcggcacgct gccttgcagt tcctagcagg acaggcaggg tgccccctgt 720
ttgtctctgc accttcttgt cctgggccag ctgtgttggc gggggaaggg gaagacggta 780
cctgccgtgc ttagaaatag cccattcatc ctgggctaaa ttcaattcgc cctatagtga 840
gtcgtattac aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa accctggcgt 900
tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta atagcgaaga 960
ggcccgcacc gatcgccctt cccaacagtt gcgcagccta tacgtacggc agtttaaggt 1020
ttacacctat aaaagagaga gccgttatcg tctgtttgtg gatgtacaga gtgatattat 1080
tgacacgccg gggcgacgga tggtgatccc cctggccagt gcacgtctgc tgtcagataa 1140
agtctcccgt gaactttacc cggtggtgca tatcggggat gaaagctggc gcatgatgac 1200
caccgatatg gccagtgtgc cggtctccgt tatcggggaa gaagtggctg atctcagcca 1260
ccgcgaaaat gacatcaaaa acgccattaa cctgatgttc tggggaatat aaggcgcgcc 1320
acattcaaat atgtatccgc tcatgagatt atcaaaaagg atcttcacct agatcctttt 1380
aaattaaaaa tgaagtttta aatcaatcta aagtatatat gagtaaactt ggtctgacag 1440
ttaccaatgc ttaatcagtg aggcacctat ctcagcgatc tgtctatttc gttcatccat 1500
agttgcctga ctccccgtcg tgtagataac tacgatacgg gagggcttac catctggccc 1560
cagtgctgca atgataccgc gagacccacg ctcaccggct ccagatttat cagcaataaa 1620
ccagccagcc ggaagggccg agcgcagaag tggtcctgca actttatccg cctccatcca 1680
gtctattaat tgttgccggg aagctagagt aagtagttcg ccagttaata gtttgcgcaa 1740
cgttgttgcc attgctacag gcatcgtggt gtcacgctcg tcgtttggta tggcttcatt 1800
cagctccggt tcccaacgat caaggcgagt tacatgatcc cccatgttgt gcaaaaaagc 1860
ggttagctcc ttcggtcctc cgatcgttgt cagaagtaag ttggccgcag tgttatcact 1920
catggttatg gcagcactgc ataattctct tactgtcatg ccatccgtaa gatgcttttc 1980
tgtgactggt gagtactcaa ccaagtcatt ctgagaatag tgtatgcggc gaccgagttg 2040
ctcttgcccg gcgtcaatac gggataatac cgcgccacat agcagaactt taaaagtgct 2100
catcattgga aaacgttctt cggggcgaaa actctcaagg atcttaccgc tgttgagatc 2160
cagttcgatg taacccactc gtgcacccaa ctgatcttca gcatctttta ctttcaccag 2220
cgtttctggg tgagcaaaaa caggaaggca aaatgccgca aaaaagggaa taagggcgac 2280
acggaaatgt tgaatactca tactcttcct ttttcaatat tattgaagca tttatcaggg 2340
ttattgtctc atgaccaaaa tcccttaacg tgagttttcg ttccactgag cgtcagaccc 2400
cgtagaaaag atcaaaggat cttcttgaga tccttttttt ctgcgcgtaa tctgctgctt 2460
gcaaacaaaa aaaccaccgc taccagcggt ggtttgtttg ccggatcaag agctaccaac 2520
tctttttccg aaggtaactg gcttcagcag agcgcagata ccaaatactg ttcttctagt 2580
gtagccgtag ttaggccacc acttcaagaa ctctgtagca ccgcctacat acctcgctct 2640
gctaatcctg ttaccagtgg ctgctgccag tggcgataag tcgtgtctta ccgggttgga 2700
ctcaagacga tagttaccgg ataaggcgca gcggtcgggc tgaacggggg gttcgtgcac 2760
acagcccagc ttggagcgaa cgacctacac cgaactgaga tacctacagc gtgagctatg 2820
agaaagcgcc acgcttcccg aagggagaaa ggcggacagg tatccggtaa gcggcagggt 2880
cggaacagga gagcgcacga gggagcttcc agggggaaac gcctggtatc tttatagtcc 2940
tgtcgggttt cgccacctct gacttgagcg tcgatttttg tgatgctcgt caggggggcg 3000
gagcctatgg aaaaacgcca gcaacgcggc ctttttacgg ttcctggcct tttgctggcc 3060
ttttgctcac atgttctttc ctgcgttatc ccctgattct gtggataacc gtattaccgc 3120
ctttgagtga gctgataccg ctcgccgcag ccgaacgacc gagcgcagcg agtcagtgag 3180
cgaggaagcg gaag 3194
<210> 25
<211> 3162
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(3162)
<223> CasRfg.3-N4-Target质粒
<400> 25
agcgcccaat acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc 60
acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc 120
tcactcatta ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa 180
ttgtgagcgg ataacaattt cacacaggaa acagctatga ccatgattac gccaagctca 240
gaattaaccc tcactaaagg gactagtcca gggatggcac tgtgccctcc agattcctca 300
gagcctggtg ccaggtgcac ctccccagcc ctctcagccc ctgagctctg ccaccctgcc 360
cgggcttctg cccttgggtc ctggcctctc agggtctcct cagctctgca aggaggggct 420
gggagcaggt cccaggctag cagtgggctg gaggcctcct gtgtggtctc tacctgtcca 480
tgccgagggg tcacctctgg gtgaggtcgc acccaccccc ctcacggggc tgctttgcca 540
gaaggtctgt tcccctcatg gcctctgcta ctctttacac ttagttcttc ccaggaaggg 600
cccggtggct gcagataatg tttcccatct gtggagcctt caagggctgg gcccatgagg 660
attctgctcc cagcttgctc ttcctctcca gcctgcaccc accaggcccc agaatcctga 720
ggatggagct gctcctgtcc cctgaggtgg tctaaacctc tggggaggca ctggaatcct 780
gggctaaatt caattcgccc tatagtgagt cgtattacaa ttcactggcc gtcgttttac 840
aacgtcgtga ctgggaaaac cctggcgtta cccaacttaa tcgccttgca gcacatcccc 900
ctttcgccag ctggcgtaat agcgaagagg cccgcaccga tcgcccttcc caacagttgc 960
gcagcctata cgtacggcag tttaaggttt acacctataa aagagagagc cgttatcgtc 1020
tgtttgtgga tgtacagagt gatattattg acacgccggg gcgacggatg gtgatccccc 1080
tggccagtgc acgtctgctg tcagataaag tctcccgtga actttacccg gtggtgcata 1140
tcggggatga aagctggcgc atgatgacca ccgatatggc cagtgtgccg gtctccgtta 1200
tcggggaaga agtggctgat ctcagccacc gcgaaaatga catcaaaaac gccattaacc 1260
tgatgttctg gggaatataa ggcgcgccac attcaaatat gtatccgctc atgagattat 1320
caaaaaggat cttcacctag atccttttaa attaaaaatg aagttttaaa tcaatctaaa 1380
gtatatatga gtaaacttgg tctgacagtt accaatgctt aatcagtgag gcacctatct 1440
cagcgatctg tctatttcgt tcatccatag ttgcctgact ccccgtcgtg tagataacta 1500
cgatacggga gggcttacca tctggcccca gtgctgcaat gataccgcga gacccacgct 1560
caccggctcc agatttatca gcaataaacc agccagccgg aagggccgag cgcagaagtg 1620
gtcctgcaac tttatccgcc tccatccagt ctattaattg ttgccgggaa gctagagtaa 1680
gtagttcgcc agttaatagt ttgcgcaacg ttgttgccat tgctacaggc atcgtggtgt 1740
cacgctcgtc gtttggtatg gcttcattca gctccggttc ccaacgatca aggcgagtta 1800
catgatcccc catgttgtgc aaaaaagcgg ttagctcctt cggtcctccg atcgttgtca 1860
gaagtaagtt ggccgcagtg ttatcactca tggttatggc agcactgcat aattctctta 1920
ctgtcatgcc atccgtaaga tgcttttctg tgactggtga gtactcaacc aagtcattct 1980
gagaatagtg tatgcggcga ccgagttgct cttgcccggc gtcaatacgg gataataccg 2040
cgccacatag cagaacttta aaagtgctca tcattggaaa acgttcttcg gggcgaaaac 2100
tctcaaggat cttaccgctg ttgagatcca gttcgatgta acccactcgt gcacccaact 2160
gatcttcagc atcttttact ttcaccagcg tttctgggtg agcaaaaaca ggaaggcaaa 2220
atgccgcaaa aaagggaata agggcgacac ggaaatgttg aatactcata ctcttccttt 2280
ttcaatatta ttgaagcatt tatcagggtt attgtctcat gaccaaaatc ccttaacgtg 2340
agttttcgtt ccactgagcg tcagaccccg tagaaaagat caaaggatct tcttgagatc 2400
ctttttttct gcgcgtaatc tgctgcttgc aaacaaaaaa accaccgcta ccagcggtgg 2460
tttgtttgcc ggatcaagag ctaccaactc tttttccgaa ggtaactggc ttcagcagag 2520
cgcagatacc aaatactgtt cttctagtgt agccgtagtt aggccaccac ttcaagaact 2580
ctgtagcacc gcctacatac ctcgctctgc taatcctgtt accagtggct gctgccagtg 2640
gcgataagtc gtgtcttacc gggttggact caagacgata gttaccggat aaggcgcagc 2700
ggtcgggctg aacggggggt tcgtgcacac agcccagctt ggagcgaacg acctacaccg 2760
aactgagata cctacagcgt gagctatgag aaagcgccac gcttcccgaa gggagaaagg 2820
cggacaggta tccggtaagc ggcagggtcg gaacaggaga gcgcacgagg gagcttccag 2880
ggggaaacgc ctggtatctt tatagtcctg tcgggtttcg ccacctctga cttgagcgtc 2940
gatttttgtg atgctcgtca ggggggcgga gcctatggaa aaacgccagc aacgcggcct 3000
ttttacggtt cctggccttt tgctggcctt ttgctcacat gttctttcct gcgttatccc 3060
ctgattctgt ggataaccgt attaccgcct ttgagtgagc tgataccgct cgccgcagcc 3120
gaacgaccga gcgcagcgag tcagtgagcg aggaagcgga ag 3162
<210> 26
<211> 180
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(180)
<223> CasRfg.3-N2-sgRNA序列
<400> 26
auaacacaca gacagcucug guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60
uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120
uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180
<210> 27
<211> 180
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(180)
<223> CasRfg.3-N4-sgRNA序列
<400> 27
ccgagggguc accucugggu guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60
uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120
uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180
<210> 28
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(28)
<223> 引物
<400> 28
atagggcgaa ttgaatttag cccaggat 28
<210> 29
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(27)
<223> 引物
<400> 29
cagagctgtc tgtgtgttat ttgggag 27
<210> 30
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(59)
<223> 引物
<400> 30
tcccaaataa cacacagaca gctctgddrg dnngagaatg atggacattt agacactgg 59
<210> 31
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(28)
<223> 引物
<400> 31
ccctcactaa agggactagt ccagggat 28
<210> 32
<211> 120
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(120)
<223> sgRNA
<400> 32
auaacacaca gacagcucug guuuuaguuc uauguuggau auugaaaaau auccaacaau 60
aguucuaaga uaaggccuua ugugccguag gguauagcgg uaucccgaac aauuccgcug 120
<210> 33
<211> 180
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(33)
<223> sgRNA
<400> 33
auaacacaca gacagcucug guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60
uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120
uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180
<210> 34
<211> 120
<212> DNA/RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(120)
<223> sgRNA
<400> 34
ataacacaca gacagctctg guuuuaguuc uauguuggau auugaaaaau auccaacaau 60
aguucuaaga uaaggccuua ugugccguag gguauagcgg uaucccgaac aauuccgcug 120
<210> 35
<211> 121
<212> DNA/RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(121)
<223> sgRNA
<400> 35
aataacacac agacagctct gguuuuaguu cuauguugga uauugaaaaa uauccaacaa 60
uaguucuaag auaaggccuu augugccgua ggguauagcg guaucccgaa caauuccgcu 120
g 121
<210> 36
<211> 122
<212> DNA/RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(122)
<223> sgRNA
<400> 36
aaataacaca cagacagctc tgguuuuagu ucuauguugg auauugaaaa auauccaaca 60
auaguucuaa gauaaggccu uaugugccgu aggguauagc gguaucccga acaauuccgc 120
ug 122
<210> 37
<211> 123
<212> DNA/RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(123)
<223> sgRNA
<400> 37
caaataacac acagacagct ctgguuuuag uucuauguug gauauugaaa aauauccaac 60
aauaguucua agauaaggcc uuaugugccg uaggguauag cgguaucccg aacaauuccg 120
cug 123
<210> 38
<211> 124
<212> DNA/RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(124)
<223> sgRNA
<400> 38
ccaaataaca cacagacagc tctgguuuua guucuauguu ggauauugaa aaauauccaa 60
caauaguucu aagauaaggc cuuaugugcc guaggguaua gcgguauccc gaacaauucc 120
gcug 124
<210> 39
<211> 1046
<212> PRT
<213> 厌氧弧菌属(Anaerovibrio)
<400> 39
Met Lys Arg Lys Val Gly Phe Gly Leu Asp Val Gly Ile Gly Ser Val
1 5 10 15
Gly Phe Ala Val Leu Ser Tyr Asp Lys Val Tyr Asp Ala Arg Ile Glu
20 25 30
Gln Val Gly Val Arg Leu Phe Asp Ser Gly Glu Glu Val Lys Asn His
35 40 45
Lys Arg Ala Ser Lys Asn Gln Gly Arg Arg Gln Tyr Arg Ser Gly Arg
50 55 60
Arg Leu Ile Arg Arg Arg Tyr His Arg Lys Glu Arg Ala Lys Arg Phe
65 70 75 80
Ile Glu Arg Ile Gly Leu Leu Ser Ala Ala Lys Ile Lys Glu Trp Gln
85 90 95
Glu Val Asn Gly Asn Gln Asn Ile Tyr Ser Ile Arg Phe Arg Gly Leu
100 105 110
Ser Glu Lys Leu Thr Pro Glu Glu Ile Ala Asp Cys Val Ile His Phe
115 120 125
Cys Asn His Arg Gly Tyr Arg Glu Phe Tyr Glu Asp Asp Val Asp Glu
130 135 140
Lys Glu Ala Gly Lys Ile Lys Thr Ala Leu Phe Arg Phe Asp Glu Lys
145 150 155 160
Met Thr Glu Gly Lys Tyr Val Ser Val Ala Asp Met Ile Leu His Asp
165 170 175
Lys Glu Phe Ala Thr Asp Thr Gln Phe Pro Asn Phe His Asn His Lys
180 185 190
Asn Asp Asp Glu Glu Lys Tyr Phe Leu Ile Lys Arg Ala Ala Leu Arg
195 200 205
Asp Glu Leu Arg Ala Ile Leu Gln Lys Gln Gln Glu Tyr Tyr Lys Gln
210 215 220
Leu Thr Asp Gln Asn Ile Ala Phe Leu Cys Asp Glu Ile Val Phe Val
225 230 235 240
Gln Arg Asp Phe Glu Asp Gly Pro Gly Asp Lys Asn Asp Lys Asn Arg
245 250 255
Lys Phe Met Gly Phe Leu Asp Thr Ile Gly Cys Cys Met Phe Tyr Lys
260 265 270
Glu Glu Leu Arg Gly Phe Arg Ser Thr Val Ile Ala Asp Ile Tyr Ser
275 280 285
Leu Val Asn Gly Leu Ser Gln Met Met Tyr Val Asp Ser Thr Thr Gly
290 295 300
Glu Ile Thr Phe Leu Pro Glu Ala Ala Asp Asp Ile Ile Glu Phe Ala
305 310 315 320
Leu Lys Asn Ala Ser Ile Thr Glu Lys Asp Ile Lys Lys Ile Leu Glu
325 330 335
Lys Tyr Asn Leu Thr Leu Ile Lys Ala Glu Lys Leu Glu Glu Asn Ile
340 345 350
Pro Gln Thr Ile Lys Thr Leu Lys Val Leu Lys Lys Val Leu Asp Ala
355 360 365
Ser Gly Tyr Ser Tyr Asp Glu Leu Ile Gln Glu Glu Gln Phe Asp Phe
370 375 380
Asp Lys Pro Ser Lys Leu His Glu Leu Cys Asn Leu Leu Ala Ser Asn
385 390 395 400
Ile Thr Pro Lys Arg Arg Arg Lys Ala Leu Glu Lys Ala Gly Trp Asn
405 410 415
Lys Asp Phe Gln Ala Gln Thr Lys Arg Ile His Phe Gly Gly Thr Ser
420 425 430
Asn Val Cys Tyr Arg Tyr Met Leu Glu Ala Ile Asp Ala Phe Arg His
435 440 445
Gly Glu Leu Tyr Gly Asn Phe Gln Ala Arg Arg Lys Gln Glu Gln Leu
450 455 460
Thr Asp Glu Ala Glu Asn Thr Glu Arg Val Lys Leu Leu Pro Pro Phe
465 470 475 480
Thr Lys Glu Met Asp Glu Asp Val Val Lys Asn Val Val Val Phe Lys
485 490 495
Ala Ile Asn Glu Thr Arg Lys Ile Ile Asn Ala Leu Ile Gly Lys Tyr
500 505 510
Gly Ser Pro Ala Tyr Ile Asn Ile Glu Val Ala Asp Glu Leu Gly His
515 520 525
Ser Ile Glu Thr Arg Arg Lys Met Thr Lys Ala Asn Asn Asp Asn Met
530 535 540
Lys Lys Lys Glu Ala Ile Gly Ala Lys Leu Val Glu Leu Gly Leu Arg
545 550 555 560
Lys Glu Gly Glu Val Ser Gly Lys Asp Ile Ala Arg Tyr Arg Leu Trp
565 570 575
Glu Gln Gln Asn Gly Ile Asp Leu Tyr Thr Gly Asn Asn Ile Pro Glu
580 585 590
Ala Asp Val Leu Ser Gly Gln Tyr Asp Val Asp His Ile Ile Pro Phe
595 600 605
Ser Leu Ile Leu Asp Asp Thr Leu Asn Asn Lys Val Leu Thr Gly Met
610 615 620
Gly Ser Asn Arg Gln Ala Lys Ser Asn Thr Ala Pro Arg Glu Tyr Leu
625 630 635 640
Ser Asp Lys Ala Glu Ala Glu Phe Ile Lys Arg Val Asn Val Leu Leu
645 650 655
Lys Lys Lys Ile Ser Lys Lys Lys Tyr Gln Tyr Leu Met Val Lys Asn
660 665 670
Leu Arg Asp Ser Lys Leu Leu Asn Glu Trp Lys Ser Arg Asn Ile Asn
675 680 685
Asp Thr Arg Tyr Ile Ser Arg Phe Leu Ala Asn Tyr Leu Asn Asn Thr
690 695 700
Leu Ile Phe Asn Ser Asp Lys Lys Lys Asn Val Tyr Ala Ile Asn Gly
705 710 715 720
Ala Ile Thr Ser Arg Met Arg Lys Met Trp Leu Asn Lys Lys Thr Trp
725 730 735
Gly Asn Pro Glu Lys Asn Arg Glu Asn Asn Leu His His Ala Ala Asp
740 745 750
Ala Ile Val Ile Ala Asn Leu Thr Pro Ala Ala Val Glu Leu Ala Ser
755 760 765
Asp Asn Leu Lys Leu Gln Asn Ile Phe Arg Gln Asn Gly Lys Arg Val
770 775 780
Thr Glu Glu Tyr Glu Asn Tyr Leu Asp Arg Ala Val Arg Lys Ile Glu
785 790 795 800
Lys Tyr Tyr His Phe Asn Pro Glu Leu Ala Lys Lys Leu Leu Val Ser
805 810 815
Lys Asp Arg Ile Pro Ser Met Val Arg Leu Leu Arg Glu Glu Thr Asp
820 825 830
Lys Arg Leu Val Asp Pro Ser Leu Glu Glu Phe Lys Met Val Thr Pro
835 840 845
Glu Ser Phe Arg Gln Asn Leu Glu Gln Tyr Tyr Asn Asp Pro Glu Phe
850 855 860
Val Ala Ser Ile Gln Met Pro Leu Val Ser Tyr Lys Gln Ser Lys Arg
865 870 875 880
Phe Ser Gly Ser Phe Thr Lys Asp Lys Pro Ile Lys Lys Lys Glu Arg
885 890 895
Glu Asp Ser Ser Thr Val Lys Ile Asp Ser Leu Gly Asn Glu Asn Ile
900 905 910
Leu Asp Ala Lys Ser Tyr Tyr Cys Leu Glu Val Tyr Ser Thr Lys Asp
915 920 925
Asn Lys Thr Ala Leu Arg Gly Leu Arg Tyr Val Asp Phe Lys Leu Lys
930 935 940
Asp Lys Lys Met Phe Ile Thr Val Pro Asn Pro Glu Asn Tyr Gly Lys
945 950 955 960
His Ile Met Tyr Leu Phe Lys Asn Asp Tyr Ile Val Val Tyr Asn Lys
965 970 975
Lys Gly Glu Glu Lys Ala Arg Gly Phe Tyr Ser Ser Val Lys Ala Ile
980 985 990
Thr Arg Asp Gln Leu Tyr Leu Lys Asp Asn Asn Thr Asn Val Asp Ile
995 1000 1005
Ile Phe Thr Ile Lys Lys Asp Asp Thr Val Lys Lys Tyr His Ile Asp
1010 1015 1020
Ile Leu Gly Gln Ile Gly Gly Glu Ile Lys Cys Ser Ala Pro Phe Leu
1025 1030 1035 1040
Ser Ile Thr Glu Lys Glu
1045
<210> 40
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(35)
<223> DR序列
<400> 40
gttttagttc tatgttggat attgataaac tgata 35
<210> 41
<211> 124
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(124)
<223> tracrRNA序列
<400> 41
ttgtcagttt atcaatatcc aacaatagtt ctaagataag gccttatgtg ccgtagggta 60
tagcggtatc ccgaacaatt ccgctccttt gttcattaag ctgctacatt atgtagcggc 120
tttt 124
<210> 42
<211> 7381
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(7381)
<223> pXC09-89-GFPgRNA
<400> 42
cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60
ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120
aggggttcct gcggcctcta gactcgaggc gttgacattg attattgact agttattaat 180
agtaatcaat tacggggtca ttagttcata gcccatatat ggagttccgc gttacataac 240
ttacggtaaa tggcccgcct ggctgaccgc ccaacgaccc ccgcccattg acgtcaataa 300
tgacgtatgt tcccatagta acgccaatag ggactttcca ttgacgtcaa tgggtggagt 360
atttacggta aactgcccac ttggcagtac atcaagtgta tcatatgcca agtacgcccc 420
ctattgacgt caatgacggt aaatggcccg cctggcatta tgcccagtac atgaccttat 480
gggactttcc tacttggcag tacatctacg tattagtcat cgctattacc atggtgatgc 540
ggttttggca gtacatcaat gggcgtggat agcggtttga ctcacgggga tttccaagtc 600
tccaccccat tgacgtcaat gggagtttgt tttggcacca aaatcaacgg gactttccaa 660
aatgtcgtaa caactccgcc ccattgacgc aaatgggcgg taggcgtgta cggtgggagg 720
tctatataag cagagctctc tggctaacta ccggtgccac catgccggca gctaagaaaa 780
agaaactgga tggcagcgtc gacatgaaga gaaaggtggg cttcggcctg gacgtgggca 840
tcggcagcgt gggcttcgcc gtgctgagct acgacaaggt gtacgacgct agaatcgagc 900
aagtgggcgt gagactgttc gacagcggcg aagaggtgaa gaaccacaag agagctagca 960
agaaccaagg ccggagacag tacagaagcg gccggagact gatcagacgg agataccaca 1020
gaaaggagag agccaagaga ttcatcgaga gaatcggcct gctgagcgcc gccaagatca 1080
aggagtggca agaggtgaac ggcaatcaga acatctacag catcagattc agaggcctga 1140
gcgagaagct gacccccgag gagatcgccg actgcgtgat ccacttctgc aaccacagag 1200
gctacagaga gttctacgag gacgacgtgg acgagaagga ggccggcaag atcaagaccg 1260
ccctgttcag attcgacgag aagatgaccg agggcaagta cgtgagcgtg gccgacatga 1320
tcctgcacga caaggagttc gccaccgaca cacagttccc caacttccac aaccacaaga 1380
acgacgacga ggagaagtac ttcctgatca agagagccgc cctgagagac gaactgagag 1440
ccatcctgca gaagcagcaa gagtactaca agcagctgac cgatcagaac atcgccttcc 1500
tgtgcgacga gatcgtgttc gtgcagagag acttcgagga cggccccggc gacaagaacg 1560
acaagaacag aaagttcatg ggcttcctgg acaccatcgg ctgctgcatg ttctacaagg 1620
aggagctgag aggcttcaga agcaccgtga tcgccgacat ctacagcctg gtgaacggcc 1680
tgagccaaat gatgtacgtg gacagcacca ccggcgagat caccttcctg cccgaggccg 1740
ccgacgacat catcgagttc gccctgaaga acgctagcat cacagaaaag gacatcaaga 1800
agatcctgga gaagtacaac ctgaccctga tcaaggccga gaagctggag gagaacatcc 1860
ctcagaccat caagaccctg aaggtgctga agaaggtgct ggacgctagc ggctacagct 1920
acgacgagct gatccaagag gagcagttcg acttcgacaa gcctagcaag ctgcacgagc 1980
tgtgcaacct gctggctagc aacatcaccc ctaagagacg gagaaaggcc ctggagaagg 2040
ccggctggaa caaggacttc caagctcaga ccaagagaat ccacttcggc ggcacaagca 2100
acgtgtgcta cagatacatg ctggaggcca tcgacgcctt cagacacggc gagctgtacg 2160
gcaacttcca agctagaaga aagcaagagc agctgaccga cgaggccgag aacaccgaga 2220
gagtgaagct gctgcccccc ttcacaaagg agatggacga ggacgtggtg aagaacgtgg 2280
tcgtgttcaa ggccatcaac gagacaagaa agatcatcaa cgccctgatc ggcaagtacg 2340
gcagccccgc ctacatcaac atcgaggtgg ccgacgagct gggccacagc atcgagacaa 2400
gaagaaagat gaccaaggcc aacaacgaca acatgaagaa aaaggaggct atcggcgcca 2460
agctggtgga gctgggcctg agaaaggagg gcgaggtgag cggcaaggac atcgctagat 2520
acagactgtg ggagcagcag aacggcatcg acctgtacac cggcaacaac atccccgagg 2580
ccgacgtgct gagcgggcag tacgacgtgg accacatcat ccccttcagc ctgatcctgg 2640
acgacaccct gaacaacaag gtgctgaccg gcatgggcag caacagacaa gccaagagca 2700
acaccgcccc tagagagtac ctgagcgaca aggccgaggc cgagttcatc aagagagtga 2760
acgtgctgct gaagaaaaag atcagcaaga aaaagtatca gtacctgatg gtgaagaacc 2820
tgagagacag caagctgctg aacgagtgga agagcagaaa catcaacgac acaagataca 2880
tcagcagatt cctggccaac tacctgaaca acaccctgat cttcaacagc gacaagaaaa 2940
agaacgtgta cgccatcaac ggcgccatca caagcagaat gagaaagatg tggctgaaca 3000
aaaagacctg gggcaacccc gagaagaaca gagagaacaa cctgcaccac gccgccgatg 3060
ccatcgtgat cgccaacctg acccccgccg ccgtggagct ggctagcgac aacctgaagc 3120
tgcagaacat cttccggcag aacgggaaaa gagtgaccga ggagtacgag aactacctgg 3180
acagagccgt gagaaagatc gagaagtact accacttcaa ccccgagctg gccaagaagc 3240
tgctggtgag caaggacaga atccctagca tggtgagact gctgagagag gaaaccgaca 3300
agagactggt ggaccctagc ctggaggagt tcaagatggt gacccccgag agcttcagac 3360
agaacctgga gcagtactac aacgaccccg agttcgtggc tagcattcag atgcccctgg 3420
tgagctacaa gcagagcaag agattcagcg gcagcttcac caaggacaag cccatcaaga 3480
aaaaggagag agaggacagc agcaccgtga agatcgacag cctgggcaac gagaacatcc 3540
tggacgccaa gagctactac tgcctggagg tgtacagcac aaaagacaac aaaaccgctc 3600
tgcggggcct gagatacgtg gacttcaagc tgaaggacaa gaagatgttc atcaccgtgc 3660
ccaaccccga gaattatggc aagcacatca tgtacctgtt caagaacgac tacatcgtgg 3720
tgtacaacaa gaagggcgag gagaaggcta gaggcttcta cagcagcgtg aaggccatca 3780
caagagatca gctgtacctg aaggacaaca acaccaacgt ggacatcatc ttcaccatca 3840
agaaggacga caccgtgaag aagtaccaca ttgacatcct ggggcagatc ggcggcgaga 3900
tcaagtgcag cgcccccttc ctgagcatca ccgagaagga gacaggcggc ggccccggcg 3960
gcggcgccgc cgccggcagc ggcagcccta agaaaaaacg aaaagttggc agcggaagca 4020
aaaggccggc ggccacgaaa aaggccggcc aggcaaaaaa gaaaaagctc gagtacccat 4080
acgatgttcc agattacgct tgagaattcc ccttgagcat ctgacttctg gctaataaag 4140
gaaatttatt ttcattgcaa tagtgtgttg gaattttttg tgtctctcag gtaccaaaaa 4200
aagccgctac ataatgtagc agcttaatga acaaaggagc ggaattgttc gggataccgc 4260
tataccctac ggcacataag gccttatctt agaactattg ttggatattg ataaactgac 4320
aatttctatc agtttatcaa tatccaacat agaactaaaa ccgcaatgat gatctccgag 4380
ccgttcggtg tttcgtcctt tccacaagat atataaagcc aagaaatcga aatactttca 4440
agttacggta agcatatgat agtccatttt aaaacataat tttaaaactg caaactaccc 4500
aagaaattat tactttctac gtcacgtatt ttgtactaat atctttgtgt ttacagtcaa 4560
attaattcca attatctctc taacagcctt gtatcgtata tgcaaatatg aaggaatcat 4620
gggaaatagg ccctcgcggc cgcaggaacc cctagtgatg gagttggcca ctccctctct 4680
gcgcgctcgc tcgctcactg aggccgggcg accaaaggtc gcccgacgcc cgggctttgc 4740
ccgggcggcc tcagtgagcg agcgagcgcg cagctgcctg caggggcgcc tgatgcggta 4800
ttttctcctt acgcatctgt gcggtatttc acaccgcata cgtcaaagca accatagtac 4860
gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag cgtgaccgct 4920
acacttgcca gcgccttagc gcccgctcct ttcgctttct tcccttcctt tctcgccacg 4980
ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt ccgatttagt 5040
gctttacggc acctcgaccc caaaaaactt gatttgggtg atggttcacg tagtgggcca 5100
tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt taatagtgga 5160
ctcttgttcc aaactggaac aacactcaac tctatctcgg gctattcttt tgatttataa 5220
gggattttgc cgatttcggt ctattggtta aaaaatgagc tgatttaaca aaaatttaac 5280
gcgaatttta acaaaatatt aacgtttaca attttatggt gcactctcag tacaatctgc 5340
tctgatgccg catagttaag ccagccccga cacccgccaa cacccgctga cgcgccctga 5400
cgggcttgtc tgctcccggc atccgcttac agacaagctg tgaccgtctc cgggagctgc 5460
atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga gacgaaaggg cctcgtgata 5520
cgcctatttt tataggttaa tgtcatgata ataatggttt cttagacgtc aggtggcact 5580
tttcggggaa atgtgcgcgg aacccctatt tgtttatttt tctaaataca ttcaaatatg 5640
tatccgctca tgagacaata accctgataa atgcttcaat aatattgaaa aaggaagagt 5700
atgagtattc aacatttccg tgtcgccctt attccctttt ttgcggcatt ttgccttcct 5760
gtttttgctc acccagaaac gctggtgaaa gtaaaagatg ctgaagatca gttgggtgca 5820
cgagtgggtt acatcgaact ggatctcaac agcggtaaga tccttgagag ttttcgcccc 5880
gaagaacgtt ttccaatgat gagcactttt aaagttctgc tatgtggcgc ggtattatcc 5940
cgtattgacg ccgggcaaga gcaactcggt cgccgcatac actattctca gaatgacttg 6000
gttgagtact caccagtcac agaaaagcat cttacggatg gcatgacagt aagagaatta 6060
tgcagtgctg ccataaccat gagtgataac actgcggcca acttacttct gacaacgatc 6120
ggaggaccga aggagctaac cgcttttttg cacaacatgg gggatcatgt aactcgcctt 6180
gatcgttggg aaccggagct gaatgaagcc ataccaaacg acgagcgtga caccacgatg 6240
cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg gcgaactact tactctagct 6300
tcccggcaac aattaataga ctggatggag gcggataaag ttgcaggacc acttctgcgc 6360
tcggcccttc cggctggctg gtttattgct gataaatctg gagccggtga gcgtggaagc 6420
cgcggtatca ttgcagcact ggggccagat ggtaagccct cccgtatcgt agttatctac 6480
acgacgggga gtcaggcaac tatggatgaa cgaaatagac agatcgctga gataggtgcc 6540
tcactgatta agcattggta actgtcagac caagtttact catatatact ttagattgat 6600
ttaaaacttc atttttaatt taaaaggatc taggtgaaga tcctttttga taatctcatg 6660
accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt agaaaagatc 6720
aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca aacaaaaaaa 6780
ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct ttttccgaag 6840
gtaactggct tcagcagagc gcagatacca aatactgttc ttctagtgta gccgtagtta 6900
ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct aatcctgtta 6960
ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc aagacgatag 7020
ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca gcccagcttg 7080
gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga aagcgccacg 7140
cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg aacaggagag 7200
cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt cgggtttcgc 7260
cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag cctatggaaa 7320
aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt tgctcacatg 7380
t 7381
<210> 43
<211> 184
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(184)
<223> Ca9-89sgRNA序列
<400> 43
gaacggcucg gagaucauca uugcgguuuu aguucuaugu uggauauuga uaaacugaua 60
gaaauuguca guuuaucaau auccaacaau aguucuaaga uaaggccuua ugugccguag 120
gguauagcgg uaucccgaac aauuccgcuc cuuuguucau uaagcugcua cauuauguag 180
cggc 184
<210> 44
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(19)
<223> 引物
<400> 44
acgccacaaa aaaacgcgc 19
<210> 45
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(21)
<223> 引物
<400> 45
ccgactggaa agcgggcagt g 21
<210> 46
<211> 440
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(440)
<223> ECBD_3313
<400> 46
atgaccatga ttacggattc actggccgtc gttttacaac gtcgtgactg ggaaaaccct 60
ggcgttaccc aacttaatcg ccttgcagca catccccctt tcgccagctg gcgtaatagc 120
gaagaggccc gcaccgatcg cccttcccaa cagttgcgca gcctgaatgg cgaatggcgc 180
tttgcctggt ttccggcacc agaagcggtg ccggaaagct ggctggagtg cgatcttcct 240
gaggccgata ctgtcgtcgt cccctcaaac tggcagatgc acggttacga tgcgcccatc 300
tacaccaacg tgacctatcc cattacggtc aatccgccgt ttgttcccac ggagaatccg 360
acgggttgtt actcgctcac atttaatgtt gatgaaagct ggctacagga aggccagacg 420
cgaattattt ttgatggcgt 440
<210> 47
<211> 180
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(180)
<223> sgRNA序列
<400> 47
uauuacgcca gcuggcgaaa guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60
uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120
uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180
<210> 48
<211> 20
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(20)
<223> 指导序列
<400> 48
uauuacgcca gcuggcgaaa 20
<210> 49
<211> 1569
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<221> PEPTIDE
<222> (1)..(1569)
<223> APOBEC-1-Ca2-UGI融合蛋白序列
<400> 49
Met Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys
1 5 10 15
Arg Lys Val Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu
20 25 30
Arg Arg Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg
35 40 45
Glu Leu Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly
50 55 60
Arg His Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val
65 70 75 80
Glu Val Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro
85 90 95
Asn Thr Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly
100 105 110
Glu Cys Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val
115 120 125
Thr Leu Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg
130 135 140
Asn Arg Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln
145 150 155 160
Ile Met Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn
165 170 175
Tyr Ser Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp
180 185 190
Val Arg Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro
195 200 205
Pro Cys Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe
210 215 220
Thr Ile Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile
225 230 235 240
Leu Trp Ala Thr Gly Leu Lys Ser Gly Gly Ser Ser Gly Gly Ser Ser
245 250 255
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
260 265 270
Gly Gly Ser Ser Gly Gly Ser Val Asp Lys Arg Lys Ile Gly Ile Gly
275 280 285
Leu Asp Val Gly Ile Gly Ser Val Gly Phe Ala Val Leu Ser Tyr Asp
290 295 300
Lys Val Tyr Asp Ala Arg Ile Glu Gln Val Gly Val Arg Leu Phe Asp
305 310 315 320
Ser Gly Glu Glu Pro Lys Thr Lys Val Ser Lys Asn Gln Gly Arg Arg
325 330 335
Gln Tyr Arg Ala Gly Arg Arg Leu Ile Arg Arg Arg Tyr His Arg Lys
340 345 350
Glu Arg Ala Lys Arg Phe Ile Glu Arg Ile Gly Leu Leu Ser Ala Asp
355 360 365
Lys Ile Lys Glu Trp Gln Glu Val Asn Gly Asn Gln Asn Ile Tyr Tyr
370 375 380
Val Arg Phe Arg Gly Leu Ser Glu Lys Leu Thr Pro Gln Glu Ile Ala
385 390 395 400
Asp Cys Val Ile His Phe Cys Asn His Arg Gly Tyr Arg Glu Phe Tyr
405 410 415
Glu Asp Asp Val Ala Asp Glu Lys Glu Ala Gly Lys Ile Lys Thr Ala
420 425 430
Leu Ser Arg Phe Asp Glu Lys Met Ala Ala Gly Lys Tyr Val Ser Val
435 440 445
Ala Asp Met Ile Leu His Asp Asn Glu Phe Ser Thr Asn Thr Gln Phe
450 455 460
Pro Asp Phe His Asn His Lys Gly Asp Asp Asp Glu Lys Tyr Phe Leu
465 470 475 480
Ile Lys Arg Ala Ala Leu Arg Asp Glu Leu Arg Ala Ile Leu Arg Lys
485 490 495
Gln Gln Glu Phe Tyr Glu Gln Leu Thr Glu His Asn Ile Asp Phe Leu
500 505 510
Cys Asp Asp Ile Val Phe Val Gln Arg Asp Phe Glu Asp Gly Pro Gly
515 520 525
Asp Lys Thr Asp Lys Lys Arg Lys Phe Met Gly Phe Leu Asp Ser Ile
530 535 540
Gly Cys Cys Met Phe Tyr Lys Glu Glu Val Arg Gly Tyr Arg Ser Thr
545 550 555 560
Val Ile Ala Asp Ile Tyr Ser Leu Val Asn Gly Leu Ser Lys Met Met
565 570 575
Tyr Val Asp Ser Thr Thr Gly Glu Ile Thr Phe Leu Pro Glu Ala Ala
580 585 590
Asp Lys Ile Ile Asp Phe Ala Leu Lys Asn Ala Ser Ile Thr Glu Lys
595 600 605
Asp Ile Lys Glu Ile Leu Lys Lys Tyr Asn Leu Thr Leu Ile Lys Ala
610 615 620
Glu Lys Leu Glu Glu Asn Ile Pro Gln Thr Ile Lys Thr Leu Lys Ile
625 630 635 640
Leu Lys Lys Ile Leu Asp Asp Ser Gly Tyr Ser Tyr Asp Glu Leu Ile
645 650 655
Lys Glu Glu Gln Phe Asp Phe Asp Arg Pro Ser Lys Leu His Glu Leu
660 665 670
Cys Ser Leu Leu Ala Ser Asn Ile Thr Pro Lys Arg Arg Arg Lys Ala
675 680 685
Leu Glu Lys Ala Gly Trp Asn Lys Ala Leu Gln Glu Gln Thr Arg Arg
690 695 700
Ile His Phe Gly Gly Thr Ser Asn Val Cys Tyr Arg Tyr Met Leu Glu
705 710 715 720
Ala Ile Asp Ala Phe Arg His Gly Glu Leu Tyr Gly Asn Phe Gln Ala
725 730 735
Arg Arg Asn Lys Glu Gln Leu Thr Asp Glu Ala Glu Asn Thr Glu Lys
740 745 750
Val Arg Leu Leu Pro Pro Phe Thr Lys Glu Met Asp Glu Asp Val Val
755 760 765
Lys Asn Val Val Val Phe Lys Ala Ile Asn Glu Thr Arg Lys Ile Ile
770 775 780
Asn Ala Leu Ile Gly Lys Tyr Gly Ser Pro Ala Tyr Ile Asn Ile Glu
785 790 795 800
Val Ala Asp Glu Leu Gly His Ser Ile Glu Thr Arg Arg Lys Met Thr
805 810 815
Lys Ala Asn Asn Glu Lys Met Lys Lys Lys Glu Ala Ile Ser Thr Lys
820 825 830
Leu Val Glu Leu Gly Leu Arg Lys Glu Gly Glu Val Ser Gly Lys Asp
835 840 845
Ile Ala Arg Tyr Arg Leu Trp Glu Gln Gln Asp Gly Ile Asp Leu Tyr
850 855 860
Thr Gly Glu Asn Ile Pro Glu Ala Asp Val Leu Ser Gly Gln Tyr Asp
865 870 875 880
Ile Asp His Ile Ile Pro Phe Ser Leu Ile Leu Asp Asp Thr Leu Asn
885 890 895
Asn Lys Val Leu Thr Gly Met Gly Ser Asn Arg Gln Ala Lys Ser Asn
900 905 910
Lys Ala Pro Arg Glu Tyr Leu Ser Asp Lys Ala Glu Leu Glu Phe Ile
915 920 925
Lys Arg Val Asn Ile Leu Leu Lys Lys Lys Ile Ile Ser Lys Lys Lys
930 935 940
Tyr Lys Tyr Leu Met Val Lys Asn Leu Arg Asp Ser Lys Leu Leu Asp
945 950 955 960
Glu Trp Lys Ser Arg Asn Ile Asn Asp Thr Arg Tyr Ile Ser Arg Phe
965 970 975
Leu Val Asn Tyr Leu Asn Asn Met Leu Leu Phe Asn Ser Asp Lys Lys
980 985 990
Lys Asn Val Tyr Ala Ile Asn Gly Ala Ile Thr Ser Lys Met Arg Lys
995 1000 1005
Leu Trp Leu Asn Lys Arg Thr Trp Gly Thr Pro Glu Lys Asn Arg Glu
1010 1015 1020
Asn Asn Leu His His Ala Ala Asp Ala Ile Val Ile Ala Asn Leu Thr
1025 1030 1035 1040
Pro Ala Ala Val Glu Leu Ala Ser Asp Asn Leu Lys Leu Gln Asn Ile
1045 1050 1055
Phe Arg Gln Asn Gly Lys Arg Val Thr Glu Glu Tyr Asp Asn Tyr Leu
1060 1065 1070
Asp Lys Ala Val Arg Lys Met Glu Lys Tyr Tyr His Leu Asn Glu Glu
1075 1080 1085
Leu Ala Lys Asn Leu Leu Val Arg Lys Asp Arg Ile Pro Ser Met Val
1090 1095 1100
Arg Ser Leu Arg Glu Glu Thr Asp Lys Arg Leu Val Asp Thr Ser Leu
1105 1110 1115 1120
Glu Glu Phe Asn Met Val Thr Pro Glu Ala Phe Arg Lys Asn Leu Glu
1125 1130 1135
Gln Tyr Tyr Asn Asp Ser Asp Phe Val Ala Ser Ile Gln Met Pro Leu
1140 1145 1150
Val Ser Tyr Lys Gln Ser Lys Arg Phe Ser Gly Ser Phe Thr Lys Asp
1155 1160 1165
Asn Pro Ile Lys Lys Lys Asp Lys Glu Asp Ser Ser Ser Val Lys Met
1170 1175 1180
Asp Ser Leu Gly Asn Glu Asn Ile Leu Asp Ala Lys Ser Tyr Tyr Cys
1185 1190 1195 1200
Leu Glu Val Tyr Ser Thr Lys Asp Asn Lys Thr Ala Leu Arg Gly Leu
1205 1210 1215
Arg Tyr Val Asp Phe Lys Leu Lys Asn Lys Lys Met Phe Ile Asn Val
1220 1225 1230
Pro Asn Pro Asp Asn Tyr Asp Lys His Ile Met Tyr Leu Phe Lys Asn
1235 1240 1245
Asp Tyr Ile Val Val Tyr Asn Lys Lys Gly Glu Glu Arg Ile Lys Gly
1250 1255 1260
Tyr Tyr Thr Gly Ile Lys Asn Ile Lys Ala Asn Arg Phe Tyr Leu Ile
1265 1270 1275 1280
Ser Asn Asn Asp Ala Val Arg Lys Asp Phe Thr Leu Ser Lys Asp Asp
1285 1290 1295
Thr Ile Lys Lys Tyr His Ile Asp Ile Leu Gly Gln Ile Gly Gly Glu
1300 1305 1310
Val Lys Cys Ser Ala Pro Phe Leu Ser Ile Thr Glu Lys Glu Ser Gly
1315 1320 1325
Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Thr Asn
1330 1335 1340
Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln
1345 1350 1355 1360
Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn
1365 1370 1375
Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr
1380 1385 1390
Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro
1395 1400 1405
Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met
1410 1415 1420
Leu Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Thr Asn Leu Ser Asp
1425 1430 1435 1440
Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln Glu Ser Ile
1445 1450 1455
Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn Lys Pro Glu
1460 1465 1470
Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn
1475 1480 1485
Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu
1490 1495 1500
Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu Ser Gly
1505 1510 1515 1520
Gly Ser Lys Arg Thr Ala Asp Gly Ser Glu Phe Pro Lys Lys Lys Arg
1525 1530 1535
Lys Val Gly Ser Gly Ser Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly
1540 1545 1550
Gln Ala Lys Lys Lys Lys Leu Glu Tyr Pro Tyr Asp Val Pro Asp Tyr
1555 1560 1565
Ala
<210> 50
<211> 7730
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(7730)
<223> 质粒CBE-Ca2-LacZgRNA02
<400> 50
catgattcct tcatatttgc atatacgagc ggccgccata gtacgcgccc tgtagcggcg 60
cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt gccagcgcct 120
tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc ggctttcccc 180
gtcaagctct aaatcggggg ctccctttag ggttccgatt tagtgcttta cggcacctcg 240
accccaaaaa acttgatttg ggtgatggtt cacgtagtgg gccatcgccc tgatagacgg 300
tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg ttccaaactg 360
gaacaacact caactctatc tcgggctatt cttttgattt ataagggatt ttgccgattt 420
cggtctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat tttaacaaaa 480
tattaacgtt tacaatttta tggtgcactc tcagtacaat ctgctctgat gccgcatagt 540
taagccagcc ccgacacccg ccaacacccg ctgacgcgcc ctgacgggct tgtctgctcc 600
cggcatccgc ttacagacaa gctgtgaccg tctccgggag ctgcatgtgt cagaggtttt 660
caccgtcatc accgaaacgc gcgagacgaa agggcctcgt gatacgccta tttttatagg 720
ttaatgtcat gataataatg gtttcttaga cgtcaggtgg cacttttcgg ggaaatgtgc 780
gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg ctcatgagac 840
aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt attcaacatt 900
tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt gctcacccag 960
aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg ggttacatcg 1020
aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa cgttttccaa 1080
tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt gacgccgggc 1140
aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag tactcaccag 1200
tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt gctgccataa 1260
ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga ccgaaggagc 1320
taaccgcttt tttgcacaac atgggggatc atgtaactcg ccttgatcgt tgggaaccgg 1380
agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta gcaatggcaa 1440
caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg caacaattaa 1500
tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc cttccggctg 1560
gctggtttat tgctgataaa tctggagccg gtgagcgtgg aagccgcggt atcattgcag 1620
cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg gggagtcagg 1680
caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg attaagcatt 1740
ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa cttcattttt 1800
aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa atcccttaac 1860
gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga tcttcttgag 1920
atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg ctaccagcgg 1980
tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact ggcttcagca 2040
gagcgcagat accaaatact gttcttctag tgtagccgta gttaggccac cacttcaaga 2100
actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg gctgctgcca 2160
gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg gataaggcgc 2220
agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga acgacctaca 2280
ccgaactgag atacctacag cgtgagctat gagaaagcgc cacgcttccc gaagggagaa 2340
aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg agggagcttc 2400
cagggggaaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc tgacttgagc 2460
gtcgattttt gtgatgctcg tcaggggggc ggagcctatg gaaaaacgcc agcaacgcgg 2520
cctttttacg gttcctggcc ttttgctggc cttttgctca catgtcaatt gacattgatt 2580
attgactagt ccgggtttac actttatgct tccggctcgt ataatgtgtg gattttgagt 2640
taggatctaa agaggagaaa accggtgcca ccatgaaacg gacagccgac ggaagcgagt 2700
tcgagtcacc aaagaagaag cggaaagtct cctcagagac tgggcctgtc gccgtcgatc 2760
caaccctgcg ccgccggatt gaacctcacg agtttgaagt gttctttgac ccccgggagc 2820
tgagaaagga gacatgcctg ctgtacgaga tcaactgggg aggcaggcac tccatctgga 2880
ggcacacctc tcagaacaca aataagcacg tggaggtgaa cttcatcgag aagtttacca 2940
cagagcggta cttctgcccc aataccagat gtagcatcac atggtttctg agctggtccc 3000
cttgcggaga gtgtagcagg gccatcaccg agttcctgtc cagatatcca cacgtgacac 3060
tgtttatcta catcgccagg ctgtatcacc acgcagaccc aaggaatagg cagggcctgc 3120
gcgatctgat cagctccggc gtgaccatcc agatcatgac agagcaggag tccggctact 3180
gctggcggaa cttcgtgaat tattctccta gcaacgaggc ccactggcct aggtacccac 3240
acctgtgggt gcgcctgtac gtgctggagc tgtattgcat catcctgggc ctgccccctt 3300
gtctgaatat cctgcggaga aagcagcccc agctgacctt ctttacaatc gccctgcagt 3360
cttgtcacta tcagaggctg ccaccccaca tcctgtgggc cacaggcctg aagtctggag 3420
gatctagcgg aggatcctct ggcagcgaga caccaggaac aagcgagtca gcaacaccag 3480
agagcagtgg cggcagcagc ggcggcagcg tcgacaagag aaagatcggc atcggcctgg 3540
acgtgggcat cggcagcgtg ggcttcgccg tgctgagcta cgacaaggtg tacgacgcca 3600
gaatcgagca ggtgggcgtg agactgttcg acagcggcga ggagcccaag accaaggtga 3660
gcaagaacca gggcagaaga cagtacagag ccggcagaag actgatcaga agaagatacc 3720
acagaaagga gagagccaaa agattcatcg agagaatcgg cctgctgagc gccgacaaga 3780
tcaaggagtg gcaggaggtg aacggcaacc agaacatcta ctacgtgaga ttcagaggcc 3840
tgagcgagaa gctgaccccc caggagatcg ccgactgcgt gatccacttc tgcaaccaca 3900
gaggctacag agagttctac gaggacgacg tggccgacga gaaggaggcc ggcaagatca 3960
agaccgccct gagcagattc gacgagaaga tggccgccgg caagtacgtg agcgtggccg 4020
acatgatcct gcacgacaac gagttcagca ccaacaccca gttccccgac ttccacaacc 4080
acaagggcga cgacgacgag aagtacttcc tgatcaagag agccgccctg agagacgagc 4140
tgagagccat cctgagaaag cagcaggagt tctacgagca gctgaccgag cacaacatcg 4200
acttcctgtg cgacgacatc gtgttcgtgc agagagactt cgaggacggc cccggcgaca 4260
agaccgacaa gaagagaaag ttcatgggct tcctggacag catcggctgc tgcatgttct 4320
acaaggagga ggtgagaggc tacagaagca ccgtgatcgc cgacatctac agcctggtga 4380
acggcctgag caagatgatg tacgtggaca gcaccaccgg cgagatcacc ttcctgcccg 4440
aggccgccga caagatcatc gacttcgccc tgaagaacgc cagcatcacc gagaaggaca 4500
tcaaggagat cctgaagaag tacaacctga ccctgatcaa ggccgagaag ctggaggaga 4560
acatccccca gaccatcaag accctgaaga tcctgaagaa gatcctggac gacagcggct 4620
acagctacga cgagctgatc aaggaggagc agttcgactt cgacagaccc agcaagctgc 4680
acgagctgtg cagcctgctg gccagcaaca tcacccccaa gagaagaaga aaggccctgg 4740
agaaggccgg ctggaacaag gccctgcagg agcagaccag aagaatccac ttcggcggca 4800
ccagcaacgt gtgctacaga tacatgctgg aggccatcga cgccttcaga cacggcgagc 4860
tgtacggcaa cttccaggcc agaagaaaca aggagcagct gaccgacgag gccgagaaca 4920
ccgagaaggt gagactgctg ccccccttca ccaaggagat ggacgaggac gtggtgaaga 4980
acgtggtggt gttcaaggcc atcaacgaga caagaaagat catcaacgcc ctgatcggca 5040
agtacggcag ccccgcctac atcaacatcg aggtggccga cgagctgggc cacagcatcg 5100
agacaagaag aaagatgacc aaggccaaca acgagaagat gaagaagaag gaggccatca 5160
gcaccaagct ggtggagctg ggcctgagaa aggagggcga ggtgagcggc aaggacatcg 5220
ccagatacag actgtgggag cagcaggacg gcatcgacct gtacaccggc gagaacatcc 5280
ccgaggccga cgtgctgagc ggccagtacg acatcgacca catcatcccc ttcagcctga 5340
tcctggacga caccctgaac aacaaggtgc tgaccggcat gggcagcaac agacaggcca 5400
agagcaacaa ggcccccaga gagtacctga gcgacaaggc cgagctggag ttcatcaaga 5460
gagtgaacat cctgctgaag aagaagatca tcagcaagaa gaagtacaag tacctgatgg 5520
tgaagaacct gagagacagc aagctgctgg acgagtggaa gagcagaaac atcaacgaca 5580
ccagatacat cagcagattc ctggtgaact acctgaacaa catgctgctg ttcaacagcg 5640
acaagaagaa gaacgtgtac gccatcaacg gcgccatcac cagcaagatg agaaagctgt 5700
ggctgaacaa gagaacctgg ggcacccccg agaagaacag agagaacaac ctgcaccacg 5760
ccgccgacgc catcgtgatc gccaacctga cccccgccgc cgtggagctg gccagcgaca 5820
acctgaagct gcagaacatc ttcagacaga acggcaagag agtgaccgag gagtacgaca 5880
actacctgga caaggccgtg agaaagatgg agaagtacta ccacctgaac gaggagctgg 5940
ccaagaacct gctggtgaga aaggacagaa tccccagcat ggtgagaagc ctgagagagg 6000
agacagacaa gagactggtg gacaccagcc tggaggagtt caacatggtg acccccgagg 6060
ccttcagaaa gaacctggag cagtactaca acgacagcga cttcgtggcc agcatccaga 6120
tgcccctggt gagctacaag cagagcaaga gattcagcgg cagcttcacc aaggacaacc 6180
ccatcaagaa gaaggacaag gaggacagca gcagcgtgaa gatggacagc ctgggcaacg 6240
agaacatcct ggacgccaag agctactact gcctggaggt gtacagcacc aaggacaaca 6300
agaccgccct gagaggcctg agatacgtgg acttcaagct gaagaacaag aagatgttca 6360
tcaacgtgcc caaccccgac aactacgaca agcacatcat gtacctgttc aagaacgact 6420
acatcgtggt gtacaacaag aagggcgagg agagaatcaa gggctactac accggcatca 6480
agaacatcaa ggccaacaga ttctacctga tcagcaacaa cgacgccgtg agaaaggact 6540
tcaccctgag caaggacgac accatcaaga agtaccacat cgacatcctg ggccagatcg 6600
gcggcgaggt gaagtgcagc gcccccttcc tgagcatcac cgagaaggag agcggcggga 6660
gcggcgggag cggcgggagc ggcgggagcg gggggagcac taatctgagc gacatcattg 6720
agaaggagac tgggaaacag ctggtcattc aggagtccat cctgatgctg cctgaggagg 6780
tggaggaagt gatcggcaac aagccagagt ctgacatcct ggtgcacacc gcctacgacg 6840
agtccacaga tgagaatgtg atgctgctga cctctgacgc ccccgagtat aagccttggg 6900
ccctggtcat ccaggattct aacggcgaga ataagatcaa gatgctgagc ggaggatccg 6960
gaggatctgg aggcagcacc aacctgtctg acatcatcga gaaggagaca ggcaagcagc 7020
tggtcatcca ggagagcatc ctgatgctgc ccgaagaagt cgaagaagtg atcggaaaca 7080
agcctgagag cgatatcctg gtccataccg cctacgacga gagtaccgac gaaaatgtga 7140
tgctgctgac atccgacgcc ccagagtata agccctgggc tctggtcatc caggattcca 7200
acggagagaa caaaatcaaa atgctgtctg gcggctcaaa aagaaccgcc gacggcagcg 7260
aatttcctaa gaaaaaacga aaagttggca gcggaagcaa aaggccggcg gccacgaaaa 7320
aggccggcca ggcaaaaaag aaaaagctcg agtacccata cgatgttcca gattacgctt 7380
gagaattcta gaataacctg aggtaccgtt aacaaataaa acgaaaggct cagtcgaaag 7440
actgggcctt tcgttttatc tgttgtttgc ggtgaacgct ctcgtcgact tgacagctag 7500
ctcagtccta ggtataatac tagttattac gccagctggc gaaagtttta gttctatgtt 7560
ggatattgat aaactgatac gaaattgtca gtttatcaat atccaacaat agttctaaga 7620
taaggcctta tgtgccgtag ggtatagcgg tatcccgaac aattccgctg ctttgagtat 7680
taagctgcta catcatgtag cagctttttt ctcgaggttt aaacagatct 7730
Claims (50)
1.一种CRISPR-CAS复合物,其包括:
(1) Cas9蛋白;和
(2) 向导RNA;
其中,所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合:
(a) 分离自厚壁菌门(firmicutes)厌氧弧菌属(Anaerovibriosp.)的菌株;
(b) 包含SEQ ID NO:1所示多肽,包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物,为SEQ ID NO:1所示多肽,或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物;
(c) 其序列中包含RuvC结构域和HNH结构域;
(d) 能与向导RNA形成复合物,能在向导RNA引导下结合靶核酸,或能在向导RNA引导下切割或修饰靶核酸;
(e) 识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T;或
(f) 在25℃~55℃能发挥(d)中任一项功能。
2.如权利要求1所述的CRISPR-CAS复合物,其特征在于,所述Cas9蛋白包括选自下组的多肽:
(i) SEQ ID NO: 1所示氨基酸序列的多肽;
(ii)与SEQ ID NO:1所示多肽有至少90%序列同一性的多肽;
(iii)将(i)的多肽的氨基酸序列经过一个或多个氨基酸残基的取代、缺失或添加而形成的,且具有(i)多肽的功能的多肽;
(iv) (i)~(iii)任一所述多肽的片段,其包含RuvC结构域、HNH结构域或结合靶核酸序列的结构域,且具有(i)多肽的功能;或
(v) (i)~(iv)任一所述多肽的N或C末端添加包括标签序列、定位序列,或在其N或C末端添加信号肽序列后形成的多肽。
3.如权利要求1所述的CRISPR-CAS复合物,其特征在于,所述Cas9蛋白为Cas9-nickase,所述Cas9-nickase为所述Cas9蛋白的变体,所述Cas9-nickase在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链。
4.如权利要求1所述的CRISPR-CAS复合物,其特征在于,所述Cas9蛋白为dCas9,所述dCas9为所述Cas9蛋白的变体,其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失,其在向导RNA引导下能与靶核酸序列结合。
5.如权利要求1所述的CRISPR-CAS复合物,其特征在于,所述向导RNA包含指导序列、同向重复序列和tracrRNA序列,所述指导序列与靶序列互补,所述tracrRNA可与Cas9蛋白和同向重复序列相互作用。
6.如权利要求5所述的CRISPR-CAS复合物,所述tracrRNA与同向重复序列连接成为向导RNA的骨架序列,所述骨架序列的长度范围为≤190nt、≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt或≤180nt。
7.如权利要求5所述的CRISPR-CAS复合物,所述向导RNA包含≤3个茎环结构。
8.如权利要求7所述的CRISPR-CAS复合物,其特征在于,所述向导RNA具有SEQ ID NO:3所示的核苷酸序列或其截短体。
9.如权利要求1所述的CRISPR-CAS复合物,其特征在于,所述Cas9蛋白在25℃~55℃能发挥以下任一项功能:与向导RNA形成复合物,在向导RNA引导下结合靶核酸或在向导RNA引导下切割或修饰靶核酸。
10.如权利要求1所述的CRISPR-CAS复合物,其特征在于,所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T。
11.一种分离的Cas9蛋白,所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合:
(a) 分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibriosp.)的菌株;
(b) 包含SEQ ID NO:1所示多肽,包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物,为SEQ ID NO:1所示多肽,或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物;
(c) 其序列中包含RuvC结构域和HNH结构域;
(d) 能与向导RNA形成复合物,能在向导RNA引导下结合靶核酸,或能在向导RNA引导下切割或修饰靶核酸;
(e) 识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T;或
(f) 在25℃~55℃能发挥(d)中任一项功能。
12.如权利要求11所述的Cas9蛋白,其特征在于,所述Cas9蛋白包括选自下组的多肽:
(i) SEQ ID NO: 1所示氨基酸序列的多肽;
(ii)与SEQ ID NO:1所示多肽有至少90%序列同一性的多肽;
(iii)将(i)的多肽的氨基酸序列经过一个或多个氨基酸残基的取代、缺失或添加而形成的,且具有(i)多肽的功能的多肽;
(iv) (i)~(iii)任一所述多肽的片段,其包含RuvC结构域、HNH结构域及结合靶核酸序列的结构域,且具有(i)多肽的功能;或
(v) (i)~(iv)任一所述多肽的N或C末端添加包括标签序列、定位序列,或在其N或C末端添加信号肽序列后形成的多肽。
13.如权利要求11所述的Cas9蛋白,其特征在于,所述Cas9蛋白为Cas9-nickase,所述Cas9-nickase为所述Cas9蛋白的变体,其在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链。
14.如权利要求11所述的Cas9蛋白,其特征在于,所述Cas9蛋白为dCas9,所述dCas9为所述Cas9蛋白的变体,其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失,其在向导RNA引导下能与靶核酸序列结合。
15.如权利要求11所述的Cas9蛋白,其特征在于,所述向导RNA包含指导序列、同向重复序列和tracrRNA序列,所述指导序列与靶序列互补,所述tracrRNA可与Cas9蛋白和DR序列相互作用。
16.如权利要求11所述的Cas9蛋白,其特征在于,所述向导RNA包含≤3个茎环结构。
17.如权利要求11所述的Cas9蛋白,其特征在于,所述Cas9蛋白在25℃~55℃能发挥以下任一项功能:与向导RNA形成复合物,在向导RNA引导下结合靶核酸或在向导RNA引导下切割或修饰靶核酸。
18.如权利要求11所述的Cas9蛋白,其特征在于,所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’,其中D为A、G或T,R为A或G,N为A、C、G或T。
19.一种融合蛋白,其特征在于,所述融合蛋白包含:权利要求11~18任一所述的Cas9蛋白,以及与之融合的异源功能结构域。
20.如权利要求19所述的融合蛋白,其特征在于,所述异源功能结构域在所述Cas9蛋白的N端、C端或内部进行融合。
21.如权利要求19所述的融合蛋白,其特征在于,所述异源功能结构域任选自:报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶、DNA或RNA 连接酶,或以上任意的组合。
22.如权利要求19所述的融合蛋白,其特征在于,所述异源功能结构域任选自:腺苷脱氨酶,胞苷脱氨酶,碱基切除修复抑制剂,核定位信号,核输出信号,或以上任意的组合。
23.如权利要求19所述的融合蛋白,其特征在于,所述异源功能结构域与所述Cas9蛋白之间还包括接头。
24.一种缀合物,其特征在于,所述缀合物包含:权利要求11~18任一所述的Cas9蛋白,以及与之缀合的异源功能部分。
25.如权利要求24所述的缀合物,其特征在于,所述异源功能部分缀合于所述Cas9蛋白的N端、C端或内部。
26.如权利要求24所述的缀合物,其特征在于,所述异源功能部分任选自:报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶、DNA或RNA 连接酶、功能性化学分子,或以上任意的组合。
27.一种向导RNA,其引导权利要求11~18任一所述的Cas9蛋白结合至靶序列,所述向导RNA包含指导序列、同向重复序列和tracrRNA序列,所述指导序列与靶序列互补,所述tracrRNA可与所述Cas9蛋白和同向重复序列相互作用。
28.如权利要求27所述的向导RNA,所述tracrRNA与同向重复序列连接成为gRNA的骨架序列,所述骨架序列的长度范围为20nt-190nt。
29.如权利要求27所述的向导RNA,其包含≤3个茎环结构。
30.如权利要求27所述的向导RNA,其特征在于,茎环1的茎部具有8~35对碱基对;或茎环2的茎部具有4~12对碱基对;或茎环3的茎部具有3~10对碱基对;或双链体1具有4~11对碱基对;或凸起1具有2-8个非互补碱基;或茎环1的环部具有4~12个非互补碱基;或茎环2的环部具有2~10个非互补碱基;或茎环3的环部具有6~20个非互补碱基。
31.如权利要求27所述的向导RNA,其特征在于,所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体。
32.分离的多核苷酸,其编码权利要求11~18任一所述的Cas9蛋白、权利要求19~23任一所述的融合蛋白或权利要求24~26任一所述的缀合物的蛋白质部分。
33.如权利要求32所述的多核苷酸,其特征在于,所述Cas9蛋白的多核苷酸具有SEQ IDNO: 2所示的核苷酸序列,或与其简并的序列。
34.一种重组载体,它含有
(a)权利要求32或33所述的多核苷酸,
(b)编码权利要求27~31任一所述向导RNA的多核苷酸,或
(a)与(b)的组合。
35.如权利要求34所述的重组载体,其特征在于,所述多核苷酸还与启动子、增强子和/或终止子可操作地连接。
36.如权利要求34所述的重组载体,其特征在于,该载体包括:病毒载体或非病毒载体。
37.一种重组细胞,它含有权利要求34~36任一所述的重组载体。
38.一种制备权利要求11~18任一所述的Cas9蛋白、权利要求19~23任一所述的融合蛋白或权利要求24~26任一所述的缀合物的蛋白部分的方法,包括:培养权利要求37所述的重组细胞,从培养物中分离出所述的Cas9蛋白、融合蛋白或缀合物的蛋白部分。
39.权利要求11~18任一所述的Cas9蛋白、权利要求19~23任一所述的融合蛋白或权利要求24~26任一所述的缀合物或权利要求1~10任一所述CRISPR-CAS复合物的用途,用于结合、切割或修饰靶核酸序列,或用于制备结合、切割或修饰靶核酸序列的试剂。
40.如权利要求39所述的用途,其特征在于,所述Cas9蛋白、融合蛋白或缀合物与向导RNA形成复合物,针对靶核酸序列的特定位点进行核酸序列结合、切割或修饰。
41.如权利要求39所述的用途,其特征在于,所述Cas9蛋白为Cas9核酸酶,其用于切割靶核酸序列,或用于制备切割靶核酸序列的试剂;或
所述Cas9蛋白为Cas9-nickase,其用于结合或切割靶核酸序列,或用于制备结合或切割靶核酸序列的试剂;或
所述Cas9蛋白为dCas9,其用于调控靶核酸的转录激活或转录抑制,或用于制备调控靶核酸的转录激活或转录抑制的试剂。
42.如权利要求39所述的用途,其特征在于,所述靶核酸在细胞内。
43.一种递送系统,其特征在于,其包含:递送载体;以及,权利要求11~18任一所述的Cas9蛋白、权利要求19~23任一所述的融合蛋白或权利要求24~26任一所述的缀合物、权利要求1~10任一所述的CRISPR-CAS复合物或权利要求34~36任一所述的载体。
44.一种结合、切割或修饰靶核酸的方法,其特征在于,所述方法包括:使得权利要求1~10任一所述的CRISPR-CAS复合物结合至靶核酸、切割靶核酸或修饰靶核酸。
45.如权利要求44所述的方法,其特征在于,所述靶核酸在细胞内。
46.如权利要求44所述的方法,其特征在于,通过直接引入的方式将所述的CRISPR-CAS复合物引入细胞,结合至靶核酸;或
将编码所述CRISPR-CAS复合物的多核苷酸或含有该多核苷酸的表达构建体转化细胞,在细胞内表达并形成所述CRISPR-CAS复合物,结合至靶核酸。
47.如权利要求44所述的方法,其特征在于,所述方法在25℃~55℃进行。
48.一种检测待测样品中靶核酸存在情况的方法,其特征在于,包括使得权利要求1~10任一所述的CRISPR-CAS复合物与靶核酸结合;所述CRISPR-CAS复合物包括:权利要求19~23任一所述的融合蛋白或权利要求24~26任一所述的缀合物;所述融合蛋白或缀合物含有Cas9蛋白且含有可检测标记;其中当CRISPR-CAS复合物与靶核酸结合时,含有Cas9蛋白的融合蛋白或缀合物结合、切割或修饰靶核酸,通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况。
49.一种组合物,其特征在于,其包括:权利要求11~18任一所述的Cas9蛋白、权利要求19~23任一所述的融合蛋白、权利要求24~26任一所述的缀合物、权利要求1~10任一所述的CRISPR-CAS复合物、权利要求34~36任一所述的载体或权利要求43所述的递送系统。
50.一种试剂盒或药盒,其特征在于,其中包括:权利要求11~18任一所述的Cas9蛋白、权利要求19~23任一所述的融合蛋白、权利要求24~26任一所述的缀合物、权利要求1~10任一所述的CRISPR-CAS复合物、权利要求34~36任一所述的载体、权利要求43所述的递送系统,或权利要求49所述的组合物。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210576535.8A CN114934031B (zh) | 2022-05-25 | 2022-05-25 | 新型Cas效应蛋白、基因编辑系统及用途 |
PCT/CN2023/096059 WO2023227028A1 (zh) | 2022-05-25 | 2023-05-24 | 新型Cas效应蛋白、基因编辑系统及用途 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210576535.8A CN114934031B (zh) | 2022-05-25 | 2022-05-25 | 新型Cas效应蛋白、基因编辑系统及用途 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114934031A true CN114934031A (zh) | 2022-08-23 |
CN114934031B CN114934031B (zh) | 2023-08-01 |
Family
ID=82864257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210576535.8A Active CN114934031B (zh) | 2022-05-25 | 2022-05-25 | 新型Cas效应蛋白、基因编辑系统及用途 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114934031B (zh) |
WO (1) | WO2023227028A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116083400A (zh) * | 2022-12-08 | 2023-05-09 | 广州瑞风生物科技有限公司 | Cas蛋白截短体、构建其的方法及其应用 |
CN116949012A (zh) * | 2023-09-20 | 2023-10-27 | 广州瑞风生物科技有限公司 | 一种融合蛋白及其应用 |
WO2023227028A1 (zh) * | 2022-05-25 | 2023-11-30 | 广州瑞风生物科技有限公司 | 新型Cas效应蛋白、基因编辑系统及用途 |
WO2024141002A1 (zh) * | 2022-12-30 | 2024-07-04 | 上海吐露港生物科技有限公司 | 基于拆分Cas蛋白的非核酸靶标检测方法及应用 |
WO2024149810A3 (en) * | 2023-01-11 | 2024-08-22 | Alia Therapeutics Srl | Type ii cas proteins and applications thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513582A (zh) * | 2015-06-18 | 2018-09-07 | 布罗德研究所有限公司 | 新型crispr酶以及系统 |
CN110352241A (zh) * | 2016-12-14 | 2019-10-18 | 瓦赫宁根大学 | 热稳定的Cas9核酸酶 |
CN111417727A (zh) * | 2017-05-18 | 2020-07-14 | 博德研究所 | 用于靶向核酸编辑的系统、方法和组合物 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3375877A1 (en) * | 2013-11-18 | 2018-09-19 | Crispr Therapeutics AG | Crispr-cas system materials and methods |
IL294014B2 (en) * | 2015-10-23 | 2024-07-01 | Harvard College | Nucleobase editors and their uses |
CN113403294B (zh) * | 2021-06-04 | 2023-08-08 | 广州大学 | 一种融合蛋白、碱基编辑工具及其应用 |
CN114934031B (zh) * | 2022-05-25 | 2023-08-01 | 广州瑞风生物科技有限公司 | 新型Cas效应蛋白、基因编辑系统及用途 |
-
2022
- 2022-05-25 CN CN202210576535.8A patent/CN114934031B/zh active Active
-
2023
- 2023-05-24 WO PCT/CN2023/096059 patent/WO2023227028A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513582A (zh) * | 2015-06-18 | 2018-09-07 | 布罗德研究所有限公司 | 新型crispr酶以及系统 |
CN110352241A (zh) * | 2016-12-14 | 2019-10-18 | 瓦赫宁根大学 | 热稳定的Cas9核酸酶 |
CN111417727A (zh) * | 2017-05-18 | 2020-07-14 | 博德研究所 | 用于靶向核酸编辑的系统、方法和组合物 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023227028A1 (zh) * | 2022-05-25 | 2023-11-30 | 广州瑞风生物科技有限公司 | 新型Cas效应蛋白、基因编辑系统及用途 |
CN116083400A (zh) * | 2022-12-08 | 2023-05-09 | 广州瑞风生物科技有限公司 | Cas蛋白截短体、构建其的方法及其应用 |
CN116083400B (zh) * | 2022-12-08 | 2023-12-12 | 广州瑞风生物科技有限公司 | Cas蛋白截短体、构建其的方法及其应用 |
WO2024120488A1 (zh) * | 2022-12-08 | 2024-06-13 | 广州瑞风生物科技有限公司 | Cas蛋白截短体、构建其的方法及其应用 |
WO2024141002A1 (zh) * | 2022-12-30 | 2024-07-04 | 上海吐露港生物科技有限公司 | 基于拆分Cas蛋白的非核酸靶标检测方法及应用 |
WO2024149810A3 (en) * | 2023-01-11 | 2024-08-22 | Alia Therapeutics Srl | Type ii cas proteins and applications thereof |
CN116949012A (zh) * | 2023-09-20 | 2023-10-27 | 广州瑞风生物科技有限公司 | 一种融合蛋白及其应用 |
CN116949012B (zh) * | 2023-09-20 | 2024-01-02 | 广州瑞风生物科技有限公司 | 一种融合蛋白及其应用 |
Also Published As
Publication number | Publication date |
---|---|
WO2023227028A1 (zh) | 2023-11-30 |
CN114934031B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114934031B (zh) | 新型Cas效应蛋白、基因编辑系统及用途 | |
AU2020289750B2 (en) | Engineered meganucleases with recognition sequences found in the human T cell receptor alpha constant region gene | |
CN108359691B (zh) | 利用mito-CRISPR/Cas9系统敲除异常线粒体DNA的试剂盒及方法 | |
KR20210149060A (ko) | Tn7-유사 트랜스포존을 사용한 rna-유도된 dna 통합 | |
AU2021200863A1 (en) | Genetically-modified cells comprising a modified human t cell receptor alpha constant region gene | |
KR101982360B1 (ko) | 콤팩트 tale-뉴클레아제의 발생 방법 및 이의 용도 | |
CN101939434B (zh) | 用于在大豆中提高种子贮藏油脂的生成和改变脂肪酸谱的来自解脂耶氏酵母的dgat基因 | |
CN101365788B (zh) | Δ-9延伸酶及其在制备多不饱和脂肪酸中的用途 | |
KR102681113B1 (ko) | 조작된 캐스케이드 구성성분 및 캐스케이드 복합체 | |
DK2663645T3 (da) | Gærstammer, der er modificeret til produktion af ethanol fra glycerol | |
KR102528337B1 (ko) | 정의된 서열 및 길이의 dna 단일 가닥 분자의 확장 가능한 생명공학적 생산 | |
KR20140092759A (ko) | 숙주 세포 및 아이소부탄올의 제조 방법 | |
US20040003420A1 (en) | Modified recombinase | |
KR20230134543A (ko) | 신규한 조작된 뉴클레아제 및 키메라 뉴클레아제 | |
CN116083398B (zh) | 分离的Cas13蛋白及其应用 | |
CN114525304B (zh) | 一种基因编辑的方法 | |
JP2023539237A (ja) | カーゴヌクレオチド配列を転位させるための系および方法 | |
KR20140043890A (ko) | 조절된 유전자 발현 시스템 및 그의 작제물 | |
KR20240029020A (ko) | Dna 변형을 위한 crispr-트랜스포손 시스템 | |
CN115128266A (zh) | 用于检测自身抗体的方法和试剂 | |
CN114644581B (zh) | 含芳基硫酚或芳基硒酚经修饰的氨基酸、重组蛋白及其生物合成方法及应用 | |
EP1395612A2 (en) | Modified recombinase | |
KR102341583B1 (ko) | 스플릿 인테인을 접목한 가용성 향상 이중 기능성 융합 태그를 이용한 재조합 섬유아세포 성장인자 수용체의 제조방법, 정제방법, 및 이의 용도 | |
CN112538104B (zh) | 构建促融质粒优化禽腺病毒Fiber-2蛋白表达及纯化的方法 | |
RU2827658C2 (ru) | Сконструированные компоненты cascade и комплексы cascade |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |