CN111757889B - 新型CRISPR/Cas12f酶和系统 - Google Patents

新型CRISPR/Cas12f酶和系统 Download PDF

Info

Publication number
CN111757889B
CN111757889B CN201980014560.3A CN201980014560A CN111757889B CN 111757889 B CN111757889 B CN 111757889B CN 201980014560 A CN201980014560 A CN 201980014560A CN 111757889 B CN111757889 B CN 111757889B
Authority
CN
China
Prior art keywords
lys
leu
sequence
ser
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980014560.3A
Other languages
English (en)
Other versions
CN111757889A (zh
Inventor
赖锦盛
周英思
朱金洁
易飞
张湘博
赵海铭
宋伟彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202110473632.XA priority Critical patent/CN113136375B/zh
Priority to CN202110473640.4A priority patent/CN113106081A/zh
Publication of CN111757889A publication Critical patent/CN111757889A/zh
Application granted granted Critical
Publication of CN111757889B publication Critical patent/CN111757889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/40Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • C07K2319/71Fusion polypeptide containing domain for protein-protein interaction containing domain for transcriptional activaation, e.g. VP16
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Mycology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

本发明属于核酸编辑领域,特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言,本发明提供了Cas效应蛋白、包含此类蛋白的融合蛋白以及编码它们的核酸分子,还提供了包含上述蛋白或核酸分子的用于核酸编辑(例如,基因或基因组编辑)的复合物和组合物,以及包含上述蛋白的用于核酸编辑(例如,基因或基因组编辑)的方法。

Description

新型CRISPR/Cas12f酶和系统
技术领域
本发明涉及核酸编辑领域,特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言,本发明涉及Cas效应蛋白,包含此类蛋白的融合蛋白,以及编码它们的核酸分子。本发明还涉及用于核酸编辑(例如,基因或基因组编辑)的复合物和组合物,其包含本发明的蛋白或融合蛋白,或编码它们的核酸分子。本发明还涉及用于核酸编辑(例如,基因或基因组编辑)的方法,其使用包含本发明的蛋白或融合蛋白。
背景技术
CRISPR/Cas技术是一种被广泛使用的基因编辑技术,它通过RNA引导对基因组上的靶序列进行特异性结合并切割DNA产生双链断裂,利用生物非同源末端连接或同源重组进行定点基因编辑。
CRISPR/Cas9系统是最常用的II型CRISPR系统,它识别3’-NGG的PAM基序,对靶标序列进行平末端切割。CRISPR/Cas Type V系统是一类近两年新发现的CRISPR系统,它具有5’-TTN的基序,对靶标序列进行粘性末端切割,例如Cpf1,C2c1,CasX,CasY。然而目前存在的不同的CRISPR/Cas各有不同的优点和缺陷。例如Cas9,C2c1和CasX均需要两条RNA进行导向RNA,而Cpf1只需要一条导向RNA而且可以用来进行多重基因编辑。CasX具有980个氨基酸的大小,而常见的Cas9,C2c1,CasY和Cpf1通常大小在1300个氨基酸左右。此外,Cas9,Cpf1,CasX,CasY的PAM序列都比较复杂多样,而C2c1识别严谨的5’-TTN,因此它的靶标位点比其他系统容易被预测从而降低了潜在的脱靶效应。
总之,鉴于目前可获得的CRISPR/Cas系统都受限于一些缺陷,开发一种更稳健的、具有多方面良好性能的新型CRISPR/Cas系统对生物技术的发展具有重要意义。
发明内容
本申请的发明人经过大量实验和反复摸索,出人意料地发现了一种新型RNA指导的核酸内切酶。基于这一发现,本发明人开发了新的CRISPR/Cas系统以及基于该系统的基因编辑方法。
Cas效应蛋白
因此,在第一方面,本发明提供了一种蛋白,其具有SEQ ID NO:1所示的氨基酸序列,或具有与SEQ ID NO:1相比具有至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的氨基酸序列,所述氨基酸序列基本保留了SEQ ID NO:1的生物学功能。
在某些实施方案中,本发明提供了一种蛋白,其具有SEQ ID NO:1所示的氨基酸序列或其直系同源物(ortholog)、同源物或变体;其中,所述直系同源物、同源物或变体与SEQID NO:1相比具有至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性,并且基本保留了SEQ ID NO:1的生物学功能。
在本发明中,上述序列的生物学功能包括但不限于,与导向RNA结合的活性、核酸内切酶活性、在导向RNA引导下与靶序列特定位点结合并切割的活性。
在某些实施方案中,所述蛋白是CRISPR/Cas系统中的效应蛋白。
在某些实施方案中,本发明的蛋白具有SEQ ID NO:1所示的氨基酸序列。
衍生的蛋白
本发明的蛋白可进行衍生化,例如被连接至另一个分子(例如另一个多肽或蛋白)。通常,蛋白的衍生化(例如,标记)不会不利影响该蛋白的期望活性(例如,与导向RNA结合的活性、核酸内切酶活性、在导向RNA引导下与靶序列特定位点结合并切割的活性)。因此,本发明的蛋白还意欲包括此类衍生化的形式。例如,可以将本发明的蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子基团,例如另一个蛋白或多肽,检测试剂,药用试剂等。
特别地,可以将本发明的蛋白连接其他功能性单元。例如,可以将其与核定位信号(NLS)序列连接,以提高本发明的蛋白进入细胞核的能力。例如,可以将其与靶向部分连接,以使得本发明的蛋白具有靶向性。例如,可以将其与可检测的标记连接,以便于对本发明的蛋白进行检测。例如,可以将其与表位标签连接,以便于本发明的蛋白的表达、检测、示踪和/或纯化。
缀合物
因此,在第二方面,本发明提供了一种缀合物,其包含如上所述的蛋白和修饰部分。
在某些实施方案中,所述修饰部分选自另外的蛋白或多肽、可检测的标记或其任意组合。
在某些实施方案中,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),具有选自下列的活性的结构域:核苷酸脱氨酶、甲基化酶活性,去甲基化酶,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合。
在某些实施方案中,本发明的缀合物包含一个或多个NLS序列,例如SV40病毒大T抗原的NLS。在某些示例性实施方案中,所述NLS序列如SEQ ID NO:19所示。在某些实施方案中,所述NLS序列位于、靠近或接近本发明的蛋白的末端(例如,N端或C端)。在某些示例性实施方案中,所述NLS序列位于、靠近或接近本发明的蛋白的C端。
在某些实施方案中,本发明的缀合物包含表位标签(epitope tag)。这类表位标签是本领域技术人员熟知的,其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等,并且本领域技术人员已知如何根据期望目的(例如,纯化、检测或示踪)选择合适的表位标签。
在某些实施方案中,本发明的缀合物包含报告基因序列。这类报告基因是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
在某些实施方案中,本发明的缀合物包含能够与DNA分子或细胞内分子结合的结构域,例如麦芽糖结合蛋白(MBP)、Lex A的DNA结合结构域(DBD)、GAL4的DBD等。
在某些实施方案中,本发明的缀合物包含可检测的标记,例如荧光染料,例如FITC或DAPI。
在某些实施方案中,本发明的蛋白任选地通过接头与所述修饰部分偶联、缀合或融合。
在某些实施方案中,所述修饰部分直接连接至本发明的蛋白的N端或C端。
在某些实施方案中,所述修饰部分通过接头连接至本发明的蛋白的N端或C端。这类接头是本领域熟知的,其实例包括但不限于包含一个或多个(例如,1个,2个,3个,4个或5个)氨基酸(如,Glu或Ser)或氨基酸衍生物(如,Ahx、β-Ala、GABA或Ava)的接头,或PEG等。
融合蛋白
在第三方面,本发明提供了一种融合蛋白,其包含本发明的蛋白以及另外的蛋白或多肽。
在某些实施方案中,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如,VP64)、转录抑制结构域(例如,KRAB结构域或SID结构域)、核酸酶结构域(例如,Fok1),具有选自下列的活性的结构域:核苷酸脱氨酶、甲基化酶活性,去甲基化酶,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性;以及其任意组合。
在某些实施方案中,本发明的融合蛋白包含一个或多个NLS序列,例如SV40病毒大T抗原的NLS。在某些实施方案中,所述NLS序列位于、靠近或接近本发明的蛋白的末端(例如,N端或C端)。在某些示例性实施方案中,所述NLS序列位于、靠近或接近本发明的蛋白的C端。
在某些实施方案中,本发明的融合蛋白包含表位标签。
在某些实施方案中,本发明的融合蛋白包含报告基因序列。
在某些实施方案中,本发明的融合蛋白包含能够与DNA分子或细胞内分子结合的结构域。
在某些实施方案中,本发明的蛋白任选地通过接头与所述另外的蛋白或多肽融合。
在某些实施方案中,所述另外的蛋白或多肽直接连接至本发明的蛋白的N端或C端。
在某些实施方案中,所述另外的蛋白或多肽通过接头连接至本发明的蛋白的N端或C端。
在某些示例性实施方案中,本发明的融合蛋白具有SEQ ID NO:20所示的氨基酸序列。
本发明的蛋白、本发明的缀合物或本发明的融合蛋白不受其产生方式的限定,例如,其可以通过基因工程方法(重组技术)产生,也可以通过化学合成方法产生。
同向重复序列
在第四方面,本发明提供了一种分离的核酸分子,其包含选自下列的序列,或由选自下列的序列组成:
(i)SEQ ID NO:7或13所示的序列;
(ii)与SEQ ID NO:7或13所示的序列相比具有一个或多个碱基的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个碱基的置换、缺失或添加)的序列;
(iii)与SEQ ID NO:7或13所示的序列具有至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%的序列同一性的序列;
(iv)在严格条件下与(i)-(iii)任一项中所述的序列杂交的序列;或
(v)(i)-(iii)任一项中所述的序列的互补序列;
并且,(ii)-(v)中任一项所述的序列基本保留了其所源自的序列的生物学功能,所述序列的生物学功能是指,作为CRISPR-Cas系统中的同向重复序列的活性。
在某些实施方案中,所述分离的核酸分子是CRISPR-Cas系统中的同向重复序列。
在某些实施方案中,所述核酸分子包含选自下列的序列,或由选自下列的序列组成:
(a)SEQ ID NO:7或13所示的核苷酸序列;
(b)在严格条件下与(a)中所述的序列杂交的序列;或
(c)SEQ ID NO:7或13所示的核苷酸序列的互补序列。
在某些实施方案中,所述分离的核酸分子是RNA。
CRISPR/Cas复合物
在第五方面,本发明提供了一种复合物,其包含:
(i)蛋白组分,其选自:本发明的蛋白、缀合物或融合蛋白,及其任意组合;和
(ii)核酸组分,其从5’至3’方向包含第四方面所述的分离的核酸分子和能够与靶序列杂交的导向序列,
其中,所述蛋白组分与核酸组分相互结合形成复合物。
在某些实施方案中,所述导向序列连接于所述核酸分子的3’端。
在某些实施方案中,所述导向序列包含所述靶序列的互补序列。
在某些实施方案中,所述核酸组分是CRISPR-Cas系统中的导向RNA。
在某些实施方案中,所述核酸分子是RNA。
在某些实施方案中,所述复合物不包含反式作用crRNA(tracrRNA)。
在某些实施方案中,所述导向序列在长度上为至少5个、至少10个、在某些实施方案中,所述导向序列在长度上为10-30个、或15-25个、或15-22个、或19-25个或19-22个核苷酸。
在某些实施方案中,所述分离的核酸分子在长度上为55-70个核苷酸,例如55-65个核苷酸,例如60-65个核苷酸,例如62-65个核苷酸,例如63-64个核苷酸。在某些实施方案中,所述分离的核酸分子在长度上为15-30个核苷酸,例如15-25个核苷酸,例如20-25个核苷酸,例如22-24个核苷酸,例如23个核苷酸。
在具体的实施方式中,本发明提供了一种CRISPR-Cas系统,其包含:
a)导向RNA,其从5’至3’方向包含同向重复序列和能够与靶序列杂交的导向序列,和
b)Cas12f效应蛋白;
所述导向RNA与所述Cas12f效应蛋白形成复合物;
其中所述Cas12f蛋白大小为900-1200个氨基酸,在靠近其C端存在一个RuvC结构域,由RuvC-I,RuvC-II和RuvC-III基序构成;
其中所述Cas12f位于细菌基因组中CRISPR座500bp以内;
优选地,所述同向重复序列的长度为21nt-36nt,所述导向序列的长度为1-80nt,并且所述同向重复序列的末尾16或17个碱基可以形成一个茎环,环大小为8或9nt,茎由五对互补碱基构成。
编码核酸、载体及宿主细胞
在第六方面,本发明提供了一种分离的核酸分子,其包含:
(i)编码本发明的蛋白或融合蛋白的核苷酸序列;
(ii)编码如第四方面所述的分离的核酸分子;或
(iii)包含(i)和(ii)的核苷酸序列。
在某些实施方案中,(i)-(iii)任一项中所述的核苷酸序列经密码子优化用于在原核细胞中进行表达。在某些实施方案中,(i)-(iii)任一项中所述的核苷酸序列经密码子优化用于在真核细胞中进行表达。
在第七方面,本发明还提供了一种载体,其包含如第六方面所述的分离的核酸分子。本发明的载体可以是克隆载体,也可以是表达载体。在某些实施方案中,本发明的载体是例如质粒,粘粒,噬菌体,柯斯质粒等等。在某些选实施方案中,所述载体能够在受试者(例如哺乳动物,例如人)体内表达本发明的蛋白、融合蛋白、如第四方面所述的分离的核酸分子或如第五方面所述的复合物。
在第八方面,本发明还提供了包含如上所述的分离的核酸分子或载体的宿主细胞。此类宿主细胞包括但不限于,原核细胞例如大肠杆菌细胞,以及真核细胞例如酵母细胞,昆虫细胞,植物细胞和动物细胞(如哺乳动物细胞,例如小鼠细胞、人细胞等)。本发明的细胞还可以是细胞系,例如293T细胞。
组合物及载体组合物
在第九方面,本发明还提供了一种组合物,其包含:
(i)第一组分,其选自:本发明的蛋白、缀合物、融合蛋白、编码所述蛋白或融合蛋白的核苷酸序列,以及其任意组合;和
(ii)第二组分,其为包含导向RNA的核苷酸序列,或者编码所述包含导向RNA的核苷酸序列的核苷酸序列;
其中,所述导向RNA从5’至3’方向包含同向重复序列和导向序列,所述导向序列能够与靶序列杂交;
所述导向RNA能够与(i)中所述的蛋白、缀合物或融合蛋白形成复合物。
在某些实施方案中,所述同向重复序列是如第四方面所定义的分离的核酸分子。
在某些实施方案中,所述导向序列连接至所述同向重复序列的3’端。在某些实施方案中,所述导向序列包含所述靶序列的互补序列。
在某些实施方案中,所述组合物不包含tracrRNA。
在某些实施方案中,所述组合物是非天然存在的或经修饰的。在某些实施方案中,所述组合物中的至少一个组分是非天然存在的或经修饰的。在某些实施方案中,所述第一组分是非天然存在的或经修饰的;和/或,所述第二组分是非天然存在的或经修饰的。
在某些实施方案中,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’-TTN所示的序列,其中,N选自A、G、T、C。在某些实施方案中,N选自A、T、C。
在某些实施方案中,当所述靶序列为RNA时,所述靶序列不具有PAM结构域限制。
在某些实施方案中,所述靶序列是来自原核细胞或真核细胞的DNA或RNA序列。在某些实施方案中,所述靶序列是非天然存在的DNA或RNA序列。
在某些实施方案中,所述靶序列存在于细胞内。在某些实施方案中,所述靶序列存在于细胞核内或细胞质(例如,细胞器)内。在某些实施方案中,所述细胞是真核细胞。在某些实施方案中,所述细胞是原核细胞。
在某些实施方案中,所述蛋白连接有一个或多个NLS序列。在某些实施方案中,所述缀合物或融合蛋白包含一个或多个NLS序列。在某些实施方案中,所述NLS序列连接至所述蛋白的N端或C端。在某些实施方案中,所述NLS序列融合至所述蛋白的N端或C端。
在第十方面,本发明还提供了一种组合物,其包含一种或多种载体,所述一种或多种载体包含:
(i)第一核酸,其为编码本发明的蛋白或融合蛋白的核苷酸序列;任选地所述第一核酸可操作地连接至第一调节元件;以及
(ii)第二核酸,其编码包含导向RNA的核苷酸序列;任选地所述第二核酸可操作地连接至第二调节元件;
其中:
所述第一核酸与第二核酸存在于相同或不同的载体上;
所述导向RNA从5’至3’方向包含同向重复序列和导向序列,所述导向序列能够与靶序列杂交;
所述导向RNA能够与(i)中所述的效应蛋白或融合蛋白形成复合物。
在某些实施方案中,所述同向重复序列是如第四方面所定义的分离的核酸分子。
在某些实施方案中,所述导向序列连接至所述同向重复序列的3’端。在某些实施方案中,所述导向序列包含所述靶序列的互补序列。
在某些实施方案中,所述组合物不包含tracrRNA。
在某些实施方案中,所述组合物是非天然存在的或经修饰的。在某些实施方案中,所述组合物中的至少一个组分是非天然存在的或经修饰的。
在某些实施方案中,所述第一调节元件是启动子,例如诱导型启动子。
在某些实施方案中,所述第二调节元件是启动子,例如诱导型启动子。
在某些实施方案中,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’-TTN所示的序列,其中,N选自A、G、T、C。在某些实施方案中,N选自A、T、C。
在某些实施方案中,当所述靶序列为RNA时,所述靶序列不具有PAM结构域限制。
在某些实施方案中,所述靶序列是来自原核细胞或真核细胞的DNA或RNA序列。在某些实施方案中,所述靶序列是非天然存在的DNA或RNA序列。
在某些实施方案中,所述靶序列存在于细胞内。在某些实施方案中,所述靶序列存在于细胞核内或细胞质(例如,细胞器)内。在某些实施方案中,所述细胞是真核细胞。在某些实施方案中,所述细胞是原核细胞。
在某些实施方案中,所述蛋白连接有一个或多个NLS序列。在某些实施方案中,所述缀合物或融合蛋白包含一个或多个NLS序列。在某些实施方案中,所述NLS序列连接至所述蛋白的N端或C端。在某些实施方案中,所述NLS序列融合至所述蛋白的N端或C端。
在某些实施方案中,一种类型的载体是质粒,其是指其中可以例如通过标准分子克隆技术插入另外的DNA片段的环状双链DNA环。另一种类型的载体是病毒载体,其中病毒衍生的DNA或RNA序列存在于用于包装病毒(例如,逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒、以及腺相关病毒)的载体中。病毒载体还包含由用于转染到一种宿主细胞中的病毒携带的多核苷酸。某些载体(例如,具有细菌复制起点的细菌载体和附加型哺乳动物载体)能够在它们被导入的宿主细胞中自主复制。其他载体(例如,非附加型哺乳动物载体)在引入宿主细胞后整合到该宿主细胞的基因组中,并且由此与该宿主基因组一起复制。而且,某些载体能够指导它们可操作连接的基因的表达。这样的载体在此被称为“表达载体”。在重组DNA技术中使用的普通表达栽体通常是质粒形式。
重组表达载体可包含处于适合于在宿主细胞中的核酸表达的形式的本发明的核酸分子,这意味着这些重组表达载体包含基于待用于表达的宿主细胞而选择的一种或多种调节元件,所述调节元件可操作地连接至待表达的核酸序列。
递送及递送组合物
本发明的蛋白、缀合物、融合蛋白、如第四方面所述的分离的核酸分子、本发明的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面及第十方面所述的组合物,可以通过本领域已知的任何方法进行递送。此类方法包括但不限于,电穿孔、脂转染、核转染、显微注射、声孔效应、基因枪、磷酸钙介导的转染、阳离子转染、脂质体转染、树枝状转染、热激转染、核转染、磁转染、脂转染、穿刺转染、光学转染、试剂增强性核酸摄取、以及经由脂质体、免疫脂质体、病毒颗粒、人工病毒体等的递送。
因此,在另一个方面,本发明提供了一种递送组合物,其包含递送载体,以及选自下列的一种或多种:本发明的蛋白、缀合物、融合蛋白、如第四方面所述的分离的核酸分子、本发明的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面及第十方面所述的组合物。
在某些实施方案中,所述递送载体是粒子。
在某些实施方案中,所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、微泡、基因枪或病毒载体(例如,复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。
试剂盒
在另一个方面,本发明提供了一种试剂盒,其包含如上所述的组分中的一种或多种。在某些实施方案中,所述试剂盒包含一种或多种选自下列的组分:本发明的蛋白、缀合物、融合蛋白、如第四方面所述的分离的核酸分子、本发明的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面及第十方面所述的组合物。
在某些实施方案中,本发明的试剂盒包含如第九方面所述的组合物。在某些实施方案中,所述试剂盒还包含使用所述组合物的说明书。
在某些实施方案中,本发明的试剂盒包含如第十方面所述的组合物。在某些实施方案中,所述试剂盒还包含使用所述组合物的说明书。
在某些实施方案中,本发明的试剂盒中包含的组分可以被提供于任何适合的容器中。
在某些实施方案中,所述试剂盒还包含一种或多种缓冲液。缓冲液可以是任何缓冲液,包括但不限于碳酸钠缓冲液、碳酸氢钠缓冲液、硼酸盐缓冲液、Tris缓冲液、MOPS缓冲液、HEPES缓冲液及其组合。在某些实施方案中,该缓冲液是碱性的。在某些实施方案中,该缓冲液具有从约7至约10的pH。
在某些实施方案中,该试剂盒还包括一个或多个寡核苷酸,该一个或多个寡核苷酸对应于一个用于插入进载体中的导向序列,以便可操作地连接该导向序列和调节元件。在某些实施方案中,该试剂盒包括同源重组模板多核苷酸。
方法及用途
在另一个方面,本发明提供了一种修饰靶基因的方法,其包括:将如第五方面所述的复合物、如第九方面所述的组合物或如第十方面所述的组合物与所述靶基因接触,或者递送至包含所述靶基因的细胞中;所述靶序列存在于所述靶基因中。
在某些实施方案中,所述靶基因存在于细胞内。在某些实施方案中,所述细胞是原核细胞。在某些实施方案中,所述细胞是真核细胞。在某些实施方案中,所述细胞是哺乳动物细胞。在某些实施方案中,所述细胞是人类细胞。在某些实施方案中,所述细胞选自非人灵长类动物、牛、猪或啮齿类动物细胞。在某些实施方案中,所述细胞是非哺乳动物真核细胞,例如家禽或鱼等。在某些实施方案中,所述细胞是植物细胞,例如栽培植物(如木薯、玉米、高粱、小麦或水稻)、藻类、树或蔬菜具有的细胞。
在某些实施方案中,所述靶基因存在于体外的核酸分子(例如,质粒)中。在某些实施方案中,所述靶基因存在于质粒中。
在某些实施方案中,所述修饰是指所述靶序列的断裂,如DNA的双链断裂或RNA的单链断裂。
在某些实施方案中,所述断裂导致靶基因的转录降低。
在某些实施方案中,所述方法还包括:将编辑模板与所述靶基因接触,或者递送至包含所述靶基因的细胞中。在此类实施方案中,所述方法通过与外源模板多核苷酸同源重组修复所述断裂的靶基因,其中所述修复导致一种突变,包括所述靶基因的一个或多个核苷酸的插入、缺失、或取代。在某些实施方案中,所述突变导致在从包含该靶序列的基因表达的蛋白质中的一个或多个氨基酸改变。
因此,在某些实施方案中,所述修饰还包括将编辑模板(例如外源核酸)插入所述断裂中。
在某些实施方案中,所述的蛋白、缀合物、融合蛋白、分离的核酸分子、复合物、载体或组合物包含于递送载体中。
在某些实施方案中,所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、病毒载体(如复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。
在某些实施方案中,所述方法其用于改变靶基因或编码靶基因产物的核酸分子中的一个或多个靶序列来修饰细胞、细胞系或生物体。
在另一个方面,本发明提供了一种改变基因产物的表达的方法,其包括:将如第五方面所述的复合物、如第九方面所述的组合物或如第十方面所述的组合物与编码所述基因产物的核酸分子接触,或者递送至包含所述核酸分子的细胞中,所述靶序列存在于所述核酸分子中。
在某些实施方案中,所述核酸分子存在于细胞内。在某些实施方案中,所述细胞是原核细胞。在某些实施方案中,所述细胞是真核细胞。在某些实施方案中,所述细胞是哺乳动物细胞。在某些实施方案中,所述细胞是人类细胞。在某些实施方案中,所述细胞选自非人灵长类动物、牛、猪或啮齿类动物细胞。在某些实施方案中,所述细胞是非哺乳动物真核细胞,例如家禽或鱼等。在某些实施方案中,所述细胞是植物细胞,例如栽培植物(如木薯、玉米、高粱、小麦或水稻)、藻类、树或蔬菜具有的细胞。
在某些实施方案中,所述核酸分子存在于体外的核酸分子(例如,质粒)中。在某些实施方案中,所述核酸分子存在于质粒中。
在某些实施方案中,所述基因产物的表达被改变(例如,增强或降低)。在某些实施方案中,所述基因产物的表达被增强。在某些实施方案中,所述基因产物的表达被降低。
在某些实施方案中,所述基因产物是蛋白。
在某些实施方案中,所述的蛋白、缀合物、融合蛋白、分离的核酸分子、复合物、载体或组合物包含于递送载体中。
在某些实施方案中,所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、病毒载体(如复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。
在某些实施方案中,所述方法其用于改变靶基因或编码靶基因产物的核酸分子中的一个或多个靶序列来修饰细胞、细胞系或生物体。
在另一个方面,本发明涉及如第一方面所述的蛋白、如第二方面所述的缀合物、如第三方面所述的融合蛋白、如第四方面所述的分离的核酸分子、如第五方面所述的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面所述的组合物、如第十方面所述的组合物、本发明的试剂盒或递送组合物,用于核酸编辑的用途。
在某些实施方案中,所述核酸编辑包括基因或基因组编辑,例如修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸。
在另一个方面,本发明涉及如第一方面所述的蛋白、如第二方面所述的缀合物、如第三方面所述的融合蛋白、如第四方面所述的分离的核酸分子、如第五方面所述的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面所述的组合物、如第十方面所述的组合物、本发明的试剂盒或递送组合物,在制备制剂中的用途,所述制剂用于:
(i)离体基因或基因组编辑;
(ii)离体单链DNA的检测;
(iii)编辑靶基因座中的靶序列来修饰生物或非人类生物;
(iv)治疗由靶基因座中的靶序列的缺陷引起的病症。
细胞及细胞子代
在某些情况下,由本发明的方法引入到细胞的修饰可以使得细胞和其子代被改变以改进其生物产物(如抗体、淀粉、乙醇或其他期望的细胞输出物)的产生。在某些情况下,由本发明的方法引入到细胞的修饰可以使得细胞和其子代包括使所生产生物产物发生变化的改变。
因此,在另一方面,本发明还涉及如上所述的方法获得的细胞或其子代,其中所述细胞含有在其野生型中不存在的修饰。
本发明还涉及如上所述的细胞或其子代的细胞产物。
本发明还涉及一种体外的、离体的或体内的细胞或细胞系或它们的子代,所述细胞或细胞系或它们的子代包含:如第一方面所述的蛋白、如第二方面所述的缀合物、如第三方面所述的融合蛋白、如第四方面所述的分离的核酸分子、如第五方面所述的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面所述的组合物、如第十方面所述的组合物、本发明的试剂盒或递送组合物。
在某些实施方案中,所述细胞是原核细胞。
在某些实施方案中,所述细胞是真核细胞。在某些实施方案中,所述细胞是哺乳动物细胞。在某些实施方案中,所述细胞是人类细胞。某些实施方案中,所述细胞是非人哺乳动物细胞,例如非人灵长类动物、牛、羊、猪、犬、猴、兔、啮齿类(如大鼠或小鼠)的细胞。在某些实施方案中,所述细胞是非哺乳动物真核细胞,例如家禽鸟类(如鸡)、鱼类或甲壳动物(如蛤蜊、虾)的细胞。在某些实施方案中,所述细胞是植物细胞,例如单子叶植物或双子叶植物具有的细胞或栽培植物或粮食作物如木薯、玉米、高粱、大豆、小麦、燕麦或水稻具有的细胞,例如藻类、树或生产植物、果实或蔬菜(例如,树类如柑橘树、坚果树;茄属植物、棉花、烟草、番茄、葡萄、咖啡、可可等)。
在某些实施方案中,所述细胞是干细胞或干细胞系。
术语定义
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的分子遗传学、核酸化学、化学、分子生物学、生物化学、细胞培养、微生物学、细胞生物学、基因组学和重组DNA等操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
在本发明中,表述“Cas12f”是指,本发明人首次发现并鉴定的一种Cas效应蛋白,其具有选自下列的氨基酸序列:
(i)SEQ ID NOs:1、2、3任一项所示的序列;
(ii)与SEQ ID NOs:1、2、3任一项所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个,2个,3个,4个,5个,6个,7个,8个,9个或10个氨基酸的置换、缺失或添加)的序列;或
(iii)与SEQ ID NOs:1、2、3任一项所示的序列具有至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、或至少99%的序列同一性的序列。
本发明的Cas12f是一种在导向RNA引导下与靶序列特定位点结合并切割的核酸内切酶,同时具有DNA和RNA内切酶活性。
如本文中所使用的,术语“规律成簇的间隔短回文重复(CRISPR)-CRISPR-相关(Cas)(CRISPR-Cas)系统”或“CRISPR系统”可互换地使用并且具有本领域技术人员通常理解的含义,其通常包含与CRISPR相关(“Cas”)基因的表达有关的转录产物或其他元件,或者能够指导所述Cas基因活性的转录产物或其他元件。此类转录产物或其他元件可以包含编码Cas效应蛋白的序列和包含CRISPR RNA(crRNA)的导向RNA,以及在CRISPR-Cas9系统中所含有的反式作用crRNA(tracrRNA)序列,或来自CRISPR基因座的其他序列或转录产物。在本发明所述的基于Cas12f的CRISPR系统中,不需要tracrRNA序列。
如本文中所使用的,术语“Cas效应蛋白”、“Cas效应酶”可互换地使用并且是指,CRISPR-Cas系统中呈现的任一种大于长度900个氨基酸的蛋白质。在某些情况下,这类蛋白是指从Cas基因座中鉴定的蛋白。
如本文中所使用的,术语“导向RNA(guide RNA)”、“成熟crRNA”可互换地使用并且具有本领域技术人员通常理解的含义。一般而言,导向RNA可以包含同向(direct)重复序列和导向序列(guide sequence),或者基本上由或由同向重复序列和导向序列(在内源性CRISPR系统背景下也称为间隔序列(spacer))组成。在某些情况下,导向序列是与靶序列具有足够互补性从而与所述靶序列杂交并引导CRISPR/Cas复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中,当最佳比对时,导向序列与其相应靶序列之间的互补程度为至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、或至少99%。确定最佳比对在本领域的普通技术人员的能力范围内。例如,存在公开和可商购的比对算法和程序,诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。
在某些情况下,所述导向序列在长度上为至少5个、至少10个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少35个、至少40个、至少45个或至少50个核苷酸。在某些情况下,所述导向序列在长度上为不超过50个、45个、40个、35个、30个、25个、24个、23个、22个、21个、20个、15个、10个或更少个核苷酸。在某些实施方案中,所述导向序列在长度上为10-30个、或15-25个、或15-22个、或19-25个或19-22个核苷酸。
在某些情况下,所述同向重复序列在长度上为至少10个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少56个、至少57个、至少58个、至少59个、至少60个、至少61个、至少62个、至少63个、至少64个、至少65个或至少70个核苷酸。在某些情况下,所述同向重复序列在长度上为不超过70个、65个、64个、63个、62个、61个、60个、59个、58个、57个、56个、55个、50个、45个、40个、35个、30个、29个、28个、27个、26个、25个、24个、23个、22个、21个、20个、15个、10个或更少个核苷酸。在某些实施方案中,所述同向重复序列在长度上为55-70个核苷酸,例如55-65个核苷酸,例如60-65个核苷酸,例如62-65个核苷酸,例如63-64个核苷酸。在某些实施方案中,所述同向重复序列在长度上为15-30个核苷酸,例如15-25个核苷酸,例如20-25个核苷酸,例如22-24个核苷酸,例如23个核苷酸。
如本文中所使用的,术语“CRISPR/Cas复合物”是指,导向RNA(guide RNA)或成熟crRNA与Cas蛋白结合所形成的核糖核蛋白复合体,其包含杂交到靶序列上并且与Cas蛋白结合的导向序列。该核糖核蛋白复合体能够识别并切割能与该导向RNA或成熟crRNA杂交的多核苷酸。
因此,在形成CRISPR/Cas复合物的情况下,“靶序列”是指被设计为具有靶向性的导向序列所靶向的多核苷酸,例如与该导向序列具有互补性的序列,其中靶序列与导向序列之间的杂交将促进CRISPR/Cas复合物的形成。完全互补性不是必需的,只要存在足够互补性以引起杂交并且促进一种CRISPR/Cas复合物的形成即可。靶序列可以包含任何多核苷酸,如DNA或RNA。在某些情况下,所述靶序列位于细胞的细胞核或细胞质中。在某些情况下,该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。可被用于重组到包含该靶序列的靶基因座中的序列或模板被称为“编辑模板”或“编辑多核苷酸”或“编辑序列”。在某些实施方案中,所述编辑模板为外源核酸。在某些实施方案中,该重组是同源重组。
在本发明中,表述“靶序列”或“靶多核苷酸”可以是对细胞(例如,真核细胞)而言任何内源或外源的多核苷酸。例如,该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如,蛋白质)的序列或一个非编码序列(例如,调节多核苷酸或无用DNA)。在某些情况下,据信该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求取决于使用的Cas效应酶而不同,但是PAM典型地是临近原间隔序列(也即,靶序列)的2-5个碱基对序列。本领域技术人员能够鉴定与给定的Cas效应蛋白一起使用的PAM序列。
在某些情况下,靶序列或靶多核苷酸可以包括多个疾病相关基因和多核苷酸以及信号传导生化途径相关基因和多核苷酸。此类靶序列或靶多核苷酸的非限制性实例,包括分别提交于2012年12月12日和2013年1月2日的美国临时专利申请61/736,527和61/748,427、提交于2013年12月12日的国际申请PCT/US2013/074667中所列举的那些,其全部通过引用并入本文。
在某些情况下,靶序列或靶多核苷酸的实例包括与信号传导生化途径相关的序列,例如信号传导生化途径相关基因或多核苷酸。靶多核苷酸的实例包括疾病相关基因或多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比,在来源于疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在改变的表达与疾病的出现和/或进展相关的情况下,它可以是一个以异常高的水平被表达的基因;或者,它可以是一个以异常低的水平被表达的基因。疾病相关基因还指具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。转录的或翻译的产物可以是已知的或未知的,并且可以处于正常或异常水平。
如本文中所使用的,术语“野生型”具有本领域技术人员通常理解的含义,其表示生物、菌株、基因的典型形式或者当它在自然界存在时区别于突变体或变体形式的特征,其可从自然中的来源分离并且没有被人为有意地修饰。
如本文中所使用的,术语“非天然存在的”或“工程化的”可互换地使用并且表示人工的参与。当这些术语用于描述核酸分子或多肽时,其表示该核酸分子或多肽至少基本上从它们在自然界中或如发现于自然界中的与其结合的至少另一种组分游离出来。
如本文中所使用的,术语“直系同源物(orthologue,ortholog)”具有本领域技术人员通常理解的含义。作为进一步指导,如本文中所述的蛋白质的“直系同源物”是指属于不同物种的蛋白质,该蛋白质执行与作为其直系同源物的蛋白相同或相似的功能。
如本文中所使用的,术语“同一性”用于指两个多肽之间或两个核酸之间序列的匹配情况。当两个进行比较的序列中的某个位置都被相同的碱基或氨基酸单体亚单元占据时(例如,两个DNA分子的每一个中的某个位置都被腺嘌呤占据,或两个多肽的每一个中的某个位置都被赖氨酸占据),那么各分子在该位置上是同一的。两个序列之间的“百分数同一性”是由这两个序列共有的匹配位置数目除以进行比较的位置数目×100的函数。例如,如果两个序列的10个位置中有6个匹配,那么这两个序列具有60%的同一性。例如,DNA序列CTGACT和CAGGTT共有50%的同一性(总共6个位置中有3个位置匹配)。通常,在将两个序列比对以产生最大同一性时进行比较。这样的比对可通过使用,例如,可通过计算机程序例如Align程序(DNAstar,Inc.)方便地进行的Needleman等人(1970)J.Mol.Biol.48:443-453的方法来实现。还可使用已整合入ALIGN程序(版本2.0)的E.Meyers和W.Miller(Comput.ApplBiosci.,4:11-17(1988))的算法,使用PAM120权重残基表(weight residue table)、12的缺口长度罚分和4的缺口罚分来测定两个氨基酸序列之间的百分数同一性。此外,可使用已整合入GCG软件包(可在www.gcg.com上获得)的GAP程序中的Needleman和Wunsch(J MoIBiol.48:444-453(1970))算法,使用Blossum 62矩阵或PAM250矩阵以及16、14、12、10、8、6或4的缺口权重(gap weight)和1、2、3、4、5或6的长度权重来测定两个氨基酸序列之间的百分数同一性。
如本文中所使用的,术语“载体”是指,可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时,载体称为表达载体。载体可以通过转化,转导或者转染导入宿主细胞,使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的,包括但不限于:质粒;噬菌粒;柯斯质粒;人工染色体,例如酵母人工染色体(YAC)、细菌人工染色体(BAC)或P1来源的人工染色体(PAC);噬菌体如λ噬菌体或M13噬菌体及动物病毒等。可用作载体的动物病毒包括但不限于,逆转录酶病毒(包括慢病毒)、腺病毒、腺相关病毒、疱疹病毒(如单纯疱疹病毒)、痘病毒、杆状病毒、乳头瘤病毒、乳头多瘤空泡病毒(如SV40)。一种载体可以含有多种控制表达的元件,包括但不限于,启动子序列、转录起始序列、增强子序列、选择元件及报告基因。另外,载体还可含有复制起始位点。
如本文中所使用的,术语“宿主细胞”是指,可用于导入载体的细胞,其包括但不限于,如大肠杆菌或枯草菌等的原核细胞,如酵母细胞或曲霉菌等的真菌细胞,如S2果蝇细胞或Sf9等的昆虫细胞,或者如纤维原细胞,CHO细胞,COS细胞,NSO细胞,HeLa细胞,BHK细胞,HEK 293细胞或人细胞等的动物细胞。
本领域技术人员将理解,表达载体的设计可取决于诸如待转化的宿主细胞的选择、所希望的表达水平等因素。一种载体可以被引入到宿主细胞中而由此产生转录物、蛋白质、或肽,包括由如本文所述的蛋白、融合蛋白、分离的核酸分子等(例如,CRISPR转录物,如核酸转录物、蛋白质、或酶)。
如本文中所使用的,术语“调节元件”旨在包括启动子、增强子、内部核糖体进入位点(IRES)、和其他表达控制元件(例如转录终止信号,如多聚腺苷酸化信号和多聚U序列),其详细描述可参考戈德尔(Goeddel),《基因表达技术:酶学方法》(GENE EXPRESSIONTECHNOLOGY:METHODS IN ENZYMOLOGY)185,学术出版社(Academic Press),圣地亚哥(SanDiego),加利福尼亚州(1990)。在某些情况下,调节元件包括指导一个核苷酸序列在许多类型的宿主细胞中的组成型表达的那些序列以及指导该核苷酸序列只在某些宿主细胞中表达的那些序列(例如,组织特异型调节序列)。组织特异型启动子可主要指导在感兴趣的期望组织中的表达,所述组织例如肌肉、神经元、骨、皮肤、血液、特定的器官(例如肝脏、胰腺)、或特殊的细胞类型(例如淋巴细胞)。在某些情况下,调节元件还可以时序依赖性方式(如以细胞周期依赖性或发育阶段依赖性方式)指导表达,该方式可以是或者可以不是组织或细胞类型特异性的。在某些情况下,术语“调节元件”涵盖的是增强子元件,如WPRE;CMV增强子;在HTLV-I的LTR中的R-U5’片段((Mol.Cell.Biol.,第8(1)卷,第466-472页,1988);SV40增强子;以及在兔β-珠蛋白的外显子2与3之间的内含子序列(Proc.Natl.Acad.Sci.USA.,第78(3)卷,第1527-31页,1981)。
如本文中所使用的,术语“启动子”具有本领域技术人员公知的含义,其是指一段位于基因的上游能启动下游基因表达的非编码核苷酸序列。组成型(constitutive)启动子是这样的核苷酸序列:当其与编码或者限定基因产物的多核苷酸可操作地相连时,在细胞的大多数或者所有生理条件下,其导致细胞中基因产物的产生。诱导型启动子是这样的核苷酸序列,当可操作地与编码或者限定基因产物的多核苷酸相连时,基本上只有当对应于所述启动子的诱导物在细胞中存在时,其导致所述基因产物在细胞内产生。组织特异性启动子是这样的核苷酸序列:当可操作地与编码或者限定基因产物的多核苷酸相连时,基本上只有当细胞是该启动子对应的组织类型的细胞时,其才导致在细胞中产生基因产物。
如本文中所使用的,术语“可操作地连接”旨在表示感兴趣的核苷酸序列以一种允许该核苷酸序列的表达的方式被连接至该一种或多种调节元件(例如,处于一种体外转录/翻译系统中或当该载体被引入到宿主细胞中时,处于该宿主细胞中)。
如本文中所使用的,术语“互补性”是指核酸与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与一个第二核酸序列形成氢键(例如,沃森-克里克碱基配对)的残基的百分比(例如,10个之中有5、6、7、8、9、10个即为50%、60%、70%、80%、90%、和100%互补)。“完全互补”表示一个核酸序列的所有连续残基与一个第二核酸序列中的相同数目的连续残基形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%、或100%的互补程度,或者是指在严格条件下杂交的两个核酸。
如本文中所使用的,对于杂交的“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的,并且取决于许多因素而变化。一般而言,该序列越长,则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于蒂森(Tijssen)(1993)的《生物化学和分子生物学中的实验室技术-核酸探针杂交》(Laboratory Techniques InBiochemistryAnd Molecular Biology-Hybridization With Nucleic Acid Probes),第I部分,第二章,“杂交原理概述和核酸探针分析策略”(“Overview of principles ofhybridization andthe strategy of nucleic acid probe assay”),爱思唯尔(Elsevier),纽约。
如本文中所使用的,术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应,该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。
如本文中所使用的,术语“表达”是指,藉此从DNA模板转录成多核苷酸(如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后藉此翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以总称为“基因产物”。如果多核苷酸来源于基因组DNA,表达可以包括真核细胞中mRNA的剪接。
如本文中所使用的,术语“接头”是指,由多个氨基酸残基通过肽键连接形成的线性多肽。本发明的接头可以为人工合成的氨基酸序列,或天然存在的多肽序列,例如具有铰链区功能的多肽。此类接头多肽是本领域众所周知的(参见例如,Holliger,P.等人(1993)Proc.Natl.Acad.Sci.USA 90:6444-6448;Poljak,R.J.等人(1994)Structure 2:1121-1123)。
如本文中所使用的,术语“治疗”是指,治疗或治愈病症,延缓病症的症状的发作,和/或延缓病症的发展。
如本文中所使用的,术语“受试者”包括但不限于各种动物,例如哺乳动物,例如牛科动物、马科动物、羊科动物、猪科动物、犬科动物、猫科动物、兔科动物、啮齿类动物(例如,小鼠或大鼠)、非人灵长类动物(例如,猕猴或食蟹猴)或人。在某些实施方式中,所述受试者(例如人)患有病症(例如,疾病相关基因缺陷所导致的病症)。
发明的有益效果
与现有技术相比,本发明的Cas蛋白及系统具有显著的有利方面。例如,本发明的Cas效应蛋白的PAM结构域为严格的5’-TTN结构,而且靶标序列前面的第二位和第三位碱基近100%为T,而其他位置可以为任意的序列,比目前已经报道的最严谨PAM识别的C2c1拥有更加严谨的PAM识别方式,从而显著降低脱靶效应。例如,本发明的Cas效应蛋白能在真核生物体内进行DNA切割,在分子大小上比Cpf1和Cas9蛋白小约200-300个氨基酸,因此转染效率上明显优于Cpf1和Cas9。
下面将结合附图和实施例对本发明的实施方案进行详细描述,但是本领域技术人员将理解,下列附图和实施例仅用于说明本发明,而不是对本发明的范围的限定。根据附图和优选实施方案的下列详细描述,本发明的各种目的和有利方面对于本领域技术人员来说将变得显然。
附图说明
图1为实施例2中Cas12f.4,Cas12f.5和Cas12f.6的crRNA结构分析结果,显示了Repeat序列的二级结构。
图2为实施例3中PAM结构域分析结果。
图3a-图3c为实施例4中Cas12f.4在人类细胞系中的切割活性检测结果。
图4a-图4c为实施例5中Cas12f.4在玉米原生质体细胞中的切割活性检测结果。
序列信息
本发明涉及的部分序列的信息提供于下面的表1中。
表1:序列的描述
Figure BDA0002642749700000261
Figure BDA0002642749700000271
具体实施方式
现参照下列意在举例说明本发明(而非限定本发明)的实施例来描述本发明。
除非特别指明,否则基本上按照本领域内熟知的以及在各种参考文献中描述的常规方法进行实施例中描述的实验和方法。例如,本发明中所使用的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA等常规技术,可参见参见萨姆布鲁克(Sambrook)、弗里奇(Fritsch)和马尼亚蒂斯(Maniatis),《分子克隆:实验室手册》(MOLECULAR CLONING:A LABORATORY MANUAL),第2次编辑(1989);《当代分子生物学实验手册》(CURRENT PROTOCOLS IN MOLECULAR BIOLOGY)(F.M.奥苏贝尔(F.M.Ausubel)等人编辑,(1987));《酶学方法》(METHODS IN ENZYMOLOGY)系列(学术出版公司):《PCR 2:实用方法》(PCR2:A PRACTICAL APPROACH)(M.J.麦克弗森(M.J.MacPherson)、B.D.黑姆斯(B.D.Hames)和G.R.泰勒(G.R.Taylor)编辑(1995))、哈洛(Harlow)和拉内(Lane)编辑(1988)《抗体:实验室手册》(ANTIBODIES,A LABORATORY MANUAL),以及《动物细胞培养》(ANIMAL CELL CULTURE)(R.I.弗雷谢尼(R.I.Freshney)编辑(1987))。
另外,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。本领域技术人员知晓,实施例以举例方式描述本发明,且不意欲限制本发明所要求保护的范围。本文中提及的全部公开案和其他参考资料以其全文通过引用合并入本文。
以下实施例涉及的部分试剂的来源如下:
LB液体培养基:10g胰蛋白胨(Tryptone),5g酵母提取物(Yeast Extract),10gNaCl,定容至1L,灭菌。若需加抗生素,则待培养基冷却后加,50μg/ml的终浓度。
氯仿/异戊醇:240ml的氯仿加10ml的异戊醇,混匀。
RNP缓冲液:100mM氯化钠,50mM Tris-HCl,10mM MgCl2,100μg/ml BSA,pH 7.9。
原核表达载体pACYC-Duet-1和pUC19购自北京全式金生物技术有限公司。
大肠杆菌感受态EC100购自Epicentre公司。
实施例1.Cas12f基因和Cas12f导向RNA的获得
1、CRISPR和基因的注释:使用Prodigal对将NCBI和JGI数据库的微生物基因组和宏基因组数据进行基因注释得到所有蛋白,同时用Piler-CR进行CRISPR座的注释,参数均为默认参数。
2、蛋白质的过滤:通过序列一致性对注释蛋白去冗余,去除序列完全一致的蛋白,同时将长度大于800个氨基酸的蛋白划分为大分子蛋白。由于目前发现的所有第二类CRISPR/Cas系统的效应蛋白长度多大于900个氨基酸,所以为了降低计算复杂度,我们在挖掘CRISPR效应蛋白的时候只对大分子蛋白进行考虑。
3、CRISPR相关大分子蛋白的获得:将每一个CRISPR座上下游延伸10Kb,将对CRISPR邻近区间内的非冗余大分子蛋白进行鉴定。
4、CRISPR相关大分子蛋白质的聚类:使用BLASTP对非冗余大分子CRISPR相关蛋白进行内部的两两比对,输出Evalue<1E-10的比对结果。使用MCL对BLASTP的输出结果进行聚类分析,CRISPR相关蛋白质家族。
5、CRISPR富集大分子蛋白质家族的鉴定:使用BLASTP对CRISPR相关蛋白质家族的蛋白比对到去除去CRISPR相关蛋白的非冗余大分子蛋白数据库,输出Evalue<1E-10的比对结果。如果一个非CRISPR相关蛋白数据库发现的同源蛋白小于100%,那么则说明这个家族的蛋白在CRISPR区域是富集的,通过这种方法我们对CRISPR富集大分子蛋白质家族进行鉴定。
6、蛋白功能和结构域的注释:利用Pfam数据库,NR数据库以及从NCBI收集的Cas蛋白对CRISPR富集大分子蛋白质家族进行注释,得到新的CRISPR/Cas蛋白质家族。利用Mafft对每个CRISPR/Cas家族蛋白进行多重序列比对,然后用JPred和HHpred进行保守结构域分析,鉴定含有RuvC结构域的蛋白质家族。
在此基础上,本发明人获得了一种全新的Cas效应蛋白,即Cas12f,以其三种活性同源物序列,分别命名为Cas12f.4(SEQ ID NO:1)、Cas12f.5(SEQ ID NO:2)、Cas12f.6(SEQID NO:3),三种同源物的编码DNA分别如SEQ ID NOs:4、5、6所示。Cas12f.4、Cas12f.5、Cas12f.6所对应的原型同向重复序列(pre-crRNA中所含有的repeat序列)分别如SEQ IDNOs:7、8、9所示。Cas12f.4、Cas12f.5、Cas12f.6所对应的成熟同向重复序列(成熟crRNA中所含有的repeat序列)分别如SEQ ID NOs:13、14、15所示。
实施例2.Cas12f基因对成熟crRNA的加工
1、人工合成SEQ ID NO:4所示的双链DNA分子,同时人工合成SEQ ID NO:10所示双链DNA分子。
2、将步骤1合成的双链DNA分子与原核表达载体pACYC-Duet-1连接,得到重组质粒pACYC-Duet-1+CRISPR/Cas12f。
对重组质粒pACYC-Duet-1+CRISPR/Cas12f进行测序。测序结果表明,重组质粒pACYC-Duet-1+CRISPR/Cas12f中含有SEQ ID NO:4和SEQ ID NO:10所示的序列,并且表达SEQ ID NO:1所示的Cas12f.4蛋白和SEQ ID NO:7所示的Cas12f.4原型同向重复序列。将重组质粒pACYC-Duet-1+CRISPR/Cas12f导入大肠杆菌EC100,得到重组菌,将该重组菌命名为EC100-CRISPR/Cas12f。
3、取EC100-CRISPR/Cas12f的单克隆,接种至100mL LB液体培养基(含50μg/mL氨苄霉素),37℃、200rpm振荡培养12h,得到培养菌液。
4、提取细菌RNA:转移1.5mL细菌培养物到预冷微量离心管中,在4℃,6000×g,离心5分钟。离心后,弃上清液,将细胞沉淀重新悬浮于预热至95℃的200μL Max BacterialEnhancement Reagent中,吹吸混匀混合。95℃孵育4分钟。向溶解产物中加入1mL
Figure BDA0002642749700000301
Reagent并吹吸混匀,室温下孵育5分钟。加入0.2mL冷氯仿,用手摇动管混合15秒,室温下孵育2-3分钟。4℃,12,000×g离心15分钟。取600μL上清于新管中,加入0.5mL冷异丙醇沉淀RNA,颠倒混匀,室温下孵育10分钟。4℃下以15,000×g离心10分钟,弃上清,加入1mL 75%乙醇,涡旋混匀。4℃,7500×g离心5分钟,弃上清,空气风干。将RNA沉淀溶解到50μL RNase-free water中,在60℃下孵育10分钟。
5、DNA的消化:20ugRNA溶解到39.5μL dH2O,65℃,5min。冰上5min,加入0.5μLRNAI,5μL buffer,5μL DNaseI,37℃45min(50μL体系)。加50μL dH2O,调整体积到100μL。2mL Phase-Lock tube 16000g离心30s后,加100μL酚:氯仿:异戊醇(25:24:1)、100μL消化的RNA,摇15s,15℃,16000g离心12min。取上清于一个新的1.5mL离心管中,加入与上清等体积的异丙醇1/10NaoAC,反应1h或-20℃过夜。4℃,16000g离心30min,弃上清。加350μL 75%乙醇洗涤沉淀,4℃,16000g离心10min,弃上清。晾干,加入20μL RNase-free water,65℃,5min溶解沉淀。NanoDrop测浓度,跑胶。
6、3’脱磷酸化及5’磷酸化:将消化的RNA~20ug,各加水至42.5μL,90℃2min。冰上冷却5min。加5μL 10×T4 PNK buffer;0.5μL RNaI,2μL T4 PNK(50μL),37℃6h。加1μL T4PNK,1.25μL(100mM)ATP,37℃1h。加47.75μL dH2O,调整体积到100μL。2mL Phase-Locktube 16000g离心30s后,加100μL酚:氯仿:异戊醇(25:24:1)、100μL消化的RNA,摇15s,15℃,16000g离心12min。取上清于一个新的1.5mL离心管中,加与上清等体积的异丙醇,总体积1/10NaoAC,反应1h或-20℃过夜。4℃,16000g离心30min,弃上清。加350μL 75%乙醇洗涤沉淀,4℃,16000g离心10min,弃上清。晾干,加入21μL RNase-free water,65℃,5min溶解沉淀,NanoDrop测浓度。
7、RNA单磷酸化:20μL RNA ,90℃1min,冰上冷却5min。加入2μL RNA 5’Polphosphatase 10×Reaction buffer,0.5μL Inhibitor,1μL RNA 5’Polphosphatase(20Units),加RNase-free water至20μL,37℃60min。加80μL dH2O,调整体积到100μL。2mLPhase-Lock tube16000g离心30s后,加100μL酚:氯仿:异戊醇(25:24:1)、100μL消化的RNA,摇15s,15℃,16000g离心12min。取上清于一个新的1.5mL离心管中,加与上清等体积的异丙醇,总体积1/10NaoAC,反应1h或-20℃过夜。4℃,16000g离心30min,弃上清,加350μL 75%乙醇洗涤沉淀,4℃,16000g离心10min,弃上清。晾干,加入21μL RNase-free water,65℃,5min溶解沉淀,NanoDrop测浓度。
8、cDNA文库的准备:16.5μL RNase-free water。5μL Poly(A)Polymerase 10×Reaction buffer。5μL 10mM ATP。1.5μL RiboGuard RNase Inhibitor。20μL RNASubstrate。2μL Poly(A)Polymerase(4Units)。50μL总体积。37℃20min。加50μL dH2O,调整体积到100μL。2mL Phase-Lock tube16000g离心30s后,加100μL酚:氯仿:异戊醇(25:24:1)、100μL消化的RNA,摇15s,15℃,16000g离心12min。取上清于一个新的1.5mL离心管中,加与上清等体积的异丙醇,总体积1/10NaoAC,反应1h或-20℃过夜。4℃,16000g离心30min,弃上清,晾干,加入11μL RNase-free water,65℃,5min溶解沉淀,NanoDrop测浓度。
9、将cDNA文库加上测序接头后送至北京贝瑞合康进行测序。
10、对原始数据进行质量过滤,去除碱基平均质量值低于30的序列。对序列去除接头后,保留25nt到50nt的RNA序列,用bowtie将其比对到CRISPR阵列的参考序列上。
11、通过比对我们发现Cas12f.4的pre-crRNA在大肠杆菌体内能成功的被加工成45nt的成熟crRNA,其中由23nt的Repeat序列和19-22nt的导向序列构成。
12、用ViennaRNA和VARNA对成熟的crRNA进行结构预测和可视化分析我们发现,crRNA的Repeat序列的3’端可以形成一个8个碱基大小的颈环(图1)。
13、我们对Cas12f.5和Cas12f.6的crRNA 3’端23nt的序列进行预测后发现了相似的二级结构(图1)。
实施例3.Cas12f基因的PAM结构域鉴定
1.构建重组质粒pACYC-Duet-1+CRISPR/Cas12f并测序。根据测序结果,对重组质粒pACYC-Duet-1+CRISPR/Cas12f进行结构描述如下:将载体pACYC-Duet-1的限制性内切酶Pml I和Kpn I识别序列间的小片段替换为SEQ ID NO:4所示的序列中自5’末端起第1至3713位所示的双链DNA分子。重组质粒pACYC-Duet-1+CRISPR/Cas12f表达SEQ ID NO:1所示的Cas12f.4蛋白和SEQ ID NO:25所示的Cas12f导向RNA。
2.重组质粒pACYC-Duet-1+CRISPR/Cas12f中含有表达盒,该表达盒的核苷酸序列如SEQ ID NO:23所示。SEQ ID NO:23所示的序列中,自5’末端起第1至44位为pLacZ启动子的核苷酸序列,第45至3326位为Cas12f.4基因的核苷酸序列,第3327至3412位为终止子的核苷酸序列(用于终止转录)。自5’末端起第3413至3452位为J23119启动子的核苷酸序列,第3453至3,628位为CRISPR阵列的核苷酸序列,第3627至3713位为rrnB-T1终止子的核苷酸序列(用于终止转录)。
3.重组大肠杆菌的获得:将重组质粒pACYC-Duet-1+CRISPR/Cas12f导入大肠杆菌EC100中,得到重组大肠杆菌,命名为EC100/pACYC-Duet-1+CRISPR/Cas12f。将重组质粒pACYC-Duet-1导入大肠杆菌EC100中,得到重组大肠杆菌,命名为EC100/pACYC-Duet-1。
4.PAM文库的构建:人工合成SEQ ID NO:24所示的序列,并连接到pUC19载体,其中SEQ ID NO:24所示的序列包括5’端八个随机碱基和靶序列。对PAM文库的靶标序列5’端前面设计了8个随机碱基构建质粒文库。将质粒分别转入到含有Cas12f.4基因座的大肠杆菌中和不含有Cas.12f.4基因座的大肠杆菌中。在37℃下处理1小时后,我们对质粒进行提取,并对PAM区域序列进行PCR扩增和测序。
5.PAM文库结构域的获得:分别统计实验组和对照组中65,536种组合的PAM序列出现次数,并用各自组所有的PAM序列数目进行标准化。对于任意一条PAM序列,当log2(对照组标准化值/实验组标准化值)大于3.5时,我们认为这条PAM被显著消耗,我们总共得到了3,548条显著被消耗的PAM序列,所有占比例5.41%。我们用Weblogo对显著消耗的PAM序列进行预测,发现Cas12f.4的PAM结构域为严格的5’-TTN结构(图2),而且靶标序列前面的第二位和第三位碱基几乎100%都是T,而其他位置可以为任意的序列,这是比已经报道的最严谨PAM识别的C2c1拥有更加严谨的PAM识别方式。
6.PAM文库结构域的验证:通过PAM文库消耗实验,我们获得了Cas12f.4的PAM结构域,为了验证这一结构域的严谨性,我们设置了10组PAM进行了体内实验,测序Cas12f对这些PAM的编辑活性。首先,我们将30nt的靶标和PAM序列整合到质粒的耐卡那基因的非保守位置上,然后用CRSPR/Cas12f和导向RNA形成的复合物与之进行混合培养8小时。通过涂板并统计菌落数目,我们便能判断Cas12f对不同PAM序列的消耗活性。通过实验结果,我们可以看到CRISPR/Cas12f.4系统只能对带有5’-TTA、5’-TTT、5’-TTC和5’-TTG PAM的靶标序列进行有效地编辑,而对带有5’-TAT、5’-TCT、5’-TCG、5’-ATT、5’-CTT和5’-GTT PAM的靶标序列则没有编辑活性,从而验证了Cas12f.4的PAM结构域识别的验证性。通过对不同PAM的菌落进行统计,我们发现CRISPR/Cas12f.4系统对5’-TTA、5’-TTT和5’-TTC的编辑活性高于5’-TTG。
实施例4.Cas12f.4,Cas12f.5,Cas12f.6在人类细胞系中的切割
将含有Cas12f.4基因的真核表达载体和含有U6启动子与crRNA(SEQ ID NO:25)序列的PCR产物通过脂质体转染的方法转入到人类HEK293T细胞中(图3a),在37摄氏度5%二氧化碳浓度下培养72h。提取全部细胞的DNA,并对包含靶位点700bp的序列进行扩增,将PCR产物通过Tn5进行二代测序文库构建,测序由北京安诺优达基因科技有限公司完成,将测序结果比对到人类基因组的VEGFA基因上,鉴定到Cas12f.4对目标靶位点的切割方式(图3b),CRISPR/Cas12f.4系统对VEGFA的编辑效率能达到4.2%,原始测序数据如图3c所示(图3c)。
使用相同方法检测Cas12f.5、Cas12f.6对VEGFA的切割活性,其crRNA分别如SEQID NO:26、SEQ ID NO:27所示。图3c的结果显示,CRISPR/Cas12f.5、CRISPR/Cas12f.6系统对VEGFA的编辑效率分别为0.31%和0.19%。
实施例5.Cas12f.4在玉米原生质体中的切割
将纯化的Cas12f.4蛋白(60μg)和SEQ ID NO:28或29所示导向RNA(120μg)在37摄氏度下混合成核糖核蛋白复合体(RNP),再利用PEG4000介导的原生质体转化将CRISPR/Cas12f.4RNP转入玉米原生质体细胞中,在37摄氏度下暗培养24小时(图4a)。培养结束后,离心去上清收集原生质体,提取原生质体DNA,扩增靶位点上下游约600bp的DNA片段。将包含靶位点的DNA片段进行T7核酸内切酶酶切检测,结果如图4b所示,CRISPR/Cas12f.4系统对PDI1、SEB2.2具有高效的切割活性。将含有靶位点的DNA片段连接Blunt Simple载体,涂板,通过赛默飞世尔科技(中国)有限公司对单克隆进行Sanger测序,将测序结果比对到玉米组的PDI1、SEB2.2基因上,结果如图4b-4c所示,鉴定得到Cas12f.4对目标靶位点的切割效率分别为33.5%和16.7%。
尽管本发明的具体实施方式已经得到详细的描述,但本领域技术人员将理解:根据已经公布的所有教导,可以对细节进行各种修改和变动,并且这些改变均在本发明的保护范围之内。本发明的全部分为由所附权利要求及其任何等同物给出。
SEQUENCE LISTING
<110> 中国农业大学
<120> 新型CRISPR/Cas12f酶和系统
<130> IDC200263
<160> 29
<170> PatentIn version 3.5
<210> 1
<211> 1045
<212> PRT
<213> 人工序列
<220>
<223> Cas12f.4的氨基酸序列
<400> 1
Met Lys Lys Val Glu Val Ser Arg Pro Tyr Gln Ser Leu Leu Leu Pro
1 5 10 15
Asn His Arg Lys Phe Lys Tyr Leu Asp Glu Thr Trp Asn Ala Tyr Lys
20 25 30
Ser Val Lys Ser Leu Leu His Arg Phe Leu Val Cys Ala Tyr Gly Ala
35 40 45
Val Pro Phe Asn Lys Phe Val Glu Val Val Glu Lys Val Asp Asn Asp
50 55 60
Gln Leu Val Leu Ala Phe Ala Val Arg Leu Phe Arg Leu Val Pro Val
65 70 75 80
Glu Ser Thr Ser Phe Ala Lys Val Asp Lys Ala Asn Leu Ala Lys Ser
85 90 95
Leu Ala Asn His Leu Pro Val Gly Thr Ala Ile Pro Ala Asn Val Gln
100 105 110
Ser Tyr Phe Asp Ser Asn Phe Asp Pro Lys Lys Tyr Met Trp Ile Asp
115 120 125
Cys Ala Trp Glu Ala Asp Arg Leu Ala Arg Glu Met Gly Leu Ser Ala
130 135 140
Ser Gln Phe Ser Glu Tyr Ala Thr Thr Met Leu Trp Glu Asp Trp Leu
145 150 155 160
Pro Leu Asn Lys Asp Asp Val Asn Gly Trp Gly Ser Val Ser Gly Leu
165 170 175
Phe Gly Glu Gly Lys Lys Glu Asp Arg Gln Gln Lys Val Lys Met Leu
180 185 190
Asn Asn Leu Leu Asn Gly Ile Lys Lys Asn Pro Pro Lys Asp Tyr Thr
195 200 205
Gln Tyr Leu Lys Ile Leu Leu Asn Ala Phe Asp Ala Lys Ser His Lys
210 215 220
Glu Ala Val Lys Asn Tyr Lys Gly Asp Ser Thr Gly Arg Thr Ala Ser
225 230 235 240
Tyr Leu Ser Glu Lys Ser Gly Glu Ile Thr Glu Leu Met Leu Glu Gln
245 250 255
Leu Met Ser Asn Ile Gln Arg Asp Ile Gly Asp Lys Gln Lys Glu Ile
260 265 270
Ser Leu Pro Lys Lys Asp Val Val Lys Lys Tyr Leu Glu Ser Glu Ser
275 280 285
Gly Val Pro Tyr Asp Gln Asn Leu Trp Ser Gln Ala Tyr Arg Asn Ala
290 295 300
Ala Ser Ser Ile Lys Lys Thr Asp Thr Arg Asn Phe Asn Ser Thr Leu
305 310 315 320
Glu Lys Phe Lys Asn Glu Val Glu Leu Arg Gly Leu Leu Ser Glu Gly
325 330 335
Asp Asp Val Glu Ile Leu Arg Ser Lys Phe Phe Ser Ser Glu Phe His
340 345 350
Lys Thr Pro Asp Lys Phe Val Ile Lys Pro Glu His Ile Gly Phe Asn
355 360 365
Asn Lys Tyr Asn Val Val Ala Glu Leu Tyr Lys Leu Lys Ala Glu Ala
370 375 380
Thr Asp Phe Glu Ser Ala Phe Ala Thr Val Lys Asp Glu Phe Glu Glu
385 390 395 400
Lys Gly Ile Lys His Pro Ile Lys Asn Ile Leu Glu Tyr Ile Trp Asn
405 410 415
Asn Glu Val Pro Val Glu Lys Trp Gly Arg Val Ala Arg Phe Asn Gln
420 425 430
Ser Glu Glu Lys Leu Leu Arg Ile Lys Ala Asn Pro Thr Val Glu Cys
435 440 445
Asn Gln Gly Met Thr Phe Gly Asn Ser Ala Met Val Gly Glu Val Leu
450 455 460
Arg Ser Asn Tyr Val Ser Lys Lys Gly Ala Leu Val Ser Gly Glu His
465 470 475 480
Gly Gly Arg Leu Ile Gly Gln Asn Asn Met Ile Trp Leu Glu Met Arg
485 490 495
Leu Leu Asn Lys Gly Lys Trp Glu Thr His His Val Pro Thr His Asn
500 505 510
Met Lys Phe Phe Glu Glu Val His Ala Tyr Asn Pro Ser Leu Ala Asp
515 520 525
Ser Val Asn Val Arg Asn Arg Leu Tyr Arg Ser Glu Asp Tyr Thr Gln
530 535 540
Leu Pro Ser Ser Ile Thr Asp Gly Leu Lys Gly Asn Pro Lys Ala Lys
545 550 555 560
Leu Leu Lys Arg Gln His Cys Ala Leu Asn Asn Met Thr Ala Asn Val
565 570 575
Leu Asn Pro Lys Leu Ser Phe Thr Ile Asn Lys Lys Asn Asp Asp Tyr
580 585 590
Thr Val Ile Ile Val His Ser Val Glu Val Ser Lys Pro Arg Arg Glu
595 600 605
Val Leu Val Gly Asp Tyr Leu Val Gly Met Asp Gln Asn Gln Thr Ala
610 615 620
Ser Asn Thr Tyr Ala Val Met Gln Val Val Lys Pro Lys Ser Thr Asp
625 630 635 640
Ala Ile Pro Phe Arg Asn Met Trp Val Arg Phe Val Glu Ser Gly Ser
645 650 655
Ile Glu Ser Arg Thr Leu Asn Ser Arg Gly Glu Tyr Val Asp Gln Leu
660 665 670
Asn His Asp Gly Val Asp Leu Phe Glu Ile Gly Asp Thr Glu Trp Val
675 680 685
Asp Ser Ala Arg Lys Phe Phe Asn Lys Leu Gly Val Lys His Lys Asp
690 695 700
Gly Thr Leu Val Asp Leu Ser Thr Ala Pro Arg Lys Ala Tyr Ala Phe
705 710 715 720
Asn Asn Phe Tyr Phe Lys Thr Met Leu Asn His Leu Arg Ser Asn Glu
725 730 735
Val Asp Leu Thr Leu Leu Arg Asn Glu Ile Leu Arg Val Ala Asn Gly
740 745 750
Arg Phe Ser Pro Met Arg Leu Gly Ser Leu Ser Trp Thr Thr Leu Lys
755 760 765
Ala Leu Gly Ser Phe Lys Ser Leu Val Leu Ser Tyr Phe Asp Arg Leu
770 775 780
Gly Ala Lys Glu Met Val Asp Lys Glu Ala Lys Asp Lys Ser Leu Phe
785 790 795 800
Asp Leu Leu Val Ala Ile Asn Asn Lys Arg Ser Asn Lys Arg Glu Glu
805 810 815
Arg Thr Ser Arg Ile Ala Ser Ser Leu Met Thr Val Ala Gln Lys Tyr
820 825 830
Lys Val Asp Asn Ala Val Val His Val Val Val Glu Gly Asn Leu Ser
835 840 845
Ser Thr Asp Arg Ser Ala Ser Lys Ala His Asn Arg Asn Thr Met Asp
850 855 860
Trp Cys Ser Arg Ala Val Val Lys Lys Leu Glu Asp Met Cys Asn Leu
865 870 875 880
Tyr Gly Phe Asn Ile Lys Gly Val Pro Ala Phe Tyr Thr Ser His Gln
885 890 895
Asp Pro Leu Val His Arg Ala Asp Tyr Asp Asp Pro Lys Pro Ala Leu
900 905 910
Arg Cys Arg Tyr Ser Ser Tyr Ser Arg Ala Asp Phe Ser Lys Trp Gly
915 920 925
Gln Asn Ala Leu Ala Ala Val Val Arg Trp Ala Ser Asn Lys Lys Ser
930 935 940
Asn Thr Cys Tyr Lys Val Gly Ala Val Glu Phe Leu Lys Gln His Gly
945 950 955 960
Leu Phe Ala Asp Lys Lys Leu Thr Val Glu Gln Phe Leu Ser Lys Val
965 970 975
Lys Asp Glu Glu Ile Leu Ile Pro Arg Arg Gly Gly Arg Val Phe Leu
980 985 990
Thr Thr His Arg Leu Leu Ala Glu Ser Thr Phe Val Tyr Leu Asn Gly
995 1000 1005
Val Lys Tyr His Ser Cys Asn Ala Asp Glu Val Ala Ala Val Asn
1010 1015 1020
Ile Cys Leu Asn Asp Trp Val Ile Pro Cys Lys Lys Lys Met Lys
1025 1030 1035
Glu Glu Ser Ser Ala Ser Gly
1040 1045
<210> 2
<211> 1079
<212> PRT
<213> 人工序列
<220>
<223> Cas12f.5的氨基酸序列
<400> 2
Met Pro Lys Gln Lys Asp Leu Pro Tyr Ser Cys Leu Ser Tyr Leu Gln
1 5 10 15
Pro Asn Glu Arg Lys Leu Lys Leu Leu Asn Asn Thr Tyr Asp His Leu
20 25 30
Thr His Gly Ser Lys Ile Met Phe Asp Thr Leu Ile Ala Leu Met Gly
35 40 45
Gly Ile Asn Pro Lys Met Asp Val Ile Ser Glu Asn Lys Asp Ser Glu
50 55 60
Ile Lys Asn Asn Arg Asp Pro Gln Thr Met Cys Ala Thr Ile Trp Phe
65 70 75 80
Arg Pro Met Lys Ser Lys Arg Ile Asn Lys Val Trp Ser Pro Lys Gln
85 90 95
Leu Lys Glu Gln Phe Leu Lys Tyr Tyr Gln Glu Tyr Glu Ala Asp Val
100 105 110
Lys Ile Asn Asp Met Val Glu Ala Tyr Phe Asp Ser Pro Leu Gly Glu
115 120 125
Asn Tyr Val Trp Val Asp Cys Arg Lys Lys Tyr Lys Gln Leu Val Lys
130 135 140
Glu Leu Ala Ser Ile Ala Lys Thr Thr Glu Ala Asn Leu Lys Glu Asp
145 150 155 160
Leu Asp Cys Asp Leu Glu Cys Leu Phe Arg Pro Ser Glu Lys Lys Met
165 170 175
Lys Leu Tyr Gly Ser Asn Lys Ser Trp Ala Ile Ile Ser Asn Leu Phe
180 185 190
Gly Glu Gly Asp Lys Glu Asp Arg Ser Lys Lys Ile Lys Ile Leu Thr
195 200 205
Lys Ala Ile Gln Ile Leu Thr Glu Ser Asn Pro Glu Ser Tyr Ala Asp
210 215 220
Val Gln Lys Ala Phe Leu Ala Ala Ala Asp Ile Asp Asp Pro Lys Lys
225 230 235 240
Phe His Thr Gln Glu Ile Trp Gly Asn Gly Ser Pro Gly Asn Ile Val
245 250 255
Lys Met Ala Arg Gly Asp Phe Leu Gly Lys Glu Phe Asp Cys Glu Lys
260 265 270
Ile Leu Glu Lys Ile Asn Asp Val Leu Lys Glu Lys Thr Leu Asp Phe
275 280 285
Asp Leu Lys Val Arg Leu Ser Phe Lys Glu Tyr Leu Ile Ser Lys Ile
290 295 300
Gly His Tyr Tyr Gln Asn Ser Trp Ser Glu Met Ile Asn Ser Ala Phe
305 310 315 320
Ala Asp Ile Ile Ser Lys Asn Thr Arg Asn Val Asn Phe Ala Lys Glu
325 330 335
Lys Val Gln Leu Gln Lys Thr Leu Ser Glu Thr Ser Asn Ala Lys Val
340 345 350
Glu Leu Leu Thr Asp Phe Phe Lys Ser Asp Phe Phe Leu Gly Asp Asp
355 360 365
Lys Phe Asp Ile Ala Pro His Asn Leu Gly Gly Ala Asn Gly Ile Lys
370 375 380
Phe Phe Tyr Asp Phe Cys Lys Lys Asn Glu Asp Gln Tyr Phe Leu Glu
385 390 395 400
Glu Leu Leu Leu Glu Ala Ala Ile Glu Glu Ser Val Ala Glu Ala Lys
405 410 415
Ser Lys Ser Leu Lys Glu Pro His Lys Asp Leu Leu Arg Tyr Val Phe
420 425 430
Ser Ile Arg Lys Glu Thr Thr Phe Glu Glu Leu Arg Asp Ala Ala Lys
435 440 445
Tyr Ile Gln Thr His Lys Arg Ile Lys Asn Met Ser Val His Pro Thr
450 455 460
Val Lys Ser Asp Ile Gly Phe Asn Val Thr Ser Gly Ser Ala Leu Val
465 470 475 480
Gly His Val Val Ser Pro Ser Lys Lys Ile Asn Gly Arg Ile Ala Gly
485 490 495
Glu Ser Gly Phe Ile Trp Ile Cys Met Lys Leu Trp Glu Gly Gly Asp
500 505 510
Lys Trp Ile Glu His His Ile Pro Phe Thr Asp Thr Arg Phe Tyr Glu
515 520 525
Gln Ile Tyr Lys Tyr Asn Pro Asp Ser Lys Leu Glu Pro Val Val Leu
530 535 540
Arg Thr Lys Arg Tyr Gly Val Asp Leu Thr Lys Phe Asn Leu Pro Pro
545 550 555 560
Met Lys Thr Asp Leu Lys His Val Ala Pro Lys Glu Lys Asn Lys His
565 570 575
Asn Tyr Val Lys Val Gln Arg Arg Leu Gln Arg Leu Asn His Pro Asp
580 585 590
Val Pro Asn Thr Ile Trp Pro Lys Ser Asn Ile Gly Phe Thr Ile Arg
595 600 605
Arg Lys Asn Gly Lys Tyr Ile Leu Asn Val Val His Lys Leu Pro Lys
610 615 620
Asn Lys Val Lys Lys Ser Val Lys Pro Lys Phe Gly Asp Ile Leu Ile
625 630 635 640
Gly Val Asp Gln Asn Gln Thr Thr Asn His Thr Cys Ser Ile Tyr Lys
645 650 655
Val Val Lys Lys Asn Thr Lys Glu Ala Leu Leu Val Pro Glu Ser Asp
660 665 670
Phe Tyr Leu Lys Lys Ile Glu Thr Ile Lys Val Thr Ser Phe Thr Lys
675 680 685
Ala Arg Tyr Asn Ser Glu Pro Ile Asp Gln Leu His Tyr Glu Gly Ile
690 695 700
Ser Val Asp Asn Glu Val Phe Lys Asn Trp Cys Lys Asp Arg Glu Gln
705 710 715 720
Phe Val Asp Ser Leu Ser Ile Lys Glu Phe Lys Asn Glu Phe Lys Arg
725 730 735
Ile Lys Asn Lys Asn Glu Asn Leu Tyr Ser Phe Asn Ala Asp Tyr Leu
740 745 750
Trp Leu Leu Lys Arg Ile Ile Ser Gly Lys Leu Asn Lys Lys Lys Phe
755 760 765
Asp Val Ser Val Phe Glu Lys Ser Ile Arg Asn Glu Ile Leu Ala Met
770 775 780
Cys Ser Lys Glu Gly Leu Gly Pro Leu Arg Val Ser Ser Leu Ser Ser
785 790 795 800
Asn Ser Leu Lys Ser Ile Gly Phe Leu Lys Ser Ala Ile Cys Ser Phe
805 810 815
Ile Ser Ile Ala Leu Asn Arg Lys Gly Ile Glu Asp Lys Thr Asp Val
820 825 830
Gln Lys Asn Lys Ile Asp Pro Glu Leu Phe Asp Leu Ile Gly Lys Ile
835 840 845
Glu Gln Lys Arg Val Asn Lys Arg Met Glu Lys Thr Arg Arg Asn Ala
850 855 860
Asp Phe Ile Leu Thr Met Ala Val Asp Tyr Gln Lys Ser Ser Gln Lys
865 870 875 880
Asn Val Phe Leu Phe Cys Glu Gly Asn Leu Glu Thr Ala Lys Thr Gly
885 890 895
Asn Ser Lys Lys Arg Asn Ser Ala Asn Val Asp Trp Cys Ser Arg Lys
900 905 910
Leu Phe Asp Phe Leu Lys Glu Lys Ser Leu Arg His Gly Ile Tyr Phe
915 920 925
His Ala Val Thr Pro His Tyr Thr Ser His Gln Asp Pro Phe Glu Tyr
930 935 940
His Pro Ser Asn Lys Val Met Leu Pro Arg Phe Ala Lys Phe Asp Lys
945 950 955 960
Asn Asn Pro Ile Gln Asp Trp Ala Glu Lys Lys Tyr Leu Gly Phe Ala
965 970 975
Asn Ser Asp Pro Glu Ser Gly Thr Ala Leu Tyr Tyr Lys Lys Gly Val
980 985 990
Glu Asn Phe Phe Ala His Tyr Gln Lys Gly Phe Lys Glu Lys Val Glu
995 1000 1005
Leu Ala Glu Met Lys Asn Val Leu Asn Ser Asn Leu Lys Asn Gly
1010 1015 1020
Asn Leu Glu His Val Phe Cys Pro Ile Arg Gly Gly Arg Tyr Tyr
1025 1030 1035
Leu Ser Thr His Pro Val Thr Ser Asp Ala Lys Pro Phe Glu Phe
1040 1045 1050
Asn Gly Arg Lys Cys Tyr Ile Cys Asp Ser Asp Glu Val Ala Ala
1055 1060 1065
Thr Asn Ile Met Leu Ile Gly Leu Phe Tyr Val
1070 1075
<210> 3
<211> 1054
<212> PRT
<213> 人工序列
<220>
<223> Cas12f.6的氨基酸序列
<400> 3
Met Ser Ser Ala Ile Lys Ser Tyr Lys Ser Val Leu Arg Pro Asn Glu
1 5 10 15
Arg Lys Asn Gln Leu Leu Lys Ser Thr Ile Gln Cys Leu Glu Asp Gly
20 25 30
Ser Ala Phe Phe Phe Lys Met Leu Gln Gly Leu Phe Gly Gly Ile Thr
35 40 45
Pro Glu Ile Val Arg Phe Ser Thr Glu Gln Glu Lys Gln Gln Gln Asp
50 55 60
Ile Ala Leu Trp Cys Ala Val Asn Trp Phe Arg Pro Val Ser Gln Asp
65 70 75 80
Ser Leu Thr His Thr Ile Ala Ser Asp Asn Leu Val Glu Lys Phe Glu
85 90 95
Glu Tyr Tyr Gly Gly Thr Ala Ser Asp Ala Ile Lys Gln Tyr Phe Ser
100 105 110
Ala Ser Ile Gly Glu Ser Tyr Tyr Trp Asn Asp Cys Arg Gln Gln Tyr
115 120 125
Tyr Asp Leu Cys Arg Glu Leu Gly Val Glu Val Ser Asp Leu Thr His
130 135 140
Asp Leu Glu Ile Leu Cys Arg Glu Lys Cys Leu Ala Val Ala Thr Glu
145 150 155 160
Ser Asn Gln Asn Asn Ser Ile Ile Ser Val Leu Phe Gly Thr Gly Glu
165 170 175
Lys Glu Asp Arg Ser Val Lys Leu Arg Ile Thr Lys Lys Ile Leu Glu
180 185 190
Ala Ile Ser Asn Leu Lys Glu Ile Pro Lys Asn Val Ala Pro Ile Gln
195 200 205
Glu Ile Ile Leu Asn Val Ala Lys Ala Thr Lys Glu Thr Phe Arg Gln
210 215 220
Val Tyr Ala Gly Asn Leu Gly Ala Pro Ser Thr Leu Glu Lys Phe Ile
225 230 235 240
Ala Lys Asp Gly Gln Lys Glu Phe Asp Leu Lys Lys Leu Gln Thr Asp
245 250 255
Leu Lys Lys Val Ile Arg Gly Lys Ser Lys Glu Arg Asp Trp Cys Cys
260 265 270
Gln Glu Glu Leu Arg Ser Tyr Val Glu Gln Asn Thr Ile Gln Tyr Asp
275 280 285
Leu Trp Ala Trp Gly Glu Met Phe Asn Lys Ala His Thr Ala Leu Lys
290 295 300
Ile Lys Ser Thr Arg Asn Tyr Asn Phe Ala Lys Gln Arg Leu Glu Gln
305 310 315 320
Phe Lys Glu Ile Gln Ser Leu Asn Asn Leu Leu Val Val Lys Lys Leu
325 330 335
Asn Asp Phe Phe Asp Ser Glu Phe Phe Ser Gly Glu Glu Thr Tyr Thr
340 345 350
Ile Cys Val His His Leu Gly Gly Lys Asp Leu Ser Lys Leu Tyr Lys
355 360 365
Ala Trp Glu Asp Asp Pro Ala Asp Pro Glu Asn Ala Ile Val Val Leu
370 375 380
Cys Asp Asp Leu Lys Asn Asn Phe Lys Lys Glu Pro Ile Arg Asn Ile
385 390 395 400
Leu Arg Tyr Ile Phe Thr Ile Arg Gln Glu Cys Ser Ala Gln Asp Ile
405 410 415
Leu Ala Ala Ala Lys Tyr Asn Gln Gln Leu Asp Arg Tyr Lys Ser Gln
420 425 430
Lys Ala Asn Pro Ser Val Leu Gly Asn Gln Gly Phe Thr Trp Thr Asn
435 440 445
Ala Val Ile Leu Pro Glu Lys Ala Gln Arg Asn Asp Arg Pro Asn Ser
450 455 460
Leu Asp Leu Arg Ile Trp Leu Tyr Leu Lys Leu Arg His Pro Asp Gly
465 470 475 480
Arg Trp Lys Lys His His Ile Pro Phe Tyr Asp Thr Arg Phe Phe Gln
485 490 495
Glu Ile Tyr Ala Ala Gly Asn Ser Pro Val Asp Thr Cys Gln Phe Arg
500 505 510
Thr Pro Arg Phe Gly Tyr His Leu Pro Lys Leu Thr Asp Gln Thr Ala
515 520 525
Ile Arg Val Asn Lys Lys His Val Lys Ala Ala Lys Thr Glu Ala Arg
530 535 540
Ile Arg Leu Ala Ile Gln Gln Gly Thr Leu Pro Val Ser Asn Leu Lys
545 550 555 560
Ile Thr Glu Ile Ser Ala Thr Ile Asn Ser Lys Gly Gln Val Arg Ile
565 570 575
Pro Val Lys Phe Asp Val Gly Arg Gln Lys Gly Thr Leu Gln Ile Gly
580 585 590
Asp Arg Phe Cys Gly Tyr Asp Gln Asn Gln Thr Ala Ser His Ala Tyr
595 600 605
Ser Leu Trp Glu Val Val Lys Glu Gly Gln Tyr His Lys Glu Leu Gly
610 615 620
Cys Phe Val Arg Phe Ile Ser Ser Gly Asp Ile Val Ser Ile Thr Glu
625 630 635 640
Asn Arg Gly Asn Gln Phe Asp Gln Leu Ser Tyr Glu Gly Leu Ala Tyr
645 650 655
Pro Gln Tyr Ala Asp Trp Arg Lys Lys Ala Ser Lys Phe Val Ser Leu
660 665 670
Trp Gln Ile Thr Lys Lys Asn Lys Lys Lys Glu Ile Val Thr Val Glu
675 680 685
Ala Lys Glu Lys Phe Asp Ala Ile Cys Lys Tyr Gln Pro Arg Leu Tyr
690 695 700
Lys Phe Asn Lys Glu Tyr Ala Tyr Leu Leu Arg Asp Ile Val Arg Gly
705 710 715 720
Lys Ser Leu Val Glu Leu Gln Gln Ile Arg Gln Glu Ile Phe Arg Phe
725 730 735
Ile Glu Gln Asp Cys Gly Val Thr Arg Leu Gly Ser Leu Ser Leu Ser
740 745 750
Thr Leu Glu Thr Val Lys Ala Val Lys Gly Ile Ile Tyr Ser Tyr Phe
755 760 765
Ser Thr Ala Leu Asn Ala Ser Lys Asn Asn Pro Ile Ser Asp Glu Gln
770 775 780
Arg Lys Glu Phe Asp Pro Glu Leu Phe Ala Leu Leu Glu Lys Leu Glu
785 790 795 800
Leu Ile Arg Thr Arg Lys Lys Lys Gln Lys Val Glu Arg Ile Ala Asn
805 810 815
Ser Leu Ile Gln Thr Cys Leu Glu Asn Asn Ile Lys Phe Ile Arg Gly
820 825 830
Glu Gly Asp Leu Ser Thr Thr Asn Asn Ala Thr Lys Lys Lys Ala Asn
835 840 845
Ser Arg Ser Met Asp Trp Leu Ala Arg Gly Val Phe Asn Lys Ile Arg
850 855 860
Gln Leu Ala Pro Met His Asn Ile Thr Leu Phe Gly Cys Gly Ser Leu
865 870 875 880
Tyr Thr Ser His Gln Asp Pro Leu Val His Arg Asn Pro Asp Lys Ala
885 890 895
Met Lys Cys Arg Trp Ala Ala Ile Pro Val Lys Asp Ile Gly Asp Trp
900 905 910
Val Leu Arg Lys Leu Ser Gln Asn Leu Arg Ala Lys Asn Ile Gly Thr
915 920 925
Gly Glu Tyr Tyr His Gln Gly Val Lys Glu Phe Leu Ser His Tyr Glu
930 935 940
Leu Gln Asp Leu Glu Glu Glu Leu Leu Lys Trp Arg Ser Asp Arg Lys
945 950 955 960
Ser Asn Ile Pro Cys Trp Val Leu Gln Asn Arg Leu Ala Glu Lys Leu
965 970 975
Gly Asn Lys Glu Ala Val Val Tyr Ile Pro Val Arg Gly Gly Arg Ile
980 985 990
Tyr Phe Ala Thr His Lys Val Ala Thr Gly Ala Val Ser Ile Val Phe
995 1000 1005
Asp Gln Lys Gln Val Trp Val Cys Asn Ala Asp His Val Ala Ala
1010 1015 1020
Ala Asn Ile Ala Leu Thr Val Lys Gly Ile Gly Glu Gln Ser Ser
1025 1030 1035
Asp Glu Glu Asn Pro Asp Gly Ser Arg Ile Lys Leu Gln Leu Thr
1040 1045 1050
Ser
<210> 4
<211> 3138
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.4的编码核酸序列
<400> 4
atgaagaagg tcgaggtgtc gcggccatac cagagcctgc tcctgccaaa ccaccggaag 60
ttcaagtacc tcgacgagac ctggaatgcg tacaagtccg ttaagagcct gctccaccgc 120
ttcctggtgt gcgcttacgg cgctgttccc ttcaacaagt tcgtggaggt tgtcgagaag 180
gttgataacg accagctcgt gctggctttc gcggtgcgcc tcttccgcct ggtccccgtg 240
gagagcacct ctttcgccaa ggttgacaag gccaatctgg cgaagtccct ggccaatcac 300
ctgcctgtgg gcacagccat tcctgccaat gttcagtcct acttcgattc aaatttcgac 360
cccaagaagt acatgtggat cgactgcgcg tgggaggctg atcgcctggc tcgggagatg 420
ggcctgagcg cgagccagtt ctctgagtac gcgactacaa tgctctggga ggactggctg 480
cccctcaata aggatgatgt gaacggctgg gggtccgtgt cggggctctt cggcgagggc 540
aagaaggagg accggcagca gaaggtgaag atgctgaata acctgctgaa tggcatcaag 600
aagaatccgc ccaaggatta cacccagtac ctgaagatcc tcctgaacgc gttcgacgcg 660
aagtcgcaca aggaggctgt taagaactac aagggggact ctacggggcg caccgcgtct 720
tacctgtcag agaagtctgg cgagatcaca gagctgatgc tcgagcagct gatgtcaaac 780
atccagaggg atattggcga caagcagaag gagatctccc tgccgaagaa ggacgtggtc 840
aagaagtacc tcgagtcaga gtccggcgtc ccatacgatc agaacctgtg gtcccaggcc 900
taccgcaacg ctgccagctc gatcaagaag actgatacgc ggaacttcaa ctccactctc 960
gagaagttca agaatgaggt ggagctgagg ggcctgctga gcgagggcga cgacgttgag 1020
atcctgaggt ctaagttctt cagcagcgag ttccacaaga cccctgataa gttcgttatt 1080
aagccagagc atattgggtt caacaataag tacaatgtcg ttgccgagct gtacaagctc 1140
aaggctgagg cgaccgattt cgagagcgct ttcgccacag tcaaggatga gttcgaggag 1200
aagggcatca agcacccaat caagaacatc ctcgagtaca tctggaataa cgaggtgccc 1260
gtcgagaagt ggggccgggt tgcccgcttc aaccagtccg aggagaagct cctccggatt 1320
aaggccaacc ccacggtgga gtgcaaccag ggcatgacct tcggcaattc cgcgatggtt 1380
ggcgaggtcc tcaggtccaa ctacgtctct aagaagggcg cgctggtgtc cggcgagcac 1440
ggcgggcgcc tgatcggcca gaacaatatg atctggctgg agatgcggct gctcaacaag 1500
gggaagtggg agacccacca cgttccaacc cataacatga agttcttcga ggaggtgcat 1560
gcctacaatc cctctctggc ggattctgtt aacgtgcgga atcggctgta ccgctcagag 1620
gactacaccc agctgccttc aagcattacc gacgggctga agggcaatcc gaaggcgaag 1680
ctcctgaagc gccagcactg cgctctgaac aatatgacag ctaatgttct caatcctaag 1740
ctgagcttca cgatcaacaa gaagaacgat gattacacgg tcatcattgt ccatagcgtt 1800
gaggtctcga agcctcggag ggaggtgctc gttggcgatt acctcgtggg catggaccag 1860
aatcagacag cgtctaatac atacgccgtc atgcaggtcg tcaagccgaa gtctacagat 1920
gcgatcccgt tccgcaacat gtgggtgcgg ttcgtggagt cagggtctat cgagtcccgg 1980
accctcaaca gccgcgggga gtatgttgat cagctgaatc atgacggcgt ggacctcttc 2040
gagatcggcg atacggagtg ggtggactcc gcgcggaagt tcttcaataa gctcggcgtt 2100
aagcacaagg atggcacact ggttgatctg tctacggcgc cccggaaggc ctacgctttc 2160
aacaacttct acttcaagac catgctgaat catctccgga gcaatgaggt tgacctgacg 2220
ctcctgcgca atgagatcct ccgggttgcc aatgggcggt tctccccgat gcgcctcggc 2280
tcgctctcct ggactactct caaggccctg ggctcgttca agtccctggt gctgtcgtac 2340
ttcgaccggc tgggcgccaa ggagatggtc gacaaggagg ctaaggataa gtctctcttc 2400
gacctcctcg tggctatcaa caacaagcgc tctaataagc gcgaggagcg gacttcccgg 2460
attgcctcca gcctcatgac tgtggcgcag aagtacaagg ttgataacgc tgtggtccat 2520
gtggtcgtcg aggggaatct ctccagcacg gacaggagcg cgtcaaaggc ccataatcgg 2580
aacactatgg attggtgctc tagggccgtg gtgaagaagc tggaggacat gtgcaatctc 2640
tacggcttca atatcaaggg cgtcccagcc ttctacacat cccaccagga cccgctcgtc 2700
caccgcgccg actacgatga ccctaagccg gcgctcaggt gccgctactc ctcgtactca 2760
agggcggact tcagcaagtg ggggcagaac gctctcgcgg cggtggttcg ctgggcgtct 2820
aataagaagt ccaacacctg ctacaaggtc ggggccgtgg agttcctcaa gcagcacggc 2880
ctcttcgcgg acaagaagct gacagtcgag cagttcctct cgaaggtgaa ggacgaggag 2940
atcctcattc cccgcagggg cgggagggtg ttcctcacaa ctcaccggct cctggcggag 3000
tccactttcg tgtacctgaa cggcgttaag taccattcat gcaacgccga tgaggtggcg 3060
gctgttaaca tctgcctgaa tgactgggtt atcccgtgca agaagaagat gaaggaggag 3120
tcaagcgcgt ccgggtag 3138
<210> 5
<211> 3240
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.5的编码核酸序列
<400> 5
atgccgaagc agaaggacct cccctactcc tgcctgagct acctccagcc gaacgagagg 60
aagctcaagc tcctgaacaa cacctacgac cacctgacgc acggcagcaa gatcatgttc 120
gacaccctga tcgcgctcat gggcggcatc aaccccaaga tggacgtgat ctccgagaac 180
aaggacagcg agatcaagaa caaccgcgac ccgcagacca tgtgcgccac gatctggttc 240
cgccccatga agtccaagag gatcaacaag gtctggagcc cgaagcagct caaggagcag 300
ttcctgaagt actaccagga gtacgaggcg gacgtgaaga tcaacgacat ggtcgaggcc 360
tacttcgact ccccgctcgg cgagaactac gtgtgggtcg actgcaggaa gaagtacaag 420
cagctggtga aggagctggc ctccatcgcc aagaccacgg aggccaacct gaaggaggac 480
ctcgactgcg acctggagtg cctcttccgc cccagcgaga agaagatgaa gctctacggc 540
tccaacaaga gctgggcgat catctccaac ctgttcggcg agggcgacaa ggaggacagg 600
agcaagaaga tcaagatcct caccaaggcc atccagatcc tgacggagtc caaccccgag 660
agctacgccg acgtgcagaa ggccttcctc gctgccgcgg acatcgacga cccgaagaag 720
ttccacacgc aggagatctg gggcaacggc agccccggca acatcgtcaa gatggcccgc 780
ggcgacttcc tgggcaagga gttcgactgc gagaagatcc tcgagaagat caacgacgtg 840
ctgaaggaga agacgctgga cttcgacctc aaggtcaggc tgtccttcaa ggagtacctc 900
atcagcaaga tcggccacta ctaccagaac tcctggagcg agatgatcaa ctccgcgttc 960
gccgacatca tcagcaagaa cacccgcaac gtgaacttcg cgaaggagaa ggtccagctc 1020
cagaagaccc tgtccgagac gagcaacgcc aaggtggagc tgctgacgga cttcttcaag 1080
tccgacttct tcctcggcga cgacaagttc gacatcgcgc cgcacaacct gggcggcgcc 1140
aacggcatca agttcttcta cgatttctgc aagaagaacg aggatcagta cttcctcgag 1200
gagctgctgc tcgaggccgc tatcgaggag tcggtggccg aggccaagtc caagagcctg 1260
aaggagcccc acaaggacct gctccgctac gtcttcagca ttaggaagga gacgaccttc 1320
gaggagctga gggacgccgc caagtacatc cagacccaca agaggatcaa gaacatgtcc 1380
gtgcacccga ccgtcaagag cgacatcggc ttcaacgtga cgtccggcag cgcgctcgtc 1440
ggccacgtcg tgtcccccag caagaagatc aacggcagga tcgcgggcga gagcggcttc 1500
atctggatct gcatgaagct gtgggagggc ggcgacaagt ggatcgagca ccacatcccg 1560
ttcaccgaca cgaggttcta cgagcagatc tacaagtaca acccggactc caagctcgag 1620
cccgtggtcc tgcgcaccaa gcgctacggc gtggacctca cgaagttcaa cctgccgccc 1680
atgaagacgg acctcaagca cgtcgccccg aaggagaaga acaagcacaa ctacgtgaag 1740
gtgcagaggc ggctccagag gctcaaccac cccgacgtgc ccaacaccat ctggcccaag 1800
agcaacatcg gcttcacgat ccgcaggaag aacggcaagt acatcctcaa cgtggtccac 1860
aagctgccga agaacaaggt gaagaagtcc gtcaagccca agttcggcga catcctgatc 1920
ggcgtcgacc agaaccagac cacgaaccac acctgctcca tctacaaggt ggtcaagaag 1980
aacaccaagg aggcgctgct cgtgccggag agcgacttct acctcaagaa gatcgagacc 2040
atcaaggtca cctccttcac gaaggccagg tacaacagcg agcccatcga ccagctgcac 2100
tacgagggca tctccgtgga caacgaggtc ttcaagaact ggtgcaagga ccgcgagcag 2160
ttcgtggact ccctcagcat caaggagttc aagaacgagt tcaagaggat caagaacaag 2220
aacgagaacc tctactcctt caacgcggac tacctgtggc tgctcaagcg catcatcagc 2280
ggcaagctca acaagaagaa gttcgacgtg tccgtcttcg agaagagcat ccgcaacgag 2340
atcctggcta tgtgctccaa ggagggcctg ggccccctca gggtctccag cctctccagc 2400
aactccctga agagcatcgg cttcctcaag tccgcgatct gctccttcat cagcatcgcc 2460
ctgaacagga agggcatcga ggacaagacc gacgtgcaga agaacaagat cgaccccgag 2520
ctgttcgacc tcatcggcaa gatcgagcag aagcgcgtca acaagaggat ggagaagacc 2580
cgcaggaacg cggacttcat cctcacgatg gccgtggact accagaagtc cagccagaag 2640
aacgtcttcc tcttctgcga gggcaacctg gagaccgcga agacgggcaa ctccaagaag 2700
cgcaacagcg ccaacgtgga ctggtgctcc aggaagctct tcgacttcct gaaggagaag 2760
agcctccgcc acggcatcta cttccacgcg gtgaccccgc actacacgtc ccaccaggac 2820
ccgttcgagt accaccccag caacaaggtc atgctgccga ggttcgccaa gttcgacaag 2880
aacaacccca tccaggactg ggcggagaag aagtacctcg gcttcgccaa ctccgacccc 2940
gagtcgggca ccgcgctgta ctacaagaag ggcgtcgaga acttcttcgc ccactaccag 3000
aagggcttca aggagaaggt ggagctggcg gagatgaaga acgtcctcaa cagcaacctg 3060
aagaacggca acctcgagca cgtcttctgc ccgatcaggg gcggcaggta ctacctgtcg 3120
acgcaccccg tcacgagcga cgctaagccc ttcgagttca acggccgcaa gtgctacatc 3180
tgcgactccg acgaggtggc ggccaccaac atcatgctga tcggcctctt ctacgtgtga 3240
<210> 6
<211> 3165
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.6的编码核酸序列
<400> 6
atgtccagcg ccatcaagtc ctacaagagc gtgctgcgcc ccaacgagag gaagaaccag 60
ctcctgaagt ccaccatcca gtgcctcgag gacggcagcg ccttcttctt caagatgctg 120
cagggcctct tcggtggcat caccccggag atcgtcaggt tctccacgga gcaggagaaa 180
cagcagcagg acatcgccct gtggtgcgcc gtcaactggt tcaggcccgt gtcccaggac 240
agcctcaccc acacgatcgc cagcgacaac ctggtggaga agttcgagga gtactacggc 300
ggcacggcct ccgacgcgat caagcagtac ttctccgcga gcatcggcga gagctactac 360
tggaacgact gcaggcagca gtactacgac ctgtgcaggg agctgggcgt ggaggtctcc 420
gacctgaccc acgacctgga gatcctgtgc agggagaagt gcctggcggt ggccaccgag 480
agcaaccaga acaactccat catcagcgtc ctgttcggca ccggcgagaa ggaggacagg 540
tccgtgaagc tcaggatcac gaagaagatc ctcgaggcca tcagcaacct gaaggagatc 600
ccgaagaacg tcgcgcccat ccaggagatc atcctgaacg tggccaaggc gaccaaggag 660
acgttcaggc aggtgtacgc gggcaacctc ggcgccccat ccaccctgga gaagttcatc 720
gccaaggacg gccagaagga gttcgacctg aagaagctcc agacggacct caagaaggtc 780
atccgcggca agtccaagga gagggactgg tgctgccagg aggagctgcg cagctacgtg 840
gagcagaaca ccatccagta cgacctctgg gcctggggcg agatgttcaa caaggcccac 900
accgcgctca agatcaagtc cacgaggaac tacaacttcg cgaagcagcg cctcgagcag 960
ttcaaggaga tccagagcct gaacaacctc ctggtggtca agaagctcaa cgacttcttc 1020
gactccgagt tcttcagcgg cgaggagacc tacacgatct gcgtgcacca cctgggcggc 1080
aaggacctgt ccaagctcta caaggcctgg gaggacgacc ccgccgaccc cgagaacgcg 1140
atcgtggtcc tgtgcgacga cctcaagaac aacttcaaga aggagccgat ccgcaacatc 1200
ctcaggtaca tcttcaccat caggcaggag tgctcggctc aggacatcct ggcggccgcc 1260
aagtacaacc agcagctcga ccgctacaag tcccagaagg ccaacccatc ggtcctgggc 1320
aaccagggct tcacctggac gaacgccgtg atcctgcccg agaaggccca gaggaacgac 1380
aggcccaact ccctcgacct gaggatctgg ctctacctga agctcaggca ccccgacggc 1440
aggtggaaga agcaccacat ccccttctac gacacccgct tcttccagga gatctacgcc 1500
gcgggcaaca gccccgtgga cacctgccag ttccgcacgc cgaggttcgg ctaccacctg 1560
cccaagctca ccgaccagac ggccatcagg gtcaacaaga agcacgtcaa ggccgctaag 1620
acggaggctc gcatcaggct ggcgatccag cagggcacgc tcccggtgtc caacctgaag 1680
atcaccgaga tctccgcgac gatcaacagc aagggccagg tgcgcatccc ggtcaagttc 1740
gacgtgggca ggcagaaggg caccctccag atcggcgacc gcttctgcgg ctacgaccag 1800
aaccagaccg cctcccacgc ctacagcctg tgggaggtgg tcaaggaggg ccagtaccac 1860
aaggagctgg gctgcttcgt caggttcatc tccagcggcg acatcgtgtc catcaccgag 1920
aaccgcggca accagttcga ccagctcagc tacgagggcc tggcctaccc ccagtacgcc 1980
gactggagga agaaggcctc caagttcgtg agcctgtggc agatcaccaa gaagaacaag 2040
aagaaggaga tcgtgacggt cgaggccaag gagaagttcg acgcgatctg caagtaccag 2100
ccgcgcctct acaagttcaa caaggagtac gcctacctcc tgcgcgacat cgtcaggggc 2160
aagagcctgg tggagctgca gcagatccgc caggagatct tcaggttcat cgagcaggac 2220
tgcggcgtca cgcgcctggg ctccctgagc ctctccaccc tggagacggt gaaggccgtc 2280
aagggcatca tctactccta cttcagcacg gccctgaacg cgtccaagaa caacccgatc 2340
agcgacgagc agcgcaagga gttcgacccc gagctgttcg ccctcctgga gaagctggag 2400
ctgatccgca cccgcaagaa gaagcagaag gtggagagga tcgcgaactc cctcatccag 2460
acgtgcctgg agaacaacat caagttcatc cgcggcgagg gcgacctgag caccacgaac 2520
aacgccacca agaagaaggc gaacagccgc agcatggact ggctggccag gggcgtcttc 2580
aacaagatcc gccagctcgc gccgatgcac aacatcaccc tcttcggctg cggctccctg 2640
tacacgagcc accaggaccc gctcgtgcac aggaaccccg acaaggccat gaagtgcagg 2700
tgggccgcta tcccggtcaa ggacatcggc gactgggtgc tgaggaagct ctcccagaac 2760
ctgcgcgcga agaacatcgg cacgggcgag tactaccacc agggcgtcaa ggagttcctc 2820
agccactacg agctgcagga cctcgaggag gagctgctga agtggcgctc cgacaggaag 2880
agcaacatcc cctgctgggt gctgcagaac cgcctcgccg agaagctggg caacaaggag 2940
gccgtggtct acatccccgt ccgcggcggc aggatctact tcgctaccca caaggtggct 3000
accggcgcgg tgtccatcgt cttcgaccag aagcaagtgt gggtctgcaa cgcggaccac 3060
gtcgccgctg ccaacatcgc cctgaccgtg aagggcatcg gcgagcagtc cagcgacgag 3120
gagaacccgg acggcagcag gatcaagctg cagctcacca gctga 3165
<210> 7
<211> 63
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.4/原型同向重复序列
<400> 7
cucugaccac cugagagaau gugugcauag ucacacggua uaacaacuuc gacgagcucu 60
aca 63
<210> 8
<211> 63
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.5/原型同向重复序列
<400> 8
auaacaauag auagaaaaug ugucauacua cgacacggua uaacaacuuc gacgagcucu 60
aca 63
<210> 9
<211> 54
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.6/原型同向重复序列
<400> 9
ccuaagaaau ccgucuuuca uugacggggu auaacaacuu cgacgagcuc uaca 54
<210> 10
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.4/原型同向重复序列的编码核酸序列
<400> 10
ctctgaccac ctgagagaat gtgtgcatag tcacacggta taacaacttc gacgagctct 60
aca 63
<210> 11
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.5/原型同向重复序列的编码核酸序列
<400> 11
ataacaatag atagaaaatg tgtcatacta cgacacggta taacaacttc gacgagctct 60
aca 63
<210> 12
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.6/原型同向重复序列的编码核酸序列
<400> 12
cctaagaaat ccgtctttca ttgacggggt ataacaactt cgacgagctc taca 54
<210> 13
<211> 23
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.4/成熟同向重复序列
<400> 13
agagaaugug ugcauaguca cac 23
<210> 14
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.5/成熟同向重复序列
<400> 14
agaaaaugug ucauacuacg acac 24
<210> 15
<211> 23
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.6/成熟同向重复序列
<400> 15
agaaauccgu cuuucauuga cgg 23
<210> 16
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.4/成熟同向重复序列的编码核酸序列
<400> 16
agagaatgtg tgcatagtca cac 23
<210> 17
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.5/成熟同向重复序列的编码核酸序列
<400> 17
agaaaatgtg tcatactacg acac 24
<210> 18
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> Cas12f.6/成熟同向重复序列的编码核酸序列
<400> 18
agaaatccgt ctttcattga cgg 23
<210> 19
<211> 11
<212> PRT
<213> 人工序列
<220>
<223> NLS序列
<400> 19
Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val
1 5 10
<210> 20
<211> 1056
<212> PRT
<213> 人工序列
<220>
<223> Cas12f.4-NLS融合蛋白的氨基酸序列
<400> 20
Met Lys Lys Val Glu Val Ser Arg Pro Tyr Gln Ser Leu Leu Leu Pro
1 5 10 15
Asn His Arg Lys Phe Lys Tyr Leu Asp Glu Thr Trp Asn Ala Tyr Lys
20 25 30
Ser Val Lys Ser Leu Leu His Arg Phe Leu Val Cys Ala Tyr Gly Ala
35 40 45
Val Pro Phe Asn Lys Phe Val Glu Val Val Glu Lys Val Asp Asn Asp
50 55 60
Gln Leu Val Leu Ala Phe Ala Val Arg Leu Phe Arg Leu Val Pro Val
65 70 75 80
Glu Ser Thr Ser Phe Ala Lys Val Asp Lys Ala Asn Leu Ala Lys Ser
85 90 95
Leu Ala Asn His Leu Pro Val Gly Thr Ala Ile Pro Ala Asn Val Gln
100 105 110
Ser Tyr Phe Asp Ser Asn Phe Asp Pro Lys Lys Tyr Met Trp Ile Asp
115 120 125
Cys Ala Trp Glu Ala Asp Arg Leu Ala Arg Glu Met Gly Leu Ser Ala
130 135 140
Ser Gln Phe Ser Glu Tyr Ala Thr Thr Met Leu Trp Glu Asp Trp Leu
145 150 155 160
Pro Leu Asn Lys Asp Asp Val Asn Gly Trp Gly Ser Val Ser Gly Leu
165 170 175
Phe Gly Glu Gly Lys Lys Glu Asp Arg Gln Gln Lys Val Lys Met Leu
180 185 190
Asn Asn Leu Leu Asn Gly Ile Lys Lys Asn Pro Pro Lys Asp Tyr Thr
195 200 205
Gln Tyr Leu Lys Ile Leu Leu Asn Ala Phe Asp Ala Lys Ser His Lys
210 215 220
Glu Ala Val Lys Asn Tyr Lys Gly Asp Ser Thr Gly Arg Thr Ala Ser
225 230 235 240
Tyr Leu Ser Glu Lys Ser Gly Glu Ile Thr Glu Leu Met Leu Glu Gln
245 250 255
Leu Met Ser Asn Ile Gln Arg Asp Ile Gly Asp Lys Gln Lys Glu Ile
260 265 270
Ser Leu Pro Lys Lys Asp Val Val Lys Lys Tyr Leu Glu Ser Glu Ser
275 280 285
Gly Val Pro Tyr Asp Gln Asn Leu Trp Ser Gln Ala Tyr Arg Asn Ala
290 295 300
Ala Ser Ser Ile Lys Lys Thr Asp Thr Arg Asn Phe Asn Ser Thr Leu
305 310 315 320
Glu Lys Phe Lys Asn Glu Val Glu Leu Arg Gly Leu Leu Ser Glu Gly
325 330 335
Asp Asp Val Glu Ile Leu Arg Ser Lys Phe Phe Ser Ser Glu Phe His
340 345 350
Lys Thr Pro Asp Lys Phe Val Ile Lys Pro Glu His Ile Gly Phe Asn
355 360 365
Asn Lys Tyr Asn Val Val Ala Glu Leu Tyr Lys Leu Lys Ala Glu Ala
370 375 380
Thr Asp Phe Glu Ser Ala Phe Ala Thr Val Lys Asp Glu Phe Glu Glu
385 390 395 400
Lys Gly Ile Lys His Pro Ile Lys Asn Ile Leu Glu Tyr Ile Trp Asn
405 410 415
Asn Glu Val Pro Val Glu Lys Trp Gly Arg Val Ala Arg Phe Asn Gln
420 425 430
Ser Glu Glu Lys Leu Leu Arg Ile Lys Ala Asn Pro Thr Val Glu Cys
435 440 445
Asn Gln Gly Met Thr Phe Gly Asn Ser Ala Met Val Gly Glu Val Leu
450 455 460
Arg Ser Asn Tyr Val Ser Lys Lys Gly Ala Leu Val Ser Gly Glu His
465 470 475 480
Gly Gly Arg Leu Ile Gly Gln Asn Asn Met Ile Trp Leu Glu Met Arg
485 490 495
Leu Leu Asn Lys Gly Lys Trp Glu Thr His His Val Pro Thr His Asn
500 505 510
Met Lys Phe Phe Glu Glu Val His Ala Tyr Asn Pro Ser Leu Ala Asp
515 520 525
Ser Val Asn Val Arg Asn Arg Leu Tyr Arg Ser Glu Asp Tyr Thr Gln
530 535 540
Leu Pro Ser Ser Ile Thr Asp Gly Leu Lys Gly Asn Pro Lys Ala Lys
545 550 555 560
Leu Leu Lys Arg Gln His Cys Ala Leu Asn Asn Met Thr Ala Asn Val
565 570 575
Leu Asn Pro Lys Leu Ser Phe Thr Ile Asn Lys Lys Asn Asp Asp Tyr
580 585 590
Thr Val Ile Ile Val His Ser Val Glu Val Ser Lys Pro Arg Arg Glu
595 600 605
Val Leu Val Gly Asp Tyr Leu Val Gly Met Asp Gln Asn Gln Thr Ala
610 615 620
Ser Asn Thr Tyr Ala Val Met Gln Val Val Lys Pro Lys Ser Thr Asp
625 630 635 640
Ala Ile Pro Phe Arg Asn Met Trp Val Arg Phe Val Glu Ser Gly Ser
645 650 655
Ile Glu Ser Arg Thr Leu Asn Ser Arg Gly Glu Tyr Val Asp Gln Leu
660 665 670
Asn His Asp Gly Val Asp Leu Phe Glu Ile Gly Asp Thr Glu Trp Val
675 680 685
Asp Ser Ala Arg Lys Phe Phe Asn Lys Leu Gly Val Lys His Lys Asp
690 695 700
Gly Thr Leu Val Asp Leu Ser Thr Ala Pro Arg Lys Ala Tyr Ala Phe
705 710 715 720
Asn Asn Phe Tyr Phe Lys Thr Met Leu Asn His Leu Arg Ser Asn Glu
725 730 735
Val Asp Leu Thr Leu Leu Arg Asn Glu Ile Leu Arg Val Ala Asn Gly
740 745 750
Arg Phe Ser Pro Met Arg Leu Gly Ser Leu Ser Trp Thr Thr Leu Lys
755 760 765
Ala Leu Gly Ser Phe Lys Ser Leu Val Leu Ser Tyr Phe Asp Arg Leu
770 775 780
Gly Ala Lys Glu Met Val Asp Lys Glu Ala Lys Asp Lys Ser Leu Phe
785 790 795 800
Asp Leu Leu Val Ala Ile Asn Asn Lys Arg Ser Asn Lys Arg Glu Glu
805 810 815
Arg Thr Ser Arg Ile Ala Ser Ser Leu Met Thr Val Ala Gln Lys Tyr
820 825 830
Lys Val Asp Asn Ala Val Val His Val Val Val Glu Gly Asn Leu Ser
835 840 845
Ser Thr Asp Arg Ser Ala Ser Lys Ala His Asn Arg Asn Thr Met Asp
850 855 860
Trp Cys Ser Arg Ala Val Val Lys Lys Leu Glu Asp Met Cys Asn Leu
865 870 875 880
Tyr Gly Phe Asn Ile Lys Gly Val Pro Ala Phe Tyr Thr Ser His Gln
885 890 895
Asp Pro Leu Val His Arg Ala Asp Tyr Asp Asp Pro Lys Pro Ala Leu
900 905 910
Arg Cys Arg Tyr Ser Ser Tyr Ser Arg Ala Asp Phe Ser Lys Trp Gly
915 920 925
Gln Asn Ala Leu Ala Ala Val Val Arg Trp Ala Ser Asn Lys Lys Ser
930 935 940
Asn Thr Cys Tyr Lys Val Gly Ala Val Glu Phe Leu Lys Gln His Gly
945 950 955 960
Leu Phe Ala Asp Lys Lys Leu Thr Val Glu Gln Phe Leu Ser Lys Val
965 970 975
Lys Asp Glu Glu Ile Leu Ile Pro Arg Arg Gly Gly Arg Val Phe Leu
980 985 990
Thr Thr His Arg Leu Leu Ala Glu Ser Thr Phe Val Tyr Leu Asn Gly
995 1000 1005
Val Lys Tyr His Ser Cys Asn Ala Asp Glu Val Ala Ala Val Asn
1010 1015 1020
Ile Cys Leu Asn Asp Trp Val Ile Pro Cys Lys Lys Lys Met Lys
1025 1030 1035
Glu Glu Ser Ser Ala Ser Gly Ser Arg Ala Asp Pro Lys Lys Lys
1040 1045 1050
Arg Lys Val
1055
<210> 21
<211> 1090
<212> PRT
<213> 人工序列
<220>
<223> Cas12f.5-NLS融合蛋白的氨基酸序列
<400> 21
Met Pro Lys Gln Lys Asp Leu Pro Tyr Ser Cys Leu Ser Tyr Leu Gln
1 5 10 15
Pro Asn Glu Arg Lys Leu Lys Leu Leu Asn Asn Thr Tyr Asp His Leu
20 25 30
Thr His Gly Ser Lys Ile Met Phe Asp Thr Leu Ile Ala Leu Met Gly
35 40 45
Gly Ile Asn Pro Lys Met Asp Val Ile Ser Glu Asn Lys Asp Ser Glu
50 55 60
Ile Lys Asn Asn Arg Asp Pro Gln Thr Met Cys Ala Thr Ile Trp Phe
65 70 75 80
Arg Pro Met Lys Ser Lys Arg Ile Asn Lys Val Trp Ser Pro Lys Gln
85 90 95
Leu Lys Glu Gln Phe Leu Lys Tyr Tyr Gln Glu Tyr Glu Ala Asp Val
100 105 110
Lys Ile Asn Asp Met Val Glu Ala Tyr Phe Asp Ser Pro Leu Gly Glu
115 120 125
Asn Tyr Val Trp Val Asp Cys Arg Lys Lys Tyr Lys Gln Leu Val Lys
130 135 140
Glu Leu Ala Ser Ile Ala Lys Thr Thr Glu Ala Asn Leu Lys Glu Asp
145 150 155 160
Leu Asp Cys Asp Leu Glu Cys Leu Phe Arg Pro Ser Glu Lys Lys Met
165 170 175
Lys Leu Tyr Gly Ser Asn Lys Ser Trp Ala Ile Ile Ser Asn Leu Phe
180 185 190
Gly Glu Gly Asp Lys Glu Asp Arg Ser Lys Lys Ile Lys Ile Leu Thr
195 200 205
Lys Ala Ile Gln Ile Leu Thr Glu Ser Asn Pro Glu Ser Tyr Ala Asp
210 215 220
Val Gln Lys Ala Phe Leu Ala Ala Ala Asp Ile Asp Asp Pro Lys Lys
225 230 235 240
Phe His Thr Gln Glu Ile Trp Gly Asn Gly Ser Pro Gly Asn Ile Val
245 250 255
Lys Met Ala Arg Gly Asp Phe Leu Gly Lys Glu Phe Asp Cys Glu Lys
260 265 270
Ile Leu Glu Lys Ile Asn Asp Val Leu Lys Glu Lys Thr Leu Asp Phe
275 280 285
Asp Leu Lys Val Arg Leu Ser Phe Lys Glu Tyr Leu Ile Ser Lys Ile
290 295 300
Gly His Tyr Tyr Gln Asn Ser Trp Ser Glu Met Ile Asn Ser Ala Phe
305 310 315 320
Ala Asp Ile Ile Ser Lys Asn Thr Arg Asn Val Asn Phe Ala Lys Glu
325 330 335
Lys Val Gln Leu Gln Lys Thr Leu Ser Glu Thr Ser Asn Ala Lys Val
340 345 350
Glu Leu Leu Thr Asp Phe Phe Lys Ser Asp Phe Phe Leu Gly Asp Asp
355 360 365
Lys Phe Asp Ile Ala Pro His Asn Leu Gly Gly Ala Asn Gly Ile Lys
370 375 380
Phe Phe Tyr Asp Phe Cys Lys Lys Asn Glu Asp Gln Tyr Phe Leu Glu
385 390 395 400
Glu Leu Leu Leu Glu Ala Ala Ile Glu Glu Ser Val Ala Glu Ala Lys
405 410 415
Ser Lys Ser Leu Lys Glu Pro His Lys Asp Leu Leu Arg Tyr Val Phe
420 425 430
Ser Ile Arg Lys Glu Thr Thr Phe Glu Glu Leu Arg Asp Ala Ala Lys
435 440 445
Tyr Ile Gln Thr His Lys Arg Ile Lys Asn Met Ser Val His Pro Thr
450 455 460
Val Lys Ser Asp Ile Gly Phe Asn Val Thr Ser Gly Ser Ala Leu Val
465 470 475 480
Gly His Val Val Ser Pro Ser Lys Lys Ile Asn Gly Arg Ile Ala Gly
485 490 495
Glu Ser Gly Phe Ile Trp Ile Cys Met Lys Leu Trp Glu Gly Gly Asp
500 505 510
Lys Trp Ile Glu His His Ile Pro Phe Thr Asp Thr Arg Phe Tyr Glu
515 520 525
Gln Ile Tyr Lys Tyr Asn Pro Asp Ser Lys Leu Glu Pro Val Val Leu
530 535 540
Arg Thr Lys Arg Tyr Gly Val Asp Leu Thr Lys Phe Asn Leu Pro Pro
545 550 555 560
Met Lys Thr Asp Leu Lys His Val Ala Pro Lys Glu Lys Asn Lys His
565 570 575
Asn Tyr Val Lys Val Gln Arg Arg Leu Gln Arg Leu Asn His Pro Asp
580 585 590
Val Pro Asn Thr Ile Trp Pro Lys Ser Asn Ile Gly Phe Thr Ile Arg
595 600 605
Arg Lys Asn Gly Lys Tyr Ile Leu Asn Val Val His Lys Leu Pro Lys
610 615 620
Asn Lys Val Lys Lys Ser Val Lys Pro Lys Phe Gly Asp Ile Leu Ile
625 630 635 640
Gly Val Asp Gln Asn Gln Thr Thr Asn His Thr Cys Ser Ile Tyr Lys
645 650 655
Val Val Lys Lys Asn Thr Lys Glu Ala Leu Leu Val Pro Glu Ser Asp
660 665 670
Phe Tyr Leu Lys Lys Ile Glu Thr Ile Lys Val Thr Ser Phe Thr Lys
675 680 685
Ala Arg Tyr Asn Ser Glu Pro Ile Asp Gln Leu His Tyr Glu Gly Ile
690 695 700
Ser Val Asp Asn Glu Val Phe Lys Asn Trp Cys Lys Asp Arg Glu Gln
705 710 715 720
Phe Val Asp Ser Leu Ser Ile Lys Glu Phe Lys Asn Glu Phe Lys Arg
725 730 735
Ile Lys Asn Lys Asn Glu Asn Leu Tyr Ser Phe Asn Ala Asp Tyr Leu
740 745 750
Trp Leu Leu Lys Arg Ile Ile Ser Gly Lys Leu Asn Lys Lys Lys Phe
755 760 765
Asp Val Ser Val Phe Glu Lys Ser Ile Arg Asn Glu Ile Leu Ala Met
770 775 780
Cys Ser Lys Glu Gly Leu Gly Pro Leu Arg Val Ser Ser Leu Ser Ser
785 790 795 800
Asn Ser Leu Lys Ser Ile Gly Phe Leu Lys Ser Ala Ile Cys Ser Phe
805 810 815
Ile Ser Ile Ala Leu Asn Arg Lys Gly Ile Glu Asp Lys Thr Asp Val
820 825 830
Gln Lys Asn Lys Ile Asp Pro Glu Leu Phe Asp Leu Ile Gly Lys Ile
835 840 845
Glu Gln Lys Arg Val Asn Lys Arg Met Glu Lys Thr Arg Arg Asn Ala
850 855 860
Asp Phe Ile Leu Thr Met Ala Val Asp Tyr Gln Lys Ser Ser Gln Lys
865 870 875 880
Asn Val Phe Leu Phe Cys Glu Gly Asn Leu Glu Thr Ala Lys Thr Gly
885 890 895
Asn Ser Lys Lys Arg Asn Ser Ala Asn Val Asp Trp Cys Ser Arg Lys
900 905 910
Leu Phe Asp Phe Leu Lys Glu Lys Ser Leu Arg His Gly Ile Tyr Phe
915 920 925
His Ala Val Thr Pro His Tyr Thr Ser His Gln Asp Pro Phe Glu Tyr
930 935 940
His Pro Ser Asn Lys Val Met Leu Pro Arg Phe Ala Lys Phe Asp Lys
945 950 955 960
Asn Asn Pro Ile Gln Asp Trp Ala Glu Lys Lys Tyr Leu Gly Phe Ala
965 970 975
Asn Ser Asp Pro Glu Ser Gly Thr Ala Leu Tyr Tyr Lys Lys Gly Val
980 985 990
Glu Asn Phe Phe Ala His Tyr Gln Lys Gly Phe Lys Glu Lys Val Glu
995 1000 1005
Leu Ala Glu Met Lys Asn Val Leu Asn Ser Asn Leu Lys Asn Gly
1010 1015 1020
Asn Leu Glu His Val Phe Cys Pro Ile Arg Gly Gly Arg Tyr Tyr
1025 1030 1035
Leu Ser Thr His Pro Val Thr Ser Asp Ala Lys Pro Phe Glu Phe
1040 1045 1050
Asn Gly Arg Lys Cys Tyr Ile Cys Asp Ser Asp Glu Val Ala Ala
1055 1060 1065
Thr Asn Ile Met Leu Ile Gly Leu Phe Tyr Val Ser Arg Ala Asp
1070 1075 1080
Pro Lys Lys Lys Arg Lys Val
1085 1090
<210> 22
<211> 1065
<212> PRT
<213> 人工序列
<220>
<223> Cas12f.6-NLS融合蛋白的氨基酸序列
<400> 22
Met Ser Ser Ala Ile Lys Ser Tyr Lys Ser Val Leu Arg Pro Asn Glu
1 5 10 15
Arg Lys Asn Gln Leu Leu Lys Ser Thr Ile Gln Cys Leu Glu Asp Gly
20 25 30
Ser Ala Phe Phe Phe Lys Met Leu Gln Gly Leu Phe Gly Gly Ile Thr
35 40 45
Pro Glu Ile Val Arg Phe Ser Thr Glu Gln Glu Lys Gln Gln Gln Asp
50 55 60
Ile Ala Leu Trp Cys Ala Val Asn Trp Phe Arg Pro Val Ser Gln Asp
65 70 75 80
Ser Leu Thr His Thr Ile Ala Ser Asp Asn Leu Val Glu Lys Phe Glu
85 90 95
Glu Tyr Tyr Gly Gly Thr Ala Ser Asp Ala Ile Lys Gln Tyr Phe Ser
100 105 110
Ala Ser Ile Gly Glu Ser Tyr Tyr Trp Asn Asp Cys Arg Gln Gln Tyr
115 120 125
Tyr Asp Leu Cys Arg Glu Leu Gly Val Glu Val Ser Asp Leu Thr His
130 135 140
Asp Leu Glu Ile Leu Cys Arg Glu Lys Cys Leu Ala Val Ala Thr Glu
145 150 155 160
Ser Asn Gln Asn Asn Ser Ile Ile Ser Val Leu Phe Gly Thr Gly Glu
165 170 175
Lys Glu Asp Arg Ser Val Lys Leu Arg Ile Thr Lys Lys Ile Leu Glu
180 185 190
Ala Ile Ser Asn Leu Lys Glu Ile Pro Lys Asn Val Ala Pro Ile Gln
195 200 205
Glu Ile Ile Leu Asn Val Ala Lys Ala Thr Lys Glu Thr Phe Arg Gln
210 215 220
Val Tyr Ala Gly Asn Leu Gly Ala Pro Ser Thr Leu Glu Lys Phe Ile
225 230 235 240
Ala Lys Asp Gly Gln Lys Glu Phe Asp Leu Lys Lys Leu Gln Thr Asp
245 250 255
Leu Lys Lys Val Ile Arg Gly Lys Ser Lys Glu Arg Asp Trp Cys Cys
260 265 270
Gln Glu Glu Leu Arg Ser Tyr Val Glu Gln Asn Thr Ile Gln Tyr Asp
275 280 285
Leu Trp Ala Trp Gly Glu Met Phe Asn Lys Ala His Thr Ala Leu Lys
290 295 300
Ile Lys Ser Thr Arg Asn Tyr Asn Phe Ala Lys Gln Arg Leu Glu Gln
305 310 315 320
Phe Lys Glu Ile Gln Ser Leu Asn Asn Leu Leu Val Val Lys Lys Leu
325 330 335
Asn Asp Phe Phe Asp Ser Glu Phe Phe Ser Gly Glu Glu Thr Tyr Thr
340 345 350
Ile Cys Val His His Leu Gly Gly Lys Asp Leu Ser Lys Leu Tyr Lys
355 360 365
Ala Trp Glu Asp Asp Pro Ala Asp Pro Glu Asn Ala Ile Val Val Leu
370 375 380
Cys Asp Asp Leu Lys Asn Asn Phe Lys Lys Glu Pro Ile Arg Asn Ile
385 390 395 400
Leu Arg Tyr Ile Phe Thr Ile Arg Gln Glu Cys Ser Ala Gln Asp Ile
405 410 415
Leu Ala Ala Ala Lys Tyr Asn Gln Gln Leu Asp Arg Tyr Lys Ser Gln
420 425 430
Lys Ala Asn Pro Ser Val Leu Gly Asn Gln Gly Phe Thr Trp Thr Asn
435 440 445
Ala Val Ile Leu Pro Glu Lys Ala Gln Arg Asn Asp Arg Pro Asn Ser
450 455 460
Leu Asp Leu Arg Ile Trp Leu Tyr Leu Lys Leu Arg His Pro Asp Gly
465 470 475 480
Arg Trp Lys Lys His His Ile Pro Phe Tyr Asp Thr Arg Phe Phe Gln
485 490 495
Glu Ile Tyr Ala Ala Gly Asn Ser Pro Val Asp Thr Cys Gln Phe Arg
500 505 510
Thr Pro Arg Phe Gly Tyr His Leu Pro Lys Leu Thr Asp Gln Thr Ala
515 520 525
Ile Arg Val Asn Lys Lys His Val Lys Ala Ala Lys Thr Glu Ala Arg
530 535 540
Ile Arg Leu Ala Ile Gln Gln Gly Thr Leu Pro Val Ser Asn Leu Lys
545 550 555 560
Ile Thr Glu Ile Ser Ala Thr Ile Asn Ser Lys Gly Gln Val Arg Ile
565 570 575
Pro Val Lys Phe Asp Val Gly Arg Gln Lys Gly Thr Leu Gln Ile Gly
580 585 590
Asp Arg Phe Cys Gly Tyr Asp Gln Asn Gln Thr Ala Ser His Ala Tyr
595 600 605
Ser Leu Trp Glu Val Val Lys Glu Gly Gln Tyr His Lys Glu Leu Gly
610 615 620
Cys Phe Val Arg Phe Ile Ser Ser Gly Asp Ile Val Ser Ile Thr Glu
625 630 635 640
Asn Arg Gly Asn Gln Phe Asp Gln Leu Ser Tyr Glu Gly Leu Ala Tyr
645 650 655
Pro Gln Tyr Ala Asp Trp Arg Lys Lys Ala Ser Lys Phe Val Ser Leu
660 665 670
Trp Gln Ile Thr Lys Lys Asn Lys Lys Lys Glu Ile Val Thr Val Glu
675 680 685
Ala Lys Glu Lys Phe Asp Ala Ile Cys Lys Tyr Gln Pro Arg Leu Tyr
690 695 700
Lys Phe Asn Lys Glu Tyr Ala Tyr Leu Leu Arg Asp Ile Val Arg Gly
705 710 715 720
Lys Ser Leu Val Glu Leu Gln Gln Ile Arg Gln Glu Ile Phe Arg Phe
725 730 735
Ile Glu Gln Asp Cys Gly Val Thr Arg Leu Gly Ser Leu Ser Leu Ser
740 745 750
Thr Leu Glu Thr Val Lys Ala Val Lys Gly Ile Ile Tyr Ser Tyr Phe
755 760 765
Ser Thr Ala Leu Asn Ala Ser Lys Asn Asn Pro Ile Ser Asp Glu Gln
770 775 780
Arg Lys Glu Phe Asp Pro Glu Leu Phe Ala Leu Leu Glu Lys Leu Glu
785 790 795 800
Leu Ile Arg Thr Arg Lys Lys Lys Gln Lys Val Glu Arg Ile Ala Asn
805 810 815
Ser Leu Ile Gln Thr Cys Leu Glu Asn Asn Ile Lys Phe Ile Arg Gly
820 825 830
Glu Gly Asp Leu Ser Thr Thr Asn Asn Ala Thr Lys Lys Lys Ala Asn
835 840 845
Ser Arg Ser Met Asp Trp Leu Ala Arg Gly Val Phe Asn Lys Ile Arg
850 855 860
Gln Leu Ala Pro Met His Asn Ile Thr Leu Phe Gly Cys Gly Ser Leu
865 870 875 880
Tyr Thr Ser His Gln Asp Pro Leu Val His Arg Asn Pro Asp Lys Ala
885 890 895
Met Lys Cys Arg Trp Ala Ala Ile Pro Val Lys Asp Ile Gly Asp Trp
900 905 910
Val Leu Arg Lys Leu Ser Gln Asn Leu Arg Ala Lys Asn Ile Gly Thr
915 920 925
Gly Glu Tyr Tyr His Gln Gly Val Lys Glu Phe Leu Ser His Tyr Glu
930 935 940
Leu Gln Asp Leu Glu Glu Glu Leu Leu Lys Trp Arg Ser Asp Arg Lys
945 950 955 960
Ser Asn Ile Pro Cys Trp Val Leu Gln Asn Arg Leu Ala Glu Lys Leu
965 970 975
Gly Asn Lys Glu Ala Val Val Tyr Ile Pro Val Arg Gly Gly Arg Ile
980 985 990
Tyr Phe Ala Thr His Lys Val Ala Thr Gly Ala Val Ser Ile Val Phe
995 1000 1005
Asp Gln Lys Gln Val Trp Val Cys Asn Ala Asp His Val Ala Ala
1010 1015 1020
Ala Asn Ile Ala Leu Thr Val Lys Gly Ile Gly Glu Gln Ser Ser
1025 1030 1035
Asp Glu Glu Asn Pro Asp Gly Ser Arg Ile Lys Leu Gln Leu Thr
1040 1045 1050
Ser Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val
1055 1060 1065
<210> 23
<211> 3713
<212> DNA
<213> 人工序列
<220>
<223> 表达Cas12f.4系统的质粒
<400> 23
tttacacttt atgcttccgg ctcgtatgtt aggaggtctt tatcatgtct aacaaagaaa 60
aaaatgcaag cgaaactcgc aaagcctaca caacaaaaat gattccaaga agccatgatc 120
gcatgaaatt gcttgggaat ttcatggatt atttgatgga tggaacgcca atatttttcg 180
aactttggaa tcagtttggc ggcgggattg accgcgatat catttctggc actgcaaata 240
aagacaagat atcagatgat ttacttttgg cggtcaattg gttcaaggta atgccaatta 300
attctaagcc tcaaggtgta tcgccatcaa atcttgccaa cctctttcaa caatactctg 360
gatcagaacc agacattcaa gctcaagagt attttgcttc aaattttgac accgaaaagc 420
atcaatggaa ggacatgcgt gttgaatacg aacgactatt agctgaattg cagctatcga 480
gaagtgatat gcatcatgac ttgaagctca tgtacaaaga aaaatgcatt ggcctaagtc 540
tttctacggc tcactacatc acttctgtga tgtttgggac aggagctaaa aacaatcgcc 600
aaaccaagca tcaattctat agcaaggtta tccaactact tgaggaatca actcaaatca 660
attctgttga acagttggca tctattattt tgaaagcagg agattgcgat agttatcgaa 720
agcttcgtat tcgatgttct cgtaagggag caacacccag cattcttaag atcgttcaag 780
actatgaact gggaaccaat cacgatgatg aagtgaatgt gccaagtttg attgcaaatt 840
tgaaagaaaa attgggcaga tttgaatatg aatgcgaatg gaagtgcatg gaaaaaatca 900
aagcattttt agctagcaaa gttgggcctt attacctagg ctcttacagt gcgatgcttg 960
aaaatgcatt gtcgcccatc aagggaatga ctacaaaaaa ttgcaaattt gtgttaaagc 1020
aaattgatgc caaaaacgac atcaagtatg aaaatgagcc atttggcaaa attgttgaag 1080
ggttttttga ctctccatat tttgaaagcg acaccaatgt gaaatgggtt ttgcacccac 1140
atcatattgg agaaagcaat atcaaaacac tctgggaaga cttgaatgca attcattcta 1200
agtacgaaga agatattgct tctttgagcg aagacaaaaa agagaaacgc attaaggttt 1260
atcaaggaga tgtttgccaa acaatcaata cgtattgtga agaagtagga aaggaagcta 1320
agactccttt agttcagctt ttgcgttatc tttactctag aaaagatgat attgctgttg 1380
ataagataat tgatggcatt accttcctta gcaagaaaca caaggttgaa aaacaaaaaa 1440
tcaatcctgt aattcaaaaa tatcccagtt tcaactttgg gaataattct aagttgttgg 1500
gaaagattat cagccccaaa gacaagttaa agcataatct caaatgcaac aggaatcagg 1560
ttgataatta catttggatt gagattaaag tactaaacac caaaacgatg cgatgggaaa 1620
agcatcacta tgctttatca tctacgcggt ttttggaaga ggtctattat ccagccacat 1680
ccgaaaatcc gccagacgct ttggcagcac gtttccgaac taaaactaat gggtatgaag 1740
gcaagcctgc gttgtctgct gagcaaattg aacaaattag atcagcccca gtcggtttga 1800
gaaaagtgaa aaaacgtcaa atgcgactcg aagctgcaag acagcaaaat ctcttgcctc 1860
gatacacttg gggcaaagat ttcaacataa acatttgtaa gcgtggcaac aattttgaag 1920
tcactcttgc gacgaaggtg aaaaagaaaa aagaaaagaa ttataaggtt gttttagggt 1980
acgatgctaa tatcgttcgc aaaaacactt acgcagccat agaagctcac gctaatggcg 2040
atggtgtgat tgactacaat gacttgcccg tgaagcctat tgaaagtgga tttgtaaccg 2100
ttgaaagtca agtgcgagac aaatcttacg atcaactctc ttacaatggc gtaaagctct 2160
tgtattgcaa gcctcatgtt gagtctcgac gttcattttt ggagaaatac cgaaatggca 2220
ccatgaagga caacagagga aacaacattc aaattgactt tatgaaagac tttgaagcta 2280
ttgcggatga tgaaacttct ttgtattact tcaatatgaa gtactgcaag ctgcttcaat 2340
cgtccattcg caatcattct tcacaagcaa aagaatatcg tgaagagatt tttgaattgt 2400
taagagacgg aaaactatcg gttttgaagt tatcatcttt gagcaatctt tcttttgtga 2460
tgttcaaagt tgccaaatct ctgatcggta cttactttgg ccacttgctt aagaagccga 2520
agaattctaa gtcagatgtt aaggcaccgc ctataactga tgaagataag caaaaagctg 2580
atcctgagat gtttgctttg aggttggctt tggaggagaa gcgactaaac aaagtcaagt 2640
ctaagaaaga agtaattgcg aacaagattg ttgctaaggc acttgagctt cgcgacaagt 2700
acgggcctgt gttgattaag ggagaaaaca tctctgacac gaccaagaaa ggcaagaagt 2760
caagcaccaa ttcttttttg atggactggc tagcacgcgg tgtggctaat aaagtcaaag 2820
aaatggtaat gatgcatcaa ggacttgaat ttgtagaagt aaatcctaat ttcacatctc 2880
accaagatcc ttttgttcac aagaaccctg aaaatacgtt tagagctagg tacagtcggt 2940
gcactccaag tgaacttact gagaaaaatc gcaaggaaat tttgagcttt ttgagcgata 3000
agccttctaa acgaccgaca aatgcctatt acaatgaagg tgcgatggcc tttcttgcaa 3060
cttatggctt gaagaagaat gatgtgctag gagttagtct tgagaaattc aagcaaataa 3120
tggccaacat tctacatcag cgttccgaag atcaattatt gtttccttct agaggtggca 3180
tgttttatct tgcaacttac aagcttgatg ctgacgctac ctctgtaaat tggaatggca 3240
aacagttttg ggtttgtaac gcagatttag tagcggcata caatgtcggt ttggtcgata 3300
ttcaaaaaga cttcaagaaa aagtaaaaat aaaacgaaag gctcagtcga aagactgggc 3360
ctttcgtttt atctgttgtt tgtcggtgaa cgctctcctg agtaggacaa atttgacagc 3420
tagctcagtc ctaggtataa tgctagcgct gacgttggaa tgactaattt ttgtgcccac 3480
cgttggcacg gtataacaac ttcgacgagc tctacacgtt ggaatgacta atttttgtgc 3540
ccaccgttgg cacggatcgc tgagaccgca tcaaagcacg atgagcgtgg cgttggaatg 3600
actaattttt gtgcccaccg ttggcacaaa taaaacgaaa ggctcagtcg aaagactggg 3660
cctttcgttt tatctgttgt ttgtcggtga acgctctcct gagtaggaca aat 3713
<210> 24
<211> 35
<212> DNA
<213> 人工序列
<220>
<223> PAM文库序列
<220>
<221> misc_feature
<222> (1)..(8)
<223> n = a或g或c或t
<400> 24
nnnnnnnngg tataacaact tcgacgagct ctaca 35
<210> 25
<211> 43
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.4系统的导向RNA-VEGFA
<400> 25
agagaaugug ugcauaguca caccuaggaa uauugaaggg ggc 43
<210> 26
<211> 44
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.5系统的导向RNA-VEGFA
<400> 26
agaaaaugug ucauacuacg acaccuagga auauugaagg gggc 44
<210> 27
<211> 43
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.6系统的导向RNA-VEGFA
<400> 27
agaaauccgu cuuucauuga cggcuaggaa uauugaaggg ggc 43
<210> 28
<211> 44
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.4系统的导向RNA-PDI1
<400> 28
agagaaugug ugcauaguca cacccuuguc cuugaauucc uccg 44
<210> 29
<211> 44
<212> RNA
<213> 人工序列
<220>
<223> Cas12f.4系统的导向RNA-SBE2.2
<400> 29
agagaaugug ugcauaguca caccggugga uuuagucggc uuga 44

Claims (85)

1.一种蛋白,其氨基酸序列如SEQ ID NO:1所示。
2.权利要求1所述的蛋白,其是CRISPR/Cas系统中的效应蛋白。
3.一种缀合物,其包含权利要求1或2所述的蛋白以及修饰部分。
4.权利要求3所述的缀合物,其中,所述修饰部分选自另外的蛋白或多肽、可检测的标记,或其任意组合。
5.权利要求3所述的缀合物,其中,所述修饰部分任选地通过接头连接至所述蛋白的N端或C端。
6.权利要求4所述的缀合物,其中,所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、转录激活结构域、转录抑制结构域、核酸酶结构域,具有选自下列的活性的结构域:核苷酸脱氨酶活性、甲基化酶活性、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、单链RNA切割活性、双链RNA切割活性、单链DNA切割活性、双链DNA切割活性和核酸结合活性;或其任意组合。
7.权利要求6所述的缀合物,其中:(i)所述转录激活结构域是VP64;(ii)所述转录抑制结构域是KRAB结构域或SID结构域;(iii)所述核酸酶结构域是Fok1。
8.权利要求3所述的缀合物,其中,所述缀合物包含表位标签。
9.权利要求3所述的缀合物,其中,所述缀合物包含NLS序列。
10.权利要求9所述的缀合物,其中,所述NLS序列如SEQ ID NO:19所示。
11.权利要求9所述的缀合物,其中,所述NLS序列位于所述蛋白的N端或C端。
12.权利要求3-11任一项所述的缀合物,其是融合蛋白。
13.权利要求12所述的缀合物,其中,所述融合蛋白的氨基酸序列如SEQ ID NO:20所示。
14.一种复合物,其包含:
(i)蛋白组分,其选自:权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物,或其任意组合;和
(ii)核酸组分,其从5’至3’方向包含SEQ ID NO:7或13所示的核酸序列和能够与靶序列杂交的导向序列,
其中,所述蛋白组分与核酸组分相互结合形成复合物。
15.权利要求14所述的复合物,其中,所述核酸组分是CRISPR/Cas系统中的导向RNA。
16.权利要求14所述的复合物,其中,所述复合物不包含反式作用crRNA(tracrRNA)。
17.权利要求14所述的复合物,其中,所述导向序列连接于所述核酸序列的3’端。
18.权利要求14所述的复合物,其中,所述导向序列包含所述靶序列的互补序列。
19.一种分离的核酸分子,其包含:
(i)编码权利要求1或2所述的蛋白,或权利要求12或13所述的缀合物的核苷酸序列;和
(ii)SEQ ID NO:7或13所示序列的编码序列。
20.权利要求19所述的分离的核酸分子,其中,(i)或(ii)所述的序列经密码子优化用于在原核细胞或真核细胞中进行表达。
21.一种载体,其包含权利要求19或20所述的分离的核酸分子。
22.一种宿主细胞,其包含权利要求19或20所述的分离的核酸分子或权利要求21所述的载体。
23.一种组合物,其包含:
(i)第一组分,其选自:权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物、编码权利要求1或2所述的蛋白或权利要求12或13所述的缀合物的核苷酸序列,或其任意组合;和
(ii)第二组分,其为包含导向RNA的核苷酸序列,或者编码所述包含导向RNA的核苷酸序列的核苷酸序列;
其中,所述导向RNA从5’至3’方向包含同向重复序列和导向序列,所述导向序列能够与靶序列杂交;
所述同向重复序列是SEQ ID NO:7或13所示的核酸序列。
24.权利要求23所述的组合物,其中,所述组合物不包含反式作用crRNA(tracrRNA)。
25.权利要求23所述的组合物,其中,(i)中所述的蛋白连接有一个或多个NLS序列,或者,(i)中所述的缀合物包含一个或多个NLS序列。
26.权利要求25所述的组合物,其中,所述NLS序列连接至所述蛋白的N端或C端。
27.一种组合物,其包含一种或多种载体,所述一种或多种载体包含:
(i)第一核酸,其为编码权利要求1或2所述的蛋白或权利要求12或13所述的缀合物的核苷酸序列;任选地所述第一核酸可操作地连接至第一调节元件;以及
(ii)第二核酸,其编码包含导向RNA的核苷酸序列;任选地所述第二核酸可操作地连接至第二调节元件;
其中:
所述第一核酸与第二核酸存在于相同或不同的载体上;
所述导向RNA从5’至3’方向包含同向重复序列和导向序列,所述导向序列能够与靶序列杂交;
所述导向RNA能够与(i)所述的第一核酸的编码蛋白形成复合物;
所述同向重复序列是SEQ ID NO:7或13所示的核酸序列。
28.权利要求27所述的组合物,其中,所述组合物不包含反式作用crRNA(tracrRNA)。
29.权利要求27所述的组合物,其中,所述第一调节元件和/或第二调节元件是启动子。
30.权利要求29所述的组合物,其中,所述启动子是诱导型启动子。
31.权利要求27所述的组合物,其中,(i)中所述的蛋白连接有一个或多个NLS序列,或者,(i)中所述的缀合物包含一个或多个NLS序列。
32.权利要求31所述的组合物,其中,所述NLS序列连接至所述蛋白的N端或C端。
33.权利要求23-32任一项所述的组合物,其中,所述组合物中的至少一个组分是非天然存在的或经修饰的。
34.权利要求23-32任一项所述的组合物,其中,所述导向序列连接至所述同向重复序列的3’端。
35.权利要求23-32任一项所述的组合物,其中,所述导向序列包含所述靶序列的互补序列。
36.权利要求23-32任一项所述的组合物,其中,当所述靶序列为DNA时,所述靶序列位于原间隔序列临近基序(PAM)的3’端,并且所述PAM具有5’-TTN所示的序列,其中,N选自A、G、T、C;当所述靶序列为RNA时,所述靶序列不具有PAM结构域限制。
37.权利要求23-32任一项所述的组合物,其中,所述靶序列是来自原核细胞或真核细胞的DNA或RNA序列;或者,所述靶序列是非天然存在的DNA或RNA序列。
38.权利要求23-32任一项所述的组合物,其中,所述靶序列存在于细胞内。
39.权利要求38所述的组合物,其中,所述靶序列存在于细胞核内或细胞质内。
40.权利要求38所述的组合物,其中,所述细胞是真核细胞或原核细胞。
41.一种试剂盒,其包括一种或多种选自下列的组分:权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物、权利要求14-18任一项所述的复合物、权利要求19或20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-40任一项所述的组合物。
42.一种递送组合物,其包含递送载体,以及选自下列的一种或多种:权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物、权利要求14-18任一项所述的复合物、权利要求19或20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-40任一项所述的组合物。
43.权利要求42所述的递送组合物,其中,所述递送载体是粒子。
44.权利要求42所述的递送组合物,其中,所述递送载体选自脂质颗粒、糖颗粒、金属颗粒或蛋白颗粒。
45.权利要求42所述的递送组合物,其中,所述递送载体选自脂质体、外泌体或病毒载体。
46.权利要求45所述的递送组合物,其中,所述病毒载体选自复制缺陷型逆转录病毒、腺病毒或腺相关病毒。
47.权利要求45所述的递送组合物,其中,所述病毒载体选自慢病毒。
48.一种用于非治疗目的的修饰靶基因的方法,其包括:将权利要求14-18任一项所述的复合物或权利要求23-40任一项所述的组合物与所述靶基因接触,或者递送至包含所述靶基因的细胞中;所述靶序列存在于所述靶基因中。
49.权利要求48所述的方法,其中,所述靶基因存在于细胞内。
50.权利要求49所述的方法,其中,所述细胞是原核细胞或真核细胞。
51.权利要求49所述的方法,其中,所述细胞是哺乳动物细胞或植物细胞。
52.权利要求49所述的方法,其中,所述细胞是人类细胞。
53.权利要求48所述的方法,其中,所述靶基因存在于体外的核酸分子中。
54.权利要求53所述的方法,其中,所述体外的核酸分子是质粒。
55.权利要求48所述的方法,其中,所述修饰是指所述靶序列的断裂。
56.权利要求55所述的方法,其中,所述断裂包括DNA的双链断裂或RNA的单链断裂。
57.权利要求55所述的方法,其中,所述修饰还包括将外源核酸插入所述断裂中。
58.一种用于非治疗目的的改变基因产物的表达的方法,其包括:将权利要求14-18任一项所述的复合物或权利要求23-40任一项所述的组合物与编码所述基因产物的核酸分子接触,或者递送至包含所述核酸分子的细胞中,所述靶序列存在于所述核酸分子中。
59.权利要求58所述的方法,其中,所述核酸分子存在于细胞内。
60.权利要求59所述的方法,其中,所述细胞是原核细胞或真核细胞。
61.权利要求59所述的方法,其中,所述细胞是哺乳动物细胞或植物细胞。
62.权利要求59所述的方法,其中,所述细胞是人类细胞。
63.权利要求58所述的方法,其中,所述核酸分子存在于体外的核酸分子中。
64.权利要求63所述的方法,其中,所述体外的核酸分子是质粒。
65.权利要求58所述的方法,其中,所述基因产物的表达被增强或降低。
66.权利要求58所述的方法,其中,所述基因产物是蛋白。
67.权利要求48-66任一项所述的方法,其中所述复合物或组合物包含于递送载体中。
68.权利要求67所述的方法,其中,所述递送载体选自脂质颗粒、糖颗粒、金属颗粒或蛋白颗粒。
69.权利要求67所述的方法,其中,所述递送载体选自脂质体、外泌体或病毒载体。
70.权利要求69所述的方法,其中,所述病毒载体选自复制缺陷型逆转录病毒、腺病毒或腺相关病毒。
71.权利要求69所述的方法,其中,所述病毒载体选自慢病毒。
72.权利要求48-66任一项所述的方法,其用于改变靶基因或编码靶基因产物的核酸分子中的一个或多个靶序列来修饰细胞。
73.一种由权利要求48-72任一项所述的方法获得的细胞,其中所述细胞包含在其野生型中不存在的修饰。
74.权利要求73所述的细胞的细胞产物。
75.一种体外的细胞,其包含:权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物、权利要求14-18任一项所述的复合物、权利要求19或20所述的分离的核酸分子、权利要求21所述的载体或权利要求23-40任一项所述的组合物。
76.权利要求75所述的细胞,其中,所述细胞是真核细胞。
77.权利要求75所述的细胞,其中,所述细胞是动物细胞或植物细胞。
78.权利要求75所述的细胞,其中,所述细胞是人类细胞。
79.权利要求75-78任一项所述的细胞,其是细胞系。
80.权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物、权利要求14-18任一项所述的复合物、权利要求19或20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-40任一项所述的组合物或权利要求41所述的试剂盒用于非治疗目的的核酸编辑的用途。
81.权利要求80所述的用途,其中,所述核酸编辑包括基因或基因组编辑。
82.权利要求81所述的用途,其中,所述基因或基因组编辑包括修饰基因。
83.权利要求81所述的用途,其中,所述基因或基因组编辑包括敲除基因。
84.权利要求81所述的用途,其中,所述基因或基因组编辑包括修复突变。
85.权利要求1或2所述的蛋白、权利要求3-13任一项所述的缀合物、权利要求14-18任一项所述的复合物、权利要求19或20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-40任一项所述的组合物或权利要求41所述的试剂盒在制备制剂中的用途,所述制剂用于:
(i)离体基因或基因组编辑;
(ii)离体单链DNA的检测;
(iii)编辑靶基因座中的靶序列来修饰生物;或
(iv)治疗由靶基因座中的靶序列的缺陷引起的病症。
CN201980014560.3A 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统 Active CN111757889B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110473632.XA CN113136375B (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统
CN202110473640.4A CN113106081A (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811266209 2018-10-29
CN2018112662097 2018-10-29
PCT/CN2019/113996 WO2020088450A1 (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202110473640.4A Division CN113106081A (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统
CN202110473632.XA Division CN113136375B (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统

Publications (2)

Publication Number Publication Date
CN111757889A CN111757889A (zh) 2020-10-09
CN111757889B true CN111757889B (zh) 2021-05-25

Family

ID=70462525

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202110473632.XA Active CN113136375B (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统
CN202110473640.4A Pending CN113106081A (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统
CN201980014560.3A Active CN111757889B (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN202110473632.XA Active CN113136375B (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统
CN202110473640.4A Pending CN113106081A (zh) 2018-10-29 2019-10-29 新型CRISPR/Cas12f酶和系统

Country Status (13)

Country Link
US (1) US20210395784A1 (zh)
EP (1) EP3875469A4 (zh)
JP (1) JP7216877B2 (zh)
KR (1) KR20210129033A (zh)
CN (3) CN113136375B (zh)
AU (1) AU2019372642B2 (zh)
BR (1) BR112021007994A2 (zh)
CA (1) CA3118251A1 (zh)
IL (1) IL282746A (zh)
MX (1) MX2021004898A (zh)
PH (1) PH12021550904A1 (zh)
SG (1) SG11202104347UA (zh)
WO (1) WO2020088450A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3765615T (pt) 2018-03-14 2023-08-28 Arbor Biotechnologies Inc Novas enzimas e sistemas de direcionamento de dna crispr
US20230212612A1 (en) * 2020-05-28 2023-07-06 Shanghaitech University Genome editing system and method
CN111996236B (zh) * 2020-05-29 2021-06-29 山东舜丰生物科技有限公司 基于crispr技术进行靶核酸检测的方法
CN113801918B (zh) * 2020-08-28 2022-11-29 山东舜丰生物科技有限公司 基于crispr技术进行多重核酸检测的方法
CA3192654A1 (en) * 2020-09-01 2022-03-10 The Board Of Trustees Of The Leland Stanford Junior Unversity Synthetic miniature crispr-cas (casmini) system for eukaryotic genome engineering
JP2023548588A (ja) * 2020-10-30 2023-11-17 アーバー バイオテクノロジーズ, インコーポレイテッド Tracを標的とするrnaガイドを含む組成物及びその使用
US20230399639A1 (en) * 2020-10-30 2023-12-14 Arbor Biotechnologies, Inc. Compositions comprising an rna guide targeting b2m and uses thereof
CN113881652B (zh) * 2020-11-11 2022-11-22 山东舜丰生物科技有限公司 新型Cas酶和系统以及应用
CN116555227A (zh) * 2021-02-03 2023-08-08 山东舜丰生物科技有限公司 新型Cas酶以及应用
CN116004572A (zh) * 2021-02-05 2023-04-25 山东舜丰生物科技有限公司 Crispr酶和系统以及应用
CN114277015B (zh) * 2021-03-16 2023-12-15 山东舜丰生物科技有限公司 Crispr酶以及应用
CN114480383B (zh) * 2021-06-08 2023-06-30 山东舜丰生物科技有限公司 一种具有碱基突变的同向重复序列及其应用
AU2022292659A1 (en) * 2021-06-17 2023-12-21 Massachusetts Institute Of Technology Systems, methods, and compositions comprising miniature crispr nucleases for gene editing and programmable gene activation and inhibition
CN114438055B (zh) * 2021-10-26 2022-08-26 山东舜丰生物科技有限公司 新型的crispr酶和系统以及应用
CN114015674A (zh) 2021-11-02 2022-02-08 辉二(上海)生物科技有限公司 新型CRISPR-Cas12i系统
WO2023078314A1 (en) * 2021-11-02 2023-05-11 Huidagene Therapeutics Co., Ltd. Novel crispr-cas12i systems and uses thereof
CN114107370A (zh) * 2021-12-03 2022-03-01 山东舜丰生物科技有限公司 利用Cas12i在大豆中进行基因编辑的方法
CN113897416B (zh) * 2021-12-09 2022-05-20 上海科技大学 一种CRISPR/Cas12f的检测体系及其应用
WO2023150773A2 (en) * 2022-02-07 2023-08-10 Inari Agriculture Technology, Inc. Use of cas12f nucleases in production of expression modulated plant materials
WO2023154892A1 (en) * 2022-02-10 2023-08-17 Possible Medicines Llc Rna-guided genome recombineering at kilobase scale
WO2023174249A1 (zh) * 2022-03-18 2023-09-21 山东舜丰生物科技有限公司 活性改善的Cas蛋白及其应用
CN114672473B (zh) * 2022-05-31 2022-08-26 舜丰生物科技(海南)有限公司 一种优化的Cas蛋白及其应用
WO2023173682A1 (zh) * 2022-03-18 2023-09-21 山东舜丰生物科技有限公司 一种优化的Cas蛋白及其应用
CN114410609B (zh) * 2022-03-29 2022-07-12 舜丰生物科技(海南)有限公司 一种活性提高的Cas蛋白以及应用
CN114507654B (zh) * 2022-04-20 2022-07-08 山东舜丰生物科技有限公司 Cas酶和系统以及应用
WO2023208000A1 (en) * 2022-04-25 2023-11-02 Huidagene Therapeutics Co., Ltd. Novel crispr-cas12f systems and uses thereof
CN116987693A (zh) * 2022-04-25 2023-11-03 上海科技大学 一种优化的CRISPR/SpCas12f1系统、工程化向导RNA及其应用
CN114634972B (zh) * 2022-05-19 2022-08-26 舜丰生物科技(海南)有限公司 利用Cas酶进行核酸检测的方法
WO2023231456A1 (zh) * 2022-05-31 2023-12-07 山东舜丰生物科技有限公司 一种优化的Cas蛋白及其应用
CN114921439B (zh) * 2022-06-16 2024-04-26 尧唐(上海)生物科技有限公司 CRISPR-Cas效应子蛋白、其基因编辑系统及应用
CN116790558A (zh) * 2022-08-22 2023-09-22 山东舜丰生物科技有限公司 突变的Cas12j蛋白及其应用
CN116751763B (zh) * 2023-05-08 2024-02-13 珠海舒桐医疗科技有限公司 一种Cpf1蛋白、V型基因编辑系统及应用
CN117844782A (zh) * 2024-03-06 2024-04-09 崖州湾国家实验室 靶向范围广的基因编辑核酸酶及其在核酸检测中的应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107083392A (zh) * 2017-06-13 2017-08-22 中国医学科学院病原生物学研究所 一种CRISPR/Cpf1基因编辑系统及其在分枝杆菌中的应用
WO2017190664A1 (zh) * 2016-05-05 2017-11-09 苏州吉玛基因股份有限公司 化学合成的crRNA和修饰crRNA在CRISPR/Cpf1基因编辑系统中的应用
WO2018098383A1 (en) * 2016-11-22 2018-05-31 Integrated Dna Technologies, Inc. Crispr/cpf1 systems and methods
CN108138183A (zh) * 2014-04-18 2018-06-08 爱迪塔斯医药公司 用于癌症免疫疗法的crispr-cas相关方法、组合物和组分

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9410134B2 (en) * 2011-06-07 2016-08-09 Helmholtz Zentrum München—Deutsches Forschungszentrum für Gesundheit und Umwelt Protein having nuclease activity, fusion proteins and uses thereof
KR101656237B1 (ko) * 2012-10-23 2016-09-12 주식회사 툴젠 표적 DNA에 특이적인 가이드 RNA 및 Cas 단백질을 암호화하는 핵산 또는 Cas 단백질을 포함하는, 표적 DNA를 절단하기 위한 조성물 및 이의 용도
EP3825401A1 (en) * 2012-12-12 2021-05-26 The Broad Institute, Inc. Crispr-cas component systems, methods and compositions for sequence manipulation
EP2922393B2 (en) * 2013-02-27 2022-12-28 Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Gene editing in the oocyte by cas9 nucleases
BR112016013547A2 (pt) * 2013-12-12 2017-10-03 Broad Inst Inc Composições e métodos de uso de sistemas crispr-cas em distúrbios de repetições de nucleotídeos
BR112017024534A2 (pt) * 2015-05-15 2018-07-24 Pioneer Hi Bred Int sistemas de rna-guia/endonuclease cas9 inovadores
BR112017028201A2 (pt) * 2015-07-02 2018-08-28 Univ Johns Hopkins tratamentos com base em crisp/cas9
PT3765615T (pt) * 2018-03-14 2023-08-28 Arbor Biotechnologies Inc Novas enzimas e sistemas de direcionamento de dna crispr

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108138183A (zh) * 2014-04-18 2018-06-08 爱迪塔斯医药公司 用于癌症免疫疗法的crispr-cas相关方法、组合物和组分
WO2017190664A1 (zh) * 2016-05-05 2017-11-09 苏州吉玛基因股份有限公司 化学合成的crRNA和修饰crRNA在CRISPR/Cpf1基因编辑系统中的应用
WO2018098383A1 (en) * 2016-11-22 2018-05-31 Integrated Dna Technologies, Inc. Crispr/cpf1 systems and methods
CN107083392A (zh) * 2017-06-13 2017-08-22 中国医学科学院病原生物学研究所 一种CRISPR/Cpf1基因编辑系统及其在分枝杆菌中的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
hypothetical protein BWY07_02509 [Candidatus Hydrogenedentes bacterium ADurb.Bin170];Nobu,M.K.等;《Genbank》;20170322;features,origin *

Also Published As

Publication number Publication date
MX2021004898A (es) 2021-06-18
PH12021550904A1 (en) 2021-11-29
JP2022512982A (ja) 2022-02-07
CA3118251A1 (en) 2020-05-07
EP3875469A1 (en) 2021-09-08
BR112021007994A2 (pt) 2021-10-26
IL282746A (en) 2021-06-30
CN113106081A (zh) 2021-07-13
US20210395784A1 (en) 2021-12-23
CN113136375A (zh) 2021-07-20
SG11202104347UA (en) 2021-05-28
KR20210129033A (ko) 2021-10-27
JP7216877B2 (ja) 2023-02-02
CN113136375B (zh) 2023-01-06
CN111757889A (zh) 2020-10-09
EP3875469A4 (en) 2022-08-17
AU2019372642A1 (en) 2021-06-17
AU2019372642B2 (en) 2023-11-23
WO2020088450A1 (zh) 2020-05-07

Similar Documents

Publication Publication Date Title
CN111757889B (zh) 新型CRISPR/Cas12f酶和系统
US20220002691A1 (en) Crispr/cas12j enzyme and system
CN113015798B (zh) CRISPR-Cas12a酶和系统
CN112004932B (zh) 一种CRISPR/Cas效应蛋白及系统
CN112105728A (zh) CRISPR/Cas效应蛋白及系统
CN113881652B (zh) 新型Cas酶和系统以及应用
CN114672473B (zh) 一种优化的Cas蛋白及其应用
CN114517190B (zh) Crispr酶和系统以及应用
CN114641568A (zh) Rna指导的核酸酶及其活性片段及变体以及使用方法
CN112020560A (zh) 一种RNA编辑的CRISPR/Cas效应蛋白及系统
EP4159853A1 (en) Genome editing system and method
CN113930410A (zh) 新型CRISPR-Cas12L酶和系统
CN113930411A (zh) 新型CRISPR-Cas12M酶和系统
CN114277015A (zh) 新型crispr酶以及应用
CN113930413A (zh) 新型CRISPR-Cas12j.23酶和系统
CN113930412A (zh) 新型CRISPR-Cas12N酶和系统
WO2024080067A1 (ja) ゲノム編集方法およびゲノム編集用組成物
CN116162609A (zh) Cas13蛋白、CRISPR-Cas系统及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40033058

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201009

Assignee: Shandong Shunfeng Biotechnology Co.,Ltd.

Assignor: CHINA AGRICULTURAL University

Contract record no.: X2021980014079

Denomination of invention: Novel CRISPR / cas12f enzymes and systems

Granted publication date: 20210525

License type: Exclusive License

Record date: 20211208

EE01 Entry into force of recordation of patent licensing contract