CN117120602A - 分裂的cas12系统及其使用方法 - Google Patents

分裂的cas12系统及其使用方法 Download PDF

Info

Publication number
CN117120602A
CN117120602A CN202180051832.4A CN202180051832A CN117120602A CN 117120602 A CN117120602 A CN 117120602A CN 202180051832 A CN202180051832 A CN 202180051832A CN 117120602 A CN117120602 A CN 117120602A
Authority
CN
China
Prior art keywords
cas12b
cas12b protein
terminal portion
domain
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180051832.4A
Other languages
English (en)
Inventor
周琪
李伟
滕飞
高情琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute Of Stem Cell And Regenerative Medicine
Institute of Zoology of CAS
Original Assignee
Beijing Institute Of Stem Cell And Regenerative Medicine
Institute of Zoology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute Of Stem Cell And Regenerative Medicine, Institute of Zoology of CAS filed Critical Beijing Institute Of Stem Cell And Regenerative Medicine
Publication of CN117120602A publication Critical patent/CN117120602A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P27/00Drugs for disorders of the senses
    • A61P27/02Ophthalmic agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P9/00Drugs for disorders of the cardiovascular system
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/20Fusion polypeptide containing a tag with affinity for a non-protein ligand
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/60Fusion polypeptide containing spectroscopic/fluorescent detection, e.g. green fluorescent protein [GFP]
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • C07K2319/71Fusion polypeptide containing domain for protein-protein interaction containing domain for transcriptional activaation, e.g. VP16
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12RINDEXING SCHEME ASSOCIATED WITH SUBCLASSES C12C - C12Q, RELATING TO MICROORGANISMS
    • C12R2001/00Microorganisms ; Processes using microorganisms
    • C12R2001/01Bacteria or Actinomycetales ; using bacteria or Actinomycetales
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12RINDEXING SCHEME ASSOCIATED WITH SUBCLASSES C12C - C12Q, RELATING TO MICROORGANISMS
    • C12R2001/00Microorganisms ; Processes using microorganisms
    • C12R2001/01Bacteria or Actinomycetales ; using bacteria or Actinomycetales
    • C12R2001/07Bacillus

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Cell Biology (AREA)
  • Cardiology (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • Epidemiology (AREA)
  • Mycology (AREA)
  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

本申请提供了工程化的分裂Cas12b系统及其使用方法。还提供了包含所述工程化的分裂Cas12b系统的一种或多种组件的组合物,以及通过该方法产生的工程化的细胞和非人类动物。该系统、方法和组合物可用于基因组编辑、转录调节和基因治疗。

Description

分裂的CAS12系统及其使用方法
相关申请的交叉引用
本申请要求于2020年8月25日提交的国际专利申请PCT/CN2020/111057的优先权,其内容通过引用整体并入本文。
ASCII文本文件序列表的提交
以下提交的ASCII文本文件的内容通过引用整体并入本文:序列表的计算机可读格式(CRF)(文件名:182452000441SEQLIST.txt,记录日期:2021年8月23日,大小:156KB)。
技术领域
本申请总体上涉及生物技术领域。更具体地,本申请涉及工程化的CRISPR-Cas系统。
背景技术
基因组编辑是基因组研究和各种应用中的一项重要且有用的技术。各种系统可用于基因组编辑,包括成簇规则间隔短回文重复(CRISPR)-Cas系统、转录激活因子样效应核酸酶(TALEN)系统和锌指核酸酶(ZFN)系统。
CRISPR-Cas系统是一种高效且低成本的基因组编辑技术,广泛适用于从酵母和植物到斑马鱼和人类的一系列真核生物(参见综述Van der Oost 2013,Science 339:768-770和Charpentier and Doudna,2013,Nature 495:50-51)。CRISPR-Cas系统通过结合使用Cas效应蛋白和CRISPR RNAs(crRNAs),在古生菌和细菌中提供适应性免疫。迄今为止,根据该系统突出的功能和进化模块性,已经对包括六种类型(I-VI型)的CRISPR-Cas系统的两类(1类和2类)进行了表征。在2类CRISPR-Cas系统中,II型Cas9系统和V-A型Cas12a/Cpf1系统已被用于基因组编辑,并为生物医学研究带来巨大希望。
然而,当前的CRISPR-Cas系统存在各种局限性。例如,它们可能在效率、易用性、稳定性、特异性等方面受到限制。因此,需要改进的方法和系统来进行有效的基因组编辑。
发明概述
为了解决上述和其他需求,本申请提供了包含分裂的Cas12b多肽的工程化CRISPR-Cas系统及其使用方法。
在一个方面,本申请提供了一种工程化的成簇规则间隔短回文重复(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统,其包含:(a)包含参考Cas12b蛋白的N端部分的第一多肽,(b)包含参考Cas12b蛋白的C端部分的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;并且其中第一多肽、第二多肽和指导RNA能够彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。在一些实施方案中,其中参考Cas12b蛋白具有N个氨基酸残基;第一多肽包含参考Cas12b蛋白的第1-X位氨基酸残基,其中X为大于1且小于N的整数;第二多肽包含参考Cas12b蛋白的第X+1位至第N位氨基酸残基。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域,并且其中参考Cas12b蛋白的REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,所述参考Cas12b蛋白是选自下组的Cas12b蛋白:来自嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)的Cas12b(AaCas12b)、来自卡氏脂环酸芽孢杆菌(Alicyclobacillus kakegawensis)的Cas12b(AkCas12b)、来自大孢脂环酸芽孢杆菌(Alicyclobacillus macrosporangiidus)的Cas12b(AmCas12b)、来自外村尚芽孢杆菌(Bacillus hisashii)的Cas12b(BhCas12b)、来自芽孢杆菌属(Bacillus)的BsCas12b、来自芽孢杆菌V3-13(Bacillus sp.V3-13)的Cas12b(Bs3Cas12b)、来自非常脱硫弧菌(Desulfovibrio inopinatus)的Cas12b(DiCas12b)、来自沉积物莱西氏菌(Laceyella sediminis)的Cas12b(LsCas12b)、来自螺旋体细菌(Spirochaetes bacterium)的Cas12b(SbCas12b)、来自热生肿块芽胞杆菌(Tuberibacillus calidus)的Cas12b(TcCas12b)及其功能衍生物。
在根据上述任一CRISPR-Cas系统的一些实施方案中,所述参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌(AaCas12b)的Cas12b蛋白或其功能性衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-658位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第659-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:3的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:4的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:3的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:4的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-783位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第784-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:5的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:6的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:5的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQID NO:6的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-518位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第519-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:1的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:2的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQID NO:1的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:2的氨基酸序列。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,参考Cas12b蛋白是来自芽孢杆菌V3-13的Cas12b蛋白(Bs3Cas12b)或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-650位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第651-1112位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:85。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:83的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:84的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:83的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:84的氨基酸序列。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,参考Cas12b蛋白是来自热生肿块芽孢杆菌的Cas12b蛋白(TcCas12b)或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-671位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第672-1142位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:88。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:86的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:87的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:86的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:87的氨基酸序列。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,第一多肽包含第一二聚化结构域,并且第二多肽包含第二二聚化结构域。在一些实施方案中,第一二聚化结构域和第二二聚化结构域在诱导剂存在下彼此缔合。在一些实施方案中,第一二聚化结构域是FK506结合蛋白(FKBP),并且第二二聚化结构域是FKBP-雷帕霉素结合结构域(FRB),或者第一二聚化结构域是FRB,并且第二二聚化结构域是FKBP,以及诱导剂是雷帕霉素。在一些实施方案中,第一多肽和第二多肽不包含二聚化结构域。
在根据上述任何一种CRISPR-Cas系统的一些实施方案中,指导RNA是单链指导RNA(sgRNA),其包含反式激活CRISPR RNA(tracrRNA)序列和含有指导序列的CRISPR RNA(crRNA)序列,并且其中sgRNA从5'到3'包含:第一茎环、第二茎环、第三茎环和第四茎环。在一些实施方案中,sgRNA包含SEQ ID NO:7的核酸序列。在一些实施方案中,sgRNA包含SEQID NO:96的核酸序列。在一些实施方案中,sgRNA包含SEQ ID NO:100的核酸序列。
在根据上述任何一种CRISPR-Cas系统的一些实施方案中,指导RNA是截短的sgRNA,其包含tracrRNA序列和含有指导序列的crRNA序列,并且其中与包含野生型tracrRNA序列和对应于参考Cas12b蛋白的野生型crRNA序列的全长sgRNA相比,所述截短的sgRNA缺少一个或多个茎环。在一些实施方案中,全长sgRNA从5'到3'包含:第一茎环、第二茎环、第三茎环和第四茎环,并且其中所述截短的sgRNA不包含第一茎环、第二茎环和/或第三茎环。在一些实施方案中,截短的sgRNA包含选自SEQ ID NO:8-10的核酸序列。在一些实施方案中,截短的sgRNA包含选自SEQ ID NO:97-99的核酸序列。在一些实施方案中,截短的sgRNA包含SEQ ID NO:101的核酸序列。
在根据上述任何一种CRISPR-Cas系统的一些实施方案中,参考Cas12b蛋白具有酶促活性。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,参考Cas12b蛋白包含选自下组的一个或多个突变:D570A、R785A、R911A和D977A,其中氨基酸编号根据SEQ ID NO:33。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白的N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白的C端部分的功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。在一些实施方案中,功能域是转录抑制结构域,例如选自下组的一个或多个功能域:Krüppel相关盒(KRAB)、EnR、NuE、NcoR、SID和SID4X。在一些实施方案中,功能域是反式激活结构域,例如选自下组的一个或多个功能域:VP64、p65、HSF1、VP16、MyoD1、HSF1、RTA、SET7/9及其组合。在一些实施方案中,第一多肽从N端到C端包含:第一功能域、参考Cas12b蛋白的N端部分、第二功能域;和/或其中第二多肽从N端到C端包含:第三功能域、参考Cas12b蛋白的C端部分、第四功能域。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,第一多肽和/或第二多肽还包含核定位信号(NLS)。
在根据上述任何一个CRISPR-Cas系统的一些实施方案中,工程化的CRISPR-Cas系统包含编码第一多肽的第一核酸和编码第二多肽的第二核酸。在一些实施方案中,第一核酸存在于第一载体中,而第二核酸存在于第二载体中。在一些实施方案中,第一载体和第二载体是腺相关病毒(AAV)载体。在一些实施方案中,第一载体或第二载体还包含编码指导RNA的第三核酸。在一些实施方案中,工程化的CRISPR-Cas系统包含第三载体,该第三载体包含编码指导RNA的第三核酸。
本申请的另一方面提供了一种修饰细胞中靶核酸的方法,包括:使细胞与上述任何一种工程化的CRISPR-Cas系统接触,其中所述指导RNA的指导序列与靶核酸的靶序列互补,其中所述第一多肽、第二多肽和指导RNA彼此缔合以结合靶核酸,从而修饰靶核酸。在一些实施方案中,该方法不包括使细胞与诱导剂接触。在一些其他实施方案中,该方法还包括使细胞与诱导剂接触。
在根据上述任何一种方法的一些实施方案中,细胞是细菌细胞、酵母细胞、植物细胞或动物细胞(例如,哺乳动物细胞)。
在根据上述任何一种方法的一些实施方案中,靶核酸被切割,或靶核酸中的靶序列被工程化的CRISPR-Cas系统改变。在一些实施方案中,该方法还包括使靶核酸与供体DNA接触。在一些实施方案中,靶核酸的表达被工程化的CRISPR-Cas系统改变。
在根据上述任何一种方法的一些实施方案中,该方法在体外进行。在一些实施方案中,该方法在体内进行。
在根据上述任何一种方法的一些实施方案中,靶核酸是基因组DNA。在一些实施方案中,靶序列与疾病或病症相关。
在根据上述任何一种方法的一些实施方案中,指导RNA包含多个crRNA序列,其中每个crRNA包含不同的靶序列。
在另一方面,本申请提供了一种治疗与个体细胞中靶核酸相关的疾病或病症的方法,包括使用上述任何一种方法修饰个体细胞中的靶核酸。在一些实施方案中,疾病或病症选自:癌症、心血管疾病、遗传性疾病、自身免疫性疾病、代谢性疾病、神经退行性疾病、眼部疾病、细菌感染和病毒感染。在一些实施方案中,所述靶核酸是PCSK9,并且所述疾病或病症是心血管疾病。
在另一方面,本申请提供了具有修饰的靶核酸的工程化的细胞,该靶核酸已经使用上述修饰靶核酸的任何一种方法进行了修饰。还提供了一种工程化的非人动物,其包含一种或多种根据上述工程化的细胞中任一种的工程化的细胞。
本申请还提供了包含选自下组的氨基酸序列的工程化多肽:SEQ ID NO:1-6、11-16、78-79和81-82,以及包含选自下组的核酸序列的工程化sgRNA:SEQ ID NO:7-10。
还提供了包含本文所述工程化的多肽、工程化的sgRNA和/或工程化的细胞中任一种的试剂盒、制品。
应当理解,为了清楚起见,在单独实施方案的上下文中描述的本申请的某些特征也可以在单个实施方案中组合提供。相反,为简洁起见,在单个实施方案的上下文中描述的本申请的各种特征也可以单独提供或以任何合适的子组合提供。与特定方法步骤、试剂或条件有关的实施方案的所有组合都具体地包含在本申请中并且在本文中公开,就好像每个和每个组合被单独和明确地公开一样。
附图说明
图1显示了示例性雷帕霉素诱导型分裂Cas12b系统的示意图。Cas12b被分裂为N端片段和C端片段,其分别与FRB和FKBP二聚化结构域融合。雷帕霉素诱导FKBP和FRB之间的二聚化,这使得分裂Cas12b片段能够重新结合并重新获得RNA指导的DNA核酸酶活性。
图2显示了示例性雷帕霉素诱导型分裂Cas12b系统的构建体。上图的构建体编码与FRB结构域融合的Cas12b的N端片段。下图的构建体编码与Cas12b的C端片段融合的FKBP结构域。
图3显示了基于嗜酸脂环酸芽孢杆菌Cas12b(AaCas12b)的三对示例性分裂Cas12b多肽。分裂1Cas12b多肽在第518位氨基酸处分裂出一个全长AaCas12b蛋白。分裂2Cas12b多肽在第658位氨基酸处分裂出一个全长AaCas12b蛋白。分裂3Cas12b多肽在第783位氨基酸处分裂出一个全长AaCas12b。
图4A显示了T7核酸内切酶I(T7EI)分析的结果,该分析评估了由图3的三个分裂AaCas12b蛋白构建体诱导的人靶位点处的插入-缺失(Indel)突变。人类靶位点包括CCR5-1、CCR5-2、DNMT1、RNF2和VEGFA。分裂AaCas12b蛋白包含二聚化结构域。
图4B显示CCR5-10基因座和DNMT1-16基因座处的DNA序列,以及使用图4A的分裂AsCas12b系统的示例性编辑的序列。缺失的碱基显示为破折号;PAM序列加框,间隔序列加下划线。
图5显示了示例性雷帕霉素诱导型基于分裂Cas12b的基因激活系统,其中参考Cas12b是催化性死亡的Cas12b(dCas12b)。
图6显示了示例性雷帕霉素诱导型基于分裂Cas12b的基因抑制系统,其中参考Cas12b是催化性死亡的Cas12b(dCas12b)。
图7显示了示例性自动诱导型分裂自诱导基于分裂Cas12b的基因激活系统,其中参考Cas12b是催化性死亡的Cas12b(dCas12b)。
图8显示了示例性自动诱导型基于分裂Cas12b的基因抑制系统,其中参考Cas12b是催化性死亡的Cas12b(dCas12b)。
图9显示对应于示例性sgRNA骨架artsgRNA13的DNA序列。注释了sgRNA的二级结构。
图10显示对应于示例性截短的sgRNA骨架artsgRNA13Δloop1、artsgRNA13Δloop2和artsgRNA13Δloop3的DNA序列。注释了sgRNA的二级结构。
图11显示使用示例性基于分裂Cas12b的基因激活系统对HBG基因的转录激活。
图12显示使用示例性基于分裂Cas12b的基因抑制系统对PCSK9基因的转录抑制。
图13显示了T7EI分析的结果,该分析评估了由图3的三个分裂AaCas12b蛋白构建体诱导的PLK-1人靶位点处的Indel突变。所述分裂AaCas12b蛋白不包含二聚化结构域。AasgRNA3.8具有SEQ ID NO:101的核酸序列。“WT”表示空白对照。
图14显示了T7EI分析的结果,该分析评估了由分裂2AaCas12b蛋白构建体和直系同源物Bs3Cas12b和TcCas12b的相应分裂蛋白构建体诱导的PLK-1人类靶位点处的Indel突变。分裂2BsCas12b和TcCas12b蛋白不含二聚化结构域。“WT”表示空白对照。
发明详述
本申请提供包含分裂Cas12b多肽的工程化的CRISPR-Cas系统(在本文中也称为“分裂Cas12b系统”),其可以在结合诱导剂或结合指导RNA(即自动诱导)时重组为功能性Cas12b蛋白。这种工程化的分裂Cas12b系统的优势包括但不限于:(1)减小的构建体尺寸,这有助于通过AAV载体将分裂Cas12b系统递送到细胞中;(2)在分裂Cas12b多肽中包含额外功能域的灵活性,这可用于转录调控和其他序列特异性基因修饰;以及(3)在多个基因组靶位点进行多重基因组编辑。在一些实施方案中,截短的gRNA与诱导剂控制的分裂Cas12b系统结合使用,这可以使分裂Cas12b系统的自动诱导最小化,允许对分裂Cas12b系统进行更严格的控制,并减少脱靶编辑事件。
因此,本申请的一方面提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白N端部分的第一多肽,(b)包含参考Cas12b蛋白C端部分的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;并且其中第一多肽、第二多肽和指导RNA能够彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。在一些实施方案中,第一多肽包含第一二聚化结构域,并且第二多肽包含第二二聚化结构域。在一些实施方案中,第一二聚化结构域和第二二聚化结构域在诱导剂存在下彼此缔合。在一些实施方案中,与野生型指导RNA相比,所述指导RNA是截短的指导RNA,并且该截短的指导RNA能够与第一多肽和第二多肽结合以形成功能性CRISPR复合物。在一些实施方案中,第一二聚化结构域和第二二聚化结构域能够在无任何诱导剂存在下彼此缔合。
还提供了包含工程化的CRISPR-Cas系统的一种或多种组件的组合物、试剂盒和制品,以及通过使用该系统的方法产生的工程化的细胞和动物。
定义
除非另有定义,本文使用的所有技术和科学术语具有与本申请所属领域的普通技术人员通常理解的相同含义。
如本文所用,“分裂Cas12b多肽”是指一个或一对多肽,每个多肽包含功能性Cas12b蛋白的一部分(例如,全长Cas12b蛋白或其功能变体;在本文中也称为“参考Cas12b蛋白”),这对多肽可以相互结合以重组功能性Cas12b蛋白。功能性Cas12b蛋白具有一种或多种选自下组的活性:DNA结合、双螺旋核酸的单链切割(本文也称为“切口酶活性)”和双螺旋核酸的双链切割。每个分裂Cas12b多肽内的功能性Cas12b蛋白部分,在本文中称为“分裂Cas12b部分”。对于具有两个分裂Cas12b部分的分裂Cas12b多肽系统,有两个分裂Cas12b部分,即,N端分裂Cas12b部分和C端分裂Cas12b部分。N端分裂Cas12b部分可以包含从参考Cas12b多肽N端的第一个氨基酸残基到参考Cas12b多肽中第X位氨基酸残基处的分裂位置处氨基酸残基的氨基酸残基;并且C端分裂Cas12b部分可以包含参考Cas12b多肽中第X+1位氨基酸残基到参考Cas12b多肽中最后一个氨基酸残基。还考虑了相对于参考Cas12b多肽的氨基酸残基的添加、缺失和插入,包括在N端、C端、在分裂位置的边界处,和/或在内部位置,可能适用于N端分裂Cas12b部分和/或C端分裂Cas12b部分,只要N端分裂Cas12b部分和C端分裂Cas12b部分可以重组为功能性Cas12b蛋白。“分裂Cas12b构建体”是指编码分裂Cas12b多肽的核酸序列。在一些实施方案中,该对中的一个或两个分裂Cas12b多肽包含融合至分裂Cas12b部分的额外功能域。在一些实施方案中,分裂Cas12b多肽不具有融合至分裂Cas12b部分的额外功能域。在诱导剂控制的分裂Cas12b系统的实施方案中,分裂Cas12b多肽可以在诱导剂存在下彼此缔合。在自动诱导或自诱导分裂Cas12b系统的实施方案中,分裂Cas12b多肽可以在无任何诱导剂存在下彼此缔合。某些诱导剂控制的分裂Cas12b系统也可能具有自动诱导活性。
如本文所用,“指导RNA”和“gRNA”在本文中可互换使用,指能够与Cas蛋白(例如,来自两个分裂Cas12b多肽或部分的重组Cas12b蛋白)和靶核酸(例如,双链DNA)形成复合物的RNA。指导RNA可包含单个RNA分子或通过两个或更多个RNA分子中的互补区域的杂交彼此结合的两个或更多个RNA分子。当与Cas12b蛋白结合使用时,指导RNA包含crRNA和tracrRNA。“crRNA”或“CRISPR RNA”包含与靶核酸(例如,双链DNA)的靶序列具有足够互补性的指导序列,其指导CRISPR复合物(即,Cas12b+crRNA+tracrRNA复合物)与靶核酸的序列特异性结合。“tracrRNA”或“反式激活CRISPR RNA”与crRNA部分互补并碱基配对,可能在crRNA的成熟过程中发挥作用。“单链指导RNA”或“sgRNA”是一种工程化的指导RNA,其具有在单个分子中相互融合的crRNA和tracrRNA。
术语“核酸”、“多核苷酸”和“核苷酸序列”可互换使用,指任何长度的核苷酸的聚合形式,包括脱氧核糖核苷酸、核糖核苷酸、其组合及其类似物。“寡核苷酸”和“低聚核苷酸”指短的多核苷酸,不超过约50个核苷酸。
如本文所用,“互补性”是指一种核酸通过传统的沃森-克里克碱基配对与另一种核酸形成氢键的能力。互补性百分比表示核酸分子中可与第二个核酸形成氢键(即沃森-克里克碱基配对)的残基百分比(例如,10个中的约5、6、7、8、9、10个,分别约50%、60%、70%、80%、90%和100%互补)。“完全互补”是指核酸序列的所有连续残基与第二核酸序列中相同数量的连续残基形成氢键。如本文所用,“基本上互补”是指在约40、50、60、70、80、100、150、200、250或更多个核苷酸的区域内,互补程度至少约为70%、75%、80%、85%、90%、95%、97%、98%、99%或100%中的任一种,或指在严格条件下杂交的两种核酸。
如本文所用,用于杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交,并且基本上不与非靶序列杂交的条件。严格条件通常依赖于序列,并根据许多因素而变化。通常,序列越长,序列与其靶序列特异性杂交的温度就越高。严格条件的非限制性实例描述于Tijssen(1993),Laboratory Techniques In Biochemistry And MolecularBiology-Hybridization With Nucleic Acid Probes Part I,Second Chapter“Overviewof principles of hybridization and the strategy of nucleic acid probe assay,”Elsevier,N,Y。
“杂交”是指一个或多个多核苷酸反应形成复合物的反应,该复合物通过核苷酸残基碱基之间的氢键结合而稳定。氢键可以通过沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式发生。能够与给定序列杂交的序列称为给定序列的“互补物”。
关于核酸序列的“百分比(%)序列同一性”,定义为在通过允许空位(gap)(如有必要)来比对序列以达到最大百分比序列同一性之后,候选序列中与特定核酸序列中的核苷酸相同的核苷酸百分比。关于肽、多肽或蛋白质序列的“百分比(%)序列同一性”,是指在通过允许空位(如有必要)来比对序列以实现最大百分比的序列同源性之后,候选序列中与特定肽或氨基酸序列中的氨基酸残基相同的氨基酸残基百分比。可以以本领域技术范围内的各种方式实现用于确定氨基酸序列百分比同一性的比对,例如,使用可公开获得的计算机软件,如BLAST、BLAST-2、ALIGN或MEGALIGNTM(DNASTAR)软件。本领域技术人员可以确定用于测量比对的适当参数,包括在被比较的序列的全长上实现最大比对所需的任何算法。
术语“多肽”和“肽”在本文中可互换使用,指任何长度的氨基酸聚合物。聚合物可以是直链或支链的,它可以包含修饰的氨基酸,并且它可以被非氨基酸中断。蛋白质可以具有一种或多种多肽。这些术语还涵盖经过修饰的氨基酸聚合物;例如,二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其他操作,如与标记成分缀合。
如本文所用,“变体”被解释为表示分别不同于参考多核苷酸或多肽但保留基本特性的多核苷酸或多肽。多核苷酸的典型变体在核酸序列上不同于另一个参考多核苷酸。变体核酸序列的变化可能会或可能不会改变由参考多核苷酸编码的多肽的氨基酸序列。如下文所讨论,核苷酸改变可导致由参考序列编码的多肽中的氨基酸替换、添加、缺失、融合和截短。多肽的典型变体在氨基酸序列上不同于另一个参考多肽。通常,差异是有限的,因此参考多肽和变体的序列总体上非常相似,并且在许多区域中是相同的。变体和参考多肽的氨基酸序列可能因任何组合中的一处或多处替换、添加、缺失而不同。替换或插入的氨基酸残基可以是也可以不是由遗传密码编码的氨基酸残基。多核苷酸或多肽的变体可以是天然存在的如等位基因变体,或者它可以是未知天然存在的变体。多核苷酸和多肽的非天然存在的变体,可以通过诱变技术、通过直接合成和通过技术人员已知的其他重组方法制备。
如本文所用,“细胞”应理解为不仅指特定的个体细胞,而且指细胞的子代或潜在子代。因为某些修饰可能由于突变或环境影响而发生在后代中,所以此类后代实际上可能与亲本细胞不同,但仍包括在本文所用术语的范围内。
如本文所用,术语“转导”和“转染”包括本领域已知的使用感染剂(如病毒)或其他手段将DNA引入细胞以表达目标蛋白或分子的所有方法。除了病毒或病毒样试剂外,还有基于化学的转染方法,如使用磷酸钙、树状聚合物、脂质体或阳离子聚合物(例如DEAE-葡聚糖或聚乙烯亚胺)的转染方法;非化学方法,如电穿孔、细胞挤压、声孔效应、光学转染、穿刺转染、原生质体融合、质粒递送或转座子;基于粒子的方法,如使用基因枪、磁转染或磁体辅助转染、粒子轰击;和混合法,如核转染。
如本文所用,术语“转染的”或“转化的”或“转导的”是指将外源核酸转移或引入宿主细胞的过程。“转染的”或“转化的”或“转导的”细胞,是已经用外源核酸转染、转化或转导的细胞。
术语“体内”是指在从其中获得细胞的生物体的体内。“离体”或“体外”是指在从其中获得细胞的生物体的体外。
如本文所用,“治疗(treatment/treating)”是获得有益或期望的结果(包括临床结果)的方法。为了本申请的目的,有益的或期望的临床结果包括但不限于以下的一种或多种:减轻由疾病引起的一种或多种症状,减少疾病的程度,稳定疾病(例如,预防或延缓疾病的恶化),预防或延缓疾病的扩散(如转移),预防或延缓疾病的复发,降低疾病的复发率,延缓或减缓疾病的进展,改善疾病状态,提供疾病的缓解(部分或全部),减少治疗疾病所需的一种或多种其他药物的剂量,延缓疾病的进展,提高生活质量,和/或延长生存期。“治疗”还涵盖减轻癌症的病理后果。本申请的方法考虑了这些治疗方面中的任何一个或多个。
如本文使用,术语“有效量”是指化合物或组合物足以治疗特定紊乱、病症或疾病如改善、减轻、减少和/或延迟其一种或多种症状的量。如本领域所理解的,“有效量”可以是一个或多个剂量,即,可能需要单剂量或多剂量来实现期望的治疗终点。
“受试者”、“个体”或“患者”在本文中出于治疗目的可互换使用,指任何归类为哺乳动物的动物,包括人类、家畜和农场动物以及动物园、运动或宠物动物,如狗、马、猫、牛等。在一些实施方案中,个体是人类个体。
应当理解,本文描述的本申请的实施方案包括“由……组成”和/或“基本上由……组成”的实施方案。
本文中提及“约”值或参数包括(并描述)针对该值或参数本身的变化。例如,提及“约X”的描述包括“X”的描述。
如本文所用,提及“不是”某值或参数,通常意味着并描述“除了”某值或参数以外。例如,该方法不用于治疗X型癌症,意味着该方法用于治疗X型以外的其他类型的癌症。
如本文所用,术语“约X-Y”与“约X至约Y”具有相同含义。
如本文和所附权利要求中所用,单数形式“一个/种(a/an)”和“所述/该(the)”包括复数指代物,除非上下文另有明确规定。还应注意,权利要求可以撰写为排除任何可选元素。因此,该声明旨在作为使用诸如“”“单独地”“仅”等与权利要求要素的陈述相关的排他性术语或使用“否定”限制的先行基础。
如本文所用,术语“和/或”,如短语“A和/或B”,旨在包括A和B;A或B;A(单独);和B(单独)。同样,如本文所用,术语“和/或”,如短语“A、B和/或C”旨在涵盖以下每个实施方案:A、B和C;A、B或C;A或C;A或B;B或C;A和C;A和B;B和C;A(单独);B(单独);和C(单独)。
工程化的CRISPR-Cas系统
本申请提供了分裂Cas12b多肽、工程化的指导RNA和包含分裂Cas12b多肽的工程化的CRISPR-Cas系统。在一些实施方案中,工程化的CRISPR-Cas系统包含分裂Cas12b多肽和一种或多种指导RNA。
相应地,在一些实施方案中,本申请提供了工程化的成簇规则间隔短回文重复(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统,其包含:(a)包含参考Cas12b蛋白的N端部分的第一多肽,(b)包含参考Cas12b蛋白的C端部分的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;并且其中第一多肽、第二多肽和指导RNA能够彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。
在一些实施方案中,提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白N端部分和第一功能域的第一多肽,(b)包含参考Cas12b蛋白C端部分和第二功能域的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中参考Cas12b蛋白是无酶促活性的;并且其中第一多肽、第二多肽和指导RNA能够彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,第一功能域和/或第二功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白的N端部分和第一二聚化结构域的第一多肽,(b)包含参考Cas12b蛋白的C端部分和第二二聚化结构域的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第一多肽、第二多肽和指导RNA能够在诱导剂存在下相互缔合形成CRIPSR复合物,该复合物特异性结合包含与指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,所述功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白N端部分和第一二聚化结构域的第一多肽,(b)包含参考Cas12b蛋白C端部分和第二二聚化结构域的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第一多肽、第二多肽和指导RNA能够在无任何诱导剂存在下彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白N端部分的第一多肽,(b)包含参考Cas12b蛋白C端部分的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第一多肽和第二多肽不包含二聚化结构域;并且其中第一多肽、第二多肽和指导RNA能够彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白N端部分和第一二聚化结构域的第一多肽,(b)包含参考Cas12b蛋白C端部分和第二二聚化结构域的第二多肽,和(c)包含指导序列的指导RNA,其中指导RNA是截短的sgRNA,所述截短的sgRNA包含tracrRNA序列和含有所述指导序列的crRNA序列,并且其中与包含野生型tracrRNA序列和对应于参考Cas12b蛋白的野生型crRNA序列的全长sgRNA相比,所述截短的sgRNA缺少一个或多个茎环;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第二多肽和指导RNA能够在诱导剂存在下相互缔合形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,本申请提供了工程化的成簇规则间隔短回文重复(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统,其包含:(a)包含参考Cas12b蛋白N端部分的第一多肽,(b)包含参考Cas12b蛋白C端部分的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;并且其中第一多肽、第二多肽和指导RNA能够彼此缔合以形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:3的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:4的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:83的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:84的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:86的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:87的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列。在一些实施方案中,第一多肽和第二多肽不包含二聚化结构域。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,提供了工程化的CRISPR-Cas系统,其包含:(a)包含参考Cas12b蛋白N端部分和第一二聚化结构域的第一多肽,(b)包含参考Cas12b蛋白C端部分和第二二聚化结构域的第二多肽,和(c)包含指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;并且其中第一多肽、第二多肽和指导RNA能够在诱导剂存在下相互缔合以形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。在一些实施方案中,第一二聚化结构域是FKBP结构域,并且第二二聚化结构域是FRB结构域;或者第一二聚化结构域是FRB结构域,并且第二二聚化结构域是FKBP结构域。在一些实施方案中,诱导剂是雷帕霉素。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ IDNO:3的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:4的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:83的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:84的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:86的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或100%序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:87的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列。在一些实施方案中,第一多肽包含与SEQ ID NO:13的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列,并且其中第二多肽包含与SEQ ID NO:14的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性或具有100%序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌(AaCas12b)的Cas12b蛋白、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶)。在一些实施方案中,参考Cas12b蛋白是无酶活性的。在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在根据本文所述的任何一种工程化的CRISPR-Cas系统的一些实施方案中,其中参考Cas12b蛋白具有N个氨基酸残基;第一多肽包含参考Cas12b蛋白的第1-X位氨基酸残基,其中X为大于1且小于N的整数;第二多肽包含参考Cas12b蛋白的第X+1位至第N位氨基酸残基。
在根据本文所述的任何一种工程化的CRISPR-Cas系统的一些实施方案中,工程化的CRISPR-Cas系统包含crRNA分子和tracrRNA分子。在一些实施方案中,工程化的CRISPR-Cas系统包含单链指导RNA(sgRNA),其包含与tracrRNA序列融合的crRNA序列。在一些实施方案中,工程化的CRISPR-Cas系统包含含有多个crRNA序列的指导RNA,其中每个crRNA序列包含不同的靶序列。
分裂Cas12b多肽
本文描述的CRISPR-Cas系统可以包含任何一对多肽(本文也称为“分裂Cas12b多肽”),该多肽在本节中包含分裂Cas12b部分。在一些实施方案中,CRISPR-Cas系统包含:(a)包含参考Cas12b蛋白N端部分的第一多肽,和(b)包含参考Cas12b蛋白C端部分的第二多肽,其中第一多肽和第二多肽能够在包含指导序列的指导RNA的存在下相互缔合以形成CRIPSR复合物,该复合物特异性结合包含与指导序列互补的靶序列的靶核酸。
分裂Cas12b部分是根据天然存在于细菌和古细菌中的Cas12b蛋白或其功能变体设计的。最近,V-B型CRISPR-Cas12b(也称为C2c1)系统已被鉴定为双RNA引导的DNA核酸内切酶系统,并具有与Cas9和Cas12a截然不同的特征(Shmakov,S.et al.Mol.Cell 60,385–397(2015))。首先,据报道,当用crRNA/tracrRNA双螺旋重建时,Cas12b在体外产生远离前间隔序列相邻基序(PAM)位点的交错端(staggered ends)。其次,虽然Cas12b的RuvC结构域与Cas9和Cas12a的相似,但其推定的Nuc结构域与Cas9的HNH结构域和Cas12a的Nuc结构域没有序列或结构相似性。此外,Cas12b蛋白小于最广泛使用的SpCas9和Cas12a(例如,AacCas12b:1129个氨基酸(aa);SpCas9:1,369aa;AsCas12a:1,353aa;LbCas12a:1,274aa),使得Cas12b适用于腺相关病毒(AAV)-介导的基因治疗体内递送。与诸如SaCas9和CjCas9的小型Cas9蛋白相比,Cas12b识别更简单的PAM序列(例如,AacCas12b:5'-TTN-3';相比SaCas9:5'-NNGRRT-3'(SEQ ID NO:28),CjCas9:5'-NNNNRYAC-3'(SEQ ID NO:29)),这显著增加了Cas12b在基因组中的靶向范围。最重要的是,Cas12b具有最小的脱靶效应,因此可以作为治疗和临床应用的更安全选择。
来自各种生物体的Cas12b(C2c1)蛋白可用于设计本申请的分裂Cas12b部分。示例性的Cas12b蛋白已被描述,例如,Shmakov,S.et al.Mol.Cell 60,385–397(2015);Shmakov,S.et al.Nat.Rev.Microbiol.15,169–182(2017);Teng F.et al.,CellDiscovery(2019)5:23;WO2016205764和WO2020/087631,其内容通过引用整体并入本文。
在一些实施方案中,分裂Cas12b部分基于参考Cas12b蛋白,该参考Cas12b蛋白选自:来自嗜酸脂环酸芽孢杆菌的Cas12b(AaCas12b)、来自卡氏脂环酸芽孢杆菌的Cas12b(AkCas12b)、来自大孢脂环酸芽孢杆菌的Cas12b(AmCas12b)、来自外村尚芽孢杆菌的Cas12b(BhCas12b)、来自芽孢杆菌属的BsCas12b,来自芽孢杆菌V3-13的Cas12b(Bs3Cas12b)、来自非常脱硫弧菌的Cas12b(DiCas12b)、来自沉积物莱西氏菌的Cas12b(LsCas12b)、来自螺旋体细菌的Cas12b(SbCas12b)、来自热生肿块芽胞杆菌的Cas12b(TcCas12b),及其功能衍生物。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)或其功能性衍生物。
在一些实施方案中,分裂Cas12b部分基于来自嗜酸脂环酸芽孢杆菌的参考Cas12b蛋白(AaCas12b)或其功能性衍生物。天然存在的Cas12b蛋白的序列是已知的,例如,UniProtKB ID:T0D7A2,其通过引用整体并入本文。在一些实施方案中,分裂Cas12b部分基于参考Cas12b蛋白,其包含与SEQ ID NO:33的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任一个)序列同一性的氨基酸序列。在一些实施方案中,分裂Cas12b部分基于包含SEQ ID NO:33的氨基酸序列的参考Cas12b蛋白。
在一些实施方案中,分裂Cas12b部分基于来自芽孢杆菌V3-13的参考Bs3Cas12b蛋白或其功能衍生物。在一些实施方案中,分裂Cas12b部分基于参考Cas12b蛋白,其包含与SEQ ID NO:85的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任一个)序列同一性的氨基酸序列。在一些实施方案中,分裂Cas12b部分基于包含SEQ ID NO:85的氨基酸序列的参考Cas12b蛋白。
在一些实施方案中,分裂Cas12b部分是基于来自热生肿块芽胞杆菌的参考TcCas12b蛋白或其功能性衍生物。在一些实施方案中,分裂Cas12b部分基于参考Cas12b蛋白,其包含与SEQ ID NO:88的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,分裂Cas12b部分基于包含SEQ ID NO:88的氨基酸序列的参考Cas12b蛋白。
SEQ ID NO:30酸土脂环酸芽孢杆菌(Alicyclobacillus acidoterrestris)Cas12b的氨基酸序列
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI
SEQ ID NO:33嗜酸脂环酸芽孢杆菌Cas12b(AaCas12b)的氨基酸序列
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
SEQ ID NO:85 Bs3 Cas12b
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
SEQ ID NO:88 Tc Cas12b
MNIHLKELIRMATKSFILKMKTKNNPQLRLSLWKTHELFNFGVAYYMDLLSLFRQKDLYMHNDEDPDHPVVLKKEEIQERLWMKVRETQQKNGFHGEVSKDEVLETLRALYEELVPSAVGKSGEANQISNKYLYPLTDPASQSGKGTANSGRKPRWKKLKEAGDPSWKDAYEKWEKERQEDPKLKILAALQSFGLIPLFRPFTENDHKAVISVKWMPKSKNQSVRKFDKDMFNQAIERFLSWESWNEKVAEDYEKTVSIYESLQKELKGISTKAFEIMERVEKAYEAHLREITFSNSTYRIGNRAIRGWTEIVKKWMKLDPSAPQGNYLDVVKDYQRRHPRESGDFKLFELLSRPENQAAWREYPEFLPLYVKYRHAEQRMKTAKKQATFTLCDPIRHPLWVRYEERSGTNLNKYRLIMNEKEKVVQFDRLICLNADGHYEEQEDVTVPLAPSQQFDDQIKFSSEDTGKGKHNFSYYHKGINYELKGTLGGARIQFDREHLLRRQGVKAGNVGRIFLNVTLNIEPMQPFSRSGNLQTSVGKALKVYVDGYPKVVNFKPKELTEHIKESEKNTLTLGVESLPTGLRVMSVDLGQRQAAAISIFEVVSEKPDDNKLFYPVKDTDLFAVHRTSFNIKLPGEKRTERRMLEQQKRDQAIRDLSRKLKFLKNVLNMQKLEKTDEREKRVNRWIKDREREEENPVYVQEFEMISKVLYSPHSVWVDQLKSIHRKLEEQLGKEISKWRQSISQGRQGVYGISLKNIEDIEKTRRLLFRWSMRPENPGEVKQLQPGERFAIDQQNHLNHLKDDRIKKLANQIVMTALGYRYDGKRKKWIAKHPACQLVLFEDLSRYAFYDERSRLENRNLMRWSRREIPKQVAQIGGLYGLLVGEVGAQYSSRFHAKSGAPGIRCRVVKEHELYITEGGQKVRNQKFLDSLVENNIIEPDDARRLEPGDLIRDQGGDKFATLDERGELVITHADINAAQNLQKRFWTRTHGLYRIRCESREIKDAVVLVPSDKDQKEKMENLFGIGYLQPFKQENDVYKWVKGEKIKGKKTSSQSDDKELVSEILQEASVMADELKGNRKTLFRDPSGYVFPKDRWYTGGRYFGTLEHLLKRKLAERRLFDGGSSRRGLFNGTDSNTNVE
应注意,可使用与Cas12b或其片段具有一定序列同一性(例如,至少约60%、70%、80%、85%、90%、95%、98%或更高中的任何一个)的直系同源物作为设计本申请的分裂Cas12b部分的基础。本领域技术人员可以根据目的和应用确定适用于本申请的Cas12b直系同源物或其片段的序列同一性百分比。确定序列同一性值的方法可参见ComputationalMolecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988;Biocomputing:Informatics and Genome Projects,Smith,D.W.,ed.,Academic Press,New York,1993;Computer Analysis of Sequence Data,Part I,Griffin,A.M.,andGriffin,H.G.,eds.,Humana Press,New Jersey,1994;Sequence Analysis in MolecularBiology,von Heinje,G.,Academic Press,1987;and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,M Stockton Press,New York,1991)。WO2020/087631和Teng F.et al.,Cell Discovery(2019)5:23中描述了各种Cas12b直系同源物,其通过引用整体并入本文。
天然存在的Cas12b蛋白具有多种结构域,例如,如图3所示。在一些实施方案中,参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I;也称为OBD-I结构域)、第一REC结构域(REC1)、第二WED结构域(WED-II;也称为OBD-II结构域)、第一RuvC结构域(RuvC-I)、桥螺旋(BH)结构域、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I);也称为UK-I结构域)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II;也称为UK-II结构域)。结构域边界可以使用本领域已知的方法来确定,例如基于参考Cas12b蛋白的晶体结构(例如,AaCas12b的PDB ID Nos:5U30、5U31、5U33、5U34和5WQE),和/或与参考Cas12b蛋白中已知功能域的序列同源性。在一些实施方案中,AaCas12b具有以下结构域:WEB-I结构域(第1-14位氨基酸残基)、REC1结构域(第15-386位氨基酸残基)、WED-II结构域(第387-518位氨基酸残基)、RuvC-I结构域(第519-628位氨基酸残基)、BH结构域(第629-658位氨基酸残基)、REC2结构域(第659-783位氨基酸残基)、RuvC-II结构域(第784-900位氨基酸残基)、Nuc-I结构域(第901-974位氨基酸残基)、RuvC-III结构域(第975-993位氨基酸残基)和Nuc-II结构域(第994-1129位氨基酸残基),其中氨基酸编号基于SEQ ID NO:33。
酸土脂环酸芽孢杆菌Cas12b的晶体结构作为二元复合物与sgRNA结合,并作为三元复合物与靶DNA结合,已被描述于Yang H.,et al.Cell167:1814-1828(2016)和Liu L.etal.Mol.Cell 65:310-322(2017)。简言之,晶体结构显示2个不连续的REC(识别,第15-386位、第658-783位残基)和NUC(核酸酶,第1-14位、第387-658位和第784-1129位残基)裂片,每个裂片由几个结构域组成,如图3所示,其中根据Liu等人注释了结构域边界,Yang等人具有略微不同的结构域边界,其仅与Liu等人中的结构域具有几个氨基酸残基区别。crRNA(或单链指导RNA,sgRNA)结合在两个裂片间的中央通道中。PAM识别是序列特异的,主要通过与REC1(螺旋-1)和WED-II(OBD-II)结构域的相互作用发生。sgRNA-靶DNA异源双螺旋主要以与序列无关的方式与REC裂片结合。
应理解,其他Cas12b直系同源物,如BhCas12b、Bs3Cas12b、LsCas12b、SbCas12b、AkCas12b、AmCas12b、BsCas12b和DiCas12b等,具有与AaCas12b和本文所述的其他示例性参考Cas12b蛋白相似的结构域结构,并且可以使用与本文描述的示例性AaCas12b、Bs3Cas12b和TcCas12b分裂部分相对应的分裂位置,基于任何一个直系同源物设计分裂Cas12b部分。对应位置是指当两条多肽的氨基酸序列相互对齐时,两条多肽中相互对齐的位置。例如,Teng F.et al.,Cell Discovery(2019)5:23的图S2,提供了AaCas12b、AkCas12b、AmCas12b、Bs3Cas12b、BsCas12b、LsCas12b、BhCas12b和SbCas12b的比对,其通过引用并入本文。
在一些实施方案中,分裂Cas12b部分基于天然存在的Cas12b蛋白的功能变体。在一些实施方案中,功能变体具有一处或多处突变,如氨基酸替换、插入和缺失。举例来说,与野生型天然存在的Cas12b蛋白相比,功能变体可以包含1、2、3、4、5、6、7、8、9、10个或更多个氨基酸替换中的任一个。在一些实施方案中,一个或多个替换是保守替换。在一些实施方案中,功能变体具有天然存在的Cas12b蛋白的所有结构域。在一些实施方案中,功能变体不具有天然存在的Cas12b蛋白的一个或多个结构域。
在一些实施方案中,参考Cas12b蛋白具有酶促活性。在一些实施方案中,参考Cas12b是切割靶双螺旋核酸(例如,双螺旋DNA)的两条链的核酸酶。在一些实施方案中,参考Cas12b是切口酶,即切割靶双螺旋核酸(例如,双螺旋DNA)的单链。在一些实施方案中,参考Cas12b蛋白是无酶活性的。
在某种意义上,参考Cas12b分裂为两个分裂Cas12b部分基本上包含功能性Cas12b。Cas12b可起到基因组编辑酶的作用(当与靶DNA和指导RNA形成复合物时),如切割双螺旋核酸的单链或双链的核酸酶,或者它可能是催化性死亡的-Cas12b(dCas12b),其本质上是一种DNA结合蛋白,由于其催化结构域中的典型突变而具有非常小的或没有催化活性。参考Cas12b活性位点中一个或多个氨基酸残基的突变,可导致催化性死亡的Cas12b。例如,AaCas12b的R785A、R911A或D977A突变体在人类细胞中没有核酸酶活性。参见,例如,Teng F.et al.,Cell Discovery,4,Article number:63(2018),其全文以引用方式并入本文。还已知D570A AaCas12b没有核酸酶活性。本文还考虑了AaCas12b的同系物和直系同源物中的相应突变。在一些实施方案中,参考Cas12b是AaCas12b(D570A)。在一些实施方案中,参考Cas12b是AaCas12b(R785A)。在一些实施方案中,参考Cas12b是AaCas12b(R911A)。在一些实施方案中,参考Cas12b是AaCas12b(D977A)。在一些实施方案中,参考Cas12b是BthCas12b(D573A)。在一些实施方案中,分裂Cas12b部分基于催化性死亡的Cas12b蛋白,其包含与SEQ ID NO:33、85或85的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且具有D570A、R785A、R911A和/或D977A突变中的一个或多个突变,其中氨基酸编号是根据SEQ ID NO:33。
本文描述的分裂Cas12b部分可以通过在分裂位置将参考Cas12b蛋白(例如,全长Cas12b蛋白或其功能变体)分裂成两半(即分裂)来设计,该位置是参考Cas12b蛋白的N端部分与C端部分分开的位置。在一些实施方案中,N端部分包含第1-X位氨基酸残基,而C端部分包含第X+1位氨基酸残基至参考Cas12b蛋白的C端。在这个实例中,编号是连续的,但这可能并不总是必要的,因为氨基酸(或编码它们的核苷酸)可以从分裂末端的任意一端被修剪,和/或多肽链内部区域的突变(例如插入、缺失和替换)也被考虑在内,前提是重组的Cas12b蛋白的足够的DNA结合活性和(如果需要)DNA内切酶或切割活性被保留,例如与参考Cas12b蛋白相比,至少40%、50%、60%、70%、80%、90%或95%的活性。
例如,图3显示了三对分裂Cas12b多肽的示例性分裂位置,其中氨基酸残基编号对应于野生型AaCas12b蛋白的氨基酸残基编号,例如,如SEQ ID NO:33中的编号。然而,设想功能变体,包括野生型Cas12b蛋白的突变体,可以用作设计分裂Cas12b多肽的基础。编号也可能不完全遵循参考Cas12b编号,例如,可能会使用一些N端或C端截短或缺失,以及野生型Cas12b蛋白的内部突变。本领域技术人员可以容易地使用本文描述的示例性分裂Cas12b多肽的信息,来设计基于其他Cas12b蛋白和功能变体的对应分裂Cas12b多肽,例如,通过使用标准序列比对工具。
熟练的技术人员将意识到,可以对如图3所示的示例性分裂方案进行变型,以提供由本申请涵盖的替代性分裂Cas12b部分。基于晶体结构数据和/或计算结构预测,可将确切的分割位置选择在图3中的分割位置附近。例如,分裂位置可以位于柔性区域内,如环。优选地,分裂位置发生在氨基酸序列的中断不会导致结构特征(例如,α-螺旋或β-折叠)的部分或完全破坏的地方。非结构化区域(未出现在晶体结构中的区域,因为这些区域的结构不足以“冻结”在晶体中)通常是首选。预期可以在暴露在参考Cas12b蛋白表面的非结构化区域中进行分裂。
在一些实施方案中,参考Cas12b蛋白不在参与与指导RNA、和/或靶RNA相互作用的氨基酸残基处或附近(例如,在约10、8、6、5、4、3、2或1个氨基酸残基以内)分裂。例如,AaCas12b蛋白的第4-9、118-122、143-144、442-446、573-574、742-746、753-754、792-796、800-819、835-839、897-900和973-978位氨基酸残基,参与与单链指导RNA和/或靶DNA的相互作用,其中编号基于SEQ ID NO:33。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC1、WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I和REC1结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II和RuvC-I结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH、REC2和RuvC-II结构域,以及参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的Nuc-I、RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH、REC2、RuvC-II和Nuc-I结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-III和Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I和RuvC-III结构域,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的Nuc-II结构域。
在一些实施方案中,参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间分裂,即分裂位置是在RuvC-I、BH或REC2结构域内,或在RuvC-I和BH结构域之间,或在BH和REC2结构域之间。
在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第516-793位氨基酸残基的氨基酸残基内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在与WED-II结构域和RuvC-I结构域毗邻的氨基酸残基处分裂。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第516-519位氨基酸残基的氨基酸残基内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在与BH结构域和REC2结构域毗邻的氨基酸残基处分裂。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第621-627位氨基酸残基的氨基酸残基内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在与REC2结构域和RuvC-II结构域毗邻的氨基酸残基处分裂。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第777-793位氨基酸残基的氨基酸残基内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在RCE2结构域内分裂。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第659-664、676-684或702-706位氨基酸残基的氨基酸残基内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。
在一些实施方案中,参考Cas12b蛋白在距离对应于AaCas12b蛋白的第518位氨基酸残基不超过约20个(例如,不超过约18、16、14、12、10、8、6、5、4、3、2或1中的任何一个)氨基酸残基以内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第518位氨基酸残基的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在距离对应于AaCas12b蛋白的第658位氨基酸残基不超过约20个(例如,不超过约18、16、14、12、10、8、6、5、4、3、2或1中的任何一个)氨基酸残基以内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第658位氨基酸残基的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在距离对应于AaCas12b蛋白的第783位氨基酸残基不超过约20个(例如,不超过约18、16、14、12、10、8、6、5、4、3、2或1中的任何一个)氨基酸残基以内的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白在对应于AaCas12b蛋白的第783位氨基酸残基的氨基酸残基处分裂,其中编号基于SEQ ID NO:33。
在一些实施方案中,参考Cas12b蛋白的N端部分包含AaCas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含AaCas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-658位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第659-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:3的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:4的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:3的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:4的氨基酸序列。
SEQ ID NO:3 AaCas12b NT21-658
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRC
SEQ ID NO:4 AaCas12b CT2659-1129
GSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
在一些实施方案中,参考Cas12b蛋白的N端部分包含Bs3Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含Bs3Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-650位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第651-1112位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:85。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:83的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ IDNO:84的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:83的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:84的氨基酸序列。
SEQ ID NO:83 Bs3 Cas12b NT1-650
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRL
SEQ ID NO:84 Bs3 Cas12b CT651-1112ETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
在一些实施方案中,参考Cas12b蛋白的N端部分包含TcCas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含TcCas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-671位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第672-1112位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:88。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:86的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:87的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:86的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:87的氨基酸序列。
SEQ ID NO:86 Tc Cas12b NT1-671
MNIHLKELIRMATKSFILKMKTKNNPQLRLSLWKTHELFNFGVAYYMDLLSLFRQKDLYMHNDEDPDHPVVLKKEEIQERLWMKVRETQQKNGFHGEVSKDEVLETLRALYEELVPSAVGKSGEANQISNKYLYPLTDPASQSGKGTANSGRKPRWKKLKEAGDPSWKDAYEKWEKERQEDPKLKILAALQSFGLIPLFRPFTENDHKAVISVKWMPKSKNQSVRKFDKDMFNQAIERFLSWESWNEKVAEDYEKTVSIYESLQKELKGISTKAFEIMERVEKAYEAHLREITFSNSTYRIGNRAIRGWTEIVKKWMKLDPSAPQGNYLDVVKDYQRRHPRESGDFKLFELLSRPENQAAWREYPEFLPLYVKYRHAEQRMKTAKKQATFTLCDPIRHPLWVRYEERSGTNLNKYRLIMNEKEKVVQFDRLICLNADGHYEEQEDVTVPLAPSQQFDDQIKFSSEDTGKGKHNFSYYHKGINYELKGTLGGARIQFDREHLLRRQGVKAGNVGRIFLNVTLNIEPMQPFSRSGNLQTSVGKALKVYVDGYPKVVNFKPKELTEHIKESEKNTLTLGVESLPTGLRVMSVDLGQRQAAAISIFEVVSEKPDDNKLFYPVKDTDLFAVHRTSFNIKLPGEKRTERRMLEQQKRDQAIRDLSRKLKFLKNVLNM
SEQ ID NO:87 Tc Cas12b CT672-1142
QKLEKTDEREKRVNRWIKDREREEENPVYVQEFEMISKVLYSPHSVWVDQLKSIHRKLEEQLGKEISKWRQSISQGRQGVYGISLKNIEDIEKTRRLLFRWSMRPENPGEVKQLQPGERFAIDQQNHLNHLKDDRIKKLANQIVMTALGYRYDGKRKKWIAKHPACQLVLFEDLSRYAFYDERSRLENRNLMRWSRREIPKQVAQIGGLYGLLVGEVGAQYSSRFHAKSGAPGIRCRVVKEHELYITEGGQKVRNQKFLDSLVENNIIEPDDARRLEPGDLIRDQGGDKFATLDERGELVITHADINAAQNLQKRFWTRTHGLYRIRCESREIKDAVVLVPSDKDQKEKMENLFGIGYLQPFKQENDVYKWVKGEKIKGKKTSSQSDDKELVSEILQEASVMADELKGNRKTLFRDPSGYVFPKDRWYTGGRYFGTLEHLLKRKLAERRLFDGGSSRRGLFNGTDSNTNVE
在前述的一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-783位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第784-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:5的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ ID NO:6的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:5的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:6的氨基酸序列。
SEQ ID NO:5 AaCas12b NT31-783
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQV
SEQ ID NO:6 AaCas12b CT3784-1129
IRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域,并且其中参考Cas12b蛋白的REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开。
在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的第1-518位氨基酸残基,并且参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第519-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。在一些实施方案中,参考Cas12b蛋白的N端部分包含与SEQ ID NO:1的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含与SEQ IDNO:2的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,参考Cas12b蛋白的N端部分包含SEQ ID NO:1的氨基酸序列,并且其中参考Cas12b蛋白的C端部分包含SEQ ID NO:2的氨基酸序列。
SEQ ID NO:1 AaCas12b NT11-518
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGER
SEQ ID NO:2 AaCas12b CT1519-1129
RPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
分裂点通常根据生物信息学设计并克隆到构建体中。两个分裂Cas12b部分,即N端和C端部分,一起形成功能性Cas12b蛋白,优选包含至少70%或更多的野生型氨基酸序列,如至少75%、80%%、85%、90%、95%、98%、99%或更多的野生型氨基酸序列。设想了一些修整和突变体。非功能域可能会被完全缺失。对于所有分裂Cas12b系统,可以将两个分裂Cas12b部分放在一起,并恢复或重建所需的Cas12b功能。
可以使用本领域已知的方法评估重构的Cas12b蛋白或CRISPR复合物(Cas12b+指导RNA复合物)的活性。例如,细胞内的核酸酶活性可以使用实施例1中描述的T7核酸内切酶I(T7EI)分析来评估。基因编辑活性也可以通过DNA测序来评估。
在一些实施方案中,参考Cas12b蛋白被分裂成多于两个部分。在一些实施方案中,参考Cas12b蛋白可被分裂成三个部分。在一些实施方案中,参考Cas12b蛋白可被分裂成四个部分。在一些实施方案中,参考Cas12b蛋白可被分裂成五个部分。在一些实施方案中,参考Cas12b蛋白可被分裂成六个部分。
二聚化结构域
分裂Cas12b多肽可以各自包含一个或多个二聚化结构域。在一些实施方案中,第一多肽包含融合至第一分裂Cas12b部分的第一二聚化结构域,并且第二多肽包含融合至第二分裂Cas12b部分的第二二聚化结构域。所述二聚化结构域可以通过肽接头(例如,柔性肽接头,如GS接头)或化学键融合到分裂Cas12b部分。在一些实施方案中,二聚化结构域融合到分裂Cas12b部分的N端。在一些实施方案中,二聚化结构域融合到分裂Cas12b部分的C端。
在一些实施方案中,分裂Cas12b多肽不包含任何二聚化结构域。
在一些实施方案中,二聚化结构域促进两个分裂Cas12b部分的结合。在一些实施方案中,分裂Cas12b部分被诱导剂诱导以结合或二聚化成为功能性Cas12b蛋白。在一些实施方案中,分裂Cas12b多肽包含可诱导的二聚化结构域。在一些实施方案中,二聚化结构域不是可诱导的二聚化结构域,即二聚化结构域在无诱导剂存在下二聚化。
诱导剂可以是诱导能量源或指导RNA以外的诱导分子(例如sgRNA)。诱导剂通过诱导二聚化结构域的二聚化,将两个分裂Cas12b部分重组为功能性Cas12b蛋白。在一些实施方案中,诱导剂通过可诱导二聚化结构域的诱导结合作用将两个分裂Cas12b部分结合在一起。在一些实施方案中,在无诱导剂存在下,两个分裂Cas12b部分不彼此结合以重构为功能性Cas12b蛋白。在一些实施方案中,在无诱导剂存在下,两个分裂Cas12b部分可以在指导RNA(例如,sgRNA)存在下彼此结合以重构为功能性Cas12b蛋白。
本申请的诱导剂可以是热能、超声波、电磁能或化合物。在一些实施方案中,诱导剂是抗生素、小分子、激素、激素衍生物、类固醇或类固醇衍生物。在一些实施方案中,诱导剂是脱落酸(ABA)、多西环素(DOX)、Cumate、雷帕霉素、4-羟基他莫昔芬(4OHT)、雌激素或蜕皮激素。在一些实施方案中,分裂Cas12b系统是选自下组的诱导剂控制系统:基于抗生素的诱导系统、基于电磁能的诱导系统、基于小分子的诱导系统、基于核受体的诱导系统和基于激素的诱导系统。在一些实施方案中,分裂Cas12b系统是选自下组的诱导剂控制系统:四环素(Tet)/DOX诱导系统、光诱导系统、ABA诱导系统、Cumate抑制物/操纵子系统、4OHT/雌激素诱导系统、基于蜕皮激素的诱导系统和FKBP12/FRAP(FKBP12-雷帕霉素复合物)诱导系统。此类诱导剂也在本文和PCT/US2013/051418中探讨,其通过引用以整体并入本文。FRB/FKBP/雷帕霉素系统已描述于Paulmurugan and Gambhir,Cancer Res,August 15,200565;7413;以及Crabtree et al.,Chemistry&Biology 13,99-107,Jan 2006,其通过引用以整体并入本文。
在一些实施方案中,其中第一多肽包含第一二聚化结构域并且第二多肽包含第二二聚化结构域,第一二聚化结构域和第二二聚化结构域在诱导剂存在下彼此缔合。在一些实施方案中,第一二聚化结构域是FK506结合蛋白(FKBP)并且第二二聚化结构域是FKBP-雷帕霉素结合结构域(FRB)。在一些实施方案中,第一二聚化结构域是FRB并且第二二聚化结构域是FKBP。在一些实施方案中,诱导剂是雷帕霉素。在一些实施方案中,FKBP结构域包含SEQ ID NO:31的氨基酸序列。在一些实施方案中,FRB结构域包含SEQ ID NO:32的氨基酸序列。
SEQ ID NO:31 FKBP结构域
MGVQVETISPGDGRTFPKRGQTCVVHYTGMLEDGKKFDSSRDRNKPFKFMLGKQEVIRGWEEGVAQMSVGQRAKLTISPDYAYGATGHPGIIPPHATLVFDVELLKLE
SEQ ID NO:32 FRB结构域
EMWHEGLEEASRLYFGERNVKGMFEVLEPLHAMMERGPQTLKETSFNQAYGRDLMEAQEWCRKYMKSGNVKDLTQAWDLYYHVFRRISKQ
在一些实施方案中,第一多肽从N端到C端包含:FKBP结构域、任选的肽接头和第一分裂Cas12b部分;第二多肽从N端到C端包含:FRB结构域、任选的肽接头和第二分裂Cas12b部分。在一些实施方案中,第一多肽从N端到C端包含:FKBP结构域、任选的肽接头和第一分裂Cas12b部分;并且第二多肽从N端到C端包含:第二分裂Cas12b部分、任选的肽接头和第二分裂Cas12b部分。在一些实施方案中,第一多肽从N端到C端包含:第一分裂Cas12b部分、任选的肽接头和FKBP结构域;并且第二多肽从N端到C端包含:FRB结构域、任选的肽接头和第二分裂Cas12b部分。在一些实施方案中,第一多肽从N端到C端包含:第一分裂Cas12b部分、任选的肽接头和FKBP结构域;并且第二多肽从N端到C端包含:第二分裂Cas12b部分、任选的肽接头和FRB结构域。还考虑了相对于上述构建体将第一分裂Cas12b部分与第二分裂Cas12b部分交换的构建体。
示例性诱导剂控制的分裂Cas12b系统包含具有与FRB结构域融合的N端分裂Cas12b部分的第一多肽和具有与FKBP结构域融合的C端分裂Cas12b部分的第二多肽,以及作为诱导剂的雷帕霉素,如图1所示。在一些实施方案中,第一多肽包含与SEQ ID NO:11的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中第二多肽包含与SEQ IDNO:12的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,第一多肽包含SEQ ID NO:11的氨基酸序列,并且其中第二多肽包含SEQ ID NO:12的氨基酸序列。在一些实施方案中,第一多肽包含与SEQ ID NO:13的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中第二多肽包含与SEQ ID NO:14的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,第一多肽包含SEQ ID NO:13的氨基酸序列,并且其中第二多肽包含SEQ ID NO:14的氨基酸序列。在一些实施方案中,第一多肽包含与SEQ ID NO:15的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列,并且其中第二多肽包含与SEQ ID NO:16的氨基酸序列具有至少约85%(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%中的任何一个)序列同一性的氨基酸序列。在一些实施方案中,第一多肽包含SEQ ID NO:15的氨基酸序列,并且其中第二多肽包含SEQ ID NO:16的氨基酸序列。
在一些实施方案中,工程化的CRISPR-Cas系统由足够量的雷帕霉素诱导并持续合适的时间。在一些实施方案中,雷帕霉素诱导可持续数天。在一些实施方案中,雷帕霉素诱导持续约1、2、3、4、5、6、7、8、9、10、11、12、13、14或15天。用于诱导工程化的CRISPR-Cas系统的雷帕霉素的合适量,可以是至少约5nM、25nM、50nM、75nM、100nM、125nM、150nM、175nM、200nM、250nM、300nM、400nM或500nM中的任一种。在一些实施方案中,用于诱导工程化的CRISPR-Cas系统的雷帕霉素的合适量,不超过约500nM、400nM、300nM、250nM、200nM、175nM、150nM、125nM、100nM、75nM、50nM、25nM、5nM或更少中的任一种。在一些实施方案中,雷帕霉素以约100nM应用并持续约60小时,例如,对于人胚肾293T(HEK293T)细胞系。可以推断体外雷帕霉素诱导量和持续时间,以用于体内治疗用途。然而,还设想此处也使用用于向受试者施用雷帕霉素的标准剂量。“标准剂量”是指雷帕霉素在正常治疗用途或主要适应症下的剂量(即雷帕霉素用于预防器官排斥时的给药剂量)。
在一些实施方案中,这对分裂Cas12b多肽是分开的并且是无活性的,直到二聚化结构域(例如,FRB和FKBP)被诱导二聚化,这导致功能性Cas12b核酸酶的重新组装。在一些实施方案中,包含诱导型二聚体第一半(例如,FRB)的第一分裂Cas12b多肽,与包含诱导型二聚体第二半(例如,FKBP)的第二分裂Cas12b多肽分开递送和/或分别定位。
可用于本文所述的诱导剂控制的分裂Cas12b系统的其他示例性基于FKBP的诱导系统,包括但不限于:在FK506存在下与钙调磷酸酶A(CNA)二聚化的FKBP;在FKCsA存在下与CyP-Fas二聚化的FKBP;在雷帕霉素存在下与FRB二聚化的FKBP;在香豆霉素存在下与GryB二聚化的GyrB;在赤霉素存在下与GID1二聚化的GAI;或在HaXS存在下与HaloTag二聚化的Snap-标签。
还考虑了FKBP家族本身内部的替代品。例如,在FK1012存在下,FKBP同二聚化(即一个FKBP与另一个FKBP二聚化)。
在一些实施方案中,二聚化结构域是FKBP,并且诱导剂是FK1012。在一些实施方案中,二聚化结构域是GryB,并且诱导剂是香豆霉素。在一些实施方案中,二聚化结构域是ABA,并且诱导剂是赤霉素。
在一些实施方案中,分裂Cas12b部分可以是自动诱导的(即,自动激活的或自诱导的),以在无诱导剂存在下缔合/二聚化成为功能性Cas12b蛋白。不受任何理论或假设的束缚,分裂Cas12b部分的自动诱导可通过结合至指导RNA(如sgRNA)来介导。在一些实施方案中,第一多肽和第二多肽不包含二聚化结构域。在一些实施方案中,第一多肽和第二多肽包含二聚化结构域。
在一些实施方案中,本文描述的分裂Cas12b系统(包括诱导剂控制和自动诱导系统)的重组Cas12b蛋白,具有参考Cas12b蛋白的至少70%(如至少约70%、75%、80%、85%、90%、95%、98%、99%或更高效率,或100%效率中的至少一个)的编辑效率。
在一些实施方案中,本文所述的诱导剂控制的分裂Cas12b系统的重组Cas12b蛋白,在没有诱导剂(即由于自动诱导)的参考Cas12b蛋白的编辑效率的情况下,其编辑效率不超过50%(如不超过50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更低效率或0%效率中的任何一个)。
额外的蛋白结构域和组件
除了分裂Cas12b部分和任选的二聚化结构域之外,分裂Cas12b多肽可以包含额外的蛋白结构域和/或组件,如接头、核定位/输出序列和/或报告蛋白。
在一些实施方案中,本申请提供了一种分离Cas12b系统,该系统具有一个或多个(例如,1、2、3、4、5、6个或更多)功能域,其与一个或两者分裂Cas12b部分缔合(即,结合或融合)。功能域可以作为第一和/或第二分裂Cas12b多肽的一部分提供,作为在该构建体内的融合物。功能域通常通过肽接头(如GS接头)融合到分裂Cas12b多肽中的其他部分(例如,分裂Cas12b部分)。示例性接头序列是SRGGSGSSGGSGGSGGSG(SEQ ID NO:71)。在一些实施方案中,功能域可具有选自的下组一种或多种活性:甲基化酶活性、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、DNA整合活性或核酸结合活性。在一些实施方案中,一个或多个功能域是转录激活结构域(即,反式激活结构域)或抑制结构域。在一些实施方案中,一个或多个功能域是组蛋白修饰域。在一些实施方案中,一个或多个功能域是转座酶结构域、HR(同源重组)体系结构域、重组酶结构域和/或整合酶结构域。尽管不同的结构域可以在单个分裂Cas12b系统中相互组合,但优选所有功能域都是活化剂或抑制剂。在一些实施方案中,参考Cas12b蛋白是无酶活性的。功能域可用于重新利用基于催化性死亡的Cas12b的分裂Cas12b系统的功能。
在一些实施方案中,第一多肽还包含融合至参考Cas12b蛋白N端部分的功能域,和/或第二多肽还包含融合至参考Cas12b蛋白C端部分的功能域。在一些实施方案中,第一多肽包含第一功能域,且第二多肽包含第二功能域。在一些实施方案中,只有一个或第一多肽和第二多肽包含一个或多个功能域。在一些实施方案中,功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
在一些实施方案中,第一多肽包含融合至参考Cas12b蛋白N端部分的反式激活结构域,和/或第二多肽包含融合至参考Cas12b蛋白C端部分的反式激活结构域。在一些实施方案中,第一多肽包含第一反式激活结构域,并且第二多肽包含第二反式激活结构域。在一些实施方案中,第一反式激活结构域与第二反式激活结构域相同。在一些实施方案中,第一反式激活结构域和第二反式激活结构域不同。在一些实施方案中,反式激活结构域融合到分裂Cas12b部分的N端。在一些实施方案中,反式激活结构域融合到分裂Cas12b部分的C端。在一些实施方案中,反式激活结构域选自:VP64、p65、HSF1、VP16、MyoD1、HSF1、RTA、SET7/9及其组合。在一些实施方案中,反式激活结构域包含VP64、p65和HSF1。
例如,图5显示了可用于靶核酸(例如,靶DNA)的序列特异性转录激活的示例性诱导剂控制的分裂Cas12b系统。该示例性系统包含第一多肽和第二多肽,其中所述第一多肽从N端到C端包含:包含VP64、p65和HSFl的反式激活结构域、第一任选接头和第一分裂Cas12b部分(例如,N端Cas12b部分)、第二任选接头和FRB结构域;且其中所述第二多肽从N端到C端包含:FKBP结构域、第一任选接头、第二分裂Cas12b部分(例如,C端Cas12b部分)、第二任选接头和包含VP64、p65和HSF1的反式激活结构域。第一分裂Cas12b部分和第二Cas12b部分在与指导RNA结合后重组为无酶活性的Cas12b蛋白(dCas12b),形成CRISPR复合物。在一些实施方案中,dCas12b的重建需要促进FRB和FKBP结构域二聚化的诱导剂,如雷帕霉素。在CRISPR复合物与靶DNA结合后,序列特异性转录激活由VP64、p65和HSF1结构域诱导。考虑了该示例性分裂Cas12b系统的变体,其中FRB和FKBP结构域对于自动诱导系统可以省略,并且分裂Cas12b部分、反式激活结构域和任选的二聚化结构域在每个多肽内的相对顺序可能不同于那些示于图5的顺序。
图7显示了可用于靶核酸(例如,靶DNA)的序列特异性转录激活的示例性自动诱导分裂Cas12b系统。该示例性系统包含第一多肽和第二多肽,其中所述第一多肽从N端到C端包含:包含VP64、p65和HSFl的反式激活结构域、第一任选接头和第一分裂Cas12b部分(例如,N端Cas12b部分),第二任选接头,以及包含VP64、p65和HSF1的反式激活结构域;并且其中所述第二多肽从N端到C端包含:包含VP64、p65和HSF1的反式激活结构域、第一任选接头、第二分裂Cas12b部分(例如,C端Cas12b部分)、第二任选接头,以及包含VP64、p65和HSF1的反式激活结构域。CRISPR复合体的重建不需要诱导剂。
在一些实施方案中,第一多肽包含融合至参考Cas12b蛋白N端部分的转录抑制结构域,和/或第二多肽包含融合至参考Cas12b蛋白C端部分的转录抑制结构域。在一些实施方案中,第一多肽包含第一转录抑制结构域,并且第二多肽包含第二转录抑制结构域。在一些实施方案中,第一转录抑制结构域与第二转录抑制结构域相同。在一些实施方案中,第一转录抑制结构域和第二转录抑制结构域不同。在一些实施方案中,转录抑制结构域融合到分裂Cas12b部分的N端。在一些实施方案中,转录抑制结构域融合到分裂Cas12b部分的C端。在一些实施方案中,功能域是转录抑制结构域。在一些实施方案中,转录抑制剂选自:Krüppel相关盒(KRAB)、EnR、NuE、NcoR、SID和SID4X。
例如,图6显示了可用于靶核酸(例如,靶DNA)的序列特异性转录抑制的示例性分裂Cas12b系统。该示例性系统包含第一多肽和第二多肽,其中所述第一多肽从N端到C端包含:KRAB结构域、第一任选接头和第一分裂Cas12b部分(例如,N端Cas12b部分)、第二任选接头和FRB结构域;并且所述第二多肽从N端到C端包含:FKBP结构域、第一任选接头、第二分裂Cas12b部分(例如,C端Cas12b部分)、第二任选接头和KRAB结构域。第一分裂Cas12b部分和第二Cas12b部分在与指导RNA结合后重组为无酶活性的Cas12b蛋白(dCas12b),形成CRISPR复合物。在一些实施方案中,dCas12b的重建需要促进FRB和FKBP结构域二聚化的诱导剂,如雷帕霉素。在CRISPR复合物与靶DNA结合后,KRAB结构域会诱导序列特异性转录抑制。考虑了该示例性分裂Cas12b系统的变体,其中FRB和FKBP结构域对于自动诱导系统可以省略,并且分裂Cas12b部分、转录抑制结构域和任选的二聚化结构域在每个多肽中的相对顺序可能不同于那些示于图6的顺序。
图8显示了可用于靶核酸(例如,靶DNA)的序列特异性转录激活的示例性自动诱导分裂Cas12b系统。该示例性系统包含第一多肽和第二多肽,其中所述第一多肽从N端到C端包含:KRAB结构域、第一任选接头和第一分裂Cas12b部分(例如,N端Cas12b部分)、第二任选接头和KRAB结构域;并且所述第二多肽从N端到C端包含:KRAB结构域、第一任选接头、第二分裂Cas12b部分(例如,C端Cas12b部分)、第二任选接头和KRAB结构域。CRISPR复合体的重建不需要诱导剂。
在一些实施方案中,分裂Cas12b多肽包含一个或多个核定位序列(NLSs)和/或一个或多个核输出序列(NESs)。
在一些实施方案中,第一多肽和/或第二多肽还包含核定位信号(NLS)。示例性的NLS序列包括,例如,PKKKRKVPG(SEQ ID NO:34)和ASPKKKRKV(SEQ ID NO:35)。在一些实施方案中,一个或多个(例如,两个或三个)NLSs可用于可操作地连接至第一分裂Cas12b部分和任选地第一二聚化结构域。在一些实施方案中,一个或多个(例如,两个或三个)NLSs可用于可操作地连接至第二分裂Cas12b部分和任选地第二二聚化结构域。在一些实施方案中,一个或多个(例如,两个或三个)NESs可用于可操作地连接至第一分裂Cas12b部分和任选地第一二聚化结构域。在一些实施方案中,一个或多个(例如,两个或三个)NESs可用于可操作地连接至第二分裂Cas12b部分和任选地第二二聚化结构域。NLSs和/或NESs优选位于分裂Cas12b部分的侧翼,即,一个NLS可以位于第一分裂Cas12b部分的N端,并且一个NLS可以位于第一分裂Cas12b部分的C端。类似地,一个NES可以位于第二分裂Cas12b部分的N端,并且一个NES可以位于第二分裂Cas12b部分的C端。
在一些实施方案中,NES起作用以将第二Cas12b融合构建体定位于细胞核外,至少直到提供诱导剂为止(例如,至少直到向诱导剂提供能源以执行其功能)。诱导剂的存在刺激了两个分裂Cas12b多肽在细胞质内的二聚化,并使二聚化的第一和第二分裂Cas12b多肽在热力学上值得定位到细胞核。熟练的技术人员可以使用NES和/或NLS将平衡(核运输的平衡)移动到所需的方向。
在一些实施方案中,第一分裂Cas12b多肽和/或第二分裂Cas12b多肽包含报告蛋白,如荧光蛋白,例如GFP。这样的系统可以允许对基因组位点进行成像(参见,例如,“Dynamic Imaging of Genomic Loci in Living Human Cells by an OptimizedCRISPR/Cas System”Chen B et al.Cell 2013)。在一些实施方案中,分裂Cas12b系统是可用于对基因组位点成像的诱导系统。
指导RNA
本申请的分裂Cas12b系统可以包含任意合适的指导RNA。指导RNA(gRNA)可以包含能够与目标靶核酸中的靶序列(如细胞中的目标基因组位点)杂交的指导序列。在一些实施方案中,指导RNA包含CRISPR RNA(crRNA)分子和反式激活CRISPR RNA (tracrRNA)分子。在一些实施方案中,分裂Cas12b系统是双RNA系统,包含crRNA和tracrRNA。在一些实施方案中,指导RNA是单链指导RNA(sgRNA)。在一些实施方案中,sgRNA包含含有指导序列的crRNA序列。在一些实施方案中,sgRNA包含tracrRNA序列。在一些实施方案中,sgRNA包含与crRNA序列融合的tracrRNA序列。
在一些实施方案中,gRNA是靶向多于一种靶核酸的多重gRNA。在一些实施方案中,gRNA包含多个(例如,2、3、4、5、6个或更多)crRNA序列,其中每个crRNA序列包含不同的靶序列。
指导序列可以具有合适的长度。在一些实施方案中,指导序列介于约18至约35个核苷酸之间,包括例如18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸中的任一种。指导序列可与靶核酸的靶序列具有至少约70%、75%、80%、85%、90%、95%、98%、99%或100%的互补性。
在一些实施方案中,gRNA包含对应于参考Cas12b蛋白的同源crRNA序列和/或tracrRNA序列。在一些实施方案中,gRNA包含在参考Cas12b蛋白的CRISPR基因座中未天然发现的非同源crRNA序列和/或tracrRNA序列。例如,AaCas12b、AkCas12b、AmCas12b、BhCas12b、BsCas12b、Bs3Cas12b、LsCas12b和SbCas12b的同源tracrRNA和crRNA序列,以及示例性sgRNA序列已描述于Teng F.et al.,Cell Discovery(2019)5:23的图S4和图S8,其通过引用整体并入本文。
在一些实施方案中,tracrRNA包含如下的核酸序列:5’GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGCUCGCUCAGUGUUCUGAC-3’(SEQ ID NO:36)。在一些实施方案中,crRNA包含如下的核酸序列:5’-GUCGGAUCACUGAGCGAGCGAUCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:37),其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,且其中X是18-35之间的整数。在一些实施方案中,X是20。在一些实施方案中,Nx包含指导序列。
在一些实施方案中,sgRNA包含选自以下的核酸序列:
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGCUCGCUCAGUGUUCUGACGUCGGAUCACUGAGCGAGCGAUCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:38);
5’-AACUGUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGCUCGCUCAGUGUUCUGACGUCGGAUCACUGAGCGAGCGAUCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:39);
5’-CUGUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGCUCGCUCAGUGUUCUGACGUCGGAUCACUGAGCGAGCGAUCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:40);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGCUCGCUCAGUGUUAUCACUGAGCGAGCGAUCUGAGAAGUGGCAC-Nx-3’(SEQ IDNO:41);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGAUCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:42);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:43);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAGCUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:44);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAACUGAGAAGUGGCAC-Nx-3’(SEQ ID NO:45);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUCAAGCGAGAAGUGGCAC-Nx-3’(SEQ ID NO:46);
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCUAAGCAGAAGUGGCAC-Nx-3’(SEQ ID NO:47);和
5’-GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAACUUCAAGCGAAGUGGCAC-Nx-3’(SEQ ID NO:48);
其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。在一些实施方案中,X是20。在一些实施方案中,Nx包含指导序列。Cas12b蛋白的其他示例性sgRNA骨架已公开于例如WO2019/127087,其通过引用整体并入本文。
在一些实施方案中,sgRNA从5'到3'包含:第一茎环、第二茎环、第三茎环和第四茎环。在一些实施方案中,sgRNA包含人工sgRNA骨架13(artsgRNA13)。在一些实施方案中,sgRNA包括如下所示的核酸序列:5’GUCGUCUAUAGGACGGCGAGUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAGCUUCAAGAAGUGGCAC-Nx-3’(SEQ ID NO:7),或5’GUCGUCUAUAGGACGGCGAGUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAGCUUCAAAGAAGUGGCAC-Nx-3’(SEQ ID NO:96);其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。
在一些实施方案中,指导RNA是截短的sgRNA,其包含tracrRNA序列和包含指导序列的crRNA序列,并且其中与包含野生型tracrRNA序列和对应于参考Cas12b蛋白的野生型crRNA序列的全长sgRNA相比,截短的sgRNA缺少一个或多个茎环。全长sgRNA可包含各种数量的茎环。举例来说,如图9所示,全长sgRNA从5'到3'可以包括:第一茎环、第二茎环、第三茎环和第四茎环。不受任何理论或假设的束缚,据信一个或多个茎环可介导分裂Cas12b多肽的自动诱导。
示例性截短的sgRNA骨架如图10所示。在一些实施方案中,截短的sgRNA缺少第一茎环。在一些实施方案中,所述sgRNA包含artsgRNA13Δloop1。在一些实施方案中,所述sgRNA包含如下的核酸序列:5’CAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGAGCUUCAAGAAGUGGCAC-Nx-3’(SEQ ID NO:8),或5’CAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUG AGCUUCAAAGAAGUGGCAC-Nx-3’(SEQ ID NO:97);其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。在一些实施方案中,X是20。
在一些实施方案中,截短的sgRNA缺少第二茎环。在一些实施方案中,所述sgRNA包含artsgRNA13Δloop2。在一些实施方案中,所述sgRNA包含如下的核酸序列:5’GUCGUCUAUAGGACGGCGAGUUUUUGUGCCAAUGGCCACUUUCCA GGUGGCAAAAGCUUCAAGAAGUGGCAC-Nx-3’(SEQ IDNO:9),或5’GUCGUCUAUAGGACGGCGAGUUUUUGUGCCAAUGGCCACUUUCCAGGUGGCAAAAGCUUCAAAGAAGUGGCAC-Nx-3’(SEQ ID NO:98);其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。在一些实施方案中,X是20。
在一些实施方案中,截短的sgRNA缺少第三茎环。在一些实施方案中,所述sgRNA包含artsgRNA13Δloop3。在一些实施方案中,所述sgRNA包含如下的核酸序列:5’GUCGUCUAUAGGACGGCGAGUUUUUCAACGGGUGUGCCCGUUGA GCUUCAAGAAGUGGCAC-Nx-3’(SEQ ID NO:10),或5’GUCGUCUAUAGGACGGCGAGUUUUUCAACGGGUGUGCCCGUUGA GCUUCAAAGAAGUGGCAC-Nx-3’(SEQID NO:99);其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。在一些实施方案中,X是20。
在一些实施方案中,sgRNA包含如下的核酸序列:5’GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUU UCCAGGUGGCAAAGCCCGUUGAACUUCUCAAAAAGAACGCUCGCUC AGUGUUCUGACGUCGGAUCACUGAGCGAGCGAUCUGAGAAGUGGCA C-Nx-3’(SEQ ID NO:100),其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。
在一些实施方案中,sgRNA包含如下的核酸序列:5'GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCGUUGAACUUCAAGCGAAGUGGCAC-Nx-3'(SEQ ID NO:101),其中Nx表示具有x个连续核苷酸的核酸序列,其中每个N独立地选自A、G、C或U,并且其中X是18-35之间的整数。
在一些实施方案中,截短的sgRNA缺少第四茎环。在一些实施方案中,截短的sgRNA缺少四个茎环中的一个或多个(例如,2个或3个)。
在一些实施方案中,截短的sgRNA能够诱导Cas12b的分裂部分形成功能性Cas12b。在一些实施方案中,截短的sgRNA能够在无任何诱导剂存在下诱导Cas12b的分裂部分形成功能性Cas12b。
在一些实施方案中,截短的sgRNA能够与Cas12b的分裂部分结合,在诱导剂存在下形成功能性CRISPR复合物。这种截短的sgRNA骨架可与本文所述的诱导剂控制的分裂Cas12b系统结合使用,这可以减少脱靶编辑并允许更精确地控制分裂Cas12b系统。
构建体和载体
本文还提供了分裂Cas12b构建体、载体和表达系统,其编码本文描述的CRISPR-Cas系统的一个或多个组件,如分裂Cas12b多肽和/或gRNAs(例如,sgRNAs)。
在一些实施方案中,提供包含编码第一分裂Cas12b多肽的核酸序列的第一载体。在一些实施方案中,提供包含编码第二分裂Cas12b多肽的核酸序列的第二载体。在一些实施方案中,提供包含编码指导RNA(例如,sgRNA)的核酸序列的第三载体。在一些实施方案中,CRISPR-Cas系统包含第一载体、第二载体和第三载体。在一些实施方案中,CRISPR-Cas系统包含第一载体、第二载体和指导RNA。在一些实施方案中,指导RNA由第一载体或第二载体编码。在一些实施方案中,CRISPR-Cas系统包含编码第一分裂Cas12b多肽、第二分裂Cas12b多肽和指导RNA的单一载体。
“载体”是物质的组合物,其包含分离的核酸并且可用于将该分离的核酸递送至细胞内部。许多载体在本领域是已知的,包括但不限于:线性多核苷酸、与离子或两性化合物相关的多核苷酸、质粒和病毒。通常,合适的载体包含在至少一种生物体中有功能的复制起点、启动子序列、方便的限制性核酸内切酶位点和一个或多个选择标记。术语“载体”还应解释为包括非质粒和非病毒化合物,其促进核酸转移到细胞中,例如聚赖氨酸化合物、脂质体等。
在一些实施方案中,载体是病毒载体。病毒载体的实例包括但不限于:腺病毒载体、腺相关病毒载体、慢病毒载体、逆转录病毒载体、牛痘载体、单纯疱疹病毒载体及其衍生物。病毒载体技术在本领域中是众所周知的,并且例如描述在Sambrook et al.(2001,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor Laboratory,New York),以及其他病毒学和分子生物学手册中。
已经开发了许多基于病毒的系统用于将基因转移到哺乳动物细胞中。例如,逆转录病毒为基因传递系统提供了一个方便的平台。可以使用本领域已知的技术将异源核酸插入载体中并包装在逆转录病毒颗粒中。然后可以分离重组病毒,并在体外或离体将其递送至工程化的哺乳动物细胞。许多逆转录病毒系统是本领域已知的。在一些实施方案中,使用腺病毒载体。许多腺病毒载体是本领域已知的。在一些实施方案中,使用慢病毒载体。在一些实施方案中,使用自灭活慢病毒载体。
已经付出了大量努力来递送带有腺相关病毒(AAVs)的CRISPR-Cas。AAV很普遍并在血清学上与大部分人群相容(Gao,G.et al.Clades of Adeno-associated viruses arewidely disseminated in human tissues.Journal of virology 78,6381-6388(2004);Boutin,S.et al.Prevalence of serum IgG and neutralizing factors againstadeno-associated virus(AAV)types 1,2,5,6,8,and9in the healthy population:implications for gene therapy using AAV vectors.Hum Gene Ther 21,704-712(2010)),并且通常不被认为是致病的。此外,AAVs允许可程序化的组织向性和全身性递送(Zincarelli,C,Soltys,S.,Rengo,G.&Rabinowitz,J.E.Analysis of AAV serotypes 1-9mediated gene expression and tropism in mice after systemic injection.MolTher 16,1073-1080(2008))。已经描述了AAV-CRISPR-Cas9通过纠正小鼠遗传缺陷的临床前前景(Ran,F.A.et al.In vivo genome editing using Staphylococcus aureusCas9.Nature 520,186-191(2015);Nelson,C.E.et al.In vivo genome editingimproves muscle function in a mouse model of Duchenne musculardystrophy.Science 351,403-407(2016);Tabebordbar,M.et al.In vivo gene editingin dystrophic mouse muscle and muscle stem cells.Science 351,407-411(2016);Long,C.et al.Postnatal genome editing partially restores dystrophinexpression in a mouse model of muscular dystrophy.Science 351,400-403(2016);Yang,Y.et al.A dual AAV system enables the Cas9-mediated correction of ametabolic liver disease in newborn mice.Nature biotechnology(2016);Yin,H.etal.Therapeutic genome editing by combined viral and non-viral delivery ofCRISPR system components in vivo.Nature biotechnology(2016))。任何一种已知的用于递送Cas9和其他Cas蛋白的AAV载体,均可用于递送本申请的分裂Cas12b系统。
通过AAV载体递送CRISPR-Cas系统是受限的,部分原因是大型Cas转基因在当前设计中为附加功能赋予元件留下的空间很小(AAV有效负载限制<4.7kb)。例如,最广泛地使用但更大的化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9,4.2kb)加剧了这一障碍,这使得即使是最小功能盒的包装也极具挑战性。本申请的分裂Cas12b系统优于本领域其他已知的CRISPR-Cas系统,因为分裂Cas12b系统通过将参考Cas12b蛋白分裂成两个或更多部分而具有大大减小的转基因大小,这有助于使用AAV载体进行递送。此外,分裂Cas12b系统释放了AAV载体中的空间,这允许递送包含与分裂Cas12b部分融合的额外功能域的多肽,这对于转录调控和其他序列特异性基因修饰很有用。
将载体引入哺乳动物细胞的方法是本领域已知的。可以通过物理、化学或生物学方法将载体转移到宿主细胞中。
将载体引入宿主细胞的物理方法包括磷酸钙沉淀、脂质转染、粒子轰击、显微注射、电穿孔等。用于产生包含载体和/或外源核酸的细胞的方法是本领域众所周知的。参见,例如,Sambrook et al.(2001)Molecular Cloning:A Laboratory Manual,Cold SpringHarbor Laboratory,New York。在一些实施方案中,通过电穿孔将载体引入细胞。
将异源核酸引入宿主细胞的生物学方法包括使用DNA和RNA载体。病毒载体已成为将基因插入哺乳动物(例如人类细胞)中最广泛使用的方法。
将载体引入宿主细胞的化学方法包括胶体分散系统,如大分子复合物、纳米胶囊、微球、珠子和基于脂质的系统(包括水包油乳液、胶束、混合胶束和脂质体)。用作体外递送载体的示例性胶体系统是脂质体(例如,人工膜囊泡)。
在一些实施方案中,编码CRISPR-Cas系统或其组件的载体或表达系统包含一个或多个可选择或可检测的标记,其提供分离或有效选择包含CRISPR-Cas系统和/或已被CRISPR-Cas系统修饰的细胞的手段,例如,在早期阶段以及大规模。
在一些实施方案中,分裂Cas12b构建体可以编码额外的组件,如报告蛋白。在一些实施方案中,每个分裂Cas12b构建体编码荧光蛋白,如GFP或RFP。报告蛋白可用于评估分裂Cas12b多肽的共定位和/或二聚化,例如,使用显微镜。编码分裂Cas12b多肽的核酸序列,可以使用编码自切割肽(如T2A、P2A、E2A或F2A肽)的序列融合到编码额外组件的核酸序列。
报告基因可用于识别潜在的转染细胞和评估调节序列的功能。通常,报告基因是不存在于或表达于受体生物体或组织中的基因,且其编码一种其表达通过一些容易检测的特性(例如酶活性)来表明的多肽。在将DNA引入受体细胞后的适当时间测定报告基因的表达。合适的报道基因可包括编码荧光素酶、β-半乳糖苷酶、氯霉素乙酰转移酶、分泌型碱性磷酸酶或绿色荧光蛋白的基因(例如,Ui-Tei et al.FEBS Letters 479:79-82(2000))。
确认宿主细胞中异源核酸存在的其他方法包括,例如,本领域技术人员熟知的分子生物学测定,例如Southern和Northern印迹、RT-PCR和PCR;生化测定,如检测特定肽的存在或不存在,例如通过免疫学方法(如ELISA和蛋白质印迹)。
在一些实施方案中,编码第一分裂Cas12b多肽、第二分裂Cas12b多肽和/或指导RNA的核酸序列各自可操作地连接至启动子。在一些实施方案中,启动子是相对于使用分裂Cas12b系统进行工程化的细胞的内源启动子。例如,可以使用本领域已知的任何方法将编码分裂Cas12b多肽的核酸敲入内源启动子下游的工程化的哺乳动物细胞的基因组。在一些实施方案中,内源性启动子是丰富蛋白(如β-肌动蛋白)的启动子。在一些实施方案中,内源启动子是诱导型启动子,例如,可由工程化的哺乳动物细胞的内源激活信号诱导。在一些实施方案中,其中工程化的哺乳动物细胞是T细胞,启动子是T细胞活化依赖性启动子(如IL-2启动子、NFAT启动子或NFκB启动子)。
在一些实施方案中,启动子是相对于使用分裂Cas12b系统进行工程化的细胞的异源启动子。已经探索了多种启动子用于哺乳动物细胞中的基因表达,并且本领域已知的任何启动子都可以用于本申请。启动子可大致分为组成型启动子或调控启动子,如诱导型启动子。
在一些实施方案中,编码分裂Cas12b多肽和/或指导RNA的核酸序列可操作地连接至组成型启动子。组成型启动子允许异源基因(也称为转基因)在宿主细胞中组成型表达。本文考虑的示例性组成型启动子,包括但不限于:巨细胞病毒(CMV)启动子、人延伸因子-1α(hEF1α)、泛素C启动子(UbiC)、磷酸甘油激酶启动子(PGK)、猴病毒40早期启动子(SV40),以及鸡β-肌动蛋白启动子与CMV早期增强子(CAGG)结合。在一些实施方案中,启动子是包含巨细胞病毒(CMV)早期增强子元件的CAG启动子、启动子、鸡β-肌动蛋白基因的第一外显子和第一内含子,以及兔β-珠蛋白基因的剪接受体。示例性工程化的分裂Cas12b构建体显示在图2和5-8中,其中CAG启动子用于表达分裂Cas12b多肽。
在一些实施方案中,编码分裂Cas12b多肽和/或指导RNA的核酸序列可操作地连接至诱导型启动子。诱导型启动子属于调节型启动子类别。诱导型启动子可由一种或多种条件诱导,如物理条件、微环境或宿主细胞的生理状态、诱导剂(即诱导试剂)或其组合。在一些实施方案中,诱导条件选自下组:诱导剂、辐射(如电离辐射、光)、温度(如热)、氧化还原状态、肿瘤环境和将被分裂Cas12b系统工程化的改造的细胞的激活状态。在一些实施方案中,启动子可由小分子诱导剂(如化合物)诱导。在一些实施方案中,小分子选自:强力霉素、四环素、乙醇、金属或类固醇。化学诱导的启动子得到了最广泛的探索。此类启动子包括其转录活性受小分子化学物质(如强力霉素、四环素、乙醇、类固醇、金属或其他化合物)的存在或不存在调节的启动子。具有四环素控制的反式激活因子(rtTA)和四环素反应元件启动子(TRE)的强力霉素诱导系统是目前最成熟的系统。WO9429442描述了四环素反应性启动子对真核细胞中基因表达的严格控制。WO9601313公开了四环素调节的转录调节剂。此外,Tet技术,如Tet-on系统,已在例如TetSystems.com的网站上进行了描述。任何已知的化学调节启动子都可以用于驱动本申请中分裂Cas12b多肽和/或指导RNA的表达。
还提供了本文所述的任何一种工程化的多肽和指导RNA。
使用CRISPR-Cas系统的方法
本申请的一方面提供了使用本文所述的任何一种CRISPR-Cas系统在体外、离体或体内检测靶核酸或修饰核酸的方法,以及使用所述CRISPR-Cas系统治疗或诊断的方法。还提供了本文所述的CRISPR-Cas系统用于检测或修饰细胞中的核酸以及用于治疗或诊断受试者的疾病或病症的用途;以及包含CRISPR-Cas系统的一种或多种组件的组合物用于制备检测或修饰细胞中的核酸以及治疗或诊断受试者的疾病或病症的药物的用途。
在一些实施方案中,本申请提供了一种检测或修饰靶核酸的方法,包括使靶核酸与本文所述的任何一种工程化的CRISPR-Cas系统接触,其中指导RNA的指导序列与靶核酸的靶序列互补,其中第一多肽、第二多肽和指导RNA相互缔合以结合靶核酸,从而检测或修饰靶核酸。在一些实施方案中,靶核酸在细胞中。在一些实施方案中,该方法在体内进行。在一些实施方案中,该方法离体进行。在一些实施方案中,靶核酸不在细胞中。在一些实施方案中,该方法在体外进行。
在一些实施方案中,提供了一种检测细胞中靶核酸的方法,包括使靶核酸与工程化的CRISPR-Cas系统接触,该系统包含:(a)包含参考Cas12b蛋白N端部分的第一多肽,(b)包含参考Cas12b蛋白C端部分的第二多肽,和(c)包含与靶核酸的靶序列互补的指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:WED-I、REC1、WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白是无酶促活性的;其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;且其中第一多肽、第二多肽和指导RNA能够彼此缔合形成CRIPSR复合物,所述CRIPSR复合物特异性结合细胞内的靶核酸,从而检测细胞内的靶核酸。在一些实施方案中,第一多肽包含第一标记,并且第二多肽包含第二标记,并且其中第一标记和第二标记的同时检测(即,共定位)允许检测细胞中的靶核酸。在一些实施方案中,第一标记和/或第二标记是荧光标记,例如荧光蛋白。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,第一多肽包含第一二聚化结构域,并且第二多肽包含第二二聚化结构域。在一些实施方案中,该方法还包括使靶核酸与诱导剂接触。在一些实施方案中,该方法不包括使靶核酸与诱导剂接触。在一些实施方案中,第一多肽、第二多肽和/或指导RNA通过一种或多种病毒载体(例如AAV载体)递送至细胞。
本文描述的分裂Cas12b系统可以以多种方式修饰细胞中的靶核酸。在一些实施方案中,该方法在靶核酸中诱导位点特异性切割。在一些实施方案中,该方法切割细胞(如细菌细胞、植物细胞或动物细胞(例如,哺乳动物细胞))中的基因组DNA。在一些实施方案中,该方法通过切割细胞中的基因组DNA来杀死细胞。在一些实施方案中,该方法切割细胞中的病毒核酸。
在一些实施方案中,提供了一种在细胞中切割靶核酸的方法,包括使靶核酸与工程化的CRISPR-Cas系统接触,该系统包含:(a)包含参考Cas12b蛋白的N端部分的第一多肽,(b)包含参考Cas12b蛋白的C端部分的第二多肽,和(c)包含与靶核酸的靶序列互补的指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:WED-I、REC1、WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白是切割双螺旋核酸的单链或双链的核酸酶;其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第一多肽、第二多肽和指导RNA能够相互缔合形成CRIPSR复合物,该复合物特异性结合并切割细胞中的靶核酸。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白质的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,第一多肽包含第一二聚化结构域,并且第二多肽包含第二二聚化结构域。在一些实施方案中,该方法还包括使靶核酸与诱导剂接触。在一些实施方案中,该方法不包括使靶核酸与诱导剂接触。在一些实施方案中,第一多肽、第二多肽和/或指导RNA通过一种或多种病毒载体(例如AAV载体)递送至细胞。
在一些实施方案中,该方法改变(如增加或减少)靶核酸在细胞中的表达水平。在一些实施方案中,该方法增加靶核酸在细胞中的表达水平,例如,使用包含基于与反式激活结构域融合的酶促失活的Cas12b蛋白的分裂Cas12b部分的分裂Cas12b系统。在一些实施方案中,该方法降低细胞中靶核酸的表达水平,例如使用包含基于与转录抑制结构域融合的酶促失活的Cas12b蛋白的分裂Cas12b部分的分裂Cas12b系统。在一些实施方案中,该方法将表观遗传修饰引入至细胞中的靶核酸,例如,使用包含基于与表观遗传修饰结构域融合的无酶促活性的Cas12b蛋白的分裂Cas12b部分的分裂Cas12b系统。取决于由分裂Cas12b多肽包含的功能域,本文描述的分裂Cas12b系统可用于向靶核酸引入其他修饰。
在一些实施方案中,提供了改变细胞中靶核酸表达水平的方法,包括使靶核酸与工程化的CRISPR-Cas系统接触,该系统包含:(a)包含与第一功能域融合的参考Cas12b蛋白的N端部分的第一多肽,(b)包含与第二功能域融合的参考Cas12b蛋白的C端部分的第二多肽,和(c)包含与靶核酸的靶序列互补的指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:WED-I、REC1、WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白是无酶促活性的;其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第一多肽、第二多肽和指导RNA能够相互缔合形成CRIPSR复合物,该复合物特异性结合细胞中的靶核酸;其中第一功能域和第二功能域改变靶核酸的表达水平。在一些实施方案中,第一功能域和第二功能域是反式激活结构域,其中该方法增加靶核酸的表达水平。在一些实施方案中,反式激活结构域选自:VP64、p65、HSF1、VP16、MyoD1、HSF1、RTA、SET7/9及其组合。在一些实施方案中,第一功能域和第二功能域是转录抑制结构域,其中该方法降低靶核酸的表达水平。在一些实施方案中,转录抑制结构域选自:(KRAB)、EnR、NuE、NcoR、SID和SID4X。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,第一多肽包含第一二聚化结构域,并且第二多肽包含第二二聚化结构域。在一些实施方案中,该方法还包括使靶核酸与诱导剂接触。在一些实施方案中,该方法不包括使靶核酸与诱导剂接触。在一些实施方案中,第一多肽、第二多肽和/或指导RNA通过一种或多种病毒载体(例如AAV载体)递送至细胞。
在一些实施方案中,该方法改变细胞中靶核酸的靶序列。在一些实施方案中,该方法向细胞中的靶核酸引入突变。在一些实施方案中,该方法在细胞中使用一种或多种内源性DNA修复途径如非同源末端连接(NHEJ)或同源定向重组(HDR),以修复由于CRISPR复合体序列特异性切割导致的靶DNA中诱导的双链断裂。示例性突变包括但不限于:插入、缺失、替换和移码。在一些实施方案中,该方法在靶基因座处插入供体DNA。在一些实施方案中,供体DNA的插入导致将选择标记或报告蛋白引入细胞。在一些实施方案中,供体DNA的插入导致基因的敲入。在一些实施方案中,供体DNA的插入导致敲除突变。在一些实施方案中,供体DNA的插入导致替换突变,如单核苷酸替换。在一些实施方案中,该方法诱导细胞的表型变化。
在一些实施方案中,提供了一种在细胞中编辑靶核酸的方法,包括使靶核酸与工程化的CRISPR-Cas系统接触,该系统包含:(a)包含参考Cas12b蛋白的N端部分的第一多肽,(b)包含参考Cas12b蛋白的C端部分的第二多肽,和(c)包含与靶核酸中的靶序列互补的指导序列的指导RNA;其中参考Cas12b蛋白从N端到C端包含:WED-I、REC1、WED-II、RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白具有酶促活性(例如,切割双螺旋核酸的单链或双链的核酸酶);其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;其中第一多肽、第二多肽和指导RNA能够相互缔合形成CRIPSR复合物,该复合物特异性结合并切割细胞内靶核酸中的靶序列;并且其中在靶序列的切割位点引入了突变。在一些实施方案中,突变(例如,插入-缺失、替换或移码突变)由NHEJ引入。在一些实施方案中,突变由HR引入。在一些实施方案中,该方法还包括使细胞与供体DNA接触,其中供体DNA被插入靶序列的切割位点。在一些实施方案中,参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌的Cas12b蛋白(AaCas12b)、Bh3Cas12b或TcCas12b或其功能衍生物。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。在一些实施方案中,第一多肽包含第一二聚化结构域,并且第二多肽包含第二二聚化结构域。在一些实施方案中,该方法还包括使靶核酸与诱导剂接触。在一些实施方案中,该方法不包括使靶核酸与诱导剂接触。在一些实施方案中,第一多肽、第二多肽、指导RNA和/或供体DNA通过一种或多种病毒载体(例如AAV载体)递送至细胞。
在一些实施方案中,提供了一种组装功能性Cas12b的方法,包括使靶核酸与本文所述的任何一种工程化的分裂Cas12b系统接触,其中指导RNA的指导序列与靶核酸的靶序列互补,其中第一多肽、第二多肽和指导RNA彼此缔合以结合靶核酸,从而组装功能性Cas12b。在一些实施方案中,接触是在诱导剂存在下进行的。在一些实施方案中,接触是没有诱导剂的。
在一些实施方案中,提供了诱导工程化的分裂Cas12b系统的核酸酶(例如,双螺旋核酸的单链或两条链的切割)活性的方法,包括使靶核酸与本文描述的任一种工程化的分裂Cas12b系统接触,其中指导RNA的指导序列与靶核酸的靶序列互补,其中第一多肽、第二多肽和指导RNA彼此缔合以结合靶核酸,从而诱导工程化的Cas 12b系统的核酸酶活性。在一些实施方案中,接触是在诱导剂存在下进行的。在一些实施方案中,接触是没有诱导剂的。
在一些实施方案中,工程化的CRISPR-Cas系统用作遗传回路的一部分,或用于将遗传回路插入细胞的基因组DNA中。本文描述的诱导剂控制的工程化的CRISPR-Cas系统作为遗传回路的一个组成部分可能特别有用。在一些实施方案中,诱导剂控制的工程化的CRISPR-Cas系统与减少自动诱导的截短sgRNA组合使用。遗传回路可用于基因治疗。设计和使用遗传回路的方法和技术是本领域已知的。可以进一步参考例如Brophy,Jennifer AN,and Christopher A.Voigt."Principles of genetic circuit design."Nature methods11.5(2014):508。
本文所述的工程化的CRISPR-Cas系统可用于修饰各种各样的靶核酸。在一些实施方案中,靶核酸在细胞中。在一些实施方案中,靶核酸是基因组DNA。在一些实施方案中,靶核酸是染色体外DNA。在一些实施方案中,靶核酸对于细胞是外源的。在一些实施方案中,靶核酸是病毒核酸,如病毒DNA。在一些实施方案中,靶核酸是细胞中的质粒。在一些实施方案中,靶核酸是水平转移的质粒。在一些实施方案中,靶核酸是RNA。
在一些实施方案中,靶核酸是分离的核酸,如分离的DNA。在一些实施方案中,靶核酸存在于无细胞环境中。在一些实施方案中,靶核酸是分离的载体,如质粒。在一些实施方案中,靶核酸是分离的线性DNA片段。
本文描述的方法适用于任意合适的细胞类型。在一些实施方案中,细胞是细菌、酵母细胞、真菌细胞、藻类细胞、植物细胞或动物细胞(例如,哺乳动物细胞,如人类细胞)。在一些实施方案中,细胞是从天然来源分离的细胞,如组织活检。在一些实施方案中,细胞是从体外培养的细胞系分离的细胞。在一些实施方案中,细胞来自原代细胞系。在一些实施方案中,细胞来自永生化细胞系。在一些实施方案中,细胞是基因工程细胞。
在一些实施方案中,细胞是来自选自下组的生物体的动物细胞:牛、绵羊、山羊、马、猪、鹿、鸡、鸭、鹅、兔和鱼。
在一些实施方案中,细胞是来自选自下组的生物体的植物细胞:玉米、小麦、大麦、燕麦、水稻、大豆、油棕、红花、芝麻、烟草、亚麻、棉花、向日葵、珍珠粟、谷子、高粱、油菜籽、大麻、蔬菜作物、饲料作物、经济作物、木质作物和生物质作物。
在一些实施方案中,细胞是哺乳动物细胞。在一些实施方案中,细胞是人细胞。在一些实施方案中,人细胞是人胚肾293T(HEK293T或293T)细胞或HeLa细胞。在一些实施方案中,细胞是人胚肾(HEK293T)细胞。在一些实施方案中,哺乳动物细胞选自:免疫细胞、肝细胞、肿瘤细胞、干细胞、受精卵、肌肉细胞和皮肤细胞。
在一些实施方案中,细胞是选自下组的免疫细胞:细胞毒性T细胞、辅助性T细胞、自然杀伤(NK)T细胞、iNK-T细胞、NK-T样细胞、γδT细胞、肿瘤浸润性T细胞和树突状细胞(DC)激活的T细胞。在一些实施方案中,该方法产生修饰的免疫细胞,如CAR-T细胞或TCR-T细胞。
在一些实施方案中,细胞是胚胎干(ES)细胞、诱导的多能干(iPS)细胞、生殖细胞的祖细胞、生殖细胞、受精卵或胚胎中的细胞。
本文描述的方法可用于在体内、离体或体外修饰靶细胞,并且可以以改变细胞的方式进行,使得一旦修饰,则修饰细胞的后代或细胞系保留改变的表型。修饰的细胞和后代可以是多细胞生物体如具有离体或体内应用(例如基因组编辑和基因治疗)的植物或动物的一部分。
在一些实施方案中,该方法离体进行。在一些实施方案中,在将工程化的CRISPR-Cas系统引入细胞后,离体繁殖修饰的细胞(例如,哺乳动物细胞)。在一些实施方案中,修饰的细胞被培养以繁殖至少约1天、2天、3天、4天、5天、6天、7天、10天、12天或14天中的任一个。在一些实施方案中,修饰的细胞培养不超过约1天、2天、3天、4天、5天、6天、7天、10天、12天或14天中的任一个。在一些实施方案中,进一步评估或筛选经修饰的细胞以选择具有一种或多种所需表型或特性的细胞。
在一些实施方案中,靶序列是与疾病或病症相关的序列。示例性的疾病或病症,包括但不限于:癌症、心血管疾病、遗传性疾病、自身免疫性疾病、代谢性疾病、神经退行性疾病、眼部疾病、细菌感染和病毒感染。在一些实施方案中,疾病或病症是遗传病。在一些实施方案中,疾病或病症是单基因疾病或病症。在一些实施方案中,疾病或病症是多基因疾病或病症。
在一些实施方案中,靶序列与野生型序列相比具有突变。在一些实施方案中,靶序列具有与疾病或病症相关的单核苷酸多态性(SNP)。
在一些实施方案中,插入到靶核酸中的供体DNA编码选自下组的生物产物:报告蛋白、抗原特异性受体、治疗性蛋白、抗生素抗性蛋白、RNAi分子、细胞因子、激酶、抗原、抗原特异性受体、细胞因子受体和自杀多肽。在一些实施方案中,供体DNA编码治疗性蛋白。在一些实施方案中,供体DNA编码可用于基因治疗的治疗性蛋白。在一些实施方案中,供体DNA编码治疗性抗体。在一些实施方案中,供体DNA编码工程化的受体,如嵌合抗原受体(CAR)或工程化的TCR。在一些实施方案中,供体DNA编码治疗性RNA,如小RNA(例如,siRNA、shRNA或miRNA)或长非编码RNA(lincRNA)。
本文所述的方法可用于在两个或更多个(例如,2、3、4、5、6、8、10个或更多个)不同的靶基因座处进行多重基因编辑或调节。在一些实施方案中,该方法检测或修饰多个靶核酸或靶核酸序列。在一些实施方案中,该方法包括使靶核酸与包含多个(例如,2、3、4、5、6、8、10或更多)crRNA序列的指导RNA接触,其中每个crRNA包含不同的靶序列。
还提供了包含修饰的靶核酸的工程化的细胞,其是使用本文所述的任何一种方法产生的。工程化的细胞可用于细胞治疗。使用本文所述的细胞治疗方法,自体或同种异体细胞可用于制备工程化的细胞。
本文描述的方法也可用于产生等基因细胞系(例如,哺乳动物细胞)以研究遗传变异。
还提供了包含本文所述工程化细胞的工程化的非人类动物。在一些实施方案中,工程化的非人类动物是基因组编辑的非人类动物。工程化的非人类动物可用作疾病模型。
用于产生非人类基因组编辑的或转基因动物的技术是本领域众所周知的,并且包括但不限于:原核显微注射、病毒感染以及胚胎干细胞和诱导多能干细胞(iPS)的转化。可以使用的详细方法,包括但不限于Sundberg and Ichiki(2006,Genetically EngineeredMice Handbook,CRC Press)和Gibson(2004,APrimer Of Genome Science 2nded.Sunderland,Mass.:Sinauer)中描述的那些。
工程化的动物可以是任意合适的物种,包括但不限于,如牛科动物、马科动物、羊、犬科动物、鹿科动物、猫科动物、山羊、猪、灵长类动物,以及不太常见的哺乳动物,如大象、鹿、斑马或骆驼。
还提供了使用本文描述的修饰细胞中靶核酸的任何一种方法的治疗方法,以及使用本文描述的检测靶核酸的任何一种方法的诊断方法。
在一些实施方案中,本申请提供了一种治疗与个体细胞中的靶核酸相关的疾病或病症的方法,包括使靶核酸与本文所述的任何一种工程化的CRISPR-Cas系统接触,其中指导RNA的指导序列与靶核酸的靶序列互补,其中第一多肽、第二多肽和指导RNA彼此缔合以结合靶核酸以修饰靶核酸,从而治疗疾病或病症。在一些实施方案中,突变(例如敲除或敲入突变)被引入靶核酸。在一些实施方案中,靶核酸的表达被增强。在一些实施方案中,靶核酸的表达被抑制。
在一些实施方案中,本申请提供了一种治疗个体疾病或病症的方法,包括向个体施用有效量的本文所述的任何一种工程化的CRISPR-Cas系统和编码治疗剂的供体DNA,其中指导RNA的指导序列与个体的靶核酸的靶序列互补,其中第一多肽、第二多肽和指导RNA彼此缔合以结合靶核酸并将供体DNA插入靶序列中,从而治疗疾病或病症。
在一些实施方案中,本申请提供了治疗个体疾病或病症的方法,包括向个体施用有效量的包含修饰的靶核酸的工程化的细胞,其中通过将细胞与本文所述的任何一种工程化的CRISPR-Cas系统接触来制备工程化的细胞,其中指导RNA的指导序列与靶核酸的靶序列互补,其中第一多肽、第二多肽和指导RNA彼此缔合以结合到靶核酸以修饰靶核酸。在一些实施方案中,工程化的细胞是免疫细胞。
在一些实施方案中,个体是人类。在一些实施方案中,个体是动物,例如模型动物,如啮齿动物、宠物或农场动物。在一些实施方案中,个体是哺乳动物。
在一些实施方案中,疾病或病症选自:癌症、心血管疾病、遗传性疾病、自身免疫性疾病、代谢性疾病、神经退行性疾病、眼部疾病、细菌感染和病毒感染。在一些实施方案中,靶核酸是PCSK9。在一些实施方案中,疾病或病症是心血管疾病。在一些实施方案中,疾病或病症是冠状动脉疾病。
在一些实施方案中,本申请提供了降低个体胆固醇水平的方法,包括向个体施用有效量的任何一种上述工程化的CRISPR-Cas系统,其中第一多肽和/或第二多肽包含转录抑制剂,其中所述指导RNA的指导序列与PCSK9的靶序列互补,其中第一多肽、第二多肽和指导RNA相互缔合以结合PCSK9的靶序列,从而抑制PCSK9在个体中的表达。在一些实施方案中,该方法治疗个体的糖尿病。
试剂盒和制品
还提供了组合物、试剂盒、单位剂量和制品,其包含本文描述的任何一种工程化的CRISPR-Cas系统的一种或多种组件。
在一些实施方案中,提供了一种试剂盒,其包含:(1)编码本文描述的任何一个工程化的CRISPR-Cas系统的第一分裂Cas12b多肽的第一AAV载体;(2)编码工程CRISPR-Cas系统的第二分裂Cas12b多肽的第二AAV载体。在一些实施方案中,该试剂盒还包含一种或多种指导RNA。在一些实施方案中,该试剂盒还包含供体DNA。在一些实施方案中,试剂盒还包含诱导剂,如雷帕霉素。在一些实施方案中,试剂盒还包含细胞。在一些实施方案中,所述细胞是人胚肾(HEK293T)细胞。
试剂盒可含有一种或多种附加组件,如容器、试剂、培养基、细胞因子、缓冲液、抗体等,以允许工程化的细胞的繁殖。试剂盒还可以包含用于施用组合物的装置。
该试剂盒可以还包含使用本文描述的工程化的CRISPR-Cas系统的说明,如检测或修饰靶核酸的方法。在一些实施方案中,试剂盒包含用于治疗或诊断疾病或病症的说明书。与试剂盒组件的使用相关的说明,通常包括有关预期的治疗的剂量、给药方案和给药途径的信息。容器可以是单位剂量、散装包装(例如,多剂量包装)或亚单位剂量。例如,可提供包含足够剂量的如本文所公开的组合物的试剂盒,以在延长的时期内对个体提供有效治疗。试剂盒还可以包括组合物的多个单位剂量和使用说明,其包装数量足以在药房(例如,医院药房和复合药房)中储存和使用。
本申请的试剂盒处于合适的包装中。合适的包装,包括但不限于:小瓶、瓶子、广口瓶、软包装(例如,密封的聚酯薄膜或塑料袋)等。试剂盒可以选择性地提供额外的组件,如缓冲液和解释信息。因此,本申请还提供了制品,其包括小瓶(如密封小瓶)、瓶子、广口瓶、软包装等。
制品可包括容器和在容器上或与容器相关联的标签或包装插页。合适的容器包括例如瓶子、小瓶、注射器等。容器可由多种材料制成,如玻璃或塑料。一般而言,容器装有可有效治疗本文所述疾病或病症的组合物,并可具有无菌入口(例如,容器可以是静脉注射溶液袋,或具有可被皮下注射针刺穿的塞子的小瓶)。标签或包装插页表明该组合物用于治疗个体的特定病症。标签或包装插页将还包含将组合物施用于个体的说明。
包装插页是指通常包含在治疗产品的商业包装中的说明,其包含有关此类治疗产品的适应症、用法、剂量、给药、禁忌症和/或警告的信息。
此外,制品还可包含第二容器,其包含药学上可接受的缓冲液,如抑菌注射用水(BWFI)、磷酸盐缓冲盐水、林格氏溶液和葡萄糖溶液。它可以还包括从商业和用户的角度所需的其他材料,包括其他缓冲液、稀释剂、过滤器、针头和注射器。
实施例
下面的实施例纯粹是本申请的示例,因此不应被认为以任何方式限制本申请。以下实施例和详细描述是通过说明而非限制的方式提供的。
实施例1:示例性分裂Cas12b系统的开发
此实施例描述了可用于基因组编辑的示例性分裂Cas12b系统的开发。图1阐明了示例性分裂Cas12b系统的示意图。制备了基于AaCas12b(SEQ ID NO:33)、Bs3Cas12b(SEQID NO:85)和TcCas12b(SEQ ID NO:88)的分裂Cas12b蛋白构建体。
材料和方法
构建体
DNA操作,包括DNA制备、消化、连接、扩增、纯化、琼脂糖凝胶电泳等,根据Molecular Cloning:A Laboratory Manual操作并进行一些修改。从Teng F.et al.,CellDiscovery,4,Article number:63(2018)中报道的全长AaCas12b载体克隆分裂AaCas12b编码序列片段,并使用高保真DNA组装预混液(HiFi DNA Assembly Master Mix)(NEB)通过体外同源重组组装成表达载体。
图3显示了三个分裂AaCas12b系统的分裂示意图,其中箭头指示全长AaCas12b蛋白序列上的三个分裂位置。具体而言,分裂1在AaCas12b蛋白的第518位氨基酸残基处或同系物或直系同源物中的相应位置处分裂。分裂2在AaCas12b蛋白的第658位氨基酸残基处或同系物或直系同源物中的相应位置处分裂。分裂3在AaCas12b蛋白的第783位氨基酸残基或同系物或直系同源物中的相应位置处分裂。
制备了具有分裂位置1(分裂1AaCas12b,SEQ ID NO:1-2)、分裂位置2(分裂2AaCas12b,SEQ ID NO:3-4)和分裂位置3(分裂3AaCas12b,SEQ ID NO:5-6)且没有二聚化结构域的分裂AaCas12b蛋白的构建体。此外,制备了没有二聚化结构域的分裂2Bh3Cas12b蛋白(SEQ ID NO:83-84)和分裂2TcCas12b蛋白(SEQ ID NO:86-87)。
图2显示了雷帕霉素诱导型分裂Cas12b系统的示意图,其中分裂Cas12b蛋白与诱导型二聚化结构域融合。SEQ ID NO:11-16显示了各种分裂AaCas12b蛋白的氨基酸序列(Cas12b序列加粗,且FRB/FKBP序列加下划线)。SEQ ID NO:17-22显示了编码各种分裂AaCas12b蛋白的构建体的核苷酸序列。
SEQ ID NO:23显示编码人工sgRNA13骨架的核苷酸序列(U6启动子-sgRNA骨架-间隔区-终止子)。
SEQ ID NO:11分裂1 AaCas12b NT1-FRB(N-片段)(NLS-Cas12b NT11-518-FRB-NLS)
SEQ ID NO:12分裂1 AaCas12b CT1-FKBP(C-片段)(NLS-FKBP-Cas12b CT1519-1129-NLS)
SEQ ID NO:13分裂2 AaCas12b NT2-FRB(N-片段)(NLS-Cas12b NT21-658-FRB-NLS)
SEQ ID NO:14分裂2 AaCas12b CT2-FKBP(C-片段)(NLS-FKBP-Cas12b CT2659-1129-NLS)
SEQ ID NO:15分裂3 AaCas12b NT3-FRB(N-片段)(NLS-Cas12b NT31-783-FRB-NLS)
SEQ ID NO:16分裂3 AaCas12b CT3-FKBP(C-片段)(NLS-FKBP-Cas12b CT3784-1129-NLS)
SEQ ID NO:17分裂1 AaCas12b NT1-FRB(N-片段)(NLS-Cas12b NT11-1554-FRB-NLS)
CCCAAGAAGAAGCGCAAGGTGcccgggATGGCCGTGAAGAGCATGAAGGTGAAGCTGCGCCTGGACAACATGCCCGAGATCCGCGCCGGCCTGTGGAAGCTGCACACCGAGGTGAACGCCGGCGTGCGCTACTACACCGAGTGGCTGAGCCTGCTGCGCCAGGAGAACCTGTACCGCCGCAGCCCCAACGGCGACGGCGAGCAGGAGTGCTACAAGACCGCCGAGGAGTGCAAGGCCGAGCTGCTGGAGCGCCTGCGCGCCCGCCAGGTGGAGAACGGCCACTGCGGCCCCGCCGGCAGCGACGACGAGCTGCTGCAGCTGGCCCGCCAGCTGTACGAGCTGCTGGTGCCCCAGGCCATCGGCGCCAAGGGCGACGCCCAGCAGATCGCCCGCAAGTTCCTGAGCCCCCTGGCCGACAAGGACGCCGTGGGCGGCCTGGGCATCGCCAAGGCCGGCAACAAGCCCCGCTGGGTGCGCATGCGCGAGGCCGGCGAGCCCGGCTGGGAGGAGGAGAAGGCCAAGGCCGAGGCCCGCAAGAGCACCGACCGCACCGCCGACGTGCTGCGCGCCCTGGCCGACTTCGGCCTGAAGCCCCTGATGCGCGTGTACACCGACAGCGACATGAGCAGCGTGCAGTGGAAGCCCCTGCGCAAGGGCCAGGCCGTGCGCACCTGGGACCGCGACATGTTCCAGCAGGCCATCGAGCGCATGATGAGCTGGGAGAGCTGGAACCAGCGCGTGGGCGAGGCCTACGCCAAGCTGGTGGAGCAGAAGAGCCGCTTCGAGCAGAAGAACTTCGTGGGCCAGGAGCACCTGGTGCAGCTGGTGAACCAGCTGCAGCAGGACATGAAGGAGGCCAGCCACGGCCTGGAGAGCAAGGAGCAGACCGCCCACTACCTGACCGGCCGCGCCCTGCGCGGCAGCGACAAGGTGTTCGAGAAGTGGGAGAAGCTGGACCCCGACGCCCCCTTCGACCTGTACGACACCGAGATCAAGAACGTGCAGCGCCGCAACACCCGCCGCTTCGGCAGCCACGACCTGTTCGCCAAGCTGGCCGAGCCCAAGTACCAGGCCCTGTGGCGCGAGGACGCCAGCTTCCTGACCCGCTACGCCGTGTACAACAGCATCGTGCGCAAGCTGAACCACGCCAAGATGTTCGCCACCTTCACCCTGCCCGACGCCACCGCCCACCCCATCTGGACCCGCTTCGACAAGCTGGGCGGCAACCTGCACCAGTACACCTTCCTGTTCAACGAGTTCGGCGAGGGCCGCCACGCCATCCGCTTCCAGAAGCTGCTGACCGTGGAGGACGGCGTGGCCAAGGAGGTGGACGACGTGACCGTGCCCATCAGCATGAGCGCCCAGCTGGACGACCTGCTGCCCCGCGACCCCCACGAGCTGGTGGCCCTGTACTTCCAGGACTACGGCGCCGAGCAGCACCTGGCCGGCGAGTTCGGCGGCGCCAAGATCCAGTACCGCCGCGACCAGCTGAACCACCTGCACGCCCGCCGCGGCGCCCGCGACGTGTACCTGAACCTGAGCGTGCGCGTGCAGAGCCAGAGCGAGGCCCGCGGCGAGCGCtctagaGGCGGCAGCGGCAGCAGCGGCGGCAGCGGCGGCAGCGGCGGCAGCGGCGAGATGTGGCACGAGGGCCTGGAGGAGGCCAGCCGCCTGTACTTCGGCGAGCGCAACGTGAAGGGCATGTTCGAGGTGCTGGAGCCCCTGCACGCCATGATGGAGCGCGGCCCCCAGACCCTGAAGGAGACCAGCTTCAACCAGGCCTACGGCCGCGACCTGATGGAGGCCCAGGAGTGGTGCCGCAAGTACATGAAGAGCGGCAACGTGAAGGACCTGACCCAGGCCTGGGACCTGTACTACCACGTGTTCCGCCGCATCAGCAAGCAGgctagcCCCAAGAAGAAGCGCAAGGTG
SEQ ID NO:18分裂1 AaCas12b CT1-FKBP(C-片段)(NLS-FKBP-Cas12bCT11555-3387-NLS)
CCCAAGAAGAAGCGCAAGGTGcccgggATGGGCGTGCAGGTGGAGACCATCAGCCCCGGCGACGGCCGCACCTTCCCCAAGCGCGGCCAGACCTGCGTGGTGCACTACACCGGCATGCTGGAGGACGGCAAGAAGTTCGACAGCAGCCGCGACCGCAACAAGCCCTTCAAGTTCATGCTGGGCAAGCAGGAGGTGATCCGCGGCTGGGAGGAGGGCGTGGCCCAGATGAGCGTGGGCCAGCGCGCCAAGCTGACCATCAGCCCCGACTACGCCTACGGCGCCACCGGCCACCCCGGCATCATCCCCCCCCACGCCACCCTGGTGTTCGACGTGGAGCTGCTGAAGCTGGAGGGCGGCAGCGGCGGCAGCGGCGGCGGCAGCGGCGGCGGCcttaagCGCCCCCCCTACGCCGCCGTGTTCCGCCTGGTGGGCGACAACCACCGCGCCTTCGTGCACTTCGACAAGCTGAGCGACTACCTGGCCGAGCACCCCGACGACGGCAAGCTGGGCAGCGAGGGCCTGCTGAGCGGCCTGCGCGTGATGAGCGTGGACCTGGGCCTGCGCACCAGCGCCAGCATCAGCGTGTTCCGCGTGGCCCGCAAGGACGAGCTGAAGCCCAACAGCGAGGGCCGCGTGCCCTTCTGCTTCCCCATCGAGGGCAACGAGAACCTGGTGGCCGTGCACGAGCGCAGCCAGCTGCTGAAGCTGCCCGGCGAGACCGAGAGCAAGGACCTGCGCGCCATCCGCGAGGAGCGCCAGCGCACCCTGCGCCAGCTGCGCACCCAGCTGGCCTACCTGCGCCTGCTGGTGCGCTGCGGCAGCGAGGACGTGGGCCGCCGCGAGCGCAGCTGGGCCAAGCTGATCGAGCAGCCCATGGACGCCAACCAGATGACCCCCGACTGGCGCGAGGCCTTCGAGGACGAGCTGCAGAAGCTGAAGAGCCTGTACGGCATCTGCGGCGACCGCGAGTGGACCGAGGCCGTGTACGAGAGCGTGCGCCGCGTGTGGCGCCACATGGGCAAGCAGGTGCGCGACTGGCGCAAGGACGTGCGCAGCGGCGAGCGCCCCAAGATCCGCGGCTACCAGAAGGACGTGGTGGGCGGCAACAGCATCGAGCAGATCGAGTACCTGGAGCGCCAGTACAAGTTCCTGAAGAGCTGGAGCTTCTTCGGCAAGGTGAGCGGCCAGGTGATCCGCGCCGAGAAGGGCAGCCGCTTCGCCATCACCCTGCGCGAGCACATCGACCACGCCAAGGAGGACCGCCTGAAGAAGCTGGCCGACCGCATCATCATGGAGGCCCTGGGCTACGTGTACGCCCTGGACGACGAGCGCGGCAAGGGCAAGTGGGTGGCCAAGTACCCCCCCTGCCAGCTGATCCTGCTGGAGGAGCTGAGCGAGTACCAGTTCAACAACGACCGCCCCCCCAGCGAGAACAACCAGCTGATGCAGTGGAGCCACCGCGGCGTGTTCCAGGAGCTGCTGAACCAGGCCCAGGTGCACGACCTGCTGGTGGGCACCATGTACGCCGCCTTCAGCAGCCGCTTCGACGCCCGCACCGGCGCCCCCGGCATCCGCTGCCGCCGCGTGCCCGCCCGCTGCGCCCGCGAGCAGAACCCCGAGCCCTTCCCCTGGTGGCTGAACAAGTTCGTGGCCGAGCACAAGCTGGACGGCTGCCCCCTGCGCGCCGACGACCTGATCCCCACCGGCGAGGGCGAGTTCTTCGTGAGCCCCTTCAGCGCCGAGGAGGGCGACTTCCACCAGATCCACGCCGACCTGAACGCCGCCCAGAACCTGCAGCGCCGCCTGTGGAGCGACTTCGACATCAGCCAGATCCGCCTGCGCTGCGACTGGGGCGAGGTGGACGGCGAGCCCGTGCTGATCCCCCGCACCACCGGCAAGCGCACCGCCGACAGCTACGGCAACAAGGTGTTCTACACCAAGACCGGCGTGACCTACTACGAGCGCGAGCGCGGCAAGAAGCGCCGCAAGGTGTTCGCCCAGGAGGAGCTGAGCGAGGAGGAGGCCGAGCTGCTGGTGGAGGCCGACGAGGCCCGCGAGAAGAGCGTGGTGCTGATGCGCGACCCCAGCGGCATCATCAACCGCGGCGACTGGACCCGCCAGAAGGAGTTCTGGAGCATGGTGAACCAGCGCATCGAGGGCTACCTGGTGAAGCAGATCCGCAGCCGCGTGCGCCTGCAGGAGAGCGCCTGCGAGAACACCGGCGACATCgctagcCCCAAGAAGAAGCGCAAGGTG
SEQ ID NO:19分裂2 AaCas12b NT2-FRB(N-片段)(NLS-Cas12b NT21-1974-FRB-NLS)
CCCAAGAAGAAGCGCAAGGTGcccgggATGGCCGTGAAGAGCATGAAGGTGAAGCTGCGCCTGGACAACATGCCCGAGATCCGCGCCGGCCTGTGGAAGCTGCACACCGAGGTGAACGCCGGCGTGCGCTACTACACCGAGTGGCTGAGCCTGCTGCGCCAGGAGAACCTGTACCGCCGCAGCCCCAACGGCGACGGCGAGCAGGAGTGCTACAAGACCGCCGAGGAGTGCAAGGCCGAGCTGCTGGAGCGCCTGCGCGCCCGCCAGGTGGAGAACGGCCACTGCGGCCCCGCCGGCAGCGACGACGAGCTGCTGCAGCTGGCCCGCCAGCTGTACGAGCTGCTGGTGCCCCAGGCCATCGGCGCCAAGGGCGACGCCCAGCAGATCGCCCGCAAGTTCCTGAGCCCCCTGGCCGACAAGGACGCCGTGGGCGGCCTGGGCATCGCCAAGGCCGGCAACAAGCCCCGCTGGGTGCGCATGCGCGAGGCCGGCGAGCCCGGCTGGGAGGAGGAGAAGGCCAAGGCCGAGGCCCGCAAGAGCACCGACCGCACCGCCGACGTGCTGCGCGCCCTGGCCGACTTCGGCCTGAAGCCCCTGATGCGCGTGTACACCGACAGCGACATGAGCAGCGTGCAGTGGAAGCCCCTGCGCAAGGGCCAGGCCGTGCGCACCTGGGACCGCGACATGTTCCAGCAGGCCATCGAGCGCATGATGAGCTGGGAGAGCTGGAACCAGCGCGTGGGCGAGGCCTACGCCAAGCTGGTGGAGCAGAAGAGCCGCTTCGAGCAGAAGAACTTCGTGGGCCAGGAGCACCTGGTGCAGCTGGTGAACCAGCTGCAGCAGGACATGAAGGAGGCCAGCCACGGCCTGGAGAGCAAGGAGCAGACCGCCCACTACCTGACCGGCCGCGCCCTGCGCGGCAGCGACAAGGTGTTCGAGAAGTGGGAGAAGCTGGACCCCGACGCCCCCTTCGACCTGTACGACACCGAGATCAAGAACGTGCAGCGCCGCAACACCCGCCGCTTCGGCAGCCACGACCTGTTCGCCAAGCTGGCCGAGCCCAAGTACCAGGCCCTGTGGCGCGAGGACGCCAGCTTCCTGACCCGCTACGCCGTGTACAACAGCATCGTGCGCAAGCTGAACCACGCCAAGATGTTCGCCACCTTCACCCTGCCCGACGCCACCGCCCACCCCATCTGGACCCGCTTCGACAAGCTGGGCGGCAACCTGCACCAGTACACCTTCCTGTTCAACGAGTTCGGCGAGGGCCGCCACGCCATCCGCTTCCAGAAGCTGCTGACCGTGGAGGACGGCGTGGCCAAGGAGGTGGACGACGTGACCGTGCCCATCAGCATGAGCGCCCAGCTGGACGACCTGCTGCCCCGCGACCCCCACGAGCTGGTGGCCCTGTACTTCCAGGACTACGGCGCCGAGCAGCACCTGGCCGGCGAGTTCGGCGGCGCCAAGATCCAGTACCGCCGCGACCAGCTGAACCACCTGCACGCCCGCCGCGGCGCCCGCGACGTGTACCTGAACCTGAGCGTGCGCGTGCAGAGCCAGAGCGAGGCCCGCGGCGAGCGCCGCCCCCCCTACGCCGCCGTGTTCCGCCTGGTGGGCGACAACCACCGCGCCTTCGTGCACTTCGACAAGCTGAGCGACTACCTGGCCGAGCACCCCGACGACGGCAAGCTGGGCAGCGAGGGCCTGCTGAGCGGCCTGCGCGTGATGAGCGTGGACCTGGGCCTGCGCACCAGCGCCAGCATCAGCGTGTTCCGCGTGGCCCGCAAGGACGAGCTGAAGCCCAACAGCGAGGGCCGCGTGCCCTTCTGCTTCCCCATCGAGGGCAACGAGAACCTGGTGGCCGTGCACGAGCGCAGCCAGCTGCTGAAGCTGCCCGGCGAGACCGAGAGCAAGGACCTGCGCGCCATCCGCGAGGAGCGCCAGCGCACCCTGCGCCAGCTGCGCACCCAGCTGGCCTACCTGCGCCTGCTGGTGCGCTGCtctagaGGCGGCAGCGGCAGCAGCGGCGGCAGCGGCGGCAGCGGCGGCAGCGGCGAGATGTGGCACGAGGGCCTGGAGGAGGCCAGCCGCCTGTACTTCGGCGAGCGCAACGTGAAGGGCATGTTCGAGGTGCTGGAGCCCCTGCACGCCATGATGGAGCGCGGCCCCCAGACCCTGAAGGAGACCAGCTTCAACCAGGCCTACGGCCGCGACCTGATGGAGGCCCAGGAGTGGTGCCGCAAGTACATGAAGAGCGGCAACGTGAAGGACCTGACCCAGGCCTGGGACCTGTACTACCACGTGTTCCGCCGCATCAGCAAGCAGgctagcCCCAAGAAGAAGCGCAAGGTG
SEQ ID NO:20分裂2 AaCas12b CT2-FKBP(C-片段)(NLS-FKBP-Cas12bCT21975-3387-NLS)
CCCAAGAAGAAGCGCAAGGTGcccgggATGGGCGTGCAGGTGGAGACCATCAGCCCCGGCGACGGCCGCACCTTCCCCAAGCGCGGCCAGACCTGCGTGGTGCACTACACCGGCATGCTGGAGGACGGCAAGAAGTTCGACAGCAGCCGCGACCGCAACAAGCCCTTCAAGTTCATGCTGGGCAAGCAGGAGGTGATCCGCGGCTGGGAGGAGGGCGTGGCCCAGATGAGCGTGGGCCAGCGCGCCAAGCTGACCATCAGCCCCGACTACGCCTACGGCGCCACCGGCCACCCCGGCATCATCCCCCCCCACGCCACCCTGGTGTTCGACGTGGAGCTGCTGAAGCTGGAGGGCGGCAGCGGCGGCAGCGGCGGCGGCAGCGGCGGCGGCcttaagGGCAGCGAGGACGTGGGCCGCCGCGAGCGCAGCTGGGCCAAGCTGATCGAGCAGCCCATGGACGCCAACCAGATGACCCCCGACTGGCGCGAGGCCTTCGAGGACGAGCTGCAGAAGCTGAAGAGCCTGTACGGCATCTGCGGCGACCGCGAGTGGACCGAGGCCGTGTACGAGAGCGTGCGCCGCGTGTGGCGCCACATGGGCAAGCAGGTGCGCGACTGGCGCAAGGACGTGCGCAGCGGCGAGCGCCCCAAGATCCGCGGCTACCAGAAGGACGTGGTGGGCGGCAACAGCATCGAGCAGATCGAGTACCTGGAGCGCCAGTACAAGTTCCTGAAGAGCTGGAGCTTCTTCGGCAAGGTGAGCGGCCAGGTGATCCGCGCCGAGAAGGGCAGCCGCTTCGCCATCACCCTGCGCGAGCACATCGACCACGCCAAGGAGGACCGCCTGAAGAAGCTGGCCGACCGCATCATCATGGAGGCCCTGGGCTACGTGTACGCCCTGGACGACGAGCGCGGCAAGGGCAAGTGGGTGGCCAAGTACCCCCCCTGCCAGCTGATCCTGCTGGAGGAGCTGAGCGAGTACCAGTTCAACAACGACCGCCCCCCCAGCGAGAACAACCAGCTGATGCAGTGGAGCCACCGCGGCGTGTTCCAGGAGCTGCTGAACCAGGCCCAGGTGCACGACCTGCTGGTGGGCACCATGTACGCCGCCTTCAGCAGCCGCTTCGACGCCCGCACCGGCGCCCCCGGCATCCGCTGCCGCCGCGTGCCCGCCCGCTGCGCCCGCGAGCAGAACCCCGAGCCCTTCCCCTGGTGGCTGAACAAGTTCGTGGCCGAGCACAAGCTGGACGGCTGCCCCCTGCGCGCCGACGACCTGATCCCCACCGGCGAGGGCGAGTTCTTCGTGAGCCCCTTCAGCGCCGAGGAGGGCGACTTCCACCAGATCCACGCCGACCTGAACGCCGCCCAGAACCTGCAGCGCCGCCTGTGGAGCGACTTCGACATCAGCCAGATCCGCCTGCGCTGCGACTGGGGCGAGGTGGACGGCGAGCCCGTGCTGATCCCCCGCACCACCGGCAAGCGCACCGCCGACAGCTACGGCAACAAGGTGTTCTACACCAAGACCGGCGTGACCTACTACGAGCGCGAGCGCGGCAAGAAGCGCCGCAAGGTGTTCGCCCAGGAGGAGCTGAGCGAGGAGGAGGCCGAGCTGCTGGTGGAGGCCGACGAGGCCCGCGAGAAGAGCGTGGTGCTGATGCGCGACCCCAGCGGCATCATCAACCGCGGCGACTGGACCCGCCAGAAGGAGTTCTGGAGCATGGTGAACCAGCGCATCGAGGGCTACCTGGTGAAGCAGATCCGCAGCCGCGTGCGCCTGCAGGAGAGCGCCTGCGAGAACACCGGCGACATCgctagcCCCAAGAAGAAGCGCAAGGTG
SEQ ID NO:21分裂3 AaCas12b NT3-FRB(N-片段)(NLS-Cas12b NT31-2352-FRB-NLS)
CCCAAGAAGAAGCGCAAGGTGcccgggATGGCCGTGAAGAGCATGAAGGTGAAGCTGCGCCTGGACAACATGCCCGAGATCCGCGCCGGCCTGTGGAAGCTGCACACCGAGGTGAACGCCGGCGTGCGCTACTACACCGAGTGGCTGAGCCTGCTGCGCCAGGAGAACCTGTACCGCCGCAGCCCCAACGGCGACGGCGAGCAGGAGTGCTACAAGACCGCCGAGGAGTGCAAGGCCGAGCTGCTGGAGCGCCTGCGCGCCCGCCAGGTGGAGAACGGCCACTGCGGCCCCGCCGGCAGCGACGACGAGCTGCTGCAGCTGGCCCGCCAGCTGTACGAGCTGCTGGTGCCCCAGGCCATCGGCGCCAAGGGCGACGCCCAGCAGATCGCCCGCAAGTTCCTGAGCCCCCTGGCCGACAAGGACGCCGTGGGCGGCCTGGGCATCGCCAAGGCCGGCAACAAGCCCCGCTGGGTGCGCATGCGCGAGGCCGGCGAGCCCGGCTGGGAGGAGGAGAAGGCCAAGGCCGAGGCCCGCAAGAGCACCGACCGCACCGCCGACGTGCTGCGCGCCCTGGCCGACTTCGGCCTGAAGCCCCTGATGCGCGTGTACACCGACAGCGACATGAGCAGCGTGCAGTGGAAGCCCCTGCGCAAGGGCCAGGCCGTGCGCACCTGGGACCGCGACATGTTCCAGCAGGCCATCGAGCGCATGATGAGCTGGGAGAGCTGGAACCAGCGCGTGGGCGAGGCCTACGCCAAGCTGGTGGAGCAGAAGAGCCGCTTCGAGCAGAAGAACTTCGTGGGCCAGGAGCACCTGGTGCAGCTGGTGAACCAGCTGCAGCAGGACATGAAGGAGGCCAGCCACGGCCTGGAGAGCAAGGAGCAGACCGCCCACTACCTGACCGGCCGCGCCCTGCGCGGCAGCGACAAGGTGTTCGAGAAGTGGGAGAAGCTGGACCCCGACGCCCCCTTCGACCTGTACGACACCGAGATCAAGAACGTGCAGCGCCGCAACACCCGCCGCTTCGGCAGCCACGACCTGTTCGCCAAGCTGGCCGAGCCCAAGTACCAGGCCCTGTGGCGCGAGGACGCCAGCTTCCTGACCCGCTACGCCGTGTACAACAGCATCGTGCGCAAGCTGAACCACGCCAAGATGTTCGCCACCTTCACCCTGCCCGACGCCACCGCCCACCCCATCTGGACCCGCTTCGACAAGCTGGGCGGCAACCTGCACCAGTACACCTTCCTGTTCAACGAGTTCGGCGAGGGCCGCCACGCCATCCGCTTCCAGAAGCTGCTGACCGTGGAGGACGGCGTGGCCAAGGAGGTGGACGACGTGACCGTGCCCATCAGCATGAGCGCCCAGCTGGACGACCTGCTGCCCCGCGACCCCCACGAGCTGGTGGCCCTGTACTTCCAGGACTACGGCGCCGAGCAGCACCTGGCCGGCGAGTTCGGCGGCGCCAAGATCCAGTACCGCCGCGACCAGCTGAACCACCTGCACGCCCGCCGCGGCGCCCGCGACGTGTACCTGAACCTGAGCGTGCGCGTGCAGAGCCAGAGCGAGGCCCGCGGCGAGCGCCGCCCCCCCTACGCCGCCGTGTTCCGCCTGGTGGGCGACAACCACCGCGCCTTCGTGCACTTCGACAAGCTGAGCGACTACCTGGCCGAGCACCCCGACGACGGCAAGCTGGGCAGCGAGGGCCTGCTGAGCGGCCTGCGCGTGATGAGCGTGGACCTGGGCCTGCGCACCAGCGCCAGCATCAGCGTGTTCCGCGTGGCCCGCAAGGACGAGCTGAAGCCCAACAGCGAGGGCCGCGTGCCCTTCTGCTTCCCCATCGAGGGCAACGAGAACCTGGTGGCCGTGCACGAGCGCAGCCAGCTGCTGAAGCTGCCCGGCGAGACCGAGAGCAAGGACCTGCGCGCCATCCGCGAGGAGCGCCAGCGCACCCTGCGCCAGCTGCGCACCCAGCTGGCCTACCTGCGCCTGCTGGTGCGCTGCGGCAGCGAGGACGTGGGCCGCCGCGAGCGCAGCTGGGCCAAGCTGATCGAGCAGCCCATGGACGCCAACCAGATGACCCCCGACTGGCGCGAGGCCTTCGAGGACGAGCTGCAGAAGCTGAAGAGCCTGTACGGCATCTGCGGCGACCGCGAGTGGACCGAGGCCGTGTACGAGAGCGTGCGCCGCGTGTGGCGCCACATGGGCAAGCAGGTGCGCGACTGGCGCAAGGACGTGCGCAGCGGCGAGCGCCCCAAGATCCGCGGCTACCAGAAGGACGTGGTGGGCGGCAACAGCATCGAGCAGATCGAGTACCTGGAGCGCCAGTACAAGTTCCTGAAGAGCTGGAGCTTCTTCGGCAAGGTGAGCGGCCAGGTGtctagaGGCGGCAGCGGCAGCAGCGGCGGCAGCGGCGGCAGCGGCGGCAGCGGCGAGATGTGGCACGAGGGCCTGGAGGAGGCCAGCCGCCTGTACTTCGGCGAGCGCAACGTGAAGGGCATGTTCGAGGTGCTGGAGCCCCTGCACGCCATGATGGAGCGCGGCCCCCAGACCCTGAAGGAGACCAGCTTCAACCAGGCCTACGGCCGCGACCTGATGGAGGCCCAGGAGTGGTGCCGCAAGTACATGAAGAGCGGCAACGTGAAGGACCTGACCCAGGCCTGGGACCTGTACTACCACGTGTTCCGCCGCATCAGCAAGCAGgctagcCCCAAGAAGAAGCGCAAGGTG
SEQ ID NO:22分裂3 AaCas12b CT3-FKBP(C-片段)(NLS-FKBP-Cas12bCT32353-3387-NLS)
CCCAAGAAGAAGCGCAAGGTGcccgggATGGGCGTGCAGGTGGAGACCATCAGCCCCGGCGACGGCCGCACCTTCCCCAAGCGCGGCCAGACCTGCGTGGTGCACTACACCGGCATGCTGGAGGACGGCAAGAAGTTCGACAGCAGCCGCGACCGCAACAAGCCCTTCAAGTTCATGCTGGGCAAGCAGGAGGTGATCCGCGGCTGGGAGGAGGGCGTGGCCCAGATGAGCGTGGGCCAGCGCGCCAAGCTGACCATCAGCCCCGACTACGCCTACGGCGCCACCGGCCACCCCGGCATCATCCCCCCCCACGCCACCCTGGTGTTCGACGTGGAGCTGCTGAAGCTGGAGGGCGGCAGCGGCGGCAGCGGCGGCGGCAGCGGCGGCGGCcttaagATCCGCGCCGAGAAGGGCAGCCGCTTCGCCATCACCCTGCGCGAGCACATCGACCACGCCAAGGAGGACCGCCTGAAGAAGCTGGCCGACCGCATCATCATGGAGGCCCTGGGCTACGTGTACGCCCTGGACGACGAGCGCGGCAAGGGCAAGTGGGTGGCCAAGTACCCCCCCTGCCAGCTGATCCTGCTGGAGGAGCTGAGCGAGTACCAGTTCAACAACGACCGCCCCCCCAGCGAGAACAACCAGCTGATGCAGTGGAGCCACCGCGGCGTGTTCCAGGAGCTGCTGAACCAGGCCCAGGTGCACGACCTGCTGGTGGGCACCATGTACGCCGCCTTCAGCAGCCGCTTCGACGCCCGCACCGGCGCCCCCGGCATCCGCTGCCGCCGCGTGCCCGCCCGCTGCGCCCGCGAGCAGAACCCCGAGCCCTTCCCCTGGTGGCTGAACAAGTTCGTGGCCGAGCACAAGCTGGACGGCTGCCCCCTGCGCGCCGACGACCTGATCCCCACCGGCGAGGGCGAGTTCTTCGTGAGCCCCTTCAGCGCCGAGGAGGGCGACTTCCACCAGATCCACGCCGACCTGAACGCCGCCCAGAACCTGCAGCGCCGCCTGTGGAGCGACTTCGACATCAGCCAGATCCGCCTGCGCTGCGACTGGGGCGAGGTGGACGGCGAGCCCGTGCTGATCCCCCGCACCACCGGCAAGCGCACCGCCGACAGCTACGGCAACAAGGTGTTCTACACCAAGACCGGCGTGACCTACTACGAGCGCGAGCGCGGCAAGAAGCGCCGCAAGGTGTTCGCCCAGGAGGAGCTGAGCGAGGAGGAGGCCGAGCTGCTGGTGGAGGCCGACGAGGCCCGCGAGAAGAGCGTGGTGCTGATGCGCGACCCCAGCGGCATCATCAACCGCGGCGACTGGACCCGCCAGAAGGAGTTCTGGAGCATGGTGAACCAGCGCATCGAGGGCTACCTGGTGAAGCAGATCCGCAGCCGCGTGCGCCTGCAGGAGAGCGCCTGCGAGAACACCGGCGACATCgctagcCCCAAGAAGAAGCGCAAGGTG
SEQ ID NO:23人工sgRNA13骨架(U6启动子-sgRNA骨架-间隔子-终止子;骨架序列为粗体,间隔子序列为斜体)
指导RNA
通过将退火的寡核苷酸连接到BasI消化的pUC19-U6-gRNA载体中,构建用于细胞转染测定的靶向单链指导RNA(sgRNA)。使用TIANPURETM中提质粒试剂盒(Midi PlasmidKit)(Tiangen)提取这些载体,并使用NANODROPTM 2000(Thermo Fisher)进行定量。用于sgRNA构建的指导序列如表1所示。
细胞培养、转染和荧光激活的细胞分选(FACS)
将人胚肾细胞系HEK293T细胞维持在补充有10%胎牛血清(FBS,Gibco)、100U/ml青霉素和100μg/ml链霉素(Gibco)的杜尔贝科改良伊戈尔培养基(DMEM,Gibco)中。转染前24小时,将HEK293T细胞以15万细胞/孔的密度置于12孔板中,或按1:4~1:6的比例传代到6孔板中,使细胞密度在孵育24小时内可达60%-70%。然后将细胞转移至无血清opti-MEM培养基(Gibco)进行转染。按照制造商推荐的方案,使用Lipofectamine LTX和PLUS试剂(Invitrogen)转染293T细胞。对于12孔板的每个孔,共使用1μg质粒(分裂Cas12b的N端:分裂Cas12b的C端:sgRNA =2:2:1)。并且对于6孔板的每个孔,共使用2.5μg质粒(splitCas12b N-VPH/KRAB:split Cas12b C-VPH/KRAB:sgRNAs=2:2:1)。4至6小时后,将培养基换成含血清的DMEM(Gibco)。转染后12小时,将雷帕霉素添加到培养基中以达到200nM的浓度。此后每24小时,使用具有200nM雷帕霉素的新鲜DMEM进行孵育。在转染后60小时收获细胞,直接用于基因分型分析,或使用MoFlo XDP(Beckman Coulter)分选。
使用T7核酸内切酶I(T7EI)分析和DNA测序进行突变分析
转染后60小时收获的HEK293T,通过一步小鼠基因分型试剂盒(Vazyme)裂解。简言之,每孔加入100uL缓冲液L(添加有蛋白酶K)裂解细胞,55℃孵育3小时,95℃变性10min。使用2×Taq Plus Master Mix(Vazyme)、使用PCR设置(95℃,5min;(95℃,30s;62℃,30s;72℃,30s)x35个循环;72℃,5min),通过PCR扩增每个目标基因的分裂CRISPR-Cas12b靶位点周围的基因组区域。所用的PCR引物见表2。
RNA提取和定量qRT-PCR分析
在转染后60小时,通过FACS使用TRIzol试剂(Invitrogen,15596-018)从收获的细胞中提取总RNA,并使用RNase-Free DNase I试剂盒(Promega,M6101)去除基因组DNA。然后,使用逆转录系统(Promega,A3500)将1μg RNA逆转录成cDNA,总体积为20μl,并使用SYBRPremix Ex Taq试剂盒(TaKaRa,RR420A),将0.2μl产物在安捷伦Stratagene Mx3005P上用作进行qRT-PCR的模板。qRT-PCR的程序设置如下:(95℃,5min;95℃,30s;62℃,30s;72℃,30s)×35个循环;72℃,5min。以ACTB基因为内参,采用2-ΔΔCt法分析基因相对表达量。所有引物都列在表3中。
表1:人类基因组中的靶序列。
编辑靶 基因组序列(5'-3') SEQ ID NO 5'PAM(5'-3')
CCR5靶1 TCCTTCTCCTGAACACCTTC 49 TTG
CCR5靶2 TTTGGCCTGAATAATTGCAG 50 TTC
Dnmt1靶1 CCCTTCAGCTAAAATAAAGG 51 TTT
RNF2靶1 TAGTCATGGTGTTCTTCAAC 52 TTG
VEGFA靶1 GCTCTCAAGACCCACAATCC 53 TTT
PCSK9靶1 AATCAGAGAGGATCTTCCGA 54 TTT
PCSK9靶2 CGGCCTCGCCCTCCCCAGAC 55 TTT
PCSK9靶3 GACGCTGTCTGGGGAGGGCG 56 TTT
HBG靶1 TTCTTCATCCCTAGCCAGCC 57 TTA
HBG靶2 CCTTGTCAAGGCTATTGGTC 58 TTG
HBG靶3 GCCAGGGACCGTTTCAGACA 59 TTA
HBG靶4 AGACAGATATTTGCATTGAG 60 TTC
PLK1靶1 TGCTTGGCTGCCAGTACCTG 89 TTG
PLK1靶4 ATCGAGACCTCAAGCTGGGC 90 TTC
PLK1靶6 CCTGAATGAAGATCTGGAGG 91 TTT
PLK1靶8 CTCCTCTTGTGCAGCTCCAG 92 TTC
PLK1靶11 GCCGTAGGTAGTATCGGGCC 93 TTT
PLK1靶13 CGGTGCAGGTACTGGCAGCC 94 TTT
PLK1靶20 TCACCTCCAGATCTTCATTC 95 TTT
表2:用于扩增CRISPR-Cas12b靶位点周围的人类基因组区域的引物序列。
表3:qRT-PCR中用于定量CRISPR-Cas12b靶位点表达水平的引物序列。
取每种PCR产物10μL并进行再次退火过程,以按照Li,W.,et al.(NatBiotechnol,2013.31(8):p.684-6)的方法形成异源双链核酸分子。再次退火后,每个PCR产物用0.3μL T7EI酶(NEB)和1/10体积的NEBuffer2(NEB)在37℃下消化45min。在3% TAE-琼脂糖凝胶上分析消化产物。
根据相对条带强度对插入-缺失进行定量(Cong,L.,et al.,Science,2013.339(6121):p.819-23)。根据以下等式:100×(1-(1-b/(a+b))1/2),确定插入-缺失频率,其中a是未消化DNA的强度,b是被T7EI消化的DNA产物的总强度。将T7EI分析鉴定的阳性PCR样品克隆到pEASY-T1或pEASY-B载体(Transgen)中,转化到感受态大肠杆菌细胞中,并铺在生长培养基上。37℃孵育过夜后,随机挑取单个菌落,进行Sanger测序。通过将获得的序列与野生型序列进行比较来确定突变或其缺失。
结果
图4A显示了评估由图3中的三对分裂AaCas12b多肽诱导的人靶位点处的插入-缺失(InDel)突变的T7核酸内切酶I(T7EI)分析。人靶位点包括CCR5-1、CCR5-2、DNMT1、RNF2和VEGFA。使用三种分裂AaCas12b蛋白的示例性突变体的Sanger测序结果如图4B所示。缺失的碱基显示为破折号;PAM序列加框,间隔序列加下划线。
结果表明,在雷帕霉素处理后分裂AaCas12b系统在靶向的CCR5-1、CCR5-2、DNMT1、RNF2和VEGFA位点诱导了InDel突变。结果还表明,不同的分裂方案可能对分裂AaCas12b系统在诱导InDel突变方面具有不同的影响。基于InDel频率(通过显示消化的凝胶条带暗度和DNA测序来测量),AaCas12b的分裂2在全部测试靶位点具有最高的效率。此外,分裂2在多个靶位点显示出相当的基因编辑效率,无论是否有雷帕霉素诱导。这表明分裂2系统可被自动诱导。
图13证实了分裂2-AaCas12b系统的自动诱导基因编辑活性(即indel突变的引入),该系统在测试的人类所有PLK1靶位点没有二聚化结构域,并且分裂1AaCas12b系统还在PLK1-6、PLK1-8、PLK1-11和PLK1-20靶位点处显示了自动诱导基因编辑活性。本实验中使用的sgRNA(SEQ ID NO:101)是基于SEQ ID NO:100的截短的sgRNA。值得注意的是,分裂2AaCas12b系统的自动诱导基因编辑活性与全长AaCas12b的基因编辑活性相当。
如图14所示,与没有二聚化结构域的分裂2AaCas12b系统类似,没有二聚化结构域的分裂2Bs3Cas12b系统在所有测试的PLK-1靶位点都显示出自动诱导的基因编辑活性,而没有二聚化结构域的分裂2TcCas12b系统在PLK1-1和PLK1-20靶位点显示出自动诱导的基因编辑活性。分裂2Cas12b系统在不同PLK靶位点的自动诱导基因编辑活性与相应全长Cas12b蛋白的基因编辑活性相当。
总而言之,这些数据表明Cas12b可被分裂成两个不同的片段,当通过化学诱导或自动诱导重新组合在一起时,这两个片段形成功能性Cas12核酸酶。因此,这个实施例展示了分离AaCas12b系统的成功开发,可用于基础研究和生物技术应用的各个领域。
实施例2:示例性雷帕霉素诱导型基于分裂dAaCas12b的基因激活和抑制平台的开发
本实施例描述了示例性雷帕霉素诱导型基于分裂dAaCas12b的基因激活和抑制系统的开发。
转录激活
图5显示了雷帕霉素诱导型基于分裂Cas12b的基因激活系统,包括第一分裂Cas12b多肽,其从N端到C端包含:VP64-p65-HSF1、dAaCas12b(催化性死亡的Cas12b)N端片段和FRB结构域;以及第二分裂Cas12b多肽,其从N端到C端包含:FKBP结构域、dAaCas12b的C端片段和VP64-p65-HSF1。对于基于dAaCas12b的内源基因转录激活,将第一分裂Cas12b多肽、第二分裂Cas12b多肽和sgRNA共转染到人293T细胞中。对于每个基因,不同的靶sgRNA被构建并混合到一个池中。所有靶位点都位于转录起始位点(TSS)上游~500bp以内。
例如,分裂2Cas12b构建体被用于构建雷帕霉素诱导型基于分裂Cas12b的基因激活系统(本文也称为“N+C-VPH”),该系统用于使用具有表1所示指导序列的四种靶sgRNA激活HBG基因。用总共2.5μg质粒(split Cas12b N-VPH:split Cas12b C-VPH:sgRNAs=2:2:1)转染6孔板的孔中的细胞。在转染后12小时,通过在含血清的DMEM(Gibco)中用200nM雷帕霉素处理细胞来诱导基因激活,并在转染后60小时使用MoFlo XDP(Beckman Coulter)收获GFP+/RFP+双阳性细胞。
相比之下,在N端与VP64-p65-HSF1融合的全长dAaCas12b(即“dAa-VPH”)和相同的sgRNA池被共转染到人293T细胞中。用总共2.5μg质粒(dAa-VPH:sgRNAs=2:1)转染6孔板孔中的细胞,并在转染后60小时使用MoFlo XDP(Beckman Coulter)收获GFP+阳性细胞。作为阴性对照,将不编码N+C-VPH或dAa-VPH的载体转染到人293T细胞中。进行qRT-PCR实验以确定HBG基因在每种条件下的转录水平。
图11显示将雷帕霉素诱导型分裂dAaCas12b-VPH(N+C-VPH)和全长dAaCas12b-VPH(dAa-VPH)的基因上调效率进行比较的qRT-PCR实验结果。结果表明,雷帕霉素诱导型基于分裂dAaCas12b的基因激活系统,可以比基于全长dAaCas12b的基因激活系统更有效地上调靶基因表达。
转录抑制
图6显示了雷帕霉素诱导型基于分裂Cas12b的基因抑制系统,包括第一分裂Cas12b多肽,其从N端到C端包括:KRAB结构域、dAaCas12b N端片段和FRB结构域;以及第二分裂Cas12b多肽,其从N端到C端包含:FKBP结构域、dAaCas12b C端片段和KRAB结构域。对于基于dAaCas12b的内源基因的转录抑制,将编码第一分裂Cas12b多肽、第二分裂Cas12b多肽和sgRNA的载体共转染到人293T细胞中。对于每个基因,不同的靶sgRNA被构建并混合到一个池中。所有靶位点都位于转录起始位点(TSS)上游~500bp以内。
例如,分裂2Cas12b构建体被用于构建雷帕霉素诱导型基于分裂Cas12b的基因抑制系统(本文也称为“N+C-KRAB”),该系统被用于使用具有如表1所示指导序列的三个靶sgRNA来抑制PCSK9基因。6孔板的孔中的细胞用总共2.5μg质粒转染(split Cas12b N-KRAB:split Cas12b C-KRAB:sgRNAs=2:2:1)。通过在转染后12小时,用200nM雷帕霉素处理细胞诱导基因抑制,并在转染后60小时使用MoFLo XDP(Beckman Coulter)收获GFP+/RFP+双阳性细胞。
相比之下,在N端与KRAB结构域融合的全长dAaCas12b(即“dAa-KRAB”)与相同池中的sgRNA被共转染到人293T细胞中。用总共2.5μg质粒(dAa-KRAB:sgRNAs=2:1)转染6孔板孔中的细胞,并在转染后60小时使用MoFlo XDP(Beckman Coulter)收获GFP+阳性细胞。作为阴性对照,将不编码N+C-KRAB或dAa-KRAB的载体转染到人293T细胞中。进行qRT-PCR实验以确定PCSK9基因在每种条件下的转录水平。
图12显示将雷帕霉素诱导型分裂dAaCas12b-KRAB(N+C-KRAB)和全长dAaCas12b-KRAB(dAa-KRAB)的基因效率比较的qRT-PCR实验的结果。结果表明,雷帕霉素诱导型基于分裂dAaCas12b的基因抑制系统可以下调靶基因表达,其效率与基于全长dAaCas12b的抑制系统相当。
实施例3:示例性自动诱导型基于分裂dAaCas12b的增强基因激活和抑制系统的开发
这个实施例描述了示例性自动诱导型基于分裂dAaCas12b的增强基因激活和抑制系统的开发。
增强的转录激活
图7显示了自动诱导型基于分裂Cas12b的增强基因激活系统,包括第一分裂Cas12b多肽,其从N端到C端包含:VP64-p65-HSF1、dAaCas12b N端片段和VP64-p65-HSF1;以及第二分裂Cas12b多肽,其从N端到C端包含:VP64-p65-HSF1、dAaCas12b C端片段和VP64-p65-HSF1。对于基于dAaCas12b的增强的内源基因转录激活,将第一分裂Cas12b多肽、第二个分裂Cas12b多肽和sgRNA共转染到人293T细胞中。对于每个基因,构建八个靶sgRNA并将其混合到一个池中。所有靶位点都位于转录起始位点(TSS)上游~500bp以内。
增强的转录抑制
图8显示了自动诱导型基于分裂Cas12b的增强基因激活系统,包括第一分裂Cas12b多肽,其从N端到C端包含:KRAB结构域、dAaCas12b N端片段和KRAB结构域;以及第二分裂Cas12b多肽,其从N端到C端包含:KRAB结构域、dAaCas12b C端片段和KRAB结构域。对于基于dAaCas12b的增强的内源基因转录抑制,将第一分裂Cas12b多肽、第二分裂Cas12b多肽和sgRNA共转染到人293T细胞中。对于每个基因,构建八个靶sgRNA并将其混合到一个池中。所有靶位点都位于转录起始位点(TSS)上游~500bp以内。
实施例4:工程化的sgRNA骨架
截短的sgRNA骨架基于artsgRNA13(图9)设计,并结合诱导剂控制的分裂Cas12b多肽(例如,分裂1和分裂3)和自动诱导型分裂Cas12b多肽(例如,不含FKB和FKBP结构域的分裂2),使用实施例1中描述的T7EI分析检测在人类细胞中的各种靶位点的基因编辑效率。截短的sgRNA骨架缺少一个或多个来自artsgRNA13的茎环,包括例如artsgRNA13Δloop1、artsgRNA13Δloop2和artsgRNA13Δloop3(图10)。选择能够使用诱导剂控制的分裂Cas12b多肽而不是自动诱导型分裂Cas12b多肽来诱导CRISPR复合物重建的截短sgRNA,以允许对分裂Cas12b系统进行更严格的控制,并减少脱靶编辑事件。
实施例5:使用基于分裂dAaCas12b的增强基因抑制系统对PCSK9的体内基因抑制降低了小鼠体内的胆固醇水平
本实施例描述了使用基于分裂dAaCas12b的增强基因抑制系统对PCSK9的体内基因抑制降低了小鼠体内的胆固醇水平。将野生型成年小鼠喂食高脂饮食以诱导高胆固醇水平。将编码基于分裂dAaCas12b的增强基因抑制系统(例如,图8)(包括靶向PCSK9的sgRNA)的AAV载体,静脉内注射到第一组小鼠中。相比之下,将编码全长dAaCas12b-KRAB蛋白和靶向PCSK9的sgRNA的AAV载体,静脉注射到第二组小鼠中。作为阴性对照,将编码靶向PCSK9的sgRNA但没有Cas12b蛋白或分裂Cas12b蛋白的AAV载体,静脉注射到第三组小鼠中。随着时间的推移,检测每组小鼠的PCSK9 mRNA和蛋白表达水平以及胆固醇水平。用基于分裂dAaCas12b的增强基因抑制系统处理的小鼠,预计胆固醇水平会降低。
序列表
<110> 中国科学院动物研究所
中国科学院干细胞与再生医学创新院
<120> 分裂的CAS12系统及其使用方法
<130> PF02799A-FE00426CN
<140> 尚未分配
<141> 同时在此
<150> PCT/CN2020/111057
<151> 2020-08-25
<160> 101
<170> FastSEQ for Windows 4.0版
<210> 1
<211> 518
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 1
Met Ala Val Lys Ser Met Lys Val Lys Leu Arg Leu Asp Asn Met Pro
1 5 10 15
Glu Ile Arg Ala Gly Leu Trp Lys Leu His Thr Glu Val Asn Ala Gly
20 25 30
Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu
35 40 45
Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Tyr Lys Thr
50 55 60
Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln
65 70 75 80
Val Glu Asn Gly His Cys Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu
85 90 95
Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly
100 105 110
Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu
115 120 125
Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn
130 135 140
Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu
145 150 155 160
Glu Glu Lys Ala Lys Ala Glu Ala Arg Lys Ser Thr Asp Arg Thr Ala
165 170 175
Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg
180 185 190
Val Tyr Thr Asp Ser Asp Met Ser Ser Val Gln Trp Lys Pro Leu Arg
195 200 205
Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala
210 215 220
Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Glu
225 230 235 240
Ala Tyr Ala Lys Leu Val Glu Gln Lys Ser Arg Phe Glu Gln Lys Asn
245 250 255
Phe Val Gly Gln Glu His Leu Val Gln Leu Val Asn Gln Leu Gln Gln
260 265 270
Asp Met Lys Glu Ala Ser His Gly Leu Glu Ser Lys Glu Gln Thr Ala
275 280 285
His Tyr Leu Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu
290 295 300
Lys Trp Glu Lys Leu Asp Pro Asp Ala Pro Phe Asp Leu Tyr Asp Thr
305 310 315 320
Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His
325 330 335
Asp Leu Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Ala Leu Trp Arg
340 345 350
Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Val
355 360 365
Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp
370 375 380
Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn
385 390 395 400
Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Gly Arg His
405 410 415
Ala Ile Arg Phe Gln Lys Leu Leu Thr Val Glu Asp Gly Val Ala Lys
420 425 430
Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Ala Gln Leu Asp
435 440 445
Asp Leu Leu Pro Arg Asp Pro His Glu Leu Val Ala Leu Tyr Phe Gln
450 455 460
Asp Tyr Gly Ala Glu Gln His Leu Ala Gly Glu Phe Gly Gly Ala Lys
465 470 475 480
Ile Gln Tyr Arg Arg Asp Gln Leu Asn His Leu His Ala Arg Arg Gly
485 490 495
Ala Arg Asp Val Tyr Leu Asn Leu Ser Val Arg Val Gln Ser Gln Ser
500 505 510
Glu Ala Arg Gly Glu Arg
515
<210> 2
<211> 611
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 2
Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu Val Gly Asp Asn His Arg
1 5 10 15
Ala Phe Val His Phe Asp Lys Leu Ser Asp Tyr Leu Ala Glu His Pro
20 25 30
Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu Leu Ser Gly Leu Arg Val
35 40 45
Met Ser Val Asp Leu Gly Leu Arg Thr Ser Ala Ser Ile Ser Val Phe
50 55 60
Arg Val Ala Arg Lys Asp Glu Leu Lys Pro Asn Ser Glu Gly Arg Val
65 70 75 80
Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu Asn Leu Val Ala Val His
85 90 95
Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly Glu Thr Glu Ser Lys Asp
100 105 110
Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg Thr Leu Arg Gln Leu Arg
115 120 125
Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val Arg Cys Gly Ser Glu Asp
130 135 140
Val Gly Arg Arg Glu Arg Ser Trp Ala Lys Leu Ile Glu Gln Pro Met
145 150 155 160
Asp Ala Asn Gln Met Thr Pro Asp Trp Arg Glu Ala Phe Glu Asp Glu
165 170 175
Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile Cys Gly Asp Arg Glu Trp
180 185 190
Thr Glu Ala Val Tyr Glu Ser Val Arg Arg Val Trp Arg His Met Gly
195 200 205
Lys Gln Val Arg Asp Trp Arg Lys Asp Val Arg Ser Gly Glu Arg Pro
210 215 220
Lys Ile Arg Gly Tyr Gln Lys Asp Val Val Gly Gly Asn Ser Ile Glu
225 230 235 240
Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys Phe Leu Lys Ser Trp Ser
245 250 255
Phe Phe Gly Lys Val Ser Gly Gln Val Ile Arg Ala Glu Lys Gly Ser
260 265 270
Arg Phe Ala Ile Thr Leu Arg Glu His Ile Asp His Ala Lys Glu Asp
275 280 285
Arg Leu Lys Lys Leu Ala Asp Arg Ile Ile Met Glu Ala Leu Gly Tyr
290 295 300
Val Tyr Ala Leu Asp Asp Glu Arg Gly Lys Gly Lys Trp Val Ala Lys
305 310 315 320
Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu Glu Leu Ser Glu Tyr Gln
325 330 335
Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn Asn Gln Leu Met Gln Trp
340 345 350
Ser His Arg Gly Val Phe Gln Glu Leu Leu Asn Gln Ala Gln Val His
355 360 365
Asp Leu Leu Val Gly Thr Met Tyr Ala Ala Phe Ser Ser Arg Phe Asp
370 375 380
Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys Arg Arg Val Pro Ala Arg
385 390 395 400
Cys Ala Arg Glu Gln Asn Pro Glu Pro Phe Pro Trp Trp Leu Asn Lys
405 410 415
Phe Val Ala Glu His Lys Leu Asp Gly Cys Pro Leu Arg Ala Asp Asp
420 425 430
Leu Ile Pro Thr Gly Glu Gly Glu Phe Phe Val Ser Pro Phe Ser Ala
435 440 445
Glu Glu Gly Asp Phe His Gln Ile His Ala Asp Leu Asn Ala Ala Gln
450 455 460
Asn Leu Gln Arg Arg Leu Trp Ser Asp Phe Asp Ile Ser Gln Ile Arg
465 470 475 480
Leu Arg Cys Asp Trp Gly Glu Val Asp Gly Glu Pro Val Leu Ile Pro
485 490 495
Arg Thr Thr Gly Lys Arg Thr Ala Asp Ser Tyr Gly Asn Lys Val Phe
500 505 510
Tyr Thr Lys Thr Gly Val Thr Tyr Tyr Glu Arg Glu Arg Gly Lys Lys
515 520 525
Arg Arg Lys Val Phe Ala Gln Glu Glu Leu Ser Glu Glu Glu Ala Glu
530 535 540
Leu Leu Val Glu Ala Asp Glu Ala Arg Glu Lys Ser Val Val Leu Met
545 550 555 560
Arg Asp Pro Ser Gly Ile Ile Asn Arg Gly Asp Trp Thr Arg Gln Lys
565 570 575
Glu Phe Trp Ser Met Val Asn Gln Arg Ile Glu Gly Tyr Leu Val Lys
580 585 590
Gln Ile Arg Ser Arg Val Arg Leu Gln Glu Ser Ala Cys Glu Asn Thr
595 600 605
Gly Asp Ile
610
<210> 3
<211> 658
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 3
Met Ala Val Lys Ser Met Lys Val Lys Leu Arg Leu Asp Asn Met Pro
1 5 10 15
Glu Ile Arg Ala Gly Leu Trp Lys Leu His Thr Glu Val Asn Ala Gly
20 25 30
Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu
35 40 45
Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Tyr Lys Thr
50 55 60
Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln
65 70 75 80
Val Glu Asn Gly His Cys Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu
85 90 95
Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly
100 105 110
Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu
115 120 125
Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn
130 135 140
Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu
145 150 155 160
Glu Glu Lys Ala Lys Ala Glu Ala Arg Lys Ser Thr Asp Arg Thr Ala
165 170 175
Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg
180 185 190
Val Tyr Thr Asp Ser Asp Met Ser Ser Val Gln Trp Lys Pro Leu Arg
195 200 205
Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala
210 215 220
Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Glu
225 230 235 240
Ala Tyr Ala Lys Leu Val Glu Gln Lys Ser Arg Phe Glu Gln Lys Asn
245 250 255
Phe Val Gly Gln Glu His Leu Val Gln Leu Val Asn Gln Leu Gln Gln
260 265 270
Asp Met Lys Glu Ala Ser His Gly Leu Glu Ser Lys Glu Gln Thr Ala
275 280 285
His Tyr Leu Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu
290 295 300
Lys Trp Glu Lys Leu Asp Pro Asp Ala Pro Phe Asp Leu Tyr Asp Thr
305 310 315 320
Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His
325 330 335
Asp Leu Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Ala Leu Trp Arg
340 345 350
Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Val
355 360 365
Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp
370 375 380
Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn
385 390 395 400
Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Gly Arg His
405 410 415
Ala Ile Arg Phe Gln Lys Leu Leu Thr Val Glu Asp Gly Val Ala Lys
420 425 430
Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Ala Gln Leu Asp
435 440 445
Asp Leu Leu Pro Arg Asp Pro His Glu Leu Val Ala Leu Tyr Phe Gln
450 455 460
Asp Tyr Gly Ala Glu Gln His Leu Ala Gly Glu Phe Gly Gly Ala Lys
465 470 475 480
Ile Gln Tyr Arg Arg Asp Gln Leu Asn His Leu His Ala Arg Arg Gly
485 490 495
Ala Arg Asp Val Tyr Leu Asn Leu Ser Val Arg Val Gln Ser Gln Ser
500 505 510
Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu
515 520 525
Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp
530 535 540
Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu
545 550 555 560
Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser
565 570 575
Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro
580 585 590
Asn Ser Glu Gly Arg Val Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu
595 600 605
Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly
610 615 620
Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg
625 630 635 640
Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val
645 650 655
Arg Cys
<210> 4
<211> 471
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 4
Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys Leu Ile
1 5 10 15
Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp Trp Arg Glu Ala
20 25 30
Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile Cys Gly
35 40 45
Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val Arg Arg Val Trp
50 55 60
Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp Val Arg Ser
65 70 75 80
Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp Val Val Gly Gly
85 90 95
Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys Phe Leu
100 105 110
Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val Ile Arg Ala
115 120 125
Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His Ile Asp His
130 135 140
Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile Ile Met Glu
145 150 155 160
Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg Gly Lys Gly Lys
165 170 175
Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu Glu Leu
180 185 190
Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn Asn Gln
195 200 205
Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Leu Asn Gln
210 215 220
Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala Phe Ser
225 230 235 240
Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys Arg Arg
245 250 255
Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu Pro Phe Pro Trp
260 265 270
Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp Gly Cys Pro Leu
275 280 285
Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Phe Phe Val Ser
290 295 300
Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala Asp Leu
305 310 315 320
Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser Asp Phe Asp Ile
325 330 335
Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly Glu Pro
340 345 350
Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala Asp Ser Tyr Gly
355 360 365
Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr Tyr Glu Arg Glu
370 375 380
Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln Glu Glu Leu Ser Glu
385 390 395 400
Glu Glu Ala Glu Leu Leu Val Glu Ala Asp Glu Ala Arg Glu Lys Ser
405 410 415
Val Val Leu Met Arg Asp Pro Ser Gly Ile Ile Asn Arg Gly Asp Trp
420 425 430
Thr Arg Gln Lys Glu Phe Trp Ser Met Val Asn Gln Arg Ile Glu Gly
435 440 445
Tyr Leu Val Lys Gln Ile Arg Ser Arg Val Arg Leu Gln Glu Ser Ala
450 455 460
Cys Glu Asn Thr Gly Asp Ile
465 470
<210> 5
<211> 783
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 5
Met Ala Val Lys Ser Met Lys Val Lys Leu Arg Leu Asp Asn Met Pro
1 5 10 15
Glu Ile Arg Ala Gly Leu Trp Lys Leu His Thr Glu Val Asn Ala Gly
20 25 30
Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu
35 40 45
Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Tyr Lys Thr
50 55 60
Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln
65 70 75 80
Val Glu Asn Gly His Cys Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu
85 90 95
Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly
100 105 110
Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu
115 120 125
Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn
130 135 140
Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu
145 150 155 160
Glu Glu Lys Ala Lys Ala Glu Ala Arg Lys Ser Thr Asp Arg Thr Ala
165 170 175
Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg
180 185 190
Val Tyr Thr Asp Ser Asp Met Ser Ser Val Gln Trp Lys Pro Leu Arg
195 200 205
Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala
210 215 220
Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Glu
225 230 235 240
Ala Tyr Ala Lys Leu Val Glu Gln Lys Ser Arg Phe Glu Gln Lys Asn
245 250 255
Phe Val Gly Gln Glu His Leu Val Gln Leu Val Asn Gln Leu Gln Gln
260 265 270
Asp Met Lys Glu Ala Ser His Gly Leu Glu Ser Lys Glu Gln Thr Ala
275 280 285
His Tyr Leu Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu
290 295 300
Lys Trp Glu Lys Leu Asp Pro Asp Ala Pro Phe Asp Leu Tyr Asp Thr
305 310 315 320
Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His
325 330 335
Asp Leu Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Ala Leu Trp Arg
340 345 350
Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Val
355 360 365
Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp
370 375 380
Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn
385 390 395 400
Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Gly Arg His
405 410 415
Ala Ile Arg Phe Gln Lys Leu Leu Thr Val Glu Asp Gly Val Ala Lys
420 425 430
Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Ala Gln Leu Asp
435 440 445
Asp Leu Leu Pro Arg Asp Pro His Glu Leu Val Ala Leu Tyr Phe Gln
450 455 460
Asp Tyr Gly Ala Glu Gln His Leu Ala Gly Glu Phe Gly Gly Ala Lys
465 470 475 480
Ile Gln Tyr Arg Arg Asp Gln Leu Asn His Leu His Ala Arg Arg Gly
485 490 495
Ala Arg Asp Val Tyr Leu Asn Leu Ser Val Arg Val Gln Ser Gln Ser
500 505 510
Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu
515 520 525
Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp
530 535 540
Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu
545 550 555 560
Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser
565 570 575
Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro
580 585 590
Asn Ser Glu Gly Arg Val Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu
595 600 605
Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly
610 615 620
Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg
625 630 635 640
Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val
645 650 655
Arg Cys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys
660 665 670
Leu Ile Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp Trp Arg
675 680 685
Glu Ala Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile
690 695 700
Cys Gly Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val Arg Arg
705 710 715 720
Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp Val
725 730 735
Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp Val Val
740 745 750
Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys
755 760 765
Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val
770 775 780
<210> 6
<211> 346
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 6
Ile Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His
1 5 10 15
Ile Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile
20 25 30
Ile Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg Gly
35 40 45
Lys Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu
50 55 60
Glu Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu
65 70 75 80
Asn Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu
85 90 95
Leu Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala
100 105 110
Ala Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg
115 120 125
Cys Arg Arg Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu Pro
130 135 140
Phe Pro Trp Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp Gly
145 150 155 160
Cys Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Phe
165 170 175
Phe Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His
180 185 190
Ala Asp Leu Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser Asp
195 200 205
Phe Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp
210 215 220
Gly Glu Pro Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala Asp
225 230 235 240
Ser Tyr Gly Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr Tyr
245 250 255
Glu Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln Glu Glu
260 265 270
Leu Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp Glu Ala Arg
275 280 285
Glu Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly Ile Ile Asn Arg
290 295 300
Gly Asp Trp Thr Arg Gln Lys Glu Phe Trp Ser Met Val Asn Gln Arg
305 310 315 320
Ile Glu Gly Tyr Leu Val Lys Gln Ile Arg Ser Arg Val Arg Leu Gln
325 330 335
Glu Ser Ala Cys Glu Asn Thr Gly Asp Ile
340 345
<210> 7
<211> 89
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 89
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 89
<223> 可呈现为18-35之间任意整数的重复
<400> 7
gucgucuaua ggacggcgag uuuuucaacg ggugugccaa uggccacuuu ccagguggca 60
aagcccguug agcuucaaga aguggcacn 89
<210> 8
<211> 64
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 64
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 64
<223> 可呈现为18-35之间任意整数的重复
<400> 8
caacgggugu gccaauggcc acuuuccagg uggcaaagcc cguugagcuu caagaagugg 60
cacn 64
<210> 9
<211> 73
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 73
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 73
<223> 可呈现为18-35之间任意整数的重复
<400> 9
gucgucuaua ggacggcgag uuuuugugcc aauggccacu uuccaggugg caaaagcuuc 60
aagaaguggc acn 73
<210> 10
<211> 62
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 62
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 62
<223> 可呈现为18-35之间任意整数的重复
<400> 10
gucgucuaua ggacggcgag uuuuucaacg ggugugcccg uugagcuuca agaaguggca 60
cn 62
<210> 11
<211> 644
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 11
Pro Lys Lys Lys Arg Lys Val Pro Gly Met Ala Val Lys Ser Met Lys
1 5 10 15
Val Lys Leu Arg Leu Asp Asn Met Pro Glu Ile Arg Ala Gly Leu Trp
20 25 30
Lys Leu His Thr Glu Val Asn Ala Gly Val Arg Tyr Tyr Thr Glu Trp
35 40 45
Leu Ser Leu Leu Arg Gln Glu Asn Leu Tyr Arg Arg Ser Pro Asn Gly
50 55 60
Asp Gly Glu Gln Glu Cys Tyr Lys Thr Ala Glu Glu Cys Lys Ala Glu
65 70 75 80
Leu Leu Glu Arg Leu Arg Ala Arg Gln Val Glu Asn Gly His Cys Gly
85 90 95
Pro Ala Gly Ser Asp Asp Glu Leu Leu Gln Leu Ala Arg Gln Leu Tyr
100 105 110
Glu Leu Leu Val Pro Gln Ala Ile Gly Ala Lys Gly Asp Ala Gln Gln
115 120 125
Ile Ala Arg Lys Phe Leu Ser Pro Leu Ala Asp Lys Asp Ala Val Gly
130 135 140
Gly Leu Gly Ile Ala Lys Ala Gly Asn Lys Pro Arg Trp Val Arg Met
145 150 155 160
Arg Glu Ala Gly Glu Pro Gly Trp Glu Glu Glu Lys Ala Lys Ala Glu
165 170 175
Ala Arg Lys Ser Thr Asp Arg Thr Ala Asp Val Leu Arg Ala Leu Ala
180 185 190
Asp Phe Gly Leu Lys Pro Leu Met Arg Val Tyr Thr Asp Ser Asp Met
195 200 205
Ser Ser Val Gln Trp Lys Pro Leu Arg Lys Gly Gln Ala Val Arg Thr
210 215 220
Trp Asp Arg Asp Met Phe Gln Gln Ala Ile Glu Arg Met Met Ser Trp
225 230 235 240
Glu Ser Trp Asn Gln Arg Val Gly Glu Ala Tyr Ala Lys Leu Val Glu
245 250 255
Gln Lys Ser Arg Phe Glu Gln Lys Asn Phe Val Gly Gln Glu His Leu
260 265 270
Val Gln Leu Val Asn Gln Leu Gln Gln Asp Met Lys Glu Ala Ser His
275 280 285
Gly Leu Glu Ser Lys Glu Gln Thr Ala His Tyr Leu Thr Gly Arg Ala
290 295 300
Leu Arg Gly Ser Asp Lys Val Phe Glu Lys Trp Glu Lys Leu Asp Pro
305 310 315 320
Asp Ala Pro Phe Asp Leu Tyr Asp Thr Glu Ile Lys Asn Val Gln Arg
325 330 335
Arg Asn Thr Arg Arg Phe Gly Ser His Asp Leu Phe Ala Lys Leu Ala
340 345 350
Glu Pro Lys Tyr Gln Ala Leu Trp Arg Glu Asp Ala Ser Phe Leu Thr
355 360 365
Arg Tyr Ala Val Tyr Asn Ser Ile Val Arg Lys Leu Asn His Ala Lys
370 375 380
Met Phe Ala Thr Phe Thr Leu Pro Asp Ala Thr Ala His Pro Ile Trp
385 390 395 400
Thr Arg Phe Asp Lys Leu Gly Gly Asn Leu His Gln Tyr Thr Phe Leu
405 410 415
Phe Asn Glu Phe Gly Glu Gly Arg His Ala Ile Arg Phe Gln Lys Leu
420 425 430
Leu Thr Val Glu Asp Gly Val Ala Lys Glu Val Asp Asp Val Thr Val
435 440 445
Pro Ile Ser Met Ser Ala Gln Leu Asp Asp Leu Leu Pro Arg Asp Pro
450 455 460
His Glu Leu Val Ala Leu Tyr Phe Gln Asp Tyr Gly Ala Glu Gln His
465 470 475 480
Leu Ala Gly Glu Phe Gly Gly Ala Lys Ile Gln Tyr Arg Arg Asp Gln
485 490 495
Leu Asn His Leu His Ala Arg Arg Gly Ala Arg Asp Val Tyr Leu Asn
500 505 510
Leu Ser Val Arg Val Gln Ser Gln Ser Glu Ala Arg Gly Glu Arg Ser
515 520 525
Arg Gly Gly Ser Gly Ser Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser
530 535 540
Gly Glu Met Trp His Glu Gly Leu Glu Glu Ala Ser Arg Leu Tyr Phe
545 550 555 560
Gly Glu Arg Asn Val Lys Gly Met Phe Glu Val Leu Glu Pro Leu His
565 570 575
Ala Met Met Glu Arg Gly Pro Gln Thr Leu Lys Glu Thr Ser Phe Asn
580 585 590
Gln Ala Tyr Gly Arg Asp Leu Met Glu Ala Gln Glu Trp Cys Arg Lys
595 600 605
Tyr Met Lys Ser Gly Asn Val Lys Asp Leu Thr Gln Ala Trp Asp Leu
610 615 620
Tyr Tyr His Val Phe Arg Arg Ile Ser Lys Gln Ala Ser Pro Lys Lys
625 630 635 640
Lys Arg Lys Val
<210> 12
<211> 752
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 12
Pro Lys Lys Lys Arg Lys Val Pro Gly Met Gly Val Gln Val Glu Thr
1 5 10 15
Ile Ser Pro Gly Asp Gly Arg Thr Phe Pro Lys Arg Gly Gln Thr Cys
20 25 30
Val Val His Tyr Thr Gly Met Leu Glu Asp Gly Lys Lys Phe Asp Ser
35 40 45
Ser Arg Asp Arg Asn Lys Pro Phe Lys Phe Met Leu Gly Lys Gln Glu
50 55 60
Val Ile Arg Gly Trp Glu Glu Gly Val Ala Gln Met Ser Val Gly Gln
65 70 75 80
Arg Ala Lys Leu Thr Ile Ser Pro Asp Tyr Ala Tyr Gly Ala Thr Gly
85 90 95
His Pro Gly Ile Ile Pro Pro His Ala Thr Leu Val Phe Asp Val Glu
100 105 110
Leu Leu Lys Leu Glu Gly Gly Ser Gly Gly Ser Gly Gly Gly Ser Gly
115 120 125
Gly Gly Leu Lys Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu Val Gly
130 135 140
Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp Tyr Leu
145 150 155 160
Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu Leu Ser
165 170 175
Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser Ala Ser
180 185 190
Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro Asn Ser
195 200 205
Glu Gly Arg Val Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu Asn Leu
210 215 220
Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly Glu Thr
225 230 235 240
Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg Thr Leu
245 250 255
Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val Arg Cys
260 265 270
Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys Leu Ile
275 280 285
Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp Trp Arg Glu Ala
290 295 300
Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile Cys Gly
305 310 315 320
Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val Arg Arg Val Trp
325 330 335
Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp Val Arg Ser
340 345 350
Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp Val Val Gly Gly
355 360 365
Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys Phe Leu
370 375 380
Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val Ile Arg Ala
385 390 395 400
Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His Ile Asp His
405 410 415
Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile Ile Met Glu
420 425 430
Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg Gly Lys Gly Lys
435 440 445
Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu Glu Leu
450 455 460
Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn Asn Gln
465 470 475 480
Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Leu Asn Gln
485 490 495
Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala Phe Ser
500 505 510
Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys Arg Arg
515 520 525
Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu Pro Phe Pro Trp
530 535 540
Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp Gly Cys Pro Leu
545 550 555 560
Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Phe Phe Val Ser
565 570 575
Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala Asp Leu
580 585 590
Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser Asp Phe Asp Ile
595 600 605
Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly Glu Pro
610 615 620
Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala Asp Ser Tyr Gly
625 630 635 640
Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr Tyr Glu Arg Glu
645 650 655
Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln Glu Glu Leu Ser Glu
660 665 670
Glu Glu Ala Glu Leu Leu Val Glu Ala Asp Glu Ala Arg Glu Lys Ser
675 680 685
Val Val Leu Met Arg Asp Pro Ser Gly Ile Ile Asn Arg Gly Asp Trp
690 695 700
Thr Arg Gln Lys Glu Phe Trp Ser Met Val Asn Gln Arg Ile Glu Gly
705 710 715 720
Tyr Leu Val Lys Gln Ile Arg Ser Arg Val Arg Leu Gln Glu Ser Ala
725 730 735
Cys Glu Asn Thr Gly Asp Ile Ala Ser Pro Lys Lys Lys Arg Lys Val
740 745 750
<210> 13
<211> 784
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 13
Pro Lys Lys Lys Arg Lys Val Pro Gly Met Ala Val Lys Ser Met Lys
1 5 10 15
Val Lys Leu Arg Leu Asp Asn Met Pro Glu Ile Arg Ala Gly Leu Trp
20 25 30
Lys Leu His Thr Glu Val Asn Ala Gly Val Arg Tyr Tyr Thr Glu Trp
35 40 45
Leu Ser Leu Leu Arg Gln Glu Asn Leu Tyr Arg Arg Ser Pro Asn Gly
50 55 60
Asp Gly Glu Gln Glu Cys Tyr Lys Thr Ala Glu Glu Cys Lys Ala Glu
65 70 75 80
Leu Leu Glu Arg Leu Arg Ala Arg Gln Val Glu Asn Gly His Cys Gly
85 90 95
Pro Ala Gly Ser Asp Asp Glu Leu Leu Gln Leu Ala Arg Gln Leu Tyr
100 105 110
Glu Leu Leu Val Pro Gln Ala Ile Gly Ala Lys Gly Asp Ala Gln Gln
115 120 125
Ile Ala Arg Lys Phe Leu Ser Pro Leu Ala Asp Lys Asp Ala Val Gly
130 135 140
Gly Leu Gly Ile Ala Lys Ala Gly Asn Lys Pro Arg Trp Val Arg Met
145 150 155 160
Arg Glu Ala Gly Glu Pro Gly Trp Glu Glu Glu Lys Ala Lys Ala Glu
165 170 175
Ala Arg Lys Ser Thr Asp Arg Thr Ala Asp Val Leu Arg Ala Leu Ala
180 185 190
Asp Phe Gly Leu Lys Pro Leu Met Arg Val Tyr Thr Asp Ser Asp Met
195 200 205
Ser Ser Val Gln Trp Lys Pro Leu Arg Lys Gly Gln Ala Val Arg Thr
210 215 220
Trp Asp Arg Asp Met Phe Gln Gln Ala Ile Glu Arg Met Met Ser Trp
225 230 235 240
Glu Ser Trp Asn Gln Arg Val Gly Glu Ala Tyr Ala Lys Leu Val Glu
245 250 255
Gln Lys Ser Arg Phe Glu Gln Lys Asn Phe Val Gly Gln Glu His Leu
260 265 270
Val Gln Leu Val Asn Gln Leu Gln Gln Asp Met Lys Glu Ala Ser His
275 280 285
Gly Leu Glu Ser Lys Glu Gln Thr Ala His Tyr Leu Thr Gly Arg Ala
290 295 300
Leu Arg Gly Ser Asp Lys Val Phe Glu Lys Trp Glu Lys Leu Asp Pro
305 310 315 320
Asp Ala Pro Phe Asp Leu Tyr Asp Thr Glu Ile Lys Asn Val Gln Arg
325 330 335
Arg Asn Thr Arg Arg Phe Gly Ser His Asp Leu Phe Ala Lys Leu Ala
340 345 350
Glu Pro Lys Tyr Gln Ala Leu Trp Arg Glu Asp Ala Ser Phe Leu Thr
355 360 365
Arg Tyr Ala Val Tyr Asn Ser Ile Val Arg Lys Leu Asn His Ala Lys
370 375 380
Met Phe Ala Thr Phe Thr Leu Pro Asp Ala Thr Ala His Pro Ile Trp
385 390 395 400
Thr Arg Phe Asp Lys Leu Gly Gly Asn Leu His Gln Tyr Thr Phe Leu
405 410 415
Phe Asn Glu Phe Gly Glu Gly Arg His Ala Ile Arg Phe Gln Lys Leu
420 425 430
Leu Thr Val Glu Asp Gly Val Ala Lys Glu Val Asp Asp Val Thr Val
435 440 445
Pro Ile Ser Met Ser Ala Gln Leu Asp Asp Leu Leu Pro Arg Asp Pro
450 455 460
His Glu Leu Val Ala Leu Tyr Phe Gln Asp Tyr Gly Ala Glu Gln His
465 470 475 480
Leu Ala Gly Glu Phe Gly Gly Ala Lys Ile Gln Tyr Arg Arg Asp Gln
485 490 495
Leu Asn His Leu His Ala Arg Arg Gly Ala Arg Asp Val Tyr Leu Asn
500 505 510
Leu Ser Val Arg Val Gln Ser Gln Ser Glu Ala Arg Gly Glu Arg Arg
515 520 525
Pro Pro Tyr Ala Ala Val Phe Arg Leu Val Gly Asp Asn His Arg Ala
530 535 540
Phe Val His Phe Asp Lys Leu Ser Asp Tyr Leu Ala Glu His Pro Asp
545 550 555 560
Asp Gly Lys Leu Gly Ser Glu Gly Leu Leu Ser Gly Leu Arg Val Met
565 570 575
Ser Val Asp Leu Gly Leu Arg Thr Ser Ala Ser Ile Ser Val Phe Arg
580 585 590
Val Ala Arg Lys Asp Glu Leu Lys Pro Asn Ser Glu Gly Arg Val Pro
595 600 605
Phe Cys Phe Pro Ile Glu Gly Asn Glu Asn Leu Val Ala Val His Glu
610 615 620
Arg Ser Gln Leu Leu Lys Leu Pro Gly Glu Thr Glu Ser Lys Asp Leu
625 630 635 640
Arg Ala Ile Arg Glu Glu Arg Gln Arg Thr Leu Arg Gln Leu Arg Thr
645 650 655
Gln Leu Ala Tyr Leu Arg Leu Leu Val Arg Cys Ser Arg Gly Gly Ser
660 665 670
Gly Ser Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Glu Met Trp
675 680 685
His Glu Gly Leu Glu Glu Ala Ser Arg Leu Tyr Phe Gly Glu Arg Asn
690 695 700
Val Lys Gly Met Phe Glu Val Leu Glu Pro Leu His Ala Met Met Glu
705 710 715 720
Arg Gly Pro Gln Thr Leu Lys Glu Thr Ser Phe Asn Gln Ala Tyr Gly
725 730 735
Arg Asp Leu Met Glu Ala Gln Glu Trp Cys Arg Lys Tyr Met Lys Ser
740 745 750
Gly Asn Val Lys Asp Leu Thr Gln Ala Trp Asp Leu Tyr Tyr His Val
755 760 765
Phe Arg Arg Ile Ser Lys Gln Ala Ser Pro Lys Lys Lys Arg Lys Val
770 775 780
<210> 14
<211> 612
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 14
Pro Lys Lys Lys Arg Lys Val Pro Gly Met Gly Val Gln Val Glu Thr
1 5 10 15
Ile Ser Pro Gly Asp Gly Arg Thr Phe Pro Lys Arg Gly Gln Thr Cys
20 25 30
Val Val His Tyr Thr Gly Met Leu Glu Asp Gly Lys Lys Phe Asp Ser
35 40 45
Ser Arg Asp Arg Asn Lys Pro Phe Lys Phe Met Leu Gly Lys Gln Glu
50 55 60
Val Ile Arg Gly Trp Glu Glu Gly Val Ala Gln Met Ser Val Gly Gln
65 70 75 80
Arg Ala Lys Leu Thr Ile Ser Pro Asp Tyr Ala Tyr Gly Ala Thr Gly
85 90 95
His Pro Gly Ile Ile Pro Pro His Ala Thr Leu Val Phe Asp Val Glu
100 105 110
Leu Leu Lys Leu Glu Gly Gly Ser Gly Gly Ser Gly Gly Gly Ser Gly
115 120 125
Gly Gly Leu Lys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp
130 135 140
Ala Lys Leu Ile Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp
145 150 155 160
Trp Arg Glu Ala Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr
165 170 175
Gly Ile Cys Gly Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val
180 185 190
Arg Arg Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys
195 200 205
Asp Val Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp
210 215 220
Val Val Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln
225 230 235 240
Tyr Lys Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln
245 250 255
Val Ile Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu
260 265 270
His Ile Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg
275 280 285
Ile Ile Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg
290 295 300
Gly Lys Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu
305 310 315 320
Leu Glu Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser
325 330 335
Glu Asn Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu
340 345 350
Leu Leu Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr
355 360 365
Ala Ala Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile
370 375 380
Arg Cys Arg Arg Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu
385 390 395 400
Pro Phe Pro Trp Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp
405 410 415
Gly Cys Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu
420 425 430
Phe Phe Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile
435 440 445
His Ala Asp Leu Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser
450 455 460
Asp Phe Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val
465 470 475 480
Asp Gly Glu Pro Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala
485 490 495
Asp Ser Tyr Gly Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr
500 505 510
Tyr Glu Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln Glu
515 520 525
Glu Leu Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp Glu Ala
530 535 540
Arg Glu Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly Ile Ile Asn
545 550 555 560
Arg Gly Asp Trp Thr Arg Gln Lys Glu Phe Trp Ser Met Val Asn Gln
565 570 575
Arg Ile Glu Gly Tyr Leu Val Lys Gln Ile Arg Ser Arg Val Arg Leu
580 585 590
Gln Glu Ser Ala Cys Glu Asn Thr Gly Asp Ile Ala Ser Pro Lys Lys
595 600 605
Lys Arg Lys Val
610
<210> 15
<211> 909
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 15
Pro Lys Lys Lys Arg Lys Val Pro Gly Met Ala Val Lys Ser Met Lys
1 5 10 15
Val Lys Leu Arg Leu Asp Asn Met Pro Glu Ile Arg Ala Gly Leu Trp
20 25 30
Lys Leu His Thr Glu Val Asn Ala Gly Val Arg Tyr Tyr Thr Glu Trp
35 40 45
Leu Ser Leu Leu Arg Gln Glu Asn Leu Tyr Arg Arg Ser Pro Asn Gly
50 55 60
Asp Gly Glu Gln Glu Cys Tyr Lys Thr Ala Glu Glu Cys Lys Ala Glu
65 70 75 80
Leu Leu Glu Arg Leu Arg Ala Arg Gln Val Glu Asn Gly His Cys Gly
85 90 95
Pro Ala Gly Ser Asp Asp Glu Leu Leu Gln Leu Ala Arg Gln Leu Tyr
100 105 110
Glu Leu Leu Val Pro Gln Ala Ile Gly Ala Lys Gly Asp Ala Gln Gln
115 120 125
Ile Ala Arg Lys Phe Leu Ser Pro Leu Ala Asp Lys Asp Ala Val Gly
130 135 140
Gly Leu Gly Ile Ala Lys Ala Gly Asn Lys Pro Arg Trp Val Arg Met
145 150 155 160
Arg Glu Ala Gly Glu Pro Gly Trp Glu Glu Glu Lys Ala Lys Ala Glu
165 170 175
Ala Arg Lys Ser Thr Asp Arg Thr Ala Asp Val Leu Arg Ala Leu Ala
180 185 190
Asp Phe Gly Leu Lys Pro Leu Met Arg Val Tyr Thr Asp Ser Asp Met
195 200 205
Ser Ser Val Gln Trp Lys Pro Leu Arg Lys Gly Gln Ala Val Arg Thr
210 215 220
Trp Asp Arg Asp Met Phe Gln Gln Ala Ile Glu Arg Met Met Ser Trp
225 230 235 240
Glu Ser Trp Asn Gln Arg Val Gly Glu Ala Tyr Ala Lys Leu Val Glu
245 250 255
Gln Lys Ser Arg Phe Glu Gln Lys Asn Phe Val Gly Gln Glu His Leu
260 265 270
Val Gln Leu Val Asn Gln Leu Gln Gln Asp Met Lys Glu Ala Ser His
275 280 285
Gly Leu Glu Ser Lys Glu Gln Thr Ala His Tyr Leu Thr Gly Arg Ala
290 295 300
Leu Arg Gly Ser Asp Lys Val Phe Glu Lys Trp Glu Lys Leu Asp Pro
305 310 315 320
Asp Ala Pro Phe Asp Leu Tyr Asp Thr Glu Ile Lys Asn Val Gln Arg
325 330 335
Arg Asn Thr Arg Arg Phe Gly Ser His Asp Leu Phe Ala Lys Leu Ala
340 345 350
Glu Pro Lys Tyr Gln Ala Leu Trp Arg Glu Asp Ala Ser Phe Leu Thr
355 360 365
Arg Tyr Ala Val Tyr Asn Ser Ile Val Arg Lys Leu Asn His Ala Lys
370 375 380
Met Phe Ala Thr Phe Thr Leu Pro Asp Ala Thr Ala His Pro Ile Trp
385 390 395 400
Thr Arg Phe Asp Lys Leu Gly Gly Asn Leu His Gln Tyr Thr Phe Leu
405 410 415
Phe Asn Glu Phe Gly Glu Gly Arg His Ala Ile Arg Phe Gln Lys Leu
420 425 430
Leu Thr Val Glu Asp Gly Val Ala Lys Glu Val Asp Asp Val Thr Val
435 440 445
Pro Ile Ser Met Ser Ala Gln Leu Asp Asp Leu Leu Pro Arg Asp Pro
450 455 460
His Glu Leu Val Ala Leu Tyr Phe Gln Asp Tyr Gly Ala Glu Gln His
465 470 475 480
Leu Ala Gly Glu Phe Gly Gly Ala Lys Ile Gln Tyr Arg Arg Asp Gln
485 490 495
Leu Asn His Leu His Ala Arg Arg Gly Ala Arg Asp Val Tyr Leu Asn
500 505 510
Leu Ser Val Arg Val Gln Ser Gln Ser Glu Ala Arg Gly Glu Arg Arg
515 520 525
Pro Pro Tyr Ala Ala Val Phe Arg Leu Val Gly Asp Asn His Arg Ala
530 535 540
Phe Val His Phe Asp Lys Leu Ser Asp Tyr Leu Ala Glu His Pro Asp
545 550 555 560
Asp Gly Lys Leu Gly Ser Glu Gly Leu Leu Ser Gly Leu Arg Val Met
565 570 575
Ser Val Asp Leu Gly Leu Arg Thr Ser Ala Ser Ile Ser Val Phe Arg
580 585 590
Val Ala Arg Lys Asp Glu Leu Lys Pro Asn Ser Glu Gly Arg Val Pro
595 600 605
Phe Cys Phe Pro Ile Glu Gly Asn Glu Asn Leu Val Ala Val His Glu
610 615 620
Arg Ser Gln Leu Leu Lys Leu Pro Gly Glu Thr Glu Ser Lys Asp Leu
625 630 635 640
Arg Ala Ile Arg Glu Glu Arg Gln Arg Thr Leu Arg Gln Leu Arg Thr
645 650 655
Gln Leu Ala Tyr Leu Arg Leu Leu Val Arg Cys Gly Ser Glu Asp Val
660 665 670
Gly Arg Arg Glu Arg Ser Trp Ala Lys Leu Ile Glu Gln Pro Met Asp
675 680 685
Ala Asn Gln Met Thr Pro Asp Trp Arg Glu Ala Phe Glu Asp Glu Leu
690 695 700
Gln Lys Leu Lys Ser Leu Tyr Gly Ile Cys Gly Asp Arg Glu Trp Thr
705 710 715 720
Glu Ala Val Tyr Glu Ser Val Arg Arg Val Trp Arg His Met Gly Lys
725 730 735
Gln Val Arg Asp Trp Arg Lys Asp Val Arg Ser Gly Glu Arg Pro Lys
740 745 750
Ile Arg Gly Tyr Gln Lys Asp Val Val Gly Gly Asn Ser Ile Glu Gln
755 760 765
Ile Glu Tyr Leu Glu Arg Gln Tyr Lys Phe Leu Lys Ser Trp Ser Phe
770 775 780
Phe Gly Lys Val Ser Gly Gln Val Ser Arg Gly Gly Ser Gly Ser Ser
785 790 795 800
Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Glu Met Trp His Glu Gly
805 810 815
Leu Glu Glu Ala Ser Arg Leu Tyr Phe Gly Glu Arg Asn Val Lys Gly
820 825 830
Met Phe Glu Val Leu Glu Pro Leu His Ala Met Met Glu Arg Gly Pro
835 840 845
Gln Thr Leu Lys Glu Thr Ser Phe Asn Gln Ala Tyr Gly Arg Asp Leu
850 855 860
Met Glu Ala Gln Glu Trp Cys Arg Lys Tyr Met Lys Ser Gly Asn Val
865 870 875 880
Lys Asp Leu Thr Gln Ala Trp Asp Leu Tyr Tyr His Val Phe Arg Arg
885 890 895
Ile Ser Lys Gln Ala Ser Pro Lys Lys Lys Arg Lys Val
900 905
<210> 16
<211> 487
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 16
Pro Lys Lys Lys Arg Lys Val Pro Gly Met Gly Val Gln Val Glu Thr
1 5 10 15
Ile Ser Pro Gly Asp Gly Arg Thr Phe Pro Lys Arg Gly Gln Thr Cys
20 25 30
Val Val His Tyr Thr Gly Met Leu Glu Asp Gly Lys Lys Phe Asp Ser
35 40 45
Ser Arg Asp Arg Asn Lys Pro Phe Lys Phe Met Leu Gly Lys Gln Glu
50 55 60
Val Ile Arg Gly Trp Glu Glu Gly Val Ala Gln Met Ser Val Gly Gln
65 70 75 80
Arg Ala Lys Leu Thr Ile Ser Pro Asp Tyr Ala Tyr Gly Ala Thr Gly
85 90 95
His Pro Gly Ile Ile Pro Pro His Ala Thr Leu Val Phe Asp Val Glu
100 105 110
Leu Leu Lys Leu Glu Gly Gly Ser Gly Gly Ser Gly Gly Gly Ser Gly
115 120 125
Gly Gly Leu Lys Ile Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr
130 135 140
Leu Arg Glu His Ile Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu
145 150 155 160
Ala Asp Arg Ile Ile Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp
165 170 175
Asp Glu Arg Gly Lys Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln
180 185 190
Leu Ile Leu Leu Glu Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg
195 200 205
Pro Pro Ser Glu Asn Asn Gln Leu Met Gln Trp Ser His Arg Gly Val
210 215 220
Phe Gln Glu Leu Leu Asn Gln Ala Gln Val His Asp Leu Leu Val Gly
225 230 235 240
Thr Met Tyr Ala Ala Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala
245 250 255
Pro Gly Ile Arg Cys Arg Arg Val Pro Ala Arg Cys Ala Arg Glu Gln
260 265 270
Asn Pro Glu Pro Phe Pro Trp Trp Leu Asn Lys Phe Val Ala Glu His
275 280 285
Lys Leu Asp Gly Cys Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly
290 295 300
Glu Gly Glu Phe Phe Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe
305 310 315 320
His Gln Ile His Ala Asp Leu Asn Ala Ala Gln Asn Leu Gln Arg Arg
325 330 335
Leu Trp Ser Asp Phe Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp
340 345 350
Gly Glu Val Asp Gly Glu Pro Val Leu Ile Pro Arg Thr Thr Gly Lys
355 360 365
Arg Thr Ala Asp Ser Tyr Gly Asn Lys Val Phe Tyr Thr Lys Thr Gly
370 375 380
Val Thr Tyr Tyr Glu Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe
385 390 395 400
Ala Gln Glu Glu Leu Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala
405 410 415
Asp Glu Ala Arg Glu Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly
420 425 430
Ile Ile Asn Arg Gly Asp Trp Thr Arg Gln Lys Glu Phe Trp Ser Met
435 440 445
Val Asn Gln Arg Ile Glu Gly Tyr Leu Val Lys Gln Ile Arg Ser Arg
450 455 460
Val Arg Leu Gln Glu Ser Ala Cys Glu Asn Thr Gly Asp Ile Ala Ser
465 470 475 480
Pro Lys Lys Lys Arg Lys Val
485
<210> 17
<211> 1932
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 17
cccaagaaga agcgcaaggt gcccgggatg gccgtgaaga gcatgaaggt gaagctgcgc 60
ctggacaaca tgcccgagat ccgcgccggc ctgtggaagc tgcacaccga ggtgaacgcc 120
ggcgtgcgct actacaccga gtggctgagc ctgctgcgcc aggagaacct gtaccgccgc 180
agccccaacg gcgacggcga gcaggagtgc tacaagaccg ccgaggagtg caaggccgag 240
ctgctggagc gcctgcgcgc ccgccaggtg gagaacggcc actgcggccc cgccggcagc 300
gacgacgagc tgctgcagct ggcccgccag ctgtacgagc tgctggtgcc ccaggccatc 360
ggcgccaagg gcgacgccca gcagatcgcc cgcaagttcc tgagccccct ggccgacaag 420
gacgccgtgg gcggcctggg catcgccaag gccggcaaca agccccgctg ggtgcgcatg 480
cgcgaggccg gcgagcccgg ctgggaggag gagaaggcca aggccgaggc ccgcaagagc 540
accgaccgca ccgccgacgt gctgcgcgcc ctggccgact tcggcctgaa gcccctgatg 600
cgcgtgtaca ccgacagcga catgagcagc gtgcagtgga agcccctgcg caagggccag 660
gccgtgcgca cctgggaccg cgacatgttc cagcaggcca tcgagcgcat gatgagctgg 720
gagagctgga accagcgcgt gggcgaggcc tacgccaagc tggtggagca gaagagccgc 780
ttcgagcaga agaacttcgt gggccaggag cacctggtgc agctggtgaa ccagctgcag 840
caggacatga aggaggccag ccacggcctg gagagcaagg agcagaccgc ccactacctg 900
accggccgcg ccctgcgcgg cagcgacaag gtgttcgaga agtgggagaa gctggacccc 960
gacgccccct tcgacctgta cgacaccgag atcaagaacg tgcagcgccg caacacccgc 1020
cgcttcggca gccacgacct gttcgccaag ctggccgagc ccaagtacca ggccctgtgg 1080
cgcgaggacg ccagcttcct gacccgctac gccgtgtaca acagcatcgt gcgcaagctg 1140
aaccacgcca agatgttcgc caccttcacc ctgcccgacg ccaccgccca ccccatctgg 1200
acccgcttcg acaagctggg cggcaacctg caccagtaca ccttcctgtt caacgagttc 1260
ggcgagggcc gccacgccat ccgcttccag aagctgctga ccgtggagga cggcgtggcc 1320
aaggaggtgg acgacgtgac cgtgcccatc agcatgagcg cccagctgga cgacctgctg 1380
ccccgcgacc cccacgagct ggtggccctg tacttccagg actacggcgc cgagcagcac 1440
ctggccggcg agttcggcgg cgccaagatc cagtaccgcc gcgaccagct gaaccacctg 1500
cacgcccgcc gcggcgcccg cgacgtgtac ctgaacctga gcgtgcgcgt gcagagccag 1560
agcgaggccc gcggcgagcg ctctagaggc ggcagcggca gcagcggcgg cagcggcggc 1620
agcggcggca gcggcgagat gtggcacgag ggcctggagg aggccagccg cctgtacttc 1680
ggcgagcgca acgtgaaggg catgttcgag gtgctggagc ccctgcacgc catgatggag 1740
cgcggccccc agaccctgaa ggagaccagc ttcaaccagg cctacggccg cgacctgatg 1800
gaggcccagg agtggtgccg caagtacatg aagagcggca acgtgaagga cctgacccag 1860
gcctgggacc tgtactacca cgtgttccgc cgcatcagca agcaggctag ccccaagaag 1920
aagcgcaagg tg 1932
<210> 18
<211> 2256
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 18
cccaagaaga agcgcaaggt gcccgggatg ggcgtgcagg tggagaccat cagccccggc 60
gacggccgca ccttccccaa gcgcggccag acctgcgtgg tgcactacac cggcatgctg 120
gaggacggca agaagttcga cagcagccgc gaccgcaaca agcccttcaa gttcatgctg 180
ggcaagcagg aggtgatccg cggctgggag gagggcgtgg cccagatgag cgtgggccag 240
cgcgccaagc tgaccatcag ccccgactac gcctacggcg ccaccggcca ccccggcatc 300
atcccccccc acgccaccct ggtgttcgac gtggagctgc tgaagctgga gggcggcagc 360
ggcggcagcg gcggcggcag cggcggcggc cttaagcgcc ccccctacgc cgccgtgttc 420
cgcctggtgg gcgacaacca ccgcgccttc gtgcacttcg acaagctgag cgactacctg 480
gccgagcacc ccgacgacgg caagctgggc agcgagggcc tgctgagcgg cctgcgcgtg 540
atgagcgtgg acctgggcct gcgcaccagc gccagcatca gcgtgttccg cgtggcccgc 600
aaggacgagc tgaagcccaa cagcgagggc cgcgtgccct tctgcttccc catcgagggc 660
aacgagaacc tggtggccgt gcacgagcgc agccagctgc tgaagctgcc cggcgagacc 720
gagagcaagg acctgcgcgc catccgcgag gagcgccagc gcaccctgcg ccagctgcgc 780
acccagctgg cctacctgcg cctgctggtg cgctgcggca gcgaggacgt gggccgccgc 840
gagcgcagct gggccaagct gatcgagcag cccatggacg ccaaccagat gacccccgac 900
tggcgcgagg ccttcgagga cgagctgcag aagctgaaga gcctgtacgg catctgcggc 960
gaccgcgagt ggaccgaggc cgtgtacgag agcgtgcgcc gcgtgtggcg ccacatgggc 1020
aagcaggtgc gcgactggcg caaggacgtg cgcagcggcg agcgccccaa gatccgcggc 1080
taccagaagg acgtggtggg cggcaacagc atcgagcaga tcgagtacct ggagcgccag 1140
tacaagttcc tgaagagctg gagcttcttc ggcaaggtga gcggccaggt gatccgcgcc 1200
gagaagggca gccgcttcgc catcaccctg cgcgagcaca tcgaccacgc caaggaggac 1260
cgcctgaaga agctggccga ccgcatcatc atggaggccc tgggctacgt gtacgccctg 1320
gacgacgagc gcggcaaggg caagtgggtg gccaagtacc ccccctgcca gctgatcctg 1380
ctggaggagc tgagcgagta ccagttcaac aacgaccgcc cccccagcga gaacaaccag 1440
ctgatgcagt ggagccaccg cggcgtgttc caggagctgc tgaaccaggc ccaggtgcac 1500
gacctgctgg tgggcaccat gtacgccgcc ttcagcagcc gcttcgacgc ccgcaccggc 1560
gcccccggca tccgctgccg ccgcgtgccc gcccgctgcg cccgcgagca gaaccccgag 1620
cccttcccct ggtggctgaa caagttcgtg gccgagcaca agctggacgg ctgccccctg 1680
cgcgccgacg acctgatccc caccggcgag ggcgagttct tcgtgagccc cttcagcgcc 1740
gaggagggcg acttccacca gatccacgcc gacctgaacg ccgcccagaa cctgcagcgc 1800
cgcctgtgga gcgacttcga catcagccag atccgcctgc gctgcgactg gggcgaggtg 1860
gacggcgagc ccgtgctgat cccccgcacc accggcaagc gcaccgccga cagctacggc 1920
aacaaggtgt tctacaccaa gaccggcgtg acctactacg agcgcgagcg cggcaagaag 1980
cgccgcaagg tgttcgccca ggaggagctg agcgaggagg aggccgagct gctggtggag 2040
gccgacgagg cccgcgagaa gagcgtggtg ctgatgcgcg accccagcgg catcatcaac 2100
cgcggcgact ggacccgcca gaaggagttc tggagcatgg tgaaccagcg catcgagggc 2160
tacctggtga agcagatccg cagccgcgtg cgcctgcagg agagcgcctg cgagaacacc 2220
ggcgacatcg ctagccccaa gaagaagcgc aaggtg 2256
<210> 19
<211> 2352
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 19
cccaagaaga agcgcaaggt gcccgggatg gccgtgaaga gcatgaaggt gaagctgcgc 60
ctggacaaca tgcccgagat ccgcgccggc ctgtggaagc tgcacaccga ggtgaacgcc 120
ggcgtgcgct actacaccga gtggctgagc ctgctgcgcc aggagaacct gtaccgccgc 180
agccccaacg gcgacggcga gcaggagtgc tacaagaccg ccgaggagtg caaggccgag 240
ctgctggagc gcctgcgcgc ccgccaggtg gagaacggcc actgcggccc cgccggcagc 300
gacgacgagc tgctgcagct ggcccgccag ctgtacgagc tgctggtgcc ccaggccatc 360
ggcgccaagg gcgacgccca gcagatcgcc cgcaagttcc tgagccccct ggccgacaag 420
gacgccgtgg gcggcctggg catcgccaag gccggcaaca agccccgctg ggtgcgcatg 480
cgcgaggccg gcgagcccgg ctgggaggag gagaaggcca aggccgaggc ccgcaagagc 540
accgaccgca ccgccgacgt gctgcgcgcc ctggccgact tcggcctgaa gcccctgatg 600
cgcgtgtaca ccgacagcga catgagcagc gtgcagtgga agcccctgcg caagggccag 660
gccgtgcgca cctgggaccg cgacatgttc cagcaggcca tcgagcgcat gatgagctgg 720
gagagctgga accagcgcgt gggcgaggcc tacgccaagc tggtggagca gaagagccgc 780
ttcgagcaga agaacttcgt gggccaggag cacctggtgc agctggtgaa ccagctgcag 840
caggacatga aggaggccag ccacggcctg gagagcaagg agcagaccgc ccactacctg 900
accggccgcg ccctgcgcgg cagcgacaag gtgttcgaga agtgggagaa gctggacccc 960
gacgccccct tcgacctgta cgacaccgag atcaagaacg tgcagcgccg caacacccgc 1020
cgcttcggca gccacgacct gttcgccaag ctggccgagc ccaagtacca ggccctgtgg 1080
cgcgaggacg ccagcttcct gacccgctac gccgtgtaca acagcatcgt gcgcaagctg 1140
aaccacgcca agatgttcgc caccttcacc ctgcccgacg ccaccgccca ccccatctgg 1200
acccgcttcg acaagctggg cggcaacctg caccagtaca ccttcctgtt caacgagttc 1260
ggcgagggcc gccacgccat ccgcttccag aagctgctga ccgtggagga cggcgtggcc 1320
aaggaggtgg acgacgtgac cgtgcccatc agcatgagcg cccagctgga cgacctgctg 1380
ccccgcgacc cccacgagct ggtggccctg tacttccagg actacggcgc cgagcagcac 1440
ctggccggcg agttcggcgg cgccaagatc cagtaccgcc gcgaccagct gaaccacctg 1500
cacgcccgcc gcggcgcccg cgacgtgtac ctgaacctga gcgtgcgcgt gcagagccag 1560
agcgaggccc gcggcgagcg ccgccccccc tacgccgccg tgttccgcct ggtgggcgac 1620
aaccaccgcg ccttcgtgca cttcgacaag ctgagcgact acctggccga gcaccccgac 1680
gacggcaagc tgggcagcga gggcctgctg agcggcctgc gcgtgatgag cgtggacctg 1740
ggcctgcgca ccagcgccag catcagcgtg ttccgcgtgg cccgcaagga cgagctgaag 1800
cccaacagcg agggccgcgt gcccttctgc ttccccatcg agggcaacga gaacctggtg 1860
gccgtgcacg agcgcagcca gctgctgaag ctgcccggcg agaccgagag caaggacctg 1920
cgcgccatcc gcgaggagcg ccagcgcacc ctgcgccagc tgcgcaccca gctggcctac 1980
ctgcgcctgc tggtgcgctg ctctagaggc ggcagcggca gcagcggcgg cagcggcggc 2040
agcggcggca gcggcgagat gtggcacgag ggcctggagg aggccagccg cctgtacttc 2100
ggcgagcgca acgtgaaggg catgttcgag gtgctggagc ccctgcacgc catgatggag 2160
cgcggccccc agaccctgaa ggagaccagc ttcaaccagg cctacggccg cgacctgatg 2220
gaggcccagg agtggtgccg caagtacatg aagagcggca acgtgaagga cctgacccag 2280
gcctgggacc tgtactacca cgtgttccgc cgcatcagca agcaggctag ccccaagaag 2340
aagcgcaagg tg 2352
<210> 20
<211> 1836
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 20
cccaagaaga agcgcaaggt gcccgggatg ggcgtgcagg tggagaccat cagccccggc 60
gacggccgca ccttccccaa gcgcggccag acctgcgtgg tgcactacac cggcatgctg 120
gaggacggca agaagttcga cagcagccgc gaccgcaaca agcccttcaa gttcatgctg 180
ggcaagcagg aggtgatccg cggctgggag gagggcgtgg cccagatgag cgtgggccag 240
cgcgccaagc tgaccatcag ccccgactac gcctacggcg ccaccggcca ccccggcatc 300
atcccccccc acgccaccct ggtgttcgac gtggagctgc tgaagctgga gggcggcagc 360
ggcggcagcg gcggcggcag cggcggcggc cttaagggca gcgaggacgt gggccgccgc 420
gagcgcagct gggccaagct gatcgagcag cccatggacg ccaaccagat gacccccgac 480
tggcgcgagg ccttcgagga cgagctgcag aagctgaaga gcctgtacgg catctgcggc 540
gaccgcgagt ggaccgaggc cgtgtacgag agcgtgcgcc gcgtgtggcg ccacatgggc 600
aagcaggtgc gcgactggcg caaggacgtg cgcagcggcg agcgccccaa gatccgcggc 660
taccagaagg acgtggtggg cggcaacagc atcgagcaga tcgagtacct ggagcgccag 720
tacaagttcc tgaagagctg gagcttcttc ggcaaggtga gcggccaggt gatccgcgcc 780
gagaagggca gccgcttcgc catcaccctg cgcgagcaca tcgaccacgc caaggaggac 840
cgcctgaaga agctggccga ccgcatcatc atggaggccc tgggctacgt gtacgccctg 900
gacgacgagc gcggcaaggg caagtgggtg gccaagtacc ccccctgcca gctgatcctg 960
ctggaggagc tgagcgagta ccagttcaac aacgaccgcc cccccagcga gaacaaccag 1020
ctgatgcagt ggagccaccg cggcgtgttc caggagctgc tgaaccaggc ccaggtgcac 1080
gacctgctgg tgggcaccat gtacgccgcc ttcagcagcc gcttcgacgc ccgcaccggc 1140
gcccccggca tccgctgccg ccgcgtgccc gcccgctgcg cccgcgagca gaaccccgag 1200
cccttcccct ggtggctgaa caagttcgtg gccgagcaca agctggacgg ctgccccctg 1260
cgcgccgacg acctgatccc caccggcgag ggcgagttct tcgtgagccc cttcagcgcc 1320
gaggagggcg acttccacca gatccacgcc gacctgaacg ccgcccagaa cctgcagcgc 1380
cgcctgtgga gcgacttcga catcagccag atccgcctgc gctgcgactg gggcgaggtg 1440
gacggcgagc ccgtgctgat cccccgcacc accggcaagc gcaccgccga cagctacggc 1500
aacaaggtgt tctacaccaa gaccggcgtg acctactacg agcgcgagcg cggcaagaag 1560
cgccgcaagg tgttcgccca ggaggagctg agcgaggagg aggccgagct gctggtggag 1620
gccgacgagg cccgcgagaa gagcgtggtg ctgatgcgcg accccagcgg catcatcaac 1680
cgcggcgact ggacccgcca gaaggagttc tggagcatgg tgaaccagcg catcgagggc 1740
tacctggtga agcagatccg cagccgcgtg cgcctgcagg agagcgcctg cgagaacacc 1800
ggcgacatcg ctagccccaa gaagaagcgc aaggtg 1836
<210> 21
<211> 2727
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 21
cccaagaaga agcgcaaggt gcccgggatg gccgtgaaga gcatgaaggt gaagctgcgc 60
ctggacaaca tgcccgagat ccgcgccggc ctgtggaagc tgcacaccga ggtgaacgcc 120
ggcgtgcgct actacaccga gtggctgagc ctgctgcgcc aggagaacct gtaccgccgc 180
agccccaacg gcgacggcga gcaggagtgc tacaagaccg ccgaggagtg caaggccgag 240
ctgctggagc gcctgcgcgc ccgccaggtg gagaacggcc actgcggccc cgccggcagc 300
gacgacgagc tgctgcagct ggcccgccag ctgtacgagc tgctggtgcc ccaggccatc 360
ggcgccaagg gcgacgccca gcagatcgcc cgcaagttcc tgagccccct ggccgacaag 420
gacgccgtgg gcggcctggg catcgccaag gccggcaaca agccccgctg ggtgcgcatg 480
cgcgaggccg gcgagcccgg ctgggaggag gagaaggcca aggccgaggc ccgcaagagc 540
accgaccgca ccgccgacgt gctgcgcgcc ctggccgact tcggcctgaa gcccctgatg 600
cgcgtgtaca ccgacagcga catgagcagc gtgcagtgga agcccctgcg caagggccag 660
gccgtgcgca cctgggaccg cgacatgttc cagcaggcca tcgagcgcat gatgagctgg 720
gagagctgga accagcgcgt gggcgaggcc tacgccaagc tggtggagca gaagagccgc 780
ttcgagcaga agaacttcgt gggccaggag cacctggtgc agctggtgaa ccagctgcag 840
caggacatga aggaggccag ccacggcctg gagagcaagg agcagaccgc ccactacctg 900
accggccgcg ccctgcgcgg cagcgacaag gtgttcgaga agtgggagaa gctggacccc 960
gacgccccct tcgacctgta cgacaccgag atcaagaacg tgcagcgccg caacacccgc 1020
cgcttcggca gccacgacct gttcgccaag ctggccgagc ccaagtacca ggccctgtgg 1080
cgcgaggacg ccagcttcct gacccgctac gccgtgtaca acagcatcgt gcgcaagctg 1140
aaccacgcca agatgttcgc caccttcacc ctgcccgacg ccaccgccca ccccatctgg 1200
acccgcttcg acaagctggg cggcaacctg caccagtaca ccttcctgtt caacgagttc 1260
ggcgagggcc gccacgccat ccgcttccag aagctgctga ccgtggagga cggcgtggcc 1320
aaggaggtgg acgacgtgac cgtgcccatc agcatgagcg cccagctgga cgacctgctg 1380
ccccgcgacc cccacgagct ggtggccctg tacttccagg actacggcgc cgagcagcac 1440
ctggccggcg agttcggcgg cgccaagatc cagtaccgcc gcgaccagct gaaccacctg 1500
cacgcccgcc gcggcgcccg cgacgtgtac ctgaacctga gcgtgcgcgt gcagagccag 1560
agcgaggccc gcggcgagcg ccgccccccc tacgccgccg tgttccgcct ggtgggcgac 1620
aaccaccgcg ccttcgtgca cttcgacaag ctgagcgact acctggccga gcaccccgac 1680
gacggcaagc tgggcagcga gggcctgctg agcggcctgc gcgtgatgag cgtggacctg 1740
ggcctgcgca ccagcgccag catcagcgtg ttccgcgtgg cccgcaagga cgagctgaag 1800
cccaacagcg agggccgcgt gcccttctgc ttccccatcg agggcaacga gaacctggtg 1860
gccgtgcacg agcgcagcca gctgctgaag ctgcccggcg agaccgagag caaggacctg 1920
cgcgccatcc gcgaggagcg ccagcgcacc ctgcgccagc tgcgcaccca gctggcctac 1980
ctgcgcctgc tggtgcgctg cggcagcgag gacgtgggcc gccgcgagcg cagctgggcc 2040
aagctgatcg agcagcccat ggacgccaac cagatgaccc ccgactggcg cgaggccttc 2100
gaggacgagc tgcagaagct gaagagcctg tacggcatct gcggcgaccg cgagtggacc 2160
gaggccgtgt acgagagcgt gcgccgcgtg tggcgccaca tgggcaagca ggtgcgcgac 2220
tggcgcaagg acgtgcgcag cggcgagcgc cccaagatcc gcggctacca gaaggacgtg 2280
gtgggcggca acagcatcga gcagatcgag tacctggagc gccagtacaa gttcctgaag 2340
agctggagct tcttcggcaa ggtgagcggc caggtgtcta gaggcggcag cggcagcagc 2400
ggcggcagcg gcggcagcgg cggcagcggc gagatgtggc acgagggcct ggaggaggcc 2460
agccgcctgt acttcggcga gcgcaacgtg aagggcatgt tcgaggtgct ggagcccctg 2520
cacgccatga tggagcgcgg cccccagacc ctgaaggaga ccagcttcaa ccaggcctac 2580
ggccgcgacc tgatggaggc ccaggagtgg tgccgcaagt acatgaagag cggcaacgtg 2640
aaggacctga cccaggcctg ggacctgtac taccacgtgt tccgccgcat cagcaagcag 2700
gctagcccca agaagaagcg caaggtg 2727
<210> 22
<211> 1461
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 22
cccaagaaga agcgcaaggt gcccgggatg ggcgtgcagg tggagaccat cagccccggc 60
gacggccgca ccttccccaa gcgcggccag acctgcgtgg tgcactacac cggcatgctg 120
gaggacggca agaagttcga cagcagccgc gaccgcaaca agcccttcaa gttcatgctg 180
ggcaagcagg aggtgatccg cggctgggag gagggcgtgg cccagatgag cgtgggccag 240
cgcgccaagc tgaccatcag ccccgactac gcctacggcg ccaccggcca ccccggcatc 300
atcccccccc acgccaccct ggtgttcgac gtggagctgc tgaagctgga gggcggcagc 360
ggcggcagcg gcggcggcag cggcggcggc cttaagatcc gcgccgagaa gggcagccgc 420
ttcgccatca ccctgcgcga gcacatcgac cacgccaagg aggaccgcct gaagaagctg 480
gccgaccgca tcatcatgga ggccctgggc tacgtgtacg ccctggacga cgagcgcggc 540
aagggcaagt gggtggccaa gtaccccccc tgccagctga tcctgctgga ggagctgagc 600
gagtaccagt tcaacaacga ccgccccccc agcgagaaca accagctgat gcagtggagc 660
caccgcggcg tgttccagga gctgctgaac caggcccagg tgcacgacct gctggtgggc 720
accatgtacg ccgccttcag cagccgcttc gacgcccgca ccggcgcccc cggcatccgc 780
tgccgccgcg tgcccgcccg ctgcgcccgc gagcagaacc ccgagccctt cccctggtgg 840
ctgaacaagt tcgtggccga gcacaagctg gacggctgcc ccctgcgcgc cgacgacctg 900
atccccaccg gcgagggcga gttcttcgtg agccccttca gcgccgagga gggcgacttc 960
caccagatcc acgccgacct gaacgccgcc cagaacctgc agcgccgcct gtggagcgac 1020
ttcgacatca gccagatccg cctgcgctgc gactggggcg aggtggacgg cgagcccgtg 1080
ctgatccccc gcaccaccgg caagcgcacc gccgacagct acggcaacaa ggtgttctac 1140
accaagaccg gcgtgaccta ctacgagcgc gagcgcggca agaagcgccg caaggtgttc 1200
gcccaggagg agctgagcga ggaggaggcc gagctgctgg tggaggccga cgaggcccgc 1260
gagaagagcg tggtgctgat gcgcgacccc agcggcatca tcaaccgcgg cgactggacc 1320
cgccagaagg agttctggag catggtgaac cagcgcatcg agggctacct ggtgaagcag 1380
atccgcagcc gcgtgcgcct gcaggagagc gcctgcgaga acaccggcga catcgctagc 1440
cccaagaaga agcgcaaggt g 1461
<210> 23
<211> 369
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353,
354, 355, 356, 357, 358, 359, 360, 361
<223> n = A,T,C或G
<400> 23
gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60
ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120
aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180
atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240
cgaaacaccg gggtcgtcta taggacggcg agtttttcaa cgggtgtgcc aatggccact 300
ttccaggtgg caaagcccgt tgagcttcaa agaagtggca cnnnnnnnnn nnnnnnnnnn 360
ntttttttt 369
<210> 24
<211> 89
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 89
<223> A, G, C或 T
<220>
<221> misc_feature
<222> 89
<223> 可呈现为18-35之间任意整数的重复
<400> 24
gtcgtctata ggacggcgag tttttcaacg ggtgtgccaa tggccacttt ccaggtggca 60
aagcccgttg agcttcaaga agtggcacn 89
<210> 25
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 64
<223> A, G, C或 T
<220>
<221> misc_feature
<222> 64
<223> 可呈现为18-35之间任意整数的重复
<400> 25
caacgggtgt gccaatggcc actttccagg tggcaaagcc cgttgagctt caagaagtgg 60
cacn 64
<210> 26
<211> 73
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 73
<223> A, G, C或 T
<220>
<221> misc_feature
<222> 73
<223> 可呈现为18-35之间任意整数的重复
<400> 26
gtcgtctata ggacggcgag tttttgtgcc aatggccact ttccaggtgg caaaagcttc 60
aagaagtggc acn 73
<210> 27
<211> 62
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 62
<223> A, G, C或 T
<220>
<221> misc_feature
<222> 62
<223> 可呈现为18-35之间任意整数的重复
<400> 27
gtcgtctata ggacggcgag tttttcaacg ggtgtgcccg ttgagcttca agaagtggca 60
cn 62
<210> 28
<211> 6
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 1, 2
<223> n = A,T,C或G
<400> 28
nngrrt 6
<210> 29
<211> 8
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 1, 2, 3, 4
<223> n = A,T,C或G
<400> 29
nnnnryac 8
<210> 30
<211> 1129
<212> PRT
<213> 酸土脂环酸芽孢杆菌(Alicyclobacillus acidoterrestris)
<400> 30
Met Ala Val Lys Ser Ile Lys Val Lys Leu Arg Leu Asp Asp Met Pro
1 5 10 15
Glu Ile Arg Ala Gly Leu Trp Lys Leu His Lys Glu Val Asn Ala Gly
20 25 30
Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu
35 40 45
Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Asp Lys Thr
50 55 60
Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln
65 70 75 80
Val Glu Asn Gly His Arg Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu
85 90 95
Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly
100 105 110
Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu
115 120 125
Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn
130 135 140
Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu
145 150 155 160
Glu Glu Lys Glu Lys Ala Glu Thr Arg Lys Ser Ala Asp Arg Thr Ala
165 170 175
Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg
180 185 190
Val Tyr Thr Asp Ser Glu Met Ser Ser Val Glu Trp Lys Pro Leu Arg
195 200 205
Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala
210 215 220
Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Gln
225 230 235 240
Glu Tyr Ala Lys Leu Val Glu Gln Lys Asn Arg Phe Glu Gln Lys Asn
245 250 255
Phe Val Gly Gln Glu His Leu Val His Leu Val Asn Gln Leu Gln Gln
260 265 270
Asp Met Lys Glu Ala Ser Pro Gly Leu Glu Ser Lys Glu Gln Thr Ala
275 280 285
His Tyr Val Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu
290 295 300
Lys Trp Gly Lys Leu Ala Pro Asp Ala Pro Phe Asp Leu Tyr Asp Ala
305 310 315 320
Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His
325 330 335
Asp Leu Phe Ala Lys Leu Ala Glu Pro Glu Tyr Gln Ala Leu Trp Arg
340 345 350
Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Leu
355 360 365
Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp
370 375 380
Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn
385 390 395 400
Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Arg Arg His
405 410 415
Ala Ile Arg Phe His Lys Leu Leu Lys Val Glu Asn Gly Val Ala Arg
420 425 430
Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Glu Gln Leu Asp
435 440 445
Asn Leu Leu Pro Arg Asp Pro Asn Glu Pro Ile Ala Leu Tyr Phe Arg
450 455 460
Asp Tyr Gly Ala Glu Gln His Phe Thr Gly Glu Phe Gly Gly Ala Lys
465 470 475 480
Ile Gln Cys Arg Arg Asp Gln Leu Ala His Met His Arg Arg Arg Gly
485 490 495
Ala Arg Asp Val Tyr Leu Asn Val Ser Val Arg Val Gln Ser Gln Ser
500 505 510
Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu
515 520 525
Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp
530 535 540
Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu
545 550 555 560
Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser
565 570 575
Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro
580 585 590
Asn Ser Lys Gly Arg Val Pro Phe Phe Phe Pro Ile Lys Gly Asn Asp
595 600 605
Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly
610 615 620
Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg
625 630 635 640
Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val
645 650 655
Arg Cys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys
660 665 670
Leu Ile Glu Gln Pro Val Asp Ala Ala Asn His Met Thr Pro Asp Trp
675 680 685
Arg Glu Ala Phe Glu Asn Glu Leu Gln Lys Leu Lys Ser Leu His Gly
690 695 700
Ile Cys Ser Asp Lys Glu Trp Met Asp Ala Val Tyr Glu Ser Val Arg
705 710 715 720
Arg Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp
725 730 735
Val Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Ala Lys Asp Val
740 745 750
Val Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr
755 760 765
Lys Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val
770 775 780
Ile Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His
785 790 795 800
Ile Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile
805 810 815
Ile Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Glu Arg Gly Lys
820 825 830
Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu
835 840 845
Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn
850 855 860
Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Ile
865 870 875 880
Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala
885 890 895
Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys
900 905 910
Arg Arg Val Pro Ala Arg Cys Thr Gln Glu His Asn Pro Glu Pro Phe
915 920 925
Pro Trp Trp Leu Asn Lys Phe Val Val Glu His Thr Leu Asp Ala Cys
930 935 940
Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Ile Phe
945 950 955 960
Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala
965 970 975
Asp Leu Asn Ala Ala Gln Asn Leu Gln Gln Arg Leu Trp Ser Asp Phe
980 985 990
Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly
995 1000 1005
Glu Leu Val Leu Ile Pro Arg Leu Thr Gly Lys Arg Thr Ala Asp Ser
1010 1015 1020
Tyr Ser Asn Lys Val Phe Tyr Thr Asn Thr Gly Val Thr Tyr Tyr Glu
1025 1030 1035 1040
Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln Glu Lys Leu
1045 1050 1055
Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp Glu Ala Arg Glu
1060 1065 1070
Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly Ile Ile Asn Arg Gly
1075 1080 1085
Asn Trp Thr Arg Gln Lys Glu Phe Trp Ser Met Val Asn Gln Arg Ile
1090 1095 1100
Glu Gly Tyr Leu Val Lys Gln Ile Arg Ser Arg Val Pro Leu Gln Asp
1105 1110 1115 1120
Ser Ala Cys Glu Asn Thr Gly Asp Ile
1125
<210> 31
<211> 108
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 31
Met Gly Val Gln Val Glu Thr Ile Ser Pro Gly Asp Gly Arg Thr Phe
1 5 10 15
Pro Lys Arg Gly Gln Thr Cys Val Val His Tyr Thr Gly Met Leu Glu
20 25 30
Asp Gly Lys Lys Phe Asp Ser Ser Arg Asp Arg Asn Lys Pro Phe Lys
35 40 45
Phe Met Leu Gly Lys Gln Glu Val Ile Arg Gly Trp Glu Glu Gly Val
50 55 60
Ala Gln Met Ser Val Gly Gln Arg Ala Lys Leu Thr Ile Ser Pro Asp
65 70 75 80
Tyr Ala Tyr Gly Ala Thr Gly His Pro Gly Ile Ile Pro Pro His Ala
85 90 95
Thr Leu Val Phe Asp Val Glu Leu Leu Lys Leu Glu
100 105
<210> 32
<211> 90
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 32
Glu Met Trp His Glu Gly Leu Glu Glu Ala Ser Arg Leu Tyr Phe Gly
1 5 10 15
Glu Arg Asn Val Lys Gly Met Phe Glu Val Leu Glu Pro Leu His Ala
20 25 30
Met Met Glu Arg Gly Pro Gln Thr Leu Lys Glu Thr Ser Phe Asn Gln
35 40 45
Ala Tyr Gly Arg Asp Leu Met Glu Ala Gln Glu Trp Cys Arg Lys Tyr
50 55 60
Met Lys Ser Gly Asn Val Lys Asp Leu Thr Gln Ala Trp Asp Leu Tyr
65 70 75 80
Tyr His Val Phe Arg Arg Ile Ser Lys Gln
85 90
<210> 33
<211> 1129
<212> PRT
<213> 嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)
<400> 33
Met Ala Val Lys Ser Met Lys Val Lys Leu Arg Leu Asp Asn Met Pro
1 5 10 15
Glu Ile Arg Ala Gly Leu Trp Lys Leu His Thr Glu Val Asn Ala Gly
20 25 30
Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu
35 40 45
Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Tyr Lys Thr
50 55 60
Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln
65 70 75 80
Val Glu Asn Gly His Cys Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu
85 90 95
Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly
100 105 110
Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu
115 120 125
Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn
130 135 140
Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu
145 150 155 160
Glu Glu Lys Ala Lys Ala Glu Ala Arg Lys Ser Thr Asp Arg Thr Ala
165 170 175
Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg
180 185 190
Val Tyr Thr Asp Ser Asp Met Ser Ser Val Gln Trp Lys Pro Leu Arg
195 200 205
Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala
210 215 220
Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Glu
225 230 235 240
Ala Tyr Ala Lys Leu Val Glu Gln Lys Ser Arg Phe Glu Gln Lys Asn
245 250 255
Phe Val Gly Gln Glu His Leu Val Gln Leu Val Asn Gln Leu Gln Gln
260 265 270
Asp Met Lys Glu Ala Ser His Gly Leu Glu Ser Lys Glu Gln Thr Ala
275 280 285
His Tyr Leu Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu
290 295 300
Lys Trp Glu Lys Leu Asp Pro Asp Ala Pro Phe Asp Leu Tyr Asp Thr
305 310 315 320
Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His
325 330 335
Asp Leu Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Ala Leu Trp Arg
340 345 350
Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Val
355 360 365
Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp
370 375 380
Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn
385 390 395 400
Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Gly Arg His
405 410 415
Ala Ile Arg Phe Gln Lys Leu Leu Thr Val Glu Asp Gly Val Ala Lys
420 425 430
Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Ala Gln Leu Asp
435 440 445
Asp Leu Leu Pro Arg Asp Pro His Glu Leu Val Ala Leu Tyr Phe Gln
450 455 460
Asp Tyr Gly Ala Glu Gln His Leu Ala Gly Glu Phe Gly Gly Ala Lys
465 470 475 480
Ile Gln Tyr Arg Arg Asp Gln Leu Asn His Leu His Ala Arg Arg Gly
485 490 495
Ala Arg Asp Val Tyr Leu Asn Leu Ser Val Arg Val Gln Ser Gln Ser
500 505 510
Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu
515 520 525
Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp
530 535 540
Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu
545 550 555 560
Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser
565 570 575
Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro
580 585 590
Asn Ser Glu Gly Arg Val Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu
595 600 605
Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly
610 615 620
Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg
625 630 635 640
Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val
645 650 655
Arg Cys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys
660 665 670
Leu Ile Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp Trp Arg
675 680 685
Glu Ala Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile
690 695 700
Cys Gly Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val Arg Arg
705 710 715 720
Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp Val
725 730 735
Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp Val Val
740 745 750
Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys
755 760 765
Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val Ile
770 775 780
Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His Ile
785 790 795 800
Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile Ile
805 810 815
Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg Gly Lys
820 825 830
Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu
835 840 845
Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn
850 855 860
Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Leu
865 870 875 880
Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala
885 890 895
Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys
900 905 910
Arg Arg Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu Pro Phe
915 920 925
Pro Trp Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp Gly Cys
930 935 940
Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Phe Phe
945 950 955 960
Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala
965 970 975
Asp Leu Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser Asp Phe
980 985 990
Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly
995 1000 1005
Glu Pro Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala Asp Ser
1010 1015 1020
Tyr Gly Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr Tyr Glu
1025 1030 1035 1040
Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln Glu Glu Leu
1045 1050 1055
Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp Glu Ala Arg Glu
1060 1065 1070
Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly Ile Ile Asn Arg Gly
1075 1080 1085
Asp Trp Thr Arg Gln Lys Glu Phe Trp Ser Met Val Asn Gln Arg Ile
1090 1095 1100
Glu Gly Tyr Leu Val Lys Gln Ile Arg Ser Arg Val Arg Leu Gln Glu
1105 1110 1115 1120
Ser Ala Cys Glu Asn Thr Gly Asp Ile
1125
<210> 34
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 34
Pro Lys Lys Lys Arg Lys Val Pro Gly
1 5
<210> 35
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 35
Ala Ser Pro Lys Lys Lys Arg Lys Val
1 5
<210> 36
<211> 101
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 36
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaaaga acgcucgcuc aguguucuga c 101
<210> 37
<211> 37
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 37
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 37
<223> 可呈现为18-35之间任意整数的重复
<400> 37
gucggaucac ugagcgagcg aucugagaag uggcacn 37
<210> 38
<211> 138
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 138
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 138
<223> 可呈现为18-35之间任意整数的重复
<400> 38
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaaaga acgcucgcuc aguguucuga cgucggauca cugagcgagc 120
gaucugagaa guggcacn 138
<210> 39
<211> 142
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 142
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 142
<223> 可呈现为18-35之间任意整数的重复
<400> 39
aacugucuaa aggacagaau uuuucaacgg gugugccaau ggccacuuuc cagguggcaa 60
agcccguuga acuucucaaa aagaacgcuc gcucaguguu cugacgucgg aucacugagc 120
gagcgaucug agaaguggca cn 142
<210> 40
<211> 140
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 140
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 140
<223> 可呈现为18-35之间任意整数的重复
<400> 40
cugucuaaag gacagaauuu uucaacgggu gugccaaugg ccacuuucca gguggcaaag 60
cccguugaac uucucaaaaa gaacgcucgc ucaguguucu gacgucggau cacugagcga 120
gcgaucugag aaguggcacn 140
<210> 41
<211> 128
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 128
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 128
<223> 可呈现为18-35之间任意整数的重复
<400> 41
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaaaga acgcucgcuc aguguuauca cugagcgagc gaucugagaa 120
guggcacn 128
<210> 42
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 100
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 100
<223> 可呈现为18-35之间任意整数的重复
<400> 42
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaaaga acgaucugag aaguggcacn 100
<210> 43
<211> 94
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 94
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 94
<223> 可呈现为18-35之间任意整数的重复
<400> 43
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaaagc ugagaagugg cacn 94
<210> 44
<211> 92
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 92
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 92
<223> 可呈现为18-35之间任意整数的重复
<400> 44
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaagcug agaaguggca cn 92
<210> 45
<211> 92
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 92
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 92
<223> 可呈现为18-35之间任意整数的重复
<400> 45
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaacug agaaguggca cn 92
<210> 46
<211> 90
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 90
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 90
<223> 可呈现为18-35之间任意整数的重复
<400> 46
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaagcgag aaguggcacn 90
<210> 47
<211> 88
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 88
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 88
<223> 可呈现为18-35之间任意整数的重复
<400> 47
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cuaagcagaa guggcacn 88
<210> 48
<211> 86
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 86
<223> A, G, C或 U
<220>
<221> misc_feature
<222> 86
<223> 可呈现为18-35之间任意整数的重复
<400> 48
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu caagcgaagu ggcacn 86
<210> 49
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 49
tccttctcct gaacaccttc 20
<210> 50
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 50
tttggcctga ataattgcag 20
<210> 51
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 51
cccttcagct aaaataaagg 20
<210> 52
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 52
tagtcatggt gttcttcaac 20
<210> 53
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 53
gctctcaaga cccacaatcc 20
<210> 54
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 54
aatcagagag gatcttccga 20
<210> 55
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 55
cggcctcgcc ctccccagac 20
<210> 56
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 56
gacgctgtct ggggagggcg 20
<210> 57
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 57
ttcttcatcc ctagccagcc 20
<210> 58
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 58
ccttgtcaag gctattggtc 20
<210> 59
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 59
gccagggacc gtttcagaca 20
<210> 60
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 60
agacagatat ttgcattgag 20
<210> 61
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 61
gcagctctca ttttccatac agt 23
<210> 62
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 62
gatcgggtgt aaactgagct tg 22
<210> 63
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 63
tctgctactc gggaatccta aaa 23
<210> 64
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 64
tgtcacaagc ccacagatat ttc 23
<210> 65
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 65
ctcctgctcg gtgaatttgg 20
<210> 66
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 66
tagttgataa gcgaacctca cac 23
<210> 67
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 67
ggagctgtag gcgattatag ttgaa 25
<210> 68
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 68
ttctcaaacc ctggaaagca cttt 24
<210> 69
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 69
acttccaccc tctgtcttat ctc 23
<210> 70
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 70
ccagcttcct caaatcttat gca 23
<210> 71
<211> 18
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 71
Ser Arg Gly Gly Ser Gly Ser Ser Gly Gly Ser Gly Gly Ser Gly Gly
1 5 10 15
Ser Gly
<210> 72
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 72
tgcccagctg agtgaactgc 20
<210> 73
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 73
tgcagtcacc atcttctgcc ag 22
<210> 74
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 74
atcaccgact tcaacagcgt g 21
<210> 75
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 75
tgacagttga gcacacgcag 20
<210> 76
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 76
aactgggacg acatggagaa aat 23
<210> 77
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 77
gaaggtctca aacatgatct ggg 23
<210> 78
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 78
ctacaacatt gtccttctcc tgaacacctt ccaggaattc 40
<210> 79
<211> 36
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 79
ctacaacatt gtccttctcc tgaacaccag gaattc 36
<210> 80
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 80
ctacaacatt gtccttctcc tgacaggaat tc 32
<210> 81
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 81
tccttttatt tcccttcagc taaaataaag gaggaggaag 40
<210> 82
<211> 29
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 82
tccttttatt tcccttcagc taaaggaag 29
<210> 83
<211> 650
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 83
Met Ala Ile Arg Ser Ile Lys Leu Lys Met Lys Thr Asn Ser Gly Thr
1 5 10 15
Asp Ser Ile Tyr Leu Arg Lys Ala Leu Trp Arg Thr His Gln Leu Ile
20 25 30
Asn Glu Gly Ile Ala Tyr Tyr Met Asn Leu Leu Thr Leu Tyr Arg Gln
35 40 45
Glu Ala Ile Gly Asp Lys Thr Lys Glu Ala Tyr Gln Ala Glu Leu Ile
50 55 60
Asn Ile Ile Arg Asn Gln Gln Arg Asn Asn Gly Ser Ser Glu Glu His
65 70 75 80
Gly Ser Asp Gln Glu Ile Leu Ala Leu Leu Arg Gln Leu Tyr Glu Leu
85 90 95
Ile Ile Pro Ser Ser Ile Gly Glu Ser Gly Asp Ala Asn Gln Leu Gly
100 105 110
Asn Lys Phe Leu Tyr Pro Leu Val Asp Pro Asn Ser Gln Ser Gly Lys
115 120 125
Gly Thr Ser Asn Ala Gly Arg Lys Pro Arg Trp Lys Arg Leu Lys Glu
130 135 140
Glu Gly Asn Pro Asp Trp Glu Leu Glu Lys Lys Lys Asp Glu Glu Arg
145 150 155 160
Lys Ala Lys Asp Pro Thr Val Lys Ile Phe Asp Asn Leu Asn Lys Tyr
165 170 175
Gly Leu Leu Pro Leu Phe Pro Leu Phe Thr Asn Ile Gln Lys Asp Ile
180 185 190
Glu Trp Leu Pro Leu Gly Lys Arg Gln Ser Val Arg Lys Trp Asp Lys
195 200 205
Asp Met Phe Ile Gln Ala Ile Glu Arg Leu Leu Ser Trp Glu Ser Trp
210 215 220
Asn Arg Arg Val Ala Asp Glu Tyr Lys Gln Leu Lys Glu Lys Thr Glu
225 230 235 240
Ser Tyr Tyr Lys Glu His Leu Thr Gly Gly Glu Glu Trp Ile Glu Lys
245 250 255
Ile Arg Lys Phe Glu Lys Glu Arg Asn Met Glu Leu Glu Lys Asn Ala
260 265 270
Phe Ala Pro Asn Asp Gly Tyr Phe Ile Thr Ser Arg Gln Ile Arg Gly
275 280 285
Trp Asp Arg Val Tyr Glu Lys Trp Ser Lys Leu Pro Glu Ser Ala Ser
290 295 300
Pro Glu Glu Leu Trp Lys Val Val Ala Glu Gln Gln Asn Lys Met Ser
305 310 315 320
Glu Gly Phe Gly Asp Pro Lys Val Phe Ser Phe Leu Ala Asn Arg Glu
325 330 335
Asn Arg Asp Ile Trp Arg Gly His Ser Glu Arg Ile Tyr His Ile Ala
340 345 350
Ala Tyr Asn Gly Leu Gln Lys Lys Leu Ser Arg Thr Lys Glu Gln Ala
355 360 365
Thr Phe Thr Leu Pro Asp Ala Ile Glu His Pro Leu Trp Ile Arg Tyr
370 375 380
Glu Ser Pro Gly Gly Thr Asn Leu Asn Leu Phe Lys Leu Glu Glu Lys
385 390 395 400
Gln Lys Lys Asn Tyr Tyr Val Thr Leu Ser Lys Ile Ile Trp Pro Ser
405 410 415
Glu Glu Lys Trp Ile Glu Lys Glu Asn Ile Glu Ile Pro Leu Ala Pro
420 425 430
Ser Ile Gln Phe Asn Arg Gln Ile Lys Leu Lys Gln His Val Lys Gly
435 440 445
Lys Gln Glu Ile Ser Phe Ser Asp Tyr Ser Ser Arg Ile Ser Leu Asp
450 455 460
Gly Val Leu Gly Gly Ser Arg Ile Gln Phe Asn Arg Lys Tyr Ile Lys
465 470 475 480
Asn His Lys Glu Leu Leu Gly Glu Gly Asp Ile Gly Pro Val Phe Phe
485 490 495
Asn Leu Val Val Asp Val Ala Pro Leu Gln Glu Thr Arg Asn Gly Arg
500 505 510
Leu Gln Ser Pro Ile Gly Lys Ala Leu Lys Val Ile Ser Ser Asp Phe
515 520 525
Ser Lys Val Ile Asp Tyr Lys Pro Lys Glu Leu Met Asp Trp Met Asn
530 535 540
Thr Gly Ser Ala Ser Asn Ser Phe Gly Val Ala Ser Leu Leu Glu Gly
545 550 555 560
Met Arg Val Met Ser Ile Asp Met Gly Gln Arg Thr Ser Ala Ser Val
565 570 575
Ser Ile Phe Glu Val Val Lys Glu Leu Pro Lys Asp Gln Glu Gln Lys
580 585 590
Leu Phe Tyr Ser Ile Asn Asp Thr Glu Leu Phe Ala Ile His Lys Arg
595 600 605
Ser Phe Leu Leu Asn Leu Pro Gly Glu Val Val Thr Lys Asn Asn Lys
610 615 620
Gln Gln Arg Gln Glu Arg Arg Lys Lys Arg Gln Phe Val Arg Ser Gln
625 630 635 640
Ile Arg Met Leu Ala Asn Val Leu Arg Leu
645 650
<210> 84
<211> 462
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 84
Glu Thr Lys Lys Thr Pro Asp Glu Arg Lys Lys Ala Ile His Lys Leu
1 5 10 15
Met Glu Ile Val Gln Ser Tyr Asp Ser Trp Thr Ala Ser Gln Lys Glu
20 25 30
Val Trp Glu Lys Glu Leu Asn Leu Leu Thr Asn Met Ala Ala Phe Asn
35 40 45
Asp Glu Ile Trp Lys Glu Ser Leu Val Glu Leu His His Arg Ile Glu
50 55 60
Pro Tyr Val Gly Gln Ile Val Ser Lys Trp Arg Lys Gly Leu Ser Glu
65 70 75 80
Gly Arg Lys Asn Leu Ala Gly Ile Ser Met Trp Asn Ile Asp Glu Leu
85 90 95
Glu Asp Thr Arg Arg Leu Leu Ile Ser Trp Ser Lys Arg Ser Arg Thr
100 105 110
Pro Gly Glu Ala Asn Arg Ile Glu Thr Asp Glu Pro Phe Gly Ser Ser
115 120 125
Leu Leu Gln His Ile Gln Asn Val Lys Asp Asp Arg Leu Lys Gln Met
130 135 140
Ala Asn Leu Ile Ile Met Thr Ala Leu Gly Phe Lys Tyr Asp Lys Glu
145 150 155 160
Glu Lys Asp Arg Tyr Lys Arg Trp Lys Glu Thr Tyr Pro Ala Cys Gln
165 170 175
Ile Ile Leu Phe Glu Asn Leu Asn Arg Tyr Leu Phe Asn Leu Asp Arg
180 185 190
Ser Arg Arg Glu Asn Ser Arg Leu Met Lys Trp Ala His Arg Ser Ile
195 200 205
Pro Arg Thr Val Ser Met Gln Gly Glu Met Phe Gly Leu Gln Val Gly
210 215 220
Asp Val Arg Ser Glu Tyr Ser Ser Arg Phe His Ala Lys Thr Gly Ala
225 230 235 240
Pro Gly Ile Arg Cys His Ala Leu Thr Glu Glu Asp Leu Lys Ala Gly
245 250 255
Ser Asn Thr Leu Lys Arg Leu Ile Glu Asp Gly Phe Ile Asn Glu Ser
260 265 270
Glu Leu Ala Tyr Leu Lys Lys Gly Asp Ile Ile Pro Ser Gln Gly Gly
275 280 285
Glu Leu Phe Val Thr Leu Ser Lys Arg Tyr Lys Lys Asp Ser Asp Asn
290 295 300
Asn Glu Leu Thr Val Ile His Ala Asp Ile Asn Ala Ala Gln Asn Leu
305 310 315 320
Gln Lys Arg Phe Trp Gln Gln Asn Ser Glu Val Tyr Arg Val Pro Cys
325 330 335
Gln Leu Ala Arg Met Gly Glu Asp Lys Leu Tyr Ile Pro Lys Ser Gln
340 345 350
Thr Glu Thr Ile Lys Lys Tyr Phe Gly Lys Gly Ser Phe Val Lys Asn
355 360 365
Asn Thr Glu Gln Glu Val Tyr Lys Trp Glu Lys Ser Glu Lys Met Lys
370 375 380
Ile Lys Thr Asp Thr Thr Phe Asp Leu Gln Asp Leu Asp Gly Phe Glu
385 390 395 400
Asp Ile Ser Lys Thr Ile Glu Leu Ala Gln Glu Gln Gln Lys Lys Tyr
405 410 415
Leu Thr Met Phe Arg Asp Pro Ser Gly Tyr Phe Phe Asn Asn Glu Thr
420 425 430
Trp Arg Pro Gln Lys Glu Tyr Trp Ser Ile Val Asn Asn Ile Ile Lys
435 440 445
Ser Cys Leu Lys Lys Lys Ile Leu Ser Asn Lys Val Glu Leu
450 455 460
<210> 85
<211> 1112
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 85
Met Ala Ile Arg Ser Ile Lys Leu Lys Met Lys Thr Asn Ser Gly Thr
1 5 10 15
Asp Ser Ile Tyr Leu Arg Lys Ala Leu Trp Arg Thr His Gln Leu Ile
20 25 30
Asn Glu Gly Ile Ala Tyr Tyr Met Asn Leu Leu Thr Leu Tyr Arg Gln
35 40 45
Glu Ala Ile Gly Asp Lys Thr Lys Glu Ala Tyr Gln Ala Glu Leu Ile
50 55 60
Asn Ile Ile Arg Asn Gln Gln Arg Asn Asn Gly Ser Ser Glu Glu His
65 70 75 80
Gly Ser Asp Gln Glu Ile Leu Ala Leu Leu Arg Gln Leu Tyr Glu Leu
85 90 95
Ile Ile Pro Ser Ser Ile Gly Glu Ser Gly Asp Ala Asn Gln Leu Gly
100 105 110
Asn Lys Phe Leu Tyr Pro Leu Val Asp Pro Asn Ser Gln Ser Gly Lys
115 120 125
Gly Thr Ser Asn Ala Gly Arg Lys Pro Arg Trp Lys Arg Leu Lys Glu
130 135 140
Glu Gly Asn Pro Asp Trp Glu Leu Glu Lys Lys Lys Asp Glu Glu Arg
145 150 155 160
Lys Ala Lys Asp Pro Thr Val Lys Ile Phe Asp Asn Leu Asn Lys Tyr
165 170 175
Gly Leu Leu Pro Leu Phe Pro Leu Phe Thr Asn Ile Gln Lys Asp Ile
180 185 190
Glu Trp Leu Pro Leu Gly Lys Arg Gln Ser Val Arg Lys Trp Asp Lys
195 200 205
Asp Met Phe Ile Gln Ala Ile Glu Arg Leu Leu Ser Trp Glu Ser Trp
210 215 220
Asn Arg Arg Val Ala Asp Glu Tyr Lys Gln Leu Lys Glu Lys Thr Glu
225 230 235 240
Ser Tyr Tyr Lys Glu His Leu Thr Gly Gly Glu Glu Trp Ile Glu Lys
245 250 255
Ile Arg Lys Phe Glu Lys Glu Arg Asn Met Glu Leu Glu Lys Asn Ala
260 265 270
Phe Ala Pro Asn Asp Gly Tyr Phe Ile Thr Ser Arg Gln Ile Arg Gly
275 280 285
Trp Asp Arg Val Tyr Glu Lys Trp Ser Lys Leu Pro Glu Ser Ala Ser
290 295 300
Pro Glu Glu Leu Trp Lys Val Val Ala Glu Gln Gln Asn Lys Met Ser
305 310 315 320
Glu Gly Phe Gly Asp Pro Lys Val Phe Ser Phe Leu Ala Asn Arg Glu
325 330 335
Asn Arg Asp Ile Trp Arg Gly His Ser Glu Arg Ile Tyr His Ile Ala
340 345 350
Ala Tyr Asn Gly Leu Gln Lys Lys Leu Ser Arg Thr Lys Glu Gln Ala
355 360 365
Thr Phe Thr Leu Pro Asp Ala Ile Glu His Pro Leu Trp Ile Arg Tyr
370 375 380
Glu Ser Pro Gly Gly Thr Asn Leu Asn Leu Phe Lys Leu Glu Glu Lys
385 390 395 400
Gln Lys Lys Asn Tyr Tyr Val Thr Leu Ser Lys Ile Ile Trp Pro Ser
405 410 415
Glu Glu Lys Trp Ile Glu Lys Glu Asn Ile Glu Ile Pro Leu Ala Pro
420 425 430
Ser Ile Gln Phe Asn Arg Gln Ile Lys Leu Lys Gln His Val Lys Gly
435 440 445
Lys Gln Glu Ile Ser Phe Ser Asp Tyr Ser Ser Arg Ile Ser Leu Asp
450 455 460
Gly Val Leu Gly Gly Ser Arg Ile Gln Phe Asn Arg Lys Tyr Ile Lys
465 470 475 480
Asn His Lys Glu Leu Leu Gly Glu Gly Asp Ile Gly Pro Val Phe Phe
485 490 495
Asn Leu Val Val Asp Val Ala Pro Leu Gln Glu Thr Arg Asn Gly Arg
500 505 510
Leu Gln Ser Pro Ile Gly Lys Ala Leu Lys Val Ile Ser Ser Asp Phe
515 520 525
Ser Lys Val Ile Asp Tyr Lys Pro Lys Glu Leu Met Asp Trp Met Asn
530 535 540
Thr Gly Ser Ala Ser Asn Ser Phe Gly Val Ala Ser Leu Leu Glu Gly
545 550 555 560
Met Arg Val Met Ser Ile Asp Met Gly Gln Arg Thr Ser Ala Ser Val
565 570 575
Ser Ile Phe Glu Val Val Lys Glu Leu Pro Lys Asp Gln Glu Gln Lys
580 585 590
Leu Phe Tyr Ser Ile Asn Asp Thr Glu Leu Phe Ala Ile His Lys Arg
595 600 605
Ser Phe Leu Leu Asn Leu Pro Gly Glu Val Val Thr Lys Asn Asn Lys
610 615 620
Gln Gln Arg Gln Glu Arg Arg Lys Lys Arg Gln Phe Val Arg Ser Gln
625 630 635 640
Ile Arg Met Leu Ala Asn Val Leu Arg Leu Glu Thr Lys Lys Thr Pro
645 650 655
Asp Glu Arg Lys Lys Ala Ile His Lys Leu Met Glu Ile Val Gln Ser
660 665 670
Tyr Asp Ser Trp Thr Ala Ser Gln Lys Glu Val Trp Glu Lys Glu Leu
675 680 685
Asn Leu Leu Thr Asn Met Ala Ala Phe Asn Asp Glu Ile Trp Lys Glu
690 695 700
Ser Leu Val Glu Leu His His Arg Ile Glu Pro Tyr Val Gly Gln Ile
705 710 715 720
Val Ser Lys Trp Arg Lys Gly Leu Ser Glu Gly Arg Lys Asn Leu Ala
725 730 735
Gly Ile Ser Met Trp Asn Ile Asp Glu Leu Glu Asp Thr Arg Arg Leu
740 745 750
Leu Ile Ser Trp Ser Lys Arg Ser Arg Thr Pro Gly Glu Ala Asn Arg
755 760 765
Ile Glu Thr Asp Glu Pro Phe Gly Ser Ser Leu Leu Gln His Ile Gln
770 775 780
Asn Val Lys Asp Asp Arg Leu Lys Gln Met Ala Asn Leu Ile Ile Met
785 790 795 800
Thr Ala Leu Gly Phe Lys Tyr Asp Lys Glu Glu Lys Asp Arg Tyr Lys
805 810 815
Arg Trp Lys Glu Thr Tyr Pro Ala Cys Gln Ile Ile Leu Phe Glu Asn
820 825 830
Leu Asn Arg Tyr Leu Phe Asn Leu Asp Arg Ser Arg Arg Glu Asn Ser
835 840 845
Arg Leu Met Lys Trp Ala His Arg Ser Ile Pro Arg Thr Val Ser Met
850 855 860
Gln Gly Glu Met Phe Gly Leu Gln Val Gly Asp Val Arg Ser Glu Tyr
865 870 875 880
Ser Ser Arg Phe His Ala Lys Thr Gly Ala Pro Gly Ile Arg Cys His
885 890 895
Ala Leu Thr Glu Glu Asp Leu Lys Ala Gly Ser Asn Thr Leu Lys Arg
900 905 910
Leu Ile Glu Asp Gly Phe Ile Asn Glu Ser Glu Leu Ala Tyr Leu Lys
915 920 925
Lys Gly Asp Ile Ile Pro Ser Gln Gly Gly Glu Leu Phe Val Thr Leu
930 935 940
Ser Lys Arg Tyr Lys Lys Asp Ser Asp Asn Asn Glu Leu Thr Val Ile
945 950 955 960
His Ala Asp Ile Asn Ala Ala Gln Asn Leu Gln Lys Arg Phe Trp Gln
965 970 975
Gln Asn Ser Glu Val Tyr Arg Val Pro Cys Gln Leu Ala Arg Met Gly
980 985 990
Glu Asp Lys Leu Tyr Ile Pro Lys Ser Gln Thr Glu Thr Ile Lys Lys
995 1000 1005
Tyr Phe Gly Lys Gly Ser Phe Val Lys Asn Asn Thr Glu Gln Glu Val
1010 1015 1020
Tyr Lys Trp Glu Lys Ser Glu Lys Met Lys Ile Lys Thr Asp Thr Thr
1025 1030 1035 1040
Phe Asp Leu Gln Asp Leu Asp Gly Phe Glu Asp Ile Ser Lys Thr Ile
1045 1050 1055
Glu Leu Ala Gln Glu Gln Gln Lys Lys Tyr Leu Thr Met Phe Arg Asp
1060 1065 1070
Pro Ser Gly Tyr Phe Phe Asn Asn Glu Thr Trp Arg Pro Gln Lys Glu
1075 1080 1085
Tyr Trp Ser Ile Val Asn Asn Ile Ile Lys Ser Cys Leu Lys Lys Lys
1090 1095 1100
Ile Leu Ser Asn Lys Val Glu Leu
1105 1110
<210> 86
<211> 671
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 86
Met Asn Ile His Leu Lys Glu Leu Ile Arg Met Ala Thr Lys Ser Phe
1 5 10 15
Ile Leu Lys Met Lys Thr Lys Asn Asn Pro Gln Leu Arg Leu Ser Leu
20 25 30
Trp Lys Thr His Glu Leu Phe Asn Phe Gly Val Ala Tyr Tyr Met Asp
35 40 45
Leu Leu Ser Leu Phe Arg Gln Lys Asp Leu Tyr Met His Asn Asp Glu
50 55 60
Asp Pro Asp His Pro Val Val Leu Lys Lys Glu Glu Ile Gln Glu Arg
65 70 75 80
Leu Trp Met Lys Val Arg Glu Thr Gln Gln Lys Asn Gly Phe His Gly
85 90 95
Glu Val Ser Lys Asp Glu Val Leu Glu Thr Leu Arg Ala Leu Tyr Glu
100 105 110
Glu Leu Val Pro Ser Ala Val Gly Lys Ser Gly Glu Ala Asn Gln Ile
115 120 125
Ser Asn Lys Tyr Leu Tyr Pro Leu Thr Asp Pro Ala Ser Gln Ser Gly
130 135 140
Lys Gly Thr Ala Asn Ser Gly Arg Lys Pro Arg Trp Lys Lys Leu Lys
145 150 155 160
Glu Ala Gly Asp Pro Ser Trp Lys Asp Ala Tyr Glu Lys Trp Glu Lys
165 170 175
Glu Arg Gln Glu Asp Pro Lys Leu Lys Ile Leu Ala Ala Leu Gln Ser
180 185 190
Phe Gly Leu Ile Pro Leu Phe Arg Pro Phe Thr Glu Asn Asp His Lys
195 200 205
Ala Val Ile Ser Val Lys Trp Met Pro Lys Ser Lys Asn Gln Ser Val
210 215 220
Arg Lys Phe Asp Lys Asp Met Phe Asn Gln Ala Ile Glu Arg Phe Leu
225 230 235 240
Ser Trp Glu Ser Trp Asn Glu Lys Val Ala Glu Asp Tyr Glu Lys Thr
245 250 255
Val Ser Ile Tyr Glu Ser Leu Gln Lys Glu Leu Lys Gly Ile Ser Thr
260 265 270
Lys Ala Phe Glu Ile Met Glu Arg Val Glu Lys Ala Tyr Glu Ala His
275 280 285
Leu Arg Glu Ile Thr Phe Ser Asn Ser Thr Tyr Arg Ile Gly Asn Arg
290 295 300
Ala Ile Arg Gly Trp Thr Glu Ile Val Lys Lys Trp Met Lys Leu Asp
305 310 315 320
Pro Ser Ala Pro Gln Gly Asn Tyr Leu Asp Val Val Lys Asp Tyr Gln
325 330 335
Arg Arg His Pro Arg Glu Ser Gly Asp Phe Lys Leu Phe Glu Leu Leu
340 345 350
Ser Arg Pro Glu Asn Gln Ala Ala Trp Arg Glu Tyr Pro Glu Phe Leu
355 360 365
Pro Leu Tyr Val Lys Tyr Arg His Ala Glu Gln Arg Met Lys Thr Ala
370 375 380
Lys Lys Gln Ala Thr Phe Thr Leu Cys Asp Pro Ile Arg His Pro Leu
385 390 395 400
Trp Val Arg Tyr Glu Glu Arg Ser Gly Thr Asn Leu Asn Lys Tyr Arg
405 410 415
Leu Ile Met Asn Glu Lys Glu Lys Val Val Gln Phe Asp Arg Leu Ile
420 425 430
Cys Leu Asn Ala Asp Gly His Tyr Glu Glu Gln Glu Asp Val Thr Val
435 440 445
Pro Leu Ala Pro Ser Gln Gln Phe Asp Asp Gln Ile Lys Phe Ser Ser
450 455 460
Glu Asp Thr Gly Lys Gly Lys His Asn Phe Ser Tyr Tyr His Lys Gly
465 470 475 480
Ile Asn Tyr Glu Leu Lys Gly Thr Leu Gly Gly Ala Arg Ile Gln Phe
485 490 495
Asp Arg Glu His Leu Leu Arg Arg Gln Gly Val Lys Ala Gly Asn Val
500 505 510
Gly Arg Ile Phe Leu Asn Val Thr Leu Asn Ile Glu Pro Met Gln Pro
515 520 525
Phe Ser Arg Ser Gly Asn Leu Gln Thr Ser Val Gly Lys Ala Leu Lys
530 535 540
Val Tyr Val Asp Gly Tyr Pro Lys Val Val Asn Phe Lys Pro Lys Glu
545 550 555 560
Leu Thr Glu His Ile Lys Glu Ser Glu Lys Asn Thr Leu Thr Leu Gly
565 570 575
Val Glu Ser Leu Pro Thr Gly Leu Arg Val Met Ser Val Asp Leu Gly
580 585 590
Gln Arg Gln Ala Ala Ala Ile Ser Ile Phe Glu Val Val Ser Glu Lys
595 600 605
Pro Asp Asp Asn Lys Leu Phe Tyr Pro Val Lys Asp Thr Asp Leu Phe
610 615 620
Ala Val His Arg Thr Ser Phe Asn Ile Lys Leu Pro Gly Glu Lys Arg
625 630 635 640
Thr Glu Arg Arg Met Leu Glu Gln Gln Lys Arg Asp Gln Ala Ile Arg
645 650 655
Asp Leu Ser Arg Lys Leu Lys Phe Leu Lys Asn Val Leu Asn Met
660 665 670
<210> 87
<211> 471
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 87
Gln Lys Leu Glu Lys Thr Asp Glu Arg Glu Lys Arg Val Asn Arg Trp
1 5 10 15
Ile Lys Asp Arg Glu Arg Glu Glu Glu Asn Pro Val Tyr Val Gln Glu
20 25 30
Phe Glu Met Ile Ser Lys Val Leu Tyr Ser Pro His Ser Val Trp Val
35 40 45
Asp Gln Leu Lys Ser Ile His Arg Lys Leu Glu Glu Gln Leu Gly Lys
50 55 60
Glu Ile Ser Lys Trp Arg Gln Ser Ile Ser Gln Gly Arg Gln Gly Val
65 70 75 80
Tyr Gly Ile Ser Leu Lys Asn Ile Glu Asp Ile Glu Lys Thr Arg Arg
85 90 95
Leu Leu Phe Arg Trp Ser Met Arg Pro Glu Asn Pro Gly Glu Val Lys
100 105 110
Gln Leu Gln Pro Gly Glu Arg Phe Ala Ile Asp Gln Gln Asn His Leu
115 120 125
Asn His Leu Lys Asp Asp Arg Ile Lys Lys Leu Ala Asn Gln Ile Val
130 135 140
Met Thr Ala Leu Gly Tyr Arg Tyr Asp Gly Lys Arg Lys Lys Trp Ile
145 150 155 160
Ala Lys His Pro Ala Cys Gln Leu Val Leu Phe Glu Asp Leu Ser Arg
165 170 175
Tyr Ala Phe Tyr Asp Glu Arg Ser Arg Leu Glu Asn Arg Asn Leu Met
180 185 190
Arg Trp Ser Arg Arg Glu Ile Pro Lys Gln Val Ala Gln Ile Gly Gly
195 200 205
Leu Tyr Gly Leu Leu Val Gly Glu Val Gly Ala Gln Tyr Ser Ser Arg
210 215 220
Phe His Ala Lys Ser Gly Ala Pro Gly Ile Arg Cys Arg Val Val Lys
225 230 235 240
Glu His Glu Leu Tyr Ile Thr Glu Gly Gly Gln Lys Val Arg Asn Gln
245 250 255
Lys Phe Leu Asp Ser Leu Val Glu Asn Asn Ile Ile Glu Pro Asp Asp
260 265 270
Ala Arg Arg Leu Glu Pro Gly Asp Leu Ile Arg Asp Gln Gly Gly Asp
275 280 285
Lys Phe Ala Thr Leu Asp Glu Arg Gly Glu Leu Val Ile Thr His Ala
290 295 300
Asp Ile Asn Ala Ala Gln Asn Leu Gln Lys Arg Phe Trp Thr Arg Thr
305 310 315 320
His Gly Leu Tyr Arg Ile Arg Cys Glu Ser Arg Glu Ile Lys Asp Ala
325 330 335
Val Val Leu Val Pro Ser Asp Lys Asp Gln Lys Glu Lys Met Glu Asn
340 345 350
Leu Phe Gly Ile Gly Tyr Leu Gln Pro Phe Lys Gln Glu Asn Asp Val
355 360 365
Tyr Lys Trp Val Lys Gly Glu Lys Ile Lys Gly Lys Lys Thr Ser Ser
370 375 380
Gln Ser Asp Asp Lys Glu Leu Val Ser Glu Ile Leu Gln Glu Ala Ser
385 390 395 400
Val Met Ala Asp Glu Leu Lys Gly Asn Arg Lys Thr Leu Phe Arg Asp
405 410 415
Pro Ser Gly Tyr Val Phe Pro Lys Asp Arg Trp Tyr Thr Gly Gly Arg
420 425 430
Tyr Phe Gly Thr Leu Glu His Leu Leu Lys Arg Lys Leu Ala Glu Arg
435 440 445
Arg Leu Phe Asp Gly Gly Ser Ser Arg Arg Gly Leu Phe Asn Gly Thr
450 455 460
Asp Ser Asn Thr Asn Val Glu
465 470
<210> 88
<211> 1142
<212> PRT
<213> 人工序列
<220>
<223> 合成的构建体
<400> 88
Met Asn Ile His Leu Lys Glu Leu Ile Arg Met Ala Thr Lys Ser Phe
1 5 10 15
Ile Leu Lys Met Lys Thr Lys Asn Asn Pro Gln Leu Arg Leu Ser Leu
20 25 30
Trp Lys Thr His Glu Leu Phe Asn Phe Gly Val Ala Tyr Tyr Met Asp
35 40 45
Leu Leu Ser Leu Phe Arg Gln Lys Asp Leu Tyr Met His Asn Asp Glu
50 55 60
Asp Pro Asp His Pro Val Val Leu Lys Lys Glu Glu Ile Gln Glu Arg
65 70 75 80
Leu Trp Met Lys Val Arg Glu Thr Gln Gln Lys Asn Gly Phe His Gly
85 90 95
Glu Val Ser Lys Asp Glu Val Leu Glu Thr Leu Arg Ala Leu Tyr Glu
100 105 110
Glu Leu Val Pro Ser Ala Val Gly Lys Ser Gly Glu Ala Asn Gln Ile
115 120 125
Ser Asn Lys Tyr Leu Tyr Pro Leu Thr Asp Pro Ala Ser Gln Ser Gly
130 135 140
Lys Gly Thr Ala Asn Ser Gly Arg Lys Pro Arg Trp Lys Lys Leu Lys
145 150 155 160
Glu Ala Gly Asp Pro Ser Trp Lys Asp Ala Tyr Glu Lys Trp Glu Lys
165 170 175
Glu Arg Gln Glu Asp Pro Lys Leu Lys Ile Leu Ala Ala Leu Gln Ser
180 185 190
Phe Gly Leu Ile Pro Leu Phe Arg Pro Phe Thr Glu Asn Asp His Lys
195 200 205
Ala Val Ile Ser Val Lys Trp Met Pro Lys Ser Lys Asn Gln Ser Val
210 215 220
Arg Lys Phe Asp Lys Asp Met Phe Asn Gln Ala Ile Glu Arg Phe Leu
225 230 235 240
Ser Trp Glu Ser Trp Asn Glu Lys Val Ala Glu Asp Tyr Glu Lys Thr
245 250 255
Val Ser Ile Tyr Glu Ser Leu Gln Lys Glu Leu Lys Gly Ile Ser Thr
260 265 270
Lys Ala Phe Glu Ile Met Glu Arg Val Glu Lys Ala Tyr Glu Ala His
275 280 285
Leu Arg Glu Ile Thr Phe Ser Asn Ser Thr Tyr Arg Ile Gly Asn Arg
290 295 300
Ala Ile Arg Gly Trp Thr Glu Ile Val Lys Lys Trp Met Lys Leu Asp
305 310 315 320
Pro Ser Ala Pro Gln Gly Asn Tyr Leu Asp Val Val Lys Asp Tyr Gln
325 330 335
Arg Arg His Pro Arg Glu Ser Gly Asp Phe Lys Leu Phe Glu Leu Leu
340 345 350
Ser Arg Pro Glu Asn Gln Ala Ala Trp Arg Glu Tyr Pro Glu Phe Leu
355 360 365
Pro Leu Tyr Val Lys Tyr Arg His Ala Glu Gln Arg Met Lys Thr Ala
370 375 380
Lys Lys Gln Ala Thr Phe Thr Leu Cys Asp Pro Ile Arg His Pro Leu
385 390 395 400
Trp Val Arg Tyr Glu Glu Arg Ser Gly Thr Asn Leu Asn Lys Tyr Arg
405 410 415
Leu Ile Met Asn Glu Lys Glu Lys Val Val Gln Phe Asp Arg Leu Ile
420 425 430
Cys Leu Asn Ala Asp Gly His Tyr Glu Glu Gln Glu Asp Val Thr Val
435 440 445
Pro Leu Ala Pro Ser Gln Gln Phe Asp Asp Gln Ile Lys Phe Ser Ser
450 455 460
Glu Asp Thr Gly Lys Gly Lys His Asn Phe Ser Tyr Tyr His Lys Gly
465 470 475 480
Ile Asn Tyr Glu Leu Lys Gly Thr Leu Gly Gly Ala Arg Ile Gln Phe
485 490 495
Asp Arg Glu His Leu Leu Arg Arg Gln Gly Val Lys Ala Gly Asn Val
500 505 510
Gly Arg Ile Phe Leu Asn Val Thr Leu Asn Ile Glu Pro Met Gln Pro
515 520 525
Phe Ser Arg Ser Gly Asn Leu Gln Thr Ser Val Gly Lys Ala Leu Lys
530 535 540
Val Tyr Val Asp Gly Tyr Pro Lys Val Val Asn Phe Lys Pro Lys Glu
545 550 555 560
Leu Thr Glu His Ile Lys Glu Ser Glu Lys Asn Thr Leu Thr Leu Gly
565 570 575
Val Glu Ser Leu Pro Thr Gly Leu Arg Val Met Ser Val Asp Leu Gly
580 585 590
Gln Arg Gln Ala Ala Ala Ile Ser Ile Phe Glu Val Val Ser Glu Lys
595 600 605
Pro Asp Asp Asn Lys Leu Phe Tyr Pro Val Lys Asp Thr Asp Leu Phe
610 615 620
Ala Val His Arg Thr Ser Phe Asn Ile Lys Leu Pro Gly Glu Lys Arg
625 630 635 640
Thr Glu Arg Arg Met Leu Glu Gln Gln Lys Arg Asp Gln Ala Ile Arg
645 650 655
Asp Leu Ser Arg Lys Leu Lys Phe Leu Lys Asn Val Leu Asn Met Gln
660 665 670
Lys Leu Glu Lys Thr Asp Glu Arg Glu Lys Arg Val Asn Arg Trp Ile
675 680 685
Lys Asp Arg Glu Arg Glu Glu Glu Asn Pro Val Tyr Val Gln Glu Phe
690 695 700
Glu Met Ile Ser Lys Val Leu Tyr Ser Pro His Ser Val Trp Val Asp
705 710 715 720
Gln Leu Lys Ser Ile His Arg Lys Leu Glu Glu Gln Leu Gly Lys Glu
725 730 735
Ile Ser Lys Trp Arg Gln Ser Ile Ser Gln Gly Arg Gln Gly Val Tyr
740 745 750
Gly Ile Ser Leu Lys Asn Ile Glu Asp Ile Glu Lys Thr Arg Arg Leu
755 760 765
Leu Phe Arg Trp Ser Met Arg Pro Glu Asn Pro Gly Glu Val Lys Gln
770 775 780
Leu Gln Pro Gly Glu Arg Phe Ala Ile Asp Gln Gln Asn His Leu Asn
785 790 795 800
His Leu Lys Asp Asp Arg Ile Lys Lys Leu Ala Asn Gln Ile Val Met
805 810 815
Thr Ala Leu Gly Tyr Arg Tyr Asp Gly Lys Arg Lys Lys Trp Ile Ala
820 825 830
Lys His Pro Ala Cys Gln Leu Val Leu Phe Glu Asp Leu Ser Arg Tyr
835 840 845
Ala Phe Tyr Asp Glu Arg Ser Arg Leu Glu Asn Arg Asn Leu Met Arg
850 855 860
Trp Ser Arg Arg Glu Ile Pro Lys Gln Val Ala Gln Ile Gly Gly Leu
865 870 875 880
Tyr Gly Leu Leu Val Gly Glu Val Gly Ala Gln Tyr Ser Ser Arg Phe
885 890 895
His Ala Lys Ser Gly Ala Pro Gly Ile Arg Cys Arg Val Val Lys Glu
900 905 910
His Glu Leu Tyr Ile Thr Glu Gly Gly Gln Lys Val Arg Asn Gln Lys
915 920 925
Phe Leu Asp Ser Leu Val Glu Asn Asn Ile Ile Glu Pro Asp Asp Ala
930 935 940
Arg Arg Leu Glu Pro Gly Asp Leu Ile Arg Asp Gln Gly Gly Asp Lys
945 950 955 960
Phe Ala Thr Leu Asp Glu Arg Gly Glu Leu Val Ile Thr His Ala Asp
965 970 975
Ile Asn Ala Ala Gln Asn Leu Gln Lys Arg Phe Trp Thr Arg Thr His
980 985 990
Gly Leu Tyr Arg Ile Arg Cys Glu Ser Arg Glu Ile Lys Asp Ala Val
995 1000 1005
Val Leu Val Pro Ser Asp Lys Asp Gln Lys Glu Lys Met Glu Asn Leu
1010 1015 1020
Phe Gly Ile Gly Tyr Leu Gln Pro Phe Lys Gln Glu Asn Asp Val Tyr
1025 1030 1035 1040
Lys Trp Val Lys Gly Glu Lys Ile Lys Gly Lys Lys Thr Ser Ser Gln
1045 1050 1055
Ser Asp Asp Lys Glu Leu Val Ser Glu Ile Leu Gln Glu Ala Ser Val
1060 1065 1070
Met Ala Asp Glu Leu Lys Gly Asn Arg Lys Thr Leu Phe Arg Asp Pro
1075 1080 1085
Ser Gly Tyr Val Phe Pro Lys Asp Arg Trp Tyr Thr Gly Gly Arg Tyr
1090 1095 1100
Phe Gly Thr Leu Glu His Leu Leu Lys Arg Lys Leu Ala Glu Arg Arg
1105 1110 1115 1120
Leu Phe Asp Gly Gly Ser Ser Arg Arg Gly Leu Phe Asn Gly Thr Asp
1125 1130 1135
Ser Asn Thr Asn Val Glu
1140
<210> 89
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 89
tgcttggctg ccagtacctg 20
<210> 90
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 90
atcgagacct caagctgggc 20
<210> 91
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 91
cctgaatgaa gatctggagg 20
<210> 92
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 92
ctcctcttgt gcagctccag 20
<210> 93
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 93
gccgtaggta gtatcgggcc 20
<210> 94
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 94
cggtgcaggt actggcagcc 20
<210> 95
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的构建体
<400> 95
tcacctccag atcttcattc 20
<210> 96
<211> 90
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 90
<223> n = A,U,C或G
<220>
<221> misc_feature
<222> 90
<223> 可呈现为18-35之间任意整数的重复
<400> 96
gucgucuaua ggacggcgag uuuuucaacg ggugugccaa uggccacuuu ccagguggca 60
aagcccguug agcuucaaag aaguggcacn 90
<210> 97
<211> 65
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 65
<223> n = A,U,C或G
<220>
<221> misc_feature
<222> 65
<223> 可呈现为18-35之间任意整数的重复
<400> 97
caacgggugu gccaauggcc acuuuccagg uggcaaagcc cguugagcuu caaagaagug 60
gcacn 65
<210> 98
<211> 74
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 74
<223> n = A,U,C或G
<220>
<221> misc_feature
<222> 74
<223> 可呈现为18-35之间任意整数的重复
<400> 98
gucgucuaua ggacggcgag uuuuugugcc aauggccacu uuccaggugg caaaagcuuc 60
aaagaagugg cacn 74
<210> 99
<211> 63
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 63
<223> n = A,U,C或G
<220>
<221> misc_feature
<222> 63
<223> 可呈现为18-35之间任意整数的重复
<400> 99
gucgucuaua ggacggcgag uuuuucaacg ggugugcccg uugagcuuca aagaaguggc 60
acn 63
<210> 100
<211> 138
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 138
<223> n = A,U,C或G
<220>
<221> misc_feature
<222> 138
<223> 可呈现为18-35之间任意整数的重复
<400> 100
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu cucaaaaaga acgcucgcuc aguguucuga cgucggauca cugagcgagc 120
gaucugagaa guggcacn 138
<210> 101
<211> 86
<212> RNA
<213> 人工序列
<220>
<223> 合成的构建体
<220>
<221> misc_feature
<222> 86
<223> n = A,U,C或G
<220>
<221> misc_feature
<222> 86
<223> 可呈现为18-35之间任意整数的重复
<400> 101
gucuaaagga cagaauuuuu caacgggugu gccaauggcc acuuuccagg uggcaaagcc 60
cguugaacuu caagcgaagu ggcacn 86

Claims (63)

1.一种工程化的成簇规则间隔短回文重复(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统,其包含:
(a)包含参考Cas12b蛋白的N端部分的第一多肽,
(b)包含参考Cas12b蛋白的C端部分的第二多肽,和
(c)包含指导序列的指导RNA;
其中参考Cas12b蛋白从N端到C端包含:第一WED结构域(WED-I)、第一REC结构域(REC1)、第二WED结构域(WED-II)、第一RuvC结构域(RuvC-I)、BH结构域、第二REC结构域(REC2)、第二RuvC结构域(RuvC-II)、第一Nuc结构域(Nuc-I)、第三RuvC结构域(RuvC-III)和第二Nuc结构域(Nuc-II),
其中参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域;
其中参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域;
其中参考Cas12b蛋白的RuvC-I、BH和REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开;并且
其中第一多肽、第二多肽和指导RNA能够相互缔合以形成CRIPSR复合物,该复合物特异性结合包含与所述指导序列互补的靶序列的靶核酸。
2.根据权利要求1的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白具有N个氨基酸残基;其中第一多肽包含参考Cas12b蛋白的第1-X位氨基酸残基,其中X为大于1且小于N的整数;并且其中第二多肽包含参考Cas12b蛋白的第X+1位至第N位氨基酸残基。
3.根据权利要求1或2所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,并且其中所述参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
4.根据权利要求1或2所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I、BH和REC2结构域,并且其中所述参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
5.根据权利要求1或2所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1、WED-II、RuvC-I和BH结构域,其中所述参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域,并且其中参考Cas12b蛋白的REC2结构域在参考Cas12b蛋白的N端部分和参考Cas12b蛋白的C端部分之间裂开。
6.根据权利要求1或2所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含参考Cas12b蛋白的WED-I、REC1和WED-II结构域,并且其中所述参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的RuvC-I、BH、REC2、RuvC-II、Nuc-I、RuvC-III和Nuc-II结构域。
7.根据权利要求1-6中任一项所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白是选自下组的Cas12b蛋白:来自嗜酸脂环酸芽孢杆菌(Alicyclobacillusacidiphilus)的Cas12b(AaCas12b)、来自卡氏脂环酸芽孢杆菌(Alicyclobacilluskakegawensis)的Cas12b(AkCas12b)、来自大孢脂环酸芽孢杆菌(Alicyclobacillusmacrosporangiidus)的Cas12b(AmCas12b)、来自外村尚芽孢杆菌(Bacillus hisashii)的Cas12b(BhCas12b)、来自芽孢杆菌属(Bacillus)的BsCas12b、来自芽孢杆菌V3-13(Bacillus sp.V3-13)的Cas12b(Bs3Cas12b)、来自非常脱硫弧菌(Desulfovibrioinopinatus)的Cas12b(DiCas12b)、来自沉积物莱西氏菌(Laceyella sediminis)的Cas12b(LsCas12b)、来自螺旋体细菌(Spirochaetes bacterium)的Cas12b(SbCas12b)、来自热生肿块芽胞杆菌(Tuberibacillus calidus)的Cas12b(TcCas12b)及其功能衍生物。
8.根据权利要求7所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白是来自嗜酸脂环酸芽孢杆菌(AaCas12b)的Cas12b蛋白或其功能衍生物。
9.根据权利要求8所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含所述参考Cas12b蛋白的第1-658位氨基酸残基,并且其中所述参考Cas12b蛋白的C端部分包含所述参考Cas12b蛋白的第659-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。
10.根据权利要求9所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含与SEQ ID NO:3的氨基酸序列具有至少85%序列同一性的氨基酸序列,并且其中所述参考Cas12b蛋白的C端部分包含与SEQ ID NO:4的氨基酸序列具有至少85%序列同一性的氨基酸序列。
11.根据权利要求8所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含所述参考Cas12b蛋白的第1-783位氨基酸残基,并且其中所述参考Cas12b蛋白的C端部分包含所述参考Cas12b蛋白的第784至1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。
12.根据权利要求11所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含与SEQ ID NO:5的氨基酸序列具有至少85%序列同一性的氨基酸序列,并且其中所述参考Cas12b蛋白的C端部分包含与SEQ ID NO:6的氨基酸序列具有至少85%序列同一性的氨基酸序列。
13.根据权利要求8所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含所述参考Cas12b蛋白的第1-518位氨基酸残基,并且其中所述参考Cas12b蛋白的C端部分包含所述参考Cas12b蛋白的第519-1129位氨基酸残基,其中氨基酸残基编号是根据SEQ ID NO:33。
14.根据权利要求13所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含与SEQ ID NO:1的氨基酸序列具有至少85%序列同一性的氨基酸序列,并且其中所述参考Cas12b蛋白的C端部分包含与SEQ ID NO:2的氨基酸序列具有至少85%序列同一性的氨基酸序列。
15.根据权利要求7所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白是来自芽孢杆菌V3-13的Cas12b蛋白(Bs3Cas12b)或其功能衍生物。
16.根据权利要求15所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含所述参考Cas12b蛋白的第1-650位氨基酸残基,并且其中所述参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第651-1112位氨基酸残基,其中氨基酸残基编号是根据SEQID NO:85。
17.根据权利要求16所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含与SEQ ID NO:83的氨基酸序列具有至少85%序列同一性的氨基酸序列,并且其中所述参考Cas12b蛋白的C端部分包含与SEQ ID NO:84的氨基酸序列具有至少85%序列同一性的氨基酸序列。
18.根据权利要求7所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白是来自热生肿块芽胞杆菌的Cas12b蛋白(TcCas12b)或其功能衍生物。
19.根据权利要求18所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含所述参考Cas12b蛋白的第1-671位氨基酸残基,并且其中所述参考Cas12b蛋白的C端部分包含参考Cas12b蛋白的第672-1142位氨基酸残基,其中氨基酸残基编号是根据SEQID NO:88。
20.根据权利要求19所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白的N端部分包含与SEQ ID NO:86的氨基酸序列具有至少85%序列同一性的氨基酸序列,并且其中所述参考Cas12b蛋白的C端部分包含与SEQ ID NO:87的氨基酸序列具有至少85%序列同一性的氨基酸序列。
21.根据权利要求1-20中任一项所述的工程化的CRISPR-Cas系统,其中第一多肽和第二多肽不包含二聚化结构域。
22.根据权利要求1-10中任一项所述的工程化的CRISPR-Cas系统,其中所述第一多肽包含第一二聚化结构域,并且所述第二多肽包含第二二聚化结构域。
23.根据权利要求22所述的工程化的CRISPR-Cas系统,其中所述第一二聚化结构域和所述第二二聚化结构域在诱导剂存在下彼此缔合。
24.根据权利要求23所述的工程化的CRISPR-Cas系统,其中所述第一二聚化结构域是FK506结合蛋白(FKBP)并且所述第二二聚化结构域是FKBP-雷帕霉素结合结构域(FRB),或者所述第一二聚化结构域是FRB并且所述第二二聚化结构域是FKBP,以及诱导剂是雷帕霉素。
25.根据权利要求1-24中任一项所述的工程化的CRISPR-Cas系统,其中所述指导RNA是单链指导RNA(sgRNA),所述sgRNA包含反式激活CRISPR RNA(tracrRNA)序列和含有所述指导序列的CRISPR RNA(crRNA)序列,并且其中sgRNA从5'到3'包含:第一茎环、第二茎环、第三茎环和第四茎环。
26.根据权利要求25所述的工程化的CRISPR-Cas系统,其中所述sgRNA包含SEQ ID NO:7、96或100的核酸序列。
27.根据权利要求1-24中任一项所述的工程化的CRISPR-Cas系统,其中所述指导RNA是截短的sgRNA,所述截短的sgRNA包含tracrRNA序列和含有所述指导序列的crRNA序列,并且其中与包含野生型tracrRNA序列和对应于参考Cas12b蛋白的野生型crRNA序列的全长sgRNA相比,所述截短的sgRNA缺少一个或多个茎环。
28.根据权利要求27所述的工程化的CRISPR-Cas系统,其中所述全长sgRNA从5'到3'包含:第一茎环、第二茎环、第三茎环和第四茎环,并且其中所述截短的sgRNA不包含第一茎环、第二茎环和/或第三茎环。
29.根据权利要求27或28所述的工程化的CRISPR-Cas系统,其中所述截短的sgRNA包含选自SEQ ID NO:8-10、97-99和101的核酸序列。
30.根据权利要求1-29中任一项所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白具有酶促活性。
31.根据权利要求1-29中任一项所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白是无酶促活性的。
32.根据权利要求31所述的工程化的CRISPR-Cas系统,其中所述参考Cas12b蛋白包含选自下组的一个或多个突变:D570A、R785A、R911A和D977A,其中氨基酸编号是根据SEQ IDNO:33。
33.根据权利要求32所述的工程化的CRISPR-Cas系统,其中所述第一多肽还包含融合至所述参考Cas12b蛋白的N端部分的功能域,和/或所述第二多肽还包含融合至所述参考Cas12b蛋白的C端部分的功能域。
34.根据权利要求33所述的工程化的CRISPR-Cas系统,其中所述功能域选自:翻译起始结构域、转录抑制结构域、反式激活结构域、表观遗传修饰结构域和核酸酶结构域。
35.根据权利要求34所述的工程化的CRISPR-Cas系统,其中所述功能域是转录抑制结构域。
36.根据权利要求35所述的工程化的CRISPR-Cas系统,其中所述功能域选自:Krüppel相关盒(KRAB)、EnR、NuE、NcoR、SID和SID4X。
37.根据权利要求34所述的工程化的CRISPR-Cas系统,其中所述功能域是反式激活结构域。
38.根据权利要求37所述的工程化的CRISPR-Cas系统,其中所述功能域选自:VP64、p65、HSF1、VP16、MyoD1、HSF1、RTA、SET7/9及其组合。
39.根据权利要求33-38中任一项所述的工程化的CRISPR-Cas系统,其中所述第一多肽和所述第二多肽不包含二聚化结构域,并且其中所述第一多肽从N端到C端包含:第一功能域、参考Cas12b蛋白的N端部分、第二功能域;和/或其中所述第二多肽从N端到C端包含:第三功能域、参考Cas12b蛋白的C端部分、第四功能域。
40.根据权利要求1-39中任一项所述的工程化的CRISPR-Cas系统,其中所述第一多肽和/或所述第二多肽还包含核定位信号(NLS)。
41.根据权利要求1-40中任一项所述的工程化的CRISPR-Cas系统,其包含编码所述第一多肽的第一核酸和编码所述第二多肽的第二核酸。
42.根据权利要求41所述的工程化的CRISPR-Cas系统,其中所述第一核酸存在于第一载体中,并且所述第二核酸存在于第二载体中。
43.根据权利要求42所述的工程化的CRISPR-Cas系统,其中所述第一载体和所述第二载体是腺相关病毒(AAV)载体。
44.根据权利要求42或43所述的工程化的CRISPR-Cas系统,其中所述第一载体或所述第二载体还包含编码所述指导RNA的第三核酸。
45.根据权利要求42或43所述的工程化的CRISPR-Cas系统,其包含第三载体,该第三载体包含编码所述指导RNA的第三核酸。
46.一种修饰靶核酸的方法,其包括:使靶核酸与权利要求1-45中任一项的工程化的CRISPR-Cas系统接触,其中所述指导RNA的指导序列与靶核酸的靶序列互补,其中所述第一多肽、第二多肽和指导RNA彼此缔合以结合所述靶核酸,从而修饰所述靶核酸。
47.根据权利要求46所述的方法,其中所述靶核酸在细胞中。
48.根据权利要求46或47所述的方法,其中所述方法不包括使靶核酸与诱导剂接触。
49.根据权利要求46或47所述的方法,其中所述方法还包括使靶核酸与诱导剂接触。
50.根据权利要求46-49中任一项所述的方法,其中所述靶核酸存在于细菌细胞、酵母细胞、植物细胞或动物细胞中。
51.根据权利要求46-50中任一项所述的方法,其中所述靶核酸被切割,或所述靶核酸中的靶序列被工程化的CRISPR-Cas系统改变。
52.根据权利要求51所述的方法,还包括使靶核酸与供体DNA接触。
53.根据权利要求46-52中任一项所述的方法,其中所述靶核酸的表达被工程化的CRISPR-Cas系统改变。
54.根据权利要求46-53中任一项所述的方法,其中所述方法离体进行。
55.根据权利要求46-53中任一项所述的方法,其中所述方法在体内进行。
56.根据权利要求46-55中任一项所述的方法,其中所述靶序列与疾病或病症相关。
57.根据权利要求46-56中任一项所述的方法,其中所述指导RNA包含多个crRNA序列,其中每个crRNA包含不同的靶序列。
58.一种治疗与个体细胞中靶核酸相关的疾病或病症的方法,包括使用根据权利要求46-57中任一项所述的方法修饰个体细胞中的靶核酸,从而治疗所述疾病或病症。
59.根据权利要求58所述的方法,其中所述疾病或病症选自:癌症、心血管疾病、遗传性疾病、自身免疫性疾病、代谢性疾病、神经退行性疾病、眼部疾病、细菌感染和病毒感染。
60.根据权利要求59所述的方法,其中所述靶核酸是PCSK9,并且所述疾病或病症是心血管疾病。
61.一种工程化的多肽,其包含选自下组的氨基酸序列:SEQ ID NO:1-6、11-16、78-79和81-82。
62.包含经修饰的靶核酸的工程化的细胞,其中所述靶核酸已经使用根据权利要求46-57中任一项所述的方法进行了修饰。
63.一种工程化的非人动物,其包含一种或多种根据权利要求62所述的工程化的细胞。
CN202180051832.4A 2020-08-25 2021-08-24 分裂的cas12系统及其使用方法 Pending CN117120602A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/CN2020/111057 WO2022040909A1 (en) 2020-08-25 2020-08-25 Split cas12 systems and methods of use thereof
CNPCT/CN2020/111057 2020-08-25
PCT/CN2021/114339 WO2022042557A1 (en) 2020-08-25 2021-08-24 Split cas12 systems and methods of use thereof

Publications (1)

Publication Number Publication Date
CN117120602A true CN117120602A (zh) 2023-11-24

Family

ID=80352375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180051832.4A Pending CN117120602A (zh) 2020-08-25 2021-08-24 分裂的cas12系统及其使用方法

Country Status (3)

Country Link
US (1) US20230323322A1 (zh)
CN (1) CN117120602A (zh)
WO (2) WO2022040909A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240074A1 (en) * 2022-06-07 2023-12-14 Scribe Therapeutics Inc. Compositions and methods for the targeting of pcsk9
WO2024086596A1 (en) * 2022-10-18 2024-04-25 4M Genomics Inc. Polypeptide fusions or conjugates for gene editing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019126709A1 (en) * 2017-12-22 2019-06-27 The Broad Institute, Inc. Cas12b systems, methods, and compositions for targeted dna base editing
CN109689875B (zh) * 2017-12-27 2021-07-27 中国科学院动物研究所 基因组编辑系统和方法
AU2019318079A1 (en) * 2018-08-07 2021-01-28 Massachusetts Institute Of Technology Novel Cas12b enzymes and systems

Also Published As

Publication number Publication date
WO2022042557A1 (en) 2022-03-03
WO2022040909A1 (en) 2022-03-03
US20230323322A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
CN113308451B (zh) 工程化的Cas效应蛋白及其使用方法
CN113151215B (zh) 工程化的Cas12i核酸酶及其效应蛋白以及用途
CN108601821B (zh) 包含经修饰的人T细胞受体α恒定区基因的经遗传修饰的细胞
JP2024023294A (ja) 遺伝子編集のためのcpf1関連方法及び組成物
JP7275043B2 (ja) 増大したhATファミリートランスポゾン媒介遺伝子導入ならびに関連する組成物、システムおよび方法
KR20210056329A (ko) 신규 cas12b 효소 및 시스템
US20230022146A1 (en) Compositions and methods for editing beta-globin for treatment of hemaglobinopathies
KR102494449B1 (ko) 진핵 게놈 변형을 위한 조작된 cas9 시스템
CN116322716A (zh) Regnase-1和/或TGFBRII被破坏的基因工程化T细胞具有改善的功能性和持久性
JP2024041866A (ja) 強化されたhATファミリーのトランスポゾンが介在する遺伝子導入ならびに関連する組成物、システム、及び方法
US11492614B2 (en) Stem loop RNA mediated transport of mitochondria genome editing molecules (endonucleases) into the mitochondria
CN117120602A (zh) 分裂的cas12系统及其使用方法
EP4349979A1 (en) Engineered cas12i nuclease, effector protein and use thereof
JP7418796B2 (ja) 細胞株の開発のための相同組換えベクターの高速生成のためのdnaプラスミド
CN111051509A (zh) 用于电介质校准的含有c2cl核酸内切酶的组合物以及使用其进行电介质校准的方法
CN116601293A (zh) 工程化的Cas效应蛋白及其使用方法
WO2023138617A1 (zh) 工程化的CasX核酸酶、效应蛋白及其用途
WO2023104185A1 (en) Engineered cas12b effector proteins and methods of use thereof
WO2024131786A1 (zh) 一种在基因组插入大片段dna的系统
Peddle Development of all-in-one CRISPR/Cas9 and CRISPRi AAV constructs to treat autosomal dominant retinitis pigmentosa
JP2024507451A (ja) Crisprに基づく転写抑制用融合タンパク質
Zainalbden In vitro correction of hbb v6g mutation in lymphocyte cells of patients with sickle cell anemia using genome-editing crispr/cas9 technique
Vannocci Development and Characterisation of a Zinc Finger Nuclease Specific for the Human Beta-globin Gene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination