CN110023494A - Rna指导的核酸修饰酶及其使用方法 - Google Patents

Rna指导的核酸修饰酶及其使用方法 Download PDF

Info

Publication number
CN110023494A
CN110023494A CN201780074116.1A CN201780074116A CN110023494A CN 110023494 A CN110023494 A CN 110023494A CN 201780074116 A CN201780074116 A CN 201780074116A CN 110023494 A CN110023494 A CN 110023494A
Authority
CN
China
Prior art keywords
casx
activity
sequence
polypeptide
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780074116.1A
Other languages
English (en)
Inventor
J·A·多德纳
J·F·班菲尔德
D·伯斯坦
L·B·哈林顿
S·C·斯图特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN110023494A publication Critical patent/CN110023494A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/8509Vectors or expression systems specially adapted for eukaryotic hosts for animal cells for producing genetically modified animals, e.g. transgenic
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K19/00Hybrid peptides, i.e. peptides covalently bound to nucleic acids, or non-covalently bound protein-protein complexes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/74Vectors or expression systems specially adapted for prokaryotic hosts other than E. coli, e.g. Lactobacillus, Micromonospora
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/88Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation using microencapsulation, e.g. using amphiphile liposome vesicle
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/1003Transferases (2.) transferring one-carbon groups (2.1)
    • C12N9/1007Methyltransferases (general) (2.1.1.)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/1025Acyltransferases (2.3)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/02Fusion polypeptide containing a localisation/targetting motif containing a signal sequence
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/03Fusion polypeptide containing a localisation/targetting motif containing a transmembrane segment
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/06Fusion polypeptide containing a localisation/targetting motif containing a lysosomal/endosomal localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/20Fusion polypeptide containing a tag with affinity for a non-protein ligand
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2740/00Reverse transcribing RNA viruses
    • C12N2740/00011Details
    • C12N2740/10011Retroviridae
    • C12N2740/13011Gammaretrovirus, e.g. murine leukeamia virus
    • C12N2740/13041Use of virus, viral particle or viral elements as a vector
    • C12N2740/13043Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2740/00Reverse transcribing RNA viruses
    • C12N2740/00011Details
    • C12N2740/10011Retroviridae
    • C12N2740/16011Human Immunodeficiency Virus, HIV
    • C12N2740/16041Use of virus, viral particle or viral elements as a vector
    • C12N2740/16043Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Veterinary Medicine (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Virology (AREA)
  • Mycology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本公开提供CasX蛋白、编码所述CasX蛋白的核酸,以及包含所述CasX蛋白和/或编码所述CasX蛋白的核酸的经修饰的宿主细胞。CasX蛋白可用于提供的各种应用中。本公开提供与所述CasX蛋白结合并提供针对所述CasX蛋白的序列特异性的CasX指导RNA,编码所述CasX指导RNA的核酸,以及包含所述CasX指导RNA和/或编码所述CasX指导RNA的核酸的经修饰的宿主细胞。CasX指导RNA可用于提供的各种应用中。本公开提供古细菌Cas9多肽和编码所述古细菌Cas9多肽的核酸,以及它们的相关联的古细菌Cas9指导RNA和编码所述古细菌Cas9指导RNA的核酸。

Description

RNA指导的核酸修饰酶及其使用方法
交叉引用
本申请要求2016年9月30日提交的美国临时专利申请号62/402,846的权益,所述申请以引用的方式整体并入本文。
以引用的方式并入呈文本文件提供的序列表
特此提供2017年9月28日创建的呈文本文件“BERK-342WO_SeqList_ST25.txt”的序列表并且所述序列表具有135KB的大小。文本文件的内容以引用的方式整体并入本文。
引言
CRISPR-Cas系统是DNA测序时代之前科学界未知的途径的一个实例,现在被认为赋予细菌和古细菌针对噬菌体和病毒的获得性免疫力。过去十年的密集研究已揭示了此系统的生物化学性。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成,所述Cas蛋白参与外源DNA或RNA的获取、靶向和切割,所述CRISPR阵列包括将Cas蛋白引导至其靶标的侧接短间隔序列的正向重复序列。第2类CRISPR-Cas是精简型式,其中与RNA结合的单个Cas蛋白负责结合和切割靶向序列。这些最小系统的可编程性质有利于它们用作一种多功能技术,这种技术正在彻底变革基因组操纵领域。
当前的CRISPR-Cas技术基于来自培养的细菌的系统,而使得未被分离的绝大多数生物体处于未开发状态。迄今为止,仅发现了少数第2类CRISPR/Cas系统。本领域需要另外的第2类CRISPR/Cas系统(例如,Cas蛋白加指导RNA的组合)。
发明内容
本公开提供RNA指导的内切核酸酶多肽,在本文中称为“CasX”多肽(也称为“CasX蛋白”);编码CasX多肽的核酸;以及包含CasX多肽和/或编码CasX多肽的核酸的经修饰的宿主细胞。CasX多肽可用于提供的各种应用中。
本公开提供与CasX蛋白结合并提供针对CasX蛋白的序列特异性的指导RNA(在本文中称为“CasX指导RNA”);编码CasX指导RNA的核酸;以及包含CasX指导RNA和/或编码CasX指导RNA的核酸的经修饰的宿主细胞。CasX指导RNA可用于提供的各种应用中。
本公开提供古细菌Cas9多肽和编码古细菌Cas9多肽的核酸,以及它们的相关联的指导RNA(古细菌Cas9指导RNA)和编码古细菌Cas9指导RNA的核酸。
附图说明
图1描绘两种天然存在的CasX蛋白序列。
图2描绘两种鉴定的天然存在的CasX蛋白序列的比对。
图3(图a至图b)描绘CasX的示意性结构域表示。还示出试图鉴定CasX的同源物的各种检索的结果。还描绘从两种不同物种鉴定的含有CasX的CRISPR基因座的部分。
图4(图a至图c)描绘为证明在大肠杆菌(Escherichia coli)中表达的CasX的质粒干扰而进行的实验。
图5(图a至图b)描绘为确定CasX的PAM序列而进行的实验(CasX的PAM依赖性质粒干扰)。
图6(图a至图c)描绘为确定CasX是双重指导的CRISPR-Cas效应复合物而进行的实验。
图7呈现CasX RNA指导的DNA干扰的示意图。
图8呈现用于证明使用CasX在人细胞中编辑的一个实施方案的实验设计的示意图。
图9呈现示出CasX的重组表达和纯化的数据。
图10呈现使用各种不同tracrRNA序列(不同序列长度)用于切割活性的数据。
图11呈现与CasX在室温相对于37℃下起作用相关的数据。
图12(图a至图e)呈现与古细菌Cas9 CRISPR系统(ARMAN-1 II型CRISPR-cas系统)相关的信息。
图13呈现示例性古细菌Cas9蛋白(分别为ARMAN-1和ARMAN-4,SEQ ID NO:71和72)。对应于酿脓链球菌(S.pyogenes)的D10和H840的催化残基以粗体和下划线示出。
图14呈现可与古细菌Cas9蛋白(例如,ARMAN-1 Cas9)一起使用的示例性双指导形式(上图)(上部RNA-SEQ ID NO:73,下部RNA-SEQ ID NO:77)和单指导形式(下图)(SEQ IDNO:79)。
图15呈现可与古细菌Cas9蛋白(例如,ARMAN-4 Cas9)一起使用的示例性双指导形式(上图)(上部RNA-SEQ ID NO:74,下部RNA-SEQ ID NO:78)和单指导形式(下图)(SEQ IDNO:80)。
图16呈现两种新鉴定的非古细菌Cas9蛋白。
图17呈现(i)两种新鉴定的非古细菌Cas9蛋白与ARMAN-1和ARMAN-4 Cas9蛋白的比对;以及(ii)来自ARMAN-1和ARMAN-4的Cas9蛋白以及来自非培养细菌的两种密切相关的Cas9蛋白与已知结构的奈氏放线菌(Actinomyces naeslundii)Cas9的比对。
图18(图a至图b)呈现来自非培养生物体的新鉴定的CRISPR-Cas系统。a,基于Hug等人的数据,所有细菌和古细菌中具有与没有已分离的代表的主要谱系的比例32。结果突出了这些领域中的大规模尚未研究的生物学。古细菌Cas9和新型CRISPR-CasY仅存在于没有已分离的代表的谱系中。b,新发现的CRISPR-Cas系统的基因座结构。
图19(图a至图b)呈现ARMAN-1 CRISPR阵列多样性和ARMAN-1 Cas9 PAM序列的鉴定。a,由15种不同的AMD样品重建的CRISPR阵列。白色方框表示重复序列,并且有色菱形表示间隔序列(相同的间隔序列颜色相似;独特的间隔序列为黑色)。突出显示阵列的保守区域(右侧)。最近获得的间隔序列(左侧)的多样性表明系统是活跃的。还包括来自读取数据的CRISPR片段的分析在图25中呈现。b,由AMD宏基因组数据重建的单个推定的病毒重叠群含有来自ARMAN-1 CRISPR阵列的56个原间隔序列(红色竖直条)。c,序列分析揭示非靶链上的原间隔序列下游的保守‘NGG’PAM基序。
图20(图a至图d)呈现示出CasX介导大肠杆菌中的可编程DNA干扰的数据。a,CasX质粒干扰测定图。用含有与CRISPR阵列中的序列匹配的间隔序列的质粒(靶标)或含有非匹配间隔序列的质粒(非靶标)转化表达最小CasX基因座的大肠杆菌。转化之后,对培养物进行铺板并定量菌落形成单位(cfu)。b,表达靶向间隔序列1(sX.1)的浮霉菌门(Planctomycetes)CasX基因座并用指定的靶标转化的大肠杆菌的连续稀释(sX1,CasX间隔序列1;sX2,CasX间隔序列2;NT,非靶标)。c,δ变形菌门(Deltaproteobacteria)CasX的质粒干扰。实验一式三份进行,并且示出平均值±标准差。d,在大肠杆菌中表达的浮霉菌门CasX基因座的PAM缺失测定。与对照文库相比缺失大于30倍的PAM序列用于生成WebLogo。
图21(图a至图c)呈现示出CasX是一种双指导的CRISPR复合物的数据。a,环境RNA序列(宏转录组数据)到下图所示的CasXCRISPR基因座的映射(红色箭头,推定的tracrRNA;白色方框,重复序列;绿色菱形,间隔序列)。插图示出第一个重复序列和间隔序列的详细视图。b,CasX双链DNA干扰图。RNA加工的位点用黑色箭头指示。c,使用敲除CasX基因座的推定tracrRNA以及与单独的crRNA、截短的sgRNA或全长sgRNA共表达的CasX进行的质粒干扰测定的结果(T,靶标;NT,非靶标)。实验一式三份进行,并且示出平均值±标准差。
图22(图a至图c)呈现示出大肠杆菌中CasY基因座的表达足以引起DNA干扰的数据。a,CasY基因座和相邻蛋白质的图。b,相对于对照文库CasY的缺失大于3倍的5'PAM序列的WebLogo。c,表达CasY.1并用含有指示PAM的靶标转化的大肠杆菌的质粒干扰。实验一式三份进行,并且示出平均值±标准差。
图23(图a至图b)呈现在已知系统的环境中的新鉴定的CRISPR-Cas。a,通用Cas1蛋白的简化系统发育树。在楔形和分支上记录已知系统的CRISPR类型;新描述的系统以粗体显示。详细的Cas1系统发育在补充数据2中呈现。b,提出的由于II-B型与II-C型基因座之间的重组而产生古细菌II型系统的进化设想。
图24呈现来自ARMAN-4的古细菌Cas9存在于具有简并CRISPR阵列的许多重叠群上。来自ARMAN-4的Cas9在16个不同的重叠群上以深红色突出显示。具有推定的结构域或功能的蛋白被标记,而假定蛋白未被标记。所述重叠群中的十五个含有两个简并的正向重复序列(一个bp错配)和一个单一保守间隔序列。剩余的重叠群仅含有一个正向重复序列。与ARMAN-1不同,在ARMAN-4中发现没有另外的Cas蛋白与Cas9相邻。
图25呈现ARMAN-1 CRISPR阵列的完整重建。包括参考组装序列以及由短DNA读取重建的阵列区段的CRISPR阵列的重建。绿色箭头指示重复序列,并且有色箭头指示CRISPR间隔序列(相同的间隔序列颜色相同,而独特的间隔序列为黑色)。在CRISPR系统中,间隔序列通常是单向添加的,因此左侧的各种各样的间隔序列归因于最近的获得。
图26(图a至图b)示出ARMAN-1间隔序列映射到古细菌群落成员的基因组。a,来自ARMAN-1的原间隔序列(红色箭头)映射到ARMAN-2的基因组,所述ARMAN-2是来自同一环境的纳米古细菌。六个原间隔序列独特地映射到侧接两个长末端重复序列(LTR)的基因组的一部分,并且两个另外的原间隔序列在LTR内完美匹配(蓝色和绿色)。此区域可能是转座子,表明ARMAN-1的CRISPR-Cas系统在抑制此元件的可动化中起作用。b,原间隔序列还映射到热源体目(Thermoplasmatales)古细菌(I-plasma),所述热源体目古细菌是在与ARMAN生物体相同的样品中发现的Richmond Mine生态系统的另一个成员。原间隔序列在编码短假定蛋白的基因组区域内聚类,表明这也可能代表可动元件。
图27(图a至图e)呈现预测的ARMAN-1 crRNA和tracrRNA的二级结构。a,CRISPR重复序列和tracrRNA反重复序列以黑色描绘,而间隔序列衍生的序列以一系列绿色N示出。没有明确的终止信号可从基因座预测,因此基于它们的二级结构测试了三种不同的tracrRNA长度-分别为红色、蓝色和粉红色的69、104和179。b,工程化的对应于a中的双指导的单指导RNA。c,在tracrRNA的3'末端有两个不同的发夹(75和122)的ARMAN-4 Cas9的双指导。d,工程化的对应于c中的双指导的单指导RNA。e,大肠杆菌体内靶向测定中的测试条件。
图28(图a至图b)呈现体外生物化学研究的纯化方案。a,ARMAN-1(AR1)和ARMAN-4(AR4)Cas9在如补充材料中概述的多种条件下进行表达和纯化。在体外测试在蓝色方框中概述的蛋白质的切割活性。b,在10%SDS-PAGE凝胶上分离AR1-Cas9和AR4-Cas9纯化的级分。
图29呈现与已知蛋白质相比的新鉴定的CRISPR-Cas系统。基于以下检索的CasX和CasY与已知蛋白质的相似性:(1)针对NCBI的非冗余(NR)蛋白质数据库的Blast检索,(2)针对所有已知蛋白质的HMM数据库的隐马尔科夫模型(HMM)检索和(3)使用HHpred30的远同源性检索。
图30(图a至图f)呈现与CasX进行的编程的DNA干扰相关的数据。a,CasX2(浮霉菌门)和CasX1(δ变形菌门)的质粒干扰测定,上接图20图c(sX1,CasX间隔序列1;sX2,CasX间隔序列2;NT,非靶标)。实验一式三份进行,并且示出平均值±标准差。b,表达CasX基因座并用指定靶标转化的大肠杆菌的连续稀释,上接图20图b。c,针对δ变形菌门CasX的PAM缺失测定,以及d,在大肠杆菌中表达的浮霉菌门CasX。与对照文库相比缺失大于指示的PAM缺失值阈值(PDVT)的PAM序列用于生成WebLogo。e,描绘CasX.1的RNA印迹探针的位置的图。f,从表达CasX.1基因座的大肠杆菌中提取的总RNA中的CasX.1 tracrRNA的RNA印迹。
图31呈现Cas9同源物的进化树。Cas9蛋白的最大似然法系统发育树,示出先前描述的基于系统类型着色的系统:II-A为蓝色,II-B为绿色,并且II-C为紫色。古细菌Cas9与II-C型CRISPR-Cas系统以及来自非培养细菌的两种新描述的细菌Cas9聚类到一起。
图32呈现针对来自ARMAN-1和ARMAN-4的Cas9测定的切割条件的表。
定义
如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,相对于CasX多肽,异源多肽包含来自除CasX多肽之外的蛋白质的氨基酸序列。在一些情况下,来自一个物种的CasX蛋白的一部分与来自不同物种的CasX蛋白的一部分融合。因此,可认为来自每个物种的CasX序列相对于彼此是异源的。作为另一个实例,CasX蛋白(例如,dCasX蛋白)可与来自非CasX蛋白(例如,组蛋白脱乙酰酶)的活性结构域融合,并且所述活性结构域的序列可被认为是异源多肽(它与CasX蛋白是异源的)。
在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核苷酸)的聚合形式。因此,此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。术语“多核苷酸”和“核酸”应理解为包括如可适用于所描述的实施方案的单链(诸如有义链或反义链)和双链多核苷酸。
在本文中可互换使用的术语“多肽”、“肽”和“蛋白质”是指具有任何长度的氨基酸的聚合形式,其可包括遗传编码和非遗传编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。所述术语包括:融合蛋白,其包括但不限于具有异源氨基酸序列的融合蛋白,具有异源和同源前导序列、具有或不具有N端甲硫氨酸残基的融合体;免疫标记蛋白;等。
如本文所用,适用于核酸、蛋白质、细胞或生物体的术语“天然存在的”是指存在于自然界中的核酸、细胞、蛋白质或生物体。
如本文所用,术语“分离的”意在描述处于与多核苷酸、多肽或细胞天然存在的环境不同的环境中的所述多核苷酸、多肽或细胞。分离的遗传修饰的宿主细胞可存在于遗传修饰的宿主细胞的混合群体中。
如本文所用,术语“外源核酸”是指在自然界中不是正常或天然存在的核酸和/或不是由给定细菌、生物体或细胞产生的核酸。如本文所用,术语“内源核酸”是指在自然界中正常存在的核酸和/或由给定细菌、生物体或细胞产生的核酸。“内源核酸”也称为“天然核酸”或对于给定细菌、生物体或细胞“天然”的核酸。
如本文所用,“重组”意指具体核酸(DNA或RNA)是克隆、限制和/或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。一般而言,编码结构编码序列的DNA序列可由cDNA片段和短寡核苷酸接头或由一系列合成寡核苷酸组装,以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。此类序列可以不被内部非翻译序列或内含子中断的开放阅读框形式提供,所述内部非翻译序列或内含子通常存在于真核基因中。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操作或表达,并且实际上可通过各种机制起到调节所需产物的产生的作用(参见下文的“DNA调节序列”)。
因此,例如术语“重组”多核苷酸或“重组”核酸是指非天然存在的多核苷酸或核酸,例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如,通过遗传工程化技术)来完成。通常进行这种操作以用编码相同或保守氨基酸的冗余密码子替换密码子,同时通常引入或移除序列识别位点。可替代地,将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如,通过遗传工程化技术)来完成。
类似地,术语“重组”多肽是指非天然存在的多肽,例如通过人干预由氨基酸序列的两个另外分开的区段的人工组合制成的多肽。因此,例如,包含异源氨基酸序列的多肽是重组的。
“构建体”或“载体”意指重组核酸,一般是重组DNA,其是出于表达和/或增殖一个或多个特定核苷酸序列的目的而生成的,或者用于构建其他重组核苷酸序列。
在本文中可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指转录和翻译控制序列,诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等,所述转录和翻译控制序列在宿主细胞中提供和/或调节编码序列的表达和/或编码的多肽的产生。
术语“转化”与“遗传修饰”在本文中可互换使用,并且是指在向细胞中引入新核酸(即,对于所述细胞外源的DNA)之后,在所述细胞中诱导的永久或瞬时的遗传变化。遗传变化(“修饰”)可通过向宿主细胞的基因组中引入新核酸或者通过作为游离基因元件的新核酸的瞬时的或稳定的维持来完成。当细胞为真核细胞时,永久的遗传变化一般通过向所述细胞的基因组中引入新DNA来完成。在原核细胞中,可将永久的变化引入染色体中或通过染色体外元件(诸如质粒和表达载体)引入染色体中,所述染色体外元件可含有一种或多种可选择标记以帮助它们在重组宿主细胞中的维持。遗传修饰的合适方法包括病毒感染、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射等。方法的选择一般取决于待转化的细胞类型和其中发生转化的环境(即体外、离体或体内)。这些方法的一般讨论可见于Ausubel等人,Short Protocols in Molecular Biology,第3版,Wiley&Sons,1995中。
“可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如,如果启动子影响编码序列的转录或表达,将启动子可操作地连接至所述编码序列。如本文所用,术语“异源启动子”和“异源控制区”是指通常与自然界中的特定核酸不相关的启动子和其他控制区。例如,“与编码区异源的转录控制区”是通常与自然界中的编码区不相关的转录控制区。
如本文所用,“宿主细胞”指代体内或体外真核细胞、原核细胞或作为单细胞实体培养的来自多细胞生物体的细胞(例如,细胞系),所述真核细胞或原核细胞可用作或已用作核酸(例如,表达载体)的受体,并且包括已通过核酸遗传修饰的原始细胞的子代。应理解由于天然、偶然或有意突变,单细胞的子代可不必在形态或在基因组或总DNA互补序列方面与原始亲本完全相同。“重组宿主细胞”(也称为“遗传修饰的宿主细胞”)是已向其中引入异源核酸(例如,表达载体)的宿主细胞。例如,主题原核宿主细胞是通过将异源核酸引入合适的原核宿主细胞中的遗传修饰的原核宿主细胞(例如,细菌),所述异源核酸是例如对原核宿主细胞外源(通常在自然界中不存在)的外源核酸或通常在原核宿主细胞中不存在的重组核酸;并且主题真核宿主细胞是通过将异源核酸引入合适的真核宿主细胞中的遗传修饰的真核宿主细胞,所述异源核酸是例如对真核宿主细胞外源的外源核酸或通常在真核宿主细胞中不存在的重组核酸。
术语“保守氨基酸取代”是指具有相似侧链的氨基酸残基的蛋白质中的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。
多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时处于相同的相对位置上。可以许多不同方式确定序列相似性。为了确定序列同一性,可使用包括可通过万维网ncbi.nlm.nih.gov/BLAST获得的BLAST在内的方法和计算机程序来比对序列。参见例如,Altschul等人(1990),J.Mol.Biol.215:403-10。另一种比对算法是FASTA,可从美国威斯康星州麦迪逊市的一家Oxford Molecular Group,Inc.的全资子公司的遗传计算组(GCG)程序包中获得。用于比对的其他技术描述于Methods in Enzymology,第266卷:ComputerMethods for Macromolecular Sequence Analysis(1996),Doolittle编,AcademicPress,Inc.,Harcourt Brace&Co.的一个部门,San Diego,California,USA。特别感兴趣的是允许序列中存在缺口的比对程序。Smith-Waterman是允许序列比对中存在缺口的一种算法类型。参见Meth.Mol.Biol.70:173-187(1997)。另外,使用Needleman和Wunsch比对方法的GAP程序可用于比对序列。参见J.Mol.Biol.48:443-453(1970)。
如本文所用,术语“治疗(treatment、treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言,所述效果可以是预防性的,并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言,所述效果可以是治疗性的。如本文所用,“治疗”覆盖对哺乳动物(例如,人类)的疾病的任何治疗,并且包括:(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生;(b)抑制疾病,即阻止其发展;和(c)缓解疾病,即引起疾病消退。
术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用,是指个体生物体,例如哺乳动物,包括但不限于鼠类、猿、人类、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。
在进一步描述本发明之前,应理解本发明不限于所述的具体实施方案,因此,当然也可有所变化。还应理解,本文所用的术语仅出于描述具体实施方案的目的,并且不意图具有限制性,因为本发明的范围将仅受所附权利要求限制。
在提供值的范围的情况下,应理解此范围的上限与下限之间的各介入值(除非上下文另外清楚地指出,否则准确到下限的单位的十分之一),以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内,并且也涵盖在本发明内,从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下,排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。
除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中,但是现在描述优选的方法和材料。本文提及的所有出版物以引用的方式并入本文,以结合所引用的出版物公开并描述方法和/或材料。
必须指出,如在本文和所附权利要求中所用,单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物,除非上下文另外清楚地指出。因此,例如,提及“CasX多肽”包括多个此类多肽,并且提及“指导RNA”包括提及本领域的技术人员已知的一种或多种指导RNA及其等效物,等。还应注意,权利要求可拟订成排除任何任选的要素。因而,这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。
应理解,出于清晰目的而在单独的实施方案的上下文中所描述的本发明的某些特征也可在单个实施方案中组合提供。相反,为了简明,在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外,各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地和明确地在本文中公开一样。
本文中讨论的出版物仅仅提供它们在本申请的提交日期之前的公开内容。本文中的任何内容均不应解释为承认由于先前发明而使本发明无权先于这些出版物。此外,所提供的出版日可能不同于可能需要独立确认的实际出版日期。
具体实施方式
本公开提供RNA指导的内切核酸酶多肽,在本文中称为“CasX”多肽(也称为“CasX蛋白”);编码CasX多肽的核酸;以及包含CasX多肽和/或编码CasX多肽的核酸的经修饰的宿主细胞。CasX多肽可用于提供的各种应用中。
本公开提供与CasX蛋白结合并提供针对CasX蛋白的序列特异性的指导RNA(在本文中称为“CasX指导RNA”);编码CasX指导RNA的核酸;以及包含CasX指导RNA和/或编码CasX指导RNA的核酸的经修饰的宿主细胞。CasX指导RNA可用于提供的各种应用中。
本公开提供古细菌Cas9多肽和编码古细菌Cas9多肽的核酸,以及它们的相关联的指导RNA(古细菌Cas9指导RNA)和编码古细菌Cas9指导RNA的核酸。
组合物
CRISPR/CASX蛋白和指导RNA
CRISPR/Cas内切核酸酶(例如,CasX蛋白)与对应的指导RNA(例如,CasX指导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物,其通过指导RNA与靶核酸分子内的靶序列之间的碱基配对来靶向靶核酸中的特定位点。指导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(指导序列)。因此,CasX蛋白与CasX指导RNA形成复合物,并且指导RNA通过指导序列为RNP复合物提供序列特异性。复合物的CasX蛋白提供位点特异性活性。换言之,CasX蛋白质由于其与指导RNA的缔合而被指导到靶核酸序列(例如,染色体序列或染色体外序列,例如游离基因序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如,稳定在靶位点)。
本公开提供包含CasX多肽(和/或编码CasX多肽的核酸)的组合物(例如,其中CasX多肽可以是天然存在的蛋白质、切口酶CasX蛋白、dCasX蛋白、嵌合CasX蛋白等)。本公开提供包含CasX指导RNA(和/或编码CasX指导RNA的核酸)的组合物(例如,其中CasX指导RNA可以是双指导或单指导形式)。本公开提供包含以下的组合物:(a)CasX多肽(和/或编码CasX多肽的核酸)(例如,其中CasX多肽可以是天然存在的蛋白质、切口酶CasX蛋白、dCasX蛋白、嵌合CasX蛋白等)和(b)CasX指导RNA(和/或编码CasX指导RNA的核酸)(例如,其中CasX指导RNA可以是双指导或单指导形式)。本公开提供一种核酸/蛋白质复合物(RNP复合物),其包含:(a)本公开的CasX多肽(例如,其中CasX多肽可以是天然存在的蛋白质、切口酶CasX蛋白、dCasX蛋白、嵌合CasX蛋白等);以及(b)CasX指导RNA(例如,其中CasX指导RNA可以是双指导或单指导形式)。
CasX蛋白
CasX多肽(此术语与术语“CasX蛋白”可互换使用)可结合和/或修饰(例如,切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如,组蛋白尾的甲基化或乙酰化)(例如,在一些情况下,CasX蛋白包括具有活性的融合配偶体,并且在一些情况下,CasX蛋白提供核酸酶活性)。在一些情况下,CasX蛋白是天然存在的蛋白质(例如,天然存在于原核细胞中)。在其他情况下,CasX蛋白不是天然存在的多肽(例如,CasX蛋白是变体CasX蛋白、嵌合蛋白等)。
确定给定蛋白质是否与CasX指导RNA相互作用的测定可以是测试蛋白质和核酸之间的结合的任何方便的结合测定。合适的结合测定(例如,凝胶迁移测定)对于本领域的普通技术人员而言是已知的(例如,包括向靶核酸添加CasX指导RNA和蛋白质的测定)。确定蛋白质是否具有活性(例如,确定蛋白质是否具有切割靶核酸的核酸酶活性和/或一些异源活性)的测定可以是任何方便的测定(例如,任何方便的测试核酸切割的核酸切割测定)。合适的测定(例如,切割测定)对于本领域的普通技术人员而言是已知的。
天然存在的CasX蛋白起内切核酸酶的作用,其在靶向双链DNA(dsDNA)中的特定序列处催化双链断裂。序列特异性由相关联的指导RNA提供,所述指导RNA与靶DNA内的靶序列杂交。天然存在的指导RNA包括与crRNA杂交的tracrRNA,其中crRNA包括与靶DNA中的靶序列杂交的指导序列。
在一些实施方案中,主题方法和/或组合物的CasX蛋白是(或衍生自)天然存在的(野生型)蛋白质。天然存在的CasX蛋白的实例描绘于图1中,并且如SEQ ID NO:1-2所示。天然存在的CasX蛋白的实例描绘于图1中,并且如SEQ ID NO:1-3所示。图2中呈现两种天然存在的CasX蛋白的比对(‘gwa2’是CasX1,并且‘gwc2’是CasX2)。由测序数据组装的CRISPR基因座的部分DNA支架(来自δ变形菌门(gwa2支架)和来自浮霉菌门(gwc2支架))分别如SEQID NO:51和52所示。重要的是要注意,与先前鉴定的CRISPR-Cas内切核酸酶相比,这种新发现的蛋白质(CasX)较短,并且因此使用此蛋白质作为替代方案提供编码蛋白质的核苷酸序列相对较短的优点。例如,在其中需要编码CasX蛋白的核酸的情况下,例如在使用病毒载体(例如,AAV载体)的情况下,这可用于递送至诸如真核细胞的细胞(例如,哺乳动物细胞、人细胞、小鼠细胞、体外、离体、体内)用于研究和/或临床应用。本文还指出,携带CasX CRISPR基因座的细菌存在于在低温(例如,10℃-17℃)下采集的环境样品中。因此,预期CasX能够在低温(例如,10℃-14℃、10℃-17℃、10℃-20℃)下良好地起作用(例如,比迄今发现的其他Cas内切核酸酶更好)。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:1所示的CasX蛋白序列的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:1所示的CasX蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:2所示的CasX蛋白序列的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:2所示的CasX蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:3所示的CasX蛋白序列的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:3所示的CasX蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ IDNO:1和2所示的CasX蛋白序列中的任一个具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQID NO:1和2所示的CasX蛋白序列中的任一个具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ IDNO:1和2中的任一个所示的CasX蛋白序列的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:1和2中的任一个所示的CasX蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ IDNO:1-3所示的CasX蛋白序列中的任一个具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ IDNO:1-3所示的CasX蛋白序列中的任一个具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:1-3中的任一个所示的CasX蛋白序列的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ IDNO:1-3中的任一个所示的CasX蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
CasX蛋白结构域
图3中描绘CasX蛋白的结构域。如在图3的示意图中可看出(氨基酸基于CasX1蛋白(SEQ ID NO:1)编号),CasX蛋白包含长度大致650个氨基酸(例如,CasX1为663个并且CasX2为650个)的N末端结构域以及包含3个部分RuvC结构域(RuvC-I、RuvC-II和RuvC-III,在本文中也称为亚结构域)的C末端结构域,所述RuvC结构域相对于CasX蛋白的一级氨基酸序列是不连续的,但在产生蛋白质并折叠时就会形成RuvC结构域。因此,在一些情况下,(主题组合物和/或方法的)CasX蛋白包含长度在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的具有N末端结构域的氨基酸序列(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域)。在一些情况下,(主题组合物和/或方法的)CasX蛋白包含长度在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的氨基酸序列(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),所述氨基酸序列在分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)的N末端。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ IDNO:1所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663的氨基酸序列。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ IDNO:2所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含SEQ ID NO:2的氨基酸序列,其对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ IDNO:3所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含SEQ ID NO:3的氨基酸序列,其对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ IDNO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663的氨基酸序列。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如,在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasX蛋白包含对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸1-650);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663的氨基酸序列。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如,在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasX蛋白包含对应于SEQ IDNO:1所示的CasX蛋白序列的氨基酸1-663的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸1-650);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。
在一些实施方案中,(主题组合物和/或方法的)CasX蛋白的分开RuvC结构域包括RuvC-II与RuvC-III亚结构域之间的区域,其大于RuvC-III亚结构域。例如,在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如1.2)。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2)。
在一些实施方案中(对于主题组合物和/或方法的CasX蛋白),RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)。例如,在一些情况下,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小)。在一些实施方案中,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内。
在一些情况下(对于主题组合物和/或方法的CasX蛋白),RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2)。
在一些情况下(对于主题组合物和/或方法的CasX蛋白),RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸)。例如,在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸)。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
例如,在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
例如,在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,CasX蛋白包含第一氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasX1的氨基酸1-663的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,CasX蛋白包含对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸1-663的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸1-650);以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含具有N末端结构域第一氨基酸序列,其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域);以及第二氨基酸序列(在第一氨基酸序列的C末端),其具有带有3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III的分开的RuvC结构域,其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度,所述第一氨基酸序列在具有3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III的分开的Ruv C结构域的N末端,其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1和1.2);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少73个氨基酸(例如,长度为至少75、77、80、85或87个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少78个氨基酸(例如,长度为至少80、85或87个氨基酸);(xi)RuvC-II与RuvC-III亚结构域之间的区域长度为至少85个氨基酸;(x)RuvC-II与RuvC-III亚结构域之间的区域具有在75-100个氨基酸的范围内(例如,在75-95、75-90、75-88、78-100、78-95、78-90、78-88、80-100、80-95、80-90、80-88、83-100、83-95、83-90、83-88、85-100、85-95、85-90或85-88个氨基酸的范围内)的长度;或者(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在80-95个氨基酸的范围内(例如,在80-90、80-88、83-95、83-90、83-88、85-95、85-90或85-88个氨基酸的范围内)的长度。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQID NO:1所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含具有SEQID NO:1所示的CasX蛋白序列的氨基酸664-986的氨基酸序列。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:2所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQID NO:2所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含SEQ IDNO:2的氨基酸序列,其对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸664-986。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:3所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQID NO:3所示的CasX蛋白序列的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含SEQ IDNO:3的氨基酸序列,其对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸664-986。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸651-978)。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸664-986的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白序列的氨基酸651-978)。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸651-978)。例如,在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ IDNO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1和2所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸664-986的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白序列的氨基酸651-978)。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸651-978)。例如,在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasX蛋白包含对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸664-986的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白序列的氨基酸651-978)。
在一些情况下,(主题组合物和/或方法的)CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)(例如,SEQ ID NO:2所示的CasX蛋白质序列的氨基酸651-978)。例如,在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ IDNO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-3所示的CasX蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasX1的氨基酸664-986的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasX蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在500-750个氨基酸范围内(例如,550-750、600-750、640-750、650-750、500-700、550-700、600-700、640-700、650-700、500-680、550-680、600-680、640-680、650-680、500-670、550-670、600-670、640-670或650-670个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQ ID NO:1所示的CasX蛋白序列的氨基酸664-986的氨基酸序列(例如,SEQ ID NO:2所示的CasX蛋白序列的氨基酸651-978)。
CasX变体
当与对应的野生型CasX蛋白的氨基酸序列相比时,变体CasX蛋白具有至少一个氨基酸不同的氨基酸序列(例如,具有缺失、插入、取代、融合)。切割双链靶核酸的一条链但不切割另一条链的CasX蛋白在本文中被称为“切口酶”(例如,“切口酶CasX”)。基本上不具有核酸酶活性的CasX蛋白在本文中被称为死CasX蛋白(“dCasX”)(需要注意的是,核酸酶活性可由异源多肽(融合配偶体)在嵌合CasX蛋白的情况下提供,这在下文更详细地描述)。对于本文所述的任何CasX变体蛋白(例如,切口酶CasX、dCasX、嵌合CasX),CasX变体可包括具有与上述相同参数(例如,存在的结构域、同一性百分比等)的CasX蛋白序列。
变体–催化活性
在一些情况下,CasX蛋白是变体CasX蛋白,例如相对于天然存在的催化活性序列突变的蛋白,并且在与对应的天然存在的序列相比时,表现出降低的切割活性(例如,表现出90%或更低、80%或更低、70%或更低、60%或更低、50%或更低、40%或更低或者30%或更低的切割活性)。在一些情况下,这种变体CasX蛋白是催化“死”蛋白(基本上没有切割活性)并且可被称为‘dCasX’。在一些情况下,变体CasX蛋白是切口酶(仅切割双链靶核酸(例如,双链靶DNA)的一条链)。如本文更详细描述的,在一些情况下,CasX蛋白(在一些情况下,是具有野生型切割活性的CasX蛋白质并且在一些情况下,是具有降低的切割活性的变体CasX,例如dCasX或切口酶CasX)与具有感兴趣的活性(例如,感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasX蛋白)。
在根据CasX1(SEQ ID NO:1)编号时,CasX的保守催化残基包括D672、E769、D935,并且在根据CasX2(SEQ ID NO:2)编号时,CasX的保守催化残基包括659D、756E和922D(这些残基在图1中用下划线示出)。(注意,在图2的比对中,编号不与任一CasX蛋白同步,而是与比对本身同步。本段上文提到的保守残基在图中标出,CasX2是上方序列(‘gwc2’),并且CasX1是下方序列(‘gwa2’))。
因此,在一些情况下,CasX蛋白具有降低的活性,并且一种或多种上述氨基酸(或任何CasX蛋白的一种或多种对应的氨基酸)发生突变(例如,被丙氨酸取代)。在一些情况下,变体CasX蛋白是催化“死”蛋白(无催化活性)并且被称为‘dCasX’。dCasX蛋白可与提供活性的融合配偶体融合,并且在一些情况下,dCasX(例如,没有提供催化活性的融合配偶体,但在真核细胞中表达时可具有NLS的dCasX)可结合靶DNA并且可阻止RNA聚合酶从靶DNA翻译。在一些情况下,变体CasX蛋白是切口酶(仅切割双链靶核酸(例如,双链靶DNA)的一条链)。
变体–嵌合CasX(即,融合蛋白)
如上所指出,在一些情况下,CasX蛋白(在一些情况下,是具有野生型切割活性的CasX蛋白质并且在一些情况下,是具有降低的切割活性的变体CasX,例如dCasX或切口酶CasX)与具有感兴趣的活性(例如,感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasX蛋白)。CasX蛋白可与之融合的异源多肽在本文中被称为“融合配偶体”。
在一些情况下,融合配偶体可调节靶DNA的转录(例如,抑制转录、增加转录)。例如,在一些情况下,融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如,转录阻遏物,一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。在一些情况下,融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如,转录激活因子,一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。
在一些情况下,嵌合CasX蛋白包括具有修饰靶核酸的酶活性(例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。
在一些情况下,嵌合CasX蛋白包括具有修饰与靶核酸相关联的多肽(例如,组蛋白)的酶活性(例如,甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。
可用于增加转录的蛋白质(或其片段)的实例包括但不限于:转录激活因子,诸如VP16、VP64、VP48、VP160、p65亚结构域(例如,来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如,针对植物中的活性);组蛋白赖氨酸甲基转移酶,诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等;组蛋白赖氨酸脱甲基酶,诸如JHDM2a/b、UTX、JMJD3等;组蛋白乙酰基转移酶,诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等;以及DNA脱甲基酶,诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。
可用于减少转录的蛋白质(或其片段)的实例包括但不限于:转录阻遏物,诸如Krüppel相关盒(KRAB或SKD);KOX1阻遏结构域;Mad mSIN3相互作用结构域(SID);ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如,针对植物中的阻遏)等;组蛋白赖氨酸甲基转移酶,诸如Pr-SET7/8、SUV4-20H1、RIZ1等;组蛋白赖氨酸脱甲基酶,诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等;组蛋白赖氨酸脱乙酰酶,诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等;DNA甲基化酶,诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等;以及外周募集元件,诸如核纤层蛋白A、核纤层蛋白B等。
在一些情况下,融合配偶体具有修饰靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于:核酸酶活性诸如由限制性酶(例如,FokI核酸酶)提供的活性,甲基转移酶活性诸如由甲基转移酶(例如,HhaI DNAm5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性;脱甲基酶活性诸如由脱甲基酶(例如,10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性,DNA修复活性,DNA损伤活性,脱氨基活性诸如由脱氨酶(例如,胞嘧啶脱氨酶,诸如大鼠APOBEC1)提供的活性,歧化酶活性,烷基化活性,脱嘌呤活性,氧化活性,嘧啶二聚体形成活性,整合酶活性诸如由整合酶和/或解离酶(例如,Gin转化酶,诸如Gin转化酶的过度活跃突变体,GinH106Y;人类免疫缺陷病毒1型整合酶(IN);Tn3解离酶等)提供的活性,转座酶活性,重组酶活性诸如由重组酶(例如,Gin重组酶的催化结构域)提供的活性,聚合酶活性,连接酶活性,解旋酶活性,光裂合酶活性和糖基化酶活性)。
在一些情况下,融合配偶体具有酶活性,其修饰与靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如,组蛋白、RNA结合蛋白、DNA结合蛋白等)。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶(HMT)(例如,花斑抑制因子3-9同源物1(SUV39H1,也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A,也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性,脱甲基酶活性诸如由组蛋白脱甲基酶(例如,赖氨酸脱甲基酶1A(KDM1A,也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性,乙酰基转移酶活性诸如由组蛋白乙酰基转移酶(例如,人类乙酰基转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性,脱乙酰酶活性诸如由组蛋白脱乙酰酶(例如,HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性,激酶活性,磷酸酶活性,泛素连接酶活性,去泛素化活性,腺苷酸化活性,脱腺苷酸化活性,SUMO化活性,脱SUMO化活性,核糖基化活性,脱核糖基化活性,豆蔻酰化活性和脱豆蔻酰化活性。
合适的融合配偶体的另外的实例是二氢叶酸还原酶(DHFR)去稳定化结构域(例如,以生成化学可控的嵌合CasX蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于:
在一些情况下,本公开的CasX融合多肽包含:a)本公开的CasX多肽;和b)叶绿体转运肽。因此,例如,CRISPR-CasX复合物可靶向叶绿体。在一些情况下,这种靶向可通过N末端延伸的存在来实现,所述N末端延伸称为叶绿体转运肽(CTP)或质体转运肽。如果表达的多肽要在植物质体(例如,叶绿体)中区室化,则来自细菌来源的染色体转基因必须具有编码CTP序列的序列,所述CTP序列与编码表达的多肽的序列融合。因此,外源多肽到叶绿体的定位通常通过将编码CTP序列的多核苷酸序列与编码外源多肽的多核苷酸的5'区可操作地连接来实现。在易位到质体的过程中,在加工步骤中去除CTP。然而,加工效率可能受到CTP的氨基酸序列和肽的NH 2末端附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、WO 97/41228)、豌豆谷胱甘肽还原酶信号序列(WO 97/41228)和US2009029861中描述的CTP。
在一些情况下,本公开的CasX融合多肽可包含:a)本公开的CasX多肽;和b)内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)。
对于在与Cas9蛋白、锌指蛋白和/或TALE蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰,例如,组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例,参见例如:Nomura等人,J Am Chem Soc.2007年7月18日;129(28):8676-7;Rivenbark等人,Epigenetics.2012年4月;7(4):350-60;Nucleic Acids Res.2016年7月8日;44(12):5615-28;Gilbert等人,Cell.2013年7月18日;154(2):442-51;Kearns等人,NatMethods.2015年5月;12(5):401-3;Mendenhall等人,Nat Biotechnol.2013年12月;31(12):1133-6;Hilton等人,Nat Biotechnol.2015年5月;33(5):510-7;Gordley等人,ProcNatl Acad Sci U S A.2009年3月31日;106(13):5053-8;Akopian等人,Proc Natl AcadSci U S A.2003年7月22日;100(15):8688-91;Tan等人,J Virol.2006年2月;80(4):1939-48;Tan等人,Proc Natl Acad Sci U S A.2003年10月14日;100(21):11997-2002;Papworth等人,Proc Natl Acad Sci U S A.2003年2月18日;100(4):1621-6;Sanjana等人,Nat Protoc.2012年1月5日;7(1):171-92;Beerli等人,Proc Natl Acad Sci U SA.1998年12月8日;95(25):14628-33;Snowden等人,Curr Biol.2002年12月23日;12(24):2159-66;Xu等人,Xu等人,Cell Discov.2016年5月3日;2:16009;Komor等人,Nature.2016年4月20日;533(7603):420-4;Chaikind等人,Nucleic Acids Res.2016年8月11日;Choudhury等人,Oncotarget.2016年6月23日;Du等人,Cold Spring Harb Protoc.2016年1月4日;Pham等人,Methods Mol Biol.2016;1358:43-57;Balboa等人,Stem CellReports.2015年9月8日;5(3):448-59;Hara等人,Sci Rep.2015年6月9日;5:11221;Piatek等人,Plant Biotechnol J.2015年5月;13(4):578-89;Hu等人,Nucleic Acids Res.2014年4月;42(7):4375-90;Cheng等人,Cell Res.2013年10月;23(10):1163-71;cheng等人,Cell Res.2013年10月;23(10):1163-71;以及Maeder等人,Nat Methods.2013年10月;10(10):977-9。
另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物反应性转录和/或翻译调节因子、翻译调节蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下,嵌合CasX多肽通过指导核酸(指导RNA)靶向靶核酸中的特定位置(即,序列)并且发挥基因座特异性调节的作用,诸如阻断RNA聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如,在使用融合序列时,修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下,变化是瞬时的(例如,转录阻遏或激活)。在一些情况下,变化是可遗传的(例如,在对靶核酸或与靶核酸相关联的蛋白质(例如,核小体组蛋白)进行表观遗传修饰时)。
当靶向ssRNA靶核酸时,使用的异源多肽的非限制性实例包括(但不限于):剪接因子(例如,RS结构域);蛋白质翻译组分(例如,翻译起始因子、延伸因子和/或释放因子;例如,eIF4G);RNA甲基化酶;RNA编辑酶(例如,RNA脱氨酶,例如作用于RNA的腺苷脱氨酶(ADAR),包括A至I和/或C至U编辑酶);解旋酶;RNA结合蛋白等。应理解,异源多肽可包括整个蛋白质,或者在一些情况下,可包括蛋白质的片段(例如,功能结构域)。
主题嵌合CasX多肽的异源多肽可以是能够与ssRNA(出于本公开的目的,其包括分子内和/或分子间二级结构,例如双链RNA双链体,诸如发夹、茎环等)相互作用的任何结构域,无论是瞬时的还是不可逆的,直接的还是间接的,所述结构域包括但不限于选自由以下组成的组的效应结构域;内切核酸酶(例如RNA酶III、CRR22 DYW结构域、来自诸如SMG5和SMG6的蛋白质的Dicer和PIN(PilT N末端)结构域);负责刺激RNA切割的蛋白质和蛋白质结构域(例如CPSF、CstF、CFIm和CFIIm);外切核酸酶(例如XRN-1或外切核酸酶T);脱腺苷酶(例如HNT3);负责无义介导的RNA衰变的蛋白质和蛋白质结构域(例如UPF1、UPF2、UPF3、UPF3b、RNP S1、Y14、DEK、REF2和SRm160);负责稳定RNA的蛋白质和蛋白质结构域(例如PABP);负责阻遏翻译的蛋白质和蛋白质结构域(例如Ago2和Ago4);负责刺激翻译的蛋白质和蛋白质结构域(例如Staufen);负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G);负责RNA的聚腺苷酸化的蛋白质和蛋白质结构域(例如PAP1、GLD-2和Star-PAP);负责RNA的聚尿苷酸化的蛋白质和蛋白质结构域(例如CI D1和末端尿苷酸转移酶);负责RNA定位的蛋白质和蛋白质结构域(例如来自IMP1、ZBP1、She2p、She3p和Bicaudal-D);负责RNA的核保留的蛋白质和蛋白质结构域(例如Rrp6);负责RNA的核输出的蛋白质和蛋白质结构域(例如TAP、NXF1、THO、TREX、REF和Aly);负责阻遏RNA剪接的蛋白质和蛋白质结构域(例如PTB、Sam68和hnRNP A1);负责刺激RNA剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(SR)结构域);负责降低转录效率的蛋白质和蛋白质结构域(例如FUS(TLS));以及负责刺激转录的蛋白质和蛋白质结构域(例如CDK7和HIV Tat)。可替代地,效应结构域可选自包括以下的组:内切核酸酶;能够刺激RNA切割的蛋白质和蛋白质结构域;外切核酸酶;脱腺苷酶;具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域;能够稳定RNA的蛋白质和蛋白质结构域;能够阻遏翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域(例如,翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G);能够进行RNA的聚腺苷酸化的蛋白质和蛋白质结构域;能够进行RNA的聚尿苷酸化的蛋白质和蛋白质结构域;具有RNA定位活性的蛋白质和蛋白质结构域;能够进行RNA的核保留的蛋白质和蛋白质结构域;具有RNA核输出活性的蛋白质和蛋白质结构域;能够阻遏RNA剪接的蛋白质和蛋白质结构域;能够刺激RNA剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUFRNA结合结构域,其在WO2012068627中更详细地描述,所述文献以引用的方式整体并入本文。
可作为嵌合CasX多肽的异源多肽(整体或作为其片段)使用的一些RNA剪接因子具有模块化结构,具有分开的序列特异性RNA结合模块和剪接效应结构域。例如,富含丝氨酸/精氨酸(SR)的蛋白质家族的成员含有N末端RNA识别基序(RRM),其结合前mRNA和C末端RS结构域中的外显子剪接增强子(ESE),所述外显子剪接增强子促进外显子包含。作为另一个实例,hnRNP蛋白hnRNP A1通过其RRM结构域与外显子剪接沉默子(ESS)结合,并通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调节序列来调节剪接位点(ss)的替代使用。例如,ASF/SF2可识别ESE并有助于使用内含子近侧位点,而hnRNP A1可结合ESS并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的ESF。例如,Bcl-x前mRNA产生两种剪接同种型,其具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子,并且在许多癌细胞中上调,从而保护细胞免于凋亡信号。短同种型Bcl-xS是促凋亡同种型,并且在具有高周转率的细胞(例如,发育中的淋巴细胞)中以高水平表达。两种Bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即,两个替代5'剪接位点之间)中的多个元件调节。对于更多实例,参见WO2010075303,其特此以引用的方式整体并入。
另外的合适的融合配偶体包括但不限于作为边界元件(例如,CTCF)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如,核纤层蛋白A、核纤层蛋白B等)、蛋白质对接元件(例如,FKBP/FRB、Pil1/Aby1等)。
用于主题嵌合CasX多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下应用中描述的那些(所述出版物与其他CRISPR内切核酸酶(诸如Cas9)有关,但是描述的融合配偶体也可与CasX一起使用):PCT专利申请:WO2010075303、WO2012068627和WO2013155555,并且可见于例如以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。
在一些情况下,异源多肽(融合配偶体)提供亚细胞定位,即异源多肽含有亚细胞定位序列(例如,用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中,CasX融合多肽不包含NLS,使得蛋白质不靶向细胞核(这可能是有利的,例如,在靶核酸是存在于胞质溶胶中的RNA时)。在一些实施方案中,异源多肽可提供便于追踪和/或纯化的标签(即,异源多肽是可检测标记物)(例如,荧光蛋白,例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等;组氨酸标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签等)。
在一些情况下,CasX蛋白(例如,野生型CasX蛋白、变体CasX蛋白、嵌合CasX蛋白、dCasX蛋白、其中CasX部分具有降低的核酸酶活性的嵌合CasX蛋白-诸如与融合配偶体融合的dCasX蛋白等)包含(融合到)核定位信号(NLS)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此,在一些情况下,CasX多肽包含一个或多个NLS(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和/或C末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于C末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和C末端二者处或附近(例如,在50个氨基酸内)。在一些情况下,NLS位于N末端,并且NLS位于C末端。
在一些情况下,CasX蛋白(例如,野生型CasX蛋白、变体CasX蛋白、嵌合CasX蛋白、dCasX蛋白、其中CasX部分具有降低的核酸酶活性的嵌合CasX蛋白-诸如与融合配偶体融合的dCasX蛋白等)包含(融合到)1与10个之间的NLS(例如,1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个或2-5个NLS)。在一些情况下,CasX蛋白(例如,野生型CasX蛋白、变体CasX蛋白、嵌合CasX蛋白、dCasX蛋白、其中CasX部分具有降低的核酸酶活性的嵌合CasX蛋白-诸如与融合配偶体融合的dCasX蛋白等)包含(融合到)2与5个之间的NLS(例如,2-4个或2-3个NLS)。
NLS的非限制性实例包括衍生自以下的NLS序列:SV40病毒大T抗原的NLS,具有氨基酸序列PKKKRKV(SEQ ID NO:96);来自核质蛋白的NLS(例如,具有序列KRPAATKKAGQAKKKK(SEQ ID NO:97)的核质蛋白二分NLS);c-myc NLS,具有氨基酸序列PAAKRVKLD(SEQ ID NO:98)或RQRRNELKRSP(SEQ ID NO:99);hRNPA1M9NLS,具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:100);来自核输入蛋白α(import in-alpha)的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:101);肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:102)和PPKKARED(SEQ ID NO:103);人类p53的序列PQPKKKPL(SEQ IDNO:104);小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:105);流感病毒NS1的序列DRLRR(SEQ ID NO:106)和PKQKKRK(SEQ ID NO:107);肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ IDNO:108);小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:109);人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:110);以及类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:111)。一般来讲,NLS(或多个NLS)具有足够的强度来驱动CasX蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如,可检测标记可与CasX蛋白融合,使得细胞内的位置可被可视化。细胞核也可从细胞中分离,然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析其内容物。也可间接确定细胞核中的积累。
在一些情况下,CasX融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽),其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中,PTD与多肽的氨基末端共价连接(例如,与野生型CasX连接以生成融合蛋白,或与变体CasX蛋白(诸如dCasX、切口酶CasX或嵌合C asX蛋白)连接以生成融合蛋白)。在一些实施方案中,PTD与多肽的羧基末端共价连接(例如,与野生型CasX连接以生成融合蛋白,或与变体CasX蛋白(诸如dCasX、切口酶CasX或嵌合CasX蛋白)连接以生成融合蛋白)。在一些情况下,PTD在合适的插入位点处内插在Ca sX融合多肽中(即,不在CasX融合多肽的N末端或C末端)。在一些情况下,主题CasX融合多肽包含(缀合到、融合到)一个或多个PTD(例如,两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下,PTD包含核定位信号(NLS)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此,在一些情况下,CasX融合多肽包含一个或多个NLS(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些实施方案中,PTD与核酸(例如,CasX指导核酸、编码CasX指导核酸的多核苷酸、编码CasX融合多肽的多核苷酸、供体多核苷酸等)共价连接。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR;SEQ ID NO:112的HIV-1 TAT的残基47-57);包含足以引入细胞中的数量的精氨酸(例如,3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列;VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96);果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737);截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKR(SEQ ID NO:113);运输蛋白(Transportan)GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:114);KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:115);和RQIKIWFQNRRMKWKK(SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR(SEQ ID NO:117)、RKKRRQRRR(SEQ ID NO:118);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个:YGRKKRRQRRR(SEQ ID NO:119);RKKRRQRR(SEQ ID NO:120);YARAAARQARA(SEQ ID NO:121);THRLPRRRRRR(SEQ ID NO:122);以及GGRRARRRRRR(SEQ IDNO:123)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月;1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。
接头(例如,用于融合配偶体)
在一些实施方案中,主题CasX蛋白可通过接头多肽(例如,一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸以偶联蛋白质来产生,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为适用。
接头多肽的实例包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如(GS)n、GSGGSn(SEQ ID NO:124)、GGSGGSn(SEQ ID NO:125)和GGGSn(SEQ ID NO:126),其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列,其包括但不限于GGSG(SEQ ID NO:127)、GGSGG(SEQ ID NO:128)、GSGSG(SEQ ID NO:129)、GSGGG(SEQ ID NO:130)、GGGSG(SEQ ID NO:131)、GSSSG(SEQ ID NO:132)等。普通技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
可检测标记物
在一些情况下,本公开的CasX多肽包含可检测标记物。可提供可检测信号的合适的可检测标记物和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。
合适的荧光蛋白包括但不限于绿色荧光蛋白(GFP)或其变体、GFP的蓝色荧光变体(BFP)、GFP的青色荧光变体(CFP)、GFP的黄色荧光变体(YFP)、增强型GFP(EGFP)、增强型CFP(ECFP)、增强型YFP(EYFP)、GFPS65T、Emerald、Topaz(TYFP)、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFP(dEGFP)、去稳定化ECFP(dECFP)、去稳定化EYFP(dEYFP)、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体2(12)、mRFP1、pocilloporin、海肾GFP(Renilla GFP)、MonsterGFP、paGFP、Kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlum(Shaner等人(2005)Nat.Methods 2:905-909)等等。如在例如Matz等人(1999)Nature Biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。
合适的酶包括但不限于辣根过氧化物酶(HRP)、碱性磷酸酶(AP)、β-半乳糖苷酶(GAL)、葡萄糖-6-磷酸脱氢酶、β-N-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(GO)等。
原间隔序列相邻基序(PAM)
CasX蛋白在由靶向DNA的RNA与靶DNA之间的互补性区域限定的靶序列处与靶DNA结合。与许多CRISPR内切核酸酶的情况一样,双链靶DNA的位点特异性结合(和/或切割)发生在由以下二者确定的位置处:(i)指导RNA与靶DNA之间的碱基配对互补性;和(ii)靶DNA中的短基序[称为原间隔序列相邻基序(PAM)]。
在一些实施方案中,CasX蛋白的PAM直接位于靶DNA的非互补链的靶序列的5'端(互补链与指导RNA的指导序列杂交,而非互补链不直接与指导RNA杂交并且是非互补链的反向互补物)。在一些实施方案中(例如,当使用如本文所述的CasX1时),非互补链的PAM序列为5'-TCN-3'(并且在一些情况下为TTCN),其中N是任何DNA核苷酸。作为一个实例,参见图6图c和图7,其中PAM(TCN)(在非互补链上)为TCA(并且PAM在图中示出为TTCA),并且PAM是靶序列的5'端。
在一些情况下,不同CasX蛋白(即,来自各种物种的CasX蛋白)可有利地用于各种所提供的方法中以便利用不同CasX蛋白的各种酶特征(例如,用于不同PAM序列偏好;用于增加的或减小的酶活性;用于增加的或减小的细胞毒性水平;用于改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡;利用短的总序列等)。来自不同物种的CasX蛋白可能需要不同的靶DNA中的PAM序列。因此,对于所选择的具体CasX蛋白,PAM序列要求可与上述5’-TCN-3’序列不同。用于鉴定适当的PAM序列的各种方法(包括计算机模拟方法和/或湿实验室方法(wet lab methods))是本领域已知且常规的,并且可使用任何方便的方法。使用PAM缺失测定鉴定本文所述的TCN PAM序列(例如,参见下文工作实例的图5)。
CasX指导RNA
与CasX蛋白结合形成核糖核蛋白复合物(RNP)并将复合物靶向靶核酸(例如,靶DNA)内的特定位置的核酸分子在本文中称为“CasX指导RNA”或者仅称为“指导RNA”。应理解,在一些情况下,可制备杂交体DNA/RNA,使得CasX指导RNA除RNA碱基外还包含DNA碱基,但术语“CasX指导RNA”仍然用于涵盖本文的这种分子。
可以说CasX指导RNA包含两个区段,即靶向区段和蛋白质结合区段。CasX指导RNA的靶向区段包含与靶核酸(例如,靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与CasX多肽相互作用(结合)。主题CasX指导RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。靶核酸(例如,基因组DNA)的位点特异性结合和/或切割可发生在CasX指导RNA(CasX指导RNA的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如,靶基因座的靶序列)处。
CasX指导RNA和CasX蛋白(例如,融合CasX多肽)形成复合物(例如,通过非共价相互作用结合)。CasX指导RNA通过包含靶向区段为复合物提供靶特异性,所述靶向区段包含指导序列(与靶核酸序列互补的核苷酸序列)。复合物的CasX蛋白提供位点特异性活性(例如,由CasX蛋白提供的切割活性和/或在嵌合CasX蛋白的情况下由融合配偶体提供的活性)。换言之,CasX蛋白由于其与CasX指导RNA的缔合而被指导至靶核酸序列(例如,靶序列)。
可修饰“指导序列”,也称为CasX指导RNA的“靶向序列”,使得CasX指导RNA可将CasX蛋白(例如,天然存在的CasX蛋白、融合CasX多肽(嵌合CasX)等)靶向任何所需的靶核酸的任何所需序列,除了(例如,如本文所述)可考虑PAM序列之外。因此,例如,CasX指导RNA可具有与真核细胞中的核酸中的序列互补(例如,可与其杂交)的指导序列,所述核酸例如,病毒核酸、真核核酸(例如,真核染色体、染色体序列、真核RNA等)等。
还可以说主题CasX指导RNA包括“激活因子”和“靶向因子”(例如,分别为“激活因子RNA”和“靶向因子RNA”)。当“激活因子”和“靶向因子”是两个独立的分子时,指导RNA在本文中称为“双指导RNA”、“dgRNA”、“双分子指导RNA”或“两分子指导RNA”。(例如,“CasX双指导RNA”)。在一些实施方案中,激活因子和靶向因子彼此共价连接(例如,通过插入核苷酸),并且指导RNA在本文中称为“单指导RNA”、“sgRNA”、“单分子指导RNA“或”一分子指导RNA“(例如,“CasX单指导RNA”)。因此,主题CasX单指导RNA包含彼此连接(例如,通过插入核苷酸)的靶向因子(例如,靶向因子RNA)和激活因子(例如,激活因子RNA),并且彼此杂交以形成指导RNA的蛋白质结合区段的双链RNA双链体(dsRNA双链体),从而产生茎环结构(图6图c)。因此,靶向因子和激活因子各自具有双链体形成区段,其中靶向因子的双链体形成区段和激活因子的双链体形成区段彼此互补并且彼此杂交。
在一些实施方案中,CasX单指导RNA的接头是一段核苷酸(在图6图c中描绘为GAAA)。在一些情况下,CasX单指导RNA的靶向因子和激活因子通过插入核苷酸彼此连接,并且接头可具有3至20个核苷酸(nt)(例如,3至15个、3至12个、3至10个、3至8个、3至6个、3至5个、3至4个、4至20个、4至15个、4至12个、4至10个、4至8个、4至6个或4至5个nt)的长度。在一些情况下,CasX单指导RNA的接头可具有3至100个核苷酸(nt)(例如,3至80个、3至50个、3至30个、3至25个、3至20个、3至15个、3至12个、3至10个、3至8个、3至6个、3至5个、3至4个、4至100个、4至80个、4至50个、4至30个、4至25个、4至20个、4至15个、4至12个、4至10个、4至8个、4至6个或4至5个nt)的长度。在一些情况下,CasX单指导RNA的接头可具有3至10个核苷酸(nt)(例如,3至9个、3至8个、3至7个、3至6个、3至5个、3至4个、4至10个、4至9个、4至8个、4至7个、4至6个或4至5个nt)的长度。
CasX指导RNA的指导序列
主题CasX指导RNA的靶向区段包含指导序列(即,靶向序列),其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换言之,CasX指导RNA的靶向区段可通过杂交(即,碱基配对)以序列特异性方式与靶核酸(例如,双链DNA(dsDNA)、单链DNA(ssDNA)、单链RNA(ssRNA)或双链RNA(dsRNA))相互作用。CasX指导RNA的指导序列可被修饰(例如,通过遗传工程化)/设计成与靶核酸(例如,真核靶核酸,例如基因组DNA)内的任何所需靶序列杂交(例如,当考虑PAM时,例如,当靶向dsDNA靶时)。
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比为60%或更高(例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在靶核的酸靶位点最3'端的七个连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100%。
在一些情况下,指导序列具有在19-30个核苷酸(nt)(例如,19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有在19-25个核苷酸(nt)(例如,19-22个、19-20个、20-25个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有19或更多个nt(例如,20个或更多个、21个或更多个、或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有19个nt的长度。在一些情况下,指导序列具有20个nt的长度。在一些情况下,指导序列具有21个nt的长度。在一些情况下,指导序列具有22个nt的长度。在一些情况下,指导序列具有23个nt的长度。
CasX指导RNA的蛋白质结合区段
主题CasX指导RNA的蛋白质结合区段与CasX蛋白相互作用。CasX指导RNA通过上文提及的指导序列将结合的CasX蛋白指导至靶核酸内的特定核苷酸序列。CasX指导RNA的蛋白质结合区段包含两段核苷酸(激活因子的双链体形成区段和靶向因子的双链体形成区段),它们彼此互补并杂交形成双链RNA双链体(dsRNA双链体)。因此,蛋白质结合区段包含dsRNA双链体。
在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体区域(即,激活因子/靶向因子dsRNA双链体)(例如,呈双指导或单指导RNA形式)包含8-25个碱基对(bp)的范围(例如,8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如15个bp、16个bp、17个bp、18个bp、19个bp、20个bp、21个bp等)。在一些情况下,双链体区域(例如,呈双指导或单指导RNA形式)包含8个或更多个bp(例如,10个或更多个、12个或更多个、15个或更多个或者17个或更多个bp)。在一些情况下,并非双链体区域的所有核苷酸都是成对的,并且因此双链体形成区域可包含凸起(例如,参见图6图c和图7)。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),其对双链双链体没有贡献,但是被有贡献的核苷酸围绕5'端和3'端,并且因此凸起被认为是双链体区域的一部分。在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含1个或多个凸起(例如,2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
因此,在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)。在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)。
换言之,在一些实施方案中,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,激活因子/靶向因子dsRNA双链体包含彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,激活因子/靶向因子dsRNA双链体包含彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)的两段核苷酸。
主题CasX指导RNA(呈双指导或单指导RNA形式)的双链体区域可包含相对于天然存在的双链体区域的一个或多个(1个、2个、3个、4个、5个等)突变。例如,在一些情况下,可维持碱基对,同时对每个区段(靶向因子和激活因子)的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与(天然存在的CasX指导RNA的)天然存在的双链体区域相比,主题CasX指导RNA的双链体区域包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或其任何方便的组合。
在一些情况下,主题CasX指导RNA(呈双指导或单指导RNA形式)的激活因子(例如,激活因子RNA)包含至少两个内部RNA双链体(即,除激活因子/靶向因子dsRNA之外的两个内部发夹)。激活因子的内部RNA双链体(发夹)可位于激活因子/靶向因子dsRNA双链体的5'端(例如,参见图6图c和图7,两者都包括具有位于激活因子/靶向因子dsRNA双链体的5'端的2个内部发夹的激活因子)。在一些情况下,激活因子包含位于激活因子/靶向因子dsRNA双链体的5'端的一个发夹。在一些情况下,激活因子包含位于激活因子/靶向因子dsRNA双链体的5'端的两个发夹。在一些情况下,激活因子包含位于激活因子/靶向因子dsRNA双链体的5'端的三个发夹。在一些情况下,激活因子包含位于激活因子/靶向因子dsRNA双链体的5'端的两个或更多个发夹(例如,3个或更多个或者4个或更多个发夹)。在一些情况下,激活因子包含位于激活因子/靶向因子dsRNA双链体的5'端的2至5个发夹(例如,2至4个或者2至3个发夹)。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含在最5'发夹茎的5'端的至少2个核苷酸(nt)(例如,至少3个或至少4个nt),例如,如图6和图7的tracrRNA中所描绘。在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含在最5'发夹茎的5'端的至少4个nt,例如,如图6和图7的tracrRNA中所描绘。
在一些情况下,激活因子RNA(例如,呈双指导或单指导形式)具有65个核苷酸(nt)或更多个(例如,66个或更多个、67个或更多个、68个或更多个、69个或更多个、70个或更多个或者75个或更多个nt)的长度。在一些情况下,激活因子RNA(例如,呈双指导或单指导形式)具有66个nt或更多个(例如,67个或更多个、68个或更多个、69个或更多个、70个或更多个或者75个或更多个nt)的长度。在一些情况下,激活因子RNA(例如,呈双指导或单指导形式)具有67个nt或更多个(例如,68个或更多个、69个或更多个、70个或更多个或者75个或更多个nt)的长度。
在一些情况下,激活因子RNA(例如,呈双指导或单指导形式)包含在激活因子与靶向因子之间形成的dsRNA双链体(激活因子/靶向因子dsRNA双链体)的5'端的45个或更多个核苷酸(nt)(例如,46个或更多个、47个或更多个、48个或更多个、49个或更多个、50个或更多个、51个或更多个、52个或更多个、53个或更多个、54个或更多个或者55个或更多个nt)。在一些情况下,相对于天然存在的CasX激活因子,所述激活因子在5'末端被截短。在一些情况下,相对于天然存在的CasX激活因子,所述激活因子在5'末端被延长。
各种Cas9指导RNA的实例可在本领域中找到,并且在一些情况下,与引入Cas9指导RNA中的那些相似的变型也可引入本公开的CasX指导RNA中。例如参见Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNA Biol.2013年5月;10(5):726-37;Ma等人,Biomed Res Int.2013;2013:270805;Hou等人,Proc Natl Acad SciU S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic Acids Res.2013年11月1日;41(20):e19;Cheng等人,CellRes.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,NatMethods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,Cell Res.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,Nat Methods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U SA.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;Briner等人,Mol Cell.2014年10月23日;56(2):333-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。
术语“激活因子”或“激活因子RNA”在本文中用于意指CasX双指导RNA(并且因此,在“激活因子”和“靶向因子”通过例如插入核苷酸连接在一起时,为CasX单指导RNA)的tracrRNA样分子(tracrRNA:“反式作用CRISPR RNA”)。因此,例如,CasX指导RNA(dgRNA或sgRNA)包含激活因子序列(例如,tracrRNA序列)。tracr分子(tracrRNA)是天然存在的分子,其与CRISPR RNA分子(crRNA)杂交以形成CasX双指导RNA。术语“激活因子”在本文中不仅用于涵盖天然存在的tracrRNA,而且也涵盖具有修饰(例如,截短、延长、序列变异、碱基修饰、骨架修饰、键修饰等)的tracrRNA,其中激活因子保留tracrRNA的至少一种功能(例如,有助于CasX蛋白所结合的dsRNA双链体)。在一些情况下,激活因子提供可与CasX蛋白相互作用的一个或多个茎环。激活因子可被称为具有tracr序列(tracrRNA序列),并且在一些情况下是tracrRNA,但是术语“激活因子”不限于天然存在的tracrRNA。
在一些情况下(例如,在其中指导RNA呈单指导形式的一些情况下),相对于对应的野生型tracrRNA,激活因子RNA被截短(更短)。在一些情况下(例如,在其中指导RNA呈单指导形式的一些情况下),相对于对应的野生型tracrRNA,激活因子RNA未截短(不会更短)。在一些情况下(例如,在其中指导RNA呈单指导形式的一些情况下),激活因子RNA具有大于50个nt(例如,大于55个nt、大于60个nt、大于65个nt、大于70个nt、大于75个nt、大于80个nt)的长度。在一些情况下(例如,在其中指导RNA呈单指导形式的一些情况下),激活因子RNA具有大于80个nt的长度。在一些情况下(例如,在其中指导RNA呈单指导形式的一些情况下),激活因子RNA具有在51至90个nt的范围内(例如,在51-85、51-84、55-90、55-85、55-84、60-90、60-85、60-84、65-90、65-85、65-84、70-90、70-85、70-84、75-90、75-85、75-84、80-90、80-85或80-84个nt)的长度。在一些情况下(例如,在其中指导RNA呈单指导形式的一些情况下),激活因子RNA具有在80-90个nt的范围内的长度。
术语“靶向因子”或“靶向因子RNA”在本文中用于指CasX双指导RNA(并且因此,在“激活因子”和“靶向因子”例如通过插入核苷酸连接在一起时,为CasX单指导RNA)的crRNA样分子(crRNA:“CRISPRRNA”)。因此,例如,CasX指导RNA(dgRNA或sgRNA)包含指导序列和双链体形成区段(例如,crRNA的双链体形成区段,其也可称为crRNA重复序列)。因为靶向因子的靶向区段(与靶核酸的靶序列杂交的区段)的序列被用户修饰以与所需靶核酸杂交,所以靶向因子的序列通常将是非天然存在的序列。然而,与激活因子的双链体形成区段杂交的靶向因子的双链体形成区段(在本文中更详细地描述)可包含天然存在的序列(例如,可包含天然存在的crRNA的双链体形成区段的序列,其也可称为crRNA重复序列)。因此,术语靶向因子在本文中用于与天然存在的crRNA区分开,尽管事实上靶向因子的一部分(例如,双链体形成区段)通常包含来自crRNA的天然存在的序列。然而,术语“靶向因子”涵盖天然存在的crRNA。
如上所指出,靶向因子包含CasX指导RNA的指导序列以及形成CasX指导RNA的蛋白质结合区段的dsRNA双链体的一半的一段核苷酸(“双链体形成区段”)。对应的tracrRNA样分子(激活因子)包含形成CasX指导RNA的蛋白质结合区段的dsRNA双链体的另一半的一段核苷酸(双链体形成区段)。换言之,靶向因子的一段核苷酸与激活因子的一段核苷酸互补并杂交以形成CasX指导RNA的蛋白质结合区段的dsRNA双链体。因此,可以说每个靶向因子具有对应的激活因子(其具有与靶向因子杂交的区域)。靶向因子分子另外提供指导序列。因此,靶向因子和激活因子(作为对应的对)杂交以形成CasX指导RNA。给定的天然存在的crRNA或tracrRNA分子的特定序列可以是RNA分子所存在于的物种的特征。本文提供合适的激活因子和靶向因子的实例。
示例性指导RNA序列
图6(双指导形式)和图7(双指导形式)中描绘的指导RNA来自CasX1的天然基因座。对于下文段落中讨论的序列以及对于下文工作实例中描述和测试的序列,tracrRNA和crRNA序列来自CasX1基因座。可能的靶向因子RNA和激活因子RNA的相同参数和组是希望的并且可通过比较CasX1基因座的序列与CasX2基因座的序列得到。例如,可比较CasX1tracrRNA序列
与CasX2 tracrRNA序列:
对于CasX3基因座,tracr可能在这230个nt内(互补区域加下划线):
同样,可比较CasX1crRNA序列CCGAUAAGUAAAACGCAUCAAAGNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:11,不具有N,SEQ ID NO:61,具有N)与CasX2crRNA序列UCUCCGAUAAAUAAGAAGCAUCAAAGNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:13,不具有N,SEQ ID NO:69,具有N)。
来自CasX3基因座的crRNA重复序列为GTTTACACACTCCCTCTCATAGGGT(SEQ ID NO:54)、GTTTACACACTCCCTCTCATGAGGT(SEQ ID NO:55)、TTTTACATACCCCCTCTCATGGGAT(SEQ IDNO:56)和GTTTACACACTCCCTCTCATGGGGG(SEQ ID NO:57)。因此,crRNA序列(例如,来自CasX3基因座)可包括GUUUACACACUCCCUCUCAUAGGGUNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:14,不具有N,SEQ ID NO:31,具有N)、GUUUACACACUCCCUCUCAUGAGGUNNNNNNNNNNNNNNNNNNNN(SEQ IDNO:15,不具有N,SEQ ID NO:32,具有N)、UUUUACAUACCCCCUCUCAUGGGAUNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:16,不具有N,SEQ ID NO:33,具有N)和/或GUUUACACACUCCCUCUCAUGGGGGNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:17,不具有N,SEQ ID NO:34,具有N)。
示例性靶向因子RNA(例如,crRNA)序列
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)crRNA序列CCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:11)(例如参见图6图c的sgRNA)在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列CCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:11)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA包含(例如,除指导序列之外)crRNA序列AUUUGAAGGUAUCUCCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:12)。在一些情况下,靶向因子RNA包含与crRNA序列AUUUGAAGGUAUCUCCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:12)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)crRNA序列UCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:13)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列UCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:13)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)crRNA序列GUUUACACACUCCCUCUCAUAGGGU(SEQ ID NO:14)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列GUUUACACACUCCCUCUCAUAGGGU(SEQ ID NO:14)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)crRNA序列GUUUACACACUCCCUCUCAUGAGGU(SEQ ID NO:15)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列GUUUACACACUCCCUCUCAUGAGGU(SEQ ID NO:15)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)crRNA序列UUUUACAUACCCCCUCUCAUGGGAU(SEQ ID NO:16)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列UUUUACAUACCCCCUCUCAUGGGAU(SEQ ID NO:16)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)crRNA序列GUUUACACACUCCCUCUCAUGGGGG(SEQ ID NO:17)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列GUUUACACACUCCCUCUCAUGGGGG(SEQ ID NO:17)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含(例如,除指导序列之外)SEQ ID NO:11和13中任一个所示的crRNA序列。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与SEQ ID NO:11和13中任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA包含(例如,除指导序列之外)SEQ ID NO:11-13中任一个所示的crRNA序列。在一些情况下,靶向因子RNA包含与SEQ ID NO:11-13中任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA包含(例如,除指导序列之外)SEQ ID NO:14-17中任一个所示的crRNA序列。在一些情况下,靶向因子RNA包含与SEQ ID NO:14-17中任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,靶向因子RNA包含(例如,除指导序列之外)SEQ ID NO:11-17中任一个所示的crRNA序列。在一些情况下,靶向因子RNA包含与SEQ ID NO:11-17中任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
示例性激活因子RNA(例如,tracrRNA)序列
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:21)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:21)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGG(SEQ ID NO:22)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGG(SEQ ID NO:22)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列UUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGG(SEQ IDNO:23)(例如,参见图6的sgRNA)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列UUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGG(SEQ ID NO:23)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列AAGUAGUAAAUUACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:24)(例如,参见图6的sgRNA)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列AAGUAGUAAAUUACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ IDNO:24)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列UUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ IDNO:25)(例如,参见图6的sgRNA)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列UUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:25)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列UUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGAGA(SEQID NO:26)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列UUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:26)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列UUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGG(SEQ IDNO:27)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列UUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGG(SEQ IDNO:27)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含来自以下序列内的tracrRNA序列:UAAAUUUUUUGAGCCCUAUCUCCGCGAGGAAGACAGGGCUCUUUUCAUGAGAGGAAGCUUUUAUACCCGACCGGUAAUCCGGUCGGGGGAUUGGCCGUUGAAACGAUUUUAAAGCGGCCAAUGGGCCCCUCUAUAUGGAUACUACUUAUAUAAGGAGCUUGGGGAAGAAGAUAGCUUAAUCCCGCUAUCUUGUCAAGGGGUUGGGGGAGUAUCAGUAUCCGGCAGGCGCC(SEQ ID NO:28)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与来自以下序列内的tracrRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列:UAAAUUUUUUGAGCCCUAUCUCCGCGAGGAAGACAGGGCUCUUUUCA UGAGAGGAAGCUUUUAUACCCGACCGGUAAUCCGGUCGGGGGAUUGGCCGUUGAAACGAUUUUAAAGCGGCCAAUGGGCCCCUCUAUAUGGAUACUACUUAUAUAAGGAGCUUGGGGAAGAAGAUAGCUUAAUCCCGCUAUCUUGUCAAGGGGUUGGGGGAGUAUCAGUAUCCGGCAGGCGCC(SEQ ID NO:28)。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含SEQ ID NO:21-27中任一个所示的tracrRNA序列。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与SEQ ID NO:21-27中任一个所示的tracrRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含SEQ ID NO:21-27中任一个所示的tracrRNA序列。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与SEQ ID NO:21-28中任一个所示的tracrRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,CasX单指导RNA包含序列UUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGgaaaCCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:41)。在一些情况下,靶向因子RNA包含与tracrRNA序列UUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGgaaaCCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:41)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,CasX单指导RNA包含序列ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGAgaaaCCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:42)。在一些情况下,靶向因子RNA包含与tracrRNA序列ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGAgaaaCCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:42)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,CasX单指导RNA包含序列UUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGgaaaUCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:43)。在一些情况下,靶向因子RNA包含与tracrRNA序列UUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGgaaaUCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:43)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,CasX单指导RNA包含SEQ ID NO:41-43中任一个所示的序列。在一些情况下,靶向因子RNA包含与SEQ ID NO:41-43中任一个所示的tracrRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
CASX系统
本公开提供一种CasX系统。本公开的CasX系统可包含:a)本公开的CasX多肽和CasX指导RNA;b)本公开的CasX多肽、CasX指导RNA和供体模板核酸;c)本公开的CasX融合多肽和CasX指导RNA;d)本公开的CasX融合多肽、CasX指导RNA和供体模板核酸;e)编码本公开的CasX多肽的mRNA和CasX指导RNA;f)编码本公开的CasX多肽的mRNA、CasX指导RNA和供体模板核酸;g)编码本公开的CasX融合多肽的mRNA和CasX指导RNA;h)编码本公开的CasX融合多肽的mRNA、CasX指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。
核酸
本公开提供一种或多种核酸,其包含以下中的一种或多种:供体多核苷酸序列、编码CasX多肽(例如,野生型CasX蛋白、切口酶CasX蛋白、dCasX蛋白、嵌合CasX蛋白等)的核苷酸序列、CasX指导RNA和编码CasX指导RNA的核苷酸序列(在双指导RNA形式的情况下,其可包括两个单独的核苷酸序列,或者在单指导RNA形式的情况下,其可包括单个核苷酸序列)。本公开提供一种包含编码CasX融合多肽的核苷酸序列的核酸。本公开提供一种包含编码CasX多肽的核苷酸序列的重组表达载体。本公开提供一种包含编码CasX融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体,其包含:a)编码CasX多肽的核苷酸序列;和b)编码CasX指导RNA的核苷酸序列。本公开提供一种重组表达载体,其包含:a)编码CasX融合多肽的核苷酸序列;和b)编码一种或多种CasX指导RNA的核苷酸序列。在一些情况下,编码CasX蛋白的核苷酸序列和/或编码CasX指导RNA的核苷酸序列可操作地连接到可在选择的细胞类型(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等)中操作的启动子。
在一些情况下,编码本公开的CasX多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码CasX的核苷酸序列的突变以模拟预期的宿主生物体或细胞的密码子偏好同时编码相同蛋白质。因此,密码子可改变,但编码的蛋白质保持不变。例如,如果预期的靶细胞是人细胞,可使用人密码子优化的编码CasX的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是小鼠细胞,则可生成小鼠密码子优化的编码CasX的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是植物细胞,则可生成植物密码子优化的编码CasX的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是昆虫细胞,则可生成昆虫密码子优化的编码CasX的核苷酸序列。
本公开提供一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如,靶基因组)的靶序列具有同源性的核苷酸序列);(ii)编码CasX指导RNA(例如,单指导RNA或双指导RNA)的核苷酸序列,所述CasX指导RNA与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子);和(iii)编码CasX蛋白的核苷酸序列(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如,靶基因组)的靶序列具有同源性的核苷酸序列);和(ii)编码CasX指导RNA(例如,单指导RNA或双指导RNA)的核苷酸序列,所述CasX指导RNA与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)编码CasX指导RNA(例如,单指导RNA或双指导RNA)的核苷酸序列,所述CasX指导RNA与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子);和(ii)编码CasX蛋白的核苷酸序列(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。
合适的表达载体包括病毒表达载体(例如,基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见例如,Li等人,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等人,Gene Ther 6:515 524,1999;Li和Davidson,PNAS 92:7700 7704,1995;Sakamoto等人,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO 93/19191;WO 94/28938;WO 95/11984和WO 95/00655);腺相关病毒(AAV)(参见例如,Ali等人,Hum Gene Ther 9:81 86,1998;Flannery等人,PNAS 94:6916 6921,1997;Bennett等人,Invest Opthalmol Vis Sci 38:2857 2863,1997;Jomary等人,Gene Ther 4:683 690,1997;Rolling等人,Hum Gene Ther 10:641 648,1999;Ali等人,Hum Mol Genet 5:591594,1996;Srivastava的WO 93/09239,Samulski等人,J.Vir.(1989)63:3822-3828;Mendelson等人,Virol.(1988)166:154-165;以及Flotte等人,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人类免疫缺陷病毒(参见例如,Miyoshi等人,PNAS 94:1031923,1997;Takahashi等人,J Virol 73:7812 7816,1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。在一些情况下,本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些情况下,本公开的重组表达载体是重组慢病毒载体。在一些情况下,本公开的重组表达载体是重组逆转录病毒载体。
根据所用的宿主/载体系统,可在表达载体中使用许多合适的转录和翻译控制元件中的任一种,包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。
在一些实施方案中,编码CasX指导RNA的核苷酸序列可操作地连接到控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码CasX蛋白或CasX融合多肽的核苷酸序列可操作地连接到控制元件,例如转录控制元件,诸如启动子。
转录控制元件可以是启动子。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调节启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件(例如,启动子)在靶向细胞类型或靶向细胞群中是功能性的。例如,在一些情况下,转录控制元件在真核细胞(例如,造血干细胞(例如,动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。
真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α,来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如,6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列,所述蛋白质标签可融合到CasX蛋白,从而产生嵌合CasX多肽。
在一些实施方案中,编码CasX指导RNA和/或CasX融合多肽的核苷酸序列可操作地连接到诱导型启动子。在一些实施方案中,编码CasX指导RNA和/或CasX融合蛋白的核苷酸序列可操作地连接到组成型启动子。
启动子可以是组成型活性启动子(即,在活性/“ON”状态下组成型的启动子),它可以是诱导型启动子(即,通过外界刺激例如存在特定温度、化合物或蛋白质控制其状态(活性/“ON”或非活性/“OFF”)的启动子),它可以是空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可以是时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程(例如,小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态)。
合适的启动子可来源于病毒并且可因此称为病毒启动子,或它们可来源于任何生物,包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如,pol I、polII、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子;腺病毒主要晚期启动子(Ad MLP);单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人类U6小核启动子(U6)(Miyagishi等人,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如,Xia等人,Nucleic Acids Res.2003年9月1日;31(17))、人类H1启动子(H1)等。
在一些情况下,编码CasX指导RNA的核苷酸序列可操作地连接到(在其控制下)在真核细胞中可操作的启动子(例如,U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的,当使用U6启动子(例如,在真核细胞中)或另一种PolIII启动子由核酸(例如,表达载体)表达RNA(例如,指导RNA)时,如果连续存在若干个T(在RNA中编码U),则可能需要对RNA进行突变。这是因为DNA中的一串T(例如,5个T)可充当聚合酶III(PolIII)的终止子。因此,为了确保指导RNA(例如,呈双指导或单指导形式的激活因子部分和/或靶向因子部分)在真核细胞中的转录,有时可能需要修饰编码指导RNA的序列以消除T的作用。在一些情况下,编码CasX蛋白(例如,野生型CasX蛋白、切口酶CasX蛋白、dCasX蛋白、嵌合CasX蛋白等)的核苷酸序列可操作地连接到在真核细胞中可操作的启动子(例如,CMV启动子、EF1α启动子、雌激素受体调节的启动子等)。
诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3 RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。因此,诱导型启动子可通过分子调节,所述分子包括但不限于强力霉素;雌激素和/或雌激素类似物;IPTG等。
适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节的启动子和物理调节的启动子,诸如醇调节的启动子、四环素调节的启动子(例如,无水四环素(aTc)-响应性启动子和其他四环素响应性启动子系统,其包括四环素阻遏物蛋白(tetR)、四环素操作序列(tetO)和四环素反式激活因子融合蛋白(tTA))、类固醇调节的启动子(例如,基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调节的启动子(例如,衍生自来自酵母、小鼠和人类的金属硫蛋白(结合并螯合金属离子的蛋白质)基因的启动子)、发病原调节的启动子(例如,由水杨酸、乙烯或苯并噻二唑(BTH)诱导的启动子)、温度/热诱导型启动子(例如,热休克启动子)和光调节的启动子(例如,来自植物细胞的光响应性启动子)。
在一些情况下,启动子是空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等),使得在多细胞生物体中,启动子在特定细胞子集中是活性的(即,“ON”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子,只要启动子在靶向宿主细胞(例如,真核细胞;原核细胞)中是功能性的即可。
在一些情况下,启动子是可逆启动子。合适的可逆启动子,包括可逆诱导型启动子,是本领域已知的。此类可逆启动子可分离自并衍生自许多生物体,例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如,第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰是本领域熟知的。此类可逆启动子和基于此类可逆启动子但也包含另外的控制蛋白的系统包括但不限于醇调节的启动子(例如,醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调节的启动子(例如,启动子系统,包括Tet激活因子、TetON、TetOFF等)、类固醇调节的启动子(例如,大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类维生素A启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调节的启动子(例如,金属硫蛋白启动子系统等)、发病机理相关的调节启动子(例如,水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等)、温度调节启动子(例如,热休克诱导型启动子(例如,HSP-70、HSP-90、大豆热休克启动子等))、光调节启动子、合成诱导型启动子等。
将核酸(例如,包含供体多核苷酸序列的核酸、一种或多种编码CasX蛋白和/或CasX指导RNA的核酸等)引入宿主细胞中的方法是本领域已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。
将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。
在一些实施方案中,CasX蛋白可作为RNA提供。RNA可通过直接化学合成提供,或者可在体外从DNA(例如,编码CasX蛋白的DNA)转录。一旦合成,可通过用于将核酸引入细胞中的任何熟知的技术(例如,微注射、电穿孔、转染等)将RNA引入细胞中。
可使用开发良好的转染技术(参见例如Angel和Yanik(2010)PLoS ONE 5(7):e11756);以及可从Qiagen商购获得的试剂、从Stemgent可商购获得的StemfectTMRNA转染试剂盒以及可从Mirus Bio LLC商购获得的-mRNA转染试剂盒向细胞提供核酸。还参见Beumer等人(2008)PNAS 105(50):19821-19826。
可直接向靶宿主细胞提供载体。换言之,使细胞与包含主题核酸的载体(例如,具有供体模板序列并编码CasX指导RNA的重组表达载体;编码CasX蛋白的重组表达载体等)接触,使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)是本领域中熟知的。对于病毒载体递送,可使细胞与包含主题病毒表达载体的病毒颗粒接触。
逆转录病毒,例如慢病毒,适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”,即不能产生用于生产性感染所需要的病毒蛋白质。而且载体复制需要在包装细胞系中生长。为了生成包含感兴趣的核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性),此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性;对包括人类、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法是本领域中熟知的。还可通过直接微注射引入核酸(例如,RNA的注射)。
用于向靶宿主细胞提供编码CasX指导RNA和/或CasX多肽的核酸的载体可包括用于驱动感兴趣核酸的表达(即,转录激活)的合适的启动子。换言之,在一些情况下,感兴趣的核酸将可操作地连接到启动子。所述启动子可包括遍在活化型启动子,例如CMV-β-肌动蛋白启动子;或诱导型启动子,诸如在具体细胞群中有活性或对药物(诸如四环素的)存在有反应的启动子。通过转录激活,预期转录将在靶细胞中的基础水平以上增加10倍、100倍、更通常地1000倍。另外,用于向细胞提供编码CasX指导RNA和/或CasX蛋白的核酸的载体可包含如下核酸序列,其在靶细胞中编码可选择标记以便鉴定已经吸收CasX指导RNA和/或CasX蛋白的细胞。
包含编码CasX多肽或CasX融合多肽的核苷酸序列的核酸在一些情况下是RNA。因此,可将CasX融合蛋白作为RNA引入细胞中。将RNA引入细胞中的方法是本领域中已知的并且可包括例如直接注射、转染或用于引入DNA的任何其他方法。相反,CasX蛋白可作为多肽向细胞提供。这种多肽可任选地融合到增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如,通过TEV蛋白酶切割的TEV序列)连接到多肽。接头还可包括一个或多个柔性序列,例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行,例如在0.5至2M尿素存在下、在多肽和/或增加溶解度的多核苷酸的存在下等进行。感兴趣的结构域包括核内体溶解结构域,例如流感HA结构域;和辅助产生的其他多肽,例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如,肽可以是PEG化的,其中聚乙烯氧基提供在血流中的增加的寿命。
另外或可替代地,本公开的CasX多肽可融合到多肽穿透结构域以促进被细胞吸收。许多穿透结构域是本领域中已知的并且可用于本公开的非整合多肽,其包括肽、肽模拟物和非肽运载体。例如,穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋,所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO:133)。作为另一个实例,穿透肽包含HIV-1 tat碱性区域氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序,例如HIV-1 rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如,Futaki等人(2003)Curr Protein PeptSci.2003年4月;4(2):87-9和446;以及Wender等人(2000)Proc.Natl.Acad.Sci.U.S.A2000年11月21日;97(24):13003-8;公布的美国专利申请20030220334;20030083256;20030032593;和20030022831,本文以引用的方式特别并入了易位肽和拟肽的教义)。九精氨酸(R9)序列是已表征的更有效的PTD之一(Wender等人2000;Uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。
本公开的CasX多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工,并且可使用本领域已知的方法进一步再折叠。
不改变一级序列的感兴趣的修饰包括多肽的化学衍生化,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在其合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰;例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。
还适合包括在本公开的实施方案中的是核酸(例如,编码CasX指导RNA、编码CasX融合蛋白等的核酸)和蛋白质(例如,衍生自野生型蛋白质或变体蛋白质的CasX融合蛋白),所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰,以便改进它们对蛋白水解降解的抗性,改变靶序列特异性,优化溶解特性,改变蛋白质活性(例如,转录调节活性、酶活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的L-氨基酸之外的残基(例如,D-氨基酸或非天然存在的合成氨基酸)的那些多肽。D-氨基酸可取代一些或所有氨基酸残基。
可使用如本领域已知的常规方法,通过体外合成制备本公开的CasX多肽。可使用各种商业合成装置,例如Applied Biosystems,Inc.,Beckman等的自动合成仪。通过使用合成仪,天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。
如果需要,可在合成过程中或在表达过程中将各种基团引入肽中,这允许连接到其他分子或表面。因此半胱氨酸可用来制备硫醚、用于连接到金属离子络合物的组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。
还可根据重组合成的常规方法分离和纯化本公开的CasX多肽。可由表达宿主制备裂解液,并且使用高效液相色谱法(HPLC)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下,相对于与产物制备及其纯化的方法相关的污染物,所使用的组合物将包含所需产物的20重量%或更多、更通常地75重量%或更多、优选地95重量%,并且出于治疗目的通常为99.5重量%或更多。通常,百分数将基于总蛋白。因此,在一些情况下,本公开的CasX多肽或CasX融合多肽具有至少80%纯度、至少85%纯度、至少90%纯度、至少95%纯度、至少98%纯度或至少99%纯度(例如,不含污染物、非CasX蛋白质或其他大分子等)。
为了诱导对靶核酸(例如,基因组DNA)的切割或任何所需的修饰,或对与靶核酸相关联的多肽的任何所需的修饰,向细胞提供本公开的CasX指导RNA和/或CasX多肽和/或供体模板序列,无论它们作为核酸还是多肽引入,持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段,这可以约每天至约每4天的频率来重复,例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可向主题细胞提供一种或多种试剂一次或多次,例如一次、两次、三次或多于三次,并且在每次接触事件之后允许用一种或多种试剂孵育细胞一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。
在其中向细胞提供两种或更多种不同靶向复合物(例如,与相同或不同靶核酸内的不同序列互补的两种不同CasX指导RNA)的情况下,可同时提供(例如,作为两种多肽和/或核酸)或同时递送所述复合物。可替代地,它们可连续提供,例如首先提供靶向复合物,接着提供第二靶向复合物等,或反之亦然。
为了改进DNA载体向靶细胞的递送,可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护DNA免受损伤,并且促进DNA进入细胞中。因此,在一些情况下,本公开的核酸(例如,本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与DNA复合时,它被称为脂质复合物。存在三种类型的脂质,阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷,与带负电的DNA天然复合。同样由于它们的电荷,它们与细胞膜相互作用。然后发生脂质复合物的内吞作用,并且将DNA释放到细胞质中。阳离子脂质还可防止细胞对DNA的降解。
聚合物与DNA的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成,并且它们的产生由离子相互作用调节。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其DNA负载释放到细胞质中,为此,必须发生与内体溶解剂(溶解内吞作用期间产生的内体,诸如灭活的腺病毒)的共转染。然而,并非总是如此;诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样,都有自己的内体破坏方法。
树枝状聚合物,一种球形的高度支化的大分子,也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地,可能构建阳离子树枝状聚合物(即,具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如DNA质粒)时,电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。在到达其目的地时,树枝状聚合物-核酸复合物可通过内吞作用被吸收到细胞中。
在一些情况下,本公开的核酸(例如,表达载体)包含感兴趣的指导序列的插入位点。例如,核酸可包含感兴趣的指导序列的插入位点,其中所述插入位点紧邻编码CasX指导RNA的部分的核苷酸序列,当指导序列被改变而与所需靶序列杂交(例如,有助于指导RNA的CasX结合方面的序列,例如,有助于CasX指导RNA的一个或多个dsRNA双链体的序列-指导RNA的这个部分也可称为指导RNA的“支架”或“恒定区”)时,CasX指导RNA的所述部分不会改变。因此,在一些情况下,主题核酸(例如,表达载体)包含编码CasX指导RNA的核苷酸序列,不同的是编码指导RNA的指导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点(MCS)(例如,包含一个或多个限制性酶识别序列的位点),用于连接独立克隆的位点,用于基于克隆的重组(例如,基于att位点的重组)的位点,由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。
插入位点可以是任何期望的长度,并且可取决于插入位点的类型(例如,可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列),位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些情况下,主题核酸的插入位点长度为3个或更多个核苷酸(nt)(例如,长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下,主题核酸的插入位点具有在2至50个核苷酸(nt)的范围内(例如,2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下,主题核酸的插入位点具有在5至40个nt的范围内的长度。
核酸修饰
在一些实施方案中,主题核酸(例如,CasX指导RNA)具有一个或多个修饰(例如,碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如,改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接到核苷的糖部分的磷酸酯基团的核苷。对于包含呋喃戊糖的那些核苷,磷酸酯基团可连接到糖的2'、3'或5'羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而,此线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物是合适的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架是3'至5'的磷酸二酯键。
合适的核酸修饰包括但不限于:2'O甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如,7-甲基鸟苷酸帽(m7G))。下文描述另外的细节和另外的修饰。
2'-O-甲基修饰的核苷酸(也称为2'-O-甲基RNA)是在tRNA和其他小RNA中发现的天然存在的RNA修饰,其作为转录后修饰而出现。可直接合成含有2'-O-甲基RNA的寡核苷酸。这种修饰增加RNA:RNA双链体的Tm,但仅导致RNA:DNA稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的,并且对DNA酶的敏感性通常是DNA的5至10倍低。它通常用于反义寡核苷酸中,作为增加稳定性和对于靶信使的结合亲和力的手段。
2'氟修饰的核苷酸(例如,2'氟碱基)具有氟修饰的核糖,其增加结合亲和力(Tm)并且与天然RNA相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和siRNA中以改进在血清或其他生物体液中的稳定性。
LNA碱基具有对核糖骨架的修饰,其将碱基锁定在C3'-内部位置,这有利于RNA A型螺旋双链体几何结构。这种修饰显著增加Tm并且还具有非常强的核酸酶抗性。可将多个LNA插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到SNP检测和等位基因特异性PCR的应用。由于LNA赋予Tm的大量增加,它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下,引入单个寡核苷酸中的LNA的数量是10个碱基或更少。
硫代磷酸酯(PS)键联(即,硫代磷酸酯键)用硫原子取代核酸(例如,寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键联以抑制外切核酸酶降解。在寡核苷酸内(例如,在整个寡核苷酸中)包含硫代磷酸酯键联也可帮助减少内切核酸酶的攻击。
在一些实施方案中,主题核酸具有一个或多个核苷酸,所述核苷酸是2'-O-甲基修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有一个或多个2'氟修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有一个或多个LNA碱基。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有通过硫代磷酸酯键联连接的一个或多个核苷酸(即,主题核酸具有一个或多个硫代磷酸酯键)。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有5'帽(例如,7-甲基鸟苷酸帽(m7G))。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有修饰的核苷酸的组合。例如,除具有一个或多个具有其他修饰的核苷酸(例如,2'-O-甲基核苷酸和/或2'氟修饰的核苷酸和/或LNA碱基和/或硫代磷酸酯键)之外,主题核酸(例如,dsRNA、siNA等)可具有5'帽(例如,7-甲基鸟苷酸帽(m7G))。
修饰的骨架和修饰的核苷间键
含有修饰的合适的核酸(例如,CasX指导RNA)的实例包括含有修饰的骨架或非天然的核苷间键的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。
其中含有磷原子的合适的经修饰的寡核苷酸骨架包括例如,硫代磷酸酯,手性硫代磷酸酯,二硫代磷酸酯,磷酸三酯,氨基烷基磷酸三酯,甲基和其他烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯,次膦酸酯,氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯,二氨基磷酸酯,硫羰氨基磷酸酯,硫羰烷基磷酸酯,硫羰烷基磷酸三酯,具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯,这些的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架,其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键,即可为碱性(核碱基丢失或其被羟基替代)的单个反转核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。
在一些实施方案中,主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键,具体地是-CH2-NH-O-CH2-、-CH2-N(CH3)-O-CH2-(称为亚甲基(甲基亚氨基)或MMI骨架)、-CH2-O-N(CH3)-CH2-、-CH2-N(CH3)-N(CH3)-CH2-和-O-N(CH3)-CH2-CH2-(其中天然磷酸二酯核苷酸间键表示为-O-P(=O)(OH)-O-CH2-)。MMI型核苷间键公开于上文提及的美国专利号5,489,677中,所述专利的公开内容以引用的方式整体并入本文。合适的酰胺核苷间键公开于美国专利号5,602,240中,所述专利的公开内容以引用的方式整体并入本文。
还合适的是具有吗啉代骨架结构的核酸,如例如美国专利号5,034,506中所述。例如,在一些实施方案中,主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些中,二氨基磷酸酯或其他非磷酸二酯核苷间键替代磷酸二酯键。
其中不包含磷原子的合适的经修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括:具有吗啉代键(部分地由核苷的糖部分形成)的那些骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基(riboacetyl)骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合的N、O、S和CH2组成部分的其他骨架。
模拟物
主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中又称为糖替代。杂环碱基部分或修饰的杂环碱基部分维持与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(PNA)。在PNA中,多核苷酸的糖骨架被含酰胺的骨架替代,具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接结合骨架的酰胺部分的氮杂氮原子。
已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(PNA)。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接结合骨架的酰胺部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331;和5,719,262,所述专利的公开内容以引用的方式整体并入本文。
已研究的另一类多核苷酸模拟物基于具有附着到吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(Dwaine A.Braasch和David R.Corey,Biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中,所述专利的公开内容以引用的方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物,所述化合物具有连接单体亚单元的多种不同的连接基团。
另一类多核苷酸模拟物称为环己烯基核酸(CeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNA DMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸(参见Wang等人,J.Am.Chem.Soc.,2000,122,8595-8602,其公开内容以引用的方式整体并入本文)。一般来讲,CeNA单体引入DNA链中增加了DNA/RNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色性示出将CeNA结构引入天然核酸结构中的研究以继续进行简单的构象调整。
另一种修饰包括锁定核酸(LNA),其中2'-羟基连接到糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键,从而形成双环糖部分。所述键可以是亚甲基(-CH2-),桥联2'氧原子和4'碳原子的基团,其中n为1或2(Singh等人,Chem.Commun.,1998,4,455-456,其公开内容以引用的方式整体并入本文)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm=+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有LNA的有效且无毒的反义寡核苷酸(例如Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638,其公开内容以引用的方式整体并入本文)。
已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如,Koshkin等人,Tetrahedron,1998,54,3607-3630,其公开内容以引用的方式整体并入本文)。LNA及其制备也描述于WO 98/39352和WO 99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中,所述专利的公开内容以引用的方式整体并入本文。
修饰的糖部分
主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别合适的是:O((CH2)nO)mCH3、O(CH2)nOCH3、O(CH2)nNH2、O(CH2)nCH3、O(CH2)nONH2和O(CH2)nON((CH2)nCH3)2,其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团:C1至C10低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团,以及其他具有相似特性的取代基。合适的修饰包括2'-甲氧基乙氧基(2'-O-CH2CH2OCH3,又称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等人,Helv.Chim.Acta,1995,78,486-504,其公开内容以引用的方式整体并入本文),即烷氧基烷氧基基团。另外合适的修饰包括2'-二甲基氨基氧基乙氧基,即O(CH2)2ON(CH3)2基团,又称为2'-DMAOE,如在下文的实施例中所述;和2'-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE),即2'-O-CH2-O-CH2-N(CH3)2
其他合适的糖取代基团包括甲氧基(-O-CH3)、氨基丙氧基(--OCH2CH2CH2NH2)、烯丙基(-CH2-CH=CH2)、-O-烯丙基(--O--CH2—CH=CH2)和氟(F)。2'-糖取代基团可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-F。还可在低聚化合物上的其他位置上做出相似的修饰,具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置以及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物,诸如环丁基部分。
碱基修饰和取代
主题核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所用,“未修饰”或“天然”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其他合成和天然的核碱基,诸如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C=C-CH3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基(具体为5-溴代基)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的经修饰的核碱基包括三环嘧啶,诸如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹诸如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。
杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于The Concise Encyclopedia Of Polymer Science AndEngineering,第858-859页,Kroschwitz,J.I.编John Wiley&Sons,1990中的那些、由Englisch等人,Angewandte Chemie,International Edition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.编,CRC Press,1993公开的那些,其公开内容以引用的方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶,6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(Sanghvi等人编,Antisense Research and Applications,CRC Press,Boca Raton,1993,第276-278页;其公开内容以引用的方式整体并入本文)并且例如当与2'-O-甲氧基乙基糖修饰组合时是适合的碱基取代。
缀合物
主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接到多核苷酸。这些部分或缀合物可包括共价结合到诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报道分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。
缀合物部分包括但不限于脂质部分,诸如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556),胆酸(Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060),硫醚例如己基-S-三苯甲基硫醇(Manoharan等人,Ann.N.Y.Acad.Sci.,1992,660,306-309;Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770),巯基胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538),脂族链例如十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EMBO J.,1991,10,1111-1118;Kabanov等人,FEBS Lett.,1990,259,327-330;Svinarchuk等人,Biochimie,1993,75,49-54),磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-O-十六烷基-外消旋-甘油-3-H-磷酸酯(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654;Shea等人,Nucl.Acids Res.,1990,18,3777-3783),多胺或聚乙二醇链(Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973),或金刚烷乙酸(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654),棕榈基部分(Mishra等人,Biochim.Biophys.Acta,1995,1264,229-237),或十八烷基胺或己基氨基-羰基-羟基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937)。
缀合物可包括“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽),其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如,细胞核)内。在一些实施方案中,PTD与外源多核苷酸的3'末端共价连接。在一些实施方案中,PTD与外源多核苷酸的5'末端共价连接。示例性PTD包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR;SEQ ID NO:112的HIV-1 TAT的残基47-57);包含足以引入细胞中的数量的精氨酸(例如,3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列;VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96);果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737);截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKRSEQ IDNO:113);运输蛋白GWTLNSAGYLLGKINLKALAALAKKILSEQ ID NO:114);KALAWEAKLAKALAKALAKHLAKALAKALKCEA SEQ ID NO:115);和RQIKIWFQNRRMKWKK SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个:YGRKKRRQRRR SEQ ID NO:119);RKKRRQRR SEQ ID NO:120);YARAAARQARA SEQID NO:121);THRLPRRRRRR SEQ ID NO:122);以及GGRRARRRRRR SEQ ID NO:123)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月;1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。
将组分引入靶细胞中
CasX指导RNA(或包含编码CasX指导RNA的核苷酸序列的核酸)和/或本公开的CasX多肽(或包含编码CasX多肽的核苷酸序列的核酸)和/或本公开的CasX融合多肽(或者包含编码本公开的CasX融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)可通过多种熟知的方法引入宿主细胞中。
可使用多种化合物和方法中的任一种将本公开的CasX系统递送到靶细胞(例如,其中CasX系统包含:a)本公开的CasX多肽和CasX指导RNA;b)本公开的CasX多肽、CasX指导RNA和供体模板核酸;c)本公开的CasX融合多肽和CasX指导RNA;d)本公开的CasX融合多肽、CasX指导RNA和供体模板核酸;e)编码本公开的CasX多肽的mRNA和CasX指导RNA;f)编码本公开的CasX多肽的mRNA、CasX指导RNA和供体模板核酸;g)编码本公开的CasX融合多肽的mRNA和CasX指导RNA;h)编码本公开的CasX融合多肽的mRNA、CasX指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。作为非限制性实例,本公开的CasX系统可与脂质组合。作为另一个非限制性实例,本公开的CasX系统可与颗粒组合或配制成颗粒。
将核酸引入到宿主细胞中的方法是本领域中已知的,并且可使用任何方便的方法来将主题核酸(例如,表达构建体/载体)引入到靶细胞(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。适合的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
在一些情况下,本公开的CasX多肽作为编码CasX多肽的核酸(例如,mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的CasX多肽直接作为蛋白质(例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasX多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CasX多肽直接注射到细胞中(例如,与或不与CasX指导RNA或编码CasX指导RNA的核酸一起,并且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的CasX多肽和CasX指导RNA的预先形成的复合物(RNP)引入细胞(例如,真核细胞)中(例如,通过注射、通过核转染;通过缀合到一种或多种组分的蛋白转导结构域(PTD),例如缀合到CasX蛋白、缀合到指导RNA、缀合到本公开的CasX多肽和指导RNA;等)。
在一些情况下,本公开的CasX融合多肽(例如,与融合配偶体融合的dCasX、与融合配偶体融合的切口酶CasX等)作为编码CasX融合多肽的核酸(例如,mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的CasX融合多肽直接作为蛋白质(例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasX融合多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CasX融合多肽直接注射到细胞中(例如,与或不与编码CasX指导RNA的核酸一起,并且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的CasX融合多肽和CasX指导RNA的预先形成的复合物(RNP)引入细胞中(例如,通过注射、通过核转染;通过缀合到一种或多种组分的蛋白转导结构域(PTD),例如缀合到CasX融合蛋白、缀合到指导RNA、缀合到本公开的CasX融合多肽和指导RNA;等)。
在一些情况下,将核酸(例如,CasX指导RNA;包含编码本公开的CasX多肽的核苷酸序列的核酸等)递送到颗粒中的细胞(例如,靶宿主细胞)和/或多肽(例如,CasX多肽;CasX融合多肽),或与颗粒缔合。在一些情况下,本公开的CasX系统被递送到颗粒中的细胞,或与颗粒缔合。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的CasX多肽的核苷酸序列和/或CasX指导RNA的重组表达载体、包含编码本公开的CasX多肽的核苷酸序列的mRNA以及指导RNA可使用颗粒或脂质包膜同时递送;例如,CasX多肽和CasX指导RNA,例如作为复合物(例如,核糖核蛋白(RNP)复合物)可通过颗粒递送,例如通过包含脂质或类脂质以及亲水聚合物(例如,阳离子脂质和亲水聚合物)的递送颗粒递送,例如,其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包含乙二醇或聚乙二醇(PEG);并且/或者其中颗粒还包含胆固醇(例如,来自制剂1的颗粒=DOTAP 100、DMPC 0、PEG 0、胆固醇0;制剂编号2=DOTAP 90、DMPC 0、PEG 10、胆固醇0;制剂编号3=DOTAP 90、DMPC 0、PEG 5、胆固醇5)。例如,可使用多步骤方法形成颗粒,其中将CasX多肽和CasX指导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(PBS)中混合在一起;并且适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于乙醇(例如,100%乙醇),并且将两种溶液混合在一起以形成含有复合物的颗粒)。
本公开的CasX多肽(或包含编码本公开的CasX多肽的核苷酸序列的mRNA;或包含编码本公开的CasX多肽的核苷酸序列的重组表达载体)和/或CasX指导RNA(或核酸,诸如一种或多种编码CasX指导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如,可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些情况下,使用基于自组装生物粘附聚合物的颗粒/纳米颗粒;此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送,例如递送到脑。还考虑了其他实施方案,诸如疏水药物的口服吸收和眼部递送。可使用分子包膜技术,其涉及受保护并递送至疾病部位的工程化聚合物包膜。可使用约5mg/kg的剂量,使用单剂量或多剂量,这取决于各种因素,例如靶组织。
类脂质化合物(例如,如美国专利申请20110293703中所述)也可用于多核苷酸的施用,并且可用于递送本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统(例如,其中CasX系统包含:a)本公开的CasX多肽和CasX指导RNA;b)本公开的CasX多肽、CasX指导RNA和供体模板核酸;c)本公开的CasX融合多肽和CasX指导RNA;d)本公开的CasX融合多肽、CasX指导RNA和供体模板核酸;e)编码本公开的CasX多肽的mRNA和CasX指导RNA;f)编码本公开的CasX多肽的mRNA、CasX指导RNA和供体模板核酸;g)编码本公开的CasX融合多肽的mRNA和CasX指导RNA;h)编码本公开的CasX融合多肽的mRNA、CasX指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。在一方面,氨基醇类脂质化合物与待递送到细胞或受试者的药剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。
聚(β-氨基醇)(PBAA)可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚(β-氨基醇)(PBAA)。
可使用基于糖的颗粒,例如,如参考WO2014118272(以引用的方式并入本文)和Nair,J K等人,2014,Journal of the American Chemical Society 136(49),16958-16961)所述的GalNAc,可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。
在一些情况下,使用脂质纳米颗粒(LNP)将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如,pH 4)下装载到LNP中,其中可电离的脂质显示正电荷。然而,在生理pH值下,LNP表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质,即1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基-酮-N,N-二甲基-3-氨基丙烷(DLinKDMA)和1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)。LNP的制备描述于例如Rosin等人(2011)Molecular Therapy 19:1286-2200)中。可使用阳离子脂质1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2”-(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)和R-3-[(.ω.-甲氧基-聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如,CasX指导RNA;本公开的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些情况下,并入0.2%SP-DiOC18。
球形核酸(SNATM)构建体和其他纳米颗粒(特别是金纳米颗粒)可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞.。参见例如,Cutler等人,J.Am.Chem.Soc.2011 133:9254-9257,Hao等人,Small.2011 7:3158-3162,Zhang等人,ACS Nano.2011 5:6962-6970,Cutler等人,J.Am.Chem.Soc.2012 134:1376-1391,Young等人,Nano Lett.2012 12:3867-71,Zheng等人,Proc.Natl.Acad.Sci.USA.2012 109:11975-80,Mirkin,Nanomedicine 2012 7:635-638 Zhang等人,J.Am.Chem.Soc.2012 134:16488-1691,Weintraub,Nature 2013 495:S14-S16,Choi等人,Proc.Natl.Acad.Sci.USA.2013 110(19):7625-7630,Jensen等人,Sci.Transl.Med.5,209ra152(2013)和Mirkin等人,Small,10:186-192。
具有RNA的自组装纳米颗粒可用聚乙烯亚胺(PEI)构建,所述聚乙烯亚胺(PEI)用附接在聚乙二醇(PEG)远侧端部处的Arg-Gly-Asp(RGD)肽配体PEG化。
一般来讲,“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下,适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞的纳米颗粒具有500nm或更小,例如,25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下,适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下,适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下,适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞的纳米颗粒具有35nm至60nm的直径。
适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞的纳米颗粒可以不同的形式提供,例如,作为固体纳米颗粒(例如,金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或其组合提供。可制备金属、介电和半导体纳米颗粒,以及混合结构(例如,核壳纳米颗粒)。由半导体材料制成的纳米颗粒也可标记为量子点,如果它们足够小(通常低于10nm),则发生电子能级的量子化。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂,并且可适用于本公开中的相似目的。
半固体和软纳米颗粒也适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。具有半固体性质的原型纳米颗粒是脂质体。
在一些情况下,使用外泌体将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。外泌体是内源性纳米囊泡,其运输RNA和蛋白质,并且可将RNA递送到脑和其他靶器官。
在一些情况下,使用脂质体将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。脂质体是球形囊泡结构,其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成;然而,磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时,脂质体形成是自发的,但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如,可将胆固醇或鞘磷脂添加到脂质体混合物中,以便帮助稳定脂质体结构并防止脂质体内部物质的泄漏。脂质体制剂可主要由以下组成:天然磷脂和脂质,诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。
稳定的核酸-脂质颗粒(SNALP)可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。SNALP制剂可含有2:40:10:48摩尔百分比的脂质3-N-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC)和胆固醇。可通过,使用25:1的脂质/siRNA比和48/40/10/2摩尔比的胆固醇/D-Lin-DMA/DSPC/PEG-C-DMA配制D-Lin-DMA和PEG-C-DMA以及二硬脂酰基磷脂酰胆碱(DSPC)、胆固醇和siRNA来制备SNALP脂质体。所得的SNALP脂质体的尺寸可以是约80-100nm。SNALP可包含合成胆固醇(Sigma-Aldrich,St Louis,Mo.,USA)、二棕榈酰磷脂酰胆碱(Avanti Polar Lipids,Alabaster,Ala.,USA)、3-N-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。SNALP可包含合成胆固醇(Sigma-Aldrich)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC;Avanti Polar Lipids Inc.)、PEG-cDMA和1,2-二亚油氧基-3-(N;N-二甲基)氨基丙烷(DLinDMA)。
其他阳离子脂质,诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环(DLin-KC2-DMA)可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。可考虑具有以下脂质组成的预成形的囊泡:摩尔比分别为40/10/40/10的并且FVII siRNA/总脂质比为大约0.05(w/w)的氨基脂质、二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和(R)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000)丙基氨基甲酸酯(PEG-脂质)。为了确保在70-90nm范围内的窄粒径分布和0.11.+-.0.04(n=56)的低多分散指数,可在添加指导RNA之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒,其中四种脂质组分16、DSPC、胆固醇和PEG-脂质的摩尔比(50/10/38.5/1.5)可进一步优化以增强体内活性。
脂质可用本公开的CasX系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒(LNP)。合适的脂质包括但不限于DLin-KC2-DMA4、C12-200和糖脂,二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG可用本公开的CasX系统或其组分使用自发的囊泡形成过程配制。组分摩尔比可以是约50/10/38.5/1.5(DLin-KC2-DMA或C12-200/二硬脂酰磷脂酰胆碱/胆固醇/PEG-DMG)。
本公开的CasX系统或其组分可包封在PLGA微球中递送,所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。
超电荷蛋白可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质,其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使物质与这些蛋白质(诸如质粒DNA、RNA或其他蛋白质)缔合可促进这些大分子在体外和体内向哺乳动物细胞的功能性递送。
细胞穿透肽(CPP)可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞。CPP通常具有以下氨基酸组成,其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸),或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。
可植入装置可用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸(例如,CasX指导RNA、编码CasX指导RNA的核酸、编码CasX多肽的核酸、供体模板等)或本公开的CasX系统递送到靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的CasX多肽、本公开的CasX融合多肽、本公开的RNP、本公开的核酸或本公开的CasX系统递送到靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)的可植入装置可包括容器(例如,储库、基质等),其包含CasX多肽、CasX融合多肽、RNP或CasX系统(或其组分,例如,本公开的核酸)。
合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质),并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物),以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放,其中待递送的多肽和/或核酸直接释放至靶位点,例如细胞外基质(ECM)、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送到腔(诸如腹腔)和/或其中药物递送系统未锚定或附接的任何其他类型的施用的装置,所述装置包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基底,其可以例如任选地是基质。在一些情况下,合适的可植入药物递送装置包含可降解聚合物,其中主要释放机制是整体侵蚀。在一些情况下,合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物,其中主要释放机制是扩散而不是整体侵蚀,使得外部部分起到膜的功能并且其内部部分用作药物储库,实际上,所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内,浓度梯度可保持有效恒定,并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值,但其仍然任选地以初始突发为特征和/或可波动,例如增加和降低到某一程度。扩散速率可长时间这样维持,并且可认为扩散速率恒定到某一水平以优化治疗有效期,例如有效的沉默期。
在一些情况下,可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解,无论是化学性质还是由于受试者体内酶和其他因素的攻击的降解。
可选择装置的植入位点或靶位点,用于获得最大的治疗功效。例如,递送装置可植入在肿瘤环境内或附近,或者与肿瘤相关联的血液供给内或附近。靶位置可以是,例如:1)大脑退化位点,像在基底神经节、白质和灰质处的帕金森病或阿尔茨海默病中;2)脊柱,如在肌萎缩侧索硬化症(ALS)的情况下;3)子宫颈;4)活动性和慢性炎症关节;5)真皮,如在牛皮癣的情况下;7)交感神经和感觉神经位点,用于镇痛作用;7)骨;8)急性或慢性感染位点;9)阴道内;10)内耳-听觉系统、内耳迷路、前庭系统;11)气管内;12)心内;冠状动脉、心外膜;13)泌尿道或膀胱;14)胆系统;15)实质组织,包括但不限于肾、肝、脾;16)淋巴结;17)唾液腺;18)牙龈;19)关节内(到关节中);20)眼内;21)脑组织;22)脑室;23)腔,包括腹腔(例如但不限于卵巢癌);24)食管内;和25)直肠内;和26)到脉管系统中。
插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样,任选地无需修改,或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于短距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。
修饰的宿主细胞
本公开提供一种修饰的细胞,其包含本公开的CasX多肽和/或包含编码本公开的CasX多肽的核苷酸序列的核酸。本公开提供一种修饰的细胞,其包含本公开的CasX多肽,其中所述修饰的细胞是通常不包含本公开的CasX多肽的细胞。本公开提供一种修饰的细胞(例如,遗传修饰的细胞),其包含核酸,所述核酸包含编码本公开的CasX多肽的核苷酸序列。本公开提供一种用mRNA遗传修饰的遗传修饰细胞,所述mRNA包含编码本公开的CasX多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰细胞,所述重组表达载体包含编码本公开的CasX多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰细胞,所述重组表达载体包含:a)编码本公开的CasX多肽的核苷酸序列;和b)编码本公开的CasX指导RNA的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰细胞,所述重组表达载体包含:a)编码本公开的CasX多肽的核苷酸序列;b)编码本公开的CasX指导RNA的核苷酸序列;和c)编码供体模板的核苷酸序列。
用作本公开的CasX多肽和/或包含编码本公开的CasX多肽和/或本公开的CasX指导RNA的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种,其包括例如体外细胞;体内细胞;离体细胞;原代细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞等。用作本公开的CasX多肽和/或包含编码本公开的CasX多肽和/或本公开的CasX指导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的CasX系统的受体。宿主细胞或靶细胞可以是本公开的CasX RNP的受体。宿主细胞或靶细胞可以是本公开的CasX系统的单一组分的受体。
细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞,来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人类;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不来源于天然生物体的细胞(例如,细胞可以是合成的细胞;也称为人造细胞)。
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节T细胞(Treg)。
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
感兴趣的干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人类;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
干细胞可表达一种或多种干细胞标记,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。
在一些实施方案中,干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
在其他实施方案中,干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或者可以是成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。
在其他实施方案中,干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的;并且可使用任何已知的方法来获得MSC。参见例如,美国专利号5,736,396,其描述了人类MSC的分离。
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrowroot)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalemartichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(Chelicerata)、多足亚门(Myriapodia)、Hexipodia、蛛形纲(Arachnida)、昆虫纲(Insecta)、石蛃目(Archaeognatha)、缨尾目(Thysanura)、古翅下纲(Palaeoptera)、蜉蝣目(Ephemeroptera)、蜻蜓目(Odonata)、差翅亚目(Anisoptera)、束翅亚目(Zygoptera)、新翅亚纲(Neoptera)、外翅总目(Exopterygota)、襀翅目(Plecoptera)、纺足目(Embioptera)、直翅目(Orthoptera)、缺翅目(Zoraptera)、革翅目(Dermaptera)、网翅目(Dictyoptera)、蛩蠊目(Notoptera)、蛩蠊科(Grylloblattidae)、螳科(Mantophasmatidae)、竹节虫目(Phasmatodea)、蜚蠊目(Blattaria)、等翅目(Isoptera)、螳螂目(Mantodea)、Parapneuroptera、啮虫目(Psocoptera)、缨翅目(Thysanoptera)、虱毛目(Phthiraptera)、半翅目(Hemiptera)、内翅类(Endopterygota)或全变态类(Holometabola)、膜翅目(Hymenoptera)、鞘翅目(Coleoptera)、捻翅目(Strepsiptera)、蛇蛉目(Raphidioptera)、广翅目(Megaloptera)、脉翅目(Neuroptera)、长翅目(Mecoptera)、蚤目(Siphonaptera)、双翅目(Diptera)、毛翅目(Trichoptera)或鳞翅目(Lepidoptera)。
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
试剂盒
本公开提供一种试剂盒,其包含本公开的CasX系统或本公开的CasX系统的组分。
本公开的试剂盒可包含:a)本公开的CasX多肽和CasX指导RNA;b)本公开的CasX多肽、CasX指导RNA和供体模板核酸;c)本公开的CasX融合多肽和CasX指导RNA;d)本公开的CasX融合多肽、CasX指导RNA和供体模板核酸;e)编码本公开的CasX多肽的mRNA和CasX指导RNA;f)编码本公开的CasX多肽的mRNA、CasX指导RNA和供体模板核酸;g)编码本公开的CasX融合多肽的mRNA和CasX指导RNA;h)编码本公开的CasX融合多肽的mRNA、CasX指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列和编码CasX指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码CasX指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasX多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasX融合多肽的核苷酸序列的第一重组表达载体和包含编码CasX指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasX多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasX融合多肽的核苷酸序列、编码第一CasX指导RNA的核苷酸序列和编码第二CasX指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。
本公开的试剂盒可包含:a)如上所述的本公开的CasX系统的组分,或者可包含本公开的CasX系统;和b)一种或多种另外的试剂,例如,i)缓冲液;ii)蛋白酶抑制剂;iii)核酸酶抑制剂;iv)开发或可视化可检测标签所需的试剂;v)阳性和/或阴性对照靶DNA;vi)阳性和/或阴性对照CasX指导RNA等。本公开的试剂盒可包含:a)如上所述的本公开的CasX系统的组分,或者可包含本公开的CasX系统;和b)治疗剂。
本公开的试剂盒可包含重组表达载体,其包含:a)用于插入核酸的插入位点,所述核酸包含编码CasX指导RNA的一部分的核苷酸序列,所述CasX指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;和b)编码CasX指导RNA的CasX结合部分的核苷酸序列。本公开的试剂盒可包含重组表达载体,其包含:a)用于插入核酸的插入位点,所述核酸包含编码CasX指导RNA的一部分的核苷酸序列,所述CasX指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;b)编码CasX指导RNA的CasX结合部分的核苷酸序列;和c)编码本公开的CasX多肽的核苷酸序列。
实用性
本公开的CasX多肽或本公开的CasX融合多肽可用于多种方法(例如,与CasX指导RNA组合,并且在一些情况下还与供体模板组合)。例如,本公开的CasX多肽可用于(i)修饰(例如切割,例如切口;甲基化等)靶核酸(DNA或RNA;单链或双链);(ii)调节靶核酸的转录;(iii)标记靶核酸;(iv)结合靶核酸(例如,用于分离、标记、成像、追踪等的目的);(v)修饰与靶核酸相关联的多肽(例如,组蛋白)等。因此,本公开提供一种修饰靶核酸的方法。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的CasX多肽;和b)一种或多种(例如,两种)CasX指导RNA。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的CasX多肽;b)CasX指导RNA;和c)供体核酸(例如,供体模板)。在一些情况下,接触步骤在体外细胞中进行。在一些情况下,接触步骤在体内细胞中进行。在一些情况下,接触步骤在离体细胞中进行。
因为使用CasX多肽的方法包括将CasX多肽与靶核酸中的特定区域结合(通过相关联的CasX指导RNA靶向靶核酸中的特定区域),所述方法在本文中通常称为结合方法(例如,结合靶核酸的方法)。然而,应理解在一些情况下,虽然结合方法可能无非是导致靶核酸的结合,但在其他情况下,所述方法可具有不同的最终结果(例如,所述方法可导致靶核酸的修饰(例如切割/甲基化等),靶核酸转录的调节;靶核酸翻译的调节;基因组编辑;与靶核酸相关联的蛋白质的调节;靶核酸的分离等)。
对于合适的方法的实例,参见例如,Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNA Biol.2013年5月;10(5):726-37;Ma等人,Biomed ResInt.2013;2013:270805;Hou等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic AcidsRes.2013年11月1日;41(20):e19;Cheng等人,Cell Res.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,Nat Methods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,Cell Res.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,NatMethods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;以及美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利各自均特此以引用的方式整体并入。
例如,本公开提供(但不限于)切割靶核酸的方法;编辑靶核酸的方法;调节靶核酸转录的方法;分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。
如本文所用,术语/短语“使靶核酸,例如,与CasX多肽或与CasX融合多肽等接触”,涵盖用于接触靶核酸的所有方法。例如,可将CasX多肽作为蛋白质、RNA(编码CasX多肽)或DNA(编码CasX多肽)提供给细胞;而CasX指导RNA可作为指导RNA或编码指导RNA的核酸提供。因此,当例如在细胞中(例如,在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时,包括接触靶核酸的方法涵盖将处于其活性/最终状态(例如,呈CasX多肽的一种或多种蛋白质形式;呈CasX融合多肽的蛋白质形式;在一些情况下呈指导RNA的RNA形式)的任何或所有组分引入细胞中,并且还涵盖将编码一种或多种组分的一种或多种核酸(例如,一种或多种包含编码CasX多肽或CasX融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导RNA的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外细胞外部执行,所以包括接触靶核酸的方法(除非另外指明)涵盖在体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部接触等。
在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasX多肽或本公开的CasX融合多肽接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CasX多肽和CasX指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CasX多肽、第一CasX指导RNA和第二CasX指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasX多肽和CasX指导RNA和供体DNA模板接触。
感兴趣的靶核酸和靶细胞
当与CasX指导RNA结合时,本公开的CasX多肽或本公开的CasX融合多肽可结合靶核酸,并且在一些情况下,可结合并修饰靶核酸。靶核酸可以是任何核酸(例如,DNA、RNA),可以是双链或单链的,可以是任何类型的核酸(例如,染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如,只要CasX指导RNA包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可)。
靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如,dsDNA、dsRNA)或单链的(例如,ssRNA、ssDNA)。在一些情况下,靶核酸是单链的。在一些情况下,靶核酸是单链RNA(ssRNA)。在一些情况下,靶ssRNA(例如,靶细胞ssRNA、病毒ssRNA等)选自:mRNA、rRNA、tRNA、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和微小RNA(miRNA)。在一些情况下,靶核酸是单链DNA(ssDNA)(例如,病毒DNA)。如上所指出,在一些情况下,靶核酸是单链的。
靶核酸可位于任何地方,例如,体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸,诸如基因组DNA)包括但不限于:细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;昆虫(例如,蚊子;蜜蜂;农业害虫等)的细胞;蛛形纲动物(例如,蜘蛛;蜱等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞(例如,来自啮齿动物的细胞;来自人类的细胞;非人哺乳动物的细胞;啮齿动物(例如,小鼠、大鼠)的细胞;兔形目动物(例如,兔)的细胞;有蹄类动物(例如,牛、马、骆驼、美洲驼、骆马绵羊、山羊等)的细胞;海洋哺乳动物(例如,鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞、例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如,成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞(例如,1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。
细胞可来自已建立的细胞系或它们可以是原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即,分裂)的细胞和细胞培养物。例如,原代培养物是可传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常,原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞为原代细胞,它们可通过任何方便方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织(诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。
在上述申请的一些中,主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如,用于可视化,用于采集和/或分析等)(例如,以破坏由靶向mRNA编码的蛋白质的产生,以切割或以其他方式修饰靶DNA,以遗传修饰靶细胞等)。因为指导RNA通过与靶核酸杂交来提供特异性,所以所公开的方法中感兴趣的有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人类的细胞等)。在一些情况下,可将主题CasX蛋白(和/或编码蛋白质的核酸,诸如DNA和/或RNA)和/或CasX指导RNA(和/或编码指导RNA的DNA)和/或供体模板和/或RNP引入个体(即,靶细胞可在体内)(例如,哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人类)中。在一些情况下,这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。
植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞,诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞,例如产生杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。
靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞,来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人类;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不来源于天然生物体的细胞(例如,细胞可以是合成的细胞;也称为人造细胞)。
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节T细胞(Treg)。
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
感兴趣的干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人类;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
干细胞可表达一种或多种干细胞标记,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。
在一些实施方案中,干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
在其他实施方案中,干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或者可以是成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。
在其他实施方案中,干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的;并且可使用任何已知的方法来获得MSC。参见例如,美国专利号5,736,396,其描述了人类MSC的分离。
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrowroot)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalemartichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门、多足亚门、Hexipodia、蛛形纲、昆虫纲、石蛃目、缨尾目、古翅下纲、蜉蝣目、蜻蜓目、差翅亚目、束翅亚目、新翅亚纲、外翅总目、襀翅目、纺足目、直翅目、缺翅目、革翅目、网翅目、蛩蠊目、蛩蠊科、螳科、竹节虫目、蜚蠊目、等翅目、螳螂目、Parapneuroptera、啮虫目、缨翅目、虱毛目、半翅目、内翅类或全变态类、膜翅目、鞘翅目、捻翅目、蛇蛉目、广翅目、脉翅目、长翅目、蚤目、双翅目、毛翅目或鳞翅目。
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
将组分引入靶细胞中
可通过多种熟知的方法中的任一种将Cas9指导RNA(或包含编码Cas9指导RNA的核苷酸序列的核酸)和/或Cas9融合多肽(或包含编码Cas9融合多肽的核苷酸序列的核酸)和/或供体多核苷酸引入宿主细胞中。
将核酸引入细胞中的方法是本领域中已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入靶细胞(例如,真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法在本文其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可使用已知方法(诸如核转染),将任何或所有组分作为组合物(例如,包括CasX多肽、CasX指导RNA、供体多核苷酸等的任何方便的组合)引入细胞中。
供体多核苷酸(供体模板)
在CasX双指导或单指导RNA的指导下,CasX蛋白在一些情况下在双链DNA(dsDNA)靶核酸内生成位点特异性双链断裂(DSB)或单链断裂(SSB)(例如,当CasX蛋白是切口酶变体时),其通过非同源末端连接(NHEJ)或同源定向重组(HDR)修复。
在一些情况下,接触靶DNA(与CasX蛋白和CasX指导RNA接触)在允许非同源末端连接或同源定向修复的条件下发生。因此,在一些情况下,主题方法包括使靶DNA与供体多核苷酸接触(例如,通过将供体多核苷酸引入细胞中),其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下,所述方法不包括使细胞与供体多核苷酸接触,并且修饰靶DNA使得靶DNA内的核苷酸缺失。
在一些情况下,CasX指导RNA(或编码CasX指导RNA的DNA)和CasX蛋白(或编码CasX蛋白的核酸,诸如RNA或DNA,例如,一种或多种表达载体)与供体多核苷酸序列共同施用(例如,与靶核酸接触、施用到细胞等),所述供体多核苷酸序列包括与靶DNA序列同源的至少一个区段,主题方法可用来将核酸物质添加(即插入或替代)到靶DNA序列(例如以“敲入”编码蛋白质、siRNA、miRNA的核酸等),添加标签(例如,6xHis、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)、血凝素(HA)、FLAG等),将调节序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等),修饰核酸序列(例如,引入突变、通过引入正确的序列去除致病突变)等。因此,包含CasX指导RNA和CasX蛋白的复合物可用于任何体外或体内应用中,在所述应用中希望以位点特异性(即“靶向的”)方式修饰DNA,例如基因敲除、基因敲入、基因编辑、基因标签等,例如,如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法,农业中遗传修饰的生物体的生产,出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产,iPS细胞诱导,生物研究,用于缺失或替代的病原体基因的靶向等中所使用的。
在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中,还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指在CasX蛋白切割的位点处插入的核酸序列(例如,在dsDNA切割之后、对靶DNA进行切口之后、对靶DNA进行双切口之后等)。供体多核苷酸可与靶位点处的基因组序列含有足够的同源性(例如与侧接靶位点的核苷酸序列,例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)或直接侧接靶位点的核苷酸序列,具有70%、80%、85%、90%、95%或100%同源性),以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25、50、100或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。
供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复即可(例如,用于基因校正,例如,以转化致病碱基对或非致病碱基对)。在一些实施方案中,供体序列包含侧接两个同源区域的非同源序列,以使得靶DNA区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与感兴趣的DNA区域同源并且不意图插入到感兴趣的DNA区域中的序列。通常,供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50%的序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。根据供体多核苷酸的长度,可存在1%与100%之间的任何值的序列同一性。
供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标记(例如,抗药基因、荧光蛋白、酶等)等,所述序列差异可用来评价供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如,表示靶向基因组基因座处的表达)。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不会改变氨基酸序列,或将产生沉默氨基酸变化(即,不影响蛋白质结构或功能的变化)。可替代地,这些序列差异可包括侧接重组序列,诸如FLP、loxP序列等,所述侧接重组序列可在去除标记序列之后的时间里激活。
在一些情况下,供体序列作为单链DNA提供给细胞。在一些情况下,供体序列作为双链DNA提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入,供体序列的末端可通过任何方便的方法来保护(例如,免受核酸外切降解),并且此类方法是本领域的技术人员已知的。例如,可将一个或多个双脱氧核苷酸残基添加到线性分子的3'端,并且/或者可将自身互补寡核苷酸连接到一个或两个末端。参见例如,Chang等人(1987)Proc.Natl.Acad Sci USA 84:4959-4963;Nehls等人(1996)Science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基和使用修饰的核苷酸间键,例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在同源区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中,所述载体分子具有另外的序列,例如像复制起点、启动子和编码抗生素耐药性的基因。此外,供体序列可作为裸核酸、作为与药剂(诸如脂质体或泊洛沙姆)复合的核酸引入,或者可通过病毒(例如,腺病毒AAV)来递送,如本文其他地方对于编码CasX指导RNA和/或CasX融合多肽和/或供体多核苷酸的核酸所述。
转基因非人生物体
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的CasX多肽的核苷酸序列的核酸;包含编码本公开的CasX融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体,其产生本公开的CasX多肽或CasX融合多肽。本公开提供一种转基因非人生物体,其包含编码本公开的CasX多肽或CasX融合多肽的核苷酸序列。
转基因非人动物
本公开提供一种转基因非人动物,所述动物包含转基因,其包含含有编码CasX多肽或CasX融合多肽的核苷酸序列的核酸。在一些实施方案中,转基因非人动物的基因组包含编码本公开的CasX多肽或CasX融合多肽的核苷酸序列。在一些情况下,转基因非人动物对于遗传修饰是纯合的。在一些情况下,转基因非人动物对于遗传修饰是杂合的。在一些实施方案中,转基因非人动物是脊椎动物,例如鱼类(例如,鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如,鸡、火鸡等)、爬行动物(例如,蛇、蜥蜴等)、非人哺乳动物(例如,有蹄类动物,例如猪、牛、山羊、绵羊等;兔形目动物(例如,兔);啮齿动物(例如,大鼠、小鼠);非人灵长类动物等)等。在一些情况下,转基因非人动物是无脊椎动物。在一些情况下,转基因非人动物是昆虫(例如,蚊子;农业害虫等)。在一些情况下,转基因非人动物是蛛形纲动物。
编码本公开的CasX多肽或CasX融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如,CMV启动子)、诱导型启动子(例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
转基因植物
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的CasX多肽的核苷酸序列的核酸;包含编码本公开的CasX融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因植物,其产生本公开的CasX多肽或CasX融合多肽。本公开提供一种转基因植物,其包含编码本公开的CasX多肽或CasX融合多肽的核苷酸序列。在一些实施方案中,转基因植物的基因组包含主题核酸。在一些实施方案中,转基因植物对于遗传修饰是纯合的。在一些实施方案中,转基因植物对于遗传修饰是杂合的。
将外源核酸引入植物细胞中的方法是本领域中熟知的。如上所定义,此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链DNA病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择通常根据待转化的细胞类型和在其下发生转化的环境(即体外、离体或体内)。
基于土壤细菌根瘤土壤杆菌(Agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(Agrobacterium)的野生型形式含有Ti(肿瘤诱导)质粒,其引导在宿主植物上生长的致瘤冠瘿的产生。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码毒力基因以及T-DNA边缘序列,所述T-DNA边缘序列是描绘待转移区域的一系列正向DNA重复序列。基于土壤杆菌属的载体是Ti质粒的修饰形式,其中肿瘤诱导功能被待引入植物宿主中的感兴趣的核酸序列替代。
土壤杆菌属介导的转化通常采用共合体载体或二元载体系统,其中Ti质粒的组分在辅助载体(所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被T-DNA序列限定的感兴趣的基因)之间分配。多种二元载体是本领域中熟知的并且是可例如从Clontech(Palo Alto,Calif.)商购获得的。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法也是本领域中熟知的。参见例如,Glick和Thompson(编),Methods in Plant MolecularBiology and Biotechnology,Boca Raton,Fla.:CRC Press(1993)。
微粒介导的转化还可用来产生主题转基因植物。首先由Klein等人(Nature 327:70-73(1987))描述的这种方法依赖于微粒,诸如金或钨,所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀涂覆有所需的核酸分子。微粒颗粒使用诸如BIOLISTIC PD-1000(Biorad;Hercules Calif.)的装置在高速下被加速到被子植物组织中。
可将本公开的核酸(例如,包含编码本公开的CasX多肽或CasX融合多肽的核苷酸序列的核酸(例如,重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体并且然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体,包括描述于Weissbach和Weissbach,(1989)Methods for Plant Molecular Biology Academic Press以及Gelvin等人,(1990)Plant Molecular Biology Manual,Kluwer Academic Publishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的Ti质粒的那些,以及由Herrera-Estrella等人(1983)Nature303:209、Bevan(1984)Nucl Acid Res.12:8711-8721、Klee(1985)Bio/Technolo 3:637-642公开的那些。可替代地,非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法,可产生转基因植物,诸如小麦、大米(Christou(1991)Bio/Technology 9:957-9和4462)和玉米(Gordon-Kamm(1990)Plant Cell 2:603-618)。未成熟胚也可以是通过使用粒子枪的直接DNA递送技术(Weeks等人(1993)Plant Physiol 102:1077-1084;Vasil(1993)Bio/Technolo 10:667-674;Wan和Lemeaux(1994)Plant Physiol104:37-48)和土壤杆菌属介导的DNA转移(Ishida等人(1996)Nature Biotech 14:745-750)的单子叶植物的良好靶组织。用于将DNA引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(Danieli等人Nat.Biotechnol 16:345-348,1998;Staub等人Nat.Biotechnol 18:333-338,2000;O’Neill等人Plant J.3:729-738,1993;Knoblauch等人Nat.Biotechnol 17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;国际申请号WO 95/16783;以及Boynton等人,Methods in Enzymology217:510-536(1993)、Svab等人,Proc.Natl.Acad.Sci.USA 90:913-917(1993)和McBride等人,Proc.Natl.Acad.Sci.USA 91:7301-7305(1994))。适用于生物弹轰击、原生质体聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。
可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈、林业植物以及葡萄藤。可修饰的植物的具体实例如下:玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆以及大米。
本公开提供转化的植物细胞,含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征为存在整合到基因组中的主题核酸和通过本公开的CasX多肽或CasX融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。
编码本公开的CasX多肽或CasX融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。
古细菌CAS9多肽和指导RNA
本发明人首次在古细胞中发现了II型CRISPR/Cas基因座。先前认为古细菌细胞仅包括I型和/或III型CRISPR/cas系统,但不包括II型系统,并且Cas9是II型CRISPR系统的特征蛋白。换言之,在本公开之前,本领域已经提出属于古细菌生物体不包括Cas9蛋白。提供方法和组合物,所述组合物包含古细菌Cas9蛋白(或编码Cas9蛋白的核酸)(例如,ARMAN-1Cas9蛋白、ARMAN-4 Cas9蛋白、其变体等)和/或古细菌Cas9指导RNA(双指导或单指导RNA形式)(或编码Cas9指导RNA的DNA,例如,一种或多种表达载体)和/或供体模板。
术语ARMAN是指“古细菌Richmond Mine嗜酸性纳米生物”,参见例如,Baker等人,Proc Natl Acad Sci U S A.2010年5月11日;107(19):8806–8811;Baker等人,Science.2006年12月22日;314(5807):1933-5。ARMAN-1也可称为“CandidatusMicrarchaeum acidiphilum ARMAN-1”;而ARMAN-4也可称为“Candidatus Parvarchaeumacidiphilum ARMAN-4”。ARMAN-2和ARMAN-5也已被鉴定,并且可称为“CandidatusMicrarchaeum acidiphilum ARMAN-2”,而ARMAN-5可称为“Candidatus Parvarchaeumacidiphilum ARMAN-5”。因此,术语“Candidatus Micrarchaeum acidiphilum”是包括至少Candidatus Micrarchaeum acidiphilum ARMAN-1和Candidatus Micrarchaeumacidiphilum ARMAN-2的通用术语,而术语“Candidatus Parvarchaeum acidiphilum”是包括至少Candidatus Parvarchaeum acidiphilum ARMAN-4和Candidatus Parvarchaeumacidiphilum ARMAN-5的通用术语。因此,提供方法和组合物,所述组合物包含古细菌Cas9蛋白(或编码Cas9蛋白的核酸)(例如,Candidatus Micrarchaeum acidiphilum Cas9蛋白、Candidatus Parvarchaeum acidiphilum Cas9蛋白、ARMAN-1 Cas9蛋白、ARMAN-4 Cas9蛋白、其变体等)和/或古细菌Cas9指导RNA(双指导或单指导RNA形式)(或编码Cas9指导RNA的DNA,例如,一种或多种表达载体)和/或供体模板。
在本文所述的实施方案的任一个中(例如,包括所有描述的组合物和方法,例如核酸、结合方法、成像方法、修饰方法、基因组编辑等),可使用古细菌Cas9蛋白(例如,ARMAN-1Cas9蛋白、ARMAN-4 Cas9蛋白等)代替CasX蛋白。换言之,古细菌Cas9蛋白(例如,ARMAN-1Cas9蛋白、ARMAN-4 Cas9蛋白等)可替代CasX蛋白。在此类情况下,适当时,应使用对应的指导RNA(古细菌Cas9指导RNA,例如,呈双指导或单指导形式)代替CasX指导RNA。古细菌Cas9蛋白和古细菌Cas9指导RNA的实例在图13(ARMAN-1和ARMAN-4 Cas9蛋白)、图14(ARMAN-1Cas9指导RNA)和图15(ARMAN-4 Cas9指导RNA)中示出。注意,古细菌Cas9指导RNA的指导序列相对于指导RNA的其余部分的方向(例如,相对于靶向因子的双链体形成区段)与CasX指导RNA相反(例如,将其中指导序列位于CasX指导RNA的3'末端的图6和图7的N,与其中指导序列位于古细菌Cas9指导RNA的5'末端的图14和图15的N相比);对于古细菌Cas9蛋白,PAM在靶dsDNA上的位置也与CasX蛋白是相反的(更多细节参见下文)。
古细菌Cas9蛋白
非古细菌Cas9蛋白(即,来自细菌但不是来自古细菌的Cas9蛋白)是本领域中已知的,并且主题古细菌Cas9蛋白具有相似的结构域结构。然而,古细菌Cas9蛋白的总体序列高度不同并且共享非常少的总体序列同源性。
天然存在的古细菌Cas9蛋白起内切核酸酶的作用,其在靶向双链DNA(dsDNA)中的特定序列处催化双链断裂。序列特异性由相关联的指导RNA提供,所述指导RNA与靶DNA内的靶序列杂交。天然存在的指导RNA包括与crRNA杂交的tracrRNA,其中crRNA包括与靶DNA中的靶序列杂交的指导序列。
在一些实施方案中,主题方法和/或组合物的古细菌Cas9蛋白是(或衍生自)天然存在的(野生型)蛋白质。天然存在的古细菌Cas9的实例描绘于图13中,并且如SEQ ID NO:71和72所示。重要的是要注意,与先前鉴定的CRISPR-Cas内切核酸酶相比,这种新发现的古细菌Cas9蛋白(例如,参见图13)较短(例如,它们是已知最小的Cas9蛋白之一),并且因此使用古细菌Cas9蛋白作为替代方案提供编码蛋白质的核苷酸序列相对较短的优点。例如,在其中需要编码CasX蛋白的核酸的情况下,例如在使用病毒载体(例如,AAV载体)的情况下,这可用于递送至诸如真核细胞的细胞(例如,哺乳动物细胞、人细胞、小鼠细胞、体外、离体、体内)用于研究和/或临床应用。
本发明人鉴定了另外两种Cas9蛋白(参见图16),它们是非古细菌Cas9蛋白,但是在系统发育树上与古细菌Cas9聚类,并且因此与古细菌Cas9序列相关(例如,图16的δ变形菌门Cas9作为RBG_变形菌门|RBG_16_δ变形菌门_42_7_整理|991aa出现在图12图d的树中;而图16的Lindowbacteria Cas9作为RIF2_CPR|RIFCSPLOWO2_12_完全_Lindowbacteria_62_27_整理|RIF2|1044aa出现在图12图d的树中)。图17中提供图16的序列与ARMAN-1 Cas9和ARMAN-4 Cas9的比对。
在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71(ARMAN-1)所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71(ARMAN-1)所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71(ARMAN-1)所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71(ARMAN-1)所示的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含SEQ ID NO:71所示的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)是Candidatus Micrarchaeum acidiphilum Cas9蛋白。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)是ARMAN-1 Cas9蛋白。
在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:72(ARMAN-4)所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:72(ARMAN-4)所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:72(ARMAN-4)所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:72(ARMAN-4)所示的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含SEQ ID NO:72所示的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)是Candidatus Parvarchaeum acidiphilum Cas9蛋白。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)是ARMAN-4 Cas9蛋白。
在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71和72(分别为ARMAN-1和ARMAN-4)中任一个所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71和72(分别为ARMAN-1和ARMAN-4)中任一个所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71和72(分别为ARMAN-1和ARMAN-4)中任一个所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含与SEQ ID NO:71和72(分别为ARMAN-1和ARMAN-4)中任一个所示的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)包含SEQ ID NO:71和72中任一个所示的氨基酸序列。在一些情况下,主题Cas9蛋白(例如,古细菌Cas9蛋白)是Candidatus Micrarchaeum acidiphilum Cas9蛋白(例如,ARMAN-1 Cas9蛋白)或Candidatus Parvarchaeum acidiphilum Cas9蛋白(例如,ARMAN-4 Cas9蛋白)。
在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135所示的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含SEQ ID NO:135所示的氨基酸序列。
在一些情况下,主题Cas9蛋白包含与SEQ ID NO:136所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:136所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:136所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:136所示的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含SEQ ID NO:136所示的氨基酸序列。
在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135和136中任一个所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135和136中任一个所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135和136中任一个所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:135和136中任一个的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含SEQ ID NO:135和136中任一个所示的氨基酸序列。
在一些情况下,主题Cas9蛋白包含与SEQ ID NO:71、72、135和136中任一个所示的氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:71、72、135和136中任一个所示的氨基酸序列具有70%或更高的序列同一性(例如,80%或更高、90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:71、72、135和136中任一个所示的氨基酸序列具有80%或更高的序列同一性(例如,90%或更高、95%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含与SEQ ID NO:71、72、135和136中任一个的氨基酸序列具有95%或更高的序列同一性(例如,98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,主题Cas9蛋白包含SEQ ID NO:71、72、135和136中任一个所示的氨基酸序列。
变体(包括切口酶、dCas9和嵌合Cas9蛋白)
关于可用的变体(例如,古细菌Cas9蛋白与CasX蛋白的交换、两种新鉴定的非古细菌Cas9蛋白中的任一种与CasX蛋白的交换等),请参阅CasX蛋白的变体部分的命名和使用。主题Cas9蛋白(例如,古细菌Cas9蛋白)的任何上述参数可在ARMAN-1 Cas9蛋白、ARMAN-4Cas9蛋白、Candidatus Micrarchaeum acidiphilum Cas9蛋白、Candidatus Parvarchaeumacidiphilum Cas9蛋白等中交换(例如,包括上述%同一性参数)。
Cas9蛋白(例如,古细菌Cas9蛋白)的催化残基很容易识别,尽管与非古细菌Cas9蛋白的总体序列同一性极低。例如,SEQ ID NO:71(ARMAN-1)所示的古细菌Cas9的D30(RuvC结构域)和H506(HNH结构域)分别对应于酿脓链球菌Cas9的D10和H840;而SEQ ID NO:72(ARMAN-4)所示的古细菌Cas9的D58(RuvC结构域)和H514(HNH结构域)分别对应于酿脓链球菌Cas9的D10和H840。这些残基在图13中以粗体和下划线示出。
通过去除RuvC结构域(例如,通过对ARMAN-1 Cas9的D30;ARMAN-4 Cas9蛋白的D58进行突变)或HNH结构域(例如,通过对ARMAN-1 Cas9的H506;ARMAN-4 Cas9蛋白的H514进行突变)的催化活性(例如,通过对催化残基进行突变),可生成Cas9切口酶(例如,古细菌Cas9切口酶)(例如,每个结构域切割靶双链DNA的一条链)。通过去除RuvC结构域和HNH结构域二者的催化活性(例如,通过对催化残基进行突变),可生成死亡型式的Cas9蛋白(例如,古细菌Cas9蛋白)(例如,dCas9、古细菌dCas9)。
可使用所有相同的融合蛋白,除了可将古细菌Cas9(或新鉴定的非古细菌Cas9之一)换成CasX。非限制性实例包括:具有一个或多个NLS的古细菌Cas9或dCas9或切口酶Cas9,具有拥有催化活性和/或转录阻遏或激活活性(例如,以修饰靶DNA、修饰蛋白质(诸如与靶DNA相关联的组蛋白)、调节从靶DNA的转录等)的融合配偶体的古细菌Cas9或dCas9或切口酶Cas9、具有可检测标签的古细菌Cas9或dCas9或切口酶Cas9等。可用于古细菌Cas9的融合配偶体的列表与可用于CasX蛋白的列表相同(在本文中更详细地讨论)。
古细菌Cas9蛋白的原间隔序列相邻基序(PAM)
古细菌Cas9蛋白的PAM直接位于靶DNA的非互补链的靶序列的3'端(互补链与指导RNA的指导序列杂交,而非互补链不直接与指导RNA杂交并且是非互补链的反向互补物)。因此,与CasX蛋白的PAM相比,古细菌Cas9蛋白的PAM位于靶序列的相对侧(例如,参见图6图c和图7,其示出CasX蛋白的PAM的5'方向)。在一些实施方案中(例如,当使用如本文所述的古细菌Cas9蛋白时),非互补链的PAM序列为5’-NGG-3’,其中N是任何DNA核苷酸。
在一些情况下,不同的古细菌Cas9蛋白(即,来自各种古细菌物种的古细菌Cas9蛋白,其中PAM偏好已改变的古细菌Cas9蛋白的变体)可有利地用于各种所提供的方法中以便利用不同古细菌Cas9蛋白的各种酶特征(例如,用于不同PAM序列偏好;用于增加的或降低的酶活性;用于增加的或降低的细胞毒性水平;用于改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡;利用短的总序列等)。来自不同物种的古细菌Cas9蛋白(或其变体)可能优选靶DNA中的不同PAM序列。因此,对于所选择的具体古细菌Cas9蛋白,PAM序列偏好可与以上所述的5’-NGG-3’序列不同。用于鉴定适当的PAM序列的各种方法(包括计算机模拟方法和/或湿实验室方法)是本领域已知且常规的,并且可使用任何方便的方法。使用计算机模拟序列分析技术鉴定本文所述的NGG PAM序列(例如,参见下文工作实例的图12图b)。
古细菌Cas9指导RNA
非古细菌Cas9指导RNA(即,来自细菌但不是来自古细菌的Cas9指导RNA)是本领域中已知的,并且主题古细菌Cas9指导RNA具有与非古细菌Cas9指导RNA相似的结构。注意,对于古细菌Cas9指导RNA,指导序列位于靶向因子RNA双链体形成区段的5'端,而它位于CasX指导RNA中的双链体形成区段的3'端(例如,将描绘示例性古细菌Cas9指导RNA的图14和图15,与描绘示例性CasX指导RNA的图6图c和图7相比)。
在一些情况下,古细菌Cas9指导RNA(dgRNA或sgRNA)的激活因子(例如,tracr序列)包含(i)双链体形成区段,其有助于蛋白质结合区段的dsRNA双链体;(ii)双链体形成区段的3'端的一段核苷酸(例如,在本文中称为3'尾)。在一些情况下,双链体形成区段的3'端的另外的核苷酸形成一个或多个茎环(例如,2个或更多个、3个或更多个、1个、2个或3个)。在一些情况下,古细菌Cas9指导RNA(dgRNA或sgRNA)的激活因子(例如,tracr序列)包含(i)双链体形成区段,其有助于蛋白质结合区段的dsRNA双链体;和(ii)双链体形成区段的3'端的5个或更多个核苷酸(例如,6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个、45个或更多个、50个或更多个、60个或更多个、70个或更多个或者75个或更多个核苷酸)。在一些情况下,古细菌Cas9指导RNA(dgRNA或sgRNA)的激活因子(激活因子RNA)包含(i)双链体形成区段,其有助于蛋白质结合区段的dsRNA双链体;和(ii)双链体形成区段的3'端的5个或更多个核苷酸(例如,6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个、45个或更多个、50个或更多个、60个或更多个、70个或更多个或者75个或更多个核苷酸)。
在一些情况下,古细菌Cas9指导RNA(dgRNA或sgRNA)的激活因子(例如,tracr序列)包含(i)双链体形成区段,其有助于蛋白质结合区段的dsRNA双链体;(ii)双链体形成区段的3'端的一段核苷酸(例如,在本文中称为3'尾)。在一些情况下,双链体形成区段的3'端的所述核苷酸段具有在5至200个核苷酸(nt)(例如,5至150个nt、5至130个nt、5至120个nt、5至100个nt、5至80个nt、10至200个nt、10至150个nt、10至130个nt、10至120个nt、10至100个nt、10至80个nt、12至200个nt、12至150个nt、12至130个nt、12至120个nt、12至100个nt、12至80个nt、15至200个nt、15至150个nt、15至130个nt、15至120个nt、15至100个nt、15至80个nt、20至200个nt、20至150个nt、20至130个nt、20至120个nt、20至100个nt、20至80个nt、30至200个nt、30至150个nt、30至130个nt、30至120个nt、30至100个nt或者30至80个nt)范围内的长度。在一些情况下,激活因子RNA的3'尾的核苷酸是野生型序列。
尽管可使用许多不同的替代序列,但是示例性古细菌Cas9指导RNA序列可包括SEQID NO:75-76(示例性crRNA序列减去指导序列)、77-78(例如,tracrRNA序列)和81-82(示例性单指导RNA序列减去指导序列)所示序列中的一个或多个。
在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体区域(即,激活因子/靶向因子dsRNA双链体)(例如,呈双指导或单指导RNA形式)包含8-25个碱基对(bp)的范围(例如,8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如15个bp、16个bp、17个bp、18个bp、19个bp、20个bp、21个bp等)。在一些情况下,双链体区域(例如,呈双指导或单指导RNA形式)包含8个或更多个bp(例如,10个或更多个、12个或更多个、15个或更多个或者17个或更多个bp)。在一些情况下,并非双链体区域的所有核苷酸都是成对的,并且因此双链体形成区域可包含凸起(例如,参见图6图c和图7)。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),其对双链双链体没有贡献,但是被有贡献的核苷酸围绕5'端和3'端,并且因此凸起被认为是双链体区域的一部分。在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含1个或多个凸起(例如,2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些情况下,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
因此,在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)。在一些情况下,激活因子和靶向因子的双链体形成区段彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)。
换言之,在一些实施方案中,在激活因子与靶向因子之间形成的dsRNA双链体(即,激活因子/靶向因子dsRNA双链体)包含彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,激活因子/靶向因子dsRNA双链体包含彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,激活因子/靶向因子dsRNA双链体包含彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)的两段核苷酸。
主题古细菌Cas9指导RNA(呈双指导或单指导RNA形式)的双链体区域可包含相对于天然存在的双链体区域的一个或多个(1个、2个、3个、4个、5个等)突变。例如,在一些情况下,可维持碱基对,同时对每个区段(靶向因子和激活因子)的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与(天然存在的古细菌Cas9指导RNA的)天然存在的双链体区域相比,主题古细菌Cas9指导RNA的双链体区域包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或其任何方便的组合。
古细菌Cas9指导RNA的示例性序列
在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含crRNA序列CUUACAAUCGACACUUAAAUAAUUUGCAUGUGUAAG(SEQ ID NO:75)(例如,参见图6图c的sgRNA)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与crRNA序列CUUACAAUCGACACUUAAAUAAUUUGCAUGUGUAAG(SEQ ID NO:75)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含crRNA序列CUUACAAUCGACACUUAAAUAAUUUGCAUGUGUAAG(SEQ ID NO:75)。
在一些情况下,靶向因子RNA包含crRNA序列CUUUCAAUAAACAAAUAAAUCUUAGUAAUAUGUAAC(SEQ ID NO:76)。在一些情况下,靶向因子RNA包含与crRNA序列CUUUCAAUAAACAAAUAAAUCUUAGUAAUAUGUAAC(SEQ ID NO:76)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含crRNA序列CUUUCAAUAAACAAAUAAAUCUUAGUAAUAUGUAAC(SEQ ID NO:76)。
在一些情况下,靶向因子RNA包含SEQ ID NO:75-76中任一个所示的crRNA序列。在一些情况下,靶向因子RNA包含与SEQ ID NO:75-76中任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列GGCAUGGACCAUAUCCAGGUGUUGAUUGUAAACACCUAGCGGGGAAAUUAUAUAUGUUUGUAAUAUCUUCACUAUCCAAAGUUAUCUCUGGUUUUGGUUUGGUAAGCUUCACUUCACUAUUGUUUUCACUCCCAAUUUGAGUAUGGUUGGGGGUAAGGAUGCUUUCGGGGAGUGCUUUUA(SEQ ID NO:77)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列GGCAUGGACCAUAUCCAGGUGUUGAUUGUAAACACCUAGCGGGGAAAUUAUAUAUGUUUGUAAUAUCUUCACUAUCCAAAGUUAUCUCUGGUUUUGGUUUGGUAAGCUUCACUUCACUAUUGUUUUCACUCCCAAUUUGAGUAUGGUUGGGGGUAAGGAUGCUUUCGGGGAGUGCUUUUA(SEQ IDNO:77)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含tracrRNA序列AACUGGCUAUUGCUAAUAUUAUUUGUUUAUUGAAAGAAGCCUAGACGUUAGGGUUCGCGUGCAUGUAGGCUCCAGCAGGUACCUC(SEQ ID NO:78)。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与tracrRNA序列AACUGGCUAUUGCUAAUAUUAUUUGUUUAUUGAAAGAAGCCUAGACGUUAGGGUUCGCGUGCAUGUAGGCUCCAGCAGGUACCUC(SEQ ID NO:78)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,激活因子RNA(例如,呈双指导或单指导RNA形式)包含SEQ ID NO:77-78中任一个所示的tracrRNA序列。在一些情况下,靶向因子RNA(例如,呈双指导或单指导RNA形式)包含与SEQ ID NO:77-78中任一个所示的tracrRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,古细菌Cas9单指导RNA包含序列CUUACAAUCGACACUUaaacAGGUGUUGAUUGUAAACACCUAGCGGGGAAAUUAUAUAUGUUUGUAAUAUCUUCACUAUCCAAAGUUAUCUCUGGUUUUGGUUUGGUAAGCUUCACUUCACUAUUGUUUUCACUCCCAAUUUGAGUAUGGUUGGGGGUAAGGAUGCUUUCGGGGAGUGCUUUUA(SEQ ID NO:81)。在一些情况下,靶向因子RNA包含与tracrRNA序列CUUACAAUCGACACUUaaacAGGUGUUGAUUGUAAACACCUAGCGGGGAAAUUAUAUAUGUUUGUAAUAUCUUCACUAUCCAAAGUUAUCUCUGGUUUUGGUUUGGUAAGCUUCACUUCACUAUUGUUUUCACUCCCAAUUUGAGUAUGGUUGGGGGUAAGGAUGCUUUCGGGGAGUGCUUUUA(SEQ ID NO:81)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,古细菌Cas9单指导RNA包含序列CUUUCAAUAAACAAAUAAaaacUUAUUUGUUUAUUGAAAGAAGCCUAGACGUUAGGGUUCGCGUGCAUGUAGGCUCCAGCAGGUACCUC(SEQ ID NO:82)。在一些情况下,靶向因子RNA包含与tracrRNA序列CUUUCAAUAAACAAAUAAaaacUUAUUUGUUUAUUGAAAGAAGCCUAGACGUUAGGGUUCGCGUGCAUGUAGGCUCCAGCAGGUACCUC(SEQ ID NO:82)具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
在一些情况下,古细菌Cas9单指导RNA包含SEQ ID NO:81-82中任一个所示的序列。在一些情况下,靶向因子RNA包含与SEQ ID NO:81-82中任一个所示的tracrRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的同一性)的核苷酸序列。
古细菌Cas9指导RNA的指导序列
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。
在一些情况下,指导序列具有在17-30个核苷酸(nt)(例如,17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有在17-25个核苷酸(nt)(例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有17或更多个nt(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;17个nt、18个nt、19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有17个nt的长度。在一些情况下,指导序列具有18个nt的长度。在一些情况下,指导序列具有19个nt的长度。在一些情况下,指导序列具有20个nt的长度。在一些情况下,指导序列具有21个nt的长度。在一些情况下,指导序列具有22个nt的长度。在一些情况下,指导序列具有23个nt的长度。
各种Cas蛋白和Cas9指导RNA(即使是非古细菌Cas9蛋白和指导RNA)的实例可在本领域中找到,并且在一些情况下,也可将与引入非古细菌Cas9蛋白和指导RNA中的那些相似的变型(包括例如Cas9的高保真型式)引入本公开的古细菌Cas9蛋白和指导RNA中。例如,为了生成高保真Cas9,也可将可引入先前已知的Cas9蛋白中的突变出于相同或相似的目的引入古细菌Cas9蛋白中(例如,可进行序列和/或结构比对以确定在主题古细菌Cas9蛋白中突变的适当的氨基酸-例如不是古菌Cas9蛋白的酿脓链球菌Cas9蛋白的氨基酸N497、R661、Q695和Q926)(例如,参见Kleinstiver等人(2016)Nature 529:490)。例如参见Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNA Biol.2013年5月;10(5):726-37;Ma等人,Biomed Res Int.2013;2013:270805;Hou等人,Proc Natl Acad SciU S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic Acids Res.2013年11月1日;41(20):e19;Cheng等人,CellRes.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,NatMethods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,Cell Res.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,Nat Methods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U SA.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;Briner等人,Mol Cell.2014年10月23日;56(2):333-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。
本公开的非限制性方面的实例
上文所述的本发明主题的方面(包括实施方案)可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下,本公开的某些非限制性方面(A组-与CasX相关)编号为1-131;并且下文提供编号为1-133的(B组-与古细菌Cas9相关)。对本领域技术人员在阅读本公开后将显而易见的是,每个单独编号的方面都可与之前或以下单独编号的方面中的任一个一起使用或组合使用。这意图为所有此类方面的组合提供支持,并且不限于下文明确提供的方面的组合:
A组
与CasX相关
1.一种组合物,其包含:
a)CasX多肽或编码所述CasX多肽的核酸分子;以及
b)CasX指导RNA或一种或多种编码所述CasX指导RNA的DNA分子。
2.如1所述的组合物,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQID NO:3所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
3.如1或2所述的组合物,其中所述CasX指导RNA是单指导RNA。
4.如1或2所述的组合物,其中所述CasX指导RNA是双指导RNA。
5.如1-4中任一项所述的组合物,其中所述组合物包含脂质。
6.如1-4中任一项所述的组合物,其中a)和b)在脂质体内。
7.如1-4中任一项所述的组合物,其中a)和b)在颗粒内。
8.如1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。
9.如1-8中任一项所述的组合物,其中所述CasX多肽包含与SEQ ID NO:1或SEQ IDNO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
10.如1-9中任一项所述的组合物,其中所述CasX多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
11.如1-9中任一项所述的组合物,其中所述CasX多肽是无催化活性的CasX多肽(dCasX)。
12.如10或11所述的组合物,其中所述CasX多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
13.如1-12中任一项所述的组合物,其还包含DNA供体模板。
14.一种CasX单指导RNA分子,其包含:
a)靶向因子序列,其包含与靶核酸杂交的指导序列和双链体形成区段;以及
b)激活因子序列,其与所述靶向因子序列的所述双链体形成区段杂交,以形成可结合CasX多肽的双链RNA(dsRNA)双链体。
15.如14所述的CasX单指导RNA分子,其中所述指导序列具有19至30个核苷酸的长度。
16.一种DNA分子,其包含编码如14或15所述的CasX单指导RNA分子的核苷酸序列。
17.如16所述的DNA分子,其中编码所述CasX单指导RNA的所述核苷酸序列可操作地连接到启动子。
18.如17所述的DNA分子,其中所述启动子在真核细胞中是功能性的。
19.如18所述的DNA分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
20.如17-19中任一项所述的DNA分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
21.如16-20中任一项所述的DNA分子,其中所述DNA分子是重组表达载体。
22.如21所述的DNA分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
23.如17所述的DNA分子,其中所述启动子在原核细胞中是功能性的。
24.一种CasX融合多肽,其包含:与异源多肽融合的CasX多肽。
25.如24所述的CasX融合多肽,其中所述CasX多肽包含与SEQ ID NO:1或SEQ IDNO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
26.如24所述的CasX融合多肽,其中所述CasX多肽包含与SEQ ID NO:1或SEQ IDNO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
27.如24-27中任一项所述的CasX融合多肽,其中所述CasX多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
28.如24-27中任一项所述的CasX融合多肽,其中所述CasX多肽是无催化活性的CasX多肽(dCasX)。
29.如27或28所述的CasX融合多肽,其中所述CasX多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
30.如24-29中任一项所述的CasX融合多肽,其中所述异源多肽与所述CasX多肽的N末端和/或C末端融合。
31.如24-30中任一项所述的CasX融合多肽,其包含NLS。
32.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。
33.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
34.如33所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
35.如34所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
36.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
37.如36所述的CasX融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
38.如36或37所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
39.如38所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
40.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽是内体逃逸多肽。
41.如40所述的CasX融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
42.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽是叶绿体转运肽。
43.如42所述的CasX融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:
44.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。
45.如44所述的CasX融合多肽,其中所述异源多肽是转录阻遏物结构域。
46.如44所述的CasX融合多肽,其中所述异源多肽是转录激活结构域。
47.如24-31中任一项所述的CasX融合多肽,其中所述异源多肽是蛋白质结合结构域。
48.一种核酸分子,其编码如权利要求24-47中任一项所述的CasX融合多肽。
49.如48所述的核酸分子,其中编码所述CasX融合多肽的所述核苷酸序列可操作地连接到启动子。
50.如49所述的核酸分子,其中所述启动子在真核细胞中是功能性的。
51.如50所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
52.如49-51中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
53.如48-52中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。
54.如53所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
55.如49所述的核酸分子,其中所述启动子在原核细胞中是功能性的。
56.如48所述的核酸分子,其中所述核酸分子是mRNA。
57.一种或多种核酸分子,其编码:
(a)CasX指导RNA,其包含激活因子RNA和靶向因子RNA;以及
(b)CasX多肽。
58.如57所述的一种或多种核酸分子,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
59.如57所述的一种或多种核酸分子,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
60.如57-59中任一项所述的一种或多种核酸分子,其中所述CasX指导RNA是单指导RNA。
61.如57-59中任一项所述的一种或多种核酸分子,其中所述CasX指导RNA是双指导RNA。
62.如61所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述激活因子的第一核苷酸序列和编码所述靶向因子的第二核苷酸序列,并且其中所述第一和第二核苷酸序列存在于不同的DNA分子上。
63.如57-62中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasX多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
64.如63所述的一种或多种核酸分子,其中所述启动子在真核细胞中是功能性的。
65.如64所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
66.如63-65中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
67.如57-66中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。
68.如67所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
69.如63所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。
70.一种真核细胞,其包含以下中的一种或多种:
a)Casx多肽或编码所述Casx多肽的核酸分子,
b)CasX融合多肽或编码所述CasX融合多肽的核酸分子,以及
c)CasX指导RNA或编码所述CasX指导RNA的核酸分子。
71.如70所述的真核细胞,其包含编码所述Casx多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
72.如70或71所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
73.一种细胞,其包含CasX融合多肽或编码所述CasX融合多肽的核酸分子。
74.如73所述的细胞,其中所述细胞是原核细胞。
75.如73或74所述的细胞,其包含编码所述CasX融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
76.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasX多肽;以及
b)CasX指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,
其中所述接触导致通过所述CasX多肽对所述靶核酸的修饰。
77.如76所述的方法,其中所述修饰是对所述靶核酸的切割。
78.如76或77所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
79.如76-78中任一项所述的方法,其中所述接触在体外在细胞外部发生。
80.如76-78中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
81.如76-78中任一项所述的方法,其中所述接触在体内在细胞内部发生。
82.如80或81所述的方法,其中所述细胞是真核细胞。
83.如82所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
84.如80或81所述的方法,其中所述细胞是原核细胞。
85.如76-84中任一项所述的方法,其中所述接触导致基因组编辑。
86.如76-85中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasX多肽或编码所述CasX多肽的核酸分子,以及(b)所述Casx指导RNA或编码所述CasX指导RNA的核酸分子。
87.如86所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
88.如76-87中任一项所述的方法,其中所述CasX指导RNA是单指导RNA。
89.如76-87中任一项所述的方法,其中所述CasX指导RNA是双指导RNA。
90.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasX融合多肽,其包含与异源多肽融合的CasX多肽;以及
b)CasX指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。
91.如90所述的方法,其中所述CasX指导RNA是单指导RNA。
92.如90所述的方法,其中所述CasX指导RNA是双指导RNA。
93.如90-92中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
94.如90-93中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
95.如90-94中任一项所述的方法,其中所述接触在体外在细胞外部发生。
96.如90-94中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
97.如90-94中任一项所述的方法,其中所述接触在体内在细胞内部发生。
98.如96或97所述的方法,其中所述细胞是真核细胞。
99.如98所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
100.如96或97所述的方法,其中所述细胞是原核细胞。
101.如90-100中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasX融合多肽或编码所述CasX融合多肽的核酸分子,以及(b)所述Casx指导RNA或编码所述CasX指导RNA的核酸分子。
102.如90-101中任一项所述的方法,其中所述CasX多肽是无催化活性的CasX多肽(dCasX)。
103.如90-102中任一项所述的方法,其中所述CasX多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
104.如90-103中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
105.如104所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
106.如105所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
107.如90-103中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
108.如107所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
109.如107或108所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
110.如109所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
111.如90-103中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。
112.如111所述的方法,其中所述异源多肽是转录阻遏物结构域。
113.如111所述的方法,其中所述异源多肽是转录激活结构域。
114.如90-103中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。
115.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:
a)Casx多肽,
b)CasX融合多肽,和
c)CasX指导RNA。
116.如115所述的转基因的多细胞非人生物体,其中所述CasX多肽包含与SEQ IDNO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
117.如115所述的转基因的多细胞非人生物体,其中所述CasX多肽包含与SEQ IDNO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
118.如115-117中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
119.一种系统,其包含:
a)CasX多肽和CasX单指导RNA;
b)CasX多肽、CasX指导RNA和DNA供体模板;
c)CasX融合多肽和CasX指导RNA;
d)CasX融合多肽、CasX指导RNA和DNA供体模板;
e)编码CasX多肽的mRNA和CasX单指导RNA;
f)编码CasX多肽的mRNA、CasX指导RNA和DNA供体模板;
g)编码CasX融合多肽的mRNA和CasX指导RNA;
h)编码CasX融合多肽的mRNA、CasX指导RNA和DNA供体模板;
i)一种或多种重组表达载体,其包含:i)编码CasX多肽的核苷酸序列,和ii)编码CasX指导RNA的核苷酸序列;
j)一种或多种重组表达载体,其包含:i)编码CasX多肽的核苷酸序列、ii)编码CasX指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,其包含:i)编码CasX融合多肽的核苷酸序列,和ii)编码CasX指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,其包含:i)编码CasX融合多肽的核苷酸序列、ii)编码CasX指导RNA的核苷酸序列,和DNA供体模板。
120.如119所述的CasX系统,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
121.如119所述的CasX系统,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
122.如119-121中任一项所述的CasX系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
123.如119-121中任一项所述的CasX系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
124.一种试剂盒,其包含如119-123中任一项所述的CasX系统。
125.如124所述的试剂盒,其中所述试剂盒的组分在同一容器中。
126.如124所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
127.一种无菌容器,其包含如119-126中任一项所述的CasX系统。
128.如127所述的无菌容器,其中所述容器是注射器。
129.一种可植入装置,其包含如119-126中任一项所述的CasX系统。
130.如129所述的可植入装置,其中所述CasX系统在基质内。
131.如129所述的可植入装置,其中所述CasX系统在储库中。
B组
与古细菌Cas9相关
1.一种组合物,其包含:
a)古细菌Cas9多肽或编码所述古细菌Cas9多肽的核酸分子;以及
b)古细菌Cas9指导RNA或一种或多种编码所述古细菌Cas9指导RNA的DNA分子。
2.如1所述的组合物,其中所述古细菌Cas9多肽包含与SEQ ID NO:71或SEQ IDNO:72所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
3.如1或2所述的组合物,其中所述古细菌Cas9指导RNA是单指导RNA。
4.如1或2所述的组合物,其中所述古细菌Cas9指导RNA是双指导RNA。
5.如1-4中任一项所述的组合物,其中所述组合物包含脂质。
6.如1-4中任一项所述的组合物,其中a)和b)在脂质体内。
7.如1-4中任一项所述的组合物,其中a)和b)在颗粒内。
8.如1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。
9.如1-8中任一项所述的组合物,其中所述古细菌Cas9多肽包含与SEQ ID NO:71或SEQ ID NO:72所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
10.如1-9中任一项所述的组合物,其中所述古细菌Cas9多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
11.如1-9中任一项所述的组合物,其中所述古细菌Cas9多肽是无催化活性的古细菌Cas9多肽(死的古细菌Cas9)。
12.如10或11所述的组合物,其中所述古细菌Cas9多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:71的D672、E769和D935。
13.如1-12中任一项所述的组合物,其还包含DNA供体模板。
14.一种古细菌Cas9单指导RNA分子,其包含:
a)靶向因子序列,其包含与靶核酸杂交的指导序列和双链体形成区段;以及
b)激活因子序列,其与所述靶向因子序列的所述双链体形成区段杂交,以形成可结合古细菌Cas9多肽的双链RNA(dsRNA)双链体。
15.如14所述的古细菌Cas9单指导RNA分子,其中所述指导序列具有19至30个核苷酸的长度。
16.一种DNA分子,其包含编码如14或15所述的古细菌Cas9单指导RNA分子的核苷酸序列。
17.如16所述的DNA分子,其中编码所述古细菌Cas9单指导RNA的所述核苷酸序列可操作地连接到启动子。
18.如17所述的DNA分子,其中所述启动子在真核细胞中是功能性的。
19.如18所述的DNA分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
20.如17-19中任一项所述的DNA分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
21.如16-20中任一项所述的DNA分子,其中所述DNA分子是重组表达载体。
22.如21所述的DNA分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
23.如17所述的DNA分子,其中所述启动子在原核细胞中是功能性的。
24.一种古细菌Cas9融合多肽,其包含:与异源多肽融合的古细菌Cas9多肽。
25.如24所述的古细菌Cas9融合多肽,其中所述古细菌Cas9多肽包含与SEQ IDNO:71或SEQ ID NO:72所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
26.如24所述的古细菌Cas9融合多肽,其中所述古细菌Cas9多肽包含与SEQ IDNO:71或SEQ ID NO:72所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
27.如24-27中任一项所述的古细菌Cas9融合多肽,其中所述古细菌Cas9多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
28.如24-27中任一项所述的古细菌Cas9融合多肽,其中所述古细菌Cas9多肽是无催化活性的古细菌Cas9多肽(死的古细菌Cas9)。
29.如27或28所述的古细菌Cas9融合多肽,其中所述古细菌Cas9多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:71的D672、E769和D935。
30.如24-29中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽与所述古细菌Cas9多肽的N末端和/或C末端融合。
31.如24-30中任一项所述的古细菌Cas9融合多肽,其包含NLS。
32.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。
33.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
34.如33所述的古细菌Cas9融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
35.如34所述的古细菌Cas9融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
36.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
37.如36所述的古细菌Cas9融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
38.如36或37所述的古细菌Cas9融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
39.如38所述的古细菌Cas9融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
40.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽是内体逃逸多肽。
41.如40所述的古细菌Cas9融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
42.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽是叶绿体转运肽。
43.如42所述的古细菌Cas9融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:
44.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。
45.如44所述的古细菌Cas9融合多肽,其中所述异源多肽是转录阻遏物结构域。
46.如44所述的古细菌Cas9融合多肽,其中所述异源多肽是转录激活结构域。
47.如24-31中任一项所述的古细菌Cas9融合多肽,其中所述异源多肽是蛋白质结合结构域。
48.一种核酸分子,其编码如权利要求24-47中任一项所述的古细菌Cas9融合多肽。
49.如48所述的核酸分子,其中编码所述古细菌Cas9融合多肽的所述核苷酸序列可操作地连接到启动子。
50.如49所述的核酸分子,其中所述启动子在真核细胞中是功能性的。
51.如50所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
52.如49-51中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
53.如48-52中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。
54.如53所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
55.如49所述的核酸分子,其中所述启动子在原核细胞中是功能性的。
56.如48所述的核酸分子,其中所述核酸分子是mRNA。
57.一种或多种核酸分子,其编码:
(a)古细菌Cas9指导RNA,其包含激活因子RNA和靶向因子RNA;以及
(b)古细菌Cas9多肽。
58.如57所述的一种或多种核酸分子,其中所述古细菌Cas9多肽包含与SEQ IDNO:71或SEQ ID NO:72所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
59.如57所述的一种或多种核酸分子,其中所述古细菌Cas9多肽包含与SEQ IDNO:71或SEQ ID NO:72所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
60.如57-59中任一项所述的一种或多种核酸分子,其中所述古细菌Cas9指导RNA是单指导RNA。
61.如57-59中任一项所述的一种或多种核酸分子,其中所述古细菌Cas9指导RNA是双指导RNA。
62.如61所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述激活因子的第一核苷酸序列和编码所述靶向因子的第二核苷酸序列,并且其中所述第一和第二核苷酸序列存在于不同的DNA分子上。
63.如57-62中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述古细菌Cas9多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
64.如63所述的一种或多种核酸分子,其中所述启动子在真核细胞中是功能性的。
65.如64所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
66.如63-65中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
67.如57-66中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。
68.如67所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
69.如63所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。
70.一种真核细胞,其包含以下中的一种或多种:
a)古细菌Cas9多肽或编码所述古细菌Cas9多肽的核酸分子,
b)古细菌Cas9融合多肽或编码所述古细菌Cas9融合多肽的核酸分子,以及
c)古细菌Cas9指导RNA或编码所述古细菌Cas9指导RNA的核酸分子。
71.如70所述的真核细胞,其包含编码所述古细菌Cas9多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
72.如70或71所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
73.一种细胞,其包含古细菌Cas9融合多肽或编码所述古细菌Cas9融合多肽的核酸分子。
74.如73所述的细胞,其中所述细胞是原核细胞。
75.如73或74所述的细胞,其包含编码所述古细菌Cas9融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
76.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)古细菌Cas9多肽;以及
b)古细菌Cas9指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,
其中所述接触导致通过所述古细菌Cas9多肽对所述靶核酸的修饰。
77.如76所述的方法,其中所述修饰是对所述靶核酸的切割。
78.如76或77所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
79.如76-78中任一项所述的方法,其中所述接触在体外在细胞外部发生。
80.如76-78中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
81.如76-78中任一项所述的方法,其中所述接触在体内在细胞内部发生。
82.如80或81所述的方法,其中所述细胞是真核细胞。
83.如82所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
84.如80或81所述的方法,其中所述细胞是原核细胞。
85.如76-84中任一项所述的方法,其中所述接触导致基因组编辑。
86.如76-85中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述古细菌Cas9多肽或编码所述古细菌Cas9多肽的核酸分子,以及(b)所述古细菌Cas9指导RNA或编码所述古细菌Cas9指导RNA的核酸分子。
87.如86所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
88.如76-87中任一项所述的方法,其中所述古细菌Cas9指导RNA是单指导RNA。
89.如76-87中任一项所述的方法,其中所述古细菌Cas9指导RNA是双指导RNA。
90.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)古细菌Cas9融合多肽,其包含与异源多肽融合的古细菌Cas9多肽;以及
b)古细菌Cas9指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。
91.如90所述的方法,其中所述古细菌Cas9指导RNA是单指导RNA。
92.如90所述的方法,其中所述古细菌Cas9指导RNA是双指导RNA。
93.如90-92中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
94.如90-93中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
95.如90-94中任一项所述的方法,其中所述接触在体外在细胞外部发生。
96.如90-94中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
97.如90-94中任一项所述的方法,其中所述接触在体内在细胞内部发生。
98.如96或97所述的方法,其中所述细胞是真核细胞。
99.如98所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
100.如96或97所述的方法,其中所述细胞是原核细胞。
101.如90-100中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述古细菌Cas9融合多肽或编码所述古细菌Cas9融合多肽的核酸分子,以及(b)所述古细菌Cas9指导RNA或编码所述古细菌Cas9指导RNA的核酸分子。
102.如90-101中任一项所述的方法,其中所述古细菌Cas9多肽是无催化活性的古细菌Cas9多肽(死的古细菌Cas9)。
103.如90-102中任一项所述的方法,其中所述古细菌Cas9多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:71的D672、E769和D935。
104.如90-103中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
105.如104所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
106.如105所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
107.如90-103中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
108.如107所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
109.如107或108所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
110.如109所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
111.如90-103中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。
112.如111所述的方法,其中所述异源多肽是转录阻遏物结构域。
113.如111所述的方法,其中所述异源多肽是转录激活结构域。
114.如90-103中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。
115.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:
a)古细菌Cas9多肽,
b)古细菌Cas9融合多肽,和
c)古细菌Cas9指导RNA。
116.如115所述的转基因的多细胞非人生物体,其中所述古细菌Cas9多肽包含与SEQ ID NO:71或SEQ ID NO:72所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
117.如115所述的转基因的多细胞非人生物体,其中所述古细菌Cas9多肽包含与SEQ ID NO:71或SEQ ID NO:72所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
118.如115-117中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
119.一种系统,其包含:
a)古细菌Cas9多肽和古细菌Cas9单指导RNA;
b)古细菌Cas9多肽、古细菌Cas9指导RNA和DNA供体模板;
c)古细菌Cas9融合多肽和古细菌Cas9指导RNA;
d)古细菌Cas9融合多肽、古细菌Cas9指导RNA和DNA供体模板;
e)编码古细菌Cas9多肽的mRNA和古细菌Cas9单指导RNA;
f)编码古细菌Cas9多肽的mRNA、古细菌Cas9指导RNA和DNA供体模板;
g)编码古细菌Cas9融合多肽的mRNA和古细菌Cas9指导RNA;
h)编码古细菌Cas9融合多肽的mRNA、古细菌Cas9指导RNA和DNA供体模板;
i)一种或多种重组表达载体,其包含:i)编码古细菌Cas9多肽的核苷酸序列,和ii)编码古细菌Cas9指导RNA的核苷酸序列;
j)一种或多种重组表达载体,其包含:i)编码古细菌Cas9多肽的核苷酸序列、ii)编码古细菌Cas9指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,其包含:i)编码古细菌Cas9融合多肽的核苷酸序列,和ii)编码古细菌Cas9指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,其包含:i)编码古细菌Cas9融合多肽的核苷酸序列、ii)编码古细菌Cas9指导RNA的核苷酸序列,和DNA供体模板。
120.如119所述的古细菌Cas9系统,其中所述古细菌Cas9多肽包含与SEQ ID NO:71或SEQ ID NO:72所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
121.如119所述的古细菌Cas9系统,其中所述古细菌Cas9多肽包含与SEQ ID NO:71或SEQ ID NO:72所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
122.如119-121中任一项所述的古细菌Cas9系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
123.如119-121中任一项所述的古细菌Cas9系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
124.一种试剂盒,其包含如119-123中任一项所述的古细菌Cas9系统。
125.如124所述的试剂盒,其中所述试剂盒的组分在同一容器中。
126.如124所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
127.一种无菌容器,其包含如119-126中任一项所述的古细菌Cas9系统。
128.如127所述的无菌容器,其中所述容器是注射器。
129.一种可植入装置,其包含如119-126中任一项所述的古细菌Cas9系统。
130.如129所述的可植入装置,其中所述古细菌Cas9系统在基质内。
131.如129所述的可植入装置,其中所述古细菌Cas9系统在储库中。
132.如方面1-131(B组)中任一项所述,其中所述古细菌Cas9蛋白是ARMAN-1 Cas9蛋白或ARMAN-4 Cas9蛋白。
133.如方面1-131(B组)中任一项所述,其中所述古细菌Cas9蛋白是CandidatusMicrarchaeum acidiphilum Cas9蛋白或Candidatus Parvarchaeum acidiphilum Cas9蛋白。
实施例
提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述,并且并非意图限制本发明人看待其发明的范围,也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值(例如量、温度等)的精确性,但一些实验误差和偏差应加以说明。除非另外指示,否则份为重量份,分子量为重均分子量,温度以摄氏度计,并且压力在大气压下或接近大气压。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌内的(肌内地);i.p.,腹膜内的(腹膜内地);s.c.,皮下的(皮下地)等。
实施例1
本文所述的工作包括分析来自地下水、沉积物和酸性矿山排水的微生物群落的宏基因组样品。鉴定了在培养生物体中未表示的新的2类CRISPR-Cas系统。
图3.CasX结构域和相似性检索。(图a)从使用HHpred的与AcCpf1的远同源性比对中推断的CasX的示意性结构域表示。保守的催化残基用蛋白质上方的红色条标记。CasX含有在C末端区域的分开的RuvC结构域(RuvC-I、RuvC-II和RuvC-III),并且含有大的新型N末端结构域。在示意图下方示出基于以下检索的最高命中:(1)BLAST检索NCBI(NR数据库,包括模型和环境蛋白质)中的所有蛋白质。(2)基于使用所有Cas蛋白构建的模型的序型隐马尔科夫模型(HMM)检索,在Makarova等人Nat Rev Microbiol.2015年11月;13(11):722-36以及Shmakov等人Mol Cell.2015年11月5;60(3):385-97)中所述。(3)基于HHpred的远同源性检索。命中基于其重要性进行颜色编码,并提供命中范围和E值。值得注意的是,CasX只有局部命中。CasX的620个N末端氨基酸在任何检索方案中都没有命中。结合起来,这些发现指示CasX是一种新的Cas蛋白。(图b)由序列数据构建两个不同的含CasX的CRISPR基因座支架,上图来自δ变形菌门(CasX1),并且下图来自浮霉菌门(CasX2)。对应的DNA序列分别如SEQ ID NO:51和52所示。
实施例2
图4(图a至图c).在大肠杆菌中表达的CasX的质粒干扰。(图a)CasX质粒干扰的实验设计。制备表达最小干扰CasX基因座(去除获得蛋白)的感受态大肠杆菌细胞。将这些细胞用含有与CasXCRISPR基因座中的间隔序列的匹配(靶标)或不含有所述匹配(非靶标)的质粒转化,并铺板在含有CRISPR和靶质粒的抗生素选择的培养基上。成功的质粒干扰导致靶质粒的转化菌落数量减少。(图b)含有CasX1的间隔序列(sX1)、CasX2的间隔序列(sX2)的转化质粒或含有随机30个nt序列的非靶质粒的cfu/ug。(图c)在含有CRISPR和靶质粒两者的抗生素选择的培养基上对图b的转化体进行连续稀释。
图5(图a至图b)CasX的PAM依赖性质粒干扰。(图a)用CasX进行PAM缺失测定。用具有靶序列5'或3'端随机化的7个核苷酸的质粒文库转化含有CasX CRISPR基因座的大肠杆菌。选择靶质粒并合并转化体。扩增随机区域并准备用于深度测序。鉴定缺失的序列并用于生成PAM标识。(图b)δ变形菌门CasX的生成的PAM标识示出对含有靶标5'端的5'-TTCN-3'侧翼序列的序列的强烈偏好。未检测到3'PAM。c,浮霉状菌CasX的生成的PAM标识示出对含有靶标5'端的5'-TTCN-3'侧翼序列的序列的强烈偏好,所述侧翼序列在第一个T处具有较低的严格性。未检测到3'PAM。
图6(图a至图c).CasX是双指导的CRISPR-Cas效应复合物。(图a)用于tracrRNA敲除实验和sgRNA测试的CRISPR基因座。(图b)每μg含有靶序列或非靶序列的转化质粒的菌落形成单位(cfu)。tracrRNA的缺失导致质粒干扰的消除。合成sgRNA代替tracrRNA和CRISPR阵列的表达导致CasX的稳健质粒干扰。(图c)sgRNA设计图(衍生自CasX1的tracrRNA和crRNA序列)。tracrRNA(绿色)通过四环(GAAA)与crRNA(重复序列,黑色;间隔序列,红色)连接。
图7.CasX RNA指导的DNA干扰的示意图。CasX与tracrRNA(绿色)和crRNA(黑色,重复序列;红色,间隔序列)结合。指导RNA与含有正确的原间隔序列相邻基序(黄色)的靶序列(蓝色)的碱基配对导致靶DNA的双链切割。所描绘的序列衍生自CasX1的tracrRNA和crRNA序列。
实施例3
图8.使用CasX编辑人细胞的实验设计。将表达去稳定化GFP的HEK293细胞用CasX处理,其使用表达CasX及其指导RNA的质粒的脂质体转染或用其指导RNA预组装的CasX的核转染。成功的基因组切割将导致GFP基因座中的插入缺失,从而导致荧光信号的丧失,这可通过流式细胞术和/或测量员测定法(例如,T7E1测定法)检测。
实施例4
图9.CasX的重组表达和纯化。将CasX与麦芽糖结合蛋白融合并在大肠杆菌中表达。将裂解液经Ni-NTA树脂纯化,用TEV处理,经肝素柱和尺寸排阻柱纯化。来自尺寸排阻柱的级分与分子量标记一起示出,以供参考。计算出的CasX大小为~110kDa。
实施例5
图10.各种tracrRNA序列的测试。测试的tracrRNA序列如下(参考图7的CasX双指导RNA的示意图):
另外,测试了以下crRNA序列的功能:
crRNA 1(crRNA的加工型式–呈sgRNA和双指导形式时都有活性):
CCGAUAAGUAAAACGCAUCAAAGNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:61)
crRNA 2(呈双指导形式时有活性):
AUUUGAAGGUAUCUCCGAUAAGUAAAACGCAUCAAAGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:62)
另外,测试了以下sgRNA序列的功能(参考图6和图7的CasX指导RNA的示意图):
sgRNA1(有活性的,有义的,加工的):
ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGAgaaaCCGAUAAGUAAAACGCAUCAAAGNNNNNNNNNNNNNNNNNNN(SEQ ID NO:42)
sgRNA2(无活性的,有义的,预加工的,下划线序列相对于sgRNA1是不同的):
AAGUAGUAAAUUACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGAUAGCUCCgaaaAUUUGAAGGUAUCUCCGAUAAGUAAAACGCAUCAAAGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN(SEQ ID NO:63)
sgRNA3(无活性的,反义的,加工的):
NNNNNNNNNNNNNNNNNNNNCUUUGAUGCGUUUUACUUAUCGGgaaaUCUCCGAUAAAUAAGCGCUUCGUCCAUACGACAUAGUCGCUGGGACUGGCUCCAAAGUAAUGGAAUAAACGCGCCAGAUGU(SEQ ID NO:64)
sgRNA4(无活性的):
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCUUUGAUGCGUUUUACUUAUCGGAGAUACCUUCAAAUgaaaGGAGCUAUCUCCGAUAAAUAAGCGCUUCGUCCAUACGACAUAGUCGCUGGGACUGGCUCCAAAGUAAUGGAAUAAACGCGCCAGAUGUAAUUUACUACUU(SEQ ID NO:65)
实施例6
图11.在室温和37℃下测试CasX系统(CasX蛋白和指导RNA)在细菌细胞中的功能。针对含有靶序列或非靶序列的质粒,测定每μg转化质粒的菌落形成单位(cfu)。所述测定在室温或37℃下进行。数据示出CasX系统在室温或37℃下的功能相似。
实施例7–古细菌Cas9
图12.ARMAN-1 II型CRISPR-cas系统。(图a),ARMAN-1 CRISPR-Cas基因座概况。(图b)通过对240个原间隔序列的分析推断出对NGG 3'PAM的强烈偏好。(图c)从RichmondMine生态系统中取样的ARMAN-1基因组中CRISPR阵列的重建。绿色箭头指示重复序列,并且有色箭头指示CRISPR间隔序列(相同的间隔序列颜色相同,而独特的间隔序列为黑色)。基于宏基因组重叠群上的间隔序列的顺序比对重叠群(灰色条)。灰色背景指示阵列的保守的且可能是旧的区域。在CRISPR系统中,间隔序列通常是不定向添加的,因此基因座左侧的各种各样的间隔序列指示左侧是最近获得发生的位置。最近获得的间隔序列的多样性的存在以及从不同位点和在不同时间采集的数据集组装的基因组片段中的重复序列和间隔序列的保存指示所述系统是活性的。(图d)ARMAN-1 Cas9的系统发育将其与ARMAN-4 Cas9和在此首次报道的两个新的细菌Cas9(黑色)聚类到一起。这些Cas9似乎与II-C型系统在进化上相关,虽然所述基因座含有Cas4,通常存在于II-B型系统中。(图e)ARMAN-1 Cas1的系统发育将其与不同组的II-B型聚类。结合起来,图(d)和图(e)中的系统发育树表明,ARMAN-1 II型系统可能是II-B型和II-C型CRSIPR-Cas系统重组的结果。
图14.(上图)ARMAN-1 Cas9的crRNA:tracrRNA双指导RNA的预测二级结构。描绘了crRNA(上链)与不同长度的预测tracrRNA序列(下链)之间的二级结构和碱基配对。“crRNA”表示来自ARMAN-1的正向重复序列,而绿色的N20是用户定义的序列(指导序列)。TracrRNA-69以红色示出,而tracrRNA-104和tracrRNA-179分别通过蓝色和粉红色序列延伸。(下图)ARMAN-1 Cas9的示例性单指导RNA的预测结构。描绘了sgRNA的二级结构。“靶向因子”表示部分正向重复序列(截短的)和工程化的四环(接头),从而将靶向因子连接到激活因子(也是截短的)。绿色的N20是用户定义的序列(指导序列)。描绘了包括tracrRNA-69、tracrRNA-104和tracrRNA-179的SgRNA。
图15.(上图)ARMAN-4 Cas9的crRNA:tracrRNA双指导RNA的预测二级结构。描绘了crRNA(上链)与预测tracrRNA序列(下链)之间的二级结构和碱基配对。“crRNA”表示来自ARMAN-4的正向重复序列,而绿色的N20是用户定义的序列(指导序列)。(下图)ARMAN-4 Cas9的示例性单指导RNA的预测结构。描绘了sgRNA的二级结构。“靶向因子”表示部分正向重复序列(截短的)和工程化的四环(接头),从而将靶向因子连接到激活因子(也是截短的)。绿色的N20是用户定义的序列(指导序列)。
实施例8:来自非培养微生物的新CRISPR-Cas系统
CRISPR-Cas适应性免疫系统通过提供能够进行位点特异性DNA切割的可编程酶,彻底变革了基因组工程。然而,当前的CRISPR-Cas技术仅基于来自培养的细菌的系统,而使得来自未被分离的生物体的绝大多数酶处于尚未开发状态。本文提供的数据示出,使用不依赖于培养的基因组解析的宏基因组学,鉴定新的CRISPR-Cas系统,包括在古细菌生物域中首次报道的Cas9。这种不同的Cas9酶在研究很少的纳米古细菌中作为活性CRISPR-Cas系统的一部分被发现。在细菌中,发现了两个先前未知的系统,CRISPR-CasX和CRISPR-CasY,它们属于目前鉴定的最简化的系统。值得注意的是,所有需要的功能性组分都是通过宏基因组学鉴定的,这允许在大肠杆菌中验证稳健的RNA指导的DNA干扰活性。本文的数据示出,环境微生物群落的查询与活细胞中的实验组合,能够获得前所未有的基因组多样性,所述基因组的内容将扩展基于微生物的生物技术的所有组成部分。
结果
分析了来自地下水、沉积物和酸性矿山排水微生物群落的兆级别(Terabase-scale)宏基因组数据集,寻找未在培养生物体中表示的2类CRISPR-Cas系统。鉴定了古细菌域中的第一种Cas9蛋白,并且在非培养细菌中发现了两种新的CRISPR-Cas系统,CRISPR-CasX和CRISPR-CasY(图18)。值得注意的是,古细菌Cas9和CasY两者都是仅在来自没有已知的分离代表的谱系的生物体的基因组中编码的。
首次鉴定古细菌Cas9
CRISPR-Cas9的特征之一是假定其仅存在于细菌域中。因此,在酸性矿山排水(AMD)宏基因组数据集中发现在纳米古细菌ARMAN-1(Candidatus Micrarchaeumacidiphilum ARMAN-1)和ARMAN-4(Candidatus Parvarchaeum acidiphilum ARMAN-4)的基因组中编码的Cas9蛋白是令人惊讶的。这些发现将含Cas9的CRISPR系统的出现扩展到另一个生物域。
ARMAN-4 cas9基因在相同基因组环境中的16个不同样品中被发现,但没有其他相邻的cas基因(尽管位于若干个DNA序列重叠群>25kbp的中心),并且只有一个相邻的CRISPR重复序列-间隔序列单元(图24)。缺乏典型的CRISPR阵列和编码通用CRISPR整合酶的cas1,指出了无法获得新间隔序列的系统。没有鉴定间隔序列的靶标,但考虑到基因座在若干年内采集的样品中的保守性,此时不能排除基因座在“单靶标”CRISPR-Cas系统中的功能。
相反,从15个不同样品中回收的ARMAN-1中的CRISPR-Cas基因座包括与cas1、cas2、cas4和cas9基因相邻的大型CRISPR阵列。重建了许多替代的ARMAN-1 CRISPR阵列,其具有很大程度保守的末端(可能由最老的间隔序列组成)和其中已经并入许多不同的间隔序列的可变区域(图19a和图25)。基于间隔序列内容的这种高变性,这些数据示出了ARMAN-1 CRISPR-Cas9系统在取样群体中是有活性的。
值得注意的是,ARMAN-1 CRISPR-Cas9系统中56个推定的间隔序列靶标(原间隔序列)位于单个10kbp的基因组片段上,所述片段很可能是ARMAN-1病毒,因为它编码高密度的短假定蛋白(图19b)。实际上,低温电子断层扫描重建通常鉴定附着到ARMAN细胞的病毒颗粒。ARMAN-1原间隔序列也衍生自ARMAN-2(另一种纳米古细菌)基因组中的推定转座子和热源体目古细菌基因组中的推定可动元件,其包括来自同一生态系统的I-plasma的可动元件(图26)。在ARMAN与热源体目细胞之间观察到直接的细胞质“桥”,这意味着它们之间存在密切关系。因此,ARMAN-1 CRISPR-Cas9可防御这些生物体之间的转座子传播,这一作用使人联想到piRNA介导的对真核生殖系中的转座的防御。
活性DNA靶向CRISPR-Cas系统使用位于靶序列之后的2至4bp原间隔序列相邻基序(PAM)来区分自身与非自身。检查与基因组靶序列相邻的序列确实在ARMAN-1中揭示出强烈的‘NGG’PAM偏好(图19c)。Cas9还使用两种单独的转录物,CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA),用于RNA指导的DNA切割。在ARMAN-1和ARMAN-4 CRISPR-Cas9系统二者附近鉴定出推定tracrRNA(图27)。先前,有人提出II型CRISPR系统由于缺乏宿主因子RNA酶III而不存在于古细菌中,RNA酶III负责crRNA-tracrRNA指导复合物的成熟。值得注意的是,在ARMAN-1基因组中未鉴定出RNA酶III同源物(估计完成率为95%),并且未预测出CRISPR阵列的内部启动子,这表明了尚未确定的指导RNA的产生机制。测试从大肠杆菌和酵母二者中纯化的ARMAN-1和ARMAN-4 Cas9蛋白的切割活性的生化实验以及体内大肠杆菌靶向测定未揭示出任何可检测的活性(参见图32和图28)。
CRISPR-CasX是一种新的双RNA指导的CRISPR系统
除Cas9之外,仅发现并通过实验验证了三个2类Cas效应蛋白家族:Cpf1、C2c1和C2c2。已经提出了另一种仅在小DNA片段上鉴定的基因c2c3,其也编码这种蛋白质家族。在地下水和沉积物样品中反复回收的两种细菌的基因组中发现了一种新类型的2类CRISPR-Cas系统。此系统在属于不同门(δ变形菌门和浮霉菌门)的两种生物体中的高度保守性表明最近的跨门转移。这种新描述的系统包括Cas1、Cas2、Cas4和未表征的~980aa蛋白质,其在本文中称为CasX。与每个CasX相关联的CRISPR阵列具有高度相似的37个碱基对的重复序列、33-34个碱基对的间隔序列以及Cas操纵子与CRISPR阵列之间的推定tracrRNA(图18b)。BLAST检索仅揭示出与转座酶的弱相似性(e值>1×10-4),其中相似性限于CasX C末端的特定区域。远同源性检测和蛋白质建模鉴定了CasX C末端附近的RuvC结构域,其结构使人联想到V型CRISPR-Cas系统中发现的结构(图29)。CasX蛋白的其余部分(630个N末端氨基酸)与任何已知蛋白质均未示出可检测的相似性,这表明这是一种新型2类效应物。tracrRNA和单独的Cas1、Cas2和Cas4蛋白的组合在V型系统中是独特的。此外,CasX比任何已知的V型蛋白小得多:980个aa,与Cpf1、C2c1和C2c3的大于1,200个aa的典型尺寸相比。
接下来,人们想知道,尽管CasX具有较小的尺寸和非经典的基因座内容,但CasX能够进行类似于Cas9和Cpf1酶的RNA指导的DNA靶向。为了测试这种可能性,合成了编码最小CRISPR-CasX基因座的质粒,其包括casX、短重复序列-间隔序列阵列和插入的非编码区。当在大肠杆菌中表达时,这种最小基因座阻断了带有通过宏基因组分析鉴定的靶序列的质粒的转化(图20a至图20c、图30)。此外,仅在微型基因座中的间隔序列与质粒靶标中的原间隔序列匹配时才发生转化干扰。为了鉴定CasX的PAM序列,使用含有与靶位点相邻的5′或3′随机化序列的质粒在大肠杆菌中重复转化测定。此分析揭示出对直接位于原间隔序列的5′端的序列‘TTCN’的严格偏好(图20d)。未观察到3′PAM偏好(图30)。与此发现一致,‘TTCA’是在环境样品中鉴定的推定δ变形菌门CRISPR-CasX原间隔序列的上游发现的序列。值得注意的是,两个CRISPR-CasX基因座共享相同的PAM序列,与它们高度的CasX蛋白同源性一致。
在V型CRISPR基因座中存在单RNA和双RNA指导系统的实例。环境宏转录组数据用于确定CasX是否需要用于DNA靶向活性的tracrRNA。此分析揭示出,具有与CRISPR重复序列互补的序列的非编码RNA转录物在Cas2开放阅读框与CRISPR阵列之间编码(图21a)。为了检查这种非编码RNA在表达CasX基因座的大肠杆菌中的表达,在两个方向上针对此转录物进行RNA印迹(图30)。结果显示,~110个nt的转录物的表达与~60-70个nt的更异质性的转录物一起在与casX基因相同的链上编码,这表明CRISPR阵列的前导序列位于tracrRNA与阵列之间。转录组学图谱还表明CRISPR RNA(crRNA)被加工成包括22个nt(或约23个nt)的重复序列和20个nt的相邻间隔序列,与CRISPR-Cas9系统中发生的crRNA加工相似(图21a)。此外,鉴定出2个nt的3′突出端,与RNA酶III介导的crRNA-tracrRNA双链体加工一致(图21b)。为了确定CasX活性对推定tracrRNA的依赖性,从上述最小的CRISPR-CasX基因座中删除此区域,并重复质粒干扰测定。从CasX质粒中删除推定tracrRNA编码序列消除了在其存在下观察到的稳健转化干扰(图21c)。使用四环将此推定tracrRNA与加工的crRNA连接以形成单指导RNA(sgRNA)。虽然使用单独的crRNA的异源启动子或缩短型式的sgRNA的表达没有任何显著的质粒干扰,但是全长sgRNA的表达赋予对质粒转化的抗性(图21c)。总之,这些结果将CasX建立为新的功能性DNA靶向的双RNA指导的CRISPR酶。这些结果还证明CasX可作为单RNA指导的CRISPR酶起作用。
CRISPR-CasY,一种仅在缺乏分离株的细菌谱系中发现的系统
鉴定了在某些潜在门类辐射(CPR)细菌的基因组中编码的另一种新的2类Cas蛋白。这些细菌通常具有较小的细胞尺寸(基于低温TEM数据和通过过滤的富集)、非常小的基因组和有限的生物合成能力,这指示它们最可能是共生体。新的~1,200个aa的Cas蛋白,在本文中称为CasY,似乎是最小CRISPR-Cas系统的一部分,所述最小CRISPR-Cas系统至多包括Cas1和CRISPR阵列(图22a)。大多数CRISPR阵列具有17-19个nt的非常短的间隔序列,但是缺少Cas1的一个系统(CasY.5)具有更长的间隔序列(27-29个nt)。鉴定的CasY蛋白的六个实例与公共数据库中的任何蛋白质没有显著的序列相似性。使用由已公布的Cas蛋白3,4构建的序型模型(HMM)的敏感检索指示,六个CasY蛋白中的四个与C2c3在与RuvC结构域重叠的C末端区域和N末端的小区域(~45个aa)中具有局部相似性(e值为4×10-11–3×10-18)(参见图29)。C2c3是推定的V型Cas效应物,其在短重叠群上鉴定,没有分类学从属关系,并且尚未通过实验验证。与CasY一样,C2c3被发现位于阵列之后,所述阵列具有短间隔序列和Cas1,但没有其他Cas蛋白。值得注意的是,尽管与其他CasY蛋白共享显著的序列相似性(最佳Blast命中:e值为6×10-85、7×10-75),但在本研究中鉴定的两种CasY蛋白与C2c3没有显著的相似性。
鉴于CRISPR-CasY与任何经实验验证的CRISPR基因座的低同源性,接下来想知道此系统是否赋予RNA指导的DNA干扰,但由于间隔序列长度短,不存在关于针对此类活性可能需要的可能PAM基序的可靠信息。为解决此问题,用缩短的CRISPR阵列合成整个CRISPR-CasY.1基因座,并在质粒载体上将所述基因座引入大肠杆菌中。然后使用靶质粒在转化测定中攻击这些细胞,所述靶质粒具有与阵列中的间隔序列匹配的序列,并且所述序列含有相邻的随机化5'或3'区域,以鉴定可能的PAM。对转化体的分析揭示了含有与靶向序列直接相邻的5′TA的序列的缺失(图22b)。使用此鉴定的PAM序列,针对含有单个PAM的质粒测试CasY.1基因座。仅在含有鉴定的5′TA PAM序列的靶标存在下证明了质粒干扰(图22c)。因此,这些数据示出,CRISPR-CasY具有DNA干扰活性。
讨论
鉴定并表征来自非培养细菌和古细菌的基因组中的新的2类CRISPR-Cas适应性免疫系统。Cas1(图23a)的进化分析(其对于活性CRISPR基因座是通用的)表明,在此所述的古细菌Cas9系统不明显属于任何现有的II型亚型。Cas1系统发育(以及cas4的存在)将其与II-B型系统聚类到一起,但Cas9的序列更类似于II-C型蛋白(图31)。因此,古细菌II型系统可作为II-C和II-B型系统的融合体出现(图23b)。同样,Cas1系统发育分析指示来自CRISPR-CasX系统的Cas1远离任何其他已知的V型系统。V型系统已表明是转座子与来自原始I型系统的适配模块(Cas1–Cas2)的融合的结果。因此假设CRISPR-CasX系统在与产生前述V型系统的事件不同的融合事件之后出现。引人注目的是,CRISPR-CasY和推定C2c3系统两者似乎都缺乏Cas2,其是一种被认为对于将DNA整合到CRISPR基因座中必需的蛋白质。鉴于所有CRISPR-Cas系统都被认为是含有Cas1和Cas2二者的原始I型系统的后代,CRISPR-CasY和C2c3系统可能具有与其他CRISPR-Cas系统不同的祖先,或者可替代地,Cas2可能在其进化历史中丢失了。
本文所述的古细菌中的Cas9和细菌中的两个先前未知的CRISPR-Cas系统的发现使用了从复杂的天然微生物群落获得的大量的DNA和RNA序列数据集。在CasX和CasY的情况下,基因组内容对于从未组装的序列信息中预测不明显的功能是至关重要的。此外,通过分析宏基因组数据指导的功能测试,发现了推定tracrRNA的鉴定以及靶向病毒序列。有趣的是,迄今鉴定的一些最紧凑的CRISPR-Cas基因座是在具有非常小的基因组的生物体中发现的。小基因组尺寸的结果是这些生物体出于基本代谢需求可能依赖于其他群落成员,并且因此它们基本上仍然在传统的基于培养的方法的范围之外。干扰所需的蛋白质的有限数量使得这些最小系统对于开发新的基因组编辑工具特别有价值。重要的是,本文示出,与CRISPR-Cas系统相关的宏基因组发现不限于计算机模拟观察,而是可被引入可测试其功能的实验环境中。鉴于几乎所有存在生命的环境现在都可通过基因组解析的宏基因组方法进行探测,预计本文所述的组合计算机实验方法将极大地扩展已知CRISPR-Cas系统的多样性,从而提供生物研究和临床应用的新技术。
方法
宏基因组学和宏转录组学
分析了来自三个不同地点的宏基因组样品:(1)在2006年与2010年之间从Richmond Mine,Iron Mountain,California采集的酸性矿山排水(AMD)样品,(2)在2007年与2013年之间从毗邻Rifle,Colorado附近的Colorado River的Rifle Integrated FieldResearch(IFRC)地点采集的地下水和沉积物样品。(3)在2009年和2014年从位于犹他州科罗拉多高原的冷CO2驱动的间歇泉Crystal Geyser采集的地下水。
对于AMD数据,Denef和Banfield(2012)以及Miller等人(2011)报道了DNA提取方法和短读测序。对于Rifle数据,Anantharaman等人(2016)和Brown等人(2015)描述了DNA和RNA提取以及测序、组装和重建的基因组。对于来自Crystal Geyser的样品,方法遵循Probst等人(2016)和Emerson等人(2015)描述的那些方法。简而言之,使用PowerSoil DNA分离试剂盒(MoBio Laboratories Inc.,Carlsbad,CA,USA)从样品中提取DNA。如Brown等人(2015)所述,从六个2011 Rifle地下水样品中采集的0.2μm滤液中提取RNA。在IlluminaHiSeq2000平台上对DNA进行测序,并在5500XL SOLiD平台上对宏转录组cDNA进行测序。对于新报道的Crystal Geyser数据和AMD数据的再分析,使用IDBA-UD组装序列。使用Bowtie2进行DNA和RNA(cDNA)读取映射,其分别用于确定测序覆盖度和基因表达。使用Prodigal在组装的支架上预测开放阅读框(ORF)。使用涌现自组织映射(ESOM),使用ABAWACA、ABAWACA2(https://github.com/CK7)Maxbin2和四核苷酸频率的组合,基于差异覆盖丰度模式对来自Crystal Geyser数据集的支架进行分级。使用%GC含量、分类学从属关系和基因组完整性手动整理基因组。使用ra2.py(https://github.com/christophertbrown)校正支架错误。
CRISPR-Cas计算分析
使用隐马尔科夫模型(HMM)序型扫描来自各种样品的组装重叠群的已知Cas蛋白,所述序型使用HMMer套件基于Makarova等人和Shmakov等人的比对来构建。使用CrisprFinder软件的本地版本鉴定CRISPR阵列。如果与cas1基因相邻的10个ORF中的一个编码大于800个aa的未表征蛋白,并且在相同重叠群上未鉴定出已知的cas干扰基因,则进一步分析包含Cas1和CRISPR阵列两者的基因座。将这些大蛋白质作为潜在的2类Cas效应物进一步分析。基于序列相似性使用MCL将潜在的效应物聚类到蛋白质家族。通过构建代表这些家族中的每一个的HMM并使用它们在宏基因组数据集中检索相似的Cas蛋白,来扩展这些蛋白质家族。为了确保蛋白质家族确实是新的,使用针对NCBI的非冗余(nr)和宏基因组(env_nr)蛋白质数据库的BLAST以及针对UniProt知识库的HMM检索来检索已知同源物。只有没有全长命中的蛋白质(>蛋白质长度的25%)才被认为是新型蛋白质。使用来自HH-套件(HH-suite)的HHpred进行推定的Cas蛋白的远同源性检索。基于与解析的晶体结构的比较以及由JPred4预测的二级结构,使用高分HHpred命中来推断结构域架构。HMM数据库,包括新发现的Cas蛋白,可见于补充数据1。
使用CrisprFinder由组装的数据确定间隔序列。CRASS用于在相关样品的短DNA读取中定位另外的间隔序列。然后通过针对与间隔序列具有≤1个错配的命中的相关宏基因组组装的BLAST检索(使用“-task blastn-short”)鉴定间隔序列靶标(原间隔序列)。将属于含有相关重复序列的重叠群的命中过滤掉(以避免将CRISPR阵列鉴定为原间隔序列)。通过比对侧接原间隔序列的区域并使用WebLogo可视化来鉴定原间隔序列相邻基序(PAM)。使用mFold预测RNA结构。通过手动比对来自组装数据的间隔序列、重复序列和侧翼序列来分析CRISPR阵列多样性。使用Geneious 9.1进行手动比对和重叠群可视化。
对于新鉴定的系统的Cas1和Cas9蛋白的系统发育分析,与来自Makarova等人和Shmakov等人的蛋白质一起使用。通过使用CD-HIT将具有≥90%同一性的蛋白质聚类在一起来编译非冗余组。使用MAFFT生成比对,并且使用以PROTGAMMALG作为替代模型的RAxML和100个自举取样构建最大似然系统发育。Cas1树使用通向casposons的分支做根。使用FigTree 1.4.1(http://tree.bio.ed.ac.uk/software/figtree/)和iTOL v3对树进行可视化。
生成异源质粒
通过去除与CasX的获得相关联的蛋白质并减小CasX和CasY二者的CRISPR阵列的大小,将宏基因组重叠群制成最小CRISPR干扰质粒。最小基因座合成为Gblocks(Integrated DNA Technology)并使用Gibson组装进行组装。
PAM缺失测定
如前所述,经过修改进行PAM缺失测定。将含有随机化PAM序列的质粒文库通过用引物对含有具有7个nt的随机化PAM区的靶标的DNA寡核苷酸进行退火来组装,并用Klenow片段(NEB)来延伸。将双链DNA用EcoRI和NcoI消化,并连接到pUC19骨架中。将连接的文库转化到DH5α中,并且收获>108个细胞,并且提取并纯化所述质粒。将200ng合并的文库转化到携带CRISPR基因座或没有基因座的对照质粒的电感受态大肠杆菌中。在25℃下将转化的细胞铺板在含有羧苄青霉素(100mg L-1)和氯霉素(30mg L-1)的选择性培养基上30小时。提取质粒DNA,并用衔接子扩增PAM序列以用于Illumina测序。提取7个nt的PAM区并计算每个7个nt序列的PAM频率。使用缺失高于指定阈值的PAM序列来生成WebLogo。
质粒干扰
将从宏基因组序列分析或PAM缺失测定中鉴定的推定靶标克隆到pUC19质粒中。将10ng靶质粒转化到含有CRISPR基因座质粒的电感受态大肠杆菌(NEB稳定的)中。将细胞在25℃下恢复2小时,并将适当的稀释液铺板在选择性培养基上。将平板在25℃下孵育,并计数菌落形成单位。所有的质粒干扰实验一式三份进行,并且每个平行测定独立制备电感受态细胞。
ARMAN-Cas9蛋白表达和纯化
来自ARMAN-1(AR1)和ARMAN-4(AR4)的Cas9的表达构建体由对大肠杆菌进行密码子优化的gBlocks(Integrated DNA Technologies)组装而成。将组装的基因克隆到基于pET的表达载体中,作为N末端His6-MBP或His6融合蛋白。将表达载体转化到BL21(DE3)大肠杆菌细胞中,并在37℃下在LB肉汤中生长。对于蛋白质表达,将细胞在对数中期期间用0.4mM IPTG(异丙基β-D-1-硫代吡喃半乳糖苷)诱导,并在16℃下孵育过夜。所有后续步骤均在4℃下进行。将细胞沉淀重悬于裂解缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mMTCEP、10mM咪唑)0.5%Triton X-100中并补充有完全蛋白酶抑制剂混合物(Roche),然后通过超声处理裂解。将裂解液通过在15000g下离心40分钟澄清,并分批施加到Superflow Ni-NTA琼脂糖(Qiagen)。将树脂用洗涤缓冲液A(50mM Tris-HCl pH 8、500mM NaCl、1mM TCEP、10mM咪唑)充分洗涤,然后用5倍柱体积的洗涤缓冲液B(50mM Tris-HCl pH 8、1M NaCl、1mMTCEP、10mM咪唑)洗涤。用洗脱缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mM TCEP、300mM咪唑)从Ni-NTA树脂上洗脱蛋白质。在针对洗涤缓冲液A过夜透析期间,通过TEV蛋白酶除去His6-MBP标签。通过第二个Ni-NTA琼脂糖柱从亲和标签上取出切割的Cas9。将蛋白质透析到IEX缓冲液A(50mM Tris-HCl pH 7.5、300mM NaCl、1mM TCEP、5%甘油)中,然后施加到5mL肝素HiTrap柱(GE Life Sciences)。以线性NaCl(0.3-1.5M)梯度洗脱Cas9。将级分合并并用30kDa旋转浓缩器(Thermo Fisher)进行浓缩。适用时,将Cas9在Superdex 200pg柱(GELife Sciences)上通过尺寸排阻色谱法进一步纯化,并储存在IEX缓冲液A中以用于随后的切割测定。对于酵母表达,将AR1-Cas9克隆到Gal1/10His6-MBP TEV Ura酿酒酵母表达载体(Addgene质粒#48305)中。将载体转化到BY4741URA3菌株中,并使培养物在30℃下在培养基中生长。在~0.6的OD600下,用2%w/v半乳糖诱导蛋白质表达,并在16℃下孵育过夜。如上进行蛋白质纯化。
RNA体外转录和寡核苷酸纯化
如前所述65,使用含有T7启动子序列的合成DNA模板进行体外转录反应。通过变性PAGE纯化所有体外转录的指导RNA和靶RNA或DNA。通过在95℃孵育1分钟,将双链靶RNA和DNA在20mM Tris HCl pH 7.5和100mM NaCl中杂交,然后缓慢冷却至室温。通过天然PAGE纯化杂交体。
体外切割测定
使用T4多核苷酸激酶(NEB)和[γ-32P]ATP(Perkin-Elmer)将纯化的DNA和RNA寡核苷酸在1x PNK缓冲液中在37℃下进行放射标记30分钟。将PNK在65℃下加热灭活20分钟,并使用illustra Microspin G-25柱(GE Life Sciences)从标记反应中去除游离ATP。将CrRNA和tracrRNA以等摩尔量在1x重折叠缓冲液(50mM Tris HCl pH 7.5、300mM NaCl、1mMTCEP、5%甘油)中混合,并在70℃下孵育5分钟,并且然后缓慢冷却至室温。将反应补充至1mM最终金属浓度,并且随后在50℃下加热5分钟。缓慢冷却至室温后,将重折叠的指导物置于冰上。除非针对缓冲液、盐浓度说明,否则将Cas9与等摩尔量的指导物在37℃下在1x切割缓冲液(50mM Tris HCl pH 7.5、300mM NaCl、1mM TCEP、5%甘油、5mM二价金属)中重构10分钟。切割反应在具有放射标记的靶标的10x过量Cas9指导复合物的1x切割缓冲液中在37℃或指定温度下进行。在等体积的补充有50mM EDTA的凝胶上样缓冲液中淬灭反应。将切割产物在10%变性PAGE上分离并通过磷光成像可视化。
体内大肠杆菌干扰测定
如先前公布的,进行AR1-Cas9和AR4-Cas9的大肠杆菌转化测定。简而言之,用指导RNA转化的大肠杆菌被制成电感受态。然后用9fmol编码野生型或无催化活性的Cas9(dCas9)的质粒转化细胞。将稀释系列的恢复细胞铺板在具有选择性抗生素的LB平板上。在37℃下16小时后对菌落进行计数。
表1.有关鉴定CRISPR-Cas系统的生物体和基因组位置的详细信息,以及重建间隔序列的数量和平均长度和重复序列长度的信息(NA,不可用)。由16个样品重建ARMAN-1间隔序列。
虽然本发明已经参考其特定实施方案进行描述,但是本领域技术人员应理解,可在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外,为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围,可进行许多修改。所有此类修改意图处于所附权利要求的范围内。
序列表
<110> Doudna, Jennifer A
Burstein, David
Banfield, Jillian F
Harrington, Lucas B
Strutt, Steven C
<120> RNA指导的核酸修饰酶及其使用方法
<130> BERK-342WO
<150> US 62/402,846
<151> 2016-09-30
<160> 136
<170> PatentIn 3.5版
<210> 1
<211> 986
<212> PRT
<213> 未知(Unknown)
<220>
<223> 从未知的δ变形菌门的宏转录组序列数据中鉴定
<400> 1
Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn
1 5 10 15
Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Lys Thr Leu Leu Val
20 25 30
Arg Val Met Thr Asp Asp Leu Lys Lys Arg Leu Glu Lys Arg Arg Lys
35 40 45
Lys Pro Glu Val Met Pro Gln Val Ile Ser Asn Asn Ala Ala Asn Asn
50 55 60
Leu Arg Met Leu Leu Asp Asp Tyr Thr Lys Met Lys Glu Ala Ile Leu
65 70 75 80
Gln Val Tyr Trp Gln Glu Phe Lys Asp Asp His Val Gly Leu Met Cys
85 90 95
Lys Phe Ala Gln Pro Ala Ser Lys Lys Ile Asp Gln Asn Lys Leu Lys
100 105 110
Pro Glu Met Asp Glu Lys Gly Asn Leu Thr Thr Ala Gly Phe Ala Cys
115 120 125
Ser Gln Cys Gly Gln Pro Leu Phe Val Tyr Lys Leu Glu Gln Val Ser
130 135 140
Glu Lys Gly Lys Ala Tyr Thr Asn Tyr Phe Gly Arg Cys Asn Val Ala
145 150 155 160
Glu His Glu Lys Leu Ile Leu Leu Ala Gln Leu Lys Pro Glu Lys Asp
165 170 175
Ser Asp Glu Ala Val Thr Tyr Ser Leu Gly Lys Phe Gly Gln Arg Ala
180 185 190
Leu Asp Phe Tyr Ser Ile His Val Thr Lys Glu Ser Thr His Pro Val
195 200 205
Lys Pro Leu Ala Gln Ile Ala Gly Asn Arg Tyr Ala Ser Gly Pro Val
210 215 220
Gly Lys Ala Leu Ser Asp Ala Cys Met Gly Thr Ile Ala Ser Phe Leu
225 230 235 240
Ser Lys Tyr Gln Asp Ile Ile Ile Glu His Gln Lys Val Val Lys Gly
245 250 255
Asn Gln Lys Arg Leu Glu Ser Leu Arg Glu Leu Ala Gly Lys Glu Asn
260 265 270
Leu Glu Tyr Pro Ser Val Thr Leu Pro Pro Gln Pro His Thr Lys Glu
275 280 285
Gly Val Asp Ala Tyr Asn Glu Val Ile Ala Arg Val Arg Met Trp Val
290 295 300
Asn Leu Asn Leu Trp Gln Lys Leu Lys Leu Ser Arg Asp Asp Ala Lys
305 310 315 320
Pro Leu Leu Arg Leu Lys Gly Phe Pro Ser Phe Pro Val Val Glu Arg
325 330 335
Arg Glu Asn Glu Val Asp Trp Trp Asn Thr Ile Asn Glu Val Lys Lys
340 345 350
Leu Ile Asp Ala Lys Arg Asp Met Gly Arg Val Phe Trp Ser Gly Val
355 360 365
Thr Ala Glu Lys Arg Asn Thr Ile Leu Glu Gly Tyr Asn Tyr Leu Pro
370 375 380
Asn Glu Asn Asp His Lys Lys Arg Glu Gly Ser Leu Glu Asn Pro Lys
385 390 395 400
Lys Pro Ala Lys Arg Gln Phe Gly Asp Leu Leu Leu Tyr Leu Glu Lys
405 410 415
Lys Tyr Ala Gly Asp Trp Gly Lys Val Phe Asp Glu Ala Trp Glu Arg
420 425 430
Ile Asp Lys Lys Ile Ala Gly Leu Thr Ser His Ile Glu Arg Glu Glu
435 440 445
Ala Arg Asn Ala Glu Asp Ala Gln Ser Lys Ala Val Leu Thr Asp Trp
450 455 460
Leu Arg Ala Lys Ala Ser Phe Val Leu Glu Arg Leu Lys Glu Met Asp
465 470 475 480
Glu Lys Glu Phe Tyr Ala Cys Glu Ile Gln Leu Gln Lys Trp Tyr Gly
485 490 495
Asp Leu Arg Gly Asn Pro Phe Ala Val Glu Ala Glu Asn Arg Val Val
500 505 510
Asp Ile Ser Gly Phe Ser Ile Gly Ser Asp Gly His Ser Ile Gln Tyr
515 520 525
Arg Asn Leu Leu Ala Trp Lys Tyr Leu Glu Asn Gly Lys Arg Glu Phe
530 535 540
Tyr Leu Leu Met Asn Tyr Gly Lys Lys Gly Arg Ile Arg Phe Thr Asp
545 550 555 560
Gly Thr Asp Ile Lys Lys Ser Gly Lys Trp Gln Gly Leu Leu Tyr Gly
565 570 575
Gly Gly Lys Ala Lys Val Ile Asp Leu Thr Phe Asp Pro Asp Asp Glu
580 585 590
Gln Leu Ile Ile Leu Pro Leu Ala Phe Gly Thr Arg Gln Gly Arg Glu
595 600 605
Phe Ile Trp Asn Asp Leu Leu Ser Leu Glu Thr Gly Leu Ile Lys Leu
610 615 620
Ala Asn Gly Arg Val Ile Glu Lys Thr Ile Tyr Asn Lys Lys Ile Gly
625 630 635 640
Arg Asp Glu Pro Ala Leu Phe Val Ala Leu Thr Phe Glu Arg Arg Glu
645 650 655
Val Val Asp Pro Ser Asn Ile Lys Pro Val Asn Leu Ile Gly Val Asp
660 665 670
Arg Gly Glu Asn Ile Pro Ala Val Ile Ala Leu Thr Asp Pro Glu Gly
675 680 685
Cys Pro Leu Pro Glu Phe Lys Asp Ser Ser Gly Gly Pro Thr Asp Ile
690 695 700
Leu Arg Ile Gly Glu Gly Tyr Lys Glu Lys Gln Arg Ala Ile Gln Ala
705 710 715 720
Ala Lys Glu Val Glu Gln Arg Arg Ala Gly Gly Tyr Ser Arg Lys Phe
725 730 735
Ala Ser Lys Ser Arg Asn Leu Ala Asp Asp Met Val Arg Asn Ser Ala
740 745 750
Arg Asp Leu Phe Tyr His Ala Val Thr His Asp Ala Val Leu Val Phe
755 760 765
Glu Asn Leu Ser Arg Gly Phe Gly Arg Gln Gly Lys Arg Thr Phe Met
770 775 780
Thr Glu Arg Gln Tyr Thr Lys Met Glu Asp Trp Leu Thr Ala Lys Leu
785 790 795 800
Ala Tyr Glu Gly Leu Thr Ser Lys Thr Tyr Leu Ser Lys Thr Leu Ala
805 810 815
Gln Tyr Thr Ser Lys Thr Cys Ser Asn Cys Gly Phe Thr Ile Thr Thr
820 825 830
Ala Asp Tyr Asp Gly Met Leu Val Arg Leu Lys Lys Thr Ser Asp Gly
835 840 845
Trp Ala Thr Thr Leu Asn Asn Lys Glu Leu Lys Ala Glu Gly Gln Ile
850 855 860
Thr Tyr Tyr Asn Arg Tyr Lys Arg Gln Thr Val Glu Lys Glu Leu Ser
865 870 875 880
Ala Glu Leu Asp Arg Leu Ser Glu Glu Ser Gly Asn Asn Asp Ile Ser
885 890 895
Lys Trp Thr Lys Gly Arg Arg Asp Glu Ala Leu Phe Leu Leu Lys Lys
900 905 910
Arg Phe Ser His Arg Pro Val Gln Glu Gln Phe Val Cys Leu Asp Cys
915 920 925
Gly His Glu Val His Ala Asp Glu Gln Ala Ala Leu Asn Ile Ala Arg
930 935 940
Ser Trp Leu Phe Leu Asn Ser Asn Ser Thr Glu Phe Lys Ser Tyr Lys
945 950 955 960
Ser Gly Lys Gln Pro Phe Val Gly Ala Trp Gln Ala Phe Tyr Lys Arg
965 970 975
Arg Leu Lys Glu Val Trp Lys Pro Asn Ala
980 985
<210> 2
<211> 978
<212> PRT
<213> 未知(Unknown)
<220>
<223> 从未知的浮霉菌门的宏转录组序列数据中鉴定
<400> 2
Met Gln Glu Ile Lys Arg Ile Asn Lys Ile Arg Arg Arg Leu Val Lys
1 5 10 15
Asp Ser Asn Thr Lys Lys Ala Gly Lys Thr Gly Pro Met Lys Thr Leu
20 25 30
Leu Val Arg Val Met Thr Pro Asp Leu Arg Glu Arg Leu Glu Asn Leu
35 40 45
Arg Lys Lys Pro Glu Asn Ile Pro Gln Pro Ile Ser Asn Thr Ser Arg
50 55 60
Ala Asn Leu Asn Lys Leu Leu Thr Asp Tyr Thr Glu Met Lys Lys Ala
65 70 75 80
Ile Leu His Val Tyr Trp Glu Glu Phe Gln Lys Asp Pro Val Gly Leu
85 90 95
Met Ser Arg Val Ala Gln Pro Ala Pro Lys Asn Ile Asp Gln Arg Lys
100 105 110
Leu Ile Pro Val Lys Asp Gly Asn Glu Arg Leu Thr Ser Ser Gly Phe
115 120 125
Ala Cys Ser Gln Cys Cys Gln Pro Leu Tyr Val Tyr Lys Leu Glu Gln
130 135 140
Val Asn Asp Lys Gly Lys Pro His Thr Asn Tyr Phe Gly Arg Cys Asn
145 150 155 160
Val Ser Glu His Glu Arg Leu Ile Leu Leu Ser Pro His Lys Pro Glu
165 170 175
Ala Asn Asp Glu Leu Val Thr Tyr Ser Leu Gly Lys Phe Gly Gln Arg
180 185 190
Ala Leu Asp Phe Tyr Ser Ile His Val Thr Arg Glu Ser Asn His Pro
195 200 205
Val Lys Pro Leu Glu Gln Ile Gly Gly Asn Ser Cys Ala Ser Gly Pro
210 215 220
Val Gly Lys Ala Leu Ser Asp Ala Cys Met Gly Ala Val Ala Ser Phe
225 230 235 240
Leu Thr Lys Tyr Gln Asp Ile Ile Leu Glu His Gln Lys Val Ile Lys
245 250 255
Lys Asn Glu Lys Arg Leu Ala Asn Leu Lys Asp Ile Ala Ser Ala Asn
260 265 270
Gly Leu Ala Phe Pro Lys Ile Thr Leu Pro Pro Gln Pro His Thr Lys
275 280 285
Glu Gly Ile Glu Ala Tyr Asn Asn Val Val Ala Gln Ile Val Ile Trp
290 295 300
Val Asn Leu Asn Leu Trp Gln Lys Leu Lys Ile Gly Arg Asp Glu Ala
305 310 315 320
Lys Pro Leu Gln Arg Leu Lys Gly Phe Pro Ser Phe Pro Leu Val Glu
325 330 335
Arg Gln Ala Asn Glu Val Asp Trp Trp Asp Met Val Cys Asn Val Lys
340 345 350
Lys Leu Ile Asn Glu Lys Lys Glu Asp Gly Lys Val Phe Trp Gln Asn
355 360 365
Leu Ala Gly Tyr Lys Arg Gln Glu Ala Leu Leu Pro Tyr Leu Ser Ser
370 375 380
Glu Glu Asp Arg Lys Lys Gly Lys Lys Phe Ala Arg Tyr Gln Phe Gly
385 390 395 400
Asp Leu Leu Leu His Leu Glu Lys Lys His Gly Glu Asp Trp Gly Lys
405 410 415
Val Tyr Asp Glu Ala Trp Glu Arg Ile Asp Lys Lys Val Glu Gly Leu
420 425 430
Ser Lys His Ile Lys Leu Glu Glu Glu Arg Arg Ser Glu Asp Ala Gln
435 440 445
Ser Lys Ala Ala Leu Thr Asp Trp Leu Arg Ala Lys Ala Ser Phe Val
450 455 460
Ile Glu Gly Leu Lys Glu Ala Asp Lys Asp Glu Phe Cys Arg Cys Glu
465 470 475 480
Leu Lys Leu Gln Lys Trp Tyr Gly Asp Leu Arg Gly Lys Pro Phe Ala
485 490 495
Ile Glu Ala Glu Asn Ser Ile Leu Asp Ile Ser Gly Phe Ser Lys Gln
500 505 510
Tyr Asn Cys Ala Phe Ile Trp Gln Lys Asp Gly Val Lys Lys Leu Asn
515 520 525
Leu Tyr Leu Ile Ile Asn Tyr Phe Lys Gly Gly Lys Leu Arg Phe Lys
530 535 540
Lys Ile Lys Pro Glu Ala Phe Glu Ala Asn Arg Phe Tyr Thr Val Ile
545 550 555 560
Asn Lys Lys Ser Gly Glu Ile Val Pro Met Glu Val Asn Phe Asn Phe
565 570 575
Asp Asp Pro Asn Leu Ile Ile Leu Pro Leu Ala Phe Gly Lys Arg Gln
580 585 590
Gly Arg Glu Phe Ile Trp Asn Asp Leu Leu Ser Leu Glu Thr Gly Ser
595 600 605
Leu Lys Leu Ala Asn Gly Arg Val Ile Glu Lys Thr Leu Tyr Asn Arg
610 615 620
Arg Thr Arg Gln Asp Glu Pro Ala Leu Phe Val Ala Leu Thr Phe Glu
625 630 635 640
Arg Arg Glu Val Leu Asp Ser Ser Asn Ile Lys Pro Met Asn Leu Ile
645 650 655
Gly Ile Asp Arg Gly Glu Asn Ile Pro Ala Val Ile Ala Leu Thr Asp
660 665 670
Pro Glu Gly Cys Pro Leu Ser Arg Phe Lys Asp Ser Leu Gly Asn Pro
675 680 685
Thr His Ile Leu Arg Ile Gly Glu Ser Tyr Lys Glu Lys Gln Arg Thr
690 695 700
Ile Gln Ala Ala Lys Glu Val Glu Gln Arg Arg Ala Gly Gly Tyr Ser
705 710 715 720
Arg Lys Tyr Ala Ser Lys Ala Lys Asn Leu Ala Asp Asp Met Val Arg
725 730 735
Asn Thr Ala Arg Asp Leu Leu Tyr Tyr Ala Val Thr Gln Asp Ala Met
740 745 750
Leu Ile Phe Glu Asn Leu Ser Arg Gly Phe Gly Arg Gln Gly Lys Arg
755 760 765
Thr Phe Met Ala Glu Arg Gln Tyr Thr Arg Met Glu Asp Trp Leu Thr
770 775 780
Ala Lys Leu Ala Tyr Glu Gly Leu Pro Ser Lys Thr Tyr Leu Ser Lys
785 790 795 800
Thr Leu Ala Gln Tyr Thr Ser Lys Thr Cys Ser Asn Cys Gly Phe Thr
805 810 815
Ile Thr Ser Ala Asp Tyr Asp Arg Val Leu Glu Lys Leu Lys Lys Thr
820 825 830
Ala Thr Gly Trp Met Thr Thr Ile Asn Gly Lys Glu Leu Lys Val Glu
835 840 845
Gly Gln Ile Thr Tyr Tyr Asn Arg Tyr Lys Arg Gln Asn Val Val Lys
850 855 860
Asp Leu Ser Val Glu Leu Asp Arg Leu Ser Glu Glu Ser Val Asn Asn
865 870 875 880
Asp Ile Ser Ser Trp Thr Lys Gly Arg Ser Gly Glu Ala Leu Ser Leu
885 890 895
Leu Lys Lys Arg Phe Ser His Arg Pro Val Gln Glu Lys Phe Val Cys
900 905 910
Leu Asn Cys Gly Phe Glu Thr His Ala Asp Glu Gln Ala Ala Leu Asn
915 920 925
Ile Ala Arg Ser Trp Leu Phe Leu Arg Ser Gln Glu Tyr Lys Lys Tyr
930 935 940
Gln Thr Asn Lys Thr Thr Gly Asn Thr Asp Lys Arg Ala Phe Val Glu
945 950 955 960
Thr Trp Gln Ser Phe Tyr Arg Lys Lys Leu Lys Glu Val Trp Lys Pro
965 970 975
Ala Val
<210> 3
<211> 855
<212> PRT
<213> 未知(Unknown)
<220>
<223> 从未知的Candidatus Sungbacteria细菌的宏转录组序列数据中鉴定
<400> 3
Met Asp Asn Ala Asn Lys Pro Ser Thr Lys Ser Leu Val Asn Thr Thr
1 5 10 15
Arg Ile Ser Asp His Phe Gly Val Thr Pro Gly Gln Val Thr Arg Val
20 25 30
Phe Ser Phe Gly Ile Ile Pro Thr Lys Arg Gln Tyr Ala Ile Ile Glu
35 40 45
Arg Trp Phe Ala Ala Val Glu Ala Ala Arg Glu Arg Leu Tyr Gly Met
50 55 60
Leu Tyr Ala His Phe Gln Glu Asn Pro Pro Ala Tyr Leu Lys Glu Lys
65 70 75 80
Phe Ser Tyr Glu Thr Phe Phe Lys Gly Arg Pro Val Leu Asn Gly Leu
85 90 95
Arg Asp Ile Asp Pro Thr Ile Met Thr Ser Ala Val Phe Thr Ala Leu
100 105 110
Arg His Lys Ala Glu Gly Ala Met Ala Ala Phe His Thr Asn His Arg
115 120 125
Arg Leu Phe Glu Glu Ala Arg Lys Lys Met Arg Glu Tyr Ala Glu Cys
130 135 140
Leu Lys Ala Asn Glu Ala Leu Leu Arg Gly Ala Ala Asp Ile Asp Trp
145 150 155 160
Asp Lys Ile Val Asn Ala Leu Arg Thr Arg Leu Asn Thr Cys Leu Ala
165 170 175
Pro Glu Tyr Asp Ala Val Ile Ala Asp Phe Gly Ala Leu Cys Ala Phe
180 185 190
Arg Ala Leu Ile Ala Glu Thr Asn Ala Leu Lys Gly Ala Tyr Asn His
195 200 205
Ala Leu Asn Gln Met Leu Pro Ala Leu Val Lys Val Asp Glu Pro Glu
210 215 220
Glu Ala Glu Glu Ser Pro Arg Leu Arg Phe Phe Asn Gly Arg Ile Asn
225 230 235 240
Asp Leu Pro Lys Phe Pro Val Ala Glu Arg Glu Thr Pro Pro Asp Thr
245 250 255
Glu Thr Ile Ile Arg Gln Leu Glu Asp Met Ala Arg Val Ile Pro Asp
260 265 270
Thr Ala Glu Ile Leu Gly Tyr Ile His Arg Ile Arg His Lys Ala Ala
275 280 285
Arg Arg Lys Pro Gly Ser Ala Val Pro Leu Pro Gln Arg Val Ala Leu
290 295 300
Tyr Cys Ala Ile Arg Met Glu Arg Asn Pro Glu Glu Asp Pro Ser Thr
305 310 315 320
Val Ala Gly His Phe Leu Gly Glu Ile Asp Arg Val Cys Glu Lys Arg
325 330 335
Arg Gln Gly Leu Val Arg Thr Pro Phe Asp Ser Gln Ile Arg Ala Arg
340 345 350
Tyr Met Asp Ile Ile Ser Phe Arg Ala Thr Leu Ala His Pro Asp Arg
355 360 365
Trp Thr Glu Ile Gln Phe Leu Arg Ser Asn Ala Ala Ser Arg Arg Val
370 375 380
Arg Ala Glu Thr Ile Ser Ala Pro Phe Glu Gly Phe Ser Trp Thr Ser
385 390 395 400
Asn Arg Thr Asn Pro Ala Pro Gln Tyr Gly Met Ala Leu Ala Lys Asp
405 410 415
Ala Asn Ala Pro Ala Asp Ala Pro Glu Leu Cys Ile Cys Leu Ser Pro
420 425 430
Ser Ser Ala Ala Phe Ser Val Arg Glu Lys Gly Gly Asp Leu Ile Tyr
435 440 445
Met Arg Pro Thr Gly Gly Arg Arg Gly Lys Asp Asn Pro Gly Lys Glu
450 455 460
Ile Thr Trp Val Pro Gly Ser Phe Asp Glu Tyr Pro Ala Ser Gly Val
465 470 475 480
Ala Leu Lys Leu Arg Leu Tyr Phe Gly Arg Ser Gln Ala Arg Arg Met
485 490 495
Leu Thr Asn Lys Thr Trp Gly Leu Leu Ser Asp Asn Pro Arg Val Phe
500 505 510
Ala Ala Asn Ala Glu Leu Val Gly Lys Lys Arg Asn Pro Gln Asp Arg
515 520 525
Trp Lys Leu Phe Phe His Met Val Ile Ser Gly Pro Pro Pro Val Glu
530 535 540
Tyr Leu Asp Phe Ser Ser Asp Val Arg Ser Arg Ala Arg Thr Val Ile
545 550 555 560
Gly Ile Asn Arg Gly Glu Val Asn Pro Leu Ala Tyr Ala Val Val Ser
565 570 575
Val Glu Asp Gly Gln Val Leu Glu Glu Gly Leu Leu Gly Lys Lys Glu
580 585 590
Tyr Ile Asp Gln Leu Ile Glu Thr Arg Arg Arg Ile Ser Glu Tyr Gln
595 600 605
Ser Arg Glu Gln Thr Pro Pro Arg Asp Leu Arg Gln Arg Val Arg His
610 615 620
Leu Gln Asp Thr Val Leu Gly Ser Ala Arg Ala Lys Ile His Ser Leu
625 630 635 640
Ile Ala Phe Trp Lys Gly Ile Leu Ala Ile Glu Arg Leu Asp Asp Gln
645 650 655
Phe His Gly Arg Glu Gln Lys Ile Ile Pro Lys Lys Thr Tyr Leu Ala
660 665 670
Asn Lys Thr Gly Phe Met Asn Ala Leu Ser Phe Ser Gly Ala Val Arg
675 680 685
Val Asp Lys Lys Gly Asn Pro Trp Gly Gly Met Ile Glu Ile Tyr Pro
690 695 700
Gly Gly Ile Ser Arg Thr Cys Thr Gln Cys Gly Thr Val Trp Leu Ala
705 710 715 720
Arg Arg Pro Lys Asn Pro Gly His Arg Asp Ala Met Val Val Ile Pro
725 730 735
Asp Ile Val Asp Asp Ala Ala Ala Thr Gly Phe Asp Asn Val Asp Cys
740 745 750
Asp Ala Gly Thr Val Asp Tyr Gly Glu Leu Phe Thr Leu Ser Arg Glu
755 760 765
Trp Val Arg Leu Thr Pro Arg Tyr Ser Arg Val Met Arg Gly Thr Leu
770 775 780
Gly Asp Leu Glu Arg Ala Ile Arg Gln Gly Asp Asp Arg Lys Ser Arg
785 790 795 800
Gln Met Leu Glu Leu Ala Leu Glu Pro Gln Pro Gln Trp Gly Gln Phe
805 810 815
Phe Cys His Arg Cys Gly Phe Asn Gly Gln Ser Asp Val Leu Ala Ala
820 825 830
Thr Asn Leu Ala Arg Arg Ala Ile Ser Leu Ile Arg Arg Leu Pro Asp
835 840 845
Thr Asp Thr Pro Pro Thr Pro
850 855
<210> 4
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 4
Ala Ala Ala Ala
1
<210> 5
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 5
Ala Ala Ala Ala
1
<210> 6
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 6
Ala Ala Ala Ala
1
<210> 7
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 7
Ala Ala Ala Ala
1
<210> 8
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 8
Ala Ala Ala Ala
1
<210> 9
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 9
Ala Ala Ala Ala
1
<210> 10
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 10
Ala Ala Ala Ala
1
<210> 11
<211> 23
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 11
ccgauaagua aaacgcauca aag 23
<210> 12
<211> 37
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 12
auuugaaggu aucuccgaua aguaaaacgc aucaaag 37
<210> 13
<211> 26
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 13
ucuccgauaa auaagaagca ucaaag 26
<210> 14
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 14
guuuacacac ucccucucau agggu 25
<210> 15
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 15
guuuacacac ucccucucau gaggu 25
<210> 16
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 16
uuuuacauac ccccucucau gggau 25
<210> 17
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 17
guuuacacac ucccucucau ggggg 25
<210> 18
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 18
aaaaaaaaaa 10
<210> 19
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 19
aaaaaaaaaa 10
<210> 20
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 20
aaaaaaaaaa 10
<210> 21
<211> 81
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 21
acaucuggcg cguuuauucc auuacuuugg agccaguccc agcgacuaug ucguauggac 60
gaagcgcuua uuuaucggag a 81
<210> 22
<211> 78
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 22
acaucuggcg cguuuauucc auuacuuugg agccaguccc agcgacuaug ucguauggac 60
gaagcgcuua uuuaucgg 78
<210> 23
<211> 65
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 23
uuauuccauu acuuuggagc cagucccagc gacuaugucg uauggacgaa gcgcuuauuu 60
aucgg 65
<210> 24
<211> 93
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 24
aaguaguaaa uuacaucugg cgcguuuauu ccauuacuuu ggagccaguc ccagcgacua 60
ugucguaugg acgaagcgcu uauuuaucgg aga 93
<210> 25
<211> 68
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 25
uuauuccauu acuuuggagc cagucccagc gacuaugucg uauggacgaa gcgcuuauuu 60
aucggaga 68
<210> 26
<211> 69
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 26
uuaucucauu acuuugagag ccaucaccag cgacuauguc guauggguaa agcgcuuauu 60
uaucggaga 69
<210> 27
<211> 66
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 27
uuaucucauu acuuugagag ccaucaccag cgacuauguc guauggguaa agcgcuuauu 60
uaucgg 66
<210> 28
<211> 230
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 28
uaaauuuuuu gagcccuauc uccgcgagga agacagggcu cuuuucauga gaggaagcuu 60
uuauacccga ccgguaaucc ggucggggga uuggccguug aaacgauuuu aaagcggcca 120
augggccccu cuauauggau acuacuuaua uaaggagcuu ggggaagaag auagcuuaau 180
cccgcuaucu ugucaagggg uugggggagu aucaguaucc ggcaggcgcc 230
<210> 29
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 29
aaaaaaaaaa 10
<210> 30
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 30
aaaaaaaaaa 10
<210> 31
<211> 45
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (26)..(45)
<223> n为a、c、g或u
<400> 31
guuuacacac ucccucucau agggunnnnn nnnnnnnnnn nnnnn 45
<210> 32
<211> 45
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (26)..(45)
<223> n为a、c、g或u
<400> 32
guuuacacac ucccucucau gaggunnnnn nnnnnnnnnn nnnnn 45
<210> 33
<211> 45
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (26)..(45)
<223> n为a、c、g或u
<400> 33
uuuuacauac ccccucucau gggaunnnnn nnnnnnnnnn nnnnn 45
<210> 34
<211> 45
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (26)..(45)
<223> n为a、c、g或u
<400> 34
guuuacacac ucccucucau gggggnnnnn nnnnnnnnnn nnnnn 45
<210> 35
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 35
aaaaaaaaaa 10
<210> 36
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 36
aaaaaaaaaa 10
<210> 37
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 37
aaaaaaaaaa 10
<210> 38
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 38
aaaaaaaaaa 10
<210> 39
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 39
aaaaaaaaaa 10
<210> 40
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 40
aaaaaaaaaa 10
<210> 41
<211> 92
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 41
uuauuccauu acuuuggagc cagucccagc gacuaugucg uauggacgaa gcgcuuauuu 60
aucgggaaac cgauaaguaa aacgcaucaa ag 92
<210> 42
<211> 108
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 42
acaucuggcg cguuuauucc auuacuuugg agccaguccc agcgacuaug ucguauggac 60
gaagcgcuua uuuaucggag agaaaccgau aaguaaaacg caucaaag 108
<210> 43
<211> 96
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 43
uuaucucauu acuuugagag ccaucaccag cgacuauguc guauggguaa agcgcuuauu 60
uaucgggaaa ucuccgauaa auaagaagca ucaaag 96
<210> 44
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 44
aaaaaaaaaa 10
<210> 45
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 45
aaaaaaaaaa 10
<210> 46
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 46
aaaaaaaaaa 10
<210> 47
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 47
aaaaaaaaaa 10
<210> 48
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 48
aaaaaaaaaa 10
<210> 49
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 49
aaaaaaaaaa 10
<210> 50
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 50
aaaaaaaaaa 10
<210> 51
<211> 25368
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 51
ctggaaggac gcatggcaga aatcgttttt tactgttttt gccgataggg atagtttttg 60
cttcttgaca tgctttttca tagatgacag attaaggact tttacaagag gctaacattg 120
ctttgttttt caaaaacaac ttaagaagat agtctatcat gcaaaaatct atagaggtta 180
ttgatgttat aaagatatac aagatgggag atgtagattt tccagcgctt caaggggttt 240
ctcttgagat agacaaaggg gaattcgtgg cagtaatggg gccgtcaggt tctggaaaat 300
ctacattcat gaacatcata ggctgtctcg atacgcctac tgccggaaaa tattggttgg 360
ataggcagga agtcgggcaa ttaagcaaag atgtgttggc aattatacgc aataaaaata 420
tagggtttgt atttcagagc tttaacctgc tgccaaggat aactgcaatg gaaaatgttg 480
aactccccct tttgtataac ggtttgccgt caagggagag aagacaaagg tctctttcag 540
cattgaggtc tgttgggctt gaagggaggg aatatcacaa atccaatcaa ttatcaggcg 600
ggcagcaaca gagggttgcc atagcaaggg cattggtaaa taatccatct ctcattctgg 660
ctgatgaacc aaccggcaat cttgattccc aaacaagcaa tgaacttatg acgcttttta 720
agcggctcaa taaggaaaac ggcataacta ttgttatggt aacccatgag gcagatgttg 780
cccggtatgc tgacaggcat attgttttta aggacggaag ggtggtaaaa gacgataaaa 840
ttacgaatta atcttgcaat tccctgtagc ttgctgcagg gttactttat agttccctcc 900
cccttgatgg gggagggtta gggtgggggt gatagaatgt tgtttccacc ctcccctttg 960
tcccctcccg tcaagagagg ggagatttta ggataccccg cagcttgccg cggggaggtt 1020
cattaactac gaattttaaa aaaaccattc agatgtctta gcaggctgtt gaaaaagtca 1080
tcaacagcct tgattacaca gattataaaa aatgattaca cagatatttc aaggagtttc 1140
aatctgtgta atccaatctt ttctctgtgt aatcagagat tgttgagttt ttcaacaatc 1200
tgttaatttt taattcttac ttcataattg ctttcctatg aacataatcg caaccattaa 1260
aatagccgcc aatgccctgg gcataaataa aatgaggtca ggccttacca tgcttggcat 1320
aataatcggc gtggccgctg ttatagccat gctctctgta ggctcaggcg caaggactca 1380
gatttctaaa gagattgcca gcctcggctc caaccttttg ataattctgc ctggcgcgcc 1440
caccagcggc ggactcagaa tgggttttgg aacagcgccc acgttgacat ccgatgatgc 1500
aaaggcaata cctcaggaaa tatctaatgt tgcatttgca gcgccgattt taggcggcac 1560
agcgcagata gtatacggaa atcaaaactg gagcaccatt gtgacaggca caacaccggg 1620
tttttttgat atacgggaat ggcagcttga ctcaggcgct ctgtttaccc agaaggatgt 1680
tgatggcgca acaaaggttg cattggttgg ccagactgtt acggaaaacc tttttggata 1740
tgaggaccca ttgggaaaga ttataagaat aaaaaagata ccatttagag tcatcggggt 1800
cttatccaga aaagggcagt ctcctattgg ccaggatcag gatgacagca tatatatacc 1860
ggtaacaact gcgcaaaaga ggctttttgg cacaacattt cccggcatgg tgaggatgat 1920
aaccgtaaag gcgaaaacct ctgatgcaat caaagatgct gaaaaggaga ttgcggcatt 1980
actgagacag agacatcata ttacagccgg gagggacgaa gatgatttca gcgtccgcaa 2040
tcttagtgaa atgatggctg catctgaaca ggcggcaaaa atcatgtcca tcctcctcgg 2100
ctctattgcg tcggtatctt taatagtcgg cggcataggc attatgaaca tcatgcttgt 2160
ctctgtaaca gaaaggacaa gagagatagg catccgcatg gcagtcggcg caaggcccag 2220
agatatactc atgcagtttc ttatagaagc catagtcctt gctgtcattg gcggcagtat 2280
aggtattctg tgcggcgccg gaggctcatg gcttatttca tactttgccg gctgggagat 2340
agccatatcc tctgttgcta tagttcttgc attcggtttt tccgcgttag tcggaatatt 2400
cttcggtttt tatccggcca gaaaggcgtc ccgccttgcg ccggtggagt gtttgaggta 2460
tgaataagtt gtggtttgca ggcaaactcc attttcgttt tataatccgg agcggactgg 2520
gtttgtctgg ctgggttgcg gcattacaga ggaagtaaat ttgggaaact gttataaaaa 2580
aggttgaaat acatatctgt tctgcttata ataagaatat cagataatca gaaaggagga 2640
atttatatgc ctgttgtcaa aatgagggaa aggggacaac taaccatccc atacgaatac 2700
aggaaagatc tcggcattgg caaggaagat atgctcaatg tcttaaaaat cggcgatgtg 2760
cttatccttg tgccgaaaca gcttgccgga gatatcgtat ccaagaaaat tgaagggacg 2820
atgaagaaaa aagggctgac acttgataac cttctaagca atctcaggga gcagagaaaa 2880
agatattcca aagagacata tgccaaagca aagacctaaa gtttttcttg acacaagcgc 2940
attgattgcc ggcatagcat cttcaagggg cgcagcaagg gctgtgctgc agcttgctga 3000
aatcggtttg atacaggtct ttgtctcaag gcaggtcatt gtggaagcag acaggaatat 3060
tgaagaaaaa ctgccggaga tgctgaatga atacagagaa tttatcaaac tcctatcacc 3120
cgtgttagtt gatgacccaa gccacaagga agttgcaaaa tatttatcag taatcaattc 3180
ggatgacgcg cctatccttg cctctgcaat aacctcacac gctgatttcc ttatcacatg 3240
ggacagaaag catttcatcg gcaaaaatat ccgtatccac ttaaacctga aaatcgttac 3300
tccgggagat tttttgaagt atttcaggaa atatattgag taaaagccca cctctttggc 3360
aaagagggga atggcatttg tttgagggac gaggggactg tcccagacaa aataaattat 3420
ttttaaccgt tttttggatg tgtgttatat tctgtgaata aggagggatt gccatggatg 3480
ataaagacaa ggatttaatg ctggaattta gaaaaaggct ttcatcggat ttagcaaatc 3540
atataacacg tctcatagta ttcgggtcaa gggcgaaagg tgaagtagca gaggattctg 3600
atcttgatgt aattgccata gttgatgaaa aaaactctgc gattgaaaaa agtcttgaag 3660
atatagcgta tcggattatg tgggatcatg acttcaggcc aatcatatca ctcaaagtgc 3720
tctctgaagc ccaattcagt gacgcccttc gtagagggtt ttctttttac aggcatgtgg 3780
aaaaagaggg ggttttggta tgaccgagga agtaaaaaag ctgattgaaa aagctgaaca 3840
cgcccttgag gtagccgaaa agttaatgaa tgacggttat ccatcagatg ccgcaagcaa 3900
aatctattat tcaatgtatt atgcagcaca tgccccttta aaatcagaag gaattgatgt 3960
catcaagcac tcagccgttg aatcagcctt cgggtattac tttgcgaaga ctggaaagat 4020
taatcccaaa caccacagga tgctaataga cgcaagaaag attcgtgaaa tagccgatta 4080
tgatattcag gaagagattg ttgagccaac tgcatcgcta aaaattaaag aggggaagtc 4140
ttttttgtct gcaatcagaa aaattcttgg cagcctgtag caatggactt gacaagcgaa 4200
gtgggactgt ccaggattta cggacagagc gaagcggagt cccgaatcca atggttgtgg 4260
tttgcgggca ggcattattt tcgttttata atctggaaag aaaaaaggaa aaccccttat 4320
ggaaaagaga ataaacaaga tacgaaagaa actatcggcc gataatgcca caaagcctgt 4380
gagcaggagc ggccccatga aaacactcct tgtccgggtc atgacggacg acttgaaaaa 4440
aagactggag aagcgtcgga aaaagccgga agttatgccg caggttattt caaataacgc 4500
agcaaacaat cttagaatgc tccttgatga ctatacaaag atgaaggagg cgatactaca 4560
agtttactgg caggaattta aggacgacca tgtgggcttg atgtgcaaat ttgcccagcc 4620
tgcttccaaa aaaattgacc agaacaaact aaaaccggaa atggatgaaa aaggaaatct 4680
aacaactgcc ggttttgcat gttctcaatg cggtcagccg ctatttgttt ataagcttga 4740
acaggtgagt gaaaaaggca aggcttatac aaattacttc ggccggtgta atgtggccga 4800
gcatgagaaa ttgattcttc ttgctcaatt aaaacctgaa aaagacagtg acgaagcagt 4860
gacatactcc cttggcaaat tcggccagag ggcattggac ttttattcaa tccacgtaac 4920
aaaagaatcc acccatccag taaagcccct ggcacagatt gcgggcaacc gctatgcaag 4980
cggacctgtt ggcaaggccc tttccgatgc ctgtatgggc actatagcca gttttctttc 5040
gaaatatcaa gacatcatca tagaacatca aaaggttgtg aagggtaatc aaaagaggtt 5100
agagagtctc agggaattgg cagggaaaga aaatcttgag tacccatcgg ttacactgcc 5160
gccgcagccg catacgaaag aaggggttga cgcttataac gaagttattg caagggtacg 5220
tatgtgggtt aatcttaatc tgtggcaaaa gctgaagctc agccgtgatg acgcaaaacc 5280
gctactgcgg ctaaaaggat tcccatcttt ccctgttgtg gagcggcgtg aaaacgaagt 5340
tgactggtgg aatacgatta atgaagtaaa aaaactgatt gacgctaaac gagatatggg 5400
acgggtattc tggagcggcg ttaccgcaga aaagagaaat accatccttg aaggatacaa 5460
ctatctgcca aatgagaatg accataaaaa gagagagggc agtttggaaa accctaagaa 5520
gcctgccaaa cgccagtttg gagacctctt gctgtatctt gaaaagaaat atgccggaga 5580
ctggggaaag gtcttcgatg aggcatggga gaggatagat aagaaaatag ccggactcac 5640
aagccatata gagcgcgaag aagcaagaaa cgcggaagac gctcaatcca aagccgtact 5700
tacagactgg ctaagggcaa aggcatcatt tgttcttgaa agactgaagg aaatggatga 5760
aaaggaattc tatgcgtgtg aaatccaact tcaaaaatgg tatggcgatc ttcgaggcaa 5820
cccgtttgcc gttgaagctg agaatagagt tgttgatata agcgggtttt ctatcggaag 5880
cgatggccat tcaatccaat acagaaatct ccttgcctgg aaatatctgg agaacggcaa 5940
gcgtgaattc tatctgttaa tgaattatgg caagaaaggg cgcatcagat ttacagatgg 6000
aacagatatt aaaaagagcg gcaaatggca gggactatta tatggcggtg gcaaggcaaa 6060
ggttattgat ctgactttcg accccgatga tgaacagttg ataatcctgc cgctggcctt 6120
tggcacaagg caaggccgcg agtttatctg gaacgatttg ctgagtcttg aaacaggcct 6180
gataaagctc gcaaacggaa gagttatcga aaaaacaatc tataacaaaa aaatagggcg 6240
ggatgaaccg gctctattcg ttgccttaac atttgagcgc cgggaagttg ttgatccatc 6300
aaatataaag cctgtaaacc ttataggcgt tgaccgcggc gaaaacatcc cggcggttat 6360
tgcattgaca gaccctgaag gttgtccttt accggaattc aaggattcat cagggggccc 6420
aacagacatc ctgcgaatag gagaaggata taaggaaaag cagagggcta ttcaggcagc 6480
aaaggaggta gagcaaaggc gggctggcgg ttattcacgg aagtttgcat ccaagtcgag 6540
gaacctggcg gacgacatgg tgagaaattc agcgcgagac cttttttacc atgccgttac 6600
ccacgatgcc gtccttgtct ttgaaaacct gagcaggggt tttggaaggc agggcaaaag 6660
gaccttcatg acggaaagac aatatacaaa gatggaagac tggctgacag cgaagctcgc 6720
atacgaaggt cttacgtcaa aaacctacct ttcaaagacg ctggcgcaat atacgtcaaa 6780
aacatgctcc aactgcgggt ttactataac gactgccgat tatgacggga tgttggtaag 6840
gcttaaaaag acttctgatg gatgggcaac taccctcaac aacaaagaat taaaagccga 6900
aggccagata acgtattata accggtataa aaggcaaacc gtggaaaaag aactctccgc 6960
agagcttgac aggctttcag aagagtcggg caataatgat atttctaagt ggaccaaggg 7020
tcgccgggac gaggcattat ttttgttaaa gaaaagattc agccatcggc ctgttcagga 7080
acagtttgtt tgcctcgatt gcggccatga agtccacgcc gatgaacagg cagccttgaa 7140
tattgcaagg tcatggcttt ttctaaactc aaattcaaca gaattcaaaa gttataaatc 7200
gggtaaacag cccttcgttg gtgcttggca ggccttttac aaaaggaggc ttaaagaggt 7260
atggaagccc aacgcctgat attgccgata agcaccgtaa tggaatccat ctactgcccg 7320
cgcaacgcat ggtatgcctt tgtgggcgag cggcggaata tggctaaaag cgttcacttt 7380
acggaggccg tccatgcaca cagggcggtg gatgaatcca cgcagagaat ccgcactgat 7440
tgcaagcaga ttacagggat gtatatttat agcaataagc ttggcctgac agggcgggcg 7500
gatacagttg agtggctgta tggaatccct ataccggttg agacaaagac cggcgcaatc 7560
agggattttg agaacttccg ggtacagatt gcattacagg ccttgtgcct ggaagagatg 7620
tttaatgtga acatcccata cggtgagata tttttctgtg aaaccatgcg gcggcacgaa 7680
atagctgtag acgaagacct tagaacgcat agcacggcaa ttgtggtgga gttgagagaa 7740
aggtttctgt cttttgacat caaccgcttc caaagggtaa atgaccatag atgcccaaag 7800
tgtcaatatt tggagtcatg ccttcctccg agtcttgagt tgtgaggttc ctttatgacg 7860
gcgataacag acaggataac cctttacatc acagcggatg aatccagcat ttcacgccga 7920
ggcgatgcat tcctgatcca aaaggcaggc gaggaaaaag ggcaaaagat accagcgatg 7980
aaagtaaaag atatagtagt cgttggtcac gttacgcttg acagccgtct gattggactt 8040
tgcagggaag agtcaattcc gatccatttt ctaagcggaa ggtgggaata tcagggtagc 8100
cttcagttcg agccggtcaa gaatctattt atccgcaggg cgcagataaa aaaacatttc 8160
gacccggaaa agaaactgga tatatccaaa aaaatagtcg gtggaaaaat ccgaaatcag 8220
caggccatgc tggataaata ccggaaaaat ctgaagttgg cgtgcccgca aattgattca 8280
gtgggcgata tggaaaccct gcgagggatt gagggtgtgg tggcaaagga gtattacggc 8340
ttctatcccg ccataataaa aaattcggag ttcacgttta cacgcaggac aaagcgtccg 8400
ccggaggatg aaataaacgc gctcctaagc ctgctgtata ccctcatttt caacgagata 8460
cactctaccg cattgctcgt agggctggac ccggcctttg ggtatctcca cgacgtctat 8520
tacggacgac catcgttgat ttgcgatctt cttgaagaat ggcggccatt ggccgaccgg 8580
tttgtgctga atatgataaa caggaaagag gtcacaccgg aagatttcag gaaagagacc 8640
gaccaaaagg gcgtgtggtt aagcaaggac ggatatccaa aggtgataaa gaaatggcac 8700
cagtttttca agatggatga acaaaacaca agcattctga gccgccccat aacatatcaa 8760
cacgcaattg aaaggcaggt caggaccttc agccagtatc tcatggatga caaagacaat 8820
tataagacga tagagctttg ataatgcgcc atctcatctg ttatgacata gaggaggata 8880
aggtaagggc acggcttgta aagctcttgg aagcctacgg cgtcaggatt caatattctg 8940
tttttgaatt caacctttca aaggcgcgct ggacagacct taagctgaat ttgaaagaaa 9000
aagggttcct tgacggctcc attagcattg tcatctatcc attatccgca gaggcttatg 9060
agctggtgga acgttatggc gctgcctcta tatgggatga gggggatatg gttttcgatt 9120
gatttttctt gactgcaatc tgtcataagt agtaaattac atctggcgcg tttattccat 9180
tactttggag ccagtcccag cgactatgtc gtatggacga agcgcttatt tatcggagat 9240
agctccgggt gcaaactcgg agctgttttt ttacgaaaca gctaatttta gccaaaagtt 9300
ctttgaaaac ctgatattac ggtttttttg tttgtaaaag ggtttacagt gcagatctcc 9360
ttataattat tgaaaatgtg tttcgttact cttaatattc gagaatttcg acttccggaa 9420
ctcattgata tatctgggtt gttggtattt gaaggtatct ccgataagta aaacgcatca 9480
aaggtctcac tcaagatgac gaggagatac ttgagaattt gaaggtatct ccgataagta 9540
aaacgcatca aagatccaga aaaatacggc cttctttacc atttcctatt tgaaggtatc 9600
tccgataagt aaaacgcatc aaagtacccc tgcacccatt agatttagat gcaggataat 9660
ttgaaggtat ctccgataag taaaacgcat caaagagctc tgctttgtag atgcctgctg 9720
caagggttga tttgaaggta tctccgataa gtaaaacgca tcaaagtcct gcagcagaaa 9780
atcaaagaca atgaatatta tttgaaggta tctccgataa gtaaaacgca tcaaaggccg 9840
ctctgaaaaa ggaaaagctc ggactaaaat tatatttggg cgggaagcaa cgtaaagcct 9900
tcttttcttg ctgcatctct cagttttgaa tcaaggcaga cgaaataatg accttttggc 9960
ctttttcctg cccatacgag cgcggcagat agttgcaagg catctgcggc acggagaggg 10020
tgcagcataa gaagtcttcc tgcaatatcc cgtatgtctt cgccgggttc aatctctgtc 10080
catgtatccg aaagaagggt gaggagatgc cgcacaccgt cttcttcctc aggtttgagg 10140
aatcccttgc gccgcaagcg ggcaaaggct gaacagcact ctatgaagct gccccaccat 10200
actgcaatag cgtgatcttt tctcacaagc tgttagacag cctttgtttg tggttcgtca 10260
atgcataatg ggatgatagc agaagaatcc cagaacatca tcttccttcc tcccgttccc 10320
gtaaaagggc attaagagcc cgtccttttt tatcctttgg tctgggcata ttccaaaaat 10380
ctgccggcag tctgcctgcg ccgatgcgga caagccctgc cttctccaac gttaatagat 10440
gcgccggtat ttcaatatct cctcttttca aaggaataat cttggctata ggctttcccc 10500
tgtcagtgac aagaacctct tctccagcct ttacctttga caggtattcg ctgatagatg 10560
cctttaattc agaaaccttt gcggtcttca tagggttatc ctccgtgact atatggatat 10620
gaccgatata gtcttattcc atagccctgt caaatgaaaa aaacgaataa cagttacttt 10680
atcgtatgaa acataagctc agcatgattt aatgaaccgc ttttatcaag aatgagtttc 10740
aggagaaaag ggcgtcttgg cggaagcgag ttaaaccgca ggtcaaaata ttccaccata 10800
tatccttcgc cctcctcttt tacggttacc acaggaaatc tggcaaacca gagatatgtc 10860
tttacaatct ccagtttttc aaccttttca ataatgttat ttccctccgg tccctgattt 10920
aagccttcag ggagatgctt tttctcaaag gaattaaatg gcgagatgct tttcagcgca 10980
tcaacatcaa cctgataaaa ccttttatca tcctctatat acacagacca tctgaaaggg 11040
gagaagggga ggggaattgc ctcaactctt ttgccggtta tgccaagttt ttgagcctcg 11100
gccttagcgc tttcaatagc aatggttctc catgtgtagg caatccccag atagattatt 11160
atacctgcaa cagaactcaa ggctataacc tttgtccatt cccgtttgaa ctttattatg 11220
accaatggga taagcatcaa ggcggtgaaa taaaaatcta tgataaagac aaggtcaaga 11280
gagtatcttt tgtcggtgaa aggaaagaaa actaaagtcc cgtaagatgt gatgaggtca 11340
aggaagatat gggtgtatat gcctaataaa aacaggccaa aggttgttag atagcctaat 11400
ttttctctaa atcgttctat tgaacagaca atacctgcca tgatagcggc gattacaaaa 11460
ctgccgataa tggagtgcgt aaatccccga tggtatttga gataggcgag gggacctgca 11520
agcctcaggg ttaagtggtc aatatcaggt attagtgcgg caacaataaa gattatggtg 11580
gcaggtctgc caaatctctg atagaatcct gttctggaca gaacgacacc ggagaggccg 11640
tgtgttattg gatccatagg tttagataag tatattatat ataatggtat taaacaacag 11700
gggattttat cgttaccttt ttatgagaac aattaaaaga acagtttgtt cagcctttgt 11760
tttatttatc ttattctcgt cagatgctgt tgccgacctt tatcagtggc aggatgaaaa 11820
aggggatatc catgttgtag atgatatgct cctggttccg ccgcaatata aagataaggc 11880
aaagaaatta aaggcaaggc cttcaaggca aaccccttct ccccaacaaa atgttcaacc 11940
ccctgtgccg cctcaaacat cttcagaaca agaagagctg tatggggatt atcctttgag 12000
ttggtggaaa aatgagttca gcagtaaaaa aaacgagatt tctaaacttg aaaatactat 12060
aaaagagcag aaaaatttta tagctgatta tgaaagaggg aggaggcttt atcgattata 12120
cagcaaggaa gatacggata aatacgaaac ctataaaaaa gagctgtctg ataatgagaa 12180
ccaattgaac aaactcaaaa cagatttgga cgaattcagg cgcaaggcgc aaatctacgg 12240
cgttccgagg gcaatcagag aatagtaatt aacaggctgt tgaaaaaggc atcaacagcc 12300
ttgattacac agattaggaa aaacgattac acagatattt caatgagttt taatctgtga 12360
aatctaatct tttatccgtg taattgaagt ttgttgagtt tttcaacaaa ctgttaatat 12420
ggtaaaacct gttatcagtt gtagggcaag ccttcaggct tgcttatttg cagggctaaa 12480
gccctgccct acatcaagtt atttatcaag ttatttattg ccttcactat aatatggtaa 12540
aacctattat cagaaatagc attgcatatc tcttatgttt atgcctcctt taccccgtga 12600
ctaaggtttt tggtgtggat gacgatgcta taacaatagt ggcagcagga gacctttatc 12660
ttggaggctc tgccaatcca tacttaaaac agcgcggata ttcatatcca tttgaatcaa 12720
ccaaggatgt tttgcatagc gcggatatcg cagttgtcaa tctcgaagcg cccttgacca 12780
acaagacgga aatatttatg aataaagagt ttgtccttaa ggctaaccct gattcaagtg 12840
aggcgataaa ggctgtgggt tttgatgtgg cgacattggc aaataatcac attatggatt 12900
acgggcaaga gggattgaaa gatacgataa ccgcacttaa taagagaggg gtaagctata 12960
ctggcgcagg agaagactta aataatgcaa ggaagcctgc catccttaat gttaaaaata 13020
aaaagattgc ctttcttgca tattccaggg tctttccaga agaattctat gctaccgata 13080
tctctggcgg aacagcgccc ggtttatttg aatatataag ggacgatatt aaaaagataa 13140
agaaagatgc tgatattgtt gttgtttctt ttcactggag tgaagagctg ttgaaatatc 13200
ccaaagaata ccaaattaaa cttgcccatc ttgccattga cagcggggca aatctaatca 13260
taggccatca cccgcatgtg attcagggta tagagaaata taaaaacggc ctcatctttt 13320
acagtcttgg gaattttgcc tttggatcta tcagccaatc atcgccagag ggtatattgg 13380
ccgctgtccg gtttaagggt aaccaaatca tctcggctga gataattcca ttaaatgtca 13440
ataataaaga ggtttttttt cagccaaagg ttttggaagg agaaagggcg gaagttgcaa 13500
tgaggaatat tcaagaaata tcagacagat tcaaattaac cattatggct agggaaggaa 13560
agggctacat acagcttaac gaggagttaa aatcagcctc gcttccgtga ataggggttg 13620
ttgttacaag tagagttaag tcagatatta tgtaaacgtg tgatcccttg ctatgcaagt 13680
ttacataata tatcttatgc gacaataaaa tttagttagc cttaatggcc tgtttgggct 13740
aaaaatccct atattccatt cgttttgccc cctgttatct ttatcccgct tttctttatt 13800
gcgcttttta tcatctttag tttccaatcc ctatgcgcat taattgtaga gagaacctct 13860
ctggggttat cggttatttt aacgaggtct aaatcttccg gagatattgt atcttccttt 13920
aacatcgttg ttttcatcca gtggataaga ccattccaat aatccttgcc aaccagaatt 13980
aaaggcaatg gatatatctt atgagtctga acaagcgtaa gcgcctcaaa aaattcatca 14040
agggttccaa atccgccagg catacagaca tagcccatgg catactttat aaacatcacc 14100
tttctggcaa aaaagtattt aaaggttaat gatttattct gaaatgggtt cggcttctgc 14160
tcctttggca gaaggatgtt gagtcctacc gaacctccgc cattcttggc agcgcctctg 14220
ttggcagcct ccataatgcc gggaccgccg ccggttatga tggtatagcc atcctttgca 14280
agcagtgtgg ctatatcttc ggccattttg tagtatgtat gatttttagg aaatcttgcg 14340
gagccgaata tagatacagc cggccctatg gcagaaagtt cttcaaaacc ctccacgaac 14400
tcgctcatta ttttaaatat acgccatgtt tcctgacctc ttaaatcttc aaccattttt 14460
atttactccc attctatagt actcgggggt tttgtgctga tatcataaac caccctgttg 14520
atgccgcgca cttcatttat aatccttgag gagatccttg ccattaaatc atagggaagc 14580
tttacccagt ctgccgtcat tccatccatg ctttctacag cccttattgc ggcaacattc 14640
tcatatgtcc tctcatcacc catgacaccc actgtcctta cgggcaaaag cactgcaaac 14700
gcctgccaca tctttgtgta aaggccggcc ttttttatct cttcaagcac aatactgtct 14760
gcctttctta gtatatcaca tctctctttt gtaacctcgc ctaaaattct tatagcaagg 14820
cctgggcctg gaaatgggtg tctgtttatt atttcctcag acatgccaag ttctttaccc 14880
agtatccgca cttcatcctt aaacaattcg cgaagaggtt cgacaagttt gagtttcatt 14940
ttttttagaa gaccgccgac attatggtgg ctttttattg tcgctgaagg gcctttgaag 15000
gatacactct caatcacatc cggataaaga gtgccttgtc caagaaagct cacttcctgc 15060
cttttgcctc cgcctctggc ggatgaggcg gatgccccct gttttaactt catggcctct 15120
tcttcaaaga cccttacaaa ttcattgcct attatttttc tcttcttttc agggtcctcg 15180
atacctttga gcttgtttaa aaatctttga gaggcgtcaa tacatttaaa attcatacga 15240
aaatgcttct ttaatgtctc ttcaaccttc tttgcctcac cctgcctcaa tacgccgttg 15300
tctacaaaga tacaggtaag tttgtttcct atggccttat gcattaatac cgctgcaact 15360
gctgaatcca cacccccgct tatgccgcat accacccccc tgccccctac cctttccctt 15420
atatccttta cagcagtgtc tacaaatgcc tccatggtcc agataggttt gcatccacat 15480
atcttgaaaa ggaaatttct aattatctgc aagccctttg gcgtatgaac tacttccgga 15540
tgaaactgca cgccaaagat ttttcttttg gcatccttca tagcacagat tggagaatta 15600
ctactgcggg caatagatgt gaatccatta ggcatctttc ttacacggtc gccgtggctc 15660
atccatacag gcgtgaggtg tgaggcgtaa ggcgtgaggc gtgacaacaa atcattacta 15720
tcatcaatta ccagttcagc gcttccgtat tctctgtgtg atgatttttc aacctttccg 15780
cctaaaaggt aggctgtaag ctgcatgccg tagcatatgc cgaggattgg aatgtccaga 15840
ttgaagagtt cttttggaat aagaggggcg tttttatcgt agacgcttga cggcccgccg 15900
gagaggatta tgccttttgg gtgaaaagcc ctgatctttt caaggcctat attataagga 15960
tgtatctcgc agtagacctt ttgttcccgc accctccttg caataagctg ggtatattgg 16020
gaaccaaagt ctaaaataag gattttttgc tgatgtatgt tttgcattag gggaatattt 16080
tattaaagtt aaaaaaatat atcttaaaaa aaccaaatag acaatagaaa aatcatgcgt 16140
gtaaaaaacc tctttcttga cagtatccat tctgttatga taagaacagc tcttttttta 16200
tacagaacaa gactgaatct tacgatagaa tcattaagca aatcatatag tttaataggt 16260
aggacacttc atgtttcaat ttgttaagat agcagcgcta tcctttataa taattatagc 16320
accttgggat tcatttaaac caacatataa tagcgatata tttcagttta taataacctc 16380
tttcagttca gttgacctgc catttgtatc aagcagtctg catagagagg aattggaaca 16440
agcctctgtc ttttggaagt atttctttct attaatcttt ttcctgtctg ttgatggatt 16500
caaaatattg attgaaattt ataaacgtcc ggtcttacgg acttatactt ccaaccctca 16560
ggatgtaaca gcattaatcg catgctacaa tagcgctaaa acaataaagt ttacgattga 16620
tgaccttcaa aagattttgt ctaatgatag gattattgtt gtggatgacg gcagcactga 16680
taatacattt aatattgcaa agaatatggg cgttcaggta tatcggtttg aaatgaataa 16740
aggaaaagtt gcagccatta attttggaat ctaccgtgtt aaaactaagt atactttgct 16800
attagatgat gatacaaggg taggcccttt gtctcctcca acctctttgc tggaggaagg 16860
gtacaccgga gtggccttta accttttacc ttgccgtaga acacgagact tgactaatgg 16920
gaaaaacttt gtaagctgcc ttcagagata cgagtacagt aaatccatgg agattggcaa 16980
aagattccaa gacggcgcat tgagcgtcag ctgcatatcc ggcgcagtag gcctgttttt 17040
gacttcacgg ctcaattctt tccatcattt acactcaacg gtatttcagg gagaagattt 17100
ggagagaacc ttaatagatt tattaaaagg cggaaaggtt gcctttgtaa atcaaaatgt 17160
ttggaccttt gccccggata actggttgag tctcacaaag caacggcttt ttaactggta 17220
ccctgggttt taccgcaata tagaccattt cttccatata ctctttgaca aacaacttcc 17280
gttaaggctc aaaggtgaaa tgttttataa catctttgta attctgactg atcctctaag 17340
gatatattca ttttttgccc tgtttattta taagcagtgg gctatgcttc ttttcgtata 17400
tctcttttat ttagctatag agatataccc ctttattgta gtggaaaaat atcttcctgt 17460
cgcaagatat tatatgcccg ccctcatcgc atatcccata tatggaattt ataataccct 17520
attgcgctct cttgctttat tcgtatggtt gtataataga tttataacaa aacggatgag 17580
accaaaagga cgcccggggg atagaattgc ttaggaatgc ctttctgatt gctgtatttc 17640
tactatggct gccaaatgtt gtaatgggcg ctgacagctt aactatcaca aatgattata 17700
ttatagatat caaagatggc ggggataaaa catataacga cacatatatc cgcttagatt 17760
ataaacagct ctacgcagtg ggctatcttg gagagtggca gcatggcttt gaaataggcg 17820
ggtttataaa agatgaacgg atgtctgcgt atagcgcaat gttgcgggct cgtggaaatg 17880
atcagaccta tcaggtggga accgatcagg tgttaggaat gggttttgtg ggaaaggttg 17940
atttacgata catccatatt gaagaattag aaaaaaccgg agataaacac gacctttttg 18000
tttatggttt gggatttgat aaatattatg gtgattacaa ctatttgact gctgtgattt 18060
ataacgaccc ccggaagagt gatagattct ctgtagtcat cagtaacacc cttgccaatc 18120
agaactctta tctgagatta ggtgtcgttc cgagaagcga cggcacattg ggctattttg 18180
gaacaataaa ataccactgg attgtggccg gatatgccta tacgcgagaa tttgacttta 18240
ctacccttga taggaaggtt tttaccttag cgctccagat accctttgat ttaaagtgga 18300
acagagaaga acaataaccc gaaaagtgca taatgcctgt ctgcaaacaa ctactccacc 18360
accttataat tcggcgcctc ttttgtgatt acgacatcat ggacatgact ttcacgaagc 18420
cctgcaatgc ttattctgac taatttggca ttctttctaa gctcagaaat agtcctgcac 18480
ccgcaataac ccataccgga ttttaggccg cctataagct gaaatatact tgaagatacc 18540
ggccccttgt gaggcaccct cccctcaatg ccttccggca caagcttaag ctcgctctca 18600
acatcatcct gaaagtatct gtctttgctc cctttcttca tagcttcaat agatcccatt 18660
cctctataca tcttataggt tcgcccttga taaagaactg tctccccagg gctttcatct 18720
gtgcctgcaa ataaccctcc tatcataacc gaatcagcgc cggcagcgag ggcctttaca 18780
atatcgcctg aaaactttat gccgccgtcg gcaataaccg gtatgttctt ttttctggca 18840
acagccgcac aatccatgat ggctgttatc tgcggaacgc ctacccctgt cactatcctg 18900
gtggtgcata ttgagccggg gccaatgcca atctttacag catcaacgtc agcctttatc 18960
agagcatttg cgccatcgga tgtcccaaca ttgcctgcta tcagctggca ttttggaaag 19020
tttttcttgg tatctttaac agcggtgagc acccctttgc tgtggccgtg ggctgtatca 19080
ataacaataa catcagcgcc tgcctttaaa agcgcatcta tccttgcctc gcggtcaaat 19140
gatacgccaa ctgcagcgcc aaccattaat cgcccgagtt tatccttgca agagtttgga 19200
tatttttccc gtttttctat gtcagagatg gttatcaggc ctttcaactg cccattttta 19260
tcaattaacg gcagtttttc tatcctgtgg cggtgaagca tatcctttgc cttttctatt 19320
gatgtgccgg ccggagctgt tacaagtttt tttgtcatta cctcggatat ttttttgtta 19380
gggttcttct caaatcttaa gtccctgttg gtaaggatgc cgaccaatac cccgttttta 19440
actataggga aactggatat ctgctctatt tttttaatct gcaatgcatc ggcaatgcgc 19500
tggtctggct ccagtgtcct tggtttcatt attacaacac tttcgtattt ttttactttg 19560
tcaacctcta tggcctgttc ttctatggtc aggtttttat ggattatgcc cataccgcct 19620
tcctgggcta ttgcaattgc catgcgggat tccgttactg tatccatagc ggagcttaaa 19680
agaggtatat ttaatctgat ggtatttgta aggcgggtag aggtatctac atccctcggc 19740
aaagcttccg aaaatgccgg tatcagtaaa acatcgtcaa aggcaagacc ttgtttaata 19800
tttttttctg gcataaataa aacctccaac agaaattgat tgaggctgga ggcaagaggt 19860
gcgaggcaaa cgacactacc tccatcctcc aacctctaac ctgtcttctc caatagtatc 19920
ccttccaaaa gccccgcatc gcttaccgtc attttatcaa aaccaaaacc ttccattgcc 19980
tttaaaacaa tagctgcgcc tgggattatt atgtcttccc tccccttttc aagagagaga 20040
atttcctctc tctgttttaa aggcaataag gcaaggtgtt gatatatctt tctgatagcc 20100
tcataactta atatgtaatt gtttatcttg cctgactcat atttctcaag tccctgatca 20160
atagcagcaa gcgtggtaat agtacctgct gttcctacaa ataaggcgga ggctgaaggt 20220
aaacagccat ctcttttcat caaatccttt aaatctgcaa taacacctct tatctcattt 20280
tccattgcgt ctaactcact gtgagtcggc gggtctgtct tgagataatt ttctgtgaga 20340
tgcaccaccc ccatctcaag actccacgca ccaagcatcc ttccggcatc tgttgcaata 20400
aactcggtgc tccctccgcc aatatcaacg acaaggcatt tggggataga ttttaaatct 20460
gtccccactt ttatgactga cagaacccca agcaaagaaa gccttgcctc ttcatcgcct 20520
gatattatct ttatctctat ccctgtcctt ttcaggacac tgttcagaaa ttcttccctg 20580
ttctttgccc tgcgtaccac actggttgca actgccctta cctcttttat atcatactct 20640
tttatctttt cagaaaaaaa ctcaagcgcc tttattgtcc tttcctgagc cttcctgttt 20700
atgccaatat cttctttata accgccgcca agccttgtga tggttcgttt taagtaaaca 20760
ggctgaaggt ttttattatc tatctctgca atcagtaacc ttaaggtgtt tgtgccaata 20820
tcaatggagg cgtattttgt tgacatagct gtatcattgc ttaattcagt ttatgctcaa 20880
aaatatccca gatgcaaggc gccgaggagc gagcagcgga gcatacgccc tcaggtatgt 20940
gagcagcgca gtgacgaagg caacgtagca gatgggtatt tttcagcata aactatttcc 21000
tttccggctc tattgcgata gataacttct ctgccccggc gcgcttggca atatccaaaa 21060
cctttacaac tatgccgtgg agaacatctt tatctgcctt tattattacg attttatcag 21120
ctcgagatgt aatatctgtt tttatagcgt caaaaagcat ttctatgccg attgttttgt 21180
tgttaatata tataatacct cccggagcaa tggagatagt tatacccttc cctgtttcag 21240
tgtctgccgt aaccgccttt ggcagcttta ttttgaatga ttccattatc agaagcggcg 21300
ttgtcaccat aaaaatcaca agcaagacaa gcatgacatc agtcaatgga gtgatattta 21360
tctcagagat aatcttatcc ctattacctg caagactcca ttttttcatt tattgtcctc 21420
aaaaagcgca tcaataaatt ctgctgccct gccttctatt tcaactgccg cgctgtttat 21480
ttttcttgta aagtaattat atgcaataac cgccggcaca gccacaaaaa gacctgctgc 21540
ggttgccaca agggcctctg caatcccatc tgccacaaca gaaggccctg ccccctctgc 21600
tatggcgagg tcatggaatg ccctgataat tccaagcact gtgccaaaga gccccacaaa 21660
gggggctgtg cttccagtgg ttccaagaac gcctaaatac cgctctaaat aaagaagctc 21720
ttgttttgct gccagctcca ttgcctctcc aaccgctgtt ttgccttctt tatattttgt 21780
aagccctgcc ttaaaaatcc ttgccagagg ttcttccttc ccgcagatgg taaatgccgc 21840
ctccctgtta ccatccctta aagccttttc aatttgcaaa gaaaatattt tagaacctct 21900
tcggaattta aataaagccc aaagtctctc catcatcacg ccgacagaga gaacagaaaa 21960
gaaggcgagg acaattaccg taacgccgcc tttttgaagc agggatataa gaccaagatt 22020
atcaaacata tttatatttc taaacctaat gtaatctgcc gatttatcgg ctattcaaag 22080
ttacgcaata gaaatacgcc cataaatggg caactacctt ttatactcct tagaatattc 22140
aatgtagttt tttgcggatt tcaaaatcct tgccacttct tcatctttaa gctgtcggac 22200
aacctttccc ggcagcccca tgacaaggct tttcggcggg attatgctct tttcagtaac 22260
gagtgcgccc gctcctatga tggaatcttc gccgatggta acgccatcaa gtattattga 22320
acccatgccg atgaggcacc tatctttgat cacacagccg tgcagcgtaa cattgtgccc 22380
gacagtaata tcattgccaa gcatcacagg ccaaacacct tttgtgccgt gaaggacgca 22440
attatcctgg atatttgtcc ttgcgccaag cttaatatga tgaacatcgc ctctcagaac 22500
agcgttgcac caaatgctgg aatattcgcc tatctccaca tcgccgatta cctgggcgct 22560
gtcttcaata taggctgtag catgtatttt tggatttatg tttttgtaag gtcttatcat 22620
aagaaattac agattgtgat atgccttata aatatagtat aaggtctttt cttcggtaga 22680
tattctcttc attaacgccg ctcttattgc aataatgcca tttataaaac cggtttcgtc 22740
tgctgtaatg gctttttcat tttcatacct tgaaagaaaa tcaaaaatat tcttggaaat 22800
atctttcatg ccgtctataa aaatatcaag cgcaggcagc agtgcgtctt gtttaagctc 22860
tatggccttt tgcctcatag cagggtaaaa cttattgtcc tcatcccgga gatgattaat 22920
gaggatagtt ttaagctgtt caataatttt caatacataa gcagtgtcac ggatgtcctt 22980
gttttctata ataggctcta atttcttgaa tgccttctct atcattgcat gttctttttc 23040
taaaccctta ataaattttt catgctccat aacaatgccc ctctaaataa agacaccaat 23100
aaaggtgtaa aactataaca aaaacaccca tctttgcgca agattttgct gccacccaga 23160
aaatcaaagt ctattttttt gtatcacttt ctgggcgtct ttacagatgc gataaattca 23220
gcgctgaaaa gcaatataac tgccgaataa aatatccata aaagcattat cataatagcg 23280
ccaagagagc catacatctt attaaaactc ccaaagtgtg cgaggtataa ggcaaagagg 23340
tgttttgctg tctcccataa aacagagaat attacgctgc ctaaaatagc atgtcttgcc 23400
tttatgttct tcccggccat tattttgaat ataaaggcga cggcaataat cataattaca 23460
actggcagga aatatttaaa ggttatactc tttgcaacat agtaggatat atctatgccc 23520
aagacagcta tttttactct gcctaaaatc tctgcggcaa tcggaagacc tatagaaata 23580
agaaaaactg cgcaccagat aaaaaataca ccccatacaa ctatcctggt ttttatgaag 23640
cccatcttct ctgcttctcc aaaaatgagg ttcattgcat cccttatcgc gagtattaca 23700
aactcagcgc tccagatgag cgtgataatg ccaatccagc caaaaacctt tctgttagct 23760
ataagccctt taatatcatc tacgatgctg tcgctcaaat atggaaggct ctcctttaca 23820
aattctaaaa tccgttcaaa aagccgtgtc tccgttccga gaatagagcc tataaaagag 23880
aagagcagaa acatgagcgg gagcagagag aataaggcat aaaatgatat tgccgcagcc 23940
atagtaagac aattatcata agaaaatgcc ctaatgctgt cagttataat tacaaaaagt 24000
cgtttcataa ttatttctgc ctctttctaa aataaagccg tatgacaacc ttatcaaggc 24060
caaaggcctc tctcatttga tttacaagga accgttcata ggaaaagtga ataccttccg 24120
ggtaattggc aaagccgaca aatgtaggcg gttttatgtc agtctgggtt atataataaa 24180
ttttcagcaa tttcccctta tacatcggag gctgatggtg cttattgaag gtgctaaaaa 24240
atttgttaag ctgtgcagtt ggtatccttt tcgtaagctg cgccaatacc tcttctacca 24300
attcaaggat tttaaaaatc ctctggcctg taagcgctga cacaaagatg acaggggcga 24360
actgcaaaaa ttttaccttc caccgtatac gttctgcata ttgttttgcc gtgtttgtct 24420
ctttttcagg caaatcccat ttattgacaa caataataca tcccttaccc ctttcatagg 24480
caaggcctgc tatcttttca tcctgctctg tcatgccgct cattgcatct ataaccaata 24540
atgcaacatc gcatctatca atacacttga ttgccgacat aactgaatac tgttcaagcg 24600
ccatgcctat ccttgccttt tttcttatac cggctgtatc aacaagcaga taatttttct 24660
tattataatt gaattgcgta tcaatggcat ctctggttgt gccaggaata tcgcttacca 24720
caaccctctc atagccgaga agcctgttaa caagggaaga cttgccgaca tttggtcttc 24780
caactactgc caattttatc ctctcttctt tttcttcttt gacagcagcc cttggaataa 24840
ggcttattgc tttatctaat aattcatcaa ccccccttcc ctgttcagat gaaacgagaa 24900
agagattttc catgccgaga ctgaagaaat cagaaacccc ctgttcttgc ttggtagtat 24960
ctattttatt cacagcataa actattggtt tgccggattt tctcagtatg tctgccacat 25020
ccctatctga cggaagaaat ccatctctgc catccatgag aagtataata acatcagcct 25080
cctcaatggc gagcatggcc tgctctctta ccttggcagg gatagttaaa tccctcctat 25140
caccctttct ggggacagtc cgcatttggc ggatgaaatc tgttcccata gggcgagcgg 25200
ggattgcctc gaaaccgcct gtgtcaataa gggtaaatgt tgttcctcgt tcaaccacat 25260
ccccataatt caagtctctg gttacaccag gctcattttt tacaatggcc tttcttttcc 25320
caatgagacg gttgaagagg gttgacttgc cgacattcgg cctgccta 25368
<210> 52
<211> 7832
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 52
gctatcttta atctcaattc ttttcataca cgcataatac cataaatctg tattatgcgc 60
aatatattat gtcgttatgt ataataagct gataaatacc gatccgagac ccatttcatg 120
taaaaaggca catatttttc tttaactagt ggcttctgaa tgagatgctc tttaaaagcc 180
aaaagcataa caggatcaaa caattatcgt aattcagtat aataataaat atcctatttc 240
ttatctaaaa tatctccaag ttttcaacat aatgctgtcg attttggatt gacatccgct 300
aagtaatacg atattcctta acacttcaat ctctttctga aaattttatc tctttatggt 360
cttgccattg ctctatactt tatctatttc tcattgcttg caattgaaat atgaaggtga 420
ccccaatctc ccgccatgaa aacttagtca aatatattta ttgcatggag atttcatctg 480
tagtaaaatc ctgaaaatgc tgggatgaaa gatatttatc gaattttgcc atctatttaa 540
atagccacca aactatatac ttattaaaga attgggggta aagatgcagg aaataaaaag 600
gataaataaa atacgaagga gattggtaaa ggatagcaac acgaaaaaag ccggcaaaac 660
cggccctatg aaaaccttgc tcgttcgggt tatgacacct gacctgagag aaaggttaga 720
gaatcttcgc aaaaagccgg aaaacattcc tcagcccatt tcaaatactt cacgtgcaaa 780
tttaaataaa ctcctcactg actatacgga aatgaagaaa gcaatcctgc atgtttattg 840
ggaagagttc caaaaagacc ctgtcggatt gatgagcagg gttgcacaac cagcgcccaa 900
gaatattgat cagagaaaat tgattccggt gaaggacgga aatgagagac taacaagttc 960
tggatttgcc tgttctcagt gctgtcaacc cctctatgtt tataagcttg aacaagtgaa 1020
tgacaagggt aagccccata caaattactt tggccgttgt aatgtctccg agcatgaacg 1080
tttgatattg ctctcgccgc ataaaccgga ggcaaatgac gagctagtaa cgtattcgtt 1140
ggggaagttc ggtcaaaggg cattggactt ttattcaatc cacgtaacaa gagaatcgaa 1200
ccatcctgta aagccgctag aacagatcgg tggcaatagc tgcgcaagtg gtcccgttgg 1260
taaggcttta tctgatgcct gtatgggagc agtagccagt ttccttacaa agtaccagga 1320
catcatcctc gaacaccaaa aggttataaa aaaaaacgaa aagagattgg caaatctaaa 1380
ggatatagca agtgcaaacg ggcttgcatt tcctaaaatc actcttccac cgcaaccgca 1440
tacaaaagaa gggattgaag cttataacaa tgttgttgct cagatagtga tctgggtaaa 1500
cctgaatctt tggcagaaac tcaaaattgg cagggatgag gcaaagccct tacagcggct 1560
taagggtttt ccgtccttcc ctcttgttga acgccaggcg aatgaggttg attggtggga 1620
tatggtctgt aatgtcaaaa agttgattaa cgaaaagaaa gaggacggga aggtcttctg 1680
gcaaaatctt gctggatata aaaggcagga agccttgctt ccatatcttt cgtctgaaga 1740
agaccgtaaa aaaggaaaaa agtttgcgcg ttatcagttt ggtgaccttt tgcttcacct 1800
tgaaaagaaa cacggtgaag attggggcaa agtttatgat gaggcatggg aaagaataga 1860
taaaaaagtt gaaggtctga gtaagcacat aaagttggag gaagaaagaa ggtctgaaga 1920
tgctcaatca aaggctgccc tcactgattg gctcagggca aaggcctctt ttgttattga 1980
agggctcaaa gaagctgata aggatgagtt ttgcaggtgt gagttaaagc ttcaaaagtg 2040
gtatggagat ttgagaggaa aaccatttgc tatagaagca gagaacagca ttttagatat 2100
aagcggattt tctaaacagt ataattgtgc atttatatgg cagaaagacg gcgtaaagaa 2160
gttaaatctt tatttaataa taaattactt caaaggtggt aagctacgct tcaaaaaaat 2220
caagccagaa gcttttgaag caaataggtt ttatacagta attaataaaa aaagcggtga 2280
gattgtgcct atggaggtca acttcaattt tgatgacccg aatttgataa ttctgccttt 2340
ggcctttgga aaaaggcagg ggagggagtt tatctggaac gacctattga gccttgagac 2400
gggttcattg aaactcgcca atggcagggt tattgaaaaa acgctctata acagaaggac 2460
gagacaggat gaaccagcac tttttgttgc cctgacattt gaaagaagag aggtgcttga 2520
ctcatcgaat ataaaaccga tgaatctgat aggaatagac cggggagaaa atatcccggc 2580
agtcatagca ttaacagacc cggaaggatg ccccttgtca agattcaaag attcattggg 2640
caatccaacg catattttgc gaataggaga aagttataag gaaaaacaac ggactattca 2700
ggctgctaaa gaagttgaac aaaggcgggc aggcggatat tcgagaaaat atgcatcaaa 2760
ggcgaagaat ctggcggacg atatggtaag aaatacagct cgtgacctct tatattatgc 2820
tgttactcaa gatgcaatgc tcatttttga aaatctttcc cgcggttttg gtagacaagg 2880
caagaggact tttatggcgg aaaggcagta cacgaggatg gaagactggc tgactgcaaa 2940
gcttgcctat gaaggtctgc catcaaaaac ctatctttca aagactctgg cacagtatac 3000
ctcaaagaca tgttctaatt gtggttttac aatcacaagt gcagattatg acagggtgct 3060
cgaaaagctc aagaagacgg ctactggatg gatgactaca atcaatggaa aagagttaaa 3120
agttgaagga cagataacat actataaccg gtataaaagg cagaatgtgg taaaagacct 3180
ctctgtagag ctggatagac tttcggaaga gtcggtaaat aatgatattt ctagttggac 3240
aaaaggccgc agtggtgaag ctttatctct gctaaaaaag agatttagtc acaggccggt 3300
gcaggaaaag tttgtttgcc tgaactgtgg ttttgaaacc catgcagacg aacaagcagc 3360
actgaatatt gcaaggtcgt ggctctttct ccgttctcaa gaatataaga agtatcaaac 3420
caataaaacg accggaaata ctgacaaaag ggcatttgtt gaaacatggc aatcctttta 3480
cagaaagaag ctcaaagaag tatggaaacc agccgtctga tattgcacat cagcacggta 3540
atggagtcaa tctattgtcc gcgcaatgca tggtatgcct ttgttggaga acggcgtaat 3600
atggctaaga gcatccactt tacagaggcc atacacgcgc acagggcggt ggataaatca 3660
tcgcagagaa gctgccctga ttgtaagcag gtaacaggcg tgtatcttta cagcaataag 3720
ctcggtttgg caggccgggc agaccttatc gagtggaggg atgggatacc gattcctatc 3780
gaaacaaaga cagggaaggt aagggatttt gagaacttcc acgttcagat tgggttacag 3840
gcaatttgcc ttgaagagat gtataatgtc aatataccag ttggtgaaat atttttctgt 3900
gaaacacgga gacggaaaga aattgttata gataaaaccc tgaaagtgcg ttgtgtagaa 3960
gttgttacaa atctgcgaga ctgcttcttg tcctttgata taagcaggtt tcccaaggtt 4020
gatgaccata ggtgtccgca gtgccagtat agtgaatcgt gtcttccttc aatacttggt 4080
tagaaaaata aaaggcttac tgatgaccgc tataaccgac aggataaccc tctatctcac 4140
gggtgatgaa ttcattttgg attgtcgtgg tcgggcattt ctcataaaaa aggacaatga 4200
agagaagggg cagaagattc ccgcaatgaa ggtaaaagat atcgtggtag ttggccgggt 4260
taccctcgat agccgtgtta ttagcctttg cagagaagaa tctataccga tacatttctt 4320
tagcggcaga tgggaatatc aagggagcct tcaatttgaa cccgtcaaaa atctgtttat 4380
tcgtcgggcg caaattcata agcattttga tccccacaaa aaacttgaaa ttgcaaaaag 4440
tatcgttgcc ggtaagatca aaaaccagca atcattactt gataaatata gacttggttt 4500
gagaatcgag tgtaccgaaa tcaacgccgt cactgattta gagaccttgc gtggaataga 4560
aggcgcaaca acaaggcagt attatggcaa tttttcggct atcttaaagc atccaagctt 4620
tgtttttgtg cgccgtacca agagacctcc tgaggatgaa atcaacgcca tgatgagcct 4680
tatctacacc ctcctgttca acgaaataca ttcgactgca ttactcgtcg gttttgaccc 4740
ggcctttggt tacttgcatg acgtctatta tggtcgtccc tctttaatat gcgatcttct 4800
ggaggagtgg cggccgttgg ctgaccgttt tgtgatcaat ttgataaata gaagggaagt 4860
ggatacagac gatttcagga aagaaactga ccaaaaaggt gtttggctga ataaggatgc 4920
ctatccaaaa gtaatcaaaa aatggcatca attctttaag gtagatgagc agaaaaccaa 4980
tttacttatc caatcaataa cgtatcagca cgcagttgag cggcaggtta ggttgtttag 5040
ccagcatatt caagatgata gggaatgtta taagcctata gagctttaaa atgcgacatc 5100
tcatttgtta tgatattgaa gatgataagg tcagggcacg gttagttaaa cttctggaag 5160
cctatggtgt tcggattcaa tattctgtct ttgagtttaa cctttcaaaa gcaaggtggg 5220
ctgatctaaa gctcaacctt aaagaaaaag gatttatgga tggctctata agtctggtaa 5280
tttatcctct ctcagaggag atatatgaac ggatagaaag gtacggaagc gctgctattt 5340
ggaatgaagg ggatatggtc tttgattgat tttaagcttg acgaaaggat ttgtgaatag 5400
taaattatta ctggcgcttt tatctcatta ctttgagagc catcaccagc gactatgtcg 5460
tatgggtaaa gcgcttattt atcggagagt tctggatgca aacccagagc tgttttttta 5520
gattcttata aattacataa gaagttcttt gaaaatctga tgttaaagct ttttgtgaga 5580
agaacaggtt tacagtgcgt aactctgcta aattattaaa ggtatcctcc gcaacttgta 5640
aaatattgaa aatacaattt ccagaagtca ttgaaaaatc tggatatgcg gggtttgaag 5700
atatctccga taaataagaa gcatcaaagt taatccccaa atagacgggc taaaatacgt 5760
atcgtttgaa gatatctccg ataaataaga agcatcaaag cttatatata tacaatcttt 5820
gcaggtttct gtgtttgaag atatctccga taaataagaa gcatcaaagt tatctaatct 5880
tgatgtcttt ctcaatacat tacgtttgaa gatatctccg ataaataaga agcatcaaag 5940
agccagaaga tatgcctgta aaatgggcaa tgtttgaaga tatctccgat aaataagaag 6000
catcaaagaa tattaatggt tcaccattgc catgttgatg gtgtttgaag atatctccga 6060
taaataagaa gcatcaaaga aataataggc gcataattcc acgatttcag tttgaagata 6120
tctccgataa ataagaagca tcaaagtatt aaatactcgt attgctgttc gattatgttt 6180
gaagatatct ccgataaata agaagcatca aagaacaaag cagaatatat tacacggaca 6240
aatcatgtga ttaggaagat aaaggctttg gggtagatat aatgagcttt acacgagtag 6300
attgcctttc cttgattcaa aagatttcag aagagatagg cgctttgtgc cttaaatccc 6360
cagaatcaac aattcagaga cacgtggaaa aacccagccc cataaaaaat cctttagact 6420
tagccccatt aattgagcat accttattga aaccggaggc aacccatagg gatataacga 6480
ggctttgcga tgaggcaagg cgattccatt ttcgtggcgt ctgtgtgaat cctgtctttg 6540
ttaaagaagt ccaaaaccaa ttagcaggaa cagattgttt gattgttact gttgtgggtt 6600
tcccactagg tgctaattta acagctacaa aggttgagga aacgaaacat gttataaatc 6660
taggtgcgaa tgaggtggat atggttattg cactcggtgc attgaaagag ggcaattaca 6720
aaactgtcta taatgacatc cgtgcggtcg ttaaatctgt agaatcaata cctgttaagg 6780
taattgtaga ggcaggactt ctgaatgaaa gagaaaagat agccgcttgt ctgttagcag 6840
aacgggctgg cgcatcgttt gttaaaacct ctactggttt tactgcacgt agtgcgacgg 6900
taggagatgt cagattaatg aaggcagtag taggagacag actcggcata aaagccgcag 6960
gtgggatacg tgattttcag actgcctgcg ctatggtgga ggcaggggca gtgcgtttgg 7020
gctgttcggc atcggtagca attgtgacag aacacatata aaaaagcatt gtgagatatt 7080
tttgtatata atgtttaaca atagaatttt ttaaatattt ctgtttgttt actattttgg 7140
caagtttaag tatgtatctt ttgttatttc ttcttcgtgc tgaacaagct atattgacca 7200
tctttaaaac agtatgtccc tataacattg ggagcttctg gatttttaaa ggatatgaca 7260
aatttaagac gtgaataacc agcggtttca gatgaaggtt ctacctctac gtaggtcaag 7320
tgcgccttat gctcaaggct aatgatattc cactgaattc ccttattatc gggaaactca 7380
gcttctgcca acctggtaat attgtctttc agaaacgatt ccctctttgc ctcttcgctg 7440
acaaaggttg tttcctgttt tggttgcaca atgtcgggct ttgcctcgct agtctgcgtt 7500
atttcttcag tagctttctg caaatcttcg gacttagtct gttcactgat tacggctgtt 7560
tcctcttttg gtggtgcgat atcagtattt acttcgccgg tctgtgttgt ttcttcaaga 7620
ccttcctgtg tattttcagc cattgccttt tctatttcct cgatgccttt cttgattccc 7680
tctcccacag ccttgccaag acctttcacc atctcaccca ctgcgcctcc aaacattgac 7740
atcattgtct tgtcagcatc aaccttccac tgtccgcctt cttttacaag aatagtctgc 7800
atctggactt caaattccgt tgtctcgtta tg 7832
<210> 53
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 53
aaaaaaaaaa 10
<210> 54
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 54
gtttacacac tccctctcat agggt 25
<210> 55
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 55
gtttacacac tccctctcat gaggt 25
<210> 56
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 56
ttttacatac cccctctcat gggat 25
<210> 57
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 57
gtttacacac tccctctcat ggggg 25
<210> 58
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 58
aaaaaaaaaa 10
<210> 59
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 59
aaaaaaaaaa 10
<210> 60
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 60
aaaaaaaaaa 10
<210> 61
<211> 43
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (24)..(43)
<223> n为a、c、g或u
<400> 61
ccgauaagua aaacgcauca aagnnnnnnn nnnnnnnnnn nnn 43
<210> 62
<211> 70
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (38)..(70)
<223> n为a、c、g或u
<400> 62
auuugaaggu aucuccgaua aguaaaacgc aucaaagnnn nnnnnnnnnn nnnnnnnnnn 60
nnnnnnnnnn 70
<210> 63
<211> 174
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (142)..(174)
<223> n为a、c、g或u
<400> 63
aaguaguaaa uuacaucugg cgcguuuauu ccauuacuuu ggagccaguc ccagcgacua 60
ugucguaugg acgaagcgcu uauuuaucgg agauagcucc gaaaauuuga agguaucucc 120
gauaaguaaa acgcaucaaa gnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnn 174
<210> 64
<211> 128
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (1)..(20)
<223> n为a、c、g或u
<400> 64
nnnnnnnnnn nnnnnnnnnn cuuugaugcg uuuuacuuau cgggaaaucu ccgauaaaua 60
agcgcuucgu ccauacgaca uagucgcugg gacuggcucc aaaguaaugg aauaaacgcg 120
ccagaugu 128
<210> 65
<211> 171
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (1)..(30)
<223> n为a、c、g或u
<400> 65
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn cuuugaugcg uuuuacuuau cggagauacc 60
uucaaaugaa aggagcuauc uccgauaaau aagcgcuucg uccauacgac auagucgcug 120
ggacuggcuc caaaguaaug gaauaaacgc gccagaugua auuuacuacu u 171
<210> 66
<211> 65
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 66
uuccauuacu uuggagccag ucccagcgac uaugucguau ggacgaagcg cuuauuuauc 60
ggaga 65
<210> 67
<211> 46
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 67
gucccagcga cuaugucgua uggacgaagc gcuuauuuau cggaga 46
<210> 68
<211> 21
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 68
gaagcgcuua uuuaucggag a 21
<210> 69
<211> 46
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (27)..(46)
<223> n为a、c、g或u
<400> 69
ucuccgauaa auaagaagca ucaaagnnnn nnnnnnnnnn nnnnnn 46
<210> 70
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 70
aaaaaaaaaa 10
<210> 71
<211> 949
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 71
Met Arg Asp Ser Ile Thr Ala Pro Arg Tyr Ser Ser Ala Leu Ala Ala
1 5 10 15
Arg Ile Lys Glu Phe Asn Ser Ala Phe Lys Leu Gly Ile Asp Leu Gly
20 25 30
Thr Lys Thr Gly Gly Val Ala Leu Val Lys Asp Asn Lys Val Leu Leu
35 40 45
Ala Lys Thr Phe Leu Asp Tyr His Lys Gln Thr Leu Glu Glu Arg Arg
50 55 60
Ile His Arg Arg Asn Arg Arg Ser Arg Leu Ala Arg Arg Lys Arg Ile
65 70 75 80
Ala Arg Leu Arg Ser Trp Ile Leu Arg Gln Lys Ile Tyr Gly Lys Gln
85 90 95
Leu Pro Asp Pro Tyr Lys Ile Lys Lys Met Gln Leu Pro Asn Gly Val
100 105 110
Arg Lys Gly Glu Asn Trp Ile Asp Leu Val Val Ser Gly Arg Asp Leu
115 120 125
Ser Pro Glu Ala Phe Val Arg Ala Ile Thr Leu Ile Phe Gln Lys Arg
130 135 140
Gly Gln Arg Tyr Glu Glu Val Ala Lys Glu Ile Glu Glu Met Ser Tyr
145 150 155 160
Lys Glu Phe Ser Thr His Ile Lys Ala Leu Thr Ser Val Thr Glu Glu
165 170 175
Glu Phe Thr Ala Leu Ala Ala Glu Ile Glu Arg Arg Gln Asp Val Val
180 185 190
Asp Thr Asp Lys Glu Ala Glu Arg Tyr Thr Gln Leu Ser Glu Leu Leu
195 200 205
Ser Lys Val Ser Glu Ser Lys Ser Glu Ser Lys Asp Arg Ala Gln Arg
210 215 220
Lys Glu Asp Leu Gly Lys Val Val Asn Ala Phe Cys Ser Ala His Arg
225 230 235 240
Ile Glu Asp Lys Asp Lys Trp Cys Lys Glu Leu Met Lys Leu Leu Asp
245 250 255
Arg Pro Val Arg His Ala Arg Phe Leu Asn Lys Val Leu Ile Arg Cys
260 265 270
Asn Ile Cys Asp Arg Ala Thr Pro Lys Lys Ser Arg Pro Asp Val Arg
275 280 285
Glu Leu Leu Tyr Phe Asp Thr Val Arg Asn Phe Leu Lys Ala Gly Arg
290 295 300
Val Glu Gln Asn Pro Asp Val Ile Ser Tyr Tyr Lys Lys Ile Tyr Met
305 310 315 320
Asp Ala Glu Val Ile Arg Val Lys Ile Leu Asn Lys Glu Lys Leu Thr
325 330 335
Asp Glu Asp Lys Lys Gln Lys Arg Lys Leu Ala Ser Glu Leu Asn Arg
340 345 350
Tyr Lys Asn Lys Glu Tyr Val Thr Asp Ala Gln Lys Lys Met Gln Glu
355 360 365
Gln Leu Lys Thr Leu Leu Phe Met Lys Leu Thr Gly Arg Ser Arg Tyr
370 375 380
Cys Met Ala His Leu Lys Glu Arg Ala Ala Gly Lys Asp Val Glu Glu
385 390 395 400
Gly Leu His Gly Val Val Gln Lys Arg His Asp Arg Asn Ile Ala Gln
405 410 415
Arg Asn His Asp Leu Arg Val Ile Asn Leu Ile Glu Ser Leu Leu Phe
420 425 430
Asp Gln Asn Lys Ser Leu Ser Asp Ala Ile Arg Lys Asn Gly Leu Met
435 440 445
Tyr Val Thr Ile Glu Ala Pro Glu Pro Lys Thr Lys His Ala Lys Lys
450 455 460
Gly Ala Ala Val Val Arg Asp Pro Arg Lys Leu Lys Glu Lys Leu Phe
465 470 475 480
Asp Asp Gln Asn Gly Val Cys Ile Tyr Thr Gly Leu Gln Leu Asp Lys
485 490 495
Leu Glu Ile Ser Lys Tyr Glu Lys Asp His Ile Phe Pro Asp Ser Arg
500 505 510
Asp Gly Pro Ser Ile Arg Asp Asn Leu Val Leu Thr Thr Lys Glu Ile
515 520 525
Asn Ser Asp Lys Gly Asp Arg Thr Pro Trp Glu Trp Met His Asp Asn
530 535 540
Pro Glu Lys Trp Lys Ala Phe Glu Arg Arg Val Ala Glu Phe Tyr Lys
545 550 555 560
Lys Gly Arg Ile Asn Glu Arg Lys Arg Glu Leu Leu Leu Asn Lys Gly
565 570 575
Thr Glu Tyr Pro Gly Asp Asn Pro Thr Glu Leu Ala Arg Gly Gly Ala
580 585 590
Arg Val Asn Asn Phe Ile Thr Glu Phe Asn Asp Arg Leu Lys Thr His
595 600 605
Gly Val Gln Glu Leu Gln Thr Ile Phe Glu Arg Asn Lys Pro Ile Val
610 615 620
Gln Val Val Arg Gly Glu Glu Thr Gln Arg Leu Arg Arg Gln Trp Asn
625 630 635 640
Ala Leu Asn Gln Asn Phe Ile Pro Leu Lys Asp Arg Ala Met Ser Phe
645 650 655
Asn His Ala Glu Asp Ala Ala Ile Ala Ala Ser Met Pro Pro Lys Phe
660 665 670
Trp Arg Glu Gln Ile Tyr Arg Thr Ala Trp His Phe Gly Pro Ser Gly
675 680 685
Asn Glu Arg Pro Asp Phe Ala Leu Ala Glu Leu Ala Pro Gln Trp Asn
690 695 700
Asp Phe Phe Met Thr Lys Gly Gly Pro Ile Ile Ala Val Leu Gly Lys
705 710 715 720
Thr Lys Tyr Ser Trp Lys His Ser Ile Ile Asp Asp Thr Ile Tyr Lys
725 730 735
Pro Phe Ser Lys Ser Ala Tyr Tyr Val Gly Ile Tyr Lys Lys Pro Asn
740 745 750
Ala Ile Thr Ser Asn Ala Ile Lys Val Leu Arg Pro Lys Leu Leu Asn
755 760 765
Gly Glu His Thr Met Ser Lys Asn Ala Lys Tyr Tyr His Gln Lys Ile
770 775 780
Gly Asn Glu Arg Phe Leu Met Lys Ser Gln Lys Gly Gly Ser Ile Ile
785 790 795 800
Thr Val Lys Pro His Asp Gly Pro Glu Lys Val Leu Gln Ile Ser Pro
805 810 815
Thr Tyr Glu Cys Ala Val Leu Thr Lys His Asp Gly Lys Ile Ile Val
820 825 830
Lys Phe Lys Pro Ile Lys Pro Leu Arg Asp Met Tyr Ala Arg Gly Val
835 840 845
Ile Lys Ala Met Asp Lys Glu Leu Glu Thr Ser Leu Ser Ser Met Ser
850 855 860
Lys His Ala Lys Tyr Lys Glu Leu His Thr His Asp Ile Ile Tyr Leu
865 870 875 880
Pro Ala Thr Lys Lys His Val Asp Gly Tyr Phe Ile Ile Thr Lys Leu
885 890 895
Ser Ala Lys His Gly Ile Lys Ala Leu Pro Glu Ser Met Val Lys Val
900 905 910
Lys Tyr Thr Gln Ile Gly Ser Glu Asn Asn Ser Glu Val Lys Leu Thr
915 920 925
Lys Pro Lys Pro Glu Ile Thr Leu Asp Ser Glu Asp Ile Thr Asn Ile
930 935 940
Tyr Asn Phe Thr Arg
945
<210> 72
<211> 967
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 72
Met Leu Gly Ser Ser Arg Tyr Leu Arg Tyr Asn Leu Thr Ser Phe Glu
1 5 10 15
Gly Lys Glu Pro Phe Leu Ile Met Gly Tyr Tyr Lys Glu Tyr Asn Lys
20 25 30
Glu Leu Ser Ser Lys Ala Gln Lys Glu Phe Asn Asp Gln Ile Ser Glu
35 40 45
Phe Asn Ser Tyr Tyr Lys Leu Gly Ile Asp Leu Gly Asp Lys Thr Gly
50 55 60
Ile Ala Ile Val Lys Gly Asn Lys Ile Ile Leu Ala Lys Thr Leu Ile
65 70 75 80
Asp Leu His Ser Gln Lys Leu Asp Lys Arg Arg Glu Ala Arg Arg Asn
85 90 95
Arg Arg Thr Arg Leu Ser Arg Lys Lys Arg Leu Ala Arg Leu Arg Ser
100 105 110
Trp Val Met Arg Gln Lys Val Gly Asn Gln Arg Leu Pro Asp Pro Tyr
115 120 125
Lys Ile Met His Asp Asn Lys Tyr Trp Ser Ile Tyr Asn Lys Ser Asn
130 135 140
Ser Ala Asn Lys Lys Asn Trp Ile Asp Leu Leu Ile His Ser Asn Ser
145 150 155 160
Leu Ser Ala Asp Asp Phe Val Arg Gly Leu Thr Ile Ile Phe Arg Lys
165 170 175
Arg Gly Tyr Leu Ala Phe Lys Tyr Leu Ser Arg Leu Ser Asp Lys Glu
180 185 190
Phe Glu Lys Tyr Ile Asp Asn Leu Lys Pro Pro Ile Ser Lys Tyr Glu
195 200 205
Tyr Asp Glu Asp Leu Glu Glu Leu Ser Ser Arg Val Glu Asn Gly Glu
210 215 220
Ile Glu Glu Lys Lys Phe Glu Gly Leu Lys Asn Lys Leu Asp Lys Ile
225 230 235 240
Asp Lys Glu Ser Lys Asp Phe Gln Val Lys Gln Arg Glu Glu Val Lys
245 250 255
Lys Glu Leu Glu Asp Leu Val Asp Leu Phe Ala Lys Ser Val Asp Asn
260 265 270
Lys Ile Asp Lys Ala Arg Trp Lys Arg Glu Leu Asn Asn Leu Leu Asp
275 280 285
Lys Lys Val Arg Lys Ile Arg Phe Asp Asn Arg Phe Ile Leu Lys Cys
290 295 300
Lys Ile Lys Gly Cys Asn Lys Asn Thr Pro Lys Lys Glu Lys Val Arg
305 310 315 320
Asp Phe Glu Leu Lys Met Val Leu Asn Asn Ala Arg Ser Asp Tyr Gln
325 330 335
Ile Ser Asp Glu Asp Leu Asn Ser Phe Arg Asn Glu Val Ile Asn Ile
340 345 350
Phe Gln Lys Lys Glu Asn Leu Lys Lys Gly Glu Leu Lys Gly Val Thr
355 360 365
Ile Glu Asp Leu Arg Lys Gln Leu Asn Lys Thr Phe Asn Lys Ala Lys
370 375 380
Ile Lys Lys Gly Ile Arg Glu Gln Ile Arg Ser Ile Val Phe Glu Lys
385 390 395 400
Ile Ser Gly Arg Ser Lys Phe Cys Lys Glu His Leu Lys Glu Phe Ser
405 410 415
Glu Lys Pro Ala Pro Ser Asp Arg Ile Asn Tyr Gly Val Asn Ser Ala
420 425 430
Arg Glu Gln His Asp Phe Arg Val Leu Asn Phe Ile Asp Lys Lys Ile
435 440 445
Phe Lys Asp Lys Leu Ile Asp Pro Ser Lys Leu Arg Tyr Ile Thr Ile
450 455 460
Glu Ser Pro Glu Pro Glu Thr Glu Lys Leu Glu Lys Gly Gln Ile Ser
465 470 475 480
Glu Lys Ser Phe Glu Thr Leu Lys Glu Lys Leu Ala Lys Glu Thr Gly
485 490 495
Gly Ile Asp Ile Tyr Thr Gly Glu Lys Leu Lys Lys Asp Phe Glu Ile
500 505 510
Glu His Ile Phe Pro Arg Ala Arg Met Gly Pro Ser Ile Arg Glu Asn
515 520 525
Glu Val Ala Ser Asn Leu Glu Thr Asn Lys Glu Lys Ala Asp Arg Thr
530 535 540
Pro Trp Glu Trp Phe Gly Gln Asp Glu Lys Arg Trp Ser Glu Phe Glu
545 550 555 560
Lys Arg Val Asn Ser Leu Tyr Ser Lys Lys Lys Ile Ser Glu Arg Lys
565 570 575
Arg Glu Ile Leu Leu Asn Lys Ser Asn Glu Tyr Pro Gly Leu Asn Pro
580 585 590
Thr Glu Leu Ser Arg Ile Pro Ser Thr Leu Ser Asp Phe Val Glu Ser
595 600 605
Ile Arg Lys Met Phe Val Lys Tyr Gly Tyr Glu Glu Pro Gln Thr Leu
610 615 620
Val Gln Lys Gly Lys Pro Ile Ile Gln Val Val Arg Gly Arg Asp Thr
625 630 635 640
Gln Ala Leu Arg Trp Arg Trp His Ala Leu Asp Ser Asn Ile Ile Pro
645 650 655
Glu Lys Asp Arg Lys Ser Ser Phe Asn His Ala Glu Asp Ala Val Ile
660 665 670
Ala Ala Cys Met Pro Pro Tyr Tyr Leu Arg Gln Lys Ile Phe Arg Glu
675 680 685
Glu Ala Lys Ile Lys Arg Lys Val Ser Asn Lys Glu Lys Glu Val Thr
690 695 700
Arg Pro Asp Met Pro Thr Lys Lys Ile Ala Pro Asn Trp Ser Glu Phe
705 710 715 720
Met Lys Thr Arg Asn Glu Pro Val Ile Glu Val Ile Gly Lys Val Lys
725 730 735
Pro Ser Trp Lys Asn Ser Ile Met Asp Gln Thr Phe Tyr Lys Tyr Leu
740 745 750
Leu Lys Pro Phe Lys Asp Asn Leu Ile Lys Ile Pro Asn Val Lys Asn
755 760 765
Thr Tyr Lys Trp Ile Gly Val Asn Gly Gln Thr Asp Ser Leu Ser Leu
770 775 780
Pro Ser Lys Val Leu Ser Ile Ser Asn Lys Lys Val Asp Ser Ser Thr
785 790 795 800
Val Leu Leu Val His Asp Lys Lys Gly Gly Lys Arg Asn Trp Val Pro
805 810 815
Lys Ser Ile Gly Gly Leu Leu Val Tyr Ile Thr Pro Lys Asp Gly Pro
820 825 830
Lys Arg Ile Val Gln Val Lys Pro Ala Thr Gln Gly Leu Leu Ile Tyr
835 840 845
Arg Asn Glu Asp Gly Arg Val Asp Ala Val Arg Glu Phe Ile Asn Pro
850 855 860
Val Ile Glu Met Tyr Asn Asn Gly Lys Leu Ala Phe Val Glu Lys Glu
865 870 875 880
Asn Glu Glu Glu Leu Leu Lys Tyr Phe Asn Leu Leu Glu Lys Gly Gln
885 890 895
Lys Phe Glu Arg Ile Arg Arg Tyr Asp Met Ile Thr Tyr Asn Ser Lys
900 905 910
Phe Tyr Tyr Val Thr Lys Ile Asn Lys Asn His Arg Val Thr Ile Gln
915 920 925
Glu Glu Ser Lys Ile Lys Ala Glu Ser Asp Lys Val Lys Ser Ser Ser
930 935 940
Gly Lys Glu Tyr Thr Arg Lys Glu Thr Glu Glu Leu Ser Leu Gln Lys
945 950 955 960
Leu Ala Glu Leu Ile Ser Ile
965
<210> 73
<211> 56
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (1)..(20)
<223> n为a、c、g或u
<400> 73
nnnnnnnnnn nnnnnnnnnn cuuacaaucg acacuuaaau aauuugcaug uguaag 56
<210> 74
<211> 56
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (1)..(20)
<223> n为a、c、g或u
<400> 74
nnnnnnnnnn nnnnnnnnnn cuuucaauaa acaaauaaau cuuaguaaua uguaac 56
<210> 75
<211> 36
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 75
cuuacaaucg acacuuaaau aauuugcaug uguaag 36
<210> 76
<211> 36
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 76
cuuucaauaa acaaauaaau cuuaguaaua uguaac 36
<210> 77
<211> 180
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 77
ggcauggacc auauccaggu guugauugua aacaccuagc ggggaaauua uauauguuug 60
uaauaucuuc acuauccaaa guuaucucug guuuugguuu gguaagcuuc acuucacuau 120
uguuuucacu cccaauuuga guaugguugg ggguaaggau gcuuucgggg agugcuuuua 180
<210> 78
<211> 85
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 78
aacuggcuau ugcuaauauu auuuguuuau ugaaagaagc cuagacguua ggguucgcgu 60
gcauguaggc uccagcaggu accuc 85
<210> 79
<211> 204
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (1)..(20)
<223> n为a、c、g或u
<400> 79
nnnnnnnnnn nnnnnnnnnn cuuacaaucg acacuuaaac agguguugau uguaaacacc 60
uagcggggaa auuauauaug uuuguaauau cuucacuauc caaaguuauc ucugguuuug 120
guuugguaag cuucacuuca cuauuguuuu cacucccaau uugaguaugg uuggggguaa 180
ggaugcuuuc ggggagugcu uuua 204
<210> 80
<211> 109
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (1)..(20)
<223> n为a、c、g或u
<400> 80
nnnnnnnnnn nnnnnnnnnn cuuucaauaa acaaauaaaa acuuauuugu uuauugaaag 60
aagccuagac guuaggguuc gcgugcaugu aggcuccagc agguaccuc 109
<210> 81
<211> 184
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 81
cuuacaaucg acacuuaaac agguguugau uguaaacacc uagcggggaa auuauauaug 60
uuuguaauau cuucacuauc caaaguuauc ucugguuuug guuugguaag cuucacuuca 120
cuauuguuuu cacucccaau uugaguaugg uuggggguaa ggaugcuuuc ggggagugcu 180
uuua 184
<210> 82
<211> 89
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 82
cuuucaauaa acaaauaaaa acuuauuugu uuauugaaag aagccuagac guuaggguuc 60
gcgugcaugu aggcuccagc agguaccuc 89
<210> 83
<211> 84
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 83
Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala
1 5 10 15
Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser
20 25 30
Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile
35 40 45
Thr Ser Asn Gly Gly Arg Val Lys Cys Met Gln Val Trp Pro Pro Ile
50 55 60
Gly Lys Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Pro Leu Thr Arg
65 70 75 80
Asp Ser Arg Ala
<210> 84
<211> 57
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 84
Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala
1 5 10 15
Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser
20 25 30
Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile
35 40 45
Thr Ser Asn Gly Gly Arg Val Lys Ser
50 55
<210> 85
<211> 85
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 85
Met Ala Ser Ser Met Leu Ser Ser Ala Thr Met Val Ala Ser Pro Ala
1 5 10 15
Gln Ala Thr Met Val Ala Pro Phe Asn Gly Leu Lys Ser Ser Ala Ala
20 25 30
Phe Pro Ala Thr Arg Lys Ala Asn Asn Asp Ile Thr Ser Ile Thr Ser
35 40 45
Asn Gly Gly Arg Val Asn Cys Met Gln Val Trp Pro Pro Ile Glu Lys
50 55 60
Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Asp Leu Thr Asp Ser Gly
65 70 75 80
Gly Arg Val Asn Cys
85
<210> 86
<211> 76
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 86
Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Gln Asn Pro Ser Leu
1 5 10 15
Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val
20 25 30
Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser
35 40 45
Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg
50 55 60
Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys
65 70 75
<210> 87
<211> 76
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 87
Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Trp Asn Pro Ser Leu
1 5 10 15
Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val
20 25 30
Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser
35 40 45
Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg
50 55 60
Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys
65 70 75
<210> 88
<211> 72
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 88
Met Ala Gln Ile Asn Asn Met Ala Gln Gly Ile Gln Thr Leu Asn Pro
1 5 10 15
Asn Ser Asn Phe His Lys Pro Gln Val Pro Lys Ser Ser Ser Phe Leu
20 25 30
Val Phe Gly Ser Lys Lys Leu Lys Asn Ser Ala Asn Ser Met Leu Val
35 40 45
Leu Lys Lys Asp Ser Ile Phe Met Gln Leu Phe Cys Ser Phe Arg Ile
50 55 60
Ser Ala Ser Val Ala Thr Ala Cys
65 70
<210> 89
<211> 69
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 89
Met Ala Ala Leu Val Thr Ser Gln Leu Ala Thr Ser Gly Thr Val Leu
1 5 10 15
Ser Val Thr Asp Arg Phe Arg Arg Pro Gly Phe Gln Gly Leu Arg Pro
20 25 30
Arg Asn Pro Ala Asp Ala Ala Leu Gly Met Arg Thr Val Gly Ala Ser
35 40 45
Ala Ala Pro Lys Gln Ser Arg Lys Pro His Arg Phe Asp Arg Arg Cys
50 55 60
Leu Ser Met Val Val
65
<210> 90
<211> 77
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 90
Met Ala Ala Leu Thr Thr Ser Gln Leu Ala Thr Ser Ala Thr Gly Phe
1 5 10 15
Gly Ile Ala Asp Arg Ser Ala Pro Ser Ser Leu Leu Arg His Gly Phe
20 25 30
Gln Gly Leu Lys Pro Arg Ser Pro Ala Gly Gly Asp Ala Thr Ser Leu
35 40 45
Ser Val Thr Thr Ser Ala Arg Ala Thr Pro Lys Gln Gln Arg Ser Val
50 55 60
Gln Arg Gly Ser Arg Arg Phe Pro Ser Val Val Val Cys
65 70 75
<210> 91
<211> 57
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 91
Met Ala Ser Ser Val Leu Ser Ser Ala Ala Val Ala Thr Arg Ser Asn
1 5 10 15
Val Ala Gln Ala Asn Met Val Ala Pro Phe Thr Gly Leu Lys Ser Ala
20 25 30
Ala Ser Phe Pro Val Ser Arg Lys Gln Asn Leu Asp Ile Thr Ser Ile
35 40 45
Ala Ser Asn Gly Gly Arg Val Gln Cys
50 55
<210> 92
<211> 65
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 92
Met Glu Ser Leu Ala Ala Thr Ser Val Phe Ala Pro Ser Arg Val Ala
1 5 10 15
Val Pro Ala Ala Arg Ala Leu Val Arg Ala Gly Thr Val Val Pro Thr
20 25 30
Arg Arg Thr Ser Ser Thr Ser Gly Thr Ser Gly Val Lys Cys Ser Ala
35 40 45
Ala Val Thr Pro Gln Ala Ser Pro Val Ile Ser Arg Ser Ala Ala Ala
50 55 60
Ala
65
<210> 93
<211> 72
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 93
Met Gly Ala Ala Ala Thr Ser Met Gln Ser Leu Lys Phe Ser Asn Arg
1 5 10 15
Leu Val Pro Pro Ser Arg Arg Leu Ser Pro Val Pro Asn Asn Val Thr
20 25 30
Cys Asn Asn Leu Pro Lys Ser Ala Ala Pro Val Arg Thr Val Lys Cys
35 40 45
Cys Ala Ser Ser Trp Asn Ser Thr Ile Asn Gly Ala Ala Ala Thr Thr
50 55 60
Asn Gly Ala Ser Ala Ala Ser Ser
65 70
<210> 94
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (4)..(4)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (8)..(8)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (11)..(11)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (15)..(15)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (19)..(19)
<223> Xaa可以是任何天然存在的氨基酸
<400> 94
Gly Leu Phe Xaa Ala Leu Leu Xaa Leu Leu Xaa Ser Leu Trp Xaa Leu
1 5 10 15
Leu Leu Xaa Ala
20
<210> 95
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 95
Gly Leu Phe His Ala Leu Leu His Leu Leu His Ser Leu Trp His Leu
1 5 10 15
Leu Leu His Ala
20
<210> 96
<211> 7
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 96
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 97
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 97
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1 5 10 15
<210> 98
<211> 9
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 98
Pro Ala Ala Lys Arg Val Lys Leu Asp
1 5
<210> 99
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 99
Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro
1 5 10
<210> 100
<211> 38
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 100
Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly
1 5 10 15
Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro
20 25 30
Arg Asn Gln Gly Gly Tyr
35
<210> 101
<211> 42
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 101
Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu
1 5 10 15
Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys
20 25 30
Asp Glu Gln Ile Leu Lys Arg Arg Asn Val
35 40
<210> 102
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 102
Val Ser Arg Lys Arg Pro Arg Pro
1 5
<210> 103
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 103
Pro Pro Lys Lys Ala Arg Glu Asp
1 5
<210> 104
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 104
Pro Gln Pro Lys Lys Lys Pro Leu
1 5
<210> 105
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 105
Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro
1 5 10
<210> 106
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 106
Asp Arg Leu Arg Arg
1 5
<210> 107
<211> 7
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 107
Pro Lys Gln Lys Lys Arg Lys
1 5
<210> 108
<211> 10
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 108
Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu
1 5 10
<210> 109
<211> 10
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 109
Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg
1 5 10
<210> 110
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 110
Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys
1 5 10 15
Lys Ser Lys Lys
20
<210> 111
<211> 17
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 111
Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys
1 5 10 15
Lys
<210> 112
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 112
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 113
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 113
Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg
1 5 10
<210> 114
<211> 27
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 114
Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu
1 5 10 15
Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu
20 25
<210> 115
<211> 33
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 115
Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala
1 5 10 15
Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu
20 25 30
Ala
<210> 116
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 116
Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys
1 5 10 15
<210> 117
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 117
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 118
<211> 9
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 118
Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5
<210> 119
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 119
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 120
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 120
Arg Lys Lys Arg Arg Gln Arg Arg
1 5
<210> 121
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 121
Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala
1 5 10
<210> 122
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 122
Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg
1 5 10
<210> 123
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 123
Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg
1 5 10
<210> 124
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 124
Gly Ser Gly Gly Ser
1 5
<210> 125
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 125
Gly Gly Ser Gly Gly Ser
1 5
<210> 126
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 126
Gly Gly Gly Ser
1
<210> 127
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 127
Gly Gly Ser Gly
1
<210> 128
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 128
Gly Gly Ser Gly Gly
1 5
<210> 129
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 129
Gly Ser Gly Ser Gly
1 5
<210> 130
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 130
Gly Ser Gly Gly Gly
1 5
<210> 131
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 131
Gly Gly Gly Ser Gly
1 5
<210> 132
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 132
Gly Ser Ser Ser Gly
1 5
<210> 133
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 133
Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys
1 5 10 15
<210> 134
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 134
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 135
<211> 1067
<212> PRT
<213> 未知(Unknown)
<220>
<223> 来自未鉴定的Lindow细菌的宏基因组数据的序列
<400> 135
Val Ser Ala Thr Arg Lys Gly Gln Gly Ser Gly Ala Pro Ile Ser Arg
1 5 10 15
Thr Glu Ala Pro Gln Ile Ala Leu Met Ala Thr Glu Leu Glu Gln Arg
20 25 30
Leu Asn Glu Phe Leu Asp Ser Leu Arg Leu Gly Ile Asp Phe Gly Glu
35 40 45
Asp Tyr Gly Gly Ile Ala Leu Val Gln Ala Asn Arg Val Leu His Ala
50 55 60
Glu Thr Phe Val Asp Phe His Gln Ala Thr Leu Lys Asp Arg Arg Arg
65 70 75 80
Asn Arg Arg Gly Arg Arg Thr Arg His Ala Arg Lys Met Arg Leu Ala
85 90 95
Arg Leu Arg Ser Trp Ile Leu Arg Gln Lys Leu Pro Gly Gly Gln Arg
100 105 110
Leu Pro Asp Pro Tyr Gly Val Met His Trp Pro Phe Lys Thr Lys Lys
115 120 125
Gly His Thr Ile Lys Thr Gly Leu Ala Ser Arg Gln Asp Gly Lys Arg
130 135 140
Thr Ile Ile Gln Lys Cys Lys Ile Gly Thr Ala Thr Pro Glu Glu Phe
145 150 155 160
Val Cys Ser Leu Thr Leu Leu Phe Gln Lys Arg Gly Phe Val Trp Glu
165 170 175
Gly Ser Asp Leu Cys Glu Leu Ser Asp Gln Glu Leu Ala Glu Glu Leu
180 185 190
Met Thr Val Arg Ile Thr Glu Ala Val Ala Ala Ala Ile Lys Glu Glu
195 200 205
Ile Glu Arg Arg Lys Lys Glu Pro Glu Asp Asn Lys Glu Gly Glu Ile
210 215 220
Glu Asn Leu Glu Thr Val Leu Cys Asp Ala Val Lys Arg Ala Arg Ser
225 230 235 240
Pro Arg Thr Pro Glu His Arg Ser Ile Val Glu Ser Asp Leu Lys Asp
245 250 255
Ile Val Asp Gly Trp Thr Arg Lys Asn Cys Pro Gln Met Thr Asp Met
260 265 270
Trp Lys Lys Glu Leu Ser Cys Leu Leu Asn Lys His Val Arg Pro Ala
275 280 285
Arg Phe Glu Asn Arg Ile Val Ala Gly Cys Ser Trp Cys Gly Lys Met
290 295 300
Val Pro Arg Lys Ser Lys Val Arg Glu Leu Ala Tyr Lys Val Val Val
305 310 315 320
Lys Asn Ile Arg Val Glu Asp Phe Thr Ser Arg Gln Pro Leu Thr Ala
325 330 335
Gln Glu Ala Glu Tyr Phe Ser Gln Leu Trp Val Asp Lys Glu Ala Lys
340 345 350
Pro Pro Ala Arg Thr Ala Ile Glu Asn Lys Leu Lys Lys Leu Lys Ala
355 360 365
Ser Pro Lys Met Ala Asn Gln Leu Tyr Glu Leu Leu Ala Pro Ser Glu
370 375 380
Pro Lys Gly His Thr Asn Leu Cys Gln Gln His Leu Glu Met Ala Ala
385 390 395 400
Arg Gly Ala Phe Met Cys Asn Arg His His Ala Ile Cys Glu Asn Asn
405 410 415
Asn Gly Asp His Gln Thr Ile Asp Ser Val Lys Glu Gly Arg Lys Arg
420 425 430
Ala Gly Pro Arg Asn Pro Cys Arg Glu Asp Arg Asp Arg Arg Met Ile
435 440 445
Arg Arg Leu Glu Gln Ile Leu Phe Glu Thr Pro Gly Lys Pro Gly Lys
450 455 460
Pro Ser His Ser Ile Pro Arg Leu Ile Thr Ile Glu Phe Pro Lys Pro
465 470 475 480
Asn Thr Ala Gln Thr Ala Gly Cys Pro His Cys Lys Glu Lys Leu Ser
485 490 495
Leu Asp Ala Arg Val Arg Trp Lys Met Ala Arg Pro Met Lys Leu Glu
500 505 510
Ala Ser Asn Asp Ser Thr Pro Phe Phe Cys Pro Ser Cys Ala Ala Gly
515 520 525
Ile Lys Ile Thr Leu Tyr Lys Lys Met Arg Ile Lys Glu Lys Glu Ile
530 535 540
Val Gln Lys Tyr Ser Pro Lys Asp Thr Asp Val Leu Val Arg Lys Thr
545 550 555 560
Ala Ala Gly Gly Leu Lys Lys Leu Lys Tyr Asp Met Tyr Leu Lys Glu
565 570 575
Thr Asp Gly Thr Cys Val Tyr Cys Gly Thr Ser Ile Gly Ser Gly Gln
580 585 590
Ile Asp His Ile Phe Pro Gln Ser Arg Gly Gly Pro Asn Ile Asp Tyr
595 600 605
Asn Leu Ile Ser Cys Cys Arg Thr Cys Asn Gly Asn Leu Lys Lys Asn
610 615 620
Lys Ser Pro Trp Glu Trp Phe Gly Asn Ile Asp Gln Arg Trp Arg Glu
625 630 635 640
Phe Glu Asp Arg Val Lys Lys Leu Pro Ala Pro Gln Arg Lys Lys Ala
645 650 655
Ile Leu Leu Ser Arg Glu Ser Ala Tyr Pro Glu Asn Pro Thr Ala Leu
660 665 670
Ala Arg Val Gly Ala Arg Thr Lys Glu Phe Ile Gly Arg Ile Lys Gln
675 680 685
Met Leu Leu Ala Asn Gly Val Lys Glu Asn Glu Ile Ala Asp Asn Tyr
690 695 700
Glu Lys Asp Lys Ile Val Ile Gln Thr Ile Asp Gly Trp Met Thr Ser
705 710 715 720
Arg Leu Arg Gly Cys Trp Arg Thr Phe Pro Asp Gly Thr Ala Asn Phe
725 730 735
Pro Pro Lys Asn Asp Ala Asp Lys Arg Asn His Ala Gln Asp Ala Val
740 745 750
Leu Ile Ala Ala Cys Pro Pro His Thr Trp Arg Glu Arg Ile Phe Thr
755 760 765
Trp Lys Pro Glu Asn Pro Tyr Phe Ser Val Leu Gln Lys Ile Ala Pro
770 775 780
Arg Trp Lys Asp His Gln Ala Thr Met Lys Ile Leu Gly Arg Tyr Phe
785 790 795 800
Pro Arg Trp His Asn Gln Asn Ser Asp Ile Gln Phe Val His Gln His
805 810 815
Lys Thr Gln Asn Gly Thr Ser Tyr Thr Met Arg Asp Thr Val Glu Ser
820 825 830
Ile Asp Val Gly Thr Asp Lys Lys Gly Gly Ser Ile Glu Arg Ile Tyr
835 840 845
Ser Lys Ser Phe Arg Asp Phe Phe Ser Arg Thr Phe Lys Ser Leu Gly
850 855 860
Ile Lys Met Ala Met Asn Glu Ile Pro Lys Leu Lys Ser Gln Trp Leu
865 870 875 880
Asn Glu Arg Arg Ala Ala Trp Met Lys Lys Asn Pro Ala Thr Pro Val
885 890 895
Pro Asn Gln Arg Glu Arg Ala Trp Glu Ala Ser Phe Pro Arg Arg Leu
900 905 910
Gln Phe Asp Met Gly Tyr Gly Glu Asp Val Ala Glu Val Asn Pro Lys
915 920 925
Asn Gly Pro Ser Arg Phe Val Arg Ala Gln Pro Val Asn Asp Arg Ile
930 935 940
Glu Val Trp Thr Asn Asp Val Arg Gln Ala Gln Ile Arg Thr Val Lys
945 950 955 960
Asn Arg Ile Leu Phe Arg His Ile Gln Asp Asn Ser Pro Gln Gly Arg
965 970 975
Thr Leu Glu Arg Ile Phe Arg Arg Asn Asp Met Ile Gln Leu Asp Ala
980 985 990
Val Gln Lys Arg Gly Arg Lys Gly Ile Thr Gly Lys Ser Tyr Glu Ala
995 1000 1005
Gly Glu Tyr Met Val Val Lys Ile Glu Lys Gly Gly Lys Phe Thr
1010 1015 1020
Ala Val Pro Ala His Arg Gly Lys Gly Arg Glu Asn Gln Arg Gln
1025 1030 1035
Val Ser Gln Arg Glu Ile Ala Lys Leu Cys Gly Val Ser Leu Ser
1040 1045 1050
Pro Lys Arg Arg Lys Pro Ser Arg Ser Thr Ser Glu Ser Gly
1055 1060 1065
<210> 136
<211> 990
<212> PRT
<213> 未知(Unknown)
<220>
<223> 来自未鉴定的δ变形菌门的宏基因组数据的序列
<400> 136
Val Ala Ala Ala Ser Leu Ile Leu Gln Arg Gly Gly Leu Val Ala Leu
1 5 10 15
His Pro Arg Leu Glu Arg Lys Ile Lys Glu Phe Leu Pro Thr Tyr Arg
20 25 30
Leu Gly Val Asp Leu Gly Glu Ala Ala Gly Gly Leu Ala Leu Ile His
35 40 45
Asn Asn Asn Ile Leu His Ala Glu Thr Phe Thr Asp Phe His Glu Ala
50 55 60
Thr Leu Glu Thr Lys Arg Ala Leu Arg Arg Gly Arg Arg Thr Arg His
65 70 75 80
Ala Lys Lys Met Arg Leu Ala Arg Leu Arg Ser Trp Ile Leu Arg Gln
85 90 95
Cys Ile Pro Ala His Val Thr Gly Ala Glu Ile Lys Asp Ser Tyr Ser
100 105 110
Arg Leu Pro Asp Pro Tyr Arg Leu Met Lys Asp Lys Lys Tyr Gln Thr
115 120 125
Leu Pro Gly Phe Tyr Glu Val Lys Gly Gln Asn Pro Glu Lys Ser Pro
130 135 140
Thr Trp Ile Asp Lys Ala Lys Ala Gly Glu Val Asp Ala Glu Gly Phe
145 150 155 160
Val Ile Ala Leu Thr His Ile Leu Gln Lys Arg Gly Tyr Lys Tyr Asp
165 170 175
Gly Lys Glu Phe Ser Asp Tyr Asp Asp Ser Arg Leu Ile Asp Phe Ile
180 185 190
Asp Ser Cys Ala Met Leu Ala Glu Ala Pro Glu Met Arg Lys Ala Leu
195 200 205
Glu Asp Glu Ile Met Arg Arg Glu Val Gly Glu Lys Glu Lys Pro Lys
210 215 220
Leu His Glu Ala Phe Asp Asn Ala Leu Asn Arg Gln Arg Glu Arg Lys
225 230 235 240
Lys Ala Leu Pro Arg Gln Val Arg Glu Lys Asp Met Glu Asp Met Val
245 250 255
Asp Val Phe Gly Arg Arg Trp Gln Leu Ser Gln Glu Ile Ile Ala Asn
260 265 270
Trp Lys Ser Gln Leu Thr Gly Leu Leu Asn Lys Val Val Arg Glu Ala
275 280 285
Arg Tyr Asp Asn Arg Leu Lys Ser Gly Cys Ser Trp Cys Gly Lys Lys
290 295 300
Thr Pro Arg Leu Ala Lys Pro Glu Ile Arg Glu Leu Ala Phe Glu Ala
305 310 315 320
Ala Val Gly Asn Leu Arg Ile Arg Glu Arg Asp Gly Arg Asp Arg Pro
325 330 335
Ile Ser Asp Glu Glu Arg Asn Pro Leu Arg Gly Trp Phe Gln Arg Arg
340 345 350
Arg Glu Asn His Asp Tyr Ser Arg Ala Thr Lys Asn Thr Pro Ile Glu
355 360 365
Glu Arg Ala Pro Ser Glu Asp Asn Ile Arg Thr Tyr Leu Glu Gln Ile
370 375 380
Gly Val Lys Lys Ala Trp Ile Arg Lys Lys Lys Gly Lys Glu Lys Trp
385 390 395 400
Lys Phe Asp Phe Ala Met Leu Pro Gln Leu Asp Asn Leu Ile Asn Lys
405 410 415
Glu Ala Arg Lys Gly Arg Ala Arg Leu Cys Val Glu His Met Arg Met
420 425 430
Gln Ala Glu Gly Lys Thr Met Lys Asp Ala Asp Val Asp Trp Gln Ser
435 440 445
Met Arg Lys Arg Asn Ala Pro Asn Pro Arg Arg Glu Gln His Asp Ala
450 455 460
Arg Val Leu Lys Arg Ile Glu Arg Leu Ile Phe Asn Arg Gly Lys Lys
465 470 475 480
Gly Thr Asp Ala Trp Arg His Gly Pro Ile Ala Val Ile Thr Leu Glu
485 490 495
Val Pro Met Pro Val Asp Leu Glu Arg Ala Arg Glu Lys Glu Gln Val
500 505 510
Glu Arg Lys Pro Leu Asn Leu Arg Gln Arg Leu His Ala Glu Thr Glu
515 520 525
Gly Val Cys Ile Tyr Cys Gly Glu Asn Val His Asp Arg Thr Met His
530 535 540
Leu Glu His Ile Val Pro Gln Ala Lys Gly Gly Pro Asp Val Gln Met
545 550 555 560
Asn Arg Ile Ala Ser Cys Pro Lys Cys Asn Ala Asp Arg Asp Thr Gly
565 570 575
Lys Lys Asp Met Leu Pro Ser Glu Trp Leu Thr Gly Asp Lys Trp Asn
580 585 590
Val Phe Lys Ser Arg Val Met Ser Leu Asn Leu Pro Pro Leu Lys Lys
595 600 605
Gln Leu Leu Leu Leu Glu Pro Gly Ser Lys Tyr Pro Asn Asp Pro Thr
610 615 620
Pro Leu Ala Arg Val Ser Ala Arg Trp Arg Ala Phe Ala Ala Asp Ile
625 630 635 640
Met Trp Leu Phe Asp Glu Tyr Ser Val Pro Val Pro Thr Leu Asn Tyr
645 650 655
Glu Lys Asp Lys Pro His Ile Gln Val Val Arg Gly Asn Leu Thr Ser
660 665 670
Arg Leu Arg Arg Asp Trp Arg Trp Lys Asp His Glu Ala Thr Val Glu
675 680 685
Asn Phe Pro Asp Lys Arg Arg Thr Asp Leu Tyr Asn His Ala Gln Asp
690 695 700
Ala Ala Ile Leu Ala Ala Ile Pro Pro His Thr Trp Gln Glu Gln Ile
705 710 715 720
Phe Ser Asp Met Ala Val Arg Pro Cys Ala Lys Lys Asp Glu Gln Gly
725 730 735
Asn Ile Leu Lys Asn Glu Lys Glu Met Arg Pro Arg Pro Gly Ile Ala
740 745 750
Ala Leu Ala Leu Ala Pro Glu Trp Ala Asp Tyr Glu Arg Thr Gln Lys
755 760 765
Glu Leu Lys Arg Pro Met Val His Thr Leu Gly Lys Leu Lys Ala Thr
770 775 780
Trp Arg Arg Gln Ile Met Asp Leu Ser Phe Tyr Gln Asn Pro Thr Asp
785 790 795 800
Asn Asp Gly Pro Leu Phe Ile Arg Lys Val Asp Ala Lys Thr Gly Lys
805 810 815
Arg Glu Thr Lys Glu Val Gln Lys Gly Gly Leu Val Val Gln Val Pro
820 825 830
His Tyr Asp Gly Thr Ser Gly Lys Arg Lys Val Gln Ile Lys Pro Ile
835 840 845
Gln Ser Asn Ala Ile Ile Leu Trp His Asp Pro Ser Gly Arg Lys Asp
850 855 860
Asn Leu Asn Ile Ser Ile Glu Arg Pro Ala Ala Ile Lys Lys Phe Val
865 870 875 880
Lys His Pro Val Asp Pro Pro Ile Ala Ser Asp Ala Ile Ile Leu Gly
885 890 895
Arg Ile Glu Arg Ala Ser Thr Leu Trp Leu Arg Glu Gly Lys Gly Thr
900 905 910
Val Glu Leu Lys Ala Asp Lys Lys Ser Val Arg Ser Ser Val Val Met
915 920 925
Pro Glu Gly Ile Tyr Arg Val Lys Glu Leu Gly Ser Asn Gly Val Ile
930 935 940
Val Val Gln Glu Asn Ala Val Ser Lys Glu Leu Ala Asn Lys Leu Gly
945 950 955 960
Ile Ser Asp Asp Gln Phe Ser Lys Val Pro Glu Arg Ala Leu Gly Lys
965 970 975
Lys Glu Leu Ala Glu Tyr Phe Lys Gly Asn Gln Arg Ser Gly
980 985 990

Claims (131)

1.一种组合物,其包含:
a)CasX多肽或编码所述CasX多肽的核酸分子;以及
b)CasX指导RNA或一种或多种编码所述CasX指导RNA的DNA分子。
2.如权利要求1所述的组合物,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
3.如权利要求1或权利要求2所述的组合物,其中所述CasX指导RNA是单指导RNA。
4.如权利要求1或权利要求2所述的组合物,其中所述CasX指导RNA是双指导RNA。
5.如权利要求1-4中任一项所述的组合物,其中所述组合物包含脂质。
6.如权利要求1-4中任一项所述的组合物,其中a)和b)在脂质体内。
7.如权利要求1-4中任一项所述的组合物,其中a)和b)在颗粒内。
8.如权利要求1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。
9.如权利要求1-8中任一项所述的组合物,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
10.如权利要求1-9中任一项所述的组合物,其中所述CasX多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
11.如权利要求1-9中任一项所述的组合物,其中所述CasX多肽是无催化活性的CasX多肽(dCasX)。
12.如权利要求10或权利要求11所述的组合物,其中所述CasX多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
13.如权利要求1-12中任一项所述的组合物,其还包含DNA供体模板。
14.一种CasX单指导RNA分子,其包含:
a)靶向因子序列,其包含与靶核酸杂交的指导序列和双链体形成区段;以及
b)激活因子序列,其与所述靶向因子序列的所述双链体形成区段杂交,以形成可结合CasX多肽的双链RNA(dsRNA)双链体。
15.如权利要求14所述的CasX单指导RNA分子,其中所述指导序列具有19至30个核苷酸的长度。
16.一种DNA分子,其包含编码如权利要求14或权利要求15所述的CasX单指导RNA分子的核苷酸序列。
17.如权利要求16所述的DNA分子,其中编码所述CasX单指导RNA的所述核苷酸序列可操作地连接到启动子。
18.如权利要求17所述的DNA分子,其中所述启动子在真核细胞中是功能性的。
19.如权利要求18所述的DNA分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
20.如权利要求17-19中任一项所述的DNA分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
21.如权利要求16-20中任一项所述的DNA分子,其中所述DNA分子是重组表达载体。
22.如权利要求21所述的DNA分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
23.如权利要求17所述的DNA分子,其中所述启动子在原核细胞中是功能性的。
24.一种CasX融合多肽,其包含:与异源多肽融合的CasX多肽。
25.如权利要求24所述的CasX融合多肽,其中所述CasX多肽包含与SEQ ID NO:1或SEQID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
26.如权利要求24所述的CasX融合多肽,其中所述CasX多肽包含与SEQ ID NO:1或SEQID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
27.如权利要求24-26中任一项所述的CasX融合多肽,其中所述CasX多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
28.如权利要求24-27中任一项所述的CasX融合多肽,其中所述CasX多肽是无催化活性的CasX多肽(dCasX)。
29.如权利要求27或权利要求28所述的CasX融合多肽,其中所述CasX多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
30.如权利要求24-29中任一项所述的CasX融合多肽,其中所述异源多肽与所述CasX多肽的N末端和/或C末端融合。
31.如权利要求24-30中任一项所述的CasX融合多肽,其包含NLS。
32.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。
33.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
34.如权利要求33所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
35.如权利要求34所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
36.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
37.如权利要求36所述的CasX融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
38.如权利要求36或权利要求37所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
39.如权利要求38所述的CasX融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
40.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽是内体逃逸多肽。
41.如权利要求40所述的CasX融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
42.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽是叶绿体转运肽。
43.如权利要求42所述的CasX融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:
MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、
MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、
MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、
MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、
MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、
MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、
MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQID NO:89)、
MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、
MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、
MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ IDNO:92),和
MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。
44.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。
45.如权利要求44所述的CasX融合多肽,其中所述异源多肽是转录阻遏物结构域。
46.如权利要求44所述的CasX融合多肽,其中所述异源多肽是转录激活结构域。
47.如权利要求24-31中任一项所述的CasX融合多肽,其中所述异源多肽是蛋白质结合结构域。
48.一种核酸分子,其编码如权利要求24-47中任一项所述的CasX融合多肽。
49.如权利要求48所述的核酸分子,其中编码所述CasX融合多肽的所述核苷酸序列可操作地连接到启动子。
50.如权利要求49所述的核酸分子,其中所述启动子在真核细胞中是功能性的。
51.如权利要求50所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
52.如权利要求49-51中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
53.如权利要求48-52中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。
54.如权利要求53所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
55.如权利要求49所述的核酸分子,其中所述启动子在原核细胞中是功能性的。
56.如权利要求48所述的核酸分子,其中所述核酸分子是mRNA。
57.一种或多种核酸分子,其编码:
(a)CasX指导RNA,其包含激活因子RNA和靶向因子RNA;以及
(b)CasX多肽。
58.如权利要求57所述的一种或多种核酸分子,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
59.如权利要求57所述的一种或多种核酸分子,其中所述CasX多肽包含与SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
60.如权利要求57-59中任一项所述的一种或多种核酸分子,其中所述CasX指导RNA是单指导RNA。
61.如权利要求57-59中任一项所述的一种或多种核酸分子,其中所述CasX指导RNA是双指导RNA。
62.如权利要求61所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述激活因子的第一核苷酸序列和编码所述靶向因子的第二核苷酸序列,并且其中所述第一和第二核苷酸序列存在于不同的DNA分子上。
63.如权利要求57-62中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasX多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
64.如权利要求63所述的一种或多种核酸分子,其中所述启动子在真核细胞中是功能性的。
65.如权利要求64所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
66.如权利要求63-65中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
67.如权利要求57-66中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。
68.如权利要求67所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
69.如权利要求63所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。
70.一种真核细胞,其包含以下中的一种或多种:
a)Casx多肽或编码所述Casx多肽的核酸分子,
b)CasX融合多肽或编码所述CasX融合多肽的核酸分子,以及
c)CasX指导RNA或编码所述CasX指导RNA的核酸分子。
71.如权利要求70所述的真核细胞,其包含编码所述Casx多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
72.如权利要求70或权利要求71所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
73.一种细胞,其包含CasX融合多肽或编码所述CasX融合多肽的核酸分子。
74.如权利要求73所述的细胞,其中所述细胞是原核细胞。
75.如权利要求73或权利要求74所述的细胞,其包含编码所述CasX融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
76.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasX多肽;以及
b)CasX指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,
其中所述接触导致通过所述CasX多肽对所述靶核酸的修饰。
77.如权利要求76所述的方法,其中所述修饰是对所述靶核酸的切割。
78.如权利要求76或权利要求77所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
79.如权利要求76-78中任一项所述的方法,其中所述接触在体外在细胞外部发生。
80.如权利要求76-78中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
81.如权利要求76-78中任一项所述的方法,其中所述接触在体内在细胞内部发生。
82.如权利要求80或权利要求81所述的方法,其中所述细胞是真核细胞。
83.如权利要求82所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
84.如权利要求80或权利要求81所述的方法,其中所述细胞是原核细胞。
85.如权利要求76-84中任一项所述的方法,其中所述接触导致基因组编辑。
86.如权利要求76-85中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasX多肽或编码所述CasX多肽的核酸分子,以及(b)所述Casx指导RNA或编码所述CasX指导RNA的核酸分子。
87.如权利要求86所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
88.如权利要求76-87中任一项所述的方法,其中所述CasX指导RNA是单指导RNA。
89.如权利要求76-87中任一项所述的方法,其中所述CasX指导RNA是双指导RNA。
90.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasX融合多肽,其包含与异源多肽融合的CasX多肽;以及
b)CasX指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。
91.如权利要求90所述的方法,其中所述CasX指导RNA是单指导RNA。
92.如权利要求90所述的方法,其中所述CasX指导RNA是双指导RNA。
93.如权利要求90-92中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
94.如权利要求90-93中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
95.如权利要求90-94中任一项所述的方法,其中所述接触在体外在细胞外部发生。
96.如权利要求90-94中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
97.如权利要求90-94中任一项所述的方法,其中所述接触在体内在细胞内部发生。
98.如权利要求96或权利要求97所述的方法,其中所述细胞是真核细胞。
99.如权利要求98所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
100.如权利要求96或权利要求97所述的方法,其中所述细胞是原核细胞。
101.如权利要求90-100中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasX融合多肽或编码所述CasX融合多肽的核酸分子,以及(b)所述Casx指导RNA或编码所述CasX指导RNA的核酸分子。
102.如权利要求90-101中任一项所述的方法,其中所述CasX多肽是无催化活性的CasX多肽(dCasX)。
103.如权利要求90-102中任一项所述的方法,其中所述CasX多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
104.如权利要求90-103中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
105.如权利要求104所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
106.如权利要求105所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
107.如权利要求90-103中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
108.如权利要求107所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
109.如权利要求107或权利要求108所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
110.如权利要求109所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
111.如权利要求90-103中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。
112.如权利要求111所述的方法,其中所述异源多肽是转录阻遏物结构域。
113.如权利要求111所述的方法,其中所述异源多肽是转录激活结构域。
114.如权利要求90-103中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。
115.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:
a)Casx多肽,
b)CasX融合多肽,和
c)CasX指导RNA。
116.如权利要求115所述的转基因的多细胞非人生物体,其中所述CasX多肽包含与SEQID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
117.如权利要求115所述的转基因的多细胞非人生物体,其中所述CasX多肽包含与SEQID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
118.如权利要求115-117中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼、爬行动物、两栖动物、有蹄类动物、鸟、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
119.一种系统,其包含:
a)CasX多肽和CasX单指导RNA;
b)CasX多肽、CasX指导RNA和DNA供体模板;
c)CasX融合多肽和CasX指导RNA;
d)CasX融合多肽、CasX指导RNA和DNA供体模板;
e)编码CasX多肽的mRNA和CasX单指导RNA;
f)编码CasX多肽的mRNA、CasX指导RNA和DNA供体模板;
g)编码CasX融合多肽的mRNA和CasX指导RNA;
h)编码CasX融合多肽的mRNA、CasX指导RNA和DNA供体模板;
i)一种或多种重组表达载体,其包含:i)编码CasX多肽的核苷酸序列,和ii)编码CasX指导RNA的核苷酸序列;
j)一种或多种重组表达载体,其包含:i)编码CasX多肽的核苷酸序列、ii)编码CasX指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,其包含:i)编码CasX融合多肽的核苷酸序列,和ii)编码CasX指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,其包含:i)编码CasX融合多肽的核苷酸序列、ii)编码CasX指导RNA的核苷酸序列,和DNA供体模板。
120.如权利要求119所述的CasX系统,其中所述CasX多肽包含与SEQ ID NO:1或SEQ IDNO:2或SEQ ID NO:3所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
121.如权利要求119所述的CasX系统,其中所述CasX多肽包含与SEQ ID NO:1或SEQ IDNO:2或SEQ ID NO:3所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
122.如权利要求119-121中任一项所述的CasX系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
123.如权利要求119-121中任一项所述的CasX系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
124.一种试剂盒,其包含如权利要求119-123中任一项所述的CasX系统。
125.如权利要求124所述的试剂盒,其中所述试剂盒的组分在同一容器中。
126.如权利要求124所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
127.一种无菌容器,其包含如权利要求119-126中任一项所述的CasX系统。
128.如权利要求127所述的无菌容器,其中所述容器是注射器。
129.一种可植入装置,其包含如权利要求119-126中任一项所述的CasX系统。
130.如权利要求129所述的可植入装置,其中所述CasX系统在基质内。
131.如权利要求129所述的可植入装置,其中所述CasX系统在储库中。
CN201780074116.1A 2016-09-30 2017-09-28 Rna指导的核酸修饰酶及其使用方法 Pending CN110023494A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662402846P 2016-09-30 2016-09-30
US62/402,846 2016-09-30
PCT/US2017/054081 WO2018064371A1 (en) 2016-09-30 2017-09-28 Rna-guided nucleic acid modifying enzymes and methods of use thereof

Publications (1)

Publication Number Publication Date
CN110023494A true CN110023494A (zh) 2019-07-16

Family

ID=61760962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780074116.1A Pending CN110023494A (zh) 2016-09-30 2017-09-28 Rna指导的核酸修饰酶及其使用方法

Country Status (13)

Country Link
US (4) US11873504B2 (zh)
EP (1) EP3523426A4 (zh)
JP (2) JP2019532644A (zh)
KR (2) KR20230170126A (zh)
CN (1) CN110023494A (zh)
AU (1) AU2017335890B2 (zh)
BR (1) BR112019006384A2 (zh)
CA (1) CA3038960A1 (zh)
EA (1) EA201990861A1 (zh)
GB (1) GB2569733B (zh)
IL (1) IL265598A (zh)
MX (1) MX2019003674A (zh)
WO (1) WO2018064371A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073173A1 (zh) * 2019-10-18 2021-04-22 福州大学 一种在鱼类胚胎中实现精确定点 rna 剪切的技术
CN113969281A (zh) * 2021-12-24 2022-01-25 汕头大学 经修饰的CrRNA片段及非洲猪瘟病毒试剂盒
CN114729368A (zh) * 2019-09-09 2022-07-08 斯克里贝治疗公司 用于免疫疗法的组合物和方法
CN114829595A (zh) * 2019-10-17 2022-07-29 成对植物服务股份有限公司 Cas12a核酸酶的变体及其制备方法和用途
CN114901816A (zh) * 2019-12-30 2022-08-12 帝斯曼知识产权资产管理有限公司 脂肪酶修饰的菌株
CN115698041A (zh) * 2019-12-23 2023-02-03 加利福尼亚大学董事会 Crispr-cas效应多肽及其使用方法

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US20150166982A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting pi3k point mutations
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
US11680268B2 (en) 2014-11-07 2023-06-20 Editas Medicine, Inc. Methods for improving CRISPR/Cas-mediated genome-editing
WO2016182959A1 (en) 2015-05-11 2016-11-17 Editas Medicine, Inc. Optimized crispr/cas9 systems and methods for gene editing in stem cells
WO2016201047A1 (en) 2015-06-09 2016-12-15 Editas Medicine, Inc. Crispr/cas-related methods and compositions for improving transplantation
AU2016326711B2 (en) 2015-09-24 2022-11-03 Editas Medicine, Inc. Use of exonucleases to improve CRISPR/Cas-mediated genome editing
IL294014B1 (en) 2015-10-23 2024-03-01 Harvard College Nucleobase editors and their uses
EP3433363A1 (en) 2016-03-25 2019-01-30 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
US11236313B2 (en) 2016-04-13 2022-02-01 Editas Medicine, Inc. Cas9 fusion molecules, gene editing systems, and methods of use thereof
US10337051B2 (en) 2016-06-16 2019-07-02 The Regents Of The University Of California Methods and compositions for detecting a target RNA
AU2017306676B2 (en) 2016-08-03 2024-02-22 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
CA3033327A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
AU2017335890B2 (en) 2016-09-30 2024-05-09 The Regents Of The University Of California RNA-guided nucleic acid modifying enzymes and methods of use thereof
WO2018064352A1 (en) 2016-09-30 2018-04-05 The Regents Of The University Of California Rna-guided nucleic acid modifying enzymes and methods of use thereof
CN110214180A (zh) 2016-10-14 2019-09-06 哈佛大学的校长及成员们 核碱基编辑器的aav递送
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US20180201921A1 (en) * 2017-01-18 2018-07-19 Excision Biotherapeutics, Inc. CRISPRs
WO2018152418A1 (en) * 2017-02-17 2018-08-23 Temple University - Of The Commonwealth System Of Higher Education Gene editing therapy for hiv infection via dual targeting of hiv genome and ccr5
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
JP2020510439A (ja) 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
KR20190130613A (ko) 2017-03-23 2019-11-22 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제
WO2018201086A1 (en) 2017-04-28 2018-11-01 Editas Medicine, Inc. Methods and systems for analyzing guide rna molecules
WO2018202800A1 (en) * 2017-05-03 2018-11-08 Kws Saat Se Use of crispr-cas endonucleases for plant genome engineering
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
AU2018279829B2 (en) 2017-06-09 2024-01-04 Editas Medicine, Inc. Engineered Cas9 nucleases
WO2019014564A1 (en) 2017-07-14 2019-01-17 Editas Medicine, Inc. SYSTEMS AND METHODS OF TARGETED INTEGRATION AND GENOME EDITING AND DETECTION THEREOF WITH INTEGRATED PRIMING SITES
WO2019023680A1 (en) 2017-07-28 2019-01-31 President And Fellows Of Harvard College METHODS AND COMPOSITIONS FOR EVOLUTION OF BASIC EDITORS USING PHAGE-ASSISTED CONTINUOUS EVOLUTION (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
US11578334B2 (en) * 2017-10-25 2023-02-14 Monsanto Technology Llc Targeted endonuclease activity of the RNA-guided endonuclease CasX in eukaryotes
WO2019089820A1 (en) 2017-11-01 2019-05-09 The Regents Of The University Of California Casz compositions and methods of use
US11970719B2 (en) 2017-11-01 2024-04-30 The Regents Of The University Of California Class 2 CRISPR/Cas compositions and methods of use
US11661599B1 (en) 2017-12-14 2023-05-30 National Technology & Engineering Solutions Of Sandia, Llc CRISPR-Cas based system for targeting single-stranded sequences
US11807877B1 (en) 2018-03-22 2023-11-07 National Technology & Engineering Solutions Of Sandia, Llc CRISPR/Cas activity assays and compositions thereof
CA3101648A1 (en) 2018-06-07 2019-12-12 Arc Bio, Llc Compositions and methods for making guide nucleic acids
US20190390193A1 (en) * 2018-06-23 2019-12-26 John Lawrence Mee Reversible method for sustainable human cognitive enhancement
US20210284981A1 (en) * 2018-07-24 2021-09-16 The Regents Of The University Of California Rna-guided nucleic acid modifying enzymes and methods of use thereof
WO2020028729A1 (en) 2018-08-01 2020-02-06 Mammoth Biosciences, Inc. Programmable nuclease compositions and methods of use thereof
US20210309981A1 (en) * 2018-08-22 2021-10-07 Junjie Liu Variant type v crispr/cas effector polypeptides and methods of use thereof
WO2020123887A2 (en) * 2018-12-14 2020-06-18 Pioneer Hi-Bred International, Inc. Novel crispr-cas systems for genome editing
WO2020142754A2 (en) 2019-01-04 2020-07-09 Mammoth Biosciences, Inc. Programmable nuclease improvements and compositions and methods for nucleic acid amplification and detection
CN113544267A (zh) * 2019-01-14 2021-10-22 罗切斯特大学 使用CRISPR-Cas进行靶向核RNA裂解和聚腺苷酸化
WO2020181101A1 (en) 2019-03-07 2020-09-10 The Regents Of The University Of California Crispr-cas effector polypeptides and methods of use thereof
MX2021010938A (es) 2019-03-11 2022-01-06 Sorrento Therapeutics Inc Proceso mejorado para integración de constructos de adn utilizando endonucleasas guiadas por arn.
EP3942040A1 (en) 2019-03-19 2022-01-26 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
WO2020206072A1 (en) * 2019-04-03 2020-10-08 University Of Georgia Research Foundation, Inc. Delivery of crispr/mcas9 through extracellular vesicles for genome editing
CN114375334A (zh) * 2019-06-07 2022-04-19 斯克里贝治疗公司 工程化CasX系统
JP2022540153A (ja) * 2019-07-11 2022-09-14 アーバー バイオテクノロジーズ, インコーポレイテッド 新規crispr dnaターゲティング酵素及びシステム
JP2021016370A (ja) * 2019-07-23 2021-02-15 株式会社東芝 核酸導入キャリア、核酸導入キャリアセット、核酸導入組成物及び核酸導入方法
WO2021050593A1 (en) * 2019-09-09 2021-03-18 Scribe Therapeutics Inc. Compositions and methods for the targeting of sod1
WO2021113763A1 (en) 2019-12-06 2021-06-10 Scribe Therapeutics Inc. Compositions and methods for the targeting of rhodopsin
CN115175921A (zh) 2019-12-06 2022-10-11 斯克里贝治疗公司 颗粒递送系统
WO2021113769A1 (en) 2019-12-07 2021-06-10 Scribe Therapeutics Inc. Compositions and methods for the targeting of htt
AU2021206270A1 (en) 2020-01-10 2022-07-21 Scribe Therapeutics Inc. Compositions and methods for the targeting of PCSK9
CA3167684A1 (en) * 2020-01-29 2021-08-05 Jenthera Therapeutics Inc. Nuclease-scaffold composition delivery platform
CN115485300A (zh) 2020-02-26 2022-12-16 索伦托药业有限公司 具有通用掩蔽部分的可活化的抗原结合蛋白
WO2021182474A1 (ja) * 2020-03-12 2021-09-16 株式会社Frest オリゴヌクレオチド及び標的rnaの部位特異的編集方法
KR20230002401A (ko) * 2020-03-18 2023-01-05 스크라이브 테라퓨틱스 인크. C9orf72의 표적화를 위한 조성물 및 방법
WO2021217083A1 (en) 2020-04-24 2021-10-28 Sorrento Therapeutics, Inc. Memory dimeric antigen receptors
MX2022014008A (es) 2020-05-08 2023-02-09 Broad Inst Inc Métodos y composiciones para la edición simultánea de ambas cadenas de una secuencia de nucleótidos de doble cadena objetivo.
CA3190477A1 (en) * 2020-07-30 2022-02-03 Adarx Pharmaceuticals, Inc. Adar dependent editing compositions and methods of use thereof
WO2022103878A1 (en) * 2020-11-11 2022-05-19 Monsanto Technology Llc Methods to improve site-directed integration frequency
MX2023006566A (es) * 2020-12-03 2023-08-07 Scribe Therapeutics Inc Sistemas crispr tipo v clase 2 diseñados por ingeniería.
US20240100185A1 (en) * 2020-12-03 2024-03-28 Scribe Therapeutics Inc. Compositions and methods for the targeting of ptbp1
US20240033377A1 (en) * 2020-12-09 2024-02-01 Scribe Therapeutics Inc. Aav vectors for gene editing
KR20240011120A (ko) 2020-12-22 2024-01-25 크로마 메디슨, 인크. 후성유전학적 편집을 위한 조성물 및 방법
BR112023024985A2 (pt) 2021-06-01 2024-02-20 Arbor Biotechnologies Inc Sistemas de edição de genes compreendendo uma crispr nuclease e usos dos mesmos
WO2022261150A2 (en) 2021-06-09 2022-12-15 Scribe Therapeutics Inc. Particle delivery systems
AU2022349627A1 (en) * 2021-09-21 2024-03-21 Scribe Therapeutics Inc. Engineered casx repressor systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886512A (zh) * 2002-04-23 2006-12-27 斯克里普斯研究所 多肽在叶绿体中的表达以及用于表达多肽的组合物和方法
US20160017366A1 (en) * 2012-12-06 2016-01-21 Sigma-Aldrich Co. Llc Crispr-based genome modification and regulation
WO2016123243A1 (en) * 2015-01-28 2016-08-04 The Regents Of The University Of California Methods and compositions for labeling a single-stranded target nucleic acid

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5034506A (en) 1985-03-15 1991-07-23 Anti-Gene Development Group Uncharged morpholino-based polymers having achiral intersubunit linkages
CA2410072C (en) 2000-05-24 2011-07-19 Third Wave Technologies, Inc. Polymerase cleavage agents and detection of rna
US6773885B1 (en) 2000-09-29 2004-08-10 Integrated Dna Technologies, Inc. Compositions and methods for visual ribonuclease detection assays
EP1580273A1 (en) 2004-03-26 2005-09-28 Friedrich-Alexander-Universität Erlangen-Nürnberg Peptide-based method for monitoring gene expression in a host cell
ZA200803368B (en) 2005-10-07 2009-09-30 Univ California Nucleic acids encoding modified cytochrome P450 enzymes and methods of use thereof
US9689031B2 (en) 2007-07-14 2017-06-27 Ionian Technologies, Inc. Nicking and extension amplification reaction for the exponential amplification of nucleic acids
WO2010075303A1 (en) 2008-12-23 2010-07-01 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Splicing factors with a puf protein rna-binding domain and a splicing effector domain and uses of same
US8597886B2 (en) 2010-02-15 2013-12-03 Cascade Biosystems, Inc. Methods and materials for detecting viral or microbial infections
SG186987A1 (en) 2010-06-11 2013-02-28 Pathogenica Inc Nucleic acids for multiplex organism detection and methods of use and making the same
EP2609135A4 (en) 2010-08-26 2015-05-20 Massachusetts Inst Technology POLY (BETA-AMINO ALCOHOLS), THEIR PREPARATION AND USES THEREOF
US9580714B2 (en) 2010-11-24 2017-02-28 The University Of Western Australia Peptides for the specific binding of RNA targets
US9730967B2 (en) 2011-02-04 2017-08-15 Katherine Rose Kovarik Method and system for treating cancer cachexia
US8815782B2 (en) 2011-11-11 2014-08-26 Agilent Technologies, Inc. Use of DNAzymes for analysis of an RNA sample
EP2838912A4 (en) 2012-04-16 2015-11-18 Univ Western Australia PEPTIDES FOR BINDING NUCLEOTIDE TARGETS
PT2800811T (pt) 2012-05-25 2017-08-17 Univ California Métodos e composições para modificação de adn alvo dirigida por arn e para modulação dirigida por arn de transcrição
US20140186843A1 (en) 2012-12-12 2014-07-03 Massachusetts Institute Of Technology Methods, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
US20140310830A1 (en) 2012-12-12 2014-10-16 Feng Zhang CRISPR-Cas Nickase Systems, Methods And Compositions For Sequence Manipulation in Eukaryotes
WO2014093655A2 (en) 2012-12-12 2014-06-19 The Broad Institute, Inc. Engineering and optimization of systems, methods and compositions for sequence manipulation with functional domains
US8697359B1 (en) 2012-12-12 2014-04-15 The Broad Institute, Inc. CRISPR-Cas systems and methods for altering expression of gene products
EP4279588A3 (en) 2012-12-12 2024-01-17 The Broad Institute, Inc. Engineering of systems, methods and optimized guide compositions for sequence manipulation
EP3825401A1 (en) 2012-12-12 2021-05-26 The Broad Institute, Inc. Crispr-cas component systems, methods and compositions for sequence manipulation
SG10201912327SA (en) 2012-12-12 2020-02-27 Broad Inst Inc Engineering and Optimization of Improved Systems, Methods and Enzyme Compositions for Sequence Manipulation
EP2931899A1 (en) 2012-12-12 2015-10-21 The Broad Institute, Inc. Functional genomics using crispr-cas systems, compositions, methods, knock out libraries and applications thereof
MX2015007550A (es) 2012-12-12 2017-02-02 Broad Inst Inc Suministro, modificación y optimización de sistemas, métodos y composiciones para la manipulación de secuencias y aplicaciones terapéuticas.
JP6473419B2 (ja) 2012-12-13 2019-02-20 ダウ アグロサイエンシィズ エルエルシー 部位特異的ヌクレアーゼ活性のdna検出方法
EP3553174A1 (en) 2012-12-17 2019-10-16 President and Fellows of Harvard College Rna-guided human genome engineering
WO2014118272A1 (en) 2013-01-30 2014-08-07 Santaris Pharma A/S Antimir-122 oligonucleotide carbohydrate conjugates
WO2014130955A1 (en) 2013-02-25 2014-08-28 Sangamo Biosciences, Inc. Methods and compositions for enhancing nuclease-mediated gene disruption
ES2901396T3 (es) 2013-03-14 2022-03-22 Caribou Biosciences Inc Composiciones y métodos de ácidos nucleicos dirigidos a ácido nucleico
US9234213B2 (en) * 2013-03-15 2016-01-12 System Biosciences, Llc Compositions and methods directed to CRISPR/Cas genomic engineering systems
CA2906747A1 (en) 2013-03-15 2014-09-18 Regents Of The University Of Minnesota Engineering plant genomes using crispr/cas systems
US20140273230A1 (en) 2013-03-15 2014-09-18 Sigma-Aldrich Co., Llc Crispr-based genome modification and regulation
US20140349400A1 (en) 2013-03-15 2014-11-27 Massachusetts Institute Of Technology Programmable Modification of DNA
US11332719B2 (en) 2013-03-15 2022-05-17 The Broad Institute, Inc. Recombinant virus and preparations thereof
CN110540991B (zh) 2013-03-15 2023-10-24 通用医疗公司 使用截短的引导RNA(tru-gRNA)提高RNA引导的基因组编辑的特异性
US10760064B2 (en) 2013-03-15 2020-09-01 The General Hospital Corporation RNA-guided targeting of genetic and epigenomic regulatory proteins to specific genomic loci
US20140364333A1 (en) 2013-03-15 2014-12-11 President And Fellows Of Harvard College Methods for Live Imaging of Cells
JP2016514480A (ja) 2013-04-05 2016-05-23 ダウ アグロサイエンシィズ エルエルシー 植物のゲノム内に外因性配列を組み込むための方法および組成物
JP6411463B2 (ja) 2013-04-16 2018-10-24 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. ラットゲノムの標的改変
CA2910427C (en) 2013-05-10 2024-02-20 Sangamo Biosciences, Inc. Delivery methods and compositions for nuclease-mediated genome engineering
EP3778899A1 (en) 2013-05-22 2021-02-17 Northwestern University Rna-directed dna cleavage and gene editing by cas9 enzyme from neisseria meningitidis
US11414695B2 (en) 2013-05-29 2022-08-16 Agilent Technologies, Inc. Nucleic acid enrichment using Cas9
US9267135B2 (en) 2013-06-04 2016-02-23 President And Fellows Of Harvard College RNA-guided transcriptional regulation
CA2930877A1 (en) * 2013-11-18 2015-05-21 Crispr Therapeutics Ag Crispr-cas system materials and methods
EP3080266B1 (en) 2013-12-12 2021-02-03 The Regents of The University of California Methods and compositions for modifying a single stranded target nucleic acid
US9850525B2 (en) 2014-01-29 2017-12-26 Agilent Technologies, Inc. CAS9-based isothermal method of detection of specific DNA sequence
EP3126498A4 (en) 2014-03-20 2017-08-23 Université Laval Crispr-based methods and products for increasing frataxin levels and uses thereof
WO2015157534A1 (en) 2014-04-10 2015-10-15 The Regents Of The University Of California Methods and compositions for using argonaute to modify a single stranded target nucleic acid
CA2951707A1 (en) 2014-06-10 2015-12-17 Massachusetts Institute Of Technology Method for gene editing
CN107075546B (zh) 2014-08-19 2021-08-31 哈佛学院董事及会员团体 用于对核酸探测并作图的rna-引导的系统
EP3985115A1 (en) 2014-12-12 2022-04-20 The Broad Institute, Inc. Protected guide rnas (pgrnas)
EP3230452A1 (en) 2014-12-12 2017-10-18 The Broad Institute Inc. Dead guides for crispr transcription factors
WO2016106236A1 (en) 2014-12-23 2016-06-30 The Broad Institute Inc. Rna-targeting system
EP3666895A1 (en) 2015-06-18 2020-06-17 The Broad Institute, Inc. Novel crispr enzymes and systems
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
RU2752834C2 (ru) 2015-06-18 2021-08-09 Те Брод Инститьют, Инк. Мутации фермента crispr, уменьшающие нецелевые эффекты
AU2016279062A1 (en) 2015-06-18 2019-03-28 Omar O. Abudayyeh Novel CRISPR enzymes and systems
US9580727B1 (en) 2015-08-07 2017-02-28 Caribou Biosciences, Inc. Compositions and methods of engineered CRISPR-Cas9 systems using split-nexus Cas9-associated polynucleotides
EP3365441A1 (en) 2015-10-22 2018-08-29 The Broad Institute Inc. Type vi-b crispr enzymes and systems
EP3400299B1 (en) 2016-01-08 2020-11-11 University of Georgia Research Foundation, Inc. Methods for cleaving dna and rna molecules
US11441146B2 (en) * 2016-01-11 2022-09-13 Christiana Care Health Services, Inc. Compositions and methods for improving homogeneity of DNA generated using a CRISPR/Cas9 cleavage system
US9896696B2 (en) * 2016-02-15 2018-02-20 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
JP2019506875A (ja) 2016-02-23 2019-03-14 アーク バイオ, エルエルシー 標的検出のための方法および組成物
WO2017176529A1 (en) 2016-04-06 2017-10-12 Temple Univesity-Of The Commonwealth System Of Higher Education Compositions for eradicating flavivirus infections in subjects
US11371081B2 (en) 2016-05-25 2022-06-28 Arizona Board Of Regents On Behalf Of Arizona State University Portable, low-cost pathogen detection and strain identification platform
US10337051B2 (en) 2016-06-16 2019-07-02 The Regents Of The University Of California Methods and compositions for detecting a target RNA
US11788083B2 (en) 2016-06-17 2023-10-17 The Broad Institute, Inc. Type VI CRISPR orthologs and systems
AU2017280353B2 (en) * 2016-06-24 2021-11-11 Inscripta, Inc. Methods for generating barcoded combinatorial libraries
WO2018035250A1 (en) 2016-08-17 2018-02-22 The Broad Institute, Inc. Methods for identifying class 2 crispr-cas systems
WO2018064352A1 (en) 2016-09-30 2018-04-05 The Regents Of The University Of California Rna-guided nucleic acid modifying enzymes and methods of use thereof
AU2017335890B2 (en) 2016-09-30 2024-05-09 The Regents Of The University Of California RNA-guided nucleic acid modifying enzymes and methods of use thereof
CN106701830B (zh) 2016-12-07 2020-01-03 湖南人文科技学院 一种敲除猪胚胎p66shc基因的方法
PT3551753T (pt) 2016-12-09 2022-09-02 Harvard College Diagnósticos baseados num sistema efetor de crispr
SG11201906297QA (en) 2017-03-24 2019-10-30 Curevac Ag Nucleic acids encoding crispr-associated proteins and uses thereof
EP3612551A4 (en) 2017-04-21 2020-12-30 The General Hospital Corporation VARIANTS OF CPF1 (CAS12A) WITH MODIFIED PAM SPECIFICITY
EP3665279B1 (en) 2017-08-09 2023-07-19 Benson Hill, Inc. Compositions and methods for modifying genomes
WO2019089804A1 (en) 2017-11-01 2019-05-09 The Regents Of The University Of California Casy compositions and methods of use
EP3704254A4 (en) 2017-11-01 2021-09-01 The Regents of The University of California CAS12C COMPOSITIONS AND METHOD OF USE
US11970719B2 (en) 2017-11-01 2024-04-30 The Regents Of The University Of California Class 2 CRISPR/Cas compositions and methods of use
WO2019089820A1 (en) 2017-11-01 2019-05-09 The Regents Of The University Of California Casz compositions and methods of use
US10253365B1 (en) 2017-11-22 2019-04-09 The Regents Of The University Of California Type V CRISPR/Cas effector proteins for cleaving ssDNAs and detecting target DNAs
CN111836903A (zh) 2017-12-22 2020-10-27 博德研究所 基于crispr效应系统的多重诊断

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886512A (zh) * 2002-04-23 2006-12-27 斯克里普斯研究所 多肽在叶绿体中的表达以及用于表达多肽的组合物和方法
US20160017366A1 (en) * 2012-12-06 2016-01-21 Sigma-Aldrich Co. Llc Crispr-based genome modification and regulation
WO2016123243A1 (en) * 2015-01-28 2016-08-04 The Regents Of The University Of California Methods and compositions for labeling a single-stranded target nucleic acid

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FONFARA, I, ET AL: "Phylogeny of Cas9 determines functional", 《NUCLEIC ACIDS RESEARCH》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114729368A (zh) * 2019-09-09 2022-07-08 斯克里贝治疗公司 用于免疫疗法的组合物和方法
CN114829595A (zh) * 2019-10-17 2022-07-29 成对植物服务股份有限公司 Cas12a核酸酶的变体及其制备方法和用途
WO2021073173A1 (zh) * 2019-10-18 2021-04-22 福州大学 一种在鱼类胚胎中实现精确定点 rna 剪切的技术
CN115698041A (zh) * 2019-12-23 2023-02-03 加利福尼亚大学董事会 Crispr-cas效应多肽及其使用方法
CN114901816A (zh) * 2019-12-30 2022-08-12 帝斯曼知识产权资产管理有限公司 脂肪酶修饰的菌株
CN113969281A (zh) * 2021-12-24 2022-01-25 汕头大学 经修饰的CrRNA片段及非洲猪瘟病毒试剂盒
CN113969281B (zh) * 2021-12-24 2022-04-01 汕头大学 经修饰的CrRNA片段及非洲猪瘟病毒试剂盒

Also Published As

Publication number Publication date
GB2569733B (en) 2022-09-14
EP3523426A4 (en) 2020-01-22
AU2017335890B2 (en) 2024-05-09
JP2019532644A (ja) 2019-11-14
GB2569733A (en) 2019-06-26
WO2018064371A1 (en) 2018-04-05
IL265598A (en) 2019-05-30
AU2017335890A1 (en) 2019-04-11
US11795472B2 (en) 2023-10-24
KR20190071725A (ko) 2019-06-24
US20180346927A1 (en) 2018-12-06
US11873504B2 (en) 2024-01-16
US20200017879A1 (en) 2020-01-16
CA3038960A1 (en) 2018-04-05
JP2023027277A (ja) 2023-03-01
EA201990861A1 (ru) 2019-09-30
GB201905575D0 (en) 2019-06-05
US20240167052A1 (en) 2024-05-23
MX2019003674A (es) 2021-01-08
EP3523426A1 (en) 2019-08-14
KR20230170126A (ko) 2023-12-18
US10570415B2 (en) 2020-02-25
US20190276842A1 (en) 2019-09-12
BR112019006384A2 (pt) 2019-06-25

Similar Documents

Publication Publication Date Title
CN110023494A (zh) Rna指导的核酸修饰酶及其使用方法
JP7306696B2 (ja) Rna誘導型核酸修飾酵素及びその使用方法
US11453866B2 (en) CASZ compositions and methods of use
US20200339967A1 (en) Cas12c compositions and methods of use
US20210284981A1 (en) Rna-guided nucleic acid modifying enzymes and methods of use thereof
JP2022522650A (ja) Crispr-casエフェクターポリペプチド及びその使用方法
US20230407276A1 (en) Crispr-cas effector polypeptides and methods of use thereof
EA045278B1 (ru) Рнк-направляемые модифицирующие нуклеиновые кислоты ферменты и способы их применения

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40012328

Country of ref document: HK