CN110418647A - Rna指导的核酸修饰酶及其使用方法 - Google Patents

Rna指导的核酸修饰酶及其使用方法 Download PDF

Info

Publication number
CN110418647A
CN110418647A CN201780074122.7A CN201780074122A CN110418647A CN 110418647 A CN110418647 A CN 110418647A CN 201780074122 A CN201780074122 A CN 201780074122A CN 110418647 A CN110418647 A CN 110418647A
Authority
CN
China
Prior art keywords
casy
sequence
polypeptide
amino acid
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780074122.7A
Other languages
English (en)
Inventor
J·A·多德纳
J·F·班菲尔德
D·伯斯坦
L·B·哈林顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN110418647A publication Critical patent/CN110418647A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • A61K38/16Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • A61K38/43Enzymes; Proenzymes; Derivatives thereof
    • A61K38/46Hydrolases (3)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2740/00Reverse transcribing RNA viruses
    • C12N2740/00011Details
    • C12N2740/10011Retroviridae
    • C12N2740/16011Human Immunodeficiency Virus, HIV
    • C12N2740/16041Use of virus, viral particle or viral elements as a vector
    • C12N2740/16043Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2830/00Vector systems having a special element relevant for transcription
    • C12N2830/001Vector systems having a special element relevant for transcription controllable enhancer/promoter combination
    • C12N2830/002Vector systems having a special element relevant for transcription controllable enhancer/promoter combination inducible enhancer/promoter combination, e.g. hypoxia, iron, transcription factor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2830/00Vector systems having a special element relevant for transcription
    • C12N2830/008Vector systems having a special element relevant for transcription cell type or tissue specific enhancer/promoter combination

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Veterinary Medicine (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Immunology (AREA)
  • Mycology (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Materials For Medical Uses (AREA)

Abstract

本公开提供CasY蛋白、编码所述CasY蛋白的核酸,以及包含所述CasY蛋白和/或编码所述CasY蛋白的核酸的经修饰的宿主细胞。CasY蛋白可用于提供的各种应用中。本公开提供与所述CasY蛋白结合并提供针对所述CasY蛋白的序列特异性的CasY指导RNA,编码所述CasY指导RNA的核酸,以及包含所述CasY指导RNA和/或编码所述CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。

Description

RNA指导的核酸修饰酶及其使用方法
交叉引用
本申请要求2016年9月30日提交的美国临时专利申请号62/402,849的权益,所述申请以引用的方式整体并入本文。
以引用的方式并入呈文本文件提供的序列表
特此提供2017年9月28日创建的呈文本文件“BERK-343WO_SeqList_ST25.txt”的序列表并且所述序列表具有244KB的大小。文本文件的内容以引用方式整体并入本文。
引言
CRISPR-Cas系统是DNA测序时代之前科学界未知的途径的一个实例,现在被认为赋予细菌和古细菌针对噬菌体和病毒的获得性免疫力。过去十年的密集研究已揭示了此系统的生物化学性。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成,所述Cas蛋白参与外源DNA或RNA的获取、靶向和切割,所述CRISPR阵列包括将Cas蛋白引导至其靶标的侧接短间隔序列的正向重复序列。第2类CRISPR-Cas是精简型式,其中与RNA结合的单个Cas蛋白负责结合和切割靶向序列。这些最小系统的可编程性质使它们能够用作一种多功能技术,这种技术正在彻底变革基因组操纵领域。
当前的CRISPR-Cas技术基于来自培养的细菌的系统,而使得未被分离的绝大多数生物体处于未开发状态。迄今为止,仅发现了少数第2类CRISPR/Cas系统。本领域需要另外的第2类CRISPR/Cas系统(例如,Cas蛋白加指导RNA的组合)。
发明内容
本公开提供RNA指导的内切核酸酶多肽,在本文中称为“CasY”多肽(也称为“CasY蛋白”);编码CasY多肽的核酸;以及包含CasY多肽和/或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。
本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA(在本文中称为“CasY指导RNA”);编码CasY指导RNA的核酸;以及包含CasY指导RNA和/或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。
本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。
附图说明
图1描绘天然存在的CasY蛋白序列的实例。
图2描绘天然存在的CasY蛋白序列的比对。
图3(图a至图b)描绘CasY的示意性结构域表示。还示出试图鉴定CasY的同源物的各种检索的结果。还描绘鉴定的含有CasY的CRISPR基因座的部分。
图4描绘CasY和C2c3基因座的示意图。干扰蛋白以绿色示出,获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出,揭示在5'末端处的强发夹,从而表明CRISPR阵列通过CasY进行自我加工。
图5(图a至图d)描绘为确定CasY的PAM序列而进行的实验(CasY的PAM依赖性质粒干扰)。
图6(图a至图b)呈现天然存在的CasY指导RNA的‘重复'序列,以及与靶DNA杂交的示例性CasY指导RNA。(从上到下,SEQ ID NO:11-15和SEQ ID NO:20)
图7(图a至图b)呈现来自非培养生物体的新鉴定的CRISPR-Cas系统。a,基于Hug等人的数据,所有细菌和古细菌中具有与没有已分离的代表的主要谱系的比例32。结果突出了这些领域中的大规模尚未研究的生物学。古细菌Cas9和新型CRISPR-CasY仅存在于没有已分离的代表的谱系中。b,新发现的CRISPR-Cas系统的基因座结构。
图8(图a至图b)呈现ARMAN-1CRISPR阵列多样性和ARMAN-1Cas9 PAM序列的鉴定。a,由15种不同的AMD样品重建的CRISPR阵列。白色方框表示重复序列,并且有色菱形表示间隔序列(相同的间隔序列颜色相似;独特的间隔序列为黑色)。突出显示阵列的保守区域(右侧)。最近获得的间隔序列(左侧)的多样性表明系统是活跃的。还包括来自读取数据的CRISPR片段的分析在图14中呈现。b,由AMD宏基因组数据重建的单个推定的病毒重叠群含有来自ARMAN-1CRISPR阵列的56个原间隔序列(红色竖直条)。c,序列分析揭示非靶链上的原间隔序列下游的保守‘NGG’PAM基序。
图9(图a至图d)呈现示出CasX介导大肠杆菌(E.coli)中的可编程DNA干扰的数据。a,CasX质粒干扰测定图。用含有与CRISPR阵列中的序列匹配的间隔序列的质粒(靶标)或含有非匹配间隔序列的质粒(非靶标)转化表达最小CasX基因座的大肠杆菌。转化之后,对培养物进行铺板并定量菌落形成单位(cfu)。b,表达靶向间隔序列1(sX.1)的浮霉菌门(Planctomycetes)CasX基因座并用指定的靶标转化的大肠杆菌的连续稀释(sX1,CasX间隔序列1;sX2,CasX间隔序列2;NT,非靶标)。c,δ变形菌门(Deltaproteobacteria)CasX的质粒干扰。实验一式三份进行,并且示出平均值±标准差。d,在大肠杆菌中表达的浮霉菌门CasX基因座的PAM缺失测定。与对照文库相比缺失大于30倍的PAM序列用于生成WebLogo。
图10(图a至图c)呈现示出CasX是一种双指导的CRISPR复合物的数据。a,环境RNA序列(宏转录组数据)到下图所示的CasX CRISPR基因座的映射(红色箭头,推定的tracrRNA;白色方框,重复序列;绿色菱形,间隔序列)。插图示出第一个重复序列和间隔序列的详细视图。b,CasX双链DNA干扰图。RNA加工的位点用黑色箭头指示。c,使用敲除CasX基因座的推定tracrRNA进行的质粒干扰测定的结果(T,靶标;NT,非靶标)。实验一式三份进行,并且示出平均值±标准差。
图11(图a至图c)呈现示出大肠杆菌中CasY基因座的表达足以引起DNA干扰的数据。a,CasY基因座和相邻蛋白质的图。b,相对于对照文库CasY的缺失大于3倍的5′PAM序列的WebLogo。c,表达CasY.1并用含有指示PAM的靶标转化的大肠杆菌的质粒干扰。实验一式三份进行,并且示出平均值±标准差。
图12(图a至图b)呈现在已知系统的环境中的新鉴定的CRISPR-Cas。a,通用Cas1蛋白的简化系统发育树。在楔形和分支上记录已知系统的CRISPR类型;新描述的系统以粗体显示。详细的Cas1系统发育在补充数据2中呈现。b,提出的由于II-B型与II-C型基因座之间的重组而产生古细菌II型系统的进化设想。
图13呈现来自ARMAN-4的古细菌Cas9存在于具有简并CRISPR阵列的许多重叠群上。来自ARMAN-4的Cas9在16个不同的重叠群上以深红色突出显示。具有推定的结构域或功能的蛋白被标记,而假定蛋白未被标记。所述重叠群中的十五个含有两个简并的正向重复序列(一个bp错配)和一个单一保守间隔序列。剩余的重叠群仅含有一个正向重复序列。与ARMAN-1不同,在ARMAN-4中发现没有另外的Cas蛋白与Cas9相邻。
图14呈现ARMAN-1CRISPR阵列的完整重建。包括参考组装序列以及由短DNA读取重建的阵列区段的CRISPR阵列的重建。绿色箭头指示重复序列,并且有色箭头指示CRISPR间隔序列(相同的间隔序列颜色相同,而独特的间隔序列为黑色)。在CRISPR系统中,间隔序列通常是单向添加的,因此左侧的各种各样的间隔序列归因于最近的获得。
图15(图a至图b)示出ARMAN-1间隔序列映射到古细菌群落成员的基因组。a,来自ARMAN-1的原间隔序列(红色箭头)映射到ARMAN-2的基因组,所述ARMAN-2是来自同一环境的纳米古细菌。六个原间隔序列独特地映射到侧接两个长末端重复序列(LTR)的基因组的一部分,并且两个另外的原间隔序列在LTR内完美匹配(蓝色和绿色)。此区域可能是转座子,表明ARMAN-1的CRISPR-Cas系统在抑制此元件的可动化中起作用。b,原间隔序列还映射到热源体目(Thermoplasmatales)古细菌(I-plasma),所述热源体目古细菌是在与ARMAN生物体相同的样品中发现的Richmond Mine生态系统的另一个成员。原间隔序列在编码短假定蛋白的基因组区域内聚类,表明这也可能代表可动元件。
图16(图a至图e)呈现预测的ARMAN-1crRNA和tracrRNA的二级结构。a,CRISPR重复序列和tracrRNA反重复序列以黑色描绘,而间隔序列衍生的序列以一系列绿色N示出。没有明确的终止信号可从基因座预测,因此基于它们的二级结构测试了三种不同的tracrRNA长度-分别为红色、蓝色和粉红色的69、104和179。b,工程化的对应于a中的双指导的单指导RNA。c,在tracrRNA的3'末端有两个不同的发夹(75和122)的ARMAN-4Cas9的双指导。d,工程化的对应于c中的双指导的单指导RNA。e,大肠杆菌体内靶向测定中的测试条件。
图17(图a至图b)呈现体外生物化学研究的纯化方案。a,ARMAN-1(AR1)和ARMAN-4(AR4)Cas9在如补充材料中概述的多种条件下进行表达和纯化。在体外测试在蓝色方框中概述的蛋白质的切割活性。b,在10%SDS-PAGE凝胶上分离AR1-Cas9和AR4-Cas9纯化的级分。
图18呈现与已知蛋白质相比的新鉴定的CRISPR-Cas系统。基于以下检索的CasX和CasY与已知蛋白质的相似性:(1)针对NCBI的非冗余(NR)蛋白质数据库的Blast检索,(2)针对所有已知蛋白质的HMM数据库的隐马尔科夫模型(HMM)检索和(3)使用HHpred的远同源性检索30
图19(图a至图d)呈现与CasX进行的编程的DNA干扰相关的数据。a,CasX2(浮霉菌门)和CasX1(δ变形菌门)的质粒干扰测定,上接图9图c(sX1,CasX间隔序列1;sX2,CasX间隔序列2;NT,非靶标)。实验一式三份进行,并且示出平均值±标准差。b,表达CasX基因座并用指定靶标转化的大肠杆菌的连续稀释,上接图9图b。c,针对δ变形菌门CasX的PAM缺失测定,以及d,在大肠杆菌中表达的浮霉菌门CasX。与对照文库相比缺失大于指示的PAM缺失值阈值(PDVT)的PAM序列用于生成WebLogo。
图20呈现Cas9同源物的进化树。Cas9蛋白的最大似然法系统发育树,示出先前描述的基于系统类型着色的系统:II-A为蓝色,II-B为绿色,并且II-C为紫色。古细菌Cas9与II-C型CRISPR-Cas系统以及来自非培养细菌的两种新描述的细菌Cas9聚类到一起。
图21呈现针对来自ARMAN-1和ARMAN-4的Cas9测定的切割条件的表。
定义
如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,相对于CasY多肽,异源多肽包含来自除CasY多肽之外的蛋白质的氨基酸序列。在一些情况下,来自一个物种的CasY蛋白的一部分与来自不同物种的CasY蛋白的一部分融合。因此,可认为来自每个物种的CasY序列相对于彼此是异源的。作为另一个实例,CasY蛋白(例如,dCasY蛋白)可与来自非CasY蛋白(例如,组蛋白脱乙酰酶)的活性结构域融合,并且所述活性结构域的序列可被认为是异源多肽(它与CasY蛋白是异源的)。
在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核苷酸)的聚合形式。因此,此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。术语“多核苷酸”和“核酸”应理解为包括如可适用于所描述的实施方案的单链(诸如有义链或反义链)和双链多核苷酸。
在本文中可互换使用的术语“多肽”、“肽”和“蛋白质”是指具有任何长度的氨基酸的聚合形式,其可包括遗传编码和非遗传编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。所述术语包括:融合蛋白,其包括但不限于具有异源氨基酸序列的融合蛋白,具有异源和同源前导序列、具有或不具有N端甲硫氨酸残基的融合体;免疫标记蛋白;等。
如本文所用,适用于核酸、蛋白质、细胞或生物体的术语“天然存在的”是指存在于自然界中的核酸、细胞、蛋白质或生物体。
如本文所用,术语“分离的”意在描述处于与多核苷酸、多肽或细胞天然存在的环境不同的环境中的所述多核苷酸、多肽或细胞。分离的遗传修饰的宿主细胞可存在于遗传修饰的宿主细胞的混合群体中。
如本文所用,术语“外源核酸”是指在自然界中不是正常或天然存在的核酸和/或不是由给定细菌、生物体或细胞产生的核酸。如本文所用,术语“内源核酸”是指在自然界中正常存在的核酸和/或由给定细菌、生物体或细胞产生的核酸。“内源核酸”也称为“天然核酸”或对于给定细菌、生物体或细胞“天然”的核酸。
如本文所用,“重组”意指具体核酸(DNA或RNA)是克隆、限制和/或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。一般而言,编码结构编码序列的DNA序列可由cDNA片段和短寡核苷酸接头或由一系列合成寡核苷酸组装,以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。此类序列可以不被内部非翻译序列或内含子中断的开放阅读框形式提供,所述内部非翻译序列或内含子通常存在于真核基因中。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操作或表达,并且实际上可通过各种机制起到调节所需产物的产生的作用(参见下文的“DNA调节序列”)。
因此,例如术语“重组”多核苷酸或“重组”核酸是指非天然存在的多核苷酸或核酸,例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如,通过遗传工程化技术)来完成。通常进行这种操作以用编码相同或保守氨基酸的冗余密码子替换密码子,同时通常引入或移除序列识别位点。可替代地,将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如,通过遗传工程化技术)来完成。
类似地,术语“重组”多肽是指非天然存在的多肽,例如通过人干预由氨基酸序列的两个另外分开的区段的人工组合制成的多肽。因此,例如,包含异源氨基酸序列的多肽是重组的。
“构建体”或“载体”意指重组核酸,一般是重组DNA,其是出于表达和/或增殖一个或多个特定核苷酸序列的目的而生成的,或者用于构建其他重组核苷酸序列。
在本文中可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指转录和翻译控制序列,诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等,所述转录和翻译控制序列在宿主细胞中提供和/或调节编码序列的表达和/或编码的多肽的产生。
术语“转化”与“遗传修饰”在本文中可互换使用,并且是指在向细胞中引入新核酸(即,对于所述细胞外源的DNA)之后,在所述细胞中诱导的永久或瞬时的遗传变化。遗传变化(“修饰”)可通过向宿主细胞的基因组中引入新核酸或者通过作为游离基因元件的新核酸的瞬时的或稳定的维持来完成。当细胞为真核细胞时,永久的遗传变化一般通过向所述细胞的基因组中引入新DNA来完成。在原核细胞中,可将永久的变化引入染色体中或通过染色体外元件(诸如质粒和表达载体)引入染色体中,所述染色体外元件可含有一种或多种可选择标记以帮助它们在重组宿主细胞中的维持。遗传修饰的合适方法包括病毒感染、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射等。方法的选择一般取决于待转化的细胞类型和其中发生转化的环境(即体外、离体或体内)。这些方法的一般讨论可见于Ausubel等人,Short Protocols in Molecular Biology,第3版,Wiley&Sons,1995中。
“可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如,如果启动子影响编码序列的转录或表达,将启动子可操作地连接至所述编码序列。如本文所用,术语“异源启动子”和“异源控制区”是指通常与自然界中的特定核酸不相关的启动子和其他控制区。例如,“与编码区异源的转录控制区”是通常与自然界中的编码区不相关的转录控制区。
如本文所用,“宿主细胞”指代体内或体外真核细胞、原核细胞或作为单细胞实体培养的来自多细胞生物体的细胞(例如,细胞系),所述真核细胞或原核细胞可用作或已用作核酸(例如,表达载体)的受体,并且包括已通过核酸遗传修饰的原始细胞的子代。应理解由于天然、偶然或有意突变,单细胞的子代可不必在形态或在基因组或总DNA互补序列方面与原始亲本完全相同。“重组宿主细胞”(也称为“遗传修饰的宿主细胞”)是已向其中引入异源核酸(例如,表达载体)的宿主细胞。例如,主题原核宿主细胞是通过将异源核酸引入合适的原核宿主细胞中的遗传修饰的原核宿主细胞(例如,细菌),所述异源核酸是例如对原核宿主细胞外源(通常在自然界中不存在)的外源核酸或通常在原核宿主细胞中不存在的重组核酸;并且主题真核宿主细胞是通过将异源核酸引入合适的真核宿主细胞中的遗传修饰的真核宿主细胞,所述异源核酸是例如对真核宿主细胞外源的外源核酸或通常在真核宿主细胞中不存在的重组核酸。
术语“保守氨基酸取代”是指具有相似侧链的氨基酸残基的蛋白质中的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。
多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时处于相同的相对位置上。可以许多不同方式确定序列相似性。为了确定序列同一性,可使用包括可通过万维网ncbi.nlm.nih.gov/BLAST获得的BLAST在内的方法和计算机程序来比对序列。参见例如,Altschul等人(1990),J.Mol.Biol.215:403-10。另一种比对算法是FASTA,可从美国威斯康星州麦迪逊市的一家Oxford Molecular Group,Inc.的全资子公司的遗传计算组(GCG)程序包中获得。用于比对的其他技术描述于Methods in Enzymology,第266卷:ComputerMethods for Macromolecular Sequence Analysis(1996),Doolittle编,AcademicPress,Inc.,Harcourt Brace&Co.的一个部门,San Diego,California,USA。特别感兴趣的是允许序列中存在缺口的比对程序。Smith-Waterman是允许序列比对中存在缺口的一种算法类型。参见Meth.Mol.Biol.70:173-187(1997)。另外,使用Needleman和Wunsch比对方法的GAP程序可用于比对序列。参见J.Mol.Biol.48:443-453(1970)。
如本文所用,术语“治疗(treatment、treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言,所述效果可以是预防性的,并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言,所述效果可以是治疗性的。如本文所用,“治疗”覆盖对哺乳动物(例如,人类)的疾病的任何治疗,并且包括:(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生;(b)抑制疾病,即阻止其发展;和(c)缓解疾病,即引起疾病消退。
术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用,是指个体生物体,例如哺乳动物,包括但不限于鼠类、猿、人类、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。
在进一步描述本发明之前,应理解本发明不限于所述的具体实施方案,因此,当然也可有所变化。还应理解,本文所用的术语仅出于描述具体实施方案的目的,并且不意图具有限制性,因为本发明的范围将仅受所附权利要求限制。
在提供值的范围的情况下,应理解此范围的上限与下限之间的各介入值(除非上下文另外清楚地指出,否则准确到下限的单位的十分之一),以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内,并且也涵盖在本发明内,从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下,排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。
除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中,但是现在描述优选的方法和材料。本文提及的所有出版物以引用的方式并入本文,以结合所引用的出版物公开并描述方法和/或材料。
必须指出,如在本文和所附权利要求中所用,单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物,除非上下文另外清楚地指出。因此,例如,提及“CasY多肽”包括多个此类多肽,并且提及“指导RNA”包括提及本领域的技术人员已知的一种或多种指导RNA及其等效物,等。还应注意,权利要求可拟订成排除任何任选的要素。因而,这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。
应理解,出于清晰目的而在单独的实施方案的上下文中所描述的本发明的某些特征也可在单个实施方案中组合提供。相反,为了简明,在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外,各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地和明确地在本文中公开一样。
本文中讨论的出版物仅仅提供它们在本申请的提交日期之前的公开内容。本文中的任何内容均不应解释为承认由于先前发明而使本发明无权先于这些出版物。此外,所提供的出版日可能不同于可能需要独立确认的实际出版日期。
具体实施方式
本公开提供RNA指导的内切核酸酶多肽,在本文中称为“CasY”多肽(也称为“CasY蛋白”);编码CasY多肽的核酸;以及包含CasY多肽和/或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。
本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA(在本文中称为“CasY指导RNA”);编码CasY指导RNA的核酸;以及包含CasY指导RNA和/或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。
本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。
组合物
CRISPR/CASY蛋白和指导RNA
CRISPR/Cas内切核酸酶(例如,CasY蛋白)与对应的指导RNA(例如,CasY指导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物,其通过指导RNA与靶核酸分子内的靶序列之间的碱基配对来靶向靶核酸中的特定位点。指导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(指导序列)。因此,CasY蛋白与CasY指导RNA形成复合物,并且指导RNA通过指导序列为RNP复合物提供序列特异性。复合物的CasY蛋白提供位点特异性活性。换言之,CasY蛋白质由于其与指导RNA的缔合而被指导到靶核酸序列(例如,染色体序列或染色体外序列,例如游离基因序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如,稳定在靶位点)。
本公开提供包含CasY多肽(和/或编码CasY多肽的核酸)的组合物(例如,其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)。本公开提供包含CasY指导RNA(和/或编码CasY指导RNA的核酸)的组合物。本公开提供包含以下的组合物:(a)CasY多肽(和/或编码CasY多肽的核酸)(例如,其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)和(b)CasY指导RNA(和/或编码CasY指导RNA的核酸)。本公开提供一种核酸/蛋白质复合物(RNP复合物),其包含:(a)本公开的CasY多肽(例如,其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等);以及(b)CasY指导RNA。
CasY蛋白
CasY多肽(此术语与术语“CasY蛋白”可互换使用)可结合和/或修饰(例如,切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如,组蛋白尾的甲基化或乙酰化)(例如,在一些情况下,CasY蛋白包括具有活性的融合配偶体,并且在一些情况下,CasY蛋白提供核酸酶活性)。在一些情况下,CasY蛋白是天然存在的蛋白质(例如,天然存在于原核细胞中)。在其他情况下,CasY蛋白不是天然存在的多肽(例如,CasY蛋白是变体CasY蛋白、嵌合蛋白等)。
确定给定蛋白质是否与CasY指导RNA相互作用的测定可以是测试蛋白质和核酸之间的结合的任何方便的结合测定。合适的结合测定(例如,凝胶迁移测定)对于本领域的普通技术人员而言是已知的(例如,包括向靶核酸添加CasY指导RNA和蛋白质的测定)。确定蛋白质是否具有活性(例如,确定蛋白质是否具有切割靶核酸的核酸酶活性和/或一些异源活性)的测定可以是任何方便的测定(例如,任何方便的测试核酸切割的核酸切割测定)。合适的测定(例如,切割测定)对于本领域的普通技术人员而言是已知的。
天然存在的CasY蛋白起内切核酸酶的作用,其在靶向双链DNA(dsDNA)中的特定序列处催化双链断裂。序列特异性由相关联的指导RNA提供,所述指导RNA与靶DNA内的靶序列杂交。天然存在的CasY指导RNA是crRNA,其中crRNA包含(i)与靶DNA中的靶序列杂交的指导序列和(ii)包含结合CasY蛋白的茎环(发夹–dsRNA双链体)的蛋白质结合区段。
在一些实施方案中,主题方法和/或组合物的CasY蛋白是(或衍生自)天然存在的(野生型)蛋白质。天然存在的CasY蛋白的实例描绘于图1中,并且如SEQ ID NO:1-7所示。天然存在的CasY蛋白的实例描绘于图1中,并且如SEQ ID NO:1-8所示。图2中呈现示例性天然存在的CasY蛋白的比对(蛋白质标记为“Y1.”、“Y2.”、“Y3.”等)。7个天然存在的CasYCRISPR基因座的部分DNA支架(由测序数据组装)如SEQ ID NO:21-27所示。重要的是要注意,与先前鉴定的CRISPR-Cas内切核酸酶相比,这种新发现的蛋白质(CasY)较短,并且因此使用此蛋白质作为替代方案提供编码蛋白质的核苷酸序列相对较短的优点。例如,在其中需要编码CasY蛋白的核酸的情况下,例如在使用病毒载体(例如,AAV载体)的情况下,这可用于递送至诸如真核细胞的细胞(例如,哺乳动物细胞、人细胞、小鼠细胞、体外、离体、体内)用于研究和/或临床应用。本文还指出,携带CasY CRISPR基因座的细菌存在于在低温(例如,10℃-17℃)下采集的环境样品中。因此,预期CasY能够在低温(例如,10℃-14℃、10℃-17℃、10℃-20℃)下良好地起作用(例如,比迄今发现的其他Cas内切核酸酶更好)。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:2所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:2所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:3所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:3所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:4所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:4所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:5所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:5所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:6所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:6所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:7所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:7所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:8所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:8所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:9所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:9所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-4所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-4所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ IDNO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-5所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-5所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ IDNO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-7所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-7所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ IDNO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-8所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ IDNO:1-8所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ IDNO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)(例如像,在以下所述的氨基酸位置处)。
CasY蛋白结构域
图3中描绘CasY蛋白的结构域。如在图3的示意图中可看出(氨基酸基于CasY1蛋白(SEQ ID NO:1)编号),CasY蛋白包含长度大致800-1000个氨基酸(例如,CasY1为约815个并且CasY5为980个)的N末端结构域以及包含3个部分RuvC结构域(RuvC-I、RuvC-II和RuvC-III,在本文中也称为亚结构域)的C末端结构域,所述RuvC结构域相对于CasY蛋白的一级氨基酸序列是不连续的,但在产生蛋白质并折叠时就会形成RuvC结构域。因此,在一些情况下,(主题组合物和/或方法的)CasY蛋白包含长度在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸)的具有N末端结构域的氨基酸序列(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域)。在一些情况下,(主题组合物和/或方法的)CasY蛋白包含长度在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸)的氨基酸序列(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),所述氨基酸序列在分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)的N末端。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ IDNO:1所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-4中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-5中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-7中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-8中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的Ruv C结构域(例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。
在一些实施方案中,(主题组合物和/或方法的)CasY蛋白的分开RuvC结构域包括RuvC-II与RuvC-III亚结构域之间的区域,其大于RuvC-III亚结构域。例如,在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2)。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1)。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间或者1与1.2之间)。
在一些实施方案中(对于主题组合物和/或方法的CasY蛋白),RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)。例如,在一些情况下,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小)。在一些实施方案中,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内。
在一些情况下(对于主题组合物和/或方法的CasY蛋白),RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如,1与1.2之间)。
在一些情况下(对于主题组合物和/或方法的CasY蛋白),RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65、68或70个氨基酸)。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75%或更高的序列同一性(例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85%或更高的序列同一性(例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75%或更高的序列同一性(例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85%或更高的序列同一性(例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75%或更高的序列同一性(例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85%或更高的序列同一性(例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75%或更高的序列同一性(例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如,图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85%或更高的序列同一性(例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含具有N末端结构域(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域)的第一氨基酸序列,其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及第二氨基酸序列(在第一氨基酸序列的C末端),其具有分开的Ruv C结构域(具有3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III),其中:(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如,1.2);(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.4之间、1与1.3之间、1与1.2之间);(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小);(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如,1.4或更小);(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内;(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如,1与1.2之间);(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如,长度为至少65个或至少70个氨基酸);(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度;或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQID NO:1所示的CasY蛋白序列的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的氨基酸序列。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。例如,在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。例如,在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。例如,在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
在一些情况下,(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。例如,在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)。在一些情况下,CasY蛋白包含第一氨基酸序列(N末端结构域)(例如,不包括任何融合的异源序列,诸如NLS和/或具有催化活性的结构域),其具有在750至1050个氨基酸范围内(例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。
CasY变体
当与对应的野生型CasY蛋白的氨基酸序列相比时,变体CasY蛋白具有至少一个氨基酸不同的氨基酸序列(例如,具有缺失、插入、取代、融合)。切割双链靶核酸的一条链但不切割另一条链的CasY蛋白在本文中被称为“切口酶”(例如,“切口酶CasY”)。基本上不具有核酸酶活性的CasY蛋白在本文中被称为死CasY蛋白(“dCasY”)(需要注意的是,核酸酶活性可由异源多肽(融合配偶体)在嵌合CasY蛋白的情况下提供,这在下文更详细地描述)。对于本文所述的任何CasY变体蛋白(例如,切口酶CasY、dCasY、嵌合CasY),CasY变体可包括具有与上述相同参数(例如,存在的结构域、同一性百分比等)的CasY蛋白序列。
变体–催化活性
在一些情况下,CasY蛋白是变体CasY蛋白,例如相对于天然存在的催化活性序列突变的蛋白,并且在与对应的天然存在的序列相比时,表现出降低的切割活性(例如,表现出90%或更低、80%或更低、70%或更低、60%或更低、50%或更低、40%或更低或者30%或更低的切割活性)。在一些情况下,这种变体CasY蛋白是催化“死”蛋白(基本上没有切割活性)并且可被称为‘dCasY’。在一些情况下,变体CasY蛋白是切口酶(仅切割双链靶核酸(例如,双链靶DNA)的一条链)。如本文更详细描述的,在一些情况下,CasY蛋白(在一些情况下,是具有野生型切割活性的CasY蛋白质并且在一些情况下,是具有降低的切割活性的变体CasY,例如dCasY或切口酶CasY)与具有感兴趣的活性(例如,感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasY蛋白)。
在根据CasY1(SEQ ID NO:1)编号时,CasY的催化残基包括D828、E914、D1074(对于SEQ ID NO:1,这些残基在图1中用下划线示出)。(参见,例如,图2图a和图b的比对)。
因此,在一些情况下,CasY蛋白具有降低的活性,并且一种或多种上述氨基酸(或任何CasY蛋白的一种或多种对应的氨基酸)发生突变(例如,被丙氨酸取代)。在一些情况下,变体CasY蛋白是催化‘死'蛋白(无催化活性)并且被称为‘dCasY'。dCasY蛋白可与提供活性的融合配偶体融合,并且在一些情况下,dCasY(例如,没有提供催化活性的融合配偶体,但在真核细胞中表达时可具有NLS的dCasY)可结合靶DNA并且可阻止RNA聚合酶从靶DNA翻译。在一些情况下,变体CasY蛋白是切口酶(仅切割双链靶核酸(例如,双链靶DNA)的一条链)。
变体–嵌合CasY(即,融合蛋白)
如上所指出,在一些情况下,CasY蛋白(在一些情况下,是具有野生型切割活性的CasY蛋白质并且在一些情况下,是具有降低的切割活性的变体CasY,例如dCasY或切口酶CasY)与具有感兴趣的活性(例如,感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasY蛋白)。CasY蛋白可与之融合的异源多肽在本文中被称为“融合配偶体”。
在一些情况下,融合配偶体可调节靶DNA的转录(例如,抑制转录、增加转录)。例如,在一些情况下,融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如,转录阻遏物,一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。在一些情况下,融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如,转录激活因子,一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。
在一些情况下,嵌合CasY蛋白包括具有修饰靶核酸的酶活性(例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。
在一些情况下,嵌合CasY蛋白包括具有修饰与靶核酸相关联的多肽(例如,组蛋白)的酶活性(例如,甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。
可用于增加转录的蛋白质(或其片段)的实例包括但不限于:转录激活因子,诸如VP16、VP64、VP48、VP160、p65亚结构域(例如,来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如,针对植物中的活性);组蛋白赖氨酸甲基转移酶,诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等;组蛋白赖氨酸脱甲基酶,诸如JHDM2a/b、UTX、JMJD3等;组蛋白乙酰基转移酶,诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等;以及DNA脱甲基酶,诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。
可用于减少转录的蛋白质(或其片段)的实例包括但不限于:转录阻遏物,诸如Krüppel相关盒(KRAB或SKD);KOX1阻遏结构域;Mad mSIN3相互作用结构域(SID);ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如,针对植物中的阻遏)等;组蛋白赖氨酸甲基转移酶,诸如Pr-SET7/8、SUV4-20H1、RIZ1等;组蛋白赖氨酸脱甲基酶,诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等;组蛋白赖氨酸脱乙酰酶,诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等;DNA甲基化酶,诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等;以及外周募集元件,诸如核纤层蛋白A、核纤层蛋白B等。
在一些情况下,融合配偶体具有修饰靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于:核酸酶活性诸如由限制性酶(例如,FokI核酸酶)提供的活性,甲基转移酶活性诸如由甲基转移酶(例如,HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性;脱甲基酶活性诸如由脱甲基酶(例如,10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性,DNA修复活性,DNA损伤活性,脱氨基活性诸如由脱氨酶(例如,胞嘧啶脱氨酶,诸如大鼠APOBEC1)提供的活性,歧化酶活性,烷基化活性,脱嘌呤活性,氧化活性,嘧啶二聚体形成活性,整合酶活性诸如由整合酶和/或解离酶(例如,Gin转化酶,诸如Gin转化酶的过度活跃突变体,GinH106Y;人类免疫缺陷病毒1型整合酶(IN);Tn3解离酶等)提供的活性,转座酶活性,重组酶活性诸如由重组酶(例如,Gin重组酶的催化结构域)提供的活性,聚合酶活性,连接酶活性,解旋酶活性,光裂合酶活性和糖基化酶活性)。
在一些情况下,融合配偶体具有酶活性,其修饰与靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如,组蛋白、RNA结合蛋白、DNA结合蛋白等)。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶(HMT)(例如,花斑抑制因子3-9同源物1(SUV39H1,也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A,也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性,脱甲基酶活性诸如由组蛋白脱甲基酶(例如,赖氨酸脱甲基酶1A(KDM1A,也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性,乙酰基转移酶活性诸如由组蛋白乙酰基转移酶(例如,人类乙酰基转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性,脱乙酰酶活性诸如由组蛋白脱乙酰酶(例如,HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性,激酶活性,磷酸酶活性,泛素连接酶活性,去泛素化活性,腺苷酸化活性,脱腺苷酸化活性,SUMO化活性,脱SUMO化活性,核糖基化活性,脱核糖基化活性,豆蔻酰化活性和脱豆蔻酰化活性。
合适的融合配偶体的另外的实例是二氢叶酸还原酶(DHFR)去稳定化结构域(例如,以生成化学可控的嵌合CasY蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于:
MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKV NTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDIT SITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISS SWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPIS SSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ IDNO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRT VGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDA TSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLD ITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVK CSAAVTPQASPVISRSAAAA(SEQ ID NO:92),和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRT VKCCASSWNSTINGAAATTNGASAASS(SEQ IDNO:93)。
在一些情况下,本公开的CasY融合多肽包含:a)本公开的CasY多肽;和b)叶绿体转运肽。因此,例如,CRISPR-CasY复合物可靶向叶绿体。在一些情况下,这种靶向可通过N末端延伸的存在来实现,所述N末端延伸称为叶绿体转运肽(CTP)或质体转运肽。如果表达的多肽要在植物质体(例如,叶绿体)中区室化,则来自细菌来源的染色体转基因必须具有编码CTP序列的序列,所述CTP序列与编码表达的多肽的序列融合。因此,外源多肽到叶绿体的定位通常通过将编码CTP序列的多核苷酸序列与编码外源多肽的多核苷酸的5’区可操作地连接来实现。在易位到质体的过程中,在加工步骤中去除CTP。然而,加工效率可能受到CTP的氨基酸序列和肽的NH 2末端附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、WO 97/41228)、豌豆谷胱甘肽还原酶信号序列(WO 97/41228)和US2009029861中描述的CTP。
在一些情况下,本公开的CasY融合多肽可包含:a)本公开的CasY多肽;和b)内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)。
对于在与Cas9蛋白、锌指蛋白和/或TALE蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰,例如,组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例,参见例如:Nomura等人,J Am Chem Soc.2007年7月18日;129(28):8676-7;Rivenbark等人,Epigenetics.2012年4月;7(4):350-60;Nucleic Acids Res.2016年7月8日;44(12):5615-28;Gilbert等人,Cell.2013年7月18日;154(2):442-51;Kearns等人,NatMethods.2015年5月;12(5):401-3;Mendenhall等人,Nat Biotechnol.2013年12月;31(12):1133-6;Hilton等人,Nat Biotechnol.2015年5月;33(5):510-7;Gordley等人,ProcNatl Acad Sci U S A.2009年3月31日;106(13):5053-8;Akopian等人,Proc Natl AcadSci U S A.2003年7月22日;100(15):8688-91;Tan等人,J Virol.2006年2月;80(4):1939-48;Tan等人,Proc Natl Acad Sci U S A.2003年10月14日;100(21):11997-2002;Papworth等人,Proc Natl Acad Sci U S A.2003年2月18日;100(4):1621-6;Sanjana等人,Nat Protoc.2012年1月5日;7(1):171-92;Beerli等人,Proc Natl Acad Sci U SA.1998年12月8日;95(25):14628-33;Snowden等人,Curr Biol.2002年12月23日;12(24):2159-66;Xu等人,Xu等人,Cell Discov.2016年5月3日;2:16009;Komor等人,Nature.2016年4月20日;533(7603):420-4;Chaikind等人,Nucleic Acids Res.2016年8月11日;Choudhury等人,Oncotarget.2016年6月23日;Du等人,Cold Spring Harb Protoc.2016年1月4日;Pham等人,Methods Mol Biol.2016;1358:43-57;Balboa等人,Stem CellReports.2015年9月8日;5(3):448-59;Hara等人,Sci Rep.2015年6月9日;5:11221;Piatek等人,Plant Biotechnol J.2015年5月;13(4):578-89;Hu等人,Nucleic Acids Res.2014年4月;42(7):4375-90;Cheng等人,Cell Res.2013年10月;23(10):1163-71;以及Maeder等人,Nat Methods.2013年10月;10(10):977-9。
另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物反应性转录和/或翻译调节因子、翻译调节蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下,嵌合CasY多肽通过指导核酸(指导RNA)靶向靶核酸中的特定位置(即,序列)并且发挥基因座特异性调节的作用,诸如阻断RNA聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如,在使用融合序列时,修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下,变化是瞬时的(例如,转录阻遏或激活)。在一些情况下,变化是可遗传的(例如,在对靶核酸或与靶核酸相关联的蛋白质(例如,核小体组蛋白)进行表观遗传修饰时)。
当靶向ssRNA靶核酸时,使用的异源多肽的非限制性实例包括(但不限于):剪接因子(例如,RS结构域);蛋白质翻译组分(例如,翻译起始因子、延伸因子和/或释放因子;例如,eIF4G);RNA甲基化酶;RNA编辑酶(例如,RNA脱氨酶,例如作用于RNA的腺苷脱氨酶(ADAR),包括A至I和/或C至U编辑酶);解旋酶;RNA结合蛋白等。应理解,异源多肽可包括整个蛋白质,或者在一些情况下,可包括蛋白质的片段(例如,功能结构域)。
主题嵌合CasY多肽的异源多肽可以是能够与ssRNA(出于本公开的目的,其包括分子内和/或分子间二级结构,例如双链RNA双链体,诸如发夹、茎环等)相互作用的任何结构域,无论是瞬时的还是不可逆的,直接的还是间接的,所述结构域包括但不限于选自由以下组成的组的效应结构域;内切核酸酶(例如RNA酶III、CRR22 DYW结构域、来自诸如SMG5和SMG6的蛋白质的Dicer和PIN(PilT N末端)结构域);负责刺激RNA切割的蛋白质和蛋白质结构域(例如CPSF、CstF、CFIm和CFIIm);外切核酸酶(例如XRN-1或外切核酸酶T);脱腺苷酶(例如HNT3);负责无义介导的RNA衰变的蛋白质和蛋白质结构域(例如UPF1、UPF2、UPF3、UPF3b、RNP S1、Y14、DEK、REF2和SRm160);负责稳定RNA的蛋白质和蛋白质结构域(例如PABP);负责阻遏翻译的蛋白质和蛋白质结构域(例如Ago2和Ago4);负责刺激翻译的蛋白质和蛋白质结构域(例如Staufen);负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G);负责RNA的聚腺苷酸化的蛋白质和蛋白质结构域(例如PAP1、GLD-2和Star-PAP);负责RNA的聚尿苷酸化的蛋白质和蛋白质结构域(例如CI D1和末端尿苷酸转移酶);负责RNA定位的蛋白质和蛋白质结构域(例如来自IMP1、ZBP1、She2p、She3p和Bicaudal-D);负责RNA的核保留的蛋白质和蛋白质结构域(例如Rrp6);负责RNA的核输出的蛋白质和蛋白质结构域(例如TAP、NXF1、THO、TREX、REF和Aly);负责阻遏RNA剪接的蛋白质和蛋白质结构域(例如PTB、Sam68和hnRNP A1);负责刺激RNA剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(SR)结构域);负责降低转录效率的蛋白质和蛋白质结构域(例如FUS(TLS));以及负责刺激转录的蛋白质和蛋白质结构域(例如CDK7和HIV Tat)。可替代地,效应结构域可选自包括以下的组:内切核酸酶;能够刺激RNA切割的蛋白质和蛋白质结构域;外切核酸酶;脱腺苷酶;具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域;能够稳定RNA的蛋白质和蛋白质结构域;能够阻遏翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域(例如,翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G);能够进行RNA的聚腺苷酸化的蛋白质和蛋白质结构域;能够进行RNA的聚尿苷酸化的蛋白质和蛋白质结构域;具有RNA定位活性的蛋白质和蛋白质结构域;能够进行RNA的核保留的蛋白质和蛋白质结构域;具有RNA核输出活性的蛋白质和蛋白质结构域;能够阻遏RNA剪接的蛋白质和蛋白质结构域;能够刺激RNA剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUFRNA结合结构域,其在WO2012068627中更详细地描述,所述文献以引用的方式整体并入本文。
可作为嵌合CasY多肽的异源多肽(整体或作为其片段)使用的一些RNA剪接因子具有模块化结构,具有分开的序列特异性RNA结合模块和剪接效应结构域。例如,富含丝氨酸/精氨酸(SR)的蛋白质家族的成员含有N末端RNA识别基序(RRM),其结合前mRNA和C末端RS结构域中的外显子剪接增强子(ESE),所述外显子剪接增强子促进外显子包含。作为另一个实例,hnRNP蛋白hnRNP A1通过其RRM结构域与外显子剪接沉默子(ESS)结合,并通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调节序列来调节剪接位点(ss)的替代使用。例如,ASF/SF2可识别ESE并有助于使用内含子近侧位点,而hnRNP A1可结合ESS并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的ESF。例如,Bcl-x前mRNA产生两种剪接同种型,其具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子,并且在许多癌细胞中上调,从而保护细胞免于凋亡信号。短同种型Bcl-xS是促凋亡同种型,并且在具有高周转率的细胞(例如,发育中的淋巴细胞)中以高水平表达。两种Bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即,两个替代5’剪接位点之间)中的多个元件调节。对于更多实例,参见WO2010075303,其特此以引用的方式整体并入。
另外的合适的融合配偶体包括但不限于作为边界元件(例如,CTCF)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如,核纤层蛋白A、核纤层蛋白B等)、蛋白质对接元件(例如,FKBP/FRB、Pil1/Aby1等)。
用于主题嵌合CasY多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下应用中描述的那些(所述出版物与其他CRISPR内切核酸酶(诸如Cas9)有关,但是描述的融合配偶体也可与CasY一起使用):美国专利申请:WO2010075303、WO2012068627和WO2013155555,并且可见于例如以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。
在一些情况下,异源多肽(融合配偶体)提供亚细胞定位,即异源多肽含有亚细胞定位序列(例如,用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中,CasY融合多肽不包含NLS,使得蛋白质不靶向细胞核(这可能是有利的,例如,在靶核酸是存在于胞质溶胶中的RNA时)。在一些实施方案中,异源多肽可提供便于追踪和/或纯化的标签(即,异源多肽是可检测标记物)(例如,荧光蛋白,例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等;组氨酸标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签等)。
在一些情况下,CasY蛋白(例如,野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)核定位信号(NLS)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此,在一些情况下,CasY多肽包含一个或多个NLS(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和/或C末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于C末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和C末端二者处或附近(例如,在50个氨基酸内)。在一些情况下,NLS位于N末端,并且NLS位于C末端。
在一些情况下,CasY蛋白(例如,野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)1与10个之间的NLS(例如,1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个或2-5个NLS)。在一些情况下,CasY蛋白(例如,野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)2与5个之间的NLS(例如,2-4个或2-3个NLS)。
NLS的非限制性实例包括衍生自以下的NLS序列:SV40病毒大T抗原的NLS,具有氨基酸序列PKKKRKV(SEQ ID NO:96);来自核质蛋白的NLS(例如,具有序列KRPAATKKAGQAKKKK(SEQ ID NO:97)的核质蛋白二分NLS);c-myc NLS,具有氨基酸序列PAAKRVKLD(SEQ ID NO:98)或RQRRNELKRSP(SEQ ID NO:99);hRNPA1 M9 NLS,具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:100);来自核输入蛋白α(importin-alpha)的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:101);肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:102)和PPKKARED(SEQ ID NO:103);人类p53的序列PQPKKKPL(SEQ IDNO:104);小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:105);流感病毒NS1的序列DRLRR(SEQ ID NO:106)和PKQKKRK(SEQ ID NO:107);肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ IDNO:108);小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:109);人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:110);以及类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:111)。一般来讲,NLS(或多个NLS)具有足够的强度来驱动CasY蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如,可检测标记可与CasY蛋白融合,使得细胞内的位置可被可视化。细胞核也可从细胞中分离,然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析其内容物。也可间接确定细胞核中的积累。
在一些情况下,CasY融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽),其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中,PTD与多肽的氨基末端共价连接(例如,与野生型CasY连接以生成融合蛋白,或与变体CasY蛋白(诸如dCasY、切口酶CasY或嵌合CasY蛋白)连接以生成融合蛋白)。在一些实施方案中,PTD与多肽的羧基末端共价连接(例如,与野生型CasY连接以生成融合蛋白,或与变体CasY蛋白(诸如dCasY、切口酶CasY或嵌合CasY蛋白)连接以生成融合蛋白)。在一些情况下,PTD在合适的插入位点处内插在CasY融合多肽中(即,不在CasY融合多肽的N末端或C末端)。在一些情况下,主题CasY融合多肽包含(缀合到、融合到)一个或多个PTD(例如,两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下,PTD包含核定位信号(NLS)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此,在一些情况下,CasY融合多肽包含一个或多个NLS(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些实施方案中,PTD与核酸(例如,CasY指导核酸、编码CasY指导核酸的多核苷酸、编码CasY融合多肽的多核苷酸、供体多核苷酸等)共价连接。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR;SEQ ID NO:112的HIV-1TAT的残基47-57);包含足以引入细胞中的数量的精氨酸(例如,3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列;VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96);果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes52(7):1732-1737);截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKR(SEQ ID NO:113);运输蛋白(Transportan)GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:114);KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:115);以及RQIKIWFQNRRMKWKK(SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个:YGRKKRRQRRR(SEQ ID NO:119);RKKRRQRR(SEQ ID NO:120);YARAAARQARA(SEQ ID NO:121);THRLPRRRRRR(SEQ ID NO:122);以及GGRRARRRRRR(SEQ IDNO:123)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月;1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。
接头(例如,用于融合配偶体)
在一些实施方案中,主题CasY蛋白可通过接头多肽(例如,一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸以偶联蛋白质来产生,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为适用。
接头多肽的实例包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如(GS)n、GSGGSn(SEQ ID NO:124)、GGSGGSn(SEQ ID NO:125)和GGGSn(SEQ ID NO:126),其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列,其包括但不限于GGSG(SEQ ID NO:127)、GGSGG(SEQ ID NO:128)、GSGSG(SEQ ID NO:129)、GSGGG(SEQ ID NO:130)、GGGSG(SEQ ID NO:131)、GSSSG(SEQ ID NO:132)等。普通技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
可检测标记物
在一些情况下,本公开的CasY多肽包含可检测标记物。可提供可检测信号的合适的可检测标记物和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。
合适的荧光蛋白包括但不限于绿色荧光蛋白(GFP)或其变体、GFP的蓝色荧光变体(BFP)、GFP的青色荧光变体(CFP)、GFP的黄色荧光变体(YFP)、增强型GFP(EGFP)、增强型CFP(ECFP)、增强型YFP(EYFP)、GFPS65T、Emerald、Topaz(TYFP)、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFP(dEGFP)、去稳定化ECFP(dECFP)、去稳定化EYFP(dEYFP)、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体2(12)、mRFP1、pocilloporin、海肾GFP(Renilla GFP)、MonsterGFP、paGFP、Kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlum(Shaner等人(2005)Nat.Methods2:905-909)等等。如在例如Matz等人(1999)Nature Biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。
合适的酶包括但不限于辣根过氧化物酶(HRP)、碱性磷酸酶(AP)、β-半乳糖苷酶(GAL)、葡萄糖-6-磷酸脱氢酶、β-N-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(GO)等。
原间隔序列相邻基序(PAM)
CasY蛋白在由靶向DNA的RNA与靶DNA之间的互补性区域限定的靶序列处与靶DNA结合。与许多CRISPR内切核酸酶的情况一样,双链靶DNA的位点特异性结合(和/或切割)发生在由以下二者确定的位置处:(i)指导RNA与靶DNA之间的碱基配对互补性;和(ii)靶DNA中的短基序[称为原间隔序列相邻基序(PAM)]。
在一些实施方案中,CasY蛋白的PAM直接位于靶DNA的非互补链的靶序列的5’端(互补链与指导RNA的指导序列杂交,而非互补链不直接与指导RNA杂交并且是非互补链的反向互补物)。在一些实施方案中(例如,当使用如本文所述的CasY1时),非互补链的PAM序列为5’-TA-3’(并且在一些情况下为XTA,其中X是C、A或T)。作为示例,参见图5和图7(其中PAM是TA,或者是CTA(如果认为PAM是XTA),其中X是C、A或T)。在一些实施方案中(例如,当使用如本文所述的CasY1时),非互补链的PAM序列为5’-TA-3’(并且在一些情况下为HTA,其中H是C、A或T)。作为示例,参见图5和图7(其中PAM是TA,或者是CTA(如果认为PAM是HTA),其中H是C、A或T)。在一些情况下(例如,当使用如本文所述的CasY2时),非互补链的PAM序列是靶标5’端的5’-YR-3’侧翼序列(其中Y是T或C并且R是A或G)。在一些情况下(例如,当使用如本文所述的CasY2时),非互补链的PAM序列是5'-TR-3’(例如,5'-DTR-3')(其中R是A或G并且D是A、G或T)。作为示例,参见图5d。
在一些情况下,不同的CasY蛋白(即,来自各种物种的CasY蛋白)可有利地用于各种所提供的方法中以便利用不同CasY蛋白的各种酶特征(例如,用于不同PAM序列偏好;用于增加的或降低的酶活性;用于增加的或降低的细胞毒性水平;用于改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡;利用短的总序列等)。来自不同物种的CasY蛋白可能需要靶DNA中的不同PAM序列。因此,对于所选择的具体CasY蛋白,PAM序列要求可与以上所述的5’-TA-3’(或XTA,HTA)序列不同。用于鉴定适当的PAM序列的各种方法(包括计算机模拟方法和/或湿实验室方法(wet lab methods))是本领域已知且常规的,并且可使用任何方便的方法。使用PAM缺失测定鉴定本文所述的TA(XTA,HTA)PAM序列(例如,参见下文工作实例的图5)。
CasY指导RNA
与CasY蛋白结合形成核糖核蛋白复合物(RNP)并将复合物靶向靶核酸(例如,靶DNA)内的特定位置的核酸分子在本文中称为“CasY指导RNA”或者仅称为“指导RNA”。应理解,在一些情况下,可制备杂交体DNA/RNA,使得CasY指导RNA除RNA碱基外还包含DNA碱基,但术语“CasY指导RNA”仍然用于涵盖本文的这种分子。
可以说CasY指导RNA包含两个区段,即靶向区段和蛋白质结合区段。CasY指导RNA的靶向区段包含与靶核酸(例如,靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与CasY多肽相互作用(结合)。主题CasY指导RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。靶核酸(例如,基因组DNA)的位点特异性结合和/或切割可发生在CasY指导RNA(CasY指导RNA的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如,靶基因座的靶序列)处。
CasY指导RNA和CasY蛋白(例如,融合CasY多肽)形成复合物(例如,通过非共价相互作用结合)。CasY指导RNA通过包含靶向区段为复合物提供靶特异性,所述靶向区段包含指导序列(与靶核酸序列互补的核苷酸序列)。复合物的CasY蛋白提供位点特异性活性(例如,由CasY蛋白提供的切割活性和/或在嵌合CasY蛋白的情况下由融合配偶体提供的活性)。换言之,CasY蛋白由于其与CasY指导RNA的缔合而被指导至靶核酸序列(例如,靶序列)。
可修饰“指导序列”,也称为CasY指导RNA的“靶向序列”,使得CasY指导RNA可将CasY蛋白(例如,天然存在的CasY蛋白、融合CasY多肽(嵌合CasY)等)靶向任何所需的靶核酸的任何所需序列,除了(例如,如本文所述)可考虑PAM序列之外。因此,例如,CasY指导RNA可具有与真核细胞中的核酸中的序列互补(例如,可与其杂交)的指导序列,所述核酸例如,病毒核酸、真核核酸(例如,真核染色体、染色体序列、真核RNA等)等。
CasY指导RNA的指导序列
主题CasY指导RNA包含指导序列(即,靶向序列),其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换言之,CasY指导RNA的指导序列可通过杂交(即,碱基配对)以序列特异性方式与靶核酸(例如,双链DNA(dsDNA)、单链DNA(ssDNA)、单链RNA(ssRNA)或双链RNA(dsRNA))相互作用。CasY指导RNA的指导序列可被修饰(例如,通过遗传工程化)/设计成与靶核酸(例如,真核靶核酸,例如基因组DNA)内的任何所需靶序列杂交(例如,当考虑PAM时,例如,当靶向dsDNA靶时)。
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比为60%或更高(例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在靶核的酸靶位点最3'端的七个连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100%。
在一些情况下,指导序列具有在17-30个核苷酸(nt)(例如,17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有在17-25个核苷酸(nt)(例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有17或更多个nt(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有19或更多个nt(例如,20个或更多个、21个或更多个、或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有17个nt的长度。在一些情况下,指导序列具有18个nt的长度。在一些情况下,指导序列具有19个nt的长度。在一些情况下,指导序列具有20个nt的长度。在一些情况下,指导序列具有21个nt的长度。在一些情况下,指导序列具有22个nt的长度。在一些情况下,指导序列具有23个nt的长度。
CasY指导RNA的蛋白质结合区段
主题CasY指导RNA的蛋白质结合区段与CasX蛋白相互作用。CasY指导RNA通过上文提及的指导序列将结合的CasY蛋白指导至靶核酸内的特定核苷酸序列。CasY指导RNA的蛋白质结合区段包含两段核苷酸,它们彼此互补并杂交形成双链RNA双链体(dsRNA双链体)。因此,蛋白质结合区段包含dsRNA双链体。
在一些情况下,dsRNA双链体区域包含5-25个碱基对(bp)的范围(例如,5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如5个bp、6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,dsRNA双链体区域包含6-15个碱基对(bp)的范围(例如,6-12个、6-10个或6-8个bp,例如6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,双链体区域包含5个或更多个bp(例如,6个或更多个、7个或更多个或8个或更多个bp)。在一些情况下,双链体区域包含6个或更多个bp(例如,7个或更多个或8个或更多个bp)。在一些情况下,并非双链体区域的所有核苷酸都是成对的,并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),其对双链双链体没有贡献,但是被有贡献的核苷酸围绕5'端和3'端,并且因此凸起被认为是双链体区域的一部分。在一些情况下,dsRNA包含1个或多个凸起(例如,2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下,dsRNA双链体包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些情况下,dsRNA双链体包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
因此,在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)。
换言之,在一些实施方案中,dsRNA双链体包含彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsRNA双链体包含彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsRNA双链体包含彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)的两段核苷酸。
主题CasY指导RNA的双链体区域可包含相对于天然存在的双链体区域的一个或多个(1个、2个、3个、4个、5个等)突变。例如,在一些情况下,可维持碱基对,同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与(天然存在的CasY指导RNA的)天然存在的双链体区域相比,主题CasY指导RNA的双链体区域包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或其任何方便的组合。
各种Cas9指导RNA的实例可在本领域中找到,并且在一些情况下,与引入Cas9指导RNA中的那些相似的变型也可引入本公开的CasY指导RNA中(例如,对于dsRNA双链体区域的突变、5’或3’末端的延伸以用于增加的稳定性,以便提供与另一种蛋白质的相互作用等)。例如,参见Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNABiol.2013年5月;10(5):726-37;Ma等人,Biomed Res Int.2013;2013:270805;Hou等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic Acids Res.2013年11月1日;41(20):e19;Cheng等人,Cell Res.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,Nat Methods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,CellRes.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,NatMethods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;Briner等人,Mol Cell.2014年10月23日;56(2):333-9;以及美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。
CasY指导RNA包含指导序列和杂交以形成蛋白质结合区段的dsRNA双链体的两段核苷酸(“双链体形成区段”)两者。给定的CasY指导RNA的特定序列可以是crRNA所存在于的物种的特征。本文提供合适的CasY指导RNA的实例。
示例性指导RNA序列
图6(图a和图b)中描绘的重复序列(示例性CasY指导RNA的非指导序列部分)来自CasY1-Y5的天然基因座。在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)](例如,参见图6)。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)]具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)]具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ IDNO:12)](例如,参见图6)。在一些情况下,主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ IDNO:12)]具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ ID NO:12)]具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ IDNO:13)](例如,参见图6)。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ IDNO:13)]具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ ID NO:13)]具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ IDNO:14)](例如,参见图6)。在一些情况下,主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ IDNO:14)]具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ ID NO:14)]具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)](例如,参见图6)。在一些情况下,主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)]具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ IDNO:15)]具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)SEQ ID NO:11-15中的任一个所示的crRNA序列。在一些情况下,主题CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)SEQ ID NO:11-14中的任一个所示的crRNA序列。在一些情况下,主题CasY指导RNA包含与SEQ ID NO:11-14中的任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与SEQ ID NO:11-14中的任一个所示的crRNA序列具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
来自CasY18的天然基因座的重复序列(示例性CasY指导RNA的非指导序列部分)是CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ IDNO:16)]。在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ IDNO:16)]。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ ID NO:16)]具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ IDNO:16)]具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)SEQ ID NO:11-16中的任一个所示的crRNA序列。在一些情况下,主题CasY指导RNA包含(例如,除指导序列之外)与SEQ ID NO:11-16中的任一个所示的crRNA序列具有80%或更高的同一性(例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。在一些情况下,主题CasY指导RNA包含与SEQ ID NO:11-16中的任一个所示的crRNA序列具有90%或更高的同一性(例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性)的核苷酸序列。
CASY系统
本公开提供一种CasY系统。本公开的CasY系统可包含:a)本公开的CasY多肽和CasY指导RNA;b)本公开的CasY多肽、CasY指导RNA和供体模板核酸;c)本公开的CasY融合多肽和CasY指导RNA;d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e)编码本公开的CasY多肽的mRNA和CasY指导RNA;f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。
核酸
本公开提供一种或多种核酸,其包含以下中的一种或多种:供体多核苷酸序列、编码CasY多肽(例如,野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)的核苷酸序列、CasY指导RNA和编码CasY指导RNA的核苷酸序列。本公开提供一种包含编码CasY融合多肽的核苷酸序列的核酸。本公开提供一种包含编码CasY多肽的核苷酸序列的重组表达载体。本公开提供一种包含编码CasY融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体,其包含:a)编码CasY多肽的核苷酸序列;和b)编码一种或多种CasY指导RNA的核苷酸序列。本公开提供一种重组表达载体,其包含:a)编码CasY融合多肽的核苷酸序列;和b)编码一种或多种CasY指导RNA的核苷酸序列。在一些情况下,编码CasY蛋白的核苷酸序列和/或编码CasY指导RNA的核苷酸序列可操作地连接到可在选择的细胞类型(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等)中操作的启动子。
在一些情况下,编码本公开的CasY多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码CasY的核苷酸序列的突变以模拟预期的宿主生物体或细胞的密码子偏好同时编码相同蛋白质。因此,密码子可改变,但编码的蛋白质保持不变。例如,如果预期的靶细胞是人细胞,可使用人密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是小鼠细胞,则可生成小鼠密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是植物细胞,则可生成植物密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是昆虫细胞,则可生成昆虫密码子优化的编码CasY的核苷酸序列。
本公开提供一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如,靶基因组)的靶序列具有同源性的核苷酸序列);(ii)编码CasY指导RNA的核苷酸序列,所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子);和(iii)编码CasY蛋白的核苷酸序列(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如,靶基因组)的靶序列具有同源性的核苷酸序列);和(ii)编码CasY指导RNA的核苷酸序列,所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)编码CasY指导RNA的核苷酸序列,所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子);和(ii)编码CasY蛋白的核苷酸序列(例如,可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。
合适的表达载体包括病毒表达载体(例如,基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见例如,Li等人,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等人,Gene Ther 6:515524,1999;Li和Davidson,PNAS 92:7700 7704,1995;Sakamoto等人,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO93/19191;WO 94/28938;WO 95/11984和WO 95/00655);腺相关病毒(AAV)(参见例如,Ali等人,HumGene Ther 9:81 86,1998;Flannery等人,PNAS 94:6916 6921,1997;Bennett等人,InvestOpthalmol Vis Sci 38:2857 2863,1997;Jomary等人,Gene Ther 4:683 690,1997;Rolling等人,Hum Gene Ther 10:641 648,1999;Ali等人,Hum Mol Genet 5:591 594,1996;Srivastava的WO 93/09239,Samulski等人,J.Vir.(1989)63:3822-3828;Mendelson等人,Virol.(1988)166:154-165;以及Flotte等人,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人类免疫缺陷病毒(参见例如,Miyoshi等人,PNAS 94:10319 23,1997;Takahashi等人,J Virol 73:7812 7816,1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。在一些情况下,本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些情况下,本公开的重组表达载体是重组慢病毒载体。在一些情况下,本公开的重组表达载体是重组逆转录病毒载体。
根据所用的宿主/载体系统,可在表达载体中使用许多合适的转录和翻译控制元件中的任一种,包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。
在一些实施方案中,编码CasY指导RNA的核苷酸序列可操作地连接到控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码CasY蛋白或CasY融合多肽的核苷酸序列可操作地连接到控制元件,例如转录控制元件,诸如启动子。
转录控制元件可以是启动子。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调节启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件(例如,启动子)在靶向细胞类型或靶向细胞群中是功能性的。例如,在一些情况下,转录控制元件在真核细胞(例如,造血干细胞(例如,动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。
真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α,来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如,6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列,所述蛋白质标签可融合到CasY蛋白,从而产生嵌合CasY多肽。
在一些实施方案中,编码CasY指导RNA和/或CasY融合多肽的核苷酸序列可操作地连接到诱导型启动子。在一些实施方案中,编码CasY指导RNA和/或CasY融合蛋白的核苷酸序列可操作地连接到组成型启动子。
启动子可以是组成型活性启动子(即,在活性/“ON”状态下组成型的启动子),它可以是诱导型启动子(即,通过外界刺激例如存在特定温度、化合物或蛋白质控制其状态(活性/“ON”或非活性/“OFF”)的启动子),它可以是空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可以是时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程(例如,小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态)。
合适的启动子可来源于病毒并且可因此称为病毒启动子,或它们可来源于任何生物,包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如,pol I、polII、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子;腺病毒主要晚期启动子(Ad MLP);单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人类U6小核启动子(U6)(Miyagishi等人,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如,Xia等人,Nucleic Acids Res.2003年9月1日;31(17))、人类H1启动子(H1)等。
在一些情况下,编码CasY指导RNA的核苷酸序列可操作地连接到(在其控制下)在真核细胞中可操作的启动子(例如,U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的,当使用U6启动子(例如,在真核细胞中)或另一种PolIII启动子由核酸(例如,表达载体)表达RNA(例如,指导RNA)时,如果连续存在若干个T(在RNA中编码U),则可能需要对RNA进行突变。这是因为DNA中的一串T(例如,5个T)可充当聚合酶III(PolIII)的终止子。因此,为了确保指导RNA在真核细胞中的转录,有时可能需要修饰编码指导RNA的序列以消除T的作用。在一些情况下,编码CasY蛋白(例如,野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)的核苷酸序列可操作地连接到在真核细胞中可操作的启动子(例如,CMV启动子、EF1α启动子、雌激素受体调节的启动子等)。
诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。因此,诱导型启动子可通过分子调节,所述分子包括但不限于强力霉素;雌激素和/或雌激素类似物;IPTG等。
适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节的启动子和物理调节的启动子,诸如醇调节的启动子、四环素调节的启动子(例如,无水四环素(aTc)-响应性启动子和其他四环素响应性启动子系统,其包括四环素阻遏物蛋白(tetR)、四环素操作序列(tetO)和四环素反式激活因子融合蛋白(tTA))、类固醇调节的启动子(例如,基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调节的启动子(例如,衍生自来自酵母、小鼠和人类的金属硫蛋白(结合并螯合金属离子的蛋白质)基因的启动子)、发病原调节的启动子(例如,由水杨酸、乙烯或苯并噻二唑(BTH)诱导的启动子)、温度/热诱导型启动子(例如,热休克启动子)和光调节的启动子(例如,来自植物细胞的光响应性启动子)。
在一些情况下,启动子是空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等),使得在多细胞生物体中,启动子在特定细胞子集中是活性的(即,“ON”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子,只要启动子在靶向宿主细胞(例如,真核细胞;原核细胞)中是功能性的即可。
在一些情况下,启动子是可逆启动子。合适的可逆启动子,包括可逆诱导型启动子,是本领域已知的。此类可逆启动子可分离自并衍生自许多生物体,例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如,第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰是本领域熟知的。此类可逆启动子和基于此类可逆启动子但也包含另外的控制蛋白的系统包括但不限于醇调节的启动子(例如,醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调节的启动子(例如,启动子系统,包括Tet激活因子、TetON、TetOFF等)、类固醇调节的启动子(例如,大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类维生素A启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调节的启动子(例如,金属硫蛋白启动子系统等)、发病机理相关的调节启动子(例如,水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等)、温度调节启动子(例如,热休克诱导型启动子(例如,HSP-70、HSP-90、大豆热休克启动子等))、光调节启动子、合成诱导型启动子等。
将核酸(例如,包含供体多核苷酸序列的核酸、一种或多种编码CasY蛋白和/或CasY指导RNA的核酸等)引入宿主细胞中的方法是本领域已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。
将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。
在一些实施方案中,CasY蛋白可作为RNA提供。RNA可通过直接化学合成提供,或者可在体外从DNA(例如,编码CasY蛋白的DNA)转录。一旦合成,可通过用于将核酸引入细胞中的任何熟知的技术(例如,微注射、电穿孔、转染等)将RNA引入细胞中。
可使用开发良好的转染技术(参见例如Angel和Yanik(2010)PLoS ONE 5(7):e11756);以及可从Qiagen商购获得的试剂、从Stemgent可商购获得的StemfectTMRNA转染试剂盒以及可从Mirus Bio LLC商购获得的转染试剂盒向细胞提供核酸。还参见Beumer等人(2008)PNAS105(50):19821-19826。
可直接向靶宿主细胞提供载体。换言之,使细胞与包含主题核酸的载体(例如,具有供体模板序列并编码CasY指导RNA的重组表达载体;编码CasY蛋白的重组表达载体等)接触,使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)是本领域中熟知的。对于病毒载体递送,可使细胞与包含主题病毒表达载体的病毒颗粒接触。
逆转录病毒,例如慢病毒,适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”,即不能产生用于生产性感染所需要的病毒蛋白质。而且载体复制需要在包装细胞系中生长。为了生成包含感兴趣的核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性),此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性;对包括人类、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法是本领域中熟知的。还可通过直接微注射引入核酸(例如,RNA的注射)。
用于向靶宿主细胞提供编码CasY指导RNA和/或CasY多肽的核酸的载体可包括用于驱动感兴趣核酸的表达(即,转录激活)的合适的启动子。换言之,在一些情况下,感兴趣的核酸将可操作地连接到启动子。所述启动子可包括遍在活化型启动子,例如CMV-β-肌动蛋白启动子;或诱导型启动子,诸如在具体细胞群中有活性或对药物(诸如四环素的)存在有反应的启动子。通过转录激活,预期转录将在靶细胞中的基础水平以上增加10倍、100倍、更通常地1000倍。另外,用于向细胞提供编码CasY指导RNA和/或CasY蛋白的核酸的载体可包含如下核酸序列,其在靶细胞中编码可选择标记以便鉴定已经吸收CasY指导RNA和/或CasY蛋白的细胞。
包含编码CasY多肽或CasY融合多肽的核苷酸序列的核酸在一些情况下是RNA。因此,可将CasY融合蛋白作为RNA引入细胞中。将RNA引入细胞中的方法是本领域中已知的并且可包括例如直接注射、转染或用于引入DNA的任何其他方法。相反,CasY蛋白可作为多肽向细胞提供。这种多肽可任选地融合到增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如,通过TEV蛋白酶切割的TEV序列)连接到多肽。接头还可包括一个或多个柔性序列,例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行,例如在0.5至2M尿素存在下、在多肽和/或增加溶解度的多核苷酸的存在下等进行。感兴趣的结构域包括核内体溶解结构域,例如流感HA结构域;和辅助产生的其他多肽,例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如,肽可以是PEG化的,其中聚乙烯氧基提供在血流中的增加的寿命。
另外或可替代地,本公开的CasY多肽可融合到多肽穿透结构域以促进被细胞吸收。许多穿透结构域是本领域中已知的并且可用于本公开的非整合多肽,其包括肽、肽模拟物和非肽运载体。例如,穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋,所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO:133)。作为另一个实例,穿透肽包含HIV-1tat碱性区域氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序,例如HIV-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如,Futaki等人(2003)Curr Protein PeptSci.2003年4月;4(2):87-9和446;以及Wender等人(2000)Proc.Natl.Acad.Sci.U.S.A2000年11月21日;97(24):13003-8;公布的美国专利申请20030220334;20030083256;20030032593;和20030022831,本文以引用的方式特别并入了易位肽和拟肽的教义)。九精氨酸(R9)序列是已表征的更有效的PTD之一(Wender等人2000;Uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。
本公开的CasY多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工,并且可使用本领域已知的方法进一步再折叠。
不改变一级序列的感兴趣的修饰包括多肽的化学衍生化,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在其合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰;例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。
还适合包括在本公开的实施方案中的是核酸(例如,编码CasY指导RNA、编码CasY融合蛋白等的核酸)和蛋白质(例如,衍生自野生型蛋白质或变体蛋白质的CasY融合蛋白),所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰,以便改进它们对蛋白水解降解的抗性,改变靶序列特异性,优化溶解特性,改变蛋白质活性(例如,转录调节活性、酶活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的L-氨基酸之外的残基(例如,D-氨基酸或非天然存在的合成氨基酸)的那些多肽。D-氨基酸可取代一些或所有氨基酸残基。
可使用如本领域已知的常规方法,通过体外合成制备本公开的CasY多肽。可使用各种商业合成装置,例如Applied Biosystems,Inc.,Beckman等的自动合成仪。通过使用合成仪,天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。
如果需要,可在合成过程中或在表达过程中将各种基团引入肽中,这允许连接到其他分子或表面。因此半胱氨酸可用来制备硫醚、用于连接到金属离子络合物的组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。
还可根据重组合成的常规方法分离和纯化本公开的CasY多肽。可由表达宿主制备裂解液,并且使用高效液相色谱法(HPLC)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下,相对于与产物制备及其纯化的方法相关的污染物,所使用的组合物将包含所需产物的20重量%或更多、更通常地75重量%或更多、优选地95重量%,并且出于治疗目的通常为99.5重量%或更多。通常,百分数将基于总蛋白。因此,在一些情况下,本公开的CasY多肽或CasY融合多肽具有至少80%纯度、至少85%纯度、至少90%纯度、至少95%纯度、至少98%纯度或至少99%纯度(例如,不含污染物、非CasY蛋白质或其他大分子等)。
为了诱导对靶核酸(例如,基因组DNA)的切割或任何所需的修饰,或对与靶核酸相关联的多肽的任何所需的修饰,向细胞提供本公开的CasY指导RNA和/或CasY多肽和/或供体模板序列,无论它们作为核酸还是多肽引入,持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段,这可以约每天至约每4天的频率来重复,例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可向主题细胞提供一种或多种试剂一次或多次,例如一次、两次、三次或多于三次,并且在每次接触事件之后允许用一种或多种试剂孵育细胞一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。
在其中向细胞提供两种或更多种不同靶向复合物(例如,与相同或不同靶核酸内的不同序列互补的两种不同CasY指导RNA)的情况下,可同时提供(例如,作为两种多肽和/或核酸)或同时递送所述复合物。可替代地,它们可连续提供,例如首先提供靶向复合物,接着提供第二靶向复合物等,或反之亦然。
为了改进DNA载体向靶细胞的递送,可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护DNA免受损伤,并且促进DNA进入细胞中。因此,在一些情况下,本公开的核酸(例如,本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与DNA复合时,它被称为脂质复合物。存在三种类型的脂质,阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷,与带负电的DNA天然复合。同样由于它们的电荷,它们与细胞膜相互作用。然后发生脂质复合物的内吞作用,并且将DNA释放到细胞质中。阳离子脂质还可防止细胞对DNA的降解。
聚合物与DNA的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成,并且它们的产生由离子相互作用调节。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其DNA负载释放到细胞质中,为此,必须发生与内体溶解剂(溶解内吞作用期间产生的内体,诸如灭活的腺病毒)的共转染。然而,并非总是如此;诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样,都有自己的内体破坏方法。
树枝状聚合物,一种球形的高度支化的大分子,也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地,可能构建阳离子树枝状聚合物(即,具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如DNA质粒)时,电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。在到达其目的地时,树枝状聚合物-核酸复合物可通过内吞作用被吸收到细胞中。
在一些情况下,本公开的核酸(例如,表达载体)包含感兴趣的指导序列的插入位点。例如,核酸可包含感兴趣的指导序列的插入位点,其中所述插入位点紧邻编码CasY指导RNA的部分的核苷酸序列,当指导序列被改变而与所需靶序列杂交(例如,有助于指导RNA的CasY结合方面的序列,例如,有助于CasY指导RNA的一个或多个dsRNA双链体的序列-指导RNA的这个部分也可称为指导RNA的“支架”或“恒定区”)时,CasY指导RNA的所述部分不会改变。因此,在一些情况下,主题核酸(例如,表达载体)包含编码CasY指导RNA的核苷酸序列,不同的是编码指导RNA的指导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点(MCS)(例如,包含一个或多个限制性酶识别序列的位点),用于连接独立克隆的位点,用于基于克隆的重组(例如,基于att位点的重组)的位点,由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。
插入位点可以是任何期望的长度,并且可取决于插入位点的类型(例如,可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列),位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些情况下,主题核酸的插入位点长度为3个或更多个核苷酸(nt)(例如,长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下,主题核酸的插入位点具有在2至50个核苷酸(nt)的范围内(例如,2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下,主题核酸的插入位点具有在5至40个nt的范围内的长度。
核酸修饰
在一些实施方案中,主题核酸(例如,CasY指导RNA)具有一个或多个修饰(例如,碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如,改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接到核苷的糖部分的磷酸酯基团的核苷。对于包含呋喃戊糖的那些核苷,磷酸酯基团可连接到糖的2’、3’或5’羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而,此线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物是合适的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架是3’至5’的磷酸二酯键。
合适的核酸修饰包括但不限于:2’O甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如,7-甲基鸟苷酸帽(m7G))。下文描述另外的细节和另外的修饰。
2'-O-甲基修饰的核苷酸(也称为2'-O-甲基RNA)是在tRNA和其他小RNA中发现的天然存在的RNA修饰,其作为转录后修饰而出现。可直接合成含有2'-O-甲基RNA的寡核苷酸。这种修饰增加RNA:RNA双链体的Tm,但仅导致RNA:DNA稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的,并且对DNA酶的敏感性通常是DNA的5至10倍低。它通常用于反义寡核苷酸中,作为增加稳定性和对于靶信使的结合亲和力的手段。
2'氟修饰的核苷酸(例如,2'氟碱基)具有氟修饰的核糖,其增加结合亲和力(Tm)并且与天然RNA相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和siRNA中以改进在血清或其他生物体液中的稳定性。
LNA碱基具有对核糖骨架的修饰,其将碱基锁定在C3'-内部位置,这有利于RNA A型螺旋双链体几何结构。这种修饰显著增加Tm并且还具有非常强的核酸酶抗性。可将多个LNA插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到SNP检测和等位基因特异性PCR的应用。由于LNA赋予Tm的大量增加,它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下,引入单个寡核苷酸中的LNA的数量是10个碱基或更少。
硫代磷酸酯(PS)键联(即,硫代磷酸酯键)用硫原子取代核酸(例如,寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键联以抑制外切核酸酶降解。在寡核苷酸内(例如,在整个寡核苷酸中)包含硫代磷酸酯键联也可帮助减少内切核酸酶的攻击。
在一些实施方案中,主题核酸具有一个或多个核苷酸,所述核苷酸是2'-O-甲基修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有一个或多个2'氟修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有一个或多个LNA碱基。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有通过硫代磷酸酯键联连接的一个或多个核苷酸(即,主题核酸具有一个或多个硫代磷酸酯键)。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有5'帽(例如,7-甲基鸟苷酸帽(m7G))。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有修饰的核苷酸的组合。例如,除具有一个或多个具有其他修饰的核苷酸(例如,2'-O-甲基核苷酸和/或2'氟修饰的核苷酸和/或LNA碱基和/或硫代磷酸酯键)之外,主题核酸(例如,dsRNA、siNA等)可具有5'帽(例如,7-甲基鸟苷酸帽(m7G))。
修饰的骨架和修饰的核苷间键
含有修饰的合适的核酸(例如,CasY指导RNA)的实例包括含有修饰的骨架或非天然的核苷间键的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。
其中含有磷原子的合适的经修饰的寡核苷酸骨架包括例如,硫代磷酸酯,手性硫代磷酸酯,二硫代磷酸酯,磷酸三酯,氨基烷基磷酸三酯,甲基和其他烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯,次膦酸酯,氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯,二氨基磷酸酯,硫羰氨基磷酸酯,硫羰烷基磷酸酯,硫羰烷基磷酸三酯,具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯,这些的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架,其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键,即可为碱性(核碱基丢失或其被羟基替代)的单个反转核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。
在一些实施方案中,主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键,具体地是-CH2-NH-O-CH2-、-CH2-N(CH3)-O-CH2-(称为亚甲基(甲基亚氨基)或MMI骨架)、-CH2-O-N(CH3)-CH2-、-CH2-N(CH3)-N(CH3)-CH2-和-O-N(CH3)-CH2-CH2-(其中天然磷酸二酯核苷酸间键表示为-O-P(=O)(OH)-O-CH2-)。MMI型核苷间键公开于上文提及的美国专利号5,489,677中,所述专利的公开内容以引用的方式整体并入本文。合适的酰胺核苷间键公开于美国专利号5,602,240中,所述专利的公开内容以引用的方式整体并入本文。
还合适的是具有吗啉代骨架结构的核酸,如例如美国专利号5,034,506中所述。例如,在一些实施方案中,主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些中,二氨基磷酸酯或其他非磷酸二酯核苷间键替代磷酸二酯键。
其中不包含磷原子的合适的经修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括:具有吗啉代键(部分地由核苷的糖部分形成)的那些骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基(riboacetyl)骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合的N、O、S和CH2组成部分的其他骨架。
模拟物
主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中又称为糖替代。杂环碱基部分或修饰的杂环碱基部分维持与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(PNA)。在PNA中,多核苷酸的糖骨架被含酰胺的骨架替代,具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接结合骨架的酰胺部分的氮杂氮原子。
已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(PNA)。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接结合骨架的酰胺部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331;和5,719,262,所述专利的公开内容以引用的方式整体并入本文。
已研究的另一类多核苷酸模拟物基于具有附着到吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(Dwaine A.Braasch和David R.Corey,Biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中,所述专利的公开内容以引用的方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物,所述化合物具有连接单体亚单元的多种不同的连接基团。
另一类多核苷酸模拟物称为环己烯基核酸(CeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNA DMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸(参见Wang等人,J.Am.Chem.Soc.,2000,122,8595-8602,其公开内容以引用的方式整体并入本文)。一般来讲,CeNA单体引入DNA链中增加了DNA/RNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色性示出将CeNA结构引入天然核酸结构中的研究以继续进行简单的构象调整。
另一种修饰包括锁定核酸(LNA),其中2'-羟基连接到糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键,从而形成双环糖部分。所述键可以是亚甲基(-CH2-),桥联2’氧原子和4’碳原子的基团,其中n为1或2(Singh等人,Chem.Commun.,1998,4,455-456,其公开内容以引用的方式整体并入本文)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm=+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有LNA的有效且无毒的反义寡核苷酸(例如Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638,其公开内容以引用的方式整体并入本文)。
已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如,Koshkin等人,Tetrahedron,1998,54,3607-3630,其公开内容以引用的方式整体并入本文)。LNA及其制备也描述于WO 98/39352和WO 99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中,所述专利的公开内容以引用的方式整体并入本文。
修饰的糖部分
主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别合适的是:O((CH2)nO)mCH3、O(CH2)nOCH3、O(CH2)nNH2、O(CH2)nCH3、O(CH2)nONH2和O(CH2)nON((CH2)nCH3)2,其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团:C1至C10低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团,以及其他具有相似特性的取代基。合适的修饰包括2’-甲氧基乙氧基(2'-O-CH2CH2OCH3,又称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等人,Helv.Chim.Acta,1995,78,486-504,其公开内容以引用的方式整体并入本文),即烷氧基烷氧基基团。另外合适的修饰包括2’-二甲基氨基氧基乙氧基,即O(CH2)2ON(CH3)2基团,又称为2'-DMAOE,如在下文的实施例中所述;和2’-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE),即2'-O-CH2-O-CH2-N(CH3)2
其他合适的糖取代基团包括甲氧基(-O-CH3)、氨基丙氧基(--OCH2CH2CH2NH2)、烯丙基(-CH2-CH=CH2)、-O-烯丙基(--O--CH2—CH=CH2)和氟(F)。2’-糖取代基团可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-F。还可在低聚化合物上的其他位置上做出相似的修饰,具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置以及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物,诸如环丁基部分。
碱基修饰和取代
主题核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所用,“未修饰”或“天然”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其他合成和天然的核碱基,诸如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C=C-CH3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基(具体为5-溴代基)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的经修饰的核碱基包括三环嘧啶,诸如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹诸如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。
杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于The Concise Encyclopedia Of Polymer Science AndEngineering,第858-859页,Kroschwitz,J.I.编John Wiley&Sons,1990中的那些、由Englisch等人,Angewandte Chemie,International Edition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.编,CRC Press,1993公开的那些,其公开内容以引用的方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶,6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(Sanghvi等人编,Antisense Research and Applications,CRC Press,Boca Raton,1993,第276-278页;其公开内容以引用的方式整体并入本文)并且例如当与2'-O-甲氧基乙基糖修饰组合时是适合的碱基取代。
缀合物
主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接到多核苷酸。这些部分或缀合物可包括共价结合到诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报道分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。
缀合物部分包括但不限于脂质部分,诸如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556),胆酸(Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060),硫醚例如己基-S-三苯甲基硫醇(Manoharan等人,Ann.N.Y.Acad.Sci.,1992,660,306-309;Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770),巯基胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538),脂族链例如十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EMBO J.,1991,10,1111-1118;Kabanov等人,FEBS Lett.,1990,259,327-330;Svinarchuk等人,Biochimie,1993,75,49-54),磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-O-十六烷基-外消旋-甘油-3-H-磷酸酯(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654;Shea等人,Nucl.Acids Res.,1990,18,3777-3783),多胺或聚乙二醇链(Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973),或金刚烷乙酸(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654),棕榈基部分(Mishra等人,Biochim.Biophys.Acta,1995,1264,229-237),或十八烷基胺或己基氨基-羰基-羟基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937)。
缀合物可包括“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽),其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如,细胞核)内。在一些实施方案中,PTD与外源多核苷酸的3’末端共价连接。在一些实施方案中,PTD与外源多核苷酸的5’末端共价连接。示例性PTD包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR;SEQ ID NO:112的HIV-1TAT的残基47-57);包含足以引入细胞中的数量的精氨酸(例如,3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列;VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96);果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737);截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKR SEQ IDNO:113);运输蛋白GWTLNSAGYLLGKINLKALAALAKKIL SEQ ID NO:114);KALAWEAKLAKALAKALAKHLAKALAKALKCEA SEQ ID NO:115);和RQIKIWFQNRRMKWKK SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个:YGRKKRRQRRR SEQ ID NO:119);RKKRRQRR SEQ ID NO:120);YARAAARQARA SEQID NO:121);THRLPRRRRRR SEQ ID NO:122);以及GGRRARRRRRR SEQ ID NO:123)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月;1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。
将组分引入靶细胞中
CasY指导RNA(或包含编码CasY指导RNA的核苷酸序列的核酸)和/或本公开的CasY多肽(或包含编码CasY多肽的核苷酸序列的核酸)和/或本公开的CasY融合多肽(或者包含编码本公开的CasY融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)可通过多种熟知的方法引入宿主细胞中。
可使用多种化合物和方法中的任一种将本公开的CasY系统递送到靶细胞(例如,其中CasY系统包含:a)本公开的CasY多肽和CasY指导RNA;b)本公开的CasY多肽、CasY指导RNA和供体模板核酸;c)本公开的CasY融合多肽和CasY指导RNA;d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e)编码本公开的CasY多肽的mRNA和CasY指导RNA;f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。作为非限制性实例,本公开的CasY系统可与脂质组合。作为另一个非限制性实例,本公开的CasY系统可与颗粒组合或配制成颗粒。
将核酸引入到宿主细胞中的方法是本领域中已知的,并且可使用任何方便的方法来将主题核酸(例如,表达构建体/载体)引入到靶细胞(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。适合的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
在一些情况下,本公开的CasY多肽作为编码CasY多肽的核酸(例如,mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的CasY多肽直接作为蛋白质(例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasY多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CasY多肽直接注射到细胞中(例如,与或不与CasY指导RNA或编码CasY指导RNA的核酸一起,并且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的CasY多肽和CasY指导RNA的预先形成的复合物(RNP)引入细胞(例如,真核细胞)中(例如,通过注射、通过核转染;通过缀合到一种或多种组分的蛋白转导结构域(PTD),例如缀合到CasY蛋白、缀合到指导RNA、缀合到本公开的CasY多肽和指导RNA;等)。
在一些情况下,本公开的CasY融合多肽(例如,与融合配偶体融合的dCasY、与融合配偶体融合的切口酶CasY等)作为编码CasY融合多肽的核酸(例如,mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的CasY融合多肽直接作为蛋白质(例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasY融合多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CasY融合多肽直接注射到细胞中(例如,与或不与编码CasY指导RNA的核酸一起,并且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的CasY融合多肽和CasY指导RNA的预先形成的复合物(RNP)引入细胞中(例如,通过注射、通过核转染;通过缀合到一种或多种组分的蛋白转导结构域(PTD),例如缀合到CasY融合蛋白、缀合到指导RNA、缀合到本公开的CasY融合多肽和指导RNA;等)。
在一些情况下,将核酸(例如,CasY指导RNA;包含编码本公开的CasY多肽的核苷酸序列的核酸等)递送到颗粒中的细胞(例如,靶宿主细胞)和/或多肽(例如,CasY多肽;CasY融合多肽),或与颗粒缔合。在一些情况下,本公开的CasY系统被递送到颗粒中的细胞,或与颗粒缔合。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的CasY多肽的核苷酸序列和/或CasY指导RNA的重组表达载体、包含编码本公开的CasY多肽的核苷酸序列的mRNA以及指导RNA可使用颗粒或脂质包膜同时递送;例如,CasY多肽和CasY指导RNA,例如作为复合物(例如,核糖核蛋白(RNP)复合物)可通过颗粒递送,例如通过包含脂质或类脂质以及亲水聚合物(例如,阳离子脂质和亲水聚合物)的递送颗粒递送,例如,其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包含乙二醇或聚乙二醇(PEG);并且/或者其中颗粒还包含胆固醇(例如,来自制剂1的颗粒=DOTAP 100、DMPC 0、PEG 0、胆固醇0;制剂编号2=DOTAP 90、DMPC 0、PEG 10、胆固醇0;制剂编号3=DOTAP 90、DMPC 0、PEG 5、胆固醇5)。例如,可使用多步骤方法形成颗粒,其中将CasY多肽和CasY指导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(PBS)中混合在一起;并且适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于乙醇(例如,100%乙醇),并且将两种溶液混合在一起以形成含有复合物的颗粒)。
本公开的CasY多肽(或包含编码本公开的CasY多肽的核苷酸序列的mRNA;或包含编码本公开的CasY多肽的核苷酸序列的重组表达载体)和/或CasY指导RNA(或核酸,诸如一种或多种编码CasY指导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如,可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些情况下,使用基于自组装生物粘附聚合物的颗粒/纳米颗粒;此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送,例如递送到脑。还考虑了其他实施方案,诸如疏水药物的口服吸收和眼部递送。可使用分子包膜技术,其涉及受保护并递送至疾病部位的工程化聚合物包膜。可使用约5mg/kg的剂量,使用单剂量或多剂量,这取决于各种因素,例如靶组织。
类脂质化合物(例如,如美国专利申请20110293703中所述)也可用于多核苷酸的施用,并且可用于递送本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统(例如,其中CasY系统包含:a)本公开的CasY多肽和CasY指导RNA;b)本公开的CasY多肽、CasY指导RNA和供体模板核酸;c)本公开的CasY融合多肽和CasY指导RNA;d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e)编码本公开的CasY多肽的mRNA和CasY指导RNA;f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。在一方面,氨基醇类脂质化合物与待递送到细胞或受试者的药剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。
聚(β-氨基醇)(PBAA)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚(β-氨基醇)(PBAA)。
可使用基于糖的颗粒,例如,如参考WO2014118272(以引用的方式并入本文)和Nair,J K等人,2014,Journal of the American Chemical Society 136(49),16958-16961)所述的GalNAc,可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。
在一些情况下,使用脂质纳米颗粒(LNP)将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如,pH 4)下装载到LNP中,其中可电离的脂质显示正电荷。然而,在生理pH值下,LNP表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质,即1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基-酮-N,N-二甲基-3-氨基丙烷(DLinKDMA)和1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)。LNP的制备描述于例如Rosin等人(2011)Molecular Therapy 19:1286-2200)中。可使用阳离子脂质1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2'’-(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)和R-3-[(.ω.-甲氧基-聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如,CasY指导RNA;本公开的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些情况下,并入0.2%SP-DiOC18。
球形核酸(SNATM)构建体和其他纳米颗粒(特别是金纳米颗粒)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞.。参见例如,Cutler等人,J.Am.Chem.Soc.2011 133:9254-9257,Hao等人,Small.20117:3158-3162,Zhang等人,ACS Nano.2011 5:6962-6970,Cutler等人,J.Am.Chem.Soc.2012 134:1376-1391,Young等人,Nano Lett.201212:3867-71,Zheng等人,Proc.Natl.Acad.Sci.USA.2012 109:11975-80,Mirkin,Nanomedicine 2012 7:635-638Zhang等人,J.Am.Chem.Soc.2012 134:16488-1691,Weintraub,Nature 2013 495:S14-S16,Choi等人,Proc.Natl.Acad.Sci.USA.2013 110(19):7625-7630,Jensen等人,Sci.Transl.Med.5,209ra152(2013)和Mirkin等人,Small,10:186-192。
具有RNA的自组装纳米颗粒可用聚乙烯亚胺(PEI)构建,所述聚乙烯亚胺(PEI)用附接在聚乙二醇(PEG)远侧端部处的Arg-Gly-Asp(RGD)肽配体PEG化。
一般来讲,“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有500nm或更小,例如,25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有35nm至60nm的直径。
适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒可以不同的形式提供,例如,作为固体纳米颗粒(例如,金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或其组合提供。可制备金属、介电和半导体纳米颗粒,以及混合结构(例如,核壳纳米颗粒)。由半导体材料制成的纳米颗粒也可标记为量子点,如果它们足够小(通常低于10nm),则发生电子能级的量子化。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂,并且可适用于本公开中的相似目的。
半固体和软纳米颗粒也适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。具有半固体性质的原型纳米颗粒是脂质体。
在一些情况下,使用外泌体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。外泌体是内源性纳米囊泡,其运输RNA和蛋白质,并且可将RNA递送到脑和其他靶器官。
在一些情况下,使用脂质体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。脂质体是球形囊泡结构,其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成;然而,磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时,脂质体形成是自发的,但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如,可将胆固醇或鞘磷脂添加到脂质体混合物中,以便帮助稳定脂质体结构并防止脂质体内部物质的泄漏。脂质体制剂可主要由以下组成:天然磷脂和脂质,诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。
稳定的核酸-脂质颗粒(SNALP)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。SNALP制剂可含有2:40:10:48摩尔百分比的脂质3-N-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC)和胆固醇。可通过使用25:1的脂质/siRNA比和48/40/10/2摩尔比的胆固醇/D-Lin-DMA/DSPC/PEG-C-DMA配制D-Lin-DMA和PEG-C-DMA以及二硬脂酰基磷脂酰胆碱(DSPC)、胆固醇和siRNA来制备SNALP脂质体。所得的SNALP脂质体的尺寸可以是约80-100nm。SNALP可包含合成胆固醇(Sigma-Aldrich,St Louis,Mo.,USA)、二棕榈酰磷脂酰胆碱(Avanti Polar Lipids,Alabaster,Ala.,USA)、3-N-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。SNALP可包含合成胆固醇(Sigma-Aldrich)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC;Avanti Polar Lipids Inc.)、PEG-cDMA和1,2-二亚油氧基-3-(N;N-二甲基)氨基丙烷(DLinDMA)。
其他阳离子脂质,诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环(DLin-KC2-DMA)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。可考虑具有以下脂质组成的预成形的囊泡:摩尔比分别为40/10/40/10的并且FVII siRNA/总脂质比为大约0.05(w/w)的氨基脂质、二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和(R)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000)丙基氨基甲酸酯(PEG-脂质)。为了确保在70-90nm范围内的窄粒径分布和0.11.+-.0.04(n=56)的低多分散指数,可在添加指导RNA之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒,其中四种脂质组分16、DSPC、胆固醇和PEG-脂质的摩尔比(50/10/38.5/1.5)可进一步优化以增强体内活性。
脂质可用本公开的CasY系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒(LNP)。合适的脂质包括但不限于DLin-KC2-DMA4、C12-200和糖脂,二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG可用本公开的CasY系统或其组分使用自发的囊泡形成过程配制。组分摩尔比可以是约50/10/38.5/1.5(DLin-KC2-DMA或C12-200/二硬脂酰磷脂酰胆碱/胆固醇/PEG-DMG)。
本公开的CasY系统或其组分可包封在PLGA微球中递送,所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。
超电荷蛋白可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质,其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使物质与这些蛋白质(诸如质粒DNA、RNA或其他蛋白质)缔合可实现这些大分子在体外和体内向哺乳动物细胞的功能性递送。
细胞穿透肽(CPP)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。CPP通常具有以下氨基酸组成,其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸),或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。
可植入装置可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸(例如,CasY指导RNA、编码CasY指导RNA的核酸、编码CasY多肽的核酸、供体模板等)或本公开的CasY系统递送到靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)的可植入装置可包括容器(例如,储库、基质等),其包含CasY多肽、CasY融合多肽、RNP或CasY系统(或其组分,例如,本公开的核酸)。
合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质),并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物),以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放,其中待递送的多肽和/或核酸直接释放至靶位点,例如细胞外基质(ECM)、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送到腔(诸如腹腔)和/或其中药物递送系统未锚定或附接的任何其他类型的施用的装置,所述装置包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基底,其可以例如任选地是基质。在一些情况下,合适的可植入药物递送装置包含可降解聚合物,其中主要释放机制是整体侵蚀。在一些情况下,合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物,其中主要释放机制是扩散而不是整体侵蚀,使得外部部分起到膜的功能并且其内部部分用作药物储库,实际上,所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内,浓度梯度可保持有效恒定,并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值,但其仍然任选地以初始突发为特征和/或可波动,例如增加和降低到某一程度。扩散速率可长时间这样维持,并且可认为扩散速率恒定到某一水平以优化治疗有效期,例如有效的沉默期。
在一些情况下,可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解,无论是化学性质还是由于受试者体内酶和其他因素的攻击的降解。
可选择装置的植入位点或靶位点,用于获得最大的治疗功效。例如,递送装置可植入在肿瘤环境内或附近,或者与肿瘤相关联的血液供给内或附近。靶位置可以是,例如:1)大脑退化位点,像在基底神经节、白质和灰质处的帕金森病或阿尔茨海默病中;2)脊柱,如在肌萎缩侧索硬化症(ALS)的情况下;3)子宫颈;4)活动性和慢性炎症关节;5)真皮,如在牛皮癣的情况下;7)交感神经和感觉神经位点,用于镇痛作用;7)骨;8)急性或慢性感染位点;9)阴道内;10)内耳-听觉系统、内耳迷路、前庭系统;11)气管内;12)心内;冠状动脉、心外膜;13)泌尿道或膀胱;14)胆系统;15)实质组织,包括但不限于肾、肝、脾;16)淋巴结;17)唾液腺;18)牙龈;19)关节内(到关节中);20)眼内;21)脑组织;22)脑室;23)腔,包括腹腔(例如但不限于卵巢癌);24)食管内;和25)直肠内;和26)到脉管系统中。
插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样,任选地无需修改,或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于短距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。
经修饰的宿主细胞
本公开提供一种经修饰的细胞,其包含本公开的CasY多肽和/或包含编码本公开的CasY多肽的核苷酸序列的核酸。本公开提供一种经修饰的细胞,其包含本公开的CasY多肽,其中所述经修饰的细胞是通常不包含本公开的CasY多肽的细胞。本公开提供一种经修饰的细胞(例如,经遗传修饰的细胞),其包含核酸,所述核酸包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用mRNA遗传修饰的经遗传修饰细胞,所述mRNA包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞,所述重组表达载体包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞,所述重组表达载体包含:a)编码本公开的CasY多肽的核苷酸序列;和b)编码本公开的CasY指导RNA的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞,所述重组表达载体包含:a)编码本公开的CasY多肽的核苷酸序列;b)编码本公开的CasY指导RNA的核苷酸序列;和c)编码供体模板的核苷酸序列。
用作本公开的CasY多肽和/或包含编码本公开的CasY多肽和/或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种,其包括例如体外细胞;体内细胞;离体细胞;原代细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞等。用作本公开的CasY多肽和/或包含编码本公开的CasY多肽和/或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的CasY系统的受体。宿主细胞或靶细胞可以是本公开的CasY RNP的受体。宿主细胞或靶细胞可以是本公开的CasY系统的单一组分的受体。
细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞,来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人类;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不来源于天然生物体的细胞(例如,细胞可以是合成的细胞;也称为人造细胞)。
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节T细胞(Treg)。
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
感兴趣的干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人类;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
干细胞可表达一种或多种干细胞标记,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。
在一些实施方案中,干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
在其他实施方案中,干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或者可以是成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。
在其他实施方案中,干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的;并且可使用任何已知的方法来获得MSC。参见例如,美国专利号5,736,396,其描述了人类MSC的分离。
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrowroot)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalemartichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(Chelicerata)、多足亚门(Myriapodia)、Hexipodia、蛛形纲(Arachnida)、昆虫纲(Insecta)、石蛃目(Archaeognatha)、缨尾目(Thysanura)、古翅下纲(Palaeoptera)、蜉蝣目(Ephemeroptera)、蜻蜓目(Odonata)、差翅亚目(Anisoptera)、束翅亚目(Zygoptera)、新翅亚纲(Neoptera)、外翅总目(Exopterygota)、襀翅目(Plecoptera)、纺足目(Embioptera)、直翅目(Orthoptera)、缺翅目(Zoraptera)、革翅目(Dermaptera)、网翅目(Dictyoptera)、蛩蠊目(Notoptera)、蛩蠊科(Grylloblattidae)、螳科(Mantophasmatidae)、竹节虫目(Phasmatodea)、蜚蠊目(Blattaria)、等翅目(Isoptera)、螳螂目(Mantodea)、Parapneuroptera、啮虫目(Psocoptera)、缨翅目(Thysanoptera)、虱毛目(Phthiraptera)、半翅目(Hemiptera)、内翅类(Endopterygota)或全变态类(Holometabola)、膜翅目(Hymenoptera)、鞘翅目(Coleoptera)、捻翅目(Strepsiptera)、蛇蛉目(Raphidioptera)、广翅目(Megaloptera)、脉翅目(Neuroptera)、长翅目(Mecoptera)、蚤目(Siphonaptera)、双翅目(Diptera)、毛翅目(Trichoptera)或鳞翅目(Lepidoptera)。
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
试剂盒
本公开提供一种试剂盒,其包含本公开的CasY系统或本公开的CasY系统的组分。
本公开的试剂盒可包含:a)本公开的CasY多肽和CasY指导RNA;b)本公开的CasY多肽、CasY指导RNA和供体模板核酸;c)本公开的CasY融合多肽和CasY指导RNA;d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e)编码本公开的CasY多肽的mRNA和CasY指导RNA;f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q)重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r)重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者(a)到(r)中的一个的某一变型。
本公开的试剂盒可包含:a)如上所述的本公开的CasY系统的组分,或者可包含本公开的CasY系统;和b)一种或多种另外的试剂,例如,i)缓冲液;ii)蛋白酶抑制剂;iii)核酸酶抑制剂;iv)开发或可视化可检测标签所需的试剂;v)阳性和/或阴性对照靶DNA;vi)阳性和/或阴性对照CasY指导RNA等。本公开的试剂盒可包含:a)如上所述的本公开的CasY系统的组分,或者可包含本公开的CasY系统;和b)治疗剂。
本公开的试剂盒可包含重组表达载体,其包含:a)用于插入核酸的插入位点,所述核酸包含编码CasY指导RNA的一部分的核苷酸序列,所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;和b)编码CasY指导RNA的CasY结合部分的核苷酸序列。本公开的试剂盒可包含重组表达载体,其包含:a)用于插入核酸的插入位点,所述核酸包含编码CasY指导RNA的一部分的核苷酸序列,所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;b)编码CasY指导RNA的CasY结合部分的核苷酸序列;和c)编码本公开的CasY多肽的核苷酸序列。
实用性
本公开的CasY多肽或本公开的CasY融合多肽可用于多种方法(例如,与CasY指导RNA组合,并且在一些情况下还与供体模板组合)。例如,本公开的CasY多肽可用于(i)修饰(例如切割,例如切口;甲基化等)靶核酸(DNA或RNA;单链或双链);(ii)调节靶核酸的转录;(iii)标记靶核酸;(iv)结合靶核酸(例如,用于分离、标记、成像、追踪等的目的);(v)修饰与靶核酸相关联的多肽(例如,组蛋白)等。因此,本公开提供一种修饰靶核酸的方法。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的CasY多肽;和b)一种或多种(例如,两种)CasY指导RNA。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的CasY多肽;b)CasY指导RNA;和c)供体核酸(例如,供体模板)。在一些情况下,接触步骤在体外细胞中进行。在一些情况下,接触步骤在体内细胞中进行。在一些情况下,接触步骤在离体细胞中进行。
因为使用CasY多肽的方法包括将CasY多肽与靶核酸中的特定区域结合(通过相关联的CasY指导RNA靶向靶核酸中的特定区域),所述方法在本文中通常称为结合方法(例如,结合靶核酸的方法)。然而,应理解在一些情况下,虽然结合方法可能无非是导致靶核酸的结合,但在其他情况下,所述方法可具有不同的最终结果(例如,所述方法可导致靶核酸的修饰(例如切割/甲基化等),靶核酸转录的调节;靶核酸翻译的调节;基因组编辑;与靶核酸相关联的蛋白质的调节;靶核酸的分离等)。
对于合适的方法的实例,参见例如,Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNA Biol.2013年5月;10(5):726-37;Ma等人,Biomed ResInt.2013;2013:270805;Hou等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic AcidsRes.2013年11月1日;41(20):e19;Cheng等人,Cell Res.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,Nat Methods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,Cell Res.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,NatMethods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;以及美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利各自均特此以引用的方式整体并入。
例如,本公开提供(但不限于)切割靶核酸的方法;编辑靶核酸的方法;调节靶核酸转录的方法;分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。
如本文所用,术语/短语“使靶核酸,例如,与CasY多肽或与CasY融合多肽等接触”,涵盖用于接触靶核酸的所有方法。例如,可将CasY多肽作为蛋白质、RNA(编码CasY多肽)或DNA(编码CasY多肽)提供给细胞;而CasY指导RNA可作为指导RNA或编码指导RNA的核酸提供。因此,当例如在细胞中(例如,在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时,包括接触靶核酸的方法涵盖将处于其活性/最终状态(例如,呈CasY多肽的一种或多种蛋白质形式;呈CasY融合多肽的蛋白质形式;在一些情况下呈指导RNA的RNA形式)的任何或所有组分引入细胞中,并且还涵盖将编码一种或多种组分的一种或多种核酸(例如,一种或多种包含编码CasY多肽或CasY融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导RNA的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外细胞外部执行,所以包括接触靶核酸的方法(除非另外指明)涵盖在体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部接触等。
在一些情况下,本公开的用于修饰靶核酸的方法包括将CasY基因座(例如,包含编码CasY多肽的核苷酸序列以及包围编码CasY的核苷酸序列的长度为约1千碱基(kb)至5kb的核苷酸序列的核酸)从包含CasY基因座的细胞(例如,在一些情况下,在其天然状态(它在自然界中出现的状态)下包含CasY基因座的细胞)引入靶细胞中,其中所述靶细胞通常(在其天然状态下)不包含CasY基因座。然而,可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列,使得靶向感兴趣的一个或多个靶序列。因此,例如,在一些情况下,本公开的用于修饰靶核酸的方法包括将CasY基因座(例如,从源细胞(例如,在一些情况下,在其天然状态(它在自然界中出现的状态)下包含CasY基因座的细胞)获得的核酸)引入靶细胞中,其中所述核酸具有长度为100个核苷酸(nt)至5kb(例如,长度为100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb或4kb至5kb)的长度并且包含编码CasY多肽的核苷酸序列。如上所述,在一些此类情况下,可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列,使得靶向感兴趣的一个或多个靶序列。在一些情况下,所述方法包括将以下物质引入靶细胞中:i)CasY基因座;和ii)供体DNA模板。在一些情况下,靶核酸在体外在无细胞组合物中。在一些情况下,靶核酸存在于靶细胞中。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是原核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是真核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是哺乳动物细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是植物细胞。
在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽或本公开的CasY融合多肽接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽和CasY指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽、第一CasY指导RNA和第二CasY指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽和CasY指导RNA和供体DNA模板接触。
感兴趣的靶核酸和靶细胞
当与CasY指导RNA结合时,本公开的CasY多肽或本公开的CasY融合多肽可结合靶核酸,并且在一些情况下,可结合并修饰靶核酸。靶核酸可以是任何核酸(例如,DNA、RNA),可以是双链或单链的,可以是任何类型的核酸(例如,染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如,只要CasY指导RNA包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可)。
靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如,dsDNA、dsRNA)或单链的(例如,ssRNA、ssDNA)。在一些情况下,靶核酸是单链的。在一些情况下,靶核酸是单链RNA(ssRNA)。在一些情况下,靶ssRNA(例如,靶细胞ssRNA、病毒ssRNA等)选自:mRNA、rRNA、tRNA、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和微小RNA(miRNA)。在一些情况下,靶核酸是单链DNA(ssDNA)(例如,病毒DNA)。如上所指出,在一些情况下,靶核酸是单链的。
靶核酸可位于任何地方,例如,体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸,诸如基因组DNA)包括但不限于:细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;昆虫(例如,蚊子;蜜蜂;农业害虫等)的细胞;蛛形纲动物(例如,蜘蛛;蜱等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞(例如,来自啮齿动物的细胞;来自人类的细胞;非人哺乳动物的细胞;啮齿动物(例如,小鼠、大鼠)的细胞;兔形目动物(例如,兔)的细胞;有蹄类动物(例如,牛、马、骆驼、美洲驼、骆马绵羊、山羊等)的细胞;海洋哺乳动物(例如,鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞、例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如,成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞(例如,1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。
细胞可来自已建立的细胞系或它们可以是原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即,分裂)的细胞和细胞培养物。例如,原代培养物是可传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常,原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞为原代细胞,它们可通过任何方便方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织(诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。
在上述申请的一些中,主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如,用于可视化,用于采集和/或分析等)(例如,以破坏由靶向mRNA编码的蛋白质的产生,以切割或以其他方式修饰靶DNA,以遗传修饰靶细胞等)。因为指导RNA通过与靶核酸杂交来提供特异性,所以所公开的方法中感兴趣的有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人类的细胞等)。在一些情况下,可将主题CasY蛋白(和/或编码蛋白质的核酸,诸如DNA和/或RNA)和/或CasY指导RNA(和/或编码指导RNA的DNA)和/或供体模板和/或RNP引入个体(即,靶细胞可在体内)(例如,哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人类)中。在一些情况下,这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。
植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞,诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞,例如产生杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。
靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞,来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人类;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不来源于天然生物体的细胞(例如,细胞可以是合成的细胞;也称为人造细胞)。
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节T细胞(Treg)。
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
感兴趣的干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人类;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
干细胞可表达一种或多种干细胞标记,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。
在一些实施方案中,干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
在其他实施方案中,干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或者可以是成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。
在其他实施方案中,干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的;并且可使用任何已知的方法来获得MSC。参见例如,美国专利号5,736,396,其描述了人类MSC的分离。
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrowroot)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalemartichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门、多足亚门、Hexipodia、蛛形纲、昆虫纲、石蛃目、缨尾目、古翅下纲、蜉蝣目、蜻蜓目、差翅亚目、束翅亚目、新翅亚纲、外翅总目、襀翅目、纺足目、直翅目、缺翅目、革翅目、网翅目、蛩蠊目、蛩蠊科、螳科、竹节虫目、蜚蠊目、等翅目、螳螂目、Parapneuroptera、啮虫目、缨翅目、虱毛目、半翅目、内翅类或全变态类、膜翅目、鞘翅目、捻翅目、蛇蛉目、广翅目、脉翅目、长翅目、蚤目、双翅目、毛翅目或鳞翅目。
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
将组分引入靶细胞中
可通过多种熟知的方法中的任一种将Cas9指导RNA(或包含编码Cas9指导RNA的核苷酸序列的核酸)和/或Cas9融合多肽(或包含编码Cas9融合多肽的核苷酸序列的核酸)和/或供体多核苷酸引入宿主细胞中。
将核酸引入细胞中的方法是本领域中已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入靶细胞(例如,真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法在本文其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可使用已知方法(诸如核转染),将任何或所有组分作为组合物(例如,包括CasY多肽、CasY指导RNA、供体多核苷酸等的任何方便的组合)引入细胞中。
供体多核苷酸(供体模板)
在CasY指导RNA的指导下,CasY蛋白在一些情况下在双链DNA(dsDNA)靶核酸内生成位点特异性双链断裂(DSB)或单链断裂(SSB)(例如,当CasY蛋白是切口酶变体时),其通过非同源末端连接(NHEJ)或同源定向重组(HDR)修复。
在一些情况下,接触靶DNA(与CasY蛋白和CasY指导RNA接触)在允许非同源末端连接或同源定向修复的条件下发生。因此,在一些情况下,主题方法包括使靶DNA与供体多核苷酸接触(例如,通过将供体多核苷酸引入细胞中),其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下,所述方法不包括使细胞与供体多核苷酸接触,并且修饰靶DNA使得靶DNA内的核苷酸缺失。
在一些情况下,CasY指导RNA(或编码CasY指导RNA的DNA)和CasY蛋白(或编码CasY蛋白的核酸,诸如RNA或DNA,例如,一种或多种表达载体)与供体多核苷酸序列共同施用(例如,与靶核酸接触、施用到细胞等),所述供体多核苷酸序列包括与靶DNA序列同源的至少一个区段,主题方法可用来将核酸物质添加(即插入或替代)到靶DNA序列(例如以“敲入”编码蛋白质、siRNA、miRNA的核酸等),添加标签(例如,6xHis、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)、血凝素(HA)、FLAG等),将调节序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等),修饰核酸序列(例如,引入突变、通过引入正确的序列去除致病突变)等。因此,包含CasY指导RNA和CasY蛋白的复合物可用于任何体外或体内应用中,在所述应用中希望以位点特异性(即“靶向的”)方式修饰DNA,例如基因敲除、基因敲入、基因编辑、基因标签等,例如,如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法,农业中遗传修饰的生物体的生产,出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产,iPS细胞诱导,生物研究,用于缺失或替代的病原体基因的靶向等中所使用的。
在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中,还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指在CasY蛋白切割的位点处插入的核酸序列(例如,在dsDNA切割之后、对靶DNA进行切口之后、对靶DNA进行双切口之后等)。供体多核苷酸可与靶位点处的基因组序列含有足够的同源性(例如与侧接靶位点的核苷酸序列,例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)或直接侧接靶位点的核苷酸序列,具有70%、80%、85%、90%、95%或100%同源性),以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25、50、100或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。
供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复即可(例如,用于基因校正,例如,以转化致病碱基对或非致病碱基对)。在一些实施方案中,供体序列包含侧接两个同源区域的非同源序列,以使得靶DNA区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与感兴趣的DNA区域同源并且不意图插入到感兴趣的DNA区域中的序列。通常,供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50%的序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。根据供体多核苷酸的长度,可存在1%与100%之间的任何值的序列同一性。
供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标记(例如,抗药基因、荧光蛋白、酶等)等,所述序列差异可用来评价供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如,表示靶向基因组基因座处的表达)。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不会改变氨基酸序列,或将产生沉默氨基酸变化(即,不影响蛋白质结构或功能的变化)。可替代地,这些序列差异可包括侧接重组序列,诸如FLP、loxP序列等,所述侧接重组序列可在去除标记序列之后的时间里激活。
在一些情况下,供体序列作为单链DNA提供给细胞。在一些情况下,供体序列作为双链DNA提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入,供体序列的末端可通过任何方便的方法来保护(例如,免受核酸外切降解),并且此类方法是本领域的技术人员已知的。例如,可将一个或多个双脱氧核苷酸残基添加到线性分子的3’端,并且/或者可将自身互补寡核苷酸连接到一个或两个末端。(参见例如,Chang等人(1987)Proc.Natl.Acad Sci USA 84:4959-4963;Nehls等人(1996)Science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基和使用修饰的核苷酸间键,例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在同源区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中,所述载体分子具有另外的序列,例如像复制起点、启动子和编码抗生素耐药性的基因。此外,供体序列可作为裸核酸、作为与药剂(诸如脂质体或泊洛沙姆)复合的核酸引入,或者可通过病毒(例如,腺病毒AAV)来递送,如本文其他地方对于编码CasY指导RNA和/或CasY融合多肽和/或供体多核苷酸的核酸所述。
转基因非人生物体
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的CasY多肽的核苷酸序列的核酸;包含编码本公开的CasY融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体,其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因非人生物体,其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。
转基因非人动物
本公开提供一种转基因非人动物,所述动物包含转基因,其包含含有编码CasY多肽或CasY融合多肽的核苷酸序列的核酸。在一些实施方案中,转基因非人动物的基因组包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些情况下,转基因非人动物对于遗传修饰是纯合的。在一些情况下,转基因非人动物对于遗传修饰是杂合的。在一些实施方案中,转基因非人动物是脊椎动物,例如鱼类(例如,鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如,鸡、火鸡等)、爬行动物(例如,蛇、蜥蜴等)、非人哺乳动物(例如,有蹄类动物,例如猪、牛、山羊、绵羊等;兔形目动物(例如,兔);啮齿动物(例如,大鼠、小鼠);非人灵长类动物等)等。在一些情况下,转基因非人动物是无脊椎动物。在一些情况下,转基因非人动物是昆虫(例如,蚊子;农业害虫等)。在一些情况下,转基因非人动物是蛛形纲动物。
编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如,CMV启动子)、诱导型启动子(例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
转基因植物
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的CasY多肽的核苷酸序列的核酸;包含编码本公开的CasY融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因植物,其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因植物,其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些实施方案中,转基因植物的基因组包含主题核酸。在一些实施方案中,转基因植物对于遗传修饰是纯合的。在一些实施方案中,转基因植物对于遗传修饰是杂合的。
将外源核酸引入植物细胞中的方法是本领域中熟知的。如上所定义,此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链DNA病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择通常根据待转化的细胞类型和在其下发生转化的环境(即体外、离体或体内)。
基于土壤细菌根瘤土壤杆菌(Agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(Agrobacterium)的野生型形式含有Ti(肿瘤诱导)质粒,其引导在宿主植物上生长的致瘤冠瘿的产生。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码毒力基因以及T-DNA边缘序列,所述T-DNA边缘序列是描绘待转移区域的一系列正向DNA重复序列。基于土壤杆菌属的载体是Ti质粒的修饰形式,其中肿瘤诱导功能被待引入植物宿主中的感兴趣的核酸序列替代。
土壤杆菌属介导的转化通常采用共合体载体或二元载体系统,其中Ti质粒的组分在辅助载体(所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被T-DNA序列限定的感兴趣的基因)之间分配。多种二元载体是本领域中熟知的并且是可例如从Clontech(Palo Alto,Calif.)商购获得的。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法也是本领域中熟知的。参见例如,Glick和Thompson(编),Methods in Plant MolecularBiology and Biotechnology,Boca Raton,Fla.:CRC Press(1993)。
微粒介导的转化还可用来产生主题转基因植物。首先由Klein等人(Nature 327:70-73(1987))描述的这种方法依赖于微粒,诸如金或钨,所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀涂覆有所需的核酸分子。微粒颗粒使用诸如BIOLISTIC PD-1000(Biorad;Hercules Calif.)的装置在高速下被加速到被子植物组织中。
可将本公开的核酸(例如,包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列的核酸(例如,重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体并且然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体,包括描述于Weissbach和Weissbach,(1989)Methods for Plant Molecular Biology Academic Press以及Gelvin等人,(1990)Plant Molecular Biology Manual,Kluwer Academic Publishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的Ti质粒的那些,以及由Herrera-Estrella等人(1983)Nature303:209、Bevan(1984)Nucl Acid Res.12:8711-8721、Klee(1985)Bio/Technolo 3:637-642公开的那些。可替代地,非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法,可产生转基因植物,诸如小麦、大米(Christou(1991)Bio/Technology 9:957-9和4462)和玉米(Gordon-Kamm(1990)Plant Cell 2:603-618)。未成熟胚也可以是通过使用粒子枪的直接DNA递送技术(Weeks等人(1993)Plant Physiol 102:1077-1084;Vasil(1993)Bio/Technolo 10:667-674;Wan和Lemeaux(1994)Plant Physiol104:37-48)和土壤杆菌属介导的DNA转移(Ishida等人(1996)Nature Biotech 14:745-750)的单子叶植物的良好靶组织。用于将DNA引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(Danieli等人Nat.Biotechnol 16:345-348,1998;Staub等人Nat.Biotechnol 18:333-338,2000;O’Neill等人Plant J.3:729-738,1993;Knoblauch等人Nat.Biotechnol 17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;国际申请号WO 95/16783;以及Boynton等人,Methods in Enzymology217:510-536(1993)、Svab等人,Proc.Natl.Acad.Sci.USA 90:913-917(1993)和McBride等人,Proc.Natl.Acad.Sci.USA 91:7301-7305(1994))。适用于生物弹轰击、原生质体聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。
可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈、林业植物以及葡萄藤。可修饰的植物的具体实例如下:玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆以及大米。
本公开提供转化的植物细胞,含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征为存在整合到基因组中的主题核酸和通过本公开的CasY多肽或CasY融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。
编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接)或可在已知启动子的控制之下(即,可操作地连接)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。
鉴定CRISPR RNA指导的内切核酸酶的方法
提供鉴定CRISPR RNA指导的内切核酸酶的方法。例如,在一些实施方案中,这种方法包括在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列的步骤。Cas1蛋白是本领域已知的并且存在于第2类CRISPR系统的CRISPR基因座附近,那些CRISPR系统包括充当内切核酸酶的单效应蛋白,并且不需要为了适当地发挥作用而与蛋白质复合物相互作用。虽然Cas1蛋白本身参与将新的靶序列获取到CRISPR基因座中,并且因此不是通过此方法鉴定的希望的效应蛋白,但是CRISPR基因座附近存在Cas1蛋白指示存在于基因座附近的至少一种其他Cas蛋白可能是效应蛋白(RNA指导的内切核酸酶)。
如本文所用,术语“宏基因组学”意指对从样品(例如,环境样品,诸如含有未知量的原核生物(细菌/古细菌)并且可能含有从未发现和/或表征的原核生物的样品)中的多种微生物回收的核酸的平行分析。可通过任何方便的方法从这种样品回收核酸,并且通常从整个样品一起回收核酸,使得在分析之前不知道任何给定的核酸分子来自哪种微生物。在一些实施方案中,样品含有未知的混合物和/或量的微生物。然后可对核酸进行测序以产生多个宏基因组序列。在一些情况下,鉴定CRISPR RNA指导的内切核酸酶的主题方法包括分离样品(例如,环境样品)的步骤。在一些情况下,鉴定CRISPR RNA指导的内切核酸酶的主题方法包括从样品分离核酸和/或测定样品以从样品生成多个宏基因组核苷酸序列的步骤。
一旦鉴定出Cas1蛋白,鉴定CRISPR RNA指导的内切核酸酶的主题方法就可包括检测编码Cas1的核苷酸序列附近的CRISPR阵列(重复序列-间隔序列-重复序列阵列)的步骤。所述方法然后可包括将包含所检测的CRISPR阵列的CRISPR基因座克隆(例如,从衍生多个宏基因组核苷酸序列的核酸样品)到表达载体中以生成重组CRISPR基因座表达载体的步骤。然后可通过测定重组CRISPR基因座表达载体切割靶核酸的能力来测试CRISPR基因座的功能。可使用任何方便的测定。在一些实施方案中,所述测定步骤包括将重组CRISPR基因座表达载体和靶核酸引入细胞(例如,异源宿主细胞,例如大肠杆菌细胞)中。例如,参考下文工作实例的PAM缺失测定(图5)。在一些情况下,测定步骤包括将质粒文库引入宿主细胞(例如,大肠杆菌细胞)群中,其中所述文库的每个质粒具有4至10个(例如,5至10个、5至8个、6至10个、6至8个、5个、6个、7个、8个)靶序列5’和/或3’端随机化的核苷酸。宿主细胞可已经含有待测试的重组CRISPR基因座表达载体,或者可在文库之后引入重组CRISPR基因座表达载体。具有功能性并且因此包含功能性CRISPR RNA指导的内切核酸酶的仅测试CRISPR基因座将产生切割具有靶序列的质粒的能力。包含靶序列5’和3’端随机化序列的原因是在实验开始时可能不知道所需内切核酸酶所需要的PAM序列。
如果表达载体可切割靶核酸(例如,具有适当靶序列和PAM(诸如匹配CRISPR阵列的至少一个间隔序列的靶序列)的靶核酸),那么CRISPR基因座就包含编码候选CRISPR RNA指导的内切核酸酶的核苷酸序列。因此,然后可鉴定来自CRISPR基因座的编码CRISPR RNA指导的内切核酸酶的开放阅读框。在一些情况下,希望鉴定先前未知的CRISPR RNA指导的内切核酸酶,并且因此在一些情况下,鉴定的多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20%的氨基酸序列同一性(例如,小于15%、小于10%、小于5%的氨基酸序列同一性)。
本公开的非限制性方面的实例
上文所述的本发明主题的方面(包括实施方案)可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下,以下提供本公开的编号为1-123的某些非限制性方面。对于本领域技术人员在阅读本公开内容时将显而易见的是,每个单独编号的方面可与前面或后面的任何单独编号的方面一起使用或组合。这意图为所有此类方面的组合提供支持,并且不限于下文明确提供的方面的组合:
方面
1.一种组合物,其包含:
a)CasY多肽或编码所述CasY多肽的核酸分子;以及
b)CasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。
2.如1所述的组合物,其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50%或更高的同一性的氨基酸序列。
3.如1或2所述的组合物,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
4.如1或2所述的组合物,其中所述CasY多肽与NLS序列融合。
5.如1-4中任一项所述的组合物,其中所述组合物包含脂质。
6.如1-4中任一项所述的组合物,其中a)和b)在脂质体内。
7.如1-4中任一项所述的组合物,其中a)和b)在颗粒内。
8.如1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。
9.如1-8中任一项所述的组合物,其中所述CasY多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85%或更高的同一性的氨基酸序列。
10.如1-9中任一项所述的组合物,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
11.如1-9中任一项所述的组合物,其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
12.如10或11所述的组合物,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
13.如1-12中任一项所述的组合物,其还包含DNA供体模板。
14.一种CasY融合多肽,其包含:与异源多肽融合的CasY多肽。
15.如14所述的CasY融合多肽,其中所述CasY融合多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50%或更高的同一性的氨基酸序列。
16.如14所述的CasY融合多肽,其中所述CasY融合多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85%或更高的同一性的氨基酸序列。
17.如14-16中任一项所述的CasY融合多肽,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
18.如14-17中任一项所述的CasY融合多肽,其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
19.如17或18所述的CasY融合多肽,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
20.如14-19中任一项所述的CasY融合多肽,其中所述异源多肽与所述CasY多肽的N末端和/或C末端融合。
21.如14-20中任一项所述的CasY融合多肽,其包含NLS。
22.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。
23.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
24.如23所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
25.如24所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
26.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
27.如26所述的CasY融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
28.如26或27所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
29.如28所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
30.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是内体逃逸多肽。
31.如30所述的CasY融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
32.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是叶绿体转运肽。
33.如32所述的CasY融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:92),和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。
34.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。
35.如34所述的CasY融合多肽,其中异源多肽是转录阻遏物结构域。
36.如34所述CasY融合多肽,其中所述异源多肽是转录激活结构域。
37.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是蛋白质结合结构域。
38.一种核酸分子,其编码如14-37中任一项所述的CasY融合多肽。
39.如38所述的核酸分子,其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。
40.如39所述的核酸分子,其中所述启动子在真核细胞中是功能性的。
41.如40所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
42.如39-41中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
43.如38-42中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。
44.如43所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
45.如39所述的核酸分子,其中所述启动子在原核细胞中是功能性的。
46.如38所述的核酸分子,其中所述核酸分子是mRNA。
47.一种或多种核酸分子,其编码:
(a)CasY指导RNA;以及
(b)CasY多肽。
48.如47所述的一种或多种核酸分子,其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50%或更高的同一性的氨基酸序列。
49.如47所述的一种或多种核酸分子,其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85%或更高的同一性的氨基酸序列。
50.如47-49中任一项所述的一种或多种核酸分子,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
51.如47-50中任一项所述的一种或多种核酸分子,其中所述CasY多肽与NLS序列融合。
52.如47-51中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
53.如47-52中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
54.如52或53所述的一种或多种核酸分子,其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。
55.如54所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
56.如53-55中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
57.如47-56中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。
58.如57所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
59.如53所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。
60.一种真核细胞,其包含以下中的一种或多种:
a)CasY多肽或编码所述CasY多肽的核酸分子,
b)CasY融合多肽或编码所述CasY融合多肽的核酸分子,以及
c)CasY指导RNA或编码所述CasY指导RNA的核酸分子。
61.如60所述的真核细胞,其包含编码所述CasY多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
62.如60或61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
63.一种细胞,其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。
64.如63所述的细胞,其中所述细胞是原核细胞。
65.如63或64所述的细胞,其包含编码所述CasY融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasY多肽;以及
b)CasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,
其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。
67.如66所述的方法,其中所述修饰是对所述靶核酸的切割。
68.如66或67所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
69.如66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。
70.如66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
71.如66-68中任一项所述的方法,其中所述接触在体内在细胞内部发生。
72.如70或71所述的方法,其中所述细胞是真核细胞。
73.如72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
74.如70或71所述的方法,其中所述细胞是原核细胞。
75.如66-74中任一项所述的方法,其中所述接触导致基因组编辑。
76.如66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasY多肽或编码所述CasY多肽的核酸分子,以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。
77.如76所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
78.如66-77中任一项所述的方法,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
79.如66-78中任一项所述的方法,其中所述CasY多肽与NLS序列融合。
80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasY融合多肽,其包含与异源多肽融合的CasY多肽;以及
b)CasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。
81.如80所述的方法,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
82.如80或81所述的方法,其中所述CasY融合多肽包含NLS序列。
83.如80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
84.如80-83中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
85.如80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。
86.如80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
87.如80-84中任一项所述的方法,其中所述接触在体内在细胞内部发生。
88.如86或87所述的方法,其中所述细胞是真核细胞。
89.如88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
90.如86或87所述的方法,其中所述细胞是原核细胞。
91.如80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasY融合多肽或编码所述CasY融合多肽的核酸分子,以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。
92.如80-91中任一项所述的方法,其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
93.如80-92中任一项所述的方法,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
94.如80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
95.如94所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
96.如95的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
97.如80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
98.如97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
99.如97或98所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
100.如99所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
101.如80-93中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。
102.如101所述的方法,其中所述异源多肽是转录阻遏物结构域。
103.如101所述的方法,其中所述异源多肽是转录激活结构域。
104.如80-93中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。
105.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:
a)CasY多肽,
b)CasY融合多肽,以及
c)CasY指导RNA。
106.如105所述的转基因的多细胞非人生物体,其中所述CasY融合多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50%或更高的氨基酸序列同一性的氨基酸序列。
107.如105所述的转基因的多细胞非人生物体,其中所述CasY融合多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85%或更高的氨基酸序列同一性的氨基酸序列。
108.如105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
109.一种系统,其包含:
a)CasY多肽和CasY指导RNA;
b)CasY多肽、CasY指导RNA和DNA供体模板;
c)CasY融合多肽和CasY指导RNA;
d)CasY融合多肽、CasY指导RNA和DNA供体模板;
e)编码CasY多肽的mRNA和CasY指导RNA;
f)编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板;
g)编码CasY融合多肽的mRNA和CasY指导RNA;
h)编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板;
i)一种或多种重组表达载体,其包含:i)编码CasY多肽的核苷酸序列,和ii)编码CasY指导RNA的核苷酸序列;
j)一种或多种重组表达载体,其包含:i)编码CasY多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,其包含:i)编码CasY融合多肽的核苷酸序列,和ii)编码CasY指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,其包含:i)编码CasY融合多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列,和DNA供体模板。
110.如109所述的CasY系统,其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50%或更高的氨基酸序列同一性的氨基酸序列。
111.如109所述的CasY系统,其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85%或更高的氨基酸序列同一性的氨基酸序列。
112.如109-111中任一项所述的CasY系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
113.如109-111中任一项所述的CasY系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
114.一种试剂盒,其包含如109-113中任一项所述的CasY系统。
115.如114所述的试剂盒,其中所述试剂盒的组分在同一容器中。
116.如114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
117.一种无菌容器,其包含如109-116中任一项所述的CasY系统。
118.如117所述的无菌容器,其中所述容器是注射器。
119.一种可植入装置,其包含如109-116中任一项所述的CasY系统。
120.如119所述的可植入装置,其中所述CasY系统在基质内。
121.如119所述的可植入装置,其中所述CasY系统在储库中。
122.一种鉴定CRISPR RNA指导的内切核酸酶的方法,所述方法包括:
在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列;
检测所述编码Cas1的核苷酸序列附近的CRISPR阵列;
将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体;
测定所述重组CRISPR基因座表达载体的切割靶核酸的能力,其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPR RNA指导的内切核酸酶的核苷酸序列。
在所述CRISPR基因座中鉴定编码多肽的开放阅读框,所述多肽与已知的CRISPRRNA指导的内切核酸酶多肽的氨基酸序列具有小于20%的氨基酸序列同一性。
123.如122所述的方法,其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。
实施例
提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述,并且并非意图限制本发明人看待其发明的范围,也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值(例如量、温度等)的精确性,但一些实验误差和偏差应加以说明。除非另外指示,否则份为重量份,分子量为重均分子量,温度以摄氏度计,并且压力在大气压下或接近大气压。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌内的(肌内地);i.p.,腹膜内的(腹膜内地);s.c.,皮下的(皮下地)等。
实施例1
本文所述的工作包括分析来自地下水、沉积物和酸性矿山排水的微生物群落的宏基因组样品。鉴定了在培养生物体中未表示的新的2类CRISPR-Cas系统。
图3.CasY结构域和相似性检索。(图a)从使用HHpred的与AcCpf1的远同源性比对中推断的CasY的示意性结构域表示。保守的催化残基用蛋白质上方的红色条标记。CasY含有在C末端区域的分开的RuvC结构域(RuvC-I、RuvC-II和RuvC-III),并且含有大的新型N末端结构域。在示意图下方示出基于以下检索的最高命中:(1)BLAST检索NCBI(NR数据库,包括模型和环境蛋白质)中的所有蛋白质。(2)基于使用所有Cas蛋白构建的模型的序型隐马尔科夫模型(HMM)检索,在Makarova等人Nat Rev Microbiol.2015年11月;13(11):722-36以及Shmakov等人Mol Cell.2015年11月5日;60(3):385-97)中所述。(3)基于HHpred的远同源性检索。命中基于其重要性进行颜色编码,并提供命中范围和E值。值得注意的是,CasY只有局部命中。CasY的812个N末端氨基酸仅具有一个非常微小的局部命中。结合起来,这些发现指示CasY是一种新的Cas蛋白。(图b)由序列数据构建不同的含CasY的CRISPR基因座支架。
实施例2
图4.CasY和C2c3基因座图的示意图。干扰蛋白以绿色示出,获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出,揭示在5'末端处的强发夹,从而表明CRISPR阵列通过CasY进行自我加工.。
图5(图a至图d)CasY的PAM依赖性质粒干扰。(图a)用CasY进行PAM缺失测定。用具有靶序列5'或3'端随机化的7个核苷酸的质粒文库转化含有CasY CRISPR基因座的大肠杆菌。选择靶质粒并合并转化体。扩增随机区域并准备用于深度测序。鉴定缺失的序列并用于生成PAM标识。(图b)CasY.1的生成的PAM标识示出对含有靶标5'端的5’-TA-3’侧翼序列的序列的强烈偏好。未检测到3’PAM。(图c)直接测定四种不同的PAM以验证由PAM缺失测定确定的PAM。(图d)CasY.2的生成的PAM标识示出对含有靶标5’端的5’-YR-3’和/或5’-TR-3’(例如,5’-DTR-3’)(分别为较低阈值和较高阈值)侧翼序列的偏好(其中Y是T或C;R是A或G;并且D是A、G或T)。未检测到3’PAM。
图6.(图a)来自天然存在的CasY指导RNA的‘重复'序列(针对CasY基因座Y1-Y6)。(图b)CasY RNA指导的DNA切割图。CasY蛋白与重复序列区域中的crRNA(CasY指导RNA)结合(黑色,重复序列;红色,间隔序列)。指导RNA的指导序列与含有正确的原间隔序列相邻基序(PAM)的靶序列(蓝色)的碱基配对导致靶DNA的双链切割。
实施例3:来自非培养微生物的新CRISPR-Cas系统
CRISPR-Cas适应性免疫系统通过提供能够进行位点特异性DNA切割的可编程酶,彻底变革了基因组工程。然而,当前的CRISPR-Cas技术仅基于来自培养的细菌的系统,而使得来自未被分离的生物体的绝大多数酶处于尚未开发状态。本文提供的数据示出,使用不依赖于培养的基因组解析的宏基因组学,鉴定新的CRISPR-Cas系统,包括在古细菌生物域中首次报道的Cas9。这种不同的Cas9酶在研究很少的纳米古细菌中作为活性CRISPR-Cas系统的一部分被发现。在细菌中,发现了两个先前未知的系统,CRISPR-CasX和CRISPR-CasY,它们属于目前鉴定的最简化的系统。值得注意的是,所有需要的功能性组分都是通过宏基因组学鉴定的,这允许在大肠杆菌中验证稳健的RNA指导的DNA干扰活性。本文的数据示出,环境微生物群落的查询与活细胞中的实验组合,能够获得前所未有的基因组多样性,所述基因组的内容将扩展基于微生物的生物技术的所有组成部分。
结果
分析了来自地下水、沉积物和酸性矿山排水微生物群落的兆级别(Terabase-scale)宏基因组数据集,寻找未在培养生物体中表示的2类CRISPR-Cas系统。鉴定了古细菌域中的第一种Cas9蛋白,并且在非培养细菌中发现了两种新的CRISPR-Cas系统,CRISPR-CasX和CRISPR-CasY(图7)。值得注意的是,古细菌Cas9和CasY两者都是仅在来自没有已知的分离代表的谱系的生物体的基因组中编码的。
首次鉴定古细菌Cas9
CRISPR-Cas9的特征之一是假定其仅存在于细菌域中。因此,在酸性矿山排水(AMD)宏基因组数据集中发现在纳米古细菌ARMAN-1(Candidatus Micrarchaeumacidiphilum ARMAN-1)和ARMAN-4(Candidatus Parvarchaeum acidiphilum ARMAN-4)的基因组中编码的Cas9蛋白是令人惊讶的。这些发现将含Cas9的CRISPR系统的出现扩展到另一个生物域。
ARMAN-4cas9基因在相同基因组环境中的16个不同样品中被发现,但没有其他相邻的cas基因(尽管位于若干个DNA序列重叠群>25kbp的中心),并且只有一个相邻的CRISPR重复序列-间隔序列单元(图13)。缺乏典型的CRISPR阵列和编码通用CRISPR整合酶的cas1,指出了无法获得新间隔序列的系统。没有鉴定间隔序列的靶标,但考虑到基因座在若干年内采集的样品中的保守性,此时不能排除基因座在“单靶标”CRISPR-Cas系统中的功能。
相反,从15个不同样品中回收的ARMAN-1中的CRISPR-Cas基因座包括与cas1、cas2、cas4和cas9基因相邻的大型CRISPR阵列。重建了许多替代的ARMAN-1CRISPR阵列,其具有很大程度保守的末端(可能由最老的间隔序列组成)和其中已经并入许多不同的间隔序列的可变区域(图8a和图14)。基于间隔序列内容的这种高变性,这些数据示出了ARMAN-1CRISPR-Cas9系统在取样群体中是有活性的。
值得注意的是,ARMAN-1CRISPR-Cas9系统中56个推定的间隔序列靶标(原间隔序列)位于单个10kbp的基因组片段上,所述片段很可能是ARMAN-1病毒,因为它编码高密度的短假定蛋白(图8b)。实际上,低温电子断层扫描重建通常鉴定附着到ARMAN细胞的病毒颗粒。ARMAN-1原间隔序列也衍生自ARMAN-2(另一种纳米古细菌)基因组中的推定转座子和热源体目古细菌基因组中的推定可动元件,其包括来自同一生态系统的I-plasma的可动元件(图15)。在ARMAN与热源体目细胞之间观察到直接的细胞质“桥”,这意味着它们之间存在密切关系。因此,ARMAN-1CRISPR-Cas9可防御这些生物体之间的转座子传播,这一作用使人联想到piRNA介导的对真核生殖系中的转座的防御。
活性DNA靶向CRISPR-Cas系统使用位于靶序列之后的2至4bp原间隔序列相邻基序(PAM)来区分自身与非自身。检查与基因组靶序列相邻的序列确实在ARMAN-1中揭示出强烈的‘NGG’PAM偏好(图8c)。Cas9还使用两种单独的转录物,CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA),用于RNA指导的DNA切割。在ARMAN-1和ARMAN-4CRISPR-Cas9系统二者附近鉴定出推定tracrRNA(图16)。先前,有人提出II型CRISPR系统由于缺乏宿主因子RNA酶III而不存在于古细菌中,RNA酶III负责crRNA-tracrRNA指导复合物的成熟。值得注意的是,在ARMAN-1基因组中未鉴定出RNA酶III同源物(估计完成率为95%),并且未预测出CRISPR阵列的内部启动子,这表明了尚未确定的指导RNA的产生机制。测试从大肠杆菌和酵母二者中纯化的ARMAN-1和ARMAN-4Cas9蛋白的切割活性的生化实验以及体内大肠杆菌靶向测定未揭示出任何可检测的活性(参见图21和图17)。
CRISPR-CasX是一种新的双RNA指导的CRISPR系统
除Cas9之外,仅发现并通过实验验证了三个2类Cas效应蛋白家族:Cpf1、C2c1和C2c2。已经提出了另一种仅在小DNA片段上鉴定的基因c2c3,其也编码这种蛋白质家族。在地下水和沉积物样品中反复回收的两种细菌的基因组中发现了一种新类型的2类CRISPR-Cas系统。此系统在属于不同门(δ变形菌门和浮霉菌门)的两种生物体中的高度保守性表明最近的跨门转移。这种新描述的系统包括Cas1、Cas2、Cas4和未表征的~980aa蛋白质,其在本文中称为CasX。与每个CasX相关联的CRISPR阵列具有高度相似的37个碱基对的重复序列、33-34个碱基对的间隔序列以及Cas操纵子与CRISPR阵列之间的推定tracrRNA(图7b)。BLAST检索仅揭示出与转座酶的弱相似性(e值>1×10-4),其中相似性限于CasX C末端的特定区域。远同源性检测和蛋白质建模鉴定了CasX C末端附近的RuvC结构域,其结构使人联想到V型CRISPR-Cas系统中发现的结构(图18)。CasX蛋白的其余部分(630个N末端氨基酸)与任何已知蛋白质均未示出可检测的相似性,这表明这是一种新型2类效应物。tracrRNA和单独的Cas1、Cas2和Cas4蛋白的组合在V型系统中是独特的。此外,CasX比任何已知的V型蛋白小得多:980个aa,与Cpf1、C2c1和C2c3的大于1,200个aa的典型尺寸相比。
接下来,人们想知道,尽管CasX具有较小的尺寸和非经典的基因座内容,但CasX能够进行类似于Cas9和Cpf1酶的RNA指导的DNA靶向。为了测试这种可能性,合成了编码最小CRISPR-CasX基因座的质粒,其包括casX、短重复序列-间隔序列阵列和插入的非编码区。当在大肠杆菌中表达时,这种最小基因座阻断了带有通过宏基因组分析鉴定的靶序列的质粒的转化(图9a至图9c、图19)。此外,仅在微型基因座中的间隔序列与质粒靶标中的原间隔序列匹配时才发生转化干扰。为了鉴定CasX的PAM序列,使用含有与靶位点相邻的5′或3′随机化序列的质粒在大肠杆菌中重复转化测定。此分析揭示出对直接位于原间隔序列的5′端的序列‘TTCN’的严格偏好(图9d)。未观察到3′PAM偏好(图19)。与此发现一致,‘TTCA’是在环境样品中鉴定的推定δ变形菌门CRISPR-CasX原间隔序列的上游发现的序列。值得注意的是,两个CRISPR-CasX基因座共享相同的PAM序列,与它们高度的CasX蛋白同源性一致。
在V型CRISPR基因座中存在单RNA和双RNA指导系统的实例。环境宏转录组数据用于确定CasX是否需要用于DNA靶向活性的tracrRNA。此分析揭示出,具有与CRISPR重复序列互补的序列的非编码RNA转录物在Cas2开放阅读框与CRISPR阵列之间编码(图10)。转录组学图谱还表明CRISPR RNA(crRNA)被加工成包括22个nt的重复序列和20个nt的相邻间隔序列,与CRISPR-Cas9系统中发生的crRNA加工相似(图10a)。此外,鉴定出2个nt的3′突出端,与RNA酶III介导的crRNA-tracrRNA双链体加工一致(图10b)。为了确定CasX活性对推定tracrRNA的依赖性,从上述最小的CRISPR-CasX基因座中删除此区域,并重复质粒干扰测定。从CasX质粒中删除推定tracrRNA编码序列消除了在其存在下观察到的稳健转化干扰(图10c)。总之,这些结果将CasX建立为新的功能性DNA靶向的双RNA指导的CRISPR酶。
CRISPR-CasY,一种仅在缺乏分离株的细菌谱系中发现的系统鉴定了在某些潜在门类辐射(CPR)细菌的基因组中编码的另一种新的2类Cas蛋白。这些细菌通常具有较小的细胞尺寸(基于低温TEM数据和通过过滤的富集)、非常小的基因组和有限的生物合成能力,这指示它们最可能是共生体。新的~1,200个aa的Cas蛋白,在本文中称为CasY,似乎是最小CRISPR-Cas系统的一部分,所述最小CRISPR-Cas系统至多包括Cas1和CRISPR阵列(图11a)。大多数CRISPR阵列具有17-19个nt的非常短的间隔序列,但是缺少Cas1的一个系统(CasY.5)具有更长的间隔序列(27-29个nt)。鉴定的CasY蛋白的六个实例与公共数据库中的任何蛋白质没有显著的序列相似性。使用由已公布的Cas蛋白3,4构建的序型模型(HMM)的敏感检索指示,六个CasY蛋白中的四个与C2c3在与RuvC结构域重叠的C末端区域和N末端的小区域(~45个aa)中具有局部相似性(e值为4×10-11–3×10-18)(参见图18)。C2c3是推定的V型Cas效应物,其在短重叠群上鉴定,没有分类学从属关系,并且尚未通过实验验证。与CasY一样,C2c3被发现位于阵列之后,所述阵列具有短间隔序列和Cas1,但没有其他Cas蛋白。值得注意的是,尽管与其他CasY蛋白共享显著的序列相似性(最佳Blast命中:e值为6×10-85、7×10-75),但在本研究中鉴定的两种CasY蛋白与C2c3没有显著的相似性。
鉴于CRISPR-CasY与任何经实验验证的CRISPR基因座的低同源性,接下来想知道此系统是否赋予RNA指导的DNA干扰,但由于间隔序列长度短,不存在关于针对此类活性可能需要的可能PAM基序的可靠信息。为解决此问题,用缩短的CRISPR阵列合成整个CRISPR-CasY.1基因座,并在质粒载体上将所述基因座引入大肠杆菌中。然后使用靶质粒在转化测定中攻击这些细胞,所述靶质粒具有与阵列中的间隔序列匹配的序列,并且所述序列含有相邻的随机化5′或3′区域,以鉴定可能的PAM。对转化体的分析揭示了含有与靶向序列直接相邻的5′TA的序列的缺失(图11b)。使用此鉴定的PAM序列,针对含有单个PAM的质粒测试CasY.1基因座。仅在含有鉴定的5′TA PAM序列的靶标存在下证明了质粒干扰(图11c)。因此,这些数据示出,CRISPR-CasY具有DNA干扰活性。
讨论
鉴定并表征来自非培养细菌和古细菌的基因组中的新的2类CRISPR-Cas适应性免疫系统。Cas1(图12a)的进化分析(其对于活性CRISPR基因座是通用的)表明,在此所述的古细菌Cas9系统不明显属于任何现有的II型亚型。Cas1系统发育(以及cas4的存在)将其与II-B型系统聚类到一起,但Cas9的序列更类似于II-C型蛋白(图20)。因此,古细菌II型系统可作为II-C和II-B型系统的融合体出现(图12b)。同样,Cas1系统发育分析指示来自CRISPR-CasX系统的Cas1远离任何其他已知的V型系统。V型系统已表明是转座子与来自原始I型系统的适配模块(Cas1–Cas2)的融合的结果。因此假设CRISPR-CasX系统在与产生前述V型系统的事件不同的融合事件之后出现。引人注目的是,CRISPR-CasY和推定C2c3系统两者似乎都缺乏Cas2,其是一种被认为对于将DNA整合到CRISPR基因座中必需的蛋白质。鉴于所有CRISPR-Cas系统都被认为是含有Cas1和Cas2二者的原始I型系统的后代,CRISPR-CasY和C2c3系统可能具有与其他CRISPR-Cas系统不同的祖先,或者可替代地,Cas2可能在其进化历史中丢失了。
本文所述的古细菌中的Cas9和细菌中的两个先前未知的CRISPR-Cas系统的发现使用了从复杂的天然微生物群落获得的大量的DNA和RNA序列数据集。在CasX和CasY的情况下,基因组内容对于从未组装的序列信息中预测不明显的功能是至关重要的。此外,通过分析宏基因组数据指导的功能测试,发现了推定tracrRNA的鉴定以及靶向病毒序列。有趣的是,迄今鉴定的一些最紧凑的CRISPR-Cas基因座是在具有非常小的基因组的生物体中发现的。小基因组尺寸的结果是这些生物体出于基本代谢需求可能依赖于其他群落成员,并且因此它们基本上仍然在传统的基于培养的方法的范围之外。干扰所需的蛋白质的有限数量使得这些最小系统对于开发新的基因组编辑工具特别有价值。重要的是,本文示出,与CRISPR-Cas系统相关的宏基因组发现不限于计算机模拟观察,而是可被引入可测试其功能的实验环境中。鉴于几乎所有存在生命的环境现在都可通过基因组解析的宏基因组方法进行探测,预计本文所述的组合计算机实验方法将极大地扩展已知CRISPR-Cas系统的多样性,从而提供生物研究和临床应用的新技术。
方法
宏基因组学和宏转录组学
分析了来自三个不同地点的宏基因组样品:(1)在2006年与2010年之间从Richmond Mine,Iron Mountain,California采集的酸性矿山排水(AMD)样品,(2)在2007年与2013年之间从毗邻Rifle,Colorado附近的Colorado River的Rifle Integrated FieldResearch(IFRC)地点采集的地下水和沉积物样品。(3)在2009年和2014年从位于犹他州科罗拉多高原的冷CO2驱动的间歇泉Crystal Geyser采集的地下水。
对于AMD数据,Denef和Banfield(2012)以及Miller等人(2011)报道了DNA提取方法和短读测序。对于Rifle数据,Anantharaman等人(2016)和Brown等人(2015)描述了DNA和RNA提取以及测序、组装和重建的基因组。对于来自Crystal Geyser的样品,方法遵循Probst等人(2016)和Emerson等人(2015)描述的那些方法。简而言之,使用PowerSoil DNA分离试剂盒(MoBio Laboratories Inc.,Carlsbad,CA,USA)从样品中提取DNA。如Brown等人(2015)所述,从六个2011Rifle地下水样品中采集的0.2μm滤液中提取RNA。在IlluminaHiSeq2000平台上对DNA进行测序,并在5500XL SOLiD平台上对宏转录组cDNA进行测序。对于新报道的Crystal Geyser数据和AMD数据的再分析,使用IDBA-UD组装序列。使用Bowtie2进行DNA和RNA(cDNA)读取映射,其分别用于确定测序覆盖度和基因表达。使用Prodigal在组装的支架上预测开放阅读框(ORF)。使用涌现自组织映射(ESOM),使用ABAWACA、ABAWACA2(https://github.com/CK7)Maxbin2和四核苷酸频率的组合,基于差异覆盖丰度模式对来自Crystal Geyser数据集的支架进行分级。使用%GC含量、分类学从属关系和基因组完整性手动整理基因组。使用ra2.py(https://github.com/christophertbrown)校正支架错误。
CRISPR-Cas计算分析
使用隐马尔科夫模型(HMM)序型扫描来自各种样品的组装重叠群的已知Cas蛋白,所述序型使用HMMer套件基于Makarova等人和Shmakov等人的比对来构建。使用CrisprFinder软件的本地版本鉴定CRISPR阵列。如果与cas1基因相邻的10个ORF中的一个编码大于800个aa的未表征蛋白,并且在相同重叠群上未鉴定出已知的cas干扰基因,则进一步分析包含Cas1和CRISPR阵列两者的基因座。将这些大蛋白质作为潜在的2类Cas效应物进一步分析。基于使用MCL的序列相似性,将潜在的效应物聚类到蛋白质家族。通过构建代表这些家族中的每一个的HMM并使用它们在宏基因组数据集中检索相似的Cas蛋白,来扩展这些蛋白质家族。为了确保蛋白质家族确实是新的,使用针对NCBI的非冗余(nr)和宏基因组(env_nr)蛋白质数据库的BLAST以及针对UniProt知识库的HMM检索来检索已知同源物。只有没有全长命中的蛋白质(>蛋白质长度的25%)才被认为是新型蛋白质。使用来自HH-套件(HH-suite)的HHpred进行推定的Cas蛋白的远同源性检索。基于与解析的晶体结构的比较以及由JPred4预测的二级结构,使用高分HHpred命中来推断结构域架构。HMM数据库,包括新发现的Cas蛋白,可见于补充数据1。
使用CrisprFinder由组装的数据确定间隔序列。CRASS用于在相关样品的短DNA读取中定位另外的间隔序列。然后通过针对与间隔序列具有≤1个错配的命中的相关宏基因组组装的BLAST检索(使用“-task blastn-short”)鉴定间隔序列靶标(原间隔序列)。将属于含有相关重复序列的重叠群的命中过滤掉(以避免将CRISPR阵列鉴定为原间隔序列)。通过比对侧接原间隔序列的区域并使用WebLogo可视化来鉴定原间隔序列相邻基序(PAM)。使用mFold预测RNA结构。通过手动比对来自组装数据的间隔序列、重复序列和侧翼序列来分析CRISPR阵列多样性。使用Geneious 9.1进行手动比对和重叠群可视化。
对于新鉴定的系统的Cas1和Cas9蛋白的系统发育分析,与来自Makarova等人和Shmakov等人的蛋白质一起使用。通过使用CD-HIT将具有≥90%同一性的蛋白质聚类在一起来编译非冗余组。使用MAFFT生成比对,并且使用以PROTGAMMALG作为替代模型的RAxML和100个自举取样构建最大似然系统发育。Cas1树使用通向casposons的分支做根。使用FigTree 1.4.1(http://tree.bio.ed.ac.uk/software/figtree/)和iTOL v3对树进行可视化。
生成异源质粒
通过去除与CasX的获得相关联的蛋白质并减小CasX和CasY二者的CRISPR阵列的大小,将宏基因组重叠群制成最小CRISPR干扰质粒。最小基因座合成为Gblocks(Integrated DNA Technology)并使用Gibson组装进行组装。
PAM缺失测定
如前所述,经过修改进行PAM缺失测定。将含有随机化PAM序列的质粒文库通过用引物对含有具有7个nt的随机化PAM区的靶标的DNA寡核苷酸进行退火来组装,并用Klenow片段(NEB)来延伸。将双链DNA用EcoRI和NcoI消化,并连接到pUC19骨架中。将连接的文库转化到DH5α中,并且收获>108个细胞,并且提取并纯化所述质粒。将200ng合并的文库转化到携带CRISPR基因座或没有基因座的对照质粒的电感受态大肠杆菌中。在25℃下将转化的细胞铺板在含有羧苄青霉素(100mg L-1)和氯霉素(30mg L-1)的选择性培养基上30小时。提取质粒DNA,并用衔接子扩增PAM序列以用于Illumina测序。提取7个nt的PAM区并计算每个7个nt序列的PAM频率。使用缺失高于指定阈值的PAM序列来生成WebLogo。
质粒干扰
将从宏基因组序列分析或PAM缺失测定中鉴定的推定靶标克隆到pUC19质粒中。将10ng靶质粒转化到含有CRISPR基因座质粒的电感受态大肠杆菌(NEB稳定的)中。将细胞在25℃下恢复2小时,并将适当的稀释液铺板在选择性培养基上。将平板在25℃下孵育,并计数菌落形成单位。所有的质粒干扰实验一式三份进行,并且每个平行测定独立制备电感受态细胞。
ARMAN-Cas9蛋白表达和纯化
来自ARMAN-1(AR1)和ARMAN-4(AR4)的Cas9的表达构建体由对大肠杆菌进行密码子优化的gBlocks(Integrated DNA Technologies)组装而成。将组装的基因克隆到基于pET的表达载体中,作为N末端His6-MBP或His6融合蛋白。将表达载体转化到BL21(DE3)大肠杆菌细胞中,并在37℃下在LB肉汤中生长。对于蛋白质表达,将细胞在对数中期期间用0.4mM IPTG(异丙基β-D-1-硫代吡喃半乳糖苷)诱导,并在16℃下孵育过夜。所有后续步骤均在4℃下进行。将细胞沉淀重悬于裂解缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mMTCEP、10mM咪唑)0.5%Triton X-100中并补充有完全蛋白酶抑制剂混合物(Roche),然后通过超声处理裂解。将裂解液通过在15000g下离心40分钟澄清,并分批施加到Superflow Ni-NTA琼脂糖(Qiagen)。将树脂用洗涤缓冲液A(50mM Tris-HCl pH8、500mM NaCl、1mM TCEP、10mM咪唑)充分洗涤,然后用5倍柱体积的洗涤缓冲液B(50mM Tris-HCl pH 8、1M NaCl、1mMTCEP、10mM咪唑)洗涤。用洗脱缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mM TCEP、300mM咪唑)从Ni-NTA树脂上洗脱蛋白质。在针对洗涤缓冲液A过夜透析期间,通过TEV蛋白酶除去His6-MBP标签。通过第二个Ni-NTA琼脂糖柱从亲和标签上取出切割的Cas9。将蛋白质透析到IEX缓冲液A(50mM Tris-HCl pH 7.5、300mM NaCl、1mM TCEP、5%甘油)中,然后施加到5mL肝素HiTrap柱(GE Life Sciences)。以线性NaCl(0.3-1.5M)梯度洗脱Cas9。将级分合并并用30kDa旋转浓缩器(Thermo Fisher)进行浓缩。适用时,将Cas9在Superdex 200pg柱(GELife Sciences)上通过尺寸排阻色谱法进一步纯化,并储存在IEX缓冲液A中以用于随后的切割测定。对于酵母表达,将AR1-Cas9克隆到Gal1/10His6-MBP TEV Ura酿酒酵母表达载体(Addgene质粒#48305)中。将载体转化到BY4741 URA3菌株中,并使培养物在30℃下在培养基中生长。在~0.6的OD600下,用2%w/v半乳糖诱导蛋白质表达,并在16℃下孵育过夜。如上进行蛋白质纯化。
RNA体外转录和寡核苷酸纯化
如前所述65,使用含有T7启动子序列的合成DNA模板进行体外转录反应。通过变性PAGE纯化所有体外转录的指导RNA和靶RNA或DNA。通过在95℃孵育1分钟,将双链靶RNA和DNA在20mM Tris HCl pH 7.5和100mM NaCl中杂交,然后缓慢冷却至室温。通过天然PAGE纯化杂交体。
体外切割测定
使用T4多核苷酸激酶(NEB)和[γ-32P]ATP(Perkin-Elmer)将纯化的DNA和RNA寡核苷酸在1x PNK缓冲液中在37℃下进行放射标记30分钟。将PNK在65℃下加热灭活20分钟,并使用illustra Microspin G-25柱(GE Life Sciences)从标记反应中去除游离ATP。将CrRNA和tracrRNA以等摩尔量在1x重折叠缓冲液(50mM Tris HCl pH 7.5、300mM NaCl、1mMTCEP、5%甘油)中混合,并在70℃下孵育5分钟,并且然后缓慢冷却至室温。将反应补充至1mM最终金属浓度,并且随后在50℃下加热5分钟。缓慢冷却至室温后,将重折叠的指导物置于冰上。除非针对缓冲液、盐浓度说明,否则将Cas9与等摩尔量的指导物在37℃下在1x切割缓冲液(50mM Tris HCl pH7.5、300mM NaCl、1mM TCEP、5%甘油、5mM二价金属)中重构10分钟。切割反应在具有放射标记的靶标的10x过量Cas9指导复合物的1x切割缓冲液中在37℃或指定温度下进行。在等体积的补充有50mM EDTA的凝胶上样缓冲液中淬灭反应。将切割产物在10%变性PAGE上分离并通过磷光成像可视化。
体内大肠杆菌干扰测定
如先前公布的66,进行AR1-Cas9和AR4-Cas9的大肠杆菌转化测定。简而言之,用指导RNA转化的大肠杆菌被制成电感受态。然后用9fmol编码野生型或无催化活性的Cas9(dCas9)的质粒转化细胞。将稀释系列的恢复细胞铺板在具有选择性抗生素的LB平板上。在37℃下16小时后对菌落进行计数。
表1.有关鉴定CRISPR-Cas系统的生物体和基因组位置的详细信息,以及重建间隔序列的数量和平均长度和重复序列长度的信息(NA,不可用)。由16个样品重建ARMAN-1间隔序列。
虽然本发明已经参考其特定实施方案进行描述,但是本领域技术人员应理解,可在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外,为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围,可进行许多修改。所有此类修改意图处于所附权利要求的范围内。
序列表
<110> Doudna, Jennifer A
Burstein, David
Banfield, Jillian F
Harrington, Lucas B
<120> RNA指导的核酸修饰酶及其使用方法
<130> BERK-343WO
<150> US 62/402,849
<151> 2016-09-30
<160> 134
<170> PatentIn 3.5版
<210> 1
<211> 1125
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 1
Met Arg Lys Lys Leu Phe Lys Gly Tyr Ile Leu His Asn Lys Arg Leu
1 5 10 15
Val Tyr Thr Gly Lys Ala Ala Ile Arg Ser Ile Lys Tyr Pro Leu Val
20 25 30
Ala Pro Asn Lys Thr Ala Leu Asn Asn Leu Ser Glu Lys Ile Ile Tyr
35 40 45
Asp Tyr Glu His Leu Phe Gly Pro Leu Asn Val Ala Ser Tyr Ala Arg
50 55 60
Asn Ser Asn Arg Tyr Ser Leu Val Asp Phe Trp Ile Asp Ser Leu Arg
65 70 75 80
Ala Gly Val Ile Trp Gln Ser Lys Ser Thr Ser Leu Ile Asp Leu Ile
85 90 95
Ser Lys Leu Glu Gly Ser Lys Ser Pro Ser Glu Lys Ile Phe Glu Gln
100 105 110
Ile Asp Phe Glu Leu Lys Asn Lys Leu Asp Lys Glu Gln Phe Lys Asp
115 120 125
Ile Ile Leu Leu Asn Thr Gly Ile Arg Ser Ser Ser Asn Val Arg Ser
130 135 140
Leu Arg Gly Arg Phe Leu Lys Cys Phe Lys Glu Glu Phe Arg Asp Thr
145 150 155 160
Glu Glu Val Ile Ala Cys Val Asp Lys Trp Ser Lys Asp Leu Ile Val
165 170 175
Glu Gly Lys Ser Ile Leu Val Ser Lys Gln Phe Leu Tyr Trp Glu Glu
180 185 190
Glu Phe Gly Ile Lys Ile Phe Pro His Phe Lys Asp Asn His Asp Leu
195 200 205
Pro Lys Leu Thr Phe Phe Val Glu Pro Ser Leu Glu Phe Ser Pro His
210 215 220
Leu Pro Leu Ala Asn Cys Leu Glu Arg Leu Lys Lys Phe Asp Ile Ser
225 230 235 240
Arg Glu Ser Leu Leu Gly Leu Asp Asn Asn Phe Ser Ala Phe Ser Asn
245 250 255
Tyr Phe Asn Glu Leu Phe Asn Leu Leu Ser Arg Gly Glu Ile Lys Lys
260 265 270
Ile Val Thr Ala Val Leu Ala Val Ser Lys Ser Trp Glu Asn Glu Pro
275 280 285
Glu Leu Glu Lys Arg Leu His Phe Leu Ser Glu Lys Ala Lys Leu Leu
290 295 300
Gly Tyr Pro Lys Leu Thr Ser Ser Trp Ala Asp Tyr Arg Met Ile Ile
305 310 315 320
Gly Gly Lys Ile Lys Ser Trp His Ser Asn Tyr Thr Glu Gln Leu Ile
325 330 335
Lys Val Arg Glu Asp Leu Lys Lys His Gln Ile Ala Leu Asp Lys Leu
340 345 350
Gln Glu Asp Leu Lys Lys Val Val Asp Ser Ser Leu Arg Glu Gln Ile
355 360 365
Glu Ala Gln Arg Glu Ala Leu Leu Pro Leu Leu Asp Thr Met Leu Lys
370 375 380
Glu Lys Asp Phe Ser Asp Asp Leu Glu Leu Tyr Arg Phe Ile Leu Ser
385 390 395 400
Asp Phe Lys Ser Leu Leu Asn Gly Ser Tyr Gln Arg Tyr Ile Gln Thr
405 410 415
Glu Glu Glu Arg Lys Glu Asp Arg Asp Val Thr Lys Lys Tyr Lys Asp
420 425 430
Leu Tyr Ser Asn Leu Arg Asn Ile Pro Arg Phe Phe Gly Glu Ser Lys
435 440 445
Lys Glu Gln Phe Asn Lys Phe Ile Asn Lys Ser Leu Pro Thr Ile Asp
450 455 460
Val Gly Leu Lys Ile Leu Glu Asp Ile Arg Asn Ala Leu Glu Thr Val
465 470 475 480
Ser Val Arg Lys Pro Pro Ser Ile Thr Glu Glu Tyr Val Thr Lys Gln
485 490 495
Leu Glu Lys Leu Ser Arg Lys Tyr Lys Ile Asn Ala Phe Asn Ser Asn
500 505 510
Arg Phe Lys Gln Ile Thr Glu Gln Val Leu Arg Lys Tyr Asn Asn Gly
515 520 525
Glu Leu Pro Lys Ile Ser Glu Val Phe Tyr Arg Tyr Pro Arg Glu Ser
530 535 540
His Val Ala Ile Arg Ile Leu Pro Val Lys Ile Ser Asn Pro Arg Lys
545 550 555 560
Asp Ile Ser Tyr Leu Leu Asp Lys Tyr Gln Ile Ser Pro Asp Trp Lys
565 570 575
Asn Ser Asn Pro Gly Glu Val Val Asp Leu Ile Glu Ile Tyr Lys Leu
580 585 590
Thr Leu Gly Trp Leu Leu Ser Cys Asn Lys Asp Phe Ser Met Asp Phe
595 600 605
Ser Ser Tyr Asp Leu Lys Leu Phe Pro Glu Ala Ala Ser Leu Ile Lys
610 615 620
Asn Phe Gly Ser Cys Leu Ser Gly Tyr Tyr Leu Ser Lys Met Ile Phe
625 630 635 640
Asn Cys Ile Thr Ser Glu Ile Lys Gly Met Ile Thr Leu Tyr Thr Arg
645 650 655
Asp Lys Phe Val Val Arg Tyr Val Thr Gln Met Ile Gly Ser Asn Gln
660 665 670
Lys Phe Pro Leu Leu Cys Leu Val Gly Glu Lys Gln Thr Lys Asn Phe
675 680 685
Ser Arg Asn Trp Gly Val Leu Ile Glu Glu Lys Gly Asp Leu Gly Glu
690 695 700
Glu Lys Asn Gln Glu Lys Cys Leu Ile Phe Lys Asp Lys Thr Asp Phe
705 710 715 720
Ala Lys Ala Lys Glu Val Glu Ile Phe Lys Asn Asn Ile Trp Arg Ile
725 730 735
Arg Thr Ser Lys Tyr Gln Ile Gln Phe Leu Asn Arg Leu Phe Lys Lys
740 745 750
Thr Lys Glu Trp Asp Leu Met Asn Leu Val Leu Ser Glu Pro Ser Leu
755 760 765
Val Leu Glu Glu Glu Trp Gly Val Ser Trp Asp Lys Asp Lys Leu Leu
770 775 780
Pro Leu Leu Lys Lys Glu Lys Ser Cys Glu Glu Arg Leu Tyr Tyr Ser
785 790 795 800
Leu Pro Leu Asn Leu Val Pro Ala Thr Asp Tyr Lys Glu Gln Ser Ala
805 810 815
Glu Ile Glu Gln Arg Asn Thr Tyr Leu Gly Leu Asp Val Gly Glu Phe
820 825 830
Gly Val Ala Tyr Ala Val Val Arg Ile Val Arg Asp Arg Ile Glu Leu
835 840 845
Leu Ser Trp Gly Phe Leu Lys Asp Pro Ala Leu Arg Lys Ile Arg Glu
850 855 860
Arg Val Gln Asp Met Lys Lys Lys Gln Val Met Ala Val Phe Ser Ser
865 870 875 880
Ser Ser Thr Ala Val Ala Arg Val Arg Glu Met Ala Ile His Ser Leu
885 890 895
Arg Asn Gln Ile His Ser Ile Ala Leu Ala Tyr Lys Ala Lys Ile Ile
900 905 910
Tyr Glu Ile Ser Ile Ser Asn Phe Glu Thr Gly Gly Asn Arg Met Ala
915 920 925
Lys Ile Tyr Arg Ser Ile Lys Val Ser Asp Val Tyr Arg Glu Ser Gly
930 935 940
Ala Asp Thr Leu Val Ser Glu Met Ile Trp Gly Lys Lys Asn Lys Gln
945 950 955 960
Met Gly Asn His Ile Ser Ser Tyr Ala Thr Ser Tyr Thr Cys Cys Asn
965 970 975
Cys Ala Arg Thr Pro Phe Glu Leu Val Ile Asp Asn Asp Lys Glu Tyr
980 985 990
Glu Lys Gly Gly Asp Glu Phe Ile Phe Asn Val Gly Asp Glu Lys Lys
995 1000 1005
Val Arg Gly Phe Leu Gln Lys Ser Leu Leu Gly Lys Thr Ile Lys
1010 1015 1020
Gly Lys Glu Val Leu Lys Ser Ile Lys Glu Tyr Ala Arg Pro Pro
1025 1030 1035
Ile Arg Glu Val Leu Leu Glu Gly Glu Asp Val Glu Gln Leu Leu
1040 1045 1050
Lys Arg Arg Gly Asn Ser Tyr Ile Tyr Arg Cys Pro Phe Cys Gly
1055 1060 1065
Tyr Lys Thr Asp Ala Asp Ile Gln Ala Ala Leu Asn Ile Ala Cys
1070 1075 1080
Arg Gly Tyr Ile Ser Asp Asn Ala Lys Asp Ala Val Lys Glu Gly
1085 1090 1095
Glu Arg Lys Leu Asp Tyr Ile Leu Glu Val Arg Lys Leu Trp Glu
1100 1105 1110
Lys Asn Gly Ala Val Leu Arg Ser Ala Lys Phe Leu
1115 1120 1125
<210> 2
<211> 1226
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 2
Met Gln Lys Val Arg Lys Thr Leu Ser Glu Val His Lys Asn Pro Tyr
1 5 10 15
Gly Thr Lys Val Arg Asn Ala Lys Thr Gly Tyr Ser Leu Gln Ile Glu
20 25 30
Arg Leu Ser Tyr Thr Gly Lys Glu Gly Met Arg Ser Phe Lys Ile Pro
35 40 45
Leu Glu Asn Lys Asn Lys Glu Val Phe Asp Glu Phe Val Lys Lys Ile
50 55 60
Arg Asn Asp Tyr Ile Ser Gln Val Gly Leu Leu Asn Leu Ser Asp Trp
65 70 75 80
Tyr Glu His Tyr Gln Glu Lys Gln Glu His Tyr Ser Leu Ala Asp Phe
85 90 95
Trp Leu Asp Ser Leu Arg Ala Gly Val Ile Phe Ala His Lys Glu Thr
100 105 110
Glu Ile Lys Asn Leu Ile Ser Lys Ile Arg Gly Asp Lys Ser Ile Val
115 120 125
Asp Lys Phe Asn Ala Ser Ile Lys Lys Lys His Ala Asp Leu Tyr Ala
130 135 140
Leu Val Asp Ile Lys Ala Leu Tyr Asp Phe Leu Thr Ser Asp Ala Arg
145 150 155 160
Arg Gly Leu Lys Thr Glu Glu Glu Phe Phe Asn Ser Lys Arg Asn Thr
165 170 175
Leu Phe Pro Lys Phe Arg Lys Lys Asp Asn Lys Ala Val Asp Leu Trp
180 185 190
Val Lys Lys Phe Ile Gly Leu Asp Asn Lys Asp Lys Leu Asn Phe Thr
195 200 205
Lys Lys Phe Ile Gly Phe Asp Pro Asn Pro Gln Ile Lys Tyr Asp His
210 215 220
Thr Phe Phe Phe His Gln Asp Ile Asn Phe Asp Leu Glu Arg Ile Thr
225 230 235 240
Thr Pro Lys Glu Leu Ile Ser Thr Tyr Lys Lys Phe Leu Gly Lys Asn
245 250 255
Lys Asp Leu Tyr Gly Ser Asp Glu Thr Thr Glu Asp Gln Leu Lys Met
260 265 270
Val Leu Gly Phe His Asn Asn His Gly Ala Phe Ser Lys Tyr Phe Asn
275 280 285
Ala Ser Leu Glu Ala Phe Arg Gly Arg Asp Asn Ser Leu Val Glu Gln
290 295 300
Ile Ile Asn Asn Ser Pro Tyr Trp Asn Ser His Arg Lys Glu Leu Glu
305 310 315 320
Lys Arg Ile Ile Phe Leu Gln Val Gln Ser Lys Lys Ile Lys Glu Thr
325 330 335
Glu Leu Gly Lys Pro His Glu Tyr Leu Ala Ser Phe Gly Gly Lys Phe
340 345 350
Glu Ser Trp Val Ser Asn Tyr Leu Arg Gln Glu Glu Glu Val Lys Arg
355 360 365
Gln Leu Phe Gly Tyr Glu Glu Asn Lys Lys Gly Gln Lys Lys Phe Ile
370 375 380
Val Gly Asn Lys Gln Glu Leu Asp Lys Ile Ile Arg Gly Thr Asp Glu
385 390 395 400
Tyr Glu Ile Lys Ala Ile Ser Lys Glu Thr Ile Gly Leu Thr Gln Lys
405 410 415
Cys Leu Lys Leu Leu Glu Gln Leu Lys Asp Ser Val Asp Asp Tyr Thr
420 425 430
Leu Ser Leu Tyr Arg Gln Leu Ile Val Glu Leu Arg Ile Arg Leu Asn
435 440 445
Val Glu Phe Gln Glu Thr Tyr Pro Glu Leu Ile Gly Lys Ser Glu Lys
450 455 460
Asp Lys Glu Lys Asp Ala Lys Asn Lys Arg Ala Asp Lys Arg Tyr Pro
465 470 475 480
Gln Ile Phe Lys Asp Ile Lys Leu Ile Pro Asn Phe Leu Gly Glu Thr
485 490 495
Lys Gln Met Val Tyr Lys Lys Phe Ile Arg Ser Ala Asp Ile Leu Tyr
500 505 510
Glu Gly Ile Asn Phe Ile Asp Gln Ile Asp Lys Gln Ile Thr Gln Asn
515 520 525
Leu Leu Pro Cys Phe Lys Asn Asp Lys Glu Arg Ile Glu Phe Thr Glu
530 535 540
Lys Gln Phe Glu Thr Leu Arg Arg Lys Tyr Tyr Leu Met Asn Ser Ser
545 550 555 560
Arg Phe His His Val Ile Glu Gly Ile Ile Asn Asn Arg Lys Leu Ile
565 570 575
Glu Met Lys Lys Arg Glu Asn Ser Glu Leu Lys Thr Phe Ser Asp Ser
580 585 590
Lys Phe Val Leu Ser Lys Leu Phe Leu Lys Lys Gly Lys Lys Tyr Glu
595 600 605
Asn Glu Val Tyr Tyr Thr Phe Tyr Ile Asn Pro Lys Ala Arg Asp Gln
610 615 620
Arg Arg Ile Lys Ile Val Leu Asp Ile Asn Gly Asn Asn Ser Val Gly
625 630 635 640
Ile Leu Gln Asp Leu Val Gln Lys Leu Lys Pro Lys Trp Asp Asp Ile
645 650 655
Ile Lys Lys Asn Asp Met Gly Glu Leu Ile Asp Ala Ile Glu Ile Glu
660 665 670
Lys Val Arg Leu Gly Ile Leu Ile Ala Leu Tyr Cys Glu His Lys Phe
675 680 685
Lys Ile Lys Lys Glu Leu Leu Ser Leu Asp Leu Phe Ala Ser Ala Tyr
690 695 700
Gln Tyr Leu Glu Leu Glu Asp Asp Pro Glu Glu Leu Ser Gly Thr Asn
705 710 715 720
Leu Gly Arg Phe Leu Gln Ser Leu Val Cys Ser Glu Ile Lys Gly Ala
725 730 735
Ile Asn Lys Ile Ser Arg Thr Glu Tyr Ile Glu Arg Tyr Thr Val Gln
740 745 750
Pro Met Asn Thr Glu Lys Asn Tyr Pro Leu Leu Ile Asn Lys Glu Gly
755 760 765
Lys Ala Thr Trp His Ile Ala Ala Lys Asp Asp Leu Ser Lys Lys Lys
770 775 780
Gly Gly Gly Thr Val Ala Met Asn Gln Lys Ile Gly Lys Asn Phe Phe
785 790 795 800
Gly Lys Gln Asp Tyr Lys Thr Val Phe Met Leu Gln Asp Lys Arg Phe
805 810 815
Asp Leu Leu Thr Ser Lys Tyr His Leu Gln Phe Leu Ser Lys Thr Leu
820 825 830
Asp Thr Gly Gly Gly Ser Trp Trp Lys Asn Lys Asn Ile Asp Leu Asn
835 840 845
Leu Ser Ser Tyr Ser Phe Ile Phe Glu Gln Lys Val Lys Val Glu Trp
850 855 860
Asp Leu Thr Asn Leu Asp His Pro Ile Lys Ile Lys Pro Ser Glu Asn
865 870 875 880
Ser Asp Asp Arg Arg Leu Phe Val Ser Ile Pro Phe Val Ile Lys Pro
885 890 895
Lys Gln Thr Lys Arg Lys Asp Leu Gln Thr Arg Val Asn Tyr Met Gly
900 905 910
Ile Asp Ile Gly Glu Tyr Gly Leu Ala Trp Thr Ile Ile Asn Ile Asp
915 920 925
Leu Lys Asn Lys Lys Ile Asn Lys Ile Ser Lys Gln Gly Phe Ile Tyr
930 935 940
Glu Pro Leu Thr His Lys Val Arg Asp Tyr Val Ala Thr Ile Lys Asp
945 950 955 960
Asn Gln Val Arg Gly Thr Phe Gly Met Pro Asp Thr Lys Leu Ala Arg
965 970 975
Leu Arg Glu Asn Ala Ile Thr Ser Leu Arg Asn Gln Val His Asp Ile
980 985 990
Ala Met Arg Tyr Asp Ala Lys Pro Val Tyr Glu Phe Glu Ile Ser Asn
995 1000 1005
Phe Glu Thr Gly Ser Asn Lys Val Lys Val Ile Tyr Asp Ser Val
1010 1015 1020
Lys Arg Ala Asp Ile Gly Arg Gly Gln Asn Asn Thr Glu Ala Asp
1025 1030 1035
Asn Thr Glu Val Asn Leu Val Trp Gly Lys Thr Ser Lys Gln Phe
1040 1045 1050
Gly Ser Gln Ile Gly Ala Tyr Ala Thr Ser Tyr Ile Cys Ser Phe
1055 1060 1065
Cys Gly Tyr Ser Pro Tyr Tyr Glu Phe Glu Asn Ser Lys Ser Gly
1070 1075 1080
Asp Glu Glu Gly Ala Arg Asp Asn Leu Tyr Gln Met Lys Lys Leu
1085 1090 1095
Ser Arg Pro Ser Leu Glu Asp Phe Leu Gln Gly Asn Pro Val Tyr
1100 1105 1110
Lys Thr Phe Arg Asp Phe Asp Lys Tyr Lys Asn Asp Gln Arg Leu
1115 1120 1125
Gln Lys Thr Gly Asp Lys Asp Gly Glu Trp Lys Thr His Arg Gly
1130 1135 1140
Asn Thr Ala Ile Tyr Ala Cys Gln Lys Cys Arg His Ile Ser Asp
1145 1150 1155
Ala Asp Ile Gln Ala Ser Tyr Trp Ile Ala Leu Lys Gln Val Val
1160 1165 1170
Arg Asp Phe Tyr Lys Asp Lys Glu Met Asp Gly Asp Leu Ile Gln
1175 1180 1185
Gly Asp Asn Lys Asp Lys Arg Lys Val Asn Glu Leu Asn Arg Leu
1190 1195 1200
Ile Gly Val His Lys Asp Val Pro Ile Ile Asn Lys Asn Leu Ile
1205 1210 1215
Thr Ser Leu Asp Ile Asn Leu Leu
1220 1225
<210> 3
<211> 1160
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 3
Met Lys Ala Lys Lys Ser Phe Tyr Asn Gln Lys Arg Lys Phe Gly Lys
1 5 10 15
Arg Gly Tyr Arg Leu His Asp Glu Arg Ile Ala Tyr Ser Gly Gly Ile
20 25 30
Gly Ser Met Arg Ser Ile Lys Tyr Glu Leu Lys Asp Ser Tyr Gly Ile
35 40 45
Ala Gly Leu Arg Asn Arg Ile Ala Asp Ala Thr Ile Ser Asp Asn Lys
50 55 60
Trp Leu Tyr Gly Asn Ile Asn Leu Asn Asp Tyr Leu Glu Trp Arg Ser
65 70 75 80
Ser Lys Thr Asp Lys Gln Ile Glu Asp Gly Asp Arg Glu Ser Ser Leu
85 90 95
Leu Gly Phe Trp Leu Glu Ala Leu Arg Leu Gly Phe Val Phe Ser Lys
100 105 110
Gln Ser His Ala Pro Asn Asp Phe Asn Glu Thr Ala Leu Gln Asp Leu
115 120 125
Phe Glu Thr Leu Asp Asp Asp Leu Lys His Val Leu Asp Arg Lys Lys
130 135 140
Trp Cys Asp Phe Ile Lys Ile Gly Thr Pro Lys Thr Asn Asp Gln Gly
145 150 155 160
Arg Leu Lys Lys Gln Ile Lys Asn Leu Leu Lys Gly Asn Lys Arg Glu
165 170 175
Glu Ile Glu Lys Thr Leu Asn Glu Ser Asp Asp Glu Leu Lys Glu Lys
180 185 190
Ile Asn Arg Ile Ala Asp Val Phe Ala Lys Asn Lys Ser Asp Lys Tyr
195 200 205
Thr Ile Phe Lys Leu Asp Lys Pro Asn Thr Glu Lys Tyr Pro Arg Ile
210 215 220
Asn Asp Val Gln Val Ala Phe Phe Cys His Pro Asp Phe Glu Glu Ile
225 230 235 240
Thr Glu Arg Asp Arg Thr Lys Thr Leu Asp Leu Ile Ile Asn Arg Phe
245 250 255
Asn Lys Arg Tyr Glu Ile Thr Glu Asn Lys Lys Asp Asp Lys Thr Ser
260 265 270
Asn Arg Met Ala Leu Tyr Ser Leu Asn Gln Gly Tyr Ile Pro Arg Val
275 280 285
Leu Asn Asp Leu Phe Leu Phe Val Lys Asp Asn Glu Asp Asp Phe Ser
290 295 300
Gln Phe Leu Ser Asp Leu Glu Asn Phe Phe Ser Phe Ser Asn Glu Gln
305 310 315 320
Ile Lys Ile Ile Lys Glu Arg Leu Lys Lys Leu Lys Lys Tyr Ala Glu
325 330 335
Pro Ile Pro Gly Lys Pro Gln Leu Ala Asp Lys Trp Asp Asp Tyr Ala
340 345 350
Ser Asp Phe Gly Gly Lys Leu Glu Ser Trp Tyr Ser Asn Arg Ile Glu
355 360 365
Lys Leu Lys Lys Ile Pro Glu Ser Val Ser Asp Leu Arg Asn Asn Leu
370 375 380
Glu Lys Ile Arg Asn Val Leu Lys Lys Gln Asn Asn Ala Ser Lys Ile
385 390 395 400
Leu Glu Leu Ser Gln Lys Ile Ile Glu Tyr Ile Arg Asp Tyr Gly Val
405 410 415
Ser Phe Glu Lys Pro Glu Ile Ile Lys Phe Ser Trp Ile Asn Lys Thr
420 425 430
Lys Asp Gly Gln Lys Lys Val Phe Tyr Val Ala Lys Met Ala Asp Arg
435 440 445
Glu Phe Ile Glu Lys Leu Asp Leu Trp Met Ala Asp Leu Arg Ser Gln
450 455 460
Leu Asn Glu Tyr Asn Gln Asp Asn Lys Val Ser Phe Lys Lys Lys Gly
465 470 475 480
Lys Lys Ile Glu Glu Leu Gly Val Leu Asp Phe Ala Leu Asn Lys Ala
485 490 495
Lys Lys Asn Lys Ser Thr Lys Asn Glu Asn Gly Trp Gln Gln Lys Leu
500 505 510
Ser Glu Ser Ile Gln Ser Ala Pro Leu Phe Phe Gly Glu Gly Asn Arg
515 520 525
Val Arg Asn Glu Glu Val Tyr Asn Leu Lys Asp Leu Leu Phe Ser Glu
530 535 540
Ile Lys Asn Val Glu Asn Ile Leu Met Ser Ser Glu Ala Glu Asp Leu
545 550 555 560
Lys Asn Ile Lys Ile Glu Tyr Lys Glu Asp Gly Ala Lys Lys Gly Asn
565 570 575
Tyr Val Leu Asn Val Leu Ala Arg Phe Tyr Ala Arg Phe Asn Glu Asp
580 585 590
Gly Tyr Gly Gly Trp Asn Lys Val Lys Thr Val Leu Glu Asn Ile Ala
595 600 605
Arg Glu Ala Gly Thr Asp Phe Ser Lys Tyr Gly Asn Asn Asn Asn Arg
610 615 620
Asn Ala Gly Arg Phe Tyr Leu Asn Gly Arg Glu Arg Gln Val Phe Thr
625 630 635 640
Leu Ile Lys Phe Glu Lys Ser Ile Thr Val Glu Lys Ile Leu Glu Leu
645 650 655
Val Lys Leu Pro Ser Leu Leu Asp Glu Ala Tyr Arg Asp Leu Val Asn
660 665 670
Glu Asn Lys Asn His Lys Leu Arg Asp Val Ile Gln Leu Ser Lys Thr
675 680 685
Ile Met Ala Leu Val Leu Ser His Ser Asp Lys Glu Lys Gln Ile Gly
690 695 700
Gly Asn Tyr Ile His Ser Lys Leu Ser Gly Tyr Asn Ala Leu Ile Ser
705 710 715 720
Lys Arg Asp Phe Ile Ser Arg Tyr Ser Val Gln Thr Thr Asn Gly Thr
725 730 735
Gln Cys Lys Leu Ala Ile Gly Lys Gly Lys Ser Lys Lys Gly Asn Glu
740 745 750
Ile Asp Arg Tyr Phe Tyr Ala Phe Gln Phe Phe Lys Asn Asp Asp Ser
755 760 765
Lys Ile Asn Leu Lys Val Ile Lys Asn Asn Ser His Lys Asn Ile Asp
770 775 780
Phe Asn Asp Asn Glu Asn Lys Ile Asn Ala Leu Gln Val Tyr Ser Ser
785 790 795 800
Asn Tyr Gln Ile Gln Phe Leu Asp Trp Phe Phe Glu Lys His Gln Gly
805 810 815
Lys Lys Thr Ser Leu Glu Val Gly Gly Ser Phe Thr Ile Ala Glu Lys
820 825 830
Ser Leu Thr Ile Asp Trp Ser Gly Ser Asn Pro Arg Val Gly Phe Lys
835 840 845
Arg Ser Asp Thr Glu Glu Lys Arg Val Phe Val Ser Gln Pro Phe Thr
850 855 860
Leu Ile Pro Asp Asp Glu Asp Lys Glu Arg Arg Lys Glu Arg Met Ile
865 870 875 880
Lys Thr Lys Asn Arg Phe Ile Gly Ile Asp Ile Gly Glu Tyr Gly Leu
885 890 895
Ala Trp Ser Leu Ile Glu Val Asp Asn Gly Asp Lys Asn Asn Arg Gly
900 905 910
Ile Arg Gln Leu Glu Ser Gly Phe Ile Thr Asp Asn Gln Gln Gln Val
915 920 925
Leu Lys Lys Asn Val Lys Ser Trp Arg Gln Asn Gln Ile Arg Gln Thr
930 935 940
Phe Thr Ser Pro Asp Thr Lys Ile Ala Arg Leu Arg Glu Ser Leu Ile
945 950 955 960
Gly Ser Tyr Lys Asn Gln Leu Glu Ser Leu Met Val Ala Lys Lys Ala
965 970 975
Asn Leu Ser Phe Glu Tyr Glu Val Ser Gly Phe Glu Val Gly Gly Lys
980 985 990
Arg Val Ala Lys Ile Tyr Asp Ser Ile Lys Arg Gly Ser Val Arg Lys
995 1000 1005
Lys Asp Asn Asn Ser Gln Asn Asp Gln Ser Trp Gly Lys Lys Gly
1010 1015 1020
Ile Asn Glu Trp Ser Phe Glu Thr Thr Ala Ala Gly Thr Ser Gln
1025 1030 1035
Phe Cys Thr His Cys Lys Arg Trp Ser Ser Leu Ala Ile Val Asp
1040 1045 1050
Ile Glu Glu Tyr Glu Leu Lys Asp Tyr Asn Asp Asn Leu Phe Lys
1055 1060 1065
Val Lys Ile Asn Asp Gly Glu Val Arg Leu Leu Gly Lys Lys Gly
1070 1075 1080
Trp Arg Ser Gly Glu Lys Ile Lys Gly Lys Glu Leu Phe Gly Pro
1085 1090 1095
Val Lys Asp Ala Met Arg Pro Asn Val Asp Gly Leu Gly Met Lys
1100 1105 1110
Ile Val Lys Arg Lys Tyr Leu Lys Leu Asp Leu Arg Asp Trp Val
1115 1120 1125
Ser Arg Tyr Gly Asn Met Ala Ile Phe Ile Cys Pro Tyr Val Asp
1130 1135 1140
Cys His His Ile Ser His Ala Asp Lys Gln Ala Ala Phe Asn Ile
1145 1150 1155
Ala Val
1160
<210> 4
<211> 1210
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 4
Met Ser Lys Arg His Pro Arg Ile Ser Gly Val Lys Gly Tyr Arg Leu
1 5 10 15
His Ala Gln Arg Leu Glu Tyr Thr Gly Lys Ser Gly Ala Met Arg Thr
20 25 30
Ile Lys Tyr Pro Leu Tyr Ser Ser Pro Ser Gly Gly Arg Thr Val Pro
35 40 45
Arg Glu Ile Val Ser Ala Ile Asn Asp Asp Tyr Val Gly Leu Tyr Gly
50 55 60
Leu Ser Asn Phe Asp Asp Leu Tyr Asn Ala Glu Lys Arg Asn Glu Glu
65 70 75 80
Lys Val Tyr Ser Val Leu Asp Phe Trp Tyr Asp Cys Val Gln Tyr Gly
85 90 95
Ala Val Phe Ser Tyr Thr Ala Pro Gly Leu Leu Lys Asn Val Ala Glu
100 105 110
Val Arg Gly Gly Ser Tyr Glu Leu Thr Lys Thr Leu Lys Gly Ser His
115 120 125
Leu Tyr Asp Glu Leu Gln Ile Asp Lys Val Ile Lys Phe Leu Asn Lys
130 135 140
Lys Glu Ile Ser Arg Ala Asn Gly Ser Leu Asp Lys Leu Lys Lys Asp
145 150 155 160
Ile Ile Asp Cys Phe Lys Ala Glu Tyr Arg Glu Arg His Lys Asp Gln
165 170 175
Cys Asn Lys Leu Ala Asp Asp Ile Lys Asn Ala Lys Lys Asp Ala Gly
180 185 190
Ala Ser Leu Gly Glu Arg Gln Lys Lys Leu Phe Arg Asp Phe Phe Gly
195 200 205
Ile Ser Glu Gln Ser Glu Asn Asp Lys Pro Ser Phe Thr Asn Pro Leu
210 215 220
Asn Leu Thr Cys Cys Leu Leu Pro Phe Asp Thr Val Asn Asn Asn Arg
225 230 235 240
Asn Arg Gly Glu Val Leu Phe Asn Lys Leu Lys Glu Tyr Ala Gln Lys
245 250 255
Leu Asp Lys Asn Glu Gly Ser Leu Glu Met Trp Glu Tyr Ile Gly Ile
260 265 270
Gly Asn Ser Gly Thr Ala Phe Ser Asn Phe Leu Gly Glu Gly Phe Leu
275 280 285
Gly Arg Leu Arg Glu Asn Lys Ile Thr Glu Leu Lys Lys Ala Met Met
290 295 300
Asp Ile Thr Asp Ala Trp Arg Gly Gln Glu Gln Glu Glu Glu Leu Glu
305 310 315 320
Lys Arg Leu Arg Ile Leu Ala Ala Leu Thr Ile Lys Leu Arg Glu Pro
325 330 335
Lys Phe Asp Asn His Trp Gly Gly Tyr Arg Ser Asp Ile Asn Gly Lys
340 345 350
Leu Ser Ser Trp Leu Gln Asn Tyr Ile Asn Gln Thr Val Lys Ile Lys
355 360 365
Glu Asp Leu Lys Gly His Lys Lys Asp Leu Lys Lys Ala Lys Glu Met
370 375 380
Ile Asn Arg Phe Gly Glu Ser Asp Thr Lys Glu Glu Ala Val Val Ser
385 390 395 400
Ser Leu Leu Glu Ser Ile Glu Lys Ile Val Pro Asp Asp Ser Ala Asp
405 410 415
Asp Glu Lys Pro Asp Ile Pro Ala Ile Ala Ile Tyr Arg Arg Phe Leu
420 425 430
Ser Asp Gly Arg Leu Thr Leu Asn Arg Phe Val Gln Arg Glu Asp Val
435 440 445
Gln Glu Ala Leu Ile Lys Glu Arg Leu Glu Ala Glu Lys Lys Lys Lys
450 455 460
Pro Lys Lys Arg Lys Lys Lys Ser Asp Ala Glu Asp Glu Lys Glu Thr
465 470 475 480
Ile Asp Phe Lys Glu Leu Phe Pro His Leu Ala Lys Pro Leu Lys Leu
485 490 495
Val Pro Asn Phe Tyr Gly Asp Ser Lys Arg Glu Leu Tyr Lys Lys Tyr
500 505 510
Lys Asn Ala Ala Ile Tyr Thr Asp Ala Leu Trp Lys Ala Val Glu Lys
515 520 525
Ile Tyr Lys Ser Ala Phe Ser Ser Ser Leu Lys Asn Ser Phe Phe Asp
530 535 540
Thr Asp Phe Asp Lys Asp Phe Phe Ile Lys Arg Leu Gln Lys Ile Phe
545 550 555 560
Ser Val Tyr Arg Arg Phe Asn Thr Asp Lys Trp Lys Pro Ile Val Lys
565 570 575
Asn Ser Phe Ala Pro Tyr Cys Asp Ile Val Ser Leu Ala Glu Asn Glu
580 585 590
Val Leu Tyr Lys Pro Lys Gln Ser Arg Ser Arg Lys Ser Ala Ala Ile
595 600 605
Asp Lys Asn Arg Val Arg Leu Pro Ser Thr Glu Asn Ile Ala Lys Ala
610 615 620
Gly Ile Ala Leu Ala Arg Glu Leu Ser Val Ala Gly Phe Asp Trp Lys
625 630 635 640
Asp Leu Leu Lys Lys Glu Glu His Glu Glu Tyr Ile Asp Leu Ile Glu
645 650 655
Leu His Lys Thr Ala Leu Ala Leu Leu Leu Ala Val Thr Glu Thr Gln
660 665 670
Leu Asp Ile Ser Ala Leu Asp Phe Val Glu Asn Gly Thr Val Lys Asp
675 680 685
Phe Met Lys Thr Arg Asp Gly Asn Leu Val Leu Glu Gly Arg Phe Leu
690 695 700
Glu Met Phe Ser Gln Ser Ile Val Phe Ser Glu Leu Arg Gly Leu Ala
705 710 715 720
Gly Leu Met Ser Arg Lys Glu Phe Ile Thr Arg Ser Ala Ile Gln Thr
725 730 735
Met Asn Gly Lys Gln Ala Glu Leu Leu Tyr Ile Pro His Glu Phe Gln
740 745 750
Ser Ala Lys Ile Thr Thr Pro Lys Glu Met Ser Arg Ala Phe Leu Asp
755 760 765
Leu Ala Pro Ala Glu Phe Ala Thr Ser Leu Glu Pro Glu Ser Leu Ser
770 775 780
Glu Lys Ser Leu Leu Lys Leu Lys Gln Met Arg Tyr Tyr Pro His Tyr
785 790 795 800
Phe Gly Tyr Glu Leu Thr Arg Thr Gly Gln Gly Ile Asp Gly Gly Val
805 810 815
Ala Glu Asn Ala Leu Arg Leu Glu Lys Ser Pro Val Lys Lys Arg Glu
820 825 830
Ile Lys Cys Lys Gln Tyr Lys Thr Leu Gly Arg Gly Gln Asn Lys Ile
835 840 845
Val Leu Tyr Val Arg Ser Ser Tyr Tyr Gln Thr Gln Phe Leu Glu Trp
850 855 860
Phe Leu His Arg Pro Lys Asn Val Gln Thr Asp Val Ala Val Ser Gly
865 870 875 880
Ser Phe Leu Ile Asp Glu Lys Lys Val Lys Thr Arg Trp Asn Tyr Asp
885 890 895
Ala Leu Thr Val Ala Leu Glu Pro Val Ser Gly Ser Glu Arg Val Phe
900 905 910
Val Ser Gln Pro Phe Thr Ile Phe Pro Glu Lys Ser Ala Glu Glu Glu
915 920 925
Gly Gln Arg Tyr Leu Gly Ile Asp Ile Gly Glu Tyr Gly Ile Ala Tyr
930 935 940
Thr Ala Leu Glu Ile Thr Gly Asp Ser Ala Lys Ile Leu Asp Gln Asn
945 950 955 960
Phe Ile Ser Asp Pro Gln Leu Lys Thr Leu Arg Glu Glu Val Lys Gly
965 970 975
Leu Lys Leu Asp Gln Arg Arg Gly Thr Phe Ala Met Pro Ser Thr Lys
980 985 990
Ile Ala Arg Ile Arg Glu Ser Leu Val His Ser Leu Arg Asn Arg Ile
995 1000 1005
His His Leu Ala Leu Lys His Lys Ala Lys Ile Val Tyr Glu Leu
1010 1015 1020
Glu Val Ser Arg Phe Glu Glu Gly Lys Gln Lys Ile Lys Lys Val
1025 1030 1035
Tyr Ala Thr Leu Lys Lys Ala Asp Val Tyr Ser Glu Ile Asp Ala
1040 1045 1050
Asp Lys Asn Leu Gln Thr Thr Val Trp Gly Lys Leu Ala Val Ala
1055 1060 1065
Ser Glu Ile Ser Ala Ser Tyr Thr Ser Gln Phe Cys Gly Ala Cys
1070 1075 1080
Lys Lys Leu Trp Arg Ala Glu Met Gln Val Asp Glu Thr Ile Thr
1085 1090 1095
Thr Gln Glu Leu Ile Gly Thr Val Arg Val Ile Lys Gly Gly Thr
1100 1105 1110
Leu Ile Asp Ala Ile Lys Asp Phe Met Arg Pro Pro Ile Phe Asp
1115 1120 1125
Glu Asn Asp Thr Pro Phe Pro Lys Tyr Arg Asp Phe Cys Asp Lys
1130 1135 1140
His His Ile Ser Lys Lys Met Arg Gly Asn Ser Cys Leu Phe Ile
1145 1150 1155
Cys Pro Phe Cys Arg Ala Asn Ala Asp Ala Asp Ile Gln Ala Ser
1160 1165 1170
Gln Thr Ile Ala Leu Leu Arg Tyr Val Lys Glu Glu Lys Lys Val
1175 1180 1185
Glu Asp Tyr Phe Glu Arg Phe Arg Lys Leu Lys Asn Ile Lys Val
1190 1195 1200
Leu Gly Gln Met Lys Lys Ile
1205 1210
<210> 5
<211> 1287
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 5
Met Lys Arg Ile Leu Asn Ser Leu Lys Val Ala Ala Leu Arg Leu Leu
1 5 10 15
Phe Arg Gly Lys Gly Ser Glu Leu Val Lys Thr Val Lys Tyr Pro Leu
20 25 30
Val Ser Pro Val Gln Gly Ala Val Glu Glu Leu Ala Glu Ala Ile Arg
35 40 45
His Asp Asn Leu His Leu Phe Gly Gln Lys Glu Ile Val Asp Leu Met
50 55 60
Glu Lys Asp Glu Gly Thr Gln Val Tyr Ser Val Val Asp Phe Trp Leu
65 70 75 80
Asp Thr Leu Arg Leu Gly Met Phe Phe Ser Pro Ser Ala Asn Ala Leu
85 90 95
Lys Ile Thr Leu Gly Lys Phe Asn Ser Asp Gln Val Ser Pro Phe Arg
100 105 110
Lys Val Leu Glu Gln Ser Pro Phe Phe Leu Ala Gly Arg Leu Lys Val
115 120 125
Glu Pro Ala Glu Arg Ile Leu Ser Val Glu Ile Arg Lys Ile Gly Lys
130 135 140
Arg Glu Asn Arg Val Glu Asn Tyr Ala Ala Asp Val Glu Thr Cys Phe
145 150 155 160
Ile Gly Gln Leu Ser Ser Asp Glu Lys Gln Ser Ile Gln Lys Leu Ala
165 170 175
Asn Asp Ile Trp Asp Ser Lys Asp His Glu Glu Gln Arg Met Leu Lys
180 185 190
Ala Asp Phe Phe Ala Ile Pro Leu Ile Lys Asp Pro Lys Ala Val Thr
195 200 205
Glu Glu Asp Pro Glu Asn Glu Thr Ala Gly Lys Gln Lys Pro Leu Glu
210 215 220
Leu Cys Val Cys Leu Val Pro Glu Leu Tyr Thr Arg Gly Phe Gly Ser
225 230 235 240
Ile Ala Asp Phe Leu Val Gln Arg Leu Thr Leu Leu Arg Asp Lys Met
245 250 255
Ser Thr Asp Thr Ala Glu Asp Cys Leu Glu Tyr Val Gly Ile Glu Glu
260 265 270
Glu Lys Gly Asn Gly Met Asn Ser Leu Leu Gly Thr Phe Leu Lys Asn
275 280 285
Leu Gln Gly Asp Gly Phe Glu Gln Ile Phe Gln Phe Met Leu Gly Ser
290 295 300
Tyr Val Gly Trp Gln Gly Lys Glu Asp Val Leu Arg Glu Arg Leu Asp
305 310 315 320
Leu Leu Ala Glu Lys Val Lys Arg Leu Pro Lys Pro Lys Phe Ala Gly
325 330 335
Glu Trp Ser Gly His Arg Met Phe Leu His Gly Gln Leu Lys Ser Trp
340 345 350
Ser Ser Asn Phe Phe Arg Leu Phe Asn Glu Thr Arg Glu Leu Leu Glu
355 360 365
Ser Ile Lys Ser Asp Ile Gln His Ala Thr Met Leu Ile Ser Tyr Val
370 375 380
Glu Glu Lys Gly Gly Tyr His Pro Gln Leu Leu Ser Gln Tyr Arg Lys
385 390 395 400
Leu Met Glu Gln Leu Pro Ala Leu Arg Thr Lys Val Leu Asp Pro Glu
405 410 415
Ile Glu Met Thr His Met Ser Glu Ala Val Arg Ser Tyr Ile Met Ile
420 425 430
His Lys Ser Val Ala Gly Phe Leu Pro Asp Leu Leu Glu Ser Leu Asp
435 440 445
Arg Asp Lys Asp Arg Glu Phe Leu Leu Ser Ile Phe Pro Arg Ile Pro
450 455 460
Lys Ile Asp Lys Lys Thr Lys Glu Ile Val Ala Trp Glu Leu Pro Gly
465 470 475 480
Glu Pro Glu Glu Gly Tyr Leu Phe Thr Ala Asn Asn Leu Phe Arg Asn
485 490 495
Phe Leu Glu Asn Pro Lys His Val Pro Arg Phe Met Ala Glu Arg Ile
500 505 510
Pro Glu Asp Trp Thr Arg Leu Arg Ser Ala Pro Val Trp Phe Asp Gly
515 520 525
Met Val Lys Gln Trp Gln Lys Val Val Asn Gln Leu Val Glu Ser Pro
530 535 540
Gly Ala Leu Tyr Gln Phe Asn Glu Ser Phe Leu Arg Gln Arg Leu Gln
545 550 555 560
Ala Met Leu Thr Val Tyr Lys Arg Asp Leu Gln Thr Glu Lys Phe Leu
565 570 575
Lys Leu Leu Ala Asp Val Cys Arg Pro Leu Val Asp Phe Phe Gly Leu
580 585 590
Gly Gly Asn Asp Ile Ile Phe Lys Ser Cys Gln Asp Pro Arg Lys Gln
595 600 605
Trp Gln Thr Val Ile Pro Leu Ser Val Pro Ala Asp Val Tyr Thr Ala
610 615 620
Cys Glu Gly Leu Ala Ile Arg Leu Arg Glu Thr Leu Gly Phe Glu Trp
625 630 635 640
Lys Asn Leu Lys Gly His Glu Arg Glu Asp Phe Leu Arg Leu His Gln
645 650 655
Leu Leu Gly Asn Leu Leu Phe Trp Ile Arg Asp Ala Lys Leu Val Val
660 665 670
Lys Leu Glu Asp Trp Met Asn Asn Pro Cys Val Gln Glu Tyr Val Glu
675 680 685
Ala Arg Lys Ala Ile Asp Leu Pro Leu Glu Ile Phe Gly Phe Glu Val
690 695 700
Pro Ile Phe Leu Asn Gly Tyr Leu Phe Ser Glu Leu Arg Gln Leu Glu
705 710 715 720
Leu Leu Leu Arg Arg Lys Ser Val Met Thr Ser Tyr Ser Val Lys Thr
725 730 735
Thr Gly Ser Pro Asn Arg Leu Phe Gln Leu Val Tyr Leu Pro Leu Asn
740 745 750
Pro Ser Asp Pro Glu Lys Lys Asn Ser Asn Asn Phe Gln Glu Arg Leu
755 760 765
Asp Thr Pro Thr Gly Leu Ser Arg Arg Phe Leu Asp Leu Thr Leu Asp
770 775 780
Ala Phe Ala Gly Lys Leu Leu Thr Asp Pro Val Thr Gln Glu Leu Lys
785 790 795 800
Thr Met Ala Gly Phe Tyr Asp His Leu Phe Gly Phe Lys Leu Pro Cys
805 810 815
Lys Leu Ala Ala Met Ser Asn His Pro Gly Ser Ser Ser Lys Met Val
820 825 830
Val Leu Ala Lys Pro Lys Lys Gly Val Ala Ser Asn Ile Gly Phe Glu
835 840 845
Pro Ile Pro Asp Pro Ala His Pro Val Phe Arg Val Arg Ser Ser Trp
850 855 860
Pro Glu Leu Lys Tyr Leu Glu Gly Leu Leu Tyr Leu Pro Glu Asp Thr
865 870 875 880
Pro Leu Thr Ile Glu Leu Ala Glu Thr Ser Val Ser Cys Gln Ser Val
885 890 895
Ser Ser Val Ala Phe Asp Leu Lys Asn Leu Thr Thr Ile Leu Gly Arg
900 905 910
Val Gly Glu Phe Arg Val Thr Ala Asp Gln Pro Phe Lys Leu Thr Pro
915 920 925
Ile Ile Pro Glu Lys Glu Glu Ser Phe Ile Gly Lys Thr Tyr Leu Gly
930 935 940
Leu Asp Ala Gly Glu Arg Ser Gly Val Gly Phe Ala Ile Val Thr Val
945 950 955 960
Asp Gly Asp Gly Tyr Glu Val Gln Arg Leu Gly Val His Glu Asp Thr
965 970 975
Gln Leu Met Ala Leu Gln Gln Val Ala Ser Lys Ser Leu Lys Glu Pro
980 985 990
Val Phe Gln Pro Leu Arg Lys Gly Thr Phe Arg Gln Gln Glu Arg Ile
995 1000 1005
Arg Lys Ser Leu Arg Gly Cys Tyr Trp Asn Phe Tyr His Ala Leu
1010 1015 1020
Met Ile Lys Tyr Arg Ala Lys Val Val His Glu Glu Ser Val Gly
1025 1030 1035
Ser Ser Gly Leu Val Gly Gln Trp Leu Arg Ala Phe Gln Lys Asp
1040 1045 1050
Leu Lys Lys Ala Asp Val Leu Pro Lys Lys Gly Gly Lys Asn Gly
1055 1060 1065
Val Asp Lys Lys Lys Arg Glu Ser Ser Ala Gln Asp Thr Leu Trp
1070 1075 1080
Gly Gly Ala Phe Ser Lys Lys Glu Glu Gln Gln Ile Ala Phe Glu
1085 1090 1095
Val Gln Ala Ala Gly Ser Ser Gln Phe Cys Leu Lys Cys Gly Trp
1100 1105 1110
Trp Phe Gln Leu Gly Met Arg Glu Val Asn Arg Val Gln Glu Ser
1115 1120 1125
Gly Val Val Leu Asp Trp Asn Arg Ser Ile Val Thr Phe Leu Ile
1130 1135 1140
Glu Ser Ser Gly Glu Lys Val Tyr Gly Phe Ser Pro Gln Gln Leu
1145 1150 1155
Glu Lys Gly Phe Arg Pro Asp Ile Glu Thr Phe Lys Lys Met Val
1160 1165 1170
Arg Asp Phe Met Arg Pro Pro Met Phe Asp Arg Lys Gly Arg Pro
1175 1180 1185
Ala Ala Ala Tyr Glu Arg Phe Val Leu Gly Arg Arg His Arg Arg
1190 1195 1200
Tyr Arg Phe Asp Lys Val Phe Glu Glu Arg Phe Gly Arg Ser Ala
1205 1210 1215
Leu Phe Ile Cys Pro Arg Val Gly Cys Gly Asn Phe Asp His Ser
1220 1225 1230
Ser Glu Gln Ser Ala Val Val Leu Ala Leu Ile Gly Tyr Ile Ala
1235 1240 1245
Asp Lys Glu Gly Met Ser Gly Lys Lys Leu Val Tyr Val Arg Leu
1250 1255 1260
Ala Glu Leu Met Ala Glu Trp Lys Leu Lys Lys Leu Glu Arg Ser
1265 1270 1275
Arg Val Glu Glu Gln Ser Ser Ala Gln
1280 1285
<210> 6
<211> 1192
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 6
Met Ala Glu Ser Lys Gln Met Gln Cys Arg Lys Cys Gly Ala Ser Met
1 5 10 15
Lys Tyr Glu Val Ile Gly Leu Gly Lys Lys Ser Cys Arg Tyr Met Cys
20 25 30
Pro Asp Cys Gly Asn His Thr Ser Ala Arg Lys Ile Gln Asn Lys Lys
35 40 45
Lys Arg Asp Lys Lys Tyr Gly Ser Ala Ser Lys Ala Gln Ser Gln Arg
50 55 60
Ile Ala Val Ala Gly Ala Leu Tyr Pro Asp Lys Lys Val Gln Thr Ile
65 70 75 80
Lys Thr Tyr Lys Tyr Pro Ala Asp Leu Asn Gly Glu Val His Asp Ser
85 90 95
Gly Val Ala Glu Lys Ile Ala Gln Ala Ile Gln Glu Asp Glu Ile Gly
100 105 110
Leu Leu Gly Pro Ser Ser Glu Tyr Ala Cys Trp Ile Ala Ser Gln Lys
115 120 125
Gln Ser Glu Pro Tyr Ser Val Val Asp Phe Trp Phe Asp Ala Val Cys
130 135 140
Ala Gly Gly Val Phe Ala Tyr Ser Gly Ala Arg Leu Leu Ser Thr Val
145 150 155 160
Leu Gln Leu Ser Gly Glu Glu Ser Val Leu Arg Ala Ala Leu Ala Ser
165 170 175
Ser Pro Phe Val Asp Asp Ile Asn Leu Ala Gln Ala Glu Lys Phe Leu
180 185 190
Ala Val Ser Arg Arg Thr Gly Gln Asp Lys Leu Gly Lys Arg Ile Gly
195 200 205
Glu Cys Phe Ala Glu Gly Arg Leu Glu Ala Leu Gly Ile Lys Asp Arg
210 215 220
Met Arg Glu Phe Val Gln Ala Ile Asp Val Ala Gln Thr Ala Gly Gln
225 230 235 240
Arg Phe Ala Ala Lys Leu Lys Ile Phe Gly Ile Ser Gln Met Pro Glu
245 250 255
Ala Lys Gln Trp Asn Asn Asp Ser Gly Leu Thr Val Cys Ile Leu Pro
260 265 270
Asp Tyr Tyr Val Pro Glu Glu Asn Arg Ala Asp Gln Leu Val Val Leu
275 280 285
Leu Arg Arg Leu Arg Glu Ile Ala Tyr Cys Met Gly Ile Glu Asp Glu
290 295 300
Ala Gly Phe Glu His Leu Gly Ile Asp Pro Gly Ala Leu Ser Asn Phe
305 310 315 320
Ser Asn Gly Asn Pro Lys Arg Gly Phe Leu Gly Arg Leu Leu Asn Asn
325 330 335
Asp Ile Ile Ala Leu Ala Asn Asn Met Ser Ala Met Thr Pro Tyr Trp
340 345 350
Glu Gly Arg Lys Gly Glu Leu Ile Glu Arg Leu Ala Trp Leu Lys His
355 360 365
Arg Ala Glu Gly Leu Tyr Leu Lys Glu Pro His Phe Gly Asn Ser Trp
370 375 380
Ala Asp His Arg Ser Arg Ile Phe Ser Arg Ile Ala Gly Trp Leu Ser
385 390 395 400
Gly Cys Ala Gly Lys Leu Lys Ile Ala Lys Asp Gln Ile Ser Gly Val
405 410 415
Arg Thr Asp Leu Phe Leu Leu Lys Arg Leu Leu Asp Ala Val Pro Gln
420 425 430
Ser Ala Pro Ser Pro Asp Phe Ile Ala Ser Ile Ser Ala Leu Asp Arg
435 440 445
Phe Leu Glu Ala Ala Glu Ser Ser Gln Asp Pro Ala Glu Gln Val Arg
450 455 460
Ala Leu Tyr Ala Phe His Leu Asn Ala Pro Ala Val Arg Ser Ile Ala
465 470 475 480
Asn Lys Ala Val Gln Arg Ser Asp Ser Gln Glu Trp Leu Ile Lys Glu
485 490 495
Leu Asp Ala Val Asp His Leu Glu Phe Asn Lys Ala Phe Pro Phe Phe
500 505 510
Ser Asp Thr Gly Lys Lys Lys Lys Lys Gly Ala Asn Ser Asn Gly Ala
515 520 525
Pro Ser Glu Glu Glu Tyr Thr Glu Thr Glu Ser Ile Gln Gln Pro Glu
530 535 540
Asp Ala Glu Gln Glu Val Asn Gly Gln Glu Gly Asn Gly Ala Ser Lys
545 550 555 560
Asn Gln Lys Lys Phe Gln Arg Ile Pro Arg Phe Phe Gly Glu Gly Ser
565 570 575
Arg Ser Glu Tyr Arg Ile Leu Thr Glu Ala Pro Gln Tyr Phe Asp Met
580 585 590
Phe Cys Asn Asn Met Arg Ala Ile Phe Met Gln Leu Glu Ser Gln Pro
595 600 605
Arg Lys Ala Pro Arg Asp Phe Lys Cys Phe Leu Gln Asn Arg Leu Gln
610 615 620
Lys Leu Tyr Lys Gln Thr Phe Leu Asn Ala Arg Ser Asn Lys Cys Arg
625 630 635 640
Ala Leu Leu Glu Ser Val Leu Ile Ser Trp Gly Glu Phe Tyr Thr Tyr
645 650 655
Gly Ala Asn Glu Lys Lys Phe Arg Leu Arg His Glu Ala Ser Glu Arg
660 665 670
Ser Ser Asp Pro Asp Tyr Val Val Gln Gln Ala Leu Glu Ile Ala Arg
675 680 685
Arg Leu Phe Leu Phe Gly Phe Glu Trp Arg Asp Cys Ser Ala Gly Glu
690 695 700
Arg Val Asp Leu Val Glu Ile His Lys Lys Ala Ile Ser Phe Leu Leu
705 710 715 720
Ala Ile Thr Gln Ala Glu Val Ser Val Gly Ser Tyr Asn Trp Leu Gly
725 730 735
Asn Ser Thr Val Ser Arg Tyr Leu Ser Val Ala Gly Thr Asp Thr Leu
740 745 750
Tyr Gly Thr Gln Leu Glu Glu Phe Leu Asn Ala Thr Val Leu Ser Gln
755 760 765
Met Arg Gly Leu Ala Ile Arg Leu Ser Ser Gln Glu Leu Lys Asp Gly
770 775 780
Phe Asp Val Gln Leu Glu Ser Ser Cys Gln Asp Asn Leu Gln His Leu
785 790 795 800
Leu Val Tyr Arg Ala Ser Arg Asp Leu Ala Ala Cys Lys Arg Ala Thr
805 810 815
Cys Pro Ala Glu Leu Asp Pro Lys Ile Leu Val Leu Pro Val Gly Ala
820 825 830
Phe Ile Ala Ser Val Met Lys Met Ile Glu Arg Gly Asp Glu Pro Leu
835 840 845
Ala Gly Ala Tyr Leu Arg His Arg Pro His Ser Phe Gly Trp Gln Ile
850 855 860
Arg Val Arg Gly Val Ala Glu Val Gly Met Asp Gln Gly Thr Ala Leu
865 870 875 880
Ala Phe Gln Lys Pro Thr Glu Ser Glu Pro Phe Lys Ile Lys Pro Phe
885 890 895
Ser Ala Gln Tyr Gly Pro Val Leu Trp Leu Asn Ser Ser Ser Tyr Ser
900 905 910
Gln Ser Gln Tyr Leu Asp Gly Phe Leu Ser Gln Pro Lys Asn Trp Ser
915 920 925
Met Arg Val Leu Pro Gln Ala Gly Ser Val Arg Val Glu Gln Arg Val
930 935 940
Ala Leu Ile Trp Asn Leu Gln Ala Gly Lys Met Arg Leu Glu Arg Ser
945 950 955 960
Gly Ala Arg Ala Phe Phe Met Pro Val Pro Phe Ser Phe Arg Pro Ser
965 970 975
Gly Ser Gly Asp Glu Ala Val Leu Ala Pro Asn Arg Tyr Leu Gly Leu
980 985 990
Phe Pro His Ser Gly Gly Ile Glu Tyr Ala Val Val Asp Val Leu Asp
995 1000 1005
Ser Ala Gly Phe Lys Ile Leu Glu Arg Gly Thr Ile Ala Val Asn
1010 1015 1020
Gly Phe Ser Gln Lys Arg Gly Glu Arg Gln Glu Glu Ala His Arg
1025 1030 1035
Glu Lys Gln Arg Arg Gly Ile Ser Asp Ile Gly Arg Lys Lys Pro
1040 1045 1050
Val Gln Ala Glu Val Asp Ala Ala Asn Glu Leu His Arg Lys Tyr
1055 1060 1065
Thr Asp Val Ala Thr Arg Leu Gly Cys Arg Ile Val Val Gln Trp
1070 1075 1080
Ala Pro Gln Pro Lys Pro Gly Thr Ala Pro Thr Ala Gln Thr Val
1085 1090 1095
Tyr Ala Arg Ala Val Arg Thr Glu Ala Pro Arg Ser Gly Asn Gln
1100 1105 1110
Glu Asp His Ala Arg Met Lys Ser Ser Trp Gly Tyr Thr Trp Gly
1115 1120 1125
Thr Tyr Trp Glu Lys Arg Lys Pro Glu Asp Ile Leu Gly Ile Ser
1130 1135 1140
Thr Gln Val Tyr Trp Thr Gly Gly Ile Gly Glu Ser Cys Pro Ala
1145 1150 1155
Val Ala Val Ala Leu Leu Gly His Ile Arg Ala Thr Ser Thr Gln
1160 1165 1170
Thr Glu Trp Glu Lys Glu Glu Val Val Phe Gly Arg Leu Lys Lys
1175 1180 1185
Phe Phe Pro Ser
1190
<210> 7
<211> 1192
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 7
Met Ala Glu Ser Lys Gln Met Gln Cys Arg Lys Cys Gly Ala Ser Met
1 5 10 15
Lys Tyr Glu Val Ile Gly Leu Gly Lys Lys Ser Cys Arg Tyr Met Cys
20 25 30
Pro Asp Cys Gly Asn His Thr Ser Ala Arg Lys Ile Gln Asn Lys Lys
35 40 45
Lys Arg Asp Lys Lys Tyr Gly Ser Ala Ser Lys Ala Gln Ser Gln Arg
50 55 60
Ile Ala Val Ala Gly Ala Leu Tyr Pro Asp Lys Lys Val Gln Thr Ile
65 70 75 80
Lys Thr Tyr Lys Tyr Pro Ala Asp Leu Asn Gly Glu Val His Asp Arg
85 90 95
Gly Val Ala Glu Lys Ile Glu Gln Ala Ile Gln Glu Asp Glu Ile Gly
100 105 110
Leu Leu Gly Pro Ser Ser Glu Tyr Ala Cys Trp Ile Ala Ser Gln Lys
115 120 125
Gln Ser Glu Pro Tyr Ser Val Val Asp Phe Trp Phe Asp Ala Val Cys
130 135 140
Ala Gly Gly Val Phe Ala Tyr Ser Gly Ala Arg Leu Leu Ser Thr Val
145 150 155 160
Leu Gln Leu Ser Gly Glu Glu Ser Val Leu Arg Ala Ala Leu Ala Ser
165 170 175
Ser Pro Phe Val Asp Asp Ile Asn Leu Ala Gln Ala Glu Lys Phe Leu
180 185 190
Ala Val Ser Arg Arg Thr Gly Gln Asp Lys Leu Gly Lys Arg Ile Gly
195 200 205
Glu Cys Phe Ala Glu Gly Arg Leu Glu Ala Leu Gly Ile Lys Asp Arg
210 215 220
Met Arg Glu Phe Val Gln Ala Ile Asp Val Ala Gln Thr Ala Gly Gln
225 230 235 240
Arg Phe Ala Ala Lys Leu Lys Ile Phe Gly Ile Ser Gln Met Pro Glu
245 250 255
Ala Lys Gln Trp Asn Asn Asp Ser Gly Leu Thr Val Cys Ile Leu Pro
260 265 270
Asp Tyr Tyr Val Pro Glu Glu Asn Arg Ala Asp Gln Leu Val Val Leu
275 280 285
Leu Arg Arg Leu Arg Glu Ile Ala Tyr Cys Met Gly Ile Glu Asp Glu
290 295 300
Ala Gly Phe Glu His Leu Gly Ile Asp Pro Gly Ala Leu Ser Asn Phe
305 310 315 320
Ser Asn Gly Asn Pro Lys Arg Gly Phe Leu Gly Arg Leu Leu Asn Asn
325 330 335
Asp Ile Ile Ala Leu Ala Asn Asn Met Ser Ala Met Thr Pro Tyr Trp
340 345 350
Glu Gly Arg Lys Gly Glu Leu Ile Glu Arg Leu Ala Trp Leu Lys His
355 360 365
Arg Ala Glu Gly Leu Tyr Leu Lys Glu Pro His Phe Gly Asn Ser Trp
370 375 380
Ala Asp His Arg Ser Arg Ile Phe Ser Arg Ile Ala Gly Trp Leu Ser
385 390 395 400
Gly Cys Ala Gly Lys Leu Lys Ile Ala Lys Asp Gln Ile Ser Gly Val
405 410 415
Arg Thr Asp Leu Phe Leu Leu Lys Arg Leu Leu Asp Ala Val Pro Gln
420 425 430
Ser Ala Pro Ser Pro Asp Phe Ile Ala Ser Ile Ser Ala Leu Asp Arg
435 440 445
Phe Leu Glu Ala Ala Glu Ser Ser Gln Asp Pro Ala Glu Gln Val Arg
450 455 460
Ala Leu Tyr Ala Phe His Leu Asn Ala Pro Ala Val Arg Ser Ile Ala
465 470 475 480
Asn Lys Ala Val Gln Arg Ser Asp Ser Gln Glu Trp Leu Ile Lys Glu
485 490 495
Leu Asp Ala Val Asp His Leu Glu Phe Asn Lys Ala Phe Pro Phe Phe
500 505 510
Ser Asp Thr Gly Lys Lys Lys Lys Lys Gly Ala Asn Ser Asn Gly Ala
515 520 525
Pro Ser Glu Glu Glu Tyr Thr Glu Thr Glu Ser Ile Gln Gln Pro Glu
530 535 540
Asp Ala Glu Gln Glu Val Asn Gly Gln Glu Gly Asn Gly Ala Ser Lys
545 550 555 560
Asn Gln Lys Lys Phe Gln Arg Ile Pro Arg Phe Phe Gly Glu Gly Ser
565 570 575
Arg Ser Glu Tyr Arg Ile Leu Thr Glu Ala Pro Gln Tyr Phe Asp Met
580 585 590
Phe Cys Asn Asn Met Arg Ala Ile Phe Met Gln Leu Glu Ser Gln Pro
595 600 605
Arg Lys Ala Pro Arg Asp Phe Lys Cys Phe Leu Gln Asn Arg Leu Gln
610 615 620
Lys Leu Tyr Lys Gln Thr Phe Leu Asn Ala Arg Ser Asn Lys Cys Arg
625 630 635 640
Ala Leu Leu Glu Ser Val Leu Ile Ser Trp Gly Glu Phe Tyr Thr Tyr
645 650 655
Gly Ala Asn Glu Lys Lys Phe Arg Leu Arg His Glu Ala Ser Glu Arg
660 665 670
Ser Ser Asp Pro Asp Tyr Val Val Gln Gln Ala Leu Glu Ile Ala Arg
675 680 685
Arg Leu Phe Leu Phe Gly Phe Glu Trp Arg Asp Cys Ser Ala Gly Glu
690 695 700
Arg Val Asp Leu Val Glu Ile His Lys Lys Ala Ile Ser Phe Leu Leu
705 710 715 720
Ala Ile Thr Gln Ala Glu Val Ser Val Gly Ser Tyr Asn Trp Leu Gly
725 730 735
Asn Ser Thr Val Ser Arg Tyr Leu Ser Val Ala Gly Thr Asp Thr Leu
740 745 750
Tyr Gly Thr Gln Leu Glu Glu Phe Leu Asn Ala Thr Val Leu Ser Gln
755 760 765
Met Arg Gly Leu Ala Ile Arg Leu Ser Ser Gln Glu Leu Lys Asp Gly
770 775 780
Phe Asp Val Gln Leu Glu Ser Ser Cys Gln Asp Asn Leu Gln His Leu
785 790 795 800
Leu Val Tyr Arg Ala Ser Arg Asp Leu Ala Ala Cys Lys Arg Ala Thr
805 810 815
Cys Pro Ala Glu Leu Asp Pro Lys Ile Leu Val Leu Pro Ala Gly Ala
820 825 830
Phe Ile Ala Ser Val Met Lys Met Ile Glu Arg Gly Asp Glu Pro Leu
835 840 845
Ala Gly Ala Tyr Leu Arg His Arg Pro His Ser Phe Gly Trp Gln Ile
850 855 860
Arg Val Arg Gly Val Ala Glu Val Gly Met Asp Gln Gly Thr Ala Leu
865 870 875 880
Ala Phe Gln Lys Pro Thr Glu Ser Glu Pro Phe Lys Ile Lys Pro Phe
885 890 895
Ser Ala Gln Tyr Gly Pro Val Leu Trp Leu Asn Ser Ser Ser Tyr Ser
900 905 910
Gln Ser Gln Tyr Leu Asp Gly Phe Leu Ser Gln Pro Lys Asn Trp Ser
915 920 925
Met Arg Val Leu Pro Gln Ala Gly Ser Val Arg Val Glu Gln Arg Val
930 935 940
Ala Leu Ile Trp Asn Leu Gln Ala Gly Lys Met Arg Leu Glu Arg Ser
945 950 955 960
Gly Ala Arg Ala Phe Phe Met Pro Val Pro Phe Ser Phe Arg Pro Ser
965 970 975
Gly Ser Gly Asp Glu Ala Val Leu Ala Pro Asn Arg Tyr Leu Gly Leu
980 985 990
Phe Pro His Ser Gly Gly Ile Glu Tyr Ala Val Val Asp Val Leu Asp
995 1000 1005
Ser Ala Gly Phe Lys Ile Leu Glu Arg Gly Thr Ile Ala Val Asn
1010 1015 1020
Gly Phe Ser Gln Lys Arg Gly Glu Arg Gln Glu Glu Ala His Arg
1025 1030 1035
Glu Lys Gln Arg Arg Gly Ile Ser Asp Ile Gly Arg Lys Lys Pro
1040 1045 1050
Val Gln Ala Glu Val Asp Ala Ala Asn Glu Leu His Arg Lys Tyr
1055 1060 1065
Thr Asp Val Ala Thr Arg Leu Gly Cys Arg Ile Val Val Gln Trp
1070 1075 1080
Ala Pro Gln Pro Lys Pro Gly Thr Ala Pro Thr Ala Gln Thr Val
1085 1090 1095
Tyr Ala Arg Ala Val Arg Thr Glu Ala Pro Arg Ser Gly Asn Gln
1100 1105 1110
Glu Asp His Ala Arg Met Lys Ser Ser Trp Gly Tyr Thr Trp Ser
1115 1120 1125
Thr Tyr Trp Glu Lys Arg Lys Pro Glu Asp Ile Leu Gly Ile Ser
1130 1135 1140
Thr Gln Val Tyr Trp Thr Gly Gly Ile Gly Glu Ser Cys Pro Ala
1145 1150 1155
Val Ala Val Ala Leu Leu Gly His Ile Arg Ala Thr Ser Thr Gln
1160 1165 1170
Thr Glu Trp Glu Lys Glu Glu Val Val Phe Gly Arg Leu Lys Lys
1175 1180 1185
Phe Phe Pro Ser
1190
<210> 8
<211> 1193
<212> PRT
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 8
Met Lys Arg Ile Ala Lys Phe Arg His Asp Lys Pro Val Lys Arg Glu
1 5 10 15
Ala Trp Ser Lys Gly Tyr Arg Val His Lys Asn Arg Ile Ile Asn Lys
20 25 30
Val Thr Arg Ser Ile Lys Tyr Pro Leu Val Val Lys Asp Glu Trp Lys
35 40 45
Lys Arg Leu Ile Asp Asp Ala Ala His Asp Tyr Arg Trp Leu Val Gly
50 55 60
Pro Ile Asn Tyr Ser Asp Trp Cys Arg Asp Pro Asn Gln Tyr Ser Ile
65 70 75 80
Leu Glu Phe Trp Ile Asp Phe Leu Cys Val Gly Gly Val Phe Gln Ser
85 90 95
Ser His Ser Asn Ile Cys Arg Leu Ala Ile Gln Leu Ser Gly Gly Ser
100 105 110
Val Phe Glu Gln Glu Trp Lys Asp Leu Ser Pro Phe Val Arg Ala Asn
115 120 125
Leu Ile Gln Gly Ile Lys Pro Ala Glu Phe Ile Gly Phe Leu Thr Ala
130 135 140
Glu Phe Arg Ser Ser Ser Asn Pro Lys Asn Phe Ile Ser Lys Phe Phe
145 150 155 160
Glu Gly Ser Asn Glu Asp Leu Glu Ser Leu Thr Asn Glu Phe Ala Ser
165 170 175
Ile Val Asp Phe Ile Lys Ala Lys Asp Ile Ser Leu Leu Arg Lys Ser
180 185 190
Leu Pro Ser Cys Lys Lys Ile Ala Pro Asn Leu Trp Glu Lys Ala Val
195 200 205
Gly Ser His Ser Thr Asn Glu Leu Leu Lys Leu Leu Thr Lys Tyr Thr
210 215 220
Arg Val Met Leu Val Ala Glu Pro Ser His Ser Asp Arg Val Phe Ser
225 230 235 240
Gln Thr Val Leu Gln Ser Asn Asp Gln Asp Asp Pro Glu Leu Thr Gly
245 250 255
Pro Leu Pro Ser His Lys Val Gly Lys Ala Ser Tyr Leu Phe Ile Pro
260 265 270
Glu Phe Ile Arg Glu Val Asn Leu Asp Lys Ile Ser Lys Leu Asp Leu
275 280 285
Ser Ala Lys Ser Lys Leu Ala Val Glu Gln Val Lys Lys Leu Ser Glu
290 295 300
Leu Thr Ser Asp Phe Lys Gln Ile Glu Asn Gln Ser Glu Ala Tyr Phe
305 310 315 320
Gly Leu Ser Thr Ser Phe Asn Glu Leu Ser Asn Phe Leu Gly Ile Leu
325 330 335
Ile Arg Thr Leu Arg Asn Ala Pro Glu Ala Ile Leu Lys Asp Gln Ile
340 345 350
Ala Leu Cys Ala Pro Leu Asp Lys Asp Ile Leu Lys Ile Thr Leu Asp
355 360 365
Trp Leu Cys Asp Arg Ala Gln Ala Leu Pro Glu Asn Pro Arg Phe Glu
370 375 380
Thr Asn Trp Ala Glu Tyr Arg Ser Tyr Leu Gly Gly Lys Ile Lys Ser
385 390 395 400
Trp Phe Ser Asn Tyr Glu Asn Phe Phe Glu Ile Pro Gln Ala Ala Ser
405 410 415
Ser Gln Gln Asn Asn Asn Arg Glu Lys Lys Leu Gly Asn Arg Ser Ala
420 425 430
Ile Arg Ala Leu Asn Leu Lys Lys Glu Ala Phe Glu Lys Ala Arg Glu
435 440 445
Thr Phe Lys Gly Asp Lys Gly Thr Leu Glu Lys Ile Asp Leu Ala Tyr
450 455 460
Arg Leu Leu Gly Ser Ile Ser Pro Glu Val Leu Gln Cys Asp Glu Gly
465 470 475 480
Leu Lys Leu Tyr Gln Gln Phe Asn Asp Glu Leu Leu Val Leu Asn Glu
485 490 495
Thr Ile Asn Gln Lys Phe Gln Asp Ala Lys Arg Asp Ile Lys Ala Lys
500 505 510
Lys Glu Lys Glu Ser Phe Glu Lys Leu Gln Arg Asn Leu Ser Ser Pro
515 520 525
Leu Pro Arg Ile Pro Glu Phe Phe Gly Glu Arg Ala Lys Lys Gly Tyr
530 535 540
Gln Lys Ala Arg Val Ser Pro Lys Leu Ala Arg His Leu Leu Glu Cys
545 550 555 560
Leu Asn Asp Trp Leu Ala Arg Phe Ala Lys Val Glu Glu Ser Ala Phe
565 570 575
Ser Glu Lys Glu Phe Gln Arg Ile Leu Asp Trp Leu Arg Thr Ser Asp
580 585 590
Phe Leu Pro Val Phe Ile Arg Lys Ser Lys Asp Pro Pro Ser Trp Leu
595 600 605
Arg Tyr Ile Ala Arg Val Ala Thr Gly Lys Tyr Tyr Phe Trp Val Ser
610 615 620
Glu Tyr Ser Arg Lys Arg Val Gln Ile Ile Asp Lys Pro Ile Ala Gln
625 630 635 640
Asn Pro Leu Lys Glu Leu Ile Ser Trp Phe Leu Leu Asn Lys Asp Ala
645 650 655
Phe Ser Arg Asp Asn Glu Leu Phe Lys Gly Leu Ser Ser Lys Met Val
660 665 670
Thr Leu Ala Arg Ile Met Ala Gly Ile Leu Arg Asp Arg Gly Glu Gly
675 680 685
Leu Lys Glu Leu Gln Ala Met Thr Ser Lys Leu Asp Asn Ile Gly Leu
690 695 700
Leu His Pro Ser Phe Ser Val Pro Val Thr Asp Ser Leu Lys Asp Ala
705 710 715 720
Ala Phe Tyr Arg Ala Phe Phe Ser Glu Leu Glu Gly Leu Leu Asn Ile
725 730 735
Gly Arg Ser Arg Leu Ile Ile Glu Arg Ile Thr Leu Gln Ser Gln Gln
740 745 750
Ser Lys Asn Lys Lys Thr Arg Arg Pro Leu Met Pro Glu Pro Phe Ile
755 760 765
Asn Glu Asp Lys Glu Val Phe Leu Ala Phe Pro Lys Phe Glu Thr Lys
770 775 780
Asn Lys Val Lys Gly Thr Arg Val Val Tyr Asn Ser Pro Asp Glu Val
785 790 795 800
Asn Trp Leu Leu Ser Pro Ile Arg Ser Ser Lys Gly Gln Leu Ser Phe
805 810 815
Met Phe Arg Cys Leu Ser Glu Asp Ala Lys Ile Met Thr Thr Ser Gly
820 825 830
Gly Cys Ser Tyr Ile Val Glu Phe Lys Lys Leu Leu Glu Ala Gln Glu
835 840 845
Glu Val Leu Ser Ile His Asp Cys Asp Ile Ile Pro Arg Ala Phe Val
850 855 860
Ser Ile Pro Phe Thr Leu Glu Arg Glu Ser Glu Glu Thr Lys Pro Asp
865 870 875 880
Trp Lys Pro Asn Arg Phe Met Gly Val Asp Ile Gly Glu Tyr Ala Val
885 890 895
Ala Tyr Cys Val Ile Glu Lys Gly Thr Asp Ser Ile Glu Ile Leu Asp
900 905 910
Cys Gly Ile Val Arg Asn Gly Ala His Arg Val Leu Lys Glu Lys Val
915 920 925
Asp Arg Leu Lys Arg Arg Gln Arg Ser Met Thr Phe Gly Ala Met Asp
930 935 940
Thr Ser Ile Ala Ala Ala Arg Glu Ser Leu Val Gly Asn Tyr Arg Asn
945 950 955 960
Arg Leu His Ala Ile Ala Leu Lys His Gly Ala Lys Leu Val Tyr Glu
965 970 975
Tyr Glu Val Ser Ala Phe Glu Ser Gly Gly Asn Arg Ile Lys Lys Val
980 985 990
Tyr Glu Thr Leu Lys Lys Ser Asp Cys Thr Gly Glu Thr Glu Ala Asp
995 1000 1005
Lys Asn Ala Arg Lys His Ile Trp Gly Glu Thr Asn Ala Val Gly
1010 1015 1020
Asp Gln Ile Gly Ala Gly Trp Thr Ser Gln Thr Cys Ala Lys Cys
1025 1030 1035
Gly Arg Ser Phe Gly Ala Asp Leu Lys Ala Gly Asn Phe Gly Val
1040 1045 1050
Ala Val Pro Val Pro Glu Lys Val Glu Asp Ser Lys Gly His Tyr
1055 1060 1065
Ala Tyr His Glu Phe Pro Phe Glu Asp Gly Leu Lys Val Arg Gly
1070 1075 1080
Phe Leu Lys Pro Asn Lys Ile Ile Ser Asp Gln Lys Glu Leu Ala
1085 1090 1095
Lys Ala Val His Ala Tyr Met Arg Pro Pro Leu Val Ala Leu Gly
1100 1105 1110
Lys Arg Lys Leu Pro Lys Asn Ala Arg Tyr Arg Arg Gly Asn Ser
1115 1120 1125
Ser Leu Phe Arg Cys Pro Phe Ser Asp Cys Gly Phe Thr Ala Asp
1130 1135 1140
Ala Asp Ile Gln Ala Ala Tyr Asn Ile Ala Val Lys Gln Leu Tyr
1145 1150 1155
Lys Pro Lys Lys Gly Tyr Pro Lys Glu Arg Lys Trp Gln Asp Phe
1160 1165 1170
Val Ile Leu Lys Pro Lys Glu Pro Ser Lys Leu Phe Asp Lys Gln
1175 1180 1185
Phe Tyr Arg Pro Asn
1190
<210> 9
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 9
Ala Ala Ala Ala
1
<210> 10
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 10
Ala Ala Ala Ala
1
<210> 11
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 11
cuccgaaagu aucggggaua aaggc 25
<210> 12
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 12
caccgaaauu uggagaggau aaggc 25
<210> 13
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 13
cuccgaauua ucgggaggau aaggc 25
<210> 14
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 14
ccccgaauau aggggacaaa aaggc 25
<210> 15
<211> 36
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 15
gucuagacau acagguggaa aggugagagu aaagac 36
<210> 16
<211> 25
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 16
cuccgugaau acguggggua aaggc 25
<210> 17
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 17
aaaaaaaaaa 10
<210> 18
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 18
aaaaaaaaaa 10
<210> 19
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 19
aaaaaaaaaa 10
<210> 20
<211> 43
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 20
cuccgaaagu aucggggaua aaggcaucaa uaccaaacuc ugg 43
<210> 21
<211> 6430
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 21
ttaaaaggac agtttctaat agcatataat cattatagca ttacatacgg aaaactactt 60
caaatttgcg gcagatcgga ttttgctggc ccagagatat attttccttc tttgttaaaa 120
gcggatttat ggcaagggca gagccagttt ttatttttat cttcccattc aacgatgcat 180
ccaagatgtg ggcaaattgg agagagtttt aaaatttctc ctttttcatt tttgtatacg 240
gcaactttct ttccttctat ctcaacaatt tttcctgtgt tgttttttaa attgtctaaa 300
gtacccgaag ttttcataaa gcgccccttc ataaaaagat aaggaaaaag aaatatttgt 360
tttaataatg ttaacatata gcttgttgaa ttataacatt tatccgagag gtggtctaac 420
ttatgcaact tattgattct tactttagga gaatagttct actctaggcg tatagagaac 480
ttttgttgaa aggtttttgc aatatctcta ctttctggcc aaaaatcggt ttttcccgcg 540
aatctgccgt atagtttgta tcctgcttta acaggtctgc ctccgctagg ttttcccggg 600
aaaggtacta taaatctctt atttcctaag agataagagc gcaaaccgag aattaagcca 660
tgatagagtt cctgaaaagt agcagtttgg cgagttgctg caacataaat ttctgtatcc 720
atgaaatcct ttaggttttc cattgtatag ggaagtgttt tactttcatc cccaccgttt 780
tcttgtatct cttttattgt attaaaggcg actccgtcga taaaacctct atatggttcc 840
atcaaatcgt agattagaga ggggtaatct gaaggtgtgt gggtgtatcc gtgaaaagga 900
ctaaaatgat ggtaaaccac ccaacgcaag ataataccgc taacaaattt tgaagaagca 960
tctaaaacat tacagataaa attacctttt gatcgtcgcc tatctttagg atatcccaaa 1020
gacttgtaga aatgttccca atatcttttg gcatgccacg attccactcc aactatagac 1080
tccacggacg ataagccctg cagttcctgc gttggggctg ggattaacca ttccatggat 1140
ttgaatttag cgtaaatcaa tcttttcgtt atatatgcgc gtttcttttc attttgtctg 1200
aatagaatct gttttgttag taaatcttct ctattagatg ttgtagaagg aacgatccaa 1260
acaccgcggg gcatatttcg tcgatgtatt gttaaaggaa tgccccaagc actgcatttt 1320
tctagaaatt cttgttctag cggacaaacg ctaccataaa acatgataga gtgaatctct 1380
ggaaaggaca aatccagctc accacctttg taagagaatt taacactctt tcccgataag 1440
tctatggatt ttacataggg taaccagata aattgtttac gcttggcgaa atatctcctc 1500
atttcgtatt ggatatatgt ctcaaattat gctatattta aggtacattt tcaagcggtt 1560
tttagctcgt ttacatttta atatcaacaa aatcggggag aagtctccga aagtatcggg 1620
gataaaggca tcaataccaa actctggctc cgaaagtatc ggggataaag gcattcccaa 1680
tatctcatta ctccgaaagt atcggggata aaggctcctc ccgtatctgt caactccgaa 1740
agtatcgggg ataaaggctt aaaaaggaat accccactcc gaaagtatcg gggataaagg 1800
cttgtactcc acatccgcta ctccgaaagt atcggggata aaggcactga aacttgaatt 1860
gtactccgaa agtatcgggg ataaaggcat cttgcgactt tctcttctcc gaaagtatcg 1920
gggataaagg ctcttcggtt ggtacgggtt ctccgaaagt atcggggata aaggcttatg 1980
gcagtatcgc atactccgaa agtatcgggg ataaaggctt cataagtacg cctaaactcc 2040
gaaagtatcg gggataaagg cagatgaggc tatacttaac tccgaaagta tcggggataa 2100
aggcacaaac ataaagggaa aactccgaaa gtatcgggga taaaggcata aatctggtga 2160
acttactccg aaagtatcgg ggataaaggc tactgttatt gttgtacact ccgaaagtat 2220
cggggataaa ggcataacta gcgttcccat tctccgaaag tatcaaaata aaaagggttt 2280
ccagttttta actaaacttt agccttccac cctttcctga ttttgttgat aattaataat 2340
gcgcaaaaaa ttgtttaagg gttacatttt acataataag aggcttgtat atacaggtaa 2400
agctgcaata cgttctatta aatatccatt agtcgctcca aataaaacag ccttaaacaa 2460
tttatcagaa aagataattt atgattatga gcatttattc ggacctttaa atgtggctag 2520
ctatgcaaga aattcaaaca ggtacagcct tgtggatttt tggatagata gcttgcgagc 2580
aggtgtaatt tggcaaagca aaagtacttc gctaattgat ttgataagta agctagaagg 2640
atctaaatcc ccatcagaaa agatatttga acaaatagat tttgagctaa aaaataagtt 2700
ggataaagag caattcaaag atattattct tcttaataca ggaattcgtt ctagcagtaa 2760
tgttcgcagt ttgagggggc gctttctaaa gtgttttaaa gaggaattta gagataccga 2820
agaggttatc gcctgtgtag ataaatggag caaggacctt atcgtagagg gtaaaagtat 2880
actagtgagt aaacagtttc tttattggga agaagagttt ggtattaaaa tttttcctca 2940
ttttaaagat aatcacgatt taccaaaact aacttttttt gtggagcctt ccttggaatt 3000
tagtccgcac ctccctttag ccaactgtct tgagcgtttg aaaaaattcg atatttcgcg 3060
tgaaagtttg ctcgggttag acaataattt ttcggccttt tctaattatt tcaatgagct 3120
ttttaactta ttgtccaggg gggagattaa aaagattgta acagctgtcc ttgctgtttc 3180
taaatcgtgg gagaatgagc cagaattgga aaagcgctta cattttttga gtgagaaggc 3240
aaagttatta gggtacccta agcttacttc ttcgtgggcg gattatagaa tgattattgg 3300
cggaaaaatt aaatcttggc attctaacta taccgaacaa ttaataaaag ttagagagga 3360
cttaaagaaa catcaaatcg cccttgataa attacaggaa gatttaaaaa aagtagtaga 3420
tagctcttta agagaacaaa tagaagctca acgagaagct ttgcttcctt tgcttgatac 3480
catgttaaaa gaaaaagatt tttccgatga tttagagctt tacagattta tcttgtcaga 3540
ttttaagagt ttgttaaatg ggtcttatca aagatatatt caaacagaag aggagagaaa 3600
ggaggacaga gatgttacca aaaaatataa agatttatat agtaatttgc gcaacatacc 3660
tagatttttt ggggaaagta aaaaggaaca attcaataaa tttataaata aatctctccc 3720
gaccatagat gttggtttaa aaatacttga ggatattcgt aatgctctag aaactgtaag 3780
tgttcgcaaa cccccttcaa taacagaaga gtatgtaaca aagcaacttg agaagttaag 3840
tagaaagtac aaaattaacg cctttaattc aaacagattt aaacaaataa ctgaacaggt 3900
gctcagaaaa tataataacg gagaactacc aaagatctcg gaggtttttt atagataccc 3960
gagagaatct catgtggcta taagaatatt acctgttaaa ataagcaatc caagaaagga 4020
tatatcttat cttctcgaca aatatcaaat tagccccgac tggaaaaaca gtaacccagg 4080
agaagttgta gatttgatag agatatataa attgacattg ggttggctct tgagttgtaa 4140
caaggatttt tcgatggatt tttcatcgta tgacttgaaa ctcttcccag aagccgcttc 4200
cctcataaaa aattttggct cttgcttgag tggttactat ttaagcaaaa tgatatttaa 4260
ttgcataacc agtgaaataa aggggatgat tactttatat actagagaca agtttgttgt 4320
tagatatgtt acacaaatga taggtagcaa tcagaaattt cctttgttat gtttggtggg 4380
agagaaacag actaaaaact tttctcgcaa ctggggtgta ttgatagaag agaagggaga 4440
tttgggggag gaaaaaaacc aggaaaaatg tttgatattt aaggataaaa cagattttgc 4500
taaagctaaa gaagtagaaa tttttaaaaa taatatttgg cgtatcagaa cctctaagta 4560
ccaaatccaa tttttgaata ggctttttaa gaaaaccaaa gaatgggatt taatgaatct 4620
tgtattgagc gagcctagct tagtattgga ggaggaatgg ggtgtttcgt gggataaaga 4680
taaactttta cctttactga agaaagaaaa atcttgcgaa gaaagattat attactcact 4740
tccccttaac ttggtgcctg ccacagatta taaggagcaa tctgcagaaa tagagcaaag 4800
gaatacatat ttgggtttgg atgttggaga atttggtgtt gcctatgcag tggtaagaat 4860
agtaagggac agaatagagc ttctgtcctg gggattcctt aaggacccag ctcttcgaaa 4920
aataagagag cgtgtacagg atatgaagaa aaagcaggta atggcagtat tttctagctc 4980
ttccacagct gtcgcgcgag tacgagaaat ggctatacac tctttaagaa atcaaattca 5040
tagcattgct ttggcgtata aagcaaagat aatttatgag atatctataa gcaattttga 5100
gacaggtggt aatagaatgg ctaaaatata ccgatctata aaggtttcag atgtttatag 5160
ggagagtggt gcggataccc tagtttcaga gatgatctgg ggcaaaaaga ataagcaaat 5220
gggaaaccat atatcttcct atgcgacaag ttacacttgt tgcaattgtg caagaacccc 5280
ttttgaactt gttatagata atgacaagga atatgaaaag ggaggcgacg aatttatttt 5340
taatgttggc gatgaaaaga aggtaagggg gtttttacaa aagagtctgt taggaaaaac 5400
aattaaaggg aaggaagtgt tgaagtctat aaaagagtac gcaaggccgc ctataaggga 5460
agtcttgctt gaaggagaag atgtagagca gttgttgaag aggagaggaa atagctatat 5520
ttatagatgc cctttttgtg gatataaaac tgatgcggat attcaagcgg cgttgaatat 5580
agcttgtagg ggatatattt cggataacgc aaaggatgct gtgaaggaag gagaaagaaa 5640
attagattac attttggaag ttagaaaatt gtgggagaag aatggagctg ttttgagaag 5700
cgccaaattt ttatagttat attggatata tcttttcaaa aaatctgaat tggtctagga 5760
ccgcggaatc ctatggtaat ttctacgtcc agaatgtagc gccatgccat tagaccagtc 5820
cccgaattaa acatcgccga acttcttggt gatgttatgg caaagagaat gcgacagcgc 5880
ctattcattg agcaagatat ggaaagtatt cctccagggc aaacaatggt tttgaatatg 5940
ggggagcctg ttgtgggaac ggaatttaca catcggcgga atattaatgg gaaagagtgc 6000
gttttatttt ttgcagttga actttttaaa gacgacagcg cgtagtcagt acatcttcgg 6060
cccatcttaa tcttccattg gggttattaa gactgcccac tttagcagca agatttttaa 6120
ggtgactcct taattctttc tcgtgcggag ttagatctat ttttccaaaa tctttatccg 6180
catggtttag gaatatttgt atagagtcta ggggaatttc cttaccgatg tcccccgctg 6240
cggtaacaac tctgtaaaga tccatcttta ttgaatttaa tataaactgt ctgtcttttt 6300
tcatatttct aaatgctttt ttgttaattc aaataaccta cccctcacat tcttatcgta 6360
tatctcatat gtatacttac ctagtgcagg tttgtaattt ctcatagcca tatattcaac 6420
ttcttttgaa 6430
<210> 22
<211> 13819
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 22
ctctttttct tgactatggt catcgcttag cttggcgggg acgtttgatc tttgcttcta 60
gtttaatcct ttttctgtcc ttgttgtttt taatgaatta ccctctaatt tggggtttat 120
tagctttgag tttattggct ttagtgattc taacttggtg gaaaaaggct tggactaaat 180
ggttgttagt cccactgata atttttctgc tggctggcac tctagcgatt tttgcttcaa 240
aacctatttt agctaaacca atttttgatc taaatcaaag tttgaaaatt aatagttttg 300
attcgcgacc taatttagat agcactgctc aagtgactaa agccagtttg aaagctcatc 360
cctttttagg ttttggtcca aatcgttttt ggcgagcttg gactctttat aagccaaaat 420
tatttaatca atcagtaatc tggtcagttg attatcgtct ggcttatggt tttattccaa 480
caatgttagt aactcaaggt ggcctcggtt ttctggcttg gttaattctg ataatttcta 540
gttttattta tctttatcat ttattcaaac aaagttcagt agaagatttt tccacgataa 600
ttttattgag tctaagtttt atttatctct ggttaaattt actcattctt aatcctaatt 660
ttgttatcct ctctctggct tttgggtgct tggggtggtt gttagttttt aatcataaaa 720
tttctaatca gctttcttgg cacattaaat tagatacgtt tctaaaaagt ttagtggcaa 780
aactaggtct tagtattatt ttgggttttt tatttttaat cattattttg tcactgctta 840
attatagttc tttgatctta tttcatcggg gtctttcatc tttggatcgg ggggattttt 900
ccgccaccga aaaaaattgg cgtttagcta gtcgtttgag tcctcagaca gtttataatc 960
gttctttggc tgatcttaaa ctgcgtcaga ttaatcaact tctgacgact cctaattctg 1020
attctcaaaa aactttagcc gagttttccc gtttttatgg tgagtcaatt ggatttggct 1080
tgactgctcg tgaccaagat ccttttgatt atttaaattg gttaatttta ggtcaagttt 1140
atgaagctgg gattccgctt aaaattaaag gggccgatat tcaagctcgg aaaatttatc 1200
aagaagtgct tagattaaac ccggtttggc cagtcatttg gctaaatttg gctcgagtgg 1260
aattaggctc tgatcaccct gatttagcgc gagaagattt acttaaagct ttggaattaa 1320
aagccgatta ttccgatgct ctgttagctt tagccgaatt agattatagt caaggtcgat 1380
tatcaaaagc tttagcggga gctaaggtgg cagttctgaa agaaccaaat aatttgggag 1440
cttggttttc ccttggtttt ttccagtatc aaattggaca ttatgatgaa gctgtcattt 1500
ctttagaaaa agtcttaacc tttaatcaaa attcagctga tactaaatat tttcttggtt 1560
taagtttagc tgaacttgat cgaacgactg aggcgattga cctatttcaa tctttagttc 1620
gggctaatcc cgacaatcaa gagcttaaaa atattttaac taatctcaaa gctggtcgaa 1680
cagctttagc gccaccagag accaaaacca aaacaaaata ataattcatg gtgtctaaaa 1740
ttactcgctt acttcaaaaa gaatttacca atcttcacca agcagctttt ttgttggcta 1800
cttcggcctt gctgtctcaa tttttgggtt tgtggcggga tcgtttatta gcctctggtt 1860
ttggagctag tcatcaatta gatatttatt atacggcttt tcgcttaccg gatttaattt 1920
acgtttcggt ggcttctttt gtttcgatca cggtccatat tcctttgatt attaataaga 1980
tggaaactgg tggtaaaccg gcggtggaaa aatttctcaa ttcagtgctg acagtttttt 2040
taattgggat ggtttcagtt tccgcgttat tatttatttt tatgccctgg ttatcgaaaa 2100
ttaccgctcc cgggttttct tcagttgatc aacaaacctt agtcacctta tctcgaattt 2160
tattgttgtc tcccttattg ttgggtttgt ctaatctctt gggaggagcc actcaagctt 2220
ttcgtaaatt tgccgcctat gcctttagtc ctatttttta taatttggga attatttttg 2280
ggattttctt tttctatcct ttgcttggtt tgccgggctt agtctgggga gtaattctcg 2340
gtgcagtctt acatttatca attcaattgc cagttttaag tcaattaggt ttacgtcttc 2400
gtttatcgag attaattaat tggccggaaa tgagaaaagt gatgctcata tccctaccgc 2460
gaactattac cttatcggct aatcaactat ctttattagt tttagtggct ttagcttcgt 2520
ttttgcccaa agggtcaatt tcggttttta atttttcgct caatcttcaa tcagtccccc 2580
tgtcgattat cggagtttct tattcggtgg cggcttttcc cgtcttggcc aaattttttg 2640
tcgctggtca acacaaagaa tttgctggtg aaattatcgc cgccattcga catattattt 2700
tttggtctgc tccagtggtc gttttgttta ttgttttacg agctcaaatc gtccgggtga 2760
ttttaggttc aggacgtttt gattggtcgg ccactcgatt gacggcagct tgtttggcga 2820
ttttttctgt gtcagtgatt gctcaaagtt tgattttagt tttagtccga gcttactatg 2880
ccgctgggga aaccaaaact cccttgatca ttaattcctt atcatctttg ggaacaatta 2940
ttttggcttt aattttatgg caactgttca aagtttggcc ggcctttcat ctgattttgg 3000
aacaaattct aagattgaaa gatttaccag ggacaattat tttagtctta cctctcgctt 3060
tttcgattgg agcgattatc aatgtttttg ttttatggtg ggctttcgaa cgacgctttg 3120
ctatcggaat ttggcgcaat ttagaggtag ttagtcttca gtctttagtc gcttctttat 3180
ttggtggctt tgtggcctat aacttactaa atgtctttag tctgtattat aaattagata 3240
ctttttggtc aatctttgag cagggatttt tagccggtat tttgggctta attgcctgga 3300
tttcggtctt aattcttttg aaaagtgaag aattggctga attgggacgt tctctgtcag 3360
cccgagtctg gaaagttgtc cctattgtcc cagaacgaga agaactgtag gatgggaaag 3420
tctttatatg gatttaaaac actatcgtaa tttttctatt attgctcacc ccagtagaac 3480
agccaagctg tctacggggc aagtattgat cataaattag tcttatggat ttaaaacact 3540
atcgtaattt ttctattatt gcccatatag atcatgggaa gagtactttg tctgatcggc 3600
ttttagattt gacagggaca attgaaaagc gaaaaatgcg agaacaagtc cttgattcga 3660
tggagttaga acgtgaacga ggaataacca tcaaaatgca accagtccga atgaattata 3720
aattggctgg tgaagattat attctgaatc taattgatac tccgggtcat attgattttt 3780
cttatgaagt gtctcgttcg cttcaagcag tggaaggggt cttgcttttg gttgacgcca 3840
ctcaaggggt ccaagctcaa acttttactg ttttagcgat ggctcaagaa ttgggtttaa 3900
cgattattcc cgttttaaac aaaattgatt taccaattgc tcgaacagct gaagtcaaac 3960
aagagattgt taatctatta aaatgtcagc ccgaagatat tatggcggtt tctggcaaaa 4020
ccggtgaagg agtagataaa ttattaattg agattattaa aaaaattcct agtccaattt 4080
cagaaataaa agttgttaaa ccttgccgag cgctggtatt tgattttgaa tattctattc 4140
ataaaggagt ggtggtctat gttcgagttt tagatggcga aattactccc gctgatcaac 4200
taaactttgt cgcttctggt gaaaaatttt cggttttaga attaggttat tttcgacctc 4260
aagctgaacc acaaaaaaaa ttacaggcgg gtgacattgg ttatttagtc actggaatta 4320
aaaaaccagg caatgctaaa gtgggggata cgattaccac tttagtgagt cctcttccag 4380
ctgtaccggg ctatatgact cctcgaccgg tggtctgggc ttctctttat ccagctagcc 4440
aagatgattt tgctctactc aagcaatccc tcgaacgatt aaatcttcaa gatgccgctc 4500
tgtcttttga agaggaaagc tcgggtgctt tgggacgagg ttttagagct ggttttctgg 4560
gaatgcttca tttggaaatc attagcgaac gattgaagcg agaattttct ttaaatttaa 4620
ttgtgacgac accgagtatt agttatcgtc taattaatac tcggaccaaa gaagaagtca 4680
ggattttctc tcctcacctt tttccacttg aaatcaagga ttatgaaatt tacgaatctt 4740
gggtagcggt tagaattatt agtcccgccg attatcttag tccgattatt caattacttc 4800
atgaacacga agcggaagta atgactatgg aaacttttag ttctagtcgc accgctttgt 4860
ctatcctcat gcctttacga gaattgatgc gtaatttttt tgatagttta aaaagtgtct 4920
cttctggctt tgcttctttt tcttatgaat tagccgaaga acgtctcgct gatgtctctc 4980
gcttggatat tttaattaat ggtgaaataa ttccggcttt ttcgcgaatt gtttcgcgtc 5040
gacgaatcga aaaggatgct tcggaaatgg ctgaacgttt agagggtttg attcccaaac 5100
aattgattac gattaaaatc caagttcaag gtttagggcg aattttggcg gcgcgttcaa 5160
tttccgctct acgaaaagat gtcactgact atctctatgg cggcgatatt actcgaaaaa 5220
tgaaattacg agaaaagcag aaaaaaggca agaaaaaaat gcaacagctg ggtaaggtaa 5280
atatccccca agaagttttt ctaaagatga tgcgaaatgc ggactagcgc ggactggacg 5340
cagactaatg cgaatttacc ctatggagta gcttgctata ctccataggg taaacgcaga 5400
tagtcacaaa caagacactg atcagatcag cgttttttta gcattgatcg gcgttttatc 5460
taaacaagaa ggggagagag taaagggcga ccatacttaa aataacaaga ataccaactg 5520
tcgctgagat gatttgaaag atttttttgt gtttgctctg aaataacatt agttgtagta 5580
taaggctgtg accagatttt atcaagtcga aaaacatttt aagtggctaa atgttctctt 5640
tcttattgtc actttaatct tggtgatttt tttggctcga ggggtttggc gagtttataa 5700
tcagagtcgt tttgctaatt ctaattatct tttgactaaa gatcgtctta ctaaattaga 5760
agacagacaa aaacaaatta ctgatcgtct agaaaaatta tcaaccgatc gtggtttaga 5820
agaagaattt agaaataatt tttcagtcgt gcgaccaggg gaaaaaatga ttttaattgt 5880
cgatagtatt gaaacagcta ctgatacagc cactactagt gaggctagtc tttgggggac 5940
tttaaaagcc ttattattaa gtcgttaatt aaaaaagcga gattggttca gcttgccctc 6000
ttaaatttct tgtgcaaata tgcgggtatg gtttagtttg ccctttaaaa ttttttgtcc 6060
gaacatgcga gtatggttta gtggtagaat gcgaccttcc caaggttgag acgcgagttc 6120
gattctcgct actcgcacaa aaaacttttt agggtgaata gaatgcgacc cccgaagaac 6180
agcaaagctg tctacggggc aggcttccca agcataagac gctggttcga ttcccgcatt 6240
tcgcacaatt ggccgattaa aatagtattt tattttttta tgtcctccac ctttaaacga 6300
actatcgaaa attttacttg tgctcattgt ggagcggagg tgattggtaa tggttatact 6360
gatcactgtc ctaaatgcct ctggggcctc catgtagatg atttcccggg agatcgagct 6420
aatccttgtt tgggcttaat gaagccgatt ggagtggatt tagcgaaggg agattatact 6480
ttaagctatc aatgtgaaaa atgtcacatc attaaaacta ataaaactgc tccggacgat 6540
gaacttaaca agtacttgac cggtatgtta taattgttaa ataagttaaa tttaaaatat 6600
aaaatgaaga aagttaccat ttattccact cccacttgtg gttattgtaa aattgctaaa 6660
caattcttta aagataaggg aattgatttt acagagattg atgtcactac tgatttagct 6720
gggcgacagg ccttagaaca aaaaattggc cgaattacgg gtgtgccagt aattacgatt 6780
gacgaagaag ccgtcgtggg ttttgatcaa gctcatattg cgaagatgtt agggatttaa 6840
actagtgaca atttaccccg ccttctgcca gccggtagag gatgggtttt tttggtaatt 6900
tgctaacaac aaacaaggag tctattatga agattaagtt tttgcctctg tagttcccgc 6960
cataatcctt aaataaattt aggattatgg cgggcgggaa acaagccggt taacgctctc 7020
atagttcaaa ggatagaact gtctcgtcct aagagaccaa tctccgttcg agtcggagtg 7080
agagcacaga ttaaaaaaca ttgactagag tcctacttgc cagcctaaga tttgctttag 7140
taaagttttg gcgggaggga aagatgtagg ttcgattcct accagaggca caattcgtaa 7200
cttggtcaaa tcattttcaa aacaaatgat accacacaca gaggagagga tatggggcac 7260
agccttcgtc agtttgataa ctcaaggaaa caaatctaaa aataaaactt caccgatgtt 7320
atcatttgga agccatctgc ttttcgtgcg tatttgaaac atttttggca acactccaga 7380
aatcggtagg gccggccgtc cttccatata gtttgtaacc aacttttact ggtcggccac 7440
cgtttggttt tcctggaatt ggtacgatga attgtcgcga tattccctgt aagtatgatc 7500
gtaacgataa tacagacccg tgtaataatt cttgaaaagt tactatctga cgagtagtgt 7560
tggtataaag atttgagtcg agataatctt caacggcgat tatacacctt gccagaaaat 7620
ccttttcttc aaccttttcc gatttagctt gctgtattgt attgaataca attttttcaa 7680
tatttcctct ataaggttcc attagatcgt aaactaaaga aggataatct gtcggaatgt 7740
ggagaaatcc atgatagggg ctcattcggt ggtaaattat ataacgcagt gtaataccgc 7800
ttattaattt tgaaaccgcg tccaaaatag attttatcgt atttgcccct cctctgcgtg 7860
aatatccact gtatccgagt attttataat attttttcca atataccttt gcatgctgtg 7920
cctcaatgtt taccatttgt ttaatagaat atcttttacc gtcaaataac attggatatg 7980
aaaccagcca actcatactt ttgaatttgg cttgtaaaat cttcttggca atgtggacac 8040
gtttcttctc attatttcta aatgagattt gcttacttaa gatatcatct ttggccgagg 8100
tttttacgct tggagtaatc catacggcat tactcattgt tcttcggtgt agacatatag 8160
gaacgccata ttttgcgcaa agttgtaaaa aattttcact taaatcacaa gttccaccat 8220
aaagcataat cgaaagaatg tttttaatgt ttgcggtata tttgccacct ttatattgaa 8280
aagttacaat atttttcttt acttctattt ggaaggtgta gggtagccat aagggtatct 8340
ttttattctt gctaatagac atgttttttg atattattac cctagaaaga gttaggtttt 8400
gaatacaaaa tctaacttat attttgtatt ttgtcaagta aaataaagag aaaagagaga 8460
acctcaccga aatttggaga ggataaggca agacaacaca catcttgcac cgaaatttgg 8520
agaggataag gcataccgct ctggctttga acaccgaaat ttggagagga taaggcaata 8580
ttcaaaatat ctagcaccga aatttggaga ggataaggct caatcttttt atagcctaca 8640
ccgaaatttg gagaggataa ggcaactcaa cataaagggt gcaccgaaat ttggagagga 8700
taaggcggat cgagataagt cgaacaccga aatttggaga ggataaggcg ctaacaaaat 8760
taccacccac cgaaatttgg agaggataag gcaaaccagc agggacttca caccgaaatt 8820
tggagaggat aaggcacaat tgtcatgttt attcaccgaa atttggagag gataaggctc 8880
gtttatgtta gcgaccacac cgaaatttgg agaggataag gcaagaaaca ataaccgcag 8940
aacaccgaaa tttggagagg ataaggccaa ttataatata gcctgcaccg aaatttggag 9000
aggataaggc aagatactgt tccaataaca ccgaaatttg gagaggataa ggcaaattat 9060
cataatccat tcaccgaaat ttggagagga taaggcatgg cttgtttttg taatcaccga 9120
aatttggaga ggataaggca cagggagaaa ttgcgaacac cgaaatttgg agaggataag 9180
gcgtttggca ataagtctcg caccgaaatt tggagaggat aaggcatggg tcaatccaac 9240
ccgtcaccga aatttggaga ggatgatggg tttggttcaa aaattctaag aatctgcttt 9300
attttcttca cttcacctac acggtctttc gtctcgttcc ttctagtaac acgagacctc 9360
gcctttccga ccgttctctt tgtctcttta ttttatctga cagaatatgc aaaaagtaag 9420
aaaaacttta tcagaggtac ataaaaatcc ttatggtaca aaagtccgta atgcaaagac 9480
tggctactca ctacagatag agaggctttc gtatactgga aaagagggga tgagaagttt 9540
taagattcca ctcgaaaata aaaataaaga agtttttgat gaattcgtaa aaaagatcag 9600
gaatgattat atcagtcagg ttgggttgct caatctttct gattggtatg aacattatca 9660
ggagaaacaa gaacattatt ctttggcgga tttttggtta gatagtttga gggccggagt 9720
gatttttgcg cacaaagaaa ctgagataaa gaatcttatc tctaagatac gtggtgataa 9780
atcgattgtt gataaattta atgcaagtat aaagaaaaaa cacgccgatc tttatgccct 9840
tgtcgatata aaagctctct acgattttct tacctccgac gcaagaaggg gattaaagac 9900
cgaagaagaa ttttttaact caaaaaggaa taccttgttt ccgaaattta gaaaaaaaga 9960
taacaaagcc gtcgaccttt gggtcaaaaa atttattggg ctggataata aagacaaatt 10020
aaattttacc aaaaagttta tcggtttcga tccaaatcct cagattaaat atgaccatac 10080
tttcttcttt catcaagaca ttaattttga tctagagaga atcacgactc cgaaggaact 10140
tatttcgact tataagaaat tcttaggaaa aaataaggat ctatacggtt ctgatgaaac 10200
aacggaagat caacttaaaa tggtattagg ttttcataat aatcacggcg ctttttctaa 10260
gtatttcaac gcgagcttgg aagcttttag ggggagagac aactccttgg ttgaacaaat 10320
aattaataat tctccttact ggaatagcca tcggaaagaa ttggaaaaga gaatcatttt 10380
tttgcaagtt cagtctaaaa aaataaaaga gaccgaactg ggaaagcctc acgagtatct 10440
tgcgagtttt ggcgggaagt ttgaatcttg ggtttcaaac tatttacgtc aggaagaaga 10500
ggtcaaacgt caactttttg gttatgagga gaataaaaaa ggccagaaaa aatttatcgt 10560
gggcaacaaa caagagctag ataaaatcat cagagggaca gatgagtatg agattaaagc 10620
gatttctaag gaaaccattg gacttactca gaaatgttta aaattacttg aacaactaaa 10680
agatagtgtc gatgattata cacttagcct atatcggcaa ctcatagtcg aattgagaat 10740
cagactgaat gttgaattcc aagaaactta tccggaatta atcggtaaga gtgagaaaga 10800
taaagaaaaa gatgcgaaaa ataaacgggc agacaagcgt tacccgcaaa tttttaagga 10860
tataaaatta atccccaatt ttctcggtga aacgaaacaa atggtatata agaaatttat 10920
tcgttccgct gacatccttt atgaaggaat aaattttatc gaccagatcg ataaacagat 10980
tactcaaaat ttgttgcctt gttttaagaa cgacaaggaa cggattgaat ttaccgaaaa 11040
acaatttgaa actttacggc gaaaatacta tctgatgaat agttcccgtt ttcaccatgt 11100
tattgaagga ataatcaata ataggaaact tattgaaatg aaaaagagag aaaatagcga 11160
gttgaaaact ttctccgata gtaagtttgt tttatctaag ctttttctta aaaaaggcaa 11220
aaaatatgaa aatgaggtct attatacttt ttatataaat ccgaaagctc gtgaccagcg 11280
acggataaaa attgttcttg atataaatgg gaacaattca gtcggaattt tacaagatct 11340
tgtccaaaag ttgaaaccaa aatgggacga catcataaag aaaaatgata tgggagaatt 11400
aatcgatgca atcgagattg agaaagtccg gctcggcatc ttgatagcgt tatactgtga 11460
gcataaattc aaaattaaaa aagaactctt gtcattagat ttgtttgcca gtgcctatca 11520
atatctagaa ttggaagatg accctgaaga actttctggg acaaacctag gtcggttttt 11580
acaatccttg gtctgctccg aaattaaagg tgcgattaat aaaataagca ggacagaata 11640
tatagagcgg tatactgtcc agccgatgaa tacggagaaa aactatcctt tactcatcaa 11700
taaggaggga aaagccactt ggcatattgc tgctaaggat gacttgtcca agaagaaggg 11760
tgggggcact gtcgctatga atcaaaaaat cggcaagaat ttttttggga aacaagatta 11820
taaaactgtg tttatgcttc aggataagcg gtttgatcta ctaacctcaa agtatcactt 11880
gcagttttta tctaaaactc ttgatactgg tggagggtct tggtggaaaa acaaaaatat 11940
tgatttaaat ttaagctctt attctttcat tttcgaacaa aaagtaaaag tcgaatggga 12000
tttaaccaat cttgaccatc ctataaagat taagcctagc gagaacagtg atgatagaag 12060
gcttttcgta tccattcctt ttgttattaa accgaaacag acaaaaagaa aggatttgca 12120
aactcgagtc aattatatgg ggattgatat cggagaatat ggtttggctt ggacaattat 12180
taatattgat ttaaagaata aaaaaataaa taagatttca aaacaaggtt tcatctatga 12240
gccgttgaca cataaagtgc gcgattatgt tgctaccatt aaagataatc aggttagagg 12300
aacttttggc atgcctgata cgaaactagc cagattgcga gaaaatgcca ttaccagctt 12360
gcgcaatcaa gtgcatgata ttgctatgcg ctatgacgcc aaaccggtat atgaatttga 12420
aatttccaat tttgaaacgg ggtctaataa agtgaaagta atttatgatt cggttaagcg 12480
agctgatatc ggccgaggcc agaataatac cgaagcagac aatactgagg ttaatcttgt 12540
ctgggggaag acaagcaaac aatttggcag tcaaatcggc gcttatgcga caagttacat 12600
ctgttcattt tgtggttatt ctccatatta tgaatttgaa aattctaagt cgggagatga 12660
agaaggggct agagataatc tatatcagat gaagaaattg agtcgcccct ctcttgaaga 12720
tttcctccaa ggaaatccgg tttataagac atttagggat tttgataagt ataaaaacga 12780
tcaacggttg caaaagacgg gtgataaaga tggtgaatgg aaaacacaca gagggaatac 12840
tgcaatatac gcctgtcaaa agtgtagaca tatctctgat gcggatatcc aagcatcata 12900
ttggattgct ttgaagcaag ttgtaagaga tttttataaa gacaaagaga tggatggtga 12960
tttgattcaa ggagataata aagacaagag aaaagtaaac gagcttaata gacttattgg 13020
agtacataaa gatgtgccta taataaataa aaatttaata acatcactcg acataaactt 13080
actatagagt tctcttcatt ggattgaaaa tagatccgat tcctaccaga gacaccaaat 13140
aaatttaaaa ttaaaaatta cctgccaaaa tttcgttcaa cgaaacttaa gcaggcaaga 13200
aaatttaaaa ttaaatccgc tggtgggcgg ataaagtcaa aaattgaaaa tatattaaat 13260
tgacaatatg ttctttatta gagtgcgatg tttgaatacc tcggggcttc gaatcagtag 13320
attcgtggct tggccataaa tccacaggta ttcaaacacg cgatgtgttt tgtatggccg 13380
ggtgggccat acctattcta acaaaacaac catggtgttt ggcgtgccta atacctcatc 13440
ggctctgccg tgaggatagg acacgcaact tgttttatta tgatataatg aaaggtagaa 13500
attgtcattt tgtaatggaa cagtaaaaaa gaggtgccgg tgatgaacaa aagagtgact 13560
aaaggagaca tcaggattta cctgatgatg tggaagggtg ctattatgac cgtctgtgtc 13620
gcgagtctgg ttggcatcat ccttggtcca gtctatcttt tgatcatttt tccgttgaag 13680
aaaatgatca gaaggtattc gatcgatttt tcggatttgc tcaaaggtct ttgatgactt 13740
ttaggcaaga agattgtttg ttagctctct accgcaagga ggagggcttt ttcttttttt 13800
taaattaatt tacctttca 13819
<210> 23
<211> 34045
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (29562)..(29573)
<223> n是a、c、g或t
<400> 23
atgttccctc ttcttttcgt tgcctctgaa taagatttgc ttactcaaga tatcttcctt 60
agaagacgtc tttatgcttg gggtaatcca gatcgcggta ctcatcgttc tgcgatggat 120
gcaaacagga acactatatt tagtgcatag ttgcaagaaa tcctccttta aatcacaggt 180
gccgccataa agcattatcg ataagatgtt tttgacgtca gcagaataga cacctccttt 240
gtaatggaaa gttatcttat cttttttcac ctctattgcg gaagtataag ggaaccatag 300
ggggattctt ctgttgttat ttttcatgtt ttgatatata attacactag atatgggcac 360
atttcaggag taaaatctaa cccatttttt gtattttgtc aaataaaata aaggtaaagg 420
agagaacctc tccgaattat cgggaggata aggcagcgtc tgataattct tcctccgaat 480
tatcgggagg ataaggcaag actggtaaac tctagctccg aattatcggg aggataaggc 540
acagtaacaa catacgggct ccgaattatc gggaggataa ggcaaactaa ccgttgctct 600
actccgaatt atcgggagga taaggcaaag cgtttaaagc cgacactccg aattatcggg 660
aggataaggc aaacgcccta taacgcaatc tccgaattat cgggaggata aggcgtagtt 720
agtggataat ttactccgaa ttatcgggag gataaggcga cgctgacgat aaactgctcc 780
gaattatcgg gaggataagg cacaaacatt tcctcgacat ctccgaatta tcgggaggat 840
aaggcataat tactcgctcg acactccgaa ttatcgggag gataaggcaa aatcatatcg 900
ttcttgctcc gaattatcgg gaggataagg caccccgaca aaattaagcc tccgaattat 960
cgggaggata agtatggata tttccacaat cttgaaagaa agatttgtta gcctttaatc 1020
cattctcctt tccctttatt ttatctgaca acatatgaaa gctaaaaaaa gtttttataa 1080
tcaaaagcgg aagttcggta aaagaggtta tcgtcttcac gatgaacgta tcgcgtattc 1140
aggagggatt ggatcgatgc gatctattaa atatgaattg aaggattcgt atggaattgc 1200
tgggcttcgt aatcgaatcg ctgacgcaac tatttctgat aataagtggc tgtacgggaa 1260
tataaatcta aatgattatt tagagtggcg atcttcaaag actgacaaac agattgaaga 1320
cggagaccga gaatcatcac tcctgggttt ttggctggaa gcgttacgac tgggattcgt 1380
gttttcaaaa caatctcatg ctccgaatga ttttaacgag accgctctac aagatttgtt 1440
tgaaactctt gatgatgatt tgaaacatgt tcttgatagg aaaaaatggt gtgactttat 1500
caagatagga acacctaaga caaatgacca aggtcgttta aaaaaacaaa tcaagaattt 1560
gttaaaagga aacaagagag aggaaattga aaaaactctc aatgaatcag acgatgaatt 1620
gaaagagaaa ataaacagaa ttgccgatgt ttttgcaaaa aataagtctg ataaatacac 1680
aattttcaaa ttagataaac ccaatacgga aaaatacccc agaatcaacg atgttcaggt 1740
ggcgtttttt tgtcatcccg attttgagga aattacagaa cgagatagaa caaagactct 1800
agatctgatc attaatcggt ttaataagag atatgaaatt accgaaaata aaaaagatga 1860
caaaacttca aacaggatgg ccttgtattc cttgaaccag ggctatattc ctcgcgtcct 1920
gaatgattta ttcttgtttg tcaaagacaa tgaggatgat tttagtcagt ttttatctga 1980
tttggagaat ttcttctctt tttccaacga acaaattaaa ataataaagg aaaggttaaa 2040
aaaacttaaa aaatatgctg aaccaattcc cggaaagccg caacttgctg ataaatggga 2100
cgattatgct tctgattttg gcggtaaatt ggaaagctgg tactccaatc gaatagagaa 2160
attaaagaag attccggaaa gcgtttccga tctgcggaat aatttggaaa agatacgcaa 2220
tgttttaaaa aaacaaaata atgcatctaa aatcctggag ttatctcaaa agatcattga 2280
atacatcaga gattatggag tttcttttga aaagccggag ataattaagt tcagctggat 2340
aaataagacg aaggatggtc agaaaaaagt tttctatgtt gcgaaaatgg cggatagaga 2400
attcatagaa aagcttgatt tatggatggc tgatttacgc agtcaattaa atgaatacaa 2460
tcaagataat aaagtttctt tcaaaaagaa aggtaaaaaa atagaagagc tcggtgtctt 2520
ggattttgct cttaataaag cgaaaaaaaa taaaagtaca aaaaatgaaa atggctggca 2580
acaaaaattg tcagaatcta ttcaatctgc cccgttattt tttggcgaag ggaatcgtgt 2640
acgaaatgaa gaagtttata atttgaagga ccttctgttt tcagaaatca agaatgttga 2700
aaatatttta atgagctcgg aagcggaaga cttaaaaaat ataaaaattg aatataaaga 2760
agatggcgcg aaaaaaggga actatgtctt gaatgtcttg gctagatttt acgcgagatt 2820
caatgaggat ggctatggtg gttggaacaa agtaaaaacc gttttggaaa atattgcccg 2880
agaggcgggg actgattttt caaaatatgg aaataataac aatagaaatg ccggcagatt 2940
ttatctaaac ggccgcgaac gacaagtttt tactctaatc aagtttgaaa aaagtatcac 3000
ggtggaaaaa atacttgaat tggtaaaatt acctagccta cttgatgaag cgtatagaga 3060
tttagtcaac gaaaataaaa atcataaatt acgcgacgta attcaattga gcaagacaat 3120
tatggctctg gttttatctc attctgataa agaaaaacaa attggaggaa attatatcca 3180
tagtaaattg agcggataca atgcgcttat ttcaaagcga gattttatct cgcggtatag 3240
cgtgcaaacg accaacggaa ctcaatgtaa attagccata ggaaaaggca aaagcaaaaa 3300
aggtaatgaa attgacaggt atttctacgc ttttcaattt tttaagaatg acgacagcaa 3360
aattaattta aaggtaatca aaaataattc gcataaaaac atcgatttca acgacaatga 3420
aaataaaatt aacgcattgc aagtgtattc atcaaactat cagattcaat tcttagactg 3480
gttttttgaa aaacatcaag ggaagaaaac atcgctcgag gtcggcggat cttttaccat 3540
cgccgaaaag agtttgacaa tagactggtc ggggagtaat ccgagagtcg gttttaaaag 3600
aagcgacacg gaagaaaaga gggtttttgt ctcgcaacca tttacattaa taccagacga 3660
tgaagacaaa gagcgtcgta aagaaagaat gataaagacg aaaaaccgtt ttatcggtat 3720
cgatatcggt gaatatggtc tggcttggag tctaatcgaa gtggacaatg gagataaaaa 3780
taatagagga attagacaac ttgagagcgg ttttattaca gacaatcagc agcaagtctt 3840
aaagaaaaac gtaaaatcct ggaggcaaaa ccaaattcgt caaacgttta cttcaccaga 3900
cacaaaaatt gctcgtcttc gtgaaagttt gatcggaagt tacaaaaatc aactggaaag 3960
tctgatggtt gctaaaaaag caaatcttag ttttgaatac gaagtttccg ggtttgaagt 4020
tgggggaaag agggttgcaa aaatatacga tagtataaag cgtgggtcgg tgcgtaaaaa 4080
ggataataac tcacaaaatg atcaaagttg gggtaaaaag ggaattaatg agtggtcatt 4140
cgagacgacg gctgccggaa catcgcaatt ttgtactcat tgcaagcggt ggagcagttt 4200
agcgatagta gatattgaag aatatgaatt aaaagattac aacgataatt tatttaaggt 4260
aaaaattaat gatggtgaag ttcgtctcct tggtaagaaa ggttggagat ccggcgaaaa 4320
gatcaaaggg aaagaattat ttggtcccgt caaagacgca atgcgcccaa atgttgacgg 4380
actagggatg aaaattgtaa aaagaaaata tctaaaactt gatctccgcg attgggtttc 4440
aagatatggg aatatggcta ttttcatctg tccttatgtc gattgccacc atatctctca 4500
tgcggataaa caagctgctt ttaatattgc cgtgcgaggg tatttgaaaa gcgttaatcc 4560
tgacagagca ataaaacacg gagataaagg tttgtctagg gactttttgt gccaagaaga 4620
gggtaagctt aattttgaac aaatagggtt attatgaatc taaaaatagt cgtgatcaac 4680
aaactcaatc atttgaaaaa tttttatcgt cgccatccaa agaaaatcct ttggttgggg 4740
gtgccattgc tattgcttat cgggttgggg gcttgggctt atactcggag gactcaaccc 4800
gagttcgaaa cagaggtggt gaagttgggc gaggtggccg atgtggtgag cgatactggt 4860
ttggtgacgg ccgagaatga tctcactctc tcgttcgaga cgggcggggt cgttcgcacg 4920
gttaaggtta ccgaaggtga cgcggtttat cgaggacaga cgttagtctc gctggatgcc 4980
agtttgaagg cggcggaagt ggcgagcgcg cgcgccacgt tggccgctca agaagccaaa 5040
ttggctgaac tggtggcggg cccgaccaag ctagatttag cttcggccaa gacgaaactc 5100
gagaacgccc gcaagacctt gctgaccgcc gacctgcaag cgtacttcgc cggtccttca 5160
gccgattatg cggcttcttc attcacttat acggcgccga cggttttggg gacttacaat 5220
tccgatcaag agggcgaata cgtgcttgag ttatatcaat caggcgcgcc gtcgggctac 5280
tcggtggagt actccggttt ggagacgggg attatggagg gcgccgaagg acgagccgag 5340
cccttgggcc ggcgcggtct ctatctccaa ttcccggaga acttcattcg ggcgccagag 5400
gtaatttggc gcgtgcctat ccccaacacc aagtccgctt cttatgctac taaccggcgc 5460
gcctacgaac aggctcaagc cgattacgac ctgaaagtgg ctggcactcg cgccgaacaa 5520
attgtcgccg ccgaagccca agcgcgccaa gcccgcgcca ccctccaatc ggcgcaggcc 5580
tcgctgtcca agctctccct tacggcgccg gtggccggtt tggtgaagtc cgttccggtt 5640
accgtagggg agacggttac cgttggttca ccagctgtgg cgttggtctc ggatcataat 5700
tattacgtga ccctctatgt gccggaggct gagatggcca acttgacggt cggcgacttg 5760
gccgagatcc ggctcaaggc cttccccgat cgcgtcttcc gcgccaccgt ggggagtgtg 5820
gccccggcgg ccgaagatcg tgatggcgtg gcttcgttta aagttaaatt atatttccaa 5880
gaatccgatc cccaaattag agtggggatg tcggctgacg tcgaccttga ggcgcttaag 5940
aagaccgacg tcatggtggt gcccgggcgg gcggtggtgc gctctaatgg gcgaatcttt 6000
gtccgggttt ggagcaataa gaccgtcgag gaacgctcgg tggagattgg tctgcgtggc 6060
tctgatggct cggtggagat tgtctcggga ctctcggtgg gcgaagaggt gattactttt 6120
atccgtgacg aggagttgga tcgcttggcg gactaattcc ctttcggcgt ttatggcttt 6180
acttgaactc gaccaagtta ctaaatctta ttatagcgac gatctcacca ctcagatctt 6240
gcgcgggatt tcgtttacca ttaatgaagg cgaattcgtc tcgattatgg gcccgtccgg 6300
ttcgggcaaa tcaaccctct tgcacgttct cggattcttg gctgatcgca ccgccggtac 6360
ttaccgcttc aacggcaagc aatttgccga acataccgat gaggagatcg cgcgggtacg 6420
caatgaagaa atggggttcg tcttccagac tttcaactta cttggtcgta ataccgtctt 6480
cgaaaatgtg cgcttgccgc tcatctactc gcgcgtgccc gaaggagagt ggccggcctt 6540
ggttgatcag gctatcgccc aagttaagct tgatcatcgg cgcgactatg cctgctccaa 6600
gctctccggc ggcgagcaac aacgcgtcgc catcgctcgc gccttggtca accgacccaa 6660
cgtcctcttc gccgacgaac cgaccggcaa cttagactcc gcttcggggg gagcggtgat 6720
ggatacttta caacacttgc atgaagattc tggtcagacg gtgatcttaa tcactcacga 6780
gacctatacc gccgagcatg ctcagcggat catcaagatt ttggatggcc gggtcgaagc 6840
cgatttcaga cttgagacca gacgacgcgc cagcgagggt tatcataagt agttcgattt 6900
aatttatcct gagggtaatc gaaggactca ccacaagtaa aatgcaacgt tacaaattta 6960
gcttcctttc ggccttggag gcgatcaaaa ccaatcgtac gcgctctatc ctcaccactt 7020
tggggatcgt tattggggtg gcggcgatca ttgtgattat gtcgttgggc gccggcgccc 7080
agagtttaat tttaaatgag atcaatcaga tgggggccga gacggtcatc gtgttgccgg 7140
gtgagatcac tgatgccgcg gcggttttct cggactcact gacgcaacgt gacctggccg 7200
cggtgaaggt taagtccaat gtgcccaatt tggcgcgcgc cgcgccggcg gtcatcgtcc 7260
caggcaagac cacttataga ggtacgactt atacccccgc catgattatc ggcactgaag 7320
cggaattctt cggtgaggtt tttaatattt accctaaggt gggcacaatc tatgatcaag 7380
atgatatcga gacagcggcg cgggtggcga ttattggcga caaggttaag accgagcttt 7440
ttggcgcttc tgacgcggtg ggcgagcgga tcgatatcaa gggcaagcaa ttccgcgtgg 7500
tgggggtgta tccaacgacg gggcaaaaag gacctttcga tatcgacggc ttggtgatga 7560
ttccgcacac caccgcccag acttatctct taggcactaa ctattatcat cgccttatga 7620
ctcaagccga cagttcggac aatgtcgaga aattggcaca cgacatcacc gcgaccctgc 7680
gggagactca tggtctttat cctggtgatg acgacgactt ctcggtggta actcaacaag 7740
cgctggtgga tcaaatttcg atcattatca acattctcac ggccttcttg gcggccgtgg 7800
tggcgatctc cttggtggtg ggcggtatcg gcgtgatgaa tattatgctc gtgtcggtga 7860
ccgaacgcac taaagagatt ggtttgcgca aggcgctcgg ggcgacccgc tcggccatta 7920
tgacgcaatt tctctttgag gcgattgcgc tgaccttgtt tgggggcgtg ctggggatca 7980
tgatcggcgc ctcgctctcg ctcgtgctct cggggattct cacttacgcc gtggggctca 8040
attggtcctt ccacttcccc attagcgccg cgatgctcgg ggtcacggtc tcggcggcgg 8100
tcggactggt gtttggcctc tatccggcgc gtcgcgccgc cgccaaagac ccaatcgaag 8160
cgttgcggta tgaatagaac cggggaggtt tgacgtgact attgattagt gttagactat 8220
tgaaggaagt taatttgatt ttttgttcga aacaaagaaa aaaagaagga ggttaccatg 8280
tcggataaaa tcgtgagatt gcctcacctt aaagtttggc aacgagatcg gtgttggtgg 8340
ggacaattac tcttcactga tcgctcgatg agcgaagagt tcaacggcaa gttcttggcc 8400
ttggtcgctc tgcttgaagc ccaagagcga aaaagtgttg ttaatgaaga catcctcgat 8460
ctacttgatc agattgggaa atccccattg tcggagacag attgtcttcg gctacgacgt 8520
gacggtcatg ataaggtaga tgtggttctg gttaaaatta tgagaaattg ggtccgcgac 8580
tcggctcaaa atgagcgacg tgaatttgag ctcgtaagtt ttaaaaccac cattatgtcc 8640
aaacaggcgg cgaaagccac cttcaactga aatttttctc gcctgcgaat ctccaagcag 8700
accggtccga gcacgtgttg ctcgggccct ttatttttaa taaatatttg cccgaggatt 8760
gttttctcaa attctctttt ttctttaagt cggggttttt ggactgaaac ggaagagttg 8820
taatctagaa actcactttt tttggatggt ttttcaacaa atagctgtta caatagaaga 8880
gtggaaaaat aaaatgagtt gttttaaacc aggtacgggt aatcgaaagc tcagcacaat 8940
tccgggtttt accttgattg aaatcttggt ggtggttgcc attatcggta ttttgtcggg 9000
aataatttcg aataatttaa ggggtgctaa aattaaagcc cgagaagcct cggcccttca 9060
aaatgcgcgg caattagatt tggcggtatc gctttttgaa atagataaag gttattatcc 9120
gggaaccctg ggggttgaga caaatcaaga tgaccaaacg actggttgga aagaaggacc 9180
aggaaccctg cacgacgatc tggttcccaa atatatttct aaattaccca cgagtgatga 9240
gataaagttt atttatcttg ccgatgaacc atgtcccaac gaccagacga aaccttgtcg 9300
agctaagata gttatcgata ctgaccaaat tgtcgatggt gacggaggga cacccccacc 9360
acccccacca cccccaccac cagctaaggt gattgttccg gacttggtta ataaaaccga 9420
agccgaagcc ctcggggcca tctcggcggc taatttagca gtaggcttca atgatgatgg 9480
gtgtagtgat atggtttctt ctggttatgt tttttctcaa tcgttgacgg ccggtgctag 9540
tgttgatgaa ggtacggcga ttaatattgt tgtttctgcc ggagggtgta tttctccgcc 9600
accggtcggg tcgatcccta tctcaagttg tggcacaata ataactcaac ctggagatta 9660
ccatctggcc ctggtggagg agaccgagtt gaatcaaact aattccggga tctgtattta 9720
tgttaacaat gttgataatg ttaatttaga ctgtcagaat ataaagataa agggtaccga 9780
taccacagag tcatcgaaac aatatggcgt aattgtcggt aattcgtctg gggtggccgt 9840
taaaaattgt ctgattgaaa acgtcggcac cggaattagg gtatattcgt ctgataacat 9900
ctcgattgaa aacaatcgac tgtcaaactt aggcagggaa gggatgtatc ttaaagataa 9960
ttcagatgtg attattcgaa ataatcagct gaccaacgcc ggtgcaagag cgattgctat 10020
ttatcgagaa tgggcgagtc ttatttccgg ttacgctgtt gataataaca ccatcaaggg 10080
ggggtcctat ggtattacgt tcgggcatct gtttaccgac agtcgtcctc ccggtgagat 10140
taaagagatc gttataaacg gcaataattt atatgatatt gtcactacgg ctctatcctt 10200
aaatttagtc gagaacctct caatcattaa taattacatt tatgacccga aaatattcct 10260
ccaaatagac gattctaaaa atttactcat agacaacaac ttcggccaaa atatcacctg 10320
ggacatgttt atcggctatt cagataatgt aaccttttct aacaataagc ttaagagcgc 10380
ttcggcgact aaatcggtgg ttttagtttg gatgtttagg gttaataact tagatttctc 10440
tcgcaacgaa attgaaggct acaatcgtaa tttgttaaaa cttgacgata gttatgattt 10500
ctcgatcaaa aataatattt tcaatagccg ggttggtgtt tatgaagggg tgattttggg 10560
taaaggtttt ctcggtgtat ctggtgaagt ttctgaaaat gatttttacg gcggtggcga 10620
gggcgtctct ttagctttag atatttatca taattcggcc aaccgtctgg cgatctttaa 10680
taataatttt attgattatt tgggggcgtc gttaagatat gattctagtt ttttggattt 10740
aggagctaat tattatggta caaccgactg tgccttattg cgggcgacaa cttggcccga 10800
ctgggtgata ataccacctt cttctggttt acccagtcct ttgctttact tggattcgtt 10860
ttggcctaaa gggaacgttc aaacttgcaa ttaatttagg ctaaactgcg agtgaggtgt 10920
ttttcttgat atttagatta aaaagtgata taagtataaa agagaaagga ggttctgatg 10980
tctcaaatgg gtattgccca cgcgctcttt tacaagcgag gggattgtct ccaagctcgg 11040
atcgttttcg gcgacggtcg cttgagcgaa gagttcagct cccgtctcga agggatggag 11100
attctgacaa aatctcgtca ggataagctc atttctcatc aagagatgac ctctctggcg 11160
ttggaatttg cggaatcgac tttgccggcg agaactccgt cggcggaaat tgttgacggc 11220
cttctgatgg cgatgaagct tgacctttga aagctttatc aaaaccgctc tccggctgat 11280
ctcggggcgg tttttttgtt taaatttaaa gggatggagt tatttcgagc gggggatgcg 11340
atgcttctga tgagtgaagt tggcgttgaa gtttgacttg aagttttgat tgttcggccc 11400
gcccgatttc tgaaacttga agactgacgg ggtgcggaaa ccggcgttgc ccggttgttg 11460
ctgtttgttt tgtttgctcc gattggtgtt tttcatatcc tttaattata aatcgaagtt 11520
ggattatggc aagcagtaag ataaacgtcc taattgtgac gtgattgaca gaaaagataa 11580
aacaatgtag gatagatttc ggatcctgaa ccttcaactc tcctcaacag aatcaacaga 11640
aaggaagaca gaatgaagaa gatgcttgtc ttgttgtccg cgtttgtctt gaccatcgcc 11700
gagctggctt cggccggatc gttctctgac ccgttcgatg cccttgattc ggcttgggtg 11760
accgatcggt tcgagccggc cggattctcc agcgtcgtct tcgacggcga caatcggttg 11820
gagattgcga ttagcgcgac cgactcggag gctaatcgtc cggccgggtt cactagtggg 11880
ttttataaca cgcaaggccg tcaacgagat gccttgatgg cggaaccttg ggtcatctcc 11940
ggcgatcttt acttgtcgct ggatatgctc ttgggcgaca atttgcgccg gactgatctc 12000
tgggcgcgaa cttcggacgg tccggaggct aatgcgcaat acccgattat cgggatgcgt 12060
cggtttgacc cgcttgatcc cttcaacccg ctggcgggtg atattgcctc aacttggcga 12120
gtctgggatt cggacacggt cgacggttgg gtcaatttgg ccacgccgat ggtggctggt 12180
tggaacacgc tttcgattga gagtgacggt ctatcatatc tctatcggat caacggggtt 12240
gaggtctatg aggacctcac catcagcgct ttcgcgaccg atctgaccac ggtctttctc 12300
caaggttata acttcggcgg tgactacgaa gtctattggg acaatgtctc tgccgccacc 12360
ttggctccgg tgcccgagcc ggccacgatc ttgcttttaa tgctgggggc cggcgtggtg 12420
gcgattcgtc gtcatttcgc gaaacaacaa taactaactt gagaggttag ggtccgccaa 12480
cccgttcgct gtcgcgagcg ggttttttta ttggcgagaa gttaaggggt gatgtttagt 12540
tgaccaaggt aatagcgaag ggtgtagagc caatcctcgt cttcttcgcc ggcttccagt 12600
ttttgtttca gaagccattc gagataaccg cgatcggtct tggccacttc ggcgagcgtt 12660
cggtctttat gcttgccaaa accgaatttt ttgaagagtg acggacgaga cgagatctca 12720
atcattttgg cgagcgtttc ttcgtcggag agttcgcgcg aacccaagag cgagccgtcg 12780
ccggctttca atttttgcca taaccgatta aacagcgctt cggtcaccaa aacatcgccc 12840
acggcgtcat gagcggtgcc atcaagatcc aagtcgagat aataacgcaa gaattgcaga 12900
ttgtattccg gaatcacccc ttcggtatcc agttcgcgag ccaagcgcag ggtgcagata 12960
tattgcggca ctttgactcc ttcggcggcc aagatagcga tgtcgaattt ggcattgtgc 13020
gccaccaaca cgtgatcagc gagaagggtt tccagctcgc gacggaaggc gctctcggcg 13080
aagggttctt tgtcggccac cagcttattg gtgatgtgag tgatactcat cgacttaacc 13140
gagatgggga ctggcggctt gaagtaggcg gtgcgagtgg tggttttggt tttgtagcag 13200
acctgacaaa ggcgatcttt ggtcacgtcg ttgccggtgg tttcggtatc taagaataag 13260
atttccatgg tcggttaagc ggccggttgg tcggtcgaat caaccttaac gttttggata 13320
attacgggcg tgacggggcg atcgttttgg tcagtggcga cttggccgat ctggtttaca 13380
atttcttgtc caacagttac ccgaccgaag atggtgtagt tattgggtag cggataatct 13440
tcgagcatga taaagaattg actgccgttg gtattgggac cggcgttggc catcgccaac 13500
acgccttgcc ggtagccggc ctggtatgac ggagtggccg gatcgagctc gtcggcgaat 13560
tggtaaccgg ggccgccggt accgcagggg ccggtggcgg ggactttggc ggattcaggt 13620
gaacagttcg ggtcgccgcc ttggatcata aaacccttga tcactcgatg gaaggtgaga 13680
ccgttgtaat aaccggctcg ggccagcttg ataaagttgg caaccgtgtt gggggcgtct 13740
ttttcgtaga gaacgagggt aatctcgcca agattggttt gcaaggtgat ttggttaggc 13800
atagttgagg tggtcagtcc cgagcttgct cgcggtgagt tcgtcgaatc cgtcgaggtg 13860
gcttgagatt gataaatgtt acttgttaaa tcggcaggat tgggcgctct ctgatttaac 13920
ttttgccaac caaaaagtcc agccaggccg agtaaaataa taagaactaa aatcacctgt 13980
ttgttcatgg gaattgagaa acgggttaaa gatgggctga taattgtgaa ttataacaat 14040
aaccgttaga gtaaggcaat gaagagtgaa gaaccggaag attatcggct aggttggcgg 14100
cccttcttgg gttgccaagt ggatctctct cagcgaccgt tgattccgcg cgaggagacg 14160
gaattctggg ttgatcaagc aatcaaggaa cttaaaccag aatcaaccgc cggcaaacaa 14220
gtcttggact tgtttgccgg ttccggttgc atcggcttgg cggtgcttga gcactgtccg 14280
ggcgtggcgg tgactttcgg cgaaagggag gaaaaatttt gtgggcagat tcggaagaac 14340
ctcaagttaa acccgccagc cagatttgat ttcccgccag accttcgggc ggcctctcaa 14400
ggtctggcgg gtggaaggac catggcctct caaggtctgg cgggtgaaag gaccatggcc 14460
tctcaaggtc tggcggggcg aattagagtc gagtcgtcgg gaaaggttgt ccaaaccgac 14520
attttttcca aaatcaaagg gcagtttgat tttattttcg ccaacccgcc ttatgtcgcg 14580
accagaagaa gtcgggttca agcctcggtg cgcgactggg agccggccgg agcgctcttt 14640
gccggccccg acggtttggc ggtgattcga ccgtttttgg ttgaagcgaa aaaacgtttg 14700
cacccgggtg gccggattta tttggaattc ggttacggcc aaaaaggcgc tctggaagag 14760
ttattgcggc aaaacggata taaaggttgg tcgtttcggc gcgaccagtt tggccgctgg 14820
cgttgggtcg tgatacaata gcggtatcaa aagttaattt tttaattcta aaattttatg 14880
acagacaaaa acaaagcttt cattctctgg ttcaatgatt tgacaattgg cgacgtcggt 14940
ttggttggcg gcaagaacgc cgctttgggc gaaatggtca acaacctggt tccgcttgga 15000
gttaatgtgc cgaatggttt cgcgattacg gcgcacgctt acgcctactt cttagacaag 15060
acaggcttaa aacagaggat taaggaaatt ttgaccgatc tcaatactca caatatcaac 15120
gatttgcaaa aacgcggcgc ccaagtccgc gccgcgatta ttaaagaaga attgccggaa 15180
gaactgcaag tggagattat caacgcttat cgcaagctta gcgccaacta tcacagccag 15240
gccgtggatg tggcggtgcg gtcttccgcc acggccgagg atttgcccgg ggcctcgttt 15300
gccggtcaac aagaaactta tcttaatgtc gccagcgaaa aggagttgat gttgtcggtg 15360
cgcaagtgct tcgcctcgct ctttaccaat cgcgccatct cttatcgggt tgataagggt 15420
ttctcaatgt ttgatgtttt gctttcggtc ggggtacaga agatggtgcg cagcgatttg 15480
gccgcggccg gcgtgatgtt ttcggtcgac accgaaaccg gtttcgataa ggtggtggtg 15540
atcaacggtg cctacggttt gggcgagatg gtggtcttgg gcaaagtcac tcccgatgaa 15600
ttcgtggtct tcaagccgtc gctggagcgc ggttatcagg cgattctctc caagacgctt 15660
ggtcgcaagg acgtgaagtt ggtttacggc gccaagggca ccaaacaggt gtcggtgccg 15720
gccaaagagg tgaaccgttt ttgtctcaaa gacgaggagg tttccaaact ggccgcttgg 15780
ggcctgacca ttgagaaata tttttccggc aaacacaatc gctatcaacc gatggatatg 15840
gagtgggcca aggacggcaa gaccggcgaa ctctttattg ttcaagctcg ccccgagacg 15900
gtccacgccg aagccgacaa gaatgtttac gaagagcata ttttgaaaga gaaaggcaag 15960
gagttggttc gtggcaacgc catcggcgcc aagatcactg ccggcaaagt gcgcctgatc 16020
aagagcgcca accagatgaa caccttcaag ccgggcgaga tcttggttac cgagatcacc 16080
gatccggatt gggaaccgat tatgaagatc gcggcggcga ttatcaccga gaagggcggg 16140
cggaccagtc atgcggccat tgtctcgcgt gagcttggag tgccctccat cgtgggcacg 16200
ggcaacgcca ccaaggtgct aaaaaacggc cagctggtga ccgtggattg ttcctccggc 16260
aaagaaggag tggtttacga aggcaagctt gcctttgaga aaaaagaaca tcgtctaacc 16320
gctaccgcca agacgcgcac caaggtaatg gtcaatatcg gttcacccga cgatgccttc 16380
cgcaatttct atttgcccgt ttccggggtc ggtttaggtc ggttggaatt tatcattaat 16440
tcttacatca aggttcaccc caacgcgctc ttggattaca aagagcttaa ggccagtcgc 16500
gatccgcgcg ccaagaaggc ggttaaggcg attgatgagt tgacggttga atacaaaaac 16560
aagaccgatt attacgtcgg cgaattggcc gaaggggttg ccaaaatcgc ggccaccttc 16620
tacccgcacg acgtgattat ccgtttctcc gatttcaaga ccaacgagta ccgcactctg 16680
atcggcggcg atctctacga gccggaagag gagaacccga tgatcggttg gcgcggcgct 16740
tcgcgttatt atgatcccaa tttccgtcgc gctttcgcct tggaatgtcg cgctctctac 16800
caagtgcgta gcgagatggg cctttccaac gtgatcccga tgattccctt ctgtcgcacg 16860
gcggaagaag gccggcaagt ggtggagatt atgaccgaag ccggtctgga ccgtcaggct 16920
gacccttcgc tcaagattta tgtgatgtgc gagattcctt ccaacgtggt ggaggccgat 16980
gcctttttgg aagtcttcga cgggatgtcg atcggttcca acgacctgac ccagctgatg 17040
cttggtttgg atcgcgattc caacttgatc agccatatcg ccaacgagaa tcatccggcc 17100
gtcaagaaga tgattgaggt ggcgattaaa gcttgtcggg ccaagggcaa gtatatcggc 17160
atttgcggtc aggcgccgtc cgattatccg gagtttgccg attttttggt gcagaacggg 17220
atcgggagca tctcgctcaa tcccgattcg gtgattaaga ccttacccgt gattgaggcg 17280
gccgaagaga agtatcccca aagataataa aaatatgaaa atcgcttttt ttgaattgga 17340
gacttgggaa aaaaaatact tgcaagagcg aactctgccc ggcgaggtcg tttttatcga 17400
cggaccgttg gatgagacca agttgccgga gcaaaacgat ttcgacgcca tttcggtttt 17460
tgttaattcc attgtcggcg acaaagtgtt gggacatttt cccaatctcc agttgattgc 17520
cacccgctcg accggttatg atcattttga cctgccaact tgcgccgctc ggggggtcaa 17580
ggtggccaac gtgccgagtt acggcgaaga taccgtggcc gagtacgcct tcgccttaat 17640
gctcactctc tcgcgcaaga tttgcgagag ttatgagcgt attcgcgaga ccggcagttt 17700
cgatctcacc ggcctgcgcg gctttgatct gaagggcaag accttggggg tgatcggcac 17760
tggtcggatc ggcaaaaacg cgatcgagat cgcgcggggc ttcaatatga atatcgtcgc 17820
ttacgacaaa tttcccgacc cggtttatgc cgaaaagatg ggctatcgtt atctgtctct 17880
ggacgaggtg ctggccacgg ccgatatctt gaccttgcac gtgccctacc tgccggagaa 17940
tcatcatttg atcaatgccg aaacgctggc caaaatgaag tcgggggctt acctgatcaa 18000
caccgctcgc ggtggcttga ttgacaccgc ggctctgctc gtggcgctta agtcggggca 18060
aattgccgga gccggtttgg acgtgctcga agaggagggc gtaatcaaag atgaggtcaa 18120
tttcttaacc aacggtcgct tggatcaagg cgatctgaag acggtgctcg gcaatcatat 18180
tttgattgat ttgcccaacg tgatcattac tccgcataat gccttcaaca cttgggaggc 18240
gctgaagcgc attttagaca ccaccgtggc gaatctggtg gcttttgaag ctggaatgcc 18300
gcaaaatttg atcagtggcg attaaggcgg tttattgacg ttttaccttg ataacggtac 18360
aataaggtca gattccgttc ggggtgagtg gaaaaacgtc ggttctagac aacggaagga 18420
gattttatgg cccagaagtc tgccactgaa attgtttgag ctcgtctgtc tgcgtgaccg 18480
acgagcttgt gttttgttta aataaaaaga tggctgaatt caatttcaaa atcgaaaaga 18540
aaattgccgg ccgtctcggc cgagcgggaa caataatgac gcctcacgga gacatctcca 18600
ctccggcgtt tatcaccgtg gggaccaagg ccaccgtcaa ggcgctctcg ccggagcaag 18660
taatggcctc cggttcaccg gcggcgttgg ccaatactta ccacctcctc ttggagccgg 18720
gcgcggaagc ggtggcgcgg gctggcggtt tgcatcgcta tatgaattgg ccggggccgc 18780
tgattaccga ttcgggcggc ttccaggtct tctcgctcgg cgcggcttat gacgagggcg 18840
ggatcaataa attcctcaag ccgggcctac cctcgcggac cgcaccgaag cgaccttcgg 18900
aagaaggtcc gcgggagccg aagccggcca agattgacga agacggagtg acgtttcgtt 18960
cgcctttgga tggcgccgaa caccgcctga cgccggagag ctcgattcaa attcaacatc 19020
aacttggcgc cgatattatt tttgctttcg acgaatgcac ggcgcccacg gccgattacg 19080
tttatcagaa ggaagccatg aatcgcactc accgctgggc cgagcggagt ttggctgaac 19140
acgagcggct aacccaggct aagactcggg aaaatgcttc taaaaaagtc ctcggtcctc 19200
ttcaggcttc gcttgaggcc agactttttg ataagcattt tcccgagtct tattcggcct 19260
tgttcggcat cgtccaaggc ggccgcttcc aagacttgag ggaggcgagc gccaaattta 19320
ttgccagctt gcctttcgcc ggttttggga ttggcggttc cttcgataag accgatatgg 19380
gcacggcggt cgggtgggtc aatgcgatct tgccgaccga caaaccgcgc cacctgctgg 19440
ggattggcga accggaggat atgtttgagg cggtggcgca aggggccgac actttcgatt 19500
gtgtcactcc aacgcgcttg gcgcgccatg ccactttatt gacggcgacc ggccggctca 19560
atattttgaa tgccgctcac cgtgacgatc cgacatcgat cgaagccgat tgtgactgtt 19620
acgcctgcca aaattattcg cgcgcttact tggctcacct tttccgcgcc ggtgagattt 19680
ttggcgccac tttggccacg attcacaatt tgcgctttat gaatcgtctg tcggagcaaa 19740
tgcgcgccgc gattttggcc gagcgatttt tggagttcaa ggccgagtgg ctagccaaat 19800
atcaaagatg aagaaacccc cctcaacccc aaaacttttt cgtttggaaa gcgccttcgc 19860
gccggccggc gatcaaccgg cagcgattaa ggcgctgacc gaaggtctgg cacgcaatct 19920
tcgtcatcaa accttgttgg gggtgaccgg ttcgggcaaa acttttacca tggcgggagt 19980
gattgccgct tacaacaagc cgaccttggt gattgcccat aataaaactt tggcggccca 20040
attggcgcag gagtatcgaa gttttttccc cgaccacgcg gtgcattact ttgtttctta 20100
ttacgattat tatcaaccgg aggcttacgt ggcggccagc gacacttata tcgagaaaga 20160
cgccagcatc aacgaagaga tcgaacggct tcgtcacgcc tctaccgaag cgcttctgac 20220
gcggcgcgac gtgatcattg tcgcttcggt gtcgtgcatc tacggtttgg gcagtccgga 20280
ggaatacgcc aaaagtttta tcaattttaa tcttggcggg aaaattgaac gccaagcctt 20340
gattgagaaa ctggtcagtc tttattatga gcgaatcaac gccgatctct cgcccggcac 20400
ctttcgcgcc atcggcaatt ctgtggagat tatgccgccc ggtcaacgag agatcatcaa 20460
tctcaagttg accggggacc accttgccga aattttgatc gttgacgctg tttcgcgccg 20520
agtggtgaac cagccgggcg agatttcaat ttatccggct aagcacttta tcaccagcgc 20580
cgacgaacgc cagcgcgcca tcgctttgat taagaccgag ttggctgaga ggttgaaaga 20640
gttggttgcc gccggcaaga atctggaggc cgaacgcctg aagcgccgca ccaattacga 20700
tttggcgatg atcaaagaaa tcggctactg caatggcatt gagaattatt cacgccacct 20760
ctcggggcgg gcggcgggcg aggcgccggc caccttgctt gattattttc ctaagacttc 20820
tttcggtcgg cccgattttt tgaccatcat tgatgagtct cacgtaacgg tgccgcagct 20880
tggcgggatg tttgccggcg acgagaaccg gaagaaaaat ttggtggcct atggttttcg 20940
tctgcccagc gctctggaca atcgcccgct caagtttccc gagtttgaag cccgaattgg 21000
tcccactatc tataccagcg ccaccccggg caaatacgag cttgaagcca gtaatcccca 21060
aaaaggcggg cagatcatcg aacagattat ccggcccacc ggcctggtgg atccggcaat 21120
tgaaattaaa ccgatcgttt cgaccgcgcg ctatctcggg caaatccagg attttatcgc 21180
cgaggtgaaa aaagaaattg ctcaaggtcg gcgggctatc gccacgacct taaccaaacg 21240
gatggccgaa gatttgagcg agtatttgaa aggtgagggg attaaggccg aatatttgca 21300
cagcgagatc aaaacgttgg agcggatcaa aatcctcacc gacttccgcc gcggcgagtt 21360
cgactgcttg gtcggcgtta atctcttgcg cgaaggtttg gatctgcccg aagtgtcgct 21420
gatcggcatt ttggatgctg ataaggaggg cttcttgcgg tcggaagtgg cgttgatcca 21480
gaccattggc cgggcggcgc gcaatttggc cggccgggtg attctctacg cggagacgat 21540
aaccgactcg atgaagcggg cgatggatga gacggcgcgc cggcggacca aacaactggc 21600
ttacaatcag caacatggca ttacgccggt ttcaatcgtg aagaagatta aagacatcac 21660
cgacagtttg gctaaagatc ggcaacaatc ggttaccgct ctcttggcaa tagatgaaga 21720
gctttatggt aaaaacaaga aaaaattaat cagggagaag gtcaagcaaa tgagcgaagc 21780
ggtcaagaac ctcgatttcg aaaccgccgc tctcctccgc gacgaaatca agatcttgga 21840
aaacgtcaag actaaggcca aatgatatcg gaggatgatg ttggcgtgac atcccgccga 21900
caatttttat cccaattcat acacgaccgt gcacggatag ggatgattag gaagtctgag 21960
gcaggttgaa aaattttctc aaccaacgat cattttcgat ttgggtgact tccagatata 22020
aaatttcatt tccgattcgg taattggctt taatcatcgc gacaatttcg cggcaatcat 22080
aaggcgaaac ccagacgctg ttttgcaatc tgactaagcc aaggtggtgt aaccaacgac 22140
gaagtttgtc tcgggtgctt cgcttccatt ccttaatatc aaagatgatg attcgatatt 22200
tgcggtccca tttggacggt ttttttatgg tcaacttctt taactggtat tctcttaatc 22260
tcgcttgacc ttttttagtt aaacgaacaa ttttttgatt ttgatgattg gtttgaatct 22320
caagcaaccc ttggttcttc attttctcta ttaccgtatt ggtgtaatat tttttctttg 22380
attgttgtcc gggcaaatat tttagcagtt gaacgcagtt gggggccaac aaggtaaaag 22440
caatcacccc ggtgataccg atgatactta aaataagctc ttgataatcc gctttgtcta 22500
ttcgtgacat ataccttatt ataaacggtc gtataagata agggaagata gaaaagatag 22560
gaaaagaggg aatccctcaa agcttttttg tttgggtcgg atgtgttata atcgctaggt 22620
tccctatggg ccggcccacg gggggtttcg gcgtcatccg gaataagatt aagaaatttt 22680
tatggatcag aaacatcagg ataaaatcaa aatcaaaggg gcgcggacgc acaacctgaa 22740
gaatatcagt ttggagattc cgcgcgatca actcacggtg attaccggtt tatcgggctc 22800
gggcaagtct agcttggctt tcgacactat ttttgccgaa ggccagcgac gctatattga 22860
gtcactttca gcttacgcgc gccaattttt gaaacaatta cccaaaccgg aggtggacga 22920
gatctctggt ctctcgccgg cgattgccat tgaccagaaa tcgcgttcgc acaatccgcg 22980
ctcaaccgtg gcgaccgtga ccgagatcta cgattatctg cgcgtgctct acgcgcggat 23040
cggccggccg cactgtccgg tgtgtggagt ggcgattgag aaactctcgc tggaggaaat 23100
cgtgaatttc gccaaagaga aaattgccgt cagtcatcgg ggtaaaaaaa atctcaagat 23160
ttcaattacc gcgcccttgg tgcgcggacg gaaaggggag tattatcagc tcctctacga 23220
tttactggac aagggttacc tcgaagtgtt ggtggacggt caaacttatc aactgcgcga 23280
acgcatcgta atgaccaaga ccaagaagca tgatattgac gccgtggtcg acatgattga 23340
ttggagcgat cagggcgagg ttgtcgcggc cggccagcgt ttggccgagg cggtggaacg 23400
ggcgctcaaa gagtcggacg gtctagtgaa gattgtgatt gataacgaga acttcctgct 23460
ttcctccaaa ttttcttgcc ccaacgatgg cttctctttt cccgagattg aaccgcgact 23520
cttctccttc aattcgcctt acggcgcttg tcccacttgt cacggtattg gcaccaagca 23580
cctcttcggt ggcgaacctt gcgatacttg ccaaggggct cgcctgcgtc gggaggcctt 23640
ggaggtgaga attggcggca aaaacattat ggaagcggtg tcgctctcaa ttgccgacgc 23700
ggccagcttt ttcgacaagc tgaagttgac cccgaaagag aaaacaattt ccgaggtgct 23760
gtggcgcgag atcaaggcgc gattgaagtt tttgctcgat gtgggtttgg attacgtgga 23820
gttgaatcgc cgcgccgaca cgctctcggg cggtgaggcc caacgcatcc gcctggcttc 23880
gcagttgggg tcgcgtttgg tcggcacgct ctacgtgctt gatgaaccca cgattggttt 23940
gcatgctcgc gataacgcca aactgattaa gactttgctt gagttgcgcg atttgggcaa 24000
caccattgtg gtggtggagc acgacgaaga cacaattttt gcctctgatt atttggtgga 24060
tatcggccct ggggccgggg tgcacggggg caaggtggtg gccgccggtc caaccgagaa 24120
atttttaacc agcaagaaga acgattataa ttctttgacg attgattacc ttcggggcga 24180
caagactatc gctttgccgg aaaaacggcg aggaaaccag aagggcgcgc tgaaaattcg 24240
cgggggcaaa atttttaaca tcaagaatct caatgtggac ctgccgctct cgcgcttggt 24300
ggcgattacc ggcgtgtcgg gttcgggcaa atcctctttc gtctacgaaa ttctttataa 24360
aaatttgcag gccaaactgg agcgtcgtta tcgcaccaac accttgttta attgtcggga 24420
atttggcgga acggaatact tgagccgagt ggtcttagtg gatcagtcac cgatcggtcg 24480
gaccccgcgc tccaatccgg ccacttatac cggcgccttc accttcatcc gggaactttt 24540
tgcggcttcg gctctggccc gggcgcgcgg ctggaagccg tctcgcttct ccttcaacgt 24600
ggctggcggc cggtgcgagg cctgccaagg taacggcgaa gtggcggtgg agatgcattt 24660
cttacctacc atctttgttc cttgcgatgt ttgcggcggc aaacgctacg agaaggaaac 24720
tctggaagcg ctctataaag gaaaaaatat ttacgaagtg ttgcagatga cggtggaaga 24780
agcctttagt tttttcgaag atattccggc catcttcgac cggctcaaaa cgttgaacga 24840
agtcggtttg ggttatttgg aattgggtca atcggccacc accctctcgg gaggcgaggc 24900
ccaacgggtc aaaatctcca ctgaacttta tcggccgttt accgaacgca cgatttatat 24960
cttggacgaa ccaacggtcg gattgcatta cgaagatgtt aaaaacctaa acgaaatttt 25020
gcaaaaattg gtgaccaaag gcaataccgt ggtggtgatt gagcataatt tggaagtggt 25080
caagagcgcc gattacgtga ttgatctcgg gcccgccggc ggcaaagacg gcggcgagtt 25140
ggtggcggtc ggaacgccgg aagaattggc ctacgctcct ggctcccata ccgggaaata 25200
tctcaagcgt ctgttgaaac aacaataatt aaagttgaaa gatggaaagc cgggagctta 25260
aaaaatatca attgcccgat gggcccgggg tctacttctt caagcagggc cggcgaatcc 25320
tttatgtggg caaagccacg tcgctcaagg atcgggtgcg cagttatttt gccggtgatt 25380
tgggcgaaac gcgcggacca aaaattgagc ggatgcttga gttggccaac cgcgtggact 25440
ggcaaaccac ggactcggtg ttggaagcgc tcttgctgga gtcggccttg atcaagaaac 25500
atcaaccgcc ctataacacc agagaaaaag atgacaagag ctactggttc gtggtgatta 25560
ctcacgaacc ttttccccga gtattgttgt gtcggggccg gcaattgtcg aacggttcat 25620
tctctcttgc gcttaaaatc aaaaaaattt tcggcccttt tccccgttca agcgaaatca 25680
aggccgcctt gctcgtgatc cgaaaaattt ttccttatcg cgaccgttgt caactggcgg 25740
tggccggccg accctgtttt aatcgtcagc tcggactctg ccccggggtg tgcaccggcg 25800
aaattaacca aaccgattat cggcggctga ttgccaacat tgaacgcttg tttgccgggc 25860
gtaaaaggga attgctcgtt cgtctggaac gcgccatgaa acgagcggcc agaactcaac 25920
gtttcgaagc ggcgggtcaa attcgcaatc aaattttcgc cctcaaacat attcaagatt 25980
tggcgttgtt gaaatcaagc cccaaccgcc tcaagggaaa atccgttcgg atcgaggctt 26040
acgatgtggc tcattggcaa ggcgaggccg cggtgggagc catggcggtt tggcaagacg 26100
gagagttgga tcgaagtcag ttccgccaat tcaaacttcg ggcgacaacg ccgggggacg 26160
atttggccgg gttgcgcgaa atcttgactc gacgtctggg tcatcgggag tggcccgagc 26220
cctctctggt ggtggtggat ggagaccagc gacaggtcgc cacggcccaa gtcgcattgg 26280
ctcgtcaagg tcttgactgg ccggtagtcg gagtgaccaa agaccgtcat caccgcgccg 26340
tcgctttggc gggcaatctt gaggcagaga gttttgaccg tcaagccgtg attgaagtca 26400
acgacgcggc tcatcgcgtg gccattgctc atcatcgccg acgtttgcgt ttgggtcggt 26460
aaggtcaggg cttatccctt ggagcgctct tccgaaatat ggtaaaataa aggtcggata 26520
atcaacttta tgttttggtc tgacttagtc gcaaagttgc ccaccgagcc ctcggtttgg 26580
attgccgcgt tgggtttgtt tggggtcgcc tttttccttg gttatttttg gcaggatcaa 26640
tcgaccagga cgagatggca ggtcaagcag gagatgttga agaaccagca gattattgaa 26700
ctggaaaaag tcaaccagaa cttggcggcc aaaaatcgtg aactctatgc caaagaattg 26760
gagctgacca tcgccaacaa acatctccaa gcgctggaag cagccaaatc caaatttatc 26820
gccgtgacca ctcaccaatt gcgcacgccg ctctcggctg tgaagtggac gctggatttg 26880
gcggccaaag gtcaattggg caaggtcgac gaagagcaaa aaagtttctt aaacaaaggc 26940
ttgattagtg tcaaccgggt tattgccatc gtgaacgaac tcttgcgcgt ggactcggtg 27000
gagaccgatc aagtcgtcta ttgtttccaa cccgtcaatt ttatcaagct gttcgacgaa 27060
gtgttgtttg aattcgaagt gcaggccaag agcaaagggg tgaaactctc ggtgcgtcgg 27120
ccggagactg acctgcctcc aattgatttg gatgaaacca agattaaaat ggtgatggaa 27180
aatcttttcg acaacgccat taaatacacg ccggtgggcg gtctggtgga agtggttgtc 27240
tccgacaagc gtctcaaccg cgccgaaggg gcgattgagg tgacggtgcg cgattccggc 27300
atcggcatcc cgagcgagga aaagaacaac attttccaaa aatttttccg cgcgaccaac 27360
gcgatcaagg ccgagcccga cggttccggt ctcggtctct ttatcgctca cgatattgtg 27420
actcggcata atggctcaat gtggtttgag ccggccgcgg gcggaggcac gatttttacc 27480
ttcactttac cgattcatca gaagacgcta taattttaaa gactcttatc aatttaatct 27540
taaaagacaa tggacaagaa aaaaatccta atcgtggagg acgacgagtt cctccgttcc 27600
ctcaacgcca agaagctgga gagcgagggt tatgccgtta gtgtgtcgcc cgacgggacc 27660
agcgcgatcg aattgattcc tgaagaattg cccgacttgg tgtttctgga tcttctgttg 27720
ccgggcggca aagacggttt cgatgtttta acggcgatca aggccgacga aaaaaccaag 27780
aatattccgg tcgtggtttt ctccaatctc ggccaagccg aggatatcaa gaaggctaag 27840
gacttgggcg cgattgactt tttgatcaaa gccaacttta cccttgacga cgtggtgacg 27900
aaaattaaag aaattttgaa ataaaacaaa tcaatggcgc ccattcgagt cggtatcttg 27960
cgcggtggca tcggatccga gtatgaagtt tcgcttcgaa ccggcgccgg tgttttgcgc 28020
cacttgccgg gcgacaagta tcagccggtg gatattttgc tgtctcgaga cggggcgtgg 28080
tatgccggcg gtttgcgcgc cacccccgag cgggcggtac ggggagtcga tgtgatcttc 28140
aacgccttgc acggcgagtt cggcgaagac ggtcaagcgc aacaactgct tgattatctg 28200
ttcaagccct atactggttc cggcgcggtc gccagcgctc tggggatgga taagcctcga 28260
gccaaagagc tcttccggca ggctggtctg cgggtgccca acggcgcggt gcttcggcga 28320
gcggatcgtc ccgaggaaac cgatgccgag gcggtggctt acgatgtctt caaaaaaatt 28380
ccgccgcctt ggatcgtgaa gccggccagc ggtggctcct cggtggatct ccggctggcg 28440
cgccattacc ccgagttagt ggcggcggtg gccgccggcc ttaagcagaa cgatcgaatc 28500
ttggttgagg aatacgtgcg cggtcaagaa gccacggtgg gggtcgtcga tcgtctgcgc 28560
ggccgcgatc attatccgtt gttgccggtt gagattgtca cgctgccaga caaggtcttg 28620
tttgattacg aagcgaagta cggcggccaa accaaagaaa tttgccccgg ccgctttcgg 28680
ccggaagaca agcttgagtt ggaacgtcaa gccgttttga ttcatcaaca attaggcctg 28740
cgtcactatt ctcgttccga ttttatcatc tcgcctcgcg gtatctacgt gctggaagtc 28800
aacactttgc ccggcctgac cgaagagtct ctggtgccca aggcgctggc cgctgccggc 28860
atcgcttacc cgcagttttt ggatcacttg gtgaccttgg cgttagaacg acgctgaatt 28920
tgaaggacaa aaaagccccg cgagagaaga tgcagtgatc tcaagggggc aagaggaggg 28980
gatgaaaggt atgaaggaac taccaatgaa ggggatggaa ctgggacaaa agaacaaatt 29040
aggtggcaga gccttcagtg ccactcgaaa gctctgccgg ttagggtgta aaggtcgagc 29100
gagcgaccta tcttcaggtt atcataaggt gtgatttttt gcaagggcgg agggattatc 29160
ttggtggtgt tattataata gcatttgctc gaacttattt tcaagacaaa atgaaggact 29220
gaacgccccg ccacccgcct cgcggacttg gcggacacca gaaacaaaaa attttcttaa 29280
cattttccga tttggcgcga ggaagaattt ctcttaaatg gaaaagaaaa ttttgtttct 29340
ggtgttctgt cctcaaggtc tcgggcagtt ggcggggctt cagaaattcg gacagaaaat 29400
taaaaagtgt catccccccc aaaccccaac cactttttaa ttttctgatt cctacaatgt 29460
ttcgtttggt ggtgttattt tagcatttgc tcgaacttat ttccaagaaa aaatgaaaga 29520
ctagcgttcc ccgcgcgctg aagcgcctct gtgcaaagca cnnnnnnnnn nnnggggatt 29580
ttgaattttg tccgcgcgga ggcagggtct gggagggaat ccgcgcgggc tttatttttt 29640
tgaatttttt tggcgtagag cttgtataaa atacaattat atggtataaa aatagtaaga 29700
gaaagtcatc gtggctttct caaaaccgct cattgacaac taaaaaagga ggatccaatg 29760
attatttcat tcagtgggcc ctccggtatc ggtaagggct tcatcaaaga acgactatta 29820
cagctttatc cagacatcca agaattggtg tggtatacaa ctcgcacctt gcgaccaaac 29880
gaacaagggt caaacagaat tcaagtttca ctttccgagt ttaaccagtc ggttgaactt 29940
ggcaagctta ctttagtgca agatcttttt ggtcatcgtt atggtctaaa aaaagaagat 30000
ctcgtaacga gttcgggtat caagttgact gagttgcatc cagcaaatct agtggaagca 30060
ctcaaaatca acccgaagat ttttgcaatt ggtcttgtaa cttctgattt atcactactt 30120
cgtaaaagac ttactgttgt gagaaagacg gaaagcgaag cagagataga gaaaagagtt 30180
acgaaagcta aaagcgagat cgagataatt ctacaacaca ggtcttttta tgcttccgtg 30240
attgaaatta cagaagctga agaagatcaa gtgttcaaca aggttcatgc aatattgcaa 30300
tcacaaatca aaccgaaagg aggaaaaaat gaaactagaa acacaagttg gtagtctgaa 30360
gttgcacaca ccgttgttgc tggcttcagg ttacattacc gaaacaccag agttctttct 30420
gagagctcaa ccctacggct gttcgggtat cgttacccga tcacttaaac aaaatgttcc 30480
agcggaacga tcacggatta catctccacg ctatgcagtc tttggtaatg acagcatgct 30540
taactgcgag tggggaaatg aaagaccgtg gacggattgg cgagatcatg gagtgcaaca 30600
ggtcaaagca attggttgtc taatcatcat ttcgctttcg gggcgagatt tggatagctg 30660
ttgtaatttg attcgtgcat tcgataagat cggtgttgat gcctacgaaa tcaacatctc 30720
atgttcgcat tctggagcac tgcatgggaa tctgaatgtt gatgtgcttc acctagaaca 30780
actgatgaaa agagtgcgta acattacgac gactccaatc tggatcaagt tgtcgtattc 30840
aaacctgctg ttctcaatgg caaaacaagc cgaagagttt agagcagatg cgatagtgtg 30900
cacaaatagc atcggtccag gaatgttgat cgacaccaaa accgctaaac cgaaactcgg 30960
aatcaagggc ggaggcggtg gaatgacggg aaaagcaatt ttcccgatcg ctctatggtg 31020
tgtgcatcag ctttcaaaaa ccgtgagtat ccctgttgtc ggttgtggtg gaattttcac 31080
cgcagacgat gtaattcaaa tgctcatggc aggtgctagt gcagttcaac tctacacagc 31140
tcctgcgctg aaaggtccta cggtctttag acgagtaaag gctggactac aaaggtttct 31200
cgatgagaat ccgaagtatg cttcagtcaa agacctcgtt ggacttacgc tcgacaaaac 31260
aggtgagcat aagttttctt cacctcgtcc agtcgtgatt gaagaaaagt gcacaggatg 31320
tggaatctgt attcaatcct gtgcatttga cgccctgtca atggttcgta gtgctgatag 31380
caaagcactg gcggtcattg ccgataactg catctcatgc aacgcttgcg ttggagtatg 31440
tcctccgaaa ttcgacgcta tcaaagcatc attctaggag gtaatacaga aatgaaaaaa 31500
aacacataca tcatcgcggt tcactgcaat gcgtgtcgaa ccctactgta tcgttacaaa 31560
aaagaaggtg gtggacatct cctcaagtgt tatgccgaca tgataatgtc ggattacact 31620
aaaggcgatc taaggtgtcc ttcttgcggt caagagtttg ctcgacatgc aatcatccac 31680
aatcgctcag cacataagat aatccgaggg agagtctttg tgaagggtca tcatggataa 31740
catcatcaca acgggtggtt tgattcaatc agaccacccg ttattttttt attttagttc 31800
aaatctgttt ttgaaataat tagatgtata gtttttataa tcaaaaatct cattagattc 31860
tttatttagt ttttctacat attcaaaaaa ttgtttttta tcaaaaatat caagactaag 31920
ttctttacaa acatttgcaa ttcctttaac caattcatcg ccattttcat taccagaggc 31980
cattttttct gcttcgtaat aataactatg tcccggtact tctaccaatg caaattcaat 32040
atccttatat tcatatactt tactttttct aacacaaagc atacctttac caaatccaag 32100
ttcgccgaaa atttcaacca acgtgtcaaa atcgccttgt ttagtgaaaa ccgagagctc 32160
tttacgttgc tcatttcctc cccattcgcc aattttaaga ataatttcag gaattccatt 32220
ggtcactcgc aatcgtatat ctttttttct atgttctacc cctccctcta gaaaagttga 32280
ataatcaatc aatactctat ttttctctga tttctttttt ccactactgt caaaaaattt 32340
taccagattc tcaaattctc cttttgataa aggtcctcgt atttcaattt ctatattttc 32400
atccatattt attgattttt taggtttata aatagttgct ttattatcat ggtcgcataa 32460
ctaccagtag gtaagtaaaa ggaaagtgta attttcattt tatttttatg aagatcgtca 32520
gactctaaat catgagcata catattagtg gcgaccaaga gatttctctt gttcagtttt 32580
ggttttgcta aaaaattttc tggaattagt tcaaaccctc cagcttcaca aatatgtgga 32640
cattgaaata cagcatttgt tggcaaatat aatttgccaa catttttgaa tataaatttt 32700
ttacttttag tatttttctc tatcaacaaa gatgcctgtg tattccacag aaaactatta 32760
tatgcggaca caaaaaaaga aacttttttt ggattcatga catcaaaaac ctttttgtag 32820
tctgagatat cttttgcttt tagttcagct ccttgcgtaa tattatttgt aatttttagt 32880
tgttcataag cctgtttcca attatcttct actattgcct taccaatcag atgagtatta 32940
taggggccac caggcattcc aaatctttga ttgtcatagt aatttataaa ataaagttgt 33000
ttgtgattgt ggacataatt tgaaagatta tctgcaatcg tagaatttaa atttcttacc 33060
actattttaa aagcatttcc gtgtaaagcc ctttctttta ttggtttttc cccatgaccc 33120
attacaaact taatttttga aaattgattt ttaaatttgt gtttcttgtt aaatactatg 33180
atatcttttt ctttcaagat ttttttgatg gaaataagtt gttcggtaat agcatcctca 33240
tcttttaatc cttggctaca tacatcctca aatgaaagtt taaaaaatag ctttatttgt 33300
tctaaggctt caaatgttgt aaatccagat ttttgtagcc aaatataagt aaacttacgt 33360
ttaccttttg atataaatga tggcataaga gagacctccg tcatctgaaa gtcttcgttt 33420
atgtgtttta ttttataatc ctcatattta tccataatat aaataattta acataaataa 33480
ccttatttgt aaataattcg ccaaaaaatc ccaaaaaaca aaagcccgcg cggattccct 33540
cccagaccct gcctccgcgc ggacaaaatt caaaatcccc gccgaatttc aaaaacatta 33600
gtctcggttt tgcgaaccct tctcccagaa aatagttttt gcaaaaccga gtccatattt 33660
gcatttctgc acctcgcctc attctcccag attattagtg gcgaggggca gggcgtttcc 33720
ccgcacttct gcttcagcag aagctctgtg ctttgcacag aggcgcttca gcgcgcgggg 33780
aacgctagtc tttcattttt tcttggaaat aagttcgagc aaatgctaaa ataacaccac 33840
caaacgaaac ttgttcggaa ttaagaaagc ggagcgattt tgcgggagcc aaaatcgcgc 33900
tatcattttt ttcaaaaccc tttccgccta cggcggaagc ggtgaattcc caaagttccc 33960
cccaattgaa atcatgaaag acctcaaacc aaaatatttt ctctacgcga ggaaatcaac 34020
agaggatgat gaccaccaaa taatg 34045
<210> 24
<211> 11142
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (6655)..(6659)
<223> n是a、c、g或t
<400> 24
catcttcatt tgtatgcgta tcagagagat caaaaactat gttatcaatg atggcgcggt 60
atggttcaat gagatcgaag gcgagagcgg ggtaatcagt cgtctcgtgc aggaacccat 120
ggaagggaga gaggtgatgg tagtgaatcc atcggagaaa aattcctatt aaaaattttg 180
acatcgcatt cagcgcgttg ctggccgggt ttttaccgcg cctcatgaag gctgaatgtc 240
cgagcttctt gaaatatgcg ctccaatagc gctggctgtg gagcgcttcg tgattgcgca 300
gttcctgaat ggtcatggtg cgggagagtt tttttgcagg aggaacgata agccacgcca 360
tgctgttgaa ttttgcgttt agaatttgcc gcgcgatata ctttttgatg cgcaaatcag 420
agcgctttac aagttgttga gaaagcaggt catttccatc tgcacggtta ctggcggtaa 480
tccagactgt attggttaaa tttctcctat gaataatgat aggaatttta tgacgcgctg 540
tgaattcaag tgtgctcggg gctaagggag ggctatctcc gtaaatcatg atggagagga 600
gcttggcagg attgcaggtt acttcgcctc ctttatactt aatgtgaata tttttccctt 660
tgacttcaaa tgtttcaaca taaggcgccc aaagaggtat tttttgcgag tatgttttca 720
tgttatagaa taaagtgagt attgaaatat aaaactttat atggtaatgt aagacacata 780
attttgcaag atgtgttgca aaaaagcgat tttttgaggg gtcgccccga atatagggga 840
caaaaaggct agcatacttt tttggaaccc cgaatatagg ggacaaaaag gcttatgagc 900
tgaaaaagat ccccgaatat aggggacaaa aaggcacgcc gctttcgcgt tcaaccccga 960
atatagggga caaaaaggca attaccgcat aaatcatccc cgaatatagg ggacaaaaag 1020
gcaacatgac ccaccctcct ccccgaatat aggggacaaa aaggctatga gacttctgaa 1080
atccccccga atatagggga caaaaaggct taagccccat gctttctccc cgaatatagg 1140
ggacaaaaag gctgaagtac gcaatctgca accccgaata taggggacaa aaaggcatgc 1200
tgtttgtatc ttcaccccga atatagggga caaaaaggca aggatattca agcgcacccc 1260
ccgaatatag gggacaaaaa ggcttaccac acaacttatt gaccccgaat ataggggaca 1320
aaaaggctgt gagcgatgta aaccaccccg aatataggag acaaaaaggc gcgtggtcaa 1380
tgctcgtgcc ccgaatatag gggacaaaaa ggcctttagc ttcatttaag attttaggta 1440
tttccggaca gcggcttgac cgcatcgtcc tcgccttttc ctaaaatcgc ccctcttaaa 1500
tcgcttgcct tacagacgca tgtataaaga tattttgaag attaagttat cgcatacttt 1560
atgagtaagc gacatcctag aattagcggc gtaaaagggt accgtttgca tgcgcaacgg 1620
ctggaatata ccggcaaaag tggggcaatg cgaacgatta aatatcctct ttattcatct 1680
ccgagcggtg gaagaacggt tccgcgcgag atagtttcag caatcaatga tgattatgta 1740
gggctgtacg gtttgagtaa ttttgacgat ctgtataatg cggaaaagcg caacgaagaa 1800
aaggtctact cggttttaga tttttggtac gactgcgtcc aatacggcgc ggttttttcg 1860
tatacagcgc cgggtctttt gaaaaatgtt gccgaagttc gcgggggaag ctacgaactt 1920
acaaaaacgc ttaaagggag ccatttatat gatgaattgc aaattgataa agtaattaaa 1980
tttttgaata aaaaagaaat ttcgcgagca aacggatcgc ttgataaact gaagaaagac 2040
atcattgatt gcttcaaagc agaatatcgg gaacgacata aagatcaatg caataaactg 2100
gctgatgata ttaaaaatgc aaaaaaagac gcgggagctt ctttagggga gcgtcaaaaa 2160
aaattatttc gcgatttttt tggaatttca gagcagtctg aaaatgataa accgtctttt 2220
actaatccgc taaacttaac ctgctgttta ttgccttttg acacagtgaa taacaacaga 2280
aaccgcggcg aagttttgtt taacaagctc aaggaatatg ctcaaaaatt ggataaaaac 2340
gaagggtcgc ttgaaatgtg ggaatatatt ggcatcggga acagcggcac tgccttttct 2400
aattttttag gagaagggtt tttgggcaga ttgcgcgaga ataaaattac agagctgaaa 2460
aaagccatga tggatattac agatgcatgg cgtgggcagg aacaggaaga agagttagaa 2520
aaacgtctgc ggatacttgc cgcgcttacc ataaaattgc gcgagccgaa atttgacaac 2580
cactggggag ggtatcgcag tgatataaac ggcaaattat ctagctggct tcagaattac 2640
ataaatcaaa cagtcaaaat caaagaggac ttaaagggac acaaaaagga cctgaaaaaa 2700
gcgaaagaga tgataaatag gtttggggaa agcgacacaa aggaagaggc ggttgtttca 2760
tctttgcttg aaagcattga aaaaattgtt cctgatgata gcgctgatga cgagaaaccc 2820
gatattccag ctattgctat ctatcgccgc tttctttcgg atggacgatt aacattgaat 2880
cgctttgtcc aaagagaaga tgtgcaagag gcgctgataa aagaaagatt ggaagcggag 2940
aaaaagaaaa aaccgaaaaa gcgaaaaaag aaaagtgacg ctgaagatga aaaagaaaca 3000
attgacttca aggagttatt tcctcatctt gccaaaccat taaaattggt gccaaacttt 3060
tacggcgaca gtaagcgtga gctgtacaag aaatataaga acgccgctat ttatacagat 3120
gctctgtgga aagcagtgga aaaaatatac aaaagcgcgt tctcgtcgtc tctaaaaaat 3180
tcattttttg atacagattt tgataaagat ttttttatta agcggcttca gaaaattttt 3240
tcggtttatc gtcggtttaa tacagacaaa tggaaaccga ttgtgaaaaa ctctttcgcg 3300
ccctattgcg acatcgtctc acttgcggag aatgaagttt tgtataaacc gaaacagtcg 3360
cgcagtagaa aatctgccgc gattgataaa aacagagtgc gtctcccttc cactgaaaat 3420
atcgcaaaag ctggcattgc cctcgcgcgg gagctttcag tcgcaggatt tgactggaaa 3480
gatttgttaa aaaaagagga gcatgaagaa tacattgatc tcatagaatt gcacaaaacc 3540
gcgcttgcgc ttcttcttgc cgtaacagaa acacagcttg acataagcgc gttggatttt 3600
gtagaaaatg ggacggtcaa ggattttatg aaaacgcggg acggcaatct ggttttggaa 3660
gggcgtttcc ttgaaatgtt ctcgcagtca attgtgtttt cagaattgcg cgggcttgcg 3720
ggtttaatga gccgcaagga atttatcact cgctccgcga ttcaaactat gaacggcaaa 3780
caggcggagc ttctctacat tccgcatgaa ttccaatcgg caaaaattac aacgccaaag 3840
gaaatgagca gggcgtttct tgaccttgcg cccgcggaat ttgctacatc gcttgagcca 3900
gaatcgcttt cggagaagtc attattgaaa ttgaagcaga tgcggtacta tccgcattat 3960
tttggatatg agcttacgcg aacaggacag gggattgatg gtggagtcgc ggaaaatgcg 4020
ttacgacttg agaagtcgcc agtaaaaaaa cgagagataa aatgcaaaca gtataaaact 4080
ttgggacgcg gacaaaataa aatagtgtta tatgtccgca gttcttatta tcagacgcaa 4140
tttttggaat ggtttttgca tcggccgaaa aacgttcaaa ccgatgttgc ggttagcggt 4200
tcgtttctta tcgacgaaaa gaaagtaaaa actcgctgga attatgacgc gcttacagtc 4260
gcgcttgaac cagtttccgg aagcgagcgg gtctttgtct cacagccgtt tactattttt 4320
ccggaaaaaa gcgcagagga agaaggacag aggtatcttg gcatagacat cggcgaatac 4380
ggcattgcgt atactgcgct tgagataact ggcgacagtg caaagattct tgatcaaaat 4440
tttatttcag acccccagct taaaactctg cgcgaggagg tcaaaggatt aaaacttgac 4500
caaaggcgcg ggacatttgc catgccaagc acgaaaatcg cccgcatccg cgaaagcctt 4560
gtgcatagtt tgcggaaccg catacatcat cttgcgttaa agcacaaagc aaagattgtg 4620
tatgaattgg aagtgtcgcg ttttgaagag ggaaagcaaa aaattaagaa agtctacgct 4680
acgttaaaaa aagcggatgt gtattcagaa attgacgcgg ataaaaattt acaaacgaca 4740
gtatggggaa aattggccgt tgcaagcgaa atcagcgcaa gctatacaag ccagttttgt 4800
ggtgcgtgta aaaaattgtg gcgggcggaa atgcaggttg acgaaacaat tacaacccaa 4860
gaactaatcg gcacagttag agtcataaaa gggggcactc ttattgacgc gataaaggat 4920
tttatgcgcc cgccgatttt tgacgaaaat gacactccat ttccaaaata tagagacttt 4980
tgcgacaagc atcacatttc caaaaaaatg cgtggaaaca gctgtttgtt catttgtcca 5040
ttctgccgcg caaacgcgga tgctgatatt caagcaagcc aaacaattgc gcttttaagg 5100
tatgttaagg aagagaaaaa ggtagaggac tactttgaac gatttagaaa gctaaaaaac 5160
attaaagtgc tcggacagat gaagaaaata tgatagacgt tgtttttaca ccatcgctat 5220
tgactaggtg atctttacgt cagaacccca tcagaaattc cttaaactcc tcaaacttgt 5280
ttgaaagcgg gagaacctgt ttttgtttgt gtagaagctt tttgagatca gcggggagag 5340
gtattttttt gccgatgagt ggttccacta ttgcgttgaa tttcactgga tgcgcggtct 5400
caagaaaaat gccgagagta tttttctttt tattttgagc acaatatttt ttgaggccta 5460
aataggcaac cgcgccgtgc ggatctgcac tatagccaca gcggttatac agttcagaaa 5520
ttgccccgcg cgtttcagcg tcagtaaacg atgcgccgaa aatatctttt tgcatttcag 5580
cgcgttcatc atgatacaga gtgcgcatac gcgcgaagtt actcggattt ccgatatcca 5640
tggcatttga aattgttcgt attgacggtt ttggaatgaa cggctcaccg cataaatatc 5700
gcgggacgac atcattgctg tttgtggcgg cgatgaattg tctcacagga agccccattt 5760
tttttgcaat gagccctgcg gtgaggttgc caaaatttcc gcacggcact gaaaatacaa 5820
gcggcgggca tacagcgaac gagcgagctt gcgcttgggc atacgcgtaa aaataataga 5880
atgtctgcga aataagccgc gcgatattga ttgaatttgc agaggcaagg cgcaatgttc 5940
gggcaagctc ccgatcggca aatgcttgtt ttacgagggt ttggcagtcg tcaaacgtgc 6000
cgtttatctc aagcgccgtg atgtttttgc ctaagccagt aatctgtttt tcctgaatag 6060
cacttactcc gtcttttggg tatagaatta taatgtgcac gcgctcactt tgaaaaaagc 6120
tgtgcgccac tgccgcgccg gtgtctccgc ttgttgcggc aagaatggtt aaacatctgt 6180
cgtcattttc caaaaaataa cacatcaatt ccgccatgaa tcgcgcgcca aaatctttaa 6240
acgagagtgt ttggccgtga aaaagttcaa gtacagcgag cgtttcattt aaaaacacaa 6300
gaggcgcgtc aaatgtgaga gatttttcaa taatgcggtt gatgtcttgt tttggaattt 6360
tagggaacca caactcgctt gtttcccgcg caatatcttt gagggatttt ttggcaatgc 6420
ttttgaaaaa tgatgaagag agccggggaa tttcaagcgg catgaacagg ccgccatccg 6480
gcgcgagcgg ggaaaagaga ccatgtttaa aggaaaaaat tttattgttt ctatttgtgc 6540
ttttaagctt catggcaggt ttgtataaaa ttctctgctg aaaattcggg cgaccgtagt 6600
ctgtgatagg ggatggttgc gtgcgcgtat tgtttatagc gattggtgcg atagnnnnnc 6660
agttttgggt aacatcgcgc gagcgcagag cgattgtttt cgttattccg cttttcaaac 6720
atattccccc acagcacggg ctttggatcg cgaaggtact gttcaaacat ttctttgcgt 6780
acttttgccg gcgtgtataa atataccaca cgcgtatatt ttttgagcag attgcataat 6840
gcggggtcaa cataaataac actccctgtc gtgtcaataa ctgtgcgaca atcaagtttt 6900
cttttttgta ttaaaccgat aatttttcgt ataacgctac gctcgcaacg caaataatgg 6960
ctttgattcg cgttgtattg ggactcgtat ggctggccaa gccatcgcga tacatcttga 7020
atgcccttat agccgtgctt tttaagcaag gaagcaagct ttttttcaat taaatcgtca 7080
cagcagatat gcgcgtaccc aaagcgcgca agctgttgcg cccagtatga ttttcccgcg 7140
cctgacatgc cgataagcgc gattggtttt tcttgcacac tatatatgtt cataaacgca 7200
ctgccttaaa aatatctgaa aaaactcctg cggatgtcac ctctgcgcct gctcctttgc 7260
ctcgtacgat aagcggtgtt tcatggtaat gatcggtggt aaatgaaaat atattgtcgc 7320
tcccgcggag cccggcaaac ggatgattag aggcaacttc tttaagaaac atttttgcct 7380
tgccattttc tatttcagca acaaagcgaa gcactgcgcc gcgtgcgatc gcgcgttgtt 7440
tttttgcttc aaattgggcg tcgtaccgtt caagtgtttt taaaaattct ttaacggttt 7500
ccttttttct gccttgcgga atgagctgtt ctatttcaac atccgcgcat tccatgggga 7560
gagcgcactc tcttgcaaca atcaccaatt ttcgcgccgc gtccatgccg tttaagtcgt 7620
ttcgcggatc tggttccgtg taaccgagct tctgcgcctc gcgcaccgct ttgctcaatg 7680
ttgtatttcc ctcaaatgag ttaaagatat agcttagcgt tccagaaacg attgctgaaa 7740
ttttttctac gcggtcgccg cagagcatga aatctcgtat ggtggaaagc acaggaagcc 7800
ctgccccgac ggttgtttca tataaaaacc gcgtatggtt ttgagaggcg agtagtttta 7860
aatttttata gaatttaaaa ttggatgaaa ggcctttttt attcggcgtt acaatggcaa 7920
tgcgctctgc aagtatggtg ttatagaggg cgggaatttc ttcgctcgcg gtgcagtcca 7980
caaacacggc gtttggaagg cgcattgcct tcatgccggc gacaaattga gcaagatcag 8040
ctttttgtcc gcgcgtgtta agctcttctt tccagccaga aagcgtgccg aggtgttccc 8100
caagaaccat tttcttggtg ttgacgatgc ctgcaacttt gagcgcaata ccctcctctg 8160
ccaaaagccg ctctctttga gcattgattt tcgtaagaag cgcagatccg ataagcccgc 8220
ttcccgcgag aaacacgtga atgttttgtg gtgccatagg tataaaaaaa ccgctccaga 8280
catgtgggta atgtccggag cggaagaagt tataatgcgc cttgttttta tttttaactc 8340
ttcacaacca aacatcaccc gccttttgcg gtaatagtgg tgatgatggt agtgatgcta 8400
ttttgacgca taagaatttt tttgactctc atagtatagc acaagtaaaa ttttttgcgc 8460
aaggttttgg tgagttgata gagttttgag gttgatatct aattgtcaag aaacggggat 8520
aatgtgcaca cattatcaca acagattgaa tatatgcggg ttttgtgaaa taatggcatt 8580
atatatcttg atgaacctca ccaaactcgc caattttttc tttgaacttg gcatgatgaa 8640
acgggaaaag catcagggtt ttgctattgc gggcgtgcat cacgacatgg ggtctttagc 8700
ggatcatacg tgtcgcgcgg ctttaattgg cgcaatttta gcggaaatgg aaggcgcgga 8760
cgtgaataaa gttgccatga tggtgctttt gcacgatata ccggaaacgc gcattgggga 8820
tcatcataaa gttgcggcgc ggtatttgga tacgaaaaaa gtggaacgcg ctattttttt 8880
agaacaaatt cagtttctgc ctgatccttt gcaaaaaaaa tggctcgcgc tctacgacga 8940
aaaagcaaag agaagcacta aagagggtat tgtcgcaaaa gacgcggact ggcttgaact 9000
ggcgatttcc gcgcgtgaat acatacacat cggctataaa gatttgcagt tgtgggttga 9060
taatgttcgg agcgcgcttg aaactgaatc cgccaaaaaa cttcttgcag aaatagaaaa 9120
acaaggcacc tacgactggg cccgcggttt agaaaagatg acatatcaga aattatcgtg 9180
atctgcaatt ttttgctata attataaaaa agtttcattc caacatctaa cgcaacattg 9240
aggaaaaact tcaatgcaat gatgagtatt gtgaaaaagt tgggaccagc tctctttccc 9300
attttgcagg atatgcgtct ctcgtatcag gtgcatggaa aggagtaaaa aaatacacgc 9360
cgcttgcaaa tttagaagac gtacggaata gagccgttgc gattagaaaa gaagcagaca 9420
aagaaaagcc agatagttta gagattgatc gtattttaac ggattttatg aatgcggagc 9480
taaaggaatt atggaatacc atagataaac gtattgttga tgcggcgaaa aagtttatac 9540
aaaacttcaa agatcatccc gaagacgcga ggagagcgaa ggtggagagt tggggactag 9600
aagaatggaa aagagattta gaacggatag tcaaaacccc aattaatcaa atgatggggg 9660
acgcatcatt tgtgattaac agaggagtgg atcagtatcg tgcgcgcgat atggcgaaaa 9720
ttatgggtaa gataagtgtt ttttatcaac cccttgtgtg ggagaaggcg tcataaccca 9780
tgagaattat cacaaaattc tctgcttcat atacaccatc gctccgtaaa gccccgagga 9840
atcgcagagc tttgattttt gaatcggcgg aaaggacggg aacaggggtt gatttgattt 9900
cttgacacgc tgtgagttgg gcagtagagt agtaagaaag taatattttt ttatattcat 9960
gaacactaag ataatacaaa aagctacatc tcgggggaaa attacgcttc caggacagtg 10020
gcgtaaaaag tttcctacga accaatatct tgttgaagtg gaagaagatt tgcttaagat 10080
taagcctttt gaagtggaca cggcggggca attagaagaa caagtaaaag tgttgaattg 10140
tgtcaataga tttgagggac ttgcgataaa aggaagaaaa tttgctaaaa agagaggaat 10200
taaaatggac gatgttttaa aagatgatta aagcagtact tgatacgaat attttaattt 10260
ccgcactttt ttggaaaggc accccatata ttattgtgca ggatggatta gagggtgtgt 10320
ttgaaatggt tacttcaaaa gcaataatga gtgaaacgaa agagaagttg attcaaaaat 10380
ttgaattttc tgttgaagat actctaagat acttggaact cttggtttgt aagtcgttcg 10440
ttgtatcacc gatggtacag cataatgtgg tgaaaaatga tagtactgat aataaaattc 10500
ttgagtgtgc ggtaagcgcc aacgcagatt atattgtgac aggagataaa catctactaa 10560
atatcaagca ttatcaaggg atcactattc tcactgcacg cagatttgat gagatacttg 10620
aaaatgaacg gagtagaatg agaagaaata agcgataggg acagaataac ttggatccaa 10680
ccttctaacg caacagcgtt aagaatgaat taattgattg aaaacctcgt atggtgtttg 10740
aaagtcgagt gtttttctcg gtcggccatt caggagatgt tgcgctcgtt tcacttcgta 10800
ccgcgatacc ttggtaaagt tggttccttt cggaaaaaat tgtctgatga gtccattggt 10860
gttttcgttc gtgcctcgtt cccatggact ccggggatgg gcgaagtaga ctttgactcc 10920
ggtcagattc gtgaataatt tgtggctggc catttcccgc ccttggtcgt atgtcatcgt 10980
cagtctcatt tgtttcggca attttttcac ttccttggca aacgctttgg ccacatcttc 11040
ggcagatttg cttttcacgg ggataaggat agtcgtgcgg gtcgtgcgct caaccagagt 11100
gccaagagcc gaacgattgt tctttccaac aatgagatcg cc 11142
<210> 25
<211> 13879
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 25
tttccaccgc cgctcaatca gtctagacat acaggtggaa aggtgagagt aaagacgtga 60
caaccttctc atcctcttca aagtctagac atacaggtgg aaaggtgaga gtaaagacaa 120
accgtgccac actaaaccga tgagtctaga catacaggtg gaaaggtgag agtaaagact 180
caagtaacta cctgttcttt cacaagtcta gacctgcagg tggtaaggtg agagtaaaga 240
cttttatcct cctctctatg cttctgagtc tagacattta ggtggaaagg tgagagtaaa 300
gacttgtgga gatccatgaa cttcggcagt ctagacctgc aggtggaaag gtgagagtaa 360
agacgtcctt cacacgatct tcctctgtta gtctaggcct gcaggtggaa aggtgagagt 420
aaagacgcat aagcgtaatt gaagctctct ccggtccaga ccttgtcgcg cttgtgttgc 480
gacaaaggcg gagtccgcaa taagttcttt ttacaatgtt ttttccataa aaccgataca 540
atcaagtatc ggttttgctt tttttatgaa aatatgttat gctatgtgct caaataaaaa 600
tatcaataaa atagcgtttt tttgataatt tatcgctaaa attatacata atcacgcaac 660
attgccattc tcacacagga gaaaagtcat ggcagaaagc aagcagatgc aatgccgcaa 720
gtgcggcgca agcatgaagt atgaagtaat tggattgggc aagaagtcat gcagatatat 780
gtgcccagat tgcggcaatc acaccagcgc gcgcaagatt cagaacaaga aaaagcgcga 840
caaaaagtat ggatccgcaa gcaaagcgca gagccagagg atagctgtgg ctggcgcgct 900
ttatccagac aaaaaagtgc agaccataaa gacctacaaa tacccagcgg atcttaatgg 960
cgaagttcat gacagcggcg tcgcagagaa gattgcgcag gcgattcagg aagatgagat 1020
cggcctgctt ggcccgtcca gcgaatacgc ttgctggatt gcttcacaaa aacagagcga 1080
gccgtattca gttgtagatt tttggtttga cgcggtgtgc gcaggcggag tattcgcgta 1140
ttctggcgcg cgcctgcttt ccacagtcct ccagttgagt ggcgaggaaa gcgttttgcg 1200
cgctgcttta gcatctagcc cgtttgtaga tgacattaat ttggcgcaag cggaaaagtt 1260
cctagccgtt agccggcgca caggccaaga taagctaggc aagcgcattg gagaatgttt 1320
tgcggaaggc cggcttgaag cgcttggcat caaagatcgc atgcgcgaat tcgtgcaagc 1380
gattgatgtg gcccaaaccg cgggccagcg gttcgcggcc aagctaaaga tattcggcat 1440
cagtcagatg cctgaagcca agcaatggaa caatgattcc gggctcactg tatgtatttt 1500
gccggattat tatgtcccgg aagaaaaccg cgcggaccag ctggttgttt tgcttcggcg 1560
cttacgcgag atcgcgtatt gcatgggaat tgaggatgaa gcaggatttg agcatctagg 1620
cattgaccct ggtgctcttt ccaatttttc caatggcaat ccaaagcgag gatttctcgg 1680
ccgcctgctc aataatgaca ttatagcgct ggcaaacaac atgtcagcca tgacgccgta 1740
ttgggaaggc agaaaaggcg agttgattga gcgccttgca tggcttaaac atcgcgctga 1800
aggattgtat ttgaaagagc cacatttcgg caactcctgg gcagaccacc gcagcaggat 1860
tttcagtcgc attgcgggct ggctttccgg atgcgcgggc aagctcaaga ttgccaagga 1920
tcagatttca ggcgtgcgta cggatttgtt tctgctcaag cgccttctgg atgcggtacc 1980
gcaaagcgcg ccgtcgccgg actttattgc ttccatcagc gcgctggatc ggtttttgga 2040
agcggcagaa agcagccagg atccggcaga acaggtacgc gctttgtacg cgtttcatct 2100
gaacgcgcct gcggtccgat ccatcgccaa caaggcggta cagaggtctg attcccagga 2160
gtggcttatc aaggaactgg atgctgtaga tcaccttgaa ttcaacaaag catttccgtt 2220
tttttcggat acaggaaaga aaaagaagaa aggagcgaat agcaacggag cgccttctga 2280
agaagaatac acggaaacag aatccattca acaaccagaa gatgcagagc aggaagtgaa 2340
tggtcaagaa ggaaatggcg cttcaaagaa ccagaaaaag tttcagcgca ttcctcgatt 2400
tttcggggaa gggtcaagga gtgagtatcg aattttaaca gaagcgccgc aatattttga 2460
catgttctgc aataatatgc gcgcgatctt tatgcagcta gagagtcagc cgcgcaaggc 2520
gcctcgtgat ttcaaatgct ttctgcagaa tcgtttgcag aagctttaca agcaaacctt 2580
tctcaatgct cgcagtaata aatgccgcgc gcttctggaa tccgtcctta tttcatgggg 2640
agaattttat acttatggcg cgaatgaaaa gaagtttcgt ctgcgccatg aagcgagcga 2700
gcgcagctcg gatccggact atgtggttca gcaggcattg gaaatcgcgc gccggctttt 2760
cttgttcgga tttgagtggc gcgattgctc tgctggagag cgcgtggatt tggttgaaat 2820
ccacaaaaaa gcaatctcat ttttgcttgc aatcactcag gccgaggttt cagttggttc 2880
ctataactgg cttgggaata gcaccgtgag ccggtatctt tcggttgctg gcacagacac 2940
attgtacggc actcaactgg aggagttttt gaacgccaca gtgctttcac agatgcgtgg 3000
gctggcgatt cggctttcat ctcaggagtt aaaagacgga tttgatgttc agttggagag 3060
ttcgtgccag gacaatctcc agcatctgct ggtgtatcgc gcttcgcgcg acttggctgc 3120
gtgcaaacgc gctacatgcc cggctgaatt ggatccgaaa attcttgttc tgccggttgg 3180
tgcgtttatc gcgagcgtaa tgaaaatgat tgagcgtggc gatgaaccat tagcaggcgc 3240
gtatttgcgt catcggccgc attcattcgg ctggcagata cgggttcgtg gagtggcgga 3300
agtaggcatg gatcagggca cagcgctagc attccagaag ccgactgaat cagagccgtt 3360
taaaataaag ccgttttccg ctcaatacgg cccagtactt tggcttaatt cttcatccta 3420
tagccagagc cagtatctgg atggattttt aagccagcca aagaattggt ctatgcgggt 3480
gctacctcaa gccggatcag tgcgcgtgga acagcgcgtt gctctgatat ggaatttgca 3540
ggcaggcaag atgcggctgg agcgctctgg agcgcgcgcg tttttcatgc cagtgccatt 3600
cagcttcagg ccgtctggtt caggagatga agcagtattg gcgccgaatc ggtacttggg 3660
actttttccg cattccggag gaatagaata cgcggtggtg gatgtattag attccgcggg 3720
tttcaaaatt cttgagcgcg gtacgattgc ggtaaatggc ttttcccaga agcgcggcga 3780
acgccaagag gaggcacaca gagaaaaaca gagacgcgga atttctgata taggccgcaa 3840
gaagccggtg caagctgaag ttgacgcagc caatgaattg caccgcaaat acaccgatgt 3900
tgccactcgt ttagggtgca gaattgtggt tcagtgggcg ccccagccaa agccgggcac 3960
agcgccgacc gcgcaaacag tatacgcgcg cgcagtgcgg accgaagcgc cgcgatctgg 4020
aaatcaagag gatcatgctc gtatgaaatc ctcttgggga tatacctggg gcacctattg 4080
ggagaagcgc aaaccagagg atattttggg catctcaacc caagtatact ggaccggcgg 4140
tataggcgag tcatgtcccg cagtcgcggt tgcgcttttg gggcacatta gggcaacatc 4200
cactcaaact gaatgggaaa aagaggaggt tgtattcggt cgactgaaga agttctttcc 4260
aagctagacg atctttttaa aaactgggct gctggctatc gtatggtcag tagctcttat 4320
ttttttactt gatatatggt attatctcaa taatatgcat ctcttcatag atacaacaga 4380
aaaagaatca tttgatattg ctttgattga tgatgagcgc gttatcaaaa agaagcgaat 4440
caaatcaatc cgccaacatt cggaaaagct tttgaaatca attgacgcgc ttttgttgtc 4500
cgcaaaatca tctctgaaag atatacaagg catcatcgcg gtaaaaggcc ctgggtcatt 4560
tacctcattg cgcattggaa tcgcgacagc caacgcgttg gcattcgctt tgggagtggg 4620
gattgctgga gttgacaaaa cagatgagtg gagtaagatt gtttcttcag cagatttgat 4680
ctttaaaaag caaaaaaaga acttaaatat cgtcataccc gaatacggca gagagccgga 4740
cattacctaa ataggagggt ttagaaatgt tattgctcat tttgattctc acaatagttt 4800
tgagcatcat tcttttgtgc ttttgcgcgt ttattctctg cataatcaca gaagatggca 4860
gggaaatgct tttgatgttt ggaataggca aatgccactt gaattattaa agtggctttt 4920
ttatttgtac aaaaacagtg tcagagcgcc gattcggcgc tctgacactg ttttacaaac 4980
cctcacccca accctctccc gaatacagga gagggaattt ttatactgtg cataacttgt 5040
gcgcaaatag tgcctagata agggttgcgt aaaattacaa gagtggtgta taatatcatc 5100
atagtggtga ggagtgggga taagtggtgg agaacctcat caataataga taccaatgtt 5160
cataggagaa tacaaacata ctattgatac caaaggaaga atggcaatac ctgccaaatt 5220
tcggcaggat ttgaaaaagg gcgcaatcgt aacaaaagga ttggataatt gcctttttgt 5280
atacactcaa gatgaatgga aaaaactcgt ggacaagcta tctaatcttc caatctcaca 5340
gcagaaaagc cgggcatttg ccagattaat gctagcagga gcaatggacg tgcaaattga 5400
ctcccaaggc agaattctta taccagaata tcttcgcaaa ttcgcgtcaa tcaagaaaga 5460
caccataata gcagggcttt acagtcggct tgaaatatgg gattcaaaag aatgggaaaa 5520
atacaaatca gccactgaaa agataagcac aaaaatagct gaagagctca cgctctaggc 5580
caaaaacaaa aataaaattc aaaacaatca cgagatcctt cgactccgcg agtacgcttc 5640
gctcagagcc tgccccgagt attccgaggg gatgacggtt gaaattcgga tggcataata 5700
attttatttt tggagctggt cttttagtag ctccattttt tatcccatga gcaaatcaga 5760
acacatacca gtattattaa acgaagtaat tgaaggtctt gacttgtcct ctaatgatac 5820
agtaatagac gccacagtag gcggagcagg acacgcgcaa gctattttag aaaaaaccgc 5880
gccatcaggc aagcttcttg gaattgattg ggacgcgaaa gcaatcgagc gcgcgcgaga 5940
acatctaaaa agatttagca accgaattat attaaaaaca ggaaattaca cagatataaa 6000
acaacttctc tatgaatcag gaattaataa ggttaatgct atattattgg acttgggctt 6060
atctcttgat caactcaaag attcctctag aggatttagc ttccaatctg aaggaccatt 6120
ggacatgagg ttttctgacc agatggacac aacagctttt gatattgtga acacctggcc 6180
agagaatgat ctggtacaaa tctttcaaga atacggtgaa gagaggcgcg ctgcacgtgc 6240
agcacgcaat atcgccactg cgcgcagtca cgcgccaatc aacaccgcaa aagatctggc 6300
agaattagtt atgcgcgggg ccggaaggcg aggcaaggtt catcccgcta cccgcatatt 6360
ccaggccctg cgcattgcta caaatcatga attagacaat gtcaaacaag cattgcctaa 6420
tatgattgat atgctttctt cagaaggaag attagcagtt atcacattcc attccttaga 6480
agaccgcatt gtgaagcagt atttcaagcc attggctaaa gaggaaaatc cgcgcattaa 6540
gctcatcaat aagaaagtaa taaagccaag ccgagaggag caagtgaaaa atccagcatc 6600
cagaagcgcg aaattgagaa tcgtggaaaa gatttaatca ttccaaaaac aaaaatagca 6660
tcacatgaca acatattcgc acaaaaaaac gccgtatctg tggcacgcat tttcaatatt 6720
gctgatttta gtattagtgg ttacttattt agtacagata aacagccaag cagaaacatc 6780
ttactctatt aaaggattag aagaaaaaaa gcaagaattg aatagtatta tagaagataa 6840
agaacttgaa gcagtttcag cgcgatcttt aaatggaatc gcgcttaagg caaaagaaat 6900
gaatttgcag gatccaaagg atgttacatt cataaaaata ggattaagca cagttgccgt 6960
gagcgaagag ctttctccat aacatgactt catattcatc atcaaaaaag agcaattcag 7020
ctacgcgcgc gaaattcata attggcgcgg tttttatttt tggcgttatt ttgatttacc 7080
gcttagctga tttacagctt atcaatactc aagaaattca ggcatctgcc gcgcgccagc 7140
agtcaacagt gcgcatcctt ccagctgaac gaggcaagat tttttacaag gagagaatag 7200
gtgatgaaga atttccagtc gcgactaata gatcatataa ccaggtattc attattccaa 7260
aagacataca ggatccaatc aaagccgcgg aaaagctatt gcctttggtt gagccatatg 7320
ggcttgatga agaaacatta ttattccgat taagcaagca aaatgacatt tacgagccat 7380
tagcgcataa attaacagat gaagagcttg agccatttat tgggcttgat ttaattgggc 7440
ttgaatcaga agatgaaaaa gctaggtttt acccggacgc tgatttgctc gcgcatataa 7500
ctgggtttgt cggggtttca gaacaaggca aggttggtca atatgggctt gagggatttt 7560
ttgaaaatga gctcaaagga aaggacgggc ttattgaggg caaaacagat atatttggca 7620
ggcttataca aacaggaact ttaaaacgca cccaaggcga gccaggagat gatttattat 7680
taaccataca gcgcactttg caggcatatg tgtgcagaaa attagatgaa aaaattgagc 7740
aaataagagc tgctggcgga tcagtaataa ttgtgaaccc agatactggc gctattctcg 7800
cgatgtgctc ttcaccatca tttgatccga ataattataa tcaagttgaa gatattagcg 7860
tatacatgaa tccagcagtg agctcaagct atgagccagg atcaattttc aagccattta 7920
caatggccgc ggcaattaat gagaaagcag ttactagcga tacaacatat attgatgagg 7980
gagtggaaga gatcggcaaa tacaaaatcc gcaattctga caacaaagcg cacggggaag 8040
ttaatatggt aactgtttta gatgaatcat tgaatactgg cgcgattttt gtccagcgtc 8100
agattggaaa tgagaagttc aaagattatg ttgaaaaatt cggatttggc agaacaacag 8160
atattgaatt aggaaatgag gtttctggaa atatttcttc attgtataag gatggagata 8220
tttacgcggc aactggctcg tttggccaag gaattactgt tacgcctatt cagatggtaa 8280
tggcatatgc ggcgattgct aatggaggaa aattaatgca gccatatctt attgctcagc 8340
gacaaagaca ggataaaact attgtaactg agccagttca aattgatgag ccgatttcag 8400
tgcaggcctc aactattata tctggaatgt tggtgagcgt ggtgcgtgct gggcacgcta 8460
tatctgctgg agtggaagga tattatattg ccggcaaaac tggaaccgcg caggtcgcgg 8520
aaggcggagg gtatggaagc aagaccattc attcatttgc cgggtttggg cctgttgatg 8580
agccagtgtt tgcaatgctt gtgaaattag attatcctca atacggcgca tgggcagcta 8640
atactgcggc tcctttgttt ggcgaattag ccaaatttat actacaatac tatgaaatac 8700
ctcctgatga ggcgatataa ataaaatatg aaaaaaataa taattacaat tttacaaact 8760
ctggccaaaa gagttattta caaatataag cccaaagtgg tggctattac tggctcagtc 8820
ggaaaaaccg cgactaagga ggcagtgttt gctgtattga ataagaaatt gcaagtgcgc 8880
aagaatgaag gcaattttaa cacggaaatc gggttgcctt tgacaatcat tggcttgcaa 8940
aaatcaccag gcaaaaatcc attcaaatgg cttgcagtgt acgcgcgcgc tattggcctt 9000
ttaatcttta ggattgatta tccaaaagtt ttggttcttg aaatgggcgc tgataagcca 9060
ggagatattg ctgaattaat aagtattgct aagccagaca ttggcataat taccgcgatt 9120
agcgctgttc atacagagca gtttaatagt attgctggcg ttgtgcgtga aaaaggaaag 9180
ctctttcgcg ttgttgaaaa ggatggttgg attatcgtga ataacgaccg atctgaagtt 9240
tatgatatcg cgcaaaagtg cgacgcgaaa aaagtatata ttgggcagtg cgctgaatta 9300
tctgataaca cccctttttc agtatgcgcg tccgagattt cagtgagcat gtcagaagct 9360
caagaaaccg gcattgctgg cacttcattt aagcttcata ctgatggaaa ggttattccg 9420
gttttgatga aaggaattat tggggagcat tggacatatc ctgccatgta cgcggcagct 9480
gttgcgcgca ttcttggggt tcatatggtt gatgttactg agggtttgcg cgagattaat 9540
cctcaatcag gaaggatgcg agttttagct ggcattaaaa aaacaatttt aattgatgat 9600
acttataatt cttcgccaaa cgcggctaag agcgcggttg atactttagc gttattgcgt 9660
attggaaggg agaaatattg cgtgtttggg gatatgttgg agcttggttc tatatctgaa 9720
gaagagcatc aaaaattagg catgcttgtc gcgcgcgagg ggattgatta tctgatttgc 9780
gttggcgagc gcgcgcgcga cattgcgcgg ggcgctataa aagcaaagat gccgaaggat 9840
catgtgtttg aatttgataa tactaaagat gctgggctct ttatccaaaa gcgtttggag 9900
caaggggata tggttctgat taaaggttcg caaggcgtgc gcatggagcg cgtgaccaaa 9960
gagattatgg cgcatccgga aaaatcaaaa gaacttcttg tgcggcaaag taaagaatgg 10020
ttgagtaagg cctagtgcgt atttttgata atttcctcca cttcttccgc attttctgca 10080
tccatcaatt tcacgcgcaa ttgctttgcc ccatcccagc cagaaacata ggccttgaaa 10140
tgttttttca ttacagcgaa tgatttgtgt ttgataagtt tttcgtagag tttggcgtgc 10200
tctattaaaa cgcgcaattt gttatctttg ctgggataga aaacggagaa aacggtgtca 10260
agagtcgttt tctgtaaaaa acgactcctg acaccgtttt ctttgaagaa ccacggattg 10320
ccgaaaattg cgcggccgat cataacgcca tcaacaccgg tctcccgggc tttttgatgc 10380
gcatcgtcta aatacgaaac atctccattc ccgataataa gcgtcttggg cgcgattttg 10440
tctcgcatct gaataacgct tttagccaaa tgccatttag caggaacgcg ggacatttct 10500
tttctagtgc gccagtgaat cgtcaaagcc gcaatgtctg tcttcagaag aataggaatc 10560
caggtatcaa tttcattttt cgtatatcca atgcgcgttt taacagaaat tggcaatttt 10620
ggcgcgcctt ttttggctgc agcaatcaaa gcgcgcgcta aatcagggtt tttcatcaaa 10680
ccagccccag cgccttgctt ttcaactttc cggtccgggc atcccatgtt aatatctaat 10740
ccatcaaaac ccaaatcctg aattatgcga gctgtttttt tcatattatc tggatttgct 10800
gtaaatactt gcgcgacaat aggccgctct ttcgcggaaa atttaagatt tttaagaatt 10860
tcatctttgt cgccaagagc aatgccatcc gcggacacga attcagtcca cattacatct 10920
ggcttgccat actttgcgat aatccgccta aaagccgcgt ctgtcacgtc agacatagga 10980
gccaaacaga agaatggttt tttgagttgt tgccaaaaat tattcatgtc atcttgcgct 11040
tatttgtcat cccgaggctt aattatatat ttttagaaaa taggatgtgg taaacggatt 11100
atataagtgt aatagtaatg ccacacaagc cgagaggatc tcgtctttaa gagctcgaga 11160
tgacaataca aggcgagaga atctcgcgac taataactat gcttattatc aaataaatcc 11220
ttccaatcag aattgaattt gtttataagc aacaccttat ttctgtggct tagttttttt 11280
agcttctttt cgcgctcaat agcatacgag atattgtcaa agtgttcata atacaccagt 11340
ttatcagtat tgtattttga agtaaaccct ggtatttttt tatttttatg ttcccaaatt 11400
cttctggata atgaattgca tactccggta taaaataccg tatgtcgtat gtttgttgtt 11460
atatatacat aaaagttata ttgattttgt cttggcatgt ttttgtttca taagatcctc 11520
tcggcctgca aggatttttg ttttggactc catgattcgt ttaccacata ttcgatatta 11580
tgtagtattg taaggtctcg ggatgacagg taaaaggcat gggaatggca tctaaatctc 11640
ctcctttttc tcatgcacat aattcatcca ttcctcaatc acttttataa acgccttgaa 11700
cggagcctct ataataaaat ccaacgcaaa aatgaaaatg ttaatttgcg cgaaccgcgt 11760
ggacatccat ttgccagcat gcagaatcgg aattgtaaaa aacgcccata agccccggat 11820
aaatccttgc tttgggggca ggacaatcat ttcctgattt gactggcgga tgcggtacgc 11880
gaataaggaa acaaacgaga ggaacaagag aaagataaaa atgccgataa acgtgaaatt 11940
cagcgcgatc aaaatataaa tcatcaaacc gaacgaaatg ccaaatagca ttccgtacaa 12000
caaagtaaac accgcgcgca ggaaaaagct acgcttgcta gatttgcgca tctgaataat 12060
ttcgccttga ttttggataa tatgatttat gccacttatc atttgattgg tgttttcttc 12120
atcaggcagt ttagttgaga gtgcgataag cgcgagcaag gcaggcggaa aaattaaatt 12180
aatagccaaa ggcatataat caattttgtg aatcaataaa taatcaacag gaatttccag 12240
aaccacggct aataaaaatt tagtaattac caaataaata atacttcgct taatgcctcg 12300
gtgtaaagaa gcgcgggatt tttcgtactg cttttggcag atggcgcgca ccctttgctc 12360
aaattcatgc ccggtgttca tatcagacca ggcttttcct ggatcctgcg caatcgcgtc 12420
ttgcaaaata gtgaaatatc caacgtattt cctgaacaaa ggagcgagtt tttcttttat 12480
aggcgagttt aaatcttgcg ttattgtaga gtgtatttca ttcaaatgct ctcctatttc 12540
ccgtataaga tcgtgatttg cgcgcgtcca ttctggataa taggtcaata gcaaatgata 12600
tccaatagtg tcattgtcgt ttttatatag aattcggcta gtggctatat aaatctgctt 12660
caaacgttct cgatcattaa tttcatcctc aattctaacg cgctcctgaa gatattcata 12720
catggcattg attgacgcgt gcattacata tggtggcata aggaattcgt caatttccgt 12780
tgctgctatg ccagagagcc aaaatgaaag agaagaagaa tcattgatat cttttatagg 12840
agcgtgacca agcaaggtga aatatttttc aaatataata tcaagttctt ttatttttcg 12900
ttcagggata gtattgttcg gaaggtaccg cgcgtggata agttctgaaa ttagattttc 12960
tgagatatta tttttatggc ctgatgaaat cattctacgc aaaatgcgct caatcgcgtt 13020
tctgcggatt aaatgttctt ctttatattc aaccgcgttg cgcatgcgct cgtatataaa 13080
agttgcctgt ccagcgcggg tggttatgga gatttttggt tcggtcgggt ctgtatcttt 13140
tgagcgcgct tcttccctgg ccgcgcgcac gattcgctgg attgtttctg gtatttgcat 13200
ttctttatac tagctgattt tgcttgtttt ttcaattgtt ttataaaaaa agtgcccgga 13260
atgcaaattg cgcattccgg gcttggggag acagggcagg ggatgccctg tttggggctt 13320
actgccggtc ggtcagatca cgggctacta ccgccgcaat cctcgccacc gcccaggcag 13380
taacgagacg actctttttt tacctgattg acgaccgtac cgtcgagcag gacgttatcg 13440
ccgagcagat tcgctgtatt gatgtccgta gccgcggtag ccgcgatagt cgtggtcgtc 13500
gtcgtggttt ccgtagtggc tgtgccgacc gcgctgtttt cgccgccctc ttttgtcatc 13560
cgaatgacat catcgccatt cagagtcgtt tcctcgctga ccgggttgtt ggtcccgcag 13620
ccgatcattc cgatcagggc gaccagcgcg atacagaaga aaatcatgaa atacttcatc 13680
gggtgctcct ttttatgagg tttttggaaa acgatatcac gctttgtatt attcacctcc 13740
cttccaaagc aagcgcaata tcggtctttt ttactatttt aagaacggac gagcatctta 13800
tactatttta aaaataatgt caagagtgtt aacaaataca aaaaattgac tcatataaaa 13860
acggtgtcag gagtcgttt 13879
<210> 26
<211> 7532
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (2669)..(2692)
<223> n是a、c、g或t
<400> 26
tacctaatcc tgggcgtctt tggtgtatta tgcacttgcg gttagaatac acccgaacat 60
aattgacaaa gaccataaaa tgtcttatta tccttttaga aaaatcgtgt tcatttataa 120
tatatacata ccccaattcc aaggatttct tgactggcag cgggcttggt atcctgcgaa 180
acacagccag tttgggaaac ctgggtcttt atttttaaag acacaggaat tcccgcgtct 240
tttgccttgg aacaccaacc acctattgcg ccttttttct cattttagca aaagtggctg 300
tctagacctt caggtggaaa ggtgagagta aagacattgg gcctgcacga ttcatgggcc 360
ggtctagacc ttcaggtgga aaggtgagag taaagactct accgcgtcca gcactatctt 420
ggtccgtcta gacatttaga tggaaaggcg agagtaaaga tgcgcgaaag acggctacat 480
tgttccacaa ggcagaaagg attagccgcc tactgcttga acatccgcag tatttaaccc 540
attttcccaa aggaggaaaa tcatgggtac gcagattatc aagcggatag accttgactg 600
gcagtcaagt tttccgcacg ccaagatgct ggtgaatcag gaagcatcat ttaaccacat 660
tgcagagtcc ggactcacgg cgctcataga agcgccgacc ggatccggaa aaaccgcgac 720
tggctatacc tttctttcgg ccatagccct tcgcgcgcgc aagagtccgc aatttaaggg 780
ccggctcgtg tatgttgctc cgaataaagc attagtcggg caggtgcaga acatgcatcc 840
agatgtgaaa gtcgcgcttg gtcgcaacga gcatacatgc tcgtattacg atggaattca 900
tcaagcagac gaagtgccgt gttcgttttt ggttcgctcc ggccggtgtg gccactatgt 960
gaatcaagaa accggcgcaa cacttgaatt tggagctgaa ccatgttcgt attatcagca 1020
aatctatgag gcaaagcgcg gcatcggaat tctggcatgc actgacgcgt tttggctgtt 1080
cacgcatttg tttaatccaa agcagtggcc tcagcccatg ggtttggtat tggacgaggt 1140
tgaccgcttg gctgatattg ttcgcaggtg cttgtcatac gaaatttctg attggcgcat 1200
tgagcgcgcc attaatttgc ttgaaaaagt cggttcagtt caggtgcagt atctctcgtc 1260
ttttttgcgc accttgaatc gggtggtatc aaaaaagccg gccctggagc ccattttgct 1320
ggatgatgag gagattcgcc aactgtttga aaaagtgggg cgcatcagcg cggatgtcat 1380
caaatccgat ttggacgccg cgattgcgag caacaaggtt gaccctatgg ctgagcgcga 1440
aatccttaag cagatagaaa cactttgctt tgacatcagc cggtatgtgc ggagtttggg 1500
atacgcgctt ccgaatcgca gaggcaaggg tgatgaacgc aagcgcgatg ctcctctttc 1560
gtacgcgtac gcgtatcata aatccgagcg cgacgctggg gcgcatgtgc agaacaaagt 1620
tgtggtgtgt tcctattggg tgcggcctct tatccgcaag ctctttggaa agaacacgct 1680
cgcgtattca gcgtttgtcg gggataaaac gattttggat tatgaggctg gagttgattt 1740
tccattaatc tctctgcggt cccaatttcc ggcgagcaat gcgcgattgt atgtgccgag 1800
cgattctcca aatttggcat ataatgagca ggatgtcggt gacatggcta agactttgcg 1860
ccatattgcc atatcaactc ggcggtttgc cgagcgcggc tttcgttctc tcttgctgac 1920
tgtttcaaat agagagcgtg aattgctgta cgtcgcgtgc gcggaactga aagggctgga 1980
tgctataagt tatggcagtg gcgttactgc gcgcgcggcc gcggatagat tcaaagaagg 2040
agaaggggac gctcttattg gcgttttgtc gcattatggc actgggctgg atttgccagg 2100
caagattgct aacattgttt ttctcctgcg gccgaatttt cctccaccaa aagatcctat 2160
ggcacagttt gagattcgcc gggccgagcg catcaaaaag tcgcattggc ccgtgtggta 2220
ctggcgcgcg taccgagagg ctctgaatgc ccagggacgc ccgatacgaa gcgccgatga 2280
caaaggggtc gcgttcttta tctcccagca attcaagaag cgtttattca acattttgcc 2340
ggagcatctt gagagcgcat atcggagccg cctcacatgg gaccagtgcg agaaagacgc 2400
gctgaaactg tttgaggaat aggggtatta tttcgttgtt tttatggccc ggatggtgtt 2460
ttttatacat catccgggtt tttatgttga tttgatgcga taatcatgat ttttgcgtgg 2520
tattgacaaa cattataaaa aacgctatta tccgcgtaca aaacctataa atcgttcatt 2580
tataatatat acatacccca attccaagga tttcttgact ggcagcgggc ttggtatcct 2640
gcgaaacaca gccagtttgg gaaacctgnn nnnnnnnnnn nnnnnnnnnn nngccagttt 2700
gggaaacctg ggtctttatt tttaaagaca caggaattcc cgcgtctttt gccttggaac 2760
accaaccacc tattgcgtct ttttcgctca ttttagcaaa agtggctgtc tagacataca 2820
ggtggaaagg tgagagtaaa gacatggcct gaatagcgtc ctcgtcctcg tctagacata 2880
caggtggaaa ggtgagagta aagaccggag cactcatcct ctcactctat tttgtctaga 2940
catacaggtg gaaaggtgag agtaaagaca aaccgtgcca cactaaaccg atgagtctag 3000
acatacaggt ggaaaggtga gagtaaagac tcaagtaact acctgttctt tcacaagtct 3060
agacatacag gtggaaaggt gagagtaaag actcaagtaa ctacctgttc tttcacaagt 3120
ctagacctgc aggtggtaag gtgagagtaa agactcaagt aactacctgt tctttcacaa 3180
gtctagacct gcaggtggta aggtgagagt aaagactttt atcctcctct ctatgcttct 3240
gagtctagac atttaggtgg aaaggtgaga gtaaagactt gtggagatcc atgaacttcg 3300
gcagtctaga cctgcaggtg gaaaggtgag agtaaagacg tccttcacac gatcttcctc 3360
tgttagtcta ggcctgcagg tggaaaggtg agagtaaaga cgcataagcg taattgaagc 3420
tctctccggt ccagaccttg tcgcgcttgt gttgcgacaa aggcggagtc cgcaataagt 3480
tctttttaca atgttttttc cataaaaccg atacaatcaa gtatcggttt tgcttttttt 3540
atgaaaatat gttatgctat gtgctcaaat aaaaatatca ataaaatagc gtttttttga 3600
taatttatcg ctaaaattat acataatcac gcaacattgc cattctcaca caggagaaaa 3660
gtcatggcag aaagcaagca gatgcaatgc cgcaagtgcg gcgcaagcat gaagtatgaa 3720
gtaattggat tgggcaagaa gtcatgcaga tatatgtgcc cagattgcgg caatcacacc 3780
agcgcgcgca agattcagaa caagaaaaag cgcgacaaaa agtatggatc cgcaagcaaa 3840
gcgcagagcc agaggatagc tgtggctggc gcgctttatc cagacaaaaa agtgcagacc 3900
ataaagacct acaaataccc agcggatctg aatggcgaag ttcatgacag aggcgtcgca 3960
gagaagattg agcaggcgat tcaggaagat gagatcggcc tgcttggccc gtccagcgaa 4020
tacgcttgct ggattgcttc acaaaaacaa agcgagccgt attcagttgt agatttttgg 4080
tttgacgcgg tgtgcgcagg cggagtattc gcgtattctg gcgcgcgcct gctttccaca 4140
gtcctccagt tgagtggcga ggaaagcgtt ttgcgcgctg ctttagcatc tagcccgttt 4200
gtagatgaca ttaatttggc gcaagcggaa aagttcctag ccgttagccg gcgcacaggc 4260
caagataagc taggcaagcg cattggagaa tgtttcgcgg aaggccggct tgaagcgctt 4320
ggcatcaaag atcgcatgcg cgaattcgtg caagcgattg atgtggccca aaccgcgggc 4380
cagcggttcg cggccaagct aaagatattc ggcatcagtc agatgcctga agccaagcaa 4440
tggaacaatg attccgggct cactgtatgt attttgccgg attattatgt cccggaagaa 4500
aaccgcgcgg accagctggt tgttttgctt cggcgcttac gcgagatcgc gtattgcatg 4560
ggaattgagg atgaagcagg atttgagcat ctaggcattg accctggcgc tctttccaat 4620
ttttccaatg gcaatccaaa gcgaggattt ctcggccgcc tgctcaataa tgacattata 4680
gcgctggcaa acaacatgtc agccatgacg ccgtattggg aaggcagaaa aggcgagttg 4740
attgagcgcc ttgcatggct taaacatcgc gctgaaggat tgtatttgaa agagccacat 4800
ttcggcaact cctgggcaga ccaccgcagc aggattttca gtcgcattgc gggctggctt 4860
tccggatgcg cgggcaagct caagattgcc aaggatcaga tttcaggcgt gcgtacggat 4920
ttgtttctgc tcaagcgcct tctggatgcg gtaccgcaaa gcgcgccgtc gccggacttt 4980
attgcttcca tcagcgcgct ggatcggttt ttggaagcgg cagaaagcag ccaggatccg 5040
gcagaacagg tacgcgcttt gtacgcgttt catctgaacg cgcctgcggt ccgatccatc 5100
gccaacaagg cggtacagag gtctgattcc caggagtggc ttatcaagga actggatgct 5160
gtagatcacc ttgaattcaa caaagcattt ccgttttttt cggatacagg aaagaaaaag 5220
aagaaaggag cgaatagcaa cggagcgcct tctgaagaag aatacacgga aacagaatcc 5280
attcaacaac cagaagatgc agagcaggaa gtgaatggtc aagaaggaaa tggcgcttca 5340
aagaaccaga aaaagtttca gcgcattcct cgatttttcg gggaagggtc aaggagtgag 5400
tatcgaattt taacagaagc gccgcaatat tttgacatgt tctgcaataa tatgcgcgcg 5460
atctttatgc agctagagag tcagccgcgc aaggcgcctc gtgatttcaa atgctttctg 5520
cagaatcgtt tgcagaagct ttacaagcaa acctttctca atgctcgcag taataaatgc 5580
cgcgcgcttc tggaatccgt ccttatttca tggggagaat tttatactta tggcgcgaat 5640
gaaaagaagt ttcgtctgcg ccatgaagcg agcgagcgca gctcggatcc ggactatgtg 5700
gttcagcagg cattggaaat cgcgcgccgg cttttcttgt tcggatttga gtggcgcgat 5760
tgctctgctg gagagcgcgt ggatttggtt gaaatccaca aaaaagcaat ctcatttttg 5820
cttgcaatca ctcaggccga ggtttcagtt ggttcctata actggcttgg gaatagcacc 5880
gtgagccggt atctttcggt tgctggcaca gacacattgt acggcactca actggaggag 5940
tttttgaacg ccacagtgct ttcacagatg cgtgggctgg cgattcggct ttcatctcag 6000
gagttaaaag acggatttga tgttcagttg gagagttcgt gccaggacaa tctccagcat 6060
ctgctggtgt atcgcgcttc gcgcgacttg gctgcgtgca aacgcgctac atgcccggct 6120
gaattggatc cgaaaattct tgttctgccg gctggtgcgt ttatcgcgag cgtaatgaaa 6180
atgattgagc gtggcgatga accattagca ggcgcgtatt tgcgtcatcg gccgcattca 6240
ttcggctggc agatacgggt tcgtggagtg gcggaagtag gcatggatca gggcacagcg 6300
ctagcattcc agaagccgac tgaatcagag ccgtttaaaa taaagccgtt ttccgctcaa 6360
tacggcccag tactttggct taattcttca tcctatagcc agagccagta tctggatgga 6420
tttttaagcc agccaaagaa ttggtctatg cgggtgctac ctcaagccgg atcagtgcgc 6480
gtggaacagc gcgttgctct gatatggaat ttgcaggcag gcaagatgcg gctggagcgc 6540
tctggagcgc gcgcgttttt catgccagtg ccattcagct tcaggccgtc tggttcagga 6600
gatgaagcag tattggcgcc gaatcggtac ttgggacttt ttccgcattc cggaggaata 6660
gaatacgcgg tggtggatgt attagattcc gcgggtttca aaattcttga gcgcggtacg 6720
attgcggtaa atggcttttc ccagaagcgc ggcgaacgcc aagaggaggc acacagagaa 6780
aaacagagac gcggaatttc tgatataggc cgcaagaagc cggtgcaagc tgaagttgac 6840
gcagccaatg aattgcaccg caaatacacc gatgttgcca ctcgtttagg gtgcagaatt 6900
gtggttcagt gggcgcccca gccaaagccg ggcacagcgc cgaccgcgca aacagtatac 6960
gcgcgcgcag tgcggaccga agcgccgcga tctggaaatc aagaggatca tgctcgtatg 7020
aaatcctctt ggggatatac ctggagcacc tattgggaga agcgcaaacc agaggatatt 7080
ttgggcatct caacccaagt atactggacc ggcggtatag gcgagtcatg tcccgcagtc 7140
gcggttgcgc ttttggggca cattagggca acatccactc aaactgaatg ggaaaaagag 7200
gaggttgtat tcggtcgact gaagaagttc tttccaagct agacgatctt tttaaaaact 7260
gggctgctgg ctatcgtatg gtcagtagct cttatttttt tacttgatat atggtattat 7320
ctcaataata tgcatctctt catagataca acagaaaaag aatcatttga tattgctttg 7380
attgatgatg agcgcgttat caaaaagaag cgaatcaaat caatccgcca acattcggaa 7440
aagcttttga aatcaattga cgcgcttttg ttgtccgcaa aatcatctct gaaagatata 7500
caaggcatca tcgcggtaaa aggccctggg tc 7532
<210> 27
<211> 16262
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 27
cggaaaggcg gcccagaaac gggttgacca aattttgtgt tcagtggtga tgatggcgat 60
gycgatgtcg ctgcttacgc gggcgttgtg caggccgatg gagtcggaaa tcagaatggc 120
ctggacgtgg gggagggtgg ccagccagcg caggtaatga tgccgtttgc gcagtttggt 180
ttcggtgagg ccgtagcggg ccaggcgcag ggggacgagg tgggagcggt ttttgaggtg 240
ataaaagcca tcggtgtgag tgatgtgtgg gtgagtggcg agggcggcag tgagttcggc 300
gggcgtggtg gtgtgttgcc acagccagcg ctggagttca ccggcggtca gcggaaattc 360
catgaggtca aagtagctca tggtggcggt gatggcgtgc tcgagttggg ggcgacaagc 420
gggtttcatg ctcctattat agcagatttt cagagttgga tttttgctgt tttttcttgg 480
ccggagtacc cgttttttta ttgtttgaaa aatcagggct taaaaatttt aggtgagagt 540
ctttttgcta tatccaagaa gaaattttgc catatttttt ggtcaatttt tattttcatt 600
cttggtaggt cttttaattc ggtcactttt aatagttggc ttcccatttg tactgggtcg 660
atgtgccagt caaattttat cttggccttt tttatcagat catcgaatgt ccattctttt 720
ttttggagaa tacaatacag gtctataaaa tcccgtgaac gtggtttttg atacatggta 780
aatactttgt tgacggcaat gtctaacagg ctgtcaattt tcagaccgtt tgttttcaag 840
cccttttgta taatcggaaa ggggtagtag gtaaattccg ttttgataac atccttgtcg 900
atatggataa aaaacagatt ccggttgaag ctctgctgaa aatctatctt tttaaatttt 960
acctttttct gtattttttt gagtatagta aaaatatccg tagaatcgaa ttctttttcc 1020
gaaaagaaat ccaaatcttc ggataaccga tgatgcagat aaaattctgc gagagcggtg 1080
ccaccggaaa gataaaattt ttcccggatg agtttttctt gtgatagctg ctgaaggaga 1140
gcgctttggt tggttgtcag gattgttggc cccataggag aaaagataaa aattttttct 1200
tacctgggtc gaggtccagc ctatcccagt actttttcag ttgacttcgc ttgatttttt 1260
ttccacccaa gccaaaattt accatctgtt cgagtttcca gatagtgtat ttttctttat 1320
ttttttttag ctctgtgagg tcaatattcc aattgtacat ggctgtattt tagcatatag 1380
cagcttaaat ttcaatttta ttttagccaa aatagtagaa tggtggcggt gttagatgaa 1440
tatttcgtag ttgtcttttg atatcacctg gaattttgcg tcttggtagg catcgctgaa 1500
tgcctttggc gctcgggctg attttttccc ccatttgaat tcaaatgccc tgagttttcc 1560
atttttttct tccaagtaat caatttctgc cttttggtgc gtgcgccaga aatatctgtt 1620
taccgaattt tcagtatttt ccaatttttt cattctttct acgaggagaa aattttccca 1680
gagccccccg acatcttcgc gtaaggagag aggattgaga ttattaatga gtgcgttgcg 1740
aatgccgaga tcatagaagt aaattttccg cagttttttg agttcgttgc gaatgtttcg 1800
actgtatggt ttcaaagtaa aaacaatgaa agccttctca agaatgccta tataattagc 1860
cacggttttt tgatcgatat tgagcaggtt ggacagttcc cggtaggaaa cttctttacc 1920
tatctggagt gccagcgcct gcaggagttt gtcgagtact tcaggattgc ggatgttctg 1980
aaatgccaga atgtctttat ataaataact tctggtgata ttgcgcagca attcctcagc 2040
ttccgatgat ttgaggacaa tttccggata cataccgaaa atcattcttt gttccagtgt 2100
tcttttttct tcctgtatat tctgtatctg cctgagttct tccagtgaaa agggatagag 2160
gataaattca tattttcttc ctgtgagcgg ctcaacgatc tgattagcga gatcaaaaga 2220
agatgatccg gtggcgataa tctgcatttc cggaaagttg tcaacaagta gtttcagtgt 2280
cagtccgata ttttttactc tttgcgcctc gtcaaggaag ataatgtttg catctcccag 2340
ataggccttg agttcggtcg aagttttgtc ggtaagagcg gtgcgaacgt ccggttcatc 2400
acagttgagg tagcgagagg tgtggctcgc aagcttttcc tcaagggctt tgaggatagt 2460
tgtcttacct acctgtctgg cgccatagat aataataacc ttttttttga aaaggtgttt 2520
ttcaataata ggctgaaggt ctctgctaat ccgcatagta tatatgattt agatgattat 2580
actcctctca ttatatatta aaatgcggat ttagtcaatg cattctacta taaatgcttt 2640
atattagcca aaatgtcaga aaattgatat ttttgaccat ttttactata tttcggacac 2700
cttattttgg ttctcgattc atgtatcact gcccgctgta ggttgcgggc caatttttaa 2760
aggagaattt tatgatgcct gttgtgctct ttataaaatc gttttttttg attttccata 2820
gttctctctt gtagggactt gaaataaaat gttttttata ctactatagg cctagttcct 2880
taacaatatt ttgcttactt taaagcgaaa ataggtaagg cacacctata ccataaggat 2940
ttaaagactc tttggcgaca gctttccacc gaccctgagt agttaaagac tgacgtatca 3000
tgtcataaca ccaacatttc tagatataaa gacgcgacag ctttcaggcg ataccgacgt 3060
ttctagacat aaagactttg gataaaccat aatgcaccga cgttcctcga tataaagacc 3120
cgttgtggtc ccaaaattca ccgacatttt aagaggtaaa gacaagtgca cctgagtcgc 3180
tgcaccgaca ttcccgatat aaagactgtc gctcaacccc aaaacaccga cattcccgat 3240
ataaagactc gccctagatc ttcttgcacc gactgtataa ggaataaaga cgtccgacca 3300
cgtgcaccac accgactcgt gtgaacctaa agactcaccg ccgcactacc ctcaccgact 3360
atatcaaacc taaagattgg taacttgttt gtctgacacc gactgtatca gagataaaga 3420
ctgttttcca tgcgttgcgc accgacgttc ctagatataa agactatcat tatcggggaa 3480
accgccgact gtactagata taaagacccg tcgctttgtt tgaacgccga cattcttaag 3540
aaataaagac gtggtaagag tagtgtttca ccgacattcc tttatgtaaa gacaatgaat 3600
agtctttttc acaccgactg tgaatgtatg aaatctaaag acctgaaagt gcaatgcaaa 3660
tgctgacagt gttagtctaa agacaaagta ggaatcagga tccgccgact aaataaaact 3720
taaagacaag ccagatatcc aggccacacc gacgtcccta gatgtaaaga ctagtgactc 3780
catgctatgc accgacattc cgaggcctaa agacagagag gctaacattt gtgcaccgac 3840
ccttcaagag gtaaagacat agggaacacg ctgaatcacc gacgttccta ggtatacaga 3900
cgaaatgcaa tgaaaaacgt caccgacatt tcaagacgta aagacccaag aatctttgcc 3960
cgtccccgac attccaagac gtaaagacta gccaaaacct ccagaccccc gacattccaa 4020
gacataaaga caagcgctcc aacatgtgtc accgacatta ttccgcccca gcatcgatca 4080
ttttgacttg gaaagagaca ttcttctttc caagttttta ttttgagcaa aatttgactt 4140
tttattggtt atcctttatt actatgggtg cttagtgcat cgaaaggtgg gctaagcaca 4200
acaaaagtgt tctttttatc ttaaacttga ggttttagac ctcatcaacc caaaaagggt 4260
gtaacatcat gaaacatcag aaacatcaag aaaatgcagt ctctgacgaa acatctaacc 4320
cttccgccga gccatggatt tttgattttg agaaatggtg gccctacgat acgtatccca 4380
ccatgcatca taatcaatcc gaggctttca aattaattcg aagtgtccta cggaaagaag 4440
gtgtgggtaa aaccatcctt gaacttccta ccggatctgg gaagacggtc attgggatcg 4500
tgtatctcct tactttgcat cacaagatgc aggaaggcga gattcctaca gctccgctgt 4560
tttacatcgt gcctaataag gcgctggtaa agcaggtgtg tgaaatgttc ccagatatca 4620
cctttggtgt gtatggccgg aatgaatatg attgtctgta ttaccagccg aaagaaacgt 4680
ttacagccga tcagattccc tgtttggttc taccatgcaa gcatcgggtg aaccaggatg 4740
atggaactac gcaagaatct ggtgctgagc catgtccgta ttatttggtg aagtataagg 4800
cgaagcagct gactcagaag gctcgaatca ttgtctgtac cgcttctttt tatcttttca 4860
ctcaactcat tcatgagtgg ccgctgcctg gaggactggt tattgacgaa acggatgagc 4920
tggctgaaat ttttcggcgg gcgctctcca cgaaagtcag tgattggcac ctgagtcagt 4980
gcgtcacgat gatgcggcaa agtgggatgg atggtgaagc ggatctcatg cagaaatttt 5040
atgacgccgt ggttagaatt gtcggagtca agtctcctca aaagcctacg cttttgaaga 5100
aacacgaaat cagtgagctc ctcgaggtag ttcctcagtt cgacaccaga aaactgaaaa 5160
ggcgtataaa tgccctcatc aaagacggaa agattgatgc agagaattcg cgtgaagtgc 5220
tgaatcagct gactgtggtt gccaatgatc tgaaacgata cgccgtttcg cttgcctatg 5280
ccttgcctga gggtgaccgt agggccctta attacctcta tgcatattat gaaggaccgg 5340
atgatcttcc agggaagaag aaagttcggt gtgtcattaa tatctgcaat tggtacatgc 5400
cgcctctcat taggcggatt ctctcgcctc ggaccctggc atatacagcc actatcggtg 5460
agtatagtga ctttgcctac gataccggaa ttgaaggttc gttttatacc atgaactctg 5520
attttccggt ggagaactcc cgtatcttca tgcccgatga cgttgccaac ttggctgtga 5580
aatcggtcaa accaggcgac aaagatcgga tgatgcgtct gattgctaag tcagctcgtg 5640
aatttgcgga tcaaggtcat cggagtctgg tggtggtcat ttccaatgag gagcgttcaa 5700
ggtttctgga aattgttgaa gaatacagtc tcaaaatgct cacctatgga aatggtgttt 5760
cggcgcgcga ggctattgca aggtttcagg ctggtgaagg ggaggtgttt gtgggaacgg 5820
cagccaactg ttctcatggc ctgaacttcg ataagcagac tgctccggtg attttttttc 5880
tgcggcctgg ttatccggtg cagggagatc cactcgcaga tttcgaagaa gagcggatgg 5940
gaaataagag gtggggtgtt tggacctggc gggttatgcg gcagttactt caggtgcgtg 6000
gccggaatat ccgcagtccg gaggatttgg gagttatttt cctgatgtca ggccagttta 6060
aacgtttcgc agggaaggcg attccggggt ggcttatcaa agcctatatc tccggcaaga 6120
aattcagggc ctgtgtgtca gaggccaaaa agctcctgaa aaagtcttaa ttaagccaaa 6180
aaaattgttt ttttgtctct gtccttgaca atataattga actttgctaa gttagggtcc 6240
cctgttagag gaaacagcag caaagggaag tctgagcgcg agaggcctta gtctttagag 6300
ttcttaataa gaacttttct gggcccaaag tgcgctttag tctttattcc ctgagctctg 6360
tctactttga tggggccttt ttttattcaa atttttttat tttcgctacg tcttgacaaa 6420
aatatagatg tatactatat ttcgcccgag gtaataaaga aaatagcggt aaagctataa 6480
gattttatta tttcatttat aagaactttg aaaaccgaca ttatcaaaaa ccatgcaaag 6540
ccctttagat gagggcagga ggttgaaaaa atgaagagaa ttctgaacag tctgaaagtt 6600
gctgccttga gacttctgtt tcgaggcaaa ggttctgaat tagtgaagac agtcaaatat 6660
ccattggttt ccccggttca aggcgcggtt gaagaacttg ctgaagcaat tcggcacgac 6720
aacctgcacc tttttgggca gaaggaaata gtggatctta tggagaaaga cgaaggaacc 6780
caggtgtatt cggttgtgga tttttggttg gataccctgc gtttagggat gtttttctca 6840
ccatcagcga atgcgttgaa aatcacgctg ggaaaattca attctgatca ggtttcacct 6900
tttcgtaagg ttttggagca gtcacctttt tttcttgcgg gtcgcttgaa ggttgaacct 6960
gcggaaagga tactttctgt tgaaatcaga aagattggta aaagagaaaa cagagttgag 7020
aactatgccg ccgatgtgga gacatgcttc attggtcagc tttcttcaga tgagaaacag 7080
agtatccaga agctggcaaa tgatatctgg gatagcaagg atcatgagga acagagaatg 7140
ttgaaggcgg atttttttgc tatacctctt ataaaagacc ccaaagctgt cacagaagaa 7200
gatcctgaaa atgaaacggc gggaaaacag aaaccgcttg aattatgtgt ttgtcttgtt 7260
cctgagttgt atacccgagg tttcggctcc attgctgatt ttctggttca gcgacttacc 7320
ttgctgcgtg acaaaatgag taccgacacg gcggaagatt gcctcgagta tgttggcatt 7380
gaggaagaaa aaggcaatgg aatgaattcc ttgctcggca cttttttgaa gaacctgcag 7440
ggtgatggtt ttgaacagat ttttcagttt atgcttgggt cttatgttgg ctggcagggg 7500
aaggaagatg tactgcgcga acgattggat ttgctggccg aaaaagtcaa aagattacca 7560
aagccaaaat ttgccggaga atggagtggt catcgtatgt ttctccatgg tcagctgaaa 7620
agctggtcgt cgaatttctt ccgtcttttt aatgagacgc gggaacttct ggaaagtatc 7680
aagagtgata ttcaacatgc caccatgctc attagctatg tggaagagaa aggaggctat 7740
catccacagc tgttgagtca gtatcggaag ttaatggaac aattaccggc gttgcggact 7800
aaggttttgg atcctgagat tgagatgacg catatgtccg aggctgttcg aagttacatt 7860
atgatacaca agtctgtagc gggatttctg ccggatttac tcgagtcttt ggatcgagat 7920
aaggataggg aatttttgct ttccatcttt cctcgtattc caaagataga taagaagacg 7980
aaagagatcg ttgcatggga gctaccgggc gagccagagg aaggctattt gttcacagca 8040
aacaaccttt tccggaattt tcttgagaat ccgaaacatg tgccacgatt tatggcagag 8100
aggattcccg aggattggac gcgtttgcgc tcggcccctg tgtggtttga tgggatggtg 8160
aagcaatggc agaaggtggt gaatcagttg gttgaatctc caggcgccct ttatcagttc 8220
aatgaaagtt ttttgcgtca aagactgcaa gcaatgctta cggtctataa gcgggatctc 8280
cagactgaga agtttctgaa gctgctggct gatgtctgtc gtccactcgt tgattttttc 8340
ggacttggag gaaatgatat tatcttcaag tcatgtcagg atccaagaaa gcaatggcag 8400
actgttattc cactcagtgt cccagcggat gtttatacag catgtgaagg cttggctatt 8460
cgtctccgcg aaactcttgg attcgaatgg aaaaatctga aaggacacga gcgggaagat 8520
tttttacggc tgcatcagtt gctgggaaat ctgctgttct ggatcaggga tgcgaaactt 8580
gtcgtgaagc tggaagactg gatgaacaat ccttgtgttc aggagtatgt ggaagcacga 8640
aaagccattg atcttccctt ggagattttc ggatttgagg tgccgatttt tctcaatggc 8700
tatctctttt cggaactgcg ccagctggaa ttgttgctga ggcgtaagtc ggtgatgacg 8760
tcttacagcg tcaaaacgac aggctcgcca aataggctct tccagttggt ttacctacct 8820
ctaaaccctt cagatccgga aaagaaaaat tccaacaact ttcaggagcg cctcgataca 8880
cctaccggtt tgtcgcgtcg ttttctggat cttacgctgg atgcatttgc tggcaaactc 8940
ttgacggatc cggtaactca ggaactgaag acgatggccg gtttttacga tcatctcttt 9000
ggcttcaagt tgccgtgtaa actggcggcg atgagtaacc atccaggatc ctcttccaaa 9060
atggtggttc tggcaaaacc aaagaagggt gttgctagta acatcggctt tgaacctatt 9120
cccgatcctg ctcatcctgt gttccgggtg agaagttcct ggccggagtt gaagtacctg 9180
gaggggttgt tgtatcttcc cgaagataca ccactgacca ttgaactggc ggaaacgtcg 9240
gtcagttgtc agtctgtgag ttcagtcgct ttcgatttga agaatctgac gactatcttg 9300
ggtcgtgttg gtgaattcag ggtgacggca gatcaacctt tcaagctgac gcccattatt 9360
cctgagaaag aggaatcctt catcgggaag acctacctcg gtcttgatgc tggagagcga 9420
tctggcgttg gtttcgcgat tgtgacggtt gacggcgatg ggtatgaggt gcagaggttg 9480
ggtgtgcatg aagatactca gcttatggcg cttcagcaag tcgccagcaa gtctcttaag 9540
gagccggttt tccagccact ccgtaagggc acatttcgtc agcaggagcg cattcgcaaa 9600
agcctccgcg gttgctactg gaatttctat catgcattga tgatcaagta ccgagctaaa 9660
gttgtgcatg aggaatcggt gggttcatcc ggtctggtgg ggcagtggct gcgtgcattt 9720
cagaaggatc tcaaaaaggc tgatgttctg cccaagaagg gtggaaaaaa tggtgtagac 9780
aaaaaaaaga gagaaagcag cgctcaggat accttatggg gaggagcttt ctcgaagaag 9840
gaagagcagc agatagcctt tgaggttcag gcagctggat caagccagtt ttgtctgaag 9900
tgtggttggt ggtttcagtt ggggatgcgg gaagtaaatc gtgtgcagga gagtggcgtg 9960
gtgctggact ggaaccggtc cattgtaacc ttcctcatcg aatcctcagg agaaaaggta 10020
tatggtttca gtcctcagca actggaaaaa ggctttcgtc ctgacatcga aacgttcaaa 10080
aaaatggtaa gggattttat gagacccccc atgtttgatc gcaaaggtcg gccggccgcg 10140
gcgtatgaaa gattcgtact gggacgtcgt caccgtcgtt atcgctttga taaagttttt 10200
gaagagagat ttggtcgcag tgctcttttc atctgcccgc gggtcgggtg tgggaatttc 10260
gatcactcca gtgagcagtc agccgttgtc cttgccctta ttggttacat tgctgataag 10320
gaagggatga gtggtaagaa gcttgtttat gtgaggctgg ctgaacttat ggctgagtgg 10380
aagctgaaga aactggagag atcaagggtg gaagaacaga gctcggcaca ataatttgag 10440
aagtaaaata gttttttaga ttcagtttcg caaaggaggt gatttggttc tttgaagaga 10500
ggtgtcatta tatgtggcat ctcttttcat tttgagagat tttttctaaa aataaaactt 10560
ggaaagaaat agttctttcc aagtcaaaat gatcgatttt aaggaatgtc ggtgaagtga 10620
tttatgaaca aatgtcttta tatttcatat ggtcggtgta agtacgaatg cgagttgcct 10680
ttaggttttt accgtcggta atccacatta ttcacttggt ctttaggctt catagcgtcg 10740
gtattctttt tatatatgca agtctttaca ttgaggaacg tcgatgttca aaccagatgt 10800
gtttgtcttt atacctcgga atgtcggtga agtgatttat gaacaaagtc tttaattttt 10860
acacagtcgg tggctttccg agcaagagta gtctttatat ttagaacagt cggcgtcggc 10920
agtgcttttt ataagtcttt gtatctcatg tagtcggtgc attgtctttg caactgggtc 10980
tttatctctt aatatggtcg gtggaaactc ttgtgggaat ctttatctca agaaaagtcg 11040
gtgtcgcctg aaagctgtcg cgtctttagg tctcatgcag tcggtgtcgg tcaaaagctc 11100
gcttgtcttt atattttata cagtcggtgt aaaggtgagc tggctgagtc tttatccctc 11160
ttaaagtcgg tgcaagaagt atggcggtat gtctttactt gtcgttaggt cggtgttcat 11220
ccgtctctag ggtgtcttta tctttatgaa tgtcggtgta ggtccaaacg atgtatgtct 11280
tacatcagga attcaggaat gtcggggtta ctaatatgca atggagtctt tatgtctggg 11340
aacgtcgtta ttttactctt gcgagattgt ctttactcag gaagtcggag ctcgattgat 11400
tgacattgcg tcttttagat accatactgt cggtgtggac ggctcgcctg atggtcttta 11460
ccttttatac ggtcggtggg ttgctgggcg cttcagtctt tacgtttcat gcggtcggtg 11520
tcattctcat gccctacgtc tttatctcta agaatgtcgg tggagcgact taggtgcact 11580
ggtctttatg tttagaaatg tcggtgtgat tacaggtatc aaatgtcttt agctctggga 11640
aggtcggtat cgatccaaag atccggggtt ttaaattgtt gtcaatgaac taggcacata 11700
gtaatataaa aaacatttta ttacaagccc ccctcctttt tgtttggcgc ccaacaaaaa 11760
aaatcgccca aaagagcagc ttttcgggcg cggcgcctcc atatatagcg caccaaacta 11820
tttcaacgcc ctggccaaat acctccccgt gtgactcttt tttaccttgg ccacatcacg 11880
cggcgtacct tcggccacca gcaaaccacc gtgattgcca ccttccggac ccagatcaat 11940
cacccagtcc gaagatttaa taacttccaa attgtgttca ataatcaata gactgttgcc 12000
cttatccacc agcttgctca gcacgtgcag caaccgtttc acatcatcaa aatgcaaacc 12060
cgtcgtcggc tcatccaaaa tatacaacgt ctttcccgtc gagcgccgtg acaattccgt 12120
cgccagcttc acacgctgcg cttcaccacc actcagcgtc gtcgcattct gtcccagctg 12180
aatatagccc aaacccactt caaacagcgt cttcaacttt tcatgaataa tcggaatatt 12240
gctgaaaaat ttcgtcgcat cttcgaccgt catgttcagt acctcggaaa tatttttccc 12300
cttgtaatga atttccaaag cctgctcgtt gtagcggcgg cctttgcatt cgtcgcaatc 12360
cacatacacg tccggcagga agtgcatctc aattttggtc acaccatcgc cctgacaggc 12420
ttcgcagcgg ccacccttca cattgaaact gaaacgcccg gccttgtagc cgcgcatctt 12480
cgcttccggc acctgcgtga acagatcgcg aatgtaggta aacacgccgg tgtaggtggc 12540
ggcgttggag cggggagtac ggccgatcgg cgactgatca atatcaatca ccttatcgag 12600
atattccagt ccgcgcagct ctttgtgttt gccgggaata tccttggcat tatgaaaatg 12660
ttgtgacaac gcgcgggcga gaatatcggt catcaacgtc gatttgccgc tgccggaaac 12720
gccggtgatg cacactaatt ttcccagcgg aatgcgcacg ttgatatttt gtaggttgtg 12780
ggcggtggca ccgcggattt caatatattt gccgttgccg cggcggtact tgtgcggcgc 12840
ttcaatgaat tttttgccgc tcagatattg accggtcaat gacgctttat ttttaataat 12900
ttcctgaggt gtgccaaggg caacaatttc gccaccgtgt ttgccggcac caggccccac 12960
gtcaataaca taatcagcgg agcgaatcgt ttcttcatcg tgctcgacga cgatcacggt 13020
attgcctaat tcgcgcagcg ctttgagtgt gtctatgagt ttggagttgt cgcgttggtg 13080
caagccaatg ctgggttcat cgaggatata gataacgccg accaaagatg aaccgatttg 13140
cgtggccaga cgaatgcgtt gcgcttcacc gccgcttaaa gtcgaagcag cgcgatctaa 13200
agtcaaataa tccagaccta cattatgtaa aaaagtcagg cgttcgcgga tttctttcat 13260
gatctgatgc gaaattttgg cttcgcgtac ggacatgacg tagacattat tttttgccat 13320
gctgttgccg ccggagttgg caccaccttt gccggccgcg tttttggcgc cagcaccctt 13380
cgcgccagca cccgcaccac caaccacaaa cccctcaaaa aatgcctgcg cttcttcaat 13440
gctcaacccc gtcgtgtcag aaatggattt gccgcgaatc gttacggcca gtgcaatttt 13500
gttcaaccgt ttcccgtgac acgtcggaca atcaaagacg cgcatgtagc gttcgatttc 13560
cgagcggata tattccgact cggtttcttt gtagcgccgt tccaaattcg gtatcacgcc 13620
ttcatacgtc gtcacaaatt cacggatttt ggatgtcgag ttcatgccgc tgttgacgtc 13680
gaaagattct tcgccggtgc cgtaaaacac cagcttcagt tgcgcggcgg tcattttttt 13740
caccggttcg tccaaagaaa aaccgtattt ggccgccact gtcgccagaa tccgcagcat 13800
ccagccctga ttcgaagacg tgcgtgacca gggtctgatg gcaccctgat tgatgctcaa 13860
atttttattg ggaatgatca gttcagcgtc gacttcgagc ttggtgccca atccagtgca 13920
ttccacgcag gcgccgtgcg ggctgttaaa cgaaaacagg cgcggttcaa tttccggcag 13980
gttgatgccg cagcgcggac aggcgaagtg ctgactgaac agctgatctt tttcgctggt 14040
actgtcgtgc acaatcacca taccatcacc caaatccaag gcggtttcca gagattcgtg 14100
caagcggctg cggtttttgc gcagctcttt gtcaacaacc aagcgatcta caacaacatc 14160
aatggtatgt ttctttttct tatcgaggac gagatcgagt gcttcttcga tgctcatcat 14220
attcccgttg acgcgcacgc gcacaaaacc ggctttgcgc gtttcttcaa agacgtgttt 14280
gtgttcacct tttttgtcgc ggataatttg cgcgatgagc ataaatttcg tatccgcttt 14340
caggcgcaga atttgttcga ggatttgttc ggtggtttgt ttgctgactt tatcaccgca 14400
gttggggcag tgtggttggc cgatgcgggc gtagagcaaa cgcaggtaat cgtaaatttc 14460
ggtgacggtg ccgacggtgg atcggggatt gtgggatgtg gttttttgat cgatggagat 14520
ggcgggcgag aggccttcaa tgctgtcgac gtcaggcttg tccatcaggc cgaggaattg 14580
gcgggcgtag gaagacaggc tttcgacgta gcggcgctga ccttcggcat agatcgtatc 14640
aaaagccagg gaagattttc ccgagccgga caggccggtg atgacgacga gctggtcacg 14700
ggggatgtcc aggctgatat ttttcaggtt gtggacgcgg gcgcctttga tgatgatcga 14760
attttcacct gccataattg atcgttatga gacaacaaaa atttttagag caaagcccgt 14820
aacctgcttt cgaggcagaa ttttcaaaat actgccgagg cgaaggaaaa aattttgagg 14880
aatactgtta gtatttcgag aaatttttta caagccgcag gcggattttg aaaattatga 14940
tccggaatga ggttgcgggt tttactctag acgaacttcc gccagtctac tacttttttt 15000
tgcgtaagtc aaccgtttgt gggcggggct gattcggttt tgtggtggtt tcgggagcag 15060
catagatgta gcggaaaatt caaaaaactg gtataatatt gctacaacct atacaaacaa 15120
aagcgtaaaa atcatgcatt tttcacgttt cggattttat ttccgtaacc gacgcatggt 15180
agaacgtttc ttcgttctat tttgtgctat tttttctgct gtcctggttt tgtcgcttgt 15240
tgccctggtg ctggtggctg acaaaattaa tatcaatccc attgtgcaca tcttgtttcg 15300
tttttttcag cgaccctttg tcagtgcgct gattctgtct tttttcgtca caacccttct 15360
ttacgccgtt tttgttctgg tgcatccagt gcagcatcat accgtgtatt ggcagcgtca 15420
ttcgcagcga tatcatattc gcaagaaatc ccatattcac cgcagattgc gtcacattcc 15480
cgcgcagaca tcacataagc tgttggcgct cagttcactt tttgttgtgg ttaaaattgt 15540
ttttgtcagt tttgcctccg gttttttacc gcatgatgtt ttggcacaga ccgttgatcc 15600
gagcggacag aaaagtcagt cggtgttggt ggcggcgttt tatgtccagg tgcttgattc 15660
cgatgatttg tatatttgga tttttatgtt gggccttttg ccgctggcgg ttctgatttt 15720
tttcatcgtt tttcgttcgc atatttttcc gcataagaat tttcattatg agagcgcaca 15780
tctggatacg aatattgtca cttttgcggc ccggaagaag gcggagcagc ggcgcaaaaa 15840
gccatcacct ccggccggta ttgtaccttt gcatgatgca taacctatga attctgtttt 15900
gcagaaaaaa ttagctggtc tgccgcatca acccggcgtc tatgtgtata aagacgcacg 15960
gggtgatgtt ttgtacgtgg ggaaggccaa agatttggcg aagcgcgtgc gatcgtattg 16020
gcagtcgggt cgctcgctgg tgccggacaa agctttgatg gtgagtcagg cggctgatat 16080
cgatatcacg gtggtgagtt cggaaacgga agcttttttg ctcgaagcga gtttcattaa 16140
aaaataccgg ccgcggttta atattatttt gaaagatgat aaaagttttt cgtatattaa 16200
ggtgacgttg cgggaagaat ttccgagggt gctggtggtg cggcgcgtga cgcgcgatgg 16260
ca 16262
<210> 28
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 28
aaaaaaaaaa 10
<210> 29
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 29
aaaaaaaaaa 10
<210> 30
<211> 10
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 30
aaaaaaaaaa 10
<210> 31
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 31
ctccgaaagt atcggggata aaggc 25
<210> 32
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 32
caccgaaatt tggagaggat aaggc 25
<210> 33
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 33
ctccgaatta tcgggaggat aaggc 25
<210> 34
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 34
ccccgaatat aggggacaaa aaggc 25
<210> 35
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 35
gtctagacat acaggtggaa aggtgagagt aaagac 36
<210> 36
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 36
ctccgtgaat acgtggggta aaggc 25
<210> 37
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 37
aaaaaaaaaa 10
<210> 38
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 38
aaaaaaaaaa 10
<210> 39
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 39
aaaaaaaaaa 10
<210> 40
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 40
aaaaaaaaaa 10
<210> 41
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 41
aaaaaaaaaa 10
<210> 42
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 42
aaaaaaaaaa 10
<210> 43
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 43
aaaaaaaaaa 10
<210> 44
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 44
aaaaaaaaaa 10
<210> 45
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 45
aaaaaaaaaa 10
<210> 46
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 46
aaaaaaaaaa 10
<210> 47
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 47
aaaaaaaaaa 10
<210> 48
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 48
aaaaaaaaaa 10
<210> 49
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 49
aaaaaaaaaa 10
<210> 50
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 50
aaaaaaaaaa 10
<210> 51
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 51
aaaaaaaaaa 10
<210> 52
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 52
aaaaaaaaaa 10
<210> 53
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 53
aaaaaaaaaa 10
<210> 54
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 54
aaaaaaaaaa 10
<210> 55
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 55
aaaaaaaaaa 10
<210> 56
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 56
aaaaaaaaaa 10
<210> 57
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 57
aaaaaaaaaa 10
<210> 58
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 58
aaaaaaaaaa 10
<210> 59
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 59
aaaaaaaaaa 10
<210> 60
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 60
aaaaaaaaaa 10
<210> 61
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 61
aaaaaaaaaa 10
<210> 62
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 62
aaaaaaaaaa 10
<210> 63
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 63
aaaaaaaaaa 10
<210> 64
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 64
aaaaaaaaaa 10
<210> 65
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 65
aaaaaaaaaa 10
<210> 66
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 66
aaaaaaaaaa 10
<210> 67
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 67
aaaaaaaaaa 10
<210> 68
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 68
aaaaaaaaaa 10
<210> 69
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 69
aaaaaaaaaa 10
<210> 70
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 70
aaaaaaaaaa 10
<210> 71
<211> 10
<212> RNA
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 71
aaaaaaaaaa 10
<210> 72
<211> 10
<212> RNA
<213> 未知(Unknown)
<220>
<223> 合成序列
<400> 72
aaaaaaaaaa 10
<210> 73
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 73
aaaaaaaaaa 10
<210> 74
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 74
aaaaaaaaaa 10
<210> 75
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 75
aaaaaaaaaa 10
<210> 76
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 76
aaaaaaaaaa 10
<210> 77
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 77
aaaaaaaaaa 10
<210> 78
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 78
aaaaaaaaaa 10
<210> 79
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 79
aaaaaaaaaa 10
<210> 80
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 80
aaaaaaaaaa 10
<210> 81
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 81
aaaaaaaaaa 10
<210> 82
<211> 10
<212> RNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 82
aaaaaaaaaa 10
<210> 83
<211> 84
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 83
Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala
1 5 10 15
Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser
20 25 30
Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile
35 40 45
Thr Ser Asn Gly Gly Arg Val Lys Cys Met Gln Val Trp Pro Pro Ile
50 55 60
Gly Lys Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Pro Leu Thr Arg
65 70 75 80
Asp Ser Arg Ala
<210> 84
<211> 57
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 84
Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala
1 5 10 15
Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser
20 25 30
Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile
35 40 45
Thr Ser Asn Gly Gly Arg Val Lys Ser
50 55
<210> 85
<211> 85
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 85
Met Ala Ser Ser Met Leu Ser Ser Ala Thr Met Val Ala Ser Pro Ala
1 5 10 15
Gln Ala Thr Met Val Ala Pro Phe Asn Gly Leu Lys Ser Ser Ala Ala
20 25 30
Phe Pro Ala Thr Arg Lys Ala Asn Asn Asp Ile Thr Ser Ile Thr Ser
35 40 45
Asn Gly Gly Arg Val Asn Cys Met Gln Val Trp Pro Pro Ile Glu Lys
50 55 60
Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Asp Leu Thr Asp Ser Gly
65 70 75 80
Gly Arg Val Asn Cys
85
<210> 86
<211> 76
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 86
Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Gln Asn Pro Ser Leu
1 5 10 15
Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val
20 25 30
Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser
35 40 45
Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg
50 55 60
Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys
65 70 75
<210> 87
<211> 76
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 87
Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Trp Asn Pro Ser Leu
1 5 10 15
Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val
20 25 30
Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser
35 40 45
Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg
50 55 60
Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys
65 70 75
<210> 88
<211> 72
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 88
Met Ala Gln Ile Asn Asn Met Ala Gln Gly Ile Gln Thr Leu Asn Pro
1 5 10 15
Asn Ser Asn Phe His Lys Pro Gln Val Pro Lys Ser Ser Ser Phe Leu
20 25 30
Val Phe Gly Ser Lys Lys Leu Lys Asn Ser Ala Asn Ser Met Leu Val
35 40 45
Leu Lys Lys Asp Ser Ile Phe Met Gln Leu Phe Cys Ser Phe Arg Ile
50 55 60
Ser Ala Ser Val Ala Thr Ala Cys
65 70
<210> 89
<211> 69
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 89
Met Ala Ala Leu Val Thr Ser Gln Leu Ala Thr Ser Gly Thr Val Leu
1 5 10 15
Ser Val Thr Asp Arg Phe Arg Arg Pro Gly Phe Gln Gly Leu Arg Pro
20 25 30
Arg Asn Pro Ala Asp Ala Ala Leu Gly Met Arg Thr Val Gly Ala Ser
35 40 45
Ala Ala Pro Lys Gln Ser Arg Lys Pro His Arg Phe Asp Arg Arg Cys
50 55 60
Leu Ser Met Val Val
65
<210> 90
<211> 77
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 90
Met Ala Ala Leu Thr Thr Ser Gln Leu Ala Thr Ser Ala Thr Gly Phe
1 5 10 15
Gly Ile Ala Asp Arg Ser Ala Pro Ser Ser Leu Leu Arg His Gly Phe
20 25 30
Gln Gly Leu Lys Pro Arg Ser Pro Ala Gly Gly Asp Ala Thr Ser Leu
35 40 45
Ser Val Thr Thr Ser Ala Arg Ala Thr Pro Lys Gln Gln Arg Ser Val
50 55 60
Gln Arg Gly Ser Arg Arg Phe Pro Ser Val Val Val Cys
65 70 75
<210> 91
<211> 57
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 91
Met Ala Ser Ser Val Leu Ser Ser Ala Ala Val Ala Thr Arg Ser Asn
1 5 10 15
Val Ala Gln Ala Asn Met Val Ala Pro Phe Thr Gly Leu Lys Ser Ala
20 25 30
Ala Ser Phe Pro Val Ser Arg Lys Gln Asn Leu Asp Ile Thr Ser Ile
35 40 45
Ala Ser Asn Gly Gly Arg Val Gln Cys
50 55
<210> 92
<211> 65
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 92
Met Glu Ser Leu Ala Ala Thr Ser Val Phe Ala Pro Ser Arg Val Ala
1 5 10 15
Val Pro Ala Ala Arg Ala Leu Val Arg Ala Gly Thr Val Val Pro Thr
20 25 30
Arg Arg Thr Ser Ser Thr Ser Gly Thr Ser Gly Val Lys Cys Ser Ala
35 40 45
Ala Val Thr Pro Gln Ala Ser Pro Val Ile Ser Arg Ser Ala Ala Ala
50 55 60
Ala
65
<210> 93
<211> 72
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 93
Met Gly Ala Ala Ala Thr Ser Met Gln Ser Leu Lys Phe Ser Asn Arg
1 5 10 15
Leu Val Pro Pro Ser Arg Arg Leu Ser Pro Val Pro Asn Asn Val Thr
20 25 30
Cys Asn Asn Leu Pro Lys Ser Ala Ala Pro Val Arg Thr Val Lys Cys
35 40 45
Cys Ala Ser Ser Trp Asn Ser Thr Ile Asn Gly Ala Ala Ala Thr Thr
50 55 60
Asn Gly Ala Ser Ala Ala Ser Ser
65 70
<210> 94
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<220>
<221> 尚未归类的特征
<222> (4)..(4)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (8)..(8)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (11)..(11)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (15)..(15)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> 尚未归类的特征
<222> (19)..(19)
<223> Xaa可以是任何天然存在的氨基酸
<400> 94
Gly Leu Phe Xaa Ala Leu Leu Xaa Leu Leu Xaa Ser Leu Trp Xaa Leu
1 5 10 15
Leu Leu Xaa Ala
20
<210> 95
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 95
Gly Leu Phe His Ala Leu Leu His Leu Leu His Ser Leu Trp His Leu
1 5 10 15
Leu Leu His Ala
20
<210> 96
<211> 7
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 96
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 97
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 97
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1 5 10 15
<210> 98
<211> 9
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 98
Pro Ala Ala Lys Arg Val Lys Leu Asp
1 5
<210> 99
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 99
Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro
1 5 10
<210> 100
<211> 38
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 100
Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly
1 5 10 15
Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro
20 25 30
Arg Asn Gln Gly Gly Tyr
35
<210> 101
<211> 42
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 101
Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu
1 5 10 15
Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys
20 25 30
Asp Glu Gln Ile Leu Lys Arg Arg Asn Val
35 40
<210> 102
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 102
Val Ser Arg Lys Arg Pro Arg Pro
1 5
<210> 103
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 103
Pro Pro Lys Lys Ala Arg Glu Asp
1 5
<210> 104
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 104
Pro Gln Pro Lys Lys Lys Pro Leu
1 5
<210> 105
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 105
Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro
1 5 10
<210> 106
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 106
Asp Arg Leu Arg Arg
1 5
<210> 107
<211> 7
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 107
Pro Lys Gln Lys Lys Arg Lys
1 5
<210> 108
<211> 10
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 108
Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu
1 5 10
<210> 109
<211> 10
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 109
Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg
1 5 10
<210> 110
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 110
Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys
1 5 10 15
Lys Ser Lys Lys
20
<210> 111
<211> 17
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 111
Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys
1 5 10 15
Lys
<210> 112
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 112
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 113
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 113
Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg
1 5 10
<210> 114
<211> 27
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 114
Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu
1 5 10 15
Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu
20 25
<210> 115
<211> 33
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 115
Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala
1 5 10 15
Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu
20 25 30
Ala
<210> 116
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 116
Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys
1 5 10 15
<210> 117
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 117
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 118
<211> 9
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 118
Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5
<210> 119
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 119
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 120
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 120
Arg Lys Lys Arg Arg Gln Arg Arg
1 5
<210> 121
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 121
Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala
1 5 10
<210> 122
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 122
Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg
1 5 10
<210> 123
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 123
Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg
1 5 10
<210> 124
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 124
Gly Ser Gly Gly Ser
1 5
<210> 125
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 125
Gly Gly Ser Gly Gly Ser
1 5
<210> 126
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 126
Gly Gly Gly Ser
1
<210> 127
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 127
Gly Gly Ser Gly
1
<210> 128
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 128
Gly Gly Ser Gly Gly
1 5
<210> 129
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 129
Gly Ser Gly Ser Gly
1 5
<210> 130
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 130
Gly Ser Gly Gly Gly
1 5
<210> 131
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 131
Gly Gly Gly Ser Gly
1 5
<210> 132
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 132
Gly Ser Ser Ser Gly
1 5
<210> 133
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 133
Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys
1 5 10 15
<210> 134
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成序列
<400> 134
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10

Claims (123)

1.一种组合物,其包含:
a)CasY多肽或编码所述CasY多肽的核酸分子;以及
b)CasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。
2.如权利要求1所述的组合物,其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
3.如权利要求1或权利要求2所述的组合物,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
4.如权利要求1或权利要求2所述的组合物,其中所述CasY多肽与NLS序列融合。
5.如权利要求1-4中任一项所述的组合物,其中所述组合物包含脂质。
6.如权利要求1-4中任一项所述的组合物,其中a)和b)在脂质体内。
7.如权利要求1-4中任一项所述的组合物,其中a)和b)在颗粒内。
8.如权利要求1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。
9.如权利要求1-8中任一项所述的组合物,其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
10.如权利要求1-9中任一项所述的组合物,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
11.如权利要求1-9中任一项所述的组合物,其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
12.如权利要求10或权利要求11所述的组合物,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
13.如权利要求1-12中任一项所述的组合物,其还包含DNA供体模板。
14.一种CasY融合多肽,其包含:与异源多肽融合的CasY多肽。
15.如权利要求14所述的CasY融合多肽,其中所述CasY多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
16.如权利要求14所述的CasY融合多肽,其中所述CasY多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
17.如权利要求14-16中任一项所述的CasY融合多肽,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。
18.如权利要求14-17中任一项所述的CasY融合多肽,其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
19.如权利要求17或权利要求18所述的CasY融合多肽,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
20.如权利要求14-19中任一项所述的CasY融合多肽,其中所述异源多肽与所述CasY多肽的N末端和/或C末端融合。
21.如权利要求14-20中任一项所述的CasY融合多肽,其包含NLS。
22.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。
23.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
24.如权利要求23所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
25.如权利要求24所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
26.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
27.如权利要求26所述的CasY融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
28.如权利要求26或权利要求27所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
29.如权利要求28所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
30.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是内体逃逸多肽。
31.如权利要求30所述的CasY融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
32.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是叶绿体转运肽。
33.如权利要求32所述的CasY融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:92),和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。
34.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。
35.如权利要求34所述的CasY融合多肽,其中所述异源多肽是转录阻遏物结构域。
36.如权利要求34所述CasY融合多肽,其中所述异源多肽是转录激活结构域。
37.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是蛋白质结合结构域。
38.一种核酸分子,其编码如权利要求14-37中任一项所述的CasY融合多肽。
39.如权利要求38所述的核酸分子,其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。
40.如权利要求39所述的核酸分子,其中所述启动子在真核细胞中是功能性的。
41.如权利要求40所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
42.如权利要求39-41中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
43.如权利要求38-42中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。
44.如权利要求43所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
45.如权利要求39所述的核酸分子,其中所述启动子在原核细胞中是功能性的。
46.如权利要求38所述的核酸分子,其中所述核酸分子是mRNA。
47.一种或多种核酸分子,其编码:
(a)CasY指导RNA;以及
(b)CasY多肽。
48.如权利要求47所述的一种或多种核酸分子,其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。
49.如权利要求47所述的一种或多种核酸分子,其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。
50.如权利要求47-49中任一项所述的一种或多种核酸分子,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
51.如权利要求47-50中任一项所述的一种或多种核酸分子,其中所述CasY多肽与NLS序列融合。
52.如权利要求47-51中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
53.如权利要求47-52中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。
54.如权利要求52或权利要求53所述的一种或多种核酸分子,其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。
55.如权利要求54所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
56.如权利要求53-55中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
57.如权利要求47-56中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。
58.如权利要求57所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
59.如权利要求53所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。
60.一种真核细胞,其包含以下中的一种或多种:
a)CasY多肽或编码所述CasY多肽的核酸分子,
b)CasY融合多肽或编码所述CasY融合多肽的核酸分子,以及
c)CasY指导RNA或编码所述CasY指导RNA的核酸分子。
61.如权利要求60所述的真核细胞,其包含编码所述CasY多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
62.如权利要求60或权利要求61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
63.一种细胞,其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。
64.如权利要求63所述的细胞,其中所述细胞是原核细胞。
65.如权利要求63或权利要求64所述的细胞,其包含编码所述CasY融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。
66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasY多肽;以及
b)CasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,
其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。
67.如权利要求66所述的方法,其中所述修饰是对所述靶核酸的切割。
68.如权利要求66或权利要求67所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
69.如权利要求66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。
70.如权利要求66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
71.如权利要求66-68中任一项所述的方法,其中所述接触在体内在细胞内部发生。
72.如权利要求70或权利要求71所述的方法,其中所述细胞是真核细胞。
73.如权利要求72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
74.如权利要求70或权利要求71所述的方法,其中所述细胞是原核细胞。
75.如权利要求66-74中任一项所述的方法,其中所述接触导致基因组编辑。
76.如权利要求66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasY多肽或编码所述CasY多肽的核酸分子,以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。
77.如权利要求76所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
78.如权利要求66-77中任一项所述的方法,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
79.如权利要求66-78中任一项所述的方法,其中所述CasY多肽与NLS序列融合。
80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CasY融合多肽,其包含与异源多肽融合的CasY多肽;以及
b)CasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。
81.如权利要求80所述的方法,其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。
82.如权利要求80或权利要求81所述的方法,其中所述CasY融合多肽包含NLS序列。
83.如权利要求80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
84.如权利要求80-83中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
85.如权利要求80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。
86.如权利要求80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
87.如权利要求80-84中任一项所述的方法,其中所述接触在体内在细胞内部发生。
88.如权利要求86或权利要求87所述的方法,其中所述细胞是真核细胞。
89.如权利要求88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
90.如权利要求86或权利要求87所述的方法,其中所述细胞是原核细胞。
91.如权利要求80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CasY融合多肽或编码所述CasY融合多肽的核酸分子,以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。
92.如权利要求80-91中任一项所述的方法,其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
93.如权利要求80-92中任一项所述的方法,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQ ID NO:1的D672、E769和D935。
94.如权利要求80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
95.如权利要求94所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
96.如权利要求95所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
97.如权利要求80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
98.如权利要求97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
99.如权利要求97或权利要求98所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
100.如权利要求99所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
101.如权利要求80-93中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。
102.如权利要求101所述的方法,其中所述异源多肽是转录阻遏物结构域。
103.如权利要求101所述的方法,其中所述异源多肽是转录激活结构域。
104.如权利要求80-93中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。
105.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:
a)CasY多肽,
b)CasY融合多肽,以及
c)CasY指导RNA。
106.如权利要求105所述的转基因的多细胞非人生物体,其中所述CasY多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
107.如权利要求105所述的转基因的多细胞非人生物体,其中所述CasY多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
108.如权利要求105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
109.一种系统,其包含:
a)CasY多肽和CasY指导RNA;
b)CasY多肽、CasY指导RNA和DNA供体模板;
c)CasY融合多肽和CasY指导RNA;
d)CasY融合多肽、CasY指导RNA和DNA供体模板;
e)编码CasY多肽的mRNA和CasY指导RNA;
f)编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板;
g)编码CasY融合多肽的mRNA和CasY指导RNA;
h)编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板;
i)一种或多种重组表达载体,其包含:i)编码CasY多肽的核苷酸序列,和ii)编码CasY指导RNA的核苷酸序列;
j)一种或多种重组表达载体,其包含:i)编码CasY多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,其包含:i)编码CasY融合多肽的核苷酸序列,和ii)编码CasY指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,其包含:i)编码CasY融合多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列,和DNA供体模板。
110.如权利要求109所述的CasY系统,其中所述CasY多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。
111.如权利要求109所述的CasY系统,其中所述CasY多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。
112.如权利要求109-111中任一项所述的CasY系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
113.如权利要求109-111中任一项所述的CasY系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
114.一种试剂盒,其包含如权利要求109-113中任一项所述的CasY系统。
115.如权利要求114所述的试剂盒,其中所述试剂盒的组分在同一容器中。
116.如权利要求114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
117.一种无菌容器,其包含如权利要求109-116中任一项所述的CasY系统。
118.如权利要求117所述的无菌容器,其中所述容器是注射器。
119.一种可植入装置,其包含如权利要求109-116中任一项所述的CasY系统。
120.如权利要求119所述的可植入装置,其中所述CasY系统在基质内。
121.如权利要求119所述的可植入装置,其中所述CasY系统在储库中。
122.一种鉴定CRISPR RNA指导的内切核酸酶的方法,所述方法包括:
在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列;
检测所述编码Cas1的核苷酸序列附近的CRISPR阵列;
将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体;
测定所述重组CRISPR基因座表达载体的切割靶核酸的能力,其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPR RNA指导的内切核酸酶的核苷酸序列。
在所述CRISPR基因座中鉴定编码多肽的开放阅读框,所述多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20%的氨基酸序列同一性。
123.如权利要求122所述的方法,其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。
CN201780074122.7A 2016-09-30 2017-09-28 Rna指导的核酸修饰酶及其使用方法 Pending CN110418647A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662402849P 2016-09-30 2016-09-30
US62/402,849 2016-09-30
PCT/US2017/054047 WO2018064352A1 (en) 2016-09-30 2017-09-28 Rna-guided nucleic acid modifying enzymes and methods of use thereof

Publications (1)

Publication Number Publication Date
CN110418647A true CN110418647A (zh) 2019-11-05

Family

ID=61760117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780074122.7A Pending CN110418647A (zh) 2016-09-30 2017-09-28 Rna指导的核酸修饰酶及其使用方法

Country Status (12)

Country Link
US (2) US11371062B2 (zh)
EP (1) EP3532089A4 (zh)
JP (2) JP7306696B2 (zh)
KR (2) KR20190072548A (zh)
CN (1) CN110418647A (zh)
BR (1) BR112019006388A2 (zh)
CA (1) CA3038982A1 (zh)
EA (1) EA201990860A1 (zh)
GB (1) GB2569734B (zh)
IL (1) IL265599A (zh)
MX (1) MX2019003678A (zh)
WO (1) WO2018064352A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113151387A (zh) * 2021-04-16 2021-07-23 安徽国肽生物科技有限公司 一种具有抗氧化和增强免疫功能的鳕鱼皮胶原蛋白肽及其制备方法
CN115698041A (zh) * 2019-12-23 2023-02-03 加利福尼亚大学董事会 Crispr-cas效应多肽及其使用方法
WO2023241669A1 (zh) * 2022-06-16 2023-12-21 尧唐(上海)生物科技有限公司 CRISPR-Cas效应子蛋白、其基因编辑系统及应用

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2734621B1 (en) 2011-07-22 2019-09-04 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9526784B2 (en) 2013-09-06 2016-12-27 President And Fellows Of Harvard College Delivery system for functional nucleases
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
EP3215617B1 (en) 2014-11-07 2024-05-08 Editas Medicine, Inc. Systems for improving crispr/cas-mediated genome-editing
WO2016182959A1 (en) 2015-05-11 2016-11-17 Editas Medicine, Inc. Optimized crispr/cas9 systems and methods for gene editing in stem cells
EP3307887A1 (en) 2015-06-09 2018-04-18 Editas Medicine, Inc. Crispr/cas-related methods and compositions for improving transplantation
WO2017053879A1 (en) 2015-09-24 2017-03-30 Editas Medicine, Inc. Use of exonucleases to improve crispr/cas-mediated genome editing
IL310721A (en) 2015-10-23 2024-04-01 Harvard College Nucleobase editors and their uses
EP3433363A1 (en) 2016-03-25 2019-01-30 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
WO2017180694A1 (en) 2016-04-13 2017-10-19 Editas Medicine, Inc. Cas9 fusion molecules gene editing systems, and methods of use thereof
US10337051B2 (en) 2016-06-16 2019-07-02 The Regents Of The University Of California Methods and compositions for detecting a target RNA
CA3032699A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
KR20190072548A (ko) 2016-09-30 2019-06-25 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Rna-가이드된 핵산 변형 효소 및 이의 사용 방법
EP3523426A4 (en) 2016-09-30 2020-01-22 The Regents of The University of California RNA GUIDED NUCLEIC ACID MODIFYING ENZYMES AND METHOD FOR USE THEREOF
CN110214180A (zh) 2016-10-14 2019-09-06 哈佛大学的校长及成员们 核碱基编辑器的aav递送
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
WO2018136396A2 (en) * 2017-01-18 2018-07-26 Excision Biotherapeutics, Inc. Crisprs
US10995333B2 (en) * 2017-02-06 2021-05-04 10X Genomics, Inc. Systems and methods for nucleic acid preparation
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
US11542496B2 (en) 2017-03-10 2023-01-03 President And Fellows Of Harvard College Cytosine to guanine base editor
CN110914426A (zh) 2017-03-23 2020-03-24 哈佛大学的校长及成员们 包含核酸可编程dna结合蛋白的核碱基编辑器
US11499151B2 (en) 2017-04-28 2022-11-15 Editas Medicine, Inc. Methods and systems for analyzing guide RNA molecules
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
WO2018227114A1 (en) 2017-06-09 2018-12-13 Editas Medicine, Inc. Engineered cas9 nucleases
US11866726B2 (en) 2017-07-14 2024-01-09 Editas Medicine, Inc. Systems and methods for targeted integration and genome editing and detection thereof using integrated priming sites
CN111801345A (zh) 2017-07-28 2020-10-20 哈佛大学的校长及成员们 使用噬菌体辅助连续进化(pace)的进化碱基编辑器的方法和组合物
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
AU2018352592A1 (en) 2017-10-16 2020-06-04 Beam Therapeutics, Inc. Uses of adenosine base editors
US11970719B2 (en) * 2017-11-01 2024-04-30 The Regents Of The University Of California Class 2 CRISPR/Cas compositions and methods of use
AU2018358051A1 (en) 2017-11-01 2020-05-14 The Regents Of The University Of California CasZ compositions and methods of use
US11807877B1 (en) 2018-03-22 2023-11-07 National Technology & Engineering Solutions Of Sandia, Llc CRISPR/Cas activity assays and compositions thereof
CN112543650A (zh) * 2018-04-24 2021-03-23 利甘达尔股份有限公司 基因组编辑的方法和组合物
WO2019214604A1 (zh) * 2018-05-07 2019-11-14 中国农业大学 CRISPR/Cas效应蛋白及系统
US20210198660A1 (en) 2018-06-07 2021-07-01 Arc Bio, Llc Compositions and methods for making guide nucleic acids
US20210284981A1 (en) * 2018-07-24 2021-09-16 The Regents Of The University Of California Rna-guided nucleic acid modifying enzymes and methods of use thereof
WO2020028729A1 (en) 2018-08-01 2020-02-06 Mammoth Biosciences, Inc. Programmable nuclease compositions and methods of use thereof
WO2020142754A2 (en) 2019-01-04 2020-07-09 Mammoth Biosciences, Inc. Programmable nuclease improvements and compositions and methods for nucleic acid amplification and detection
US20220090088A1 (en) * 2019-01-14 2022-03-24 University Of Rochester Targeted Nuclear RNA Cleavage and Polyadenylation with CRISPR-Cas
DE212020000516U1 (de) 2019-03-07 2022-01-17 The Regents of the University of California CRISPR-CAS-Effektorpolypeptide
AU2020242032A1 (en) 2019-03-19 2021-10-07 Massachusetts Institute Of Technology Methods and compositions for editing nucleotide sequences
KR102651824B1 (ko) * 2020-01-31 2024-03-27 현대모비스 주식회사 루프 에어백 장치
US20230332218A1 (en) * 2020-04-21 2023-10-19 Mammoth Biosciences, Inc. Casy programmable nucleases and rna component systems
CA3177481A1 (en) 2020-05-08 2021-11-11 David R. Liu Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
CA3202977A1 (en) 2020-12-22 2022-06-30 Chroma Medicine, Inc. Compositions and methods for epigenetic editing
US20240102007A1 (en) 2021-06-01 2024-03-28 Arbor Biotechnologies, Inc. Gene editing systems comprising a crispr nuclease and uses thereof
EP4373963A2 (en) 2021-07-21 2024-05-29 Montana State University Nucleic acid detection using type iii crispr complex

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160138008A1 (en) * 2012-05-25 2016-05-19 The Regents Of The University Of California Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription
US20160208243A1 (en) * 2015-06-18 2016-07-21 The Broad Institute, Inc. Novel crispr enzymes and systems

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004521606A (ja) 2000-05-24 2004-07-22 サード・ウェーブ・テクノロジーズ・インク Rnaの検出法
US6773885B1 (en) 2000-09-29 2004-08-10 Integrated Dna Technologies, Inc. Compositions and methods for visual ribonuclease detection assays
US9689031B2 (en) 2007-07-14 2017-06-27 Ionian Technologies, Inc. Nicking and extension amplification reaction for the exponential amplification of nucleic acids
EP2536846B1 (en) 2010-02-15 2016-10-05 Cascade Biosystems, Inc. Methods and materials for detecting viral or microbial infections
SG186987A1 (en) 2010-06-11 2013-02-28 Pathogenica Inc Nucleic acids for multiplex organism detection and methods of use and making the same
US9730967B2 (en) 2011-02-04 2017-08-15 Katherine Rose Kovarik Method and system for treating cancer cachexia
US8815782B2 (en) 2011-11-11 2014-08-26 Agilent Technologies, Inc. Use of DNAzymes for analysis of an RNA sample
WO2014150624A1 (en) 2013-03-14 2014-09-25 Caribou Biosciences, Inc. Compositions and methods of nucleic acid-targeting nucleic acids
US9234213B2 (en) 2013-03-15 2016-01-12 System Biosciences, Llc Compositions and methods directed to CRISPR/Cas genomic engineering systems
AU2014350051A1 (en) 2013-11-18 2016-07-07 Crispr Therapeutics Ag CRISPR-Cas system materials and methods
EP3080266B1 (en) * 2013-12-12 2021-02-03 The Regents of The University of California Methods and compositions for modifying a single stranded target nucleic acid
US9850525B2 (en) 2014-01-29 2017-12-26 Agilent Technologies, Inc. CAS9-based isothermal method of detection of specific DNA sequence
EP3126498A4 (en) 2014-03-20 2017-08-23 Université Laval Crispr-based methods and products for increasing frataxin levels and uses thereof
WO2015157534A1 (en) 2014-04-10 2015-10-15 The Regents Of The University Of California Methods and compositions for using argonaute to modify a single stranded target nucleic acid
CA2951707A1 (en) 2014-06-10 2015-12-17 Massachusetts Institute Of Technology Method for gene editing
WO2016028843A2 (en) 2014-08-19 2016-02-25 President And Fellows Of Harvard College Rna-guided systems for probing and mapping of nucleic acids
EP3230452A1 (en) 2014-12-12 2017-10-18 The Broad Institute Inc. Dead guides for crispr transcription factors
EP3985115A1 (en) 2014-12-12 2022-04-20 The Broad Institute, Inc. Protected guide rnas (pgrnas)
WO2016106236A1 (en) 2014-12-23 2016-06-30 The Broad Institute Inc. Rna-targeting system
EP3250689B1 (en) 2015-01-28 2020-11-04 The Regents of The University of California Methods and compositions for labeling a single-stranded target nucleic acid
EP3436575A1 (en) 2015-06-18 2019-02-06 The Broad Institute Inc. Novel crispr enzymes and systems
CA2989830A1 (en) 2015-06-18 2016-12-22 The Broad Institute, Inc. Crispr enzyme mutations reducing off-target effects
AU2016279077A1 (en) 2015-06-18 2019-03-28 Omar O. Abudayyeh Novel CRISPR enzymes and systems
US9580727B1 (en) 2015-08-07 2017-02-28 Caribou Biosciences, Inc. Compositions and methods of engineered CRISPR-Cas9 systems using split-nexus Cas9-associated polynucleotides
EP3365441A1 (en) 2015-10-22 2018-08-29 The Broad Institute Inc. Type vi-b crispr enzymes and systems
WO2017120410A1 (en) 2016-01-08 2017-07-13 University Of Georgia Research Foundation, Inc. Methods for cleaving dna and rna molecules
US11441146B2 (en) 2016-01-11 2022-09-13 Christiana Care Health Services, Inc. Compositions and methods for improving homogeneity of DNA generated using a CRISPR/Cas9 cleavage system
US9896696B2 (en) 2016-02-15 2018-02-20 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
JP2019506875A (ja) 2016-02-23 2019-03-14 アーク バイオ, エルエルシー 標的検出のための方法および組成物
US20190093091A1 (en) 2016-04-06 2019-03-28 Temple University - Of The Commonwealth System Of Higher Education Compositions for eradicating flavivirus infections in subjects
WO2017205668A1 (en) 2016-05-25 2017-11-30 Arizona Board Of Regents On Behalf Of Arizona State University Portable, low-cost pathogen detection and strain identification platform
US10337051B2 (en) 2016-06-16 2019-07-02 The Regents Of The University Of California Methods and compositions for detecting a target RNA
JP7267013B2 (ja) 2016-06-17 2023-05-01 ザ・ブロード・インスティテュート・インコーポレイテッド Vi型crisprオルソログ及び系
LT3474669T (lt) * 2016-06-24 2022-06-10 The Regents Of The University Of Colorado, A Body Corporate Barkodu pažymėtų kombinatorinių bibliotekų generavimo būdai
EP3500967A1 (en) 2016-08-17 2019-06-26 The Broad Institute, Inc. Methods for identifying class 2 crispr-cas systems
EP3523426A4 (en) 2016-09-30 2020-01-22 The Regents of The University of California RNA GUIDED NUCLEIC ACID MODIFYING ENZYMES AND METHOD FOR USE THEREOF
KR20190072548A (ko) 2016-09-30 2019-06-25 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Rna-가이드된 핵산 변형 효소 및 이의 사용 방법
CN106701830B (zh) 2016-12-07 2020-01-03 湖南人文科技学院 一种敲除猪胚胎p66shc基因的方法
PT3551753T (pt) 2016-12-09 2022-09-02 Harvard College Diagnósticos baseados num sistema efetor de crispr
CA3059956A1 (en) 2017-04-21 2018-10-25 The General Hospital Corporation Variants of cpf1 (cas12a) with altered pam specificity
IL310452A (en) 2017-08-09 2024-03-01 Ricetec Inc Preparations and methods for genome modification
GB2582100B (en) 2017-11-01 2023-05-17 Univ California CAS12C Compositions and methods of use
AU2018358051A1 (en) 2017-11-01 2020-05-14 The Regents Of The University Of California CasZ compositions and methods of use
US20200255858A1 (en) 2017-11-01 2020-08-13 Jillian F. Banfield Casy compositions and methods of use
US11970719B2 (en) 2017-11-01 2024-04-30 The Regents Of The University Of California Class 2 CRISPR/Cas compositions and methods of use
US10253365B1 (en) 2017-11-22 2019-04-09 The Regents Of The University Of California Type V CRISPR/Cas effector proteins for cleaving ssDNAs and detecting target DNAs
US20210108267A1 (en) 2017-12-22 2021-04-15 The Broad Institute, Inc. Crispr effector system based multiplex diagnostics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160138008A1 (en) * 2012-05-25 2016-05-19 The Regents Of The University Of California Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription
US20160208243A1 (en) * 2015-06-18 2016-07-21 The Broad Institute, Inc. Novel crispr enzymes and systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FONFARA, I等: "Phylogeny of Cas9 determines functional exchangeability of dual-RNA and Cas9 among orthologous type II CRISPR-Cas systems", 《NUCLEIC ACIDS RESEARCH》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115698041A (zh) * 2019-12-23 2023-02-03 加利福尼亚大学董事会 Crispr-cas效应多肽及其使用方法
CN113151387A (zh) * 2021-04-16 2021-07-23 安徽国肽生物科技有限公司 一种具有抗氧化和增强免疫功能的鳕鱼皮胶原蛋白肽及其制备方法
CN113151387B (zh) * 2021-04-16 2022-08-16 安徽国肽生物科技有限公司 一种具有抗氧化和增强免疫功能的鳕鱼皮胶原蛋白肽及其制备方法
WO2023241669A1 (zh) * 2022-06-16 2023-12-21 尧唐(上海)生物科技有限公司 CRISPR-Cas效应子蛋白、其基因编辑系统及应用

Also Published As

Publication number Publication date
EA201990860A1 (ru) 2019-10-31
MX2019003678A (es) 2020-08-13
BR112019006388A2 (pt) 2019-06-25
IL265599A (en) 2019-05-30
JP2023030067A (ja) 2023-03-07
JP2019534695A (ja) 2019-12-05
US20190300908A1 (en) 2019-10-03
JP7306696B2 (ja) 2023-07-11
CA3038982A1 (en) 2018-04-05
KR20230169449A (ko) 2023-12-15
WO2018064352A1 (en) 2018-04-05
US20220396812A1 (en) 2022-12-15
EP3532089A1 (en) 2019-09-04
GB201905581D0 (en) 2019-06-05
GB2569734A (en) 2019-06-26
GB2569734B (en) 2022-09-07
US11371062B2 (en) 2022-06-28
AU2017335883A1 (en) 2019-04-11
KR20190072548A (ko) 2019-06-25
EP3532089A4 (en) 2020-05-13

Similar Documents

Publication Publication Date Title
CN110418647A (zh) Rna指导的核酸修饰酶及其使用方法
CN110023494A (zh) Rna指导的核酸修饰酶及其使用方法
US11453866B2 (en) CASZ compositions and methods of use
JP2024023294A (ja) 遺伝子編集のためのcpf1関連方法及び組成物
CN105899665B (zh) 用于核酸酶介导的基因组工程改造的递送方法和组合物
KR20230057487A (ko) 게놈 조정을 위한 방법 및 조성물
JP2021501611A (ja) Cas12c組成物及び使用方法
KR20230053735A (ko) 게놈의 조정을 위한 개선된 방법 및 조성물
JP2022522650A (ja) Crispr-casエフェクターポリペプチド及びその使用方法
AU2017335883B2 (en) RNA-guided nucleic acid modifying enzymes and methods of use thereof
EA045278B1 (ru) Рнк-направляемые модифицирующие нуклеиновые кислоты ферменты и способы их применения
CN115484815A (zh) 用于在大豆中表达rna指导的核酸酶和dna结合蛋白的改进多核苷酸

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40013668

Country of ref document: HK