CN110418647A

CN110418647A - Rna指导的核酸修饰酶及其使用方法

Info

Publication number: CN110418647A
Application number: CN201780074122.7A
Authority: CN
Inventors: J·A·多德纳; J·F·班菲尔德; D·伯斯坦; L·B·哈林顿
Original assignee: University of California
Current assignee: University of California
Priority date: 2016-09-30
Filing date: 2017-09-28
Publication date: 2019-11-05
Also published as: EA201990860A1; MX2019003678A; BR112019006388A2; IL265599A; JP2023030067A; JP2019534695A; US20190300908A1; JP7306696B2; CA3038982A1; KR20230169449A; WO2018064352A1; US20220396812A1; EP3532089A1; GB201905581D0; GB2569734A; GB2569734B; US11371062B2; AU2017335883A1; KR20190072548A; EP3532089A4

Abstract

本公开提供CasY蛋白、编码所述CasY蛋白的核酸，以及包含所述CasY蛋白和/或编码所述CasY蛋白的核酸的经修饰的宿主细胞。CasY蛋白可用于提供的各种应用中。本公开提供与所述CasY蛋白结合并提供针对所述CasY蛋白的序列特异性的CasY指导RNA，编码所述CasY指导RNA的核酸，以及包含所述CasY指导RNA和/或编码所述CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。

Description

RNA指导的核酸修饰酶及其使用方法

交叉引用

本申请要求2016年9月30日提交的美国临时专利申请号62/402,849的权益，所述申请以引用的方式整体并入本文。

以引用的方式并入呈文本文件提供的序列表

特此提供2017年9月28日创建的呈文本文件“BERK-343WO_SeqList_ST25.txt”的序列表并且所述序列表具有244KB的大小。文本文件的内容以引用方式整体并入本文。

引言

CRISPR-Cas系统是DNA测序时代之前科学界未知的途径的一个实例，现在被认为赋予细菌和古细菌针对噬菌体和病毒的获得性免疫力。过去十年的密集研究已揭示了此系统的生物化学性。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成，所述Cas蛋白参与外源DNA或RNA的获取、靶向和切割，所述CRISPR阵列包括将Cas蛋白引导至其靶标的侧接短间隔序列的正向重复序列。第2类CRISPR-Cas是精简型式，其中与RNA结合的单个Cas蛋白负责结合和切割靶向序列。这些最小系统的可编程性质使它们能够用作一种多功能技术，这种技术正在彻底变革基因组操纵领域。

当前的CRISPR-Cas技术基于来自培养的细菌的系统，而使得未被分离的绝大多数生物体处于未开发状态。迄今为止，仅发现了少数第2类CRISPR/Cas系统。本领域需要另外的第2类CRISPR/Cas系统(例如，Cas蛋白加指导RNA的组合)。

发明内容

本公开提供RNA指导的内切核酸酶多肽，在本文中称为“CasY”多肽(也称为“CasY蛋白”)；编码CasY多肽的核酸；以及包含CasY多肽和/或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。

本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA(在本文中称为“CasY指导RNA”)；编码CasY指导RNA的核酸；以及包含CasY指导RNA和/或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。

本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。

附图说明

图1描绘天然存在的CasY蛋白序列的实例。

图2描绘天然存在的CasY蛋白序列的比对。

图3(图a至图b)描绘CasY的示意性结构域表示。还示出试图鉴定CasY的同源物的各种检索的结果。还描绘鉴定的含有CasY的CRISPR基因座的部分。

图4描绘CasY和C2c3基因座的示意图。干扰蛋白以绿色示出，获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出，揭示在5'末端处的强发夹，从而表明CRISPR阵列通过CasY进行自我加工。

图5(图a至图d)描绘为确定CasY的PAM序列而进行的实验(CasY的PAM依赖性质粒干扰)。

图6(图a至图b)呈现天然存在的CasY指导RNA的‘重复'序列，以及与靶DNA杂交的示例性CasY指导RNA。(从上到下，SEQ ID NO:11-15和SEQ ID NO:20)

图7(图a至图b)呈现来自非培养生物体的新鉴定的CRISPR-Cas系统。a，基于Hug等人的数据，所有细菌和古细菌中具有与没有已分离的代表的主要谱系的比例³²。结果突出了这些领域中的大规模尚未研究的生物学。古细菌Cas9和新型CRISPR-CasY仅存在于没有已分离的代表的谱系中。b，新发现的CRISPR-Cas系统的基因座结构。

图8(图a至图b)呈现ARMAN-1CRISPR阵列多样性和ARMAN-1Cas9 PAM序列的鉴定。a，由15种不同的AMD样品重建的CRISPR阵列。白色方框表示重复序列，并且有色菱形表示间隔序列(相同的间隔序列颜色相似；独特的间隔序列为黑色)。突出显示阵列的保守区域(右侧)。最近获得的间隔序列(左侧)的多样性表明系统是活跃的。还包括来自读取数据的CRISPR片段的分析在图14中呈现。b，由AMD宏基因组数据重建的单个推定的病毒重叠群含有来自ARMAN-1CRISPR阵列的56个原间隔序列(红色竖直条)。c，序列分析揭示非靶链上的原间隔序列下游的保守‘NGG’PAM基序。

图9(图a至图d)呈现示出CasX介导大肠杆菌(E.coli)中的可编程DNA干扰的数据。a，CasX质粒干扰测定图。用含有与CRISPR阵列中的序列匹配的间隔序列的质粒(靶标)或含有非匹配间隔序列的质粒(非靶标)转化表达最小CasX基因座的大肠杆菌。转化之后，对培养物进行铺板并定量菌落形成单位(cfu)。b，表达靶向间隔序列1(sX.1)的浮霉菌门(Planctomycetes)CasX基因座并用指定的靶标转化的大肠杆菌的连续稀释(sX1，CasX间隔序列1；sX2，CasX间隔序列2；NT，非靶标)。c，δ变形菌门(Deltaproteobacteria)CasX的质粒干扰。实验一式三份进行，并且示出平均值±标准差。d，在大肠杆菌中表达的浮霉菌门CasX基因座的PAM缺失测定。与对照文库相比缺失大于30倍的PAM序列用于生成WebLogo。

图10(图a至图c)呈现示出CasX是一种双指导的CRISPR复合物的数据。a，环境RNA序列(宏转录组数据)到下图所示的CasX CRISPR基因座的映射(红色箭头，推定的tracrRNA；白色方框，重复序列；绿色菱形，间隔序列)。插图示出第一个重复序列和间隔序列的详细视图。b，CasX双链DNA干扰图。RNA加工的位点用黑色箭头指示。c，使用敲除CasX基因座的推定tracrRNA进行的质粒干扰测定的结果(T，靶标；NT，非靶标)。实验一式三份进行，并且示出平均值±标准差。

图11(图a至图c)呈现示出大肠杆菌中CasY基因座的表达足以引起DNA干扰的数据。a，CasY基因座和相邻蛋白质的图。b，相对于对照文库CasY的缺失大于3倍的5′PAM序列的WebLogo。c，表达CasY.1并用含有指示PAM的靶标转化的大肠杆菌的质粒干扰。实验一式三份进行，并且示出平均值±标准差。

图12(图a至图b)呈现在已知系统的环境中的新鉴定的CRISPR-Cas。a，通用Cas1蛋白的简化系统发育树。在楔形和分支上记录已知系统的CRISPR类型；新描述的系统以粗体显示。详细的Cas1系统发育在补充数据2中呈现。b，提出的由于II-B型与II-C型基因座之间的重组而产生古细菌II型系统的进化设想。

图13呈现来自ARMAN-4的古细菌Cas9存在于具有简并CRISPR阵列的许多重叠群上。来自ARMAN-4的Cas9在16个不同的重叠群上以深红色突出显示。具有推定的结构域或功能的蛋白被标记，而假定蛋白未被标记。所述重叠群中的十五个含有两个简并的正向重复序列(一个bp错配)和一个单一保守间隔序列。剩余的重叠群仅含有一个正向重复序列。与ARMAN-1不同，在ARMAN-4中发现没有另外的Cas蛋白与Cas9相邻。

图14呈现ARMAN-1CRISPR阵列的完整重建。包括参考组装序列以及由短DNA读取重建的阵列区段的CRISPR阵列的重建。绿色箭头指示重复序列，并且有色箭头指示CRISPR间隔序列(相同的间隔序列颜色相同，而独特的间隔序列为黑色)。在CRISPR系统中，间隔序列通常是单向添加的，因此左侧的各种各样的间隔序列归因于最近的获得。

图15(图a至图b)示出ARMAN-1间隔序列映射到古细菌群落成员的基因组。a，来自ARMAN-1的原间隔序列(红色箭头)映射到ARMAN-2的基因组，所述ARMAN-2是来自同一环境的纳米古细菌。六个原间隔序列独特地映射到侧接两个长末端重复序列(LTR)的基因组的一部分，并且两个另外的原间隔序列在LTR内完美匹配(蓝色和绿色)。此区域可能是转座子，表明ARMAN-1的CRISPR-Cas系统在抑制此元件的可动化中起作用。b，原间隔序列还映射到热源体目(Thermoplasmatales)古细菌(I-plasma)，所述热源体目古细菌是在与ARMAN生物体相同的样品中发现的Richmond Mine生态系统的另一个成员。原间隔序列在编码短假定蛋白的基因组区域内聚类，表明这也可能代表可动元件。

图16(图a至图e)呈现预测的ARMAN-1crRNA和tracrRNA的二级结构。a，CRISPR重复序列和tracrRNA反重复序列以黑色描绘，而间隔序列衍生的序列以一系列绿色N示出。没有明确的终止信号可从基因座预测，因此基于它们的二级结构测试了三种不同的tracrRNA长度-分别为红色、蓝色和粉红色的69、104和179。b，工程化的对应于a中的双指导的单指导RNA。c，在tracrRNA的3'末端有两个不同的发夹(75和122)的ARMAN-4Cas9的双指导。d，工程化的对应于c中的双指导的单指导RNA。e，大肠杆菌体内靶向测定中的测试条件。

图17(图a至图b)呈现体外生物化学研究的纯化方案。a，ARMAN-1(AR1)和ARMAN-4(AR4)Cas9在如补充材料中概述的多种条件下进行表达和纯化。在体外测试在蓝色方框中概述的蛋白质的切割活性。b，在10％SDS-PAGE凝胶上分离AR1-Cas9和AR4-Cas9纯化的级分。

图18呈现与已知蛋白质相比的新鉴定的CRISPR-Cas系统。基于以下检索的CasX和CasY与已知蛋白质的相似性：(1)针对NCBI的非冗余(NR)蛋白质数据库的Blast检索，(2)针对所有已知蛋白质的HMM数据库的隐马尔科夫模型(HMM)检索和(3)使用HHpred的远同源性检索³⁰。

图19(图a至图d)呈现与CasX进行的编程的DNA干扰相关的数据。a，CasX2(浮霉菌门)和CasX1(δ变形菌门)的质粒干扰测定，上接图9图c(sX1，CasX间隔序列1；sX2，CasX间隔序列2；NT，非靶标)。实验一式三份进行，并且示出平均值±标准差。b，表达CasX基因座并用指定靶标转化的大肠杆菌的连续稀释，上接图9图b。c，针对δ变形菌门CasX的PAM缺失测定，以及d，在大肠杆菌中表达的浮霉菌门CasX。与对照文库相比缺失大于指示的PAM缺失值阈值(PDVT)的PAM序列用于生成WebLogo。

图20呈现Cas9同源物的进化树。Cas9蛋白的最大似然法系统发育树，示出先前描述的基于系统类型着色的系统：II-A为蓝色，II-B为绿色，并且II-C为紫色。古细菌Cas9与II-C型CRISPR-Cas系统以及来自非培养细菌的两种新描述的细菌Cas9聚类到一起。

图21呈现针对来自ARMAN-1和ARMAN-4的Cas9测定的切割条件的表。

定义

如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如，相对于CasY多肽，异源多肽包含来自除CasY多肽之外的蛋白质的氨基酸序列。在一些情况下，来自一个物种的CasY蛋白的一部分与来自不同物种的CasY蛋白的一部分融合。因此，可认为来自每个物种的CasY序列相对于彼此是异源的。作为另一个实例，CasY蛋白(例如，dCasY蛋白)可与来自非CasY蛋白(例如，组蛋白脱乙酰酶)的活性结构域融合，并且所述活性结构域的序列可被认为是异源多肽(它与CasY蛋白是异源的)。

在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核苷酸)的聚合形式。因此，此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。术语“多核苷酸”和“核酸”应理解为包括如可适用于所描述的实施方案的单链(诸如有义链或反义链)和双链多核苷酸。

在本文中可互换使用的术语“多肽”、“肽”和“蛋白质”是指具有任何长度的氨基酸的聚合形式，其可包括遗传编码和非遗传编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。所述术语包括：融合蛋白，其包括但不限于具有异源氨基酸序列的融合蛋白，具有异源和同源前导序列、具有或不具有N端甲硫氨酸残基的融合体；免疫标记蛋白；等。

如本文所用，适用于核酸、蛋白质、细胞或生物体的术语“天然存在的”是指存在于自然界中的核酸、细胞、蛋白质或生物体。

如本文所用，术语“分离的”意在描述处于与多核苷酸、多肽或细胞天然存在的环境不同的环境中的所述多核苷酸、多肽或细胞。分离的遗传修饰的宿主细胞可存在于遗传修饰的宿主细胞的混合群体中。

如本文所用，术语“外源核酸”是指在自然界中不是正常或天然存在的核酸和/或不是由给定细菌、生物体或细胞产生的核酸。如本文所用，术语“内源核酸”是指在自然界中正常存在的核酸和/或由给定细菌、生物体或细胞产生的核酸。“内源核酸”也称为“天然核酸”或对于给定细菌、生物体或细胞“天然”的核酸。

如本文所用，“重组”意指具体核酸(DNA或RNA)是克隆、限制和/或连接步骤的各种组合的产物，所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。一般而言，编码结构编码序列的DNA序列可由cDNA片段和短寡核苷酸接头或由一系列合成寡核苷酸组装，以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。此类序列可以不被内部非翻译序列或内含子中断的开放阅读框形式提供，所述内部非翻译序列或内含子通常存在于真核基因中。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端，其中此类序列不干扰编码区的操作或表达，并且实际上可通过各种机制起到调节所需产物的产生的作用(参见下文的“DNA调节序列”)。

因此，例如术语“重组”多核苷酸或“重组”核酸是指非天然存在的多核苷酸或核酸，例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如，通过遗传工程化技术)来完成。通常进行这种操作以用编码相同或保守氨基酸的冗余密码子替换密码子，同时通常引入或移除序列识别位点。可替代地，将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如，通过遗传工程化技术)来完成。

类似地，术语“重组”多肽是指非天然存在的多肽，例如通过人干预由氨基酸序列的两个另外分开的区段的人工组合制成的多肽。因此，例如，包含异源氨基酸序列的多肽是重组的。

“构建体”或“载体”意指重组核酸，一般是重组DNA，其是出于表达和/或增殖一个或多个特定核苷酸序列的目的而生成的，或者用于构建其他重组核苷酸序列。

在本文中可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指转录和翻译控制序列，诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等，所述转录和翻译控制序列在宿主细胞中提供和/或调节编码序列的表达和/或编码的多肽的产生。

术语“转化”与“遗传修饰”在本文中可互换使用，并且是指在向细胞中引入新核酸(即，对于所述细胞外源的DNA)之后，在所述细胞中诱导的永久或瞬时的遗传变化。遗传变化(“修饰”)可通过向宿主细胞的基因组中引入新核酸或者通过作为游离基因元件的新核酸的瞬时的或稳定的维持来完成。当细胞为真核细胞时，永久的遗传变化一般通过向所述细胞的基因组中引入新DNA来完成。在原核细胞中，可将永久的变化引入染色体中或通过染色体外元件(诸如质粒和表达载体)引入染色体中，所述染色体外元件可含有一种或多种可选择标记以帮助它们在重组宿主细胞中的维持。遗传修饰的合适方法包括病毒感染、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射等。方法的选择一般取决于待转化的细胞类型和其中发生转化的环境(即体外、离体或体内)。这些方法的一般讨论可见于Ausubel等人,Short Protocols in Molecular Biology,第3版,Wiley&Sons,1995中。

“可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如，如果启动子影响编码序列的转录或表达，将启动子可操作地连接至所述编码序列。如本文所用，术语“异源启动子”和“异源控制区”是指通常与自然界中的特定核酸不相关的启动子和其他控制区。例如，“与编码区异源的转录控制区”是通常与自然界中的编码区不相关的转录控制区。

如本文所用，“宿主细胞”指代体内或体外真核细胞、原核细胞或作为单细胞实体培养的来自多细胞生物体的细胞(例如，细胞系)，所述真核细胞或原核细胞可用作或已用作核酸(例如，表达载体)的受体，并且包括已通过核酸遗传修饰的原始细胞的子代。应理解由于天然、偶然或有意突变，单细胞的子代可不必在形态或在基因组或总DNA互补序列方面与原始亲本完全相同。“重组宿主细胞”(也称为“遗传修饰的宿主细胞”)是已向其中引入异源核酸(例如，表达载体)的宿主细胞。例如，主题原核宿主细胞是通过将异源核酸引入合适的原核宿主细胞中的遗传修饰的原核宿主细胞(例如，细菌)，所述异源核酸是例如对原核宿主细胞外源(通常在自然界中不存在)的外源核酸或通常在原核宿主细胞中不存在的重组核酸；并且主题真核宿主细胞是通过将异源核酸引入合适的真核宿主细胞中的遗传修饰的真核宿主细胞，所述异源核酸是例如对真核宿主细胞外源的外源核酸或通常在真核宿主细胞中不存在的重组核酸。

术语“保守氨基酸取代”是指具有相似侧链的氨基酸残基的蛋白质中的可互换性。例如，具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成；具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成；具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成；具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成；并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。

多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比，这意味着当比对时碱基或氨基酸的百分数为相同的，并且当比较两个序列时处于相同的相对位置上。可以许多不同方式确定序列相似性。为了确定序列同一性，可使用包括可通过万维网ncbi.nlm.nih.gov/BLAST获得的BLAST在内的方法和计算机程序来比对序列。参见例如，Altschul等人(1990),J.Mol.Biol.215:403-10。另一种比对算法是FASTA，可从美国威斯康星州麦迪逊市的一家Oxford Molecular Group,Inc.的全资子公司的遗传计算组(GCG)程序包中获得。用于比对的其他技术描述于Methods in Enzymology,第266卷:ComputerMethods for Macromolecular Sequence Analysis(1996),Doolittle编,AcademicPress,Inc.,Harcourt Brace&Co.的一个部门,San Diego,California,USA。特别感兴趣的是允许序列中存在缺口的比对程序。Smith-Waterman是允许序列比对中存在缺口的一种算法类型。参见Meth.Mol.Biol.70:173-187(1997)。另外，使用Needleman和Wunsch比对方法的GAP程序可用于比对序列。参见J.Mol.Biol.48:443-453(1970)。

如本文所用，术语“治疗(treatment、treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言，所述效果可以是预防性的，并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言，所述效果可以是治疗性的。如本文所用，“治疗”覆盖对哺乳动物(例如，人类)的疾病的任何治疗，并且包括：(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生；(b)抑制疾病，即阻止其发展；和(c)缓解疾病，即引起疾病消退。

术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用，是指个体生物体，例如哺乳动物，包括但不限于鼠类、猿、人类、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。

在进一步描述本发明之前，应理解本发明不限于所述的具体实施方案，因此，当然也可有所变化。还应理解，本文所用的术语仅出于描述具体实施方案的目的，并且不意图具有限制性，因为本发明的范围将仅受所附权利要求限制。

在提供值的范围的情况下，应理解此范围的上限与下限之间的各介入值(除非上下文另外清楚地指出，否则准确到下限的单位的十分之一)，以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内，并且也涵盖在本发明内，从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下，排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。

除非另外定义，否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中，但是现在描述优选的方法和材料。本文提及的所有出版物以引用的方式并入本文，以结合所引用的出版物公开并描述方法和/或材料。

必须指出，如在本文和所附权利要求中所用，单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物，除非上下文另外清楚地指出。因此，例如，提及“CasY多肽”包括多个此类多肽，并且提及“指导RNA”包括提及本领域的技术人员已知的一种或多种指导RNA及其等效物，等。还应注意，权利要求可拟订成排除任何任选的要素。因而，这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。

应理解，出于清晰目的而在单独的实施方案的上下文中所描述的本发明的某些特征也可在单个实施方案中组合提供。相反，为了简明，在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外，各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地和明确地在本文中公开一样。

本文中讨论的出版物仅仅提供它们在本申请的提交日期之前的公开内容。本文中的任何内容均不应解释为承认由于先前发明而使本发明无权先于这些出版物。此外，所提供的出版日可能不同于可能需要独立确认的实际出版日期。

具体实施方式

本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。

组合物

CRISPR/CASY蛋白和指导RNA

CRISPR/Cas内切核酸酶(例如，CasY蛋白)与对应的指导RNA(例如，CasY指导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物，其通过指导RNA与靶核酸分子内的靶序列之间的碱基配对来靶向靶核酸中的特定位点。指导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(指导序列)。因此，CasY蛋白与CasY指导RNA形成复合物，并且指导RNA通过指导序列为RNP复合物提供序列特异性。复合物的CasY蛋白提供位点特异性活性。换言之，CasY蛋白质由于其与指导RNA的缔合而被指导到靶核酸序列(例如，染色体序列或染色体外序列，例如游离基因序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如，稳定在靶位点)。

本公开提供包含CasY多肽(和/或编码CasY多肽的核酸)的组合物(例如，其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)。本公开提供包含CasY指导RNA(和/或编码CasY指导RNA的核酸)的组合物。本公开提供包含以下的组合物：(a)CasY多肽(和/或编码CasY多肽的核酸)(例如，其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)和(b)CasY指导RNA(和/或编码CasY指导RNA的核酸)。本公开提供一种核酸/蛋白质复合物(RNP复合物)，其包含：(a)本公开的CasY多肽(例如，其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)；以及(b)CasY指导RNA。

CasY蛋白

CasY多肽(此术语与术语“CasY蛋白”可互换使用)可结合和/或修饰(例如，切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如，组蛋白尾的甲基化或乙酰化)(例如，在一些情况下，CasY蛋白包括具有活性的融合配偶体，并且在一些情况下，CasY蛋白提供核酸酶活性)。在一些情况下，CasY蛋白是天然存在的蛋白质(例如，天然存在于原核细胞中)。在其他情况下，CasY蛋白不是天然存在的多肽(例如，CasY蛋白是变体CasY蛋白、嵌合蛋白等)。

确定给定蛋白质是否与CasY指导RNA相互作用的测定可以是测试蛋白质和核酸之间的结合的任何方便的结合测定。合适的结合测定(例如，凝胶迁移测定)对于本领域的普通技术人员而言是已知的(例如，包括向靶核酸添加CasY指导RNA和蛋白质的测定)。确定蛋白质是否具有活性(例如，确定蛋白质是否具有切割靶核酸的核酸酶活性和/或一些异源活性)的测定可以是任何方便的测定(例如，任何方便的测试核酸切割的核酸切割测定)。合适的测定(例如，切割测定)对于本领域的普通技术人员而言是已知的。

天然存在的CasY蛋白起内切核酸酶的作用，其在靶向双链DNA(dsDNA)中的特定序列处催化双链断裂。序列特异性由相关联的指导RNA提供，所述指导RNA与靶DNA内的靶序列杂交。天然存在的CasY指导RNA是crRNA，其中crRNA包含(i)与靶DNA中的靶序列杂交的指导序列和(ii)包含结合CasY蛋白的茎环(发夹–dsRNA双链体)的蛋白质结合区段。

在一些实施方案中，主题方法和/或组合物的CasY蛋白是(或衍生自)天然存在的(野生型)蛋白质。天然存在的CasY蛋白的实例描绘于图1中，并且如SEQ ID NO:1-7所示。天然存在的CasY蛋白的实例描绘于图1中，并且如SEQ ID NO:1-8所示。图2中呈现示例性天然存在的CasY蛋白的比对(蛋白质标记为“Y1.”、“Y2.”、“Y3.”等)。7个天然存在的CasYCRISPR基因座的部分DNA支架(由测序数据组装)如SEQ ID NO:21-27所示。重要的是要注意，与先前鉴定的CRISPR-Cas内切核酸酶相比，这种新发现的蛋白质(CasY)较短，并且因此使用此蛋白质作为替代方案提供编码蛋白质的核苷酸序列相对较短的优点。例如，在其中需要编码CasY蛋白的核酸的情况下，例如在使用病毒载体(例如，AAV载体)的情况下，这可用于递送至诸如真核细胞的细胞(例如，哺乳动物细胞、人细胞、小鼠细胞、体外、离体、体内)用于研究和/或临床应用。本文还指出，携带CasY CRISPR基因座的细菌存在于在低温(例如，10℃-17℃)下采集的环境样品中。因此，预期CasY能够在低温(例如，10℃-14℃、10℃-17℃、10℃-20℃)下良好地起作用(例如，比迄今发现的其他Cas内切核酸酶更好)。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:2所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:2所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:3所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:3所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:4所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:4所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:5所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:5所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:6所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:6所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:7所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:7所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:8所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:8所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:9所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:9所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-4所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-4所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ IDNO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-5所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-5所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ IDNO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-7所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-7所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ IDNO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-8所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ IDNO:1-8所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ IDNO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

CasY蛋白结构域

图3中描绘CasY蛋白的结构域。如在图3的示意图中可看出(氨基酸基于CasY1蛋白(SEQ ID NO:1)编号)，CasY蛋白包含长度大致800-1000个氨基酸(例如，CasY1为约815个并且CasY5为980个)的N末端结构域以及包含3个部分RuvC结构域(RuvC-I、RuvC-II和RuvC-III，在本文中也称为亚结构域)的C末端结构域，所述RuvC结构域相对于CasY蛋白的一级氨基酸序列是不连续的，但在产生蛋白质并折叠时就会形成RuvC结构域。因此，在一些情况下，(主题组合物和/或方法的)CasY蛋白包含长度在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸)的具有N末端结构域的氨基酸序列(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)。在一些情况下，(主题组合物和/或方法的)CasY蛋白包含长度在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸)的氨基酸序列(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，所述氨基酸序列在分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)的N末端。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ IDNO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-4中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-5中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-7中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-8中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

在一些实施方案中，(主题组合物和/或方法的)CasY蛋白的分开RuvC结构域包括RuvC-II与RuvC-III亚结构域之间的区域，其大于RuvC-III亚结构域。例如，在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1)。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间或者1与1.2之间)。

在一些实施方案中(对于主题组合物和/或方法的CasY蛋白)，RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)。例如，在一些情况下，RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)。在一些实施方案中，RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内。

在一些情况下(对于主题组合物和/或方法的CasY蛋白)，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如，1与1.2之间)。

在一些情况下(对于主题组合物和/或方法的CasY蛋白)，RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65、68或70个氨基酸)。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含具有N末端结构域(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)的第一氨基酸序列，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及第二氨基酸序列(在第一氨基酸序列的C末端)，其具有分开的Ruv C结构域(具有3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)，其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的氨基酸序列。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ IDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

CasY变体

当与对应的野生型CasY蛋白的氨基酸序列相比时，变体CasY蛋白具有至少一个氨基酸不同的氨基酸序列(例如，具有缺失、插入、取代、融合)。切割双链靶核酸的一条链但不切割另一条链的CasY蛋白在本文中被称为“切口酶”(例如，“切口酶CasY”)。基本上不具有核酸酶活性的CasY蛋白在本文中被称为死CasY蛋白(“dCasY”)(需要注意的是，核酸酶活性可由异源多肽(融合配偶体)在嵌合CasY蛋白的情况下提供，这在下文更详细地描述)。对于本文所述的任何CasY变体蛋白(例如，切口酶CasY、dCasY、嵌合CasY)，CasY变体可包括具有与上述相同参数(例如，存在的结构域、同一性百分比等)的CasY蛋白序列。

变体–催化活性

在一些情况下，CasY蛋白是变体CasY蛋白，例如相对于天然存在的催化活性序列突变的蛋白，并且在与对应的天然存在的序列相比时，表现出降低的切割活性(例如，表现出90％或更低、80％或更低、70％或更低、60％或更低、50％或更低、40％或更低或者30％或更低的切割活性)。在一些情况下，这种变体CasY蛋白是催化“死”蛋白(基本上没有切割活性)并且可被称为‘dCasY’。在一些情况下，变体CasY蛋白是切口酶(仅切割双链靶核酸(例如，双链靶DNA)的一条链)。如本文更详细描述的，在一些情况下，CasY蛋白(在一些情况下，是具有野生型切割活性的CasY蛋白质并且在一些情况下，是具有降低的切割活性的变体CasY，例如dCasY或切口酶CasY)与具有感兴趣的活性(例如，感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasY蛋白)。

在根据CasY1(SEQ ID NO:1)编号时，CasY的催化残基包括D828、E914、D1074(对于SEQ ID NO:1，这些残基在图1中用下划线示出)。(参见，例如，图2图a和图b的比对)。

因此，在一些情况下，CasY蛋白具有降低的活性，并且一种或多种上述氨基酸(或任何CasY蛋白的一种或多种对应的氨基酸)发生突变(例如，被丙氨酸取代)。在一些情况下，变体CasY蛋白是催化‘死'蛋白(无催化活性)并且被称为‘dCasY'。dCasY蛋白可与提供活性的融合配偶体融合，并且在一些情况下，dCasY(例如，没有提供催化活性的融合配偶体，但在真核细胞中表达时可具有NLS的dCasY)可结合靶DNA并且可阻止RNA聚合酶从靶DNA翻译。在一些情况下，变体CasY蛋白是切口酶(仅切割双链靶核酸(例如，双链靶DNA)的一条链)。

变体–嵌合CasY(即，融合蛋白)

如上所指出，在一些情况下，CasY蛋白(在一些情况下，是具有野生型切割活性的CasY蛋白质并且在一些情况下，是具有降低的切割活性的变体CasY，例如dCasY或切口酶CasY)与具有感兴趣的活性(例如，感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasY蛋白)。CasY蛋白可与之融合的异源多肽在本文中被称为“融合配偶体”。

在一些情况下，融合配偶体可调节靶DNA的转录(例如，抑制转录、增加转录)。例如，在一些情况下，融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如，转录阻遏物，一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。在一些情况下，融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如，转录激活因子，一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。

在一些情况下，嵌合CasY蛋白包括具有修饰靶核酸的酶活性(例如，核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。

在一些情况下，嵌合CasY蛋白包括具有修饰与靶核酸相关联的多肽(例如，组蛋白)的酶活性(例如，甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。

可用于增加转录的蛋白质(或其片段)的实例包括但不限于：转录激活因子，诸如VP16、VP64、VP48、VP160、p65亚结构域(例如，来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如，针对植物中的活性)；组蛋白赖氨酸甲基转移酶，诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等；组蛋白赖氨酸脱甲基酶，诸如JHDM2a/b、UTX、JMJD3等；组蛋白乙酰基转移酶，诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等；以及DNA脱甲基酶，诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。

可用于减少转录的蛋白质(或其片段)的实例包括但不限于：转录阻遏物，诸如Krüppel相关盒(KRAB或SKD)；KOX1阻遏结构域；Mad mSIN3相互作用结构域(SID)；ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如，针对植物中的阻遏)等；组蛋白赖氨酸甲基转移酶，诸如Pr-SET7/8、SUV4-20H1、RIZ1等；组蛋白赖氨酸脱甲基酶，诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等；组蛋白赖氨酸脱乙酰酶，诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等；DNA甲基化酶，诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等；以及外周募集元件，诸如核纤层蛋白A、核纤层蛋白B等。

在一些情况下，融合配偶体具有修饰靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于：核酸酶活性诸如由限制性酶(例如，FokI核酸酶)提供的活性，甲基转移酶活性诸如由甲基转移酶(例如，HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性；脱甲基酶活性诸如由脱甲基酶(例如，10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性，DNA修复活性，DNA损伤活性，脱氨基活性诸如由脱氨酶(例如，胞嘧啶脱氨酶，诸如大鼠APOBEC1)提供的活性，歧化酶活性，烷基化活性，脱嘌呤活性，氧化活性，嘧啶二聚体形成活性，整合酶活性诸如由整合酶和/或解离酶(例如，Gin转化酶，诸如Gin转化酶的过度活跃突变体，GinH106Y；人类免疫缺陷病毒1型整合酶(IN)；Tn3解离酶等)提供的活性，转座酶活性，重组酶活性诸如由重组酶(例如，Gin重组酶的催化结构域)提供的活性，聚合酶活性，连接酶活性，解旋酶活性，光裂合酶活性和糖基化酶活性)。

在一些情况下，融合配偶体具有酶活性，其修饰与靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如，组蛋白、RNA结合蛋白、DNA结合蛋白等)。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于：甲基转移酶活性，诸如由组蛋白甲基转移酶(HMT)(例如，花斑抑制因子3-9同源物1(SUV39H1，也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A，也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性，脱甲基酶活性诸如由组蛋白脱甲基酶(例如，赖氨酸脱甲基酶1A(KDM1A，也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性，乙酰基转移酶活性诸如由组蛋白乙酰基转移酶(例如，人类乙酰基转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性，脱乙酰酶活性诸如由组蛋白脱乙酰酶(例如，HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性，激酶活性，磷酸酶活性，泛素连接酶活性，去泛素化活性，腺苷酸化活性，脱腺苷酸化活性，SUMO化活性，脱SUMO化活性，核糖基化活性，脱核糖基化活性，豆蔻酰化活性和脱豆蔻酰化活性。

合适的融合配偶体的另外的实例是二氢叶酸还原酶(DHFR)去稳定化结构域(例如，以生成化学可控的嵌合CasY蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于：

MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKV NTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDIT SITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISS SWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPIS SSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ IDNO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRT VGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDA TSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLD ITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVK CSAAVTPQASPVISRSAAAA(SEQ ID NO:92)，和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRT VKCCASSWNSTINGAAATTNGASAASS(SEQ IDNO:93)。

在一些情况下，本公开的CasY融合多肽包含：a)本公开的CasY多肽；和b)叶绿体转运肽。因此，例如，CRISPR-CasY复合物可靶向叶绿体。在一些情况下，这种靶向可通过N末端延伸的存在来实现，所述N末端延伸称为叶绿体转运肽(CTP)或质体转运肽。如果表达的多肽要在植物质体(例如，叶绿体)中区室化，则来自细菌来源的染色体转基因必须具有编码CTP序列的序列，所述CTP序列与编码表达的多肽的序列融合。因此，外源多肽到叶绿体的定位通常通过将编码CTP序列的多核苷酸序列与编码外源多肽的多核苷酸的5’区可操作地连接来实现。在易位到质体的过程中，在加工步骤中去除CTP。然而，加工效率可能受到CTP的氨基酸序列和肽的NH 2末端附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、WO 97/41228)、豌豆谷胱甘肽还原酶信号序列(WO 97/41228)和US2009029861中描述的CTP。

在一些情况下，本公开的CasY融合多肽可包含：a)本公开的CasY多肽；和b)内体逃逸肽。在一些情况下，内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)，其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下，内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)。

对于在与Cas9蛋白、锌指蛋白和/或TALE蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰，例如，组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例，参见例如：Nomura等人,J Am Chem Soc.2007年7月18日；129(28):8676-7；Rivenbark等人,Epigenetics.2012年4月；7(4):350-60；Nucleic Acids Res.2016年7月8日；44(12):5615-28；Gilbert等人,Cell.2013年7月18日；154(2):442-51；Kearns等人,NatMethods.2015年5月；12(5):401-3；Mendenhall等人,Nat Biotechnol.2013年12月；31(12):1133-6；Hilton等人,Nat Biotechnol.2015年5月；33(5):510-7；Gordley等人,ProcNatl Acad Sci U S A.2009年3月31日；106(13):5053-8；Akopian等人,Proc Natl AcadSci U S A.2003年7月22日；100(15):8688-91；Tan等人,J Virol.2006年2月；80(4):1939-48；Tan等人,Proc Natl Acad Sci U S A.2003年10月14日；100(21):11997-2002；Papworth等人,Proc Natl Acad Sci U S A.2003年2月18日；100(4):1621-6；Sanjana等人,Nat Protoc.2012年1月5日；7(1):171-92；Beerli等人,Proc Natl Acad Sci U SA.1998年12月8日；95(25):14628-33；Snowden等人,Curr Biol.2002年12月23日；12(24):2159-66；Xu等人,Xu等人,Cell Discov.2016年5月3日；2:16009；Komor等人,Nature.2016年4月20日；533(7603):420-4；Chaikind等人,Nucleic Acids Res.2016年8月11日；Choudhury等人,Oncotarget.2016年6月23日；Du等人,Cold Spring Harb Protoc.2016年1月4日；Pham等人,Methods Mol Biol.2016；1358:43-57；Balboa等人,Stem CellReports.2015年9月8日；5(3):448-59；Hara等人,Sci Rep.2015年6月9日；5:11221；Piatek等人,Plant Biotechnol J.2015年5月；13(4):578-89；Hu等人,Nucleic Acids Res.2014年4月；42(7):4375-90；Cheng等人,Cell Res.2013年10月；23(10):1163-71；以及Maeder等人,Nat Methods.2013年10月；10(10):977-9。

另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如，转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物反应性转录和/或翻译调节因子、翻译调节蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下，嵌合CasY多肽通过指导核酸(指导RNA)靶向靶核酸中的特定位置(即，序列)并且发挥基因座特异性调节的作用，诸如阻断RNA聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如，在使用融合序列时，修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下，变化是瞬时的(例如，转录阻遏或激活)。在一些情况下，变化是可遗传的(例如，在对靶核酸或与靶核酸相关联的蛋白质(例如，核小体组蛋白)进行表观遗传修饰时)。

当靶向ssRNA靶核酸时，使用的异源多肽的非限制性实例包括(但不限于)：剪接因子(例如，RS结构域)；蛋白质翻译组分(例如，翻译起始因子、延伸因子和/或释放因子；例如，eIF4G)；RNA甲基化酶；RNA编辑酶(例如，RNA脱氨酶，例如作用于RNA的腺苷脱氨酶(ADAR)，包括A至I和/或C至U编辑酶)；解旋酶；RNA结合蛋白等。应理解，异源多肽可包括整个蛋白质，或者在一些情况下，可包括蛋白质的片段(例如，功能结构域)。

主题嵌合CasY多肽的异源多肽可以是能够与ssRNA(出于本公开的目的，其包括分子内和/或分子间二级结构，例如双链RNA双链体，诸如发夹、茎环等)相互作用的任何结构域，无论是瞬时的还是不可逆的，直接的还是间接的，所述结构域包括但不限于选自由以下组成的组的效应结构域；内切核酸酶(例如RNA酶III、CRR22 DYW结构域、来自诸如SMG5和SMG6的蛋白质的Dicer和PIN(PilT N末端)结构域)；负责刺激RNA切割的蛋白质和蛋白质结构域(例如CPSF、CstF、CFIm和CFIIm)；外切核酸酶(例如XRN-1或外切核酸酶T)；脱腺苷酶(例如HNT3)；负责无义介导的RNA衰变的蛋白质和蛋白质结构域(例如UPF1、UPF2、UPF3、UPF3b、RNP S1、Y14、DEK、REF2和SRm160)；负责稳定RNA的蛋白质和蛋白质结构域(例如PABP)；负责阻遏翻译的蛋白质和蛋白质结构域(例如Ago2和Ago4)；负责刺激翻译的蛋白质和蛋白质结构域(例如Staufen)；负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子，诸如起始因子、延伸因子、释放因子等，例如eIF4G)；负责RNA的聚腺苷酸化的蛋白质和蛋白质结构域(例如PAP1、GLD-2和Star-PAP)；负责RNA的聚尿苷酸化的蛋白质和蛋白质结构域(例如CI D1和末端尿苷酸转移酶)；负责RNA定位的蛋白质和蛋白质结构域(例如来自IMP1、ZBP1、She2p、She3p和Bicaudal-D)；负责RNA的核保留的蛋白质和蛋白质结构域(例如Rrp6)；负责RNA的核输出的蛋白质和蛋白质结构域(例如TAP、NXF1、THO、TREX、REF和Aly)；负责阻遏RNA剪接的蛋白质和蛋白质结构域(例如PTB、Sam68和hnRNP A1)；负责刺激RNA剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(SR)结构域)；负责降低转录效率的蛋白质和蛋白质结构域(例如FUS(TLS))；以及负责刺激转录的蛋白质和蛋白质结构域(例如CDK7和HIV Tat)。可替代地，效应结构域可选自包括以下的组：内切核酸酶；能够刺激RNA切割的蛋白质和蛋白质结构域；外切核酸酶；脱腺苷酶；具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域；能够稳定RNA的蛋白质和蛋白质结构域；能够阻遏翻译的蛋白质和蛋白质结构域；能够刺激翻译的蛋白质和蛋白质结构域；能够调节翻译的蛋白质和蛋白质结构域(例如，翻译因子，诸如起始因子、延伸因子、释放因子等，例如eIF4G)；能够进行RNA的聚腺苷酸化的蛋白质和蛋白质结构域；能够进行RNA的聚尿苷酸化的蛋白质和蛋白质结构域；具有RNA定位活性的蛋白质和蛋白质结构域；能够进行RNA的核保留的蛋白质和蛋白质结构域；具有RNA核输出活性的蛋白质和蛋白质结构域；能够阻遏RNA剪接的蛋白质和蛋白质结构域；能够刺激RNA剪接的蛋白质和蛋白质结构域；能够降低转录效率的蛋白质和蛋白质结构域；以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUFRNA结合结构域，其在WO2012068627中更详细地描述，所述文献以引用的方式整体并入本文。

可作为嵌合CasY多肽的异源多肽(整体或作为其片段)使用的一些RNA剪接因子具有模块化结构，具有分开的序列特异性RNA结合模块和剪接效应结构域。例如，富含丝氨酸/精氨酸(SR)的蛋白质家族的成员含有N末端RNA识别基序(RRM)，其结合前mRNA和C末端RS结构域中的外显子剪接增强子(ESE)，所述外显子剪接增强子促进外显子包含。作为另一个实例，hnRNP蛋白hnRNP A1通过其RRM结构域与外显子剪接沉默子(ESS)结合，并通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调节序列来调节剪接位点(ss)的替代使用。例如，ASF/SF2可识别ESE并有助于使用内含子近侧位点，而hnRNP A1可结合ESS并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的ESF。例如，Bcl-x前mRNA产生两种剪接同种型，其具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子，并且在许多癌细胞中上调，从而保护细胞免于凋亡信号。短同种型Bcl-xS是促凋亡同种型，并且在具有高周转率的细胞(例如，发育中的淋巴细胞)中以高水平表达。两种Bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即，两个替代5’剪接位点之间)中的多个元件调节。对于更多实例，参见WO2010075303，其特此以引用的方式整体并入。

另外的合适的融合配偶体包括但不限于作为边界元件(例如，CTCF)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如，核纤层蛋白A、核纤层蛋白B等)、蛋白质对接元件(例如，FKBP/FRB、Pil1/Aby1等)。

用于主题嵌合CasY多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下应用中描述的那些(所述出版物与其他CRISPR内切核酸酶(诸如Cas9)有关，但是描述的融合配偶体也可与CasY一起使用)：美国专利申请：WO2010075303、WO2012068627和WO2013155555，并且可见于例如以下美国专利和专利申请：8,906,616；8,895,308；8,889,418；8,889,356；8,871,445；8,865,406；8,795,965；8,771,945；8,697,359；20140068797；20140170753；20140179006；20140179770；20140186843；20140186919；20140186958；20140189896；20140227787；20140234972；20140242664；20140242699；20140242700；20140242702；20140248702；20140256046；20140273037；20140273226；20140273230；20140273231；20140273232；20140273233；20140273234；20140273235；20140287938；20140295556；20140295557；20140298547；20140304853；20140309487；20140310828；20140310830；20140315985；20140335063；20140335620；20140342456；20140342457；20140342458；20140349400；20140349405；20140356867；20140356956；20140356958；20140356959；20140357523；20140357530；20140364333；和20140377868；所述专利全部特此以引用的方式整体并入。

在一些情况下，异源多肽(融合配偶体)提供亚细胞定位，即异源多肽含有亚细胞定位序列(例如，用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中，CasY融合多肽不包含NLS，使得蛋白质不靶向细胞核(这可能是有利的，例如，在靶核酸是存在于胞质溶胶中的RNA时)。在一些实施方案中，异源多肽可提供便于追踪和/或纯化的标签(即，异源多肽是可检测标记物)(例如，荧光蛋白，例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等；组氨酸标签，例如6XHis标签；血凝素(HA)标签；FLAG标签；Myc标签等)。

在一些情况下，CasY蛋白(例如，野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)核定位信号(NLS)(例如，在一些情况下，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此，在一些情况下，CasY多肽包含一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和/或C末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于C末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和C末端二者处或附近(例如，在50个氨基酸内)。在一些情况下，NLS位于N末端，并且NLS位于C末端。

在一些情况下，CasY蛋白(例如，野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)1与10个之间的NLS(例如，1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个或2-5个NLS)。在一些情况下，CasY蛋白(例如，野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)2与5个之间的NLS(例如，2-4个或2-3个NLS)。

NLS的非限制性实例包括衍生自以下的NLS序列：SV40病毒大T抗原的NLS，具有氨基酸序列PKKKRKV(SEQ ID NO:96)；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK(SEQ ID NO:97)的核质蛋白二分NLS)；c-myc NLS，具有氨基酸序列PAAKRVKLD(SEQ ID NO:98)或RQRRNELKRSP(SEQ ID NO:99)；hRNPA1 M9 NLS，具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:100)；来自核输入蛋白α(importin-alpha)的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:101)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:102)和PPKKARED(SEQ ID NO:103)；人类p53的序列PQPKKKPL(SEQ IDNO:104)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:105)；流感病毒NS1的序列DRLRR(SEQ ID NO:106)和PKQKKRK(SEQ ID NO:107)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ IDNO:108)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:109)；人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:110)；以及类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:111)。一般来讲，NLS(或多个NLS)具有足够的强度来驱动CasY蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如，可检测标记可与CasY蛋白融合，使得细胞内的位置可被可视化。细胞核也可从细胞中分离，然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析其内容物。也可间接确定细胞核中的积累。

在一些情况下，CasY融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽)，其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中，PTD与多肽的氨基末端共价连接(例如，与野生型CasY连接以生成融合蛋白，或与变体CasY蛋白(诸如dCasY、切口酶CasY或嵌合CasY蛋白)连接以生成融合蛋白)。在一些实施方案中，PTD与多肽的羧基末端共价连接(例如，与野生型CasY连接以生成融合蛋白，或与变体CasY蛋白(诸如dCasY、切口酶CasY或嵌合CasY蛋白)连接以生成融合蛋白)。在一些情况下，PTD在合适的插入位点处内插在CasY融合多肽中(即，不在CasY融合多肽的N末端或C末端)。在一些情况下，主题CasY融合多肽包含(缀合到、融合到)一个或多个PTD(例如，两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下，PTD包含核定位信号(NLS)(例如，在一些情况下，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此，在一些情况下，CasY融合多肽包含一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些实施方案中，PTD与核酸(例如，CasY指导核酸、编码CasY指导核酸的多核苷酸、编码CasY融合多肽的多核苷酸、供体多核苷酸等)共价连接。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR；SEQ ID NO:112的HIV-1TAT的残基47-57)；包含足以引入细胞中的数量的精氨酸(例如，3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列；VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96)；果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes52(7):1732-1737)；截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256)；聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008)；RRQRRTSKLMKR(SEQ ID NO:113)；运输蛋白(Transportan)GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:114)；KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:115)；以及RQIKIWFQNRRMKWKK(SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118)；具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物；示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个：YGRKKRRQRRR(SEQ ID NO:119)；RKKRRQRR(SEQ ID NO:120)；YARAAARQARA(SEQ ID NO:121)；THRLPRRRRRR(SEQ ID NO:122)；以及GGRRARRRRRR(SEQ IDNO:123)。在一些实施方案中，PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月；1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如，Glu9或“E9”)的聚阳离子CPP(例如，Arg9或“R9”)，这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时，释放聚阴离子，局部暴露聚精氨酸和其固有的粘附性，从而“激活”ACPP以横穿膜。

接头(例如，用于融合配偶体)

在一些实施方案中，主题CasY蛋白可通过接头多肽(例如，一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接，通常具有柔性性质，但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸以偶联蛋白质来产生，或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列，应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说，产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为适用。

接头多肽的实例包括甘氨酸聚合物(G)_n、甘氨酸-丝氨酸聚合物(包括例如(GS)_n、GSGGS_n(SEQ ID NO:124)、GGSGGS_n(SEQ ID NO:125)和GGGS_n(SEQ ID NO:126)，其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列，其包括但不限于GGSG(SEQ ID NO:127)、GGSGG(SEQ ID NO:128)、GSGSG(SEQ ID NO:129)、GSGGG(SEQ ID NO:130)、GGGSG(SEQ ID NO:131)、GSSSG(SEQ ID NO:132)等。普通技术人员将认识到，与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头，使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。

可检测标记物

在一些情况下，本公开的CasY多肽包含可检测标记物。可提供可检测信号的合适的可检测标记物和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。

合适的荧光蛋白包括但不限于绿色荧光蛋白(GFP)或其变体、GFP的蓝色荧光变体(BFP)、GFP的青色荧光变体(CFP)、GFP的黄色荧光变体(YFP)、增强型GFP(EGFP)、增强型CFP(ECFP)、增强型YFP(EYFP)、GFPS65T、Emerald、Topaz(TYFP)、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFP(dEGFP)、去稳定化ECFP(dECFP)、去稳定化EYFP(dEYFP)、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体2(12)、mRFP1、pocilloporin、海肾GFP(Renilla GFP)、MonsterGFP、paGFP、Kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlum(Shaner等人(2005)Nat.Methods2:905-909)等等。如在例如Matz等人(1999)Nature Biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。

合适的酶包括但不限于辣根过氧化物酶(HRP)、碱性磷酸酶(AP)、β-半乳糖苷酶(GAL)、葡萄糖-6-磷酸脱氢酶、β-N-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(GO)等。

原间隔序列相邻基序(PAM)

CasY蛋白在由靶向DNA的RNA与靶DNA之间的互补性区域限定的靶序列处与靶DNA结合。与许多CRISPR内切核酸酶的情况一样，双链靶DNA的位点特异性结合(和/或切割)发生在由以下二者确定的位置处：(i)指导RNA与靶DNA之间的碱基配对互补性；和(ii)靶DNA中的短基序[称为原间隔序列相邻基序(PAM)]。

在一些实施方案中，CasY蛋白的PAM直接位于靶DNA的非互补链的靶序列的5’端(互补链与指导RNA的指导序列杂交，而非互补链不直接与指导RNA杂交并且是非互补链的反向互补物)。在一些实施方案中(例如，当使用如本文所述的CasY1时)，非互补链的PAM序列为5’-TA-3’(并且在一些情况下为XTA，其中X是C、A或T)。作为示例，参见图5和图7(其中PAM是TA，或者是CTA(如果认为PAM是XTA)，其中X是C、A或T)。在一些实施方案中(例如，当使用如本文所述的CasY1时)，非互补链的PAM序列为5’-TA-3’(并且在一些情况下为HTA，其中H是C、A或T)。作为示例，参见图5和图7(其中PAM是TA，或者是CTA(如果认为PAM是HTA)，其中H是C、A或T)。在一些情况下(例如，当使用如本文所述的CasY2时)，非互补链的PAM序列是靶标5’端的5’-YR-3’侧翼序列(其中Y是T或C并且R是A或G)。在一些情况下(例如，当使用如本文所述的CasY2时)，非互补链的PAM序列是5'-TR-3’(例如，5'-DTR-3')(其中R是A或G并且D是A、G或T)。作为示例，参见图5d。

在一些情况下，不同的CasY蛋白(即，来自各种物种的CasY蛋白)可有利地用于各种所提供的方法中以便利用不同CasY蛋白的各种酶特征(例如，用于不同PAM序列偏好；用于增加的或降低的酶活性；用于增加的或降低的细胞毒性水平；用于改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡；利用短的总序列等)。来自不同物种的CasY蛋白可能需要靶DNA中的不同PAM序列。因此，对于所选择的具体CasY蛋白，PAM序列要求可与以上所述的5’-TA-3’(或XTA，HTA)序列不同。用于鉴定适当的PAM序列的各种方法(包括计算机模拟方法和/或湿实验室方法(wet lab methods))是本领域已知且常规的，并且可使用任何方便的方法。使用PAM缺失测定鉴定本文所述的TA(XTA，HTA)PAM序列(例如，参见下文工作实例的图5)。

CasY指导RNA

与CasY蛋白结合形成核糖核蛋白复合物(RNP)并将复合物靶向靶核酸(例如，靶DNA)内的特定位置的核酸分子在本文中称为“CasY指导RNA”或者仅称为“指导RNA”。应理解，在一些情况下，可制备杂交体DNA/RNA，使得CasY指导RNA除RNA碱基外还包含DNA碱基，但术语“CasY指导RNA”仍然用于涵盖本文的这种分子。

可以说CasY指导RNA包含两个区段，即靶向区段和蛋白质结合区段。CasY指导RNA的靶向区段包含与靶核酸(例如，靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与CasY多肽相互作用(结合)。主题CasY指导RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。靶核酸(例如，基因组DNA)的位点特异性结合和/或切割可发生在CasY指导RNA(CasY指导RNA的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如，靶基因座的靶序列)处。

CasY指导RNA和CasY蛋白(例如，融合CasY多肽)形成复合物(例如，通过非共价相互作用结合)。CasY指导RNA通过包含靶向区段为复合物提供靶特异性，所述靶向区段包含指导序列(与靶核酸序列互补的核苷酸序列)。复合物的CasY蛋白提供位点特异性活性(例如，由CasY蛋白提供的切割活性和/或在嵌合CasY蛋白的情况下由融合配偶体提供的活性)。换言之，CasY蛋白由于其与CasY指导RNA的缔合而被指导至靶核酸序列(例如，靶序列)。

可修饰“指导序列”，也称为CasY指导RNA的“靶向序列”，使得CasY指导RNA可将CasY蛋白(例如，天然存在的CasY蛋白、融合CasY多肽(嵌合CasY)等)靶向任何所需的靶核酸的任何所需序列，除了(例如，如本文所述)可考虑PAM序列之外。因此，例如，CasY指导RNA可具有与真核细胞中的核酸中的序列互补(例如，可与其杂交)的指导序列，所述核酸例如，病毒核酸、真核核酸(例如，真核染色体、染色体序列、真核RNA等)等。

CasY指导RNA的指导序列

主题CasY指导RNA包含指导序列(即，靶向序列)，其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换言之，CasY指导RNA的指导序列可通过杂交(即，碱基配对)以序列特异性方式与靶核酸(例如，双链DNA(dsDNA)、单链DNA(ssDNA)、单链RNA(ssRNA)或双链RNA(dsRNA))相互作用。CasY指导RNA的指导序列可被修饰(例如，通过遗传工程化)/设计成与靶核酸(例如，真核靶核酸，例如基因组DNA)内的任何所需靶序列杂交(例如，当考虑PAM时，例如，当靶向dsDNA靶时)。

在一些实施方案中，指导序列与靶核酸的靶位点之间的互补性百分比为60％或更高(例如，65％或更高、70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比为100％。

在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在靶核的酸靶位点最3'端的七个连续核苷酸上为100％。

在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

在一些实施方案中，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100％。

在一些实施方案中，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100％。

在一些情况下，指导序列具有在17-30个核苷酸(nt)(例如，17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下，指导序列具有在17-25个核苷酸(nt)(例如，17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些情况下，指导序列具有17或更多个nt(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下，指导序列具有19或更多个nt(例如，20个或更多个、21个或更多个、或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下，指导序列具有17个nt的长度。在一些情况下，指导序列具有18个nt的长度。在一些情况下，指导序列具有19个nt的长度。在一些情况下，指导序列具有20个nt的长度。在一些情况下，指导序列具有21个nt的长度。在一些情况下，指导序列具有22个nt的长度。在一些情况下，指导序列具有23个nt的长度。

CasY指导RNA的蛋白质结合区段

主题CasY指导RNA的蛋白质结合区段与CasX蛋白相互作用。CasY指导RNA通过上文提及的指导序列将结合的CasY蛋白指导至靶核酸内的特定核苷酸序列。CasY指导RNA的蛋白质结合区段包含两段核苷酸，它们彼此互补并杂交形成双链RNA双链体(dsRNA双链体)。因此，蛋白质结合区段包含dsRNA双链体。

在一些情况下，dsRNA双链体区域包含5-25个碱基对(bp)的范围(例如，5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp，例如5个bp、6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下，dsRNA双链体区域包含6-15个碱基对(bp)的范围(例如，6-12个、6-10个或6-8个bp，例如6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下，双链体区域包含5个或更多个bp(例如，6个或更多个、7个或更多个或8个或更多个bp)。在一些情况下，双链体区域包含6个或更多个bp(例如，7个或更多个或8个或更多个bp)。在一些情况下，并非双链体区域的所有核苷酸都是成对的，并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸)，其对双链双链体没有贡献，但是被有贡献的核苷酸围绕5'端和3'端，并且因此凸起被认为是双链体区域的一部分。在一些情况下，dsRNA包含1个或多个凸起(例如，2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下，dsRNA双链体包含2个或更多个凸起(例如，3个或更多个、4个或更多个凸起)。在一些情况下，dsRNA双链体包含1-5个凸起(例如，1-4个、1-3个、2-5个、2-4个或2-3个凸起)。

因此，在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有70％-100％的互补性(例如，75％-100％、80％-10％、85％-100％、90％-100％、95％-100％的互补性)。在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有70％-100％的互补性(例如，75％-100％、80％-10％、85％-100％、90％-100％、95％-100％的互补性)。在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有85％-100％的互补性(例如，90％-100％、95％-100％的互补性)。在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有70％-95％的互补性(例如，75％-95％、80％-95％、85％-95％、90％-95％的互补性)。

换言之，在一些实施方案中，dsRNA双链体包含彼此具有70％-100％的互补性(例如，75％-100％、80％-10％、85％-100％、90％-100％、95％-100％的互补性)的两段核苷酸。在一些情况下，dsRNA双链体包含彼此具有85％-100％的互补性(例如，90％-100％、95％-100％的互补性)的两段核苷酸。在一些情况下，dsRNA双链体包含彼此具有70％-95％的互补性(例如，75％-95％、80％-95％、85％-95％、90％-95％的互补性)的两段核苷酸。

主题CasY指导RNA的双链体区域可包含相对于天然存在的双链体区域的一个或多个(1个、2个、3个、4个、5个等)突变。例如，在一些情况下，可维持碱基对，同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下，与(天然存在的CasY指导RNA的)天然存在的双链体区域相比，主题CasY指导RNA的双链体区域包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或其任何方便的组合。

各种Cas9指导RNA的实例可在本领域中找到，并且在一些情况下，与引入Cas9指导RNA中的那些相似的变型也可引入本公开的CasY指导RNA中(例如，对于dsRNA双链体区域的突变、5’或3’末端的延伸以用于增加的稳定性，以便提供与另一种蛋白质的相互作用等)。例如，参见Jinek等人,Science.2012年8月17日；337(6096):816-21；Chylinski等人,RNABiol.2013年5月；10(5):726-37；Ma等人,Biomed Res Int.2013；2013:270805；Hou等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15644-9；Jinek等人,Elife.2013；2:e00471；Pattanayak等人,Nat Biotechnol.2013年9月；31(9):839-43；Qi等人,Cell.2013年2月28日；152(5):1173-83；Wang等人,Cell.2013年5月9日；153(4):910-8；Auer等人,Genome Res.2013年10月31日；Chen等人,Nucleic Acids Res.2013年11月1日；41(20):e19；Cheng等人,Cell Res.2013年10月；23(10):1163-71；Cho等人,Genetics.2013年11月；195(3):1177-80；DiCarlo等人,Nucleic Acids Res.2013年4月；41(7):4336-43；Dickinson等人,Nat Methods.2013年10月；10(10):1028-34；Ebina等人,Sci Rep.2013；3:2510；Fujii等人,Nucleic Acids Res.2013年11月1日；41(20):e187；Hu等人,CellRes.2013年11月；23(11):1322-5；Jiang等人,Nucleic Acids Res.2013年11月1日；41(20):e188；Larson等人,Nat Protoc.2013年11月；8(11):2180-96；Mali等人,NatMethods.2013年10月；10(10):957-63；Nakayama等人,Genesis.2013年12月；51(12):835-43；Ran等人,Nat Protoc.2013年11月；8(11):2281-308；Ran等人,Cell.2013年9月12日；154(6):1380-9；Upadhyay等人,G3(Bethesda).2013年12月9日；3(12):2233-8；Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15514-5；Xie等人,Mol Plant.2013年10月9日；Yang等人,Cell.2013年9月12日；154(6):1370-9；Briner等人,Mol Cell.2014年10月23日；56(2):333-9；以及美国专利和专利申请：8,906,616；8,895,308；8,889,418；8,889,356；8,871,445；8,865,406；8,795,965；8,771,945；8,697,359；20140068797；20140170753；20140179006；20140179770；20140186843；20140186919；20140186958；20140189896；20140227787；20140234972；20140242664；20140242699；20140242700；20140242702；20140248702；20140256046；20140273037；20140273226；20140273230；20140273231；20140273232；20140273233；20140273234；20140273235；20140287938；20140295556；20140295557；20140298547；20140304853；20140309487；20140310828；20140310830；20140315985；20140335063；20140335620；20140342456；20140342457；20140342458；20140349400；20140349405；20140356867；20140356956；20140356958；20140356959；20140357523；20140357530；20140364333；和20140377868；所述专利全部特此以引用的方式整体并入。

CasY指导RNA包含指导序列和杂交以形成蛋白质结合区段的dsRNA双链体的两段核苷酸(“双链体形成区段”)两者。给定的CasY指导RNA的特定序列可以是crRNA所存在于的物种的特征。本文提供合适的CasY指导RNA的实例。

示例性指导RNA序列

图6(图a和图b)中描绘的重复序列(示例性CasY指导RNA的非指导序列部分)来自CasY1-Y5的天然基因座。在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ IDNO:12)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ IDNO:12)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ ID NO:12)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ IDNO:13)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ IDNO:13)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ ID NO:13)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ IDNO:14)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ IDNO:14)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ ID NO:14)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ IDNO:15)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)SEQ ID NO:11-15中的任一个所示的crRNA序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)SEQ ID NO:11-14中的任一个所示的crRNA序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-14中的任一个所示的crRNA序列具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-14中的任一个所示的crRNA序列具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

来自CasY18的天然基因座的重复序列(示例性CasY指导RNA的非指导序列部分)是CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ IDNO:16)]。在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ IDNO:16)]。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ ID NO:16)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ IDNO:16)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)SEQ ID NO:11-16中的任一个所示的crRNA序列。在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)与SEQ ID NO:11-16中的任一个所示的crRNA序列具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-16中的任一个所示的crRNA序列具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

CASY系统

本公开提供一种CasY系统。本公开的CasY系统可包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。

核酸

本公开提供一种或多种核酸，其包含以下中的一种或多种：供体多核苷酸序列、编码CasY多肽(例如，野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)的核苷酸序列、CasY指导RNA和编码CasY指导RNA的核苷酸序列。本公开提供一种包含编码CasY融合多肽的核苷酸序列的核酸。本公开提供一种包含编码CasY多肽的核苷酸序列的重组表达载体。本公开提供一种包含编码CasY融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体，其包含：a)编码CasY多肽的核苷酸序列；和b)编码一种或多种CasY指导RNA的核苷酸序列。本公开提供一种重组表达载体，其包含：a)编码CasY融合多肽的核苷酸序列；和b)编码一种或多种CasY指导RNA的核苷酸序列。在一些情况下，编码CasY蛋白的核苷酸序列和/或编码CasY指导RNA的核苷酸序列可操作地连接到可在选择的细胞类型(例如，原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等)中操作的启动子。

在一些情况下，编码本公开的CasY多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码CasY的核苷酸序列的突变以模拟预期的宿主生物体或细胞的密码子偏好同时编码相同蛋白质。因此，密码子可改变，但编码的蛋白质保持不变。例如，如果预期的靶细胞是人细胞，可使用人密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是小鼠细胞，则可生成小鼠密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是植物细胞，则可生成植物密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是昆虫细胞，则可生成昆虫密码子优化的编码CasY的核苷酸序列。

本公开提供一种或多种重组表达载体，其包含(在一些情况下在不同的重组表达载体中，并且在一些情况下在相同的重组表达载体中)：(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如，靶基因组)的靶序列具有同源性的核苷酸序列)；(ii)编码CasY指导RNA的核苷酸序列，所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)；和(iii)编码CasY蛋白的核苷酸序列(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体，其包含(在一些情况下在不同的重组表达载体中，并且在一些情况下在相同的重组表达载体中)：(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如，靶基因组)的靶序列具有同源性的核苷酸序列)；和(ii)编码CasY指导RNA的核苷酸序列，所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体，其包含(在一些情况下在不同的重组表达载体中，并且在一些情况下在相同的重组表达载体中)：(i)编码CasY指导RNA的核苷酸序列，所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)；和(ii)编码CasY蛋白的核苷酸序列(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。

合适的表达载体包括病毒表达载体(例如，基于以下病毒的病毒载体：牛痘病毒；脊髓灰质炎病毒；腺病毒(参见例如，Li等人,Invest Opthalmol Vis Sci 35:2543 2549,1994；Borras等人,Gene Ther 6:515524,1999；Li和Davidson,PNAS 92:7700 7704,1995；Sakamoto等人,H Gene Ther 5:1088 1097,1999；WO 94/12649、WO 93/03769；WO93/19191；WO 94/28938；WO 95/11984和WO 95/00655)；腺相关病毒(AAV)(参见例如，Ali等人,HumGene Ther 9:81 86,1998；Flannery等人,PNAS 94:6916 6921,1997；Bennett等人,InvestOpthalmol Vis Sci 38:2857 2863,1997；Jomary等人,Gene Ther 4:683 690,1997；Rolling等人,Hum Gene Ther 10:641 648,1999；Ali等人,Hum Mol Genet 5:591 594,1996；Srivastava的WO 93/09239，Samulski等人,J.Vir.(1989)63:3822-3828；Mendelson等人,Virol.(1988)166:154-165；以及Flotte等人,PNAS(1993)90:10613-10617)；SV40；单纯疱疹病毒；人类免疫缺陷病毒(参见例如，Miyoshi等人,PNAS 94:10319 23,1997；Takahashi等人,J Virol 73:7812 7816,1999)；逆转录病毒载体(例如，鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。在一些情况下，本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些情况下，本公开的重组表达载体是重组慢病毒载体。在一些情况下，本公开的重组表达载体是重组逆转录病毒载体。

根据所用的宿主/载体系统，可在表达载体中使用许多合适的转录和翻译控制元件中的任一种，包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。

在一些实施方案中，编码CasY指导RNA的核苷酸序列可操作地连接到控制元件，例如转录控制元件，诸如启动子。在一些实施方案中，编码CasY蛋白或CasY融合多肽的核苷酸序列可操作地连接到控制元件，例如转录控制元件，诸如启动子。

转录控制元件可以是启动子。在一些情况下，启动子是组成型活性启动子。在一些情况下，启动子是可调节启动子。在一些情况下，启动子是诱导型启动子。在一些情况下，启动子是组织特异性启动子。在一些情况下，启动子是细胞类型特异性启动子。在一些情况下，转录控制元件(例如，启动子)在靶向细胞类型或靶向细胞群中是功能性的。例如，在一些情况下，转录控制元件在真核细胞(例如，造血干细胞(例如，动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。

真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α，来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如，6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列，所述蛋白质标签可融合到CasY蛋白，从而产生嵌合CasY多肽。

在一些实施方案中，编码CasY指导RNA和/或CasY融合多肽的核苷酸序列可操作地连接到诱导型启动子。在一些实施方案中，编码CasY指导RNA和/或CasY融合蛋白的核苷酸序列可操作地连接到组成型启动子。

启动子可以是组成型活性启动子(即，在活性/“ON”状态下组成型的启动子)，它可以是诱导型启动子(即，通过外界刺激例如存在特定温度、化合物或蛋白质控制其状态(活性/“ON”或非活性/“OFF”)的启动子)，它可以是空间限制的启动子(即，转录控制元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且它可以是时间限制的启动子(即，启动子在胚胎发育的特定阶段过程中或在生物过程(例如，小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态)。

合适的启动子可来源于病毒并且可因此称为病毒启动子，或它们可来源于任何生物，包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如，pol I、polII、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人类U6小核启动子(U6)(Miyagishi等人,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如，Xia等人,Nucleic Acids Res.2003年9月1日；31(17))、人类H1启动子(H1)等。

在一些情况下，编码CasY指导RNA的核苷酸序列可操作地连接到(在其控制下)在真核细胞中可操作的启动子(例如，U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的，当使用U6启动子(例如，在真核细胞中)或另一种PolIII启动子由核酸(例如，表达载体)表达RNA(例如，指导RNA)时，如果连续存在若干个T(在RNA中编码U)，则可能需要对RNA进行突变。这是因为DNA中的一串T(例如，5个T)可充当聚合酶III(PolIII)的终止子。因此，为了确保指导RNA在真核细胞中的转录，有时可能需要修饰编码指导RNA的序列以消除T的作用。在一些情况下，编码CasY蛋白(例如，野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)的核苷酸序列可操作地连接到在真核细胞中可操作的启动子(例如，CMV启动子、EF1α启动子、雌激素受体调节的启动子等)。

诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。因此，诱导型启动子可通过分子调节，所述分子包括但不限于强力霉素；雌激素和/或雌激素类似物；IPTG等。

适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节的启动子和物理调节的启动子，诸如醇调节的启动子、四环素调节的启动子(例如，无水四环素(aTc)-响应性启动子和其他四环素响应性启动子系统，其包括四环素阻遏物蛋白(tetR)、四环素操作序列(tetO)和四环素反式激活因子融合蛋白(tTA))、类固醇调节的启动子(例如，基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调节的启动子(例如，衍生自来自酵母、小鼠和人类的金属硫蛋白(结合并螯合金属离子的蛋白质)基因的启动子)、发病原调节的启动子(例如，由水杨酸、乙烯或苯并噻二唑(BTH)诱导的启动子)、温度/热诱导型启动子(例如，热休克启动子)和光调节的启动子(例如，来自植物细胞的光响应性启动子)。

在一些情况下，启动子是空间限制的启动子(即，细胞类型特异性启动子、组织特异性启动子等)，使得在多细胞生物体中，启动子在特定细胞子集中是活性的(即，“ON”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子，只要启动子在靶向宿主细胞(例如，真核细胞；原核细胞)中是功能性的即可。

在一些情况下，启动子是可逆启动子。合适的可逆启动子，包括可逆诱导型启动子，是本领域已知的。此类可逆启动子可分离自并衍生自许多生物体，例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如，第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰是本领域熟知的。此类可逆启动子和基于此类可逆启动子但也包含另外的控制蛋白的系统包括但不限于醇调节的启动子(例如，醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调节的启动子(例如，启动子系统，包括Tet激活因子、TetON、TetOFF等)、类固醇调节的启动子(例如，大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类维生素A启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调节的启动子(例如，金属硫蛋白启动子系统等)、发病机理相关的调节启动子(例如，水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等)、温度调节启动子(例如，热休克诱导型启动子(例如，HSP-70、HSP-90、大豆热休克启动子等))、光调节启动子、合成诱导型启动子等。

将核酸(例如，包含供体多核苷酸序列的核酸、一种或多种编码CasY蛋白和/或CasY指导RNA的核酸等)引入宿主细胞中的方法是本领域已知的，并且可使用任何方便的方法来将核酸(例如，表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。

将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。

在一些实施方案中，CasY蛋白可作为RNA提供。RNA可通过直接化学合成提供，或者可在体外从DNA(例如，编码CasY蛋白的DNA)转录。一旦合成，可通过用于将核酸引入细胞中的任何熟知的技术(例如，微注射、电穿孔、转染等)将RNA引入细胞中。

可使用开发良好的转染技术(参见例如Angel和Yanik(2010)PLoS ONE 5(7):e11756)；以及可从Qiagen商购获得的试剂、从Stemgent可商购获得的Stemfect^TMRNA转染试剂盒以及可从Mirus Bio LLC商购获得的转染试剂盒向细胞提供核酸。还参见Beumer等人(2008)PNAS105(50):19821-19826。

可直接向靶宿主细胞提供载体。换言之，使细胞与包含主题核酸的载体(例如，具有供体模板序列并编码CasY指导RNA的重组表达载体；编码CasY蛋白的重组表达载体等)接触，使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)是本领域中熟知的。对于病毒载体递送，可使细胞与包含主题病毒表达载体的病毒颗粒接触。

逆转录病毒，例如慢病毒，适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”，即不能产生用于生产性感染所需要的病毒蛋白质。而且载体复制需要在包装细胞系中生长。为了生成包含感兴趣的核酸的病毒颗粒，通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性)，此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性；对包括人类、狗和小鼠的大多数哺乳动物细胞类型的双嗜性；以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法是本领域中熟知的。还可通过直接微注射引入核酸(例如，RNA的注射)。

用于向靶宿主细胞提供编码CasY指导RNA和/或CasY多肽的核酸的载体可包括用于驱动感兴趣核酸的表达(即，转录激活)的合适的启动子。换言之，在一些情况下，感兴趣的核酸将可操作地连接到启动子。所述启动子可包括遍在活化型启动子，例如CMV-β-肌动蛋白启动子；或诱导型启动子，诸如在具体细胞群中有活性或对药物(诸如四环素的)存在有反应的启动子。通过转录激活，预期转录将在靶细胞中的基础水平以上增加10倍、100倍、更通常地1000倍。另外，用于向细胞提供编码CasY指导RNA和/或CasY蛋白的核酸的载体可包含如下核酸序列，其在靶细胞中编码可选择标记以便鉴定已经吸收CasY指导RNA和/或CasY蛋白的细胞。

包含编码CasY多肽或CasY融合多肽的核苷酸序列的核酸在一些情况下是RNA。因此，可将CasY融合蛋白作为RNA引入细胞中。将RNA引入细胞中的方法是本领域中已知的并且可包括例如直接注射、转染或用于引入DNA的任何其他方法。相反，CasY蛋白可作为多肽向细胞提供。这种多肽可任选地融合到增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如，通过TEV蛋白酶切割的TEV序列)连接到多肽。接头还可包括一个或多个柔性序列，例如1至10个甘氨酸残基。在一些实施方案中，融合蛋白的切割在维持产物溶解度的缓冲液中进行，例如在0.5至2M尿素存在下、在多肽和/或增加溶解度的多核苷酸的存在下等进行。感兴趣的结构域包括核内体溶解结构域，例如流感HA结构域；和辅助产生的其他多肽，例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如，肽可以是PEG化的，其中聚乙烯氧基提供在血流中的增加的寿命。

另外或可替代地，本公开的CasY多肽可融合到多肽穿透结构域以促进被细胞吸收。许多穿透结构域是本领域中已知的并且可用于本公开的非整合多肽，其包括肽、肽模拟物和非肽运载体。例如，穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋，所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO:133)。作为另一个实例，穿透肽包含HIV-1tat碱性区域氨基酸序列，所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序，例如HIV-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如，Futaki等人(2003)Curr Protein PeptSci.2003年4月；4(2):87-9和446；以及Wender等人(2000)Proc.Natl.Acad.Sci.U.S.A2000年11月21日；97(24):13003-8；公布的美国专利申请20030220334；20030083256；20030032593；和20030022831，本文以引用的方式特别并入了易位肽和拟肽的教义)。九精氨酸(R9)序列是已表征的更有效的PTD之一(Wender等人2000；Uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。

本公开的CasY多肽可在体外或通过真核细胞或通过原核细胞产生，并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工，并且可使用本领域已知的方法进一步再折叠。

不改变一级序列的感兴趣的修饰包括多肽的化学衍生化，例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰，例如通过在其合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰；例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。

还适合包括在本公开的实施方案中的是核酸(例如，编码CasY指导RNA、编码CasY融合蛋白等的核酸)和蛋白质(例如，衍生自野生型蛋白质或变体蛋白质的CasY融合蛋白)，所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰，以便改进它们对蛋白水解降解的抗性，改变靶序列特异性，优化溶解特性，改变蛋白质活性(例如，转录调节活性、酶活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的L-氨基酸之外的残基(例如，D-氨基酸或非天然存在的合成氨基酸)的那些多肽。D-氨基酸可取代一些或所有氨基酸残基。

可使用如本领域已知的常规方法，通过体外合成制备本公开的CasY多肽。可使用各种商业合成装置，例如Applied Biosystems,Inc.，Beckman等的自动合成仪。通过使用合成仪，天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。

如果需要，可在合成过程中或在表达过程中将各种基团引入肽中，这允许连接到其他分子或表面。因此半胱氨酸可用来制备硫醚、用于连接到金属离子络合物的组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。

还可根据重组合成的常规方法分离和纯化本公开的CasY多肽。可由表达宿主制备裂解液，并且使用高效液相色谱法(HPLC)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下，相对于与产物制备及其纯化的方法相关的污染物，所使用的组合物将包含所需产物的20重量％或更多、更通常地75重量％或更多、优选地95重量％，并且出于治疗目的通常为99.5重量％或更多。通常，百分数将基于总蛋白。因此，在一些情况下，本公开的CasY多肽或CasY融合多肽具有至少80％纯度、至少85％纯度、至少90％纯度、至少95％纯度、至少98％纯度或至少99％纯度(例如，不含污染物、非CasY蛋白质或其他大分子等)。

为了诱导对靶核酸(例如，基因组DNA)的切割或任何所需的修饰，或对与靶核酸相关联的多肽的任何所需的修饰，向细胞提供本公开的CasY指导RNA和/或CasY多肽和/或供体模板序列，无论它们作为核酸还是多肽引入，持续约30分钟至约24小时，例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段，这可以约每天至约每4天的频率来重复，例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可向主题细胞提供一种或多种试剂一次或多次，例如一次、两次、三次或多于三次，并且在每次接触事件之后允许用一种或多种试剂孵育细胞一定时间量，例如16-24小时，在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。

在其中向细胞提供两种或更多种不同靶向复合物(例如，与相同或不同靶核酸内的不同序列互补的两种不同CasY指导RNA)的情况下，可同时提供(例如，作为两种多肽和/或核酸)或同时递送所述复合物。可替代地，它们可连续提供，例如首先提供靶向复合物，接着提供第二靶向复合物等，或反之亦然。

为了改进DNA载体向靶细胞的递送，可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护DNA免受损伤，并且促进DNA进入细胞中。因此，在一些情况下，本公开的核酸(例如，本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与DNA复合时，它被称为脂质复合物。存在三种类型的脂质，阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷，与带负电的DNA天然复合。同样由于它们的电荷，它们与细胞膜相互作用。然后发生脂质复合物的内吞作用，并且将DNA释放到细胞质中。阳离子脂质还可防止细胞对DNA的降解。

聚合物与DNA的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成，并且它们的产生由离子相互作用调节。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其DNA负载释放到细胞质中，为此，必须发生与内体溶解剂(溶解内吞作用期间产生的内体，诸如灭活的腺病毒)的共转染。然而，并非总是如此；诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样，都有自己的内体破坏方法。

树枝状聚合物，一种球形的高度支化的大分子，也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地，可能构建阳离子树枝状聚合物(即，具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如DNA质粒)时，电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。在到达其目的地时，树枝状聚合物-核酸复合物可通过内吞作用被吸收到细胞中。

在一些情况下，本公开的核酸(例如，表达载体)包含感兴趣的指导序列的插入位点。例如，核酸可包含感兴趣的指导序列的插入位点，其中所述插入位点紧邻编码CasY指导RNA的部分的核苷酸序列，当指导序列被改变而与所需靶序列杂交(例如，有助于指导RNA的CasY结合方面的序列，例如，有助于CasY指导RNA的一个或多个dsRNA双链体的序列-指导RNA的这个部分也可称为指导RNA的“支架”或“恒定区”)时，CasY指导RNA的所述部分不会改变。因此，在一些情况下，主题核酸(例如，表达载体)包含编码CasY指导RNA的核苷酸序列，不同的是编码指导RNA的指导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的，并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如，在一些情况下，插入位点是多克隆位点(MCS)(例如，包含一个或多个限制性酶识别序列的位点)，用于连接独立克隆的位点，用于基于克隆的重组(例如，基于att位点的重组)的位点，由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。

插入位点可以是任何期望的长度，并且可取决于插入位点的类型(例如，可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列)，位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些情况下，主题核酸的插入位点长度为3个或更多个核苷酸(nt)(例如，长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下，主题核酸的插入位点具有在2至50个核苷酸(nt)的范围内(例如，2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下，主题核酸的插入位点具有在5至40个nt的范围内的长度。

核酸修饰

在一些实施方案中，主题核酸(例如，CasY指导RNA)具有一个或多个修饰(例如，碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如，改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接到核苷的糖部分的磷酸酯基团的核苷。对于包含呋喃戊糖的那些核苷，磷酸酯基团可连接到糖的2’、3’或5’羟基部分。在形成寡核苷酸中，磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而，此线性聚合化合物的各端可进一步连接以形成环状化合物，然而，线性化合物是合适的。另外，线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内，磷酸酯基团通常称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架是3’至5’的磷酸二酯键。

合适的核酸修饰包括但不限于：2’O甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如，7-甲基鸟苷酸帽(m7G))。下文描述另外的细节和另外的修饰。

2'-O-甲基修饰的核苷酸(也称为2'-O-甲基RNA)是在tRNA和其他小RNA中发现的天然存在的RNA修饰，其作为转录后修饰而出现。可直接合成含有2'-O-甲基RNA的寡核苷酸。这种修饰增加RNA:RNA双链体的Tm，但仅导致RNA:DNA稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的，并且对DNA酶的敏感性通常是DNA的5至10倍低。它通常用于反义寡核苷酸中，作为增加稳定性和对于靶信使的结合亲和力的手段。

2'氟修饰的核苷酸(例如，2'氟碱基)具有氟修饰的核糖，其增加结合亲和力(Tm)并且与天然RNA相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和siRNA中以改进在血清或其他生物体液中的稳定性。

LNA碱基具有对核糖骨架的修饰，其将碱基锁定在C3'-内部位置，这有利于RNA A型螺旋双链体几何结构。这种修饰显著增加Tm并且还具有非常强的核酸酶抗性。可将多个LNA插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到SNP检测和等位基因特异性PCR的应用。由于LNA赋予Tm的大量增加，它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下，引入单个寡核苷酸中的LNA的数量是10个碱基或更少。

硫代磷酸酯(PS)键联(即，硫代磷酸酯键)用硫原子取代核酸(例如，寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键联以抑制外切核酸酶降解。在寡核苷酸内(例如，在整个寡核苷酸中)包含硫代磷酸酯键联也可帮助减少内切核酸酶的攻击。

在一些实施方案中，主题核酸具有一个或多个核苷酸，所述核苷酸是2'-O-甲基修饰的核苷酸。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有一个或多个2'氟修饰的核苷酸。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有一个或多个LNA碱基。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有通过硫代磷酸酯键联连接的一个或多个核苷酸(即，主题核酸具有一个或多个硫代磷酸酯键)。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有5'帽(例如，7-甲基鸟苷酸帽(m7G))。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有修饰的核苷酸的组合。例如，除具有一个或多个具有其他修饰的核苷酸(例如，2'-O-甲基核苷酸和/或2'氟修饰的核苷酸和/或LNA碱基和/或硫代磷酸酯键)之外，主题核酸(例如，dsRNA、siNA等)可具有5'帽(例如，7-甲基鸟苷酸帽(m7G))。

修饰的骨架和修饰的核苷间键

含有修饰的合适的核酸(例如，CasY指导RNA)的实例包括含有修饰的骨架或非天然的核苷间键的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。

其中含有磷原子的合适的经修饰的寡核苷酸骨架包括例如，硫代磷酸酯，手性硫代磷酸酯，二硫代磷酸酯，磷酸三酯，氨基烷基磷酸三酯，甲基和其他烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯，次膦酸酯，氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯，二氨基磷酸酯，硫羰氨基磷酸酯，硫羰烷基磷酸酯，硫羰烷基磷酸三酯，具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯，这些的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架，其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键，即可为碱性(核碱基丢失或其被羟基替代)的单个反转核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。

在一些实施方案中，主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键，具体地是-CH₂-NH-O-CH₂-、-CH₂-N(CH₃)-O-CH₂-(称为亚甲基(甲基亚氨基)或MMI骨架)、-CH₂-O-N(CH₃)-CH₂-、-CH₂-N(CH₃)-N(CH₃)-CH₂-和-O-N(CH₃)-CH₂-CH₂-(其中天然磷酸二酯核苷酸间键表示为-O-P(＝O)(OH)-O-CH₂-)。MMI型核苷间键公开于上文提及的美国专利号5,489,677中，所述专利的公开内容以引用的方式整体并入本文。合适的酰胺核苷间键公开于美国专利号5,602,240中，所述专利的公开内容以引用的方式整体并入本文。

还合适的是具有吗啉代骨架结构的核酸，如例如美国专利号5,034,506中所述。例如，在一些实施方案中，主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些中，二氨基磷酸酯或其他非磷酸二酯核苷间键替代磷酸二酯键。

其中不包含磷原子的合适的经修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括：具有吗啉代键(部分地由核苷的糖部分形成)的那些骨架；硅氧烷骨架；硫化物、亚砜和砜骨架；甲酰乙酰基和硫代甲酰乙酰基骨架；亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架；核糖乙酰基(riboacetyl)骨架；含烯烃的骨架；氨基磺酸酯骨架；亚甲基亚胺基和亚甲基肼基骨架；磺酸酯和磺酰胺骨架；酰氨骨架；以及具有混合的N、O、S和CH₂组成部分的其他骨架。

模拟物

主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸，仅呋喃糖环替代在本领域中又称为糖替代。杂环碱基部分或修饰的杂环碱基部分维持与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(PNA)。在PNA中，多核苷酸的糖骨架被含酰胺的骨架替代，具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接结合骨架的酰胺部分的氮杂氮原子。

已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(PNA)。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接结合骨架的酰胺部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于：美国专利号5,539,082；5,714,331；和5,719,262，所述专利的公开内容以引用的方式整体并入本文。

已研究的另一类多核苷酸模拟物基于具有附着到吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(Dwaine A.Braasch和David R.Corey,Biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中，所述专利的公开内容以引用的方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物，所述化合物具有连接单体亚单元的多种不同的连接基团。

另一类多核苷酸模拟物称为环己烯基核酸(CeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNA DMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸(参见Wang等人,J.Am.Chem.Soc.,2000,122,8595-8602，其公开内容以引用的方式整体并入本文)。一般来讲，CeNA单体引入DNA链中增加了DNA/RNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色性示出将CeNA结构引入天然核酸结构中的研究以继续进行简单的构象调整。

另一种修饰包括锁定核酸(LNA)，其中2'-羟基连接到糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键，从而形成双环糖部分。所述键可以是亚甲基(-CH₂-)，桥联2’氧原子和4’碳原子的基团，其中n为1或2(Singh等人,Chem.Commun.,1998,4,455-456，其公开内容以引用的方式整体并入本文)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm＝+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有LNA的有效且无毒的反义寡核苷酸(例如Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638，其公开内容以引用的方式整体并入本文)。

已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如，Koshkin等人,Tetrahedron,1998,54,3607-3630，其公开内容以引用的方式整体并入本文)。LNA及其制备也描述于WO 98/39352和WO 99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中，所述专利的公开内容以引用的方式整体并入本文。

修饰的糖部分

主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团：OH；F；O-、S-或N-烷基；O-、S-或N-烯基；O-、S-或N-炔基；或O-烷基-O-烷基，其中烷基、烯基和炔基可以是取代或未取代的C₁至C₁₀烷基或C₂至C₁₀烯基和炔基。特别合适的是：O((CH₂)_nO)_mCH₃、O(CH₂)_nOCH₃、O(CH₂)_nNH₂、O(CH₂)_nCH₃、O(CH₂)_nONH₂和O(CH₂)_nON((CH₂)_nCH₃)₂，其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团：C₁至C₁₀低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH₃、OCN、Cl、Br、CN、CF₃、OCF₃、SOCH₃、SO₂CH₃、ONO₂、NO₂、N₃、NH₂、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团，以及其他具有相似特性的取代基。合适的修饰包括2’-甲氧基乙氧基(2'-O-CH₂CH₂OCH₃，又称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等人,Helv.Chim.Acta,1995,78,486-504，其公开内容以引用的方式整体并入本文)，即烷氧基烷氧基基团。另外合适的修饰包括2’-二甲基氨基氧基乙氧基，即O(CH₂)₂ON(CH₃)₂基团，又称为2'-DMAOE，如在下文的实施例中所述；和2’-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE)，即2'-O-CH₂-O-CH₂-N(CH₃)₂。

其他合适的糖取代基团包括甲氧基(-O-CH₃)、氨基丙氧基(--OCH₂CH₂CH₂NH₂)、烯丙基(-CH₂-CH＝CH₂)、-O-烯丙基(--O--CH₂—CH＝CH₂)和氟(F)。2’-糖取代基团可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-F。还可在低聚化合物上的其他位置上做出相似的修饰，具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置以及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物，诸如环丁基部分。

碱基修饰和取代

主题核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所用，“未修饰”或“天然”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其他合成和天然的核碱基，诸如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C＝C-CH₃)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基(具体为5-溴代基)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的经修饰的核碱基包括三环嘧啶，诸如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹诸如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。

杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基，例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于The Concise Encyclopedia Of Polymer Science AndEngineering,第858-859页,Kroschwitz,J.I.编John Wiley&Sons,1990中的那些、由Englisch等人,Angewandte Chemie,International Edition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.编,CRC Press,1993公开的那些，其公开内容以引用的方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶，6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤，包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(Sanghvi等人编,Antisense Research and Applications,CRC Press,Boca Raton,1993,第276-278页；其公开内容以引用的方式整体并入本文)并且例如当与2'-O-甲氧基乙基糖修饰组合时是适合的碱基取代。

缀合物

主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接到多核苷酸。这些部分或缀合物可包括共价结合到诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报道分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。

缀合物部分包括但不限于脂质部分，诸如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)，胆酸(Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060)，硫醚例如己基-S-三苯甲基硫醇(Manoharan等人,Ann.N.Y.Acad.Sci.,1992,660,306-309；Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770)，巯基胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538)，脂族链例如十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EMBO J.,1991,10,1111-1118；Kabanov等人,FEBS Lett.,1990,259,327-330；Svinarchuk等人,Biochimie,1993,75,49-54)，磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-O-十六烷基-外消旋-甘油-3-H-磷酸酯(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654；Shea等人,Nucl.Acids Res.,1990,18,3777-3783)，多胺或聚乙二醇链(Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973)，或金刚烷乙酸(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654)，棕榈基部分(Mishra等人,Biochim.Biophys.Acta,1995,1264,229-237)，或十八烷基胺或己基氨基-羰基-羟基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937)。

缀合物可包括“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽)，其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如，细胞核)内。在一些实施方案中，PTD与外源多核苷酸的3’末端共价连接。在一些实施方案中，PTD与外源多核苷酸的5’末端共价连接。示例性PTD包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR；SEQ ID NO:112的HIV-1TAT的残基47-57)；包含足以引入细胞中的数量的精氨酸(例如，3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列；VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96)；果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737)；截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256)；聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008)；RRQRRTSKLMKR SEQ IDNO:113)；运输蛋白GWTLNSAGYLLGKINLKALAALAKKIL SEQ ID NO:114)；KALAWEAKLAKALAKALAKHLAKALAKALKCEA SEQ ID NO:115)；和RQIKIWFQNRRMKWKK SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118)；具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物；示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个：YGRKKRRQRRR SEQ ID NO:119)；RKKRRQRR SEQ ID NO:120)；YARAAARQARA SEQID NO:121)；THRLPRRRRRR SEQ ID NO:122)；以及GGRRARRRRRR SEQ ID NO:123)。在一些实施方案中，PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月；1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如，Glu9或“E9”)的聚阳离子CPP(例如，Arg9或“R9”)，这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时，释放聚阴离子，局部暴露聚精氨酸和其固有的粘附性，从而“激活”ACPP以横穿膜。

将组分引入靶细胞中

CasY指导RNA(或包含编码CasY指导RNA的核苷酸序列的核酸)和/或本公开的CasY多肽(或包含编码CasY多肽的核苷酸序列的核酸)和/或本公开的CasY融合多肽(或者包含编码本公开的CasY融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)可通过多种熟知的方法引入宿主细胞中。

可使用多种化合物和方法中的任一种将本公开的CasY系统递送到靶细胞(例如，其中CasY系统包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。作为非限制性实例，本公开的CasY系统可与脂质组合。作为另一个非限制性实例，本公开的CasY系统可与颗粒组合或配制成颗粒。

将核酸引入到宿主细胞中的方法是本领域中已知的，并且可使用任何方便的方法来将主题核酸(例如，表达构建体/载体)引入到靶细胞(例如，原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。适合的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如，Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。

在一些情况下，本公开的CasY多肽作为编码CasY多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下，本公开的CasY多肽直接作为蛋白质(例如，不与相关联的指导RNA一起或与相关联的指导RNA一起，即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasY多肽引入细胞中(提供至细胞)；此类方法是本领域的普通技术人员已知的。作为说明性实例，可将本公开的CasY多肽直接注射到细胞中(例如，与或不与CasY指导RNA或编码CasY指导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本公开的CasY多肽和CasY指导RNA的预先形成的复合物(RNP)引入细胞(例如，真核细胞)中(例如，通过注射、通过核转染；通过缀合到一种或多种组分的蛋白转导结构域(PTD)，例如缀合到CasY蛋白、缀合到指导RNA、缀合到本公开的CasY多肽和指导RNA；等)。

在一些情况下，本公开的CasY融合多肽(例如，与融合配偶体融合的dCasY、与融合配偶体融合的切口酶CasY等)作为编码CasY融合多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下，本公开的CasY融合多肽直接作为蛋白质(例如，不与相关联的指导RNA一起或与相关联的指导RNA一起，即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasY融合多肽引入细胞中(提供至细胞)；此类方法是本领域的普通技术人员已知的。作为说明性实例，可将本公开的CasY融合多肽直接注射到细胞中(例如，与或不与编码CasY指导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本公开的CasY融合多肽和CasY指导RNA的预先形成的复合物(RNP)引入细胞中(例如，通过注射、通过核转染；通过缀合到一种或多种组分的蛋白转导结构域(PTD)，例如缀合到CasY融合蛋白、缀合到指导RNA、缀合到本公开的CasY融合多肽和指导RNA；等)。

在一些情况下，将核酸(例如，CasY指导RNA；包含编码本公开的CasY多肽的核苷酸序列的核酸等)递送到颗粒中的细胞(例如，靶宿主细胞)和/或多肽(例如，CasY多肽；CasY融合多肽)，或与颗粒缔合。在一些情况下，本公开的CasY系统被递送到颗粒中的细胞，或与颗粒缔合。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的CasY多肽的核苷酸序列和/或CasY指导RNA的重组表达载体、包含编码本公开的CasY多肽的核苷酸序列的mRNA以及指导RNA可使用颗粒或脂质包膜同时递送；例如，CasY多肽和CasY指导RNA，例如作为复合物(例如，核糖核蛋白(RNP)复合物)可通过颗粒递送，例如通过包含脂质或类脂质以及亲水聚合物(例如，阳离子脂质和亲水聚合物)的递送颗粒递送，例如，其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包含乙二醇或聚乙二醇(PEG)；并且/或者其中颗粒还包含胆固醇(例如，来自制剂1的颗粒＝DOTAP 100、DMPC 0、PEG 0、胆固醇0；制剂编号2＝DOTAP 90、DMPC 0、PEG 10、胆固醇0；制剂编号3＝DOTAP 90、DMPC 0、PEG 5、胆固醇5)。例如，可使用多步骤方法形成颗粒，其中将CasY多肽和CasY指导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(PBS)中混合在一起；并且适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于乙醇(例如，100％乙醇)，并且将两种溶液混合在一起以形成含有复合物的颗粒)。

本公开的CasY多肽(或包含编码本公开的CasY多肽的核苷酸序列的mRNA；或包含编码本公开的CasY多肽的核苷酸序列的重组表达载体)和/或CasY指导RNA(或核酸，诸如一种或多种编码CasY指导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如，可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些情况下，使用基于自组装生物粘附聚合物的颗粒/纳米颗粒；此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送，例如递送到脑。还考虑了其他实施方案，诸如疏水药物的口服吸收和眼部递送。可使用分子包膜技术，其涉及受保护并递送至疾病部位的工程化聚合物包膜。可使用约5mg/kg的剂量，使用单剂量或多剂量，这取决于各种因素，例如靶组织。

类脂质化合物(例如，如美国专利申请20110293703中所述)也可用于多核苷酸的施用，并且可用于递送本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统(例如，其中CasY系统包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。在一方面，氨基醇类脂质化合物与待递送到细胞或受试者的药剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。

聚(β-氨基醇)(PBAA)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚(β-氨基醇)(PBAA)。

可使用基于糖的颗粒，例如，如参考WO2014118272(以引用的方式并入本文)和Nair,J K等人,2014,Journal of the American Chemical Society 136(49),16958-16961)所述的GalNAc，可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。

在一些情况下，使用脂质纳米颗粒(LNP)将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如，pH 4)下装载到LNP中，其中可电离的脂质显示正电荷。然而，在生理pH值下，LNP表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质，即1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基-酮-N,N-二甲基-3-氨基丙烷(DLinKDMA)和1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)。LNP的制备描述于例如Rosin等人(2011)Molecular Therapy 19:1286-2200)中。可使用阳离子脂质1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2'’-(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)和R-3-[(.ω.-甲氧基-聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如，CasY指导RNA；本公开的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些情况下，并入0.2％SP-DiOC18。

球形核酸(SNA^TM)构建体和其他纳米颗粒(特别是金纳米颗粒)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞.。参见例如，Cutler等人,J.Am.Chem.Soc.2011 133:9254-9257，Hao等人,Small.20117:3158-3162，Zhang等人,ACS Nano.2011 5:6962-6970，Cutler等人,J.Am.Chem.Soc.2012 134:1376-1391，Young等人,Nano Lett.201212:3867-71，Zheng等人,Proc.Natl.Acad.Sci.USA.2012 109:11975-80，Mirkin,Nanomedicine 2012 7:635-638Zhang等人,J.Am.Chem.Soc.2012 134:16488-1691，Weintraub,Nature 2013 495:S14-S16，Choi等人,Proc.Natl.Acad.Sci.USA.2013 110(19):7625-7630，Jensen等人,Sci.Transl.Med.5,209ra152(2013)和Mirkin等人,Small,10:186-192。

具有RNA的自组装纳米颗粒可用聚乙烯亚胺(PEI)构建，所述聚乙烯亚胺(PEI)用附接在聚乙二醇(PEG)远侧端部处的Arg-Gly-Asp(RGD)肽配体PEG化。

一般来讲，“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有500nm或更小，例如，25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有35nm至60nm的直径。

适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒可以不同的形式提供，例如，作为固体纳米颗粒(例如，金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或其组合提供。可制备金属、介电和半导体纳米颗粒，以及混合结构(例如，核壳纳米颗粒)。由半导体材料制成的纳米颗粒也可标记为量子点，如果它们足够小(通常低于10nm)，则发生电子能级的量子化。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂，并且可适用于本公开中的相似目的。

半固体和软纳米颗粒也适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。具有半固体性质的原型纳米颗粒是脂质体。

在一些情况下，使用外泌体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。外泌体是内源性纳米囊泡，其运输RNA和蛋白质，并且可将RNA递送到脑和其他靶器官。

在一些情况下，使用脂质体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。脂质体是球形囊泡结构，其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成；然而，磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时，脂质体形成是自发的，但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如，可将胆固醇或鞘磷脂添加到脂质体混合物中，以便帮助稳定脂质体结构并防止脂质体内部物质的泄漏。脂质体制剂可主要由以下组成：天然磷脂和脂质，诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。

稳定的核酸-脂质颗粒(SNALP)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。SNALP制剂可含有2:40:10:48摩尔百分比的脂质3-N-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC)和胆固醇。可通过使用25:1的脂质/siRNA比和48/40/10/2摩尔比的胆固醇/D-Lin-DMA/DSPC/PEG-C-DMA配制D-Lin-DMA和PEG-C-DMA以及二硬脂酰基磷脂酰胆碱(DSPC)、胆固醇和siRNA来制备SNALP脂质体。所得的SNALP脂质体的尺寸可以是约80-100nm。SNALP可包含合成胆固醇(Sigma-Aldrich,St Louis,Mo.,USA)、二棕榈酰磷脂酰胆碱(Avanti Polar Lipids,Alabaster,Ala.,USA)、3-N-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。SNALP可包含合成胆固醇(Sigma-Aldrich)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC；Avanti Polar Lipids Inc.)、PEG-cDMA和1,2-二亚油氧基-3-(N；N-二甲基)氨基丙烷(DLinDMA)。

其他阳离子脂质，诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环(DLin-KC2-DMA)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。可考虑具有以下脂质组成的预成形的囊泡：摩尔比分别为40/10/40/10的并且FVII siRNA/总脂质比为大约0.05(w/w)的氨基脂质、二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和(R)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000)丙基氨基甲酸酯(PEG-脂质)。为了确保在70-90nm范围内的窄粒径分布和0.11.+-.0.04(n＝56)的低多分散指数，可在添加指导RNA之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒，其中四种脂质组分16、DSPC、胆固醇和PEG-脂质的摩尔比(50/10/38.5/1.5)可进一步优化以增强体内活性。

脂质可用本公开的CasY系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒(LNP)。合适的脂质包括但不限于DLin-KC2-DMA4、C12-200和糖脂，二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG可用本公开的CasY系统或其组分使用自发的囊泡形成过程配制。组分摩尔比可以是约50/10/38.5/1.5(DLin-KC2-DMA或C12-200/二硬脂酰磷脂酰胆碱/胆固醇/PEG-DMG)。

本公开的CasY系统或其组分可包封在PLGA微球中递送，所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。

超电荷蛋白可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质，其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使物质与这些蛋白质(诸如质粒DNA、RNA或其他蛋白质)缔合可实现这些大分子在体外和体内向哺乳动物细胞的功能性递送。

细胞穿透肽(CPP)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。CPP通常具有以下氨基酸组成，其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸)，或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。

可植入装置可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸(例如，CasY指导RNA、编码CasY指导RNA的核酸、编码CasY多肽的核酸、供体模板等)或本公开的CasY系统递送到靶细胞(例如，体内靶细胞，其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞(例如，体内靶细胞，其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)的可植入装置可包括容器(例如，储库、基质等)，其包含CasY多肽、CasY融合多肽、RNP或CasY系统(或其组分，例如，本公开的核酸)。

合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质)，并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物)，以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放，其中待递送的多肽和/或核酸直接释放至靶位点，例如细胞外基质(ECM)、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送到腔(诸如腹腔)和/或其中药物递送系统未锚定或附接的任何其他类型的施用的装置，所述装置包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基底，其可以例如任选地是基质。在一些情况下，合适的可植入药物递送装置包含可降解聚合物，其中主要释放机制是整体侵蚀。在一些情况下，合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物，其中主要释放机制是扩散而不是整体侵蚀，使得外部部分起到膜的功能并且其内部部分用作药物储库，实际上，所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内，浓度梯度可保持有效恒定，并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值，但其仍然任选地以初始突发为特征和/或可波动，例如增加和降低到某一程度。扩散速率可长时间这样维持，并且可认为扩散速率恒定到某一水平以优化治疗有效期，例如有效的沉默期。

在一些情况下，可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解，无论是化学性质还是由于受试者体内酶和其他因素的攻击的降解。

可选择装置的植入位点或靶位点，用于获得最大的治疗功效。例如，递送装置可植入在肿瘤环境内或附近，或者与肿瘤相关联的血液供给内或附近。靶位置可以是，例如：1)大脑退化位点，像在基底神经节、白质和灰质处的帕金森病或阿尔茨海默病中；2)脊柱，如在肌萎缩侧索硬化症(ALS)的情况下；3)子宫颈；4)活动性和慢性炎症关节；5)真皮，如在牛皮癣的情况下；7)交感神经和感觉神经位点，用于镇痛作用；7)骨；8)急性或慢性感染位点；9)阴道内；10)内耳-听觉系统、内耳迷路、前庭系统；11)气管内；12)心内；冠状动脉、心外膜；13)泌尿道或膀胱；14)胆系统；15)实质组织，包括但不限于肾、肝、脾；16)淋巴结；17)唾液腺；18)牙龈；19)关节内(到关节中)；20)眼内；21)脑组织；22)脑室；23)腔，包括腹腔(例如但不限于卵巢癌)；24)食管内；和25)直肠内；和26)到脉管系统中。

插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样，任选地无需修改，或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于短距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。

经修饰的宿主细胞

本公开提供一种经修饰的细胞，其包含本公开的CasY多肽和/或包含编码本公开的CasY多肽的核苷酸序列的核酸。本公开提供一种经修饰的细胞，其包含本公开的CasY多肽，其中所述经修饰的细胞是通常不包含本公开的CasY多肽的细胞。本公开提供一种经修饰的细胞(例如，经遗传修饰的细胞)，其包含核酸，所述核酸包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用mRNA遗传修饰的经遗传修饰细胞，所述mRNA包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞，所述重组表达载体包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞，所述重组表达载体包含：a)编码本公开的CasY多肽的核苷酸序列；和b)编码本公开的CasY指导RNA的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞，所述重组表达载体包含：a)编码本公开的CasY多肽的核苷酸序列；b)编码本公开的CasY指导RNA的核苷酸序列；和c)编码供体模板的核苷酸序列。

用作本公开的CasY多肽和/或包含编码本公开的CasY多肽和/或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种，其包括例如体外细胞；体内细胞；离体细胞；原代细胞；癌细胞；动物细胞；植物细胞；藻类细胞；真菌细胞等。用作本公开的CasY多肽和/或包含编码本公开的CasY多肽和/或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的CasY系统的受体。宿主细胞或靶细胞可以是本公开的CasY RNP的受体。宿主细胞或靶细胞可以是本公开的CasY系统的单一组分的受体。

细胞(靶细胞)的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如，来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如，酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，有蹄类动物(例如，猪、牛、山羊、绵羊)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物；人类；猫科动物(例如，猫)；犬(例如，狗)等)的细胞等。在一些情况下，细胞是不来源于天然生物体的细胞(例如，细胞可以是合成的细胞；也称为人造细胞)。

细胞可以是体外细胞(例如，建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如，个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如，体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。

合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞；生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)；体细胞，例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。

合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。

在一些情况下，细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下，免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下，免疫细胞是细胞毒性T细胞。在一些情况下，免疫细胞是辅助性T细胞。在一些情况下，免疫细胞是调节T细胞(Treg)。

在一些情况下，细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。

成体干细胞驻留在分化组织中，但保留自我更新的特性和产生多种细胞类型的能力，通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的，包括肌肉干细胞；造血干细胞；上皮干细胞；神经干细胞；间充质干细胞；乳腺干细胞；肠干细胞；中胚层干细胞；内皮干细胞；嗅干细胞；神经嵴干细胞等。

感兴趣的干细胞包括哺乳动物干细胞，其中术语“哺乳动物”是指被分类为哺乳动物的任何动物，包括人类；非人灵长类动物；家畜和农场动物；以及动物园、实验室、运动或宠物动物，诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下，干细胞是人干细胞。在一些情况下，干细胞是啮齿动物(例如，小鼠；大鼠)干细胞。在一些情况下，干细胞是非人灵长类动物干细胞。

干细胞可表达一种或多种干细胞标记，例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。

在一些实施方案中，干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞，其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34⁺和CD3^-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外，可诱导HSC经历至少一些自我更新的细胞分裂，并且可诱导HSC分化成与体内所见相同的谱系。因此，可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。

在其他实施方案中，干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞，并且在特定条件下可产生作为神经干细胞的子细胞，或者可以是成神经细胞或成胶质细胞的神经祖细胞，例如，分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。

在其他实施方案中，干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离，可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的；并且可使用任何已知的方法来获得MSC。参见例如，美国专利号5,736,396，其描述了人类MSC的分离。

在一些情况下，细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。

在一些情况下，细胞是植物细胞。例如，细胞可以是主要农业植物的细胞，例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例，细胞是蔬菜作物的细胞，所述蔬菜作物包括但不限于例如，苜蓿芽、芦荟叶、葛根(arrowroot)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalemartichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。

在一些情况下，细胞是节肢动物细胞。例如，细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞：例如，有螯肢亚门(Chelicerata)、多足亚门(Myriapodia)、Hexipodia、蛛形纲(Arachnida)、昆虫纲(Insecta)、石蛃目(Archaeognatha)、缨尾目(Thysanura)、古翅下纲(Palaeoptera)、蜉蝣目(Ephemeroptera)、蜻蜓目(Odonata)、差翅亚目(Anisoptera)、束翅亚目(Zygoptera)、新翅亚纲(Neoptera)、外翅总目(Exopterygota)、襀翅目(Plecoptera)、纺足目(Embioptera)、直翅目(Orthoptera)、缺翅目(Zoraptera)、革翅目(Dermaptera)、网翅目(Dictyoptera)、蛩蠊目(Notoptera)、蛩蠊科(Grylloblattidae)、螳科(Mantophasmatidae)、竹节虫目(Phasmatodea)、蜚蠊目(Blattaria)、等翅目(Isoptera)、螳螂目(Mantodea)、Parapneuroptera、啮虫目(Psocoptera)、缨翅目(Thysanoptera)、虱毛目(Phthiraptera)、半翅目(Hemiptera)、内翅类(Endopterygota)或全变态类(Holometabola)、膜翅目(Hymenoptera)、鞘翅目(Coleoptera)、捻翅目(Strepsiptera)、蛇蛉目(Raphidioptera)、广翅目(Megaloptera)、脉翅目(Neuroptera)、长翅目(Mecoptera)、蚤目(Siphonaptera)、双翅目(Diptera)、毛翅目(Trichoptera)或鳞翅目(Lepidoptera)。

在一些情况下，细胞是昆虫细胞。例如，在一些情况下，细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。

试剂盒

本公开提供一种试剂盒，其包含本公开的CasY系统或本公开的CasY系统的组分。

本公开的试剂盒可包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。

本公开的试剂盒可包含：a)如上所述的本公开的CasY系统的组分，或者可包含本公开的CasY系统；和b)一种或多种另外的试剂，例如，i)缓冲液；ii)蛋白酶抑制剂；iii)核酸酶抑制剂；iv)开发或可视化可检测标签所需的试剂；v)阳性和/或阴性对照靶DNA；vi)阳性和/或阴性对照CasY指导RNA等。本公开的试剂盒可包含：a)如上所述的本公开的CasY系统的组分，或者可包含本公开的CasY系统；和b)治疗剂。

本公开的试剂盒可包含重组表达载体，其包含：a)用于插入核酸的插入位点，所述核酸包含编码CasY指导RNA的一部分的核苷酸序列，所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交；和b)编码CasY指导RNA的CasY结合部分的核苷酸序列。本公开的试剂盒可包含重组表达载体，其包含：a)用于插入核酸的插入位点，所述核酸包含编码CasY指导RNA的一部分的核苷酸序列，所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交；b)编码CasY指导RNA的CasY结合部分的核苷酸序列；和c)编码本公开的CasY多肽的核苷酸序列。

实用性

本公开的CasY多肽或本公开的CasY融合多肽可用于多种方法(例如，与CasY指导RNA组合，并且在一些情况下还与供体模板组合)。例如，本公开的CasY多肽可用于(i)修饰(例如切割，例如切口；甲基化等)靶核酸(DNA或RNA；单链或双链)；(ii)调节靶核酸的转录；(iii)标记靶核酸；(iv)结合靶核酸(例如，用于分离、标记、成像、追踪等的目的)；(v)修饰与靶核酸相关联的多肽(例如，组蛋白)等。因此，本公开提供一种修饰靶核酸的方法。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触：a)本公开的CasY多肽；和b)一种或多种(例如，两种)CasY指导RNA。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触：a)本公开的CasY多肽；b)CasY指导RNA；和c)供体核酸(例如，供体模板)。在一些情况下，接触步骤在体外细胞中进行。在一些情况下，接触步骤在体内细胞中进行。在一些情况下，接触步骤在离体细胞中进行。

因为使用CasY多肽的方法包括将CasY多肽与靶核酸中的特定区域结合(通过相关联的CasY指导RNA靶向靶核酸中的特定区域)，所述方法在本文中通常称为结合方法(例如，结合靶核酸的方法)。然而，应理解在一些情况下，虽然结合方法可能无非是导致靶核酸的结合，但在其他情况下，所述方法可具有不同的最终结果(例如，所述方法可导致靶核酸的修饰(例如切割/甲基化等)，靶核酸转录的调节；靶核酸翻译的调节；基因组编辑；与靶核酸相关联的蛋白质的调节；靶核酸的分离等)。

对于合适的方法的实例，参见例如，Jinek等人,Science.2012年8月17日；337(6096):816-21；Chylinski等人,RNA Biol.2013年5月；10(5):726-37；Ma等人,Biomed ResInt.2013；2013:270805；Hou等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15644-9；Jinek等人,Elife.2013；2:e00471；Pattanayak等人,Nat Biotechnol.2013年9月；31(9):839-43；Qi等人,Cell.2013年2月28日；152(5):1173-83；Wang等人,Cell.2013年5月9日；153(4):910-8；Auer等人,Genome Res.2013年10月31日；Chen等人,Nucleic AcidsRes.2013年11月1日；41(20):e19；Cheng等人,Cell Res.2013年10月；23(10):1163-71；Cho等人,Genetics.2013年11月；195(3):1177-80；DiCarlo等人,Nucleic Acids Res.2013年4月；41(7):4336-43；Dickinson等人,Nat Methods.2013年10月；10(10):1028-34；Ebina等人,Sci Rep.2013；3:2510；Fujii等人,Nucleic Acids Res.2013年11月1日；41(20):e187；Hu等人,Cell Res.2013年11月；23(11):1322-5；Jiang等人,Nucleic Acids Res.2013年11月1日；41(20):e188；Larson等人,Nat Protoc.2013年11月；8(11):2180-96；Mali等人,NatMethods.2013年10月；10(10):957-63；Nakayama等人,Genesis.2013年12月；51(12):835-43；Ran等人,Nat Protoc.2013年11月；8(11):2281-308；Ran等人,Cell.2013年9月12日；154(6):1380-9；Upadhyay等人,G3(Bethesda).2013年12月9日；3(12):2233-8；Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15514-5；Xie等人,Mol Plant.2013年10月9日；Yang等人,Cell.2013年9月12日；154(6):1370-9；以及美国专利和专利申请：8,906,616；8,895,308；8,889,418；8,889,356；8,871,445；8,865,406；8,795,965；8,771,945；8,697,359；20140068797；20140170753；20140179006；20140179770；20140186843；20140186919；20140186958；20140189896；20140227787；20140234972；20140242664；20140242699；20140242700；20140242702；20140248702；20140256046；20140273037；20140273226；20140273230；20140273231；20140273232；20140273233；20140273234；20140273235；20140287938；20140295556；20140295557；20140298547；20140304853；20140309487；20140310828；20140310830；20140315985；20140335063；20140335620；20140342456；20140342457；20140342458；20140349400；20140349405；20140356867；20140356956；20140356958；20140356959；20140357523；20140357530；20140364333；和20140377868；所述专利各自均特此以引用的方式整体并入。

例如，本公开提供(但不限于)切割靶核酸的方法；编辑靶核酸的方法；调节靶核酸转录的方法；分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。

如本文所用，术语/短语“使靶核酸，例如，与CasY多肽或与CasY融合多肽等接触”，涵盖用于接触靶核酸的所有方法。例如，可将CasY多肽作为蛋白质、RNA(编码CasY多肽)或DNA(编码CasY多肽)提供给细胞；而CasY指导RNA可作为指导RNA或编码指导RNA的核酸提供。因此，当例如在细胞中(例如，在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时，包括接触靶核酸的方法涵盖将处于其活性/最终状态(例如，呈CasY多肽的一种或多种蛋白质形式；呈CasY融合多肽的蛋白质形式；在一些情况下呈指导RNA的RNA形式)的任何或所有组分引入细胞中，并且还涵盖将编码一种或多种组分的一种或多种核酸(例如，一种或多种包含编码CasY多肽或CasY融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导RNA的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外细胞外部执行，所以包括接触靶核酸的方法(除非另外指明)涵盖在体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部接触等。

在一些情况下，本公开的用于修饰靶核酸的方法包括将CasY基因座(例如，包含编码CasY多肽的核苷酸序列以及包围编码CasY的核苷酸序列的长度为约1千碱基(kb)至5kb的核苷酸序列的核酸)从包含CasY基因座的细胞(例如，在一些情况下，在其天然状态(它在自然界中出现的状态)下包含CasY基因座的细胞)引入靶细胞中，其中所述靶细胞通常(在其天然状态下)不包含CasY基因座。然而，可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列，使得靶向感兴趣的一个或多个靶序列。因此，例如，在一些情况下，本公开的用于修饰靶核酸的方法包括将CasY基因座(例如，从源细胞(例如，在一些情况下，在其天然状态(它在自然界中出现的状态)下包含CasY基因座的细胞)获得的核酸)引入靶细胞中，其中所述核酸具有长度为100个核苷酸(nt)至5kb(例如，长度为100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb或4kb至5kb)的长度并且包含编码CasY多肽的核苷酸序列。如上所述，在一些此类情况下，可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列，使得靶向感兴趣的一个或多个靶序列。在一些情况下，所述方法包括将以下物质引入靶细胞中：i)CasY基因座；和ii)供体DNA模板。在一些情况下，靶核酸在体外在无细胞组合物中。在一些情况下，靶核酸存在于靶细胞中。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是原核细胞。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是真核细胞。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是哺乳动物细胞。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是植物细胞。

在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽或本公开的CasY融合多肽接触。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽和CasY指导RNA接触。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽、第一CasY指导RNA和第二CasY指导RNA接触。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽和CasY指导RNA和供体DNA模板接触。

感兴趣的靶核酸和靶细胞

当与CasY指导RNA结合时，本公开的CasY多肽或本公开的CasY融合多肽可结合靶核酸，并且在一些情况下，可结合并修饰靶核酸。靶核酸可以是任何核酸(例如，DNA、RNA)，可以是双链或单链的，可以是任何类型的核酸(例如，染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如，只要CasY指导RNA包含与靶核酸中的靶序列杂交的核苷酸序列，使得靶核酸可被靶向即可)。

靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如，dsDNA、dsRNA)或单链的(例如，ssRNA、ssDNA)。在一些情况下，靶核酸是单链的。在一些情况下，靶核酸是单链RNA(ssRNA)。在一些情况下，靶ssRNA(例如，靶细胞ssRNA、病毒ssRNA等)选自：mRNA、rRNA、tRNA、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和微小RNA(miRNA)。在一些情况下，靶核酸是单链DNA(ssDNA)(例如，病毒DNA)。如上所指出，在一些情况下，靶核酸是单链的。

靶核酸可位于任何地方，例如，体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸，诸如基因组DNA)包括但不限于：细菌细胞；古细菌细胞；单细胞真核生物体的细胞；植物细胞；藻类细胞，例如，布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等；真菌细胞(例如，酵母细胞)；动物细胞；来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞；昆虫(例如，蚊子；蜜蜂；农业害虫等)的细胞；蛛形纲动物(例如，蜘蛛；蜱等)的细胞；来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞；来自哺乳动物的细胞(例如，来自啮齿动物的细胞；来自人类的细胞；非人哺乳动物的细胞；啮齿动物(例如，小鼠、大鼠)的细胞；兔形目动物(例如，兔)的细胞；有蹄类动物(例如，牛、马、骆驼、美洲驼、骆马绵羊、山羊等)的细胞；海洋哺乳动物(例如，鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞、例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如，成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞；在任何阶段下胚胎的体外或体内胚胎细胞(例如，1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。

细胞可来自已建立的细胞系或它们可以是原代细胞，其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用，是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即，分裂)的细胞和细胞培养物。例如，原代培养物是可传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常，原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞为原代细胞，它们可通过任何方便方法从个体收获。例如，白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获，而来自组织(诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。

在上述申请的一些中，主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如，用于可视化，用于采集和/或分析等)(例如，以破坏由靶向mRNA编码的蛋白质的产生，以切割或以其他方式修饰靶DNA，以遗传修饰靶细胞等)。因为指导RNA通过与靶核酸杂交来提供特异性，所以所公开的方法中感兴趣的有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体的细胞(例如，细菌细胞；古细菌细胞；单细胞真核生物体的细胞；植物细胞；藻类细胞，例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等；真菌细胞(例如，酵母细胞)；动物细胞；来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞；来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞；来自哺乳动物的细胞；来自啮齿动物的细胞；来自人类的细胞等)。在一些情况下，可将主题CasY蛋白(和/或编码蛋白质的核酸，诸如DNA和/或RNA)和/或CasY指导RNA(和/或编码指导RNA的DNA)和/或供体模板和/或RNP引入个体(即，靶细胞可在体内)(例如，哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人类)中。在一些情况下，这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。

植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞，诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞，例如产生杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。

靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如，来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如，酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，有蹄类动物(例如，猪、牛、山羊、绵羊)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物；人类；猫科动物(例如，猫)；犬(例如，狗)等)的细胞等。在一些情况下，细胞是不来源于天然生物体的细胞(例如，细胞可以是合成的细胞；也称为人造细胞)。

在一些情况下，细胞是节肢动物细胞。例如，细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞：例如，有螯肢亚门、多足亚门、Hexipodia、蛛形纲、昆虫纲、石蛃目、缨尾目、古翅下纲、蜉蝣目、蜻蜓目、差翅亚目、束翅亚目、新翅亚纲、外翅总目、襀翅目、纺足目、直翅目、缺翅目、革翅目、网翅目、蛩蠊目、蛩蠊科、螳科、竹节虫目、蜚蠊目、等翅目、螳螂目、Parapneuroptera、啮虫目、缨翅目、虱毛目、半翅目、内翅类或全变态类、膜翅目、鞘翅目、捻翅目、蛇蛉目、广翅目、脉翅目、长翅目、蚤目、双翅目、毛翅目或鳞翅目。

将组分引入靶细胞中

可通过多种熟知的方法中的任一种将Cas9指导RNA(或包含编码Cas9指导RNA的核苷酸序列的核酸)和/或Cas9融合多肽(或包含编码Cas9融合多肽的核苷酸序列的核酸)和/或供体多核苷酸引入宿主细胞中。

将核酸引入细胞中的方法是本领域中已知的，并且可使用任何方便的方法来将核酸(例如，表达构建体)引入靶细胞(例如，真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法在本文其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如，Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可使用已知方法(诸如核转染)，将任何或所有组分作为组合物(例如，包括CasY多肽、CasY指导RNA、供体多核苷酸等的任何方便的组合)引入细胞中。

供体多核苷酸(供体模板)

在CasY指导RNA的指导下，CasY蛋白在一些情况下在双链DNA(dsDNA)靶核酸内生成位点特异性双链断裂(DSB)或单链断裂(SSB)(例如，当CasY蛋白是切口酶变体时)，其通过非同源末端连接(NHEJ)或同源定向重组(HDR)修复。

在一些情况下，接触靶DNA(与CasY蛋白和CasY指导RNA接触)在允许非同源末端连接或同源定向修复的条件下发生。因此，在一些情况下，主题方法包括使靶DNA与供体多核苷酸接触(例如，通过将供体多核苷酸引入细胞中)，其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下，所述方法不包括使细胞与供体多核苷酸接触，并且修饰靶DNA使得靶DNA内的核苷酸缺失。

在一些情况下，CasY指导RNA(或编码CasY指导RNA的DNA)和CasY蛋白(或编码CasY蛋白的核酸，诸如RNA或DNA，例如，一种或多种表达载体)与供体多核苷酸序列共同施用(例如，与靶核酸接触、施用到细胞等)，所述供体多核苷酸序列包括与靶DNA序列同源的至少一个区段，主题方法可用来将核酸物质添加(即插入或替代)到靶DNA序列(例如以“敲入”编码蛋白质、siRNA、miRNA的核酸等)，添加标签(例如，6xHis、荧光蛋白(例如，绿色荧光蛋白；黄色荧光蛋白等)、血凝素(HA)、FLAG等)，将调节序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等)，修饰核酸序列(例如，引入突变、通过引入正确的序列去除致病突变)等。因此，包含CasY指导RNA和CasY蛋白的复合物可用于任何体外或体内应用中，在所述应用中希望以位点特异性(即“靶向的”)方式修饰DNA，例如基因敲除、基因敲入、基因编辑、基因标签等，例如，如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法，农业中遗传修饰的生物体的生产，出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产，iPS细胞诱导，生物研究，用于缺失或替代的病原体基因的靶向等中所使用的。

在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中，还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指在CasY蛋白切割的位点处插入的核酸序列(例如，在dsDNA切割之后、对靶DNA进行切口之后、对靶DNA进行双切口之后等)。供体多核苷酸可与靶位点处的基因组序列含有足够的同源性(例如与侧接靶位点的核苷酸序列，例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)或直接侧接靶位点的核苷酸序列，具有70％、80％、85％、90％、95％或100％同源性)，以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25、50、100或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度，例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。

供体序列通常不与它替代的基因组序列相同。而且，供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排，只要存在足够同源性以支持同源定向修复即可(例如，用于基因校正，例如，以转化致病碱基对或非致病碱基对)。在一些实施方案中，供体序列包含侧接两个同源区域的非同源序列，以使得靶DNA区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架，所述载体骨架含有不与感兴趣的DNA区域同源并且不意图插入到感兴趣的DNA区域中的序列。通常，供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50％的序列同一性。在某些实施方案中，存在60％、70％、80％、90％、95％、98％、99％或99.9％的序列同一性。根据供体多核苷酸的长度，可存在1％与100％之间的任何值的序列同一性。

供体序列与基因组序列相比可包含某些序列差异，例如限制位点、核苷酸多态性、可选择标记(例如，抗药基因、荧光蛋白、酶等)等，所述序列差异可用来评价供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如，表示靶向基因组基因座处的表达)。在一些情况下，如果位于编码区中，此类核苷酸序列差异将不会改变氨基酸序列，或将产生沉默氨基酸变化(即，不影响蛋白质结构或功能的变化)。可替代地，这些序列差异可包括侧接重组序列，诸如FLP、loxP序列等，所述侧接重组序列可在去除标记序列之后的时间里激活。

在一些情况下，供体序列作为单链DNA提供给细胞。在一些情况下，供体序列作为双链DNA提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入，供体序列的末端可通过任何方便的方法来保护(例如，免受核酸外切降解)，并且此类方法是本领域的技术人员已知的。例如，可将一个或多个双脱氧核苷酸残基添加到线性分子的3’端，并且/或者可将自身互补寡核苷酸连接到一个或两个末端。(参见例如，Chang等人(1987)Proc.Natl.Acad Sci USA 84:4959-4963；Nehls等人(1996)Science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基和使用修饰的核苷酸间键，例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案，可在同源区外部包括额外长度的序列，所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中，所述载体分子具有另外的序列，例如像复制起点、启动子和编码抗生素耐药性的基因。此外，供体序列可作为裸核酸、作为与药剂(诸如脂质体或泊洛沙姆)复合的核酸引入，或者可通过病毒(例如，腺病毒AAV)来递送，如本文其他地方对于编码CasY指导RNA和/或CasY融合多肽和/或供体多核苷酸的核酸所述。

转基因非人生物体

如上所述，在一些情况下，本公开的核酸(例如，重组表达载体)(例如，包含编码本公开的CasY多肽的核苷酸序列的核酸；包含编码本公开的CasY融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体，其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因非人生物体，其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。

转基因非人动物

本公开提供一种转基因非人动物，所述动物包含转基因，其包含含有编码CasY多肽或CasY融合多肽的核苷酸序列的核酸。在一些实施方案中，转基因非人动物的基因组包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些情况下，转基因非人动物对于遗传修饰是纯合的。在一些情况下，转基因非人动物对于遗传修饰是杂合的。在一些实施方案中，转基因非人动物是脊椎动物，例如鱼类(例如，鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如，鸡、火鸡等)、爬行动物(例如，蛇、蜥蜴等)、非人哺乳动物(例如，有蹄类动物，例如猪、牛、山羊、绵羊等；兔形目动物(例如，兔)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物等)等。在一些情况下，转基因非人动物是无脊椎动物。在一些情况下，转基因非人动物是昆虫(例如，蚊子；农业害虫等)。在一些情况下，转基因非人动物是蛛形纲动物。

编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子(例如，当核酸随机整合到宿主细胞基因组中时)的控制之下(即，可操作地连接)或可在已知启动子的控制之下(即，可操作地连接)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如，CMV启动子)、诱导型启动子(例如，热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)、空间限制的和/或时间限制的启动子(例如，组织特异性启动子、细胞类型特异性启动子等)等。

转基因植物

如上所述，在一些情况下，本公开的核酸(例如，重组表达载体)(例如，包含编码本公开的CasY多肽的核苷酸序列的核酸；包含编码本公开的CasY融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因植物，其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因植物，其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些实施方案中，转基因植物的基因组包含主题核酸。在一些实施方案中，转基因植物对于遗传修饰是纯合的。在一些实施方案中，转基因植物对于遗传修饰是杂合的。

将外源核酸引入植物细胞中的方法是本领域中熟知的。如上所定义，此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链DNA病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择通常根据待转化的细胞类型和在其下发生转化的环境(即体外、离体或体内)。

基于土壤细菌根瘤土壤杆菌(Agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(Agrobacterium)的野生型形式含有Ti(肿瘤诱导)质粒，其引导在宿主植物上生长的致瘤冠瘿的产生。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码毒力基因以及T-DNA边缘序列，所述T-DNA边缘序列是描绘待转移区域的一系列正向DNA重复序列。基于土壤杆菌属的载体是Ti质粒的修饰形式，其中肿瘤诱导功能被待引入植物宿主中的感兴趣的核酸序列替代。

土壤杆菌属介导的转化通常采用共合体载体或二元载体系统，其中Ti质粒的组分在辅助载体(所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被T-DNA序列限定的感兴趣的基因)之间分配。多种二元载体是本领域中熟知的并且是可例如从Clontech(Palo Alto,Calif.)商购获得的。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法也是本领域中熟知的。参见例如，Glick和Thompson(编),Methods in Plant MolecularBiology and Biotechnology,Boca Raton,Fla.:CRC Press(1993)。

微粒介导的转化还可用来产生主题转基因植物。首先由Klein等人(Nature 327:70-73(1987))描述的这种方法依赖于微粒，诸如金或钨，所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀涂覆有所需的核酸分子。微粒颗粒使用诸如BIOLISTIC PD-1000(Biorad；Hercules Calif.)的装置在高速下被加速到被子植物组织中。

可将本公开的核酸(例如，包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列的核酸(例如，重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸，例如渗透。“离体”意指在植物外部修饰细胞或外植体并且然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体，包括描述于Weissbach和Weissbach,(1989)Methods for Plant Molecular Biology Academic Press以及Gelvin等人,(1990)Plant Molecular Biology Manual,Kluwer Academic Publishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的Ti质粒的那些，以及由Herrera-Estrella等人(1983)Nature303:209、Bevan(1984)Nucl Acid Res.12:8711-8721、Klee(1985)Bio/Technolo 3:637-642公开的那些。可替代地，非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法，可产生转基因植物，诸如小麦、大米(Christou(1991)Bio/Technology 9:957-9和4462)和玉米(Gordon-Kamm(1990)Plant Cell 2:603-618)。未成熟胚也可以是通过使用粒子枪的直接DNA递送技术(Weeks等人(1993)Plant Physiol 102:1077-1084；Vasil(1993)Bio/Technolo 10:667-674；Wan和Lemeaux(1994)Plant Physiol104:37-48)和土壤杆菌属介导的DNA转移(Ishida等人(1996)Nature Biotech 14:745-750)的单子叶植物的良好靶组织。用于将DNA引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(Danieli等人Nat.Biotechnol 16:345-348,1998；Staub等人Nat.Biotechnol 18:333-338,2000；O’Neill等人Plant J.3:729-738,1993；Knoblauch等人Nat.Biotechnol 17:906-909；美国专利号5,451,513、5,545,817、5,545,818和5,576,198；国际申请号WO 95/16783；以及Boynton等人,Methods in Enzymology217:510-536(1993)、Svab等人,Proc.Natl.Acad.Sci.USA 90:913-917(1993)和McBride等人,Proc.Natl.Acad.Sci.USA 91:7301-7305(1994))。适用于生物弹轰击、原生质体聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体，尤其当引入方法没有使用土壤杆菌属时。

可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈、林业植物以及葡萄藤。可修饰的植物的具体实例如下：玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆以及大米。

本公开提供转化的植物细胞，含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征为存在整合到基因组中的主题核酸和通过本公开的CasY多肽或CasY融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。

编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子(例如，当核酸随机整合到宿主细胞基因组中时)的控制之下(即，可操作地连接)或可在已知启动子的控制之下(即，可操作地连接)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。

鉴定CRISPR RNA指导的内切核酸酶的方法

提供鉴定CRISPR RNA指导的内切核酸酶的方法。例如，在一些实施方案中，这种方法包括在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列的步骤。Cas1蛋白是本领域已知的并且存在于第2类CRISPR系统的CRISPR基因座附近，那些CRISPR系统包括充当内切核酸酶的单效应蛋白，并且不需要为了适当地发挥作用而与蛋白质复合物相互作用。虽然Cas1蛋白本身参与将新的靶序列获取到CRISPR基因座中，并且因此不是通过此方法鉴定的希望的效应蛋白，但是CRISPR基因座附近存在Cas1蛋白指示存在于基因座附近的至少一种其他Cas蛋白可能是效应蛋白(RNA指导的内切核酸酶)。

如本文所用，术语“宏基因组学”意指对从样品(例如，环境样品，诸如含有未知量的原核生物(细菌/古细菌)并且可能含有从未发现和/或表征的原核生物的样品)中的多种微生物回收的核酸的平行分析。可通过任何方便的方法从这种样品回收核酸，并且通常从整个样品一起回收核酸，使得在分析之前不知道任何给定的核酸分子来自哪种微生物。在一些实施方案中，样品含有未知的混合物和/或量的微生物。然后可对核酸进行测序以产生多个宏基因组序列。在一些情况下，鉴定CRISPR RNA指导的内切核酸酶的主题方法包括分离样品(例如，环境样品)的步骤。在一些情况下，鉴定CRISPR RNA指导的内切核酸酶的主题方法包括从样品分离核酸和/或测定样品以从样品生成多个宏基因组核苷酸序列的步骤。

一旦鉴定出Cas1蛋白，鉴定CRISPR RNA指导的内切核酸酶的主题方法就可包括检测编码Cas1的核苷酸序列附近的CRISPR阵列(重复序列-间隔序列-重复序列阵列)的步骤。所述方法然后可包括将包含所检测的CRISPR阵列的CRISPR基因座克隆(例如，从衍生多个宏基因组核苷酸序列的核酸样品)到表达载体中以生成重组CRISPR基因座表达载体的步骤。然后可通过测定重组CRISPR基因座表达载体切割靶核酸的能力来测试CRISPR基因座的功能。可使用任何方便的测定。在一些实施方案中，所述测定步骤包括将重组CRISPR基因座表达载体和靶核酸引入细胞(例如，异源宿主细胞，例如大肠杆菌细胞)中。例如，参考下文工作实例的PAM缺失测定(图5)。在一些情况下，测定步骤包括将质粒文库引入宿主细胞(例如，大肠杆菌细胞)群中，其中所述文库的每个质粒具有4至10个(例如，5至10个、5至8个、6至10个、6至8个、5个、6个、7个、8个)靶序列5’和/或3’端随机化的核苷酸。宿主细胞可已经含有待测试的重组CRISPR基因座表达载体，或者可在文库之后引入重组CRISPR基因座表达载体。具有功能性并且因此包含功能性CRISPR RNA指导的内切核酸酶的仅测试CRISPR基因座将产生切割具有靶序列的质粒的能力。包含靶序列5’和3’端随机化序列的原因是在实验开始时可能不知道所需内切核酸酶所需要的PAM序列。

如果表达载体可切割靶核酸(例如，具有适当靶序列和PAM(诸如匹配CRISPR阵列的至少一个间隔序列的靶序列)的靶核酸)，那么CRISPR基因座就包含编码候选CRISPR RNA指导的内切核酸酶的核苷酸序列。因此，然后可鉴定来自CRISPR基因座的编码CRISPR RNA指导的内切核酸酶的开放阅读框。在一些情况下，希望鉴定先前未知的CRISPR RNA指导的内切核酸酶，并且因此在一些情况下，鉴定的多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20％的氨基酸序列同一性(例如，小于15％、小于10％、小于5％的氨基酸序列同一性)。

本公开的非限制性方面的实例

上文所述的本发明主题的方面(包括实施方案)可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下，以下提供本公开的编号为1-123的某些非限制性方面。对于本领域技术人员在阅读本公开内容时将显而易见的是，每个单独编号的方面可与前面或后面的任何单独编号的方面一起使用或组合。这意图为所有此类方面的组合提供支持，并且不限于下文明确提供的方面的组合：

方面

1.一种组合物，其包含：

a)CasY多肽或编码所述CasY多肽的核酸分子；以及

b)CasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。

2.如1所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的同一性的氨基酸序列。

3.如1或2所述的组合物，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

4.如1或2所述的组合物，其中所述CasY多肽与NLS序列融合。

5.如1-4中任一项所述的组合物，其中所述组合物包含脂质。

6.如1-4中任一项所述的组合物，其中a)和b)在脂质体内。

7.如1-4中任一项所述的组合物，其中a)和b)在颗粒内。

8.如1-7中任一项所述的组合物，其包含以下中的一种或多种：缓冲液、核酸酶抑制剂和蛋白酶抑制剂。

9.如1-8中任一项所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的同一性的氨基酸序列。

10.如1-9中任一项所述的组合物，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。

11.如1-9中任一项所述的组合物，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

12.如10或11所述的组合物，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

13.如1-12中任一项所述的组合物，其还包含DNA供体模板。

14.一种CasY融合多肽，其包含：与异源多肽融合的CasY多肽。

15.如14所述的CasY融合多肽，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的同一性的氨基酸序列。

16.如14所述的CasY融合多肽，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的同一性的氨基酸序列。

17.如14-16中任一项所述的CasY融合多肽，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。

18.如14-17中任一项所述的CasY融合多肽，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

19.如17或18所述的CasY融合多肽，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

20.如14-19中任一项所述的CasY融合多肽，其中所述异源多肽与所述CasY多肽的N末端和/或C末端融合。

21.如14-20中任一项所述的CasY融合多肽，其包含NLS。

22.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是靶向多肽，其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。

23.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰靶DNA的酶活性。

24.如23所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。

25.如24所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。

26.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。

27.如26所述的CasY融合多肽，其中所述异源多肽表现出组蛋白修饰活性。

28.如26或27所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

29.如28所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。

30.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是内体逃逸多肽。

31.如30所述的CasY融合多肽，其中所述内体逃逸多肽包含选自以下的氨基酸序列：GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)，其中每个X独立地选自赖氨酸、组氨酸和精氨酸。

32.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是叶绿体转运肽。

33.如32所述的CasY融合多肽，其中所述叶绿体转运肽包含选自以下的氨基酸序列：MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:92)，和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。

34.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是增加或减少转录的蛋白质。

35.如34所述的CasY融合多肽，其中异源多肽是转录阻遏物结构域。

36.如34所述CasY融合多肽，其中所述异源多肽是转录激活结构域。

37.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是蛋白质结合结构域。

38.一种核酸分子，其编码如14-37中任一项所述的CasY融合多肽。

39.如38所述的核酸分子，其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。

40.如39所述的核酸分子，其中所述启动子在真核细胞中是功能性的。

41.如40所述的核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

42.如39-41中任一项所述的核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。

43.如38-42中任一项所述的核酸分子，其中所述DNA分子是重组表达载体。

44.如43所述的核酸分子，其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。

45.如39所述的核酸分子，其中所述启动子在原核细胞中是功能性的。

46.如38所述的核酸分子，其中所述核酸分子是mRNA。

47.一种或多种核酸分子，其编码：

(a)CasY指导RNA；以及

(b)CasY多肽。

48.如47所述的一种或多种核酸分子，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的同一性的氨基酸序列。

49.如47所述的一种或多种核酸分子，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的同一性的氨基酸序列。

50.如47-49中任一项所述的一种或多种核酸分子，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

51.如47-50中任一项所述的一种或多种核酸分子，其中所述CasY多肽与NLS序列融合。

52.如47-51中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列，所述核苷酸序列可操作地连接到启动子。

53.如47-52中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列，所述核苷酸序列可操作地连接到启动子。

54.如52或53所述的一种或多种核酸分子，其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。

55.如54所述的一种或多种核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

56.如53-55中任一项所述的一种或多种核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。

57.如47-56中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子是一种或多种重组表达载体。

58.如57所述的一种或多种核酸分子，其中所述一种或多种重组表达载体选自：一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。

59.如53所述的一种或多种核酸分子，其中所述启动子在原核细胞中是功能性的。

60.一种真核细胞，其包含以下中的一种或多种：

a)CasY多肽或编码所述CasY多肽的核酸分子，

b)CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及

c)CasY指导RNA或编码所述CasY指导RNA的核酸分子。

61.如60所述的真核细胞，其包含编码所述CasY多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。

62.如60或61所述的真核细胞，其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。

63.一种细胞，其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。

64.如63所述的细胞，其中所述细胞是原核细胞。

65.如63或64所述的细胞，其包含编码所述CasY融合多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。

66.一种修饰靶核酸的方法，所述方法包括使所述靶核酸与以下物质接触：

a)CasY多肽；以及

b)CasY指导RNA，其包含与所述靶核酸的靶序列杂交的指导序列，

其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。

67.如66所述的方法，其中所述修饰是对所述靶核酸的切割。

68.如66或67所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。

69.如66-68中任一项所述的方法，其中所述接触在体外在细胞外部发生。

70.如66-68中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。

71.如66-68中任一项所述的方法，其中所述接触在体内在细胞内部发生。

72.如70或71所述的方法，其中所述细胞是真核细胞。

73.如72所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

74.如70或71所述的方法，其中所述细胞是原核细胞。

75.如66-74中任一项所述的方法，其中所述接触导致基因组编辑。

76.如66-75中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY多肽或编码所述CasY多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。

77.如76所述的方法，其中所述接触还包括：将DNA供体模板引入所述细胞中。

78.如66-77中任一项所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

79.如66-78中任一项所述的方法，其中所述CasY多肽与NLS序列融合。

80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法，所述方法包括使所述靶核酸与以下物质接触：

a)CasY融合多肽，其包含与异源多肽融合的CasY多肽；以及

b)CasY指导RNA，其包含与所述靶核酸的靶序列杂交的指导序列。

81.如80所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

82.如80或81所述的方法，其中所述CasY融合多肽包含NLS序列。

83.如80-82中任一项所述的方法，其中所述修饰不是对所述靶核酸的切割。

84.如80-83中任一项所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。

85.如80-84中任一项所述的方法，其中所述接触在体外在细胞外部发生。

86.如80-84中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。

87.如80-84中任一项所述的方法，其中所述接触在体内在细胞内部发生。

88.如86或87所述的方法，其中所述细胞是真核细胞。

89.如88所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

90.如86或87所述的方法，其中所述细胞是原核细胞。

91.如80-90中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。

92.如80-91中任一项所述的方法，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

93.如80-92中任一项所述的方法，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

94.如80-93中任一项所述的方法，其中所述异源多肽表现出修饰靶DNA的酶活性。

95.如94所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。

96.如95的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。

97.如80-93中任一项所述的方法，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。

98.如97所述的方法，其中所述异源多肽表现出组蛋白修饰活性。

99.如97或98所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

100.如99所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。

101.如80-93中任一项所述的方法，其中所述异源多肽是增加或减少转录的蛋白质。

102.如101所述的方法，其中所述异源多肽是转录阻遏物结构域。

103.如101所述的方法，其中所述异源多肽是转录激活结构域。

104.如80-93中任一项所述的方法，其中所述异源多肽是蛋白质结合结构域。

105.一种转基因的多细胞非人生物体，其基因组包含转基因，所述转基因包含编码以下中的一种或多种的核苷酸序列：

a)CasY多肽，

b)CasY融合多肽，以及

c)CasY指导RNA。

106.如105所述的转基因的多细胞非人生物体，其中所述CasY融合多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的氨基酸序列同一性的氨基酸序列。

107.如105所述的转基因的多细胞非人生物体，其中所述CasY融合多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的氨基酸序列同一性的氨基酸序列。

108.如105-107中任一项所述的转基因的多细胞非人生物体，其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。

109.一种系统，其包含：

a)CasY多肽和CasY指导RNA；

b)CasY多肽、CasY指导RNA和DNA供体模板；

c)CasY融合多肽和CasY指导RNA；

d)CasY融合多肽、CasY指导RNA和DNA供体模板；

e)编码CasY多肽的mRNA和CasY指导RNA；

f)编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板；

g)编码CasY融合多肽的mRNA和CasY指导RNA；

h)编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板；

i)一种或多种重组表达载体，其包含：i)编码CasY多肽的核苷酸序列，和ii)编码CasY指导RNA的核苷酸序列；

j)一种或多种重组表达载体，其包含：i)编码CasY多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列，和iii)DNA供体模板；

k)一种或多种重组表达载体，其包含：i)编码CasY融合多肽的核苷酸序列，和ii)编码CasY指导RNA的核苷酸序列；以及

l)一种或多种重组表达载体，其包含：i)编码CasY融合多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列，和DNA供体模板。

110.如109所述的CasY系统，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的氨基酸序列同一性的氨基酸序列。

111.如109所述的CasY系统，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的氨基酸序列同一性的氨基酸序列。

112.如109-111中任一项所述的CasY系统，其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。

113.如109-111中任一项所述的CasY系统，其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。

114.一种试剂盒，其包含如109-113中任一项所述的CasY系统。

115.如114所述的试剂盒，其中所述试剂盒的组分在同一容器中。

116.如114所述的试剂盒，其中所述试剂盒的组分在单独的容器中。

117.一种无菌容器，其包含如109-116中任一项所述的CasY系统。

118.如117所述的无菌容器，其中所述容器是注射器。

119.一种可植入装置，其包含如109-116中任一项所述的CasY系统。

120.如119所述的可植入装置，其中所述CasY系统在基质内。

121.如119所述的可植入装置，其中所述CasY系统在储库中。

122.一种鉴定CRISPR RNA指导的内切核酸酶的方法，所述方法包括：

在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列；

检测所述编码Cas1的核苷酸序列附近的CRISPR阵列；

将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体；

测定所述重组CRISPR基因座表达载体的切割靶核酸的能力，其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPR RNA指导的内切核酸酶的核苷酸序列。

在所述CRISPR基因座中鉴定编码多肽的开放阅读框，所述多肽与已知的CRISPRRNA指导的内切核酸酶多肽的氨基酸序列具有小于20％的氨基酸序列同一性。

123.如122所述的方法，其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。

实施例

提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述，并且并非意图限制本发明人看待其发明的范围，也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值(例如量、温度等)的精确性，但一些实验误差和偏差应加以说明。除非另外指示，否则份为重量份，分子量为重均分子量，温度以摄氏度计，并且压力在大气压下或接近大气压。可使用标准缩写，例如，bp，碱基对；kb，千碱基；pl，皮升；s或sec，秒；min，分钟；h或hr，小时；aa，氨基酸；kb，千碱基；bp，碱基对；nt，核苷酸；i.m.，肌内的(肌内地)；i.p.，腹膜内的(腹膜内地)；s.c.，皮下的(皮下地)等。

实施例1

本文所述的工作包括分析来自地下水、沉积物和酸性矿山排水的微生物群落的宏基因组样品。鉴定了在培养生物体中未表示的新的2类CRISPR-Cas系统。

图3.CasY结构域和相似性检索。(图a)从使用HHpred的与AcCpf1的远同源性比对中推断的CasY的示意性结构域表示。保守的催化残基用蛋白质上方的红色条标记。CasY含有在C末端区域的分开的RuvC结构域(RuvC-I、RuvC-II和RuvC-III)，并且含有大的新型N末端结构域。在示意图下方示出基于以下检索的最高命中：(1)BLAST检索NCBI(NR数据库，包括模型和环境蛋白质)中的所有蛋白质。(2)基于使用所有Cas蛋白构建的模型的序型隐马尔科夫模型(HMM)检索，在Makarova等人Nat Rev Microbiol.2015年11月；13(11):722-36以及Shmakov等人Mol Cell.2015年11月5日；60(3):385-97)中所述。(3)基于HHpred的远同源性检索。命中基于其重要性进行颜色编码，并提供命中范围和E值。值得注意的是，CasY只有局部命中。CasY的812个N末端氨基酸仅具有一个非常微小的局部命中。结合起来，这些发现指示CasY是一种新的Cas蛋白。(图b)由序列数据构建不同的含CasY的CRISPR基因座支架。

实施例2

图4.CasY和C2c3基因座图的示意图。干扰蛋白以绿色示出，获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出，揭示在5'末端处的强发夹，从而表明CRISPR阵列通过CasY进行自我加工.。

图5(图a至图d)CasY的PAM依赖性质粒干扰。(图a)用CasY进行PAM缺失测定。用具有靶序列5'或3'端随机化的7个核苷酸的质粒文库转化含有CasY CRISPR基因座的大肠杆菌。选择靶质粒并合并转化体。扩增随机区域并准备用于深度测序。鉴定缺失的序列并用于生成PAM标识。(图b)CasY.1的生成的PAM标识示出对含有靶标5'端的5’-TA-3’侧翼序列的序列的强烈偏好。未检测到3’PAM。(图c)直接测定四种不同的PAM以验证由PAM缺失测定确定的PAM。(图d)CasY.2的生成的PAM标识示出对含有靶标5’端的5’-YR-3’和/或5’-TR-3’(例如，5’-DTR-3’)(分别为较低阈值和较高阈值)侧翼序列的偏好(其中Y是T或C；R是A或G；并且D是A、G或T)。未检测到3’PAM。

图6.(图a)来自天然存在的CasY指导RNA的‘重复'序列(针对CasY基因座Y1-Y6)。(图b)CasY RNA指导的DNA切割图。CasY蛋白与重复序列区域中的crRNA(CasY指导RNA)结合(黑色，重复序列；红色，间隔序列)。指导RNA的指导序列与含有正确的原间隔序列相邻基序(PAM)的靶序列(蓝色)的碱基配对导致靶DNA的双链切割。

实施例3：来自非培养微生物的新CRISPR-Cas系统

CRISPR-Cas适应性免疫系统通过提供能够进行位点特异性DNA切割的可编程酶，彻底变革了基因组工程。然而，当前的CRISPR-Cas技术仅基于来自培养的细菌的系统，而使得来自未被分离的生物体的绝大多数酶处于尚未开发状态。本文提供的数据示出，使用不依赖于培养的基因组解析的宏基因组学，鉴定新的CRISPR-Cas系统，包括在古细菌生物域中首次报道的Cas9。这种不同的Cas9酶在研究很少的纳米古细菌中作为活性CRISPR-Cas系统的一部分被发现。在细菌中，发现了两个先前未知的系统，CRISPR-CasX和CRISPR-CasY，它们属于目前鉴定的最简化的系统。值得注意的是，所有需要的功能性组分都是通过宏基因组学鉴定的，这允许在大肠杆菌中验证稳健的RNA指导的DNA干扰活性。本文的数据示出，环境微生物群落的查询与活细胞中的实验组合，能够获得前所未有的基因组多样性，所述基因组的内容将扩展基于微生物的生物技术的所有组成部分。

结果

分析了来自地下水、沉积物和酸性矿山排水微生物群落的兆级别(Terabase-scale)宏基因组数据集，寻找未在培养生物体中表示的2类CRISPR-Cas系统。鉴定了古细菌域中的第一种Cas9蛋白，并且在非培养细菌中发现了两种新的CRISPR-Cas系统，CRISPR-CasX和CRISPR-CasY(图7)。值得注意的是，古细菌Cas9和CasY两者都是仅在来自没有已知的分离代表的谱系的生物体的基因组中编码的。

首次鉴定古细菌Cas9

CRISPR-Cas9的特征之一是假定其仅存在于细菌域中。因此，在酸性矿山排水(AMD)宏基因组数据集中发现在纳米古细菌ARMAN-1(Candidatus Micrarchaeumacidiphilum ARMAN-1)和ARMAN-4(Candidatus Parvarchaeum acidiphilum ARMAN-4)的基因组中编码的Cas9蛋白是令人惊讶的。这些发现将含Cas9的CRISPR系统的出现扩展到另一个生物域。

ARMAN-4cas9基因在相同基因组环境中的16个不同样品中被发现，但没有其他相邻的cas基因(尽管位于若干个DNA序列重叠群>25kbp的中心)，并且只有一个相邻的CRISPR重复序列-间隔序列单元(图13)。缺乏典型的CRISPR阵列和编码通用CRISPR整合酶的cas1，指出了无法获得新间隔序列的系统。没有鉴定间隔序列的靶标，但考虑到基因座在若干年内采集的样品中的保守性，此时不能排除基因座在“单靶标”CRISPR-Cas系统中的功能。

相反，从15个不同样品中回收的ARMAN-1中的CRISPR-Cas基因座包括与cas1、cas2、cas4和cas9基因相邻的大型CRISPR阵列。重建了许多替代的ARMAN-1CRISPR阵列，其具有很大程度保守的末端(可能由最老的间隔序列组成)和其中已经并入许多不同的间隔序列的可变区域(图8a和图14)。基于间隔序列内容的这种高变性，这些数据示出了ARMAN-1CRISPR-Cas9系统在取样群体中是有活性的。

值得注意的是，ARMAN-1CRISPR-Cas9系统中56个推定的间隔序列靶标(原间隔序列)位于单个10kbp的基因组片段上，所述片段很可能是ARMAN-1病毒，因为它编码高密度的短假定蛋白(图8b)。实际上，低温电子断层扫描重建通常鉴定附着到ARMAN细胞的病毒颗粒。ARMAN-1原间隔序列也衍生自ARMAN-2(另一种纳米古细菌)基因组中的推定转座子和热源体目古细菌基因组中的推定可动元件，其包括来自同一生态系统的I-plasma的可动元件(图15)。在ARMAN与热源体目细胞之间观察到直接的细胞质“桥”，这意味着它们之间存在密切关系。因此，ARMAN-1CRISPR-Cas9可防御这些生物体之间的转座子传播，这一作用使人联想到piRNA介导的对真核生殖系中的转座的防御。

活性DNA靶向CRISPR-Cas系统使用位于靶序列之后的2至4bp原间隔序列相邻基序(PAM)来区分自身与非自身。检查与基因组靶序列相邻的序列确实在ARMAN-1中揭示出强烈的‘NGG’PAM偏好(图8c)。Cas9还使用两种单独的转录物，CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)，用于RNA指导的DNA切割。在ARMAN-1和ARMAN-4CRISPR-Cas9系统二者附近鉴定出推定tracrRNA(图16)。先前，有人提出II型CRISPR系统由于缺乏宿主因子RNA酶III而不存在于古细菌中，RNA酶III负责crRNA-tracrRNA指导复合物的成熟。值得注意的是，在ARMAN-1基因组中未鉴定出RNA酶III同源物(估计完成率为95％)，并且未预测出CRISPR阵列的内部启动子，这表明了尚未确定的指导RNA的产生机制。测试从大肠杆菌和酵母二者中纯化的ARMAN-1和ARMAN-4Cas9蛋白的切割活性的生化实验以及体内大肠杆菌靶向测定未揭示出任何可检测的活性(参见图21和图17)。

CRISPR-CasX是一种新的双RNA指导的CRISPR系统

除Cas9之外，仅发现并通过实验验证了三个2类Cas效应蛋白家族：Cpf1、C2c1和C2c2。已经提出了另一种仅在小DNA片段上鉴定的基因c2c3，其也编码这种蛋白质家族。在地下水和沉积物样品中反复回收的两种细菌的基因组中发现了一种新类型的2类CRISPR-Cas系统。此系统在属于不同门(δ变形菌门和浮霉菌门)的两种生物体中的高度保守性表明最近的跨门转移。这种新描述的系统包括Cas1、Cas2、Cas4和未表征的～980aa蛋白质，其在本文中称为CasX。与每个CasX相关联的CRISPR阵列具有高度相似的37个碱基对的重复序列、33-34个碱基对的间隔序列以及Cas操纵子与CRISPR阵列之间的推定tracrRNA(图7b)。BLAST检索仅揭示出与转座酶的弱相似性(e值>1×10^-4)，其中相似性限于CasX C末端的特定区域。远同源性检测和蛋白质建模鉴定了CasX C末端附近的RuvC结构域，其结构使人联想到V型CRISPR-Cas系统中发现的结构(图18)。CasX蛋白的其余部分(630个N末端氨基酸)与任何已知蛋白质均未示出可检测的相似性，这表明这是一种新型2类效应物。tracrRNA和单独的Cas1、Cas2和Cas4蛋白的组合在V型系统中是独特的。此外，CasX比任何已知的V型蛋白小得多：980个aa，与Cpf1、C2c1和C2c3的大于1,200个aa的典型尺寸相比。

接下来，人们想知道，尽管CasX具有较小的尺寸和非经典的基因座内容，但CasX能够进行类似于Cas9和Cpf1酶的RNA指导的DNA靶向。为了测试这种可能性，合成了编码最小CRISPR-CasX基因座的质粒，其包括casX、短重复序列-间隔序列阵列和插入的非编码区。当在大肠杆菌中表达时，这种最小基因座阻断了带有通过宏基因组分析鉴定的靶序列的质粒的转化(图9a至图9c、图19)。此外，仅在微型基因座中的间隔序列与质粒靶标中的原间隔序列匹配时才发生转化干扰。为了鉴定CasX的PAM序列，使用含有与靶位点相邻的5′或3′随机化序列的质粒在大肠杆菌中重复转化测定。此分析揭示出对直接位于原间隔序列的5′端的序列‘TTCN’的严格偏好(图9d)。未观察到3′PAM偏好(图19)。与此发现一致，‘TTCA’是在环境样品中鉴定的推定δ变形菌门CRISPR-CasX原间隔序列的上游发现的序列。值得注意的是，两个CRISPR-CasX基因座共享相同的PAM序列，与它们高度的CasX蛋白同源性一致。

在V型CRISPR基因座中存在单RNA和双RNA指导系统的实例。环境宏转录组数据用于确定CasX是否需要用于DNA靶向活性的tracrRNA。此分析揭示出，具有与CRISPR重复序列互补的序列的非编码RNA转录物在Cas2开放阅读框与CRISPR阵列之间编码(图10)。转录组学图谱还表明CRISPR RNA(crRNA)被加工成包括22个nt的重复序列和20个nt的相邻间隔序列，与CRISPR-Cas9系统中发生的crRNA加工相似(图10a)。此外，鉴定出2个nt的3′突出端，与RNA酶III介导的crRNA-tracrRNA双链体加工一致(图10b)。为了确定CasX活性对推定tracrRNA的依赖性，从上述最小的CRISPR-CasX基因座中删除此区域，并重复质粒干扰测定。从CasX质粒中删除推定tracrRNA编码序列消除了在其存在下观察到的稳健转化干扰(图10c)。总之，这些结果将CasX建立为新的功能性DNA靶向的双RNA指导的CRISPR酶。

CRISPR-CasY，一种仅在缺乏分离株的细菌谱系中发现的系统鉴定了在某些潜在门类辐射(CPR)细菌的基因组中编码的另一种新的2类Cas蛋白。这些细菌通常具有较小的细胞尺寸(基于低温TEM数据和通过过滤的富集)、非常小的基因组和有限的生物合成能力，这指示它们最可能是共生体。新的～1,200个aa的Cas蛋白，在本文中称为CasY，似乎是最小CRISPR-Cas系统的一部分，所述最小CRISPR-Cas系统至多包括Cas1和CRISPR阵列(图11a)。大多数CRISPR阵列具有17-19个nt的非常短的间隔序列，但是缺少Cas1的一个系统(CasY.5)具有更长的间隔序列(27-29个nt)。鉴定的CasY蛋白的六个实例与公共数据库中的任何蛋白质没有显著的序列相似性。使用由已公布的Cas蛋白^3,4构建的序型模型(HMM)的敏感检索指示，六个CasY蛋白中的四个与C2c3在与RuvC结构域重叠的C末端区域和N末端的小区域(～45个aa)中具有局部相似性(e值为4×10^-11–3×10^-18)(参见图18)。C2c3是推定的V型Cas效应物，其在短重叠群上鉴定，没有分类学从属关系，并且尚未通过实验验证。与CasY一样，C2c3被发现位于阵列之后，所述阵列具有短间隔序列和Cas1，但没有其他Cas蛋白。值得注意的是，尽管与其他CasY蛋白共享显著的序列相似性(最佳Blast命中：e值为6×10^-85、7×10^-75)，但在本研究中鉴定的两种CasY蛋白与C2c3没有显著的相似性。

鉴于CRISPR-CasY与任何经实验验证的CRISPR基因座的低同源性，接下来想知道此系统是否赋予RNA指导的DNA干扰，但由于间隔序列长度短，不存在关于针对此类活性可能需要的可能PAM基序的可靠信息。为解决此问题，用缩短的CRISPR阵列合成整个CRISPR-CasY.1基因座，并在质粒载体上将所述基因座引入大肠杆菌中。然后使用靶质粒在转化测定中攻击这些细胞，所述靶质粒具有与阵列中的间隔序列匹配的序列，并且所述序列含有相邻的随机化5′或3′区域，以鉴定可能的PAM。对转化体的分析揭示了含有与靶向序列直接相邻的5′TA的序列的缺失(图11b)。使用此鉴定的PAM序列，针对含有单个PAM的质粒测试CasY.1基因座。仅在含有鉴定的5′TA PAM序列的靶标存在下证明了质粒干扰(图11c)。因此，这些数据示出，CRISPR-CasY具有DNA干扰活性。

讨论

鉴定并表征来自非培养细菌和古细菌的基因组中的新的2类CRISPR-Cas适应性免疫系统。Cas1(图12a)的进化分析(其对于活性CRISPR基因座是通用的)表明，在此所述的古细菌Cas9系统不明显属于任何现有的II型亚型。Cas1系统发育(以及cas4的存在)将其与II-B型系统聚类到一起，但Cas9的序列更类似于II-C型蛋白(图20)。因此，古细菌II型系统可作为II-C和II-B型系统的融合体出现(图12b)。同样，Cas1系统发育分析指示来自CRISPR-CasX系统的Cas1远离任何其他已知的V型系统。V型系统已表明是转座子与来自原始I型系统的适配模块(Cas1–Cas2)的融合的结果。因此假设CRISPR-CasX系统在与产生前述V型系统的事件不同的融合事件之后出现。引人注目的是，CRISPR-CasY和推定C2c3系统两者似乎都缺乏Cas2，其是一种被认为对于将DNA整合到CRISPR基因座中必需的蛋白质。鉴于所有CRISPR-Cas系统都被认为是含有Cas1和Cas2二者的原始I型系统的后代，CRISPR-CasY和C2c3系统可能具有与其他CRISPR-Cas系统不同的祖先，或者可替代地，Cas2可能在其进化历史中丢失了。

本文所述的古细菌中的Cas9和细菌中的两个先前未知的CRISPR-Cas系统的发现使用了从复杂的天然微生物群落获得的大量的DNA和RNA序列数据集。在CasX和CasY的情况下，基因组内容对于从未组装的序列信息中预测不明显的功能是至关重要的。此外，通过分析宏基因组数据指导的功能测试，发现了推定tracrRNA的鉴定以及靶向病毒序列。有趣的是，迄今鉴定的一些最紧凑的CRISPR-Cas基因座是在具有非常小的基因组的生物体中发现的。小基因组尺寸的结果是这些生物体出于基本代谢需求可能依赖于其他群落成员，并且因此它们基本上仍然在传统的基于培养的方法的范围之外。干扰所需的蛋白质的有限数量使得这些最小系统对于开发新的基因组编辑工具特别有价值。重要的是，本文示出，与CRISPR-Cas系统相关的宏基因组发现不限于计算机模拟观察，而是可被引入可测试其功能的实验环境中。鉴于几乎所有存在生命的环境现在都可通过基因组解析的宏基因组方法进行探测，预计本文所述的组合计算机实验方法将极大地扩展已知CRISPR-Cas系统的多样性，从而提供生物研究和临床应用的新技术。

方法

宏基因组学和宏转录组学

分析了来自三个不同地点的宏基因组样品：(1)在2006年与2010年之间从Richmond Mine,Iron Mountain,California采集的酸性矿山排水(AMD)样品，(2)在2007年与2013年之间从毗邻Rifle,Colorado附近的Colorado River的Rifle Integrated FieldResearch(IFRC)地点采集的地下水和沉积物样品。(3)在2009年和2014年从位于犹他州科罗拉多高原的冷CO₂驱动的间歇泉Crystal Geyser采集的地下水。

对于AMD数据，Denef和Banfield(2012)以及Miller等人(2011)报道了DNA提取方法和短读测序。对于Rifle数据，Anantharaman等人(2016)和Brown等人(2015)描述了DNA和RNA提取以及测序、组装和重建的基因组。对于来自Crystal Geyser的样品，方法遵循Probst等人(2016)和Emerson等人(2015)描述的那些方法。简而言之，使用PowerSoil DNA分离试剂盒(MoBio Laboratories Inc.,Carlsbad,CA,USA)从样品中提取DNA。如Brown等人(2015)所述，从六个2011Rifle地下水样品中采集的0.2μm滤液中提取RNA。在IlluminaHiSeq2000平台上对DNA进行测序，并在5500XL SOLiD平台上对宏转录组cDNA进行测序。对于新报道的Crystal Geyser数据和AMD数据的再分析，使用IDBA-UD组装序列。使用Bowtie2进行DNA和RNA(cDNA)读取映射，其分别用于确定测序覆盖度和基因表达。使用Prodigal在组装的支架上预测开放阅读框(ORF)。使用涌现自组织映射(ESOM)，使用ABAWACA、ABAWACA2(https://github.com/CK7)Maxbin2和四核苷酸频率的组合，基于差异覆盖丰度模式对来自Crystal Geyser数据集的支架进行分级。使用％GC含量、分类学从属关系和基因组完整性手动整理基因组。使用ra2.py(https://github.com/christophertbrown)校正支架错误。

CRISPR-Cas计算分析

使用隐马尔科夫模型(HMM)序型扫描来自各种样品的组装重叠群的已知Cas蛋白，所述序型使用HMMer套件基于Makarova等人和Shmakov等人的比对来构建。使用CrisprFinder软件的本地版本鉴定CRISPR阵列。如果与cas1基因相邻的10个ORF中的一个编码大于800个aa的未表征蛋白，并且在相同重叠群上未鉴定出已知的cas干扰基因，则进一步分析包含Cas1和CRISPR阵列两者的基因座。将这些大蛋白质作为潜在的2类Cas效应物进一步分析。基于使用MCL的序列相似性，将潜在的效应物聚类到蛋白质家族。通过构建代表这些家族中的每一个的HMM并使用它们在宏基因组数据集中检索相似的Cas蛋白，来扩展这些蛋白质家族。为了确保蛋白质家族确实是新的，使用针对NCBI的非冗余(nr)和宏基因组(env_nr)蛋白质数据库的BLAST以及针对UniProt知识库的HMM检索来检索已知同源物。只有没有全长命中的蛋白质(>蛋白质长度的25％)才被认为是新型蛋白质。使用来自HH-套件(HH-suite)的HHpred进行推定的Cas蛋白的远同源性检索。基于与解析的晶体结构的比较以及由JPred4预测的二级结构，使用高分HHpred命中来推断结构域架构。HMM数据库，包括新发现的Cas蛋白，可见于补充数据1。

使用CrisprFinder由组装的数据确定间隔序列。CRASS用于在相关样品的短DNA读取中定位另外的间隔序列。然后通过针对与间隔序列具有≤1个错配的命中的相关宏基因组组装的BLAST检索(使用“-task blastn-short”)鉴定间隔序列靶标(原间隔序列)。将属于含有相关重复序列的重叠群的命中过滤掉(以避免将CRISPR阵列鉴定为原间隔序列)。通过比对侧接原间隔序列的区域并使用WebLogo可视化来鉴定原间隔序列相邻基序(PAM)。使用mFold预测RNA结构。通过手动比对来自组装数据的间隔序列、重复序列和侧翼序列来分析CRISPR阵列多样性。使用Geneious 9.1进行手动比对和重叠群可视化。

对于新鉴定的系统的Cas1和Cas9蛋白的系统发育分析，与来自Makarova等人和Shmakov等人的蛋白质一起使用。通过使用CD-HIT将具有≥90％同一性的蛋白质聚类在一起来编译非冗余组。使用MAFFT生成比对，并且使用以PROTGAMMALG作为替代模型的RAxML和100个自举取样构建最大似然系统发育。Cas1树使用通向casposons的分支做根。使用FigTree 1.4.1(http://tree.bio.ed.ac.uk/software/figtree/)和iTOL v3对树进行可视化。

生成异源质粒

通过去除与CasX的获得相关联的蛋白质并减小CasX和CasY二者的CRISPR阵列的大小，将宏基因组重叠群制成最小CRISPR干扰质粒。最小基因座合成为Gblocks(Integrated DNA Technology)并使用Gibson组装进行组装。

PAM缺失测定

如前所述，经过修改进行PAM缺失测定。将含有随机化PAM序列的质粒文库通过用引物对含有具有7个nt的随机化PAM区的靶标的DNA寡核苷酸进行退火来组装，并用Klenow片段(NEB)来延伸。将双链DNA用EcoRI和NcoI消化，并连接到pUC19骨架中。将连接的文库转化到DH5α中，并且收获>10⁸个细胞，并且提取并纯化所述质粒。将200ng合并的文库转化到携带CRISPR基因座或没有基因座的对照质粒的电感受态大肠杆菌中。在25℃下将转化的细胞铺板在含有羧苄青霉素(100mg L^-1)和氯霉素(30mg L^-1)的选择性培养基上30小时。提取质粒DNA，并用衔接子扩增PAM序列以用于Illumina测序。提取7个nt的PAM区并计算每个7个nt序列的PAM频率。使用缺失高于指定阈值的PAM序列来生成WebLogo。

质粒干扰

将从宏基因组序列分析或PAM缺失测定中鉴定的推定靶标克隆到pUC19质粒中。将10ng靶质粒转化到含有CRISPR基因座质粒的电感受态大肠杆菌(NEB稳定的)中。将细胞在25℃下恢复2小时，并将适当的稀释液铺板在选择性培养基上。将平板在25℃下孵育，并计数菌落形成单位。所有的质粒干扰实验一式三份进行，并且每个平行测定独立制备电感受态细胞。

ARMAN-Cas9蛋白表达和纯化

来自ARMAN-1(AR1)和ARMAN-4(AR4)的Cas9的表达构建体由对大肠杆菌进行密码子优化的gBlocks(Integrated DNA Technologies)组装而成。将组装的基因克隆到基于pET的表达载体中，作为N末端His₆-MBP或His₆融合蛋白。将表达载体转化到BL21(DE3)大肠杆菌细胞中，并在37℃下在LB肉汤中生长。对于蛋白质表达，将细胞在对数中期期间用0.4mM IPTG(异丙基β-D-1-硫代吡喃半乳糖苷)诱导，并在16℃下孵育过夜。所有后续步骤均在4℃下进行。将细胞沉淀重悬于裂解缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mMTCEP、10mM咪唑)0.5％Triton X-100中并补充有完全蛋白酶抑制剂混合物(Roche)，然后通过超声处理裂解。将裂解液通过在15000g下离心40分钟澄清，并分批施加到Superflow Ni-NTA琼脂糖(Qiagen)。将树脂用洗涤缓冲液A(50mM Tris-HCl pH8、500mM NaCl、1mM TCEP、10mM咪唑)充分洗涤，然后用5倍柱体积的洗涤缓冲液B(50mM Tris-HCl pH 8、1M NaCl、1mMTCEP、10mM咪唑)洗涤。用洗脱缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mM TCEP、300mM咪唑)从Ni-NTA树脂上洗脱蛋白质。在针对洗涤缓冲液A过夜透析期间，通过TEV蛋白酶除去His₆-MBP标签。通过第二个Ni-NTA琼脂糖柱从亲和标签上取出切割的Cas9。将蛋白质透析到IEX缓冲液A(50mM Tris-HCl pH 7.5、300mM NaCl、1mM TCEP、5％甘油)中，然后施加到5mL肝素HiTrap柱(GE Life Sciences)。以线性NaCl(0.3-1.5M)梯度洗脱Cas9。将级分合并并用30kDa旋转浓缩器(Thermo Fisher)进行浓缩。适用时，将Cas9在Superdex 200pg柱(GELife Sciences)上通过尺寸排阻色谱法进一步纯化，并储存在IEX缓冲液A中以用于随后的切割测定。对于酵母表达，将AR1-Cas9克隆到Gal1/10His6-MBP TEV Ura酿酒酵母表达载体(Addgene质粒#48305)中。将载体转化到BY4741 URA3菌株中，并使培养物在30℃下在培养基中生长。在～0.6的OD600下，用2％w/v半乳糖诱导蛋白质表达，并在16℃下孵育过夜。如上进行蛋白质纯化。

RNA体外转录和寡核苷酸纯化

如前所述⁶⁵，使用含有T7启动子序列的合成DNA模板进行体外转录反应。通过变性PAGE纯化所有体外转录的指导RNA和靶RNA或DNA。通过在95℃孵育1分钟，将双链靶RNA和DNA在20mM Tris HCl pH 7.5和100mM NaCl中杂交，然后缓慢冷却至室温。通过天然PAGE纯化杂交体。

体外切割测定

使用T4多核苷酸激酶(NEB)和[γ-32P]ATP(Perkin-Elmer)将纯化的DNA和RNA寡核苷酸在1x PNK缓冲液中在37℃下进行放射标记30分钟。将PNK在65℃下加热灭活20分钟，并使用illustra Microspin G-25柱(GE Life Sciences)从标记反应中去除游离ATP。将CrRNA和tracrRNA以等摩尔量在1x重折叠缓冲液(50mM Tris HCl pH 7.5、300mM NaCl、1mMTCEP、5％甘油)中混合，并在70℃下孵育5分钟，并且然后缓慢冷却至室温。将反应补充至1mM最终金属浓度，并且随后在50℃下加热5分钟。缓慢冷却至室温后，将重折叠的指导物置于冰上。除非针对缓冲液、盐浓度说明，否则将Cas9与等摩尔量的指导物在37℃下在1x切割缓冲液(50mM Tris HCl pH7.5、300mM NaCl、1mM TCEP、5％甘油、5mM二价金属)中重构10分钟。切割反应在具有放射标记的靶标的10x过量Cas9指导复合物的1x切割缓冲液中在37℃或指定温度下进行。在等体积的补充有50mM EDTA的凝胶上样缓冲液中淬灭反应。将切割产物在10％变性PAGE上分离并通过磷光成像可视化。

体内大肠杆菌干扰测定

如先前公布的⁶⁶，进行AR1-Cas9和AR4-Cas9的大肠杆菌转化测定。简而言之，用指导RNA转化的大肠杆菌被制成电感受态。然后用9fmol编码野生型或无催化活性的Cas9(dCas9)的质粒转化细胞。将稀释系列的恢复细胞铺板在具有选择性抗生素的LB平板上。在37℃下16小时后对菌落进行计数。

表1.有关鉴定CRISPR-Cas系统的生物体和基因组位置的详细信息，以及重建间隔序列的数量和平均长度和重复序列长度的信息(NA，不可用)。由16个样品重建ARMAN-1间隔序列。

虽然本发明已经参考其特定实施方案进行描述，但是本领域技术人员应理解，可在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外，为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围，可进行许多修改。所有此类修改意图处于所附权利要求的范围内。

序列表

<110> Doudna, Jennifer A

Burstein, David

Banfield, Jillian F

Harrington, Lucas B

<120> RNA指导的核酸修饰酶及其使用方法

<130> BERK-343WO

<150> US 62/402,849

<151> 2016-09-30

<160> 134

<170> PatentIn 3.5版

<210> 1

<211> 1125

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 1

Met Arg Lys Lys Leu Phe Lys Gly Tyr Ile Leu His Asn Lys Arg Leu

1 5 10 15

Val Tyr Thr Gly Lys Ala Ala Ile Arg Ser Ile Lys Tyr Pro Leu Val

20 25 30

Ala Pro Asn Lys Thr Ala Leu Asn Asn Leu Ser Glu Lys Ile Ile Tyr

35 40 45

Asp Tyr Glu His Leu Phe Gly Pro Leu Asn Val Ala Ser Tyr Ala Arg

50 55 60

Asn Ser Asn Arg Tyr Ser Leu Val Asp Phe Trp Ile Asp Ser Leu Arg

65 70 75 80

Ala Gly Val Ile Trp Gln Ser Lys Ser Thr Ser Leu Ile Asp Leu Ile

85 90 95

Ser Lys Leu Glu Gly Ser Lys Ser Pro Ser Glu Lys Ile Phe Glu Gln

100 105 110

Ile Asp Phe Glu Leu Lys Asn Lys Leu Asp Lys Glu Gln Phe Lys Asp

115 120 125

Ile Ile Leu Leu Asn Thr Gly Ile Arg Ser Ser Ser Asn Val Arg Ser

130 135 140

Leu Arg Gly Arg Phe Leu Lys Cys Phe Lys Glu Glu Phe Arg Asp Thr

145 150 155 160

Glu Glu Val Ile Ala Cys Val Asp Lys Trp Ser Lys Asp Leu Ile Val

165 170 175

Glu Gly Lys Ser Ile Leu Val Ser Lys Gln Phe Leu Tyr Trp Glu Glu

180 185 190

Glu Phe Gly Ile Lys Ile Phe Pro His Phe Lys Asp Asn His Asp Leu

195 200 205

Pro Lys Leu Thr Phe Phe Val Glu Pro Ser Leu Glu Phe Ser Pro His

210 215 220

Leu Pro Leu Ala Asn Cys Leu Glu Arg Leu Lys Lys Phe Asp Ile Ser

225 230 235 240

Arg Glu Ser Leu Leu Gly Leu Asp Asn Asn Phe Ser Ala Phe Ser Asn

245 250 255

Tyr Phe Asn Glu Leu Phe Asn Leu Leu Ser Arg Gly Glu Ile Lys Lys

260 265 270

Ile Val Thr Ala Val Leu Ala Val Ser Lys Ser Trp Glu Asn Glu Pro

275 280 285

Glu Leu Glu Lys Arg Leu His Phe Leu Ser Glu Lys Ala Lys Leu Leu

290 295 300

Gly Tyr Pro Lys Leu Thr Ser Ser Trp Ala Asp Tyr Arg Met Ile Ile

305 310 315 320

Gly Gly Lys Ile Lys Ser Trp His Ser Asn Tyr Thr Glu Gln Leu Ile

325 330 335

Lys Val Arg Glu Asp Leu Lys Lys His Gln Ile Ala Leu Asp Lys Leu

340 345 350

Gln Glu Asp Leu Lys Lys Val Val Asp Ser Ser Leu Arg Glu Gln Ile

355 360 365

Glu Ala Gln Arg Glu Ala Leu Leu Pro Leu Leu Asp Thr Met Leu Lys

370 375 380

Glu Lys Asp Phe Ser Asp Asp Leu Glu Leu Tyr Arg Phe Ile Leu Ser

385 390 395 400

Asp Phe Lys Ser Leu Leu Asn Gly Ser Tyr Gln Arg Tyr Ile Gln Thr

405 410 415

Glu Glu Glu Arg Lys Glu Asp Arg Asp Val Thr Lys Lys Tyr Lys Asp

420 425 430

Leu Tyr Ser Asn Leu Arg Asn Ile Pro Arg Phe Phe Gly Glu Ser Lys

435 440 445

Lys Glu Gln Phe Asn Lys Phe Ile Asn Lys Ser Leu Pro Thr Ile Asp

450 455 460

Val Gly Leu Lys Ile Leu Glu Asp Ile Arg Asn Ala Leu Glu Thr Val

465 470 475 480

Ser Val Arg Lys Pro Pro Ser Ile Thr Glu Glu Tyr Val Thr Lys Gln

485 490 495

Leu Glu Lys Leu Ser Arg Lys Tyr Lys Ile Asn Ala Phe Asn Ser Asn

500 505 510

Arg Phe Lys Gln Ile Thr Glu Gln Val Leu Arg Lys Tyr Asn Asn Gly

515 520 525

Glu Leu Pro Lys Ile Ser Glu Val Phe Tyr Arg Tyr Pro Arg Glu Ser

530 535 540

His Val Ala Ile Arg Ile Leu Pro Val Lys Ile Ser Asn Pro Arg Lys

545 550 555 560

Asp Ile Ser Tyr Leu Leu Asp Lys Tyr Gln Ile Ser Pro Asp Trp Lys

565 570 575

Asn Ser Asn Pro Gly Glu Val Val Asp Leu Ile Glu Ile Tyr Lys Leu

580 585 590

Thr Leu Gly Trp Leu Leu Ser Cys Asn Lys Asp Phe Ser Met Asp Phe

595 600 605

Ser Ser Tyr Asp Leu Lys Leu Phe Pro Glu Ala Ala Ser Leu Ile Lys

610 615 620

Asn Phe Gly Ser Cys Leu Ser Gly Tyr Tyr Leu Ser Lys Met Ile Phe

625 630 635 640

Asn Cys Ile Thr Ser Glu Ile Lys Gly Met Ile Thr Leu Tyr Thr Arg

645 650 655

Asp Lys Phe Val Val Arg Tyr Val Thr Gln Met Ile Gly Ser Asn Gln

660 665 670

Lys Phe Pro Leu Leu Cys Leu Val Gly Glu Lys Gln Thr Lys Asn Phe

675 680 685

Ser Arg Asn Trp Gly Val Leu Ile Glu Glu Lys Gly Asp Leu Gly Glu

690 695 700

Glu Lys Asn Gln Glu Lys Cys Leu Ile Phe Lys Asp Lys Thr Asp Phe

705 710 715 720

Ala Lys Ala Lys Glu Val Glu Ile Phe Lys Asn Asn Ile Trp Arg Ile

725 730 735

Arg Thr Ser Lys Tyr Gln Ile Gln Phe Leu Asn Arg Leu Phe Lys Lys

740 745 750

Thr Lys Glu Trp Asp Leu Met Asn Leu Val Leu Ser Glu Pro Ser Leu

755 760 765

Val Leu Glu Glu Glu Trp Gly Val Ser Trp Asp Lys Asp Lys Leu Leu

770 775 780

Pro Leu Leu Lys Lys Glu Lys Ser Cys Glu Glu Arg Leu Tyr Tyr Ser

785 790 795 800

Leu Pro Leu Asn Leu Val Pro Ala Thr Asp Tyr Lys Glu Gln Ser Ala

805 810 815

Glu Ile Glu Gln Arg Asn Thr Tyr Leu Gly Leu Asp Val Gly Glu Phe

820 825 830

Gly Val Ala Tyr Ala Val Val Arg Ile Val Arg Asp Arg Ile Glu Leu

835 840 845

Leu Ser Trp Gly Phe Leu Lys Asp Pro Ala Leu Arg Lys Ile Arg Glu

850 855 860

Arg Val Gln Asp Met Lys Lys Lys Gln Val Met Ala Val Phe Ser Ser

865 870 875 880

Ser Ser Thr Ala Val Ala Arg Val Arg Glu Met Ala Ile His Ser Leu

885 890 895

Arg Asn Gln Ile His Ser Ile Ala Leu Ala Tyr Lys Ala Lys Ile Ile

900 905 910

Tyr Glu Ile Ser Ile Ser Asn Phe Glu Thr Gly Gly Asn Arg Met Ala

915 920 925

Lys Ile Tyr Arg Ser Ile Lys Val Ser Asp Val Tyr Arg Glu Ser Gly

930 935 940

Ala Asp Thr Leu Val Ser Glu Met Ile Trp Gly Lys Lys Asn Lys Gln

945 950 955 960

Met Gly Asn His Ile Ser Ser Tyr Ala Thr Ser Tyr Thr Cys Cys Asn

965 970 975

Cys Ala Arg Thr Pro Phe Glu Leu Val Ile Asp Asn Asp Lys Glu Tyr

980 985 990

Glu Lys Gly Gly Asp Glu Phe Ile Phe Asn Val Gly Asp Glu Lys Lys

995 1000 1005

Val Arg Gly Phe Leu Gln Lys Ser Leu Leu Gly Lys Thr Ile Lys

1010 1015 1020

Gly Lys Glu Val Leu Lys Ser Ile Lys Glu Tyr Ala Arg Pro Pro

1025 1030 1035

Ile Arg Glu Val Leu Leu Glu Gly Glu Asp Val Glu Gln Leu Leu

1040 1045 1050

Lys Arg Arg Gly Asn Ser Tyr Ile Tyr Arg Cys Pro Phe Cys Gly

1055 1060 1065

Tyr Lys Thr Asp Ala Asp Ile Gln Ala Ala Leu Asn Ile Ala Cys

1070 1075 1080

Arg Gly Tyr Ile Ser Asp Asn Ala Lys Asp Ala Val Lys Glu Gly

1085 1090 1095

Glu Arg Lys Leu Asp Tyr Ile Leu Glu Val Arg Lys Leu Trp Glu

1100 1105 1110

Lys Asn Gly Ala Val Leu Arg Ser Ala Lys Phe Leu

1115 1120 1125

<210> 2

<211> 1226

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 2

Met Gln Lys Val Arg Lys Thr Leu Ser Glu Val His Lys Asn Pro Tyr

1 5 10 15

Gly Thr Lys Val Arg Asn Ala Lys Thr Gly Tyr Ser Leu Gln Ile Glu

20 25 30

Arg Leu Ser Tyr Thr Gly Lys Glu Gly Met Arg Ser Phe Lys Ile Pro

35 40 45

Leu Glu Asn Lys Asn Lys Glu Val Phe Asp Glu Phe Val Lys Lys Ile

50 55 60

Arg Asn Asp Tyr Ile Ser Gln Val Gly Leu Leu Asn Leu Ser Asp Trp

65 70 75 80

Tyr Glu His Tyr Gln Glu Lys Gln Glu His Tyr Ser Leu Ala Asp Phe

85 90 95

Trp Leu Asp Ser Leu Arg Ala Gly Val Ile Phe Ala His Lys Glu Thr

100 105 110

Glu Ile Lys Asn Leu Ile Ser Lys Ile Arg Gly Asp Lys Ser Ile Val

115 120 125

Asp Lys Phe Asn Ala Ser Ile Lys Lys Lys His Ala Asp Leu Tyr Ala

130 135 140

Leu Val Asp Ile Lys Ala Leu Tyr Asp Phe Leu Thr Ser Asp Ala Arg

145 150 155 160

Arg Gly Leu Lys Thr Glu Glu Glu Phe Phe Asn Ser Lys Arg Asn Thr

165 170 175

Leu Phe Pro Lys Phe Arg Lys Lys Asp Asn Lys Ala Val Asp Leu Trp

180 185 190

Val Lys Lys Phe Ile Gly Leu Asp Asn Lys Asp Lys Leu Asn Phe Thr

195 200 205

Lys Lys Phe Ile Gly Phe Asp Pro Asn Pro Gln Ile Lys Tyr Asp His

210 215 220

Thr Phe Phe Phe His Gln Asp Ile Asn Phe Asp Leu Glu Arg Ile Thr

225 230 235 240

Thr Pro Lys Glu Leu Ile Ser Thr Tyr Lys Lys Phe Leu Gly Lys Asn

245 250 255

Lys Asp Leu Tyr Gly Ser Asp Glu Thr Thr Glu Asp Gln Leu Lys Met

260 265 270

Val Leu Gly Phe His Asn Asn His Gly Ala Phe Ser Lys Tyr Phe Asn

275 280 285

Ala Ser Leu Glu Ala Phe Arg Gly Arg Asp Asn Ser Leu Val Glu Gln

290 295 300

Ile Ile Asn Asn Ser Pro Tyr Trp Asn Ser His Arg Lys Glu Leu Glu

305 310 315 320

Lys Arg Ile Ile Phe Leu Gln Val Gln Ser Lys Lys Ile Lys Glu Thr

325 330 335

Glu Leu Gly Lys Pro His Glu Tyr Leu Ala Ser Phe Gly Gly Lys Phe

340 345 350

Glu Ser Trp Val Ser Asn Tyr Leu Arg Gln Glu Glu Glu Val Lys Arg

355 360 365

Gln Leu Phe Gly Tyr Glu Glu Asn Lys Lys Gly Gln Lys Lys Phe Ile

370 375 380

Val Gly Asn Lys Gln Glu Leu Asp Lys Ile Ile Arg Gly Thr Asp Glu

385 390 395 400

Tyr Glu Ile Lys Ala Ile Ser Lys Glu Thr Ile Gly Leu Thr Gln Lys

405 410 415

Cys Leu Lys Leu Leu Glu Gln Leu Lys Asp Ser Val Asp Asp Tyr Thr

420 425 430

Leu Ser Leu Tyr Arg Gln Leu Ile Val Glu Leu Arg Ile Arg Leu Asn

435 440 445

Val Glu Phe Gln Glu Thr Tyr Pro Glu Leu Ile Gly Lys Ser Glu Lys

450 455 460

Asp Lys Glu Lys Asp Ala Lys Asn Lys Arg Ala Asp Lys Arg Tyr Pro

465 470 475 480

Gln Ile Phe Lys Asp Ile Lys Leu Ile Pro Asn Phe Leu Gly Glu Thr

485 490 495

Lys Gln Met Val Tyr Lys Lys Phe Ile Arg Ser Ala Asp Ile Leu Tyr

500 505 510

Glu Gly Ile Asn Phe Ile Asp Gln Ile Asp Lys Gln Ile Thr Gln Asn

515 520 525

Leu Leu Pro Cys Phe Lys Asn Asp Lys Glu Arg Ile Glu Phe Thr Glu

530 535 540

Lys Gln Phe Glu Thr Leu Arg Arg Lys Tyr Tyr Leu Met Asn Ser Ser

545 550 555 560

Arg Phe His His Val Ile Glu Gly Ile Ile Asn Asn Arg Lys Leu Ile

565 570 575

Glu Met Lys Lys Arg Glu Asn Ser Glu Leu Lys Thr Phe Ser Asp Ser

580 585 590

Lys Phe Val Leu Ser Lys Leu Phe Leu Lys Lys Gly Lys Lys Tyr Glu

595 600 605

Asn Glu Val Tyr Tyr Thr Phe Tyr Ile Asn Pro Lys Ala Arg Asp Gln

610 615 620

Arg Arg Ile Lys Ile Val Leu Asp Ile Asn Gly Asn Asn Ser Val Gly

625 630 635 640

Ile Leu Gln Asp Leu Val Gln Lys Leu Lys Pro Lys Trp Asp Asp Ile

645 650 655

Ile Lys Lys Asn Asp Met Gly Glu Leu Ile Asp Ala Ile Glu Ile Glu

660 665 670

Lys Val Arg Leu Gly Ile Leu Ile Ala Leu Tyr Cys Glu His Lys Phe

675 680 685

Lys Ile Lys Lys Glu Leu Leu Ser Leu Asp Leu Phe Ala Ser Ala Tyr

690 695 700

Gln Tyr Leu Glu Leu Glu Asp Asp Pro Glu Glu Leu Ser Gly Thr Asn

705 710 715 720

Leu Gly Arg Phe Leu Gln Ser Leu Val Cys Ser Glu Ile Lys Gly Ala

725 730 735

Ile Asn Lys Ile Ser Arg Thr Glu Tyr Ile Glu Arg Tyr Thr Val Gln

740 745 750

Pro Met Asn Thr Glu Lys Asn Tyr Pro Leu Leu Ile Asn Lys Glu Gly

755 760 765

Lys Ala Thr Trp His Ile Ala Ala Lys Asp Asp Leu Ser Lys Lys Lys

770 775 780

Gly Gly Gly Thr Val Ala Met Asn Gln Lys Ile Gly Lys Asn Phe Phe

785 790 795 800

Gly Lys Gln Asp Tyr Lys Thr Val Phe Met Leu Gln Asp Lys Arg Phe

805 810 815

Asp Leu Leu Thr Ser Lys Tyr His Leu Gln Phe Leu Ser Lys Thr Leu

820 825 830

Asp Thr Gly Gly Gly Ser Trp Trp Lys Asn Lys Asn Ile Asp Leu Asn

835 840 845

Leu Ser Ser Tyr Ser Phe Ile Phe Glu Gln Lys Val Lys Val Glu Trp

850 855 860

Asp Leu Thr Asn Leu Asp His Pro Ile Lys Ile Lys Pro Ser Glu Asn

865 870 875 880

Ser Asp Asp Arg Arg Leu Phe Val Ser Ile Pro Phe Val Ile Lys Pro

885 890 895

Lys Gln Thr Lys Arg Lys Asp Leu Gln Thr Arg Val Asn Tyr Met Gly

900 905 910

Ile Asp Ile Gly Glu Tyr Gly Leu Ala Trp Thr Ile Ile Asn Ile Asp

915 920 925

Leu Lys Asn Lys Lys Ile Asn Lys Ile Ser Lys Gln Gly Phe Ile Tyr

930 935 940

Glu Pro Leu Thr His Lys Val Arg Asp Tyr Val Ala Thr Ile Lys Asp

945 950 955 960

Asn Gln Val Arg Gly Thr Phe Gly Met Pro Asp Thr Lys Leu Ala Arg

965 970 975

Leu Arg Glu Asn Ala Ile Thr Ser Leu Arg Asn Gln Val His Asp Ile

980 985 990

Ala Met Arg Tyr Asp Ala Lys Pro Val Tyr Glu Phe Glu Ile Ser Asn

995 1000 1005

Phe Glu Thr Gly Ser Asn Lys Val Lys Val Ile Tyr Asp Ser Val

1010 1015 1020

Lys Arg Ala Asp Ile Gly Arg Gly Gln Asn Asn Thr Glu Ala Asp

1025 1030 1035

Asn Thr Glu Val Asn Leu Val Trp Gly Lys Thr Ser Lys Gln Phe

1040 1045 1050

Gly Ser Gln Ile Gly Ala Tyr Ala Thr Ser Tyr Ile Cys Ser Phe

1055 1060 1065

Cys Gly Tyr Ser Pro Tyr Tyr Glu Phe Glu Asn Ser Lys Ser Gly

1070 1075 1080

Asp Glu Glu Gly Ala Arg Asp Asn Leu Tyr Gln Met Lys Lys Leu

1085 1090 1095

Ser Arg Pro Ser Leu Glu Asp Phe Leu Gln Gly Asn Pro Val Tyr

1100 1105 1110

Lys Thr Phe Arg Asp Phe Asp Lys Tyr Lys Asn Asp Gln Arg Leu

1115 1120 1125

Gln Lys Thr Gly Asp Lys Asp Gly Glu Trp Lys Thr His Arg Gly

1130 1135 1140

Asn Thr Ala Ile Tyr Ala Cys Gln Lys Cys Arg His Ile Ser Asp

1145 1150 1155

Ala Asp Ile Gln Ala Ser Tyr Trp Ile Ala Leu Lys Gln Val Val

1160 1165 1170

Arg Asp Phe Tyr Lys Asp Lys Glu Met Asp Gly Asp Leu Ile Gln

1175 1180 1185

Gly Asp Asn Lys Asp Lys Arg Lys Val Asn Glu Leu Asn Arg Leu

1190 1195 1200

Ile Gly Val His Lys Asp Val Pro Ile Ile Asn Lys Asn Leu Ile

1205 1210 1215

Thr Ser Leu Asp Ile Asn Leu Leu

1220 1225

<210> 3

<211> 1160

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 3

Met Lys Ala Lys Lys Ser Phe Tyr Asn Gln Lys Arg Lys Phe Gly Lys

1 5 10 15

Arg Gly Tyr Arg Leu His Asp Glu Arg Ile Ala Tyr Ser Gly Gly Ile

20 25 30

Gly Ser Met Arg Ser Ile Lys Tyr Glu Leu Lys Asp Ser Tyr Gly Ile

35 40 45

Ala Gly Leu Arg Asn Arg Ile Ala Asp Ala Thr Ile Ser Asp Asn Lys

50 55 60

Trp Leu Tyr Gly Asn Ile Asn Leu Asn Asp Tyr Leu Glu Trp Arg Ser

65 70 75 80

Ser Lys Thr Asp Lys Gln Ile Glu Asp Gly Asp Arg Glu Ser Ser Leu

85 90 95

Leu Gly Phe Trp Leu Glu Ala Leu Arg Leu Gly Phe Val Phe Ser Lys

100 105 110

Gln Ser His Ala Pro Asn Asp Phe Asn Glu Thr Ala Leu Gln Asp Leu

115 120 125

Phe Glu Thr Leu Asp Asp Asp Leu Lys His Val Leu Asp Arg Lys Lys

130 135 140

Trp Cys Asp Phe Ile Lys Ile Gly Thr Pro Lys Thr Asn Asp Gln Gly

145 150 155 160

Arg Leu Lys Lys Gln Ile Lys Asn Leu Leu Lys Gly Asn Lys Arg Glu

165 170 175

Glu Ile Glu Lys Thr Leu Asn Glu Ser Asp Asp Glu Leu Lys Glu Lys

180 185 190

Ile Asn Arg Ile Ala Asp Val Phe Ala Lys Asn Lys Ser Asp Lys Tyr

195 200 205

Thr Ile Phe Lys Leu Asp Lys Pro Asn Thr Glu Lys Tyr Pro Arg Ile

210 215 220

Asn Asp Val Gln Val Ala Phe Phe Cys His Pro Asp Phe Glu Glu Ile

225 230 235 240

Thr Glu Arg Asp Arg Thr Lys Thr Leu Asp Leu Ile Ile Asn Arg Phe

245 250 255

Asn Lys Arg Tyr Glu Ile Thr Glu Asn Lys Lys Asp Asp Lys Thr Ser

260 265 270

Asn Arg Met Ala Leu Tyr Ser Leu Asn Gln Gly Tyr Ile Pro Arg Val

275 280 285

Leu Asn Asp Leu Phe Leu Phe Val Lys Asp Asn Glu Asp Asp Phe Ser

290 295 300

Gln Phe Leu Ser Asp Leu Glu Asn Phe Phe Ser Phe Ser Asn Glu Gln

305 310 315 320

Ile Lys Ile Ile Lys Glu Arg Leu Lys Lys Leu Lys Lys Tyr Ala Glu

325 330 335

Pro Ile Pro Gly Lys Pro Gln Leu Ala Asp Lys Trp Asp Asp Tyr Ala

340 345 350

Ser Asp Phe Gly Gly Lys Leu Glu Ser Trp Tyr Ser Asn Arg Ile Glu

355 360 365

Lys Leu Lys Lys Ile Pro Glu Ser Val Ser Asp Leu Arg Asn Asn Leu

370 375 380

Glu Lys Ile Arg Asn Val Leu Lys Lys Gln Asn Asn Ala Ser Lys Ile

385 390 395 400

Leu Glu Leu Ser Gln Lys Ile Ile Glu Tyr Ile Arg Asp Tyr Gly Val

405 410 415

Ser Phe Glu Lys Pro Glu Ile Ile Lys Phe Ser Trp Ile Asn Lys Thr

420 425 430

Lys Asp Gly Gln Lys Lys Val Phe Tyr Val Ala Lys Met Ala Asp Arg

435 440 445

Glu Phe Ile Glu Lys Leu Asp Leu Trp Met Ala Asp Leu Arg Ser Gln

450 455 460

Leu Asn Glu Tyr Asn Gln Asp Asn Lys Val Ser Phe Lys Lys Lys Gly

465 470 475 480

Lys Lys Ile Glu Glu Leu Gly Val Leu Asp Phe Ala Leu Asn Lys Ala

485 490 495

Lys Lys Asn Lys Ser Thr Lys Asn Glu Asn Gly Trp Gln Gln Lys Leu

500 505 510

Ser Glu Ser Ile Gln Ser Ala Pro Leu Phe Phe Gly Glu Gly Asn Arg

515 520 525

Val Arg Asn Glu Glu Val Tyr Asn Leu Lys Asp Leu Leu Phe Ser Glu

530 535 540

Ile Lys Asn Val Glu Asn Ile Leu Met Ser Ser Glu Ala Glu Asp Leu

545 550 555 560

Lys Asn Ile Lys Ile Glu Tyr Lys Glu Asp Gly Ala Lys Lys Gly Asn

565 570 575

Tyr Val Leu Asn Val Leu Ala Arg Phe Tyr Ala Arg Phe Asn Glu Asp

580 585 590

Gly Tyr Gly Gly Trp Asn Lys Val Lys Thr Val Leu Glu Asn Ile Ala

595 600 605

Arg Glu Ala Gly Thr Asp Phe Ser Lys Tyr Gly Asn Asn Asn Asn Arg

610 615 620

Asn Ala Gly Arg Phe Tyr Leu Asn Gly Arg Glu Arg Gln Val Phe Thr

625 630 635 640

Leu Ile Lys Phe Glu Lys Ser Ile Thr Val Glu Lys Ile Leu Glu Leu

645 650 655

Val Lys Leu Pro Ser Leu Leu Asp Glu Ala Tyr Arg Asp Leu Val Asn

660 665 670

Glu Asn Lys Asn His Lys Leu Arg Asp Val Ile Gln Leu Ser Lys Thr

675 680 685

Ile Met Ala Leu Val Leu Ser His Ser Asp Lys Glu Lys Gln Ile Gly

690 695 700

Gly Asn Tyr Ile His Ser Lys Leu Ser Gly Tyr Asn Ala Leu Ile Ser

705 710 715 720

Lys Arg Asp Phe Ile Ser Arg Tyr Ser Val Gln Thr Thr Asn Gly Thr

725 730 735

Gln Cys Lys Leu Ala Ile Gly Lys Gly Lys Ser Lys Lys Gly Asn Glu

740 745 750

Ile Asp Arg Tyr Phe Tyr Ala Phe Gln Phe Phe Lys Asn Asp Asp Ser

755 760 765

Lys Ile Asn Leu Lys Val Ile Lys Asn Asn Ser His Lys Asn Ile Asp

770 775 780

Phe Asn Asp Asn Glu Asn Lys Ile Asn Ala Leu Gln Val Tyr Ser Ser

785 790 795 800

Asn Tyr Gln Ile Gln Phe Leu Asp Trp Phe Phe Glu Lys His Gln Gly

805 810 815

Lys Lys Thr Ser Leu Glu Val Gly Gly Ser Phe Thr Ile Ala Glu Lys

820 825 830

Ser Leu Thr Ile Asp Trp Ser Gly Ser Asn Pro Arg Val Gly Phe Lys

835 840 845

Arg Ser Asp Thr Glu Glu Lys Arg Val Phe Val Ser Gln Pro Phe Thr

850 855 860

Leu Ile Pro Asp Asp Glu Asp Lys Glu Arg Arg Lys Glu Arg Met Ile

865 870 875 880

Lys Thr Lys Asn Arg Phe Ile Gly Ile Asp Ile Gly Glu Tyr Gly Leu

885 890 895

Ala Trp Ser Leu Ile Glu Val Asp Asn Gly Asp Lys Asn Asn Arg Gly

900 905 910

Ile Arg Gln Leu Glu Ser Gly Phe Ile Thr Asp Asn Gln Gln Gln Val

915 920 925

Leu Lys Lys Asn Val Lys Ser Trp Arg Gln Asn Gln Ile Arg Gln Thr

930 935 940

Phe Thr Ser Pro Asp Thr Lys Ile Ala Arg Leu Arg Glu Ser Leu Ile

945 950 955 960

Gly Ser Tyr Lys Asn Gln Leu Glu Ser Leu Met Val Ala Lys Lys Ala

965 970 975

Asn Leu Ser Phe Glu Tyr Glu Val Ser Gly Phe Glu Val Gly Gly Lys

980 985 990

Arg Val Ala Lys Ile Tyr Asp Ser Ile Lys Arg Gly Ser Val Arg Lys

995 1000 1005

Lys Asp Asn Asn Ser Gln Asn Asp Gln Ser Trp Gly Lys Lys Gly

1010 1015 1020

Ile Asn Glu Trp Ser Phe Glu Thr Thr Ala Ala Gly Thr Ser Gln

1025 1030 1035

Phe Cys Thr His Cys Lys Arg Trp Ser Ser Leu Ala Ile Val Asp

1040 1045 1050

Ile Glu Glu Tyr Glu Leu Lys Asp Tyr Asn Asp Asn Leu Phe Lys

1055 1060 1065

Val Lys Ile Asn Asp Gly Glu Val Arg Leu Leu Gly Lys Lys Gly

1070 1075 1080

Trp Arg Ser Gly Glu Lys Ile Lys Gly Lys Glu Leu Phe Gly Pro

1085 1090 1095

Val Lys Asp Ala Met Arg Pro Asn Val Asp Gly Leu Gly Met Lys

1100 1105 1110

Ile Val Lys Arg Lys Tyr Leu Lys Leu Asp Leu Arg Asp Trp Val

1115 1120 1125

Ser Arg Tyr Gly Asn Met Ala Ile Phe Ile Cys Pro Tyr Val Asp

1130 1135 1140

Cys His His Ile Ser His Ala Asp Lys Gln Ala Ala Phe Asn Ile

1145 1150 1155

Ala Val

1160

<210> 4

<211> 1210

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 4

Met Ser Lys Arg His Pro Arg Ile Ser Gly Val Lys Gly Tyr Arg Leu

1 5 10 15

His Ala Gln Arg Leu Glu Tyr Thr Gly Lys Ser Gly Ala Met Arg Thr

20 25 30

Ile Lys Tyr Pro Leu Tyr Ser Ser Pro Ser Gly Gly Arg Thr Val Pro

35 40 45

Arg Glu Ile Val Ser Ala Ile Asn Asp Asp Tyr Val Gly Leu Tyr Gly

50 55 60

Leu Ser Asn Phe Asp Asp Leu Tyr Asn Ala Glu Lys Arg Asn Glu Glu

65 70 75 80

Lys Val Tyr Ser Val Leu Asp Phe Trp Tyr Asp Cys Val Gln Tyr Gly

85 90 95

Ala Val Phe Ser Tyr Thr Ala Pro Gly Leu Leu Lys Asn Val Ala Glu

100 105 110

Val Arg Gly Gly Ser Tyr Glu Leu Thr Lys Thr Leu Lys Gly Ser His

115 120 125

Leu Tyr Asp Glu Leu Gln Ile Asp Lys Val Ile Lys Phe Leu Asn Lys

130 135 140

Lys Glu Ile Ser Arg Ala Asn Gly Ser Leu Asp Lys Leu Lys Lys Asp

145 150 155 160

Ile Ile Asp Cys Phe Lys Ala Glu Tyr Arg Glu Arg His Lys Asp Gln

165 170 175

Cys Asn Lys Leu Ala Asp Asp Ile Lys Asn Ala Lys Lys Asp Ala Gly

180 185 190

Ala Ser Leu Gly Glu Arg Gln Lys Lys Leu Phe Arg Asp Phe Phe Gly

195 200 205

Ile Ser Glu Gln Ser Glu Asn Asp Lys Pro Ser Phe Thr Asn Pro Leu

210 215 220

Asn Leu Thr Cys Cys Leu Leu Pro Phe Asp Thr Val Asn Asn Asn Arg

225 230 235 240

Asn Arg Gly Glu Val Leu Phe Asn Lys Leu Lys Glu Tyr Ala Gln Lys

245 250 255

Leu Asp Lys Asn Glu Gly Ser Leu Glu Met Trp Glu Tyr Ile Gly Ile

260 265 270

Gly Asn Ser Gly Thr Ala Phe Ser Asn Phe Leu Gly Glu Gly Phe Leu

275 280 285

Gly Arg Leu Arg Glu Asn Lys Ile Thr Glu Leu Lys Lys Ala Met Met

290 295 300

Asp Ile Thr Asp Ala Trp Arg Gly Gln Glu Gln Glu Glu Glu Leu Glu

305 310 315 320

Lys Arg Leu Arg Ile Leu Ala Ala Leu Thr Ile Lys Leu Arg Glu Pro

325 330 335

Lys Phe Asp Asn His Trp Gly Gly Tyr Arg Ser Asp Ile Asn Gly Lys

340 345 350

Leu Ser Ser Trp Leu Gln Asn Tyr Ile Asn Gln Thr Val Lys Ile Lys

355 360 365

Glu Asp Leu Lys Gly His Lys Lys Asp Leu Lys Lys Ala Lys Glu Met

370 375 380

Ile Asn Arg Phe Gly Glu Ser Asp Thr Lys Glu Glu Ala Val Val Ser

385 390 395 400

Ser Leu Leu Glu Ser Ile Glu Lys Ile Val Pro Asp Asp Ser Ala Asp

405 410 415

Asp Glu Lys Pro Asp Ile Pro Ala Ile Ala Ile Tyr Arg Arg Phe Leu

420 425 430

Ser Asp Gly Arg Leu Thr Leu Asn Arg Phe Val Gln Arg Glu Asp Val

435 440 445

Gln Glu Ala Leu Ile Lys Glu Arg Leu Glu Ala Glu Lys Lys Lys Lys

450 455 460

Pro Lys Lys Arg Lys Lys Lys Ser Asp Ala Glu Asp Glu Lys Glu Thr

465 470 475 480

Ile Asp Phe Lys Glu Leu Phe Pro His Leu Ala Lys Pro Leu Lys Leu

485 490 495

Val Pro Asn Phe Tyr Gly Asp Ser Lys Arg Glu Leu Tyr Lys Lys Tyr

500 505 510

Lys Asn Ala Ala Ile Tyr Thr Asp Ala Leu Trp Lys Ala Val Glu Lys

515 520 525

Ile Tyr Lys Ser Ala Phe Ser Ser Ser Leu Lys Asn Ser Phe Phe Asp

530 535 540

Thr Asp Phe Asp Lys Asp Phe Phe Ile Lys Arg Leu Gln Lys Ile Phe

545 550 555 560

Ser Val Tyr Arg Arg Phe Asn Thr Asp Lys Trp Lys Pro Ile Val Lys

565 570 575

Asn Ser Phe Ala Pro Tyr Cys Asp Ile Val Ser Leu Ala Glu Asn Glu

580 585 590

Val Leu Tyr Lys Pro Lys Gln Ser Arg Ser Arg Lys Ser Ala Ala Ile

595 600 605

Asp Lys Asn Arg Val Arg Leu Pro Ser Thr Glu Asn Ile Ala Lys Ala

610 615 620

Gly Ile Ala Leu Ala Arg Glu Leu Ser Val Ala Gly Phe Asp Trp Lys

625 630 635 640

Asp Leu Leu Lys Lys Glu Glu His Glu Glu Tyr Ile Asp Leu Ile Glu

645 650 655

Leu His Lys Thr Ala Leu Ala Leu Leu Leu Ala Val Thr Glu Thr Gln

660 665 670

Leu Asp Ile Ser Ala Leu Asp Phe Val Glu Asn Gly Thr Val Lys Asp

675 680 685

Phe Met Lys Thr Arg Asp Gly Asn Leu Val Leu Glu Gly Arg Phe Leu

690 695 700

Glu Met Phe Ser Gln Ser Ile Val Phe Ser Glu Leu Arg Gly Leu Ala

705 710 715 720

Gly Leu Met Ser Arg Lys Glu Phe Ile Thr Arg Ser Ala Ile Gln Thr

725 730 735

Met Asn Gly Lys Gln Ala Glu Leu Leu Tyr Ile Pro His Glu Phe Gln

740 745 750

Ser Ala Lys Ile Thr Thr Pro Lys Glu Met Ser Arg Ala Phe Leu Asp

755 760 765

Leu Ala Pro Ala Glu Phe Ala Thr Ser Leu Glu Pro Glu Ser Leu Ser

770 775 780

Glu Lys Ser Leu Leu Lys Leu Lys Gln Met Arg Tyr Tyr Pro His Tyr

785 790 795 800

Phe Gly Tyr Glu Leu Thr Arg Thr Gly Gln Gly Ile Asp Gly Gly Val

805 810 815

Ala Glu Asn Ala Leu Arg Leu Glu Lys Ser Pro Val Lys Lys Arg Glu

820 825 830

Ile Lys Cys Lys Gln Tyr Lys Thr Leu Gly Arg Gly Gln Asn Lys Ile

835 840 845

Val Leu Tyr Val Arg Ser Ser Tyr Tyr Gln Thr Gln Phe Leu Glu Trp

850 855 860

Phe Leu His Arg Pro Lys Asn Val Gln Thr Asp Val Ala Val Ser Gly

865 870 875 880

Ser Phe Leu Ile Asp Glu Lys Lys Val Lys Thr Arg Trp Asn Tyr Asp

885 890 895

Ala Leu Thr Val Ala Leu Glu Pro Val Ser Gly Ser Glu Arg Val Phe

900 905 910

Val Ser Gln Pro Phe Thr Ile Phe Pro Glu Lys Ser Ala Glu Glu Glu

915 920 925

Gly Gln Arg Tyr Leu Gly Ile Asp Ile Gly Glu Tyr Gly Ile Ala Tyr

930 935 940

Thr Ala Leu Glu Ile Thr Gly Asp Ser Ala Lys Ile Leu Asp Gln Asn

945 950 955 960

Phe Ile Ser Asp Pro Gln Leu Lys Thr Leu Arg Glu Glu Val Lys Gly

965 970 975

Leu Lys Leu Asp Gln Arg Arg Gly Thr Phe Ala Met Pro Ser Thr Lys

980 985 990

Ile Ala Arg Ile Arg Glu Ser Leu Val His Ser Leu Arg Asn Arg Ile

995 1000 1005

His His Leu Ala Leu Lys His Lys Ala Lys Ile Val Tyr Glu Leu

1010 1015 1020

Glu Val Ser Arg Phe Glu Glu Gly Lys Gln Lys Ile Lys Lys Val

1025 1030 1035

Tyr Ala Thr Leu Lys Lys Ala Asp Val Tyr Ser Glu Ile Asp Ala

1040 1045 1050

Asp Lys Asn Leu Gln Thr Thr Val Trp Gly Lys Leu Ala Val Ala

1055 1060 1065

Ser Glu Ile Ser Ala Ser Tyr Thr Ser Gln Phe Cys Gly Ala Cys

1070 1075 1080

Lys Lys Leu Trp Arg Ala Glu Met Gln Val Asp Glu Thr Ile Thr

1085 1090 1095

Thr Gln Glu Leu Ile Gly Thr Val Arg Val Ile Lys Gly Gly Thr

1100 1105 1110

Leu Ile Asp Ala Ile Lys Asp Phe Met Arg Pro Pro Ile Phe Asp

1115 1120 1125

Glu Asn Asp Thr Pro Phe Pro Lys Tyr Arg Asp Phe Cys Asp Lys

1130 1135 1140

His His Ile Ser Lys Lys Met Arg Gly Asn Ser Cys Leu Phe Ile

1145 1150 1155

Cys Pro Phe Cys Arg Ala Asn Ala Asp Ala Asp Ile Gln Ala Ser

1160 1165 1170

Gln Thr Ile Ala Leu Leu Arg Tyr Val Lys Glu Glu Lys Lys Val

1175 1180 1185

Glu Asp Tyr Phe Glu Arg Phe Arg Lys Leu Lys Asn Ile Lys Val

1190 1195 1200

Leu Gly Gln Met Lys Lys Ile

1205 1210

<210> 5

<211> 1287

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 5

Met Lys Arg Ile Leu Asn Ser Leu Lys Val Ala Ala Leu Arg Leu Leu

1 5 10 15

Phe Arg Gly Lys Gly Ser Glu Leu Val Lys Thr Val Lys Tyr Pro Leu

20 25 30

Val Ser Pro Val Gln Gly Ala Val Glu Glu Leu Ala Glu Ala Ile Arg

35 40 45

His Asp Asn Leu His Leu Phe Gly Gln Lys Glu Ile Val Asp Leu Met

50 55 60

Glu Lys Asp Glu Gly Thr Gln Val Tyr Ser Val Val Asp Phe Trp Leu

65 70 75 80

Asp Thr Leu Arg Leu Gly Met Phe Phe Ser Pro Ser Ala Asn Ala Leu

85 90 95

Lys Ile Thr Leu Gly Lys Phe Asn Ser Asp Gln Val Ser Pro Phe Arg

100 105 110

Lys Val Leu Glu Gln Ser Pro Phe Phe Leu Ala Gly Arg Leu Lys Val

115 120 125

Glu Pro Ala Glu Arg Ile Leu Ser Val Glu Ile Arg Lys Ile Gly Lys

130 135 140

Arg Glu Asn Arg Val Glu Asn Tyr Ala Ala Asp Val Glu Thr Cys Phe

145 150 155 160

Ile Gly Gln Leu Ser Ser Asp Glu Lys Gln Ser Ile Gln Lys Leu Ala

165 170 175

Asn Asp Ile Trp Asp Ser Lys Asp His Glu Glu Gln Arg Met Leu Lys

180 185 190

Ala Asp Phe Phe Ala Ile Pro Leu Ile Lys Asp Pro Lys Ala Val Thr

195 200 205

Glu Glu Asp Pro Glu Asn Glu Thr Ala Gly Lys Gln Lys Pro Leu Glu

210 215 220

Leu Cys Val Cys Leu Val Pro Glu Leu Tyr Thr Arg Gly Phe Gly Ser

225 230 235 240

Ile Ala Asp Phe Leu Val Gln Arg Leu Thr Leu Leu Arg Asp Lys Met

245 250 255

Ser Thr Asp Thr Ala Glu Asp Cys Leu Glu Tyr Val Gly Ile Glu Glu

260 265 270

Glu Lys Gly Asn Gly Met Asn Ser Leu Leu Gly Thr Phe Leu Lys Asn

275 280 285

Leu Gln Gly Asp Gly Phe Glu Gln Ile Phe Gln Phe Met Leu Gly Ser

290 295 300

Tyr Val Gly Trp Gln Gly Lys Glu Asp Val Leu Arg Glu Arg Leu Asp

305 310 315 320

Leu Leu Ala Glu Lys Val Lys Arg Leu Pro Lys Pro Lys Phe Ala Gly

325 330 335

Glu Trp Ser Gly His Arg Met Phe Leu His Gly Gln Leu Lys Ser Trp

340 345 350

Ser Ser Asn Phe Phe Arg Leu Phe Asn Glu Thr Arg Glu Leu Leu Glu

355 360 365

Ser Ile Lys Ser Asp Ile Gln His Ala Thr Met Leu Ile Ser Tyr Val

370 375 380

Glu Glu Lys Gly Gly Tyr His Pro Gln Leu Leu Ser Gln Tyr Arg Lys

385 390 395 400

Leu Met Glu Gln Leu Pro Ala Leu Arg Thr Lys Val Leu Asp Pro Glu

405 410 415

Ile Glu Met Thr His Met Ser Glu Ala Val Arg Ser Tyr Ile Met Ile

420 425 430

His Lys Ser Val Ala Gly Phe Leu Pro Asp Leu Leu Glu Ser Leu Asp

435 440 445

Arg Asp Lys Asp Arg Glu Phe Leu Leu Ser Ile Phe Pro Arg Ile Pro

450 455 460

Lys Ile Asp Lys Lys Thr Lys Glu Ile Val Ala Trp Glu Leu Pro Gly

465 470 475 480

Glu Pro Glu Glu Gly Tyr Leu Phe Thr Ala Asn Asn Leu Phe Arg Asn

485 490 495

Phe Leu Glu Asn Pro Lys His Val Pro Arg Phe Met Ala Glu Arg Ile

500 505 510

Pro Glu Asp Trp Thr Arg Leu Arg Ser Ala Pro Val Trp Phe Asp Gly

515 520 525

Met Val Lys Gln Trp Gln Lys Val Val Asn Gln Leu Val Glu Ser Pro

530 535 540

Gly Ala Leu Tyr Gln Phe Asn Glu Ser Phe Leu Arg Gln Arg Leu Gln

545 550 555 560

Ala Met Leu Thr Val Tyr Lys Arg Asp Leu Gln Thr Glu Lys Phe Leu

565 570 575

Lys Leu Leu Ala Asp Val Cys Arg Pro Leu Val Asp Phe Phe Gly Leu

580 585 590

Gly Gly Asn Asp Ile Ile Phe Lys Ser Cys Gln Asp Pro Arg Lys Gln

595 600 605

Trp Gln Thr Val Ile Pro Leu Ser Val Pro Ala Asp Val Tyr Thr Ala

610 615 620

Cys Glu Gly Leu Ala Ile Arg Leu Arg Glu Thr Leu Gly Phe Glu Trp

625 630 635 640

Lys Asn Leu Lys Gly His Glu Arg Glu Asp Phe Leu Arg Leu His Gln

645 650 655

Leu Leu Gly Asn Leu Leu Phe Trp Ile Arg Asp Ala Lys Leu Val Val

660 665 670

Lys Leu Glu Asp Trp Met Asn Asn Pro Cys Val Gln Glu Tyr Val Glu

675 680 685

Ala Arg Lys Ala Ile Asp Leu Pro Leu Glu Ile Phe Gly Phe Glu Val

690 695 700

Pro Ile Phe Leu Asn Gly Tyr Leu Phe Ser Glu Leu Arg Gln Leu Glu

705 710 715 720

Leu Leu Leu Arg Arg Lys Ser Val Met Thr Ser Tyr Ser Val Lys Thr

725 730 735

Thr Gly Ser Pro Asn Arg Leu Phe Gln Leu Val Tyr Leu Pro Leu Asn

740 745 750

Pro Ser Asp Pro Glu Lys Lys Asn Ser Asn Asn Phe Gln Glu Arg Leu

755 760 765

Asp Thr Pro Thr Gly Leu Ser Arg Arg Phe Leu Asp Leu Thr Leu Asp

770 775 780

Ala Phe Ala Gly Lys Leu Leu Thr Asp Pro Val Thr Gln Glu Leu Lys

785 790 795 800

Thr Met Ala Gly Phe Tyr Asp His Leu Phe Gly Phe Lys Leu Pro Cys

805 810 815

Lys Leu Ala Ala Met Ser Asn His Pro Gly Ser Ser Ser Lys Met Val

820 825 830

Val Leu Ala Lys Pro Lys Lys Gly Val Ala Ser Asn Ile Gly Phe Glu

835 840 845

Pro Ile Pro Asp Pro Ala His Pro Val Phe Arg Val Arg Ser Ser Trp

850 855 860

Pro Glu Leu Lys Tyr Leu Glu Gly Leu Leu Tyr Leu Pro Glu Asp Thr

865 870 875 880

Pro Leu Thr Ile Glu Leu Ala Glu Thr Ser Val Ser Cys Gln Ser Val

885 890 895

Ser Ser Val Ala Phe Asp Leu Lys Asn Leu Thr Thr Ile Leu Gly Arg

900 905 910

Val Gly Glu Phe Arg Val Thr Ala Asp Gln Pro Phe Lys Leu Thr Pro

915 920 925

Ile Ile Pro Glu Lys Glu Glu Ser Phe Ile Gly Lys Thr Tyr Leu Gly

930 935 940

Leu Asp Ala Gly Glu Arg Ser Gly Val Gly Phe Ala Ile Val Thr Val

945 950 955 960

Asp Gly Asp Gly Tyr Glu Val Gln Arg Leu Gly Val His Glu Asp Thr

965 970 975

Gln Leu Met Ala Leu Gln Gln Val Ala Ser Lys Ser Leu Lys Glu Pro

980 985 990

Val Phe Gln Pro Leu Arg Lys Gly Thr Phe Arg Gln Gln Glu Arg Ile

995 1000 1005

Arg Lys Ser Leu Arg Gly Cys Tyr Trp Asn Phe Tyr His Ala Leu

1010 1015 1020

Met Ile Lys Tyr Arg Ala Lys Val Val His Glu Glu Ser Val Gly

1025 1030 1035

Ser Ser Gly Leu Val Gly Gln Trp Leu Arg Ala Phe Gln Lys Asp

1040 1045 1050

Leu Lys Lys Ala Asp Val Leu Pro Lys Lys Gly Gly Lys Asn Gly

1055 1060 1065

Val Asp Lys Lys Lys Arg Glu Ser Ser Ala Gln Asp Thr Leu Trp

1070 1075 1080

Gly Gly Ala Phe Ser Lys Lys Glu Glu Gln Gln Ile Ala Phe Glu

1085 1090 1095

Val Gln Ala Ala Gly Ser Ser Gln Phe Cys Leu Lys Cys Gly Trp

1100 1105 1110

Trp Phe Gln Leu Gly Met Arg Glu Val Asn Arg Val Gln Glu Ser

1115 1120 1125

Gly Val Val Leu Asp Trp Asn Arg Ser Ile Val Thr Phe Leu Ile

1130 1135 1140

Glu Ser Ser Gly Glu Lys Val Tyr Gly Phe Ser Pro Gln Gln Leu

1145 1150 1155

Glu Lys Gly Phe Arg Pro Asp Ile Glu Thr Phe Lys Lys Met Val

1160 1165 1170

Arg Asp Phe Met Arg Pro Pro Met Phe Asp Arg Lys Gly Arg Pro

1175 1180 1185

Ala Ala Ala Tyr Glu Arg Phe Val Leu Gly Arg Arg His Arg Arg

1190 1195 1200

Tyr Arg Phe Asp Lys Val Phe Glu Glu Arg Phe Gly Arg Ser Ala

1205 1210 1215

Leu Phe Ile Cys Pro Arg Val Gly Cys Gly Asn Phe Asp His Ser

1220 1225 1230

Ser Glu Gln Ser Ala Val Val Leu Ala Leu Ile Gly Tyr Ile Ala

1235 1240 1245

Asp Lys Glu Gly Met Ser Gly Lys Lys Leu Val Tyr Val Arg Leu

1250 1255 1260

Ala Glu Leu Met Ala Glu Trp Lys Leu Lys Lys Leu Glu Arg Ser

1265 1270 1275

Arg Val Glu Glu Gln Ser Ser Ala Gln

1280 1285

<210> 6

<211> 1192

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 6

Met Ala Glu Ser Lys Gln Met Gln Cys Arg Lys Cys Gly Ala Ser Met

1 5 10 15

Lys Tyr Glu Val Ile Gly Leu Gly Lys Lys Ser Cys Arg Tyr Met Cys

20 25 30

Pro Asp Cys Gly Asn His Thr Ser Ala Arg Lys Ile Gln Asn Lys Lys

35 40 45

Lys Arg Asp Lys Lys Tyr Gly Ser Ala Ser Lys Ala Gln Ser Gln Arg

50 55 60

Ile Ala Val Ala Gly Ala Leu Tyr Pro Asp Lys Lys Val Gln Thr Ile

65 70 75 80

Lys Thr Tyr Lys Tyr Pro Ala Asp Leu Asn Gly Glu Val His Asp Ser

85 90 95

Gly Val Ala Glu Lys Ile Ala Gln Ala Ile Gln Glu Asp Glu Ile Gly

100 105 110

Leu Leu Gly Pro Ser Ser Glu Tyr Ala Cys Trp Ile Ala Ser Gln Lys

115 120 125

Gln Ser Glu Pro Tyr Ser Val Val Asp Phe Trp Phe Asp Ala Val Cys

130 135 140

Ala Gly Gly Val Phe Ala Tyr Ser Gly Ala Arg Leu Leu Ser Thr Val

145 150 155 160

Leu Gln Leu Ser Gly Glu Glu Ser Val Leu Arg Ala Ala Leu Ala Ser

165 170 175

Ser Pro Phe Val Asp Asp Ile Asn Leu Ala Gln Ala Glu Lys Phe Leu

180 185 190

Ala Val Ser Arg Arg Thr Gly Gln Asp Lys Leu Gly Lys Arg Ile Gly

195 200 205

Glu Cys Phe Ala Glu Gly Arg Leu Glu Ala Leu Gly Ile Lys Asp Arg

210 215 220

Met Arg Glu Phe Val Gln Ala Ile Asp Val Ala Gln Thr Ala Gly Gln

225 230 235 240

Arg Phe Ala Ala Lys Leu Lys Ile Phe Gly Ile Ser Gln Met Pro Glu

245 250 255

Ala Lys Gln Trp Asn Asn Asp Ser Gly Leu Thr Val Cys Ile Leu Pro

260 265 270

Asp Tyr Tyr Val Pro Glu Glu Asn Arg Ala Asp Gln Leu Val Val Leu

275 280 285

Leu Arg Arg Leu Arg Glu Ile Ala Tyr Cys Met Gly Ile Glu Asp Glu

290 295 300

Ala Gly Phe Glu His Leu Gly Ile Asp Pro Gly Ala Leu Ser Asn Phe

305 310 315 320

Ser Asn Gly Asn Pro Lys Arg Gly Phe Leu Gly Arg Leu Leu Asn Asn

325 330 335

Asp Ile Ile Ala Leu Ala Asn Asn Met Ser Ala Met Thr Pro Tyr Trp

340 345 350

Glu Gly Arg Lys Gly Glu Leu Ile Glu Arg Leu Ala Trp Leu Lys His

355 360 365

Arg Ala Glu Gly Leu Tyr Leu Lys Glu Pro His Phe Gly Asn Ser Trp

370 375 380

Ala Asp His Arg Ser Arg Ile Phe Ser Arg Ile Ala Gly Trp Leu Ser

385 390 395 400

Gly Cys Ala Gly Lys Leu Lys Ile Ala Lys Asp Gln Ile Ser Gly Val

405 410 415

Arg Thr Asp Leu Phe Leu Leu Lys Arg Leu Leu Asp Ala Val Pro Gln

420 425 430

Ser Ala Pro Ser Pro Asp Phe Ile Ala Ser Ile Ser Ala Leu Asp Arg

435 440 445

Phe Leu Glu Ala Ala Glu Ser Ser Gln Asp Pro Ala Glu Gln Val Arg

450 455 460

Ala Leu Tyr Ala Phe His Leu Asn Ala Pro Ala Val Arg Ser Ile Ala

465 470 475 480

Asn Lys Ala Val Gln Arg Ser Asp Ser Gln Glu Trp Leu Ile Lys Glu

485 490 495

Leu Asp Ala Val Asp His Leu Glu Phe Asn Lys Ala Phe Pro Phe Phe

500 505 510

Ser Asp Thr Gly Lys Lys Lys Lys Lys Gly Ala Asn Ser Asn Gly Ala

515 520 525

Pro Ser Glu Glu Glu Tyr Thr Glu Thr Glu Ser Ile Gln Gln Pro Glu

530 535 540

Asp Ala Glu Gln Glu Val Asn Gly Gln Glu Gly Asn Gly Ala Ser Lys

545 550 555 560

Asn Gln Lys Lys Phe Gln Arg Ile Pro Arg Phe Phe Gly Glu Gly Ser

565 570 575

Arg Ser Glu Tyr Arg Ile Leu Thr Glu Ala Pro Gln Tyr Phe Asp Met

580 585 590

Phe Cys Asn Asn Met Arg Ala Ile Phe Met Gln Leu Glu Ser Gln Pro

595 600 605

Arg Lys Ala Pro Arg Asp Phe Lys Cys Phe Leu Gln Asn Arg Leu Gln

610 615 620

Lys Leu Tyr Lys Gln Thr Phe Leu Asn Ala Arg Ser Asn Lys Cys Arg

625 630 635 640

Ala Leu Leu Glu Ser Val Leu Ile Ser Trp Gly Glu Phe Tyr Thr Tyr

645 650 655

Gly Ala Asn Glu Lys Lys Phe Arg Leu Arg His Glu Ala Ser Glu Arg

660 665 670

Ser Ser Asp Pro Asp Tyr Val Val Gln Gln Ala Leu Glu Ile Ala Arg

675 680 685

Arg Leu Phe Leu Phe Gly Phe Glu Trp Arg Asp Cys Ser Ala Gly Glu

690 695 700

Arg Val Asp Leu Val Glu Ile His Lys Lys Ala Ile Ser Phe Leu Leu

705 710 715 720

Ala Ile Thr Gln Ala Glu Val Ser Val Gly Ser Tyr Asn Trp Leu Gly

725 730 735

Asn Ser Thr Val Ser Arg Tyr Leu Ser Val Ala Gly Thr Asp Thr Leu

740 745 750

Tyr Gly Thr Gln Leu Glu Glu Phe Leu Asn Ala Thr Val Leu Ser Gln

755 760 765

Met Arg Gly Leu Ala Ile Arg Leu Ser Ser Gln Glu Leu Lys Asp Gly

770 775 780

Phe Asp Val Gln Leu Glu Ser Ser Cys Gln Asp Asn Leu Gln His Leu

785 790 795 800

Leu Val Tyr Arg Ala Ser Arg Asp Leu Ala Ala Cys Lys Arg Ala Thr

805 810 815

Cys Pro Ala Glu Leu Asp Pro Lys Ile Leu Val Leu Pro Val Gly Ala

820 825 830

Phe Ile Ala Ser Val Met Lys Met Ile Glu Arg Gly Asp Glu Pro Leu

835 840 845

Ala Gly Ala Tyr Leu Arg His Arg Pro His Ser Phe Gly Trp Gln Ile

850 855 860

Arg Val Arg Gly Val Ala Glu Val Gly Met Asp Gln Gly Thr Ala Leu

865 870 875 880

Ala Phe Gln Lys Pro Thr Glu Ser Glu Pro Phe Lys Ile Lys Pro Phe

885 890 895

Ser Ala Gln Tyr Gly Pro Val Leu Trp Leu Asn Ser Ser Ser Tyr Ser

900 905 910

Gln Ser Gln Tyr Leu Asp Gly Phe Leu Ser Gln Pro Lys Asn Trp Ser

915 920 925

Met Arg Val Leu Pro Gln Ala Gly Ser Val Arg Val Glu Gln Arg Val

930 935 940

Ala Leu Ile Trp Asn Leu Gln Ala Gly Lys Met Arg Leu Glu Arg Ser

945 950 955 960

Gly Ala Arg Ala Phe Phe Met Pro Val Pro Phe Ser Phe Arg Pro Ser

965 970 975

Gly Ser Gly Asp Glu Ala Val Leu Ala Pro Asn Arg Tyr Leu Gly Leu

980 985 990

Phe Pro His Ser Gly Gly Ile Glu Tyr Ala Val Val Asp Val Leu Asp

995 1000 1005

Ser Ala Gly Phe Lys Ile Leu Glu Arg Gly Thr Ile Ala Val Asn

1010 1015 1020

Gly Phe Ser Gln Lys Arg Gly Glu Arg Gln Glu Glu Ala His Arg

1025 1030 1035

Glu Lys Gln Arg Arg Gly Ile Ser Asp Ile Gly Arg Lys Lys Pro

1040 1045 1050

Val Gln Ala Glu Val Asp Ala Ala Asn Glu Leu His Arg Lys Tyr

1055 1060 1065

Thr Asp Val Ala Thr Arg Leu Gly Cys Arg Ile Val Val Gln Trp

1070 1075 1080

Ala Pro Gln Pro Lys Pro Gly Thr Ala Pro Thr Ala Gln Thr Val

1085 1090 1095

Tyr Ala Arg Ala Val Arg Thr Glu Ala Pro Arg Ser Gly Asn Gln

1100 1105 1110

Glu Asp His Ala Arg Met Lys Ser Ser Trp Gly Tyr Thr Trp Gly

1115 1120 1125

Thr Tyr Trp Glu Lys Arg Lys Pro Glu Asp Ile Leu Gly Ile Ser

1130 1135 1140

Thr Gln Val Tyr Trp Thr Gly Gly Ile Gly Glu Ser Cys Pro Ala

1145 1150 1155

Val Ala Val Ala Leu Leu Gly His Ile Arg Ala Thr Ser Thr Gln

1160 1165 1170

Thr Glu Trp Glu Lys Glu Glu Val Val Phe Gly Arg Leu Lys Lys

1175 1180 1185

Phe Phe Pro Ser

1190

<210> 7

<211> 1192

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 7

Met Ala Glu Ser Lys Gln Met Gln Cys Arg Lys Cys Gly Ala Ser Met

1 5 10 15

Lys Tyr Glu Val Ile Gly Leu Gly Lys Lys Ser Cys Arg Tyr Met Cys

20 25 30

Pro Asp Cys Gly Asn His Thr Ser Ala Arg Lys Ile Gln Asn Lys Lys

35 40 45

Lys Arg Asp Lys Lys Tyr Gly Ser Ala Ser Lys Ala Gln Ser Gln Arg

50 55 60

Ile Ala Val Ala Gly Ala Leu Tyr Pro Asp Lys Lys Val Gln Thr Ile

65 70 75 80

Lys Thr Tyr Lys Tyr Pro Ala Asp Leu Asn Gly Glu Val His Asp Arg

85 90 95

Gly Val Ala Glu Lys Ile Glu Gln Ala Ile Gln Glu Asp Glu Ile Gly

100 105 110

Leu Leu Gly Pro Ser Ser Glu Tyr Ala Cys Trp Ile Ala Ser Gln Lys

115 120 125

Gln Ser Glu Pro Tyr Ser Val Val Asp Phe Trp Phe Asp Ala Val Cys

130 135 140

Ala Gly Gly Val Phe Ala Tyr Ser Gly Ala Arg Leu Leu Ser Thr Val

145 150 155 160

Leu Gln Leu Ser Gly Glu Glu Ser Val Leu Arg Ala Ala Leu Ala Ser

165 170 175

Ser Pro Phe Val Asp Asp Ile Asn Leu Ala Gln Ala Glu Lys Phe Leu

180 185 190

Ala Val Ser Arg Arg Thr Gly Gln Asp Lys Leu Gly Lys Arg Ile Gly

195 200 205

Glu Cys Phe Ala Glu Gly Arg Leu Glu Ala Leu Gly Ile Lys Asp Arg

210 215 220

Met Arg Glu Phe Val Gln Ala Ile Asp Val Ala Gln Thr Ala Gly Gln

225 230 235 240

Arg Phe Ala Ala Lys Leu Lys Ile Phe Gly Ile Ser Gln Met Pro Glu

245 250 255

Ala Lys Gln Trp Asn Asn Asp Ser Gly Leu Thr Val Cys Ile Leu Pro

260 265 270

Asp Tyr Tyr Val Pro Glu Glu Asn Arg Ala Asp Gln Leu Val Val Leu

275 280 285

Leu Arg Arg Leu Arg Glu Ile Ala Tyr Cys Met Gly Ile Glu Asp Glu

290 295 300

Ala Gly Phe Glu His Leu Gly Ile Asp Pro Gly Ala Leu Ser Asn Phe

305 310 315 320

Ser Asn Gly Asn Pro Lys Arg Gly Phe Leu Gly Arg Leu Leu Asn Asn

325 330 335

Asp Ile Ile Ala Leu Ala Asn Asn Met Ser Ala Met Thr Pro Tyr Trp

340 345 350

Glu Gly Arg Lys Gly Glu Leu Ile Glu Arg Leu Ala Trp Leu Lys His

355 360 365

Arg Ala Glu Gly Leu Tyr Leu Lys Glu Pro His Phe Gly Asn Ser Trp

370 375 380

Ala Asp His Arg Ser Arg Ile Phe Ser Arg Ile Ala Gly Trp Leu Ser

385 390 395 400

Gly Cys Ala Gly Lys Leu Lys Ile Ala Lys Asp Gln Ile Ser Gly Val

405 410 415

Arg Thr Asp Leu Phe Leu Leu Lys Arg Leu Leu Asp Ala Val Pro Gln

420 425 430

Ser Ala Pro Ser Pro Asp Phe Ile Ala Ser Ile Ser Ala Leu Asp Arg

435 440 445

Phe Leu Glu Ala Ala Glu Ser Ser Gln Asp Pro Ala Glu Gln Val Arg

450 455 460

Ala Leu Tyr Ala Phe His Leu Asn Ala Pro Ala Val Arg Ser Ile Ala

465 470 475 480

Asn Lys Ala Val Gln Arg Ser Asp Ser Gln Glu Trp Leu Ile Lys Glu

485 490 495

Leu Asp Ala Val Asp His Leu Glu Phe Asn Lys Ala Phe Pro Phe Phe

500 505 510

Ser Asp Thr Gly Lys Lys Lys Lys Lys Gly Ala Asn Ser Asn Gly Ala

515 520 525

Pro Ser Glu Glu Glu Tyr Thr Glu Thr Glu Ser Ile Gln Gln Pro Glu

530 535 540

Asp Ala Glu Gln Glu Val Asn Gly Gln Glu Gly Asn Gly Ala Ser Lys

545 550 555 560

Asn Gln Lys Lys Phe Gln Arg Ile Pro Arg Phe Phe Gly Glu Gly Ser

565 570 575

Arg Ser Glu Tyr Arg Ile Leu Thr Glu Ala Pro Gln Tyr Phe Asp Met

580 585 590

Phe Cys Asn Asn Met Arg Ala Ile Phe Met Gln Leu Glu Ser Gln Pro

595 600 605

Arg Lys Ala Pro Arg Asp Phe Lys Cys Phe Leu Gln Asn Arg Leu Gln

610 615 620

Lys Leu Tyr Lys Gln Thr Phe Leu Asn Ala Arg Ser Asn Lys Cys Arg

625 630 635 640

Ala Leu Leu Glu Ser Val Leu Ile Ser Trp Gly Glu Phe Tyr Thr Tyr

645 650 655

Gly Ala Asn Glu Lys Lys Phe Arg Leu Arg His Glu Ala Ser Glu Arg

660 665 670

Ser Ser Asp Pro Asp Tyr Val Val Gln Gln Ala Leu Glu Ile Ala Arg

675 680 685

Arg Leu Phe Leu Phe Gly Phe Glu Trp Arg Asp Cys Ser Ala Gly Glu

690 695 700

Arg Val Asp Leu Val Glu Ile His Lys Lys Ala Ile Ser Phe Leu Leu

705 710 715 720

Ala Ile Thr Gln Ala Glu Val Ser Val Gly Ser Tyr Asn Trp Leu Gly

725 730 735

Asn Ser Thr Val Ser Arg Tyr Leu Ser Val Ala Gly Thr Asp Thr Leu

740 745 750

Tyr Gly Thr Gln Leu Glu Glu Phe Leu Asn Ala Thr Val Leu Ser Gln

755 760 765

Met Arg Gly Leu Ala Ile Arg Leu Ser Ser Gln Glu Leu Lys Asp Gly

770 775 780

Phe Asp Val Gln Leu Glu Ser Ser Cys Gln Asp Asn Leu Gln His Leu

785 790 795 800

Leu Val Tyr Arg Ala Ser Arg Asp Leu Ala Ala Cys Lys Arg Ala Thr

805 810 815

Cys Pro Ala Glu Leu Asp Pro Lys Ile Leu Val Leu Pro Ala Gly Ala

820 825 830

Phe Ile Ala Ser Val Met Lys Met Ile Glu Arg Gly Asp Glu Pro Leu

835 840 845

Ala Gly Ala Tyr Leu Arg His Arg Pro His Ser Phe Gly Trp Gln Ile

850 855 860

Arg Val Arg Gly Val Ala Glu Val Gly Met Asp Gln Gly Thr Ala Leu

865 870 875 880

Ala Phe Gln Lys Pro Thr Glu Ser Glu Pro Phe Lys Ile Lys Pro Phe

885 890 895

Ser Ala Gln Tyr Gly Pro Val Leu Trp Leu Asn Ser Ser Ser Tyr Ser

900 905 910

Gln Ser Gln Tyr Leu Asp Gly Phe Leu Ser Gln Pro Lys Asn Trp Ser

915 920 925

Met Arg Val Leu Pro Gln Ala Gly Ser Val Arg Val Glu Gln Arg Val

930 935 940

Ala Leu Ile Trp Asn Leu Gln Ala Gly Lys Met Arg Leu Glu Arg Ser

945 950 955 960

Gly Ala Arg Ala Phe Phe Met Pro Val Pro Phe Ser Phe Arg Pro Ser

965 970 975

Gly Ser Gly Asp Glu Ala Val Leu Ala Pro Asn Arg Tyr Leu Gly Leu

980 985 990

Phe Pro His Ser Gly Gly Ile Glu Tyr Ala Val Val Asp Val Leu Asp

995 1000 1005

Ser Ala Gly Phe Lys Ile Leu Glu Arg Gly Thr Ile Ala Val Asn

1010 1015 1020

Gly Phe Ser Gln Lys Arg Gly Glu Arg Gln Glu Glu Ala His Arg

1025 1030 1035

Glu Lys Gln Arg Arg Gly Ile Ser Asp Ile Gly Arg Lys Lys Pro

1040 1045 1050

Val Gln Ala Glu Val Asp Ala Ala Asn Glu Leu His Arg Lys Tyr

1055 1060 1065

Thr Asp Val Ala Thr Arg Leu Gly Cys Arg Ile Val Val Gln Trp

1070 1075 1080

Ala Pro Gln Pro Lys Pro Gly Thr Ala Pro Thr Ala Gln Thr Val

1085 1090 1095

Tyr Ala Arg Ala Val Arg Thr Glu Ala Pro Arg Ser Gly Asn Gln

1100 1105 1110

Glu Asp His Ala Arg Met Lys Ser Ser Trp Gly Tyr Thr Trp Ser

1115 1120 1125

Thr Tyr Trp Glu Lys Arg Lys Pro Glu Asp Ile Leu Gly Ile Ser

1130 1135 1140

Thr Gln Val Tyr Trp Thr Gly Gly Ile Gly Glu Ser Cys Pro Ala

1145 1150 1155

Val Ala Val Ala Leu Leu Gly His Ile Arg Ala Thr Ser Thr Gln

1160 1165 1170

Thr Glu Trp Glu Lys Glu Glu Val Val Phe Gly Arg Leu Lys Lys

1175 1180 1185

Phe Phe Pro Ser

1190

<210> 8

<211> 1193

<212> PRT

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 8

Met Lys Arg Ile Ala Lys Phe Arg His Asp Lys Pro Val Lys Arg Glu

1 5 10 15

Ala Trp Ser Lys Gly Tyr Arg Val His Lys Asn Arg Ile Ile Asn Lys

20 25 30

Val Thr Arg Ser Ile Lys Tyr Pro Leu Val Val Lys Asp Glu Trp Lys

35 40 45

Lys Arg Leu Ile Asp Asp Ala Ala His Asp Tyr Arg Trp Leu Val Gly

50 55 60

Pro Ile Asn Tyr Ser Asp Trp Cys Arg Asp Pro Asn Gln Tyr Ser Ile

65 70 75 80

Leu Glu Phe Trp Ile Asp Phe Leu Cys Val Gly Gly Val Phe Gln Ser

85 90 95

Ser His Ser Asn Ile Cys Arg Leu Ala Ile Gln Leu Ser Gly Gly Ser

100 105 110

Val Phe Glu Gln Glu Trp Lys Asp Leu Ser Pro Phe Val Arg Ala Asn

115 120 125

Leu Ile Gln Gly Ile Lys Pro Ala Glu Phe Ile Gly Phe Leu Thr Ala

130 135 140

Glu Phe Arg Ser Ser Ser Asn Pro Lys Asn Phe Ile Ser Lys Phe Phe

145 150 155 160

Glu Gly Ser Asn Glu Asp Leu Glu Ser Leu Thr Asn Glu Phe Ala Ser

165 170 175

Ile Val Asp Phe Ile Lys Ala Lys Asp Ile Ser Leu Leu Arg Lys Ser

180 185 190

Leu Pro Ser Cys Lys Lys Ile Ala Pro Asn Leu Trp Glu Lys Ala Val

195 200 205

Gly Ser His Ser Thr Asn Glu Leu Leu Lys Leu Leu Thr Lys Tyr Thr

210 215 220

Arg Val Met Leu Val Ala Glu Pro Ser His Ser Asp Arg Val Phe Ser

225 230 235 240

Gln Thr Val Leu Gln Ser Asn Asp Gln Asp Asp Pro Glu Leu Thr Gly

245 250 255

Pro Leu Pro Ser His Lys Val Gly Lys Ala Ser Tyr Leu Phe Ile Pro

260 265 270

Glu Phe Ile Arg Glu Val Asn Leu Asp Lys Ile Ser Lys Leu Asp Leu

275 280 285

Ser Ala Lys Ser Lys Leu Ala Val Glu Gln Val Lys Lys Leu Ser Glu

290 295 300

Leu Thr Ser Asp Phe Lys Gln Ile Glu Asn Gln Ser Glu Ala Tyr Phe

305 310 315 320

Gly Leu Ser Thr Ser Phe Asn Glu Leu Ser Asn Phe Leu Gly Ile Leu

325 330 335

Ile Arg Thr Leu Arg Asn Ala Pro Glu Ala Ile Leu Lys Asp Gln Ile

340 345 350

Ala Leu Cys Ala Pro Leu Asp Lys Asp Ile Leu Lys Ile Thr Leu Asp

355 360 365

Trp Leu Cys Asp Arg Ala Gln Ala Leu Pro Glu Asn Pro Arg Phe Glu

370 375 380

Thr Asn Trp Ala Glu Tyr Arg Ser Tyr Leu Gly Gly Lys Ile Lys Ser

385 390 395 400

Trp Phe Ser Asn Tyr Glu Asn Phe Phe Glu Ile Pro Gln Ala Ala Ser

405 410 415

Ser Gln Gln Asn Asn Asn Arg Glu Lys Lys Leu Gly Asn Arg Ser Ala

420 425 430

Ile Arg Ala Leu Asn Leu Lys Lys Glu Ala Phe Glu Lys Ala Arg Glu

435 440 445

Thr Phe Lys Gly Asp Lys Gly Thr Leu Glu Lys Ile Asp Leu Ala Tyr

450 455 460

Arg Leu Leu Gly Ser Ile Ser Pro Glu Val Leu Gln Cys Asp Glu Gly

465 470 475 480

Leu Lys Leu Tyr Gln Gln Phe Asn Asp Glu Leu Leu Val Leu Asn Glu

485 490 495

Thr Ile Asn Gln Lys Phe Gln Asp Ala Lys Arg Asp Ile Lys Ala Lys

500 505 510

Lys Glu Lys Glu Ser Phe Glu Lys Leu Gln Arg Asn Leu Ser Ser Pro

515 520 525

Leu Pro Arg Ile Pro Glu Phe Phe Gly Glu Arg Ala Lys Lys Gly Tyr

530 535 540

Gln Lys Ala Arg Val Ser Pro Lys Leu Ala Arg His Leu Leu Glu Cys

545 550 555 560

Leu Asn Asp Trp Leu Ala Arg Phe Ala Lys Val Glu Glu Ser Ala Phe

565 570 575

Ser Glu Lys Glu Phe Gln Arg Ile Leu Asp Trp Leu Arg Thr Ser Asp

580 585 590

Phe Leu Pro Val Phe Ile Arg Lys Ser Lys Asp Pro Pro Ser Trp Leu

595 600 605

Arg Tyr Ile Ala Arg Val Ala Thr Gly Lys Tyr Tyr Phe Trp Val Ser

610 615 620

Glu Tyr Ser Arg Lys Arg Val Gln Ile Ile Asp Lys Pro Ile Ala Gln

625 630 635 640

Asn Pro Leu Lys Glu Leu Ile Ser Trp Phe Leu Leu Asn Lys Asp Ala

645 650 655

Phe Ser Arg Asp Asn Glu Leu Phe Lys Gly Leu Ser Ser Lys Met Val

660 665 670

Thr Leu Ala Arg Ile Met Ala Gly Ile Leu Arg Asp Arg Gly Glu Gly

675 680 685

Leu Lys Glu Leu Gln Ala Met Thr Ser Lys Leu Asp Asn Ile Gly Leu

690 695 700

Leu His Pro Ser Phe Ser Val Pro Val Thr Asp Ser Leu Lys Asp Ala

705 710 715 720

Ala Phe Tyr Arg Ala Phe Phe Ser Glu Leu Glu Gly Leu Leu Asn Ile

725 730 735

Gly Arg Ser Arg Leu Ile Ile Glu Arg Ile Thr Leu Gln Ser Gln Gln

740 745 750

Ser Lys Asn Lys Lys Thr Arg Arg Pro Leu Met Pro Glu Pro Phe Ile

755 760 765

Asn Glu Asp Lys Glu Val Phe Leu Ala Phe Pro Lys Phe Glu Thr Lys

770 775 780

Asn Lys Val Lys Gly Thr Arg Val Val Tyr Asn Ser Pro Asp Glu Val

785 790 795 800

Asn Trp Leu Leu Ser Pro Ile Arg Ser Ser Lys Gly Gln Leu Ser Phe

805 810 815

Met Phe Arg Cys Leu Ser Glu Asp Ala Lys Ile Met Thr Thr Ser Gly

820 825 830

Gly Cys Ser Tyr Ile Val Glu Phe Lys Lys Leu Leu Glu Ala Gln Glu

835 840 845

Glu Val Leu Ser Ile His Asp Cys Asp Ile Ile Pro Arg Ala Phe Val

850 855 860

Ser Ile Pro Phe Thr Leu Glu Arg Glu Ser Glu Glu Thr Lys Pro Asp

865 870 875 880

Trp Lys Pro Asn Arg Phe Met Gly Val Asp Ile Gly Glu Tyr Ala Val

885 890 895

Ala Tyr Cys Val Ile Glu Lys Gly Thr Asp Ser Ile Glu Ile Leu Asp

900 905 910

Cys Gly Ile Val Arg Asn Gly Ala His Arg Val Leu Lys Glu Lys Val

915 920 925

Asp Arg Leu Lys Arg Arg Gln Arg Ser Met Thr Phe Gly Ala Met Asp

930 935 940

Thr Ser Ile Ala Ala Ala Arg Glu Ser Leu Val Gly Asn Tyr Arg Asn

945 950 955 960

Arg Leu His Ala Ile Ala Leu Lys His Gly Ala Lys Leu Val Tyr Glu

965 970 975

Tyr Glu Val Ser Ala Phe Glu Ser Gly Gly Asn Arg Ile Lys Lys Val

980 985 990

Tyr Glu Thr Leu Lys Lys Ser Asp Cys Thr Gly Glu Thr Glu Ala Asp

995 1000 1005

Lys Asn Ala Arg Lys His Ile Trp Gly Glu Thr Asn Ala Val Gly

1010 1015 1020

Asp Gln Ile Gly Ala Gly Trp Thr Ser Gln Thr Cys Ala Lys Cys

1025 1030 1035

Gly Arg Ser Phe Gly Ala Asp Leu Lys Ala Gly Asn Phe Gly Val

1040 1045 1050

Ala Val Pro Val Pro Glu Lys Val Glu Asp Ser Lys Gly His Tyr

1055 1060 1065

Ala Tyr His Glu Phe Pro Phe Glu Asp Gly Leu Lys Val Arg Gly

1070 1075 1080

Phe Leu Lys Pro Asn Lys Ile Ile Ser Asp Gln Lys Glu Leu Ala

1085 1090 1095

Lys Ala Val His Ala Tyr Met Arg Pro Pro Leu Val Ala Leu Gly

1100 1105 1110

Lys Arg Lys Leu Pro Lys Asn Ala Arg Tyr Arg Arg Gly Asn Ser

1115 1120 1125

Ser Leu Phe Arg Cys Pro Phe Ser Asp Cys Gly Phe Thr Ala Asp

1130 1135 1140

Ala Asp Ile Gln Ala Ala Tyr Asn Ile Ala Val Lys Gln Leu Tyr

1145 1150 1155

Lys Pro Lys Lys Gly Tyr Pro Lys Glu Arg Lys Trp Gln Asp Phe

1160 1165 1170

Val Ile Leu Lys Pro Lys Glu Pro Ser Lys Leu Phe Asp Lys Gln

1175 1180 1185

Phe Tyr Arg Pro Asn

1190

<210> 9

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 9

Ala Ala Ala Ala

1

<210> 10

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 10

Ala Ala Ala Ala

1

<210> 11

<211> 25

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 11

cuccgaaagu aucggggaua aaggc 25

<210> 12

<211> 25

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 12

caccgaaauu uggagaggau aaggc 25

<210> 13

<211> 25

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 13

cuccgaauua ucgggaggau aaggc 25

<210> 14

<211> 25

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 14

ccccgaauau aggggacaaa aaggc 25

<210> 15

<211> 36

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 15

gucuagacau acagguggaa aggugagagu aaagac 36

<210> 16

<211> 25

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 16

cuccgugaau acguggggua aaggc 25

<210> 17

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 17

aaaaaaaaaa 10

<210> 18

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 18

aaaaaaaaaa 10

<210> 19

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 19

aaaaaaaaaa 10

<210> 20

<211> 43

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 20

cuccgaaagu aucggggaua aaggcaucaa uaccaaacuc ugg 43

<210> 21

<211> 6430

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 21

ttaaaaggac agtttctaat agcatataat cattatagca ttacatacgg aaaactactt 60

caaatttgcg gcagatcgga ttttgctggc ccagagatat attttccttc tttgttaaaa 120

gcggatttat ggcaagggca gagccagttt ttatttttat cttcccattc aacgatgcat 180

ccaagatgtg ggcaaattgg agagagtttt aaaatttctc ctttttcatt tttgtatacg 240

gcaactttct ttccttctat ctcaacaatt tttcctgtgt tgttttttaa attgtctaaa 300

gtacccgaag ttttcataaa gcgccccttc ataaaaagat aaggaaaaag aaatatttgt 360

tttaataatg ttaacatata gcttgttgaa ttataacatt tatccgagag gtggtctaac 420

ttatgcaact tattgattct tactttagga gaatagttct actctaggcg tatagagaac 480

ttttgttgaa aggtttttgc aatatctcta ctttctggcc aaaaatcggt ttttcccgcg 540

aatctgccgt atagtttgta tcctgcttta acaggtctgc ctccgctagg ttttcccggg 600

aaaggtacta taaatctctt atttcctaag agataagagc gcaaaccgag aattaagcca 660

tgatagagtt cctgaaaagt agcagtttgg cgagttgctg caacataaat ttctgtatcc 720

atgaaatcct ttaggttttc cattgtatag ggaagtgttt tactttcatc cccaccgttt 780

tcttgtatct cttttattgt attaaaggcg actccgtcga taaaacctct atatggttcc 840

atcaaatcgt agattagaga ggggtaatct gaaggtgtgt gggtgtatcc gtgaaaagga 900

ctaaaatgat ggtaaaccac ccaacgcaag ataataccgc taacaaattt tgaagaagca 960

tctaaaacat tacagataaa attacctttt gatcgtcgcc tatctttagg atatcccaaa 1020

gacttgtaga aatgttccca atatcttttg gcatgccacg attccactcc aactatagac 1080

tccacggacg ataagccctg cagttcctgc gttggggctg ggattaacca ttccatggat 1140

ttgaatttag cgtaaatcaa tcttttcgtt atatatgcgc gtttcttttc attttgtctg 1200

aatagaatct gttttgttag taaatcttct ctattagatg ttgtagaagg aacgatccaa 1260

acaccgcggg gcatatttcg tcgatgtatt gttaaaggaa tgccccaagc actgcatttt 1320

tctagaaatt cttgttctag cggacaaacg ctaccataaa acatgataga gtgaatctct 1380

ggaaaggaca aatccagctc accacctttg taagagaatt taacactctt tcccgataag 1440

tctatggatt ttacataggg taaccagata aattgtttac gcttggcgaa atatctcctc 1500

atttcgtatt ggatatatgt ctcaaattat gctatattta aggtacattt tcaagcggtt 1560

tttagctcgt ttacatttta atatcaacaa aatcggggag aagtctccga aagtatcggg 1620

gataaaggca tcaataccaa actctggctc cgaaagtatc ggggataaag gcattcccaa 1680

tatctcatta ctccgaaagt atcggggata aaggctcctc ccgtatctgt caactccgaa 1740

agtatcgggg ataaaggctt aaaaaggaat accccactcc gaaagtatcg gggataaagg 1800

cttgtactcc acatccgcta ctccgaaagt atcggggata aaggcactga aacttgaatt 1860

gtactccgaa agtatcgggg ataaaggcat cttgcgactt tctcttctcc gaaagtatcg 1920

gggataaagg ctcttcggtt ggtacgggtt ctccgaaagt atcggggata aaggcttatg 1980

gcagtatcgc atactccgaa agtatcgggg ataaaggctt cataagtacg cctaaactcc 2040

gaaagtatcg gggataaagg cagatgaggc tatacttaac tccgaaagta tcggggataa 2100

aggcacaaac ataaagggaa aactccgaaa gtatcgggga taaaggcata aatctggtga 2160

acttactccg aaagtatcgg ggataaaggc tactgttatt gttgtacact ccgaaagtat 2220

cggggataaa ggcataacta gcgttcccat tctccgaaag tatcaaaata aaaagggttt 2280

ccagttttta actaaacttt agccttccac cctttcctga ttttgttgat aattaataat 2340

gcgcaaaaaa ttgtttaagg gttacatttt acataataag aggcttgtat atacaggtaa 2400

agctgcaata cgttctatta aatatccatt agtcgctcca aataaaacag ccttaaacaa 2460

tttatcagaa aagataattt atgattatga gcatttattc ggacctttaa atgtggctag 2520

ctatgcaaga aattcaaaca ggtacagcct tgtggatttt tggatagata gcttgcgagc 2580

aggtgtaatt tggcaaagca aaagtacttc gctaattgat ttgataagta agctagaagg 2640

atctaaatcc ccatcagaaa agatatttga acaaatagat tttgagctaa aaaataagtt 2700

ggataaagag caattcaaag atattattct tcttaataca ggaattcgtt ctagcagtaa 2760

tgttcgcagt ttgagggggc gctttctaaa gtgttttaaa gaggaattta gagataccga 2820

agaggttatc gcctgtgtag ataaatggag caaggacctt atcgtagagg gtaaaagtat 2880

actagtgagt aaacagtttc tttattggga agaagagttt ggtattaaaa tttttcctca 2940

ttttaaagat aatcacgatt taccaaaact aacttttttt gtggagcctt ccttggaatt 3000

tagtccgcac ctccctttag ccaactgtct tgagcgtttg aaaaaattcg atatttcgcg 3060

tgaaagtttg ctcgggttag acaataattt ttcggccttt tctaattatt tcaatgagct 3120

ttttaactta ttgtccaggg gggagattaa aaagattgta acagctgtcc ttgctgtttc 3180

taaatcgtgg gagaatgagc cagaattgga aaagcgctta cattttttga gtgagaaggc 3240

aaagttatta gggtacccta agcttacttc ttcgtgggcg gattatagaa tgattattgg 3300

cggaaaaatt aaatcttggc attctaacta taccgaacaa ttaataaaag ttagagagga 3360

cttaaagaaa catcaaatcg cccttgataa attacaggaa gatttaaaaa aagtagtaga 3420

tagctcttta agagaacaaa tagaagctca acgagaagct ttgcttcctt tgcttgatac 3480

catgttaaaa gaaaaagatt tttccgatga tttagagctt tacagattta tcttgtcaga 3540

ttttaagagt ttgttaaatg ggtcttatca aagatatatt caaacagaag aggagagaaa 3600

ggaggacaga gatgttacca aaaaatataa agatttatat agtaatttgc gcaacatacc 3660

tagatttttt ggggaaagta aaaaggaaca attcaataaa tttataaata aatctctccc 3720

gaccatagat gttggtttaa aaatacttga ggatattcgt aatgctctag aaactgtaag 3780

tgttcgcaaa cccccttcaa taacagaaga gtatgtaaca aagcaacttg agaagttaag 3840

tagaaagtac aaaattaacg cctttaattc aaacagattt aaacaaataa ctgaacaggt 3900

gctcagaaaa tataataacg gagaactacc aaagatctcg gaggtttttt atagataccc 3960

gagagaatct catgtggcta taagaatatt acctgttaaa ataagcaatc caagaaagga 4020

tatatcttat cttctcgaca aatatcaaat tagccccgac tggaaaaaca gtaacccagg 4080

agaagttgta gatttgatag agatatataa attgacattg ggttggctct tgagttgtaa 4140

caaggatttt tcgatggatt tttcatcgta tgacttgaaa ctcttcccag aagccgcttc 4200

cctcataaaa aattttggct cttgcttgag tggttactat ttaagcaaaa tgatatttaa 4260

ttgcataacc agtgaaataa aggggatgat tactttatat actagagaca agtttgttgt 4320

tagatatgtt acacaaatga taggtagcaa tcagaaattt cctttgttat gtttggtggg 4380

agagaaacag actaaaaact tttctcgcaa ctggggtgta ttgatagaag agaagggaga 4440

tttgggggag gaaaaaaacc aggaaaaatg tttgatattt aaggataaaa cagattttgc 4500

taaagctaaa gaagtagaaa tttttaaaaa taatatttgg cgtatcagaa cctctaagta 4560

ccaaatccaa tttttgaata ggctttttaa gaaaaccaaa gaatgggatt taatgaatct 4620

tgtattgagc gagcctagct tagtattgga ggaggaatgg ggtgtttcgt gggataaaga 4680

taaactttta cctttactga agaaagaaaa atcttgcgaa gaaagattat attactcact 4740

tccccttaac ttggtgcctg ccacagatta taaggagcaa tctgcagaaa tagagcaaag 4800

gaatacatat ttgggtttgg atgttggaga atttggtgtt gcctatgcag tggtaagaat 4860

agtaagggac agaatagagc ttctgtcctg gggattcctt aaggacccag ctcttcgaaa 4920

aataagagag cgtgtacagg atatgaagaa aaagcaggta atggcagtat tttctagctc 4980

ttccacagct gtcgcgcgag tacgagaaat ggctatacac tctttaagaa atcaaattca 5040

tagcattgct ttggcgtata aagcaaagat aatttatgag atatctataa gcaattttga 5100

gacaggtggt aatagaatgg ctaaaatata ccgatctata aaggtttcag atgtttatag 5160

ggagagtggt gcggataccc tagtttcaga gatgatctgg ggcaaaaaga ataagcaaat 5220

gggaaaccat atatcttcct atgcgacaag ttacacttgt tgcaattgtg caagaacccc 5280

ttttgaactt gttatagata atgacaagga atatgaaaag ggaggcgacg aatttatttt 5340

taatgttggc gatgaaaaga aggtaagggg gtttttacaa aagagtctgt taggaaaaac 5400

aattaaaggg aaggaagtgt tgaagtctat aaaagagtac gcaaggccgc ctataaggga 5460

agtcttgctt gaaggagaag atgtagagca gttgttgaag aggagaggaa atagctatat 5520

ttatagatgc cctttttgtg gatataaaac tgatgcggat attcaagcgg cgttgaatat 5580

agcttgtagg ggatatattt cggataacgc aaaggatgct gtgaaggaag gagaaagaaa 5640

attagattac attttggaag ttagaaaatt gtgggagaag aatggagctg ttttgagaag 5700

cgccaaattt ttatagttat attggatata tcttttcaaa aaatctgaat tggtctagga 5760

ccgcggaatc ctatggtaat ttctacgtcc agaatgtagc gccatgccat tagaccagtc 5820

cccgaattaa acatcgccga acttcttggt gatgttatgg caaagagaat gcgacagcgc 5880

ctattcattg agcaagatat ggaaagtatt cctccagggc aaacaatggt tttgaatatg 5940

ggggagcctg ttgtgggaac ggaatttaca catcggcgga atattaatgg gaaagagtgc 6000

gttttatttt ttgcagttga actttttaaa gacgacagcg cgtagtcagt acatcttcgg 6060

cccatcttaa tcttccattg gggttattaa gactgcccac tttagcagca agatttttaa 6120

ggtgactcct taattctttc tcgtgcggag ttagatctat ttttccaaaa tctttatccg 6180

catggtttag gaatatttgt atagagtcta ggggaatttc cttaccgatg tcccccgctg 6240

cggtaacaac tctgtaaaga tccatcttta ttgaatttaa tataaactgt ctgtcttttt 6300

tcatatttct aaatgctttt ttgttaattc aaataaccta cccctcacat tcttatcgta 6360

tatctcatat gtatacttac ctagtgcagg tttgtaattt ctcatagcca tatattcaac 6420

ttcttttgaa 6430

<210> 22

<211> 13819

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 22

ctctttttct tgactatggt catcgcttag cttggcgggg acgtttgatc tttgcttcta 60

gtttaatcct ttttctgtcc ttgttgtttt taatgaatta ccctctaatt tggggtttat 120

tagctttgag tttattggct ttagtgattc taacttggtg gaaaaaggct tggactaaat 180

ggttgttagt cccactgata atttttctgc tggctggcac tctagcgatt tttgcttcaa 240

aacctatttt agctaaacca atttttgatc taaatcaaag tttgaaaatt aatagttttg 300

attcgcgacc taatttagat agcactgctc aagtgactaa agccagtttg aaagctcatc 360

cctttttagg ttttggtcca aatcgttttt ggcgagcttg gactctttat aagccaaaat 420

tatttaatca atcagtaatc tggtcagttg attatcgtct ggcttatggt tttattccaa 480

caatgttagt aactcaaggt ggcctcggtt ttctggcttg gttaattctg ataatttcta 540

gttttattta tctttatcat ttattcaaac aaagttcagt agaagatttt tccacgataa 600

ttttattgag tctaagtttt atttatctct ggttaaattt actcattctt aatcctaatt 660

ttgttatcct ctctctggct tttgggtgct tggggtggtt gttagttttt aatcataaaa 720

tttctaatca gctttcttgg cacattaaat tagatacgtt tctaaaaagt ttagtggcaa 780

aactaggtct tagtattatt ttgggttttt tatttttaat cattattttg tcactgctta 840

attatagttc tttgatctta tttcatcggg gtctttcatc tttggatcgg ggggattttt 900

ccgccaccga aaaaaattgg cgtttagcta gtcgtttgag tcctcagaca gtttataatc 960

gttctttggc tgatcttaaa ctgcgtcaga ttaatcaact tctgacgact cctaattctg 1020

attctcaaaa aactttagcc gagttttccc gtttttatgg tgagtcaatt ggatttggct 1080

tgactgctcg tgaccaagat ccttttgatt atttaaattg gttaatttta ggtcaagttt 1140

atgaagctgg gattccgctt aaaattaaag gggccgatat tcaagctcgg aaaatttatc 1200

aagaagtgct tagattaaac ccggtttggc cagtcatttg gctaaatttg gctcgagtgg 1260

aattaggctc tgatcaccct gatttagcgc gagaagattt acttaaagct ttggaattaa 1320

aagccgatta ttccgatgct ctgttagctt tagccgaatt agattatagt caaggtcgat 1380

tatcaaaagc tttagcggga gctaaggtgg cagttctgaa agaaccaaat aatttgggag 1440

cttggttttc ccttggtttt ttccagtatc aaattggaca ttatgatgaa gctgtcattt 1500

ctttagaaaa agtcttaacc tttaatcaaa attcagctga tactaaatat tttcttggtt 1560

taagtttagc tgaacttgat cgaacgactg aggcgattga cctatttcaa tctttagttc 1620

gggctaatcc cgacaatcaa gagcttaaaa atattttaac taatctcaaa gctggtcgaa 1680

cagctttagc gccaccagag accaaaacca aaacaaaata ataattcatg gtgtctaaaa 1740

ttactcgctt acttcaaaaa gaatttacca atcttcacca agcagctttt ttgttggcta 1800

cttcggcctt gctgtctcaa tttttgggtt tgtggcggga tcgtttatta gcctctggtt 1860

ttggagctag tcatcaatta gatatttatt atacggcttt tcgcttaccg gatttaattt 1920

acgtttcggt ggcttctttt gtttcgatca cggtccatat tcctttgatt attaataaga 1980

tggaaactgg tggtaaaccg gcggtggaaa aatttctcaa ttcagtgctg acagtttttt 2040

taattgggat ggtttcagtt tccgcgttat tatttatttt tatgccctgg ttatcgaaaa 2100

ttaccgctcc cgggttttct tcagttgatc aacaaacctt agtcacctta tctcgaattt 2160

tattgttgtc tcccttattg ttgggtttgt ctaatctctt gggaggagcc actcaagctt 2220

ttcgtaaatt tgccgcctat gcctttagtc ctatttttta taatttggga attatttttg 2280

ggattttctt tttctatcct ttgcttggtt tgccgggctt agtctgggga gtaattctcg 2340

gtgcagtctt acatttatca attcaattgc cagttttaag tcaattaggt ttacgtcttc 2400

gtttatcgag attaattaat tggccggaaa tgagaaaagt gatgctcata tccctaccgc 2460

gaactattac cttatcggct aatcaactat ctttattagt tttagtggct ttagcttcgt 2520

ttttgcccaa agggtcaatt tcggttttta atttttcgct caatcttcaa tcagtccccc 2580

tgtcgattat cggagtttct tattcggtgg cggcttttcc cgtcttggcc aaattttttg 2640

tcgctggtca acacaaagaa tttgctggtg aaattatcgc cgccattcga catattattt 2700

tttggtctgc tccagtggtc gttttgttta ttgttttacg agctcaaatc gtccgggtga 2760

ttttaggttc aggacgtttt gattggtcgg ccactcgatt gacggcagct tgtttggcga 2820

ttttttctgt gtcagtgatt gctcaaagtt tgattttagt tttagtccga gcttactatg 2880

ccgctgggga aaccaaaact cccttgatca ttaattcctt atcatctttg ggaacaatta 2940

ttttggcttt aattttatgg caactgttca aagtttggcc ggcctttcat ctgattttgg 3000

aacaaattct aagattgaaa gatttaccag ggacaattat tttagtctta cctctcgctt 3060

tttcgattgg agcgattatc aatgtttttg ttttatggtg ggctttcgaa cgacgctttg 3120

ctatcggaat ttggcgcaat ttagaggtag ttagtcttca gtctttagtc gcttctttat 3180

ttggtggctt tgtggcctat aacttactaa atgtctttag tctgtattat aaattagata 3240

ctttttggtc aatctttgag cagggatttt tagccggtat tttgggctta attgcctgga 3300

tttcggtctt aattcttttg aaaagtgaag aattggctga attgggacgt tctctgtcag 3360

cccgagtctg gaaagttgtc cctattgtcc cagaacgaga agaactgtag gatgggaaag 3420

tctttatatg gatttaaaac actatcgtaa tttttctatt attgctcacc ccagtagaac 3480

agccaagctg tctacggggc aagtattgat cataaattag tcttatggat ttaaaacact 3540

atcgtaattt ttctattatt gcccatatag atcatgggaa gagtactttg tctgatcggc 3600

ttttagattt gacagggaca attgaaaagc gaaaaatgcg agaacaagtc cttgattcga 3660

tggagttaga acgtgaacga ggaataacca tcaaaatgca accagtccga atgaattata 3720

aattggctgg tgaagattat attctgaatc taattgatac tccgggtcat attgattttt 3780

cttatgaagt gtctcgttcg cttcaagcag tggaaggggt cttgcttttg gttgacgcca 3840

ctcaaggggt ccaagctcaa acttttactg ttttagcgat ggctcaagaa ttgggtttaa 3900

cgattattcc cgttttaaac aaaattgatt taccaattgc tcgaacagct gaagtcaaac 3960

aagagattgt taatctatta aaatgtcagc ccgaagatat tatggcggtt tctggcaaaa 4020

ccggtgaagg agtagataaa ttattaattg agattattaa aaaaattcct agtccaattt 4080

cagaaataaa agttgttaaa ccttgccgag cgctggtatt tgattttgaa tattctattc 4140

ataaaggagt ggtggtctat gttcgagttt tagatggcga aattactccc gctgatcaac 4200

taaactttgt cgcttctggt gaaaaatttt cggttttaga attaggttat tttcgacctc 4260

aagctgaacc acaaaaaaaa ttacaggcgg gtgacattgg ttatttagtc actggaatta 4320

aaaaaccagg caatgctaaa gtgggggata cgattaccac tttagtgagt cctcttccag 4380

ctgtaccggg ctatatgact cctcgaccgg tggtctgggc ttctctttat ccagctagcc 4440

aagatgattt tgctctactc aagcaatccc tcgaacgatt aaatcttcaa gatgccgctc 4500

tgtcttttga agaggaaagc tcgggtgctt tgggacgagg ttttagagct ggttttctgg 4560

gaatgcttca tttggaaatc attagcgaac gattgaagcg agaattttct ttaaatttaa 4620

ttgtgacgac accgagtatt agttatcgtc taattaatac tcggaccaaa gaagaagtca 4680

ggattttctc tcctcacctt tttccacttg aaatcaagga ttatgaaatt tacgaatctt 4740

gggtagcggt tagaattatt agtcccgccg attatcttag tccgattatt caattacttc 4800

atgaacacga agcggaagta atgactatgg aaacttttag ttctagtcgc accgctttgt 4860

ctatcctcat gcctttacga gaattgatgc gtaatttttt tgatagttta aaaagtgtct 4920

cttctggctt tgcttctttt tcttatgaat tagccgaaga acgtctcgct gatgtctctc 4980

gcttggatat tttaattaat ggtgaaataa ttccggcttt ttcgcgaatt gtttcgcgtc 5040

gacgaatcga aaaggatgct tcggaaatgg ctgaacgttt agagggtttg attcccaaac 5100

aattgattac gattaaaatc caagttcaag gtttagggcg aattttggcg gcgcgttcaa 5160

tttccgctct acgaaaagat gtcactgact atctctatgg cggcgatatt actcgaaaaa 5220

tgaaattacg agaaaagcag aaaaaaggca agaaaaaaat gcaacagctg ggtaaggtaa 5280

atatccccca agaagttttt ctaaagatga tgcgaaatgc ggactagcgc ggactggacg 5340

cagactaatg cgaatttacc ctatggagta gcttgctata ctccataggg taaacgcaga 5400

tagtcacaaa caagacactg atcagatcag cgttttttta gcattgatcg gcgttttatc 5460

taaacaagaa ggggagagag taaagggcga ccatacttaa aataacaaga ataccaactg 5520

tcgctgagat gatttgaaag atttttttgt gtttgctctg aaataacatt agttgtagta 5580

taaggctgtg accagatttt atcaagtcga aaaacatttt aagtggctaa atgttctctt 5640

tcttattgtc actttaatct tggtgatttt tttggctcga ggggtttggc gagtttataa 5700

tcagagtcgt tttgctaatt ctaattatct tttgactaaa gatcgtctta ctaaattaga 5760

agacagacaa aaacaaatta ctgatcgtct agaaaaatta tcaaccgatc gtggtttaga 5820

agaagaattt agaaataatt tttcagtcgt gcgaccaggg gaaaaaatga ttttaattgt 5880

cgatagtatt gaaacagcta ctgatacagc cactactagt gaggctagtc tttgggggac 5940

tttaaaagcc ttattattaa gtcgttaatt aaaaaagcga gattggttca gcttgccctc 6000

ttaaatttct tgtgcaaata tgcgggtatg gtttagtttg ccctttaaaa ttttttgtcc 6060

gaacatgcga gtatggttta gtggtagaat gcgaccttcc caaggttgag acgcgagttc 6120

gattctcgct actcgcacaa aaaacttttt agggtgaata gaatgcgacc cccgaagaac 6180

agcaaagctg tctacggggc aggcttccca agcataagac gctggttcga ttcccgcatt 6240

tcgcacaatt ggccgattaa aatagtattt tattttttta tgtcctccac ctttaaacga 6300

actatcgaaa attttacttg tgctcattgt ggagcggagg tgattggtaa tggttatact 6360

gatcactgtc ctaaatgcct ctggggcctc catgtagatg atttcccggg agatcgagct 6420

aatccttgtt tgggcttaat gaagccgatt ggagtggatt tagcgaaggg agattatact 6480

ttaagctatc aatgtgaaaa atgtcacatc attaaaacta ataaaactgc tccggacgat 6540

gaacttaaca agtacttgac cggtatgtta taattgttaa ataagttaaa tttaaaatat 6600

aaaatgaaga aagttaccat ttattccact cccacttgtg gttattgtaa aattgctaaa 6660

caattcttta aagataaggg aattgatttt acagagattg atgtcactac tgatttagct 6720

gggcgacagg ccttagaaca aaaaattggc cgaattacgg gtgtgccagt aattacgatt 6780

gacgaagaag ccgtcgtggg ttttgatcaa gctcatattg cgaagatgtt agggatttaa 6840

actagtgaca atttaccccg ccttctgcca gccggtagag gatgggtttt tttggtaatt 6900

tgctaacaac aaacaaggag tctattatga agattaagtt tttgcctctg tagttcccgc 6960

cataatcctt aaataaattt aggattatgg cgggcgggaa acaagccggt taacgctctc 7020

atagttcaaa ggatagaact gtctcgtcct aagagaccaa tctccgttcg agtcggagtg 7080

agagcacaga ttaaaaaaca ttgactagag tcctacttgc cagcctaaga tttgctttag 7140

taaagttttg gcgggaggga aagatgtagg ttcgattcct accagaggca caattcgtaa 7200

cttggtcaaa tcattttcaa aacaaatgat accacacaca gaggagagga tatggggcac 7260

agccttcgtc agtttgataa ctcaaggaaa caaatctaaa aataaaactt caccgatgtt 7320

atcatttgga agccatctgc ttttcgtgcg tatttgaaac atttttggca acactccaga 7380

aatcggtagg gccggccgtc cttccatata gtttgtaacc aacttttact ggtcggccac 7440

cgtttggttt tcctggaatt ggtacgatga attgtcgcga tattccctgt aagtatgatc 7500

gtaacgataa tacagacccg tgtaataatt cttgaaaagt tactatctga cgagtagtgt 7560

tggtataaag atttgagtcg agataatctt caacggcgat tatacacctt gccagaaaat 7620

ccttttcttc aaccttttcc gatttagctt gctgtattgt attgaataca attttttcaa 7680

tatttcctct ataaggttcc attagatcgt aaactaaaga aggataatct gtcggaatgt 7740

ggagaaatcc atgatagggg ctcattcggt ggtaaattat ataacgcagt gtaataccgc 7800

ttattaattt tgaaaccgcg tccaaaatag attttatcgt atttgcccct cctctgcgtg 7860

aatatccact gtatccgagt attttataat attttttcca atataccttt gcatgctgtg 7920

cctcaatgtt taccatttgt ttaatagaat atcttttacc gtcaaataac attggatatg 7980

aaaccagcca actcatactt ttgaatttgg cttgtaaaat cttcttggca atgtggacac 8040

gtttcttctc attatttcta aatgagattt gcttacttaa gatatcatct ttggccgagg 8100

tttttacgct tggagtaatc catacggcat tactcattgt tcttcggtgt agacatatag 8160

gaacgccata ttttgcgcaa agttgtaaaa aattttcact taaatcacaa gttccaccat 8220

aaagcataat cgaaagaatg tttttaatgt ttgcggtata tttgccacct ttatattgaa 8280

aagttacaat atttttcttt acttctattt ggaaggtgta gggtagccat aagggtatct 8340

ttttattctt gctaatagac atgttttttg atattattac cctagaaaga gttaggtttt 8400

gaatacaaaa tctaacttat attttgtatt ttgtcaagta aaataaagag aaaagagaga 8460

acctcaccga aatttggaga ggataaggca agacaacaca catcttgcac cgaaatttgg 8520

agaggataag gcataccgct ctggctttga acaccgaaat ttggagagga taaggcaata 8580

ttcaaaatat ctagcaccga aatttggaga ggataaggct caatcttttt atagcctaca 8640

ccgaaatttg gagaggataa ggcaactcaa cataaagggt gcaccgaaat ttggagagga 8700

taaggcggat cgagataagt cgaacaccga aatttggaga ggataaggcg ctaacaaaat 8760

taccacccac cgaaatttgg agaggataag gcaaaccagc agggacttca caccgaaatt 8820

tggagaggat aaggcacaat tgtcatgttt attcaccgaa atttggagag gataaggctc 8880

gtttatgtta gcgaccacac cgaaatttgg agaggataag gcaagaaaca ataaccgcag 8940

aacaccgaaa tttggagagg ataaggccaa ttataatata gcctgcaccg aaatttggag 9000

aggataaggc aagatactgt tccaataaca ccgaaatttg gagaggataa ggcaaattat 9060

cataatccat tcaccgaaat ttggagagga taaggcatgg cttgtttttg taatcaccga 9120

aatttggaga ggataaggca cagggagaaa ttgcgaacac cgaaatttgg agaggataag 9180

gcgtttggca ataagtctcg caccgaaatt tggagaggat aaggcatggg tcaatccaac 9240

ccgtcaccga aatttggaga ggatgatggg tttggttcaa aaattctaag aatctgcttt 9300

attttcttca cttcacctac acggtctttc gtctcgttcc ttctagtaac acgagacctc 9360

gcctttccga ccgttctctt tgtctcttta ttttatctga cagaatatgc aaaaagtaag 9420

aaaaacttta tcagaggtac ataaaaatcc ttatggtaca aaagtccgta atgcaaagac 9480

tggctactca ctacagatag agaggctttc gtatactgga aaagagggga tgagaagttt 9540

taagattcca ctcgaaaata aaaataaaga agtttttgat gaattcgtaa aaaagatcag 9600

gaatgattat atcagtcagg ttgggttgct caatctttct gattggtatg aacattatca 9660

ggagaaacaa gaacattatt ctttggcgga tttttggtta gatagtttga gggccggagt 9720

gatttttgcg cacaaagaaa ctgagataaa gaatcttatc tctaagatac gtggtgataa 9780

atcgattgtt gataaattta atgcaagtat aaagaaaaaa cacgccgatc tttatgccct 9840

tgtcgatata aaagctctct acgattttct tacctccgac gcaagaaggg gattaaagac 9900

cgaagaagaa ttttttaact caaaaaggaa taccttgttt ccgaaattta gaaaaaaaga 9960

taacaaagcc gtcgaccttt gggtcaaaaa atttattggg ctggataata aagacaaatt 10020

aaattttacc aaaaagttta tcggtttcga tccaaatcct cagattaaat atgaccatac 10080

tttcttcttt catcaagaca ttaattttga tctagagaga atcacgactc cgaaggaact 10140

tatttcgact tataagaaat tcttaggaaa aaataaggat ctatacggtt ctgatgaaac 10200

aacggaagat caacttaaaa tggtattagg ttttcataat aatcacggcg ctttttctaa 10260

gtatttcaac gcgagcttgg aagcttttag ggggagagac aactccttgg ttgaacaaat 10320

aattaataat tctccttact ggaatagcca tcggaaagaa ttggaaaaga gaatcatttt 10380

tttgcaagtt cagtctaaaa aaataaaaga gaccgaactg ggaaagcctc acgagtatct 10440

tgcgagtttt ggcgggaagt ttgaatcttg ggtttcaaac tatttacgtc aggaagaaga 10500

ggtcaaacgt caactttttg gttatgagga gaataaaaaa ggccagaaaa aatttatcgt 10560

gggcaacaaa caagagctag ataaaatcat cagagggaca gatgagtatg agattaaagc 10620

gatttctaag gaaaccattg gacttactca gaaatgttta aaattacttg aacaactaaa 10680

agatagtgtc gatgattata cacttagcct atatcggcaa ctcatagtcg aattgagaat 10740

cagactgaat gttgaattcc aagaaactta tccggaatta atcggtaaga gtgagaaaga 10800

taaagaaaaa gatgcgaaaa ataaacgggc agacaagcgt tacccgcaaa tttttaagga 10860

tataaaatta atccccaatt ttctcggtga aacgaaacaa atggtatata agaaatttat 10920

tcgttccgct gacatccttt atgaaggaat aaattttatc gaccagatcg ataaacagat 10980

tactcaaaat ttgttgcctt gttttaagaa cgacaaggaa cggattgaat ttaccgaaaa 11040

acaatttgaa actttacggc gaaaatacta tctgatgaat agttcccgtt ttcaccatgt 11100

tattgaagga ataatcaata ataggaaact tattgaaatg aaaaagagag aaaatagcga 11160

gttgaaaact ttctccgata gtaagtttgt tttatctaag ctttttctta aaaaaggcaa 11220

aaaatatgaa aatgaggtct attatacttt ttatataaat ccgaaagctc gtgaccagcg 11280

acggataaaa attgttcttg atataaatgg gaacaattca gtcggaattt tacaagatct 11340

tgtccaaaag ttgaaaccaa aatgggacga catcataaag aaaaatgata tgggagaatt 11400

aatcgatgca atcgagattg agaaagtccg gctcggcatc ttgatagcgt tatactgtga 11460

gcataaattc aaaattaaaa aagaactctt gtcattagat ttgtttgcca gtgcctatca 11520

atatctagaa ttggaagatg accctgaaga actttctggg acaaacctag gtcggttttt 11580

acaatccttg gtctgctccg aaattaaagg tgcgattaat aaaataagca ggacagaata 11640

tatagagcgg tatactgtcc agccgatgaa tacggagaaa aactatcctt tactcatcaa 11700

taaggaggga aaagccactt ggcatattgc tgctaaggat gacttgtcca agaagaaggg 11760

tgggggcact gtcgctatga atcaaaaaat cggcaagaat ttttttggga aacaagatta 11820

taaaactgtg tttatgcttc aggataagcg gtttgatcta ctaacctcaa agtatcactt 11880

gcagttttta tctaaaactc ttgatactgg tggagggtct tggtggaaaa acaaaaatat 11940

tgatttaaat ttaagctctt attctttcat tttcgaacaa aaagtaaaag tcgaatggga 12000

tttaaccaat cttgaccatc ctataaagat taagcctagc gagaacagtg atgatagaag 12060

gcttttcgta tccattcctt ttgttattaa accgaaacag acaaaaagaa aggatttgca 12120

aactcgagtc aattatatgg ggattgatat cggagaatat ggtttggctt ggacaattat 12180

taatattgat ttaaagaata aaaaaataaa taagatttca aaacaaggtt tcatctatga 12240

gccgttgaca cataaagtgc gcgattatgt tgctaccatt aaagataatc aggttagagg 12300

aacttttggc atgcctgata cgaaactagc cagattgcga gaaaatgcca ttaccagctt 12360

gcgcaatcaa gtgcatgata ttgctatgcg ctatgacgcc aaaccggtat atgaatttga 12420

aatttccaat tttgaaacgg ggtctaataa agtgaaagta atttatgatt cggttaagcg 12480

agctgatatc ggccgaggcc agaataatac cgaagcagac aatactgagg ttaatcttgt 12540

ctgggggaag acaagcaaac aatttggcag tcaaatcggc gcttatgcga caagttacat 12600

ctgttcattt tgtggttatt ctccatatta tgaatttgaa aattctaagt cgggagatga 12660

agaaggggct agagataatc tatatcagat gaagaaattg agtcgcccct ctcttgaaga 12720

tttcctccaa ggaaatccgg tttataagac atttagggat tttgataagt ataaaaacga 12780

tcaacggttg caaaagacgg gtgataaaga tggtgaatgg aaaacacaca gagggaatac 12840

tgcaatatac gcctgtcaaa agtgtagaca tatctctgat gcggatatcc aagcatcata 12900

ttggattgct ttgaagcaag ttgtaagaga tttttataaa gacaaagaga tggatggtga 12960

tttgattcaa ggagataata aagacaagag aaaagtaaac gagcttaata gacttattgg 13020

agtacataaa gatgtgccta taataaataa aaatttaata acatcactcg acataaactt 13080

actatagagt tctcttcatt ggattgaaaa tagatccgat tcctaccaga gacaccaaat 13140

aaatttaaaa ttaaaaatta cctgccaaaa tttcgttcaa cgaaacttaa gcaggcaaga 13200

aaatttaaaa ttaaatccgc tggtgggcgg ataaagtcaa aaattgaaaa tatattaaat 13260

tgacaatatg ttctttatta gagtgcgatg tttgaatacc tcggggcttc gaatcagtag 13320

attcgtggct tggccataaa tccacaggta ttcaaacacg cgatgtgttt tgtatggccg 13380

ggtgggccat acctattcta acaaaacaac catggtgttt ggcgtgccta atacctcatc 13440

ggctctgccg tgaggatagg acacgcaact tgttttatta tgatataatg aaaggtagaa 13500

attgtcattt tgtaatggaa cagtaaaaaa gaggtgccgg tgatgaacaa aagagtgact 13560

aaaggagaca tcaggattta cctgatgatg tggaagggtg ctattatgac cgtctgtgtc 13620

gcgagtctgg ttggcatcat ccttggtcca gtctatcttt tgatcatttt tccgttgaag 13680

aaaatgatca gaaggtattc gatcgatttt tcggatttgc tcaaaggtct ttgatgactt 13740

ttaggcaaga agattgtttg ttagctctct accgcaagga ggagggcttt ttcttttttt 13800

taaattaatt tacctttca 13819

<210> 23

<211> 34045

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<220>

<221> 尚未归类的特征

<222> (29562)..(29573)

<223> n是a、c、g或t

<400> 23

atgttccctc ttcttttcgt tgcctctgaa taagatttgc ttactcaaga tatcttcctt 60

agaagacgtc tttatgcttg gggtaatcca gatcgcggta ctcatcgttc tgcgatggat 120

gcaaacagga acactatatt tagtgcatag ttgcaagaaa tcctccttta aatcacaggt 180

gccgccataa agcattatcg ataagatgtt tttgacgtca gcagaataga cacctccttt 240

gtaatggaaa gttatcttat cttttttcac ctctattgcg gaagtataag ggaaccatag 300

ggggattctt ctgttgttat ttttcatgtt ttgatatata attacactag atatgggcac 360

atttcaggag taaaatctaa cccatttttt gtattttgtc aaataaaata aaggtaaagg 420

agagaacctc tccgaattat cgggaggata aggcagcgtc tgataattct tcctccgaat 480

tatcgggagg ataaggcaag actggtaaac tctagctccg aattatcggg aggataaggc 540

acagtaacaa catacgggct ccgaattatc gggaggataa ggcaaactaa ccgttgctct 600

actccgaatt atcgggagga taaggcaaag cgtttaaagc cgacactccg aattatcggg 660

aggataaggc aaacgcccta taacgcaatc tccgaattat cgggaggata aggcgtagtt 720

agtggataat ttactccgaa ttatcgggag gataaggcga cgctgacgat aaactgctcc 780

gaattatcgg gaggataagg cacaaacatt tcctcgacat ctccgaatta tcgggaggat 840

aaggcataat tactcgctcg acactccgaa ttatcgggag gataaggcaa aatcatatcg 900

ttcttgctcc gaattatcgg gaggataagg caccccgaca aaattaagcc tccgaattat 960

cgggaggata agtatggata tttccacaat cttgaaagaa agatttgtta gcctttaatc 1020

cattctcctt tccctttatt ttatctgaca acatatgaaa gctaaaaaaa gtttttataa 1080

tcaaaagcgg aagttcggta aaagaggtta tcgtcttcac gatgaacgta tcgcgtattc 1140

aggagggatt ggatcgatgc gatctattaa atatgaattg aaggattcgt atggaattgc 1200

tgggcttcgt aatcgaatcg ctgacgcaac tatttctgat aataagtggc tgtacgggaa 1260

tataaatcta aatgattatt tagagtggcg atcttcaaag actgacaaac agattgaaga 1320

cggagaccga gaatcatcac tcctgggttt ttggctggaa gcgttacgac tgggattcgt 1380

gttttcaaaa caatctcatg ctccgaatga ttttaacgag accgctctac aagatttgtt 1440

tgaaactctt gatgatgatt tgaaacatgt tcttgatagg aaaaaatggt gtgactttat 1500

caagatagga acacctaaga caaatgacca aggtcgttta aaaaaacaaa tcaagaattt 1560

gttaaaagga aacaagagag aggaaattga aaaaactctc aatgaatcag acgatgaatt 1620

gaaagagaaa ataaacagaa ttgccgatgt ttttgcaaaa aataagtctg ataaatacac 1680

aattttcaaa ttagataaac ccaatacgga aaaatacccc agaatcaacg atgttcaggt 1740

ggcgtttttt tgtcatcccg attttgagga aattacagaa cgagatagaa caaagactct 1800

agatctgatc attaatcggt ttaataagag atatgaaatt accgaaaata aaaaagatga 1860

caaaacttca aacaggatgg ccttgtattc cttgaaccag ggctatattc ctcgcgtcct 1920

gaatgattta ttcttgtttg tcaaagacaa tgaggatgat tttagtcagt ttttatctga 1980

tttggagaat ttcttctctt tttccaacga acaaattaaa ataataaagg aaaggttaaa 2040

aaaacttaaa aaatatgctg aaccaattcc cggaaagccg caacttgctg ataaatggga 2100

cgattatgct tctgattttg gcggtaaatt ggaaagctgg tactccaatc gaatagagaa 2160

attaaagaag attccggaaa gcgtttccga tctgcggaat aatttggaaa agatacgcaa 2220

tgttttaaaa aaacaaaata atgcatctaa aatcctggag ttatctcaaa agatcattga 2280

atacatcaga gattatggag tttcttttga aaagccggag ataattaagt tcagctggat 2340

aaataagacg aaggatggtc agaaaaaagt tttctatgtt gcgaaaatgg cggatagaga 2400

attcatagaa aagcttgatt tatggatggc tgatttacgc agtcaattaa atgaatacaa 2460

tcaagataat aaagtttctt tcaaaaagaa aggtaaaaaa atagaagagc tcggtgtctt 2520

ggattttgct cttaataaag cgaaaaaaaa taaaagtaca aaaaatgaaa atggctggca 2580

acaaaaattg tcagaatcta ttcaatctgc cccgttattt tttggcgaag ggaatcgtgt 2640

acgaaatgaa gaagtttata atttgaagga ccttctgttt tcagaaatca agaatgttga 2700

aaatatttta atgagctcgg aagcggaaga cttaaaaaat ataaaaattg aatataaaga 2760

agatggcgcg aaaaaaggga actatgtctt gaatgtcttg gctagatttt acgcgagatt 2820

caatgaggat ggctatggtg gttggaacaa agtaaaaacc gttttggaaa atattgcccg 2880

agaggcgggg actgattttt caaaatatgg aaataataac aatagaaatg ccggcagatt 2940

ttatctaaac ggccgcgaac gacaagtttt tactctaatc aagtttgaaa aaagtatcac 3000

ggtggaaaaa atacttgaat tggtaaaatt acctagccta cttgatgaag cgtatagaga 3060

tttagtcaac gaaaataaaa atcataaatt acgcgacgta attcaattga gcaagacaat 3120

tatggctctg gttttatctc attctgataa agaaaaacaa attggaggaa attatatcca 3180

tagtaaattg agcggataca atgcgcttat ttcaaagcga gattttatct cgcggtatag 3240

cgtgcaaacg accaacggaa ctcaatgtaa attagccata ggaaaaggca aaagcaaaaa 3300

aggtaatgaa attgacaggt atttctacgc ttttcaattt tttaagaatg acgacagcaa 3360

aattaattta aaggtaatca aaaataattc gcataaaaac atcgatttca acgacaatga 3420

aaataaaatt aacgcattgc aagtgtattc atcaaactat cagattcaat tcttagactg 3480

gttttttgaa aaacatcaag ggaagaaaac atcgctcgag gtcggcggat cttttaccat 3540

cgccgaaaag agtttgacaa tagactggtc ggggagtaat ccgagagtcg gttttaaaag 3600

aagcgacacg gaagaaaaga gggtttttgt ctcgcaacca tttacattaa taccagacga 3660

tgaagacaaa gagcgtcgta aagaaagaat gataaagacg aaaaaccgtt ttatcggtat 3720

cgatatcggt gaatatggtc tggcttggag tctaatcgaa gtggacaatg gagataaaaa 3780

taatagagga attagacaac ttgagagcgg ttttattaca gacaatcagc agcaagtctt 3840

aaagaaaaac gtaaaatcct ggaggcaaaa ccaaattcgt caaacgttta cttcaccaga 3900

cacaaaaatt gctcgtcttc gtgaaagttt gatcggaagt tacaaaaatc aactggaaag 3960

tctgatggtt gctaaaaaag caaatcttag ttttgaatac gaagtttccg ggtttgaagt 4020

tgggggaaag agggttgcaa aaatatacga tagtataaag cgtgggtcgg tgcgtaaaaa 4080

ggataataac tcacaaaatg atcaaagttg gggtaaaaag ggaattaatg agtggtcatt 4140

cgagacgacg gctgccggaa catcgcaatt ttgtactcat tgcaagcggt ggagcagttt 4200

agcgatagta gatattgaag aatatgaatt aaaagattac aacgataatt tatttaaggt 4260

aaaaattaat gatggtgaag ttcgtctcct tggtaagaaa ggttggagat ccggcgaaaa 4320

gatcaaaggg aaagaattat ttggtcccgt caaagacgca atgcgcccaa atgttgacgg 4380

actagggatg aaaattgtaa aaagaaaata tctaaaactt gatctccgcg attgggtttc 4440

aagatatggg aatatggcta ttttcatctg tccttatgtc gattgccacc atatctctca 4500

tgcggataaa caagctgctt ttaatattgc cgtgcgaggg tatttgaaaa gcgttaatcc 4560

tgacagagca ataaaacacg gagataaagg tttgtctagg gactttttgt gccaagaaga 4620

gggtaagctt aattttgaac aaatagggtt attatgaatc taaaaatagt cgtgatcaac 4680

aaactcaatc atttgaaaaa tttttatcgt cgccatccaa agaaaatcct ttggttgggg 4740

gtgccattgc tattgcttat cgggttgggg gcttgggctt atactcggag gactcaaccc 4800

gagttcgaaa cagaggtggt gaagttgggc gaggtggccg atgtggtgag cgatactggt 4860

ttggtgacgg ccgagaatga tctcactctc tcgttcgaga cgggcggggt cgttcgcacg 4920

gttaaggtta ccgaaggtga cgcggtttat cgaggacaga cgttagtctc gctggatgcc 4980

agtttgaagg cggcggaagt ggcgagcgcg cgcgccacgt tggccgctca agaagccaaa 5040

ttggctgaac tggtggcggg cccgaccaag ctagatttag cttcggccaa gacgaaactc 5100

gagaacgccc gcaagacctt gctgaccgcc gacctgcaag cgtacttcgc cggtccttca 5160

gccgattatg cggcttcttc attcacttat acggcgccga cggttttggg gacttacaat 5220

tccgatcaag agggcgaata cgtgcttgag ttatatcaat caggcgcgcc gtcgggctac 5280

tcggtggagt actccggttt ggagacgggg attatggagg gcgccgaagg acgagccgag 5340

cccttgggcc ggcgcggtct ctatctccaa ttcccggaga acttcattcg ggcgccagag 5400

gtaatttggc gcgtgcctat ccccaacacc aagtccgctt cttatgctac taaccggcgc 5460

gcctacgaac aggctcaagc cgattacgac ctgaaagtgg ctggcactcg cgccgaacaa 5520

attgtcgccg ccgaagccca agcgcgccaa gcccgcgcca ccctccaatc ggcgcaggcc 5580

tcgctgtcca agctctccct tacggcgccg gtggccggtt tggtgaagtc cgttccggtt 5640

accgtagggg agacggttac cgttggttca ccagctgtgg cgttggtctc ggatcataat 5700

tattacgtga ccctctatgt gccggaggct gagatggcca acttgacggt cggcgacttg 5760

gccgagatcc ggctcaaggc cttccccgat cgcgtcttcc gcgccaccgt ggggagtgtg 5820

gccccggcgg ccgaagatcg tgatggcgtg gcttcgttta aagttaaatt atatttccaa 5880

gaatccgatc cccaaattag agtggggatg tcggctgacg tcgaccttga ggcgcttaag 5940

aagaccgacg tcatggtggt gcccgggcgg gcggtggtgc gctctaatgg gcgaatcttt 6000

gtccgggttt ggagcaataa gaccgtcgag gaacgctcgg tggagattgg tctgcgtggc 6060

tctgatggct cggtggagat tgtctcggga ctctcggtgg gcgaagaggt gattactttt 6120

atccgtgacg aggagttgga tcgcttggcg gactaattcc ctttcggcgt ttatggcttt 6180

acttgaactc gaccaagtta ctaaatctta ttatagcgac gatctcacca ctcagatctt 6240

gcgcgggatt tcgtttacca ttaatgaagg cgaattcgtc tcgattatgg gcccgtccgg 6300

ttcgggcaaa tcaaccctct tgcacgttct cggattcttg gctgatcgca ccgccggtac 6360

ttaccgcttc aacggcaagc aatttgccga acataccgat gaggagatcg cgcgggtacg 6420

caatgaagaa atggggttcg tcttccagac tttcaactta cttggtcgta ataccgtctt 6480

cgaaaatgtg cgcttgccgc tcatctactc gcgcgtgccc gaaggagagt ggccggcctt 6540

ggttgatcag gctatcgccc aagttaagct tgatcatcgg cgcgactatg cctgctccaa 6600

gctctccggc ggcgagcaac aacgcgtcgc catcgctcgc gccttggtca accgacccaa 6660

cgtcctcttc gccgacgaac cgaccggcaa cttagactcc gcttcggggg gagcggtgat 6720

ggatacttta caacacttgc atgaagattc tggtcagacg gtgatcttaa tcactcacga 6780

gacctatacc gccgagcatg ctcagcggat catcaagatt ttggatggcc gggtcgaagc 6840

cgatttcaga cttgagacca gacgacgcgc cagcgagggt tatcataagt agttcgattt 6900

aatttatcct gagggtaatc gaaggactca ccacaagtaa aatgcaacgt tacaaattta 6960

gcttcctttc ggccttggag gcgatcaaaa ccaatcgtac gcgctctatc ctcaccactt 7020

tggggatcgt tattggggtg gcggcgatca ttgtgattat gtcgttgggc gccggcgccc 7080

agagtttaat tttaaatgag atcaatcaga tgggggccga gacggtcatc gtgttgccgg 7140

gtgagatcac tgatgccgcg gcggttttct cggactcact gacgcaacgt gacctggccg 7200

cggtgaaggt taagtccaat gtgcccaatt tggcgcgcgc cgcgccggcg gtcatcgtcc 7260

caggcaagac cacttataga ggtacgactt atacccccgc catgattatc ggcactgaag 7320

cggaattctt cggtgaggtt tttaatattt accctaaggt gggcacaatc tatgatcaag 7380

atgatatcga gacagcggcg cgggtggcga ttattggcga caaggttaag accgagcttt 7440

ttggcgcttc tgacgcggtg ggcgagcgga tcgatatcaa gggcaagcaa ttccgcgtgg 7500

tgggggtgta tccaacgacg gggcaaaaag gacctttcga tatcgacggc ttggtgatga 7560

ttccgcacac caccgcccag acttatctct taggcactaa ctattatcat cgccttatga 7620

ctcaagccga cagttcggac aatgtcgaga aattggcaca cgacatcacc gcgaccctgc 7680

gggagactca tggtctttat cctggtgatg acgacgactt ctcggtggta actcaacaag 7740

cgctggtgga tcaaatttcg atcattatca acattctcac ggccttcttg gcggccgtgg 7800

tggcgatctc cttggtggtg ggcggtatcg gcgtgatgaa tattatgctc gtgtcggtga 7860

ccgaacgcac taaagagatt ggtttgcgca aggcgctcgg ggcgacccgc tcggccatta 7920

tgacgcaatt tctctttgag gcgattgcgc tgaccttgtt tgggggcgtg ctggggatca 7980

tgatcggcgc ctcgctctcg ctcgtgctct cggggattct cacttacgcc gtggggctca 8040

attggtcctt ccacttcccc attagcgccg cgatgctcgg ggtcacggtc tcggcggcgg 8100

tcggactggt gtttggcctc tatccggcgc gtcgcgccgc cgccaaagac ccaatcgaag 8160

cgttgcggta tgaatagaac cggggaggtt tgacgtgact attgattagt gttagactat 8220

tgaaggaagt taatttgatt ttttgttcga aacaaagaaa aaaagaagga ggttaccatg 8280

tcggataaaa tcgtgagatt gcctcacctt aaagtttggc aacgagatcg gtgttggtgg 8340

ggacaattac tcttcactga tcgctcgatg agcgaagagt tcaacggcaa gttcttggcc 8400

ttggtcgctc tgcttgaagc ccaagagcga aaaagtgttg ttaatgaaga catcctcgat 8460

ctacttgatc agattgggaa atccccattg tcggagacag attgtcttcg gctacgacgt 8520

gacggtcatg ataaggtaga tgtggttctg gttaaaatta tgagaaattg ggtccgcgac 8580

tcggctcaaa atgagcgacg tgaatttgag ctcgtaagtt ttaaaaccac cattatgtcc 8640

aaacaggcgg cgaaagccac cttcaactga aatttttctc gcctgcgaat ctccaagcag 8700

accggtccga gcacgtgttg ctcgggccct ttatttttaa taaatatttg cccgaggatt 8760

gttttctcaa attctctttt ttctttaagt cggggttttt ggactgaaac ggaagagttg 8820

taatctagaa actcactttt tttggatggt ttttcaacaa atagctgtta caatagaaga 8880

gtggaaaaat aaaatgagtt gttttaaacc aggtacgggt aatcgaaagc tcagcacaat 8940

tccgggtttt accttgattg aaatcttggt ggtggttgcc attatcggta ttttgtcggg 9000

aataatttcg aataatttaa ggggtgctaa aattaaagcc cgagaagcct cggcccttca 9060

aaatgcgcgg caattagatt tggcggtatc gctttttgaa atagataaag gttattatcc 9120

gggaaccctg ggggttgaga caaatcaaga tgaccaaacg actggttgga aagaaggacc 9180

aggaaccctg cacgacgatc tggttcccaa atatatttct aaattaccca cgagtgatga 9240

gataaagttt atttatcttg ccgatgaacc atgtcccaac gaccagacga aaccttgtcg 9300

agctaagata gttatcgata ctgaccaaat tgtcgatggt gacggaggga cacccccacc 9360

acccccacca cccccaccac cagctaaggt gattgttccg gacttggtta ataaaaccga 9420

agccgaagcc ctcggggcca tctcggcggc taatttagca gtaggcttca atgatgatgg 9480

gtgtagtgat atggtttctt ctggttatgt tttttctcaa tcgttgacgg ccggtgctag 9540

tgttgatgaa ggtacggcga ttaatattgt tgtttctgcc ggagggtgta tttctccgcc 9600

accggtcggg tcgatcccta tctcaagttg tggcacaata ataactcaac ctggagatta 9660

ccatctggcc ctggtggagg agaccgagtt gaatcaaact aattccggga tctgtattta 9720

tgttaacaat gttgataatg ttaatttaga ctgtcagaat ataaagataa agggtaccga 9780

taccacagag tcatcgaaac aatatggcgt aattgtcggt aattcgtctg gggtggccgt 9840

taaaaattgt ctgattgaaa acgtcggcac cggaattagg gtatattcgt ctgataacat 9900

ctcgattgaa aacaatcgac tgtcaaactt aggcagggaa gggatgtatc ttaaagataa 9960

ttcagatgtg attattcgaa ataatcagct gaccaacgcc ggtgcaagag cgattgctat 10020

ttatcgagaa tgggcgagtc ttatttccgg ttacgctgtt gataataaca ccatcaaggg 10080

ggggtcctat ggtattacgt tcgggcatct gtttaccgac agtcgtcctc ccggtgagat 10140

taaagagatc gttataaacg gcaataattt atatgatatt gtcactacgg ctctatcctt 10200

aaatttagtc gagaacctct caatcattaa taattacatt tatgacccga aaatattcct 10260

ccaaatagac gattctaaaa atttactcat agacaacaac ttcggccaaa atatcacctg 10320

ggacatgttt atcggctatt cagataatgt aaccttttct aacaataagc ttaagagcgc 10380

ttcggcgact aaatcggtgg ttttagtttg gatgtttagg gttaataact tagatttctc 10440

tcgcaacgaa attgaaggct acaatcgtaa tttgttaaaa cttgacgata gttatgattt 10500

ctcgatcaaa aataatattt tcaatagccg ggttggtgtt tatgaagggg tgattttggg 10560

taaaggtttt ctcggtgtat ctggtgaagt ttctgaaaat gatttttacg gcggtggcga 10620

gggcgtctct ttagctttag atatttatca taattcggcc aaccgtctgg cgatctttaa 10680

taataatttt attgattatt tgggggcgtc gttaagatat gattctagtt ttttggattt 10740

aggagctaat tattatggta caaccgactg tgccttattg cgggcgacaa cttggcccga 10800

ctgggtgata ataccacctt cttctggttt acccagtcct ttgctttact tggattcgtt 10860

ttggcctaaa gggaacgttc aaacttgcaa ttaatttagg ctaaactgcg agtgaggtgt 10920

ttttcttgat atttagatta aaaagtgata taagtataaa agagaaagga ggttctgatg 10980

tctcaaatgg gtattgccca cgcgctcttt tacaagcgag gggattgtct ccaagctcgg 11040

atcgttttcg gcgacggtcg cttgagcgaa gagttcagct cccgtctcga agggatggag 11100

attctgacaa aatctcgtca ggataagctc atttctcatc aagagatgac ctctctggcg 11160

ttggaatttg cggaatcgac tttgccggcg agaactccgt cggcggaaat tgttgacggc 11220

cttctgatgg cgatgaagct tgacctttga aagctttatc aaaaccgctc tccggctgat 11280

ctcggggcgg tttttttgtt taaatttaaa gggatggagt tatttcgagc gggggatgcg 11340

atgcttctga tgagtgaagt tggcgttgaa gtttgacttg aagttttgat tgttcggccc 11400

gcccgatttc tgaaacttga agactgacgg ggtgcggaaa ccggcgttgc ccggttgttg 11460

ctgtttgttt tgtttgctcc gattggtgtt tttcatatcc tttaattata aatcgaagtt 11520

ggattatggc aagcagtaag ataaacgtcc taattgtgac gtgattgaca gaaaagataa 11580

aacaatgtag gatagatttc ggatcctgaa ccttcaactc tcctcaacag aatcaacaga 11640

aaggaagaca gaatgaagaa gatgcttgtc ttgttgtccg cgtttgtctt gaccatcgcc 11700

gagctggctt cggccggatc gttctctgac ccgttcgatg cccttgattc ggcttgggtg 11760

accgatcggt tcgagccggc cggattctcc agcgtcgtct tcgacggcga caatcggttg 11820

gagattgcga ttagcgcgac cgactcggag gctaatcgtc cggccgggtt cactagtggg 11880

ttttataaca cgcaaggccg tcaacgagat gccttgatgg cggaaccttg ggtcatctcc 11940

ggcgatcttt acttgtcgct ggatatgctc ttgggcgaca atttgcgccg gactgatctc 12000

tgggcgcgaa cttcggacgg tccggaggct aatgcgcaat acccgattat cgggatgcgt 12060

cggtttgacc cgcttgatcc cttcaacccg ctggcgggtg atattgcctc aacttggcga 12120

gtctgggatt cggacacggt cgacggttgg gtcaatttgg ccacgccgat ggtggctggt 12180

tggaacacgc tttcgattga gagtgacggt ctatcatatc tctatcggat caacggggtt 12240

gaggtctatg aggacctcac catcagcgct ttcgcgaccg atctgaccac ggtctttctc 12300

caaggttata acttcggcgg tgactacgaa gtctattggg acaatgtctc tgccgccacc 12360

ttggctccgg tgcccgagcc ggccacgatc ttgcttttaa tgctgggggc cggcgtggtg 12420

gcgattcgtc gtcatttcgc gaaacaacaa taactaactt gagaggttag ggtccgccaa 12480

cccgttcgct gtcgcgagcg ggttttttta ttggcgagaa gttaaggggt gatgtttagt 12540

tgaccaaggt aatagcgaag ggtgtagagc caatcctcgt cttcttcgcc ggcttccagt 12600

ttttgtttca gaagccattc gagataaccg cgatcggtct tggccacttc ggcgagcgtt 12660

cggtctttat gcttgccaaa accgaatttt ttgaagagtg acggacgaga cgagatctca 12720

atcattttgg cgagcgtttc ttcgtcggag agttcgcgcg aacccaagag cgagccgtcg 12780

ccggctttca atttttgcca taaccgatta aacagcgctt cggtcaccaa aacatcgccc 12840

acggcgtcat gagcggtgcc atcaagatcc aagtcgagat aataacgcaa gaattgcaga 12900

ttgtattccg gaatcacccc ttcggtatcc agttcgcgag ccaagcgcag ggtgcagata 12960

tattgcggca ctttgactcc ttcggcggcc aagatagcga tgtcgaattt ggcattgtgc 13020

gccaccaaca cgtgatcagc gagaagggtt tccagctcgc gacggaaggc gctctcggcg 13080

aagggttctt tgtcggccac cagcttattg gtgatgtgag tgatactcat cgacttaacc 13140

gagatgggga ctggcggctt gaagtaggcg gtgcgagtgg tggttttggt tttgtagcag 13200

acctgacaaa ggcgatcttt ggtcacgtcg ttgccggtgg tttcggtatc taagaataag 13260

atttccatgg tcggttaagc ggccggttgg tcggtcgaat caaccttaac gttttggata 13320

attacgggcg tgacggggcg atcgttttgg tcagtggcga cttggccgat ctggtttaca 13380

atttcttgtc caacagttac ccgaccgaag atggtgtagt tattgggtag cggataatct 13440

tcgagcatga taaagaattg actgccgttg gtattgggac cggcgttggc catcgccaac 13500

acgccttgcc ggtagccggc ctggtatgac ggagtggccg gatcgagctc gtcggcgaat 13560

tggtaaccgg ggccgccggt accgcagggg ccggtggcgg ggactttggc ggattcaggt 13620

gaacagttcg ggtcgccgcc ttggatcata aaacccttga tcactcgatg gaaggtgaga 13680

ccgttgtaat aaccggctcg ggccagcttg ataaagttgg caaccgtgtt gggggcgtct 13740

ttttcgtaga gaacgagggt aatctcgcca agattggttt gcaaggtgat ttggttaggc 13800

atagttgagg tggtcagtcc cgagcttgct cgcggtgagt tcgtcgaatc cgtcgaggtg 13860

gcttgagatt gataaatgtt acttgttaaa tcggcaggat tgggcgctct ctgatttaac 13920

ttttgccaac caaaaagtcc agccaggccg agtaaaataa taagaactaa aatcacctgt 13980

ttgttcatgg gaattgagaa acgggttaaa gatgggctga taattgtgaa ttataacaat 14040

aaccgttaga gtaaggcaat gaagagtgaa gaaccggaag attatcggct aggttggcgg 14100

cccttcttgg gttgccaagt ggatctctct cagcgaccgt tgattccgcg cgaggagacg 14160

gaattctggg ttgatcaagc aatcaaggaa cttaaaccag aatcaaccgc cggcaaacaa 14220

gtcttggact tgtttgccgg ttccggttgc atcggcttgg cggtgcttga gcactgtccg 14280

ggcgtggcgg tgactttcgg cgaaagggag gaaaaatttt gtgggcagat tcggaagaac 14340

ctcaagttaa acccgccagc cagatttgat ttcccgccag accttcgggc ggcctctcaa 14400

ggtctggcgg gtggaaggac catggcctct caaggtctgg cgggtgaaag gaccatggcc 14460

tctcaaggtc tggcggggcg aattagagtc gagtcgtcgg gaaaggttgt ccaaaccgac 14520

attttttcca aaatcaaagg gcagtttgat tttattttcg ccaacccgcc ttatgtcgcg 14580

accagaagaa gtcgggttca agcctcggtg cgcgactggg agccggccgg agcgctcttt 14640

gccggccccg acggtttggc ggtgattcga ccgtttttgg ttgaagcgaa aaaacgtttg 14700

cacccgggtg gccggattta tttggaattc ggttacggcc aaaaaggcgc tctggaagag 14760

ttattgcggc aaaacggata taaaggttgg tcgtttcggc gcgaccagtt tggccgctgg 14820

cgttgggtcg tgatacaata gcggtatcaa aagttaattt tttaattcta aaattttatg 14880

acagacaaaa acaaagcttt cattctctgg ttcaatgatt tgacaattgg cgacgtcggt 14940

ttggttggcg gcaagaacgc cgctttgggc gaaatggtca acaacctggt tccgcttgga 15000

gttaatgtgc cgaatggttt cgcgattacg gcgcacgctt acgcctactt cttagacaag 15060

acaggcttaa aacagaggat taaggaaatt ttgaccgatc tcaatactca caatatcaac 15120

gatttgcaaa aacgcggcgc ccaagtccgc gccgcgatta ttaaagaaga attgccggaa 15180

gaactgcaag tggagattat caacgcttat cgcaagctta gcgccaacta tcacagccag 15240

gccgtggatg tggcggtgcg gtcttccgcc acggccgagg atttgcccgg ggcctcgttt 15300

gccggtcaac aagaaactta tcttaatgtc gccagcgaaa aggagttgat gttgtcggtg 15360

cgcaagtgct tcgcctcgct ctttaccaat cgcgccatct cttatcgggt tgataagggt 15420

ttctcaatgt ttgatgtttt gctttcggtc ggggtacaga agatggtgcg cagcgatttg 15480

gccgcggccg gcgtgatgtt ttcggtcgac accgaaaccg gtttcgataa ggtggtggtg 15540

atcaacggtg cctacggttt gggcgagatg gtggtcttgg gcaaagtcac tcccgatgaa 15600

ttcgtggtct tcaagccgtc gctggagcgc ggttatcagg cgattctctc caagacgctt 15660

ggtcgcaagg acgtgaagtt ggtttacggc gccaagggca ccaaacaggt gtcggtgccg 15720

gccaaagagg tgaaccgttt ttgtctcaaa gacgaggagg tttccaaact ggccgcttgg 15780

ggcctgacca ttgagaaata tttttccggc aaacacaatc gctatcaacc gatggatatg 15840

gagtgggcca aggacggcaa gaccggcgaa ctctttattg ttcaagctcg ccccgagacg 15900

gtccacgccg aagccgacaa gaatgtttac gaagagcata ttttgaaaga gaaaggcaag 15960

gagttggttc gtggcaacgc catcggcgcc aagatcactg ccggcaaagt gcgcctgatc 16020

aagagcgcca accagatgaa caccttcaag ccgggcgaga tcttggttac cgagatcacc 16080

gatccggatt gggaaccgat tatgaagatc gcggcggcga ttatcaccga gaagggcggg 16140

cggaccagtc atgcggccat tgtctcgcgt gagcttggag tgccctccat cgtgggcacg 16200

ggcaacgcca ccaaggtgct aaaaaacggc cagctggtga ccgtggattg ttcctccggc 16260

aaagaaggag tggtttacga aggcaagctt gcctttgaga aaaaagaaca tcgtctaacc 16320

gctaccgcca agacgcgcac caaggtaatg gtcaatatcg gttcacccga cgatgccttc 16380

cgcaatttct atttgcccgt ttccggggtc ggtttaggtc ggttggaatt tatcattaat 16440

tcttacatca aggttcaccc caacgcgctc ttggattaca aagagcttaa ggccagtcgc 16500

gatccgcgcg ccaagaaggc ggttaaggcg attgatgagt tgacggttga atacaaaaac 16560

aagaccgatt attacgtcgg cgaattggcc gaaggggttg ccaaaatcgc ggccaccttc 16620

tacccgcacg acgtgattat ccgtttctcc gatttcaaga ccaacgagta ccgcactctg 16680

atcggcggcg atctctacga gccggaagag gagaacccga tgatcggttg gcgcggcgct 16740

tcgcgttatt atgatcccaa tttccgtcgc gctttcgcct tggaatgtcg cgctctctac 16800

caagtgcgta gcgagatggg cctttccaac gtgatcccga tgattccctt ctgtcgcacg 16860

gcggaagaag gccggcaagt ggtggagatt atgaccgaag ccggtctgga ccgtcaggct 16920

gacccttcgc tcaagattta tgtgatgtgc gagattcctt ccaacgtggt ggaggccgat 16980

gcctttttgg aagtcttcga cgggatgtcg atcggttcca acgacctgac ccagctgatg 17040

cttggtttgg atcgcgattc caacttgatc agccatatcg ccaacgagaa tcatccggcc 17100

gtcaagaaga tgattgaggt ggcgattaaa gcttgtcggg ccaagggcaa gtatatcggc 17160

atttgcggtc aggcgccgtc cgattatccg gagtttgccg attttttggt gcagaacggg 17220

atcgggagca tctcgctcaa tcccgattcg gtgattaaga ccttacccgt gattgaggcg 17280

gccgaagaga agtatcccca aagataataa aaatatgaaa atcgcttttt ttgaattgga 17340

gacttgggaa aaaaaatact tgcaagagcg aactctgccc ggcgaggtcg tttttatcga 17400

cggaccgttg gatgagacca agttgccgga gcaaaacgat ttcgacgcca tttcggtttt 17460

tgttaattcc attgtcggcg acaaagtgtt gggacatttt cccaatctcc agttgattgc 17520

cacccgctcg accggttatg atcattttga cctgccaact tgcgccgctc ggggggtcaa 17580

ggtggccaac gtgccgagtt acggcgaaga taccgtggcc gagtacgcct tcgccttaat 17640

gctcactctc tcgcgcaaga tttgcgagag ttatgagcgt attcgcgaga ccggcagttt 17700

cgatctcacc ggcctgcgcg gctttgatct gaagggcaag accttggggg tgatcggcac 17760

tggtcggatc ggcaaaaacg cgatcgagat cgcgcggggc ttcaatatga atatcgtcgc 17820

ttacgacaaa tttcccgacc cggtttatgc cgaaaagatg ggctatcgtt atctgtctct 17880

ggacgaggtg ctggccacgg ccgatatctt gaccttgcac gtgccctacc tgccggagaa 17940

tcatcatttg atcaatgccg aaacgctggc caaaatgaag tcgggggctt acctgatcaa 18000

caccgctcgc ggtggcttga ttgacaccgc ggctctgctc gtggcgctta agtcggggca 18060

aattgccgga gccggtttgg acgtgctcga agaggagggc gtaatcaaag atgaggtcaa 18120

tttcttaacc aacggtcgct tggatcaagg cgatctgaag acggtgctcg gcaatcatat 18180

tttgattgat ttgcccaacg tgatcattac tccgcataat gccttcaaca cttgggaggc 18240

gctgaagcgc attttagaca ccaccgtggc gaatctggtg gcttttgaag ctggaatgcc 18300

gcaaaatttg atcagtggcg attaaggcgg tttattgacg ttttaccttg ataacggtac 18360

aataaggtca gattccgttc ggggtgagtg gaaaaacgtc ggttctagac aacggaagga 18420

gattttatgg cccagaagtc tgccactgaa attgtttgag ctcgtctgtc tgcgtgaccg 18480

acgagcttgt gttttgttta aataaaaaga tggctgaatt caatttcaaa atcgaaaaga 18540

aaattgccgg ccgtctcggc cgagcgggaa caataatgac gcctcacgga gacatctcca 18600

ctccggcgtt tatcaccgtg gggaccaagg ccaccgtcaa ggcgctctcg ccggagcaag 18660

taatggcctc cggttcaccg gcggcgttgg ccaatactta ccacctcctc ttggagccgg 18720

gcgcggaagc ggtggcgcgg gctggcggtt tgcatcgcta tatgaattgg ccggggccgc 18780

tgattaccga ttcgggcggc ttccaggtct tctcgctcgg cgcggcttat gacgagggcg 18840

ggatcaataa attcctcaag ccgggcctac cctcgcggac cgcaccgaag cgaccttcgg 18900

aagaaggtcc gcgggagccg aagccggcca agattgacga agacggagtg acgtttcgtt 18960

cgcctttgga tggcgccgaa caccgcctga cgccggagag ctcgattcaa attcaacatc 19020

aacttggcgc cgatattatt tttgctttcg acgaatgcac ggcgcccacg gccgattacg 19080

tttatcagaa ggaagccatg aatcgcactc accgctgggc cgagcggagt ttggctgaac 19140

acgagcggct aacccaggct aagactcggg aaaatgcttc taaaaaagtc ctcggtcctc 19200

ttcaggcttc gcttgaggcc agactttttg ataagcattt tcccgagtct tattcggcct 19260

tgttcggcat cgtccaaggc ggccgcttcc aagacttgag ggaggcgagc gccaaattta 19320

ttgccagctt gcctttcgcc ggttttggga ttggcggttc cttcgataag accgatatgg 19380

gcacggcggt cgggtgggtc aatgcgatct tgccgaccga caaaccgcgc cacctgctgg 19440

ggattggcga accggaggat atgtttgagg cggtggcgca aggggccgac actttcgatt 19500

gtgtcactcc aacgcgcttg gcgcgccatg ccactttatt gacggcgacc ggccggctca 19560

atattttgaa tgccgctcac cgtgacgatc cgacatcgat cgaagccgat tgtgactgtt 19620

acgcctgcca aaattattcg cgcgcttact tggctcacct tttccgcgcc ggtgagattt 19680

ttggcgccac tttggccacg attcacaatt tgcgctttat gaatcgtctg tcggagcaaa 19740

tgcgcgccgc gattttggcc gagcgatttt tggagttcaa ggccgagtgg ctagccaaat 19800

atcaaagatg aagaaacccc cctcaacccc aaaacttttt cgtttggaaa gcgccttcgc 19860

gccggccggc gatcaaccgg cagcgattaa ggcgctgacc gaaggtctgg cacgcaatct 19920

tcgtcatcaa accttgttgg gggtgaccgg ttcgggcaaa acttttacca tggcgggagt 19980

gattgccgct tacaacaagc cgaccttggt gattgcccat aataaaactt tggcggccca 20040

attggcgcag gagtatcgaa gttttttccc cgaccacgcg gtgcattact ttgtttctta 20100

ttacgattat tatcaaccgg aggcttacgt ggcggccagc gacacttata tcgagaaaga 20160

cgccagcatc aacgaagaga tcgaacggct tcgtcacgcc tctaccgaag cgcttctgac 20220

gcggcgcgac gtgatcattg tcgcttcggt gtcgtgcatc tacggtttgg gcagtccgga 20280

ggaatacgcc aaaagtttta tcaattttaa tcttggcggg aaaattgaac gccaagcctt 20340

gattgagaaa ctggtcagtc tttattatga gcgaatcaac gccgatctct cgcccggcac 20400

ctttcgcgcc atcggcaatt ctgtggagat tatgccgccc ggtcaacgag agatcatcaa 20460

tctcaagttg accggggacc accttgccga aattttgatc gttgacgctg tttcgcgccg 20520

agtggtgaac cagccgggcg agatttcaat ttatccggct aagcacttta tcaccagcgc 20580

cgacgaacgc cagcgcgcca tcgctttgat taagaccgag ttggctgaga ggttgaaaga 20640

gttggttgcc gccggcaaga atctggaggc cgaacgcctg aagcgccgca ccaattacga 20700

tttggcgatg atcaaagaaa tcggctactg caatggcatt gagaattatt cacgccacct 20760

ctcggggcgg gcggcgggcg aggcgccggc caccttgctt gattattttc ctaagacttc 20820

tttcggtcgg cccgattttt tgaccatcat tgatgagtct cacgtaacgg tgccgcagct 20880

tggcgggatg tttgccggcg acgagaaccg gaagaaaaat ttggtggcct atggttttcg 20940

tctgcccagc gctctggaca atcgcccgct caagtttccc gagtttgaag cccgaattgg 21000

tcccactatc tataccagcg ccaccccggg caaatacgag cttgaagcca gtaatcccca 21060

aaaaggcggg cagatcatcg aacagattat ccggcccacc ggcctggtgg atccggcaat 21120

tgaaattaaa ccgatcgttt cgaccgcgcg ctatctcggg caaatccagg attttatcgc 21180

cgaggtgaaa aaagaaattg ctcaaggtcg gcgggctatc gccacgacct taaccaaacg 21240

gatggccgaa gatttgagcg agtatttgaa aggtgagggg attaaggccg aatatttgca 21300

cagcgagatc aaaacgttgg agcggatcaa aatcctcacc gacttccgcc gcggcgagtt 21360

cgactgcttg gtcggcgtta atctcttgcg cgaaggtttg gatctgcccg aagtgtcgct 21420

gatcggcatt ttggatgctg ataaggaggg cttcttgcgg tcggaagtgg cgttgatcca 21480

gaccattggc cgggcggcgc gcaatttggc cggccgggtg attctctacg cggagacgat 21540

aaccgactcg atgaagcggg cgatggatga gacggcgcgc cggcggacca aacaactggc 21600

ttacaatcag caacatggca ttacgccggt ttcaatcgtg aagaagatta aagacatcac 21660

cgacagtttg gctaaagatc ggcaacaatc ggttaccgct ctcttggcaa tagatgaaga 21720

gctttatggt aaaaacaaga aaaaattaat cagggagaag gtcaagcaaa tgagcgaagc 21780

ggtcaagaac ctcgatttcg aaaccgccgc tctcctccgc gacgaaatca agatcttgga 21840

aaacgtcaag actaaggcca aatgatatcg gaggatgatg ttggcgtgac atcccgccga 21900

caatttttat cccaattcat acacgaccgt gcacggatag ggatgattag gaagtctgag 21960

gcaggttgaa aaattttctc aaccaacgat cattttcgat ttgggtgact tccagatata 22020

aaatttcatt tccgattcgg taattggctt taatcatcgc gacaatttcg cggcaatcat 22080

aaggcgaaac ccagacgctg ttttgcaatc tgactaagcc aaggtggtgt aaccaacgac 22140

gaagtttgtc tcgggtgctt cgcttccatt ccttaatatc aaagatgatg attcgatatt 22200

tgcggtccca tttggacggt ttttttatgg tcaacttctt taactggtat tctcttaatc 22260

tcgcttgacc ttttttagtt aaacgaacaa ttttttgatt ttgatgattg gtttgaatct 22320

caagcaaccc ttggttcttc attttctcta ttaccgtatt ggtgtaatat tttttctttg 22380

attgttgtcc gggcaaatat tttagcagtt gaacgcagtt gggggccaac aaggtaaaag 22440

caatcacccc ggtgataccg atgatactta aaataagctc ttgataatcc gctttgtcta 22500

ttcgtgacat ataccttatt ataaacggtc gtataagata agggaagata gaaaagatag 22560

gaaaagaggg aatccctcaa agcttttttg tttgggtcgg atgtgttata atcgctaggt 22620

tccctatggg ccggcccacg gggggtttcg gcgtcatccg gaataagatt aagaaatttt 22680

tatggatcag aaacatcagg ataaaatcaa aatcaaaggg gcgcggacgc acaacctgaa 22740

gaatatcagt ttggagattc cgcgcgatca actcacggtg attaccggtt tatcgggctc 22800

gggcaagtct agcttggctt tcgacactat ttttgccgaa ggccagcgac gctatattga 22860

gtcactttca gcttacgcgc gccaattttt gaaacaatta cccaaaccgg aggtggacga 22920

gatctctggt ctctcgccgg cgattgccat tgaccagaaa tcgcgttcgc acaatccgcg 22980

ctcaaccgtg gcgaccgtga ccgagatcta cgattatctg cgcgtgctct acgcgcggat 23040

cggccggccg cactgtccgg tgtgtggagt ggcgattgag aaactctcgc tggaggaaat 23100

cgtgaatttc gccaaagaga aaattgccgt cagtcatcgg ggtaaaaaaa atctcaagat 23160

ttcaattacc gcgcccttgg tgcgcggacg gaaaggggag tattatcagc tcctctacga 23220

tttactggac aagggttacc tcgaagtgtt ggtggacggt caaacttatc aactgcgcga 23280

acgcatcgta atgaccaaga ccaagaagca tgatattgac gccgtggtcg acatgattga 23340

ttggagcgat cagggcgagg ttgtcgcggc cggccagcgt ttggccgagg cggtggaacg 23400

ggcgctcaaa gagtcggacg gtctagtgaa gattgtgatt gataacgaga acttcctgct 23460

ttcctccaaa ttttcttgcc ccaacgatgg cttctctttt cccgagattg aaccgcgact 23520

cttctccttc aattcgcctt acggcgcttg tcccacttgt cacggtattg gcaccaagca 23580

cctcttcggt ggcgaacctt gcgatacttg ccaaggggct cgcctgcgtc gggaggcctt 23640

ggaggtgaga attggcggca aaaacattat ggaagcggtg tcgctctcaa ttgccgacgc 23700

ggccagcttt ttcgacaagc tgaagttgac cccgaaagag aaaacaattt ccgaggtgct 23760

gtggcgcgag atcaaggcgc gattgaagtt tttgctcgat gtgggtttgg attacgtgga 23820

gttgaatcgc cgcgccgaca cgctctcggg cggtgaggcc caacgcatcc gcctggcttc 23880

gcagttgggg tcgcgtttgg tcggcacgct ctacgtgctt gatgaaccca cgattggttt 23940

gcatgctcgc gataacgcca aactgattaa gactttgctt gagttgcgcg atttgggcaa 24000

caccattgtg gtggtggagc acgacgaaga cacaattttt gcctctgatt atttggtgga 24060

tatcggccct ggggccgggg tgcacggggg caaggtggtg gccgccggtc caaccgagaa 24120

atttttaacc agcaagaaga acgattataa ttctttgacg attgattacc ttcggggcga 24180

caagactatc gctttgccgg aaaaacggcg aggaaaccag aagggcgcgc tgaaaattcg 24240

cgggggcaaa atttttaaca tcaagaatct caatgtggac ctgccgctct cgcgcttggt 24300

ggcgattacc ggcgtgtcgg gttcgggcaa atcctctttc gtctacgaaa ttctttataa 24360

aaatttgcag gccaaactgg agcgtcgtta tcgcaccaac accttgttta attgtcggga 24420

atttggcgga acggaatact tgagccgagt ggtcttagtg gatcagtcac cgatcggtcg 24480

gaccccgcgc tccaatccgg ccacttatac cggcgccttc accttcatcc gggaactttt 24540

tgcggcttcg gctctggccc gggcgcgcgg ctggaagccg tctcgcttct ccttcaacgt 24600

ggctggcggc cggtgcgagg cctgccaagg taacggcgaa gtggcggtgg agatgcattt 24660

cttacctacc atctttgttc cttgcgatgt ttgcggcggc aaacgctacg agaaggaaac 24720

tctggaagcg ctctataaag gaaaaaatat ttacgaagtg ttgcagatga cggtggaaga 24780

agcctttagt tttttcgaag atattccggc catcttcgac cggctcaaaa cgttgaacga 24840

agtcggtttg ggttatttgg aattgggtca atcggccacc accctctcgg gaggcgaggc 24900

ccaacgggtc aaaatctcca ctgaacttta tcggccgttt accgaacgca cgatttatat 24960

cttggacgaa ccaacggtcg gattgcatta cgaagatgtt aaaaacctaa acgaaatttt 25020

gcaaaaattg gtgaccaaag gcaataccgt ggtggtgatt gagcataatt tggaagtggt 25080

caagagcgcc gattacgtga ttgatctcgg gcccgccggc ggcaaagacg gcggcgagtt 25140

ggtggcggtc ggaacgccgg aagaattggc ctacgctcct ggctcccata ccgggaaata 25200

tctcaagcgt ctgttgaaac aacaataatt aaagttgaaa gatggaaagc cgggagctta 25260

aaaaatatca attgcccgat gggcccgggg tctacttctt caagcagggc cggcgaatcc 25320

tttatgtggg caaagccacg tcgctcaagg atcgggtgcg cagttatttt gccggtgatt 25380

tgggcgaaac gcgcggacca aaaattgagc ggatgcttga gttggccaac cgcgtggact 25440

ggcaaaccac ggactcggtg ttggaagcgc tcttgctgga gtcggccttg atcaagaaac 25500

atcaaccgcc ctataacacc agagaaaaag atgacaagag ctactggttc gtggtgatta 25560

ctcacgaacc ttttccccga gtattgttgt gtcggggccg gcaattgtcg aacggttcat 25620

tctctcttgc gcttaaaatc aaaaaaattt tcggcccttt tccccgttca agcgaaatca 25680

aggccgcctt gctcgtgatc cgaaaaattt ttccttatcg cgaccgttgt caactggcgg 25740

tggccggccg accctgtttt aatcgtcagc tcggactctg ccccggggtg tgcaccggcg 25800

aaattaacca aaccgattat cggcggctga ttgccaacat tgaacgcttg tttgccgggc 25860

gtaaaaggga attgctcgtt cgtctggaac gcgccatgaa acgagcggcc agaactcaac 25920

gtttcgaagc ggcgggtcaa attcgcaatc aaattttcgc cctcaaacat attcaagatt 25980

tggcgttgtt gaaatcaagc cccaaccgcc tcaagggaaa atccgttcgg atcgaggctt 26040

acgatgtggc tcattggcaa ggcgaggccg cggtgggagc catggcggtt tggcaagacg 26100

gagagttgga tcgaagtcag ttccgccaat tcaaacttcg ggcgacaacg ccgggggacg 26160

atttggccgg gttgcgcgaa atcttgactc gacgtctggg tcatcgggag tggcccgagc 26220

cctctctggt ggtggtggat ggagaccagc gacaggtcgc cacggcccaa gtcgcattgg 26280

ctcgtcaagg tcttgactgg ccggtagtcg gagtgaccaa agaccgtcat caccgcgccg 26340

tcgctttggc gggcaatctt gaggcagaga gttttgaccg tcaagccgtg attgaagtca 26400

acgacgcggc tcatcgcgtg gccattgctc atcatcgccg acgtttgcgt ttgggtcggt 26460

aaggtcaggg cttatccctt ggagcgctct tccgaaatat ggtaaaataa aggtcggata 26520

atcaacttta tgttttggtc tgacttagtc gcaaagttgc ccaccgagcc ctcggtttgg 26580

attgccgcgt tgggtttgtt tggggtcgcc tttttccttg gttatttttg gcaggatcaa 26640

tcgaccagga cgagatggca ggtcaagcag gagatgttga agaaccagca gattattgaa 26700

ctggaaaaag tcaaccagaa cttggcggcc aaaaatcgtg aactctatgc caaagaattg 26760

gagctgacca tcgccaacaa acatctccaa gcgctggaag cagccaaatc caaatttatc 26820

gccgtgacca ctcaccaatt gcgcacgccg ctctcggctg tgaagtggac gctggatttg 26880

gcggccaaag gtcaattggg caaggtcgac gaagagcaaa aaagtttctt aaacaaaggc 26940

ttgattagtg tcaaccgggt tattgccatc gtgaacgaac tcttgcgcgt ggactcggtg 27000

gagaccgatc aagtcgtcta ttgtttccaa cccgtcaatt ttatcaagct gttcgacgaa 27060

gtgttgtttg aattcgaagt gcaggccaag agcaaagggg tgaaactctc ggtgcgtcgg 27120

ccggagactg acctgcctcc aattgatttg gatgaaacca agattaaaat ggtgatggaa 27180

aatcttttcg acaacgccat taaatacacg ccggtgggcg gtctggtgga agtggttgtc 27240

tccgacaagc gtctcaaccg cgccgaaggg gcgattgagg tgacggtgcg cgattccggc 27300

atcggcatcc cgagcgagga aaagaacaac attttccaaa aatttttccg cgcgaccaac 27360

gcgatcaagg ccgagcccga cggttccggt ctcggtctct ttatcgctca cgatattgtg 27420

actcggcata atggctcaat gtggtttgag ccggccgcgg gcggaggcac gatttttacc 27480

ttcactttac cgattcatca gaagacgcta taattttaaa gactcttatc aatttaatct 27540

taaaagacaa tggacaagaa aaaaatccta atcgtggagg acgacgagtt cctccgttcc 27600

ctcaacgcca agaagctgga gagcgagggt tatgccgtta gtgtgtcgcc cgacgggacc 27660

agcgcgatcg aattgattcc tgaagaattg cccgacttgg tgtttctgga tcttctgttg 27720

ccgggcggca aagacggttt cgatgtttta acggcgatca aggccgacga aaaaaccaag 27780

aatattccgg tcgtggtttt ctccaatctc ggccaagccg aggatatcaa gaaggctaag 27840

gacttgggcg cgattgactt tttgatcaaa gccaacttta cccttgacga cgtggtgacg 27900

aaaattaaag aaattttgaa ataaaacaaa tcaatggcgc ccattcgagt cggtatcttg 27960

cgcggtggca tcggatccga gtatgaagtt tcgcttcgaa ccggcgccgg tgttttgcgc 28020

cacttgccgg gcgacaagta tcagccggtg gatattttgc tgtctcgaga cggggcgtgg 28080

tatgccggcg gtttgcgcgc cacccccgag cgggcggtac ggggagtcga tgtgatcttc 28140

aacgccttgc acggcgagtt cggcgaagac ggtcaagcgc aacaactgct tgattatctg 28200

ttcaagccct atactggttc cggcgcggtc gccagcgctc tggggatgga taagcctcga 28260

gccaaagagc tcttccggca ggctggtctg cgggtgccca acggcgcggt gcttcggcga 28320

gcggatcgtc ccgaggaaac cgatgccgag gcggtggctt acgatgtctt caaaaaaatt 28380

ccgccgcctt ggatcgtgaa gccggccagc ggtggctcct cggtggatct ccggctggcg 28440

cgccattacc ccgagttagt ggcggcggtg gccgccggcc ttaagcagaa cgatcgaatc 28500

ttggttgagg aatacgtgcg cggtcaagaa gccacggtgg gggtcgtcga tcgtctgcgc 28560

ggccgcgatc attatccgtt gttgccggtt gagattgtca cgctgccaga caaggtcttg 28620

tttgattacg aagcgaagta cggcggccaa accaaagaaa tttgccccgg ccgctttcgg 28680

ccggaagaca agcttgagtt ggaacgtcaa gccgttttga ttcatcaaca attaggcctg 28740

cgtcactatt ctcgttccga ttttatcatc tcgcctcgcg gtatctacgt gctggaagtc 28800

aacactttgc ccggcctgac cgaagagtct ctggtgccca aggcgctggc cgctgccggc 28860

atcgcttacc cgcagttttt ggatcacttg gtgaccttgg cgttagaacg acgctgaatt 28920

tgaaggacaa aaaagccccg cgagagaaga tgcagtgatc tcaagggggc aagaggaggg 28980

gatgaaaggt atgaaggaac taccaatgaa ggggatggaa ctgggacaaa agaacaaatt 29040

aggtggcaga gccttcagtg ccactcgaaa gctctgccgg ttagggtgta aaggtcgagc 29100

gagcgaccta tcttcaggtt atcataaggt gtgatttttt gcaagggcgg agggattatc 29160

ttggtggtgt tattataata gcatttgctc gaacttattt tcaagacaaa atgaaggact 29220

gaacgccccg ccacccgcct cgcggacttg gcggacacca gaaacaaaaa attttcttaa 29280

cattttccga tttggcgcga ggaagaattt ctcttaaatg gaaaagaaaa ttttgtttct 29340

ggtgttctgt cctcaaggtc tcgggcagtt ggcggggctt cagaaattcg gacagaaaat 29400

taaaaagtgt catccccccc aaaccccaac cactttttaa ttttctgatt cctacaatgt 29460

ttcgtttggt ggtgttattt tagcatttgc tcgaacttat ttccaagaaa aaatgaaaga 29520

ctagcgttcc ccgcgcgctg aagcgcctct gtgcaaagca cnnnnnnnnn nnnggggatt 29580

ttgaattttg tccgcgcgga ggcagggtct gggagggaat ccgcgcgggc tttatttttt 29640

tgaatttttt tggcgtagag cttgtataaa atacaattat atggtataaa aatagtaaga 29700

gaaagtcatc gtggctttct caaaaccgct cattgacaac taaaaaagga ggatccaatg 29760

attatttcat tcagtgggcc ctccggtatc ggtaagggct tcatcaaaga acgactatta 29820

cagctttatc cagacatcca agaattggtg tggtatacaa ctcgcacctt gcgaccaaac 29880

gaacaagggt caaacagaat tcaagtttca ctttccgagt ttaaccagtc ggttgaactt 29940

ggcaagctta ctttagtgca agatcttttt ggtcatcgtt atggtctaaa aaaagaagat 30000

ctcgtaacga gttcgggtat caagttgact gagttgcatc cagcaaatct agtggaagca 30060

ctcaaaatca acccgaagat ttttgcaatt ggtcttgtaa cttctgattt atcactactt 30120

cgtaaaagac ttactgttgt gagaaagacg gaaagcgaag cagagataga gaaaagagtt 30180

acgaaagcta aaagcgagat cgagataatt ctacaacaca ggtcttttta tgcttccgtg 30240

attgaaatta cagaagctga agaagatcaa gtgttcaaca aggttcatgc aatattgcaa 30300

tcacaaatca aaccgaaagg aggaaaaaat gaaactagaa acacaagttg gtagtctgaa 30360

gttgcacaca ccgttgttgc tggcttcagg ttacattacc gaaacaccag agttctttct 30420

gagagctcaa ccctacggct gttcgggtat cgttacccga tcacttaaac aaaatgttcc 30480

agcggaacga tcacggatta catctccacg ctatgcagtc tttggtaatg acagcatgct 30540

taactgcgag tggggaaatg aaagaccgtg gacggattgg cgagatcatg gagtgcaaca 30600

ggtcaaagca attggttgtc taatcatcat ttcgctttcg gggcgagatt tggatagctg 30660

ttgtaatttg attcgtgcat tcgataagat cggtgttgat gcctacgaaa tcaacatctc 30720

atgttcgcat tctggagcac tgcatgggaa tctgaatgtt gatgtgcttc acctagaaca 30780

actgatgaaa agagtgcgta acattacgac gactccaatc tggatcaagt tgtcgtattc 30840

aaacctgctg ttctcaatgg caaaacaagc cgaagagttt agagcagatg cgatagtgtg 30900

cacaaatagc atcggtccag gaatgttgat cgacaccaaa accgctaaac cgaaactcgg 30960

aatcaagggc ggaggcggtg gaatgacggg aaaagcaatt ttcccgatcg ctctatggtg 31020

tgtgcatcag ctttcaaaaa ccgtgagtat ccctgttgtc ggttgtggtg gaattttcac 31080

cgcagacgat gtaattcaaa tgctcatggc aggtgctagt gcagttcaac tctacacagc 31140

tcctgcgctg aaaggtccta cggtctttag acgagtaaag gctggactac aaaggtttct 31200

cgatgagaat ccgaagtatg cttcagtcaa agacctcgtt ggacttacgc tcgacaaaac 31260

aggtgagcat aagttttctt cacctcgtcc agtcgtgatt gaagaaaagt gcacaggatg 31320

tggaatctgt attcaatcct gtgcatttga cgccctgtca atggttcgta gtgctgatag 31380

caaagcactg gcggtcattg ccgataactg catctcatgc aacgcttgcg ttggagtatg 31440

tcctccgaaa ttcgacgcta tcaaagcatc attctaggag gtaatacaga aatgaaaaaa 31500

aacacataca tcatcgcggt tcactgcaat gcgtgtcgaa ccctactgta tcgttacaaa 31560

aaagaaggtg gtggacatct cctcaagtgt tatgccgaca tgataatgtc ggattacact 31620

aaaggcgatc taaggtgtcc ttcttgcggt caagagtttg ctcgacatgc aatcatccac 31680

aatcgctcag cacataagat aatccgaggg agagtctttg tgaagggtca tcatggataa 31740

catcatcaca acgggtggtt tgattcaatc agaccacccg ttattttttt attttagttc 31800

aaatctgttt ttgaaataat tagatgtata gtttttataa tcaaaaatct cattagattc 31860

tttatttagt ttttctacat attcaaaaaa ttgtttttta tcaaaaatat caagactaag 31920

ttctttacaa acatttgcaa ttcctttaac caattcatcg ccattttcat taccagaggc 31980

cattttttct gcttcgtaat aataactatg tcccggtact tctaccaatg caaattcaat 32040

atccttatat tcatatactt tactttttct aacacaaagc atacctttac caaatccaag 32100

ttcgccgaaa atttcaacca acgtgtcaaa atcgccttgt ttagtgaaaa ccgagagctc 32160

tttacgttgc tcatttcctc cccattcgcc aattttaaga ataatttcag gaattccatt 32220

ggtcactcgc aatcgtatat ctttttttct atgttctacc cctccctcta gaaaagttga 32280

ataatcaatc aatactctat ttttctctga tttctttttt ccactactgt caaaaaattt 32340

taccagattc tcaaattctc cttttgataa aggtcctcgt atttcaattt ctatattttc 32400

atccatattt attgattttt taggtttata aatagttgct ttattatcat ggtcgcataa 32460

ctaccagtag gtaagtaaaa ggaaagtgta attttcattt tatttttatg aagatcgtca 32520

gactctaaat catgagcata catattagtg gcgaccaaga gatttctctt gttcagtttt 32580

ggttttgcta aaaaattttc tggaattagt tcaaaccctc cagcttcaca aatatgtgga 32640

cattgaaata cagcatttgt tggcaaatat aatttgccaa catttttgaa tataaatttt 32700

ttacttttag tatttttctc tatcaacaaa gatgcctgtg tattccacag aaaactatta 32760

tatgcggaca caaaaaaaga aacttttttt ggattcatga catcaaaaac ctttttgtag 32820

tctgagatat cttttgcttt tagttcagct ccttgcgtaa tattatttgt aatttttagt 32880

tgttcataag cctgtttcca attatcttct actattgcct taccaatcag atgagtatta 32940

taggggccac caggcattcc aaatctttga ttgtcatagt aatttataaa ataaagttgt 33000

ttgtgattgt ggacataatt tgaaagatta tctgcaatcg tagaatttaa atttcttacc 33060

actattttaa aagcatttcc gtgtaaagcc ctttctttta ttggtttttc cccatgaccc 33120

attacaaact taatttttga aaattgattt ttaaatttgt gtttcttgtt aaatactatg 33180

atatcttttt ctttcaagat ttttttgatg gaaataagtt gttcggtaat agcatcctca 33240

tcttttaatc cttggctaca tacatcctca aatgaaagtt taaaaaatag ctttatttgt 33300

tctaaggctt caaatgttgt aaatccagat ttttgtagcc aaatataagt aaacttacgt 33360

ttaccttttg atataaatga tggcataaga gagacctccg tcatctgaaa gtcttcgttt 33420

atgtgtttta ttttataatc ctcatattta tccataatat aaataattta acataaataa 33480

ccttatttgt aaataattcg ccaaaaaatc ccaaaaaaca aaagcccgcg cggattccct 33540

cccagaccct gcctccgcgc ggacaaaatt caaaatcccc gccgaatttc aaaaacatta 33600

gtctcggttt tgcgaaccct tctcccagaa aatagttttt gcaaaaccga gtccatattt 33660

gcatttctgc acctcgcctc attctcccag attattagtg gcgaggggca gggcgtttcc 33720

ccgcacttct gcttcagcag aagctctgtg ctttgcacag aggcgcttca gcgcgcgggg 33780

aacgctagtc tttcattttt tcttggaaat aagttcgagc aaatgctaaa ataacaccac 33840

caaacgaaac ttgttcggaa ttaagaaagc ggagcgattt tgcgggagcc aaaatcgcgc 33900

tatcattttt ttcaaaaccc tttccgccta cggcggaagc ggtgaattcc caaagttccc 33960

cccaattgaa atcatgaaag acctcaaacc aaaatatttt ctctacgcga ggaaatcaac 34020

agaggatgat gaccaccaaa taatg 34045

<210> 24

<211> 11142

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<220>

<221> 尚未归类的特征

<222> (6655)..(6659)

<223> n是a、c、g或t

<400> 24

catcttcatt tgtatgcgta tcagagagat caaaaactat gttatcaatg atggcgcggt 60

atggttcaat gagatcgaag gcgagagcgg ggtaatcagt cgtctcgtgc aggaacccat 120

ggaagggaga gaggtgatgg tagtgaatcc atcggagaaa aattcctatt aaaaattttg 180

acatcgcatt cagcgcgttg ctggccgggt ttttaccgcg cctcatgaag gctgaatgtc 240

cgagcttctt gaaatatgcg ctccaatagc gctggctgtg gagcgcttcg tgattgcgca 300

gttcctgaat ggtcatggtg cgggagagtt tttttgcagg aggaacgata agccacgcca 360

tgctgttgaa ttttgcgttt agaatttgcc gcgcgatata ctttttgatg cgcaaatcag 420

agcgctttac aagttgttga gaaagcaggt catttccatc tgcacggtta ctggcggtaa 480

tccagactgt attggttaaa tttctcctat gaataatgat aggaatttta tgacgcgctg 540

tgaattcaag tgtgctcggg gctaagggag ggctatctcc gtaaatcatg atggagagga 600

gcttggcagg attgcaggtt acttcgcctc ctttatactt aatgtgaata tttttccctt 660

tgacttcaaa tgtttcaaca taaggcgccc aaagaggtat tttttgcgag tatgttttca 720

tgttatagaa taaagtgagt attgaaatat aaaactttat atggtaatgt aagacacata 780

attttgcaag atgtgttgca aaaaagcgat tttttgaggg gtcgccccga atatagggga 840

caaaaaggct agcatacttt tttggaaccc cgaatatagg ggacaaaaag gcttatgagc 900

tgaaaaagat ccccgaatat aggggacaaa aaggcacgcc gctttcgcgt tcaaccccga 960

atatagggga caaaaaggca attaccgcat aaatcatccc cgaatatagg ggacaaaaag 1020

gcaacatgac ccaccctcct ccccgaatat aggggacaaa aaggctatga gacttctgaa 1080

atccccccga atatagggga caaaaaggct taagccccat gctttctccc cgaatatagg 1140

ggacaaaaag gctgaagtac gcaatctgca accccgaata taggggacaa aaaggcatgc 1200

tgtttgtatc ttcaccccga atatagggga caaaaaggca aggatattca agcgcacccc 1260

ccgaatatag gggacaaaaa ggcttaccac acaacttatt gaccccgaat ataggggaca 1320

aaaaggctgt gagcgatgta aaccaccccg aatataggag acaaaaaggc gcgtggtcaa 1380

tgctcgtgcc ccgaatatag gggacaaaaa ggcctttagc ttcatttaag attttaggta 1440

tttccggaca gcggcttgac cgcatcgtcc tcgccttttc ctaaaatcgc ccctcttaaa 1500

tcgcttgcct tacagacgca tgtataaaga tattttgaag attaagttat cgcatacttt 1560

atgagtaagc gacatcctag aattagcggc gtaaaagggt accgtttgca tgcgcaacgg 1620

ctggaatata ccggcaaaag tggggcaatg cgaacgatta aatatcctct ttattcatct 1680

ccgagcggtg gaagaacggt tccgcgcgag atagtttcag caatcaatga tgattatgta 1740

gggctgtacg gtttgagtaa ttttgacgat ctgtataatg cggaaaagcg caacgaagaa 1800

aaggtctact cggttttaga tttttggtac gactgcgtcc aatacggcgc ggttttttcg 1860

tatacagcgc cgggtctttt gaaaaatgtt gccgaagttc gcgggggaag ctacgaactt 1920

acaaaaacgc ttaaagggag ccatttatat gatgaattgc aaattgataa agtaattaaa 1980

tttttgaata aaaaagaaat ttcgcgagca aacggatcgc ttgataaact gaagaaagac 2040

atcattgatt gcttcaaagc agaatatcgg gaacgacata aagatcaatg caataaactg 2100

gctgatgata ttaaaaatgc aaaaaaagac gcgggagctt ctttagggga gcgtcaaaaa 2160

aaattatttc gcgatttttt tggaatttca gagcagtctg aaaatgataa accgtctttt 2220

actaatccgc taaacttaac ctgctgttta ttgccttttg acacagtgaa taacaacaga 2280

aaccgcggcg aagttttgtt taacaagctc aaggaatatg ctcaaaaatt ggataaaaac 2340

gaagggtcgc ttgaaatgtg ggaatatatt ggcatcggga acagcggcac tgccttttct 2400

aattttttag gagaagggtt tttgggcaga ttgcgcgaga ataaaattac agagctgaaa 2460

aaagccatga tggatattac agatgcatgg cgtgggcagg aacaggaaga agagttagaa 2520

aaacgtctgc ggatacttgc cgcgcttacc ataaaattgc gcgagccgaa atttgacaac 2580

cactggggag ggtatcgcag tgatataaac ggcaaattat ctagctggct tcagaattac 2640

ataaatcaaa cagtcaaaat caaagaggac ttaaagggac acaaaaagga cctgaaaaaa 2700

gcgaaagaga tgataaatag gtttggggaa agcgacacaa aggaagaggc ggttgtttca 2760

tctttgcttg aaagcattga aaaaattgtt cctgatgata gcgctgatga cgagaaaccc 2820

gatattccag ctattgctat ctatcgccgc tttctttcgg atggacgatt aacattgaat 2880

cgctttgtcc aaagagaaga tgtgcaagag gcgctgataa aagaaagatt ggaagcggag 2940

aaaaagaaaa aaccgaaaaa gcgaaaaaag aaaagtgacg ctgaagatga aaaagaaaca 3000

attgacttca aggagttatt tcctcatctt gccaaaccat taaaattggt gccaaacttt 3060

tacggcgaca gtaagcgtga gctgtacaag aaatataaga acgccgctat ttatacagat 3120

gctctgtgga aagcagtgga aaaaatatac aaaagcgcgt tctcgtcgtc tctaaaaaat 3180

tcattttttg atacagattt tgataaagat ttttttatta agcggcttca gaaaattttt 3240

tcggtttatc gtcggtttaa tacagacaaa tggaaaccga ttgtgaaaaa ctctttcgcg 3300

ccctattgcg acatcgtctc acttgcggag aatgaagttt tgtataaacc gaaacagtcg 3360

cgcagtagaa aatctgccgc gattgataaa aacagagtgc gtctcccttc cactgaaaat 3420

atcgcaaaag ctggcattgc cctcgcgcgg gagctttcag tcgcaggatt tgactggaaa 3480

gatttgttaa aaaaagagga gcatgaagaa tacattgatc tcatagaatt gcacaaaacc 3540

gcgcttgcgc ttcttcttgc cgtaacagaa acacagcttg acataagcgc gttggatttt 3600

gtagaaaatg ggacggtcaa ggattttatg aaaacgcggg acggcaatct ggttttggaa 3660

gggcgtttcc ttgaaatgtt ctcgcagtca attgtgtttt cagaattgcg cgggcttgcg 3720

ggtttaatga gccgcaagga atttatcact cgctccgcga ttcaaactat gaacggcaaa 3780

caggcggagc ttctctacat tccgcatgaa ttccaatcgg caaaaattac aacgccaaag 3840

gaaatgagca gggcgtttct tgaccttgcg cccgcggaat ttgctacatc gcttgagcca 3900

gaatcgcttt cggagaagtc attattgaaa ttgaagcaga tgcggtacta tccgcattat 3960

tttggatatg agcttacgcg aacaggacag gggattgatg gtggagtcgc ggaaaatgcg 4020

ttacgacttg agaagtcgcc agtaaaaaaa cgagagataa aatgcaaaca gtataaaact 4080

ttgggacgcg gacaaaataa aatagtgtta tatgtccgca gttcttatta tcagacgcaa 4140

tttttggaat ggtttttgca tcggccgaaa aacgttcaaa ccgatgttgc ggttagcggt 4200

tcgtttctta tcgacgaaaa gaaagtaaaa actcgctgga attatgacgc gcttacagtc 4260

gcgcttgaac cagtttccgg aagcgagcgg gtctttgtct cacagccgtt tactattttt 4320

ccggaaaaaa gcgcagagga agaaggacag aggtatcttg gcatagacat cggcgaatac 4380

ggcattgcgt atactgcgct tgagataact ggcgacagtg caaagattct tgatcaaaat 4440

tttatttcag acccccagct taaaactctg cgcgaggagg tcaaaggatt aaaacttgac 4500

caaaggcgcg ggacatttgc catgccaagc acgaaaatcg cccgcatccg cgaaagcctt 4560

gtgcatagtt tgcggaaccg catacatcat cttgcgttaa agcacaaagc aaagattgtg 4620

tatgaattgg aagtgtcgcg ttttgaagag ggaaagcaaa aaattaagaa agtctacgct 4680

acgttaaaaa aagcggatgt gtattcagaa attgacgcgg ataaaaattt acaaacgaca 4740

gtatggggaa aattggccgt tgcaagcgaa atcagcgcaa gctatacaag ccagttttgt 4800

ggtgcgtgta aaaaattgtg gcgggcggaa atgcaggttg acgaaacaat tacaacccaa 4860

gaactaatcg gcacagttag agtcataaaa gggggcactc ttattgacgc gataaaggat 4920

tttatgcgcc cgccgatttt tgacgaaaat gacactccat ttccaaaata tagagacttt 4980

tgcgacaagc atcacatttc caaaaaaatg cgtggaaaca gctgtttgtt catttgtcca 5040

ttctgccgcg caaacgcgga tgctgatatt caagcaagcc aaacaattgc gcttttaagg 5100

tatgttaagg aagagaaaaa ggtagaggac tactttgaac gatttagaaa gctaaaaaac 5160

attaaagtgc tcggacagat gaagaaaata tgatagacgt tgtttttaca ccatcgctat 5220

tgactaggtg atctttacgt cagaacccca tcagaaattc cttaaactcc tcaaacttgt 5280

ttgaaagcgg gagaacctgt ttttgtttgt gtagaagctt tttgagatca gcggggagag 5340

gtattttttt gccgatgagt ggttccacta ttgcgttgaa tttcactgga tgcgcggtct 5400

caagaaaaat gccgagagta tttttctttt tattttgagc acaatatttt ttgaggccta 5460

aataggcaac cgcgccgtgc ggatctgcac tatagccaca gcggttatac agttcagaaa 5520

ttgccccgcg cgtttcagcg tcagtaaacg atgcgccgaa aatatctttt tgcatttcag 5580

cgcgttcatc atgatacaga gtgcgcatac gcgcgaagtt actcggattt ccgatatcca 5640

tggcatttga aattgttcgt attgacggtt ttggaatgaa cggctcaccg cataaatatc 5700

gcgggacgac atcattgctg tttgtggcgg cgatgaattg tctcacagga agccccattt 5760

tttttgcaat gagccctgcg gtgaggttgc caaaatttcc gcacggcact gaaaatacaa 5820

gcggcgggca tacagcgaac gagcgagctt gcgcttgggc atacgcgtaa aaataataga 5880

atgtctgcga aataagccgc gcgatattga ttgaatttgc agaggcaagg cgcaatgttc 5940

gggcaagctc ccgatcggca aatgcttgtt ttacgagggt ttggcagtcg tcaaacgtgc 6000

cgtttatctc aagcgccgtg atgtttttgc ctaagccagt aatctgtttt tcctgaatag 6060

cacttactcc gtcttttggg tatagaatta taatgtgcac gcgctcactt tgaaaaaagc 6120

tgtgcgccac tgccgcgccg gtgtctccgc ttgttgcggc aagaatggtt aaacatctgt 6180

cgtcattttc caaaaaataa cacatcaatt ccgccatgaa tcgcgcgcca aaatctttaa 6240

acgagagtgt ttggccgtga aaaagttcaa gtacagcgag cgtttcattt aaaaacacaa 6300

gaggcgcgtc aaatgtgaga gatttttcaa taatgcggtt gatgtcttgt tttggaattt 6360

tagggaacca caactcgctt gtttcccgcg caatatcttt gagggatttt ttggcaatgc 6420

ttttgaaaaa tgatgaagag agccggggaa tttcaagcgg catgaacagg ccgccatccg 6480

gcgcgagcgg ggaaaagaga ccatgtttaa aggaaaaaat tttattgttt ctatttgtgc 6540

ttttaagctt catggcaggt ttgtataaaa ttctctgctg aaaattcggg cgaccgtagt 6600

ctgtgatagg ggatggttgc gtgcgcgtat tgtttatagc gattggtgcg atagnnnnnc 6660

agttttgggt aacatcgcgc gagcgcagag cgattgtttt cgttattccg cttttcaaac 6720

atattccccc acagcacggg ctttggatcg cgaaggtact gttcaaacat ttctttgcgt 6780

acttttgccg gcgtgtataa atataccaca cgcgtatatt ttttgagcag attgcataat 6840

gcggggtcaa cataaataac actccctgtc gtgtcaataa ctgtgcgaca atcaagtttt 6900

cttttttgta ttaaaccgat aatttttcgt ataacgctac gctcgcaacg caaataatgg 6960

ctttgattcg cgttgtattg ggactcgtat ggctggccaa gccatcgcga tacatcttga 7020

atgcccttat agccgtgctt tttaagcaag gaagcaagct ttttttcaat taaatcgtca 7080

cagcagatat gcgcgtaccc aaagcgcgca agctgttgcg cccagtatga ttttcccgcg 7140

cctgacatgc cgataagcgc gattggtttt tcttgcacac tatatatgtt cataaacgca 7200

ctgccttaaa aatatctgaa aaaactcctg cggatgtcac ctctgcgcct gctcctttgc 7260

ctcgtacgat aagcggtgtt tcatggtaat gatcggtggt aaatgaaaat atattgtcgc 7320

tcccgcggag cccggcaaac ggatgattag aggcaacttc tttaagaaac atttttgcct 7380

tgccattttc tatttcagca acaaagcgaa gcactgcgcc gcgtgcgatc gcgcgttgtt 7440

tttttgcttc aaattgggcg tcgtaccgtt caagtgtttt taaaaattct ttaacggttt 7500

ccttttttct gccttgcgga atgagctgtt ctatttcaac atccgcgcat tccatgggga 7560

gagcgcactc tcttgcaaca atcaccaatt ttcgcgccgc gtccatgccg tttaagtcgt 7620

ttcgcggatc tggttccgtg taaccgagct tctgcgcctc gcgcaccgct ttgctcaatg 7680

ttgtatttcc ctcaaatgag ttaaagatat agcttagcgt tccagaaacg attgctgaaa 7740

ttttttctac gcggtcgccg cagagcatga aatctcgtat ggtggaaagc acaggaagcc 7800

ctgccccgac ggttgtttca tataaaaacc gcgtatggtt ttgagaggcg agtagtttta 7860

aatttttata gaatttaaaa ttggatgaaa ggcctttttt attcggcgtt acaatggcaa 7920

tgcgctctgc aagtatggtg ttatagaggg cgggaatttc ttcgctcgcg gtgcagtcca 7980

caaacacggc gtttggaagg cgcattgcct tcatgccggc gacaaattga gcaagatcag 8040

ctttttgtcc gcgcgtgtta agctcttctt tccagccaga aagcgtgccg aggtgttccc 8100

caagaaccat tttcttggtg ttgacgatgc ctgcaacttt gagcgcaata ccctcctctg 8160

ccaaaagccg ctctctttga gcattgattt tcgtaagaag cgcagatccg ataagcccgc 8220

ttcccgcgag aaacacgtga atgttttgtg gtgccatagg tataaaaaaa ccgctccaga 8280

catgtgggta atgtccggag cggaagaagt tataatgcgc cttgttttta tttttaactc 8340

ttcacaacca aacatcaccc gccttttgcg gtaatagtgg tgatgatggt agtgatgcta 8400

ttttgacgca taagaatttt tttgactctc atagtatagc acaagtaaaa ttttttgcgc 8460

aaggttttgg tgagttgata gagttttgag gttgatatct aattgtcaag aaacggggat 8520

aatgtgcaca cattatcaca acagattgaa tatatgcggg ttttgtgaaa taatggcatt 8580

atatatcttg atgaacctca ccaaactcgc caattttttc tttgaacttg gcatgatgaa 8640

acgggaaaag catcagggtt ttgctattgc gggcgtgcat cacgacatgg ggtctttagc 8700

ggatcatacg tgtcgcgcgg ctttaattgg cgcaatttta gcggaaatgg aaggcgcgga 8760

cgtgaataaa gttgccatga tggtgctttt gcacgatata ccggaaacgc gcattgggga 8820

tcatcataaa gttgcggcgc ggtatttgga tacgaaaaaa gtggaacgcg ctattttttt 8880

agaacaaatt cagtttctgc ctgatccttt gcaaaaaaaa tggctcgcgc tctacgacga 8940

aaaagcaaag agaagcacta aagagggtat tgtcgcaaaa gacgcggact ggcttgaact 9000

ggcgatttcc gcgcgtgaat acatacacat cggctataaa gatttgcagt tgtgggttga 9060

taatgttcgg agcgcgcttg aaactgaatc cgccaaaaaa cttcttgcag aaatagaaaa 9120

acaaggcacc tacgactggg cccgcggttt agaaaagatg acatatcaga aattatcgtg 9180

atctgcaatt ttttgctata attataaaaa agtttcattc caacatctaa cgcaacattg 9240

aggaaaaact tcaatgcaat gatgagtatt gtgaaaaagt tgggaccagc tctctttccc 9300

attttgcagg atatgcgtct ctcgtatcag gtgcatggaa aggagtaaaa aaatacacgc 9360

cgcttgcaaa tttagaagac gtacggaata gagccgttgc gattagaaaa gaagcagaca 9420

aagaaaagcc agatagttta gagattgatc gtattttaac ggattttatg aatgcggagc 9480

taaaggaatt atggaatacc atagataaac gtattgttga tgcggcgaaa aagtttatac 9540

aaaacttcaa agatcatccc gaagacgcga ggagagcgaa ggtggagagt tggggactag 9600

aagaatggaa aagagattta gaacggatag tcaaaacccc aattaatcaa atgatggggg 9660

acgcatcatt tgtgattaac agaggagtgg atcagtatcg tgcgcgcgat atggcgaaaa 9720

ttatgggtaa gataagtgtt ttttatcaac cccttgtgtg ggagaaggcg tcataaccca 9780

tgagaattat cacaaaattc tctgcttcat atacaccatc gctccgtaaa gccccgagga 9840

atcgcagagc tttgattttt gaatcggcgg aaaggacggg aacaggggtt gatttgattt 9900

cttgacacgc tgtgagttgg gcagtagagt agtaagaaag taatattttt ttatattcat 9960

gaacactaag ataatacaaa aagctacatc tcgggggaaa attacgcttc caggacagtg 10020

gcgtaaaaag tttcctacga accaatatct tgttgaagtg gaagaagatt tgcttaagat 10080

taagcctttt gaagtggaca cggcggggca attagaagaa caagtaaaag tgttgaattg 10140

tgtcaataga tttgagggac ttgcgataaa aggaagaaaa tttgctaaaa agagaggaat 10200

taaaatggac gatgttttaa aagatgatta aagcagtact tgatacgaat attttaattt 10260

ccgcactttt ttggaaaggc accccatata ttattgtgca ggatggatta gagggtgtgt 10320

ttgaaatggt tacttcaaaa gcaataatga gtgaaacgaa agagaagttg attcaaaaat 10380

ttgaattttc tgttgaagat actctaagat acttggaact cttggtttgt aagtcgttcg 10440

ttgtatcacc gatggtacag cataatgtgg tgaaaaatga tagtactgat aataaaattc 10500

ttgagtgtgc ggtaagcgcc aacgcagatt atattgtgac aggagataaa catctactaa 10560

atatcaagca ttatcaaggg atcactattc tcactgcacg cagatttgat gagatacttg 10620

aaaatgaacg gagtagaatg agaagaaata agcgataggg acagaataac ttggatccaa 10680

ccttctaacg caacagcgtt aagaatgaat taattgattg aaaacctcgt atggtgtttg 10740

aaagtcgagt gtttttctcg gtcggccatt caggagatgt tgcgctcgtt tcacttcgta 10800

ccgcgatacc ttggtaaagt tggttccttt cggaaaaaat tgtctgatga gtccattggt 10860

gttttcgttc gtgcctcgtt cccatggact ccggggatgg gcgaagtaga ctttgactcc 10920

ggtcagattc gtgaataatt tgtggctggc catttcccgc ccttggtcgt atgtcatcgt 10980

cagtctcatt tgtttcggca attttttcac ttccttggca aacgctttgg ccacatcttc 11040

ggcagatttg cttttcacgg ggataaggat agtcgtgcgg gtcgtgcgct caaccagagt 11100

gccaagagcc gaacgattgt tctttccaac aatgagatcg cc 11142

<210> 25

<211> 13879

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 25

tttccaccgc cgctcaatca gtctagacat acaggtggaa aggtgagagt aaagacgtga 60

caaccttctc atcctcttca aagtctagac atacaggtgg aaaggtgaga gtaaagacaa 120

accgtgccac actaaaccga tgagtctaga catacaggtg gaaaggtgag agtaaagact 180

caagtaacta cctgttcttt cacaagtcta gacctgcagg tggtaaggtg agagtaaaga 240

cttttatcct cctctctatg cttctgagtc tagacattta ggtggaaagg tgagagtaaa 300

gacttgtgga gatccatgaa cttcggcagt ctagacctgc aggtggaaag gtgagagtaa 360

agacgtcctt cacacgatct tcctctgtta gtctaggcct gcaggtggaa aggtgagagt 420

aaagacgcat aagcgtaatt gaagctctct ccggtccaga ccttgtcgcg cttgtgttgc 480

gacaaaggcg gagtccgcaa taagttcttt ttacaatgtt ttttccataa aaccgataca 540

atcaagtatc ggttttgctt tttttatgaa aatatgttat gctatgtgct caaataaaaa 600

tatcaataaa atagcgtttt tttgataatt tatcgctaaa attatacata atcacgcaac 660

attgccattc tcacacagga gaaaagtcat ggcagaaagc aagcagatgc aatgccgcaa 720

gtgcggcgca agcatgaagt atgaagtaat tggattgggc aagaagtcat gcagatatat 780

gtgcccagat tgcggcaatc acaccagcgc gcgcaagatt cagaacaaga aaaagcgcga 840

caaaaagtat ggatccgcaa gcaaagcgca gagccagagg atagctgtgg ctggcgcgct 900

ttatccagac aaaaaagtgc agaccataaa gacctacaaa tacccagcgg atcttaatgg 960

cgaagttcat gacagcggcg tcgcagagaa gattgcgcag gcgattcagg aagatgagat 1020

cggcctgctt ggcccgtcca gcgaatacgc ttgctggatt gcttcacaaa aacagagcga 1080

gccgtattca gttgtagatt tttggtttga cgcggtgtgc gcaggcggag tattcgcgta 1140

ttctggcgcg cgcctgcttt ccacagtcct ccagttgagt ggcgaggaaa gcgttttgcg 1200

cgctgcttta gcatctagcc cgtttgtaga tgacattaat ttggcgcaag cggaaaagtt 1260

cctagccgtt agccggcgca caggccaaga taagctaggc aagcgcattg gagaatgttt 1320

tgcggaaggc cggcttgaag cgcttggcat caaagatcgc atgcgcgaat tcgtgcaagc 1380

gattgatgtg gcccaaaccg cgggccagcg gttcgcggcc aagctaaaga tattcggcat 1440

cagtcagatg cctgaagcca agcaatggaa caatgattcc gggctcactg tatgtatttt 1500

gccggattat tatgtcccgg aagaaaaccg cgcggaccag ctggttgttt tgcttcggcg 1560

cttacgcgag atcgcgtatt gcatgggaat tgaggatgaa gcaggatttg agcatctagg 1620

cattgaccct ggtgctcttt ccaatttttc caatggcaat ccaaagcgag gatttctcgg 1680

ccgcctgctc aataatgaca ttatagcgct ggcaaacaac atgtcagcca tgacgccgta 1740

ttgggaaggc agaaaaggcg agttgattga gcgccttgca tggcttaaac atcgcgctga 1800

aggattgtat ttgaaagagc cacatttcgg caactcctgg gcagaccacc gcagcaggat 1860

tttcagtcgc attgcgggct ggctttccgg atgcgcgggc aagctcaaga ttgccaagga 1920

tcagatttca ggcgtgcgta cggatttgtt tctgctcaag cgccttctgg atgcggtacc 1980

gcaaagcgcg ccgtcgccgg actttattgc ttccatcagc gcgctggatc ggtttttgga 2040

agcggcagaa agcagccagg atccggcaga acaggtacgc gctttgtacg cgtttcatct 2100

gaacgcgcct gcggtccgat ccatcgccaa caaggcggta cagaggtctg attcccagga 2160

gtggcttatc aaggaactgg atgctgtaga tcaccttgaa ttcaacaaag catttccgtt 2220

tttttcggat acaggaaaga aaaagaagaa aggagcgaat agcaacggag cgccttctga 2280

agaagaatac acggaaacag aatccattca acaaccagaa gatgcagagc aggaagtgaa 2340

tggtcaagaa ggaaatggcg cttcaaagaa ccagaaaaag tttcagcgca ttcctcgatt 2400

tttcggggaa gggtcaagga gtgagtatcg aattttaaca gaagcgccgc aatattttga 2460

catgttctgc aataatatgc gcgcgatctt tatgcagcta gagagtcagc cgcgcaaggc 2520

gcctcgtgat ttcaaatgct ttctgcagaa tcgtttgcag aagctttaca agcaaacctt 2580

tctcaatgct cgcagtaata aatgccgcgc gcttctggaa tccgtcctta tttcatgggg 2640

agaattttat acttatggcg cgaatgaaaa gaagtttcgt ctgcgccatg aagcgagcga 2700

gcgcagctcg gatccggact atgtggttca gcaggcattg gaaatcgcgc gccggctttt 2760

cttgttcgga tttgagtggc gcgattgctc tgctggagag cgcgtggatt tggttgaaat 2820

ccacaaaaaa gcaatctcat ttttgcttgc aatcactcag gccgaggttt cagttggttc 2880

ctataactgg cttgggaata gcaccgtgag ccggtatctt tcggttgctg gcacagacac 2940

attgtacggc actcaactgg aggagttttt gaacgccaca gtgctttcac agatgcgtgg 3000

gctggcgatt cggctttcat ctcaggagtt aaaagacgga tttgatgttc agttggagag 3060

ttcgtgccag gacaatctcc agcatctgct ggtgtatcgc gcttcgcgcg acttggctgc 3120

gtgcaaacgc gctacatgcc cggctgaatt ggatccgaaa attcttgttc tgccggttgg 3180

tgcgtttatc gcgagcgtaa tgaaaatgat tgagcgtggc gatgaaccat tagcaggcgc 3240

gtatttgcgt catcggccgc attcattcgg ctggcagata cgggttcgtg gagtggcgga 3300

agtaggcatg gatcagggca cagcgctagc attccagaag ccgactgaat cagagccgtt 3360

taaaataaag ccgttttccg ctcaatacgg cccagtactt tggcttaatt cttcatccta 3420

tagccagagc cagtatctgg atggattttt aagccagcca aagaattggt ctatgcgggt 3480

gctacctcaa gccggatcag tgcgcgtgga acagcgcgtt gctctgatat ggaatttgca 3540

ggcaggcaag atgcggctgg agcgctctgg agcgcgcgcg tttttcatgc cagtgccatt 3600

cagcttcagg ccgtctggtt caggagatga agcagtattg gcgccgaatc ggtacttggg 3660

actttttccg cattccggag gaatagaata cgcggtggtg gatgtattag attccgcggg 3720

tttcaaaatt cttgagcgcg gtacgattgc ggtaaatggc ttttcccaga agcgcggcga 3780

acgccaagag gaggcacaca gagaaaaaca gagacgcgga atttctgata taggccgcaa 3840

gaagccggtg caagctgaag ttgacgcagc caatgaattg caccgcaaat acaccgatgt 3900

tgccactcgt ttagggtgca gaattgtggt tcagtgggcg ccccagccaa agccgggcac 3960

agcgccgacc gcgcaaacag tatacgcgcg cgcagtgcgg accgaagcgc cgcgatctgg 4020

aaatcaagag gatcatgctc gtatgaaatc ctcttgggga tatacctggg gcacctattg 4080

ggagaagcgc aaaccagagg atattttggg catctcaacc caagtatact ggaccggcgg 4140

tataggcgag tcatgtcccg cagtcgcggt tgcgcttttg gggcacatta gggcaacatc 4200

cactcaaact gaatgggaaa aagaggaggt tgtattcggt cgactgaaga agttctttcc 4260

aagctagacg atctttttaa aaactgggct gctggctatc gtatggtcag tagctcttat 4320

ttttttactt gatatatggt attatctcaa taatatgcat ctcttcatag atacaacaga 4380

aaaagaatca tttgatattg ctttgattga tgatgagcgc gttatcaaaa agaagcgaat 4440

caaatcaatc cgccaacatt cggaaaagct tttgaaatca attgacgcgc ttttgttgtc 4500

cgcaaaatca tctctgaaag atatacaagg catcatcgcg gtaaaaggcc ctgggtcatt 4560

tacctcattg cgcattggaa tcgcgacagc caacgcgttg gcattcgctt tgggagtggg 4620

gattgctgga gttgacaaaa cagatgagtg gagtaagatt gtttcttcag cagatttgat 4680

ctttaaaaag caaaaaaaga acttaaatat cgtcataccc gaatacggca gagagccgga 4740

cattacctaa ataggagggt ttagaaatgt tattgctcat tttgattctc acaatagttt 4800

tgagcatcat tcttttgtgc ttttgcgcgt ttattctctg cataatcaca gaagatggca 4860

gggaaatgct tttgatgttt ggaataggca aatgccactt gaattattaa agtggctttt 4920

ttatttgtac aaaaacagtg tcagagcgcc gattcggcgc tctgacactg ttttacaaac 4980

cctcacccca accctctccc gaatacagga gagggaattt ttatactgtg cataacttgt 5040

gcgcaaatag tgcctagata agggttgcgt aaaattacaa gagtggtgta taatatcatc 5100

atagtggtga ggagtgggga taagtggtgg agaacctcat caataataga taccaatgtt 5160

cataggagaa tacaaacata ctattgatac caaaggaaga atggcaatac ctgccaaatt 5220

tcggcaggat ttgaaaaagg gcgcaatcgt aacaaaagga ttggataatt gcctttttgt 5280

atacactcaa gatgaatgga aaaaactcgt ggacaagcta tctaatcttc caatctcaca 5340

gcagaaaagc cgggcatttg ccagattaat gctagcagga gcaatggacg tgcaaattga 5400

ctcccaaggc agaattctta taccagaata tcttcgcaaa ttcgcgtcaa tcaagaaaga 5460

caccataata gcagggcttt acagtcggct tgaaatatgg gattcaaaag aatgggaaaa 5520

atacaaatca gccactgaaa agataagcac aaaaatagct gaagagctca cgctctaggc 5580

caaaaacaaa aataaaattc aaaacaatca cgagatcctt cgactccgcg agtacgcttc 5640

gctcagagcc tgccccgagt attccgaggg gatgacggtt gaaattcgga tggcataata 5700

attttatttt tggagctggt cttttagtag ctccattttt tatcccatga gcaaatcaga 5760

acacatacca gtattattaa acgaagtaat tgaaggtctt gacttgtcct ctaatgatac 5820

agtaatagac gccacagtag gcggagcagg acacgcgcaa gctattttag aaaaaaccgc 5880

gccatcaggc aagcttcttg gaattgattg ggacgcgaaa gcaatcgagc gcgcgcgaga 5940

acatctaaaa agatttagca accgaattat attaaaaaca ggaaattaca cagatataaa 6000

acaacttctc tatgaatcag gaattaataa ggttaatgct atattattgg acttgggctt 6060

atctcttgat caactcaaag attcctctag aggatttagc ttccaatctg aaggaccatt 6120

ggacatgagg ttttctgacc agatggacac aacagctttt gatattgtga acacctggcc 6180

agagaatgat ctggtacaaa tctttcaaga atacggtgaa gagaggcgcg ctgcacgtgc 6240

agcacgcaat atcgccactg cgcgcagtca cgcgccaatc aacaccgcaa aagatctggc 6300

agaattagtt atgcgcgggg ccggaaggcg aggcaaggtt catcccgcta cccgcatatt 6360

ccaggccctg cgcattgcta caaatcatga attagacaat gtcaaacaag cattgcctaa 6420

tatgattgat atgctttctt cagaaggaag attagcagtt atcacattcc attccttaga 6480

agaccgcatt gtgaagcagt atttcaagcc attggctaaa gaggaaaatc cgcgcattaa 6540

gctcatcaat aagaaagtaa taaagccaag ccgagaggag caagtgaaaa atccagcatc 6600

cagaagcgcg aaattgagaa tcgtggaaaa gatttaatca ttccaaaaac aaaaatagca 6660

tcacatgaca acatattcgc acaaaaaaac gccgtatctg tggcacgcat tttcaatatt 6720

gctgatttta gtattagtgg ttacttattt agtacagata aacagccaag cagaaacatc 6780

ttactctatt aaaggattag aagaaaaaaa gcaagaattg aatagtatta tagaagataa 6840

agaacttgaa gcagtttcag cgcgatcttt aaatggaatc gcgcttaagg caaaagaaat 6900

gaatttgcag gatccaaagg atgttacatt cataaaaata ggattaagca cagttgccgt 6960

gagcgaagag ctttctccat aacatgactt catattcatc atcaaaaaag agcaattcag 7020

ctacgcgcgc gaaattcata attggcgcgg tttttatttt tggcgttatt ttgatttacc 7080

gcttagctga tttacagctt atcaatactc aagaaattca ggcatctgcc gcgcgccagc 7140

agtcaacagt gcgcatcctt ccagctgaac gaggcaagat tttttacaag gagagaatag 7200

gtgatgaaga atttccagtc gcgactaata gatcatataa ccaggtattc attattccaa 7260

aagacataca ggatccaatc aaagccgcgg aaaagctatt gcctttggtt gagccatatg 7320

ggcttgatga agaaacatta ttattccgat taagcaagca aaatgacatt tacgagccat 7380

tagcgcataa attaacagat gaagagcttg agccatttat tgggcttgat ttaattgggc 7440

ttgaatcaga agatgaaaaa gctaggtttt acccggacgc tgatttgctc gcgcatataa 7500

ctgggtttgt cggggtttca gaacaaggca aggttggtca atatgggctt gagggatttt 7560

ttgaaaatga gctcaaagga aaggacgggc ttattgaggg caaaacagat atatttggca 7620

ggcttataca aacaggaact ttaaaacgca cccaaggcga gccaggagat gatttattat 7680

taaccataca gcgcactttg caggcatatg tgtgcagaaa attagatgaa aaaattgagc 7740

aaataagagc tgctggcgga tcagtaataa ttgtgaaccc agatactggc gctattctcg 7800

cgatgtgctc ttcaccatca tttgatccga ataattataa tcaagttgaa gatattagcg 7860

tatacatgaa tccagcagtg agctcaagct atgagccagg atcaattttc aagccattta 7920

caatggccgc ggcaattaat gagaaagcag ttactagcga tacaacatat attgatgagg 7980

gagtggaaga gatcggcaaa tacaaaatcc gcaattctga caacaaagcg cacggggaag 8040

ttaatatggt aactgtttta gatgaatcat tgaatactgg cgcgattttt gtccagcgtc 8100

agattggaaa tgagaagttc aaagattatg ttgaaaaatt cggatttggc agaacaacag 8160

atattgaatt aggaaatgag gtttctggaa atatttcttc attgtataag gatggagata 8220

tttacgcggc aactggctcg tttggccaag gaattactgt tacgcctatt cagatggtaa 8280

tggcatatgc ggcgattgct aatggaggaa aattaatgca gccatatctt attgctcagc 8340

gacaaagaca ggataaaact attgtaactg agccagttca aattgatgag ccgatttcag 8400

tgcaggcctc aactattata tctggaatgt tggtgagcgt ggtgcgtgct gggcacgcta 8460

tatctgctgg agtggaagga tattatattg ccggcaaaac tggaaccgcg caggtcgcgg 8520

aaggcggagg gtatggaagc aagaccattc attcatttgc cgggtttggg cctgttgatg 8580

agccagtgtt tgcaatgctt gtgaaattag attatcctca atacggcgca tgggcagcta 8640

atactgcggc tcctttgttt ggcgaattag ccaaatttat actacaatac tatgaaatac 8700

ctcctgatga ggcgatataa ataaaatatg aaaaaaataa taattacaat tttacaaact 8760

ctggccaaaa gagttattta caaatataag cccaaagtgg tggctattac tggctcagtc 8820

ggaaaaaccg cgactaagga ggcagtgttt gctgtattga ataagaaatt gcaagtgcgc 8880

aagaatgaag gcaattttaa cacggaaatc gggttgcctt tgacaatcat tggcttgcaa 8940

aaatcaccag gcaaaaatcc attcaaatgg cttgcagtgt acgcgcgcgc tattggcctt 9000

ttaatcttta ggattgatta tccaaaagtt ttggttcttg aaatgggcgc tgataagcca 9060

ggagatattg ctgaattaat aagtattgct aagccagaca ttggcataat taccgcgatt 9120

agcgctgttc atacagagca gtttaatagt attgctggcg ttgtgcgtga aaaaggaaag 9180

ctctttcgcg ttgttgaaaa ggatggttgg attatcgtga ataacgaccg atctgaagtt 9240

tatgatatcg cgcaaaagtg cgacgcgaaa aaagtatata ttgggcagtg cgctgaatta 9300

tctgataaca cccctttttc agtatgcgcg tccgagattt cagtgagcat gtcagaagct 9360

caagaaaccg gcattgctgg cacttcattt aagcttcata ctgatggaaa ggttattccg 9420

gttttgatga aaggaattat tggggagcat tggacatatc ctgccatgta cgcggcagct 9480

gttgcgcgca ttcttggggt tcatatggtt gatgttactg agggtttgcg cgagattaat 9540

cctcaatcag gaaggatgcg agttttagct ggcattaaaa aaacaatttt aattgatgat 9600

acttataatt cttcgccaaa cgcggctaag agcgcggttg atactttagc gttattgcgt 9660

attggaaggg agaaatattg cgtgtttggg gatatgttgg agcttggttc tatatctgaa 9720

gaagagcatc aaaaattagg catgcttgtc gcgcgcgagg ggattgatta tctgatttgc 9780

gttggcgagc gcgcgcgcga cattgcgcgg ggcgctataa aagcaaagat gccgaaggat 9840

catgtgtttg aatttgataa tactaaagat gctgggctct ttatccaaaa gcgtttggag 9900

caaggggata tggttctgat taaaggttcg caaggcgtgc gcatggagcg cgtgaccaaa 9960

gagattatgg cgcatccgga aaaatcaaaa gaacttcttg tgcggcaaag taaagaatgg 10020

ttgagtaagg cctagtgcgt atttttgata atttcctcca cttcttccgc attttctgca 10080

tccatcaatt tcacgcgcaa ttgctttgcc ccatcccagc cagaaacata ggccttgaaa 10140

tgttttttca ttacagcgaa tgatttgtgt ttgataagtt tttcgtagag tttggcgtgc 10200

tctattaaaa cgcgcaattt gttatctttg ctgggataga aaacggagaa aacggtgtca 10260

agagtcgttt tctgtaaaaa acgactcctg acaccgtttt ctttgaagaa ccacggattg 10320

ccgaaaattg cgcggccgat cataacgcca tcaacaccgg tctcccgggc tttttgatgc 10380

gcatcgtcta aatacgaaac atctccattc ccgataataa gcgtcttggg cgcgattttg 10440

tctcgcatct gaataacgct tttagccaaa tgccatttag caggaacgcg ggacatttct 10500

tttctagtgc gccagtgaat cgtcaaagcc gcaatgtctg tcttcagaag aataggaatc 10560

caggtatcaa tttcattttt cgtatatcca atgcgcgttt taacagaaat tggcaatttt 10620

ggcgcgcctt ttttggctgc agcaatcaaa gcgcgcgcta aatcagggtt tttcatcaaa 10680

ccagccccag cgccttgctt ttcaactttc cggtccgggc atcccatgtt aatatctaat 10740

ccatcaaaac ccaaatcctg aattatgcga gctgtttttt tcatattatc tggatttgct 10800

gtaaatactt gcgcgacaat aggccgctct ttcgcggaaa atttaagatt tttaagaatt 10860

tcatctttgt cgccaagagc aatgccatcc gcggacacga attcagtcca cattacatct 10920

ggcttgccat actttgcgat aatccgccta aaagccgcgt ctgtcacgtc agacatagga 10980

gccaaacaga agaatggttt tttgagttgt tgccaaaaat tattcatgtc atcttgcgct 11040

tatttgtcat cccgaggctt aattatatat ttttagaaaa taggatgtgg taaacggatt 11100

atataagtgt aatagtaatg ccacacaagc cgagaggatc tcgtctttaa gagctcgaga 11160

tgacaataca aggcgagaga atctcgcgac taataactat gcttattatc aaataaatcc 11220

ttccaatcag aattgaattt gtttataagc aacaccttat ttctgtggct tagttttttt 11280

agcttctttt cgcgctcaat agcatacgag atattgtcaa agtgttcata atacaccagt 11340

ttatcagtat tgtattttga agtaaaccct ggtatttttt tatttttatg ttcccaaatt 11400

cttctggata atgaattgca tactccggta taaaataccg tatgtcgtat gtttgttgtt 11460

atatatacat aaaagttata ttgattttgt cttggcatgt ttttgtttca taagatcctc 11520

tcggcctgca aggatttttg ttttggactc catgattcgt ttaccacata ttcgatatta 11580

tgtagtattg taaggtctcg ggatgacagg taaaaggcat gggaatggca tctaaatctc 11640

ctcctttttc tcatgcacat aattcatcca ttcctcaatc acttttataa acgccttgaa 11700

cggagcctct ataataaaat ccaacgcaaa aatgaaaatg ttaatttgcg cgaaccgcgt 11760

ggacatccat ttgccagcat gcagaatcgg aattgtaaaa aacgcccata agccccggat 11820

aaatccttgc tttgggggca ggacaatcat ttcctgattt gactggcgga tgcggtacgc 11880

gaataaggaa acaaacgaga ggaacaagag aaagataaaa atgccgataa acgtgaaatt 11940

cagcgcgatc aaaatataaa tcatcaaacc gaacgaaatg ccaaatagca ttccgtacaa 12000

caaagtaaac accgcgcgca ggaaaaagct acgcttgcta gatttgcgca tctgaataat 12060

ttcgccttga ttttggataa tatgatttat gccacttatc atttgattgg tgttttcttc 12120

atcaggcagt ttagttgaga gtgcgataag cgcgagcaag gcaggcggaa aaattaaatt 12180

aatagccaaa ggcatataat caattttgtg aatcaataaa taatcaacag gaatttccag 12240

aaccacggct aataaaaatt tagtaattac caaataaata atacttcgct taatgcctcg 12300

gtgtaaagaa gcgcgggatt tttcgtactg cttttggcag atggcgcgca ccctttgctc 12360

aaattcatgc ccggtgttca tatcagacca ggcttttcct ggatcctgcg caatcgcgtc 12420

ttgcaaaata gtgaaatatc caacgtattt cctgaacaaa ggagcgagtt tttcttttat 12480

aggcgagttt aaatcttgcg ttattgtaga gtgtatttca ttcaaatgct ctcctatttc 12540

ccgtataaga tcgtgatttg cgcgcgtcca ttctggataa taggtcaata gcaaatgata 12600

tccaatagtg tcattgtcgt ttttatatag aattcggcta gtggctatat aaatctgctt 12660

caaacgttct cgatcattaa tttcatcctc aattctaacg cgctcctgaa gatattcata 12720

catggcattg attgacgcgt gcattacata tggtggcata aggaattcgt caatttccgt 12780

tgctgctatg ccagagagcc aaaatgaaag agaagaagaa tcattgatat cttttatagg 12840

agcgtgacca agcaaggtga aatatttttc aaatataata tcaagttctt ttatttttcg 12900

ttcagggata gtattgttcg gaaggtaccg cgcgtggata agttctgaaa ttagattttc 12960

tgagatatta tttttatggc ctgatgaaat cattctacgc aaaatgcgct caatcgcgtt 13020

tctgcggatt aaatgttctt ctttatattc aaccgcgttg cgcatgcgct cgtatataaa 13080

agttgcctgt ccagcgcggg tggttatgga gatttttggt tcggtcgggt ctgtatcttt 13140

tgagcgcgct tcttccctgg ccgcgcgcac gattcgctgg attgtttctg gtatttgcat 13200

ttctttatac tagctgattt tgcttgtttt ttcaattgtt ttataaaaaa agtgcccgga 13260

atgcaaattg cgcattccgg gcttggggag acagggcagg ggatgccctg tttggggctt 13320

actgccggtc ggtcagatca cgggctacta ccgccgcaat cctcgccacc gcccaggcag 13380

taacgagacg actctttttt tacctgattg acgaccgtac cgtcgagcag gacgttatcg 13440

ccgagcagat tcgctgtatt gatgtccgta gccgcggtag ccgcgatagt cgtggtcgtc 13500

gtcgtggttt ccgtagtggc tgtgccgacc gcgctgtttt cgccgccctc ttttgtcatc 13560

cgaatgacat catcgccatt cagagtcgtt tcctcgctga ccgggttgtt ggtcccgcag 13620

ccgatcattc cgatcagggc gaccagcgcg atacagaaga aaatcatgaa atacttcatc 13680

gggtgctcct ttttatgagg tttttggaaa acgatatcac gctttgtatt attcacctcc 13740

cttccaaagc aagcgcaata tcggtctttt ttactatttt aagaacggac gagcatctta 13800

tactatttta aaaataatgt caagagtgtt aacaaataca aaaaattgac tcatataaaa 13860

acggtgtcag gagtcgttt 13879

<210> 26

<211> 7532

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<220>

<221> 尚未归类的特征

<222> (2669)..(2692)

<223> n是a、c、g或t

<400> 26

tacctaatcc tgggcgtctt tggtgtatta tgcacttgcg gttagaatac acccgaacat 60

aattgacaaa gaccataaaa tgtcttatta tccttttaga aaaatcgtgt tcatttataa 120

tatatacata ccccaattcc aaggatttct tgactggcag cgggcttggt atcctgcgaa 180

acacagccag tttgggaaac ctgggtcttt atttttaaag acacaggaat tcccgcgtct 240

tttgccttgg aacaccaacc acctattgcg ccttttttct cattttagca aaagtggctg 300

tctagacctt caggtggaaa ggtgagagta aagacattgg gcctgcacga ttcatgggcc 360

ggtctagacc ttcaggtgga aaggtgagag taaagactct accgcgtcca gcactatctt 420

ggtccgtcta gacatttaga tggaaaggcg agagtaaaga tgcgcgaaag acggctacat 480

tgttccacaa ggcagaaagg attagccgcc tactgcttga acatccgcag tatttaaccc 540

attttcccaa aggaggaaaa tcatgggtac gcagattatc aagcggatag accttgactg 600

gcagtcaagt tttccgcacg ccaagatgct ggtgaatcag gaagcatcat ttaaccacat 660

tgcagagtcc ggactcacgg cgctcataga agcgccgacc ggatccggaa aaaccgcgac 720

tggctatacc tttctttcgg ccatagccct tcgcgcgcgc aagagtccgc aatttaaggg 780

ccggctcgtg tatgttgctc cgaataaagc attagtcggg caggtgcaga acatgcatcc 840

agatgtgaaa gtcgcgcttg gtcgcaacga gcatacatgc tcgtattacg atggaattca 900

tcaagcagac gaagtgccgt gttcgttttt ggttcgctcc ggccggtgtg gccactatgt 960

gaatcaagaa accggcgcaa cacttgaatt tggagctgaa ccatgttcgt attatcagca 1020

aatctatgag gcaaagcgcg gcatcggaat tctggcatgc actgacgcgt tttggctgtt 1080

cacgcatttg tttaatccaa agcagtggcc tcagcccatg ggtttggtat tggacgaggt 1140

tgaccgcttg gctgatattg ttcgcaggtg cttgtcatac gaaatttctg attggcgcat 1200

tgagcgcgcc attaatttgc ttgaaaaagt cggttcagtt caggtgcagt atctctcgtc 1260

ttttttgcgc accttgaatc gggtggtatc aaaaaagccg gccctggagc ccattttgct 1320

ggatgatgag gagattcgcc aactgtttga aaaagtgggg cgcatcagcg cggatgtcat 1380

caaatccgat ttggacgccg cgattgcgag caacaaggtt gaccctatgg ctgagcgcga 1440

aatccttaag cagatagaaa cactttgctt tgacatcagc cggtatgtgc ggagtttggg 1500

atacgcgctt ccgaatcgca gaggcaaggg tgatgaacgc aagcgcgatg ctcctctttc 1560

gtacgcgtac gcgtatcata aatccgagcg cgacgctggg gcgcatgtgc agaacaaagt 1620

tgtggtgtgt tcctattggg tgcggcctct tatccgcaag ctctttggaa agaacacgct 1680

cgcgtattca gcgtttgtcg gggataaaac gattttggat tatgaggctg gagttgattt 1740

tccattaatc tctctgcggt cccaatttcc ggcgagcaat gcgcgattgt atgtgccgag 1800

cgattctcca aatttggcat ataatgagca ggatgtcggt gacatggcta agactttgcg 1860

ccatattgcc atatcaactc ggcggtttgc cgagcgcggc tttcgttctc tcttgctgac 1920

tgtttcaaat agagagcgtg aattgctgta cgtcgcgtgc gcggaactga aagggctgga 1980

tgctataagt tatggcagtg gcgttactgc gcgcgcggcc gcggatagat tcaaagaagg 2040

agaaggggac gctcttattg gcgttttgtc gcattatggc actgggctgg atttgccagg 2100

caagattgct aacattgttt ttctcctgcg gccgaatttt cctccaccaa aagatcctat 2160

ggcacagttt gagattcgcc gggccgagcg catcaaaaag tcgcattggc ccgtgtggta 2220

ctggcgcgcg taccgagagg ctctgaatgc ccagggacgc ccgatacgaa gcgccgatga 2280

caaaggggtc gcgttcttta tctcccagca attcaagaag cgtttattca acattttgcc 2340

ggagcatctt gagagcgcat atcggagccg cctcacatgg gaccagtgcg agaaagacgc 2400

gctgaaactg tttgaggaat aggggtatta tttcgttgtt tttatggccc ggatggtgtt 2460

ttttatacat catccgggtt tttatgttga tttgatgcga taatcatgat ttttgcgtgg 2520

tattgacaaa cattataaaa aacgctatta tccgcgtaca aaacctataa atcgttcatt 2580

tataatatat acatacccca attccaagga tttcttgact ggcagcgggc ttggtatcct 2640

gcgaaacaca gccagtttgg gaaacctgnn nnnnnnnnnn nnnnnnnnnn nngccagttt 2700

gggaaacctg ggtctttatt tttaaagaca caggaattcc cgcgtctttt gccttggaac 2760

accaaccacc tattgcgtct ttttcgctca ttttagcaaa agtggctgtc tagacataca 2820

ggtggaaagg tgagagtaaa gacatggcct gaatagcgtc ctcgtcctcg tctagacata 2880

caggtggaaa ggtgagagta aagaccggag cactcatcct ctcactctat tttgtctaga 2940

catacaggtg gaaaggtgag agtaaagaca aaccgtgcca cactaaaccg atgagtctag 3000

acatacaggt ggaaaggtga gagtaaagac tcaagtaact acctgttctt tcacaagtct 3060

agacatacag gtggaaaggt gagagtaaag actcaagtaa ctacctgttc tttcacaagt 3120

ctagacctgc aggtggtaag gtgagagtaa agactcaagt aactacctgt tctttcacaa 3180

gtctagacct gcaggtggta aggtgagagt aaagactttt atcctcctct ctatgcttct 3240

gagtctagac atttaggtgg aaaggtgaga gtaaagactt gtggagatcc atgaacttcg 3300

gcagtctaga cctgcaggtg gaaaggtgag agtaaagacg tccttcacac gatcttcctc 3360

tgttagtcta ggcctgcagg tggaaaggtg agagtaaaga cgcataagcg taattgaagc 3420

tctctccggt ccagaccttg tcgcgcttgt gttgcgacaa aggcggagtc cgcaataagt 3480

tctttttaca atgttttttc cataaaaccg atacaatcaa gtatcggttt tgcttttttt 3540

atgaaaatat gttatgctat gtgctcaaat aaaaatatca ataaaatagc gtttttttga 3600

taatttatcg ctaaaattat acataatcac gcaacattgc cattctcaca caggagaaaa 3660

gtcatggcag aaagcaagca gatgcaatgc cgcaagtgcg gcgcaagcat gaagtatgaa 3720

gtaattggat tgggcaagaa gtcatgcaga tatatgtgcc cagattgcgg caatcacacc 3780

agcgcgcgca agattcagaa caagaaaaag cgcgacaaaa agtatggatc cgcaagcaaa 3840

gcgcagagcc agaggatagc tgtggctggc gcgctttatc cagacaaaaa agtgcagacc 3900

ataaagacct acaaataccc agcggatctg aatggcgaag ttcatgacag aggcgtcgca 3960

gagaagattg agcaggcgat tcaggaagat gagatcggcc tgcttggccc gtccagcgaa 4020

tacgcttgct ggattgcttc acaaaaacaa agcgagccgt attcagttgt agatttttgg 4080

tttgacgcgg tgtgcgcagg cggagtattc gcgtattctg gcgcgcgcct gctttccaca 4140

gtcctccagt tgagtggcga ggaaagcgtt ttgcgcgctg ctttagcatc tagcccgttt 4200

gtagatgaca ttaatttggc gcaagcggaa aagttcctag ccgttagccg gcgcacaggc 4260

caagataagc taggcaagcg cattggagaa tgtttcgcgg aaggccggct tgaagcgctt 4320

ggcatcaaag atcgcatgcg cgaattcgtg caagcgattg atgtggccca aaccgcgggc 4380

cagcggttcg cggccaagct aaagatattc ggcatcagtc agatgcctga agccaagcaa 4440

tggaacaatg attccgggct cactgtatgt attttgccgg attattatgt cccggaagaa 4500

aaccgcgcgg accagctggt tgttttgctt cggcgcttac gcgagatcgc gtattgcatg 4560

ggaattgagg atgaagcagg atttgagcat ctaggcattg accctggcgc tctttccaat 4620

ttttccaatg gcaatccaaa gcgaggattt ctcggccgcc tgctcaataa tgacattata 4680

gcgctggcaa acaacatgtc agccatgacg ccgtattggg aaggcagaaa aggcgagttg 4740

attgagcgcc ttgcatggct taaacatcgc gctgaaggat tgtatttgaa agagccacat 4800

ttcggcaact cctgggcaga ccaccgcagc aggattttca gtcgcattgc gggctggctt 4860

tccggatgcg cgggcaagct caagattgcc aaggatcaga tttcaggcgt gcgtacggat 4920

ttgtttctgc tcaagcgcct tctggatgcg gtaccgcaaa gcgcgccgtc gccggacttt 4980

attgcttcca tcagcgcgct ggatcggttt ttggaagcgg cagaaagcag ccaggatccg 5040

gcagaacagg tacgcgcttt gtacgcgttt catctgaacg cgcctgcggt ccgatccatc 5100

gccaacaagg cggtacagag gtctgattcc caggagtggc ttatcaagga actggatgct 5160

gtagatcacc ttgaattcaa caaagcattt ccgttttttt cggatacagg aaagaaaaag 5220

aagaaaggag cgaatagcaa cggagcgcct tctgaagaag aatacacgga aacagaatcc 5280

attcaacaac cagaagatgc agagcaggaa gtgaatggtc aagaaggaaa tggcgcttca 5340

aagaaccaga aaaagtttca gcgcattcct cgatttttcg gggaagggtc aaggagtgag 5400

tatcgaattt taacagaagc gccgcaatat tttgacatgt tctgcaataa tatgcgcgcg 5460

atctttatgc agctagagag tcagccgcgc aaggcgcctc gtgatttcaa atgctttctg 5520

cagaatcgtt tgcagaagct ttacaagcaa acctttctca atgctcgcag taataaatgc 5580

cgcgcgcttc tggaatccgt ccttatttca tggggagaat tttatactta tggcgcgaat 5640

gaaaagaagt ttcgtctgcg ccatgaagcg agcgagcgca gctcggatcc ggactatgtg 5700

gttcagcagg cattggaaat cgcgcgccgg cttttcttgt tcggatttga gtggcgcgat 5760

tgctctgctg gagagcgcgt ggatttggtt gaaatccaca aaaaagcaat ctcatttttg 5820

cttgcaatca ctcaggccga ggtttcagtt ggttcctata actggcttgg gaatagcacc 5880

gtgagccggt atctttcggt tgctggcaca gacacattgt acggcactca actggaggag 5940

tttttgaacg ccacagtgct ttcacagatg cgtgggctgg cgattcggct ttcatctcag 6000

gagttaaaag acggatttga tgttcagttg gagagttcgt gccaggacaa tctccagcat 6060

ctgctggtgt atcgcgcttc gcgcgacttg gctgcgtgca aacgcgctac atgcccggct 6120

gaattggatc cgaaaattct tgttctgccg gctggtgcgt ttatcgcgag cgtaatgaaa 6180

atgattgagc gtggcgatga accattagca ggcgcgtatt tgcgtcatcg gccgcattca 6240

ttcggctggc agatacgggt tcgtggagtg gcggaagtag gcatggatca gggcacagcg 6300

ctagcattcc agaagccgac tgaatcagag ccgtttaaaa taaagccgtt ttccgctcaa 6360

tacggcccag tactttggct taattcttca tcctatagcc agagccagta tctggatgga 6420

tttttaagcc agccaaagaa ttggtctatg cgggtgctac ctcaagccgg atcagtgcgc 6480

gtggaacagc gcgttgctct gatatggaat ttgcaggcag gcaagatgcg gctggagcgc 6540

tctggagcgc gcgcgttttt catgccagtg ccattcagct tcaggccgtc tggttcagga 6600

gatgaagcag tattggcgcc gaatcggtac ttgggacttt ttccgcattc cggaggaata 6660

gaatacgcgg tggtggatgt attagattcc gcgggtttca aaattcttga gcgcggtacg 6720

attgcggtaa atggcttttc ccagaagcgc ggcgaacgcc aagaggaggc acacagagaa 6780

aaacagagac gcggaatttc tgatataggc cgcaagaagc cggtgcaagc tgaagttgac 6840

gcagccaatg aattgcaccg caaatacacc gatgttgcca ctcgtttagg gtgcagaatt 6900

gtggttcagt gggcgcccca gccaaagccg ggcacagcgc cgaccgcgca aacagtatac 6960

gcgcgcgcag tgcggaccga agcgccgcga tctggaaatc aagaggatca tgctcgtatg 7020

aaatcctctt ggggatatac ctggagcacc tattgggaga agcgcaaacc agaggatatt 7080

ttgggcatct caacccaagt atactggacc ggcggtatag gcgagtcatg tcccgcagtc 7140

gcggttgcgc ttttggggca cattagggca acatccactc aaactgaatg ggaaaaagag 7200

gaggttgtat tcggtcgact gaagaagttc tttccaagct agacgatctt tttaaaaact 7260

gggctgctgg ctatcgtatg gtcagtagct cttatttttt tacttgatat atggtattat 7320

ctcaataata tgcatctctt catagataca acagaaaaag aatcatttga tattgctttg 7380

attgatgatg agcgcgttat caaaaagaag cgaatcaaat caatccgcca acattcggaa 7440

aagcttttga aatcaattga cgcgcttttg ttgtccgcaa aatcatctct gaaagatata 7500

caaggcatca tcgcggtaaa aggccctggg tc 7532

<210> 27

<211> 16262

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 27

cggaaaggcg gcccagaaac gggttgacca aattttgtgt tcagtggtga tgatggcgat 60

gycgatgtcg ctgcttacgc gggcgttgtg caggccgatg gagtcggaaa tcagaatggc 120

ctggacgtgg gggagggtgg ccagccagcg caggtaatga tgccgtttgc gcagtttggt 180

ttcggtgagg ccgtagcggg ccaggcgcag ggggacgagg tgggagcggt ttttgaggtg 240

ataaaagcca tcggtgtgag tgatgtgtgg gtgagtggcg agggcggcag tgagttcggc 300

gggcgtggtg gtgtgttgcc acagccagcg ctggagttca ccggcggtca gcggaaattc 360

catgaggtca aagtagctca tggtggcggt gatggcgtgc tcgagttggg ggcgacaagc 420

gggtttcatg ctcctattat agcagatttt cagagttgga tttttgctgt tttttcttgg 480

ccggagtacc cgttttttta ttgtttgaaa aatcagggct taaaaatttt aggtgagagt 540

ctttttgcta tatccaagaa gaaattttgc catatttttt ggtcaatttt tattttcatt 600

cttggtaggt cttttaattc ggtcactttt aatagttggc ttcccatttg tactgggtcg 660

atgtgccagt caaattttat cttggccttt tttatcagat catcgaatgt ccattctttt 720

ttttggagaa tacaatacag gtctataaaa tcccgtgaac gtggtttttg atacatggta 780

aatactttgt tgacggcaat gtctaacagg ctgtcaattt tcagaccgtt tgttttcaag 840

cccttttgta taatcggaaa ggggtagtag gtaaattccg ttttgataac atccttgtcg 900

atatggataa aaaacagatt ccggttgaag ctctgctgaa aatctatctt tttaaatttt 960

acctttttct gtattttttt gagtatagta aaaatatccg tagaatcgaa ttctttttcc 1020

gaaaagaaat ccaaatcttc ggataaccga tgatgcagat aaaattctgc gagagcggtg 1080

ccaccggaaa gataaaattt ttcccggatg agtttttctt gtgatagctg ctgaaggaga 1140

gcgctttggt tggttgtcag gattgttggc cccataggag aaaagataaa aattttttct 1200

tacctgggtc gaggtccagc ctatcccagt actttttcag ttgacttcgc ttgatttttt 1260

ttccacccaa gccaaaattt accatctgtt cgagtttcca gatagtgtat ttttctttat 1320

ttttttttag ctctgtgagg tcaatattcc aattgtacat ggctgtattt tagcatatag 1380

cagcttaaat ttcaatttta ttttagccaa aatagtagaa tggtggcggt gttagatgaa 1440

tatttcgtag ttgtcttttg atatcacctg gaattttgcg tcttggtagg catcgctgaa 1500

tgcctttggc gctcgggctg attttttccc ccatttgaat tcaaatgccc tgagttttcc 1560

atttttttct tccaagtaat caatttctgc cttttggtgc gtgcgccaga aatatctgtt 1620

taccgaattt tcagtatttt ccaatttttt cattctttct acgaggagaa aattttccca 1680

gagccccccg acatcttcgc gtaaggagag aggattgaga ttattaatga gtgcgttgcg 1740

aatgccgaga tcatagaagt aaattttccg cagttttttg agttcgttgc gaatgtttcg 1800

actgtatggt ttcaaagtaa aaacaatgaa agccttctca agaatgccta tataattagc 1860

cacggttttt tgatcgatat tgagcaggtt ggacagttcc cggtaggaaa cttctttacc 1920

tatctggagt gccagcgcct gcaggagttt gtcgagtact tcaggattgc ggatgttctg 1980

aaatgccaga atgtctttat ataaataact tctggtgata ttgcgcagca attcctcagc 2040

ttccgatgat ttgaggacaa tttccggata cataccgaaa atcattcttt gttccagtgt 2100

tcttttttct tcctgtatat tctgtatctg cctgagttct tccagtgaaa agggatagag 2160

gataaattca tattttcttc ctgtgagcgg ctcaacgatc tgattagcga gatcaaaaga 2220

agatgatccg gtggcgataa tctgcatttc cggaaagttg tcaacaagta gtttcagtgt 2280

cagtccgata ttttttactc tttgcgcctc gtcaaggaag ataatgtttg catctcccag 2340

ataggccttg agttcggtcg aagttttgtc ggtaagagcg gtgcgaacgt ccggttcatc 2400

acagttgagg tagcgagagg tgtggctcgc aagcttttcc tcaagggctt tgaggatagt 2460

tgtcttacct acctgtctgg cgccatagat aataataacc ttttttttga aaaggtgttt 2520

ttcaataata ggctgaaggt ctctgctaat ccgcatagta tatatgattt agatgattat 2580

actcctctca ttatatatta aaatgcggat ttagtcaatg cattctacta taaatgcttt 2640

atattagcca aaatgtcaga aaattgatat ttttgaccat ttttactata tttcggacac 2700

cttattttgg ttctcgattc atgtatcact gcccgctgta ggttgcgggc caatttttaa 2760

aggagaattt tatgatgcct gttgtgctct ttataaaatc gttttttttg attttccata 2820

gttctctctt gtagggactt gaaataaaat gttttttata ctactatagg cctagttcct 2880

taacaatatt ttgcttactt taaagcgaaa ataggtaagg cacacctata ccataaggat 2940

ttaaagactc tttggcgaca gctttccacc gaccctgagt agttaaagac tgacgtatca 3000

tgtcataaca ccaacatttc tagatataaa gacgcgacag ctttcaggcg ataccgacgt 3060

ttctagacat aaagactttg gataaaccat aatgcaccga cgttcctcga tataaagacc 3120

cgttgtggtc ccaaaattca ccgacatttt aagaggtaaa gacaagtgca cctgagtcgc 3180

tgcaccgaca ttcccgatat aaagactgtc gctcaacccc aaaacaccga cattcccgat 3240

ataaagactc gccctagatc ttcttgcacc gactgtataa ggaataaaga cgtccgacca 3300

cgtgcaccac accgactcgt gtgaacctaa agactcaccg ccgcactacc ctcaccgact 3360

atatcaaacc taaagattgg taacttgttt gtctgacacc gactgtatca gagataaaga 3420

ctgttttcca tgcgttgcgc accgacgttc ctagatataa agactatcat tatcggggaa 3480

accgccgact gtactagata taaagacccg tcgctttgtt tgaacgccga cattcttaag 3540

aaataaagac gtggtaagag tagtgtttca ccgacattcc tttatgtaaa gacaatgaat 3600

agtctttttc acaccgactg tgaatgtatg aaatctaaag acctgaaagt gcaatgcaaa 3660

tgctgacagt gttagtctaa agacaaagta ggaatcagga tccgccgact aaataaaact 3720

taaagacaag ccagatatcc aggccacacc gacgtcccta gatgtaaaga ctagtgactc 3780

catgctatgc accgacattc cgaggcctaa agacagagag gctaacattt gtgcaccgac 3840

ccttcaagag gtaaagacat agggaacacg ctgaatcacc gacgttccta ggtatacaga 3900

cgaaatgcaa tgaaaaacgt caccgacatt tcaagacgta aagacccaag aatctttgcc 3960

cgtccccgac attccaagac gtaaagacta gccaaaacct ccagaccccc gacattccaa 4020

gacataaaga caagcgctcc aacatgtgtc accgacatta ttccgcccca gcatcgatca 4080

ttttgacttg gaaagagaca ttcttctttc caagttttta ttttgagcaa aatttgactt 4140

tttattggtt atcctttatt actatgggtg cttagtgcat cgaaaggtgg gctaagcaca 4200

acaaaagtgt tctttttatc ttaaacttga ggttttagac ctcatcaacc caaaaagggt 4260

gtaacatcat gaaacatcag aaacatcaag aaaatgcagt ctctgacgaa acatctaacc 4320

cttccgccga gccatggatt tttgattttg agaaatggtg gccctacgat acgtatccca 4380

ccatgcatca taatcaatcc gaggctttca aattaattcg aagtgtccta cggaaagaag 4440

gtgtgggtaa aaccatcctt gaacttccta ccggatctgg gaagacggtc attgggatcg 4500

tgtatctcct tactttgcat cacaagatgc aggaaggcga gattcctaca gctccgctgt 4560

tttacatcgt gcctaataag gcgctggtaa agcaggtgtg tgaaatgttc ccagatatca 4620

cctttggtgt gtatggccgg aatgaatatg attgtctgta ttaccagccg aaagaaacgt 4680

ttacagccga tcagattccc tgtttggttc taccatgcaa gcatcgggtg aaccaggatg 4740

atggaactac gcaagaatct ggtgctgagc catgtccgta ttatttggtg aagtataagg 4800

cgaagcagct gactcagaag gctcgaatca ttgtctgtac cgcttctttt tatcttttca 4860

ctcaactcat tcatgagtgg ccgctgcctg gaggactggt tattgacgaa acggatgagc 4920

tggctgaaat ttttcggcgg gcgctctcca cgaaagtcag tgattggcac ctgagtcagt 4980

gcgtcacgat gatgcggcaa agtgggatgg atggtgaagc ggatctcatg cagaaatttt 5040

atgacgccgt ggttagaatt gtcggagtca agtctcctca aaagcctacg cttttgaaga 5100

aacacgaaat cagtgagctc ctcgaggtag ttcctcagtt cgacaccaga aaactgaaaa 5160

ggcgtataaa tgccctcatc aaagacggaa agattgatgc agagaattcg cgtgaagtgc 5220

tgaatcagct gactgtggtt gccaatgatc tgaaacgata cgccgtttcg cttgcctatg 5280

ccttgcctga gggtgaccgt agggccctta attacctcta tgcatattat gaaggaccgg 5340

atgatcttcc agggaagaag aaagttcggt gtgtcattaa tatctgcaat tggtacatgc 5400

cgcctctcat taggcggatt ctctcgcctc ggaccctggc atatacagcc actatcggtg 5460

agtatagtga ctttgcctac gataccggaa ttgaaggttc gttttatacc atgaactctg 5520

attttccggt ggagaactcc cgtatcttca tgcccgatga cgttgccaac ttggctgtga 5580

aatcggtcaa accaggcgac aaagatcgga tgatgcgtct gattgctaag tcagctcgtg 5640

aatttgcgga tcaaggtcat cggagtctgg tggtggtcat ttccaatgag gagcgttcaa 5700

ggtttctgga aattgttgaa gaatacagtc tcaaaatgct cacctatgga aatggtgttt 5760

cggcgcgcga ggctattgca aggtttcagg ctggtgaagg ggaggtgttt gtgggaacgg 5820

cagccaactg ttctcatggc ctgaacttcg ataagcagac tgctccggtg attttttttc 5880

tgcggcctgg ttatccggtg cagggagatc cactcgcaga tttcgaagaa gagcggatgg 5940

gaaataagag gtggggtgtt tggacctggc gggttatgcg gcagttactt caggtgcgtg 6000

gccggaatat ccgcagtccg gaggatttgg gagttatttt cctgatgtca ggccagttta 6060

aacgtttcgc agggaaggcg attccggggt ggcttatcaa agcctatatc tccggcaaga 6120

aattcagggc ctgtgtgtca gaggccaaaa agctcctgaa aaagtcttaa ttaagccaaa 6180

aaaattgttt ttttgtctct gtccttgaca atataattga actttgctaa gttagggtcc 6240

cctgttagag gaaacagcag caaagggaag tctgagcgcg agaggcctta gtctttagag 6300

ttcttaataa gaacttttct gggcccaaag tgcgctttag tctttattcc ctgagctctg 6360

tctactttga tggggccttt ttttattcaa atttttttat tttcgctacg tcttgacaaa 6420

aatatagatg tatactatat ttcgcccgag gtaataaaga aaatagcggt aaagctataa 6480

gattttatta tttcatttat aagaactttg aaaaccgaca ttatcaaaaa ccatgcaaag 6540

ccctttagat gagggcagga ggttgaaaaa atgaagagaa ttctgaacag tctgaaagtt 6600

gctgccttga gacttctgtt tcgaggcaaa ggttctgaat tagtgaagac agtcaaatat 6660

ccattggttt ccccggttca aggcgcggtt gaagaacttg ctgaagcaat tcggcacgac 6720

aacctgcacc tttttgggca gaaggaaata gtggatctta tggagaaaga cgaaggaacc 6780

caggtgtatt cggttgtgga tttttggttg gataccctgc gtttagggat gtttttctca 6840

ccatcagcga atgcgttgaa aatcacgctg ggaaaattca attctgatca ggtttcacct 6900

tttcgtaagg ttttggagca gtcacctttt tttcttgcgg gtcgcttgaa ggttgaacct 6960

gcggaaagga tactttctgt tgaaatcaga aagattggta aaagagaaaa cagagttgag 7020

aactatgccg ccgatgtgga gacatgcttc attggtcagc tttcttcaga tgagaaacag 7080

agtatccaga agctggcaaa tgatatctgg gatagcaagg atcatgagga acagagaatg 7140

ttgaaggcgg atttttttgc tatacctctt ataaaagacc ccaaagctgt cacagaagaa 7200

gatcctgaaa atgaaacggc gggaaaacag aaaccgcttg aattatgtgt ttgtcttgtt 7260

cctgagttgt atacccgagg tttcggctcc attgctgatt ttctggttca gcgacttacc 7320

ttgctgcgtg acaaaatgag taccgacacg gcggaagatt gcctcgagta tgttggcatt 7380

gaggaagaaa aaggcaatgg aatgaattcc ttgctcggca cttttttgaa gaacctgcag 7440

ggtgatggtt ttgaacagat ttttcagttt atgcttgggt cttatgttgg ctggcagggg 7500

aaggaagatg tactgcgcga acgattggat ttgctggccg aaaaagtcaa aagattacca 7560

aagccaaaat ttgccggaga atggagtggt catcgtatgt ttctccatgg tcagctgaaa 7620

agctggtcgt cgaatttctt ccgtcttttt aatgagacgc gggaacttct ggaaagtatc 7680

aagagtgata ttcaacatgc caccatgctc attagctatg tggaagagaa aggaggctat 7740

catccacagc tgttgagtca gtatcggaag ttaatggaac aattaccggc gttgcggact 7800

aaggttttgg atcctgagat tgagatgacg catatgtccg aggctgttcg aagttacatt 7860

atgatacaca agtctgtagc gggatttctg ccggatttac tcgagtcttt ggatcgagat 7920

aaggataggg aatttttgct ttccatcttt cctcgtattc caaagataga taagaagacg 7980

aaagagatcg ttgcatggga gctaccgggc gagccagagg aaggctattt gttcacagca 8040

aacaaccttt tccggaattt tcttgagaat ccgaaacatg tgccacgatt tatggcagag 8100

aggattcccg aggattggac gcgtttgcgc tcggcccctg tgtggtttga tgggatggtg 8160

aagcaatggc agaaggtggt gaatcagttg gttgaatctc caggcgccct ttatcagttc 8220

aatgaaagtt ttttgcgtca aagactgcaa gcaatgctta cggtctataa gcgggatctc 8280

cagactgaga agtttctgaa gctgctggct gatgtctgtc gtccactcgt tgattttttc 8340

ggacttggag gaaatgatat tatcttcaag tcatgtcagg atccaagaaa gcaatggcag 8400

actgttattc cactcagtgt cccagcggat gtttatacag catgtgaagg cttggctatt 8460

cgtctccgcg aaactcttgg attcgaatgg aaaaatctga aaggacacga gcgggaagat 8520

tttttacggc tgcatcagtt gctgggaaat ctgctgttct ggatcaggga tgcgaaactt 8580

gtcgtgaagc tggaagactg gatgaacaat ccttgtgttc aggagtatgt ggaagcacga 8640

aaagccattg atcttccctt ggagattttc ggatttgagg tgccgatttt tctcaatggc 8700

tatctctttt cggaactgcg ccagctggaa ttgttgctga ggcgtaagtc ggtgatgacg 8760

tcttacagcg tcaaaacgac aggctcgcca aataggctct tccagttggt ttacctacct 8820

ctaaaccctt cagatccgga aaagaaaaat tccaacaact ttcaggagcg cctcgataca 8880

cctaccggtt tgtcgcgtcg ttttctggat cttacgctgg atgcatttgc tggcaaactc 8940

ttgacggatc cggtaactca ggaactgaag acgatggccg gtttttacga tcatctcttt 9000

ggcttcaagt tgccgtgtaa actggcggcg atgagtaacc atccaggatc ctcttccaaa 9060

atggtggttc tggcaaaacc aaagaagggt gttgctagta acatcggctt tgaacctatt 9120

cccgatcctg ctcatcctgt gttccgggtg agaagttcct ggccggagtt gaagtacctg 9180

gaggggttgt tgtatcttcc cgaagataca ccactgacca ttgaactggc ggaaacgtcg 9240

gtcagttgtc agtctgtgag ttcagtcgct ttcgatttga agaatctgac gactatcttg 9300

ggtcgtgttg gtgaattcag ggtgacggca gatcaacctt tcaagctgac gcccattatt 9360

cctgagaaag aggaatcctt catcgggaag acctacctcg gtcttgatgc tggagagcga 9420

tctggcgttg gtttcgcgat tgtgacggtt gacggcgatg ggtatgaggt gcagaggttg 9480

ggtgtgcatg aagatactca gcttatggcg cttcagcaag tcgccagcaa gtctcttaag 9540

gagccggttt tccagccact ccgtaagggc acatttcgtc agcaggagcg cattcgcaaa 9600

agcctccgcg gttgctactg gaatttctat catgcattga tgatcaagta ccgagctaaa 9660

gttgtgcatg aggaatcggt gggttcatcc ggtctggtgg ggcagtggct gcgtgcattt 9720

cagaaggatc tcaaaaaggc tgatgttctg cccaagaagg gtggaaaaaa tggtgtagac 9780

aaaaaaaaga gagaaagcag cgctcaggat accttatggg gaggagcttt ctcgaagaag 9840

gaagagcagc agatagcctt tgaggttcag gcagctggat caagccagtt ttgtctgaag 9900

tgtggttggt ggtttcagtt ggggatgcgg gaagtaaatc gtgtgcagga gagtggcgtg 9960

gtgctggact ggaaccggtc cattgtaacc ttcctcatcg aatcctcagg agaaaaggta 10020

tatggtttca gtcctcagca actggaaaaa ggctttcgtc ctgacatcga aacgttcaaa 10080

aaaatggtaa gggattttat gagacccccc atgtttgatc gcaaaggtcg gccggccgcg 10140

gcgtatgaaa gattcgtact gggacgtcgt caccgtcgtt atcgctttga taaagttttt 10200

gaagagagat ttggtcgcag tgctcttttc atctgcccgc gggtcgggtg tgggaatttc 10260

gatcactcca gtgagcagtc agccgttgtc cttgccctta ttggttacat tgctgataag 10320

gaagggatga gtggtaagaa gcttgtttat gtgaggctgg ctgaacttat ggctgagtgg 10380

aagctgaaga aactggagag atcaagggtg gaagaacaga gctcggcaca ataatttgag 10440

aagtaaaata gttttttaga ttcagtttcg caaaggaggt gatttggttc tttgaagaga 10500

ggtgtcatta tatgtggcat ctcttttcat tttgagagat tttttctaaa aataaaactt 10560

ggaaagaaat agttctttcc aagtcaaaat gatcgatttt aaggaatgtc ggtgaagtga 10620

tttatgaaca aatgtcttta tatttcatat ggtcggtgta agtacgaatg cgagttgcct 10680

ttaggttttt accgtcggta atccacatta ttcacttggt ctttaggctt catagcgtcg 10740

gtattctttt tatatatgca agtctttaca ttgaggaacg tcgatgttca aaccagatgt 10800

gtttgtcttt atacctcgga atgtcggtga agtgatttat gaacaaagtc tttaattttt 10860

acacagtcgg tggctttccg agcaagagta gtctttatat ttagaacagt cggcgtcggc 10920

agtgcttttt ataagtcttt gtatctcatg tagtcggtgc attgtctttg caactgggtc 10980

tttatctctt aatatggtcg gtggaaactc ttgtgggaat ctttatctca agaaaagtcg 11040

gtgtcgcctg aaagctgtcg cgtctttagg tctcatgcag tcggtgtcgg tcaaaagctc 11100

gcttgtcttt atattttata cagtcggtgt aaaggtgagc tggctgagtc tttatccctc 11160

ttaaagtcgg tgcaagaagt atggcggtat gtctttactt gtcgttaggt cggtgttcat 11220

ccgtctctag ggtgtcttta tctttatgaa tgtcggtgta ggtccaaacg atgtatgtct 11280

tacatcagga attcaggaat gtcggggtta ctaatatgca atggagtctt tatgtctggg 11340

aacgtcgtta ttttactctt gcgagattgt ctttactcag gaagtcggag ctcgattgat 11400

tgacattgcg tcttttagat accatactgt cggtgtggac ggctcgcctg atggtcttta 11460

ccttttatac ggtcggtggg ttgctgggcg cttcagtctt tacgtttcat gcggtcggtg 11520

tcattctcat gccctacgtc tttatctcta agaatgtcgg tggagcgact taggtgcact 11580

ggtctttatg tttagaaatg tcggtgtgat tacaggtatc aaatgtcttt agctctggga 11640

aggtcggtat cgatccaaag atccggggtt ttaaattgtt gtcaatgaac taggcacata 11700

gtaatataaa aaacatttta ttacaagccc ccctcctttt tgtttggcgc ccaacaaaaa 11760

aaatcgccca aaagagcagc ttttcgggcg cggcgcctcc atatatagcg caccaaacta 11820

tttcaacgcc ctggccaaat acctccccgt gtgactcttt tttaccttgg ccacatcacg 11880

cggcgtacct tcggccacca gcaaaccacc gtgattgcca ccttccggac ccagatcaat 11940

cacccagtcc gaagatttaa taacttccaa attgtgttca ataatcaata gactgttgcc 12000

cttatccacc agcttgctca gcacgtgcag caaccgtttc acatcatcaa aatgcaaacc 12060

cgtcgtcggc tcatccaaaa tatacaacgt ctttcccgtc gagcgccgtg acaattccgt 12120

cgccagcttc acacgctgcg cttcaccacc actcagcgtc gtcgcattct gtcccagctg 12180

aatatagccc aaacccactt caaacagcgt cttcaacttt tcatgaataa tcggaatatt 12240

gctgaaaaat ttcgtcgcat cttcgaccgt catgttcagt acctcggaaa tatttttccc 12300

cttgtaatga atttccaaag cctgctcgtt gtagcggcgg cctttgcatt cgtcgcaatc 12360

cacatacacg tccggcagga agtgcatctc aattttggtc acaccatcgc cctgacaggc 12420

ttcgcagcgg ccacccttca cattgaaact gaaacgcccg gccttgtagc cgcgcatctt 12480

cgcttccggc acctgcgtga acagatcgcg aatgtaggta aacacgccgg tgtaggtggc 12540

ggcgttggag cggggagtac ggccgatcgg cgactgatca atatcaatca ccttatcgag 12600

atattccagt ccgcgcagct ctttgtgttt gccgggaata tccttggcat tatgaaaatg 12660

ttgtgacaac gcgcgggcga gaatatcggt catcaacgtc gatttgccgc tgccggaaac 12720

gccggtgatg cacactaatt ttcccagcgg aatgcgcacg ttgatatttt gtaggttgtg 12780

ggcggtggca ccgcggattt caatatattt gccgttgccg cggcggtact tgtgcggcgc 12840

ttcaatgaat tttttgccgc tcagatattg accggtcaat gacgctttat ttttaataat 12900

ttcctgaggt gtgccaaggg caacaatttc gccaccgtgt ttgccggcac caggccccac 12960

gtcaataaca taatcagcgg agcgaatcgt ttcttcatcg tgctcgacga cgatcacggt 13020

attgcctaat tcgcgcagcg ctttgagtgt gtctatgagt ttggagttgt cgcgttggtg 13080

caagccaatg ctgggttcat cgaggatata gataacgccg accaaagatg aaccgatttg 13140

cgtggccaga cgaatgcgtt gcgcttcacc gccgcttaaa gtcgaagcag cgcgatctaa 13200

agtcaaataa tccagaccta cattatgtaa aaaagtcagg cgttcgcgga tttctttcat 13260

gatctgatgc gaaattttgg cttcgcgtac ggacatgacg tagacattat tttttgccat 13320

gctgttgccg ccggagttgg caccaccttt gccggccgcg tttttggcgc cagcaccctt 13380

cgcgccagca cccgcaccac caaccacaaa cccctcaaaa aatgcctgcg cttcttcaat 13440

gctcaacccc gtcgtgtcag aaatggattt gccgcgaatc gttacggcca gtgcaatttt 13500

gttcaaccgt ttcccgtgac acgtcggaca atcaaagacg cgcatgtagc gttcgatttc 13560

cgagcggata tattccgact cggtttcttt gtagcgccgt tccaaattcg gtatcacgcc 13620

ttcatacgtc gtcacaaatt cacggatttt ggatgtcgag ttcatgccgc tgttgacgtc 13680

gaaagattct tcgccggtgc cgtaaaacac cagcttcagt tgcgcggcgg tcattttttt 13740

caccggttcg tccaaagaaa aaccgtattt ggccgccact gtcgccagaa tccgcagcat 13800

ccagccctga ttcgaagacg tgcgtgacca gggtctgatg gcaccctgat tgatgctcaa 13860

atttttattg ggaatgatca gttcagcgtc gacttcgagc ttggtgccca atccagtgca 13920

ttccacgcag gcgccgtgcg ggctgttaaa cgaaaacagg cgcggttcaa tttccggcag 13980

gttgatgccg cagcgcggac aggcgaagtg ctgactgaac agctgatctt tttcgctggt 14040

actgtcgtgc acaatcacca taccatcacc caaatccaag gcggtttcca gagattcgtg 14100

caagcggctg cggtttttgc gcagctcttt gtcaacaacc aagcgatcta caacaacatc 14160

aatggtatgt ttctttttct tatcgaggac gagatcgagt gcttcttcga tgctcatcat 14220

attcccgttg acgcgcacgc gcacaaaacc ggctttgcgc gtttcttcaa agacgtgttt 14280

gtgttcacct tttttgtcgc ggataatttg cgcgatgagc ataaatttcg tatccgcttt 14340

caggcgcaga atttgttcga ggatttgttc ggtggtttgt ttgctgactt tatcaccgca 14400

gttggggcag tgtggttggc cgatgcgggc gtagagcaaa cgcaggtaat cgtaaatttc 14460

ggtgacggtg ccgacggtgg atcggggatt gtgggatgtg gttttttgat cgatggagat 14520

ggcgggcgag aggccttcaa tgctgtcgac gtcaggcttg tccatcaggc cgaggaattg 14580

gcgggcgtag gaagacaggc tttcgacgta gcggcgctga ccttcggcat agatcgtatc 14640

aaaagccagg gaagattttc ccgagccgga caggccggtg atgacgacga gctggtcacg 14700

ggggatgtcc aggctgatat ttttcaggtt gtggacgcgg gcgcctttga tgatgatcga 14760

attttcacct gccataattg atcgttatga gacaacaaaa atttttagag caaagcccgt 14820

aacctgcttt cgaggcagaa ttttcaaaat actgccgagg cgaaggaaaa aattttgagg 14880

aatactgtta gtatttcgag aaatttttta caagccgcag gcggattttg aaaattatga 14940

tccggaatga ggttgcgggt tttactctag acgaacttcc gccagtctac tacttttttt 15000

tgcgtaagtc aaccgtttgt gggcggggct gattcggttt tgtggtggtt tcgggagcag 15060

catagatgta gcggaaaatt caaaaaactg gtataatatt gctacaacct atacaaacaa 15120

aagcgtaaaa atcatgcatt tttcacgttt cggattttat ttccgtaacc gacgcatggt 15180

agaacgtttc ttcgttctat tttgtgctat tttttctgct gtcctggttt tgtcgcttgt 15240

tgccctggtg ctggtggctg acaaaattaa tatcaatccc attgtgcaca tcttgtttcg 15300

tttttttcag cgaccctttg tcagtgcgct gattctgtct tttttcgtca caacccttct 15360

ttacgccgtt tttgttctgg tgcatccagt gcagcatcat accgtgtatt ggcagcgtca 15420

ttcgcagcga tatcatattc gcaagaaatc ccatattcac cgcagattgc gtcacattcc 15480

cgcgcagaca tcacataagc tgttggcgct cagttcactt tttgttgtgg ttaaaattgt 15540

ttttgtcagt tttgcctccg gttttttacc gcatgatgtt ttggcacaga ccgttgatcc 15600

gagcggacag aaaagtcagt cggtgttggt ggcggcgttt tatgtccagg tgcttgattc 15660

cgatgatttg tatatttgga tttttatgtt gggccttttg ccgctggcgg ttctgatttt 15720

tttcatcgtt tttcgttcgc atatttttcc gcataagaat tttcattatg agagcgcaca 15780

tctggatacg aatattgtca cttttgcggc ccggaagaag gcggagcagc ggcgcaaaaa 15840

gccatcacct ccggccggta ttgtaccttt gcatgatgca taacctatga attctgtttt 15900

gcagaaaaaa ttagctggtc tgccgcatca acccggcgtc tatgtgtata aagacgcacg 15960

gggtgatgtt ttgtacgtgg ggaaggccaa agatttggcg aagcgcgtgc gatcgtattg 16020

gcagtcgggt cgctcgctgg tgccggacaa agctttgatg gtgagtcagg cggctgatat 16080

cgatatcacg gtggtgagtt cggaaacgga agcttttttg ctcgaagcga gtttcattaa 16140

aaaataccgg ccgcggttta atattatttt gaaagatgat aaaagttttt cgtatattaa 16200

ggtgacgttg cgggaagaat ttccgagggt gctggtggtg cggcgcgtga cgcgcgatgg 16260

ca 16262

<210> 28

<211> 10

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 28

aaaaaaaaaa 10

<210> 29

<211> 10

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 29

aaaaaaaaaa 10

<210> 30

<211> 10

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 30

aaaaaaaaaa 10

<210> 31

<211> 25

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 31

ctccgaaagt atcggggata aaggc 25

<210> 32

<211> 25

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 32

caccgaaatt tggagaggat aaggc 25

<210> 33

<211> 25

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 33

ctccgaatta tcgggaggat aaggc 25

<210> 34

<211> 25

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 34

ccccgaatat aggggacaaa aaggc 25

<210> 35

<211> 36

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 35

gtctagacat acaggtggaa aggtgagagt aaagac 36

<210> 36

<211> 25

<212> DNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 36

ctccgtgaat acgtggggta aaggc 25

<210> 37

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 37

aaaaaaaaaa 10

<210> 38

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 38

aaaaaaaaaa 10

<210> 39

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 39

aaaaaaaaaa 10

<210> 40

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 40

aaaaaaaaaa 10

<210> 41

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 41

aaaaaaaaaa 10

<210> 42

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 42

aaaaaaaaaa 10

<210> 43

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 43

aaaaaaaaaa 10

<210> 44

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 44

aaaaaaaaaa 10

<210> 45

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 45

aaaaaaaaaa 10

<210> 46

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 46

aaaaaaaaaa 10

<210> 47

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 47

aaaaaaaaaa 10

<210> 48

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 48

aaaaaaaaaa 10

<210> 49

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 49

aaaaaaaaaa 10

<210> 50

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 50

aaaaaaaaaa 10

<210> 51

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 51

aaaaaaaaaa 10

<210> 52

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 52

aaaaaaaaaa 10

<210> 53

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 53

aaaaaaaaaa 10

<210> 54

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 54

aaaaaaaaaa 10

<210> 55

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 55

aaaaaaaaaa 10

<210> 56

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 56

aaaaaaaaaa 10

<210> 57

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 57

aaaaaaaaaa 10

<210> 58

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 58

aaaaaaaaaa 10

<210> 59

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 59

aaaaaaaaaa 10

<210> 60

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 60

aaaaaaaaaa 10

<210> 61

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 61

aaaaaaaaaa 10

<210> 62

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 62

aaaaaaaaaa 10

<210> 63

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 63

aaaaaaaaaa 10

<210> 64

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 64

aaaaaaaaaa 10

<210> 65

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 65

aaaaaaaaaa 10

<210> 66

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 66

aaaaaaaaaa 10

<210> 67

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 67

aaaaaaaaaa 10

<210> 68

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 68

aaaaaaaaaa 10

<210> 69

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 69

aaaaaaaaaa 10

<210> 70

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 70

aaaaaaaaaa 10

<210> 71

<211> 10

<212> RNA

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 71

aaaaaaaaaa 10

<210> 72

<211> 10

<212> RNA

<213> 未知(Unknown)

<220>

<223> 合成序列

<400> 72

aaaaaaaaaa 10

<210> 73

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 73

aaaaaaaaaa 10

<210> 74

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 74

aaaaaaaaaa 10

<210> 75

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 75

aaaaaaaaaa 10

<210> 76

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 76

aaaaaaaaaa 10

<210> 77

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 77

aaaaaaaaaa 10

<210> 78

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 78

aaaaaaaaaa 10

<210> 79

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 79

aaaaaaaaaa 10

<210> 80

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 80

aaaaaaaaaa 10

<210> 81

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 81

aaaaaaaaaa 10

<210> 82

<211> 10

<212> RNA

<213> 人工序列(Artificial sequence)

<220>

<223> 合成序列

<400> 82

aaaaaaaaaa 10

<210> 83

<211> 84

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 83

Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala

1 5 10 15

Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser

20 25 30

Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile

35 40 45

Thr Ser Asn Gly Gly Arg Val Lys Cys Met Gln Val Trp Pro Pro Ile

50 55 60

Gly Lys Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Pro Leu Thr Arg

65 70 75 80

Asp Ser Arg Ala

<210> 84

<211> 57

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 84

Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala

1 5 10 15

Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser

20 25 30

Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile

35 40 45

Thr Ser Asn Gly Gly Arg Val Lys Ser

50 55

<210> 85

<211> 85

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 85

Met Ala Ser Ser Met Leu Ser Ser Ala Thr Met Val Ala Ser Pro Ala

1 5 10 15

Gln Ala Thr Met Val Ala Pro Phe Asn Gly Leu Lys Ser Ser Ala Ala

20 25 30

Phe Pro Ala Thr Arg Lys Ala Asn Asn Asp Ile Thr Ser Ile Thr Ser

35 40 45

Asn Gly Gly Arg Val Asn Cys Met Gln Val Trp Pro Pro Ile Glu Lys

50 55 60

Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Asp Leu Thr Asp Ser Gly

65 70 75 80

Gly Arg Val Asn Cys

85

<210> 86

<211> 76

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 86

Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Gln Asn Pro Ser Leu

1 5 10 15

Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val

20 25 30

Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser

35 40 45

Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg

50 55 60

Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys

65 70 75

<210> 87

<211> 76

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 87

Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Trp Asn Pro Ser Leu

1 5 10 15

Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val

20 25 30

Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser

35 40 45

Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg

50 55 60

Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys

65 70 75

<210> 88

<211> 72

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 88

Met Ala Gln Ile Asn Asn Met Ala Gln Gly Ile Gln Thr Leu Asn Pro

1 5 10 15

Asn Ser Asn Phe His Lys Pro Gln Val Pro Lys Ser Ser Ser Phe Leu

20 25 30

Val Phe Gly Ser Lys Lys Leu Lys Asn Ser Ala Asn Ser Met Leu Val

35 40 45

Leu Lys Lys Asp Ser Ile Phe Met Gln Leu Phe Cys Ser Phe Arg Ile

50 55 60

Ser Ala Ser Val Ala Thr Ala Cys

65 70

<210> 89

<211> 69

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 89

Met Ala Ala Leu Val Thr Ser Gln Leu Ala Thr Ser Gly Thr Val Leu

1 5 10 15

Ser Val Thr Asp Arg Phe Arg Arg Pro Gly Phe Gln Gly Leu Arg Pro

20 25 30

Arg Asn Pro Ala Asp Ala Ala Leu Gly Met Arg Thr Val Gly Ala Ser

35 40 45

Ala Ala Pro Lys Gln Ser Arg Lys Pro His Arg Phe Asp Arg Arg Cys

50 55 60

Leu Ser Met Val Val

65

<210> 90

<211> 77

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 90

Met Ala Ala Leu Thr Thr Ser Gln Leu Ala Thr Ser Ala Thr Gly Phe

1 5 10 15

Gly Ile Ala Asp Arg Ser Ala Pro Ser Ser Leu Leu Arg His Gly Phe

20 25 30

Gln Gly Leu Lys Pro Arg Ser Pro Ala Gly Gly Asp Ala Thr Ser Leu

35 40 45

Ser Val Thr Thr Ser Ala Arg Ala Thr Pro Lys Gln Gln Arg Ser Val

50 55 60

Gln Arg Gly Ser Arg Arg Phe Pro Ser Val Val Val Cys

65 70 75

<210> 91

<211> 57

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 91

Met Ala Ser Ser Val Leu Ser Ser Ala Ala Val Ala Thr Arg Ser Asn

1 5 10 15

Val Ala Gln Ala Asn Met Val Ala Pro Phe Thr Gly Leu Lys Ser Ala

20 25 30

Ala Ser Phe Pro Val Ser Arg Lys Gln Asn Leu Asp Ile Thr Ser Ile

35 40 45

Ala Ser Asn Gly Gly Arg Val Gln Cys

50 55

<210> 92

<211> 65

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 92

Met Glu Ser Leu Ala Ala Thr Ser Val Phe Ala Pro Ser Arg Val Ala

1 5 10 15

Val Pro Ala Ala Arg Ala Leu Val Arg Ala Gly Thr Val Val Pro Thr

20 25 30

Arg Arg Thr Ser Ser Thr Ser Gly Thr Ser Gly Val Lys Cys Ser Ala

35 40 45

Ala Val Thr Pro Gln Ala Ser Pro Val Ile Ser Arg Ser Ala Ala Ala

50 55 60

Ala

65

<210> 93

<211> 72

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 93

Met Gly Ala Ala Ala Thr Ser Met Gln Ser Leu Lys Phe Ser Asn Arg

1 5 10 15

Leu Val Pro Pro Ser Arg Arg Leu Ser Pro Val Pro Asn Asn Val Thr

20 25 30

Cys Asn Asn Leu Pro Lys Ser Ala Ala Pro Val Arg Thr Val Lys Cys

35 40 45

Cys Ala Ser Ser Trp Asn Ser Thr Ile Asn Gly Ala Ala Ala Thr Thr

50 55 60

Asn Gly Ala Ser Ala Ala Ser Ser

65 70

<210> 94

<211> 20

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<220>

<221> 尚未归类的特征

<222> (4)..(4)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 尚未归类的特征

<222> (8)..(8)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 尚未归类的特征

<222> (11)..(11)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 尚未归类的特征

<222> (15)..(15)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 尚未归类的特征

<222> (19)..(19)

<223> Xaa可以是任何天然存在的氨基酸

<400> 94

Gly Leu Phe Xaa Ala Leu Leu Xaa Leu Leu Xaa Ser Leu Trp Xaa Leu

1 5 10 15

Leu Leu Xaa Ala

20

<210> 95

<211> 20

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 95

Gly Leu Phe His Ala Leu Leu His Leu Leu His Ser Leu Trp His Leu

1 5 10 15

Leu Leu His Ala

20

<210> 96

<211> 7

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 96

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 97

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 97

Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys

1 5 10 15

<210> 98

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 98

Pro Ala Ala Lys Arg Val Lys Leu Asp

1 5

<210> 99

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 99

Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro

1 5 10

<210> 100

<211> 38

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 100

Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly

1 5 10 15

Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro

20 25 30

Arg Asn Gln Gly Gly Tyr

35

<210> 101

<211> 42

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 101

Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu

1 5 10 15

Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys

20 25 30

Asp Glu Gln Ile Leu Lys Arg Arg Asn Val

35 40

<210> 102

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 102

Val Ser Arg Lys Arg Pro Arg Pro

1 5

<210> 103

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 103

Pro Pro Lys Lys Ala Arg Glu Asp

1 5

<210> 104

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 104

Pro Gln Pro Lys Lys Lys Pro Leu

1 5

<210> 105

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 105

Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro

1 5 10

<210> 106

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 106

Asp Arg Leu Arg Arg

1 5

<210> 107

<211> 7

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 107

Pro Lys Gln Lys Lys Arg Lys

1 5

<210> 108

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 108

Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu

1 5 10

<210> 109

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 109

Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg

1 5 10

<210> 110

<211> 20

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 110

Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys

1 5 10 15

Lys Ser Lys Lys

20

<210> 111

<211> 17

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 111

Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys

1 5 10 15

Lys

<210> 112

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 112

Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg

1 5 10

<210> 113

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 113

Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg

1 5 10

<210> 114

<211> 27

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 114

Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu

1 5 10 15

Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu

20 25

<210> 115

<211> 33

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 115

Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala

1 5 10 15

Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu

20 25 30

Ala

<210> 116

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 116

Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys

1 5 10 15

<210> 117

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 117

Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg

1 5 10

<210> 118

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 118

Arg Lys Lys Arg Arg Gln Arg Arg Arg

1 5

<210> 119

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 119

Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg

1 5 10

<210> 120

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 120

Arg Lys Lys Arg Arg Gln Arg Arg

1 5

<210> 121

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 121

Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala

1 5 10

<210> 122

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 122

Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg

1 5 10

<210> 123

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 123

Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg

1 5 10

<210> 124

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 124

Gly Ser Gly Gly Ser

1 5

<210> 125

<211> 6

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 125

Gly Gly Ser Gly Gly Ser

1 5

<210> 126

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 126

Gly Gly Gly Ser

1

<210> 127

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 127

Gly Gly Ser Gly

1

<210> 128

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 128

Gly Gly Ser Gly Gly

1 5

<210> 129

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 129

Gly Ser Gly Ser Gly

1 5

<210> 130

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 130

Gly Ser Gly Gly Gly

1 5

<210> 131

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 131

Gly Gly Gly Ser Gly

1 5

<210> 132

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 132

Gly Ser Ser Ser Gly

1 5

<210> 133

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 133

Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys

1 5 10 15

<210> 134

<211> 11

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成序列

<400> 134

Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg

1 5 10

Claims

1.一种组合物，其包含：

a)CasY多肽或编码所述CasY多肽的核酸分子；以及

b)CasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。

2.如权利要求1所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的同一性的氨基酸序列。

3.如权利要求1或权利要求2所述的组合物，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

4.如权利要求1或权利要求2所述的组合物，其中所述CasY多肽与NLS序列融合。

5.如权利要求1-4中任一项所述的组合物，其中所述组合物包含脂质。

6.如权利要求1-4中任一项所述的组合物，其中a)和b)在脂质体内。

7.如权利要求1-4中任一项所述的组合物，其中a)和b)在颗粒内。

8.如权利要求1-7中任一项所述的组合物，其包含以下中的一种或多种：缓冲液、核酸酶抑制剂和蛋白酶抑制剂。

9.如权利要求1-8中任一项所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的同一性的氨基酸序列。

10.如权利要求1-9中任一项所述的组合物，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。

11.如权利要求1-9中任一项所述的组合物，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

12.如权利要求10或权利要求11所述的组合物，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

13.如权利要求1-12中任一项所述的组合物，其还包含DNA供体模板。

14.一种CasY融合多肽，其包含：与异源多肽融合的CasY多肽。

15.如权利要求14所述的CasY融合多肽，其中所述CasY多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列具有50％或更高的同一性的氨基酸序列。

16.如权利要求14所述的CasY融合多肽，其中所述CasY多肽包含与SEQ ID NO:1或SEQID NO:2所示的氨基酸序列具有85％或更高的同一性的氨基酸序列。

17.如权利要求14-16中任一项所述的CasY融合多肽，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。

18.如权利要求14-17中任一项所述的CasY融合多肽，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

19.如权利要求17或权利要求18所述的CasY融合多肽，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

20.如权利要求14-19中任一项所述的CasY融合多肽，其中所述异源多肽与所述CasY多肽的N末端和/或C末端融合。

21.如权利要求14-20中任一项所述的CasY融合多肽，其包含NLS。

22.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是靶向多肽，其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。

23.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰靶DNA的酶活性。

24.如权利要求23所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。

25.如权利要求24所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。

26.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。

27.如权利要求26所述的CasY融合多肽，其中所述异源多肽表现出组蛋白修饰活性。

28.如权利要求26或权利要求27所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

29.如权利要求28所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。

30.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是内体逃逸多肽。

31.如权利要求30所述的CasY融合多肽，其中所述内体逃逸多肽包含选自以下的氨基酸序列：GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)，其中每个X独立地选自赖氨酸、组氨酸和精氨酸。

32.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是叶绿体转运肽。

33.如权利要求32所述的CasY融合多肽，其中所述叶绿体转运肽包含选自以下的氨基酸序列：MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:92)，和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。

34.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是增加或减少转录的蛋白质。

35.如权利要求34所述的CasY融合多肽，其中所述异源多肽是转录阻遏物结构域。

36.如权利要求34所述CasY融合多肽，其中所述异源多肽是转录激活结构域。

37.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是蛋白质结合结构域。

38.一种核酸分子，其编码如权利要求14-37中任一项所述的CasY融合多肽。

39.如权利要求38所述的核酸分子，其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。

40.如权利要求39所述的核酸分子，其中所述启动子在真核细胞中是功能性的。

41.如权利要求40所述的核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

42.如权利要求39-41中任一项所述的核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。

43.如权利要求38-42中任一项所述的核酸分子，其中所述DNA分子是重组表达载体。

44.如权利要求43所述的核酸分子，其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。

45.如权利要求39所述的核酸分子，其中所述启动子在原核细胞中是功能性的。

46.如权利要求38所述的核酸分子，其中所述核酸分子是mRNA。

47.一种或多种核酸分子，其编码：

(a)CasY指导RNA；以及

(b)CasY多肽。

48.如权利要求47所述的一种或多种核酸分子，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的同一性的氨基酸序列。

49.如权利要求47所述的一种或多种核酸分子，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的同一性的氨基酸序列。

50.如权利要求47-49中任一项所述的一种或多种核酸分子，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

51.如权利要求47-50中任一项所述的一种或多种核酸分子，其中所述CasY多肽与NLS序列融合。

52.如权利要求47-51中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列，所述核苷酸序列可操作地连接到启动子。

53.如权利要求47-52中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列，所述核苷酸序列可操作地连接到启动子。

54.如权利要求52或权利要求53所述的一种或多种核酸分子，其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。

55.如权利要求54所述的一种或多种核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

56.如权利要求53-55中任一项所述的一种或多种核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。

57.如权利要求47-56中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子是一种或多种重组表达载体。

58.如权利要求57所述的一种或多种核酸分子，其中所述一种或多种重组表达载体选自：一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。

59.如权利要求53所述的一种或多种核酸分子，其中所述启动子在原核细胞中是功能性的。

60.一种真核细胞，其包含以下中的一种或多种：

a)CasY多肽或编码所述CasY多肽的核酸分子，

b)CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及

c)CasY指导RNA或编码所述CasY指导RNA的核酸分子。

61.如权利要求60所述的真核细胞，其包含编码所述CasY多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。

62.如权利要求60或权利要求61所述的真核细胞，其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。

64.如权利要求63所述的细胞，其中所述细胞是原核细胞。

65.如权利要求63或权利要求64所述的细胞，其包含编码所述CasY融合多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。

a)CasY多肽；以及

其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。

67.如权利要求66所述的方法，其中所述修饰是对所述靶核酸的切割。

68.如权利要求66或权利要求67所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。

69.如权利要求66-68中任一项所述的方法，其中所述接触在体外在细胞外部发生。

70.如权利要求66-68中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。

71.如权利要求66-68中任一项所述的方法，其中所述接触在体内在细胞内部发生。

72.如权利要求70或权利要求71所述的方法，其中所述细胞是真核细胞。

73.如权利要求72所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

74.如权利要求70或权利要求71所述的方法，其中所述细胞是原核细胞。

75.如权利要求66-74中任一项所述的方法，其中所述接触导致基因组编辑。

76.如权利要求66-75中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY多肽或编码所述CasY多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。

77.如权利要求76所述的方法，其中所述接触还包括：将DNA供体模板引入所述细胞中。

78.如权利要求66-77中任一项所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

79.如权利要求66-78中任一项所述的方法，其中所述CasY多肽与NLS序列融合。

a)CasY融合多肽，其包含与异源多肽融合的CasY多肽；以及

81.如权利要求80所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

82.如权利要求80或权利要求81所述的方法，其中所述CasY融合多肽包含NLS序列。

83.如权利要求80-82中任一项所述的方法，其中所述修饰不是对所述靶核酸的切割。

84.如权利要求80-83中任一项所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。

85.如权利要求80-84中任一项所述的方法，其中所述接触在体外在细胞外部发生。

86.如权利要求80-84中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。

87.如权利要求80-84中任一项所述的方法，其中所述接触在体内在细胞内部发生。

88.如权利要求86或权利要求87所述的方法，其中所述细胞是真核细胞。

89.如权利要求88所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

90.如权利要求86或权利要求87所述的方法，其中所述细胞是原核细胞。

91.如权利要求80-90中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。

92.如权利要求80-91中任一项所述的方法，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

93.如权利要求80-92中任一项所述的方法，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

94.如权利要求80-93中任一项所述的方法，其中所述异源多肽表现出修饰靶DNA的酶活性。

95.如权利要求94所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。

96.如权利要求95所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。

97.如权利要求80-93中任一项所述的方法，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。

98.如权利要求97所述的方法，其中所述异源多肽表现出组蛋白修饰活性。

99.如权利要求97或权利要求98所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

100.如权利要求99所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。

101.如权利要求80-93中任一项所述的方法，其中所述异源多肽是增加或减少转录的蛋白质。

102.如权利要求101所述的方法，其中所述异源多肽是转录阻遏物结构域。

103.如权利要求101所述的方法，其中所述异源多肽是转录激活结构域。

104.如权利要求80-93中任一项所述的方法，其中所述异源多肽是蛋白质结合结构域。

a)CasY多肽，

b)CasY融合多肽，以及

c)CasY指导RNA。

106.如权利要求105所述的转基因的多细胞非人生物体，其中所述CasY多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的氨基酸序列同一性的氨基酸序列。

107.如权利要求105所述的转基因的多细胞非人生物体，其中所述CasY多肽包含与SEQID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的氨基酸序列同一性的氨基酸序列。

108.如权利要求105-107中任一项所述的转基因的多细胞非人生物体，其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。

109.一种系统，其包含：

a)CasY多肽和CasY指导RNA；

b)CasY多肽、CasY指导RNA和DNA供体模板；

c)CasY融合多肽和CasY指导RNA；

d)CasY融合多肽、CasY指导RNA和DNA供体模板；

e)编码CasY多肽的mRNA和CasY指导RNA；

f)编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板；

g)编码CasY融合多肽的mRNA和CasY指导RNA；

h)编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板；

110.如权利要求109所述的CasY系统，其中所述CasY多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列具有50％或更高的氨基酸序列同一性的氨基酸序列。

111.如权利要求109所述的CasY系统，其中所述CasY多肽包含与SEQ ID NO:1或SEQ IDNO:2所示的氨基酸序列具有85％或更高的氨基酸序列同一性的氨基酸序列。

112.如权利要求109-111中任一项所述的CasY系统，其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。

113.如权利要求109-111中任一项所述的CasY系统，其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。

114.一种试剂盒，其包含如权利要求109-113中任一项所述的CasY系统。

115.如权利要求114所述的试剂盒，其中所述试剂盒的组分在同一容器中。

116.如权利要求114所述的试剂盒，其中所述试剂盒的组分在单独的容器中。

117.一种无菌容器，其包含如权利要求109-116中任一项所述的CasY系统。

118.如权利要求117所述的无菌容器，其中所述容器是注射器。

119.一种可植入装置，其包含如权利要求109-116中任一项所述的CasY系统。

120.如权利要求119所述的可植入装置，其中所述CasY系统在基质内。

121.如权利要求119所述的可植入装置，其中所述CasY系统在储库中。

检测所述编码Cas1的核苷酸序列附近的CRISPR阵列；

在所述CRISPR基因座中鉴定编码多肽的开放阅读框，所述多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20％的氨基酸序列同一性。

123.如权利要求122所述的方法，其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。