CN114340657A

CN114340657A - 新型crispr dna靶向酶及系统

Info

Publication number: CN114340657A
Application number: CN202080062919.7A
Authority: CN
Inventors: D·A·斯科特; D·R·程; W·X·严; T·M·迪托马索
Original assignee: Abbott Biotechnology
Current assignee: Abbott Biotechnology
Priority date: 2019-09-09
Filing date: 2020-09-09
Publication date: 2022-04-12
Also published as: EP4028047A1; US11795442B2; JP2022547524A; IL291095A; US20240101990A1; US11976308B2; ZA202202628B; MX2022002872A; US20230212542A1; CA3150454A1; EP4028047A4; US20230057102A1; KR20220054434A; US20220033793A1; WO2021050534A1; AU2020347147A1; US11453867B2; US20220282308A1

Abstract

本披露描述了用于以靶向方式操纵核酸的新型系统、方法和组合物。本披露描述了用于靶向修饰核酸的非天然存在的工程化CRISPR系统、组分和方法。每种系统包括一起靶向核酸的一种或多种蛋白质组分和一种或多种核酸组分。

Description

新型CRISPR DNA靶向酶及系统

相关申请

本申请要求于2019年9月9日提交的美国临时申请62/897,859的优先权，该临时申请的全部内容通过援引特此并入。

序列表

本申请含有已以ASCII格式以电子方式提交且特此通过援引以其全文并入的序列表。创建于2020年9月9日的所述ASCII副本被命名为A2186-7028WO_SL.txt，并且大小是475,511字节。

技术领域

本披露涉及用于使用新型成簇规律间隔短回文重复序列(CRISPR)和CRISPR相关(Cas)基因来基因组编辑和调节基因表达的系统和方法。

背景技术

基因组测序技术和分析最近进展对自然界许多不同领域的生物活动(范围从原核生物合成途径到人类病理)的遗传基础产生了重要的见解。为了充分理解和评价所产生的巨量信息，需要在基因组和表观基因组操纵的序列技术的规模、效率和易用性方面进行相应的提高。这些新型技术将加速许多领域(包括生物技术、农业和人类治疗学)的新型应用的发展。

成簇规律间隔短回文重复序列(CRISPR)和CRISPR相关(Cas)基因(统称为CRISPR-Cas或CRISPR/Cas系统)是古细菌和细菌中针对外来遗传元件而防御特定物种的适应性免疫系统。CRISPR-Cas系统包括一组极其多样的蛋白质效应子、非编码元件以及基因座架构，其中一些实例已经被工程化并且适于产生重要的生物技术进展。

参与宿主防御的系统的组分包括一种或多种能够修饰核酸的效应子蛋白和负责将一种或多种效应子蛋白靶向至噬菌体核酸上的特定序列的RNA指导元件。RNA指导物由CRISPR RNA(crRNA)构成，并且可能需要另外的反式激活RNA(tracrRNA)以使得能够通过一种或多种效应子蛋白进行靶向核酸操纵。crRNA由负责蛋白质与crRNA结合的直接重复和与所期望核酸靶序列互补的间隔子序列组成。CRISPR系统可以通过修饰crRNA的间隔子序列来重新编程以靶向替代性DNA或RNA靶标。

CRISPR-Cas系统可以广义地分为两类：1类系统由多种效应子蛋白构成，该多种效应子蛋白一起围绕crRNA形成复合物，并且2类系统由一种效应子蛋白构成，该一种效应子蛋白与RNA指导物复合以靶向核酸底物。2类系统的单亚基效应子组成为工程化和应用转换提供了更简单的组分集合，并且迄今为止一直是可编程效应子的重要来源。然而，除了当前的通过其独特特性实现了新型应用的CRISPR-Cas系统(诸如较小效应子和/或具有独特PAM序列要求的效应子)之外，仍然需要用于修饰核酸和多核苷酸(即，DNA、RNA或任何杂合体、衍生物或修饰物)的另外的可编程效应子和系统。

发明内容

本披露提供了用于新型单效应子2类CRISPR-Cas系统的非天然存在的工程化系统和组合物，首先将这些CRISPR-Cas系统从基因组数据库中计算鉴定出且随后对其进行工程化和实验验证。特别地，对这些CRISPR-Cas系统的组分的鉴定允许其在非天然环境中，例如在除这些系统最初发现于其中的那些之外的细菌中或在真核细胞(诸如哺乳动物细胞)中使用。这些新的效应子在序列和功能上与现有2类CRISPR效应子的直系同源物和同源物相比是不同的。

在一方面，本披露提供了工程化的非天然存在的CLUST.091979成簇规律间隔短回文重复序列(CRISPR)-Cas系统，这些系统包括：CRISPR相关蛋白，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及RNA指导物，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列；其中该CRISPR相关蛋白能够结合该RNA指导物并且能够修饰与该间隔子序列互补的该靶核酸序列。在一方面，本披露提供了工程化的非天然存在的CLUST.091979成簇规律间隔短回文重复序列(CRISPR)-Cas系统，这些系统包括：CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及RNA指导物或编码该RNA指导物的核酸，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列；其中该CRISPR相关蛋白能够结合该RNA指导物并且能够修饰与该间隔子序列互补的该靶核酸序列。

在一方面，本披露提供了一种工程化的非天然存在的CLUST.091979成簇规律间隔短回文重复序列(CRISPR)-Cas系统，该系统包括CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸，其中该CRISPR相关蛋白包含SEQ ID NO:241的氨基酸序列；以及RNA指导物，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列；其中该CRISPR相关蛋白能够结合该RNA指导物并且能够修饰与该间隔子序列互补的该靶核酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:4、SEQ ID NO:10、SEQ ID NO:12或SEQ ID NO:14中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白包含至少一个(例如，一个、两个或三个)RuvC结构域或至少一个拆分型RuvC结构域。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白包含以下序列中的一种或多种：(a)PX₁X₂X₃X₄F(SEQ ID NO:216)，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M；(b)RX₁X₂X₃L(SEQ ID NO:217)，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K；(c)NX₁YX₂(SEQ ID NO:218)，其中X₁是I或L或F并且X₂是K或R或V或E；(d)KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N；(e)LX₁NX₂(SEQ ID NO:220)，其中X₁是G或S或C或T并且X₂是N或Y或K或S；(f)PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I；(g)KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q；以及(h)X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L。在本文所述的任一系统的一些实施例中，SEQ ID NO:216的序列是N末端序列。在本文所述的任一系统的一些实施例中，SEQ ID NO:219的序列是C末端序列。在本文所述的任一系统的一些实施例中，SEQ ID NO:220的序列是C末端序列。在本文所述的任一系统的一些实施例中，SEQ ID NO:221的序列是C末端序列。在本文所述的任一系统的一些实施例中，SEQ ID NO:222的序列是C末端序列。在本文所述的任一系统的一些实施例中，SEQ ID NO:223的序列是C末端序列。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白包含以下序列中的一种或多种：(a)ECPITKDVINEYK(SEQ ID NO:290)；(b)NLTSITIG(SEQ ID NO:231)；(c)NYRTKIRTLN(SEQ ID NO:232)；(d)ISYIENVEN(SEQ ID NO:233)；(e)ELLSVEQLK(SEQ ID NO:234)；(f)HINSMTINIQDFKIE(SEQ ID NO:235)；(g)KENSLGFIL(SEQ ID NO:236)；(h)GNRQIKKG(SEQ ID NO:237)；(i)DVNFKHA(SEQ ID NO:238)；(j)GYINLYKYLLEH(SEQ ID NO:239)；(k)KEQVLSKLLY(SEQ ID NO:240)；(l)EYIYVSCVNKLRAKYVSYFILKEKYYEKQKEYDIEMGF(SEQ ID NO:241)；(m)DDSTESKESMDKRR(SEQ ID NO:242)；(n)NVQQDINGCLKNIINY(SEQ IDNO:243)；(o)ALENLENSNFEK(SEQ ID NO:244)；(p)QVLPTIKSLL(SEQ ID NO:245)；(q)YHKLENQN(SEQ ID NO:246)；(r)ASDKVKEYIE(SEQ ID NO:247)；(s)TNENNEIVDAKYT(SEQ IDNO:248)；(t)ANFFNLMMKSLHFAS(SEQ ID NO:249)；(u)LLSNNGKTQIALVPSE(SEQ ID NO:250)；(v)HINGLNADFNAANNIKYI(SEQ ID NO:251)；或相对于任一前述项具有不超过1、2或3个序列差异(例如，取代)的序列。在一些实施例中，该CRISPR相关蛋白具有与SEQ ID NO:4至少70％相同的序列。在一些实施例中，该CRISPR相关蛋白具有与SEQ ID NO:10至少70％相同的序列。

在本文所述的任一系统的一些实施例中，该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

在本文所述的任一系统的一些实施例中，该直接重复序列包含以下序列中的一种或多种：(a)X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO:224)，其中X₁是A或C或G，X₂是T或C或A，X₃是T或G或A，X₄是T或G，X₅是T或G或A，X₆是G或T或A，X₇是T或G或A，并且X₈是A或G或T(例如，ATTGTTGDA(SEQ ID NO:225))；(b)X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO:226)，其中X₁是T或C或A，X₂是T或A或G，X₃是T或C或A，X₄是T或A，X₅是T或A或G，X₆是T或A，X₇是A或T，X₈是A或G或C或T，并且X₉是G或A或C(例如，TTTTWTARG(SEQ ID NO:227))；以及(c)X₁X₂X₃AC(SEQ ID NO:228)，其中X₁是A或C或G，X₂是C或A，并且X₃是A或C(例如，ACAAC(SEQ ID NO:229))。在本文所述的任一系统的一些实施例中，SEQ ID NO:224在该直接重复的5’端的近侧。在本文所述的任一系统的一些实施例中，SEQ ID NO:228在该直接重复的3’端的近侧。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)，其中该PAM包括核酸序列，包括作为5’-NTTN-3’、5’-NTTR-3’、5’-RTTR-3’、5’-TNNT-3’、5’-TNRT-3’、5’-TSRT-3’、5’-TGRT-3’、5’-TNRY-3’、5’-TTNR-3’、5’-TTYR-3’、5’-TTTR-3’、5’-TTCV-3’、5’-DTYR-3’、5’-WTTR-3’、5’-NNR-3’、5’-NYR-3’、5’-YYR-3’、5’-TYR-3’、5’-TTN-3’、5’-TTR-3’、5’-CNT-3’、5’-NGG-3’、5’-BGG-3’或5’-R-3’列出的核酸序列，其中“N”是任何核苷酸，“B”是C或G或T，“D”是A或G或T，“R”是A或G，“S”是G或C，“V”是A或C或G，“W”是A或T，并且“Y”是C或T。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一系统的一些实施例中，该RNA指导物的该间隔子序列包含约15个核苷酸至约55个核苷酸。在本文所述的任一系统的一些实施例中，该RNA指导物的该间隔子序列包含20至45个核苷酸。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白包含催化残基(例如，天冬氨酸或谷氨酸)。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白切割该靶核酸。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白进一步包含肽标签、荧光蛋白、碱基编辑结构域、DNA甲基化结构域、组蛋白残基修饰结构域、定位因子、转录修饰因子、光门控因子、化学诱导型因子或染色质可视化因子。

在本文所述的任一系统的一些实施例中，编码该CRISPR相关蛋白的该核酸经密码子优化以在细胞，例如真核细胞，例如哺乳动物细胞，例如人细胞中表达。在本文所述的任一系统的一些实施例中，编码该CRISPR相关蛋白的该核酸可操作地连接至启动子。在本文所述的任一系统的一些实施例中，编码该CRISPR相关蛋白的该核酸在载体中。在一些实施例中，该载体包括逆转录病毒载体、慢病毒载体、噬菌体载体、腺病毒载体、腺相关载体或单纯疱疹载体。

在本文所述的任一系统的一些实施例中，该靶核酸是DNA分子。在本文所述的任一系统的一些实施例中，该靶核酸包含PAM序列。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白具有非特异性核酸酶活性。

在本文所述的任一系统的一些实施例中，通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。在本文所述的任一系统的一些实施例中，对该靶核酸的该修饰是双链切割事件。在本文所述的任一系统的一些实施例中，对该靶核酸的该修饰是单链切割事件。在本文所述的任一系统的一些实施例中，对该靶核酸的该修饰导致插入事件。在本文所述的任一系统的一些实施例中，对该靶核酸的该修饰导致缺失事件。在本文所述的任一系统的一些实施例中，对该靶核酸的该修饰导致细胞毒性或细胞死亡。

在本文所述的任一系统的一些实施例中，该系统进一步包括供体模板核酸。在本文所述的任一系统的一些实施例中，该供体模板核酸是DNA分子。在本文所述的任一系统的一些实施例中，其中该供体模板核酸是RNA分子。

在本文所述的任一系统的一些实施例中，该RNA指导物任选地包括tracrRNA和/或调节子RNA。在本文所述的任一系统的一些实施例中，该系统进一步包括tracrRNA。在本文所述的任一系统的一些实施例中，该系统不包括tracrRNA。在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白是自加工的。在本文所述的任一系统的一些实施例中，该系统进一步包括调节子RNA。

在本文所述的任一系统的一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:1的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:152、SEQ ID NO:153或SEQ ID NO:154的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

在本文所述的任一系统的一些实施例中，该系统存在于递送组合物中，该递送组合物包含纳米颗粒、脂质体、外来体、微泡或基因枪。

在本文所述的任一系统的一些实施例中，这些系统在细胞内。在一些实施例中，该细胞是真核细胞。在一些实施例中，该细胞是哺乳动物细胞。在一些实施例中，该细胞是人细胞。在一些实施例中，该细胞是原核细胞。

在另一方面，本披露提供了一种细胞，其中该细胞包含：CRISPR相关蛋白，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及RNA指导物，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列。在另一方面，本披露提供了一种细胞，其中该细胞包含：CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及RNA指导物或编码该RNA指导物的核酸，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白包含至少一个(例如，一个、两个或三个)RuvC结构域或至少一个拆分型RuvC结构域。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白包含以下序列中的一种或多种：(a)PX₁X₂X₃X₄F(SEQ ID NO:216)，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M；(b)RX₁X₂X₃L(SEQ ID NO:217)，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K；(c)NX₁YX₂(SEQ ID NO:218)，其中X₁是I或L或F并且X₂是K或R或V或E；(d)KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N；(e)LX₁NX₂(SEQ ID NO:220)，其中X₁是G或S或C或T并且X₂是N或Y或K或S；(f)PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I；(g)KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q；以及(h)X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L。在本文所述的任一细胞的一些实施例中，SEQ ID NO:216的序列是N末端序列。在本文所述的任一细胞的一些实施例中，SEQ ID NO:219的序列是C末端序列。在本文所述的任一细胞的一些实施例中，SEQ ID NO:220的序列是C末端序列。在本文所述的任一细胞的一些实施例中，SEQ ID NO:221的序列是C末端序列。在本文所述的任一细胞的一些实施例中，SEQ ID NO:222的序列是C末端序列。在本文所述的任一细胞的一些实施例中，SEQ ID NO:223的序列是C末端序列。

在本文所述的任一细胞的一些实施例中，该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

在本文所述的任一细胞的一些实施例中，该直接重复序列包含以下序列中的一种或多种：(a)X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO:224)，其中X₁是A或C或G，X₂是T或C或A，X₃是T或G或A，X₄是T或G，X₅是T或G或A，X₆是G或T或A，X₇是T或G或A，并且X₈是A或G或T(例如，ATTGTTGDA(SEQ ID NO:225))；(b)X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO:226)，其中X₁是T或C或A，X₂是T或A或G，X₃是T或C或A，X₄是T或A，X₅是T或A或G，X₆是T或A，X₇是A或T，X₈是A或G或C或T，并且X₉是G或A或C(例如，TTTTWTARG(SEQ ID NO:227))；以及(c)X₁X₂X₃AC(SEQ ID NO:228)，其中X₁是A或C或G，X₂是C或A，并且X₃是A或C(例如，ACAAC(SEQ ID NO:229))。在本文所述的任一细胞的一些实施例中，SEQ ID NO:224在该直接重复的5’端的近侧。在本文所述的任一细胞的一些实施例中，SEQ ID NO:228在该直接重复的3’端的近侧。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一细胞的一些实施例中，该间隔子序列包含约15个核苷酸至约55个核苷酸。在本文所述的任一细胞的一些实施例中，该间隔子序列包含20至45个核苷酸。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白包含催化残基(例如，天冬氨酸或谷氨酸)。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白切割该靶核酸。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白进一步包含肽标签、荧光蛋白、碱基编辑结构域、DNA甲基化结构域、组蛋白残基修饰结构域、定位因子、转录修饰因子、光门控因子、化学诱导型因子或染色质可视化因子。

在本文所述的任一细胞的一些实施例中，编码该CRISPR相关蛋白的该核酸经密码子优化以在细胞，例如真核细胞，例如哺乳动物细胞，例如人细胞中表达。在本文所述的任一细胞的一些实施例中，编码该CRISPR相关蛋白的该核酸可操作地连接至启动子。在本文所述的任一细胞的一些实施例中，编码该CRISPR相关蛋白的该核酸在载体中。在一些实施例中，该载体包括逆转录病毒载体、慢病毒载体、噬菌体载体、腺病毒载体、腺相关载体或单纯疱疹载体。

在本文所述的任一细胞的一些实施例中，该RNA指导物任选地包括tracrRNA和/或调节子RNA。在本文所述的任一细胞的一些实施例中，该细胞进一步包含tracrRNA。在本文所述的任一细胞的一些实施例中，该细胞不包含tracrRNA。在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白是自加工的。在本文所述的任一细胞的一些实施例中，该细胞进一步包含调节子RNA。

在本文所述的任一细胞的一些实施例中，该细胞是真核细胞。在本文所述的任一细胞的一些实施例中，该细胞是哺乳动物细胞。在本文所述的任一细胞的一些实施例中，该细胞是人细胞。在本文所述的任一细胞的一些实施例中，该细胞是原核细胞。

在本文所述的任一细胞的一些实施例中，该靶核酸是DNA分子。在本文所述的任一细胞的一些实施例中，该靶核酸包含PAM序列。

在本文所述的任一细胞的一些实施例中，该CRISPR相关蛋白具有非特异性核酸酶活性。

在本文所述的任一细胞的一些实施例中，通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。在本文所述的任一细胞的一些实施例中，对该靶核酸的该修饰是双链切割事件。在本文所述的任一细胞的一些实施例中，对该靶核酸的该修饰是单链切割事件。在本文所述的任一细胞的一些实施例中，对该靶核酸的该修饰导致插入事件。在本文所述的任一细胞的一些实施例中，对该靶核酸的该修饰导致缺失事件。在本文所述的任一细胞的一些实施例中，对该靶核酸的该修饰导致细胞毒性或细胞死亡。

在另一方面，本披露提供了一种使本文所述的系统与细胞中的靶核酸结合的方法，该方法包括：(a)提供该系统；以及(b)将该系统递送至该细胞，其中该细胞包含该靶核酸，其中该CRISPR相关蛋白结合该RNA指导物，并且其中该间隔子序列结合该靶核酸。在一些实施例中，该细胞是真核细胞，例如哺乳动物细胞，例如人细胞。

在另一方面，本披露提供了修饰靶核酸的方法，该方法包括向该靶核酸递送工程化的非天然存在的CRISPR-Cas系统，该系统包括：CRISPR相关蛋白，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及RNA指导物，该RNA指导物包含直接重复序列和能够与该靶核酸杂交的间隔子序列；其中该CRISPR相关蛋白能够结合该RNA指导物；并且其中通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。在另一方面，本披露提供了修饰靶核酸的方法，该方法包括向该靶核酸递送工程化的非天然存在的CRISPR-Cas系统，该系统包括：CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及RNA指导物，该RNA指导物包含直接重复序列和能够与该靶核酸杂交的间隔子序列；其中该CRISPR相关蛋白能够结合该RNA指导物；并且其中通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。

在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白包含以下序列中的一种或多种：(a)PX₁X₂X₃X₄F(SEQ ID NO:216)，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M；(b)RX₁X₂X₃L(SEQ ID NO:217)，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K；(c)NX₁YX₂(SEQ ID NO:218)，其中X₁是I或L或F并且X₂是K或R或V或E；(d)KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N；(e)LX₁NX₂(SEQ ID NO:220)，其中X₁是G或S或C或T并且X₂是N或Y或K或S；(f)PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I；(g)KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q；以及(h)X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L。在本文所述的任一方法的一些实施例中，SEQ ID NO:216的序列是N末端序列。在本文所述的任一方法的一些实施例中，SEQ ID NO:219的序列是C末端序列。在本文所述的任一方法的一些实施例中，SEQ ID NO:220的序列是C末端序列。在本文所述的任一方法的一些实施例中，SEQ ID NO:221的序列是C末端序列。在本文所述的任一方法的一些实施例中，SEQ ID NO:222的序列是C末端序列。在本文所述的任一方法的一些实施例中，SEQ ID NO:223的序列是C末端序列。

在本文所述的任一方法的一些实施例中，该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

在本文所述的任一方法的一些实施例中，该直接重复序列包含以下序列中的一种或多种：(a)X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO:224)，其中X₁是A或C或G，X₂是T或C或A，X₃是T或G或A，X₄是T或G，X₅是T或G或A，X₆是G或T或A，X₇是T或G或A，并且X₈是A或G或T(例如，ATTGTTGDA(SEQ ID NO:225))；(b)X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO:226)，其中X₁是T或C或A，X₂是T或A或G，X₃是T或C或A，X₄是T或A，X₅是T或A或G，X₆是T或A，X₇是A或T，X₈是A或G或C或T，并且X₉是G或A或C(例如，TTTTWTARG(SEQ ID NO:227))；以及(c)X₁X₂X₃AC(SEQ ID NO:228)，其中X₁是A或C或G，X₂是C或A，并且X₃是A或C(例如，ACAAC(SEQ ID NO:229))。在本文所述的任一方法的一些实施例中，SEQ ID NO:224在该直接重复的5’端的近侧。在本文所述的任一方法的一些实施例中，SEQ ID NO:228在该直接重复的3’端的近侧。

在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所述的任一方法的一些实施例中，该间隔子序列包含约15个核苷酸至约55个核苷酸。在本文所述的任一方法的一些实施例中，该间隔子序列包含20至45个核苷酸。

在本文所述的任一方法的一些实施例中，该RNA指导物任选地包括tracrRNA和/或调节子RNA。在本文所述的任一方法的一些实施例中，该系统进一步包括tracrRNA。在本文所述的任一方法的一些实施例中，该系统不包括tracrRNA。在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白是自加工的。在本文所述的任一方法的一些实施例中，该系统进一步包括调节子RNA。

在本文所述的任一方法的一些实施例中，该靶核酸是DNA分子。在本文所述的任一方法的一些实施例中，该靶核酸包含PAM序列。

在本文所述的任一方法的一些实施例中，该CRISPR相关蛋白具有非特异性核酸酶活性。

在本文所述的任一方法的一些实施例中，对该靶核酸的该修饰是双链切割事件。在本文所述的任一方法的一些实施例中，对该靶核酸的该修饰是单链切割事件。在本文所述的任一方法的一些实施例中，对该靶核酸的该修饰导致插入事件。在本文所述的任一方法的一些实施例中，对该靶核酸的该修饰导致缺失事件。在本文所述的任一方法的一些实施例中，对该靶核酸的该修饰导致细胞毒性或细胞死亡。

在另一方面，本披露提供了一种编辑靶核酸的方法，该方法包括使该靶核酸与本文所述的系统接触。在另一方面，本披露提供了一种修饰靶核酸的表达的方法，该方法包括使该靶核酸与本文所述的系统接触。在另一方面，本披露提供了一种使有效载荷核酸在靶核酸的位点处靶向插入的方法，该方法包括使该靶核酸与本文所述的系统接触。在另一方面，本披露提供了一种从靶核酸处的位点靶向切除有效载荷核酸的方法，该方法包括使该靶核酸与本文所述的系统接触。在另一方面，本披露提供了一种在识别DNA靶核酸后非特异性降解单链DNA的方法，该方法包括使该靶核酸与本文所述的系统接触。

在本文所提供的任一系统或方法的一些实施例中，该接触包括直接接触或间接接触。在本文所提供的任一系统或方法的一些实施例中，间接接触包括在这样的条件下施用编码本文所述的RNA指导物或CRISPR相关蛋白的一种或多种核酸，这些条件允许产生该RNA指导物和/或CRISPR相关蛋白。在本文所提供的任一系统或方法的一些实施例中，接触包括体内接触或体外接触。在本文所提供的任一系统或方法的一些实施例中，使靶核酸与该系统接触包括在这样的条件下使包含该核酸的细胞与该系统接触，这些条件允许该CRISPR相关蛋白和该指导RNA到达该靶核酸。在本文所提供的任一系统或方法的一些实施例中，使体内细胞与该系统接触包括在这样的条件下将该系统施用至包括该细胞的受试者，这些条件允许该CRISPR相关蛋白和该指导RNA到达该细胞或在该细胞中产生。

在另一方面，本披露提供了一种本文所提供的系统，用于在以下体外或离体方法中使用：(a)靶向并编辑靶核酸；(b)在识别该核酸后非特异性降解单链核酸；(c)在识别双链靶标的间隔子互补链后靶向该双链靶标的非间隔子互补链并使其产生切口；(d)靶向并切割双链靶核酸；(e)检测样品中的靶核酸；(f)特异性编辑双链核酸；(g)对双链核酸进行碱基编辑；(h)在细胞中诱导基因型特异性或转录状态特异性的细胞死亡或休眠；(i)在双链核酸靶标中产生插入缺失；(j)将序列插入至双链核酸靶标中；或(k)缺失或倒置双链核酸靶标中的序列。

在另一方面，本披露提供了将插入或缺失引入至哺乳动物细胞中的靶核酸中的方法，该方法包括以下的转染：(a)编码CRISPR相关蛋白的核酸序列，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及(b)RNA指导物(或编码该RNA指导物的核酸)，该RNA指导物包含直接重复序列和能够与该靶核酸杂交的间隔子序列；其中该CRISPR相关蛋白能够结合该RNA指导物；并且其中通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。

在本文所提供的任一方法的一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:4中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列。在本文所提供的任一方法的一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:4中列出的氨基酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的氨基酸序列。在本文所提供的任一方法的一些实施例中，该直接重复包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所提供的任一方法的一些实施例中，其中该直接重复包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所提供的任一方法的一些实施例中，该靶核酸相邻于PAM序列，并且该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所提供的任一方法的一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:10中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列。在本文所提供的任一方法的一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:10中列出的氨基酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的氨基酸序列。在本文所提供的任一方法的一些实施例中，该直接重复包含与SEQ ID NO:62或SEQ IDNO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所提供的任一方法的一些实施例中，其中该直接重复包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在本文所提供的任一方法的一些实施例中，该靶核酸相邻于PAM序列，并且该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

在本文所提供的任一方法的一些实施例中，该转染是瞬时转染。在本文所提供的任一方法的一些实施例中，该细胞是人细胞。

在另一方面，本披露提供了一种组合物，该组合物包含：(a)CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸；以及(b)RNA指导物，该RNA指导物包含直接重复序列和间隔子序列；其中该CRISPR相关蛋白包含以下氨基酸序列中的一种或多种：(i)PX₁X₂X₃X₄F(SEQ IDNO:216)，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M；(ii)RX₁X₂X₃L(SEQ ID NO:217)，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K；(iii)NX₁YX₂(SEQ ID NO:218)，其中X₁是I或L或F并且X₂是K或R或V或E；(iv)KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N；(v)LX₁NX₂(SEQ ID NO:220)，其中X₁是G或S或C或T并且X₂是N或Y或K或S；(vi)PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I；(vii)KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q；以及(viii)X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L；并且其中该CRISPR相关蛋白能够结合该RNA指导物并且能够修饰与该间隔子序列互补的该靶核酸序列。

在本文所述的任一组合物的一些实施例中，该直接重复序列包含以下序列中的一种或多种：(a)X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO:224)，其中X₁是A或C或G，X₂是T或C或A，X₃是T或G或A，X₄是T或G，X₅是T或G或A，X₆是G或T或A，X₇是T或G或A，并且X₈是A或G或T(例如，ATTGTTGDA(SEQ ID NO:225))；(b)X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO:226)，其中X₁是T或C或A，X₂是T或A或G，X₃是T或C或A，X₄是T或A，X₅是T或A或G，X₆是T或A，X₇是A或T，X₈是A或G或C或T，并且X₉是G或A或C(例如，TTTTWTARG(SEQ ID NO:227))；以及(c)X₁X₂X₃AC(SEQ ID NO:228)，其中X₁是A或C或G，X₂是C或A，并且X₃是A或C(例如，ACAAC(SEQ ID NO:229))。在本文所述的任一组合物的一些实施例中，SEQ ID NO:224在该直接重复的5’端的近侧。在本文所述的任一组合物的一些实施例中，SEQ ID NO:228在该直接重复的3’端的近侧。

在本文所述的任一组合物的一些实施例中，该CRISPR相关蛋白包含至少一个(例如，一个、两个或三个)RuvC结构域或至少一个拆分型RuvC结构域。

在本文所述的任一组合物的一些实施例中，该RNA指导物的该间隔子序列包含约15个核苷酸至约55个核苷酸。在本文所述的任一组合物的一些实施例中，该RNA指导物的该间隔子序列包含20至45个核苷酸。

在本文所述的任一组合物的一些实施例中，该CRISPR相关蛋白包含催化残基(例如，天冬氨酸或谷氨酸)。在本文所述的任一组合物的一些实施例中，该CRISPR相关蛋白切割该靶核酸。在本文所述的任一组合物的一些实施例中，该CRISPR相关蛋白进一步包含肽标签、荧光蛋白、碱基编辑结构域、DNA甲基化结构域、组蛋白残基修饰结构域、定位因子、转录修饰因子、光门控因子、化学诱导型因子或染色质可视化因子。

在本文所述的任一组合物的一些实施例中，编码该CRISPR相关蛋白的该核酸经密码子优化以在细胞，例如真核细胞，例如哺乳动物细胞，例如人细胞中表达。在本文所述的任一组合物的一些实施例中，编码该CRISPR相关蛋白的该核酸可操作地连接至启动子。在本文所述的任一组合物的一些实施例中，编码该CRISPR相关蛋白的该核酸在载体中。在一些实施例中，该载体包括逆转录病毒载体、慢病毒载体、噬菌体载体、腺病毒载体、腺相关载体或单纯疱疹载体。

在本文所述的任一组合物的一些实施例中，该靶核酸是DNA分子。在本文所述的任一组合物的一些实施例中，该靶核酸包含PAM序列。

在本文所述的任一组合物的一些实施例中，该CRISPR相关蛋白具有非特异性核酸酶活性。

在本文所述的任一组合物的一些实施例中，通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。在本文所述的任一组合物的一些实施例中，对该靶核酸的该修饰是双链切割事件。在本文所述的任一组合物的一些实施例中，对该靶核酸的该修饰是单链切割事件。在本文所述的任一组合物的一些实施例中，对该靶核酸的该修饰导致插入事件。在本文所述的任一组合物的一些实施例中，对该靶核酸的该修饰导致缺失事件。在本文所述的任一组合物的一些实施例中，对该靶核酸的该修饰导致细胞毒性或细胞死亡。

在本文所述的任一组合物的一些实施例中，该系统进一步包括供体模板核酸。在本文所述的任一组合物的一些实施例中，该供体模板核酸是DNA分子。在本文所述的任一组合物的一些实施例中，其中该供体模板核酸是RNA分子。

在本文所述的任一组合物的一些实施例中，该RNA指导物任选地包括tracrRNA。在本文所述的任一组合物的一些实施例中，该系统进一步包括tracrRNA。在本文所述的任一组合物的一些实施例中，该系统不包括tracrRNA。在本文所述的任一组合物的一些实施例中，该CRISPR相关蛋白是自加工的。

在本文所述的任一组合物的一些实施例中，该系统存在于递送组合物中，该递送组合物包含纳米颗粒、脂质体、外来体、微泡或基因枪。

在本文所述的任一组合物的一些实施例中，这些组合物在细胞内。在一些实施例中，该细胞是真核细胞。在一些实施例中，该细胞是哺乳动物细胞。在一些实施例中，该细胞是人细胞。在一些实施例中，该细胞是原核细胞。

本文所述的效应子提供了另外的特征，这些另外的特征包括但不限于1)新型核酸编辑特性和控制机制，2)更小的大小以便在递送策略中具有更大的通用性，3)基因型触发的细胞过程诸如细胞死亡，和4)可编程的RNA指导的DNA插入、切除和转移，以及5)先前存在的免疫力通过非人共生来源产生的分化谱。参见例如实例1、4和5以及图1-3和5-11D。将本文所述的新型DNA靶向系统添加至基因组和表观基因组操纵的技术工具箱中使得能够广泛应用于特定的编程扰动。

本发明的其他特征和优点通过以下详细描述以及权利要求将会变得清楚。

附图说明

这些图是表示被称为CLUST.091979的蛋白质聚簇的分析结果的一系列示意图。

图1A、图1B、图1C、图1D、图1E、图1F、图1G、图1H、图1I、图1J、图1K和图1L共同示出了SEQ ID NO:1-4、14、15、17-19、21-25、27-33、35-49、51-56的效应子的比对。

图2是示出了CLUST.091979效应子的RuvC结构域的示意图，该示意图是基于表6中所示序列的共有序列。

图3示出了SEQ ID NO:57、58、60、62、63、70、72-74、76、77、80、83、84、86-88、90、128、130、139和213的直接重复序列的比对。共有序列(SEQ ID NO:230)示出在比对的顶部。

图4A是实例4中所述的体内阴性选择筛选测定的组分的示意图。设计了CRISPR阵列文库，这些阵列文库包括侧接有两个DR并由J23119表达、从pACYC184或大肠杆菌必需基因的两条链上均匀取样的非代表性间隔子。

图4B是实例4中所述的体内阴性选择筛选工作流的示意图。将CRISPR阵列文库克隆至效应子质粒中。将效应子质粒和非编码质粒转化至大肠杆菌中，之后进行生长以便阴性选择赋予对来自pACYC184或大肠杆菌必需基因的转录物的干扰的CRISPR阵列。使用效应子质粒的靶向测序来鉴定耗减的CRISPR阵列。进一步进行小型RNA测序以鉴定成熟crRNA和潜在tracrRNA要求。

图5是CLUST.091979AUXO013988882(SEQ ID NO:1中列出的效应子)的图，该图示出了在具有非编码序列的情况下，工程化组合物针对靶向pACYC184的间隔子和直接重复转录取向的耗减活性程度。描绘了在呈“正向”取向(5’-ACTA…AACT-[间隔子]-3’)的直接重复的情况下和在呈“反向”取向(5’-AGTT…TAGT-[间隔子]-3’)的直接重复的情况下的耗减程度。

图6A是按pACYC184质粒上的位置示出了CLUST.091979AUXO013988882(具有非编码序列)的耗减靶标和非耗减靶标的密度的图形表示。图6B是按大肠杆菌菌株E.Cloni上的位置示出了CLUST.091979AUXO013988882(具有非编码序列)的耗减靶标和非耗减靶标的密度的图形表示。单独地并与注释基因的取向相关地示出了顶链和底链上的靶标。谱带的幅度指示耗减程度，其中较轻的谱带接近于3的命中阈值。梯度是示出了相对转录物丰度的RNA测序的热图。

图7是作为CLUST.091979AUXO013988882(具有非编码序列)的PAM序列的预测的E.Cloni中侧接耗减靶标的序列的WebLogo。

图8是CLUST.091979SRR3181151(SEQ ID NO:4中列出的效应子)的图，该图示出了在具有非编码序列的情况下，工程化组合物针对靶向pACYC184的间隔子和直接重复转录取向的耗减活性程度。描绘了在呈“正向”取向(5’-GTTG…CAGG-[间隔子]-3’)的直接重复的情况下和在呈“反向”取向(5’-CCTG…CAAC-[间隔子]-3’)的直接重复的情况下的耗减程度。

图9A是按pACYC184质粒上的位置示出了CLUST.091979SRR3181151(具有非编码序列)的耗减靶标和非耗减靶标的密度的图形表示。图9B是按大肠杆菌菌株E.Cloni上的位置示出了CLUST.091979SRR3181151(具有非编码序列)的耗减靶标和非耗减靶标的密度的图形表示。单独地并与注释基因的取向相关地示出了顶链和底链上的靶标。谱带的幅度指示耗减程度，其中较轻的谱带接近于3的命中阈值。梯度是示出了相对转录物丰度的RNA测序的热图。

图10是作为CLUST.091979SRR3181151(具有非编码序列)的PAM序列的预测的E.Cloni中侧接耗减靶标的序列的WebLogo。

图11A示出了在HEK293细胞中SEQ ID NO:4的效应子在SEQ ID NO:206的AAVS1靶基因座和SEQ ID NO:208的VEGFA靶基因座处诱导的插入缺失。图11B示出了在HEK293细胞中SEQ ID NO:4的效应子在SEQ ID NO:253、255、257、259和275的AAVS1靶基因座、SEQ IDNO:263、265、267、269、271、273和277的VEGFA靶基因座以及SEQ ID NO:261的EMX1靶基因座处诱导的插入缺失。图11C示出了在HEK293细胞中SEQ ID NO:10的效应子在SEQ ID NO:210的AAVS1靶基因座、SEQ ID NO:212的AAVS1靶基因座以及SEQ ID NO:215的VEGFA靶基因座处诱导的插入缺失。图11D示出了在HEK293细胞中SEQ ID NO:10的效应子在SEQ ID NO:279、281、285和287的AAVS1靶基因座、SEQ ID NO:283的VEGFA靶基因座以及SEQ ID NO:289的EMX1靶基因座处诱导的插入缺失。

具体实施方式

天然多样性的CRISPR-Cas系统包括广泛范围的可用于可编程生物技术的活性机制和功能性元件。在自然界中，这些系统能够有效地防御外来DNA和病毒，同时提供自我与非自我的区别以避免自我靶向。在工程化环境中，这些系统提供了分子技术的多样性工具箱，并且定义了靶向空间的边界。本文所述的方法已被用于发现单亚基2类效应子系统内的另外机制和参数，这些另外机制和参数扩展了RNA可编程核酸操纵的能力。

除非另有定义，否则本文所用的所有技术和科学术语均具有与本发明所属领域普通技术人员所通常理解的相同含义。虽然类似于或等同于本文所述的那些的方法和材料可以用于本发明的实践或测试中，但是下面描述了合适的方法和材料。本文所提及的所有出版物、专利申请、专利和其他参考文献均通过援引以其全文并入。在有矛盾的情况下，将以本说明书(包括定义)为准。此外，材料、方法和实例仅为说明性的，而并非旨在为限制性的。根据专利法中的标准惯例，申请人使用过渡性短语“包含”、“基本上由……组成”或“由……组成”保留替代性地要求保护任何所披露的发明的权利。

除非上下文另有明确规定，否则如本文所用，单数形式“一种/一个(a/an)”和“该”包括复数指示物。例如，对“一种核酸”的提及意指一种或多种核酸。

应指出，术语如“优选地”、“合适地”、“通常”和“典型地”在本文中不用于限制所要求保护的发明的范围或者暗示某些特征对于所要求保护的发明的结构或功能是关键、必要的或甚至重要的。相反，这些术语仅仅旨在强调在本发明的特定实施例中可以利用或可以不利用的替代性或其另外的特征。

出于描述和限定本发明的目的，应指出术语“基本上”在本文中用于表示可以归因于任何定量比较、值、测量值或其他表示的固有不确定性程度。术语“基本上”在本文中还用于表示定量表示可以不同于所述参考而不导致讨论中的主题的基本功能的改变的程度。

如本文所用，术语“CRISPR-Cas系统”是指参与CRISPR效应子的表达或指导其活性的核酸和/或蛋白质，包括编码CRISPR效应子的序列、RNA指导物以及来自CRISPR基因座的其他序列和转录物。

如本文可互换使用的术语“CRISPR相关蛋白”、“CRISPR-Cas效应子”、“CRISPR效应子”、“效应子”、“效应子蛋白”、“CRISPR酶”等是指完成酶活性或结合由RNA指导物指定的核酸上的靶位点的蛋白质。在一些实施例中，CRISPR效应子具有核酸内切酶活性、切口酶活性和/或核酸外切酶活性。

如本文所用，术语“RNA指导物”、“指导RNA”、“gRNA”和“指导序列”是指有利于将本文所述的效应子靶向至靶核酸(诸如DNA和/或RNA)的任何RNA分子。示例性“RNA指导物”包括但不限于crRNA，以及与tracrRNA和/或调节子RNA杂交或融合的crRNA。在一些实施例中，RNA指导物包括融合成单RNA分子或者作为单独的RNA分子的crRNA和tracrRNA两者。在一些实施例中，RNA指导物包括融合成单RNA分子或者作为单独的RNA分子的crRNA和调节子RNA。在一些实施例中，RNA指导物包括融合成单RNA分子或者作为单独的RNA分子的crRNA、tracrRNA和调节子RNA。

如本文使用，术语“CRISPR效应子复合物”、“效应子复合物”或“监视复合物”是指含有CRISPR效应子和RNA指导物的复合物。CRISPR效应子复合物可以进一步包含一种或多种辅助蛋白。一种或多种辅助蛋白可以是非催化性和/或非靶标结合的。

如本文所用，术语“CRISPR RNA”和“crRNA”是指包含由CRISPR效应子用于特异性识别核酸序列的指导序列的RNA分子。crRNA“间隔子”序列与核酸靶序列互补并且能够部分或完全结合核酸靶序列。crRNA可以包含与tracrRNA杂交的序列。进而，crRNA:tracrRNA双链体可以结合CRISPR效应子。如本文所用，术语“前crRNA”是指包含DR-间隔子-DR序列的未加工RNA分子。如本文所用，术语“成熟crRNA”是指前crRNA的加工形式；成熟crRNA可以包含DR-间隔子序列，其中DR是前crRNA的DR的截短形式和/或间隔子是前crRNA的间隔子的截短形式。

如本文所用，术语“反式激活crRNA”或“tracrRNA”是指这样的RNA分子，该RNA分子包含形成为CRISPR效应子结合特定靶核酸所需的结构和/或序列基序的序列。

如本文所用，术语“CRISPR阵列”是指包含CRISPR重复和间隔子的核酸(例如，DNA)区段，该核酸区段从第一个CRISPR重复的第一个核苷酸开始并以最后一个(末端)CRISPR重复的最后一个核苷酸结束。典型地，CRISPR阵列中的每个间隔子位于两个重复之间。如本文所用，术语“CRISPR重复”、“CRISPR直接重复”和“直接重复”是指多个短的直接重复序列，这些直接重复序列在CRISPR阵列内显示出很小的序列变化或不显示序列变化。

如本文所述的术语“调节子RNA”是指调节(例如，增加或降低)CRISPR效应子或包含CRISPR效应子的核蛋白复合物的活性的任何RNA分子。在一些实施例中，调节子RNA调节CRISPR效应子或包含CRISPR效应子的核蛋白复合物的核酸酶活性。

如本文所用，术语“靶核酸”是指这样的核酸，该核酸包含与RNA指导物中间隔子的全部或部分互补的核苷酸序列。在一些实施例中，靶核酸包含基因。在一些实施例中，靶核酸包含非编码区(例如，启动子)。在一些实施例中，靶核酸是单链的。在一些实施例中，靶核酸是双链的。如本文所用，“转录活性位点”是指在被主动转录的核酸序列中的位点。

如本文所用，术语“原型间隔子相邻基序”或“PAM”是指相邻于与包含效应子和RNA指导物的复合物结合的靶序列的DNA序列。在一些实施例中，PAM是酶活性所需的。如本文所用，术语“相邻”包括复合物的RNA指导物与紧邻PAM的靶序列特异性结合、相互作用或缔合的情况。在此类情况下，在靶序列与PAM之间没有核苷酸。术语“相邻”还包括在与靶向部分结合的靶序列与PAM之间存在少数(例如，1、2、3、4或5个)核苷酸的情况。如本文所用，术语“识别PAM序列”是指包含CRISPR相关蛋白和crRNA的复合物与靶核酸的结合，其中靶核酸相邻于PAM序列。

如本文所用，术语“激活的CRISPR效应子复合物”、“激活的CRISPR复合物”和“激活的复合物”是指能够修饰靶核酸的CRISPR效应子复合物。在一些实施例中，激活的CRISPR复合物能够在激活的CRISPR复合物与靶核酸结合后修饰靶核酸。在一些实施例中，激活的CRISPR复合物与靶核酸的结合导致另外的切割事件，诸如伴切割。

如本文所用，术语“切割事件”是指核酸(诸如DNA和/或RNA)中的断裂。在一些实施例中，切割事件是指由本文所述CRISPR系统的核酸酶产生的靶核酸中的断裂。在一些实施例中，切割事件是双链DNA断裂。在一些实施例中，切割事件是单链DNA断裂。在一些实施例中，切割事件是指伴核酸中的断裂。

如本文所用，术语“伴核酸”是指被激活的CRISPR复合物非特异性切割的核酸底物。如本文中关于CRISPR效应子使用的术语“伴DNA酶活性”是指激活的CRISPR复合物的非特异性DNA酶活性。如本文中关于CRISPR效应子使用的术语“伴RNA酶活性”是指激活的CRISPR复合物的非特异性RNA酶活性。

如本文所用，术语“供体模板核酸”是指这样的核酸分子，该核酸分子可以用于在本文所述的CRISPR效应子修饰了靶核酸之后对靶序列或靶近侧序列作出模板化改变。在一些实施例中，供体模板核酸是双链核酸。在一些实施例中，供体模板核酸是单链核酸。在一些实施例中，供体模板核酸是线性的。在一些实施例中，供体模板核酸是环状的(例如，质粒)。在一些实施例中，供体模板核酸是外源核酸分子。在一些实施例中，供体模板核酸是内源核酸分子(例如，染色体)。

如本文所用，术语“多核苷酸”、“核苷酸”、“寡核苷酸”和“核酸”可以互换使用以指包括DNA、RNA、其衍生物或其组合的核酸。可以使用本领域技术人员熟知的方法来构建根据本发明的基因表达构建体和重组细胞。这些方法包括体外重组DNA技术、合成技术、体内重组技术和聚合酶链反应(PCR)技术。参见例如如以下文献中所述的技术：Maniatis等人,1989,MOLECULAR CLONING:A LABORATORY MANUAL[分子克隆：实验室手册],Cold SpringHarbor Laboratory[冷泉港实验室],New York[纽约]；Ausubel等人,1989,CURRENTPROTOCOLS IN MOLECULAR BIOLOGY[分子生物学实验指南],Greene PublishingAssociates and Wiley Interscience[格林出版协会和威利跨学科出版社],New York[纽约]；以及PCR Protocols:A Guide to Methods and Applications[PCR方案：方法和应用指南](Innis等人.,1990,Academic Press[学术出版社],San Diego,Calif.[加利福尼亚州圣迭哥])。

术语“基因修饰”或“基因工程化”广义地是指对细胞的基因组或核酸的操纵。同样，术语“基因工程化的”和“工程化的”是指包含经操纵的基因组或核酸的细胞。基因修饰的方法包括例如异源基因表达、基因或启动子插入或缺失、核酸突变、改变基因表达或失活、酶工程化、定向演化、基于知识的设计、随机诱变方法、基因改组和密码子优化。

术语“重组体”表明核酸、蛋白质或细胞是基因修饰、工程化或重组的产物。一般来讲，术语“重组体”是指含有来源于多种来源的遗传物质或由其编码的核酸、蛋白质或细胞。如本文所用，术语“重组体”还可以用于描述包含突变的核酸或蛋白质(包括内源性核酸或蛋白质的突变形式)的细胞。术语“重组细胞”和“重组宿主”可以互换使用。在一些实施例中，重组细胞包含本文所披露的CRISPR效应子。CRISPR效应子可以经密码子优化以在重组细胞中表达。在一些实施例中，本文所披露的重组细胞进一步包含RNA指导物。在一些实施例中，本文所披露的重组细胞的RNA指导物包含tracrRNA。在一些实施例中，本文所披露的重组细胞包含调节子RNA。在一些实施例中，重组细胞可以是原核细胞，诸如大肠杆菌细胞。在一些实施例中，重组细胞是真核细胞，诸如哺乳动物细胞，包括人细胞。

对CLUST.091979的鉴定

本申请涉及在本文中称为“CLUST.091979”的新型蛋白质家族的鉴定、工程化和用途。如图2中所示，CLUST.091979的蛋白质包含RuvC结构域(表示为RuvC I、RuvC II和RuvCIII)。如表5中所示，CLUST.091979的效应子的大小范围为从约700个氨基酸至约800个氨基酸。因此，CLUST.091979的效应子小于如下面所示的本领域已知的效应子。参见例如表1。

表1.已知CRISPR-Cas系统效应子的大小。

使用计算方法和算法鉴定CLUST.091979的效应子以搜索和鉴定展现出与某些其他特征的强共现模式的蛋白质。在某些实施例中，这些计算方法涉及鉴定与CRISPR阵列很靠近地共现的蛋白质。本文所披露的方法还可用于鉴定天然很靠近其他特征(非编码特征和蛋白质编码特征(例如，细菌基因座的非编码区域中的噬菌体序列片段；或CRISPR Cas1蛋白质))出现的蛋白质。应理解，本文所述的方法和计算可以在一个或多个计算设备上执行。

从基因组或宏基因组数据库获得基因组序列的集合。数据库包括短读段、或重叠群水平数据、或组装的支架、或生物体的完整基因组序列。同样，数据库可以包括来自原核生物或真核生物的基因组序列数据，或可以包括来自宏基因组环境样品的数据。数据库储存库的实例包括国家生物技术信息中心(National Center for BiotechnologyInformation)(NCBI)RefSeq、NCBI GenBank、NCBI全基因组鸟枪(WGS)和联合基因组研究所(Joint Genome Institute)(JGI)综合微生物基因组(IMG)。

在一些实施例中，施加最小大小要求以选择具有指定的最小长度的基因组序列数据。在某些示例性实施例中，最小重叠群长度可以是100个核苷酸、500nt、1kb、1.5kb、2kb、3kb、4kb、5kb、10kb、20kb、40kb或50kb。

在一些实施例中，从完整的或选择的基因组序列数据集合中提取已知的或预测的蛋白质。在一些实施例中，已知或预测的蛋白质获取自提取源数据库提供的编码序列(CDS)注释。在一些实施例中，通过应用计算方法从核苷酸序列中鉴定蛋白质来确定预测的蛋白质。在一些实施例中，使用GeneMark套件来从基因组序列预测蛋白质。在一些实施例中，使用Prodigal来从基因组序列预测蛋白质。在一些实施例中，可以在相同的序列数据集合上使用多个蛋白质预测算法，其中所得的蛋白质集合被去重复。

在一些实施例中，从基因组序列数据中鉴定CRISPR阵列。在一些实施例中，使用PILER-CR来鉴定CRISPR阵列。在一些实施例中，使用CRISPR识别工具(CRT)来鉴定CRISPR阵列。在一些实施例中，通过鉴定重复最小次数(例如，2、3或4次)的核苷酸基序的启发式方法来鉴定CRISPR阵列，其中重复基序的连续出现之间的间隔不超过指定长度(例如，50、100或150个核苷酸)。在一些实施例中，可以在相同的序列数据集合上使用多个CRISPR阵列鉴定工具，其中所得的CRISPR阵列集合被去重复。

在一些实施例中，鉴定出与CRISPR阵列很靠近的蛋白质(在本文中称为“CRISPR近侧蛋白质聚簇”)。在一些实施例中，靠近性被定义为核苷酸距离，并且可以在20kb、15kb或5kb内。在一些实施例中，靠近性被定义为蛋白质与CRISPR阵列之间的开放阅读框(ORF)的数目，并且某些示例性距离可以是10、5、4、3、2、1或0个ORF。然后将被鉴定为与CRISPR阵列很靠近的蛋白质分组到同源蛋白质聚簇中。在一些实施例中，使用blastclust来形成CRISPR近侧蛋白质聚簇。在某些其他实施例中，使用mmseqs2来形成CRISPR近侧蛋白质聚簇。

为了建立CRISPR近侧蛋白质聚簇的成员之间的强共现模式，可以在先前编译的已知和预测的蛋白质的完整集合上执行对蛋白质聚簇的每个成员的BLAST搜索。在一些实施例中，可以使用UBLAST或mmseqs2来搜索类似蛋白质。在一些实施例中，可以仅对家族中的代表性蛋白质子集进行搜索。

在一些实施例中，通过度量对CRISPR近侧蛋白质聚簇进行排序或过滤，以确定共现。一个示例性度量是蛋白质聚簇中的元件数目与达到某个E值阈值的BLAST匹配数目的比率。在一些实施例中，可以使用恒定的E值阈值。在其他实施例中，E值阈值可以由蛋白质聚簇的距离最远成员确定。在一些实施例中，将蛋白质的总体集合聚簇，并且共现度量是CRISPR近侧蛋白质聚簇的元件数目与一个或多个包含的总体聚簇的元件数目的比率。

在一些实施例中，基于聚簇中蛋白质的天然存在的基因座结构，使用人工审查过程来评价工程化系统的潜在功能性和最小的组分集合。在一些实施例中，蛋白质聚簇的图形表示可以有助于人工审查，并且可以包含信息，该信息包括成对序列相似性、系统发育树、源生物体/环境、预测的功能性结构域和基因座结构的图形描绘。在一些实施例中，基因座结构的图形描绘可以针对具有高表示的附近蛋白质家族过滤。在一些实施例中，可以通过相关的附近蛋白质的数目与一个或多个包含的总体聚簇的一个或多个大小的比率来计算表示。在某些示例性实施例中，蛋白质聚簇的图形表示可以包含对天然存在的基因座的CRISPR阵列结构的描绘。在一些实施例中，蛋白质聚簇的图形表示可以包含保守的直接重复的数目相对于推定CRISPR阵列的长度的描绘，或者独特的间隔子序列的数目相对于推定CRISPR阵列的长度的描绘。在一些实施例中，蛋白质聚簇的图形表示可以包含对预测新的CRISPR-Cas系统并鉴定其组分的推定效应子与CRISPR阵列共现的各种度量的描绘。

CLUST.091979的池化筛选

为了有效地验证本文鉴定的工程化CLUST.091979CRISPR-Cas系统的活性、机制和功能参数，在大肠杆菌中使用了池化筛选方法，如实例4中所述。首先，根据CLUST.091979CRISPR系统的保守蛋白和非编码元件的计算鉴定，使用DNA合成和分子克隆将单独的组分组装成单一人工表达载体，在一个实施例中，该单一人工表达载体是基于pET-28a+骨架。在第二实施例中，将效应子和非编码元件在mRNA转录物上转录，并且使用不同的核糖体结合位点来翻译单独效应子。

其次，用含有靶向第二质粒pACYC184的非天然间隔子的未加工crRNA的文库替换天然crRNA和靶向间隔子。将此crRNA文库克隆至包含效应子和非编码元件的载体骨架(例如，pET-28a+)中，并且随后将文库连同pACYC184质粒靶标转化至大肠杆菌中。因此，每个所得的大肠杆菌细胞含有不超过一个靶向阵列。在替代性实施例中，含有非天然间隔子的未加工crRNA的文库另外靶向大肠杆菌必需基因，这些大肠杆菌必需基因从诸如在以下文献中所述的那些的资源中提取：Baba等人(2006)Mol.Syst.Biol.[分子系统生物学]2:2006.0008；和Gerdes等人(2003)J.Bacteriol.[细菌学杂志]185(19):5673-84，将这些文献中的每一个的全部内容通过援引并入本文。在此实施例中，新型CRISPR-Cas系统的破坏必需基因功能的阳性靶向活性导致细胞死亡或生长停滞。在一些实施例中，可以将必需基因靶向间隔子与pACYC184靶标组合。

第三，将大肠杆菌在抗生素选择下生长。在一个实施例中，使用三重抗生素选择：卡那霉素(用于确保成功转化含有工程化CRISPR效应子系统的pET-28a+载体)以及氯霉素和四环素(用于确保成功共转化pACYC184靶标载体)。由于pACYC184通常赋予对氯霉素和四环素的抗性，因此在抗生素选择下，靶向质粒的新型CRISPR-Cas系统的阳性活性将消除主动表达crRNA文库的效应子、非编码元件和特异性活性元件的细胞。典型地，在转化后12-14h分析存活细胞的群体。在一些实施例中，在转化后6-8h、在转化后8-12h、在转化后长达24h或在转化后超过24h进行对存活细胞的分析。与较早时间点相比，在较晚时间点检查存活细胞的群体产生与非活性crRNA相比耗减的信号。

在一些实施例中，使用双重抗生素选择。撤除氯霉素或四环素以去除选择压力可以提供关于靶向底物、序列特异性和效力的新型信息。例如，对选择或未选择的基因中dsDNA的切割可以导致大肠杆菌中的阴性选择，其中观察到选择的基因和未选择的基因两者的耗减。如果CRISPR-Cas系统干扰转录或翻译(例如，通过结合或通过转录物切割)，则将仅观察到对于选择的抗性基因中而非选择的抗性基因中的靶标的选择。

在一些实施例中，仅使用卡那霉素来确保成功转化包含工程化CRISPR-Cas系统的pET-28a+载体。此实施例适用于含有靶向大肠杆菌必需基因的间隔子的文库，因为除了卡那霉素之外，不需要另外的选择来观察生长变化。在此实施例中，去除氯霉素和四环素依赖性，并且它们在文库中的靶标(如果有的话)提供了关于靶向底物、序列特异性和效力的阴性或阳性信息的另外来源。

由于pACYC184质粒包含一组可能影响CRISPR-Cas系统活性的不同特征和序列，因此将来自池化筛选的活性crRNA映射至pACYC184上提供了活性模式，该活性模式可以提示不同的活性机制和功能参数。这样，为在异源原核物种中重构新型CRISPR-Cas系统所需的特征可以得到更全面的测试和研究。

本文所述的体内池化筛选的关键优点包括：

(1)通用性-质粒设计允许表达多种效应子和/或非编码元件；文库克隆策略使得计算预测的crRNA的两个转录方向都能表达；

(2)活性机制和功能参数的全面测试-评价多样性干扰机制，包括核酸切割；检查特征诸如转录、质粒DNA复制的共现；以及可以使用crRNA文库的侧接序列来可靠地确定复杂度等价为4N的PAM；

(3)敏感性-pACYC184是低拷贝质粒，能够对CRISPR-Cas活性具有高敏感性，这是由于即使适度的干扰率也可以消除质粒编码的抗生素抗性；以及

(4)效率-优化分子生物学步骤，使得实现速度更快且通量更大的RNA测序，并且蛋白质表达样品可以直接从筛选中的存活细胞中获得。

将本文所述的新型CLUST.091979CRISPR-Cas家族使用体内池化筛选进行评价，以评价其操作元件、机制和参数，以及其在其内源细胞环境之外的工程化系统中具有活性和重新编程的能力。

CRISPR效应子活性和修饰

在一些实施例中，CLUST.091979的CRISPR效应子和RNA指导物形成可以包含其他组分的“二元”复合物。在结合与RNA指导物中的间隔子序列互补的核酸底物(即，序列特异性底物或靶核酸)后，二元复合物被激活。在一些实施例中，序列特异性底物是双链DNA。在一些实施例中，序列特异性底物是单链DNA。在一些实施例中，序列特异性底物是单链RNA。在一些实施例中，序列特异性底物是双链RNA。在一些实施例中，序列特异性要求RNA指导物(例如，crRNA)中的间隔子序列与靶底物完全匹配。在其他实施例中，序列特异性要求RNA指导物(例如，crRNA)中的间隔子序列与靶底物的部分(连续或非连续)匹配。

在一些实施例中，本发明的CRISPR效应子在宽范围的pH条件下具有酶活性，例如核酸酶活性。在一些实施例中，核酸酶在从约3.0至约12.0的pH下具有酶活性，例如核酸酶活性。在一些实施例中，CRISPR效应子在从约4.0至约10.5的pH下具有酶活性。在一些实施例中，CRISPR效应子在从约5.5至约8.5的pH下具有酶活性。在一些实施例中，CRISPR效应子在从约6.0至约8.0的pH下具有酶活性。在一些实施例中，CRISPR效应子在约7.0的pH下具有酶活性。

在一些实施例中，本发明的CRISPR效应子在从约10℃至约100℃的温度范围下具有酶活性，例如核酸酶活性。在一些实施例中，本发明的CRISPR效应子在从约20℃至约90℃的温度范围下具有酶活性。在一些实施例中，本发明的CRISPR效应子在约20℃至约25℃的温度下或在约37℃的温度下具有酶活性。

在一些实施例中，二元复合物在结合靶底物后变为激活的。在一些实施例中，激活的复合物展现出“多次周转”活性，由此在作用于(例如，切割)靶底物后，激活的复合物保持在激活状态。在一些实施例中，激活的二元复合物展现出“单周转”活性，由此在作用于靶底物后，二元复合物恢复到非活性状态。在一些实施例中，激活的二元复合物展现出非特异性(即，“伴”)切割活性，由此该复合物切割非靶标核酸。在一些实施例中，非靶标核酸是DNA分子(例如，单链或双链DNA)。在一些实施例中，非靶标核酸是RNA分子(例如，单链或双链RNA)。

在其中本发明的CRISPR效应子在靶核酸(例如基因组DNA)中诱导双链断裂或单链断裂的一些实施例中，双链断裂可以刺激细胞内源DNA修复途径，包括同源定向重组(HDR)、非同源末端连接(NHEJ)或选择性非同源末端连接(A-NHEJ)。NHEJ可以修复裂解的靶核酸，而无需同源模板。此举可以导致一个或多个核苷酸在靶基因座处的缺失或插入。HDR可以用同源模板，诸如供体DNA发生。同源模板可以包含与侧接靶核酸裂解位点的序列同源的序列。在一些情况下，HDR可以将外源多核苷酸序列插入至切割靶基因座中。由于NHEJ和/或HDR引起的对靶DNA的修饰可以导致例如突变、缺失、改变、整合、基因矫正、基因替换、基因标记、转基因敲入、基因破坏和/或基因敲除。

在一些实施例中，可以将本文所述的CRISPR效应子融合至一个或多个肽标签，包括His-标签、GST-标签、FLAG-标签或myc-标签。在一些实施例中，可以将本文所述的CRISPR效应子融合至可检测部分，诸如荧光蛋白(例如，绿色荧光蛋白或黄色荧光蛋白)。在一些实施例中，将本披露的CRISPR效应子和/或辅助蛋白融合至肽或非肽部分，该肽或非肽部分允许蛋白质进入或定位至组织、细胞或细胞区域。例如，本披露的CRISPR效应子可以包含核定位序列(NLS)，诸如SV40(猿猴病毒40)NLS、c-Myc NLS或其他合适的单颗粒NLS。可以将NLS融合至CRISPR效应子的N末端和/或C末端，并且可以将其单独融合(即，单一NLS)或串联(例如，2、3、4等个NLS的链)。

在一些实施例中，将至少一个核输出信号(NES)附接至编码CRISPR效应子的核酸序列。在一些实施例中，附接C末端和/或N末端NLS或NES以用于在真核细胞(例如，人细胞)中的最佳表达和核靶向。

在将标签融合至CRISPR效应子的那些实施例中，这种标签可以有利于CRISPR效应子的基于亲和力或基于电荷的纯化，该纯化例如通过利用固定的亲和力或离子交换试剂的液相色谱或珠分离进行。作为非限制性实例，本披露的重组CRISPR效应子包含多组氨酸(His)标签，并且为了纯化，将其装载至包含固定化金属离子的色谱柱上(例如由固定在树脂上的螯合配体螯合的Zn²⁺、Ni²⁺、Cu²⁺离子，该树脂可以是单独制备的树脂或可商购获得的树脂或即用型柱，诸如由马萨诸塞州马尔堡(Marlborough)的通用医疗生命科学公司(GEHealthcare Life Sciences)市售的HisTrap FF柱)。在装载步骤后，任选地例如使用一种或多种合适的缓冲溶液冲洗柱，并且然后使用合适的洗脱缓冲液洗脱加His标签的蛋白质。替代性地或另外地，如果本披露的重组CRISPR效应子利用FLAG-标签，则可以使用业内已知的免疫沉淀方法纯化这种蛋白质。对于本领域技术人员来说，本披露的加标签的CRISPR效应子或辅助蛋白的其他合适的纯化方法将是明显的。

本文所述的蛋白质(例如，CRISPR效应子或辅助蛋白)可以作为核酸分子或者多肽递送或使用。当使用核酸分子时，编码CRISPR效应子的核酸分子可以是密码子优化的。核酸可以经密码子优化以用于在任何目的生物体(特别是人细胞或细菌)中使用。例如，核酸可以经密码子优化以用于任何非人真核生物(包括小鼠、大鼠、兔、狗、家畜或非人灵长类动物)。密码子使用表是易于获得的，例如在www.kazusa.orjp/codon/上可获得的“密码子使用数据库(Codon Usage Database)”中，并且这些表可以按多种方式进行改编。参见Nakamura等人Nucl.Acids Res.[核酸研究]28:292(2000)，将该文献通过援引以其全文并入本文。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可得的，诸如基因制造(Gene Forge)(Aptagen公司；宾夕法尼亚州雅各布斯(Jacobus,PA))。

在一些情况下，本披露的编码用于在真核生物(例如，人或其他哺乳动物细胞)细胞中表达的CRISPR效应子的核酸包含一个或多个内含子，即一个或多个非编码序列，该一个或多个非编码序列在第一端(例如，5’端)包含剪接供体序列并且在第二端(例如，3’端)包含剪接受体序列。任何合适的剪接供体/剪接受体可以用于本披露的各种实施例中，包括但不限于猿猴病毒40(SV40)内含子、β-珠蛋白内含子和合成内含子。替代性地或另外地，本披露的编码CRISPR效应子或辅助蛋白的核酸可以在DNA编码序列的3’端包含转录终止信号，诸如聚腺苷酸化(聚A)信号。在一些情况下，聚A信号很靠近或相邻于内含子(诸如SV40内含子)定位。

去激活/失活的CRISPR效应子

可以将本文所述的CRISPR效应子修饰为具有减弱的核酸酶活性，例如与野生型CRISPR效应子相比，至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少97％或100％的核酸酶失活。核酸酶活性可以通过本领域已知的若干种方法，例如将突变引入至蛋白质的核酸酶结构域中来减弱。在一些实施例中，鉴定出核酸酶活性的催化残基，并且这些氨基酸残基可以被不同的氨基酸残基(例如，甘氨酸或丙氨酸)取代以减弱核酸酶活性。

失活的CRISPR效应子可以包含一个或多个功能性结构域或与一个或多个功能性结构域相关联(例如，经由融合蛋白、接头肽、“GS”接头等)。这些功能性结构域可以具有各种活性，例如甲基化酶活性、去甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性和开关活性(例如，光诱导的)。在一些实施例中，功能性结构域是Krüppel相关框(KRAB)、VP64、VP16、Fok1、P65、HSF1、MyoD1和生物素-APEX。

一个或多个功能性结构域在失活的CRISPR效应子上的定位允许功能性结构域的正确空间取向，从而以所归属的功能效应影响靶标。例如，如果功能性结构域是转录激活因子(例如，VP16、VP64或p65)，则转录激活因子被放置成允许其影响靶标的转录的空间取向。同样，转录阻遏子被定位成影响靶标的转录，并且核酸酶(例如，Fok1)被定位成切割或部分切割靶标。在一些实施例中，功能性结构域位于CRISPR效应子的N末端。在一些实施例中，功能性结构域位于CRISPR效应子的C末端。在一些实施例中，将失活的CRISPR效应子修饰为包含在N末端处的第一功能性结构域和在C末端处的第二功能性结构域。

拆分型酶

本披露还提供了一种本文所述的CRISPR效应子的拆分形式。CRISPR效应子的拆分形式可能对于递送是有利的。在一些实施例中，CRISPR效应子被拆分为酶的两个部分，该两个部分一起基本上构成功能性CRISPR效应子。

拆分可以以一个或多个催化结构域不受影响的方式进行。CRISPR效应子可以起核酸酶的作用，或者可以是失活的酶，这些失活的酶基本上是具有很少或没有催化活性(例如，由于其催化结构域中的一个或多个突变)的RNA结合蛋白。

在一些实施例中，核酸酶裂片和α-螺旋裂片表达为单独的多肽。尽管这些裂片本身并不相互作用，但RNA指导物将它们招募至三元复合物中，该三元复合物重现全长CRISPR效应子的活性，并且催化位点特异性DNA切割。使用经修饰的RNA指导物通过阻止二聚化来消除拆分型酶的活性，从而允许诱导型二聚化系统的开发。拆分型酶描述于例如Wright等人.“Rational design of a split-Cas9 enzyme complex[拆分型Cas9酶复合物的合理设计],”Proc.Natl.Acad.Sci.[美国国家科学院院刊],112.10(2015):2984-2989中，将该文献通过援引以其全文并入本文。

在一些实施例中，可以例如通过采用雷帕霉素敏感性二聚化结构域将拆分型酶融合至二聚化配偶体。这允许产生化学诱导型CRISPR效应子用于CRISPR效应子活性的时间控制。因此，CRISPR效应子可以通过拆分成两个片段而成为化学诱导型，并且雷帕霉素敏感性二聚化结构域可以用于CRISPR效应子的受控重组。

拆分点典型地是经由计算机模拟设计的并且克隆至构建体中。在此过程中，可以将突变引入至拆分型酶，并且可以去除非功能性结构域。在一些实施例中，拆分型CRISPR效应子的两个部分或片段(即，N末端和C末端片段)可以形成包含野生型CRISPR效应子序列的例如至少70％、至少80％、至少90％、至少95％或至少99％的完全CRISPR效应子。

自激活或自失活酶

本文所述的CRISPR效应子可以被设计为自激活或自失活的。在一些实施例中，CRISPR效应子是自失活的。例如，可以将靶序列引入至CRISPR效应子编码构建体中。因此，CRISPR效应子可以切割靶序列以及编码该酶的构建体，从而自失活其表达。构建自失活CRISPR系统的方法描述于例如Epstein等人,“Engineering a Self-Inactivating CRISPRSystem for AAV Vectors[工程化用于AAV载体的自失活CRISPR系统],”Mol.Ther.[分子疗法],24(2016):S50中，将该文献通过援引以其全文并入本文。

在一些其他实施例中，在弱启动子(例如，7SK启动子)控制下表达的另外RNA指导物可以靶向编码CRISPR效应子的核酸序列以阻止和/或阻断其表达(例如，通过阻止核酸的转录和/或翻译)。用表达CRISPR效应子、RNA指导物和靶向编码CRISPR效应子的核酸的RNA指导物的载体转染细胞可以导致编码CRISPR效应子的核酸的有效破坏并降低CRISPR效应子的水平，从而限制基因组编辑活性。

在一些实施例中，CRISPR效应子的基因组编辑活性可以通过哺乳动物细胞中的内源RNA特征(例如，miRNA)来调节。CRISPR效应子开关可以通过在编码CRISPR效应子的mRNA的5′-UTR中使用miRNA互补序列来实现。开关选择性地且有效地响应靶细胞中的miRNA。因此，开关可以通过感测异质细胞群体内的内源miRNA活性来差异地控制基因组编辑。因此，开关系统可以为基于细胞内miRNA信息的细胞类型选择性基因组编辑和细胞工程化提供框架(Hirosawa等人“Cell-type-specific genome editing with a microRNA-responsiveCRISPR-Cas9 switch[利用微RNA响应性CRISPR-Cas9开关的细胞类型特异性基因组编辑],”Nucl.Acids Res.[核酸研究],2017年7月27日；45(13):e118)。

诱导型CRISPR效应子

CRISPR效应子可以是诱导型的，例如，光诱导型的或化学诱导型的。此机制允许激活CRISPR效应子中的功能性结构域。光诱导性可以通过本领域已知的各种方法来实现，例如通过设计这样的融合复合物来实现，其中将CRY2PHR/CIBN配对用于拆分型CRISPR效应子中(参见例如，Konermann等人,“Optical control of mammalian endogenoustranscription and epigenetic states[哺乳动物内源转录和表观遗传状态的光学控制],”Nature[自然],500.7463(2013):472)。化学诱导性可以例如通过设计这样的融合复合物来实现，其中将FKBP/FRB(FK506结合蛋白/FKBP雷帕霉素结合结构域)配对用于拆分型CRISPR效应子中。雷帕霉素是形成融合复合物从而激活CRISPR效应子所需的(参见例如，Zetsche等人,“A split-Cas9 architecture for inducible genome editing andtranscription modulation[用于诱导型基因组编辑和转录调节的拆分型Cas9架构],”Nature Biotech.[自然生物技术],33.2(2015):139-142)。

此外，CRISPR效应子的表达可以通过诱导型启动子，例如四环素或强力霉素控制的转录激活(Tet-On和Tet-Off表达系统)、激素诱导型基因表达系统(例如，蜕皮激素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。当作为RNA递送时，RNA靶向效应子蛋白的表达可以经由核糖开关来调节，该核糖开关可以感测小分子如四环素(参见例如，Goldfless等人,“Direct and specific chemical control of eukaryotic translationwith a synthetic RNA-protein interaction[通过合成的RNA-蛋白质相互作用直接和特异性地化学控制真核翻译],”Nucl.Acids Res.[核酸研究],40.9(2012):e64-e64)。

诱导型CRISPR效应子和诱导型CRISPR系统的各种实施例描述于例如US 8871445、US 20160208243和WO 2016205764中，将这些文献中的每一个通过援引以其全文并入本文。

功能性突变

可以将各种突变或修饰引入至如本文所述的CRISPR效应子中，以改善特异性和/或稳健性。在一些实施例中，鉴定出识别原型间隔子相邻基序(PAM)的氨基酸残基。可以进一步将本文所述的CRISPR效应子修饰以识别不同的PAM，例如通过用其他氨基酸残基取代识别PAM的氨基酸残基。在一些实施例中，CRISPR效应子可以识别例如5’-NTTN-3’、5’-NTTR-3’、5’-RTTR-3’、5’-TNNT-3’、5’-TNRT-3’、5’-TSRT-3’、5’-TGRT-3’、5’-TNRY-3’、5’-TTNR-3’、5’-TTYR-3’、5’-TTTR-3’、5’-TTCV-3’、5’-DTYR-3’、5’-WTTR-3’、5’-NNR-3’、5’-NYR-3’、5’-YYR-3’、5’-TYR-3’、5’-TTN-3’、5’-TTR-3’、5’-CNT-3’、5’-NGG-3’、5’-BGG-3’或5’-R-3’，其中“N”是任何核苷酸，“B”是C或G或T，“D”是A或G或T，“R”是A或G，“S”是G或C，“V”是A或C或G，“W”是A或T，并且“Y”是C或T。

在一些实施例中，可以使本文所述的CRISPR效应子在一个或多个氨基酸残基处突变以修饰一种或多种功能活性。例如，在一些实施例中，使CRISPR效应子在一个或多个氨基酸残基处突变以修饰其解旋酶活性。在一些实施例中，使CRISPR效应子在一个或多个氨基酸残基处突变以修饰其核酸酶活性(例如，核酸内切酶活性或核酸外切酶活性)。在一些实施例中，使CRISPR效应子在一个或多个氨基酸残基处突变以修饰其与RNA指导物功能上相关联的能力。在一些实施例中，使CRISPR效应子在一个或多个氨基酸残基处突变以改变其与靶核酸功能上相关联的能力。

在一些实施例中，本文所述的CRISPR效应子能够切割靶核酸分子。在一些实施例中，CRISPR效应子切割靶核酸分子的两条链。然而，在一些实施例中，使CRISPR效应子在一个或多个氨基酸残基处突变以修饰其切割活性。例如，在一些实施例中，CRISPR效应子可以包含增加CRISPR效应子切割靶核酸的能力的一个或多个突变。在另一实例中，在一些实施例中，CRISPR效应子可以包含使该酶不能切割靶核酸的一个或多个突变。在其他实施例中，CRISPR效应子可以包含一个或多个突变，由此使得该酶能够切割靶核酸的链(即，切口酶活性)。在一些实施例中，CRISPR效应子能够切割靶核酸的与跟RNA指导物杂交的链互补的链。在一些实施例中，CRISPR效应子能够切割靶核酸的与RNA指导物杂交的链。

在一些实施例中，将本文所披露的CRISPR效应子的一个或多个残基突变为精氨酸部分。在一些实施例中，将本文所披露的CRISPR效应子的一个或多个残基突变为甘氨酸部分。在一些实施例中，基于本文所披露的CRISPR效应子的系统发育比对的共有残基对本文所披露的CRISPR效应子的一个或多个残基进行突变。

在一些实施例中，本文所述的CRISPR效应子可以经工程化以包含一个或多个氨基酸残基的缺失，以减小酶的大小，同时保留一个或多个所期望的功能活性(例如，核酸酶活性和与RNA指导物功能上相互作用的能力)。截短型CRISPR效应子可以有利地与具有负载限制的递送系统组合使用。

在一方面，本披露提供了与本文所述的核酸序列至少10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，同时保持图2中所示的结构域架构的核酸序列。在另一方面，本披露还提供了与本文所述的氨基酸序列至少10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，同时保持图2中所示的结构域架构的氨基酸序列。

在一些实施例中，核酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸，例如，连续或非连续核苷酸)与本文所述的序列相同。在一些实施例中，核酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸，例如，连续或非连续核苷酸)与本文所述的序列不同。

在一些实施例中，氨基酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基，例如，连续或非连续氨基酸残基)与本文所述的序列相同。在一些实施例中，氨基酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基，例如，连续或非连续氨基酸残基)与本文所述的序列不同。

为了确定两个氨基酸序列、或两个核酸序列的同一性百分比，出于最佳比对的目的将序列比对(例如，可以在第一和第二氨基酸或核酸序列中的一者或两者中引入空位以用于最佳比对，并且出于比较目的可以忽略非同源序列)。一般来讲，出于比较目的而比对的参考序列的长度应是参考序列长度的至少80％，并且在一些实施例中是参考序列长度的至少90％、95％或100％。然后比较在相应氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与在第二序列中的相应位置相同的氨基酸残基或核苷酸占据时，则这些分子在那个位置是相同的。两个序列之间的同一性百分比是这些序列共享的相同位置的数目的函数，考虑了空位数目和每个空位的长度，需要引入它们以用于两个序列的最佳比对。出于本披露的目的，序列的比较和两个序列之间的一致性百分比的确定可以使用具有12的空位罚分、4的空位延伸罚分和5的移码空位罚分的Blossum 62评分矩阵来完成。

在一些实施例中，核酸酶包含作为PX₁X₂X₃X₄F(SEQ ID NO:216)列出的序列，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M。在一些实施例中，SEQ ID NO:216中列出的序列是N末端序列。在一些实施例中，核酸酶包含作为RX₁X₂X₃L(SEQ ID NO:217)列出的序列，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K。在一些实施例中，核酸酶包含作为NX₁YX₂(SEQ ID NO:218)列出的序列，其中X₁是I或L或F并且X₂是K或R或V或E。在一些实施例中，核酸酶包含作为KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)列出的序列，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N。在本文所述的任一系统的一些实施例中，SEQ ID NO:219的序列是C末端序列。在一些实施例中，核酸酶包含作为LX₁NX₂(SEQ ID NO:220)列出的序列，其中X₁是G或S或C或T并且X₂是N或Y或K或S。在本文所述的任一系统的一些实施例中，SEQ ID NO:220的序列是C末端序列。在一些实施例中，核酸酶包含作为PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)列出的序列，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I。在本文所述的任一系统的一些实施例中，SEQ ID NO:221的序列是C末端序列。在一些实施例中，核酸酶包含作为KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)列出的序列，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q。在本文所述的任一系统的一些实施例中，SEQ ID NO:222的序列是C末端序列。在一些实施例中，核酸酶包含作为X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)列出的序列，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L。在本文所述的任一系统的一些实施例中，SEQ ID NO:223的序列是C末端序列。

RNA和RNA指导物修饰

在一些实施例中，本文所述的RNA指导物包含尿嘧啶(U)。在一些实施例中，本文所述的RNA指导物包含胸腺嘧啶(T)。在一些实施例中，本文所述的RNA指导物的直接重复序列包含尿嘧啶(U)。在一些实施例中，本文所述的RNA指导物的直接重复序列包含胸腺嘧啶(T)。在一些实施例中，根据表2或表8的直接重复序列包含这样的序列，该序列在表2或表8中相应序列中指示为胸腺嘧啶的一个或多个位置中包含尿嘧啶。

在一些实施例中，直接重复仅包含在内源CRISPR阵列中重复的序列的一个拷贝。在一些实施例中，直接重复是相邻于(例如，侧接)内源CRISPR阵列中发现的一个或多个间隔子序列的全长序列。在一些实施例中，直接重复是相邻于(例如，侧接)内源CRISPR阵列中发现的一个或多个间隔子序列的全长序列的一部分(例如，加工部分)。

间隔子和直接重复

RNA指导物的间隔子长度可以在从约15至55个核苷酸的范围内。RNA指导物的间隔子长度可以在从约20至45个核苷酸的范围内。在一些实施例中，RNA指导物的间隔子长度是至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸或至少22个核苷酸。在一些实施例中，间隔子长度是从15至17个核苷酸、从15至23个核苷酸、从16至22个核苷酸、从17至20个核苷酸、从20至24个核苷酸(例如，20、21、22、23或24个核苷酸)、从23至25个核苷酸(例如，23、24或25个核苷酸)、从24至27个核苷酸、从27至30个核苷酸、从30至45个核苷酸(例如，30、31、32、33、34、35、40或45个核苷酸)、从30或35至40个核苷酸、从41至45个核苷酸、从45至50个核苷酸或更长。

在一些实施例中，RNA指导物的直接重复长度是至少16个核苷酸，或是从16至20个核苷酸(例如，16、17、18、19或20个核苷酸)。在一些实施例中，RNA指导物的直接重复长度是约19至约40个核苷酸。

示例性直接重复序列(例如，前crRNA(例如，未加工crRNA)的直接重复序列或成熟crRNA的直接重复序列(例如，加工crRNA的直接重复序列))示出于表2中。还参见表8。

表2.crRNA序列的示例性直接重复序列。

在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:1的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:57的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:2的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQ IDNO:58的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:3的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQ ID NO:59的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:4的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQ ID NO:60的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:10的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQ ID NO:62或SEQID NO:213的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:14的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:128的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:15的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:63的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:17的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:130的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:18的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:70的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:21的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:72的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:22的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:73的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:23的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:74的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:24的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:63的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:27的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:76的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:28的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:77的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:29的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:139的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:31的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:58的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:32的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:80的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:35的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:77的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:36的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:139的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:38的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:80的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:39的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:58的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:41的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:83的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:42的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:84的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:44的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:86的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:45的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:130的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:46的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:84的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:47的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:87的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:48的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:88的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:51的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:84的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:53的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:84的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:55的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:88的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:56的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该直接重复序列包含与SEQID NO:90的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

在一些实施例中，RNA指导物包含图3中列出的直接重复序列。例如，在一些实施例中，RNA指导物包含图3中所示的共有序列的直接重复或图3中所示的共有序列的一部分。在一些实施例中，RNA指导物包含具有作为X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO:224)列出的序列的直接重复，其中X₁是A或C或G，X₂是T或C或A，X₃是T或G或A，X₄是T或G，X₅是T或G或A，X₆是G或T或A，X₇是T或G或A，并且X₈是A或G或T。例如，在一些实施例中，RNA指导物包含具有作为ATTGTTGDA(SEQ ID NO:225)列出的序列的直接重复。在一些实施例中，SEQ ID NO:224在直接重复的5’端的近侧。在一些实施例中，SEQ ID NO:225在直接重复的5’端的近侧。在一些实施例中，RNA指导物包含具有作为X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO:226)列出的序列的直接重复，其中X₁是T或C或A，X₂是T或A或G，X₃是T或C或A，X₄是T或A，X₅是T或A或G，X₆是T或A，X₇是A或T，X₈是A或G或C或T，并且X₉是G或A或C。例如，在一些实施例中，RNA指导物包含具有作为TTTTWTARG(SEQ ID NO:227)列出的序列的直接重复。在一些实施例中，RNA指导物包含具有作为X₁X₂X₃AC(SEQ ID NO:228)列出的序列的直接重复，其中X₁是A或C或G，X₂是C或A，并且X₃是A或C。例如，在一些实施例中，RNA指导物包含具有作为ACAAC(SEQ ID NO:229)列出的序列的直接重复。在一些实施例中，SEQ ID NO:228在直接重复的3’端的近侧。在一些实施例中，SEQ ID NO:229在直接重复的3’端的近侧。

在一些实施例中，RNA指导物的间隔子结合相邻于表3的PAM序列的靶核酸。例如，在一些实施例中，本文所披露的效应子和RNA指导物的复合物结合相邻于如表3中所指示的PAM序列的靶核酸。

表3.对应于CLUST.091979效应子的PAM序列。

在一些实施例中，RNA指导物进一步包含tracrRNA。在一些实施例中，不需要tracrRNA(例如，tracrRNA是任选的)。在一些实施例中，tracrRNA是表9中所示的非编码序列的一部分。例如，在一些实施例中，tracrRNA是表4的序列。

表4.示例性tracrRNA序列。

在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:1的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQID NO:152、SEQ ID NO:153或SEQ ID NO:154的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ IDNO:2的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:155、SEQ ID NO:156、SEQ ID NO:157或SEQ ID NO:158的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:3的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:159、SEQ ID NO:160或SEQ ID NO:161的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:14的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:162的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:17的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:163、SEQ ID NO:164、SEQ ID NO:165或SEQ ID NO:166的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:18的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:167或SEQID NO:168的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:21的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQID NO:169、SEQ ID NO:170或SEQ ID NO:171的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ IDNO:22的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:172、SEQ ID NO:173、SEQ ID NO:174或SEQ ID NO:175的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:23的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ IDNO:176、SEQ ID NO:177、SEQ ID NO:178或SEQ ID NO:179的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:27的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:180或SEQ ID NO:181的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:29的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:182、SEQ ID NO:183或SEQ IDNO:184的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:31的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ IDNO:185、SEQ ID NO:186、SEQ ID NO:187或SEQ ID NO:188的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:32的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:189或SEQ ID NO:190的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:36的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:182、SEQ ID NO:183或SEQ IDNO:184的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:38的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ IDNO:189或SEQ ID NO:190的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:39的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:185、SEQ ID NO:186、SEQ ID NO:187或SEQ ID NO:188的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:41的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:191、SEQ ID NO:192、SEQ IDNO:193或SEQ ID NO:194的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:43的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:197、SEQ ID NO:198或SEQ ID NO:199的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:44的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:195或SEQ ID NO:196的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:45的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:163、SEQ ID NO:164、SEQ IDNO:165或SEQ ID NO:166的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:48的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:200、SEQ ID NO:201或SEQ ID NO:202的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:52的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:197、SEQ ID NO:198或SEQ ID NO:199的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:55的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:200、SEQID NO:201或SEQ ID NO:202的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。在一些实施例中，该CRISPR相关蛋白包含与SEQ ID NO:56的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列，并且该tracrRNA序列包含与SEQ ID NO:203或SEQ ID NO:204的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

RNA指导序列可以按这样的方式进行修饰，该方式允许形成CRISPR复合物并成功结合靶标，而同时不允许成功的核酸酶活性(即，没有核酸酶活性/没有引起插入缺失)。这些经修饰的指导序列被称为“死指导物”或“死指导序列”。这些死指导物或死指导序列对于核酸酶活性而言可以是催化上失活的或构象上失活的。死指导序列典型地比导致活性RNA切割的对应指导序列短。在一些实施例中，死指导物比具有核酸酶活性的对应RNA指导物短5％、10％、20％、30％、40％或50％。RNA指导物的死指导序列可以具有从13至15个核苷酸的长度(例如，13、14或15个核苷酸的长度)、从15至19个核苷酸的长度、或从17至18个核苷酸的长度(例如，17个核苷酸的长度)。

因此，在一方面，本披露提供了非天然存在的或工程化的CRISPR系统，这些系统包括如本文所述的功能性CLUST.091979CRISPR效应子、和RNA指导物，其中RNA指导物包含死指导序列，由此RNA指导物能够与靶序列杂交，使得将CRISPR系统指导至细胞中目的基因组基因座而没有可检测的切割活性。对死指导物的详细描述是描述于例如WO 2016094872中，将该文献通过援引以其全文并入本文。

诱导型RNA指导物

RNA指导物可以作为诱导型系统的组分产生。这些系统的诱导型性质允许对基因编辑或基因表达的时空控制。在一些实施例中，用于诱导型系统的刺激包括例如电磁辐射、声能、化学能和/或热能。

在一些实施例中，RNA指导物的转录可以通过诱导型启动子，例如四环素或强力霉素控制的转录激活(Tet-On和Tet-Off表达系统)、激素诱导型基因表达系统(例如，蜕皮激素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。诱导型系统的其他实例包括例如小分子双杂交转录激活系统(FKBP，ABA等)、光诱导型系统(光敏色素、LOV结构域或隐花色素)或光诱导型转录效应子(LITE)。这些诱导型系统描述于例如WO 2016205764和US 8795965中，将这些文献中的每一个通过援引以其全文并入本文。

化学修饰

可以将化学修饰应用于RNA指导物的磷酸骨架、糖和/或碱基。骨架修饰(诸如硫代磷酸酯)修饰磷酸骨架上的电荷并且有助于寡核苷酸的递送和核酸酶抗性(参见例如，Eckstein,“Phosphorothioates,essential components of therapeuticoligonucleotides[硫代磷酸酯，治疗性寡核苷酸的基本组分],”Nucl.Acid Ther.[核酸疗法],24(2014),第374-387页)；糖的修饰(诸如2’-O-甲基(2’-OMe)、2’-F和锁核酸(LNA))增强碱基配对和核酸酶抗性两者(参见例如，Allerson等人“Fully 2‘-modifiedoligonucleotide duplexes with improved in vitro potency and stabilitycompared to unmodified small interfering RNA[与未修饰的小干扰RNA相比，完全2‘饰的寡核苷酸双链体具有改善的体外效力和稳定性],”J.Med.Chem.[医药化学杂志],48.4(2005):901-904)。化学修饰的碱基(诸如2-硫尿苷或N6-甲基腺苷等)可以允许更强或更弱的碱基配对(参见例如，Bramsen等人,“Development of therapeutic-grade smallinterfering RNAs by chemical engineering[通过化学工程化开发治疗级小分子干扰RNA],”Front.Genet.[遗传学前沿],2012年8月20日；3:154)。另外，RNA适于5’端和3’端两者与多种功能性部分缀合，该多种功能性部分包括荧光染料、聚乙二醇或蛋白质。

可以将广泛多种的修饰应用于化学合成的RNA指导物分子。例如，用2’-OMe修饰寡核苷酸以改善核酸酶抗性可以改变沃森-克里克碱基配对的结合能。此外，2’-OMe修饰可以影响寡核苷酸与转染试剂、蛋白质或细胞中任何其他分子相互作用的方式。这些修饰的效果可以通过经验测试来确定。

在一些实施例中，RNA指导物包含一个或多个硫代磷酸酯修饰。在一些实施例中，RNA指导物包含一个或多个锁核酸以用于增强碱基配对和/或增加核酸酶抗性。

这些化学修饰的概述可以见于例如Kelley等人,“Versatility of chemicallysynthesized guide RNAs for CRISPR-Cas9 genome editing[用于CRISPR-Cas9基因组编辑的化学合成的指导RNA的通用性],”J.Biotechnol.[生物技术杂志]2016年9月10日；233:74-83；WO 2016205764；以及US 8795965中，将这些文献中的每一个通过援引以其全文并入。

序列修饰

本文所述的RNA指导物、tracrRNA和crRNA的序列和长度可以是优化的。在一些实施例中，RNA指导物的优化长度可以通过鉴定tracrRNA和/或crRNA的加工形式，或者通过RNA指导物、tracrRNA、crRNA和tracrRNA四元环的经验长度研究来确定。

RNA指导物还可以包含一个或多个适配体序列。适配体是可以结合特定靶分子的寡核苷酸或肽分子。适配体可以对基因效应子、基因激活子或基因阻遏子具有特异性。在一些实施例中，适配体可以对蛋白质具有特异性，该蛋白质又特异性于并招募/结合特定基因效应子、基因激活子或基因阻遏子。效应子、激活子或阻遏子可以以融合蛋白的形式存在。在一些实施例中，RNA指导物具有两个或更多个对相同衔接蛋白具有特异性的适配体序列。在一些实施例中，两个或更多个适配体序列对不同的衔接蛋白具有特异性。衔接蛋白可以包括例如MS2、PP7、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。因此，在一些实施例中，适配体选自特异性结合如本文所述的任一种衔接蛋白的结合蛋白。在一些实施例中，适配体序列是MS2环。适配体的详细描述可以见于例如Nowak等人,“Guide RNAengineering for versatile Cas9 functionality[针对通用性Cas9功能的指导RNA工程化],”Nucl.Acid.Res.[核酸研究],2016年11月16日；44(20):9555-9564；和WO 2016205764中，将这些文献中的每一个通过援引以其全文并入本文。

指导物:靶序列匹配要求

在CRISPR系统中，指导序列与其相应的靶序列之间的互补程度可以是约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或100％。为了减少脱靶相互作用，例如为了减少指导物与具有低互补性的靶序列相互作用，可以将突变引入至CRISPR系统，使得CRISPR系统可以区分具有大于80％、85％、90％或95％互补性的靶序列和脱靶序列。在一些实施例中，互补程度是从80％至95％、例如约83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％或95％(例如，区分具有18个核苷酸的靶标与具有1、2或3个错配的18个核苷酸的脱靶)。因此，在一些实施例中，指导序列与其相应的靶序列之间的互补程度大于94.5％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或99.9％。在一些实施例中，互补程度是100％。

在本领域已知，不需要完全的互补性，前提是有足够的互补性发挥作用。可以通过引入错配(例如，间隔子序列与靶序列之间的一个或多个错配，诸如1或2个错配(包括沿着间隔子/靶标的错配的位置))来利用对切割效率的调节。错配(例如，双错配)位于越中心(即，不在3’或5’端处)；切割效率受到的影响越大。因此，通过选择沿着间隔子序列的错配位置，可以调节切割效率。例如，如果期望靶标的小于100％的切割率(例如，在细胞群体中)，则间隔子序列中可以引入间隔子序列与靶序列之间的1或2个错配。

CRISPR系统的使用方法

本文所述的CRISPR系统具有广泛多种的效用，包括修饰(例如，缺失、插入、易位、失活或激活)多种细胞类型中的靶多核苷酸。CRISPR系统在以下中具有广谱的应用：例如DNA/RNA检测(例如，特异性高敏感性酶促报告子解锁(SHERLOCK))、跟踪和标记核酸、富集测定(从背景中提取所期望序列)、检测循环肿瘤DNA、制备下一代文库、药物筛选、疾病诊断和预后以及治疗各种遗传障碍。

DNA/RNA检测

在一方面，本文所述的CRISPR系统可以用于DNA/RNA检测中。单效应子RNA指导的DNA酶可以用CRISPR RNA(crRNA)重新编程，以为特异性单链DNA(ssDNA)感测提供平台。激活的V型单效应子DNA指导的DNA酶在识别其DNA靶标后参与附近的非靶向ssDNA的“伴”切割。此crRNA编程的伴切割活性允许CRISPR系统通过经标记的ssDNA的非特异性降解来检测特定DNA的存在。

伴ssDNA活性可以在DNA检测应用中与报告子组合，这些检测应用诸如称为DNA核酸内切酶靶向CRISPR反式报告子(DETECTR)方法的方法，该方法实现了对DNA检测的渺摩尔敏感性(参见例如，Chen等人,Science[科学],360(6387):436-439,2018)，将该文献通过援引以其全文并入本文。使用本文所述的酶的一个应用是在体外环境中降解非特异性ssDNA。也可以将连接荧光团和淬灭剂的“报告子”ssDNA分子与未知DNA样品(单链或者双链)一起添加至体外系统中。在识别未知DNA片段中的靶序列后，效应子复合物切割报告子ssDNA，从而产生荧光读出。

在其他实施例中，SHERLOCK方法(特异性高敏感性酶促报告子解锁)还提供基于报告子ssDNA的核酸扩增和伴切割的具有渺摩尔(或单分子)敏感性的体外核酸检测平台，从而允许实时检测靶标。在SHERLOCK中使用CRISPR的方法详细描述于例如Gootenberg等人“Nucleic acid detection with CRISPR-Cas13a/C2c2[使用CRISPR-Cas13a/C2c2进行核酸检测],”Science[科学],356(6336):438-442(2017)中，将该文献通过援引以其全文并入本文。

在一些实施例中，本文所述的CRISPR系统可以用于多重复用的误差稳健性荧光原位杂交(MERFISH)中。这些方法描述于例如Chen等人,“Spatially resolved,highlymultiplexed RNA profiling in single cells[在单一细胞中进行空间分辨的高度复用的RNA谱分析],”Science[科学],2015年4月24日；348(6233):aaa6090中，将该文献通过援引以其全文并入本文。

核酸的跟踪和标记

细胞过程依赖于蛋白质、RNA和DNA之间的分子相互作用网络。准确检测蛋白质-DNA和蛋白质-RNA的相互作用是理解此类过程的关键。体外邻近标记技术采用亲和标签与报告基团(例如，可光激活基团)的组合，以在体外标记目的蛋白或RNA附近的多肽和RNA。在UV辐照后，可光激活基团与跟加标签的分子很靠近的蛋白质和其他分子反应，从而标记它们。随后可以回收和鉴定经标记的相互作用分子。RNA靶向效应子蛋白例如可以用于将探针靶向至选择的RNA序列。这些应用还可以应用于疾病或难以培养的细胞类型的体内成像的动物模型中。核酸的跟踪和标记方法描述于例如US 8795965；WO 2016205764；和WO2017070605中，将这些文献中的每一个通过援引以其全文并入本文。

高通量筛选

本文所述的CRISPR系统可以用于制备下一代测序(NGS)文库。例如，为了产生具有成本效益的NGS文库，可以将CRISPR系统用于破坏靶基因的编码序列，并且可以同时通过下一代测序(例如，在离子激流(Ion Torrent)PGM系统上)筛选CRISPR效应子转染的克隆。关于如何制备NGS文库的详细描述可见于例如Bell等人,“A high-throughput screeningstrategy for detecting CRISPR-Cas9 induced mutations using next-generationsequencing[用于使用下一代测序检测CRISPR-Cas9诱导的突变的高通量筛选策略],”BMCGenomics[BMC基因组学],15.1(2014):1002中，将该文献通过援引以其全文并入本文。

工程化细胞

微生物(例如，大肠杆菌、酵母和微藻)广泛用于合成生物学。合成生物学的发展具有广泛的效用，包括各种临床应用。例如，可编程的CRISPR系统可以用于拆分具有用于靶向细胞死亡的毒性结构域的蛋白质，例如使用癌症相关联RNA作为靶转录物。此外，涉及蛋白质-蛋白质相互作用的途径可以在使用例如具有适当效应子诸如激酶或酶的融合复合物的合成生物系统中受到影响。

在一些实施例中，可以将靶向噬菌体序列的RNA指导序列引入至微生物中。因此，本披露还提供了针对噬菌体感染“接种”微生物(例如，生产菌株)的方法。

在一些实施例中，本文所提供的CRISPR系统可以用于工程化微生物，例如以改善产率或改善发酵效率。例如，本文所述的CRISPR系统可以用于工程化微生物(诸如酵母)，以从可发酵糖产生生物燃料或生物聚合物，或降解来源于作为可发酵糖来源的农业废弃物的植物来源木质纤维素。更具体地，本文所述的方法可以用于修饰生物燃料生产所需的内源基因的表达和/或修饰可能干扰生物燃料合成的内源基因。这些工程化微生物的方法描述于例如Verwaal等人,“CRISPR/Cpf1 enables fast and simple genome editing ofSaccharomyces cerevisiae[CRISPR/Cpf1实现对酿酒酵母的快速且简单的基因组编辑],”Yeast[酵母],2017年9月8日doi:10.1002/yea.3278；以及Hlavova等人,“Improvingmicroalgae for biotechnology—from genetics to synthetic biology[改善生物技术中的微藻-从遗传学到合成生物学],”Biotechnol.Adv.[生物技术进展],2015年11月1日；33:1194-203中，将这些文献中的每一个通过援引以其全文并入本文。

在一些实施例中，本文所提供的CRISPR系统可以用于工程化真核细胞或真核生物。例如，本文所述的CRISPR系统可以用于工程化真核细胞，这些真核细胞不限于植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类细胞或人细胞。在一些实施例中，真核细胞在体外培养物中。在一些实施例中，真核细胞是体内的。在一些实施例中，真核细胞是离体的。

在一些实施例中，细胞来源于细胞系。用于组织培养的多种多样的细胞系是本领域已知的。细胞系的实例包括但不限于293T、MF7、K562、HeLa及其转基因品种。细胞系可从本领域技术人员已知的多种来源获得(例如，参见美国典型培养物保藏中心(ATCC)(弗吉尼亚州马纳萨斯(Manassas,Va.)))。在一些实施例中，将用一种或多种核酸(诸如编码核酸酶多肽的载体和RNA指导物)转染的细胞用于建立包含一种或多种载体来源序列的新细胞系以建立包含对靶核酸或靶基因座的修饰的新细胞系。在一些实施例中，细胞是永生或永生化细胞。

在一些实施例中，细胞是原代细胞。在一些实施例中，细胞是干细胞，诸如全能干细胞(例如，万能)、多能干细胞、多潜能干细胞、寡能干细胞或单能干细胞。在一些实施例中，细胞是诱导多能干细胞(iPSC)或来源于iPSC。在一些实施例中，细胞是分化细胞。例如，在一些实施例中，分化细胞是肌肉细胞(例如，肌细胞)、脂肪细胞(例如，脂细胞)、骨细胞(例如，成骨细胞、骨细胞、破骨细胞)、血细胞(例如，单核细胞、淋巴细胞、嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、巨噬细胞、红细胞或血小板)、神经细胞(例如，神经元)、上皮细胞、免疫细胞(例如，淋巴细胞、嗜中性粒细胞、单核细胞或巨噬细胞)、肝脏细胞(例如，肝细胞)、成纤维细胞或性细胞。在一些实施例中，细胞是终末分化细胞。例如，在一些实施例中，终末分化细胞是神经元细胞、脂细胞、心肌细胞、骨骼肌细胞、表皮细胞或肠道细胞。在一些实施例中，细胞是哺乳动物细胞(例如，人细胞或鼠类细胞)。在一些实施例中，鼠类细胞来源于野生型小鼠、免疫抑制小鼠或疾病特异性小鼠模型。

基因驱动

基因驱动是一种现象，在这种现象中，特定的基因或一组基因的遗传被有利地偏向。本文所述的CRISPR系统可以用于构建基因驱动。例如，CRISPR系统可以被设计为靶向并破坏基因的特定等位基因，从而引起细胞拷贝第二等位基因以固定序列。因为拷贝，第一等位基因将转换成第二等位基因，增加了第二等位基因传给后代的机会。关于如何使用本文所述的CRISPR系统以构建基因驱动的详细方法描述于例如Hammond等人,“A CRISPR-Cas9gene drive system targeting female reproduction in the malaria mosquitovector Anopheles gambiae[靶向疟蚊载体冈比亚按蚊中雌性繁殖的CRISPR-Cas9基因驱动系统],”Nat.Biotechnol.[自然生物技术],2016年1月；34(1):78-83中，将该文献通过援引以其全文并入本文。

池化筛选

如本文所述，池化CRISPR筛选是用于鉴定参与诸如细胞增殖、药物抗性和病毒感染等生物学机制的基因的有力工具。用本文所述的RNA指导物编码载体文库成批转导细胞，并且在应用选择性激发之前和之后测量gRNA的分布。池化CRISPR筛选对于影响细胞存活和增殖的机制工作良好，它们可以扩展至测量单独基因的活性(例如，通过使用工程化报告细胞系)。阵列CRISPR筛选(其中一次只靶向一个基因)使得能够使用RNA-seq作为读出。在一些实施例中，如本文所述的CRISPR系统可以用于单细胞CRISPR筛选中。关于池化CRISPR筛选的详细描述可见于例如Datlinger等人,“Pooled CRISPR screening with single-celltranscriptome read-out[具有单细胞转录组读出的池化CRISPR筛选],”Nat.Methods.[自然方法],2017年3月；14(3):297-301中，将该文献通过援引以其全文并入本文。

饱和诱变(“过度攻击(Bashing)”)

本文所述的CRISPR系统可以用于原位饱和诱变。在一些实施例中，池化的RNA指导物文库可以用于对特定基因或调控元件执行原位饱和诱变。此类方法可以揭示这些基因或调控元件(例如，增强子)的关键的最小特征和离散脆弱性。这些方法描述于例如Canver等人,“BCL11A enhancer dissection by Cas9-mediated in situ saturatingmutagenesis[通过Cas9介导的原位饱和诱变进行BCL11A增强子解析],”Nature[自然],2015年11月12日；527(7577):192-7中，将该文献通过援引以其全文并入本文。

治疗性应用

在一些实施例中，本文所述的CRISPR系统可以用于编辑靶核酸以修饰靶核酸(例如，通过插入、缺失或突变一个或多个氨基酸残基)。例如，在一些实施例中，本文所述的CRISPR系统包括包含所期望核酸序列的外源供体模板核酸(例如，DNA分子或RNA分子)。在解析到用本文所述的CRISPR系统诱导的切割事件后，细胞的分子机器可以在修复和/或解决切割事件中利用外源供体模板核酸。替代性地，细胞的分子机器可以在修复和/或解决切割事件中利用内源模板。在一些实施例中，本文所述的CRISPR系统可以用于修饰靶核酸，从而导致插入、缺失和/或点突变。在一些实施例中，插入是无痕插入(即，在解析到切割事件后将预期的核酸序列插入至靶核酸中未导致另外的非预期核酸序列)。供体模板核酸可以是双链或单链核酸分子(例如，DNA或RNA)。设计外源供体模板核酸的方法描述于例如WO2016094874中，将该文献的全部内容通过援引明确并入本文。

在另一方面，本披露提供了本文所述的系统在选自下组的方法中的用途，该组由以下组成：RNA序列特异性干扰；RNA序列特异性基因调控；筛选RNA、RNA产物、lncRNA、非编码RNA、核RNA或mRNA；诱变；抑制RNA剪接；荧光原位杂交；育种；诱导细胞休眠；诱导细胞周期停滞；减少细胞生长和/或细胞增殖；诱导细胞无变应性；诱导细胞凋亡；诱导细胞坏死；诱导细胞死亡；或诱导程序化细胞死亡。

本文所述的CRISPR系统可以具有各种治疗性应用。在一些实施例中，新的CRISPR系统可以用于治疗各种疾病和障碍，例如遗传障碍(例如，单基因疾病)或可以通过核酸酶活性(例如，Pcsk9靶向或BCL11a靶向)治疗的疾病。在一些实施例中，将在此所述的方法用于治疗受试者，诸如哺乳动物，诸如人患者。哺乳动物受试者也可以是驯养哺乳动物，诸如狗、猫、马、猴、兔、大鼠、小鼠、牛、山羊或绵羊。

这些方法可以包括具有感染性的病症或疾病，并且其中感染原选自下组，该组由以下组成：人类免疫缺陷病毒(HIV)、单纯疱疹病毒-1(HSV1)和单纯疱疹病毒-2(HSV2)。

在一方面，本文所述的CRISPR系统可以用于治疗由RNA、毒性RNA和/或突变型RNA(例如，剪接缺陷或截短)的过表达引起的疾病。例如，毒性RNA的表达可以与核内含物的形成以及脑、心脏或骨骼肌的迟发型退行性变化相关联。在一些实施例中，障碍是肌强直性营养不良。在肌强直性营养不良中，毒性RNA的主要致病作用是螯合结合蛋白并且损害选择性剪接的调控(参见例如，Osborne等人,“RNA-dominant diseases[RNA显性疾病],”Hum.Mol.Genet.[人类分子遗传学],2009年4月15日；18(8):1471-81)。肌强直性营养不良(肌营养不良性肌强直症(DM))对于遗传学家而言是特别受关注的，因为它产生了极其广泛范围的临床特征。DM的经典形式(现称为DM 1型(DM1))是由编码细胞溶质蛋白激酶的基因DMPK的3'-非翻译区(UTR)中CTG重复的扩增引起的。如本文所述的CRISPR系统可以靶向过表达的RNA或毒性RNA(例如，DMPK基因)或者DM1骨骼肌、心脏或脑中的任何错误调控的选择性剪接。

本文所述的CRISPR系统还可以靶向影响引起各种疾病的RNA依赖性功能的反式作用突变，这些各种疾病例如像普拉德威利综合征(Prader Willi syndrome)、脊髓性肌萎缩症(SMA)和先天性角化不良。可以使用本文所述的CRISPR系统治疗的疾病列表汇总于Cooper等人,“RNA and disease[RNA和疾病],”Cell[细胞],136.4(2009):777-793和WO2016205764中，将这些文献中的每一个通过援引以其全文并入本文。

本文所述的CRISPR系统也可以用于治疗各种tau蛋白病，包括例如原发性和继发性tau蛋白病，诸如原发性年龄相关tau蛋白病(PART)/神经元纤维缠结(NFT)突出的老年性痴呆(其中NFT与阿尔茨海默病(AD)中看到的那些相似，但没有斑块)、拳击员痴呆(慢性创伤性脑病)和进展性核上性麻痹。tau蛋白病的可用列表和治疗这些疾病的方法描述于例如WO 2016205764中，将该文献通过援引以其全文并入本文。

本文所述的CRISPR系统也可以用于靶向破坏可能引起剪接缺陷和疾病的顺式作用剪接密码的突变。这些疾病包括例如由缺失SMN1基因引起的运动神经元退行性疾病(例如，脊髓性肌萎缩症)、杜氏(Duchenne)肌营养不良(DMD)、与染色体17有关联的额颞叶痴呆和帕金森综合征(FTDP-17)以及囊性纤维化。

本文所述的CRISPR系统可以进一步用于抗病毒活性、特别是抗RNA病毒。效应子蛋白可以使用经选择以靶向病毒RNA序列的合适RNA指导物靶向病毒RNA。

此外，可以使用体外RNA感测测定来检测特定RNA底物。RNA靶向效应子蛋白可以用于活细胞中的基于RNA的感测。应用的实例是通过感测例如疾病特异性RNA进行的诊断。

本文所述的CRISPR系统的治疗性应用的详细描述可见于例如US 8795965、EP3009511、WO 2016205764和WO 2017070605中，将这些文献中的每一个通过援引以其全文并入本文。

在植物中的应用

本文所述的CRISPR系统在植物中具有广泛多种的效用。在一些实施例中，CRISPR系统可以用于工程化植物基因组(例如，改善产量、制备具有所期望翻译后修饰的产物、或引入用于生产工业产物的基因)。在一些实施例中，CRISPR系统可以用于将所期望的性状引入至植物(例如，对基因组进行或不进行可遗传修饰)，或调控植物细胞或整株植物中内源基因的表达。

在一些实施例中，CRISPR系统可以用于鉴定、编辑和/或沉默编码特定蛋白质(例如，过敏性蛋白质(例如，花生、大豆、扁豆、豌豆、四季豆和绿豆中的过敏性蛋白质))的基因。关于如何鉴定、编辑和/或沉默编码蛋白质的基因的详细描述是描述于例如Nicolaou等人,“Molecular diagnosis of peanut and legume allergy[花生和豆类过敏的分子诊断],”Curr.Opin.Allergy Clin.Immunol.[过敏和临床免疫学新见],11(3):222-8(2011)和WO 2016205764中，将这些文献中的每一个通过援引以其全文并入本文。

CRISPR系统的递送

通过本披露和本领域中的知识，本文所述的CRISPR系统、其组分、其核酸分子或者编码或提供其组分的核酸分子可以通过各种递送系统诸如载体(例如，质粒或病毒递送载体)来递送。本文所披露的CRISPR效应子和/或任何RNA(例如，RNA指导物)可以使用合适的载体，例如质粒或病毒载体来递送，这些病毒载体诸如腺相关病毒(AAV)、慢病毒、腺病毒和其他病毒载体或其组合。可以将效应子和一种或多种RNA指导物包装至一种或多种载体，例如质粒或病毒载体中。

在一些实施例中，通过例如以下方式将载体(例如，质粒或病毒载体)递送至目的组织：肌肉内注射、静脉内施用、经皮施用、鼻内施用、口服施用或粘膜施用。这种递送可以是经由单剂量或者多剂量进行的。本领域技术人员应理解的是，本文有待递送的实际剂量可以在很大程度上根据多种因素而变化，该多种因素包括但不限于载体选择、靶细胞、生物体、组织、有待治疗的受试者的一般状况、所寻求的转化/修饰的程度、施用途径、施用方式和所寻求的转化/修饰的类型。

在某些实施例中，递送是经由腺病毒进行的，这些腺病毒可以是含有至少1x10⁵个腺病毒颗粒(也称为颗粒单位，pu)的一个剂量。在一些实施例中，剂量优选地是至少约1x10⁶个颗粒、至少约1x10⁷个颗粒、至少约1x10⁸个颗粒和至少约1x10⁹个颗粒的腺病毒。递送方法和剂量描述于例如WO 2016205764和US 8454972中，将这些文献中的每一个通过援引以其全文并入本文。

在一些实施例中，递送是经由质粒进行的。剂量可以是足以引发应答的质粒数量。在一些情况下，质粒组合物中质粒DNA的合适量可以是从约0.1至约2mg。质粒通常包括(i)启动子；(ii)可操作地连接至启动子、编码核酸靶向CRISPR效应子的序列；(iii)选择性标记物；(iv)复制起点；以及(v)在(ii)的下游并可操作地连接至(ii)的转录终止子。质粒还可以编码CRISPR复合物的RNA组分，但是这些组分中的一种或多种可以代替地编码在不同的载体上。施用频率在医学或兽医学从业者(例如，医师、兽医师)或本领域技术人员的范围之内。

在另一个实施例中，递送是经由脂质体或脂质转染配制品等进行的，并且可以通过本领域技术人员已知的方法制备。此类方法描述于例如WO 2016205764、US 5593972、US5589466和US 5580859中，将这些文献中的每一个通过援引以其全文并入本文。

在一些实施例中，递送是经由纳米颗粒或外来体进行的。例如，外来体已显示在递送RNA方面是特别有用的。

将本文所述的CRISPR系统的一种或多种组分引入至细胞的另外手段是通过使用细胞穿透肽(CPP)。在一些实施例中，将细胞穿透肽连接至CRISPR效应子。在一些实施例中，将CRISPR效应子和/或RNA指导物偶联至一种或多种CPP以便转运至细胞(例如，植物原生质体)中。在一些实施例中，将CRISPR效应子和/或一种或多种RNA指导物由偶联至用于细胞递送的一种或多种CPP的一个或多个环状或非环状DNA分子编码。

CPP是来源于蛋白质或嵌合序列的少于35个氨基酸的短肽，这些短肽能够以非受体依赖性方式将生物分子跨细胞膜转运。CPP可以是阳离子肽、具有疏水性序列的肽、两亲性肽、具有富含脯氨酸且抗微生物的序列的肽和嵌合肽或二分肽。CPP的实例包括例如Tat(其是l型HIV病毒复制所需的核转录激活蛋白)、穿膜肽、卡波西成纤维细胞生长因子(FGF)信号肽序列、整合素β3信号肽序列、多精氨酸肽Args序列、富含鸟嘌呤的分子转运蛋白和甜箭肽。CPP和使用它们的方法描述于例如

等人,“Prediction of cell-penetrating peptides[细胞穿透肽的预测],”Methods Mol.Biol.[分子生物学方法],2015；1324:39-58；Ramakrishna等人,“Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA[通过细胞穿透肽介导的Cas9蛋白和指导RNA递送进行的基因破坏],”Genome Res.[基因组研究],2014年6月；24(6):1020-7；以及WO 2016205764中，将这些文献中的每一个通过援引以其全文并入本文。

用于本文所述的CRISPR系统的各种递送方法还描述于例如US 8795965、EP3009511、WO 2016205764和WO 2017070605中，将这些文献中的每一个通过援引以其全文并入本文。

实例

本发明在以下实例中进一步描述，这些实例不限制权利要求中所述的本发明的范围。

实例1-对CLUST.091979CRISPR-Cas系统的组分的鉴定

使用上文所述的计算方法鉴定此蛋白质家族。CLUST.091979系统包括与从环境收集的未培养宏基因组序列中发现的CRISPR系统相关联的单效应子，这些环境不限于肠道、牛肠道、人肠道、羊肠道、陆生、粪便和哺乳动物消化系统环境(表5)。示例性CLUST.091979效应子包括下表5和表6中所示的那些。将SEQ ID NO:1-4、14、15、17-19、21-25、27-33、35-49、51-56中列出的效应子序列比对以鉴定序列相似性的区域，如图1A-1L中所示。条形图描绘了序列相似性，其中最高条指示具有最高序列相似性的残基。序列相似性的非限制性区域示出于表7中。序列相似性的区域表明，本文所披露的效应子是具有代表核酸酶的保守C末端RuvC结构域的家族。

表51.代表性CLUST.091979效应子蛋白

表62.代表性CLUST.091979效应子蛋白的氨基酸序列

表73.CLUST.091979效应子的保守序列。

这些系统的直接重复序列和间隔子长度的实例示出于表8中。

表84.代表性CLUST.091979直接重复的核苷酸序列和间隔子长度

实例2-对反式激活RNA元件的鉴定

除了效应子蛋白和crRNA之外，本文所述的一些CRISPR系统还可以包括激活稳健性酶活性的另外小型RNA，将其称为反式激活RNA(tracrRNA)。此类tracrRNA典型地包括与crRNA杂交的互补区。crRNA-tracrRNA杂交体形成具有效应子的复合物，该复合物导致可编程酶活性的激活。

·通过针对与crRNA的直接重复部分同源的短序列基序搜索侧接CRISPR阵列的基因组序列来鉴定tracrRNA序列。搜索方法包括对完整直接重复(DR)或DR子序列的精确或简并匹配。例如，可以将长度n个核苷酸的DR分解成一组重叠6-10nt k聚体。可以将这些k聚体与侧接CRISPR基因座的序列比对，并且可以将具有1或更多个k聚体对齐的同源性的区域鉴定为DR同源区以用于作为tracrRNA的实验验证。替代性地，可以针对完整DR或DR子序列以及来自侧接CRISPR系统的元件的基因组序列的短k聚体序列计算RNA共折叠自由能。可以将具有低最小自由能结构的侧接序列元件鉴定为DR同源区以用于作为tracrRNA的实验验证。

·tracrRNA元件常常很靠近CRISPR相关基因或CRISPR阵列出现。作为搜索DR同源区以鉴定tracrRNA元件的替代方案，可以通过克隆或基因合成来分离侧接CRISPR效应子或CRISPR阵列的非编码序列以用于tracrRNA的直接实验验证。

·可以使用CRISPR系统的宿主生物的小型RNA测序或在非天然物种中异源性表达的合成序列进行tracrRNA元件的实验验证。可以使用小型RNA序列自起源基因组基因座的比对来鉴定含有DR同源区和完整tracrRNA元件的典型模式化加工的表达RNA产物。

·通过RNA测序鉴定的完整tracrRNA候选物可以通过以下方式来进行体外或体内验证：在与tracrRNA候选物组合或不组合的情况下表达crRNA和效应子，并且监测效应子酶活性的激活。

·在工程化构建体中，tracrRNA的表达可以由启动子驱动，这些启动子包括但不限于用于在哺乳动物细胞中表达的U6、U1和H1启动子或用于在细菌中表达的J23119启动子。

·在一些情况下，可以将tracrRNA与crRNA融合并且表达为单RNA指导物。

·该系统可以包括包含在表9中列出的非编码序列内的tracrRNA。例如，在一些实施例中，该系统包括SEQ ID NO:152-204中任一个中列出的tracrRNA。

表95.代表性CLUST.091979系统的非编码序列

实例3-对酶活性的新型RNA调节子的鉴定

除了效应子蛋白和crRNA之外，本文所述的一些CRISPR系统还可以包括激活或调节效应子活性的另外小型RNA，将其在本文中称为RNA调节子。

·预期RNA调节子很靠近CRISPR相关基因或CRISPR阵列出现。为了鉴定和验证RNA调节子，可以通过克隆或基因合成来分离侧接CRISPR效应子或CRISPR阵列的非编码序列以用于直接实验验证。

·可以使用CRISPR系统的宿主生物的小型RNA测序或在非天然物种中异源性表达的合成序列进行RNA调节子的实验验证。可以使用小型RNA序列与起源基因组基因座的比对来鉴定含有DR同源区和模式化加工的表达RNA产物。

·通过RNA测序鉴定的候选RNA调节子可以通过以下方式来进行体外或体内验证：在与候选RNA调节子组合或不组合的情况下表达crRNA和效应子，并且监测效应子酶活性的改变。

·在工程化构建体中，RNA调节子可以由启动子驱动，这些启动子包括用于在哺乳动物细胞中表达的U6、U1和H1启动子或用于在细菌中表达的J23119启动子。

·在一些情况下，可以将RNA调节子与crRNA、tracrRNA或两者人工融合并且表达为单RNA元件。

实例4-工程化CLUST.091979CRISPR-Cas系统的功能验证

鉴定了CLUST.091979CRISPR-Cas系统的组分，选择来自命名为AUXO013988882(SEQ ID NO:1)的宏基因组源和来自命名为SRR3181151(SEQ ID NO:4)的宏基因组源的基因座用于功能验证。

DNA合成和效应子文库克隆

为了测试示例性CLUST.091979 CRISPR-Cas系统的活性，使用pET28a(+)载体设计和合成系统。简而言之，合成编码CLUST.091979 AUXO013988882效应子(表6中所示的SEQID NO:1)的大肠杆菌密码子优化的核酸序列和编码CLUST.091979SRR3181151效应子(表6中所示的SEQ ID NO:4)的大肠杆菌密码子优化的核酸序列(金斯瑞公司(Genscript))并且将其单独地克隆至来源于pET-28a(+)(EMD-密理博公司(EMD-Millipore))的定制表达系统中。载体包含在lac启动子控制下编码CLUST.091979效应子的核酸和大肠杆菌核糖体结合序列。载体还包含在CLUST.091979效应子的开放阅读框后、用于由J23119启动子驱动的CRISPR阵列文库的接受位点。用于CLUST.091979 AUXO013988882效应子(SEQ ID NO:1)的非编码序列列出于SEQ ID NO:98中，并且用于CLUST.091979SRR3181151效应子(SEQ IDNO:4)的非编码序列列出于SEQ ID NO:99中，如表9中所示。测试另外的条件，其中将CLUST.091979效应子在没有非编码序列的情况下单独地克隆至pET28a(+)中。参见图4A。

计算设计含有“重复-间隔子-重复”序列的寡核苷酸文库合成(OLS)池，其中“重复”表示CRISPR阵列中发现的与效应子相关联的共有直接重复序列，并且“间隔子”表示拼接pACYC184质粒或大肠杆菌必需基因的序列。特别地，用于CLUST.091979AUXO013988882效应子(SEQ ID NO:1)的重复序列列出于SEQ ID NO:57中，并且用于CLUST.091979SRR3181151效应子(SEQ ID NO:4)的重复序列列出于SEQ ID NO:60中，如表8中所示。间隔子长度由内源CRISPR阵列中发现的间隔子长度的模式决定。将重复-间隔子-重复序列附加有限制性位点，从而使得能够将片段双向克隆至前面提及的CRISPR阵列文库受体位点中；和独特的PCR引发位点，以使得能够从更大的池中特异性扩增特定重复-间隔子-重复文库。

接下来，使用金门组装(Golden Gate assembly)方法将重复-间隔子-重复文库克隆至质粒中。简而言之，首先使用独特的PCR引物将每种重复-间隔子-重复从OLS池(安捷伦基因组学(Agilent Genomics))中扩增出并且对其使用BsaI预线性化质粒骨架以减少潜在背景。将两种DNA片段用Ampure XP(贝克曼库尔特公司(Beckman Coulter))纯化，之后添加至金门组装主混合物(新英格兰实验室(New England Biolabs))并且根据制造商的说明书孵育。将金门反应物进一步纯化并且浓缩以使得在细菌筛选的随后步骤中实现最大转化效率。

按照卢西根公司(Lucigen)推荐的方案使用基因Pulser

(伯乐公司(Bio-rad))将含有不同的重复-间隔子-重复元件和CRISPR效应子的质粒文库电穿孔至E.Cloni电感受态大肠杆菌(卢西根公司)中。将文库与纯化的pACYC184质粒一起共转染或直接转染至含有pACYC184的E.Cloni电感受态大肠杆菌(卢西根公司)中，铺板至

培养皿(赛默飞世尔公司(Thermo Fisher))中的含有氯霉素(飞世尔公司)、四环素(阿法埃莎公司(Alfa Aesar))和卡那霉素(阿法埃莎公司)的琼脂上，并且在37℃下孵育10-12小时。在估计大约的菌落计数以确保细菌板上的足够文库表示之后，收获细菌，并且使用QIAprepSpin

试剂盒(凯杰公司(Qiagen))提取质粒DNA，以产生“输出”文库。通过使用含有与依诺米那(Illumina)测序化学兼容的条形码和位点的定制引物执行PCR，从转化前“输入文库”和收获后“输出文库”产生条形码化的下一代测序文库，然后将该文库池化并加载至Nextseq 550(依诺米那公司)上以评价效应子。对于每种筛选执行至少两个独立的生物学平行测定以确保一致性。参见图4B。

细菌筛选测序分析

使用依诺米那bcl2fastq对筛选输入和输出文库的下一代测序数据进行解复用。每个样品的所得的fastq文件中的读段包含用于筛选质粒文库的CRISPR阵列元件。使用CRISPR阵列的直接重复序列来确定阵列取向，并且将间隔子序列映射至来源(pACYC184或E.Cloni)或阴性对照序列(GFP)以确定相应的靶标。对于每个样品，对给定质粒文库中每个独特阵列元件(r_a)的读段的总数目进行计数并且如下归一化：(r_a+1)/所有文库阵列元件的总读段。耗减得分通过将给定阵列元件的归一化输出读段除以归一化输入读段来计算。

为了鉴定导致酶活性和细菌细胞死亡的特定参数，使用下一代测序(NGS)来定量和比较输入和输出质粒文库的PCR产物中单独CRISPR阵列(即，重复-间隔子-重复)的表示。将阵列耗减比定义为归一化输出读段计数除以归一化输入读段计数。如果耗减比小于由图5和图8中的虚线描绘的0.3(超过3倍耗减)，则阵列被认为是“强耗减”的。当计算跨生物学平行测定的阵列耗减比时，取给定CRISPR阵列跨所有实验的最大耗减比值(即强耗减阵列必须在所有生物学平行测定中强耗减)。针对每个间隔子靶标产生矩阵，该矩阵包括阵列耗减比和以下特征：靶链、转录物靶向、ORI靶向、靶序列基序、侧接序列基序和靶二级结构。研究了此矩阵中不同特征解释CLUST.091979系统靶耗减的程度。

图5和图8通过针对给定靶标绘制筛选输出相对于筛选输入中测序读段的归一化比率示出了工程化CLUST.091979组合物(具有非编码序列)的干扰活性的程度。针对每种DR转录取向绘制结果。在组合物的功能性筛选中，与活性RNA指导物复合的活性效应子将干扰pACYC184赋予大肠杆菌对氯霉素和四环素的抗性的能力，从而导致细胞死亡和池内间隔子元件的耗减。初始DNA文库(筛选输入)相对于存活转化的大肠杆菌(筛选输出)的深度测序结果的比较表明了实现活性的可编程CRISPR系统的特定靶序列和DR转录取向。筛选还表明效应子复合物仅在一种DR取向的情况下具有活性。因此，筛选表明，CLUST.091979AUXO013988882效应子在DR的“正向”取向(5’-ACTA…AACT-[间隔子]-3’)上具有活性(图5)并且CLUST.091979SRR3181151效应子在DR的“反向”取向(5’-CCTG…CAAC-[间隔子]-3’)上具有活性(图8)。

图6A和图6B描绘了分别靶向pACYC184和大肠杆菌E.Cloni必需基因的CLUST.091979 AUXO013988882效应子(加上非编码序列)的强耗减靶标的位置。同样，图9A和图9B示出了分别靶向pACYC184和大肠杆菌E.Cloni必需基因的CLUST.091979SRR3181151效应子的强耗减靶标的位置。分析耗减靶标的侧接序列以确定CLUST.091979AUXO013988882和CLUST.091979 SRR3181151的PAM序列。CLUST.091979 AUXO013988882和CLUST.091979 SRR3181151的PAM序列的WebLogo表示(Crooks等人,Genome Research[基因组研究]14:1188-90,2004)示出于图7和图10中，其中“20”位置对应于相邻于靶标的5’端的核苷酸。

因此，CLUST.091979 CRISPR-Cas的多种效应子显示出体内活性。

实例5-通过CLUST.091979靶向哺乳动物基因

此实例描述了使用来自CLUST.091979的核酸酶进行的对多种靶标的插入缺失评估，这些核酸酶通过瞬时转染引入至哺乳动物细胞中。

将SEQ ID NO:4和SEQ ID NO:10的效应子克隆至pcda3.1骨架(英杰公司(Invitrogen))中。然后将质粒大量制备并且稀释至1μg/μL。对于RNA指导物制备，通过含有靶序列支架的超聚体(ultramer)和U6启动子衍生编码crRNA的dsDNA片段。将超聚体重悬于pH 7.5的10mM Tris·HCl中至最终原液浓度为100μM。随后再次使用10mM Tris·HCl将工作原液稀释至10μM以充当用于PCR反应的模板。将crRNA的扩增在具有以下组分的50μL反应物中进行：0.02μl前面提及的模板、2.5μl正向引物、2.5μl反向引物、25μL新英格兰生物学实验室公司HiFi聚合酶和20μl水。循环条件是：1x(98℃下30s)、30x(98℃下10s，67℃下15s)、1x(72℃下2min)。将PCR产物用1.8X SPRI处理净化并且归一化至25ng/μL。所制备的crRNA序列及其相应靶序列示出于表10中。SEQ ID NO:205、SEQ ID NO:207、SEQ ID NO:252、SEQ ID NO:254、SEQ ID NO:256、SEQ ID NO:258、SEQ ID NO:260、SEQ ID NO:262、SEQID NO:264、SEQ ID NO:266、SEQ ID NO:268、SEQ ID NO:270、SEQ ID NO:272、SEQ ID NO:274和SEQ ID NO:276的成熟crRNA的直接重复序列列出于SEQ ID NO:60中。SEQ ID NO:209和SEQ ID NO:214的成熟crRNA的直接重复列出于SEQ ID NO:62中。SEQ ID NO:211、SEQ IDNO:278、SEQ ID NO:280、SEQ ID NO:282、SEQ ID NO:284、SEQ ID NO:286和SEQ ID NO:288的成熟crRNA的直接重复列出于SEQ ID NO:213中。

表10.用于瞬时转染测定的RNA指导物和靶序列。

在转染前大约16小时，将100μl在DMEM/10％FBS+青霉素/链霉素中的25,000个HEK293T细胞铺板至96孔板中的每个孔中。在转染的当天，细胞是70％-90％汇合的。对于待转染的每个孔，制备0.5μl Lipofectamine 2000和9.5μl Opti-MEM的混合物，并且然后在室温下孵育5-20分钟(溶液1)。在孵育之后，将lipofectamine:OptiMEM混合物添加至最多至10μL的含有182ng效应子质粒和14ng crRNA以及水的单独混合物(溶液2)。在阴性对照的情况下，在溶液2中不包含crRNA。将溶液1和溶液2通过向上和向下吸移进行混合，且然后在室温下孵育25分钟。在孵育后，将20μL溶液1和溶液2混合物逐滴添加至含有细胞的96孔板的每个孔。在转染后72小时，通过以下方式使细胞胰蛋白酶化：向每个孔的中心添加10μLTrypLE并且孵育大约5分钟。然后将100μL D10培养基添加至每个孔并且混合以重悬细胞。然后将细胞以500g旋转沉降10分钟，并且弃去上清液。将QuickExtract缓冲液添加至原始细胞悬浮液体积的量的1/5。将细胞在65℃下孵育15分钟，在68℃下孵育15分钟，并且在98℃下孵育10分钟。

通过两轮PCR制备用于下一代测序的样品。使用第一轮(PCR1)来扩增根据靶标的特定基因组区域。通过柱纯化对PCR1产物进行纯化。进行第2轮PCR(PCR2)以添加依诺米那衔接子和索引。然后将反应物池化并且通过柱纯化进行纯化。用150次循环NextSeq v2.5中等或高输出试剂盒进行测序运行。

图11A、图11B、图11C和图11D示出了在分别用SEQ ID NO:4或SEQ ID NO:10的效应子转染后，HEK293T细胞中AAVS1、VEGFA和EMX1靶基因座的插入缺失百分比。条反映了在两个生物平行测定中测量的平均插入缺失百分比。对于SEQ ID NO:4和SEQ ID NO:10的效应子，插入缺失百分比在每种靶标处高于阴性对照的插入缺失百分比。

如图11A中所示，由SEQ ID NO:4的效应子和SEQ ID NO:205的crRNA形成的复合物在SEQ ID NO:206的AAVS1靶标处具有活性，并且由SEQ ID NO:4的效应子和SEQ ID NO:207的crRNA形成的复合物在SEQ ID NO:208的VEGFA靶标处具有活性。如图11B中所示，由SEQID NO:4的效应子和SEQ ID NO:252的crRNA形成的复合物在SEQ ID NO:253的AAVS1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:254的crRNA形成的复合物在SEQ ID NO:255的AAVS1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:256的crRNA形成的复合物在SEQ ID NO:257的AAVS1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:258的crRNA形成的复合物在SEQ ID NO:259的AAVS1靶标处具有活性，并且由SEQ ID NO:4的效应子和SEQ ID NO:274的crRNA形成的复合物在SEQ ID NO:275的AAVS1靶标处具有活性。还如图11B中所示，由SEQ ID NO:4的效应子和SEQ ID NO:260的crRNA形成的复合物在SEQ IDNO:261的EMX1靶标处具有活性。还如图11B中所示，由SEQ ID NO:4的效应子和SEQ ID NO:262的crRNA形成的复合物在SEQ ID NO:263的VEGFA1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:264的crRNA形成的复合物在SEQ ID NO:265的VEGFA1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:266的crRNA形成的复合物在SEQ ID NO:267的VEGFA1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:268的crRNA形成的复合物在SEQ ID NO:269的VEGFA1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:270的crRNA形成的复合物在SEQ ID NO:271的VEGFA1靶标处具有活性，由SEQ ID NO:4的效应子和SEQ ID NO:272的crRNA形成的复合物在SEQ ID NO:273的VEGFA1靶标处具有活性，并且由SEQ ID NO:4的效应子和SEQ ID NO:274的crRNA形成的复合物在SEQ ID NO:275的VEGFA1靶标处具有活性。SEQ ID NO:4的效应子对于图11A和图11B中的每种靶标利用5’-TTTG-3’PAM。

如图11C中所示，由SEQ ID NO:10的效应子和SEQ ID NO:209的crRNA形成的复合物在SEQ ID NO:210的AAVS1靶标处具有活性，由SEQ ID NO:10的效应子和SEQ ID NO:211的crRNA形成的复合物在SEQ ID NO:212的AAVS1靶标处具有活性，并且由SEQ ID NO:10的效应子和SEQ ID NO:214的crRNA形成的复合物在SEQ ID NO:215的VEGFA靶标处具有活性。如图11D中所示，由SEQ ID NO:10的效应子和SEQ ID NO:278的crRNA形成的复合物在SEQID NO:279的AAVS1靶标处具有活性，由SEQ ID NO:10的效应子和SEQ ID NO:280的crRNA形成的复合物在SEQ ID NO:281的AAVS1靶标处具有活性，由SEQ ID NO:10的效应子和SEQ IDNO:284的crRNA形成的复合物在SEQ ID NO:285的AAVS1靶标处具有活性，并且由SEQ IDNO:10的效应子和SEQ ID NO:286的crRNA形成的复合物在SEQ ID NO:287的AAVS1靶标处具有活性。还如图11D中所示，由SEQ ID NO:10的效应子和SEQ ID NO:288的crRNA形成的复合物在SEQ ID NO:289的EMX1靶标处具有活性，并且由SEQ ID NO:10的效应子和SEQ ID NO:282的crRNA形成的复合物在SEQ ID NO:283的VEGFA靶标处具有活性。SEQ ID NO:10的效应子对于图11C和图11D中的靶标利用5’-ATTG-3’PAM和5’-GTTA-3’PAM。

此实例表明CLUST.091979家族中的核酸酶在哺乳动物细胞中具有活性。

其他实施例

应理解，虽然已经结合其具体实施方式对本发明进行了描述，但前面的描述旨在说明而非限制本发明的范围，本发明的范围由所附权利要求的范围限定。其他方面、优点和修改在以下权利要求的范围内。

Claims

1.一种工程化的非天然存在的CLUST.091979成簇规律间隔短回文重复序列(CRISPR)-Cas系统，该系统包括：

(a)CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸，其中该CRISPR相关蛋白包含SEQID NO:241的氨基酸序列；以及

(b)RNA指导物，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列；

其中该CRISPR相关蛋白能够结合该RNA指导物并且能够修饰与该间隔子序列互补的该靶核酸序列。

2.如权利要求1所述的系统，其中该CRISPR相关蛋白包含与SEQ ID NO:4、SEQ ID NO:10、SEQ ID NO:12或SEQ ID NO:14中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列。

3.一种工程化的非天然存在的CLUST.091979成簇规律间隔短回文重复序列(CRISPR)-Cas系统，该系统包括：

(a)CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及

4.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白包含至少一个RuvC结构域或至少一个拆分型RuvC结构域。

5.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白包含以下序列中的一种或多种：

(a)PX₁X₂X₃X₄F(SEQ ID NO:216)，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M；

(b)RX₁X₂X₃L(SEQ ID NO:217)，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K；

(c)NX₁YX₂(SEQ ID NO:218)，其中X₁是I或L或F并且X₂是K或R或V或E；

(d)KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N；

(e)LX₁NX₂(SEQ ID NO:220)，其中X₁是G或S或C或T并且X₂是N或Y或K或S；

(f)PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I；

(g)KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q；以及

(h)X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L。

6.如任一项前述权利要求所述的系统，其中该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

7.如任一项前述权利要求所述的系统，其中该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

8.如任一项前述权利要求所述的系统，其中该直接重复序列包含以下序列中的一种或多种：

(a)X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO:224)，其中X₁是A或C或G，X₂是T或C或A，X₃是T或G或A，X₄是T或G，X₅是T或G或A，X₆是G或T或A，X₇是T或G或A，并且X₈是A或G或T；

(b)X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO:226)，其中X₁是T或C或A，X₂是T或A或G，X₃是T或C或A，X₄是T或A，X₅是T或A或G，X₆是T或A，X₇是A或T，X₈是A或G或C或T，并且X₉是G或A或C；以及

(c)X₁X₂X₃AC(SEQ ID NO:228)，其中X₁是A或C或G，X₂是C或A，并且X₃是A或C。

9.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

10.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

11.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别原型间隔子相邻基序(PAM)序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

12.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

13.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

14.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

15.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

16.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

17.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

18.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

19.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

20.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

21.如任一项前述权利要求所述的系统，其中该RNA指导物的该间隔子序列包含约15个核苷酸至约55个核苷酸。

22.如任一项前述权利要求所述的系统，其中该RNA指导物的该间隔子序列包含20至45个核苷酸。

23.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白包含催化残基(例如，天冬氨酸或谷氨酸)。

24.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白切割该靶核酸。

25.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白进一步包含肽标签、荧光蛋白、碱基编辑结构域、DNA甲基化结构域、组蛋白残基修饰结构域、定位因子、转录修饰因子、光门控因子、化学诱导型因子或染色质可视化因子。

26.如任一项前述权利要求所述的系统，其中编码该CRISPR相关蛋白的该核酸经密码子优化以在细胞中表达。

27.如任一项前述权利要求所述的系统，其中编码该CRISPR相关蛋白的该核酸可操作地连接至启动子。

28.如任一项前述权利要求所述的系统，其中编码该CRISPR相关蛋白的该核酸在载体中。

29.如权利要求28所述的系统，其中该载体包括逆转录病毒载体、慢病毒载体、噬菌体载体、腺病毒载体、腺相关载体或单纯疱疹载体。

30.如任一项前述权利要求所述的系统，其中该靶核酸是DNA分子。

31.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白包含非特异性核酸酶活性。

32.如任一项前述权利要求所述的系统，其中通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。

33.如权利要求32所述的系统，其中对该靶核酸的该修饰是双链切割事件。

34.如权利要求32所述的系统，其中对该靶核酸的该修饰是单链切割事件。

35.如任一项前述权利要求所述的系统，其中对该靶核酸的该修饰导致插入事件。

36.如任一项前述权利要求所述的系统，其中对该靶核酸的该修饰导致缺失事件。

37.如任一项前述权利要求所述的系统，其中对该靶核酸的该修饰导致细胞毒性或细胞死亡。

38.如任一项前述权利要求所述的系统，该系统进一步包括供体模板核酸。

39.如权利要求38所述的系统，其中该供体模板核酸是DNA分子。

40.如权利要求38所述的系统，其中该供体模板核酸是RNA分子。

41.如任一项前述权利要求所述的系统，其中该RNA指导物任选地包括tracrRNA。

42.如任一项前述权利要求所述的系统，其中该系统不包括tracrRNA。

43.如任一项前述权利要求所述的系统，其中该CRISPR相关蛋白是自加工的。

44.如任一项前述权利要求所述的系统，其中该系统存在于递送组合物中，该递送组合物包含纳米颗粒、脂质体、外来体、微泡或基因枪。

45.如任一项前述权利要求所述的系统，该系统在细胞内。

46.如权利要求45所述的系统，其中该细胞是真核细胞。

47.如权利要求45所述的系统，其中该细胞是原核细胞。

48.一种细胞，其中该细胞包含：

(b)RNA指导物，该RNA指导物包含直接重复序列和能够与靶核酸杂交的间隔子序列。

49.如权利要求48所述的细胞，其中该CRISPR相关蛋白包含以下序列中的一种或多种：

50.如任一项前述权利要求所述的细胞，其中该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

51.如任一项前述权利要求所述的细胞，其中该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

52.如任一项前述权利要求所述的细胞，其中该直接重复序列包含以下序列中的一种或多种：

53.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

54.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

55.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

56.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

57.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

58.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

59.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

60.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

61.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

62.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

63.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

64.如任一项前述权利要求所述的细胞，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

65.如任一项前述权利要求所述的细胞，其中该间隔子序列包含约15个核苷酸至约55个核苷酸。

66.如任一项前述权利要求所述的细胞，其中该间隔子序列包含20至45个核苷酸。

67.如任一项前述权利要求所述的细胞，其中该细胞进一步包含tracrRNA。

68.如任一项前述权利要求所述的细胞，其中该系统不包括tracrRNA。

69.如任一项前述权利要求所述的细胞，其中该细胞是真核细胞，例如哺乳动物细胞，例如人细胞。

70.如任一项前述权利要求所述的细胞，其中该细胞是原核细胞。

71.一种使如任一项前述权利要求所述的系统与细胞中的靶核酸结合的方法，该方法包括：

(a)提供该系统；以及

(b)将该系统递送至该细胞，

其中该细胞包含该靶核酸，其中该CRISPR相关蛋白结合该RNA指导物，并且其中该间隔子序列结合该靶核酸。

72.如权利要求71所述的方法，其中该细胞是真核细胞，例如哺乳动物细胞，例如人细胞。

73.一种修饰靶核酸的方法，该方法包括向该靶核酸递送工程化的非天然存在的CRISPR-Cas系统，该系统包括：

(b)RNA指导物，该RNA指导物包含直接重复序列和能够与该靶核酸杂交的间隔子序列；

其中该CRISPR相关蛋白能够结合该RNA指导物；并且

其中通过该CRISPR相关蛋白和RNA指导物对该靶核酸的识别导致对该靶核酸的修饰。

74.如权利要求73所述的方法，其中该CRISPR相关蛋白包含以下序列中的一种或多种：

75.如任一项前述权利要求所述的方法，其中该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

76.如任一项前述权利要求所述的方法，其中该直接重复序列包含与SEQ ID NO:57-90、SEQ ID NO:118-151或SEQ ID NO:213中任一个中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

77.如任一项前述权利要求所述的方法，其中该直接重复序列包含以下序列中的一种或多种：

78.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

79.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:57中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

80.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

81.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:1中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-TNNT-3’或5’-TNRT-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

82.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

83.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

84.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

85.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:4中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

86.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

87.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该直接重复序列包含与SEQ ID NO:62或SEQ ID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

88.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

89.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白是与SEQ ID NO:10中列出的氨基酸序列具有至少95％(例如，95％、96％、97％、98％、99％或100％)同一性的蛋白质，并且其中该CRISPR相关蛋白能够识别PAM序列，其中该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

90.如任一项前述权利要求所述的方法，其中该间隔子序列包含约15个核苷酸至约55个核苷酸。

91.如任一项前述权利要求所述的方法，其中该间隔子序列包含20至45个核苷酸。

92.如任一项前述权利要求所述的方法，其中该系统进一步包括tracrRNA。

93.如任一项前述权利要求所述的方法，其中该系统不包括tracrRNA。

94.如任一项前述权利要求所述的方法，其中该靶核酸是DNA分子。

95.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白包含非特异性核酸酶活性。

96.如任一项前述权利要求所述的方法，其中对该靶核酸的该修饰是双链切割事件。

97.如任一项前述权利要求所述的方法，其中对该靶核酸的该修饰是单链切割事件。

98.如任一项前述权利要求所述的方法，其中对该靶核酸的该修饰导致插入事件。

99.如任一项前述权利要求所述的方法，其中对该靶核酸的该修饰导致缺失事件。

100.如任一项前述权利要求所述的方法，其中对该靶核酸的该修饰导致细胞毒性或细胞死亡。

101.一种编辑靶核酸的方法，该方法包括使该靶核酸与如任一项前述权利要求所述的系统接触。

102.一种修饰靶核酸的表达的方法，该方法包括使该靶核酸与如任一项前述权利要求所述的系统接触。

103.一种使有效载荷核酸在靶核酸的位点处靶向插入的方法，该方法包括使该靶核酸与如任一项前述权利要求所述的系统接触。

104.一种从靶核酸处的位点靶向切除有效载荷核酸的方法，该方法包括使该靶核酸与如任一项前述权利要求所述的系统接触。

105.一种在识别DNA靶核酸后非特异性降解单链DNA的方法，该方法包括使该靶核酸与如任一项前述权利要求所述的系统接触。

106.一种检测样品中的靶核酸的方法，该方法包括：

(a)使该样品与如任一项前述权利要求所述的系统和经标记的报告核酸接触，其中该间隔子序列与该靶核酸的杂交导致该经标记的报告核酸的切割；以及

(b)测量由该经标记的报告核酸的切割产生的可检测信号，从而检测该样品中该靶核酸的存在。

107.如任一项前述权利要求所述的系统在以下体外或离体方法中的用途：

(a)靶向并编辑靶核酸；

(b)在识别该核酸后非特异性降解单链核酸；

(c)在识别双链靶标的间隔子互补链后靶向该双链靶标的非间隔子互补链并使其产生切口；

(d)靶向并切割双链靶核酸；

(e)检测样品中的靶核酸；

(f)特异性编辑双链核酸；

(g)对双链核酸进行碱基编辑；

(h)在细胞中诱导基因型特异性或转录状态特异性的细胞死亡或休眠；

(i)在双链核酸靶标中产生插入缺失；

(j)将序列插入至双链核酸靶标中；或

(k)缺失或倒置双链核酸靶标中的序列。

108.一种将插入或缺失引入至哺乳动物细胞中的靶核酸中的方法，该方法包括以下的转染：

(a)编码CRISPR相关蛋白的核酸序列，其中该CRISPR相关蛋白包含与SEQ ID NO:1-56中任一个中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列；以及

(b)RNA指导物(或编码该RNA指导物的核酸)，该RNA指导物包含直接重复序列和能够与该靶核酸杂交的间隔子序列；

其中该CRISPR相关蛋白能够结合该RNA指导物；并且

109.如权利要求108所述的方法，其中该CRISPR相关蛋白包含与SEQ ID NO:4中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列。

110.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白包含与SEQ ID NO:4中列出的氨基酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的氨基酸序列。

111.如任一项前述权利要求所述的方法，其中该直接重复包含与SEQ ID NO:60中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

112.如任一项前述权利要求所述的方法，其中该直接重复包含与SEQ ID NO:60中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

113.如任一项前述权利要求所述的方法，其中该靶核酸相邻于PAM序列，并且该PAM序列包括作为5’-NTTN-3’、5’-NTTR-3’(例如，5’-TTTG-3’)或5’-NNR-3’列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

114.如权利要求108所述的方法，其中该CRISPR相关蛋白包含与SEQ ID NO:10中列出的氨基酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的氨基酸序列。

115.如任一项前述权利要求所述的方法，其中该CRISPR相关蛋白包含与SEQ ID NO:10中列出的氨基酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的氨基酸序列。

116.如任一项前述权利要求所述的方法，其中该直接重复包含与SEQ ID NO:62或SEQID NO:213中列出的核苷酸序列至少80％(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

117.如任一项前述权利要求所述的方法，其中该直接重复包含与SEQ ID NO:62或SEQID NO:213中列出的核苷酸序列至少95％(例如，95％、96％、97％、98％、99％或100％)相同的核苷酸序列。

118.如任一项前述权利要求所述的方法，其中该靶核酸相邻于PAM序列，并且该PAM序列包括作为5’-NTTN-3’或5’-RTTR-3’(例如，5’-ATTG-3’或5’-GTTA-3’)列出的核酸序列，其中“N”是任何核苷酸并且“R”是A或G。

119.如任一项前述权利要求所述的方法，其中该转染是瞬时转染。

120.如任一项前述权利要求所述的方法，其中该细胞是人细胞。

121.一种组合物，该组合物包含：

(a)CRISPR相关蛋白或编码该CRISPR相关蛋白的核酸；以及

(b)RNA指导物，该RNA指导物包含直接重复序列和间隔子序列；

其中该CRISPR相关蛋白包含以下氨基酸序列中的一种或多种：

(i)PX₁X₂X₃X₄F(SEQ ID NO:216)，其中X₁是L或M或I或C或F，X₂是Y或W或F，X₃是K或T或C或R或W或Y或H或V，并且X₄是I或L或M；

(ii)RX₁X₂X₃L(SEQ ID NO:217)，其中X₁是I或L或M或Y或T或F，X₂是R或Q或K或E或S或T，并且X₃是L或I或T或C或M或K；

(iii)NX₁YX₂(SEQ ID NO:218)，其中X₁是I或L或F并且X₂是K或R或V或E；

(iv)KX₁X₂X₃FAX₄X₅KD(SEQ ID NO:219)，其中X₁是T或I或N或A或S或F或V，X₂是I或V或L或S，X₃是H或S或G或R，X₄是D或S或E，并且X₅是I或V或M或T或N；

(v)LX₁NX₂(SEQ ID NO:220)，其中X₁是G或S或C或T并且X₂是N或Y或K或S；

(vi)PX₁X₂X₃X₄SQX₅DS(SEQ ID NO:221)，其中X₁是S或P或A，X₂是Y或S或A或P或E或Y或Q或N，X₃是F或Y或H，X₄是T或S，并且X₅是M或T或I；

(vii)KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO:222)，其中X₁是N或K或W或R或E或T或Y，X₂是M或R或L或S或K或V或E或T或I或D，X₃是L或R或H或P或T或K或Q或P或S或A，X₄是G或Q或N或R或K或E或I或T或S或C，并且X₅是R或W或Y或K或T或F或S或Q；以及

(viii)X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO:223)，其中X₁是I或K或V或L，X₂是L或M，X₃是N或H或P，X₄是A或S或C，X₅是V或Y或I或F或T或N，X₆是A或S，X₇是S或A或P，并且X₈是M或C或L或R或N或S或K或L；并且

其中该CRISPR相关蛋白结合该RNA指导物，并且该间隔子结合靶核酸。