CN115572727A

CN115572727A - 新型crispr酶以及系统

Info

Publication number: CN115572727A
Application number: CN202210870826.8A
Authority: CN
Inventors: 张锋; B·蔡澈; J·S·根特柏格; O·O·阿布德耶尔; I·斯雷梅克
Original assignee: Harvard College; Massachusetts Institute of Technology; Broad Institute Inc
Current assignee: Harvard College; Massachusetts Institute of Technology; Broad Institute Inc
Priority date: 2015-06-18
Filing date: 2016-06-17
Publication date: 2023-01-06
Also published as: EP3470519A1; TW202426636A; EP4403638A2; IL256369A; EP3009511A2; KR20180034402A; AU2016278990A1; US10669540B2; CN115572718A; RU2020136363A; RU2737537C2; JP7280312B2; KR102613296B1; JP2023100906A; MX2017016688A; RU2018101666A; FI3604532T3; EP3009511B1; DK3604532T3; DK3470519T3

Abstract

本发明提供了用于靶向核酸的系统、方法和组合物。具体地说，本发明提供了包含新型DNA‑靶向CRISPR效应蛋白和至少一种靶向核酸组分如指导RNA的非天然存在的或工程化的DNA靶向系统。在此还披露并且要求保护用于制备和使用此类系统、方法和组合物的方法和此类系统、方法和组合物的用途以及来自此类方法和用途的产物。

Description

新型CRISPR酶以及系统

相关申请并通过引用结合

本申请是申请号为201680035959.6、申请日为2016年6月17日、发明名称为“新型CRISPR酶以及系统”的中国发明专利申请的分案申请。本申请要求于2015年6月18日提交的美国临时62/181,739；于2015年7月16日提交的美国临时62/193,507；2015年8月5日提交的美国临时62/201,542；2015年8 月16日提交的美国临时62/205,733；2015年9月24日提交的美国临时62/232,067；2015年12月18日提交的美国申请序列号14/975,085以及欧洲申请号16150428.7的权益和优先权。

将前述申请及其中或它们的诉讼期间(“应用引用文献”)所引用的所有文献或在此引用文献中引用或参考的所有文献，以及在此或在通过引用结合在此的任何文献中提到的任何产品的任何厂商说明书、描述、产品规格和产品清单均通过引用结合在此，并且可以应用于本发明的实践中。更具体地，所有参考的文献通过引用结合在此，其程度如同将每个单独的文献具体并单独地指明通过引用结合在此。

序列表

本申请含有一份已经以ASCII格式电子递交的序列表并且该序列表通过引用以其整体结合在此。创建于2015年12月17日的所述ASCII副本名称为47627.05.2123_SL.txt并且大小为2,467,205字节。

发明领域

本发明总体涉及用于控制涉及序列靶向诸如基因转录物的干扰或核酸编辑的基因表达的系统、方法以及组合物，这些系统、方法以及组合物可以使用与成簇规律间隔短回文重复序列(CRISPR)及其组分相关的载体系统。

发明背景

基因组测序技术和分析方法的最新进展明显加速了对与不同范围的生物学功能和疾病相关联的遗传因子进行编目和映射的能力。精确的基因组靶向技术对于通过允许个体遗传元件的选择性干扰而使得因果性遗传变异的系统性逆向工程成为可能，以及推进合成生物学、生物技术学和医疗应用是需要的。虽然基因组编辑技术诸如设计师的锌指、转录激活因子样效应子(TALE)或归巢大范围核酸酶(homing meganucleases)可以用于产生靶向基因组干扰，但是仍然需要采用新策略和分子机制并且负担的起的、易于建立的、可扩展的且便于靶向真核基因组内的多个位置的新基因组工程技术。这将为基因组工程和生物技术的新应用提供主要资源。

细菌和古细菌的适应性免疫的CRISPR-Cas系统显示出蛋白质组成和基因组座位体系结构的极端多样性。CRISPR-Cas系统座位具有超过50种的基因家族并且不存在严格的通用基因，这表明了座位体系结构的快速进化和极端多样性。到目前为止，采用了多分支方法，针对93种Cas蛋白存在约395种表达谱的全面 cas基因鉴定。分类包括特征基因表达谱加上座位体系结构的特征。提出了一种新的CRISPR-Cas系统分类，其中这些系统宽泛地分成两类，具有多亚基效应子复合物的第1类和具有单亚基效应子模块的第2类，通过Cas9蛋白来举例说明。与第2类CRISPR-Cas系统相关联的新型效应蛋白可以被开发为强有力的基因组工程工具并且推定的新型效应蛋白的预测及其工程化和优化是重要的。

本申请中的任何文献的引用或鉴定并不承认该文献作为本发明的现有技术而可以获得。

发明内容

对于具有一系列广泛应用的靶向核酸或多核苷酸(例如，DNA或RNA或其任何杂交体或衍生物)的替代性且稳健的系统和技术存在着迫切需要。本发明着手解决这种需要并且提供了相关优点。将本发明的新型DNA或RNA靶向系统添加到基因组和表观基因组(epigenomic)靶向技术的全能文库(repertoire)可以通过直接的检测、分析和操纵来转化特定靶位点的研究和干扰或编辑。为了有效而无有害作用地利用本发明的DNA或RNA靶向系统用于基因组或表观基因组的靶向，了解这些DNA或RNA靶向工具的工程化和优化方面是关键的。

本发明提供了一种修饰与感兴趣的靶座位相关联的或在该靶座位处的序列的方法，该方法包括将包含推定的V型CRISPR-Cas座位效应蛋白和一种或多种核酸组分的非天然存在或工程化的组合物递送至所述座位，其中效应蛋白与一种或多种核酸组分形成复合物并且在所述复合物与感兴趣的座位结合后，效应蛋白诱导对与感兴趣的靶座位相关联的或在该靶座位处的序列的修饰。在一个优选实施例中，修饰是链断裂的引入。在一个优选实施例中，与感兴趣的靶座位相关联的或在该靶座位处的序列包括DNA并且效应蛋白由亚型V-A CRISPR-Cas座位或亚型V-B CRISPR-Cas座位编码。

应了解，除非另外表明，否则术语Cas酶、CRISPR酶、CRISPR蛋白、Cas蛋白和CRISPRCas通常是可以互换使用的并且在所有在此参考方面处以类推方式指进一步描述在本发明中的新型CRISPR效应蛋白，诸如通过具体参考Cas9。在此所述的CRISPR效应蛋白优选是Cpf1效应蛋白。

本发明提供了一种修饰与感兴趣的靶座位相关联的或在该靶座位处的序列的方法，该方法包括将包含Cpf1座位效应蛋白和一种或多种核酸组分的非天然存在或工程化的组合物递送至与座位相关联或在该座位处的所述序列，其中Cpf1效应蛋白与一种或多种核酸组分形成复合物并且在所述复合物与感兴趣的座位结合后，效应蛋白诱导对与感兴趣的靶座位相关联的或在该靶座位处的序列的修饰。在一个优选实施例中，修饰是链断裂的引入。在一个优选实施例中，Cpf1效应蛋白与一种核酸组分；有利地工程化的或非天然存在的核酸组分形成复合物。对与感兴趣的靶座位相关联的或在该靶座位处的序列的修饰的诱导可以是 Cpf1效应蛋白-核酸指导的。在一个优选实施例中，一种核酸组分是CRISPR RNA(crRNA)。在一个优选实施例中，一种核酸组分是成熟crRNA或指导RNA，其中成熟crRNA或指导RNA包含间隔区序列(或指导序列)和同向重复序列或它们的衍生物。在一个优选实施例中，间隔区序列或其衍生物包含种子序列，其中种子序列对识别和/或杂交于靶座位处的序列是关键的。在一个优选实施例中，FnCpf1指导RNA的种子序列大约在间隔区序列(或指导序列)的5'端上的前5个核苷酸(nt)之内。在一个优选实施例中，链断裂是交错切割的，产生了5'突出端。在一个优选实施例中，与感兴趣的靶座位相关联的或在该靶座位处的序列包括直链DNA或超螺旋DNA。

本发明的方面涉及具有一种或多种非天然存在或工程化或修饰或优化的核酸组分的Cpf1效应蛋白复合物。在一个优选实施例中，复合物的核酸组分可以包含连接至同向重复序列的指导序列，其中同向重复序列包括一个或多个茎环或优化的二级结构。在一个优选实施例中，同向重复序列具有16个核苷酸的最小长度并且具有单一茎环。在另外的实施例中，同向重复序列具有长于16个核苷酸，优选(preferrably)超过17个核苷酸的长度，并且具有超过一个的茎环或优化的二级结构。在一个优选实施例中，同向重复序列可以被修饰成包含一种或多种蛋白质结合的RNA适配子。在一个优选实施例中，一个或多个适配子可以被包含作为优化的二级结构的一部分。此类适配子可以能够结合噬菌体外壳蛋白。噬菌体外壳蛋白可以选自下组，该组包括下项：Qβ、F2、GA、fr、JP501、MS2、M12、R17、BZ13、JP34、JP500、KU1、M11、 MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。在一个优选实施例中，噬菌体外壳蛋白是MS2。本发明还提供了复合物的核酸组分，该核酸组分的长度为 30或更多个、40或更多个，或50或更多个核苷酸。

本发明提供了基因组编辑的方法，其中该方法包括两轮或更多轮的Cpf1效应蛋白靶向和切割。在某些实施例中，第一轮包括Cpf1效应蛋白切割与远离种子序列的靶座位相关联的序列并且第二轮包括Cpf1效应蛋白切割靶座位处的序列。在本发明的优选实施例中，通过Cpf1效应蛋白进行的第一轮靶向产生了indel 并且通过Cpf1效应蛋白进行的第二轮靶向可以经由同源定向修复(HDR)进行修复。在本发明的一个最优选实施例中，通过Cpf1效应蛋白进行的一轮或多轮靶向产生了可以通过修复模板的插入来修复的交错切割。

本发明提供了基因组编辑或修饰与感兴趣的靶座位相关联的或在该靶座位处的序列的方法，其中该方法包括将Cpf1效应蛋白复合物引入到任何所希望的细胞类型，原核细胞或真核细胞中，由此Cpf1效应蛋白复合物有效地用于将DNA插入物整合到原核细胞或真核细胞的基因组中。在优选实施例中，细胞是真核细胞并且基因组是哺乳动物基因组。在优选实施例中，DNA插入物的整合通过基于非同源末端连接(NHEJ) 的基因插入机制来实现。在优选实施例中，DNA插入物是外源引入的DNA模板或修复模板。在一个优选实施例中，外源引入的DNA模板或修复模板与Cpf1效应蛋白复合物或一种组分或用于表达复合物组分的多核苷酸载体一起递送。在一个更优选实施例中，真核细胞是不分裂的细胞(例如，其中经由HDR进行基因组编辑是特别具有挑战性的不分裂细胞)。在人类细胞中的基因组编辑的优选方法中，Cpf1效应蛋白可以包括但不限于FnCpf1、AsCpf1和LbCpf1效应蛋白。

本发明还提供了一种修饰感兴趣的靶座位的方法，该方法包括将包含C2c1座位效应蛋白和一种或多种核酸组分的非天然存在或工程化的组合物递送至所述座位，其中C2c1效应蛋白与一种或多种核酸组分形成复合物并且在所述复合物与感兴趣的座位结合后，效应蛋白诱导对感兴趣的靶座位的修饰。在一个优选实施例中，修饰是链断裂的引入。

在此类方法中，感兴趣的靶座位可以包含在体外的DNA分子中。在一个优选实施例中，DNA分子是质粒。

在此类方法中，感兴趣的靶座位可以包含在细胞内的DNA分子中。细胞可以是原核细胞或真核细胞。细胞可以是哺乳动物细胞。哺乳动物细胞可以是非人类灵长类动物、牛、猪、啮齿动物或小鼠细胞。细胞可以是非哺乳动物真核细胞诸如家禽、鱼或虾的细胞。细胞还可以是植物细胞。植物细胞可以是栽培植物诸如木薯、玉米、高粱、小麦或稻具有的细胞。植物细胞还可以是藻类、树或蔬菜具有的细胞。通过本发明引入到细胞的修饰可以使得细胞和细胞的子代被改变以改进生物产物诸如抗体、淀粉、乙醇或其他所希望的细胞输出物的产生。通过本发明引入到细胞的修饰可以使得细胞和细胞的子代包括使所产生的生物产物发生变化的改变。

本发明提供了一种修饰感兴趣的靶座位的方法，该方法包括将包含VI型CRISPR-Cas座位效应蛋白和一种或多种核酸组分的非天然存在或工程化的组合物递送至所述座位，其中效应蛋白与一种或多种核酸组分形成复合物并且在所述复合物与感兴趣的座位结合后，效应蛋白诱导对感兴趣的靶座位的修饰。在一个优选实施例中，修饰是链断裂的引入。

在一个优选实施例中，感兴趣的靶座位包括DNA。

在此类方法中，感兴趣的靶座位可以包含在细胞内的DNA分子中。细胞可以是原核细胞或真核细胞。细胞可以是哺乳动物细胞。哺乳动物细胞可以是非人类哺乳动物，例如灵长类动物、牛、羊、猪类、犬、啮齿动物、兔科诸如猴、母牛、绵羊、猪、狗、兔、大鼠或小鼠的细胞。细胞可以是非哺乳动物真核细胞诸如家禽鸟类(例如鸡)、脊椎动物鱼(例如鲑鱼)或甲壳类动物(例如牡蛎、蛤(claim)、龙虾、虾)的细胞。细胞还可以是植物细胞。植物细胞可以是单子叶植物或双子叶植物具有的细胞或栽培植物或粮食植物诸如木薯、玉米、高粱、大豆、小麦、燕麦或稻具有的细胞。植物细胞还可以是藻类、树或生产植物、果实或蔬菜(例如，树类诸如柑橘树，例如桔子树、葡萄柚树或柠檬树；桃树或油桃树；苹果树或梨树；坚果树诸如杏树或核桃树或阿月浑子树；茄属植物；芸苔属植物；莴苣属植物；菠菜属植物；辣椒属植物；棉花、烟草、芦笋、胡萝卜、甘蓝、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等)具有的细胞。

在任一所述方法中，感兴趣的靶座位可以是感兴趣的基因组或表观基因组的座位。在任一所述方法中，复合物可以使用用于多重用途的多个指导序列进行递送。在任一所述方法中，可以使用超过一种的蛋白质。

在本发明的优选实施例中，在不存在推定的反式激活crRNA(tracr RNA)序列条件下，发生与感兴趣的靶座位相关联的或在该靶座位处的序列的生物化学的或体外或体内的切割，例如通过FnCpf1效应蛋白进行切割。在本发明的其他实施例中，在存在推定的反式激活crRNA(tracr RNA)序列条件下，可以发生切割，例如通过其他CRISPR家族效应蛋白进行切割，然而，在评价FnCpf1座位之后，申请人推断通过Cpf1 效应蛋白复合物进行的靶DNA切割不需要tracrRNA。申请人确定仅包含Cpf1效应蛋白和crRNA(包含同向重复序列和指导序列的指导RNA)的Cpf1效应蛋白复合物足以切割靶DNA。因此，本发明提供了修饰如上文所述的感兴趣的靶座位的方法，其中效应蛋白是Cpf1蛋白并且效应蛋白在不存在tracr的条件下与靶序列复合。

在任一上述方法中，效应蛋白(例如Cpf1)和核酸组分可以经由编码该蛋白质和/或一种或多种核酸组分的一个或多个多核苷酸分子来提供，并且其中一个或多个多核苷酸分子被可操作地构造成用于表达蛋白和/或一种或多种核酸组分。一个或多个多核苷酸分子可以包含被可操作地构造成用于表达蛋白质和/或一种或多种核酸组分的一个或多个调节元件。一个或多个多核苷酸分子可以包含在一个或多个载体中。本发明包括此或此类核苷酸分子例如被可操作地构造成用于表达蛋白质的此类多核苷酸分子，和/或一种或多种核酸组分以及此或此类载体。

在任一上述方法中，链断裂可以是单链断裂或双链断裂。

调节元件可以包括诱导型启动子。多核苷酸和/或载体系统可以包括诱导型系统。

在任一上述方法中，一个或多个多核苷酸分子可以包含在递送系统中，或者一种或多种载体可以包含在递送系统中。

在任一上述方法中，非天然存在或工程化的组合物可以经由脂质体、粒子(例如纳米粒子)、外来体、微泡、基因枪或一种或多种载体例如核酸分子或病毒载体递送。

本发明还提供了一种非天然存在或工程化的组合物，该组合物是具有如在此所讨论的或任一在此所述方法中所限定的特性的组合物。

本发明还提供了一种包含一种或多种载体的载体系统，这些一种或多种载体包含编码非天然存在或工程化的组合物(为具有如在此所讨论的或任一在此所述方法中所限定的特性的组合物)的组分的一个或多个多核苷酸分子。

本发明还提供了一种包含一种或多种载体或一个或多个多核苷酸分子的递送系统，这些一种或多种载体或一个或多个多核苷酸分子包括编码非天然存在或工程化的组合物(为具有如在此所讨论的或任一在此所述方法中所限定的特性的组合物)的组分的一个或多个多核苷酸分子。

本发明还提供了在治疗性治疗方法中使用的一种非天然存在或工程化的组合物，或编码所述组合物的组分的一种或多种多核苷酸，或包括编码所述组合物的组分的一种或多种多核苷酸的载体或递送系统。治疗性治疗方法可以包括基因或基因组编辑，或基因治疗。

本发明还涵盖用于预测新的第2类CRISPR-Cas系统和鉴定其中组分的计算方法和算法。

本发明还提供了其中效应蛋白的一个或多个氨基酸残基可以被修饰，例如工程化或非天然存在的效应蛋白或Cpf1的方法和组合物。在一个实施例中，修饰可以包括效应蛋白的一个或多个氨基酸残基的突变。一个或多个突变可以处于效应蛋白的一个或多个催化活性结构域中。与缺乏所述一个或多个突变的效应蛋白相比，该效应蛋白可以具有降低或废除的核酸酶活性。效应蛋白不可以引导感兴趣的靶座位处的一条或另一条DNA或RNA链的切割。效应蛋白不可以引导感兴趣的靶座位处的DNA或RNA链的切割。在一个优选实施例中，一个或多个突变可以包括两个突变。在一个优选实施例中，Cpf1效应蛋白中的一个或多个氨基酸残基被修饰，例如工程化或非天然存在的效应蛋白或Cpf1。在一个优选实施例中，Cpf1效应蛋白是 FnCpf1效应蛋白。在一个优选实施例中，一个或多个修饰的或突变的氨基酸残基是参照FnCpf1效应蛋白的氨基酸位置编码的D917A、E1006A或D1255A。在另外的优选实施例中，一种或多种突变氨基酸残基是参照AsCpf1中的氨基酸位置的D908A、E993A、D1263A或者是参照LbCpf1中的氨基酸位置的LbD832A、 E925A、D947A或D1180A。

本发明还提供了处于包含RuvC结构域的效应蛋白的催化活性结构域中的一个或多个突变或两个或更多个突变。在本发明的一些实施例中，RuvC结构域可以包括RuvCI、RuvCII或RuvCIII结构域，或与RuvCI、 RuvCII或RuvCIII结构域等或与如任一在此所述方法中所述的任何相关结构域同源的催化活性结构域。效应蛋白可以包含一个或多个异源功能结构域。一个或多个异源功能结构域可以包括一个或多个核定位信号 (NLS)结构域。一个或多个异源功能结构域可以包括至少两个或更多个NLS结构域。一个或多个NLS结构域可以定位成处于或靠近或接近效应蛋白(例如Cpf1)的末端，并且如果是两个或更多个NLS的话，则两个中的每个可以定位成处于或靠近或接近效应蛋白(例如Cpf1)的末端。一个或多个异源功能结构域可以包括一个或多个转录激活结构域。在一个优选实施例中，转录激活结构域可以包括VP64。一个或多个异源功能结构域可以包括一个或多个转录阻遏结构域。在一个优选实施例中，转录阻遏结构域包括KRAB结构域或SID结构域(例如SID4X)。一个或多个异源功能结构域可以包括一个或多个核酸酶结构域。在一个优选实施例中，核酸酶结构域包括Fok1。

本发明还提供了具有以下活性中的一种或多种的一个或多个异源功能结构域：甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、核酸酶活性、单链RNA 切割活性、双链RNA切割活性、单链DNA切割活性、双链DNA切割活性以及核酸结合活性。至少一个或多个异源功能结构域可以处于或靠近效应蛋白的氨基末端并且/或者其中至少一个或多个异源功能结构域处于或靠近效应蛋白的羧基末端。一个或多个异源功能结构域可以融合至效应蛋白。一个或多个异源功能结构域可以系接至效应蛋白。一个或多个异源功能结构域可以通过接头部分连接至效应蛋白。

本发明还提供了效应蛋白(例如Cpf1)，包括来自于来自包括下项的属的生物体的效应蛋白(例如 Cpf1)：链球菌属、弯曲杆菌属、Nitratifractor、葡萄球菌属、细小棒菌属(Parvibaculum)、罗氏菌属、奈瑟氏菌属(Neisseria)、葡糖醋杆菌属、固氮螺菌属、Sphaerochaeta、乳酸杆菌属、真细菌属、棒状杆菌属、肉杆菌属(Carnobacterium)、红细菌属、李斯特菌属(Listeria)、帕鲁迪菌属(Paludibacter)、梭菌属、毛螺旋菌科(Lachnospiraceae)、Clostridiaridium、纤毛菌属、弗朗西丝菌属、军团杆菌属、脂环酸芽孢杆菌属、甲烷嗜甲基菌(Methanomethyophilus)、卟啉单胞菌属(Porphyromonas)、普雷沃菌属、拟杆菌门、创伤球菌属(Helcococcus)、钩端螺旋体属(Letospira)、脱硫弧菌属、脱硫盐碱杆菌属(Desulfonatronum)、丰祐菌科(Opitutaceae)、肿块芽孢杆菌属(Tuberibacillus)、芽孢杆菌属、短芽孢杆菌属、甲基杆菌属或氨基酸球菌属。

本发明还提供了效应蛋白(例如Cpf1)，包括来自于来自下项的生物体的效应蛋白(例如Cpf1)：变异链球菌(S.mutans)、无乳链球菌、似马链球菌(S.equisimilis)、血链球菌(S.sanguinis)、肺炎链球菌；空肠弯曲杆菌(C.jejuni)、大肠弯曲杆菌；N.salsuginis、N.tergarcus；耳葡萄球菌(S.auricularis)、肉葡萄球菌(S.carnosus)；脑膜炎奈瑟氏菌(N.meningitides)、淋病奈瑟氏菌(N.gonorrhoeae)；单核增生李斯特菌、伊氏李斯特菌(L.ivanovii)；肉毒梭菌(C.botulinum)、艰难梭菌、破伤风梭菌(C.tetani)、索氏梭菌(C.sordellii)。

效应蛋白可以包括嵌合效应蛋白，该嵌合效应蛋白包含来自第一效应蛋白(例如Cpf1)直向同源物的第一片段和来自第二效应蛋白(例如Cpf1)直向同源物的第二片段，并且其中第一效应蛋白直向同源物和第二效应蛋白直向同源物是不同的。第一效应蛋白(例如Cpf1)直向同源物和第二效应蛋白(例如Cpf1) 直向同源物中的至少一者可以包括来自于包括下项的生物体的效应蛋白(例如Cpf1)：链球菌属、弯曲杆菌属、Nitratifractor、葡萄球菌属、细小棒菌属、罗氏菌属、奈瑟氏菌属、葡糖醋杆菌属、固氮螺菌属、Sphaerochaeta、乳酸杆菌属、真细菌属、棒状杆菌属、肉杆菌属、红细菌属、李斯特菌属、帕鲁迪菌属、梭菌属、毛螺旋菌科、Clostridiaridium、纤毛菌属、弗朗西丝菌属、军团杆菌属、脂环酸芽孢杆菌属、甲烷嗜甲基菌、卟啉单胞菌属、普雷沃菌属、拟杆菌门、创伤球菌属、钩端螺旋体属、脱硫弧菌属、脱硫盐碱杆菌属、丰祐菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、甲基杆菌属或氨基酸球菌属；例如包含第一片段和第二片段的嵌合效应蛋白，其中第一片段和第二片段中的每个选自包括下项的生物体的 Cpf1：链球菌属、弯曲杆菌属、Nitratifractor、葡萄球菌属、细小棒菌属、罗氏菌属、奈瑟氏菌属、葡糖醋杆菌属、固氮螺菌属、Sphaerochaeta、乳酸杆菌属、真细菌属、棒状杆菌属、肉杆菌属、红细菌属、李斯特菌属、帕鲁迪菌属、梭菌属、毛螺旋菌科、Clostridiaridium、纤毛菌属、弗朗西丝菌属、军团杆菌属、脂环酸芽孢杆菌属、甲烷嗜甲基菌、卟啉单胞菌属、普雷沃菌属、拟杆菌门、创伤球菌属、钩端螺旋体属、脱硫弧菌属、脱硫盐碱杆菌属、丰祐菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、甲基杆菌属或氨基酸球菌属，其中第一片段和第二片段并非来自相同细菌；例如，包含第一片段和第二片段的嵌合效应蛋白，其中第一片段和第二片段中的每个选自下项的Cpf1：变异链球菌、无乳链球菌、似马链球菌、血链球菌、肺炎链球菌；空肠弯曲杆菌、大肠弯曲杆菌；N.salsuginis、N.tergarcus；耳葡萄球菌、肉葡萄球菌；脑膜炎奈瑟氏菌、淋病奈瑟氏菌；单核增生李斯特菌、伊氏李斯特菌；肉毒梭菌、艰难梭菌、破伤风梭菌、索氏梭菌；土拉热弗朗西丝菌1、易北普雷沃菌(Prevotella albensis)、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌(Butyrivibrio proteoclasticus)、佩莱格里尼菌科细菌(Peregrinibacteria bacterium) GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属(Smithella)某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌科细菌MA2020、候选白蚁甲烷枝原体(Candidatus Methanoplasma termitum)、挑剔真细菌(Eubacterium eligens)、牛莫拉氏菌(Moraxella bovoculi)237、稻田钩端螺旋体(Leptospira inadai)、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌(Porphyromonascrevioricanis)3、解糖胨普雷沃菌和猕猴卟啉单胞菌(Porphyromonas macacae)，其中第一片段和第二片段并非来自相同细菌。

在本发明的优选实施例中，效应蛋白来源于Cpf1座位(在此此类效应蛋白也称之为“Cpf1p”)，例如 Cpf1蛋白(并且此类效应蛋白或Cpf1蛋白或来源于Cpf1座位的蛋白质也称之为“CRISPR酶”)。Cpf1座位包括但不限于图64中列出的细菌物种的Cpf1座位。在一个更优选实施例中，Cpf1p来源于选自下项的细菌物种：土拉热弗朗西丝菌1、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌科细菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌和猕猴卟啉单胞菌。在某些实施例中，Cpf1p来源于选自氨基酸球菌属某种BV3L6、毛螺旋菌科细菌MA2020的细菌物种。在某些实施例中，效应蛋白来源于土拉热弗朗西丝菌1的亚种，包括但不限于土拉热弗朗西丝菌新杀手(Novicida)亚种。

在本发明的另外的实施例中，原型间隔区邻近基序(PAM)或PAM-样基序引导效应蛋白复合物与感兴趣的靶座位的结合。在本发明的一个优选实施例中，PAM是5'TTN，其中N是A/C/G或T并且效应蛋白是 FnCpf1p。在本发明的另一个优选实施例中，PAM是5'TTTV，其中V是A/C或G并且效应蛋白是AsCpf1、 LbCpf1或PaCpf1p。在某些实施例中，PAM是5'TTN，其中N是A/C/G或T，效应蛋白是FnCpf1p，并且PAM 位于原型间隔区的5'端的上游。在本发明的某些实施例中，PAM是5'CTA，其中效应蛋白是FnCpf1p，并且 PAM位于原型间隔区或靶座位的5'端的上游。在优选实施例中，本发明提供了一种用于RNA指导的基因组编辑核酸酶的扩大的靶向范围，其中Cpf1家族的富含T的PAM允许对富含AT基因组的靶向和编辑。

在某些实施例中，CRISPR酶被工程化并且可以包含降低或消除核酸酶活性的一个或多个突变。 FnCpf1p RuvC结构域中的氨基酸位置包括但不限于D917A、E1006A、E1028A、D1227A、D1255A、N1257A、 D917A、E1006A、E1028A、D1227A、D1255A和N1257A。申请人还鉴定了与PD-(D/E)XK核酸酶超家族和 HincII内切核酸酶样最类似的推定的第二核酸酶结构域。在此推定的核酸酶结构域中产生的大幅度降低核酸酶活性的点突变包括但不限于N580A、N584A、T587A、W609A、D610A、K613A、E614A、D616A、 K624A、D625A、K627A和Y629A。在一个优选实施例中，FnCpf1p RuvC结构域中的突变是D917A或E1006A，其中D917A或E1006A突变使FnCpf1效应蛋白的DNA切割活性完全失活。在另一个实施例中，FnCpf1p RuvC 结构域中的突变是D1255A，其中突变的FnCpf1效应蛋白具有明显降低的核溶解活性。

AsCpf1p RuvC结构域中的氨基酸位置包括但不限于908、993和1263。在一个优选实施例中，AsCpf1p RuvC结构域中的突变是D908A、E993A和D1263A，其中D908A、E993A和D1263A突变使AsCpf1效应蛋白的DNA切割活性完全失活。LbCpf1p RuvC结构域中的氨基酸位置包括但不限于832、947或1180。在一个优选实施例中，LbCpf1p RuvC结构域中的突变是LbD832A、E925A、D947A或D1180A，其中LbD832A、E925A、 D947A或D1180A突变使LbCpf1效应蛋白的DNA切割活性完全失活。

突变还可以在邻近残基处，例如在靠近以上指出的参与核酸酶活性的那些的氨基酸处形成。在一些实施例中，仅RuvC结构域是失活的，并且在其他实施例中，另一推定的核酸酶结构域是失活的，其中效应蛋白复合物充当切口酶并且仅切割一条DNA链。在一个优选实施例中，其他推定的核酸酶结构域是HincII 样内切核酸酶结构域。在一些实施例中，使用两种FnCpf1、AsCpf1或LbCpf1变体(各自不同的切口酶)来增加特异性，使用两种切口酶变体来切割靶标处的DNA(其中两种切口酶切割DNA链，同时使脱靶修饰最小化或消除，其中仅一条DNA链被切割并且随后进行修复)。在优选实施例中，Cpf1效应蛋白以包含两个Cpf1效应蛋白分子的同源二聚体形式切割与感兴趣的靶座位相关联的或在该靶座位处的序列。在一个优选实施例中，同源二聚体可以包含在其对应RuvC结构域中含有不同的突变的两个Cpf1效应蛋白分子。

本发明涵盖使用两种或更多种切口酶的方法，具体地双或双重切口酶方法。在一些方面和实施例中，可以递送单一类型的FnCpf1、AsCpf1或LbCpf1切口酶，例如如在此所述的修饰的FnCpf1、AsCpf1或LbCpf1 或修饰的FnCpf1、AsCpf1或LbCpf1切口酶。这使得靶DNA由两种FnCpf1切口酶结合。此外，还设想的是可以使用不同的直向同源物，例如DNA的一条链(例如编码链)上的FnCpf1、AsCpf1或LbCpf1切口酶和非编码或相反DNA链上的直向同源物。直向同源物可以是但不限于Cas9切口酶诸如SaCas9切口酶或SpCas9 切口酶。可能有利的是使用需要不同PAM并且还可以具有不同指导要求的两种不同的直向同源物，由此允许使用者的更大程度的控制。在某些实施例中，DNA切割涉及至少四种类型的切口酶，其中每种类型被指导到不同的靶DNA序列，其中每对在一个DNA链中引入第一切口并且第二对在第二条DNA链中引入切口。在此类方法中，至少两对单链断裂被引入到靶DNA中，其中在引入第一对单链断裂和第二对单链断裂后，第一对单链断裂与第二对单链断裂之间的靶序列被切断。在某些实施例中，直向同源物中的一者或两者是可控的，例如是可诱导的。

在本发明的某些实施例中，指导RNA或成熟crRNA包含同向重复序列和指导序列或间隔区序列、基本上由或由同向重复序列和指导序列或间隔区序列组成。在某些实施例中，指导RNA或成熟crRNA包含连接至指导序列或间隔区序列的同向重复序列、基本上由或由该同向重复序列组成。在某些实施例中，指导 RNA或成熟crRNA包含19个核苷酸的部分同向重复序列，接着是20-30个核苷酸的指导序列或间隔区序列，有利地约20个核苷酸、23-25个核苷酸或24个核苷酸。在某些实施例中，效应蛋白是FnCpf1、AsCpf1或LbCpf1 效应蛋白并且需要至少16个核苷酸的指导序列以实现可检测的DNA切割并且需要最小17个核苷酸的指导序列以实现有效的体外DNA切割。在某些实施例中，同向重复序列位于指导序列或间隔区序列的上游(即 5’)。在一个优选的实施例中，FnCpf1、AsCpf1或LbCpf1指导RNA的种子序列(即为识别和/或杂交于靶座位处的序列所必不可少的序列)大约在指导序列或间隔区序列的5'端上的前5个核苷酸之内。

在本发明的优选实施例中，成熟crRNA包括茎环或优化的茎环结构或优化的二级结构。在优选实施例中，成熟crRNA在同向重复序列中包括茎环或优化的茎环结构，其中茎环或优化的茎环结构对切割活性是重要的。在某些实施例中，成熟crRNA优选包括单一茎环。在某些实施例中，同向重复序列优选包括单一茎环。在某些实施例中，效应蛋白复合物的切割活性通过引入影响茎环RNA双链体结构的突变来修饰。在优选实施例中，可以引入保持茎环的RNA双链体的突变，由此效应蛋白复合物的切割活性被保持。在其他优选实施例中，可以引入扰乱茎环的RNA双链体结构的突变，由此效应蛋白复合物的切割活性被完全废除。

在在此所述方法或组合物中的任一种中，本发明还提供了编码被密码子优化为在真核细胞或原核细胞中表达的效应蛋白的核苷酸序列。在本发明的一个实施例中，密码子优化的效应蛋白是FnCpf1p、AsCpf1 或LbCpf1并且是针对在真核细胞或生物体中的可操作性进行密码子优化，该真核细胞或生物体为例如如在此任何地方提到的此细胞或生物体，例如但不限于酵母细胞或哺乳动物细胞或生物体，包括小鼠细胞、大鼠细胞和人类细胞或非人类真核生物体，例如植物。

在本发明的某些实施例中，至少一个核定位信号(NLS)附接到编码Cpf1效应蛋白的核酸序列。在优选实施例中，至少一个或多个C末端或N末端的NLS被附接(并且因此一种或多种核酸分子编码Cpf1效应蛋白可以包括编码一个或多个NLS，使得表达的产物具有附接或连接的一个或多个NLS)。在一个优选实施例中，C末端的NLS被附接以用于真核细胞优选人类细胞中的最佳表达和核靶向。在一个优选实施例中，密码子优化的效应蛋白是FnCpf1p、AsCpf1或LbCpf1并且指导RNA的间隔区长度为从15至35个核苷酸。在某些实施例中，指导RNA的间隔区长度为至少16个核苷酸，诸如至少17个核苷酸。在某些实施例中，间隔区长度为从15至17个核苷酸、从17至20个核苷酸、从20至24个核苷酸，例如20、21、22、23或24个核苷酸、从23至25个核苷酸，例如23、24或25个核苷酸、从24至27个核苷酸、从27-30个核苷酸、从30-35个核苷酸或35个核苷酸或更长。在本发明的某些实施例中，密码子优化的效应蛋白是FnCpf1p并且指导RNA的同向重复序列长度为至少16个核苷酸。在某些实施例中，密码子优化的效应蛋白是FnCpf1p并且指导RNA的同向重复序列长度为从16至20个核苷酸，例如16、17、18、19或20个核苷酸。在某些优选实施例中，指导RNA 的同向重复长度为19个核苷酸。

本发明还涵盖用于递送多个核酸组分的方法，其中每个核酸组分对不同的感兴趣的靶座位具有特异性，从而修饰多个感兴趣的靶座位。复合物的核酸组分可以包含一个或多个蛋白质结合的RNA适配子。一个或多个适配子可以能够结合噬菌体外壳蛋白。噬菌体外壳蛋白可以选自下组，该组包括下项：Qβ、F2、 GA、fr、JP501、MS2、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、 NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。在一个优选实施例中，噬菌体外壳蛋白是MS2。本发明还提供了复合物的核酸组分，该核酸组分的长度为30或更多个、40或更多个，或50或更多个核苷酸。

本发明还涵盖具有细胞、组分和/或系统中存在的痕量阳离子的本发明的细胞、组分和/或系统。有利地，阳离子是镁，诸如Mg²⁺。阳离子可以痕量存在。对于阳离子(有利地是Mg²⁺)，优选的范围可以是约1mM至约15mM。对于基于人类的细胞、组分和/或系统，优选的浓度可以是约1mM，并且对于基于细菌的细胞、组分和/或系统，优选的浓度可以是约10mM至约15mM。参见，例如加西乌纳斯(Gasiunas) 等人，美国国家科学院院刊(PNAS)，2012年9月4日在线公开， www.pnas.org/cgi/doi/10.1073/pnas.1208507109.

因此，本发明的目的在于，在本发明内不涵盖任何先前已知的产品、制备该产品的过程或使用该产品的方法，使得申请人保留和在此披露放弃任何先前已知的产品、过程或方法的权利。进一步指出的是，在本发明的范围之内，本发明并非旨在涵盖任何产品、过程或该产品的制备或使用该产品的方法，其不符合USPTO(35U.S.C.§112，第一段)或EPO(EPC第83条)的书面说明和实施要求，使得申请人保留和在此披露放弃任何先前所述的产品、制备该产品的过程或使用该产品的方法的权利。可能有利的是在本发明实践中遵照EPC第53条(c)和EPC规则28(b)和(c)。在此没任何东西被解释为约定的。

指出的是，在本披露中并且特别是在本权利要求书和/或段落中，术语诸如“包括(comprises)”、“包括(comprised)”、“包括(comprising)”等可以具有在美国专利法中属于它的含义；例如，它们可以意指 “包括(includes)”、“包括(included)”、"包括(including)”等；并且这些术语诸如“基本上由......组成 (consisting essentiallyof)”和“基本上由......组成(consists essentially of)”具有在美国专利法中归于它们的含义。

这些和其他实施例披露于以下详细说明中或根据其是清楚的并且由其涵盖。

附图简述

本发明的新颖特征在所附权利要求书中具体阐述。通过参考对说明性实施例进行阐述的以下详细说明，将获得对本发明的特征和优点的更好理解，在这些实施例中利用了本发明的原理，并且在这些附图中：

图1A-1B描绘了CRISPR-Cas系统的新分类。第1类包括多亚基crRNA-效应子复合物(Cascade)并且第2类包括单亚基crRNA-效应子复合物(Cas9样)。

图2提供了CRISPR-Cas的分子组构。

图3A-3D提供了I型和III型效应复合物的结构：共同的体系结构/共同的祖先，尽管存在广泛的序列趋异性。

图4示出了作为以RNA识别基序(RRM)为中心的系统的CRISPR-Cas。

图5A-5D示出了Cas1系统发育，其中自适应模块和crRNA-效应子模块的重组显示出CRISPR-Cas进化的主要方面。

图6示出了CRISPR-Cas种群调查，具体地是CRISPR-Cas型/亚型在古生菌和细菌之中的分布。

图7描绘了用于鉴定Cas候选物的流程。

图8A-8D描绘了第2类系统的完整座位的组构。

图9A-9B描绘了C2c1邻近群体。

图10A-10C描绘了Cas1树。

图11A-11B描绘了第2类家族的结构域组构。

图12A-12B描绘了第2类蛋白质(SEQ ID NO 246-428，分别按出现的顺序)的TnpB同源区。

图13A-13B描绘了C2c2邻近群体。

图14A-14E描绘了C2c2家族(SEQ ID NO 429-1032，分别按出现的顺序)中的HEPNRxxxxH基序。

图15描绘了C2C1：1.酸土脂环酸芽孢杆菌ATCC 49025(SEQ ID NO 1034-1037，分别按出现的顺序)。

图16描绘了C2C1：4.thiodismutans脱硫盐碱杆菌菌株MLF-1(SEQ ID NO 1038-1041，分别按出现的顺序)。

图17描绘了C2C1：5.丰祐菌科细菌TAV5(SEQ ID NO 1042-1045，分别按出现的顺序)。

图18描绘了C2C1：7.嗜热淀粉芽孢杆菌菌株B4166(SEQ ID NO 1046-1049，分别按出现的顺序)。

图19描绘了C2C1：9.芽胞杆菌属某种NSP2.1(SEQ ID NO 1050-1053，分别按出现的顺序)。

图20描绘了C2C2：1.毛螺旋菌科细菌MA2020(SEQ ID NO 1054-1057，分别按出现的顺序)。

图21描绘了C2C2：2.毛螺旋菌科细菌NK4A179(SEQ ID NO 1058-1064，分别按出现的顺序)。

图22描绘了C2C2：3.嗜胺梭菌([Clostridium]aminophilum)DSM 10710(SEQ IDNO 1065-1068，分别按出现的顺序)。

图23描绘了C2C2：4.毛螺旋菌科细菌NK4A144(SEQ ID NO 1069和1070，分别按出现的顺序)。

图24描绘了C2C2：5.鸡肉杆菌(Carnobacterium gallinarum)DSM 4847(SEQ IDNO 1071-1074，分别按出现的顺序)。

图25描绘了C2C2：6.鸡肉杆菌(Carnobacterium gallinarum)DSM 4847(SEQ IDNO 1075-1081，分别按出现的顺序)。

图26描绘了C2C2：7.propionicigenes帕鲁迪菌WB4(SEQ ID NO:1082)。

图27描绘了C2C2：8.血清型斯氏李斯特菌1/2b(SEQ ID NO 1083-1086，分别按出现的顺序)。

图28描绘了C2C2：9.威氏李斯特菌FSL R9-0317(SEQ ID NO:1087)。

图29描绘了C2C2：10.李斯特菌属细菌FSL M6-0635(SEQ ID NO 1088和1091，分别按出现的顺序)。

图30描绘了C2C2：11.韦德(wadei)纤毛菌F0279(SEQ ID NO:1092)。

图31描绘了C2C2：12.韦德纤毛菌F0279(SEQ ID NO 1093-1099，分别按出现的顺序)。

图32描绘了C2C2：14.沙氏(shahii)纤毛菌属DSM 19757(SEQ ID NO 1100-1103，分别按出现的顺序)。

图33描绘了C2C2：15.荚膜红细菌SB 1003(SEQ ID NO 1104和1105，分别按出现的顺序)。

图34描绘了C2C2：16.荚膜红细菌R121(SEQ ID NO 1106和1107，分别按出现的顺序)。

图35描绘了C2C2：17.荚膜红细菌R121(SEQ ID NO 1108和1109，分别按出现的顺序)。

图36描绘了DR树。

图37描绘了C2C2树。

图38A-38BB示出了Cas-Cpf1直向同源物(SEQ ID NO 1033和1110-1166，分别按出现的顺序)的序列比对。

图39A-39B示出了Cpf1座位比对的综述。

图40A-40X示出了PACYC184 FnCpf1(PY001)载体构建体(SEQ ID NO:1167和SEQID NO 1168-1189，分别按出现的顺序)。

图41A-41I示出了人源化PaCpf1的序列，其中核苷酸序列为SEQ ID NO:1190并且蛋白质序列为SEQ ID NO:1191。

图42描绘了PAM激发测定。

图43描绘了内源性FnCpf1座位的示意图。pY0001是具有部分FnCpf1座位的pACY184骨架(来自 NEB)。FnCpf1座位被PCR扩增成三个片段并且使用吉普森(Gibson)组件将这些片段克隆到Xba1和Hind3 切割的pACYC184中。PY0001含有从255bp的乙酰转移酶3'序列至第四间隔区序列的内源性FnCpf1座位。仅间隔区1-3是潜在地具有活性的，因为间隔区4不再侧接同向重复序列。

图44描绘了PAM文库，其按出现的顺序分别披露了SEQ ID NO 1192-1195。两个PAM文库(左和右) 均处于pUC19中。左PAM文库的复杂度为48～65k并且右PAM文库的复杂度为47～16k。两个文库被制备有>500的表现度。

图45A-45E描绘了FnCpf1 PAM筛选计算分析。在对筛选DNA测序之后，提取出对应于左PAM 或右PAM的区。对于每个样品，将测序文库中存在的PAM数目与文库中预期的PAM数目(对于左文库为4^8，对于右文库为4^7)进行比较。图45A描绘了左文库示出PAM缺失。为了量化此缺失，计算了富集比。针对两种条件(对照pACYC或含有FnCpf1的pACYC)，根据

针对文库中的每种PAM 计算该比率。绘制的分布显示在对照样品中几乎没有富集并且在两种生物复制本(bioreps)中有富集。图 45B-45D描绘了PAM比率的分布。图45E显示，收集比率为8之上的PAM，并且绘制频率分布，揭示出5′YYN PAM。

图46描绘了tolerances弗朗西丝菌Cpf1座位的RNA测序(RNAseq)分析，该分析显示CRISPR 座位被激活表达。除Cpf1和Cas基因之外，两种小的非编码转录物被高度转录，这两种非编码转录物可能是推定的tracrRNA。CRISPR阵列也被表达。两种推定的tracrRNA和CRISPR阵列以与Cpf1和Cas基因相同的方向进行转录。在此通过RNA测序实验鉴定的所有RNA转录物映射到座位。在对FnCpf1座位进一步评价之后，申请人推断通过Cpf1效应蛋白复合物进行靶DNA切割不需要tracrRNA。申请人确定仅包含Cpf1效应蛋白和crRNA(包含同向重复序列和指导序列的指导RNA)的Cpf1效应蛋白复合物足以切割靶DNA。

图47描绘了放大的Cpf1 CRISPR阵列。可以鉴定出许多不同的短转录物。在此绘图中，将所有鉴定的RNA转录物映射到Cpf1座位。

图48描绘了在选择小于85个核苷酸长的转录物之后鉴定出的两种推定的tracrRNA。

图49描绘了放大的推定的tracrRNA 1(SEQ ID NO:1196)和CRISPR阵列。

图50描绘了放大的推定的tracrRNA 2，其按出现的顺序分别披露了SEQ ID NO1197-1203。

图51描绘了推定的crRNA序列(重复序列为蓝色，间隔区为黑色)(SEQ ID NO 1205和1206，分别按出现的顺序)。

图52示出了用于在体内证实预测的FnCpf1 PAM的测定的示意图。

图53示出了用编码具有5′TTN PAM的内源性间隔区1的pUC19转化的携带FnCpf1座位的细胞和对照细胞。

图54示出了指明FnCpf1座位中的推定的tracrRNA序列位置、crRNA(SEQ ID NO:1207)以及 pUC原型间隔区载体的示意图。

图55是示出了在细胞裂解物中孵育的具有TTa PAM的PCR片段和原型间隔区1序列的凝胶。

图56是示出了在细胞裂解物中孵育的具有不同的PAM的pUC-间隔区1的凝胶。

图57是示出了在细胞裂解物中孵育之后的BasI消化的凝胶。

图58是示出了三种推定的crRNA序列(SEQ ID NO:1208)的消化结果的凝胶。

图59是示出了对针对含有靶位点：5'-TTAgagaagtcatttaataaggccactgttaaaa-3'的靶DNA片段(SEQ ID NO:1209)的不同长度的间隔区的测试的凝胶。结果显示在体外crRNA1-7介导了使用FnCpf1对靶DNA 的成功切割。crRNA 8-13不有利于靶DNA的切割。分别按出现的顺序披露了SEQ ID NO 1210-1248。

图60是指明了最小FnCpf1座位的示意图。

图61是指明了最小Cpf1指导序列(SEQ ID NO:1249)的示意图。

图62A-62E描绘了PaCpf1 PAM筛选计算分析。在对筛选DNA测序之后，提取出对应于左PAM 或右PAM的区。对于每个样品，将测序文库中存在的PAM数目与文库中预期的PAM数目(4^7)进行比较。 (图62A)左文库显示出非常轻微的PAM缺失。为了量化此缺失，计算了富集比。针对两种条件(对照pACYC 或含有PaCpf1的pACYC)，根据以下公式针对文库中的每种PAM计算该比率：

绘制的分布显示在对照样品中几乎没有富集并且在两种生物复制本中有富集。图62B-62D描绘了PAM比率的分布。图62E显示，收集比率为4.5之上的所有PAM，并且绘制频率分布，揭示出5'TTTV PAM，其中V 是A或C或G。

图63示出了被描绘为CBh-NLS-huPaCpf1-NLS-3xHA-pA的人类密码子优化的PaCpf1序列的载体图谱。

图64A-64B示出了不同细菌中的51Cpf1座位的系统发育树。突出显示框指示基因参考号： 1-17。使用预测的成熟crRNA测试加框/编号的直向同源物在体外的切割活性；在其编号周围具有框的直向同源物在体外测定中显示出活性。

图65A-65H显示出具有3849个核苷酸的基因长度的毛螺旋菌科细菌MC2017 1Cpf1(图64中的参考号3)的人类密码子优化序列的细节。图65A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI 被认为是良好的。图65B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图65C：GC 含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图65D：限制性内切酶和顺式作用元件。图65E：移除重复序列。图65F-G：优化序列(优化序列长度：3849，GC％ 54.70)(SEQ ID NO:1250)。图65H：蛋白质序列(SEQ ID NO:1251)。

图66A-66H显示出具有3873个核苷酸的基因长度的解朊丁酸弧菌Cpf1(图64中的参考号4)的人类密码子优化序列的细节。图66A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图66B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图66C：GC含量调整。 GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图66D：限制性内切酶和顺式作用元件。图66E：移除重复序列。图66F-G：优化序列(优化序列长度：3873，GC％54.05)(SEQ ID NO:1252)。图66H：蛋白质序列(SEQ ID NO:1253)。

图67A-67H显示出具有4581个核苷酸的基因长度的佩莱格里尼菌科细菌 GW2011_GWA2_33_10Cpf1(图64中的参考号5)的人类密码子优化序列的细节。图67A：密码子适应指数 (CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0 CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图67B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图67C：GC含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp 窗口中的％GC含量的峰已被移除。图67D：限制性内切酶和顺式作用元件。图67E：移除重复序列。图67F-G：优化序列(优化序列长度：4581，GC％50.81)(SEQ ID NO:1254)。图67H：蛋白质序列(SEQ ID NO:1255)。

图68A-68H显示出具有4206个核苷酸的基因长度的Parcubacteria细菌GW2011_GWC2_44_17 Cpf1(图64中的参考号6)的人类密码子优化序列的细节。图68A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图68B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为 100。图68C：GC含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图68D：限制性内切酶和顺式作用元件。图68E：移除重复序列。图68F-G：优化序列(优化序列长度：4206，GC％52.17)(SEQ ID NO:1256)。图68H：蛋白质序列(SEQ ID NO:1257)。

图69A-69H显示出具有3900个核苷酸的基因长度的密斯氏菌属某种SCADC Cpf1(图64中的参考号7)的人类密码子优化序列的细节。图69A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI 被认为是良好的。图69B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图69C：GC 含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图69D：限制性内切酶和顺式作用元件。图69E：移除重复序列。图69F-G：优化序列(优化序列长度：3900，GC％ 51.56)(SEQ ID NO:1258)。图69H：蛋白质序列(SEQ ID NO:1259)。

图70A-70H显示出具有4071个核苷酸的基因长度的氨基酸球菌属某种BV3L6 Cpf1(图64中的参考号8)的人类密码子优化序列的细节。图70A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI 被认为是良好的。图70B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图70C：GC 含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图70D：限制性内切酶和顺式作用元件。图70E：移除重复序列。图70F-G：优化序列(优化序列长度：4071，GC％ 54.89)(SEQ ID NO:1260)。图70H：蛋白质序列(SEQ ID NO:1261)。

图71A-71H显示出具有3768个核苷酸的基因长度的毛螺旋菌科细菌MA2020 Cpf1(图64中的参考号9)的人类密码子优化序列的细节。图71A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI 被认为是良好的。图71B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图71C：GC 含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图71D：限制性内切酶和顺式作用元件。图71E：移除重复序列。图71F-G：优化序列(优化序列长度：3768，GC％ 51.53)(SEQ ID NO:1262)。图71H：蛋白质序列(SEQ ID NO:1263)。

图72A-72H显示出具有3864个核苷酸的基因长度的候选白蚁甲烷枝原体Cpf1(图64中的参考号10)的人类密码子优化序列的细节。图72A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图72B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图72C：GC含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图72D：限制性内切酶和顺式作用元件。图72E：移除重复序列。图72F-G：优化序列(优化序列长度：3864，GC％52.67)(SEQ ID NO:1264)。图72H：蛋白质序列(SEQ ID NO:1265)。

图73A-73H显示出具有3996个核苷酸的基因长度的挑剔真细菌Cpf1(图64中的参考号11)的人类密码子优化序列的细节。图73A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图73B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图73C：GC含量调整。 GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图73D：限制性内切酶和顺式作用元件。图73E：移除重复序列。图73F-G：优化序列(优化序列长度：3996，GC％50.52)(SEQ ID NO:1266)。图73H：蛋白质序列(SEQ ID NO:1267)。

图74A-74H显示出具有4269个核苷酸的基因长度的牛莫拉氏菌237Cpf1(图64中的参考号12) 的人类密码子优化序列的细节。图74A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图74B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图74C：GC含量调整。 GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图74D：限制性内切酶和顺式作用元件。图74E：移除重复序列。图74F-G：优化序列(优化序列长度：4269，GC％53.58)(SEQ ID NO:1268)。图74H：蛋白质序列(SEQ ID NO:1269)。

图75A-75H显示出具有3939个核苷酸的基因长度的稻田钩端螺旋体Cpf1(图64中的参考号13) 的人类密码子优化序列的细节。图75A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图75B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图75C：GC含量调整。 GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图75D：限制性内切酶和顺式作用元件。图75E：移除重复序列。图75F-G：优化序列(优化序列长度：3939，GC％51.30) (SEQ ID NO:1270)。图75H：蛋白质序列(SEQ ID NO:1271)。

图76A-76H显示出具有3834个核苷酸的基因长度的毛螺旋菌科细菌ND2006 Cpf1(图64中的参考号14)的人类密码子优化序列的细节。图76A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI 被认为是良好的。图76B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图76C：GC 含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图76D：限制性内切酶和顺式作用元件。图76E：移除重复序列。图76F-G：优化序列(优化序列长度：3834，GC％ 51.06)(SEQ ID NO:1272)。图76H：蛋白质序列(SEQ ID NO:1273)。

图77A-77H显示出具有3930个核苷酸的基因长度的狗口腔卟啉单胞菌3Cpf1(图64中的参考号 15)的人类密码子优化序列的细节。图77A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图77B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图77C：GC含量调整。GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图77D：限制性内切酶和顺式作用元件。图77E：移除重复序列。图77F-G：优化序列(优化序列长度：3930，GC％54.42)(SEQ ID NO:1274)。图77H：蛋白质序列(SEQ ID NO:1275)。

图78A-78H显示出具有4119个核苷酸的基因长度的解糖胨普雷沃菌Cpf1(图64中的参考号16) 的人类密码子优化序列的细节。图78A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图78B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图78C：GC含量调整。 GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图78D：限制性内切酶和顺式作用元件。图78E：移除重复序列。图78F-G：优化序列(优化序列长度：4119，GC％51.88) (SEQ ID NO:1276)。图78H：蛋白质序列(SEQ ID NO:1277)。

图79A-79H显示出具有3888个核苷酸的基因长度的猕猴卟啉单胞菌Cpf1(图64中的参考号17) 的人类密码子优化序列的细节。图79A：密码子适应指数(CAI)。密码子使用频率沿基因序列长度的分布。就高基因表达水平而言，在所希望的表达生物体中1.0CAI被认为是完美的，并且>0.8的CAI被认为是良好的。图79B：最佳的密码子的频率(FOP)。在计算的密码子品质组中的密码子分布百分比。该值对于在所希望的表达生物体中针对给定氨基酸具有最大使用频率的密码子被设定为100。图79C：GC含量调整。 GC含量的理想百分比范围为介于30％-70％之间。60bp窗口中的％GC含量的峰已被移除。图79D：限制性内切酶和顺式作用元件。图79E：移除重复序列。图79F-G：优化序列(优化序列长度：3888，GC％53.26) (SEQ ID NO:1278)。图79H：蛋白质序列(SEQ ID NO:1279)。

图80A-80I示出了每个直向同源物(是指图64中的编码参考号3-17)的同向重复(DR)序列以及它们的预测折叠结构。分别按出现的顺序披露了SEQ ID NO 1280-1313。

图81示出了人类Emx1座位的PCR扩增子的切割。分别按出现的顺序披露了SEQ IDNO 1314-1318。

图82A-82B示出了5'DR的截短对切割活性的影响。图82A示出了其中指明了使用5DR截短物的切割结果的凝胶。图82B示出了其中crDNAΔDR5扰乱5'端的茎环的图。这指明5'端处的茎环是为切割活性所必需的。分别按出现的顺序披露了SEQ ID NO 1319-1324。

图83示出了crRNA-DNA靶错配对切割效率的影响。分别按出现的顺序披露了SEQID NO 1325-1335。

图84示出了使用纯化的弗朗西丝菌属Cpf1和普雷沃菌属Cpf1的DNA切割。披露了SEQ ID NO: 1336。

图85A-85B示出了DR二级结构的图。图85A示出了FnCpf1 DR二级结构(SEQ ID NO:1337) (茎环突出显示)。图85B示出了PaCpf1 DR二级结构(SEQ ID NO:1338)(茎环突出显示，除了环区中的单个碱基不同之外都相同)。

图86示出了FnCp1座位的RNA测序分析的另外描绘。

图87A-87B示出了成熟crRNA序列的示意图。图87A示出了FnCpf1的成熟crRNA序列。图87B 示出了PaCpf1的成熟crRNA序列。分别按出现的顺序披露了SEQ ID NO 1339-1342。

图88示出了使用人类密码子优化的新杀手弗朗西丝菌FnCpf1的DNA切割。上条带对应于未切割的全长片段(606bp)。预期的～345bp和～261bp大小的切割产物由三角形指示。

图89示出了体外直向同源物测定，展示了Cpf1直向同源物进行的切割。

图90A-90C示出了来自体外切割测定的计算得出的PAM。

图91示出了为交错方式的Cpf1切割，产生了5'突出端。分别按出现的顺序披露了SEQ ID NO 1343-1345。

图92示出了间隔区长度对切割的影响。分别按出现的顺序披露了SEQ ID NO1346-1352。

图93示出了HEK293T细胞中FnCpf1介导的indel的SURVEYOR数据。

图94A-94F示出了与野生型FnCpf1座位的转录物的加工相比的在缺失FnCpf1座位部分时的转录物的加工。图94B、94D和94F对加工的间隔区进行放大。分别按出现的顺序披露了SEQ ID NO 1353-1401。

图95A-95E显示土拉热弗朗西丝菌新杀手亚种U112 Cpf1 CRISPR座位提供了针对含有侧接 5'-TTN PAM的原型间隔区的质粒的转化的免疫。图95A示出了土拉热弗朗西丝菌新杀手亚种U112 (NC_008601)中发现的两种CRISPR座位的组构。对FnCas9和FnCpf1的结构域组构进行了比较。图95B提供了用于发现PAM位置和同一性的质粒缺失测定的示意性说明。用含有侧接随机化5'或3'PAM序列的匹配原型间隔区的质粒的文库转化具有异源FnCpf1座位质粒(pFnCpf1)或空载体对照的感受态大肠杆菌并且使用抗生素进行选择以缺失携带成功靶向的PAM的质粒。提取出来自存活群落的质粒并且对这些质粒进行测序以确定缺失的PAM序列。图95C-95D示出了如通过质粒缺失测定确定的FnCpf1 PAM的序列图标。位置处的字母高度由信息量来确定；误差条显示出的95％贝叶斯(Bayesian)置信区间。图95E显示具有pFnCpf1 的大肠杆菌对携带5'-TTN PAM的质粒展示出稳健的干扰(n＝3，误差条表示平均值±平均数标准误差 (S.E.M.))。

图96A-96C显示大肠杆菌中FnCpf1和CRISPR阵列的异源表达足以介导质粒DNA干扰和 crRNA成熟。土拉热弗朗西丝菌新杀手亚种U112的小RNA测序(图96A)揭示出FnCpf1CRISPR阵列的转录和加工。成熟crRNA开始于19个核苷酸的部分同向重复序列，接着是23-25个核苷酸的间隔区序列。用携带合成启动子驱动的FnCpf1和CRISPR阵列的质粒转化的大肠杆菌的小RNA测序(图96B)显示crRNA加工与Cas基因以及FnCpf1座位中其他序列元件无关。图96C描绘了具有FnCpf1 CRISPR座位的不同截短物的大肠杆菌并且显示仅FnCpf1和CRISPR阵列是为质粒DNA干扰所需要的(n＝3，误差条显示平均值±平均数标准误差)。披露了SEQ ID NO:1580。

图97A-97E显示FnCpf1通过crRNA来进行靶向以切割体外DNA。图97A是FnCpf1crRNA-DNA 靶向复合物的示意图。切割位点由红色箭头指示(SEQ ID NO 1402和1403，分别按出现顺序披露)。FnCpf1 和crRNA以crRNA和Mg²⁺依赖性方式单独介导RNA指导的靶DNA切割(图97B)。图97C显示FnCpf1切割直链DNA和超螺旋DNA两者。图97D显示来自FnCpf1消化的靶标的桑格(Sanger)测序痕迹显示出交错的突出端(SEQ ID NO 1404和1406，分别按出现的顺序披露)。非模板的另外腺嘌呤(指代为N)的添加是测序中使用的聚合酶的伪影(artifact)。反向引物读取表示为反向互补序列以有助于可视化。图97E显示切割依赖于5'PAM处的碱基配对。FnCpf1仅可识别正确地沃森-克里克配对(Watson-Crick paired)的DNA中的 PAM。

图98A-98B显示FnCpf1的C末端RuvC结构域中的催化残基是为DNA切割所需的。图98A示出了 FnCpf1结构域结构，其中RuvC催化残基被突出显示。基于与嗜热栖热菌(Thermus thermophilus)RuvC(PDB ID:4EP5)的序列同源性来鉴定催化残基。图98B描绘了天然型TBE PAGE凝胶，其显示FnCpf1的RuvC催化残基突变(D917A和E1006A)和SpCas9的RuvC催化残基突变(D10A)阻止双链DNA的切割。使TBE- 尿素PAGE凝胶变性显示FnCpf1的RuvC催化残基突变(D917A和E1006A)阻止DNA切口产生活性，而 SpCas9的RuvC催化残基突变(D10A)使得靶位点产生切口。

图99A-99E示出了体外FnCpf1核酸酶活性的crRNA要求。图99A示出了间隔区长度对FnCpf1切割活性的影响。图99B示出了crRNA-靶DNA错配对FnCpf1切割活性的影响。图99C展示了同向重复序列长度对FnCpf1切割活性的影响。图99D显示FnCpf1切割活性取决于同向重复序列RNA结构的茎中的二级结构。图99E显示FnCpf1切割活性不受环突变影响，而是对同向重复序列的3'-大部分碱基中的突变具有敏感性。分别按出现的顺序披露了SEQ ID NO 1407-1433。

图100A-100F提供了Cpf1家族蛋白多样性和功能的分析。图100A-100B示出了针对功能分析所选择的16种Cpf1直向同源物的系统发育比较。保守序列以深灰色示出。突出显示了RuvC结构域、桥螺旋 (bridge helix)和锌指。图100C示出了来自16种Cpf1家族蛋白的同向重复序列的比对。在crRNA成熟后移除的序列为灰色。非保守序列为红色。茎双链体被突出显示为灰色。图100D描绘了成熟crRNA中的同向重复序列的RNAfold(劳伦兹(Lorenz)等人，2011)预测。示出了对FnCpf1以及三个保守性较低的直向同源物的预测。图100E显示具有类似的同向重复序列的直向同源物crRNA能够与FnCpf1一起用于介导靶DNA 切割。图100F示出了使用含有随机化PAM侧接的原型间隔区的质粒文库的体外切割所鉴定的8种Cpf1家族蛋白的PAM序列。分别按出现的顺序披露了SEQ ID NO 1434-1453。

图101A-101E显示在人类细胞系中Cpf1介导稳健的基因组编辑。图101A是示出了各个Cpf1家族蛋白在使用CMV驱动的表达载体的HEK 293FT细胞中的表达的示意图(schemative)。使用含有融合至 crRNA序列的U6启动子的PCR片段，相应的crRNA被表达。使用Surveyor核酸酶测定或靶向深度测序来分析转染细胞。图101B(上面)描绘了DNMT1-靶向crRNA 3的序列，并且测序读取(下面)示出了代表性的indel。图101B分别按出现的顺序披露了SEQ ID NO 1454-1465。图101C提供了体外切割活性和体内切割活性的比较。DNMT1靶区进行PCR扩增并且使用基因组片段来测试Cpf1介导的切割。所有的8种Cpf1家族蛋白质示出了体外DNA切割(上面)。候选物7-AsCpf1和13-Lb3Cpf1促进人类细胞中的稳健的indel形成(底部)。图101D示出了人类DNMT1座位中的Cpf1和SpCas9靶序列(SEQ ID NO1466-1473，分别按出现的顺序披露)。图101E提供了Cpf1和SpCas9基因组编辑效率的比较。靶位点对应于图101D中所示的序列。

图102A-102D示出了用于鉴定FnCpf1 PAM的体外质粒缺失测定。(还参见图95)。图102A：用携带随机化5′PAM序列的质粒的文库对具有pFnCpf1的大肠杆菌的转化。质粒的亚群被缺失。绘图按排序后的顺序示出了缺失水平。缺失被测定为相比于pACYC184大肠杆菌对照的标准化丰度倍数比的负log₂。使用阈值为3.5以上的PAM来产生序列图标。图102B：用携带随机化3'PAM序列的质粒的文库对具有pFnCpf1 的大肠杆菌的转化。质粒的亚群被缺失。绘图按排序后的顺序示出了缺失水平。缺失被测定为相比于 pACYC184大肠杆菌对照的标准化丰度倍数比的负log₂并且使用阈值为3.5以上的PAM来产生序列图标。图 102C：携带随机化5'PAM序列的质粒的输入文库。绘图按排序后的顺序示出了缺失水平。缺失被测定为相比于pACYC184大肠杆菌对照的标准化丰度倍数比的负log₂。使用阈值为3.5以上的PAM来产生序列图标。图102D：超过5′PAM的2和3位置处的配对碱基组合的显著性阈值的独特PAM的数目。

图103A-103B示出了FnCpf1蛋白纯化。(还参见图97)。图103A描绘了FnCpf1的考马斯蓝 (Coomassie blue)染色的丙烯酰胺凝胶，其示出了分布式纯化。从Ni-NTA柱中洗脱出恰好高于160kD的条带，该带与MBP-FnCpf1融合物(189.7kD)的大小一致。在添加TEV蛋白酶之后，出现较低分子量的条带，该带与不含FnCpf1的147kD大小一致。图103B：fnCpf1的大小排阻凝胶过滤。FnCpf1在大约300kD大小(62.65mL)下洗脱出，表明Cpf1可能以二聚体存在于溶液中。图103C示出了用于校准Superdex 200柱的蛋白质标准物。BDex＝蓝葡聚糖(空隙体积)，Ald＝醛缩酶(158kD)，Ov＝卵白蛋白(44kD)，RibA ＝核糖核酸酶(13.7kD)，Apr＝抑肽酶(6.5kD)。图103D：Superdex 200柱的校准曲线。K_a被计算为(洗脱体积-空隙体积)/(几何柱体积-空隙体积)。对标准物进行绘图并且拟合成对数曲线。

图104A-104E示出了FnCpf1切割型式。(还参见图97)。来自FnCpf1消化的DNA靶的桑格测序痕迹显示出交错的突出端。非模板的另外腺嘌呤(指代为N)的添加是测序中使用的聚合酶的伪影。针对在原型间隔区1(图104A)、原型间隔区2(图104B)、原型间隔区3(图104C)和靶标DNMT1和EMX1(图 104D)情况下的不同TTN PAM示出了桑格痕迹。(-)链序列是反向互补的以示出上链序列。切割位点由红色三角形指示。较小的三角形指示推定的替代性切割位点。图104E示出了PAM-远端的crRNA-靶DNA错配对FnCpf1切割活性的影响。分别按出现的顺序披露了SEQ ID NO 1474-1494。

图105A-105B示出了FnCpf1(SEQ ID NO:1495)、AsCpf1(SEQ ID NO:1496)和LbCpf1(SEQ ID NO:1497)的氨基酸序列比对。(还参见图100)。保守的残基用红色背景突出显示并且保守的突变用轮廓和红色字体突出显示。比对上方(FnCpf1)和下方(LbCpf1)的二级结构预测被突出显示。α螺旋示出为波纹符号并且β链示出为短划线。图95A中鉴定的蛋白质结构域也被突出显示。

图106A-106D提供了对应于针对哺乳动物实验所选择的16种Cpf1家族蛋白的细菌基因组座位图谱。(还参见图100)。图106A-106D分别按出现的顺序披露了SEQ ID NO1498-1513。

图107A-107E示出了Cpf1家族蛋白的体外特性。图107A是用于使用Cpf1家族蛋白的体外PAM 筛选的示意图。通过各种Cpf1家族蛋白以及它们的相应crRNA切割具有随机化5′PAM序列的质粒的文库。纯化未切割的质粒DNA并且对其进行测序以鉴定缺失的特异性PAM基序。图107B指示了针对7-AsCpf1超过 5′PAM的2和3位置处的配对碱基组合的显著性阈值的独特序列的数目。图107C指示了针对13-LbCpf1超过5’ PAM的2、3和4位置处的三三碱基组合的显著性阈值的独特PAM的数目。图107D-107E D和E示出了来自 7-AsCpf1消化的靶标(图107D)和13-LbCpf1消化的靶标(图107E)的桑格测序痕迹并且显示出交错的突出端。非模板的另外腺嘌呤(指代为N)的添加是测序中使用的聚合酶的伪影。切割位点由红色三角形指示。较小的三角形指示推定的替代性切割位点。图107D-107E分别按出现的顺序披露了SEQ ID NO 1514-1519。

图108A-108F指示了附加座位处的人类细胞基因组编辑效率。Surveyor凝胶示出了对通过每种 Cpf1家族蛋白在DNMT1靶位点1(图108A)、2(图108B)和4(图108C)处实现的indel效率的量化。图 108A-108C指示了附加座位处的人类细胞基因组编辑效率和DNMT靶位点切割的桑格测序。Surveyor凝胶示出了对通过每种Cpf1家族蛋白在EMX1靶位点1(图108D)和2(图108E)处实现的indel效率的量化。AsCpf1 和LbCpf1与DNMT1靶位点2、3和4的indel分布(图108F)。青色条表示总的indel覆盖度；蓝色条表示indel 的3'端的分布。对每个靶标，PAM序列用红色表示并且靶序列用淡蓝色表示。

图109A-109C描绘了Cpf1核酸酶初级结构的计算分析，揭示了三个不同的区。第一是C末端 RuvC样结构域，其是仅功能表征的结构域。第二是N末端α-螺旋区并且第三是位于RuvC样结构域与α-螺旋区之间的混合的α区和β区。

图110A-110E描绘了AsCpf1 Rad50比对(PDB 4W9M)。分别按出现的顺序披露了SEQID NO 1520和1521。图110C描绘了AsCpf1 RuvC比对(PDB 4LD0)。分别按出现的顺序披露了SEQ ID NO 1522和 1523。图110D-110E描绘了AsCpf1和FnCpf1的比对，该比对鉴定出FnCpf1中的Rad50结构域。分别按出现的顺序披露了SEQ ID NO 1524和1525。

图111描绘了Rad50(4W9M)与DNA复合的结构。DNA相互作用残基是突出显示的(为红色)。

图112描绘了RuvC(4LD0)与霍利迪连接体(holiday junction)复合的结构。DNA相互作用残基以红色突出显示。

图113描绘了AsCpf1与位点特异性重组酶XerD的区比对的blast。XerD活性位点区是 LYWTGMR(SEQ ID NO:1)，其中R是催化残基。分别按出现的顺序披露了SEQ ID NO 1526-1527。

图114描绘了Cpf1直向同源物中保守的区(黄色框)并且虽然R不是保守的，但是高度保守的天冬氨酸(橙色框)恰好是该区的C末端，以及附近的具有绝对保守的精氨酸的保守区(蓝色框)。天冬氨酸是LbCpf1中的D732。分别按出现的顺序披露了SEQ ID NO 1204和1528-1579。

图115A示出了实验，其中在转染前24h，每24孔接种150,000个HEK293T细胞。使用Lipofectamin2000用400ng huAsCpf1质粒和100ng包含针对GRIN28的一个指导序列和以串联方式置于U6 启动子后面的针对EMX1的一个指导序列的串联(tandem)指导质粒转染细胞。转染后72h收获细胞并且使用SURVEYOR核酸酶测定来测定由串联指导序列介导的AsCpf1活性。

图115B展示出GRIN28和EMX1基因两者中的indel信息。

图116示出了在EDTA浓度增加(和Mg2+浓度降低)的情况下阵列的FnCpf1切割。缓冲液是20 mM TrisHCl pH 7(室温)，50mM KCl并且包括鼠类RNA酶抑制剂以防止RNA由于从蛋白质纯化留下的潜在痕量的非特异性RNA酶而降解。

在此的图仅是出于说明目的并且不一定按比例绘制。

发明详细说明

本申请描述了功能上不同于先前所述的CRISPR-Cas9系统的新型RNA指导的核酸内切酶(例如，Cpf1效应蛋白)并且因此在此与这些新型内切核酸酶相关联的元件术语相应地被修改。在此所述的Cpf1 相关CRISPR阵列被加工为成熟crRNA而不需要附加tracrRNA。在此所述的crRNA包含间隔区序列(或指导序列)和同向重复序列并且Cpf1p-crRNA复合物本身足以有效地切割靶DNA。在此所述的种子序列，例如 FnCpf1指导RNA的种子序列大约在间隔区序列(或指导序列)的5'端上的前5个核苷酸之内并且种子序列内的突变不利地影响Cpf1效应蛋白复合物的切割活性。

总的来说，CRISPR系统特征在于在靶序列的位点处促进CRISPR复合物形成的元件(也称之为内源性CRISPR系统情况下的原型间隔区)。在形成CRISPR复合物的情况下，“靶序列”是指指导序列被设计为所靶向的序列，例如与其具有互补性的序列，其中靶序列与指导序列之间的杂交促进CRISPR复合物的形成。指导序列通过其而与靶序列互补对切割活性是重要的部分在此称之为种子序列。靶序列可包括任何多核苷酸，诸如DNA或RNA多核苷酸并且包含在感兴趣的靶座位之内。在一些实施例中，靶序列位于细胞的核或细胞质中。在此所述的本发明涵盖第2类CRISPR-Cas系统的新型效应蛋白，其中Cas9是示例性效应蛋白并且因此本申请中用于描述新型效应蛋白的术语可以与用于描述CRISPR-Cas9系统的术语相关。

CRISPR-Cas座位具有超过50种的基因家族并且不存在严格的通用基因。因此，单一进化树是不可行的并且需要多分支方法来鉴定新家族。到目前为止，针对93种Cas蛋白存在395种表达谱的全面cas 基因鉴定。分类包括特征基因表达谱加上座位体系结构的特征。新的CRISPR-Cas系统分类提出在图1中。第1类包括多亚基crRNA-效应子复合物(Cascade)并且第2类包括单亚基crRNA-效应子复合物(Cas9样)。图2提供了CRISPR-Cas的分子组构。图3提供了I型和III型效应复合物的结构：共同的体系结构/共同的祖先，尽管存在广泛的序列趋异性。图4示出了作为以RNA识别基序(RRM)为中心的系统的CRISPR-Cas。图5 示出了Cas1系统发育，其中自适应模块和crRNA-效应子模块的重组显示出CRISPR-Cas进化的主要方面。图6示出了CRISPR-Cas种群调查，具体地在古生菌和细菌之中CRISPR-Cas型/亚型的分布。

CRISPR-Cas系统的作用通常被分为三个阶段：(1)自适应或间隔区整合，(2)CRISPR座位初级转录物(前crRNA)的加工和包含间隔区和对应于CRISPR重复序列的5'和3'片段可变区的crRNA的成熟，以及(3)DNA(或RNA)干扰。大多数的已知CRISPR-Cas系统中存在的两种蛋白质Cas1和Cas2足以用于将间隔区插入到CRISPR盒中。这两种蛋白质形成为此自适应过程所需要的复合物；Cas1的内切核酸酶活性是为间隔区整合所需要的，而Cas2似乎执行非酶性功能。Cas1-Cas2复合物表示CRISPR-Cas的高度保守的“信息加工”模块，该模块似乎准自主(quasi-autonomous)于系统的其余部分。(参见CRISPR-Cas系统的注释和分类(Annotation and Classification of CRISPR-Cas Systems)，马卡洛夫·KS(Makarova KS)、库尼恩·EV(Koonin EV)，分子生物学方法(Methods Mol Biol.)2015；1311:47-75)。

先前所述的第2类系统，即II型和推定的V型仅由cas操纵子中的三个或四个基因组成，即包括自适应模块(不参与干扰的cas1-cas2基因对)的cas1和cas2基因，负责干扰但还有助于前crRNA加工和自适应的单一多结构域效应蛋白，以及常常在至少一些II型系统中可有可无的具有不典型功能的第四基因(并且在一些情况下第四基因是cas4(生物化学或计算机模拟证据显示Cas4是具有三个半胱氨酸C末端簇的PD-(DE)xK超家族核酸酶；具有5′-ssDNA外切核酸酶活性)或编码失活的ATP酶的csn2)。在大多数情况下， CRISPR阵列和称为tracrRNA(反式编码小CRISPR RNA)的不同RNA种类的基因与第2类cas操纵子相邻。tracrRNA与对应CRISPR阵列内的重复序列部分同源并且是为前crRNA的加工所必需的，该加工由一种不与 CRISPR-Cas座位相关联的普遍存在的细菌酶RNA酶III催化。

Cas1是大多数CRISPR-Cas系统中存在的最保守的蛋白质并且相比于其他Cas蛋白进化较慢。因此，Cas1系统发育已用作CRISPR-Cas系统分类的指南。生物化学或计算机模拟证据显示Cas1是金属依赖性的脱氧核糖核酸酶。大肠杆菌中Cas1的缺失使得对DNA损伤的敏感性增加并且使得染色体分离减弱，如在“CRISPR-Cas系统在细菌抗病毒免疫和DNA修复中的双重功能(A dual function of the CRISPR-Cassystem in bacterialantivirus immunity and DNA repair)”，巴布·M(Babu M)等人分子微生物学(MolMicrobiol) 79:484-502(2011)中所述。生物化学或计算机模拟证据显示Cas 2是对富含U的区具有特异性的RNA酶并且是双链的DNA酶。

本发明的方面涉及与第2类CRISPR-Cas系统相关联的新型效应蛋白的鉴定和工程化。在一个优选实施例中，效应蛋白包含单亚基的效应子模块。在另一个实施例中，效应蛋白在原核细胞或真核细胞中具有功能以便用于体外、体内或离体应用。本发明的一个方面涵盖用于预测新的第2类CRISPR-Cas系统和鉴定其中组分的计算方法和算法。

在一个实施例中，鉴定新型第2类CRISPR-Cas座位的计算方法包括以下步骤：检测编码Cas1 蛋白的所有叠连群；鉴定20kB cas1基因内的所有预测蛋白编码基因；将鉴定的基因与Cas蛋白特异性表达谱和预测的CRISPR阵列进行比较；选择含有大于500个氨基酸(>500aa)的蛋白质的未分类候选 CRISPR-Cas座位；使用PSI-BLAST和HHPred分析选择的候选物，从而分离和鉴定新型第2类CRISPR-Cas 座位。除以上提到的步骤之外，候选物的另外分析可以通过搜索代谢组学数据库寻找另外同源物来进行。

在一个方面中，检测编码Cas1蛋白的所有叠连群通过GenemarkS进行，GenemarkS为基因预测程序，如“GeneMarkS：用于预测生物基因组中的基因启动子(starts)的自培训方法(GeneMarkS:a self-training method for prediction of gene starts inmicrobial genomes)，发现调节区中的序列基序的意义(Implications for findingsequence motifs in regulatory regions)”，约翰·贝瑟麦(John Besemer)，亚历山大·罗明纳兹(Alexandre Lomsadze)和马克·波罗多夫斯基(Mark Borodovsky)，核酸研究(Nucleic Acids Research)(2001)29，第 2607-2618页中所述，该文献通过引用结合在此。

在一个方面中，鉴定所有预测蛋白编码基因通过以下方式进行：将鉴定基因与Cas蛋白特异性表达谱进行比较并且根据NCBI保守结构域数据库(CDD)注释它们，该CDD是由用于古结构域和全长蛋白的充分注释的多重序列比对模型的集合组成的单子注释资源。这些可用作位置特异性评分矩阵(PSSM) 以经由RPS-BLAST快速鉴定蛋白质序列中的保守结构域。CDD内容物包括NCBI管理的(curated)结构域，该结构域使用3D结构信息来明确地限定结构域边界并且提供对序列/结构/功能关系的见解，以及结构域模型，这些模型从许多外源数据库(Pfam、SMART、COG、PRK、TIGRFAM)导入。在另一个方面中，使用PILER-CR程序预测CRISPR阵列，该程序是用于发现CRISPR重复序列的公共领域软件，如“PILER-CR：CRISPR重复序列的快速且精确的鉴定”，埃德加，R.C.(Edgar,R.C.)生物信息学(Bioinformatics)，1月 20日；8:18(2007)中所述，该文献通过引用结合在此。

在另一个方面中，使用PSI-BLAST(位置特异性迭代基本局部比对搜索工具)进行逐案分析。 PSI-BLAST由使用蛋白质-蛋白质BLAST检测的在给定得分阈值之上的序列的多重序列比对得出位置特异性评分矩阵(PSSM)或表达谱。此PSSM用于进一步搜索数据库以寻找新的匹配，并且进行校正以使用这些新检测到的序列进行后续迭代。因此，PSI-BLAST提供了一种检测蛋白质之间的远源关系的手段。

在另一个方面中，使用HHpred进行逐案分析，该HHpred是一种用于序列数据库搜索和结构预测的方法，该方法与BLAST或PSI-BLAST一样易于使用并且同时在发现远距离同源物方面更具有敏感性。实际上，HHpred敏感性同目前可获得的用于结构预测的最强有力的服务器具有竞争力。HHpred是第一个基于表达谱隐蔽马尔科夫模型(HMM)的配对比较的服务器。最常规的序列搜索方法搜索序列数据库诸如UniProt或NR，而HHpred搜索比对数据库如Pfam或SMART。这极大简化了许多序列家族而不是杂乱的单一序列的命中(hit)列表。所有大型可公共获得的表达谱和比对数据库可通过HHpred获得。HHpred接受单一查询序列或多重比对作为输入值。仅在数分钟内，HHpred以类似于PSI-BLAST格式的易读格式返回搜索结果。搜索选择包括局部比对或总体比对和二级结构相似性评分。HHpred可产生配对的查询模板序列比对、合并的查询模板多重比对(例如，对于可递搜索)以及根据HHpred比对通过MODELLER软件计算的 3D结构模型。

其中核酸是DNA或RNA并且在一些方面中还可以是指DNA-RNA杂交体或其衍生物的术语 “核酸靶向系统”总体是指涉及DNA或RNA靶向CRISPR相关(“Cas”)基因的表达或引导这些基因的活性的转录物和其他元件，这些转录物和其他元件可包括编码DNA或RNA靶向Cas蛋白的序列和包含CRISPR RNA(crRNA)的DNA或RNA靶向指导RNA以及(在CRISPR-Cas9系统并非所有系统中)反式激活 CRISPR-Cas系统RNA(tracrRNA)序列或来自DNA或RNA靶向CRISPR座位的其他序列或转录物。在在此所述的Cpf1 DNA靶向的RNA指导型内切核酸酶系统中，tracrRNA序列不是需要的。总的来说，RNA靶向系统的特征在于在靶RNA序列的位点处促进RNA靶向复合物形成的元件。在形成DNA或RNA靶向复合物的情况下，“靶序列”是指DNA或RNA靶向指导RNA被设计为与其具有互补性的DNA或RNA序列，其中靶序列与RNA靶向指导RNA之间的杂交促进RNA靶向复合物的形成。在一些实施例中，靶序列位于细胞的核或细胞质中。

在本发明的一个方面中，本申请的新型DNA靶向系统(还称之为DNA靶向CRISPR-Cas或 CRISPR-Cas DNA靶向系统)是基于鉴定的型V(例如亚型V-A和亚型V-B)Cas蛋白的，这些蛋白不需要产生定制蛋白来靶向特异性DNA序列，相反，单一效应蛋白或酶可以由RNA分子编程来识别特异性DNA靶，换句话说，可以使用所述RNA分子来将酶募集至特异性DNA靶。本发明的方面具体涉及DNA靶向的RNA 指导型Cpf1 CRISPR系统。

在本发明的一个方面中，本申请的新型RNA靶向系统(还称之为RNA或RNA靶向CRISPR-Cas 或CRISPR-Cas系统RNA靶向系统)是基于鉴定的VI型Cas蛋白的，这些蛋白不需要产生定制蛋白来靶向特异性RNA序列，相反，单一酶可由RNA分子编程来识别特异性RNA靶，换句话说，可使用所述RNA分子来将酶募集至特异性RNA靶。

在此所述的核酸靶向系统、载体系统、载体和组合物可以用于多种核酸靶向应用，改变或修改基因产物诸如蛋白质的合成、核酸切割、核酸编辑、核酸剪接；靶核酸的运输、靶核酸的追踪、靶核酸的分离、靶核酸的可视化等中。

如在此所用的，Cas蛋白或CRISPR酶是指新的CRISPR-Cas系统分类中呈现的任一种蛋白质。在一个有利的实施例中，本发明涵盖V型CRISPR-Cas座位，例如Cpf1编码座位(指代为亚型V-A)中鉴定的效应蛋白。目前，亚型V-A座位涵盖cas1、cas2、不同的基因指代的cpf1以及CRISPR阵列。Cpf1(CRISPR 相关蛋白Cpf1，亚型PREFRAN)是一种大蛋白质(约1300个氨基酸)，其含有与Cas9的相应结构域同源的 RuvC样核酸酶结构域以及Cas9的特征性富精氨酸簇的对应物。然而，Cpf1缺乏所有Cas9蛋白中存在的HNH 核酸酶结构域，并且RuvC样结构域在Cpf1序列中是连续的，这与其中含有包含HNH结构域的长插入物的 Cas9相反。因此，在特定实施例中，CRISPR-Cas酶仅包含RuvC样核酸酶结构域。

Cpf1基因可以见于若干种不同的细菌基因组中，典型地与cas1、cas2和cas4基因以及CRISPR 盒(例如，弗朗西丝菌属cf.新杀手Fx1(Francisella cf.novicida Fx1)的FNFX1_1431-FNFX1_1428)在同一座位中。因此，此推定的新型CRISPR-Cas系统的布置似乎类似于II-B型的布置。此外，与Cas9类似，Cpf1 蛋白含有与易位子ORF-B同源的便于鉴定的C末端区并且包含活性的RuvC样核酸酶、富含精氨酸的区和Zn 指(不存在于Cas9中)。然而，与Cas9不同，Cpf1还存在于没有CRISPR-Cas环境的若干种基因组中并且其与ORF-B的相对较高相似性表明其可能是易位子组分。表明如果此是真正的CRISPR-Cas系统并且Cpf1是Cas9的功能类似物，则其将是新型CRISPR-Cas类型，即V型(参见CRISPR-Cas系统的注释和分类，马卡洛夫·KS(Makarova KS)、库尼恩·EV(Koonin EV)，分子生物学方法(MethodsMol Biol.)2015；1311:47-75)。然而，如在此所述，将Cpf1指代为亚型V-A以将其与C2c1p区分，该C2c1p不具有相同的结构域结构并且因此被指代为亚型V-B。

在一个有利的实施例中，本发明涵盖包含在指代为亚型V-A的Cpf1座位中鉴定的效应蛋白的组合物和系统。

本发明的方面还涵盖在此所述的组合物和系统在基因组工程中例如用于在体外、体内或离体中改变或操纵原核细胞或真核细胞中的一种或多种基因的表达或一种或多种基因产物的方法和用途。

在本发明的实施例中，术语成熟crRNA和指导RNA以及单一指导RNA如前面引用的文献诸如 WO 2014/093622(PCT/US 2013/074667)中那样可互换地使用。总的来说，指导序列是与靶多核苷酸序列具有足够互补性以与靶序列杂交并引导CRISPR复合物与靶序列的序列特异性结合的任何多核苷酸序列。在一些实施例中，当使用适合比对算法进行最佳比对时，指导序列与其相应靶序列之间的互补程度是约或超过约50％、60％、75％、80％、85％、90％、95％、97.5％、99％、或更大。最佳比对可以通过使用用于比对序列的任何适合的算法来确定，这些算法的非限制性实例包括史密斯-沃特曼(Smith-Waterman)算法、尼德曼-温施算法(Needleman-Wunsch algorithm)、基于巴罗斯-惠勒(Burrows-Wheeler)转换的算法(例如，巴罗斯-惠勒比对仪)、ClustalW、Clustal X、BLAT、诺沃比对(Novoalign)(诺沃克拉夫特技术公司 (Novocraft Technologies)；可在www.novocraft.com处获得)、ELAND(加利福尼亚州圣迭哥亿明达(Illumina, San Diego,CA))、SOAP(可在soap.genomics.org.cn处获得)、以及Maq(可在maq.sourceforge.net处获得)。在一些实施例中，指导序列的长度是约或超过约5、10、11、12、13、14、15、16、17、18、19、20、21、 22、23、24、25、26、27、28、29、30、35、40、45、50、75、或更多个核苷酸。在一些实施例中，指导序列的长度是小于约75、50、45、40、35、30、35、25、20、15、12、或更少个核苷酸。优选指导序列是 10-30个核苷酸长。指导序列引导CRISPR复合物与靶序列的序列特异性结合的能力可以通过任何适合的测定来评估。例如，足以形成CRISPR复合物的CRISPR系统的组分(包括有待测试的指导序列)可以诸如通过用编码CRISPR序列组分的载体进行转染来提供给具有相应靶序列的宿主细胞，随后诸如通过在此所述的Surveyor测定评估靶序列内的优先切割。类似地，靶多核苷酸序列的切割可以在试管中通过以下方式进行评估：通过提供靶序列、CRISPR复合物的组分(包括有待测试的指导序列)和不同于测试指导序列的对照指导序列并且在测试指导序列反应与对照指导序列反应之间比较靶序列处的结合或切割速率。其他测定是可能的，并且是本领域技术人员能够想到的。指导序列可以被选择为靶向任何靶序列。在一些实施例中，靶序列是细胞基因组中的序列。示例性靶序列包括靶基因组中独特的那些。

总的来说，在整个说明书中，术语“载体”是指能够转运它所连接的另一个核酸的核酸分子。载体包括但不限于，单链、双链或部分双链的核酸分子；包含一个或多个游离端、不包含游离端(例如，环状)的核酸分子；包含DNA、RNA或二者的核酸分子；以及本领域已知的其他种类的多核苷酸。一种类型的载体是“质粒”，该质粒是指一种环状双链DNA环，可以诸如通过标准分子克隆技术向该环中插入另外的DNA区段。另一种类型的载体是病毒载体，其中病毒来源的DNA或RNA序列存在于包装到病毒(例如，逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒、腺伴随病毒)中的载体中。病毒载体还包括由病毒携带来转染到宿主细胞中的多核苷酸。某些载体能够在它们被引入至其中的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体以及附加型哺乳动物载体)。其他载体(例如，非附加型哺乳动物载体)在引入到宿主细胞后被整合到宿主细胞的基因组中，并且从而随着宿主基因组一起复制。此外，某些载体能够引导它们可操作地连接的基因的表达。此类载体在此被称为“表达载体”。用于真核细胞并且在真核细胞中产生表达的载体可以在此称之为“真核表达载体”。在重组DNA技术中采用的常见表达载体常常是质粒形式。

重组表达载体可以包含处于适用于在宿主细胞中表达核酸的形式的本发明的核酸，这意味着重组表达载体包含一个或多个调节元件，这些调节元件可以基于用于表达的宿主细胞来选择，可操作地连接至有待表达的核酸序列。在重组表达载体内，“可操作地连接”旨在意指感兴趣的核苷酸序列以允许核苷酸序列表达(例如，在体外转录/翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中)的方式连接至一个或多个调节元件。

术语“调节元件”旨在包括启动子、增强子、内部核糖体进入位点(IRES)以及其他表达控制元件(例如，转录终止信号，诸如多聚腺苷酸化信号和聚U序列)。此类调节元件描述于例如高德尔 (Goeddel)，基因表达技术：酶学方法(GENE EXPRESSION TECHNOLOGY:METHODS IN ENZYMOLOGY)185，学术出版社(Academic Press)，加利福尼亚州圣迭哥(1990)中。调节元件包括引导核苷酸序列在许多类型的宿主细胞中连续表达的那些元件和引导核苷酸序列仅在某些宿主细胞中表达的那些元件(例如，组织特异性调节序列)。组织特异性启动子可以引导主要在希望的感兴趣的组织诸如肌肉、神经元、骨骼、皮肤、血液、特定器官(例如，肝脏、胰脏)、或特定细胞类型(例如，淋巴细胞) 中的表达。调节元件还可以时间依赖性方式诸如细胞周期依赖性或发育阶段依赖性方式引导表达，这可以是或也可以不是组织特异性或细胞类型特异性的。在一些实施例中，载体包含一个或多个pol III启动子(例如，1、2、3、4、5、或更多个pol III启动子)、一个或多个pol II启动子(例如，1、2、3、4、5、或更多个 pol II启动子)、一个或多个pol I启动子(例如，1、2、3、4、5、或更多个pol I启动子)、或其组合。pol III 启动子的实例包括但不限于，U6和H1启动子。pol II启动子的实例包括但不限于，逆转录病毒劳斯氏肉瘤病毒(Rous sarcoma virus)(RSV)LTR启动子(任选地具有RSV增强子)、巨细胞病毒(CMV)启动子(任选地具有CMV增强子)[例如，参见博沙特(Boshart)等人，细胞(Cell)，41:521-530(1985)]、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子、以及EF1α启动子。术语 “调节元件”还涵盖增强子元件，诸如WPRE；CMV增强子；HTLV-I的LTR中的R-U5'区段(分子细胞生物学(Mol.Cell.Biol.)，第8(1)卷，第466-472页，1988)；SV40增强子；以及兔β-球蛋白的外显子2与3之间的内含子序列(美国国家科学院院刊(Proc.Natl.Acad.Sci.USA.)，第78(3)卷，第1527-31页，1981)。本领域技术人员将了解的是，表达载体的设计可以取决于如有待转化的宿主细胞的选择、所希望的表达水平等的此类因素。载体可以引入到宿主细胞中从而产生由在此所述的核酸编码的转录物、蛋白质或肽，包括融合蛋白或肽(例如，成簇规律间隔短回文重复序列(CRISPR)转录物、蛋白质、酶、其突变体形式、其融合蛋白等)。

有利的载体包括慢病毒和腺伴随病毒并且此类载体类型还可以针对靶向的特定细胞类型来选择。

如在此所用，术语型V CRISPR-Cas座位效应蛋白的“crRNA”或“指导RNA”或“单一指导 RNA”或“sgRNA”或“一种或多种核酸组分”包括与靶核酸序列具有足够互补性以与靶核酸序列杂交并引导核酸靶向复合物与靶核酸序列的序列特异性结合的任何多核苷酸序列。在一些实施例中，当使用适合比对算法进行最佳比对时，互补程度是约或超过约50％、60％、75％、80％、85％、90％、95％、97.5％、 99％、或更大。最佳比对可以通过使用用于比对序列的任何适合的算法来确定，这些算法的非限制性实例包括史密斯-沃特曼算法、尼德曼-温施算法、基于巴罗斯-惠勒转换的算法(例如，巴罗斯-惠勒比对仪)、 ClustalW、Clustal X、BLAT、诺沃比对(诺沃克拉夫特技术公司；可在www.novocraft.com处获得)、ELAND (加利福尼亚州圣迭哥亿明达)、SOAP(可在soap.genomics.org.cn处获得)、以及Maq(可在 maq.sourceforge.net处获得)。指导序列(在核酸靶向指导RNA内)引导核酸靶向复合物与靶核酸序列的序列特异性结合的能力可以是通过任何适合的测定来评估。例如，足以形成核酸靶向复合物的核酸靶向 CRISPR系统的组分(包括有待测试的指导序列)可以诸如通过用编码核酸靶向复合物组分的载体进行转染来提供给具有相应靶核酸序列的宿主细胞，随后诸如通过在此所述的Surveyor测定评估靶核酸序列内的优先靶向(例如切割)。类似地，靶核酸序列的切割可以在试管中通过以下方式进行评估：通过提供靶核酸序列、核酸靶向复合物的组分(包括有待测试的指导序列)和不同于测试指导序列的对照指导序列，并且在测试指导序列反应与对照指导序列反应之间比较靶序列处的结合或切割速率。其他测定是可能的，并且是本领域技术人员能够想到的。指导序列和因此核酸靶向指导RNA可以被选择成靶向任何靶核苷酸序列。靶序列可以是DNA。靶序列可以是任何RNA序列。在一些实施例中，靶序列可以是选自下组的RNA 分子内的序列，该组由以下各项组成：信使RNA(mRNA)、前mRNA、核糖体RNA(rRNA)、转移RNA (tRNA)、微小RNA(miRNA)、小干扰RNA(siRNA)、小核RNA(snRNA)、小核仁RNA(snoRNA)、双链RNA(dsRNA)、非编码RNA(ncRNA)、长的非编码RNA(lncRNA)以及细胞质小RNA(scRNA)。在一些优选的实施例中，靶序列可以是选自由mRNA、前mRNA和rRNA组成的组的RNA分子内的序列。在一些优选的实施例中，靶序列可以是选自由ncRNA和lncRNA组成的组的RNA分子内的序列。在一些更优选的实施例中，靶序列可以是mRNA分子或前mRNA分子内的序列。

在一些实施例中，核酸靶向指导RNA被选择以减小该RNA靶向指导RNA内的二级结构程度。在一些实施例中，当进行最佳折叠时，核酸靶向指导RNA的约或小于约75％、50％、40％、30％、25％、20％、 15％、10％、5％、1％，或更少的核苷酸参与自互补碱基配对。最佳折叠可以是通过任何适合的多核苷酸折叠算法来确定。一些程序是基于计算最小吉布斯自由能。一种这样的算法的实例是mFold，如通过朱克 (Zuker)和施蒂格勒(Stiegler)(核酸研究9(1981),133-148)。另一个示例性折叠算法是使用质心结构预测算法的在线网站服务器RNAfold，它是维也纳大学的理论化学研究所开发的(例如，参见A.R.·格鲁伯(A.R.Gruber)等人，2008，细胞106(1):23-24；以及PA·凯尔(PA Carr)和GM·丘奇(GM Church)，2009，自然生物技术(Nature Biotechnology)27(12):1151-62)。

“tracrRNA”序列或类似术语包括与crRNA序列具有足够互补性以进行杂交的任何多核苷酸序列。如上文所指出的，在本发明的实施例中，tracrRNA不是为Cpf1效应蛋白复合物的切割活性所需要的。

申请人还进行了激发实验以验证V型/VI型蛋白诸如Cpf1/C2c1/C2c2的DNA靶向和切割能力。此实验与大肠杆菌中的StCas9异源表达的类似工作(萨普拉诺萨克斯，R.(Sapranauskas,R.)等人核酸研究39,9275-9282(2011))极为相似。申请人将含有PAM和抗性基因两者的质粒引入到异源大肠杆菌中,并且然后接种在相应抗生素上。如果存在质粒的DNA切割，则申请人观察不到有活力的群落。

在进一步细节中，如下针对DNA靶进行测定。在此测定中使用两种大肠杆菌菌株。一种携带编码来自细菌菌株的内源性效应蛋白座位的质粒。另一种菌株携带空质粒(例如pACYC184，对照菌株)。将所有可能的7或8bp PAM序列呈递在抗生素抗性质粒(具有氨苄青霉素抗性基因的pUC19)上。将PAM 定位成靠近原型间隔区1的序列(内源性效应蛋白座位中的第一间隔区的DNA靶)。克隆了两个PAM文库。一个具有原型间隔区的8个随机bp 5'(例如总的65536个不同PAM序列＝复杂度)。另一个文库具有原型间隔区的7个随机bp 3'(例如总复杂度是16384个不同的PAM)。将两个文库克隆成具有平均500个质粒/可能的 PAM。用5'PAM和3′PAM文库在单独的转化中转化测试菌株和对照菌株并且将转化的细胞分别接种在氨苄青霉素板上。使用质粒的识别和随后的切割/干扰使得细胞对氨苄青霉素易感并且阻止了生长。转化后大约 12h，收获由测试菌株和对照菌株形成的所有群落并且分离出质粒DNA。使用质粒DNA作为用于PCR扩增和随后的深度测序的模板。未转化的(untransfomed)文库中的所有PAM的表现度显示转化细胞中的PAM 的预期表现度。对照菌株中发现的所有PAM的表现度显示真实的表现度。测试菌株中的所有PAM的表现度显示哪个PAM未被酶识别并且与对照菌株的比较允许提取出缺失的PAM的序列。

在CRISPR-Cas9系统的一些实施例中，当进行最佳比对时，tracrRNA序列与crRNA序列之间的互补程度是沿两者中较短者的长度。如在此所述的，在本发明的实施例中，tracrRNA是不需要的。在先前所述的CRISPR-Cas系统(例如CRISPR-Cas9系统)的一些实施例中，嵌合合成的指导RNA(sgRNA)设计可以在crRNA与tracrRNA之间掺入至少12bp的双链体结构，然而在在此所述的Cpf1 CRISPR系统中此类嵌合RNA(chi-RNA)是不可能的，因为该系统不利用tracrRNA。

为了最小化毒性和脱靶效应，重要的是控制所递送的核酸靶向指导RNA的浓度。核酸靶向指导RNA的最佳浓度可以通过以下方式来确定：测试不同浓度的细胞模型或非人类真核动物模型并且使用深度测序分析潜在的脱靶基因组座位处的修饰程度。得到最高的中靶(on-target)修饰水平同时使脱靶修饰水平最小化的浓度应被选择用于体内递送。核酸靶向系统有利地是来源于V型/VI型CRISPR系统。在一些实施例中，核酸靶向系统的一个或多个元件是来源于包含内源性RNA靶向系统的特定生物体。在本发明的优选实施例中，RNA靶向系统是V型/VI型CRISPR系统。在特定实施例中，V型/VI型RNA靶向Cas酶是 Cpf1/C2c1/C2c2。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、 Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、 Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、 Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4，其同源物，或其修饰版本。在实施例中，诸如在此提及的Cpf1/C2c1/C2c2的V型/VI型蛋白还涵盖诸如Cpf1/C2c1/C2c2的V型/VI型蛋白的同源物或直向同源物。术语“直向同源物(orthologue)”(在此也称之为“直向同源物(ortholog)”)和“同源物(homologue)”(在此也称之为“同源物(homolog)”)是本领域熟知的。作为进一步指导，如在此所用的蛋白质的“同源物”是属于同一种类的蛋白质，该蛋白质执行与作为其同源物的蛋白质相同或类似的功能。同源蛋白可以是但不需要是结构相关的，或仅是部分结构相关的。如在此所用的蛋白质的“直向同源物”是属于不同种类的蛋白质，该蛋白质执行与作为其直向同源物的蛋白质相同或类似的功能。直向同源蛋白可以是但不需要是结构相关的，或仅是部分结构相关的。同源物和直向同源物可以是通过同源模拟 (例如，参见格里尔(Greer)，科学(Science)第228卷(1985)1055，和布伦德尔(Blundell)等人欧洲生物化学杂志(Eur J Biochem)第172卷(1988),513)或“结构BLAST”(戴伊·F(Dey F)，克利夫·张·Q (Cliff Zhang Q)，彼德雷·D(Petrey D)，霍尼格·B(Honig B)，针对“结构BLAST”：使用结构关系推断功能(Toward a"structural BLAST":using structural relationships to inferfunction)，蛋白质科学(Protein Sci.)， 2013年4月；22(4):359-66.doi:10.1002/pro.2225。)来鉴定。还参见CRISPR-Cas座位领域中的什马科夫 (Shmakov)等人(2015)的申请。同源蛋白可以是但不需要是结构相关的，或仅是部分结构相关的。在特定实施例中，如在此提及的Cpf1的同源物或直向同源物与Cpf1具有至少80％、更优选至少85％、甚至更优选至少90％例如像至少95％的序列同源性或一致性。在另外的实施例中，如在此提及的Cpf1的同源物或直向同源物与野生型Cpf1具有至少80％、更优选至少85％、甚至更优选至少90％例如像至少95％的序列一致性。在Cpf1具有一个或更多个突变的情况下(突变型)，如在此提及的所述Cpf1的同源物或直向同源物与突变型Cpf1具有至少80％、更优选至少85％、甚至更优选至少90％例如像至少95％的序列一致性。

在一个实施例中，V型Cas蛋白可以是包括但不限于下项的属的生物体的直向同源物：氨基酸球菌属某种、毛螺旋菌科细菌或牛莫拉氏菌；在特定实施例中，V型Cas蛋白可以是包括但不限于下项的物种的生物体的直向同源物：氨基酸球菌属某种BV3L6；毛螺旋菌科细菌ND2006(LbCpf1)或牛莫拉氏菌237。在特定实施例中，如在此提及的Cpf1的同源物或直向同源物与在此披露的Cpf1序列中的一种或多种具有至少80％、更优选至少85％、甚至更优选至少90％例如像至少95％的序列同源性或一致性。在另外的实施例中，如在此提及的Cpf的同源物或直向同源物与野生型FnCpf1、AsCpf1或LbCpf1具有至少80％、更优选至少 85％、甚至更优选至少90％例如像至少95％的序列一致性。

在特定实施例中，本发明的Cpf1蛋白与FnCpf1、AsCpf1或LbCpf1具有至少60％、更具体地至少70诸如至少80％、更优选至少85％、甚至更优选至少90％例如像至少95％的序列同源性或一致性。在另外的实施例中，如在此提及的Cpf1蛋白与野生型AsCpf1或LbCpf1具有至少60％，诸如至少70％、更具体地至少80％、更优选至少85％、甚至更优选至少90％例如像至少95％的序列一致性。在特定实施例中，本发明的 Cpf1蛋白与FnCpf1具有小于60％的序列一致性。技术人员将理解这包括Cpf1蛋白的截短形式，由此测序一致性是在截短形式的长度上测定。

鉴定CRISPR-Cas系统酶的直向同源物的一些方法可以包括鉴定感兴趣的基因组中的tracr序列。鉴定tracr序列可以与以下步骤相关：搜索数据库中的同向重复序列或tracr配对序列以鉴定包含CRISPR 酶的CRISPR区。在正义方向和反义方向上搜索侧接CRISPR酶的CRISPR区中的同源序列。寻找转录终止子和二级结构。鉴定不是同向重复序列或tracr配对序列但与同向重复序列或tracr配对序列具有超过50％的一致性的任何序列以作为潜在的tracr序列。获取潜在的tracr序列并且分析与其相关联的转录终止子序列。在此系统中，RNA测序数据揭示通过计算鉴定的潜在tracrRNA仅有微弱表达，这表明了tracrRNA可能不是为本发明系统的功能所需的可能性。在对FnCpf1座位进一步评价并加上体外切割结果之后，申请人推断通过 Cpf1效应蛋白复合物进行靶DNA切割不需要tracrRNA。申请人确定仅包含Cpf1效应蛋白和crRNA(包含同向重复序列和指导序列的指导RNA)的Cpf1效应蛋白复合物足以切割靶DNA。

应了解，在此所述的任一功能可以被工程化到来自其他直向同源物的CRISPR酶中，包括包含来自多个直向同源物的片段的嵌合酶。在此其他地方描述了此类直向同源物的实例。因此，嵌合酶可以包含包括但不限于下项的属的生物体的CRISPR酶直向同源物的片段：棒状杆菌属、萨特氏菌属(Sutterella)、军团杆菌属、密螺旋体属、产线菌属(Filifactor)、真细菌属、链球菌属、乳酸杆菌属、支原体属、拟杆菌属、Flaviivola、黄杆菌属、Sphaerochaeta、固氮螺菌属、葡糖醋杆菌属、奈瑟氏菌属、罗氏菌属、细小棒菌属、葡萄球菌属、Nitratifractor、支原体属以及弯曲杆菌属。嵌合酶可以包含第一片段和第二片段并且片段可以是属于在此所提到的属或在此所提到的物种的生物体的CRISPR酶直向同源物的；有利的是，片段来自不同物种的CRISPR酶直向同源物。

在实施例中，V型/VI型RNA靶向效应蛋白，具体地是如在此提及的Cpf1/C2c1/C2c2还涵盖 Cpf1/C2c1/C2c2的功能变体或其同源物或其直向同源物。如在此所用的蛋白质的“功能变体”是指此蛋白质的变体，该变体保留该蛋白的至少部分活性。功能变体可以包括突变体(其可以是插入、缺失或置换突变体)，包括同质多形体等。还包括在功能变体内的是此蛋白质与别的，通常是不相关的核酸、蛋白质、多肽或肽的融合产物。功能变体可以是天然存在的或可以是人造的。有利的实施例可以包括工程化的或非天然存在的V型/VI型RNA靶向效应蛋白，例如Cpf1/C2c1/C2c2或其直向同源物或同源物。

在一个实施例中，编码V型/VI型RNA靶向效应蛋白，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物的一个或多个核酸分子可以被密码子优化为在真核细胞中表达。真核生物可以是在此所讨论的。一个或多个核酸分子可以是工程化的或非天然存在的。

在一个实施例中，V型/VI型RNA靶向效应蛋白，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物可以包含一个或多个突变(并且因此编码所述效应蛋白的一个或多个核酸分子可以具有一个或多个突变)。突变可以是人工引入的突变并且可以包括但不限于催化结构域中的一个或多个突变。参照Cas9酶，催化结构域的实例可以包括但不限于RuvCI、RuvC II、RuvC III以及HNH结构域。

在一个实施例中，V型/VI型蛋白，诸如Cpf1/C2c1/C2c2或其直向同源物或同源物可以用作融合至或可操作地连接至功能结构域的通用的核酸结合蛋白。示例性功能结构域可以包括但不限于，翻译起始区、翻译激活因子、翻译阻遏物、核酸酶(具体地是核糖核酸酶)、剪接体、珠粒、光诱导型/控制型的结构域或化学诱导型/控制型的结构域。

在一些实施例中，未修饰的核酸靶向效应蛋白可以具有切割活性。在一些实施例中，RNA靶向效应蛋白可以引导靶序列或靠近靶序列的位置处的，诸如靶序列内和/或靶序列补体内或与靶序列相关联的序列处的一条或两条核酸(DNA或RNA)链的切割。在一些实施例中，核酸靶向效应蛋白可以引导从靶序列的第一个或最后一个核苷酸开始的约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、 500或更多个碱基对内的一条或两条DNA或RNA链的切割。在一些实施例中，切割可以是交错的，即产生粘性末端。在一些实施例中，切割是交错切割的，产生了5'突出端。在一些实施例中，切割是交错切割的，产生了具有1至5个核苷酸，优选4或5个核苷酸的5′突出端。在一些实施例中，切割位点远离PAM，例如切割发生在非靶链上的第18核苷酸后面和靶链上的第23核苷酸后面(图97A)。在一些实施例中，切割位点出现在非靶链上的第18核苷酸(从PAM开始计数)后面和靶链上的第23核苷酸(从PAM开始计数)后面(图 97A)。在一些实施例中，载体编码可以相对于相应野生型酶发生突变的核酸靶向效应蛋白，使得突变型核酸靶向效应蛋白缺乏切割含有靶序列的靶多核苷酸的一条或两条DNA或RNA链的能力。作为另一个实例， Cas蛋白的两个或更多个催化结构域(例如Cas9蛋白的RuvC I、RuvC II和RuvC III或HNH结构域)可以突变成产生实质性缺乏所有DNA切割活性的突变型Cas蛋白。如在此所述，Cpf1效应蛋白的相应催化结构域也可以突变成产生缺乏所有DNA切割活性或具有实质性降低的DNA切割活性的突变型Cpf1效应蛋白。在一些实施例中，当突变型酶的RNA切割活性不超过该酶的非突变形式的核酸切割活性的约25％、10％、5％、 1％、0.1％、0.01％或更少时，核酸靶向效应蛋白可以被认为是实质性缺乏所有RNA切割活性的；一个实例可以是当突变形式的核酸切割活性是零或与非突变形式相比是可忽视的时候。效应蛋白可以参照与具有来自V型/VI型CRISPR系统的多个核酸酶结构域的最大核酸酶享有同源性的酶的一般类别来鉴定。最优选地，效应蛋白是V型/VI型蛋白诸如Cpf1/C2c1/C2c2。在另外的实施例中，效应蛋白是V型蛋白。关于衍生，申请人表示，就与野生型酶具有高度的序列同源性的意思而言，衍生的酶在很大程度上是基于野生型酶的，但是该衍生的酶是已经以本领域已知或在此所述的一些方式发生突变的(修饰的)。

同样，应了解，除非另外表明，否则术语Cas和CRISPR酶和CRISPR蛋白和Cas蛋白通常是可以互换使用的并且在所有在此参考方面处以类推方式指进一步描述在本发明中的新型CRISPR效应蛋白，诸如通过具体参考Cas9。如以上提到的，在此使用的许多残基编号是指来自V型/VI型CRISPR座位的效应蛋白。然而，应了解本发明包括来自其他微生物物种的更多效应蛋白。在某些实施例中，效应蛋白可以是组成型存在的或诱导型存在的或条件型存在的或被给予或递送的。效应蛋白优化可以用于增强功能或用于开发新功能，其可产生嵌合效应蛋白。并且如在此所述的效应蛋白可以被修饰成用作通用的核酸结合蛋白。

典型地，在核酸靶向系统的情况下，核酸靶向复合物(包含杂交至靶序列并与一种或多种核酸靶向效应蛋白复合的指导RNA)的形成产生靶序列中或靶序列附近(例如，从靶序列开始的1、2、3、4、 5、6、7、8、9、10、20、50、或更多个碱基对内)的一条或两条DNA或RNA链的切割。如在此所用的术语“与感兴趣的靶座位相关联的一种或多种序列”是指在靶序列的附近(例如从靶序列开始的1、2、3、4、 5、6、7、8、9、10、20、50、或更多个碱基对内，其中靶序列包含在感兴趣的靶座位内)的序列。

在本发明中，密码子优化序列的一个实例是被优化为在真核生物，例如人类(即被优化为在人类中表达)，或其他真核生物，如在此所讨论的动物或哺乳动物中表达的序列；例如参见作为密码子优化序列的一个实例的WO 2014/093622(PCT/US 2013/074667)中的SaCas9人类密码子优化序列(根据本领域知识和本披露，特别是关于效应蛋白(例如Cpf1)的密码子优化编码的一个或多个核酸分子是在技术人员的知识范围内的)。虽然这是优选的，但是应了解，其他实例是可能的并且除人类之外的宿主物种的密码子优化，或特定器官的密码子优化是已知的。在一些实施例中，编码DNA/RNA靶向Cas蛋白的酶编码序列被密码子优化为在特定细胞诸如真核细胞中表达。真核细胞可以是特定生物体具有的或来源于该特定生物体的那些细胞，该特定生物体是诸如植物或哺乳动物，包括但不限于人类或非人类真核生物，或如在此讨论的动物或哺乳动物，例如小鼠、大鼠、兔、狗、家畜或非人类哺乳动物或灵长类动物。在一些实施例中，对于人类或动物而言很可能使得他们(它们)受苦而没有任何实质性医学益处的用于修饰人类的种系遗传一致性的方法和/或用于修饰动物的遗传一致性的方法，以及还有作为这样的方法的结果的动物，可以被排除在外。总的来说，密码子优化是指在维持天然氨基酸序列的情况下通过以下方式修饰核酸序列来增强在感兴趣的宿主细胞中的表达的方法：通过用该宿主细胞的基因中更频繁使用或最频繁使用的密码子替换天然序列的至少一个密码子(例如，约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)。不同的物种对于具有特定氨基酸的某些密码子表现出特定偏倚性。密码子偏倚性(生物体之间密码子使用的差异)常常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于(除其他之外)被翻译的密码子的特性和特定转移RNA(tRNA)分子的可获得性。细胞中选择的tRNA的超优势度通常是肽合成中最频繁使用的密码子的反映。因此，基因可以被定制为基于密码子优化在给定生物体中最佳基因表达。密码子使用表是易于获得的，例如在从www.kazusa.orjp/codon/获得的“密码子使用数据库”中并且这些表可以通过多种方式来调整适用。参见，中村，Y.(Nakamura,Y.)等人，“从国际DNA序列数据库中制表的密码子使用：2000年的状态(Codon usage tabulated from theinternational DNA sequence databases:status for the year 2000)”核酸研究28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可得的，诸如基因制造(Gene Forge)(宾夕法尼亚州雅各布斯的Aptagen公司(Aptagen；Jacobus,PA))也是可得的。在一些实施例中，编码DNA/RNA靶向Cas蛋白的序列中的一个或多个密码子(例如1、2、3、 4、5、10、15、20、25、50个、或更多个、或所有密码子)对应于特定氨基酸的最频繁使用的密码子。对于酵母的密码子使用，参考从http://www.yeastgenome.org/community/codon_usage.shtml获得的在线酵母基因组数据库或酵母的密码子选择(Codon selection in yeast)，本特泽恩(Bennetzen)和哈尔(Hall)，生物化学杂志(JBiol Chem.)，1982年3月25日；257(6):3026-31。对于植物(包括藻类)的密码子使用，参考高等植物、绿藻和蓝藻细菌的密码子使用(Codon usage in higher plants,greenalgae,and cyanobacteria)，坎贝尔(Campbell)和哥瑞(Gowri)，植物生理学(PlantPhysiol.)，1990年1月；92(1):1-11；以及植物基因的密码子使用(Codon usage in plantgenes)，玛瑞(Murray)等人，核酸研究，1989年1月25日；17(2):477-98；或不同植物和藻类谱系中的叶绿体基因和蓝色小体基因的密码子偏倚性的选择(Selection on the codonbias of chloroplast and cyanelle genes in different plant and algallineages)，莫尔顿·BR(Morton BR)，分子进化杂志(J Mol Evol)，1998年4月；46(4):449-59。

在一些实施例中，载体编码包含一个或多个核酸定位序列(NLS)(诸如约或超过约1、2、3、 4、5、6、7、8、9、10个或更多个NLS)的核酸靶向效应蛋白，诸如V型/VI型RNA靶向效应蛋白，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物。在一些实施例中，RNA靶向效应蛋白包含处于或靠近氨基末端的约或超过约1、2、3、4、5、6、7、8、9、10个、或更多个NLS，处于或靠近羧基末端的约或超过约1、 2、3、4、5、6、7、8、9、10个、或更多个NLS，或这些的组合(例如在氨基末端处的零个或至少一个或多个NLS以及在羧基末端处的零个或至少一个或多个NLS)。当存在超过一个的NLS时，每一个可以被选择为不依赖于其他NLS，使得单一NLS可以存在于超过一个的拷贝中和/或与一个或多个其他NLS相组合存在于一个或多个拷贝中。在一些实施例中，当NLS的最近的氨基酸是在从N末端或C末端沿着该多肽链的约1、 2、3、4、5、10、15、20、25、30、40、50个、或更多个氨基酸之内时，NLS可以被认为靠近该N末端或C末端。NLS的非限制性实例包括来源于以下项的NLS序列：SV40病毒大T抗原的NLS，其具有氨基酸序列 PKKKRKV(SEQ ID NO:2)；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK(SEQ ID NO: 3)的核质蛋白二分NLS)；c-myc NLS，其具有氨基酸序列PAAKRVKLD(SEQ IDNO:4)或RQRRNELKRSP (SEQ ID NO:5)；hRNPA1 M9 NLS，其具有序列 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:6)；来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:7)；肌瘤T蛋白的序列VSRKRPRP(SEQ IDNO:8)和PPKKARED(SEQ ID NO:9)；人类p53的序列PQPKKKPL(SEQ ID NO: 10)；小鼠c-ablIV的序列SALIKKKKKMAP(SEQ ID NO:11)；流感病毒NS1的序列DRLRR(SEQ ID NO: 12)和PKQKKRK(SEQ ID NO:13)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:14)；小鼠Mx1 蛋白的序列REKKKFLKRR(SEQ ID NO:15)；人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:16)；以及类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:17)。总的来说，一个或多个NLS具有足以驱动DNA/RNA靶向Cas 蛋白在真核细胞的核中以可检测的量积累的强度。总的来说，核定位活性的强度可以来源于核酸靶向效应蛋白中的NLS数目、使用的一个或多个特定NLS、或这些因素的组合。可以通过任何合适的技术进行核中积累的检测。例如，可检测标记可以融合至核酸靶向蛋白，使得细胞内的位置可以被可视化，诸如与检测核的位置的手段(例如，对核具有特异性的染料，诸如DAPI)相组合。还可以将细胞核从细胞中分离出来，然后可以通过任何适合的用于检测蛋白质的方法分析其内容物，诸如免疫组织化学、蛋白质印迹或酶活性测定。还可以通过以下方式间接地确定核中的积累：诸如通过测定核酸靶向复合物形成的作用(例如，测定在靶序列处的DNA或RNA切割或突变、或测定由于DNA或RNA靶向复合物形成和/或DNA或RNA靶向 Cas蛋白活性的影响而改变的基因表达活性)，与没有暴露于核酸靶向Cas蛋白或核酸靶向复合物、或暴露于缺乏一个或多个NLS的核酸靶向Cas蛋白的对照进行比较。在在此所述的Cpf1效应蛋白复合物和系统的优选实施例中，密码子优化的Cpf1效应蛋白包含附接至该蛋白质的C末端的NLS。在某些实施例中，其他定位标签可以融合至Cas蛋白，诸如但不限于将Cas定位至细胞中的特定位点，这些特定位点是诸如细胞器，诸如线粒体、质粒、叶绿体、囊泡、高尔基体(核的或细胞的)、细胞膜、核糖体、小核体(nucleoluse)、 ER、细胞骨架、液泡、中心体、核小体、颗粒、中心粒等。

在一些实施例中，驱动核酸靶向系统的一种或多种元件表达的一种或多种载体被引入到宿主细胞中，以使得该核酸靶向系统的这些元件的表达能引导核酸靶向复合物在一个或多个靶位点处形成。例如，核酸靶向效应酶和核酸靶向指导RNA可以各自可操作地连接至单独载体上的单独调节元件。核酸靶向系统的一种或多种RNA可以被递送至转基因核酸靶向效应蛋白动物或哺乳动物，例如组成型地或诱导型地或条件型地表达核酸靶向效应蛋白的动物或哺乳动物；或以其他方式表达核酸靶向效应蛋白或具有含有核酸靶向效应蛋白的细胞的动物或哺乳动物，诸如通过在先向这些动物或哺乳动物给予编码或体内表达核酸靶向效应蛋白的一种或多种载体的方式。可替代地，从相同或不同调节元件表达的这些元件的两种或更多种可以组合在单一载体中，其中一种或多种另外的载体提供核酸靶向系统在第一载体中不包含的任何组分。组合于单一载体中的核酸靶向系统元件可以布置为任何适合的取向，诸如一个元件位于相对于第二元件的5'(“上游”)或相对于该第二元件的3'(“下游”)。一个元件的编码序列可以位于第二元件的编码序列的相同链或相反链上，并且取向为相同或相反方向。在一些实施例中，单一启动子驱动编码核酸靶向效应蛋白的转录物和嵌入一种或多种内含子序列之内(例如，各自在不同内含子中、两个或更多个在至少一个内含子中，或所有在单一内含子中)的核酸靶向指导RNA的表达。在一些实施例中，核酸靶向效应蛋白和核酸靶向指导RNA可以可操作地连接至同一个启动子并且从该同一启动子表达。用于表达核酸靶向系统的一个或多个元件的递送媒介物、载体、粒子、纳米粒子、配制品以及其组分如前述文献诸如WO 2014/093622 (PCT/US 2013/074667)中所使用的。在一些实施例中，载体包含一个或多个插入位点，诸如限制性内切核酸酶识别序列(也称之为“克隆位点”)。在一些实施例中，一个或多个插入位点(例如，约或超过约1、 2、3、4、5、6、7、8、9、10个、或更多个插入位点)位于一种或多种载体的一个或多个序列元件的上游和/或下游。当使用多个不同的指导序列时，可以使用单一表达构建体来使核酸靶向活性靶向细胞内的多个不同的相应靶序列。例如，单一载体可以包含约或超过约1、2、3、4、5、6、7、8、9、10、15、20个、或更多个指导序列。在一些实施例中，可以提供约或超过约1、2、3、4、5、6、7、8、9、10个、或更多个含有此指导序列的载体，并且任选地将其递送至细胞中。在一些实施例中，载体包含可操作地连接至编码核酸靶向效应蛋白的酶编码序列的调节元件。可以单独地递送核酸靶向效应蛋白或一个或多个核酸靶向指导RNA；并且有利的是这些中的至少一者经由粒子复合物递送。核酸靶向效应蛋白mRNA可以在核酸靶向指导RNA在给出时间以待核酸靶向效应蛋白表达之前递送。核酸靶向效应蛋白mRNA可以在给予核酸靶向指导RNA之前1-12小时(优选约2-6小时)给予。可替代地，核酸靶向效应蛋白mRNA和核酸靶向指导RNA 可以一起给予。有利地，指导RNA的第二加强剂量可以在初始给予核酸靶向效应蛋白mRNA+指导RNA 之后1-12小时(优选约2-6小时)给予。为了实现最有效的基因组修饰水平，核酸靶向效应蛋白mRNA和/ 或指导RNA的附加给予可能是有用的。

在一个方面中，本发明提供了用于使用核酸靶向系统的一个或多个元件的方法。本发明的核酸靶向复合物提供了一种用于修饰靶DNA或RNA(单链或双链、直链或超螺旋的)的有效手段。本发明的核酸靶向复合物具有多种多样的效用，包括修饰(例如，缺失、插入、易位、失活、激活)许多细胞类型中的靶DNA或RNA。这样，本发明的核酸靶向复合物在例如基因治疗、药物筛选、疾病诊断以及预后方面具有广泛的应用。示例性核酸靶向复合物包含与杂交至感兴趣的靶座位内的靶序列的指导RNA复合的DNA 或RNA靶向效应蛋白。

在一个实施例中，本发明提供了一种切割靶RNA的方法。该方法可以包括使用结合靶RNA的核酸靶向复合物修饰靶RNA并且实施所述靶RNA的切割。在一个实施例中，本发明的核酸靶向复合物在被引入到细胞中时可以产生RNA序列的断裂(例如单链或双链断裂)。例如，该方法可以用于切割细胞中的疾病相关RNA。例如，可以将包含有待整合的侧接一个上游序列和一个下游序列的序列的外源性RNA模板引入到细胞中。上游序列和下游序列与RNA中整合位点的任一侧享有序列相似性。当希望时，供体RNA可以是mRNA。外源性RNA模板包含有待整合的序列(例如，突变型RNA)。供整合的序列可以是对细胞而言内源或外源的序列。有待整合的序列的实例包括编码蛋白质的RNA或非编码RNA(例如，微小RNA)。因此，供整合的序列可以可操作地连接至一种或多种适当的控制序列。可替代地，有待整合的序列可以提供调节功能。外源性RNA模板中的上游序列和下游序列被选择为促进感兴趣的RNA序列与供体RNA之间的重组。上游序列是与供整合的靶向位点的上游的RNA序列享有序列相似性的RNA序列。类似地，下游序列是与整合的靶向位点的下游的RNA序列享有序列相似性的RNA序列。外源性RNA模板中的上游序列和下游序列与靶向的RNA序列可以具有75％、80％、85％、90％、95％或100％序列一致性。优选地，外源性RNA 模板中的上游序列和下游序列与靶向的RNA序列具有约95％、96％、97％、98％、99％或100％序列一致性。在一些方法中，外源性RNA模板中的上游序列和下游序列与靶向的RNA序列具有约99％或100％序列一致性。上游序列或下游序列可以包含从约20bp至约2500bp，例如约50、100、200、300、400、500、600、 700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、 2300、2400或2500bp。在一些方法中，示例性上游序列或下游序列具有约200bp至约2000bp、约600bp至约1000bp，或更具体地约700bp至约1000bp。在一些方法中，外源性RNA模板可以进一步包含标记物。此标记物可以使得容易地筛选靶向的整合。适合的标记物的实例包括限制性位点、荧光蛋白或选择标记物。可以使用重组技术构建本发明的外源性RNA模板(例如参见，萨姆布鲁克(Sambrook)等人，2001和奥苏贝尔(Ausubel)等人，1996)。在用于通过整合外源性RNA模板来修饰靶RNA的方法中，通过核酸靶向复合物将断裂(例如在双链或单链DNA或RNA中的双链或单链断裂)引入到DNA或RNA序列中，经由与外源性RNA模板的同源重组而修复该断裂，这样使得将该模板整合到RNA靶中。双链断裂的存在促进模板的整合。在其他实施例中，本发明提供了一种修饰RNA在真核细胞中的表达的方法。该方法包括通过使用结合DNA或RNA(例如，mRNA或前mRNA)的核酸靶向复合物增加或减少靶多核苷酸的表达。在一些方法中，可以使靶RNA失活以实施细胞中的表达的修饰。例如，在RNA靶向复合物与细胞中的靶序列结合后，靶RNA失活，这样使得该序列不被翻译，该编码蛋白不被产生，或者该序列不会像野生型序列一样起作用。例如，可以使蛋白质或微小RNA编码序列失活，这样使得该蛋白质或微小RNA或前微小RNA转录物不被产生。RNA靶向复合物的靶RNA可以是对真核细胞而言内源或外源的任何RNA。例如，靶RNA可以是驻留在真核细胞核内的RNA。靶RNA可以是编码基因产物(例如，蛋白质)的序列(mRNA或前mRNA)或非编码序列(例如，ncRNA、lncRNA、tRNA或rRNA)。靶mRNA的实例包括与信号传导生物化学途径相关联的序列，例如信号传导生物化学途径相关的RNA。靶RNA的实例包括疾病相关的RNA。“疾病相关”RNA 是指与非疾病对照的组织或细胞相比，在来源于疾病影响的组织的细胞中产生异常水平或异常形式的翻译产物的任何RNA。它可以是由以异常高的水平表达的基因转录的RNA；它可以是由以异常低的水平表达的基因转录的RNA，其中改变的表达与疾病的发生和/或进展相关。疾病相关RNA还是指由下述基因转录的 RNA：该基因具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。翻译的产物可以是已知或未知的，并且可以是处于正常或异常水平。RNA靶向复合物的靶RNA 可以是对真核细胞而言内源或外源的任何RNA。例如，靶RNA可以是驻留在真核细胞核内的RNA。靶RNA 可以是编码基因产物(例如，蛋白质)的序列(mRNA或前mRNA)或非编码序列(例如，ncRNA、lncRNA、 tRNA或rRNA)。

在一些实施例中，该方法可以包括使得核酸靶向复合物结合靶DNA或RNA来实施所述靶DNA 或RNA的切割，从而修饰该靶DNA或RNA，其中该核酸靶向复合物包含与杂交至所述靶DNA或RNA内的靶序列的指导RNA复合的核酸靶向效应蛋白。在一个方面中，本发明提供了一种修饰DNA或RNA在真核细胞中的表达的方法。在一些实施例中，该方法包括使得核酸靶向复合物结合DNA或RNA，以使得所述结合导致所述DNA或RNA的表达增加或减少；其中该核酸靶向复合物包含与指导RNA复合的核酸靶向效应蛋白。类似的考虑因素和条件适用如上文针对修饰靶DNA或RNA的方法。实际上，这些取样、培养和重新引入选择跨本发明的多个方面而适用。在一个方面中，本发明提供了修饰真核细胞中的靶DNA或RNA的方法，这些方法可以是在体内、离体或在体外。在一些实施例中，该方法包括从人类或非人类动物取样细胞或细胞群体，并且修饰该细胞或这些细胞。培养可以发生在离体的任何阶段。该细胞或这些细胞甚至可以被重新引入非人类动物或植物中。对于重新引入的细胞，特别优选的是这些细胞是干细胞。

实际上，在本发明的任何方面中，核酸靶向复合物可以包含与杂交至靶序列的指导RNA复合的核酸靶向效应蛋白。

本发明涉及用于控制涉及DNA或RNA序列靶向的基因表达的系统、方法以及组合物的工程化和优化，这些系统、方法以及组合物与核酸靶向系统及其组分相关。在有利的实施例中，效应酶是V型/VI 型蛋白诸如Cpf1/C2c1/C2c2。本发明方法的一个优点是CRISPR系统最小化了或避免了脱靶结合及其产生的副作用。这是使用布置为对靶DNA或RNA具有高度序列特异性的系统来实现的。

关于核酸靶向复合物或系统，优选地，crRNA序列具有一个或多个茎环或发夹并且具有30个或更多个核苷酸的长度，40或更多个核苷酸的长度，或50个或更多个核苷酸的长度；crRNA序列的长度介于10个至30个核苷酸之间，核酸靶向效应蛋白是V型/VI型Cas酶。在某些实施例中，crRNA序列的长度介于42个与44个核苷酸之间，并且核酸靶向Cas蛋白是土拉热弗朗西丝菌新杀手亚种U112的Cpf1。在某些实施例中，crRNA包含具有19个核苷酸的同向重复序列和具有介于23个与25个之间核苷酸的间隔区序列、基本上由或由该同向重复序列和该间隔区序列组成，并且核酸靶向Cas蛋白是土拉热弗朗西丝菌新杀手亚种U112的Cpf1。

使用两种不同的适配子(各自与不同的核酸靶向指导RNA缔合)允许通过不同的核酸靶向指导RNA来使用激活因子-衔接蛋白融合物和阻遏物-衔接蛋白融合物，以激活一种DNA或RNA的表达，同时阻遏另一种。它们可以与它们的不同指导RNA一起、或大体上一起以多重途径给予。大量的这样的修饰核酸靶向指导RNA(例如10或20或30个等)可以同时全部使用，而仅需要递送一个(或至少最小数目的)效应蛋白分子，因为相对较小数目的效应蛋白分子可以与大量的修饰指导序列一起使用。衔接蛋白可以与一个或多个激活因子或一个或多个阻遏物缔合(优选连接或融合)。例如，衔接蛋白可以与第一激活因子和第二激活因子缔合。第一激活因子和第二激活因子可以是相同的，但是它们优选是不同的激活因子。可以使用三个或更多个或甚至四个或更多个激活因子(或阻遏物)，但是包装尺寸可能限制大于5个不同功能结构域的数目。优选使用接头，通过与衔接蛋白的直接融合来使用，其中两个或更多个结构功能域与衔接蛋白缔合。适合接头可以包括GlySer接头。

还设想的是作为整体的核酸靶向效应蛋白指导RNA复合物可以与两个或更多个结构功能域缔合。例如，可以存在与核酸靶向效应蛋白缔合的两个或更多个功能结构域，或者可以存在与指导RNA缔合 (经由一种或多种适配子蛋白)的两个或更多个功能结构域，或者可以存在与核酸靶向效应蛋白缔合的一个或多个功能结构域和与指导RNA缔合(经由一种或多种适配子蛋白)的一个或多个功能结构域。

衔接蛋白与激活因子或阻遏物之间的融合物可以包含接头。例如，可以使用GlySer接头GGGS (SEQ ID NO:18)。根据需要，它们可以3个((GGGGS)₃(SEQ ID NO:19))或6个(SEQ ID NO:20)、9 个(SEQ ID NO:21)或甚至12个(SEQ ID NO:22)或更多个的重复单元来使用以提供适合的长度。指导 RNA与功能结构域(激活因子或阻遏物)之间、核酸靶向Cas蛋白(Cas)与功能结构域(激活因子或阻遏物)之间可以使用接头。接头用于工程化适当的“机械柔性”度。

本发明包括包含核酸靶向效应蛋白和指导RNA的核酸靶向复合物，其中核酸靶向效应蛋白包含至少一个突变，使得核酸靶向效应蛋白具有不超过不具有该至少一个突变的核酸靶向效应蛋白的活性的 5％的活性，和任选的至少一个或多个核定位序列；指导RNA包含能够与细胞中的感兴趣的RNA中的靶序列杂交的指导序列；并且其中：核酸靶向效应蛋白与两个或更多个功能结构域缔合；或者指导RNA的至少一个环是通过插入结合一种或多种衔接蛋白的一种或多种不同的RNA序列来修饰的，并且其中该衔接蛋白与两个或更多个功能结构域缔合；或者核酸靶向Cas蛋白与一个或多个功能结构域缔合并且指导RNA的至少一个环是通过插入结合一种或多种衔接蛋白的一种或多种不同的RNA序列来修饰的，并且其中该衔接蛋白与一个或多个功能结构域缔合。

在一个方面中，本发明提供了一种产生包含突变型疾病相关基因的模型真核细胞的方法。在一些实施例中，疾病相关基因是与患病或发展病的风险的增加相关联的任何基因。在一些实施例中，该方法包括(a)将一种或多种载体引入到真核细胞中，其中一种或多种载体驱动以下项中的一个或多个的表达：Cpf1酶和包含连接至同向重复序列的指导序列的受保护的指导RNA；并且(b)使得CRISPR复合物结合靶多核苷酸以实施所述疾病相关基因内的靶多核苷酸的切割，其中CRISPR复合物包含与包含杂交至靶多核苷酸内的靶序列的序列的指导RNA复合的Cpf1酶，从而产生包含突变型疾病相关基因的模型真核细胞。在一些实施例中，所述切割包括通过所述Cpf1酶切割靶序列的位置处的一条或两条链。在一些实施例中，所述切割使得靶基因的转录减少。在一些实施例中，该方法进一步包括使用外源性模板多核苷酸通过基于非同源末端连接(NHEJ)的基因插入机制修复所述切割的靶多核苷酸，其中所述修复产生包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代的突变。在一些实施例中，所述突变使得来自包含靶序列的基因的蛋白质表达发生一个或多个氨基酸的变化。

在一个方面中，本发明提供了如在此所讨论的方法，其中该宿主是真核细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是哺乳动物细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是非人类真核细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该非人类真核细胞是非人类哺乳动物细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中非人类哺乳动物细胞可以是包括但不限于，灵长类动物、牛、羊、猪类、犬、啮齿动物、兔科诸如猴、母牛、绵羊、猪、狗、兔、大鼠或小鼠的细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，该细胞可以是非哺乳动物真核细胞诸如家禽鸟类(例如鸡)、脊椎动物鱼(例如鲑鱼)或甲壳类动物(例如牡蛎、蛤、龙虾、虾)的细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，该非人类真核细胞是植物细胞。植物细胞可以是单子叶植物或双子叶植物具有的细胞或栽培植物或粮食植物诸如木薯、玉米、高粱、大豆、小麦、燕麦或稻具有的细胞。植物细胞还可以是藻类、树或生产植物、果实或蔬菜(例如，树类诸如柑橘树，例如桔子树、葡萄柚树或柠檬树；桃树或油桃树；苹果树或梨树；坚果树诸如杏树或核桃树或阿月浑子树；茄属植物；芸苔属植物；莴苣属植物；菠菜属植物；辣椒属植物；棉花、烟草、芦笋、胡萝卜、甘蓝、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等)具有的细胞。

在一个方面中，本发明提供了一种用于开发调控与疾病相关基因相关联的细胞信号传导事件的生物活性剂的方法。在一些实施例中，疾病相关基因是与患病或发展病的风险的增加相关联的任何基因。在一些实施例中，该方法包括(a)使测试化合物与任一种以上所述实施例的模型细胞接触；并且(b)检测指示与所述疾病相关基因中的所述突变相关联的细胞信号传导事件的减少或增加的读出变化，从而开发调控与所述疾病相关基因相关联的所述细胞信号传导事件的所述生物活性剂。

在一个方面中，本发明提供了一种通过在一个或多个细胞的基因中引入一个或多个突变来选择一个或多个细胞的方法，该方法包括：将一种或多种载体引入到一个或多个细胞中，其中一种或多种载体驱动以下项中的一个或多个的表达：Cpf1、连接至同向重复序列的指导序列，以及编辑模板；其中编辑模板包含废除Cpf1切割的一个或多个突变；使得编辑模板与有待选择的一个或多个细胞中的靶多核苷酸同源重组；使得Cpf1 CRISPR-Cas复合物结合靶多核苷酸以实施所述基因内的靶多核苷酸的切割，其中Cpf1 CRISPR-Cas复合物包含与(1)杂交至靶多核苷酸内的靶序列的指导序列，和(2)同向重复序列复合的Cpf1，其中Cpf1 CRISPR-Cas复合物与靶多核苷酸的结合诱导细胞死亡，从而使得其中已引入一个或多个突变的一个或多个细胞被选择；此Cpf1包括本发明的拆分的Cpf1。在本发明的另一个优选实施例中，有待选择的细胞可以是真核细胞。本发明的方面允许在不需要选择标记物或可能包括反选择系统的两步法的情况下选择特异性细胞。在特定实施例中，模型真核细胞包含在模型真核生物体之内。

在一个方面中，本发明提供了一种包含同向重复序列的下游的指导序列的重组多核苷酸，其中在表达时，指导序列引导Cpf1 CRISPR-Cas复合物与真核细胞中存在的相应靶序列的序列特异性结合。在一些实施例中，靶序列是真核细胞中存在的病毒序列。在一些实施例中，靶序列是原癌基因或癌基因。

在一个方面中，本发明提供了一种包含以下项的载体系统或真核宿主细胞：(a)可操作地连接至同向重复序列的第一调节元件和用于将一种或多种指导序列(包括如在此所述的任一种修饰指导序列) 插入DR序列的下游的一个或多个插入位点，其中在表达时，指导序列引导Cpf1 CRISPR-Cas复合物与真核细胞中的靶序列的序列特异性结合，其中Cpf1 CRISPR-Cas复合物包含与杂交至靶序列的指导序列(和任选地DR序列)复合的Cpf1(包括如在此所述的任一种修饰酶)；和/或(b)可操作地连接至编码包含核定位序列和/或NES的所述Cpf1酶的酶编码序列的第二调节元件。在一些实施例中，宿主细胞包含组分(a)和 (b)。在一些实施例中，组分(a)、组分(b)或组分(a)和(b)被稳定地整合到宿主真核细胞的基因组中。在一些实施例中，组分(a)进一步包含可操作地连接至第一调节元件的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导Cpf1 CRISPR-Cas复合物与真核细胞中的不同靶序列的序列特异性结合。.在一些实施例中，CRISPR酶包含具有足以驱动所述CRISPR酶在真核细胞的核中和/或之外以可检测的量积累的强度的一个或多个核定位序列和/或核输出序列或NES。在一些实施例中，Cpf1酶来源于土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌或猕猴卟啉单胞菌的Cpf1，包括如在此所述的任一种修饰酶，并且可以进一步包含Cpf1的改变或突变，并且可以是嵌合Cpf1。.在一些实施例中，CRISPR酶被密码子优化为在真核细胞中表达。在一些实施例中，CRISPR酶引导靶序列位置处的一条或两条链的切割。在一个优选实施例中，链断裂是交错切割的，产生了5'突出端。在一些实施例中，Cpf1缺乏DNA链切割活性(例如，与野生型酶或不具有降低核酸酶活性的突变或改变的酶相比的不超过5％的核酸酶活性)。在一些实施例中，第一调节元件是聚合酶III启动子。在一些实施例中，第二调节元件是聚合酶II启动子。在一些实施例中，同向重复序列具有16个核苷酸的最小长度并且具有单一茎环。在另外的实施例中，同向重复序列具有长于16个核苷酸，优选超过17个核苷酸的长度，并且具有超过一个的茎环或优化的二级结构。在一些实施例中，指导序列的长度是至少16、17、18、19、20、25个核苷酸，或介于16个-30个、或介于16个-25个、或介于16个-20个核苷酸之间。

在一个方面中，本发明提供了一种包含在此所述的一种或多种组分的试剂盒。在一些实施例中，试剂盒包括如在此所述的载体系统或宿主细胞和用于使用试剂盒的说明书。

修饰的Cpf1酶

Cpf1核酸酶初级结构的计算分析揭示了三个不同的区(图1)。第一是C末端RuvC样结构域，其是仅功能表征的结构域。第二是N末端α-螺旋区并且第三是位于RuvC样结构域与α-螺旋区之间的混合的α 区和β区。

预测非结构化区的若干小片段在Cpf1初始结构之内。对于小的蛋白质序列的拆分和插入而言，不同的Cpf1直向同源物内的暴露于溶剂且不保守的非结构化区是优选的侧面(图2和3)。另外，这些侧面可以用于在Cpf1直向同源物之间产生嵌合蛋白。

基于以上信息，可以产生突变体，这些突变体使得酶失活或将双链核酸酶修饰为具有切口酶活性。在替代实施例中，此信息用于开发具有减小的脱靶效应的酶(在此其他地方所述的)。

在某些以上所述的Cpf1酶中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于根据FnCpf1蛋白或任何相应的直向同源物的位置D917、E1006、E1028、D1227、D1255A、N1257。在一个方面中，本发明提供了一种在此所讨论的组合物，其中Cpf1酶是失活的酶，该酶包含选自下组的一个或多个突变，该组由下项组成：根据FnCpf1蛋白的D917A、E1006A、E1028A、D1227A、D1255A、N1257A、 D917A、E1006A、E1028A、D1227A、D1255A和N1257A，或Cpf1直向同源物中的相应位置。在一个方面中，本发明提供了一种在此所讨论的组合物，其中CRISPR酶包含根据FnCpf1蛋白的D917或E1006和D917 或D917和D1255，或Cpf1直向同源物中的相应位置。

在某些以上所述的Cpf1酶中，酶是通过一个或多个残基(在RuvC结构域中)的突变来修饰的，这些残基包括但不限于参照AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置R909、R912、 R930、R947、K949、R951、R955、K965、K968、K1000、K1002、R1003、K1009、K1017、K1022、K1029、 K1035、K1054、K1072、K1086、R1094、K1095、K1109、K1118、K1142、K1150、K1158、K1159、R1220、 R1226、R1242和/或R1252。

在某些以上所述的非天然存在的CRISPR酶中，酶是通过一个或多个残基(在RAD50结构域中) 的突变来修饰的，这些残基包括但不限于参照AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置K324、K335、K337、R331、K369、K370、R386、R392、R393、K400、K404、K406、K408、K414、 K429、K436、K438、K459、K460、K464、R670、K675、R681、K686、K689、R699、K705、R725、K729、 K739、K748和/或K752。

在某些Cpf1酶中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照 AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置R912、T923、R947、K949、R951、R955、 K965、K968、K1000、R1003、K1009、K1017、K1022、K1029、K1072、K1086、R1103、R1226和/或R1252。

在某些实施例中，Cpf1酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照LbCpf1(毛螺旋菌科细菌ND2006)的氨基酸位置编码的位置R833、R836、K847、K879、K881、R883、 R887、K897、K900、K932、R935、K940、K948、K953、K960、K984、K1003、K1017、R1033、R1138、 R1165和/或R1252。

在某些实施例中，Cpf1酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置K15、R18、K26、Q34、R43、K48、K51、 R56、R84、K85、K87、N93、R103、N104、T118、K123、K134、R176、K177、R192、K200、K226、 K273、K275、T291、R301、K307、K369、S404、V409、K414、K436、K438、K468、D482、K516、R518、 K524、K530、K532、K548、K559、K570、R574、K592、D596、K603、K607、K613、C647、R681、K686、 H720、K739、K748、K757、T766、K780、R790、P791、K796、K809、K815、T816、K860、R862、R863、 K868、K897、R909、R912、T923、R947、K949、R951、R955、K965、K968、K1000、R1003、K1009、 K1017、K1022、K1029、A1053、K1072、K1086、F1103、S1209、R1226、R1252、K1273、K1282和/或 K1288。

在某些实施例中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照 FnCpf1(新杀手弗朗西斯菌U112)的氨基酸位置编码的位置K15、R18、K26、R34、R43、K48、K51、K56、 K87、K88、D90、K96、K106、K107、K120、Q125、K143、R186、K187、R202、K210、K235、K296、 K298、K314、K320、K326、K397、K444、K449、E454、A483、E491、K527、K541、K581、R583、K589、 K595、K597、K613、K624、K635、K639、K656、K660、K667、K671、K677、K719、K725、K730、K763、 K782、K791、R800、K809、K823、R833、K834、K839、K852、K858、K859、K869、K871、R872、K877、 K905、R918、R921、K932、I960、K962、R964、R968、K978、K981、K1013、R1016、K1021、K1029、 K1034、K1041、K1065、K1084和/或K1098。

在某些实施例中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照 LbCpf1(毛螺旋菌科细菌ND2006)的氨基酸位置编码的位置K15、R18、K26、K34、R43、K48、K51、 R56、K83、K84、R86、K92、R102、K103、K116、K121、R158、E159、R174、R182、K206、K251、 K253、K269、K271、K278、P342、K380、R385、K390、K415、K421、K457、K471、A506、R508、K514、 K520、K522、K538、Y548、K560、K564、K580、K584、K591、K595、K601、K634、K640、R645、K679、 K689、K707、T716、K725、R737、R747、R748、K753、K768、K774、K775、K785、K787、R788、Q793、 K821、R833、R836、K847、K879、K881、R883、R887、K897、K900、K932、R935、K940、K948、K953、 K960、K984、K1003、K1017、R1033、K1121、R1138、R1165、K1190、K1199和/或K1208。

在某些实施例中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照 MbCpf1(牛莫拉氏菌237)的氨基酸位置编码的位置K14、R17、R25、K33、M42、Q47、K50、D55、K85、 N86、K88、K94、R104、K105、K118、K123、K131、R174、K175、R190、R198、I221、K267、Q269、 K285、K291、K297、K357、K403、K409、K414、K448、K460、K501、K515、K550、R552、K558、K564、 K566、K582、K593、K604、K608、K623、K627、K633、K637、E643、K780、Y787、K792、K830、Q846、 K858、K867、K876、K890、R900、K901、M906、K921、K927、K928、K937、K939、R940、K945、Q975、 R987、R990、K1001、R1034、I1036、R1038、R1042、K1052、K1055、K1087、R1090、K1095、N1103、 K1108、K1115、K1139、K1158、R1172、K1188、K1276、R1293、A1319、K1340、K1349和/或K1356。

去活的/失活的Cpf1蛋白

在Cpf1蛋白具有核酸酶活性的情况下，Cpf1蛋白可以被修饰成具有减弱的核酸酶活性，例如，与野生型酶相比，具有至少70％、至少80％、至少90％、至少95％、至少97％或100％的核酸酶失活；或者换句话说，Cpf1酶有利地具有非突变型或野生型Cpf1酶或CRISPR酶的核酸酶活性的约0％，或不超过非突变型或野生型Cpf1酶的核酸酶活性的约3％或约5％或约10％，这些酶例如是属于非突变型或野生型新杀手弗朗西斯菌U112(FnCpf1)、氨基酸球菌属某种BV3L6(AsCpf1)、毛螺旋菌科细菌ND2006(LbCpf1)或牛莫拉氏菌237(MbCpf1 Cpf1酶或CRISPR酶)的。有可能通过将突变引入到Cpf1和其直向同源物的核酸酶结构域中实现此举。

更具体地，失活的Cpf1酶包括在AsCpf1的氨基酸位置As908、As993、As1263或Cpf1直向同源物中的相应位置突变的酶。另外，失活的Cpf1酶包括在LbCpf1的氨基酸位置Lb832、925、947或 1180或Cpf1直向同源物中的相应位置突变的酶。更具体地，失活的Cpf1酶包括包含AsCpf1的突变 AsD908A、AsE993A、AsD1263A或Cpf1直向同源物中的相应突变中的一个或多个的酶。另外，失活的 Cpf1酶包括包含LbCpf1的突变LbD832A、E925A、D947A或D1180A或Cpf1直向同源物中的相应突变中的一个或多个的酶。

失活的Cpf1 CRISPR酶可以具有缔合的(例如经由融合蛋白)一个或多个功能结构域，包括例如来自包括下项，或基本上由或由下项组成的组的一个或多个结构域：甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性以及分子开关(例如光诱导型的)。优选的结构域是Fok1、VP64、P65、HSF1、MyoD1。在提供的是Fok1的情况下，有利的是提供多个Fok1功能结构域以实现功能二聚体并且gRNA被设计为提供适当间隔以用于功能性的使用(Fok1)，如蔡(Tsai)等人自然生物技术，第32卷，第2期，2014年6月)中具体描述的。衔接蛋白可以利用已知的接头来附接此类功能结构域。在一些情况下，有利的是另外提供至少一个NLS。在一些情况下，将NLS定位在N末端处是有利的。当包含超过一个的功能结构域时，功能结构域可以是相同或不同的。

总的来说，一个或多个功能结构域在失活的Cpf1酶上的定位是允许功能结构域的正确空间取向，从而以属性化的功能效应影响靶的定位。例如，如果功能结构域是转录激活因子(例如，VP64或p65)，则转录激活因子被定位成允许其影响靶的转录的空间取向。同样地，转录阻遏物将有利地定位成影响靶的转录，并且核酸酶(例如Fok1)将有利地定位成切割或部分切割靶。此可以包括除CRISPR酶的N末端/C末端之外的位置。

去稳定化的Cpf1

在某些实施例中，如在此所述的根据本发明的效应蛋白(CRISPR酶；Cpf1)与去稳定化的结构域(DD)缔合或融合。在一些实施例中，DD是ER50。在一些实施例中，此DD的相应的稳定化配体是 4HT。这样，在一些实施例中，至少一个DD中的一个是ER50并且因此稳定化配体是4HT或CMP8。在一些实施例中，DD是DHFR50。在一些实施例中，此DD的相应的稳定化配体是TMP。这样，在一些实施例中，至少一个DD中的一个是DHFR50并且因此稳定化配体是TMP。在一些实施例中，DD是ER50。在一些实施例中，此DD的相应的稳定化配体是CMP8。因此，在ER50系统中CMP8可以是4HT的替代性稳定化配体。虽然有可能CMP8和4HT可以/应该使用在竞争事件中，但是一些细胞类型可以对这两种配体中的一个或另一个更易感，并且根据本披露和本领域的知识，技术人员可以使用CMP8和/或4HT。

在一些实施例中，在一个或两个DD融合至CRISPR酶的C末端的情况下，一个或两个DD可以融合至CRISPR酶的N末端。在一些实施例中，至少两个DD与CRISPR酶缔合并且这些DD是相同的DD，即这些DD是同源的。因此，两个(或两个或更多个)DD可以是ER50 DD。这在一些实施例中是优选的。可替代地，两个(或两个或更多个)DD可以是DHFR50 DD。这在一些实施例中也是优选的。在一些实施例中，至少两个DD与CRISPR酶缔合并且这些DD是不同的DD，即这些DD是异源的。因此，一个DD可以是 ER50，而一个或多个DD或任何其他DD可以是DHFR50。具有为异源的两个或更多个DD可能是有利的，因为其将提供更大的降解控制水平。在N末端或C末端处超过一个的DD的衔接融合可以增强降解；并且此衔接融合可以是例如ER50-ER50-C2c2或DHFR-DHFR-Cpf1。设想的是高的降解水平将在不存在任一稳定化配体的情况下发生，中等的降解水平将在不存在一种稳定化配体并且存在其他(或另一)稳定化配体的情况下发生，而低的降解水平将在存在两种(两种或更多种)稳定化配体的情况下发生。控制还可以通过具有 N末端的ER50 DD和C末端的DHFR50 DD来赋予。

在一些实施例中，CRISPR酶与DD的融合物包括在DD与CRISPR酶之间的接头。在一些实施例中，接头为GlySer接头。在一些实施例中，DD-CRISPR酶进一步包含至少一个核输出信号(NES)。在一些实施例中，DD-CRISPR酶包含两个或更多个NES。在一些实施例中，DD-CRISPR酶包含至少一个核定位信号(NLS)。这可以与NES相附加。在一些实施例中，CRISPR酶包含下项或基本上由或由下项组成：作为CRISPR酶与DD之间的接头或作为该接头的一部分的定位(核输入或输出)信号。HA或Flag标签作为接头也在本发明的范围之内。申请人使用NLS和/或NES作为接头并且还使用如最高至(GGGGS)3的GS一样短的甘氨酸丝氨酸接头。

去稳定化结构域具有向宽范围的蛋白质赋予不稳定性的一般效用；例如参见宫崎(Miyazaki)，美国化学学会杂志(J Am Chem Soc.)，2012年3月7日；134(9):3942-3945，该文献通过引用结合在此。CMP8 或4-羟基他莫昔芬(4-hydroxytamoxifen)可以是去稳定化的结构域。更一般地说，哺乳动物DHFR的温度敏感突变体(DHFRts)，N端法则的去稳定化残基被发现在许可温度下是稳定的，但是在37℃下是不稳定的。向表达DHFRts的细胞添加甲氨蝶呤即哺乳动物DHFR的高亲和力配体部分地抑制了蛋白质的降解。这重要地证明了小分子配体可以稳定化细胞中以其他方式被靶向降解的蛋白质。雷帕霉素衍生物用于稳定化mTOR的FRB结构域(FRB^*)的不稳定突变体并且恢复融合激酶GSK-3β.6,7的功能。此系统证明了配体依赖性的稳定性代表了用于调节复合物生物环境中的特异性蛋白的功能的有吸引力的策略。用于控制蛋白质活性的系统可以涉及当通过雷帕霉素诱导的FK506结合蛋白和FKBP12的二聚化发生泛素互补时DD变成功能性的。人类FKBP12或ecDHFR蛋白的突变体可以被工程化为分别在不存在其高亲和力配体Shield-1或甲氧苄啶(TMP)的情况下是代谢不稳定的。这些突变体是可用于本发明的实践中的一些可能去稳定化的结构域(DD)并且与CRISPR酶形成融合物的DD的不稳定性使得蛋白酶体对整个融合蛋白的CRISPR蛋白进行降解。Shield-1和TMP结合DD并且以剂量依赖性的方式稳定化DD。雌激素受体配体结合结构域(ERLBD， ERS1的残基305-549)也可以被工程化为去稳定化的结构域。因为雌激素受体信号传导途径涉及多种疾病诸如乳腺癌，该途径已被广泛研究并且已经开发出雌激素受体的许多激动剂和拮抗剂。因此，相容的ERLBD 和药物对是已知的。存在结合ERLBD的突变体但不结合其野生型形式的配体。通过使用这些编码三个突变 (L384M、M421G、G521R)12的突变体结构域中的一个，有可能使用不扰乱内源性雌激素敏感网络的配体来调节ERLBD源的DD的稳定性。可以引入另外的突变(Y537S)以进一步去稳定化ERLBD并且将其构造为潜在的DD候选物。四突变体是有利的DD改进。突变体ERLBD可以被融合至CRISPR酶并且其稳定性可以使用配体来调控或扰乱，由此CRISPR酶具有DD。另一种DD可以是基于突变型FKBP蛋白、由Shield1 配体稳定化的12-kDa(107个氨基酸)的标签；例如参见，自然方法(NatureMethods)5,(2008)。例如， DD可以是修饰的FK506结合蛋白12(FKBP12)，其结合合成的、生物惰性的小分子Shield-1并且由该Shield-1 可逆地稳定化；例如参见巴纳斯特·LA(Banaszynski LA)、陈·LC(Chen LC)、梅娜德-史密斯·LA (Maynard-Smith LA)、黄·AG(Ooi AG)、万德莱斯·TJ(Wandless TJ)，一种使用合成的小分子调节活细胞中的蛋白质功能的快速可逆并可调的方法(A rapid,reversible,and tunable method to regulateprotein function in living cells using synthetic small molecules)，细胞，2006；126:995-1004；巴纳斯特·LA、塞尔米厄·MA(Sellmyer MA)、康塔格·CH(Contag CH)、万德莱斯·TJ，索恩·SH(Thorne SH)，活小鼠中的蛋白质稳定性和功能的化学控制(Chemical control of protein stability and function in living mice)，自然医学(Nat Med.)2008；14:1123-1127；梅娜德-史密斯·LA，陈·LC，巴纳斯特·LA，黄·AG，万德莱斯·TJ，一种用于使用生物沉默的小分子工程化条件蛋白稳定性的定向法(A directedapproach for engineering conditional protein stability using biologicallysilent small molecules)，生物化学杂志(The Journal of biological chemistry)，2007；282:24866-24872；以及罗德里格斯(Rodriguez)，化学生物学(Chem Biol.)2012年3月23日； 19(3):391-398-所有文献通过引用结合在此并且在选择与本发明的实践中的CRISPR酶缔合的DD中可以应用在本发明的实践中。如可以看出的，本领域知识包括许多DD，并且DD可以有利地通过接头与CRISPR 酶缔合，例如融合，由此DD在存在配体的情况下可以是稳定化的并且当不存在该配体时，DD可以是去稳定化的，由此CRISPR酶被完全去稳定化，或者DD在不存在配体的情况下可以是稳定化的并且当存在配体时，DD可以变成去稳定化的；DD允许CRISPR酶和因此CRISPR-Cas复合物或系统被调节或控制-可以说开启或关闭，从而提供用于例如在体内或体外环境中调节或控制系统的手段。例如，当感兴趣的蛋白质与DD 标签作为融合物一起表达时，该蛋白质被去稳定化并且在细胞中例如被蛋白酶体快速降解。因此，不存在稳定化的配体使得DD缔合的Cas被降解。当新的DD被融合至感兴趣的蛋白质时，该DD的不稳定性被赋予至感兴趣的蛋白质，从而使得整个融合蛋白快速降解。Cas的峰值活性有时对降低脱靶效应是有益的。因此，高活性的突释(bursts)是优选的。本发明能够提供此类峰值。在某种意义上，该系统是诱导型的。在一些其他意义上，在不存在稳定化配体情况下系统被阻遏并且在存在稳定化配体的情况下系统被去阻遏。

降低脱靶效应的酶突变

在一个方面中，本发明提供了一种非天然发生的或工程化的CRISPR酶，优选第2类CRISPR酶，优选如在此所述的型V或VI CRISPR酶，诸如优选地，但不限于如在此其他地方所述的具有使得脱靶效应降低的一个或多个突变的Cpf1，即用于诸如当与指导RNA复合时对靶座位实施修饰但降低或消除朝向脱靶的活性的改进CRISPR酶，以及用于诸如当与指导RNA复合时增加CRISPR酶活性的改进CRISPR酶。应该理解的是，如下文所述的突变型酶可以用于在此其他地方所述的根据本发明的任一方法中。如在此其他地方所述的方法、产物、组合物和用途中的任一种是同样适用于如下文进一步详述的突变型CRISPR酶。应该理解的是，在如在此所述的方面和实施例中，当提及或解读作为CRISPR酶的Cpf1时，功能CRISPR-Cas 系统的重构优选不需要或不依赖于tracr序列并且/或者同向重复序列是指导(靶或间隔区)序列的5′(上游)。

作为进一步指导，提供了以下的特定方面和实施例。

发明者已经出人意料地确定，可以对CRISPR酶进行修饰，这些修饰使得相比于未修饰CRISPR 酶脱靶活性降低并且/或者相比于未修饰CRISPR酶靶活性增加。因此，在本发明的某些方面中，在此提供了可以在宽范围的基因修饰应用中具有效用的改进CRISPR酶。在此还提供了CRISPR复合物、组合物和系统以及方法和用途，所有包含了在此披露的修饰CRISPR酶。

在本披露中，术语“Cas”可以意指“Cpf1”或CRISPR酶。在本发明的此方面情况下，Cpf1 或CRISPR酶是突变的或修饰的，“由此相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力”(或类似表达)；并且，当阅读本申请时，术语“Cpf1”或“Cas”或“CRISPR酶”等意指包括根据本发明的突变或修饰的Cpf1或Cas或CRISPR酶，即“由此相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力”(或类似表达)。

在一个方面中，提供了一种如在此所限定的工程化的Cpf1蛋白，诸如Cpf1，其中该蛋白与包含RNA的核酸分子复合以形成CRISPR复合物，其中当处于CRISPR复合物中时，核酸分子靶向一个或多个靶多核苷酸座位，与未修饰Cpf1蛋白相比，该蛋白包含至少一种修饰，并且其中相比于包含未修饰Cpf1蛋白的复合物，包含修饰蛋白的CRISPR复合物具有改变的活性。应该理解的是，当在此提及CRISPR“蛋白” 时，Cpf1蛋白优选是修饰的CRISPR酶(例如具有增加或降低(或没有)酶活性)，诸如非限制性地包括Cpf1。术语“CRISPR蛋白”可以与“CRISPR酶”可互换地使用，而不考虑相比于野生型CRISPR蛋白，该CRISPR 蛋白是否被改变，诸如增加或降低(或没有)酶活性。

在一个方面中，工程化的CRISPR蛋白的活性改变包括关于包含RNA的核酸分子或靶多核苷酸座位的结合特性改变，关于包含RNA的核酸分子或靶多核苷酸座位的结合动力学改变，或关于包含RNA的核酸分子或靶多核苷酸座位的相比于脱靶多核苷酸座位的结合特异性改变。

在一些实施例中，未修饰Cas具有DNA切割活性，诸如Cpf1。在一些实施例中，Cas引导靶序列位置处的，诸如靶序列内和/或靶序列补体内的一条或两条链的切割。在一些实施例中，Cas引导从靶序列的第一个或最后一个核苷酸开始的约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、 500或更多个碱基对内的一条或两条链的切割。在一些实施例中，载体编码相对于相应野生型酶发生突变的Cas，使得突变型Cas缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。在一些实施例中，当突变型酶的DNA切割活性不超过该酶的非突变形式的DNA切割活性的约25％、10％、5％、1％、0.1％、0.01％或更少时，Cas被认为是实质性缺乏所有DNA切割活性的；一个实例可以是当突变形式的DNA切割活性是零或与非突变形式相比是可忽视的时候。因此，Cas可以包含一个或多个突变并且可以在融合或未融合至功能结构域的情况下用作通用DNA结合蛋白。这些突变可以是人工引入的突变或者增功能或失功能突变。在本发明的一个方面中，Cas酶可以融合至蛋白质，例如TAG，和/或诱导型/控制型结构域诸如化学诱导型 /控制型结构域。本发明中的Cas可以是嵌合的Cas蛋白；例如，通过成为嵌合体而具有增强功能的Cas。嵌合Cas蛋白可以是含有来自超过一种的天然存在的Cas的片段的新Cas。这些可以包括一种Cas9同源物的一个或多个N末端片段与另一种Cas同源物的一个或多个C末端片段的融合物。Cas可以呈mRNA形式被递送至细胞中。Cas的表达可以在诱导型启动子的控制下。本发明的目的明确是避免已知突变上的读取。实际上，短语“由此相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力”(或类似表达)”不意图读取仅产生切口酶或无效Cas的突变或已知的Cas9突变。然而，这不是说本发明的一种或多种修饰或一个或多个突变，“由此相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力”(或类似表达)”不可以与产生为切口酶或无效酶的突变组合。此无效酶可以是增强的核酸分子结合剂。并且此切口酶可以是增强的切口酶。例如，将沟中和沟附近的一个或多个中性氨基酸和/或Cas中紧密接近核酸(例如， DNA、cDNA、RNA、gRNA)的其他位置中的其他带电荷的残基改变为一个或多个带正电荷的氨基酸可以“由此使得相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力并且/或者由此使得相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力”，例如产生更多切割。因为此切割可以是增强的中靶切割和脱靶切割两者(超切割的Cpf1)，使用了本领域已知的截短指导序列或截短sgRNA(例如参见付(Fu)等人，“使用截短的指导RNA改进CRISPR-Cas核酸酶特异性 (Improving CRISPR-Cas nuclease specificity using truncatedguide RNAs)”，自然生物技术，32,279-284(2014) doi:10.1038/nbt.2808，2013年12月17日接收，2014年1月06日接受，2014年1月26日在线公开，2014年1月29 日在线修正)以使得靶活性增强而没有较高的脱靶切割或用于产生超切割的切口酶，或用于与使得Cas无效用作超结合剂的突变组合。

在某些实施例中，工程化的Cpf1蛋白的活性改变包括靶向效率增加或脱靶结合减少。在某些实施例中，工程化的Cpf1蛋白的活性改变包括切割活性的修饰。

在某些实施例中，活性改变包括关于包含RNA的核酸分子或靶多核苷酸座位的结合特性改变，关于包含RNA的核酸分子或靶多核苷酸座位的结合动力学改变，或关于包含RNA的核酸分子或靶多核苷酸座位的相比于脱靶多核苷酸座位的结合特异性改变。

在某些实施例中，活性改变包括靶向效率增加或脱靶结合减少。在某些实施例中，活性改变包括切割活性的修饰。在某些实施例中，活性改变包括关于靶多核苷酸座位的切割活性增加。在某些实施例中，活性改变包括关于靶多核苷酸座位的切割活性减少。在某些实施例中，活性改变包括关于脱靶多核苷酸座位的切割活性减少。在某些实施例中，活性改变包括关于脱靶多核苷酸座位的切割活性增加。

因此，在某些实施例中，相比于脱靶多核苷酸座位，存在对靶多核苷酸座位的特异性的增加。在其他实施例中，相比于脱靶多核苷酸座位，存在对靶多核苷酸座位的特异性的降低。

在本发明的一个方面中，工程化的Cpf1蛋白的活性改变包括解旋酶动力学的改变。

在本发明的一个方面中，工程化的Cpf1蛋白包含改变该蛋白质与包含RNA的核酸分子，或靶多核苷酸座位的链，或脱靶多核苷酸座位的链的缔合的修饰。在本发明的一个方面中，工程化的Cpf1蛋白包含改变CRISPR复合物的形成的修饰。

在某些实施例中，改变的Cpf1蛋白包含改变核酸分子对多核苷酸座位的靶向的修饰。在某些实施例中，修饰包括蛋白质中与核酸分子缔合的区中的突变。在某些实施例中，修饰包括蛋白质中与靶多核苷酸座位的链缔合的区中的突变。在某些实施例中，修饰包括蛋白质中与脱靶多核苷酸座位的链缔合的区中的突变。在某些实施例中，修饰或突变包括蛋白质中与包含RNA的核酸分子、或靶多核苷酸座位的链、或脱靶多核苷酸座位的链缔合的区中的正电荷的减少。在某些实施例中，修饰或突变包括蛋白质中与包含 RNA的核酸分子、或靶多核苷酸座位的链、或脱靶多核苷酸座位的链缔合的区中的负电荷的减少。在某些实施例中，修饰或突变包括蛋白质中与包含RNA的核酸分子、或靶多核苷酸座位的链、或脱靶多核苷酸座位的链缔合的区中的正电荷的增加。在某些实施例中，修饰或突变包括蛋白质中与包含RNA的核酸分子、或靶多核苷酸座位的链、或脱靶多核苷酸座位的链缔合的区中的负电荷的增加。在某些实施例中，修饰或突变增加了蛋白质与包含RNA的核酸分子、或靶多核苷酸座位的链、或脱靶多核苷酸座位的链之间的空间位阻。在某些实施例中，修饰或突变包括Lys、His、Arg、Glu、Asp、Ser、Gly或Thr的取代。在某些实施例中，修饰或突变包括Gly、Ala、Ile、Glu或Asp的取代。在某些实施例中，修饰或突变包括结合沟中的氨基酸取代。

在一个方面中，本发明提供了：

一种如在此所限定的非天然存在的CRISPR酶，诸如Cpf1，其中：

该酶与指导RNA复合以形成CRISPR复合物，

当处于CRISPR复合物中时，指导RNA靶向一个或多个靶多核苷酸座位并且该酶改变该多核苷酸座位，并且

该酶包含至少一个修饰，

由此相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力。

在任一这样的非天然存在的CRISPR酶中，修饰可以包括该酶的一个或多个氨基酸残基的修饰。

在任一这样的非天然存在的CRISPR酶中，修饰可以包括位于包含为未修饰酶中的带正电荷的残基的区中的一个或多个氨基酸残基的修饰。

在任一这样的非天然存在的CRISPR酶中，修饰可以包括未修饰酶中的一个或多个带正电荷的氨基酸残基的修饰。

在任一这样的非天然存在的CRISPR酶中，修饰可以包括未修饰酶中的一个或多个不带正电荷的氨基酸残基的修饰。

修饰可以包括未修饰酶中的一个或多个不带电荷的氨基酸残基的修饰。

修饰可以包括未修饰酶中的一个或多个带负电荷的氨基酸残基的修饰。

修饰可以包括未修饰酶中的一个或多个疏水性氨基酸残基的修饰。

修饰可以包括未修饰酶中的一个或多个极性氨基酸残基的修饰。

在某些以上所述的非天然存在的CRISPR酶中，修饰可以包括位于沟中的一个或多个残基的修饰。

在某些以上所述的非天然存在的CRISPR酶中，修饰可以包括位于沟的外面的一个或多个残基的修饰。

在某些以上所述的非天然存在的CRISPR酶中，修饰包括一个或多个残基的修饰，其中一个或多个残基包括精氨酸、组氨酸或赖氨酸。

在任一以上所述的非天然存在的CRISPR酶中，该酶可以是通过所述一个或多个残基的突变来修饰的。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用丙氨酸取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用天冬氨酸或谷氨酸取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用丙氨酸、甘氨酸、异亮氨酸、亮氨酸、蛋氨酸、苯丙氨酸、色氨酸、酪氨酸或缬氨酸取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用极性氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用为非极性氨基酸残基的氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用带负电的氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用为非带负电荷的氨基酸残基的氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用不带电荷的氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用为不带电荷的氨基酸残基的氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用疏水性氨基酸残基取代未修饰酶中的残基。

在某些以上所述的非天然存在的CRISPR酶中，该酶是通过所述一个或多个残基的突变来修饰的，并且其中突变包括使用为非疏水性氨基酸残基的氨基酸残基取代未修饰酶中的残基。

在一些实施例中，CRISPR酶，诸如优选Cpf1酶来源于土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌 GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌或猕猴卟啉单胞菌的Cpf1(例如，如在此所述修饰的这些生物体中的一种的Cpf1)并且可以进一步包含突变或改变，并且可以是嵌合Cpf1。

在某些实施例中，Cpf1蛋白包含一个或多个核定位信号(NLS)结构域。在某些实施例中， Cpf1蛋白包含至少两个或更多个NLS。

在某些实施例中，Cpf1蛋白包括嵌合的CRISPR蛋白，该嵌合的CRISPR蛋白包含来自第一 CRISPR直向同源物的第一片段和来自第二CRISPR直向同源物的第二片段，并且第一CRISPR直向同源物和第二CRISPR直向同源物是不同的。

在某些实施例中，酶是通过在此列出的任一个残基或对应直向同源物中的相应残基的突变来修饰的，或包含修饰，例如包括通过该突变进行的修饰、基本上由或由通过该突变进行的修饰组成；或者该酶包含根据整个本申请中的披露内容的任何一个(单个)、两个(双重)、三个(三重)、四个(四重) 或更多个位置的，或CRISPR酶直向同源物中的相应残基或位置的修饰、基本由或由该修饰组成，例如包含在此所列举的任一种Cpf1残基的或CRISPR酶直向同源物中的相应残基或位置的修饰、基本上由或由该修饰组成的酶。在此酶中，每个残基可以通过使用丙氨酸残基的取代来修饰。

申请人最近描述了一种用于产生具有增强的特异性的Cas9直向同源物的方法(斯莱马克尔 (Slaymaker)等人2015“具有提高的特异性的合理工程化Cas9核酸酶(Rationally engineered Cas9 nucleases with improved specificity)”)。此策略可以用于增强Cpf1直向同源物的特异性。用于诱变的初级残基优选是 RuvC结构域中的所有带正电荷的残基。另外的残基是在不同直向同源物之间为保守的带正电荷的残基。

在某些实施例中，Cpf1的特异性可以通过使稳定化非靶向DNA链的残基发生突变来改进。

在某些以上所述的非天然存在的Cpf1酶中，酶是通过一个或多个残基(在RuvC结构域中)的突变来修饰的，这些残基包括但不限于参照AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置 R909、R912、R930、R947、K949、R951、R955、K965、K968、K1000、K1002、R1003、K1009、K1017、 K1022、K1029、K1035、K1054、K1072、K1086、R1094、K1095、K1109、K1118、K1142、K1150、K1158、 K1159、R1220、R1226、R1242和/或R1252。

在某些以上所述的非天然存在的Cpf1酶中，酶是通过一个或多个残基(在RAD50结构域中) 的突变来修饰的，这些残基包括但不限于参照AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置K324、K335、K337、R331、K369、K370、R386、R392、R393、K400、K404、K406、K408、K414、 K429、K436、K438、K459、K460、K464、R670、K675、R681、K686、K689、R699、K705、R725、K729、 K739、K748和/或K752。

在某些以上所述的非天然存在的Cpf1酶中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照AsCpf1(氨基酸球菌属某种BV3L6)的氨基酸位置编码的位置R912、T923、R947、 K949、R951、R955、K965、K968、K1000、R1003、K1009、K1017、K1022、K1029、K1072、K1086、 R1103、R1226和/或R1252。

在某些实施例中，酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照 LbCpf1(毛螺旋菌科细菌ND2006)的氨基酸位置编码的位置R833、R836、K847、K879、K881、R883、 R887、K897、K900、K932、R935、K940、K948、K953、K960、K984、K1003、K1017、R1033、R1138、 R1165和/或R1252。

在某些实施例中，Cpf1酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照FnCpf1(新杀手弗朗西斯菌U112)的氨基酸位置编码的位置K15、R18、K26、R34、R43、K48、K51、 K56、K87、K88、D90、K96、K106、K107、K120、Q125、K143、R186、K187、R202、K210、K235、 K296、K298、K314、K320、K326、K397、K444、K449、E454、A483、E491、K527、K541、K581、R583、 K589、K595、K597、K613、K624、K635、K639、K656、K660、K667、K671、K677、K719、K725、K730、 K763、K782、K791、R800、K809、K823、R833、K834、K839、K852、K858、K859、K869、K871、R872、 K877、K905、R918、R921、K932、I960、K962、R964、R968、K978、K981、K1013、R1016、K1021、 K1029、K1034、K1041、K1065、K1084和/或K1098。

在某些实施例中，Cpf1酶是通过一个或多个残基的突变来修饰的，这些残基包括但不限于参照LbCpf1(毛螺旋菌科细菌ND2006)的氨基酸位置编码的位置K15、R18、K26、K34、R43、K48、K51、R56、K83、K84、R86、K92、R102、K103、K116、K121、R158、E159、R174、R182、K206、K251、 K253、K269、K271、K278、P342、K380、R385、K390、K415、K421、K457、K471、A506、R508、K514、 K520、K522、K538、Y548、K560、K564、K580、K584、K591、K595、K601、K634、K640、R645、K679、 K689、K707、T716、K725、R737、R747、R748、K753、K768、K774、K775、K785、K787、R788、Q793、 K821、R833、R836、K847、K879、K881、R883、R887、K897、K900、K932、R935、K940、K948、K953、 K960、K984、K1003、K1017、R1033、K1121、R1138、R1165、K1190、K1199和/或K1208。

在任一非天然存在的CRISPR酶中：

在靶标与一个或多个脱靶座位的相应序列之间可以存在单个错配；并且/或者

在靶标与一个或多个脱靶座位的相应序列之间可以存在两个、三个或四个或更多个错配，并且/或者其中在(ii)中所述两个、三个或四个或更多个错配是连续的。

在任一非天然存在的CRISPR酶中，相比于未修饰酶CRISPR复合物中的酶可以具有降低的修饰一个或多个脱靶座位的能力并且其中相比于未修饰酶CRISPR复合物中的酶具有增加的修饰所述靶座位的能力。

在任一非天然存在的CRISPR酶中，相比于未修饰酶的相对差异，当在CRISPR复合物中时酶在靶标与至少一个脱靶座位之间的修饰能力的相对差异可以是增加的。

在任一非天然存在的CRISPR酶中，CRISPR酶可以包含一个或多个另外的突变，其中一个或多个另外的突变是处于一个或多个催化活性结构域中。

在此类非天然存在的CRISPR酶中，与缺乏所述一个或多个另外的突变的酶相比，CRISPR酶可以具有降低或废除的核酸酶活性。

在一些此类非天然存在的CRISPR酶中，CRISPR酶不引导靶序列位置处的一条或另一条DNA 链的切割。

在CRISPR酶在一个或多个催化活性结构域中包含一个或多个另外的突变的情况下，一个或多个另外的突变可以是处于包含RuvCI、RuvCII或RuvCIII的CRISPR酶的催化活性结构域中。

在不受理论束缚的情况下，在本发明的一个方面中，描述的方法和突变对产生中靶位点处的切割并避免脱靶位点处的那些构象状态的位置提供了增强的CRISPR酶结构域(例如Cpf1结构域)的构象重排。CRISPR酶以一系列的协调步骤切割靶DNA。首先，PAM相互作用结构域识别靶DNA的PAM序列5′。 PAM结合之后，对靶序列的前10-12个核苷酸(种子序列)进行取样以用于gRNA:DNA互补，一种依赖于 DNA双链体分离的方法。如果种子序列核苷酸互补gRNA，则DNA的剩余部分被解旋并且gRNA的全长度与靶DNA链杂交。核苷酸沟可以通过与DNA磷酸骨架的正电荷的非特异性相互作用来稳定化非靶向的 DNA链并且促进解旋。在对抗cDNA:ncDNA再次杂交的竞争中，RNA :cDNA和CRISPR酶:ncDNA相互作用驱动DNA解旋。其他CRISPR酶结构域也可以影响核酸酶结构域的构象，例如连接不同结构域的接头。因此，所提供的方法和突变涵盖但不限于RuvCI、RuvCIII、RuvCIII和接头。通过靶DNA结合，包括种子序列相互作用以及与靶DNA链和非靶DNA链的相互作用引起的例如Cpf1的构象变化确定了结构域是否被定位成触发核酸酶活性。因此，在此所提供的方法和突变展示并实现了超过PAM识别和RNA-DNA碱基配对的修饰。

在一个方面中，本发明提供了如在此所限定的CRISPR核酸酶，诸如Cpf1，当涉及中靶相互作用时其具有朝向与切割活性相关联的构象的改进平衡并且/或者当涉及脱靶相互作用时其具有远离与切割活性相关联的构象的改进平衡。在一个方面中，本发明提供了具有改进的校对功能的Cas(例如Cpf1)核酸酶，即采用一种在中靶位点处具有核酸酶活性的构象的Cas(例如Cpf1)核酸酶，并且该构象在脱靶位点处具有增加的不利性。斯腾伯格(Sternberg)等人(自然527(7576):110-3,doi:10.1038/nature15544，2015 年10月28日在线公开，电子版2015年10月28日)使用了荧光共振能量转移(FRET)实验来检测Cas(例如Cpf1)催化结构域在与中靶DNA和脱靶DNA缔合时的相对取向，并且这可以外推到本发明的CRISPR酶(例如Cpf1)。

本发明进一步提供了用于使用修饰的指导RNA调控核酸酶活性和/或特异性的方法和突变。如所讨论的，中靶核酸酶活性可以是增加的或减少的。另外，脱靶核酸酶活性可以是增加的或减少的。此外，对中靶活性的特异性相比于对脱靶活性的特异性可以存在增加或减少。修饰指导RNA包括但不限于，截短的指导RNA、无效指导RNA、化学上修饰的指导RNA、与功能结构域缔合的指导RNA、包含功能结构域的修饰指导RNA、包含适配子的修饰指导RNA、包含衔接蛋白的修饰指导RNA以及包含添加或修饰的环的指导RNA。在一些实施例中，一个或多个功能结构域与无效gRNA(dRNA)缔合。在一些实施例中，与 CRISPR酶复合的dRNA引导功能结构域在一个基因座位处的基因调节，同时gRNA引导CRISPR酶在另一个座位处的DNA切割。在一些实施例中，dRNA被选择为与脱靶调节相比使对感兴趣的基因座位的调节选择性最大化。在一些实施例中，dRNA被选择为最大化靶基因调节并且最小化靶标切割。

出于以下讨论的目的，提及功能结构域可以是与CRISPR酶缔合的功能结构域或者与衔接蛋白缔合的功能结构域。

在本发明的实践中，可以在不与Cas(例如Cpf1)蛋白碰撞的情况下通过插入可以募集衔接蛋白的一个或多个不同RNA环或一个或多个不同序列来扩展gRNA的环，这些衔接蛋白可以结合一个或多个不同RNA环或者一个或多个不同序列。这些衔接蛋白可以包括但不限于，存在于各种噬菌体外壳蛋白内的正交RNA结合蛋白/适配子组合。此类外壳蛋白列表包括但不限于：Qβ、F2、GA、fr、JP501、M12、R17、 BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、 φCb12r、φCb23r、7s以及PRR1。这些衔接蛋白或正交RNA结合蛋白可以进一步募集包含一个或多个功能结构域的效应蛋白或融合物。在一些实施例中，功能结构域可以是选自下组，该组由以下各项组成：易位酶结构域、整合酶结构域、重组酶结构域、解离酶领域、转化酶结构域、蛋白酶结构域、DNA甲基转移酶结构域、DNA羟甲基酶结构域、DNA脱甲基酶结构域、组蛋白乙酰化酶结构域、组蛋白脱乙酰化酶结构域、核酸酶域、阻遏物结构域、激活因子结构域、核定位信号结构域、转录调节蛋白质(或转录复合物募集) 结构域、细胞摄取活性相关结构域、核酸结合结构域、抗体呈递结构域、组蛋白修饰酶、组蛋白修饰酶的募集物；组蛋白修饰酶、组蛋白甲基转移酶、组蛋白脱甲基化酶、组蛋白激酶、组蛋白磷酸酶、组蛋白核糖基酶、组蛋白脱核糖基酶、组蛋白泛素酶、组蛋白脱泛素酶、组蛋白生物素酶以及组蛋白尾蛋白酶的抑制剂。在一些优选实施例中，功能结构域是转录激活结构域，诸如但不限于，VP64、p65、MyoD1、HSF1、 RTA、SET7/9或组蛋白乙酰转移酶。在一些实施例中，功能结构域是转录阻遏结构域，优选地KRAB。在一些实施例中，转录阻遏结构域是SID或SID的串联体(例如SID4X)。在一些实施例中，功能结构域是表观遗传修饰结构域，以便提供表观遗传修饰酶。在一些实施例中，功能结构域是激活结构域，它可以是P65 激活结构域。在一些实施例中，功能结构域是脱氨酶，诸如胞苷脱氨酶。胞苷脱氨酶(deaminese)可以被引导至靶核酸，在这儿胞苷脱氨酶引导胞苷至尿苷的转化，产生C至T的取代(在互补链上G变成A)。在此实施例中，可以在不存在DNA切割的情况下实施核苷酸取代。

在一个方面中，本发明还提供了用于调控Cas(例如Cpf1)结合活性和/或结合特异性的方法和突变。在某些实施例中，使用了缺乏核酸酶活性的Cas(例如Cpf1)蛋白。在某些实施例中，采用了促进Cas(例如Cpf1)核酸酶的结合但不促进其核酸酶活性的修饰指导RNA。在此类实施例中，中靶结合可以被增加或减少。另外，在此类实施例中，脱靶结合可以被增加或减少。另外，对于中靶结合相比于脱靶结合的特异性可以存在增加或减少。

在特定实施例中，脱靶切割的减少是通过以下方式确保的：通过去稳定化链分离，更具体地是通过在Cpf1酶中引入减少DNA相互作用区中的正电荷的突变(如在此所述的以及斯莱马克尔等人2016 (科学，1；351(6268):84-8)进一步对Cas9的举例说明)。在另外的实施例中，脱靶切割的减少是通过以下方式确保的：通过将影响靶链与指导RNA序列之间的相互作用，更具体地是扰乱Cpf1与靶DNA链的磷酸骨架之间的相关作用的突变引入到Cpf1酶中，以此方式使得靶特异性活性保留而脱靶活性降低(如克莱因史迪华(Kleinstiver)等人2016自然，28；529(7587):490-5对Cas9描述的)。在特定实施例中，脱靶活性是通过修饰Cpf1来降低的，其中相比于野生型Cpf1，与靶链和非靶链的相互作用均被修饰。

可以不同组合被采用来增加或减少活性和/或使中靶活性相比于脱靶活性的特异性增加或减少，或增加或减少结合和/或使中靶结合相比于脱靶结合的特异性增加或减少的方法和突变可以用于补偿或增强被形成来促进其他效应的突变或修饰。被形成来促进其他效应的此类突变或修饰包括Cas(例如Cpf1) 的突变或修饰和/或对指导RNA所进行的突变或修饰。在某些实施例中，这些方法和突变与化学修饰的指导 RNA一起使用。指导RNA化学修饰的实例包括但不限于在一个或多个末端核苷酸处掺入2′-O-甲基(M)、 2′-O-甲基3′硫代磷酸酯(MS)或2′-O-甲基3′硫代PACE(MSP)。与未修饰的指导RNA相比，此类化学修饰的指导RNA可以具有增加的稳定性和增加的活性，但是中靶相比于脱靶的特异性是不可测的。(参见，亨戴尔，2015，自然生物技术33(9):985-9,doi:10.1038/nbt.3290，2015年6月29日在线公开)。化学修饰的指导 RNA进一步包括但不限于具有硫代磷酸酯键和锁定核酸(LNA)核苷酸的RNA，该锁定核酸(LNA)核苷酸包含在核糖环的2′碳与4′碳之间的亚甲基桥。本发明的方法和突变用于使用化学修饰的指导RNA调控Cas (例如Cpf1)核酸酶活性和/或结合。

在一个方面中，本发明提供了用于调控如在此所限定的根据本发明的Cas(例如Cpf1)蛋白的结合和/或结合特异性的方法和突变，这些蛋白包含功能结构域诸如核酸酶、转录激活因子、转录阻遏物等。例如，可以使得Cas(例如Cpf1)蛋白无核酸酶或通过引入突变使得Cas(例如Cpf1)蛋白具有改变或降低的核酸酶活性，这些突变是例如像在此其他地方所述的Cpf1突变，并且包括如在此任何地方所述的例如参照FnCpf1p RuvC结构域的氨基酸位置的D917A、E1006A、E1028A、D1227A、D1255A、N1257A、D917A、 E1006A、E1028A、D1227A、D1255A和N1257A；或例如参照推定的第二核酸酶结构域的N580A、N584A、 T587A、W609A、D610A、K613A、E614A、D616A、K624A、D625A、K627A和Y629A。核酸酶缺乏的 Cas(例如Cpf1)蛋白适用于RNA指导的靶序列依赖性的功能结构域递送。本发明提供了用于调控Cas(例如Cpf1)蛋白的结合的方法和突变。在一个实施例中，功能结构域包括VP64，提供了RNA指导的转录因子。在另一个实施例中，功能结构域包括Fok I，提供了RNA指导的核酸酶活性。参考美国专利公开 2014/0356959、美国专利公开2014/0342456、美国专利公开2015/0031132，以及玛里，P.(Mali,P.)等人， 2013，科学339(6121):823-6,doi:10.1126/science.1232033，2013年1月3日在线公开，并且通过在此的传授内容，本发明包括了这些文献结合在此的教义应用的方法和材料。在某些实施例中，中靶结合被增加。在某些实施例中，脱靶结合被减少。在某些实施例中，中靶结合被减少。在某些实施例中，脱靶结合被增加。因此，本发明还提供了功能化的Cas(例如Cpf1)结合蛋白的中靶结合相比于脱靶结合增加或减少的特异性。

用作RNA指导的结合蛋白的Cas(例如Cpf1)不限于无核酸酶的Cas(例如Cpf1)。具有核酸酶活性的Cas(例如Cpf1)酶当与某些指导RNA一起使用时也可以用作NA指导的结合蛋白。例如，短指导RNA 和包含与靶错配的核苷酸的指导RNA可以促进RNA引导的Cas(例如Cpf1)与靶序列的结合，几乎没有或没有产生靶切割。(例如参见，达尔曼(Dahlman)等人，2015，自然生物技术33(11):1159-1161,doi: 10.1038/nbt.3390，2015年10月05日在线公开)。在一个方面中，本发明提供了用于调控包含核酸酶活性的 Cas(例如Cpf1)蛋白的结合的方法和突变。在某些实施例中，中靶结合被增加。在某些实施例中，脱靶结合被减少。在某些实施例中，中靶结合被减少。在某些实施例中，脱靶结合被增加。在某些实施例中，中靶结合相比于脱靶结合的特异性存在增加或减少。在某些实施例中，指导RNA-Cas(例如Cpf1)酶的核酸酶活性也被调控。

RNA-DNA异源双链体形成对整个靶区(不仅仅是最靠近PAM的种子区序列)的切割活性和特异性是重要的。因此，截短的指导RNA显示出降低的切割活性和特异性。在一个方面中，本发明提供了用于使用改变的指导RNA增加活性和特异性的方法和突变。

本发明还证明可以使得Cas(例如Cpf1)核酸酶特异性的修饰与靶向范围的修饰一致。Cas(例如Cpf1)突变体可以被设计成具有增加的靶特异性以及PAM识别的调节性修饰，例如通过选择改变PAM特异性的突变并且将这些突变与增加(或者如果需要，减少)中靶序列相比于脱靶序列的特异性的核苷酸沟突变相结合来设计。在一个此实施例中，PI结构域残基发生突变以调节希望的PAM序列的识别同时一个或多个核苷酸沟氨基酸发生突变以改变靶特异性。在此所述的Cas(例如Cpf1)方法和修饰可以用于抵消由 PAM识别的改变产生的特异性损失，增强由PAM识别的改变产生的特异性增益，抵消由PAM识别的改变产生的特异性增益或增强由PAM识别的改变产生的特异性丧失。

这些方法和突变可以与具有改变的PAM识别的Cas(例如Cpf1)酶一起使用。包括的PAM的非限制性实例为如在此任何地方所述的。

在另外的实施例中，这些方法和突变用于修饰蛋白质。

在任一非天然存在的CRISPR酶中，CRISPR酶可以包含一个或多个异源结构域。

一个或多个异源功能结构域可以包括一个或多个核定位信号(NLS)结构域。一个或多个异源功能结构域可以包括至少两个或更多个NLS。

一个或多个异源功能结构域可以包括一个或多个转录激活结构域。转录激活结构域可以包括 VP64。

一个或多个异源功能结构域可以包括一个或多个转录阻遏结构域。转录阻遏结构域可以包括 KRAB结构域或SID结构域。

一个或多个异源功能结构域可以包括一个或多个核酸酶结构域。一个或多个核酸酶结构域可以包括Fok1。

一个或多个异源功能结构域可以具有以下活性中的一种或多种：甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、核酸酶活性、单链RNA切割活性、双链RNA切割活性、单链DNA切割活性、双链DNA切割活性以及核酸结合活性。

至少一个或多个异源功能结构域可以处于或靠近酶的氨基末端和/或处于或靠近酶的羧基末端。

一个或多个异源功能结构域可以通过接头部分融合至CRISPR酶，或系接至CRISPR酶，或连接至CRISPR酶。

在任一非天然存在的CRISPR酶中，CRISPR酶可以包括来自于来自包括下项的属的生物体的 CRISPR酶：土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌或猕猴卟啉单胞菌(例如，如在此所述修饰的这些生物体中的一种的Cpf1)并且可以进一步包含突变或改变，并且可以是嵌合Cas(例如Cpf1)。

在任一非天然存在的CRISPR酶中，CRISPR酶可以包括嵌合的Cas(例如Cpf1)酶，该嵌合的 Cas(例如Cpf1)酶包含来自第一Cas(例如Cpf1)直向同源物的第一片段和来自第二Cas(例如Cpf1)直向同源物的第二片段，并且第一Cas(例如Cpf1)直向同源物和第二Cas(例如Cpf1)直向同源物是不同的。第一Cas(例如Cpf1)直向同源物和第二Cas(例如Cpf1)直向同源物中的至少一者可以包括来自包括下项的生物体的Cas(例如Cpf1)：土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌 GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌科细菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌或猕猴卟啉单胞菌。

在任一非天然存在的CRISPR酶中，编码CRISPR酶的核苷酸序列可以被密码子优化为在真核生物中表达。

在任一非天然存在的CRISPR酶中，细胞可以是真核细胞或原核细胞；其中CRISPR复合物在细胞中是可操作的，并且由此相比于未修饰酶CRISPR复合物的酶具有降低的修饰细胞的一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力。

因此，在一个方面中，本发明提供了一种包含如在此所限定的工程化的CRISPR蛋白或系统的真核细胞。

在某些实施例中，如在此所述的方法可以包括提供Cas(例如Cpf1)转基因细胞，其中提供或引入了编码一个或多个指导RNA的一种或多种核酸，在该细胞中这些核酸可操作地与包含一种或多种感兴趣的基因的启动子的调节元件连接。如在此所用，术语“Cas转基因细胞”是指细胞诸如真核细胞，其中 Cas基因已经是基因组整合的。根据本发明，细胞的性质、类型或来源不是特别限制的。另外，Cas转基因被引入细胞中的方式可以变化并且可以是如本领域已知的任何方法。在某些实施例中，Cas转基因细胞是通过将Cas转基因引入分离细胞中来获得的。在某些其他实施例中，Cas转基因细胞是通过从Cas转基因生物体中分离细胞来获得的。作为实例而非限制，如在此提及的Cas转基因细胞可以是来源于Cas转基因真核生物，诸如Cas敲入真核生物。参考WO 2014/093622(PCT/US 13/74667)，该专利通过引用结合在此。转让给桑加莫生物科技公司(Sangamo BioSciences,Inc.)的美国专利公开号20120017290和20110265198中的针对靶向玫瑰属(Rosa)座位的方法可以被修改成利用本发明的CRISPR Cas系统。转让给策勒克提斯公司 (Cellectis)的美国专利公开号20130236946中的针对靶向玫瑰属座位的方法也可以被修改成利用本发明的 CRISPR Cas系统。作为另外的实例,参考普莱特(Platt)等人(细胞；159(2):440-455(2014))，描述了Cas9 敲入小鼠，该文献通过引用结合在此，并且其可以外推到如在此所限定的本发明CRISPR酶。Cas转基因可以进一步包含Lox-Stop-polyA-Lox(LSL)盒，从而使得Cas表达通过Cre重组酶可诱导。可替代地，Cas转基因细胞可以是通过将Cas转基因引入分离细胞中来获得的。转基因的递送系统在本领域是熟知的。作为实例，也如在此其他地方所述的，Cas转基因可以通过载体(例如AAV、腺病毒、慢病毒)和/或粒子和/ 或纳米粒子递送来递送。

技术人员应理解的是，细胞(诸如在此提及的Cas转基因细胞)除具有整合的Cas基因或产生自Cas在与能够将Cas指导至靶座位的RNA复合时的序列特异性作用的突变(例如像一个或多个致癌性突变)之外可以进一步包含基因组的改变，例如但不限于普莱特等人(2014)；陈等人，(2014)或库马尔 (Kumar)等人(2009)。

本发明还提供了一种包含如在此所述的诸如在此部分所述的工程化CRISPR蛋白的组合物。

本发明还提供了一种包含CRISPR-Cas复合物的非天然存在的工程化组合物，该CRISPR-Cas 复合物包含以上所述的任何非天然存在的CRISPR酶。

在一个方面中，本发明提供了一种包含一种或多种载体的载体系统，其中一种或多种载体包含：

a)可操作地连接至编码如在此所限定的工程化CRISPR蛋白的核苷酸序列的第一调节元件；并且任选地

b)可操作地连接至编码包含指导RNA的一个或多个核酸分子的一种或多种核苷酸序列的第二调节元件，该指导RNA包含指导序列、同向重复序列，任选地其中组分(a)和(b)位于相同或不同的载体上。

本发明还提供了一种非天然存在的工程化组合物，该组合物包含：

被可操作地构造成用于将CRISPR-Cas复合物组分或包含或编码所述组分的一种或多种多核苷酸序列递送至细胞中的递送系统，并且其中所述CRISPR-Cas复合物在该细胞中是可操作的，

CRISPR-Cas复合物组分或编码细胞中的转录和/或翻译的一种或多种多核苷酸序列，这些 CRISPR-Cas复合物组分包含：

(I)如在此所述的非天然存在的CRISPR酶(例如，工程化的Cpf1)；

(II)CRISPR-Cas指导RNA，包含：

指导序列，以及

同向重复序列，

其中相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力。

在一个方面中，本发明还提供了一种包含如在此所述的诸如在此部分所述的工程化CRISPR蛋白的系统。

在任何此类组合物中，递送系统可以包括酵母系统、脂质转染系统、微注射系统、基因枪系统、病毒体、脂质体、免疫脂质体、聚阳离子、脂质：核酸轭合物或人工病毒体，如在此其他地方所限定的。

在任何此类组合物中，递送系统可以包括包含一种或多种载体的载体系统，并且其中组分(II) 包含可操作地连接至包含指导序列、同向重复序列的多核苷酸序列的第一调节元件，并且任选地，并且其中组分(I)包含可操作地连接至编码CRISPR酶的多核苷酸序列的第二调节元件。

在任何此类组合物中，递送系统可以包括包含一种或多种载体的载体系统，并且其中组分(II) 包含可操作地连接至指导序列和同向重复序列的第一调节元件，并且其中组分(I)包含可操作地连接至编码CRISPR酶的多核苷酸序列的第二调节元件。

在任何此类组合物中，组合物可以包含超过一个的指导RNA，并且每个指导RNA具有不同的靶标，由此存在多重作用。

在任何此类组合物中，一种或多种多核苷酸序列可以在一个载体上。

本发明还提供了一种包含一种或多种载体的工程化、非天然存在的成簇规律间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)载体系统，这些载体包含：

a)可操作地连接至编码在此的任何一种本发明构建体的非天然存在的CRISPR酶的核苷酸序列的第一调节元件；以及

b)可操作地连接至编码一个或多个指导RNA的一种或多种核苷酸序列的第二调节元件，该指导RNA包含指导序列、同向重复序列，

其中：

组分(a)和(b)位于相同或不同的载体上，

形成了CRISPR复合物；

指导RNA靶向靶多核苷酸座位并且该酶改变该多核苷酸座位，并且

相比于未修饰酶CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力。

在此系统中，组分(I)可以包含可操作地连接至包含指导序列、同向重复序列的多核苷酸序列的第一调节元件，并且其中组分(II)可以包含可操作地连接至编码CRISPR酶的多核苷酸序列的第二调节元件。在此系统中，其中可适用的指导RNA可以包括嵌合RNA。

在此系统中，组分(I)可以包含可操作地连接至指导序列和同向重复序列的第一调节元件，并且其中组分(II)可以包含可操作地连接至编码CRISPR酶的多核苷酸序列的第二调节元件。此系统可以包含超过一个的指导RNA，并且每个指导RNA具有不同的靶标，由此存在多重作用。组分(a)和(b)可以在相同载体上。

在包含载体的任何此类系统中，一种或多种载体可以包括一种或多种病毒载体，诸如一个或多个逆转录病毒、慢病毒、腺病毒、腺伴随病毒或单纯疱疹病毒。

在包含调节元件的任何此类系统中，至少一种所述调节元件可以包括组织特异性启动子。组织特异性启动子可以引导哺乳动物血细胞中、哺乳动物肝细胞中或哺乳动物眼部细胞中的表达。

在任一上述组合物或系统中，同向重复序列可以包含一个或多个蛋白质相互作用的RNA适配子。一个或多个适配子可以位于四核苷酸环中。一个或多个适配子可以能够结合MS2噬菌体外壳蛋白。

在任一上述组合物或系统中，细胞可以是真核细胞或原核细胞；其中CRISPR复合物在细胞中是可操作的，并且由此相比于未修饰酶CRISPR复合物的酶具有降低的修饰细胞的一个或多个脱靶座位的能力并且/或者由此相比于未修饰酶CRISPR复合物中的酶具有增加的修饰一个或多个靶座位的能力。

本发明还提供了一种任一上述组合物或来自任一上述系统的CRISPR复合物。

本发明还提供了一种在细胞中修饰感兴趣的座位的方法，该方法包括使细胞与在此所述的工程化CRISPR酶(例如工程化的Cpf1)、组合物中的任一种或在此所述的系统或载体系统中的任一种接触，或者其中该细胞包含在该细胞内存在的任一在此所述的CRISPR复合物。在此类方法中，细胞可以是原核细胞或真核细胞，优选真核细胞。在此类方法中，生物体可以包括细胞。在此类方法中，生物体可以不是人类或其他动物。

任何此方法可以是离体的或在体外。

在某些实施例中，在细胞中编码所述指导RNA或Cas蛋白中的至少一种的核苷酸序列可操作地与包含感兴趣的基因的启动子的调节元件连接，由此至少一种CRISPR-Cas系统组分的表达由感兴趣的基因的启动子驱动。“可操作地连接的”旨在意指编码指导RNA和/或Cas的核苷酸序列以允许核苷酸序列表达的方式被连接至一个或多个调节元件，也如在此其他地方所提及的。术语“调节元件”也被在此其他地方描述。根据本发明，调节元件包括感兴趣的基因的启动子，诸如优选感兴趣的内源性基因的启动子。在某些实施例中，启动子处于其内源性基因组位置。在此类实施例中，编码CRISPR和/或Cas的核酸在其天然基因组位置处的感兴趣的基因的启动子的转录控制下。在某些其他实施例中，启动子被提供在(单独的)核酸分子诸如载体或质粒，或其他染色体外核酸上，即启动子不被提供在其天然基因组位置处。在某些实施例中，启动子被基因组整合在非天然的基因组位置处。

任何此类方法，所述修饰可以包括调控基因表达。所述调节基因表达可以包括激活基因表达和/或阻遏基因表达。因此，在一个方面中，本发明提供了一种调控基因表达的方法，其中该方法包括将如在此所述的工程化的CRISPR蛋白或系统引入到细胞中。

本发明还提供了一种治疗有需要的个体的疾病、病症或感染的方法，该方法包括给予有效量的在此所述的工程化CRISPR酶(例如工程化的Cpf1)、组合物、系统或CRISPR复合物中的任一种。疾病、病症或感染可以包括病毒感染。病毒感染可以是HBV。

本发明还提供了以上所述的工程化CRISPR酶(例如工程化的Cpf1)、组合物、系统或CRISPR 复合物中的任一种用于基因或基因组编辑的用途。

本发明还提供了一种改变感兴趣的基因组座位在哺乳动物细胞中的表达的方法，该方法包括使细胞与在此所述的工程化CRISPR酶(例如工程化的Cpf1)、组合物、系统或CRISPR复合物接触并且从而递送CRISPR-Cas(载体)并且使得CRISPR-Cas复合物形成且结合靶标，并且测定基因组座位的表达是否已经被改变，诸如增加或减少的表达，或基因产物的修饰。

本发明还提供了以上所述的用作治疗剂的工程化CRISPR酶(例如工程化的Cpf1)、组合物、系统或CRISPR复合物中的任一种。治疗剂可以用于基因或基因组编辑，或基因治疗。

在某些实施例中，如在此所述的工程化CRISPR酶(例如工程化的Cpf1)的活性包括基因组DNA 切割，任选地使得基因的转录减少。

在一个方面中，本发明提供了一种根据如在此所述的方法而具有改变的基因组座位表达的分离细胞，其中改变的表达是与未经受改变基因组座位表达的方法的细胞相比较的。在一个相关的方面中，本发明提供了一种由此细胞建立的细胞系。

在一个方面中，本发明提供了一种通过操纵例如HSC(造血干细胞)的感兴趣基因组座位中的靶序列来修饰生物体或非人类生物体的方法，例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，该方法包括：

递送至HSC，例如，经由使HSC与含有非天然存在或工程化的组合物的粒子接触来进行，该组合物包含：

I.CRISPR-Cas系统指导RNA(gRNA)多核苷酸序列，该序列包括：

(a)能够杂交至HSC中的靶序列的指导序列，

(b)同向重复序列，以及

II.CRISPR酶，任选地包含至少一个或多个核定位序列，

其中，指导序列引导CRISPR复合物与靶序列的序列特异性结合，并且

其中CRISPR复合物包含与(1)杂交至靶序列的指导序列复合的CRISPR酶；并且

该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中 “正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；并且

任选地，该方法可以包括从生物体或非人类生物体分离或获得HSC，任选地扩增HSC群体，使一个或多个粒子与HSC进行接触以获得修饰的HSC群体，任选地扩增修饰HSC的群体，并且任选地向生物体或非人类生物体给予修饰HSC。

在一个方面中，本发明提供了一种通过操纵例如HSC的感兴趣基因组座位中的靶序列来修饰生物体或非人类生物体的方法，例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，该方法包括：递送至HSC，例如经由使HSC与含有非天然存在或工程化的组合物的粒子接触来进行，该组合物包含：I.(a)能够杂交至HSC中的靶序列的指导序列，和(b)至少一种或多种同向重复序列，以及II.任选地具有一个或多个NLS的CRISPR酶，并且指导序列引导CRISPR复合物与靶序列的序列特异性结合，并且其中CRISPR复合物包含与杂交至靶序列的指导序列复合的CRISPR酶；并且

该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中 “正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；及

递送可以是对编码CRISPR复合物中的任何一个或多个或全部的、有利地连接至用于体内表达的一个或多个调节元件的一种或多种多核苷酸的递送，例如经由含有包含可操作地连接至一个或多个调节元件的一种或多种多核苷酸的载体的一个或多个粒子来进行。编码CRISPR酶、指导序列、同向重复序列的多核苷酸中的任一种或全部可以是RNA。应了解的是，在提及是RNA且被称为“包含”特征此同向重复序列的多核苷酸的情况下，RNA序列包含该特征。在多核苷酸是DNA且被称为包含特征此同向重复序列的情况下，DNA序列被或可以被转录成包含所讨论特征的RNA。在特征是蛋白质诸如CRISPR酶的情况下，所提及的DNA或RNA序列被或可以被翻译(并且在DNA的情况下，首先进行转录)。

在某些实施例中，本发明提供了一种通过操纵HSC的感兴趣基因组座位中的靶序列来修饰生物体，例如包括人类的哺乳动物或非人类哺乳动物或生物体的方法，例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，该方法包括递送，例如经由非天然存在或工程化的组合物与HSC的接触来进行，其中组合物包含一个或多个粒子，这些粒子包含可操作地编码组合物以用于对该组合物进行表达的病毒、质粒或一种或多种核酸分子载体(例如RNA)，其中该组合物包含：(A) I.可操作地连接至CRISPR-Cas系统RNA多核苷酸序列的第一调节元件，其中多核苷酸序列包含(a)能够与真核细胞中的靶序列杂交的指导序列，(b)同向重复序列，以及II.可操作地连接至编码包含至少一个或多个核定位序列(或者如一些实施例中的任选地至少一个或多个核定位序列可以不涉及NLS)的CRISPR酶的酶编码序列的第二调节元件，其中(a)、(b)和(c)被布置为5'至3'取向，其中组分I和II位于系统的相同或不同载体上，其中当转录时，并且指导序列引导CRISPR复合物与靶序列的序列特异性结合，并且其中 CRISPR复合物包含与杂交至靶序列的指导序列复合的CRISPR酶，或(B)包含含有一种或多种载体的载体系统的非天然存在或工程化的组合物，这些载体包含I.可操作地连接至(a)能够与真核细胞中的靶序列杂交的指导序列和(b)至少一种或多种同向重复序列的第一调节元件，II.可操作地连接至编码CRISPR酶的酶编码序列的第二调节元件，并且任选地，在可适用的情况下，其中组分I和II位于系统的相同或不同载体上，其中当转录时，并且指导序列引导CRISPR复合物与靶序列的序列特异性结合，并且其中CRISPR复合物包含与杂交至靶序列的指导序列复合的CRISPR酶；该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中“正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；并且任选地，该方法可以包括从生物体或非人类生物体分离或获得 HSC，任选地扩增HSC群体，使一个或多个粒子与HSC进行接触以获得修饰的HSC群体，任选地扩增修饰 HSC的群体，并且任选地向生物体或非人类生物体给予修饰HSC。在一些实施例中，组分I、II和III位于相同载体上。在其他实施例中，组分I和II位于相同载体上，而组分III位于另一载体上。在其他实施例中，组分I和III位于相同载体上，而组分II位于另一载体上。在其他实施例中，组分II和III位于相同载体上，而组分I位于另一载体上。在其他实施例中，组分I、II和III中的每个位于不同载体上。本发明还提供了一种如在此所述的病毒或质粒载体系统。

对于操纵靶序列，申请人还意指靶序列的表观遗传操纵。这可以是针对靶序列的染色质状态的，诸如通过对靶序列的甲基化状态的修饰(即甲基化或甲基化图案或CpG岛的添加或移除)、组蛋白修饰、增加或降低靶序列的可及性，或通过促进3D折叠。应了解的是，在提及一种通过操纵感兴趣基因组座位中的靶序列来修饰生物体或包括人类的哺乳动物或非人类哺乳动物或生物体的方法的情况下，这可适用于作为整体的生物体(哺乳动物)或仅来自该生物体的单个细胞或细胞群体(如果生物体是多细胞的)。在人类的情况下，例如，申请人尤其设想了单个细胞或细胞群体并且这些可以优选地进行离体修饰并且接着重新引入。在此情况下，活组织检查或其他组织或生物流体样品可能是必需的。就这一点而言，干细胞也是特别优选的。但是，当然，也设想了体内实施例。并且本发明对于HSC是特别有利的。

在一些实施例中本发明包括一种通过操纵HSC中感兴趣的基因组座位中的DNA双链体的相反链上的第一靶序列和第二靶序列来修饰生物体或非人类生物体的方法，例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，该方法包括递送，例如通过使HSC与包含非天然存在或工程化的组合物的一个或多个粒子接触，该组合物包含：

I.第一CRISPR-Cas(例如Cpf1)系统RNA多核苷酸序列，其中该第一多核苷酸序列包含：

(a)能够与该第一靶序列杂交的第一指导序列，

(b)第一同向重复序列，以及

II.第二CRISPR-Cas(例如Cpf1)系统指导RNA多核苷酸序列，其中该第二多核苷酸序列包含：

(a)能够与该第二靶序列杂交的第二指导序列，

(b)第二同向重复序列，以及

III.编码包含至少一个或多个核定位序列和包含一个或多个突变的CRISPR酶的多核苷酸序列，其中(a)、(b)和(c)被布置为5′至3′取向；或

IV.I.至III.中的一个或多个例如第一同向重复序列和第二同向重复序列、CRISPR酶的一种或多种的表达产物；

其中当转录时，第一指导序列和第二指导序列分别引导第一CRISPR复合物和第二CRISPR复合物与第一靶序列和第二靶序列的序列特异性结合，其中第一CRISPR复合物包含与(1)杂交至第一靶序列的第一指导序列复合的CRISPR酶，其中第二CRISPR复合物包含与(1)杂交至第二靶序列的第二指导序列复合的CRISPR酶，其中编码CRISPR酶的多核苷酸序列是DNA或RNA，并且其中第一指导序列引导DNA双链体中靠近第一靶序列的一条链的切割并且第二指导序列引导靠近第二靶序列的另一条链的切割，从而诱导双链断裂，从而修饰生物体或非人类生物体；并且该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中“正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；并且任选地，该方法可以包括从生物体或非人类生物体分离或获得HSC，任选地扩增HSC群体，使一个或多个粒子与HSC进行接触以获得修饰的HSC群体，任选地扩增修饰HSC的群体，并且任选地向生物体或非人类生物体给予修饰HSC。在本发明的一些方法中，编码CRISPR酶的多核苷酸序列、第一指导序列和第二指导序列、第一同向重复序列和第二同向重复序列中的任一种或全部。在本发明的另外实施例中，编码编码CRISPR酶的序列的多核苷酸序列、第一指导序列和第二指导序列、第一同向重复序列和第二同向重复序列是RNA并且经由脂质体、纳米粒子、外来体、微泡或基因枪来递送；但是，有利的是递送经由粒子来递送。在本发明的某些实施例中，第一同向重复序列和第二同向重复序列享有100％一致性。在一些实施例中，多核苷酸可以被包含在包含一种或多种载体的载体系统之内。在优选实施例中，第一CRISPR酶具有一个或多个突变，使得该酶是互补链切口酶，并且第二CRISPR酶具有一个或多个突变，使得该酶是非互补链切口酶。可替代地，第一酶可以是非互补链切口酶，并且第二酶可以是互补链切口酶。在本发明的优选方法中，引导DNA双链体中的靠近第一靶序列的一条链的切割的第一指导序列和引导靠近第二靶序列的另一条链的切割的第二指导序列使得5′突出端产生。在本发明的实施例中， 5'突出端具有至多200个碱基对，优选至多100个碱基对或更优选至多50个碱基对。在本发明的实施例中， 5'突出端具有至少26个碱基对，优选至少30个碱基对或更优选至少34-50个碱基对。

在一些实施例中本发明包括一种通过操纵例如HSC中感兴趣的基因组座位中的DNA双链体的相反链上的第一靶序列和第二靶序列来修饰生物体或非人类生物体的方法，例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，该方法包括递送，例如通过使HSC与包含非天然存在或工程化的组合物的一个或多个粒子接触，该组合物包含：

I.可操作地连接至

(a)能够与该第一靶序列杂交的第一指导序列，以及

(b)至少一种或多种指导重复序列的第一调节元件，

II.可操作地连接至

(a)能够与该第二靶序列杂交的第二指导序列，以及

(b)至少一种或多种指导重复序列的第一调节元件，

III.可操作地连接至编码CRISPR酶(例如Cpf1)的酶编码序列的第三调节元件，以及

V.I.至IV.中的一个或多个例如第一同向重复序列和第二同向重复序列、CRISPR酶的一种或多种的表达产物；

其中组分I、II、III和IV位于系统的相同或不同载体上，当转录时，第一指导序列和第二指导序列分别引导第一CRISPR复合物和第二CRISPR复合物与第一靶序列和第二靶序列的序列特异性结合，其中第一CRISPR 复合物包含与(1)杂交至第一靶序列的第一指导序列复合的CRISPR酶，其中第二CRISPR复合物包含与杂交至第二靶序列的第二指导序列复合的CRISPR酶，其中编码CRISPR酶的多核苷酸序列是DNA或RNA，并且其中第一指导序列引导DNA双链体中靠近第一靶序列的一条链的切割并且第二指导序列引导靠近第二靶序列的另一条链的切割，从而诱导双链断裂，从而修饰生物体或非人类生物体；并且该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中“正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；并且任选地，该方法可以包括从生物体或非人类生物体分离或获得HSC，任选地扩增HSC群体，使一个或多个粒子与HSC进行接触以获得修饰的HSC群体，任选地扩增修饰HSC的群体，并且任选地向生物体或非人类生物体给予修饰HSC。

本发明还提供了一种如在此所述的载体系统。该系统可以包含一个、两个、三个或四个不同载体。组分I、II、III和IV可以因此位于一个、两个、三个或四个不同载体上，并且在此设想了可能的组分位置的所有组合，例如：组分I、II、III和IV可以位于同一载体上；组分I、II、III和IV可以各自位于不同载体上；组分I、II、III和IV可以位于总共两个或三个不同载体上，包括设想的所有位置组合等。在本发明的一些方法中，编码CRISPR酶的多核苷酸序列、第一指导序列和第二指导序列、第一同向重复序列和第二同向重复序列中的任一种或全部是RNA。在本发明的另外实施例中，第一同向重复序列和第二同向重复序列享有100％一致性。在优选实施例中，第一CRISPR酶具有一个或多个突变，使得该酶是互补链切口酶，并且第二CRISPR酶具有一个或多个突变，使得该酶是非互补链切口酶。另选地，第一酶可以是非互补链切口酶，并且第二酶可以是互补链切口酶。在本发明的另一个实施例中，病毒载体中的一个或多个经由脂质体、纳米粒子、外来体、微泡或基因枪来递送；但是，粒子递送是有利的。

在本发明的优选方法中，引导DNA双链体中的靠近第一靶序列的一条链的切割的第一指导序列和引导靠近第二靶序列的另一条链的切割的第二指导序列使得5′突出端产生。在本发明的实施例中，5' 突出端具有至多200个碱基对，优选至多100个碱基对或更优选至多50个碱基对。在本发明的实施例中，5' 突出端具有至少26个碱基对，优选至少30个碱基对或更优选至少34-50个碱基对。

在一些实施例中本发明包括一种通过以下方式来修饰例如HSC中的感兴趣的基因组座位的方法：例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，通过将该突变引入到HSC中，例如通过使HSC与包含具有一个或多个突变的Cas蛋白和分别靶向HSC中的DNA 分子的第一条链和第二条链的两个指导RNA的一个或多个粒子接触，由此指导RNA靶向DNA分子并且Cas 蛋白切口DNA分子的第一条链和第二条链中的每条，由此HSC中的靶标被改变；并且，其中Cas蛋白和两个指导RNA并不是同时天然存在的并且该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中“正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；并且任选地，该方法可以包括从生物体或非人类生物体分离或获得HSC，任选地扩增 HSC群体，使一个或多个粒子与HSC进行接触以获得修饰的HSC群体，任选地扩增修饰HSC的群体，并且任选地向生物体或非人类生物体给予修饰HSC。在本发明的优选方法中，Cas蛋白切口DNA分子的第一条链和第二条链中的每条使得5'突出端产生。在本发明的实施例中，5'突出端具有至多200个碱基对，优选至多100个碱基对或更优选至多50个碱基对。在本发明的实施例中，5′突出端具有至少26个碱基对，优选至少30个碱基对或更优选至少34-50个碱基对。在本发明的一个方面中，Cas蛋白被密码子优化为在真核细胞，优选地是哺乳动物细胞或人类细胞中表达。本发明的方面涉及被减少的基因产物或被进一步引入到编码基因产物的DNA分子中的模板多核苷酸或通过允许两个5’突出端重新退火并连接而被精确切断的间插序列的表达、或被改变的基因产物的活性或功能、或被增加的基因产物的表达。在本发明的一个实施例中，基因产物是蛋白质。

在一些实施例中本发明包括一种通过以下方式来修饰例如HSC中感兴趣的基因组座位的方法：例如其中感兴趣的基因组座位与与异常的蛋白质表达或与疾病病状或状态相关联的突变相关联，通过将该突变引入到HSC中，例如通过使HSC与包含下项的一个或多个粒子接触：

a)可操作地连接至分别靶向HSC的双链DNA分子的第一条链和第二条链的两个CRISPR-Cas系统指导RNA中的每个的第一调节元件，以及

b)可操作地连接至Cas(例如Cpf1)蛋白的第二调节元件，或

c)a)或b)的一种或多种表达产物，

其中组分(a)和(b)位于系统的相同或不同载体上，由此指导RNA靶向HSC的DNA分子并且Cas蛋白切口HSC中的DNA分子的第一条链和第二条链中的每条；并且其中Cas蛋白和两个指导RNA并不同时天然存在；并且该方法可以任选地还包括递送HDR模板，例如经由使含有HDR模板的粒子接触HSC，或使HSC接触含有HDR模板的另一个粒子来进行，其中HDR模板提供了蛋白质的正常形式或较少异常形式的表达；其中“正常的”是对于野生型来说的，并且“异常的”可以是导致病状或疾病状态的蛋白质表达；并且任选地，该方法可以包括从生物体或非人类生物体分离或获得HSC，任选地扩增HSC群体，使一个或多个粒子与HSC 进行接触以获得修饰的HSC群体，任选地扩增修饰HSC的群体，并且任选地向生物体或非人类生物体给予修饰HSC。在本发明的方面中，指导RNA可以包含融合至同向重复序列的指导序列。本发明的方面涉及被减少的基因产物或被进一步引入到编码基因产物的DNA分子中的模板多核苷酸或通过允许两个5’突出端重新退火并连接而被精确切断的间插序列的表达、或被改变的基因产物的活性或功能、或被增加的基因产物的表达。在本发明的一个实施例中，基因产物是蛋白质。在本发明的优选实施例中，系统的载体是病毒载体。在另一个实施例中，系统的载体经由脂质体、纳米粒子、外来体、微泡或基因枪来递送；并且粒子是优选的。在一个方面中，本发明提供了一种修饰HSC中的靶多核苷酸的方法。在一些实施例中，该方法包括使得CRISPR复合物结合靶多核苷酸来实施所述靶多核苷酸的切割，从而修饰该靶多核苷酸，其中该 CRISPR复合物包含与杂交至所述靶多核苷酸内的靶序列的指导序列复合的CRISPR酶，其中所述指导序列连接至同向重复序列。在一些实施例中，所述切割包括通过所述CRISPR酶切割靶序列的位置处的一条或两条链。在一些实施例中，所述切割使得靶基因的转录减少。在一些实施例中，该方法进一步包括使用外源性模板多核苷酸通过同源重组修复所述切割的靶多核苷酸，其中所述修复产生包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代的突变。在一些实施例中，所述突变使得由包含靶序列的基因表达的蛋白质中发生一个或多个氨基酸的变化。在一些实施例中，该方法进一步包括例如经由一个或多个粒子将一个或多个载体或其一种或多种表达产物递送至例如所述HSC，其中一个或多个载体驱动以下项中的一个或多个的表达：CRISPR酶、连接至同向重复序列的指导序列。在一些实施例中，所述载体被递送至受试者中的例如HSC。在一些实施例中，所述修饰发生在细胞培养中的所述HSC中。在一些实施例中，该方法进一步包括在所述修饰之前将所述HSC从受试者分离。在一些实施例中，该方法进一步包括将所述HSC和 /或衍生自其的细胞返回至所述受试者。

在一个方面中，本发明提供了一种产生例如包含突变型疾病相关基因的HSC的方法。在一些实施例中，疾病相关基因是与患病或发展病的风险的增加相关联的任何基因。在一些实施例中，该方法包括(a)例如经由一个或多个粒子将一种或多种载体或其一种或多种表达产物递送至HSC中，其中一种或多种载体驱动以下项中的一个或多个的表达：CRISPR酶、连接至同向重复序列的指导序列。并且(b)使得 CRISPR复合物结合靶多核苷酸以实施所述疾病相关基因内的靶多核苷酸的切割，其中CRISPR复合物包含与杂交至靶多核苷酸内的靶序列的指导序列复合的CRISPR酶，并且任选地，在可适用的情况下，从而产生包含突变型疾病相关基因的HSC。在一些实施例中，所述切割包括通过所述CRISPR酶切割靶序列的位置处的一条或两条链。在一些实施例中，所述切割使得靶基因的转录减少。在一些实施例中，该方法进一步包括使用外源性模板多核苷酸通过同源重组修复所述切割的靶多核苷酸，其中所述修复产生包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代的突变。在一些实施例中，所述突变使得来自包含靶序列的基因的蛋白质表达发生一个或多个氨基酸的变化。在一些实施例中，修饰HSC被给予至动物以由此产生动物模型。

在一个方面中，本发明提供了修饰例如HSC中的靶多核苷酸的方法。在一些实施例中，该方法包括使得CRISPR复合物结合靶多核苷酸来实施所述靶多核苷酸的切割，从而修饰该靶多核苷酸，其中该CRISPR复合物包含与杂交至所述靶多核苷酸内的靶序列的指导序列复合的CRISPR酶，其中所述指导序列连接至同向重复序列。在其他实施例中，本发明提供了一种修饰多核苷酸在来自例如HSC的真核细胞中的表达的方法。该方法包括通过使用结合HSC中的多核苷酸的CRISPR复合物增加或减少靶多核苷酸的表达；有利的是CRISPR复合物经由一个或多个粒子递送。

在一些方法中，靶多核苷酸可以被失活以实施例如HSC中表达的修饰。例如，在CRISPR复合物与细胞中的靶序列结合后，靶多核苷酸失活，这样使得该序列不被转录，该编码蛋白不被产生，或者该序列不会像野生型序列一样起作用。

在一些实施例中，CRISPR-Cas系统的RNA，例如指导RNA或gRNA可以被修饰；例如以包含适配子或功能结构域。适配子是一种结合特异性靶分子的合成寡核苷酸；例如，已经通过重复数轮的体外选择或SELEX(指数富集配体系统进化法)被工程化为结合不同分子的核苷酸分子靶向诸如小分子、蛋白质、核酸以及甚至细胞、组织和生物体。适配子是有用的，因为它们提供比得上抗体的分子识别特性。除了其区分识别之外，适配子提供了超过抗体的优势，包括它们在治疗性应用中几乎不或不引发免疫原性。因此，在本发明的实践中，酶或RNA中的任一者或两者可以包含功能结构域。

在一些实施例中，功能结构域是转录激活结构域，优选地VP64。在一些实施例中，功能结构域是转录阻遏结构域，优选地KRAB。在一些实施例中，转录阻遏结构域是SID或SID的串联体(例如SID4X)。在一些实施例中，功能结构域是表观遗传修饰结构域，以便提供表观遗传修饰酶。在一些实施例中，功能结构域是激活结构域，它可以是P65激活结构域。在一些实施例中，功能结构域包括核酸酶活性。在一个此实施例中，功能结构域包括Fok1。

本发明还提供了一种包含以上所述的或来自任一以上所述方法的修饰CRISPR酶、组合物、系统或复合物中的任一种的体外或离体细胞。细胞可以是真核细胞或原核细胞。本发明还提供了此类细胞的子代。本发明还提供了一种任何此细胞或任一此子代的产物，其中该产物是如通过CRISPR复合物的修饰 CRISPR酶修饰的所述一个或多个靶座位的产物。产物可以是肽、多肽或蛋白质。一些此类产物可以通过 CRISPR复合物的修饰CRISPR酶来修饰。在一些此类修饰产物中，靶座位的产物物理上不同于未经所述修饰CRISPR酶修饰的所述靶座位的产物。

本发明还提供了一种包含编码以上所述的任一非天然存在的CRISPR酶的多核苷酸序列的多核苷酸分子。

任一此多核苷酸可以进一步包含可操作地连接至编码非天然存在的CRISPR酶的多核苷酸序列的一个或多个调节元件。

在包含一个或多个调节元件的任一此多核苷酸中，一个或多个调节元件可以被可操作地构造成用于非天然存在的CRISPR酶在真核细胞中的表达。真核细胞可以是人类细胞。真核细胞可以是啮齿动物细胞，任选地小鼠细胞。真核细胞可以是酵母细胞。真核细胞可以是中国仓鼠卵巢(CHO)细胞。真核细胞可以是昆虫细胞。

在包含一个或多个调节元件的任一此多核苷酸中，一个或多个调节元件可以被可操作地构造成用于非天然存在的CRISPR酶在原核细胞中的表达。

在包含一个或多个调节元件的任一此多核苷酸中，一个或多个调节元件可以被可操作地构造成用于非天然存在的CRISPR酶在体外系统中的表达。

本发明还提供了一种包含任一上述多核苷酸分子的表达载体。本发明还提供了此或此类核苷酸分子例如被可操作地构造成用于表达蛋白质的此类多核苷酸分子，和/或一种或多种核酸组分，以及此或此类载体。

本发明进一步提供了一种使Cas(例如Cpf1)形成突变或形成突变或修饰的Cas(例如Cpf1) 的方法，该突变或修饰的Cas(例如Cpf1)是如在此所述的根据本发明的CRISPR酶的直向同源物，该方法包括确定使得直向同源物可以紧密接近或可以触及核酸分子，例如DNA、RNA、gRNA等的一个或多个氨基酸，和/或类似于或对应于如在此所述的根据本发明的CRISPR酶中的在此鉴定的一个或多个氨基酸的一个或多个氨基酸，和合成或制备或表达包含下项、由或基本由下项组成的直向同源物：一个或多个修饰和 /或一个或多个突变，或如在此所讨论的进行突变例如将中性氨基酸修饰例如改变或突变为带电荷的例如带正电荷的氨基酸，例如由丙氨酸变为例如赖氨酸。此修饰直向同源物可以用于CRISPR-Cas系统中；并且表达此修饰直向同源物的一个或多个核酸分子可以用于递送编码如在此所讨论的CRISPR-Cas系统组分的分子的载体或其他递送系统中。

在一个方面中，本发明提供了有效中靶活性并且最小化脱靶活性。在一个方面中，本发明提供了由CRISPR蛋白进行的有效中靶切割并且最小化由CRISPR蛋白进行的脱靶切割。在一个方面中，本发明提供了在无DNA切割情况下CRISPR蛋白在基因座位处的特异性结合。在一个方面中，本发明提供了 CRISPR蛋白在基因座位处的有效的指导序列引导的中靶结合并且最小化CRISPR蛋白的脱靶结合。因此，在一个方面中，本发明提供了靶特异性基因调节。在一个方面中，本发明提供了在无DNA切割情况下 CRISPR酶在基因座位处的特异性结合。因此，在一个方面中，本发明使用单一CRISPR酶提供一个基因座位处的切割和不同基因座位处的基因调节。在一个方面中，本发明使用一种或多种CRISPR蛋白和/或酶提供多个靶标的正交激活和/或抑制和/或切割。

在另一个方面中，本发明提供了一种功能性筛选离体或体内细胞库中的基因组中基因的方法，该方法包括给予或表达包含多个CRISPR-Cas系统指导RNA(gRNA)的文库并且其中该筛选进一步包括 CRISPR酶的使用，其中CRISPR复合物被修饰成包含异源功能结构域。在一个方面中，本发明提供了一种用于筛选基因组的方法，该方法包括向宿主给予文库或者在宿主体内表达文库。在一个方面中，本发明提供了一种如在此讨论的方法，该方法进一步包括向宿主给予激活因子或在宿主中表达激活因子。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该激活因子附接至CRISPR蛋白。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该激活因子附接至CRISPR蛋白的N末端或C末端。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该激活因子附接至gRNA环。在一个方面中，本发明提供了一种如在此讨论的方法，该方法进一步包括向宿主给予阻遏剂或在宿主中表达阻遏剂。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该筛选包括影响并检测基因激活、基因抑制或座位中的切割。

在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是真核细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是哺乳动物细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是非人类真核细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该非人类真核细胞是非人类哺乳动物细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中非人类哺乳动物细胞可以是包括但不限于，灵长类动物、牛、羊、猪类、犬、啮齿动物、兔科诸如猴、母牛、绵羊、猪、狗、兔、大鼠或小鼠的细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，该细胞可以是非哺乳动物真核细胞诸如家禽鸟类(例如鸡)、脊椎动物鱼(例如鲑鱼)或甲壳类动物(例如牡蛎、蛤、龙虾、虾)的细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，该非人类真核细胞是植物细胞。植物细胞可以是单子叶植物或双子叶植物具有的细胞或栽培植物或粮食植物诸如木薯、玉米、高粱、大豆、小麦、燕麦或稻具有的细胞。植物细胞还可以是藻类、树或生产植物、果实或蔬菜(例如，树类诸如柑橘树，例如桔子树、葡萄柚树或柠檬树；桃树或油桃树；苹果树或梨树；坚果树诸如杏树或核桃树或阿月浑子树；茄属植物；芸苔属植物；莴苣属植物；菠菜属植物；辣椒属植物；棉花、烟草、芦笋、胡萝卜、甘蓝、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等)具有的细胞。

在一个方面中，本发明提供了一种如在此所讨论的方法，该方法包括递送CRISPR-Cas复合物或其一种或多种组分或对其编码的一个或多个核酸分子，其中所述一个或多个核酸分子可操作地连接至一种或多种调节序列并且在体内表达。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该体内表达是经由慢病毒、腺病毒或AAV。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该递送是经由粒子、纳米粒子、脂质或细胞穿透肽(CPP)。

在特定的实施例中，将CRISPR-Cas复合物靶向叶绿体可能是感兴趣的。在许多情况下，此靶向可以是通过称为叶绿体转运肽(CTP)或质体转运肽的N末端延伸的存在来实现的。如果表达的多肽将要在植物质粒(例如叶绿体)中区室化，则来自细菌来源的染色体转基因必须具有融合至编码表达多肽的序列的编码CTP序列的序列。因此，将外源性多肽定位至叶绿体常常通过将编码CTP序列的多核苷酸序列可操作地连接至编码外源性多肽的多核苷酸的5'区来实现。在易位到叶绿体中的过程中，在处理步骤中去除CTP。然而，处理效率可以受CTP的氨基酸序列和肽的NH2末端处的附近序列影响。已被描述用于靶向至叶绿体的其他选择是玉米cab-m7信号序列(美国专利7,022,896、WO 97/41228)、豌豆谷胱甘肽还原酶信号序列(WO 97/41228)以及US 2009029861中描述的CTP。

在一个方面中，本发明提供了一对CRISPR-Cas复合物，每个复合物包含含有能够与细胞中的感兴趣的基因组座位中的靶序列杂交的指导序列的指导RNA(gRNA)，其中每个sgRNA的至少一个环是通过插入结合一种或多种衔接蛋白的一种或多种不同RNA序列来修饰的，并且其中该衔接蛋白与一个或多个功能结构域缔合，其中每个CRISPR-Cas的每个gRNA包含具有DNA切割活性的功能结构域。在一个方面中，本发明提供了如在此所讨论的成对的CRISPR-Cas复合物，其中DNA切割活性是归因于Fok1核酸酶。

在一个方面中，本发明提供了一种用于切割感兴趣的基因组座位中的靶序列的方法，该方法包括向细胞递送CRISPR-Cas复合物或其一种或多种组分或对其编码的一个或多个核酸分子，其中所述一个或多个核酸分子可操作地连接至一个或多个调节序列并且在体内表达。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该递送是经由慢病毒、腺病毒或AAV。在一个方面中，本发明提供了一种如在此所讨论的方法或如在此所讨论的成对的CRISPR-Cas复合物，其中该对中的第一复合物的靶序列是处于双链DNA的第一条链上并且该对中的第二复合物的靶序列是处于双链DNA的第二条链上。在一个方面中，本发明提供了一种如在此所讨论的方法或如在此所讨论的成对的CRISPR-Cas复合物，其中该第一复合物和该第二复合物的靶序列彼此接近，使得DNA以促进同源定向修复的方式切割。在一个方面中，一种在此的方法可以进一步包括将模板DNA引入到细胞中。在一个方面中，一种在此的方法或者在此的成对的 CRISPR-Cas复合物可以涉及其中每个CRISPR-Cas复合物具有CRISPR酶，该CRISPR酶被突变为使得它具有不超过未突变CRISPR酶的核酸酶活性的约5％的核酸酶活性。

在一个方面中，本发明提供了一种如在此所讨论的文库、方法或复合物，其中gRNA被修饰为具有至少一个非编码功能环，例如其中该至少一个非编码功能环是具有阻遏作用的；例如，其中该至少一个非编码功能环包含Alu。

在一个方面中，本发明提供了一种用于改变或修饰基因产物的表达的方法。所述方法可以包括将工程化的非天然存在的CRISPR-Cas系统引入到含有并表达编码基因产物的DNA分子的细胞中，该 CRISPR-Cas系统包含Cas蛋白和靶向DNA分子的指导RNA，由此该指导RNA靶向编码基因产物的DNA分子并且该Cas蛋白切割编码该基因产物的DNA分子，由此改变该基因产物的表达；并且其中Cas蛋白和指导 RNA并不同时天然存在。本发明进一步包括密码子优化为在真核细胞中表达的Cas蛋白。在一个优选实施例中，真核细胞是哺乳动物细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，基因产物的表达减少。

在一个方面中，本发明提供了改变的细胞和那些细胞的子代，以及由这些细胞产生的产物。本发明的CRISPR-Cas(例如Cpf1)蛋白和系统用于产生包含修饰的靶座位的细胞。在一些实施例中，该方法可以包括使得核酸靶向复合物结合靶DNA或RNA来实施所述靶DNA或RNA的切割，从而修饰该靶DNA 或RNA，其中该核酸靶向复合物包含与杂交至所述靶DNA或RNA内的靶序列的指导RNA复合的核酸靶向效应蛋白。在一个方面中，本发明提供了一种修复细胞中的遗传座位的方法。在另一个方面中，本发明提供了一种修饰DNA或RNA在真核细胞中的表达的方法。在一些实施例中，该方法包括使得核酸靶向复合物结合DNA或RNA，以使得所述结合导致所述DNA或RNA的表达增加或减少；其中该核酸靶向复合物包含与指导RNA复合的核酸靶向效应蛋白。类似的考虑因素和条件适用如上文针对修饰靶DNA或RNA的方法。实际上，这些取样、培养和重新引入选择跨本发明的多个方面而适用。在一个方面中，本发明提供了修饰真核细胞中的靶DNA或RNA的方法，这些方法可以是在体内、离体或在体外。在一些实施例中，该方法包括从人类或非人类动物取样细胞或细胞群体，并且修饰该细胞或这些细胞。培养可以发生在离体的任何阶段。此类细胞可以是但不限于植物细胞、动物细胞、任何生物体的特定细胞类型，包括干细胞、免疫细胞、 T细胞、B细胞、树突细胞、心血管细胞、上皮细胞、干细胞等。细胞可以根据本发明进行修饰以产生例如受控量的基因产物，这些受控量可以是增加的或减少的，这取决于用途，并且/或者发生突变。在某些实施例中，细胞的基因组座位被修复。该细胞或这些细胞甚至可以被重新引入非人类动物或植物中。对于重新引入的细胞，可以优选的是这些细胞是干细胞。

在一个方面中，本发明提供了瞬时包含CRISPR系统或组分的细胞。例如，CRISPR蛋白或酶和核酸被瞬时提供给细胞并且基因组座位被改变，然后CRISPR系统的一种或多种组分的量进行衰减。随后，获得了CRISPR介导的遗传改变的细胞、这些细胞子代以及包含这些细胞的生物体包含减少量的一种或多种CRISPR系统组分，或者不再含有这些一种或多种CRISPR系统组分。一个非限制性实例是诸如在此进一步描述的自失活的CRISPR-Cas系统。因此，本发明提供了包含一种或多种CRISPR-Cas系统改变的遗传座位，但基本上缺乏一种或多种CRISPR系统组分的细胞和生物体，以及这些细胞和生物体的子代。在某些实施例中，CRISPR系统组分是基本上不存在的。此类细胞、组织和生物体有利地包含所希望的或所选择的遗传改变，但是丧失了潜在地可能起非特异性作用、产生安全问题或妨碍监管审批的CRISPR-Cas 组分或其剩余部分。同样，本发明提供了由细胞、生物体以及细胞和生物体的子代产生的产物。

诱导型Cpf1 CRISPR-Cas系统(“拆分的-Cpf1”)

在一个方面中，本发明提供了一种非天然存在或工程化的诱导型Cpf1 CRISPR-Cas系统，该系统包含：

附接至诱导型二聚体的第一半部的第一Cpf1融合构建体，以及

附接至诱导型二聚体的第二半部的第二Cpf1融合构建体，

其中第一Cpf1融合构建体被可操作地连接至一个或多个核定位信号，

其中第二Cpf1融合构建体被可操作地连接至一个或多个核输出信号，

其中与诱导物能量源的接触使得诱导型二聚体的第一半部和第二半部合在一起，

其中使诱导型二聚体的第一半部和第二半部合在一起允许第一Cpf1融合构建体和第二Cpf1融合构建体组成功能性Cpf1 CRISPR-Cas系统，

其中Cpf1 CRISPR-Cas系统包含含有能够与细胞中的感兴趣的基因组座位中的靶序列杂交的指导序列的指导RNA(gRNA)，并且

其中功能性Cpf1 CRISPR-Cas系统结合靶序列并且任选地编辑基因组座位以改变基因表达。

在本发明的一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，诱导型二聚体是或包含诱导型异源二聚体或基本上由或由该诱导型异源二聚体组成。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，诱导型异源二聚体的第一半部或第一部分或第一片段是或包含FKBP(任选地FKBP12)或由或基本上由该 FKBP组成。在本发明的一个方面中，在诱导型Cpf1CRISPR-Cas系统中，诱导型异源二聚体的第二半部或第二部分或第二片段是或包含FRB或由或基本上由该FRB组成。在本发明的一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，第一Cpf1融合构建体的安排是或包含N'末端Cpf1部分-FRB-NES或由或基本上由该N' 末端Cpf1部分-FRB-NES组成。在本发明的一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，第一Cpf1融合构建体的安排是或包含NES-N'末端Cpf1部分-FRB-NES或由或基本上由该NES-N'末端Cpf1部分-FRB-NES 组成。在本发明的一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，第二Cpf1融合构建体的安排是或包含 C'末端Cpf1部分-FKBP-NLS或基本上由或由该C'末端Cpf1部分-FKBP-NLS组成。在一个方面中，本发明提供了诱导型Cpf1 CRISPR-Cas系统，第二Cpf1融合构建体的安排是或包含NLS-C'末端Cpf1部分-FKBP-NLS 或由或基本上由该NLS-C'末端Cpf1部分-FKBP-NLS组成。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，可以存在将Cpf1部分与诱导型二聚体的半部或部分或片段分开的接头。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，诱导物能量源是是或包含雷帕霉素或基本上由或由雷帕霉素组成。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，诱导型二聚体是诱导型同源二聚体。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，Cpf1是FnCpf1。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，一个或多个功能结构域与Cpf1的一部分或两部分缔合，例如功能结构域任选地包括转录激活因子、转录因子(transcriptional) 或核酸酶诸如Fok1核酸酶。在一个方面中，在诱导型Cpf1 CRISPR-Cas系统中，功能性Cpf1 CRISPR-Cas系统结合靶序列并且酶是无效Cpf1，该无效Cpf1任选地与不具有至少一个突变的Cpf1相比具有至少97％或 100％减弱的核酸酶活性(或不超过3％且有利地0％核酸酶活性)。本发明进一步包括并且本发明的一个方面提供了编码如在此所讨论的诱导型Cpf1 CRISPR-Cas系统的多核苷酸。

在一个方面中，本发明提供了一种用于递送第一Cpf1融合构建体的载体，根据如在此所讨论的，该第一Cpf1融合构建体被附接至诱导型二聚体的第一半部或部分或片段并且可操作地连接至一个或多个核定位信号。在一个方面中，本发明提供了一种用于递送第二Cpf1融合构建体的载体，该第二Cpf1融合构建体被附接至诱导型二聚体的第二半部或部分或片段并且可操作地连接至一个或多个核输出信号。

在一个方面中，本发明提供了一种用于递送以下两者的载体：第一Cpf1融合构建体，如在此所讨论的，该第一Cpf1融合构建体被附接至诱导型二聚体的第一半部或部分或片段并且可操作地连接至一个或多个核定位信号；以及第二Cpf1融合构建体，如在此所讨论的，该第二Cpf1融合构建体被附接至诱导型二聚体的第二半部或部分或片段并且可操作地连接至一个或多个核输出信号。

在一个方面中，载体可以是单一质粒或表达盒。

在一个方面中，本发明提供了一种用在此所讨论的或表达如在此所讨论的诱导型Cpf1 CRISPR-Cas系统的任一载体转化的真核宿主细胞或细胞系。

在一个方面中，本发明提供了一种用在此所讨论的或表达在此所讨论的诱导型Cpf1 CRISPR-Cas系统的任一载体转化的转基因生物体，或它们的子代。在一个方面中，本发明提供了一种组成型地表达如在此所讨论的诱导型Cpf1 CRISPR-Cas系统的模型生物体。

在一个方面中，本发明提供了非天然存在或工程化的诱导型Cpf1 CRISPR-Cas系统，该系统包含：

附接至诱导型异源二聚体的第一半部的第一Cpf1融合构建体，以及

附接至诱导型异源二聚体的第二半部的第二Cpf1融合构建体，

其中第二CPf1融合构建体被可操作地连接至核输出信号，

其中与诱导物能量源的接触使得诱导型异源二聚体的第一半部和第二半部合在一起，

其中使诱导型异源二聚体的第一半部和第二半部合在一起允许第一Cpf1融合构建体和第二Cpf1融合构建体组成功能性Cpf1 CRISPR-Cas系统，

其中功能性Cpf1 CRISPR-Cas系统编辑基因组座位以改变基因表达。

在一个方面中，本发明提供了一种治疗有需要的受试者的方法，该方法包括通过用如在此所讨论的多核苷酸或在此讨论的任一载体转化受试者来诱导基因编辑，并且向受试者给予诱导物能量源。本发明包括此多核苷酸或载体在药物，例如用于治疗受试者的此药物的制造中，或用于治疗受试者的此方法的用途。本发明包括在治疗有需要的受试者的方法中使用的如在此所讨论的多核苷酸或在此所讨论的任一载体，该方法包括诱导基因编辑，其中该方法进一步包括向受试者给予诱导物能量源。在一个方面中，在该方法中，还提供了修复模板，例如通过包含所述修复模板的载体来递送。

本发明还提供了一种治疗有需要的受试者的方法，该方法包括通过用在此所讨论的多核苷酸或在此所讨论的任一载体转化受试者来诱导转录激活或阻遏，其中所述多核苷酸或载体编码或包含催化失活的Cpf1和如在此所讨论的一个或多个缔合的功能结构域；该方法进一步包括向受试者给予诱导物能量源。本发明还提供了在治疗有需要的受试者的方法中使用的在此所讨论的多核苷酸或在此所讨论的任一载体，该方法包括诱导转录激活或阻遏，其中该方法进一步包括向受试者给予诱导物能量源。

因此，本发明尤其包括同源二聚体以及异源二聚体、例如通过突变产生的无效Cpf1或基本上不具有核酸酶活性的Cpf1、其中存在一个或多个NLS和/或一个或多个NES的系统或复合物；连接至拆分 Cpf1的一个或多个功能结构域；包括治疗方法的方法，以及用途。

应了解的是，在此提及Cpf1、Cpf1蛋白或Cpf1酶的情况下，这包括本发明的拆分Cpf1。在一个方面中，本发明提供了一种用于改变或修饰基因产物的表达的方法。所述方法可以包括将工程化的非天然存在的Cpf1 CRISPR-Cas系统引入到含有并表达编码基因产物的DNA分子的细胞中，该Cpf1 CRISPR-Cas 系统包含Cpf1蛋白和靶向DNA分子的指导RNA，由此该指导RNA靶向编码基因产物的DNA分子并且该 Cpf1蛋白切割编码该基因产物的DNA分子，由此改变该基因产物的表达；并且其中Cpf1蛋白和指导RNA 并不同时天然存在。本发明包括包含连接至同向重复序列(DR)的指导序列的指导RNA。本发明进一步包括密码子优化为在真核细胞中表达的Cpf1蛋白。在一个优选实施例中，真核细胞是哺乳动物细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，基因产物的表达减少。

在一个方面中，本发明提供了一种工程化的非天然存在的Cpf1 CRISPR-Cas系统，该Cpf1 CRISPR-Cas系统包含Cpf1蛋白和靶向编码细胞中基因产物的DNA分子的指导RNA，由此该指导RNA靶向编码基因产物的DNA分子并且该Cpf1蛋白切割编码该基因产物的DNA分子，由此改变该基因产物的表达；并且其中Cpf1蛋白和指导RNA并不同时天然存在；此Cpf1包括本发明的拆分的Cpf1。本发明包括包含连接至DR序列的指导序列的指导RNA。本发明进一步包括密码子优化为在真核细胞中表达的Cpf1蛋白。在一个优选实施例中，真核细胞是哺乳动物细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，基因产物的表达减少。

在另一个方面中，本发明提供了一种包含一种或多种载体的工程化的非天然存在的载体系统，这些载体包含可操作地连接至靶向编码基因产物的DNA分子的Cpf1 CRISPR-Cas系统指导RNA的第一调节元件以及可操作地连接至Cpf1蛋白的第二调节元件；此Cpf1包括本发明的拆分的Cpf1。组分(a)和(b)可以位于系统的相同或不同的载体上。指导RNA靶向编码细胞中的基因产物的DNA分子并且Cpf1蛋白切割编码该基因产物的该DNA分子，由此改变该基因产物的表达；并且其中Cpf1蛋白和指导RNA并不同时天然存在。本发明包括包含连接至DR序列的指导序列的指导RNA。本发明进一步包括密码子优化为在真核细胞中表达的Cpf1蛋白。在一个优选实施例中，真核细胞是哺乳动物细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，基因产物的表达减少。

在一个方面中，本发明提供了一种包含一种或多种载体的载体系统。在一些实施例中，该系统包含：(a)可操作地连接至DR序列的第一调节元件和用于将一种或多种指导序列插入DR序列的下游的一个或多个插入位点，其中在表达时，指导序列引导Cpf1CRISPR-Cas复合物与真核细胞中的靶序列的序列特异性结合，其中Cpf1 CRISPR-Cas复合物包含与(1)杂交至靶序列的指导序列，和(2)DR序列复合的 Cpf1；和(b)可操作地连接至编码包含核定位序列的所述Cpf1酶的酶编码序列的第二调节元件；其中组分 (a)和(b)位于系统的相同或不同的载体上；此Cpf1包括本发明的拆分的Cpf1。在一些实施例中，组分(a) 进一步包含可操作地连接至第一调节元件的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导Cpf1 CRISPR-Cas复合物与真核细胞中的不同靶序列的序列特异性结合。

在一些实施例中，Cpf1 CRISPR-Cas复合物包含具有足以驱动所述Cpf1 CRISPR-Cas复合物在真核细胞的核中以可检测的量积累的强度的一个或多个核定位序列。在不希望受到理论约束的情况下，据信核定位序列不是为真核生物中的Cpf1 CRISPR-Cas复合物活性所需要的，但是包括此类序列增强系统的活性，特别是对于靶向核中的核酸分子而言。

在一些实施例中，Cpf1酶是选自下组的细菌物种的Cpf1，该组由下项组成：土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌和猕猴卟啉单胞菌，并且可以包括来源于这些生物体的突变型CPf1。酶可以是Cpf1同源物或直向同源物。在一些实施例中，Cpf1被密码子优化为在真核细胞中表达。在一些实施例中，Cpf1引导靶序列位置处的一条或两条链的切割。在一个优选实施例中，链断裂是交错切割的，产生了5'突出端。在一些实施例中，第一调节元件是聚合酶III启动子。在一些实施例中，第二调节元件是聚合酶II启动子。在一些实施例中，同向重复序列具有16个核苷酸的最小长度并且具有单一茎环。在另外的实施例中，同向重复序列具有长于16个核苷酸，优选超过17个核苷酸的长度，并且具有超过一个的茎环或优化的二级结构。

在一个方面中，本发明提供了一种包含以下项的真核宿主细胞：(a)可操作地连接至同向重复序列的第一调节元件和用于将一种或多种指导序列插入DR序列的下游的一个或多个插入位点，其中在表达时，指导序列引导Cpf1 CRISPR-Cas复合物与真核细胞中的靶序列的序列特异性结合，其中Cpf1 CRISPR-Cas复合物包含与(1)杂交至靶序列的指导序列，和(2)DR序列复合的Cpf1；和/或(b)可操作地连接至编码包含核定位序列的所述Cpf1酶的酶编码序列的第二调节元件。在一些实施例中，宿主细胞包含组分(a)和(b)；此Cpf1包括本发明的拆分的Cpf1。在一些实施例中，组分(a)、组分(b)或组分(a)和(b) 被稳定地整合到宿主真核细胞的基因组中。在一些实施例中，组分(a)进一步包含可操作地连接至第一调节元件的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导Cpf1 CRISPR-Cas 复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施例中，CPf1被密码子优化为在真核细胞中表达。在一些实施例中，Cpf1引导靶序列位置处的一条或两条链的切割。在一个优选实施例中，链断裂是交错切割的，产生了5'突出端。在一些实施例中，Cpf1缺乏DNA链切割活性。在一些实施例中，第一调节元件是聚合酶III启动子。在一些实施例中，同向重复序列具有16个核苷酸的最小长度并且具有单一茎环。在另外的实施例中，同向重复序列具有长于16个核苷酸，优选超过17个核苷酸的长度，并且具有超过一个的茎环或优化的二级结构。在一个方面中，本发明提供了一种非人类真核生物体；优选地是多细胞真核生物体，这些生物体包含根据任何所述实施例的真核宿主细胞。在其他方面中，本发明提供了一种真核生物体；优选地是多细胞真核生物体，这些生物体包含根据任何所述实施例的真核宿主细胞。在这些方面的一些实施例中，该生物体可以是动物；例如，哺乳动物。而且，该生物体可以是节肢动物，诸如昆虫。生物体还可以是植物。另外，生物体可以是真菌。

在一个方面中，本发明提供了一种包含在此所述的一种或多种组分的试剂盒。在一些实施例中，试剂盒包括载体系统和用于使用试剂盒的说明书。在一些实施例中，该载体系统包含：(a)可操作地连接至同向重复序列的第一调节元件和用于将一种或多种指导序列插入DR序列的下游的一个或多个插入位点，其中在表达时，指导序列引导Cpf1CRISPR-Cas复合物与真核细胞中的靶序列的序列特异性结合，其中Cpf1 CRISPR-Cas复合物包含与(1)杂交至靶序列的指导序列，和(2)DR序列复合的Cpf1；和/或(b) 可操作地连接至编码包含核定位序列的所述Cpf1酶的酶编码序列的第二调节元件并且有利的是此Cpf1包括本发明的拆分Cpf1。在一些实施例中，试剂盒包括位于系统的相同或不同的载体上的组分(a)和(b)。在一些实施例中，组分(a)进一步包含可操作地连接至第一调节元件的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导Cpf1 CRISPR-Cas复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施例中，Cpf1包含具有足以驱动所述Cpf1在真核细胞的核中以可检测的量积累的强度的一个或多个核定位序列。在一些实施例中，Cpf1酶是选自下组的细菌物种的Cpf1，该组由下项组成：土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌和猕猴卟啉单胞菌，并且可以包括来源于这些生物体的突变型CPf1。酶可以是Cpf1同源物或直向同源物。在一些实施例中，Cpf1被密码子优化为在真核细胞中表达。在一些实施例中，Cpf1引导靶序列位置处的一条或两条链的切割。在一个优选实施例中，链断裂是交错切割的，产生了5′突出端。在一些实施例中，CRISPR酶缺乏 DNA链切割活性。在一些实施例中，同向重复序列具有16个核苷酸的最小长度并且具有单一茎环。在另外的实施例中，同向重复序列具有长于16个核苷酸，优选超过17个核苷酸的长度，并且具有超过一个的茎环或优化的二级结构。

在一个方面中，本发明提供了一种修饰真核细胞中的靶多核苷酸的方法。在一些实施例中，该方法包括使得Cpf1 CRISPR-Cas复合物结合靶多核苷酸来实施所述靶多核苷酸的切割，从而修饰该靶多核苷酸，其中该Cpf1 CRISPR-Cas复合物包含与杂交至所述靶多核苷酸内的靶序列的指导序列复合的Cpf1，其中所述指导序列连接至同向重复序列。在一些实施例中，所述切割包括通过所述Cpf1切割靶序列的位置处的一条或两条链；此Cpf1包括本发明的拆分的Cpf1。在一些实施例中，所述切割使得靶基因的转录减少。在一些实施例中，该方法进一步包括使用外源性模板多核苷酸通过同源重组修复所述切割的靶多核苷酸，其中所述修复产生包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代的突变。在一些实施例中，所述突变使得由包含靶序列的基因表达的蛋白质中发生一个或多个氨基酸的变化。在一些实施例中，该方法进一步包括将一个或多个载体递送至所述真核细胞，其中一个或多个载体驱动以下项中的一个或多个的表达：Cpf1，和连接至DR序列的指导序列。在一些实施例中，所述载体被递送至受试者中的真核细胞。在一些实施例中，所述修饰发生在细胞培养中的所述真核细胞中。在一些实施例中，该方法进一步包括在所述修饰之前将所述真核细胞从受试者分离。在一些实施例中，该方法进一步包括将所述真核细胞和/或衍生自其的细胞返回至所述受试者。

在一个方面中，本发明提供了一种修饰多核苷酸在真核细胞中的表达的方法。在一些实施例中，该方法包括使得Cpf1 CRISPR-Cas复合物结合该多核苷酸，以使得所述结合导致所述多核苷酸的表达增加或减少；其中Cpf1 CRISPR-Cas复合物包含与杂交至所述多核苷酸内的靶序列的指导序列复合的Cpf1，其中所述指导序列连接至同向重复序列；此Cpf1包括本发明的拆分的Cpf1。在一些实施例中，该方法进一步包括将一个或多个载体递送至所述真核细胞，其中一个或多个载体驱动以下项中的一个或多个的表达： Cpf1，和连接至DR序列的指导序列。

在一个方面中，本发明提供了一种产生包含突变型疾病相关基因的模型真核细胞的方法。在一些实施例中，疾病相关基因是与患病或发展病的风险的增加相关联的任何基因。在一些实施例中，该方法包括(a)将一个或多个载体引入到真核细胞中，其中一个或多个载体驱动以下项中的一个或多个的表达：Cpf1，和连接至同向重复序列的指导序列；并且(b)使得Cpf1 CRISPR-Cas复合物结合靶多核苷酸以实施所述疾病相关基因内的靶多核苷酸的切割，其中Cpf1 CRISPR-Cas复合物包含与(1)杂交至靶多核苷酸内的靶序列的指导序列，和(2)DR序列复合的Cpf1，从而产生包含突变型疾病相关基因的模型真核细胞；此Cpf1包括本发明的拆分的Cpf1。在一些实施例中，所述切割包括通过所述Cpf1切割靶序列的位置处的一条或两条链。在一个优选实施例中，链断裂是交错切割的，产生了5'突出端。在一些实施例中，所述切割使得靶基因的转录减少。在一些实施例中，该方法进一步包括使用外源性模板多核苷酸通过同源重组修复所述切割的靶多核苷酸，其中所述修复产生包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代的突变。在一些实施例中，所述突变使得来自包含靶序列的基因的蛋白质表达发生一个或多个氨基酸的变化。

在一个方面中，本发明提供了一种用于开发调控与疾病相关基因相关联的细胞信号传导事件的生物活性剂的方法。在一些实施例中，疾病相关基因是与患病或发展病的风险的增加相关联的任何基因。在一些实施例中，该方法包括(a)使测试化合物与任一种所述实施例的模型细胞接触；并且(b)检测指示与所述疾病相关基因中的所述突变相关联的细胞信号传导事件的减少或增加的读出变化，从而开发调控与所述疾病相关基因相关联的所述细胞信号传导事件的所述生物活性剂。

在一个方面中，本发明提供了一种包含同向重复序列的下游的指导序列的重组多核苷酸，其中在表达时，指导序列引导Cpf1 CRISPR-Cas复合物与真核细胞中存在的相应靶序列的序列特异性结合。

在一些实施例中，靶序列是真核细胞中存在的病毒序列。在一些实施例中，靶序列是原癌基因或癌基因。

在一个方面中，本发明提供了一种通过在一个或多个细胞的基因中引入一个或多个突变来选择一个或多个细胞的方法，该方法包括：将一种或多种载体引入到一个或多个细胞中，其中一种或多种载体驱动以下项中的一个或多个的表达：Cpf1、连接至同向重复序列的指导序列，以及编辑模板；其中编辑模板包含废除Cpf1切割的一个或多个突变；使得编辑模板与有待选择的一个或多个细胞中的靶多核苷酸同源重组；使得Cpf1 CRISPR-Cas复合物结合靶多核苷酸以实施所述基因内的靶多核苷酸的切割，其中Cpf1 CRISPR-Cas复合物包含与(1)杂交至靶多核苷酸内的靶序列的指导序列，和(2)同向重复序列复合的Cpf1，其中Cpf1 CRISPR-Cas复合物与靶多核苷酸的结合诱导细胞死亡，从而使得其中已引入一个或多个突变的一个或多个细胞被选择；此Cpf1包括本发明的拆分的Cpf1。在本发明的另一个优选实施例中，有待选择的细胞可以是真核细胞。本发明的方面允许在不需要选择标记物或可能包括反选择系统的两步法的情况下选择特异性细胞。

在此存在短语“此Cpf1包括本发明的拆分Cpf1”或类似文本；并且这是表明在此的实施例中的Cpf1可以是如在此所讨论的拆分Cpf1。

在一个方面中，本发明涉及一种非天然存在或工程化的诱导型Cpf1 CRISPR-Cas系统，该系统包含附接至诱导型异源二聚体的第一半部的第一Cpf1融合构建体和附接至诱导型异源二聚体的第二半部的第二Cpf1融合构建体，其中第一CPf1融合构建体被可操作地连接至一个或多个核定位信号，其中第二 CPf1融合构建体被可操作地连接至核输出信号，其中与诱导物能量源的接触使得诱导型异源二聚体的第一半部和第二半部合在一起，其中使诱导型异源二聚体的第一半部和第二半部合在一起允许第一Cpf1融合构建体和第二Cpf1融合构建体组成功能性Cpf1 CRISPR-Cas系统，其中Cpf1 CRISPR-Cas系统包含含有能够与细胞中的感兴趣的基因组座位中的靶序列杂交的指导序列的指导RNA(gRNA)，并且其中功能性Cpf1 CRISPR-Cas系统编辑基因组座位以改变基因表达。在本发明的一个实施例中，诱导型异源二聚体的第一半部是FKBP12并且诱导型异源二聚体的第二半部是FRB。在本发明的另一个实施例中，诱导物能量源是雷帕霉素。

可以认为诱导物能量源是简单的诱导物或二聚化剂。术语“诱导物能量源”在此至始至终的使用是一致的。诱导物能量源(或诱导物)用来重构Cpf1。在一些实施例中，诱导物能量源通过诱导型二聚体的两个半部的作用使得Cpf1的两个部分合在一起。因此在存在诱导物能量源的条件下诱导型二聚体的两个半部变得更强韧。在不存在诱导物能量源的情况下，二聚体的两个半部将不形成为二聚体(进行二聚化)。

因此，诱导型二聚体的两个半部与诱导物能量源合作以二聚化二聚体。这进而通过使得Cpf1 的第一部分和第二部分合在一起来重构Cpf1。

CRISPR酶融合构建体各自包含拆分Cpf1的一部分。这些优选经由接头诸如在此所述的GlySer 接头融合至二聚体的两个半部中的一个。二聚体的两个半部可以是合在一起形成同源二聚体的基本上相同的两个单体，或者它们可以是合在一起形成异源二聚体的不同单体。这样，两个单体可以被认为是全长二聚体的一个半部。

Cpf1是拆分的，在某种意义上，Cpf1酶的两个部分基本上包含有功能的Cpf1。Cpf1可以用作基因组编辑酶(当与靶DNA和指导序列形成复合物时)，诸如切口酶或核酸酶(切割DNA的两条链)，或者该Cpf1可以是无效Cpf1，该无效Cpf1实质上是典型地由于其催化结构域中的一个或多个突变而具有非常小或没有催化活性的DNA结合蛋白。

拆分Cpf1的两个部分可以被认为是拆分Cpf1的N'末端部分和C'末端部分。融合典型地是在 Cpf1的拆分点处。换句话说，拆分Cpf1的N'末端部分的C'末端融合至一个二聚体半部，而C'末端部分的N' 末端融合至另一个二聚体半部。

Cpf1不是必须被拆分，在某种意思上，断裂是新创建的。拆分点典型地是经由计算机模拟设计的并且克隆到构建体中。合起来，拆分Cpf1的两个部分N'末端部分和C'末端部分形成全长Cpf1，该全长 Cpf1包含优选至少70％或更多的野生型氨基酸(或编码它们的核苷酸)、优选至少80％或更多、优选至少90％或更多、优选至少95％或更多，并且最优选至少99％或更多的野生型氨基酸(或编码它们的核苷酸)。也许可以进行一些修整，并且设想到突变。非功能结构域可以全部被去除。重要的是两个部分可以被结合在一起并且所希望的Cpf1功能被恢复或重构。

二聚体可以是同源二聚体或异源二聚体。

一个或多个，优选两个NLS可以用于可操作地连接至第一Cpf1构建体。一个或多个，优选两个NES可以用于可操作地连接至第一Cpf1构建体。NLS和/或NES优选侧接拆分二聚体(即半二聚体)融合物，即一个NLS可以被定位在第一Cpf1构建体的N'末端处并且一个NLS可以在第一Cpf1构建体的C'末端处。类似地，一个NES可以被定位在第二Cpf1构建体的N'末端处并且一个NES可以在第二Cpf1构建体的C'末端处。在提及N'末端或C'末端的情况下，应了解的是这些对应于相应核苷酸序列中的5'端和3'端。

优选的安排是，第一Cpf1构建体被安排为5'-NLS-(N'末端Cpf1部分)-接头-(二聚体的第一半部)-NLS-3'。优选的安排是，第二Cpf1构建体被安排为5'-NES-(二聚体的第二半部)-接头-(C'末端Cpf1部分)-NES-3'。合适的启动子优选在这些构建体中的每个的上游。两个构建体可以单独或一起递送。

在一些实施例中，可操作地连接至第二CPf1构建体的一个或多个NES中的一个或全部可以对换成NLS。然而，这典型地可能不是优选的并且在其他实施例中，可操作地连接至第二Cpf1构建体的定位信号是一个或多个NES。

还应了解的是，NES可以被可操作地连接至拆分Cpf1的N'末端片段并且NLS可以被可操作地连接至拆分Cpf1的C'末端片段。然而，可以优选的安排是其中NLS被可操作地连接至拆分Cpf1的N′末端片段并且NES被可操作地连接至拆分Cpf1的C'末端片段。

NES用作将第二Cpf1融合构建体定位在核的外面，至少直到提供了诱导物能量源为止(例如，至少直到能量源被提供给诱导物以执行其功能为止)。诱导物的存在刺激了细胞质内两个Cpf1融合物的二聚化并且使得其热力学上值得用于将第一Cpf1融合物和第二Cpf1融合物二聚化成定位至核。在不受理论束缚的情况下，申请人相信NES将第二Cpf1融合物隔离至细胞质(即核的外面)。第一Cpf1融合物上的NLS 将其定位至核。在两种情况下，申请人使用NES或NLS来将平衡(核转运的平衡)移动至所希望的方向。二聚化典型地发生在核的外面(非常少的部分可能发生在核中)并且二聚化复合物上的NLS将核转运的平衡改变为核定位，所以二聚化的并因此重构的Cpf1进入核。

有利地，申请人能够重构拆分Cpf1的功能。使用瞬时转染来证明该构想并且二聚化发生在存在诱导物能量源的背景下。对于Cpf1的单独片段，没有看到活性。然后使用通过慢病毒递送的稳定表达来研究这一点并且显示可以使用拆分Cpf1方法。

本发明的拆分Cpf1方法是有益的，因为其使得Cpf1活性是可诱导的，从而允许时间控制。此外，可以使用不同的定位序列(即，NES和NLS为优选的)以降低来自自组装复合物的背景活性。组织特异性启动子，例如针对第一Cpf1融合构建体和第二Cpf1融合构建体中每个的组织特异性启动子也可以用于组织特异性靶向，从而提供空间控制。如果需要，两个不同的组织特异性启动子可以用于产生更精细程度的控制。对于阶段特异性启动子可以使用相同方法，或者可以存在阶段特异性启动子和组织特异性启动子的混合物，其中第一Cpf1融合构建体和第二Cpf1融合构建体中的一个在组织特异性启动子的控制下(即可操作地连接至或包含该组织特异性启动子)，而第一Cpf1融合构建体和第二Cpf1融合构建体中的另一个在阶段特异性启动子的控制下(即可操作地连接至或包含该阶段特异性启动子)。

诱导型Cpf1 CRISPR-Cas系统包含如在此所述的例如像可操作地连接至第一Cpf1融合构建体的一个或多个核定位序列(NLS)。理想的是，这些核定位序列具有足以驱动所述第一Cpf1融合构建体在真核细胞的核中以可检测的量积累的强度。在不希望受到理论约束的情况下，据信核定位序列不是为真核生物中的Cpf1 CRISPR-Cas复合物活性所需要的，但是包括此类序列增强系统的活性，特别是对于靶向核中的核酸分子而言，并且有助于本发明的2-部分系统的操作。

同样地，第二Cpf1融合构建体被可操作地连接至核输出序列(NES)。实际上，其可以连接至一个或多个核输出序列。换句话说，与第二Cpf1融合构建体一起使用的输出序列的数目优选为1或2或3。典型地，2是优选的，但是1是足够的并且在一些实施例中1是优选的。NLS和NES的适合实例是本领域已知的。例如，优选的核输出信号(NES)是人类蛋白酪氨酸激酶2。优选的信号将是物种特异性的。

在使用FRB和FKBP系统的情况下，FKBP优选侧接核定位序列(NLS)。在使用FRB和FKBP 系统的情况下，优选的安排是N′末端Cpf1-FRB-NES:C′末端Cpf1-FKBP-NLS。因此，第一Cpf1融合构建体将包含C'末端Cpf1部分并且第二Cpf1融合构建体将包含N′末端Cpf1部分。

本发明的另一有益方面是其可以迅速地开启，即其具有快速应答。据信，在不受理论束缚的情况下，通过现有(已经存在的)融合构建体(通过与诱导物能量源接触)可以比通过新融合构建体的表达(尤其是翻译)更迅速地诱导Cpf1活性。这样，第一Cpf1融合构建体和第二Cpf1融合构建体可以提前即在需要Cpf1活性之前表达在靶细胞中。然后Cpf1活性可以进行时间控制并且然后通过添加诱导物能量源迅速地进行重构，理想地，该重构比通过例如载体递送的Cpf1的表达(包括转录的诱导)作用更迅速(以二聚化异源二聚体并且从而提供Cpf1活性)。

除非另外表明，否则术语Cpf1或Cpf1酶和CRISPR酶在此可互换地使用。

申请人证明出CPf1可以被拆分为两组分，该两组分在重新合在一起时重构成功能核酸酶。采用雷帕霉素敏感的二聚化结构域，申请人产生了用于Cpf1介导的基因组编辑和转录调控的时间控制的化学诱导型Cpf1。换言之，申请人证明出可以通过将Cpf1拆分为两片段来使得其为化学诱导型的并且证明出雷帕霉素敏感的二聚化结构域可以用于Cpf1的受控重组装。申请人表明重组装的Cpf1可以用于介导基因组编辑(通过核酸酶/切口酶活性)以及转录调控(作为DNA结合结构域，所谓的“无效Cpf1”)。

这样，雷帕霉素敏感的二聚化结构域的使用是优选的。Cpf1的重组装是优选的。重组装可以通过结合活性的恢复来确定。在Cpf1是切口酶或诱导双链断裂的情况下，在此描述了相比于野生型的适合比较百分比。

雷帕霉素处理可以持续12天。剂量可以是200nM。此时间剂量和/或摩尔剂量是用于人类胚肾 293FT(HEK293FT)细胞系的适当剂量的一个实例并且此剂量也可以用于其他细胞系。对于体内治疗性用途，此数字可以外推为例如mg/kg。然而，还设想，在此也使用用于向受试者给予雷帕霉素的标准剂量。关于“标准剂量”，其意指雷帕霉素的正常治疗性用途或初期指示下的剂量(即当给予雷帕霉素以用于防止器官排斥时所用的剂量)。

值得注意的是，Cpf1-FRB/FKBP片段的优选安排是分开的并且是失活的，直到FRB和FKBP的雷帕霉素诱导的二聚化使得功能性全长Cpf1核酸酶的重组装产生为止。因此，优选的是，附接至诱导型异源二聚体的第一半部的第一Cpf1融合构建体与附接至诱导型异源二聚体的第二半部的第二Cpf1融合构建体分开递送和/或分开定位。

为了隔离细胞质中的Cpf1(N)-FRB片段，在该片段不太可能与核定位的Cpf1(C)-FKBP片段二聚化的情况下，优选的是在Cpf1(N)-FRB上使用来自人类蛋白酪氨酸激酶2的单个核输出序列(NES) (Cpf1(N)-FRB-NES)。在雷帕霉素存在下，Cpf1(N)-FRB-NES与Cpf1(C)-FKBP-2xNLS二聚化以重构完全的Cpf1蛋白，这使得核运输(trafficking)的平衡朝核输入移动并且允许DNA靶向。

高剂量的Cpf1可以加剧表现出与指导链具有很少错配的脱靶(OT)序列处的indel频率。如果错配是非连续的和/或在指导序列的种子区的外面，则此类序列是特别易感的。因此，Cpf1活性的时间控制可以用于减少长期表达实验中的剂量并且因此与组成型活性Cpf1相比产生降低的脱靶indel。

优选病毒递送。具体地说，设想了慢病毒或AAV递送载体。申请人产生了类似于慢病毒CRISPR 质粒的拆分的-Cpf1慢病毒构建体。拆分片段应该足够小以适于AAV的～4.7kb大小限制。

申请人证明出拆分Cpf1的稳定、低拷贝表达可以用于在靶向的座位处诱导大量indel，而在脱靶位点处没有明显的突变。申请人克隆了Cpf1片段(基于拆分5的2部分，在此所述的)。

也可以使用包含VP64反式激活结构域的无效Cpf1，例如该无效Cpf1添加到 Cpf1(C)-FKBP-2xNLS中(无效-Cpf1(C)-FKBP-2xNLS-VP64)。这些片段重构成催化失活的Cpf1-VP64融合物(无效-Cpf1-VP64)。转录激活是在雷帕霉素存在下通过VP64诱导的，以便诱导Cpf1(C)-FKBP融合物与 Cpf1(N)-FRB融合物的二聚化。换句话说，申请人测试了拆分的无效-Cpf1-VP64的可诱导性并且显示出转录激活是在雷帕霉素存在下通过拆分的无效-Cpf1-VP64诱导的。这样，本发明的诱导型Cpf1可以与一个或多个功能结构域，诸如转录激活因子或阻遏物或核酸酶(诸如Fok1)缔合。功能结构域可以与拆分Cpf1的一个部分结合或融合。

优选的安排是第一Cpf1构建体被安排为5'-第一定位信号-(N'末端CPf1部分)-接头-(二聚体的第一半部)-第一定位信号-3'并且第二Cpf1构建体被安排为5'-第二定位信号-(二聚体的第二半部)-接头-(C'末端 Cpf1部分)-第二定位信号-功能结构域-3'。在此，功能结构域置于第二Cpf1构建体的3'端处。可替代地，功能结构域可以置于第一Cpf1构建体的5'端处。一个或多个功能结构域可以使用在3'端或5'端处或两个端处。合适的启动子优选在这些构建体的每个的上游。两个构建体可以单独或一起递送。定位信号可以是NLS或NES，只要它们在每个构建体上不是相互混合的。

在一个方面中，本发明提供了一种诱导型Cpf1 CRISPR-Cas系统，其中Cpf1与不具有至少一个突变的Cpf1酶相比具有至少97％或100％减弱的核酸酶活性。

因此，还优选的是，Cpf1是无效Cpf1。理想的是，拆分应该总是使得一个或多个催化结构域不受影响。对于无效-Cpf1，意图在于发生DNA结合，但不显示切割或切口酶活性。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中一个或多个功能结构域与Cpf1缔合。此功能结构域可以与拆分Cpf1的一个部分或两个部分缔合(即结合或融合)。可以存在与拆分Cpf1的两个部分中的每个缔合的功能结构域。因此这些功能结构域可以典型地被提供作为第一Cpf1融合构建体和/或第二Cpf1融合构建体的一部分，作为该构建体内的融合物。功能结构域典型地经由接头诸如在此所讨论的GlySer接头来融合。一个或多个功能结构域可以是转录激活结构域或阻遏结构域。尽管它们可以是不同的结构域，但是优选的是，所有的功能结构域是激活因子或阻遏物并且不使用两者的混合物。

转录激活结构域可以包括VP64、p65、MyoD1、HSF1、RTA或SET7/9。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中与Cpf1 缔合的一个或多个功能结构域是转录阻遏结构域。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中转录阻遏结构域是KRAB结构域。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中转录阻遏结构域是NuE结构域、NcoR结构域、SID结构域或SID4X结构域。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中与衔接蛋白缔合的一个或多个功能结构域具有一种或多种活性，包括甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、DNA整合活性或核酸结合活性。

在一些实施例中，组蛋白修饰结构域也是优选的。以下讨论了示例性组蛋白修饰结构域。易位酶结构域、HR(同源重组)机构结构域、重组酶结构域、和/或整合酶结构域作为本发明的功能结构域也是优选的。在一些实施例中，DNA整合活性包括HR机构结构域、整合酶结构域、重组酶结构域和/或易位酶结构域。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中DNA 切割活性归因于核酸酶。

在一个方面中，本发明提供了一种如在此所讨论的诱导型Cpf1 CRISPR-Cas系统，其中核酸酶包括Fok1核酸酶。

对于本发明的拆分Cpf1系统是优选的此类功能结构域的用途也详细讨论在康尔曼 (Konermann)等人(“使用工程化的CRISPR-Cas9复合物的基因组规模的转录激活(Genome-scale transcriptional activation with an engineered CRISPR-Cas9complex)”自然2014年12月11日公开)中。

本发明的系统可以与任何指导序列一起使用。

在某些实施例中可以使用修饰指导序列。特别优选的是具体化以上提到的康尔曼自然2014 年12月11日论文的传授内容的指导序列。这些指导序列被修饰为使得蛋白结合RNA部分(诸如适配子)被添加。这样的一个或多个部分可以替换指导序列的一部分。然后相应的RNA结合蛋白结构域可以用于识别 RNA并且将功能结构域，诸如在此所述的那些募集至指导序列。此指导序列主要是与无效-Cpf1一起使用，从而产生转录激活或阻遏或通过核酸酶诸如Fok1的DNA切割。此类指导序列与无效-Cpf1的组合使用是有力的，并且该组合的使用在Cpf1本身也与其自身功能结构域(如在此所讨论的)缔合的情况下是特别有力的。当根据本发明诱导无效-Cpf1(具有或不具有其自身缔合的功能结构域)进行重构，即该无效-Cpf1是拆分Cpf1时，那么该工具是特别有用的。

也优选用于本发明的指导RNA(gRNA)可以包含能够与细胞中的感兴趣的基因组座位中的靶序列杂交的指导序列，其中gRNA是通过插入结合一种或多种衔接蛋白的一种或多种不同RNA序列来修饰的，并且其中该衔接蛋白与一个或多个功能结构域缔合。Cpf1可以包含至少一个突变，以使得Cpf1酶具有不超过不具有该至少一个突变的Cpf1酶的核酸酶活性的5％的核酸酶活性；和/或至少一个或多个核定位序列。还提供了一种非天然存在或工程化的组合物，该组合物包含：包含能够与细胞中的感兴趣的基因组座位中的靶序列杂交的指导序列的一个或多个指导RNA(gRNA)、包含至少一个或多个核定位序列的Cpf1酶，其中CPf1酶包含至少一个突变，使得Cpf1酶具有不超过不具有该至少一个突变的Cpf1酶的核酸酶活性的5％的核酸酶活性，其中至少一个gRNA是通过插入结合一种或多种衔接蛋白的一种或多种不同的RNA序列来修饰的，并且其中该衔接蛋白与一个或多个功能结构域缔合。

gRNA优选是通过插入结合一种或多种衔接蛋白的一种或多种不同的RNA序列来修饰的。插入的结合一种或多种衔接蛋白的一种或多种不同的RNA序列优选是一种适配子序列或特异于相同或不同的一种或多种衔接蛋白的两种或更多种适配子序列。衔接蛋白优选包括：MS2、PP7、Qβ、F2、GA、fr、 JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、 AP205、φCb5、φCb8r、φCb12r、φCb23r、7s、PRR1。尤其稳定地表达拆分的无效-Cpf1的细胞系可以是有用的。

申请人证明出Cpf1可以被拆分为两个不同的片段，这些片段在使用化学品诱导重新合在一起时重构成功能性全长Cpf1核酸酶。拆分Cpf1体系结构将有用于多种应用。例如，拆分CPf1可以允许遗传策略用于通过将每个片段放在不同的组织特异性启动子下来将Cpf1活性限制于交叉的细胞群体。另外，不同的化学诱导型二聚化结构域诸如APA和赤霉素也是可以采用的。

诱导物能量源优选是化学品诱导。

拆分部位或位置是Cpf1酶的第一部分与第二部分分开所在的那个点。在一些实施例中，第一部分包含或编码氨基酸1至X，而第二部分包含或编码氨基酸X+1至末端。在此实例中，编码是连续的，但这并非是总是需要的，因为氨基酸(或编码它们的核苷酸)可以从拆分末端中的任一个末端开始修整，前提条件是保留了足够的DNA结合活性和(如果需要)DNA切口酶或切割活性，例如与野生型Cpf1相比保留了至少40％、50％、60％、70％、80％、90％或95％活性。

在此提供的示例性编码可以参考野生型蛋白质，优选野生型FnCpf1。然而，设想的是，可以使用野生型Cpf1诸如FnCpf1蛋白的突变体。编码还可以不完全遵循FnCpf1编码，因为例如可以使用一些N' 或C'末端截短或缺失，但是这可以使用标准序列比对工具来解决。直向同源物作为序列比对工具也是优选的。

因此，拆分部位可以利用本领域普通技术人员例如基于晶体数据和/或计算结构预测来选择。

例如，Cpf1核酸酶初级结构的计算分析揭示了三个不同的区(图1)。第一是C末端RuvC样结构域，其是仅功能表征的结构域。第二是N末端α-螺旋区并且第三是位于RuvC样结构域与α-螺旋区之间的混合的α区和β区。预测非结构化区的若干小片段在Cpf1初始结构之内。不同的Cpf1直向同源物内的暴露于溶剂且不保守的非结构化区可以代表用于拆分的优选侧面(图2和图3)。

下表呈现出AsCpf1和LbCpf1内的非限制性潜在的拆分区。此区内的拆分位点可以是合适的。

拆分区	AsCpf1	LbCpf1
			1	575-588	566-571
2	631-645	754-757
			3	653-664	-
4	818-844	-

对于Fn、As和Lb Cpf1突变体，应该很容易理解潜在的拆分位点的相应位置是例如基于序列比对的。对于非Fn、非As和非Lb酶，如果直向同源物与预期Cpf1之间存在相对较高的同源度，则可以使用直向同源物的晶体结构，或可以使用计算预测。

理想的是，拆分部位应该位于区或环内。优选地，拆分部位出现在氨基酸序列的中断不引起结构特征(例如，α螺旋或β片层)的部分或全部破坏的地方。结构化的区(未在晶体结构中显现的区，因为这些区是未结构化的从而足以被“冻结”在晶体中)常常是优选的选择。申请人可以例如在Cpf1表面上暴露的未结构化区中进行拆分。

申请人可以遵循作为优选实例及作为指导提供的以下程序。因为未结构化区未在结晶结构中显现，所以申请人将晶体的周围氨基酸序列与Cpf1的初级氨基酸序列进行相互参考。每个未结构化区可以由例如约3至10个氨基酸组成，不显现在晶体中。因此申请人在这些氨基酸之间进行拆分。为了包括更多潜在的拆分侧面，申请人包括了位于Cpf1的外面的环中的拆分，使用了与未结构化区相同的标准。

在一些实施例中，拆分部位是在Cpf1的外面环中。在其他优选实施例中，拆分部位是在Cpf1 的未结构化区中。未结构化区典型地是高柔性的外面环，该外面环的结构不能容易地由晶体图案来确定。

一旦拆分部位已被鉴定出，可以设计适合的构建体。

典型地，NES被定位在拆分氨基酸的第一部分的N'末端(或编码该部分的核苷酸的5'端)。在那样的情况下，NLS被定位在拆分氨基酸的第二部分的C'末端(或编码该部分的核苷酸的3'端)。以这种方式，第一Cpf1融合构建体可以被可操作地连接至一个或多个核输出信号并且第二Cpf1融合构建体可以被可操作地连接至核定位信号。

当然，可以提供相反的安排，其中NLS被定位在拆分氨基酸的第一部分的N'末端(或编码该部分的核苷酸的5'端)。在那样的情况下，NES被定位在拆分氨基酸的第二部分的C'末端(或编码该部分的核苷酸的3'端)。因此，第一Cpf1融合构建体可以被可操作地连接至一个或多个核定位信号并且第二Cpf1 融合构建体可以被可操作地连接至核输出信号。

使得两个部分(拆分的任一侧面)具有大致相同的长度的拆分对于包装目的可能是有利的。例如，认为当转录物具有大约相同大小时维持两个片段之间的化学计量是容易的。

在某些实例中，人类密码子优化的Cpf1诸如FnCpf1的N末端和C末端片段被分别融合至FRB和 FKBP二聚化结构域。此安排可以是优选的。它们可以被转换(即N'末端融合至FKBP并且C'末端融合至 FRB)。

在此优选使用接头诸如(GGGGS)₃来将Cpf1片段与二聚化结构域分开。(GGGGS)₃是优选的，因为它是相对长的接头(15个氨基酸)。甘胺酸残基是最柔性的并且丝氨酸残基增加接头处于蛋白质之外的机会。(GGGGS)₆(GGGGS)₉或(GGGGS)₁₂可以优选地用作替代物。其他优选替代物是(GGGGS)₁、 (GGGGS)₂、(GGGGS)₄、(GGGGS)₅、(GGGGS)₇、(GGGGS)₈、(GGGGS)₁₀、或(GGGGS)₁₁。

例如，(GGGGS)₃可以包含在N'末端Cpf1片段与FRB之间。例如，(GGGGS)₃可以包含在FKB 与C′末端Cpf1片段之间。

替代性接头是可用的，当高柔性接头被认为作用最好，以使得Cpf1的2个部分合在一起并因此重构Cpf1活性的机会最大。一个替代方案是核质蛋白的NLS可以用作接头。

接头也可以用在Cpf1与任何功能结构域之间。同样，在此可以使用(GGGGS)₃接头(或因此6、 9或12个重复版本)或者可以将核质蛋白的NLS用作CPf1与功能结构域之间的接头。

设想了FRB/FKBP系统的替代物。例如ABA和赤霉素系统。

因此，FKBP家族的优选实例是以下诱导型系统中的任一种。在FK506存在下与钙调磷酸酶A (CNA)二聚化的FKBP；在FKCsA存在下与CyP-Fas二聚化的FKBP；在雷帕霉素存在下与FRB二聚化的 FKBP；在库马霉素存在下与GryB二聚化的GyrB；在赤霉素存在下与GID1二聚化的GAI；或在HaXS存在下与HaloTag二聚化的Snap-tag。

FKBP家族本身内的替代物也是优选的。例如，在FK1012存在下进行同源二聚化(即一个FKBP 与另一个FKBP二聚化)的FKBP。因此，还提供了一种非天然存在或工程化的诱导型Cpf1 CRISPR-Cas系统，该系统包含：

附接至诱导型同源二聚体(homoodimer)的第一半部的第一Cpf1融合构建体，以及

附接至诱导型同源二聚体的第二半部的第二Cpf1融合构建体，

其中第二Cpf1融合构建体被可操作地连接至(任选地一个或多个)核输出信号，

其中与诱导物能量源的接触使得诱导型同源二聚体的第一半部和第二半部合在一起，

其中使诱导型同源二聚体的第一半部和第二半部合在一起允许第一CPf1融合构建体和第二CPf1融合构建体组成功能性Cpf1 CRISPR-Cas系统，

在一个实施例中，同源二聚体优选是FKBP并且诱导物能量源优选是FK1012。在另一个实施例中，同源二聚体优选是GryB并且诱导物能量源优选是库马霉素。在另一个实施例中，同源二聚体优选是 ABA并且诱导物能量源优选是赤霉素。

在其他实施例中，二聚体是异源二聚物。异源二聚体的优选实例是以下诱导型系统中的任一种：在FK506存在下与钙调磷酸酶A(CNA)二聚化的FKBP；在FKCsA存在下与CyP-Fas二聚化的FKBP；在雷帕霉素存在下，在库马霉素存在下，与FRB二聚化的FKBP；在赤霉素存在下与GID1二聚化的GAI；在HaXS存在下与HaloTag二聚化的Snap-tag。

申请人使用了FKBP/FRB，因为其是得到充分表征的，并且两个结构域是足以小(<100个氨基酸)至有助于包装的。此外，雷帕霉素已使用较长时间并且副作用是充分了解的。大的二聚化结构域(> 300aa)也应该起作用但是可能需要较长的接头来允许Cpf1重构进行。

保罗穆鲁甘(Paulmurugan)和甘比尔(Gambhir)(癌症研究(Cancer Res)，2005年8月15日65； 7413)讨论了FRB/FKBP/雷帕霉素系统的背景。另一有用论文是克拉布特里(Crabtree)等人(化学和生物学(Chemistry&Biology)13,99-107，2006年1月)。

在一个实例中，构建了单一载体，一种表达盒(质粒)。gRNA是在U6启动子的控制下。使用了两种不同的Cpf1拆分。拆分Cpf1构建体基于的是侧接NLS的第一Cpf1融合构建体，其中FKBP经由GlySer 接头融合至拆分CPf1的C末端部分；以及侧接NES的第二CPf1融合构建体，其中FRB经由GlySer接头与拆分CPf1的N末端部分融合。为了分开第一Cpf1融合构建体和第二Cpf1融合构建体，在转录上使用P2A拆分。拆分Cpf1在雷帕霉素存在下显示出与野生型类似的插入缺失信息，但是在雷帕霉素不存在下显示出比野生型显著更少的indel信息。

因此，提供了单一载体。该载体包含：

附接至诱导型二聚体的第一半部的第一Cpf1融合构建体，以及

附接至诱导型二聚体的第二半部的第二Cpf1融合构建体，

其中功能性Cpf1 CRISPR-Cas系统结合靶序列并且任选地编辑基因组座位以改变基因表达。这些元件优选被提供于单一构建体，例如一种表达盒上。

第一Cpf1融合构建体优选在每个末端侧接至少一个核定位信号。第二CPf1融合构建体优选在每个末端侧接至少一个核输出信号。

还提供了一种治疗有需要的受试者的方法，该方法包括通过用编码系统的多核苷酸或任一本发明载体转化受试者来诱导基因编辑，并且向受试者给予诱导物能量源。还可以提供适合的修复模板，例如通过包含所述修复模板的载体来递送。

还提供了一种治疗有需要的受试者的方法，该方法包括通过用编码本发明的系统的多核苷酸或任一本发明载体转化受试者来诱导转录激活或阻遏，其中所述多核苷酸或载体编码或包含催化失活的 Cpf1和一个或多个缔合的功能结构域；该方法进一步包括向受试者给予诱导物能量源。

还提供了包含在所述治疗方法中使用的本发明系统的组合物。还提供了本发明系统在用于此类治疗方法的药物的制造中的用途。

在此或在在此引用的文献中描述了由本发明系统可治疗的病状实例。

单一载体可以包含转录物拆分剂，例如P2A。P2A将转录物拆分为两部分，以分开第一CPf1 融合构建体和第二CPf1融合构建体。拆分是归因于“核糖体跳过(ribosomalskipping)”。实质上，核糖体在翻译过程中跳过氨基酸，这使蛋白质链断裂并且产生两个分开的多肽/蛋白质。单一载体还有用于其中低背景活性不是所关注的但是需要高诱导活性的应用中。

一个实例是克隆的胚胎干细胞系的产生。正常程序是用编码wt CPf1或Cpf1切口酶的质粒瞬时转染。这些质粒产生Cpf1分子，这些Cpf1分子持续若干天保留活性并且具有较高的脱靶活性机会。使用单一表达载体用于拆分Cpf1使得将“高Cpf1活性”限制于较短的时间窗(例如，一剂量的诱导物，诸如雷帕霉素)。在不是连续(每日的)诱导物(例如雷帕霉素)治疗的情况下，单一表达的拆分Cpf1载体的活性较低并且呈现出减小的产生不想要的脱靶效应的机会。

在一些实施例中诱导的Cpf1活性的峰值是有益的并且使用单一递送载体可以更容易地发生，但是通过双重载体系统(每个载体递送拆分CPf1的一个半部)也是可能的。峰值可以是高活性并且持续短时间尺度，典型地诱导物的寿命。

因此，提供了一种用于产生克隆的胚胎干细胞系的方法，该方法包括用编码本发明的系统的多核苷酸或表达本发明的拆分Cpf1的一种本发明载体转染一个或多个胚胎干细胞并且给予本发明的诱导物能量源或使一个或多个干细胞与本发明能量源接触以诱导Cpf1的重构。可以提供修复模板。

对于在此所述的所有方法，应了解的是，将需要适合的gRNA或指导序列。

在功能结构域等与酶的一个或另一个部分“缔合”的情况下，这些典型地是融合物。在此术语“与……缔合”是关于一个分子如何相对于另一个“缔合的”，例如Cpf1的部分与功能结构域之间的缔合使用的。在此类蛋白质-蛋白质相互作用的情况下，此缔合可以按照抗体识别表位的方式进行的识别来观察。可替代地，一种蛋白质可以与另一种蛋白质经由两者的融合来缔合，例如一种亚基融合至另一种亚基。典型地通过将一个蛋白质的氨基酸序列添加到另一个蛋白质的氨基酸序列上，例如经由将编码每个蛋白质或亚基的核苷酸序列剪接在一起来进行融合。可替代地，这可以实质上视为两个分子之间的结合或直接连接，诸如融合蛋白。在任何情况下，融合蛋白可以包含两个感兴趣的亚基之间(即酶与功能结构域之间或衔接蛋白与功能结构域之间)的接头。因此，在一些实施例中，CPf1的部分通过结合功能结构域来与该功能结构域缔合。在其他实施例中，CPf1与功能结构域缔合，因为两者任选地经由中间接头融合在一起。接头的实例包括在此所讨论的GlySer接头。

诱导物的其他实例包括光和激素类。对于光，诱导型二聚体可以是异源二聚体并且包含二聚体的第一光-诱导型半部和二聚体的第二(且互补的)光-诱导型半部。第一光-诱导型二聚体半部和第二光 -诱导型二聚体半部的优选实例是CIB1和CRY2系统。CIB1结构域是光敏感隐花色素2(CRY2)的异源二聚体结合配偶体。

在另一个实例中，蓝光-响应的磁体二聚化系统(正磁体和反磁体)可以融合至拆分Cpf1蛋白的两个部分。响应于光刺激，正磁体和反磁体进行二聚化并且Cpf1重组装。例如，此类系统结合尼洪佳吉 (Nihongaki)等人(自然生物技术33,755-790,2015)中的Cas9进行描述。

本发明包括的诱导物能量源可以是热、超声、电磁能或化学品。在本发明的一个优选实施例中，诱导物能量源可以是抗生素、小分子、激素、激素衍生物、类固醇或类固醇衍生物。在一个更优选实施例中，诱导物能量源可以是脱落酸(ABA)、多西环素(DOX)、cumate、雷帕霉素、4-羟基他莫昔芬(4OHT)、雌激素或蜕皮激素。本发明提供的是，至少一种开关可以选自下组，该组由下项组成：基于抗生素的诱导型系统、基于电磁能的诱导型系统、基于小分子的诱导型系统、基于核受体的诱导型系统以及基于激素的诱导型系统。在一个更优选实施例中，至少一种开关可以选自下组，该组由下项组成：四环素(Tet)/DOX诱导型系统、光诱导型系统、ABA诱导型系统、cumate阻遏物/操纵子系统、4OHT/雌激素诱导型系统、基于蜕皮激素的诱导型系统以及FKBP12/FRAP(FKBP12-雷帕霉素复合物)诱导型系统。此类诱导物也在此以及在PCT/US2013/051418中被讨论，该专利通过引用结合在此。

总的来说，可以由Cpf1，无论是wt、切口酶还是无效-Cpf1(具有或不具有缔合的功能结构域)，形成的任何用途可以使用本发明的拆分Cpf1方法实现。益处是保持Cpf1活性的可诱导性质。

作为另一个实例，可以形成拆分CPf1与荧光蛋白如GFP的融合物。这将允许基因组座位的成像(参见“通过优化的CRISPR/Cas系统使活人类细胞中的基因组座位动态成像(Dynamic Imaging of Genomic Loci in Living Human Cells by an OptimizedCRISPR/Cas System)”陈·B等人细胞2013)，但是以诱导方式进行。这样，在一些实施例中，一个或多个Cpf1部分可以与荧光蛋白例如GFP缔合(并且具体地是融合)。

另外的实验研究了当中靶切割处于相同水平时，野生型(wt)和拆分Cpf1之间的脱靶切割是否存在差异。为了进行此举，申请人使用wt和拆分Cpf1质粒的瞬时转染并且在不同时间点进行收获。在发现一组其中中靶切割在+/-5％之内的样品之后，申请人寻找脱靶激活。申请人在没有指导序列(使用慢病毒)的情况下使细胞系具有wt或拆分Cpf1的稳定表达。在抗生素选择之后，使用单独的慢病毒递送指导序列并且在不同的时间点进行收获以测定中靶/脱靶切割。

申请人将去稳定化序列(PEST，参见“mRNA-和蛋白质-去稳定化元件用于开发高度应答的报道系统的用途(Use of mRNA-and protein-destabilizing elements todevelop a highly responsive reporter system)”文·DC(Voon DC)等人核酸研究2005)引入到FRB(N)Cpf1-NES片段中以促进较快的降解并且因此促进拆分无效-Cpf1-VP64复合物稳定性的降低。

在本说明书中如其他地方所述的此类去稳定化序列(包括PEST)与拆分Cpf1系统一起使用可能是有利的。

产生了稳定地表达拆分的无效-Cpf1-VP64和MS2-p65-HSF1+指导序列的细胞系。PLX抗性筛选可以证明不可逆的、时控转录激活可以用于药物筛选中。当拆分的无效-Cpf1-VP64是不可逆的时，此方法可能是有利的。

在一个方面中，本发明提供了一种非天然存在或工程化的Cpf1 CRISPR-Cas系统，该系统可以包含至少一种开关，其中所述Cpf1 CRISPR-Cas系统的活性是通过与关于该开关的至少一种诱导物能量源接触来控制的。在本发明的一个实施例中，关于至少一种开关的控制或所述Cpf1 CRISPR-Cas系统的活性可以得到激活、增强、终止或阻遏。与至少一种诱导物能量源的接触可以产生第一效应和第二效应。第一效应可以是下项中的一种或多种：核输入、核输出、次级组分(诸如效应分子)的募集、(蛋白质、DNA 或RNA的)构象变化、切割、货物(cargo)(诸如笼装分子或辅助因子)的释放、缔合或解离。第二效应可以是下项中的一种或多种：关于至少一种开关的控制或所述Cpf1 CRISPR-Cas系统的活性的激活、增强、终止或阻遏。在一个实施例中，第一效应和第二效应可以级联发生。

在本发明的另一个方面中，Cpf1 CRISPR-Cas系统可以进一步包含至少一个或多个核定位信号 (NLS)、核输出信号(NES)、功能结构域、柔性接头、突变、缺失、改变或截短。NLS、NES或功能结构域中的一个或多个可以是条件型地激活或失活。在另一个实施例中，突变可以是下项中的一种或多种：转录因子同源区中的突变、DNA结合结构域中的突变(诸如使碱性螺旋环螺旋的碱性残基突变)、内源性 NLS中的突变或内源性NES中的突变。本发明包括的诱导物能量源可以是热、超声、电磁能或化学品。在本发明的一个优选实施例中，诱导物能量源可以是抗生素、小分子、激素、激素衍生物、类固醇或类固醇衍生物。在一个更优选实施例中，诱导物能量源可以是脱落酸(ABA)、多西环素(DOX)、cumate、雷帕霉素、4-羟基他莫昔芬(4OHT)、雌激素或蜕皮激素。本发明提供的是，至少一种开关可以选自下组，该组由下项组成：基于抗生素的诱导型系统、基于电磁能的诱导型系统、基于小分子的诱导型系统、基于核受体的诱导型系统以及基于激素的诱导型系统。在一个更优选实施例中，至少一种开关可以选自下组，该组由下项组成：四环素(Tet)/DOX诱导型系统、光诱导型系统、ABA诱导型系统、cumate阻遏物/操纵子系统、4OHT/雌激素诱导型系统、基于蜕皮激素的诱导型系统以及FKBP12/FRAP(FKBP12-雷帕霉素复合物)诱导型系统。

如本申请中详述的控制的方面涉及至少一种或多种开关。如在此所用的术语“开关”是指组分系统或集合，其以协调方式起作用，以影响生物功能的变化，包括生物功能的所有方面，诸如该功能的激活、阻遏、增强或终止。在一个方面中，术语开关涵盖基因开关，该基因开关包括基因调节蛋白和这些蛋白质识别的特异性DNA序列的基本组分。在一个方面中，开关涉及在基因调节中使用的诱导和阻遏系统。总的来说，除非存在允许基因表达的一些分子(称为诱导物)，否则诱导型系统可以是关闭的。该分子被称为“诱导表达”。此发生的方式依赖于控制机制以及细胞类型中的差异。阻遏系统是除了在一些分子(称为辅阻遏物)的存在下之外，抑制基因表达的系统。该分子被称为“阻遏表达”。这通过其发生的方式依赖于控制机制以及细胞类型中的差异。如在此所用的术语“诱导型的”可以涵盖开关的所有方面，与涉及的分子机制无关。因此，如由本发明包括的开关可以包括但不限于基于抗生素的诱导型系统、基于电磁能的诱导型系统、基于小分子的诱导型系统、基于核受体的诱导型系统以及基于激素的诱导型系统。在优选实施例中，开关可以是四环素(Tet)/DOX诱导型系统、光诱导型系统、脱落酸(ABA)诱导型系统、cumate 阻遏物/操纵子系统、4OHT/雌激素诱导型系统、基于蜕皮激素的诱导型系统或FKBP12/FRAP(FKBP12- 雷帕霉素复合物)诱导型系统。

本发明的Cpf1 CRISPR-Cas系统可以被设计为以时间和空间精确方式调控或改变个别内源性基因的表达。Cpf1 CRISPR-Cas系统可以被设计为结合感兴趣的基因的启动子序列以改变基因表达。Cpf1 可以被拆分为两个半部，其中一个半部融合至隐花色素异源二聚体(隐花色素-2或CIB1)的一个半部，而剩余的隐花色素配偶体融合至Cpf1的另一半部。在一些方面中，转录效应子结构域还可以包含在Cpf1 CRISPR-Cas系统中。效应子结构域可以是激活因子，诸如VP16、VP64或p65，或阻遏物诸如KRAB、EnR 或SID。在未受刺激状态，一个半部的Cpf1-隐花色素2蛋白质定位至感兴趣的基因的启动子，但不结合CIB1- 效应蛋白。在用蓝光谱光刺激后，隐花色素-2被激活，经历构象变化，并且揭示出其结合结构域。CIB1进而结合隐花色素-2，使得Cpf1的第二半部定位至感兴趣的基因的启动子区并且开启可以产生基因过表达或沉默的基因组编辑。LITE的方面进一步描述于刘，H等人，科学，2008和肯尼迪·M(Kennedy M)等人，自然方法(Nature Methods)2010中，这些文献的内容通过引用以其整体结合在此。

可以进一步调控功能的激活因子和阻遏物结构域可以基于物种、强度、机制、持续时间、大小或任何数目的其他参数进行选择。优选的效应子结构域包括但不限于易位酶结构域、整合酶结构域、重组酶结构域、解离酶结构域、转化酶结构域、蛋白酶结构域、DNA甲基转移酶结构域、DNA脱甲基酶结构域、组蛋白乙酰化酶结构域、组蛋白脱乙酰化酶结构域、核酸酶结构域、阻遏物结构域、激活因子结构域、核定位信号结构域、转录-蛋白质募集结构域、细胞摄取活性相关结构域、核酸结合结构域或抗体呈递结构域。

同样产生化学品诱导型系统存在若干种不同的方式：1.由脱落酸(ABA)诱导的基于ABI-PYL 的系统(例如参见，stke.sciencemag.org/cgi/content/abstract/sigtrans；4/164/rs2处的网站)，2.由雷帕霉素(或基于雷帕霉素的相关化学品)诱导的基于FKBP-FRB的系统(例如参见， nature.com/nmeth/journal/v2/n6/full/nmeth763.html处的网站)，3.由赤霉素(GA)诱导的基于GID1-GAI的系统(例如参见，nature.com/nchembio/journal/v8/n5/full/nchembio.922.html处的网站)。

由本发明涵盖的另一个系统是基于亚细胞定位中的变化的化学品诱导型系统。申请人还了解了一种被工程化为靶向感兴趣的基因组座位的诱导型Cpf1 CRISPR-Cas系统，其中Cpf1酶被拆分为进一步连接至化学品或能量敏感蛋白质的不同部分的两个融合构建体。在化学结合或能量转移至化学品或能量敏感蛋白质之后，此化学品或能量敏感蛋白质使得CPf1酶的任一个半部的亚细胞定位产生变化(即Cpf1酶的任一个半部从细胞质转运到细胞的核中)。融合构建体从一个亚细胞区室或细胞器(在其中它的活性由于缺乏用于重构的Cpf1 CRISPR-Cas系统的底物而被隔离)到另一个亚细胞区室或细胞器(在其中存在底物) 的这种转运允许这些组分合在一起并且重构功能活性，并且然后允许这些组分与其所需底物(即哺乳动物核中的基因组DNA)接触，并且产生靶基因表达的激活或阻遏。

考虑了其他诱导型系统，诸如但不限于通过下项进行的调节：重金属[梅奥·KE(Mayo KE) 等人，细胞1982,29:99-108；瑟尔·PF(Searle PF)等人，分子细胞生物学(MolCell Biol)1985,5:1480-1489 和布林斯特·RL(Brinster RL)等人，自然(伦敦)1982,296:39-42]、类固醇激素[海恩斯·NE(Hynes NE) 等人，美国国家科学院院刊1981,78:2038-2042；克劳克·G(Klock G)等人，自然(伦敦)1987,329:734-736 和李·F(Lee F)等人，自然(伦敦)1981,294:228-232。]、热休克[努尔·L(Nouer L)：热休克应答(Heat ShockResponse)，波卡拉顿(Boca Raton)，FL:CRC；1991]并且已经开发了其他试剂[马尔利克·A(Mullick A)，马西·B(Massie B)：转录、翻译以及基因表达的控制(Transcription,translation and the control of gene expression)，在由斯皮尔·RE(Speir RE)编辑的细胞技术的百科全书(Encyclopedia of Cell Technology) 中，威力公司(Wiley)；2000:1140-1164以及菲斯尼格·M(Fussenegger M)，生物技术进展(Biotechnol Prog)2001,17:1-51]。然而，对于这些诱导型哺乳动物启动子存在局限性，诸如“关闭”状态的“泄露”和诱导物(热休克、重金属、糖皮质激素等)的多效性。昆虫激素(蜕皮激素)的使用已在降低哺乳动物细胞中的细胞过程干扰的尝试中提出[诺·D(No D)等人，美国国家科学院院刊1996,93:3346-3351]。另一种优良系统使用雷帕霉素作为诱导物[里韦拉·VM(Rivera VM)等人，自然医学1996，2:1028-1032]，但雷帕霉素作为免疫抑制剂的作用是其体内使用的主要限制，并且因此需要发现用于控制基因表达的生物学惰性化合物[塞斯·E(Saez E)等人，美国国家科学院院刊2000，97:14512-14517]。

在特定实施例中，在此所述的基因编辑系统处于密码杀伤开关的控制下，该密码杀伤开关 (passcode kill switch)是一种当改变细胞条件时有效地杀伤宿主细胞的机制。这是通过引入杂交体 LacI-GalR家族转录因子来确保的，这些转录因子需要IPTG的存在以进行转换(尚(Chan)等人2015自然自然化学生物学(Nature Chemical Biology)doi:10.1038/nchembio.1979)，并且可以用于驱动编码对细胞存活关键的酶的基因。通过将对不同化学品敏感的不同转录因子相结合，可以产生“代码”。此系统可以用于在空间和时间上控制CRISPR诱导的遗传修饰的程度，这在包括治疗性应用的不同领域中可能是有意义的并且避免GMO从其预定的环境中“逃逸”也可能是有意义的。

自失活系统

一旦细胞基因组中的基因的所有拷贝已被编辑,则该细胞中的连续的CRISRP/Cpf1表达不再需要。实际上，持续的表达在非预定基因组位点等处的脱靶效应情况下将是不希望的。因此，时间限制的表达将是有用的。诱导型表达提供了一种途径，但是此外，申请人设想了依赖于CRISPR载体本身内的非编码指导靶序列的用途的自失活CRISPR-Cpf1系统。因此，在表达开始之后，CRISPR系统将使得其自身破坏，但是在完全破坏之前，其将有编辑靶基因的基因组拷贝的时间(在二倍体细胞中的正常点突变的情况下，其需要至多两次编辑)。简单地，自失活CRISPR-Cas系统包括附加RNA(即指导RNA)，该附加RNA靶向CRISPR酶本身的编码序列或靶向与存在于以下项中的一种或多种中的独特序列互补的一种或多种非编码指导靶序列：

(a)在驱动非编码RNA元件的表达的启动子之内，

(b)在驱动Cpf1基因的表达的启动子之内，

(c)在Cpf1编码序列中的ATG翻译起始密码子的100bp之内，

(d)在病毒递送载体，例如在AAV基因组中的反向末端重复序列(iTR)之内。

此外，RNA可以经由载体，例如单独的载体或编码CRISPR复合物的同一载体来递送。当通过单独的载体来提供时，靶向Cpf1表达的CRISPR RNA可以依序或同时给予。当依序给予时，在意图用于例如基因编辑或基因工程化的CRISPR RNA之后，将递送靶向Cpf1表达的CRISPR RNA。此时间段可以是数分钟(例如5分钟、10分钟、20分钟、30分钟、45分钟、60分钟)的时间。此时间段可以是数小时(例如2 小时、4小时、6小时、8小时、12小时、24小时)的时间。此时间段可以是数天(例如2天、3天、4天、7 天)的时间。此时间段可以是数周(例如2周、3周、4周)的时间。此时间段可以是数月(例如2个月、4 个月、8个月、12个月)的时间。此时间段可以是数年(例如2年、3年、4年)的时间。在此方式中，Cas 酶与能够与第一靶标诸如感兴趣的一个基因组座位或多个基因组座位杂交的第一gRNA缔合并且负责所希望的CRISPR-Cas系统的一种或多种功能(例如，基因工程化)；并且随后Cpf1酶可以接着与能够与包含至少一部分的Cpf1或CRISPR盒的序列杂交的第二gRNA缔合。在该gRNA靶向编码Cpf1蛋白的表达的序列的情况下，该酶受到阻碍并且系统发生自失活。以相同方式，经由如在此解释的例如脂质体、脂转染、纳米粒子、微泡施用的靶向Cpf1表达的CRISPR RNA可以依序或同时给予。类似地，自失活可以用于对用来靶向一个或多个靶标的一个或多个指导RNA进行失活。

在一些方面中，提供了单一gRNA，该单一gRNA能够与CRISPR酶起始密码子下游的序列杂交，由此在一段时间后，存在CRISPR酶表达的丧失。在一些方面中，提供了一个或多个gRNA，这些gRNA能够与编码CRISPR-Cas系统的多核苷酸的一个或多个编码或非编码区杂交，由此在一段时间后，存在一种或多种、或在一些情况下全部的CRISPR-Cas系统的失活。在系统的一些方面中，并且不受理论限制，细胞可以包含多种CRISPR-Cas复合物，其中第一亚组的CRISPR复合物包含能够靶向有待编辑的一个基因组座位或多个基因组座位的第一gRNA，并且第二亚组的CRISPR复合物包含能够靶向编码CRISPR-Cas系统的多核苷酸的至少一个第二gRNA，其中第一亚组的CRISPR复合物介导靶向的一个基因组座位或多个基因组座位的编辑并且第二亚组的CRISPR复合物最终使CRISPR-Cas系统失活，从而使细胞中的进一步CRISPR-Cas表达失活。

因此，本发明提供了一种包含用于递送至真核细胞的一种或多种载体，其中一种或多种载体编码：(i)CRISPR酶，更具体地是Cpf1；(ii)能够杂交至细胞中的靶序列的第一指导RNA；以及(iii)能够杂交至编码CRISPR酶的载体中的一个或多个靶序列的第二指导RNA，当在该细胞中表达时，第一指导RNA 引导第一CRISPR复合物与该细胞中的靶序列的序列特异性结合；第二指导RNA引导第二CRISPR复合物与编码CRISPR酶的载体中的靶序列的序列特异性结合；CRISPR复合物包含结合指导RNA的CRISPR酶，由此指导RNA可以与其靶序列杂交；并且第二CRISPR复合物使CRISPR-Cas系统失活以阻止细胞对CRISPR 酶的连续表达。

在此其他地方披露了一种或多种载体、编码的酶、指导序列等的另外特性。该系统可以编码(i) CRISPR酶，更具体地是Cpf1；(ii)包含能够杂交至细胞中的第一靶序列的序列的第一gRNA，(iii)能够杂交至编码CRISPR酶的载体的第二指导RNA。类似地，酶可以包含一个或多个NLS等。

不同编码序列(CRISPR酶、指导RNA)可以包含在单一载体上或多个载体上。例如，有可能编码在一个载体上的酶和在另一个载体上的不同RNA序列，或者有可能编码在一个载体上的酶和一个 gRNA以及在另一个载体上的剩余gRNA或任何其他前突变。总的来说，使用总共一个或多个不同载体的系统是优选的。

在使用多种载体的情况下，有可能以不相等的数目递送它们，并且理想的是，其中编码第一指导RNA的载体相对于编码第二指导RNA的载体是过量的，从而有助于延迟CRISPR系统的最终失活，直到基因组编辑具有了发生的机会为止。

第一指导RNA可以靶向基因组内的感兴趣的任何靶序列，如在此其他地方所述的。第二指导 RNA靶向编码CRISPR Cas9酶的载体内的序列，并且从而使来自该载体的酶的表达失活。因此，载体中的靶序列必须能够使表达失活。适合的靶序列可以是例如在Cpf1编码序列的翻译起始密码子附近或之内，在驱动非编码RNA元件的表达的启动子中的非编码序列中，在驱动Cpf1基因的表达的启动子之内，在Cpf1编码序列中的ATG翻译起始密码子的100bp之内，和/或在病毒递送载体，例如AAV基因组中的反向末端重复序列(iTR)之内。靠近此区域的双链断裂可以诱导Cpf1编码序列的移码，使得蛋白质表达丧失。用于使指导RNA“自失活”的替代性靶序列将旨在编辑/失活为CRISPR-Cpf1系统的表达或为载体的稳定性所需要的调节区/序列。例如，如果Cpf1编码序列的启动子被破坏，那么转录可以被抑制或阻止。类似地，如果载体包含用于复制、维持性或稳定性的序列，那么有可能靶向这些序列。例如，在AAV载体中，有用的靶序列是在iTR之内。其他有用的供靶向的序列可以是启动子序列、多聚腺苷酸化(polyadenlyation)位点等。

此外,如果指导RNA以阵列格式表达,则同时靶向两个启动子的“自失活”指导RNA将使得间插核苷酸从CRISPR-Cas表达构建体内切除，有效地使得其完全失活。类似地，在指导RNA靶向两个ITR，或同时靶向两种或更多种其他CRISPR-Cas组分的情况下，发生间插核苷酸的切除。总的来说，如在此解释的自失活是适用于CRISPR-Cpf1系统的，以便提供CRISPR-Cpf1的调节。例如，如在此解释的自失活可以适用于如在此解释的突变，例如扩增病症的CRISPR修复。作为此自失活的结果，CRISPR修复仅仅具有瞬时活性。

向“自失活”指导RNA的5'端添加非靶向核苷酸(例如1-10个核苷酸，优选1-5个核苷酸)可以用于延迟其加工和/或修饰其效力以作为确保CRISPR-Cpf1停止之前的靶向的基因组座位处的编辑的手段。

在自失活AAV-CRISPR-Cpf1系统的一个方面中，可以建立共表达感兴趣的一种或多种gRNA 靶向基因组序列(例如1-2、1-5、1-10、1-15、1-20、1-30)的质粒，其中靶向LbCpf1序列的“自失活”gRNA 处于或靠近工程化的ATG起始位点(例如，在5个核苷酸之内、在15个核苷酸之内、在30个核苷酸之内、在50个核苷酸之内、在100个核苷酸之内)。U6启动子区中的调节序列也可以用gRNA靶向。U6驱动的gRNA 可以被设计为阵列格式，使得多个gRNA序列可以同时被释放。当首先被递送至靶组织/细胞(离开的细胞) 时，gRNA开始积累，同时Cpf1水平在核中上升。Cpf1与介导CRISPR-Cpf1质粒的基因组编辑和自失活的所有gRNA复合。

自失活CRISPR-Cpf1系统的一个方面是由1至4或更多个不同指导序列；例如高达约20或约30 个指导序列以单独或串联的阵列格式的表达。每个单个自失活指导序列可以靶向不同的靶标。这样可以从例如一个嵌合pol3转录物开始加工。可以使用Pol3启动子诸如U6或H1启动子。Pol2启动子诸如在此所提到的那些。反向末端重复(iTR)序列可以侧接Pol3启动子-一个或多个gRNA-Pol2启动子-Cpf1。

嵌合串联的阵列转录物的一个方面在于一种或多种指导序列编辑一个或多个靶标，而一个或多个自失活指导序列使CRISPR/Cpf1系统失活。因此，例如，用于修复扩增病症的所述CRISPR-Cpf1系统可以直接与在此所述的自失活CRISPR-Cpf1系统相结合。此系统可以例如具有针对供修复的靶区的两个指导序列以及针对CRISPR-Cpf1的自失活的至少一个第三指导序列。参考申请序列号PCT/US2014/069897，题为“在核苷酸重复病症中使用Crispr-Cas系统的组合物和方法(Compositions And Methods Of Use Of Crispr-CasSystems In Nucleotide Repeat Disorders)”，2014年12月12日以WO/2015/089351公开。

使用Cpf1的基因编辑或改变靶座位

双链断裂或一条链的单链断裂应该有利地足以靠近靶位置，由此使得校正发生。在一个实施例中，距离不超过50、100、200、300、350或400个核苷酸。虽然不希望受理论约束，但是据信断裂应该足以靠近靶位置，由此使得断裂在在端切除过程中遭受外切核酸酶介导的移除的区之内。如果靶位置与断裂之间的距离太大，则突变可能不被包含在端切除中，并且因此可能不被校正，因为模板核苷酸序列仅可以用于校正端切除区内的序列。

在一个实施例中，其中指导RNA和V型/VI型分子，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1核酸酶诱导双链断裂，目的是为了诱导HDR-介导的校正，切割位点在离靶位置的 0-200bp之间(例如0至175、0至150、0至125、0至100、0至75、0至50、0至25、25至200、25至175、25至 150、25至125、25至100、25至75、25至50、50至200、50至175、50至150、50至125、50至100、50至75、 75至200、75至175、75至150、75至125、75至100bp)。在一个实施例中，切割位点是在离靶位置的0-100bp 之间(例如0至75、0至50、0至25、25至100、25至75、25至50、50至100、50至75或75至100bp)。在另一个实施例中，与Cpf1或其直向同源物或同源物复合的两个或更多个指导RNA可以用于诱导多重断裂，目的是为了诱导HDR介导的校正。

同源臂应该至少延伸至其中可以发生端切除的区，例如为了允许切除的单链突出端查找供体模板内的互补区。总体长度可能受参数诸如质粒大小或病毒包装限制所限制。在一个实施例中，同源臂可以不延伸到重复元件中。示例性同源臂长度包括至少50、100、250、500、750或1000个核苷酸。

如在此所用的，靶位置是指靶核酸或靶基因(例如染色体)上的通过V型/VI型，具体地是 Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1分子依赖性过程修饰的位点。例如，靶位置可以是进行靶核酸的修饰Cpf1分子切割和模板核酸引导的修饰例如校正的靶位置。在一个实施例中，靶位置可以是处于靶核酸上的两个核苷酸例如相邻核苷酸之间、向其中添加一个或多个核苷酸的的位点。靶位置可以包含通过模板核酸改变例如校正的一个或多个核苷酸。在一个实施例中，靶位置处于靶序列(例如指导RNA 所结合的序列)之内。在一个实施例中，靶位置处于靶序列(例如指导RNA所结合的序列)的上游或下游。

如在此所用的术语模板核酸是指可以与V型/VI型分子，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1分子和指导RNA分子结合使用来改变靶位置的结构的核酸序列。在一个实施例中，靶核酸被修饰为典型地是在或靠近一个或多个切割位点处具有模板核酸的序列的一部分或全部。在一个实施例中，模板核酸是单链的。在一个替代性实施例中，模板核酸是双链的。在一个实施例中，模板核酸是DNA，例如双链DNA。在一个替代性实施例中，模板核酸是单链DNA。

在一个实施例中，模板核酸通过参与同源重组改变了靶位置的结构。在一个实施例中，模板核酸改变了靶位置的序列。在一个实施例中，模板核酸使得修饰的或非天然发生的碱基掺入到靶核酸中。

模板序列可以与靶序列一起经历断裂介导或催化的重组。在一个实施例中，模板核酸可以包含对应于靶序列上的被Cpf1介导的切割事件切割的位点的序列。在一个实施例中，模板核酸可以包含对应于两者，即靶序列上的在第一Cpf1介导的事件中被切割的第一位点和靶序列上的在第二Cpf1介导的事件中被切割的第二位点的序列。

在某些实施例中，模板核酸可以包含使得翻译序列的编码序列中发生改变的序列，例如使得蛋白质产物中的一个氨基酸取代另一个氨基酸，例如使得突变型等位基因转化为野生型等位基因，野生型等位基因转化为突变型等位基因，和/或引入终止密码子、插入氨基酸氨基、缺失氨基酸残基，或使得无意义突变发生的序列。在某些实施例中，模板核酸可以包含使得非编码序列中发生改变，例如外显子中或5' 或3'非翻译区或非转录区中发生改变的序列。此类改变包括控制元件，例如启动子、增强子中的改变，以及顺式作用或反式作用控制元件中的改变。

可以使用与靶基因中的靶位置具有同源性的模板核酸以改变靶序列的结构。模板序列可以用于改变不想要的结构，例如不想要的或突变的核苷酸。模板核酸可以包含当整合时产生下项的序列：降低正控制元件的活性；增加正控制元件的活性；降低负控制元件的活性；增加负控制元件的活性；减少基因的表达；增加基因的表达；增加对病症或疾病的抗性；增加对病毒进入的抗性；校正突变或改变不想要的氨基酸残基，赋予、增加、废除或减少基因产物的生物特性，例如增加酶的酶活性，或增加基因产物与另一个分子相互作用的能力。

模板核酸可以包含使得靶序列的1、2、3、4、5、6、7、8、9、10、11、12或更多个核苷酸的序列中发生变化的序列。在一个实施例中，模板核酸的长度可以是20+/-10、30+/-10、40+/-10、50+/-10、 60+/-10、70+/-10、80+/-10、90+/-10、100+/-10、110+/-10、120+/-10、130+/-10、140+/-10、150 +/-10、160+/-10、170+/-10、180+/-10、190+/-10、200+/-10、210+/-10或220+/-10个核苷酸。在一个实施例中，模板核酸的长度可以是30+/-20、40+/-20、50+/-20、60+/-20、70+/-20、80+/-20、90+/- 20、100+/-20、110+/-20、120+/-20、130+/-20、140+/-20、150+/-20、160+/-20、170+/-20、180+/- 20、190+/-20、200+/-20、210+/-20或220+/-20个核苷酸。在一个实施例中，模板核酸的长度是10至1,000、 20至900、30至800、40至700、50至600、50至500、50至400、50至300、50至200或50至100个核苷酸。

模板核酸包含以下组分：[5'同源臂]-[替换序列]-[3′同源臂]。同源臂提供了染色体中的重组，因此用替换序列替换了不希望的元件，例如突变或特征。在一个实施例中，同源臂侧接最远的切割位点。在一个实施例中，5′同源臂的3′端是靠近替换序列的5′端的位置。在一个实施例中，5'同源臂可以从替换序列的5′端延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500 或2000个核苷酸5'。在一个实施例中，3'同源臂的5'端是靠近替换序列的3'端的位置。在一个实施例中，3′ 同源臂可以从替换序列的3'端延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、 900、1000、1500或2000个核苷酸3′。

在某些实施例中，一个或两个同源臂可以被缩短以避免包括某些序列重复元件。例如，5'同源臂可以被缩短以避免序列重复元件。在其他实施例中，3'同源臂可以被缩短以避免序列重复元件。在一些实施例中，5'同源臂和3'同源臂两者都可以被缩短以避免包括某些序列重复元件。

在某些实施例中，用于校正突变的模板核酸可以被设计为用作单链的寡核苷酸。当使用单链的寡核苷酸时，5'同源臂和3'同源臂的长度可以在高达约200个碱基对(bp)的范围内，例如长度为至少25、 50、75、100、125、150、175或200bp。

Cpf1效应蛋白复合物系统促进的非同源末端连接

在某些实施例中，核酸酶诱导的非同源末端连接(NHEJ)可以用于靶基因特异性敲除。核酸酶诱导的NHEJ还可以用于去除(例如缺失)感兴趣的基因中的序列。总体上，NHEJ通过使两个末端连接在一起来修复DNA的双链断裂；然而，总体上，只要两个相容末端在恰好它们通过双键断裂形成时被完美连接，原始序列就被恢复。在末端重新连接之前，双键断裂的DNA末端常常是酶加工的受试者，在一条或两条链处产生核苷酸的添加或去除。这使得NHEJ修复位点处的DNA序列中存在插入和/或缺失(indel)突变。这些突变中的三分之二典型地改变阅读框并且因此产生非功能蛋白。另外，维持阅读框但插入或缺失大量的序列的突变可以破坏蛋白质的功能性。这是座位依赖性的，因为关键功能结构域中的突变可能比蛋白质的非关键区中的突变耐受性低。由NHEJ产生的indel突变在性质上是不可预测的；然而，在给定的断裂位点处，某些indel序列是有利的并且是以群体来过度表示的，很可能是由于小的微同源区。缺失的长度可以广泛地变化；最常见是在1-50bp范围中，但是它们可以轻易大于50bp，例如它们可以轻易达到大于约 100-200bp。插入往往是较短的并且常常包含紧密围绕断裂位点的序列的短的重复。然而，有可能获得大的插入，并且在这些情况下，插入的序列常常被跟踪至基因组的其他区域或跟踪至细胞中存在的质粒DNA。

因为NHEJ是诱变的方法，所以其还可以用于缺失小序列基序，只要特异性最终序列的产生是不需要的。如果双链断裂被靶向靠近短的靶序列，则由NHEJ修复导致的缺失突变常常跨越并且因此去除不想要的核苷酸。对于较大的DNA区段的缺失，引入两个双链断裂(序列的每侧上一个双链断裂)可以在末端之间产生NHEJ，其中去除了整个间插序列。这两个方法可以用于缺失特异性DNA序列；然而，NHEJ 的易出错的性质仍可能在修复位点产生indel突变。

双链切割的V型/VI型分子，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1 分子和单链或切口酶V型/VI型分子，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1分子两种均可以用于在此所述的方法和组合物中以产生NHEJ介导的indel。靶向基因，例如编码区，例如感兴趣基因的早期编码区的NHEJ介导的indel可以用于敲除感兴趣的基因(即消除该感兴趣基因的表达)。例如，感兴趣基因的早期编码区包含紧跟着转录起始位点的序列，在编码序列的第一外显子内，或在转录起始位点的500bp内(例如，小于500、450、400、350、300、250、200、150、100或50bp)。

在一个实施例中，其中指导RNA和V型/VI型分子，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1核酸酶产生了双链断裂，目的是为了诱导NHEJ介导的indel，指导RNA可以被构造成用于将一个双链断裂定位成紧密接近靶位置的核苷酸。在一个实施例中，切割位点可以是在离靶位置的 0-500bp之间(例如，离靶位置少于500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、 6、5、4、3、2或1bp)。

在一个实施例中，其中与V型/VI型分子，具体地是Cpf1/C2c1/C2c2或其直向同源物或同源物，优选地Cpf1切口酶复合的两个指导RNA诱导了两个单链断裂，目的是为了诱导NHEJ介导的indel，两个指导RNA可以被构造成用于将两个单链断裂定位成向靶位置的核苷酸提供NHEJ修复。

Cpf1效应蛋白复合物可以递送功能效应子

与通过使DNA水平上的基因突变来永久性消除表达的CRISPR-Cas介导的基因敲除不同，CRISPR-Cas敲低(knockdown)允许通过使用人工转录因素来暂时减少基因表达。使Cpf1蛋白诸如FnCpf1 蛋白的两个DNA切割结构域中的关键残基突变(例如，FnCpf1蛋白的D917A和H1006A突变或根据AsCpf1 蛋白的D908A、E993A、D1263A或根据LbCpf1蛋白的D832A、E925A、D947A或D1180A)使得催化失活的Cpf1产生。催化失活的Cpf1与指导RNA复合并且定位至由指导RNA的靶向结构域所指定的DNA序列，然而该Cpf1不切割靶DNA。失活的Cpf1蛋白诸如FnCpf1蛋白(例如D917A和H1006A突变)与效应子结构域例如转录阻遏结构域的融合能够将效应子募集至由指导RNA所指定的任何DNA位点。在某些实施例中， Cpf1可以被融合至转录阻遏结构域并且被募集至基因的启动子区。特别是对于基因阻遏，在此预期的是，阻断内源性转录因子的结合位点将有助于下调基因表达。在另一个实施例中，失活的Cpf1可以融合至染色质修饰蛋白。改变染色质状态可以使得靶基因表达减少。

在一个实施例中，指导RNA分子可以被靶向已知的转录应答元件(例如，启动子、增强子等)、已知的上游激活序列，和/或疑似能够控制靶DNA的表达的未知或已知功能的序列。

在一些方法中，可以使靶多核苷酸失活以实施细胞中的表达的修饰。例如，在CRISPR复合物与细胞中的靶序列结合后，靶多核苷酸失活，这样使得该序列不被转录，该编码蛋白不被产生，或者该序列不会像野生型序列一样起作用。例如，可以使蛋白质或微小RNA编码序列失活，这样使得该蛋白质不被产生。

在某些实施例中，CRISPR酶包含选自由D917A、E1006A和D1225A组成的组的一个或多个突变，并且/或者一个或多个突变是在CRISPR酶的RuvC结构域中或者是如在此所讨论的其他方式的突变。在一些实施例中，CRISPR酶在催化结构域中具有一个或多个突变，其中当转录时，同向重复序列形成单一茎环并且指导序列引导CRISPR复合物与靶序列的序列特异性结合，并且其中酶进一步包含功能结构域。在一些实施例中，功能结构域是转录激活结构域，优选地VP64。在一些实施例中，功能结构域是转录阻遏结构域，优选地KRAB。在一些实施例中，转录阻遏结构域是SID或SID的串联体(例如SID4X)。在一些实施例中，功能结构域是表观遗传修饰结构域，以便提供表观遗传修饰酶。在一些实施例中，功能结构域是激活结构域，它可以是P65激活结构域。

Cpf1效应蛋白复合物或其组分的递送

通过本披露和本领域知识，CRISPR-Cas系统，特别是在此所述的新型CRISPR系统或其组分或其核酸分子(包括例如HDR模板)或编码或提供其组分的核酸分子可以通过在此一般和详细描述的递送系统来递送。

载体递送，例如质粒、病毒递送：CRISPR酶，例如Cpf1和/或任一本发明RNA，例如指导RNA 可以使用任何适合载体例如质粒或病毒载体诸如腺伴随病毒(AAV)、慢病毒、腺病毒或其他病毒载体类型、或它们的组合来递送。Cpf1和一个或多个指导RNA可以包装到一种或多种载体例如质粒或病毒载体中。在一些实施例中，载体例如质粒或病毒载体，例如，通过肌肉注射递送至感兴趣的组织中，而有时递送是经由静脉内、经皮、鼻内、经口、粘膜或其他递送方法进行的。此递送可以经由单剂量或多剂量来进行。本领域技术人员应理解的是，在此有待递送的实际剂量可以在很大程度上取决于多种因素而变化，诸如载体选择、靶细胞、生物体、或组织、有待治疗的受试者的一般状况、所寻求的转化/修饰的程度、给药途径、给药方式、所寻求的转化/修饰的类型等。

此剂型可以进一步含有，例如，载体(水、盐水、乙醇、甘油、乳糖、蔗糖、磷酸钙、明胶、葡聚糖、琼脂、果胶、花生油、芝麻油等等)、稀释剂、药学上可接受的载体(例如，磷酸盐缓冲盐水)、药学上可接受的赋形剂、和/或本领域已知的其他化合物。该剂型可以进一步含有一种或多种药学上可接受的盐，例如像，无机酸盐诸如盐酸盐、氢溴酸盐、磷酸盐、硫酸盐等；以及有机酸盐，诸如乙酸盐、丙酸盐、丙二酸盐、苯甲酸盐等。另外，在此也可以存在辅助物质，诸如润湿剂或乳化剂、pH缓冲物质、凝胶或胶凝材料、调味剂、着色剂、微球体、聚合物、悬浮剂等。此外，也可以存在一种或多种其他常规药用成分，诸如防腐剂、保湿剂、悬浮剂、表面活性剂、抗氧化剂、抗结剂、填充剂、螯合剂、包衣剂、化学稳定剂等，尤其是在该剂型是呈可重构形式时。适合的示例性成分包括微晶纤维素、羧甲基纤维素钠、聚山梨酯80、苯乙醇、三氯叔丁醇、山梨酸钾、抗坏血酸、二氧化硫、没食子酸丙酯、对羟基苯甲酸酯、乙基香兰素、甘油、苯酚、对氯酚、明胶、白蛋白以及它们的组合。药学上可接受的赋形剂的彻底论述可获自雷明顿药物科学(REMINGTON′S PHARMACEUTICAL SCIENCES)(马克出版公司，纽约1991)，该文献通过引用结合在此。

在在此的一个实施例中，递送是经由腺病毒进行的，其可以是含有至少1×10⁵个腺病毒载体粒子(也称为粒子单位，pu)的单次加强剂量。在在此的一个实施例中，该剂量优选地是腺病毒载体的至少约1×10⁶个粒子(例如，约1×10⁶-1×10¹²个粒子)，更优选地至少约1×10⁷个粒子、更优选地至少约1× 10⁸个粒子(例如，约1×10⁸-1×10¹¹个粒子或约1×10⁸-1×10¹²个粒子)，并且最优选至少约1×10⁰个粒子 (例如约1×10⁹-1×10¹⁰个粒子或约1×10⁹-1×10¹²个粒子)，或甚至至少约1×10¹⁰个粒子(例如，约1× 10¹⁰-1×10¹²个粒子)。可替代地，该剂量包含不超过约1×10¹⁴个粒子，优选不超过约1×10¹³个粒子，甚至更优选不超过约1×10¹²个粒子，甚至更优选不超过约1×10¹¹个粒子，并且最优选不超过约1×10¹⁰个粒子 (例如，不超过约1×10⁹个粒子)。因此，该剂量可以含有单剂量的腺病毒载体，其具有例如约1×10⁶粒子单位(pu)、约2×10⁶pu、约4×10⁶pu、约1×10⁷pu、约2×10⁷pu、约4×10⁷pu、约1×10⁸pu、约2×10⁸ pu、约4×10⁸pu、约1×10⁹pu、约2×10⁹pu、约4×10⁹pu、约1×10¹⁰pu、约2×10¹⁰pu、约4×10¹⁰pu、约1×10¹¹pu、约2×10¹¹pu、约4×10¹¹pu、约1×10¹²pu、约2×10¹²pu或约4×10¹²pu的腺病毒。参见，例如，在2013年6月4日授权的授予纳贝尔(Nabel)等人的美国专利号8,454,972B2中的腺病毒载体；该专利通过引用结合在此，以及在其第29栏第36-58行的剂量。在在此的一个实施例中，腺病毒是经由多剂量来递送的。

在在此的一个实施例中，该递送是经由AAV进行的。用于针对人类的AAV的体内递送的治疗有效剂量被认为处于含有从约1×10¹⁰至约1×10¹⁰个功能AAV/ml溶液的从约20至约50ml的盐水溶液的范围内。剂量可以被调整以便相对于任何副作用平衡治疗益处。在在此的一个实施例中，AAV剂量大致处于从约1×10⁵至1×10⁵⁰个基因组AAV、从约1×10⁸至1×10²⁰个基因组AAV、从约1×10¹⁰至约1×10¹⁶个基因组、或约1×10¹¹至约1×10¹⁶个基因组AAV的浓度范围内。人类剂量可以是约1×10¹³个基因组AAV。此类浓度可以从约0.001ml至约100ml、约0.05至约50ml、或约10至约25ml的载体溶液进行递送。通过建立剂量应答曲线的常规试验，本领域普通技术人员可以容易地确立其他有效剂量。参见，例如，2013年3月26 日授权的授予哈加(Hajjar)等人的美国专利号8,404,658B2，在第27栏，第45-60行。

在在此的一个实施例中，该递送是经由质粒进行的。在此类的质粒组合物中，该剂量应该是足以引发应答的质粒的量。例如，在质粒组合物中的质粒DNA的适当量可以是从约0.1至约2mg，或从约1 μg至约10μg/70kg个体。本发明的质粒大体上包含(i)启动子；(ii)编码CRISPR酶的序列，该序列可操作地连接至所述启动子；(iii)选择标记物；(iv)复制起点；以及(v)在(ii)的下游并可操作地连接至(ii)的转录终止子。质粒还可以编码CRISPR复合物的RNA组分，但是这些组分中的一个或多个还可以被编码在不同的载体上。

在此的剂量是基于平均70kg个体的。给药频率在医学或兽医学从业者(例如医师、兽医师) 或本领域熟练的科学家的范围之内。还应注意的是，实验中使用的小鼠典型地是约20g并且来自小鼠实验的小鼠可以提高至70kg的个体。

用于在此提供的组合物的剂量包括用于重复给予或重复给药的剂量。在特定实施例中，在数周、数月或数年的时间内进行重复给予。可以进行合适的测定来获得最佳剂量方案。重复的给药可以允许较低剂量的使用，这可以有利地影响脱靶修饰。

在一些实施例中，本发明的RNA分子以脂质体或脂转染配制品等递送并且可以是通过本领域技术人员已熟知的方法来制备。此类方法描述于例如美国专利号5,593,972、5,589,466、以及5,580,859中，这些专利通过引用结合在此。已开发了特别旨在增强并改进siRNA到哺乳动物细胞的递送的递送系统(例如，参见，沈(Shen)等人FEBS快报(FEBSLet.)2003,539:111-114；夏(Xia)等人，自然生物技术2002, 20:1006-1010；赖希(Reich)等人，分子视觉(Mol.Vision.)2003,9:210-216；索伦森(Sorensen)等人，分子生物学杂志(J.Mol.Biol.)2003,327:761-766；路易斯(Lewis)等人，自然遗传学(Nat.Gen.)2002, 32:107-108以及西梅奥尼(Simeoni)等人，核酸研究(NAR)2003,31,11:2717-2724)并且这些递送系统可以适用于本发明。siRNA最近已成功用于抑制灵长类动物中的基因表达(参见，例如托伦蒂诺(Tolentino) 等人，视网膜(Retina)24(4):660，该文献也可以适用于本发明)。

实际上，RNA递送是可用的体内递送方法。有可能使用脂质体或纳米粒子将Cpf1和gRNA(以及例如HR修复模板)递送至细胞中。因此，本发明的CRISPR酶诸如Cpf1的递送和/或RNA的递送可以呈 RNA形式并且经由微泡、脂质体或一个粒子或多个粒子来进行。例如，Cpf1 mRNA和gRNA可以包装到脂质体粒子中以进行体内递送。脂质体转染试剂诸如来自生命技术公司(Life Technologies)的lipofectamine 和市场上的其他试剂可以有效地将RNA分子递送至肝脏中。

RNA递送手段还优选包括经由粒子的RNA递送(卓·S.(Cho,S.)、金伯格·M.(Goldberg,M.)、松·S.(Son,S.)、许·Q.(Xu,Q.)、杨·F.(Yang,F.)、梅·Y.(Mei,Y.)、博加特廖夫·S.(Bogatyrev,S.)、朗格·R.(Langer,R.)和安德森·D.(Anderson,D.)，用于将小干扰RNA递送至内皮细胞的脂质样纳米粒子 (Lipid-like nanoparticles for smallinterfering RNA delivery to endothelial cells)，先进功能材料(AdvancedFunctional Materials)，19:3112-3118，2010)或外来体(施罗德·A.(Schroeder,A.)、莱文斯·C.(Levins,C.)、科特斯·C.(Cortez,C.)、朗格·R.和安德森·D.，用于siRNA递送的基于脂质的纳米治疗剂(Lipid-based nanotherapeutics for siRNA delivery)，内科医学杂志(Journal of Internal Medicine)，267:9-21，2010， PMID:20059641)。实际上，已经表明外来体在递送siRNA中特别有用，其为与CRISPR系统有一些相似之处的系统。例如，艾尔安达卢西·S(El-Andaloussi S)等人(“外来体介导的体外和体内siRNA递送”(“Exosome-mediated delivery of siRNA in vitro and in vivo.”)，自然实验手册(NatProtoc.)2012年12月； 7(12):2112-26.doi:10.1038/nprot.2012.131，电子版2012年11月15日)描述了外来体如何对于跨不同的生物屏障的药物递送是有希望的工具并且可以用于体外和体内递送siRNA。其途径在于通过转染一种包含与肽配体融合的外来体蛋白的表达载体产生靶向的外来体。然后将这些外来体纯化并且由转染的细胞上清液进行表征，然后将RNA加载到外来体中。根据本发明的递送或给药可以使用外来体进行，特别是但不限于脑。维生素E(α-生育酚)可以与CRISPR Cas轭合并且与高密度脂蛋白(HDL)一起递送至脑，例如以与乌诺 (Uno)等人完成的用于将短干扰RNA(siRNA)递送至脑的类似方式(人类基因治疗(HUMAN GENE THERAPY)22:711-719(2011年6月))。经由用磷酸盐缓冲盐水(PBS)或游离TocsiBACE或Toc-siBACE/HDL 充满的并且与脑灌注试剂盒3(Brain Infusion Kit 3)(Alzet)连接的微渗透压泵(型号1007D；Alzet，库栢蒂诺(Cupertino)，加利福尼亚州(CA))灌注小鼠。将一根脑灌注插管置于在正中线的前囱的后方约0.5mm，用于灌注到背侧第三脑室中。乌诺等人发现，通过相同的ICV灌注方法，少至3nmol的Toc-siRNA与HDL可以诱导相当程度的靶减少。在本发明中对于人类可以考虑类似剂量的轭合至α-生育酚并且与HDL共同给予靶向脑的CRISPR Cas，例如，可以考虑靶向脑的约3nmol至约3μmol的CRISPRCas。邹(Zou)等人(人类基因治疗22:465-475(2011年4月))描述了靶向PKCγ的短发夹RNA的慢病毒介导的递送方法，其用于在大鼠脊髓中的体内基因沉默。邹等人通过鞘内导管给予约10μl的具有1×10⁹个转导单位(TU)/ml的滴度的重组慢病毒。在本发明中对于人类可以考虑类似剂量的在靶向脑的慢病毒载体中表达的CRISPR Cas，例如，可以考虑靶向脑的在具有1×10⁹个转导单位(TU)/ml的滴度的慢病毒中的约10-50ml的CRISPR Cas。

可以例如通过电穿孔转染包含Cpf1和crRNA的预组装的重组体CRISPR-Cpf1复合物，从而产生高突变率且不存在可检测的脱靶突变。户珥，J.K.(Hur,J.K.)等人，通过电穿孔Cpf1核糖核蛋白在小鼠中进行的靶向诱变(Targeted mutagenesis in mice byelectroporation of Cpf1 ribonucleoproteins)，自然生物技术， 2016年6月6日doi:10.1038/nbt.3596.[电子版先于印刷版]

就脑的局部递送而言，这可以通过不同方式来实现。例如，可以例如通过注射纹状体内 (intrastriatally)递送材料。注射可以经由颅骨切开术立体定位地进行。

增强NHEJ或HR效率也有助于递送。优选的是，通过共表达末端加工酶诸如Trex2(杜米特拉切(Dumitrache)等人遗传学(Genetics)，2011年8月；188(4):787-797)来增强NHEJ效率。优选的是，通过瞬时地抑制NHEJ机构诸如Ku70和Ku86来增加HR效率。HR效率还可以通过共表达原核生物或真核生物同源重组酶诸如RecBCD、RecA来增加。

包装和启动子

将本发明的Cpf1编码核酸分子例如DNA包装到载体例如病毒载体中以介导体内修饰的方式包括：

·为了实现NHEJ介导的基因敲除：

·单病毒载体：

·含有两个或更多个表达盒的载体：

·启动子-Cpf1编码核酸分子-终止子

·启动子-gRNA1-终止子

·启动子-gRNA2-终止子

·启动子-gRNA(N)-终止子(一直到载体的大小限制)

·双病毒载体：

·含有用于驱动Cpf1表达的一个表达盒的载体1

·启动子-Cpf1编码核酸分子-终止子

·含有用于驱动一个或多个指导RNA表达的一个或多个表达盒的载体2

·启动子-gRNA1-终止子

·启动子-gRNA(N)-终止子(一直到载体的大小限制)

·用于介导同源定向修复。

·除了以上所述的单病毒载体和双病毒载体途径之外，另外的载体可以用于递送同源定向修复模板。

用于驱动Cpf1编码核酸分子表达的启动子可以包括：

-AAV ITR可以充当一种启动子：这对于消除另外的启动子元件(可能在载体中占用空间)的需要是有利的。空出来的另外的空间可以用于驱动另外的元件(gRNA等)的表达。另外，ITR活性是相对较弱的，因此可以用于降低由于Cpf1的过表达所致的潜在毒性。

-对于遍存表达，可以使用的启动子包括：CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。

对于脑或其他CNS表达，可以使用启动子：用于所有神经元的突触蛋白I(SynapsinI)、用于兴奋性神经元的CaMKIIα、用于GABA能神经元的GAD67或GAD65或VGAT等。

对于肝脏表达，可以使用白蛋白启动子。

对于肺表达，可以使用SP-B。

对于内皮细胞，可以使用ICAM。

对于造血细胞，可以使用IFNβ或CD45。

对于成骨细胞，可以使用OG-2。

用来驱动指导RNA的启动子可以包括：

-Pol III启动子诸如U6或H1

-使用Pol II启动子和内含子盒来表达gRNA

腺伴随病毒(AAV)

Cpf1和一个或多个指导RNA可以使用腺伴随病毒(AAV)、慢病毒、腺病毒或其他质粒或病毒载体类型进行递送，具体地说，使用来自以下文献的配方和剂量：例如，美国专利号8,454,972(针对腺病毒的配方、剂量)、8,404,658(针对AAV的配方、剂量)和5,846,946(针对DNA质粒的配方、剂量)以及来自临床试验和关于涉及慢病毒、AAV和腺病毒的临床试验的出版物。例如，对于AAV，给药途径、配方和剂量可以如美国专利号8,454,972并且如涉及AAV的临床试验。对于腺病毒，给药途径、配方和剂量可以如美国专利号8,404,658并且如涉及腺病毒的临床试验。对于质粒递送，给药途径、配方和剂量可以如美国专利号5,846,946并且如涉及质粒的临床研究。剂量可以基于或外推为平均70kg的个体(例如成人男性)，并且可以针对患者、受试者、不同重量和物种的哺乳动物进行调整。给药频率在医学或兽医学从业者(例如医师、兽医师)的范围之内，其取决于常规因素，包括患者或受试者的年龄、性别、一般健康状况、其他状况以及着手解决的特定病状或症状。可以将病毒载体注射到感兴趣的组织中。对于细胞类型特异性基因组修饰，Cpf1的表达可以由细胞类型特异性启动子驱动。例如，肝脏特异性表达可以使用白蛋白启动子，并且神经元特异性表达(例如靶向CNS病症)可以使用突触蛋白I启动子。

就体内递送而言，AAV相比于其他病毒载体是有利的，这是由于几个原因：

低毒性(这可以归因于纯化方法不需要细胞粒子的可以激活免疫应答的超速离心)以及

引起插入诱变的低概率，原因在于它未整合到宿主基因组中。

AAV具有4.5或4.75Kb的包装限制。这意味着Cpf1以及启动子和转录终止子必须都配合在同一个病毒载体中。大于4.5或4.75Kb的构建体将导致病毒产生的显著降低。SpCas9是相当大的，该基因自身超过4.1Kb，使其难于包装到AAV中。因此本发明的实施例包括利用更短的Cpf1同源物。

关于AAV，AAV可以是AAV1、AAV2、AAV5或任何其组合。可以相对于有待被靶向的细胞来选择AAV；例如，可以选择用于靶向脑或神经元细胞的AAV血清型1、2、5或杂交体衣壳AAV1、AAV2、 AAV5或其任何组合；并且可以选择用于靶向心脏组织的AAV4。AAV8可用于递送至肝脏。在此的启动子和载体是单独优选的。关于这些细胞的某些AAV血清型的列表(参见，格林姆·D(Grimm,D.)等人，病毒学杂志(J.Virol.)82:5887-5911(2008))如下：

慢病毒

慢病毒是复杂的反转录病毒，其具有在有丝分裂细胞和有丝分裂后细胞两者中感染并表达其基因的能力。最为人熟知的慢病毒是人类免疫缺陷病毒(HIV)，其利用其他病毒的包膜糖蛋白来靶向广泛范围的细胞类型。

慢病毒可以如下制备。在克隆pCasES10(含有慢病毒转移质粒骨架)之后，将处于低传代数 (p＝5)的HEK293FT接种在T-75烧瓶中，以在转染之前的一天在具有10％胎牛血清而没有抗生素的DMEM 中50％汇合。在20小时之后，将培养基更换为OptiMEM(无血清)培养基，并且在4小时后进行转染。将细胞用10μg的慢病毒转移质粒(pCasES10)和下列包装质粒转染：5μg的pMD2.G(VSV-g假型)和7.5μg 的psPAX2(gag/pol/rev/tat)。在具有阳离子脂质递送剂(50μL的Lipofectamine 2000和100μl的Plus试剂) 的4mL OptiMEM中进行转染。在6小时之后，将培养基更换为具有10％胎牛血清的无抗生素的DMEM。这些方法在细胞培养过程中使用血清，但是优选无血清的方法。

慢病毒可以如下纯化。在48小时后收获病毒上清液。首先清除上清液的碎片并通过0.45μm的低蛋白结合(PVDF)过滤器进行过滤。然后将它们在超速离心机中以24,000rpm旋转2小时。将病毒沉淀重新悬浮在50μl的DMEM中，在4℃下过夜。然后将它们等分，并且立即在-80℃下冷冻。

在另一个实施例中，还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类动物慢病毒载体，特别是对于眼部基因治疗而言(例如，参见巴拉冈(Balagaan)，基因医学杂志(J Gene Med)2006； 8:275-285)。在另一个实施例中，还考虑了

一种经由视网膜下注射递送用于治疗湿型年龄相关性黄斑变性的、表达血管生成抑制性蛋白(内皮抑素和血管抑素)的基于马传染性贫血病毒的慢病毒基因治疗载体(例如，参见，宾利(Binley)等人，人类基因治疗23:980-991(2012年9月))并且此载体可以被修改用于本发明的CRISPR-Cas系统。

在另一个实施例中，自灭活慢病毒载体可以用于和/或适于本发明的CRISPR-Cas系统，该自灭活慢病毒载体具有靶向由HIV tat/rev共享的共有外显子的siRNA、核仁定位TAR诱饵、和抗CCR5特异性锤头状核酶(例如，参见，迪吉斯托(DiGiusto)等人(2010)科学转化医学(Sci Transl Med)2:36ra43)。可以收集最少2.5×10⁶个CD34+细胞/每千克患者体重并且以2×10⁶个细胞/ml的密度在X-VIVO 15培养基 (龙沙公司(Lonza))中预刺激16至20小时，该培养基含有2μmol/L-谷氨酰胺、干细胞因子(100ng/ml)、 Flt-3配体(Flt-3L)(100ng/ml)和促血小板生成素(10ng/ml)(CellGenix公司)。可以用慢病毒以感染复数5在75-cm2的包被有纤连蛋白(25mg/cm2)(重组人纤维连接片断(RetroNectin)，宝生物工程株式会社 (Takara Bio Inc.))的组织培养瓶中转导预刺激的细胞16至24小时。

慢病毒载体已披露于帕金森病的治疗中，例如参见美国专利公开号20120295960以及美国专利号7303910和7351585。慢病毒载体还已披露于眼部疾病的治疗中，例如参见美国专利公开号20060281180、 20090007284、US 20110117189；US 20090017543；US20070054961、US 20100317109。还已披露了将慢病毒载体递送至脑，例如参见美国专利公开号20110293571；US 20110293571、US 20040013648、US 20070025970、US 20090111106和美国专利号US 7259015。

RNA递送

RNA递送：该CRISPR酶，例如Cpf1，和/或任一本发明的RNA，例如指导RNA，也可以RNA 的形式递送。可以使用体外转录产生Cpf1 mRNA。例如，可以使用含有下列元件的PCR盒来合成Cpf1 mRNA：来自β球蛋白-polyA尾(一串120个或更多个的腺嘌呤)的T7_启动子-科扎克(kozak)序列(GCCACC) -Cpf1-3′UTR。该盒可以用于经由T7聚合酶的转录。也可以使用体外转录从含有T7_启动子-GG-指导RNA 序列的盒来转录指导RNA。

为了增强表达并且降低可能的毒性，可以例如使用假-U或5-甲基-C将该CRISPR酶编码序列和 /或指导RNA修饰为包含一种或多种修饰核苷酸。

目前，mRNA递送方法是特别有希望用于肝脏递送。

关于RNA递送的许多临床工作已集中于RNAi或反义子上，但是这些系统可以适于递送用于实施本发明的RNA。因此应该相应地理解下文关于RNAi等的参考。

粒子递送系统和/或配制品：

已知若干种类型的粒子递送系统和/或配制品可用于不同范围的生物医学应用中。总的来说，粒子被限定为关于其转运和特性以整体单位表现的小物体。根据直径将粒子进一步分类。粗粒子覆盖介于 2,500与10,000纳米之间的范围。细粒子的大小介于100与2,500纳米之间。超细粒子或纳米粒子的大小大体上介于1与100纳米之间。100-nm限制的基准是在于区分粒子与本体材料的新特性典型地出现在100nm以下的临界长度尺度下的事实。

如在此所用，粒子递送系统/配制品被限定为包含根据本发明的粒子的任何生物递送系统/配制品。根据本发明的粒子是具有小于100微米(μm)的最大尺寸(例如，直径)的任一实体。在一些实施例中，本发明粒子具有小于10μm的最大尺寸。在一些实施例中，本发明粒子具有小于2000纳米(nm)的最大尺寸。在一些实施例中，本发明粒子具有小于1000纳米(nm)的最大尺寸。在一些实施例中，本发明粒子具有小于900nm、800nm、700nm、600nm、500nm、400nm、300nm、200nm或100nm的最大尺寸。典型地，本发明粒子具有500nm或更小的最大尺寸(例如，直径)。在一些实施例中，本发明粒子具有250 nm或更小的最大尺寸(例如，直径)。在一些实施例中，本发明粒子具有200nm或更小的最大尺寸(例如，直径)。在一些实施例中，本发明粒子具有150nm或更小的最大尺寸(例如，直径)。在一些实施例中，本发明粒子具有100nm或更小的最大尺寸(例如，直径)。例如具有50nm或更小的最大尺寸的较小粒子使用在本发明的一些实施例中。在一些实施例中，本发明粒子具有介于25nm与200nm之间的范围内的最大尺寸。

使用多种不同的技术进行粒子表征(包括例如表征形貌、尺寸等)。常见的技术是电子显微术 (TEM、SEM)、原子力显微术(AFM)、动态光散射(DLS)、X-射线光电子光谱法(XPS)、粉末X-射线衍射(XRD)、傅里叶变换红外光谱(FTIR)、基质辅助的激光解吸/电离-飞行时间质谱(MALDI-TOF)、紫外可见光谱、双偏振干涉法和核磁共振(NMR)。可以对于天然粒子(即加载前)或在加载货物(在此货物是指例如CRISPR-Cas系统的一种或多种组分，例如CRISPR酶或mRNA或指导RNA或它们的任何组合，并且可以包括附加载体和/或赋形剂)之后进行表征(尺寸测量)以为本发明的任何体外、离体和/或体内应用的递送提供具有最佳尺寸的粒子。在某些优选实施例中，粒子尺寸(例如直径)表征是基于使用动态光散射(DLS)的测量。关于粒子、其制备和使用方法以及其测量参考美国专利号8,709,843；美国专利号 6,007,845；美国专利号5,855,913；美国专利号5,985,309；美国专利号5,543,158；以及詹姆斯·E.·达尔曼(James E.Dahlman)和卡曼·巴恩斯(Carmen Barnes)等人自然纳米科技(Nature Nanotechnology)(2014)的出版物，2014年5月11日在线公开，doi:10.1038/nnano.2014.84。

本发明范围内的粒子递送系统可以任何形式提供，包括但不限于固体、半固体、乳液或胶体粒子。这样，在此所述的任一递送系统，包括但不限于例如基于脂质的系统、脂质体、胶束、微泡、外来体或基因枪可以被提供作为本发明范围内的粒子递送系统。

粒子

应了解的是，在适当情况下，在此关于粒子或纳米粒子的参考可以是可互换的。可以使用粒子或脂质包膜同时递送CRISPR酶mRNA和指导RNA；例如，本发明的CRISPR酶和RNA，例如作为复合物可以经由如达尔曼等人、WO 2015089419 A2和在此引用的文献中的粒子诸如7C1递送(例如参见，詹姆斯·E.·达尔曼和卡曼·巴恩斯等人自然纳米科技(2014)2014年5月11日在线公开， doi:10.1038/nnano.2014.84)，例如递送粒子包含脂质或类脂质(lipidoid)和亲水性聚合物，例如阳离子脂质和亲水性聚合物，例如其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四酰基 -sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包括乙二醇或聚乙二醇(PEG)；并且/或者其中粒子进一步包含胆固醇(例如来自配方1＝DOTAP 100、DMPC 0、PEG 0、胆固醇0；配方编号2＝DOTAP 90、DMPC 0、PEG 10、胆固醇0；配方编号3＝DOTAP 90、DMPC 0、PEG 5、胆固醇5的粒子)，其中粒子使用有效、多步方法形成，其中首先将效应蛋白和RNA例如在室温下例如以1:1摩尔比于例如无菌无核酸酶的1X PBS中混合在一起；并且单独地，将适用于配方的DOTAP、DMPC、PEG和胆固醇溶解在醇，例如100％乙醇中；并且将两种溶液混合在一起以形成含有复合物的粒子)。

可以使用粒子或脂质包膜同时递送核酸靶向效应蛋白(诸如型V蛋白诸如Cpf1)mRNA和指导 RNA。适合粒子的实例包括但不限于在US 9,301,923中描述的那些。

例如，苏·X、弗里克·J(Fricke J)，卡瓦纳·DG(Kavanagh DG)，欧文·DJ(Irvine DJ)(“使用脂质包膜的pH响应性聚合物纳米粒子的体外和体内mRNA递送(Invitro and in vivo mRNA delivery using lipid-enveloped pH-responsive polymernanoparticles)”分子药剂学(Mol Pharm.)2011年6月6；8(3):774-87.doi: 10.1021/mp100390w，电子版2011年4月1日)描述了生物可降解的核-壳结构化的纳米粒子，其具有由磷脂双层壳包膜的聚(β-氨基酯)(PBAE)核。这些被开发为用于体内mRNA递送。该pH响应性PBAE组分被选择为促进内体破坏，而该脂质表面层被选择为将聚阳离子核的毒性降低到最低限度。因此，这些对于递送本发明的RNA是优选的。

在一个实施例中，考虑了基于自组装生物粘附聚合物的粒子/纳米粒子，其可以适用于肽的经口递送、肽的静脉内递送以及肽的鼻递送，均递送至脑。其他实施例，还考虑了诸如疏水性药物的经口吸收和眼部递送。分子包膜技术涉及被保护并递送至疾病位点的工程化聚合物包膜(例如参见，马萨，M. (Mazza,M.)等人ACS纳米(ACSNano)，2013.7(2):1016-1026；秀，A.(Siew,A.)等人分子药剂学，2012. 9(1):14-28；拉拉特萨，A.(Lalatsa,A.)等人控释杂志(J Contr Rel)，2012.161(2):523-36；拉拉特萨，A. 等人，分子药剂学，2012.9(6):1665-80；拉拉特萨，A.等人分子药剂学，2012.9(6):1764-74；加勒特，N.L.(Garrett,N.L.)等人生物光电杂志(J Biophotonics)，2012.5(5-6):458-68；加勒特，N.L.等人拉曼光谱杂志(J Raman Spect)，2012.43(5):681-688；艾哈迈德，S.(Ahmad,S.)等人皇家学会界面杂志(J Royal Soc Interface)2010.7:S423-33；乌切克布，I.F.(Uchegbu,I.F.)药物递送专家评论(Expert Opin Drug Deliv)， 2006.3(5):629-40；曲，X.(Qu,X.)等人生物大分子，2006.7(12):3452-9和乌切克布·I.F.等人国际药学杂志 (Int JPharm)，2001.224:185-199)。考虑了约5mg/kg的剂量，呈单剂量或多剂量形式，这取决于靶组织。

在一个实施例中，可以使用由丹·安德森实验室(Dan Anderson’s lab)在MIT开发的可以将RNA 递送至癌细胞以便使肿瘤生长停止的粒子/纳米粒子并且/或者使这些粒子/纳米粒子适于本发明的CRISPR Cas系统。具体地说，安德森实验室开发了用于新生物材料和纳米配制品的合成、纯化、表征和配制的全自动化组合系统。例如参见，阿拉比(Alabi)等人，美国国家科学院院刊，2013年8月6号；110(32):12881-6；张等人，先进材料(Adv Mater.)，2013年9月6日；25(33):4641-5；蒋(Jiang)等人，纳米快报(Nano Lett.)，2013年3月13日；13(3):1059-64；卡拉吉安尼斯(Karagiannis)等人，ACS纳米，2012年10月23日；6(10):8484-7；怀特海德(Whitehead)等人，ACS纳米，2012年8月28日；6(8):6922-9以及李等人，自然纳米技术，2012 年6月3日；7(6):389-93。

美国专利申请20110293703涉及类脂质化合物，这些化合物在多核苷酸的给药中也是特别有用的，其可以适用于递送本发明的CRISPR Cas系统。在一个方面中，氨基醇类脂质化合物与有待递送至细胞或受试者的药剂结合而形成微粒子、纳米粒子、脂质体、或胶束。有待通过粒子、脂质体、或胶束递送的药剂可以呈气体、液体、或固体的形式，并且该药剂可以是一种多核苷酸、蛋白质、肽、或小分子。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等结合而形成这些粒子。然后这些粒子可以任选地与药物赋形剂结合而形成药物组合物。

美国专利公开号20110293703也提供了制备氨基醇类脂质化合物的方法。使胺的一种或多种等效物与环氧化物封端化合物的一种或多种等效物在适当条件下反应而形成本发明的氨基醇类脂质化合物。在某些实施例中，胺的所有氨基基团与环氧化物封端化合物充分反应而形成叔胺。在其他实施例中，胺的所有氨基基团未与环氧化物封端化合物完全反应形成叔胺，由此生成在氨基醇类脂质化合物中的伯胺或仲胺。这些伯胺或仲胺照原样留下或者可以与另一种亲电体诸如一种不同的环氧化物封端化合物反应。正如本领域技术人员应了解的，胺与未过量的环氧化物封端化合物反应将产生多种不同的具有不同数目的尾部的氨基醇类脂质化合物。某些胺类可以被两个环氧化物衍生的化合物尾部完全功能化，而其他分子不会被环氧化物衍生的化合物尾部完全功能化。例如，二胺或多胺可以包括离开该分子的不同氨基部分的一个、二个、三个、或四个环氧化物衍生的化合物尾部，从而产生伯胺、仲胺和叔胺。在某些实施例中，并不是所有氨基基团都被完全功能化。在某些实施例中，使用了相同类型的环氧化物封端化合物中的两种。在其他实施例中，使用了两种或更多种不同的环氧化物封端化合物。氨基醇类脂质化合物的合成是用或不用溶剂进行的，并且该合成可以在从30℃-100℃的范围内，优选在大约50℃-90℃的较高温度下进行。任选地，可以将制备的氨基醇类脂质化合物纯化。例如，可以纯化氨基醇类脂质化合物的混合物以产生具有特定数目的环氧化物衍生的化合物尾部的氨基醇类脂质化合物。或者，该混合物可以被纯化而产生特定的立体异构体或区域异构体。也可以使用卤代烷(例如，碘甲烷)或其他烷化剂将这些氨基醇类脂质化合物烷化，并且/或者它们可以被酰化。

美国专利公开号20110293703还提供了通过发明方法制备的氨基醇类脂质化合物的文库。可以使用涉及液体处理器、机器人、微量滴定板、计算机等的高通量技术制备和/或筛选这些氨基醇类脂质化合物。在某些实施例中，筛选了这些氨基醇类脂质化合物的将多核苷酸或其他药剂(例如，蛋白质、肽、小分子)转染到细胞中的能力。

美国专利公开号20130302401涉及已经使用组合聚合制备的一类聚(β-氨基醇)(PBAA)。这些发明的PBAA可以在生物技术和生物医学应用中用作涂层(诸如用于医疗装置或植入物的膜或多层膜的涂层)、添加剂、材料、赋形剂、生物防污剂(non-biofoulingagent)、微图案化剂、以及细胞封装剂。当用作表面涂层时，这些PBAA在体外和体内均引发不同水平的炎症，这取决于它们的化学结构。这类材料的巨大化学多样性允许我们鉴定出在体外抑制巨噬细胞激活的聚合物涂层。此外，在羧化聚苯乙烯微粒的皮下移植之后，这些涂层减少了炎症细胞的募集，并且减轻了纤维化。这些聚合物可以用于形成用于细胞封装的聚合电解质复合物胶囊。本发明还可以具有许多其他的生物应用，诸如抗微生物涂层、DNA或siRNA 递送、以及干细胞组织工程。美国专利公开号20130302401的传授内容可以适用于本发明的CRISPR Cas系统。在一些实施例中，可以使用基于糖的粒子，例如如在此所述的GalNAc并且参考WO 2014118272(通过引用结合在此)以及耐尔，JK(Nair,JK)等人，2014，美国化学学会杂志(Journal of the American Chemical Society)136(49),16958-16961)以及在此的传授内容，除非另外表明，否则特别涉及适用于所有粒子的递送。

在另一个实施例中，考虑了脂质纳米粒子(LNP)。抗转甲状腺素蛋白小干扰RNA已被封装在脂质纳米粒子中并且递送至人类(例如参见，科尔贺(Coelho)等人，新英格兰医学杂志(N Engl J Med) 2013；369:819-29)，并且此系统可以适于并应用于本发明的CRISPR Cas系统。考虑了静脉内给予约0.01至约1mg/kg体重的剂量。考虑了降低输注相关反应的风险的药物，诸如考虑到地塞米松、对乙酰氨基酚 (acetampinophen)、苯海拉明或西替利嗪、以及雷尼替丁。还考虑了约0.3mg/kg的多剂量，每4周一次，五个剂量。

LNP已经显示在将siRNA递送至肝脏中是高度有效的(例如参见塔韦内罗(Tabernero)等人，癌症发现(Cancer Discovery)，2013年4月，第3卷，第4期，第363-470页)，并且因此被考虑用于将编码CRISPR Cas的RNA递送至肝脏。可以考虑6mg/kg的LNP的约四个剂量的用量，每两周一次。塔韦内罗等人证明，在以0.7mg/kg给予LNP前2个周期之后，观察到肿瘤消退，并且在6个周期结束之后，患者已经实现了部分应答，具有淋巴结转移完全消退以及肝脏肿瘤的显著萎缩。在此患者中给予40个剂量之后获得完全应答，在接受经过26个月的剂量之后其保持缓解和完全治疗。具有RCC和在用VEGF途径抑制剂进行的在先治疗之后进展的包括肾脏、肺以及淋巴结的肝外位点疾病的两位患者在所有位点的疾病都保持稳定大约8至12 个月，并且一位具有PNET和肝转移的患者继续在18个月(36个剂量)的延伸研究中保持疾病稳定。

然而，必须将LNP的电荷考虑在内。当阳离子脂质与带负电的脂质结合时，诱导促进细胞内递送的非双层结构。因为带电荷的LNP在静脉内注射之后迅速从循环中清除，所以开发了具有低于7的pKa 值的可电离阳离子脂质(例如参见，罗辛(Rosin)等人，分子治疗(Molecular Therapy)，第19卷，第12 期，第1286-2200页，2011年12月)。带负电荷的聚合物诸如RNA可以低pH值(例如，pH 4)加载到LNP中，在此pH时可电离脂质展示出正电荷。然而，在生理学pH值下，LNP表现出与更长的循环时间相容的低表面电荷。已经关注了四种可电离阳离子脂质，即1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基-酮基-N,N-二甲基-3-氨基丙烷(DLinKDMA)、以及1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)。已经表明，含有这些脂质的LNP siRNA系统在体内肝细胞中表现出显著不同的基因沉默特性，具有根据采用因子VII基因沉默模型的 DLinKC2-DMA>DLinKDMA>DLinDMA>>DLinDAP系列而变化的潜能(例如参见，罗辛等人，分子治疗，第19卷，第12期，第1286-2200页，2011年12月)。可以考虑1μg/ml LNP或LNP中或与LNP相关联的 CRISPR-Cas RNA的剂量，尤其是对于含有DLinKC2-DMA的配制品而言。

LNP的制备和CRISPR Cas封装可以使用和/或改编自罗辛等人，分子治疗，第19卷，第12期，第1286-2200页，2011年12月)。阳离子脂质1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮基-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、 1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2″-(甲氧基聚乙二醇2000)琥珀酰]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)、以及R-3-[(ω-甲氧基-聚(乙二醇)2000)氨甲酰]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)可以由泰米拉制药公司(Tekmira Pharmaceuticals)(温哥华(Vancouver)，加拿大(Canada))提供或合成。胆固醇可以购自西格玛公司(Sigma)(圣路易斯(St Louis)，密苏里州 (MO))。特异性CRISPR Cas RNA可以封装在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA 的LNP中(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG，摩尔比为40:10:40:10)。在需要时，可以掺入0.2％SP-DiOC18(英杰公司(Invitrogen)，伯灵顿(Burlington)，加拿大)来评估细胞摄取、细胞内递送和生物分布。可以通过以下方式来进行封装：将由阳离子脂质:DSPC:胆固醇:PEG-c-DOMG(40: 10:40:10摩尔比)组成的脂质混合物溶解在乙醇中，直至最终脂质浓度为10mmol/l。可以将脂质的此乙醇溶液逐滴添加到pH 4.0的50mmol/l柠檬酸盐中以形成多层囊泡，从而产生30％(体积/体积)乙醇的终浓度。在使用挤出机(北方脂质公司(Northern Lipids)，温哥华，加拿大)通过两个重叠的80nm Nuclepore 聚碳酸酯过滤器挤出多层囊泡之后，可以形成大的单层囊泡。可以通过如下步骤实现封装：将溶解在含有 30％乙醇(体积/体积)的pH 4.0的50mmol/l柠檬酸盐中的2mg/ml的RNA逐滴添加到挤出的预成形的大单层囊泡中，并且在31℃下孵育30分钟，伴随持续混合直至最终的RNA/脂质重量比为0.06/1(重量/重量)。通过使用Spectra/Por 2再生纤维素透析膜在pH 7.4的磷酸盐缓冲盐水(PBS)中透析16小时进行乙醇的去除以及配制缓冲液的中和。可以使用NICOMP 370型粒径分析仪、囊泡/强度模式以及高斯拟合通过动态光散射测定纳米粒子粒径分布(Nicomp粒径分析仪，圣巴巴拉市(Santa Barbara)，加利福尼亚州)。对于所有三个LNP系统的粒径可以是～70nm的直径。可以通过使用VivaPureD MiniH柱(赛多利斯斯泰迪生物技术公司 (Sartorius StedimBiotech))从分析前后收集的样品中去除游离RNA来确定RNA封装效率。可以从洗脱的纳米粒子中提取封装的RNA并且将其在260nm下量化。通过使用来自美国瓦克化学公司(WakoChemicals USA)(里士满(Richmond)，弗吉尼亚州(VA))的胆固醇E酶测定法测量囊泡中的胆固醇含量来确定RNA 与脂质的比率。与在此的LNP和PEG脂质的论述结合，PEG化的脂质体或LNP同样适合于CRISPR-Cas系统或其组分的递送。

大LNP的制备可以使用和/或改编自罗辛等人，分子治疗，第19卷，第12期，第1286-2200页， 2011年12月。可以在含有50:10:38.5摩尔比的DLinKC2-DMA、DSPC和胆固醇的乙醇中制备脂质预混物溶液(20.4mg/ml总脂质浓度)。可以0.75:1的摩尔比(乙酸钠:DLinKC2-DMA)将乙酸钠添加到脂质预混物中。随后可以通过将该混合物与1.85倍体积的柠檬酸盐缓冲液(10mmol/l，pH 3.0)在剧烈搅拌下合并来使脂质水合，从而使得自发脂质体在含有35％乙醇的水性缓冲液中形成。可以在37℃下孵育该脂质体溶液以允许粒径的时间依赖性增加。可以通过动态光散射(纳米粒径电位分析仪(Zetasizer Nano ZS)，马尔文仪器公司(Malvern Instruments)，乌斯特郡(Worcestershire)，英国(UK))在孵育过程中的不同时间处去除等分试样来研究脂质体尺寸的变化。一旦实现所希望的粒径，可以将水性PEG脂质溶液(储备溶液＝在35％(体积/体积)乙醇中的10mg/ml PEG-DMG)添加到该脂质体混合物中，以产生3.5％总脂质的最终 PEG摩尔浓度。在添加PEG-脂质之后，这些脂质体应该其大小，有效抑制进一步生长。然后可以大约1:10 (重量:重量)的RNA与总脂质比率将RNA添加到空脂质体中，然后在37℃下孵育30分钟以形成加载的 LNP。随后可以将该混合物在PBS中透析过夜，并且用0.45-μm的注射过滤器(syringe filter)进行过滤。

球形核酸(SNATM)构建体和其他纳米粒子(尤其是金纳米粒子)也被考虑作为将CRISPR-Cas 系统递送至预期靶标的手段。重要数据表明，基于核酸功能化的金纳米粒子的AuraSense治疗性球形核酸 (SNA^TM)构建体是可用的。

可以与在此的教授内容结合使用的文献包括：卡特勒(Cutler)等人，美国化学学会杂志2011 133:9254-9257，郝(Hao)等人，Small.2011 7:3158-3162，张等人，ACS纳米2011 5:6962-6970，卡特勒等人，美国化学学会杂志2012 134:1376-1391，杨(Young)等人，纳米快报2012 12:3867-71，郑(Zheng) 等人，美国国家科学院院刊2012 109:11975-80，米尔金(Mirkin)，纳米医学(Nanomedicine)2012 7:635-638 张等人美国化学学会杂志2012 134:16488-1691，因特劳布(Weintraub)，自然2013 495:S14-S16，崔(Choi) 等人，美国国家科学院院刊2013 110(19):7625-7630，詹森(Jensen)等人，科学转化医学5,209ra152(2013) 以及米尔金等人，Small,10:186-192。

具有RNA的自组装纳米粒子可以用PEG化的聚乙烯亚胺(PEI)构建，其中Arg-Gly-Asp(RGD) 肽配体附接在聚乙二醇(PEG)的远端。此系统已作为例如靶向表达整合素的肿瘤新血管系统的手段和作为递送抑制血管内皮生长因子受体2(VEGF R2)表达以及由此实现肿瘤血管新生的siRNA的手段(例如参见，施弗勒斯(Schiffelers)等人，核酸研究，2004，第32卷，第19期)。纳米丛(Nanoplexes)可以通过以下方式制备：将等体积的阳离子聚合物水性溶液和核酸水性溶液混合，以在2至6范围内产生可电离氮(聚合物)相比磷酸盐(核酸)的净摩尔过量。在阳离子聚合物与核酸之间的静电相互作用使得聚复合物(polyplexes)形成，该聚复合物具有约100nm的平均粒径分布，因此在此称之为纳米丛。设想了CRISPR Cas 的约100至200mg的剂量，用于施弗勒斯等人的自组装纳米粒子中的递送。

巴特利特(Bartlett)等人的纳米丛(美国国家科学院院刊，2007年9月25日，第104卷，第39 期)也可以适用于本发明。巴特利特等人的纳米丛通过以下方式制备：将等体积的阳离子聚合物水性溶液和核酸水性溶液混合，以在2至6范围内产生可电离氮(聚合物)相比磷酸盐(核酸)的净摩尔过量。在阳离子聚合物与核酸之间的静电相互作用使得聚复合物形成，该聚复合物具有约100nm的平均粒径分布，因此在此称为纳米丛。巴特利特等人的DOTA-siRNA合成如下：1,4,7,10-四氮杂环十二烷-1,4,7,10-四乙酸单(N- 羟基琥珀酰亚胺酯)(DOTA-NHS酯)订购自Macrocyclics公司(达拉斯(Dallas)，德克萨斯州(TX))。将于碳酸盐缓冲液(pH 9)中的具有100倍摩尔过量的DOTA-NHS-酯的胺修饰的RNA有义链添加到微量离心管中。通过在室温搅拌4h使这些内容物反应。将该DOTA-RNA有义轭合物用乙醇沉淀，重新悬浮在水中，并且退火到未修饰的反义链上以产生DOTA-siRNA。所有液体用Chelex-100(伯乐公司(Bio-rad)，赫库斯 (Hercules)，加利福尼亚州)预处理，以便去除痕量金属污染物。可以通过使用含有环糊精的聚阳离子形成Tf靶向和非靶向的siRNA纳米粒子。典型地，以3(+/-)的进料比和0.5克/升的siRNA浓度在水中形成纳米粒子。用Tf(金刚烷-PEG-Tf)修饰在靶向纳米粒子表面上的百分之一的金刚烷-PEG分子。将纳米粒子悬浮在用于注射的5％(重量/体积)葡萄糖载体溶液中。

戴维斯(Davis)等人(自然，第464卷，2010年4月15日)进行了使用靶向的纳米粒子递送系统的RNA临床试验(临床试验登记号NCT00689065)。在21天周期的第1、3、8和10天通过30min的静脉内输注对患有标准护理治疗难治的实体癌的患者给予靶向的纳米粒子剂量。这些纳米粒子由合成递送系统组成，该系统含有：(1)线性的、基于环糊精的聚合物(CDP)，(2)展示在纳米粒子外部上的用于接合癌细胞表面上的TF受体(TFR)的人转铁蛋白(TF)靶向配体，(3)亲水性聚合物(用于促进纳米粒子在生物流体中的稳定性的聚乙二醇(PEG))，以及(4)被设计为降低RRM2(先前在临床中使用的序列指代为 siR2B+5)表达的siRNA。长久以来已知TFR在恶性细胞中被下调，并且RRM2是一种确立的抗癌靶标。已经显示这些纳米粒子(临床版本指代为CALAA-01)在非人类灵长类动物中的多剂量研究中耐受性良好。虽然已经通过脂质体递送向患有慢性粒细胞白血病的单一患者给予了siRNA，但是戴维斯等人的临床试验是初期人类试验，该试验用靶向递送系统全身性地递送siRNA并且治疗患有实体癌的患者。为了确定该靶向递送系统是否能够将功能性siRNA有效递送至人类肿瘤，戴维斯等人研究了来自三个不同的剂量组群的三位患者的活组织检查；患者A、B和C，他们均患有转移性黑素瘤并且分别接受了18、24和30mg m^-2siRNA 的CALAA-01剂量。还可以针对本发明的CRISPR Cas系统考虑类似的剂量。用含有线性的基于环糊精的聚合物(CDP)、展示在纳米粒子外部上的用于接合癌细胞表面上的TF受体(TFR)的人转铁蛋白(TF)靶向配体和/或亲水聚合物(例如，用于促进纳米粒子在生物流体中的稳定性的聚乙二醇(PEG))的纳米粒子，可以实现本发明的递送。

就本发明而言，优选使用纳米粒子或脂质包膜递送CRISPR复合物的一种或多种组分，例如CRISPR酶或mRNA或指导RNA。其他递送系统或载体可以与本发明纳米粒子方面结合使用。

总的来说，“纳米粒子”是指具有小于1000nm直径的任何粒子。在某些优选实施例中，本发明纳米粒子具有500nm或更小的最大尺寸(例如，直径)。在其他优选实施例中，本发明纳米粒子具有介于25nm与200nm之间的范围内的最大尺寸。在其他优选实施例中，本发明纳米粒子具有100nm或更小的最大尺寸(例如，直径)。在其他优选实施例中，本发明纳米粒子具有在35nm与60nm之间的范围内的最大尺寸。

本发明中涵盖的纳米粒子(Nanoarticles)可以提供为不同的形式，例如为固体纳米粒子(例如金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米粒子的悬浮液、或它们的组合。可以制备金属、绝缘体和半导体纳米粒子，以及杂合结构(例如核-壳纳米粒子)。如果由半导体材料制备的纳米粒子足够小(典型地亚-10nm)以至于出现电子能级的量子化，则这些纳米粒子还可以是标记量子点。此类纳米级粒子作为药物载体或成像剂用于生物医学应用中并且可以适于本发明中的类似目的。

半固体和软纳米粒子以被制造出并且处于本发明的范围之内。半固体性质的原型纳米粒子是脂质体。目前，不同类型的脂质体纳米粒子在临床上用作用于抗癌药物和疫苗的递送系统。具有一半亲水性和另一半疏水性的纳米粒子被称为双面(Janus)粒子并且用于稳定化乳液是特别有效的。它们可以在水 /油界面处自组装并且充当固体表面活性剂。

美国专利号8,709,843(通过引用结合在此)提供了用于将含有治疗剂的粒子靶向递送至组织、细胞和细胞内区室的药物递送系统。本发明提供了包含轭合至表面活性剂、亲水性聚合物或脂质的聚合物的靶向粒子。

美国专利号6,007,845(通过引用结合在此)提供了下述粒子：这些粒子具有通过将多官能化合物与一种或多种疏水性聚合物和一种或多种亲水性聚合物共价地连接而形成的多嵌段共聚合物的核，并且含有生物活性材料。

美国专利号5,855,913(通过引用结合在此)提供了下述颗粒组合物：该组合物含有具有小于 0.4g/cm3振实密度以及介于5μm与30μm之间的平均直径的空气动力学光粒子，在其表面上掺入了表面活性剂，以用于向肺部系统的药物递送。

美国专利号5,985,309(通过引用结合在此)提供了下述粒子：这些粒子掺入了表面活性剂和/ 或带正电荷或带负电荷的治疗剂或诊断剂和带相反电荷的分子的亲水性或疏水性复合物，以用于向肺部系统的递送。

美国专利号5,543,158(通过引用结合在此)提供了生物可降解可注射粒子，这些粒子具有生物可降解实心核，该核在其表面上含有生物活性材料和聚(烷撑二醇)部分。

WO2012135025(也以US20120251560公开)(通过引用结合在此)描述了轭合的聚乙烯亚胺 (PEI)聚合物和轭合的氮杂大环(统称为“一个轭合微质体(lipomer)”或“多个微质体(lipomers)”)。在某些实施例中，可以设想的是，此类轭合微质体可以用于CRISPR-Cas系统的情况中以在体外、离体和在体内实现基因组干扰，从而修饰基因表达，包括蛋白质表达的调控。

在一个实施例中，纳米粒子可以是环氧化物修饰的脂质-聚合物，有利地是7C1(例如参见，詹姆斯·E.·达尔曼和卡曼·巴恩斯等人，自然纳米科技(2014)2014年5月11日在线公开， doi:10.1038/nnano.2014.84)。C71是通过使C15环氧化物封端脂质与PEI600以14:1摩尔比反应合成的，并且与C14PEG2000一起进行配制以产生纳米粒子(直径介于35与60nm之间)，这些纳米粒子在PBS溶液中稳定至少40天。

环氧化物修饰的脂质-聚合物可以用于将本发明的CRISPR-Cas系统递送至肺部、心血管或肾细胞，然而，本领域技术人员可以将该系统适配成递送其他靶器官。设想了在从约0.05至约0.6mg/kg范围内的剂量。还设想了在数天或数周内的剂量，总剂量为约2mg/kg。

外来体

外来体是转运RNA和蛋白质的内源性纳米囊泡，并且可以将RNA递送至脑和其他靶器官。为了降低免疫原性，阿尔瓦雷斯-尔维蒂(Alvarez-Erviti)等人(2011，自然生物技术29:341)使用了用于外来体产生的自我衍生的树突细胞。通过将树突细胞工程化为表达Lamp2b(一种外来体膜蛋白，融合至神经元特异性RVG肽)实现对脑的靶向。通过电穿孔使纯化的外来体加载外源性RNA。静脉内注射的RVG靶向的外来体将GAPDH siRNA特异性地递送至脑中的神经元、小胶质细胞、少突神经胶质细胞，导致特异性的基因敲低。预暴露于RVG外来体未减弱敲低，并且在其他组织中未观察到非特异性摄取。通过BACE1 的强的mRNA(60％)和蛋白质(62％)敲低证明了外来体介导的siRNA递送的治疗潜能，BACE1是一种阿尔茨海默病中的治疗靶标。

为了获得免疫惰性的外来体库，阿尔瓦雷斯-尔维蒂等人收获了来自具有同源主要组织相容性复合体(MHC)单倍型的近交C57BL/6小鼠的骨髓。由于未成熟树突细胞产生大量的缺乏T细胞激活剂诸如MHC-II和CD86的外来体，阿尔瓦雷斯-尔维蒂等人选择了具有粒细胞/巨噬细胞集落刺激因子(GM-CSF) 的树突细胞，持续7天。次日，使用良好建立的超速离心方案从培养上清液中纯化外来体。产生的外来体在物理上是均质的，具有直径为80nm的粒径分布峰，如通过纳米粒子跟踪分析(NTA)和电子显微镜检查所测定。阿尔瓦雷斯-尔维蒂等人获得了6-12μg的外来体(基于蛋白质浓度测量的)/10⁶个细胞。

其次，阿尔瓦雷斯-尔维蒂等人研究了使用适于纳米级应用的电穿孔方案给修饰的外来体加载外源性货物的可能性。由于电穿孔对于纳米级的膜粒子尚未良好表征，使用非特异性Cy5标记的RNA用于电穿孔方案的经验优化。在外来体超速离心和溶解之后测定了封装的RNA量。在400V和125μF下的电穿孔产生RNA的最大保留并且用于所有的后续实验。

阿尔瓦雷斯-尔维蒂等人向正常C57BL/6小鼠给予被封装在150μg的RVG外来体中的150μg的每种BACE1 siRNA并且将敲低效率与四个对照进行比较：未处理的小鼠、仅用RVG外来体注射的小鼠、用与一种体内阳离子脂质体试剂复合的BACE1 siRNA注射的小鼠、以及用与RVG-9R复合的BACE1 siRNA注射的小鼠，该RVG肽与静电结合siRNA的9个D-精氨酸轭合。在给药之后3天，分析皮层组织样品，并且在 siRNA-RVG-9R处理的和siRNARVG外来体处理的小鼠中均观察到显著的蛋白质敲低(45％，P<0.05，相对于62％，P<0.01)，这是由于BACE1 mRNA水平的显著降低(分别为66％[+或-]15％，P<0.001和61％[+ 或-]13％，P<0.01)。此外，申请人证明了在RVG-外来体处理的动物中总[β]-淀粉样蛋白1-42水平上的显著降低(55％，P<0.05)，该β淀粉样蛋白为一种在阿尔茨海默病理学中的淀粉样白斑的主要成分。所观察到的降低大于在心室内注射BACE1抑制剂之后的正常小鼠中展示的β淀粉样蛋白1-40降低。阿尔瓦雷斯-尔维蒂等人在BACE1切割产物上进行了5′-cDNA末端快速扩增(RACE)，其提供了经由siRNA的RNAi-介导的敲低的证据。

最后，阿尔瓦雷斯-尔维蒂等人通过评估IL-6、IP-10、TNFα和IFN-α血清浓度研究了RNA-RVG 外来体是否诱导了体内免疫应答。在外来体处理之后，类似于与强有力地刺激IL-6分泌的siRNA-RVG-9R 相反的siRNA转染试剂处理，登记了在所有细胞因子上的非显著性变化，证实了该外来体处理的免疫惰性属性(profile)。假定外来体仅封装20％的siRNA，用RVG-外来体的递送比RVG-9R递送显得更有效，因为用少五倍的siRNA实现了相当的mRNA敲低和更好的蛋白质敲低，而没有相应水平的免疫刺激。这个实验证明了RVG-外来体技术的治疗潜力，其潜在地适合于与神经变性疾病相关的基因的长期沉默。阿尔瓦雷斯-尔维蒂等人的外来体递送系统可以适用于将本发明的CRISPR-Cas系统递送至治疗靶标，尤其是神经变性疾病。对于本发明可以考虑封装在约100至1000mg的RVG外来体中的约100至1000mg的CRISPR Cas的剂量。

艾尔·安达卢西(El-Andaloussi)等人(自然实验手册(Nature Protocols)7,2112-2126(2012)) 披露了可以如何利用来源于培养的细胞的外来体用于体外和体内递送RNA。这个方案首先描述了通过转染一种包含与肽配体融合的外来体蛋白的表达载体产生靶向的外来体。接着，艾尔·安达卢西等人解释了如何纯化和表征来自转染的细胞上清液的外来体。接着，艾尔·安达卢西等人详述了将RNA加载到外来体中的关键步骤。最后，艾尔·安达卢西等人概述了如何使用外来体有效地在体外递送RNA以及体内递送至小鼠脑中。还提供了预期结果的实例，其中外来体介导的RNA递送通过功能测定和成像来评价。整个方案进行～3周。根据本发明的递送或给药可以使用从自我衍生的树突细胞产生的外来体来进行。根据在此的教授内容，这可以应用在本发明的实践中。

在另一个实施例中，考虑了瓦尔格伦(Wahlgren)等人的血浆外来体(核酸研究，2012年，第40卷，第17期，e130)。外来体是由包括树突细胞(DC)、B细胞、T细胞、肥大细胞、上皮细胞和肿瘤细胞的许多细胞类型产生的纳米尺寸的囊泡(30-90nm大小)。这些囊泡通过晚期内体的向内出芽而形成，并且然后在与质膜融合后释放到细胞外环境。因为外来体天然地在细胞之间运送RNA，所以这种特性在基因治疗中可能有用，并且根据本披露可以应用在本发明的实践中。

来自血浆的外来体可以通过以下方式制备：以900g离心血沉棕黄层20min以便分离血浆，然后收获细胞上清液，以300g离心10min以便消除细胞，并且以16500g离心30min，然后通过0.22mm过滤器进行过滤。通过以120000g超速离心70min使外来体沉淀。根据在RNAi人类/小鼠启动(Starter)试剂盒 (凯杰公司(Quiagen)，希尔顿(Hilden)，德国)中的制造商说明进行siRNA到外来体中的化学转染。siRNA 以终浓度2mmol/ml添加到100ml PBS中。在添加HiPerFect转染试剂之后，将该混合物在室温下孵育10min。为了去除过量的胶束，使用醛/硫酸盐乳胶珠再分离外来体。可以类似于siRNA进行CRISPR Cas到外来体中的化学转染。外来体可以与从健康供体的外周血中分离的单核细胞和淋巴细胞共培养。因此，可以考虑的是，可以将含有CRISPR Cas的外来体引入到人类的单核细胞和淋巴细胞中并且以自体方式再引入到人类中。因此，可以使用血浆外来体进行根据本发明的递送或给药。

脂质体

可以用脂质体进行根据本发明的递送或给药。脂质体是球形囊泡结构，其由围绕内部水性区室的单层或多层脂质双层以及相对不可渗透的外部亲脂性磷脂双层构成。脂质体作为药物递送载体受到了相当的重视，因为它们是生物相容、无毒的，可以递送亲水性和亲脂性药物分子，保护它们的货物免于被血浆酶降解，并且转运它们的负荷跨过生物膜和血脑屏障(BBB)(对于评述，例如参见，斯普奇(Spuch) 和纳瓦罗(Navarro)，药物递送杂志(Journal of Drug Delivery)，第2011卷，文献标识码469679，第12页， 2011.doi:10.1155/2011/469679)。

可以由几种不同类型的脂质制造脂质体；然而，磷脂最常用来产生作为药物载体的脂质体。虽然当脂质膜与一种水性溶液混合时脂质体形成是自发的，但是也可以通过使用均质机、超声破碎器、或挤出设备通过以振荡的形式施加力使其加速(对于评述，例如参见，斯普奇和纳瓦罗，药物递送杂志，第 2011卷，文献标识码469679，第12页，2011.doi:10.1155/2011/469679)。

可以将几种其他的添加剂添加到脂质体中，以便修饰其结构和特性。例如，可以将胆固醇或鞘磷脂添加到脂质体混合物中，以便帮助稳定化脂质体结构并且防止脂质体内部货物的泄漏。此外，脂质体由氢化卵磷脂酰胆碱或卵磷脂酰胆碱、胆固醇和磷酸二鲸蜡脂制备，并且脂质体的平均囊泡尺寸被调整到约50nm和100nm。(对于评述，例如参见，斯普奇和纳瓦罗，药物递送杂志，第2011卷，文献标识码469679，第12页，2011.doi:10.1155/2011/469679)。

脂质体配制品可以是主要由天然磷脂和脂质诸如1,2-二硬脂酰-sn-甘油基-3-磷脂酰胆碱 (DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酰神经节苷酯构成。因为这种配制品仅由磷脂组成，所以脂质体配制品已经遇到了许多挑战，其中之一是在血浆中的不稳定性。已经做出战胜这些挑战的若干尝试，特别是在脂质膜的处理方面。这些尝试之一集中于胆固醇的处理。将胆固醇添加到常规配制品中减缓了封装的生物活性化合物到血浆中的迅速释放，或者添加1,2-二油酰基-sn-甘油基-3-磷酸乙醇胺(DOPE)增加稳定性(对于评述，例如参见，斯普奇和纳瓦罗，药物递送杂志，第2011卷，文献标识码469679，第12页，2011.doi:10.1155/2011/469679)。

在一个特别有利的实施例中，特洛伊木马(Trojan Horse)脂质体(也称为分子特洛伊木马) 是令人希望的并且方案可见于http://cshprotocols.cshlp.org/content/2010/4/pdb.prot5407.long。这些粒子允许转基因在血管内注射之后递送至整个脑。在不受限制的情况下，据信表面轭合有特异性抗体的中性脂质粒子允许经由胞吞作用跨过血脑屏障。申请人假定利用特洛伊木马脂质体将核酸酶的CRISPR家族经由血管内注射递送至脑，这将允许全脑转基因动物，而不需要胚胎操纵。对于脂质体中的体内给药，可以考虑约1-5 g的DNA或RNA。

在另一个实施例中，CRISPR Cas系统或其组分可以脂质体诸如稳定的核酸脂质粒子(SNALP) 来给予(例如，参见，莫里西等人，自然生物技术，第23卷，第8期，2005年8月)。考虑每日静脉内注射约1、3或5mg/kg/天的SNALP中的被靶向的特异性CRISPR Cas。日治疗可以经过约三天，并且然后每周治疗持续约五周。在另一个实施例中，还考虑了通过以约1或2.5mg/kg的剂量静脉内注射给予封装有特异性 CRISPR Cas的SNALP(例如参见，齐默尔曼(Zimmerman)等人，自然快报(Nature Letters)，第441卷， 2006年5月4日)。该SNALP配制品可以含有为2:40:10:48的摩尔百分比的脂质3-N-[(w甲氧基聚(乙二醇)2000)氨甲酰]-1,2-二肉豆蔻氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰-sn-甘油基-3-磷酸胆碱(DSPC)和胆固醇(例如参见，齐默尔曼等人，自然快报，第441卷，2006年5月4日)。

在另一个实施例中，已经证明稳定的核酸-脂质粒子(SNALP)将分子有效地递送至高度血管化的HepG2-衍生的肝脏肿瘤，但是不递送至血管化不良的HCT-116衍生的肝脏肿瘤(例如参见，李，基因治疗(2012)19,775-780)。可以通过以下方式制备SNALP脂质体：使用25:1的脂质/siRNA比率和48/40/10/2 的胆固醇/D-Lin-DMA/DSPC/PEG-C-DMA的摩尔比，用二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和siRNA配制D-Lin-DMA和PEG-C-DMA。生成的SNALP脂质体的大小为约80-100nm。

在又另一个实施例中，SNALP可以包含合成胆固醇(西格玛-奥德里奇公司(Sigma-Aldrich)，圣路易斯，密苏里州，美国)、二棕榈酰磷脂酰胆碱(阿凡提极地脂质公司(Avanti Polar Lipids)，阿拉巴斯特(Alabaster)，阿拉巴马州(AL)，美国)、3-N-[(w-甲氧基聚(乙二醇)2000)氨甲酰]-1,2-二肉豆蔻氧基丙基胺，以及阳离子的1,2-二亚油基氧基-3-N,N二甲基氨基丙烷(例如参见，盖斯伯特(Geisbert)等人，柳叶刀(Lancet)2010；375:1896-905)。例如可以考虑静脉内推注给予约2mg/kg总CRISPR Cas/剂的剂量。

在又另一个实施例中，SNALP可以包含合成胆固醇(西格玛-奥德里奇公司)、1,2-二硬脂酰基 -sn-甘油基-3-磷酸胆碱(DSPC；阿凡提极地脂质公司)、PEG-cDMA，以及1,2-二亚油基氧基-3-(N；N-二甲基)氨基丙烷(DLinDMA)(例如参见，贾奇(Judge)，临床研究杂志(J.Clin.Invest.)119:661-673(2009))。用于体内研究的配制品可以包含约9:1的最终脂质/RNA质量比。

已经由阿尔尼拉姆制药公司(Alnylam Pharmaceuticals)的巴洛斯(Barros)和格罗布(Gollob) 评论了RNAi纳米药物的安全性曲线(例如参见，先进药物递送评论(Advanced Drug Delivery Reviews)64 (2012)1730-1737)。稳定的核酸脂质粒子(SNALP)由四种不同的脂质构成-在低pH下为阳离子的可电离脂质(DLinDMA)、中性辅助脂质、胆固醇以及可扩散的聚乙二醇(PEG)-脂质。该粒子的直径为大约80 nm并且在生理pH下是电中性的。在配制过程中，该可电离脂质用于在粒子形成过程中使脂质与阴离子RNA 缩合。当在渐增的酸性内体条件下带正电荷时，该可电离的脂质还介导了SNALP与内体膜的融合，从而能够将RNA释放到细胞质中。该PEG-脂质在配制过程中稳定化粒子并且减少聚集，并且随后提供改进药代动力学特性的中性的亲水性外部。

到目前为止，已经使用具有RNA的SNALP配制品开始两个临床项目。泰米拉制药公司最近在具有升高的LDL胆固醇的成年志愿者中完成了SNALP-ApoB I期单剂量研究。ApoB主要是在肝脏和空肠中表达，并且是为VLDL和LDL的组装和分泌所必需的。十七位受试者接受了SNALP-ApoB的单剂量(跨7个剂量水平的剂量递增)。没有肝脏毒性(预期为基于临床前研究的潜在剂量限制性毒性)的证据。处于最高剂量的(两位中的)一位受试者经历了与免疫系统刺激一致的流感样症状，并且做出结束该试验的决定。

阿尔尼拉姆制药公司已经类似地推出了ALN-TTR01，其采用以上所述的SNALP技术并且靶向突变体和野生型TTR的肝细胞产生，以治疗TTR淀粉样变性(ATTR)。已经描述了三种ATTR综合征：家族性淀粉样变性多神经病(FAP)和家族性淀粉样心肌病(FAC)-两者均由TTR中的常染色体显性突变引起；以及由野生型TTR引起的老年全身性淀粉样变性(SSA)。最近在具有ATTR的患者中完成了ALN-TTR01的安慰剂对照单剂量递增I期试验。向31位患者(23位用研究药物，8位用安慰剂)在0.01至1.0mg/kg(基于 siRNA)的剂量范围内以15分钟静脉内输注给予ALN-TTR01。治疗耐受性良好，其中在肝功能试验中没有显著增加。在≥0.4mg/kg时在23位患者的3位中注意到输注相关反应；所有患者均对减慢输注速率做出了响应并且所有患者继续参与研究。在处于1mg/kg的最高剂量(如根据临床前和NHP研究预期的)的两位患者中注意到血清细胞因子IL-6、IP-10和IL-1ra的最小与瞬时升高。在1mg/kg时观察到ALN-TTR01的预期药效动力学效应，即，血清TTR的降低。

在又另一个实施例中，可以通过将阳离子脂质、DSPC、胆固醇以及PEG-脂质例如以40:10:40: 10的摩尔比分别溶解在例如乙醇中来制备SNALP(参见，森普尔(Semple)等人，自然生物技术，第28 卷，第2期，2010年2月，第172-177页)。将该脂质混合物添加到水性缓冲液中(50mM柠檬酸盐，pH 4)，混合至最终的乙醇和脂质浓度分别为30％(体积/体积)和6.1mg/ml，并且使得其在22℃下平衡2min，然后挤出。使用Lipex挤出仪(北方脂质公司)，在22℃下将水合脂质挤出通过两个重叠的80nm孔径大小的过滤器(Nuclepore)，直到获得如通过动态光散射分析测定的70-90nm直径的囊泡为止。这大致需要1-3道次。将该siRNA(溶解在50mM柠檬酸盐中，pH为4的含有30％乙醇的水性溶液)以约～5ml/min的速率在混合下添加到预平衡的(35℃)囊泡中。在达到0.06(重量/重量)的最终靶siRNA/脂质比率之后，将该混合物在35℃下另外孵育30min，以允许囊泡重组和siRNA的封装。然后去除乙醇并且通过透析或切向流渗滤用PBS(155mM NaCl，3mM Na₂HPO₄，1mM KH₂PO₄，pH 7.5)替换外部缓冲液。使用受控的逐步稀释法工艺将siRNA封装在SNALP中。KC2-SNALP的脂质组分为以57.1:7.1:34.3:1.4的摩尔比使用的 DLin-KC2-DMA(阳离子脂质)、二棕榈酰磷脂酰胆碱(DPPC；阿凡提极地脂质公司)、合成胆固醇(西格玛公司)和PEG-C-DMA。在形成加载的粒子后，将SNALP在PBS中透析并且在使用之前通过0.2μm的过滤器灭菌过滤。平均粒径为75-85nm，并且将90％-95％的siRNA封装在脂质粒子之内。用于体内测试的在配制品中的最终siRNA/脂质比率是～0.15(重量/重量)。在临使用之前将含有因子VII siRNA的LNP-siRNA系统在无菌PBS中稀释到适当浓度，并且通过侧尾静脉以10ml/kg的总体积静脉内给药。这种方法和这些系统可以外推到本发明的CRISPR Cas系统。

其他脂质

其他阳离子脂质，诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环 (DLin-KC2-DMA)可以类似于SiRNA地用来封装CRISPR Cas或其组分或对其编码的一个或多个核酸分子 (例如参见，加雅拉曼(Jayaraman)，德国应用化学(Angew.Chem.Int.Ed.)2012,51,8529-8533)，并且因此可以应用于本发明的实践中。可以考虑具有下列脂质组成的预成型囊泡：分别处于摩尔比40/10/40/10 的氨基脂质、二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和(R)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000) 丙基碳酸酯(PEG-脂质)，以及大约0.05(w/w)的FVII siRNA/总脂质比率。为了确保在70-90nm范围内的窄粒径分布以及0.11±0.04(n＝56)的低多分散性指数，可以在添加指导RNA之前将粒子通过80nm的膜挤出达三次。可以使用含有高度有效的氨基脂质16的粒子，其中四种脂质组分16、DSPC、胆固醇和PEG- 脂质的摩尔比(50/10/38.5/1.5)可以被进一步优化，以增强体内活性。

迈克尔S D科尔曼(Michael S D Kormann)等人(“在小鼠中递送化学修饰的mRNA之后治疗蛋白的表达(Expression of therapeutic proteins after delivery ofchemically modified mRNA in mice:Nature Biotechnology)”：自然生物技术，第29卷，第154-157页，(2011))描述了脂质包膜用于递送RNA的用途。脂质包膜的用途在本发明中也是优选的。

在另一个实施例中，脂质可以与本发明的CRISPR Cas系统或其一种或多种组分或对其编码的一个或多个核酸分子一起配制而形成脂质纳米粒子(LNP)。脂质包括但不限于，DLin-KC2-DMA4、C12-200 和辅助脂质二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG，可以使用自发囊泡形成程序将其与CRISPR Cas而不是siRNA一起配制(例如参见，诺沃布塞瓦(Novobrantseva)，分子治疗-核酸(Molecular Therapy-Nucleic Acids)(2012)1,e4；doi:10.1038/mtna.2011.3)。组分摩尔比可以是约50/10/38.5/1.5(DLin-KC2-DMA或 C12-200/二硬脂酰磷脂酰胆碱/胆固醇/PEG-DMG)。在DLin-KC2-DMA和C12-200脂质纳米粒子(LNP)的情况下，最终脂质:siRNA重量比可以分别是～12:1和9:1。配制品可以具有～80nm的平均粒子直径，具有> 90％的包封效率。可以考虑3mg/kg的剂量。

泰米拉公司在美国和国外具有一组针对LNP和LNP配制品的不同方面的大约95个同族专利 (例如参见，美国专利号7,982,027；7,799,565；8,058,069；8,283,333；7,901,708；7,745,651；7,803,397； 8,101,741；8,188,263；7,915,399；8,236,943和7,838,658以及欧洲专利号1766035；1519714；1781593和 1664316)，所有这些专利均可用于和/或适于本发明。

该CRISPR Cas系统或其组分或对其编码的一个或多个核酸分子可以封装在PLGA微球中进行递送，诸如进一步描述于美国公开申请20130252281和20130245107以及20130244279(转让给Moderna Therapeutics公司)中，这些申请涉及包含修饰的核酸分子的组合物的配制品方面，这些核酸分子可以编码蛋白质、蛋白质前体、或该蛋白质或该蛋白质前体的部分或完全加工形式。该配制品可以具有50:10:38.5: 1.5-3.0(阳离子脂质:融合脂质:胆固醇:PEG脂质)的摩尔比。PEG脂质可以选自但不限于 PEG-c-DOMG、PEG-DMG。该融合脂质可以是DSPC。还参见，施鲁姆(Schrum)等人，工程化核酸的递送和配制(Delivery and Formulation of Engineered Nucleic Acids)，美国公开申请20120251618。

Nanomerics公司的技术着手解决针对广泛治疗学的生物利用度挑战，包括基于低分子量疏水性药物、肽以及核酸(质粒、siRNA、miRNA)的治疗学。该技术已经证明了明显优势的特异性的给药途径包括口服途径、跨血脑屏障的转运、向实体瘤以及眼部的递送。例如参见，马萨等人，2013，ACS纳米， 2013年2月26日；7(2):1016-26；乌切克布(Uchegbu)和秀，2013，制药科学杂志(J Pharm Sci.)102(2):305-10 和拉拉特萨等人，2012，控释杂志，2012年7月20日；161(2):523-36。

美国专利公开号20050019923描述了用于向哺乳动物身体递送生物活性分子诸如多核苷酸分子、肽和多肽和/或药剂的阳离子树状聚合物。这些树状聚合物适合于将生物活性分子的递送靶向至例如肝脏、脾、肺、肾或心脏(或甚至脑)。树状聚合物是由简单的支化单体单元以逐步方式制备的合成性3维大分子，其性质和功能性可以容易地进行控制和改变。树状聚合物经由向多功能核(发散式合成法)或朝向多功能核(收敛式合成法)重复加成结构单元来合成，并且结构单元的3维壳的每次加成使得更高级别的树状聚合物形成。聚丙烯亚胺树状聚合物从二氨基丁烷核开始，通过对伯胺的丙烯腈的双迈克尔加成反应向其上添加两倍数目的氨基基团，然后进行腈的氢化。这导致氨基基团的加倍。聚丙烯亚胺树状聚合物含有100％的可质子化氮以及高达64个末端氨基基团(5级，DAB 64)。可质子化基团通常是能够在中性pH下接受质子的胺基。树状聚合物作为基因递送剂的用途在很大程度上集中于聚酰胺-胺和含磷化合物的用途，其中胺/酰胺的混合物或N--P(O₂)S分别作为轭合单元，没有报道关于更低级别的聚丙烯亚胺树状聚合物用于基因递送的用途的工作。还研究了作为pH敏感的控制释放系统的聚丙烯亚胺树状聚合物，其用于药物递送以及当被外周氨基酸基团化学修饰时用于它们的客体分子的封装。还研究了聚丙烯亚胺树状聚合物的细胞毒性和其与DNA的相互作用以及DAB 64的转染效力。

美国专利公开号20050019923是基于与早期报道相反的观察：阳离子树状聚合物诸如聚丙烯亚胺树状聚合物展示出适当的特性，诸如特异性靶向和低毒性，其用于靶向递送生物活性分子诸如遗传物质。此外，阳离子树状聚合物的衍生物也展示出适用于生物活性分子的靶向递送的特性。还参见，生物活性聚合物(Bioactive Polymers)、美国公开申请20080267903，其披露“不同的聚合物，包括阳离子聚胺聚合物和树枝状聚合物显示出具有抗增殖活性，并且因此可用于治疗特征为不希望的细胞增殖的病症，诸如新生物和肿瘤、炎性病症(包括自身免疫性病症)、银屑病和动脉粥样硬化。这些聚合物可以作为活性剂单独使用，或者作为其他治疗剂(诸如药物分子或用于基因治疗的核酸)的递送载体。在此类情况下，聚合物的自身固有的抗肿瘤活性可以补足有待递送的药剂的活性。这些专利出版物的披露内容可以与在此的教授内容结合使用，以用于递送一种或多种CRISPR Cas系统或其一种或多种组分或对其编码的一个或多个核酸分子。

超电荷蛋白

超电荷蛋白是一类具有非常高的正或负的理论净电荷的工程化或天然存在的蛋白质并且可以用于递送一种或多种CRISPR Cas系统或其一种或多种组分或对其编码的一个或多个核酸分子。超负电荷蛋白和超正电荷蛋白两者都表现出显著的抵抗热诱导或化学诱导的聚集的能力。超正电荷蛋白还能够穿透哺乳动物细胞。使货物诸如质粒DNA、RNA或其他蛋白质与这些蛋白质缔合可以使得这些大分子到体外和体内的哺乳动物细胞中的功能递送成为可能。刘大卫实验室(David Liu’s lab)在2007年报道了超电荷蛋白的创建和表征(劳伦斯(Lawrence)等人，2007，美国化学学会杂志129,10110-10112)。

RNA和质粒DNA到哺乳动物细胞中的非病毒递送对于研究和治疗应用都是有价值的(阿肯克 (Akinc)等人，2010，自然生物技术26,561-569)。纯化的+36GFP蛋白(或其他超正电荷蛋白)与RNA 在适当的无血清培养基中混合并且使得其在添加到细胞中之前复合。在这个阶段血清的包含抑制超电荷蛋白-RNA复合物的形成并且降低治疗效果。已经发现以下方案对于多种细胞系是有效的(麦克诺顿 (McNaughton)等人，2009，美国国家科学院院刊106,6111-6116)(然而，应当进行改变蛋白质和RNA 剂量的预试验来优化用于特异性细胞系的程序)：

(1)在治疗前一天，以1×10⁵个细胞/孔接种于48孔板中。

(2)在治疗当天，将纯化的+36GFP蛋白在无血清的培养基中稀释至终浓度200nM。添加RNA 到50nM的终浓度。涡旋混合并且在室温下孵育10min。

(3)在孵育过程中，从细胞抽出培养基并且再次用PBS洗涤。

(4)在孵育+36GFP和RNA之后，向细胞添加蛋白质-RNA复合物。

(5)将细胞与复合物在37℃下孵育4h。

(6)在孵育之后，抽出培养基并且用20U/mL的肝素PBS洗涤三次。用含血清的培养基另外孵育细胞48h或更长，这取决于用于活性的测定。

(7)通过免疫印迹、qPCR、表型分析或其他适当的方法分析细胞。

刘大卫实验室已经进一步发现+36GFP在一系列细胞中是一种有效的质粒递送试剂。由于质粒 DNA是一种比siRNA大的货物，有效复合质粒需要成比例地更大的+36GFP蛋白。为了有效质粒递送，申请人已经开发了一种带有C末端HA2肽标签的+36GFP变体，这种肽是一种已知的来源于流感病毒血凝素蛋白的内体破坏肽。以下方案在多种细胞中是有效的，但是如上所述，建议针对特异性细胞系和递送应用优化质粒DNA和超电荷蛋白的剂量。

(1)在治疗前一天，以1×10⁵/孔接种于48孔板中。(2)在治疗当天，

将纯化的t36 GFP蛋白在无血清的培养基中稀释至终浓度2mM。添加1mg质粒DNA。涡旋混合并且在室温下孵育10min。

(3)在孵育过程中，从细胞抽出培养基并且再次用PBS洗涤。

(4)在孵育

GFP和质粒DNA之后，向细胞轻轻添加蛋白质-DNA复合物。

(5)将细胞与复合物在37℃下孵育4h。

(6)在孵育之后，抽出培养基并且用PBS洗涤。在含血清培养基中孵育细胞，并且另外孵育 24-48h。

(7)在适当时分析质粒递送(例如，通过质粒驱动的基因表达)。

还参见，例如，麦克诺顿等人，美国国家科学院院刊106,6111-6116(2009)；克罗尼肯(Cronican) 等人，ACS化学生物学(ACS Chemical Biology)5,747-752(2010)；克罗尼肯等人，化学与生物学(Chemistry &Biology)18,833-838(2011)；汤普森(Thompson)等人，酶学方法(Methods in Enzymology)503,293-319 (2012)；汤普森，D.B.等人，化学与生物学19(7),831-843(2012)。超电荷蛋白的这些方法可以用于和/或适于本发明的CRISPR Cas系统的递送。刘博士的这些系统和在此的文献结合在此的教授内容可以用于递送一种或多种CRISPR Cas系统或其一种或多种组分或对其编码的一个或多个核酸分子。

细胞穿透肽(CPP)

在又另一个实施例中，考虑了细胞穿透肽(CPP)用于CRISPR Cas系统的递送。CPP是促进不同分子货物(从纳米级粒子至小化学分子和大的DNA片段)的细胞摄取的短肽。如在此所用的术语“货物”包括但不限于下组，该组由下项组成：治疗剂、诊断性探针、肽、核酸、反义寡核苷酸、质粒、蛋白质、粒子(包括纳米粒子)、脂质体、发色团、小分子以及放射性物质。在本发明的方面中，货物还可以包括CRISPR Cas系统的任何组分或整个功能性CRISPR Cas系统。本发明的方面进一步提供了用于将所希望的货物递送至受试者中的方法，这些方法包括：(a)制备包含本发明的细胞穿透肽和所希望的货物的复合物，并且(b)向受试者口服地、关节内地、腹膜内地、鞘内地、动脉内地(intrarterially)、鼻内地、实质内地(intraparenchymally)、皮下地、肌内地、静脉内地、真皮地、直肠内地或局部地给予复合物。货物通过经由共价键的化学连接或通过非共价的相互作用与肽缔合。

CPP的功能是将货物递送至细胞中，这是一种通常通过胞吞作用发生的过程，其中货物被递送至活哺乳动物细胞的内体。细胞穿透肽具有不同的尺寸、氨基酸序列并且带电荷，但是所有CPP具有一种独特的特性，该特性是易位质膜的能力，并且促进不同分子货物到细胞质或细胞器的递送。CPP易位可以被分类成三种主要的进入机制：直接穿透膜中、胞吞作用介导的进入，以及通过瞬时结构的形成的易位。 CPP在医学中发现了许多应用，在治疗不同疾病包括癌症中作为药物递送剂，和病毒抑制剂以及用于细胞标记的造影剂。后者的实例包括充当用于GFP、MRI造影剂或量子点的载体。CPP作为用于研究和医学的体外及体内递送载体具有极大潜力。CPP典型地具有下述的氨基酸组成，该氨基酸组成含有高相对丰度的带正电荷的氨基酸诸如赖氨酸或精氨酸或具有含有极性/带电荷氨基酸和非极性、疏水性氨基酸的交替图案的序列。这两种结构类型被分别称之为聚阳离子或两亲性分子。CPP的第三种类别是疏水性肽，其仅含有具有低净电荷极性残基或具有对细胞摄取是关键的疏水性氨基酸基团。所发现的原始CPP中之一是来自人类免疫缺陷病毒1(HIV-1)的反激活转录激活因子(Tat)，发现该Tat被培养物中的多种细胞类型从周围培养基中有效摄取。从此以后，多种已知的CPP得到了相当地扩展并且产生了具有更有效的效应蛋白转导特性的小分子合成类似物。CPP包括但不限于穿透素、Tat(48-60)、转运素和(R-AhX-R4)(Ahx＝氨基己酰基)。

美国专利8,372,951提供了来源于嗜酸性粒细胞阳离子蛋白(ECP)的CPP，该CPP表现出非常高的细胞穿透效率和低毒性。还提供了将带有其货物的CPP递送至脊椎动物受试者中的方面。CPP的另外方面和其递送描述于美国专利8,575,305；8,614,194和8,044,019中。CPP可以用于递送CRISPR-Cas系统或其组分。可以用于递送CRISPR-Cas系统或其组分的CPP也被提供于苏雷什·罗摩克里希纳(Suresh Ramakrishna)、阿布夸库戴德(Abu-Bonsrah Kwaku Dad)、贾格迪什·拜洛儿(Jagadish Beloor)等人写的手稿“通过细胞穿透肽介导的Cas9蛋白和指导RNA的递送进行的基因破坏(Gene disruption by cell-penetrating peptide-mediated delivery of Cas9protein and guide RNA)”，基因组研究(Genome Res.)，2014 年4月2日，[电子版先于印刷版]，该文献通过引用以其整体结合在此，其中展示出的是用CPP轭合的重组 Cas9蛋白和CPP复合的指导RNA的处理导致人类细胞系中的内源性基因破坏。在论文中，Cas9蛋白经由硫醚键轭合至CPP，而指导RNA与CPP复合，形成了稠合的带正电荷的粒子。已表明，用修饰的Cas9和指导 RNA对人类细胞(包括胚胎干细胞、真皮成纤维细胞、HEK293T细胞、HeLa细胞和胚胎癌细胞)的同时处理和依序处理产生有效的基因破坏，其中相对于质粒转染脱靶突变减少。

可植入装置

在另一个实施例中，还考虑了可植入装置用于递送CRISPR Cas系统或其一种或多种组分或对其编码的一个或多个核酸分子。例如，美国专利公开20110195123披露了一种可植入的医疗器械，其局部地且在一长时间段内洗脱药物，包括了若干种类型的此设备、实施的治疗方式和植入方法。该装置包含聚合物基材，诸如，例如用作装置主体的基质，以及药物，并且在一些情况下包含另外的支架材料，诸如金属或另外的聚合物，以及增强能见度和成像的材料。可植入的递送装置在提供局部且一长时间段内的释放方面可能是有利的，其中药物直接释放到患病区域诸如肿瘤、炎症、退化的细胞外基质(ECM)，或用于针对症状的目的，或者释放到损伤的平滑肌细胞，或者用于预防。一种药物是如以上披露的RNA，并且这个系统可以用于和/或适于本发明的CRISPR Cas系统。在一些实施例中，植入方式是针对包括近距离放射疗法和针吸活组织检查的其他治疗的当今开发和使用的现有植入程序。在这样的情况下，在本发明中描述的新植入物的尺寸类似于原始植入物。典型地，在同一的治疗程序中，植入了几个装置。

美国专利公开20110195123提供了一种药物递送可植入或可插入系统，包括适用于空腔诸如腹腔和/或其中药物递送系统未被锚定或附接的任何其他类型的给药的系统，这些系统包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基材，该基材可以例如任选地是一种基质。应当指出的是术语“插入” 也包括植入。该药物递送系统优选地如美国专利公开20110195123中描述的“装填器(Loder)”那样实施。

聚合物或多种聚合物是生物相容的，其结合一种药剂和/或多种药剂，使得药剂以控制的速率释放，其中该聚合物基材诸如基质的总体积，例如在一些实施例中是任选地并且优选地不大于容许达到该药剂的治疗水平的最大体积。作为一个非限制性实例，这样的体积优选在0.1m³至1000mm³的范围内，正如该药剂负荷的体积所要求的。该装填器任选地是较大的，例如当结合有其尺寸由功能性决定的装置例如而不限于，膝关节、宫内节育环或子宫颈环等时。

在一些实施例中，该药物递送系统(用于递送该组合物)被设计为优选采用可降解聚合物，其中主要释放机制是本体溶蚀(bulk erosion)；或者在一些实施例中，使用了不可降解的、或缓慢降解的聚合物，其中主要释放机制是扩散而不是本体溶蚀，使得外部部分用作膜，并且其内部部分用作药物贮库，该药物贮库在延长的时间段内(例如从约一周至约几个月)实际上不受环境的影响。还可以任选地使用具有不同释放机制的不同聚合物的组合。在总药物释放期的重要时段期间，在表面处的浓度梯度优选地维持为有效恒定，并且因此扩散速率是有效恒定的(称为“零模式”扩散)。关于术语“恒定”，它意指优选地维持在治疗有效性的低阈值以上的扩散速率，但是可以仍然任选地具有初期突释的特征和/或可以发生波动，例如增加和降低到一定程度。扩散速率优选地被如此维持一长时间段，并且可以考虑使它相对于一定的水平是恒定的，以便优化治疗有效期，例如有效沉默期。

药物递送系统任选地并且优选地被设计为保护基于核苷酸的治疗剂免于降解，而无论是化学性质还是由于受试者体内的酶和其他因素的攻击。

美国专利公开20110195123的药物递送系统任选地与感测和/或激活设备相关联，这些设备通过激活和/或加速/减速的无创和/或微创方法在该装置的植入之时和/或之后被操作，这些方法例如任选地包括但不限于热力加热和冷却、激光束和超声波，包括聚焦超声和/或RF(射频)方法或装置。

根据美国专利公开20110195123的一些实施例，用于局部递送的位点可以任选地包括特征为高度异常的细胞增殖和受抑制的细胞凋亡的靶位点，包括肿瘤、活动性和/或慢性炎症和感染，包括自身免疫性疾病状态、退化组织(包括肌肉和神经组织)、慢性疼痛、退行性位点，以及用于增强组织再生的骨折位置以及其他伤口位置，以及损伤的心肌、平滑肌和横纹肌。

用于植入该组合物的位点、或靶位点，优选地其特征为用于靶向局部递送的足够小的半径、面积和/或体积。例如，该靶位点任选地具有在从约0.1mm至约5cm范围内的直径。

该靶位点的位置优选地针对最大治疗效力而选择。例如，该药物递送系统的组合物(任选地与如上所述的用于植入的装置一起)任选地并且优选地被植入在肿瘤环境或与肿瘤环境相关联的血供之内或附近。

例如该组合物(任选地与该装置一起)任选地植入在胰脏、前列腺、乳房、肝脏之内或附近，经由接管(nipple)进行，植入在血管系统之内，等等。

靶位置任选地选自下组，该组包括下项、基本上由、或由下项组成(仅仅作为非限制性实例，因为任选地身体内的任何位点可以适合于植入装填器)：1.在退行性位点处的脑，像在帕金森病或阿尔茨海默病中在基底神经节、白质和灰质处；2.如在肌萎缩侧索硬化(ALS)的情况下的脊柱；3.预防HPV感染的子宫颈；4.活动性或慢性炎性关节；5.在银屑病情况下的真皮；6.用于止痛作用的交感神经位点和感觉神经位点；7.骨内植入；8.急性和慢性感染位点；9.阴道内；10.耳内--听觉系统、内耳的迷路、前庭系统；11. 气管内；12.心内；冠状动脉、心外膜；13.膀胱；14.胆道系统；15.实质组织，包括但不限于肾、肝脏、脾；16.淋巴结；17.唾液腺；18.牙龈；19.关节内(进入关节)；20.眼内；21.脑组织；22.脑室；23.空腔，包括腹腔(例如但不限于，卵巢癌)；24.食管内以及25.直肠内。

任选地，该系统(例如含有该组合物的装置)的插入与向在靶位点处和该位点附近的ECM注射材料相关联，从而影响该靶位点和此位点附近的ECM中的局部pH和/或温度和/或影响该药物扩散和/或药物动力学的其他生物因素。

任选地，根据一些实施例，所述药剂的释放可以与感测和/或激活设备相关联，这些设备通过激活和/或加速/减速的无创和/或微创方法和/或别的方法在插入之前和/或之时和/或之后被操作，所述方法包括激光束、放射、热力加热和冷却、和超声波，包括聚焦超声和/或RF(射频)方法或装置、以及化学激活剂。

根据美国专利公开20110195123的其他实施例，药物优选地包括RNA，例如，对于局限性癌症情况，在乳房、胰脏、脑、肾、膀胱、肺以及前列腺中，如下文所述。尽管使用RNAi进行举例说明，但是许多药物是适用于封装在装填器中的，并且可以与本发明结合使用，只要此类药物可以用装填器基材例如像基质封装，并且此系统可以用于和/或适于递送本发明的CRISPR Cas系统。

作为特殊应用的另一个实例，神经肌肉退行性疾病由于异常基因表达而发生。RNA的局部递送可以具有干扰此异常基因表达的治疗特性。包括小药物和大分子的抗凋亡、抗炎症和抗退行性药物的局部递送也可以任选地是治疗性的。在这样的情况下，该装填器用于以恒定速率和/或通过单独植入的专用装置延长释放。这都可以用于和/或适于本发明的CRISPR Cas系统。

作为特殊应用的又另一个实例，用基因修饰剂治疗精神和认知障碍。基因敲低是一个治疗选择。向中枢神经系统位点局部递送药剂的装填器是对于精神障碍和认知障碍的治疗选择，这些精神障碍和认知障碍包括但不限于，精神病、双极疾病、神经性病症和行为疾病(behavioral maladies)。这些装填器也可以在特定脑位点进行植入时局部递送包括小药物和大分子的药物。这都可以用于和/或适于本发明的 CRISPR Cas系统。

作为特殊应用的另一个实例，在局部位点的先天性和/或适应性免疫介质的沉默能够预防器官移植排斥。用植入到移植器官和/或植入位点中的装填器局部递送RNA和免疫调节试剂使得通过排斥性免疫细胞(诸如针对移植器官而被激活的CD8)产生局部免疫抑制。这都可以用于和/或适于本发明的CRISPR Cas 系统。

作为特殊应用的另一个实例，包括VEGF和血管生成素及其他的血管生长因子对于新血管形成是必需的。这些因子、肽、肽模拟物的局部递送或抑制它们的阻遏物是一种重要的治疗模式；使阻遏物沉默以及用装填器局部递送刺激血管发生的这些因子、肽、大分子和小药物对于周围血管疾病、全身性血管疾病和心血管疾病是具有治疗性的。

插入的方法，诸如植入，可以任选地已用于其他类型的组织植入和/或用于插入和/或用于组织取样，任选地在此类方法中没有修改，或者可替代地任选地仅仅具有非重点修改。此类方法任选地包括但不限于，近距离放射疗法、活组织检查、用和/或不用超声的内窥镜检查诸如ERCP、进入脑组织的立体定位法、腹腔镜检查，包括用腹腔镜进入关节、腹器官、膀胱壁和体腔的植入。

在此所讨论的可植入装置技术可以与在此的教授内容一起使用并且因此，通过本披露和本领域知识，CRISPR-Cas系统或其组分或其核酸分子或编码组分或提供组分的核酸分子可以经由可植入装置递送。

患者特异性筛选方法

靶向DNA，例如三核苷酸重复序列的核酸靶向系统可以用于筛选存在此类重复序列的患者或患者样品。重复序列可以是核酸靶向系统的RNA的靶标，并且如果通过核酸靶向系统与其存在结合，则可以检测出该结合，从而表明此类序列存在。因此，核酸靶向系统可以用于筛选存在此类重复序列的患者或患者样品。然后可以向患者给予一种或多种适合的化合物以解决此病状；或可以给予核酸靶向系统以结合此病状并且产生插入、缺失或突变并且缓解此病状。

本发明使用核酸结合靶DNA序列。

CRISPR效应蛋白mRNA和指导RNA

也可以单独递送CRISPR酶mRNA和指导RNA。CRISPR酶mRNA可以在指导RNA在给出时间以待CRISPR酶表达之前递送。CRISPR酶mRNA可以在给予指导RNA之前1-12小时(优选约2-6小时)给予。

可替代地，CRISPR酶mRNA和指导RNA可以一起给予。有利地，指导RNA的第二加强剂量可以在初始给予CRISPR酶mRNA+指导RNA之后1-12小时(优选约2-6小时)给予。

本发明的CRISPR效应蛋白，即Cpf1效应蛋白在此有时称之为CRISPR酶。应了解的是，效应蛋白是基于或来源于酶，所以术语“效应蛋白”当然包括一些实施例中的“酶”。然而，还应了解的是，根据在一些实施例中的需要，效应蛋白可以具有DNA或RNA结合，但是不一定具有切割或切口活性，包括无效Cas效应蛋白功能。

为了实现最有效的基因组修饰水平，CRISPR酶mRNA和/或指导RNA的附加给予可能是有用的。在一些实施例中，当特别是在治疗方法中遗传疾病被靶向时，表型改变优选是基因组修饰的结果并且优选其中提供了修复模板以校正或改变表型。

在一些实施例中，可以被靶向的疾病包括与引起疾病的剪接缺陷相关的那些。

在一些实施例中，细胞靶标包括造血干细胞/祖细胞(CD34+)；人类T细胞；以及眼(视网膜细胞)-例如光受体前体细胞。

在一些实施例中，基因靶包括：人类β球蛋白-HBB(用于治疗镰状细胞贫血，包括通过刺激基因转变(使用紧密相关的HBD基因作为内源性模板)进行)；CD3(T细胞)；以及CEP920-视网膜(眼)。

在一些实施例中，疾病靶标也可以包括：癌症；镰状细胞贫血(基于点突变)；HIV；β-地中海贫血；以及眼睛或眼部疾病-例如引起莱伯氏先天性黑矇(LCA)的剪接缺陷。

在一些实施例中，递送方法包括：酶-指导序列复合物(核糖核蛋白)的阳离子脂质介导的“直接递送”以及质粒DNA的电穿孔。

本发明方法可以进一步包括模板的递送，诸如修复模板，这些修复模板可以是dsODN或 ssODN，参见下文。模板递送可以是经由与任一或所有CRISPR酶或指导序列的递送同时发生或分开并且经由相同递送机制或不同递送机制。在一些实施例中，优选的是，模板与指导序列一起递送，并且也优选地与CRISPR酶一起递送。一个实例可以是AAV载体。

本发明方法可以进一步包括：(a)将包含互补于由所述双链断裂创建的突出端的突出端的双链寡脱氧核苷酸(dsODN)递送至细胞，其中所述dsODN被整合到感兴趣的座位中；或-(b)将单链寡脱氧核苷酸(ssODN)递送至细胞，其中所述ssODN充当用于所述双链断裂的同源定向修复的模板。本发明方法可以用于预防或治疗个体的疾病，任选地其中所述疾病由所述感兴趣的座位中的缺陷导致。本发明方法可以在个体中体内进行或者在取自个体的细胞上离体进行，任选地其中所述细胞被返回至个体。

为了最小化毒性和脱靶效应，重要的是控制所递送的CRISPR酶mRNA和指导RNA的浓度。 CRISPR酶mRNA和指导RNA的最佳浓度可以通过以下方式来确定：测试不同浓度的细胞模型或动物模型并且使用深度测序分析潜在的脱靶基因组座位处的修饰程度。例如，对于人类基因组的EMX1基因中的指导序列靶向5'-GAGTCCGAGCAGAAGAAGAA-3′(SEQ ID NO:23)，深度测序可以用于评估以下两个脱靶座位处的修饰水平：1：5′-GAGTCCTAGCAGGAGAAGAA-3′(SEQ ID NO:24)和2： 5′-GAGTCTAAGCAGAAGAAGAA-3′(SEQ IDNO:25)。得到最高的中靶修饰水平同时使脱靶修饰水平最小化的浓度应被选择用于体内递送。

诱导型系统

在一些实施例中，CRISPR酶可以形成诱导型系统的一种组分。该系统的诱导性质允许使用能量形式时间空间控制基因编辑或基因表达。能量形式可以包括但不限于，电磁辐射、声能、化学能以及热能。诱导型系统的实例包括四环素诱导型启动子(Tet-开或Tet-关)、小分子双杂交转录激活系统(FKBP、ABA等)、或光诱导型系统(光敏色素、LOV结构域或隐花色素)。在一个实施例中，CRISPR酶可以是光诱导型转录效应子(LITE)的一部分，从而以序列特异性方式引导转录活性的变化。光诱导型系统的组分可以包括CRISPR酶、光反应性细胞色素异源二聚体(例如，来自阿拉伯芥)、以及转录激活/阻遏结构域。诱导型DNA结合蛋白及其使用方法的其他实例提供于US 61/736,465和US 61/721,283以及WO 2014/018423 A2中，这些专利通过引用以其整体结合在此。

自失活系统

一旦细胞基因组中的基因的所有拷贝已被编辑,则该细胞中的连续的CRISRP/Cpf1p表达不再需要。实际上，持续的表达在非预定基因组位点等处的脱靶效应情况下将是不希望的。因此，时间限制的表达将是有用的。诱导型表达提供了一种途径，但是此外，申请人已经工程化出依赖于CRISPR载体本身内的非编码指导靶序列的用途的自失活CRISPR系统。因此，在表达开始之后，CRISPR-Cas系统将使得其自身破坏，但是在完全破坏之前，其将有编辑靶基因的基因组拷贝的时间(在二倍体细胞中的正常点突变的情况下，其需要至多两次编辑)。简单地，自失活CRISPR-Cas系统包括靶向CRISPR酶本身的编码序列或靶向与存在于以下项中的一种或多种中的独特序列互补的一种或多种非编码指导靶序列的附加RNA(即指导RNA)：

(a)在驱动非编码RNA元件的表达的启动子之内，

(b)在驱动Cpf1效应蛋白基因的表达的启动子之内，

(c)在Cpf1效应蛋白编码序列中的ATG翻译起始密码子的100bp之内，

(d)在病毒递送载体，例如在AAV基因组中反向末端重复序列(iTR)之内。

此外，RNA可以经由载体，例如单独的载体或编码CRISPR复合物的同一载体来递送。当通过单独的载体来递送时，靶向Cas表达的CRISPR RNA可以依序或同时给予。当依序给予时，在意图用于例如基因编辑或基因工程化的CRISPR RNA之后，将递送靶向Cas表达的CRISPR RNA。此时间段可以是数分钟 (例如5分钟、10分钟、20分钟、30分钟、45分钟、60分钟)的时间。此时间段可以是数小时(例如2小时、 4小时、6小时、8小时、12小时、24小时)的时间。此时间段可以是数天(例如2天、3天、4天、7天)的时间。此时间段可以是数周(例如2周、3周、4周)的时间。此时间段可以是数月(例如2个月、4个月、8 个月、12个月)的时间。此时间段可以是数年(例如2年、3年、4年)的时间。在此方式中，Cas酶与能够与第一靶标诸如感兴趣的一个基因组座位或多个基因组座位杂交的第一gRNA缔合并且负责所希望的CRISPR-Cas系统的一种或多种功能(例如，基因工程化)；并且随后Cas酶可以接着与能够与包含至少一部分的Cas或CRISPR盒的序列杂交的第二gRNA缔合。在指导RNA靶向编码Cas蛋白的表达的序列的情况下，该酶受到阻碍并且系统发生自失活。以相同方式，经由如在此解释的例如脂质体、脂转染、粒子、微泡施用的靶向Cas表达的CRISPR RNA可以依序或同时给予。类似地，自失活可以用于对用来靶向一个或多个靶标的一个或多个指导RNA进行失活。

在一些方面中，提供了单一gRNA，该单一gRNA能够与CRISPR酶起始密码子下游的序列杂交，由此在一段时间后，存在CRISPR酶表达的丧失。在一些方面中，提供了一个或多个gRNA，这些gRNA能够与编码CRISPR-Cas系统的多核苷酸的一个或多个编码或非编码区杂交，由此在一段时间后，存在一种或多种、或在一些情况下全部的CRISPR-Cas系统的失活。在系统的一些方面中，并且不受理论限制，细胞可以包含多种CRISPR-Cas复合物，其中第一亚组的CRISPR复合物包含能够靶向有待编辑的一个基因组座位或多个基因组座位的第一指导RNA，并且第二亚组的CRISPR复合物包含能够靶向编码CRISPR-Cas系统的多核苷酸的至少一个第二指导RNA，其中第一亚组的CRISPR复合物介导靶向的一个基因组座位或多个基因组座位的编辑并且第二亚组的CRISPR复合物最终使CRISPR-Cas系统失活，从而使细胞中的进一步 CRISPR-Cas表达失活。

因此，本发明提供了一种包含用于递送至真核细胞的一种或多种载体，其中一种或多种载体编码：(i)CRISPR酶；(ii)能够杂交至细胞中的靶序列的第一指导RNA；(iii)能够杂交至编码CRISPR酶的载体中的一个或多个靶序列的第二指导RNA，当在该细胞中表达时，第一指导RNA引导第一CRISPR复合物与该细胞中的靶序列的序列特异性结合；第二指导RNA引导第二CRISPR复合物与编码CRISPR酶的载体中的靶序列的序列特异性结合；CRISPR复合物包含结合指导RNA的CRISPR酶，由此使得指导RNA可以与其靶序列杂交；并且第二CRISPR复合物使CRISPR-Cas系统失活以阻止细胞对CRISPR酶的连续表达。

不同编码序列(CRISPR酶和指导RNA)可以包含在单一载体上或多个载体上。例如，有可能编码在一个载体上的酶和在另一个载体上的不同RNA序列，或者有可能编码在一个载体上的酶和一个指导 RNA以及在另一个载体上的剩余指导RNA或任何其他前突变。总的来说，使用总共一个或多个不同载体的系统是优选的。

第一指导RNA可以靶向基因组内的感兴趣的任何靶序列，如在此其他地方所述的。第二指导 RNA靶向编码CRISPR Cpf1酶的载体内的序列，并且从而使来自该载体的酶的表达失活。因此，载体中的靶序列必须能够使表达失活。适合的靶序列可以是例如在Cpf1p编码序列的翻译起始密码子附近或之内，在驱动非编码RNA元件的表达的启动子中的非编码序列中，在驱动Cpf1p基因的表达的启动子之内，在Cas 编码序列中的ATG翻译起始密码子的100bp之内，和/或在病毒递送载体，例如AAV基因组中的反向末端重复序列(iTR)之内。靠近此区域的双链断裂可以诱导Cas编码序列的移码，使得蛋白质表达丧失。用于使指导RNA“自失活”的替代性靶序列将旨在编辑/失活为CRISPR-Cpf1系统的表达或为载体的稳定性所需要的调节区/序列。例如，如果Cas编码序列的启动子被破坏，那么转录可以被抑制或阻止。类似地，如果载体包含用于复制、维持性或稳定性的序列，那么有可能靶向这些序列。例如，在AAV载体中，有用的靶序列是在iTR之内。其他有用的供靶向的序列可以是启动子序列、多聚腺苷酸化(polyadenlyation)位点等。

此外,如果指导RNA以阵列格式表达,则同时靶向两个启动子的“自失活”指导RNA将使得间插核苷酸从CRISPR-Cas表达构建体内切除，有效地使得其完全失活。类似地，在指导RNA靶向两个ITR，或同时靶向两种或更多种其他CRISPR-Cas组分的情况下，发生间插核苷酸的切除。总的来说，如在此解释的自失活是适用于CRISPR-Cas系统的，以便提供CRISPR-Cas的调节。例如，如在此解释的自失活可以适用于如在此解释的突变，例如扩增病症的CRISPR修复。作为此自失活的结果，CRISPR修复仅仅具有瞬时活性。

向“自失活”指导RNA的5'端添加非靶向核苷酸(例如1-10个核苷酸，优选1-5个核苷酸)可以用于延迟其加工和/或修饰其效力以作为确保CRISPR-Cas停止之前的靶向的基因组座位处的编辑的手段。

在自失活AAV-CRISPR-Cas系统的一个方面中，可以建立共表达感兴趣的一种或多种指导RNA 靶向基因组序列(例如1-2、1-5、1-10、1-15、1-20、1-30)的质粒，其中靶向SpCas9序列的“自失活”指导RNA处于或靠近工程化的ATG起始位点(例如，在5个核苷酸之内、在15个核苷酸之内、在30个核苷酸之内、在50个核苷酸之内、在100个核苷酸之内)。U6启动子区中的调节序列也可以用指导RNA靶向。U6 驱动的指导RNA可以被设计为阵列格式，使得多个指导RNA序列可以同时被释放。当首先被递送至靶组织 /细胞(离开的细胞)时，指导RNA开始积累，同时Cas水平在核中上升。Cas与介导CRISPR-Cas质粒的基因组编辑和自失活的所有指导RNA复合。

自失活CRISPR-Cas系统的一个方面是由1至4或更多个不同指导序列；例如高达约20或约30个指导序列以单独或串联的阵列格式的表达。每个单个自失活指导序列可以靶向不同的靶标。这样可以从例如一个嵌合pol3转录物开始加工。可以使用Pol3启动子诸如U6或H1启动子。Pol2启动子诸如在此所提到的那些。反向末端重复(iTR)序列可以侧接Pol3启动子-一个或多个指导RNA-Pol2启动子-Cas。

串联的阵列转录物的一个方面在于一种或多种指导序列编辑一个或多个靶标，而一个或多个自失活指导序列使CRISPR-Cas系统失活。因此，例如，用于修复扩增病症的所述CRISPR-Cas系统可以直接与在此所述的自失活CRISPR-Cas系统相结合。此系统可以例如具有针对供修复的靶区的两个指导序列以及针对CRISPR-Cas的自失活的至少一个第三指导序列。参考申请序列号PCT/US2014/069897，题为“在核苷酸重复病症中使用Crispr-Cas系统的组合物和方法”，2014年12月12日以WO/2015/089351公开。

指导RNA可以是控制指导序列。例如，其可以被工程化为靶向编码CRISPR酶本身的核酸序列，如US2015232881A1中所描述，该专利的披露内容通过引用结合在此。在一些实施例中，系统或组合物可以仅提供有被工程化为靶向编码CRISPR酶的核酸序列的指导RNA。此外，该系统或组合物可以提供有被工程化为靶向编码CRISPR酶的核酸序列以及编码CRISPR和任选地第二指导RNA和另外任选地修复模板的核酸序列的指导RNA。第二指导RNA可以是CRISPR系统或组合物(如在此所限定的此治疗性、诊断性、敲除性等)的主要靶标。以这种方式，该系统或组合物是自失活的。这是关于US2015232881A1(也如在此其他地方引用的WO2015070083(A1)所公开的)中的Cas9进行举例说明的，并且可以外推到Cpf1。

在多重(串联)靶向方法中使用的根据本发明的酶

发明者已证实，在此所限定的CRISPR酶可以采用没有丧失活性的超过一个的RNA指导序列。这使得能够使用如在此所限定的CRISPR酶、系统或复合物用于靶向多个DNA靶标、基因或基因座位，其中单一酶、系统或复合物如在此所限定的。指导RNA可以是串联地安排的，任选地通过核苷酸序列诸如如在此所限定的同向重复序列分开。不同指导RNA的位置是使得串联不影响活性。应注意的是，术语 “CRISPR-Cas系统”、“CRISP-Cas复合物”、“CRISPR复合物”和“CRISPR系统”是可互换使用的。另外，术语“CRISPR酶”、“Cas酶”或“CRISPR-Cas酶”可以是可互换使用的。在优选实施例中，所述CRISPR 酶、CRISP-Cas酶或Cas酶是Cpf1，或者是在此其他地方所述的Cpf1的修饰或突变型变体中的任一种。

在一个方面中，本发明提供了一种非天然存在或工程化的CRISPR酶，优选第2类CRISPR酶，优选如在此所述的型V或VI CRISPR酶，诸如但不限于如在此其他地方所述的Cpf1，以用于串联或多重靶向。应该理解的是，如在此其他地方所述的根据本发明的CRISPR(或CRISPR-Cas或Cas)酶、复合物或系统中的任一种可以用于此方法中。如在此其他地方所述的方法、产物、组合物和用途中的任一种是同样适用于如下文进一步详述的多重或串联靶向方法。作为进一步指导，提供了以下的特定方面和实施例。

在一个方面中，本发明提供了如在此所限定的Cpf1酶、复合物或系统用于靶向多个基因座位的用途。在一个实施例中，这可以通过使用多个(串联或多重)指导RNA(gRNA)序列来建立。

在一个方面中，本发明提供了用于使用如在所限定的Cpf1酶、复合物或系统中的一个或多个元件用于串联或多重靶向的方法，其中所述CRISP系统包含多个指导RNA序列。优选地，所述gRNA序列通过核苷酸序列，诸如如在此其他地方所限定的同向重复序列分开。

如在此所限定的Cpf1酶、系统或复合物提供了一种用于修饰多个靶多核苷酸的有效手段。如在此所限定的Cpf1酶、系统或复合物具有多种多样的效用，包括修饰(例如，缺失、插入、易位、失活、激活)许多细胞类型中的一个或多个靶多核苷酸。这样，如在此所限定的本发明Cpf1酶、系统或复合物在例如基因治疗、药物筛选、疾病诊断以及预后方面具有广泛的应用，包括靶向单一CRISPR系统内的多个基因座位。

在一个方面中，本发明提供了一种如在此所限定的Cpf1酶、系统或复合物，即具有Cpf1蛋白和多个指导RNA的Cpf1 CRISPR-Cas复合物，该Cpf1蛋白具有与其缔合的至少一个去稳定化结构域，这些指导RNA靶向多个核酸分子诸如DNA分子，由此每个所述多个指导RNA特异性地靶向其相应的核酸分子，例如DNA分子。每个核酸分子靶向例如可以编码基因产物或包括基因座位的DNA分子。因此使用多个指导 RNA能够靶向多个基因座位或多基因。在一些实施例中，Cpf1酶可以切割编码基因产物的DNA分子。在一些实施例中，基因产物的表达被改变。Cpf1蛋白和指导RNA并不同时天然存在。本发明包括包含串联地安排的指导序列的指导RNA。本发明进一步包括密码子优化为在真核细胞中表达的Cpf1蛋白的编码序列。在一个优选实施例中，真核细胞是哺乳动物细胞、植物细胞或酵母细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。基因产物的表达可以被减少。Cpf1酶可以形成CRISPR系统或复合物的一部分，该 CRISPR系统或复合物进一步包含串联安排的指导RNA(gRNA)，包括2、3、4、5、6、7、8、9、10、15、 25、25、30个或超过30个的一组指导序列，每个指导序列能够与细胞中感兴趣的基因组座位中的靶序列特异性地杂交。在一些实施例中，功能性Cpf1 CRISPR系统或复合物结合多个靶序列。在一些实施例中，功能性CRISPR系统或复合物可以编辑多种靶序列，例如靶序列可以包含基因组座位，并且在一些实施例中，可以存在基因表达的改变。在一些实施例中，功能性CRISPR系统或复合物可以进一步包含功能结构域。在一些实施例中，本发明提供了一种用于改变或修饰多种基因产物的表达的方法。该方法可以包括引入到含有所述靶核酸，例如DNA分子，或含有和表达靶核酸，例如DNA分子的细胞中；例如，靶核酸可以编码基因产物或提供基因产物(例如，调节序列)的表达。

在优选实施例中，用于多重靶向的CRISPR酶是Cpf1，或者CRISPR系统或复合物包含Cpf1。在一些实施例中，用于多重靶向的CRISPR酶是AsCpf1，或者用于多重靶向的CRISPR系统或复合物包含 AsCpf1。在一些实施例中，CRISPR酶是LbCpf1，或者CRISPR系统或复合物包含LbCpf1。在一些实施例中，用于多重靶向的Cpf1酶切割DNA的两条链以产生双链断裂(DSB)。在一些实施例中，用于多重靶向的 CRISPR酶是切口酶。在一些实施例中，用于多重靶向的Cpf1酶是双重切口酶。在一些实施例中，用于多重靶向的Cpf1酶是Cpf1酶，诸如如在此其他地方所限定的DD Cpf1酶。

在一些一般实施例中，用于多重靶向的Cpf1酶与一个或多个功能结构域缔合。在一些更具体的实施例中，用于多重靶向的CRISPR酶是如在此其他地方所限定的无效Cpf1。

在一个方面中，本发明提供了一种用于递送如在此所限定的多靶向中使用的Cpf1酶、系统或复合物，或如在此所限定的多核苷酸的手段。此类递送手段的非限制性实例是例如一个或多个粒子，该一个或多个粒子递送复合物的一种或多种组分、包含在此所讨论的一种或多种多核苷酸(例如编码CRISPR 酶，提供编码CRISPR复合物的核苷酸)的一种或多种载体。在一些实施例中，载体可以是质粒或病毒载体诸如AAV或慢病毒。使用质粒瞬时转染到例如HEK细胞中可能是有利的，特别是考虑到AAV的大小限制以及考虑到虽然Cpf1适配于AAV，但是可能达到另外的指导RNA的上限。

还提供了一种组成型地表达如在此使用的Cpf1酶、复合物或系统的模型，该模型用于多重靶向中。生物体可以是转基因的并且可以用本发明的载体转染或者可以是如此转染的生物体的后代。在另一个方面中，本发明提供了包含如在此所限定的CRISPR酶、系统和复合物，或如在此所述的多核苷酸或载体的组合物。还提供了包含优选呈串联安排格式的多个指导RNA的Cpf1 CRISPR系统或复合物。所述不同的指导RNA可以通过核苷酸序列诸如同向重复序列分开。

还提供了一种治疗受试者，例如有需要的受试者的方法，该方法包括通过用编码Cpf1 CRISPR 系统或复合物的多核苷酸或在此所述的多核苷酸或载体中的任一种转化受试者来诱导基因编辑，并且向受试者给予它们。还可以提供适合的修复模板，例如通过包含所述修复模板的载体来递送。还提供了一种治疗受试者，例如有需要的受试者的方法，该方法包括通过用在此所述的多核苷酸或载体转化受试者来诱导多个靶基因座位的转录激活或阻遏，其中所述多核苷酸或载体编码或包含Cpf1酶、包含优选呈串联安排的多个指导RNA的复合物或系统。在离体发生，例如在细胞培养物中发生任何处理的情况下，那么应了解的是，术语“受试者”可以通过短语“细胞或细胞培养物”来替换。

提供了用于如在此任何地方所限定的治疗方法中的组合物，这些组合物包含Cpf1酶、包含优选呈串联安排的多个指导RNA的复合物或系统，或编码或包含所述Cpf1酶、包含优选呈串联安排的多个指导RNA的复合物或系统的多核苷酸或载体。可以提供包含此类组合物的成套试剂盒。还提供了所述组合物在用于此类治疗方法的药物的制造中的用途。还通过本发明提供了Cpf1 CRISPR系统在筛选，例如增功能筛选中的用途。被人工驱使过表达基因的细胞能够通过负反馈回路来下调随时间变化的基因(重新建立平衡)。在开始筛选的时候，未被调节的基因可能再一次减少。使用诱导型Cpf1激活因子允许就在筛选之前诱导转录并且因此使假阴性命中的可能性最小化。因此，通过本发明在筛选，例如增功能筛选中的使用，假阴性结果的可能性可以被最小化。

在一个方面中，本发明提供了一种工程化的非天然存在的CRISPR系统，该CRISPR系统包含 Cpf1蛋白和各自特异性地靶向编码细胞中基因产物的DNA分子的多个指导RNA，由此多个指导RNA各自靶向它们的编码基因产物的特异性DNA分子并且该Cpf1蛋白切割编码该基因产物的靶DNA分子，由此改变该基因产物的表达；并且其中CRISPR蛋白和指导RNA并不同时天然存在。本发明包括包含优选地通过核苷酸序列诸如同向重复序列分开的多个指导序列的多个指导RNA。在本发明的一个实施例中，CRISPR蛋白是V型或VI型CRISPR-Cas蛋白并且在一个更优选实施例中，CRISPR蛋白是Cpf1蛋白。本发明进一步包括密码子优化为在真核细胞中表达的Cpf1蛋白。在一个优选实施例中，真核细胞是哺乳动物细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，基因产物的表达减少。

在另一个方面中，本发明提供了一种包含一种或多种载体的工程化的非天然存在的载体系统，这些载体包含可操作地连接至各自特异性地靶向编码基因产物的DNA分子的多个Cpf1 CRISPR系统指导 RNA的第一调节元件以及编码CRISPR蛋白的可操作地连接的第二调节元件。两个调节元件可以位于系统的相同载体上或不同载体上。多个指导RNA靶向编码细胞中多种基因产物的多个DNA分子并且CRISPR蛋白可以切割编码基因产物的多个DNA分子(该CRISPR蛋白可以切割一条或两条链或者基本上不具有核酸酶活性)，由此改变多种基因产物；并且其中CRISPR蛋白和多个指导RNA并不同时天然存在。在一个优选实施例中，CRISPR蛋白是Cpf1蛋白，其任选地被密码子优化为在真核细胞中表达。在一个优选实施例中，真核细胞是哺乳动物细胞、植物细胞或酵母细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，多种基因产物中的每种的表达被改变，优选被减少。

在一个方面中，本发明提供了一种包含一种或多种载体的载体系统。在一些实施例中，该系统包含：(a)可操作地连接至同向重复序列的第一调节元件和用于将一种或多种指导序列插入同向重复序列的上游或下游(无论哪一种都适用)的一个或多个插入位点，其中在表达时，一种或多种指导序列引导 CRISPR复合物与真核细胞中的一个或多个靶序列的序列特异性结合，其中CRISPR复合物包含与杂交至一个或多个靶序列的一种或多种指导序列复合的Cpf1酶；和(b)可操作地连接至编码优选包含至少一个核定位序列和/或至少一个NES的所述Cpf1酶的酶编码序列的第二调节元件；其中组分(a)和(b)位于系统的相同或不同的载体上。在一些实施例中，组分(a)进一步包含可操作地连接至第一调节元件的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导Cpf1CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施例中，CRISPR复合物包含具有足以驱动所述Cpf1 CRISPR复合物在真核细胞的核中和/或之外以可检测的量积累的强度的一个或多个核定位序列和/或一个或多个NES。在一些实施例中，第一调节元件是聚合酶III启动子。在一些实施例中，第二调节元件是聚合酶II启动子。在一些实施例中，每个指导序列的长度是至少16、17、18、19、20、25个核苷酸，或介于16个-30个、或介于16个-25个、或介于16个-20个核苷酸之间。

重组表达载体可以包含编码用于如在此所限定的多靶向中的Cpf1酶、系统或复合物的多核苷酸，这些多核苷酸处于适用于在宿主细胞中表达核酸的形式，这意味着重组表达载体包含一个或多个调节元件，这些调节元件可以基于用于表达的宿主细胞来选择，可操作地连接至有待表达的核酸序列。在重组表达载体内，“可操作地连接”旨在意指感兴趣的核苷酸序列以允许核苷酸序列表达(例如，在体外转录/ 翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中)的方式连接至一个或多个调节元件。

在一些实施例中，宿主细胞是用包含编码用于如在此所限定的多靶向中的Cpf1酶、系统或复合物的多核苷酸的一种或多种载体瞬时转染或非瞬时转染的。在一些实施例中，细胞当天然存在在受试者中时被转染。在一些实施例中，转染的细胞是从受试者中获得的。在一些实施例中，细胞是来源于从受试者中获得的细胞，诸如细胞系。用于组织培养的多种多样的细胞系是本领域已知的并且在此在其他地方举例说明。细胞系可从本领域技术人员已知的多种来源获得(例如，参见美国典型培养物保藏中心(ATCC) (弗吉尼亚州马纳萨斯(Manassus,Va.)))。在一些实施例中，将用包含编码用于如在此所限定的多靶向中的Cpf1酶、系统或复合物的多核苷酸的一种或多种载体转染的细胞用于建立一种包含一种或多种载体衍生序列的新细胞系。在一些实施例中，将用如在此所述的用于多靶向的Cpf1 CRISPR系统或复合物的组分瞬时转染(诸如通过瞬时转染一种或多种载体或用RNA转染)并且通过Cpf1 CRISPR系统或复合物的活性修饰的细胞用于建立一种包括含有修饰但缺乏任何其他外源性序列的细胞的细胞系。在一些实施例中，将用包含编码用于如在此所限定的多靶向中的Cpf1酶、系统或复合物的多核苷酸的一种或多种载体瞬时转染或非瞬时转染的细胞，或来源于此类细胞的细胞系用于评估一种或多种测试化合物。

术语“调节元件”如在此其他地方所限定。

有利的载体包括慢病毒和腺伴随病毒并且所述载体类型还可以针对靶向的特定细胞类型来选择。

在一个方面中，本发明提供了一种包含以下项的真核宿主细胞：(a)可操作地连接至同向重复序列的第一调节元件和用于将一个或多个指导RNA序列插入同向重复序列的上游或下游(无论哪一种都适用)的一个或多个插入位点，其中在表达时，一种或多种指导序列引导Cpf1 CRISPR复合物与真核细胞中的对应的一个或多个靶序列的序列特异性结合，其中Cpf1 CRISPR复合物包含与杂交至对应的一个或多个靶序列的一种或多种指导序列复合的Cpf1酶；和/或(b)可操作地连接至编码包含优选至少一个核定位序列和/或NES的所述Cpf1酶的酶编码序列的第二调节元件。在一些实施例中，宿主细胞包含组分(a)和(b)。在一些实施例中，组分(a)、组分(b)或组分(a)和(b)被稳定地整合到宿主真核细胞的基因组中。在一些实施例中，组分(a)进一步包含可操作地连接至第一调节元件，并且任选地通过同向重复序列分开的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导Cpf1 CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施例中，Cpf1酶包含具有足以驱动所述CRISPR酶在真核细胞的核中和/或之外以可检测的量积累的强度的一个或多个核定位序列和/或核输出序列或NES。

在一些实施例中，Cpf1酶是V型或VI型CRISPR系统酶。在一些实施例中，Cpf1酶是Cpf1酶。在一些实施例中，Cpf1酶来源于土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌 GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌或猕猴卟啉单胞菌的Cpf1，并且可以进一步包含如在此其他地方所限定的Cpf1的改变或突变，并且可以是嵌合Cpf1。在一些实施例中，Cpf1酶被密码子优化为在真核细胞中表达。在一些实施例中，CRISPR酶引导靶序列位置处的一条或两条链的切割。在一些实施例中，第一调节元件是聚合酶III启动子。在一些实施例中，第二调节元件是聚合酶II启动子。在一些实施例中，一种或多种指导序列的长度(各自)是至少16、17、18、19、20、25个核苷酸，或介于16个-30个、或介于16个-25个、或介于 16个-20个核苷酸之间。当使用多个指导RNA时，它们优选通过同向重复序列分开。在一个方面中，本发明提供了一种非人类真核生物体；优选地是多细胞真核生物体，这些生物体包含根据任何所述实施例的真核宿主细胞。在其他方面中，本发明提供了一种真核生物体；优选地是多细胞真核生物体，这些生物体包含根据任何所述实施例的真核宿主细胞。在这些方面的一些实施例中，该生物体可以是动物；例如，哺乳动物。而且，该生物体可以是节肢动物，诸如昆虫。生物体还可以是植物。此外，生物体可以是真菌。

在一个方面中，本发明提供了一种包含在此所述的一种或多种组分的试剂盒。在一些实施例中，试剂盒包括载体系统和用于使用试剂盒的说明书。在一些实施例中，该载体系统包含：(a)可操作地连接至同向重复序列的第一调节元件和用于将一种或多种指导序列插入同向重复序列的上游或下游(无论哪一种都适用)的一个或多个插入位点，其中在表达时，指导序列引导Cpf1 CRISPR复合物与真核细胞中的靶序列的序列特异性结合，其中Cpf1 CRISPR复合物包含与杂交至靶序列的指导序列复合的Cpf1酶；和/ 或(b)可操作地连接至编码包含核定位序列的所述Cpf1酶的酶编码序列的第二调节元件。在一些实施例中，试剂盒包括位于系统的相同或不同的载体上的组分(a)和(b)。在一些实施例中，组分(a)进一步包含可操作地连接至第一调节元件的两种或更多种指导序列，其中当表达时，两种或更多种指导序列中的每种引导CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施例中，Cpf1酶包含具有足以驱动所述CRISPR酶在真核细胞的核中以可检测的量积累的强度的一个或多个核定位序列。在一些实施例中，CRISPR酶是V型或VI型CRISPR系统酶。在一些实施例中，CRISPR酶是Cpf1酶。在一些实施例中， Cpf1酶来源于土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC20171、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌或猕猴卟啉单胞菌的Cpf1(例如，被修饰成具有或缔合于至少一个DD)，并且可以进一步包含Cpf1的改变或突变，并且可以是嵌合Cpf1。在一些实施例中，DD-CRISPR酶被密码子优化为在真核细胞中表达。在一些实施例中，DD-CRISPR酶引导靶序列位置处的一条或两条链的切割。在一些实施例中，DD-CRISPR酶缺乏或基本上缺乏DNA链切割活性(例如，与野生型酶或不具有降低核酸酶活性的突变或改变的酶相比的不超过5％的核酸酶活性)。在一些实施例中，第一调节元件是聚合酶III启动子。在一些实施例中，第二调节元件是聚合酶II启动子。在一些实施例中，指导序列的长度是至少16、17、18、19、20、25个核苷酸，或介于16个-30个、或介于16个-25个、或介于16个-20个核苷酸之间。

在一个方面中，本发明提供了一种修饰宿主细胞诸如真核细胞中的多种靶多核苷酸的方法。在一些实施例中，该方法包括使得Cpf1CRISPR复合物结合多种靶多核苷酸，例如来实施所述多种靶多核苷酸的切割，从而修饰多种靶多核苷酸，其中该Cpf1CRISPR复合物包含与多个指导序列复合的Cpf1酶，每个指导序列杂交至所述靶多核苷酸内的特异性靶序列，其中所述多个指导序列连接至同向重复序列。在一些实施例中，所述切割包括通过所述Cpf1酶切割每个靶序列的位置处的一条或两条链。在一些实施例中，所述切割使得多个靶基因的转录减少。在一些实施例中，该方法进一步包括使用外源性模板多核苷酸通过同源重组修复一种或多种所述所述切割的靶多核苷酸，其中所述修复产生包括一种或多种所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代的突变。在一些实施例中，所述突变使得由包含一个或多个靶序列的基因表达的蛋白质中发生一个或多个氨基酸的变化。在一些实施例中，该方法进一步包括将一个或多个载体递送至所述真核细胞，其中一个或多个载体驱动以下项中的一个或多个的表达：Cpf1酶和连接至同向重复序列的多个指导RNA序列。在一些实施例中，所述载体被递送至受试者中的真核细胞。在一些实施例中，所述修饰发生在细胞培养中的所述真核细胞中。在一些实施例中，该方法进一步包括在所述修饰之前将所述真核细胞从受试者分离。在一些实施例中，该方法进一步包括将所述真核细胞和/或衍生自其的细胞返回至所述受试者。

在一个方面中，本发明提供了一种修饰多种多核苷酸在真核细胞中的表达的方法。在一些实施例中，该方法包括使得Cpf1 CRISPR复合物结合多种多核苷酸，以使得所述结合导致所述多核苷酸的表达增加或减少；其中Cpf1 CRISPR复合物包含与多个指导序列复合的Cpf1酶，每个指导序列杂交至其自身的在所述多核苷酸内的靶序列，其中所述指导序列连接至同向重复序列。在一些实施例中，该方法进一步包括将一个或多个载体递送至所述真核细胞，其中一个或多个载体驱动以下项中的一个或多个的表达： Cpf1酶和连接至同向重复序列的多个指导序列。

在一个方面中，本发明提供了一种包含同向重复序列的上游或下游(无论哪一种都适用)的多个指导RNA序列的重组多核苷酸，其中在表达时，每个指导序列引导Cpf1CRISPR复合物与其在真核细胞中存在的相应靶序列的序列特异性结合。在一些实施例中，靶序列是真核细胞中存在的病毒序列。在一些实施例中，靶序列是原癌基因或癌基因。

本发明的方面涵盖可以包含指导RNA(gRNA)和如在此所限定的Cpf1酶的非天然存在或工程化的组合物，该指导RNA包含能够与细胞中感兴趣的基因组座位中的靶序列杂交的指导序列，该Cpf1酶可以包含至少一个或多个核定位序列。

本发明的一个方面涵盖通过将在此所述的任一组合物引入到细胞中来修饰感兴趣的基因组座位以改变该细胞中的基因表达的方法。

本发明的一个方面在于以上元件包含在单一组合物中或包含在单独组合物中。这些组合物可以有利地应用于宿主以引起基因组水平上的功能效应。

如在此所用，术语“指导RNA”或“gRNA”具有如在此其他地方使用的含义(leaning)并且包括与靶核酸序列具有足够互补性以与靶核酸序列杂交并引导核酸靶向复合物与靶核酸序列的序列特异性结合的任何多核苷酸序列。每个gRNA可以被设计成包含特异于相同或不同衔接蛋白的多个结合识别位点(例如适配子)。每个gRNA可以被设计成结合位于转录起始位点(即TSS)的上游的启动子区-1000-+1 核酸，优选-200核酸。此定位改善了影响基因激活(例如，转录激活因子)或基因抑制(例如，转录阻遏物)的功能结构域。修饰gRNA可以是组合物中包含的靶向一个或多个靶座位的一个或多个修饰gRNA(例如至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)。所述多个gRNA序列可以是串联安排的并且优选通过同向重复序列分开。

因此，如在此所限定的gRNA、CRISPR酶可以各自单独地包含在组合物中并且单独或共同地给予至宿主。可替代地，这些组分可以提供于单一组合物中以用于向宿主给予。对宿主的给药可以经由技术人员已知的或在此描述的用于递送至宿主的病毒载体(例如，慢病毒载体、腺病毒载体、AAV载体)进行。如在此解释的，使用不同的选择标记物(例如，对于慢病毒gRNA选择)和gRNA浓度(例如，取决于是否使用多个gRNA)可能对引起改善的效应是有利的。基于此构想，若干种变体适合用于引起基因组座位事件，包括DNA切割、基因激活或基因失活。使用提供的组合物，本领域技术人员可以使用相同或不同功能结构域有利地且特异性地靶向单一或多个座位以引起一个或多个基因组座位事件。组合物可以应用在用于筛选细胞中文库和体内功能模型(例如，lincRNA的基因激活和功能的鉴定；增功能模型；失功能模型；使用本发明组合物来建立细胞系和转基因动物以用于优化和筛选目的)的多种多样的方法中。

本发明包括本发明的组合物用于建立和利用条件型或诱导型CRISPR转基因细胞/动物的用途；例如参见，普莱特(Platt)等人，细胞(2014),159(2):440-455，或在此引用的PCT专利出版物，诸如 WO 2014/093622(PCT/US2013/074667)。例如，细胞或动物诸如非人类动物，例如脊椎动物或哺乳动物，诸如啮齿动物，例如小鼠、大鼠或其他实验室或野生动物，例如猫、狗、羊等，可以进行“敲入”，由此类似于普莱特等人该动物条件型地或可诱导型地表达Cpf1。因此靶细胞或动物包含条件型或可诱导型(例如呈Cre依赖性构建体的形式)的CRISRP酶(例如Cpf1)，在引入到靶细胞中的载体表达时，载体表达Cre，从而诱导或产生了靶细胞中的CRISRP酶(例如Cpf1)表达的条件。通过应用如在此所限定的教授内容和组合物以及创建CRISPR复合物的已知方法，诱导型基因组事件还可以是本发明的一个方面。此类诱导型事件的实例已在此其他地方有所描述。

在一些实施例中，当特别是在治疗方法中遗传疾病被靶向时，表型改变优选是基因组修饰的结果并且优选其中提供了修复模板以校正或改变表型。

在一些实施例中，疾病靶标也可以包括：癌症；镰状细胞贫血(基于点突变)；HBV、HIV； β-地中海贫血；以及眼睛或眼部疾病-例如引起莱伯氏先天性黑矇(LCA)的剪接缺陷。

在此所述的方法、产物和用途可以用于非治疗性目的。此外，任一在此所述方法可以应用于体外离体中。

在一个方面中，提供了非天然存在或工程化的组合物，该组合物包含：

I.两种或更多种CRISPR-Cas系统多核苷酸序列，这些多核苷酸序列包含：

(a)能够杂交至多核苷酸座位中的第一靶序列的第一指导序列，

(b)能够杂交至多核苷酸座位中的第二靶序列的第二指导序列，

(c)同向重复序列，

以及

II.Cpf1酶或编码它的第二多核苷酸序列，

其中当转录时，第一指导序列和第二指导序列分别引导第一Cpf1 CRISPR复合物和第二Cpf1 CRISPR复合物与第一靶序列和第二靶序列的序列特异性结合，

其中第一CRISPR复合物包含与可杂交至第一靶序列的第一指导序列复合的Cpf1酶，

其中第二CRISPR复合物包含与可杂交至第二靶序列的第二指导序列复合的Cpf1酶，并且

其中第一指导序列引导DNA双链体中的靠近第一靶序列的一条链的切割并且第二指导序列引导靠近第二靶序列的另一条链的切割，诱导双链断裂，从而修饰生物体或非人类或非动物生物体。类似地，可以设想包含超过两个的指导RNA的组合物，例如每个RNA特异于一个靶标，并且串联安排在如在此所述的组合物或CRISPR系统或复合物中。

在另一个实施例中，Cpf1作为蛋白质递送至细胞中。在另一个且特别优选的实施例中，Cpf1 作为蛋白质或作为编码它的核苷酸序列递送至细胞中。作为蛋白质向细胞的递送可以包括核糖核蛋白 (RNP)复合物的递送，其中蛋白质与多个指导序列复合。

在一个方面中，提供了通过本发明的组合物、系统或修饰酶修饰或包含这些组合物、系统或修饰酶的宿主细胞和细胞系，包括干细胞及其子代。

在一个方面中，提供了细胞治疗的方法，其中例如取样或培养了单个细胞或细胞群体，其中一个或多个细胞是或已经是如在此所述进行离体修饰的，并且然后被重新引入(取样的细胞)或引入(培养的细胞)到生物体中。就这一点而言，干细胞，无论胚胎干细胞或诱导多能干细胞或全能干细胞也是特别优选的。但是，当然，也设想了体内实施例。

本发明方法可以进一步包括模板的递送，诸如修复模板，这些修复模板可以是dsODN或 ssODN，参见下文。模板递送可以是经由与任一或所有CRISPR酶或指导RNA的递送同时发生或分开并且经由相同递送机制或不同递送机制。在一些实施例中，优选的是，模板与指导RNA一起递送，并且也优选地与CRISPR酶一起递送。一个实例可以是AAV载体，其中CRISPR酶是AsCpf1或LbCpf1。

本发明还包括根据使用用于如在此所限定的串联或多靶向中的CRISPR酶或Cas酶或Cpf1酶或 CRISPR-CRISPR酶或CRISPR-Cas系统或CRISPR-Cpf1系统获得产物。

试剂盒

在一个方面中，本发明提供了含有在以上方法和组合物中所披露的任何一个或多个元件的试剂盒。在一些实施例中，试剂盒包括如在此教授的载体系统和用于使用试剂盒的说明书。元件可以单独地或组合地提供，并且可以被提供于任何适合的容器中，诸如小瓶、瓶子或管。试剂盒可以包括gRNA和如在此所述的非结合保护子链。试剂盒可以包括gRNA以及与指导序列至少部分地结合的保护子链(即 pgRNA)。因此，试剂盒可以包括呈如在此所述的部分双链核苷酸序列的pgRNA。在一些实施例中，试剂盒包括一种或多种语言，例如超过一种语言的说明书。说明书可以是针对在此所述的应用和方法的。

在一些实施例中，试剂盒包括在利用在此所述的一个或多个元件的方法中使用的一种或多种试剂。试剂可以提供于任何适合容器中。例如，试剂盒可以提供一种或多种反应或存储缓冲液。可以按在具体测定中可用的形式或按在使用之前需要添加一种或多种其他组分的形式(例如按浓缩或冻干形式)提供试剂。缓冲液可以是任何缓冲液，包括但不限于碳酸钠缓冲液、碳酸氢钠缓冲液、硼酸盐缓冲液、Tris 缓冲液、MOPS缓冲液、HEPES缓冲液及其组合。在一些实施例中，缓冲液是碱性的。在一些实施例中，缓冲液具有从约7至约10的pH。在一些实施例中，试剂盒包括一种或多种寡核苷酸，该一种或多种寡核苷酸对应于用于插入到载体中的指导序列，以便可操作地连接该指导序列和调节元件。在一些实施例中，试剂盒包括同源重组模板多核苷酸。在一些实施例中，试剂盒包括在此所述的一种或多种载体和/或一种或多种多核苷酸。试剂盒可以有利地允许提供本发明的系统的所有元件。

在一个方面中，本发明提供了用于使用CRISPR系统的一个或多个元件的方法。本发明的 CRISPR复合物提供了一种用于修饰靶多核苷酸的有效手段。本发明的CRISPR复合物具有多种多样的效用，包括修饰(例如，缺失、插入、易位、失活、激活)许多细胞类型中的靶多核苷酸。这样，本发明的 CRISPR复合物在例如基因治疗、药物筛选、疾病诊断以及预后方面具有广泛的应用。示例性CRISPR复合物包含与杂交至靶多核苷酸内的靶序列的指导序列复合的CRISPR效应蛋白。在某些实施例中，同向重复序列连接至指导序列。

在一个实施例中，本发明提供了一种切割靶多核苷酸的方法。该方法包括使用结合靶多核苷酸的CRISPR复合物修饰靶多核苷酸并且实施所述靶多核苷酸的切割。典型地，本发明的CRISPR复合物在被引入到细胞中时产生基因组序列的断裂(例如单链或双链断裂)。例如，该方法可以用于切割细胞中的疾病相关基因。

通过CRISPR复合物产生的断裂可以通过修复过程来修复，诸如易出错的非同源末端连接 (NHEJ)途径或高保真性同源定向修复(HDR)。在这些修复过程期间，可以将一个外源性多核苷酸模板引入到基因组序列中。在一些方法中，该HDR过程被用于修饰基因组序列。例如，可以将包含有待整合的侧接有一个上游序列和一个下游序列的序列的外源性多核苷酸模板引入到细胞中。上游序列和下游序列与染色体中整合位点的任一侧享有序列相似性。

在希望的情况下，供体多核苷酸可以是DNA，例如DNA质粒、细菌人工染色体(BAC)、酵母人工染色体(YAC)、病毒载体、一段线性DNA、PCR片段、裸核酸或与递送媒介物(诸如脂质体或泊洛沙姆)复合的核酸。

外源性多核苷酸模板包含有待整合的序列(例如，突变型基因)。供整合的序列可以是对细胞而言内源或外源的序列。有待整合的序列的实例包括编码蛋白质的多核苷酸或非编码RNA(例如，微小 RNA)。因此，供整合的序列可以可操作地连接至一种或多种适当的控制序列。可替代地，有待整合的序列可以提供调节功能。

外源性多核苷酸模板中的上游序列和下游序列被选择为促进感兴趣的染色体序列与供体多核苷酸之间的重组。上游序列是与供整合的靶向位点的上游的基因组序列享有序列相似性的核酸序列。类似地，下游序列是与整合的靶向位点的下游的染色体序列享有序列相似性的核酸序列。外源性多核苷酸模板中的上游序列和下游序列与靶向的基因组序列可以具有75％、80％、85％、90％、95％或100％序列一致性。优选地，外源性多核苷酸模板中的上游序列和下游序列与靶向的基因组序列具有约95％、96％、97％、98％、 99％或100％序列一致性。在一些方法中，外源性多核苷酸模板中的上游序列和下游序列与靶向的基因组序列具有约99％或100％序列一致性。

上游序列或下游序列可以包含从约20bp至约2500bp，例如约50、100、200、300、400、500、 600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、 2200、2300、2400或2500bp。在一些方法中，示例性上游序列或下游序列具有约200bp至约2000bp、约600 bp至约1000bp，或更具体地约700bp至约1000bp。

在一些方法中，外源性多核苷酸模板可以进一步包含标记物。此标记物可以使得容易地筛选靶向的整合。适合的标记物的实例包括限制位点、荧光蛋白或选择标记物。可以使用重组技术构建本发明的外源性多核苷酸模板(例如参见，萨姆布鲁克(Sambrook)等人，2001和奥苏贝尔(Ausubel)等人， 1996)。

在一个用于通过整合外源性多核苷酸模板来修饰靶多核苷酸的示例性方法中，通过CRISPR复合物将双链断裂引入到基因组序列中，经由同源重组外源性多核苷酸模板而修复该断裂，这样使得将该模板整合到基因组中。双链断裂的存在促进模板的整合。

在其他实施例中，本发明提供了一种修饰多核苷酸在真核细胞中的表达的方法。该方法包括通过使用结合多核苷酸的CRISPR复合物增加或减少靶多核苷酸的表达。

在一些方法中，控制序列可以失活，使得其不再作为控制序列起作用。如在此使用，“控制序列”是指影响核酸序列的转录、翻译或可及性的任何核酸序列。控制序列的实例包括启动子、转录终止子和增强子，它们是控制序列。失活的靶序列可以包括缺失突变(即，缺失一个或多个核苷酸)、插入突变 (即，插入一个或多个核苷酸)或无义突变(即，用另一个核苷酸取代一个单核苷酸，这样使得引入终止密码子)。在一些方法中，靶序列的失活导致该靶序列的“敲除”。

CRISPR Cas系统的示例性使用方法

本发明提供了一种非天然存在的或工程化的组合物、或编码所述组合物的组分的一种或多种多核苷酸、或含有编码所述组合物的组分一种或多种多核苷酸的载体或递送系统，其用于体内、离体或体外修饰靶细胞并且该修饰可以改变细胞使得一旦修饰，CRISPR修饰细胞的子代或细胞系保留改变的表型的方式实施。这些修饰的细胞和子代可以是多细胞生物体的一部分，诸如在将CRISPR系统应用于所希望的细胞类型的情况下的植物或动物。CRISPR发明可以是一种治疗性治疗方法。治疗性治疗方法可以包括基因或基因组编辑，或基因治疗。

失活的CRISPR Cpf1酶用于检测方法诸如FISH的用途

在一个方面中，本发明提供了一种包含在此所述的催化失活Cas蛋白，优选失活Cpf1(dCpf1) 的工程化、非天然发生的CRISPR-Cas系统，以及此系统在检测方法诸如荧光原位杂交(FISH)的检测方法中的用途。缺乏产生DNA双链断裂的能力的dCpf1可以与标记物诸如荧光蛋白，诸如增强型绿色荧光蛋白(eEGFP)融合，并且与小指导RNA共表达以靶向体内的臂间、中心和端粒的(teleomeric)重复序列。 dCpf1系统可以用于可视化人类基因组中的重复序列和单个基因两者。标记的dCpf1 CRISPR-cas系统的此类新应用在成像细胞和研究机能核体系结构中，特别是在小核体积或复合物3-D结构的情况下可能是重要的。(陈·B、吉伯·LA(Gilbert LA)、克伊米尼·BA(Cimini BA)、斯尼茨鲍尔·J(Schnitzbauer J)、张·W、李·GW、帕克·J(Park J)、布莱克本·EH(Blackburn EH)、魏斯曼·JS(Weissman JS)、齐·LS(Qi LS)、黄·B(Huang B)，2013，通过优化的CRISPR/Cas系统使活人类细胞中的基因组座位动态成像，细胞155(7):1479-91.doi: 10.1016/j.cell.2013.12.001.)

用CRISPR Cas系统或复合物(例如，Cpf1-RNA复合物)修饰靶标

在一个方面中，本发明提供了修饰真核细胞中的靶多核苷酸的方法，这些方法可以是在体内、离体或在体外。在一些实施例中，该方法包括从人类或非人类动物取样细胞或细胞群体，并且修饰该细胞或这些细胞。培养可以发生在离体的任何阶段。该细胞或这些细胞甚至可以被重新引入非人类动物或植物中。对于重新引入的细胞，特别优选的是这些细胞是干细胞。

在一些实施例中，该方法包括使得CRISPR复合物结合靶多核苷酸来实施所述靶多核苷酸的切割，从而修饰该靶多核苷酸，其中该CRISPR复合物包含与杂交至或可杂交至所述靶多核苷酸内的靶序列的指导序列复合的CRISPR酶。

在一个方面中，本发明提供了一种修饰多核苷酸在真核细胞中的表达的方法。在一些实施例中，该方法包括使得CRISPR复合物结合该多核苷酸，以使得所述结合导致所述多核苷酸的表达增加或减少；其中CRISPR复合物包含与杂交至或可杂交至所述多核苷酸内的靶序列的指导序列复合的CRISPR酶。类似的考虑因素和条件适用如上文针对修饰靶多核苷酸的方法。实际上，这些取样、培养和重新引入选择跨本发明的多个方面而适用。

实际上，在本发明的任何方面中，CRISPR复合物可以包含与杂交至或可杂交至靶序列的指导序列复合的CRISPR酶。类似的考虑因素和条件适用如上文针对修饰靶多核苷酸的方法。

因此，在在此所述的任一非天然存在的CRISPR酶中包含至少一种修饰并且由此该酶具有某些改善的能力。具体地说，任一酶能够与指导RNA形成CRISPR复合物。当形成此复合物时，指导RNA能够结合靶多核苷酸序列并且酶能够修饰靶座位。此外，与未修饰酶相比，CRISPR复合物中的酶具有降低的修饰一个或多个脱靶座位的能力。

此外，在此所述的修饰CRISPR酶涵盖下述的酶：由此在CRISPR复合物中该酶与未修饰酶相比具有增加的修饰一个或多个靶座位的能力。此功能可以单独提供或者与以上所述的降低的修饰一个或多个脱靶座位的能力的功能组合提供。任何此类酶可以提供有如在此所述的对CRISPR酶的任一另外修饰，诸如与通过一个或多个缔合的异源功能结构域提供的任何活性、任何降低核酸酶活性的另外突变等组合。

在本发明的有利实施例中，修饰CRISPR酶相比于未修饰酶被提供有降低的修饰一个或多个脱靶座位的能力并且相比于未修饰酶被提供有增加的修饰一个或多个靶座位的能力。在与对酶的另外修饰组合的情况下，可以实现显著增强的特异性。例如，提供了此类有利实施例与一个或多个另外的突变的组合，其中一个或多个另外的突变是处于一个或多个催化活性结构域之中。此类另外的催化突变可以赋予如在此其他地方详细所述的切口酶功能性。在此类酶中，可以实现增强的特异性，这归因于关于酶活性的改善特异性。

可以对坐落于位于RuvC-III结构域与HNH结构域之间的带正电荷的区/沟中的氨基酸残基进行如以上所述的降低脱靶效应和/或增强中靶效应的突变。应了解的是，任一以上所述的功能效应可以通过上述沟内的氨基酸的修饰来实现，但是还通过相邻于此沟或在此沟之外的氨基酸的修饰来实现。

可以被工程化到如在此所述的修饰CRISPR酶的另外功能包括以下项。1.破坏DNA:蛋白质相互作用而不影响蛋白质三级或二级结构的修饰CRISPR酶。此CRISPR酶包含接触RNA:DNA双链体的任一部分的残基。2.响应于DNA结合(中靶或脱靶)削弱内部蛋白质相互作用使Cpf1保持为核酸酶切割所必需的构象的修饰CRISPR酶。例如，微弱抑制，但是仍允许HNH结构域(定位在易裂的磷酸盐处)的核酸酶构象的修饰。3.响应于DNA结合(中靶或脱靶)增强内部蛋白质相互作用使Cpf1保持为抑制核酸酶活性的构象的修饰CRISPR酶。例如：将HNH结构域稳定为呈远离易裂的磷酸盐的构象的修饰。可以与如在此其他地方详细所述的对CRISPR酶的任何其他修饰组合来提供任何此另外的功能增强。

任一在此所述的改善功能性可以对任何CRISPR酶，诸如Cpf1酶进行。然而，应了解，在此所述的任一功能性可以被工程化到来自其他直向同源物的Cpf1酶中，包括包含来自多个直向同源物的片段的嵌合酶。

核酸、氨基酸和蛋白质、调节序列、载体等

本发明使用核酸结合靶DNA序列。这是有利的，因为核酸的制备比蛋白质更容易且更便宜，并且特异性根据其中寻求同源性的一段序列长度而改变。多靶指的复杂3-D定位例如是不需要的。术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”以及“寡核苷酸”是可互换使用的。它们是指任何长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸)的聚合形式或其类似物。多核苷酸可以具有任何三维结构并且可以执行任何已知或未知的功能。以下各项是多核苷酸的非限制性实例：基因或基因片段的编码区或非编码区、由连锁分析定义的多个座位(一个座位)、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核糖核酸酶、cDNA、重组多核苷酸、分枝多核苷酸、质粒、载体、分离的任何序列的DNA、分离的任何序列的RNA、核酸探针以及引物。该术语还涵盖具有合成骨架的核酸样结构，参见例如埃克斯坦(Eckstein)，1991；巴塞折(Baserga)等人，1992；米利根(Milligan)，1993；WO 97/03211；WO 96/39154；马塔(Mata)，1997；施特劳斯-绍库普 (Strauss-Soukup)，1997；以及扎姆斯塔格(Samstag)，1996。多核苷酸可以包含一个或多个修饰核苷酸，诸如甲基化核苷酸和核苷酸类似物。如果存在的话，对核苷酸结构的修饰可以在聚合物组装之前或之后赋予。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可以在聚合之后诸如通过与标记组分轭合来进一步修饰。如在此所用，术语“野生型”是本领域技术人员理解的技术术语并且意指在自然界中出现的典型式的生物体、菌株、基因或特征，与突变体或变体形式区分。“野生型”可以是底线。如在此所用，术语“变体”应理解为意指具有源自自然界中存在的模式的性质展示。术语“非天然存在的”或“工程化的”是可互换使用的并且是指涉及人工处理。这些术语当提及核酸分子或多肽时意指核酸分子或多肽至少基本上与至少一种其他组分分离，该至少一种其他组分在自然界中与该核酸分子或多肽天然缔合并且如自然界中发现的。“互补”是指核酸通过传统的沃森-克里克碱基配对或其他非传统类型来与另一个核酸序列形成氢键的能力。互补百分比表示核酸分子中可与第二核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基百分比(例如，10分之5、6、7、8、9、10是50％、60％、70％、80％、90％以及100％互补)。“完美互补”意指核酸序列的所有连续残基都将与第二核酸序列中同样数目的连续残基形成氢键。如在此所用的“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、 45、50、或更多个核苷酸上的至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％、或100％的互补程度，或者是指在严格条件下杂交的两个核酸。如在此所用，用于杂交的“严格条件”是指与靶序列具有互补的核酸与靶序列显著杂交并且基本上不与非靶序列杂交的条件。严格条件通常是依赖序列的并且根据多种因素而改变。总的来说，该序列越长，该序列与其靶序列特异性杂交的温度越高。严格条件的非限制性实例详细描述于媞撒(Tijssen)(1993)，生物化学和分子生物学实验室技术-与核酸探针杂交第I部分，第二章“杂交理论和核酸探针测定策略的综述”(LaboratoryTechniques In Biochemistry And Molecular Biology-Hybridization With NucleicAcid Probes Part I,Second Chapter“Overview of principles of hybridization andthe strategy of nucleic acid probe assay”)，纽约爱思维尔公司(Elsevier,N.Y.)。在参考多核苷酸序列时，那么还设想互补或部分互补的序列。这些序列优选地能够在高严格条件下与参考序列杂交。总体上，为了使杂交率最大化，选择相对低的严格杂交条件：低于熔点(T_m)约20℃至25℃。该T_m是50％特定靶序列在限定的离子强度和pH的溶液中与完美互补探针杂交的温度。总体上，为了要求至少约85％核苷酸互补的杂交序列，选择高严格洗涤条件为低于该T_m约5℃至15℃。为了要求至少约70％核苷酸互补的杂交序列，选择中等严格洗涤条件为低于该T_m约15℃至30℃。高容许(极低严格)洗涤条件可以是低至在该T_m之下50℃，从而允许在杂交序列之间高错配水平。本领域技术人员将认识到，杂交和洗涤阶段的其他物理和化学参数也可被改变为影响来自靶标与探针序列之间特定同源性水平的可检测杂交信号的结果。优选高严格条件包括在50％甲酰胺、5×SSC以及1％SDS中在42℃下孵育或者在5×SSC和1％SDS中在65℃下孵育，在0.2×SSC和0.1％SDS中在65℃下洗涤。“杂交”是指其中一个或多个多核苷酸反应形成经由核苷酸残基的碱基之间氢键键合而稳定的复合物的反应。氢键可以通过沃森-克里克碱基配对、Hoogstein键合或以任何其他序列特异性方式形成该复合物可包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、单一自杂交链或这些的任何组合。杂交反应可以构成在更广泛的方法中的步骤，诸如PCR起始、或酶切割多核苷酸。能够与给定序列杂交的序列被称为给定序列的“补体”。如在此所用，术语“基因组座位(genomic locus)”或“座位(locus)”(复数是座位(loci))是染色体上的基因或DNA序列的特定位点。 “基因”是指编码在生物体中具有功能作用的多肽或RNA链的DNA或RNA片段并且因此是活生物体中的遗传分子单元。出于本发明的目的，可以认为基因包含调节基因产物产生的区域，无论此类调节序列是否与编码序列和/或转录序列相邻。因此，基因包括但不一定限于，启动子序列、终止子、翻译调节序列诸如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点以及座位控制区。如在此所用，“基因组座位的表达”或“基因表达”是来自基因的信息用于合成功能基因产物所通过的过程。基因表达产物常常是蛋白质，但在非蛋白编码基因诸如rRNA基因或tRNA基因中，该产物是功能RNA。所有已知生命(真核生物(包括多细胞生物体)、原核生物(细菌和古生菌)以及病毒) 使用基因表达过程产生功能产物以生存。如在此所用，基因或核酸的“表达”不仅涵盖细胞基因表达，而且涵盖克隆系统和任何其他背景中的核酸转录和翻译。如在此所用，“表达”还是指多核苷酸从DNA模板转录(诸如转录成mRNA或其他RNA转录物)所通过的过程和/或转录的mRNA随后翻译成肽、多肽或蛋白质所通过的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸来源于基因组DNA，则在真核细胞中表达可以包括mRNA的剪接。在此可互换使用的术语“多肽”、“肽”和“蛋白质”是指具有任何长度的氨基酸聚合物。该聚合物可以是线性或支化的，它可以包含修饰氨基酸，并且它可以被非氨基酸中断。这些术语还涵盖已修饰的氨基酸聚合物；例如，二硫键形成、糖基化、脂化、乙酰化、磷酸化活任何其他操纵，诸如与标记组分轭合。如在此所用，术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸和D或L光学异构体，以及氨基酸类似物和肽模拟物。如在此所用，术语“结构域”或“蛋白质结构域”是指可以存在并且独立于其余蛋白质链起作用的一部分蛋白质序列。如本发明的多个方面中所述的，序列一致性与序列同源性相关。同源性比较可以通过眼睛来进行，或者更通常地借助于容易获得的序列比较程序来进行。这些商业上可用的计算机程序可以计算两个或更多更序列之间的同源性百分比(％) 并且还可以计算两个或更多更氨基酸或核酸序列所享有的序列一致性。

在本发明的多个方面中，术语“指导RNA”是指包含推定或鉴定的crRNA序列或指导序列的多核苷酸序列。

如在此所用，术语“野生型”是本领域技术人员理解的技术术语并且意指在自然界中出现的典型式的生物体、菌株、基因或特征，与突变体或变体形式区分。“野生型”可以是底线。

如在此所用，术语“变体”应理解为意指具有源自自然界中存在的模式的性质展示。

术语“非天然存在的”或“工程化的”是可互换使用的并且是指涉及人工处理。这些术语当提及核酸分子或多肽时意指核酸分子或多肽至少基本上与至少一种其他组分分离，该至少一种其他组分在自然界中与该核酸分子或多肽天然缔合并且如自然界中发现的。在所有方面和实施例中，无论它们是否包括这些术语，都应当理解，优选地，它们可以是任选的并且因此优选地包括或并不优选地不包括。此外，术语“非天然存在的”和“工程化的”可以是可互换使用的并且因此也可以单独或组合使用，并且在两者一起提及时，它们可以彼此替换。具体地说，“工程化的”优选地代替“非天然存在的”或“非天然存在的和/或工程化的”。

序列同源性可以通过任何本领域已知的多种计算机程序例如BLAST或FASTA来生成。用于进行此种比对的适合计算机程序是GCG威斯康星·贝斯菲特(WisconsinBestfit)软件包(美国威斯康星大学 (University of Wisconsin,U.S.A)；德弗罗(Devereux)等人，1984，核酸研究(Nucleic Acids Res.)12:387)。可以进行序列比较的其他软件的实例包括但不限于，BLAST软件包(参见奥苏贝尔等人，1999同上-第18 章)、FASTA(安特斯库尔等人，1990，分子生物学(J.Mol.Biol.)，403-410)和GENEWORKS比较工具套件。BLAST和FASTA两种均可用于离线和在线搜索(参见奥苏贝尔等人，1999同上，第7-58页至第7-60 页)。然而，优选使用GCG贝斯菲特程序。序列同源性百分比(％)可以对连续序列计算，即将一个序列与另一个序列比对并且将在一个序列中的每个氨基酸或核苷酸与另一个序列中的相应氨基酸或核苷酸直接比较，每次一个残基。这被称为“无空位”比对。典型地，此类无空位比对仅对相对短的多个残基进行。尽管这是一种非常简单且连贯的方法，但是它未能考虑到例如，在序列的另外相同碱基对中，一个插入或缺失可以引起后面的氨基酸残基无法比对，因此可能导致在进行总体比对时同源性％大大减小。因此，大部分序列比较方法被设计为产生最佳比对，从而考虑到可能的插入和缺失而不会过度不利于总体同源性或一致性得分。这通过在序列比对中插入“空位”以试图最大化局部同源性或一致性来实现。然而，这些更复杂的方法将“空位罚分”分配给出现在比对中的每个空位，以使得对于相同数目的相同氨基酸，与尽可能少的空位(影响两个比较的序列之间的较高相关性)的序列比对可以实现比具有许多空位的序列更高的得分。“亲和力空位成本(Affinity gap cost)”典型地用于对空位的存在承担相对高的成本并且对空位中的每个后续残基施加较小的罚分。这是最常使用的空位评分系统。高空位罚分当然可以产生与较少空位的最佳比对。大部分比对程序允许修改空位罚分。然而，优选地当使用此类软件进行序列比较时使用默认值。例如，当使用GCG威斯康星·贝斯菲特软件包时，氨基酸的默认空位罚分对于空位是-12并且对于每个延伸是-4。因此最大同源性％的计算首先需要产生最佳比对，考虑到空位罚分。用于进行此种比对的适合的计算机软件是GCG威斯康星·贝斯菲特软件包(德弗罗等人，1984核酸研究12p387)。可以进行序列比较的其他软件的实例包括但不限于，BLAST软件包(参见奥苏贝尔等人，1999，分子生物学短方案，第4版-第 18章)、FASTA(安特斯库尔等人，1990分子杂志生物学403-410)和GENEWORKS比较工具套件。BLAST 和FASTA两种均可用于离线和在线搜索(参见奥苏贝尔等人，1999，分子生物学短方案，第7-58页至第7-60 页)。然而，对于一些应用，优选使用GCG贝斯菲特程序。一种称为BLAST 2序列的新工具也可用于比较蛋白质和核苷酸序列(参见FEMS微生物学概述(FEMSMicrobiol Lett.)1999 174(2):247-50；FEMS微生物学概述1999 177(1):187-8以及国家健康研究所网站的国家生物技术信息中心网站)。尽管可以根据一致性测量最终同源性％，但是比对方法本身典型地并不是基于不全则无的成对比较。相反，通常使用标准的相似性评分矩阵，它基于化学相似性或进化距离将得分分配给每个成对比较。通常使用的这种矩阵的实例是 BLOSUM62矩阵-这是BLAST程序套件的默认矩阵。GCG威斯康星程序通常使用公用的默认值或自定义符号比较表，如果提供的话(详细内容，参见使用者手册)。对于一些应用，优选地对于GCG软件包使用公用默认值，并且在其他软件的情况下，使用默认矩阵，诸如BLOSUM62。可替代地，可以使用DNASIS^TM (日立软件公司)中的多重比对特征，基于与CLUSTAL类似的算法计算同源性百分比(希金斯·DG(Higgins DG)和夏普·PM(SharpPM)(1988)，基因73(1),237-244)。一旦软件生成最佳比对，可以计算同源性％，优选地序列一致性％。软件典型地进行作为序列比较的一部分的此计算并且生成多个结果。这些序列还可以具有氨基酸残基的缺失、插入或取代，这产生沉默变化并且形成功能上等效的物质。可以基于氨基酸特征(诸如残基的极性、电荷、可溶性、疏水性、亲水性、和/或两亲性)的类似性来进行有目的的氨基酸取代并且因此将氨基酸以官能团分组在一起是有用的。氨基酸可以基于其单独的侧链的特征来分组在一起。然而，包括突变数据也会更有用。出于结构原因，因此衍生的几组氨基酸可能是保守的。这几组可以维恩图形式描述(利文斯敦·C.D.(Livingstone C.D.)和巴顿·G.J.(Barton G.J.)(1993)“蛋白质序列比对：用于分层分析残基保守性的策略(Protein sequence alignments:a strategy for thehierarchical analysis of residue conservation)”生物科学中的计算机应用(Comput.Appl Biosci.)9:745-756)(泰勒·W.R.(Taylor W.R.)(1986) “氨基酸保守性分类(The classification of amino acid conservation)”理论生物学杂志(J.Theor.Biol.)119； 205-218)。可以例如根据下表进行保守性取代，该表描述了普遍接受的氨基酸维恩图分组。

在此可互换使用的术语“受试者”、“个体”和“患者”是指脊椎动物，优选地是哺乳动物，更优选地是人类。哺乳动物包括但不限于，鼠类、猴类、人类、家畜、竞技动物、以及宠物。还涵盖体内获得或体外培养的生物实体的组织、细胞以及其子代。

术语“治疗药”、“能治疗的药剂”或“治疗剂”是可互换使用的并且是指当给予受试者时赋予一些有利作用的分子或化合物。有利作用包括实现诊断确定；缓解疾病、症状、病症或病理病状；减少或预防疾病、症状、病症或病状的发作；以及大体上消除疾病、症状、病症或病理病状。

如在此所用，“治疗”或“进行治疗”或“减轻”或“缓解”是在此可互换使用的。这些术语是指一种用于获得有利或希望的结果的方法，这些结果包括但不限于治疗益处和/或预防益处。治疗益处意指在治疗中的一种或多种疾病、病状、症状中的任何治疗上的相关改进或对这些疾病的作用。对于预防益处，组合物可以给予至处于发展具体的疾病、病状或症状的风险中的受试者，或给予报告疾病的一种或多种生理学症状的受试者，尽管这种疾病、病状或症状可能还未得到证实。

术语“有效量”或“治疗有效量”是指药剂足以实现有利或希望的结果的量。治疗有效量可以根据以下各项中的一种或多种来改变：受试者和正在治疗的疾病病状、受试者的体重和年龄、疾病病状的严重性、给药方式等，这些可以容易通过本领域技术人员确定。该术语还适合于将通过在此所述的任何一种成像方法提供检测图像的剂量。该特定剂量可以根据以下各项中的一种或多种来改变：所选择的具体药剂、随后的给药方案(无论它是否与其他化合物组合)、给药时间、成像的组织、以及其中携带它的物理递送系统。

本发明的若干方面涉及包含一种或多种载体的载体系统或这样的载体。载体可以被设计为在原核细胞或真核细胞中表达CRISPR转录物(例如，核酸转录物、蛋白质或酶)。例如，CRISPR转录物可以在细菌细胞诸如大肠杆菌、昆虫细胞(使用杆状病毒表达载体)、酵母细胞、或哺乳动物细胞中表达。适合的宿主细胞在高德尔，基因表达技术：酶学方法185，学术出版社，加利福尼亚州圣迭哥(1990)中进行进一步讨论。可替代地，重组表达载体可以例如使用T7启动子调节序列和T7聚合酶来进行体外转录和翻译。

本发明的实施例包括可以含有可发生的同源取代(取代和替换二者在此用于意指存在的氨基酸残基或核苷酸与替代性残基或核苷酸的互换)的序列(多核苷酸或多肽二者)，该同源取代即在氨基酸的情况下的同比取代，诸如碱对碱、酸对酸、极性对极性等。也可以发生非同源性取代，即从一类残基到另一类残基或者可替代地涉及包含非天然氨基酸诸如鸟氨酸(在下文中称为Z)、二氨基丁酸鸟氨酸(在下文中称为B)、正亮氨酸鸟氨酸(在下文中称为O)、吡啶基丙氨酸、噻吩丙氨酸、萘基丙氨酸以及苯基甘氨酸。变体氨基酸序列可以包含适合的间隔基团，这些间隔基团可以插入在该序列的任何两个氨基酸残基之间，包括烷基诸如甲基、乙基或丙基以及氨基酸间隔物诸如甘氨酸或β-丙氨酸残基。涉及在类肽形式中存在一个或多个氨基酸残基的另一种变型形式可以被本领域技术人员很好地理解。为免生疑，“类肽形式” 用于指示变体氨基酸残基，其中α-碳取代基是在残基的氮原子上而不是α-碳上。用于制备类肽形式的肽的方法是本领域已知的，例如西蒙·RJ(SimonRJ)等人，美国国家科学院院刊(PNAS)(1992)89(20),9367-9371 以及奥尔韦尔·DC(Horwell DC)，生物技术趋势(Trends Biotechnol.)(1995)13(4),132-134。

同源建模：在其他Cpf1直向同源物中的相应残基可以通过以下方法来鉴定：张等人，2012(自然(Nature)；490(7421):556-60)和陈等人，2015(科学公共图书馆计算生物学(PLoS Comput Biol)；11(5): e1004248)-一种预测由结构域基序界面介导的相互作用的计算蛋白质-蛋白质相互作用(PPI)方法。PrePPI (预测的PPI)是一种基于结构的PPI预测方法，该方法使用贝叶斯统计框架将结构证据与非结构证据组合。该方法涉及查询蛋白质的碱基对并且使用结构比对鉴定与其实验上确定的结构或同源模型相对应的结构示意图。结构比对进一步用于通过考虑整体和局部几何关系来鉴定近处和远处的结构邻近物。无论何时结构示意图的两个邻近物形成蛋白质数据库中报道的复合物，这定义了一种用于建模两种查询蛋白质之间的相互作用的模板。复合物模型是通过在模板的相应结构邻近物上叠加代表性结构来创建的。此方法进一步描述于戴伊等人，2013(蛋白质科学(ProtSci)；22:359-66)。

出于本发明的目的，扩增意指采用能够以适当保真度复制靶序列的引物和聚合酶的任何方法。扩增可以是通过天然或重组DNA聚合酶诸如TaqGoldTM、T7 DNA聚合酶、大肠杆菌DNA聚合酶的克列诺片段、以及逆转录酶。一种优选扩增方法是PCR。

在某些方面中，本发明涉及载体。如在此所用，“载体”是一种允许或帮助实体从一个环境转移到另一个环境中的工具。它是一个复制子，诸如质粒、噬菌体或粘粒，可以向该复制子中插入另一个DNA 区段以便使得该插入的区段复制。通常，载体在与适当控制元件缔合时能够复制。总的来说，术语“载体” 是指能够转运它所连接的另一个核酸的核酸分子。载体包括但不限于，单链、双链或部分双链的核酸分子；包含一个或多个游离端、不包含游离端(例如，环状)的核酸分子；包含DNA、RNA或二者的核酸分子；以及本领域已知的其他种类多核苷酸。一种类型的载体是“质粒”，该质粒是指一种环状双链DNA环，可以诸如通过标准分子克隆技术向该环中插入另外的DNA区段。另一种类型的载体是病毒载体，其中病毒来源的DNA或RNA序列存在于包装到病毒(例如，逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒、以及腺相关病毒(AAV))中的载体中。病毒载体还包括由转染到宿主细胞中的病毒携带的多核苷酸。某些载体能够在引入它们的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体和附加型哺乳动物载体)。其他载体(例如，非附加型哺乳动物载体)在引入到宿主细胞后被整合到宿主细胞的基因组中，并且因此随着宿主基因组一起复制。此外，某些载体能够引导它们可操作地连接的基因的表达。此类载体在此被称为“表达载体”。在重组DNA技术中实用的常见表达载体常常是质粒形式。

重组表达载体可以包含处于适用于核酸在宿主细胞中表达的形式的本发明的核酸，这意味着重组表达载体包含一个或多个调节元件，这些调节元件可以基于用于表达的宿主细胞来选择，可操作地连接至有待表达的核酸序列。在重组表达载体内，“可操作地连接”旨在意指感兴趣的核苷酸序列以允许核苷酸序列表达(例如，在体外转录/翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中)的方式连接至一个或多个调节元件。关于重组和克隆方法，参考2004年9月2日作为US 2004-0171156 A1公开的美国专利申请10/815,730，这些专利的内容通过引用以其整体结合在此。

本发明的多个方面涉及指导RNA和(任选修饰或突变的)CRISPR酶(例如，Cpf1)的双顺反子载体。指导RNA和(任选修饰或突变的)CRISPR酶的双顺反子表达载体是优选的。总的来说并且具体的说，在此实施例中(任选修饰或突变的)CRISPR酶是优选通过CBh启动子驱动。该RNA可以是优选地通过Pol III启动子诸如U6启动子驱动。理想的是，将两者组合。

在一些实施例中，提供了指导RNA中的环。这可以是发夹环或四元环。该环优选地是GAAA，但不限于此序列或者确实是仅4bp的长度。实际上，用于发夹结构中的优选成环序列的长度是四个核苷酸，并且最优选地具有序列GAAA。然而，也可以使用较长或较短的环序列，如可以是替代性序列。这些序列优选地包含核苷酸三联体(例如，AAA)和另一个核苷酸(例如C或G)。成环序列的实例包括CAAA和AAAG。在实践在此披露的任何方法时，可以经由本领域已知的一种或多种方法来将适合的载体引入到细胞或胚胎中，这些方法包括但不限于，微注射、电穿孔、声孔效应、基因枪、磷酸钙介导的转染、阳离子转染、脂质体转染、树枝状转染、热激转染、核转染、磁转染、脂转染、刺穿转染、光学转染、专有剂增强的核酸摄取、以及经由脂质体、免疫脂质体、病毒体或人工病毒体递送。在一些方法中，载体通过微注射引入到胚胎中。这种或这些载体可以微注射到胚胎的核或胞质中。在一些方法中，这种或这些载体可以通过核转染引入到细胞中。

术语“调节元件”旨在包括启动子、增强子、内部核糖体进入位点(IRES)以及其他表达控制元件(例如，转录终止信号，诸如多聚腺苷酸化信号和聚U序列)。此类调节元件描述于例如高德尔，基因表达技术：酶学方法185，学术出版社，加利福尼亚州圣迭哥(1990)中。调节元件包括引导核苷酸序列在许多类型的宿主细胞中连续表达的那些元件和引导核苷酸序列仅在某些宿主细胞中表达的那些元件(例如，组织特异性调节序列)。组织特异性启动子可以引导主要在希望的感兴趣的组织诸如肌肉、神经元、骨骼、皮肤、血液、特定器官(例如，肝脏、胰脏)、或特定细胞类型(例如，淋巴细胞)中的表达。调节元件还可以时间依赖性方式诸如细胞周期依赖性或发育阶段依赖性方式引导表达，这可以是或也可以不是组织特异性或细胞类型特异性的。在一些实施例中，载体包含一个或多个pol III启动子(例如，1、2、3、 4、5、或更多个pol III启动子)、一个或多个pol II启动子(例如，1、2、3、4、5、或更多个pol II启动子)、一个或多个pol I启动子(例如，1、2、3、4、5、或更多个pol I启动子)、或其组合。pol III启动子的实例包括但不限于，U6和H1启动子。pol II启动子的实例包括但不限于，逆转录病毒劳斯氏肉瘤病毒(RSV)LTR 启动子(任选地具有RSV增强子)、巨细胞病毒(CMV)启动子(任选地具有CMV增强子)[例如，参见博沙特等人，细胞，41:521-530(1985)]、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子、以及EF1α启动子。术语“调节元件”还涵盖增强子元件，诸如WPRE；CMV增强子；HTLV-I的LTR中的R-U5’区段(分子细胞生物学，第8(1)卷，第466-472页，1988)；SV40增强子；以及兔β-球蛋白的外显子2与3之间的内含子序列(美国国家科学院院刊，第78(3)卷，第1527-31页，1981)。本领域技术人员将了解的是，表达载体的设计可以取决于诸如有待转化的宿主细胞的选择、所希望的表达水平等因素。载体可以引入到宿主细胞中从而产生由在此所述的核酸编码的转录物、蛋白质或肽，包括融合蛋白或肽(例如，成簇规律间隔短回文重复序列(CRISPR)转录物、蛋白质、酶、其突变体形式、其融合蛋白等)。关于调节序列，参考美国专利申请10/491,026，该专利申请的内容通过引用以其整体结合在此。关于启动子，参考PCT公开WO 2011/028929和美国申请12/511,940，这些专利申请的内容通过引用以其整体结合在此。

载体可以被设计为在原核细胞或真核细胞中表达CRISPR转录物(例如，核酸转录物、蛋白质或酶)。例如，CRISPR转录物可以在细菌细胞诸如大肠杆菌、昆虫细胞(使用杆状病毒表达载体)、酵母细胞、或哺乳动物细胞中表达。适合的宿主细胞在高德尔，基因表达技术：酶学方法185，学术出版社，加利福尼亚州圣迭哥(1990)中进行进一步讨论。可替代地，重组表达载体可以例如使用T7启动子调节序列和T7聚合酶来进行体外转录和翻译。

载体可以在原核生物或原核细胞中引入并增殖。在一些实施例中，使用原核生物扩增有待引入到真核细胞的载体拷贝或者作为产生有待引入真核细胞的载体的中间载体(例如，扩增作为病毒载体包装系统的一部分的质粒)。在一些实施例，使用原核生物扩增载体拷贝并表达一种或多种核酸，以便提供用于递送至宿主细胞或宿主生物体的一种或多种蛋白质来源。原核生物中的蛋白质表达最常在具有载体的大肠杆菌中进行，这些载体含有引导融合蛋白或非融合蛋白表达的组成型启动子或诱导型启动子。融合载体将许多氨基酸添加到其中编码的蛋白质，诸如添加到重组蛋白的氨基末端。这些融合载体可以用于一种或多种目的，诸如：(i)增加重组蛋白的表达；(ii)增加重组蛋白的溶解度；以及(iii)通过充当亲和纯化中的配体来帮助纯化重组蛋白。通常，在融合表达载体中，蛋白水解切割位点被引入在融合部分与重组蛋白的接点处，以使得重组蛋白能够与融合部分分离，从而随后纯化该融合蛋白。此类酶及其同源识别序列包括凝血因子Xa、凝血酶以及肠激酶。示例性融合表达载体包括pGEX(法玛西亚生物技术公司(Pharmacia Biotech Inc)；史密斯和约翰逊(Johnson)，1988.基因67:31-40)、pMAL(普利茅斯贝弗莉的新英格兰生物实验室(New England Biolabs,Beverly,Mass.))以及pRIT5(新泽西州皮斯卡塔韦的法玛西亚公司(Pharmacia, Piscataway,N.J.))，它们将谷胱甘肽S-转移酶(GST)、麦芽糖E结合蛋白或蛋白A融合至靶重组蛋白。适合的诱导型非融合大肠杆菌表达载体的实例包括pTrc(阿兰恩(Amrann)等人，(1988)基因69:301-315) 和pET 11d(司图登尔(Studier)等人，基因表达技术：酶学方法185，学术出版社，加利福尼亚州圣迭哥(1990) 60-89)。在一些实施例中，载体是酵母表达载体。用于在酵母酿酒酵母中表达的载体的实例包括pYepSec1 (班得瑞(Baldari)等人，1987.欧洲分子生物学学会杂志(EMBO J.)6:229-234)、pMFa(奎让(Kuijan) 和赫斯奎兹(Herskowitz)，1982.细胞30:933-943)、pJRY88(舒尔茨(Schultz)等人，1987.基因54:113-123)、pYES2(加利福尼亚州圣迭戈的英杰公司(InvitrogenCorporation,San Diego,Calif.))以及picZ(加利福尼亚州圣迭戈的英杰公司)。在一些实施例中，载体在使用杆状病毒表达载体的昆虫细胞中驱动蛋白质表达。可用于在培养的昆虫细胞(例如，SF9细胞)表达蛋白质的杆状病毒载体包括pAc系列(史密斯等人，1983 分子细胞生物学3:2156-2165)和pVL系列(拉克楼(Lucklow)和萨默斯(Summers)，1989.病毒学(Virology) 170:31-39)。

在一些实施例中，载体能够使用哺乳动物表达载体驱动一种或多种序列在哺乳动物细胞中表达。哺乳动物表达载体的实例包括pCDM8(锡德(Seed)，1987.自然329:840)和pMT2PC(考夫曼(Kaufman) 等人，1987.欧洲分子生物学学会杂志6:187-195)。当用于哺乳动物细胞时，表达载体的控制功能典型地是由一个或多个调节元件提供的。例如，常用的启动子是来源于多瘤、腺病毒2、巨细胞病毒、猿猴病毒40、以及在此披露和本领域已知的其他来源。对于原核细胞和真核细胞二者的其他适合表达系统，参见例如萨姆布鲁克等人，分子克隆：实验室手册(MOLECULAR CLONING:A LABORATORY MANUAL.)第2版，冷泉港实验室(Cold Spring Harbor Laboratory)，冷泉港实验室出版社(Cold Spring HarborLaboratory Press)，纽约冷泉港(Cold Spring Harbor,N.Y.)，1989中的第16章和第17章。

在一些实施例中，重组哺乳动物表达载体能够引导核酸优先在特定细胞类型中表达(例如，组织特异性调节元件用于表达核酸)。组织特异性调节元件是本领域已知的。适合的组织特异性启动子的非限制性实例包括白蛋白启动子(肝特异性；平克特(Pinkert)等人，1987.基因与发育(Genes Dev.)1: 268-277)、淋巴特异性启动子(卡拉梅(Calame)和伊顿(Eaton)，1988.免疫学进展(Adv.Immunol.)43:235-275) (具体地说T细胞受体(维诺托(Winoto)和巴尔的摩(Baltimore)，1989.欧洲分子生物学学会杂志8:729-733) 和免疫球蛋白类(班恩吉(Baneiji)等人，1983.细胞33:729-740；奎因(Queen)和巴尔的摩，1983.细胞 33:741-748)的启动子)、神经元特异性启动子(例如，神经丝启动子；伯恩(Byrne)和瑞德尔(Ruddle)， 1989.美国国家科学院院刊)86:5473-5477)、胰脏特异性启动子(埃德隆德(Edlund)等人，1985.科学(Science) 230:912-916)、以及乳腺特异性启动子(乳清启动子；美国专利号4,873,316和欧洲申请公开号264,166)。还涵盖发育调节启动子，例如鼠科hox启动子(克塞尔(Kessel)和(格鲁斯)，1990.科学249:374-379) 和α-胎蛋白启动子(康珀斯(Campes)和蒂尔曼(Tilghman)，1989.基因与发育3:537-546)。关于原核载体和真核载体，参考美国专利6,750,059，该专利的内容通过引用以其整体结合在此。本发明的其他实施例可以涉及病毒载体的使用，关于此使用参考美国专利申请13/092,085，该专利申请的内容通过引用以其整体结合在此。组织特异性调节元件是本领域已知的并且就这一点而言，参考美国专利7,776,321，该专利的内容通过引用以其整体结合在此。在一些实施例中，调节元件可操作地连接至CRISPR系统的一个或多个元件，以便驱动该CRISPR系统的一个或多个元件表达。总的来说，CRISPR(成簇规律间隔短回文重复序列)也称为SPIDR(间隔区间隔同向重复序列)，它构成通常对特定细菌种类特异的DNA座位家族。CRISPR 座位包括大肠杆菌中识别的不同类别的间隔短序列重复序列(SSR)(石野(Ishino)等人，细菌学杂志(J. Bacteriol.)，169:5429-5433[1987]；以及中田(Nakata)等人，细菌学杂志，171:3553-3556[1989])、以及相关基因。类似的间隔SSR已在地中海富盐菌、酿脓链球菌、鱼腥藻属、以及结核分枝杆菌中鉴定(参见，格伦恩(Groenen)等人，分子微生物学(Mol.Microbiol.)，10:1057-1065[1993]；霍(Hoe)等人，新发传染病(Emerg.Infect.Dis.)，5:254-263[1999]；马塞波尔(Masepohl)等人，生物化学与生物物理学杂志 (Biochim.Biophys.Acta 1307:26-30[1996]；以及莫西卡(Mojica)等人，分子微生物学)，17:85-93[1995])。 CRISPR座位与其他SSR的典型不同之处在于重复序列结构，该结构称为短规律间隔重复序列(SRSR)(詹森(Janssen)等人，组学：整合生物学杂志(OMICSJ.Integ.Biol.)，6:23-33[2002]；以及莫西卡等人，分子微生物学)，36:244-246[2000])。总的来说，这些重复序列是成簇出现的短元件，它们由具有基本上恒定的长度的独特间插序列规律地间隔开(莫西卡等人，[2000]，同上)。尽管这些重复序列在菌株之间是高度保守的，但是间隔重复序列的数目和间隔区的序列典型地因菌株不同而不同(凡埃姆登(vanEmbden) 等人，细菌学杂志，182:2393-2401[2000])。CRISPR座位已在超过40种原核生物中鉴定(例如，参见，詹森等人，分子微生物学，43:1565-1575[2002]；以及莫西卡等人，[2005])，包括但不限于，气火菌属、火棒菌属、硫化叶菌属、古生球菌属、盐盒菌属、甲烷杆菌属、甲烷球菌属、甲烷八叠球菌属、甲烷八叠球菌属、火球菌属、嗜酸菌属、热原体属、棒状杆菌属、分枝杆菌属、链霉菌属、产水菌属、卟啉单胞菌属、绿硫菌属、栖热菌属、芽孢杆菌属、李斯特菌属、葡萄球菌属、梭菌属、高温厌氧杆菌属、支原体属、梭菌属、固氮弓菌属(Azarcus)、色杆菌属、奈瑟氏菌属、亚硝化单胞菌属、脱硫弧菌属、地杆菌属、黏球菌属、弯曲杆菌属、沃廉菌属、不动杆菌属、欧文氏菌属、埃希菌属、军团杆菌属、甲基球菌属、巴氏杆菌属、发光杆菌属、沙门氏菌属、黄单胞菌属、耶尔森菌属、密螺旋体属、以及热袍菌属。

总的来说，如本申请所用的“核酸靶向系统”总体上是指涉及表达核酸靶向CRISPR相关 (“Cas”)基因或引导这些基因活性的转录物和其他元件(在此也称为效应蛋白)，这些基因包括编码核酸靶向Cas(效应)蛋白和指导RNA的序列或来自核酸靶向CRISPR座位的其他序列和转录物。在一些实施例中，核酸靶向系统的一个或多个元件是来源于V型/VI型核酸靶向CRISPR系统。在一些实施例中，核酸靶向系统的一个或多个元件是来源于包含内源性核酸靶向CRISPR系统的特定生物体。总的来说，核酸靶向系统的特征是在靶序列的位点处促进核酸靶向复合物形成的元件。在形成核酸靶向复合物的情况下，“靶序列”是指指导序列被设计为与其具有互补性的序列，其中靶序列与指导RNA之间的杂交促进了DNA或 RNA靶向复合物的形成。并不一定需要完全互补，只要存在引起杂交并且促进核酸靶向复合物形成的足够互补性。靶序列可以包括RNA多核苷酸。在一些实施例中，靶序列位于细胞的核或胞质中。在一些实施例中，该靶序列可以是在真核细胞的细胞器中，例如线粒体或叶绿体。可以用于重组到包含靶序列的靶向座位中的序列或模板被称为“编辑模板”或“编辑RNA”或“编辑序列”。在本发明的多个方面中，外源性模板RNA可以被称为编辑模板。在本发明的一个方面中，重组是同源重组。

典型地，在内源性核酸靶向系统的情况下，核酸靶向复合物(包含杂交至靶序列并与一种或多种核酸靶向效应蛋白复合的指导RNA)的形成产生靶序列中或靶序列附近(例如，从靶序列开始的1、2、 3、4、5、6、7、8、9、10、20、50、或更多个碱基对内)的一条或两条RNA链的切割。在一些实施例中，驱动核酸靶向系统的一个或多个元件表达的一种或多种载体被引入到宿主细胞中，以使得该核酸靶向系统的这些元件的表达能引导核酸靶向复合物在一个或多个靶位点处形成。例如，核酸靶向效应蛋白和指导 RNA可以各自可操作地连接至单独载体上的单独调节元件。可替代地，由相同或不同调节元件表达的这些元件的两种或更多种可以组合在单一载体中，其中一种或多种另外的载体提供核酸靶向系统在第一载体中不包含的任何组分。在单一载体中组合的核酸靶向系统元件可以布置为任何适合的取向，诸如一个元件位于相对于第二元件的5'(“上游”)或相对于该第二元件的3'(“下游”)。一个元件的编码序列可以位于第二元件的编码序列的相同链或相反链上，并且取向为相同或相反方向。在一些实施例中，单一启动子驱动编码核酸靶向效应蛋白的转录物和嵌入一种或多种内含子序列之内(例如，各自在不同内含子中、两种或更多种在至少一个内含子中，或所有在单一内含子中)的指导RNA的表达。在一些实施例中，核酸靶向效应蛋白和指导RNA可操作地连接至同一启动子并且从该同一启动子表达。

总的来说，指导序列是与靶多核苷酸序列具有足够互补性以与靶序列杂交并引导核酸靶向复合物与靶序列的序列特异性结合的任何多核苷酸序列。在一些实施例中，当使用适合比对算法进行最佳比对时，指导序列与其相应靶序列之间的互补程度是约或超过约50％、60％、75％、80％、85％、90％、95％、 97.5％、99％、或更大。最佳比对可以通过使用用于比对序列的任何适合的算法来确定，这些算法的非限制性实例包括史密斯-沃特曼算法、尼德曼-温施算法、基于巴罗斯-惠勒转换的算法(例如，巴罗斯-惠勒比对仪)、ClustalW、Clustal X、BLAT、诺沃比对(诺沃克拉夫特技术公司，ELAND(加利福尼亚州圣迭哥亿明达公司))、SOAP(可在soap.genomics.org.cn处获得)、以及Maq(可在maq.sourceforge.net处获得)。在一些实施例中，指导序列的长度是约或超过约5、10、11、12、13、14、15、16、17、18、19、20、21、 22、23、24、25、26、27、28、29、30、35、40、45、50、75、或更多个核苷酸。在一些实施例中，指导序列的长度是小于约75、50、45、40、35、30、25、20、15、12、或更少个核苷酸。指导序列引导核酸靶向复合物与靶序列的序列特异性结合的能力可以是通过任何适合的测定来评估。例如，足以形成核酸靶向复合物的核酸靶向系统的组分(包括有待测试的指导序列)可以诸如通过用编码核酸靶向CRISPR序列的这些组分的载体进行转染来提供给具有相应靶序列的宿主细胞，随后诸如通过在此所述的Surveyor测定评估靶序列内或附近的优先切割。类似地，靶多核苷酸序列(或其附近的序列)的切割可以在试管中通过以下方式进行评估：提供靶序列、核酸靶向复合物的组分(包括有待测试的指导序列)和不同于测试指导序列的对照指导序列并且在测试指导序列反应与对照指导序列反应之间比较靶序列处或附近的结合或切割速率。其他测定是可能的，并且将是本领域技术人员能够想到的。

指导序列可以被选择为靶向任何靶序列。在一些实施例中，靶序列是基因转录物或mRNA中的序列。

在一些实施例中，靶序列是细胞基因组中的序列。

在一些实施例中，指导序列被选择为减小该指导序列内的二级结构程度。二级结构可以是通过任何适合的多核苷酸折叠算法来确定。一些程序是基于计算最小吉布斯自由能。一种这样算法的实例是 mFold，如通过朱克和施蒂格勒(核酸研究9(1981)，133-148)。另一个示例性折叠算法是维也纳大学的理论化学研究所使用质心结构预测算法开发的在线网站服务器RNAfold(例如，参见A.R.·格鲁伯(A.R. Gruber)等人，2008，细胞106(1):23-24；以及PA·凯尔(PA Carr)和GM·丘奇(GM Church)，2009，自然生物技术(Nature Biotechnology)27(12):1151-62)。其他算法可以见于美国申请序列号TBA(代理文件号 44790.11.2022；广泛参考BI-2013/004A)；通过引用结合在此。

在一些实施例中，还提供了重组模板。重组模板可以是如在此所述的另一种载体的组分，它包含在单独的载体中或者作为单独的多核苷酸提供。在一些实施例中，重组模板被设计为充当同源重组中的模板，诸如在由作为核酸靶向复合物的一部分的核酸靶向效应蛋白切割或分解的靶序列内或附近。模板多核苷酸可以具有任何适合的长度，诸如长度是约或超过约10、15、20、25、50、75、100、150、200、 500、1000或更多个核苷酸。在一些实施例中，模板多核苷酸是与包含该靶序列的多核苷酸部分互补的。当最佳比对时，模板多核苷酸可以与靶序列的一个或多个核苷酸重叠(例如约或超过约1、5、10、15、20、 25、30、35、40、45、50、60、70、80、90、100或更多个核苷酸)。在一些实施例中，当模板序列和包含靶序列的多核苷酸最佳比对时，模板多核苷酸最近的核苷酸是在来自靶序列的约1、5、10、15、20、25、 50、75、100、200、300、400、500、1000、5000、10000或更多个核苷酸中。

在一些实施例中，核酸靶向效应蛋白是包含一个或多个异源蛋白结构域(例如，约或超过约1、 2、3、4、5、6、7、8、9、10或更多个结构域，还有核酸靶向效应蛋白)的融合蛋白的一部分。在一些实施例中，CRISPR效应蛋白是包含一个或多个异源蛋白结构域(例如，约或超过约1、2、3、4、5、6、7、 8、9、10或更多个结构域，还有CRISPR酶)的融合蛋白的一部分。CRISPR酶融合蛋白可以包含任何另外的蛋白序列和任选地在任何两个结构域之间的接头序列。可以融合至CRISPR酶的蛋白结构域的实例包括但不限于，表位标签、报道基因序列、以及具有以下活性中的一种或多种活性的蛋白结构域：甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性以及核酸结合活性。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血球凝集素(HA)标签、Myc标签、VSV-G标签、以及硫氧还蛋白(Trx)标签。报道基因的实例包括但不限于，谷胱甘肽-S-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β- 葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白 (YFP)、以及自身荧光蛋白(包括蓝色荧光蛋白(BFP))。CRISPR酶可以融合至编码结合DNA分子或结合其他细胞分子的蛋白质或蛋白质片段的基因序列，该蛋白质包括但不限于，麦芽糖结合蛋白(MBP)、 S-标签、Lex ADNA结合结构域(DBD)融合物、GAL4DNA结合结构域融合物、以及单纯疱疹病毒(HSV) BP16蛋白融合物。可以形成包含CRISPR酶的融合蛋白的一部分的附加结构域描述于US 20110059502，该专利通过引用结合在此。在一些实施例中，标记的CRISPR酶用于识别靶序列的位置。

在一些实施例中，CRISPR酶可以形成诱导型系统的一种组分。该系统的诱导性质允许使用能量形式时间空间控制基因编辑或基因表达。能量形式可以包括但不限于，电磁辐射、声能、化学能以及热能。诱导型系统的实例包括四环素诱导型启动子(Tet-开或Tet-关)、小分子双杂交转录激活系统(FKBP、 ABA等)、或光诱导型系统(光敏色素、LOV结构域或隐花色素)。在一个实施例中，CRISPR酶可以是以序列特异性方式引导转录活性改变的光诱导型转录效应子(LITE)的一部分。光诱导型系统的组分可以包括CRISPR酶、光反应性细胞色素异源二聚体(例如，来自阿拉伯芥)、以及转录激活/阻遏结构域。诱导型 DNA结合蛋白及其使用方法的其他实例提供于US 61/736465和US 61/721,283以及WO 2014/018423以及US 8889418、US 8895308、US 20140186919、US 20140242700、US 20140273234、US20140335620、WO 2014093635中，这些专利通过引用以其整体结合在此。

递送

在一些方面中，本发明提供了包括以下各项的方法：向宿主细胞递送一种或多种多核苷酸，诸如在此所述的一种或多种载体、其一种或多种转录物和/或由其转录的一种或多种蛋白质。在一些方面中，本发明进一步提供了通过此类方法产生的细胞以及包含此类细胞或由此类细胞产生的生物体(诸如动物、植物或真菌)。在一些实施例中，将核酸靶向效应蛋白与指导RNA组合(以及任选地与其复合)递送到细胞中。常规的基于病毒和非病毒的基因转移方法可以用于在哺乳动物细胞或靶组织中引入核酸。此类方法可以用于向培养基或宿主生物体中的细胞给予编码核酸靶向系统的组分的核酸。非病毒载体递送系统包括 DNA质粒、RNA(例如在此所述的载体的转录物)、裸核酸、以及与递送媒介物诸如脂质体复合的核酸。病毒载体递送系统包括DNA和RNA病毒，这些病毒在递送至细胞后具有附加型基因组或整合型基因组。对于基因治疗程序的综述，参见安德森(Anderson)，科学256:808-813(1992)；纳贝尔(Nabel)和费尔格纳 (Felgner)，TIBTECH 11:211-217(1993)；三谷(Mitani)和卡斯基(Caskey)，TIBTECH 11:162-166(1993)；狄龙(Dillon)，TIBTECH 11:167-175(1993)；米勒(Miller)，自然357:455-460(1992)；范布伦特(Van Brunt)，生物技术(Biotechnology)6(10):1149-1154(1988)；比涅(Vigne)，恢复神经学和神经科学(Restorative Neurology and Neuroscience)8:35-36(1995)；克雷默(Kremer)和佩里科代(Perricaudet)，英国医学公报 (British Medical Bulletin)51(1):31-44(1995)；哈嗒嗒(Haddada)等人，微生物学和免疫学的前沿课题 (Current Topics in Microbiologyand Immunology)，窦尔弗勒(Doerfler)和博姆

(编辑)(1995)；以及余(Yu)等人，基因治疗(Gene Therapy)1:13-26(1994)。

非病毒递送核酸的方法包括包括脂质转染、核转染、微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸轭合物、裸DNA、人工病毒体递送、以及药剂增强DNA摄取。脂质转染描述于例如美国专利号5,049,386、4,946,787；以及4,897,355)并且脂质转染试剂是商业上销售的(例如， Transfectam^TM和Lipofectin^TM)。适用于多核苷酸的有效受体识别脂质转染的阳离子脂质和中性脂质包括以下各项中的那些：费尔格纳WO 91/17424；WO 91/16024。递送可以是递送至细胞(例如，体外或离体给予) 或靶组织(例如，体内给予)。

脂质:核酸复合物(包括靶向脂质体，诸如免疫脂质复合物)的制备是本领域技术人员已熟知的(例如，参见克里斯特尔(Crystal)，科学270:404-410(1995)；布莱泽(Blaese)等人，癌症基因治疗(Cancer Gene Ther.)2:291-297(1995)；贝尔(Behr)等人，生物共轭化学(Bioconjugate Chem.)5:382-389(1994)；雷米(Remy)等人，生物共轭化学5:647-654(1994)；高(Gao)等人，基因治疗2:710-722(1995)；艾哈迈德(Ahmad)等人,癌症研究52:4817-4820(1992)；美国专利号4,186,183、4,217,344、4,235,871、4,261,975、 4,485,054、4,501,728、4,774,085、4,837,028、以及4,946,787)。

使用用于递送核酸的基于RNA或DNA病毒的系统利用了用于将病毒靶向身体内的特定细胞并且将病毒有效负载运输到核内的高度进化的方法。病毒载体可以直接给予至患者(体内)或者它们可以用于体外处理细胞，并且修饰细胞可以任选地给予至患者(离体)。常规基于病毒的系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒以及单纯疱疹病毒载体。通过逆转录病毒、慢病毒、以及腺相关病毒基因转移方法整合在宿主基因组中是可能的，这常常导致插入的转基因长期表达。另外，高转导效率已在许多不同细胞类型和靶组织中观察到。

逆转录病毒的趋向性可以通过结合外源包膜蛋白来改变，从而扩增靶细胞的潜在靶群体。慢病毒载体是能够转导或感染非分裂细胞并典型地产生高病毒滴度的逆转录病毒载体。逆转录病毒基因转移系统的选择因此将取决于靶组织。逆转录病毒载体包含具有多至6-10kb外源序列的包装容量的顺式作用长末端重复序列。最小量顺式作用LTR是足以复制并包装这些载体的，然后使用这些载体将治疗基因整合到靶细胞中，以提高永久性转基因表达。广泛使用的逆转录病毒载体包括基于以下各项的那些：鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)、以及其组合(例如，参见，布奇谢尔(Buchscher)等人，病毒学杂志(J.Virol.)66:2731-2739(1992)；约翰(Johann) 等人，病毒学杂志66:1635-1640(1992)；绍姆内尔费尔特(Sommnerfelt)等人，病毒学176:58-59(1990)；威尔逊(Wilson)等人，病毒学杂志63:2374-2378(1989)；米勒等人，病毒学杂志65:2220-2224(1991)； PCT/US94/05700)。在其中短暂表达是优选的应用中，可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有极高转导效率并且并不要求细胞分裂。使用此类载体，已获得高滴度和表达水平。此载体可以在相对简单的系统中大量产生。腺相关病毒(“AAV”)载体也可以用于使用靶核酸转导细胞，例如用于体外产生核酸和肽并且用于体内和离体基因治疗程序(例如，参见，韦斯特(West)等人，病毒学(Virology)160:38-47(1987)；美国专利号4,797,368；WO 93/24641；科廷(Kotin)等人，人类基因治疗(Human Gene Therapy)5:793-801(1994)；缪斯兹卡(Muzyczka)，临床研究杂志(J.Clin.Invest.)94:1351 (1994)。重组AAV载体的结构描述于许多出版物中，包括美国专利号5,173,414；特拉辛(Tratschin)等人，分子细胞生物学5:3251-3260(1985)；特拉辛等人，分子细胞生物学4:2072-2081(1984)；贺莫纳特和缪斯兹卡(Hermonat&Muzyczka)，美国国家科学院院刊81:6466-6470(1984)；以及萨穆尔斯基(Samulski)等人，病毒学杂志63:03822-3828(1989)。

对于DNA/RNA或DNA/DNA或RNA/RNA或蛋白质/RNA的选项

在一些实施例中，CRISPR系统的组分可以不同形式递送，诸如DNA/RNA或RNA/RNA或蛋白质/RNA的组合。例如，Cpf1可以作为DNA编码多核苷酸或RNA-编码多核苷酸或作为蛋白质递送。指导序列可以作为DNA编码多核苷酸或RNA递送。预想所有可能的组合，包括混合递送形式。

在一些实施例中，所有此类组合(DNA/RNA或DNA/DNA或RNA/RNA或蛋白质/RNA)。

在一些实施例中，当Cpf1以蛋白质形式递送时，可以将它与一种或多种指导序列预先组装。

纳米线团

另外，CRISPR可以使用纳米线团(nanoclew)递送，例如如孙·W(Sun W)等人，用抗癌药物递送的茧样可自降解DNA线团(Cocoon-like self-degradable DNA nanoclew foranticancer drug delivery)，美国化学学会杂志(J Am Chem Soc.)，2014年10月22日；136(42):14722-5.doi:10.1021/ja5088024.电子版 2014年10月13日；或者在孙·W等人，用于有效递送基因组编辑的CRISPR-Cas9的自组装DNA纳米线团 (Self-Assembled DNANanoclews for the Efficient Delivery of CRISPR-Cas9 for Genome Editing.)，应用化学国际英语版(Angew Chem Int Ed Engl.)，2015年10月5日；54(41):12029-33.doi:10.1002/anie.201506030.电子版2015年8月27日。

除非另外指明，本发明的实施采用处于本领域技能范围内的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学以及重组DNA的常规技术。参见萨姆布鲁克、弗里奇(Fritsch) 和马尼亚蒂斯(Maniatis)，分子克隆：实验室手册，第2版(1989)；分子生物学通用方法(F.M.·奥苏贝尔等人编著(1987))；系列丛书酶学方法(学术出版社公司)：PCR 2：实践方法(M.J.·麦克弗森 (M.J.MacPherson)、B.D.·黑姆斯(B.D.Hames)以及G.R.泰勒编著(1995))，哈洛(Harlow)和拉内(Lane) 编著(1988)抗体、实验室手册和动物细胞培养(ANTIBODIES,A LABORATORY MANUAL,and ANIMAL CELL CULTURE)(R.I.费施奈伊(Freshney)编著(1987))。

遗传和表观遗传条件的模型

本发明的一种方法可以用于创建可用于建模和/或研究感兴趣的遗传或表观遗传条件的植物、动物或细胞，诸如通过感兴趣的突变模型或疾病模型。如在此所用，“疾病”是指受试者的疾病、病状或适应症。例如，本发明的一种方法可以用于创建包含与疾病相关联的一种或多种核酸序列中的修饰的动物或细胞、或者其中与疾病相关联的一种或多种核酸序列的表达发生改变的植物、动物或细胞。这种核酸序列可以编码疾病相关蛋白序列或者可以是疾病相关控制序列。因此，应理解在本发明的多个实施例中，植物、受试者、患者、生物体或细胞可以是非人类受试者、患者、生物体或细胞。因此，本发明提供了通过本发明产生的植物、动物或细胞、或其子代。该子代可以是产生的植物或动物的克隆，或者可以由通过与相同种类的其他个体杂交以使另外希望的性状渗入其后代来进行的有性繁殖产生。在多细胞生物体(具体的是动物或植物)的情况下，该细胞可以是体内或离体的。在其中细胞处于培养中的情况下，如果满足适当的培养条件并且优选地如果细胞适合地适用于此目的(例如干细胞)，则可以建立细胞系。还设想通过本发明产生的细菌细胞系。因此，还设想细胞系。

在一些方法中，该疾病模型可以用于使用该疾病研究中常用的措施研究突变对动物或细胞和疾病的发展和/或进展的影响。可替代地，这种疾病模型适用于研究药物活性化合物对该疾病的影响。

在一些方法中，该疾病模型可以用于评定可能的基因治疗策略的效力。即，疾病相关基因或多核苷酸可以被修饰为使得疾病发展和/或进展受到抑制或减少。具体地说，该方法包括修饰疾病相关基因或多核苷酸，以使得能产生改变的蛋白质并因此使得动物或细胞具有改变的应答。因此，在一些方法中，基因修饰动物可以与易于发展疾病的动物比较，以使得可以评定基因治疗事件的作用。

在另一个实施例中，本发明提供了一种开发调控与疾病相关基因相关联的细胞信号传导事件的生物活性剂的方法。该方法包括使测试化合物与包含驱动一种或多种CRISPR酶表达的一种或多种载体和连接至指导序列的同向重复序列的细胞接触；并且检测指示与例如细胞所含有的疾病相关基因中的突变相关联的细胞信号传导事件的减少或增加的读出变化。

细胞模型或动物模型可以与本发明用于筛查细胞功能变化的方法组合来构造。这种模型可以用于研究通过本发明的CRISPR复合物修饰的基因组序列对感兴趣的细胞功能的影响。例如，细胞功能模型可以用研究修饰的基因组序列对细胞内信号传导或细胞外信号传导的影响。可替代地，细胞功能模型可以用研究修饰的基因组序列对感官知觉的影响。在一些此类模型中，修饰模型中与信号传导生物化学途径相关联的一个或多个基因组序列。

已特别研究了几种疾病模型。这些包括从新自闭症危险基因CHD8、KATNAL2和SCN2A；以及综合征自闭症(安格曼综合征)基因UBE3A。这些基因和所得自闭症模型当然是优选的，但足以显示本发明对基因和相应模型的广泛适用性。当与信号传导生物化学途径相关联的一个或多个基因组序列与候选药剂接触时，这些基因组序列的改变的表达可以是通过评定测试模型细胞与对照细胞之间相应基因的 mRNA水平差异来确定。可替代地，与信号传导生物活性途径相关联的序列的差异表达是通过检测编码的多肽或基因产物的水平的差异来确定的。

为了评定mRNA转录物或相应多核苷酸水平的试剂诱导的改变，样品中含有的核酸首先根据本领域的标准方法来提取。例如，mRNA可以根据萨姆布鲁克等人(1989)所列出的程序使用不同的分解酶或化学品溶液来分离，或者通过核酸结合树脂遵循制造商提供的附带说明来提取。然后通过扩增程序或常规杂交测定(例如，RNA印迹分析)根据本领域广泛已知的方法或者基于在此举例说明的方法来检测提取的核酸样品中含有的mRNA。

出于本发明的目的，扩增意指采用能够以适当保真度复制靶序列的引物和聚合酶的任何方法。扩增可以是通过天然或重组DNA聚合酶诸如TaqGoldTM、T7 DNA聚合酶、大肠杆菌DNA聚合酶的克列诺片段、以及逆转录酶。一种优选扩增方法是PCR。具体地说，分离的RNA可以经受逆转录测定，该测定与定量聚合酶链反应(RT-PCR)结合以便量化与信号传导生物化学途径相关联的序列的表达水平。

基因表达水平的检测可以是在扩增测定中实时进行的。在一个方面中，扩增的产物可以用荧光DNA结合剂直接可视化的，这些结合剂包括但不限于DNA嵌入剂和DNA沟结合剂。因为结合到双链DNA 分子中的嵌入剂的量典型地与扩增的DNA产物的量成比例，所以可以通过使用本领域的常规光学系统量化嵌入染料的荧光来确定扩增产物的量。适用于此应用的DNA结合染料包括SYBR绿、SYBR蓝、DAPI、碘化丙啶、Hoeste、SYBR金、溴化乙锭、吖啶、原黄素、吖啶橙、吖啶黄、氟香豆素、玫瑰树碱、道诺霉素、氯喹、远端霉素D、色霉素、胡米溴铵(homidium)、光辉霉素、聚吡啶钌、安曲霉素、以及类似物。

在另一个方面中，其他荧光标记诸如序列特异性探针可以用于扩增反应中，以帮助检测和量化扩增产物。基于探针的定量扩增依赖于希望的扩增产物的序列特异性检测。它利用荧光的靶特异性探针 (例如，

探针)，从而获得增加的特异性和灵敏度。本领域中已建立了用于进行基于探针的定量扩增的方法并且在美国专利号5,210,015中教授了这些方法。

在另一个方面中，进行使用杂交探针的常规杂交测定，这些杂交探针与和信号传导生物化学途径相关联的序列享有序列同源性。典型地，在杂交反应中允许探针与和来源于测试受试者的生物样品内的信号传导生物化学途径相关联的序列形成稳定的复合物。本领域技术人员将了解的是，在使用反义链作为探针核酸的情况下，样品中提供的靶多核苷酸被选择为与反义核酸的序列互补。相反地，在核苷酸探针是有义核酸的情况下，靶多核苷酸被选择为与有义核酸的序列互补。

杂交可以是在不同严格性的条件下进行。用于实践本发明的适合杂交条件是使得探针与和信号传导生物化学途径相关联的序列之间的识别相互作用是足够特异的且足够稳定的。增加杂交反应严格性的条件是本领域广泛已知和公开的。例如，参见，(萨姆布鲁克等人，(1989)；非辐射原位杂交应用手册 (Nonradioactive In Situ HybridizationApplication Manual)，德国宝灵曼公司(Boehringer Mannheim)，第二版)杂交测定可以使用任何固相支撑体上固定的探针来形成，该固相支撑体包括但不限于硝化纤维、玻璃、硅、以及各种各样的基因阵列。优选的杂交测定市在高密度基因芯片上进行的，如美国专利号5,445,934所述的。

对于在杂交测定过程中形成的探针靶标复合物的常规检测，核苷酸探针被轭合至可检测标记。适用于本发明的可检测标记包括通过光化学手段、生物化学手段、光谱手段、免疫化学手段、电学手段、光学手段或化学手段可检测的任何组合物。多种多样的适当可检测标记是本领域已知的，它们包括荧光标记或化学发光标记、放射性同位素标记、酶标记或其他配体。在优选实施例中，将可能希望采用荧光标记或酶标记，诸如地高辛配基、β半乳糖苷酶、脲酶、碱性磷酸酶或过氧化物酶、抗生物素蛋白/生物素复合物。

用于检测或量化杂交强度的检测方法将典型地取决于以上选择的标记。例如，放射性标记可以是使用摄影胶片或感光成像仪检测的。荧光标记物可以是使用检测发射光的光探测器检测和量化的。酶标记典型地是通过提供具有底物的酶并测量由酶对该底物的作用产生的反应产物来检测的；并且最后比色标记是通过简单可视化染色标记来检测的。

与信号传导生物化学途径相关联的序列表达的药剂诱导的变化也可以通过检查相应基因产物来确定。测定蛋白质水平典型地涉及a)将生物样品中含有的蛋白质与特异性结合和信号生传导生物化学途径相关联的蛋白质的药剂接触；并且(b)鉴定所形成的任何药剂:蛋白质复合物。在此实施例的一个方面中，特异性结合与信号传导生物化学途径相关联的蛋白质的药剂是抗体，优选地是单克隆抗体。

该反应是通过以下各项来进行的：在将允许药剂与和信号传导生物化学途径相关联的蛋白质之间形成复合物的条件下，将该药剂与和来源于测试样品的信号传导生物化学途径相关的蛋白质样品接触。复合物的形成可以是根据本领域的程序直接或间接检测的。在直接检测方法中，这些药剂供应有可检测标记并且未反应的药剂可以从该复合物中去除；剩余标记的量因此指示所形成的复合物的量。对于这种方法，优选的是选择甚至在严格洗涤条件过程中仍然附接至这些药剂的标记。优选的是，该标记并不干扰结合反应。在替代方案中，间接检测程序可以使用含有以化学方式或酶方式引入的标记的药剂。希望的标记通常并不干扰所得药剂:多肽复合物的结合或稳定性。然而，该标记典型地被设计为易于接近抗体，以有效结合并因此生成可检测信号。

适用于检测蛋白质水平的多种多样的标记是本领域已知的。非限制性实例包括放射性同位素、酶类、胶态金属、荧光化合物、生物发光化合物、以及化学发光化合物。

在结合反应过程中形成的药剂:多肽复合物的量可以是通过标准定量测定来量化的。如上所述，药剂:多肽复合物的形成可以是通过保留在结合位点处的标记的量来直接测量的。在一个替代方案中，测试与信号传导生物化学途径相关联的蛋白质与标记的类似物竞争特异性药剂上的结合位点的能力。在此竞争性测定中，捕获的标记的量与和存在于测试样品中的信号传导生物化学途径相关联的蛋白质序列的量成反比。

用于基于以上列出的一般原则进行蛋白质分析的多种技术是本领域可用的。这些技术包括但不限于，放射免疫测定、ELISA(酶联免疫放射测定法)、“夹层”免疫测定、免疫放射测定法、原位免疫测定(例如使用胶态金、酶或放射性同位素标记)、蛋白印迹分析、免疫沉淀测定、免疫荧光测定、以及 SDS-PAGE。

特异性识别或结合与信号传导生物化学途径相关联的蛋白质的抗体是优选用于进行上述蛋白质分析。当希望时，可以使用识别特定类型的翻译后修饰(例如信号传导生物化学途径诱导的修饰)的抗体。翻译后修饰包括但不限于，糖基化、脂化、乙酰化、以及磷酸化。这些抗体可以从商业供应商购买。例如，特异性识别酪氨酸磷酸化蛋白质的抗磷酸酪氨酸抗体可从许多供应商购买，这些供应商包括英杰公司(Invitrogen)和珀金埃尔默公司(Perkin Elmer)。抗磷酸酪氨酸抗体特别适用于检测响应于ER胁迫而在其酪氨酸残基上有差异地磷酰化的蛋白质。此类蛋白质包括但不限于，真核生物翻译起始因子2α(eIF-2α)。可替代地，这些抗体可以是使用多克隆抗体或单克隆抗体技术通过用展示希望的翻译后修饰的靶蛋白免疫宿主动物或抗体产物细胞来生成。

在实践主题方法中，可能希望的是辨别与信号传导生物化学途径相关联的蛋白质在不同身体组织、不同细胞类型和/或不同亚细胞结构中的表达模式。这些研究可以通过使用能够结合蛋白质标记物的组织特异性、细胞特异性或亚细胞结构特异性抗体来进行，这些蛋白质标记物优先在某些组织、细胞类型或亚细胞结构中表达。

与信号传导生物化学途径相关联的基因的改变的表达也可以是通过检查基因产物活性相对于对照细胞的变化来确定。用于与信号传导生物化学途径相关联的蛋白质的药剂诱导性活性变化的测定将依赖于研究中的生物活性和/或信号转导途径。例如，在该蛋白质是激酶的情况下，该蛋白质使一种或多种下游底物磷酸化的能力的变化可以是通过本领域已知的多种测定来确定的。代表性测定包括但不限于，使用识别磷酸化蛋白的抗体诸如抗磷酸酪氨酸抗体的免疫印迹和免疫沉淀反应。此外，激酶活性可以是通过高流通量化学发光测定诸如AlphaScreen^TM(可商购自珀金埃尔默公司)和eTag^TM测定(钱-慧(Chan-Hui)等人，(2003)临床免疫学(Clinical Immunology)111:162-174)来检测的。

在与信号传导生物化学途径相关联的蛋白质是导致细胞内pH条件波动的信号级联放大的一部分的情况下，pH敏感分子诸如荧光pH染料可以用作报道分子。在另一个实例中，在与信号传导生物化学途径相关联的蛋白质是离子通道的情况下，可以监测膜电位和/或细胞内离子浓度的波动。许多商用试剂盒和高流通量装置是特别适用于快速且强劲地筛选离子通道的调节剂。代表性仪器包括FLIPRTM(分子机器公司(Molecular Devices,Inc.))和VIPR(极光生物科学公司(Aurora Biosciences))。这些仪器能够同时检测微板的1000个样品孔中的反应并且在一秒或甚至一微秒内提供实时测量值和功能数据。

在实践在此披露的任何方法时，可以经由本领域已知的一种或多种方法来将适合的载体引入到细胞或胚胎中，这些方法包括但不限于，微注射、电穿孔、声孔效应、基因枪、磷酸钙介导的转染、阳离子转染、脂质体转染、树枝状转染、热激转染、核转染、磁转染、脂转染、刺穿转染、光学转染、专有剂增强的核酸摄取、以及经由脂质体、免疫脂质体、病毒体或人工病毒体递送。在一些方法中，载体通过微注射引入到胚胎中。这种或这些载体可以微注射到胚胎的核或胞质中。在一些方法中，这种或这些载体可以通过核转染引入到细胞中。

CRISPR复合物的靶多核苷酸可以是对于真核细胞而言内源或外源的任何多核苷酸。例如，靶多核苷酸可以是驻留在真核细胞核内的多核苷酸。靶多核苷酸可以是编码基因产物(例如，蛋白质)的序列或非编码序列(例如，调节多核苷酸或无用DNA)。

靶多核苷酸的实例包括与信号传导生物化学途径相关联的序列，例如信号传导生物化学途径相关基因或多核苷酸。靶多核苷酸的实例包括疾病相关基因或多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比，在来源于疾病影响的组织的细胞中产生异常水平或异常形式的转录产物或翻译产物的任何基因或多核苷酸。它可以是以异常高的水平表达的基因；它可以是以异常低的水平表达的基因，其中改变的表达与疾病的发生和/或进展相关。疾病相关基因还是指具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。转录或翻译的产物可以是已知或未知的，并且可以是处于正常或异常水平。

CRISPR复合物的靶多核苷酸可以是对于真核细胞而言内源或外源的任何多核苷酸。例如，靶多核苷酸可以是驻留在真核细胞核内的多核苷酸。靶多核苷酸可以是编码基因产物(例如，蛋白质)的序列或非编码序列(例如，调节多核苷酸或无用DNA)。在不希望受到理论约束的情况下，认为靶序列应该与PAM(原型间隔区相邻基序)相关联；即，由CRISPR复合物识别的短序列。对于PAM的精确序列和长度要求根据所使用的CRISPR酶而不同，但PAM典型地是与原型间隔区(即，靶序列)相邻的2-5个碱基对序列。PAM序列的实例给出在以下实例部分中，并且技术人员将能够鉴定与给定的CRISPR酶一起使用的其他PAM序列。此外，PAM相互作用(PI)结构域的工程化可以允许编程PAM特异性，提高靶位点识别保真度，并且增加Cas(例如Cas9)基因组工程化平台的多功能性。Cas蛋白诸如Cas9蛋白可以被工程化以改变其PAM特异性，例如如克莱因史迪华BP(Kleinstiver BP)等人，具有改变的PAM特异性的工程化 CRISPR-Cas9(Engineered CRISPR-Cas9 nucleases with alteredPAM specificities)，自然，2015年7月23日； 523(7561):481-5.doi:10.1038/nature14592。

CRISPR复合物的靶多核苷酸可以包括多个疾病相关基因和多核苷酸以及信号传导生物化学途径相关基因和多核苷酸，如以下各项中列出的：美国临时专利申请61/736,527和61/748,427，这两份专利申请分别具有广泛的参考文献BI-2011/008/WSGR文件号44063-701.101和BI-2011/008/WSGR文件号 44063-701.102，这两份专利申请均题为用于序列操纵的系统方法和组合物(SYSTEMS METHODS AND COMPOSITIONS FOR SEQUENCEMANIPULATION)，它们分别在2012年12月12日和2013年1月2日提交，以及PCT申请PCT/US2013/074667，该申请题为用于序列操纵和治疗应用的系统、方法和组合物的递送、工程化和优化(DELIVERY,ENGINEERING AND OPTIMIZATION OF SYSTEMS,METHODS ANDCOMPOSITIONS FOR SEQUENCE MANIPULATION AND THERAPEUTIC APPLICATIONS)且在2013年 12月12日提交，所有这些专利申请的内容均通过引用以其整体结合在此。

全基因组敲除筛选

在此所述的CRISPR蛋白质和系统可以用于进行有效且性价比高的功能基因组筛选。此类筛选可以利用基于CRISPR效应蛋白的全基因组文库。此类筛选和文库可以提供对基因功能的确定，涉及细胞途径基因，并且基因表达中的任何改变可以如何形成特定生物过程。本发明的一个优点是CRISPR系统避免了脱靶结合及其产生的副作用。这是使用安排为对靶DNA具有高度序列特异性的系统来实现的。在本发明的优选实施例中，CRISPR效应蛋白复合物是Cpf1效应蛋白复合物。

在本发明的实施例中，全基因组文库可以包含多个在此所述的Cpf1指导RNA，这些RNA包含能够靶向真核细胞群体中的多个基因组座位中的多个靶序列的指导序列。细胞群体可以是胚胎干细胞(ES) 群体。基因组座位中的靶序列可以是非编码序列。非编码序列可以是内含子、调节序列、剪接位点、3’UTR、 5’UTR、或多聚腺苷酸化信号。一种或多种基因产物的基因功能可以是通过所述靶向来改变。该靶向可以导致基因功能敲除。基因产物的靶向可以包含超过一个的指导RNA。基因产物可以被每个基因2、3、4、5、 6、7、8、9或10个指导RNA，优选3至4个指导RNA靶向。脱靶修饰可以是通过采用由Cpf1效应蛋白复合物生成的交错双链断裂或者通过利用类似于CRISPR-Cas9系统中使用的方法来最小化(例如，参见，RNA- 指导Cas9核酸酶的DNA靶向特异性(DNA targeting specificity of RNA-guidedCas9 nucleases)徐，P.(Hsu, P.,)、斯科特，D.(Scott,D.)、温斯坦，J.(Weinstein,J.)、拉恩，FA.(Ran,FA.)、康尔曼，S.(Konermann, S.)、瓦拉，V.(Agarwala,V.)、李，Y.(Li,Y.)、法恩，E.(Fine,E.)、吴，X.(Wu,X.)、谢莱姆，O.(Shalem, O.)、科瑞迪克，TJ.(Cradick,TJ.)、马尔拉菲尼，LA.(Marraffini,LA.)、包，G.(Bao,G.)、以及张，F. (Zhang,F.)，自然生物技术(Nat Biotechnol)doi:10.1038/nbt.2647(2013))，文献通过引用结合在此。该靶向可以是针对约100个或更多个序列。该靶向可以是针对约1000个或更多个序列。该靶向可以是针对约 20,000个或更多个序列。该靶向可以是针对整个基因组。该靶向可以是针对集中于相关或希望的途径中的一组靶序列。该途径可以是免疫途径。该途径可以是细胞分裂途径。

本发明的一个方面包括全基因组文库，该全基因组文库可以包含多个Cpf1指导RNA，这些指导RNA可以包含能够靶向多个基因组座位中的多个靶序列的指导序列，其中所述靶向导致基因功能敲除/ 敲低。此文库可以潜在地包含靶向生物体基因组中的各个和每个基因的指导RNA。

在本发明的一些实施例中，生物体或受试者是真核生物(包括哺乳动物，包括人类)或非人类真核生物或非人类动物或非人类哺乳动物。在一些实施例中，生物体或受试者是非人类动物，并且可以是节肢动物，例如昆虫，或者可以是线虫。在本发明的一些方法中，生物体或受试者是植物。在本发明的一些方法中，生物体或受试者是哺乳动物或非人类哺乳动物。非人类哺乳动物可以是例如啮齿动物(优选地小鼠或大鼠)、有蹄动物或灵长类动物。在本发明的一些方法中，生物体或受试者是藻类，包括微藻类，或者是真菌类。

基因功能的敲除/敲低可以包括：在细胞群体的每个细胞中引入包含工程化非天然存在的Cpf1 效应蛋白系统的一种或多种载体的一个载体系统，该效应蛋白系统包含I.Cpf1效应蛋白和II.一个或多个指导RNA，其中组分I和组分II可以是处于该系统的相同或不同载体上；将组分I和II整合到每个细胞中，其中该指导序列靶向每个细胞中的独特基因，其中该Cpf1效应蛋白可操作地连接至调节元件，其中在转录时，包含指导序列的该指导RNA引导Cpf1效应蛋白系统与对应于该独特基因的基因组座位的靶序列的序列特异性结合；通过Cpf1效应蛋白诱导基因组座位切割；并且确认细胞群体的每个细胞中的多个独特基因中的不同敲除/敲低突变，从而生成基因敲除/敲低细胞文库。本发明包括细胞群体是真核细胞群体，并且在优选的实施例中，细胞群体是胚胎干(ES)细胞群体。

该一种或多种载体可以是质粒载体。该载体可以是包含Cpf1效应蛋白、gRNA和任选地进入靶细胞中的选择标记物的单一载体。在不受理论约束的情况下，通过单一载体同时递送Cpf1效应蛋白和gRNA 的能力使得能够应用于任何感兴趣的细胞类型，而不需要首先生成表达Cpf1效应蛋白的细胞系。调节元件可以是诱导型启动子。诱导型启动子可以是多西环素诱导型启动子。在本发明的一些方法中，指导序列的表达是处于T7启动子的控制下并且是由T7聚合酶的表达来驱动。不同敲除/敲低突变的确认可以是通过全外显子组测序进行的。敲除/敲低突变可以在100个或更多个独特基因中实现。敲除/敲低突变可以在1000个或更多个独特基因中实现。敲除/敲低突变可以在20,000个或更多个独特基因中实现。敲除/敲低突变可以在整个基因组中实现。基因功能的敲除/敲低可以在多个独特基因中实现，这些独特基因在特定生理途径或条件下起作用。该途径或条件可以是免疫途径或条件。该途径或条件可以是细胞分裂途径或条件。

本发明还提供了包含在此提及的全基因组文库的试剂盒。该试剂盒可以包含单个容器，该容器包含含有本发明的文库的载体或质粒。该试剂盒还可以包含含有独特Cpf1效应蛋白系统指导RNA的选择的面板，该指导RNA包含来自本发明的文库的指导序列，其中该选择指示特定生理条件。本发明包括的是，靶向是针对约100个或更多个序列、约1000或更多个序列或者约20,000个或更多个序列或整个基因组。另外，一组靶序列可以集中于相关或希望的途径中，诸如免疫途径或细胞分裂。

在本发明的另一个方面中，Cpf1效应蛋白可以包含一个或多个突变并且可以在融合或未融合至功能结构域的情况下用作通用DNA结合蛋白。这些突变可以是人工引入的突变或者增功能突变或失功能突变。这些突变已如在此所述地进行表征。在本发明的一个方面中，功能结构域可以是转录激活结构域，该结构域可以是VP64。在本发明的其他方面中，功能结构域可以是转录阻遏蛋白结构域，该结构域可以是 KRAB或SID4X。本发明的其他方面涉及融合至结构域的突变的Cpf1效应蛋白，这些结构域包括但不限于，转录激活因子、阻遏物、重组酶、易位酶、组蛋白改型物、脱甲基化酶、DNA甲基转移酶、隐花色素、光诱导型/控制型结构域或者化学诱导型/控制型结构域。本发明的一些方法可以包括诱导靶基因的表达。在一个实施例中，通过靶向真核细胞群体中的多个基因组座位中的多个靶序列诱导表达是通过使用功能结构域进行的。

用于CRISPR-Cas9系统中的方法适用于利用Cpf1效应蛋白复合物实践本发明并且参考以下各项：

人类细胞中的基因组规模的CRISPR-Cas9敲除筛选(Genome-Scale CRISPR-Cas9Knockout Screening in Human Cells)。沙莱姆，O.(Shalem,O.)、珊亚纳，NE.(Sanjana,NE.)、哈特诺斯，E.(Hartenian, E.)、石，X.(Shi,X.)、斯科特，DA.(Scott,DA.)、迈克尔森，T.(Mikkelson,T.)、赫克尔，D.(Heckl,D.)、埃伯特，BL.(Ebert,BL.)、罗特，DE.(Root,DE.)、多恩奇，JG.(Doench,JG.)、张，F.(Zhang,F.)，科学，12月12日(2013)。[电子版先于印刷版]；以最终编辑形式出版为：科学，2014年1月3日；343(6166):84-87。

沙莱姆等人涉及一种探察全基因组规模的基因功能的新方式。他们的研究显示具有64,751个独特指导序列的基因组规模的CRISPR-Cas9敲除(GeCKO)文库靶向的18,080个基因的递送能够在人类细胞中进行阴性和阳性选择筛选。首先，作者们证实使用GeCKO文库鉴定了癌症和多能干细胞中的细胞活力所必须的基因。接着，在黑色素瘤模型中，作者们筛选其丧失涉及对维罗非尼(一种抑制蛋白激酶BRAF 的治疗剂)的抗性的基因。他们的研究显示最高评级的候选物包括先前验证的基因NF1和MED12以及新型命中基因NF2、CUL3、TADA2B、以及TADA1。作者们在靶向相同基因的独立的指导RNA与高命中确认率之间观察到高水平的一致性，并且因此证实允许用Cas9进行基因组规模筛选。

还参考美国专利公开号US 20140357530；以及PCT专利公开WO 2014093701，这些专利通过引用结合在此。还参考2015年10月22日题为“研究者鉴定了CRISPR-Cas基因组编辑工具的可潜在替代方案：新Cas酶阐明CRISPR-Cas系统的进化(Researchers identifypotential alternative to CRISPR-Cas genome editing tools:New Cas enzymes shedlight on evolution of CRISPR-Cas systems)”的NIH通讯稿，该通讯稿通过引用结合在此。

功能变化和筛选

在另一个方面中，本发明提供了一种功能性评定和筛选基因的方法。使用本发明的CRISPR系统精确递送功能结构域以通过精确改变特定感兴趣的座位上的甲基化位点来激活或阻遏基因或者改变外遗传状态，这可以与一个或多个指导RNA一起应用于单个细胞或细胞群体或者与文库一起应用于离体或体内细胞库中的基因组，包括给予或表达包含多个指导RNA(gRNA)的文库并且其中该筛选进一步包括使用Cpf1效应蛋白，其中包含该Cpf1效应蛋白的CRISPR复合物被修饰为包含异源功能结构域。在一个方面中，本发明提供了一种用于筛选基因组的方法，该方法包括向宿主给予文库或者在宿主体内表达文库。在一个方面中，本发明提供了一种如在此讨论的方法，该方法进一步包括向宿主给予激活因子或在宿主中表达激活因子。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该激活因子附接至Cpf1效应蛋白。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该激活因子附接至Cpf1效应蛋白的N末端或C末端。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该激活因子附接至gRNA环。在一个方面中，本发明提供了一种如在此讨论的方法，该方法进一步包括向宿主给予阻遏剂或在宿主中表达阻遏剂。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该筛选包括影响并检测基因激活、基因抑制或座位中的切割。

在一个方面中，本发明提供了有效中靶活性并且最小化脱靶活性。在一个方面中，本发明提供了由Cpf1效应蛋白进行的有效中靶切割并且最小化由Cpf1效应蛋白进行的脱靶切割。在一个方面中，本发明提供了在无DNA切割情况下Cpf1效应蛋白在基因座位处的特异性结合。因此，在一个方面中，本发明提供了靶特异性基因调节。在一个方面中，本发明提供了在无DNA切割情况下Cpf1效应蛋白在基因座位处的特异性结合。因此，在一个方面中，本发明使用单一Cpf1效应蛋白提供在一个基因座位处的切割和在一个不同的基因座位处的基因调节。在一个方面中，本发明使用一种或多种Cpf1效应蛋白和/或酶提供多个靶标的正交激活和/或抑制和/或切割。

在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是真核细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是哺乳动物细胞。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该宿主是非人类真核生物。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该非人类真核生物是非人类哺乳动物。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该非人类哺乳动物是小鼠。在一个方面中，本发明提供了一种如在此所讨论的方法，该方法包括递送Cpf1效应蛋白复合物或其一种或多种组分或对其编码的一个或多个核酸分子，其中所述一个或多个核酸分子可操作地连接至一个或多个调节序列并且在体内表达。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该体内表达是经由慢病毒、腺病毒或AAV。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该递送是经由粒子、纳米粒子、脂质或细胞穿透肽(CPP)。

在一个方面中，本发明提供了一对包含Cpf1效应蛋白的CRISPR复合物，每个复合物包含含有能够与细胞中感兴趣的基因组座位中的靶序列杂交的指导序列的指导RNA(gRNA)，其中每个gRNA的至少一个环是通过插入结合一种或多种衔接蛋白的一种或多种不同RNA序列来修饰的，并且其中该衔接蛋白与一个或多个功能结构域缔合，其中每个Cpf1效应蛋白复合物的每个gRNA包含具有DNA切割活性的功能结构域。在一个方面中，本发明提供了如在此所讨论的成对的Cpf1效应蛋白复合物，其中DNA切割活性是归因于Fok1核酸酶。

在一个方面中，本发明提供了一种用于切割感兴趣的基因组座位中的靶序列的方法，该方法包括向细胞递送Cpf1效应蛋白复合物或其一种或多种组分或对其编码的一个或多个核酸分子，其中所述一个或多个核酸分子可操作地连接至一个或多个调节序列并且在体内表达。在一个方面中，本发明提供了一种如在此所讨论的方法，其中该递送是经由慢病毒、腺病毒或AAV。在一个方面中，本发明提供了一种如在此所讨论的方法或如在此所讨论的成对的Cpf1效应蛋白复合物，其中该对中的第一复合物的靶序列是处于双链DNA的第一条链上并且该对中的第二复合物的靶序列是处于双链DNA的第二条链上。在一个方面中，本发明提供了一种如在此所讨论的方法或如在此所讨论的成对的Cpf1效应蛋白复合物，其中该第一复合物和该第二复合物的靶序列彼此接近，使得DNA以促进同源定向修复的方式切割。在一个方面中，一种在此的方法可以进一步包括将模板DNA引入到细胞中。在一个方面中，一种在此的方法或者在此的成对的 Cpf1效应蛋白复合物可以涉及其中每个Cpf1效应蛋白复合物具有Cpf1效应酶，该Cpf1效应酶被突变为使得它具有不超过未突变Cpf1效应酶的核酸酶活性的约5％的核酸酶活性。

在一个方面中，本发明提供了一种如在此所讨论的文库、方法或复合物，其中gRNA被修饰为具有至少一个非编码功能环，例如其中该至少一个非编码功能环是有阻遏作用的；例如，其中该至少一个非编码功能环包含Alu。

在一个方面中，本发明提供了一种用于改变或修饰基因产物的表达的方法。所述方法可以包括将工程化的非天然存在的CRISPR系统引入到含有并表达编码基因产物的DNA分子的细胞中，该CRISPR 系统包含Cpf1效应蛋白和靶向DNA分子的指导RNA，由此该指导RNA靶向编码基因产物的DNA分子并且该Cpf1效应蛋白切割编码该基因产物的DNA分子，由此改变该基因产物的表达；并且其中Cpf1效应蛋白和指导RNA并不一起天然存在。本发明包括含有连接至同向重复序列的指导序列的指导RNA。本发明进一步包括密码子优化为在真核细胞中表达的Cpf1效应蛋白。在一个优选实施例中，真核细胞是哺乳动物细胞，并且在一个更优选实施例中，哺乳动物细胞是人类细胞。在本发明的另一个实施例中，基因产物的表达减少。

在一个实施例中，一个或多个功能结构域与Cpf1效应蛋白缔合。在一些实施例中，一个或多个功能结构域与衔接蛋白，例如如与康尔曼等人(自然517，583-588，2015年1月29日)的修饰指导序列一起使用。在一些实施例中，一个或多个功能结构域与无效gRNA(dRNA)缔合。在一些实施例中，与活性Cpf1效应蛋白的dRNA复合物通过基因座位上的功能结构域来引导基因调节，而gRNA通过另一个座位处的活性Cpf1效应蛋白来引导DNA切割，例如由达尔曼(Dahlman)等人“使用催化活性的Cas9核酸酶的正交基因控制(Orthogonalgene control with a catalytically active Cas9 nuclease)”(出版中)在CRISPR-Cas9系统中类似描述的。在一些实施例中，dRNA被选择为与脱靶调节相比使对感兴趣的基因座位的调节选择性最大化。在一些实施例中，dRNA被选择为最大化靶基因调节并且最小化靶标切割。

出于以下讨论的目的，提及功能结构域可以是与Cpf1效应蛋白缔合的功能结构域或者与衔接蛋白缔合的功能结构域。

在本发明的实践中，可以在不与Cpf1蛋白碰撞的情况下通过插入可以募集衔接蛋白的一个或多个不同RNA环或一个或多个不同序列扩展gRNA的环，这些衔接蛋白可以结合一个或多个不同RNA环或者一个或多个不同序列。这些衔接蛋白可以包括但不限于，存在于各种噬菌体外壳蛋白内的正交RNA结合蛋白/适配子组合。此类外壳蛋白列表包括但不限于：Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、 JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、 φCb23r、7s以及PRR1。这些衔接蛋白或正交RNA结合蛋白可以进一步募集包含一个或多个功能结构域的效应蛋白或融合物。在一些实施例中，功能结构域可以是选自下组，该组由以下各项组成：易位酶结构域、整合酶结构域、重组酶结构域、解离酶领域、转化酶结构域、蛋白酶结构域、DNA甲基转移酶结构域、DNA羟甲基酶结构域、DNA脱甲基酶结构域、组蛋白乙酰化酶结构域、组蛋白脱乙酰化酶结构域、核酸酶域、阻遏物结构域、激活因子结构域、核定位信号结构域、转录调节蛋白质(或转录复合物募集)结构域、细胞摄取活动相关结构域、核酸结合结构域、抗体呈递结构域、组蛋白修饰酶、组蛋白修饰酶的募集物；组蛋白修饰酶、组蛋白甲基转移酶、组蛋白脱甲基化酶、组蛋白激酶、组蛋白磷酸酶、组蛋白核糖基酶、组蛋白脱核糖基酶、组蛋白泛素酶、组蛋白脱泛素酶、组蛋白生物素酶以及组蛋白尾蛋白酶的抑制剂。在一些优选实施例中，功能结构域是转录激活结构域，诸如但不限于，VP64、p65、MyoD1、HSF1、RTA、SET7/9 或组蛋白乙酰转移酶。在一些实施例中，功能结构域是转录阻遏结构域，优选地KRAB。在一些实施例中，转录阻遏结构域是SID或SID的串联体(例如SID4X)。在一些实施例中，功能结构域是表观遗传修饰结构域，以便提供表观遗传修饰酶。在一些实施例中，功能结构域是激活结构域，它可以是P65激活结构域。

在一些实施例中，一个或多个功能结构域是NLS(核定位序列)或NES(核输出信号)。在一些实施例中，一个或多个功能结构域是转录激活结构域，包括VP64、p65、MyoD1、HSF1、RTA、SET7/9 以及组蛋白乙酰转移酶。在此提及的其他激活(或激活因子)结构域(关于与CRISPR酶缔合的那些结构域)包括任何已知的转录激活结构域并且确切的是VP64、p65、MyoD1、HSF1、RTA、SET7/9或组蛋白乙酰转移酶。

在一些实施例中，一个或多个功能结构域是转录阻遏蛋白结构域。在一些实施例中，转录阻遏蛋白结构域是KRAB结构域。在一些实施例中，转录阻遏蛋白结构域是NuE结构域、NcoR结构域、SID 结构域或SID4X结构域。

在一些实施例中，一个或多个功能结构域具有一种或多种活性，包括甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA 切割活性、DNA整合活性或核酸结合活性。

在一些实施例中，组蛋白修饰结构域也是优选的。以下讨论了示例性组蛋白修饰结构域。易位酶结构域、HR(同源重组)机构结构域、重组酶结构域、和/或整合酶结构域作为本发明功能结构域也是优选的。在一些实施例中，DNA整合活性包括HR机构结构域、整合酶结构域、重组酶结构域和/或易位酶结构域。在一些实施例中，组蛋白乙酰转移酶是优选的。

在一些实施例中，DNA切割活性是归因于核酸酶。在一些实施例中，核酸酶包括Fok1核酸酶。参见，“用于高特异性基因组编辑的二聚CRISPR RNA指导FokI核酸酶(Dimeric CRISPR RNA-guided FokI nucleases for highly specific genomeediting)”，盛达尔·Q.·蔡(Shengdar Q.Tsai)、尼古拉斯·维肯恩(Nicolas Wyvekens)、采德·凯特尔(Cyd Khayter)、詹尼弗·A.·福登布(Jennifer A.Foden)、维沙尔·撒帕尔(Vishal Thapar)、迪帕克·雷恩(Deepak Reyon)、马修·J.·古德温(MathewJ.Goodwin)、马丁·J.·阿里耶(Martin J. Aryee)、J.·基思·姜俊(J.Keith Joung)，自然生物技术32(6):569-77(2014)，它涉及在人类细胞中识别扩展序列并以高效率编辑内源性基因的二聚RNA指导FokI核酸酶。

在一些实施例中，一个或多个功能结构域附接至Cpf1效应蛋白，以使得在结合sgRNA和靶标时，功能结构域是呈允许功能结构域以其属性功能起作用的空间取向。

在一些实施例中，一个或多个功能结构域附接至衔接蛋白，以使得在Cpf1效应蛋白结合gRNA 和靶标时，功能结构域是处于允许功能结构域以其属性功能起作用的空间定向中。

在一个方面中，本发明提供了一种如在此所讨论的组合物，其中一个或多个功能结构域经由如在此所讨论的接头、任选地GlySer接头附接至Cpf1效应蛋白或衔接蛋白。

内源性转录阻遏常常是通过染色质修饰酶诸如组蛋白甲基转移酶(HMT)和脱乙酰化酶 (HDAC)介导的。阻遏组蛋白效应子结构域是已知的并且下文提供了一个示例性列表。在该示例性表格中，优先使用有助于有效病毒包装(例如经由AAV)的小型蛋白质和功能截短物。然而，总的来说，这些结构域可以包括HDAC、组蛋白甲基转移酶(HMT)和组蛋白乙酰转移酶(HAT)抑制剂、以及HDAC和 HMT募集蛋白。在一些实施例中，功能结构域可以是或者包括HDAC效应子结构域、HDAC募集物效应子结构域、组蛋白甲基转移酶(HMT)效应子结构域、组蛋白甲基转移酶(HMT)募集物效应子结构域、或组蛋白乙酰转移酶抑制剂效应子结构域。

HDAC效应子结构域

因此，本发明的阻遏蛋白结构域可以是选自组蛋白甲基转移酶(HMT)、组蛋白脱乙酰酶 (HDAC)、组蛋白乙酰转移酶(HAT)抑制剂、以及HDAC和HMT募集蛋白。

HDAC结构域可以是以上表中的那些结构域中的任一种，即：HDAC8、RPD3、MesoLo4、HDAC11、HDT1、SIRT3、HST2、CobB、HST2、SIRT5、Sir2A、或SIRT6。

在一些实施例中，功能结构域可以是HDAC募集物效应子结构域。优选实例包括以下表中的那些，即MeCP2、MBD2b、Sin3a、NcoR、SALL1、RCOR1。NcoR是本发明实例中举例说明的，并且尽管它是优选的，但设想的是该类别中的其他结构域也将是有用的。

HDAC募集物效应子结构域的表

在一些实施例中，功能结构域可以是甲基转移酶(HMT)效应子结构域。优选实例包括下表中的那些，即NUE、vSET、EHMT2/G9A、SUV39H1、dim-5、KYP、SUVR4、SET4、SET1、SETD8、以及TgSET8。NUE是本发明实例中举例说明的，并且尽管它是优选的，但设想的是该类别中的其他结构域也将是有用的。

组蛋白甲基转移酶(HMT)效应子结构域的表

在一些实施例中，功能结构域可以是组蛋白甲基转移酶(HMT)募集物效应子结构域。优选实例包括以下表中的那些，即Hp1a、PHF19、以及NIPP1。

组蛋白甲基转移酶(HMT)募集物效应子结构域的表

在一些实施例中，功能结构域可以是组蛋白乙酰转移酶抑制剂效应子结构域。优选实例包括以下表中列出的SET/TAF-1β。

组蛋白乙酰转移酶抑制剂效应子结构域的表

还优选的是靶向除启动子或启动子近侧元件之外的内源性(调节)控制元件(诸如增强子和沉默子)。因此，除靶向启动子之外，本发明还可以用于靶向内源性控制元件(包括增强子和沉默子)。这些控制元件可以位于转录起始位点(TSS)上游和下游，从距离TSS的200bp开始到100kb远。已知控制元件的靶向可以用于激活或阻遏感兴趣的基因。在一些情况下，单一控制元件可以影响多个靶基因的转录。单一控制元件的靶向可以因此用于同时控制多基因的转录。

在另一个方面中，推定的控制元件的靶向(例如，通过针对推定的控制元件区域以及该元件周围200bp至100kB)可以用作验证此类元件(通过测量感兴趣的基因的转录)或者检测新型控制元件(例如，通过针对感兴趣的基因的TSS的上游和下游的100kb)的手段。此外，推定的控制元件的靶向可以适用于理解疾病遗传原因的情况。与疾病表型相关联的许多突变和常见SNP变体位于编码区之外。使用在此所述的激活或阻遏系统靶向此类区域，可以接着读出a)一组推定的靶标(例如，最紧密接近控制元件来定位的一组基因)的转录或者b)通过RNAseq或微阵列进行整体转录组读出。这允许鉴定疾病表型中涉及的最可能的候选基因。此类候选基因可以适用作新型药物靶标。

在此提及了组蛋白乙酰转移酶(HAT)抑制剂。然而，在一些实施例中，替代物是针对包含乙酰转移酶、优选组蛋白乙酰转移酶的一个或多个功能结构域。这些适用于表观基因组学领域，例如适用于探察表观基因组的方法。探察表观基因组的方法可以包括例如靶向表观基因组序列。靶向表观基因组序列可以包括将指导序列引导至表观基因组靶序列。在一些实施例中，表观基因组靶序列可以包括启动子、沉默子或增强子序列。

使用连接至在此所述的Cpf1效应蛋白、优选无效Cpf1效应蛋白、更优选无效-FnCpf1效应蛋白的功能结构域靶向表观基因组序列，可以用于激活或阻遏启动子、沉默子或增强子。

乙酰转移酶的实例是已知的，但在一些实施例中可以包括组蛋白乙酰转移酶。在一些实施例中，组蛋白乙酰转移酶可以包含人类乙酰转移酶p300的催化核心(杰尔巴迟(Gerbasch)和雷迪(Reddy)，自然生物技术，2015年4月6日)。

在一些优选实施例中，功能结构域连接至无效-Cpf1效应蛋白，以靶向并激活表观基因组序列，诸如启动子或增强子。还可以提供引导至此类启动子或增强子的一种或多种指导序列，以引导CRISPR酶与此类启动子或增强子结合。

术语“与...缔合”在此用于是指功能结构域与Cpf1效应蛋白或衔接蛋白缔合。它是关于一个分子如何与另一个分子“缔合”，例如衔接蛋白与功能结构域之间或者Cpf1效应蛋白与功能结构域之间。在此类蛋白质-蛋白质相互作用的情况下，此缔合可以按照抗体识别表位的方式进行的识别来观察。可替代地，一种蛋白质可以与另一种蛋白质经由两者的融合来缔合，例如一种亚基融合至另一种亚基。典型地通过将一种蛋白质的氨基酸序列添加到另一种蛋白质的氨基酸序列上，例如经由将编码每种蛋白质或亚基的核苷酸序列剪接在一起来发生融合。可替代地，这可以实质上视为两个分子之间的结合或直接连接，诸如融合蛋白。在任何情况下，融合蛋白可以包含两个感兴趣的亚基之间(即酶与功能结构域之间或衔接蛋白与功能结构域之间)的接头。因此，在一些实施例中，Cpf1效应蛋白或衔接蛋白通过结合功能结构域来与该功能结构域缔合。在其他实施例中，Cpf1效应蛋白或衔接蛋白与功能结构域缔合，因为两者任选地经由中间接头融合在一起。

功能结构域或融合蛋白的附接可以是经由接头，例如柔性甘氨酸-丝氨酸(GlyGlyGlySer)或 (GGGS)₃或者硬性α-螺旋形接头诸如(Ala(GluAlaAlaAlaLys)Ala)。在此优选使用接头诸如(GGGGS)3分开蛋白质或肽结构域。(GGGGS)₃是优选的，因为它是相对长的接头(15个氨基酸)。甘胺酸残基是最柔性的并且丝氨酸残基增加接头处于蛋白质之外的机会。(GGGGS)₆(GGGGS)₉或(GGGGS)₁₂可以优选地用作替代物。其他优选替代物是(GGGGS)₁、(GGGGS)₂、(GGGGS)₄、(GGGGS)₅、(GGGGS)₇、(GGGGS)₈、(GGGGS)₁₀、或(GGGGS)₁₁。替代性接头是可用的，但高柔性接头被认为是作用最好，以使得Cpf1的2个部分合在一起并因此重构Cpf1活性的机会最大。一个替代方案是核质蛋白的NLS可以用作接头。例如，接头也可以用在Cpf1 与任何功能结构域之间。同样，在此可以使用(GGGGS)₃接头(或因此6、9或12个重复版本)或者可以将核质蛋白的NLS用作Cpf1与功能结构域之间的接头。

饱和诱变

在此所述的一种或多种Cpf1效应蛋白系统可以用于进行基因组座位连同细胞表型的饱和诱变或深度扫描诱变-例如以用于测定基因表达、药物抗性和疾病逆转所需要的功能元件的关键性最小特征和不连续易损性。饱和诱变或深度扫描诱导意指在基因组座位中每个或基本上每个DNA碱基被切割。Cpf1效应蛋白指导RNA的文库可以被引入到细胞群体中。该文库可以被引入为使得每个细胞接收单一指导RNA (gRNA)。在其中该文库通过转导如在此所述的病毒载体来引入的情况下，使用低感染复数(MOI)。该文库可以包括靶向在基因组座位中的(原型间隔区相邻基序)(PAM)序列上游的每个序列的gRNA。该文库对于基因组座位中的每1000个碱基对可以包括PAM序列上游的至少100个非重叠基因组座位序列。该文库可以包括靶向至少一个不同PAM序列上游的序列的gRNA。Cpf1效应蛋白系统可以包含超过一个Cpf1蛋白。可以使用在此所述的任何Cpf1效应蛋白，包括识别不同PAM序列的直向同源物或工程化Cpf1效应蛋白。 gRNA的脱靶位点的频率可以是小于500。可以生成脱靶得分以选择具有最低脱靶位点的gRNA。在单个实验中，确定与gRNA靶位点处的切割相关联的任何表型可以是通过使用靶向相同位点的gRNA来证实。靶位点的确认也可以是通过使用如在此所述的修饰的Cpf1效应蛋白和靶向感兴趣的基因组位点的两个gRNA来进行的。在不希望受到理论约束的情况下，如果在确认实验中观察到表型的变化，则靶位点是准确命中的。

基因组座位可以包含至少一个连续的基因组区域。该至少一个连续基因组区域可以包含多至整个基因组。该至少一个连续基因组区域可以包含该基因组的功能元件。该功能元件可以是处于非编码区、编码基因、内含子区域、启动子或增强子。该至少一个连续的基因组区域可以包含至少1kb、优选至少50kb 的基因组DNA。该至少一个连续基因组区域可以包含转录因子结合位点。该至少一个连续基因组区域可以包含DNA酶I超敏区域。该至少一个连续基因组区域可以包含转录增强子或阻遏子元件。该至少一个连续基因组区域可以包含富含表观遗传特征的位点。该至少一个连续基因组DNA区域可以包含表观遗传绝缘子。该至少一个连续基因组区域可以包含物理上相互作用的两个或更多个基因组区域。相互作用的基因组区域可以是通过“4C技术”来确定。4C技术允许对于与选择的DNA片段物理相互作用的DNA区段以无偏性方式筛选整个基因组，如赵(Zhao)等人((2006)自然遗传学(Nat Genet)38，1341-7)和美国专利8,642,295 中所述的，这两份文献通过引用以其整体结合在此。表观遗传特征可以是组蛋白乙酰化、组蛋白甲基化、组蛋白泛素化、组蛋白磷酸化、DNA甲基化或其缺失。

用于饱和诱变或深度扫描诱变的一种或多种Cpf1效应蛋白系统可以用于细胞群体中。一种或多种Cpf1效应蛋白系统可以用于真核细胞中，这些真核细胞包括但不限于哺乳动物细胞和植物细胞。细胞群体可以是真核细胞。真核细胞群体可以是胚胎干细胞(ES)、神经元细胞、上皮细胞、免疫细胞、内分泌细胞、肌肉细胞、红细胞、淋巴细胞、植物细胞或酵母细胞。

在一个方面中，本发明提供了一种筛选与表型变化相关联的功能元件的方法。文库可以被引入到适于含有Cpf1效应蛋白的细胞群体。这些细胞基于表型可以被分成至少两组。该表型可以是基因表达、细胞生长或细胞活力。确定存在于每组中的指导RNA的相对表现度，由此通过每组中的指导RNA的表现度来确定与表型变化相关联的基因组位点。表型变化可以是感兴趣的基因表达的变化。感兴趣的基因可以是上调、下调或敲除的。这些细胞可以被分为高表达组和低表达组。细胞群体可以包括用于确定表型的报道基因构建体。该报道基因构建体可以包含可检测标记物。细胞可以通过使用可检测标记物来分类。

在另一个方面中，本发明提供了一种筛选与对化学化合物的抗性相关联的基因组位点的方法。化学化合物可以是药物或杀虫剂。文库可以被引入到适于含有Cpf1效应蛋白的细胞群体中，其中该群体中的每个细胞含有不超过一个的指导RNA；用化学化合物处理细胞群体；并且与早时间点相比，在较晚时间点用化学化合物处理后确定指导RNA的表现度，由此通过富集指导RNA来确定与对化学化合物的抗性相关联的基因组位点。gRNA的表现度可以是通过深度测序方法确定的。

用于CRISPR-Cas9系统中的方法适用于利用Cpf1效应蛋白复合物实践本发明并且参考以下文章：题为通过Cas9-诱导的原位饱和诱变进行BCL11A增强子分割(BCL11Aenhancer dissection by Cas9-mediated in situ saturating mutagenesis)康维尔M.C.(Canver,M.C.)、史密斯E.C.(Smith,E.C.)、谢尔 F.(Sher,F.)、派因洛L.(Pinello,L.)、珊亚纳N.E.(Sanjana,N.E.)、沙莱姆O.(Shalem,O.)、陈D.D.(Chen, D.D.)、舒普P.G.(Schupp,P.G.)、维佳穆尔D.S.(Vinjamur,D.S.)、加西亚S.P.(Garcia,S.P.)、吕克S.(Luc,S.)、栗田R.(Kurita,R.)、纳卡穆拉Y.(Nakamura,Y.)、藤原Y.(Fujiwara,Y.)、马埃达T.(Maeda,T.)、元 G.(Yuan,G.)、张F.(Zhang,F.)、奥尔金S.H.(Orkin,S.H.)、以及鲍尔D.E.(Bauer,D.E.) DOI:10.1038/nature15521，2015年9月16日网上公开，该文章通过引用结合在此并且在下文中简要讨论：

康维尔等人涉及进行人和小鼠BCL11A红系增强子的原位饱和诱变的新型合并的CRISPR-Cas9指导RNA文库，这些红系增强子先前被鉴定为是与胎血红蛋白(HbF)水平相关联的增强子并且该增强子的小鼠直向同源物是红系BCL11A表达所必需的。此方法揭示了这些增强子关键性最小特征和离散缺点。通过编辑原代人祖细胞和小鼠诱变，作者们确认BCL11A红系增强子作为用于HbF再诱导的靶标。作者们制成报告治疗性基因组编辑的详细增强子图。

使用Cpf1系统修饰细胞或生物体的方法

在一些实施例中，本发明包括一种修饰细胞或生物体的方法。细胞可以是原核细胞或真核细胞。细胞可以是哺乳动物细胞。哺乳动物细胞可以是非人类灵长类动物、牛、猪、啮齿动物或小鼠细胞。细胞可以是非哺乳动物真核细胞诸如家禽、鱼或虾的细胞。细胞还可以是植物细胞。植物细胞可以是栽培植物诸如木薯、玉米、高粱、小麦或稻具有的细胞。植物细胞还可以是藻类、树或蔬菜具有的细胞。通过本发明引入到细胞的修饰可以使得细胞和细胞的子代被改变以改进生物产物诸如抗体、淀粉、乙醇或其他所希望的细胞输出物的产生。通过本发明引入到细胞的修饰可以使得细胞和细胞的子代包括使所产生的生物产物发生变化的改变。

该系统可以包含一种或多种不同载体。在本发明的一个方面中，Cas蛋白被密码子优化为在所希望的细胞类型，优先地是真核细胞，优选地是哺乳动物细胞或人类细胞中表达。

包装细胞典型地用于形成能够感染宿主细胞的病毒粒子。此类细胞包括包装腺病毒的293细胞和包装逆转录病毒的ψ2细胞或PA317细胞。基因治疗中使用的病毒载体通常是通过产生将核酸载体包装到病毒粒子中的细胞系来生成的。这些载体典型地含有包装并随后整合到宿主中所需要的最小病毒序列、被有待表达的一个或多个多核苷酸的表达盒替换的其他病毒序列。失去的病毒功能典型地是由包装的细胞系反向供应的。例如，基因治疗中使用的AAV载体典型地仅具有来自AAV基因组的ITR序列，这些序列是包装并整合到宿主基因组中所需要的。病毒DNA被包装在一个细胞系中，该细胞系含有编码其他AAV基因即 rep和cap但缺乏ITR序列的辅助质粒。该细胞系还可以用作为辅助物的腺病毒感染。辅助病毒促进AAV载体复制和来自辅助质粒的AAV基因表达。辅助质粒由于缺乏ITR序列而未大量包装。腺病毒的污染可以是通过例如进行腺病毒比AAV更敏感的热处理来减少的。

递送

本发明涉及经由至少一种纳米粒子复合物递送的CRISPR复合物的至少一种组分，例如RNA。在一些方面中，本发明提供了包括以下各项的方法：向宿主细胞递送一种或多种多核苷酸，诸如在此所述的一种或多种载体、其一种或多种转录物和/或由其转录的一种或多种蛋白质。在一些方面中，本发明进一步提供了通过此类方法产生的细胞以及包含此类细胞或由此类细胞产生的动物。在一些实施例中，将 CRISPR酶与指导序列组合(以及任选地与其复合)递送到细胞中。常规的基于病毒和非病毒的基因转移方法可以用于在哺乳动物细胞或靶组织中引入核酸。此类方法可以用于向培养基或宿主生物体中的细胞给予编码CRISPR系统的组分的核酸。非病毒载体递送系统包括DNA质粒、RNA(例如在此所述的载体的转录物)、裸核酸、以及与递送媒介物脂质体复合的核酸。病毒载体递送系统包括DNA和RNA病毒，这些病毒在递送至细胞后具有附加型基因组或整合型基因组。对于基因治疗程序的综述，参见安德森，科学 256:808-813(1992)；纳贝尔和费尔格纳，TIBTECH 11:211-217(1993)；三谷和卡斯基，TIBTECH 11:162-166 (1993)；狄龙，TIBTECH 11:167-175(1993)；米勒，自然357:455-460(1992)；范布伦特，生物技术 6(10):1149-1154(1988)；比涅，恢复神经学和神经科学8:35-36(1995)；克雷默和佩里科代，英国医学公报 51(1):31-44(1995)；哈嗒嗒等人，微生物学和免疫学的前沿课题，窦尔弗勒和博姆(编辑)(1995)；以及余等人，基因治疗1:13-26(1994)。

非病毒递送核酸的方法包括包括脂质转染、微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸轭合物、裸DNA、人工病毒体递送、以及药剂增强DNA摄取。脂质转染描述于例如美国专利号5,049,386、4,946,787；以及4,897,355)并且脂质转染试剂是商业上销售的(例如，Transfectam^TM和Lipofectin^TM)。适用于多核苷酸的有效受体识别脂质转染的阳离子脂质和中性脂质包括以下各项中的那些：费尔格纳WO 91/17424；WO91/16024。递送可以是递送至细胞(例如，体外或离体给予)或靶组织(例如，体内给予)。

脂质:核酸复合物(包括靶向脂质体，诸如免疫脂质复合物)的制备是本领域技术人员已熟知的(例如，参见克里斯特尔(Crystal)，科学270:404-410(1995)；布莱泽等人，癌症基因治疗2:291-297(1995)；贝尔等人，生物共轭化学5:382-389(1994)；雷米等人，生物共轭化学5:647-654(1994)；高等人，基因治疗2:710-722(1995)；艾哈迈德等人,癌症研究52:4817-4820(1992)；美国专利号4,186,183、4,217,344、4,235,871、 4,261,975、4,485,054、4,501,728、4,774,085、4,837,028、以及4,946,787)。

逆转录病毒的趋向性可以通过结合外源包膜蛋白来改变，从而扩增靶细胞的潜在靶群体。慢病毒载体是能够转导或感染非分裂细胞并典型地产生高病毒滴度的逆转录病毒载体。逆转录病毒基因转移系统的选择因此将取决于靶组织。逆转录病毒载体包含具有多至6-10kb外源序列的包装容量的顺式作用长末端重复序列。最小量顺式作用LTR是足以复制并包装这些载体的，然后使用这些载体将治疗基因整合到靶细胞中，以提高永久性转基因表达。广泛使用的逆转录病毒载体包括基于以下各项的那些：鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)、以及其组合(例如，参见，布奇谢尔等人，病毒学杂志66:2731-2739(1992)；约翰等人，病毒学杂志66:1635-1640(1992)；绍姆内尔费尔特等人，病毒学176:58-59(1990)；威尔逊等人，病毒学杂志63:2374-2378(1989)；米勒等人，病毒学杂志65:2220-2224(1991)；PCT/US 94/05700)。

在另一个实施例中，预期可卡耳水泡病毒包膜假型化逆转录病毒载体粒子(例如，参见转让给福瑞德哈金森肿瘤研究中心(Fred Hutchinson Cancer Research Center)的美国专利公开号20120164118)。可卡耳病毒是在水泡病毒属中，并且是哺乳动物的水泡性口炎的致病物。可卡耳病毒最初从特立尼达拉岛 (Trinidad)的螨虫中分离(乔恩克尔(Jonkers)等人，美国兽医研究杂志(Am.J.Vet.Res.)25:236-242(1964))，并且在特立尼达拉岛、巴西和阿根廷已从昆虫、牛和马中鉴定到感染。感染哺乳动物的许多水泡病毒已从天然感染的节肢动物中分离，这表明它们是载体传播(vector-borne)的。水泡病毒抗体在生活于农村地区的人中是常见，而这些病毒是地方性的并且是实验室采集的；人类的感染通常导致流感样症状。可卡耳病毒包膜糖蛋白与VSV-G Indiana享有71.5％氨基酸水平的一致性，并且水泡病毒包膜基因的系统发育比较显示可卡耳病毒在血清学上不同于水泡病毒内的VSV-G Indiana病毒株，但与其紧密相关。乔恩克尔等人，美国兽医研究杂志25:236-242(1964)和特拉瓦索斯达罗萨(Travassos da Rosa)等人，美国热带医学和卫生杂志(Am.J.Tropical Med.&Hygiene)33:999-1006(1984)。可卡耳水泡病毒包膜蛋白假型化逆转录病毒载体粒子可以包括慢病毒、α逆转录病毒、β逆转录病毒、γ逆转录病毒、δ逆转录病毒以及ε逆转录病毒载体粒子，这些载体可以可以包含逆转录病毒Gag、Pol、和/或一种或多种辅助蛋白以及可卡耳水泡病毒包膜蛋白。在这些实施例的某些方面中，Gag、Pol和辅助蛋白是慢病毒和/或γ逆转录病毒的。本发明提供了含有以下各项或基本上由以下各项组成的AAV：编码CRISPR系统的外源性核酸分子，例如包含第一盒或基本上由该第一盒组成的多个盒，该第一盒包含启动子、编码CRISPR-相关(Cas)蛋白(推定的核酸酶或解旋酶蛋白) 例如Cpf1的核酸分子和终止子或基本上尤其组成，以及两个或更多个、有利地多至包装尺寸限度的载体，例如总计(包括该第一盒)五个包含启动子、编码指导RNA(gRNA)的核酸分子和终止子或基本上由其组成的盒(例如，每个盒示意性表示为启动子-gRNA1-终止子、启动子-gRNA2-终止子...启动子-gRNA(N)- 终止子(其中N是可以插入的数值，该数值是载体包装尺寸限度的上限)，或者两个或更多个单独的rAAV，各自含有CRISPR系统的一个或超过一个盒，例如第一个rAAV含有启动子、编码Cas例如Cas(Cpf1)的核酸分子和终止子或基本上由其组成的第一盒，并且第二rAAV含有多个、四个包含启动子、编码指导RNA (gRNA)的核酸分子和终止子或基本上由其组成的盒(例如，每个盒示意性表示为启动子-gRNA1-终止子、启动子-gRNA2-终止子...启动子-gRNA(N)-终止子(其中N是可以插入的数值，该数值是在该载体的包装尺寸限度的上限内)。由于rAAV是DNA病毒，所以在此关于AAV或rAAV的讨论中的核酸分子有利地是DNA。在一些实施例中，该启动子有利地是人类突触蛋白I启动子(hSyn)。用于将核酸递送至细胞的其他方法是本领域技术人员已知的。例如，参见US20030087817，该专利通过引用结合在此。

在一些实施例中，宿主细胞是用在此所述的一种或多种载体瞬时转染或非瞬时转染的。在一些实施例中，细胞当天然存在于受试者中时被转染。在一些实施例中，转染的细胞是从受试者中获得的。在一些实施例中，细胞是来源于从受试者中获得的细胞，诸如细胞系。用于组织培养的多种多样的细胞系是本领域已知的。细胞系包括但不限于，C8161、CCRF-CEM、MOLT、mIMCD-3、NHDF、HeLa-S3、Huh1、 Huh4、Huh7、HUVEC、HASMC、HEKn、HEKa、MiaPaCell、Panc1、PC-3、TF1、CTLL-2、C1R、Rat6、 CV1、RPTE、A10、T24、J82、A375、ARH-77、Calu1、SW480、SW620、SKOV3、SK-UT、CaCo2、P388D1、 SEM-K2、WEHI-231、HB56、TIB55、Jurkat、J45.01、LRMB、Bcl-1、BC-3、IC21、DLD2、Raw264.7、 NRK、NRK-52E、MRC5、MEF、HepG2、HeLa B、HeLa T4、COS、COS-1、COS-6、COS-M6A、BS-C-1 猴肾上皮细胞、BALB/3T3小鼠胚成纤维细胞、3T3 Swiss、3T3-L1、132-d5人胎儿成纤维细胞；10.1小鼠成纤维细胞、293-T、3T3、721、9L、A2780、A2780ADR、A2780cis、A172、A20、A253、A431、A-549、 ALC、B16、B35、BCP-1cells、BEAS-2B、bEnd.3、BHK-21、BR 293、BxPC3、C3H-10T1/2、C6/36、Cal-27、 CHO、CHO-7、CHO-IR、CHO-K1、CHO-K2、CHO-T、CHO Dhfr-/-、COR-L23、COR-L23/CPR、COR-L23/5010、 COR-L23/R23、COS-7、COV-434、CML T1、CMT、CT26、D17、DH82、DU145、DuCaP、EL4、EM2、 EM3、EMT6/AR1、EMT6/AR10.0、FM3、H1299、H69、HB54、HB55、HCA2、HEK-293、HeLa、Hepa1c1c7、 HL-60、HMEC、HT-29、Jurkat、JY细胞、K562细胞、Ku812、KCL22、KG1、KYO1、LNCap、Ma-Mel 1-48、 MC-38、MCF-7、MCF-10A、MDA-MB-231、MDA-MB-468、MDA-MB-435、MDCK II、MDCK II、MOR/0.2R、MONO-MAC 6、MTD-1A、MyEnd、NCI-H69/CPR、NCI-H69/LX10、NCI-H69/LX20、NCI-H69/LX4、NIH-3T3、 NALM-1、NW-145、OPCN/OPCT细胞系、Peer、PNT-1A/PNT 2、RenCa、RIN-5F、RMA/RMAS、Saos-2 细胞、Sf-9、SkBr3、T2、T-47D、T84、THP1细胞系、U373、U87、U937、VCaP、Vero细胞、WM39、 WT-49、X63、YAC-1、YAR、以及其转基因品种。细胞系可从本领域技术人员已知的多种来源获得(例如，参见美国典型培养物保藏中心(ATCC)(弗吉尼亚州马纳萨斯))。在一些实施例中，用在此所述的一种或多种载体转染的细胞用于建立包含一种或多种载体来源的序列的新细胞系。在一些实施例中，将用如在此所述的CRISPR系统的组分瞬时转染(诸如通过瞬时转染一种或多种载体或用RNA转染)并且通过CRISPR 复合物的活性修饰的细胞用于建立一种包括含有修饰但缺乏任何其他外源性序列的细胞的细胞系。在一些实施例中，将用在此所述的一种或多种载体瞬时转染或非瞬时转染的细胞或来源于此类细胞的细胞系用于评定一种或多种测试化合物。

在一些实施例中，在此所述的一种或多种载体用于产生非人类转基因动物或转基因植物。在一些实施例中，转基因动物是哺乳动物，诸如小鼠、大鼠或兔。用于产生转基因动物和植物的方法是本领域已知的并且通常以一种细胞转染方法诸如在此所述的方法开始。在另一个实施例中，可以预期具有针阵列的流体递送装置(例如，参见转让给福瑞德哈金森肿瘤研究中心的美国专利公开号20110230839)用于将CRISPR Cas递送至实体组织。美国专利公开号20110230839的一种用于将流体递送至实体组织的装置可以包括按阵列安排的多个针；多个存储器，每个存储器与该多个针中的一个对应针流体连通；以及多个制动器，该多个制动器可操作地连接至该多个存储器中的对应存储器并且被配置为控制该存储器内的流体压力。在某些实施例中，该多个制动器中的每个制动器可以包括多个柱塞之一，该多个柱塞中的每个柱塞的第一端被接收在该多个存储器中的对应存储器中，并且在某些另外的实施例中，该多个柱塞中的这些柱塞在第二端可操作地连接在一起，以便可同时下压。某些另外的实施例可以包括柱塞驱动器，该柱塞驱动器被配置为以选择性可变速率压下所有该多个柱塞。在其他实施例中，该多个制动器中的每个制动器可以包括具有第一端和第二端的多个流体传输线中的一个流体传输线，该多个流体传输线中的每个流体传输线的第一端连接至该多个存储器中的一个对应存储器。在其他实施例中，该装置可以包括一个流体压力来源，并且该多个制动器中的每个制动器包括该流体压力来源与该多个存储器中的一个对应存储器之间的流体连接。在另外的实施例中，流体压力来源可以包括以下各项中的至少一种：压缩器、真空贮气筒、蠕动泵、主缸、微流体泵、以及阀。在另一个实施例中，该多个针中的每个针可以包括沿着其长度分布的多个端口。

在一个方面中，本发明提供了修饰真核细胞中的靶多核苷酸的方法。在一些实施例中，该方法包括使得核酸靶向复合物结合靶多核苷酸来实施所述靶多核苷酸的切割，从而修饰该靶多核苷酸，其中该核酸靶向复合物包含与杂交至所述靶多核苷酸内的靶序列的指导RNA复合的核酸靶向效应蛋白。

在另一个方面中，本发明提供了一种修饰多核苷酸在真核细胞中的表达的方法。在一些实施例中，该方法包括允许核酸靶向复合物结合该多核苷酸，以使得所述结合导致所述多核苷酸的表达增加或减少；其中该核酸靶向复合物包含与杂交至所述多核苷酸内的靶序列的指导RNA复合的核酸靶向效应蛋白。

CRISPR复合物组分可以是通过与转运部分轭合或缔合来递送(例如，改编自美国专利号8,106,022；8,313,772)。核酸递送策略可以例如用于改进指导RNA或信使RNA或编码CRISPR复合物组分的编码DNA的递送。例如，RNA可以结合修饰的RNA核苷酸来提高稳定性、减小免疫刺激并且/或者改进特异性(参见德勒埃维，格伦·F.(Deleavey,Glen F.)等人，2012，化学与生物学(Chemistry&Biology)，第 19卷，第8期，937-954；扎利皮斯科(Zalipsky)，1995，先进药物递送评论(Advanced Drug Delivery Reviews) 16:157-182；卡利色提(Caliceti)和威罗尼(Veronese)，2003，先进药物输送评论55:1261-1277)。已描述可以用于修饰核酸诸如gRNA以进行更有效的递送的不同构建体，诸如可以适于修饰gRNA以便具有更大疏水性和非离子性从而提高细胞进入的可逆性电荷中和磷酸三酯骨架修饰(米德·BR(Meade BR)等人， 2014，自然生物技术32，1256-1261)。在其他替代实施例中，选定的RNA基序可以适用于介导细胞转染(麦哲伦·M.(

M.)等人，分子治疗(Molecular Therapy)(2012)；20 3,616-624)。类似地，适配子可以适于例如通过将适配子附加至gRNA来递送CRISPR复合物组分(塔恩(Tan)等人，2011，生物技术趋势(Trends inBiotechnology)，2011年12月，第29卷，第12期)。

在一些实施例中，三触角N-乙酰基半乳糖胺(GalNAc)与寡核苷酸组分的轭合可以用于改进递送，例如选择细胞类型例如肝细胞的递送(参见WO2014118272，该专利通过引用结合在此；耐尔，JK (Nair,JK)等人，2014，美国化学学会杂志(Journal of theAmerican Chemical Society)136(49), 16958-16961)。这可以被认为是基于糖的粒子并且在此提供了关于其他粒子递送系统和/或配制品的其他详情。GalNAc因此可以被认为是在此所述的其他粒子的意义上的粒子，以使得一般用途和其他考虑因素(例如所述粒子的递送)也应用于GalNAc粒子。溶液相轭合策略可以例如用于将作为PFP(五氟苯酚)酯激活的三触角GalNAc簇(分子量～2000)附接到5′-己基氨基修饰的寡核苷酸上(5′-HA ASO，分子量～8000Da；奥斯塔盖得

等人，生物共轭化学，2015,26(8)，第1451-1455页)。类似地，已描述用于体内核酸递送的聚(丙烯酸酯)聚合物(参见WO 2013158141，该专利通过引用结合在此)。在其他替代实施例中，为了改进递送，可以使用预先混合的CRISPR纳米粒子(或蛋白质复合物)与天然存在的血清蛋白(阿克尼克·A(Akinc A)等人，2010，分子治疗(Molecular Therapy)，第18卷第7期，1357-1364)。

筛选技术可用于鉴定递送增强子，例如通过筛选化学文库(吉尔埃伦·J.(Gilleron J.)等人， 2015，核酸研究43(16):7984-8001)。还已描述了用于测定递送媒介物诸如纳米粒子的效率的方法，这些方法可以用于鉴定对于CRISPR组分的有效递送媒介物(参见萨哈义·G.(Sahay G.)等人，2013，自然生物技术31,653-658)。

在一些实施例中，蛋白质CRISPR组分的递送可以是通过将功能肽(诸如改变蛋白质疏水性的肽)添加到该蛋白质中，例如以便改进体内功能来实现。CRISPR组分蛋白可以类似地被修饰为促进随后的化学反应。例如，氨基酸可以被添加到具有经受点击化学的基团的蛋白质中(尼基克·I.(

I.)等人， 2015，自然实验手册(Nature Protocols)10,780-791)。在这种类型的实施例中，点击化学基团那么可以用于添加多种多样的替代性结构，诸如用于稳定的聚(乙二醇)、细胞穿透肽、RNA适配子、脂质、或碳水化合物诸如GalNAc。在其他替代方案中，CRISPR组分蛋白可以被修饰为适应进入细胞蛋白(参见斯文森(Svensen)等人，2012，药理学趋势(Trends in Pharmacological Sciences)，第33卷，第4期)，例如通过将细胞穿透肽添加到该蛋白质(参见考夫曼，W.·伯克利(Kauffman,W.Berkeley)等人，2015，生物化学趋势(Trends in Biochemical Sciences)，第40卷，第12期，749-764；科伦(Koren)和托尔基林(Torchilin)， 2012，分子医学趋势(Trends inMolecular Medicine)，第18卷，第7期)。在另一个替代实施例中，患者或受试者可以用有助于CRISPR组分随后递送的化合物或配制品预处理。

Cpf1效应蛋白复合物可以用于植物中

一种或多种Cpf1效应蛋白系统(例如，单一或多重)可以与农作物基因组的研究进展结合来使用。在此所述的系统可以用于进行有效且性价比高的植物基因或基因组探察或编辑或操纵，例如，快速研究并且/或者选择并且/或者探察并且/或者比较并且/或者操纵并且/或者转化植物基因或基因组；例如，以为一种或多种植物创建、鉴定、发展、优化或赋予一种或多种性状或一种或多种特征或者以转化植物基因组。因此可以存在植物、具有新性状或特征组合的新植物或具有增强的性状的新植物的改进的产生方法。一种或多种Cpf1效应蛋白系统可以用于植物中，以定点整合(SDI)或基因编辑(GE)或任何近反向育种(Near Reverse Breeding，NRB)或反向育种(RB)技术。利用在此所述的Cpf1效应蛋白系统的方面可能类似于CRISPR-Cas(例如，CRISPR-Cas9)系统在植物中的使用，并且参考亚利桑那大学(University of Arizona)网站“CRISPR-PLANT”(http://www.genome.arizona.edu/crispr/)(得到宾州州立大学(Penn State) 和AGI的支持)。本发明的实施例可以用于在植物中或在先前已使用RNAi或类似基因组编辑技术的情况中进行基因组编辑。例如，参见涅克拉索夫(Nekrasov)，“植物基因组编辑一点通：在模型和农作物植物中使用CRISPR-Cas系统进行靶向诱变(Plant genome editing made easy:targeted mutagenesis in model and crop plants using the CRISPR-Cas system)”，植物方法(Plant Methods)2013,9:39(doi:10.1186/1746-4811-9-39)；布鲁克斯(Brooks)，“在第一代番茄中使用CRISPR-Cas9系统进行有效基因编辑(Efficient geneediting in tomato in the first generation using the CRISPR-Cas9 system)”，植物生理学(Plant Physiology)，2014年9月，第114.247577页；单(Shan)，“使用CRISPR-Cas系统进行农作物植物的靶向基因组修饰(Targeted genome modification of crop plantsusing a CRISPR-Cas system)”，自然生物技术31,686-688(2013)；冯(Feng)，“在植物中使用CRISPR/Cas系统进行有效基因组编辑(Efficient genome editing in plants usinga CRISPR/Cas system)”，细胞研究(Cell Research)(2013)23:1229-1232.doi:10.1038/cr.2013.114；2013年8月20日在线公开；谢(Xie)，“在植物中使用CRISPR-Cas系统进行RNA指导的基因组编辑(RNA-guided genome editing in plants using a CRISPR-Cassystem)”，分子植物(Mol Plant.)，2013年11月；6(6):1975-83.doi: 10.1093/mp/sst119.电子版2013年8月17日；许(Xu)，“在稻中使用根癌土壤杆菌介导的CRISPR-Cas系统进行基因靶向(Gene targeting using the Agrobacterium tumefaciens-mediated CRISPR-Cassystem in rice)”，稻 (Rice)2014,7:5(2014)，周(Zhou)等人，“在异型杂交木多年生杨树中利用SNP进行二等位基因CRISPR 突变揭示了4-香豆酸：CoA连接酶特异性和丰余性(Exploiting SNPs for biallelic CRISPR mutations in the outcrossing woodyperennial Populus reveals 4-coumarate:CoA ligase specificity andRedundancy)”，新植物学家(New Phytologist)(2015)(论坛)1-4(仅可在www.newphytologist.com处在线获得)；卡利安多(Caliando) 等人，“使用在宿主基因组中稳定携带的CRISPR装置进行靶向DNA降解(Targeted DNA degradation using a CRISPRdevice stably carried in the host genome)”，自然通讯(NATURE COMMUNICATIONS)6:6989,DOI: 10.1038/ncomms7989,www.nature.com/naturecommunications DOI:10.1038/ncomms7989；美国专利号 6,603,061-土壤杆菌属介导的植物转化方法(Agrobacterium-Mediated Plant Transformation Method)；美国专利号7,868,149-植物基因组序列及其用途(Plant Genome Sequences and Uses Thereof)以及US 2009/0100536- 具有增强的农艺性状的转基因植物(Transgenic Plants with Enhanced Agronomic Traits)，每份文献的所有内容和披露均通过引用以其整体结合在此。在本发明的实践中，莫雷尔(Morrell)等人“农作物基因组：发展与应用(Crop genomics:advances andapplications)”，遗传学自然评论(Nat Rev Genet.)，2011年12月29 日；13(2):85-96的内容和披露；每份文献通过引用结合在此，包括关于在此的实施例可以如何用于植物一样。因此，除非另外表明，否则在此提及动物细胞也可以将必要的修正应用于植物细胞；并且，在此具有减小的脱靶效应的酶和采用此类酶的系统可以用于植物应用，包括在此提及的那些。

Cpf1-CRISPR系统对植物和酵母的应用

定义：

总的来说，术语“植物”涉及植物界中通过细胞分裂特征性生长、含有叶绿体并具有包含纤维素的细胞壁的任何不同光合作用生物体、真核生物体、单细胞生物体或多细胞生物体。术语植物涵盖单子叶植物和双子叶植物。确切的说，这些植物旨在包括但不限于被子植物和裸子植物，诸如刺槐、苜蓿、苋、苹果、杏、洋蓟、灰树、芦笋、鳄梨、香蕉、大麦、豆、甜菜、桦树、山毛榉、黑莓、蓝莓、花椰菜、芽球甘蓝、卷心菜、油菜(canola)、哈密瓜、胡萝卜、木薯、菜花、雪松、谷类、芹菜、栗树、樱桃、大白菜、柑橘、克莱门小柑橘、三叶草、咖啡、谷物、棉花、豇豆、黄瓜、柏树、茄子、榆树、菊苣、桉树、茴香、无花果、枞树、天竺葵、葡萄、葡萄柚、落花生(groundnut)、地樱桃、树胶铁杉、山核桃、羽衣甘蓝、奇异果、甘蓝、落叶松、生菜、韭葱、柠檬、酸橙、洋槐、松树、掌叶铁线蕨、玉米(maize)、芒果、枫树、甜瓜、小米、蘑菇、芥菜、坚果、橡树、燕麦、油棕树、秋葵、洋葱、桔子、观赏植物或花或树、木瓜、棕榈树、欧芹、防风草、豌豆、桃树、花生(peanut)、梨树、泥煤苔(peat)、胡椒、柿子树、木豆、松树、菠萝、车前草、李子、石榴、马铃薯、南瓜、菊苣、萝卜、油菜籽、覆盆子、稻谷、黑麦、高梁、红花、黄华柳、大豆、菠菜、云杉、南瓜、草莓、甜菜、甘蔗、向日葵、甘薯、甜玉米、橘子、茶、烟草、番茄、树木、黑小麦、草坪草、芜菁、葡萄树、胡桃、西洋菜、西瓜、小麦、山药、紫杉、以及绿皮西葫芦。术语植物还涵盖藻类，这些藻类主要是统一标准主要为缺乏根、叶和表征高等植物的其他器官的光合自养生物。

用于使用在此所述的Cpf1系统进行基因组编辑的方法可以用于对基本上任何植物赋予所希望的性状。各种各样的植物和植物细胞系统可以使用本披露的核酸构建体和以上提及的各种转化方法来工程化为如在此所述的希望的生理学和农艺学特征。在优选实施例中，用于工程化的靶植物和植物细胞包括但不限于，那些单子叶植物和双子叶植物，诸如农作物，包括谷类作物(例如，小麦、玉米、稻米、小米、大麦)、果实农作物(例如，番茄、苹果、梨、草莓、桔子)、草料作物(例如，苜蓿)、根用蔬菜作物(例如，胡萝卜、马铃薯、甜莱、山药)、叶用蔬菜作物(例如，生菜、菠菜)；有花植物(例如，矮牵牛、玫瑰、菊花)、针叶树和松树(例如，冷杉、云杉)；植物治理法中使用的植物(例如，重金属积累的植物)；油料作物(例如，向日葵、油菜籽)和用于实验目的的植物(例如，拟南芥属)。因此，这些方法和CRISPR-Cas 系统可以用于广泛范围的植物，例如像属于以下目的双子叶植物：木兰目(Magniolales)、八角目(Illiciales)、樟目(Laurales)、胡椒目(Piperales)、马兜铃目(Aristolochiales)、睡莲目(Nymphaeales)、毛茛目 (Ranunculales)、罂粟目(Papaverales)、瓶子草科(Sarraceniaceae)、昆栏树目(Trochodendrales)、金缕梅目(Hamamelidales)、杜仲目(Eucommiales)、塞子木目(Leitneriales)、杨梅目(Myricales)、壳斗目 (Fagales)、木麻黄目(Casuarinales)、石竹目(Caryophyllales)、肉穗果目(Batales)、寥目(Polygonales)、蓝雪目(Plumbaginales)、五桠果目(Dilleniales)、山茶目(Theales)、锦葵目(Malvales)、荨麻目(Urticales)、玉蕊目(Lecythidales)、堇菜目(Violales)、杨柳目(Salicales)、白花菜目(Capparales)、杜鹃花目(Ericales)、岩梅目(Diapensiales)、柿树目(Ebenales)、报春花目(Primulales)、蔷薇目(Rosales)、豆目(Fabales)、川草目(Podostemales)、小二仙草目(Haloragales)、桃金娘目(Myrtales)、山茱萸目(Cornales)、山龙眼目(Proteales)、檀香目(San tales)、大花草目(RaffIesiales)、卫矛目(Celastrales)、大戟目(Euphorbiales)、鼠李目(Rhamnales)、无患子目(Sapindales)、胡桃目(Juglandales)、牻牛儿苗目(Geraniales)、远志目(Polygalales)、伞形目(Umbellales)、龙胆目(Gentianales)、花葱目(Polemoniales)、唇形目(Lamiales)、车前草目(Plantaginales)、玄参目(Scrophulariales)、桔梗目(Campanulales)、茜草目(Rubiales)、川续断目(Dipsacales)以及菊目(Asterales)；这些方法和CRISPR-Cas可以用于单子叶植物，诸如属于以下目的单子叶植物:泽泻目(Alismatales)、水鳖目(Hydrocharitales)、茨藻目(Najadales)、霉草目(Triuridales)、鸭跖草目(Commelinales)、谷精草目(Eriocaulales)、帚灯草目(Restionales)、禾本目(Poales)、灯芯草目(Juncales)、莎草科(Cyperales)、香蒲目(Typhales)、凤梨目(Bromeliales)、姜目(Zingiberales)、槟榔目(Arecales)、环花目(Cyclanthales)、露兜树目(Pandanales)、天南星目(Arales)、百合目(Lilliales) 以及兰目(Orchid ales)，或者用于属于裸子植物的植物，例如属于松杉目(Pinales)、银杏目(Ginkgoales)、苏铁目(Cycadales)、南洋杉目(Araucariales)、柏目(Cupressales)以及麻黄目(Gnetales)。

在此所述的Cpf1 CRISPR系统和使用方法可以用于广泛范围的植物种类，包括在下面的双子叶植物、单子叶植物或裸子植物属的非限制性列表中：颠茄属(Atropa)、油丹属(Alseodaphne)、腰果属 (Anacardium)、落花生属(Arachis)、琼楠属(Beilschmiedia)、芸苔属(Brassica)、红花属(Carthamus)、木防己属(Cocculus)、巴豆属(Croton)、甜瓜属(Cucumis)、柑橘属(Citrus)、西瓜属(Citrullus)、辣椒属(Capsicum)、长春花属(Catharanthus)、椰子属(Cocos)、咖啡属(Coffea)、南瓜属(Cucurbita)、胡萝卜属(Daucus)、杜氏木属(Duguetia)、花菱草属(Eschscholzia)、榕属(Ficus)、草莓属(Fragaria)、海罂粟属(Glaucium)、大豆属(Glycine)、棉属(Gossypium)、向日葵属(Helianthus)、橡胶树属(Hevea)、天仙子属(Hyoscyamus)、莴苣属(Lactuca)、卷枝藤属(Landolphia)、亚麻属(Linum)、木姜子属(Litsea)、番茄属(Lycopersicon)、羽扇豆属(Lupinus)、木薯属(Manihot)、马郁兰属(Majorana)、苹果属(Malus)、苜蓿属(Medicago)、烟草属(Nicotiana)、木犀榄属(Olea)、银胶菊属(Parthenium)、罂粟属(Papaver)、鳄梨属(Persea)、菜豆属(Phaseolus)、黄连木属(Pistacia)、豌豆属(Pisum)、梨属(Pyrus)、李属(Prunus)、萝卜属(Raphanus)、蓖麻属(Ricinus)、千里光属(Senecio)、防己属(Sinomenium)、千金藤属(Stephania)、欧白芥属(Sinapis)、茄属(Solanum)、可可属(Theobroma)、三叶草属(Trifolium)、胡芦巴属(Trigonella)、蚕豆属(Vicia)、蔓长春花属(Vinca)、葡萄属(Vilis)以及豇豆属(Vigna)；以及葱属(Allium)、须芒草属(Andropogon)、画眉草属(Aragrostis)、天门冬属(Asparagus)、燕麦属(Avena)、狗牙根属(Cynodon)、油棕属(Elaeis)、羊茅属(Festuca)、羊茅黑麦草属(Festulolium)、萱草属(Heterocallis)、大麦属(Hordeum)、浮萍属(Lemna)、毒麦属(Lolium)、芭蕉属(Musa)、稻属(Oryza)、黍属(Panicum)、狼尾草属(Pannesetum)、梯牧草属(Phleum)、早熟禾属(Poa)、黑麦属(Secale)、高粱属(Sorghum)、小麦属(Triticum)、玉蜀黍属(Zea)、冷杉属(Abies)、杉木属(Cunninghamia)、麻黄属(Ephedra)、云杉属(Picea)、松属(Pinus)、以及黄杉属(Pseudotsuga)。

Cpf1 CRISPR系统和使用方法也可以用于广泛范围的“藻类”或“藻类细胞”；包括例如选自若干真核生物门的藻类，包括红藻门(红藻)、绿藻门(绿藻)、褐藻门(褐藻)、硅藻门(硅藻)、真眼点藻纲以及沟鞭藻类，以及原核生物门蓝藻细菌(蓝绿藻类)。术语“藻类”包括例如选自以下各项的藻类：双眉藻属(Amphora)、鱼腥藻属(Anabaena)、纤维藻属(Anikstrodesmis)、丛粒藻属(Botryococcus)、角毛藻属(Chaetoceros)、衣藻属(Chlamydomonas)、绿藻属(Chlorella)、绿球藻属(Chlorococcum)、小环藻属(Cyclotella)、筒柱藻属(Cylindrotheca)、杜氏藻属(Dunaliella)、球石藻属(Emiliana)、眼虫属 (Euglena)、红球藻属(Hematococcus)、等鞭金藻属(Isochrysis)、单鞭金藻属(Monochrysis)、单针藻属(Monoraphidium)、微绿球藻属(Nannochloris)、拟微绿球藻属(Nannnochloropsis)、舟形藻属(Navicula)、肾鞭藻属(Nephrochloris)、肾爿藻属(Nephroselmis)、菱形藻属(Nitzschia)、节球藻属(Nodularia)、念珠藻属(Nostoc)、髓球藻属(Oochromonas)、卵囊藻(Oocystis)、颤藻(Oscillartoria)、巴夫藻属(Pavlova)、褐指藻属(Phaeodactylum)、扁藻属(Playtmonas)、颗石藻属(Pleurochrysis)、紫菜属(Porhyra)、假鱼腥藻(Pseudoanabaena)、塔胞藻属(Pyramimonas)、裂丝藻属(Stichococcus)、聚球藻属(Synechococcus)、集胞藻属(Synechocystis)、四爿藻属(Tetraselmis)、海链藻属(Thalassiosira)、以及束毛藻属(Trichodesmium)。

植物的一部分即“植物组织”可以根据本发明的方法进行处理以产生改进的植物。植物组织还涵盖植物细胞。如在此所用的术语“植物细胞”是指活体植物的个体单元，在完整全株或在体外组织培养基中、在培养基或琼脂上、在生长培养基或缓冲液的悬浮液中或作为高等组织单元一部分生长的分离形式，例如像植物组织、植物器官或全株。

“原生质体”是指植物细胞使用例如机械或酶促方式完全去除或部分去除保护性细胞壁从而形成的活体植物的完整生物化学活性单元，该活性单元在适当生长条件下可以重新形成细胞壁、增殖并再生成全株。

术语“转化”广泛地是指植物宿主通过借助于土壤杆菌或各种化学或物理方法之一来引入DNA 从而进行遗传修饰的过程。如在此所用，术语“植物宿主”是指植物，包括植物的任何细胞、组织、器官或子代。许多适合的植物组织或植物细胞可以被转化，并且包括但不限于，原生质体、体细胞胚胎、花粉、叶、幼苗、茎、愈伤组织、匍伏茎、试管块茎、以及胚芽。一种植物组织还是指这种植物的任何克隆、种子、子代、繁殖体(无论是有性繁殖产生或无性繁殖产生)、以及任何这些的后代诸如切块或种子。

如在此所用术语“转化的”是指已引入外源DNA分子诸如构建体的细胞、组织、器官或生物体。引入的DNA分子可以整合到受体细胞、组织、器官或生物体的基因组DNA中，以使得引入的DNA分子被传输到随后的子代中。在这些实施例中，“转化的”或“转基因的”细胞或植物也可以包括细胞或植物的子代以及通过育种程序采用这种转化的植物作为杂交的母体并表现出因引入的DNA分子的存在而产生的改变的表型的子代。优选地，转基因植物是能育的并且能够将引入的DNA通过有性繁殖传输到子代中。

术语“子代”诸如转基因植物的子代是由植物或转基因植物生出的、由其产生的或从其来源的子代。引入的DNA分子还可以瞬时转染到受体细胞中，以使得引入的DNA分子未被随后的子代继承并因此不认为是“转基因的”。因此，如在此所用，“非转基因”植物或植物细胞是不含有稳定整合到其基因组中的外源DNA的植物。

如在此所用，术语“植物启动子”是能够开启植物细胞内的转录(无论其起源是否是植物细胞)的启动子。示例性的适合植物启动子包括但不限于，从植物、植物病毒和包含在植物细胞内表达的基因的细菌诸如土壤杆菌属或根瘤菌属中获得的启动子。

如在此所用，“真菌细胞”是指真菌界内的任何类型的真核细胞。真菌界内的种系包括子囊菌门、担子菌门、芽枝霉门(Blastocladiomycota)、壶菌门、球囊菌门(Glomeromycota)、微孢子虫目、以及新美鞭菌门(Neocallimastigomycota)。真菌细胞可以包括酵母、霉菌、以及丝状真菌。在一些实施例中，该真菌细胞是酵母细胞。

如在此所用，术语“酵母细胞”是指子囊菌门和担子菌门内的任何真菌细胞。酵母细胞可以包括芽殖酵母细胞、裂殖酵母细胞、以及霉菌细胞。在不限于这些生物体的情况下，实验室和工业环境中使用的许多类型的酵母是子囊菌门的一部分。在一些实施例中，酵母细胞是酿酒酵母、马克思克鲁维酵母、或东方伊萨酵母细胞。其他酵母细胞可以包括但不限于假丝酵母属某些种(例如，白色念珠菌)、亚罗酵母属某些种(例如，亚罗解脂酵母)、毕赤酵母属某些种(例如，巴斯德毕赤酵母)、克鲁维酵母属某些种 (例如，产乳糖酶酵母和马克思克鲁维酵母)、链孢霉属某些种(例如，粗糙脉孢菌)、镰刀菌某些种(例如，尖孢镰刀菌)、以及伊萨酵母属某些种(例如，东方伊萨酵母，又称为库德里阿兹威毕赤酵母(Pichia kudriavzevii)和酸性嗜热假丝酵母(Candida acidothermophilum))。在一些实施例中，该真菌细胞是丝状真菌细胞。如在此所用，术语“丝状真菌细胞”是指以细丝(即菌丝或菌丝体)生长的任何类型的真菌细胞。丝状真菌细胞的实例可以包括但不限于，曲霉属某些种(例如，黑曲霉)、木霉属某些种(例如，里氏木霉)、根霉属某些种(例如，稻根霉菌)、以及被孢霉属某些种(例如，深黄被孢霉)。

在一些实施例中，该真菌细胞是工业菌株。如在此所用，“工业菌株”是指工业过程中使用的或由工业过程分离的任何真菌细胞菌株，该工业过程例如以商业或工业规模生产产品。工业菌株可以是典型地用于工业过程的真菌种类，或者它可以是指也可用于非工业目的(例如，实验室研究)的真菌种类分离株。工业过程的实例可以包括发酵(例如，在食品或饮料产品生产中)、蒸馏、生物燃料生产、化合物生产、以及多肽生产。工业菌株的实例可以包括但不限于，JAY270和ATCC4124。

在一些实施例中，该真菌细胞是多倍体细胞。如在此所用，“多倍体”细胞可以是指其基因组以超过一个拷贝存在的任何细胞。多倍体细胞可以是指以多倍体状态天然发现的细胞类型，或者它可以是指已诱导为以多倍体状态存在(例如，通过特异性调节、改变、灭活、激活、或者减数分裂、胞质分裂或 DNA复制的修饰)的细胞。多倍体细胞可以是指其整个基因组为多倍体的细胞，或者它可以是指在特定感兴趣的基因组座位中为多倍体的细胞。在不希望受到理论约束的情况下，认为与在单倍体细胞中相比指导 RNA的丰度在多倍体细胞的基因组工程中可能是更常见的速率限制性组分，并且因此使用在此所述的Cpf1CRISPRS系统的方法可以利用使用某种真菌细胞类型的优点。

在一些实施例中，该真菌细胞是二倍体细胞。如在此所用，“二倍体”细胞可以是指其基因组以两个拷贝存在的任何细胞。二倍体细胞可以是指以二倍体状态天然发现的细胞类型，或者它可以是指已诱导为以二倍体状态存在(例如，通过特异性调节、改变、灭活、激活、或者减数分裂、胞质分裂或DNA 复制的修饰)的细胞。例如，酿酒酵母菌株S228C可以维持在单倍体状态或二倍体状态中。二倍体细胞可以是指其整个基因组为二倍体的细胞，或者它可以是指在特定感兴趣的基因组座位中为二倍体的细胞。在一些实施例中，该真菌细胞是单倍体细胞。如在此所用，“单倍体”细胞可以是指其基因组以一个拷贝存在的任何细胞。单倍体细胞可以是指以单倍体状态天然发现的细胞类型，或者它可以是指已诱导为以单倍体状态存在(例如，通过特异性调节、改变、灭活、激活、或者减数分裂、胞质分裂或DNA复制的修饰) 的细胞。例如，酿酒酵母菌株S228C可以维持在单倍体状态或二倍体状态中。单倍体细胞可以是指其整个基因组为单倍体的细胞，或者它可以是指在特定感兴趣的基因组座位中为单倍体的细胞。

如在此所用，“酵母表达载体”是指含有编码RNA和/或多肽的一个或多个序列的核酸并且可以进一步含有控制一个或多个核酸表达的任何希望的元件、以及使得能够在酵母细胞内复制并维持表达载体的任何元件。许多适合的酵母表达载体及其特征是本领域已知的；例如，不同载体和技术示出在酵母方案(Yeast Protocols)，第2版，肖，W.(Xiao,W.)编辑(胡马纳出版社(Humana Press)，纽约，2007)和巴克霍尔兹，R.G.(Buckholz,R.G.)和格利森，M.A.(Gleeson,M.A.)(1991)生物技术(NY)9(11):1067-72。酵母载体可以包含但不限于，着丝粒(CEN)序列、自主性复制序列(ARS)、可操作地连接至感兴趣的序列或基因的启动子诸如RNA聚合酶III启动子、终止子诸如RNA聚合物III终止子、复制起点、以及标记物基因(例如，营养缺陷型、抗生素型或其他选择标记物)。用于酵母的表达载体的实例可以包括质粒、酵母人工染色体、2μ质粒、酵母整合型质粒、酵母复制型质粒、穿梭载体、以及附加型质粒。

Cpf1 CRISP系统组分稳定整合在植物和植物细胞的基因组中

在特定实施例中，设想的是引入编码Cpf1 CRISPR系统组分的多核苷酸，以稳定整合到植物细胞基因组中。在这些实施例中，转化载体或表达系统的设计可以根据指导RNA和/或Cpf1基因表达的时间、位置和条件来调整。

在特定实施例中，设想的是将Cpf1 CRISPR系统的组分稳定引入到植物细胞的基因组DNA中。另外地或可替代地，设想的是引入Cpf1 CRISPR系统的组分，以稳定整合到植物细胞器的DNA中，该细胞器诸如但不限于质粒、线粒体或叶绿体。

用于稳定整合到植物细胞基因组中的表达系统可以包含以下元件中的一个或多个：可以用于在植物细胞中表达RNA和/或Cpf1酶的启动子元件；增强表达的5'非翻译区；在某些细胞诸如单子叶植物细胞内进一步增强表达的内含子元件；提供了用于插入指导RNA和/或Cpf1基因序列以及其他希望的元件的便利限制性位点的多克隆位点；以及提供对表达转录物的有效终止的3'非翻译区。

表达系统的元件可以是处于一个或多个表达构建体上，该一个或多个表达构建体是环状的，诸如质粒或转化载体，或者是非环状的，诸如线性双链DNA。

在一个特定实施例中，Cfp1 CRISPR表达系统包含至少：

(a)编码与植物中的靶序列杂交的指导RNA(gRNA)的核苷酸序列，并且其中该指导RNA包含指导序列和同向重复序列，以及

(b)编码Cpf1蛋白的核苷酸序列，

其中组分(a)或(b)位于相同或不同构建体上，并且由此不同核苷酸序列可以处于植物细胞内可操作的相同或不同调节元件的控制下。

含有Cpf1 CRISPR系统的组分的一个或多个DNA构建体和(在适用情况下)模板序列可以通过多种常规技术引入到植物、植物部分或植物细胞的基因组中。该过程大体上包括以下步骤：选择一种适合的宿主细胞或宿主组织、将该一个或多个构建体引入到该宿主细胞或宿主组织中、以及由其再生植物细胞或植物。

在特定实施例中，DNA构建体可以使用诸如但不限于电穿孔、微注射、植物细胞原生质体的气溶胶波束注射来引入到植物细胞中，或者DNA构建体可以使用基因枪方法诸如DNA粒子轰击来直接引入到植物组织(还参见，付(Fu)等人，转基因研究(TransgenicRes.)2000年2月；9(1):11-9)。粒子轰击的基础是使包覆有感兴趣的一种或多种基因的粒子朝向细胞加速，从而导致粒子穿透原生质并且典型地稳定整合到基因组中。(例如，参见克莱因(Klein)等人，自然(1987)；克莱因等人，生物/技术(Bio/Technology) (1992)；卡萨斯(Casas)等人，美国国家科学院院刊(1993))。

在特定实施例中，含有Cpf1 CRISPR系统组分的DNA构建体可以是通过土壤杆菌介导的转化引入到该植物中。该DNA构建体可以与适合T-DNA侧翼区组合并且被引入到常规根瘤土壤杆菌宿主载体中。外源DNA可以是通过感染植物或通过将植物原生质体与含有一个或多个Ti(根瘤诱导)质粒的土壤杆菌一起培育来结合到植物基因组中。(例如，参见弗拉丽(Fraley)等人，(1985)；罗杰斯(Rogers)等人， (1987)；以及美国专利号5,563,055)。

植物启动子

为了确保植物细胞内的适当表达，在此描述的Cpf1 CRISPR系统的组分典型地是置于植物启动子即植物细胞内可操作的启动子的控制下。设想使用不同类型的启动子。

植物组成型启动子是能够表达它在所有或几乎所有植物组织中在植物的所有或几乎所有发育阶段过程中控制的开放读码框(ORF)的启动子(称为“组成型表达”)。组成型启动子的一个非限制性实例是花椰菜花叶病毒35S启动子。“调节型启动子”是指不以组成性方式而是以时间和/或空间调节方式引导基因表达的启动子并且包括组织特异型启动子、组织优选型启动子和诱导型启动子。不同启动子可以在不同组织或细胞类型中、或在不同发育阶段、或响应于不同环境条件来引导基因表达。在特定实施例中，一种或多种Cpf1 CRISPR组分在组成型启动子诸如花椰菜花叶病毒35S启动子的控制下表达，组织优选型启动子可以用于靶向在特定植物组织内的某些细胞类型，例如叶或根的维管细胞或种子的特定细胞内的增强的表达。用于Cpf1 CRISPR系统的特定启动子的实例可见于川又(Kawamata)等人，(1997)植物细胞生理学 (Plant Cell Physiol)38:792-803；山本(Yamamoto)等人，(1997)植物杂志(Plant J)12:255-65；海厄(Hire) 等人，(1992)植物分子生物学(Plant Mol Biol)20:207-18；库斯特(Kuster)等人，(1995)植物分子生物学 29:759-72；以及卡帕那(Capana)等人，(1994)植物分子生物学25:681-91。

允许时间空间控制基因编辑或基因表达的诱导型启动子的实例可以使用能量形式。能量形式可以包括但不限于，声能、电磁辐射、化学能和/或热能。诱导型系统的实例包括四环素诱导型启动子(Tet-On 或Tet-Off)、小分子双杂交转录激活系统(FKBP、ABA等)、或光诱导型系统(光敏色素、LOV结构域或隐花色素)，诸如以序列特异性方式引导转录活性改变的光诱导型转录效应子(LITE)。光诱导型系统的组分可以包括Cpf1 CRISPR酶、光反应性细胞色素异源二聚体(例如，来自阿拉伯芥)、以及转录激活/阻遏结构域。诱导型DNA结合蛋白及其使用方法的其他实例提供于US 61/736465和US 61/721,283中，这些专利通过引用以其整体结合在此。

在特定实施例中，瞬时表达或诱导型表达可以是通过使用例如化学品调节启动子来实现的，即由此外源性化学品的应用诱导基因表达。基因表达的调节可以是通过化学物阻抑型启动子来获得，其中化学物的应用阻遏基因表达。化学品诱导型启动子包括但不限于，由苯磺酰胺除草剂安全剂激活的玉米ln2-2启动子(德·威力德尔(De Veylder)等人，(1997)植物细胞生理学38:568-77)、由用作苗前除草剂的疏水性亲电子化合物激活的玉米GST启动子(GST-ll-27，WO93/01294)、以及由水杨酸激活的烟草PR-1启动子(奥诺(Ono)等人，(2004)生物科学、生物技术和生物化学(Biosci Biotechnol Biochem)68:803-7)。在此还可以使用通过抗生素调节的启动子，诸如四环素诱导型启动子和四环素阻抑型启动子(加茨(Gatz) 等人，(1991)分子遗传学和普通遗传学(Mol Gen Genet)227:229-37；美国专利号5,814,618和5,789,156)。

特定植物细胞器中的易位和/表达

表达系统可以包含在特定植物细胞器中易位和/或表达的元件。

叶绿体靶向

在特定实施例中，设想的是Cpf1 CRISPR系统用于特别修饰叶绿体基因或者确保叶绿体中表达。出于此目的，使用叶绿体转化方法或者将Cpf1 CRISPR组分区室化至叶绿体的方法。例如，在质粒基因组中遗传修饰的引入可以减少生物安全性问题，诸如通过花粉的基因流。

叶绿体转化方法是本领域已知的并且包括粒子轰击、PEG处理和微注射。另外，涉及转化盒从核基因组易位到质粒的方法可以如WO2010061186所述地使用。

可替代地，设想的是，将一种或多种Cpf1 CRISPR组分靶向植物叶绿体。这是通过在表达构建体中结合编码叶绿体转运肽(CTP)或质体转运肽的序列来实现的，该序列可操作地连接至编码Cpf1蛋白的序列的5’区。在易位到叶绿体中的过程中，在处理步骤中去除CTP。表达蛋白的叶绿体靶向是技术人员已熟知的(例如，参见蛋白质转运到叶绿体中(Protein Transport into Chloroplasts)，2010，植物生物学年评(Annual Review ofPlant Biology)，第61卷:157-180)。在此类实施例中，还希望将指导RNA靶向植物叶绿体。例如在US 20040142476中描述了可以用于借助于叶绿体定位序列来将指导RNA易位到叶绿体中的方法和构建体，该专利通过引用结合在此。构建体的此类变型可以结合到本发明的表达系统中，以有效易位Cpf1-指导RNA。

在藻类细胞中引入编码CRISPR-Cpf1系统的多核苷酸。

转基因藻类(或其他植物诸如芸苔)可以特别适用于生产植物油或生物燃料诸如醇(具体地是甲醇和乙醇)或其他产品。这些藻类可以被工程化以表达或过量表达用于油或生物燃料工业中的高水平油或醇。

US 8945839描述了一种用于使用Cas9工程化微藻(莱茵衣藻细胞)种类)的方法。使用类似工具，在此所述的Cpf1 CRISPR系统的方法可以应用于衣藻属种类和其他藻类上。在特定实施例中，Cpf1 和指导RNA引入使用载体表达的藻类中，该载体在组成型启动子的控制下表达Cpf1，诸如Hsp70A-Rbc S2 或βBeta2-微管蛋白。指导RNA任选地使用含有T7启动子的载体递送。可替代地，Cas9 mRNA和体外转录的指导RNA可以是递送至藻类细胞中。电穿孔方法对于技术人员而言是可用的，诸如来自基因领域衣藻属工程化试剂盒(GeneArt Chlamydomonas Engineering kit)的标准推荐方法。

在特定实施例中，在此使用的内切核酸酶是拆分的Cpf1酶。拆分的Cpf1酶优先用于藻类中以进行靶向基因组修饰，如在WO 2015086795中对于Cas9已描述的。使用Cpf1拆分系统是特别适用于一种基因组靶向的诱导型方法，并且避免了藻类细胞中Cpf1过量表达的潜在毒性作用。在特定实施例中，所述Cpf1 拆分结构域(RuvC和HNH结构域)可以同时或依次引入到细胞中，以使得所述一个或多个拆分的Cpf1结构域具有藻类细胞中的靶核酸序列。拆分的Cpf1与野生型Cpf1相比减小的尺寸允许使用将CRISPR系统递送至细胞的其他方法，诸如使用如在此所述的细胞穿透肽。用于生成遗传修饰性藻类的此方法是特别感兴趣的。

在酵母细胞中引入编码Cpf1组分的多核苷酸。

在特定实施例中，本发明涉及使用Cpf1 CRISPR系统进行酵母细胞的基因组编辑。用于转化可用于引入编码Cpf1 CRISPR系统组分的多核苷酸的酵母细胞的方法是技术人员已熟知的并通过河合 (Kawai)等人，2010，生物工程缺陷(Bioeng Bugs.)，2010年11月-12月；1(6):395-403)。非限制性实例包括通过乙酸锂处理(可以进一步包括携带者DNA和PEG处理)、轰击或通过电穿孔来转化酵母细胞。

在植物和植物细胞中瞬时表达Cpf1 CRISP系统组分

在特定实施例中，设想的是，在植物细胞中瞬时表达指导RNA和/或Cpf1基因。在这些实施例中，Cpf1 CRISPR系统可以确保仅当指导RNA和Cpf1蛋白二者均存在于细胞中时修饰靶基因，以使得基因组修饰可以得到进一步控制。当Cpf1酶的表达是瞬时的时，由此类植物细胞再生的植物典型地不含有外源DNA。在特定实施例中，Cpf1酶是由植物细胞稳定表达的并且指导序列是瞬时表达的。

在特定实施例中，Cpf1 CRISPR系统组分可以是使用植物病毒载体引入在植物细胞中(苏尔他弗(Scholthof)等人，1996,植物病理学年度评审(Annu Rev Phytopathol.)1996；34:299-323)。在另外的特定实施例中，所述病毒载体是来自DNA病毒的载体。例如，双粒病毒组(例如，卷心菜曲叶病毒、豆黄矮病毒、小麦矮化病毒、番茄曲叶病毒、玉米条纹病毒、烟草曲叶病毒或番茄金色花叶病毒)或矮缩病毒组(例如蚕豆坏死黄脉病毒)。在另外的特定实施例中，所述病毒载体是来自RNA病毒的载体。例如，烟草脆裂病毒组(例如，烟草扰乱病毒、烟草花叶病毒)、马铃薯X病毒组(例如，马铃薯X病毒)、或大麦病毒组(例如，大麦条纹花叶病毒)。植物病毒复制基因组是非整合型载体。

在特定实施例中，用于瞬时表达Cpf1 CRISPR构建体的载体例如是pEAQ载体，该载体被专门定制用于在原生质体中进行土壤杆菌介导的瞬时表达(塞恩思伯里·F.(Sainsbury F.)等人，植物生物技术杂志(Plant Biotechnol J.)，2009年9月；7(7):682-93)。使用修饰的卷心菜曲叶病毒(CaLCuV)载体证明基因组位置的精确靶向，以在表达CRISPR酶的稳定转基因植物中表达gRNA(科技报告(Scientific Reports)5，文章编号：14926(2015),doi:10.1038/srep14926)。

在特定实施例中，编码指导RNA和/或Cpf1基因的双链DNA片段可以被瞬时引入到植物细胞中。在此类实施例中，以足够的量提供引入的双链DNA片段以修饰细胞，但在预期时间段过去之后或者在一次或多次细胞分裂之后不再持续。用于在植物中直接DNA转移的方法是技术人员已知的(例如，参见戴维(Davey)等人，植物分子生物学，1989年9月；13(3):273-85。)

在其他实施例中，编码Cpf1蛋白的RNA多核苷酸被引入到植物细胞中，然后通过生成足够量的蛋白质的宿主细胞翻译并加工以修饰该细胞(在至少一个指导RNA存在下)，该引入在预期时间段过去之后或者在一次或多次细胞分裂之后不再持续。用于将mRNA引入到植物原生质体以进行瞬时表达的方法是技术人员已知的(例如，参见加利耶(Gallie)，植物细胞报告(Plant Cell Reports)(1993),13；119-122)。

还设想了以上描述的不同方法的组合。

将Cpf1 CRISPR组分递送至植物细胞

在特定实施例中，感兴趣的是将Cpf1 CRISPR系统的一种或多种组分直接递送至植物细胞。这尤其对于生成非转基因植物是感兴趣的(参见下文)。在特定实施例中，在植物或植物细胞外制备一种或多种Cpf1组分并且将该一种或多种Cpf1组分递送至细胞。例如，在特定实施例中，体外制备Cpf1蛋白，之后引入到植物细胞中。Cpf1蛋白可以是通过本领域技术人员已知的不同方法来制备并且包括重组产生。在表达之后，Cpf1蛋白被分离，在需要时被折叠，被纯化并任选地处理以去除任何纯化标签诸如His-标签。一旦获得粗的、部分纯化的、或更完全纯化的Cpf1蛋白，就可以将该蛋白引入到植物细胞中。

在特定实施例中，该Cpf1蛋白与靶向感兴趣的基因的指导RNA混合，以形成预组装的核糖核蛋白。

单独组分或预组装核糖核蛋白可以经由电穿孔、通过用Cpf1相关基因产品包覆的粒子轰击、通过化学转染或通过转运穿过细胞膜的一些其他方式来引入到植物细胞中。例如，已证明用预组装CRISPR 核糖核蛋白转染植物原生质体确保了植物基因组的靶向修饰(如通过吴(Woo)等人，自然生物技术，2015； DOI:10.1038/nbt.3389所述的)。

在特定实施例中，Cpf1 CRISPR系统组分是使用纳米粒子引入到植物细胞中。这些组分，无论是蛋白质或核酸或其组合都可以上载到纳米粒子上或包装在纳米粒子中并且适用于这些植物(例如像 WO 2008042156和US 20130185823所述的)。具体地说，本发明的实施例包括上载有以下各项或包装有以下各项的纳米粒子：编码Cpf1蛋白的一个或多个DNA分子、编码指导RNA的DNA分子和/或如 WO2015089419所述的分离的指导RNA。

将Cpf1 CRISPR系统的一种或多种组分引入到植物细胞中的其他方式是通过使用细胞穿透肽 (CPP)。因此，在特定实施例中，本发明包括含有连接至Cpf1蛋白的细胞穿透肽的组合物。在本发明的特定实施例中，Cpf1蛋白和/或指导RNA连接一个或多个CPP，以在植物原生质体内有效转运它们；还参见罗摩克里希纳(Ramakrishna)(20140基因组研究(Genome Res.)，2014年6月；24(6):1020-7，人类细胞中的 Cas9(Cas9 in human cells))。在其他实施例中，该Cpf1基因和/或指导RNA是通过连接至一个或多个CPP 以进行植物原生质体递送的一个或多个环状或非环状DNA分子来编码。这些植物原生质体然后再生成植物细胞并进一步再生成植物。CPP通常被描述为来源于蛋白质或来源于能够以受体独立性方式转运生物分子穿过细胞膜的嵌合序列的小于35个氨基酸的短肽。CPP可以是阳离子肽、具有疏水性序列的肽、两亲性肽、具有脯氨酸富集序列和抗微生物序列的肽、以及嵌合肽或二分肽(普吉(Pooga)和朗格尔(Langel)2005)。 CPP能够穿透生物膜并且同样引发不同生物分子移动穿过细胞膜进入细胞质并改进其细胞内路线，并且因此有助于生物分子与靶标相互作用。CPP的实例包括其他各项：Tat(它是一种1型HIV进行病毒复制所需要的核转录激活蛋白)、穿膜肽、卡波西成纤维细胞增长因子(FGF)信号肽序列、整合素β3信号肽序列；聚精氨酸肽Args序列、富含鸟嘌呤分子转运体、甜箭头肽等...

使用Cpf1 CRISPR系统制备遗传修饰的非转基因植物

在特定实施例中，在此所述的方法用于修饰内源性基因或修饰其表达而不会永久性引入到任何外源性基因的植物的基因组中，包括编码CRISPR组分的外源性基因，以便避免在植物基因组中存在外源DNA。这可能是感兴趣的，因为非转基因植物的调节要求较不严格。

在特定实施例中，这是通过Cpf1 CRISPR组分的瞬时表达来保证的。在特定实施例中，一种或多种Cpf1 CRISPR组分是在一种或多种病毒载体上表达的，该一种或多种表达载体产生足够的Cpf1蛋白和指导RNA，以一致地稳定地确保根据在此所述的方法修饰感兴趣的基因。

在特定实施例中，在植物原生质体中确保Cpf1 CRISPR构建体的瞬时表达并且因此该构建体并未整合到基因组中。有限表达窗可以足以允许Cpf1 CRISPR系统确保如在此所述的靶基因的修饰。

在特定实施例中，Cpf1 CRISPR系统的不同组分借助于上文所述的粒子递送分子诸如纳米粒子或CPP分子单独或混合地引入在植物细胞、原生质体或植物组织中。

Cpf1 CRISPR组分的表达可以通过Cpf1核酸酶的直接活性和任选地引入模板DNA或者通过修饰使用如在此所述的Cpf1 CRISPR系统靶向的基因来诱导基因组的靶向修饰。上文所述的不同策略允许 Cpf1介导的靶向基因组编辑而不需要将Cpf1 CRISPR组分引入到植物基因组中。瞬时引入到植物细胞中的组分典型地在杂交时去除。

检测植物基因组选择标记物的修饰

在特定实施例中，当方法涉及植物基因组内源性靶基因的修饰时，任何适合的方法可以用于在植物、植物部分或植物细胞用Cpf1 CRISPR系统感染或转染之后确定基因靶向或靶向诱变是否发生在靶位点。在该方法涉及靶基因引入的情况下，转化的植物细胞、愈伤组织、组织或植物可以是通过选择或筛选存在转基因或由转基因编码的性状的工程化植物材料来鉴定和分离。物理方法和生物化学方法可以用于鉴定含有插入的基因构建体或内源性DNA修饰的植物或植物细胞转化株。这些方法包括但不限于：1)用于检测并确定重组DNA插入物或修饰的内源性基因的结构的dna印迹分析或PCR扩增；2)用于检测并检查基因构建体的RNA转录物的rna印迹、S1 RNA酶保护、引物延伸或逆转录酶PCR扩增；3)用于检测酶或核糖核酸酶的酶法测定，其中此类基因产物是由基因构建体编码的或者表达受到遗传修饰的影响；4)蛋白质凝胶电泳、蛋白质印迹技术、免疫沉淀反应或酶联免疫分析，其中基因构建体或内源性基因产物是蛋白质。附加技术诸如原位杂交、酶染色以及免疫染色也可以用于检测重组构建体的存在或表达或者检测特定植物器官和组织中的内源性基因修饰。用于完成所有这些测定的方法是本领域的技术人员熟知的。

另外地(或者可替代地)，编码Cpf1 CRISPR组分的表达系统典型地被设计为包含一种或多种选择标记物或可检测标记物，这些标记物提供一种分离或有效选择含有Cpf1CRISPR系统并且/或者已在早期阶段且以大规模地被该系统修饰的细胞的方式。

在土壤杆菌介导的转化的情况下，标记物盒可以与侧接T-DNA边界相邻或处于这些边界之间并且包含在二元载体之内。在另一个实施例中，标记物盒可以处于T-DNA之外。选择标记物盒也可以处于与表达盒相同的T-DNA边界内或与这些边界相邻或者可以处于二元载体上的第二T-DNA内的其他位置处(例如，2 T-DNA系统)。

对于粒子轰击或使用原生质体转化，表达系统可以包含一种或多种分离的线性片段或者可以是含有细菌复制元件、细菌选择标记物或其他可检测元件的较大构建体的一部分。包含编码指导序列和/ 或Cpf1的多核苷酸的这个或这些表达盒可以是物理连接至标记物盒或者可以是与编码标记物盒的第二核酸分子混合。标记物盒包含表达允许有效选择转化细胞的可检测标记物或选择标记物的必需元件。

基于选择标记物的细胞选择程序将取决于标记物基因的性质。在特定实施例中，使用选择标记物，即允许基于标记物的表达直接选择细胞的标记物。选择标记物可以赋予阳性选择或阴性选择并且对于外部底物的存在是有条件的或没有条件的(米琪(Miki)等人2004,107(3):193-232)。常见地，将抗生素或除草剂抗性基因用作标记物，由此通过在含有抑制量的抗生素或除草剂(标记物基因对其赋予抗性) 的培养基上生长工程化植物材料来进行选择。此类细菌的实例是对抗生素诸如潮霉素(hpt)和潮霉素(nptII) 赋予抗性的基因和对除草剂诸如草铵膦(bar)和氯磺隆(als)赋予抗性的基因，

转化植物和植物细胞也可以通过筛选可见标记物，典型地为能够处理有色底物(例如，β-葡糖醛酸糖苷酶、萤虫素酶、B或C1基因)的活性来鉴定的。此类选择和筛选方法是本领域的技术人员所熟知的。

植物培养和再生

在特定实施例中，具有修饰基因组并且通过在此所述的任何方法产生或获得的植物细胞可以被培养至再生成具有转化或修饰表型并因此具有所希望的表型的全株。常规再生技术是本领域技术人员熟知的。此类再生技术的特定实例依赖于组织培养生长培养基中某些植物激素的操纵，并且典型地依赖于已与所希望的核苷酸序列一起引入的杀生物剂和/或除草剂标记物。在另外的特定实施例中，植物再生是从培养的原生质体、植物愈伤组织、外植体、器官、花粉、胚胎或其部分获得的(例如，参见埃文斯(Evans) 等人(1983)，植物细胞培养手册(Handbook of Plant Cell Culture)，克莱(Klee)等人(1987)植物生物学年评(Ann.Rev.of Plant Phys.))。

在特定实施例中，如在此所述的转化或改进的植物可以自体受精以提供本发明的纯合改进植物(对于DNA修饰是纯合的)种子，或者可以与非转基因植物或不同的改进植物杂交以提供纯合植物的种子。当重组DNA引入到植物细胞中时，这种杂交所得植物是对于重组DNA分子为杂合的植物。通过与改进植物杂交并包含遗传修饰(可以是重组DNA)的此类纯合植物和杂合植物在此被称为“子代”。子代植物是从原始转基因植物传代并且含有通过在此提供的方法引入的基因组修饰或重组DNA分子的植物。可替代地，遗传修饰植物可以是通过以上所述方法之一使用Cfp1酶来获得的，因此无外源DNA结合到该基因组中。通过进一步育种获得的此类植物的子代也可以含有遗传修饰。育种是通过常用于不同农作物的任何育种方法来进行(例如，阿拉尔(Allard)，植物育种原则(Principles of PlantBreeding)，纽约约翰威立国际出版公司(John Wiley&Sons,NY,U.of CA)，美国加利福尼亚州戴维斯(Davis,CA)50-98(1960)。

生成具有增强的农艺性状的植物

在此提供的基于Cpf1的CRISPR系统可以用于引入靶向双链或单链断裂并且/或者引入基因激活因子和或阻遏物并且(不限于)可以用于基因靶向、基因置换、靶向诱变、靶向缺失或插入、靶向倒位和/或靶向易位。通过在单个细胞中共表达涉及实现多个修饰的多个靶向RNA，可以确保多重基因组修饰。此技术可以用于高度精确工程化植物以使其具有改进的特征，包括增强的营养品质、增加的对疾病的抗性和对生物和非生物胁迫的抗性、以及增加的有商业价值的植物产品或异源化合物的产生。

在特定实施例中，如在此所述的Cpf1 CRISPR系统可以用于在内源性DNA序列中引入靶向双链断裂(DSB)。该DSB激活细胞DNA修复途径，该修复途径可以用于实现所希望的断裂位点附近的DNA 序列修饰。当内源性基因失活可以赋予或促成所希望的性状时，这是感兴趣的。在特定实施例中，在DSB 位点处促成使用模板序列的同源重组，以便引入感兴趣的基因。

在特定实施例中，Cpf1 CRISPR系统可以用作融合至或可操作地连接至功能结构域以激活和/ 或阻遏内源性植物基因的通用核酸结合蛋白。示例性功能结构域可以包括但不限于，翻译起始区、翻译激活因子、翻译阻遏物、核酸酶(具体地是核糖核酸酶)、剪接体、珠粒、光诱导型/控制型结构域或化学诱导型/控制型结构域。典型地，在这些实施例中，该Cpf1蛋白包含至少一个突变，以使得它具有不超过不具有该至少一个突变的Cpf1蛋白的活性的5％的活性；指导RNA包含能够与靶序列杂交的指导序列。

在此所述的方法通常导致生成“改进植物”，在这点上它们与野生型植物相比具有一种或多种希望的性状。在特定实施例中，获得的这些植物、植物细胞或植物部分是包含整合到所有或部分植物细胞的基因组中的内源性DNA序列的转基因植物。在特定实施例中，获得非转基因遗传修饰植物、植物部分或细胞，在这点上没有内源性DNA序列结合到植物的任何植物细胞的基因组中。在此类实施例中，改进植物是非转基因的。当仅确保内源性基因的修饰并且在植物基因组中未引入或维持外源性基因时，所得遗传修饰农作物不含有外源基因并且因此可以基本上认为是非转基因的。在下文中更详细地描述了用于植物基因组编辑的Cpf1 CRISPR系统的不同应用：

a)引入一种或多种外源基因以赋予一种感兴趣的农艺性状

本发明提供了基因组编辑或修饰与感兴趣的靶座位相关联的或在该靶座位处的序列的方法，其中该方法包括将Cpf1效应蛋白复合物引入到植物细胞中，由此Cpf1效应蛋白复合物有效地用于将DNA插入物(例如编码感兴趣的外源基因的插入物)整合到植物细胞的基因组中。在优选实施例中，DNA插入物的整合是通过用外源引入的DNA模板或修复模板进行HR来促成的。典型地，外源引入的DNA模板或修复模板与Cpf1效应蛋白复合物或一种组分或用于表达复合物组分的多核苷酸载体一起来递送。

在此提供的Cpf1 CRISPR系统允许靶向基因递送。已经越来越清楚的是，表达感兴趣的基因的效率在很大程度上是由整合到基因组中的位置来确定的。本发明方法允许将外源基因靶向整合到基因组中希望的位置处。该位置可以是基于先前生成事件的信息来选择的或者可以通过在此任何位置披露的方法来选择的。

在特定实施例中，在此提供的方法包括(a)将包含指导RNA(包含同向重复序列和指导序列) 的Cpf1 CRISPR复合物引入到细胞中，其中该指导序列与植物细胞内源性靶序列杂交；(b)将在指导序列与靶序列杂交时与指导RNA复合并且诱导处于或靠近指导序列所靶向的序列的双链断裂的Cpf1效应分子引入到该植物细胞中；并且(c)将编码HDR修复模板的核苷酸序列引入到细胞中，该修复模板编码感兴趣的基因并且作为HDR的结果被引入到DS断裂位置中。在特定实施例中，引入的步骤可以包括将编码Cpf1效应蛋白、指导RNA和修复模板的一个或多个多核苷酸递送到植物细胞中。在特定实施例中，这些多核苷酸是通过DNA病毒(例如，双粒病毒组)或RNA病毒(例如，烟草脆裂病毒组)来递送到细胞中的。在特定实施例中，引入步骤包括将含有编码Cpf1效应蛋白、指导RNA和修复模板的一个或多个多核苷酸序列的 T-DNA递送到植物细胞中，其中该递送是经由土壤杆菌。编码Cpf1效应蛋白的核酸序列可以是可操作地连接至启动子，诸如组成型启动子(例如，花椰菜花叶病毒35S启动子)或细胞特异型或诱导型启动子。在特定实施例中，多核苷酸是通过微粒轰击来引入的。在特定实施例中，该方法进一步包括在引入步骤后筛选植物细胞，以确定是否引入修复模板，即模板基因。在特定实施例中，这些方法包括由植物细胞再生植物的步骤。在另外的实施例中，这些方法包括杂交育种该植物以获得遗传上希望的植物谱系。编码感兴趣的性状的外源基因的实例列出在下文中。

b)编辑内源性基因以赋予感兴趣的农艺性状

本发明提供了基因组编辑或修饰与感兴趣的靶座位相关联的或在该靶座位处的序列的方法，其中该方法包括将Cpf1效应蛋白复合物引入到植物细胞中，由此Cpf1效应蛋白复合物修饰植物内源性基因的表达。这可以不同方式来实现。在特定实施例中，消除内源性基因的表达是希望的并且使用Cpf1 CRISPR 复合物靶向并裂解内源性基因，以便修饰基因表达。在这些实施例中，在此提供的方法包括(a)将包含指导RNA(包含同向重复序列和指导序列)的Cpf1 CRISPR复合物引入到植物细胞中，其中该指导序列与植物细胞基因组的感兴趣的基因内的靶序列杂交；并且(b)将Cpf1效应分子引入到该细胞中，当结合指导RNA时，该效应蛋白包含与靶序列杂交、确保处于或靠近指导序列所靶向的序列的双链断裂的指导序列；在特定实施例中，引入的步骤可以包括将编码Cpf1效应蛋白和指导RNA的一个或多个多核苷酸递送到植物细胞中。

在特定实施例中，这些多核苷酸是通过DNA病毒(例如，双粒病毒组)或RNA病毒(例如，烟草脆裂病毒组)来递送到细胞中的。在特定实施例中，引入步骤包括将含有编码Cpf1效应蛋白和指导RNA 的一个或多个多核苷酸序列的T-DNA递送到植物细胞中，其中该递送是经由土壤杆菌。编码Cpf1 CRISPR 系统组分的多核苷酸序列可以是可操作地连接至启动子，诸如组成型启动子(例如，花椰菜花叶病毒35S 启动子)或细胞特异型或诱导型启动子。在特定实施例中，多核苷酸是通过微粒轰击来引入的。在特定实施例中，该方法进一步包括在引入步骤后筛选植物细胞，以确定是否修饰感兴趣的基因的表达。在特定实施例中，这些方法包括由植物细胞再生植物的步骤。在另外的实施例中，这些方法包括杂交育种该植物以获得遗传上希望的植物谱系。

在以上所述方法的特定实施例中，抗病性农作物是通过靶向突变疾病易感性基因或编码植物防卫基因的负调节物的基因(例如，Mlo基因)来获得的。在一个特定实施例中，抗除草剂农作物是通过靶向取代植物基因诸如编码乙酰乳酸合酶(ALS)和原卟啉原氧化酶(PPO)的基因的特定核苷酸来生成的。在特定实施例中，通过靶向突变编码非生物胁迫耐受性的负调节物的基因而产生的干旱耐盐农作物、通过靶向突变Waxy基因而产生的低直链淀粉谷物、通过靶向突变糊粉层中的主要脂肪酶基因而产生的具有降低的酸败性的稻谷或其他谷物等。在特定实施例中，编码感兴趣的性状的内源性基因的更广泛列表列出在下文中。

c)通过Cpf1 CRISPR系统调节内源性基因以赋予感兴趣的农艺性状

在此还提供了用于使用在此提供的Cpf1蛋白调节(即，激活或阻遏)内源性基因表达的方法。此类方法利用通过Cpf1复合物靶向植物基因组的一个或多个不同RNA序列。更具体地说，一个或多个不同 RNA序列结合两个或更多个衔接蛋白(例如，适配子)，由此每个衔接蛋白与一个或多个功能结构域缔合并且其中与该衔接蛋白缔合的一个或多个结构域中的至少一个功能结构域具有一种或多种活性，包括甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、DNA 整合活性、RNA切割活性、DNA切割活性或核酸结合活性。这些功能结构域用于调控内源性植物基因的表达以便获得所希望的性状。典型地，在这些实施例中，该Cpf1蛋白具有一个或多个突变，以使得它具有不超过不具有该至少一个突变的Cpf1效应蛋白的核酸酶活性的5％的核酸酶活性。

在特定实施例中，在此提供的方法包括以下步骤：(a)将包含指导RNA(包含同向重复序列和指导序列)的Cpf1 CRISPR复合物引入到细胞中，其中该指导序列与植物细胞内源性靶序列杂交；(b)将在指导序列与靶序列杂交时与指导RNA复合的Cpf1效应分子引入到植物细胞中；并且其中指导RNA被修饰为包含结合功能结构域的不同RNA序列(适配子)和/或Cpf1效应蛋白被修饰为使得它连接至功能结构域。在特定实施例中，引入的步骤可以包括将编码(修饰的)Cpf1效应蛋白和(修饰的)指导RNA的一个或多个多核苷酸递送到植物细胞中。在此任何位置处描述了用于这些方法中的Cpf1 CRISPR系统组分的详情。

在特定实施例中，这些多核苷酸是通过DNA病毒(例如，双粒病毒组)或RNA病毒(例如，烟草脆裂病毒组)来递送到细胞中的。在特定实施例中，引入步骤包括将含有编码Cpf1效应蛋白和指导RNA 的一个或多个多核苷酸序列的T-DNA递送到植物细胞中，其中该递送是经由土壤杆菌。编码Cpf1 CRISPR 系统的一种或多种组分的核酸序列可以是可操作地连接至启动子，诸如组成型启动子(例如，花椰菜花叶病毒35S启动子)或细胞特异型或诱导型启动子。在特定实施例中，多核苷酸是通过微粒轰击来引入的。在特定实施例中，该方法进一步包括在引入步骤后筛选植物细胞，以确定是否修饰感兴趣的基因的表达。在特定实施例中，这些方法包括由植物细胞再生植物的步骤。在另外的实施例中，这些方法包括杂交育种该植物以获得遗传上希望的植物谱系。编码感兴趣的性状的内源性基因的更广泛列表列出在下文中。

使用Cpf1修饰多倍体植物

许多植物是多倍体，这意味着它们携带其基因组的复制拷贝，有时多至六个，像在小麦中。根据本发明利用Cpf1 CRISPR效应蛋白的方法可以“多重”影响基因的所有拷贝或者一次靶向许多基因。例如，在特定实施例中，本发明的方法用于同时确保不同基因中负责抑制针对疾病的防卫的失功能突变。在特定实施例中，本发明的方法用于同时抑制小麦植物细胞内TaMLO-Al、TaMLO-Bl和TaMLO-Dl核酸序列的表达并且由该细胞再生小麦植物，以便确保该小麦植物抵抗白粉病(还参见WO 2015109752)。

赋予农艺性状

如上文所述的，在特定实施例中，本发明涵盖如在此所述的Cpf1 CRISPR用于插入感兴趣的 DNA(包括一个或多个植物可表达基因)的用途。在另外的特定实施例中，本发明涵盖使用如在此所述的 Cpf1系统用于部分或完全缺失一个或多个植物表达基因的方法和工具。在另外的特定实施例中，本发明涵盖使用如在此所述的Cpf1系统确保一种或多种植物表达基因通过突变、驱动、插入一个或多个核苷酸来修饰的方法和工具。在另外的特定实施例中，本发明涵盖如在此所述的Cpf1 CRISPR系统确保通过特定修饰引导一个或多个植物表达基因的表达的一种或多种调节元件来修饰所述基因的表达。

在特定实施例中，本发明涵盖涉及引入内源性基因和/或靶向内源性基因以及其调节元件的方法，诸如以下列出的基因：

1.赋予对害虫或疾病的抗性的基因：

·植物疾病抗性基因。植物可以用克隆的抗性基因转化以工程化对特定病原体菌株具有抗性的植物。参见，例如，琼斯(Jones)等人，科学266:789(1994)(对黄枝孢霉的抗性的番茄Cf-9基因的克隆(cloning of the tomato Cf-9 gene for resistance toCladosporium fulvum))；马丁(Martin)等人，科学262:1432(1993) (对丁香假单胞菌番茄致病变种的抗性的番茄Pto基因编码蛋白激酶(tomato Pto gene for resistance toPseudomonas syringae pv.tomato encodes a protein kinase))；麦德瑞诺斯(Mindrinos)等人，细胞78:1089(1994) (拟南芥可以是对丁香假单胞菌的抗性的RSP2基因(Arabidopsmay be RSP2 gene for resistance to Pseudomonas syringae))。

·赋予对害虫诸如大豆囊胞线虫的抗性的基因。例如，参见PCT公开号96/30517；PCT申请WO 93/19181。

·苏云金芽孢杆菌蛋白，例如，参见，热塞(Geiser)等人，基因48:109(1986)。

·凝集素，例如，参见，凡·达默(Van Damme)等人，植物分子生物学24:25(1994。

·维生素结合蛋白，诸如抗生物素蛋白，参见PCT申请US93/06487，该申请教授了抗生物素蛋白和抗生物素蛋白同源物作为针对害虫的杀幼虫剂的用途。

·酶抑制剂诸如蛋白酶或朊酶抑制剂或淀粉酶抑制剂。参见，例如，亚伯(Abe)等人，生物化学杂志262:16793(1987)；赫伯(Huub)等人，植物分子生物学21:985(1993)，角谷(Sumitani)等人，生物科学、生物技术和生物化学57:1243(1993)以及美国专利号5,494,813。

·昆虫特有的激素或信息素，诸如蜕皮甾类或保幼激素、或其变体、基于它的模拟物、或其拮抗剂或激动剂。参见,例如，哈莫克(Hammock)等人，自然344:458(1990)。

·昆虫特有的肽或神经肽，这些肽在表达时破坏受影响害虫的生理学。例如，里根(Regan)，生物化学杂志269:9(1994)以及普拉特(Pratt)等人，生物化学和生物物理学研究通讯(Biochem.Biophys.Res.Comm.) 163:1243(1989)。还参见美国专利号5,266,317。

·在自然界中由蛇、黄蜂或任何其他生物体产生的昆虫特有的毒液。例如，参见庞(Pang)等人，基因116:165(1992)。

·引起单萜、倍半萜、甾体、异羟肟酸、苯丙素衍生物或具有杀昆虫活性的另一种非蛋白质分子超积累的酶。

·涉及生物活性分子修饰(包括翻译后修饰)的酶；例如，糖解酶、蛋白水解酶、脂解酶、核酸酶、环化酶、转氨酶、酯酶、水解酶、磷酸酶、激酶、磷酸化酶、聚合酶、弹性蛋白酶、壳多糖酶以及葡聚糖酶，无论是天然还是合成的。参见PCT申请WO93/02197，克雷默(Kramer)等人，昆虫生物化学与分子生物学(Insect Biochem.Molec.Biol.23:691(1993)以及卡瓦莱克(Kawalleck)等人，植物分子生物学(Plant Molec.Biol.)21:673(1993)。

·刺激信号转导的分子。例如，参见博泰拉(Botella)等人，植物分子生物学24:757(1994)以及格里斯(Griess)等人，植物生理学(Plant Physiol.)104:1467(1994)。

·病毒侵入蛋白或源于此的复合物毒素。参见比奇(Beachy)等人，植物病理学年度回顾(Ann.rev. Phytopathol.)28:451(1990)。

·在自然界中由病原体或寄生虫产生的发育阻滞蛋白(Developmental-arrestive protein)。参见兰布 (Lamb)等人，生物/技术10:1436(1992)以及杜巴特(Toubart)等人，植物杂志2:367(1992)。

·在自然界中由植物产生的发育阻滞蛋白。例如，洛格曼(Logemann)等人，生物/技术10:305(1992)。

·在植物中，病原体常常是宿主特异性的。例如，一些镰刀菌种类将引起番茄枯萎病但仅攻击番茄，而其他镰刀菌种类仅攻击小麦。植物具有现存和诱导的防卫以抵抗大部分病原体。跨植物各代的突变和重组事件导致引起易感性的遗传变异性，特别是当病原体以比植物更大频率繁殖时。在植物中可以存在非宿主抗性，例如宿主和病原体是不相容的或者可以存在针对所有病原体种族的部分抗性，这些抗性典型地是通过许多基因来控制的，并且/或者也存在对一些病原体种族而不是其他种族的完全抗性。此抗性典型地是通过几种基因控制的。使用多种方法和CRISP-cpf1系统组分，现在存在一种在此预先诱导特异性突变的新工具。因此，可以分析抗性基因来源基因组，并且在具有所希望的特征或形状的植物中，使用诱导抗性基因增加的方法和Cpf1 CRISPR系统组分。本发明系统可以比先前的诱变剂更精确地完成此分析并且因此加速并改进植物育种程序。

2.涉及植物疾病的基因，诸如WO 2013046247列出的基因：

·稻谷病害：稻梨孢、宫部旋孢腔菌、立枯丝核菌、藤仓赤霉；小麦病害：白粉病菌、禾谷镰刀菌、燕麦镰刀菌(F.avenaceum)、黄色镰刀菌、雪霉叶枯菌、条形柄锈菌、禾柄锈菌、隐匿柄锈菌、粉红雪腐病菌(Micronectriella nivale)、核瑚菌属某种(Typhulasp.)、小麦黑粉菌、小麦网腥黑穗病菌(Tilletia caries)、小麦基腐病菌、禾生球腔菌、小麦壳多孢、偃麦草核腔菌；大麦病害：白粉病菌(Erysiphe graminis)、禾谷镰刀菌、燕麦镰刀菌、黄色镰刀菌、雪霉叶枯菌、条形柄锈菌、禾柄锈菌、大麦柄锈菌、裸黑粉菌、大麦云纹斑病菌、圆核腔菌、禾旋孢腔菌、麦类核腔菌、立枯丝核菌：玉米病害：玉米黑粉菌、异旋孢腔菌、高粱胶尾孢、多堆柄锈菌、玉米灰斑病菌、立枯丝核菌；

·柑橘病害：柑橘间座壳菌(Diaporthe citri)、柑橘痂囊腔菌(Elsinoefawcetti)、指状青霉菌、桔青霉菌(P.italicum)、寄生疫霉、柑橘褐腐疫霉；苹果病害：苹果链核盘菌(Monilinia mali)、苹果树腐烂病菌(Valsa ceratosperma)、苹果白粉病菌、互隔交链孢菌苹果致病型、苹果黑星病菌、尖孢炭疽(Colletotrichum acutatum)、恶疫霉；

·梨病害：梨黑星病菌(Venturia nashicola)、梨黑星菌(V.pirina)、互隔交链孢霉日本梨致病型、梨胶锈菌(Gymnosporangium haraeanum)、恶疫霉；

·桃病害：褐腐病菌、嗜果枝孢菌(Cladosporium carpophilum)、拟茎点霉属某种(Phomopsis sp.)；

·葡萄病害：痂囊腔菌(Elsinoe ampelina)、檬果炭疽病菌、葡萄白粉菌(Uninulanecator)、葡萄锈病菌(Phakopsora ampelopsidis)、葡萄球座菌、葡萄霜霉菌；

·柿子病害：柿盘长孢(Gloesporium kaki)、柿角斑病菌(Cercospora kaki)、柿叶球腔菌(Mycosphaerela nawae)；

·瓠果病害：瓜类炭疽菌、黄瓜白粉病菌、甜瓜球腔菌(Mycosphaerellamelonis)、尖孢镰刀菌、黄瓜霜霉病菌、疫霉属某种、腐霉属某种；

·番茄病害：茄链格孢菌、番茄叶霉病菌(Cladosporium fulvum)、致病疫霉菌；

·茄子病害：茄褐纹病菌(Phomopsis vexans)、二孢白粉菌；

十字花科蔬菜病害：萝卜链格孢菌(Alternaria japonica)、白菜白斑病菌(Cercosporella brassicae)、根肿病菌(Plasmodiophora brassicae)、寄生霜霉菌；

·大葱病害：葱柄锈菌(Puccinia allii)、大葱霜霉(Peronospora destructor)；

·大豆病害：大豆紫斑病菌、大豆痂囊腔菌(Elsinoe glycines)、菜豆间座壳大豆变种、大豆壳针孢、大豆尾孢、豆薯层锈菌、大豆疫霉病菌、立枯丝核菌、棒抱叶斑病菌(Corynespora casiicola)、核盘菌；

·菜豆病害：菜豆炭疽病菌；

·花生病害：花生黑斑病菌(Cercospora personata)、花生褐斑病菌、齐整小核菌；

·豌豆病害豌豆：豌豆白粉菌；

·马铃薯病害：茄链格孢菌、致病疫霉菌、马铃薯疫霉绯腐病菌、马铃薯粉状疮痂病菌(Spongospora subterranean,f.sp.Subterranean)；

·草莓病害：薄草单丝壳菌(Sphaerotheca humuli)、檬果炭疽病菌；

·茶病害；茶网饼病菌(Exobasidium reticulatum)、荼白星病菌(Elsinoeleucospila)、拟盘多毛孢属某种、荼炭疽菌(Colletotrichum theae-sinensis)；

·烟草病害：烟草赤星病菌(Alternaria longipes)、二孢白粉菌、烟草炭疽病菌(Colletotrichum tabacum)、烟草霜霉菌、烟草疫霉菌(Phytophthora nicotianae)；

·油菜籽病害：核盘菌、立枯丝核菌；

·棉花病害：立枯丝核菌；

·甜菜病害：甜菜尾孢菌(Cercospora beticola)、水稻纹枯病菌、螺壳状丝囊霉(Aphanomyces cochlioides)；

·玫瑰病害：蔷薇双壳菌(Diplocarpon rosae)、蔷薇单丝壳茵(Sphaerothecapannosa)、蔷薇霜霉 (Peronospora sparsa)；

·菊花和菊科病害：莴苣盘枝霉、野菊壳针抱(Septoria chrysanthemi-indici)、堀氏菊柄锈菌(Puccinia horiana)；

·各种植物的病害：瓜果腐霉病菌、德巴利氏腐霉(Pythium debarianum)、禾草腐霉、畸雌腐霉、终极腐霉、灰葡萄孢菌、核盘菌；

·萝卜病害：甘蓝链格孢；

·结缕草病害：同果核盘菌、立枯丝核菌；

·香蕉病害：香蕉黑条叶斑病菌、香蕉黄条叶斑病菌；

·向日葵病害：向日葵霜霉病菌；

·在不同植物生长早期阶段由以下各项引起的种子疾病或疾病：曲霉属某些种、青霉属某些种、镰刀菌某些种、赤霉菌某些种、木霉属某些种、根串珠霉属某些种、根霉属某些种、毛霉菌某些种、伏革菌属某些种、茎点霉属某些种、丝核菌某些种、色二孢属某些种等；

·各种植物由杆菌属某些种、油壶菌属某些种等介导的病毒病。

3.赋予对除草剂的抗性的基因的实例：

·对抑制生长点或分生组织的除草剂的抗性，该除草剂诸如咪唑啉酮或硫酰脲，例如分别在李等人，欧洲分子生物学学会杂志7:1241(1988)以及米琪等人，理论与应用遗传学(Theor.Appl.Genet.)80:449 (1990)。

·草甘膦耐受性(分别由例如突变体5-烯醇丙酮莽草酸-3-磷酸合酶(EPSP)基因、aroA基因和草甘膦乙酰转移酶(GAT)基因赋予的抗性)、或者对于其他膦羧基化合物诸如草铵膦的抗性(由来自链霉菌种类的草丁膦乙酰基转移酶(PAT)基因赋予，该链霉菌种类包括吸水链霉菌和绿色产色链霉菌 (Streptomyces viridichromogenes))、以及对吡啶氧基或苯氧基丙酸和环异己酮的抗性(由ACC酶抑制剂编码基因赋予)。参见，例如美国专利号4,940,835和美国专利6,248,876、美国专利号4,769,061、欧洲专利号0 333 033以及美国专利号4,975,374。还参见欧洲专利号0242246，德格瑞夫(DeGreef)等人，生物 /技术7:61(1989)，马歇尔(Marshall)等人，理论与应用遗传学83:435(1992)，卡斯尔(Castle)等人的 WO 2005012515，以及WO 2005107437。

·对抑制光合成的除草剂的抗性，该除草剂诸如三嗪(psbA和gs+基因)或苯基氰(腈水解酶基因)，以及谷胱甘肽s-转移酶，在瑞兹伯勒(Przibila)等人，植物细胞(PlantCell)3:169(1991)，美国专利号 4,810,648，以及海耶斯等人，生物化学杂志285:173(1992)。

·编码使除草剂去毒的酶或对抑制具有抗性的突变体谷氨酰胺合酶的基因，例如在美国专利申请序列号11/760,602中。或者去毒酶是编码草丁膦乙酰转移酶的酶(诸如来自链霉菌种类的bar或pat蛋白)。草丁膦乙酰转移酶是例如描述于美国专利号5,561,236；5,648,477；5,646,024；5,273,894；5,637,489；5,276,268； 5,739,082；5,908,810以及7,112,665。

·羟基苯丙酮酸双氧化酶(HPPD)抑制剂，即天然存在的HPPD抗病性酶，或者编码突变或嵌合HPPD 酶的基因，如WO 96/38567、WO 99/24585、以及WO 99/24586、WO 2009/144079、WO 2002/046387、或美国专利号6,768,044中所述的。

4.涉及非生物胁迫耐受性的基因的实例：

·能够在植物细胞或植物中减少聚(ADP核糖)聚合酶(PARP)基因的表达/或活性的转基因，如WO 00/04173或WO/2006/045633所述的。

·能够减少这些植物或植物细胞的PARG编码基因的表达和/或活性的转基因，例如在WO 2004/090140 中。

·编码烟酰胺腺嘌呤二核苷酸补救合成途径的植物功能酶的转基因，这些酶包括烟酰胺酶、烟酰酸磷酸核糖基转移酶、烟酸单核苷酸腺嘌呤转移酶、烟酰胺腺嘌呤二核苷酸合成酶或烟酰胺磷酸核糖基转移酶，例如在EP 04077624.7、WO 2006/133827、PCT/EP07/002,433、EP 1999263、或WO 2007/107326中所述的。

·涉及碳水化合物生物合成的酶包括例如EP 0571427、WO 95/04826、EP0719338、WO 96/15248、 WO 96/19581、WO 96/27674、WO 97/11188、WO 97/26362、WO 97/32985、WO 97/42328、WO 97/44472、 WO 97/45545、WO 98/27212、WO 98/40503、WO99/58688、WO 99/58690、WO 99/58654、WO 00/08184、 WO 00/08185、WO 00/08175、WO 00/28052、WO 00/77229、WO 01/12782、WO 01/12826、WO 02/101059、 WO 03/071860、WO 2004/056999、WO 2005/030942、WO 2005/030941、WO 2005/095632、WO 2005/095617、 WO 2005/095619、WO 2005/095618、WO 2005/123927、WO 2006/018319、WO 2006/103107、WO 2006/108702、WO 2007/009823、WO 00/22140、WO 2006/063862、WO 2006/072603、WO 02/034923、EP 06090134.5、EP 06090228.5、EP 06090227.7、EP 07090007.1、EP 07090009.7、WO 01/14569、WO 02/79410、 WO 03/33540、WO 2004/078983、WO 01/19975、WO 95/26407、WO 96/34968、WO 98/20145、WO 99/12950、 WO 99/66050、WO 99/53072、美国专利号6,734,341、WO00/11192、WO 98/22604、WO 98/32326、WO 01/98509、WO 01/98509、WO 2005/002359、美国专利号5,824,790、美国专利号6,013,861、WO 94/04693、 WO 94/09144、WO 94/11520、WO95/35026或WO 97/20936中所述的酶，或者如EP 0663956、WO 96/01904、WO 96/21023、WO98/39460、以及WO 99/24593所披露的涉及多聚果糖(尤其是菊粉和果聚糖类型)的产生的酶，如WO 95/31553、US 2002031826、美国专利号6,284,479、美国专利号5,712,107、 WO97/47806,WO 97/47807,WO 97/47808以及WO 00/14249披露的涉及α-1,4-葡聚糖的产生的酶，如WO 00/73422所披露的涉及α-1,6分支α-1,4-葡聚糖的产生的酶，如在例如WO 00/47727、WO 00/73422、EP 06077301.7、美国专利号5,908,975以及EP 0728213所披露的涉及交替糖的产生的酶，如例如在WO 2006/032538、WO 2007/039314、WO 2007/039315、WO2007/039316、JP 2006304779以及WO 2005/012529 所披露的涉及透明质酸的产生的酶。

·改进抗旱性的基因。例如，WO 2013122472披露了功能性泛素蛋白连接酶蛋白(UPL)、更确切地说是UPL3的缺乏或水平降低导致所述植物对水的需求减少或者对干旱的抗性提高。具有增加的耐旱性的转基因植物的其他实例披露于例如US 2009/0144850、US2007/0266453、以及WO 2002/083911。 US2009/0144850描述了一种由于DR02核酸表达的改变而显示耐旱性表型的植物。US 2007/0266453描述了一种由于DR03核酸表达的改变而显示耐旱性表型的植物并且WO 2002/08391 1描述了一种由于保卫细胞中表达的ABC转运体活性降低而具有增加的对干旱胁迫的耐受性的植物。另一个实例是春日(Kasuga) 和合著者(1999)的著作，他们描述了在正常生长条件下编码DREB1 A的cDNA在转基因植物中的过表达激活了许多胁迫耐受性基因的表达并且导致对干旱、盐负荷以及寒冷的耐受性提高。然而，在正常生长条件下DREB1A的表达也导致严重生长迟缓(春日(1999)自然生物技术17(3)287-291)。

在另外的特定实施例中，农作物植物可以是通过影响特定植物性状来改进的。例如，通过开发耐杀虫剂植物、提高植物的抗病性、提高昆虫和线虫抗性、提高植物针对寄生杂草的抗性、提高植物耐旱性、提高植物营养价值、提高植物胁迫耐受性、避免自花授粉、植物饲料可消化性生物质、谷物产量等等。在下文中提供了若干特定的非限制性实例。

除单一基因的靶向突变之外，Cpf1CRISPR复合物可以被设计允许在植物中靶向突变多基因、缺失染色体片段、位点特异性整合转基因、体内定点诱变、以及精确基因置换或等位基因交换。因此，在此所述的方法在基因发现和验证、突变和顺基因育种、以及杂交育种中具有广泛的应用。这些应用有助于产生新一代的具有各种改进的农艺形状的遗传修饰农作物，这些农艺形状诸如除草剂耐受性、抗病性、非生物胁迫耐受性、高产率、以及优等品质。

使用Cpf1基因创建雄性不育植物

杂交植物与自交植物相比典型地具有有利的农艺形状。然而，对于自花授粉植物，杂种传代可能是有挑战的。在不同植物类型中，基因已被修饰，这对于植物能育性，更具体地说雄性能育性是重要的。例如，在玉米中，至少两种基因已被修饰，这在能育性方面是重要的(关于新植物育种分子技术的阿米塔布莫汉蒂国际会议(Amitabh MohantyInternational Conference on New Plant Breeding Molecular Technologies)，技术发展与管理，2014年10月9-10日，印度斋蒲尔(Jaipur,India)；斯维塔佘(Svitashev) 等人，植物生理学，2015年10月；169(2):931-45；久卡诺维奇(Djukanovic)等人，植物杂志，2013年12 月；76(5):888-99)。在此提供的方法可以用于靶向雄性能育性所需要的基因，以便生成雄性不育植物，这些植物可以易于杂交以生成杂种。在特定实施例中，在此提供的Cpf1CRISPR系统用于靶向诱变细胞色素 P450-样基因(MS26)或大范围核酸酶基因(MS45)，从而向玉米植物赋予雄性不育性。像这样遗传改变的玉米植物可以用于杂交育种程序中。

增加植物的能育性阶段

在特定实施例中，在此提供的方法用于延长植物诸如稻米植物的能育性阶段。例如，可以靶向稻米能育性阶段基因诸如Ehd3，以便生成基因中的突变并且可以选择小植物以延长再生植物能育性阶段 (如CN 104004782中所述的)

使用Cpf1生成感兴趣的农作物的遗传变异

作物植物中野生种质和遗传变异的可用性是农作物改进程序的关键，但是来自作物植物的种质的可用多样性是有限的。本发明设想了用于生成感兴趣的种质的遗传变异的多样性的方法。在Cpf1 CRISPR系统的此应用中，提供了靶向植物基因组中的不同位置的指导RNA文库并且该文库与Cpf1效应蛋白一起引入到植物细胞中。以这种方式，可以生成基因组规模的点突变和基因敲除的集合。在特定实施例中，这些方法包括由如此获得的细胞生成植物部分或植物并且筛选感兴趣的性状的细胞。靶基因可以包含编码区和非编码区二者。在特定实施例中，该性状是胁迫耐受性的并且该方法是一种用于生成胁迫耐受性农作物种类。

使用Cpf1影响果实催熟

催熟(Ripening)是果实和蔬菜成熟过程中的正常阶段。仅在催熟开始后的几天，催熟致使果实或蔬菜不可食用。此过程对农民和消费者造成大量损失。在特定实施例中，本发明的方法可以用于减少乙烯产生。这是通过确保以下各项中的一种或多种来保证的：a.抑制ACC合酶基因表达。ACC(1-氨基环丙烷-1-羧酸)合酶是负责将S-腺苷甲硫氨酸(SAM)转化成ACC的酶；这是乙烯生物合成中的第二个步骤至最后一个步骤。当合酶基因的反义(“镜像”)或截短的拷贝插入到植物基因组中时会阻碍酶表达；b.插入ACC脱氨酶基因。从一种常见的非致病性土壤细菌绿针假单胞菌(Pseudomonas chlororaphis)获得编码该酶的基因。它将ACC转化为一种不同的化合物，从而减少可用于产生乙烯的ACC量；c.插入SAM水解酶基因。此方法类似于ACC脱氨酶，其中当乙烯前体代谢物的量减少时乙烯产生受到阻碍；在此情况下，SAM 被转化为高丝氨酸。从大肠杆菌T3噬菌体获得编码该酶的基因，以及d.抑制ACC氧化酶基因表达。ACC氧化酶是催化ACC氧化成乙烯的酶，这是乙烯生物合成途径中的最后一个步骤。使用在此所述的方法，下调 ACC氧化酶基因，导致乙烯产生受到抑制，从而延迟果实催熟。在特定实施例中，对于以上所述修饰另外地或可替代地，在此所述方法用于修饰乙烯受体，以便干扰由果实获得的乙烯信号。在特定实施例中，修饰，更具体地说抑制编码乙烯结合蛋白的ETR1基因的表达。在特定实施例中，对于在此所述修饰附加地或可替代地，在此所述的方法用于修饰编码多聚半乳糖醛酸酶(PG)的基因的表达，该PG是负责分解果胶 (维持植物细胞壁完整性的物质)的酶。果胶分解发生在催熟过程开始时，从而导致水果软化。因此，在特定实施例中，在此所述的方法用于在PG基因中引入突变或者用于抑制PG基因的激活，以便减少所产生的PG酶的量，从而延迟果胶降解。

因此在特定实施例中，这些方法包括使用Cpf1 CRISPR系统确保如上所述的植物细胞基因组的一种或多种修饰并且由该细胞再生植物。在特定实施例中，该植物是番茄植物。

增加植物的保存期限

在特定实施例中，本发明的方法用于修饰涉及产生影响植物或植物部分的保存期限的化合物的基因。更具体地说，该修饰是在防止马铃薯块茎中的还原糖积累的基因中。在高温处理时，这些还原糖与游离氨基酸反应，从而产生棕色苦味产物和高水平的丙烯酰胺，该丙烯酰胺是一种潜在致癌物。在特定实施例中，在此提供的方法用于减少或抑制液泡转化酶基因(VInv)的表达，该液泡转化酶基因编码将蔗糖分解为葡萄糖和果糖的蛋白质(克拉森(Clasen)等人，DOI:10.1111/pbi.12370)。

使用Cpf1CRISPR系统确保增值的性状

在特定实施例中，Cpf1 CRISPR系统用于产生营养提高的农作物。在特定实施例中，在此提供的方法适于生成“功能性食品”，即可以提供超过它所含有的传统营养物的健康益处的修饰的食品或食品成分，并且/或者适于生成“营养食品”，即可以被视为食品或食品的一部分并且提供健康益处(包括预防和治疗疾病)的物质。在特定实施例中，营养食品适用于预防和/或治疗癌症、糖尿病、心血管疾病以及高血压中的一种或多种。

营养提高的农作物实例包括(纽厄尔麦格卢林(Newell-McGloughlin)，植物生理学，2008年7 月，第147卷，第939-953页)；

-修饰蛋白品质、含量和/或氨基酸组成，诸如对于以下各项所描述的：百喜草(卢西亚尼(Luciani) 等人，2005，佛罗里达遗传会议海报(Florida Genetics ConferencePoster))、油菜(勒斯勒尔(Roesler)等人，1997,植物生理学113 75-81)、玉米(克伦威尔(Cromwell)等人，1967,1969农林科学(J Anim Sci) 26 1325-1331，欧·昆(O’Quin)等人，2000农林科学78 2144-2149，阳(Yang)等人2002，转基因研究 11 11-20，杨(Young)等人2004，植物杂志38 910-922)、马铃薯(余·J(Yu J)和奥(Ao)，1997植物学报(Acta BotSin)39 329-334；查克拉博蒂(Chakraborty)等人2000，美国国家科学院院刊97 3724-3729；李等人(2001)中国科学通报(Chin Sci Bull)46 482-484)、稻米(卡兹伯(Katsube)等人，1999，植物生理学120 1063-1074)、大豆(丁金斯(Dinkins)等人，2001，拉普(Rapp)，2002，植物体外细胞与发育生物学(In Vitro Cell Dev Biol Plant)37 742-747)、甘薯(厄尼安(Egnin)和普拉卡什(Prakash)1997，体外细胞与发育生物学(In Vitro Cell DevBiol)33 52A)。

-必需氨基酸含量，诸如对于以下各项所描述的：油菜(法尔科(Falco)等人，1995，生物/技术13 577-582)、羽扇豆(怀特(White)等人，2001，食品与农业科学杂志(J SciFood Agric)81 147-154)、玉米(莱(Lai)和梅辛(Messing)，2002，2008年农业与生物技术战略公司转基因作物数据库(Agbios 2008 GM crop database)(2008年3月11日))、马铃薯(泽(Zeh)等人，2001，植物生理学127 792-802)、高粱(赵等人，2003，克拉维尔科学出版社(Kluwer Academic Publishers)，荷兰多德雷赫特(Dordrecht,The Netherlands)，第413-416页)、大豆(法尔科等人，1995生物/技术13 577-582；加利尔(Galili)等人， 2002植物科学的关键评论(Crit Rev Plant Sci)21 167-204)。

-油类和脂肪酸，例如对于油菜(德赫士(Dehesh)等人，(1996)植物杂志9 167-172[PubMed]；德韦基奥(Del Vecchio)(1996)关于脂肪、油类和相关材料的国际新闻通告(INFORM International News on Fats, Oils and Related Materials)7 230-243；勒斯勒尔等人，(1997)植物生理学113 75-81[PMC免费文献] [PubMed]；弗罗曼(Froman)和于尔森(Ursin)(2002,2003)，美国化学学会论文摘要(Abstracts of Papers of the AmericanChemical Society)223U35；詹姆斯(James)等人，(2003)美国临床营养学杂志(Am J ClinNutr)77 1140-1145[PubMed]；农业与生物技术战略公司(2008，同上)；棉花(coton)(查普曼(Chapman) 等人，(2001).美国石油化学家协会杂志(J Am Oil Chem Soc)78 941-947；刘等人，(2002)美国营养学院杂志(J Am Coll Nutr)21 205S-211S[PubMed]；欧尼尔(O′Neill)(2007)澳大利亚生命科学家(Australian Life Scientist).http://www.biotechnews.com.au/index.php/id；866694817；fp；4；fpid；2(2008年6月17日)、亚麻籽 (阿巴迪(Abbadi)等人，2004，植物细胞16:2734-2748)、玉米(杨等人，2004，植物杂志38910-922)、油棕(嘉拉尼(Jalani)等人，1997,美国石油化学家协会杂志74 1451-1455；帕尔维姿(Parveez)，2003，农业生物科技网(AgBiotechNet)113 1-8)、稻米(阿奈(Anai)等人，2003，植物细胞报告(Plant Cell Rep) 21 988-992)、大豆(雷迪(Reddy)和托马斯(Thomas)，1996,自然生物技术14 639-642；金尼(Kinney) 和克沃尔顿(Kwolton)，1998，黑人学术和专业(Blackie Academic and Professional)，伦敦，第193-213 页)、向日葵(阿尔卡迪亚(Arcadia)，生物科学(Biosciences)2008)

-碳水化合物，诸如对于以下各项所描述的果聚糖：菊苣(斯米肯恩(Smeekens)(1997)植物科学趋势(Trends Plant Sci)2 286-287，施普伦格(Sprenger)等人，(1997)FEBS快报400 355-358，思维尼尔(Sévenier) 等人，(1998)自然生物技术16 843-846)、玉米(菜密(Caimi)等人，(1996)植物生理学110 355-363)、马铃薯(黑尔韦格(Hellwege)等人，1997植物杂志12 1057-1065)、甜菜(斯米肯恩等人，1997，同上)；菊粉，诸如对于马铃薯(赫勒韦格(Hellewege)等人，2000，美国国家科学院院刊97 8699-8704)所述的；淀粉，诸如对于稻米所述的(施瓦尔(Schwall)等人，(2000)自然生物技术18 551-554，蒋(Chiang)等人，(2005)分子育种(Mol Breed)15 125-143)，

-维生素类和类葫萝卜素，诸如对于以下各项所述的：油菜(新谷(Shintani)和黛拉彭娜(DellaPenna) (1998)科学282 2098-2100)、玉米(罗彻福德(Rocheford)等人，(2002).美国营养学院杂志21 191S-198S，卡洪(Cahoon)等人，(2003)自然生物技术211082-1087，陈等人，(2003)美国国家科学院院刊100 3525-3530)、芥菜耔(休梅克(Shewmaker)等人，(1999)植物杂志20 401-412)、马铃薯(杜克勒(Ducreux)等人， 2005，实验植物学杂志(J Exp Bot)56 81-89)、稻米(叶(Ye)等人，(2000)科学287 303-305)、草莓(阿吉厄斯(Agius)等人，(2003)，自然生物技术21 177-181)、番茄(罗萨蒂(Rosati)等人，(2000)植物杂志24 413-419，弗雷泽(Fraser)等人，(2001)食品与农业科学杂志81 822-827，梅塔(Mehta)等人，(2002) 自然生物技术20 613-618，迪则·德·拉·加尔萨(Díazde la Garza)等人，(2004)美国国家科学院院刊101 13720-13725，恩非斯(Enfissi)等人，(2005)植物生物技术杂志3 17-27，黛拉彭娜(2007)美国国家科学院院刊104 3675-3676。

-功能性次级代谢产物，诸如对于以下各项描述的：苹果(芪类，斯赞卡斯基(Szankowski)等人， (2003)植物细胞报告22:141-149)、苜蓿(白藜芦醇，希普斯金德(Hipskind)和派瓦(Paiva)(2000)分子植物微生物的相互作用(Mol Plant MicrobeInteract)13 551-562)、猕猴桃(白藜芦醇，小林(Kobayashi) 等人，(2000)植物细胞报告19 904-910)、玉米和大豆(黄酮类，余等人，(2000)植物生理学124 781-794)、马铃薯(花青素和生物碱糖苷，鲁卡斯瑟维克茨(Lukaszewicz)等人，(2004)农业与食品化学杂志(JAgric Food Chem)52 1526-1533)、稻米(黄酮类和白藜芦醇，斯塔克-劳任森(Stark-Lorenzen)等人，(1997)植物细胞报告16 668-673，信(Shin)等人，(2006)植物生物技术杂志4 303-315)、番茄(+白藜芦醇、绿原酸、黄酮类、芪；罗萨蒂等人，(2000)同上，缪尔(Muir)等人，(2001)自然19 470-474，尼吉威戈(Niggeweg) 等人，(2004)自然生物技术22746-754，焦维纳佐(Giovinazzo)等人，(2005)植物生物技术杂志3 57-69)、小麦(咖啡酸和咖啡酸、白藜芦醇；美国合众国际新闻社(United Press International)(2002))；以及

-矿物质可用性，诸如对于以下各项所述的：苜蓿(植酸酶，奥斯丁-菲利普斯(Austin-Phillips)等人， (1999)http://www.molecularfarming.com/nonmedical.html)、生菜(Lettuse)(铁，戈托等人，(2000)理论与应用遗传学(Theor ApplGenet)100 658-664)、稻米(铁，卢卡(Lucca)等人，(2002)美国营养学院杂志 21 184S-190S)、玉米、大豆和小麦(植酸酶，德拉卡卡基(Drakakaki)等人，(2005)植物分子生物学59869-880，丹茂(Denbow)等人，(1998)养禽科学(Poult Sci)77 878-881，布林克-佩德森(Brinch-Pedersen) 等人，(2000)分子育种6 195-206)。

在特定实施例中，增值的性状与存在于植物中的化合物的设想的健康益处相关。例如，在特定实施例中，通过应用本发明的方法来确保以下化合物中的一种或多种化合物的合成的修改或者诱导/增加它们的合成，以获得增值的农作物：

-类葫萝卜素，诸如存在于胡萝卜中的α-胡萝卜素，该α-胡萝卜素中和可引起对细胞的损害的自由基；或者存在于各种果实和蔬菜中的β-胡萝卜素，该β-胡萝卜素中和自由基

-存在于绿色蔬菜中的叶黄素，该叶黄素有助于维持健康视力

-存在于番茄和番茄产品中的番茄红素，该番茄红素认为降低前列腺癌风险

-存在于柑橘和玉米中的玉米黄素，该玉米黄素有助于维持健康视力

-膳食纤维，诸如存在于麦麸中的不溶性纤维，该不溶性纤维可以降低乳腺癌和/或结肠癌风险；以及存在于燕麦中的β葡聚糖；存在于车前子(Psylium)和全谷粒中的可溶性纤维，该可溶性纤维可以降低心血管疾病(CVD)风险

-脂肪酸，诸如ω-3脂肪酸，这些ω-3脂肪酸可以降低CVD风险并提高心理功能和视功能；共轭亚油酸，该共轭亚油酸可以改进身体组成，可以减小某些癌症风险；以及GLA，该GLA可以降低癌症和CVD 的炎症风险，可以改进身体组成

-黄酮类，诸如存在于小麦中的羟基苯乙烯，这些羟基苯乙烯具有抗氧化剂样活性，可以降低退行性疾病风险；存在于果实和蔬菜中的黄酮醇、儿茶酚类和鞣酸类，这些黄酮醇、儿茶酚类和鞣酸类中和自由基并且可以降低癌症风险

-葡萄糖异硫氰酸酯、吲哚、异硫氰酸酯，诸如存在于十字花科蔬菜(花椰菜、羽衣甘蓝)、辣根属中的萝卜硫素，该萝卜硫素中和自由基，可以降低癌症风险

-酚类，诸如存在于葡萄中的芪类，这些芪类可以降低退行性疾病、心脏病和癌症的风险，可以延年益寿功效；以及存在于蔬菜和柑橘中的咖啡酸和阿魏酸，它们具有抗氧化剂样活性，可以降低退行性疾病、心脏病和眼病的风险；以及存在于可可中的表儿茶素，该表儿茶素具有抗氧化剂样活性，可以降低退行性疾病和心脏病的风险

-存在于玉米、大豆、小麦以及木制油中的植物甾烷醇/固醇类，它们可以通过降低血胆固醇水平来降低冠心病的风险

-存在于洋姜、胡葱、洋葱粉中的果聚糖、菊糖、低聚果糖，它们可以提高胃肠道健康

-存在于大豆中的皂苷类，它们可以降低LDL胆固醇

-存在于大豆中的大豆蛋白质，它可以降低心脏病风险

-植物雌激素，诸如存在于大豆中的异黄酮，这些异黄酮可以减少绝经期症状(诸如热潮红)，可以减少骨质疏松症和CVD；以及存在于亚麻、黑麦和蔬菜中的木脂素类，这些木脂素类可以防止心脏病和一些癌症，可以降低LDL胆固醇、总胆固醇

-硫化物和硫醇类，诸如存在于洋葱、大蒜、橄榄、韭葱以及青葱(scallon)中的二烯丙基硫；以及存在于十字花科蔬菜中的烯丙基甲基三硫、二硫醇硫酮，它们可以降低LDL胆固醇，帮助维持健康免疫系统

-鞣酸，诸如存在于蔓越橘、可可中的原花色素，它可以提高泌尿道健康，可以降低CVD和高血压风险

-等等。

此外，本发明的方法还设想了修改蛋白质/淀粉功能性、保质期、味道/美学、纤维品质、以及减少过敏原、抗营养素以及毒素的形状。

因此，本发明涵盖了用于产生具有营养增加价值的植物的方法，所述方法包括使用如在此所述的Cpf1 CRISPR系统将编码涉及产生增加的营养价值的组分的酶的基因引入到植物细胞中并且由所述植物细胞再生植物，所述植物的特征在于增加的营养价值的所述组分的表达增加。在特定实施例中，Cpf1 CRISPR系统用于例如通过修饰控制此化合物代谢的一种或多种转录因子来间接修改这些化合物的内源性合成。上文描述了用于将感兴趣的基因引入到植物细胞并且/或者使用Cpf1 CRISPR系统修饰内源性基因的方法。

在已修饰为赋予增值性状的植物中的一些特定修饰实例是：例如通过用硬脂酰-ACP去饱和酶的反义基因转化植物以增加植物硬脂酸含量的具有修饰的脂肪酸代谢的植物。参见，库内尔特顿(Knultzon) 等人，美国国家科学院院刊89:2624(1992)。另一个实例涉及例如通过克隆并且然后再引入与可以负责特征为低水平植酸的玉米突变体的单一等位基因相关联的DNA来减小植酸酯含量。参见瑞博(Raboy)等人， Maydica 35:383(1990)。

类似地，在强启动子控制下调节玉米糊粉层中黄酮类的产生的玉米(玉蜀黍)TfsC1和R的表达导致拟南芥属(阿拉伯芥)中的花色素苷高积累速率，推测是通过激活整个途径(布鲁斯(Bruce)等人， 2000，植物细胞12:65-80)。黛拉彭娜(韦尔施(Welsch)等人，2007植物生物学年评57:711-738)发现Tf RAP2.2 及其相互作用配体SINAT2增加拟南芥叶中的胡萝卜素形成作用。在转基因拟南芥中表达Tf Dof1诱导了编码用于产生碳架、标记性增加氨基酸含量以及减少Glc水平的酶的基因的上调(柳泽(Yanagisawa)，2004 植物细胞生理学45:386-391)，并且DOF Tf AtDof1.1(OBP2)上调了拟南芥的葡萄糖异硫氰酸酯生物合成途径中的所有步骤(希瑞克兹(Skirycz)等人，2006植物杂志47:10-24)。

减少植物中的过敏原

在特定实施例中，在此提供的方法可以用于生成具有减少的水平的过敏原的植物，从而使得它们对于消费者而言更安全。在特定实施例中，这些方法包括修饰负责产生植物过敏原的一种或多种基因的表达。例如，在特定实施例中，这些方法包括下调植物细胞诸如黑麦草植物细胞中的Lol p5基因的表达并且由该细胞再生植物以便减少所述植物的花粉的过敏原性(巴拉(Bhalla)等人，1999，美国国家科学院院刊，第96卷：11676-11680)。

花生过敏和对豆类过敏总体上是真实而严重的健康问题。本发明的Cpf1效应蛋白系统可以用于鉴定并且然后编码或沉默编码此类豆类的过敏原性蛋白的基因。在不限于此类基因和蛋白质的情况下，尼科拉乌(Nicolaou)等人鉴定了花生、大豆、扁豆、羽扇豆、青豆、以及绿豆中的过敏原性蛋白。参见，尼科拉乌等人，过敏症及临床免疫学当代观点(Current Opinion in Allergy and Clinical Immunology) 2011；11(3):222)。

用于感兴趣的内源性基因的筛选方法

在此提供的方法进一步允许鉴定编码涉及产生增加的营养价值的组分的酶的有价值基因或者通常是影响跨种类、门和植物界的感兴趣的农艺性状的基因。通过使用如在此所用的Cpf1 CRISPR系统选择性靶向例如编码植物代谢途径的酶的基因，可以鉴定负责植物某些营养方面的基因。类似地，通过选择性靶向可以影响所希望的农艺性状的基因，可以鉴定相关基因。因此，本发明涵盖了用于编码涉及产生具有特定营养价值和/或农艺性状的化合物的酶的基因的筛选方法。

在植物和酵母中进一步应用Cpf1-CRISPR系统

在生物燃料生产中使用Cpf1 CRISPR系统

如在此所述的“生物燃料”是一种由植物和植物来源的资源制成的代用燃料。可再生生物燃料可以从有机物质中提取，该有机物质的能量已通过碳固定方法来获得或者通过使用或转化生物质来制成。此生物质可以直接用于生物燃料或者可以通过热转化、化学转化和生物化学转化来转化成含有能量的物质。此生物质转化可以形成固体、液体或气体形式的燃料。存在两种类型的生物燃料：生物乙醇和生物柴油。生物乙醇主要是通过纤维素(淀粉)的糖发酵过程来产生的，该纤维素大部分来源于玉米和甘蔗。在另一个方面中，生物柴油主要是由油料作物诸如油菜籽、棕榈和大豆产生的。生物燃料主要用于运输。

增强用于生物燃料生产的植物特性

在特定实施例中，使用在此所述的Cpf1 CRISPR系统的方法用于改变细胞壁的特性，以便促进关键性水解剂进入，从而更有效地释放用于发酵的糖。在特定实施例中，修改纤维素和/或木质素的生物合成。纤维素是细胞壁的主要组分。纤维素和木质素的生物合成是共调节的。通过减少植物中的木质素比例，可以增加纤维素的比例。在特定实施例中，在此所述的方法用于下调植物中的木质素生物合成，以便增加可发酵的碳水化合物。更具体地说，在此所述的方法用于下调选自下组的至少一种第一木质素生物合成基因，该组由以下各项组成：4-香豆酸酯3-羟化酶(C3H)、苯丙氨酸氨裂解酶(PAL)、肉桂酸酯4-羟化酶(C4H)、羟基肉桂酰转移酶(HCT)、咖啡酸O-甲基转移酶(COMT)、咖啡酰氧基CoA 3-O-甲基转移酶 (CCoAOMT)、阿魏酸酯5-羟化酶(F5H)、肉桂醇脱氢酶(CAD)、肉桂酰CoA-还原酶(CCR)、4-香豆酸酯-CoA连接酶(4CL)、单木质醇-木质素-特异性糖基转移酶、以及醛脱氢酶(ALDH)，如WO 2008064289 A2所披露的。

在特定实施例中，在此所述的方法用于产生在发酵过程中生成低水平乙酸的植物生物质(还参见WO 2010096488)。更具体地说，在此披露的方法用于生成与CaslL同源的突变，以减少多糖乙酰化。

修饰用于生物燃料生产的酵母

在特定实施例中，在此提供的Cpf1酶用于通过重组微生物进行生物乙醇生产。例如，Cpf1可以用于工程化微生物，诸如酵母，以由可发酵糖类生成生物燃料或生物聚合物并且任选地能够降解来源于作为可发酵糖来源的农业废弃物的植物来源的木质纤维素。更具体地说，本发明提供了多种方法，凭借这些方法Cpf1 CRISPR复合物用于将生物燃料生产所需要的外源基因引入到微生物中并且/或者修饰可能干扰生物燃料合成的内源性基因。更具体地说，这些方法包括将编码涉及丙酮酸酯转化为乙醇或另一种感兴趣的产物的酶的一种或多种核苷酸序列引入到微生物诸如酵母中。在特定实施例中，这些方法确保引入允许微生物降解纤维素的一种或多种酶诸如纤维素酶。在另外的实施例中，Cpf1CRISPR复合物用于修饰与生物燃料产生途径竞争的内源性代谢途径。

因此，在更特定的实施例中，在此所述的方法用于如下地修饰微生物：

以引入至少一种异源核酸或增加编码植物细胞壁降解酶的至少一种内源性核酸的表达，以使得所述微生物能够表达所述核酸并且能够产生并分泌所述植物细胞壁降解酶；

以引入至少一种异源核酸或增加编码将丙酮酸酯转化为乙醛的酶的至少一种内源性核酸任选地连同编码将乙醛转化为乙醇的酶的至少一种异源核酸的表达，以使得所述宿主细胞能够表达所述核酸；并且/或者

以修饰编码所述宿主细胞的代谢途径中的酶的至少一种核酸，其中所述途径产生除来自丙酮酸酯的乙醛或来自乙醛的乙醇之外的代谢物，并且其中所述修饰导致所述代谢物的产生减少，或者以引入编码所述酶的抑制剂的至少一种核酸。

修饰用于生产植物油或生物燃料的藻类和植物

转基因藻类或其他植物诸如芸苔可以例如特别适用于生产植物油或生物燃料诸如醇(具体地是甲醇和乙醇)。这些藻类可以被工程化以表达或过量表达用于油或生物燃料工业中的高水平油或醇。

根据本发明的特定实施例，Cpf1 CRISPR系统用于生成适用于生物燃料生产的富含脂质的硅藻类。

在特定实施例中，设想的是特异性修饰涉及改变由藻类细胞产生的脂质的量和/或脂质的品质的基因。编码涉及脂肪酸合成途径的酶的基因的实例可以编码具有例如以下活性的蛋白质：乙酰CoA羧化酶、脂肪酸合酶、3-酮乙基_酰基-载体蛋白合酶III、甘油-3-磷酸脱氢酶(G3PDH)、烯酰-酰基载体蛋白还原酶(烯酰-ACP-还原酶)、甘油-3-磷酸酰基转移酶、溶血磷脂酰基转移酶或二酰甘油酰基转移酶、磷脂: 二酰甘油二酰甘油、磷脂酸磷酸酶、脂肪酸硫酯酶诸如软脂酰蛋白硫酯酶、或者苹果酸酶活性。在另外的实施例中，设想的是生成具有增加的脂质积累的硅藻类。这可以是通过靶向减少脂质异化的基因来实现的。对于用于本发明的方法中特别感兴趣的是涉及激活三酰甘油和游离脂肪酸的基因，以及直接涉及脂肪酸的 β氧化的基因，诸如酰基-CoA合成酶、3-酮乙基-CoA硫解酶、酰基-CoA氧化酶活性以及磷葡萄糖变位酶。在此所述的Cpf1 CRISPR系统和方法可以用于特异性激活硅藻类中的此类基因，以便增加其脂质含量。

诸如微藻的生物体广泛用于合成生物学。斯迪维塞克(Stovicek)等人(代谢工程通信 (Metab.Eng.Comm.)，2015；2:13描述了工业用酵母诸如酿酒酵母的基因组编辑，以有效产生用于工业生产的有力菌株。斯迪维塞克使用了对酵母密码子优化的CRISPR-Cas9系统来同时破坏内源性基因的两个等位基因并且敲除异源基因。Cas9和gRNA由基因组或附加型2μ基载体位置表达。作者们还证实基因破坏效率可以通过优化Cas9和gRNA表达水平来提高。拉维瓦(Hlavová)等人(生物技术进展(Biotechnol.Adv.) 2015)讨论了使用诸如CRISPR的技术靶向核基因和叶绿体基因进行插入诱变和筛选来开发微藻种类或菌株。斯迪维塞克和拉维瓦的方法可以适用于本发明的Cpf1效应蛋白系统。

US 8945839描述了一种用于使用Cas9工程化微藻(莱茵衣藻细胞)种类)的方法。使用类似工具，在此所述的Cpf1 CRISPR系统的方法可以应用于衣藻属种类和其他藻类上。在特定实施例中，Cpf1 和指导RNA引入使用载体表达的藻类中，该载体在组成型启动子的控制下表达Cpf1，诸如Hsp70A-Rbc S2 或βBeta2-微管蛋白。指导RNA将使用含有T7启动子的载体递送。可替代地，Cpf1 mRNA和体外转录的指导RNA可以是递送至藻类细胞中。电穿孔方法遵循来自基因领域衣藻属工程化试剂盒的标准推荐方法。

使用Cpf1生成能够进行脂肪酸生产的微生物

在特定实施例中，本发明的方法用于生成能够产生脂肪酸酯诸如脂肪酸甲酯(“FAME”)和脂肪酸乙酯(“FAEE”)的遗传工程化微生物。

典型地，宿主细胞可以被工程化以通过表达或过表达编码硫酯酶的基因、编码酰基-CoA合酶的基因以及编码酯合酶的基因来由存在于培养基中的碳源诸如醇产生脂肪酸酯。因此，在此提供的方法用于修饰微生物，以便过表达或引入硫酯酶基因、编码脂酰CoA合酶的基因、以及编码酯合酶的基因。在特定实施例中，硫酯酶基因是选自tesA、'tesA、tesB,fatB、fatB2,fatB3,fatAl、或fatA。在特定实施例中，编码酰基-CoA合酶的基因是选自fadDJadK、BH3103、pfl-4354、EAV15023、fadDl、fadD2、RPC_4074、fadDD35、 fadDD22、faa39、或编码具有相同特性的酶的鉴定的基因。在特定实施例中，编码酯合酶的基因是编码来自以下各项的合酶/酰基-CoA:二酰基甘油酰基转移酶或其变体的基因：霍霍巴、不动杆菌属某种ADP、泊库岛食烷菌、铜绿假单胞菌、亚德海床杆菌(Fundibacter jadensis)、阿拉伯芥、或真养产碱杆菌。

另外地或可替代地，在此提供的方法用于减少以下各项中的至少一种基因在所述微生物中的表达：编码酰基-CoA脱氢酶的基因、编码外膜蛋白受体的基因、以及编码脂肪酸生物合成转录调节因子的基因。在特定实施例中，诸如通过引入突变来灭活这些基因中的一种或多种。

在特定实施例中，编码酰基-CoA脱氢酶的基因是fadE。在特定实施例中，编码脂肪酸生物合成的转录调节因子的基因编码DNA转录阻遏因子，例如fabR。

另外地或可替代地，所述微生物被修饰为减少以下各项中的至少一种基因的表达：编码丙酮酸甲酸裂解酶的基因、编码乳酸脱氢酶的基因或二者。在特定实施例中，编码丙酮酸甲酸裂解酶的基因是 pflB。在特定实施例中，编码乳酸脱氢酶的基因是IdhA。在特定实施例中，诸如通过在其中引入突变来灭活这些基因中的一种或多种。

在特定实施例中，微生物是选自埃希菌属、芽孢杆菌属、乳酸杆菌属、红球菌属、聚球蓝细菌属、集胞藻属(Synechoystis)、假单胞菌属、曲霉属、木霉属、链孢霉属、镰刀菌属、腐质霉属(Humicola)、根毛霉属、克鲁维酵母属、毕赤酵母属、毛霉菌属、蚀丝霉属、青霉菌属、平革菌属、侧耳属(Pleurotus)、栓菌属(Trametes)、金孢子菌属、酵母菌属、寡养单胞菌(Stenotrophamonas)、裂殖酵母属、亚罗酵母属或链霉菌属。

使用Cpf1生成能够进行有机酸生产的微生物

在此提供的方法进一步用于工程化能够更具体地说由戊糖或己糖生产有机酸的微生物。在特定实施例中，这些方法包括将外源性LDH基因引入到微生物中。在特定实施例中，所述微生物中的有机酸生产另外地或可替代地通过灭活编码涉及内源性代谢途径的蛋白质的内源性基因来增加，该代谢途径产生除感兴趣的有机酸之外的代谢物，并且/或者其中该内源性代谢途径消耗有机酸。在特定实施例中，该修饰确保减少除感兴趣的有机酸之外的代谢物的产生。根据特定实施例，这些方法用于引入其中消耗有机酸的内源性途径或编码涉及产生除感兴趣的有机酸之外的代谢物的内源性途径的产物的基因的至少一种工程化基因缺失和/或灭活。在特定实施例中，该至少一种工程化基因缺失或灭活是处于编码选自下组的酶的一种或多种基因中：丙酮酸脱羧酶(pdc)、延胡索酸还原酶、醇脱氢酶(adh)、乙醛脱氢酶、磷酸烯醇丙酮酸羧化酶(ppc)、D-乳酸脱氢酶(d-ldh)、L-乳酸脱氢酶(l-ldh)、乳酸2-单加氧酶。

在其他实施例中，该至少一种工程化基因缺失和/或灭活是处于编码丙酮酸脱羧酶(pdc)的内源性基因中。

在另外的实施例中，微生物被工程化以产生乳酸，并且该至少一种工程化基因缺失和/或灭活是处于编码乳酸脱氢酶的内源性基因中。另外地或可替代地，微生物包含至少一种工程化基因缺失或者编码细胞色素依赖性乳酸脱氢酶诸如细胞色素B2依赖性L-乳酸脱氢酶的内源性基因的灭活。

使用Cpf1生成改进的利用木糖或纤维二糖的酵母菌株

在特定实施例中，Cpf1 CRISPR系统可以用于选择改进的利用木糖或纤维二糖的酵母菌株。易错PCR可以用于扩增涉及木糖利用或纤维二糖利用途径的一种(或多种)基因。涉及木糖利用途径和纤维二糖利用途径的基因的实例可以包括但不限于，以下所述的那些：巴，S.J.(Ha,S.J.)等人，(2011)美国国家科学院院刊108(2):504-9和加拉兹卡，J.M.(Galazka,J.M.)等人，(2010)科学330(6000):84-6。各自在这种选择的基因中包含随机突变的双链DNA分子的所得文库可以与Cpf1 CRISPR系统的组分共转化到酵母菌株(例如S288C)中并且可以选择具有增加的木糖或纤维二糖利用能力的菌株，如WO2015138855所述的。

使用Cpf1生成用于类异戊二烯生物合成的改进的酵母菌株

达塔司杰克奇纳思(Tadas

)等人描述了多种CRISPR/Cas9系统在面包酵母酿酒酵母的一个转化步骤中用于基因组工程化多至5个不同基因组座位的成功应用(代谢工程第28卷，2015年3 月，第213-222页)，从而得到具有高甲羟戊酸酯(它是工业上重要的异戊二烯生物合成途径的关键性中间体)产量的菌株。在特定实施例中，Cpf1 CRISPR系统可以应用于如在此所述的用于鉴定在异戊二烯合成中使用的另外高产的酵母菌株的多种基因组工程化方法中。

使用Cpf1生成产乳酸酵母菌株

在另一个实施例中，涵盖多种Cpf1 CRISPR系统的成功应用。与弗罗茨瓦夫斯迪维塞克 (Vratislav Stovicek)等人(代谢工程通讯(Metabolic EngineeringCommunications)，第2卷，2015年12 月，第13-22页)类似地，改进的产乳酸菌株可以单一转化事件来设计并获得。在一个特定实施例中，Cpf1 CRISPR系统用于同时插入异源乳酸脱氢酶基因并破坏两个内源性基因PDC1和PDC5基因。

在植物中进一步应用Cpf1 CRISPR系统

在特定实施例中，CRISPR系统以及优选地在此所述的Cpf1 CRISPR系统可以用于可视化遗传元件动力学。例如，CRISPR成像可以可视化重复或非重复基因组序列，报道端粒长度变化和端粒移动，并且监控整个细胞周期中的基因座位动力学(陈等人，细胞，2013)。这些方法也可以适用于植物。

CRISPR系统以及优选地在此所述的Cpf1 CRISPR系统的其他应用是体外和体内靶向基因破坏阳性选择筛选(马利娜(Malina)等人，基因与发育(Genes and Development)，2013)。这些方法也可以适用于植物。

在特定实施例中，失活Cpf1内切核酸酶与组蛋白修饰酶的融合可以在复杂的表观基因组中引入自定义变化(鲁斯克(Rusk)等人，自然方法(Nature Methods)，2014)。这些方法也可以适用于植物。

在特定实施例中，CRISPR系统以及优选地在此所述的Cpf1 CRISPR系统可以用于纯化一个特定部分的染色质并且鉴定相关蛋白，从而阐明它们在转录中的调节作用(瓦尔锥普(Waldrip)等人，表观遗传学(Epigenetics)，2014)。这些方法也可以适用于植物。

在特定实施例中，本发明可以用在植物系统中的病毒清除疗法，因为它能够切割病毒DNA和 RNA。以前的人类系统研究已证明利用CRISPR靶向丙型肝炎的单链RNA病毒(A.·普里斯(A.Price)等人，美国国家科学院院刊，2015)以及乙型肝炎的双链DNA病毒(V.·拉曼那(V.Ramanan)等人，科技报告 (Sci.Rep)，2015)是成功的。这些方法还可以适于在植物中使用Cpf1 CRISPR系统。

在特定实施例中，本发明可以用于改变基因组复杂度。在另一个特定实施例中，CRISPR系统以及优选在此所述的Cpf1 CRISPR系统可以用于破坏或改变染色体数目并且生成仅含有来自一个母体的染色体的单倍体植物。此类植物可以被诱导以经受染色体复制并且被转化成仅含有纯合等位基因的二倍体植物(卡里米-阿石提亚尼(Karimi-Ashtiyani)等人，美国国家科学院院刊，2015；安东(Anton)等人，2014)。这些方法也可以适用于植物。

在特定实施例中，在此所述的Cpf1 CRISPR系统可以用于自切割。在这些实施例中，Cpf1酶和gRNA的启动子可以是组成型启动子并且第二gRNA被引入在相同转化盒中，但受到诱导型启动子的控制。此第二gRNA可以被设计以诱导Cpf1基因中的位点特异性切割，以便创建非功能性Cpf1。在另一个特定实施例中，第二gRNA在转化盒的两端诱导切割，从而使得该盒从宿主基因组中去除。此系统提供受控的细胞暴露于Cas酶的持续时间并且进一步最小化脱靶编辑。另外，CRISPR/Cas盒两端的切割可以用于生成具有双等位基因突变的无转基因T0植物(如对于Cas9所描述的，例如，摩尔(Moore)等人，核酸研究， 2014；舍费尔(Schaeffer)等人，植物科学，2015)。摩尔等人的方法可以适用于在此所述的Cpf1CRISPR 系统。菅野(Sugano)等人(植物生理学2014年3月；55(3):475-81.doi:10.1093/pcp/pcu014.电子版2014年 1月18日)报道了CRISPR-Cas9对于地钱属地钱(Marchantiapolymorpha L.)中的靶向诱导的应用，该地钱已做完用于研究陆生植物进化的模型种类。地钱的U6启动子被鉴定并克隆，以表达gRNA。gRNA的靶序列被设计为破坏编码地钱中的生长素响应因子1(ARF1)的基因。使用土壤杆菌介导的转化，菅野等人分类了配子体世代的地钱的稳定突变体。基于CRISPR-Cas9的体内定点诱变是使用表达Cas9的花椰菜花叶病毒35S或地钱EF1α启动子来实现的。显示生长素耐受表型的分离突变体个体是非嵌合的。此外，稳定的突变体是通过T1植物的无性繁殖来产生的。arf1复等位基因容易使用基于CRIPSR-Cas9的靶向诱变来建立。菅野等人的方法可以适用于本发明的Cpf1效应蛋白系统。

卡巴迪(Kabadi)等人(核酸研究，2014年10月29日；42(19):e147.doi:10.1093/nar/gku749.电子版2014年8月13日)开发了一种由通过常规金门(Golden Gate)克隆方法结合到载体中的独立RNA聚合酶III启动子表达Cas9变体、报道基因和多至四个sgRNA的单一慢病毒系统。每个sgRNA被有效地表达并且可以介导无限增殖细胞和原代人类细胞中的多重基因编辑和持续的转录激活。卡巴迪等人的方法可以适用于本发明的Cpf1效应蛋白系统。

林(Ling)等人(BMC植物生物学(BMC Plant Biology)2014，14:327)开发了一种基于pGreen 或pCAMBIA骨架以及gRNA的CRISPR-Cas9二元载体集合。此工具包不需要除BsaI之外的限制酶来在仅仅一个克隆步骤中以高效率生成具有玉米密码子优化的Cas9和一种或更多种gRNA的最终构建体。此工具包是使用玉米原生质体、转基因玉米品系和转基因拟南芥品系来验证的并且显示表现出高效率和高特异性。更重要地是，使用此工具包，检测T1代转基因幼苗中的三种拟南芥基因的靶向突变。此外，多个基因突变可以由下一代继承。(指导RNA)模块载体集合，作为用于植物多重基因组编辑的工具包。林等人的工具包可以适用于本发明的Cpf1效应蛋白系统。

用于经由CRISPR-Cpf1进行靶向植物基因组编辑的方案基于系列文献分子生物学方法 (Methods in Molecular Biology，第239-255页，2015年2月10日的)第1284卷中对于CRISPR-Cas9系统所披露的那些方法也是可用的。描述了使用阿拉伯芥和本塞姆氏烟草原生质体来设计、构建并评价植物密码子优化的Cas9(pcoCas9)介导的基因组编辑的双gRNA的详细程序。还讨论了在全株植物中应用 CRISPR-Cas9系统生成靶向基因组修饰的策略。在此章中描述的方案可以适用于本发明的Cpf1效应蛋白系统。

彼得森(Petersen)(“朝向精确乙二醇工程化植物(Towards precisely glycolengineered plants)”，植物生物技术丹麦年会(Plant Biotech Denmark Annualmeeting)2015，丹麦哥本哈根(Copenhagen, Denmark))开发了一种使用CRISPR/Cas9工程化拟南芥中的基因组变化以便例如乙二醇工程化拟南芥以用于生产具有所希望的翻译后修饰的蛋白质和产物的方法。赫布尔斯察普(Hebelstrup)等人(植物科学前沿 (FrontPlant Sci.)，2015年4月23日；6:247)列出了在植物中提供淀粉生物工程的农作物，这些农作物表达淀粉修饰酶并且直接产生通常通过工业化学处理和/或物理处理淀粉来制成的产物。彼得森和赫布尔斯察普的方法可以适用于本发明的Cpf1效应蛋白系统。

马(Ma)等人(分子植物(Mol Plant.)，2015年8月3日；8(8):1274-84.doi:10.1016/j.molp.2015.04.007)报道了利用植物密码子优化的Cas9基因以在单子叶植物和双子叶植物中方便且高效地进行多重基因组编辑的稳健CRISPR-Cas9载体系统。马等人设计了快速生成多个sgRNA表达盒的基于PCR的程序，这些表达盒可以在一轮克隆中通过金门连接或吉布森(Gibson)组装来组装到二元 CRISPR-Cas9载体中。使用此系统，马等人编辑了在具有平均85.4％突变率的稻米中的46个靶位点，这些突变大部分是处于双等位基因状态和纯合状态。马等人提供了通过同时靶向多个(多至八个)基因家族成员、生物合成途径中的多基因或者单一基因中的多个位点来进行T0稻米和T1拟南芥植物中的失功能基因突变的实例。马等人的方法可以适用于本发明的Cpf1效应蛋白系统。

劳德迩(Lowder)等人(植物生理学，2015年8月21日.pii:pp.00636.2015)还开发了一种能够在植物中对表达的基因、沉默的基因或非编码基因进行多重基因组编辑和转录调节的CRISPR-Cas9工具包。此工具包为研究者提供了使用金门克隆方法和通路(Gateway)克隆方法快速且有效地组装单子叶植物和双子叶植物的功能性CRISPR-Cas9T-DNA构建体的方案和试剂。它具有一套完整的能力，包括植物内源性基因的多重基因编辑和转录激活或阻遏。基于T-DNA的转化技术是现代植物生物技术、遗传学、分子生物学和生理学的基础。像这样，申请人开发了一种用于将Cas9(WT、切口酶或dCas9)和一种或多种gRNA 组装到感兴趣的T-DNA目标载体中的方法。组装方法是基于金门组装和多位点通路(MultiSite Gateway) 重组。对于组装需要三态模块。第一模块是含有无启动子Cas9或其侧接attL1和attR5位点的衍生物基因的 Cas9入门载体。第二模块是含有侧接attL5和attL2位点的入门gRNA表达盒的gRNA入门载体。第三模块包括为Cas9表达提供启动子选择的含attR1-attR2目标T-DNA载体。劳德迩等人的工具包可以适用于本发明的 Cpf1效应蛋白系统。

在一个有利实施例中，该植物可以是一种树。本发明还利用在此披露的CRISPRCas系统用于草本系统(例如，参见，贝尔哈吉(Belhaj)等人，植物方法(Plant Methods)9:39和哈里森(Harrison) 等人，基因与发育28:1859-1872)。在一个特别有利的实施例中，本发明的CRISPR Cas系统可以靶向树的单核苷酸多态性(SNP)(例如，参见，周等人，新植物学家(New Phytologist)，第208卷，第2期，第298-301 页，2015年10月)。在周等人的研究中，作者们在木质多年生杨树中使用4-香豆酸酯:CoA连接酶(4CL)基因家族作为个案研究来采用CRISPR Cas系统并且对于所靶向的两个4CL基因实现100％突变效率，其中每个转化株检查携带的双等位基因修饰。在周等人的研究中，CRISPR-Cas9系统对于单核苷酸多态性(SNP) 高度敏感，因为对第三4CL基因的切割因靶序列中的SNP而消除。这些方法可以适用于本发明的Cpf1效应蛋白系统。

周等人的方法(新植物学家，第208卷，第2期，第298-301页，2015年10月)可以如下地适用于本发明。对于CRISPR-Cas9编辑，靶向分别与木质素和黄酮类生物合成相关联的两种4CL基因4CL1和 4CL2。通常用于转化的欧洲山杨×银白杨(Populus tremula×alba)克隆717-1B4是与基因组测序的毛果杨趋异的。因此，由参考基因组设计的4CL1和4CL2gRNA用内部717RNA-序列数据探察，以确保不存在可能限制Cas效率的SNP。还包括对于4CL1的基因组复制物4CL5设计的第三gRNA。相应717序列在PAM附近 /内部的每个等位基因中具有一个SNP，等位基因二者预期消除了由4CL5-gRNA进行的靶向。所有三个 gRNA靶向位点都是位于第一外显子内。对于717转化，gRNA由苜蓿属U6.6启动子表达，连同在二元载体内的CaMV 35S启动子控制下表达人类密码子优化的Cas。使用仅Cas的载体的转化可以充当对照。随机选择的4CL1和4CL2品系经受扩增子测序。然后处理数据并且确认所有情况中的双等位基因突变。这些方法可以适用于本发明的Cpf1效应蛋白系统。

在植物中，病原体常常是宿主特异性的。例如，尖孢镰刀菌某种番茄专化型(Fusarium oxysporum f.sp.lycopersici)引起番茄枯萎病但仅攻击番茄，而尖孢镰刀菌某种柄锈菌小麦专化型(F. oxysporum f.dianthii Puccinia graminis f.sp.tritici)仅攻击小麦。植物具有现存和诱导的防卫以抵抗大部分病原体。跨植物各代的突变和重组事件导致引起易感性的遗传变异性，特别是当病原体以比植物更大频率繁殖时。在植物中，可以存在非宿主抗性，例如，宿主和病原体是不相容的。还可以存在典型地受到许多基因控制的水平抗性，例如针对所有病原体种族的部分抗性，以及典型地受到几种基因控制的垂直抗性，例如对一些病原体种族而不是其他种族的竞争性抗性。在基因对基因的水平中，植物和病原体一起进化，并且在一者中的遗传变化与另一者中的变化平衡。因此，使用自然变异，培育者组合大部分对于产量、品质、均匀性、抵抗力、抗性的可用基因。抗性基因的来源包括天然或外来品种、祖传品种、野生植物近缘种、以及诱发突变，例如用诱变剂处理植物材料。使用本发明，为植物育种者提供一种诱导突变的新工具。因此，本领域技术人员可以分析抗性基因来源的基因组，并且在具有所希望的特征或性状的品种中采用本发明诱导产生抗性基因，这具有比先前的诱变剂更大的精确度，并且因此加速并改进植物育种程序。

改进的植物和酵母细胞

本发明还提供了通过在此所述的方法可获得并通过这些方法获得的植物和酵母细胞。通过在此所述的方法获得的改进的植物可以适用于通过表达确保例如对植物害虫、除草剂、干旱、低温或高温、过量水等耐受的基因来进行食品或饲料生产。

通过在此所述的方法获得的改进的植物，具体地是农作物和藻类可以适用于通过表达例如比野生型中通常所见更高的蛋白质、碳水化合物、营养素或维生素水平来进行食品或饲料生产。就这一点而言，改进的植物，具体地是豆类和块茎类是优选的。

改进的藻类或其他植物诸如芸苔可以例如特别适用于生产植物油或生物燃料诸如醇(具体地是甲醇和乙醇)。这些藻类可以被工程化以表达或过量表达用于油或生物燃料工业中的高水平油或醇。

本发明还提供了改进的植物部分。植物部分包括但不限于，叶、茎、根、块茎、种子、胚乳、胚珠、以及花粉。如在此所设想的植物部分可以是有活力的、无活力的、可再生的、和/或不可再生的。

在此还涵盖的是提供根据本发明的方法生成的植物细胞和植物。在本发明的范围内还包括通过传统育种方法产生的含有遗传修饰的植物的配子、种子、胚胎(合子胚或体细胞胚)、子代或杂种。此类植物可以含有插入在靶序列处或代替靶序列的异源或外源DNA序列。可替代地，此类植物可以仅含有在一个或多个中的变化(突变、缺失、插入、取代)。这样，此类植物与祖代植物的不同之处仅在于特定修饰的存在。

因此，本发明提供了通过本发明产生的植物、动物或细胞、或其子代。该子代可以是产生的植物或动物的克隆，或者可以由通过与相同种类的其他个体杂交以使另外希望的性状渗入其后代来进行的有性繁殖产生。在多细胞生物体(具体的是动物或植物)的情况下，该细胞可以是体内或离体的。

Cpf1效应蛋白复合物可以用于非人类生物体/动物

在一个方面中，本发明提供了一种非人类真核生物体；优选地是多细胞真核生物体，这些生物体包含根据任何所述实施例的真核宿主细胞。在其他方面中，本发明提供了一种真核生物体；优选地是多细胞真核生物体，这些生物体包含根据任何所述实施例的真核宿主细胞。在这些方面的一些实施例中，该生物体可以是动物；例如，哺乳动物。而且，该生物体可以是节肢动物，诸如昆虫。生物体还可以是植物。另外，生物体可以是真菌。

本发明还可以扩展到其他农业应用，例如像农场和生产动物。例如，猪具有许多特征，这些特征使得它们作为生物医学模型是有吸引力的，尤其是在再生医学中。具体地说，具有重症联合免疫缺陷 (SCID)的猪可以提供用于再生医学、异种移植(也在此的其他位置讨论)以及肿瘤发展的有用模型并且将有助于开发用人类SCID患者的治疗。李等人(美国国家科学院院刊，2014年5月20日；111(20):7260-5) 利用一种报道基因指导的转录激活因子样效应核酸酶(TALEN)系统，以高效率生成体细胞中的重组激活基因(RAG)2的靶向修饰，包括影响两种等位基因的一些修饰。Cpf1效应蛋白可以适用于一种类似的系统。

李等人的方法(美国国家科学院院刊，2014年5月20日；111(20):7260-5)可以与如下类似地适用于本发明。突变的猪是通过靶向修饰胎儿成纤维细胞中的RAG2，随后进行SCNT和胚胎转移来产生的。编码CRISPR Cas和报道基因的构建体被电穿孔到胎儿来源的成纤维细胞中。在48h后，表达绿色荧光蛋白的转染细胞以估计每孔一个单一细胞的稀释分到96孔板的单个孔中。RAG2的靶向修饰是通过扩增侧接任何CRISPR Cas切割位点的基因组DNA片段随后对PCR产物进行测序来筛选的。在筛选并确保不存在位点外突变之后，将携带RAG2的靶向修饰的细胞用于SCNT。去除极体连同卵母细胞的一部分相邻细胞质(推测含有中期II板)，并且使供体细胞置于卵黄周隙中。然后电穿孔重构的胚胎，以将供体细胞与卵母细胞融合，并且然后化学激活。将激活的胚胎在具有0.5μM Scriptaid(S7817；西格马阿德里奇公司)猪受精卵培养基 (Porcine Zygote Medium)3(PZM3)中孵育14-16h。然后洗涤胚胎以去除Scriptaid并且在PZM3中培养，直到它们转移到代孕猪的输卵管为止。

本发明还可应用于修饰其他动物诸如牛的SNP。塔恩(Tan)等人(美国国家科学院院刊，2013 年10月8日；110(41):16526-16531)使用质粒、rAAV和寡核苷酸模板扩增家畜基因编辑工具包，以包括转录激活因子样(TAL)效应核酸酶(TALEN)和成簇规律间隔短回文重复序列(CRISPR)/Cas9-刺激性同源定向修复(HDR)。根据他们的方法将基因特异性gRNA序列克隆到丘奇实验室(Church lab)gRNA载体 (Addgene ID:41824)中(马里·P(Mali P)等人，(2013)经由Cas9进行RNA指导的人类基因组工程化 (RNA-Guided Human GenomeEngineering via Cas9)。科学339(6121):823-826)。Cas9核酸酶是通过共转染 hCas9质粒(Addgene ID:41815)或由RCIScript-hCas9合成的mRNA来提供的。此RCIScript-hCas9是通过将来自hCas9质粒(涵盖hCas9 cDNA)的XbaI-AgeI片段亚克隆到RCIScript质粒中来构建。

霍(Heo)等人(干细胞与发育(Stem Cells Dev.)，2015年2月1日；24(3):393-402.doi: 10.1089/scd.2014.0278.电子版2014年11月3日)报道了在牛基因组中使用牛多能细胞和成簇规律间隔短回文重复序列(CRISPR)/Cas9核酸酶的高效基因靶向。首先，霍等人通过异位表达山中因子(yamanaka factor) 并且进行GSK3β和MEK抑制剂(2i)处理来由牛体成纤维细胞生成诱导的多能干细胞(iPSC)。霍等人观察到，这些牛iPSC在畸胎瘤的基因表达和发育潜力方面高度类似于天然多能干细胞。此外，对于牛NANOG 座位特异的CRISPR-Cas9核酸酶在牛iPSC和胚胎的牛基因组中显示高度有效的编辑。

提供了一种对诸如牛的动物执行并传播经济上重要的经济性状的性状的谱图分析，这些性状诸如胴体组成、胴体质量、母体和繁殖性状以及平均日增重。综合性

谱图的分析以DNA标记物(最常是单核苷酸多态性或SNP)的发现开始。在

谱图之后的所有标记物是通过科研机构的独立科学家发现的，这些研究机构包括大学、研究团体以及政府机构诸如USDA。然后在验证群体中分析

的标记物。

使用代表各种生产环境和生物类型的多种资源种群，通常与来自牛肉产业的种畜、母犊牛、饲育场和/或包装部门的行业伙伴一起工作，以收集不能普遍获得的表型。牛基因组数据库是广泛可用的，例如，参见NAGRP牛基因组协调程序(http://www.animalgenome.org/cattle/maps/db.html)。因此，本发明可以适用于靶向牛SNP。本领域技术人员可以利用用于靶向SNP的以上方案并且将它们应用于牛SNP，例如，如塔恩等人或霍等人所述的。

清涧·邹(Qingjian Zou)等人(分子细胞生物学杂志(Journal of MolecularCell Biology)，在 2015年10月12日在线先行公开)证明通过靶向狗肌生成抑制蛋白(MSTN)基因的第一外显子(骨骼肌质量的负调节物)增加狗的肌肉质量。首先，通过将sgRNA靶向的MST与Cas9载体共转染到犬胚胎成纤维细胞(CEF)来验证sgRNA的效率。之后，通过微注射具有正常形态学的胚胎与Cas9 mRNA和MSTN sgRNA 的混合物并且将受精卵自身移植到同一母狗的输卵管来生成MSTN KO狗。与其野生型同窝出生母狗相比，敲除小狗在大腿上显示明显的肌肉表型。这也可以使用在此提供的Cpf1 CRISPR系统来进行。

家畜-猪

在一些实施例中，家畜中的病毒靶标可以包括猪CD163，例如在猪巨噬细胞上。CD163与 PRRSv(猪繁殖与呼吸综合征病毒，它是一种动脉炎病毒)的感染(认为是通过病毒细胞侵入)相关联。 PRRSv的感染，特别是对猪肺泡巨噬细胞(可见于肺中)的感染导致先前不能治愈的猪综合征(“神秘病” 或“蓝耳病”)，从而使得家猪遭受(包括)生殖障碍、体重减轻和高死亡率。常常可见机会性感染诸如流行性肺炎、脑膜炎和耳肿胀，这是因为通过巨噬细胞活性丧失会引起免疫缺陷。由于抗生素使用的增加和经济损失(估计每年660百万美元)，这也具有重大的经济和环境影响。

如密苏里大学(University of Missouri)的克莉丝汀·W·惠特沃思和兰德尔·普莱瑟(Randall Prather)博士等人与Genus公司合作(自然生物技术3434，2015年12月07日在线公开)报道的，使用 CRISPR-Cas9靶向CD163并且编辑的猪的后代当暴露于PRRSv时是有抗性的。在CD163的外显子7中均具有突变的一个雄性起始者和一种雌性起始者二者繁殖产生后代。雄性起始者在等位基因的外显子7中具有 11-bp的缺失，这导致移码突变以及结构域5中的氨基酸45的错义翻译和氨基酸64处的后一个提前终止密码子。另一个等位基因具有外显子7中的2-bp添加和前述内含子中的377-bp缺失，这被预测为引起结构域5的前49个氨基酸的表达，随后是在氨基酸85处的提前终止密码子。母猪在一个等位基因中具有7bp添加，该添加在翻译时预测表达结构域5的前48个氨基酸，随后是在氨基酸70处的提前终止密码子。母猪的另一个等位基因是不可扩增的。预测选定的后代是无效突变动物(CD163-/-)，即CD163敲除。

因此，在一些实施例中，猪肺泡巨噬细胞可以被CRISPR蛋白靶向。在一些实施例中，猪CD163 可以被CRISPR蛋白靶向。在一些实施例中，猪CD163可以通过诱导DSB或通过插入或缺失来敲除，例如靶向外显子7的缺失或修饰，包括以上所述的那些缺失或修饰中的一种或多种，或者在该基因的其他区域中，例如外显子5的缺失或修饰。

还设想了一种编辑的猪及其子代，例如CD163敲除猪。这可以是出于家畜、育种或建模目的 (即，猪模型)。还提供了包含基因敲除的精液。

CD163是清道夫受体富含半胱氨酸(SRCR)超家族的成员。基于体外研究，蛋白质的SRCR 结构域5是负责启封和释放病毒基因组的结构域。这样，也可以靶向SRCR超家族的其他成员，以便评定对其他病毒的抗性。PRRSV也是哺乳动物动脉炎病毒组的成员，该病毒组还包括鼠科乳酸脱氢酶病毒、猴出血热病毒以及马动脉炎病毒。这些动脉炎病毒享有重要的发病机理特征，包括巨噬细胞向性和引起严重疾病和持续感染二者的能力。因此，动脉炎病毒以及具体地乳酸脱氢酶病毒、猴出血热病毒和马动脉炎病毒可以例如通过猪CD163或其在其他种类中的同源物，并且还提供鼠科、猴和马的模型以及敲除。

实际上，此方法可以扩展到引起其他家畜疾病且可以传播到人类的病毒或细菌，诸如猪流感病毒(SIV)菌株，包括丙型流感和称为H1N1、H1N2、H2N1、H3N1、H3N2以及H2N3的甲型流感亚型，以及以上提及的肺炎、脑膜炎和水肿。

使用RNA-指导的Cpf1效应蛋白复合物进行治疗性靶向

如将清楚的，设想的是本发明系统可以用于靶向任何感兴趣的多核苷酸序列。本发明提供了一种非天然存在的或工程化的组合物、或编码所述组合物的组分的一种或多种多核苷酸、或含有编码所述组合物的组分一种或多种多核苷酸的载体或递送系统，其用于体内、离体或体外修饰靶细胞并且该修饰可以改变细胞使得一旦修饰，CRISPR修饰细胞的子代或细胞系保留改变的表型的方式实施。这些修饰的细胞和子代可以是多细胞生物体的一部分，诸如在将CRISPR系统应用于所希望的细胞类型的情况下的植物或动物。CRISPR发明可以是一种治疗性治疗方法。治疗性治疗方法可以包括基因或基因组编辑，或基因治疗。

治疗病原体，如细菌、真菌和寄生虫病原体

本发明还可以适用于治疗细菌、真菌和寄生虫病原体。大部分研究工作集中于开发新的抗生素，然而一旦开发，就会经受相同的抗药性问题。本发明提供了克服这些困难的新型基于CRISPR的替代方案。另外，与现存的抗生素不同，基于CRISPR的治疗可以是制成病原体特异性的，从而诱导靶病原体的细菌细胞死亡同时避免有益细菌死亡。

蒋(Jiang)等人(“使用CRISPR-Cas对细菌基因组进行RNA指导编辑(RNA-guidedediting of bacterial genomes using CRISPR-Cas systems)”，自然生物技术，第31卷，第233-9页，2013年3月)使用一种CRISPR-Cas9系统来突变或杀死肺炎链球菌或大肠杆菌。将精确突变引入到基因组中的工作依赖于靶基因组位点处的双-RNA:Cas9-引导的切割以杀死未突变细胞，并且不再需要选择标记物或反选择系统。 CRISPR系统已用于逆转抗生素抗性并且消除各菌株之间的抗性转移。比克考尔德(Bickard)等人证实重编程序以靶向致病基因的Cas9杀死了致命的金黄色葡萄球菌而不是无毒的金黄色葡萄球菌。将核酸酶重编程序以靶向抗生素抗性基因，破坏了具有抗生素抗性基因的葡萄球菌质粒并且针对质粒携带的抗性基因的传播进行免疫。(参见，比卡尔德(Bikard)等人，“探索产生序列特异性抗微生物剂的CRISPR-Cas核酸酶 (Exploiting CRISPR-Cas nucleases to producesequence-specific antimicrobials)”，自然生物技术，第32卷， 1146-1150,doi:10.1038/nbt.3043，2014年10月05日在线公开)。比卡尔德证实CRISPR-Cas9抗微生物剂在体内起到杀死老鼠皮肤定位模型中的金黄色葡萄球菌的作用。类似地，优素福(Yosef)等人使用一种CRISPR 系统来靶向编码赋予β内酰胺类抗生素抗性的酶的基因(参见优素福等人，“编程以敏化并杀死抗生素抗性细菌的温和和烈性噬菌体(Temperate and lyticbacteriophages programmed to sensitize and kill antibiotic-resistantbacteria)”，美国国家科学院院刊，第112卷，第7267-7272页，doi:10.1073/pnas.1500107112， 2015年5月18日在线公开)。

CRISPR系统可以用于编辑对其他遗传方法具有抗性的寄生虫基因组。例如，已显示一种 CRISPR-Cas9系统能将双链断裂引入到约氏疟原虫基因组(参见，张等人，“使用CRISPR/Cas9系统有效编辑疟原虫基因组(Efficient Editing of Malaria ParasiteGenome Using the CRISPR/Cas9 System)”，mBio.，第 5卷，e01414-14，2014年7月-8月)。古尔巴尔(Ghorbal)等人(“使用CRISPR-Cas9系统在人类疟原虫镰状疟原虫中进行基因组编辑(Genome editing in the human malaria parasite Plasmodium falciparumusingthe CRISPR-Cas9 system)”，自然生物技术，第32卷，第819-821页，doi:10.1038/nbt.2925，2014年6月1日在线公开)修饰了两种基因orc1和kelch13的序列，这两种基因分别在基因沉默和形成对青蒿素的抗性中具有推定的作用。尽管对于该修饰没有直接选择，但是在适当位点改变的寄生虫以极高效率恢复，这表明使用此系统可以生成中性突变或甚至有害突变。CRISPR-Cas9还用于修饰其他致病性寄生虫的基因组，包括刚地弓形虫(参见沈等人，“使用CRISPR/CAS9在刚地弓形虫的不同菌株中进行有效基因破坏(Efficientgene disruption in diverse strains of Toxoplasma gondii using CRISPR/CAS9)”，mBio，第5卷:e01114-14,2014；以及西迪克(Sidik)等人，“使用CRISPR/Cas9进行刚地弓形虫的有效基因组工程化(Efficient Genome Engineering of Toxoplasma gondii UsingCRISPR/Cas9)”，公共科学图书馆综合，第9卷，e100450,doi: 10.1371/journal.pone.0100450，2014年6月27日在线公开)。

维亚斯(Vyas)等人(“白色念珠菌CRISPR系统允许对必需基因和基因家族进行遗传工程化 (A Candida albicans CRISPR system permits genetic engineering ofessential genes and gene families)”，科学进展(Science Advances)，第1卷，e1500248,DOI:10.1126/sciadv.1500248，2015年4月3日)采用一种CRISPR 系统来克服白色念珠菌中长期存在的遗传工程化障碍并且在几种不同基因的两个拷贝的单一实验中进行有效突变。在其他几种机制促成抗药性的有机体中，维亚斯产生不再显示母体临床分离物Can90显示的对氟康唑或放线菌酮的抗性的纯合双突变体。维亚斯还通过创建条件等位基因来获得白色念珠菌的必需基因中的纯合的失功能突变。对于核糖体RNA加工所需要的DCR1无效等位基因在低温下是致命的，但是在高温下是可存活的。维亚斯使用一种引入无效突变的修复模板和不能在16℃下生长的分离的dcr1/dcr1突变体。

本发明的CRISPR系统通过破坏染色体座位来用于镰状疟原虫中。古尔巴尔等人(“使用 CRISPR-Cas9系统在人类疟原虫镰状疟原虫中进行基因组编辑”，自然生物技术，32,819-821(2014),DOI: 10.1038/nbt.2925，2014年6月1日)采用一种CRISPR系统来在疟疾基因组中引入特异性基因敲除和单一核苷酸取代。为了使CRISPR-Cas9系统适于镰状疟原虫，古尔巴尔等人生成在也携带药物选择标记物ydhodh 的pUF1-Cas9附加体中的疟原虫调节元件控制下并且用于转录sgRNA的表达载体，该附加体给予对一种镰状疟原虫二氢乳清酸脱氢酶(PfDHODH)抑制剂DSM1的抗性，使用镰状疟原虫U6小核(sn)RNA调节元件，将用于同源重组修复的指导RNA和供体DNA模板置于相同质粒pL7上。还参见，张·C.等人(“使用CRISPR/Cas9系统有效编辑疟原虫基因组(Efficient editing of malaria parasitegenome using the CRISPR/Cas9 system)”，MBio，2014年7月1日；5(4):E01414-14,doi:10.1128/MbIO.01414-14)和瓦格纳等人(“镰状疟原虫中的有效CRISPR-Cas9介导的基因组编辑(Efficient CRISPR-Cas9-mediated genome editing in Plasmodiumfalciparum)”，自然方法11,915-918(2014),DOI:10.1038/nmeth.3063)。

治疗病原体，如病毒病原体，诸如HIV

Cas-介导的基因组编辑可以用于在躯体组织中引入保护性突变，以对抗非遗传性疾病或复杂疾病。例如，淋巴细胞中NHEJ-介导的CCR5受体灭活(隆巴尔多(Lombardo)等人，自然生物技术，2007 年11月；25(11):1298-306)可以是用于避免HIV感染的可行策略，而PCSK9(科恩(Cohen)等人，自然遗传学，2005年2月；37(2):161-5)或血管生成素(木苏努鲁(Musunuru)等人，新英格兰医学杂志，2010 年12月2日；363(23):2220-7)的缺失可以提供针对具有他汀类抗性的血胆固醇过多或高血脂症的治疗作用。尽管这些靶标也可以使用siRNA介导的蛋白质敲低来解决，但是NHEJ介导的基因失活优点是实现永久性治疗益处而不需要持续治疗的能够。正如所有基因治疗一样，确定每个提出的治疗性用途具有有利的益处- 危险比率当然是重要的。

将编码Cas9和指导RNA的质粒DNA连同修复模板一起流体动力学递送到酪氨酸血症成年小鼠模型的肝脏中，已显示此递送能够校正突变体Fah基因并且在约250分之一个细胞中挽救野生型Fah蛋白质的表达(自然生物技术，2014年6月；32(6):551-3)。另外，临床试验成功地使用ZF核酸酶，通过离体敲除CCR5受体来对抗HIV感染。在所有患者中，HIVDNA水平降低，并且在四分之一的患者中，HIV RNA 变得不可检测(特巴斯(Tebas)等人，新英格兰医学杂志，2014年3月6日；370(10):901-10)。这两种结果都表明了可编程核酸酶作为一种新治疗平台的希望。

在另一个实施例中，自灭活慢病毒载体可以用于并且/或者适于本发明的CRISPR-Cas系统，该自灭活慢病毒载体具有靶向由HIV tat/rev共享的共有外显子的siRNA、核仁定位TAR诱饵、和抗CCR5特异性锤头状核酶(例如，参见，迪吉斯托等人(2010)科学转化医学2:36ra43)。可以收集最少2.5×10⁶个CD34+ 细胞/每千克患者体重并且以2×10⁶个细胞/ml的密度在X-VIVO 15培养基(龙沙公司)中预刺激16至20小时，该培养基含有2μmol/L-谷氨酰胺、干细胞因子(100ng/ml)、Flt-3配体(Flt-3L)(100ng/ml)和促血小板生成素(10ng/ml)(CellGenix公司)。可以用慢病毒以感染复数5在75-cm²的包被有纤连蛋白(25mg/cm²) (重组人纤维连接片断(RetroNectin)，宝生物工程株式会社)的组织培养瓶中转导预刺激的细胞16至24 小时。

通过本领域的知识和本披露中的教义，技术人员可以校正HSC至免疫缺陷条件，诸如 HIV/AIDS，包括使HSC与靶向并敲除CCR5的CRISPR-Cas9系统接触。靶向并敲除含有CCR5-和-Cpf1蛋白的粒子的指导RNA(以及有利地双指导方法，例如一对不同的指导RNA；例如，靶向原代人类CD4+T细胞和CD34+造血干细胞以及祖细胞(HSPC)中的两种临床相关基因B2M和CCR5的指导RNA)与HSC接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚(Cartier)。还参见，凯门(Kiem)，“用于 HIV疾病的基于造血干细胞的基因治疗(Hematopoietic stem cell-based gene therapy for HIV disease)”，细胞干细胞(Cell Stem Cell.)，2012年2月3日；10(2):137-147；该文献连同其引用的文献一起通过引用结合在此；曼达尔(Mandal)等人，“使用CRISPR/Cas9有效消除人类造血干细胞和效应细胞中的基因(Efficient Ablation of Genes in Human Hematopoietic Stem andEffector Cells using CRISPR/Cas9)，”细胞干细胞，第15 卷，第5期，第643-652页，2014年11月6日；该文献连同其引用的文献一起通过引用结合在此。还参考“通过编辑HIV-1整合的前病毒DNA来抑制HIV-1表达的CRISPR/Cas9系统(CRISPR/Cas9 system to suppressHIV-1expression by editing HIV-1integrated proviral DNA)”科技报告|3:2510|DOI:10.1038/srep02510，该文献连同其所引用的文献一起通过引用结合在此，作为用于使用CRISPR-Cpf1系统对抗HIV/AIDS的另一种方式。

用于HIV治疗的基因组编辑的基本原理起源于以下观察：对于CCR5(病毒的细胞共受体)中的失功能突变纯合的个体对感染具有高抗性并且以其他方式获得健康，这表明通过基因组编辑模拟此突变可能是一种安全且有效的治疗策略[刘，R.等人，细胞86,367-377(1996)]。当HIV感染的患者被给予来自对失功能CCR5突变纯合的供体的同种异体骨髓移植，从而导致不可检测的HIV水平和正常CD4 T细胞计数的恢复时，这个想法在临床上得到证实[胡特尔，G.(Hutter,G.)等人，新英格兰医学杂志(The New England journal ofmedicine)360,692-698(2009)]。尽管骨髓移植对于大部分HIV患者而言由于成本和潜在移植物对抗宿主疾病而是不现实的治疗策略，但将患者自身T细胞转化为CCR5的HIV治疗则是希望的。

使用ZFN和NHEJ敲除人源化小鼠HIV模型中的CCR5的早期研究显示CCR5编辑的CD4T细胞的移植提高了病毒载量和CD4 T-细胞计数[佩雷斯，E.E.(Perez,E.E.)等人，自然生物技术26,808-816 (2008)]。重要的是，这些模型还显示HIV感染导致CCR5裸细胞的选择，这表明编辑赋予了适合的优点并且潜在地允许少量编辑的细胞形成治疗效果。

作为这个研究和其他希望的临床前研究的结果，现在已在人类中测试了敲除人类T细胞中的 CCR5的基因组编辑治疗[霍尔特，N.(Holt,N.)等人，自然生物技术28,839-847(2010)；李，L.等人，分子治疗：美国基因治疗协会杂志(Molecular therapy:the journalof the American Society of Gene Therapy)21, 1259-1269(2013)]。在最近的I期临床试验中，来自患有HIV的患者的CD4+T细胞被去除，用设计敲除CCR5 基因的ZFN编辑，并且自身移植回到患者中[特巴斯，P.等人，新英格兰医学杂志370,901-910(2014)]。

在另一个研究(曼达尔等人，细胞干细胞，第15卷，第5期，第643-652页，2014年11月6日) 中，CRISPR-Cas9已靶向人类CD4+T细胞和CD34+造血干细胞和祖细胞(HSPC)中的两种临床相关基因 B2M和CCR5。使用单一RNA指导序列引起HSPC中而不是T细胞中的高效诱变。双重指导方法提高了两种细胞类型中的基因缺失效力。经受使用CRISPR-Cas9的基因组编辑的HSPC保留多谱系潜能。预测的中靶和脱靶突变是经由HSPC中的靶序列测序来检查的并且低水平的脱靶诱变仅在一个位点处观察到。这些结果表明CRISPR-Cas9可以有效消除HSPC中具有最小脱靶诱变的基因，这些HSPC对于具有基于造血细胞的治疗具有广泛的适用性。

王等人(公共科学图书馆综合，2014年12月26日；9(12):e115987.doi: 10.1371/journal.pone.0115987)使用表达CRISPR相关蛋白9(Cas9)和CCR5指导RNA的慢病毒载体经由Cas9 和单一指导RNA(指导RNA)来沉默CCR5。王等人证实表达Cas9和CCR5指导RNA的慢病毒载体到HIV-1 易感性人类CD4+细胞中的单轮转导产生高频率的CCR5基因破坏。CCR5基因破坏的细胞不仅抵抗R5-向性 HIV-1，包括传输/起始者(T/F)HIV-1分离株，而且在R5-向性HIV-1感染过程中比CCR5基因未破坏细胞具有选择优势。与在甚至转导后84天仍稳定转导的细胞中的这些CCR5指导RNA高度同源的潜在脱靶位点处的基因组突变通过T7内切核酸酶I测定未检测到。

法恩(Fine)等人(科技报告，2015年7月1日；5:10777.doi:10.1038/srep10777)鉴定了一种表达化脓链球菌Cas9(SpCas9)蛋白片段的双盒系统，这些蛋白片段在细胞中拼接在一起形成能够进行位点特异性DNA切割的功能蛋白。使用特定CRISPR指导链，法恩等人证明此系统作为单一Cas9并且作为一对Cas9切割酶来切割人类HEK-293T细胞内的HBB和CCR5基因的效力。反式拼接的SpCas9(tsSpCas9)与野生型SpCas9(wtSpCas9)相比在标准转染剂量下展示～35％的核酸酶活性，但是在较低给药剂量下具有基本上降低的活性。tsSpCas9相对于wtSpCas9大大减小的开放阅读框长度潜在地允许更复杂且更长的遗传元件包装到AAV载体中，包括组织特异性启动子、多重指导RNA表达、以及与SpCas9的效应子结构域融合物。

李等人(普通病毒学杂志(J Gen Virol.)，2015年8月；96(8):2381-93.doi:10.1099/vir.0.000139.电子版2015 年4月8日)证明CRISPR-Cas9可以有效介导细胞系中的CCR5座位的编辑，从而导致细胞表面上的CCR5表达的敲除。下一代测序揭示在预测的CCR5切割位点周围引入了不同的突变。对于所分析的三种最有效的指导RNA中的每一种，在15个最高得分的潜在位点处未检测到脱靶效应。通过构建携带CRISPR-Cas9组分的嵌合Ad5F35腺病毒，李等人有效转导原代CD4+T-淋巴细胞并且破坏CCR5表达，并且正性转导细胞被赋予了HIV-1抗性。

本领域技术人员可以利用例如霍尔特，N.等人，自然生物技术28,839-847(2010)；李，L.等人，分子治疗：美国基因治疗协会杂志21,1259-1269(2013)；曼达尔等人，细胞干细胞，第15卷，第5期，第643-652页，2014年11月6日；王等人(公共科学图书馆综合，2014年12月26日；9(12):e115987.doi: 10.1371/journal.pone.0115987)；法恩等人(科技报告，2015年7月1日；5:10777.doi:10.1038/srep10777)以及李等人(普通病毒学杂志，2015年8月；96(8):2381-93.doi:10.1099/vir.0.000139.电子版2015年4月8日) 的以上研究用于使用本发明的CRISPR Cas系统靶向CCR5。

治疗病原体，如病毒病原体，诸如HBV

本发明还可以适用于治疗乙型肝炎病毒(HBV)。然而，CRISPR Cas系统必须适于通过例如优化剂量和序列来避免RNAi的缺点，诸如过度紧张的(oversatring)内源性小RNA途径的风险(例如，参见，格林姆(Grimm)等人，自然，第441卷，2006年5月26日)例如，考虑诸如每位人类约1-10×10¹⁴个粒子的低剂量。在另一个实施例中，针对HBV的CRISPR Cas系统可以脂质体诸如稳定的核酸脂质粒子(SNALP)来给予(例如，参见，莫里西等人，自然生物技术，第23卷，第8期，2005年8月)。考虑了每日静脉内注射约1、3或5mg/kg/天的靶向SNALP中的HBV RNA的CRISPR Cas。日治疗可以经过约三天，并且然后每周治疗持续约五周。在另一个实施例中，陈等人(基因治疗(2007)14,11-19)的系统可以用于并且/或者适于本发明的CRISPR Cas系统。陈等人使用双链腺相关病毒8-假病毒载体(dsAAV2/8)递送 shRNA。单次给予携带HBV-特异性shRNAA的dsAAV2/8载体(每只小鼠1×10¹²个载体基因组)有效抑制HBV转基因小鼠肝脏中的HBV蛋白、mRNA和复制DNA的稳定水平，从而使得循环中的HBV载量降低多至 2-3log₁₀。在载体给予后显著HBV抑制持续至少120天。shRNA的治疗效果是靶序列依赖性的并且并不涉及干扰素激活。对于本发明，针对HBV的CRISPR Cas系统可以克隆到AAV载体诸如dsAAV2/8载体中并且例如以每位患者约1×10¹⁵个载体染色体至约1×10¹⁶个载体染色体的剂量给予。在另一个实施例中，伍德尔 (Wooddell)等人(分子治疗，第21卷，第5期，973-985，2013年5月)的方法可以用于并且/或者适于本发明的CRISPR Cas系统。伍德尔等人还证实肝细胞靶向的N-乙酰半乳糖胺轭合的蜂毒肽样肽(NAG-MLP) 与肝脏向性胆固醇轭合的siRNA(chol-siRNA)靶向性凝血因子VII(F7)的简单共注射引起小鼠和非人类灵长类动物中的有效F7敲低而不会有临床化学变化或细胞因子的诱导。使用HBV感染的瞬时和转基因小鼠模型，伍德尔等人证实NAG-MLP与靶向保守性HBV序列的强效chol-siRNA的单次共注射引起病毒RNA、蛋白质和病毒DNA的复对数抑制，该效果持续时间长。对于本发明，可以设想例如约6mg/kg NAG-MLP 与6mg/kg HBV特异性CRISPR Cas的静脉内共注射。在替代方案中，可以在第一天递送约3mg/kg NAG-MLP和3mg/kg HBV特异性CRISPRCas，随后在两周后给予约2-3mg/kg NAG-MLP和2-3mg/kg HBV 特异性CRISPR Cas。

林等人(分子治疗-核酸(Mol Ther Nucleic Acids.)2014年8月19日；3:e186.doi: 10.1038/mtna.2014.38)设计了针对基因型A HBV的八种gRNA。在使用HBV-特异性gRNA时，CRISPR-Cas9 系统在用HBV表达载体转染的Huh-7细胞中显著减少HBV核心和表面蛋白。在八种筛选的gRNA中，鉴定了两种有效的gRNA。靶向保守性HBV序列的一种gRNA作用于不同基因型。使用流体动力学-HBV持久性小鼠模型，林等人进一步证明此系统可以切割含有肝内HBV基因组的质粒并且促进其在体内清除，从而使得血清表面抗原水平降低。这些数据表明CRISPR-Cas9系统可以破坏体外和体内二者的HBV表达模板，这表明其根除持久性HBV感染的可能性。

董(Dong)等人(抗病毒研究(Antiviral Res.)，2015年6月；118:110-7.doi:10.1016/j.antiviral.2015.03.015.电子版2015年4月3日)使用CRISPR-Cas9系统靶向HBV基因组并且有效抑制 HBV感染。董等人合成了靶向HBV保守区的四种单一指导RNA(指导RNA)。具有Cas9的这些指导RNA的表达减少了在Huh7细胞以及HBV-复制细胞HepG2.2.15中的病毒产生。董等人进一步证明CRISPR-Cas9直接切割和切割介导的诱变发生在转染细胞的HBV cccDNA中。在携带HBV cccDNA的小鼠模型中，经由快速尾静脉内注射指导RNA-Cas9质粒引起低水平的cccDNA和HBV蛋白。

林等人(普通病毒学杂志，2015年8月；96(8):2252-61.doi:10.1099/vir.0.000159.电子版2015 年4月22日)设计了靶向不同HBV基因型的保守区的八种指导RNA(gRNA)，这些指导RNA可以在体外和体内显著抑制HBV复制，以研究使用CRISPR-Cas9系统破坏HBV DNA模板的可能性。HBV特异性 gRNA/Cpf1系统可以抑制细胞内不同基因型的HBV的复制，并且病毒DNA通过单一gRNA/Cpf1系统显著减少并且通过不同gRNA/Cpf1系统的组合来清除。

王等人(世界胃肠病学杂志(World J Gastroenterol.)，2015年8月28日；21(32):9554-65.doi: 10.3748/wjg.v21.i32.9554)设计了针对基因型A-D HBV的15种gRNA。选择涵盖HBV调节区域的两种gRNA (双-gRNA)的十一种组合。每种gRNA和11种双gRNA对抑制HBV(基因型A-D)复制的效率是通过测量培养基上清液中的HBV表面抗原(HBsAg)或e抗原(HBeAg)来检查的。HBV-表达载体的破坏是在用双 -gRNA和HBV-表达载体共转染的HuH7细胞中使用聚合酶链反应(PCR)和测序方法检查的，并且cccDNA 的破坏是在HepAD38细胞中使用KCl沉淀法、质粒安全性ATP依赖性DNA酶(PSAD)消化法、滚环扩增法以及定量PCR组合法来检查的。这些gRNA的细胞毒性是通过一种线粒体四唑测定来评估的。所有gRNA可以显著减少培养上清液中的HBsAg或HBeAg产生，该产生依赖于gRNA所针对的区域。所有双gRNA均可以有效抑制基因型A-D HBV的HBsAg和/或HBeAg产生，并且双gRNA抑制HBsAg和/或HBeAg产生的效力与单独使用的单一gRNA相比显著增加。另外，通过PCR直接测序，我们确认这些双gRNA可以通过去除两种使用的gRNA的切割位点之间的片段来特异性破坏HBV表达模板。最重要的是，gRNA-5和gRNA-12组合不仅可以有效抑制HBsAg和/或HBeAg产生，而且破坏HepAD38细胞中的cccDNA储层。

卡利莫瓦(Karimova)等人(科技报告，2015年9月3日；5:13734.doi:10.1038/srep13734)鉴定了在HBV基因组的S和X区域内由Cas9切割酶进行的特异性和有效性切割所靶向的交叉基因保守性HBV 序列。此方法不仅破坏了报道细胞系中的附加型cccDNA和染色体整合HBV靶位点，而且破坏长期感染和重新感染的肝癌细胞系中的HBV复制。

本领域技术人员可以利用例如林等人(分子治疗-核酸，2014年8月19日；3:e186.doi: 10.1038/mtna.2014.38)、董等人(抗病毒研究，2015年6月；118:110-7.doi:10.1016/j.antiviral.2015.03.015.电子版2015年4月3日)、刘等人(普通病毒学杂志，2015年8月；96(8):2252-61.doi:10.1099/vir.0.000159.电子版2015年4月22日)、王等人(世界胃肠病学杂志，2015年8月28日；21(32):9554-65.doi: 10.3748/wjg.v21.i32.9554)、以及卡利莫瓦等人(科技报告，2015年9月3日；5:13734.doi:10.1038/srep13734) 的以上研究用于使用本发明的CRISPR Cas系统靶向HBV。

慢性乙型肝炎病毒(HBV)感染是流行的、致命的并且极少治愈的，这是因为病毒附加型DNA (cccDNA)在感染的细胞中持久性存在。拉曼那等人(拉曼那·V、舍罗曼·A(Shlomai A)、考克斯·DB(Cox DB)、施瓦兹·RE(Schwartz RE)、米凯利迪斯·E(Michailidis E)、巴塔·A(Bhatta A)、斯科特·DA、张·F、赖斯·CM(Rice CM)、巴蒂亚·SN(Bhatia SN)，科技报告，2015年6月2日；5:10833.doi:10.1038/srep10833， 2015年6月2日在线公开)显示CRISPR/Cas9系统可以特异性靶向并切割HBV基因组中的保守区，从而能够强烈抑制病毒基因表达和复制。当Cas9和适当选择的指导RNA持续表达时，他们证明Cas9切割cccDNA并且cccDNA和病毒基因表达和复制的其他参数显著降低。因此，他们证实直接靶向病毒附加型DNA是一种控制病毒并且可能治愈患者的新型治疗方法。这也描述于在布罗德研究所(Broad Institute)等人名下的 WO2015089465A1中，该专利的内容通过引用结合在此。

在一些实施例中，这样靶向HBV中的病毒附加型DNA是优选的。

本发明还可以适用于治疗病原体，例如细菌、真菌和寄生虫病原体。大部分研究工作集中于开发新的抗生素，然而一旦开发，就会经受相同的抗药性问题。本发明提供了克服这些困难的新型基于 CRISPR的替代方案。另外，与现存的抗生素不同，基于CRISPR的治疗可以是制成病原体特异性的，从而诱导靶病原体的细菌细胞死亡同时避免有益细菌死亡。

本发明还可以适用于治疗丙型肝炎病毒(HCV)。罗埃尔维奇(Roelvinki)等人(分子治疗，第20卷，第9期，1737-1749，2012年9月)的方法可以适用于本发明的CRISPR Cas系统。例如,AAV载体诸如AAV8可以是一种考虑的载体并且例如可以考虑每千克体重约1.25×10¹¹至1.25×10¹³个载体基因组 (vg/kg)。本发明还可以适用于治疗病原体，诸如细菌、真菌和寄生虫病原体。大部分研究工作集中于开发新的抗生素，然而一旦开发，就会经受相同的抗药性问题。本发明提供了克服这些困难的新型基于CRISPR 的替代方案。另外，与现存的抗生素不同，基于CRISPR的治疗可以是制成病原体特异性的，从而诱导靶病原体的细菌细胞死亡同时避免有益细菌死亡。

蒋等人(“使用CRISPR-Cas对细菌基因组进行RNA指导编辑”，自然生物技术，第31卷，第233-9 页，2013年3月)使用一种CRISPR-Cas9系统来突变或杀死肺炎链球菌或大肠杆菌。将精确突变引入到基因组中的工作依赖于靶基因组位点处的双-RNA:Cas9-引导的切割以杀死未突变细胞，并且不再需要选择标记物或反选择系统。CRISPR系统已用于逆转抗生素抗性并且消除各菌株之间的抗性转移。比克考尔德 (Bickard)等人证实重编程序以靶向致病基因的Cas9杀死了致命的金黄色葡萄球菌而不是无毒的金黄色葡萄球菌。将核酸酶重编程序以靶向抗生素抗性基因，破坏了具有抗生素抗性基因的葡萄球菌质粒并且针对质粒携带的抗性基因的传播进行免疫。(参见，比卡尔德等人，“探索产生序列特异性抗微生物剂的 CRISPR-Cas核酸酶”，自然生物技术，第32卷，1146-1150,doi:10.1038/nbt.3043，2014年10月05日在线公开)。比卡尔德证实CRISPR-Cas9抗微生物剂在体内起到杀死老鼠皮肤定位模型中的金黄色葡萄球菌的作用。类似地，优素福等人使用一种CRISPR系统来靶向编码赋予β内酰胺类抗生素抗性的酶的基因(参见优素福等人，“编程以敏化并杀死抗生素抗性细菌的温和和烈性噬菌体”，美国国家科学院院刊，第112卷，第7267-7272 页，doi:10.1073/pnas.1500107112，2015年5月18日在线公开)。

CRISPR系统可以用于编辑对其他遗传方法具有抗性的寄生虫基因组。例如，已显示一种 CRISPR-Cas9系统能将双链断裂引入到约氏疟原虫基因组(参见，张等人，“使用CRISPR/Cas9系统有效编辑疟原虫基因组”，mBio.，第5卷，e01414-14，2014年7月-8月)。古尔巴尔等人(“使用CRISPR-Cas9系统在人类疟原虫镰状疟原虫中进行基因组编辑”，自然生物技术，第32卷，第819-821页，doi:10.1038/nbt.2925， 2014年6月1日在线公开)修饰了两种基因orc1和kelch13的序列，这两种基因分别在基因沉默和形成对青蒿素的抗性中具有推定的作用。尽管对于该修饰没有直接选择，但是在适当位点改变的寄生虫以极高效率恢复，这表明使用此系统可以生成中性突变或甚至有害突变。CRISPR-Cas9还用于修饰其他致病性寄生虫的基因组，包括刚地弓形虫(参见沈等人，“使用CRISPR/CAS9在刚地弓形虫的不同菌株中进行有效基因破坏”， mBio，第5卷:e01114-14,2014；以及西迪克等人，“使用CRISPR/Cas9进行刚地弓形虫的有效基因组工程化”，公共科学图书馆综合，第9卷，e100450,doi:10.1371/journal.pone.0100450，2014年6月27日在线公开)。

维亚斯等人(“白色念珠菌CRISPR系统允许对必需基因和基因家族进行遗传工程化”，科学进展，第1卷，e1500248,DOI:10.1126/sciadv.1500248，2015年4月3日)采用一种CRISPR系统来克服白色念珠菌中长期存在的遗传工程化障碍并且在几种不同基因的两个拷贝的单一实验中进行有效突变。在其他几种机制促成抗药性的有机体中，维亚斯产生不再显示母体临床分离物Can90显示的对氟康唑或放线菌酮的抗性的纯合双突变体。维亚斯还通过创建条件等位基因来获得白色念珠菌的必需基因中的纯合的失功能突变。对于核糖体RNA加工所需要的DCR1无效等位基因在低温下是致命的，但是在高温下是可存活的。维亚斯使用一种引入无效突变的修复模板和不能在16℃下生长的分离的dcr1/dcr1突变体。

用遗传方面或表观遗传方面治疗疾病

本发明的CRISPR-Cas系统可以用于校正先前使用TALEN和ZFN尝试时有限成功的遗传突变，并且已被鉴定为Cas9系统的潜在靶标，包括如在描述使用Cas9系统靶向座位以使用基因治疗来治疗性解决疾病的方法的爱迪塔斯医药公司(Editas Medicine)的公开申请中，包括格卢克曼(Gluckmann)等人的WO 2015/048577 CRISPR相关方法和组合物(CRISPR-RELATED METHODS AND COMPOSITIONS)；格卢克曼等人的WO 2015/070083具有控制的gRNA的CRISPR相关方法和组合物 (CRISPR-RELATED METHODS AND COMPOSITIONSWITH GOVERNING gRNAS)；在一些实施例中，提供了原发性开角型青光眼(POAG)的治疗、预防或诊断。该靶标优选地是MYOC基因。这描述于 WO2015153780中，该专利的披露内容通过引用结合在此。

参考马埃德尔(Maeder)等人的WO2015/134812用于治疗乌谢尔综合征和色素性视网膜炎的 CRISPR/CAS相关方法和组合物(CRISPR/CAS-RELATED METHODS ANDCOMPOSITIONS FOR TREATING USHER SYNDROME AND RETINITIS PIGMENTOSA)。通过在此的教义，本发明包括了这些文献结合在此的教义应用的方法和材料。在眼睛和听觉基因治疗的一个方面中，用于治疗乌谢尔综合征和色素性视网膜炎的方法和组合物可以适于本发明的CRISPR-Cas系统(例如，参见WO 2015/134812)。在一个实施例中，WO 2015/134812涉及通过基因编辑治疗IIA型乌谢尔综合征(USH2A、USH11A)和色素性视网膜炎39(RP39)或延迟其发作或进展，该基因编辑例如使用CRISPR-Cas9介导的方法校正USH2A基因的位置2299处的鸟嘌呤缺失(例如，置换USH2A基因的位置2299处的缺失的鸟嘌呤残基)。使用Cpf1可以实现类似的效果。在一个相关方面中，通过使用一种或多种核酸酶、一种或多种切割酶或其组合来靶向突变，例如以诱导使用供体模板的HDR，以校正点突变(例如，单一核苷酸，例如鸟嘌呤缺失)。突变体USH2A 基因的改变或校正可以是通过任何机制介导的。可能与突变体HSH2A基因的改变(例如，校正)相关联的示例性机制包括但不限于，非同源性末端接合、微同源性介导的末端接合(MMEJ)、同源定向修复(例如，内源性供体模板介导的)、SDSA(合成依赖性链退火)、单链退火或单链侵入。在一个实施例中，用于治疗乌谢尔综合征和色素性视网膜炎的方法可以包括获取由受试者携带的突变的知识，例如通过测序USH2A 基因的适当部分。

还参考WO 2015/138510并且通过在此的教义，本发明(使用CRISPR-Cas9系统)包括提供一种对莱伯氏先天性黑内障10(LCA 10)的治疗或对其发作或进展的延迟。LCA 10是由CEP290基因的突变引起的，该突变例如a c.2991+1655，是在内含子26中引起隐蔽剪接位点的CEP290基因中的腺嘌呤到鸟嘌呤的突变。这是CEP290的内含子26的核苷酸1655处的突变，例如A到G的突变。CEP290也称为：CT87；MKS4； POC3；rd16；BBS14；JBTS5；LCAJO；NPHP6；SLSN6；以及3H11Ag(例如，参见，WO 2015/138510)。在基因治疗的一个方面中，本发明涉及在CEP290基因的至少一个等位基因的LCA靶位置位点附近引入一个或多个断裂(例如，c.2991+1655；A至G)。改变LCA10靶位置是指(1)紧密接近或包括LCA10靶位置处断裂诱导性引入indel(在此也称为NHEJ-介导的indel引入(例如c.2991+1655A到G)，或者(2)基因组序列的断裂引入的缺失(在此也称为NHEJ-介导的缺失)，包括LCA10靶位置处的突变(例如，c.2991+1655A 到G)。两种方法都产生由LCA 10靶位置处的突变引起的隐蔽剪接位点的丧失或破坏。因此，特别设想Cpf1 治疗LCA的用途。

研究者考虑基因治疗是否可以用于治疗广泛范围的疾病。预想本发明基于Cpf1效应蛋白的 CRISPR系统用于此类治疗用途，包括但不限于进一步列举的靶区域并且使用如下递送方法。可以使用本发明系统有效治疗的病状或疾病的一些实例被包括于基因的实例和在此所包含的参考文献中并且还提供目前与那些病状相关联的基因。所举例说明的基因和病状并不是详尽的。

治疗循环系统疾病

本发明还考虑向血液或造血干细胞递送CRISPR-Cas系统，具体地是在此所述的新型CRISPR 效应蛋白系统。先前已描述了瓦尔格伦(Wahlgren)等人(核酸研究，2012，第40卷，第17期e130)的血浆外来体并且这些血浆外来体可以用于将CRISPR Cas系统递送至血液。本发明的核酸靶向系统还考虑治疗血红蛋白病，诸如地中海贫血和镰状细胞疾病。例如，参见，关于可以被本发明的CRISPR Cas系统靶向的潜在靶标的国际专利公开号WO2013/126794。

德拉科布卢(Drakopoulou)“评论文章，基于造血干细胞的基因治疗用于β地中海贫血的持续挑战(Review Article,The Ongoing Challenge of Hematopoietic StemCell-Based Gene Therapy for β-Thalassemia)，”国际干细胞杂志(Stem CellsInternational)，第2011卷，文章ID 987980，10页， doi:10.4061/2011/987980，该文献连同其引用的文献如同完全列出一样通过引用结合在此，该文献讨论了使用递送β-球蛋白或γ-球蛋白的基因的慢病毒修饰HSC。与使用慢病毒相比，通过本领域的知识和本披露的教义，技术人员可以使用靶向并校正突变的CRISPR-Cas系统(例如，具有递送β-球蛋白或γ-球蛋白，有利地是非镰状β-球蛋白或γ-球蛋白的编码序列的适合HDR模板)校正关于β地中海贫血的HSC；具体地说，指导RNA可以靶向引起β地中海贫血的突变，并且HDR可以提供对于β-球蛋白或γ-球蛋白的适当表达的编码。使靶向含有突变-和-Cas蛋白的粒子的指导RNA与携带突变的HSC接触。该粒子还可以含有校正对于β-球蛋白或γ-球蛋白的适当表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚。就这一点而言，参考：卡瓦扎娜(Cavazzana)，“主要经由移植用慢病毒β^A-T87Q-球蛋白载体离体转导的自体造血干细胞来进行β地中海贫血的基因治疗的结果(Outcomes of Gene Therapy forβ-ThalassemiaMajor via ransplantation of AutologousHematopoietic Stem Cells Transduced ExVivo with a Lentiviralβ^A-T87Q-Globin Vector)。” tif2014.org/abstractFiles/Jean％20Antoine％20Ribeil_Abstract.pdf；卡瓦扎娜-卡尔沃(Calvo)，“在基因治疗人类β-地中海贫血后的输血自主性和HMGA2激活(Transfusion independence and HMGA2activation after gene therapy of humanβ-thalassaemia)”，自然467,318-322(2010年9月16日)doi:10.1038/nature09328；尼安慧思(Nienhuis)，“地中海贫血的基因治疗的发展(Development of Gene Therapy for Thalassemia)”，冷泉港医学观点(Cold SpringHarbor Perpsectives in Medicine)，doi:10.1101/cshperspect.a011833(2012)，LentiGlobin BB305，它是一种含有工程化β-球蛋白基因的慢病毒载体(βA-T87Q)；以及谢(Xie)等人，“在患者特异性iPSC中使用CRISPR/Cas9和分段控制来无缝基因校正β地中海贫血性突变(Seamless gene correction of β-thalassaemia mutations in patient-specific iPSCs using CRISPR/Cas9 and piggyback)”，基因组研究 gr.173427.114(2014)http://www.genome.org/cgi/doi/10.1101/gr.173427.114(冷泉港实验室出版社)；这是卡瓦扎娜涉及人类β-地中海贫血的工作主题和谢的工作主题，所有这些文献连同其中引用或者与其相关联的所有文献一起通过引用结合在此。在本发明中，HDR模板可以提供表达工程化β球蛋白基因(例如βA-T87Q) 或者如谢所述的β-球蛋白的HSC。

许(Xu)等人(科技报告，2015年7月9日；5:12065.doi:10.1038/srep12065)已设计直接靶向球蛋白基因中的内含子2突变位点IVS2-654的TALEN和CRISPR-Cas9。许等人使用TALEN和CRISPR-Cas9 观察到在IVS2-654座位处的不同双链断裂(DSB)频率，并且当与piggyBac易位子供体组合时TALEN介导与CRISPR-Cas9相比更高的同源基因靶向效率。另外，与TALEN相比，对于CRISPR-Cas9观察到更明显的脱靶事件。最终，使用OP9共培养系统选择用于成红细胞分化的TALEN校正的iPSC克隆并且检测到比未校正细胞相对更高的HBB转录。

宋(Song)等人(干细胞与发育，2015年5月1日；24(9):1053-65.doi:10.1089/scd.2014.0347.电子版2015年2月5日)使用CRISPR/Cas9校正β-Thal iPSC；基因校正的细胞展现出正常的核型和完整的多能性，因为人类胚胎干细胞(hESC)未显示脱靶效应。然后，宋等人评价了基因校正的β-Thal iPSC的分化效率。宋等人发现在造血分化过程中，基因校正的β-Thal iPSC显示增加的胚状体比率和不同的造血祖细胞百分比。更重要地是，基因校正的β-Thal iPSC品系恢复了HBB表达并且与未校正组相比减少了活性氧产生。宋等人的研究表明β-Thal iPSC的造血分化效率一旦通过CRISPR-Cas9系统校正就会极大地提高。类似的方法可以利用在此所述的CRISPR-Cas系统，例如包含Cpf1效应蛋白的系统来进行。

镰状细胞性贫血是一种常染色体隐性遗传性疾病，其中红血细胞变成镰刀状。它是由位于染色体11的短臂上的β球蛋白基因中的单碱基取代所引起的。因此，产生缬氨酸而不是产生引起镰状血红蛋白(HbS)产生的谷氨酸。这导致形成扭曲性状的红细胞。由于此异常性状，可以阻断小血管，从而引起对骨骼、脾脏和皮肤组织的严重损害。这可以导致疼痛发作、频繁感染、手足综合征或甚至多器官衰竭。扭曲红细胞也更易于发生红细胞溶解，从而导致严重贫血。如在β地中海贫血的情况下，镰状细胞贫血可以是通过用CRISPR-Cas系统修饰HSC来校正的。该系统允许通过切割其DNA并且然后让其自身修复来特异性编辑细胞的基因组。Cas蛋白通过RNA指导序列插入并引导至突变点并且然后它在该点切割DNA。同时，插入健康版本的序列。此序列通过细胞自身修复系统使用来固定诱导的切割。以这种方式，CRISPR-Cas 允许校正在先前获得的干细胞中的突变。通过本领域的知识和本披露的教义，技术人员可以使用靶向并校正突变的CRISPR-Cas系统(例如，具有递送β-球蛋白，有利地是非镰状β-球蛋白的编码序列的适合HDR模板)校正关于镰状细胞性贫血的HSC；具体地说，指导RNA可以靶向引起镰状细胞性贫血的突变，并且HDR 可以提供对于β-球蛋白的适当表达的编码。使靶向含有突变-和-Cas蛋白的粒子的指导RNA与携带突变的 HSC接触。该粒子还可以含有校正对于β-球蛋白的适当表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚。HDR 模板可以提供表达工程化β球蛋白基因(例如βA-T87Q)或者如谢所述的β-球蛋白的HSC。

威廉姆斯(Williams)“扩展用于造血干细胞基因治疗的适应症(Broadening theIndications for Hematopoietic Stem Cell Genetic Therapies)”，细胞干细胞13:263-264(2013)，该文献连同其所引用的文献如同完全列出一样通过引用结合在此，该文献报道了到来自患有溶酶体贮积症、异染性脑白质营养不良疾病(MLD)、由芳基硫酸酯酶A缺乏症(ARSA)引起的遗传疾病的患者的HSC/P细胞中的慢病毒介导的基因转移，从而导致神经脱髓鞘；以及到患有威斯科特-奥尔德里奇综合征(Wiskott-Aldrich syndrome，WAS) 的患者(患有WAS蛋白缺乏症的患者，该WAS蛋白是一种调节血细胞谱系中的细胞骨架功能的小GTP酶 CDC42的效应蛋白，并且因此这些患者罹患免疫缺陷伴随复发性感染、自身免疫性症状、以及血小板减少伴随异常小且功能失调的血小板，从而导致过量出血和白血病与淋巴瘤的风险增加)的HSC中的慢病毒介导的基因转移。与使用慢病毒相比，通过本领域的知识和本披露的教义，技术人员可以使用靶向并校正突变(芳基硫酸酯酶A缺乏症(ARSA))的CRISPR-Cas系统(例如，具有递送ARSA的编码序列的适合HDR 模板)校正关于MLD(芳基硫酸酯酶A缺乏症(ARSA))的HSC；具体地说，指导RNA可以靶向引起MLD (缺陷性ARSA)的突变，并且HDR可以提供对于ARSA的适当表达的编码。使靶向含有突变-和-Cas蛋白的粒子的指导RNA与携带突变的HSC接触。该粒子还可以含有校正对于ARSA的适当表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚。与使用慢病毒相比，通过本领域的知识和本披露的教义，技术人员可以使用靶向并校正突变(WAS蛋白缺乏症)的CRISPR-Cas系统(例如，具有递送WAS蛋白的编码序列的适合HDR 模板)校正关于WAS的HSC；具体地说，指导RNA可以靶向引起WAS(WAS蛋白缺乏症)的突变，并且 HDR可以提供对于WAS蛋白的适当表达的编码。使靶向含有突变-和-Cpf1蛋白的粒子的指导RNA与携带突变的HSC接触。该粒子还可以含有校正对于WAS蛋白的适当表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚。

瓦特(Watts)，“造血干细胞扩增和基因治疗(Hematopoietic Stem CellExpansion and Gene Therapy)”，细胞疗法(Cytotherapy)13(10):1164-1171.doi:10.3109/14653249.2011.620748(2011)，该文献连同其所引用的文献如同完全列出一样通过引用结合在此，该文献讨论了作为许多病症的一种有高度吸引力的治疗选项的造血干细胞(HSC)基因治疗，例如病毒介导的HSC基因治疗，这些病症包括血液学病状、免疫缺陷(包括HIV/AIDS)、以及其他遗传病症，如溶酶体储存病，包括SCID-X1、ADA-SCID、β-地中海贫血、X-连锁的CGD、威斯科特-奥尔德里奇综合征、范科尼贫血、肾上腺脑白质营养不良(ALD)、以及异染性脑白质营养不良(MLD)。

转让给策勒克提斯公司(Cellectis)的美国专利公开号20110225664、20110091441、20100229252、20090271881以及20090222937涉及CREI变体，其中两个I-CreI单体中的至少一个具有至少两个取代，一个取代是在分别位于I-CreI的从位置26至40和从位置44至77的LAGLIDADG(SEQ ID NO:26) 核心结构域的两个功能子结构域的每一个中，所述变体能够切割来自人类白细胞介素-2受体γ链(IL2RG) 基因(也称为常见细胞因子受体γ链基因或γC基因)的DNA靶序列。在美国专利公开号20110225664、 20110091441、20100229252、20090271881以及20090222937中鉴定的靶序列可以用于本发明的核酸靶向系统。

几种联合免疫缺陷(SCID)由T淋巴细胞成熟的缺陷引起，通常与B淋巴细胞的功能缺陷相关联(卡瓦扎娜-卡尔沃等人，医学年鉴(Annu.Rev.Med.)，2005,56,585-602；费舍尔等人，免疫学综述 (Immunol.Rev.)，2005,203,98-109)。据估计总发病率是75 000出生儿中有一例。患有未治疗的SCID的患者经受多重机会的微生物感染，并且通常活不过一年。SCID可以是通过进行来自家族供体的造血干细胞移植来治疗。与供体的组织相容性可以广泛地变化。在腺甙脱氨酶(ADA)缺乏症(是SCID的形式之一) 的情况下，患者可以通过注射重组腺甙脱氨酶来治疗。

由于ADA基因已在SCID患者中显示是突变的(吉布列托(Giblett)等人，柳叶刀(Lancet)， 1972,2,1067-1069)，所以已鉴定涉及SCID的几种其他基因(卡瓦扎娜-卡尔沃等人，医学年鉴，2005,56, 585-602；费舍尔等人，免疫学综述，2005,203,98-109)。对于SCID存在四种主要原因：(i)最频繁形式的 SCID是SCID-X1(X-连锁SCID或X-SCID)，它由IL2RG基因的突变引起，从而导致成熟型T淋巴细胞和NK 细胞的缺乏。IL2RG编码γC蛋白(野口(Noguchi)等人，细胞，1993,73,147-157)，该蛋白是至少五种白介素受体复合物的一种常见组分。这些受体通过JAK3激酶(马基(Macchi)等人，自然，1995,377,65-68) 激活几种靶标，灭活形成与γC灭活相同的综合征；(ii)ADA基因中的突变导致嘌呤代谢缺陷，这对于淋巴细胞前体是致命的，进而导致B细胞、T细胞和NK细胞的准缺乏；(iii)V(D)J重组是免疫球蛋白和T淋巴细胞受体(TCR)成熟中的必需步骤。涉及此过程的三种基因重组激活基因1和2(RAG1和RAG2)以及Artemis 中的突变导致成熟T淋巴细胞和B淋巴细胞的缺乏；并且(iv)还已报道了参与T细胞特异性信号传导的其他基因诸如CD45中的突变，尽管它们代表少数情况(卡瓦扎娜-卡尔沃等人，医学年鉴，2005,56,585-602；费舍尔等人，免疫学综述，2005,203,98-109)。因为当鉴定它们的遗传碱基时，不同SCID形式出于两种主要的原因已成为基因治疗方法的范例(费舍尔等人，免疫学综述，2005,203,98-109)。首先，如在所有血液疾病中，可以设想离体治疗。造血干细胞(HSC)可以从骨髓中恢复，并且保持对于少量细胞分裂的多能性特征。因此，它们可以在体外处理，并且然后重新注射到患者中，在患者中它们重新填充骨髓。其次，由于在SCID患者中淋巴细胞的成熟受到损害，所以校正的细胞具有选择性优点。因此，少量校正的细胞可以恢复一种功能免疫系统。此假设通过以下各项得到几次证实：(i)免疫功能的部分恢复与SCID患者中的突变逆转相关联(赫希霍恩(Hirschhorn)等人，自然遗传学，1996,13,290-295；斯蒂芬(Stephan)等人，新英格兰医学杂志，1996,335,1563-1567；布索(Bousso)等人，美国国家科学院院刊2000,97,274-278；瓦达(Wada)等人，美国国家科学院院刊2001,98,8697-8702；西小森(Nishikomori)等人，血液，2004,103, 4565-4572)；(ii)造血细胞体外SCID-X1缺陷的校正(坎多迪(Candotti)等人，血液，1996,87,3097-3102；卡瓦扎娜-卡尔沃等人，血液，1996，血液，88,3901-3909；泰勒等人，血液，1996,87,3103-3107；哈斯因-贝伊(Hacein-Bey)等人，血液，1998,92,4090-4097)；(iii)动物模型体内SCID-X1(苏达斯(Soudais) 等人，血液，2000,95,3071-3077；蔡等人，血液，2002,100,72-79)、JAK-3(邦廷(Bunting)等人，自然医学，1998,4,58-64；邦廷等人，人类基因治疗(Hum.Gene Ther.)，2000,11,2353-2364)以及RAG2(耶茨(Yates)等人，血液，2002,100,3942-3949)缺乏的校正；以及(iv)基因治疗临床试验的结果(卡瓦扎娜-卡尔沃等人，科学，2000,288,669-672；爱乌蒂(Aiuti)等人，自然医学，2002；8,423-425；加斯帕(Gaspar)等人，柳叶刀，2004,364,2181-2187)。

转让给儿童医学中心社团和哈佛大学校长和校友会的美国专利公开号20110182867涉及经由 BCL11A表达或活性抑制剂诸如RNAi和抗体调控造血祖细胞内的胎儿血红蛋白表达(HbF)的方法和用途。美国专利公开号20110182867中所披露的靶标诸如BCL11A可以被本发明的CRISPR Cas系统靶向以用于调控胎儿血红蛋白表达。对于另外的BCL11A靶标，还参见鲍尔等人(科学，2013年10月11日：第342卷，第 6155期，第253-257页)和许等人(科学，2011年11月18日：第334卷，第6058期，第993-996页)。

通过本领域的知识和本披露的教义，技术人员可以校正关于遗传性血液学病症的HSC，例如β 地中海贫血、血友病、或遗传性溶酶体贮积病。

HSC-递送并编辑造血干细胞；以及特定疾病。

术语“造血干细胞”或“HSC”意指广泛包括认为是HSC的那些细胞，例如产生所有其他血细胞并且来源于中胚层；位于大部分骨骼核心所含有的红骨髓中的血细胞。本发明的HSC包括具有通过以下各项鉴定的造血干细胞表型的细胞：小尺寸、谱系(lin)标记物的缺乏、以及属于分化系列簇的标记物，如：CD34、CD38、CD90、CD133、CD105、CD45、以及还有c-kit(干细胞因子的受体)。造血干细胞对于用于检测谱系定型的标记物呈阴性，并且因此称为Lin-；并且在它们通过FACS纯化的过程中，对于人类有许多多至14种不同的成熟血液谱系标记物，例如对于髓细胞的CD13和CD33、对于红系细胞的CD71、对于B细胞的CD19、对于巨核细胞的CD61等人；以及，对于B细胞的B220(鼠科CD45)、对于单核细胞的 Mac-1(CD11b/CD18)、对于粒细胞的Gr-1、对于红系细胞的Ter119、对于T细胞的Il7Ra、CD3、CD4、CD5、 CD8等等。小鼠HSC标记物：CD34lo/-、SCA-1+、Thy1.1+/lo、CD38+、C-kit+、lin-，并且人类HSC标记物： CD34+、CD59+、Thy1/CD90+、CD38lo/-、C-kit/CD117+、以及lin-。HSC是通过标记物鉴定的。因此，于在此讨论的实施例中，HSC可以是CD34+细胞。HSC也可以是造血干细胞CD34-/CD38-。在细胞表面缺乏 c-kit且在本领域视为HSC的干细胞是处于本发明的范围内，与本领域同样视为HSC的CD133+细胞一样。

CRISPR-Cas(例如Cpf1)系统可以被工程化以靶向HSC内的一个遗传座位或多个遗传座位。可以制备有利地密码子优化用于真核细胞以及具体地哺乳动物细胞，例如人类细胞，例如HSC的Cas(例如Cpf1)蛋白和靶向HSC中的一个座位或多个座位，例如基因EMX1的sgRNA。这些可以经由粒子来递送。这些粒子可以是通过混合的Cas(例如Cpf1)蛋白和gRNA来形成。gRNA和Cas(例如Cpf1)蛋白混合物可以例如与包含以下各项或基本上由以下各项组成或者由以下各项组成的混合物混合：表面活性剂、磷脂、生物可降解聚合物、脂蛋白以及醇，由此可以形成含有gRNA和Cas(例如Cpf1)蛋白的粒子。本发明包括如此制备的粒子和来自这种方法的粒子以及其用途。

更普遍地说，粒子可以使用一种有效方法来形成。首先，可以按适合的摩尔比，例如3:1至1: 3或者2:1至1:2或1:1摩尔比，在适合的温度下，例如15℃-30℃，例如20℃-25℃，例如室温，持续适合的时间，例如15-45分钟，例如30分钟，有利地在无菌无核酸酶缓冲液，例如1X PBS中，混合Cas(例如Cpf1) 蛋白和靶向基因EMX1或控制基因LacZ的gRNA。单独地，可以将粒子组分，诸如或者包括：表面活性剂，例如阳离子脂质，例如1,2-二油酰-3-三甲基铵-丙烷(DOTAP)；磷脂，例如，二豆蔻酰磷脂酰胆碱(DMPC)；生物可降解聚合物，诸如乙二醇聚合物或PEG，以及脂蛋白，诸如低密度脂蛋白，例如胆固醇，溶解于醇中，有利地是C1-6烷基醇，诸如甲醇、乙醇、异丙醇，例如100％乙醇。两种溶液可以混合在一起以形成含有Cas(例如Cpf1)-gRNA复合物的粒子。在某些实施例中，该粒子可以含有HDR模板。该粒子可以是与含有gRNA+Cas(例如Cpf1)蛋白的粒子联合给予的粒子，或者即除了使HSC与含有gRNA+Cas(例如Cpf1) 蛋白的粒子接触之外，还使HSC与含有HDR模板的粒子接触；或者使HSC与含有所有gRNA、Cas(例如Cpf1) 和HDR模板的粒子接触。该HDR模板可以通过单独的载体给予，由此在第一种情况下粒子穿透HSC细胞并且单独的载体也穿透该细胞，其中该HSC基因组是通过gRNA+Cas(例如Cpf1)修饰的并且该HDR模板也是存在，由此通过该HDR修饰基因组座位；例如，这可以导致校正突变。

在这些粒子形成之后，可以用每孔15ug Cas(例如Cpf1)蛋白转染96孔板中的HSC。在转染后三天，可以收获HSC，并且可以定量在EMX1座位处的插入和缺失(indel)的数目。

这说明了HSC可以如何使用靶向HSC中感兴趣的一个基因组座位或多个基因组座位的 CRISPR-Cas(例如Cpf1)来修饰。有待修饰的HSC可以是在体内，即在生物体中，例如在人类或非人类真核细胞中，例如动物，诸如鱼，例如斑马鱼；哺乳动物，例如灵长类动物，例如猿、黑猩猩、猕猴；啮齿动物，例如小鼠、兔、大鼠、犬或狗；家畜(母牛/牛、羊/绵羊、山羊或猪)；家禽或家禽类，例如鸡。有待修饰的HSC可以是在体外，例如这种生物体体外。并且，修饰的HSC可以离体使用，即这种生物体的一种或多种HSC可以从该生物体获得或从该生物体分离，任选地这种或这些HSC可以被扩增，这种或这些HSC 是通过包含靶向HSC中的一个遗传座位或多个遗传座位的CRISPR-Cas(例如Cpf1)的一种组合物，例如通过使这种或这些HSC与该组合物接触来修饰的，例如其中该组合物包含含有CRISPR酶和靶向HSC中的一个遗传座位或多个遗传座位的一种或多种gRNA的粒子，诸如通过将gRNA和Cas(例如Cpf1)蛋白混合物与包含以下各项或基本上由以下各项组成或由以下各项组成的一种混合物混合来获得或可获得的粒子：磷脂、生物可降解聚合物、脂蛋白以及醇(其中一种或多种gRNA靶向HSC中的一个遗传座位或多个遗传座位)，从而任选地扩增所产生的修饰的HSC并且向该生物体给予产生的修饰的HSC。在一些情况下，分离或获得的HSC可以是来自第一生物体，诸如来自与第二生物体相同种类的生物体，并且第二生物体可以是向其给予所产生的修饰的HSC的生物体，例如第一生物体是该第二生物体的供体(诸如第二生物体的亲属，如父母或兄弟姐妹)。修饰的HSC可以具有解决或缓解或减轻个体或受试者或患者的疾病或病状状态的症状的遗传修饰。例如在第一生物体供体到第二生物体的情况下，修饰的HSC可以具有使得HSC含有与第二生物体更类似的一种或多种蛋白质例如表面标记物或蛋白质的遗传修饰。修饰的HSC可以具有刺激个体或受试者或患者的疾病或病状状态的遗传修饰并且再次给予非人类生物体，以便制备一种动物模型。根据本披露和本领域的知识，HSC的扩增是在技术人员的知识范围内，例如，参见，李，“通过克服CUL4-介导的 HOXB4降解来改进成人造血干细胞的离体扩增(Improved ex vivo expansion of adult hematopoieticstem cells by overcoming CUL4-mediated degradation of HOXB4)”。血液，2013年5月16日；121(20):4082-9.doi: 10.1182/blood-2012-09-455204.电子版2013年3月21日。

如对于提高活性所指示的，gRNA可以是与Cas(例如Cpf1)蛋白预先复合，之后将整个复合物配制在粒子中。可以按已知有助于将核酸递送至细胞的不同组分的不同摩尔比来制备配制品(例如1,2- 二油酰基-3-三甲基铵-丙烷(DOTAP)、1,2-双十四酰基-sn-丙三醇-3-磷酸胆碱(DMPC)、聚乙二醇(PEG) 以及胆固醇)。例如DOTAP:DMPC:PEG:胆固醇摩尔比可以是DOTAP 100、DMPC 0、PEG 0、胆固醇0；或者DOTAP 90、DMPC 0、PEG 10、胆固醇0；或者DOTAP 90、DMPC 0、PEG 5、胆固醇5；DOTAP 100、 DMPC 0、PEG 0、胆固醇0。本发明因此包括将gRNA、Cas(例如Cpf1)蛋白和形成粒子的组分混合；以及来自此混合的粒子。

在一个优选的实施例中，含有Cas(例如Cpf1)-gRNA复合物的粒子可以是通过优选以酶:指导 RNA的1:1摩尔比将Cas(例如Cpf1)蛋白和一种或多种gRNA混合在一起来形成。单独地，将已知有助于递送核酸的不同组分(例如，DOTAP、DMPC、PEG以及胆固醇)优选地溶解于乙醇中。将两种溶液混合在一起以形成含有Cas(例如Cpf1)-gRNA复合物的粒子。在形成粒子后，Cas(例如Cpf1)-gRNA复合物可以转染到细胞(例如HSC)中。可以采用条形编码(Bar coding)。可以条形编码这些粒子、Cas-9和/或 gRNA。

在一个实施例中，本发明包括一种制备含有gRNA-和-Cas(例如Cpf1)蛋白的粒子的方法，该方法包括将gRNA和Cas(例如Cpf1)蛋白混合物与包含以下各项或基本上由以下各项组成或者由以下各项组成的混合物混合：表面活性剂、磷脂、生物可降解聚合物、脂蛋白以及醇。一个实施例包括一种来自该方法的含有gRNA-和-Cas(例如Cpf1)蛋白的粒子。在一个实施例中，本发明包括该粒子在一种通过操纵感兴趣的基因组座位中的靶序列来修饰感兴趣的基因组座位或者生物体或非人类生物体的方法中的用途，该方法包括使含有感兴趣的基因组座位的细胞与其中该gRNA靶向该感兴趣的基因组座位的该粒子接触；或者包括一种通过操纵感兴趣的基因组座位中的靶序列来修饰感兴趣的基因组座位或者生物体或非人类生物体的方法，该方法包括使含有感兴趣的基因组座位的细胞与其中该gRNA靶向该感兴趣的基因组座位的该粒子接触。在这些实施例中，感兴趣的基因组座位有利地是HSC中的基因组座位。

治疗应用的考虑因素：基因组编辑治疗的考虑因素是序列特异性核酸酶诸如Cpf1核酸酶变体的选择。每种核酸酶变体可以具有其自身独特的一组优势和缺点，许多这些优势和缺点在治疗情况下必须平衡以使治疗益处最大化。迄今为止，使用核酸酶的两种治疗编辑方法已表现出很大的希望：基因破坏和基因校正。基因破坏涉及在遗传元件内创建靶向的indel的NHEJ刺激，常常引起对患者有益的失功能突变。相反，基因校正使用HDR直接逆转引起疾病的突变，从而恢复功能同时保留校正的元件的生理调节。HDR 也可以用于将治疗的转基因插入到基因组内限定的“安全港”座位中，以恢复失去的基因功能。对于有效的特异性编辑治疗，必须在靶细胞群体中实现足够高水平的修饰以逆转疾病症状。此治疗修饰“阈值”是通过在治疗之后编辑的细胞的适合度和逆转症状所需要的基因产物的量来决定的。关于适合度，相对于其未编辑对应物，编辑对靶细胞产生三种潜在结果：适合度增加、中度或者减小。在适合度增加的情况下，例如在SCID-X1的治疗中，修饰的造血祖细胞相对于其未编辑的对应物来选择性扩增。SCID-X1是一种由 IL2RG基因中的突变引起的疾病，该基因的功能对于造血淋巴细胞谱系的适当发育是需要的[伦纳德，W.J. (Leonard,W.J.)等人，免疫学综述(Immunological reviews)138,61-86(1994)；考杉斯基，K.(Kaushansky, K.)和威廉姆斯，W.J.威廉姆斯血液学(Williams hematology)，(麦格劳-希尔医学出版社(McGraw-Hill Medical)，纽约，2010)]在患者接受SCID-X1的病毒基因治疗的临床试验中并且在SCID-X1突变自发校正的少量实例中，校正的造血祖细胞能够克服此发育阻断并且相对于其疾病对应物而扩增以介导治疗[布索，P.等人，美国国家科学院院刊97,274-278(2000)；哈斯因-贝伊-阿比纳，S.(Hacein-Bey-Abina,S.)等人，新英格兰医学杂志346,1185-1193(2002)；加斯帕，H.B.等人，柳叶刀364,2181-2187(2004)]。在此情况下，当编辑的细胞具有一种选择性优点时，甚至低数目的编辑细胞也可以通过扩增来增殖，从而为患者提供一种治疗益处。相比之下，对于其他造血疾病如慢性肉芽肿病症(CGD)的编辑可以不诱导对于编辑的造血祖细胞的适合度的变化，从而增加治疗修饰阈值。CGD是通过编码吞噬细胞氧化酶蛋白的基因中的突变引起的，这些氧化酶蛋白通常被中性粒细胞用来产生杀死病原体的活性氧[慕克吉，S.(Mukherjee,S.) 和思拉舍，A.J.(Thrasher,A.J.)基因525,174-181(2013)]。由于这些基因的功能障碍并不影响造血祖细胞适合度或发育，而仅影响成熟造血细胞类型抵御感染的能力，所以在此疾病中编辑细胞可能并不优先扩增。实际上，在基因治疗试验中未观察到CGD中基因校正细胞的选择性优点，从而引起长期细胞移植的困难[梅尔奇，H.L.(Malech,H.L.)等人，美国国家科学院院刊94，12133-12138(1997)；康，H.J.(Kang,H.J.) 等人，分子治疗：美国基因治疗协会杂志19,2092-2101(2011)]。这样，相对于其中编辑对于靶细胞形成增加的适合度的疾病，治疗其中编辑形成中度适合度优点的疾病诸如CGD可能需要显著更高水平的编辑。如果编辑加强适合度优点，如恢复癌细胞中的肿瘤抑制基因的功能的情况，修饰细胞可以战胜其疾病对应物，从而使得治疗益处相对于编辑率较低。此后一类疾病特别难以用基因组编辑疗法来治疗。

除细胞适合度之外，治疗疾病所需要的基因产物的量还影响必须实现逆转症状的治疗性基因组编辑的最小水平。B型血友病是一种其中基因产物水平少量变化可以导致临床结果显著变化的疾病。此疾病是通过编辑因子IX的基因的突变引起的，该因子IX是一种通常由肝脏分泌到血液中的蛋白质，其中它充当一种凝血级联组分。B型血友病的临床严重性与因子IX活性的量相关。严重疾病与小于正常活性的1％相关联，而较轻微形式的疾病与大于因子IX活性的1％相关联[考杉斯基，K.和威廉姆斯，W.J.威廉姆斯血液学，(麦格劳-希尔医学出版社，纽约，2010)；洛夫维斯特，T.(Lofqvist,T.)等人，内科医学杂志(Journal of internal medicine)241,395-400(1997)]。这表明可以使甚至小百分比的肝细胞恢复因子IX表达的编辑治疗可以对临床结果具有极大的影响。在出生后立即使用ZFN校正B型血友病小鼠模型的研究表明3％-7％校正足以逆转疾病症状，从而为此假设提供临床前证据[李，H.等人，自然475,217-221(2011)]。

其中基因产物水平的少量变化可以影响临床结果的病症和其中对于编辑细胞存在适合度优点的疾病是基因组编辑治疗的理想靶标，因为治疗修饰阈值是低到足以允许给予当前技术高成功机会。现在已在临床前水平和I期临床试验中成功使用编辑治疗靶向这些疾病。延长对于编辑细胞具有中度适合度优点的疾病的这些希望的结果，或者在治疗需要更大量的基因产物的情况下，需要改进DSB修复途径操纵和核酸酶递送。以下表示出基因组编辑对于治疗模型的应用的一些实例，并且以下表的参考文献和那些参考文献所引用的文献如同完全列出一样通过引用结合在此。

有利地经由在此所述的递送系统例如粒子递送系统，使用CRISPR-Cas(例如Cpf1)系统通过 HDR介导的突变校正或者HDR介导的校正基因序列插入进行靶向，解决以上表中的每种病状，是根据本披露和本领域知识的技术人员的知识范围内。因此，一个实施例包括使携带B型血友病、SCID(例如，SCID-X1、 ADA-SCID)或遗传性高酪胺酸血症突变的HSC与含有gRNA-和-Cas(例如Cpf1)蛋白的粒子接触，从而靶向关于B型血友病、SCID(例如，SCID-X1、ADA-SCID)或遗传性高酪胺酸血症的感兴趣的基因组座位(例如，如李、吉诺维斯或殷所述)。该粒子还可以含有校正突变的适合HDR模板；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。就这一点而言，必须提及的是B型血友病是一种通过编码因子IX(一种决定性凝血级联组分)的基因的失功能突变引起的X连锁隐性病症。在严重受影响个体中使因子 IX活性恢复至超过其水平的1％可以使该疾病转变成严重程度较轻的形式，因为重组因子IX输注到从年轻时期开始预防的此类患者中以达到此类水平，极大地改善了临床并发症。通过本领域的知识和本披露的教义，技术人员可以使用靶向并校正突变(由编码因子IX的基因中的失功能突变引起的X连锁隐性病症)的CRISPR-Cas(例如Cpf1)系统(例如，具有递送因子IX的编码序列的适合HDR模板)校正关于B型血友病的HSC；具体地说，gRNA可以靶向引起B型血友病的突变，并且HDR可以提供对于因子IX的适当表达的编码。使靶向含有突变-和-Cas(例如Cpf1)蛋白的粒子的gRNA与携带突变的HSC接触。该粒子还可以含有校正对于因子IX的适当表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚，在此讨论的。

在卡蒂亚，“小型讨论会：X连锁肾上腺脑白质营养不良、X连锁肾上腺脑白质营养不良的造血干细胞移植和造血干细胞基因治疗(MINI-SYMPOSIUM:X-LinkedAdrenoleukodystrophypa, Hematopoietic Stem Cell Transplantation andHematopoietic Stem Cell Gene Therapy in X-Linked Adrenoleukodystrophy)”，脑病理学(Brain Pathology)20(2010)857-862中，该文献连同其所引用的文献如同完全列出一样通过引用结合在此，认识到同种异体造血干细胞移植(HSCT)用于将正常溶酶体酶递送到患有贺勒氏疾病的患者大脑中，并且讨论了治疗ALD的HSC基因治疗。在两位患者中，在粒细胞集落刺激因子(G-CSF)转移后收集外周CD34+细胞并且用骨髓增生性肉瘤病毒增强子、缺失的负控制区域、 dl587rev引物结合位点取代的(MND)-ALD慢病毒载体转导。在低浓度细胞因子存在下在16h过程中用 MND-ALD载体转导来自患者的CD34+细胞。在转导后冷冻转导的CD34+细胞，以对5％细胞进行各种安全性测试，这些安全性测试具体地说包括三种复制能力的慢病毒(RCL)测定。CD34+细胞的转导效率范围是35％至50％，其中慢病毒整合拷贝的平均值是0.65与0.70之间。在融化转导的CD34+细胞之后，用超过4.106 转导的CD34+细胞再输注患者，然后用白消安和环磷酰胺进行完全骨髓消除。消除患者的HSC以利于移植基因校正的HSC。两位患者在第13天与第15天之间出现造血恢复。第一位患者在12个月出现几乎完全的免疫恢复，而第二位患者在9个月出现此恢复。与使用慢病毒相比，通过本领域的知识和本披露的教义，技术人员可以使用靶向并校正突变的CRISPR-Cas(Cpf1)系统(例如，具有适合HDR模板)校正关于ALD 的HSC；确切地说，gRNA可以靶向ABCD1中的突变，该ABCD1是位于X染色体上的编码过氧化物酶体膜转运体蛋白ALD的基因，并且HDR可以提供对于该蛋白质的适当表达的编码。使靶向含有突变-和-Cas (Cpf1)蛋白的粒子的gRNA与携带突变的HSC例如CD34+细胞接触，如卡蒂亚所述。该粒子还可以含有校正对于过氧化物酶体膜转运体蛋白的表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。如此接触的细胞任选地可以如卡蒂亚所述地处理。如此接触的细胞可以如卡蒂亚所述地给予。

参考WO 2015/148860，通过在此的教义，本发明包括这些文献结合在此的教义应用的方法和材料。在血液相关疾病基因治疗的一个方面中，用于治疗β地中海贫血的方法和组合物可以适于本发明的 CRISPR-Cas系统(例如，参见WO 2015/148860)。在一个实施例中，WO 2015/148860涉及例如通过改变B- 细胞CLL/淋巴瘤11A(BCL11A)的基因来治疗或预防β地中海贫血或其症状。该BCL11A基因也称为B-细胞CLL/淋巴瘤11A、BCL11A-L、BCL11A-S、BCL11AXL、CTIP 1、HBFQTL5以及ZNF。BCL11A编码涉及调节球蛋白基因表达的锌指蛋白。通过改变BCL11A基因(例如，BCL11A基因的一个或两个等位基因)，可以增加β球蛋白的水平。γ球蛋白可以替换血红蛋白复合物中的β球蛋白并且有效携带氧气到组织中，从而改善β地中海贫血病表型。

参考WO 2015/148863，并且通过在此的教义，本发明包括这些文献中适于本发明的 CRISPR-Cas系统的方法和材料。在治疗和预防遗传性血液疾病镰状细胞疾病的一个方面中，WO 2015/148863包括改变BCL11A基因。通过改变BCL11A基因(例如，BCL11A基因的一个或两个等位基因)，可以增加β球蛋白的水平。γ球蛋白可以替换血红蛋白复合物中的β球蛋白并且有效携带氧气到组织中，从而改善镰状细胞疾病表型。

在本发明的一个方面中，通过调整本发明的CRISPR-Cas系统来包括涉及编辑靶核酸序列或者调解靶核酸序列的表达的方法和组合物以及其结合癌症免疫治疗的应用。参考WO 2015/161276中的基因治疗的应用，该专利涉及可以用于通过改变一种或多种T细胞表达的基因来影响T细胞增殖、存活和/或功能的方法和组合物，这些T细胞表达的基因例如是FAS、BID、CTLA4、PDCD1、CBLB、PTPN6、TRAC和/ 或TRBC基因中的一种或多种。在一个相关方面中，T-细胞增殖是通过改变一种或多种T细胞表达的基因，例如CBLB和/或PTPN6基因、FAS和/或BID基因、CTLA4和/或PDCDI、和/或TRAC和/或TRBC基因来影响。

在患者恶性肿瘤中嵌合抗原受体(CAR)19T细胞展示出抗白血病作用。然而，白血病患者常常并不具有足够收集的T细胞，这意味着治疗必须涉及来自供体的修饰的T细胞。因此，存在建立供体T 细胞银行的兴趣。卡西姆(Qasim)等人(“Talen工程化通用CAR19 T细胞在B-ALL中的第一临床应用(First Clinical Application of Talen EngineeredUniversal CAR19 T Cells in B-ALL)”，第57届ASH年会和博览会 (ASH 57th AnnualMeeting and Exposition)，2015年12月5-8日，摘要2046 (https://ash.confex.com/ash/2015/webprogram/Paper81653.html，2015年11月在线公开)讨论了修饰CAR19 T 细胞以通过破坏T细胞受体表达和CD52靶向来消除移植物抗宿主病风险。此外，靶向CD52细胞以使得它们对阿仑单抗不敏感，并因此允许阿仑单抗预防宿主介导的人类白细胞抗原(HLA)错配的CAR19 T-细胞排斥。研究者使用第三代自灭活载体编码连接至RQR8的4g7 CAR19(CD19scFv-4-1BB-CD3ζ)，然后用两对 TALEN mRNA电穿孔细胞，以对T细胞受体(TCR)α恒定链座位和CD52基因座位进行多重靶向。使用 CliniMacsα/βTCR缺失来消耗离体扩增之后仍表达TCR的细胞，从而产生具有<1％TCR表达的一种T细胞产物(UCART19)，85％的细胞表达CAR19并且64％变成CD52阴性。给予修饰的CAR19 T细胞，以治疗患者的复发性急性淋巴母细胞白血病。在此提供的教义提供了用于提供修饰的造血干细胞及其子代的有效方法，这些细胞包括但不限于，血液骨髓系和淋巴系的细胞，包括T细胞、B细胞、单核细胞、巨噬细胞、中性粒细胞、嗜碱性粒细胞、嗜酸性粒细胞、红细胞、树突细胞、以及巨核细胞或血小板、以及中性杀伤性细胞以及其前体或祖细胞。此类细胞可以是通过敲除、敲入或以其他方式调控靶标，例如以去除或调控如上所述的CD52，以及其他靶标(包括但不限于CXCR4和PD-1)来修饰。因此，本发明的组合物、细胞和方法可以用于调控免疫反应并且用于结合向患者给予T细胞或其他细胞的修改来治疗(不限于)恶性肿瘤、病毒感染以及免疫症状。

参考WO 2015/148670并且通过在此的教义，本发明包括此文献结合在此的教义应用的方法和材料。在基因治疗的一个方面中，包括用于编辑与人类免疫缺陷病毒(HIV)和获得性免疫缺陷综合症 (AIDS)相关或有关的靶序列的方法和组合物。在一个相关反面中，在此描述的发明包括通过在C-C趋化因子受体类型5(CCR5)的基因中引入一个或多个突变来预防和治疗HIV感染和AIDS。该CCR5基因也称为CKR5、CCR-5、CD195、CKR-5、CCCKR5、CMKBR5、IDDM22、以及CC-CKR-5。在另一个方面中，在此描述的发明包括提供对于HIV感染的预防或减少和/或对HIV进入宿主细胞的能力的预防或减小，例如在已感染的受试者中。HIV的示例性宿主细胞包括但不限于，CD4细胞、T细胞、肠道相关淋巴组织(GALT)、巨噬细胞、树突细胞、骨髓前体细胞、以及小胶质细胞。病毒进入宿主细胞需要病毒糖蛋白gp41和gp120 与CD4受体和共受体例如CCR5相互作用。如果在宿主细胞表面不存在共受体例如CCR5，则病毒不能结合并进入宿主。疾病的进展因此受到阻碍。通过敲除或敲下宿主细胞内的CCR5，例如通过引入保护性突变 (诸如CCR5δ32突变)，阻止了HIV病毒进入宿主细胞。

X连锁慢性肉芽肿病(CGD)是一种由于吞噬细胞NADPH氧化酶活性缺乏或减小而产生的宿主防御性遗传病症。使用靶向或校正突变(吞噬细胞NADPH氧化酶活性缺乏或减小)的CRISPR-Cas(Cpf1) 系统(例如，具有递送吞噬细胞NADPH氧化酶的编码序列的HDR模板)；具体地说，gRNA可以靶向引起 CGD(吞噬细胞NADPH氧化酶缺乏症)的突变，并且HDR可以提供对于吞噬细胞NADPH氧化酶的适当表达的编码。使靶向含有突变-和-Cas(Cpf1)蛋白的粒子的gRNA与携带突变的HSC接触。该粒子还可以含有校正对于吞噬细胞NADPH氧化酶的适当表达的突变的适合HDR；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚。

范科尼贫血：在至少15种基因(FANCA、FANCB、FANCC、FANCD1/BRCA2、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCJ/BACH1/BRIP1、FANCL/PHF9/POG、FANCM、FANCN/PALB2、FANCO/Rad51C、以及FANCP/SLX4/BTBD12)上的突变可以引起范科尼贫血。由这些基因产生的蛋白质涉及称为FA途径的细胞过程。当形成新DNA拷贝(称为DNA复制)的过程由于DNA损害而阻断时，该FA 途径接通(激活)。该FA途径将某些蛋白质发送到损害区域，从而触发DNA修复，以便可以继续DNA复制。 FA途径具体负责称为链间交联(ICL)的某种类型的DNA损害。当DNA相反链上的两个DNA构建块(核苷酸)异常附接或连接在一起时，会停止DNA复制过程，从而出现ICL。ICL可以是通过体内产生的有毒物质累积或者通过用某些癌症治疗药物进行治疗引起的。与范科尼贫血相关联的八种蛋白质组合在一起形成称为FA核心复合物的复合物。该FA核心复合物激活称为FANCD2和FANCI的两种蛋白质。这两种蛋白质的激活将DNA修复蛋白带到ICL区域，以便去除交联并且可以继续DNA修复。FA核心复合物。更具体地说，FA 核心复合物是一种由FANCA、FANCB、FANCC、FANCE、FANCF、FANCG、FANCL、以及FANCM组成的核多蛋白复合物，充当E3泛素连接酶并且介导ID复合物的激活，该ID复合物是由FANCD2和FANCI组成的异源二聚体。一旦单泛素化，它就与FA途径下游的经典肿瘤抑制物相互作用，这些抑制物包括 FANCD1/BRCA2、FANCN/PALB2、FANCJ/BRIP1、以及FANCO/Rad51C，并且由此通过同源重组(HR) 帮助DNA修复。80％至90％的FA情况是由于三种基因FANCA、FANCC、以及FANCG之一的突变。这些基因提供用于产生FA核心复合物组分的指示。与FA核心复合物相关联的此类基因中的突变将使得复合物无功能并且破坏整个FA途径。因此，DNA损害未得到有效修复并且ICL随着时间累积。盖泽尔哈特 (Geiselhart)，“评论文章，通过范科尼贫血途径破坏的信号传导导致造血干细胞生物学功能障碍：基本机制和潜在治疗策略(Review Article,Disrupted Signaling through the Fanconi AnemiaPathway Leads to Dysfunctional Hematopoietic Stem Cell Biology:UnderlyingMechanisms and Potential Therapeutic Strategies)”，贫血(Anemia)，第2012卷(2012)，文章ID 265790,http://dx.doi.org/10.1155/2012/265790讨论了FA和涉及编码FANCC基因的引起体内HSC校正的慢病毒股骨内排斥的动物实验。使用靶向并校正与 FA相关的一个或多个突变的CRISPR-Cas(Cpf1)系统，例如具有分别靶向引起FA的突变FANCA、FANCC、或FANCG中的一个或多个并且提供FANCA、FANCC、或FANCG中的一个或多个的校正表达的一种或多种 gRNA和一种或HDR模板的CRISPR-Cas(Cpf1)系统，；例如，gRNA可以靶向关于FANCC的突变，并且 HDR可以提供对于FANCC的适当表达的编码。使靶向含有一个或多个突变(例如，涉及FA的一个或多个突变，诸如关于FANCA、FANCC或FANCG的任何一种或多种的一个或多个突变)-和-Cas(Cpf1)蛋白的粒子的gRNA与携带这种或这些突变的HSC接触。该粒子还可以含有校正对于涉及FA的一种或多种蛋白质的适当表达的突变，诸如FANCA、FANCC或FANCG中的一个或多个突变的适合HDR模板；或者HSC可以与含有或递送HDR模板的第二粒子或载体接触。可以给予如此接触的细胞；并且任选地处理/扩增；参考卡蒂亚。

在此讨论的粒子(例如，关于含有一种或多种gRNA和Cas(Cpf1)，任选地一种或多种HDR 模板，或者一种或多种HDR模板的粒子；例如关于B型血友病、SCID、SCID-X1、ADA-SCID、遗传性高酪胺酸血症、β-地中海贫血、X连锁CGD、威斯科特-奥尔德里奇综合征、范科尼贫血、肾上腺脑白质营养不良(ALD)、异染性脑白质营养不良(MLD)、HIV/AIDS、免疫缺陷疾病、血液疾病、或者遗传性溶酶体贮积病)有利地通过将一种或多种gRNA和Cas(Cpf1)蛋白的混合物(任选地含有一种或多种HDR模板或者当关于一种或多种模板的单独粒子是希望的时此类混合物仅含有一种或多种HDR模板)与包含表面活性剂、磷脂、生物可降解聚合物、脂蛋白以及醇或基本上由其组成或由其组成的混合物混合来获得或可获得(其中一种或多种gRNA靶向HSC中的一个遗传座位或多个遗传座位)。

实际上，本发明尤其适用于使用基因组编辑治疗造血性遗传病症，以及适用于治疗免疫缺陷病症，诸如遗传性免疫缺陷病症，尤其通过使用在此讨论的粒子技术。遗传性免疫缺陷病是其中本发明的基因组编辑干预可以成功的疾病。原因包括：其中免疫细胞是子集的造血细胞是治疗可进入的。它们可以从身体内去除并且自体或同种异体移植。另外，某些遗传免疫缺陷病例如重症综合性免疫缺陷(SCID)形成免疫细胞的增殖性缺点。通过少见的自发性“逆转”突变校正引起SCID的遗传性病变表明校正甚至一个淋巴细胞祖细胞可以足以恢复患者的免疫功能.../../../Users/t_kowalski/AppData/Local/Microsoft/Windows/Temporary Internet Files/Content.Outlook/GA8VY8LK/TreatingSCID for Ellen.docx-_ENREF_1。参见布索，P.等人，来源于体内单个人类T细胞前体的T细胞全部组成部分的多样性、功能性和稳定性(Diversity,functionality,and stabilityof the T cell repertoire derived in vivo from a single human T cellprecursor)。美国国家科学院院刊97,274-278 (2000)。编辑细胞的选择性优点使得甚至低水平的编辑引起治疗效果。本发明的此效果可以见于SCID、威斯科特-奥尔德里奇综合征、以及在此提及的其他病状中，包括其他遗传性造血病症，诸如α地中海贫血和β 地中海贫血，其中血红细胞缺乏不利地影响红系祖细胞的适合度。

NHEJ和HDR DSB修复的活性随着细胞类型和细胞状态而显著改变。NHEJ不是通过细胞周期高度调节的并且它在各细胞类型中均是有效的，从而在可进入靶细胞群体中允许高水平的基因破坏。相比之下，HDR主要在S/G2期过程中起作用，并且因此限于活跃分裂的细胞，从而、限制了需要有丝分裂细胞的精确基因组修饰的治疗[奇奇阿，A.(Ciccia,A.)和埃利奇，S.J.(Elledge,S.J.)分子细胞(Molecular cell) 40,179-204(2010)；查普曼，J.R.等人，分子细胞47,497-510(2012)]。

经由HDR校正的效率可以是通过靶向座位的表观遗传状态或序列或所使用的特定修复模板构造(单链对比双链、长同源臂对比短同源臂)来控制的[哈斯因-贝伊-阿比纳，S.等人，新英格兰医学杂志346, 1185-1193(2002)；加斯帕，H.B.等人，柳叶刀364,2181-2187(2004)；博伊默，K.J.(Beumer,K.J.)等人， G3(2013)]。靶细胞中NHEJ和HDR机构的相对活性也可以影响基因校正效率，因为这些途径可以竞争恢复 DSB[博伊默，K.J.等人，美国国家科学院院刊105,19821-19826(2008)]。HDR还增强NHEJ策略中不可见的递送挑战，因为它需要同时递送核酸酶和修复模板。在实践中，这些限制到目前为止导致治疗上相关的细胞类型中的HDR水平较低。临床翻译因此主要集中于治疗疾病的NHEJ策略，尽管对于B型血友病和遗传性高酪胺酸血症的小鼠模型目前已描述了概念验证的临床前HDR治疗[李，H.等人，自然475,217-221 (2011)；殷，H.等人，自然生物技术32,551-553(2014)]。

任何给定的基因组编辑应用可以包括蛋白、小RNA分子、和/或修复模板的组合，使得这些多个部分的递送基本上比小分子治疗剂更具有挑战性。已开发用于递送基因组编辑工具的两种主要策略：离体和体内。在离体治疗中，从身体内取出患病细胞，进行编辑并且然后将它移植回到患者中。离体编辑具有允许良好限定靶细胞群体并且指定递送到细胞的治疗分子的特定剂量的优点。当脱靶修饰是所关心的问题时，后一种考虑因素可能是特别重要的，因为滴定核酸酶的量可以减少突变(徐等人，2013)。离体方法的另一个优点典型地是由于蛋白质和核酸到用于研究和基因治疗应用的培养基的细胞中的有效递送系统的开发而可以实现的高编辑率。

离体方法可能存在限制应用于少数疾病的缺点。例如，靶细胞必须能够存活于身体之外的操纵。对于许多组织，如大脑，在身体之外培养细胞是一种主要的挑战，因为细胞难以存活或者失去其体内功能所需要的特征。因此，鉴于本披露和本领域的知识，关于具有适于离体培养和操纵的成体干细胞群体的组织(诸如造血系统)的离体治疗，可以通过CRISPR-Cas(Cpf1)系统。[邦恩，H.F.(Bunn,H.F.)和阿斯特尔，J.(Aster,J.)，血液病的病理生理学(Pathophysiology of blood disorders)，(麦格劳-希尔出版社，纽约，2011)]

体内基因组编辑设计将编辑系统直接递送到其天然组织的细胞类型中。体内编辑允许治疗其中受影响细胞群不适于离体操纵的疾病。另外，将核酸酶递送至原位细胞允许治疗多个组织和细胞类型。这些特征可能允许体内治疗应用于比离体治疗更广泛的疾病范围。

到此为止，体内编辑已大部分通过使用具有限定的组织特异性趋向性的病毒载体来实现。此类载体目前在货物负载力和趋向性方面是有限的，这使得这种模式的治疗局限于其中使用临床上有用的载体的转导是有效的器官系统，诸如肝脏、肌肉和眼睛[科特曼，M.A.(Kotterman,M.A.)和谢弗，D.V.(Schaffer, D.V.)遗传学自然评论(Naturereviews.Genetics)15,445-451(2014)；阮，T.H.(Nguyen,T.H.)和费里， N.(Ferry,N.)，基因治疗11增刊1，S76-84(2004)；博伊，S.E.(Boye,S.E.)等人，分子治疗：美国基因治疗协会杂志21,509-519(2013)]。

体内递送的潜在屏障是可以响应于治疗所需要的大量病毒而形成的免疫反应，但是此现象并不是基因编辑所独有的并且在其他基于病毒的基因治疗中也观察到[贝西，N.(Bessis,N.)等人，基因治疗 11增刊1，S10-17(2004)]。还可能的是来自编辑的核酸酶本身的肽在MHC I类分子上呈递以刺激免疫反应，尽管几乎没有证据支持此情况以临床前水平发生。关于此治疗模式的另一个主要难题是控制体内基因组编辑核酸酶的分布以及随后的剂量，从而导致可能难以预测的脱靶突变特征。然而，鉴于本披露和本领域的知识，包括使用用于治疗癌症的基于病毒-和-粒子的治疗，例如通过粒子或病毒递送的HSC体内修饰是技术人员的知识范围内。

离体编辑治疗：关于造血细胞纯化、培养和移植的长期存在的临床专业知识使得影响血液系统的疾病诸如SCID、范科尼贫血、威斯科特-奥尔德里奇综合征以及镰状细胞贫血成为离体编辑治疗的集中点。集中于造血细胞的另一个原因是，由于先前设计血液病症的基因治疗的努力，已经存在相对高效率的递送系统。在这些优点的情况下，这种治疗模式可以适用于其中编辑细胞具有适合度优点的疾病，以使得少量移植的编辑细胞可以扩展并且治疗疾病。一种这样的疾病是HIV，其中感染导致对CD4+T细胞的适合度缺点。

离体编辑治疗最近扩展包括基因校正策略。在来自吉诺维斯和同事的最新论文中克服了对于 HDR的离体屏障，他们实现在从罹患SCID-X1的患者获得的造血干细胞(HSC)中突变的IL2RG基因的基因校正[吉诺维斯，P.等人，自然510,235-240(2014)]。吉诺维斯等人使用多模态策略完成HSC中的基因校正。首先，使用含有编码IL2RG的治疗性cDNA的HDR模板的整合有效性慢病毒转导HSC。在转导之后，用编码靶向IL2RG中的突变热点的ZFN的mRNA电穿孔细胞，以刺激基于HDR的基因校正。为了增加HDR 比率，使用小分子优化培养条件以鼓励HSC分裂。在优化的培养条件下，在培养中以治疗相关速率获得核酸酶和HDR模板、来自SCID-X1患者的基因校正的HSC。来自未受影响的个体的经受相同基因校正程序的HSC可以在小鼠中维持长期造血，这是HSC功能的优质标准。HSC能够产生所有造血细胞类型并且可以自体移植，从而使得它们成为所有造血性遗传病症的极其有价值的细胞群体[魏斯曼，I.L.(Weissman,I.L.) 和静留，J.A.(Shizuru,J.A.)血液112,3543-3553(2008)]。理论上，基因校正的HSC可以用于治疗广泛范围的遗传性血液病症，这使得此研究成为治疗性基因组编辑的令人兴奋的重大发现。

体内编辑治疗：体内编辑可以有利地根据本披露和本领域的治疗来使用。对于其中递送有效的器官系统，已存在许多令人兴奋的临床前治疗成功案例。成功的体内编辑治疗的第一个实例在B型血友病的小鼠模型中得到证实[李，H.等人，自然475,217-221(2011)]。如前所述，B型血友病是一种通过编码因子IX(一种决定性凝血级联组分)的基因的失功能突变引起的X连锁隐性病症。在严重受影响个体中使因子IX活性恢复至超过其水平的1％可以使该疾病转变成严重程度较轻的形式，因为重组因子IX输注到从年轻时期开始预防的此类患者中以达到此类水平，极大地改善了临床并发症[洛夫维斯特，T.等人，内科医学杂志241,395-400(1997)]。因此，改变患者临床结果仅需要低水平的HDR基因校正。此外，因子IX是由肝脏合成和分泌的，该肝脏是一种可以通过编码编辑系统的病毒载体有效转导的器官。

使用编码ZFN和校正的HDR模板的亲肝腺相关病毒(AAV)血清型，获得小鼠肝脏内突变的人源化因子IX基因的多至7％基因校正[李，H.等人，自然475,217-221(2011)]。这使得凝血因子形成动力学(一种凝血级联功能的测量值)得到改进，这首先表明体内编辑治疗不仅是可行的而且是有效的。如在此所讨论的，技术人员根据在此的教义和本领域的知识(例如，李)使用含有HDR模板的粒子和靶向X连锁隐性病症的突变以逆转失功能突变的CRISPR-Cas(Cpf1)系统来解决B型血友病。

建立此研究，其他组最近使用利用CRISPR-Cas的肝脏体内基因组编辑，以成功治疗遗传性高酪胺酸血症的小鼠模型并且形成提供针对心血管疾病的保护的突变。这两种不同的应用表明用于涉及肝功能缺陷的病症的这种方法的多功能性[殷，H.等人，自然生物技术32,551-553(2014)；丁，Q.(Ding,Q.) 等人，循环研究(Circulation research)115,488-492(2014)]。体内编辑对于其他器官系统的应用是必需的，以证明此策略是广泛可用的。目前，已进行优化病毒和非病毒载体的努力，以扩展可以用此治疗模式治疗的病症范围[科特曼，M.A.和谢弗，D.V.遗传学自然评论15,445-451(2014)；殷，H.等人，遗传学自然评论15,541-555(2014)]。如在此所讨论的，技术人员根据在此的教义和本领域的知识(例如，殷)使用含有HDR模板的粒子和靶向突变的CRISPR-Cas(Cpf1)系统来解决遗传性高酪胺酸血症。

靶向缺失，治疗应用：基因的靶向缺失可以是优选的。因此，优选的是涉及免疫缺陷病症、血液学病状或遗传性溶酶体贮积病，例如B型血友病、SCID、SCID-X1、ADA-SCID、遗传性高酪胺酸血症、β-地中海贫血、X连锁CGD、威斯科特-奥尔德里奇综合征、范科尼贫血、肾上腺脑白质营养不良(ALD)、异染性脑白质营养不良(MLD)、HIV/AIDS、其他代谢性病症的基因，编码涉及疾病的错误折叠蛋白质的基因，导致涉及疾病的功能缺失的基因；总体上，在HSC中可以使用具有认为有利的粒子系统的任何在此讨论的递送系统靶向的突变。

在本发明中，CRISPR酶的免疫原性具体地可以根据腾格里(Tangri)等人相对于红细胞生成素首先陈叙并随后发展的方法来减小。因此，定向进化或合理设计可以用于减少大部分种类(人类或其他种类)中的CRISPR酶(例如Cpf1)的免疫原性。

基因组编辑：本发明的CRISPR/Cas(Cpf1)系统可以用于校正先前使用TALEN和ZFN以及慢病毒(包括如在此所讨论的)尝试时有限成功的基因突变。还参见WO2013163628。

治疗大脑、中枢神经和免疫系统的疾病

本发明还考虑将CRISPR-Cas系统递送到大脑或神经元。例如，RNA干扰(RNAi)通过减少亨廷顿病的致病基因HTT的表达来提供针对这种病症的治疗潜力(例如，参见，麦克布赖德(McBride)等人，分子治疗，第19卷，第12期，2011年12月，第2152-2162页)，因此申请者假设它可以用于并且/或者适于CRISPR-Cas系统。该CRISPR-Cas系统可以使用一种减去反义序列脱靶可能性的算法来生成。CRISPR-Cas 序列可以靶向小鼠、恒河猴或人类亨廷顿蛋白的外显子52中的序列并且在病毒载体诸如AAV中表达。动物 (包括人类)可以使用每个脑半球约三次显微注射(总计六次注射)：前连台的头侧前1mm(12μl)并且其余两次注射(分别是12μl和10μl)与前一次注射的尾侧间隔3mm和6mm，其中AAV是1e12 vg/ml，速率是约1μl/min，并且将针再放置于原处5分钟以允许注入，以从针尖扩散。

迪非莉娅(DiFiglia)等人(美国国家科学院院刊，2007年10月23日，第104期，第43卷， 17204-17209)观察到单次给予到成人纹状体的siRNA靶向Htt中可以沉默突变体Htt，减轻神经元病理，并且延迟在快速起效的病毒转基因小鼠HD模型中观察到的异常行为表型。迪非莉娅用2μl的10μM Cy3-标记的cc-siRNA-Htt或未轭合siRNA-Htt注射到小鼠纹状体内中。在本发明中对于人类可以考虑类似剂量的靶向 Htt的CRISPR Cas，例如可以纹状体内注射约5-10ml 10μM靶向Htt的CRISPR Cas。

在另一个实例中，布德罗(Boudreau)等人(分子治疗，第17卷第6期，2009年6月)将5μl 表达htt-特异性RNAi病毒(在4×10¹²个病毒基因组/ml下)的重组AAV血清型2/1载体注射到纹状体中。在本发明中对于人类可以考虑类似剂量的靶向Htt的CRISPR Cas，例如可以纹状体内注射约10-20ml(4×10¹²个病毒基因组/ml)靶向Htt的CRISPR Cas。

在另一个实例中，可以连续给予靶向HTT的CRISPR Cas(例如，参见，余等人，细胞150, 895-908，2012年8月31日)。余等人利用递送0.25ml/h的渗透泵(型号2004)递送300mg/天的ss-siRNA或磷酸盐缓冲盐水(PBS)(西格玛奥德里奇公司)，持续28天，并且使用设计为递送0.5μl/h的泵(型号2002) 递送75mg/天的阳性对照MOE ASO，持续14天。用以无菌PBS稀释的ss-siRNA或MOE填充泵(杜雷克特公司(Durect Corporation))，并且然后在37℃孵育24或48小时(型号2004)，之后移植。用2.5％异氟烷麻醉小鼠并且然后在颅底做出中线切口。使用立体定位引导件，将插管移植到右侧脑室并且用乐泰胶固定。将附接至Alzet微型渗透泵的导管附接到该插管，并且将泵置于中肩胛区域皮下。切口用5.0尼龙缝线闭合。在本发明中对于人类可以考虑类似剂量的靶向Htt的CRISPR Cas，例如可以给予约500至1000g/天的靶向Htt 的CRISPR Cas。

在连续输注的另一个实例中，斯泰尔斯(Stiles)等人(实验神经病学(Experimental Neurology) 233(2012)463-471)将具有钛针尖的脑实质内导管移植到右核壳中。将导管连接到皮下植入腹部的

II型泵(美敦力公司(MedtronicNeurological)，明尼苏达州明尼阿波利斯市(Minneapolis, MN))。在7天输注6μL/天的磷酸盐缓冲盐水之后，用测试品再次填充泵并且编程以用于连续递送7天。以约0.1至0.5μL/min的不同输注速率输注约2.3至11.52mg/d的siRNA。在本发明中对于人类可以考虑类似剂量的靶向Htt的CRISPR Cas，例如可以给予约20至200mg/天的靶向Htt的CRISPR Cas。在另一个实例中，转让给桑加莫公司的美国专利公开号20130253040的方法也可以从TALES修改为本发明的核酸靶向系统，以用于治疗亨廷顿病。

在另一个实例中，转让给桑加莫公司的美国专利公开号20130253040(WO2013130824)的方法也可以从TALES修改为本发明的CRISPR Cas系统，以用于治疗亨廷顿病。

在布罗德研究所等人名下的WO2015089354 A1(通过引用结合在此)描述针对亨廷顿病(HP) 的靶标。关于亨廷顿病的CRISPR复合物的可能的靶基因：PRKCE；IGF1；EP300；RCOR1；PRKCZ；HDAC4；以及TGM2。因此，在本发明的一些实施例中，PRKCE；IGF1；EP300；RCOR1；PRKCZ；HDAC4；以及TGM2中的一种或多种可以被选择为用于亨廷顿病的靶标。

其他三核苷酸重复序列病症。这些病症可以包括以下各项中的任一种：I类包括亨廷顿病(HD) 和脊髓小脑性共济失调；II类扩增是在表型上多样的，其中异种扩增通常数量较小但也可见于基因外显子。并且III类包括脆性X综合征、强直性肌营养不良、两种脊髓小脑性共济失调、青少年肌阵挛癫痫、以及弗里德赖希氏共济失调。

本发明的另一个方面涉及利用CRISPR-Cas系统校正已鉴定为与拉福拉病相关联的EMP2A和 EMP2B基因中的缺陷。拉福拉病是一种常染色体隐性病状，它的特征在于在青年期可以作为癫痫发作开始的进行性肌阵挛性癫痼。该疾病的几种情况可以是由已鉴定的基因中突变引起的。该疾病引起惊厥、肌肉痉挛、行走困难、痴呆、以及最终死亡。目前没有已证明针对疾病进展有效的治疗。与癫痫相关联的其他遗传性异常也可以是通过CRISPR-Cas系统靶向的并且潜在遗传学在癫痫遗传学和遗传性癫痫(Genetics of Epilepsy andGenetic Epilepsies中进一步描述，该文献由朱利亚诺·阿文济尼(Giuliano Avanzini)、杰弗里L. 诺贝尔斯(Jeffrey L.Noebels)编辑，马里亚尼儿科神经学基础(MarianiFoundation Paediatric Neurology):20； 2009)。

转让给桑加莫生物科技公司的美国专利公开号20110158957中涉及灭活T细胞受体(TCR)基因的方法也可以被修改成本发明的CRISPR Cas系统。在另一个实例中，转让给桑加莫生物科技公司的美国专利公开号20100311124和转让给策勒克提斯公司的美国专利公开号20110225664中均涉及灭活谷氨酰胺合成酶基因表达基因的方法也可以被修改成本发明的CRISPR Cas系统。

用于大脑的递送选项包括将DNA或RNA形式的CRISPR酶和指导RNA封装成脂质体并且与特洛伊木马分子轭合以进行跨血脑屏障(BBB)递送。已显示特洛伊木马分子有效于将B-gal表达载体递送到非人类灵长动物大脑中。相同方法可以用于递送含有CRISPR酶和指导RNA的载体。例如，夏CF (Xia CF)和博阿多RJ(Boado RJ)，巴德里奇WM(Pardridge WM)(“经由人类胰岛素受体使用抗生物素蛋白-生物素技术对siRNA进行抗体介导的靶向(Antibody-mediated targeting of siRNA via the human insulin receptor usingavidin-biotin technology)”。分子药剂学(Mol Pharm.)，2009年5月-6月；6(3):747-51.doi:10.1021/mp800194)描述了将短干扰RNA(siRNA)递送到培养基中的细胞中的方式，并且在体内通过组合使用受体特异性单克隆抗体(mAb)和抗生物素蛋白-生物素技术是可能的。作者们还报道了因为靶向mAb与siRNA之间的键通过抗生物素蛋白-生物素技术是稳定的，所以在静脉内给予靶向的siRNA之后在体内观察到远距离位点诸如大脑处的RNAi效果。

张等人(分子治疗，2003年1月；7(1):11-8.)描述了编码报道物诸如荧光素酶的表达质粒封装在包含85nm聚乙二醇化免疫脂质体的“人工病毒”内部的方式，该免疫脂质体与人胰岛素受体(HIR) 的单克隆抗体(MAb)一起靶向猕猴大脑中。在静脉内注射之后，HIRMAb使得携带外源性基因的脂质体经受跨血脑屏障的转胞吞作用和跨神经元质膜的胞吞作用。与大鼠相比，在猕猴中大脑荧光素酶基因表达水平高50倍。通过组织化学和共焦显微术二者证实了灵长类动物大脑中β-半乳糖苷酶基因的广泛神经元表达。作者们指示此方法在24小时内形成可行的可逆成人转基因。因此，使用免疫脂质体是优选的。这些可以结合抗体一起用于靶向特异性组织或细胞表面蛋白。

阿尔茨海默病

美国专利公开号20110023153描述了使用锌指核酸酶遗传性修饰与阿尔茨海默病相关联的细胞、动物和蛋白质。一旦修饰，细胞和动物就可以使用已知方法进一步测试，以使用AD研究中常用的测量(诸如但不限于，学习和记忆、焦虑、抑郁、成瘾、以及感觉运动功能)以及测量行为、功能、病理学、代谢和生物化学功能的测定来研究靶向突变对于AD的发展和/或进展的作用。

本披露包括编辑编码与AD相关联的蛋白质的任何染色体序列。AD相关蛋白典型地是基于 AD相关蛋白与AD病症的实验相关性来选择。例如，AD相关蛋白的产生率或循环浓度在患有AD病症的群体中相对于不存在AD病症的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，AD相关蛋白可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应 (Q-PCR)。

例如，阿尔茨海默病相关蛋白的实例可以包括由VLDLR基因编码的极低密度脂蛋白受体蛋白(VLDLR)、由UBA1基因编码的泛素样修饰剂激活酶1(UBA1)、或由UBA3基因编码的NEDD8激活酶E1催化亚基蛋白(UBE1C)。

作为非限制性实例，与AD相关联的蛋白质包括但不限于如下所列出的蛋白质：染色体序列编码蛋白质，ALAS2δ-氨乙酰丙酸合酶2(ALAS2)；ABCA1 ATP-结合盒式转运体(ABCA1)；ACE血管紧张素转化酶I(ACE)；APOE载脂蛋白E前体(APOE)；APP淀粉样前体蛋白(APP)；AQP1水通道蛋白1(AQP1)；BIN1 Myc盒依赖性相互作用蛋白1或桥连整合蛋白1(BIN1)；BDNF脑衍生神经元营养因子(BDNF)；BTNL8嗜乳脂蛋白样蛋白8(BTNL8)；C1ORF49染色体1开放阅读框49；CDH4钙粘蛋白-4；CHRNB2神经元乙酰胆碱受体亚基β-2；CKLFSF2CKLF样MARVEL跨膜结构域蛋白2 (CKLFSF2)；CLEC4E C-型凝集素结构域家族4成员e(CLEC4E)；CLU聚集素蛋白(也称为载脂蛋白 J)；CR1红细胞补体受体1(CR1，也称为CD35；C3b/C4b受体和免疫粘附受体)；CR1L红细胞补体受体1(CR1L)；CSF3R粒细胞集落刺激因子3受体(CSF3R)；CST3血清胱抑素C或血清胱抑素3；CYP2C 细胞色素P450 2C；DAPK1死亡相关蛋白激酶1(DAPK1)；ESR1雌激素受体1；FCAR IgA受体的Fc 片段(FCAR，也称为CD89)；FCGR3B IgG Fc片段低亲和力受体IIIb(FCGR3B或CD16b)；FFA2游离脂肪酸受体2(FFA2)；FGA纤维蛋白原(因子I)；GAB2 GRB2-相关性结合蛋白2(GAB2)；GAB2 GRB2- 相关性结合蛋白2(GAB2)；GALP甘丙肽样肽；GAPDHS精子发生的甘油醛-3-磷酸脱氢酶(GAPDHS)； GMPBGMBP；HP结合珠蛋白(HP)；HTR7 5-羟色胺(血清素)受体7(腺苷酸环化酶连接)；IDE胰岛素降解酶；IF127 IF127；IFI6干扰素α诱导型蛋白6(IFI6)；IFIT2具有三角形四肽(tetratricopeptide) 重复单元的干扰素诱导型蛋白2(IFIT2)；IL1RN白介素-1受体拮抗剂(IL-1RA)；IL8RA白介素8受体 α(IL8RA或CD181)；IL8RB白介素8受体β(IL8RB)；JAG1Jagged 1(JAG1)；KCNJ15整流钾通道子家族J成员15(KCNJ15)；LRP6低密度脂蛋白受体相关蛋白6(LRP6)；MAPT微管相关蛋白τ(MAPT)； MARK4 MAP/微管亲和力调节激酶4(MARK4)；MPHOSPH1 M期磷蛋白1；MTHFR 5,10-亚甲基四氢叶酸还原酶；MX2干扰素诱导型GTP-结合蛋白Mx2；NBN Nibrin(也称为NBN)；NCSTN呆蛋白；NIACR2 烟酸受体2(NIACR2，也称为GPR109B)；NMNAT3烟酰胺核苷酸腺苷转移酶3；NTM Neurotrimin(或 HNT)；ORM1血清类粘蛋白(Orosmucoid)1(ORM1)或α-1-酸糖蛋白1；P2RY13 P2Y嘌呤受体13 (P2RY13)；PBEF1烟酰胺磷酸核糖转移酶(NAmPRT酶或Nampt)也称为前-B-细胞集落增强因子1 (PBEF1)或内脂素；PCK1磷酸烯醇丙酮酸羧化激酶；PICALM磷脂酰肌醇结合网格蛋白装配蛋白 (PICALM)；PLAU尿激酶纤溶酶原激活物(PLAU)；PLXNC1丛状蛋白C1(PLXNC1)；PRNP朊病毒蛋白；PSEN1早老素蛋白1(PSEN1)；PSEN2早老素蛋白2(PSEN2)；PTPRA蛋白酪氨酸激酶磷酸酶受体A型蛋白(PTPRA)；RALGPS2具有PH结构域和SH3结合基序的Ral GEF 2(RALGPS2)；RGSL2 G蛋白信号传导样调节因子2(RGSL2)；SELENBP1硒结合蛋白1(SELNBP1)；SLC25A37线粒体转铁蛋白(Mitoferrin)-1；SORL1选蛋白(sortilin)相关受体L(DLR类)含A重复单元蛋白(SORL1)；TF 运铁蛋白；TFAM线粒体转录因子A；TNF肿瘤坏死因子；TNFRSF10C肿瘤坏死因子受体超家族成员 10C(TNFRSF10C)；TNFSF10肿瘤坏死因子受体超家族(TRAIL)成员10a(TNFSF10)；UBA1泛素样修饰物激活酶1(UBA1)；UBA3 NEDD8-激活酶E1催化亚基蛋白(UBE1C)；UBB泛素B蛋白(UBB)； UBQLN1泛醌蛋白(Ubiquilin)-1；UCHL1泛素羧基末端酯酶L1蛋白(UCHL1)；UCHL3泛素羧基末端水解酶同工酶L3蛋白(UCHL3)；VLDLR极低密度脂蛋白受体蛋白(VLDLR)

在示例性实施例中，与AD相关联且染色体序列被编辑的蛋白质可以是由VLDLR基因编码的极低密度脂蛋白受体蛋白(VLDLR)、由UBA1基因编码的泛素样修饰物激活酶1(UBA1)、由UBA3 基因编码的NEDD8-激活酶E1催化亚基蛋白(UBE1C)、由AQP1基因编码的水通道蛋白1(AQP1)、由 UCHL1基因编码的泛素羧基末端酯酶L1蛋白(UCHL1)、由UCHL3基因编码的泛素羧基末端水解酶同工酶L3蛋白(UCHL3)、由UBB基因编码的泛素B蛋白(UBB)、由MAPT基因编码的微管相关蛋白τ (MAPT)、由PTPRA基因编码的蛋白酪氨酸磷酸酶受体A型蛋白(PTPRA)、由PICALM基因编码的磷脂酰肌醇结合网格蛋白装配蛋白(PICALM)、由CLU基因编码的聚集素蛋白(也称为载脂蛋白J)、由PSEN1 基因编码的早老素蛋白1、由PSEN2基因编码的早老素蛋白2、由SORL1基因编码的选蛋白相关受体L (DLR类)含A重复单元蛋白(SORL1)、由APP基因编码的淀粉样前蛋白(APP)、由APOE基因编码的载脂蛋白E前体(APOE)、或者由BDNF基因编码的脑衍生神经元营养因子(BDNF)。在一个示例性实施例中，遗传修饰的动物是大鼠，并且编码与AD相关联的蛋白质的编辑的染色体序列如下：APP淀粉样前蛋白(APP)NM_019288；AQP1水通道蛋白1(AQP1)NM_012778；BDNF脑衍生神经元营养因子NM_012513；CLU聚集素蛋白(也称为载脂蛋白J)NM_053021；MAPT微管相关蛋白τ(MAPT)NM_017212；PICALM磷脂酰肌醇结合网格蛋白装配蛋白(PICALM)NM_053554；PSEN1早老素蛋白 1(PSEN1)NM_019163；PSEN2早老素蛋白2(PSEN2)NM_031087；PTPRA蛋白酪氨酸激酶磷酸酶受体A型蛋白(PTPRA)NM_012763；SORL1选蛋白相关受体L(DLR类)含A重复单元蛋白(SORL1) NM_053519；XM_001065506；XM_217115；UBA1泛素样修饰物激活酶1(UBA1)NM_001014080；UBA3 NEDD8-激活酶E1催化亚基蛋白(UBE1C)NM_057205；UBB泛素B蛋白(UBB)NM_138895；UCHL1 泛素羧基末端酯酶L1蛋白(UCHL1)NM_017237；UCHL3泛素羧基末端水解酶同工酶L3蛋白(UCHL3) NM_001110165；VLDLR极低密度脂蛋白受体蛋白(VLDLR)NM_013155

动物或细胞可以包含编码与AD相关联的蛋白质的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个破坏的染色体序列和编码与AD相关联的蛋白质的0、1、2、3、4、5、6、7、8、9、 10、11、12、13、14、15或更多个染色体整合序列。

编辑或整合的染色体序列可以被修饰为编码与AD相关联的改变的蛋白质。在AD相关染色体序列中的许多突变已与AD相关联。例如，APP中的V7171(即，在位置717处的缬氨酸被改变成异亮氨酸)错义突变引起家族性AD。在早老素蛋白-1中的多重突变诸如H163R(即在位置163处的组氨酸被改变成精氨酸)、A246E(即在位置246处的丙氨酸被改变成谷氨酸)、L286V(即在位置286处的亮氨酸被改变成缬氨酸)以及C410Y(即在位置410处的半胱氨酸被改变成酪氨酸)引起家族性3型阿尔茨海默病。在早老素蛋白-2中的突变诸如N141I(即在位置141处的天冬酰胺被改变成异亮氨酸)、M239V(即在位置239处的甲硫氨酸被改变成缬氨酸)、以及D439A(即在位置439处的天冬氨酸被改变成丙氨酸) 引起家族性4型阿尔茨海默病。AD相关基因的遗传性变型与疾病的其他相关性是本领域已知的。参见，例如华陵(Waring)等人(2008)，神经学档案(Arch.Neurol.)65:329-334，该文献的披露内容通过引用以其整体结合在此。

分泌酶病症

美国专利公开号20110023146描述了使用锌指核酸酶遗传性修饰与分泌酶相关病症相关联的细胞、动物和蛋白质。分泌酶是将前蛋白加工成其生物活性形式所必需的。分泌酶途径的不同组分的缺陷导致许多病症，具体地是具有标志性淀粉状蛋白生成或淀粉样蛋白斑的那些病症，诸如阿尔茨海默病 (AD)。

分泌酶病症和与这些病症相关联的蛋白质是造成许多病症的易感性、病症的存在、病症的严重性或其任何组合的一组不同的蛋白质。本披露包括编辑编码与分泌酶病症相关联的蛋白质的任何染色体序列。与分泌酶病症相关联的蛋白质典型地是基于分泌酶相关蛋白与分泌酶病症的发展的实验相关性来选择的。例如，与分泌酶病症相关联的蛋白质的产生率或循环浓度在患有分泌酶病症的群体中相对于未患有分泌酶病症的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，与分泌酶病症相关联的蛋白质可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应 (Q-PCR)。

作为非限制性实例，与分泌酶病症相关联的蛋白质包括PSENEN(早老素增强子2同源物(秀丽隐杆线虫))、CTSB(组织蛋白酶B)、PSEN1(早老素1)、APP(淀粉样β(A4)前体蛋白)、APH1B(前咽缺陷性1同源物B(秀丽隐杆线虫))、PSEN2(早老素2(阿尔茨海默病4))、BACE1(β-位点APP-切割酶 1)、ITM2B(整合膜蛋白2B)、CTSD(组织蛋白酶D)、NOTCH1(Notch同源物1，易位相关(果蝇))、 TNF(肿瘤坏死因子(TNF超家族，成员2))、INS(胰岛素)、DYT10(肌张力障碍10)、ADAM17(ADAM 金属肽酶结构域17)、APOE(载脂蛋白E)、ACE(血管紧张素转化酶1(肽基二肽酶A)1)、STN(他汀类)、 TP53(肿瘤蛋白p53)、IL6(白介素6(干扰素，β2))、NGFR(神经生长因子受体(TNFR超家族，成员16))、 IL1B(白介素1，β)、ACHE(乙酰胆碱酯酶(Yt血型))、CTNNB1(连环蛋白(钙粘素相关蛋白)，β1， 88kDa)、IGF1(胰岛素样生长因子1(生长调节素C))、IFNG(干扰素，γ)、NRG1(神经调节蛋白1)、 CASP3(半胱天冬酶3，细胞凋亡相关半胱氨酸肽酶)、MAPK1(丝裂原激活蛋白激酶1)、CDH1(钙粘素 1，1型，E-钙粘素(上皮))、APBB1(淀粉样β(A4)前体蛋白结合，家族B，成员1(Fe65))、HMGCR (3-羟基-3-甲基戊二酰-辅酶A还原酶)、CREB1(cAMP应答元件结合蛋白1)、PTGS2(前列腺素-内过氧化物合酶2(前列腺素G/H合酶和环氧合酶))、HES1(长毛和裂口增强蛋白1，(果蝇))、CAT(过氧化氢酶)、TGFB1(转化生长因子，β1)、ENO2(烯醇酶2(γ，神经元))、ERBB4(v-erb-a成红细胞白血病病毒癌基因同源物4(鸟类))、TRAPPC10(运输蛋白颗粒复合物10)、MAOB(单胺氧化酶B)、NGF(神经生长因子(β多肽))、MMP12(基质金属蛋白酶12(巨噬细胞弹力蛋白酶))、JAG1(jagged 1(阿拉吉欧综合症))、CD40LG(CD40配体)、PPARG(过氧化物酶体增殖物激活受体γ)、FGF2(成纤维细胞生长因子2(基底))、IL3(白介素3(集落刺激因子，多个))、LRP1(低密度脂蛋白受体相关蛋白1)、NOTCH4 (Notch同源物4(果蝇))、MAPK8(丝裂原-激活蛋白激酶8)、PREP(脯肽酰内肽酶)、NOTCH3(Notch 同源物3(果蝇))、PRNP(朊病毒蛋白)、CTSG(组织蛋白酶G)、EGF(表皮生长因子(β-尿抑胃素))、 REN(肾素)、CD44(CD44分子(印度血型))、SELP(选择素P(颗粒膜蛋白140kDa，抗原CD62))、GHR (生长激素受体)、ADCYAP1(腺苷酸环化酶激活多肽1(垂体))、INSR(胰岛素受体)、GFAP(胶质原酸性纤维蛋白)、MMP3(基质金属蛋白酶3(溶基质素1，前明胶酶(progelatinase)))、MAPK10(丝裂原 -激活蛋白激酶10)、SP1(Sp1转录因子)、MYC(v-myc髓细胞组织增生病毒癌基因同源物(鸟类))、CTSE (组织蛋白酶E)、PPARA(过氧化物酶体增殖物-激活受体α)、JUN(jun癌基因)、TIMP1(TIMP金属肽酶抑制剂1)、IL5(白介素5(集落刺激因子，嗜酸性粒细胞))、IL1A(白介素1，α)、MMP9(基质金属肽酶9(明胶酶B，92kDa明胶酶，92kDa IV型胶原酶))、HTR4(5-羟色胺(血清素)受体4)、HSPG2(硫酸类肝素蛋白多糖2)、KRAS(v-Ki-ras2柯尔斯顿大鼠肉瘤病毒癌基因同源物)、CYCS(细胞色素c，躯体)、 SMG1(SMG1同源物，磷脂酰肌醇3-激酶相关激酶(秀丽隐杆线虫))、IL1R1(白介素1受体，I型)、PROK1 (前动力蛋白1)、MAPK3(丝裂原-激活蛋白激酶3)、NTRK1(神经营养性酪氨酸激酶，受体，1型)、IL13 (白介素13)、MME(膜金属内肽酶)、TKT(转酮醇酶)、CXCR2(趋化因子(C-X-C基序)受体2)、IGF1R (胰岛素样生长因子1受体)、RARA(视黄酸受体，α)、CREBBP(CREB结合蛋白)、PTGS1(前列腺素- 内过氧化物合酶1(前列腺素G/H合酶和环氧合酶))、GALT(半乳糖-1磷酸尿甙基转化酶)、CHRM1(胆碱能受体，毒蕈碱型1)、ATXN1(共济失调蛋白(ataxin)1)、PAWR(PRKC，细胞凋亡，WT1，调节剂)、 NOTCH2(Notch同源物2(果蝇))、M6PR(甘露糖-6-磷酸受体(阳离子依赖型))、CYP46A1(细胞色素 P450，家族46，子家族A，多肽1)、CSNK1 D(酪蛋白激酶1，δ)、MAPK14(丝裂原-激活蛋白激酶14)、 PRG2(蛋白多糖2，骨髓(自然杀伤细胞激活剂，嗜酸性粒细胞颗粒样主要碱性蛋白))、PRKCA(蛋白激酶C，α)、L1 CAM(L1细胞黏附分子)、CD40(CD40分子，TNF受体超家族成员5)、NR1I2(核受体子家族1，I组，成员2)、JAG2(jagged 2)、CTNND1(连环素(钙粘素相关蛋白)，δ1)、CDH2(钙粘素2，1 型，N-钙粘素(神经元))、CMA1(糜酶1，肥大细胞)、SORT1(选蛋白1)、DLK1(δ-样1同源物(果蝇))、 THEM4(硫酯酶超家族成员4)、JUP(接合斑珠蛋白)、CD46(CD46分子，补体调节蛋白)、CCL11(趋化因子(C-C基序)配体11)、CAV3(小窝蛋白3)、RNASE3(核糖核酸酶，RNA酶A家族，3(嗜酸性粒细胞阳离子蛋白))、HSPA8(热休克70kDa蛋白8)、CASP9(半胱天冬酶9，细胞凋亡相关半胱氨酸肽酶)、 CYP3A4(细胞色素P450，家族3，子家族A，多肽4)、CCR3(趋化因子(C-C基序)受体3)、TFAP2A(转录因子AP-2α(激活增强子结合蛋白2α))、SCP2(固醇载体蛋白2)、CDK4(周期素依赖性激酶4)、HIF1A (低氧诱导因子1，α亚基(碱性螺旋-环-螺旋转录因子))、TCF7L2(转录因子7-样2(T-细胞特异性，HMG- 盒))、IL1R2(白介素1受体，II型)、B3GALTL(β1,3-半乳糖基转移酶样)、MDM2(Mdm2 p53结合蛋白同源物(小鼠))、RELA(v-rel网状内皮组织增殖病毒癌基因同源物A(鸟类))、CASP7(半胱天冬酶7，细胞凋亡相关半胱氨酸肽酶)、IDE(胰岛素降解酶)、FABP4(脂肪酸结合4，脂肪细胞)、CASK(钙/钙调蛋白依赖性丝氨酸蛋白激酶(MAGUK家族))、ADCYAP1R1(腺苷酸环化酶激活多肽1(垂体)受体I型)、ATF4(激活转录因子4(tax-应答增强子元件B67))、PDGFA(血小板源生长因子α多肽)、C21或f33 (染色体21开放阅读框33)、SCG5(分泌粒蛋白V(7B2蛋白))、RNF123(环指蛋白123)、NFKB1(B细胞中轻κ多肽基因增强子的核因子1)、ERBB2(v-erb-b2成红细胞白血病病毒癌基因同源物2，神经/成胶质细胞瘤源癌基因同源物(鸟类))、CAV1(小窝蛋白1，小凹蛋白，22kDa)、MMP7(基质金属肽酶7(基质溶解因子，子宫))、TGFA(转化生长因子，α)、RXRA(类视黄醇X受体，α)、STX1A(突触融合蛋白 1A(大脑))、PSMC4(蛋白酶体(前体，巨蛋白因子)26S亚基，ATP酶，4)、P2RY2(嘌呤受体P2Y， G-蛋白偶联，2)、TNFRSF21(肿瘤坏死因子受体超家族，成员21)、DLG1(盘状，大同源物1(果蝇))、 NUMBL(numb同源物(果蝇)样)、SPN(载唾液酸蛋白)、PLSCR1(磷脂促翻转酶1)、UBQLN2(泛醌蛋白2)、UBQLN1(泛醌蛋白1)、PCSK7(前蛋白转化酶枯草杆菌蛋白酶/kexin 7型)、SPON1(脊椎蛋白1，细胞外基质蛋白)、SILV(银同源物(小鼠))、QPCT(谷氨酰胺酰肽环转移酶)、HESS(长毛和裂口增强蛋白5(果蝇))、GCC1(含GRIP和卷曲螺旋结构域1)、以及其任何组合。

遗传修饰的动物或细胞可以包含编码与分泌酶病症相关联的蛋白质的1、2、3、4、5、6、7、 8、9,10或更多个破坏的染色体序列和编码与分泌酶病症相关联的破坏蛋白质的0、1、2、3、4、5、6、7、 8、9、10或更多个染色体整合序列。

ALS

美国专利公开号20110023144描述了使用锌指核酸酶遗传性修饰与肌萎缩性侧索硬化(ALS) 疾病相关联的细胞、动物和蛋白质。ALS的特征在于涉及随意运动的大脑皮层、脑干和脊髓中某些神经细胞的逐渐稳定的变性。

运动神经元紊乱和与这些病症相关联的蛋白质是造成对发展运动神经元紊乱的易感性、运动神经元紊乱的存在、运动神经元紊乱的严重性或其任何组合的一组不同的蛋白质。本披露包括编辑编码与一种特定运动神经元紊乱ALS病相关联的蛋白质的任何染色体序列。与ALS相关联的蛋白质典型地是基于ALS相关蛋白与ALS的实验相关性来选择的。例如，与ALS相关联的蛋白质的产生率或循环浓度在患有ALS的群体中相对于未患有ALS的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，与ALS相关联的蛋白质可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应(Q-PCR)。

作为非限制性实例，与ALS相关联的蛋白质包括但不限于以下蛋白质：SOD1超氧化物歧化酶1(可溶性)、ALS3肌萎缩侧索硬化3；SETX senataxin ALS5肌萎缩侧索硬化5；FUS肉瘤融合蛋白ALS7 肌萎缩侧索硬化7；ALS2肌萎缩侧索硬化2DPP6二肽基-肽酶6；NEFH神经丝，重多肽PTGS1前列腺素内过氧化物合酶1；SLC1A2溶质运载蛋白家族1(神经胶质高亲和力谷氨酸转运体)成员2 TNFRSF10B肿瘤坏死因子受体超家族成员10b；PRPH外周蛋白HSP90AA1热休克蛋白90kDaα(细胞溶质)，类别A成员1；GRIA2谷氨酸受体，离子移变，AMPA2IFNG干扰素，γ；S100B S100钙结合蛋白B FGF2成纤维细胞生长因子2；AOX1醛氧化酶1CS柠檬酸合酶；TARDBP TAR DNA结合蛋白TXN 硫氧还蛋白；RAPH1 Ras缔合(RaIGDS/AF-6)和普列克底物蛋白同源结构域1MAP3K5丝裂原激活蛋白激酶5；NBEAL1蛋白激酶锚定蛋白(neurobeachin)样1GPX1谷胱甘肽过氧化物酶1；ICA1L胰岛细胞自身抗原1.69kDa-样RAC1ras相关C3肉毒菌毒素底物1；MAPT微管相关蛋白tau ITPR2肌醇1,4,5- 三磷酸盐受体，2型；ALS2CR4肌萎缩侧索硬化2(青少年)染色体区，候选物4GLS谷氨酰胺酶；ALS2CR8 肌萎缩侧索硬化2(青少年)染色体区，候选物8CNTFR睫状神经营养因子受体；ALS2CR11肌萎缩侧索硬化2(青少年)染色体区，候选物11FOLH1叶酸水解酶1；FAM117B具有序列相似性117的家族，成员B P4HB脯氨酰4-羟化酶β多肽；CNTF睫状神经营养因子SQSTM1死骨片(sequestosome)1；STRADB STE20-相关激酶接合蛋白βNAIP NLR家族，细胞凋亡抑制蛋白；YWHAQ酪氨酸3-单氧酶/色胺酸 (tryptoph)5-单氧酶激活蛋白，Θ多肽SLC33A1溶质运载蛋白家族33(乙酰-CoA转运体)，成员1；TRAK2 运输蛋白驱动蛋白结合2图4图4同源物，SAC1脂质磷酸酶结构域；NIF3L1 NIF3 NGG1相互作用因子 3-样1INA互联蛋白神经元中间丝状体蛋白，α；PARD3B par-3分区缺陷性3同源物B COX8A细胞色素c 氧化酶亚基VIIIA；CDK15周期素依赖性激酶15HECW1含有HECT、C2和WW结构域E3泛素蛋白连接酶1；NOS1一氧化氮合酶1MET met原癌基因；SOD2超氧化物歧化酶2，线粒体HSPB1热休克27kDa 蛋白1；NEFL神经丝，轻多肽CTSB组织蛋白酶B；ANG血管生成素，核糖核酸酶，RNA酶家族，5HSPA8 热休克70kDa蛋白8；VAPB VAMP(囊泡相关膜蛋白)相关蛋白B和C ESR1雌激素受体1；SNCA突触核蛋白，αHGF肝细胞生长因子；CAT过氧化氢酶ACTB肌动蛋白，β；NEFM神经丝，中等多肽TH 酪氨酸羟化酶；BCL2 B-细胞CLL/淋巴瘤2FAS Fas(TNF受体超家族，成员6)；CASP3半胱天冬酶3，细胞凋亡相关半胱氨酸肽酶CLU丛生蛋白；SMN1调聚的运动神经元1的存活G6PD葡萄糖-6-磷酸脱氢酶；BAX BCL2-缔合X蛋白HSF1热休克转录因子1；RNF19A环指蛋白19A JUN jun癌基因； ALS2CR12肌萎缩侧索硬化2(青少年)染色体区，候选物12HSPA5热休克70kDa蛋白5；MAPK14丝裂原激活蛋白激酶14IL10白介素10；APEX1 APEX核酸酶(多功能DNA修复酶)1TXNRD1硫氧还蛋白还原酶1；NOS2一氧化氮合酶2，诱导型TIMP1 TIMP金属肽酶抑制剂1；CASP9半胱天冬酶9，细胞凋亡相关半胱氨酸肽酶XIAP细胞凋亡X-连锁抑制剂；GLG1 golgi糖蛋白1EPO红细胞生成素；VEGFA 血管内皮生长因子A ELN弹性蛋白；GDNF胶质细胞源性神经营养因子NFE2L2核因子(红细胞源性2) 样2；SLC6A3溶质运载蛋白家族6(神经递质蛋白4转运体，多巴胺)，成员3HSPA4热休克70kDa蛋白4；APOE载脂蛋白E PSMB8蛋白酶体(前体、巨蛋白因子)亚基，β型，8；DCTN1动力蛋白激活蛋白1TIMP3 TIMP金属肽酶抑制剂3；KIFAP3驱动蛋白缔合蛋白3SLC1A1溶质运载蛋白家族1(神经元/ 上皮高亲和力谷氨酸转运体，系统Xag)，成员1；SMN2运动神经元2的存活，着丝粒CCNC周期素C； MPP4膜蛋白，棕榈酰化4STUB1 STIP1同源物和含U-框蛋白1；ALS2淀粉样β(A4)前体蛋白PRDX6 过氧化物氧化还原酶6；SYP突触素CABIN1钙调磷酸酶结合蛋白1；CASP1半胱天冬酶1，细胞凋亡相关半胱氨酸肽酶GART磷酸核糖基甘氨酰脱甲酰基转移酶、磷酸核糖基甘氨酰脱合成酶、磷酸核糖基甘氨酰唑基合成酶；CDK5周期素依赖性激酶5ATXN3共济失调蛋白3；RTN4网状内皮素4C1QB补体组分1， q亚组分，B链；VEGFC神经生长因子受体HTT亨廷顿蛋白；PARK7帕金森病7XDH黄嘌呤脱氢酶； GFAP胶质原酸性纤维蛋白MAP2微管相关蛋白2；CYCS细胞色素c，躯体FCGR3BIgG的Fc片段，低亲和力IIIb；CCS超氧化物歧化酶的铜分子伴侣UBL5泛素样5；MMP9基质金属肽酶9SLC18A3溶质运载蛋白家族18(囊泡乙酰胆碱)成员3；TRPM7瞬时型受体潜在阳离子通道，超家族M，成员7HSPB2 热休克27kDa蛋白2；AKT1 v-akt小鼠胸腺瘤病毒癌基因同源物1DERL1 Der1-样结构域家族，成员1；CCL2趋化因子(C-C基序)配体2NGRN神经元蛋白(neugrin)，神经突增生相关；GSR谷胱甘肽还原酶TPPP3促微管蛋白聚合的蛋白质家族成员3；APAF1细胞凋亡肽酶激活因子1BTBD10 BTB(POZ)结构域激活因子10；GLUD1谷氨酸脱氢酶1CXCR4趋化因子(C--X-C基序)受体4；SLC1A3溶质运载蛋白家族1(神经胶质高亲和力谷氨酸转运体)成员3FLT1 fms-相关酪氨酸激酶1；PON1对氧磷酶1AR雄激素受体；LIF白血病抑制因子ERBB3 v-erb-b2成红细胞病毒癌基因同源物3；LGALS1凝集素，半乳糖苷-结合，溶质，1CD44 CD44分子；TP53肿瘤蛋白p53 TLR3 toll样受体3；GRIA1谷氨酸受体，离子移变，AMPA 1GAPDH甘油醛-3-磷酸脱氢酶；GRIK1谷氨酸受体离子移变，红藻氨酸1DES肌间线蛋白； CHAT胆碱乙酰转移酶FLT4 fms相关酪氨酸激酶4；CHMP2B染色质修饰蛋白BAG1BCL2相关永生基因； MT3金属硫蛋白3CHRNA4胆碱能受体，烟酸，α4；GSS谷胱甘肽合成酶BAK1 BCL2-拮抗剂/杀伤细胞 1；KDR激酶插入结构域受体(III型受体酪氨酸激酶)GSTP1谷胱甘肽s-转移酶pi 1；OGG1 8-氧桥鸟嘌呤DNA糖苷酶IL6白介素6(干扰素，β2)。

动物或细胞可以包含编码与ALS相关联的蛋白质的1、2、3、4、5、6、7、8、9,10或更多个破坏的染色体序列和编码与ALS相关联的破坏蛋白质的0、1、2、3、4、5、6、7、8、9、10或更多个染色体整合序列。与ALS相关联的优选蛋白质包括SOD1(超氧化物歧化酶1)、ALS2(肌萎缩性侧索硬化 2)、FUS(肉瘤融合蛋白)、TARDBP(TAR DNA结合蛋白)、VAGFA(血管内皮生长因子A)、VAGFB (血管内皮生长因子B)、以及VAGFC(血管内皮生长因子C)、以及其任何组合。

孤独症

美国专利公开号20110023145描述了使用锌指核酸酶遗传性修饰与自闭症谱系障碍(ASD)相关联的细胞、动物和蛋白质。自闭症谱系障碍(ASD)是一组特征在于社交交互和沟通的定性损伤、以及行为、兴趣和活动的限制性重复和刻板模式的病症。三种病症孤独症、阿斯佩格综合征(AS)和未另行规定的广泛性发育障碍(PDD-NOS)是具有不同严重程度、相关智力功能和医学病状的连续性病症。ASD 是主要的遗传确定的病症，其中遗传力是约90％。

美国专利公开号20110023145包括编辑编码与ASD相关联的蛋白质的任何染色体序列，它们可以适用于本发明的CRISPR Cas系统。与ASD相关联的蛋白质典型地是基于和ASD相关联的蛋白质与ASD的发病率或指征的实验相关性来选择。例如，与ASD相关联的蛋白质的产生率或循环浓度在患有ASD的群体中相对于不存在ASD的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，与ASD相关联的蛋白质可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应 (Q-PCR)。

可能与和ASD相关联的蛋白质相关的疾病状态或病症的非限制性实例包括孤独症、阿斯佩格综合征(AS)、未另行规定的广泛性发育障碍(PDD-NOS)、雷特氏综合征、结节性硬化、苯酮尿症、史- 伦-奥三氏综合征、以及脆性X综合征。作为非限制性实例，与ASD相关联的蛋白质包括但不限于以下蛋白质：ATP10C氨磷脂转运的ATP酶(ATP10C)METMET受体酪氨酸激酶；BZRAP1 MGLUR5(GRM5)代谢型谷氨酸受体5(MGLUR5)；CDH10钙粘蛋白-10MGLUR6(GRM6)代谢型谷氨酸受体6(MGLUR6)； CDH9钙粘蛋白-9NLGN1神经连接蛋白-1；CNTN4接触蛋白-4NLGN2神经连接蛋白-2；CNTNAP2接触蛋白相关蛋白样2(CNTNAP2)SEMA5A神经连接蛋白-3；DHCR7 7-脱氢胆甾醇还原酶(DHCR7) NLGN4X神经连接蛋白-4X-连接；DOC2A含双C2-样结构域蛋白αNLGN4Y神经连接蛋白-4Y-连接；DPP6 二肽基氨肽酶样蛋白6NLGN5神经连接蛋白-5；EN2锯齿蛋白2(EN2)NRCAM神经元细胞粘附分子 (NRCAM)；MDGA2脆性X精神发育迟缓1(MDGA2)NRXN1轴突蛋白-1；FMR2(AFF2)AF4/FMR2 家族成员2OR4M2嗅觉受体4M2；FOXP2叉头框蛋白P2(FOXP2)OR4N4嗅觉受体4N4；FXR1脆性X精神发育迟缓，常染色体同源物1(FXR1)OXTR催产素受体(OXTR)；FXR2脆性X精神发育迟缓，常染色体同源物2(FXR2)PAH苯基丙氨酸羟化酶(PAH)；GABRA1γ氨基丁酸受体亚基α-1(GABRA1)PTEN 磷酸酶和张力蛋白同源物(PTEN)；GABRA5 GABAA(γ氨基丁酸)受体α5亚基(GABRA5)PTPRZ1受体型酪氨酸蛋白磷酸酶ζ(PTPRZ1)；GABRB1γ氨基丁酸受体亚基β-1(GABRB1)RELN颤蛋白(Reelin)； GABRB3 GABAA(γ氨基丁酸)受体β3亚基(GABRB3)RPL10 60S核糖体蛋白L10；GABRG1γ氨基丁酸受体亚基γ-1(GABRG1)SEMA5A臂板蛋白-5A(SEMA5A)；HIRIP3 HIRA-相互作用蛋白3SEZ6L2癫痫相关6同源物(小鼠)样2；HOXA1同源框蛋白Hox-A1(HOXA1)SHANK3SH3和多个锚蛋白重复结构域3(SHANK3)；IL6白介素-6SHBZRAP1 SH3和多个锚蛋白重复结构域3(SHBZRAP1)；LAMB1层粘连蛋白亚基β-1(LAMB1)SLC6A4血清素转运体(SERT)；MAPK3丝裂原激活蛋白激酶3TAS2R1味觉受体2型成员1TAS2R1；MAZ Myc-相关锌指蛋白TSC1结节性硬化蛋白1；MDGA2含MAM结构域的糖基磷脂酰肌醇锚2(MDGA2)TSC2结节性硬化蛋白2；MECP2甲基CpG结合蛋白2(MECP2)UBE3A泛素蛋白连接酶E3A(UBE3A)；MECP2甲基CpG结合蛋白2(MECP2)WNT2无翼型(Wingless-type)蛋白MMTV整合位点家族，成员2(WNT2)

与ASD相关联且其染色体序列被编辑的蛋白质的性质可以并且将发生改变。在优选的实施例中，与ASD相关联且其染色体序列被编辑的蛋白质可以是由BZRAP1基因编码的苯二氮

类受体(外周) 相关蛋白1(BZRAP1)、由AFF2基因(也称为MFR2)编码的AF4/FMR2家族成员2蛋白(AFF2)、由 FXR1基因编码的脆性X精神发育迟缓常染色体同源蛋白1(FXR1)、由FXR2基因编码的脆性X精神发育迟缓常染色体同源蛋白2(FXR2)、由MDGA2基因编码的含MAM结构域的糖基磷脂酰肌醇锚蛋白2 (MDGA2)、由MECP2基因编码的甲基CpG结合蛋白2(MECP2)、由MGLUR5-1基因(也称为GRM5) 编码的代谢型谷氨酸受体5(MGLUR5)、由NRXN1基因编码的轴突蛋白1、或者由SEMA5A基因编码的臂板蛋白-5A(SEMA5A)。在一个示例性实施例中，遗传修饰的动物是大鼠，并且编码与ASD相关联的蛋白质的编辑的染色体序列是如以下所列出的：BZRAP1苯二氮

类受体(外周)相关蛋白1(BZRAP1) XM_002727789、XM_213427、XM_002724533、XM_001081125；AFF2(FMR2)AF4/FMR2家族成员(AFF2) 2XM_219832、XM_001054673；FXR1脆性X精神发育迟缓常染色体同源蛋白1(FXR1)NM_001012179； FXR2脆性X精神发育迟缓常染色体同源蛋白2(FXR2)NM_001100647；MDGA2含MAM结构域的糖基磷脂酰肌醇锚蛋白2(MDGA2)NM_199269；MECP2甲基CpG结合蛋白2(MECP2)NM_022673； MGLUR5代谢型谷氨酸受体5(MGLUR5)NM_017012(GRM5)；NRXN1轴突蛋白1NM_021767；SEMA5A 臂板蛋白-5A(SEMA5A)NM_001107659。

三核苷酸重复序列扩增病症

美国专利公开号20110016540描述了使用锌指核酸酶遗传性修饰与三核苷酸重复序列扩增病症相关联的细胞、动物和蛋白质。三核苷酸重复序列扩增病症是涉及发育神经生物学的复杂的进展性病症并且常常影响认知功能以及感知运动功能。

三核苷酸重复序列扩增蛋白是与发展三核苷酸重复序列扩增病症的易感性、三核苷酸重复序列扩增病症的存在、三核苷酸重复序列扩增病症的严重性或其任何组合相关联的一组不同的蛋白质。三核苷酸重复序列扩增病症被分成通过重复序列类型确定的两类。最常见的重复序列是三联体CAG，该三联体当存在于基因的编码区时编码氨基酸谷氨酰胺(Q)。因此，这些病症被称为聚谷氨酰胺(polyQ)病症并且包括以下疾病：亨廷顿病(HD)；脊延髓肌萎缩症(SBMA)；脊髓小脑性共济失调(1、2、3、6、7、以及17型SCA)；以及齿状核红核苍白球路易体萎缩(Dentatorubro-Pallidoluysian Atrophy，DRPLA)。其余三核苷酸重复序列扩增病症并不涉及CAG三联体或者该CAG三联体并不在该基因的编码区内，并且因此被称为非聚谷氨酰胺病症。非聚谷氨酰胺病症包括脆性X综合征(FRAXA)；脆性XE精神发育迟缓(FRAXE)；弗里德赖希氏共济失调(FRDA)；强直性肌营养不良(DM)；以及脊髓小脑性共济失调(8型和12型SCA)。

与三核苷酸重复序列扩增病症相关联的蛋白质典型地是基于和三核苷酸重复序列扩增病症相关联的蛋白质与三核苷酸重复序列扩增病症的实验相关性来选择的。例如，与三核苷酸重复序列扩增病症相关联的蛋白质的产生率或循环浓度在患有三核苷酸重复序列扩增病症的群体中相对于不存在三核苷酸重复序列扩增病症的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，与三核苷酸重复序列扩增病症相关联的蛋白质可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应(Q-PCR)。

与三核苷酸重复序列扩增病症相关联的蛋白质的非限制性实例包括AR(雄激素受体)、FMR1 (脆性X精神发育迟缓1)、HTT(亨廷顿蛋白)、DMPK(肌营养不良性肌强直症蛋白激酶)、FXN(费氏共济失调蛋白(frataxin))、ATXN2(共济失调蛋白2)、ATN1(萎缩蛋白(atrophin)1)、FEN1(翼结构特异性内切核酸酶1)、TNRC6A(含三核苷酸重复序列6A)、PABPN1(聚(A)结合蛋白，核1)、JPH3(亲联蛋白3)、MED15(中介体复合物亚基15)、ATXN1(共济失调蛋白1)、ATXN3(共济失调蛋白3)、TBP (TATA框结合蛋白)、CACNA1A(钙通道，电压依赖型，P/Q型，α1A亚基)、ATXN80S(ATXN8相反链 (非蛋白质编码链))、PPP2R2B(蛋白磷酸酶2，调节亚基B，β)、ATXN7(共济失调蛋白7)、TNRC6B(含三核苷酸重复序列6B)、TNRC6C(含三核苷酸重复序列6C)、CELF3(CUGBP，Elav-样家族成员3)、 MAB21L1(mab-21-样1(秀丽隐杆线虫))、MSH2(mutS同源物2，结肠癌，非息肉病性1型(大肠杆菌))、 TMEM185A(跨膜蛋白185A)、SIX5(SIX同源框5)、CNPY3(冠层3同源物(斑马鱼))、FRAXE(脆性位点，叶酸类型，少见，fra(X)(q28)E)、GNB2(鸟嘌呤核苷酸结合蛋白(G蛋白)，β多肽2)、RPL14(核糖体蛋白L14)、ATXN8(共济失调蛋白8)、INSR(胰岛素受体)、TTR(甲状腺素运载蛋白)、EP400(E1A 结合蛋白p400)、GIGYF2(GRB10相互作用GYF蛋白2)、OGG1(8-氧桥鸟嘌呤DNA糖苷酶)、STC1(斯钙素1)、CNDP1(肌肽二肽酶1(金属肽酶M20家族))、C10orf2(染色体10开放阅读框2)、MAML3策划蛋白(mastermind)样3(果蝇)、DKC1(先天性角化不良1，角化不良蛋白)、PAXIP1(PAX相互作用(与转录激活结构域相互作用)蛋白1)、CASK(钙/钙调蛋白依赖性丝氨酸蛋白激酶(MAGUK家族))、MAPT (微管相关蛋白tau)、SP1(Sp1转录因子)、POLG(聚合酶(DNA定向)，γ)、AFF2(AF4/FMR2家族，成员2)、THBS1(血小板反应蛋白1)、TP53(肿瘤蛋白p53)、ESR1(雌激素受体1)、CGGBP1(CGG三联体重复序列结合蛋白1)、ABT1(基本转录激活物1)、KLK3(激肽释放酶相关肽酶3)、PRNP(朊病毒蛋白)、JUN(jun癌基因)、KCNN3(钾中间/小电导钙激活通道，子家族N，成员3)、BAX(BCL2相关X 蛋白)、FRAXA(脆性位点，叶酸类型，少见，fra(X)(q27.3)A(巨睾丸症，精神发育迟缓))、KBTBD10 (含kelch重复序列和BTB(POZ)结构域10)、MBNL1(盲肌样(果蝇))、RAD51(RAD51同源物(RecA 同源物，大肠杆菌)(酿酒酵母))、NCOA3(核受体共激活物3)、ERDA1(扩增的重复序列结构域，CAG/CTG 1)、TSC1(结节性硬化1)、COMP(软骨寡聚基质蛋白)、GCLC(谷氨酸-半胱氨酸连接酶，催化亚基)、 RRAD(与糖尿病相关联的Ras相关)、MSH3(mutS同源物3(大肠杆菌))、DRD2(多巴胺受体D2)、CD44 (CD44分子(印度血型))、CTCF(CCCTC-结合因子(锌指蛋白))、CCND1(周期素D1)、CLSPN(卡环(claspin)同源物(非洲爪蟾))、MEF2A(肌细胞增强因子2A)、PTPRU(蛋白质酪氨酸磷酸酶，受体类型，U)、GAPDH(甘油醛-3-磷酸脱氢酶)、TRIM22(含三重基序22)、WT1(韦尔姆斯氏瘤1)、AHR (芳香烃受体)、GPX1(谷胱甘肽过氧化物酶1)、TPMT(硫嘌呤S-甲基转移酶)、NDP(诺里病(假神经胶质瘤))、ARX(无芒相关同源框)、MUS81(MUS81内切核酸酶同源物(酿酒酵母))、TYR(酪氨酸酶 (眼皮肤白化病IA))、EGR1(早期生长反应因子1)、UNG(尿嘧啶-DNA糖苷酶)、NUMBL(numb同源物(果蝇)-样)、FABP2(脂肪酸结合蛋白2，肠)、EN2(锯齿形同源框2)、CRYGC(晶状体蛋白，γC)、 SRP14(信号识别颗粒14kDa(同源Alu RNA结合蛋白))、CRYGB(晶状体蛋白，γB)、PDCD1(程序性细胞死亡1)、HOXA1(同源框A1)、ATXN2L(共济失调蛋白2-样)、PMS2(增加的PMS2减数分裂后分离 2(酿酒酵母))、GLA(半乳糖苷酶，α)、CBL(Cas-Br-M(鼠)同向性逆转录病毒转化序列)、FTH1(铁蛋白，重多肽1)、IL12RB2(白介素12受体，β2)、OTX2(正小齿同源框2)、HOXA5(同源框A5)、POLG2 (聚合酶(DNA定向)，γ2，辅助亚基)、DLX2(末梢更少(distal-less)同源框2)、SIRPA(信号调节蛋白α)、OTX1(正小齿同源框1)、AHRR(芳香烃受体阻遏物)、MANF(中脑星形胶质细胞源性神经元营养因子)、TMEM158(跨膜蛋白158(基因/伪基因))、以及ENSG00000078687。

与三核苷酸重复序列扩增病症相关联的优选蛋白质包括HTT(亨廷顿蛋白)、AR(雄激素受体)、FXN(费氏共济失调蛋白)、Atxn3(共济失调蛋白)、Atxn1(共济失调蛋白)、Atxn2(共济失调蛋白)、Atxn7(共济失调蛋白)、Atxn10(共济失调蛋白)、DMPK(肌营养不良性肌强直症蛋白激酶)、Atn1 (萎缩蛋白1)、CBP(creb结合蛋白)、VLDLR(极低密度脂蛋白受体)、以及其任何组合。

治疗听力疾病

本发明还考虑将CRISPR-Cas系统递送到一只耳朵或两只耳朵。

研究者调查基因治疗是否可以用于帮助进行目前的耳聋治疗，即，电子耳蜗。耳聋往往是由不能将信号传播到听觉神经元的毛细胞丧失或损伤来引起的。在此类情况下，电子耳蜗可以用于响应于声音并且将电信号传输到神经元。但是这些神经元常常变性并且从耳蜗缩回，因为受损的毛细胞释放较少的生长因子。

美国专利申请20120328580描述了使用注射器诸如单剂量注射器将药物组合物注射到耳朵(例如，耳朵给药)，诸如注射到耳蜗腔(luminae)(例如，膜蜗管、Sc前庭、以及Sc定音鼓)。例如，可以通过鼓室内注射(例如，注射到中耳)和/或注射到外耳、中耳和/或内耳来给予一种或多种在此所述的化合物。此类方法在本领域中常规用于例如将类固醇和抗生素给予到人耳朵中。注射可以是例如通过耳朵的圆窗或通过耳蜗胶囊。其他内耳给药方法是本领域已知的(例如，参见，索尔特(Salt)和普龙特科(Plontke)，今日药物发现(Drug Discovery Today)，10:1299-1306,2005)。

在另一种给药模式中，药物组合物可以经由导管或泵原位给药。导管或泵可以例如将药物组合物引导到耳蜗腔或耳朵圆窗和/或结肠(colon)腔。适用于将一种或多种在此所述的化合物给予到耳朵例如人类耳朵的示例性药物递送装置和方法是由麦肯纳(McKenna)等人(美国公布号2006/0030837)和雅各布森(Jacobsen)等人(美国专利号7,206,639)描述的。在一些实施例中，导管或泵在手术程序过程中可以定位在例如患者的耳朵(例如，外耳、中耳和/或内耳)。在一些实施例中，导管或泵在不需要进行手术程序的情况下可以定位在例如患者的耳朵(例如，外耳、中耳和/或内耳)。

可替代地，一种或多种在此所述的化合物可以与戴在外耳的机械装置诸如电子耳蜗或助听器结合给予。适用于本发明的示例性电子耳蜗是由埃奇(Edge)等人(美国公开号2007/0093878)描述的。

在一些实施例中，以上所述给药模式可以任何顺序组合并且可以是同时的或交替的。

可替代地或另外地，本发明可以根据食品与任何药品管理局批准的方法来给予，例如，如CDER 数据标准手册(CDER Data Standards Manual)版本号004(在fda.give/cder/dsm/DRG/drg00301.htm处可获得) 所述的。

总的来说，美国专利申请20120328580所述的细胞治疗方法可以用于促进细胞体外完全分化或部分分化成或分化为内耳成熟细胞类型(例如，毛细胞)。由此类方法获得的细胞然后可以移植或植入到需要此治疗的患者中。以下描述了实践这些方法所需要的细胞培养方法，包括用于鉴定和选择适合细胞类型的方法、用于促进所选择细胞完全分化或部分分化的方法、以及用于植入完全或部分分化的细胞的方法。

适用于本发明的细胞包括但不限于，当例如在体外与一种或多种在此所述的化合物接触时能够完全分化或部分分化成内耳成熟细胞例如毛细胞(例如，内和/或外毛细胞)的细胞。能够分化成毛细胞的示例性细胞包括但不限于，干细胞(例如，内耳干细胞、成体干细胞、骨髓源性干细胞、胚胎干细胞、间充质干细胞、皮肤干细胞、iPS细胞、以及脂肪源性干细胞)、祖细胞(例如，内耳祖细胞)、支持细胞(例如，戴特斯细胞(Deiters'cell)、柱细胞、内指细胞、覆盖细胞(tectal cell)以及汉森细胞(Hensen's cell))、和/或生殖细胞。李等人(美国公开号2005/0287127)和李等人(美国专利序列号11/953,797)描述了使用干细胞替换内耳感觉细胞。在埃奇等人PCT/US2007/084654中描述使用骨髓源性干细胞替换内耳感觉细胞。在例如高桥等人，细胞，第131卷，第5期，第861-872页(2007)；高桥和山中，细胞126,663-76(2006)；冲田(Okita)等人，自然448:260-262(2007)；余，J.等人，科学318(5858):1917-1920(2007)；纳卡加瓦 (Nakagawa)等人，自然生物技术26:101-106(2008)；以及卓瑞斯(Zaehres)和肖勒(Scholer)，细胞 131(5):834-835(2007)。此类适合的细胞可以是通过分析(例如，定性或定量)一种或多种组织特异性基因的存在来鉴定的。例如，基因表达可以是通过检测一种或多种组织特异性基因的蛋白质产物来检测的。蛋白质检测技术涉及使用针对适当抗原的抗体染色蛋白质(例如，使用细胞提取物或全细胞)。在此情况下，适当抗原是组织特异性基因表达的蛋白质产物。尽管，理论上，第一抗体(即，结合抗原的抗体)可以被标记，但是更常见的是(并且提高可视化)使用针对该第一抗体的第二抗体(例如，抗IgG)。此第二抗体与荧光染料或用于比色反应的适当的酶或金珠(用于电子显微术)或者与生物素-抗生物素蛋白系统轭合，以使得第一抗体的位置以及因此抗原的位置可以被识别。

本发明的CRISPR Cas分子可以通过将药物组合物直接应用于外耳来递送到耳朵，其中组合物通过美国公开的申请20110142917来修改。在一些实施例中，将药物组合物应用于耳道。递送到耳朵还可以被称为耳朵递送或耳部递送。

在一些实施例中，本发明的RNA分子以脂质体或脂转染配制品等递送并且可以是通过本领域技术人员已熟知的方法来制备。此类方法描述于例如美国专利号5,593,972、5,589,466、以及5,580,859中，这些专利通过引用结合在此。

已开发了特别旨在增强并改进siRNA到哺乳动物细胞的递送的递送系统(例如，参见，沈等人，FEBS快报2003,539:111-114；夏(Xia)等人，自然生物技术2002,20:1006-1010；赖希(Reich)等人，分子视觉(Mol.Vision.)2003,9:210-216；索伦森(Sorensen)等人，分子生物学杂志2003,327:761-766；路易斯(Lewis)等人，自然遗传学2002,32:107-108以及西梅奥尼(Simeoni)等人，核酸研究(NAR)2003, 31,11:2717-2724)并且这些递送系统可以适用于本发明。siRNA最近已成功用于抑制灵长类动物中的基因表达(参见，例如托伦蒂诺(Tolentino)等人，视网膜(Retina)24(4):660，该文献也可以适用于本发明)。

齐(Qi)等人披露了用于通过可以适用于本发明的核酸靶向系统的一种新型蛋白递送技术来经由完整圆窗有效siRNA转染到内耳中(参见，例如，齐等人，基因治疗(2013),1-9)。具体地说，可以通过完整圆窗渗透将Cy3-标记的siRNA转染到内耳(包括内外毛细胞)、壶腹嵴、椭圆囊斑以及球囊斑的细胞中的TAT双链RNA结合结构域(TAT-DRBD)成功用于体内递送双链siRNA，以用于治疗各种内耳疾病并且保护听力功能。可以考虑约40μl10mM RNA作为给予至耳朵的剂量。

根据雷亚利(Rejali)等人(听觉研究(Hear Res.)，2007年6月；228(1-2):180-7)，电子耳蜗功能可以是通过良好地保留螺旋神经节神经元来提高的，这些神经元是电子耳蜗电刺激的靶标，并且脑源性神经营养因子(BDNF)先前已显示增强实验性耳聋耳朵中存活的螺旋神经节。雷亚利等人测试了改进的电子耳蜗电极设计，该设计包括通过具有BDNF基因插入物的病毒载体转导的成纤维细胞涂层。为了完成这种类型的离体基因转移，雷亚利等人使用具有BDNF基因盒插入物的腺病毒转导豚鼠成纤维细胞，并且确定这些细胞分泌BDNF并且然后使BDNF分泌细胞经由琼脂糖凝胶附接到电子耳蜗电极并且将电极植入在鼓阶中。雷亚利等人确定BDNF表达电极当与对照电极相比时在植入48小时后能够保留显著更多的耳蜗基底转弯处的螺旋神经节神经元，并且证实了将电子耳蜗与离体基因转移组合用于增强螺旋神经节神经元存活的可行性。这种系统可以适用于本发明的核酸靶向系统，以用于递送到耳朵。

穆克埃尔西(Mukherjea)等人(抗氧剂与氧化还原信号(Antioxidants&RedoxSignaling)，第13卷，第5期，2010)用文献证明使用短干扰(si)RNA敲低NOX3消除了顺铂耳毒性，如通过防止OHC 损伤并且减小听脑干反应(ABR)中的阈值移位来证实的。向大鼠给予不同剂量的siNOX3(0.3、0.6、以及0.9μg)并且通过实时RT-PCR评价NOX3表达。所使用的最低剂量的NOX3 siRNA(0.3μg)当与经鼓膜给予乱序siRNA或未处理的耳蜗相比时并未显示NOX3 mRNA的任何抑制。然而，与对照的乱序siRNA相比，给予较高剂量的NOX3 siRNA(0.6和0.9μg)减少了NOX3表达。这种系统可以适用于本发明的CRISPR Cas 系统，以用于经鼓膜给予约2mg至约4mg剂量的CRISPR Cas，以给予至人类。

荣格(Jung)等人(分子治疗，第21卷，第4期，834-841，2013年4月)证实椭圆囊中的Hes5 水平在应用siRNA之后有所减小并且这些椭圆囊中的毛细胞数目显著高于随后的对照治疗。数据表明 siRNA技术可以适用于诱导内耳的修复和再生并且Notch信号传导途径是一种对于特异性基因表达抑制可能有用的靶标。荣格等人将2μl体积的8μg Hes5 siRNA(通过将无菌生理盐水添加到冻干siRNA中来制备) 注射到耳朵的前庭上皮中。这种系统可以适用于本发明的CRISPR Cas系统，以用于将约1mg至约30mg剂量的CRISPR Cas给予到耳朵的前庭上皮中，以给予至人类。

不分裂细胞中的基因靶向(神经元和肌肉)

不分裂(尤其是不分裂的完全分化)细胞类型存在例如基因靶向或基因组工程化的问题，因为同源重组(HR)在G1细胞周期阶段通常受到抑制。然而，当研究细胞控制正常DNA修复系统的机制时，迪罗谢(Durocher)发现了一种使得HR在不分裂细胞中保持“关闭”的先前未知的开关并且设计了一种将此开关切换回来的策略。奥尔特维恩(Orthwein)等人(在加拿大渥太华的西奈山医院的丹尼尔·迪罗谢实验室(Daniel Durocher’s lab atthe Mount Sinai Hospital in Ottawa,Canada)最近的报道(自然16142，2015 年12月9日在线公开)显示HR的抑制可以取消并且基因靶向在肾脏(293T)细胞和骨肉瘤(U2OS)细胞中成功地推断。已知肿瘤抑制基因BRCA1、PALB2和BRAC2促进HR进行DNA DSB修复。发现BRCA1与 PALB2-BRAC2的复合物形成是通过PALB2上的泛素位点来控制的，以使得E3泛素连接酶对该位点起作用。此E3泛素连接酶是由与滞蛋白-3(CUL3)-RBX1复合的KEAP1(一种PALB2相互作用蛋白)组成。PALB2 泛素化抑制了它与BRCA1的相互作用并且被去泛素化酶USP11抵消，该去泛素化酶自身处于细胞周期控制下。BRCA1-PALB2相互作用的恢复与DNA末端切除的激活组合足以诱导G1中的同源重组，如通过许多方法测量的，这些方法包括针对USP11或KEAP1(由pX459载体表达)的一种基于CRISPR-Cas9的基因靶向测定。然而，当在切除-感受态G1细胞中BRCA1-PALB2相互作用使用KEAP1缺失或PALB2-KR突变体的表达来恢复时，检测到基因靶向事件的强劲增加。

因此，在一些实施例中，在细胞，尤其是不分裂的完全分化细胞类型中的HR重激活是优选的。在一些实施例中，BRCA1-PALB2相互作用的促进在一些实施例中是优选的。在一些实施例中，靶细胞是不分裂细胞。在一些实施例中，靶细胞是神经元或肌细胞。在某些实施例中，靶细胞是在体内靶向的。在一些实施例中，细胞是在G1中并且HR被抑制。在一些实施例中，使用KEAP1缺失，例如抑制KEAP1活性的表达是优选的。KEAP1缺失可以是通过siRNA来实现的，例如，如奥尔特维恩等人所述的。可替代地， PALB2-KR突变体(在BRCA1-相互作用结构域中不存在所有八个Lys残基)的表达是优选的，它与KEAP1 缺失组合或者单独。PALB2-KR与BRCA1相互作用，不论是在哪个细胞周期位置。因此，在一些实施例中，BRCA1-PALB2相互作用的促进或恢复(尤其在G1细胞中)是优选的，尤其在靶细胞是不分裂的情况下或者在去除和还原(离体基因靶向)是有问题的(例如神经元或肌肉细胞)的情况下。KEAP1 siRNA是从赛默飞世尔公司(ThermoFischer)获得的。在一些实施例中，BRCA1-PALB2复合物可以被递送到G1细胞。在一些实施例中，可以例如通过增加去泛素化酶USP11的表达来促进PALB2去泛素化，因此设想的是可以提供一种构建体来促进或上调去泛素化酶USP11的表达或活性。

治疗眼睛疾病

本发明还考虑将CRISPR-Cas系统递送到一只眼睛或两只眼睛。

在本发明的特定实施例中，CRISPR-Cas系统可以用于校正由几种遗传性突变引起的眼部缺陷，这些遗传性突变在遗传性眼睛疾病(Genetic Diseases of the Eye)，第二版，埃利阿斯I.特拉布勒西(Elias I.Traboulsi)，哈佛大学出版社，2012中进一步描述。

对于给予至眼睛，慢病毒载体，具体地是马传染性贫血病毒(EIAV)是特别优选的。

在另一个实施例中，还考虑基于马传染性贫血病毒(EIAV)的最小非灵长类动物慢病毒载体，特别是对于眼部基因治疗(例如，参见巴拉冈，基因医学杂志2006；8:275-285，2005年11月21日威力出版公司(Wiley InterScience)在线公开(www.interscience.wiley.com)。DOI:10.1002/jgm.845)。考虑具有驱动靶基因表达的巨细胞病毒(CMV)启动子的载体。考虑所有前房内、视网膜下、眼内以及玻璃体内注射 (例如，参见，巴拉冈，基因医学杂志2006；8:275-285，2005年11月21日威力出版公司在线公开(www.interscience.wiley.com)。DOI:10.1002/jgm.845)。可以借助于手术显微镜进行眼内注射。对于视网膜下注射和玻璃体内注射，眼睛可以通过轻微数字压力和使用接触透镜系统查看的眼底来脱垂，该接触透镜系统由在用玻璃显微镜载片盖玻片覆盖的角膜上的一滴偶合介质溶液组成。对于视网膜下注射，安装在 5-μl汉密尔顿氏注射器上的10-mm 34号针尖端可以在直接可视化下通过上部赤道巩膜朝向后极切向推进，直到针孔在视网膜下间隙中可见为止。然后，可以注射2μl载体悬浮液，以产生上部大泡状视网膜脱离，因此证实视网膜下载体给予。此方法创建自封合巩膜切开术，允许载体悬浮液保留在视网膜下间隙中，直到它被RPE吸收为止，通常在该程序的48h内。此程序可以在下眼半球中重复，以产生下部视网膜脱离。此技术使得约70％视网膜神经感觉层和RPE暴露于载体悬浮液中。对于玻璃体内注射，针尖可以推进通过巩膜到角巩膜缘后部1mm，并且将2μl载体悬浮液注射到玻璃体腔中。对于前房内注射，针尖可以通过角巩膜缘穿刺，朝向角膜中央推进，并且可以注射2μl载体悬浮液。对于前房内注射，针尖可以通过角巩膜缘穿刺，朝向角膜中央推进，并且可以注射2μl载体悬浮液。这些载体可以1.0-1.4×10¹⁰或者1.0-1.4×10⁹转导单位(TU)/ml注射。

在另一个实施例中，还考虑了

一种经由视网膜下注射递送用于治疗湿型年龄相关性黄斑变性的、表达血管生成抑制性蛋白(内皮抑素和血管抑素)的基于马传染性贫血病毒的慢病毒基因治疗载体(例如，参见，宾利(Binley)等人，人类基因治疗23:980-991(2012年9月))。这种载体可以被修饰用于本发明的CRISPR-Cas系统。每只眼睛可以用总体积100μl的1.1×10⁵转导单位/眼睛(TU/眼睛) 的剂量的

治疗。

在另一个实施例中，可以考虑将E1-缺失、部分E3-缺失、E4-缺失腺病毒载体递送至眼睛。向患有晚期新生血管性年龄相关性黄斑变性(AMD)的二十八位患者给予表达人类色素上皮细胞源性因子 (AdPEDF.ll)的E1-缺失、部分E3-缺失、E4-缺失腺病毒载体的单次静脉内注射(参见，例如，坎波基亚罗(Campochiaro)等人，人类基因治疗17:167-176(2006年2月))。研究10⁶至10^9.5粒子单位(PU)范围内的剂量，并且不存在与AdPEDF.ll相关的严重不良事件并且不存在剂量限制性毒性(参见，例如，坎波基亚罗等人，人类基因治疗17:167-176(2006年2月))。腺病毒载体介导的眼部基因转移似乎是一种用于治疗眼部病症的可行方法并且可以适用于CRISPR Cas系统。

在另一个实施例中，RXi制药公司(RXi Pharmaceuticals)的

系统可以用于和/或适于将CRISPR Cas递送至眼睛。在此系统中，单次玻璃体内给予3μg sd-rxRNA，导致PPIB mRNA水平的序列特异性减小，持续14天。

系统可以适用于本发明的核酸靶向系统，考虑CRISPR给予人类的约3至20mg的剂量。

米林顿-瓦尔德(Millington-Ward)等人(分子治疗，第19卷，第4期，642-649，2011年4月) 描述了将基于RNA干扰(RNAi)的视紫红质抑制物和由于变性位置处的核苷酸变化而抵抗抑制的密码子修饰的视紫红质替换基因递送到RNAi靶位点的腺相关病毒(AAV)载体。通过米林顿-瓦尔德等人将6.0× 10⁸vp或1.8×10¹⁰vp AAV注射液视网膜下注射到眼睛。米林顿-瓦尔德等人的AAV载体可以适用于本发明的CRISPR Cas系统，考虑给予至人类的约2×10¹¹至约6×10¹³vp的剂量。

达尔卡拉(Dalkara)等人(科学转化医学(Sci Transl Med)5,189ra76(2013))也涉及改变无害注射到眼睛玻璃体液中之后将野生型版本的缺陷基因递送到整个视网膜的AAV载体的体内定向进化。达尔卡拉描述了一种7聚体肽展示文库和一种通过DNA改组来自AAV1、2、4、5、6、8、以及9的cap基因来构建的AAV文库。包装在CAG或Rho启动子下表达GFP的rcAAV文库和rAAV载体，并且通过定量PCR获得抗脱氧核糖核酸酶的基因组滴度。合并这些文库，并且进行两轮进化，每次进化由初始文库多样性和随后的三次体内选择步骤组成。在每个此步骤中，向P30 rho-GFP小鼠玻璃体内注射2ml碘克沙醇纯化的磷酸盐缓冲盐水(PBS)透析文库，其中基因组滴度是约1×10¹²vg/ml。达尔卡拉等人的AAV系统可以适用于本发明的核酸靶向系统，考虑给予人类的约1×10¹⁵至约1×10¹⁶vg/ml的剂量。

在一个特定实施例中，可以靶向视紫红质基因以用于治疗色素性视网膜炎(RP)，其中转让给桑加莫生物科技公司的美国专利号20120204282的系统可以根据本发明的CRISPR Cas系统进行修改。

在另一个实施例中，转让给策勒克提斯公司的美国专利公开号20130183282的方法是涉及切割来自人类视紫红质基因的靶序列的方法，该方法也可以被修改成本发明的核酸靶向系统。

美国专利公开号20130202678涉及用于治疗视网膜病变和威胁视力的眼科病症的方法，这些方法涉及将Puf-A基因(该基因在视网膜神经节和眼组织的色素细胞中表达并且展示一种独特的抗细胞凋亡活性)递送到眼睛的视网膜下间隙或玻璃体内间隙。具体地说，希望的靶标是zgc:193933、prdm1a、spata2、 tex10、rbb4、ddx3、zp2.2、Blimp-1以及HtrA2，所有这些靶标均可以被本发明的核酸靶向系统靶向。

吴(细胞干细胞，13:659-62,2013)设计了一种将Cas9引导到在小鼠中引起白内障的单一碱基对突变的指导RNA，其中它诱导DNA切割。然后使用另一个野生型等位基因或者给予受精卵的寡核苷酸，修复机制校正破坏的等位基因的序列并且校正突变体小鼠中引起白内障的遗传性缺陷。

美国专利公开号20120159653描述了使用锌指核酸酶遗传性修饰与黄斑变性(MD)相关联的细胞、动物和蛋白质。黄斑变性(MD)是老年人视力缺损的主要原因，但是也是儿童疾病诸如眼底黄色斑点症(Stargardt disease)、索斯比氏眼底病(Sorsby fundus)以及致命性儿童神经变性疾病的标志性症状，其中发作年龄最早到婴儿期。黄斑变性由于视网膜损害而导致视野(黄斑)中心的视力丧失。目前存在的动物模型并未概括疾病在人类中所观察到的主要标志。包含编码与MD相关联的蛋白质的突变体基因的可用动物模型也产生高度可变的表型，这使得对人类疾病的翻译和治疗发展成为问题。

美国专利公开号20120159653的一个方面涉及编辑编码与MD相关联的蛋白质的任何染色体序列，它们可以适用于本发明的核酸靶向系统。与MD相关联的蛋白质典型地是基于和MD相关联的蛋白质与 MD病症的实验相关性来选择。例如，与MD相关联的蛋白质的产生率或循环浓度在患有MD病症的群体中相对于不存在MD病症的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，与MD相关联的蛋白质可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应 (Q-PCR)。

作为非限制性实例，与MD相关联的蛋白质包括但不限于以下蛋白质：(ABCA4)ATP-结合盒，子家族A(ABC1)，成员4；ACHM1全色盲(杆状细胞单色型色觉(rod monochromacy))1；ApoE载脂蛋白E(ApoE)；C1QTNF5(CTRP5)C1q和肿瘤坏死因子相关蛋白5(C1QTNF5)；C2补体组分2(C2)； C3补体组分(C3)；CCL2趋化因子(C-C基序)配体2(CCL2)；CCR2趋化因子(C-C基序)受体2(CCR2)； CD36分化抗原簇36；CFB补体因子B；CFH补体因子；CFH H；CFHR1补体因子H相关1；CFHR3补体因子 H相关3；CNGB3环状核苷酸门控通道β3；CP血浆铜蓝蛋白(CP)；CRP C反应蛋白(CRP)；CST3抑半胱氨酸蛋白酶蛋白C或抑半胱氨酸蛋白酶蛋白3(CST3)；CTSD组织蛋白酶D(CTSD)；CX3CR1趋化因子 (C-X3-C基序)受体1；ELOVL4伸长的极长链脂肪酸4；ERCC6切补修复交叉互补啮齿动物修复缺陷，互补群6；FBLN5腓骨蛋白-5；FBLN5腓骨蛋白5；FBLN6腓骨蛋白6；FSCN2成束蛋白(FSCN2)；HMCN1 半椎蛋白(Hemicentrin)1；HMCN1半椎蛋白1；HTRA1 HtrA丝氨酸肽酶1(HTRA1)；HTRA1 HtrA丝氨酸肽酶1；IL-6白介素6；IL-8白介素8；LOC387715假定蛋白；PLEKHA1含普列克底物蛋白同源结构域家族A成员1(PLEKHA1)；PROM1 Prominin 1(PROM1或CD133)；PRPH2外周蛋白-2；RPGR色素性视网膜炎GTP酶调节剂；SERPING1丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支(clade)G，成员1(C1抑制剂)； TCOF1糖蜜TIMP3金属蛋白酶抑制剂3(TIMP3)；TLR3 Toll样受体3。

与MD相关联且其染色体序列被编辑的蛋白质的性质可以并且将发生改变。在优选实施例中，与MD相关联且其染色体序列被编辑的蛋白质可以是由ABCR基因编码的ATP结合盒子家族A(ABC1)成员4蛋白(ABCA4)、由APOE基因编码的载脂蛋白E蛋白(APOE)、由CCL2基因编码的趋化因子(C-C基序)配体2蛋白(CCL2)、由CCR2基因编码的趋化因子(C-C基序)受体2蛋白(CCR2)、由CP基因编码的血浆铜蓝蛋白(CP)、由CTSD基因编码的组织蛋白酶D蛋白(CTSD)、或者由TIMP3基因编码的金属蛋白酶抑制剂3蛋白质(TIMP3)。在一个示例性实施例中，遗传修饰的动物是大鼠，并且编码与MD相关联的蛋白质的编辑的染色体序列可以是：(ABCA4)ATP结合盒子家族A(ABC1)成员4NM_000350；APOE 载脂蛋白E(APOE)NM_138828；CCL2趋化因子(C-C基序)配体2(CCL2)NM_031530；CCR2趋化因子(C-C基序)受体2(CCR2)NM_021866；CP血浆铜蓝蛋白(CP)NM_012532；CTSD组织蛋白酶D(CTSD) NM_134334；TIMP3金属蛋白酶抑制剂3(TIMP3)NM_012886。动物或细胞可以包含编码与MD相关联的蛋白质的1、2、3、4、5、6、7或更多个破坏的染色体序列和编码与MD相关联的破坏蛋白质的0、1、2、 3、4、5、6、7或更多个染色体整合序列。

编辑或整合的染色体序列可以被修饰为编码与MD相关联的改变的蛋白质。在MD相关染色体序列中的许多突变已与MD相关联。与MD相关联的染色体序列中的突变的非限制性实例包括可以引起MD 的那些突变，包括在ABCR蛋白质，E471K(即在位置471处的谷氨酸被改变成赖氨酸)、R1129L(即在位置1129处的精氨酸被改变成亮氨酸)、T1428M(即在位置1428处的苏氨酸被改变成甲硫氨酸)、R1517S(即在位置1517处的精氨酸被改变成丝氨酸)、I1562T(即在位置1562处的异亮氨酸被改变成苏氨酸)、以及 G1578R(即在位置1578处的甘氨酸被改变成精氨酸)；在CCR2蛋白质中，V64I(即在位置192处的缬氨酸被改变成异亮氨酸)；在CP蛋白质中，G969B(即在位置969处的甘氨酸被改变成天冬酰胺或天冬氨酸)；在TIMP3蛋白质，S156C(即在位置156处的丝氨酸被改变成半胱氨酸)、G166C(即在位置166处的甘氨酸被改变成半胱氨酸)、G167C(即在位置167处的甘氨酸被改变成半胱氨酸)、Y168C(即在位置168处的酪氨酸被改变成半胱氨酸)、S170C(即在位置170处的丝氨酸被改变成半胱氨酸)、Y172C(即在位置172处的酪氨酸被改变成半胱氨酸)、以及S181C(即在位置181处的丝氨酸被改变成半胱氨酸)。MD相关基因的遗传性变型与疾病的其他相关性是本领域已知的。

CRISPR系统适用于校正由常染色体显性基因引起的疾病。例如，使用CRISPR/Cas9去除引起眼睛受体丧失的常染色体显性基因。巴科迪，B.(Bakondi,B.)等人，体内CRISPR/Cas9基因编辑常染色体显性色素性视网膜炎的S334ter-3大鼠模型中的视网膜营养性萎缩症(In Vivo CRISPR/Cas9 Gene Editing Corrects Retinal Dystrophy in theS334ter-3Rat Model of Autosomal Dominant Retinitis Pigmentosa)。分子治疗，2015；DOI:10.1038/mt.2015.220。

治疗循环系统疾病和肌肉疾病

本发明还考虑将在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统递送到心脏。对于心脏，心肌向性腺相关病毒(AAVM)是优选的，具体地是在心脏中显示优先基因转移的AAVM41(参见，例如，林-阳尕(Lin-Yanga)等人，美国国家科学院院刊，2009年3月10日，第106卷，第10期)。给药可以是全身性的或局部的。对于全身性给药，考虑约1-10×10¹⁴个载体基因组的剂量。还参见，例如，埃拉里奥(Eulalio) 等人，(2012)自然492:376和苏摩素塔拉姆(Somasuntharam)等人(2013)生物材料(Biomaterials)34:7790。

例如美国专利公开号20110023139描述了使用锌指核酸酶遗传性修饰与心血管疾病相关联的细胞、动物和蛋白质。心血管疾病通常包括高血压、心脏病发作、心力衰竭、以及卒中和TIA。涉及心血管疾病的任何染色体序列或者由涉及心血管疾病的任何染色体序列编码的蛋白质可以用于本披露描述的方法中。心血管相关蛋白典型地是基于心血管相关蛋白与心血管疾病发展的实验相关性来选择。例如，心血管相关蛋白的产生率或循环浓度在患有心血管病症的群体中相对于不存在心血管病症的群体有所升高或降低。蛋白质水平的差异可以适于蛋白质组学技术来评估，这些技术包括但不限于，蛋白印迹法、免疫组织化学染色、酶联免疫吸附测定(ELISA)、以及质谱法。可替代地，心血管相关蛋白可以是通过使用基因组技术获得编码这些蛋白质的基因的基因表达谱来鉴定，这些基因组技术包括但不限于DNA微阵列分析、基因表达序列分析(SAGE)、以及定量实时聚合酶链反应(Q-PCR)。

作为非限制性实例，染色体序列可以包括但不限于，IL1B(白介素1，β)、XDH(黄嘌呤脱氢酶)、TP53(肿瘤蛋白p53)、PTGIS(前列腺素12(前列环素)合酶)、MB(肌红蛋白)、IL4(白介素4)、 ANGPT1(血管生成素1)、ABCG8(ATP-结合盒，子家族G(WHITE)，成员8)、CTSK(组织蛋白酶K)、 PTGIR(前列腺素12(前列环素)受体(IP))、KCNJ11(钾整流通道，子家族J，成员11)、INS(胰岛素)、 CRP(C-反应蛋白，穿透素相关)、PDGFRB(血小板源生长因子受体，β多肽)、CCNA2(周期素A2)、PDGFB (血小板源生长因子β多肽(猴肉瘤病毒(v-sis)癌基因同源物))、KCNJ5(钾整流通道，子家族J，成员5)、 KCNN3(钾中间体/小电导钙激活通道，子家族N，成员3)、CAPN10(钙蛋白酶10)、PTGES(前列腺素E 合酶)、ADRA2B(肾上腺素性，α-2B-，受体)、ABCG5(ATP-结合盒，子家族G(WHITE)、成员5)、PRDX2 (过氧化物还原酶2)、CAPN5(钙蛋白酶5)、PARP14(聚(ADP-核糖)聚合酶家族，成员14)、MEX3C(mex-3 同源物C(秀丽隐杆线虫))、ACE血管紧张素I转化酶(肽基-二肽酶A)1)、TNF(肿瘤坏死因子(TNF超家族，成员2))、IL6(白介素6(干扰素，β2))、STN(他汀类)、丝氨酸蛋白酶抑制剂E1(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支E(微管连接蛋白，纤溶酶原激活物抑制剂1型)、成员1)、ALB(白蛋白)、ADIPOQ (脂联素，含有C1Q和胶原蛋白结构域)、APOB(载脂蛋白B(包含Ag(x)抗原))、APOE(载脂蛋白E)、 LEP(瘦蛋白)、MTHFR(5，10-亚甲基四氢叶酸还原酶(NADPH))、APOA1(载脂蛋白A-I)、EDN1(内皮素1)、NPPB(利钠肽前体B)、NOS3(一氧化氮合酶3(内皮细胞))、PPARG(过氧化物酶体增殖物激活受体γ)、PLAT(纤溶酶原激活物，组织)、PTGS2(前列腺素-内过氧化物合酶2(前列腺素G/H合酶和环氧合酶))、CETP(胆固醇酯转移蛋白，血浆)、AGTR1(血管紧张素II受体，1型)、HMGCR(3-羟基-3- 甲基戊二酰-辅酶A还原酶)、IGF1(胰岛素样生长因子1(生长调节素C))、SELE(选择素E)、REN(肾素)、 PPARA(过氧化物酶体增殖物激活受体α)、PON1(对氧磷酶1)、KNG1(激肽原1)、CCL2(趋化因子(C-C 基序)配体2)、LPL(脂蛋白连接酶)、VWF(血管假性血友病因子)、F2(凝血因子II(凝血酶))、ICAM1 (细胞间黏附分子1)、TGFB1(转化生长因子，β1)、NPPA(利钠肽前体A)、IL10(白介素10)、EPO(红细胞生成素)、SOD1(超氧化物歧化酶1，可溶)、VCAM1(血管细胞粘附分子1)、IFNG(干扰素，γ)、LPA(脂蛋白，Lp(a))、MPO(髓过氧化物酶)、ESR1(雌激素受体1)、MAPK1(丝裂原激活蛋白激酶1)、 HP(结合珠蛋白)、F3(凝血因子III(促凝血酶原激酶，组织因子))、CST3(半胱氨酸蛋白酶抑制剂C)、 COG2(低聚高尔基体复合物组分2)、MMP9(基质金属肽酶9(明胶酶B，92kDa明胶酶，92kDaIV型胶原蛋白酶))、丝氨酸蛋白酶抑制剂C1(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支C(抗凝血酶)、成员1)、F8 (凝血因子VIII，促凝血组分)、HMOX1(血红素氧化酶(脱环)1)、APOC3(载脂蛋白C-III)、IL8(白介素8)、PROK1(脱环1)、CBS(胱硫醚-β-合酶)、NOS2(一氧化氮合酶2，诱导型)、TLR4(toll-样受体 4)、SELP(选择素P(颗粒膜蛋白140kDa，抗原CD62))、ABCA1(ATP-结合盒，子家族A(ABC1)、成员1)、AGT(血管紧张素原(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支A，成员8))、LDLR(低密度脂蛋白受体)、GPT(谷氨酸-丙酮酸转氨酶(丙氨酸转氨酶))、VEGFA(血管内皮生长因子A)、NR3C2(核受体子家族3，C组，成员2)、IL18(白介素18(干扰素-γ-诱导因子))、NOS1(一氧化氮合酶1(神经元))、 NR3C1(核受体子家族3，C组，成员1(糖皮质激素受体))、FGB(纤维蛋白原β链)、HGF(肝细胞生长因子(肝细胞生成素A；散射因子))、IL1A(白介素1，α)、RETN(抵抗素)、AKT1(v-akt鼠胸腺瘤病毒癌基因同源物1)、LIPC(脂肪酶，肝脏)、HSPD1(热休克60kDa蛋白1(伴侣蛋白))、MAPK14(丝裂原激活蛋白激酶14)、SPP1(分泌型磷蛋白1)、ITGB3(整合素，β3(血小板糖蛋白111a，抗原CD61))、CAT (过氧化氢酶)、UTS2(尿紧张素2)、THBD(血栓调节蛋白)、F10(凝血因子X)、CP(血浆铜蓝蛋白(铁氧化酶))、TNFRSF11B(肿瘤坏死因子受体超家族，成员11b)、EDNRA(内皮素受体A型)、EGFR(表皮生长因子受体(成红细胞白血病病毒(v-erb-b)癌基因同源物，鸟类))、MMP2(基质金属肽酶2(明胶酶A，72kDa明胶酶，72kDaIV型胶原酶))、PLG(纤溶酶原)、NPY(神经肽Y)、RHOD(ras同源物基因家族，成员D)、MAPK8(丝裂原激活蛋白激酶8)、MYC(v-myc髓细胞组织增生病毒癌基因同源物(鸟类))、FN1(纤连蛋白1)、CMA1(糜酶1，肥大细胞)、PLAU(纤溶酶原激活物，尿激酶)、GNB3(鸟嘌呤核苷酸结合蛋白(G蛋白)，β多肽3)、ADRB2(肾上腺素性，β-2-，受体，表面)、APOA5(载脂蛋白 A-V)、SOD2(超氧化物歧化酶2，线粒体)、F5(凝血因子V(促凝血球蛋白原，易变因子))、VDR(维生素D(1,25-二羟基维生素D3)受体)、ALOX5(花生四烯酸5-脂加氧酶)、HLA-DRB1(主要组织相容性复合物，II类，DRβ1)、PARP1(聚(ADP-核糖)聚合酶1)、CD40LG(CD40配体)、PON2(对氧磷酶2)、 AGER(高级糖基化末端产物特异性受体)、IRS1(胰岛素受体底物1)、PTGS1(前列腺素-内过氧化物合酶1(前列腺素G/H合酶和环氧合酶))、ECE1(内皮素转化酶1)、F7(凝血因子VII(血清凝血素转化加速物))、URN(白介素1受体拮抗剂)、EPHX2(环氧化物酶2，细胞质)、IGFBP1(胰岛素-样生长因子结合蛋白1)、MAPK10(丝裂原激活蛋白激酶10)、FAS(Fas(TNF受体超家族，成员6))、ABCB1(ATP-结合盒，子家族B(MDR/TAP)，成员1)、JUN(jun癌基因)、IGFBP3(胰岛素-样生长因子结合蛋白3)、CD14 (CD14分子)、PDE5A(磷酸二酯酶5A，cGMP-特异性)、AGTR2(血管紧张素II受体，2型)、CD40(CD40 分子，TNF受体超家族成员5)、LCAT(卵磷脂-胆固醇酰基转移酶)、CCR5(趋化因子(C-C基序)受体5)、 MMP1(基质金属肽酶1(间质胶原酶))、TIMP1(TIMP金属肽酶抑制剂1)、ADM(肾上腺髓质素)、DYT10 (肌张力障碍10)、STAT3(信号转导物和转录激活物3(急性期反应因子))、MMP3(基质金属肽酶3(基质溶素1，前明胶酶))、ELN(弹性蛋白)、USF1(上游转录因子1)、CFH(补体因子H)、HSPA4(热休克70kDa蛋白4)、MMP12(基质金属肽酶12(巨噬细胞弹性蛋白酶))、MME(膜金属内肽酶)、F2R(凝血因子II(凝血酶)受体)、SELL(选择素L)、CTSB(组织蛋白酶B)、ANXA5(膜联蛋白A5)、ADRB1 (肾上腺素性，β-1-，受体)、CYBA(细胞色素b-245，α多肽)、FGA(纤维蛋白原α链)、GGT1(γ-谷氨酰转移酶1)、LIPG(脂肪酶，内皮)、HIF1A(低氧诱导因子1，α亚基(碱性螺旋环螺旋转录因子))、CXCR4(趋化因子(C-X-C基序)受体4)、PROC(蛋白C(凝血因子灭活物Va和VIIIa))、SCARB1(清道夫受体 B类，成员1)、CD79A(CD79a分子，免疫球蛋白-相关α)、PLTP(磷脂转移蛋白)、ADD1(内收蛋白1(α))、 FGG(纤维蛋白原γ链)、SAA1(血清淀粉样蛋白A1)、KCNH2(钾电压门控通道，子家族H(eag-相关)，成员2)、DPP4(二肽基-肽酶4)、G6PD(葡萄糖-6-磷酸脱氢酶)、NPR1(利钠肽受体A/鸟苷酸环化酶A(心房利钠肽受体A))、VTN(玻连蛋白)、KIAA0101(KIAA0101)、FOS(FBJ鼠骨肉瘤病毒癌基因同源物)、 TLR2(toll-样受体2)、PPIG(肽基脯氨酰异构酶G(亲环蛋白G))、IL1R1(白介素1受体，I型)、AR(雄激素受体)、CYP1A1(细胞色素P450,家族1，子家族A，多肽1)、丝氨酸蛋白酶抑制剂A1(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支A(α-1抗蛋白酶，抗胰蛋白酶)，成员1)、MTR(5-甲基四氢叶酸-高半胱氨酸甲基转移酶)、RBP4(视黄醇结合蛋白4，血浆)、APOA4(载脂蛋白A-IV)、CDKN2A(周期素依赖性激酶抑制剂2A(黑色素瘤，p16，抑制CDK4))、FGF2(成纤维细胞生长因子2(碱性))、EDNRB(内皮素受体B型)、ITGA2(整合素，α2(CD49B，VLA-2受体的α2亚基))、CABIN1(钙调磷酸酶结合蛋白1)、 SHBG(性激素-结合球蛋白)、HMGB1(高迁移率族蛋白1)、HSP90B2P(热休克蛋白90kDaβ(Grp94)，成员2(假基因))、CYP3A4(细胞色素P450,家族3，子家族A，多肽4)、GJA1(间隙连接蛋白，α1，43kDa)、 CAV1(小窝蛋白1，小凹蛋白，22kDa)、ESR2(雌激素受体2(ERβ))、LTA(淋巴毒素α(TNF超家族，成员1))、GDF15(生长分化因子15)、BDNF(脑源性神经营养因子)、CYP2D6(细胞色素P450,家族2，子家族D，多肽6)、NGF(神经生长因子(β多肽))、SP1(Sp1转录因子)、TGIF1(TGFB-诱导因子同源框1)、SRC(v-src肉瘤(施密特-鲁平(Schmidt-Ruppin)A-2)病毒癌基因同源物(鸟类))、EGF(表皮生长因子(β-尿抑胃素))、PIK3CG(磷酸肌醇-3-激酶，催化型，γ多肽)、HLA-A(主要组织相容性复合物， I类，A)、KCNQ1(钾电压门控通道，KQT-样子家族，成员1)、CNR1(大麻素受体1(大脑))、FBN1(原纤蛋白1)、CHKA(胆碱激酶α)、BEST1(斑萎蛋白1)、APP(淀粉样蛋白β(A4)前体蛋白)、CTNNB1(连环蛋白(钙粘素-相关蛋白)、β1，88kDa)、IL2(白介素2)、CD36(CD36分子(血小板反应蛋白受体))、 PRKAB1(蛋白激酶，AMP-激活型，β1非催化型亚基)、TPO(甲状腺过氧化物酶)、ALDH7A1(醛脱氢酶7家族，成员A1)、CX3CR1(趋化因子(C-X3-C基序)受体1)、TH(酪氨酸羟化酶)、F9(凝血因子IX)、 GH1(生长激素1)、TF(转铁蛋白)、HFE(血色素沉着)、IL17A(白介素17A)、PTEN(磷酸酶和张力蛋白同源物)、GSTM1(谷胱甘肽s-转移酶mu1)、DMD(肌萎缩蛋白)、GATA4(GATA结合蛋白4)、F13A1 (凝血因子XIII，A1多肽)、TTR(甲状腺素运载蛋白)、FABP4(脂肪酸结合蛋白4，脂肪细胞)、PON3 (对氧磷酶3)、APOC1(载脂蛋白C-I)、INSR(胰岛素受体)、TNFRSF1B(肿瘤坏死因子受体超家族，成员1B)、HTR2A(5-羟色胺(血清素)受体2A)、CSF3(集落刺激因子3(粒细胞))、CYP2C9(细胞色素P450,家族2，子家族C，多肽9)、TXN(硫氧还蛋白)、CYP11B2(细胞色素P450,家族11，子家族B，多肽2)、PTH(甲状旁腺素)、CSF2(集落刺激因子2(粒细胞-巨噬细胞))、KDR(激酶插入结构域受体(III 型受体酪氨酸激酶))、PLA2G2A(磷脂酶A2，IIA族(血小板，滑液))、B2M(β-2-微球蛋白)、THBS1 (血小板反应蛋白1)、GCG(胰高血糖素)、RHOA(ras同源物基因家族，成员A)、ALDH2(醛脱氢酶2 家族(线粒体))、TCF7L2(转录因子7-样2(T-细胞特异性，HMG-框))、BDKRB2(缓激肽受体B2)、NFE2L2 (核因子(红细胞源性2)-样2)、NOTCH1(Notch同源物1，易位-相关(果蝇))、UGT1A1(UDP葡萄糖醛酸转移酶1家族，多肽A1)、IFNA1(干扰素，α1)、PPARD(过氧物酶体增生激活受体δ)、SIRT1(去乙酰化酶(沉默交配型信息调节2同源物)1(酿酒酵母))、GNRH1(促性腺素释放激素1(黄体化释放激素))、 PAPPA(妊娠相关血浆蛋白A，冠毛素1)、ARR3(抑制蛋白3，视黄醛(X-抑制蛋白))、NPPC(利钠肽前体C)、AHSP(α血红蛋白稳定蛋白)、PTK2(PTK2蛋白酪氨酸激酶2)、IL13(白介素13)、MTOR(雷帕霉素机制靶标(丝氨酸/苏氨酸激酶))、ITGB2(整合素，β2(补体组分3受体3和4亚基))、GSTT1(谷胱甘肽s-转移酶θ1)、IL6ST(白介素6信号转导蛋白(gp130，制癌蛋白M受体))、CPB2(羧基肽酶B2(血浆))、 CYP1A2(细胞色素P450,家族1，子家族A，多肽2)、HNF4A(肝蛋白核因子4，α)、SLC6A4(溶质运载蛋白家族6(神经递质转运体，血清素)，成员4)、PLA2G6(磷脂酶A2，VI组(细胞溶质，钙不依赖性))、 TNFSF11(肿瘤坏死因子(配体)超家族，成员11)、SLC8A1(溶质运载蛋白家族8(纳/钙交换蛋白)，成员1)、F2RL1(凝血因子II(凝血酶)受体-样1)、AKR1A1(醛酮还原酶家族1，成员A1(醛还原酶))、 ALDH9A1(醛脱氢酶9家族，成员A1)、BGLAP(骨髓γ-羧基谷氨酸(gla)蛋白)、MTTP(线粒体甘油三酯转移蛋白)、MTRR(5-甲基四氢叶酸-高半胱氨酸甲基转移酶还原酶)、SULT1A3(磺基转移酶家族，细胞溶质，1A，苯酚优选型，成员3)、RAGE(肾肿瘤抗原)、C4B(补体组分4B(Chido血型)、P2RY12(嘌呤受体P2Y，G-蛋白偶联，12)、RNLS(肾胺酶，FAD-依赖型胺氧化酶)、CREB1(cAMP反应元件结合蛋白1)、POMC(阿黑皮素原)、RAC1(ras-相关C3肉毒毒素底物1(rho家族，小GTP结合蛋白Rac1))、LMNA (核纤层蛋白NC)、CD59(CD59分子，补体调节蛋白)、SCN5A(钠通道，电压门控，V型，α亚基)、CYP1B1 (细胞色素P450,家族1，子家族B，多肽1)、MIF(巨噬细胞迁移抑制剂y因子(糖基化-抑制因子))、MMP13 (基质金属肽酶13(胶原酶3))、TIMP2(TIMP金属肽酶抑制剂2)、CYP19A1(细胞色素P450,家族19，子家族A，多肽1)、CYP21A2(细胞色素P450,家族21，子家族A，多肽2)、PTPN22(蛋白酪氨酸磷酸酶，非 -受体型22(淋巴样))、MYH14(肌球蛋白，重链14，非肌肉)、MBL2(甘露糖-结合凝集素(蛋白C)2，可溶(调理素缺陷))、SELPLG(选择素P配体)、AOC3(胺氧化酶，含铜3(血管黏附蛋白1))、CTSL1 (组织蛋白酶L1)、PCNA(增生细胞核抗原)、IGF2(胰岛素样生长因子2(生长调节素A))、ITGB1(整合素，β1(纤连蛋白受体，β多肽，抗原CD29包括MDF2、MSK12))、CAST(钙蛋白酶抑素)、CXCL12 (趋化因子(C-X-C基序)配体12(基质细胞衍生因子1))、IGHE(免疫球蛋白重结构域ε)、KCNE1(钾电压门控通道，Isk-相关家族，成员1)、TFRC(转铁蛋白受体(p90，CD71))、COL1A1(胶原，I型，α1)、 COL1A2(胶原，I型，α2)、IL2RB(白介素2受体，β)、PLA2G10(磷脂酶A2，X组)、ANGPT2(血管生成素2)、PROCR(蛋白C受体，内皮(EPCR))、NOX4(NADPH氧化酶4)、HAMP(铁调素抗微生物肽)、 PTPN11(蛋白酪氨酸磷酸酶，非受体型11)、SLC2A1(溶质运载蛋白家族2(促葡萄糖转运体)，成员1)、 IL2RA(白介素2受体，α)、CCL5(趋化因子(C-C基序)配体5)、IRF1(干扰素调节因子1)、CFLAR(CASP8 和FADD样细胞凋亡调节剂)、CALCA(降钙素-相关多肽α)、EIF4E(真核细胞翻译起始因子4E)、GSTP1 (谷胱甘肽s-转移酶pi1)、JAK2(Janus激酶2)、CYP3A5(细胞色素P450,家族3，子家族A，多肽5)、HSPG2 (硫酸类肝素蛋白多糖2)、CCL3(趋化因子(C-C基序)配体3)、MYD88(骨髓分化主反应基因(88))、 VIP(血管活性肠肽)、SOAT1(甾醇O-酰基转移酶1)、ADRBK1(肾上腺素性，β，受体激酶1)、NR4A2 (核受体子家族4，A组，成员2)、MMP8(基质金属肽酶8(中性粒细胞胶原酶))、NPR2(利钠肽受体B/ 鸟苷酸环化酶B(心房利钠肽受体B))、GCH1(GTP环化水解酶1)、EPRS(谷酰基-脯氨酰-tRNA合成酶)、 PPARGC1A(过氧物酶体增生激活受体γ，共激活物1α)、F12(凝血因子XII(接触因子))、PECAM1(血小板/内皮细胞粘附分子)、CCL4(趋化因子(C-C基序)配体4)、丝氨酸蛋白酶抑制剂A3(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支A(α-1抗蛋白酶，抗胰蛋白酶)，成员3)、CASR(钙敏感受体)、GJA5(间隙连接蛋，α5，40kDa)、FABP2(脂肪酸结合蛋白2，肠)、TTF2(转录终止因子，RNA聚合酶II)、PROS1 (蛋白S(α))、CTF1(心肌营养蛋白1)、SGCB(肌聚糖，β(43kDa肌萎缩蛋白-相关糖蛋白))、YME1L1 (YME1样1(酿酒酵母))、CAMP(抗菌肽抗微生物肽)、ZC3H12A(含锌指CCCH-型12A)、AKR1B1(醛酮还原酶家族1，成员B1(醛糖还原酶))、DES(肌间线蛋白)、MMP7(基质金属肽酶7(基质溶解因子，子宫))、AHR(芳香烃受体)、CSF1(集落刺激因子1(巨噬细胞))、HDAC9(组蛋白脱乙酰酶9)、CTGF (结缔组织生长因子)、KCNMA1(大电导钙激活钾通道，子家族M，α成员1)、UGT1A(UDP葡萄糖醛酸转移酶1家族，多肽A复合物座位)、PRKCA(蛋白激酶C，α)、COMT(儿茶酚-.β.-甲基转移酶)、S100B (S100钙结合蛋白B)、EGR1(早期生长反应因子1)、PRL(催乳素)、IL15(白介素15)、DRD4(多巴胺受体D4)、CAMK2G(钙/钙调蛋白-依赖性蛋白激酶IIγ)、SLC22A2(溶质运载蛋白家族22(有机阳离子转运体)，成员2)、CCL11(趋化因子(C-C基序)配体11)、PGF(B321胎盘生长因子)、THPO(促血小板生成素)、GP6(糖蛋白VI(血小板))、TACR1(速激肽受体1)、NTS(神经降压素)、HNF1A(HNF1同源框A)、SST(生长激素抑制素)、KCND1(钾电压门控通道，Shal-相关子家族，成员1)、LOC646627(磷脂酶抑制剂)、TBXAS1(凝血噁烷A合酶1(血小板))、CYP2J2(细胞色素P450,家族2，子家族J，多肽2)、 TBXA2R(凝血噁烷A2受体)、ADH1C(醇脱氢酶1C(I类)、γ多肽)、ALOX12(花生四烯酸12-脂加氧酶)、 AHSG(α-2-HS-糖蛋白)、BHMT(甜菜碱-高半胱氨酸甲基转移酶)、GJA4(间隙连接蛋，α4，37kDa)、 SLC25A4(溶质运载蛋白家族25(线粒体运载蛋白；腺嘌呤核苷酸转运体)，成员4)、ACLY(ATP柠檬酸裂合酶)、ALOX5AP(花生四烯酸5-脂加氧酶-激活蛋白)、NUMA1(核有丝分裂器蛋白1)、CYP27B1(细胞色素P450,家族27，子家族B，多肽1)、CYSLTR2(半胱氨酰白三烯受体2)、SOD3(超氧化物歧化酶3，细胞外)、LTC4S(白三烯C4合酶)、UCN(尿皮素)、GHRL(饥饿素/肥胖抑制素前多肽原)、APOC2(载脂蛋白C-II)、CLEC4A(C-型凝集素结构域家族4，成员A)、KBTBD10(含有kelch重复和BTB(POZ)结构域10)、TNC(腱生蛋白C)、TYMS(胸苷酸合酶)、SHCl(SHC(含有Src同源物y2结构域)转化蛋白1)、 LRP1(低密度脂蛋白受体-相关蛋白1)、SOCS3(细胞因子信号传导抑制物3)、ADH1B(醇脱氢酶1B(I 类)、β多肽)、KLK3(激肽释放酶-相关肽酶3)、HSD11B1(羟基类固醇(11-β)脱氢酶1)、VKORC1(维生素K环氧化物还原酶复合物，亚基1)、丝氨酸蛋白酶抑制剂B2(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支 B(卵白蛋白)，成员2)、TNS1(张力蛋白1)、RNF19A(环指蛋白19A)、EPOR(红细胞生成素受体)、ITGAM (整合素，αM(补体组分3受体3亚基))、PITX2(成对样同源结构域2)、MAPK7(丝裂原激活蛋白激酶7)、 FCGR3A(IgG的Fc片段，低亲和力111a，受体(CD16a))、LEPR(瘦蛋白受体)、ENG(内皮因子)、GPX1 (谷胱甘肽过氧化物酶1)、GOT2(谷氨酸草酰转氨酶2，线粒体(天冬氨酸氨基转移酶2))、HRH1(组胺受体H1)、NR112(核受体子家族1，I组，成员2)、CRH(促肾上腺激素释放激素)、HTR1A(5-羟色胺(血清素)受体1A)、VDAC1(电压-依赖性阴离子通道1)、HPSE(乙酰肝素酶)、SFTPD(表面活性剂蛋白D)、 TAP2(转运体2，ATP-结合盒，子家族B(MDR/TAP))、RNF123(环指蛋白123)、PTK2B(PTK2B蛋白酪氨酸激酶2β)、NTRK2(神经营养性酪氨酸激酶，受体，2型)、IL6R(白介素6受体)、ACHE(乙酰胆碱酯酶(Yt血型))、GLP1R(胰高血糖素样肽1受体)、GHR(生长激素受体)、GSR(谷胱甘肽还原酶)、 NQO1(NAD(P)H脱氢酶，醌1)、NR5A1(核受体子家族5，A组，成员1)、GJB2(间隙连接蛋，β2，26kDa)、SLC9A1(溶质运载蛋白家族9(钠/氢交换蛋白)，成员1)、MAOA(单胺氧化酶A)、PCSK9(前蛋白转化酶枯草杆菌蛋白酶/kexin9型)、FCGR2A(IgG的Fc片段，低亲和力IIa，受体(CD32))、丝氨酸蛋白酶抑制剂F1(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支F(α-2抗纤维蛋白溶素，色素上皮源性因子)，成员1)、 EDN3(内皮素3)、DHFR(二氢叶酸还原酶)、GAS6(生长停滞-特异性6)、SMPD1(鞘磷脂磷酸二酯酶1，酸性溶酶体)、UCP2(解偶联蛋白2(线粒体，质子运载蛋白))、TFAP2A(转录因子AP-2α(激活增强子结合蛋白2α))、C4BPA(补体组分4结合蛋白，α)、丝氨酸蛋白酶抑制剂F2(丝氨酸蛋白酶抑制剂肽酶抑制剂，进化支F(α-2抗纤维蛋白溶素，色素上皮源性因子)，成员2)、TYMP(胸苷磷酸化酶)、ALPP(碱性磷酸酶，胎盘(Regan同工酶))、CXCR2(趋化因子(C-X-C基序)受体2)、SLC39A3(溶质运载蛋白家族39(锌转运体)，成员3)、ABCG2(ATP-结合盒，子家族G(WHITE)，成员2)、ADA(腺苷脱氨酶)、 JAK3(Janus激酶3)、HSPA1A(热休克70kDa蛋白1A)、FASN(脂肪酸合酶)、FGF1(成纤维细胞生长因子1(酸性))、F11(凝血因子XI)、ATP7A(ATP酶，Cu++转运，α多肽)、CR1(补体组分(3b/4b)受体1(Knops血型))、GFAP(胶质纤维酸性蛋白)、ROCK1(Rho-相关，含卷曲螺旋蛋白激酶1)、MECP2(甲基CpG结合蛋白2(蕾特氏综合征))、MYLK(肌球蛋白轻链激酶)、BCHE(丁酰胆碱酯酶)、LIPE(脂肪酶，激素敏感性)、PRDX5(过氧化物还原酶5)、ADORA1(腺苷A1受体)、WRN(维尔纳综合症，RecQ 螺旋酶样)、CXCR3(趋化因子(C-X-C基序)受体3)、CD81(CD81分子)、SMAD7(SMAD家族成员7)、 LAMC2(核纤层蛋白in，γ2)、MAP3K5(丝裂原激活蛋白激酶激酶激酶5)、CHGA(嗜铬粒蛋白A(甲状旁腺分泌蛋白1))、IAPP(胰岛淀粉样多肽)、RHO(视紫红质)、ENPP1(核苷酸内焦磷酸酶/磷酸二酯酶 1)、PTHLH(甲状旁腺素样激素)、NRG1(神经调节蛋白1)、VEGFC(血管内皮生长因子C)、ENPEP(谷酰基氨基肽酶(氨基肽酶A))、CEBPB(CCAAT/增强子结合蛋白(C/EBP)、β)、NAGLU(N-乙酰葡糖胺糖苷酶，α-)、F2RL3(凝血因子II(凝血酶)受体样3)、CX3CL1(趋化因子(C-X3-C基序)配体1)、BDKRB1 (缓激肽受体B1)、ADAMTS13(具有血小板反应蛋白1型基序的ADAM金属肽酶，13)、ELANE(弹性蛋白酶，中性粒细胞表达)、ENPP2(核苷酸内焦磷酸酶/磷酸二酯酶2)、CISH(含有细胞因子诱导型SH2的蛋白)、GAST(胃泌素)、MYOC(肌纤蛋白，小梁网诱导型糖皮质激素反应)、ATP1A2(ATP酶，Na+/K+ 转运，α2多肽)、NF1(神经纤维瘤蛋白1)、GJB1(间隙连接蛋，β1，32kDa)、MEF2A(肌细胞增强因子 2A)、VCL(粘着斑蛋白)、BMPR2(骨形态蛋白受体，II型(丝氨酸/苏氨酸激酶))、TUBB(微管蛋白， β)、CDC42(细胞分裂周期42(GTP结合蛋白，25kDa))、KRT18(角蛋白18)、HSF1(热休克转录因子1)、 MYB(v-myb成髓细胞血症病毒癌基因同源物(鸟类))、PRKAA2(蛋白激酶，AMP-激活，α2催化型亚基)、 ROCK2(Rho-相关，含卷曲螺旋蛋白激酶2)、TFPI(组织因子途径抑制剂(脂蛋白-相关凝血抑制剂))、 PRKG1(蛋白激酶，cGMP-依赖性，I型)、BMP2(骨形态蛋白2)、CTNND1(连环蛋白(钙粘素-相关蛋白)、δ1)、CTH(胱胺醚酶(胱硫醚γ-裂合酶))、CTSS(组织蛋白酶S)、VAV2(vav2鸟嘌呤核苷酸交换因子)、NPY2R(神经肽Y受体Y2)、IGFBP2(胰岛素样生长因子结合蛋白2，36kDa)、CD28(CD28分子)、 GSTA1(谷胱甘肽s-转移酶α1)、PPIA(肽基脯氨酰异构酶A(亲环蛋白A))、APOH(载脂蛋白H(β-2-糖蛋白I))、S100A8(S100钙结合蛋白A8)、IL11(白介素11)、ALOX15(花生四烯酸15-脂加氧酶)、FBLN1 (腓骨蛋白1)、NR1H3(核受体子家族1，H组，成员3)、SCD(硬脂酰-CoA去饱和酶(δ-9-去饱和酶))、 GIP(胃抑制剂y多肽)、CHGB(嗜铬粒蛋白B(分泌粒蛋白1))、PRKCB(蛋白激酶C，β)、SRD5A1(类固醇-5-α-还原酶，α多肽1(3-氧代-5α-类固醇δ4-脱氢酶α1))、HSD11B2(羟基类固醇(11-β)脱氢酶2)、 CALCRL(降钙素受体样)、GALNT2(UDP-N-乙酰基-α-D-半乳糖胺:多肽N-乙酰基氨基半乳糖转移酶2 (GalNAc-T2))、ANGPTL4(血管生成素样4)、KCNN4(钾中间体/小电导钙-激活通道，子家族N，成员4)、 PIK3C2A(磷酸肌醇-3-激酶，2类，α多肽)、HBEGF(肝素结合EGF样生长因子)、CYP7A1(细胞色素P450, 家族7，子家族A，多肽1)、HLA-DRB5(主要组织相容性复合物，II类，DRβ5)、BNIP3(BCL2/腺病毒E1B19 kDa相互作用蛋白3)、GCKR(葡糖激酶(己糖激酶4)调节剂)、S100A12(S100钙结合蛋白A12)、PADI4 (肽基精氨酸脱亚氨酶，IV型)、HSPA14(热休克70kDa蛋白14)、CXCR1(趋化因子(C-X-C基序)受体 1)、H19(H19，母系印记表达的转录物(非蛋白编码))、KRTAP19-3(角蛋白相关蛋白19-3)、IDDM2(胰岛素-依赖性糖尿病2)、RAC2(ras-相关C3肉毒毒素底物2(rho家族，小GTP结合蛋白Rac2))、RYR1(利阿诺定受体1(骨骼))、CLOCK(clock同源物(小鼠))、NGFR(神经生长因子受体(TNFR超家族，成员16))、DBH(多巴胺β-羟化酶(多巴胺β-单加氧酶))、CHRNA4(胆碱能受体，烟碱型，α4)、CACNA1C (钙通道，电压-依赖性，L型，α1C亚基)、PRKAG2(蛋白激酶，AMP-激活，γ2非-催化型亚基)、CHAT (胆碱乙酰转移酶)、PTGDS(前列腺素D2合酶21kDa(大脑))、NR1H2(核受体子家族1，H组，成员2)、 TEK(TEK酪氨酸激酶，内皮)、VEGFB(血管内皮生长因子B)、MEF2C(肌细胞增强因子2C)、MAPKAPK2 (丝裂原激活蛋白激酶-激活蛋白激酶2)、TNFRSF11A(肿瘤坏死因子受体超家族，成员11a，NFKB激活物)、HSPA9(热休克70kDa蛋白9(致死蛋白))、CYSLTR1(半胱氨酰白三烯受体1)、MAT1A(甲硫氨酸腺苷转移酶I，α)、OPRL1(鸦片受体样1)、IMPA1(肌醇(myo)-1(或4)-单磷酸酶1)、CLCN2(氯通道2)、 DLD(二氢硫辛酰胺脱氢酶)、PSMA6(蛋白酶体(前体，巨蛋白因子)亚基，α型，6)、PSMB8(蛋白酶体(前体，巨蛋白因子)亚基，β型，8(大多功能肽酶7))、CHI3L1(壳多糖酶3样1(软骨糖蛋白-39))、 ALDH1B1(醛脱氢酶1家族，成员B1)、PARP2(聚(ADP-核糖)聚合酶2)、STAR(生成类固醇的急性调节蛋白)、LBP(脂多糖结合蛋白)、ABCC6(ATP-结合盒，子家族C(CFTR/MRP)，成员6)、RGS2(G-蛋白信号传导调节剂2，24kDa)、EFNB2(肝配蛋白-B2)、GJB6(间隙连接蛋，β6，30kDa)、APOA2(载脂蛋白A-II)、AMPD1(腺苷单磷酸单磷酸1)、DYSF(dysferlin，肢带肌肉萎缩症2B(常染色体隐性))、FDFT1(法呢基二磷酸法呢基转移酶1)、EDN2(内皮素2)、CCR6(趋化因子(C-C基序)受体6)、GJB3 (间隙连接蛋，β3，31kDa)、IL1RL1(白介素1受体样1)、ENTPD1(核苷酸内三磷酸酯二磷酸水解酶1)、 BBS4(巴比二氏综合症(Bardet-Biedlsyndrome)4)、CELSR2(钙粘素，EGFLAG七次跨膜G-型受体2(flamingo 同源物，果蝇))、F11R(F11受体)、RAPGEF3(Rap鸟嘌呤核苷酸交换因子(GEF)3)、HYAL1(透明质酸氨基葡糖苷酶1)、ZNF259(锌指蛋白259)、ATOX1(ATX1抗氧化剂蛋白1同源物(酵母))、ATF6(激活转录因子6)、KHK(已酮糖激酶(果糖激酶))、SAT1(亚精胺/精胺N1-乙酰转移酶1)、GGH(γ-谷酰基水解酶(轭合酶，叶酰聚γ谷酰基水解酶))、TIMP4(TIMP金属肽酶抑制剂4)、SLC4A4(溶质运载蛋白家族4，碳酸氢钠共转运体，成员4)、PDE2A(磷酸二酯酶2A，cGMP-刺激)、PDE3B(磷酸二酯酶3B，cGMP- 抑制)、FADS1(脂肪酸去饱和酶1)、FADS2(脂肪酸去饱和酶2)、TMSB4X(胸腺素β4，X-连锁)、TXNIP(硫氧还蛋白相互作用蛋白)、LIMS1(LIM和衰老细胞抗原样结构域1)、RHOB(ras同源物基因家族，成员B)、LY96(淋巴细胞抗原96)、FOXO1(叉头框O1)、PNPLA2(含马铃薯糖蛋白样磷脂酶结构域2)、 TRH(促甲状腺激素释放激素)、GJC1(间隙连接蛋，γ1，45kDa)、SLC17A5(溶质运载蛋白家族17(阴离子/糖转运体)，成员5)、FTO(脂肪量和肥胖相关)、GJD2(间隙连接蛋，δ2，36kDa)、PSRC1(脯氨酸/丝氨酸富集卷曲螺旋1)、CASP12(盒12(基因/假基因))、GPBAR1(G蛋白-偶联胆汁酸受体1)、PXK (含PX结构域丝氨酸/苏氨酸激酶)、IL33(白介素33)、TRIB1(tribbles同源物1(果蝇))、PBX4(前-B- 细胞白血病同源框4)、NUPR1(核蛋白，转录调节剂，1)、15-Sep(15kDa硒蛋白)、CILP2(软骨中间层蛋白2)、TERC(端粒酶RNA组分)、GGT2(γ-谷氨酰转移酶2)、MT-CO1(线粒体编码的细胞色素c氧化酶I)、以及UOX(尿酸氧化酶，假基因)。任何这些序列可以是CRISPR-Cas系统的靶标,例如以处理突变。

在另一个实施例中，染色体序列可以是进一步选自Pon1(对氧磷酶1)、LDLR(LDL受体)、 ApoE(载脂蛋白E)、Apo B-100(载脂蛋白B-100)、ApoA(载脂蛋白(a))、ApoA1(载脂蛋白A1)、CBS (胱硫醚B-合酶)、糖蛋白IIb/IIb、MTHRF(5,10-亚甲四氢叶酸还原酶(NADPH)、以及其组合。在一次迭代中，染色体序列和由涉及心血管疾病的染色体序列编码的蛋白可以是选自Cacna1C、Sod1、Pten、 Ppar(alpha)、Apo E、Leptin、以及其作为CRISPR-Cas系统的一个或多个靶标的组合。

治疗肝脏和肾脏的疾病

本发明还考虑将在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统递送到肝脏和/或肾脏。诱导治疗性核酸的细胞摄取的递送策略包括物理力或载体系统，诸如基于病毒、脂质或复合物的递送系统或纳米载体。从最初具有不太可能的临床相关性的应用开始，当核酸使用全身性流体动力学高压注射来发送到肾细胞时，广泛范围的基因治疗病毒和非病毒载体已经用于靶向不同动物肾脏疾病模型的体内转录后事件(乔鲍·由里夫斯(Csaba Révész)和皮特·哈马尔(Péter Hamar)(2011).靶向肾脏中的RNA的递送方法(Delivery Methods to Target RNAs in the Kidney)，基因治疗应用(Gene TherapyApplications)，春生·康 (Chunsheng Kang)教授(编辑)，ISBN:978-953-307-541-9,InTech,可获自： http://www.intechopen.com/books/gene-therapy-applications/delivery-methods-to-target-rnas-inthe-kidney)。到肾脏中的递送方法可以包括袁(Yuan)等人(美国肾脏生理学杂志(Am J Physiol Renal Physiol)295:F605-F617, 2008)中所述的那些方法，他们研究了靶向花生四烯酸代谢的12/15-脂加氧酶(12/15-LO)途径的小干扰 RNA(siRNA)的体内递送是否可以改善链脲霉素注射的1型糖尿病小鼠模型中的肾损伤和糖尿病肾病 (DN)。为了实现更大的体内进入和肾脏中的siRNA表达，袁等人使用与胆固醇轭合的双链12/15-LO siRNA 寡核苷酸。将约400μg siRNA皮下注射到小鼠中。袁等人的方法可以适用于本发明的CRISPR Cas系统，考虑向人皮下注射1-2g与胆固醇轭合的CRISPR Cas，以用于递送到肾脏。

莫里托里斯(Molitoris)等人(美国肾脏病学会杂志(J Am Soc Nephrol)20:1754-1764,2009) 利用近端小管细胞(PTC)作为肾脏内的寡核苷酸重吸收位点，以测试siRNA靶向细胞凋亡途径中的关键蛋白p53的效率，从而防止肾脏损伤。在缺血性损伤后4h静脉内注射对于p53的合成的裸siRNA最大限度地保护了PTC和肾功能。莫里托里斯等人的数据表明将siRNA快速递送到近端小管细胞采用静脉内注射。对于剂量反应性分析，用0.33；1、3或5mg/kg剂量的siP53注射大鼠，在相同的四个时间点给予，分别产生累积剂量1.32；4、12以及20mg/kg。与PBS处理的缺血对照大鼠相比较，所有测试的siRNA剂量在第一天产生了SCr降低作用，其中更高的剂量在经过大约五天中更有效12mg/kg和20mg/kg的累积剂量提供了最好的保护作用。莫里托里斯等人的方法可以适用于本发明的CRISPR Cas系统，对于人类考虑用于递送到肾脏的12和20mg/kg累积。

汤普森(Thompson)等人(核酸治疗(Nucleic Acid Therapeutics)，第22卷，第4期，2012) 报道了在啮齿动物和非人类灵长类动物中静脉内注射之后合成的小干扰RNAI5NP的毒物学特征和药代动力学特征。I5NP被设计经由RNA干扰(RNAi)途径作用，以暂时抑制促细胞凋亡蛋白p53的表达，并且被开发来防止细胞经受在主要心脏手术过程中可能出现的急性缺血/再灌注损伤诸如急性肾损伤以及在肾脏移植之后可能出现的移植物功能延迟。在啮齿类中的800mg/kg I5NP以及在非人类灵长动物中的 1,000mg/kg I5NP的剂量对于引起不良作用是需要的，在猴中被分离为引导对血液的作用，包括补体的亚临床激活和凝血时间的轻度增加。在大鼠中，使用I5NP的大鼠类似物未观察到另外的不良作用，这表明这些作用可能表示合成型RNA双链体的分类作用，而不是与I5NP的预期药理活性相关的毒性。总之，这些数据支持用于在急性缺血/再灌注损伤之后保留肾功能的I5NP的静脉内给药的临床测试。在猴子中无观察到的不良反应的水平(NOAEL)是500mg/kg。在猴子中在以多至25mg/kg的剂量水平静脉内给药之后未观察到对心血管、呼吸和神经系统参数的作用。因此，对于向人类的肾脏静脉内给予CRISPR Cas可以考虑类似剂量。

清水(Shimizu)等人(美国肾脏病学会杂志21:622-633,2010)开发了一种经由基于聚(乙二醇)-聚(L-赖氨酸)的媒介物将siRNA靶向递送到肾小球的系统。该siRNA/纳米载体复合物的直径是约10至20 nm，该直径是将允许它移动跨过穿孔内皮细胞而接近肾小球膜的大小。在腹膜内注射荧光标记的siRNA/纳米载体复合物之后，清水等人在血液循环中检测到siRNA，持续一段延长的时间。在肾小球肾炎的小鼠模型中，丝裂原激活蛋白激酶1(MAPK1)siRNA/纳米载体复合物的重复腹膜内给药抑制了肾小球MAPK1 mRNA和蛋白质表达。为了研究siRNA累积，向BALBc小鼠给予与PIC纳米载体复合的Cy5标记的siRNA(0.5 ml，5nmol的siRNA含量)、裸露的Cy5标记的siRNA(0.5ml，5nmol)、或封装在HVJ-E中的Cy5标记的siRNA (0.5ml，5nmol的siRNA含量)。清水等人的方法可以适用于本发明的CRISPR Cas系统，对于人类考虑在约1-2升内约10-20μmol与纳米载体复合的CRISPR Cas，以腹膜内给药并且递送到肾脏。

到肾脏的递送方法概括如下：

靶向肝脏或肝脏细胞

提供了靶向的肝脏细胞。此细胞可以是在体外或在体内。肝细胞是优选的。CRISPR蛋白质诸如在此的Cpf1的递送可以是经由病毒载体，尤其是AAV(并且具体地是AAV2/6)载体。这些载体可以是通过静脉内注射来给予的。

肝脏的优选靶标(无论是在体外或在体内)是白蛋白基因。这是所谓的“安全港”，因为白蛋白以极高水平表达并且因此耐受在成功基因编辑之后的白蛋白产生的一些减少。它也是优选的，因为由白蛋白启动子/增强子看出的高水平表达允许实现有用水平的校正或转基因产生(由插入的供体模板产生)，即使仅一小部分肝细胞被编辑。

韦克斯勒(Wechsler)等人证实白蛋白的内含子1(报道在美国血液学会第57届年会和博览会 (57th Annual Meeting and Exposition of the American Society ofHematology)-摘要在 https://ash.confex.com/ash/2015/webprogram/Paper86495.html处可在线获得并且在2015年12月6日给出)是适合的靶位点。他们的研究使用Zn指切割DNA的此靶位点，并且可以生成适合的指导序列以指导CRISPR蛋白在相同位点处的切割。

使用高度表达的基因(具有高活性增强子/启动子的基因)诸如白蛋白内的靶标也可以允许使用无启动子供体模板，如通过韦克斯勒报道的，并且这在肝脏靶向之外也是广泛适用的。高度表达基因的其他实例是已知的。

其他肝脏疾病

在特定实施例中，本发明的CRISPR蛋白用于治疗肝脏病症，诸如甲状腺素运载蛋白淀粉样变性(ATTR)、α-1抗胰蛋白酶缺乏症以及其他基于肝脏的先天性代谢障碍。FAP是由编码甲状腺素运载蛋白 (TTR)的基因中的突变引起的。虽然它是一种常染色体显性疾病，但是并非所有的载体都发展该疾病。在TTR基因中存在已知与该疾病相关联的超过100个突变。常见突变的实例包括V30M。通过使用iRNA的研究已证明基于基因沉默的TTR治疗原则(上田(Ueda)等人，2014，翻译性神经变性(Transl Neurogener.) 3:19)。威尔森氏病(WD)是由编码肝细胞中专一可见的ATP7B的基因中的突变引起的。存在与WD相关联的500个突变，其中它在特定地区诸如东亚的患病率增加。其他实例是A1ATD(一种由SERPINA1基因中的突变引起的常染色体隐性疾病)和PKU(一种由苯丙氨酸羟化酶(PAH)基因中的突变引起的常染色体隐性疾病)。

肝脏相关血液病症，尤其是血友病并且具体地是B型血友病

在小鼠(体外和体内)和非人类灵长类动物(体内)中已实现成功的肝细胞基因编辑，这显示通过肝细胞中的基因编辑/基因组工程化来治疗血液病症是可行的。具体地说，在非人类灵长类动物中已显示肝细胞的人类F9(hF9)基因的表达，这指示人类B型血友病的治疗。

韦克斯勒等人在美国血液学会第57届年会和博览会(摘要在2015年12月6日给出并且在 https://ash.confex.com/ash/2015/webprogram/Paper86495.html处可在线获得)报道了他们通过体内基因编辑成功表达了来自非人类灵长类动物的肝细胞的F9(hF9)。这是使用1)靶向白蛋白座位的内含子1的两种锌指核酸酶(ZFN)以及2)人类F9供体模板来实现的。在静脉内注射的单独亲肝性腺相关病毒血清型2/6 (AAV2/6)上编码ZFN和供体模板，从而使得hF9基因的校正拷贝靶向插入到一定比例的肝脏肝细胞的白蛋白座位中。

白蛋白座位被选择为“安全港”，因为此最丰富的血浆蛋白质的产生超过10g/天，并且良好耐受那些水平的中等降低。通过高活性白蛋白增强子/启动子驱动，基因组编辑的肝细胞产生治疗量的正常 hFIX(hF9)，而不是白蛋白。示出hF9转基因在白蛋白座位处的靶向整合和此基因到白蛋白转录物中的剪接。

小鼠研究：经由尾静脉注射向C57BL/6小鼠给予媒介物(n＝20)或编码小鼠代理试剂的1.0x10¹³个载体基因组(vg)/kg的AAV2/6载体(n＝25)。在治疗的小鼠中的血浆hFIX的ELISA分析显示持续6个月研究持续时间的50-1053ng/mL峰值水平。来自小鼠血浆的FIX活性水平证实与表达水平相称的生物活性。

非人类灵长类动物(NHP)研究：以1.2x10¹³vg/kg单次静脉内共输注编码NHP靶向白蛋白特异性ZFN的AAV2/6载体和人类F9供体(n＝5/组)，导致在此大动物模型中>50ng/mL(>正常水平的1％)。使用较高AAV2/6剂量(多至1.5x10¹⁴vg/kg)在几只动物中产生多至1000ng/ml(或正常水平的20％)的血浆hFIX水平并且在单一动物中产生多至2000ng/ml(或正常水平的50％)的血浆水平，持续研究的持续时间(3个月)。

治疗在小鼠和NHP中良好耐受，其中没有显著毒物学发现与治疗剂量的两种种类之一的 AAV2/6ZFN+供体治疗相关。桑加莫公司(美国加利福尼亚州)已经适用于FDA许可并且已经得到批准，进行世界首次体内基因组编辑应用的人类临床试验。这在脂蛋白脂肪酶缺乏症的Glybera基因疗法治疗的 EMEA批准之后进行。

因此，在一些实施例中，优选的是使用任何或所有以下各项：

AAV(具体地是AAV2/6)载体，优选地通过静脉内注射来给予；

作为用于基因编辑/插入转基因/模板的靶标的白蛋白-尤其是在白蛋白的内含子1处；

人类F9供体模板；和/或

无启动子供体模板。

B型血友病

因此，在一些实施例中，优选的是本发明用于治疗B型血友病。这样优选的是提供一种模板并且此模板是人类F9基因。将了解的是hF9模板包含wt版本或“校正”版本的hF9，以使得该治疗是有效的。

在一个替代实施例中，可以递送F9的B型血友病版本，以便创建模型生物体、细胞或细胞系 (例如鼠或非人类灵长类动物模型生物体、细胞或细胞系)，该模型生物体、细胞或细胞系具有或携带B型血友病表型，即没有产生wt F9的能力。

A型血友病

在一些实施例中，F9(因子IX)基因可以被以上所述F8(因子VIII)基因替换，从而使得能够治疗A型血友病(通过提供校正的F8基因)并且/或者创建A型血友病模型生物体、细胞或细胞系(通过提供未校正的A型血友病版本的F8基因)。

C型血友病

在一些实施例中，F9(因子IX)基因可以被以上所述F11(因子XI)基因替换，从而使得能够治疗C型血友病(通过提供校正的F11基因)并且/或者创建C型血友病模型生物体、细胞或细胞系(通过提供未校正的C型血友病版本的F11基因)。

治疗上皮细胞和肺部疾病

本发明还考虑将在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统递送到一侧或两侧肺部。

尽管基于AAV-2的载体最初提出用于CFTR递送到CF气道，但是其他血清型诸如AAV-1、 AAV-5、AAV-6、以及AAV-9在各种各样的肺上皮细胞模型中展现出提高的基因转移效率(参见，例如，分子治疗，第17卷，第12期，2067-2077，2009年12月)。证实在体外转导的人类气道上皮细胞中AAV-1比AAV-2 和AAV-5更有效～100倍，5尽管体内AAV-1转导的鼠气管内气道上皮细胞具有等于AAV-5的效率。其他研究已显示，在针对体外人类气道上皮(HAE)的基因递送上，AAV-5比AAV-2更有效50倍，并且在体内小鼠肺气道上皮中显著更有效。还已显示在体外人类气道上皮细胞中和在体内鼠类气道中，AAV-6比AAV-2更有效。8更为近期的分离物AAV-9显示在体内鼠类鼻和肺泡上皮中展示了比AAV-5更大的基因转移效率，其中持续超过9个月检测出基因表达，这表明AAV可以使得能够在体内进行长期基因表达，这对于CFTR基因递送载体而言是一种理想特性。此外，证明了AAV-9可以被再次给予至鼠类的肺部，而不丧失CFTR表达并且具有最低限度的免疫结果。可以在CF和非CF HAE培养物的顶面上用100μl的AAV载体接种，持续数小时(参见，例如，李等人，分子治疗，第17卷，第12期，2067-2077，2009年12月)。MOI可以从1×10³到4×10⁵个载体基因组/细胞而变化，这取决于病毒浓度和这些实验的目的。以上引用的载体被考虑用于本发明的递送和/或给药。

萨莫拉(Zamora)等人(美国呼吸道与危重护理学杂志(Am J Respir Crit CareMed)，第183卷，第531-538页，2011)报道了针对人类感染性疾病治疗的RNA干扰治疗法的应用实例以及抗病毒药物在呼吸道合胞病毒(RSV)感染的肺移植受体中的随机试验。萨莫拉等人进行了一项在具有RSV 呼吸道感染的LTX受体中的随机化、双盲、安慰剂对照的试验。允许患者接受针对RSV的护理标准。每天给予雾化的ALN-RSV01(0.6mg/kg)或安慰剂，持续3天。此研究表明可以向患有RSV感染的LTX受体安全地给予靶向RSV的RNAi治疗剂。ALN-RSV01的三个每日剂量并不导致任何呼吸道症状的加重或肺功能的损害，并且未展示任何出全身性致炎作用，诸如细胞因子或CRP的诱导。在吸入之后，药代动力学仅显示低的、短暂的全身性暴露，与临床前动物数据一致，表明静脉内或通过吸入给予的ALN-RSV01通过外切核酸酶介导的消化和肾脏排泄而从循环中快速清除。萨莫拉等人的方法可以适用于本发明的CRISPR Cas 系统，并且对于本发明可以考虑雾化的CRISPR Cas，例如使用0.6mg/kg的剂量。

对肺病进行治疗的受试者可以例如每侧肺部接受药物有效量的支气管递送的雾化的AAV载体系统，同时自发地呼吸。这样，总的来说，对于AAV递送，雾化的递送是优选的。腺病毒或AAV粒子可以用于递送。可以将适合的基因构建体克隆到递送载体中，这些基因构建体各自可操作地连接到一种或多种调节序列。在此情况下，提供以下构建体作为实例：对于Cas(Cpf1)的Cbh或EF1a启动子、对于指导RNA 的U6或H1启动子。优选的安排是使用CFTRδ508靶向指导、δF508突变的修复模板以及密码子优化的Cpf1 酶，其中具有任选地一种或多种核定位信号或序列(一个或多个NLS)，例如两个(2)NLS。设想没有NLS 的构建体。

治疗肌肉系统疾病

本发明还考虑将在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统递送到一个或多个肌肉。

博尔特兰萨(Bortolanza)等人(分子治疗，第19卷，第11期，2055-2064，2011年11月)证实，在FRG1小鼠中在面肩肱型肌营养不良(FSHD)发作之后，RNA干扰表达盒的全身性递送导致剂量依赖性长期FRG1敲低，而没有毒性迹象。博尔特兰萨等人发现，单次静脉内注射5×10¹²vg的rAAV6-sh1FRG1挽救了FRG1小鼠的肌肉组织病理学和肌肉功能。详细地说，使用25号泰尔茂(Terumo)注射器将200μl含有2×10¹²或5×10¹²vg载体的生理溶液注射到尾静脉中。博尔特兰萨等人的方法可以适用于表达CRISPR Cas的 AAV并且可以约2×10¹⁵或2×10¹⁶vg载体的剂量注射到人类中。

杜蒙特科(Dumonceaux)等人(分子治疗，第18卷，第5期，881-887，2010年5月)使用针对肌肉生长抑制素受体AcvRIIb mRNA(sh-AcvRIIb)的RNA干扰技术抑制肌肉生长抑制素途径。由载体化 U7外显子跳跃技术(U7-DYS)介导准肌营养不良蛋白(quasi-dystrophin)的恢复。将携带单独的sh-AcvrIIb 构建体、单独的U7-DYS构建体、或这两种构建体的组合的腺相关载体注射到营养不良mdx小鼠的胫骨前肌 (TA)肌肉中。以10¹¹个AAV病毒基因组进行注射。杜蒙特科等人的方法可以适用于表达CRISPR Cas的AAV 并且以约10¹⁴或10¹⁵vg载体的剂量注射到人类中。

木内(Kinouchi)等人(基因治疗(2008)15，1126-1130)报道了通过未经化学修饰的siRNA与缺端胶原(ATCOL)形成纳米粒子来体内siRNA递送到正常或患病小鼠骨骼肌的有效性。ATCOL介导的靶向肌肉生长抑制素(一种骨骼肌生长的负调节剂)的siRNA在小鼠骨骼肌中的局部应用或者静脉内应用在应用之后几周内引起肌肉质量的显著增加。这些结果显示siRNA的ATCOL介导的应用是一种用于包括肌肉萎缩在内的疾病的未来治疗用途的强大工具。根据制造商的说明，将MstsiRNA(终浓度，10mM)与ATCOL (对于局部给药的终浓度，0.5％)(AteloGene，高研株式会社(Kohken)，日本东京(Tokyo,Japan))混合。在通过耐波他(Nembutal)(25mg/kg，腹膜内注射)麻醉小鼠(20周大的雄性C57BL/6)之后，将 Mst-siRNA/ATCOL复合物注射到咬肌和股二头肌中。木内等人的方法可以适用于CRISPR Cas并且可以注射到人类中，例如以40μM溶液的约500至1000ml的剂量注射到肌肉中。哈格斯特龙(Hagstrom)等人(分子治疗，第10卷，第2期，2004年8月)描述了一种使得能够将核酸有效且可重复地递送到遍及哺乳动物四肢肌肉的肌细胞(肌纤维)的血管内、非病毒方法。该程序涉及将裸质粒DNA或siRNA注射到暂时由止血带或血压袖带分离的肢体的远端静脉中。通过以足够的体积将其迅速注射来促进向肌纤维的核酸递送，使得该核酸溶液能够溢出到肌肉组织中。在小动物和大动物中都以最低毒性实现在骨骼肌中的高水平转基因表达。还获得了向四肢肌肉递送siRNA的证据。为了将质粒DNA静脉内注射到恒河猴中，将一个三通旋塞连接到各自加载有单个注射器的两个注射器泵(型号PHD 2000；哈佛仪器公司(Harvard Instruments))上。在罂粟碱注射五分钟之后，以1.7或2.0ml/s的速率注射pDNA(15.5到25.7mg，在40-100ml盐水中)。对于表达本发明的CRISPR Cas的质粒DNA，这可以按比例增加，其中对于人类注射在800到2000ml盐水中的约 300到500mg。对于将腺病毒载体注射到大鼠中，注射在3ml正常生理盐水溶液(NSS)中的2×10⁹个感染粒子。对于表达本发明的CRISPR Cas的质粒DNA，这可以按比例增加，其中对于人类注射在10升NSS中的约1×10¹³个感染粒子。对于siRNA，以12.5μg的siRNA注射到大鼠的大隐静脉中，并且以750μg的siRNA 注射到灵长类动物的大隐静脉中。对于本发明的CRISPR Cas，这可以按比例增加，例如，其中将约15至约 50mg注射到大隐静脉中。

例如，还参见WO2013163628 A2，突变基因的遗传校正(Genetic Correction ofMutated Genes)，杜克大学(Duke University)的公开申请，描述了例如校正框移突变的努力，该框移突变引起提前终止密码子和可以经由核酸酶介导的非同源末端接合进行校正的截短基因产物，该基因产物诸如引起杜氏肌营养不良(“DMD”)的那些基因产物，该杜氏肌营养不良是一种隐性遗传的、致命的、X连锁疾病，其导致由肌营养不良蛋白基因突变所致的肌肉变性。引起DMD的大多数肌营养不良蛋白突变是破坏阅读框并且引起肌营养不良蛋白基因的提前翻译终止的外显子缺失。肌营养不良蛋白是一种细胞质蛋白，它提供负责调节肌细胞完整性和功能的细胞膜肌营养不良蛋白聚糖复合物的结构稳定性。如在此可互换地使用的肌营养不良蛋白基因或“DMD基因”是在座位Xp21处的2.2兆碱基。初级转录测量了约2,400kb，其中成熟mRNA是约14kb。79个外显子编码超过3500个氨基酸的蛋白质。在DMD患者中，外显子51常常接近破坏框的缺失并且已在临床试验中被靶向用于基于寡核苷酸的外显子跳跃。对于外显子51跳跃化合物依替利森 (eteplirsen)的临床试验，最近报道了跨48周的显著功能益处，与基线相比具平均47％的肌营养不良蛋白阳性纤维。外显子51中的突变理想地适合于通过基于NHEJ的基因组编辑进行永久性校正。

转让给策勒克提斯公司的美国专利公开号20130145487的方法涉及切割来自人类肌营养不良蛋白基因(DND)的靶序列的大范围核酸酶变体，该方法也可以被修改成本发明的核酸靶向系统。

治疗皮肤疾病

本发明还考虑将在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统递送到皮肤。

希克森(Hickerson)等人(分子治疗-核酸(2013)2，e129)涉及一种用于向人类和鼠类皮肤递送自我递送(sd)-siRNA的机动化的微针阵列皮肤递送装置。将基于siRNA的皮肤治疗剂转化到临床的主要挑战是有效递送系统的开发。在多种皮肤递送技术中已经投入了大量的努力，但是成功有限。在其中用siRNA治疗皮肤的临床研究中，与皮下针注射相关联的剧烈疼痛排除了试验中额外患者的纳入，这凸显了对于改进的、更为“患者友好的”(即，很少或没有疼痛)递送方法的需要。微针代表一种将包括siRNA 在内的大带电货物递送穿过一级屏障角质层的有效途径，并且通常被认为比常规皮下针疼痛更少。机动化的“冲压型”微针装置，包括由希克森等人使用的机动化微针阵列(MMNA)装置，已经显示在无毛小鼠研究中是安全的并且引起很少的疼痛或不引起疼痛，其证据为：(i)在美容业中广泛使用以及(ii)其中几乎所有志愿者都发现使用该装置比流感疫苗针剂(flushot)疼痛少得多的有限测试，这表明使用此装置的 siRNA递送将产生比使用皮下针注射的先前临床试验中所体验的少得多的疼痛。该MMNA装置(作为 Triple-M或Tri-M由韩国首尔(Seoul,South Korea)的Bomtech电子有限公司销售)适于将siRNA递送到小鼠和人类皮肤。将sd-siRNA溶液(高达300μl的0.1mg/mlRNA)引入到设定为0.1mm深度的一次性Tri-M针盒(Bomtech公司)的腔室中。为了处理人类皮肤，在处理之前将未鉴定的皮肤(在外科手术之后立即获得) 手动拉伸并且钉在软木平台上。使用具有28号0.5英寸针头的胰岛素注射器进行所有皮内注射。该MMNA 装置和希克森等人的方法可以用于并且/或者适于例如以高达300μl的0.1mg/mlCRISPR Cas的剂量将本发明的CRISPR Cas递送到皮肤。

里奇曼(Leachman)等人(分子治疗，第18卷，第2期，442-446，2010年2月)涉及一种利用基于第一短干扰RNA(siRNA)的皮肤治疗剂用于治疗罕见皮肤病症先天性厚甲(PC)的Ib期临床试验，先天性厚甲是一种常染色体显性综合征，包括致残性的掌跖角化病。此siRNA(称为TD101)特异性地并强有力地靶向角蛋白6a(K6a)N171K突变体mRNA，而不影响野生型K6a mRNA。

郑等人(美国国家科学院院刊，2012年7月24日，第109卷，第30期，11975-11980)证实，球形核酸纳米粒子轭合物(SNA-NC)是由高度定向的、共价固定的siRNA的致密壳围绕的金核，它在应用之后数小时内自由地穿透几乎100％体外角化细胞、小鼠皮肤、以及人类表皮。郑等人证明，在人类皮肤中单次应用25nM的表皮生长因子受体(EGFR)SNA-NC持续60小时显示出有效的基因敲低。对于向皮肤给予的在SNA-NC中固定的CRISPR Cas，可以考虑类似剂量。

癌症

在一些实施例中，提供了癌症的治疗、预防或诊断。靶标优选地是以下各项中的一种或多种： FAS、BID、CTLA4、PDCD1、CBLB、PTPN6、TRAC或TRBC基因。该癌症可以是以下各种中的一种或多种：淋巴瘤、慢性淋巴细胞白血病(CLL)、B细胞急性淋巴细胞白血病(B-ALL)、急性成淋巴细胞性白血病、急性髓性白血病、非霍奇金淋巴瘤(NHL)、弥漫性大细胞淋巴瘤(DLCL)、多发性骨髓瘤、肾细胞癌(RCC)、成神经细胞瘤、结肠直肠癌、乳腺癌、卵巢癌、黑色素瘤、肉瘤、前列腺癌、肺癌、食管癌、肝细胞癌、胰腺癌、星形细胞瘤、间皮瘤、头颈癌、以及成神经管细胞瘤。这可以用工程化嵌合抗原受体(CAR)T细胞执行。这描述于WO2015161276中，该专利的披露内容通过引用结合在此并且如下文所述。

在一些实施例中，适用于治疗或预防癌症的靶基因可以包括WO2015048577中所述的那些靶基因，该专利的披露内容通过引用结合在此。

乌谢尔综合征或色素性视网膜炎-39

在一些实施例中，提供了乌谢尔综合征或色素性视网膜炎-39的治疗、预防或诊断。该靶标优选地是USH2A基因。在一些实施例中，提供了在位置2299处的G缺失(2299delG)的校正。这描述于 WO2015134812A1中，该专利的披露内容通过引用结合在此。

囊性纤维化(CF)

在一些实施例中，提供了囊性纤维化的治疗、预防或诊断。该靶标优选地是SCNN1A或CFTR 基因。这描述于WO2015157070中，该专利的披露内容通过引用结合在此。

施万克(Schwank)等人(细胞干细胞，13:653-58,2013)使用CRISPR-Cas9校正与人类干细胞的囊性纤维化相关联的缺陷。该组的靶标是一种离子通道囊性纤维化跨膜导体受体(CFTR)的基因。 CFTR中的缺失引起囊性纤维化患者中的蛋白质错误折叠。使用由来自患有囊性纤维化的两位儿童的细胞样品开发的培养的肠道干细胞，施万克等人能够使用CRISPR连同含有有待插入的修复性序列的供体质粒校正该缺陷。然后研究者将这些细胞生长成肠道“细胞器”或微型肠，并且证实它们能够正常起作用。在此情况下，约一半克隆的细胞器经受适当的遗传校正。

HIV和AIDS

在一些实施例中，提供了HIV和AIDS的治疗、预防或诊断。该靶标优选地是HIV中的CCR5基因。这描述于WO2015148670A1中，该专利的披露内容通过引用结合在此。

β地中海贫血

在一些实施例中，提供了β地中海贫血的治疗、预防或诊断。该靶标优选地是BCL11A基因。这描述于WO2015148860中，该专利的披露内容通过引用结合在此。

镰状细胞疾病(SCD)

在一些实施例中，提供了镰状细胞疾病(SCD)的治疗、预防或诊断。该靶标优选地是HBB 或BCL11A基因。这描述于WO2015148863中，该专利的披露内容通过引用结合在此。

单纯性疱疹病毒1和2

在一些实施例中，提供了HSV-1(单纯性疱疹病毒1)的治疗、预防或诊断。该靶标优选地是在HSV-1中的UL19、UL30、UL48或UL50基因。这描述于WO2015153789中，该专利的披露内容通过引用结合在此。

在其他实施例中，提供了HSV-2(单纯性疱疹病毒2)的治疗、预防或诊断。该靶标优选地是在HSV-2中的UL19、UL30、UL48或UL50基因。这描述于WO2015153791中，该专利的披露内容通过引用结合在此。

在一些实施例中，提供了原发性开角型青光眼(POAG)的治疗、预防或诊断。该靶标优选地是MYOC基因。这描述于WO2015153780中，该专利的披露内容通过引用结合在此。

过继细胞治疗

本发明还考虑使用在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统修饰用于过继治疗的细胞。本发明的多个方面因此涉及过继性转移对于选定抗原诸如肿瘤相关抗原特异的免疫系统细胞诸如T 细胞(参见，毛斯(Maus)等人，2014，用于癌症或病毒的过继性免疫治疗(Adoptive Immunotherapy for Cancer or Viruses)，免疫学年度综述(Annual Review of Immunology)，第32卷：189-225；罗森伯格 (Rosenberg)和罗斯替弗(Restifo)，2015，作为用于人类癌症的个体化免疫治疗的过继性细胞转移(Adoptive celltransfer as personalized immunotherapy for human cancer)，科学，第348卷，第6230期，第62-68页；以及罗斯替弗等人，2015，用于癌症的过继性免疫治疗：利用T细胞反应(Adoptive immunotherapy for cancer: harnessing the T cell response.)自然综述免疫学12(4):269-281；以及詹森(Jenson)和里德尔(Riddell)， 2014，使用嵌合抗原受体修饰性T细胞设计并实施过继治疗(Design and implementation of adoptive therapywith chimeric antigen receptor-modified T cells.)免疫学综述257(1):127-144)。不同策略可以例如用于通过改变T细胞受体(TCR)的特异性，例如通过引起具有选定的肽特异性的新TCRα和β链来遗传性修饰T细胞(参见，美国专利号8,697,854；PCT专利公开：WO2003020763、WO 2004033685、WO 2004044004、 WO 2005114215、WO 2006000830、WO2008038002、WO 2008039818、WO 2004074322、WO 2005113595、 WO 2006125962、WO2013166321、WO 2013039889、WO 2014018863、WO 2014083173；美国专利号 8,088,379)。

作为TCR修饰的替代方案或者除TCR修饰之外，可以使用嵌合抗原受体(CAR)，以便生成对于选定靶标诸如恶性肿瘤细胞特异的免疫反应细胞诸如T细胞，其中已经描述了各种各样的受体嵌合构建体(参见美国专利号5,843,728；5,851,828；5,912,170；6,004,811；6,284,240；6,392,013；6,410,014；6,753,162； 8,211,422；以及PCT公开WO9215322)。替代性CAR构建体可以被表征为属于连续世代。第一代CAR典型地由对于抗原特异的抗体单链可变片段组成，例如包括连接至特异性抗体的VH的VL，通过柔性接头连接，例如通过CD8α铰链区和CD8α跨膜结构域，连接至CD3ζ或FcRγ的跨膜和细胞内信号传导结构域(scFv-CD3ζ 或scFv-FcRγ；参见美国专利号7,741,465；美国专利号5,912,172；美国专利号5,906,936)。第二代CAR结合一种或多种共刺激分子的细胞内结构域，诸如内结构域内的CD28、OX40(CD134)或4-1BB(CD137)(例如scFv-CD28/OX40/4-1BB-CD3ζ；参见美国专利号8,911,993；8,916,381；8,975,071；9,101,584；9,102,760； 9,102,761)。第三代CAR包括共刺激内结构域的组合，诸如CD3ζ-链、CD97、GDI la-CD18、CD2、ICOS、 CD27、CD154、CDS、OX40、4-1BB、或CD28信号传导结构域(例如scFv-CD28-4-1BB-CD3ζ或scFv-CD28-OX40-CD3ζ；参见美国专利号8,906,682；美国专利号8,399,645；美国专利号5,686,281；PCT公开号WO 2014134165；PCT公开号WO 2012079000)。可替代地，共刺激可以通过在抗原特异性T细胞中表达CAR来调控，该T细胞被选择为在其天然αβTCR接合之后激活并扩增，例如在伴随共刺激的情况下通过专职抗原呈递细胞上的抗原。此外，另外的工程化受体可以被提供在免疫反应细胞中，例如以提高T细胞攻击的靶向并且/或者最小化副作用。

替代技术可以用于转化免疫反应靶细胞，诸如原生质体融合、脂转染、转染或电穿孔。可以使用各种各样的载体，诸如逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体、质粒或易位子，诸如睡美人易位子(参见美国专利号6,489,458；7,148,203；7,160,682；7,985,739；8,227,432)，这些载体可以用于例如使用通过CD3ζ和CD28或CD137传导信号的第2代抗原特异性CAR来引入CAR。病毒载体可以例如包括基于HIV、SV40、EBV、HSV或BPV的载体。

靶向转化的细胞可以例如包括T细胞、自然杀伤细胞(NK)、细胞毒性T淋巴细胞(CTL)、调节T细胞、人类胚胎干细胞、肿瘤浸润淋巴细胞(TIL)或淋巴样细胞可以由其分化的多能干细胞。表达希望的CAR的T细胞可以例如通过与γ-辐射激活和增殖细胞(AaPC)共培养来选择，这些激活和增殖细胞共表达癌症抗原和共刺激分子。过程化CAR T细胞可以例如通过在可溶性因子诸如IL-2和IL-21存在下在AaPC 上共培养来扩增。此扩增可以例如被执行来提供记忆CAR+T细胞(这些细胞可以例如通过非酶数字阵列和/或多板型(multi-panel)流式细胞术来测定)。以这种方式，可以提供具有针对携带抗原的肿瘤的特异性细胞毒性活性的CAR T细胞(任选地与希望的趋化因子诸如干扰素-γ的产生相结合)。这种类型的CAR T细胞例如可以用于动物模型中，例如以威慑肿瘤异种移植物。

方法诸如上述方法可以适于提供例如通过给予有效量的免疫反应细胞来治疗患有诸如瘤形成的疾病的患者并且/或者增加该患者的存活的方法，该免疫反应细胞包含结合选定抗原的抗原识别受体，其中该结合激活免疫反应细胞，从而治疗或预防该疾病(诸如瘤形成、病原体感染、自身免疫病症或同种异体移植反应)。在具有或不具有淋巴细胞耗竭过程的情况下，例如在使用环磷酰胺的情况下，CAR T细胞治疗的给药可以例如涉及给予10⁶至10⁹个细胞/kg。

在一个实施例中，可以向经受免疫抑制治疗的患者给予该治疗。这些细胞或细胞群体可以被制成由于编码至少一种免疫抑制剂的受体的基因灭活而抵抗此免疫抑制剂。在不受理论约束的情况下，在患者内免疫抑制治疗应帮助选择并扩增根据本发明的免疫反应细胞或T细胞。

可以任何常规方式执行根据本发明的细胞或细胞群体的给药，这些方式包括通过雾化吸入、注射、摄取、输血、植入或移植。可以向患者皮下、真皮内、瘤内、节点内、髓内、肌内、通过静脉内注射或淋巴管内注射、或者腹膜内给予这些细胞或细胞群体。在一个实施例中，本发明的细胞组合物优选地通过静脉内注射来给予。

这些细胞或细胞群体的给予可以由10⁴-10⁹个细胞/kg体重、优选地10⁵至10⁶个细胞/kg体重(包括这些范围内细胞数目的所有整数值)的给予组成。在具有或不具有淋巴细胞耗竭过程的情况下，例如在使用环磷酰胺的情况下，CAR T细胞治疗的给药可以例如涉及给予10⁶至10⁹个细胞/kg。这些细胞或细胞群体可以一个或多个剂量给予。在另一个实施例中，细胞的有效剂量是作为单一剂量给予。在另一个实施例中，细胞的有效剂量是超过一个剂量持续一段时间来给予。给药的时间是在管理医生的判断内并且取决于患者的临床病状。这些细胞或细胞群体可以是从任何来源诸如血库或供体获得。虽然个体需要不同，但是特定疾病或病状的给定细胞类型的有效量的最佳范围的确定是在本领域技术人员知识内的。有效量意指提供治疗或预防益处的量。给予的剂量将取决于接受者的年龄、健康和体重、同期治疗(如果有的话)的类型、治疗的频率以及希望的作用性质。

在另一个实施例中，胃肠外给予有效量的细胞或包含那些细胞的组合物。给药可以是静脉内给药。给药可以是通过在肿瘤内注射来直接进行的。

为了防止可能的不良反应，可以用转基因安全开关装备工程化免疫反应细胞，该转基因安全开关是致使这些细胞易于暴露于特定信号的转基因形式。例如，单纯疱疹病毒胸苷激酶(TK)可以这种方式使用，例如通过在干细胞移植之后引入到用作供体淋巴细胞输注的同种异体T淋巴细胞中(格雷科 (Greco)等人，使用TK自杀基因提高细胞治疗的安全性(Improving the safety of cell therapy with the TK-suicide gene.)药理学前沿(Front.Pharmacol.)2015；6:95)。在此类细胞中，核苷前药诸如更昔洛韦或阿昔洛韦的给予引起细胞死亡。替代性安全开关构建体包括诱导型半胱天冬酶9，例如通过给予使两个非功能icasp9分子连接在一起形成活性酶的小分子二聚体来触发。已描述了实施细胞增殖控制的各种各样的替代方法(参见美国专利公开号20130071414；PCT专利公开WO2011146862；PCT专利公开WO 2014011987； PCT专利公开WO 2013040371；周等人，血液2014,123/25:3895-3905；迪·史塔西(Di Stasi)等人，新英格兰医学杂志2011；365:1673-1683；萨德萨德·M(Sadelain M)等人，新英格兰医学杂志2011；365:1735-173；拉莫斯(Ramos)等人,干细胞28(6):1107-15(2010))。

在过继治疗的另一个改进方案中，如在此所述的CRISPR-Cas系统进行的基因组编辑可以用于使免疫反应细胞适于替代性实施方案，例如提供编辑的CAR T细胞(参见，白罗(Poirot)等人，2015，用于“现成的”过继性T细胞免疫反应的多重基因组编辑T细胞制造平台(Multiplex genome edited T-cell manufacturing platform for"off-the-shelf"adoptive T-cell immunotherapies)，癌症研究75(18):3853)。例如，免疫反应细胞可以被编辑为缺失一些或所有类别的HLA II型和/或I型分子的表达，或者敲除可以抑制所希望的免疫反应的选定基因诸如PD1基因。

细胞可以使用如在此所述的任何CRISPR系统及其使用方法来编辑。CRISPR系统可以通过在此所述的任何方法来递送到免疫细胞。在优选的实施例中，细胞被离体编辑并且转移到有需要的受试者中。可以编辑免疫反应细胞、CAR T细胞或用于过继性细胞转移的任何细胞。编辑可以被进行来消除潜在的同种异体反应性T-细胞受体(TCR)、破坏化学治疗剂的靶标、阻断免疫校验点、激活T细胞并且/或者增加功能耗尽或功能障碍的CD8+T-细胞的分化和/或增殖(参见PCT专利公开：WO 2013176915、WO 2014059173、 WO 2014172606、WO 2014184744、以及WO 2014191128)。编辑可以导致基因灭活。

通过灭活基因，期望感兴趣的基因不以功能蛋白形式表达。在一个特定实施例中，CRISPR系统特异性催化在一个靶向基因中的切割，从而灭活所述靶基因。引起的核酸链断裂通常通过同源重组或非同源末端接合(NHEJ)的不同机制来修复。然而，NHEJ是一种不完美的修复过程，它常常导致切割位点处的DNA序列改变。通过非同源末端接合(NHEJ)的修复常常形成小插入或缺失(Indel)并且可以用于创建特定基因敲除。其中发生切割诱导型诱变事件的细胞可以通过本领域已熟知的方法来鉴定和/或选择。

T细胞受体(TCR)是响应于抗原呈递而参与激活T细胞的细胞表面受体。TCR通常是由组装形成异源二聚体的两条链α和β形成，并且与CD3-转导亚基缔合形成存在于细胞表面的T细胞受体复合物。 TCR的每条α和β链由免疫球蛋白样N-末端可变区(V)和恒定(C)区、疏水性跨膜结构域、以及短胞质区。如对于免疫球蛋白分子，α和β链的可变区是通过V(D)J重组从而在T细胞群体内形成多种抗原特异性来生成。然而，与识别完整抗原的免疫球蛋白相比，T细胞通过与MHC分子缔合的加工肽片段来激活，从而将额外维度引入到由T细胞进行的抗原识别中，这被称为MHC限制。通过T细胞受体识别供体与受体之间的MHC差异导致T细胞增殖和移植物抗宿主疾病(GVHD)的潜在发展。TCRα或TCRβ的灭活可以导致TCR 从T细胞表面消除，从而阻止了同种抗原的识别并因此产生GVHD。然而，TCR破坏通常导致CD3信号传导组分的消除并且改变其他T细胞扩增的方式。

同种异体细胞被宿主免疫细胞快速排斥。已证明存在于非辐射血液产品中的同种异体淋巴细胞将持续不超过5至6天(博尼，穆拉斯基(Boni,Muranski)等人，2008血液1；112(12):4746-54)。因此，为防止同种异体细胞的排斥，宿主免疫系统通常不得不受到一定程度的抑制。然而，在过继性细胞转移的情况下，使用免疫抑制药物也对引入的治疗性T细胞具有有害作用。因此，为了在这些病状中有效使用过继性免疫治疗方法，引入的细胞将需要抵抗免疫抑制治疗。因此，在一个特定实施例中，本发明进一步包括修饰T细胞优选地通过灭活编码免疫抑制剂的靶标的至少一种基因以使其抵抗免疫抑制剂的步骤。免疫抑制剂是一种通过几种作用机制之一来抑制免疫功能的药剂。免疫抑制剂可以是但不限于，钙调磷酸酶抑制剂、雷帕霉素的靶标、白介素-2受体α-链阻断剂、肌苷单磷酸脱氢酶的抑制剂、二氢叶酸还原酶的抑制剂、皮质类固醇或免疫抑制抗代谢物。本发明允许通过灭活免疫抑制剂在T细胞中的靶标来对用于免疫治疗的T细胞赋予免疫抑制抗性。作为非限制性实例，免疫抑制剂的靶标可以是免疫抑制剂的受体，诸如： CD52、糖皮质激素受体(GR)、FKBP家族基因成员以及亲环蛋白家族基因成员。

免疫检验点是减慢或停止免疫反应并且防止受到免疫细胞的未控制活性的过度组织损害的抑制途径。在某些实施例中，靶向的免疫检验点是程序性死亡-1(PD-1或CD279)基因(PDCD1)。在其他实施例中，靶向的免疫检验点是细胞毒性T-淋巴细胞相关抗原(CTLA-4)。在另外的实施例中，靶向的免疫检验点是CD28和CTLA4 Ig超家族的另一个成员，诸如BTLA、LAG3、ICOS、PDL1或KIR。在另外的实施例中，靶向的免疫检验点是TNFR超家族的成员，诸如CD40、OX40、CD137、GITR、CD27或TIM-3。

另外的免疫检验点包括含有Src同源2结构域的蛋白酪氨酸磷酸酶1(SHP-1)(沃森·HA等人， SHP-1：用于癌症免疫治疗的下一个检验点靶标(SHP-1:the nextcheckpoint target for cancer immunotherapy)？生物化学学会汇报(Biochem SocTrans.)，2016年4月15日；44(2):356-62)。SHP-1是一种广泛表达的抑制性蛋白酪氨酸磷酸酶(PTP)。在T细胞中，它是抗原依赖性激活和增殖的负调节剂。它是一种细胞溶质蛋白，并且因此不适于抗体介导的治疗，但是它在激活和增殖中的作用使得它成为过继转移策略中用于遗传操纵的有吸引力靶标，诸如嵌合抗原受体(CAR)T细胞。免疫检验点还可以包括具有 Ig和ITIM结构域的T细胞免疫受体(TIGIT/Vstm3/WUCAM/VSIG9)和VISTA(勒·梅西埃·I(Le Mercier I) 等人，(2015)除CTLA-4和PD-1之外的第Z代负检验点调节剂(BeyondCTLA-4and PD-1,the generation Z of negative checkpoint regulators)。免疫学前沿6:418)。

WO2014172606涉及使用MT1和/或MT1抑制剂增加耗尽的CD8+T-细胞的增殖和/或活性并且减少CD8+T-细胞耗尽(例如，减少功能耗尽或不反应的CD8+免疫细胞)。在某些实施例中，在过继转移的T细胞中通过基因编辑靶向金属硫蛋白。

在某些实施例中，基因编辑的靶标可以是涉及免疫检验点蛋白的表达的至少一个靶向座位。此类靶标可以包括但不限于，CTLA4、PPP2CA、PPP2CB、PTPN6、PTPN22、PDCD1、ICOS(CD278)、 PDL1、KIR、LAG3、HAVCR2、BTLA、CD160、TIGIT、CD96、CRTAM、LAIR1、SIGLEC7、SIGLEC9、 CD244(2B4)、TNFRSF10B、TNFRSF10A、CASP8、CASP10、CASP3、CASP6、CASP7、FADD、FAS、 TGFBRII、TGFRBRI、SMAD2、SMAD3、SMAD4、SMAD10、SKI、SKIL、TGIF1、IL10RA、IL10RB、HMOX2、IL6R、IL6ST、EIF2AK4、CSK、PAG1、SIT1、FOXP3、PRDM1、BATF、VISTA、GUCY1A2、GUCY1A3、GUCY1B2、GUCY1B3、MT1、MT2、CD40、OX40、CD137、GITR、CD27、SHP-1或TIM-3。在优选的实施例中，靶向涉及PD-1或CTLA-4基因的表达的基因座位。在其他优选的实施例中，靶向基因的组合，诸如但不限于PD-1和TIGIT。

在其他实施例中，编辑至少两种基因。基因对可以包括但不限于，PD1和TCRα、PD1和TCRβ、 CTLA-4和TCRα、CTLA-4和TCRβ、LAG3和TCRα、LAG3和TCRβ、Tim3和TCRα、Tim3和TCRβ、BTLA 和TCRα、BTLA和TCRβ、BY55和TCRα、BY55和TCRβ、TIGIT和TCRα、TIGIT和TCRβ、B7H5和TCRα、 B7H5和TCRβ、LAIR1和TCRα、LAIR1和TCRβ、SIGLEC10和TCRα、SIGLEC10和TCRβ、2B4和TCRα、 2B4和TCRβ。

无论是在T细胞的遗传修饰之前还是之后，T细胞都可以通常使用例如以下各项所述的方法来激活并扩增：美国专利6,352,694；6,534,055；6,905,680；5,858,358；6,887,466；6,905,681；7,144,575；7,232,566； 7,175,843；5,883,223；6,905,874；6,797,514；6,867,041；以及7,572,631。该细胞可以在体外或在体内扩增。

除非另外指明，本发明的实施采用处于本领域技能范围内的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学以及重组DNA的常规技术。参见，分子克隆：实验手册，第2 版(1989)(萨姆布鲁克、弗里奇和马尼亚蒂斯)；分子克隆：实验手册，第4版(2012)(格林和萨姆布鲁克)；分子生物学通用方法(1987)(F.M.奥苏贝尔等人编著)；系列丛书酶学方法(学术出版社公司)；PCR 2：实践方法(1995)(M.J.·麦克弗森、B.D.·黑姆斯以及G.R.·泰勒编著)；抗体、实验室手册(1988)(哈洛和拉内编著)；抗体、实验室手册，第2版(2013)(E.A.·格林菲尔德(E.A.Greenfield)编著)；以及动物细胞培养(1987)(R.I.费施奈伊编著)。

除非另外指示，否则本发明的实践采用用于生成遗传修饰小鼠的常见技术。参见马尔滕·H.·霍夫卡尔(Marten H.Hofker)和让·凡·德瑞森(Jan van Deursen)，转基因小鼠方法和方案(TRANSGENIC MOUSE METHODS AND PROTOCOLS)，第2版(2011)。

基因驱动

本发明还考虑使用在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统来提供RNA指导的基因驱动，例如在与PCT专利公开WO 2015/105928中所述的基因驱动类似的系统中。这种类型的系统可以例如提供用于通过将编码RNA指导的DNA核酸酶和一种或多种指导RNA的核酸序列引入到生殖细胞中来改变真核生殖细胞的方法。指导RNA可以被设计为与生殖细胞的基因组DNA上的一个或多个靶位置互补。编码RNA指导的DNA核酸酶的核酸序列和编码指导RNA的核酸序列可以被提供在构建体上的侧翼序列之间，其中启动子被安排为使得生殖细胞可以表达RNA指导的DNA核酸酶和指导RNA，连同也位于侧翼序列之间的任何希望的货物编码序列。侧翼序列将典型地包括与选定的靶染色体上的相应序列相同的序列，以使得侧翼序列与由该构建体编码的组件一起作用，以促进外源核酸构建体序列通过诸如同源重组的机制插入到基因组DNA中，以致使生殖细胞对于外源核酸序列是纯合的。以这种方式，基因驱动系统能够使希望的货物基因渗入到整个育种群体中(甘茨(Gantz)等人，2015，用于群体修饰疟疾载体蚊子斯氏按蚊的高效 Cas9-介导的基因驱动(Highlyefficient Cas9-mediated gene drive for population modification of the malariavector mosquito Anopheles stephensi)，美国国家科学院院刊2015，2015年11月23日先于印刷版公开， doi:10.1073/pnas.1521077112；厄斯维特(Esvelt)等人，2014，关于用于改变野生群体的RNA指导的基因驱动(Concerning RNA-guided gene drives for thealteration of wild populations)eLife 2014；3:e03401)。在选择的实施例中，可以选择在基因组中具有几个潜在脱靶位点的靶序列。使用多个指导RNA靶向靶座位内的多个位点可以增加切割频率并且阻碍驱动抵抗等位基因的进化。截短的指导RNA可以减少脱靶切割。可以使用成对的切口酶代替核酸酶来进一步增加特异性。基因驱动构建体可以包括编码转录调节剂的货物序列，例如以激活同源重组基因并且/或者阻遏非同源末端接合。靶位点可以在必需基因内选择，以使得非同源末端接合事件可以引起致死性而不是形成驱动抵抗的等位基因。基因驱动构建体可以被工程化为在一系列温度下在一系列宿主中起作用(给(Cho)等人，2013，使用小分子快速且可调地控制秀丽隐杆线虫中的蛋白质稳定性(Rapid and Tunable Control of Protein Stability in Caenorhabditis elegansUsing a Small Molecule)，公共科学图书馆综合8(8):e72393.doi:10.1371/journal.pone.0072393)。

异种移植

本发明还考虑使用在此所述的CRISPR-Cas系统例如Cpf1效应蛋白系统来提供RNA指导的 DNA核酸酶，该核酸酶适于用于提供用于移植的修饰组织。例如，RNA指导的DNA核酸酶可以用于例如通过破坏编码由人类免疫系统识别的表位的基因(即异种抗原基因)的表达来敲除、敲低或破坏动物诸如转基因猪(诸如人类血红素加氧酶-1转基因猪系列)中的选定基因。用于破坏的候选猪基因可以例如包括 α(l,3)-半乳糖基转移酶和单磷酸胞苷-N-乙酰神经氨酸羟化酶基因(参见PCT专利公开WO 2014/066505)。此外，可以破坏编码内源性逆转录病毒的基因，例如编码所有猪内源性逆转录病毒的基因(参见杨等人， 2015，猪内源性逆转录病毒(PERV)的全基因组灭活(Genome-wide inactivation of porcineendogenous retroviruses(PERVs))，科学，2015年11月27日：第350卷，第6264期，第1101-1104页)。此外，RNA-指导的DNA核酸酶可以用于靶向一个位点，以用于整合异种移植供体动物中的额外基因诸如人类CD55基因，以提高防止超急排斥。

一般基因治疗考虑因素

疾病相关基因和多核苷酸的实例和疾病特定信息是从麦考斯克-内森遗传医学研究所 (McKusick-Nathans Institute of Genetic Medicine)、约翰霍普金斯大学(马里兰州巴尔的摩)(Johns Hopkins University(Baltimore,Md.))和国家生物技术信息中心(National Center for Biotechnology Information)、国家医学图书馆(马里兰州贝塞斯达)(National Library of Medicine(Bethesda,Md.))可获得的，在世界互联网上可获得的。

这些基因和途径中的突变可能导致产生影响功能的不适当蛋白质或不适当量的蛋白质。来自 2012年12月12日提交的美国临时申请61/736,527的基因、疾病和蛋白质的另外实例通过引用结合在此。此类基因、蛋白质和途径可以是本发明的CRISPR复合物的靶多核苷酸。疾病相关基因和多核苷酸的实例列出在表A和表B中。信号传导生物化学途径相关基因和多核苷酸的实例列出在表C中。

表A

表B：

表C：

本发明的实施例还涉及牵涉敲除基因、扩增基因并修复与DNA重复序列不稳定性和神经病症相关联的特定突变的方法和组合物(罗伯特·D.·威尔斯、铁雄芦沢(TetsuoAshizawa)，基因不稳定性和神经疾病(Genetic Instabilities and NeurologicalDiseases)，第二版，学术出版社，2011年10月13日-医学 (Medical))。已发现串联重复序列的特定方面是超过二十种人类疾病的原因(重复序列不稳定性的新观点： RNA·DNA杂交体的作用(New insights into repeat instability:role of RNA·DNA hybrids)。麦基弗·EI(McIvor EI)、波拉克·U(Polak U)、纳皮尔拉拉·M(Napierala M.)，RNA生物学(RNA Biol.)，2010年9月-10月； 7(5):551-8)。本发明效应蛋白系统可以用于校正基因组不稳定性的这些缺陷。

本发明的几个其他方面涉及校正与广泛范围的遗传疾病相关联的缺陷，这些疾病在国立卫生研究院(National Institutes of Health)网站上的主题小节遗传病症下进一步描述(网址是在 health.nih.gov/topic/GeneticDisorders)。遗传性脑病可以包括但不限于，肾上腺脑白质营养不良、胼胝体发育不全、艾卡尔迪综合征、阿尔珀斯病、阿耳茨海默病、巴斯综合症、贝敦氏病、CADASIL、小脑变性、法布里病、格-施-沙病(Gerstmann-Straussler-Scheinker Disease)、亨廷顿病、以及其他三联体重复序列病症、利氏病、莱施-奈恩综合征、门克斯病、线粒体肌病以及NINDS空洞脑。这些疾病在国立卫生研究院网站上的小节遗传性脑部病症下进一步描述。

Cas9发展和使用

本发明可以基于以下文献中列出的CRISPR-Cas9发展和使用的方面来说明和扩展，并且特别是涉及细胞和生物体中的CRISPR蛋白复合物的递送和RNA指导内切核酸酶的使用：

使用CRISPR/Cas系统的多重基因组工程化(Multiplex genome engineeringusing CRISPR/Cas systems)。丛，L.(Cong,L.)、拉恩，F.A.(Ran,F.A.)、科克斯，D.(Cox,D.)、林，S.、巴雷德，R.(Barretto, R.)、哈比卜，N.(Habib,N.)、徐，P.D.、吴，X.、蒋，W.、马拉非尼，L.A.(Marraffini,L.A.)、以及张， F.，科学，2月15日；339(6121):819-23(2013)；

使用CRISPR-Cas对细菌基因组进行RNA指导编辑。蒋·W.、毕卡德·D(BikardD.)、科克斯·D.、张·F、马拉非尼·L.A.自然生物技术，3月；31(3):233-9(2013)；

通过CRISPR/Cas介导的基因组工程化来一步生成携带多基因中的突变的小鼠(One-Step Generation of Mice Carrying Mutations in Multiple Genes by CRISPR/Cas-Mediated Genome Engineering)。王·H.、杨·H.、希瓦里拉·CS.(Shivalila CS.)、道拉提·MM.(Dawlaty MM.)、成·AW.、张·F.、耶尼施·R(Jaenisch R.)，细胞，5月9日；153(4):910-8(2013)；

哺乳动物内源性转录和外遗传状态的光控制(Optical control of mammalianendogenous transcription and epigenetic states)。康尔曼·S、布里格姆·MD(Brigham MD)、特雷维诺·AE(Trevino AE)、徐·PD、海登里希·M(Heidenreich M)、丛·L、普莱特·RJ(Platt RJ)、斯科特·DA、丘奇·GM、张·F，自然8月22日； 500(7463):472-6.doi:10.1038/Nature12466.电子版2013年8月23日(2013)；

用于增强基因组编辑特异性的RNA指导的CRISPR Cas9的双重切口(DoubleNicking by RNA-Guided CRISPR Cas9 for Enhanced Genome Editing Specificity)。拉恩，FA.、徐，PD.、林，CY.、根特柏格，JS.(Gootenberg,JS.)、康尔曼，S.、特雷维诺，AE.、斯科特，DA.、井上，A.(Inoue,A.)、的场， S.(Matoba,S.)、张，Y.、以及张，F.，细胞，8月28日.pii:S0092-8674(13)01015-5(2013-A)；

靶向RNA-指导的Cas9核酸酶的特异性的DNA(DNA targeting specificity ofRNA-guided Cas9 nucleases)。徐，P.、斯科特，D.、温斯坦，J.、拉恩，FA.、康尔曼，S.、瓦拉，V.、李，Y.、法恩，E.、吴，X.、谢莱姆，O.、科瑞迪克，TJ.、马尔拉菲尼，LA.、包，G.、以及张，F.，自然生物技术doi:10.1038/nbt.2647 (2013)；

使用CRISPR-Cas9系统的基因组工程化(Genome engineering using theCRISPR-Cas9 system)。拉恩， FA.、徐，PD.、赖特，J.、瓦拉，V.、斯科特，DA.、张，F.，自然实验手册，11月；8(11):2281-308(2013-B)；

人类细胞中的基因组规模的CRISPR-Cas9敲除筛选。沙莱姆，O.、珊亚纳，NE.、哈特诺斯，E.、石，X.、斯科特，DA.、迈克尔森，T.、赫克尔，D.、埃伯特，BL.、罗特，DE.、多恩奇，JG.、张，F.，科学，12月12日(2013)。[电子版先于印刷版]；

与指导RNA和靶向RNA复合的cas9的晶体结构(Crystal structure of cas9 incomplex with guide RNA and target DNA)。西松，H.(ishimasu,H.)、拉恩，FA.、徐，PD.、康尔曼，S.、舍哈塔，SI.(Shehata,SI.)、多哈曼，N(Dohmae,N.)、石谷，R.(shitani,R.)、张，F.、Nureki，O.，细胞，2月27日，156(5):935-49 (2014)；

哺乳动物细胞中CRISPR内切核酸酶Cas9的全基因组结合吴·X.、斯科特·DA.、克里茨·AJ.(Kriz AJ.)、邱·AC.、徐·PD.、达顿·DB(Dadon DB.)、成·AW.、特雷维诺·AE.、康尔曼·S.、陈·S.、耶尼施·R.、张·F.、夏普·PA.自然生物技术4月20日doi:10.1038/nbt.2889(2014)；

用于基因组编辑和癌症建模的CRISPR-Cas9敲入小鼠(CRISPR-Cas9 KnockinMice for Genome Editing and Cancer Modeling)。普莱特·RJ、陈·S、周·Y、严·MJ(Yim MJ)、斯维奇·L(Swiech L)、肯普顿·HR (Kempton HR)、达尔曼·JE(Dahlman JE)、帕纳斯·O(Parnas O)、艾森哈尔·TM(Eisenhaure TM)、约瓦诺维奇·M(Jovanovic M)、格雷厄姆·DB(Graham DB)、卷卷瓦拉·S(Jhunjhunwala S)、海登里希·M、泽维尔·RJ(Xavier RJ)、朗格·R、安德森·DG、哈科恩·N(Hacohen N)、雷格夫·A(Regev A)、冯·G、夏普·PA、张·F，细胞159(2):440-455DOI:10.1016/j.cell.2014.09.014(2014)；

用基因组工程化的CRISPR-Cas9的发展和应用(Development andApplications of CRISPR-Cas9 for Genome Engineering)，徐·PD、朗格·ES、张·F.，细胞6月5日；157(6):1262-78(2014)。

使用CRISPR/Cas9系统的人类细胞的遗传筛选(Genetic screens in humancells using the CRISPR/Cas9 system)，王·T、魏·JJ、萨巴蒂尼·DM(Sabatini DM)、朗格·ES.，科学，1月3日；343(6166):80-84. doi:10.1126/science.1246981(2014)；

用于CRISPR-Cas9-介导的基因灭活的高活性sgRNA的合理设计(Rationaldesign of highly active sgRNAs for CRISPR-Cas9-mediated gene inactivation)，多恩奇·JG、哈特诺斯·E、格雷厄姆·DB、托特瓦·Z (Tothova Z)、赫格德·M(Hegde M)、史密斯·I、苏伦德·M(Sullender M)、埃伯特·BL、泽维尔·RJ、罗特·DE.，(2014年9月3日在线公开)自然生物技术12月；32(12):1262-7(2014)；

使用CRISPR-Cas9体内探察哺乳动物大脑的基因功能(In vivo interrogationof gene function in the mammalian brain using CRISPR-Cas9)，斯维奇·L、海登里希·M、海登里希·A(Banerjee A)、哈比卜·N、李·Y、特龙贝塔·J(Trombetta J)、苏尔·M(Sur M)、张·F.，(2014年10月19日在线公开)自然生物技术1月； 33(1):102-6(2015)；

通过工程化CRISPR-Cas9复合物进行基因组规模的转录激活(Genome-scaletranscriptional activation by an engineered CRISPR-Cas9 complex)，康尔曼·S、布里格姆·MD、特雷维诺·AE、姜俊·J、阿布德耶尔·OO (Abudayyeh OO)、巴尔塞纳·C(Barcena C)、徐·PD、哈比卜·N、根特柏格·JS、西松·H、Nureki O、张·F.，自然1月29日；517(7536):583-8(2015)。

用于诱导型基因组编辑和转录调节的拆分Cas9体系结构(A split-Cas9architecture for inducible genome editing and transcription modulation)，蔡彻·B(Zetsche B)、沃尔兹·SE(Volz SE)、张·F.，(2015年 2月02日在线公开)自然生物技术2月；33(2):139-42(2015)；

肿瘤生长和转移的小鼠模型中的全基因组CRISPR筛选(Genome-wide CRISPRScreen in a Mouse Model of Tumor Growth and Metastasis)，陈·S、珊亚纳·NE、郑·K、沙莱姆·O、李·K、石·X、斯科特·DA、宋·J、潘·JQ、韦斯莱德尔·R(Weissleder R)、李·H、张·F、夏普·PA，细胞160,1246-1260，2015年3月 12日(小鼠中的多重筛选)，以及

使用金黄色葡萄球菌Cas9的体内基因组编辑(In vivo genome editing usingStaphylococcus aureus Cas9)，拉恩·FA.、宋·L、严·WX、斯科特·DA,根特柏格·JS、克里茨·AJ、蔡彻·B、沙莱姆·O、吴·X、马卡洛夫·KS、库尼恩·EV、夏普·PA、张·F.，(2015年4月01日在线公开)，自然，4月9日；520(7546):186-91 (2015)。

沙莱姆等人，“使用CRISPR-Cas9的高通量功能基因组学(High-throughputfunctional genomics using CRISPR-Cas9)”，遗传学自然评论(Nature ReviewsGenetics)16,299-311(2015年5月)。

许等人，“改进的CRISPR sgRNA设计的序列决定簇(Sequence determinants ofimproved CRISPR sgRNA design)”，基因组研究25,1147-1157(2015年8月)。

帕纳斯等人，“一种在原代免疫细胞解剖调节网络的全基因组CRISPR筛选(AGenome-wide CRISPR Screen in Primary Immune Cells to Dissect RegulatoryNetworks)”，细胞162,675-686(2015年7月30日)。

拉曼那等人，“病毒DNA的CRISPR/Cas9分割有效抑制了乙型肝炎病毒(CRISPR/Cas9 cleavage of viral DNA efficientlysuppresses hepatitis B virus)”，科技报告5:10833.doi:10.1038/srep10833(2015年6月2日)

西松等人，“金黄色葡萄球菌Cas9的晶体结构(Crystal Structure ofStaphylococcus aureus Cas9)”，细胞162,1113-1126(2015年8月27日)

通过Cas9-诱导的原位饱和诱变进行BCL11A增强子分割，康维尔等人，自然527(7577):192-7(2015 年11月12日)doi:10.1038/nature15521.电子版2015年9月16日。

Cpf1是第2类CRISPR-Cas系统的单一RNA指导的内切核酸酶(Cpf1 Is a SingleRNA-Guided Endonuclease of a Class 2CRISPR-Cas System)，蔡彻等人，细胞163,759-71(2015年9月25日)。

不同的第2类CRISPR-Cas系统的发现和功能表征(Discovery and FunctionalCharacterization of Diverse Class 2CRISPR-Cas Systems)，什马科夫等人，分子细胞，60(3),385-397doi: 10.1016/j.molcel.2015.10.008电子版2015年10月22日。

具有提高的特异性的合理工程化的Cas9核酸酶(Rationally engineered Cas9nucleases with improved specificity)，斯莱马克尔等人，科学，2016年1月1日351(6268):84-88doi:10.1126/science.aad5227.电子版2015年12月1日。[电子版先于印刷版]。

这些文献各自通过引用结合在此，它们可以被考虑用于实践本发明，并且如以下简要讨论的：

丛等人基于嗜热链球菌Cas9并且还基于酿脓链球菌Cas9来工程化用于真核细胞的II型CRISPR-Cas系统，并且证明Cas9核酸酶可以通过短RNA来指导以诱导人类和小鼠细胞中的精确DNA切割。他们的研究显示Cas9在转化成切口酶后可以用于促进具有最小诱变活性的真核细胞中的同源定向修复。另外，他们的研究证实多个指导序列可以被编码成单一CRISPR阵列，以使得能够在哺乳动物基因组内的多个内源性基因组座位位点处同时进行编辑，这证明RNA指导的核酸酶技术的容易可编程性和广泛适用性。使用 RNA编程细胞内的序列特异性DNA切割的这种能力限定了一类新的基因组工程化工具。这些研究进一步显示其他CRISPR作为可能可移植到哺乳动物细胞中并且也可以介导哺乳动物基因组切割。重要的是，可以设想CRISPR-Cas系统的几个方面可以被进一步改进以增加其效率和多功能性。

蒋等人使用与双RNA复合的成簇的、规律间隔的、短回文重复序列(CRISPR)相关Cas9内切核酸酶，在肺炎链球菌和大肠杆菌的基因组中引入精确突变。该方法依赖于靶基因组位点处的双-RNA:Cas9- 引导的切割以杀死未突变细胞，并且不再需要选择标记物或反选择系统。该研究报道了通过改变短 CRISPR RNA(crRNA)的序列以形成编辑模板上携带的单个核苷酸或多个核苷酸来重新编程双RNA:Cas9 特异性。该研究显示同时使用两个crRNA能够进行多重诱变。另外，当该方法与重组组合使用时，在肺炎链球菌中几乎100％使用所述方法恢复的细胞含有希望的突变，并且在大肠杆菌中65％恢复的细胞含有该突变。

王等人(2013)使用用于一步生成携带多基因中的突变的小鼠的CRISPR-Cas系统，这些突变通常是在多个步骤中通过在胚胎干细胞中连续重组和/或具有单个突变的小鼠的耗时互交来生成的。CRISPR-Cas 系统将极大地加速功能冗余基因和上位基因相互作用的体内研究。

康尔曼等人(2013)解决了本领域中对于通用和稳健技术的需要，这些技术使得能够光学和化学调节基于DNA结合结构域的CRISPR Cas9酶并且还调节转录激活物样效应子。

拉恩等人(2013-A)描述了一种将Cas9切口酶突变体与成对的指导RNA组合以引入靶向双链断裂的方法。这解决了来自微生物CRISPR-Cas系统的Cas9核酸酶通过指导序列被靶向特异性基因组座位的问题，这些指导序列可以耐受与DNA靶标的某些错配并且因此促成不希望的脱靶诱变。因为基因组中的个别切口以高保真度修复，因此经由适当偏移的指导RNA进行同时切口对于双链断裂是需要的并且扩大了用于靶向切割的特异性识别的碱基数目。作者们证实使用成对切口可以在细胞系中减少50倍至1,500倍的脱靶活性并且促进小鼠受精卵中的基因敲除，而不用牺牲中靶切割效率。此通用策略使得能够进行需要高特异性的各种各样的基因组编辑应用。

徐等人(2013)表征了人类细胞中的SpCas9靶向特异性，以告知靶位点的选择并避免脱靶效应。该研究评价了>700种指导RNA变体和293T和293FT细胞中>100个预测的基因组脱靶座位处的SpCas9诱导型 indel突变水平。作者们指示SpCas9以序列依赖性方式容忍指导RNA与靶DNA之间的不同位置处的错配，对错配的数目、位置和分布敏感。作者们进一步证实SpCas9-介导的切割未受到DNA甲基化的影响并且 SpCas9和gRNA的剂量可以被滴定来最小化脱靶修饰。另外，为了促进哺乳动物基因组工程化应用，作者们的报道提供了一种指导靶序列的选择和验证以及脱靶分析的基于网络的软件工具。

拉恩等人(2013-B)描述了一组用于在哺乳动物细胞中经由非同源末端接合(NHEJ)或同源定向修复(HDR)进行Cas9介导的基因组编辑以及生成用于下游功能研究的修饰的细胞系的工具。为了最小化脱靶切割，作者们进一步描述一种使用具有成对指导RNA的Cas9切口酶的双切口策略。这些作者们提供的方案在实验上推导了用于选择靶位点、评价切割效率并分析脱靶活性的准则。这些研究显示以靶向设计开始，基因修饰可以在仅仅1-2周内实现，并且修饰的克隆细胞系可以在2-3周内得到。

沙莱姆等人描述了一种探察全基因组规模的基因功能的新方式。他们的研究显示具有64,751个独特指导序列的基因组规模的CRISPR-Cas9敲除(GeCKO)文库靶向的18,080个基因的递送能够在人类细胞中进行阴性和阳性选择筛选。首先，作者们证实使用GeCKO文库鉴定了癌症和多能干细胞中的细胞活力所必须的基因。接着，在黑色素瘤模型中，作者们筛选其丧失涉及对维罗非尼(一种抑制蛋白激酶BRAF的治疗剂)的抗性的基因。他们的研究显示最高评级的候选物包括先前验证的基因NF1和MED12以及新型命中基因NF2、CUL3、TADA2B、以及TADA1。作者们在靶向相同基因的独立的指导RNA与高命中确认率之间观察到高水平的一致性，并且因此证实允许用Cas9进行基因组规模筛选。

西松等人报道了与sgRNA复合的酿脓链球菌Cas9的晶体结构以及其在2.5A°分辨率下的靶DNA。该结构揭示了一种由靶向识别和核酸酶裂片(lobe)组成的二裂片体系结构，在其界面处带正电荷的沟中提供sgRNA:DNA异源双链核酸分子。识别裂片对于结合sgRNA和DNA是必需的，而核酸酶裂片含有HNH 和RuvC核酸酶结构域，这些结构域被适当地定位来分别切割靶DNA的互补链和非互补链。核酸酶裂片还含有负责与原型间隔区相邻基序(PAM)相互作用的羧基末端结构域。此高分辨结构和伴随的功能分析已揭示了通过Cas9进行的RNA指导的DNA靶向的分子机制，从而为新的通用型基因组编辑技术的合理设计做准备。

吴等人由装载有小鼠胚胎干细胞(mESC)中的单一指导RNA(sgRNA)的酿脓链球菌绘制无催化活性Cas9(dCas9)的全基因组结合位点。作者们证实四种测试的sgRNA各自使得dCas9靶向几十个与几千个之间的基因组位点，频繁地表征为sgRNA和NGG原型间隔区相邻基序(PAM)中的5-核苷酸种子区。染色质难接近性减少了dCas9与具有匹配的种子序列的其他位点的结合；因此70％脱靶位点与基因相关联。作者们证实在用催化活性的Cas9转染的mESC中295dCas9结合位点的靶向测序鉴定了在背景水平上突变的仅一个位点。作者们提出一种用于Cas9结合和切割的两阶段模型，其中种子匹配触发结合但扩大的与靶DNA的配对对于切割是需要的。

普莱特等人建立了一种Cre-依赖性Cas9敲入小鼠。作者们证实了使用神经元、免疫细胞和内皮细胞中的指导RNA的腺相关病毒(AAV)、慢病毒或粒子介导的递送进行的体内以及离体基因组编辑。

徐等人(2014)是大体上讨论了CRISPR-Cas9从酸乳到基因组编辑的历史(包括细胞遗传筛选)的评论性文章。

王等人(2014)涉及一种适用于使用基因组规模的慢病毒单一指导RNA(sgRNA)文库的阳性选择和阴性选择的合并的失功能遗传筛选方法。

多恩奇等人创建了一个sgRNA库，铺在一组六种内源性小鼠基因和三种内源性人类基因的所有可能的靶位点上，并且通过抗体染色和流式细胞术定量评定它们产生靶基因的无效等位基因的能力。作者们证实PAM的优化提高活性并且也提高一组用于设计sgRNA的在线工具。

斯维奇等人证实AAV介导的SpCas9基因组编辑可以能够进行大脑中的基因功能的反向遗传学研究。

康尔曼等人(2015)讨论了在使用或不使用接头的情况下将多个效应子结构域例如转录激活物、功能和表观基因组调节物附接在指导序列诸如茎环或四核苷酸环上的适当位置处的能力。

蔡彻等人证实Cas9酶可以拆分成两个并且因此可以控制用于激活的Cas9的组装。

陈等人涉及通过证实小鼠全基因组体内CRISPR-Cas9筛选揭示了基因调节肺部转移来进行多重筛选。

拉恩等人(2015)涉及SaCas9以及其编辑基因组的能力并且证实不能从生物化学测定外推。

沙莱姆等人(2015)描述其中无催化活性Cas9(dCas9)融合物用于在合成上阻遏(CRISPRi)或激活(CRISPRa)表达，从而显示使用基因组规模的筛选的Cas9的进展的方式，这些筛选包括排列和合并的筛选、灭活基因组座位的敲除方法以及调节转录活性的策略。

许等人(2015)评定了有助于基于CRISPR的筛选的单一指导RNA(sgRNA)效率的DNA序列特征。作者们探寻了CRISPR/Cas9敲除的效率和切割位点处的核苷酸偏好。作者们还发现CRISPRi/a的序列偏好基本上不同于CRISPR/Cas9敲除的序列偏好。

帕纳斯等人(2015)将全基因组合并的CRISPR-Cas9文库引入到树突细胞(DC)中，以鉴定控制细菌性脂多糖(LPS)对肿瘤坏死因子(Tnf)的诱导。鉴定Tlr4信号传导的已知调节剂和先前未知的候选物并且将其分成对于对LPS的正则反应具有不同作用的三种功能模块。

拉曼那等人(2015)证实了感染细胞中的病毒附加体DNA(cccDNA)的切割。HBV基因组在感染的肝细胞的核中作为称为共价闭环DNA(cccDNA)的3.2kb双链附加型DNA种类存在，该共价闭环DNA 是在HBV生命周期中其复制不受当前治疗的抑制的关键性组分。作者们证实特异性靶向HBV的高度保守区的sgRNA强烈抑制了病毒复制和缺失的cccDNA。

西松等人(2015)报道了与单一指导RNA(sgRNA)及其双链DNA靶标复合的SaCas9的晶体结构，该单一指导RNA含有5'-TTGAAT-3'PAM和5'-TTGGGT-3'PAM。SaCas9与SpCas9的结构比较突出显示了结构保守性和趋异性，这解释了它们不同的PAM特异性和直源sgRNA识别。

康维尔等人(2015)证实基于CRISPR-Cas9的非编码基因组元件的功能研究。作者们开发了进行人类和小鼠BCL11A增强子的原位饱和诱变的合并的CRISPR-Cas9指导RNA文库，这揭示了这些增强子的关键性特征。

蔡彻等人(2015)报道了来自新杀手弗朗西斯菌U112的、具有不同于Cas9的特征的第2类CRISPR核酸酶Cpf1的表征。Cpf1是一种缺乏tracrRNA的单一RNA指导的内切核酸酶，它利用T富集的原型间隔区相邻基序，并且经由交错双链断裂来切割DNA。

什马科夫等人(2015)报道了三种不同的第2类CRISPR-Cas系统。两种系统性CRISPR酶(C2c1和 C2c3)含有与Cpf1相关性较远的RuvC样内切核酸酶结构域。不同于Cpf1，C2c1取决于用于DNA切割的 crRNA和tracrRNA。第三种酶(C2c2)含有两个预测的HEPN RNA酶结构域并且是tracrRNA独立的。

斯莱马克尔等人(2016)报道了使用结构指导的蛋白质工程化来提高酿脓链球菌Cas9(SpCas9)的特异性。作者们开发了维持强劲的中靶切割同时具有减小的脱靶效应的“特异性增强”的SpCas9 (eSpCas9)变体。

同样地，“用于高特异性基因组编辑的二聚CRISPR RNA指导FokI核酸酶”，盛达尔·Q.·蔡、尼古拉斯·维肯恩、采德·凯特尔、詹尼弗·A.·福登布、维沙尔·撒帕尔、迪帕克·雷恩、马修·J.·古德温、马丁·J.·阿里耶、J.·基思·姜俊，自然生物技术32(6):569-77(2014)，涉及在人类细胞中识别扩展序列并以高效率编辑内源性基因的二聚RNA指导FokI核酸酶。

美国专利号8,697,359、8,771,945、8,795,965、8,865,406、8,871,445、8,889,356、8,889,418、 8,895,308、8,906,616、8,932,814、8,945,839、8,993,233以及8,999,641；美国专利公开2014-0310830(美国申请序列号14/105,031)、US 2014-0287938 A1(美国申请序列号14/213,991)、US 2014-0273234 A1(美国申请序列号14/293,674)、US2014-0273232A1(美国申请序列号14/290,575)、US 2014-0273231(美国申请序列号14/259,420)、US 2014-0256046 A1(美国申请序列号14/226,274)、US 2014-0248702 A1(美国申请序列号14/258,458)、US 2014-0242700 A1(美国申请序列号14/222,930)、US 2014-0242699 A1(美国申请序列号14/183,512)、US 2014-0242664 A1(美国申请序列号14/104,990)、US 2014-0234972 A1(美国申请序列号14/183,471)、US 2014-0227787 A1(美国申请序列号14/256,912)、US 2014-0189896 A1(美国申请序列号14/105,035)、US2014-0186958(美国申请序列号14/105,017)、US 2014-0186919 A1(美国申请序列号14/104,977)、US 2014-0186843 A1(美国申请序列号14/104,900)、US 2014-0179770 A1(美国申请序列号14/104,837)以及US 2014-0179006 A1(美国申请序列号14/183,486)、US2014-0170753(美国申请序列号14/183,429)；US 2015-0184139(美国申请序列号14/324,960)；14/054,414，欧洲专利申请EP 2 771 468 (EP13818570.7)EP 2 764 103(EP13824232.6)、以及EP 2 784 162(EP14170383.5)；以及PCT专利公开 WO 2014/093661(PCT/US2013/074743)、WO 2014/093694(PCT/US2013/074790)、WO 2014/093595 (PCT/US2013/074611)、WO 2014/093718(PCT/US2013/074825)、WO 2014/093709(PCT/US2013/074812)、 WO 2014/093622(PCT/US2013/074667)、WO 2014/093635(PCT/US2013/074691)、WO 2014/093655 (PCT/US2013/074736)、WO 2014/093712(PCT/US2013/074819)、WO 2014/093701(PCT/US2013/074800)、 WO 2014/018423(PCT/US2013/051418)、WO 2014/204723(PCT/US2014/041790)、WO 2014/204724 (PCT/US2014/041800)、WO 2014/204725(PCT/US2014/041803)、WO 2014/204726(PCT/US2014/041804)、 WO 2014/204727(PCT/US2014/041806)、WO 2014/204728(PCT/US2014/041808)、WO 2014/204729 (PCT/US2014/041809)、WO 2015/089351(PCT/US2014/069897)、WO 2015/089354(PCT/US2014/069902)、 WO 2015/089364(PCT/US2014/069925)、WO 2015/089427(PCT/US2014/070068)、WO 2015/089462(PCT/US2014/070127)、WO 2015/089419(PCT/US2014/070057)、WO 2015/089465(PCT/US2014/070135)、 WO 2015/089486(PCT/US2014/070175)、PCT/US2015/051691、PCT/US2015/051830。还参考美国临时专利申请61/758,468；61/802,174；61/806,375；61/814,263；61/819,803和61/828,130，它们分别在2013年1月 30日；2013年3月15日；2013年3月28日；2013年4月20日；2013年5月6日以及2013年5月28日提交。还参考在2013年6月17日提交的美国临时专利申请61/836,123。还另外参考美国临时专利申请61/835,931、 61/835,936、61/835,973、61/836,080、61/836,101、以及61/836,127，这些专利各自在2013年6月17日提交。还参考2013年8月5日提交的美国临时专利申请61/862,468和61/862,355；在2013年8月28日提交的 61/871,301；在2013年9月25日提交的61/960,777以及2013年10月28日提交的61/961,980。进一步参考：在2014 年10月28日提交的PCT/US2014/62558，以及美国临时专利申请序列号：各自在2013年12月12日提交的 61/915,148、61/915,150、61/915,153、61/915,203、61/915,251、61/915,301、61/915,267、61/915,260、and 61/915,397；在2013年1月29日和2013年2月25日提交的61/757,972和61/768,959；二者均在2014年6月11日提交的62/010,888和62/010,879；各自在2014年6月10日提交的62/010,329、62/010,439和62/010,441；各自在2014 年2月12日提交的61/939,228和61/939,242；在2014年4月15日提交的61/980,012；在2014年8月17日提交的 62/038,358；各自在2014年9月25日提交的62/055,484、62/055,460和62/055,487；以及在2014年10月27日提交的62/069,243。参考指定尤其是美国的2014年6月10日提交的申请号PCT/US14/41806的PCT申请。参考 2014年1月22日提交的美国临时专利申请61/930,214。参考指定尤其是美国的2014年6月10日提交的申请号 PCT/US14/41806的PCT申请。

还参考2015年6月17日的美国申请62/180,709，保护性指导RNA(PGRNA)(PROTECTED GUIDE RNAS(PGRNAS))；2014年12月12日提交的美国申请62/091,455，保护性指导RNA(PGRNA)；2014 年12月24日提交的美国申请62/096,708，保护性指导RNA(PGRNA)；2014年12月12日的美国申请 62/091,462、2014年12月23日的62/096,324、2015年6月17日的62/180,681、以及2015年10月5日的62/237,496，用于CRISPR转录因子的无效指导序列(DEAD GUIDES FOR CRISPR TRANSCRIPTION FACTORS)；2014 年12月12日的美国申请62/091,456和2015年6月17日的62/180,692，用于CRISPR-CAS系统的护送指导序列和功能化指导序列(ESCORTED AND FUNCTIONALIZED GUIDES FOR CRISPR-CAS SYSTEMS)；2014年 12月12日的美国申请62/091,461，用于关于造血干细胞(HSC)的基因组编辑的CRISPR-CAS系统和组合物的递送、使用和治疗性应用(DELIVERY,USE AND THERAPEUTIC APPLICATIONSOF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FOR GENOME EDITING AS TOHEMATOPOETIC STEM CELLS (HSCs))；2014年12月19日的美国申请62/094,903，通过基因组规格的插入物捕获测序来无偏地鉴定双链断裂和基因组重新排列(UNBIASEDIDENTIFICATION OF DOUBLE-STRAND BREAKS AND GENOMIC REARRANGEMENT BY GENOME-WISE INSERT CAPTURE SEQUENCING)；2014年12月24日的美国申请62/096,761，用于序列操纵的系统、方法和最佳酶和指导支架的工程化(ENGINEERING OF SYSTEMS, METHODS ANDOPTIMIZED ENZYME AND GUIDE SCAFFOLDS FOR SEQUENCE MANIPULATION)； 2014年12月30日的美国申请62/098,059、2015年6月18日的62/181,641、以及2015年6月18日的62/181,667， RNA靶向系统(RNA-TARGETING SYSTEM)；2014年12月24日的美国申请62/096,656和2015年6月17日的 62/181,151，具有不稳定结构域或与该结构域缔合的CRISPR(CRISPRHAVING OR ASSOCIATED WITH DESTABILIZATION DOMAINS)；2014年12月24日的美国申请62/096,697，具有AAV或与该AAV缔合的 CRISPR(CRISPR HAVING OR ASSOCIATED WITHAAV)；2014年12月30日的美国申请62/098,158，工程化CRISPR复合物插入的靶向系统(ENGINEERED CRISPR COMPLEX INSERTIONAL TARGETING SYSTEMS)；2015年4月22日的美国申请62/151,052，用于细胞外外来体报道的细胞靶向(CELLULAR TARGETING FOREXTRACELLULAR EXOSOMAL REPORTING)；2014年9月24日的美国申请62/054,490，用于使用粒子递送组合物靶向病症和疾病的CRISPR-CAS系统和组合物的递送、使用和治疗性应用(DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS ANDCOMPOSITIONS FOR TARGETING DISORDERS AND DISEASES USING PARTICLE DELIVERYCOMPONENTS)；2014年2月12日的美国申请61/939,154，用于使用最佳功能的CRISPR-CAS系统进行序列操纵的系统、方法和组合物(SYSTEMS,METHODS AND COMPOSITIONS FORSEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS)；2014年9月25日的美国申请 62/055,484，用于使用最佳功能的CRISPR-CAS系统进行序列操纵的系统、方法和组合物；2014年12月4日的美国申请62/087,537，用于使用最佳功能的CRISPR-CAS系统进行序列操纵的系统、方法和组合物；2014 年9月24日的美国申请62/054,651，用于体内调节多种癌症突变的竞争的CRISPR-CAS系统和组合物的递送、使用和治疗性应用(DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS ANDCOMPOSITIONS FOR MODELING COMPETITION OF MULTIPLE CANCER MUTATIONS IN VIVO)；2014年10月23日的美国申请62/067,886，用于体内调节多种癌症突变的竞争的 CRISPR-CAS系统和组合物的递送、使用和治疗性应用；2014年9月24日的美国申请62/054,675和2015年6 月17日的62/181,002，CRISPR-CAS系统和组合物在神经元细胞/组织中的递送、使用和治疗性应用 (DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CASSYSTEMS AND COMPOSITIONS IN NEURONAL CELLS/TISSUES)；2014年9月24日的美国申请62/054,528，CRISPR-CAS 系统和组合物在免疫疾病或病症中的递送、使用和治疗性应用(ELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS ANDCOMPOSITIONS IN IMMUNE DISEASES OR DISORDERS)；2014年9月25日的美国申请62/055,454，用于使用细胞穿透肽(CPP)靶向病症和疾病的 CRISPR-CAS系统和组合物的递送、使用和治疗性应用(DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CASSYSTEMS AND COMPOSITIONS FOR TARGETING DISORDERS AND DISEASES USING CELLPENETRATION PEPTIDES(CPP))；2014年9月25日的美国申请62/055,460，多功能-CRISPR复合物和/或最佳酶连接的功能性-CRISPR复合物(MULTIFUNCTIONAL-CRISPR COMPLEXESAND/OR OPTIMIZED ENZYME LINKED FUNCTIONAL-CRISPR COMPLEXES)；2014年12 月4日的美国申请62/087,475和2015年6月18日的62/181,690，使用最佳CRISPR-CAS系统的功能性筛选 (FUNCTIONAL SCREENING WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS)；2014年9月25 日的美国申请62/055,487，使用最佳CRISPR-CAS系统的功能性筛选；2014年12月4日的美国申请62/087,546 和2015年6月18日的62/181,687，多功能-CRISPR复合物和/或最佳酶连接的功能性-CRISPR复合物；以及2014 年12月30日的美国申请62/098,285，肿瘤生长和转移的CRISPR介导的体内调节和遗传筛选(CRISPR MEDIATED IN VIVO MODELING ANDGENETIC SCREENING OF TUMOR GROWTH AND METASTASIS)。

还参考2015年6月18日的美国申请62/181,659和2015年8月19日的62/207,318，用于序列操纵的 CAS9直向同源物和变体的系统、方法、酶以及指导支架的工程化和优化(ENGINEERING AND OPTIMIZATION OF SYSTEMS,METHODS,ENZYME AND GUIDE SCAFFOLDSOF CAS9 ORTHOLOGS AND VARIANTS FOR SEQUENCE MANIPULATION)。参考2015年6月18日的美国申请62/181,663和2015 年10月22日的62/245,264，新型CRISPR酶以及系统(NOVELCRISPR ENZYMES AND SYSTEMS)；2015 年6月18日的美国申请62/181,675、2015年10月22日的62/285,349、2016年2月17日的62/296,522、以及2016 年4月8日的62/320,231，新型CRISPR酶以及系统；2015年9月24日的美国申请62/232,067、2015年12月18日的美国申请14/975,085、欧洲申请号16150428.7、2015年8月16日的美国申请62/205,733、2015年8月5日的美国申请62/201,542、2015年7月16日的美国申请62/193,507、以及2015年6月18日的美国申请62/181,739，这些专利各自题为新型CRISPR酶以及系统；以及2015年10月22日的美国申请62/245,270，新型CRISPR酶以及系统。还参考2014年2月12日的美国申请61/939,256和2014年12月12日的WO 2015/089473 (PCT/US2014/070152)，这些专利各自题为具有用于序列操纵的新体系结构的系统、方法和最佳指导组合物的工程化(ENGINEERING OFSYSTEMS,METHODS AND OPTIMIZED GUIDE COMPOSITIONS WITH NEW ARCHITECTURES FORSEQUENCE MANIPULATION)。还参考2015年8月15日的 PCT/US2015/045504、2015年6月17日的美国申请62/180,699以及2014年8月17日的美国申请62/038,358，这些专利各自题为使用CAS9切口酶的基因组编辑(GENOME EDITING USING CAS9 NICKASES)。

每一份这些专利、专利公开和申请、以及其中或它们的诉讼期间(“应用引用文献”)所引用的所有文献或在此应用引用文献中引用或参考的所有文献，连同在此或在通过引用结合在此的任何文献中提到的任何产品的任何说明书、描述、产品规格和产品清单均通过引用结合在此，并且可以应用于本发明的实践中。所有文献(例如，这些专利、专利公开和申请以及应用引用文献)通过引用结合在此，其程度如同将每个单独的文献具体并单独地指明通过引用结合在此。

本发明的有效性已经得到证实。可以例如通过电穿孔转染包含Cpf1和crRNA的预组装的重组体CRISPR-Cpf1复合物，从而产生高突变率且不存在可检测的脱靶突变。户珥，J.K.等人，通过电穿孔Cpf1 核糖核蛋白在小鼠中进行的靶向诱变，自然生物技术2016年6月6日doi:10.1038/nbt.3596。[电子版先于印刷版]。全基因组分析显示Cpf1是高度特异的。通过一个测量，对于人类HEK293T细胞中的SpCas9确定的体外切割位点显著少于对于SpCas9的体外切割位点。基姆，D等人，全基因组分析揭示了人类细胞中的Cpf1 内切核酸酶的特异性(Genome-wide analysis reveals specificities of Cpf1 endonucleases inhuman cells)，自然生物技术，2016年6月6日doi:10.1038/nbt.3609。[电子版先于印刷版]。在采用由含有发明的tRNA的阵列加工的gRNA的果蝇中证实了一种采用Cpf1的有效复用系统。波特，F.(Port,F.)等人，在具有tRNA-侧接的Cas9和Cpf1 gRNA的动物中的CRISPR工具箱的扩增(Expansion of the CRISPR toolbox in an animal with tRNA-flankedCas9 and Cpf1 gRNAs)。doi:http://dx.doi.org/10.1101/046417。

本发明将在以下实例中进一步说明，这些实例仅出于说明目的给出并且不旨在以任何方式限制本发明。

实例

实例1：适应性免疫系统的起源和进化

CRISPR-Cas系统在古细菌和细菌基因组中的分类和注解。CRISPR-Cas座位具有超过50种的基因家族并且不存在严格的通用基因，这表明了座位体系结构的快速进化、极端多样性。因此，单一进化树是不可行的并且需要多分支方法。到目前为止，针对93种Cas蛋白存在395种表达谱的全面cas基因鉴定。分类包括特征基因表达谱加上座位体系结构的特征。

新的CRISPR-Cas系统分类提出在图1中。第1类包括多亚基crRNA-效应子复合物(Cascade) 并且第2类包括单亚基crRNA-效应子复合物(Cas9样)。图2提供了CRISPR-Cas的分子组构。图3提供了I型和III型效应子复合物的结构：共同的体系结构/共同的祖先，尽管存在广泛的序列趋异性。图4示出了作为以RNA识别基序(RRM)为中心的系统的CRISPR-Cas。图5示出了Cas1系统发育，其中自适应模块和crRNA- 效应子模块的重组显示出CRISPR-Cas进化的主要方面。图F示出了CRISPR-Cas种群调查，具体地是 CRISPR-Cas型/亚型在古生菌和细菌之中的分布。

Cas1并不总是连接至CRISPR-Cas系统，因此可能存在“单独”Cas1的两条分支，这说明功能和起源与可能的新型可动遗传因子可能存在差异(参见马卡洛夫、格鲁帕维克(Krupovic)、库尼恩，遗传学前沿(Frontiers Genet)2014)。三个casposon家族的基因组组构可以提供一些线索。除Cas1和PolB之外， casposon结合不同基因，包括各种核酸酶(格鲁帕维克等人，BMC生物学(BMC Biology)2014)。一个家族具有蛋白质引发的聚合酶，另一个家族具有RNA引发的聚合酶。除不同广古菌和奇古菌之外，casposon 可见于表明横向流动的几种细菌中。Casposon Cas1(易位酶/整合酶)显示Cas1种系发生中的basal进化枝。

细菌和古细菌利用CRISPR在原核生物和真核生物中经由基因组操纵来进行适应性免疫。Cas 1提供了一种用于基因组操纵的现成工具。casposon和CRISPR中存在类似整合机制，特别是通过复制/粘贴不能切割复制部分来进行复制依赖性获取(格鲁帕维克等人，BMC生物学2014)。Cas1是一种真实的整合酶(努涅斯·JK(

JK)、李·AS(Lee AS)、昂热尔曼·A(Engelman A)、窦得那·JA(Doudna JA)，在 CRISPR-Cas适应性免疫过程中的整合酶介导的间隔区获取(Integrase-mediated spacer acquisition during CRISPR-Casadaptive immunity)，自然，2015年2月18日)。在casposon与CRISPRT的末端反向重复序列之间存在相似性(格鲁帕维克等人，BMC生物学2014)。CRISPR-Cas可以来源于casposon和先天性免疫座位(库尼恩、格鲁帕维克，遗传学自然评论，2015)。原核生物和动物中的适应性免疫系统的进化可以是已沿着与先天性免疫座位处的易位子整合平行的过程进行(库尼恩、格鲁帕维克，遗传学自然评论，2015)。RAG1 易位酶(脊椎动物中的V(D)J重组的关键酶)可以来源于Transib易位子(卡皮托诺夫·VV(Kapitonov VV)、朱卡·J(Jurka J)，RAG1核心和V(D)J重组信号序列时来源于Transib易位子(RAG1 core and V(D)Jrecombination signal sequences were derived from Transib transposons)，公共科学图书馆生物学(PLoS Biol.) 2005年6月；3(6):e181)，然而，没有Transib编码RAG2。RAG1和RAG2编码的易位子描述于卡皮托诺夫、库尼恩，生物学指导(Biol Direct)2015并且Transib易位酶系统发育被给出在卡皮托诺夫、库尼恩，生物学指导2015中。纤毛虫中的防御性DNA消除从PiggyMAc易位子和一种先天性免疫系统RNAi演变而来(斯瓦特·EC(SwartEC)、诺瓦茨基·M(Nowacki M)，通过sRNA-靶向的DNA缺失来抵御并编辑基因组的真核生物方式(The eukaryotic way to defend and edit genomes by sRNA-targeted DNAdeletion)，纽约科学院年鉴2015)。

分类的相对稳定性说明最流行的CRISPR-Cas系统变体是已经知道的。然而，少数目前不可分类的变体的存在说明另外类型和亚型仍有待表征(马卡洛夫等人2015。CRISPR-Cas系统和cas基因的进化性分类(Evolutionary classification of CRISPR-Cas systems and cas genes))。

易位子对于适应性免疫和涉及DNA操纵的其他系统的进化起到关键性作用。第1类CRISPR-Cas来源于易位子但仅用于自适应模块。第2类CRISPR-Cas具有自适应功能和效应子功能二者，其中模块可以从不同易位子进化。

实例2：新预测的第2类CRISPR-Cas系统以及其来自可易位元件的独立起源的证据

细菌和古细菌的适应性免疫的CRISPR-Cas系统显示出蛋白质组成和基因组座位体系结构的极端多样性。这些系统宽泛地分成两类，具有多亚单元效应子复合物的第1类和具有单亚单元效应子模块的第2类，通过Cas9蛋白来举例说明。申请人开发了一种用于预测推定的新第2类CRISPR-Cas系统的简单计算流程。使用此流程分析完整细菌基因组的数据库使得能够鉴定两种新的变体，这些变体各自在不同细菌中表现出来并且含有cas1和cas2基因连同编码预测作为效应子模块起作用的大蛋白质的第三基因。在这些座位的第一个座位中，推定的效应蛋白(C2c1p)含有RuvC-样核酸酶结构域并且类似于先前描述的Cpf1 蛋白，即V型CRISPR-Cas系统的预测效应子；因此，新推定系统被分类为V-B亚型。蛋白质序列的深入比较表明含RuvC的效应蛋白Cas9、Cpf1和C2C1p独立地从不同组的易位子编码的TnpB蛋白质进化。第二组新推定的CRISPR-Cas座位涵盖了一种含有具有预测的RNA酶活性的两个高度趋异性HEPN结构域的大蛋白质。考虑到预测的效应蛋白的新颖性，这些座位被分类为可能靶向mRNA的新VI型CRISPR-Cas。总之，此分析的结果显示第2类CRISPR-Cas系统在多种独立的情景上通过将不同Cas1-Cas2-编码的自适应模块与来源于不同可动遗传因子的效应蛋白组合来进化。此进化路径最可能产生仍有待发现的第2类系统的多种变体。

CRISPR-Cas适应性免疫系统存在于～45％细菌和～90％古细菌基因组中并且显示Cas蛋白质组成和序列以及基因组座位体系结构的极端多样性。基于其crRNA-效应子复合物的结构组织化，这些系统被分类两类，即具有多亚基效应子复合物的第1类和具有单一亚基效应子复合物的第2类(马卡洛夫，2015)。第1类系统是更常见的并且不同于第2类系统。第1类目前通过由许多古细菌和细菌基因组编码的12种不同亚型表示，而第2类系统包括II型系统和推定的V型系统的三种亚型，这些亚型总体可见于约10％的测序细菌基因组(具有涵盖推定型系统的单一古细菌基因组)。第2类系统典型地仅含有cas操纵子中的三个或四个基因，即涉及自适应而不涉及干扰的cas1-cas2基因对、一种负责干扰而且有助于前crRNA加工和自适应的单一多结构域效应蛋白、以及常常是具有在至少一些II型系统中可分配的未表征功能的第四种基因。在大多数情况下，CRISPR阵列和称为tracrRNA(反式编码的小CRISPR RNA)的不同RNA种类的基因与第2类 cas操纵子相邻(吉林斯基(Chylinski)，2014)。tracrRNA与对应CRISPR阵列内的重复序列部分同源并且是为前crRNA的加工所必需的，该加工由一种不与CRISPR-Cas座位相关联的普遍存在的细菌酶RNA酶III 催化(德尔特切瓦(Deltcheva)，2011)(吉林斯基，2014；吉林斯基，2013)。

II型多结构域效应蛋白Cas9已在功能和结构方面以精巧详情表征。在不同细菌中，Cas9蛋白涵盖约950个与1,400个之间的氨基酸并且含有两个核酸酶结构域，即RuvC-样(RNA酶H折叠)和HNH(McrA- 样)核酸酶(马卡洛夫，2011)。Cas9的晶体结构揭示了具有不同靶向识别和核酸酶裂片的蛋白质的二裂片组构，其中后者具有RuvC和HNH结构域(西松，2014)(金科(Jinek)，2014)。每一个Cas9核酸酶结构域对于一条靶DNA链的切割是需要的(金科，2012；撒普拉那斯卡(Sapranauskas)，2011)。最近，Cas9 已显示有助于CRISPR反应的所有三个阶段，它不仅靶向DNA切割(干扰)而且靶向自适应和前-crRNA加工(金科，2012)。更确切地说，Cas9的核酸酶裂片中的不同结构域已显示在自适应阶段过程中识别并结合病毒DNA中的原型间隔区相关基序(PAM)(西松，2014)(金科，2014)(黑勒尔(Heler)，2015；魏， 2015)。在CRISPR反应的此阶段，Cas9与涉及所有CRISPR-Cas系统中的间隔区获取的两种蛋白质Cas1和 Cas2形成复合物(黑勒尔，2015；魏，2015)。

与tracrRNA组合的Cas9蛋白最近已成为用于新生成的基因编辑和工程化方法的关键性工具 (加西乌纳斯，2013；马里，2013；桑普森，2014；丛，2015)。Cas9在基因组编辑中的此效用取决于以下事实，在II型CRISPR-Cas系统中，与其他类型的CRISPR-Cas系统不同，对于靶DNA识别和切割所需要的所有活性在单一、尽管较大的多结构域蛋白质中组装。II型系统的此特征极大地促进用于基因组操纵的有效工具的设计。重要的是，并非所有的Cas9变体都是相等的。迄今为止大部分工作已使用来自酿脓链球菌的Cas9来完成，但是其他Cas9种类可以提供实质性优点。作为适当的例子，使用来自金黄色葡萄球菌的、比化脓链球菌蛋白质短约300个氨基酸的Cas9的最近实验已允许将Cas9包装到腺相关病毒载体中，从而引起用于体内基因组编辑的CRISPR-Cas效用的主要增强(拉恩，2015)。

II型CRISPR-Cas系统目前被分成3种亚型(II-A、II-B和II-C)(马卡洛夫，2011)(方法拉 (Fonfara)，2014；吉林斯基，2013；吉林斯基，2014)。除所有II型座位所共享的cas1、cas2和cas9基因之外，II-A亚型的特征是编码灭活ATP酶的额外基因csn2(纳姆(Nam)，2011；古(Koo)，2012；李，2012)，该ATP酶在间隔区获取中起到很少的表征作用(巴兰冈(Barrangou)，2007；阿尔斯兰(Arslan)，2013) (黑勒尔，2015)。II-B亚型系统缺乏csn2但是反而含有另外具有I型系统典型特征并且编码recB家族5’-3’ 外切核酸酶的cas4基因，该外切核酸酶有助于通过生成重组基因座(recombinogeneci)DNA末端进行间隔区获取(张，2012)(莱马克(Lemak)，2013；莱马克，2014)。II-B亚型的cas1和cas2基因与提示此II型亚型的重组起源的I型CRISPR-Cas系统的对应蛋白质最密切相关(吉林斯基，2014)。

II-C亚型CRISPR-Cas系统是仅由cas1、cas2和cas9基因组成的最少种类(吉林斯基，2013；库尼恩，2013；吉林斯基，2014)。然而，值得注意地是，已显示在空肠弯曲菌中，通过II-C系统进行间隔区获取需要由噬菌体编码的Cas4的参与(胡顿(Hooton)，2014)。II-C亚型的另一种不同特征是通过转录形成一些crRNA，该转录涉及由内部替代性启动子进行的转录，与所有其他实验表征的CRISPR-Cas系统中观察到的加工相反(张，2013)。

最近，V型CRISPR-Cas系统的存在已通过细菌基因组的比较性分析来预测到。这些推定的新型CRISPR-Cas系统在几种细菌基因组中表现出来，特别是来自弗朗西丝菌属和一种古细菌alvus甲烷嗜甲基菌(Methanomethylophilus alvus)的那些细菌基因组(韦斯特高(Vestergaard)，2014)。所有推定的V型座位涵盖cas1、cas2、表示为cpf1的不同基因以及CRISPR阵列(舒德尔(Schunder)，2013)(马卡洛夫，2015)。 Cpf1是一种大蛋白质(约1300个氨基酸)，它含有与Cas9的相应结构域同源的RuvC样核酸酶结构域以及Cas9 的特征性富精氨酸簇的对应物。然而，Cpf1缺乏所有Cas9蛋白中存在的HNH核酸酶结构域，并且RuvC样结构域在Cpf1序列中是连续的，这与其中含有包含HNH结构域的长插入物的Cas9相反(吉林斯基，2014；马卡洛夫，2015)。在Cas9和Cpf1的结构域体系结构中的这些主要差异表明含有Cpf1的系统应被分成一个新型。推定的V型系统的组成提示Cpf1是一种单一亚基效应子复合物并且因此这些系统被分配给第2类 CRISPR-Cas。一些推定的V型座位编码Cas4并且因此类似于II-B亚型座位，而其他座位缺乏Cas4并且因此类似于II-C亚型。

已显示Cas9和Cpf1蛋白质的最近同源物是在IS605家族易位子中编码的并且含有RuvC-样核酸酶结构域以及在Cpf1中具有对应物的Zn-指的TnpB蛋白质。此外，已鉴定含有插入到RuvC-样结构域的HNH 结构域并且显示与Cas9的高序列相似性的TnpB同源物。TnpB在易位子中的作用仍不确定，因为已显示此蛋白质并不是易位所需要的。

考虑到Cas9和Cpf1与易位子编码的蛋白质的同源性，申请人假设第2类CRISPR-Cas系统已在多种情景中因为易位子与cas1-cas2座位之间的重组而进化。因此，申请人设计了一种鉴定可以是第2类新型变体的候选物的基因组座位的简单计算策略。在此申请人描述了此方法用于鉴定此类候选物的两个组别的第一种应用，这两个组别之一似乎是V型的不同亚型而第二个组别似乎具有VI型的品质。第2类CRISPR-Cas 系统的新变体作为用于基因组编辑和表达调节的潜在工具受到明显的关注。

用于检测候选的新型第2类CRISPR-Cas座位的数据库搜索策略。申请人实施了一种鉴定候选的新型第2类CRISPR-Cas系统的直接计算方法(图7.流程)。因为绝大多数CRISPR-Cas座位涵盖cas1基因(马卡洛夫，2011；马卡洛夫，2015)并且Cas1序列是所有Cas蛋白质中最高度保守的一种序列(健内，2012)，申请人推断cas1是使用利用Cas1谱图进行的翻译PSI-BLAST搜索鉴定候选的新座位的最可能的锚点。在检测编码Cas1的所有叠连群之后，使用GenemarkS预测cas1基因上游和下游的20KB区域内的蛋白质编码基因。使用NCBI CDD和Cas蛋白特异性谱图标注这些预测的基因，并且使用PILER-CR程序预测CRISPR阵列。此程序提供了检测的CRISPR-Cas座位到已知亚基的分配。选择含有大(>500aa)蛋白质的未分类的候选 CRISPR-Cas座位作为新型第2类系统的候选物，假定此类蛋白质特征性存在于在II型和V型中(分别是Cas9 和Cpf1)。根据具体情况使用PSI-BLAST和HHpred分析用此标准检测的所有34个候选座位。在候选座位中编码的蛋白质序列进一步用作搜索另外的同源物的宏基因组学数据库的查询，并且如上所指示地分析这些搜索中检测的长叠连群。此分析流程产生牢固连接至CRISPR-Cas系统的两组座位。

推定的V-B型系统。第一组候选座位暂时指示命名为C2c1(第2类候选物1)，它在来自四种主要门，包括杆菌门、疣微菌门、α变形菌门以及δ变形菌门的细菌基因组中表现出来(图8“第2类系统的完整座位的组构”)。所有C2c1座位编码了Cas1-Cas4融合物、Cas2以及申请人表示为C2c1p的大蛋白质，并且典型地与CRISPR阵列相邻(图9，C2c1邻近群体)。在Cas1的系统发育树中，对应Cas1蛋白与I-U型系统(图 10，Cas1树)成簇，该系统是其中可见Cas1-Cas4融合物的唯一系统。C2c1p蛋白由大约1200个氨基酸组成，并且HHpred搜索检测了此蛋白质的C末端部分与IS605家族的易位子中编码的TnpB蛋白子集之间的显著相似性。相反，在和其他组的TnpB蛋白质类似的C2c1p与Cas9或Cpf1之间未检测到显著相似性(吉林斯基， 2014)(马卡洛夫，2015；马卡洛夫，2015)。因此，C2c1p的结构域体系结构类似于Cpf1的结构域体系结构并且不同于Cas9的结构域体系结构，尽管所有三种Cas蛋白似乎都是从TnpB家族进化(图11“第2类家族的结构域组构”)。C2c1p的N末端区域未显示与其他蛋白质的显著相似性。二级结构预测指示此区域主要采用α螺旋构象。与TnpB具有相似性的两个区段涵盖具有D..E..D特征的RuvC样核酸酶的三个催化基序(图12 “第2类蛋白质中的TnpB同源区”)；与Cas9蛋白中的桥螺旋(也称为富精氨酸簇)相对应的区域涉及crRNA 结合；并且似乎是TnpB的Zn指的对应物的小区域(然而，在C2C1p中替换Zn结合半胱氨酸残基，这指示此蛋白质并不结合锌)。C2c1p与Cpf1的结构域体系结构的相似性表明C2c1座位最好分类成V-B亚型，在此情况下编码Cpf1的座位变成V-A亚型。

尽管与此系统相关联的cas1基因具有相似性，但是在对应阵列中的CRISPR重复序列是高度异质的，虽然所有这些重复序列都是36-37bp长并且可以被分类成未结构化的(折叠能量ΔG是-0.5-4.5 kcal/mol，而高回文CRISPR具有低于-7的ΔG)。根据CRISPRmap(兰格(Lange)，2013)分类方案，几种 V-B亚型重复序列与II型重复序列共享一些序列相似性或结构相似性。

考虑到推定的V-B亚型CRISPR-Cas系统在机制上类似于II型系统的可能性，申请人试图鉴定对应基因组座位中的tracrRNA。

来自V-B型CRISPR阵列的间隔区与非冗余核苷酸序列数据库的比较鉴定了与不同细菌基因组的几种匹配。考虑到对于具有推定的V-B型CRISPR-Cas系统的细菌而言没有噬菌体是已知的，这些匹配的相关性难以评定。

推定的VI型系统。第二组候选CRISPR-Cas座位表示为C2c2，是在来自5种主要细菌门α变形菌门、杆菌门、梭菌纲、梭杆菌门以及拟杆菌门的基因组中鉴定的(图8“第2类系统的完整座位的组构”)。与c2c1类似的是，C2c2座位涵盖cas1和cas2基因连同大蛋白质(C2c2p)和CRISPR阵列；然而，与C2c1不同的是，C2c2p常常紧挨着CRISPR阵列而不是cas1-cas2来编码(图13，C2c2邻近群体)。在Cas1系统发育树中，来自C2c2座位的Cas1蛋白分布在两种进化枝中。第一进化枝包括来自梭菌纲的Cas1并且连同小III-A 型分支位于II型子树内(图10，Cas1树)。第二进化枝由来自纤毛菌属的C2c2座位的Cas1蛋白组成并且安置在主要含有来自III-A型CRISPR-Cas系统的Cas1蛋白的混合型分支内。使用HHpred和PSI-BLAST的数据库搜索未在C2c2p与其他蛋白质之间检测到序列相似性。然而，检查C2c2p蛋白序列的多重比对能够鉴定具有 HEPN结构域特征的两种严格保守的RxxxxH基序(阿南他拉曼(Anantharaman)，2013)。二级结构预测指示这些基序位于与HEPN结构域结构相容的结构环境内，如与C2c2p的对应部分的总体二级结构预测一样。 HEPN结构是已显示或预测具有RNA酶活性并且通常与各种防御系统相关联的小(～150aa)α螺旋结构域 (阿南他拉曼，2013)(图14，C2c2家族中的HEPN RxxxxH基序)。除催化性RxxxxH基序之外，HEPN结构域序列显示少许保守性。因此，可能出现C2c2p含有两个活性HEPN结构域。HEPN结构域对于CRISPR-Cas 系统并不是新的，因为它常常与存在于许多III型CRISPR-Cas系统中的Csm6和Csx1蛋白质的CARF(CRISPR 相关罗斯曼折叠)结构域缔合(马卡洛夫，2014)。这些蛋白质并不属于自适应模块或效应子复合物，而是似乎是存在于大部分CRISPR-Cas系统中并且涉及程序性细胞死亡以及在CRISPR反应过程中的调节功能的相关免疫模块的组分(库尼恩，2013；马卡洛夫，2012；马卡洛夫，2013)。然而，C2c2p与Csm6和Csx1 的不同之处在于除Cas1和Cas2之外，此大许多的蛋白质是C2c2座位中编码的唯一蛋白质。因此，似乎C2c2p 是这些推定的新型CRISPR-Cas系统的效应子并且HEPN结构域是其催化部分。在这些预测的HEPN结构域之外，C2c1p序列未显示与其他蛋白质的可检测相似性并且预测采用混合型α/β二级结构。

C2c2座位中的CRISPR阵列是高度异质的，其中长度是35至39bp，并且是未结构化的(折叠能量是-0.9至4.7kcal/mol)。根据CRISPRmap(兰格，2013)，这些CRISPR并不属于任何建立的结构类别并且被分配至6个超类中的3个超类。仅来自斯氏利斯特菌的CRISPR被分配至通常与II-C型系统相关联的序列家族24。

C2c2座位的间隔区分析鉴定了与来自威氏李斯特菌(Listeriaweihenstephanensis)的基因组序列和对于噬菌体基因组的两个未完成命中相同的一种30个核苷酸区域。

考虑到C2c2独特预测的效应子复合物，这些系统似乎具有作为推定的VI型CRISPR-Cas的品质。此外，考虑到所有实验表征和酶促活性的HEPN结构域是RNA酶，VI型系统可能在mRNA水平下起作用。

申请人申请一种预测新第2类CRISPR-cas系统的简单的直接计算策略。先前描述的第2类系统，即II型和推定的V型，由包括自适应模块和含有效应子模块的单一大蛋白质的cas1和cas2基因(并且在一些情况下也有cas4)组成。因此，申请人推测含有cas1和大蛋白质的任何基因组座位可以是应进行详细研究的新型第2类系统的潜在候选物。使用用于蛋白质序列比较的灵敏方法的此类分析能够鉴定两种强候选物，其中一种是先前描述的推定的V型的亚型，而另一种在新预测的效应蛋白存在强度方面具有作为一种新的推定的VI型的品质。许多这些新系统出现在未涵盖其他CRISPR-Cas座位的细菌基因组中，这说明V型和VI 型系统可以自发起作用。

与先前的分析结果组合，(吉林斯基，2014；马卡洛夫，2011)，推定的V-B型的鉴定揭示了第 2类CRISPR-Cas系统进化的主导主题。此类别的所有目前已知的系统的效应蛋白似乎从编码含有RuvC-样结构域的TnpB蛋白质的可易位元件库进化。TnpB的RuvC-样结构域和第2类效应蛋白的同源结构域的序列对于可靠的系统发育分析而言太趋异。尽管如此，但是对于II型系统的效应蛋白Cas9，特定祖蛋白(ancestor) 似乎容易鉴定，即在蓝细菌中特别丰富的TnpB样蛋白家族，该蛋白家族与Cas9显示相对高的序列相似性并且与它共享整个结构域体系结构，即RuvC样和HNH核酸酶结构域和富精氨酸桥螺旋(吉林斯基，2014)(图 11，“第2类家族的结构域组构”；图12，“第2类蛋白质中的TnpB同源区”)。与Cas9不同，它不可能将Cpf1 和C2c1追踪至特定TnpB家族；尽管位于RuvC-样核酸酶的催化残基中心的所有基序均具有保守性，但是这些蛋白质仅与TnpB属性谱图显示有限的相似性。然而，考虑到C2c1p与Cpf1未显示可检测的序列相似性，在RuvC-基序与明确不相关的N-末端区域之间含有不同插入，似乎最可能的是Cpf1和C2c1独立地来源于 TnpB编码元件库内的不同家族。

有意义的是TnpB蛋白似乎被“预先设计”用于第2类CRISPR-Cas效应子复合物，以使得它们明显在多种不同的情景中募集。可想象地，TnpB蛋白的此类效用必须使用其预测的能力来切割单链DNA 同时经由在Cas9中已显示结合crRNA的富R桥螺旋结合RNA分子(金科，2014；西松，2014)。对于TnpB 的功能了解较少。此蛋白质并不是易位所需要的，并且在一种情况中，已显示下调易位(帕斯捷尔纳克 (Pasternak)，2013)但是它们的作用机制仍未知。TnpB的实验研究可能解释了第2类CRISPR-Cas系统的机制方面。应注意Cpf1和C2c1的机制可以彼此类似但结合基本上不同于Cas9，因为前两种蛋白质缺乏在 Cas9中负责切割靶DNA链之一的HNH结构域(加西乌纳斯，2012)(金科，2012)(陈，2014)。因此，Cpf1 和C2c1的利用可以带来另外的基因组编辑可能性。

在进化方面中，引人注意的是第2类CRISPR-Cas似乎完全来源于不同的可易位元件，给出了关于来自不同易位子家族的cas1基因的可能起源的最新证据(库尼恩，2015；格鲁帕维克，2014)。此外，来自不同TnpB家族的效应蛋白的可能独立起源连同对应cas1蛋白的不同系统发育亲和性强烈提示第2类系统已在多种情景中通过不同自适应模块与产生效应蛋白的易位子来源核酸酶组合来进化。此进化模式似乎是作为CRISPR-Cas进化特征的最终的模块性表现形式(马卡洛夫，2015)，这提示自适应模块和效应子模块的另外组合可能存在于自然界中。

推定的VI型CRISPR-Cas系统涵盖了一种含有可能具有RNA酶活性的两个预测的HEPN结构域的预测的新型效应蛋白。HEPN结构不是其他CRISPR-Cas系统中的效应子复合物的部分，但是涉及许多防御功能，包括预测的在不同CRISPR-Cas系统中的辅助作用(阿南他拉曼，2013)(马卡洛夫，2015)。HEPN 结构域作为预测的效应子模块的催化部分存在提示VI型系统靶向并切割mRNA。先前，已报道了对于某些 III型CRISPR-Cas系统的mRNA靶向(黑尔(Hale)，2014；黑尔，2009)(彭(Peng)，2015)。尽管HEPN 结构域迄今为止未在真实易位元件中检测到，但是它们的特征是高横向流动并且与可动遗传因子诸如毒素抗毒素单元成整体(阿南他拉曼，2013)。因此，推定的VI型系统似乎适合第2类CRISPR-Cas来自可动部件的模块进化的一般范例，并且预期通过分析基因组和宏基因组学数据来发现另外的变体和新类型。

模块进化是CRISPR-Cas系统的关键性特征。此进化模式似乎是第2类系统中最明显的，它通过来自不同的其他CRISPR-Cas系统的自适应模块与似乎在多种独立的情景下从可动遗传因子募集的效应蛋白组合来进化。考虑到可动遗传因子在细菌中的极端多样性，似乎可能的是第2类CRISPR-Cas系统的效应子模块也是高度不同的。在此申请人采用一种描述CRISPR-Cas系统的两种新变体的简单计算方法，但是更多变体可能存在于已测序的细菌基因组中。尽管预期大部分(如果不是所有)这些新CRISPR-Cas系统是少见的，但是它们可以采用新策略和分子机制并且可以为基因组工程化和生物技术中的新应用提供主要资源。

使用TBLASTN程序，使用Cas1谱图作为查询来搜索NCBI WGS数据库。其中已鉴定Cas1命中的叠连群或全基因组部分的序列从同一数据库中检索。使用GENMARK切割并翻译Cas1基因周围的区域。针对来自CDD数据库(玛琪乐-鲍尔(Marchler-Bauer)，2009)的特征集合和在FTP处可获得的特定Cas特征搜索每种基因的预测的蛋白质，其中命中优先于Cas蛋白质。将先前开发的鉴定CRISPR座位的完整性的程序应用于每个座位。

使用CRISPRmap(兰格，2013)进行重复序列分类。

迭代性谱图用PSI-BLAST(安特斯库尔，1997)搜索并且使用基于组成的统计学和低复杂度过滤关闭(filtering turned off)搜索两个NCBI非冗余(NR)数据库的相似性较远的序列。使用TBLAST程序针对WGS搜索每种鉴定的非冗余蛋白质。使用HHpred，使用默认参数鉴定远程序列相似性(塞汀 (Soding)，2005)。使用MUSCLE(埃德加，2004)构建多重序列比对。使用Jpred 4预测蛋白质二级结构(德罗兹德斯基(Drozdetskiy)，2015)。

选择的基因候选物

基因ID：A；基因类型：C2C1；生物体：5.丰祐菌科细菌TAV5；间隔区长度-模式(范围)： 34(33至37)；DR1：GCCGCAGCGAAUGCCGUUUCACGAAUCGUCAGGCGG(SEQ ID NO:27)；DR2：无；tracrRNA1： GCUGGAGACGUUUUUUGAAACGGCGAGUGCUGCGGAUAGCGAGUUUCUCUUGGGGAGGCGCUCG CGGCCACUUUU(SEQ ID NO:28)；tracrRNA2：无；蛋白质序列： MSLNRIYQGRVAAVETGTALAKGNVEWMPAAGGDEVLWQHHELFQAAINYYLVALLALADKNNPVLGP LISQMDNPQSPYHVWGSFRRQGRQRTGLSQAVAPYITPGNNAPTLDEVFRSILAGNPTDRATLDAALMQL LKACDGAGAIQQEGRSYWPKFCDPDSTANFAGDPAMLRREQHRLLLPQVLHDPAITHDSPALGSFDTYSI ATPDTRTPQLTGPKARARLEQAITLWRVRLPESAADFDRLASSLKKIPDDDSRLNLQGYVGSSAKGEVQA RLFALLLFRHLERSSFTLGLLRSATPPPKNAETPPPAGVPLPAASAADPVRIARGKRSFVFRAFTSLPCWHG GDNIHPTWKSFDIAAFKYALTVINQIEEKTKERQKECAELETDFDYMHGRLAKIPVKYTTGEAEPPPILAN DLRIPLLRELLQNIKVDTALTDGEAVSYGLQRRTIRGFRELRRIWRGHAPAGTVFSSELKEKLAGELRQFQT DNSTTIGSVQLFNELIQNPKYWPIWQAPDVETARQWADAGFADDPLAALVQEAELQEDIDALKAPVKLTP ADPEYSRRQYDFNAVSKFGAGSRSANRHEPGQTERGHNTFTTEIAARNAADGNRWRATHVRIHYSAPRL LRDGLRRPDTDGNEALEAVPWLQPMMEALAPLPTLPQDLTGMPVFLMPDVTLSGERRILLNLPVTLEPAA LVEQLGNAGRWQNQFFGSREDPFALRWPADGAVKTAKGKTHIPWHQDRDHFTVLGVDLGTRDAGALAL LNVTAQKPAKPVHRIIGEADGRTWYASLADARMIRLPGEDARLFVRGKLVQEPYGERGRNASLLEWEDA RNIILRLGQNPDELLGADPRRHSYPEINDKLLVALRRAQARLARLQNRSWRLRDLAESDKALDEIHAERA GEKPSPLPPLARDDAIKSTDEALLSQRDIIRRSFVQIANLILPLRGRRWEWRPHVEVPDCHILAQSDPGTDD TKRLVAGQRGISHERIEQIEELRRRCQSLNRALRHKPGERPVLGRPAKGEEIADPCPALLEKINRLRDQRVD QTAHAILAAALGVRLRAPSKDRAERRHRDIHGEYERFRAPADFVVIENLSRYLSSQDRARSENTRLMQWC HRQIVQKLRQLCETYGIPVLAVPAAYSSRFSSRDGSAGFRAVHLTPDHRHRMPWSRILARLKAHEEDGKR LEKTVLDEARAVRGLFDRLDRFNAGHVPGKPWRTLLAPLPGGPVFVPLGDATPMQADLNAAINIALRGIA APDRHDIHHRLRAENKKRILSLRLGTQREKARWPGGAPAVTLSTPNNGASPEDSDALPERVSNLFVDIAGV ANFERVTIEGVSQKFATGRGLWASVKQRAWNRVARLNETVTDNNRNEEEDDIPM(SEQ ID NO:29)

基因ID：B；基因类型：C2C1；生物体：7.嗜热淀粉芽孢杆菌菌株B4166；间隔区长度-模式 (范围)：37(35-38)；DR1：GUCCAAGAAAAAAGAAAUGAUACGAGGCAUUAGCAC(SEQ ID NO:30)；DR2：无；tracrRNA1： CUGGACGAUGUCUCUUUUAUUUCUUUUUUCUUGGAUCUGAGUACGAGCACCCACAUUGGACAUU UCGCAUGGUGGGUGCUCGUACUAUAGGUAAAACAAACCUUUUU(SEQ ID NO:31)；tracrRNA2：无；蛋白质序列： MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELW DFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGR KPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDT LNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWR NHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTV QLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRD HLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIE SLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRK AREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDW VAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQ RFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFE NSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREG RLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDG QTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKG EKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM(SEQ ID NO:32)

基因ID：C；基因类型：C2C1；生物体：9.芽孢杆菌某种NSP2.1；间隔区长度-模式(范围)： 36(35-42)；DR1：GUUCGAAAGCUUAGUGGAAAGCUUCGUGGUUAGCAC(SEQ ID NO:33)；DR2：无；tracrRNA1： CACGGAUAAUCACGACUUUCCACUAAGCUUUCGAAUUUUAUGAUGCGAGCAUCCUCUCAGGUCA AAAAA(SEQ ID NO:34)；tracrRNA2：无；蛋白质序列： MAIRSIKLKLKTHTGPEAQNLRKGIWRTHRLLNEGVAYYMKMLLLFRQESTGERPKEELQEELICHIREQ QQRNQADKNTQALPLDKALEALRQLYELLVPSSVGQSGDAQIISRKFLSPLVDPNSEGGKGTSKAGAKPT WQKKKEANDPTWEQDYEKWKKRREEDPTASVITTLEEYGIRPIFPLYTNTVTDIAWLPLQSNQFVRTWD RDMLQQAIERLLSWESWNKRVQEEYAKLKEKMAQLNEQLEGGQEWISLLEQYEENRERELRENMTAAN DKYRITKRQMKGWNELYELWSTFPASASHEQYKEALKRVQQRLRGRFGDAHFFQYLMEEKNRLIWKGN PQRIHYFVARNELTKRLEEAKQSATMTLPNARKHPLWVRFDARGGNLQDYYLTAEADKPRSRRFVTFSQL IWPSESGWMEKKDVEVELALSRQFYQQVKLLKNDKGKQKIEFKDKGSGSTFNGHLGGAKLQLERGDLE KEEKNFEDGEIGSVYLNVVIDFEPLQEVKNGRVQAPYGQVLQLIRRPNEFPKVTTYKSEQLVEWIKASPQHSAGVESLASGFRVMSIDLGLRAAAATSIFSVEESSDKNAADFSYWIEGTPLVAVHQRSYMLRLPGEQVEK QVMEKRDERFQLHQRVKFQIRVLAQIMRMANKQYGDRWDELDSLKQAVEQKKSPLDQTDRTFWEGIVC DLTKVLPRNEADWEQAVVQIHRKAEEYVGKAVQAWRKRFAADERKGIAGLSMWNIEELEGLRKLLISWS RRTRNPQEVNRFERGHTSHQRLLTHIQNVKEDRLKQLSHAIVMTALGYVYDERKQEWCAEYPACQVILF ENLSQYRSNLDRSTKENSTLMKWAHRSIPKYVHMQAEPYGIQIGDVRAEYSSRFYAKTGTPGIRCKKVRG QDLQGRRFENLQKRLVNEQFLTEEQVKQLRPGDIVPDDSGELFMTLTDGSGSKEVVFLQADINAAHNLQ KRFWQRYNELFKVSCRVIVRDEEEYLVPKTKSVQAKLGKGLFVKKSDTAWKDVYVWDSQAKLKGKTTF TEESESPEQLEDFQEIIEEAEEAKGTYRTLFRDPSGVFFPESVWYPQKDFWGEVKRKLYGKLRERFLTKAR (SEQ ID NO:35)

基因ID：D；基因类型：C2C2；生物体：4.毛螺菌科细菌(Lachnospiraceaebacterium)NK4A144 G619；间隔区长度-模式(范围)：35；DR1：GUUUUGAGAAUAGCCCGACAUAGAGGGCAAUAGAC(SEQ ID NO:36)；DR2：GUUAUGAAAACAGCCCGACAUAGAGGGCAAUAGACA(SEQ ID NO:37)； tracrRNA1：无；tracrRNA2：无；蛋白质序列： MKISKVDHTRMAVAKGNQHRRDEISGILYKDPTKTGSIDFDERFKKLNCSAKILYHVFNGIAEGSNKYKNI VDKVNNNLDRVLFTGKSYDRKSIIDIDTVLRNVEKINAFDRISTEEREQIIDDLLEIQLRKGLRKGKAGLRE VLLIGAGVIVRTDKKQEIADFLEILDEDFNKTNQAKNIKLSIENQGLVVSPVSRGEERIFDVSGAQKGKSSK KAQEKEALSAFLLDYADLDKNVRFEYLRKIRRLINLYFYVKNDDVMSLTEIPAEVNLEKDFDIWRDHEQR KEENGDFVGCPDILLADRDVKKSNSKQVKIAERQLRESIREKNIKRYRFSIKTIEKDDGTYFFANKQISVF WIHRIENAVERILGSINDKKLYRLRLGYLGEKVWKDILNFLSIKYIAVGKAVFNFAMDDLQEKDRDIEPGKI SENAVNGLTSFDYEQIKADEMLQREVAVNVAFAANNLARVTVDIPQNGEKEDILLWNKSDIKKYKKNSKK GILKSILQFFGGASTWNMKMFEIAYHDQPGDYEENYLYDIIQIIYSLRNKSFHFKTYDHGDKNWNRELIGK MIEHDAERVISVEREKFHSNNLPMFYKDADLKKILDLLYSDYAGRASQVPAFNTVLVRKNFPEFLRKDMG YKVHFNNPEVENQWHSAVYYLYKEIYYNLFLRDKEVKNLFYTSLKNIRSEVSDKKQKLASDDFASRCEEIEDRSLPEICQIIMTEYNAQNFGNRKVKSQRVIEKNKDIFRHYKMLLIKTLAGAFSLYLKQERFAFIGKATPIP YETTDVKNFLPEWKSGMYASFVEEIKNNLDLQEWYIVGRFLNGRMLNQLAGSLRSYIQYAEDIERRAAE NRNKLFSKPDEKIEACKKAVRVLDLCIKISTRISAEFTDYFDSEDDYADYLEKYLKYQDDAIKELSGSSYA ALDHFCNKDDLKFDIYVNAGQKPILQRNIVMAKLFGPDNILSEVMEKVTESAIREYYDYLKKVSGYRVR GKCSTEKEQEDLLKFQRLKNAVEFRDVTEYAEVINELLGQLISWSYLRERDLLYFQLGFHYMCLKNKSFK PAEYVDIRRNNGTIIHNAILYQIVSMYINGLDFYSCDKEGKTLKPIETGKGVGSKIGQFIKYSQYLYNDPSY KLEIYNAGLEVFENIDEHDNITDLRKYVDHFKYYAYGNKMSLLDLYSEFFDRFFTYDMKYQKNVVNVLE NILLRHFVIFYPKFGSGKKDVGIRDCKKERAQIEISEQSLTSEDFMFKLDDKAGEEAKKFPARDERYLQTIA KLLYYPNEIEDMNRFMKKGETINKKVQFNRKKKITRKQKNNSSNEVLSSTMGYLFKNIKL(SEQ ID NO: 38)

基因ID：E；基因类型：C2C2；生物体：8.斯氏利斯特菌血清变型1/2bstr.SLCC3954；间隔区长度-模式(范围)：30；DR1：GUUUUAGUCCUCUUUCAUAUAGAGGUAGUCUCUUAC(SEQ ID NO:39)； DR2：无；tracrRNA1： AUGAAAAGAGGACUAAAACUGAAAGAGGACUAAAACACCAGAUGUGGAUAACUAUAUUAGUGGC UAUUAAAAAUUCGUCGAUAUUAGAGAGGAAACUUU(SEQ ID NO:40)；tracrRNA2：无；蛋白质序列： MWISIKTLIHHLGVLFFCDYMYNRREKKIIEVKTMRITKVEVDRKKVLISRDKNGGKLVYENEMQDNTE QIMHHKKSSFYKSVVNKTICRPEQKQMKKLVHGLLQENSQEKIKVSDVTKLNISNFLNHRFKKSLYYFPE NSPDKSEEYRIEINLSQLLEDSLKKQQGTFICWESFSKDMELYINWAENYISSKTKLIKKSIRNNRIQSTESR SGQLMDRYMKDILNKNKPFDIQSVSEKYQLEKLTSALKATFKEAKKNDKEINYKLKSTLQNHERQIIEEL KENSELNQFNIEIRKHLETYFPIKKTNRKVGDIRNLEIGEIQKIVNHRLKNKIVQRILQEGKLASYEIESTVN SNSLQKIKIEEAFALKFINACLFASNNLRNMVYPVCKKDILMIGEFKNSFKEIKHKKFIRQWSQFFSQEITV DDIELASWGLRGAIAPIRNEIIHLKKHSWKKFFNNPTFKVKKSKIINGKTKDVTSEFLYKETLFKDYFYSELDSVPELIINKMESSKILDYYSSDQLNQVFTIPNFELSLLTSAVPFAPSFKRVYLKGFDYQNQDEAQPDYNLK LNIYNEKAFNSEAFQAQYSLFKMVYYQVFLPQFTTNNDLFKSSVDFILTLNKERKGYAKAFQDIRKMNK DEKPSEYMSYIQSQLMLYQKKQEEKEKINHFEKFINQVFIKGFNSFIEKNRLTYICHPTKNTVPENDNIEIPF HTDMDDSNIAFWLMCKLLDAKQLSELRNEMIKFSCSLQSTEEISTFTKAREVIGLALLNGEKGCNDWKEL FDDKEAWKKNMSLYVSEELLQSLPYTQEDGQTPVINRSIDLVKKYGTETILEKLFSSSDDYKVSAKDIAKL HEYDVTEKIAQQESLHKQWIEKPGLARDSAWTKKYQNVINDISNYQWAKTKVELTQVRHLHQLTIDLLS RLAGYMSIADRDFQFSSNYILERENSEYRVTSWILLSENKNKNKYNDYELYNLKNASIKVSSKNDPQLKV DLKQLRLTLEYLELFDNRLKEKRNNISHFNYLNGQLGNSILELFDDARDVLSYDRKLKNAVSKSLKEILSS HGMEVTFKPLYQTNHHLKIDKLQPKKIHHLGEKSTVSSNQVSNEYCQLVRTLLTMK(SEQ ID NO:41)

基因ID：F；基因类型：C2C2；生物体：12.wadei纤毛菌属F0279；间隔区长度-模式(范围)： 31；DR1：GUUUUAGUCCCCUUCGUUUUUGGGGUAGUCUAAAUC(SEQ ID NO:42)；DR2：无；tracrRNA1： GAUUUAGAGCACCCCAAAAGUAAUGAAAAUUUGCAAUUAAAUAAGGAAUAUUAAAAAAAUGUGAUUUUAAAAAAAUUGAAGAAAUUAAAUGAAAAAUUGUCCAAGUAAAAAAA(SEQ ID NO:43)； tracrRNA2：AUUUAGAUUACCCCUUUAAUUUAUUUUACCAUAUUUUUCUCAUAAUGCAAACUAAUAUUCCAAA AUUUUU(SEQID NO:44)；蛋白质序列： MGNLFGHKRWYEVRDKKDFKIKRKVKVKRNYDGNKYILNINENNNKEKIDNNKFIRKYINYKKNDNIL KEFTRKFHAGNILFKLKGKEGIIRIENNDDFLETEEVVLYIEAYGKSEKLKALGITKKKIIDEAIRQGITKDD KKIEIKRQENEEEIEIDIRDEYTNKTLNDCSIILRIIENDELETKKSIYEIFKNINMSLYKIIEKIIENETEKVFEN RYYEEHLREKLLKDDKIDVILTNFMEIREKIKSNLEILGFVKFYLNVGGDKKKSKNKKMLVEKILNINVDL TVEDIADFVIKELEFWNITKRIEKVKKVNNEFLEKRRNRTYIKSYVLLDKHEKFKIERENKKDKIVKFFVE NIKNNSIKEKIEKILAEFKIDELIKKLEKELKKGNCDTEIFGIFKKHYKVNFDSKKFSKKSDEEKELYKIIYR YLKGRIEKILVNEQKVRLKKMEKIEIEKILNESILSEKILKRVKQYTLEHIMYLGKLRHNDIDMTTVNTDDFSRLHAKEELDLELITFFASTNMELNKIFSRENINNDENIDFFGGDREKNYVLDKKILNSKIKIIRDLDFIDNK NNITNNFIRKFTKIGTNERNRILHAISKERDLQGTQDDYNKVINIIQNLKISDEEVSKALNLDVVFKDKKNII TKINDIKISEENNNDIKYLPSFSKVLPEILNLYRNNPKNEPFDTIETEKIVLNALIYVNKELYKKLILEDDLEE NESKNIFLQELKKTLGNIDEIDENIIENYYKNAQISASKGNNKAIKKYQKKVIECYIGYLRKNYEELFDFSD FKMNIQEIKKQIKDINDNKTYERITVKTSDKTIVINDDFEYIISIFALLNSNAVINKIRNRFFATSVWLNTSEY QNIIDILDEIMQLNTLRNECITENWNLNLEEFIQKMKEIEKDFDDFKIQTKKEIFNNYYEDIKNNILTEFKDD INGCDVLEKKLEKIVIFDDETKFEIDKKSNILQDEQRKLSNINKKDLKKKVDQYIKDKDQEIKSKILCRIIFN SDFLKKYKKEIDNLIEDMESENENKFQEIYYPKERKNELYIYKKNLFLNIGNPNFDKIYGLISNDIKMADA KFLFNIDGKNIRKNKISEIDAILKNLNDKLNGYSKEYKEKYIKKLKENDDFFAKNIQNKNYKSFEKDYNRV SEYKKIRDLVEFNYLNKIESYLIDINWKLAIQMARFERDMHYIVNGLRELGIIKLSGYNTGISRAYPKRNGS DGFYTTTAYYKFFDEESYKKFEKICYGFGIDLSENSEINKPENESIRNYISHFYIVRNPFADYSIAEQIDRVSN LLSYSTRYNNSTYASVFEVFKKDVNLDYDELKKKFKLIGNNDILERLMKPKKVSVLELESYNSDYIKNLII ELLTKIENTNDTL(SEQ ID NO:45)

基因ID：G；基因类型：C2C2；生物体：14.shahii纤毛菌属DSM 19757B031；间隔区长度- 模式(范围)：30(30-32)；DR1：GUUUUAGUCCCCUUCGAUAUUGGGGUGGUCUAUAUC(SEQ ID NO:46)；DR2：无；tracrRNA1： AUUGAUGUGGUAUACUAAAAAUGGAAAAUUGUAUUUUUGAUUAGAAAGAUGUAAAAUUGAUUU AAUUUAAAAAUAUUUUAUUAGAUUAAAGUAGA(SEQ ID NO:47)；tracrRNA2：无；蛋白质序列： MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISE DLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLK QSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKA KYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGK FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQI AAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLD NPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISI KYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELAN IVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDK AIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIE DCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQ IYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNP KKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEY NAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMG KQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAK GKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSV LNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEG KKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:48)

基因ID：H；基因类型：Cpf1；生物体：土拉热弗朗西丝菌新杀手亚种U112间隔区长度-模式 (范围)：31；DR1：GUCUAAGAACUUUAAAUAAUUUCUACUGUUGUAGAU(SEQ ID NO:49)；DR2：无；tracrRNA1： AUCUACAAAAUUAUAAACUAAAUAAAGAUUCUUAUAAUAACUUUAUAUAUAAUCGAAAUGUAGA GAAUUUU(SEQ ID NO:50)；tracrRNA2：无；蛋白质序列： MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISE DLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLK QSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKA KYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGK FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQI AAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLD NPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISI KYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELAN IVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDK AIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIE DCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQ IYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNP KKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEY NAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMG KQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAK GKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSV LNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEG KKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:51)

用于合成的基因

对于基因A至H，优化以进行人类表达并且将以下DNA序列附加到每个基因末端。注意此DNA 序列含有终止密码子(已加下划线)，因此不用将任何终止密码子添加到密码子优化的基因序列：

AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGggatccTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAA (SEQID NO:52)

对于优化，避免以下限制性位点：BamHI、EcoRI、HindIII、BsmBI、BsaI、BbsI、AgeI、XhoI、 NdeI、NotI、KpnI、BsrGI、SpeI、XbaI、NheI

将这些基因克隆到简单的哺乳动物表达载体中：

>A

MSLNRIYQGRVAAVETGTALAKGNVEWMPAAGGDEVLWQHHELFQAAINYYLVALLALADKNNPVLGPLISQMDNPQSPYHVWGSFRRQGRQRTGLSQAVAPYITPGNNAPTLDEVFRSILAGNPTDRATLDAALMQL LKACDGAGAIQQEGRSYWPKFCDPDSTANFAGDPAMLRREQHRLLLPQVLHDPAITHDSPALGSFDTYSI ATPDTRTPQLTGPKARARLEQAITLWRVRLPESAADFDRLASSLKKIPDDDSRLNLQGYVGSSAKGEVQA RLFALLLFRHLERSSFTLGLLRSATPPPKNAETPPPAGVPLPAASAADPVRIARGKRSFVFRAFTSLPCWHG GDNIHPTWKSFDIAAFKYALTVINQIEEKTKERQKECAELETDFDYMHGRLAKIPVKYTTGEAEPPPILAN DLRIPLLRELLQNIKVDTALTDGEAVSYGLQRRTIRGFRELRRIWRGHAPAGTVFSSELKEKLAGELRQFQT DNSTTIGSVQLFNELIQNPKYWPIWQAPDVETARQWADAGFADDPLAALVQEAELQEDIDALKAPVKLTP ADPEYSRRQYDFNAVSKFGAGSRSANRHEPGQTERGHNTFTTEIAARNAADGNRWRATHVRIHYSAPRL LRDGLRRPDTDGNEALEAVPWLQPMMEALAPLPTLPQDLTGMPVFLMPDVTLSGERRILLNLPVTLEPAA LVEQLGNAGRWQNQFFGSREDPFALRWPADGAVKTAKGKTHIPWHQDRDHFTVLGVDLGTRDAGALAL LNVTAQKPAKPVHRIIGEADGRTWYASLADARMIRLPGEDARLFVRGKLVQEPYGERGRNASLLEWEDA RNIILRLGQNPDELLGADPRRHSYPEINDKLLVALRRAQARLARLQNRSWRLRDLAESDKALDEIHAERA GEKPSPLPPLARDDAIKSTDEALLSQRDIIRRSFVQIANLILPLRGRRWEWRPHVEVPDCHILAQSDPGTDD TKRLVAGQRGISHERIEQIEELRRRCQSLNRALRHKPGERPVLGRPAKGEEIADPCPALLEKINRLRDQRVD QTAHAILAAALGVRLRAPSKDRAERRHRDIHGEYERFRAPADFVVIENLSRYLSSQDRARSENTRLMQWC HRQIVQKLRQLCETYGIPVLAVPAAYSSRFSSRDGSAGFRAVHLTPDHRHRMPWSRILARLKAHEEDGKRLEKTVLDEARAVRGLFDRLDRFNAGHVPGKPWRTLLAPLPGGPVFVPLGDATPMQADLNAAINIALRGIA APDRHDIHHRLRAENKKRILSLRLGTQREKARWPGGAPAVTLSTPNNGASPEDSDALPERVSNLFVDIAGV ANFERVTIEGVSQKFATGRGLWASVKQRAWNRVARLNETVTDNNRNEEEDDIPM(SEQ ID NO:53)

>B

MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQ AELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTA SSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKS RNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQL LRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKEN HFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLK KKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARV QFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKL KSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSRE VLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPY KDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRL EPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEER SRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNL QREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAY QVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLAS ELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM(SEQ IDNO:54)

>C

MAIRSIKLKLKTHTGPEAQNLRKGIWRTHRLLNEGVAYYMKMLLLFRQESTGERPKEELQEELICH IREQQQRNQADKNTQALPLDKALEALRQLYELLVPSSVGQSGDAQIISRKFLSPLVDPNSEGGKGTSKAG AKPTWQKKKEANDPTWEQDYEKWKKRREEDPTASVITTLEEYGIRPIFPLYTNTVTDIAWLPLQSNQFVR TWDRDMLQQAIERLLSWESWNKRVQEEYAKLKEKMAQLNEQLEGGQEWISLLEQYEENRERELRENMT AANDKYRITKRQMKGWNELYELWSTFPASASHEQYKEALKRVQQRLRGRFGDAHFFQYLMEEKNRLIW KGNPQRIHYFVARNELTKRLEEAKQSATMTLPNARKHPLWVRFDARGGNLQDYYLTAEADKPRSRRFVT FSQLIWPSESGWMEKKDVEVELALSRQFYQQVKLLKNDKGKQKIEFKDKGSGSTFNGHLGGAKLQLER GDLEKEEKNFEDGEIGSVYLNVVIDFEPLQEVKNGRVQAPYGQVLQLIRRPNEFPKVTTYKSEQLVEWIK ASPQHSAGVESLASGFRVMSIDLGLRAAAATSIFSVEESSDKNAADFSYWIEGTPLVAVHQRSYMLRLPGE QVEKQVMEKRDERFQLHQRVKFQIRVLAQIMRMANKQYGDRWDELDSLKQAVEQKKSPLDQTDRTFW EGIVCDLTKVLPRNEADWEQAVVQIHRKAEEYVGKAVQAWRKRFAADERKGIAGLSMWNIEELEGLRK LLISWSRRTRNPQEVNRFERGHTSHQRLLTHIQNVKEDRLKQLSHAIVMTALGYVYDERKQEWCAEYPA CQVILFENLSQYRSNLDRSTKENSTLMKWAHRSIPKYVHMQAEPYGIQIGDVRAEYSSRFYAKTGTPGIR CKKVRGQDLQGRRFENLQKRLVNEQFLTEEQVKQLRPGDIVPDDSGELFMTLTDGSGSKEVVFLQADIN AAHNLQKRFWQRYNELFKVSCRVIVRDEEEYLVPKTKSVQAKLGKGLFVKKSDTAWKDVYVWDSQAK LKGKTTFTEESESPEQLEDFQEIIEEAEEAKGTYRTLFRDPSGVFFPESVWYPQKDFWGEVKRKLYGKLRE RFLTKAR(SEQ IDNO:55)

>D

MKISKVDHTRMAVAKGNQHRRDEISGILYKDPTKTGSIDFDERFKKLNCSAKILYHVFNGIAEGSN KYKNIVDKVNNNLDRVLFTGKSYDRKSIIDIDTVLRNVEKINAFDRISTEEREQIIDDLLEIQLRKGLRKGK AGLREVLLIGAGVIVRTDKKQEIADFLEILDEDFNKTNQAKNIKLSIENQGLVVSPVSRGEERIFDVSGAQK GKSSKKAQEKEALSAFLLDYADLDKNVRFEYLRKIRRLINLYFYVKNDDVMSLTEIPAEVNLEKDFDIWR DHEQRKEENGDFVGCPDILLADRDVKKSNSKQVKIAERQLRESIREKNIKRYRFSIKTIEKDDGTYFFANK QISVFWIHRIENAVERILGSINDKKLYRLRLGYLGEKVWKDILNFLSIKYIAVGKAVFNFAMDDLQEKDRDI EPGKISENAVNGLTSFDYEQIKADEMLQREVAVNVAFAANNLARVTVDIPQNGEKEDILLWNKSDIKKYK KNSKKGILKSILQFFGGASTWNMKMFEIAYHDQPGDYEENYLYDIIQIIYSLRNKSFHFKTYDHGDKNWN RELIGKMIEHDAERVISVEREKFHSNNLPMFYKDADLKKILDLLYSDYAGRASQVPAFNTVLVRKNFPEFL RKDMGYKVHFNNPEVENQWHSAVYYLYKEIYYNLFLRDKEVKNLFYTSLKNIRSEVSDKKQKLASDDF ASRCEEIEDRSLPEICQIIMTEYNAQNFGNRKVKSQRVIEKNKDIFRHYKMLLIKTLAGAFSLYLKQERFAF IGKATPIPYETTDVKNFLPEWKSGMYASFVEEIKNNLDLQEWYIVGRFLNGRMLNQLAGSLRSYIQYAEDI ERRAAENRNKLFSKPDEKIEACKKAVRVLDLCIKISTRISAEFTDYFDSEDDYADYLEKYLKYQDDAIKEL SGSSYAALDHFCNKDDLKFDIYVNAGQKPILQRNIVMAKLFGPDNILSEVMEKVTESAIREYYDYLKKVS GYRVRGKCSTEKEQEDLLKFQRLKNAVEFRDVTEYAEVINELLGQLISWSYLRERDLLYFQLGFHYMCLK NKSFKPAEYVDIRRNNGTIIHNAILYQIVSMYINGLDFYSCDKEGKTLKPIETGKGVGSKIGQFIKYSQYLY NDPSYKLEIYNAGLEVFENIDEHDNITDLRKYVDHFKYYAYGNKMSLLDLYSEFFDRFFTYDMKYQKNV VNVLENILLRHFVIFYPKFGSGKKDVGIRDCKKERAQIEISEQSLTSEDFMFKLDDKAGEEAKKFPARDERYLQTIAKLLYYPNEIEDMNRFMKKGETINKKVQFNRKKKITRKQKNNSSNEVLSSTMGYLFKNIKL(SEQ ID NO:56)

>E

MWISIKTLIHHLGVLFFCDYMYNRREKKIIEVKTMRITKVEVDRKKVLISRDKNGGKLVYENEMQ DNTEQIMHHKKSSFYKSVVNKTICRPEQKQMKKLVHGLLQENSQEKIKVSDVTKLNISNFLNHRFKKSLY YFPENSPDKSEEYRIEINLSQLLEDSLKKQQGTFICWESFSKDMELYINWAENYISSKTKLIKKSIRNNRIQS TESRSGQLMDRYMKDILNKNKPFDIQSVSEKYQLEKLTSALKATFKEAKKNDKEINYKLKSTLQNHERQII EELKENSELNQFNIEIRKHLETYFPIKKTNRKVGDIRNLEIGEIQKIVNHRLKNKIVQRILQEGKLASYEIES TVNSNSLQKIKIEEAFALKFINACLFASNNLRNMVYPVCKKDILMIGEFKNSFKEIKHKKFIRQWSQFFSQE ITVDDIELASWGLRGAIAPIRNEIIHLKKHSWKKFFNNPTFKVKKSKIINGKTKDVTSEFLYKETLFKDYFY SELDSVPELIINKMESSKILDYYSSDQLNQVFTIPNFELSLLTSAVPFAPSFKRVYLKGFDYQNQDEAQPDY NLKLNIYNEKAFNSEAFQAQYSLFKMVYYQVFLPQFTTNNDLFKSSVDFILTLNKERKGYAKAFQDIRKM NKDEKPSEYMSYIQSQLMLYQKKQEEKEKINHFEKFINQVFIKGFNSFIEKNRLTYICHPTKNTVPENDNIE IPFHTDMDDSNIAFWLMCKLLDAKQLSELRNEMIKFSCSLQSTEEISTFTKAREVIGLALLNGEKGCNDW KELFDDKEAWKKNMSLYVSEELLQSLPYTQEDGQTPVINRSIDLVKKYGTETILEKLFSSSDDYKVSAKDI AKLHEYDVTEKIAQQESLHKQWIEKPGLARDSAWTKKYQNVINDISNYQWAKTKVELTQVRHLHQLTID LLSRLAGYMSIADRDFQFSSNYILERENSEYRVTSWILLSENKNKNKYNDYELYNLKNASIKVSSKNDPQL KVDLKQLRLTLEYLELFDNRLKEKRNNISHFNYLNGQLGNSILELFDDARDVLSYDRKLKNAVSKSLKEI LSSHGMEVTFKPLYQTNHHLKIDKLQPKKIHHLGEKSTVSSNQVSNEYCQLVRTLLTMK(SEQ ID NO:57)

>F

MKVTKVDGISHKKYIEEGKLVKSTSEENRTSERLSELLSIRLDIYIKNPDNASEEENRIRRENLKKFFSNKVLHLKDSVLYLKNRKEKNAVQDKNYSEEDISEYDLKNKNSFSVLKKILLNEDVNSEELEIFRKDVEA KLNKINSLKYSFEENKANYQKINENNVEKVGGKSKRNIIYDYYRESAKRNDYINNVQEAFDKLYKKEDIE KLFFLIENSKKHEKYKIREYYHKIIGRKNDKENFAKIIYEEIQNVNNIKELIEKIPDMSELKKSQVFYKYYL DKEELNDKNIKYAFCHFVEIEMSQLLKNYVYKRLSNISNDKIKRIFEYQNLKKLIENKLLNKLDTYVRNC GKYNYYLQVGEIATSDFIARNRQNEAFLRNIIGVSSVAYFSLRNILETENENDITGRMRGKTVKNNKGEEK YVSGEVDKIYNENKQNEVKENLKMFYSYDFNMDNKNEIEDFFANIDEAISSIRHGIVHFNLELEGKDIFAF KNIAPSEISKKMFQNEINEKKLKLKIFKQLNSANVFNYYEKDVIIKYLKNTKFNFVNKNIPFVPSFTKLYNK IEDLRNTLKFFWSVPKDKEEKDAQIYLLKNIYYGEFLNKFVKNSKVFFKITNEVIKINKQRNQKTGHYKY QKFENIEKTVPVEYLAIIQSREMINNQDKEEKNTYIDFIQQIFLKGFIDYLNKNNLKYIESNNNNDNNDIFS KIKIKKDNKEKYDKILKNYEKHNRNKEIPHEINEFVREIKLGKILKYTENLNMFYLILKLLNHKELTNLKG SLEKYQSANKEETFSDELELINLLNLDNNRVTEDFELEANEIGKFLDFNENKIKDRKELKKFDTNKIYFDG ENIIKHRAFYNIKKYGMLNLLEKIADKAKYKISLKELKEYSNKKNEIEKNYTMQQNLHRKYARPKKDEKF NDEDYKEYEKAIGNIQKYTHLKNKVEFNELNLLQGLLLKILHRLVGYTSIWERDLRFRLKGEFPENHYIEE IFNFDNSKNVKYKSGQIVEKYINFYKELYKDNVEKRSIYSDKKVKKLKQEKKDLYIRNYIAHFNYIPHAEI SLLEVLENLRKLLSYDRKLKNAIMKSIVDILKEYGFVATFKIGADKKIEIQTLESEKIVHLKNLKKKKLMT DRNSEELCELVKVMFEYKALE(SEQ ID NO:58)

>G

MGNLFGHKRWYEVRDKKDFKIKRKVKVKRNYDGNKYILNINENNNKEKIDNNKFIRKYINYKKN DNILKEFTRKFHAGNILFKLKGKEGIIRIENNDDFLETEEVVLYIEAYGKSEKLKALGITKKKIIDEAIRQGIT KDDKKIEIKRQENEEEIEIDIRDEYTNKTLNDCSIILRIIENDELETKKSIYEIFKNINMSLYKIIEKIIENETEK VFENRYYEEHLREKLLKDDKIDVILTNFMEIREKIKSNLEILGFVKFYLNVGGDKKKSKNKKMLVEKILNI NVDLTVEDIADFVIKELEFWNITKRIEKVKKVNNEFLEKRRNRTYIKSYVLLDKHEKFKIERENKKDKIVK FFVENIKNNSIKEKIEKILAEFKIDELIKKLEKELKKGNCDTEIFGIFKKHYKVNFDSKKFSKKSDEEKELYK IIYRYLKGRIEKILVNEQKVRLKKMEKIEIEKILNESILSEKILKRVKQYTLEHIMYLGKLRHNDIDMTTVNT DDFSRLHAKEELDLELITFFASTNMELNKIFSRENINNDENIDFFGGDREKNYVLDKKILNSKIKIIRDLDFI DNKNNITNNFIRKFTKIGTNERNRILHAISKERDLQGTQDDYNKVINIIQNLKISDEEVSKALNLDVVFKDK KNIITKINDIKISEENNNDIKYLPSFSKVLPEILNLYRNNPKNEPFDTIETEKIVLNALIYVNKELYKKLILED DLEENESKNIFLQELKKTLGNIDEIDENIIENYYKNAQISASKGNNKAIKKYQKKVIECYIGYLRKNYEELF DFSDFKMNIQEIKKQIKDINDNKTYERITVKTSDKTIVINDDFEYIISIFALLNSNAVINKIRNRFFATSVWLN TSEYQNIIDILDEIMQLNTLRNECITENWNLNLEEFIQKMKEIEKDFDDFKIQTKKEIFNNYYEDIKNNILTE FKDDINGCDVLEKKLEKIVIFDDETKFEIDKKSNILQDEQRKLSNINKKDLKKKVDQYIKDKDQEIKSKILC RIIFNSDFLKKYKKEIDNLIEDMESENENKFQEIYYPKERKNELYIYKKNLFLNIGNPNFDKIYGLISNDIKM ADAKFLFNIDGKNIRKNKISEIDAILKNLNDKLNGYSKEYKEKYIKKLKENDDFFAKNIQNKNYKSFEKD YNRVSEYKKIRDLVEFNYLNKIESYLIDINWKLAIQMARFERDMHYIVNGLRELGIIKLSGYNTGISRAYPK RNGSDGFYTTTAYYKFFDEESYKKFEKICYGFGIDLSENSEINKPENESIRNYISHFYIVRNPFADYSIAEQID RVSNLLSYSTRYNNSTYASVFEVFKKDVNLDYDELKKKFKLIGNNDILERLMKPKKVSVLELESYNSDYI KNLIIELLTKIENTNDTL(SEQ ID NO:59)

>H

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLI LWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFL ENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTI IGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSF YEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAP KNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNL AQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYF ELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKI FDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFE FNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKN KDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAY YTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAK LVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETF KKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGD KAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFA KLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIK NNQEGKKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:60)

对于A-座位至G-座位，将这些基因克隆并插入到低拷贝质粒中。使用不含有Amp抗性的载体。

>A-座位

TATCCGGTCGAATCGAGAATGACGACCGCTACGTCTTGGACTACGAAGCCGTGGCCCTTGCCG ATGCTCTCGGTGTGGATGTTGCCGACCTGTTCCGCAAGATCGATTGCCCCAAGAACCTGCTGCGCAGG CGGGCAGGGTAGGGGAGCGGTTTCCGGCGGAGATTTTCGGAGGCGCCGGTAACGTTATGTCGGGGAA TTTGCTATACATCGACGATAATTAGTTTTGTTGATTCAGGATCGAAATGCGCTCAAACAAAGAACGTTC CGCGTTTCCCTCATGCGCTACTACGCCCACACCGCCATCTTTCGGCACGCAAACAAAGCAGATGGGTT GCCTGTCAATGGGTGATCATTGCCTGAAGTTACCATCCATCAATAATATAAATCATCCTTACTCCGAATG TCCCTCAATCGCATCTATCAAGGCCGCGTGGCGGCCGTCGAAACAGGAACGGCCTTAGCGAAAGGTA ATGTCGAATGGATGCCTGCCGCAGGAGGCGACGAAGTTCTCTGGCAGCACCACGAACTTTTCCAAGC TGCCATCAACTACTATCTCGTCGCCCTGCTCGCACTCGCCGACAAAAACAATCCCGTACTTGGCCCGC TGATCAGCCAGATGGATAATCCCCAAAGCCCTTACCATGTCTGGGGAAGTTTCCGCCGCCAAGGACGT CAGCGCACAGGTCTCAGTCAAGCCGTTGCACCTTATATCACGCCGGGCAATAACGCTCCCACCCTTGACGAAGTTTTCCGCTCCATTCTTGCGGGCAACCCAACCGACCGCGCAACTTTGGACGCTGCACTCATGC AATTGCTCAAGGCTTGTGACGGCGCGGGCGCTATCCAGCAGGAAGGTCGTTCCTACTGGCCCAAATT CTGCGATCCTGACTCCACTGCCAACTTCGCGGGAGATCCGGCCATGCTCCGGCGTGAACAACACCGC CTCCTCCTTCCGCAAGTTCTCCACGATCCGGCGATTACTCACGACAGTCCTGCCCTTGGCTCGTTCGA CACTTATTCGATTGCTACCCCCGACACCAGAACTCCTCAACTCACCGGCCCCAAGGCACGCGCCCGTC TTGAGCAGGCGATCACCCTCTGGCGCGTCCGTCTTCCCGAATCGGCTGCTGACTTCGATCGCCTTGCC AGTTCCCTCAAAAAAATTCCGGACGACGATTCTCGCCTTAACCTTCAGGGCTACGTCGGCAGCAGTG CGAAAGGCGAAGTTCAGGCCCGTCTTTTCGCCCTTCTGCTATTCCGTCACCTGGAGCGTTCCTCCTTT ACGCTTGGCCTTCTCCGTTCCGCCACCCCGCCGCCCAAGAACGCTGAAACACCTCCTCCCGCCGGCG TTCCTTTACCTGCGGCGTCCGCAGCCGATCCGGTGCGGATAGCCCGTGGCAAACGCAGTTTTGTTTTTCGCGCATTCACCAGTCTCCCCTGCTGGCATGGCGGTGATAACATCCATCCCACCTGGAAGTCATTCGA CATCGCAGCGTTCAAATATGCCCTCACGGTCATCAACCAGATCGAGGAAAAGACGAAAGAACGCCAA AAAGAATGTGCGGAACTTGAAACTGATTTCGACTACATGCACGGACGGCTCGCCAAGATTCCGGTAA AATACACGACCGGCGAAGCCGAACCGCCCCCCATTCTCGCAAACGATCTCCGCATCCCCCTCCTCCGC GAACTTCTCCAGAATATCAAGGTCGACACCGCACTCACCGATGGCGAAGCCGTCTCCTATGGTCTCCA ACGCCGCACCATTCGCGGTTTCCGCGAGCTGCGCCGCATCTGGCGCGGCCATGCCCCCGCTGGCACG GTCTTTTCCAGCGAGTTGAAAGAAAAACTAGCCGGCGAACTCCGCCAGTTCCAGACCGACAACTCCA CCACCATCGGCAGCGTCCAACTCTTCAACGAACTCATCCAAAACCCGAAATACTGGCCCATCTGGCA GGCTCCTGACGTCGAAACCGCCCGCCAATGGGCCGATGCCGGTTTTGCCGACGATCCGCTCGCCGCC CTTGTGCAAGAAGCCGAACTCCAGGAAGACATCGACGCCCTCAAGGCTCCAGTCAAACTCACTCCG GCCGATCCTGAGTATTCAAGAAGGCAATACGATTTCAATGCCGTCAGCAAATTCGGGGCCGGCTCCCG CTCCGCCAATCGCCACGAACCCGGGCAGACGGAGCGCGGCCACAACACCTTTACCACCGAAATCGCC GCCCGTAACGCGGCGGACGGGAACCGCTGGCGGGCAACCCACGTCCGCATCCATTACTCCGCTCCCC GCCTTCTTCGTGACGGACTCCGCCGACCTGACACCGACGGCAACGAAGCCCTGGAAGCCGTCCCTTG GCTCCAGCCCATGATGGAAGCCCTCGCCCCTCTCCCGACGCTTCCGCAAGACCTCACAGGCATGCCG GTCTTCCTCATGCCCGACGTCACCCTTTCCGGTGAGCGTCGCATCCTCCTCAATCTTCCTGTCACCCTC GAACCAGCCGCTCTTGTCGAACAACTGGGCAACGCCGGTCGCTGGCAAAACCAGTTCTTCGGCTCCC GCGAAGATCCATTCGCTCTCCGATGGCCCGCCGACGGTGCTGTAAAAACCGCCAAGGGGAAAACCCA CATACCTTGGCACCAGGACCGCGATCACTTCACCGTACTCGGCGTGGATCTCGGCACGCGCGATGCCG GGGCGCTCGCTCTTCTCAACGTCACTGCGCAAAAACCGGCCAAGCCGGTCCACCGCATCATTGGTGA GGCCGACGGACGCACCTGGTATGCCAGCCTTGCCGACGCTCGCATGATCCGCCTGCCCGGGGAGGAT GCCCGGCTCTTTGTCCGGGGAAAACTCGTTCAGGAACCCTATGGTGAACGCGGGCGAAACGCGTCTC TTCTCGAATGGGAAGACGCCCGCAATATCATCCTTCGCCTTGGCCAAAATCCCGACGAACTCCTCGGC GCCGATCCCCGGCGCCATTCGTATCCGGAAATAAACGATAAACTTCTCGTCGCCCTTCGCCGCGCTCA GGCCCGTCTTGCCCGTCTCCAGAACCGGAGCTGGCGGTTGCGCGACCTTGCAGAATCGGACAAGGCC CTTGATGAAATCCATGCCGAGCGTGCCGGGGAGAAGCCTTCTCCGCTTCCGCCCTTGGCTCGCGACGA TGCCATCAAAAGCACCGACGAAGCCCTCCTTTCCCAGCGTGACATCATCCGGCGATCCTTCGTTCAGA TCGCCAACTTGATCCTTCCCCTTCGCGGACGCCGATGGGAATGGCGGCCCCATGTCGAGGTCCCGGAT TGCCACATCCTTGCGCAGAGCGATCCCGGTACGGATGACACCAAGCGTCTTGTCGCCGGACAACGCG GCATCTCTCACGAGCGTATCGAGCAAATCGAAGAACTCCGTCGTCGCTGCCAATCCCTCAACCGTGCCCTGCGTCACAAACCCGGAGAGCGTCCCGTGCTCGGACGCCCCGCCAAGGGCGAGGAAATCGCCGAT CCCTGTCCCGCGCTCCTCGAAAAGATCAACCGTCTCCGGGACCAGCGCGTTGACCAAACCGCGCATG CCATCCTCGCCGCCGCTCTCGGTGTTCGACTCCGCGCCCCCTCAAAAGACCGCGCCGAACGCCGCCA TCGCGACATCCATGGCGAATACGAACGCTTTCGTGCGCCCGCTGATTTTGTCGTCATCGAAAACCTCT CCCGTTATCTCAGCTCGCAGGATCGTGCTCGTAGTGAAAACACCCGTCTCATGCAGTGGTGCCATCGC CAGATCGTGCAAAAACTCCGTCAGCTCTGCGAGACCTACGGCATCCCCGTCCTCGCCGTCCCGGCGG CCTACTCATCGCGTTTTTCTTCCCGGGACGGCTCGGCCGGATTCCGGGCCGTCCATCTGACACCGGAC CACCGTCACCGGATGCCATGGAGCCGCATCCTCGCCCGCCTCAAGGCCCACGAGGAAGACGGAAAA AGACTCGAAAAGACGGTGCTCGACGAGGCTCGCGCCGTCCGGGGACTCTTTGACCGGCTCGACCGG TTCAACGCCGGGCATGTCCCGGGAAAACCTTGGCGCACGCTCCTCGCGCCGCTCCCCGGCGGCCCTG TGTTTGTCCCCCTCGGGGACGCCACACCCATGCAGGCCGATCTGAACGCCGCCATCAACATCGCCCTC CGGGGCATCGCGGCTCCCGACCGCCACGACATCCATCACCGGCTCCGTGCCGAAAACAAAAAACGCA TCCTGAGCTTGCGTCTCGGCACTCAGCGCGAGAAAGCCCGCTGGCCTGGAGGAGCTCCGGCGGTGA CACTCTCCACTCCGAACAACGGCGCCTCTCCCGAAGATTCCGATGCGTTGCCCGAACGGGTATCCAAC CTGTTTGTGGACATCGCCGGTGTCGCCAACTTCGAGCGAGTCACGATCGAAGGAGTCTCGCAAAAAT TCGCCACCGGGCGTGGCCTTTGGGCCTCCGTCAAGCAACGTGCATGGAACCGCGTTGCCAGACTCAA CGAGACAGTAACAGATAACAACAGGAACGAAGAGGAGGACGACATTCCGATGTAACCATTGCTTCAT TACATCTGAGTCTCCCCTCAATCCCTCTGCCCCATGCGTGATATAACCTCCACCTCATGTCCCGGATCG GCGCCGGCAACCTGTAGTTCCCTTCCATCCTCCAACACTCCCGCAGATCGCGATCCGCTGCCGCCGAT GCCGGTGCGCCGCCTTCACAACTATCTCTACTGTCCGCGGCTTTTTTATCTCCAGTGGGTCGAGAATCT CTTTGAGGAAAATGCCGACACCATTGCCGGCAGCGCCGTGCATCGTCACGCCGACAAACCTACGCGT TACGATGATGAAAAAGCCGAGGCACTTCGCACTGGTCTCCCTGAAGGCGCGCACATACGCAGCCTTC GCCTGGAAAACGCCCAACTCGGTCTCGTTGGCGTGGTGGATATCGTGGAGGGAGGCCCCGACGGACT CGAACTCGTCGACTACAAAAAAGGTTCCGCCTTCCGCCTCGACGACGGCACGCTCGCTCCCAAGGAA AACGACACCGTGCAACTTGCCGCCTACGCTCTTCTCCTGGCTGCCGATGGTGCGCGCGTTGCGCCCAT GGCGACGGTCTATTACGCTGCCGATCGCCGGCGTGTCACCTTCCCGCTCGATGACGCCCTCTACGCCC GCACCCGTTCCGCCCTCGAAGAGGCCCGCGCCGTTGCAACCTCGGGGCGCATACCTCCGCCGCTCGT CTCTGACGTCCGCTGCCTCCATTGTTCCTCCTATGCGCTTTGCCTTCCCCGCGAGTCCGCCTGGTGGTG CCGCCATCGCAGCACGCCGCGGGGAGCCGGCCACACCCCCATGTTGCCGGGCTTTGAGGATGACGCC GCCGCCATTCACCAAATCTCCGAACCTGACACCGAGCCACCACCCGATCTTGCCAGCCAGCCTCCCC GTCCCCCGCGGCTCGATGGAGAATTGTTGGTTGTCCAGACTCCGGGAGCGATGATCGGACAAAGCGG CGGTGAGTTTACCGTGTCCGTCAAGGGTGAGGTTTTGCGCAAGCTTCCGGTTCATCAACTCCGGGCC ATTTACGTTTACGGAGCCGTGCAACTCACGGCGCATGCTGTGCAGACCGCCCTTGAGGAGGATATCGA CGTCTCCTATTTTGCGCCCAGCGGCCGCTTTCTTGGCCTCCTCCGCGGCCTGCCCGCATCCGGCGTGG ATGCGCGTCTCGGGCAATACACCCTGTTTCGCGAACCCTTTGGCCGTCTCCGTCTCGCCTGCGAGGCG ATTCGGGCCAAGATCCATAACCAGCGCGTCCTCCTCATGCGTAACGGCGAGCCCGGGGAGGGCGTCT TGCGCGAACTCGCCCGTCTGCGCGACGCCACCAGTGAGGCGACTTCGCTCGACGAACTCCTCGGCAT CGAGGGCATCGCCGCGCATTTCTATTTCCAGTATTTTCCCACCATGCTGAAAGAACGGGCGGCCTGGG CCTTTGATTTTTCCGGACGCAATCGCCGCCCGCCGCGCGACCCGGTCAACGCCCTGCTTTCGTTCGGT TACAGCGTGTTGTCCAAGGAACTTGCCGGCGTCTGCCACGCTGTTGGCCTAGACCCGTTTTTCGGCTTCATGCACCAGCCGCGTTACGGGCGCCCCGCACTCGCTCTCGATCTGATGGAGGAGTTTCGCCCTCTCA TCGCCGACAGTGTTGCCCTGAATCTCATCAACCGTGGCGAACTCGACGAAGGGGACTTTATCCGGTC GGCCAATGGCACCGCGCTCAATGATCGGGGCCGCCGGCGTTTTTGGGAGGCATGGTTCCGGCGTCTC GACAGCGAAGTCAGCCATCCTGAATTTGGTTACAAGATGAGCTATCGACGGATGCTTGAAGTGCAGG CGCGCCAGCTATGGCGCTATGTGCGCGGTGACGCCTTCCGCTACCACGGATTCACCACCCGTTGATTC CGATGTCAGATCCCCGCCGCCGTTATCTTGTGTGTTACGACATCGCCAATCCGAAGCGATTGCGCCAA GTGGCCAAGCTGCTGGAGAGCTATGGCACGCGTCTGCAATACTCGGTTTTCGAATGTCCTTTGGACGA TCTTCGTCTTGAACAGGCGAAGGCTGATTTGCGCGACACGATTAATGCCGACCAAGACCAGGTGTTAT TTGTTTCGCTTGGCCCCGAAGCCAACGATGCCACGTTGATCATCGCCACGCTTGGGCTCCCTTATACC GTGCGCTCGCGAGTGACGATTATCTGACCCATAACCCACGTGTTGAAGAGGCTGAAAACAGACGGACCTCTATGAAGAACAATTGACGTTTTGGCCGAACTCAGCAGACCTTTATGCGGCTAAGGCCAATGATCA TCCATCCTACCGCCATTGGGCTGGAGACGTTTTTTGAAACGGCGAGTGCTGCGGATAGCGAGTTTCTC TTGGGGAGGCGCTCGCGGCCACTTTTACAGAGGAGATGTTCGGGCGAACTGGCCGACCTAACAAGGC GTACCCGGCTCAAAATCGAGGCACGCTCGCACGGGATGATGTAATTCGTTGTTTTTCAGCATACCGTG CGAGCACGGGCCGCAGCGAATGCCGTTTCACGAATCGTCAGGCGGCGGGGAGAAGTCATTTAATAAG GCCACTGTTAAAAGCCGCAGCGAATGCCGTTTCACGAATCGTCAGGCGGGCAGTGGATGTTTTTCCAT GAGGCGAAGAATTTCATCGCCGCAGTGAATGCCGTTTCACCATTGATGAAGAATGCGAGGTGAAAAC AGAGAAATTGGGTCAACTCTATCACTCTTATTCAGCCATCGTTTCAAGAAAGGATACCTCGTATTGGAT ACAACACAGCTCGTTCGTTCTCTCTACCTCCCTCGACAATCTCAAGGA(SEQ ID NO:61)

>B-座位

TAATAAAATTGAAATATCACTATGGATTATTGTAATATTACCATAAAGATAGGTGACGTTTTTTTG AAAATTGTAAACCTAATTTGAAGAAAACCAATTAAAAATCGCTTCGGCTTTTTTTTAAGTGCCAGGTA GCATTGATGCTAACCCATGTGTAATAAAGGTTTGTTTTCCTTCGGGGCACGAACACATTATAAGGGAAA CCTAAAGATTCCCTTTCTTGTTTAATATTATAACCAGTGAAAATAAGAATAATGCACCTAAAACTAATAT ACAGAAAATAAGAATTAAAAGTACTAATATATACATCATATGTTATCCTCCAATGCTTTATTTTTTAATAA TTGATGTTAGTATTAGTTTTATTTTAATTTCTAAACATAAGAATTTGAAAAGGATGTGTTTATTATGGCGA CACGCAGTTTTATTTTAAAAATTGAACCAAATGAAGAAGTTAAAAAGGGATTATGGAAGACGCATGAG GTATTGAATCATGGAATTGCCTACTACATGAATATTCTGAAACTAATTAGACAGGAAGCTATTTATGAAC ATCATGAACAAGATCCTAAAAATCCGAAAAAAGTTTCAAAAGCAGAAATACAAGCCGAGTTATGGGA TTTTGTTTTAAAAATGCAAAAATGTAATAGTTTTACACATGAAGTTGACAAAGATGTTGTTTTTAACAT CCTGCGTGAACTATATGAAGAGTTGGTCCCTAGTTCAGTCGAGAAAAAGGGTGAAGCCAATCAATTAT CGAATAAGTTTCTGTACCCGCTAGTTGATCCGAACAGTCAAAGTGGGAAAGGGACGGCATCATCCGG ACGTAAACCTCGGTGGTATAATTTAAAAATAGCAGGCGACCCATCGTGGGAGGAAGAAAAGAAAAAATGGGAAGAGGATAAAAAGAAAGATCCCCTTGCTAAAATCTTAGGTAAGTTAGCAGAATATGGGCTTAT TCCGCTATTTATTCCATTTACTGACAGCAACGAACCAATTGTAAAAGAAATTAAATGGATGGAAAAAA GTCGTAATCAAAGTGTCCGGCGACTTGATAAGGATATGTTTATCCAAGCATTAGAGCGTTTTCTTTCAT GGGAAAGCTGGAACCTTAAAGTAAAGGAAGAGTATGAAAAAGTTGAAAAGGAACACAAAACACTAG AGGAAAGGATAAAAGAGGACATTCAAGCATTTAAATCCCTTGAACAATATGAAAAAGAACGGCAGGA GCAACTTCTTAGAGATACATTGAATACAAATGAATACCGATTAAGCAAAAGAGGATTACGTGGTTGGC GTGAAATTATCCAAAAATGGCTAAAGATGGATGAAAATGAACCATCAGAAAAATATTTAGAAGTATTT AAAGATTATCAACGGAAACATCCACGAGAAGCCGGGGACTATTCTGTCTATGAATTTTTAAGCAAGAA AGAAAATCATTTTATTTGGCGAAATCATCCTGAATATCCTTATTTGTATGCTACATTTTGTGAAATTGAC AAAAAAAAGAAAGACGCTAAGCAACAGGCAACTTTTACTTTGGCTGACCCGATTAACCATCCGTTAT GGGTACGATTTGAAGAAAGAAGCGGTTCGAACTTAAACAAATATCGAATTTTAACAGAGCAATTACAC ACTGAAAAGTTAAAAAAGAAATTAACAGTTCAACTTGATCGTTTAATTTATCCAACTGAATCCGGCGG TTGGGAGGAAAAAGGTAAAGTAGATATCGTTTTGTTGCCGTCAAGACAATTTTATAATCAAATCTTCCT TGATATAGAAGAAAAGGGGAAACATGCTTTTACTTATAAGGATGAAAGTATTAAATTCCCCCTTAAAGG TACACTTGGTGGTGCAAGAGTGCAGTTTGACCGTGACCATTTGCGGAGATATCCGCATAAAGTAGAAT CAGGAAATGTTGGACGGATTTATTTTAACATGACAGTAAATATTGAACCAACTGAGAGCCCTGTTAGT AAGTCTTTGAAAATACATAGGGACGATTTCCCCAAGTTCGTTAATTTTAAACCGAAAGAGCTCACCGA ATGGATAAAAGATAGTAAAGGGAAAAAATTAAAAAGTGGTATAGAATCCCTTGAAATTGGTCTACGGG TGATGAGTATCGACTTAGGTCAACGTCAAGCGGCTGCTGCATCGATTTTTGAAGTAGTTGATCAGAAA CCGGATATTGAAGGGAAGTTATTTTTTCCAATCAAAGGAACTGAGCTTTATGCTGTTCACCGGGCAAG TTTTAACATTAAATTACCGGGTGAAACATTAGTAAAATCACGGGAAGTATTGCGGAAAGCTCGGGAGG ACAACTTAAAATTAATGAATCAAAAGTTAAACTTTCTAAGAAATGTTCTACATTTCCAACAGTTTGAAGATATCACAGAAAGAGAGAAGCGTGTAACTAAATGGATTTCTAGACAAGAAAATAGTGATGTTCCTCTT GTATATCAAGATGAGCTAATTCAAATTCGTGAATTAATGTATAAACCCTATAAAGATTGGGTTGCCTTTT TAAAACAACTCCATAAACGGCTAGAAGTCGAGATTGGCAAAGAGGTTAAGCATTGGCGAAAATCATT AAGTGACGGGAGAAAAGGTCTTTACGGAATCTCCCTAAAAAATATTGATGAAATTGATCGAACAAGG AAATTCCTTTTAAGATGGAGCTTACGTCCAACAGAACCTGGGGAAGTAAGACGCTTGGAACCAGGAC AGCGTTTTGCGATTGATCAATTAAACCACCTAAATGCATTAAAAGAAGATCGATTAAAAAAGATGGCA AATACGATTATCATGCATGCCTTAGGTTACTGTTATGATGTAAGAAAGAAAAAGTGGCAGGCAAAAAA TCCAGCATGTCAAATTATTTTATTTGAAGATTTATCTAACTACAATCCTTACGAGGAAAGGTCCCGTTTT GAAAACTCAAAACTGATGAAGTGGTCACGGAGAGAAATTCCACGACAAGTCGCCTTACAAGGTGAA ATTTACGGATTACAAGTTGGGGAAGTAGGTGCCCAATTCAGTTCAAGATTCCATGCGAAAACCGGGTC GCCGGGAATTCGTTGCAGTGTTGTAACGAAAGAAAAATTGCAGGATAATCGCTTTTTTAAAAATTTAC AAAGAGAAGGACGACTTACTCTTGATAAAATCGCAGTTTTAAAAGAAGGAGACTTATATCCAGATAAA GGTGGAGAAAAGTTTATTTCTTTATCAAAGGATCGAAAGTTGGTAACTACGCATGCTGATATTAACGCG GCCCAAAATTTACAGAAGCGTTTTTGGACAAGAACACATGGATTTTATAAAGTTTACTGCAAAGCCTA TCAGGTTGATGGACAAACTGTTTATATTCCGGAGAGCAAGGACCAAAAACAAAAAATAATTGAAGAA TTTGGGGAAGGCTATTTTATTTTAAAAGATGGTGTATATGAATGGGGTAATGCGGGGAAACTAAAAATT AAAAAAGGTTCCTCTAAACAATCATCGAGTGAATTAGTAGATTCGGACATACTGAAAGATTCATTTGAT TTAGCAAGTGAACTTAAGGGAGAGAAACTCATGTTATATCGAGATCCGAGTGGAAACGTATTTCCTTC CGACAAGTGGATGGCAGCAGGAGTATTTTTTGGCAAATTAGAAAGAATATTGATTTCTAAGTTAACAA ATCAATACTCAATATCAACAATAGAAGATGATTCTTCAAAACAATCAATGTAAAAGTTTGCCCGTATAA GAACTTAATTAATTAGGATGGTAGGATGTTACTAAATATGTCTGTAGGCATCATTCCTACTATCCGTTTT GTCCGAATATCAGAGCATTAGGTGAGGAATGGTAAGAAAGGAAAATTTATATGAACCAACCGATTCCTATTCGAATGTTAAATGAAATACAATATTGTGAGCGACTTTTTTACTTTATGCATGTCCAAAAGCTATTTG ATGAGAATGCAGATACAGTTGAAGGAAGTGCACAGCATGAGCGGGCAGAAAGAAGCAAAAGACCAA GTAAAATGGGACCAAAGGAATTATGGGGTGAGGCGCCAAGAAGTCTTAAGCTTGGTGATGAGCTGTT AAATATTACCGGTGTTCTTGATGCCATAAGTCATGAAGAGAACAGTTGGATCCCGGTTGAATCAAAAC ACAGTTCCGCACCGGATGGATTGAACCCTTTTAAAGTAGATGGCTTTCTACTTGACGGGTCTGCATGG CCAAACGATCAAATTCAACTTTGTGCACAAGGCTTGCTCTTGAATGCCAATGGATACCCGTGTGATTAT GGGTATTTATTTTATCGTGGTAATAAGAAAAAGGTGAAAATTTATTTTACTGAAGATTTAATCGCTGCCA CAAAGTACTATATTAAAAAAGCACACGAGATACTAGTATTATCTGGTGATGAATCAGCTATTCCTAAGC CTTTAATTGATTCTAATAAGTGTTTTCGCTGTTCTTTAAACTATATCTGTCTTCCGGATGAAACGAACTA TCTATTAGGGGCAAGTTCAACAATTCGTAAAATTGTGCCTTCAAGGACAGATGGTGGCGTTTTATATGT ATCAGAGTCTGGTACAAAATTAGGAAAATCGGGTGAGGAGTTAATCATTCAGTATAAAGATGGCCAAA AGCAGGGTGTTCCTATAAAAGATATTATTCAAGTTTCGTTAATTGGAAATGTTCAATGCTCAACGCAAT TACTTCATTTTTTAATGCAATCAAATATTCCTGTAAGTTATTTATCATCCCACGGTCGTTTGATTGGTGTC AGTTCATCTTTAGTTACAAAAAATGTTTTAACAAGGCAGCAACAGTTCATTAAATTTACAAATCCTGAG TTTGGACTAAATCTAGCAAAACAAATTGTTTATGCCAAGATTCGAAATCAACGAACTTTACTTAGAAG AAATGGGGGGAGTGAGGTAAAGGAGATTTTAACAGATTTAAAATCTTTAAGTGACAGTGCACTGAAC GCAATATCAATAGAACAATTACGGGGTATTGAAGGGATTTCTGCAAAACATTATTTCGCAGGATTTCCG TTTATGTTGAAAAATGAATTACGTGAATTGAATTTAATGAAAGGGCGTAATAGGAGACCGCCAAAAGA TCCTGTAAATGTACTTCTTTCTCTTGGTTATACTTTATTGACACGTGATATTCATGCTGCGTGTGGTTCA GTCGGATTGGATCCGATGTTTGGTTGTTACCATCGTCCAGAAGCAGGTCGACCGGCTCTAGTATTAGAT GTTATGGAAACATTTCGACCACTTATTGTAGACAGTATTGTCATCCGAGCTTTGAATACGGGTGAAATC TCATTAAAAGATTTTTATATAGGAAAAGATAGTTGTCAATTATTAAAACATGGCCGCGATTCCTTTTTTG CCATTTATGAAAGAAGAATGCATGAAACTATTACCGATCCAATTTTCGGCTATAAGATTAGCTATCGCCG TATGCTCGATTTGCACATTCGAATGCTTGCAAGGTTTATTGAAGGGGAACTGCCGGAATATAAACCATT AATGACCCGGTGAGTTTGTTTATTAGGTTAAAAGAAGGTGAAGACATGCAGCAATACGTCCTTGTTTC TTATGATATTTCGGACCAAAAAAGATGGAGAAAAGTATTTAAACTGATGAAAGGATACGGAGAACATG TTCAATATTCCGTATTCATATGCCAGTTAACTGAATTACAGAAGGCAAAATTACAAGCCTCTTTAGAAG ACATTATCCATCATAAGAATGACCAAGTAATGTTTGTTCACATCGGGCCAGTGAAAGATGGTCAACTAT CTAAAAAAATCTCAACAATTGGGAAAGAATTTGTTCCATTGGATTTAAAGCGGCTTATATTTTGAAAAG ATATAGCAAAGAAATCTTATGAAAAAAATACAAAAATATATTGTTAAAAAATAGGGAATATTATATAATG GACTTACGAGGTTCTGTCTTTTGGTCAGGACAACCGTCTAGCTATAAGTGCTGCAGGGGTGTGAGAA ACTCCTATTGCTGGACGATGTCTCTTTTATTTCTTTTTTCTTGGATCTGAGTACGAGCACCCACATTGGA CATTTCGCATGGTGGGTGCTCGTACTATAGGTAAAACAAACCTTTTTAAGAAGAATACAAAAATAACC ACAATATTTTTTAAAAGGAATTTTGATGGATTTACATAACCTCTCGCAACATGCTTCTAAAACCCAAGC CCACCATAGCCCAAAACCCCCTGCGGTCCAAGAAAAAAGAAATGATACGAGGCATTAGCACCGGGGA GAAGTCATTTAATAAGGCCACTGTTAAAAGTCCAAGAAAAAAGAAATGATACGAGGCATTAGCACAACAATATAAACGACTACTTTACCGTGTTCAAGAAAAAAGAAATGATATGAGGCATTAGCACGATGGGAT GGGAGAGAGAGGACAGTTCTACTCTTGCTGTATCCAGCTTCTTTTACTTTATCCGGTATCATTTCTTCA CTTCTTTCTGCACATAAAAAAGCACCTAACTATTTGGATAAGTTAAGTGCTTTTATTTCCGTTTGAAGTT GTCTATTGCTTTTTTCTTCATATCTTCAAATTTTTTCTGTTTCTCAGAGTCAACTTTACCAACTGTAATCC CTTTTCTTTTTGGCATTGGGGTATCTTTCCACCTTAGTGTGTTCATAAGGCTTATATTTATCACTCATTGT ATTCCTCCAACACAATTATAATTTTTCCGTCATCCTCAATCCAACCGTCAACTGTGACAAAAGACGAAT CTCTCTTAT(SEQ ID NO:62)

>C-座位

GTTTCATTTGGAAAGGGAGAGCATTGGCTTTTCTCTTTGTAAATAAAGTGCAAGCTTTGTAATA AGCTTCTAGTGGAGAAGTGATTGTTTGAATCACCCAATGCACACGCACTAAAGTTAGACGAACCTATA ATTCGTATTAGTAAGTATAGTACATGAAGAAAAATGCAACAAGCATTTACTCTCTTTTAAATAAAGAAT TGATAGCTGTTAATATTGATAGTATATTATACCTTATAGATGTTCGATTTTTTTTGAAATTCAAAAATCATA CTTAGTAAAGAAAGGAAATAACGTCATGGACAAGCGAAAGCGTAGAAGTTACGAGTTTAGGTGGGAA GCGGGAGGCACCAGTCATGGCAATCCGTAGCATAAAACTAAAACTAAAAACCCACACAGGCCCGGA AGCGCAAAACCTCCGAAAAGGAATATGGCGGACGCATCGGTTGTTAAATGAAGGCGTCGCCTATTACA TGAAAATGCTCCTGCTCTTTCGTCAGGAAAGCACTGGTGAACGGCCAAAAGAAGAACTACAGGAAG AACTGATTTGTCACATACGCGAACAGCAACAACGAAATCAGGCAGATAAAAATACGCAAGCGCTTCC GCTAGATAAGGCACTGGAAGCTTTGCGCCAACTATATGAACTGCTTGTCCCCTCCTCGGTCGGACAAA GTGGCGACGCCCAGATCATCAGCCGAAAGTTTCTCAGCCCGCTCGTCGATCCGAACAGCGAAGGCGGCAAAGGTACTTCGAAGGCAGGGGCAAAACCCACTTGGCAGAAGAAAAAAGAAGCGAACGACCCAA CCTGGGAACAGGATTACGAAAAATGGAAAAAAAGACGCGAGGAAGACCCAACCGCTTCTGTGATTA CTACTTTGGAGGAATACGGCATTAGACCGATCTTTCCCCTGTACACGAACACCGTAACAGATATCGCGT GGTTGCCACTTCAATCCAATCAGTTTGTGCGAACCTGGGACAGAGACATGCTTCAACAAGCGATTGA AAGACTGCTCAGTTGGGAGAGCTGGAACAAACGTGTCCAGGAAGAGTATGCCAAGCTGAAAGAAAA AATGGCTCAACTGAACGAGCAACTCGAAGGCGGTCAGGAATGGATCAGCTTGCTAGAGCAGTACGA AGAAAACCGAGAGCGAGAGCTTAGGGAAAACATGACCGCTGCCAATGACAAGTATCGGATTACCAA GCGGCAAATGAAAGGCTGGAACGAGCTGTACGAGCTATGGTCAACCTTTCCCGCCAGTGCCAGTCAC GAGCAATACAAAGAGGCGCTCAAGCGTGTGCAGCAGCGACTGAGAGGGCGGTTTGGGGATGCTCAT TTCTTCCAGTATCTGATGGAAGAGAAGAACCGCCTGATCTGGAAGGGGAATCCGCAGCGTATCCATTA TTTTGTCGCGCGCAACGAACTGACGAAACGGCTGGAGGAAGCCAAGCAAAGCGCCACGATGACGTT GCCCAATGCCAGGAAGCATCCATTGTGGGTGCGCTTCGATGCACGGGGAGGAAATTTGCAAGACTAC TACTTGACGGCTGAAGCGGACAAACCGAGAAGCAGACGTTTTGTAACGTTTAGTCAGTTGATATGGC CAAGCGAATCGGGATGGATGGAAAAGAAAGACGTCGAGGTCGAGCTAGCTTTGTCCAGGCAGTTTTA CCAGCAGGTGAAGTTGCTGAAAAATGACAAAGGCAAGCAGAAAATCGAGTTCAAGGATAAAGGTTC GGGCTCGACGTTTAACGGACACTTGGGGGGAGCAAAGCTACAACTGGAGCGGGGCGATTTGGAGAA GGAAGAAAAAAACTTCGAGGACGGGGAAATCGGCAGCGTTTACCTTAACGTTGTCATTGATTTCGAA CCTTTGCAAGAAGTGAAAAATGGCCGCGTGCAGGCGCCGTATGGACAAGTACTGCAACTCATTCGTCGCCCCAACGAGTTTCCCAAGGTCACTACCTATAAGTCGGAGCAACTTGTTGAATGGATAAAAGCTTCG CCACAACACTCGGCTGGGGTGGAGTCGCTGGCATCCGGTTTTCGTGTAATGAGCATAGACCTTGGGCT GCGCGCGGCTGCAGCGACTTCTATTTTTTCTGTAGAAGAGAGTAGCGATAAAAATGCGGCTGATTTTT CCTACTGGATTGAAGGAACGCCGCTGGTCGCTGTCCATCAGCGGAGCTATATGCTCAGGTTGCCTGGT GAACAGGTAGAAAAACAGGTGATGGAAAAACGGGACGAGCGGTTCCAGCTACACCAACGTGTGAAG TTTCAAATCAGAGTGCTCGCCCAAATCATGCGTATGGCAAATAAGCAGTATGGAGATCGCTGGGATGA ACTCGACAGCCTGAAACAAGCGGTTGAGCAGAAAAAGTCGCCGCTCGATCAAACAGACCGGACATT TTGGGAGGGGATTGTCTGCGACTTAACAAAGGTTTTGCCTCGAAACGAAGCGGACTGGGAACAAGC GGTAGTGCAAATACACCGAAAAGCAGAGGAATACGTCGGAAAAGCCGTTCAGGCATGGCGCAAGCG CTTTGCTGCTGACGAGCGAAAAGGCATCGCAGGTCTGAGCATGTGGAACATAGAAGAATTGGAGGGC TTGCGCAAGCTGTTGATTTCCTGGAGCCGCAGGACGAGGAATCCGCAGGAGGTTAATCGCTTTGAGC GAGGCCATACCAGCCACCAGCGTCTGTTGACCCATATCCAAAACGTCAAAGAGGATCGCCTGAAGCA GTTAAGTCACGCCATTGTCATGACTGCCTTGGGGTATGTTTACGACGAGCGGAAACAAGAGTGGTGC GCCGAATACCCGGCTTGCCAGGTCATTCTGTTTGAAAATCTGAGCCAGTACCGTTCTAACCTGGATCG CTCGACCAAAGAAAACTCCACCTTGATGAAGTGGGCGCATCGCAGCATTCCGAAATACGTCCACATG CAGGCGGAGCCATACGGGATTCAGATTGGCGATGTCCGGGCGGAATATTCCTCTCGTTTTTACGCCAA GACAGGAACGCCAGGCATTCGTTGTAAAAAGGTGAGAGGCCAAGACCTGCAGGGCAGACGGTTTGA GAACTTGCAGAAGAGGTTAGTCAACGAGCAATTTTTGACGGAAGAACAAGTGAAACAGCTAAGGCC CGGCGACATTGTCCCGGATGATAGCGGAGAACTGTTCATGACCTTGACAGACGGAAGCGGAAGCAAGGAGGTCGTGTTTCTCCAGGCCGATATTAACGCGGCGCACAATCTGCAAAAACGTTTTTGGCAGCGATA CAATGAACTGTTCAAGGTTAGCTGCCGCGTCATCGTCCGAGACGAGGAAGAGTATCTCGTTCCCAAG ACAAAATCGGTGCAGGCAAAGCTGGGCAAAGGGCTTTTTGTGAAAAAATCGGATACAGCCTGGAAA GATGTATATGTGTGGGACAGCCAGGCAAAGCTTAAAGGTAAAACAACCTTTACAGAAGAGTCTGAGT CGCCCGAACAACTGGAAGACTTTCAGGAGATCATCGAGGAAGCAGAAGAGGCGAAAGGAACATACC GTACACTGTTCCGCGATCCTAGCGGAGTCTTTTTTCCCGAATCCGTATGGTATCCCCAAAAAGATTTTT GGGGCGAGGTGAAAAGGAAGCTGTACGGAAAATTGCGGGAACGGTTTTTGACAAAGGCTCGGTAAG GGTGTGCAAGGAGAGTGAATGGCTTGTCCTGGATACCTGTCCGCATGCTAAATGAAATTCAGTATTGT GAGCGACTGTACCATATTATGCATGTGCAGGGGCTGTTTGAGGAAAGCGCAGACACGGTCGAAGGAG CAGCACAACACAAGCGTGCAGAGACACATCTGCGCAAAAGCAAGGCAGCGCCGGAAGAGATGTGG GGGGACGCTCCGTTTAGCTTGCAGCTCGGCGACCCTGTGCTTGGCATTACGGGAAAGCTGGATGCCG TCTGTCTGGAAGAAGGTAAGCAGTGGATTCCGGTAGAAGGAAAGCATTCGGCGTCGCCAGAAGGCG GGCAGATGTTCACTGTAGGCGTGTATTCGCTGGACGGTTCTGCCTGGCCCAACGACCAAATCCAATTG TGTGCGCAAGGCTTGCTGCTTCGCGCGAATGGATATGAATCCGATTATGGCTACTTATACTACCGTGGC AATAAAAAGAAGGTTCGCATTCCTTTTTCGCAGGAACTCATAGCGGCTACTCACGCCTGCATTCAAAA AGCTCATCAGCTTCGGGAAGCCGAAATTCCCCCTCCGTTGCAGGAGTCGAAAAAGTGCTTTCGATGC TCGTTAAATTACGTATGCATGCCTGACGAGACGAATTACATGTTGGGGTTGAGCGCAAACATCAGAAA GATTGTGCCCAGTCGTCCAGATGGCGGGGTACTGTATGTTACAGAGCAGGGGGCAAAACTGGGCAGA AGCGGAGAAAGCTTGACCATCACCTGCCGGGGCGAAAAGATAGACGAAATCCCGATCAAAGACTTGA TTCACGTGAGCTTGATGGGGCATGTGCAATGCTCTACGCAGCTTCTGCACACCTTGATGAACTGTGGC GTCCACGTCAGCTACTTGACTACGCATGGCACATTGACAGGAATAATGACTCCCCCTTTATCGAAAAA CATTCGAACAAGAGCCAAGCAGTTTATCAAATTTCAGCACGCGGAGATCGCCCTTGGAATCGCGAGA AGGGTCGTGTATGCGAAAATTTCCAATCAGCGCACGATGCTGCGCCGCAATGGCTCACCAGATAAAGC AGTTTTAAAAGAGTTAAAAGAGCTTAGAGATCGCGCGTGGGAGGCGCCATCACTGGAAATAGTGAGA GGTATCGAGGGACGTGCAGCACAGTTGTACATGCAGTTTTTCCCTACCATGTTAAAGCACCCAGTAGT AGACGGTATGGCGATCATGAACGGTCGCAACCGTCGCCCGCCCAAAGATCCGGTCAATGCGCTGCTC TCCCTCGGCTATACGCTTCTTTCACGGGATGTTTACTCCGCATGTGCCAATGTCGGACTCGATCCACTG TTCGGCTTTTTCCATACGATGGAGCCGGGCAGACCAGCTTTGGCACTCGATCTGATGGAACCGTTCCG CGCCTTGATTGCCGATAGCGTAGCGATACGTACCTTGAATACGGAGGAACTCACCCTCGGGGACTTTT ATTGGGGAAAAGACAGTTGTTATTTGAAAAAGGCAGGAAGACAAACGTATTTCGCTGCCTATGAAAG ACGGATGAACGAGACGCTGACGCATCCGCAATTTGGGTATAAGCTCAGCTATCGCCGTATGCTGGAGC TGGAAGCAAGGTTTTTGGCCCGGTATCTGGATGGAGAGCTGGTGGAATATACGCCGCTCATGACAAGG TAGGAAATGACCATGCGACAATTTGTTCTGGTAAGCTATGATATTGCCGATCAAAAACGTTGGAGAAA AGTATTCAAGCTGATGAAGGGGCAAGGCGAGCACGTCCAGTACTCGGTGTTTCTGTGCCAACTCACC GAGATTCAGCAAGCCAAGCTAAAGGTAAGCCTGGCGGAGCTGGTTCACCATGGAGAAGACCAGGTC ATGTTTGTAAAAATCGGCCCAGTGACGAGAGATCAACTGGACAAGCGGATATCTACTGTTGGCAGGG AGTTTCTGCCTCGCGATTTGACCAAATTTATCTATTAAGGAATGAAGAAAGCTAGTTGTAACAAAAGT GGAAAAAGAGTAAAATAAAGGTGTCAGTCGCACGCTATAGGCCATAAGTCGACTTACATATCCGTGCG TGTGCATTATGGGCCCATCCACAGGTCTATTCCCACGGATAATCACGACTTTCCACTAAGCTTTCGAAT TTTATGATGCGAGCATCCTCTCAGGTCAAAAAAGCCGGGGGATGCTCGAACTCTTTGTGGGCGTAGGCTTTCCAGAGTTTTTTAGGGGAAGAGGCAGCCGATGGATAAGAGGAATGGCGATTGAATTTTGGCTTGC TCGAAAAACGGGTCTGTAAGGCTTGCGGCTGTAGGGGTTGAGTGGGAAGGAGTTCGAAAGCTTAGT GGAAAGCTTCGTGGTTAGCACCGGGGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTCGAAAGCT TAGTGGAAAGCTTCGTGGTTAGCACGCTAAAGTCCGTCTAAACTACTGAGATCTTAAATCGGCGCTCA AATAAAAAACCTCGCTAATGCGAGGTTTCAGC(SEQ ID NO:63)

>D-座位

GAAGTTATGTTGATAAAATGGTTTATGAAAACGTGAGTCTGTGGTAGTATTATAAACAATGATGG AATAAAGTGTTTTTTGCGCCGCACGGCATGAATTCAGGGGTTAGCTTGGTTTTGTGTATAAATAAATGT TCTACATATTTATTTTGTTTTTTGCGCCGCAAAATGCAACTGAAAGCCGCATCTAGAGCACCCTGTAGA AGACAGGGTTTTGAGAATAGCCCGACATAGAGGGCAATAGACACGGGGAGAAGTCATTTAATAAGGC CACTGTTAAAAGTTTTGAGAATAGCCCGACATAGAGGGCAATAGACTTTTGCTTCGTCACGGATGGAC TTCACAATGGCAACAACGTTTTGAGAATAGCCCGACATAGTTATAGAGATGTATAAATATAACCGATAA ACATTGACTAATTTGTTGAAGTCAGTGTTTATCGGTTTTTTGTGTAAATATAGGAGTTGTTAGAATGATA CTTTTTGCCTAATTTTGGAACTTTATGAGGATATAAGATAGACTTGATAAAAAGGTAAAAGAAAGGTTA AAGAGCATGGCAGGAATAGTGACCTGTGATGAAGATGATGGTAGAATTAAAAGTGTTCTTAAAGAAA AACAATATTGGATAAGGAAAATAATTCAATAGATAAAAAATTTAGGGGGAAAAATGAAAATATCAAAA GTCGATCATACCAGAATGGCGGTTGCTAAAGGTAATCAACACAGGAGAGATGAGATTAGTGGGATTCT CTATAAGGATCCGACAAAGACAGGAAGTATAGATTTTGATGAACGATTCAAAAAACTGAATTGTTCGGCGAAGATACTTTATCATGTATTCAATGGAATTGCTGAGGGAAGCAATAAATACAAAAATATTGTTGATA AAGTAAATAACAATTTAGATAGGGTCTTATTTACAGGTAAGAGCTATGATCGAAAATCTATCATAGACAT AGATACTGTTCTTAGAAATGTTGAGAAAATTAATGCATTTGATCGAATTTCAACAGAGGAAAGAGAAC AAATAATTGACGATTTGTTAGAAATACAATTGAGGAAGGGGTTAAGGAAAGGAAAAGCTGGATTAAG AGAGGTATTACTAATTGGTGCTGGTGTAATAGTTAGAACCGATAAGAAGCAGGAAATAGCTGATTTTCT GGAGATTTTAGATGAAGATTTCAATAAGACGAATCAGGCTAAGAACATAAAATTGTCTATTGAGAATC AGGGGTTGGTGGTCTCGCCTGTATCAAGGGGAGAGGAACGGATTTTTGATGTCAGTGGCGCACAAAA GGGAAAAAGCAGCAAAAAAGCGCAGGAGAAAGAGGCACTATCTGCATTTCTGTTAGATTATGCTGAT CTTGATAAGAATGTCAGGTTTGAGTATTTACGTAAAATTAGAAGACTGATAAATCTATATTTCTATGTCA AAAATGATGATGTTATGTCTTTAACTGAAATTCCGGCAGAAGTGAATCTGGAAAAAGATTTTGATATCT GGAGAGATCACGAACAAAGAAAGGAAGAGAATGGAGATTTTGTTGGATGTCCGGACATACTTTTGGCAGATCGTGATGTGAAGAAAAGTAACAGTAAGCAGGTAAAAATTGCAGAGAGGCAATTAAGGGAGTC AATACGTGAAAAAAATATAAAACGATATAGATTTAGCATAAAAACGATTGAAAAGGATGATGGAACAT ACTTTTTTGCAAATAAGCAGATAAGTGTATTTTGGATTCATCGCATTGAAAATGCTGTAGAACGTATATT AGGATCTATTAATGATAAAAAACTGTATAGATTACGTTTAGGATATCTAGGAGAAAAAGTATGGAAGGA CATACTCAATTTTCTCAGCATAAAATACATTGCAGTAGGCAAGGCAGTATTCAATTTTGCAATGGATGA TCTGCAGGAGAAGGATAGAGATATAGAACCCGGCAAGATATCAGAAAATGCAGTAAATGGATTGACTT CGTTTGATTATGAGCAAATAAAGGCAGATGAGATGCTGCAGAGAGAAGTTGCTGTTAATGTAGCATTC GCAGCAAATAATCTTGCTAGAGTAACTGTAGATATTCCGCAAAATGGAGAAAAAGAGGATATCCTTCT TTGGAATAAAAGTGACATAAAAAAATACAAAAAGAATTCAAAGAAAGGTATTCTGAAATCTATACTTC AGTTTTTTGGTGGTGCTTCAACTTGGAATATGAAAATGTTTGAGATTGCATATCATGATCAGCCAGGTG ATTACGAAGAAAACTACCTATATGACATTATTCAGATCATTTACTCGCTCAGAAATAAGAGCTTTCATTT CAAGACATATGATCATGGGGATAAGAATTGGAATAGAGAACTGATAGGAAAGATGATTGAGCATGATG CTGAAAGAGTCATTTCTGTTGAGAGGGAAAAGTTTCATTCCAATAACCTGCCGATGTTTTATAAAGAC GCTGATCTAAAGAAAATATTGGATCTCTTGTATAGCGATTATGCAGGACGTGCATCTCAGGTTCCGGCA TTTAACACTGTCTTGGTTCGAAAGAACTTTCCGGAATTTCTTAGGAAAGATATGGGCTACAAGGTTCA TTTTAACAATCCTGAAGTAGAGAATCAGTGGCACAGTGCGGTGTATTACCTATATAAAGAGATTTATTA CAATCTATTTTTGAGAGATAAAGAGGTAAAGAATCTTTTTTATACTTCATTAAAAAATATAAGAAGTGA AGTTTCGGACAAAAAACAAAAGTTAGCTTCAGATGATTTTGCATCCAGGTGTGAAGAAATAGAGGAT AGAAGTCTTCCGGAAATTTGTCAGATAATAATGACAGAATACAATGCGCAGAACTTTGGTAATAGAAA AGTTAAATCTCAGCGTGTTATTGAAAAAAATAAGGATATTTTCAGACATTATAAAATGCTTTTGATAAA GACTTTAGCAGGTGCTTTTTCTCTTTATTTGAAGCAGGAAAGATTTGCATTTATTGGTAAGGCAACACC TATACCATACGAAACAACCGATGTTAAGAATTTTTTGCCTGAATGGAAATCCGGAATGTATGCATCGTT TGTAGAGGAGATAAAGAATAATCTTGATCTTCAAGAATGGTATATCGTCGGACGATTCCTTAATGGGAGGATGCTCAATCAATTGGCAGGAAGCCTGCGGTCATACATACAGTATGCGGAAGATATAGAACGTCGTG CTGCAGAAAATAGGAATAAGCTTTTCTCCAAGCCTGATGAAAAGATTGAAGCATGTAAAAAAGCGGT CAGAGTGCTTGATTTGTGTATAAAAATTTCAACTAGAATATCTGCGGAATTTACTGACTATTTTGATAGT GAAGATGATTATGCAGATTATCTTGAAAAATATCTCAAGTATCAGGATGATGCCATTAAGGAATTGTCA GGATCTTCGTATGCTGCGTTGGATCATTTTTGCAACAAGGATGATCTGAAATTTGATATCTATGTAAATG CCGGACAGAAGCCTATCTTACAGAGAAATATCGTGATGGCAAAGCTTTTTGGACCAGATAACATTTTG TCTGAAGTTATGGAAAAGGTAACAGAAAGTGCCATACGAGAATACTATGACTATCTGAAGAAAGTTTC AGGATATCGGGTAAGGGGAAAATGTAGTACAGAGAAAGAACAGGAAGATCTGCTAAAGTTCCAAAGA TTGAAAAACGCAGTAGAATTCCGGGATGTTACTGAATATGCTGAGGTTATTAATGAGCTTTTAGGACA GTTGATAAGTTGGTCATATCTTAGGGAGAGGGATCTATTATATTTCCAGCTGGGATTCCATTACATGTGT CTGAAAAACAAATCTTTCAAACCGGCAGAATATGTGGATATTCGTAGAAATAATGGTACGATTATACAT AATGCGATACTTTACCAGATTGTTTCGATGTATATTAATGGACTGGATTTCTATAGTTGTGATAAAGAAGGGAAAACGCTCAAACCAATTGAAACAGGAAAGGGCGTAGGAAGTAAGATAGGACAATTTATAAAGTA TTCCCAGTATTTATACAATGATCCGTCATATAAGCTTGAGATCTATAATGCAGGATTAGAAGTTTTTGAA AACATTGATGAACATGATAATATTACAGATCTTAGAAAGTATGTGGATCATTTTAAGTATTATGCATATGG TAATAAAATGAGCCTGCTTGATCTGTATAGTGAATTCTTCGATCGTTTCTTTACATATGATATGAAGTATC AGAAGAATGTAGTGAATGTGTTGGAGAATATCCTTTTAAGGCATTTTGTAATTTTCTATCCGAAGTTTG GATCAGGAAAAAAAGATGTTGGAATTAGGGATTGTAAAAAAGAAAGAGCTCAGATTGAAATAAGTGA GCAGAGCCTCACATCGGAAGACTTCATGTTTAAGCTTGACGACAAAGCAGGAGAAGAAGCAAAGAA GTTTCCGGCAAGGGATGAACGTTATCTCCAGACAATAGCCAAGTTGCTCTATTATCCTAACGAAATTGA GGATATGAACAGATTCATGAAGAAAGGAGAAACGATAAATAAAAAAGTTCAGTTTAATAGAAAAAAG AAGATAACCAGGAAACAAAAGAATAATTCATCAAACGAGGTATTGTCTTCAACTATGGGTTATTTATTT AAGAACATTAAATTGTAAAAAAGATTCGTTGTAGATAATTGATAGGTAAAAGCTGACCGGAGCCTTTG GCTCCGGACAGTTGTATATAAGAGGATATTAATGACTGAAAATGATTTTTGTTGGAAGTCAGTTTTTTC TGTGGAAAGCGAAATCGAATATGATGAGTATGCATATGGCAGAAGAGCTGTAGAAGGCGAGAATACAT ATGATTACATTACTAAGGAAGAAAGACCGGAACTTAATGACGAATATGTAGCGAGACGTTGCATTTTC GGTAAAAAAGCAGGAAAAATATCCAGGTCGGATTTTAGTAGGATAAGATCTGCGTTGGATCATGCGAT GATAAATAATACACATACAGCATTTGCCAGATTTATCACTGAAAATCTGACGAGACTCAATCACAAAGA ACATTTTCTGAATGTGACACGTGCATATTCTAAACCTGATTCTGAAAAATTGATACAACCGAGATACTG GCAGTCGCCTGTAGTTCCAAAGGATAAACAAATATATTATAGCAAGAATGCGATTAAAAAATGGTGTG GTTACGAAGATGATATTCCGCCTCGTTCTGTGATAGTTCAGATGTGTCTATTGTGGGGGACTGATCATG AAGAGGCAGATCATATCCTTCGCAGTTCAGGATACGCGGCGCTTAGTCCTGTTGTACTTCGAGATCTTA TCTATATGTATTATCTGGATCATCAGGATTTGCAAAAAAATGAGTTGATATGGGAAGTAAAAAAGCAGT TGGATCACTTCGATTTGACAAATAGAAATTATGATACAAATCCTTTTGATGTAGGGGGCAGCGTAAATG ATCATATCTGTGAACTGAGCGAGCATATAGCGAAGGCTCATTATATTTATGAGAGGGCTAAGGAAGGAC CATTGCAAAATGTAATTCGGGATATTTTGGGAGATACACCTGCCCTTTATTCTGAAATGGCATTTCCTCAGCTAGCATCTATAAACAGGTGTGCTTGCAATTCGCTTTCTTCATATCAAAAAAATATTTTTGATACTGAC ATAGCTATATATGCAGATGAAAAGGACACAAGAGGTAAATCAGACCGTATCCTTGTTGAGGGCGCATC TTCGAAATGGTATGAATTGAAGAAACGCGATGCTAATAATGTCAAAATTTCTGAAAAGCTGAGTATACT CAATACTATTCTTAAATTTAATAGTGTTTTTTGGGAAGAATGTTACCTTGATGGAAATATAAAACAATCG AGCGGAAAGCGATCTGAGGCAGGAAAAATTCTTTATGGTCGCGACAACGGAAAAGAAAATGTCGGA GTTTCAAAATTGGAATTGGTGCGGTATATGATAGCTGCAGGTCAGGAACAAAATCTGGGAAATTACCT GGTGAGTTCAGGATTTTGGAGAAAAAATCATATGCTGTCATTTATACAAGGCAATGATATAGCGCTTGA TGAGATGGATGAATTGGATCTCTTAGACTATATTCTGATATATGCATGGGGATTTAGGGAAAATATCATT AAAAAGAACAGTAATGTGAATTCTTTGGATGAAAAGACTAGAAAAGTGCAGTTTCCGTTTATAAAGTT ACTCATGGCAATTGCAAGAGATATCCAGATACTTATATGTTCAGCACATGAAAAAACAGTCGATGAGT CATCTCGAAATGCAGCAAAGAAGATAGATATATTGGGAAATTATATTCCTTTTCAGATTCATCTTCAGAG AACTAAAAAAGATGGTGGAAGAGTGGTAATGGATACATTGTGTGCTGATTGGATTGCGGATTATGAATGGTACATTGATCTTGAGAAAGGAACACTTGGATGAGCAGTGATGAAAGGATATTTAAAAAATTTTTGG AAAAAGGATCGATTTCTGAGCAGAAAAAGATGCTTTTAGAAGAAAAGAAATGTTCGGATAAACTAAC TGCACTGCTTGGGAATTACTGCATACCGATAGACAATATTTCAGAGTCAGACGGAAAAATATATGCGGT CTATAAGCTTCCAAAAAATGTTAAACCTTTGTCCGAAATCATTAATGATGTATCCTTTTCTGATTGTACG ATGAGAGTACGTTTGCTTCTCATAAAGAGAATTCTGGAACTCGTGTGTGCTTTTCACGAAAAAAAATG GTATTGTCTCAGTATTTCACCGGGAATGCTCATGGTTGAAGATTTTGATATACCGATGGGAAATGTCGG AAAAGTATTGATATATGATTTCAGAAATCCTGTTCCGTTCGAGTCAGTAAATGAAAGACATAATTTTAA CGTTTCAAATAAATACACTTCACCGGAGCTGCTCATCCATTCAAGATATGACGAGTCGAAATCTGTGA GTGAAAAATCAGATTTGTATTCTGTTGCAAAAATTGCGGAAACAATAATAGGAGATTTTAACAGTATTA TTGCAAATGGAAATTTGATACTACTTGCAATGCTTAGAGTTTTTATCAGTACAGGGAAAAGTCCGGAA CCTGAGTATCGGTTTGAATCGTCGGAAAATATGCTTTCAGTATTTGAAAATTTGATCAAAGAAAATTGT TTTTTTGAAAAAAACGATTATACATCTATGTTTCATCAGGCGTATGACAATTTTTTTGAATGGCAGGAATGTTTGATATCACCGGATCACTTGGATAAAAATATGTTCGAGGCAGCTTTATCAAATCTTGAGGATCAGC TGCTTAGGGTTGATATTGATAAGTATAGAGCAGAGTACTTCTATAAGCTTCTCCGAGAGTTGTCTAATA AATATAAAAATACAATTACTGATGAACAAAAGGTAAGGTTGGCAATACTTGGAATCAGAGCGAAAAAT AATCTGGGAAAAAGTTTTGATGCATTGGAAATATATGAGTCAGTACGTGATTTAGAAACTATGTTGGAG GAGATGGCAGAGCTTAGTCCTGTCATTGCTTCGACATATATGGATTGCTACCGATATGCAGATGCGCAG AAAGTGGCGGAAGAAAACATTATCAGGCTTCATAATAGTAATATTCGTATGGAGAAAAAAAGAATACT GCTTGGAAGGTCATATAGTTCAAAAGGGTGCAGCATGGGGTTTCAGCATATTCTTGGTGCGGATGAGT CATTTGAACAGGCTTTATATTTCTTTAACGAAAAGGACAATTTTTGGAAAGAAATATTTGAGAGCAGA AATTTAGAGGACAGCGATAGACTTATAAAGTCTTTACGAAGCAATACGCATATTACGCTGTTTCATTAC ATGCAATATGCATGTGAAACAAGGAGAAAGGAATTATATGGAGCACTTTCAGACAAATATTTTATAGGT AAAGAATGGACAGAAAGACTCAAAGCATATATAAGCAACAAGGATATATGGAAAAACTATTATGAGAT ATATATTCTGCTAAAGGGTATTTATTGCTTCTATCCAGAAGTCATGTGTTCGTCTGCGTTTTATGATGAAATCCAAAAAATGTACGATCTTGAATTTGAAAAGGAAAAAATGTTTTACCCATTGAGTCTGATAGAACTG TATCTTGCTCTGATAGAGATAAAAGTTAATGGGAGTCTGACGGAGAATGCCGAGAAGTTGTTTAAACA GGCATTGACACATGACAATGAAGTCAAAAAAGGAAATATGAATATTCAGACCGCCATTTGGTATCGAA TATATGCACTGTATAACGATGTAAAAGATGAAACTGATAAGAATAAAAGGCTTTTAAAACGGCTTATGA TTCTTTGCCGACGATTTGGTTGGGCGGATATGTATAGTGCTTTGGAGAAGGATGGGAAGTTAATTGATT TTTTGAGATTTGAGGTATGTTAAATGATAACACTTGCATTAGATGAAAATGGCAAATTTGAAGATGCTT TTTCTAAAAAAAATGAAAAACCGATAATGATTGCGGGGATAATCTATGATGACAAGGGGAAAGAGTAT GATGCTGAGAATGAACGCTACAGGATATCCAGTTATCTGCGAGCAGTATGTGACAGTTTGGGTGCGAA ATACCCTCAGGATCTACATTCAAATAGTAATGGAAATAAGGCGACTGTTGGGAAAGTAAAATGTAAAA TTGGTGAAACACTAAAGGAATTCTTGAGAGAAGGAACCTATGAAAAAAAGGAATTGCCGACAAAGA ACGGTTATTTAAATAAGAGATCTGGAAAATATGTAATGTTTGCAGAACTCAGGAGTAGTCAGGGAGTTAAAAAGCGTGTTAGTGGTTGGAATGACAATGATCTGACTCAGGATGAAAAGGTCAGCAATCTGTACC TTCATATGGCAGAAAATGCCGTTGTCAGAATGCTCTTCCATAATCCTATATATGAAGATGTAACAGATGT AAATCTCTATTTTCCCACGCGAAAAGTTGTTCTGAAAGATAGAGATAGAGAATACGATAAACAAGATT TCAAAATATATGGTGATAAGGACAAGTGCGAAGCAGAAAGCGGGAGATTGGTGCATTATGATATCGTG TCATCGGATTTTTACCGTACGATAATGGAGAACGAATGTACAAGAATTAATAAAAAGCAATTAAATGTT CATTATATGAACACAAGCCCAATTTCGTACTGGGAGAAAAATGAAAAATATAATACATTTTTATATTTGG CTGACATAGTTTGTTCTATGCTGGATTATTACAAAAAGGGTTCGAGTCCGGCAGAGTGGATGGATTCTT TTGCCGAATGGGGAAACAAATATTTTGGTGATGATCAGATAATCTTATTTGGGTATGATGATATAGATGA CAAATACATGGAGGCTGTAGATGCAGTAGGACAGGGAGAGTATTTTCATGCGCTGGATATTATATATGA TGCGGAATGTAGTGGAAGTGAATTTGAGAAGCACTACAAAGATTATTGGTTTCCAAAGCTTATAAAAA AGATACGAATAACAGCAACTGTGGATAATTTATGCAGATCGATCTCAGATCTGGAGAGTTTTACATATC GAAGTAATCTTGATCAGCAGAAACTTTTGTGGATTTTTGAGGAAATCAAAGCTATCGTCGATAAGGGAGATTTTGGAAAGAAATATCATACAGATCAGGTTATGTTTGATATGTGTAATGCCGGTATTGCTGTGTACA ATCATATCGGAGATTTTGGGACTGCAAAGGAATACTATGATGAGTGCATGAAACACACTGGGGATGTG GATCTGGTAAAGATACTTCGTGCATCAAATAAAATGGTGGTCTTTCTTGACGATGCTTTTAGGTATGGT GACGCGACAGAACGTGCCAGGAAGAATGTTGAATACCAAAAAGCTTTGCACGATATAAAGAGTGAGA TTTGTCCGGAAAAGAAAGATGAAGACTTGAACTATGCCATATCGCTCAGTCAATTTGGACAGGCGCTT GCGTGTGAAAAAAATTCTGATGCAGAGAGTGTTTTCCTAGAGTCGTTGCGGCATATGAGGAAAGGGA CTGCCAATTATCAGATTACTCTTTCATATTTACTCCATTTTTATCTGGATATGGGAATGACAGATTCTTAT CGAGAAAAAACAAAGGACTATTTTGGAAGTGAAAAACCAAAGGAACAGCTGAAAGAATTGCTGAAG TTATCGGGAAAGGATGATAGTATAGTTACTTTCAAATTTGCAATGTATGTCTATTTACGTGCACTTTGGG TATTACAGGAACCGCTTACTGATTTTATCAGAACAAGATTAGAGGACATACGTGAGACTCTTGTAAAG AAGAAAATGAGTGAACATATGGTTGGACATCCGTGGGAGTTGATTTATAAATATCTGGCATTTCTTTTTT ATCGTGATGGAAATTGTGAAGCTGCTGAAAAATATATTCATAAAAGTGAAGAGTGCTTGGAAACACAA GGACTGACTATAGATGCGATTATTCATAATGGTAAGTATGAATATGCAGAATTGTCAGGTGACGAGGAG ATGATGGCAAGAGAGAAAGCGTACTTTGATGAAAAAGGGATAGATAGAAAAAATGTTTGTACTTTTAT GTATCATTGATGTTTAATAAGATTTGACCGAGGAGTGACAGGTAATCGCCGGTATATCTGGTATTACCTG TCATTTTTTGATGAAATAAGCTACTTTTTGCCTAAAAAACGAAACTGTTGGTGTTTTATGATGATTGTGT CAACAAAAGAGAGCAAAAGAAGAGGAGAAAAGTAATGTCAATGATTTCATGTCCGAATTGTGGTGG AGAGATATCTGAAAGGTCAAAGAAATGTGTTCATTGTGGATATGTGTTAGTCGAAGAAGCTAAAGTAG TGTGCACAGAATGTGGAACTGAGGTAGAGAGTGGCGCTGCTGTATGTCCGAAGTGCGGCTGTCCTGT AAATGATAGTGAGACGCCTCAGAAAGTTGAAGTGACTAGGGTAAATGTATCTTCCGTAATCAGCAAAA AAGTCGTTGTAAGCATACTGATCGCAGTGATTACAATTGCAGGTTTTTTCTATGGAGTGAAGTATTCGC AGGAAAAGAAAGCAATTGAAGAGTCAGTAAAGCAGAAGGAAGACTATCAAAGTACGCTAGAGCTTG CTTCGCTAATGATGCTTCAAGGAGCTTCGGATGCAGAAACTTGTGGGAATTTGGTTAGGAAAGTGTGG AGCAACTGCATTTATAAGGAGAGGGATGAAGAAACCGACAAGTATACGTGTGATAGCAGGGGTGCAG GATGGTTTTATGATGATTTTAATGATGCATTAATGGCTCTTTACAGTGACAGCAGTTTTGGCAAGAAGAT AAATGAAATCAAAAACGGTCAGGAAACCGTTGCGGCGATGATGAAAGATCTGAAAAATCCGCCGGAT GAGATGGCAGATGCCTATGAGGATATTCAAAATTTTTATGTGTCCTATCTAACGCTGACAGAAATGGTT GTGAATCCAACTGGAAGTTTGAGTTCTTTTTCATCTGATTTTTCCGATGCGGATACGGAGGTGTCCAAT GCCTATAGCCGGATGAAGTTGTATTTAGATTAAACTATTGAGGAAAAAATGGAGGTGCTTTAATGCGGG GGAGAAACTGTGGAGGGTCATCAGGCGACGGACTGCTGGTACTTCTCGTACTGCTTGTCCTTTTTTAT AAAATCATGCCATTCATAGGTTTATGGATTTTAATTTTTGGTGATGCTGAACGTAAAGATCTGGGTATGG GTATGATTATTGTCGGGATAGTTCTATATGTATTATTAGAGGTTTTTTAATGTGAGTTTCTGTGGTAAACT ATAAAAGTACAAGCTTTTGCGCCGCACCGCATAAATAGCGGATTTATGACCATTATTTGGTGAAAAAAA TGGTGTACACCTGTGTTTTTTTGTTTTGCGCCGCAAAATGCGCCACGGAACCGCATGCAGAGCACCCT GCAAGAGACAGGGTTATGAAAACAGCCCGACATAGAGGGCAATAGACACGGGGAGAAGTCATTTAAT AAGGCCACTGTTAAAAGTTATGAAAACAGCCCGACATAGAGGGCAATAGACATAAAGACCAAAAACA GGTCATCTGCATACTGTGTTATGAAAACAGCCCGATATAGAGGGTGTGAGAGATATAGTTCTCGTCACA GTGCAGAAAATGACCTATTATGTGCCGAAAAACAAAATGAAAAAAGAATGGAAAGGCGTATTTAATG AAATGCTGATCTGTTGATTTGAATTAACAAAAAAAGGTCGCCCCACGGATGACAAAAACATCCGGGG GCGACCCTTTT(SEQ ID NO:64)

>E-座位

TACTGTGTGCATAAGTCTTCCTTAGATCCATAGGTACAGCAGTTTTATTTATTAGCCTTAGAAAAT GGAAAATAGAGCTTATAAATGATATGATATTTATGAATAAAATGATTGCATTCTCGTGCAAACTTTAAAT ATATTGATTATATCCTTTACATTGGTTGTTTTAATTACTATTATTAAGTAGGAATACGATATACCTCTAAAT GAAAGAGGACTAAAACCCGCCAAAAGTATCAGAAAATGTTATTGCAGTAAGAGACTACCTCTATATGA AAGAGGACTAAAACTTTTAACAGTGGCCTTATTAAATGACTTCTGTAAGAGACTACCTCTATATGAAA GAGGACTAAAACGTCTAATGTGGATAAGTATAAAAACGCTTATCCATCATTTAGGTGTTTTATTTTTTTG TGATTATATGTACAATAGAAGAGAGAAAAAAATCATTGAGGTGAAAACTATGAGAATTACTAAAGTAG AGGTTGATAGAAAAAAAGTACTAATTTCTAGGGATAAAAACGGGGGCAAGTTAGTTTATGAAAATGAA ATGCAAGATAATACAGAACAAATCATGCATCACAAAAAAAGTTCTTTTTACAAAAGTGTGGTAAACAA AACTATTTGTCGTCCTGAACAAAAACAAATGAAAAAATTAGTTCATGGATTATTACAAGAAAATAGTC AAGAAAAAATAAAAGTTTCAGATGTCACTAAACTTAATATCTCAAATTTCTTAAATCATCGTTTCAAAA AAAGTTTATATTATTTTCCTGAAAATAGTCCTGACAAAAGCGAAGAATACAGAATAGAAATAAATCTCT CCCAATTGTTAGAAGATAGCTTAAAAAAACAGCAAGGGACATTTATATGTTGGGAATCTTTTAGCAAAGACATGGAATTATACATTAATTGGGCGGAAAATTATATTTCATCAAAAACGAAGCTAATAAAAAAATCC ATTCGAAACAATAGAATTCAATCTACTGAATCAAGAAGTGGACAACTAATGGATAGATATATGAAAGA CATTTTAAATAAAAACAAACCTTTCGATATCCAATCAGTTAGCGAAAAGTACCAACTTGAAAAATTGA CTAGTGCTTTAAAAGCTACTTTTAAAGAAGCGAAGAAAAACGACAAAGAGATTAACTATAAGCTTAA GTCCACTCTCCAAAACCATGAAAGACAAATAATAGAAGAATTGAAGGAAAATTCCGAACTGAACCAA TTTAATATAGAAATAAGAAAACATCTTGAAACTTATTTTCCTATTAAGAAAACAAACAGAAAAGTTGG AGATATAAGGAATTTAGAAATAGGAGAAATCCAAAAAATAGTAAATCATCGGTTGAAAAATAAAATAG TTCAACGCATTCTCCAAGAAGGGAAATTAGCTTCTTATGAGATTGAATCAACAGTTAACTCTAATTCCT TACAAAAAATTAAAATTGAAGAAGCATTTGCCTTAAAGTTTATCAATGCTTGTTTATTTGCTTCTAACA ATTTAAGGAATATGGTATATCCTGTTTGCAAAAAGGATATATTAATGATAGGTGAATTTAAAAATAGTTT TAAAGAAATAAAACACAAAAAATTCATTCGTCAATGGTCGCAATTCTTCTCTCAAGAAATAACTGTTGATGACATTGAATTAGCTTCATGGGGGCTGAGAGGAGCCATTGCACCAATAAGAAATGAAATAATTCAT TTAAAGAAGCATAGCTGGAAAAAATTTTTTAATAACCCTACTTTCAAAGTGAAAAAAAGTAAAATAAT AAATGGGAAAACGAAAGATGTTACATCTGAATTCCTTTATAAAGAAACTTTATTTAAGGATTATTTCTAT AGTGAGTTAGATTCTGTTCCAGAATTGATTATTAATAAAATGGAAAGTAGCAAAATTTTAGATTATTATT CCAGTGACCAGCTTAACCAAGTTTTTACAATTCCGAATTTCGAATTATCTTTACTGACTTCGGCCGTTC CCTTTGCACCTAGCTTTAAACGAGTTTATTTGAAAGGCTTTGATTATCAGAATCAAGATGAAGCACAA CCGGATTATAATCTTAAATTAAATATCTATAACGAAAAAGCCTTTAATTCGGAGGCATTTCAGGCGCAAT ATTCATTATTTAAAATGGTTTATTATCAAGTCTTTTTACCGCAATTCACTACAAATAACGATTTATTTAAG TCAAGTGTGGATTTTATTTTAACATTAAACAAAGAACGGAAAGGTTACGCCAAAGCATTTCAAGATAT TCGAAAGATGAATAAAGATGAAAAGCCCTCAGAATATATGAGTTACATTCAGAGTCAATTAATGCTCTA TCAAAAAAAGCAAGAAGAAAAAGAGAAAATTAATCATTTTGAAAAATTTATAAATCAAGTGTTTATTA AAGGTTTCAATTCTTTTATAGAAAAGAATAGATTAACCTATATTTGCCATCCAACCAAAAACACAGTGC CAGAAAATGATAATATAGAAATACCTTTCCACACGGATATGGATGATTCCAATATTGCATTTTGGCTTAT GTGTAAATTATTAGATGCTAAACAACTTAGCGAATTACGTAATGAAATGATAAAATTCAGTTGTTCCTTA CAATCAACTGAAGAAATAAGCACATTTACCAAGGCGCGAGAAGTGATTGGTTTAGCTCTTTTAAATGG CGAAAAAGGATGTAATGATTGGAAAGAACTTTTTGATGATAAAGAAGCTTGGAAAAAGAACATGTCC TTATATGTTTCCGAGGAATTGCTTCAATCATTGCCGTACACACAAGAAGATGGTCAAACACCTGTAATT AATCGAAGTATCGATTTAGTAAAAAAATACGGTACAGAAACAATACTAGAGAAATTATTTTCCTCCTCA GATGATTATAAAGTTTCAGCTAAAGATATCGCAAAATTACATGAATATGATGTAACGGAGAAAATAGCA CAGCAAGAGAGTCTACATAAGCAATGGATAGAAAAGCCCGGTTTAGCCCGTGACTCAGCATGGACAA AAAAATACCAAAATGTGATTAATGATATTAGTAATTACCAATGGGCTAAGACAAAGGTCGAATTAACAC AAGTAAGGCATCTTCATCAATTAACTATTGATTTGCTTTCAAGGTTAGCAGGATATATGTCTATCGCTGA CCGTGATTTCCAGTTTTCTAGTAATTATATTTTAGAAAGAGAGAACTCTGAGTATAGAGTTACAAGTTG GATATTATTAAGTGAAAATAAAAATAAAAATAAATATAACGACTACGAATTGTATAATCTAAAAAATGCC TCTATAAAAGTATCATCAAAAAATGATCCCCAGTTAAAAGTTGATCTTAAGCAATTACGATTAACCTTAGAGTACTTAGAACTTTTTGATAACCGATTGAAAGAAAAACGAAATAACATTTCACATTTTAATTACCTT AACGGACAGTTAGGGAACTCTATTTTAGAATTATTTGACGATGCTCGAGATGTACTTTCCTATGATCGT AAACTAAAGAATGCGGTGTCTAAATCTTTGAAAGAAATTTTAAGCTCTCATGGAATGGAAGTGACATT TAAACCACTATATCAAACCAATCATCATTTAAAAATTGATAAACTCCAACCTAAAAAAATACACCACTT AGGTGAAAAAAGTACTGTTTCTTCAAATCAAGTTTCTAATGAATACTGTCAACTAGTAAGAACGCTATT AACGATGAAGTAATTCTTTTAAAGCACATTAATTACCTCTAAATGAAAAGAGGACTAAAACTGAAAGA GGACTAAAACACCAGATGTGGATAACTATATTAGTGGCTATTAAAAATTCGTCGATATTAGAGAGGAAA CTTTAGATGAAGATGAAATGGAAATTAAAAGAAAATGACGTTCGCAAAGGGGTGGTGGTCATTGAGT AAAATTGACATCGGAGAAGTAACCCACTTTTTACAAGGTCTAAAGAAAAGTAACGAAAACGCCCGAA AAATGATAGAAGACATTCAATCGGCTGTCAAAGCCTACGCTGATGATACAACTTTAAAAGGAAAAGC AGTGGATTCTTCACAAAGATACTTTGATGAAACGTATACTGTTATTTGTAAAAGTATCATAGAAGCATTAGATGAAAGCGAAGAGAGATTACAACAATATATTCATGATTTTGGAGATCAAGTGGATTCTTCACCTA ACGCACGAATTGATGCGGAATTACTACAAGAAGCAATGAGTAGGTTAGCTGACATAAAGCGGAAGCA AGAAGCACTTATGCAATCCTTATCTTCTTCTACAGCAACGCTTTACGAAGGCAAGCAACAAGCGTTAC ACACTCAATTCACGGATGCGCTGGAGCAAGAAAAAATATTGGAACGCTATATTACTTTTGAACAAACT CACGGGAATTTTTTTGACTCATTTGGAGAACTTGTCTATCGAACGGGACAAGCAGTGCGTGAATTAGC TAATAACGTCACATTCGAGAGCCAAACAGGAAGCTATCATTTTGATAAAATAGATGCTTCTAGATTCCA AACTTTGCAAGAAATGTTGCCAAAGGCAAAGAAAAAAGCATTTAATTTTAATGACTACCAAATAACAT GGAATGGCACCACGCACCTTTTATGGAAAAATGGTAAAGTGGATGCAGAAGCAACCAAAGCTTATAA CGAGGCGAAACTGAATGGAAAGCTACCAAAGGAAGGTAATGTAGCAACACAAGATGCAGAACTATTA AAAGGCATTTTGGCTTCACTGAAAAACAAGAAAGATCCTATCACTGGAGCAGATATAAGCAGTGTGCA TGTATTATCTATCCTTAGCGGGCTCGCATTCTCCTATACAGCTGGGAATTATAAGGGAAGAAAACTTACT GTTCCAAAAAGTTTCTTAGACAAATTAAAGAAAAACCGAAAATCTAAAGTACCTAAACTATCTAGTTT ATCAGAAAAACAACAACTAAAACTCGCAAATAAATACAAGAAAAAATCACCTATTCCAATTCCAGATG ATGCTAAAATCAAAGCTCAGACGAAAAAGGCTGGTTATGAACAAATATCTTATAAATGGAAAGAGAAT GGGATAACCTTTGAAGTTAGATGGCATACTAGGACACCAGGTGCACCAAAGGAACAAGGAAATACGT TTGTTATAGAAAGAAAAATTCAGGGTACAGCAGAAGGGAAAACAAAAGTTCAACAAATATTGGTTGG AGATAATAAGTGGGTGAGTAAAAGTGAGTGGCAAAAGGCTATAACTGATAAGAAAAATGGTGTAAGT ACCTCGGAGCAAAATAAAATGTTGTCTGATGGACATTGGAAAGAATAGAAAGGAGCAAAATGATGGA AGATTATTATAAAGGTTTTGAGGGATATCCAGAGATAGATTTTTATACGTATATAGATGATATGAAATTGG GTATAGCAATGTGGGAAGGATACTTTGACAACATTATGAAAGAAATTAATCCAAGTAACGGAAGATGG ACTTCATTAGCGTATTATTATCATTTAGATGAGGGGTGGTATGATGAAAGTCCTTGGGAAATACCAAGT AATACAGAAGCATTAGAATTATTGGAAACAATCCATATATCTAATCTAGATACTATCACACAAGAGATATTACTTAAATTAATAAATTTATTAAAGAAGAATATAAATAGACAAGTTTATATTGAATACTCATAAAAAAG ATGATTATGATATATTATAGAACAAACGAACAAGCCCCAAATACGAGGTTTGTTCGTTTGTTTTCAATAT AATTATTTGCCACCAAGTGAGATATTACGGTTTTAAATAGCTTATTTGACGATACCAAACCCTGATAAG AGAAAGAAGAAAGAGAAAGCTGGTGTAGTTGTTTTAAGTGAACTAGATAAAAAATTAATAGCAAAAC TTGAAAAAGATGGTGTGAAAATATCAAAAGAAGATGTTATAGGAATAAAATAATTGCCAGATGATGAG AAATCGTTTGGCTGGAAAAAGGAAATCCATCCGCTGGATTTGAGCATATTCTTATTGAACATGGTGAA CAATTTGCTAAATAGGGAATTTCAAAAGCTGAGTTACCTGATTTTTTGATGACTGCTTTAGAAAAGGA AA(SEQ ID NO:65)

>F-座位

ATTCTTTAAAAATATCTAATAATTTATTTACTATATACTCTAATACATCTTTTAACCTATCTAAAACATCATCACCTACAACATCCCAAAAATCATCTAAAAAGTTAAAAAAATCCATCTTTATCAACTCCTATATCT ATTTTTTATTGTGTAATTCCTGAGTTACAAAACCATTATAACACGTATTACACACGTAGTCAATACTTCA AAAAAATTTTTTGTATATTTTTTTGAATAAGTAAATAAAAAGAGCTGTGTAGCTCTTTATTAAAATCAAT ATTTTTATTTTGTTAACAAACTTAGACAACATTAAATTTAGAAACCTATATATATTTCAGTACTTTTCATT TTTAGGTAGTCTAAATCAGAAATGGTTTTGTCTAAATGATGTATGTAAGTTTTAGTCCCCTTCGTTTTTA GGGTAGTCTAAATCAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTTTAGTCCCCTTCGTTTTTAGGG TAGTCTAAATCCCATCCAAATTATGGGATAATATGTTACTTTTTATTTTAATATTTGATTATTTATTGTTTTT TTACTGATTTAGATTACCCCTTTAATTTATTTTACCATATTTTTCTCATAATGCAAACTAATATTCCAAAAT TTTTGTTTCTTTTCTTATGATCTTTTCTCCGATAGTTATTTCTCCAGATAAGATTTTCATTTTTTTGAATTG ATCTTCTGTTAGAATTAATGTTCTTACTGATGAATTTTCTGGAACTATCATTGACAACTGATTTTCATAG GAAATTATTTTTTCTTTTGTGCTAGAACTTACAATGTATACTGATTTTTGTACCTGATAATATCCTTTTCTT ATAATTTCTTTTCTAAATTTTGCATATTCTTTTTTTTCTTTTCCTGTTTGCATTGGAAAATCATACATTAGA ATCCCTACATAATTAGTACTCATAATCCTCTATCCTTAACTCAGGAATTTCTACTTCTGACATTTCTCCTG TAAAATAATTTCTAATATTATCTAAAAAATAATCAATCACTTGAGCCAATTCATATTTTTTATTTTTCCAAT AAACTTTTTGTGTTAATACCAATAACAATTTTTGTCTTAATGATTTATTCAAACTTACTTCTTCCTGTTGA TTAAAATATACGATATAATCTACCATTGGACGAAATATTTCAATAATATCATCTGCAAAATTATAATTATTA AATTGTGAACTGTGATGTATTCCCAAACTTGGATGAAATCCTTTAGCCACAATTTTTGAAGAGATTAAG CTTCTCAAAACCATATACCCATAATTTAATGCCGAATTTGTCCCGTCTTCACCAAATCTCTTAAATTTTTTCCCAAAAAGTTCACCAAAATACATTCTTGCAGCAATTGCTTCCTGATGTTCCGCTTCTTTTCCTTTTA ATCTAATATTATTTTCATATGCTTCCAACTTATATGATACTTCCTGAGATTTTTTCAAAAACTGCAATAAA TTTCTTTGATTTTCTATTTTTCTCATTACAATTTTTCTCCAGATTTCTTCTTTTTTATCGTCAATCCAGCTC ACTTGCTCATTAATTCTTGTTGTTACTTGAAAATGATTATACAGTCCTAATGAATGTAAAACTGGCTGAT GTTTTTCATTACAAATTATCAGTGGAATATTATGTTCTGATAATCTTAACTGTAATATTCCGCTAATTTTAC ATCTGCAATTTTCAACTACAATTGCCATGATATCATTTAAAGATACTTTATCAGCCTTATTTTCATCATCT TCATTTATCATCACAAGCTGGTTATTTAAAACTGATAATTCATTGACTCTTGTTACATGGATAATATTAGA CATTTTTATTACTCCTTTACTCTAAAGCTTTATATTCAAACATAACTTTCACAAGTTCACACAATTCTTCT GAATTTCTATCAGTCATTAATTTTTTCTTTTTTAAATTTTTCAAATGTACAATTTTTTCCGATTCTAAAGT CTGAATTTCTATTTTCTTATCTGCTCCTATTTTAAATGTTGCTACAAAACCATATTCCTTTAATATATCCAC TATTGATTTCATAATTGCATTTTTAAGTTTTCTATCATAAGAAAGTAATTTTCTTAAATTTTCCAGCACTT CTAAAAGTGAAATTTCAGCATGCGGAATATAGTTAAAATGTGCAATATAGTTTCGTATATACAAATCTTT TTTCTCTTGTTTTAATTTTTTTACTTTTTTATCAGAATAGATGCTTCTTTTTTCTACATTATCTTTGTATAAT TCTTTATAAAAATTTATATATTTTTCAACAATTTGCCCACTTTTATATTTTACATTTTTACTGTTATCAAAA TTAAATATTTCTTCAATATAATGATTTTCAGGAAATTCACCTTTCAATCTAAATCTTAAGTCCCTTTCCCA GATCGAAGTATATCCCACAAGTCTGTGGAGTATTTTTAATAACAAGCCTTGCAACAAGTTTAATTCATT AAATTCCACTTTATTTTTCAAATGAGTATATTTTTGTATATTTCCAATTGCTTTTTCATATTCTTTATAATCT TCATCATTAAATTTTTCATCTTTTTTAGGTCTTGCATATTTTCTATGTAAATTTTGCTGCATTGTATAATTT TTTTCTATTTCATTTTTTTTATTGCTGTATTCTTTCAATTCTTTTAAACTTATTTTATACTTCGCTTTATCAG CTATTTTTTCAAGTAAATTTAACATCCCATATTTTTTTATATTATAAAAAGCTCTATGCTTTATAATATTTTC TCCATCAAAATATATTTTATTTGTGTCAAATTTCTTCAATTCTTTCCTATCTTTTATTTTATTTTCATTAAAATCTAAAAATTTTCCAATTTCATTCGCTTCTAATTCAAAATCTTCTGTTACTCTATTATTATCTAAATTTAA AAGATTTATAAGTTCAAGTTCATCTGAAAAAGTTTCTTCTTTATTTGCACTCTGATATTTTTCAAGACTT CCCTTCAAATTAGTCAATTCTTTATGATTAAGCAATTTTAAAATTAAATAAAACATATTCAAATTTTCAG TGTATTTTAATATCTTTCCTAATTTTATCTCTCTTACAAATTCATTTATTTCATGTGGAATTTCTTTATTCCT ATTATGTTTTTCATAATTTTTTAAAATTTTATCATATTTTTCTTTATTATCTTTTTTTATTTTTATTTTAGAAA ATATATCATTATTATCATTGTTATTATTACTTTCTATATATTTTAAATTATTTTTATTCAAATAATCTATAAAA CCTTTTAAAAATATTTGTTGTATAAAATCAATGTATGTATTTTTTTCTTCTTTATCTTGATTATTAATCATCT CCCTACTTTGTATAATAGCAAGATATTCTACTGGTACAGTTTTTTCTATATTTTCAAATTTTTGATATTTAT AATGTCCTGTTTTTTGATTTCTTTGTTTATTTATTTTTATTACTTCATTAGTTATTTTAAAAAAAACTTTAC TATTTTTAACAAATTTATTAAGAAATTCACCATAATAAATATTTTTCAAAAGATATATTTGAGCATCTTTT TCTTCTTTATCCTTAGGAACACTCCAAAAAAATTTTAAAGTATTTCTTAAATCTTCTATTTTATTATATAA TTTCGTAAAAGAAGGAACAAAAGGAATATTCTTATTTACAAAATTAAATTTTGTATTTTTTAAATATTTA ATTATCACATCCTTTTCATAATAATTAAATACATTTGCACTATTTAACTGCTTAAATATCTTCAATTTCAAT TTTTTCTCATTTATTTCATTTTGAAACATTTTTTTTGAAATTTCAGAAGGAGCTATATTTTTAAATGCAAA TATATCTTTCCCTTCTAATTCCAAATTAAAATGCACAATCCCATGTCTAATACTGCTAATAGCTTCATCAA TATTTGCAAAAAAATCTTCTATCTCATTTTTATTATCCATATTAAAATCATAACTATAGAACATTTTTAAAT TTTCTTTTACTTCATTTTGCTTGTTTTCATTATATATTTTATCAACTTCTCCAGAAACATATTTTTCTTCGC CCTTATTATTTTTTACAGTTTTTCCTCTCATTCTACCTGTAATATCATTCTCATTTTCAGTTTCAAGAATAT TTCTCAATGAAAAATATGCAACCGAAGAAACTCCAATTATATTTCGTAAAAATGCTTCATTTTGTCTATT CCTAGCAATAAAATCACTTGTTGCAATCTCTCCAACTTGTAAATAATAATTGTATTTCCCACAATTTCTT ACATAAGTATCCAATTTATTTAGTAATTTGTTTTCAATTAATTTTTTTAAATTTTGATATTCAAATATTCTC TTAATTTTATCGTTACTTATGTTACTCAGTCTTTTATACACATAATTTTTCAAAAGCTGACTCATTTCAATTTCCACAAAATGACAAAAAGCATATTTTATATTTTTATCATTAAGTTCTTCTTTATCCAAATAATATTTATA AAACACTTGTGATTTTTTTAATTCACTCATATCCGGAATTTTTTCAATTAATTCTTTTATATTATTTACATT TTGTATTTCTTCGTAAATAATTTTAGCAAAATTTTCTTTATCATTTTTTCTTCCAATTATTTTGTGATAGTA TTCTCTTATTTTATATTTTTCATGTTTTTTTGAATTTTCTATTAAAAAAAATAACTTCTCAATATCTTCTTT TTTATACAATTTATCAAATGCTTCCTGTACATTATTTATATAATCATTACGCTTTGCTGATTCTCTATAATAA TCATAAATAATATTTCTTTTGCTCTTCCCTCCAACTTTTTCAACATTATTTTCATTAATTTTCTGATAATTA GCCTTATTTTCTTCAAATGAATATTTTAAAGAATTTATCTTATTCAATTTTGCCTCAACATCTTTTCTAAAT ATTTCTAATTCTTCAGAGTTCACATCTTCATTTAACAATATTTTCTTTAAAACTGAAAAACTATTTTTATT TTTTAAATCATATTCTGAAATATCTTCTTCAGAATAATTTTTATCCTGTACTGCATTTTTCTCTTTCCTATT CTTTAAATACAGAACACTATCTTTTAGATGCAATACTTTATTTGAAAAAAACTTTTTTAAATTTTCTCTT CTTATTCTATTTTCTTCTTCACTTGCATTATCAGGATTTTTTATATATATATCCAGTCTTATACTTAAAAGC TCTGACAATCTCTCACTAGTCCTATTTTCTTCGCTCGTACTTTTTACTAATTTTCCCTCTTCAATATATTTT TTATGCGAAATTCCATCAACTTTTGTAACTTTCATATATAAAAACCTCCTAATATCTATATTTTTTACTCAA TACCTAATTCTTTTTTCAATGCTTTTTGTAAAATTTGTGAAAAATTCAGATTTTTTTCCTGTGCCAATATA TCTAACCAAACAGGAATTGTTAAAGTTTTCTTTTTAAGTGCATTTGTAACTTTTGCCACTTCATACACT GGATCAACAGATAAAATATACAAATACTGATTTTCTTTCAGTTTCACATCCTCCACTTTTGAAGGCTCA GGAAATTTTTTTCTTACATCCAAAAAATCAGCCAAATGCAGACCCAATGTCTCTCTCAAATTGGAAAC AGCCTCCTCCATGCTATCTCCAAATGTAGCATAATAATTTATCTCTCCATCTTCAAACTTATCAAAATCA ACAATACAACCATAATAAGTCCCATCTTCCTTAGTTACCACTGCTGGATAAAATACATCCATTTTAATTATCTCCAATCTATACCACGTGTTAAATACGTGTTTAAAAATATTTATAAAATTTTTTAGCATCTCTGCTAAA ATAAAACAATTATTTCAAATTTTTCTATTCCTTAATCACTCATTGTTAGTGATTCTTTTTTTACTTGGACA ATTTTTCATTTAATTTCTTCAATTTTTTTAAAATCACATTTTTTTAATATTCCTTATTTAATTGCAAATTTTC ATTACTTTTGGGGTGCTCTAAATCCCATCCAAATTATGGGATAATAATTTTTAGTGAAAGCAAGAAGGG ACTAGAATTTAATCCCAACTTGTTTTTCAATACTTCTTAATGTTCCTACAGGTATATCTTTTGAATATGGT ACTGTGACCACACCTTCCACACCTGGGATCATCCATTGATAATGACTACCTCTTATACGCACAACTTTTCCGCCTAATTTTCTAAATCTTTTTTCGAT(SEQ ID NO:66)

>G-座位

CTTTCTATCTTTTTCAAATAAAATTAGGCTCTAGTTAGCCTAATCGCATAATTATTTATTATAGTATAATTCTTATTTTTTTTCAACCTAAAAATTTAAAACATCTCCAAAAATTTTCGTTTCAGAACAACCAAGC AACCATATTCAAAAAACAATAAAAAATGAGCAAGAATTGAAATTTTATTCTCACTCAGAAGTTATTTTT ATTAAATATCACTTTTCGATATTGGGGTGGTCTATATCAATTTAAAAGACAGAATAGATAATTCTTTAGA GTTTTAGTCCCCTTCGATATTGGGGTGGTCTATATCAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTT TAGTCCCCTTCGATATTGGGGTGGTCTATATCCCATCCTAATTTCTTGCTGATGAGATATTTATTTCTAAT TTTTCTATTTTGTCTTTATTTTCAATACTTTCAATCCTATTTTTCTCTTTATTAATAATATAGAACCACCCTA TACTATTATACCATATTTTTTGATTTTTCAAAATTCCAATATTTTGTTTTGTGAAATTTTTTCTCCCATTGT CACTTCTCCTGCAAGTACCTTCATTTTTTGAAACTGATCTTCTGTCAGGATAATGGAACGGATTGATGA ATTTTCTGGAGCGAGCATTGATAACTGTTTTTCTGCCAGTTCGATTTTTTCTTTTGTTTTCGACCTCATT ATATATACCGATTTTTGAAGCTGATAATATCCCTTTTCTATCAATTTTTTCCTAAAAGTCCTATATTCAAAT CTCTCAACATCTGTCTGCATAGGAAAATCATACATAAGCAGACCAAAATACTCAATACTCATAGTCCAT CACGCTCAATGTCGGAATTATCACTTCTTCATCTTTTACAAAATAATTTCGTATACTATCCAAATAATAGT CTACCGCTTGGAAAAAATCATATTTCTTATTGTTAAATAATACCTTCTGCTGTGCTACAAGAAGTATTTT TTGCCTTATTTCCTTACTTAATTTCACTTCATTCAAAATATCCTTGTACATATAAACAAGATAATCCACCA TAGGACGAAAAACCTCTATTATATCATCAGAAAAATTATAGGCATTAAACTGTGACTTATGATGTAATCC TAAACTTGGATGAAATCCTTTTGCTACAATCTTTGATGATATTATAGCTCTTAAAATCATATATCCATAAT TAAGTGCAGAATTCACTCCATCTTCATCAAATCTTTTAAAACTATTACTATACAATTCCTGAAAATATAT CCTTGAAGCTATTGCTTCCTGATGTTCTGCACTCGCATCATCTTTTTTCAAGTTTTCCTTATATGTTTTCA GTCTTTCAATGGAAATATCACTTTTTTCAAGATACTCTAACAATGCTCTTTGATTTTCAATCTTATTCTCC ACTATCCTGCTCCACAATTTTTCCTTTTTCTCTTTTTCCCACTCAATCTGCTCATTTATTCGTAAAGTCAC TTGAAAATGATTAAATAATCCCAGCGAATGAATTTCAGGCTGATGTTTCTCGTTGCAAATAATAATCGG AATGTTATTTTCCACCAGCCTCAACTGCAAAATCGCACTAATCTTACAATAGCAGTTTTCAATAACTATC GCAGATATATCATTCAAAGAAATCTTATTTTTCTCATCATTATTGTCTTCATCAACCATTATAAGCTGATT ATTCGATATTGACAAATCATCAGCCCTTGTTATGTGAATTATATTGGGCATTTTAATCATACTCCTTATAA ATTTCATTCTTATAACGTATCATTCGTATTTTCTATTTTTGTTAAAAGTTCTATTATCAAGTTTTTAATATAA TCAGAATTATAACTTTCTAATTCTAAAACAGAAACTTTTTTAGGTTTCATTAATCTTTCAAGTATATCATT ATTACCGATAAGTTTAAATTTTTTCTTTAATTCATCATAATCTAAATTCACATCTTTTTTAAATACTTCAAA TACACTTGCATAAGTTGAATTATTATAACGTGTACTATATGATAATAAATTAGAAACTCTATCAATTTGTT CTGCAATACTGTAATCAGCAAACGGATTTCTTACAATATAGAAATGTGAAATATAGTTTCTAATACTTTC ATTTTCCGGCTTATTAATTTCAGAATTTTCAGACAAATCAATTCCAAATCCATAACATATTTTCTCAAATT TTTTATAAGATTCTTCATCAAAAAATTTATAGTATGCTGTTGTTGTATAAAAGCCATCAGATCCATTACG CTTAGGATAAGCTCTACTTATTCCAGTATTGTAGCCACTTAACTTAATAATTCCTAATTCTCTTAGCCCAT TTACAATATAGTGCATATCTCTTTCAAATCTAGCCATTTGAATAGCAAGTTTCCAATTTATATCTATCAAA TAACTTTCTATTTTATTCAAATAATTAAATTCTACCAAATCTCTAATTTTTTTGTATTCAGAAACTCTATTA TAATCTTTTTCAAATGATTTATAGTTTTTATTTTGTATATTTTTTGCAAAAAAGTCATCATTTTCTTTCAATTTTTTTATATACTTCTCTTTGTATTCTTTAGAATATCCATTTAGTTTATCATTTAGATTTTTCAATATTGCAT CAATTTCAGATATTTTATTTTTTCTAATATTTTTACCATCAATATTAAATAAAAATTTTGCATCAGCCATTT TAATATCATTTGAAATTAATCCATAAATTTTATCAAAATTTGGATTTCCAATATTTAAAAATAAATTCTTTT TATAAATATATAATTCATTCTTACGTTCTTTAGGATAATATATTTCTTGAAATTTATTTTCATTCTCTGATTC CATATCTTCTATTAAATTATCTATTTCTTTTTTGTATTTTTTTAAAAAATCAGAATTAAATATTATTCTACA CAATATTTTACTCTTTATTTCCTGATCTTTATCTTTTATATACTGATCAACCTTTTTTTTCAAATCCTTTTTA TTTATGTTTGATAACTTTCTTTGTTCATCTTGTAATATATTCGATTTTTTATCTATCTCAAATTTAGTTTCAT CATCAAAAATTACAATTTTTTCTAATTTTTTCTCTAAAACATCACAACCATTAATATCATCTTTAAATTCA GTTAATATATTATTTTTTATATCCTCATAATAATTATTAAAAATTTCTTTTTTAGTTTGTATTTTAAAATCAT CAAAGTCTTTTTCTATCTCTTTCATTTTTTGAATAAATTCTTCTAAATTAAGATTCCAATTTTCAGTTATA CATTCATTTCTCAAAGTATTTAATTGCATTATTTCATCTAAAATATCTATAATATTTTGATATTCTGAAGTA TTTAACCAAACTGATGTTGCAAAAAATCTATTTCTAATTTTATTTATAACCGCATTACTATTTAACAGTGC AAATATTGAAATTATATATTCAAAATCATCATTTATTACTATAGTTTTATCACTAGTCTTTACAGTTATTCT TTCGTAAGTTTTATTATCATTAATGTCTTTTATTTGTTTCTTAATTTCTTGAATATTCATTTTAAAATCTGA AAAATCAAAAAGTTCCTCATAATTTTTTCTCAAATATCCAATATAACATTCTATTACTTTTTTCTGATATT TTTTAATAGCTTTATTATTACCTTTTGAAGCAGAAATCTGAGCATTTTTATAATAATTTTCTATAATATTTT CATCTATTTCATCAATGTTTCCTAAAGTTTTCTTTAATTCTTGTAAAAATATATTCTTACTTTCATTTTCTT CTAAATCATCTTCTAAAATTAATTTCTTATACAATTCTTTATTCACATATATTAAAGCATTTAATACTATTT TTTCTGTTTCTATAGTATCAAATGGTTCATTCTTAGGATTATTCCTATATAAATTTAATATTTCAGGAAGTA CTTTAGAAAAGGATGGTAAATATTTAATATCATTATTATTTTCTTCTGAAATTTTAATATCATTTATTTTAG TAATTATATTTTTTTTATCTTTAAATACTACATCTAAATTTAATGCTTTTGACACTTCTTCATCTGATATTTT TAAATTTTGAATTATATTTATGACTTTATTATAGTCATCTTGCGTTCCTTGTAAATCTCTTTCCTTGCTAAT CGCATGTAATATCCTGTTTCTTTCATTTGTTCCTATCTTTGTAAATTTCCTAATAAAATTATTTGTAATGTT ATTTTTATTATCTATAAAATCTAAGTCTCTTATTATTTTTATTTTTGAATTTAAAATTTTTTTATCAAGTACG TAATTTTTTTCTCGATCTCCTCCAAAGAAATCTATATTTTCATCATTATTTATATTTTCTCTAGAAAAAATC TTATTTAATTCCATATTGGTAGAAGCAAAAAAAGTAATCAATTCTAAATCCAATTCCTCTTTAGCGTGAA GTCTAGAAAAATCATCAGTATTTACTGTTGTCATATCTATATCATTATGTCTTAATTTCCCTAAATACATAA TATGCTCTAACGTATATTGCTTAACTCTTTTTAAAATTTTTTCAGATAATATACTTTCATTTAAAATTTTTT CTATTTCTATTTTTTCCATTTTCTTTAATCTGACTTTTTGTTCATTTACCAATATTTTTTCAATTCTTCCTTT CAAATATCGATATATGATTTTATATAGTTCTTTTTCTTCATCAGATTTCTTTGAAAATTTTTTCGAATCAA AATTAACTTTATAATGTTTTTTAAATATTCCAAAAATTTCTGTATCACAATTTCCTTTTTTTAGTTCTTTTT CTAATTTTTTTATTAATTCATCTATTTTAAATTCTGCTAAAATTTTTTCTATTTTTTCTTTTATACTATTATTT TTTATATTTTCTACAAAAAATTTTACAATTTTATCTTTTTTATTTTCTCTTTCTATTTTAAATTTTTCGTGCT TATCTAATAGTACATAAGATTTTATATATGTTCTATTTCTTCTCTTTTCAAGAAATTCATTATTAACTTTTT TTACTTTTTCAATTCTTTTAGTAATATTCCAAAATTCTAACTCTTTTATAACAAAATCAGCTATATCTTCT ACTGTTAAATCTACATTTATATTTAAAATTTTTTCAACAAGCATTTTTTTATTTTTAGATTTCTTTTTATCA CCACCAACATTAAGATAAAATTTTACAAAACCCAGAATTTCTAAATTACTTTTTATTTTTTCTCTTATTTC CATAAAATTAGTCAAAATAACATCTATTTTATCATCTTTCAATAATTTTTCTCTTAAATGTTCTTCATAATA TCGATTTTCAAATACTTTTTCTGTTTCATTTTCAATTATTTTTTCTATAATCTTATATAAACTCATGTTAATA TTTTTAAAAATTTCGTAAATTGATTTTTTTGTTTCTAATTCATCATTTTCTATTATTCTTAATATTATTGAA CAATCATTTAGTGTTTTATTAGTATACTCATCTCTGATATCTATCTCTATTTCTTCTTCATTCTCTTGTCTCT TTATTTCTATTTTTTTATCATCTTTAGTTATTCCTTGCCTAATTGCTTCATCTATTATTTTCTTTTTTGTAAT CCCCAATGCTTTCAATTTCTCAGATTTTCCATATGCTTCTATATATAATACAACTTCTTCTGTTTCCAAAA AATCATCATTATTTTCTATTCTTATGATTCCTTCTTTACCTTTCAACTTAAATAGAATATTTCCTGCATGAA ATTTTCTTGTAAATTCTTTAAGAATATTATCATTTTTTTTGTAATTAATATATTTTCTAATAAATTTATTATTA TCAATTTTTTCTTTATTATTATTTTCATTAATATTTAAAATGTATTTGTTTCCATCATAGTTCCTTTTAACTT TTACTTTCCGTTTTATTTTAAAATCTTTTTTATCACGAACTTCATACCATCTCTTATGTCCAAATAAATTT CCCATTCCAATCTCCTCGTTTCTACTTTAATCTAATAAAATATTTTTAAATTAAATCAATTTTACATCTTTC TAATCAAAAATACAATTTTCCATTTTTAGTATACCACATCAATATTAAATCTCAAAAAAATAAGGAGCCG TCAAACATAGCTCCCTACTTCTATTTACTCATAATCCCCATCTATCCTTACTTTTCGTAAAATCAATCCTT CTTTCGCCTTTAGATCCAACTTAATTTTCCCATTTGAACCTGTTCTAAATGTTCTGCCTTCTGTTACCAAATCAATAAATCTTTCATCCTGATAATTTGTTTCAAATTCCACATTTTCCCAGCTGTTAAACGAATTATTTA TTACAACAATAATTAAATGATCCTCGATTACTCTTTCATACACAATTATTT(SEQ ID NO:67)

实例3：Cpf1和相关组分的进一步评价

申请人使用Cas-Cpf1直向同源物进行序列比对并且比较结构域结构和组构(图38A-图38N)。 Cpf1座位比对的综述示出在图39中。

以下列出了不同直向同源物中的Cpf1座位序列：

>KKP36646_(修饰的)假定蛋白UR27_C0015G0004[Parcubacteria细菌GW2011_GWA2_33_10]

MSNFFKNFTNLYELSKTLRFELKPVGDTLTNMKDHLEYDEKLQTFLKDQNIDDAYQALKPQFDEI HEEFITDSLESKKAKEIDFSEYLDLFQEKKELNDSEKKLRNKIGETFNKAGEKWKKEKYPQYEWKKGSKI ANGADILSCQDMLQFIKYKNPEDEKIKNYIDDTLKGFFTYFGGFNQNRANYYETKKEASTAVATRIVHEN LPKFCDNVIQFKHIIKRKKDGTVEKTERKTEYLNAYQYLKNNNKITQIKDAETEKMIESTPIAEKIFDVYYF SSCLSQKQIEEYNRIIGHYNLLINLYNQAKRSEGKHLSANEKKYKDLPKFKTLYKQIGCGKKKDLFYTIKC DTEEEANKSRNEGKESHSVEEIINKAQEAINKYFKSNNDCENINTVPDFINYILTKENYEGVYWSKAAMN TISDKYFANYHDLQDRLKEAKVFQKADKKSEDDIKIPEAIELSGLFGVLDSLADWQTTLFKSSILSNEDKL KIITDSQTPSEALLKMIFNDIEKNMESFLKETNDIITLKKYKGNKEGTEKIKQWFDYTLAINRMLKYFLVK ENKIKGNSLDTNISEALKTLIYSDDAEWFKWYDALRNYLTQKPQDEAKENKLKLNFDNPSLAGGWDVN KECSNFCVILKDKNEKKYLAIMKKGENTLFQKEWTEGRGKNLTKKSNPLFEINNCEILSKMEYDFWADV SKMIPKCSTQLKAVVNHFKQSDNEFIFPIGYKVTSGEKFREECKISKQDFELNNKVFNKNELSVTAMRYDL SSTQEKQYIKAFQKEYWELLFKQEKRDTKLTNNEIFNEWINFCNKKYSELLSWERKYKDALTNWINFCK YFLSKYPKTTLFNYSFKESENYNSLDEFYRDVDICSYKLNINTTINKSILDRLVEEGKLYLFEIKNQDSNDG KSIGHKNNLHTIYWNAIFENFDNRPKLNGEAEIFYRKAISKDKLGIVKGKKTKNGTEIIKNYRFSKEKFILH VPITLNFCSNNEYVNDIVNTKFYNFSNLHFLGIDRGEKHLAYYSLVNKNGEIVDQGTLNLPFTDKDGNQR SIKKEKYFYNKQEDKWEAKEVDCWNYNDLLDAMASNRDMARKNWQRIGTIKEAKNGYVSLVIRKIADLAVNNERPAFIVLEDLNTGFKRSRQKIDKSVYQKFELALAKKLNFLVDKNAKRDEIGSPTKALQLTPPVNN YGDIENKKQAGIMLYTRANYTSQTDPATGWRKTIYLKAGPEETTYKKDGKIKNKSVKDQIIETFTDIGFDG KDYYFEYDKGEFVDEKTGEIKPKKWRLYSGENGKSLDRFRGEREKDKYEWKIDKIDIVKILDDLFVNFD KNISLLKQLKEGVELTRNNEHGTGESLRFAINLIQQIRNTGNNERDNDFILSPVRDENGKHFDSREYWDKE TKGEKISMPSSGDANGAFNIARKGIIMNAHILANSDSKDLSLFVSDEEWDLHLNNKTEWKKQLNIFSSRK AMAKRKK(SEQ ID NO:68)

>KKR91555_(修饰的)假定蛋白UU43_C0004G0003[Parcubacteria(佛尔扣菌(Falkowbacteria))细菌GW2011_GWA2_41_14]

MLFFMSTDITNKPREKGVFDNFTNLYEFSKTLTFGLIPLKWDDNKKMIVEDEDFSVLRKYGVIEED KRIAESIKIAKFYLNILHRELIGKVLGSLKFEKKNLENYDRLLGEIEKNNKNENISEDKKKEIRKNFKKELSI AQDILLKKVGEVFESNGSGILSSKNCLDELTKRFTRQEVDKLRRENKDIGVEYPDVAYREKDGKEETKSFF AMDVGYLDDFHKNRKQLYSVKGKKNSLGRRILDNFEIFCKNKKLYEKYKNLDIDFSEIERNFNLTLEKVF DFDNYNERLTQEGLDEYAKILGGESNKQERTANIHGLNQIINLYIQKKQSEQKAEQKETGKKKIKFNKKD YPTFTCLQKQILSQVFRKEIIIESDRDLIRELKFFVEESKEKVDKARGIIEFLLNHEENDIDLAMVYLPKSKIN SFVYKVFKEPQDFLSVFQDGASNLDFVSFDKIKTHLENNKLTYKIFFKTLIKENHDFESFLILLQQEIDLLID GGETVTLGGKKESITSLDEKKNRLKEKLGWFEGKVRENEKMKDEEEGEFCSTVLAYSQAVLNITKRAEIF WLNEKQDAKVGEDNKDMIFYKKFDEFADDGFAPFFYFDKFGNYLKRRSRNTTKEIKLHFGNDDLLEGW DMNKEPEYWSFILRDRNQYYLGIGKKDGEIFHKKLGNSVEAVKEAYELENEADFYEKIDYKQLNIDRFEG IAFPKKTKTEEAFRQVCKKRADEFLGGDTYEFKILLAIKKEYDDFKARRQKEKDWDSKFSKEKMSKLIEY YITCLGKRDDWKRFNLNFRQPKEYEDRSDFVRHIQRQAYWIDPRKVSKDYVDKKVAEGEMFLFKVHNK DFYDFERKSEDKKNHTANLFTQYLLELFSCENIKNIKSKDLIESIFELDGKAEIRFRPKTDDVKLKIYQKKG KDVTYADKRDGNKEKEVIQHRRFAKDALTLHLKIRLNFGKHVNLFDFNKLVNTELFAKVPVKILGMDRG ENNLIYYCFLDEHGEIENGKCGSLNRVGEQIITLEDDKKVKEPVDYFQLLVDREGQRDWEQKNWQKMTR IKDLKKAYLGNVVSWISKEMLSGIKEGVVTIGVLEDLNSNFKRTRFFRERQVYQGFEKALVNKLGYLVDK KYDNYRNVYQFAPIVDSVEEMEKNKQIGTLVYVPASYTSKICPHPKCGWRERLYMKNSASKEKIVGLLKSDGIKISYDQKNDRFYFEYQWEQEHKSDGKKKKYSGVDKVFSNVSRMRWDVEQKKSIDFVDGTDGSITN KLKSLLKGKGIELDNINQQIVNQQKELGVEFFQSIIFYFNLIMQIRNYDKEKSGSEADYIQCPSCLFDSRKP EMNGKLSAITNGDANGAYNIARKGFMQLCRIRENPQEPMKLITNREWDEAVREWDIYSAAQKIPVLSEEN (SEQ ID NO:69)

>KDN25524_(修饰的)假定蛋白MBO_03467[牛莫拉氏菌237]

MLFQDFTHLYPLSKTVRFELKPIDRTLEHIHAKNFLSQDETMADMHQKVKVILDDYHRDFIADMM GEVKLTKLAEFYDVYLKFRKNPKDDELQKQLKDLQAVLRKEIVKPIGNGGKYKAGYDRLFGAKLFKDG KELGDLAKFVIAQEGESSPKLAHLAHFEKFSTYFTGFHDNRKNMYSDEDKHTAIAYRLIHENLPRFIDNLQ ILTTIKQKHSALYDQIINELTASGLDVSLASHLDGYHKLLTQEGITAYNTLLGGISGEAGSPKIQGINELINSH HNQHCHKSERIAKLRPLHKQILSDGMSVSFLPSKFADDSEMCQAVNEFYRHYADVFAKVQSLFDGFDDH QKDGIYVEHKNLNELSKQAFGDFALLGRVLDGYYVDVVNPEFNERFAKAKTDNAKAKLTKEKDKFIKG VHSLASLEQAIEHYTARHDDESVQAGKLGQYFKHGLAGVDNPIQKIHNNHSTIKGFLERERPAGERALPKI KSGKNPEMTQLRQLKELLDNALNVAHFAKLLTTKTTLDNQDGNFYGEFGVLYDELAKIPTLYNKVRDYL SQKPFSTEKYKLNFGNPTLLNGWDLNKEKDNFGVILQKDGCYYLALLDKAHKKVFDNAPNTGKSIYQK MIYKYLEVRKQFPKVFFSKEAIAINYHPSKELVEIKDKGRQRSDDERLKLYRFILECLKIHPKYDKKFEGAI GDIQLFKKDKKGREVPISEKDLFDKINGIFSSKPKLEMEDFFIGEFKRYNPSQDLVDQYNIYKKIDSNDNRK KENFYNNHPKFKKDLVRYYYESMCKHEEWEESFEFSKKLQDIGCYVDVNELFTEIETRRLNYKISFCNIN ADYIDELVEQGQLYLFQIYNKDFSPKAHGKPNLHTLYFKALFSEDNLADPIYKLNGEAQIFYRKASLDMN ETTIHRAGEVLENKNPDNPKKRQFVYDIIKDKRYTQDKFMLHVPITMNFGVQGMTIKEFNKKVNQSIQQ YDEVNVIGIDRGERHLLYLTVINSKGEILEQCSLNDITTASANGTQMTTPYHKILDKREIERLNARVGWGEI ETIKELKSGYLSHVVHQISQLMLKYNAIVVLEDLNFGFKRGRFKVEKQIYQNFENALIKKLNHLVLKDKADDEIGSYKNALQLTNNFTDLKSIGKQTGFLFYVPAWNTSKIDPETGFVDLLKPRYENIAQSQAFFGKFDKI CYNADKDYFEFHIDYAKFTDKAKNSRQIWTICSHGDKRYVYDKTANQNKGAAKGINVNDELKSLFARH HINEKQPNLVMDICQNNDKEFHKSLMYLLKTLLALRYSNASSDEDFILSPVANDEGVFFNSALADDTQPQ NADANGAYHIALKGLWLLNELKNSDDLNKVKLAIDNQTWLNFAQNR(SEQ ID NO:70)

>KKT48220_(修饰的)假定蛋白UW39_C0001G0044[Parcubacteria细菌 GW2011_GWC2_44_17]

MENIFDQFIGKYSLSKTLRFELKPVGKTEDFLKINKVFEKDQTIDDSYNQAKFYFDSLHQKFIDAALASDKTSELSFQNFADVLEKQNKIILDKKREMGALRKRDKNAVGIDRLQKEINDAEDIIQKEKEKIYKDVRT LFDNEAESWKTYYQEREVDGKKITFSKADLKQKGADFLTAAGILKVLKYEFPEEKEKEFQAKNQPSLFVE EKENPGQKRYIFDSFDKFAGYLTKFQQTKKNLYAADGTSTAVATRIADNFIIFHQNTKVFRDKYKNNHTDL GFDEENIFEIERYKNCLLQREIEHIKNENSYNKIIGRINKKIKEYRDQKAKDTKLTKSDFPFFKNLDKQILGE VEKEKQLIEKTREKTEEDVLIERFKEFIENNEERFTAAKKLMNAFCNGEFESEYEGIYLKNKAINTISRRWF VSDRDFELKLPQQKSKNKSEKNEPKVKKFISIAEIKNAVEELDGDIFKAVFYDKKIIAQGGSKLEQFLVIWK YEFEYLFRDIERENGEKLLGYDSCLKIAKQLGIFPQEKEAREKATAVIKNYADAGLGIFQMMKYFSLDDK DRKNTPGQLSTNFYAEYDGYYKDFEFIKYYNEFRNFITKKPFDEDKIKLNFENGALLKGWDENKEYDFM GVILKKEGRLYLGIMHKNHRKLFQSMGNAKGDNANRYQKMIYKQIADASKDVPRLLLTSKKAMEKFKP SQEILRIKKEKTFKRESKNFSLRDLHALIEYYRNCIPQYSNWSFYDFQFQDTGKYQNIKEFTDDVQKYGY KISFRDIDDEYINQALNEGKMYLFEVVNKDIYNTKNGSKNLHTLYFEHILSAENLNDPVFKLSGMAEIFQR QPSVNEREKITTQKNQCILDKGDRAYKYRRYTEKKIMFHMSLVLNTGKGEIKQVQFNKIINQRISSSDNEM RVNVIGIDRGEKNLLYYSVVKQNGEIIEQASLNEINGVNYRDKLIEREKERLKNRQSWKPVVKIKDLKKG YISHVIHKICQLIEKYSAIVVLEDLNMRFKQIRGGIERSVYQQFEKALIDKLGYLVFKDNRDLRAPGGVLN GYQLSAPFVSFEKMRKQTGILFYTQAEYTSKTDPITGFRKNVYISNSASLDKIKEAVKKFDAIGWDGKEQS YFFKYNPYNLADEKYKNSTVSKEWAIFASAPRIRRQKGEDGYWKYDRVKVNEEFEKLLKVWNFVNPKA TDIKQEIIKKEKAGDLQGEKELDGRLRNFWHSFIYLFNLVLELRNSFSLQIKIKAGEVIAVDEGVDFIASPVKPFFTTPNPYIPSNLCWLAVENADANGAYNIARKGVMILKKIREHAKKDPEFKKLPNLFISNAEWDEAARDWGKYAGTTALNLDH(SEQ ID NO:71)

>WP_031492824_(修饰的)假定蛋白[溶糊精琥珀酸弧菌]

MSSLTKFTNKYSKQLTIKNELIPVGKTLENIKENGLIDGDEQLNENYQKAKIIVDDFLRDFINKALNNTQIGNWRELADALNKEDEDNIEKLQDKIRGIIVSKFETFDLFSSYSIKKDEKIIDDDNDVEEEELDLGKKT SSFKYIFKKNLFKLVLPSYLKTTNQDKLKIISSFDNFSTYFRGFFENRKNIFTKKPISTSIAYRIVHDNFPKFL DNIRCFNVWQTECPQLIVKADNYLKSKNVIAKDKSLANYFTVGAYDYFLSQNGIDFYNNIIGGLPAFAGH EKIQGLNEFINQECQKDSELKSKLKNRHAFKMAVLFKQILSDREKSFVIDEFESDAQVIDAVKNFYAEQCK DNNVIFNLLNLIKNIAFLSDDELDGIFIEGKYLSSVSQKLYSDWSKLRNDIEDSANSKQGNKELAKKIKTN KGDVEKAISKYEFSLSELNSIVHDNTKFSDLLSCTLHKVASEKLVKVNEGDWPKHLKNNEEKQKIKEPLD ALLEIYNTLLIFNCKSFNKNGNFYVDYDRCINELSSVVYLYNKTRNYCTKKPYNTDKFKLNFNSPQLGEG FSKSKENDCLTLLFKKDDNYYVGIIRKGAKINFDDTQAIADNTDNCIFKMNYFLLKDAKKFIPKCSIQLKE VKAHFKKSEDDYILSDKEKFASPLVIKKSTFLLATAHVKGKKGNIKKFQKEYSKENPTEYRNSLNEWIAFC KEFLKTYKAATIFDITTLKKAEEYADIVEFYKDVDNLCYKLEFCPIKTSFIENLIDNGDLYLFRINNKDFSSK STGTKNLHTLYLQAIFDERNLNNPTIMLNGGAELFYRKESIEQKNRITHKAGSILVNKVCKDGTSLDDKIR NEIYQYENKFIDTLSDEAKKVLPNVIKKEATHDITKDKRFTSDKFFFHCPLTINYKEGDTKQFNNEVLSFLR GNPDINIIGIDRGERNLIYVTVINQKGEILDSVSFNTVTNKSSKIEQTVDYEEKLAVREKERIEAKRSWDSIS KIATLKEGYLSAIVHEICLLMIKHNAIVVLENLNAGFKRIRGGLSEKSVYQKFEKMLINKLNYFVSKKESD WNKPSGLLNGLQLSDQFESFEKLGIQSGFIFYVPAAYTSKIDPTTGFANVLNLSKVRNVDAIKSFFSNFNEI SYSKKEALFKFSFDLDSLSKKGFSSFVKFSKSKWNVYTFGERIIKPKNKQGYREDKRINLTFEMKKLLNEY KVSFDLENNLIPNLTSANLKDTFWKELFFIFKTTLQLRNSVTNGKEDVLISPVKNAKGEFFVSGTHNKTLP QDCDANGAYHIALKGLMILERNNLVREEKDTKKIMAISNVDWFEYVQKRRGVL(SEQ IDNO:72)

>KKT50231_(修饰的)假定蛋白UW40_C0007G0006[Parcubacteria细菌GW2011_GWF2_44_17]

MKPVGKTEDFLKINKVFEKDQTIDDSYNQAKFYFDSLHQKFIDAALASDKTSELSFQNFADVLEK QNKIILDKKREMGALRKRDKNAVGIDRLQKEINDAEDIIQKEKEKIYKDVRTLFDNEAESWKTYYQEREV DGKKITFSKADLKQKGADFLTAAGILKVLKYEFPEEKEKEFQAKNQPSLFVEEKENPGQKRYIFDSFDKFA GYLTKFQQTKKNLYAADGTSTAVATRIADNFIIFHQNTKVFRDKYKNNHTDLGFDEENIFEIERYKNCLLQ REIEHIKNENSYNKIIGRINKKIKEYRDQKAKDTKLTKSDFPFFKNLDKQILGEVEKEKQLIEKTREKTEED VLIERFKEFIENNEERFTAAKKLMNAFCNGEFESEYEGIYLKNKAINTISRRWFVSDRDFELKLPQQKSKN KSEKNEPKVKKFISIAEIKNAVEELDGDIFKAVFYDKKIIAQGGSKLEQFLVIWKYEFEYLFRDIERENGEK LLGYDSCLKIAKQLGIFPQEKEAREKATAVIKNYADAGLGIFQMMKYFSLDDKDRKNTPGQLSTNFYAEY DGYYKDFEFIKYYNEFRNFITKKPFDEDKIKLNFENGALLKGWDENKEYDFMGVILKKEGRLYLGIMHK NHRKLFQSMGNAKGDNANRYQKMIYKQIADASKDVPRLLLTSKKAMEKFKPSQEILRIKKEKTFKRESK NFSLRDLHALIEYYRNCIPQYSNWSFYDFQFQDTGKYQNIKEFTDDVQKYGYKISFRDIDDEYINQALNE GKMYLFEVVNKDIYNTKNGSKNLHTLYFEHILSAENLNDPVFKLSGMAEIFQRQPSVNEREKITTQKNQC ILDKGDRAYKYRRYTEKKIMFHMSLVLNTGKGEIKQVQFNKIINQRISSSDNEMRVNVIGIDRGEKNLLYY SVVKQNGEIIEQASLNEINGVNYRDKLIEREKERLKNRQSWKPVVKIKDLKKGYISHVIHKICQLIEKYSAI VVLEDLNMRFKQIRGGIERSVYQQFEKALIDKLGYLVFKDNRDLRAPGGVLNGYQLSAPFVSFEKMRKQ TGILFYTQAEYTSKTDPITGFRKNVYISNSASLDKIKEAVKKFDAIGWDGKEQSYFFKYNPYNLADEKYK NSTVSKEWAIFASAPRIRRQKGEDGYWKYDRVKVNEEFEKLLKVWNFVNPKATDIKQEIIKKEKAGDLQGEKELDGRLRNFWHSFIYLFNLVLELRNSFSLQIKIKAGEVIAVDEGVDFIASPVKPFFTTPNPYIPSNLCWL AVENADANGAYNIARKGVMILKKIREHAKKDPEFKKLPNLFISNAEWDEAARDWGKYAGTTALNLDH (SEQ ID NO:73)

>WP_004356401_(修饰的)假定蛋白[解糖胨普雷沃菌]

MENYQEFTNLFQLNKTLRFELKPIGKTCELLEEGKIFASGSFLEKDKVRADNVSYVKKEIDKKHKI FIEETLSSFSISNDLLKQYFDCYNELKAFKKDCKSDEEEVKKTALRNKCTSIQRAMREAISQAFLKSPQKK LLAIKNLIENVFKADENVQHFSEFTSYFSGFETNRENFYSDEEKSTSIAYRLVHDNLPIFIKNIYIFEKLKEQF DAKTLSEIFENYKLYVAGSSLDEVFSLEYFNNTLTQKGIDNYNAVIGKIVKEDKQEIQGLNEHINLYNQKH KDRRLPFFISLKKQILSDREALSWLPDMFKNDSEVIKALKGFYIEDGFENNVLTPLATLLSSLDKYNLNGIF IRNNEALSSLSQNVYRNFSIDEAIDANAELQTFNNYELIANALRAKIKKETKQGRKSFEKYEEYIDKKVKA IDSLSIQEINELVENYVSEFNSNSGNMPRKVEDYFSLMRKGDFGSNDLIENIKTKLSAAEKLLGTKYQETA KDIFKKDENSKLIKELLDATKQFQHFIKPLLGTGEEADRDLVFYGDFLPLYEKFEELTLLYNKVRNRLTQKP YSKDKIRLCFNKPKLMTGWVDSKTEKSDNGTQYGGYLFRKKNEIGEYDYFLGISSKAQLFRKNEAVIGD YERLDYYQPKANTIYGSAYEGENSYKEDKKRLNKVIIAYIEQIKQTNIKKSIIESISKYPNISDDDKVTPSSL LEKIKKVSIDSYNGILSFKSFQSVNKEVIDNLLKTISPLKNKAEFLDLINKDYQIFTEVQAVIDEICKQKTFIY FPISNVELEKEMGDKDKPLCLFQISNKDLSFAKTFSANLRKKRGAENLHTMLFKALMEGNQDNLDLGSG AIFYRAKSLDGNKPTHPANEAIKCRNVANKDKVSLFTYDIYKNRRYMENKFLFHLSIVQNYKAANDSAQ LNSSATEYIRKADDLHIIGIDRGERNLLYYSVIDMKGNIVEQDSLNIIRNNDLETDYHDLLDKREKERKAN RQNWEAVEGIKDLKKGYLSQAVHQIAQLMLKYNAIIALEDLGQMFVTRGQKIEKAVYQQFEKSLVDKLS YLVDKKRPYNELGGILKAYQLASSITKNNSDKQNGFLFYVPAWNTSKIDPVTGFTDLLRPKAMTIKEAQD FFGAFDNISYNDKGYFEFETNYDKFKIRMKSAQTRWTICTFGNRIKRKKDKNYWNYEEVELTEEFKKLFK DSNIDYENCNLKEEIQNKDNRKFFDDLIKLLQLTLQMRNSDDKGNDYIISPVANAEGQFFDSRNGDKKLP LDADANGAYNIARKGLWNIRQIKQTKNDKKLNLSISSTEWLDFVREKPYLK(SEQ ID NO:74)

>CCB70584_(修饰的)未知功能蛋白质[嗜鳃黄杆菌(Flavobacteriumbranchiophilum)FL-15]

MTNKFTNQYSLSKTLRFELIPQGKTLEFIQEKGLLSQDKQRAESYQEMKKTIDKFHKYFIDLALSN AKLTHLETYLELYNKSAETKKEQKFKDDLKKVQDNLRKEIVKSFSDGDAKSIFAILDKKELITVELEKWFE NNEQKDIYFDEKFKTFTTYFTGFHQNRKNMYSVEPNSTAIAYRLIHENLPKFLENAKAFEKIKQVESLQVN FRELMGEFGDEGLIFVNELEEMFQINYYNDVLSQNGITIYNSIISGFTKNDIKYKGLNEYINNYNQTKDKK DRLPKLKQLYKQILSDRISLSFLPDAFTDGKQVLKAIFDFYKINLLSYTIEGQEESQNLLLLIRQTIENLSSFD TQKIYLKNDTHLTTISQQVFGDFSVFSTALNYWYETKVNPKFETEYSKANEKKREILDKAKAVFTKQDYF SIAFLQEVLSEYILTLDHTSDIVKKHSSNCIADYFKNHFVAKKENETDKTFDFIANITAKYQCIQGILENADQ YEDELKQDQKLIDNLKFFLDAILELLHFIKPLHLKSESITEKDTAFYDVFENYYEALSLLTPLYNMVRNYV TQKPYSTEKIKLNFENAQLLNGWDANKEGDYLTTILKKDGNYFLAIMDKKHNKAFQKFPEGKENYEKM VYKLLPGVNKMLPKVFFSNKNIAYFNPSKELLENYKKETHKKGDTFNLEHCHTLIDFFKDSLNKHEDWK YFDFQFSETKSYQDLSGFYREVEHQGYKINFKNIDSEYIDGLVNEGKLFLFQIYSKDFSPFSKGKPNMHTL YWKALFEEQNLQNVIYKLNGQAEIFFRKASIKPKNIILHKKKIKIAKKHFIDKKTKTSEIVPVQTIKNLNMY YQGKISEKELTQDDLRYIDNFSIFNEKNKTIDIIKDKRFTVDKFQFHVPITMNFKATGGSYINQTVLEYLQN NPEVKIIGLDRGERHLVYLTLIDQQGNILKQESLNTITDSKISTPYHKLLDNKENERDLARKNWGTVENIK ELKEGYISQVVHKIATLMLEENAIVVMEDLNFGFKRGRFKVEKQIYQKLEKMLIDKLNYLVLKDKQPQEL GGLYNALQLTNKFESFQKMGKQSGFLFYVPAWNTSKIDPTTGFVNYFYTKYENVDKAKAFFEKFEAIRFN AEKKYFEFEVKKYSDFNPKAEGTQQAWTICTYGERIETKRQKDQNNKFVSTPINLTEKIEDFLGKNQIVY GDGNCIKSQIASKDDKAFFETLLYWFKMTLQMRNSETRTDIDYLISPVMNDNGTFYNSRDYEKLENPTLP KDADANGAYHIAKKGLMLLNKIDQADLTKKVDLSISNRDWLQFVQKNK(SEQ ID NO:75)

>WP_005398606_(修饰的)假定蛋白[孔兹氏创伤球菌(Helcococcus kunzii)]

MFEKLSNIVSISKTIRFKLIPVGKTLENIEKLGKLEKDFERSDFYPILKNISDDYYRQYIKEKLSDLNLDWQKLYDAHELLDSSKKESQKNLEMIQAQYRKVLFNILSGELDKSGEKNSKDLIKNNKALYGKLFKKQF ILEVLPDFVNNNDSYSEEDLEGLNLYSKFTTRLKNFWETRKNVFTDKDIVTAIPFRAVNENFGFYYDNIKIF NKNIEYLENKIPNLENELKEADILDDNRSVKDYFTPNGFNYVITQDGIDVYQAIRGGFTKENGEKVQGINE ILNLTQQQLRRKPETKNVKLGVLTKLRKQILEYSESTSFLIDQIEDDNDLVDRINKFNVSFFESTEVSPSLFE QIERLYNALKSIKKEEVYIDARNTQKFSQMLFGQWDVIRRGYTVKITEGSKEEKKKYKEYLELDETSKAK RYLNIREIEELVNLVEGFEEVDVFSVLLEKFKMNNIERSEFEAPIYGSPIKLEAIKEYLEKHLEEYHKWKLL LIGNDDLDTDETFYPLLNEVISDYYIIPLYNLTRNYLTRKHSDKDKIKVNFDFPTLADGWSESKISDNRSIIL RKGGYYYLGILIDNKLLINKKNKSKKIYEILIYNQIPEFSKSIPNYPFTKKVKEHFKNNVSDFQLIDGYVSPL IITKEIYDIKKEKKYKKDFYKDNNTNKNYLYTIYKWIEFCKQFLYKYKGPNKESYKEMYDFSTLKDTSLY VNLNDFYADVNSCAYRVLFNKIDENTIDNAVEDGKLLLFQIYNKDFSPESKGKKNLHTLYWLSMFSEENL RTRKLKLNGQAEIFYRKKLEKKPIIHKEGSILLNKIDKEGNTIPENIYHECYRYLNKKIGREDLSDEAIALFN KDVLKYKEARFDIIKDRRYSESQFFFHVPITFNWDIKTNKNVNQIVQGMIKDGEIKHIIGIDRGERHLLYYS VIDLEGNIVEQGSLNTLEQNRFDNSTVKVDYQNKLRTREEDRDRARKNWTNINKIKELKDGYLSHVVHK LSRLIIKYEAIVIMENLNQGFKRGRFKVERQVYQKFELALMNKLSALSFKEKYDERKNLEPSGILNPIQAC YPVDAYQELQGQNGIVFYLPAAYTSVIDPVTGFTNLFRLKSINSSKYEEFIKKFKNIYFDNEEEDFKFIFNY KDFAKANLVILNNIKSKDWKISTRGERISYNSKKKEYFYVQPTEFLINKLKELNIDYENIDIIPLIDNLEEKA KRKILKALFDTFKYSVQLRNYDFENDYIISPTADDNGNYYNSNEIDIDKTNLPNNGDANGAFNIARKGLLL KDRIVNSNESKVDLKIKNEDWINFIIS(SEQ ID NO:76)

>WP_021736722_(修饰的)CRISPR相关蛋白Cpf1，PREFRAN亚型[氨基酸球菌属某种BV3L6]

MTQFEGFTNLYQVSKTLRFELIPQGKTLKHIQEQGFIEEDKARNDHYKELKPIIDRIYKTYADQCLQLVQLDWENLSAAIDSYRKEKTEETRNALIEEQATYRNAIHDYFIGRTDNLTDAINKRHAEIYKGLFKAELF NGKVLKQLGTVTTTEHENALLRSFDKFTTYFSGFYENRKNVFSAEDISTAIPHRIVQDNFPKFKENCHIFTR LITAVPSLREHFENVKKAIGIFVSTSIEEVFSFPFYNQLLTQTQIDLYNQLLGGISREAGTEKIKGLNEVLNLA IQKNDETAHIIASLPHRFIPLFKQILSDRNTLSFILEEFKSDEEVIQSFCKYKTLLRNENVLETAEALFNELNSI DLTHIFISHKKLETISSALCDHWDTLRNALYERRISELTGKITKSAKEKVQRSLKHEDINLQEIISAAGKELS EAFKQKTSEILSHAHAALDQPLPTTLKKQEEKEILKSQLDSLLGLYHLLDWFAVDESNEVDPEFSARLTGI KLEMEPSLSFYNKARNYATKKPYSVEKFKLNFQMPTLASGWDVNKEKNNGAILFVKNGLYYLGIMPKQ KGRYKALSFEPTEKTSEGFDKMYYDYFPDAAKMIPKCSTQLKAVTAHFQTHTTPILLSNNFIEPLEITKEIY DLNNPEKEPKKFQTAYAKKTGDQKGYREALCKWIDFTRDFLSKYTKTTSIDLSSLRPSSQYKDLGEYYAE LNPLLYHISFQRIAEKEIMDAVETGKLYLFQIYNKDFAKGHHGKPNLHTLYWTGLFSPENLAKTSIKLNGQ AELFYRPKSRMKRMAHRLGEKMLNKKLKDQKTPIPDTLYQELYDYVNHRLSHDLSDEARALLPNVITKE VSHEIIKDRRFTSDKFFFHVPITLNYQAANSPSKFNQRVNAYLKEHPETPIIGIDRGERNLIYITVIDSTGKIL EQRSLNTIQQFDYQKKLDNREKERVAARQAWSVVGTIKDLKQGYLSQVIHEIVDLMIHYQAVVVLENLN FGFKSKRTGIAEKAVYQQFEKMLIDKLNCLVLKDYPAEKVGGVLNPYQLTDQFTSFAKMGTQSGFLFYVP APYTSKIDPLTGFVDPFVWKTIKNHESRKHFLEGFDFLHYDVKTGDFILHFKMNRNLSFQRGLPGFMPAW DIVFEKNETQFDAKGTPFIAGKRIVPVIENHRFTGRYRDLYPANELIALLEEKGIVFRDGSNILPKLLENDDS HAIDTMVALIRSVLQMRNSNAATGEDYINSPVRDLNGVCFDSRFQNPEWPMDADANGAYHIALKGQLLL NHLKESKDLKLQNGISNQDWLAYIQELRN(SEQ ID NO:77)

>WP_004339290_(修饰的)假定蛋白[土拉热弗朗西丝菌]

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISKYINDSEKFKNLFNQNLIDAKKGQESDLI LWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFL ENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTI IGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSF YEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQVAP KNLDNPSKKEQDLIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILSNFAAIPMIFDEIAQNKDNL AQISIKYQNQGKKDLLQASAEEDVKAIKDLLDQTNNLLHRLKIFHISQSEDKANILDKDEHFYLVFEECYF ELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLASGWDKNKESANTAILFIKDDKYYLGIMDKKHNKIF SDKAIEENKGEGYKKIVYKQIADASKDIQNLMIIDGKTVCKKGRKDRNGVNRQLLSLKRKHLPENIYRIK ETKSYLKNEARFSRKDLYDFIDYYKDRLDYYDFEFELKPSNEYSDFNDFTNHIGSQGYKLTFENISQDYIN SLVNEGKLYLFQIYSKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPA KETIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSID RGERHLAYYTLVDGKGNIIKQDNFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLS QVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAY QLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFS FDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAIC GESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLK GLMLLDRIKNNQEGKKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:78)

>WP_022501477_(修饰的)假定蛋白[真细菌某种CAG:76]

MNKAADNYTGGNYDEFIALSKVQKTLRNELKPTPFTAEHIKQRGIISEDEYRAQQSLELKKIADEY YRNYITHKLNDINNLDFYNLFDAIEEKYKKNDKDNRDKLDLVEKSKRGEIAKMLSADDNFKSMFEAKLI TKLLPDYVERNYTGEDKEKALETLALFKGFTTYFKGYFKTRKNMFSGEGGASSICHRIVNVNASIFYDNL KTFMRIQEKAGDEIALIEEELTEKLDGWRLEHIFSRDYYNEVLAQKGIDYYNQICGDINKHMNLYCQQNK FKANIFKMMKIQKQIMGISEKAFEIPPMYQNDEEVYASFNEFISRLEEVKLTDRLINILQNINIYNTAKIYIN ARYYTNVSSYVYGGWGVIDSAIERYLYNTIAGKGQSKVKKIENAKKDNKFMSVKELDSIVAEYEPDYFN APYIDDDDNAVKAFGGQGVLGYFNKMSELLADVSLYTIDYNSDDSLIENKESALRIKKQLDDIMSLYHWL QTFIIDEVVEKDNAFYAELEDICCELENVVTLYDRIRNYVTKKPYSTQKFKLNFASPTLAAGWSRSKEFDN NAIILLRNNKYYIAIFNVNNKPDKQIIKGSEEQRLSTDYKKMVYNLLPGPNKMLPKVFIKSDTGKRDYNPS SYILEGYEKNRHIKSSGNFDINYCHDLIDYYKACINKHPEWKNYGFKFKETNQYNDIGQFYKDVEKQGYS ISWAYISEEDINKLDEEGKIYLFEIYNKDLSAHSTGRDNLHTMYLKNIFSEDNLKNICIELNGEAELFYRKSS MKSNITHKKDTILVNKTYINETGVRVSLSDEDYMKVYNYYNNNYVIDTENDKNLIDIIEKIGHRKSKIDIV KDKRYTEDKYFLYLPITINYGIEDENVNSKIIEYIAKQDNMNVIGIDRGERNLIYISVIDNKGNIIEQKSFNLV NNYDYKNKLKNMEKTRDNARKNWQEIGKIKDVKSGYLSGVISKIARMVIDYNAIIVMEDLNKGFKRGR FKVERQVYQKFENMLISKLNYLVFKERKADENGGILRGYQLTYIPKSIKNVGKQCGCIFYVPAAYTSKIDP ATGFINIFDFKKYSGSGINAKVKDKKEFLMSMNSIRYINECSEEYEKIGHRELFAFSFDYNNFKTYNVSSPV NEWTAYTYGERIKKLYKDGRWLRSEVLNLTENLIKLMEQYNIEYKDGHDIREDISHMDETRNADFICSLF EELKYTVQLRNSKSEAEDENYDRLVSPILNSSNGFYDSSDYMENENNTTHTMPKDADANGAYCIALKGLYEINKIKQNWSDDKKFKENELYINVTEWLDYIQNRRFE(SEQ ID NO:79)

>WP_014550095_(修饰的)假定蛋白[土拉热弗朗西丝菌]

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLI LWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFL ENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTI IGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSF YEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQVAP KNLDNPSKKEQDLIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNL AQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHRLKIFHISQSEDKANILDKDEHFYLVFEECYF ELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKI FDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGNPQKGYEKF EFNIEDCRKFIDFYKESISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGK LYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKKSIPKKITHPAKEAIANK NKDNPKKESFFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLA YYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIA KLVIEHNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFET FKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFG DKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFF AKLTSILNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLDRIK NNQEGKKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:80)

>WP_003034647_(修饰的)假定蛋白[土拉热弗朗西丝菌]

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLI LWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSDDIPTSIIYRIVDDNLPKFL ENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTI IGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSF YEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQVAP KNLDNPSKKEQDLIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNL AQISLKYQNQGKKDLLQASAEEDVKAIKDLLDQTNNLLHRLKIFHISQSEDKANILDKDEHFYLVFEECY FELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNK IFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGNPQKGYEKF EFNIEDCRKFIDFYKESISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGK LYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANK NKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLA YYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIA KLVIEHNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFET FKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFG DKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFF AKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLDRI KNNQEGKKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:81)

>FnCpf1土拉热弗朗西丝菌新杀手亚种U112，全基因组

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLI LWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFL ENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTI IGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSF YEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAP KNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNL AQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYF ELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKI FDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFE FNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKN KDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAY YTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAK LVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETF KKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGD KAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFA KLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIK NNQEGKKLNLVIKNEEYFEFVQNRNN(SEQ ID NO:82)

>KKQ38174_(修饰的)假定蛋白US54_C0016G0015[Microgenomates(罗斯曼菌(Roizmanbacteria))细菌GW2011_GWA2_37_7]

MKSFDSFTNLYSLSKTLKFEMRPVGNTQKMLDNAGVFEKDKLIQKKYGKTKPYFDRLHREFIEEA LTGVELIGLDENFRTLVDWQKDKKNNVAMKAYENSLQRLRTEIGKIFNLKAEDWVKNKYPILGLKNKNT DILFEEAVFGILKARYGEEKDTFIEVEEIDKTGKSKINQISIFDSWKGFTGYFKKFFETRKNFYKNDGTSTAI ATRIIDQNLKRFIDNLSIVESVRQKVDLAETEKSFSISLSQFFSIDFYNKCLLQDGIDYYNKIIGGETLKNGE KLIGLNELINQYRQNNKDQKIPFFKLLDKQILSEKILFLDEIKNDTELIEALSQFAKTAEEKTKIVKKLFADF VENNSKYDLAQIYISQEAFNTISNKWTSETETFAKYLFEAMKSGKLAKYEKKDNSYKFPDFIALSQMKSA LLSISLEGHFWKEKYYKISKFQEKTNWEQFLAIFLYEFNSLFSDKINTKDGETKQVGYYLFAKDLHNLILS EQIDIPKDSKVTIKDFADSVLTIYQMAKYFAVEKKRAWLAEYELDSFYTQPDTGYLQFYDNAYEDIVQVY NKLRNYLTKKPYSEEKWKLNFENSTLANGWDKNKESDNSAVILQKGGKYYLGLITKGHNKIFDDRFQEK FIVGIEGGKYEKIVYKFFPDQAKMFPKVCFSAKGLEFFRPSEEILRIYNNAEFKKGETYSIDSMQKLIDFYK DCLTKYEGWACYTFRHLKPTEEYQNNIGEFFRDVAEDGYRIDFQGISDQYIHEKNEKGELHLFEIHNKDW NLDKARDGKSKTTQKNLHTLYFESLFSNDNVVQNFPIKLNGQAEIFYRPKTEKDKLESKKDKKGNKVID HKRYSENKIFFHVPLTLNRTKNDSYRFNAQINNFLANNKDINIIGVDRGEKHLVYYSVITQASDILESGSLN ELNGVNYAEKLGKKAENREQARRDWQDVQGIKDLKKGYISQVVRKLADLAIKHNAIIILEDLNMRFKQV RGGIEKSIYQQLEKALIDKLSFLVDKGEKNPEQAGHLLKAYQLSAPFETFQKMGKQTGIIFYTQASYTSKS DPVTGWRPHLYLKYFSAKKAKDDIAKFTKIEFVNDRFELTYDIKDFQQAKEYPNKTVWKVCSNVERFRW DKNLNQNKGGYTHYTNITENIQELFTKYGIDITKDLLTQISTIDEKQNTSFFRDFIFYFNLICQIRNTDDSEIA KKNGKDDFILSPVEPFFDSRKDNGNKLPENGDDNGAYNIARKGIVILNKISQYSEKNENCEKMKWGDLYVSNIDWDNFVTQANARH(SEQ ID NO:83)

>WP_022097749_(修饰的)假定蛋白[挑剔真细菌CAG:72]

MNGNRSIVYREFVGVTPVAKTLRNELRPVGHTQEHIIQNGLIQEDELRQEKSTELKNIMDDYYREY IDKSLSGLTDLDFTLLFELMNSVQSSLSKDNKKALEKEHNKMREQICTHLQSDSDYKNMFNAKLFKEILP DFIKNYNQYDVKDKAGKLETLALFNGFSTYFTDFFEKRKNVFTKEAVSTSIAYRIVHENSLIFLANMTSYK KISEKALDEIEVIEKNNQDKMGDWELNQIFNPDFYNMVLIQSGIDFYNEICGVVNAHMNLYCQQTKNNY NLFKMRKLHKQILAYTSTSFEVPKMFEDDMSVYNAVNAFIDETEKGNIIGKLKDIVNKYDELDEKRIYISK DFYETLSCFMSGNWNLITGCVENFYDENIHAKGKSKEEKVKKAVKEDKYKSINDVNDLVEKYIDEKERN EFKNSNAKQYIREISNIITDTETAHLEYDEHISLIESEEKADEIKKRLDMYMNMYHWVKAFIVDEVLDRDE MFYSDIDDIYNILENIVPLYNRVRNYVTQKPYTSKKIKLNFQSPTLANGWSQSKEFDNNAIILIRDNKYYLA IFNAKNKPDKKIIQGNSDKKNDNDYKKMVYNLLPGANKMLPKVFLSKKGIETFKPSDYIISGYNAHKHIK TSENFDISFCRDLIDYFKNSIEKHAEWRKYEFKFSATDSYNDISEFYREVEMQGYRIDWTYISEADINKLDE EGKIYLFQIYNKDFAENSTGKENLHTMYFKNIFSEENLKNIVIKLNGQAELFYRKASVKNPVKHKKDSVL VNKTYKNQLDNGDVVRIPIPDDIYNEIYKMYNGYIKESDLSEAAKEYLDKVEVRTAQKDIVKDYRYTVD KYFIHTPITINYKVTARNNVNDMAVKYIAQNDDIHVIGIDRGERNLIYISVIDSHGNIVKQKSYNILNNYDY KKKLVEKEKTREYARKNWKSIGNIKELKEGYISGVVHEIAMLMVEYNAIIAMEDLNYGFKRGRFKVERQ VYQKFESMLINKLNYFASKGKSVDEPGGLLKGYQLTYVPDNIKNLGKQCGVIFYVPAAFTSKIDPSTGFIS AFNFKSISTNASRKQFFMQFDEIRYCAEKDMFSFGFDYNNFDTYNITMGKTQWTVYTNGERLQSEFNNA RRTGKTKSINLTETIKLLLEDNEINYADGHDVRIDMEKMYEDKNSEFFAQLLSLYKLTVQMRNSYTEAEEQEKGISYDKIISPVINDEGEFFDSDNYKESDDKECKMPKDADANGAYCIALKGLYEVLKIKSEWTEDGFDRNCLKLPHAEWLDFIQNKRYE(SEQ ID NO:84)

>WP_012739647_(修饰的)假定蛋白[[真细菌]挑剔]

MNGNRSIVYREFVGVIPVAKTLRNELRPVGHTQEHIIQNGLIQEDELRQEKSTELKNIMDDYYREYIDKSLSGVTDLDFTLLFELMNLVQSSPSKDNKKALEKEQSKMREQICTHLQSDSNYKNIFNAKLLKEILPDF IKNYNQYDVKDKAGKLETLALFNGFSTYFTDFFEKRKNVFTKEAVSTSIAYRIVHENSLIFLANMTSYKKI SEKALDEIEVIEKNNQDKMGDWELNQIFNPDFYNMVLIQSGIDFYNEICGVVNAHMNLYCQQTKNNYNL FKMRKLHKQILAYTSTSFEVPKMFEDDMSVYNAVNAFIDETEKGNIIGKLKDIVNKYDELDEKRIYISKDF YETLSCFMSGNWNLITGCVENFYDENIHAKGKSKEEKVKKAVKEDKYKSINDVNDLVEKYIDEKERNEF KNSNAKQYIREISNIITDTETAHLEYDDHISLIESEEKADEMKKRLDMYMNMYHWAKAFIVDEVLDRDE MFYSDIDDIYNILENIVPLYNRVRNYVTQKPYNSKKIKLNFQSPTLANGWSQSKEFDNNAIILIRDNKYYL AIFNAKNKPDKKIIQGNSDKKNDNDYKKMVYNLLPGANKMLPKVFLSKKGIETFKPSDYIISGYNAHKHI KTSENFDISFCRDLIDYFKNSIEKHAEWRKYEFKFSATDSYSDISEFYREVEMQGYRIDWTYISEADINKLD EEGKIYLFQIYNKDFAENSTGKENLHTMYFKNIFSEENLKDIIIKLNGQAELFYRRASVKNPVKHKKDSVL VNKTYKNQLDNGDVVRIPIPDDIYNEIYKMYNGYIKESDLSEAAKEYLDKVEVRTAQKDIVKDYRYTVD KYFIHTPITINYKVTARNNVNDMVVKYIAQNDDIHVIGIDRGERNLIYISVIDSHGNIVKQKSYNILNNYDY KKKLVEKEKTREYARKNWKSIGNIKELKEGYISGVVHEIAMLIVEYNAIIAMEDLNYGFKRGRFKVERQV YQKFESMLINKLNYFASKEKSVDEPGGLLKGYQLTYVPDNIKNLGKQCGVIFYVPAAFTSKIDPSTGFISA FNFKSISTNASRKQFFMQFDEIRYCAEKDMFSFGFDYNNFDTYNITMGKTQWTVYTNGERLQSEFNNAR RTGKTKSINLTETIKLLLEDNEINYADGHDIRIDMEKMDEDKKSEFFAQLLSLYKLTVQMRNSYTEAEEQENGISYDKIISPVINDEGEFFDSDNYKESDDKECKMPKDADANGAYCIALKGLYEVLKIKSEWTEDGFDRNCLKLPHAEWLDFIQNKRYE(SEQ ID NO:85)

>WP_045971446_(修饰的)假定蛋白[黄杆菌属某种316]

MKNFSNLYQVSKTVRFELKPIGNTLENIKNKSLLKNDSIRAESYQKMKKTIDEFHKYFIDLALNNK KLSYLNEYIALYTQSAEAKKEDKFKADFKKVQDNLRKEIVSSFTEGEAKAIFSVLDKKELITIELEKWKNE NNLAVYLDESFKSFTTYFTGFHQNRKNMYSAEANSTAIAYRLIHENLPKFIENSKAFEKSSQIAELQPKIEK LYKEFEAYLNVNSISELFEIDYFNEVLTQKGITVYNNIIGGRTATEGKQKIQGLNEIINLYNQTKPKNERLPK LKQLYKQILSDRISLSFLPDAFTEGKQVLKAVFEFYKINLLSYKQDGVEESQNLLELIQQVVKNLGNQDVN KIYLKNDTSLTTIAQQLFGDFSVFSAALQYRYETVVNPKYTAEYQKANEAKQEKLDKEKIKFVKQDYFSI AFLQEVVADYVKTLDENLDWKQKYTPSCIADYFTTHFIAKKENEADKTFNFIANIKAKYQCIQGILEQAD DYEDELKQDQKLIDNIKFFLDAILEVVHFIKPLHLKSESITEKDNAFYDVFENYYEALNVVTPLYNMVRN YVTQKPYSTEKIKLNFENAQLLNGWDANKEKDYLTTILKRDGNYFLAIMDKKHNKTFQQFTEDDENYE KIVYKLLPGVNKMLPKVFFSNKNIAFFNPSKEILDNYKNNTHKKGATFNLKDCHALIDFFKDSLNKHEDW KYFDFQFSETKTYQDLSGFYKEVEHQGYKINFKKVSVSQIDTLIEEGKMYLFQIYNKDFSPYAKGKPNMH TLYWKALFETQNLENVIYKLNGQAEIFFRKASIKKKNIITHKAHQPIAAKNPLTPTAKNTFAYDLIKDKRYT VDKFQFHVPITMNFKATGNSYINQDVLAYLKDNPEVNIIGLDRGERHLVYLTLIDQKGTILLQESLNVIQDE KTHTPYHTLLDNKEIARDKARKNWGSIESIKELKEGYISQVVHKITKMMIEHNAIVVMEDLNFGFKRGRF KVEKQIYQKLEKMLIDKLNYLVLKDKQPHELGGLYNALQLTNKFESFQKMGKQSGFLFYVPAWNTSKID PTTGFVNYFYTKYENVEKAKTFFSKFDSILYNKTKGYFEFVVKNYSDFNPKAADTRQEWTICTHGERIET KRQKEQNNNFVSTTIQLTEQFVNFFEKVGLDLSKELKTQLIAQNEKSFFEELFHLLKLTLQMRNSESHTEI DYLISPVANEKGIFYDSRKATASLPIDADANGAYHIAKKGLWIMEQINKTNSEDDLKKVKLAISNREWLQYVQQVQKK(SEQ ID NO:86)

>WP_044110123_(修饰的)假定蛋白[短普雷沃菌(Prevotella brevis)]

MKQFTNLYQLSKTLRFELKPIGKTLEHINANGFIDNDAHRAESYKKVKKLIDDYHKDYIENVLNNF KLNGEYLQAYFDLYSQDTKDKQFKDIQDKLRKSIASALKGDDRYKTIDKKELIRQDMKTFLKKDTDKAL LDEFYEFTTYFTGYHENRKNMYSDEAKSTAIAYRLIHDNLPKFIDNIAVFKKIANTSVADNFSTIYKNFEEY LNVNSIDEIFSLDYYNIVLTQTQIEVYNSIIGGRTLEDDTKIQGINEFVNLYNQQLANKKDRLPKLKPLFKQI LSDRVQLSWLQEEFNTGADVLNAVKEYCTSYFDNVEESVKVLLTGISDYDLSKIYITNDLALTDVSQRMF GEWSIIPNAIEQRLRSDNPKKTNEKEEKYSDRISKLKKLPKSYSLGYINECISELNGIDIADYYATLGAINTE SKQEPSIPTSIQVHYNALKPILDTDYPREKNLSQDKLTVMQLKDLLDDFKALQHFIKPLLGNGDEAEKDE KFYGELMQLWEVIDSITPLYNKVRNYCTRKPFSTEKIKVNFENAQLLDGWDENKESTNASIILRKNGMYY LGIMKKEYRNILTKPMPSDGDCYDKVVYKFFKDITTMVPKCTTQMKSVKEHFSNSNDDYTLFEKDKFIA PVVITKEIFDLNNVLYNGVKKFQIGYLNNTGDSFGYNHAVEIWKSFCLKFLKAYKSTSIYDFSSIEKNIGCY NDLNSFYGAVNLLLYNLTYRKVSVDYIHQLVDEDKMYLFMIYNKDFSTYSKGTPNMHTLYWKMLFDES NLNDVVYKLNGQAEVFYRKKSITYQHPTHPANKPIDNKNVNNPKKQSNFEYDLIKDKRYTVDKFMFHVP ITLNFKGMGNGDINMQVREYIKTTDDLHFIGIDRGERHLLYICVINGKGEIVEQYSLNEIVNNYKGTEYKT DYHTLLSERDKKRKEERSSWQTIEGIKELKSGYLSQVIHKITQLMIKYNAIVLLEDLNMGFKRGRQKVESS VYQQFEKALIDKLNYLVDKNKDANEIGGLLHAYQLTNDPKLPNKNSKQSGFLFYVPAWNTSKIDPVTGFV NLLDTRYENVAKAQAFFKKFDSIRYNKEYDRFEFKFDYSNFTAKAEDTRTQWTLCTYGTRIETFRNAEKN SNWDSREIDLTTEWKTLFTQHNIPLNANLKEAILLQANKNFYTDILHLMKLTLQMRNSVTGTDIDYMVSPVANECGEFFDSRKVKEGLPVNADANGAYNIARKGLWLAQQIKNANDLSDVKLAITNKEWLQFAQKKQY LKD(SEQID NO:87)

>WP_036388671_(修饰的)假定蛋白[山羊莫拉氏菌(Moraxella caprae)]

MLFQDFTHLYPLSKTMRFELKPIGKTLEHIHAKNFLSQDETMADMYQKVKAILDDYHRDFIADM MGEVKLTKLAEFYDVYLKFRKNPKDDGLQKQLKDLQAVLRKEIVKPIGNGGKYKAGYDRLFGAKLFKD GKELGDLAKFVIAQEGESSPKLAHLAHFEKFSTYFTGFHDNRKNMYSDEDKHTAITYRLIHENLPRFIDNL QILATIKQKHSALYDQIINELTASGLDVSLASHLDGYHKLLTQEGITAYNTLLGGISGEAGSRKIQGINELINS HHNQHCHKSERIAKLRPLHKQILSDGMGVSFLPSKFADDSEMCQAVNEFYRHYADVFAKVQSLFDGFDD HQKDGIYVEHKNLNELSKQAFGDFALLGRVLDGYYVDVVNPEFNERFAKAKTDNAKAKLTKEKDKFIK GVHSLASLEQAIEHYTARHDDESVQAGKLGQYFKHGLAGVDNPIQKIHNNHSTIKGFLERERPAGERALP KIKSGKNPEMTQLRQLKELLDNALNVAHFAKLLTTKTTLDNQDGNFYGEFGALYDELAKIPTLYNKVRD YLSQKPFSTEKYKLNFGNPTLLNGWDLNKEKDNFGIILQKDGCYYLALLDKAHKKVFDNAPNTGKNVY QKMIYKLLPGPNKMLPKVFFAKSNLDYYNPSAELLDKYAQGTHKKGNNFNLKDCHALIDFFKAGINKHP EWQHFGFKFSPTSSYQDLSDFYREVEPQGYQVKFVDINADYINELVEQGQLYLFQIYNKDFSPKAHGKPN LHTLYFKALFSKDNLANPIYKLNGEAQIFYRKASLDMNETTIHRAGEVLENKNPDNPKKRQFVYDIIKDK RYTQDKFMLHVPITMNFGVQGMTIKEFNKKVNQSIQQYDEVNVIGIDRGERHLLYLTVINSKGEILEQRSL NDITTASANGTQMTTPYHKILDKREIERLNARVGWGEIETIKELKSGYLSHVVHQISQLMLKYNAIVVLED LNFGFKRGRFKVEKQIYQNFENALIKKLNHLVLKDEADDEIGSYKNALQLTNNFTDLKSIGKQTGFLFYVPAWNTSKIDPETGFVDLLKPRYENIAQSQAFFGKFDKICYNADKDYFEFHIDYAKFTDKAKNSRQIWKICSH GDKRYVYDKTANQNKGATKGINVNDELKSLFARHHINDKQPNLVMDICQNNDKEFHKSLIYLLKTLLAL RYSNASSDEDFILSPVANDEGMFFNSALADDTQPQNADANGAYHIALKGLWVLEQIKNSDDLNKVKLAI DNQTWLNFAQNR(SEQID NO:88)

>WP_020988726_(修饰的)CRISPR相关蛋白Cpf1，PREFRAN亚型[稻田钩端螺旋体]

MEDYSGFVNIYSIQKTLRFELKPVGKTLEHIEKKGFLKKDKIRAEDYKAVKKIIDKYHRAYIEEVFDSVLHQKKKKDKTRFSTQFIKEIKEFSELYYKTEKNIPDKERLEALSEKLRKMLVGAFKGEFSEEVAEKYKN LFSKELIRNEIEKFCETDEERKQVSNFKSFTTYFTGFHSNRQNIYSDEKKSTAIGYRIIHQNLPKFLDNLKIIE SIQRRFKDFPWSDLKKNLKKIDKNIKLTEYFSIDGFVNVLNQKGIDAYNTILGGKSEESGEKIQGLNEYINL YRQKNNIDRKNLPNVKILFKQILGDRETKSFIPEAFPDDQSVLNSITEFAKYLKLDKKKKSIIAELKKFLSSF NRYELDGIYLANDNSLASISTFLFDDWSFIKKSVSFKYDESVGDPKKKIKSPLKYEKEKEKWLKQKYYTIS FLNDAIESYSKSQDEKRVKIRLEAYFAEFKSKDDAKKQFDLLERIEEAYAIVEPLLGAEYPRDRNLKADKK EVGKIKDFLDSIKSLQFFLKPLLSAEIFDEKDLGFYNQLEGYYEEIDSIGHLYNKVRNYLTGKIYSKEKFKL NFENSTLLKGWDENREVANLCVIFREDQKYYLGVMDKENNTILSDIPKVKPNELFYEKMVYKLIPTPHM QLPRIIFSSDNLSIYNPSKSILKIREAKSFKEGKNFKLKDCHKFIDFYKESISKNEDWSRFDFKFSKTSSYENI SEFYREVERQGYNLDFKKVSKFYIDSLVEDGKLYLFQIYNKDFSIFSKGKPNLHTIYFRSLFSKENLKDVCL KLNGEAEMFFRKKSINYDEKKKREGHHPELFEKLKYPILKDKRYSEDKFQFHLPISLNFKSKERLNFNLK VNEFLKRNKDINIIGIDRGERNLLYLVMINQKGEILKQTLLDSMQSGKGRPEINYKEKLQEKEIERDKARK SWGTVENIKELKEGYLSIVIHQISKLMVENNAIVVLEDLNIGFKRGRQKVERQVYQKFEKMLIDKLNFLV FKENKPTEPGGVLKAYQLTDEFQSFEKLSKQTGFLFYVPSWNTSKIDPRTGFIDFLHPAYENIEKAKQWIN KFDSIRFNSKMDWFEFTADTRKFSENLMLGKNRVWVICTTNVERYFTSKTANSSIQYNSIQITEKLKELFV DIPFSNGQDLKPEILRKNDAVFFKSLLFYIKTTLSLRQNNGKKGEEEKDFILSPVVDSKGRFFNSLEASDDE PKDADANGAYHIALKGLMNLLVLNETKEENLSRPKWKIKNKDWLEFVWERNR(SEQID NO:89)

>WP_023936172_(修饰的)外切核酸酶SbcC[狗口腔卟啉单胞菌]

MPWIDLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYE SLFKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENL PKFIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGD GEMKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGR TQQLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGE ESISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDK DNVVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTR KVKLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKVLPEYKEGEPYFEKMDYK FLPDPNKMLPKVFLSKKGIEIYEPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGF KFSDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWR MLFDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRRYTMDKF QFHVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYH DLLESRDKDRQQERRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSV YQQFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNL FHAQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNG QWDSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEK D(SEQID NO:90)

>WP_009217842_(修饰的)假定蛋白[口腔类拟杆菌(Bacteroidetes oral taxon)274]

MRKFNEFVGLYPISKTLRFELKPIGKTLEHIQRNKLLEHDAVRADDYVKVKKIIDKYHKCLIDEALSGFTFDTEADGRSNNSLSEYYLYYNLKKRNEQEQKTFKTIQNNLRKQIVNKLTQSEKYKRIDKKELITTDLP DFLTNESEKELVEKFKNFTTYFTEFHKNRKNMYSKEEKSTAIAFRLINENLPKFVDNIAAFEKVVSSPLAE KINALYEDFKEYLNVEEISRVFRLDYYDELLTQKQIDLYNAIVGGRTEEDNKIQIKGLNQYINEYNQQQTD RSNRLPKLKPLYKQILSDRESVSWLPPKFDSDKNLLIKIKECYDALSEKEKVFDKLESILKSLSTYDLSKIYI SNDSQLSYISQKMFGRWDIISKAIREDCAKRNPQKSRESLEKFAERIDKKLKTIDSISIGDVDECLAQLGET YVKRVEDYFVAMGESEIDDEQTDTTSFKKNIEGAYESVKELLNNADNITDNNLMQDKGNVEKIKTLLDAI KDLQRFIKPLLGKGDEADKDGVFYGEFTSLWTKLDQVTPLYNMVRNYLTSKPYSTKKIKLNFENSTLMD GWDLNKEPDNTTVIFCKDGLYYLGIMGKKYNRVFVDREDLPHDGECYDKMEYKLLPGANKMLPKVFFS ETGIQRFLPSEELLGKYERGTHKKGAGFDLGDCRALIDFFKKSIERHDDWKKFDFKFSDTSTYQDISEFYR EVEQQGYKMSFRKVSVDYIKSLVEEGKLYLFQIYNKDFSAHSKGTPNMHTLYWKMLFDEENLKDVVYK LNGEAEVFFRKSSITVQSPTHPANSPIKNKNKDNQKKESKFEYDLIKDRRYTVDKFLFHVPITMNFKSVGG SNINQLVKRHIRSATDLHIIGIDRGERHLLYLTVIDSRGNIKEQFSLNEIVNEYNGNTYRTDYHELLDTREGE RTEARRNWQTIQNIRELKEGYLSQVIHKISELAIKYNAVIVLEDLNFGFMRSRQKVEKQVYQKFEKMLID KLNYLVDKKKPVAETGGLLRAYQLTGEFESFKTLGKQSGILFYVPAWNTSKIDPVTGFVNLFDTHYENIEK AKVFFDKFKSIRYNSDKDWFEFVVDDYTRFSPKAEGTRRDWTICTQGKRIQICRNHQRNNEWEGQEIDLT KAFKEHFEAYGVDISKDLREQINTQNKKEFFEELLRLLRLTLQMRNSMPSSDIDYLISPVANDTGCFFDSR KQAELKENAVLPMNADANGAYNIARKGLLAIRKMKQEENDSAKISLAISNKEWLKFAQTKPYLED(SEQID NO:91)

>WP_036890108_(修饰的)假定蛋白[狗口腔卟啉单胞菌]

MDSLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESL FKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPK FIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGE MKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQ QLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEES ISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDN VVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKV KLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKMLPEYKEGEPYFEKMDYKFL PDPNKMLPKVFLSKKGIEIYKPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKF SDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRML FDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRRYTMDKFQF HVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDL LESRDKDRQQEHRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVY QQFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLF HVQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQ WDSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ IDNO:92)

>WP_036887416_(修饰的)假定蛋白[狗口腔卟啉单胞菌]

MDSLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESL FKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPK FIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGE MKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQ QLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEES ISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDN VVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKV KLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKVLPEYKEGEPYFEKMDYKFL PDPNKMLPKVFLSKKGIEIYKPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKF SDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRML FDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRHYTMDKFQF HVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDL LESRDKDRQQERRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVYQ QFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLFH AQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQW DSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ IDNO:93)

>WP_023941260_(修饰的)外切核酸酶SbcC[犬口腔卟啉单胞菌]

MDSLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESL FKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPK FIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGE MKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQ QLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEES ISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDN VVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKV KLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKVLPEYKEGEPYFEKMDYKFL PDPNKMLPKVFLSKKGIEIYKPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKF SDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRML FDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRRYTMDKFQF HVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDL LESRDKDRQQERRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVYQ QFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLFH AQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQW DSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ IDNO:94)

>WP_037975888_(修饰的)假定蛋白[穷氏互养菌(Synergistes jonesii)]

MANSLKDFTNIYQLSKTLRFELKPIGKTEEHINRKLIIMHDEKRGEDYKSVTKLIDDYHRKFIHETLDPAHFDWNPLAEALIQSGSKNNKALPAEQKEMREKIISMFTSQAVYKKLFKKELFSELLPEMIKSELVSDL EKQAQLDAVKSFDKFSTYFTGFHENRKNIYSKKDTSTSIAFRIVHQNFPKFLANVRAYTLIKERAPEVIDK AQKELSGILGGKTLDDIFSIESFNNVLTQDKIDYYNQIIGGVSGKAGDKKLRGVNEFSNLYRQQHPEVASL RIKMVPLYKQILSDRTTLSFVPEALKDDEQAINAVDGLRSELERNDIFNRIKRLFGKNNLYSLDKIWIKNSSI SAFSNELFKNWSFIEDALKEFKENEFNGARSAGKKAEKWLKSKYFSFADIDAAVKSYSEQVSADISSAPSA SYFAKFTNLIETAAENGRKFSYFAAESKAFRGDDGKTEIIKAYLDSLNDILHCLKPFETEDISDIDTEFYSAF AEIYDSVKDVIPVYNAVRNYTTQKPFSTEKFKLNFENPALAKGWDKNKEQNNTAIILMKDGKYYLGVID KNNKLRADDLADDGSAYGYMKMNYKFIPTPHMELPKVFLPKRAPKRYNPSREILLIKENKTFIKDKNFNR TDCHKLIDFFKDSINKHKDWRTFGFDFSDTDSYEDISDFYMEVQDQGYKLTFTRLSAEKIDKWVEEGRLF LFQIYNKDFADGAQGSPNLHTLYWKAIFSEENLKDVVLKLNGEAELFFRRKSIDKPAVHAKGSMKVNRR DIDGNPIDEGTYVEICGYANGKRDMASLNAGARGLIESGLVRITEVKHELVKDKRYTIDKYFFHVPFTINF KAQGQGNINSDVNLFLRNNKDVNIIGIDRGERNLVYVSLIDRDGHIKLQKDFNIIGGMDYHAKLNQKEKE RDTARKSWKTIGTIKELKEGYLSQVVHEIVRLAVDNNAVIVMEDLNIGFKRGRFKVEKQVYQKFEKMLID KLNYLVFKDAGYDAPCGILKGLQLTEKFESFTKLGKQCGIIFYIPAGYTSKIDPTTGFVNLFNINDVSSKEK QKDFIGKLDSIRFDAKRDMFTFEFDYDKFRTYQTSYRKKWAVWTNGKRIVREKDKDGKFRMNDRLLTED MKNILNKYALAYKAGEDILPDVISRDKSLASEIFYVFKNTLQMRNSKRDTGEDFIISPVLNAKGRFFDSRK TDAALPIDADANGAYHIALKGSLVLDAIDEKLKEDGRIDYKDMAVSNPKWFEFMQTRKFDF(SEQ IDNO: 95)

>EFI70750_(修饰的)保守性假定蛋白[布氏普雷沃菌(Prevotella bryantii)B14]

MQINNLKIIYMKFTDFTGLYSLSKTLRFELKPIGKTLENIKKAGLLEQDQHRADSYKKVKKIIDEYHKAFIEKSLSNFELKYQSEDKLDSLEEYLMYYSMKRIEKTEKDKFAKIQDNLRKQIADHLKGDESYKTIFSK DLIRKNLPDFVKSDEERTLIKEFKDFTTYFKGFYENRENMYSAEDKSTAISHRIIHENLPKFVDNINAFSKII LIPELREKLNQIYQDFEEYLNVESIDEIFHLDYFSMVMTQKQIEVYNAIIGGKSTNDKKIQGLNEYINLYNQ KHKDCKLPKLKLLFKQILSDRIAISWLPDNFKDDQEALDSIDTCYKNLLNDGNVLGEGNLKLLLENIDTY NLKGIFIRNDLQLTDISQKMYASWNVIQDAVILDLKKQVSRKKKESAEDYNDRLKKLYTSQESFSIQYLND CLRAYGKTENIQDYFAKLGAVNNEHEQTINLFAQVRNAYTSVQAILTTPYPENANLAQDKETVALIKNLL DSLKRLQRFIKPLLGKGDESDKDERFYGDFTPLWETLNQITPLYNMVRNYMTRKPYSQEKIKLNFENSTL LGGWDLNKEHDNTAIILRKNGLYYLAIMKKSANKIFDKDKLDNSGDCYEKMVYKLLPGANKMLPKVFF SKSRIDEFKPSENIIENYKKGTHKKGANFNLADCHNLIDFFKSSISKHEDWSKFNFHFSDTSSYEDLSDFYR EVEQQGYSISFCDVSVEYINKMVEKGDLYLFQIYNKDFSEFSKGTPNMHTLYWNSLFSKENLNNIIYKLN GQAEIFFRKKSLNYKRPTHPAHQAIKNKNKCNEKKESIFDYDLVKDKRYTVDKFQFHVPITMNFKSTGNT NINQQVIDYLRTEDDTHIIGIDRGERHLLYLVVIDSHGKIVEQFTLNEIVNEYGGNIYRTNYHDLLDTREQN REKARESWQTIENIKELKEGYISQVIHKITDLMQKYHAVVVLEDLNMGFMRGRQKVEKQVYQKFEEMLI NKLNYLVNKKADQNSAGGLLHAYQLTSKFESFQKLGKQSGFLFYIPAWNTSKIDPVTGFVNLFDTRYESID KAKAFFGKFDSIRYNADKDWFEFAFDYNNFTTKAEGTRTNWTICTYGSRIRTFRNQAKNSQWDNEEIDLT KAYKAFFAKHGINIYDNIKEAIAMETEKSFFEDLLHLLKLTLQMRNSITGTTTDYLISPVHDSKGNFYDSRI CDNSLPANADANGAYNIARKGLMLIQQIKDSTSSNRFKFSPITNKDWLIFAQEKPYLND(SEQ ID NO:96)

>WP_024988992_(修饰的)假定蛋白[易北普雷沃菌]

MNIKNFTGLYPLSKTLRFELKPIGKTKENIEKNGILTKDEQRAKDYLIVKGFIDEYHKQFIKDRLWDFKLPLESEGEKNSLEEYQELYELTKRNDAQEADFTEIKDNLRSSITEQLTKSGSAYDRIFKKEFIREDLVNFL EDEKDKNIVKQFEDFTTYFTGFYENRKNMYSSEEKSTAIAYRLIHQNLPKFMDNMRSFAKIANSSVSEHFS DIYESWKEYLNVNSIEEIFQLDYFSETLTQPHIEVYNYIIGKKVLEDGTEIKGINEYVNLYNQQQKDKSKRL PFLVPLYKQILSDREKLSWIAEEFDSDKKMLSAITESYNHLHNVLMGNENESLRNLLLNIKDYNLEKINIT NDLSLTEISQNLFGRYDVFTNGIKNKLRVLTPRKKKETDENFEDRINKIFKTQKSFSIAFLNKLPQPEMEDG KPRNIEDYFITQGAINTKSIQKEDIFAQIENAYEDAQVFLQIKDTDNKLSQNKTAVEKIKTLLDALKELQHFI KPLLGSGEENEKDELFYGSFLAIWDELDTITPLYNKVRNWLTRKPYSTEKIKLNFDNAQLLGGWDVNKE HDCAGILLRKNDSYYLGIINKKTNHIFDTDITPSDGECYDKIDYKLLPGANKMLPKVFFSKSRIKEFEPSEA IINCYKKGTHKKGKNFNLTDCHRLINFFKTSIEKHEDWSKFGFKFSDTETYEDISGFYREVEQQGYRLTSH PVSASYIHSLVKEGKLYLFQIWNKDFSQFSKGTPNLHTLYWKMLFDKRNLSDVVYKLNGQAEVFYRKSSI EHQNRIIHPAQHPITNKNELNKKHTSTFKYDIIKDRRYTVDKFQFHVPITINFKATGQNNINPIVQEVIRQNG ITHIIGIDRGERHLLYLSLIDLKGNIIKQMTLNEIINEYKGVTYKTNYHNLLEKREKERTEARHSWSSIESIKE LKDGYMSQVIHKITDMMVKYNAIVVLEDLNGGFMRGRQKVEKQVYQKFEKKLIDKLNYLVDKKLDAN EVGGVLNAYQLTNKFESFKKIGKQSGFLFYIPAWNTSKIDPITGFVNLFNTRYESIKETKVFWSKFDIIRYN KEKNWFEFVFDYNTFTTKAEGTRTKWTLCTHGTRIQTFRNPEKNAQWDNKEINLTESFKALFEKYKIDIT SNLKESIMQETEKKFFQELHNLLHLTLQMRNSVTGTDIDYLISPVADEDGNFYDSRINGKNFPENADANG AYNIARKGLMLIRQIKQADPQKKFKFETITNKDWLKFAQDKPYLKD(SEQ ID NO:97)

>WP_039658684_(修饰的)假定蛋白[密斯氏菌属某种SC_K08D17]

MQTLFENFTNQYPVSKTLRFELIPQGKTKDFIEQKGLLKKDEDRAEKYKKVKNIIDEYHKDFIEKS LNGLKLDGLEKYKTLYLKQEKDDKDKKAFDKEKENLRKQIANAFRNNEKFKTLFAKELIKNDLMSFACE EDKKNVKEFEAFTTYFTGFHQNRANMYVADEKRTAIASRLIHENLPKFIDNIKIFEKMKKEAPELLSPFNQ TLKDMKDVIKGTTLEEIFSLDYFNKTLTQSGIDIYNSVIGGRTPEEGKTKIKGLNEYINTDFNQKQTDKKK RQPKFKQLYKQILSDRQSLSFIAEAFKNDTEILEAIEKFYVNELLHFSNEGKSTNVLDAIKNAVSNLESFNL TKMYFRSGASLTDVSRKVFGEWSIINRALDNYYATTYPIKPREKSEKYEERKEKWLKQDFNVSLIQTAIDE YDNETVKGKNSGKVIADYFAKFCDDKETDLIQKVNEGYIAVKDLLNTPCPENEKLGSNKDQVKQIKAFM DSIMDIMHFVRPLSLKDTDKEKDETFYSLFTPLYDHLTQTIALYNKVRNYLTQKPYSTEKIKLNFENSTLLG GWDLNKETDNTAIILRKDNLYYLGIMDKRHNRIFRNVPKADKKDFCYEKMVYKLLPGANKMLPKVFFS QSRIQEFTPSAKLLENYANETHKKGDNFNLNHCHKLIDFFKDSINKHEDWKNFDFRFSATSTYADLSGFY HEVEHQGYKISFQSVADSFIDDLVNEGKLYLFQIYNKDFSPFSKGKPNLHTLYWKMLFDENNLKDVVYKL NGEAEVFYRKKSIAEKNTTIHKANESIINKNPDNPKATSTFNYDIVKDKRYTIDKFQFHIPITMNFKAEGIFN MNQRVNQFLKANPDINIIGIDRGERHLLYYALINQKGKILKQDTLNVIANEKQKVDYHNLLDKKEGDRAT ARQEWGVIETIKELKEGYLSQVIHKLTDLMIENNAIIVMEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLN YLVDKNKKANELGGLLNAFQLANKFESFQKMGKQNGFIFYVPAWNTSKTDPATGFIDFLKPRYENLNQA KDFFEKFDSIRLNSKADYFEFAFDFKNFTEKADGGRTKWTVCTTNEDRYAWNRALNNNRGSQEKYDITA ELKSLFDGKVDYKSGKDLKQQIASQESADFFKALMKNLSITLSLRHNNGEKGDNEQDYILSPVADSKGRF FDSRKADDDMPKNADANGAYHIALKGLWCLEQISKTDDLKKVKLAISNKEWLEFVQTLKG(SEQ ID NO:98)

>WP_037385181_(修饰的)假定蛋白[密斯氏菌属某种SCADC]

MQTLFENFTNQYPVSKTLRFELIPQGKTKDFIEQKGLLKKDEDRAEKYKKVKNIIDEYHKDFIEKS LNGLKLDGLEEYKTLYLKQEKDDKDKKAFDKEKENLRKQIANAFRNNEKFKTLFAKELIKNDLMSFACE EDKKNVKEFEAFTTYFTGFHQNRANMYVADEKRTAIASRLIHENLPKFIDNIKIFEKMKKEAPELLSPFNQ TLKDMKDVIKGTTLEEIFSLDYFNKTLTQSGIDIYNSVIGGRTPEEGKTKIKGLNEYINTDFNQKQTDKKK RQPKFKQLYKQILSDRQSLSFIAEAFKNDTEILEAIEKFYVNELLHFSNEGKSTNVLDAIKNAVSNLESFNL TKIYFRSGTSLTDVSRKVFGEWSIINRALDNYYATTYPIKPREKSEKYEERKEKWLKQDFNVSLIQTAIDEY DNETVKGKNSGKVIVDYFAKFCDDKETDLIQKVNEGYIAVKDLLNTPYPENEKLGSNKDQVKQIKAFMD SIMDIMHFVRPLSLKDTDKEKDETFYSLFTPLYDHLTQTIALYNKVRNYLTQKPYSTEKIKLNFENSTLLGG WDLNKETDNTAIILRKENLYYLGIMDKRHNRIFRNVPKADKKDSCYEKMVYKLLPGANKMLPKVFFSQS RIQEFTPSAKLLENYENETHKKGDNFNLNHCHQLIDFFKDSINKHEDWKNFDFRFSATSTYADLSGFYHE VEHQGYKISFQSIADSFIDDLVNEGKLYLFQIYNKDFSPFSKGKPNLHTLYWKMLFDENNLKDVVYKLNG EAEVFYRKKSIAEKNTTIHKANESIINKNPDNPKATSTFNYDIVKDKRYTIDKFQFHVPITMNFKAEGIFNM NQRVNQFLKANPDINIIGIDRGERHLLYYTLINQKGKILKQDTLNVIANEKQKVDYHNLLDKKEGDRATA RQEWGVIETIKELKEGYLSQVIHKLTDLMIENNAIIVMEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNY LVDKNKKANELGGLLNAFQLANKFESFQKMGKQNGFIFYVPAWNTSKTDPATGFIDFLKPRYENLKQAK DFFEKFDSIRLNSKADYFEFAFDFKNFTGKADGGRTKWTVCTTNEDRYAWNRALNNNRGSQEKYDITAE LKSLFDGKVDYKSGKDLKQQIASQELADFFRTLMKYLSVTLSLRHNNGEKGETEQDYILSPVADSMGKFFDSRKAGDDMPKNADANGAYHIALKGLWCLEQISKTDDLKKVKLAISNKEWLEFMQTLKG(SEQ ID NO: 99)

>WP_039871282_(修饰的)假定蛋白[布氏普雷沃菌]

MKFTDFTGLYSLSKTLRFELKPIGKTLENIKKAGLLEQDQHRADSYKKVKKIIDEYHKAFIEKSLSNFELKYQSEDKLDSLEEYLMYYSMKRIEKTEKDKFAKIQDNLRKQIADHLKGDESYKTIFSKDLIRKNLPDF VKSDEERTLIKEFKDFTTYFKGFYENRENMYSAEDKSTAISHRIIHENLPKFVDNINAFSKIILIPELREKLN QIYQDFEEYLNVESIDEIFHLDYFSMVMTQKQIEVYNAIIGGKSTNDKKIQGLNEYINLYNQKHKDCKLPK LKLLFKQILSDRIAISWLPDNFKDDQEALDSIDTCYKNLLNDGNVLGEGNLKLLLENIDTYNLKGIFIRND LQLTDISQKMYASWNVIQDAVILDLKKQVSRKKKESAEDYNDRLKKLYTSQESFSIQYLNDCLRAYGKTE NIQDYFAKLGAVNNEHEQTINLFAQVRNAYTSVQAILTTPYPENANLAQDKETVALIKNLLDSLKRLQRFI KPLLGKGDESDKDERFYGDFTPLWETLNQITPLYNMVRNYMTRKPYSQEKIKLNFENSTLLGGWDLNKE HDNTAIILRKNGLYYLAIMKKSANKIFDKDKLDNSGDCYEKMVYKLLPGANKMLPKVFFSKSRIDEFKPS ENIIENYKKGTHKKGANFNLADCHNLIDFFKSSISKHEDWSKFNFHFSDTSSYEDLSDFYREVEQQGYSIS FCDVSVEYINKMVEKGDLYLFQIYNKDFSEFSKGTPNMHTLYWNSLFSKENLNNIIYKLNGQAEIFFRKKS LNYKRPTHPAHQAIKNKNKCNEKKESIFDYDLVKDKRYTVDKFQFHVPITMNFKSTGNTNINQQVIDYLR TEDDTHIIGIDRGERHLLYLVVIDSHGKIVEQFTLNEIVNEYGGNIYRTNYHDLLDTREQNREKARESWQTI ENIKELKEGYISQVIHKITDLMQKYHAVVVLEDLNMGFMRGRQKVEKQVYQKFEEMLINKLNYLVNKK ADQNSAGGLLHAYQLTSKFESFQKLGKQSGFLFYIPAWNTSKIDPVTGFVNLFDTRYESIDKAKAFFGKFD SIRYNADKDWFEFAFDYNNFTTKAEGTRTNWTICTYGSRIRTFRNQAKNSQWDNEEIDLTKAYKAFFAKH GINIYDNIKEAIAMETEKSFFEDLLHLLKLTLQMRNSITGTTTDYLISPVHDSKGNFYDSRICDNSLPANAD ANGAYNIARKGLMLIQQIKDSTSSNRFKFSPITNKDWLIFAQEKPYLND(SEQ ID NO:100)

>EKE28449_(修饰的)假定蛋白ACD_3C00058G0015[未培养细菌(gcode 4)]

MFKGDAFTGLYEVQKTLRFELVPIGLTQSYLENDWVIQKDKEVEENYGKIKAYFDLIHKEFVRQSL ENAWLCQLDDFYEKYIELHNSLETRKDKNLAKQFEKVMKSLKKEFVSFFDAKWNEWKQKFSFLKKWW IDVLNEKEVLDLMAEFYPDEKELFDKFDKFFTYFSNFKESRKNFYADDGRAWAIATRAIDENLITFIKNIED FKKLNSSFREFVNDNFSEEDKQIFEIDFYNNCLLQPWIDKYNKIVWWYSLENWEKVQWLNEKINNFKQN QNKSNSKDLKFPRMKLLYKQILGDKEKKVYIDEIRDDKNLIDLIDNSKRRNQIKIDNANDIINDFINNNAK FELDKIYLTRQSINTISSKYFSSWDYIRWYFWTGELQEFVSFYDLKETFWKIEYETLENIFKDCYVKGINTE SQNNIVFETQGIYENFLNIFKFEFNQNISQISLLEWELDKIQNEDIKKNEKQVEVIKNYFDSVMSVYKMTK YFSLEKWKKRVELDTDNNFYNDFNEYLEGFEIWKDYNLVRNYITKKQVNTDKIKLNFDNSQFLTWWDK DKENERLGIILRREWKYYLWILKKWNTLNFGDYLQKEWEIFYEKMNYKQLNNVYRQLPRLLFPLTKKLN ELKWDELKKYLSKYIQNFWYNEEIAQIKIEFDIFQESKEKWEKFDIDKLRKLIEYYKKWVLALYSDLYDL EFIKYKNYDDLSIFYSDVEKKMYNLNFTKIDKSLIDGKVKSWELYLFQIYNKDFSESKKEWSTENIHTKYF KLLFNEKNLQNLVVKLSWWADIFFRDKTENLKFKKDKNGQEILDHRRFSQDKIMFHISITLNANCWDKY WFNQYVNEYMNKERDIKIIWIDRWEKHLAYYCVIDKSWKIFNNEIWTLNELNWVNYLEKLEKIESSRKD SRISWWEIENIKELKNGYISQVINKLTELIVKYNAIIVFEDLNIWFKRWRQKIEKQIYQKLELALAKKLNYL TQKDKKDDEILWNLKALQLVPKVNDYQDIWNYKQSWIMFYVRANYTSVTCPNCWLRKNLYISNSATKE NQKKSLNSIAIKYNDWKFSFSYEIDDKSWKQKQSLNKKKFIVYSDIERFVYSPLEKLTKVIDVNKKLLELF RDFNLSLDINKQIQEKDLDSVFFKSLTHLFNLILQLRNSDSKDNKDYISCPSCYYHSNNWLQWFEFNWDA NWAYNIARKGIILLDRIRKNQEKPDLYVSDIDWDNFVQSNQFPNTIIPIQNIEKQVPLNIKI(SEQ ID NO: 101)

>WP_018359861_(修饰的)假定蛋白[猕猴卟啉单胞菌]

MKTQHFFEDFTSLYSLSKTIRFELKPIGKTLENIKKNGLIRRDEQRLDDYEKLKKVIDEYHEDFIANILSSFSFSEEILQSYIQNLSESEARAKIEKTMRDTLAKAFSEDERYKSIFKKELVKKDIPVWCPAYKSLCKKF DNFTTSLVPFHENRKNLYTSNEITASIPYRIVHVNLPKFIQNIEALCELQKKMGADLYLEMMENLRNVWPS FVKTPDDLCNLKTYNHLMVQSSISEYNRFVGGYSTEDGTKHQGINEWINIYRQRNKEMRLPGLVFLHKQI LAKVDSSSFISDTLENDDQVFCVLRQFRKLFWNTVSSKEDDAASLKDLFCGLSGYDPEAIYVSDAHLATIS KNIFDRWNYISDAIRRKTEVLMPRKKESVERYAEKISKQIKKRQSYSLAELDDLLAHYSEESLPAGFSLLSY FTSLGGQKYLVSDGEVILYEEGSNIWDEVLIAFRDLQVILDKDFTEKKLGKDEEAVSVIKKALDSALRLRK FFDLLSGTGAEIRRDSSFYALYTDRMDKLKGLLKMYDKVRNYLTKKPYSIEKFKLHFDNPSLLSGWDKN KELNNLSVIFRQNGYYYLGIMTPKGKNLFKTLPKLGAEEMFYEKMEYKQIAEPMLMLPKVFFPKKTKPA FAPDQSVVDIYNKKTFKTGQKGFNKKDLYRLIDFYKEALTVHEWKLFNFSFSPTEQYRNIGEFFDEVREQ AYKVSMVNVPASYIDEAVENGKLYLFQIYNKDFSPYSKGIPNLHTLYWKALFSEQNQSRVYKLCGGGELF YRKASLHMQDTTVHPKGISIHKKNLNKKGETSLFNYDLVKDKRFTEDKFFFHVPISINYKNKKITNVNQM VRDYIAQNDDLQIIGIDRGERNLLYISRIDTRGNLLEQFSLNVIESDKGDLRTDYQKILGDREQERLRRRQE WKSIESIKDLKDGYMSQVVHKICNMVVEHKAIVVLENLNLSFMKGRKKVEKSVYEKFERMLVDKLNYL VVDKKNLSNEPGGLYAAYQLTNPLFSFEELHRYPQSGILFFVDPWNTSLTDPSTGFVNLLGRINYTNVGDA RKFFDRFNAIRYDGKGNILFDLDLSRFDVRVETQRKLWTLTTFGSRIAKSKKSGKWMVERIENLSLCFLEL FEQFNIGYRVEKDLKKAILSQDRKEFYVRLIYLFNLMMQIRNSDGEEDYILSPALNEKNLQFDSRLIEAKD LPVDADANGAYNVARKGLMVVQRIKRGDHESIHRIGRAQWLRYVQEGIVE(SEQ ID NO:102)

>WP_013282991_(修饰的)假定蛋白[解朊丁酸弧菌]

MLLYENYTKRNQITKSLRLELRPQGKTLRNIKELNLLEQDKAIYALLERLKPVIDEGIKDIARDTLKNCELSFEKLYEHFLSGDKKAYAKESERLKKEIVKTLIKNLPEGIGKISEINSAKYLNGVLYDFIDKTHKDSE EKQNILSDILETKGYLALFSKFLTSRITTLEQSMPKRVIENFEIYAANIPKMQDALERGAVSFAIEYESICSVD YYNQILSQEDIDSYNRLISGIMDEDGAKEKGINQTISEKNIKIKSEHLEEKPFRILKQLHKQILEEREKAFTID HIDSDEEVVQVTKEAFEQTKEQWENIKKINGFYAKDPGDITLFIVVGPNQTHVLSQLIYGEHDRIRLLLEE YEKNTLEVLPRRTKSEKARYDKFVNAVPKKVAKESHTFDGLQKMTGDDRLFILYRDELARNYMRIKEAY GTFERDILKSRRGIKGNRDVQESLVSFYDELTKFRSALRIINSGNDEKADPIFYNTFDGIFEKANRTYKAEN LCRNYVTKSPADDARIMASCLGTPARLRTHWWNGEENFAINDVAMIRRGDEYYYFVLTPDVKPVDLKTK DETDAQIFVQRKGAKSFLGLPKALFKCILEPYFESPEHKNDKNCVIEEYVSKPLTIDRRAYDIFKNGTFKKT NIGIDGLTEEKFKDDCRYLIDVYKEFIAVYTRYSCFNMSGLKRADEYNDIGEFFSDVDTRLCTMEWIPVSF ERINDMVDKKEGLLFLVRSMFLYNRPRKPYERTFIQLFSDSNMEHTSMLLNSRAMIQYRAASLPRRVTHK KGSILVALRDSNGEHIPMHIREAIYKMKNNFDISSEDFIMAKAYLAEHDVAIKKANEDIIRNRRYTEDKFFL SLSYTKNADISARTLDYINDKVEEDTQDSRMAVIVTRNLKDLTYVAVVDEKNNVLEEKSLNEIDGVNYRE LLKERTKIKYHDKTRLWQYDVSSKGLKEAYVELAVTQISKLATKYNAVVVVESMSSTFKDKFSFLDEQIF KAFEARLCARMSDLSFNTIKEGEAGSISNPIQVSNNNGNSYQDGVIYFLNNAYTRTLCPDTGFVDVFDKT RLITMQSKRQFFAKMKDIRIDDGEMLFTFNLEEYPTKRLLDRKEWTVKIAGDGSYFDKDKGEYVYVNDI VREQIIPALLEDKAVFDGNMAEKFLDKTAISGKSVELIYKWFANALYGIITKKDGEKIYRSPITGTEIDVSKN TTYNFGKKFMFKQEYRGDGDFLDAFLNYMQAQDIAV(SEQ ID NO:103)

>AIZ56868_(修饰的)假定蛋白Mpt1_c09950[候选白蚁甲烷枝原体]

MNNYDEFTKLYPIQKTIRFELKPQGRTMEHLETFNFFEEDRDRAEKYKILKEAIDEYHKKFIDEHLTNMSLDWNSLKQISEKYYKSREEKDKKVFLSEQKRMRQEIVSEFKKDDRFKDLFSKKLFSELLKEEIYKKG NHQEIDALKSFDKFSGYFIGLHENRKNMYSDGDEITAISNRIVNENFPKFLDNLQKYQEARKKYPEWIIKA ESALVAHNIKMDEVFSLEYFNKVLNQEGIQRYNLALGGYVTKSGEKMMGLNDALNLAHQSEKSSKGRIH MTPLFKQILSEKESFSYIPDVFTEDSQLLPSIGGFFAQIENDKDGNIFDRALELISSYAEYDTERIYIRQADIN RVSNVIFGEWGTLGGLMREYKADSINDINLERTCKKVDKWLDSKEFALSDVLEAIKRTGNNDAFNEYISK MRTAREKIDAARKEMKFISEKISGDEESIHIIKTLLDSVQQFLHFFNLFKARQDIPLDGAFYAEFDEVHSKLF AIVPLYNKVRNYLTKNNLNTKKIKLNFKNPTLANGWDQNKVYDYASLIFLRDGNYYLGIINPKRKKNIKF EQGSGNGPFYRKMVYKQIPGPNKNLPRVFLTSTKGKKEYKPSKEIIEGYEADKHIRGDKFDLDFCHKLIDF FKESIEKHKDWSKFNFYFSPTESYGDISEFYLDVEKQGYRMHFENISAETIDEYVEKGDLFLFQIYNKDFV KAATGKKDMHTIYWNAAFSPENLQDVVVKLNGEAELFYRDKSDIKEIVHREGEILVNRTYNGRTPVPDKI HKKLTDYHNGRTKDLGEAKEYLDKVRYFKAHYDITKDRRYLNDKIYFHVPLTLNFKANGKKNLNKMVI EKFLSDEKAHIIGIDRGERNLLYYSIIDRSGKIIDQQSLNVIDGFDYREKLNQREIEMKDARQSWNAIGKIK DLKEGYLSKAVHEITKMAIQYNAIVVMEELNYGFKRGRFKVEKQIYQKFENMLIDKMNYLVFKDAPDES PGGVLNAYQLTNPLESFAKLGKQTGILFYVPAAYTSKIDPTTGFVNLFNTSSKTNAQERKEFLQKFESISYS AKDGGIFAFAFDYRKFGTSKTDHKNVWTAYTNGERMRYIKEKKRNELFDPSKEIKEALTSSGIKYDGGQN ILPDILRSNNNGLIYTMYSSFIAAIQMRVYDGKEDYIISPIKNSKGEFFRTDPKRRELPIDADANGAYNIALR GELTMRAIAEKFDPDSEKMAKLELKHKDWFEFMQTRGD(SEQ ID NO:104)

>WP_027407524_(修饰的)假定蛋白[厌氧弧菌属(Anaerovibrio)某种RM50]

MVAFIDEFVGQYPVSKTLRFEARPVPETKKWLESDQCSVLFNDQKRNEYYGVLKELLDDYYRAYI EDALTSFTLDKALLENAYDLYCNRDTNAFSSCCEKLRKDLVKAFGNLKDYLLGSDQLKDLVKLKAKVDA PAGKGKKKIEVDSRLINWLNNNAKYSAEDREKYIKAIESFEGFVTYLTNYKQARENMFSSEDKSTAIAFRV IDQNMVTYFGNIRIYEKIKAKYPELYSALKGFEKFFSPTAYSEILSQSKIDEYNYQCIGRPIDDADFKGVNSL INEYRQKNGIKARELPVMSMLYKQILSDRDNSFMSEVINRNEEAIECAKNGYKVSYALFNELLQLYKKIFT EDNYGNIYVKTQPLTELSQALFGDWSILRNALDNGKYDKDIINLAELEKYFSEYCKVLDADDAAKIQDKF NLKDYFIQKNALDATLPDLDKITQYKPHLDAMLQAIRKYKLFSMYNGRKKMDVPENGIDFSNEFNAIYD KLSEFSILYDRIRNFATKKPYSDEKMKLSFNMPTMLAGWDYNNETANGCFLFIKDGKYFLGVADSKSKNI FDFKKNPHLLDKYSSKDIYYKVKYKQVSGSAKMLPKVVFAGSNEKIFGHLISKRILEIREKKLYTAAAGD RKAVAEWIDFMKSAIAIHPEWNEYFKFKFKNTAEYDNANKFYEDIDKQTYSLEKVEIPTEYIDEMVSQHK LYLFQLYTKDFSDKKKKKGTDNLHTMYWHGVFSDENLKAVTEGTQPIIKLNGEAEMFMRNPSIEFQVTH EHNKPIANKNPLNTKKESVFNYDLIKDKRYTERKFYFHCPITLNFRADKPIKYNEKINRFVENNPDVCIIGI DRGERHLLYYTVINQTGDILEQGSLNKISGSYTNDKGEKVNKETDYHDLLDRKEKGKHVAQQAWETIENI KELKAGYLSQVVYKLTQLMLQYNAVIVLENLNVGFKRGRTKVEKQVYQKFEKAMIDKLNYLVFKDRGY EMNGSYAKGLQLTDKFESFDKIGKQTGCIYYVIPSYTSHIDPKTGFVNLLNAKLRYENITKAQDTIRKFDSI SYNAKADYFEFAFDYRSFGVDMARNEWVVCTCGDLRWEYSAKTRETKAYSVTDRLKELFKAHGIDYVGGENLVSHITEVADKHFLSTLLFYLRLVLKMRYTVSGTENENDFILSPVEYAPGKFFDSREATSTEPMNAD ANGAYHIALKGLMTIRGIEDGKLHNYGKGGENAAWFKFMQNQEYKNNG(SEQ ID NO:105)

>WP_044910712_(修饰的)假定蛋白[毛螺菌科细菌MC2017]

MDYGNGQFERRAPLTKTITLRLKPIGETRETIREQKLLEQDAAFRKLVETVTPIVDDCIRKIADNALCHFGTEYDFSCLGNAISKNDSKAIKKETEKVEKLLAKVLTENLPDGLRKVNDINSAAFIQDTLTSFVQDDA DKRVLIQELKGKTVLMQRFLTTRITALTVWLPDRVFENFNIFIENAEKMRILLDSPLNEKIMKFDPDAEQYA SLEFYGQCLSQKDIDSYNLIISGIYADDEVKNPGINEIVKEYNQQIRGDKDESPLPKLKKLHKQILMPVEKA FFVRVLSNDSDARSILEKILKDTEMLPSKIIEAMKEADAGDIAVYGSRLHELSHVIYGDHGKLSQIIYDKES KRISELMETLSPKERKESKKRLEGLEEHIRKSTYTFDELNRYAEKNVMAAYIAAVEESCAEIMRKEKDLRT LLSKEDVKIRGNRHNTLIVKNYFNAWTVFRNLIRILRRKSEAEIDSDFYDVLDDSVEVLSLTYKGENLCRS YITKKIGSDLKPEIATYGSALRPNSRWWSPGEKFNVKFHTIVRRDGRLYYFILPKGAKPVELEDMDGDIEC LQMRKIPNPTIFLPKLVFKDPEAFFRDNPEADEFVFLSGMKAPVTITRETYEAYRYKLYTVGKLRDGEVSE EEYKRALLQVLTAYKEFLENRMIYADLNFGFKDLEEYKDSSEFIKQVETHNTFMCWAKVSSSQLDDLVKS GNGLLFEIWSERLESYYKYGNEKVLRGYEGVLLSILKDENLVSMRTLLNSRPMLVYRPKESSKPMVVHR DGSRVVDRFDKDGKYIPPEVHDELYRFFNNLLIKEKLGEKARKILDNKKVKVKVLESERVKWSKFYDEQF AVTFSVKKNADCLDTTKDLNAEVMEQYSESNRLILIRNTTDILYYLVLDKNGKVLKQRSLNIINDGARDV DWKERFRQVTKDRNEGYNEWDYSRTSNDLKEVYLNYALKEIAEAVIEYNAILIIEKMSNAFKDKYSFLDD VTFKGFETKLLAKLSDLHFRGIKDGEPCSFTNPLQLCQNDSNKILQDGVIFMVPNSMTRSLDPDTGFIFAIN DHNIRTKKAKLNFLSKFDQLKVSSEGCLIMKYSGDSLPTHNTDNRVWNCCCNHPITNYDRETKKVEFIEE PVEELSRVLEENGIETDTELNKLNERENVPGKVVDAIYSLVLNYLRGTVSGVAGQRAVYYSPVTGKKYDI SFIQAMNLNRKCDYYRIGSKERGEWTDFVAQLIN(SEQ ID NO:106)

>WP_027216152_(修饰的)假定蛋白[溶纤维丁酸弧菌]

MYYESLTKLYPIKKTIRNELVPIGKTLENIKKNNILEADEDRKIAYIRVKAIMDDYHKRLINEALSGFALIDLDKAANLYLSRSKSADDIESFSRFQDKLRKAIAKRLREHENFGKIGNKDIIPLLQKLSENEDDYNALE SFKNFYTYFESYNDVRLNLYSDKEKSSTVAYRLINENLPRFLDNIRAYDAVQKAGITSEELSSEAQDGLFLV NTFNNVLIQDGINTYNEDIGKLNVAINLYNQKNASVQGFRKVPKMKVLYKQILSDREESFIDEFESDTELL DSLESHYANLAKYFGSNKVQLLFTALRESKGVNVYVKNDIAKTSFSNVVFGSWSRIDELINGEYDDNNN RKKDEKYYDKRQKELKKNKSYTIEKIITLSTEDVDVIGKYIEKLESDIDDIRFKGKNFYEAVLCGHDRSKK LSKNKGAVEAIKGYLDSVKDFERDLKLINGSGQELEKNLVVYGEQEAVLSELSGIDSLYNMTRNYLTKKP FSTEKIKLNFNKPTFLDGWDYGNEEAYLGFFMIKEGNYFLAVMDANWNKEFRNIPSVDKSDCYKKVIYK QISSPEKSIQNLMVIDGKTVKKNGRKEKEGIHSGENLILEELKNTYLPKKINDIRKRRSYLNGDTFSKKDLT EFIGYYKQRVIEYYNGYSFYFKSDDDYASFKEFQEDVGRQAYQISYVDVPVSFVDDLINSGKLYLFRVYN KDFSEYSKGRLNLHTLYFKMLFDERNLKNVVYKLNGQAEVFYRPSSIKKEELIVHRAGEEIKNKNPKRAA QKPTRRLDYDIVKDRRYSQDKFMLHTSIIMNFGAEENVSFNDIVNGVLRNEDKVNVIGIDRGERNLLYVV VIDPEGKILEQRSLNCITDSNLDIETDYHRLLDEKESDRKIARRDWTTIENIKELKAGYLSQVVHIVAELVL KYNAIICLEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNYLVMDKSREQLSPEKISGALNALQLTPDFKS FKVLGKQTGIIYYVPAYLTSKIDPMTGFANLFYVKYENVDKAKEFFSKFDSIKYNKDGKNWNTKGYFEFA FDYKKFTDRAYGRVSEWTVCTVGERIIKFKNKEKNNSYDDKVIDLTNSLKELFDSYKVTYESEVDLKDAI LAIDDPAFYRDLTRRLQQTLQMRNSSCDGSRDYIISPVKNSKGEFFCSDNNDDTTPNDADANGAFNIARK GLWVLNEIRNSEEGSKINLAMSNAQWLEYAQDNTI(SEQ ID NO:107)

>WP_016301126_(修饰的)假定蛋白[毛螺菌科细菌COE1]

MHENNGKIADNFIGIYPVSKTLRFELKPVGKTQEYIEKHGILDEDLKRAGDYKSVKKIIDAYHKYFIDEALNGIQLDGLKNYYELYEKKRDNNEEKEFQKIQMSLRKQIVKRFSEHPQYKYLFKKELIKNVLPEFTK DNAEEQTLVKSFQEFTTYFEGFHQNRKNMYSDEEKSTAIAYRVVHQNLPKYIDNMRIFSMILNTDIRSDLT ELFNNLKTKMDITIVEEYFAIDGFNKVVNQKGIDVYNTILGAFSTDDNTKIKGLNEYINLYNQKNKAKLPK LKPLFKQILSDRDKISFIPEQFDSDTEVLEAVDMFYNRLLQFVIENEGQITISKLLTNFSAYDLNKIYVKNDT TISAISNDLFDDWSYISKAVRENYDSENVDKNKRAAAYEEKKEKALSKIKMYSIEELNFFVKKYSCNECHI EGYFERRILEILDKMRYAYESCKILHDKGLINNISLCQDRQAISELKDFLDSIKEVQWLLKPLMIGQEQADK EEAFYTELLRIWEELEPITLLYNKVRNYVTKKPYTLEKVKLNFYKSTLLDGWDKNKEKDNLGIILLKDGQ YYLGIMNRRNNKIADDAPLAKTDNVYRKMEYKLLTKVSANLPRIFLKDKYNPSEEMLEKYEKGTHLKG ENFCIDDCRELIDFFKKGIKQYEDWGQFDFKFSDTESYDDISAFYKEVEHQGYKITFRDIDETYIDSLVNEG KLYLFQIYNKDFSPYSKGTKNLHTLYWEMLFSQQNLQNIVYKLNGNAEIFYRKASINQKDVVVHKADLPI KNKDPQNSKKESMFDYDIIKDKRFTCDKYQFHVPITMNFKALGENHFNRKVNRLIHDAENMHIIGIDRGE RNLIYLCMIDMKGNIVKQISLNEIISYDKNKLEHKRNYHQLLKTREDENKSARQSWQTIHTIKELKEGYLS QVIHVITDLMVEYNAIVVLEDLNFGFKQGRQKFERQVYQKFEKMLIDKLNYLVDKSKGMDEDGGLLHA YQLTDEFKSFKQLGKQSGFLYYIPAWNTSKLDPTTGFVNLFYTKYESVEKSKEFINNFTSILYNQEREYFEF LFDYSAFTSKAEGSRLKWTVCSKGERVETYRNPKKNNEWDTQKIDLTFELKKLFNDYSISLLDGDLREQ MGKIDKADFYKKFMKLFALIVQMRNSDEREDKLISPVLNKYGAFFETGKNERMPLDADANGAYNIARKGLWIIEKIKNTDVEQLDKVKLTISNKEWLQYAQEHIL(SEQ ID NO:108)

>WP_035635841_(修饰的)假定蛋白[毛螺菌科细菌ND2006]

MSKLEKFTNCYSLSKTLRFKAIPVGKTQENIDNKRLLVEDEKRAEDYKGVKKLLDRYYLSFINDVL HSIKLKNLNNYISLFRKKTRTEKENKELENLEINLRKEIAKAFKGNEGYKSLFKKDIIETILPEFLDDKDEIA LVNSFNGFTTAFTGFFDNRENMFSEEAKSTSIAFRCINENLTRYISNMDIFEKVDAIFDKHEVQEIKEKILNS DYDVEDFFEGEFFNFVLTQEGIDVYNAIIGGFVTESGEKIKGLNEYINLYNQKTKQKLPKFKPLYKQVLSD RESLSFYGEGYTSDEEVLEVFRNTLNKNSEIFSSIKKLEKLFKNFDEYSSAGIFVKNGPAISTISKDIFGEWN VIRDKWNAEYDDIHLKKKAVVTEKYEDDRRKSFKKIGSFSLEQLQEYADADLSVVEKLKEIIIQKVDEIYK VYGSSEKLFDADFVLEKSLKKNDAVVAIMKDLLDSVKSFENYIKAFFGEGKETNRDESFYGDFVLAYDIL LKVDHIYDAIRNYVTQKPYSKDKFKLYFQNPQFMGGWDKDKETDYRATILRYGSKYYLAIMDKKYAKC LQKIDKDDVNGNYEKINYKLLPGPNKMLPKVFFSKKWMAYYNPSEDIQKIYKNGTFKKGDMFNLNDCH KLIDFFKDSISRYPKWSNAYDFNFSETEKYKDIAGFYREVEEQGYKVSFESASKKEVDKLVEEGKLYMFQI YNKDFSDKSHGTPNLHTMYFKLLFDENNHGQIRLSGGAELFMRRASLKKEELVVHPANSPIANKNPDNP KKTTTLSYDVYKDKRFSEDQYELHIPIAINKCPKNIFKINTEVRVLLKHDDNPYVIGIDRGERNLLYIVVVD GKGNIVEQYSLNEIINNFNGIRIKTDYHSLLDKKEKERFEARQNWTSIENIKELKAGYISQVVHKICELVEK YDAVIALEDLNSGFKNSRVKVEKQVYQKFEKMLIDKLNYMVDKKSNPCATGGALKGYQITNKFESFKSM STQNGFIFYIPAWLTSKIDPSTGFVNLLKTKYTSIADSKKFISSFDRIMYVPEEDLFEFALDYKNFSRTDADYI KKWKLYSYGNRIRIFRNPKKNNVFDWEEVCLTSAYKELFNKYGINYQQGDIRALLCEQSDKAFYSSFMA LMSLMLQMRNSITGRTDVDFLISPVKNSDGIFYDSRNYEAQENAILPKNADANGAYNIARKVLWAIGQFK KAEDEKLDKVKIAISNKEWLEYAQTSVKH(SEQ ID NO:109)

>WP_015504779_(修饰的)外切核酸酶SbcC[候选alvus甲烷嗜甲基菌(CandidatusMethanomethylophilus alvus)]

MDAKEFTGQYPLSKTLRFELRPIGRTWDNLEASGYLAEDRHRAECYPRAKELLDDNHRAFLNRVL PQIDMDWHPIAEAFCKVHKNPGNKELAQDYNLQLSKRRKEISAYLQDADGYKGLFAKPALDEAMKIAKE NGNESDIEVLEAFNGFSVYFTGYHESRENIYSDEDMVSVAYRITEDNFPRFVSNALIFDKLNESHPDIISEVS GNLGVDDIGKYFDVSNYNNFLSQAGIDDYNHIIGGHTTEDGLIQAFNVVLNLRHQKDPGFEKIQFKQLYK QILSVRTSKSYIPKQFDNSKEMVDCICDYVSKIEKSETVERALKLVRNISSFDLRGIFVNKKNLRILSNKLIG DWDAIETALMHSSSSENDKKSVYDSAEAFTLDDIFSSVKKFSDASAEDIGNRAEDICRVISETAPFINDLRA VDLDSLNDDGYEAAVSKIRESLEPYMDLFHELEIFSVGDEFPKCAAFYSELEEVSEQLIEIIPLFNKARSFCT RKRYSTDKIKVNLKFPTLADGWDLNKERDNKAAILRKDGKYYLAILDMKKDLSSIRTSDEDESSFEKME YKLLPSPVKMLPKIFVKSKAAKEKYGLTDRMLECYDKGMHKSGSAFDLGFCHELIDYYKRCIAEYPGWD VFDFKFRETSDYGSMKEFNEDVAGAGYYMSLRKIPCSEVYRLLDEKSIYLFQIYNKDYSENAHGNKNMH TMYWEGLFSPQNLESPVFKLSGGAELFFRKSSIPNDAKTVHPKGSVLVPRNDVNGRRIPDSIYRELTRYFN RGDCRISDEAKSYLDKVKTKKADHDIVKDRRFTVDKMMFHVPIAMNFKAISKPNLNKKVIDGIIDDQDL KIIGIDRGERNLIYVTMVDRKGNILYQDSLNILNGYDYRKALDVREYDNKEARRNWTKVEGIRKMKEGY LSLAVSKLADMIIENNAIIVMEDLNHGFKAGRSKIEKQVYQKFESMLINKLGYMVLKDKSIDQSGGALHG YQLANHVTTLASVGKQCGVIFYIPAAFTSKIDPTTGFADLFALSNVKNVASMREFFSKMKSVIYDKAEGKF AFTFDYLDYNVKSECGRTLWTVYTVGERFTYSRVNREYVRKVPTDIIYDALQKAGISVEGDLRDRIAESD GDTLKSIFYAFKYALDMRVENREEDYIQSPVKNASGEFFCSKNAGKSLPQDSDANGAYNIALKGILQLRMLSEQYDPNAESIRLPLITNKAWLTFMQSGMKTWKN(SEQ ID NO:110)

>WP_044910713_(修饰的)假定蛋白[毛螺菌科细菌MC2017]

MGLYDGFVNRYSVSKTLRFELIPQGRTREYIETNGILSDDEERAKDYKTIKRLIDEYHKDYISRCLKNVNISCLEEYYHLYNSSNRDKRHEELDALSDQMRGEIASFLTGNDEYKEQKSRDIIINERIINFASTDEELA AVKRFRKFTSYFTGFFTNRENMYSAEKKSTAIAHRIIDVNLPKYVDNIKAFNTAIEAGVFDIAEFESNFKAI TDEHEVSDLLDITKYSRFIRNEDIIIYNTLLGGISMKDEKIQGLNELINLHNQKHPGKKVPLLKVLYKQILG DSQTHSFVDDQFEDDQQVINAVKAVTDTFSETLLGSLKIIINNIGHYDLDRIYIKAGQDITTLSKRALNDWH IITECLESEYDDKFPKNKKSDTYEEMRNRYVKSFKSFSIGRLNSLVTTYTEQACFLENYLGSFGGDTDKNC LTDFTNSLMEVEHLLNSEYPVTNRLITDYESVRILKRLLDSEMEVIHFLKPLLGNGNESDKDLVFYGEFEA EYEKLLPVIKVYNRVRNYLTRKPFSTEKIKLNFNSPTLLCGWSQSKEKEYMGVILRKDGQYYLGIMTPSN KKIFSEAPKPDEDCYEKMVLRYIPHPYQMLPKVFFSKSNIAFFNPSDEILRIKKQESFKKGKSFNRDDCHKF IDFYKDSINRHEEWRKFNFKFSDTDSYEDISRFYKEVENQAFSMSFTKIPTVYIDSLVDEGKLYLFKLHNK DFSEHSKGKPNLHTVYWNALFSEYNLQNTVYQLNGSAEIFFRKASIPENERVIHKKNVPITRKVAELNGK KEVSVFPYDIIKNRRYTVDKFQFHVPLKMNFKADEKKRINDDVIEAIRSNKGIHVIGIDRGERNLLYLSLIN EEGRIIEQRSLNIIDSGEGHTQNYRDLLDSREKDREKARENWQEIQEIKDLKTGYLSQAIHTITKWMKEYN AIIVLEDLNDRFTNGRKKVEKQVYQKFEKMLIDKLNYYVDKDEEFDRMGGTHRALQLTEKFESFQKLGR QTGFIFYVPAWNTSKLDPTTGFVDLLYPKYKSVDATKDFIKKFDFIRFNSEKNYFEFGLHYSNFTERAIGCR DEWILCSYGNRIVNFRNAAKNNSWDYKEIDITKQLLDLFEKNGIDVKQENLIDSICEMKDKPFFKSLIANI KLILQIRNSASGTDIDYMISPAMNDRGEFFDTRKGLQQLPLDADANGAYNIAKKGLWIVDQIRNTTGNNV KMAMSNREWMHFAQESRLA(SEQ ID NO:111)

>KKQ36153_(修饰的)假定蛋白US52_C0007G0008[候选的分裂WS6细菌 GW2011_GWA2_37_6]

MKNVFGGFTNLYSLTKTLRFELKPTSKTQKLMKRNNVIQTDEEIDKLYHDEMKPILDEIHRRFIND ALAQKIFISASLDNFLKVVKNYKVESAKKNIKQNQVKLLQKEITIKTLGLRREVVSGFITVSKKWKDKYV GLGIKLKGDGYKVLTEQAVLDILKIEFPNKAKYIDKFRGFWTYFSGFNENRKNYYSEEDKATSIANRIVNE NLSRYIDNIIAFEEILQKIPNLKKFKQDLDITSYNYYLNQAGIDKYNKIIGGYIVDKDKKIQGINEKVNLYTQ QTKKKLPKLKFLFKQIGSERKGFGIFEIKEGKEWEQLGDLFKLQRTKINSNGREKGLFDSLRTMYREFFDE IKRDSNSQARYSLDKIYFNKASVNTISNSWFTNWNKFAELLNIKEDKKNGEKKIPEQISIEDIKDSLSIIPKE NLEELFKLTNREKHDRTRFFGSNAWVTFLNIWQNEIEESFNKLEEKEKDFKKNAAIKFQKNNLVQKNYIK EVCDRMLAIERMAKYHLPKDSNLSREEDFYWIIDNLSEQREIYKYYNAFRNYISKKPYNKSKMKLNFEN GNLLGGWSDGQERNKAGVILRNGNKYYLGVLINRGIFRTDKINNEIYRTGSSKWERLILSNLKFQTLAGK GFLGKHGVSYGNMNPEKSVPSLQKFIRENYLKKYPQLTEVSNTKFLSKKDFDAAIKEALKECFTMNFINI AENKLLEAEDKGDLYLFEITNKDFSGKKSGKDNIHTIYWKYLFSESNCKSPIIGLNGGAEIFFREGQKDKL HTKLDKKGKKVFDAKRYSEDKLFFHVSITINYGKPKNIKFRDIINQLITSMNVNIIGIDRGEKHLLYYSVID SNGIILKQGSLNKIRVGDKEVDFNKKLTERANEMKKARQSWEQIGNIKNFKEGYLSQAIHEIYQLMIKYN AIIVLEDLNTEFKAKRLSKVEKSVYKKFELKLARKLNHLILKDRNTNEIGGVLKAYQLTPTIGGGDVSKFE KAKQWGMMFYVRANYTSTTDPVTGWRKHLYISNFSNNSVIKSFFDPTNRDTGIEIFYSGKYRSWGFRYV QKETGKKWELFATKELERFKYNQTTKLCEKINLYDKFEELFKGIDKSADIYSQLCNVLDFRWKSLVYLWN LLNQIRNVDKNAEGNKNDFIQSPVYPFFDSRKTDGKTEPINGDANGALNIARKGLMLVERIKNNPEKYEQ LIRDTEWDAWIQNFNKVN(SEQ ID NO:112)

>WP_044919442_(修饰的)假定蛋白[毛螺菌科细菌MA2020]

MYYESLTKQYPVSKTIRNELIPIGKTLDNIRQNNILESDVKRKQNYEHVKGILDEYHKQLINEALDNCTLPSLKIAAEIYLKNQKEVSDREDFNKTQDLLRKEVVEKLKAHENFTKIGKKDILDLLEKLPSISEDDYN ALESFRNFYTYFTSYNKVRENLYSDKEKSSTVAYRLINENFPKFLDNVKSYRFVKTAGILADGLGEEEQDS LFIVETFNKTLTQDGIDTYNSQVGKINSSINLYNQKNQKANGFRKIPKMKMLYKQILSDREESFIDEFQSDE VLIDNVESYGSVLIESLKSSKVSAFFDALRESKGKNVYVKNDLAKTAMSNIVFENWRTFDDLLNQEYDLA NENKKKDDKYFEKRQKELKKNKSYSLEHLCNLSEDSCNLIENYIHQISDDIENIIINNETFLRIVINEHDRSR KLAKNRKAVKAIKDFLDSIKVLERELKLINSSGQELEKDLIVYSAHEELLVELKQVDSLYNMTRNYLTKKP FSTEKVKLNFNRSTLLNGWDRNKETDNLGVLLLKDGKYYLGIMNTSANKAFVNPPVAKTEKVFKKVDY KLLPVPNQMLPKVFFAKSNIDFYNPSSEIYSNYKKGTHKKGNMFSLEDCHNLIDFFKESISKHEDWSKFGF KFSDTASYNDISEFYREVEKQGYKLTYTDIDETYINDLIERNELYLFQIYNKDFSMYSKGKLNLHTLYFMM LFDQRNIDDVVYKLNGEAEVFYRPASISEDELIIHKAGEEIKNKNPNRARTKETSTFSYDIVKDKRYSKDK FTLHIPITMNFGVDEVKRFNDAVNSAIRIDENVNVIGIDRGERNLLYVVVIDSKGNILEQISLNSIINKEYDIE TDYHALLDEREGGRDKARKDWNTVENIRDLKAGYLSQVVNVVAKLVLKYNAIICLEDLNFGFKRGRQK VEKQVYQKFEKMLIDKLNYLVIDKSREQTSPKELGGALNALQLTSKFKSFKELGKQSGVIYYVPAYLTSKI DPTTGFANLFYMKCENVEKSKRFFDGFDFIRFNALENVFEFGFDYRSFTQRACGINSKWTVCTNGERIIKY RNPDKNNMFDEKVVVVTDEMKNLFEQYKIPYEDGRNVKDMIISNEEAEFYRRLYRLLQQTLQMRNSTS DGTRDYIISPVKNKREAYFNSELSDGSVPKDADANGAYNIARKGLWVLEQIRQKSEGEKINLAMTNAEW LEY AQTHLL(SEQ ID NO:113)

>WP_035798880_(修饰的)假定蛋白[丁酸弧菌属某种NC3005]

MYYQNLTKKYPVSKTIRNELIPIGKTLENIRKNNILESDVKRKQDYEHVKGIMDEYHKQLINEALD NYMLPSLNQAAEIYLKKHVDVEDREEFKKTQDLLRREVTGRLKEHENYTKIGKKDILDLLEKLPSISEED YNALESFRNFYTYFTSYNKVRENLYSDEEKSSTVAYRLINENLPKFLDNIKSYAFVKAAGVLADCIEEEEQ DALFMVETFNMTLTQEGIDMYNYQIGKVNSAINLYNQKNHKVEEFKKIPKMKVLYKQILSDREEVFIGEF KDDETLLSSIGAYGNVLMTYLKSEKINIFFDALRESEGKNVYVKNDLSKTTMSNIVFGSWSAFDELLNQE YDLANENKKKDDKYFEKRQKELKKNKSYTLEQMSNLSKEDISPIENYIERISEDIEKICIYNGEFEKIVVNE HDSSRKLSKNIKAVKVIKDYLDSIKELEHDIKLINGSGQELEKNLVVYVGQEEALEQLRPVDSLYNLTRNY LTKKPFSTEKVKLNFNKSTLLNGWDKNKETDNLGILFFKDGKYYLGIMNTTANKAFVNPPAAKTENVFK KVDYKLLPGSNKMLPKVFFAKSNIGYYNPSTELYSNYKKGTHKKGPSFSIDDCHNLIDFFKESIKKHEDW SKFGFEFSDTADYRDISEFYREVEKQGYKLTFTDIDESYINDLIEKNELYLFQIYNKDFSEYSKGKLNLHTL YFMMLFDQRNLDNVVYKLNGEAEVFYRPASIAENELVIHKAGEGIKNKNPNRAKVKETSTFSYDIVKDK RYSKYKFTLHIPITMNFGVDEVRRFNDVINNALRTDDNVNVIGIDRGERNLLYVVVINSEGKILEQISLNSII NKEYDIETNYHALLDEREDDRNKARKDWNTIENIKELKTGYLSQVVNVVAKLVLKYNAIICLEDLNFGFK RGRQKVEKQVYQKFEKMLIEKLNYLVIDKSREQVSPEKMGGALNALQLTSKFKSFAELGKQSGIIYYVPA YLTSKIDPTTGFVNLFYIKYENIEKAKQFFDGFDFIRFNKKDDMFEFSFDYKSFTQKACGIRSKWIVYTNG ERIIKYPNPEKNNLFDEKVINVTDEIKGLFKQYRIPYENGEDIKEIIISKAEADFYKRLFRLLHQTLQMRNST SDGTRDYIISPVKNDRGEFFCSEFSEGTMPKDADANGAYNIARKGLWVLEQIRQKDEGEKVNLSMTNAE WLKYAQLHLL(SEQ ID NO:114)

>WP_027109509_(修饰的)假定蛋白[毛螺菌科细菌NC2008]

MENYYDSLTRQYPVTKTIRQELKPVGKTLENIKNAEIIEADKQKKEAYVKVKELMDEFHKSIIEKSLVGIKLDGLSEFEKLYKIKTKTDEDKNRISELFYYMRKQIADALKNSRDYGYVDNKDLIEKILPERVKDENS LNALSCFKGFTTYFTDYYKNRKNIYSDEEKHSTVGYRCINENLLIFMSNIEVYQIYKKANIKNDNYDEETL DKTFMIESFNECLTQSGVEAYNSVVASIKTATNLYIQKNNKEENFVRVPKMKVLFKQILSDRTSLFDGLIIES DDELLDKLCSFSAEVDKFLPINIDRYIKTLMDSNNGTGIYVKNDSSLTTLSNYLTDSWSSIRNAFNENYDA KYTGKVNDKYEEKREKAYKSNDSFELNYIQNLLGINVIDKYIERINFDIKEICEAYKEMTKNCFEDHDKTK KLQKNIKAVASIKSYLDSLKNIERDIKLLNGTGLESRNEFFYGEQSTVLEEITKVDELYNITRNYLTKKPFST EKMKLNFNNPQLLGGWDVNKERDCYGVILIKDNNYYLGIMDKSANKSFLNIKESKNENAYKKVNCKLL PGPNKMFPKVFFAKSNIDYYDPTHEIKKLYDKGTFKKGNSFNLEDCHKLIDFYKESIKKNDDWKNFNFNF SDTKDYEDISGFFREVEAQNYKITYTNVSCDFIESLVDEGKLYLFQIYNKDFSEYATGNLNLHTLYLKMLF DERNLKDLCIKMNGEAEVFYRPASILDEDKVVHKANQKITNKNTNSKKKESIFSYDIVKDKRYTVDKFFI HLPITLNYKEQNVSRFNDYIREILKKSKNIRVIGIDRGERNLLYVVVCDSDGSILYQRSINEIVSGSHKTDYH KLLDNKEKERLSSRRDWKTIENIKDLKAGYMSQVVNEIYNLILKYNAIVVLEDLNIGFKNGRKKVEKQV YQNFEKALIDKLNYLCIDKTREQLSPSSPGGVLNAYQLTAKFESFEKIGKQTGCIFYVPAYLTSQIDPTTGFV NLFYQKDTSKQGLQLFFRKFKKINFDKVASNFEFVFDYNDFTNKAEGTKTNWTISTQGTRIAKYRSDDAN GKWISRTVHPTDIIKEALNREKINYNDGHDLIDEIVSIEKSAVLKEIYYGFKLTLQLRNSTLANEEEQEDYII SPVKNSSGNYFDSRITSKELPCDADANGAYNIARKGLWALEQIRNSENVSKVKLAISNKEWFEYTQNNIPS L(SEQ ID NO:1581)

>WP_029202018_(修饰的)假定蛋白[口小杆菌属某种(Oribacterium sp.)NK2B42]

MYYDGLTKQYALSKTIRNELVPIGKTLDNIKKNRILEADIKRKSDYEHVKKLMDMYHKKIINEALD NFKLSVLEDAADIYFNKQNDERDIDAFLKIQDKLRKEIVEQLKGHTDYSKVGNKDFLGLLKAASTEEDRI LIESFDNFYTYFTSYNKVRSNLYSAEDKSSTVAYRLINENLPKFFDNIKAYRTVRNAGVISGDMSIVEQDEL FEVDTFNHTLTQYGIDTYNHMIGQLNSAINLYNQKMHGAGSFKKLPKMKELYKQLLTEREEEFIEEYTDD EVLITSVHNYVSYLIDYLNSDKVESFFDTLRKSDGKEVFIKNDVSKTTMSNILFDNWSTIDDLINHEYDSA PENVKKTKDDKYFEKRQKDLKKNKSYSLSKIAALCRDTTILEKYIRRLVDDIEKIYTSNNVFSDIVLSKHD RSKKLSKNTNAVQAIKNMLDSIKDFEHDVMLINGSGQEIKKNLNVYSEQEALAGILRQVDHIYNLTRNYL TKKPFSTEKIKLNFNRPTFLDGWDKNKEEANLGILLIKDNRYYLGIMNTSSNKAFVNPPKAISNDIYKKVD YKLLPGPNKMLPKVFFATKNIAYYAPSEELLSKYRKGTHKKGDSFSIDDCRNLIDFFKSSINKNTDWSTFG FNFSDTNSYNDISDFYREVEKQGYKLSFTDIDACYIKDLVDNNELYLFQIYNKDFSPYSKGKLNLHTLYFK MLFDQRNLDNVVYKLNGEAEVFYRPASIESDEQIIHKSGQNIKNKNQKRSNCKKTSTFDYDIVKDRRYCK DKFMLHLPITVNFGTNESGKFNELVNNAIRADKDVNVIGIDRGERNLLYVVVVDPCGKIIEQISLNTIVDK EYDIETDYHQLLDEKEGSRDKARKDWNTIENIKELKEGYLSQVVNIIAKLVLKYDAIICLEDLNFGFKRGR QKVEKQVYQKFEKMLIDKMNYLVLDKSRKQESPQKPGGALNALQLTSAFKSFKELGKQTGIIYYVPAYLT SKIDPTTGFANLFYIKYESVDKARDFFSKFDFIRYNQMDNYFEFGFDYKSFTERASGCKSKWIACTNGERI VKYRNSDKNNSFDDKTVILTDEYRSLFDKYLQNYIDEDDLKDQILQIDSADFYKNLIKLFQLTLQMRNSSS DGKRDYIISPVKNYREEFFCSEFSDDTFPRDADANGAYNIARKGLWVIKQIRETKSGTKINLAMSNSEWLE YAQCNLL(SEQ ID NO:115)

>WP_028248456_(修饰的)假定蛋白[瘤胃假丁酸弧菌(Pseudobutyrivibrioruminis)]

MYYQNLTKMYPISKTLRNELIPVGKTLENIRKNGILEADIQRKADYEHVKKLMDNYHKQLINEALQGVHLSDLSDAYDLY

FNLSKEKNSVDAFSKCQDKLRKEIVSLLKNHENFPKIGNKEIIKLLQSLYDNDTDYKALDSFSNFYTYFSSYNEVRKNLYSDEEKSSTVAYRLINENLPKFLDNIKAYAIAKKAGVRAEGLSEEDQDCLFIIETFERTLT QDGIDNYNAAIGKLNTAINLFNQQNKKQEGFRKVPQMKCLYKQILSDREEAFIDEFSDDEDLITNIESFAE NMNVFLNSEIITDFKIALVESDGSLVYIKNDVSKTSFSNIVFGSWNAIDEKLSDEYDLANSKKKKDEKYYE KRQKELKKNKSYDLETIIGLFDDNSDVIGKYIEKLESDITAIAEAKNDFDEIVLRKHDKNKSLRKNTNAVE AIKSYLDTVKDFERDIKLINGSGQEVEKNLVVYAEQENILAEIKNVDSLYNMSRNYLTQKPFSTEKFKLNF NRATLLNGWDKNKETDNLGILFEKDGMYYLGIMNTKANKIFVNIPKATSNDVYHKVNYKLLPGPNKML PKVFFAQSNLDYYKPSEELLAKYKAGTHKKGDNFSLEDCHALIDFFKASIEKHPDWSSFGFEFSETCTYED LSGFYREVEKQGYKITYTDVDADYITSLVERDELYLFQIYNKDFSPYSKGNLNLHTIYLQMLFDQRNLNN VVYKLNGEAEVFYRPASINDEEVIIHKAGEEIKNKNSKRAVDKPTSKFGYDIIKDRRYSKDKFMLHIPVTM NFGVDETRRFNDVVNDALRNDEKVRVIGIDRGERNLLYVVVVDTDGTILEQISLNSIINNEYSIETDYHKL LDEKEGDRDRARKNWTTIENIKELKEGYLSQVVNVIAKLVLKYNAIICLEDLNFGFKRGRQKVEKQVYQ KFEKMLIDKLNYLVIDKSRKQDKPEEFGGALNALQLTSKFTSFKDMGKQTGIIYYVPAYLTSKIDPTTGFA NLFYVKYENVEKAKEFFSRFDSISYNNESGYFEFAFDYKKFTDRACGARSQWTVCTYGERIIKFRNTEKN NSFDDKTIVLSEEFKELFSIYGISYEDGAELKNKIMSVDEADFFRSLTRLFQQTMQMRNSSNDVTRDYIISPI MNDRGEFFNSEACDASKPKDADANGAFNIARKGLWVLEQIRNTPSGDKLNLAMSNAEWLEYAQRNQI (SEQ ID NO:116)

>WP_028830240_(修饰的)假定蛋白[Proteocatella sphenisci]

MENFKNLYPINKTLRFELRPYGKTLENFKKSGLLEKDAFKANSRRSMQAIIDEKFKETIEERLKYTEFSECDLGNMTSKDKKITDKAATNLKKQVILSFDDEIFNNYLKPDKNIDALFKNDPSNPVISTFKGFTTYFV NFFEIRKHIFKGESSGSMAYRIIDENLTTYLNNIEKIKKLPEELKSQLEGIDQIDKLNNYNEFITQSGITHYNE IIGGISKSENVKIQGINEGINLYCQKNKVKLPRLTPLYKMILSDRVSNSFVLDTIENDTELIEMISDLINKTEIS QDVIMSDIQNIFIKYKQLGNLPGISYSSIVNAICSDYDNNFGDGKRKKSYENDRKKHLETNVYSINYISELL TDTDVSSNIKMRYKELEQNYQVCKENFNATNWMNIKNIKQSEKTNLIKDLLDILKSIQRFYDLFDIVDED KNPSAEFYTWLSKNAEKLDFEFNSVYNKSRNYLTRKQYSDKKIKLNFDSPTLAKGWDANKEIDNSTIIMR KFNNDRGDYDYFLGIWNKSTPANEKIIPLEDNGLFEKMQYKLYPDPSKMLPKQFLSKIWKAKHPTTPEFD KKYKEGRHKKGPDFEKEFLHELIDCFKHGLVNHDEKYQDVFGFNLRNTEDYNSYTEFLEDVERCNYNLS FNKIADTSNLINDGKLYVFQIWSKDFSIDSKGTKNLNTIYFESLFSEENMIEKMFKLSGEAEIFYRPASLNY CEDIIKKGHHHAELKDKFDYPIIKDKRYSQDKFFFHVPMVINYKSEKLNSKSLNNRTNENLGQFTHIIGIDR GERHLIYLTVVDVSTGEIVEQKHLDEIINTDTKGVEHKTHYLNKLEEKSKTRDNERKSWEAIETIKELKEG YISHVINEIQKLQEKYNALIVMENLNYGFKNSRIKVEKQVYQKFETALIKKFNYIIDKKDPETYIHGYQLTN PITTLDKIGNQSGIVLYIPAWNTSKIDPVTGFVNLLYADDLKYKNQEQAKSFIQKIDNIYFENGEFKFDIDFS KWNNRYSISKTKWTLTSYGTRIQTFRNPQKNNKWDSAEYDLTEEFKLILNIDGTLKSQDVETYKKFMSLF KLMLQLRNSVTGTDIDYMISPVTDKTGTHFDSRENIKNLPADADANGAYNIARKGIMAIENIMNGISDPLK ISNEDYLKYIQNQQE(SEQ ID NO:117)

申请人生成如图40A-图40L(例如，PACYC184 fnCpf1(PY001))和图41A-图41E(例如，PaCpf1) 所示的载体构建体。

用于检测FnCpf1的推定的PAM序列的PAM激发测定(图42)：申请人从新杀手弗朗西斯菌(Fn) 中分离Cpf1座位(图43)并且将其转化到大肠杆菌中。在大肠杆菌中表达来自pACYC184的座位，类似于撒普拉那斯卡等人所述的实验。

具有pACYC-FnCpf1座位的大肠杆菌＝Cpf1+

具有空pACYC184的大肠杆菌＝对照

申请人用PAM文库质粒转化Cpf1+和对照大肠杆菌。获得两个PAM文库(图44)。PAM文库是含有31bp原型间隔区序列的pUC19质粒，该原型间隔区序列匹配FnCpf1座位中的间隔区1。PAM左文库具有在原型间隔区的5’端处的8nt简并性PAM。PAM右文库具有在原型间隔区的3’端处的7nt简并性PAM。申请人接种Cpf1+和对照大肠杆菌并且在～12h之后收获所有菌落。每个菌落代表不会引起Cpf1进行切割/干扰的PAM-pUC19转化事件。这些PAM-pUC19质粒不会携带可识别PAM。申请人通过所有菌落的测序确定与对照相比哪些PAM-pUC19质粒不再存在，并且鉴定这些质粒含有可识别PAM。

pY0001的克隆:pY0001是具有部分FnCpf1座位的pACYC184骨架(来自NEB)。pY0001含有来自第4间隔区序列的255bp乙酰转移酶3’序列的内源性FnCpf1座位。仅间隔区1-3是潜在地具有活性的，因为间隔区4不再侧接同向重复序列。

申请人PCR扩增3个片段的FnCpf1座位并且使用吉布森组件将这些座位克隆到Xba1和Hind3切割的pACYC184中。

Cpf1 PAM筛选计算分析

在对筛选DNA测序之后，申请人提取出对应于左PAM或右PAM的区域。对于每个样品，将测序文库中存在的PAM数目与文库中预期的PAM数目(对于左文库为4^8，对于右文库为4^7)进行比较。

左文库示出PAM缺失。为了量化此缺失，申请人计算了富集比。针对两种条件(对照pACYC或含有PaCpf1 的pACYC)，申请人将文库中的每种PAM比率计算为：

申请人确定绘制的分布显示在对照样品中几乎没有富集并且在两种生物复制本中有富集。申请人收集比率超过8的所有PAM，并且绘制频率分布图，揭示了5’YYN PAM(图45A-图45E)。申请人确认 PAM是TTN，其中N是A/C/G或T。

申请人对tolerances弗朗西丝菌Cpf1座位进行RNA测序并且RNAseq分析显示CRISPR座位表达活跃(图46)。FnCpf1座位的RNAseq分析的另一个描绘示出在图86中。除Cpf1和Cas基因之外，两种小的非编码转录物被高度转录，申请人推测的这两种非编码转录物是推定的tracrRNA。CRISPR阵列也被表达。两种推定的tracrRNA和CRISPR阵列以与Cpf1和Cas基因相同的方向进行转录。在此通过RNA测序实验鉴定的所有RNA转录物映射到座位。放大Cpf1 CRISPR阵列，申请人鉴定了许多不同的短转录物。在此图中，将所有鉴定的RNA转录物映射到Cpf1座位(图47)。在选择小于85个核苷酸长度的转录物之后，申请人鉴定两种推定的tracrRNA(图48)。图49示出了推定的tracrRNA 1和CRISPR阵列的放大的透视图。图50示出了推定的tracrRNA 2的放大的透视图。图51中指示了推定的crRNA序列。

申请人使用U6 PCR产物测试哺乳动物细胞中的功能：间隔区(DR-间隔区-DR)(在某些方面间隔区可以被称为crRNA或指导RNA或者如本申请所述的类似术语)并且追踪其他鉴定的Cpf1座位。

实例4：对于FnCpf1的其他确认实验

申请人通过使用图52所列出的测定证实预测的FnCpf1 PAM是在体内的TTN。申请人用编码具有5′TTN PAM的内源性间隔区1的pUC19转化携带FnCpf1座位的细胞和对照细胞(图53)。简言之，在体内 PAM确认测定中，用10ng携带原型间隔区1的质粒转化50μl具有FnCpf1座位(测试菌株)或具有空 pACYC184(对照菌株)的感受态大肠杆菌。前述原型间隔区序列是预测的PAM序列(TTC、TTG、TTA 以及TTT)。在转化之后，将细胞稀释1:2000并且接种在含有氨苄西林和氯霉素的LB琼脂板上。仅具有完整原型间隔区质粒的细胞可以形成菌落。在接种～14h后对具有菌落的板成像，并且使用ImageJ软件计数菌落。

申请人进行细胞裂解物切割测定，以进一步验证FnCpf1切割。用于细胞裂解物切割测定的方案如下：

体外切割反应。切割缓冲液：100mM HEPES pH 7.5、500mM KCl、25mM MgCl2、5mMDTT、 25％甘油。可以制备没有DTT的储备液。

制备细胞裂解物

裂解缓冲液：20mM Hepes pH 7.5、100mM氯化钾[KCl]、5mM氯化镁[MgCl₂]、1mM二硫苏糖醇[DTT]、5％甘油、0.1％Triton X-100，补充有10x罗氏(Roche)蛋白酶抑制剂混合物。可以维持裂解缓冲液w/o罗氏蛋白酶抑制剂和DTT的浓储备液。保持在-20℃下。

用推荐量的具有Lipofectamine 2000的DNA转染HEK细胞。

-500ng/24孔

-2000ng/6孔

在转染后24-72小时收获具有裂解缓冲液的细胞

-吸掉培养基

-用DPBS轻轻冲洗

-吸掉DPBS

-使用50ul裂解缓冲液/24孔或250ul/6孔

-置于冰上5min

-转移到埃彭道夫管中

-冰冻15分钟

-在高功率下超声处理，50％工作循环，持续5-10min

-以最大速率旋转减慢冷却，持续20min

-将上清液转移到新管中

-在PCR条管中等分试样，每个条管10ul并且在-80℃下冷冻

指导RNA的体外转录

试剂盒方案：可以在网址www.neb.com/products/e2030-hiscribe-t7-in-vitro-transcription-kit处获得信息

取用100uM储备寡核苷酸

在10ul反应物中退火：

1ul T7“正向”链＝“XRP2649”

1ul T7“反向”寡核苷酸

1ul TaqB缓冲液

7ul水

在未进行37℃孵育步骤的情况下运行PNK PCR程序(基本上加热至95℃，持续5min并且缓慢冷却至4℃但不像surveyor退火一样慢)。Nanodrop退火的寡核苷酸：用水标准化至500ng/ul(通常对于120nt 寡核苷酸是1000-2000ng/ul)

对于T7转录，遵循试剂盒说明书(但大小减短4x)

10 ul反应物

1ul 10x缓冲液

1ul T7转录酶

0.5ul rNTP

0.5ul HMW mix

1ul DNA模板(退火)

6ul水

在42℃(优选地是循环变温器)中转录至少2-3小时，运行过夜。产率应是约1000-2000ng/ul 的RNA。形成白色残余物是正常的。

DNA的制备

对于pUC19，用HindIII线性化并且进行柱纯化

→将需要300-400ng质粒/反应，因此切割需要的量

对于gDNA，用PCR扩增wt细胞DNA

→进行多个PCR反应，合并并进行柱纯化

→将产物浓缩至约100-200ng/ul

保持在-20℃

20ul反应物

10ul裂解物(这是预先等分的试样)

2ul裂解缓冲液(NEB缓冲液3)

1ul RNA(直接来自以上产物；不需要纯化)

1ul DNA(直接来自以上产物)

6ul水

在37℃下孵育1-2小时(30min是足够的)

柱纯化该反应物

在2％E-gel上进行

细胞裂解物切割测定使用如图54所示的位置1、2、3、4以及5处的tracrRNA。细胞裂解物切割测定(1)(图55)是指示了在细胞裂解物中孵育的具有TTa PAM的PCR片段和原型间隔区1序列的凝胶。细胞裂解物切割测定(2)(图56)是示出了在细胞裂解物中孵育的具有不同的PAM的pUC-间隔区1的凝胶。细胞裂解物切割测定(3)(图57)是示出了在细胞裂解物中孵育之后的BasI消化的凝胶。细胞裂解物切割测定(4)(图58)是示出了三种推定的crRNA序列的消化结果的凝胶。

申请人还确定了间隔区长度对于切割效率的影响。申请人测试了对针对含有靶位点： 5′-TTAgagaagtcatttaataaggccactgttaaaa-3'的靶DNA片段(SEQ ID NO:119)的不同长度的间隔区的凝胶。对于此实验，将含有间隔区(5’-TTcgagaagucauuuaauaaggccacuguuaaaa-3’(SEQ ID NO:120))的pUC19质粒处理成以下状态：

在37℃下孵育30分钟，接着用RNA酶处理5分钟。然后使用Qiagen PCR纯化试剂盒纯化反应物并且在2％Invitrogen E-gel EX上分析。图59是显示在体外crRNA 1-7介导了使用FnCpf1对靶DNA的成功切割而crRNA8-13并不利于靶DNA的切割的凝胶。

申请人得到了最少的Fn Cpf1座位(图60)并且还阐明了最少的Cpf1指导(图61)。申请人还切割了人类Emx1座位的PCR扩增子(图81)。将EMX扩增子处理成以下状态：

在37℃下孵育30分钟，接着用RNA酶处理5分钟。然后使用Qiagen PCR纯化试剂盒纯化反应物并且在2％Invitrogen E-gel EX上分析。

申请人进一步研究了5’DR的截短对切割活性的影响(图82A-图82B)。对于此实验，将含有间隔区(5’-TTcgagaagucauuuaauaaggccacuguuaaaa-3’(SEQ ID NO:121))的pUC19质粒处理成以下状态：

在37℃下孵育30分钟，接着用RNA酶处理5分钟。然后使用Qiagen PCR纯化试剂盒纯化反应物并且在2％Invitrogen E-gel EX上分析。申请人确定crDNA δDR5破坏了5’端的茎环并且这显示5’端的茎环是对于切割活性所必需的(图82B)。

申请人研究了crRNA-DNA靶错配对切割效率的影响(图83)。对于此实验，将含有间隔区 (5’-TTcgagaagucauuuaauaaggccacuguuaaaa-3’(SEQ ID NO:122))的pUC19质粒处理成以下状态：

在37℃下孵育30分钟，接着用RNA酶处理5分钟。然后使用Qiagen PCR纯化试剂盒纯化反应物并且在2％Invitrogen E-gel EX上分析。图83所示的凝胶中的各泳道由含有Cpf1的细胞裂解物、具有TTc 原型间隔区的pUC19、以及相应crRNA组成，如1-11所指示的。

申请人研究了FnCpf1p RuvC结构域并且已鉴定可以将FnCpf1效应蛋白转化成切口酶的氨基酸突变，由此该效应蛋白具有基本上减小的核酸酶活性并且仅一条DNA链被切口和/或切割。FnCpf1p RuvC 结构域中的氨基酸位置包括但不限于D917A、E1006A、E1028A、D1227A、D1255A、N1257A、D917A、 E1006A、E1028A、D1227A、D1255A和N1257A。AsCpf1中的氨基酸位置对应于AsD908A、AsE993A、 AsD1263A。LbCpf1中的氨基酸位置对应于LbD832A。

申请人还鉴定了与PD-(D/E)XK核酸酶超家族和HincII内切核酸酶样最类似的推定的第二核酸酶结构域。在此推定的核酸酶结构域中产生的大幅度降低核酸酶活性的点突变包括但不限于N580A、 N584A、T587A、W609A、D610A、K613A、E614A、D616A、K624A、D625A、K627A和Y629A。

申请人使用FnCpf1p进行质粒切割实验并且所述质粒的测序将提供关于切割位点是粘性还是钝性的信息。申请人将由适合复合物中的FnCpf1p的晶体结构阐明关于此蛋白质的不同结构域的其他详情。对于FnCpf1座位组件在人类细胞中的活性的优化，申请人将尝试不同的crRNA体系结构并且尝试比在此所述更多的靶标。

申请人使用纯化的弗朗西丝菌和普雷沃菌Cpf1切割DNA(图84)。对于此实验，将含有间隔区 (5’-TTcgagaagucauuuaauaaggccacuguuaaaa-3’(SEQ ID NO:123))的pUC19质粒处理成以下状态：

在37℃下孵育30分钟，接着用RNA酶处理5分钟。然后使用Qiagen PCR纯化试剂盒纯化反应物并且在2％Invitrogen E-gel EX上分析。在图84中示出的凝胶的分析指示PaCpf1可以与FnCpf1 crRNA一起作用，尽管该活性不像FnCpf1一样高。申请人推断这是有意义的，考虑到PaCpf1和FnCpf1的茎环序列是几乎相同的(仅1个碱基不同)(参见图85A-图85B)。这在图87A-图87B中所示的FnCpf1和PaCpf1的成熟crRNA 序列中进一步突出。在本发明的优选实施例中，生物化学或体外切割可以不需要用于Cpf1p CRISPR系统的有效功能的tracr序列。包含茎环或进一步优化的茎环结构对于切割活性而言是重要的。

通过人类密码子优化的新杀手弗朗西丝菌FnCpf1p进行DNA切割。

申请人还显示FnCpf1p切割在人类细胞中的DNA。将400ng人类密码子优化的FnCpf1p和100 ng U6::crRNA转染到24孔板中的每个孔中的HEK293T细胞(～240,000个细胞)。采用包含基于 5’-ctgatggtccatgtctgttactcg-3’(SEQ ID NO:124)(即，前20、21、22、23或所有24nt)的长度为20-24nt的间隔区序列的五种crRNA。crRNA进一步包含PaCpf1在间隔区的5’处的20nt 5’重复序列。申请人早期确定来自PaCpf1的重复序列可以被FnCpf1识别。

在～60h之后收获DNA并且通过SURVEYOR核酸酶测定进行分析。用于DNMT1的SURVEYOR 引物是5’-ctgggactcaggcgggtcac-3’(SEQ ID NO:125)(正向)和5’-cctcacacaacagcttcatgtcagc-3’(SEQ ID NO: 126)(反向)。对于所有五种crRNA(间隔区长度20-24nt)观察到与预期的～345bp和～261bp的切割产物符合的切割的DNA片段。(图88)。

实例5：对于PaCpf1的其他确认实验

对于易北普雷沃菌Cpf1(PaCpf1)进行PAM计算筛选，这与如实例3详述的对于FnCpf1进行的筛选类似。在对筛选DNA测序之后，提取出对应于左PAM或右PAM的区。对于每个样品，将测序文库中存在的PAM数目与文库中预期的PAM数目(4^7)进行比较。左文库显示出非常轻微的PAM缺失。为了量化此缺失，计算了富集比。针对两种条件(对照pACYC或含有PaCpf1的pACYC)，根据以下公式针对文库中的每种PAM计算该比率：

绘制的分布显示在对照样品中几乎没有富集并且在两种生物复制本中有富集。收集比率超过 4.5的所有PAM，并且绘制频率分布图，揭示了5’TTTV PAM，其中V是A或C或G(图62A-图62E)。

申请人将由适合复合物中的PaCpf1p的晶体结构阐明关于此蛋白质的不同结构域的其他详情。对于PaCpf1座位组件在人类细胞中的活性的优化，申请人将以不同的crRNA(指导RNA)体系结构和不同优化的PaCpf1效应蛋白为工作对象。申请人已如下地人类密码子优化PaCpf1序列：

NLS(下划线)

GS接头(粗体)

3×HA标签(斜体)

用于人类密码子优化的PaCpf1序列的载体图谱提供在图63中。

实例6：Cpf1直向同源物

申请人分析Cpf1直向同源物的扩增库(图64)。对于几种Cpf1座位组件获得人类密码子优化序列(图65-图79)。申请人也得到了每种直向同源物的同向重复(DR)序列及其预测的折叠结构(图80A- 图80I)。

申请人基于效应蛋白的大小来进一步研究Cpf1直向同源物，即较小效应蛋白允许更容易包装到载体中并且包装在PAM组成上。所有方面允许在原核细胞和真核细胞中进一步优化，优选地对于哺乳动物细胞(即人类细胞)中的有效活性。

申请人证实以下座位的效应蛋白直向同源物在体外切割测定中显示活性：佩莱格里尼菌科细菌GW2011_GWA2_33_10Cpf1、氨基酸球菌属某种BV3L6 Cpf1、土拉热弗朗西丝菌1Cpf1、牛莫拉氏菌237 Cpf1、毛螺菌科细菌ND2006 Cpf1、毛螺菌科细菌MA2020 Cpf1、猕猴卟啉单胞菌Cpf1、狗口腔卟啉单胞菌3Cpf1、易北普雷沃菌Cpf1(图64)。

在通过直向同源物进行的体外切割测定中，收获了表达Cpf1直向同源物的HEK293细胞并且用靶向克隆到pUC19质粒的人工间隔区的预测的成熟crRNA孵育裂解物。间隔区在8个简并性碱基之前，以允许经由测序确定PAM。较低的带表示由Cpf1酶进行的切割(图89)。

申请人由体外切割测定确定计算得出的PAM(图90)。切断来自图89的未切割DNA(较高的带)并且扩增以进行下一代测序。计算每种8聚体的丰度并且使用与输入文库相比的对数比率，以量化富集。汇编具有大于4的对数比率的单个8聚体并且将其用于使用Weblogo测定共有PAM。

申请人进一步确定Cpf1p效应蛋白以一种交错切割的方式切割，产生了5’突出端。收获纯化的 FnCpf1蛋白并且用crRNA孵育并且将相应靶标克隆到pUC19中。凝胶提取切割的产物并且提交以进行桑格测序。不对称的读取显示存在交错切割(图91)。在本发明的一个优选的实施例中，申请人证实与模板(例如，外源性模板)的体内交错连接。

申请人还确定了间隔区长度对于效应蛋白切割能力的影响(图92)。收获纯化的FnCpf1蛋白并且用crRNA孵育并且将相应靶标克隆到pUC19中。大于17nt的间隔区长度切割至完成，而17nt间隔区显示减少的活性并且小于17nt的间隔区是无活性的。

申请人证实FnCpf1了HEK293T细胞中的indel形成。

用350ng huFnCpf1质粒和150ng U6::crRNA转染～280,000HEK细胞/24孔。在转染后三天收获细胞并且通过SURVEYOR核酸酶测定进行分析。未切割的PCR片段大小是606bp。对于crRNA DNMT1-1，预期的片段大小是～418bp和～188bp并且对于crRNA DNMT1-3是～362bp和～244bp(图93)。

DNMT1-1间隔区序列：cctcactcctgctcggtgaattt(SEQ ID NO:128)

DNMT1-3间隔区序列：ctgatggtccatgtctgttactc(SEQ ID NO:129)

申请人通过确定当座位的某些序列缺失时转录物是否被加工来鉴定Cpf1系统实现切割所需要的组件(图94A-图94F)。缺失的序列可以包括但不限于，Cas1基因、Cas2基因和tracr。因此，在本发明的一个优选实施例中，申请人证实该tracr不是功能性Cpf1系统或复合物实现切割所需要的组件。

实例7：异源

质粒的程序性生成

为了生成用于异源表达的FnCpf1座位，使用Herculase II聚合酶(安捷伦科技公司)PCR扩增来自新杀手弗朗西丝菌的基因组DNA并且使用吉布森克隆(新英格兰生物实验室)将其克隆到pACYC-184 中。将具有质粒的细胞用Z-感受态试剂盒(Zymo公司)制成感受态的。

细菌RNA测序

通过首先将新杀手弗朗西丝菌(由大卫·魏斯(David Weiss)惠赠)或大肠杆菌重新悬浮在 TRIzol中并且然后在BeadBeater(BioSpec Products公司)中用氧化锆/二氧化硅珠粒(BioSpec Products公司) 均质化该细菌持续3个一分钟循环，将RNA从固定相细菌中分离。通过Direct-Zol RNA小量制备方案(Zymo 公司)从均质化样品中纯化总的RNA，用TURBO DNA酶(生命技术公司)对其进行DNA酶处理，并且用 T4多核苷酸激酶(新英格兰生物实验室)进行3’脱磷酸化。用细菌Ribo-Zero rRNA去除试剂盒(亿明达公司)去除rRNA。使用亿明达的

Small RNA Library Prep Set(新英格兰生物实验室)由rRNA-缺失的RNA制备RNA文库并且使用Pippin Prep(圣徒科学公司(Sage Science))进行大小选择。

对于FnCpf1座位的异源大肠杆菌表达，使用先前描述的CRISPR RNA测序方法的衍生物由 rRNA-缺失RNA制备RNA测序的文库(海德里希(Heidrich)等人，2015。简言之，转录物以大肠杆菌Poly(A) 聚合酶(新英格兰生物实验室)进行poly-A加尾，使用T4 RNA连接酶1(ssRNA连接酶)高浓缩物(High Concentration)(新英格兰生物实验室)将其与5’RNA衔接子连接，并且使用AffinityScript多温度逆转录酶 (安捷伦技术公司)进行逆转录。使用条形编码的引物使用Herculase II聚合酶(安捷伦技术公司)PCR扩增cDNA。RNA-测序分析

在MiSeq(亿明达公司)上对制备的cDNA文库进行测序。基于相关条形编码鉴定每种样品的读取，并且使用BWA将其与适当RefSeq参考基因组进行比对(李和德宾(Durbin)，2009)。使用成对末端比对，使用皮卡(Picard)工具(http://broadinstitute.github.io/picard)提取整个转录物序列，并且使用Geneious 8.1.5.分析哲学序列。

体内FnCpf1 PAM筛选

使用合成的寡核苷酸(IDT)构建随机化PAM质粒文库，该寡核苷酸由间隔区1靶标上游或下游的7个随机化核苷酸组成(辅助表S8)。通过退火到短引物并且使用大的克列诺片段(新英格兰生物实验室)用于第二条链合成来制成双链随机化ssDNA寡核苷酸。使用吉布森克隆将dsDNA产物组装到线性pUC19 中(新英格兰生物实验室)。用克隆的产物转化感受态的Stbl3大肠杆菌(英杰公司)，并且收集并合并超过 10⁷个细胞。使用Maxi-prep试剂盒(凯杰公司)收获质粒DNA。我们将360ng合并的文库转化到携带FnCpf1 座位或pACYC184对照的大肠杆菌中。在转化之后，将细胞接种在氨苄西林上。在生长16小时后，收获>4*10⁶个细胞并且使用Maxi-prep试剂盒(凯杰公司)提取质粒DNA。扩增靶PAM区域并且以单端150个循环使用 MiSeq(亿明达公司)进行测序。

计算的PAM发现流程

将PAM区域提取、计数并且标准化成每种样品的总读取。对于给定的PAM，将富集测量为与 pACYC184对照相比的对数比率，其中具有0.01假计数调整。收集超过3.5富集阈值的PAM并且将其用于生成序列图标(克鲁克斯(Crooks)等人，2004)。

PAM确认

将与PAM、非-PAM二者相对应的序列克隆到消化的pUC19并且将其与T4连接酶(Enzymatics 公司)连接。用20ng PAM质粒转化具有FnCpf1座位质粒或pACYC184对照质粒的感受态大肠杆菌，并且将其接种在补充有氨苄西林和氯霉素的LB琼脂板上。在18小时计数菌落。

crRNA和gRNA的合成

使用HiScribe^TMT7高产率RNA合成试剂盒(NEB)合成体外使用的所有crRNA和gRNA。由IDT 合成与靶RNA序列的反向互补序列相对应的ssDNA寡核苷酸并且退火到短T7引物序列上。进行4小时的T7 转录并且然后使用MEGAclear^TM转录纯化试剂盒(Ambion公司)纯化RNA。

Cpf1蛋白质的纯化

将FnCpf1蛋白质克隆到细菌表达载体(6-His-MBP-TEV-Cpf1，它是一种由道格·丹尼尔斯 (Doug Daniels)惠赠给申请人的基于pET的载体)(“6-His”被披露为SEQ ID NO:130)中。用10mL含有 Cpf1表达构建体的过夜培养的Rosetta(DE3)pLyseS(EMD密理博公司)接种两升具有100μg/mL氨苄西林的Terrific Broth生长培养基。生长培养基加上接种体在37℃下生长，直到细胞密度达到0.2OD600为止，然后将温度降低到21℃。继续生长直到OD600达到0.6为止，之后添加终浓度500μM IPTG以诱导MBP-Cpf1 表达。将培养物诱导14-18小时，之后收获细胞并在-80℃下冷冻，直到进行纯化。

将细胞糊状物重新悬浮在200mL补充有蛋白酶抑制剂(罗氏cOmplete，无EDTA)和溶菌酶的裂解缓冲液(50mM Hepes pH 7、2M NaCl、5mM MgCl₂、20mM咪唑)。一旦均质化，就通过超声处理(必能信(Branson)超声波仪450)来裂解细胞，然后在10,000g下离心1小时来清出裂解物。通过0.22微米过滤器(密理博公司，Stericup)过滤裂解物，并且将其应用于镍柱(HisTrap FF，5mL)，用一个梯度的咪唑洗涤并且然后洗脱。将含有预期大小的蛋白质的级分合并，添加TEV蛋白酶(西格玛公司)，并且将样品在TEV缓冲液(500mM NaCl、50mMHepes pH 7、5mM MgCl、2mM DTT)中透析过夜。在透析之后，通过SDS-PAGE证实TEV切割，并且将样品浓缩至500μL，之后经由FPLC(AKTAPure)装载到凝胶过滤柱(HiLoad 16/600Superdex 200)上。通过SDS-PAGE分析来自凝胶过滤的级分；将含有Cpf1的级分合并并浓缩至200μL，并且将其直接用于生物化学测定或在-80℃下冷冻储存。在以2M NaCl、HepespH 7.0平衡的相同柱上运行凝胶过滤标准，以计算FnCpf1的近似大小。

Cpf1蛋白裂解物的生成

用N-末端核定位标签合成密码子优化用于人类表达的Cpf1蛋白并且将其通过Genscript克隆到 pcDNA3.1表达质粒中。使用Lipofectamine 2000试剂(生命技术公司)将2000ng Cpf1表达质粒以90％融合度转染到6孔板的HEK293FT细胞中。48小时后，通过用DPBS(生命技术公司)洗涤一次并且在裂解缓冲液[20mM Hepes pH 7.5、100mM KCl、5mMMgCl₂、1mM DTT、5％甘油、0.1％Triton X-100、1X cOmplete 蛋白酶抑制剂混合片剂(罗氏公司)]中擦洗来收获细胞。将裂解物在Biorupter超声破碎器(Diagenode公司)中超声处理10分钟并且然后离心。将上清液冷冻以随后用于体外切割测定。

体外切割测定

使用纯化的蛋白质或具有蛋白质的哺乳动物裂解物在37℃下在切割缓冲液(NEBuffer 3，5mM DTT)中进行体外切割，持续20分钟。切割反应使用500ng合成的crRNA或sgRNA以及200ng靶DNA。靶 DNA涉及克隆到pUC19的原型间隔区或来自从HEK293细胞分离的基因组DNA的基因区域的PCR扩增子。使用PCR纯化柱(凯杰公司)纯化反应物并且在2％琼脂E-gel(生命技术公司)上运行。对于分析核酸酶突变体进行的切割的天然和变性凝胶，在TBE 6％聚丙烯酰胺或TBE-Urea 6％聚丙烯酰胺凝胶(生命技术公司) 上运行纯化反应。

体外Cpf1-家族蛋白PAM筛选

在2％琼脂E-gel(生命技术公司)上运行使用Cpf1-家族蛋白的体外切割反应。QIAquick凝胶提取试剂盒(凯杰公司)来凝胶提取与未切割靶标相对应的带，并且以单端150个循环使用MiSeq(亿明达公司)对靶PAM区域进行扩增和测序。将测序结果输入到PAM发现流程中。

Cpf1切割在293FT细胞中的活性

用N-末端核定位标签合成密码子优化用于人类表达的Cpf1蛋白并且将其通过Genscript克隆到 pcDNA3.1 CMV表达质粒中。使用Herculase II(安捷伦技术公司)生成包含驱动crRNA序列表达的U6启动子的PCR扩增子。使用Lipofectamine 2000试剂(生命技术公司)将400ng Cpf1表达质粒和100ng crRNA PCR 产物以75％-90％融合度转染到24孔板的HEK293FT细胞中。使用QuickExtractTMDNA提取溶液(Epicentre 公司)收获基因组DNA。

用于基因组修饰的SURVEYOR核酸酶测定

使用Lipofectamine 2000试剂(生命技术公司)，用400ng Cpf1表达质粒和100ngU6::crRNA PCR片段转染293FT细胞。转染后72h在37℃下孵育细胞，之后进行基因组DNA提取。根据制造商方案使用QuickExtract DNA提取溶液(Epicentre公司)提取基因组DNA。对侧接每个基因的CRISPR靶位点的基因组区域进行PCR扩增，并且根据制造商方案使用QiaQuick自旋柱(凯杰公司)纯化产物。将总计200-500ng 纯化的PCR产物与1μl 10×耐热性DNA聚合酶PCR缓冲液(Enzymatics公司)和超纯水混合至10μl的最终体积，并且经受重退火过程，以使得能够形成异源双链体：95℃持续10min，以-2℃/s从95℃降温至85℃，以-0.25℃/s从85℃降温至25℃，并且25℃维持1min。在重退火之后，根据制造商推荐的方案，用SURVEYOR 核酸酶和SURVEYOR增强子S(综合DNA技术公司(Integrated DNATechnologies))处理产物，并且在 4％-20％Novex TBE聚丙烯酰胺凝胶(生命技术公司)上进行分析。将凝胶用SYBR Gold DNA着色剂(生命技术公司)染色10分钟并且用Gel Doc凝胶成像系统(伯乐生命医学产品公司(Bio-rad))进行成像。基于相对带强度进行量化。通过等式100×(1-(1-(b+c)/(a+b+c))1/2)确定Indel百分比，其中a是未消化的 PCR产物的积分强度，并且b和c是每种切割产物的积分强度。

表征293FT细胞中的Cpf1 indel模式的深度测序

如所述地转染并收获HEK293FT细胞，以用于评定Cpf1切割的活性。使用两轮PCR区域来扩增侧接DNMT1靶标的基因组区域，以将Illumina P5衔接子以及独特样品特异性条形编码添加到靶扩增子中。在2％E-gel(英杰公司)运行PCR产物并且按照制造商推荐的方案使用QiaQuick自旋柱(凯杰公司)进行凝胶提取。将样品合并并且通过Qubit 2.0荧光计(生命技术公司)进行量化。在MiSeq(亿明达公司)上对制备的cDNA文库进行测序。使用Geneious 6.0.3读取测绘仪的Python实现方式绘制Indel。

Cpf1座位的计算分析

使用PSI-BLAST程序(安特斯库尔，1997)，使用几种已知的Cpf1序列作为Cpf1的查询来鉴定 NCBI NR数据库中的Cpf1同源物，其中具有0.01的截止E-值和低复杂度过滤以及基于组成的统计学关闭。使用具有0.01的截止E值和低复杂度过滤关闭参数的TBLASTN程序，使用Cpf1谱图(玛拉柯瓦(Marakova) 等人，2015)作为查询，搜索NCBI WGS数据库。将所有搜索的结果组合。使用具有默认参数的HHpred程序，使用代表性Cpf1查询的子集，鉴定远距离序列相似性(塞汀等人，2006)。使用MUSCLE(埃德加， 2004)构建多序列比对，其中基于使用PSI-BLAST和HHpred程序获得的成对比对进行手动校正。使用具有 WAG进化模式和离散性γ模式(具有20比率类别)的FastTree程序进行系统发育性分析(普里斯等人，2010)。使用Jpred 4预测蛋白质二级结构(德罗兹德斯基，2015)。

使用PILER-CR(埃德加，2007)和CRISPRfinder(格丽莎(Grissa)等人，2007)鉴定CRISPR 重复序列。使用具有默认参数(除字体大小设为20并且E截止值为0.0001之外)的MEGABLAST(莫耳古利斯(Morgulis)等人，2008)搜索NCBI核苷酸NR数据库中的间隔区序列。

实例8：土拉热弗朗西丝菌新杀手亚种U112 Cpf1(FnCpf1)的克隆

申请人将土拉热弗朗西丝菌新杀手亚种U112(图95A)Cpf1(FnCpf1)座位克隆到低拷贝质粒(pFnCpf1)中，以允许在大肠杆菌中异源性重构。典型地，在目前表征的CRISPR-Cas系统中，对于DNA 干扰存在两种要求：(i)靶序列必须与存在于对应CRISPR阵列中的一个间隔区匹配，并且(ii)与该间隔区 (在下文中是原型间隔区)互补的靶序列必须侧接适当的原型间隔区相邻基序(PAM)。考虑到FnCpf1 CRISPR座位的完全未表征的功能，设计一种质粒缺失测定以确定Cpf1的活性并且鉴定PAM序列及其相对于原型间隔区(5’或3’)的位置(图95B)。用随机化的5’或3’7bp序列构建携带匹配FnCpf1 CRISPR阵列中的第一间隔区的原型间隔区的两个质粒文库。将每个质粒文库转化到异源表达FnCpf1座位的大肠杆菌或者携带空载体的对照大肠杆菌菌株中。使用此测定，通过鉴定在异源表达FnCpf1座位的细胞中优先缺失的核苷酸基序来确定PAM序列和位置。发现FnCpf1的PAM位于原型间隔区的替换链5’端上游并且具有序列 5’-TTN(图95C-图95D和图102)。在I型CRISPR系统中也观察到PAM的5’位置，但是在II型系统中未观察到，其中Cas9采用位于原型间隔区3’端的PAM序列(莫西卡等人，2009；加尔诺(Garneau)等人，2010)。除 PAM鉴定之外，缺失测定的结果明确指示异源表达的Cpf1座位能够被质粒DNA有效干扰。

为了进一步表征PAM，通过用携带侧接5’-TTN PAM的原型间隔区1的质粒转化表达cpf1座位的细胞来分析质粒干扰活性。有效靶向所有5’-TTN PAM。此外，还有效靶向5’-CTA而不是5’-TCA(图95E)，这表明中间T对于PAM识别比第一个T更关键，并且与PAM发现测定(图102D)中缺失的序列基序一致，该PAM可能比5’-TTN更松弛。

实例9：Cpf1 CRISPR阵列独立于tracrRNA来加工

使用小RNAseq确定由基于cpf1的CRISPR座位产生的crRNA的完整性质。通过对从土拉热弗朗西丝菌新杀手亚种U112培养物中提取的小RNA进行测序，发现CRISPR阵列被加工成长度为42-44nt的短成熟crRNA。每个成熟crRNA开始于同向重复序列的19nt，接着是间隔区序列的23-25nt(图96A)。此crRNA 安排与II型CRISPR-Cas系统中的安排相反，在该系统中成熟crRNA开始于间隔区序列的20-24nt，接着是同向重复序列的～22nt(德尔特切瓦等人，2011；吉林斯基等人，2013)。出乎意料地是，除crRNA之外，我们没有在可以对应于tracrRNA的弗朗西丝菌cpf1座位附近观察到任何强劲表达的小转录物，这些转录物与基于Cas9的系统相关联。

为了证实crRNA成熟和DNA干扰不需要另外的RNA，使用合成的启动子构建表达质粒以驱动弗朗西丝菌cpf1(FnCpf1)和CRISPR阵列(pFnCpf1_min)的表达。表达此质粒的大肠杆菌的小RNAseq 仍显示将CRISPR阵列强劲加工成成熟crRNA(图96B)，这指示FnCpf1及其CRISPR阵列足以实现crRNA加工。另外，表达pFnCpf1_min以及pFnCpf1_ΔCas的大肠杆菌是一种所有cas基因都已去除但保留驱动FnCpf1 和CRISPR阵列表达的天然启动子的质粒，它也展示了强劲DNA干扰，这表明FnCpf1和crRNA足以用于介导DNA靶向(图96C)。相反，Cas9需要crRNA和tracrRNA二者来介导靶向的DNA干扰(德尔特切瓦等人， 2011；张等人，2013)。

实例10：Cpf1是一种单一的crRNA指导性内切核酸酶。

考虑到Cas9通过crRNA与tracrRNA之间的双链结构，FnCpf1可以与单独的crRNA介导DNA干扰的发现结果是非常令人惊奇的(金科等人，2012；西松等人，2014)，以及tracrRNA的3’二级结构(徐等人，2013；西松等人，2014)来识别crRNA。为了确保crRNA确实足以与FnCpf1形成活性复合物并且介导 RNA-指导的DNA切割，针对靶DNA的体外切割测试仅供应有crRNA的FnCpf1。针对其切割在细菌DNA干扰实验(图97A)中使用的含有相同原型间隔区1的质粒的能力测定纯化的FnCpf1(图103)。具有体外转录的成熟crRNA靶向原型间隔区1的FnCpf1能够以Mg²⁺-和crRNA-依赖性方式有效切割靶质粒(图97B)。此外， FnCpf1能够切割超螺旋和线性靶DNA(图97C)。这些结果明确证实FnCpf1和crRNA足以用于RNA指导的DNA切割。

还使用切割的DNA末端的桑格测序来绘制FnCpf1的切割位点。FnCpf1介导的切割形成5-nt 5’ 突出端(图97A、图97D和图104)，该突出端不同于由Cas9生成的钝切割产物(加尔诺等人，2010；金科等人，2012；加西乌纳斯等人，2012)。FnCpf1的交错切割位点远离PAM：在非靶向(+)链上的第18个碱基之后和在靶向(-)链上的第23个碱基之后发生切割(图97A、图97D和图104)。使用具有不同PAM序列的双链寡核苷酸底物，我们还发现当5’-TTN PAM处于双链体形式(图97E)时FnCpf1切割靶DNA，这与 Cas9的PAM相反(斯腾伯格等人，2014)。

实例11：Cpf1的RuvC样结构域介导了RNA指导的DNA切割

Cpf1的RuvC样结构域保留内切核酸酶的此家族的所有催化残基(图98A和图105)并且因此预测是一种活性核酸酶。生成三种突变体FnCpf1(D917A)、FnCpf1(E1006A)和FnCpf1(D1225A)(图98A)，以测试保守性催化残基是否是FnCpf1的核酸酶活性所必需的。D917A和E1006A突变完全灭活FnCpf1的 DNA切割活性，并且D1255A显著降低了溶核活性(图98B)。这些结果与酿脓链球菌Cas9(SpCas9)的诱变结果相反，其中RuvC(D10A)和HNH(N863A)核酸酶结构域的突变将SpCas9转化成DNA切口酶(即这两种核酸酶结构域各自的灭活消除了一条DNA链的切割)(金科等人，2012；加西乌纳斯等人，2012) (图98B)。这些发现结果表明FnCpf1的RuvC样结构域切割可能处于二聚体构型中的靶DNA的两条链(图103B)。

实例12：Cpf1 crRNA的序列和结构

与具有和Cas9相互作用的精细RNA二级结构特征的Cas9的指导RNA相比(西松等人，2014)， FnCpf1的指导RNA是显著更简单的并且仅包含同向重复序列中的单一茎环(图97A)。

探寻了用于与FnCpf1一起介导DNA切割的crRNA的序列和结构要求。检查指导序列的长度。观察16nt指导序列以实现可检测的DNA切割并且18nt的指导序列实现有效的体外DNA切割(图99A)。这些长度类似于对于SpCas9证实的长度，其中16至17nt间隔区序列足以用于DNA切割(森席克(Cencic)等人，2014；付等人，2014)。FnCpf1指导RNA的种子区在间隔区序列的5’端上的前6或7nt内观察到(图99B)。

研究同向重复序列突变对于RNA指导的DNA切割活性的影响。成熟crRNA的同向重复序列部分是19nt长(图96A)。同向重复序列的截短显示16nt是足够的，但最佳地超过17nt的同向重复序列有效用于切割。保存RNA双链体的茎环中的突变并不影响切割活性，而破坏茎环双链体结构的突变消除了切割(图 99D)。最终，环区域中的碱基取代并不影响核酸酶活性，而紧接着在间隔区序列的5’的U取代基本上降低了活性。总之，这些结果表明FnCpf1通过茎环的序列特异性和结构特征的组合来识别crRNA。

实例13：来自不同细菌的Cpf1家族蛋白共享了一般crRNA结构和PAM

为了研究Cpf1作为基因组编辑工具的用途，探索了在公共序列数据库中可获得的Cpf1家族蛋白的多样性。在NCBI除的WGS数据库的BLAST搜索揭示了46种非冗余Cpf1家族蛋白(图64)。基于系统发育重构(图64)选择16种作为Cpf1多样性的代表(图100A-图100B和图106)。这些Cpf1家族蛋白跨越～1200 个与～1500个氨基酸之间的长度范围。

这些Cpf1家族蛋白各自的同向重复序列显示在该同向重复序列的3’处的19个核苷酸中的强保守性，这是重复序列包括在加工的crRNA中的部分(图100C)。同向重复序列的5’序列是更加多样的。选择用于分析的16种Cpf1家族蛋白中的三种(2-毛螺菌科细菌MC2017，Lb3Cpf1；3-解朊丁酸弧菌，BpCpf1；以及6-密斯氏菌属某种SC_K08D17，SsCpf1)与和FnCpf1同向重复序列显著趋异的同向重复序列相关联(图 100C)。值得注意地是，这些同向重复序列保留与FnCpf1同向重复序列相同或几乎相同的茎环结构(图 100D)。

测试直源同向重复序列支持体外FnCpf1核酸酶活性的能力。含有保守性茎序列的同向重复序列能够与FnCpf1可互换地起作用。来自候选物3(BpCpf1)的同向重复序列支持低水平的FnCpf1核酸酶活性(图100E)，这可能是由于3’-大部分U的保守性。

使用体外PAM鉴定测定(图107A)确定每种Cpf1家族蛋白的PAM序列。鉴定7种新Cpf1家族蛋白的PAM序列(图100E和图107B-图107C)，并且筛选证实FnCpf1的PAM为5’-TTN。Cpf1-家族蛋白的PAM 序列主要是T富集的，主要造构成每种PAM的T数目方面改变(图100F和图107B-图107C)。

实例14：Cpf1可以用于促进人类细胞中的基因组编辑

对Cpf1家族蛋白进行密码子优化并且使其连接用于最佳表达的C-末端核定位信号(NLS)与人类细胞中的核靶向(图101A)。为了测试每种Cpf1家族蛋白的活性，在DNMT1基因内选择指导RNA靶位点(图101B)。每种Cpf1家族蛋白连同其被设计成靶向DNMT1的对应crRNA能够体外切割DNMT1基因组区域的PCR扩增子(图101C)。当在人类胚肾293FT(HEK293FT)细胞中测试中，2种Cpf1家族蛋白(7-AsCpf1 和13-LbCpf1)在所采用的条件下展现出可检测水平的核酸酶诱导的indel(图101C和图101D)。

测试具有另外基因组靶标的每种Cpf1-家族蛋白。AsCpf1和LbCpf1一致地介导HEK293FT细胞中强劲基因编辑(图101E和图108)。当与Cas9相比时，AsCpf1和LbCpf1介导了可比较水平的indel形成(图 101E)。另外，我们使用体外切割，随后进行切割DNA端的桑格测序，并且发现7-AsCpf1和13-LbCpf1也生成了交错切割位点(图101D和图107E)。

以下是FnCpf1构建体和直向同源物的核苷酸和氨基酸序列。

FnCpf1座位序列

pFnCpf1

内源性新杀手弗朗西丝菌乙酰转移酶的5’端(FnCpf1座位上游)

FnCpf1

Cas2

同向重复序列

pFnCpf1_min

夏因-达尔加诺序列

FnCpf1

同向重复序列

pFnCpf1_ΔCas

内源性新杀手弗朗西丝菌乙酰转移酶的5’端(FnCpf1座位上游)

FnCpf1

同向重复序列

人类密码子优化的Cpf1直向同源物的核苷酸序列

核定位信号(NLS)

甘氨酸-丝氨酸接头

3×HA标签

1-土拉热弗朗西丝菌新杀手亚种U112(FnCpf1)

3-毛螺菌科细菌MC2017(Lb3Cpf1)

4-解朊丁酸弧菌(BpCpf1)

5-佩莱格里尼菌科细菌GW2011_GWA_33_10(PeCpf1)

6-Parcubacteria细菌GWC2011_GWC2_44_17(PbCpf1)

7-密斯氏菌属某种SC_K08D17(SsCpf1)

8-氨基酸球菌属某种BV3L6(AsCpf1)

9-毛螺菌科细菌MA2020(Lb2Cpf1)

10-候选白蚁甲烷枝原体(CMtCpf1)

11-挑剔真细菌(EeCpf1)

12-牛莫拉氏菌237(MbCpf1)

13-稻田钩端螺旋体(LiCpf1)

14-毛螺菌科细菌ND2006(LbCpf1)

15-狗口腔卟啉单胞菌(PcCpf1)

16-解糖胨普雷沃菌(PdCpf1)

17-猕猴卟啉单胞菌(PmCpf1)

人类密码子优化的Cpf1直向同源物的氨基酸序列

核定位信号(NLS)

甘氨酸-丝氨酸接头

3×HA标签

1-土拉热弗朗西丝菌新杀手亚种U112(FnCpf1)

3-毛螺菌科细菌MC2017(Lb3Cpf1)

4-解朊丁酸弧菌(BpCpf1)

5-佩莱格里尼菌科细菌GW2011_GWA_33_10(PeCpf1)

6-Parcubacteria细菌GWC2011_GWC2_44_17(PbCpf1)

7-密斯氏菌属某种SC_K08D17(SsCpf1)

8-氨基酸球菌属某种BV3L6(AsCpf1)

9-毛螺菌科细菌MA2020(Lb2Cpf1)

10-候选白蚁甲烷枝原体(CMtCpf1)

11-挑剔真细菌(EeCpf1)

12-牛莫拉氏菌237(MbCpf1)

13-稻田钩端螺旋体(LiCpf1)

14-毛螺菌科细菌ND2006(LbCpf1)

15-狗口腔卟啉单胞菌(PcCpf1)

16-解糖胨普雷沃菌(PdCpf1)

17-猕猴卟啉单胞菌(PmCpf1)

实例15：Cpf1结构的计算分析

Cpf1核酸酶初级结构的计算分析揭示了三个不同的区(图109)。第一是C末端RuvC样结构域，其是仅功能表征的结构域。第二是N末端α-螺旋区并且第三是位于RuvC样结构域与α-螺旋区之间的混合的α 区和β区。

预测非结构化区的若干小片段在Cpf1初始结构之内。对于小蛋白质序列的拆分和插入而言，不同的Cpf1直向同源物内的暴露于溶剂且不保守的非结构化区是优选的侧面。另外，这些侧面可以用于在 Cpf1直向同源物之间产生嵌合蛋白。

实例16：生成具有增强的特异性的Cpf1突变体

最近描述了一种用于生成具有增强的特异性的Cas9直向同源物的方法(斯莱马克尔等人， 2015)。此策略可以用于增强Cpf1直向同源物的特异性。

用于诱变的主要残基是RuvC结构域内所有带正电荷残基，因为这是在不存在晶体时仅已知的结构并且我们知道RuvC中的特异性突变体在Cas9中起作用(参见以下表：RuvC内的保守性赖氨酸和精氨酸残基)。

在不希望受到理论约束的情况下，Cpf1的此区域的带正电荷残基可以用于通过与DNA非靶链的带负电荷磷酸二酯骨架相互作用来稳定酶与DNA之间的相互作用。通过取代Cpf1的带正电荷残基，可以破坏与非靶链的相互作用。此相互作用的足够破坏可以维持针对靶位点的适当活性，但是减小了针对非靶位点的酶活性(考虑到与靶序列相比的一个或多个错配，这通常将预期与指导序列具有较弱的相互作用)。

其他结构域展示出类似的特征。感兴趣的区域是REC1结构域，包括但不限于与SpCas9的 N497、R661、Q695、以及Q926类似的一个或多个氨基酸残基的突变，并且包括但不限于在那些位置处对丙氨酸的突变。在此类残基处的突变还破坏了酶-DNA磷酸酯骨架相互作用。此外，可以采用位于相同或不同结构域中的突变的组合。

表：RuvC内的保守性赖氨酸和精氨酸残基。

另外的候选物是以下表中提供的在不同直向同源物之间保守的带正电荷残基。

表：保守性赖氨酸和精氨酸残基。

以上表提供了在来自新杀手弗朗西丝菌U112(FnCpf1)、-氨基酸球菌属某种BV3L6(AsCpf1)、毛螺菌科细菌ND2006(LbCpf1)以及牛莫拉氏菌237(MbCpf1)的Cpf1核酸酶比对中保守性赖氨酸和精氨酸残基的位置。这些可以用于生成具有增强的特异性的Cpf1突变体。

实例17：提供Cpf1结合的特异性

在用于提高Cas9特异性的类似策略中，Cpf1的特异性可以通过使稳定化非靶向DNA链的残基发生突变来改进。这可以在无晶体结构的情况下通过使用线性结构比对以预测1)哪个Cpf1结构域结合 DNA的哪条链，以及2)这些结构域内的哪些残基接触DNA来完成。

然而，此方法可能由于Cpf1与已知蛋白质的不良保守性而受到限制。因此，希望的是以探针探测所有可能的DNA相互作用氨基酸(赖氨酸、组氨酸以及精氨酸)的功能。

RuvC结构域内带正电荷残基在整个Cpf1中比在Rad50结构域中更保守，这指示RuvC残基是具有较小进化弹性的。这表明在此结构域中需要核酸结合的严格控制(相对于Rad50结构域)。因此，可能此结构域由于需要RNA:DNA双链体稳定而切割靶向的DNA链(Cas9中的前例)。此外，更多精氨酸存在于 RuvC结构域中(5％的RuvC残基904至1307对比提议的Rad50结构域中的3.8％)，这表明RuvC靶向一条DNA 链。精氨酸涉及结合核酸大沟和小沟(罗氏自然(Rohs Nature)2009： http://rohslab.cmb.usc.edu/Papers/Rohs_etal_Nature.pdf)。大沟/小沟可以仅存在于双链体(诸如DNA:RNA 靶向双链体)中，这进一步表明RuvC可以涉及切割。

图110、图111和图112提供了与Cpf1中发现的结构域类似的两种结构域的晶体结构(RuvC霍利迪连结体解离酶和Rad50DNA修复蛋白)。基于这些结构，可以推断Cpf1中哪些相关结构域看起来像并且推断哪些区域和残基可以接触DNA。在每种结构中，突出了接触DNA的残基。在图113的比对中，注解与这些DNA结合区域相对应的AsCpf1区域。以下表中的残基列表是两种结合结构域中可见的残基。

表-可能的DNA相互作用残基的列表

由关于AsCpf1的这些特定观察，我们可以通过序列比对鉴定来自其他种类的Cpf1中的类似残基。比对图114中给出的AsCpf1和FnCpf1的实例，鉴定了Rad50结合结构域和其中的精氨酸和赖氨酸。实例18：使用串联指导序列使用Cpf1进行多重作用

考虑使用Cpf1酶进行多重作用是否可能。出于此目的，开发指导RNA，由此在相同启动子下串联定位不同指导序列，并且确定这些指导序列指导基因组编辑到其对应靶标的能力。

在转染前24h，每24孔接种150,000个HEK293T细胞。使用Lipofectamin2000，用400ng huAsCpf1 质粒和100ng包含针对GRIN28的一个指导序列和以串联方式置于U6启动子(图115A)后面的针对EMX1 的一个指导序列的串联指导质粒转染细胞。转染后72h收获细胞并且使用SURVEYOR核酸酶测定来测定由串联指导序列介导的AsCpf1活性。

这些结果在图115B中证实，该图证明了GRIN28和EMX1基因中的INDEL形成。

因此确定AsCpf1和类似的LbCpf1可以采用由相同U6启动子表达的两种指导序列而无活性丧失。串联中的位置对indel形成没有影响。这表明Cpf1可以用于使用两种或更多种指导序列进行多重作用。

本发明进一步通过如下编号段落进行描述。

1.一种工程化的、非天然存在的成簇规律间隔短回文重复序列(CRISPR)-CRISPR相关(Cas) (CRISPR-Cas)系统，包含

a)一种或多种包含指导RNA的V型CRISPR-Cas多核苷酸序列，该指导RNA包含连接至同向重复序列的指导序列，其中该指导序列能够与靶序列杂交，或者一种或多种编码该一种或多种V型 CRISPR-Cas多核苷酸序列的核苷酸序列，以及

b)Cpf1效应蛋白或者编码该Cpf1效应蛋白的一种或多种核苷酸序列；

其中该一种或多种指导序列与所述靶序列杂交，所述靶序列是原型间隔区相邻基序(PAM)的3’，并且所述指导RNA与该Cpf1效应蛋白形成复合物。

2.一种包含一种或多种载体的工程化的、非天然存在的成簇规律间隔短回文重复序列(CRISPR) -CRISPR相关(Cas)(CRISPR-Cas)载体系统，包含

c)可操作地连接至一种或多种核苷酸序列的第一调节元件，该一种或多种核苷酸序列编码包含指导RNA的一种或多种V型CRISPR-Cas多核苷酸序列，该指导RNA包含连接至同向重复序列的指导序列，其中该指导序列能够与靶序列杂交，

d)可操作地连接至编码Cpf1效应蛋白的核苷酸序列的第二调节元件；

其中组分(a)和(b)位于该系统的相同或不同的载体上，

其中当转录时，该一种或多种指导序列与所述靶序列杂交，所述靶序列是原型间隔区相邻基序(PAM)的3’，并且所述指导RNA与该Cpf1效应蛋白形成复合物。

3.如段落1或2所述的系统，其中该靶序列是在细胞内。

4.如段落3所述的系统，其中该细胞包括真核细胞。

5.如段落1-4中任一项所述的系统，其中当转录时，该一种或多种指导序列与该靶序列杂交并且该指导RNA与该Cpf1效应蛋白形成一种复合物，该复合物引起该靶序列遠端切割。

6.如段落5所述的系统，其中所述切割生成具有4或5-nt 5’突出端的交错双链断裂。

7.如段落1-6中任一项所述的系统，其中该PAM包含5’T-富集基序。

8.如段落1-7中任一项所述的系统，其中该效应蛋白是来源于图64所列出的细菌种类的Cpf1 效应蛋白。

9.如段落8所述的系统，其中该Cpf1效应蛋白是来源于选自下组的细菌种类，该组由以下各项组成：土拉热弗朗西丝菌1、土拉热弗朗西丝菌新杀手亚种、易北普雷沃菌、毛螺旋菌科细菌MC2017 1、解朊丁酸弧菌、佩莱格里尼菌科细菌GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属某种SCADC、氨基酸球菌属某种BV3L6、毛螺旋菌科细菌MA2020、候选白蚁甲烷枝原体、挑剔真细菌、牛莫拉氏菌237、稻田钩端螺旋体、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃菌和猕猴卟啉单胞菌。

10.如段落9所述的系统，其中该PAM序列是TTN，其中N是A/C/G或T并且该效应蛋白是FnCpf1 或者其中该PAM序列是TTTV，其中V是A/C或G并且该效应蛋白是PaCpf1p、LbCpf1或AsCpf1。

11.如段落1-10中任一项所述的系统，其中该Cpf1效应蛋白包含一个或多个核定位信号。

12.如段落1-11中任一项所述的系统，其中编码该Cpf1效应蛋白的这些核酸序列被密码子优化用于在真核细胞中表达。

13.如段落1-12中任一项所述的系统，其中组分(a)和(b)或这些核苷酸序列是在一种载体上。

14.一种修饰感兴趣的靶座位的方法，该方法包括将如段落1-13中任一项所述的系统递送到所述座位或含有该座位的细胞中。

15.一种修饰感兴趣的靶座位的方法，该方法包括将包含Cpf1效应蛋白和一种或多种核酸组分的非天然存在或工程化的组合物递送至所述座位，其中该Cpf1效应蛋白与该一种或多种核酸组分形成一种复合物并且在所述复合物与是原型间隔区相邻基序(PAM)的3’的感兴趣的靶座位结合后，该效应蛋白诱导对该感兴趣的靶座位的修饰，其中该复合物包含Mg²⁺。

16.如段落14或15所述的方法，其中该感兴趣的靶座位是在细胞内。

17.如段落16所述的方法，其中该细胞是真核细胞。

18.如段落16所述的方法，其中该细胞是动物细胞或人类细胞。

19.如段落16所述的方法，其中该细胞是植物细胞。

20.如段落14或15所述的方法，其中该感兴趣的靶座位被包含在体外DNA分子中。

21.如段落15-20中任一项所述的方法，其中包含Cpf1效应蛋白和一种或多种核酸组分的所述非天然存在或工程化的组合物作为一个或多个多核苷酸分子递送到该细胞中。

22.如段落14-21中任一项所述的方法，其中该感兴趣的靶座位包含DNA。

23.如段落22所述的方法，其中该DNA是松弛的或超螺旋的。

24.如段落14-23中任一项所述的方法，其中该组合物包含单一核酸组分。

25.如段落24所述的方法，其中该单一核酸组分包含连接至同向重复序列的指导序列。

26.如段落14-25中任一项所述的方法，其中该感兴趣的靶座位的该修饰是链断裂。

27.如段落26所述的方法，其中该链断裂包括具有4或5-nt 5’突出端的交错DNA双链断裂。

28.如段落26或27所述的方法，其中该感兴趣的靶座位是通过将DNA插入物整合到该交错DNA 双链断裂中来修饰的。

29.如段落14-28中任一项所述的方法，其中该Cpf1效应蛋白包含一个或多个核定位信号(一个或多个NLS)。

30.如段落21-29中任一项所述的方法，其中该一个或多个多核苷酸分子被包含在一种或多种载体中。

31.如段落21-30中任一项所述的方法，其中该一个或多个多核苷酸分子包含可操作地配置为表达该Cpf1效应蛋白和/或该一种或多种核酸组分的一种或多种调节元件，任选地其中该一种或多种调节元件包括诱导型启动子。

32.如段落21至31中任一项所述的方法，其中该一个或多个多核苷酸分子或该一种或多种载体被包含在一个递送系统中。

33.如段落14-30中任一项所述的方法，其中系统或该一个或多个多核苷酸分子是经由粒子、囊泡或一种或多种病毒载体来递送的。

34.如段落33所述的方法，其中这些粒子包含脂质、糖、金属或蛋白质。

35.如段落33所述的方法，其中这些囊泡包含外来体或脂质体。

36.如段落33所述的方法，其中该一种或多种病毒质粒包括一种或多种腺病毒、一种或多种慢病毒或一种或多种腺相关病毒。

37.如段落14-36中任一项所述的方法，该方法是一种通过操纵感兴趣的基因组座位处的一个或多个靶序列来修饰细胞、细胞系或生物体的方法。

38.一种来自如段落37所述的方法的细胞或其子代，其中该细胞包含在未经受该方法的细胞中不存在的修饰。

39.如段落38所述的细胞或其子代，其中未经受该方法的该细胞包含异常并且来自该方法的该细胞的该异常已得到解决或校正。

40.一种来自如段落38所述的细胞或其子代的细胞产物，其中该产物是以相对于来自未经受该方法的细胞的细胞产物的性质或量来修饰的。

41.如段落40所述的细胞产物，其中未经受该方法的该细胞包含异常并且该细胞产物反映了该异常已通过该方法解决或校正。

42.一种包含如段落1-13中任一项所述的系统的体外、离体或体内宿主细胞或细胞系或其子代。

43.如段落42所述的宿主细胞或细胞系或其子代，其中该细胞是真核细胞。

44.如段落43所述的宿主细胞或细胞系或其子代，其中该细胞是动物细胞。

45.如段落33所述的宿主细胞或细胞系或其子代，其中该细胞是人类细胞。

46.如段落31所述的宿主细胞或细胞系或其子代，包含干细胞或干细胞系。

47.如段落30所述的宿主细胞或细胞系或其子代，其中该细胞是植物细胞。

48.一种产生具有由感兴趣的基因编码的修饰的感兴趣的性状的植物的方法，所述方法包括将植物细胞与如段落1-13中任一项所述的系统接触或者使该植物细胞经受如段落14-17或19至37所述的方法，由此修饰或引入所述感兴趣的基因并且由所述植物细胞再生植物。

49.一种鉴定植物中感兴趣的性状的方法，所述感兴趣的性状由感兴趣的基因编码，所述方法包括将植物细胞与如段落1-13中任一项所述的系统接触或者使该植物细胞经受如段落14-17或19至37所述的方法，由此鉴定所述感兴趣的基因。

50.如段落49所述的方法，进一步包括将该鉴定的感兴趣的基因引入到植物细胞或植物细胞系或植物种质中并且由其生成植物，由此该植物含有该感兴趣的基因。

51.如段落50所述的方法，其中该植物展现出该感兴趣的性状。

52.一种包含如段落1-13中任一项所述的系统的粒子。

53.如段落52所述的粒子，其中该粒子含有与该指导RNA复合的该Cpf1效应蛋白。

54.如任何以上段落所述的系统或方法，其中该复合物、指导RNA或蛋白质被轭合至至少一种糖部分，任选地是N-乙酰半乳糖胺(GalNAc)，具体地是三触角GalNAc。

55.如任何以上段落所述的系统或方法，其中Mg²⁺的浓度是约1mM至约15mM。

56.一种分离的蛋白质，该分离的蛋白质与AsCpf1或LbCpf1具有至少60％序列一致性并且能够通过与包含同向重复序列和指导序列的指导RNA复合来结合靶DNA，而不需要存在tracrRNA。

57.一种编码如段落56所述的蛋白质的分离的核酸。

58.如段落17所述的方法，该方法是一种治疗由所述细胞中的遗传缺陷引起的疾病的方法。

59.如段落58所述的方法，其中所述方法是在体内或离体细胞上进行的。

60.一种非天然存在或工程化的组合物，该组合物包含Cpf1效应蛋白以及含有同向重复序列和能够与在感兴趣的座位处的靶DNA杂交的指导序列的一种或多种RNA，其中该Cpf1效应蛋白与该一种或多种指导RNA形成一种复合物并且在所述复合物与是原型间隔区相邻基序(PAM)的3’的感兴趣的靶座位结合后，该效应蛋白诱导该感兴趣的靶座位的修饰。

61.一种非天然存在或工程化的组合物，该组合物包含编码Cpf1效应蛋白的多核苷酸序列以及含有同向重复序列和能够与在感兴趣的座位处的靶DNA杂交的指导序列的一种或多种RNA，其中该Cpf1效应蛋白在表达时与该一种或多种指导RNA形成一种复合物并且在所述复合物与是原型间隔区相邻基序 (PAM)的3’的感兴趣的靶座位结合后，该效应蛋白诱导该感兴趣的靶座位的修饰。

62.如段落60或61所述的组合物，该组合物是一种药用组合物。

63.如段落60或61所述的组合物，该组合物用作一种药物。

64.如段落60或61所述的组合物，该组合物用于治疗由该感兴趣的靶座位处的遗传缺陷引起的疾病或病症。

65.如段落58所述的方法或如陈述64所述地使用的组合物，其中该细胞是HSC细胞。

66.如段落58所述的方法或如陈述64所述地使用的组合物，其中该疾病或病症是血细胞病症。

***

尽管在此已经显示并说明了本发明的优选实施例，但是本领域的普通技术人员将清楚的是仅作为举例而提供了此类实施例。本领域的普通技术人员现在将会想到众多变体、变化、以及替代，而不背离本发明。应该理解的是，在此说明的本发明的实施例的不同替代方案可以用于实施本发明。预期的是以下权利要求书限定了本发明的范围以及由此覆盖在这些权利要求和它们的等效物的范围内的方法和结构。

Claims

1.工程化的CRISPR-Cas指导多核苷酸，其从5’至3’包含连接至异源指导序列的同向重复序列；

其中所述指导序列被工程化以与真核细胞中的靶序列杂交；

其中所述同向重复序列包含茎环区域；以及

其中所述指导多核苷酸能与V-A型Cas蛋白形成CRISPR-Cas复合物并能引导所述CRISPR-Cas复合物与真核细胞中的靶序列的序列特异性结合。

2.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述同向重复序列从5’至3’包含茎部左侧区域、环区域、茎部右侧区域以及紧邻所述指导序列5’的尿嘧啶。

3.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述茎部左侧区域和茎部右侧区域分别包含UCUAC和GUAGA的序列。

4.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述茎部左侧区域和茎部右侧区域分别包含CCUAC和GUAGG的序列、UCCAC和GUGGA的序列或UCUGC和GCAGA的序列。

5.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述环区域包含UGUU或UAUU的序列。

6.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述环区域包含UCUU、UUUU、UGCU、UUCG、UCUUU、UGUUU、UAAGU、UUU或UU的序列。

7.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述同向重复序列进一步包含与紧邻茎部左侧区域5’的AAUU或AUU。

8.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述同向重复序列进一步包含位于5’端的GG。

9.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述指导序列的长度为17-24个核苷酸。

10.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述同向重复序列的长度为16-21个核苷酸。

11.如权利要求2所述的工程化的CRISPR-Cas指导多核苷酸，其中所述茎部左侧区域和茎部右侧区域分别包含UCUAC和GUAGA的序列；其中所述环区域包含UGUU、UAUU、UCUU或UUUU的序列；其中所述同向重复序列包含紧邻茎部左侧区域5’的AAUU或AUU。

12.如权利要求11所述的工程化的CRISPR-Cas指导多核苷酸，其中所述同向重复序列进一步包含位于5’端的GG。

13.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述工程化的CRISPR-Cas指导多核苷酸包含至少一种化学修饰。

14.如权利要求13所述的工程化的CRISPR-Cas指导多核苷酸，其中所述化学修饰包含假-U、5-甲基-C、甲基化核苷酸或核苷酸类似物。

15.如权利要求13所述的工程化的CRISPR-Cas指导多核苷酸，其中所述化学修饰包含2′-O-甲基、2′-O-甲基3′硫代磷酸酯或2′-O-甲基3′硫代PACE。

16.如权利要求13所述的工程化的CRISPR-Cas指导多核苷酸，其中所述化学修饰包含在核糖环的2′碳与4′碳之间的亚甲基桥。

17.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述指导多核苷酸包含SEQ ID NO:1434,1437-1438和1440-1449中任一个的同向重复序列。

18.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述指导多核苷酸包含由SEQ ID NO:195,198-199和201-210中任一个编码的同向重复序列。

19.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述靶序列与真核细胞基因组中的原型间隔区基序(PAM)相邻，其中所述PAM包含5’-TTN或5’-TTTV。

20.如权利要求1所述的工程化的CRISPR-Cas指导多核苷酸，其中所述指导多核苷酸能够与V-A型Cas蛋白在不存在任何tracrRNA的条件下形成CRISPR-Cas复合物。

21.组合物，其包含：(a)V-A型Cas蛋白或编码所述V-A型Cas蛋白的核酸，以及(b)权利要求1的工程化的CRISPR-Cas指导多核苷酸或编码所述工程化的CRISPR-Cas指导多核苷酸的核酸。

22.如权利要求21所述的组合物，其中所述组合物包含核糖核蛋白，所述核糖核蛋白包含与所述V-A型Cas蛋白相复合的工程化的CRISPR-Cas指导多核苷酸。

23.如权利要求21所述的组合物，其中所述组合物包含脂质颗粒，所述脂质颗粒包含所述工程化的CRISPR-Cas指导多核苷酸和编码所述V-A型Cas蛋白的mRNA。

24.如权利要求21所述的组合物，其中所述组合物包含一种或更多种病毒载体，所述一种或更多种病毒载体包含或编码所述工程化的CRISPR-Cas指导多核苷酸和所述V-A型Cas蛋白。

25.如权利要求21所述的组合物，其中所述V-A型Cas蛋白包含RuvC-I、RuvC-II和RuvC-III结构域。

26.如权利要求25所述的组合物，其中所述V-A型Cas蛋白在RuvC-I结构域中包含VIGIDRG或IIGIDRG基序。

27.如权利要求25所述的组合物，其中所述V-A型Cas蛋白在RuvC-III结构域中包含DANGAY基序。

28.如权利要求21所述的组合物，其中V型Cas蛋白不包含HNH结构域。

29.如权利要求21所述的组合物，其中V型Cas蛋白不包含HNH结构域且包含RuvC-I、RuvC-II和RuvC-III结构域；其中所述RuvC-I结构域包含VIGIDRG或IIGIDRG基序且所述RuvC-III结构域包含DANGAY基序。

30.如权利要求21所述的组合物，其中所述V-A型Cas蛋白融合至一个或更多个异源核定位信号。

31.如权利要求21所述的组合物，其中所述V-A型Cas蛋白在催化结构域中包含至少一个突变，并具有降低的催化活性。

32.如权利要求21所述的组合物，其中所述V-A型Cas蛋白融合至一个或更多个异源蛋白结构域。

33.如权利要求32所述的组合物，其中所述一个或更多个异源蛋白结构域具有以下活性中的一种或多种：甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白修饰活性、核酸酶活性、单链RNA切割活性、双链RNA切割活性、单链DNA切割活性、双链DNA切割活性以及核酸结合活性。

34.如权利要求32所述的组合物，其中所述一个或更多个异源蛋白结构域选自由易位酶结构域、整合酶结构域、重组酶结构域、解离酶领域、转化酶结构域、蛋白酶结构域、DNA甲基转移酶结构域、DNA羟甲基酶结构域、DNA脱甲基酶结构域、组蛋白乙酰化酶结构域、组蛋白脱乙酰化酶结构域、核酸酶域、转录阻遏结构域、转录激活结构域、脱氨酶结构域、转录调节蛋白结构域、细胞摄取活性相关结构域、核酸结合结构域、抗体呈递结构域、组蛋白修饰酶、组蛋白修饰酶的募集物；组蛋白修饰酶、组蛋白甲基转移酶、组蛋白脱甲基化酶、组蛋白激酶、组蛋白磷酸酶、组蛋白核糖基酶、组蛋白脱核糖基酶、组蛋白泛素酶、组蛋白脱泛素酶、组蛋白生物素酶以及组蛋白尾蛋白酶的抑制剂组成的组。

35.如权利要求21所述的组合物，其中所述V-A型Cas蛋白来自于弗朗西丝菌属、普雷沃菌属、氨基酸球菌属、毛螺旋菌科、莫拉氏菌属、真细菌属、密斯氏菌属、丁酸弧菌属、佩莱格里尼菌科、Parcubacteria、候选种(Candidatus)、钩端螺旋体属或卟啉单胞菌属。

36.如权利要求21所述的组合物，进一步包含供体模板，所述供体模板用于通过同源定向修复靶向整合转基因。

37.分离的真核细胞，其包含如权利要求21所述的组合物。

38.非人动物或植物，其包含如权利要求37所述的分离的真核细胞。

39.如权利要求21所述的组合物在制造用于治疗遗传疾病或病症的药物中的用途。

40.如权利要求21所述的组合物在体外或离体修饰真核细胞中感兴趣的靶位点的方法中的用途。