CN114981423A

CN114981423A - I-b型crispr相关转座酶系统

Info

Publication number: CN114981423A
Application number: CN202080091286.2A
Authority: CN
Inventors: 斋藤谅; F·张; G·福雷
Original assignee: Massachusetts Institute of Technology; Broad Institute Inc
Current assignee: Massachusetts Institute of Technology; Broad Institute Inc
Priority date: 2019-11-01
Filing date: 2020-10-30
Publication date: 2022-08-30
Also published as: EP4051789A4; AU2020373064A1; CA3156199A1; EP4051789A1; WO2021087394A1; US20220380758A1

Abstract

用于靶向基因修饰、靶向插入、基因转录物的扰动和核酸编辑的系统和方法。新型核酸靶向系统包含CRISPR系统的组分和转座元件。

Description

I-B型CRISPR相关转座酶系统

相关申请的交叉引用

本申请要求2019年11月1日提交的美国临时申请号62/929,621；2020年1月21日提交的美国临时申请号62/964,010；2020年2月24日提交的美国临时申请号62/980,897；2020年6月30日提交的美国临时申请号63/046,470；和2020年10月22日提交的美国临时申请号63/104,442的权益。上述确定的申请的全部内容特此以引用的方式全部并入本文。

关于联邦政府赞助研究的声明

本发明是在由美国国家卫生研究院(National Institutes of Health)授予的授权号HL141201在政府资助下完成的。政府对本发明具有一定的权利。

电子序列表的引用

电子序列表(“BROD-4890WP_ST25.txt”；大小为426,096字节，并且其创建于2020年10月30日)的内容以引用的方式整体并入本文。

技术领域

本文公开的主题通常涉及用于靶向基因修饰、靶向插入、基因转录物的扰动和核酸编辑的系统、方法和组合物。新型核酸靶向系统包含成簇规则间隔短回文重复序列(CRISPR)系统的组分和转座元件。

背景技术

基因组测序技术和分析方法的最新进展显著加速了对与各种各样的生物功能和疾病相关联的遗传因子进行编目和定位的能力。需要精确的基因组靶向技术，以通过允许对个别遗传元件进行选择性扰动来实现因果遗传变异的系统性逆向工程，以及推进合成生物学、生物技术和医学应用。尽管基因组编辑技术诸如设计者锌指、转录激活子样效应物(TALE)或归巢大范围核酸酶可用于产生靶向基因组扰动，但仍需要采用新型策略和分子机制并且价格可承受、易于建立、可扩展且适于靶向真核基因组内的多个位置的新的基因组工程技术。这将为基因组工程和生物技术的新应用提供主要资源。

细菌和古细菌适应性免疫的CRISPR-Cas系统显示出蛋白质组成、基因组基因座构造和系统功能的极端多样性。包含CRISPR样组分的系统很普遍，并不断被发现。新型多亚基效应复合物和单亚基效应模块可被开发作为强大的基因组工程工具。

在本申请中对任何文件的引用或标识均不承认所述文件可用作本发明的现有技术。

发明内容

在一个方面，本公开提供了一种工程化系统，所述系统包含：一种或多种CRISPR相关Tn7或Tn7样转座酶或其功能片段；一种或多种I-B型Cas蛋白；和指导分子，所述指导分子能够与I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

在一些实施方案中，一种或多种CRISPR相关Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC和/或TniQ。在一些实施方案中，Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC、第一TniQ和第二TniQ，其中第一TniQ和第二TniQ是不同的。在一些实施方案中，Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC和TniQ。在一些实施方案中，TniQ包含DNA结合结构域。在一些实施方案中，DNA结合结构域位于TniQ的C末端。在一些实施方案中，一种或多种CRISPR相关Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC和/或TnsD。在一些实施方案中，Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC、第一TnsD和第二TnsD，其中第一TnsD和第二TnsD是不同的。在一些实施方案中，Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC和TnsD。在一些实施方案中，TnsD包含DNA结合结构域。在一些实施方案中，TnsA和TnsB包含在单一蛋白质中。在一些实施方案中，Tn7或Tn7样转座酶包括TnsA、TnsB、TnsC和TnsD1；TnsA、TnsB、TnsC和TnsD2；或TnsA、TnsB、TnsC、TnsD和TnsD2。

在一些实施方案中，一种或多种I-B型Cas蛋白包括Cas5、Cas6、Cas7和/或Cas 8。在一些实施方案中，一种或多种I-B型Cas蛋白包括Cas 8b。在一些实施方案中，Cas8b是Cas8b3。

在一些实施方案中，一种或多种CRISPR相关Tn7或Tn7样转座酶和/或一种或多种I-B型Cas蛋白来自或源自多变鱼腥藻(Anabaena variabilis)。在一些实施方案中，一种或多种I-B型Cas蛋白缺乏核酸酶活性。在一些实施方案中，所述系统还包含供体多核苷酸。在一些实施方案中，供体多核苷酸包含多核苷酸插入物、左侧元件序列和右侧元件序列。在一些实施方案中，供体多核苷酸向靶多核苷酸引入一个或多个突变，在靶多核苷酸中校正提前终止密码子，破坏剪接位点，恢复剪接位点，或其组合。在一些实施方案中，由供体多核苷酸引入的一个或多个突变包括取代、缺失、插入或其组合。在一些实施方案中，一个或多个突变导致靶多核苷酸上的开放阅读框的移位。在一些实施方案中，供体多核苷酸的长度在100个碱基与30kb之间。在一些实施方案中，靶多核苷酸在靶多核苷酸的5’侧包含原间隔子相邻基序(PAM)。在一些实施方案中，PAM是AT或ATG。在一些实施方案中，所述系统还包含靶向部分。在一些实施方案中，所述系统包含能够引导指导物-Cas蛋白复合物与一种或多种靶多核苷酸的结合的多种指导分子。

在一些实施方案中，将供体多核苷酸插入到靶多核苷酸的PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点处。在一些实施方案中，将供体多核苷酸插入到靶多核苷酸的PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点处。在一些实施方案中，靶多核苷酸是线性、环状或基因组DNA。在一些实施方案中，一种或多种Tn7转座酶源自第一物种，并且一种或多种I-B型Cas蛋白源自不同于第一物种的第二物种。在一些实施方案中，所述系统包含源自第一物种的第一TnsD1和源自第二物种的第二TnsD2。在一些实施方案中，一种或多种Tn7转座酶包含具有TnsA和TnsB活性的转座酶。

在另一个方面，本公开提供了一种系统，其包含一种或多种编码以下的多核苷酸：一种或多种CRISPR相关Tn7或Tn7样转座酶或其功能片段；一种或多种I-B型Cas蛋白；和指导分子，所述指导分子能够与I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

在一些实施方案中，所述系统还包含供体多核苷酸。在一些实施方案中，供体多核苷酸包含多核苷酸插入物、左侧元件序列和右侧元件序列。在一些实施方案中，所述系统包含表7中一个或多个基因座中的一种或多种多核苷酸或多核苷酸的编码产物。在一些实施方案中，一种或多种多核苷酸编码系统的组分(a)至(c)。在一些实施方案中，一种或多种I-B型Cas蛋白包括Cas5、Cas6、Cas7和/或Cas 8。在一些实施方案中，所述系统包含编码第一Cas6的第一多核苷酸和编码第二Cas6的第二多核苷酸。

在另一个方面，本公开提供了一种载体，其包含本文的一种或多种多核苷酸。

在另一个方面，本公开提供了一种工程化细胞，其包含本文的系统或本文的载体。在一些实施方案中，细胞产生和/或分泌内源性或非内源性生物产物或化学化合物。在一些实施方案中，生物产物是蛋白质或RNA。

在另一个方面，本公开提供了一种细胞系，其包含本文的工程化细胞及其子代。

在另一个方面，本公开提供了一种植物或动物模型，其包含本文的工程化细胞及其子代。

在另一个方面，本公开提供了一种组合物，其包含本文的工程化细胞。在一些实施方案中，组合物被配制用作治疗剂。在另一个方面，本公开提供了一种由本文的工程化细胞产生的生物产物或化学化合物。

在另一个方面，本公开提供了一种工程化细胞或其子代，所述细胞是通过使用本文的系统进行工程化的。在一些实施方案中，细胞或其子代是分离的。在一些实施方案中，细胞或其子代进一步用作治疗剂。在一些实施方案中，细胞或其子代包括从其中分离出产物的那些。

在另一个方面，本公开提供了一种由本文的细胞或其子代产生的产物。在一些实施方案中，产物是蛋白质或RNA。在一些实施方案中，蛋白质包含突变。

在另一个方面，本公开提供了一种用于治疗疾病或病症的药物组合物，其包含本文的细胞或其子代。在一些实施方案中，治疗导致一种或多种细胞的遗传变化。在一些实施方案中，治疗导致一种或多种缺陷基因型的校正。在一些实施方案中，治疗导致改善的表型。在一些实施方案中，细胞包含由包含靶序列的基因表达的蛋白质中的突变。在一些实施方案中，细胞包括包含靶序列的基因组区域的缺失。在一些实施方案中，细胞包含通过同源定向修复对外源性序列的整合。在一些实施方案中，细胞包含与靶序列相关联的基因的转录减少。在一些实施方案中，细胞包含与靶序列相关联的基因的转录增加。在一些实施方案中，产物是突变的蛋白质或由模板提供的产物。

在另一个方面，本公开提供了一种将供体多核苷酸插入细胞中的靶多核苷酸中的方法，所述方法包括向细胞中引入：一种或多种CRISPR相关Tn7或Tn7样转座酶或其功能片段；一种或多种I-B型Cas蛋白；和指导分子，所述指导分子能够与I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

在一些实施方案中，供体多核苷酸：向靶多核苷酸引入一个或多个突变，在靶多核苷酸中校正提前终止密码子，破坏剪接位点，恢复剪接位点，或其组合。

在一些实施方案中，由供体多核苷酸引入的一个或多个突变包括取代、缺失、插入或其组合。在一些实施方案中，一个或多个突变导致靶多核苷酸上的开放阅读框的移位。在一些实施方案中，供体多核苷酸的长度在100个碱基与30kb之间。在一些实施方案中，组分(a)、(b)和(c)中的一种或多种由与调控序列可操作地连接的核酸表达。在一些实施方案中，将组分(a)、(b)和(c)中的一种或多种引入粒子中。在一些实施方案中，粒子包含核糖核蛋白(RNP)。在一些实施方案中，细胞是原核细胞。在一些实施方案中，细胞是真核细胞。在一些实施方案中，细胞是哺乳动物细胞、非人灵长类动物的细胞或人细胞。在一些实施方案中，细胞是植物细胞。

在一些实施方案中，将供体多核苷酸插入细胞中的靶多核苷酸中导致包含改变的表达水平的一种或多种基因产物的细胞或细胞群；产生和/或分泌内源性或非内源性生物产物或化学化合物的细胞或细胞群。

在一些实施方案中，将供体多核苷酸插入到靶多核苷酸上PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。在一些实施方案中，将供体多核苷酸插入到靶多核苷酸上PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。在一些实施方案中，靶多核苷酸是线性、环状或基因组DNA。

在考虑所示的示例性实施方案的以下详细描述时，示例性实施方案的这些和其他方面、目的、特征和优点对于本领域中具有普通技术的那些人员来说将变得显而易见。

附图说明

将参考阐明可利用本发明原则的例示性实施方案的以下详细描述和附图来获得对本发明的特征和优点的理解，并且其中的附图：

图1示出了来自多变鱼腥藻ATCC 29413的基因座CP000117的示例性I-B型CAST系统的构建体。

图2示出了用于表达实施例1中的示例性CAST系统的质粒。

图3示出了图2中的质粒的图谱。

图4至图5示出了通过示例性CAST系统用不同的引物对插入靶序列。

图6示出了从来自图4至图5所示的测试的凝胶条带回收的扩增子(通过引物对a和b)的序列。

图7示出了组分的缺失对示例性CAST系统的功能的影响。

图8示出了来自图7所示实验的扩增子的序列。

图9示出了CP000117中蛋白质的纯化：TnsA、TnsB、TniQ1和TniQ2。

图10示出了靶向BL21DE3的10个基因组基因座的测试结果。

图11示出了示例性CAST系统的表征。

图12示出了glmS基因座中的“N”AT-PAM平铺。

图13示出了示例性CAST系统的体外归巢。

图14示出了示例性CAST系统在293T细胞中的归巢。

图15示出了各种条件的评估及所述条件对示例性CAST系统的功能的影响。

图16示出了各种标签对示例性CAST系统的功能的影响。

图17示出了示例性CAST系统的组分在293细胞中的表达。

图18示出了用于测试图17中CAST组分的表达的质粒。

图19至图21示出了通过示例性CAST将供体多核苷酸插入哺乳动物细胞中的靶位点。

图22通过测序示出了图19至图21中插入的表征。

图23示出了示例性TniQ蛋白的不同功能。

图24示出了示例性CAST系统中TnsB的表征。

图25是示例性CAST系统的PAM筛选。

图26示出了示例性TnsB的最小结合位点。

图27示出了示例性TnsB的结合位点的共有序列。

图28示出了针对示例性CAST系统测试的各种货物大小。

图29示出了插入位点特异性评估的结果。

图30示出了示例性CAST系统的质粒靶向和LE连接处的结果。

图31至图32.图31示出了用于筛选示例性CAST系统的PAM的质粒的分析。图32示出了PAM筛选结果。

图33示出了TnsD1和TnsD2对归巢和CAST功能的竞争和/或合作效应的分析。

图34示出了示例性CAST-I-B系统的质粒靶向的亚细胞定位的测试。

图35示出了示例性I-B型CAST系统。

图36示出了T24 CAST的基因座和用于适应哺乳动物细胞中的T24 CAST系统的构建体。

图37示出了示例性T24 CAST系统的组分在哺乳动物细胞中的表达。

图38示出了示例性T24-CAST系统的NLS标记的组分的细胞定位。

图39示出了掺入GFP的转染的结果。

图40示出了用于分析293FT细胞中的Tn7/CAST质粒靶向的实验方案。

图41示出了293FT细胞中示例性T24-Tn7系统的质粒靶向。

图42示出了293FT细胞中示例性T24-CAST系统的质粒靶向。

图43示出了示例性T24-CAST中个别组分的分析。

图44示出了蛋白质与指导分子之间的比率对插入活性的影响。

图45示出了另外的示例性I-B型CAST系统。

图46示出了用于分析大肠杆菌(E coli)中的I-B型CAST系统的示例性方法。

图47示出了用于分析哺乳动物细胞中的I-B型CAST系统的示例性方法。

图48示出了测试了在哺乳动物质粒靶向中的作用的三种示例性I-B型CAST系统。

图49示出了示例性I-B型CAST系统的PAM筛选。

图50示出了示例性I-B型CAST系统的哺乳动物PAM筛选流程。

图51示出了在293FT细胞中测试PAM文库。

图52示出了示例性I-B型CAST系统的PAM筛选的结果。

图53示出了示例性I-B型CAST(IB18)基因座的图谱。

图54示出了示例性I-B型CAST(IB28)基因座的图谱。

图55示出了包含IB型Cas蛋白的示例性CAST系统。

图56是表达附接有各种NLS的示例性CAST(T24)的构建体。

图57示出了附接有v1 NLS的T24的组分的亚细胞定位

图58示出了附接有其他版本的NLS的T24的组分的亚细胞定位。

图59示出了具有带有T24的各种NLS的质粒及其靶向活性。

图60示出了用t24测试哺乳动物基因组靶向的示例性实验。

图61示出了用QE进行的96孔形式测试中的质粒靶向。

图62示出了为了测试质粒对靶基因的影响而进行的PCR实验。

图63示出了IB28 CAST系统的Cascade组分的亚细胞定位。

图64示出了IB28 CAST系统的Tns组分的亚细胞定位。

图65示出了具有不同版本的NLS的IB28 CAST系统的组分的亚细胞定位。

图66示出了具有带有IB28的各种NLS的质粒及其靶向活性。

图67示出了IB18的NLS的v.1的Cascade组分的亚细胞定位。

图68示出了IB18的NLS的v.1的Tns组分的亚细胞定位。

图69示出了IB20的基因座。

图70示出了IB20在哺乳动物细胞中的功能。

图71示出了PAM序列的筛选结果。

图72示出了IB20_pCMV-Cas5-NLS-HA的图谱，并且图73示出了表达盒。

图74示出了IB20_pCMV-Cas6-NLS-HA的图谱，并且图75示出了表达盒。

图76示出了IB20_pCMV-Cas7-NLS-HA的图谱，并且图77示出了表达盒。

图78示出了IB20_pCMV-Cas8-NLS-HA的图谱，并且图79示出了表达盒。

图80示出了IB20_pCMV-HA-NLS-Cas5的图谱，并且图81示出了表达盒。

图82示出了IB20_pCMV-HA-NLS-Cas6的图谱，并且图83示出了表达盒。

图84示出了IB20_pCMV-HA-NLS-Cas7的图谱，并且图85示出了表达盒。

图86示出了IB20_pCMV-HA-NLS-Cas8的图谱，并且图87示出了表达盒。

图88示出了IB20_pCMV-HA-NLS-TniQ1的图谱，并且图89示出了表达盒。

图90示出了IB20_pCMV-HA-NLS-TniQ2的图谱，并且图91示出了表达盒。

图92示出了IB20_pCMV-HA-NLS-TnsA的图谱，并且图93示出了表达盒。

图94示出了IB20_pCMV-HA-NLS-TnsC的图谱，并且图95示出了表达盒。

图96示出了IB20_pCMV-TniQ1-NLS-HA的图谱，并且图97示出了表达盒。

图98示出了IB20_pCMV-TniQ2-NLS-HA的图谱，并且图99示出了表达盒。

图100示出了IB20_pCMV-TnsA-NLS-HA的图谱，并且图101示出了表达盒。

图102示出了IB20_pCMV-TnsC-NLS-HA的图谱，并且图103示出了表达盒。

图104示出了pDonor_IB20-CmR的图谱。

图105示出了pU6-IB20_CRISPR_PAMcont(-)的图谱。

图106示出了pU6-IB20_CRISPR_PAMlib(+)的图谱。

图107示出了细菌中的示例性I-b型CAST T24表征。

图108示出了T24 CAST在哺乳动物细胞中靶向质粒方面的功能

图109示出了T24 CAST的PAM的筛选。

图110示出了另外的CAST直系同源物的PAM筛选。

图111示出了IB20基因座和活性。

图112示出了示例性I-b型CAST基因座。

图113A至图113B.将NLS与示例性CAST-1b系统的组分融合，并通过免疫荧光测试组分的亚细胞定位。

图114A至图114B.T24系统被激活所需的质粒拷贝数。

图115.通过具有24个指导分子的四种示例性CAST系统中的每种来靶向LINE1-ORF2。

图116.CAST系统在靶向超螺旋和线性DNA靶标方面具有活性。

图117.测试了不同大小的靶序列，包括包含上游(PAM的5’)最多300bp的线性靶标和包含下游(PAM的3’)最多348bp的线性靶标。

图118.对于293FT细胞中的CAST-1b功能的最小片段大小。

图119至图120.通过转录激活测试I-b型CAST系统中Cas蛋白的核小体可及性。

图121至图122.将IB20中的个别Cas蛋白与p300融合，并且测试转录激活。

图123示出了示例性嵌合CAST系统。

图124示出了示例性嵌合CAST系统在哺乳动物细胞中的质粒靶向方面的活性。

图125示出了示例性嵌合CAST系统的插入位置。

图126至图127.来自两种直系同源物的TnsD1对嵌合CAST的活性有影响。

图128至图130.具有新NLS的CAST系统在质粒靶向方面的活性。

本文中的附图仅用于说明目的，并且不一定按比例绘制。

具体实施方式

一般定义

除非另有定义，否则本文中使用的技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同含义。分子生物学中常用术语和技术的定义可见于MolecularCloning:A Laboratory Manual,第2版(1989)(Sambrook、Fritsch和Maniatis)；MolecularCloning:A Laboratory Manual,第4版(2012)(Green和Sambrook)；Current Protocols inMolecular Biology(1987)(F.M.Ausubel等人编)；the series Methods in Enzymology(Academic Press,Inc.):PCR 2:A Practical Approach(1995)(M.J.MacPherson、B.D.Hames和G.R.Taylor编):Antibodies,A Laboratory Manual(1988)(Harlow和Lane编):Antibodies A Laboratory Manual,第2版2013(E.A.Greenfield编)；Animal CellCulture(1987)(R.I.Freshney编)；Benjamin Lewin,Genes IX,由Jones and Bartlet出版,2008(ISBN 0763752223)；Kendrew等人(编),The Encyclopedia of MolecularBiology,由Blackwell Science Ltd.出版,1994(ISBN 0632021829)；Robert A.Meyers(编),Molecular Biology and Biotechnology:a Comprehensive Desk Reference,由VCHPublishers,Inc.出版,1995(ISBN 9780471185710)；Singleton等人,Dictionary ofMicrobiology and Molecular Biology第2版,J.Wiley&Sons(New York,N.Y.1994),March,Advanced Organic Chemistry Reactions,Mechanisms and Structure第4版,JohnWiley&Sons(New York,N.Y.1992)；以及Marten H.Hofker和Jan van Deursen,TransgenicMouse Methods and Protocols,第2版(2011)。

如本文所用，单数形式“一个(a)”、“一种(an)”和“所述(the)”包括单数和复数个指示物，除非上下文中另外明确指示。

术语“任选的”或“任选地”意指随后描述的事件、情况或替代物可能发生或可能不发生，并且所述描述包括其中事件或情况发生的情况和其中事件或情况不发生的情况。

由端点叙述的数值范围包括在相应范围内包含的所有数字和分数，以及所述端点。

如本文所用，与参考数值及其语法等效物相关的术语“约”可包括数值本身和所述数值加或减10％的值范围。例如，“约10”的量包括10和9至11的任何量。例如，关于参考数值的术语“约”还可包括所述值加或减10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的值范围。

如本文所用，“生物样品”可含有全细胞和/或活细胞和/或细胞碎片。生物样品可含有(或源自)“体液”。本发明涵盖其中体液选自以下各项的实施方案：羊水、房水、玻璃体液、胆汁、血清、母乳、脑脊液、耵聍(耳垢)、乳糜、食糜、内淋巴、外淋巴、渗出液、粪便、女性射出物、胃酸、胃液、淋巴液、粘液(包括鼻腔引流液和痰)、心包液、腹膜液、胸膜液、脓液、炎性分泌物、唾液、皮脂(皮肤油)、精液、痰液、滑液、汗液、泪液、尿液、阴道分泌物、呕吐物及其一种或多种的混合物。生物样品包括细胞培养物、体液、来自体液的细胞培养物。体液可例如通过穿刺或其他收集或取样程序从哺乳动物生物体中获得。

术语“受试者”、“个体”和“患者”在本文中可互换使用以指代脊椎动物，优选哺乳动物，更优选人。哺乳动物包括但不限于鼠、猿、人、农场动物、运动动物和宠物。还涵盖在体内获得或在体外培养的生物实体的组织、细胞及其子代。

术语“示例性”在本文中用于意指用作实例、例子或说明。本文描述为“示例性”的任何方面或设计不一定被解释为比其他方面或设计更优选或更有利。相反，使用词语示例性旨在以具体的方式呈现概念。

源自物种的蛋白质或核酸意指所述蛋白质或核酸具有与物种中的内源性蛋白质或核酸或其部分相同的序列。源自物种的蛋白质或核酸可直接从物种的生物体获得(例如，通过分离)，或可例如通过重组生产或化学合成而产生。

下文描述各种实施方案。应注意，具体实施方案不旨在作为详尽的描述或作为对本文讨论的更广泛方面的限制。结合特定实施方案描述的一个方面不一定限于所述实施方案，并且可与任何其他实施方案一起实践。在整个说明书中提及“一个实施方案”、“实施方案”、“示例性实施方案”意指结合实施方案描述的特定特征、结构或特性包括在本发明的至少一个实施方案中。因此，在整个说明书中的不同位置出现的短语“在一个实施方案中”、“在实施方案中”或“示例性实施方案”未必都是指同一个实施方案，但可以是指同一个实施方案。此外，在一个或多个实施方案中，特定的特征、结构或特性可以任何合适的方式组合，这对于本公开的领域的技术人员来说将是显而易见的。此外，尽管本文所述的一些实施方案包括一些特征但不是其他实施方案中包括的其他特征，但不同实施方案的特征组合意图涵盖在本发明的范围内。例如，在所附权利要求中，要求保护的实施方案中的任一个可以任何组合使用。

本文中所引用的所有出版物、公布的专利文件和专利申请在此以引用的方式并入，其程度如同每个单独出版物、公布的专利文件或专利申请被具体地和单独地指出是以引用的方式并入那样。

综述

本公开提供了用于将多核苷酸插入靶核酸中的所需位置的工程化系统和方法。一般来讲，所述系统包含一种或多种转座酶或其功能片段，以及序列特异性核苷酸结合系统的一种或多种组分，例如Cas蛋白和指导分子。

在一些实施方案中，本公开提供了工程化系统，其包含一种或多种CRISPR相关Tn7转座酶(例如，TnsA、TnsB、TnsC和/或TniQ；或TnsA、TnsB、TnsC和/或TnsD)和一种或多种I-B型Cas蛋白。所述系统还可包含能够与Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合的指导分子。本公开还包括编码核酸靶向系统的组分的多核苷酸，以及包括包含所述多核苷酸的一种或多种载体的载体系统。本文进一步提供的还包括构成所述系统的或使用所述系统产生的细胞、组织、器官和生物体。

系统和组合物

在一个方面，本公开包括包含一种或多种转座酶和核苷酸结合分子(例如，核苷酸结合蛋白)的系统。核苷酸结合蛋白可以是序列特异性的。所述系统还可包含一种或多种转座子组分。在一些实施方案中，本文所述的系统可包含与序列特异性核苷酸结合系统相关联、连接、结合或能够以其他方式形成复合物的转座酶。在某些示例性实施方案中，一种或多种转座酶和序列特异性核苷酸结合系统通过共调控或表达相关联。在其他示例性实施方案中，转座酶和序列特异性核苷酸结合系统通过序列特异性核苷酸结合结构域将转座酶引导或募集至插入位点的能力相关联，在所述插入位点处，转座酶将供体多核苷酸直接插入靶多核苷酸序列中。序列特异性核苷酸结合系统可以是序列特异性DNA结合蛋白或其功能片段，和/或序列特异性RNA结合蛋白或其功能片段。在一些实施方案中，序列特异性核苷酸结合组分可以是CRISPR-Cas系统、转录激活子样效应物核酸酶、锌指核酸酶、大范围核酸酶、功能片段、其变体、或它们的任何组合。因此，所述系统也可被认为包含核苷酸结合组分和转座酶。为了便于参考，将在示例性Cas相关转座酶系统的上下文中讨论其他示例性实施方案。

在一些实例中，所述系统可以是工程化系统，所述系统包含一种或多种CRISPR相关Tn7转座酶或其功能片段；一种或多种I-B型Cas蛋白；和指导分子，所述指导分子能够与Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

在某些实例中，所述系统可包含具有编码一种或多种转座酶、Cas蛋白和指导序列的序列的多核苷酸。

所述系统可用于靶向各种类型的靶多核苷酸。在一些实例中，靶多核苷酸可以是线性DNA。在一些实例中，靶多核苷酸可以是环状(例如，超螺旋)DNA，诸如质粒。在一些实例中，靶多核苷酸可以是基因组DNA。靶多核苷酸可以是真核细胞中的多核苷酸。例如，靶多核苷酸可以是真核细胞基因组中的多核苷酸。基因组可以是核基因组、线粒体基因组或叶绿体基因组。

当术语是指蛋白质，例如Cas蛋白、转座酶等时，所述术语涵盖蛋白质的全长以及蛋白质的功能片段。术语“功能片段”意指多肽的序列可包括比原始序列更少的氨基酸，但仍有足够的氨基酸赋予原始参考序列的酶活性。本领域众所周知的是可通过取代、插入、缺失和/或添加一个或多个氨基酸来修饰多肽，同时保留其酶活性。例如，给定位置处的一个氨基酸被不影响蛋白质功能特性的化学等效氨基酸取代是常见的。

转座子和转座酶

本文的系统可包含转座子的一种或多种组分和/或一种或多种转座酶。本文的系统中的转座酶可以是CRISPR相关转座酶(在本文中也可与Cas相关转座酶、CRISPR相关转座酶蛋白互换使用)或其功能片段。CRISPR相关转座酶可包括任何转座酶，其可通过CRISPR-Cas复合物的序列特异性结合而被引导或募集至靶多核苷酸的区域。CRISPR相关转座酶可包括与CRISPR-Cas系统中的一种或多种组分(例如，Cas蛋白、指导分子等)缔合(例如形成复合物)的任何转座酶。在某些示例性实施方案中，CRISPR相关转座酶可与CRISPR-Cas系统中的一种或多种组分(例如，Cas蛋白、指导分子等)融合或拴系(例如通过接头)。

如本文所用，术语“转座子”是指可被转座酶或整合酶识别并且是能够转座的功能性核酸-蛋白质复合物(例如，转座体(transpososome)或转座子复合物)的组分的多核苷酸(或核酸区段)。转座子采用多种调控机制来维持低频率的转座，并且有时协调转座与各种细胞过程。一些原核转座子还可调动有益于宿主或以其他方式帮助维持元件的功能。

如本文所用，术语“转座酶”是指一种酶，其是能够转座的功能性核酸-蛋白质复合物的组分并介导转座。转座酶可包含单一蛋白质或包含多个蛋白质亚单位。转座酶可以是能够与转座子端或转座子端序列形成功能性复合物的酶。在某些实施方案中，术语“转座酶”还可以指整合酶。本文所使用的表述“转座反应”是指其中转座酶将供体多核苷酸序列插入靶多核苷酸上的插入位点中或插入位点的相邻处的反应。插入位点可含有由转座酶识别的序列或二级结构和/或插入基序序列，其中转座酶在供体多核苷酸序列可插入的靶多核苷酸中切割或产生交错断裂。转座反应中的示例性组分包括包含待插入的供体多核苷酸序列的转座子以及转座酶或整合酶。如本文所用，术语“转座子端序列”是指转座子远端的核苷酸序列。转座子端序列可负责鉴定用于转座的供体多核苷酸。转座子端序列可以是转座酶，其用来形成转座体复合物并进行转座反应的DNA序列。

在一些实施方案中，所述系统包含一种或多种Tn7转座酶。在一些实施方案中，三种转座子编码的蛋白质形成Tn7的核心转座机制：异聚转座酶(TnsA和TnsB)和调控蛋白(TnsC)。除了核心TnsABC转座蛋白外，Tn7元件还编码专用的靶位点选择蛋白TnsD和TnsE。与TnsABC结合，序列特异性DNA结合蛋白TnsD将转座引导至称为“Tn7附接位点”attTn7的保守位点中。TnsD是蛋白质大家族的成员，所述家族还包括在其他类型的细菌转座子中发现的蛋白质TniQ。已证明TniQ靶向到质粒的解析位点中的转座。如本文所用，TniQ转座酶可以是TnsD转座酶。在一些实例中，Tn7包含具有典型TnsA和TnsB活性的转座酶。在一些实例中，转座酶不是典型TnsA和TnsB的融合蛋白。转座酶的实例是IB20中的TnsA。

Tn7转座酶的实例包括TnsA、TnsB、TnsC、TniQ、TnsD和TnsE。在一些实施方案中，所述系统包含TnsA、TnsB、TnsC和/或TniQ。在一些实施方案中，所述系统包含TnsA、TnsB、TnsC和/或TnsD(例如TnsD2)。在一些实例中，所述系统包含TnsA、TnsB、TnsC和TniQ(例如TniQ2)。在一些实例中，所述系统包含TnsA、TnsB、TnsC和TnsD(例如TnsD2)。在一些实例中，所述系统包含两个或更多个TnsA。在一些实例中，所述系统包含两个或更多个TnsA(例如2个TnsA)。在一些实例中，所述系统包含两个或更多个TnsB(例如2个TnsB)。在一些实例中，所述系统包含两个或更多个TnsC(例如2个TnsC)。在一些实例中，所述系统包含两个或更多个TnsD(例如2个TnsD)。在一些实例中，所述系统包含两个或更多个TniQ(例如2个TniQ)。TniQ或TnsD可包含DNA结合结构域。DNA结合结构域可位于TniQ或TnsD的C末端。在一些情况下，DNA结合结构域可位于TniQ或TnsD的N末端或N末端与C末端之间。在一些情况下，所述系统包含TnsA、TnsB、TnsC和仅一种TniQ或TnsD，例如，此类TniQ或TnsD可包含DNA结合结构域。在特定实例中，所述系统包含TnsA、TnsB、TnsC和TnsD1。在另一个实例中，所述系统包含TnsA、TnsB、TnsC和TnsD2。在另一个实例中，所述系统包含TnsA、TnsB、TnsC、TnsD1和TnsD2。所述系统中的两种或更多种组分可包含在单一蛋白质(例如，融合蛋白)中。例如，TnsA和TnsB可包含在单一蛋白质中。

在一些实施方案中，所述系统包含一种或多种编码Tn7转座酶中的一种或多种的多核苷酸。在一些实例中，所述系统包含一种或多种编码TnsA的多核苷酸。在一些实例中，所述系统包含一种或多种编码TnsB的多核苷酸。在一些实例中，所述系统包含一种或多种编码TnsC的多核苷酸。在一些实例中，所述系统包含一种或多种编码TnsD的多核苷酸。在一些实例中，所述系统包含一种或多种编码TnsE的多核苷酸。在一些实例中，所述系统包含一种或多种编码TniQ的多核苷酸。所述系统可包含两种或更多种编码相同类型的转座酶的多核苷酸。在一个实例中，所述系统可包含两种或更多种编码TnsA(相同或不同TnsA)的多核苷酸。在一个实例中，所述系统可包含两种或更多种编码TnsB(相同或不同TnsB)的多核苷酸。在一个实例中，所述系统可包含两种或更多种编码TnsC(相同或不同TnsC)的多核苷酸。在一个实例中，所述系统可包含两种或更多种编码TnsD(相同或不同TnsD)的多核苷酸。在一个实例中，所述系统可包含两种或更多种编码TnsE(相同或不同TnsE)的多核苷酸。在一个实例中，所述系统可包含两种或更多种编码TniQ(相同或不同TniQ)的多核苷酸。

如本文所用，右端序列元件或左端序列元件参考示例性Tn7转座子制成。建立了规范Tn7的左端(LE)和右端(RE)序列元件的一般结构。Tn7端包含一系列22-bp TnsB结合位点。最远端TnsB结合位点的侧翼是以5′-TGT-3′/3′-ACA-5′结束的8-bp末端序列。Tn7的右端在约90-bp右端元件中含有四个重叠的TnsB结合位点。左端含有分散在元件的约150-bp左端的三个TnsB结合位点。TnsB结合位点的数量和分布在Tn7样元件之间可能有所不同。可通过鉴定正向重复的5-bp靶位点重复、末端8-bp序列和22-bp TnsB结合位点来确定Tn7相关元件的端序列(Peters JE等人,2017)。示例性Tn7元件(包括右端序列元件和左端序列元件)包括描述于Parks AR,Plasmid,2009年1月；61(1):1-14中的那些。

如本文所用，Tn7转座子和转座酶包括Tn7样转座子和转座酶。

供体多核苷酸

系统可包含一种或多种供体多核苷酸(例如，用于插入靶多核苷酸中)。供体多核苷酸可以是可插入或整合至靶位点的转座元件的等效物。例如，供体多核苷酸可包含待插入的多核苷酸、左侧元件序列和右侧元件序列。供体多核苷酸可以是或包含转座子的一种或多种组分。供体多核苷酸可以是任何类型的多核苷酸，包括但不限于基因、基因片段、非编码多核苷酸、调控多核苷酸、合成多核苷酸等。

在一些实施方案中，供体多核苷酸是线性的。在一些实施方案中，供体多核苷酸是环状的。在一些实例中，供体多核苷酸具有单链断裂(切口)。在一些情况下，单链断裂位于或接近供体多核苷酸的3’端。在一些情况下，单链断裂位于或接近供体多核苷酸的5’端。

在一些实施方案中，将供体多核苷酸插入到PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。在一些实例中，将供体多核苷酸插入到PAM的3’的70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299或300bp的位点。

在一些实施方案中，将供体多核苷酸插入到PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。在一些实例中，将供体多核苷酸插入到PAM的5’的70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299或300bp的位点。

靶多核苷酸可包含原间隔子相邻基序(PAM)序列。PAM序列的实例是AT。

供体多核苷酸可插入到靶多核苷酸的PAM序列的上游或下游。对于CRISPR相关转座酶，供体多核苷酸可插入在靶多核苷酸上距PAM序列10个碱基与200个碱基之间，例如20个碱基与150个碱基之间、30个碱基与100个碱基之间、45个碱基与70个碱基之间、45个碱基与60个碱基之间、55个碱基与70个碱基之间、49个碱基与56个碱基之间或60个碱基与66个碱基之间的位置处。在一些情况下，插入位于PAM序列上游的位置处。在一些情况下，插入位于PAM序列下游的位置处。在一些情况下，插入位于PAM序列下游49至56个碱基或碱基对的位置处。在一些情况下，插入位于PAM序列下游60至66个碱基或碱基对的位置处。

供体多核苷酸可用于编辑靶多核苷酸。在一些情况下，供体多核苷酸包含一个或多个要引入到靶多核苷酸中的突变。此类突变的实例包括取代、缺失、插入或其组合。突变可能导致靶多核苷酸上的开放阅读框的移位。在一些情况下，供体多核苷酸改变靶多核苷酸中的终止密码子。例如，供体多核苷酸可以校正提前终止密码子。校正可通过缺失终止密码子或向终止密码子引入一个或多个突变来实现。在其他示例性实施方案中，供体多核苷酸通过插入或恢复基因的功能拷贝或其功能片段、或功能调控序列或调控序列的功能片段来解决例如在某些疾病背景下可能发生的功能丧失性突变、缺失或易位。功能片段是指通过提供足够的核苷酸序列来恢复野生型基因或非编码调控序列(例如，编码长非编码RNA的序列)的功能的基因的不完整拷贝。在某些示例性实施方案中，本文公开的系统可用于替换缺陷基因或其缺陷片段的单个等位基因。在另一个示例性实施方案中，本文公开的系统可用于替换缺陷基因或缺陷基因片段的两个等位基因。“缺陷基因”或“缺陷基因片段”是在表达时不能产生具有对应野生型基因的功能的功能性蛋白质或非编码RNA的基因或基因部分。在某些示例性实施方案中，这些缺陷基因可能与一种或多种疾病表型相关联。在某些示例性实施方案中，缺陷基因或基因片段未被替换，但本文所述的系统用于插入编码补偿或覆盖缺陷基因表达的基因或基因片段的供体多核苷酸，使得消除与缺陷基因表达相关联的细胞表型或将其改变为不同的或所需的细胞表型。

在本发明的某些实施方案中，供体可包括但不限于基因或基因片段、编码蛋白或待表达的RNA转录物、调控元件、修复模板等。根据本发明，供体多核苷酸可包含与介导插入的转座组分一起发挥作用的左端和右端序列元件。

在某些情况下，供体多核苷酸操纵靶多核苷酸上的剪接位点。在一些实例中，供体多核苷酸破坏剪接位点。破坏可通过将多核苷酸插入剪接位点和/或将一个或多个突变引入剪接位点来实现。在某些实例中，供体多核苷酸可恢复剪接位点。例如，多核苷酸可包含剪接位点序列。

待插入的供体多核苷酸可具有长度为10个碱基至50kb的大小，例如长度为50至40kb、100至30kb、100个碱基至300个碱基、约200个碱基至400个碱基、约300个碱基至500个碱基、约400个碱基至600个碱基、约500个碱基至700个碱基、约600个碱基至800个碱基、约700个碱基至900个碱基、约800个碱基至1000个碱基、约900个碱基至1100个碱基、约1000个碱基至1200个碱基、约1100个碱基至1300个碱基、约1200个碱基至1400个碱基、约1300个碱基至1500个碱基、约1400个碱基至1600个碱基、约1500个碱基至1700个碱基、约600个碱基至1800个碱基、约1700个碱基至1900个碱基、约1800个碱基至2000个碱基、约1900个碱基至2100个碱基、约2000个碱基至2200个碱基、约2100个碱基至2300个碱基、约2200个碱基至2400个碱基、约2300个碱基至2500个碱基、约2400个碱基至2600个碱基、约2500个碱基至2700个碱基、约2600个碱基至2800个碱基、约2700个碱基至2900个碱基或约2800个碱基至3000个碱基。

CRISPR-Cas系统

本文的系统可包含CRISPR-Cas系统的一种或多种组分。CRISPR-Cas系统的一种或多种组分可用作系统中的核苷酸结合组分。核苷酸结合分子可以是Cas蛋白(可与CRISPR蛋白、CRISPR酶、Cas效应物、CRISPR-Cas蛋白、CRISPR-Cas酶互换使用)、其片段或其突变形式。Cas蛋白可能具有降低的核酸酶活性或不具有核酸酶活性。例如，Cas蛋白可以是无活性或死亡的Cas蛋白(dCas)。死亡的Cas蛋白可包含一个或多个突变或截短物。在一些实例中，DNA结合结构域包含一种或多种I类(例如，I型、III型、VI型)或2类(例如，II型、V型或VI型)CRISPR-Cas蛋白。在某些实施方案中，序列特异性核苷酸结合结构域将转座子引导至包含靶序列的靶位点，并且转座酶引导供体多核苷酸序列在靶位点处的插入。在某些示例性实施方案中，转座子组分包括CRISPR-Cas复合物、与所述复合物缔合或形成所述复合物。在一个示例性实施方案中，CRISPR-Cas组分将转座子组分和/或转座酶引导至靶插入位点，其中转座子组分引导供体多核苷酸插入靶核酸序列中。

一般来讲，如本文和在诸如国际专利公布号WO 2014/093622(PCT/US2013/074667)的文件中使用的CRISPR-Cas或CRISPR系统统指转录物和涉及CRISPR相关(“Cas”)基因的表达或引导所述基因的活性的其他元件，包括编码Cas基因的序列、tracr(反式激活CRISPR)序列(例如tracrRNA或活性部分tracrRNA)、tracr配对序列(涵盖“正向重复序列”和在内源性CRISPR系统的上下文中tracrRNA加工的部分正向重复序列)、指导序列(在内源性CRISPR系统的上下文中也称为“间隔子”)或如本文所用术语“RNA”(例如，指导Cas诸如Cas9的RNA，例如CRISPR RNA和反式激活(tracr)RNA或单指导RNA(sgRNA)(嵌合RNA))或来自CRISPR基因座的其他序列和转录物。一般来讲，CRISPR系统的特征在于促进在靶序列位点处形成CRISPR复合物的元件(在内源性CRISPR系统的上下文中也称为原间隔子)。参见例如，Shmakov等人(2015)“Discovery and Functional Characterization of DiverseClass 2 CRISPR-Cas Systems”,Molecular Cell,DOI:dx.doi.org/10.1016/j.molcel.2015.10.008。

在某些实施方案中，原间隔子相邻基序(PAM)或PAM样基序引导如本文公开的效应蛋白复合物与目标靶基因座的结合。在一些实施方案中，PAM可以是5’PAM(即，位于原间隔子5’端的上游)。在其他实施方案中，PAM可以是3’PAM(即，位于原间隔子5’端的下游)。术语“PAM”可与术语“PFS”或“原间隔子侧翼位点”或“原间隔子侧翼序列”互换使用。

在一个优选的实施方案中，CRISPR效应蛋白可识别3’PAM。在某些实施方案中，CRISPR效应蛋白可识别作为5’H的3’PAM，其中H是A、C或U。

在CRISPR复合物形成的上下文中，“靶序列”是指指导序列被设计成与其具有互补性的序列，其中靶序列与指导序列之间的杂交促进了CRISPR复合物的形成。靶序列可包含RNA多核苷酸。术语“靶RNA”是指作为或包含靶序列的RNA多核苷酸。换句话讲，靶RNA可以是RNA多核苷酸或RNA多核苷酸的一部分，gRNA的一部分(即指导序列)被设计成与所述靶RNA具有互补性，并且由包含CRISPR效应蛋白和gRNA的复合物介导的效应子功能将被引导至所述靶RNA。在一些实施方案中，靶序列位于细胞的核或细胞质中。

本文的CRISPR-Cas系统可包含Cas蛋白和指导分子。在一些实施方案中，所述系统包含一种或多种Cas蛋白。Cas蛋白可以是1型Cas蛋白，例如I型CRISPR-Cas系统的Cas蛋白。

在某些示例性实施方案中，CRISPR-Cas系统是1类CRISPR-Cas系统，例如，1类I型CRISPR-Cas系统。在一些情况下，I类CRISPR-Cas系统包含Cascade(包含三种、四种或五种蛋白质的多聚体复合物，其对crRNA阵列进行加工)、Cas3(具有核酸酶、解旋酶和核酸外切酶活性的蛋白质，其负责靶DNA的降解)和crRNA(稳定Cascade复合物并将Cascade和Cas3引导至DNA靶标)。1类CRISPR-Cas系统可以属于以下亚型，例如I-A型、I-B型、I-C型、I-D型、I-E型、I-F型、I-U型、III-A型、III-B型、III-C型、III-D型或IV型CRISPR-Cas系统。

1类I型CRISPR Cas系统可用于催化将RNA指导的移动遗传元件整合到靶核酸(例如，基因组DNA)中。例如，本文的系统可包含Cascade与转座子蛋白之间的复合物。在靶核酸下游的给定距离处，可插入供体核酸(例如，DNA)。插入可以是两个可能的方向之一。所述系统可用于整合所需长度的核酸序列。在一些实例中，I型CRISPR-Cas系统是核酸酶缺陷型的。在一些实例中，I型CRISPR-Cas系统是I-B型CRISPR-Cas系统。

1类I-A型CRISPR-Cas系统可包含Cas7(Csa2)、Cas8a1(Csx13)、Cas8a2(Csx9)、Cas5、Csa5、Cas6a、Cas3′和/或Cas3。I-B型CRISPR-Cas系统可包含Cas6b、Cas8b(Csh1)、Cas7(Csh2)和/或Cas5。I-C型CRISPR-Cas系统可包含Cas5d、Cas8c(Csd1)和/或Cas7(Csd2)。I-D型CRISPR-Cas系统可包含Cas10d(Csc3)、Csc2、Csc1和/或Cas6d。I-E型CRISPR-Cas系统可包含Cse1(CasA)、Cse2(CasB)、Cas7(CasC)、Cas5(CasD)和/或Cas6e(CasE)。I-F型CRISPR-Cas系统可包含Cys1、Cys2、Cas7(Cys3)和/或Cas6f(Csy4)。示例性I-F型CRISPR-Cas系统可包含由以下三个基因编码的DNA靶向复合物Cascade(也称为Csy复合物)：cas6、cas7和天然cas8-cas5融合物(下文简称为cas8)。I-F型CRISPR-Cas系统还可包含天然CRISPR阵列，其包含四个重复序列和三个间隔子序列，编码不同的成熟CRISPRRNA(crRNA)，我们也将其称为指导RNA。

在一些实例中，I型CRISPR-Cas系统可包含一个或多个：(a)编码Cas7(Csa2)多肽的核苷酸序列、编码Cas8a1(Csx13)多肽或Cas8a2(Csx9)多肽的核苷酸序列、编码Cas5多肽的核苷酸序列、编码Csa5多肽的核苷酸序列、编码Cas6a多肽的核苷酸序列、编码Cas3’多肽的核苷酸序列和编码Cas3”多肽的核苷酸序列(I-A型)；(b)编码Cas6b多肽的核苷酸序列、编码Cas8b(Csh1)多肽的核苷酸序列、编码Cas7(Csh2)多肽的核苷酸序列、编码Cas5多肽的核苷酸序列、编码Cas3’多肽的核苷酸序列和编码Cas3”多肽的核苷酸序列(I-B型)；(c)编码Cas5d多肽的核苷酸序列、编码Cas8c(Csd1)多肽的核苷酸序列、编码Cas7(Csd2)多肽的核苷酸序列和编码Cas3多肽的核苷酸序列(I-C型)；(d)编码Cas10d(Csc3)多肽的核苷酸序列、编码Csc2多肽的核苷酸序列、编码Csc1多肽的核苷酸序列、编码Cas6d多肽的核苷酸序列和编码Cas3多肽的核苷酸序列(I-D型)；(e)编码Cse1(CasA)多肽的核苷酸序列、编码Cse2(CasB)多肽的核苷酸序列、编码Cas7(CasC)多肽的核苷酸序列、编码Cas5(CasD)多肽的核苷酸序列、编码Cas6e(CasE)多肽的核苷酸序列和编码Cas3多肽的核苷酸序列(I-E型)；和/或(f)编码Cys1多肽的核苷酸序列、编码Cys2多肽的核苷酸序列、编码Cas7(Cys3)多肽的核苷酸序列和编码Cas6f多肽的核苷酸序列和编码Cas3多肽的核苷酸序列(I-F型)。因此，I型Cas蛋白可以是本文所述的Cas蛋白中的一种或多种。

在一些实施方案中，所述系统包含一种或多种I-B型Cas蛋白。I所述一种或多种I-B型Cas蛋白可包括Cas6b。所述一种或多种I-B型Cas蛋白可包括Cas8b，例如Cas8b1、Cas8b2和Cas8b3。在一些实例中，所述一种或多种I-B型Cas蛋白包括Cas8b3。在一些实例中，1-B型Cas蛋白可以是Cas5、Cas6、Cas7和Cas8中的一种或多种。在一些实例中，所述系统包含Cas5。在一些实例中，所述系统包含Cas 6。在一些实例中，所述系统包含Cas 7。在一些实例中，所述系统包含Cas 5和Cas 6。在一些实例中，所述系统包含Cas 5和Cas7。在一些实例中，所述系统包含Cas 5和Cas 8。在一些实例中，所述系统包含Cas 6和Cas 7。在一些实例中，所述系统包含Cas 6和Cas 8。在一些实例中，所述系统包含Cas 7和Cas 8。在一些实例中，所述系统包含Cas 5、Cas6和Cas7。在一些实例中，所述系统包含Cas 5、Cas6和Cas8。在一些实例中，所述系统包含Cas 5、Cas7和Cas8。在一些实例中，所述系统包含Cas 6、Cas7和Cas8。在一些实例中，所述系统包含Cas 5、Cas6、Cas7和Cas8。

在一些实例中，所述系统包含编码Cas5的多核苷酸。在一些实例中，所述系统包含编码Cas6的多核苷酸。在一些实例中，所述系统包含编码Cas7的多核苷酸。在一些实例中，所述系统包含编码Cas 5的多核苷酸和编码Cas6的多核苷酸。在一些实例中，所述系统包含编码Cas5的多核苷酸和编码Cas7的多核苷酸。在一些实例中，所述系统包含编码Cas 5的多核苷酸和编码Cas8的多核苷酸。在一些实例中，所述系统包含编码Cas6的多核苷酸和编码Cas7的多核苷酸。在一些实例中，所述系统包含编码Cas6的多核苷酸和编码Cas8的多核苷酸。在一些实例中，所述系统包含编码Cas7的多核苷酸和编码Cas 8的多核苷酸。在一些实例中，所述系统包含编码Cas 5的多核苷酸、编码Cas6的多核苷酸和编码Cas7的多核苷酸。在一些实例中，所述系统包含编码Cas 5的多核苷酸、编码Cas6的多核苷酸和编码Cas8的多核苷酸。在一些实例中，所述系统包含编码Cas 5的多核苷酸、编码Cas7的多核苷酸和编码Cas8的多核苷酸。在一些实例中，所述系统包含编码Cas 6的多核苷酸、编码Cas7的多核苷酸和编码Cas8的多核苷酸。在一些实例中，所述系统包含编码Cas 5的多核苷酸、编码Cas6的多核苷酸、编码Cas7的多核苷酸和编码Cas8的多核苷酸。本文中的Cas蛋白(例如，Cas5、Cas6、Cas7、Cas 8)包括野生型转座酶、其变体及其功能片段。在一些实例中，所述系统包含编码第一Cas6的第一多核苷酸和编码第二Cas6的第二多核苷酸。

I型CRISPR组分的实例包括描述于Makarova等人,Annotation andClassification of CRISPR-Cas Systems,Methods Mol Biol.2015；1311:47–75中的那些。

在一些实例中，Cas蛋白可能是核酸酶缺陷型的。核酸酶缺陷型核酸酶可能不具有核酸酶活性。核酸酶缺陷型核酸酶可能具有切口酶活性。

在一些情况下，Cas蛋白可以是上述Cas蛋白的直系同源物或同系物。术语“直系同源物”和“同源物”在本领域中是众所周知的。通过进一步的指导，如本文所用的蛋白质的“同源物”是与作为其同源物的蛋白质执行相同或相似功能的相同物种的蛋白质。同源蛋白质可以但不必在结构上相关，或仅在结构上部分相关。如本文所用，蛋白质的“直系同源物”是与作为其直系同源物的蛋白质执行相同或相似的功能的不同物种的蛋白质。直系同源蛋白质可以但不必在结构上相关，或仅在结构上部分相关。

在一些实例中，一种或多种CRISPR相关Tn7转座酶和/或一种或多种I-B型Cas蛋白来自或源自多变鱼腥藻。

在一些情况下，Cas蛋白缺乏核酸酶活性。此种Cas蛋白可以是不具有核酸酶活性的天然存在的Cas蛋白，或者Cas蛋白可以是具有降低或消除核酸酶活性的突变或截短的工程化Cas蛋白。

在某些实施方案中，本公开包括转基因细胞，向所述转基因细胞中提供或引入一种或多种编码一种或多种指导RNA的核酸，其在细胞中与包括一种或多种目标基因的启动子在内的调控元件可操作地连接。如本文所用，术语“Cas转基因细胞”是指Cas基因已基因组整合到其中的细胞，诸如真核细胞。根据本发明，细胞的性质、类型或来源没有特别限制。Cas转基因被引入细胞中的方式也可以变化并且可以是本领域已知的任何方法。在某些实施方案中，Cas转基因细胞是通过在分离的细胞中引入Cas转基因而获得的。在某些其他实施方案中，Cas转基因细胞是通过从Cas转基因生物体分离细胞而获得的。例如但不限于，如本文所提及的Cas转基因细胞可源自Cas转基因真核生物，诸如Cas敲入真核生物。参考国际专利公布号WO 2014/093622(PCT/US13/74667)，其以引用的方式并入本文。转让给SangamoBioSciences,Inc.的美国专利公布号20120017290和20110265198的涉及靶向Rosa基因座的方法可被修改以利用本发明的CRISPR Cas系统。转让给Cellectis的美国专利公布号20130236946的涉及靶向Rosa基因座的方法也可被修改以利用本发明的CRISPRCas系统。还例如，参考Platt等人(Cell；159(2):440-455(2014))，其描述了Cas9敲入小鼠，所述文献以引用的方式并入本文。Cas转基因还可包含Lox-Stop-polyA-Lox(LSL)盒，从而使Cas表达可被Cre重组酶诱导。可替代地，Cas转基因细胞可通过在分离的细胞中引入Cas转基因来获得。用于转基因的递送系统在本领域中是众所周知的。例如，Cas转基因可通过载体(例如，AAV、腺病毒、慢病毒)和/或粒子和/或纳米粒子递送在例如真核细胞中递送，如本文别处也描述的。

本领域技术人员将理解，如本文所提及的细胞，诸如Cas转基因细胞，除了具有整合的Cas基因或当与能够将Cas指导到靶基因座的RNA复合时由Cas的序列特异性作用产生的突变之外，还可包含其他基因组改变。

指导RNA编码序列和/或Cas编码序列可以与调控元件功能性地或可操作地连接，并且因此调控元件驱动表达。启动子可以是组成型启动子和/或条件启动子和/或诱导型启动子和/或组织特异性启动子。启动子可选自由以下组成的组：RNA聚合酶、pol I、pol II、pol III、T7、U6、H1、逆转录病毒劳斯肉瘤病毒(RSV)LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EF1α启动子。有利的启动子是U6。

指导分子

本文的系统可包含一种或多种指导分子。在一些情况下，所述系统包含一种指导分子。在某些情况下，所述系统包含多种指导分子。指导分子可以引导或可能能够引导指导物-Cas蛋白复合物与一种或多种靶多核苷酸的结合。例如，本文的系统可用于在指导分子的引导下将供体多核苷酸插入一个或多个所需靶位点。

指导分子可以是本文的CRISPR-Cas系统的组分。如本文所用，在CRISPR-Cas系统的上下文中，术语“指导序列”和“指导分子”包括与靶核酸序列具有足够互补性以与靶核酸序列杂交并引导核酸靶向复合物与靶核酸序列的序列特异性结合的任何多核苷酸序列。使用本文公开的方法制备的指导序列可以是全长指导序列、截短的指导序列、全长sgRNA序列、截短的sgRNA序列或E+F sgRNA序列。在一些实施方案中，当使用合适的比对算法进行最佳比对时，指导序列与给定靶序列的互补性程度为约或大于约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或更多。在某些示例性实施方案中，指导分子包含可被设计成与靶序列具有至少一个错配从而在指导序列与靶序列之间形成RNA双链体的指导序列。因此，互补性程度优选小于99％。例如，在指导序列由24个核苷酸组成的情况下，互补性程度更特别地为约96％或更少。在特定的实施方案中，指导序列被设计成具有两个或更多个相邻错配核苷酸段，从而进一步降低整个指导序列上的互补性程度。例如，在指导序列由24个核苷酸组成的情况下，互补性程度更特别地为约96％或更少，更特别地为约92％或更少，更特别地为约88％或更少，更特别地为约84％或更少，更特别地为约80％或更少，更特别地为约76％或更少，更特别地为约72％或更少，取决于两个或更多个错配核苷酸段是否涵盖2、3、4、5、6或7个核苷酸等。在一些实施方案中，除了一个或多个错配核苷酸段之外，当使用合适的比对算法进行最佳比对时，互补性程度为约或大于约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或更多。最佳比对可使用用于比对序列的任何合适的算法来确定，其非限制性实例包括Smith-Waterman算法、Needleman-Wunsch算法、基于Burrows-Wheeler变换的算法(例如，Burrows Wheeler Aligner)、Clustal W、Clustal X、BLAT、Novoalign(Novocraft Technologies；可在www.novocraft.com获得)、ELAND(Illumina,San Diego,CA)、SOAP(可在soap.genomics.org.cn获得)和Maq(可在maq.sourceforge.net获得)。指导序列(在核酸靶向指导RNA内)引导核酸靶向复合物与靶核酸序列的序列特异性结合的能力可通过任何合适的测定法来评估。例如，可将足以形成核酸靶向复合物的核酸靶向CRISPR系统的组分(包括待测试的指导序列)提供至具有对应靶核酸序列的宿主细胞，诸如通过用编码核酸靶向复合物的组分的载体转染，之后评估靶核酸序列内的优先靶向(例如，切割)，诸如通过如本文所述的Surveyor测定法。类似地，可通过提供靶核酸序列、核酸靶向复合物的组分(包括待测试的指导序列和与测试指导序列不同的对照指导序列)，并且比较测试指导序列和对照指导序列反应之间在靶序列处或附近的结合或切割率，而在试管中评估靶核酸序列(或其附近的序列)的切割。其他测定法是可能的，并且本领域技术人员会想到。可选择指导序列并因此选择核酸靶向指导RNA以靶向任何靶核酸序列。

在某些实施方案中，指导分子的指导序列或间隔子长度为15至50nt。在某些实施方案中，指导RNA的间隔子长度为至少15个核苷酸。在某些实施方案中，间隔子长度为15至17nt，例如15、16或17nt，17至20nt，例如17、18、19或20nt，20至24nt，例如20、21、22、23或24nt，23至25nt，例如23、24或25nt，24至27nt，例如24、25、26或27nt，27-30nt，例如27、28、29或30nt，30-35nt，例如30、31、32、33、34或35nt，或35nt或更长。在某些示例性实施方案中，指导序列为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100nt。

在一些实施方案中，指导序列是长度在10至50nt之间的RNA序列，但更特别地为约20-30nt，有利地为约20nt、23-25nt或24nt。选择指导序列以确保其与靶序列杂交。这将在下面更详细地描述。选择可涵盖增加功效和特异性的其他步骤。

在一些实施方案中，具有规范长度(例如，约15-30nt)的指导序列用于与靶RNA或DNA杂交。在一些实施方案中，长于规范长度(例如，>30nt)的指导分子用于与靶RNA或DNA杂交，使得指导序列的区域与Cas-指导物靶复合物之外的RNA或DNA链的区域杂交。这在关注另外的修饰(诸如核苷酸的脱氨基作用)的情况下可能是令人感兴趣的。在替代实施方案中，保持规范指导序列长度的限制是令人感兴趣的。

在一些实施方案中，选择指导分子的序列(正向重复序列和/或间隔子)以降低指导分子内二级结构的程度。在一些实施方案中，核酸靶向指导RNA的约或少于约75％、50％、40％、30％、25％、20％、15％、10％、5％、1％或更少的核苷酸在最佳折叠时参与自互补碱基配对。最佳折叠可通过任何合适的多核苷酸折叠算法来确定。一些程序基于计算最小吉布斯自由能。一个此种算法的实例是mFold，如Zuker和Stiegler(Nucleic Acids Res.9(1981),133-148)所述。另一个示例性折叠算法是使用质心结构预测算法在维也纳大学理论化学研究所开发的在线网络服务器RNAfold(参见例如，A.R.Gruber等人,2008,Cell 106(1):23-24；以及PA Carr和GM Church,2009,Nature Biotechnology 27(12):1151-62)。

在一些实施方案中，设计或选择指导分子以调节指导分子之间的分子间相互作用，诸如不同指导分子的茎环区之间的相互作用。应当理解，碱基配对以形成茎环的指导物内的核苷酸也能够与第二指导物碱基配对以形成分子间双链体，并且此种分子间双链体不具有与CRISPR复合物形成相容的二级结构。因此，选择或设计DR序列以调节茎环形成和CRISPR复合物形成是有用的。在一些实施方案中，约或少于约75％、50％、40％、30％、25％、20％、15％、10％、5％、1％或更少的核酸靶向指导物在分子间双链体中。应当理解，茎环变异通常会在DR-CRISPR效应物相互作用所施加的限制内。调节茎环形成或改变茎环与分子间双链体之间平衡的一种方法是改变DR的茎环的茎中的核苷酸对。例如，在一个实施方案中，G-C对被A-U或U-A对替换。在另一个实施方案中，A-U对被G-C或C-G对取代。在另一个实施方案中，天然存在的核苷酸被核苷酸类似物替换。调节茎环形成或改变茎环与分子间双链体之间平衡的另一种方法是修饰DR的茎环的环。不受理论的束缚，环可被视为间插序列，其侧翼是彼此互补的两个序列。当所述间插序列不是自互补的时，其作用将是使分子间双链体的形成失稳。同样的原则适用于当指导物多重化时：虽然靶向序列可能不同，但修饰不同指导物的DR中的茎环区可能是有利的。此外，当指导物多重化时，可通过平衡每个个别指导物的活性来调节不同指导物的相对活性。在某些实施方案中，确定分子间茎环与分子间双链体之间的平衡。所述确定可通过物理或生物化学方式进行，并且可在存在或不存在CRISPR效应物的情况下进行。

在一些实施方案中，降低指导分子对RNA切割(诸如通过切割RNA的CRISPR系统的切割)的敏感性是令人感兴趣的。因此，在特定的实施方案中，调整指导分子以避免被CRISPR系统或其他RNA切割酶切割。

在某些实施方案中，指导分子包含非天然存在的核酸和/或非天然存在的核苷酸和/或核苷酸类似物，和/或化学修饰。优选地，这些非天然存在的核酸和非天然存在的核苷酸位于指导序列之外。非天然存在的核酸可包括例如天然和非天然存在的核苷酸的混合物。非天然存在的核苷酸和/或核苷酸类似物可在核糖、磷酸酯和/或碱基部分进行修饰。在本发明的一个实施方案中，指导核酸包含核糖核苷酸和非核糖核苷酸。在一个此种实施方案中，指导物包含一个或多个核糖核苷酸和一个或多个脱氧核糖核苷酸。在本发明的一个实施方案中，指导物包含一个或多个非天然存在的核苷酸或核苷酸类似物，诸如具有硫代磷酸酯键联的核苷酸，包含核糖环的2’与4’碳之间的亚甲基桥的锁核酸(LNA)核苷酸，或桥接的核酸(BNA)。修饰的核苷酸的其他实例包括2’-O-甲基类似物、2’-脱氧类似物或2’-氟类似物。修饰的碱基的其他实例包括但不限于2-氨基嘌呤、5-溴-尿苷、假尿苷、肌苷、7-甲基鸟苷。指导RNA化学修饰的实例包括但不限于在一个或多个末端核苷酸处并入2’-O-甲基(M)、2’-O-甲基3’硫代磷酸酯(MS)、S-约束的乙基(cEt)或2’-O-甲基3’硫代PACE(MSP)。与未修饰的指导物相比，此类化学修饰的指导物可包括增加的稳定性和增加的活性，但在靶与脱靶特异性是不可预测的。(参见，Hendel,2015,Nat Biotechnol.33(9):985-9,doi:10.1038/nbt.3290,在线出版于2015年6月29日Ragdarm等人,0215,PNAS,E7110-E7111；Allerson等人,J.Med.Chem.2005,48:901-904；Bramsen等人,Front.Genet.,2012,3:154；Deng等人,PNAS,2015,112:11870-11875；Sharma等人,MedChemComm.,2014,5:1454-1471；Hendel等人,Nat.Biotechnol.(2015)33(9):985-989；Li等人,Nature BiomedicalEngineering,2017,1,0066DOI:10.1038/s41551-017-0066)。在一些实施方案中，指导RNA的5’和/或3’端被包括荧光染料、聚乙二醇、胆固醇、蛋白质或检测标签的多种功能性部分修饰。(参见Kelly等人,2016,J.Biotech.233:74-83)。在某些实施方案中，指导物在与靶RNA结合的区域中包含核糖核苷酸，并且在与Cas效应物结合的区域中包含一个或多个脱氧核糖核苷酸和/或核苷酸类似物。在本发明的一个实施方案中，将脱氧核糖核苷酸和/或核苷酸类似物并入工程化指导物结构中，诸如但不限于茎环区和种子区。在某些实施方案中，指导物的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸被化学修饰。在一些实施方案中，指导物的3’或5’端的3-5个核苷酸被化学修饰。在一些实施方案中，种子区中仅引入较小的修饰，诸如2’-F修饰。在一些实施方案中，在指导物的3’端引入2’-F修饰。在某些实施方案中，指导物的5’和/或3’端的三至五个核苷酸用2’-O-甲基(M)、2’-O-甲基3’硫代磷酸酯(MS)、S-约束的乙基(cEt)或2’-O-甲基3’硫代PACE(MSP)进行化学修饰。此种修饰可增强基因组编辑效率(参见Hendel等人,Nat.Biotechnol.(2015)33(9):985-989)。在某些实施方案中，指导物的所有磷酸二酯键被硫代磷酸酯(PS)取代以增强基因破坏的水平。在某些实施方案中，指导物的5’和/或3’端的多于五个核苷酸用2’-O-Me、2’-F或S-约束的乙基(cEt)进行化学修饰。此种化学修饰的指导物可介导增强水平的基因破坏(参见Ragdarm等人,0215,PNAS,E7110-E7111)。在本发明的一个实施方案中，指导物被修饰以在其3’和/或5’端包含化学部分。此类部分包括但不限于胺、叠氮化物、炔烃、硫代基、二苯并环辛炔(DBCO)、或罗丹明、肽、核定位序列(NLS)、肽核酸(PNA)、聚乙二醇(PEG)、三甘醇或四甘醇(TEG)。在某些实施方案中，化学部分通过接头诸如烷基链缀合至指导物。在某些实施方案中，化学部分通过接头诸如烷基链缀合至指导物。在某些实施方案中，修饰的指导物的化学部分可用于将指导物附接至另一个分子，诸如DNA、RNA、蛋白质或纳米粒子。此种化学修饰的指导物可用于鉴定或富集由CRISPR系统一般性编辑的细胞(参见Lee等人,eLife,2017,6:e25312,DOI:10.7554)。

在一些实施方案中，3’端和5’端各自的3个核苷酸被化学修饰。在一个具体的实施方案中，修饰包括2’-O-甲基或硫代磷酸酯类似物。在一个具体的实施方案中，四环中的12个核苷酸和茎环区中的16个核苷酸被2’-O-甲基类似物替换。此类化学修饰改善了体内编辑和稳定性(参见Finn等人,Cell Reports(2018),22:2227-2235)。在一些实施方案中，指导物的多于60或70个核苷酸被化学修饰。在一些实施方案中，这种修饰包括用2’-O-甲基或2’-氟核苷酸类似物替换核苷酸或者磷酸二酯键的硫代磷酸酯(PS)修饰。在一些实施方案中，化学修饰包括当形成CRISPR复合物时延伸至核酸酶蛋白外部的指导核苷酸的2’-O-甲基或2’-氟修饰，或指导物的3’末端的20至30个或更多个核苷酸的PS修饰。在一个特定的实施方案中，化学修饰还包括在指导物的5’端的2’-O-甲基类似物或在种子和尾部区域的2’-氟类似物。此类化学修饰提高了对核酸酶降解的稳定性，并维持或增强了基因组编辑活性或效率，但所有核苷酸的修饰可能消除指导物的功能(参见Yin等人,Nat.Biotech.(2018),35(12):1179-1187)。可通过对CRISPR复合物的结构的了解，包括对有限数量的核酸酶和RNA 2’-OH相互作用的了解，来指导此类化学修饰(参见Yin等人,Nat.Biotech.(2018),35(12):1179-1187)。在一些实施方案中，一个或多个指导RNA核苷酸可被DNA核苷酸替换。在一些实施方案中，5’端尾部/种子指导区的至多2、4、6、8、10或12个RNA核苷酸被DNA核苷酸替换。在某些实施方案中，3’端的大多数指导RNA核苷酸被DNA核苷酸替换。在特定的实施方案中，3’端的16个指导RNA核苷酸被DNA核苷酸替换。在特定的实施方案中，5’端尾部/种子区的8个指导RNA核苷酸和3’端的16个指导RNA核苷酸被DNA核苷酸替换。在特定的实施方案中，当形成CRISPR复合物时，延伸到核酸酶蛋白外部的指导RNA核苷酸被DNA核苷酸替换。与未修饰的指导物相比，此种用DNA核苷酸替换多个RNA核苷酸导致脱靶活性降低，但在靶活性相似；然而，3’端所有RNA核苷酸的替换可能消除指导物的功能(参见Yin等人,Nat.Chem.Biol.(2018)14,311-316)。可通过对CRISPR复合物的结构的了解，包括对有限数量的核酸酶和RNA 2’-OH相互作用的了解，来指导此类修饰(参见Yin等人,Nat.Chem.Biol.(2018)14,311-316)。

在一些实施方案中，指导分子形成具有单独的非共价连接序列的茎环，所述序列可以是DNA或RNA。在特定的实施方案中，首先使用标准亚磷酰胺合成方案来合成形成指导物的序列(Herdewijn,P.,编,Methods in Molecular Biology Col 288,OligonucleotideSynthesis:Methods and Applications,Humana Press,New Jersey(2012))。在一些实施方案中，可使用本领域已知的标准方案将这些序列官能化以含有用于连接的适当官能团(Hermanson,G.T.,Bioconjugate Techniques,Academic Press(2013))。官能团的实例包括但不限于羟基、胺、羧酸、羧酸卤化物、羧酸活性酯、醛、羰基、氯羰基、咪唑基羰基、酰肼、氨基脲、硫代氨基脲、硫醇、马来酰亚胺、卤代烷基、磺酰基、烯丙基(ally)、炔丙基、二烯、炔烃和叠氮化物。一旦此序列被官能化，就可在此序列与正向重复序列之间形成共价化学键或键联。化学键的实例包括但不限于基于以下的那些：氨基甲酸酯、醚、酯、酰胺、亚胺、脒、氨基三嗪、腙、二硫化物、硫醚、硫酯、硫代磷酸酯、二硫代磷酸酯、磺酰胺、磺酸酯、砜、亚砜、脲、硫脲、酰肼、肟、三唑、光不稳定键联、C-C键形成基团诸如Diels-Alder环加成对或闭环复分解对和迈克尔(Michael)反应对。

在一些实施方案中，这些茎环形成序列可以是化学合成的。在一些实施方案中，化学合成使用利用2’-乙酰氧基乙基原酸酯(2’-ACE)(Scaringe等人,J.Am.Chem.Soc.(1998)120:11820-11821；Scaringe,Methods Enzymol.(2000)317:3-18)或2’-硫羰基氨基甲酸酯(2’-TC)化学(Dellinger等人,J.Am.Chem.Soc.(2011)133:11540-11546；Hendel等人,Nat.Biotechnol.(2015)33:985-989)的自动化固相寡核苷酸合成机。

在某些实施方案中，指导分子包含(1)能够与靶基因座杂交的指导序列和(2)tracr配对序列或正向重复序列，由此所述正向重复序列位于指导序列的上游(即，5’)或下游(即3’)。在一个特定的实施方案中，指导序列的种子序列(即对于识别靶基因座处的序列和/或与靶基因座处的序列杂交至关重要的序列)大致位于指导序列的前10个核苷酸内。

在一个特定的实施方案中，指导分子包含与正向重复序列连接的指导序列，其中正向重复序列包含一个或多个茎环或优化的二级结构。在特定的实施方案中，正向重复序列具有16nt的最小长度和单个茎环。在其他实施方案中，正向重复序列的长度大于16nt，优选大于17nt，并且具有多于一个茎环或优化的二级结构。在特定的实施方案中，指导分子包含与全部或部分的天然正向重复序列连接的指导序列或由所述指导序列组成。CRISPR-cas指导分子包含(在3’至5’方向上或在5’至3’方向上)：指导序列、第一互补段(“重复序列”)、环(其通常为4或5个核苷酸长)、第二互补段(与重复序列互补的“反重复序列”)和poly A(在RNA中通常为poly U)尾部(终止子)。在某些实施方案中，正向重复序列保留其天然构造并形成单个茎环。在特定的实施方案中，指导物构造的某些方面可例如通过特征的添加、减去或取代来修饰，而指导物构造的某些其他方面得以保持。工程化指导分子修饰(包括但不限于插入、缺失和取代)的优选位置，包括指导物末端以及指导分子在与CRISPR-Cas蛋白和/或靶标复合时暴露的区域，例如正向重复序列的茎环。

在特定的实施方案中，茎包含至少约4bp，其包含互补的X和Y序列，但是也考虑具有更多个(例如5、6、7、8、9、10、11或12个)或更少个(例如3、2个)碱基对的茎。因此，可考虑例如X2-10和Y2-10(其中X和Y代表核苷酸的任何互补集合)。在一个方面，由X和Y核苷酸构成的茎与环一起将在整体二级结构中形成完整发夹；并且，这可能是有利的而且碱基对的量可以是任何形成完整发夹的量。在一个方面，任何互补的X:Y碱基配对序列(例如，关于长度)都是容许的，只要整个指导分子的二级结构得以保留即可。在一个方面，连接由X:Y碱基对构成的茎的环可以是相同长度(例如，4或5个核苷酸)或更长的任何序列，其不妨碍指导分子的整体二级结构。在一个方面，茎环还可包含例如MS2适体。在一个方面，茎包含约5-7bp，其包含互补的X和Y序列，但是也考虑具有更多个或更少个碱基对的茎。在一个方面，考虑了非沃森克里克碱基配对，其中此种配对原本通常保留茎环在所述位置处的构造。

在特定的实施方案中，指导分子的天然发夹或茎环结构被延伸或被延伸的茎环替换。已经证明，茎的延伸可增强指导分子与CRISPR-Cas蛋白的组装(Chen等人Cell.(2013)；155(7):1479–1491)。在特定的实施方案中，茎环的茎延伸至少1、2、3、4、5或更多个互补碱基对(即对应于在指导分子中添加2、4、6、8、10或更多个核苷酸)。在特定的实施方案中，这些碱基对位于茎的端部，与茎环的环相邻。

在特定的实施方案中，可通过稍微修饰指导分子的序列而不影响其功能来降低指导分子对RNA酶的敏感性或对降低的表达的敏感性。例如，在特定的实施方案中，可通过修饰指导分子序列中推定的Pol-III终止子(4个连续的U)来去除转录的提前终止，诸如U6Pol-III的提前转录。在指导分子的茎环中需要此种序列修饰的情况下，优选通过碱基对翻转来确保。

在一个特定的实施方案中，正向重复序列可被修饰以包含一个或多个蛋白结合RNA适体。在一个特定的实施方案中，可包括一个或多个适体，诸如优化的二级结构的一部分。此类适体可能能够结合如本文进一步详述的噬菌体外壳蛋白。

在一些实施方案中，指导分子与包含至少一个待编辑的靶胞嘧啶残基的靶RNA形成双链体。在指导RNA分子与靶RNA杂交后，胞苷脱氨酶与双链体中的可由于指导序列中的错配而接近的单链RNA结合，并催化包含在错配核苷酸段内的一个或多个靶胞嘧啶残基的脱氨基作用。

可选择指导序列并因此选择核酸靶向指导RNA以靶向任何靶核酸序列。靶序列可以是mRNA。

在某些实施方案中，靶序列应与以下缔合：PAM(原间隔子相邻基序)或PFS(原间隔子侧翼序列或位点)，即由CRISPR复合物识别的短序列。根据CRISPR-Cas蛋白的性质，应当选择所述靶序列，使得其在DNA双链体中的互补序列(本文中也称为非靶序列)在PAM的上游或下游。

此外，对PAM相互作用(PI)结构域的工程化可允许对PAM特异性进行编程，改善靶位点识别保真度，并增加CRISPR-Cas蛋白的多功能性，例如如Kleinstiver BP等人Engineered CRISPR-Cas9 nucleases with altered PAM specificities.Nature.2015年7月23日；523(7561):481-5.doi:10.1038/nature14592中关于Cas9所述。

在特定的实施方案中，指导物是护送的指导物。“护送的”意指将CRISPR-Cas系统或复合物或指导物递送至细胞内的选定时间或位置，从而在空间上或时间上控制CRISPR-Cas系统或复合物或指导物的活性。例如，3CRISPR-Cas系统或复合物或指导物的活性和目的可由对适体配体(诸如细胞表面蛋白或其他局部细胞组分)具有结合亲和力的护送RNA适体序列控制。可替代地，护送适体可例如响应于细胞上或细胞中的适体效应物，诸如瞬时效应物，诸如在特定时间施加到细胞的外部能量源。

护送的CRISPR-Cas系统或复合物具有指导分子，所述指导分子的功能结构被设计成改善指导分子结构、构造、稳定性、遗传表达或其任何组合。此种结构可包括适体。

适体是可被设计或选择成与其他配体紧密结合的生物分子，例如使用称为通过指数富集的配体系统进化的技术(SELEX；Tuerk C,Gold L:“Systematic evolution ofligands by exponential enrichment:RNA ligands to bacteriophage T4 DNApolymerase.”Science 1990,249:505-510)。核酸适体可例如选自随机序列寡核苷酸池，其对范围广泛的生物医学相关靶标具有高结合亲和力和特异性，表明了对适体的范围广泛的治疗效用(Keefe,Anthony D.,Supriya Pai和Andrew Ellington."Aptamers astherapeutics."Nature Reviews Drug Discovery 9.7(2010):537-550)。这些特征还表明适体作为药物递送媒介物的范围广泛的用途(Levy-Nissenbaum,Etgar等人"Nanotechnology and aptamers:applications in drug delivery."Trends inbiotechnology 26.8(2008):442-449；以及Hicke BJ,Stephens AW.“Escort aptamers:adelivery service for diagnosis and therapy.”J Clin Invest 2000,106:923-928.)。还可构建用作分子开关的适体，其通过改变特性来作出响应，诸如结合荧光团以模拟绿色荧光蛋白活性的RNA适体(Paige,Jeremy S.,Karen Y.Wu和Samie R.Jaffrey."RNA mimicsof green fluorescent protein."Science 333.6042(2011):642-646)。还已经提出，适体可用作靶向siRNA治疗性递送系统的组分，例如靶向细胞表面蛋白(Zhou,Jiehua和JohnJ.Rossi."Aptamer-targeted cell-specific RNA interference."Silence 1.1(2010):4)。

因此，在特定的实施方案中，例如通过一个或多个适体来修饰指导分子，所述一个或多个适体被设计成改善指导分子递送，包括跨细胞膜的递送、递送至细胞内区室或递送至核中。除了一个或多个适体之外或在不含此类一个或多个适体的情况下，此种结构还可包括一个或多个部分，以使得指导分子可递送、可诱导或响应于选定的效应物。因此，本发明包括响应于正常或病理生理条件(包括但不限于pH、缺氧、O2浓度、温度、蛋白质浓度、酶浓度、脂质结构、光暴露、机械破坏(例如超声波)、磁场、电场或电磁辐射)的指导分子。

可通过隐花色素-2和CIB1的激活和结合来实现诱导型系统的光响应性。蓝光刺激诱导隐花色素-2的激活构象变化，从而导致其结合配偶体CIB1的募集。这种结合是快速且可逆的，在脉冲刺激后<15秒内达到饱和，并且在刺激结束后<15min恢复到基线。这些快速结合动力学导致系统在时间上仅受转录/翻译和转录/蛋白质降解速度的约束，而不受诱导剂的摄取和清除的约束。隐花色素-2激活也是高度敏感的，从而允许使用低光强度刺激并降低光毒性的风险。此外，在诸如完整的哺乳动物脑的上下文中，可变光强度可用于控制受刺激区域的大小，从而允许比单独的载体递送可提供的精确度更高的精确度。

本发明考虑了诸如电磁辐射、声能或热能的能量源以诱导指导物。有利地，电磁辐射是可见光的组分。在一个优选的实施方案中，光是波长为约450至约495nm的蓝光。在一个尤其优选的实施方案中，波长为约488nm。在另一个优选的实施方案中，光刺激是通过脉冲进行的。光功率可在约0-9mW/cm2的范围内。在一个优选的实施方案中，每15秒低至0.25秒的刺激范式应导致最大激活。

化学或能量敏感性指导物可在诱导时通过与化学源的结合或通过能量而发生构象变化，从而允许其充当指导物并具有CRISPR-Cas系统或复合物功能。本发明可涉及应用化学源或能量以具有指导功能和CRISPR-Cas系统或复合物功能；并且任选地进一步确定基因组基因座的表达被改变。

这种化学可诱导系统存在若干不同的设计：1.可由脱落酸(ABA)诱导的基于ABI-PYL的系统(参见例如，stke.sciencemag.org/cgi/content/abstract/sigtrans；4/164/rs2)，2.可由雷帕霉素(或基于雷帕霉素的相关化学物质)诱导的基于FKBP-FRB的系统(参见例如，www.nature.com/nmeth/journal/v2/n6/full/nmeth763.html)，3.可由赤霉素(GA)诱导的基于GID1-GAI的系统(参见例如，www.nature.com/nchembio/journal/v8/n5/full/nchembio.922.html)。

化学诱导型系统可以是可由4-羟基他莫昔芬(4OHT)诱导的基于雌激素受体(ER)的系统(参见例如，www.pnas.org/content/104/3/1027.abstract)。称为ERT2的雌激素受体的突变的配体结合结构域在与4-羟基他莫昔芬结合后易位到细胞核中。在本发明的其他实施方案中，任何核受体、甲状腺激素受体、视黄酸受体、雌激素受体、雌激素相关受体、糖皮质激素受体、孕酮受体、雄激素受体的任何天然存在的或工程化的衍生物可用于与基于ER的诱导型系统类似的诱导型系统中。

另一种诱导型系统基于使用可由能量、热或无线电波诱导的基于瞬态受体电位(TRP)离子通道的系统的设计(参见例如，www.sciencemag.org/content/336/6081/604)。这些TRP家族蛋白响应于不同的刺激(包括光和热)。当这种蛋白质被光或热激活时，离子通道将打开并允许诸如钙的离子进入质膜中。离子的这种流入将结合到与多肽连接的细胞内离子相互作用配偶体，所述多肽包括指导物和CRISPR-Cas复合物或系统的其他组分，并且所述结合将诱导所述多肽的亚细胞定位的变化，从而导致整个多肽进入细胞核。一旦进入细胞核，指导蛋白和CRISPR-Cas复合物的其他组分将具活性并调节细胞中的靶基因表达。

虽然光激活可以是有利的实施方案，但有时它可能是不利的，尤其是对于光不能穿透皮肤或其他器官的体内应用。在这种情况下，考虑了其他能量激活方法，特别是具有类似作用的电场能量和/或超声。

优选地，在体内条件下使用一个或多个约1伏特/cm至约10千伏特/cm的电脉冲，基本上如本领域中所述施用电场能量。代替脉冲或除了脉冲之外，可以连续的方式递送电场。电脉冲可施加持续1μs与500毫秒之间，优选1μs与100毫秒之间。可连续地或以脉冲方式施加电场持续约5分钟。

如本文所用，‘电场能量’是细胞暴露于其中的电能。优选地，在体内条件下，电场的强度为约1伏特/cm至约10千伏特/cm或更高(参见WO97/49450)。

如本文所用，术语“电场”包括一个或多个脉冲，其处于可变电容和电压下并且包括指数波和/或方波和/或调制波和/或调制方波形式。对电场和电的提及应被认为包括对电池环境中存在电势差的提及。如本领域中已知的，可通过静电、交流电(AC)、直流电(DC)等来建立此种环境。电场可以是均匀的、不均匀的或其他方式，并且可以时间依赖性方式改变强度和/或方向。

电场的单次或多次施加以及超声的单次或多次施加也是可能的，可呈任何顺序和任何组合。超声和/或电场可作为单次或多次连续施加或作为脉冲(脉动递送)来递送。

电穿孔已用于体外和体内程序中，以将外来物质引入活细胞中。在体外应用中，首先将活细胞样品与目标剂混合并放置在电极诸如平行板之间。然后，电极向细胞/植入物混合物施加电场。进行体外电穿孔的系统的实例包括Electro Cell Manipulator ECM600产品和Electro Square Porator T820，两者均由Genetronics,Inc的BTX部门制造(参见美国专利号5,869,326)。

已知的电穿孔技术(体外和体内)通过向位于治疗区域周围的电极施加短暂的高压脉冲而起作用。电极之间产生的电场使细胞膜暂时变为多孔的，于是目标剂的分子进入细胞。在已知的电穿孔应用中，这种电场包括大约1000V/cm的单个方波脉冲，持续时间为约100μs。例如，在Electro Square Porator T820的已知应用中可产生此种脉冲。

优选地，在体外条件下，电场的强度为约1V/cm至约10kV/cm。因此，电场的强度可为1V/cm、2V/cm、3V/cm、4V/cm、5V/cm、6V/cm、7V/cm、8V/cm、9V/cm、10V/cm、20V/cm、50V/cm、100V/cm、200V/cm、300V/cm、400V/cm、500V/cm、600V/cm、700V/cm、800V/cm、900V/cm、1kV/cm、2kV/cm、5kV/cm、10kV/cm、20kV/cm、50kV/cm或更高。在体外条件下，更优选约0.5kV/cm至约4.0kV/cm。优选地，在体内条件下，电场的强度为约1V/cm至约10kV/cm。然而，在递送到靶位点的脉冲数量增加的情况下，电场强度可能会降低。因此，设想在较低场强度下电场的脉动递送。

优选地，电场的施加形式呈多个脉冲的形式，诸如具有相同强度和电容的双脉冲或具有不同强度和/或电容的连续脉冲。如本文所用，术语“脉冲”包括一个或多个电脉冲，其处于可变电容和电压下并且包括指数波和/或方波和/或调制波/方波形式。

优选地，电脉冲作为选自指数波形式、方波形式、调制波形式和调制方波形式的波形来递送。

一个优选的实施方案采用低压直流电。因此，申请人公开了电场的使用，所述电场以1V/cm与20V/cm之间的场强度施加到细胞、组织或组织块，持续100毫秒或更长，优选15分钟或更长的时间段。

超声有利地以约0.05W/cm2至约100W/cm2的功率水平施用。可使用诊断或治疗超声或其组合。

如本文所用，术语“超声”是指由机械振动组成的能量形式，所述机械振动的频率高到超出人类听力的范围。超声频谱的频率下限通常可取为约20kHz。超声的大多数诊断应用采用在1和15MHz'范围内的频率(来自Ultrasonics in Clinical Diagnosis,P.N.T.Wells编,第2版,Publ.Churchill Livingstone[Edinburgh,London&NY,1977])。

超声已用于诊断和治疗应用。当用作诊断工具(“诊断超声”)时，超声通常在至多约100mW/cm2(FDA推荐)的能量密度范围内使用，尽管已使用了高达750mW/cm2的能量密度。在物理疗法中，超声通常用作高达约3至4W/cm2范围内的能量源(WHO推荐)。在其他治疗应用中，可采用更高强度的超声，例如，100W/cm至1kW/cm2(或甚至更高)的HIFU，持续短时间段。如本说明书中使用的术语“超声”旨在涵盖诊断、治疗和聚焦超声。

聚焦超声(FUS)允许在不使用侵入性探针的情况下递送热能(参见Morocz等人1998Journal of Magnetic Resonance Imaging第8卷,第1期,第136-142页)。聚焦超声的另一种形式是高强度聚焦超声(HIFU)，其由Moussatov等人在Ultrasonics(1998)第36卷,第8期,第893-900页和TranHuuHue等人在Acustica(1997)第83卷,第6期,第1103-1106页中进行了综述。

优选地，采用诊断超声和治疗超声的组合。然而，这种组合并非旨在进行限制，并且本领域读者将理解，可使用超声的任何多种组合。另外，可改变能量密度、超声频率和暴露时间段。

优选地，暴露于超声能量源的功率密度为约0.05至约100Wcm-2。甚至更优选地，暴露于超声能量源的功率密度为约1至约15Wcm-2。

优选地，暴露于超声能量源的频率为约0.015至约10.0MHz。更优选地，暴露于超声能量源的频率为约0.02至约5.0MHz或约6.0MHz。最优选地，以3MHz的频率施加超声。

优选地，暴露持续约10毫秒至约60分钟的时间段。优选地，暴露持续约1秒至约5分钟的时间段。更优选地，施加超声持续约2分钟。然而，根据待破坏的特定靶细胞，暴露可持续更长的持续时间，例如持续15分钟。

有利地，靶组织暴露于声功率密度为约0.05Wcm-2至约10Wcm-2且频率范围为约0.015至约10MHz的超声能量源(参见WO 98/52609)。然而，替代方案也是可能的，例如，暴露于声功率密度高于100Wcm-2的超声能量源，但是对于缩短的时间段，例如对于毫秒范围或更短的时间段，暴露于声功率密度高于1000Wcm-2的超声能量源。

优选地，超声的施加呈多个脉冲的形式；因此，可以采用任何组合的连续波和脉冲波(超声的脉动递送)。例如，可施加连续波超声，之后施加脉冲波超声，或反之亦然。可以任何顺序和组合将其重复任何次数。可在连续波超声的背景下施加脉冲波超声，并且可以任何数量的组使用任何数量的脉冲。

优选地，超声可包括脉冲波超声。在一个高度优选的实施方案中，以0.7Wcm-2或1.25Wcm-2的功率密度作为连续波施加超声。如果使用脉冲波超声，则可采用更高的功率密度。

使用超声是有利的，因为像光一样，超声可精确地聚焦在靶标上。此外，超声是有利的，因为与光不同，它可以更深地聚焦到组织中。因此它更适合于全组织穿透(诸如但不限于肝叶)或整个器官(诸如但不限于整个肝脏或整个肌肉，诸如心脏)治疗。另一个重要的优点是超声是一种非侵入性刺激，其可用于各种诊断和治疗应用。例如，超声在医学成像技术中以及另外在骨科治疗中是众所周知的。此外，适用于将超声施加到受试脊椎动物的仪器是广泛可获得的，并且它们的使用在本领域中是众所周知的。

在特定的实施方案中，指导分子被二级结构修饰以增加CRISPR-Cas系统的特异性，并且所述二级结构可保护指导序列免受核酸外切酶活性并允许指导序列的5’添加，所述指导序列在本文中也称为受保护的指导分子。

在一个方面，本发明提供了将“保护RNA”与指导分子的序列杂交，其中“保护RNA”是与指导分子的3’端互补的RNA链，从而产生部分双链指导RNA。在本发明的一个实施方案中，用完全互补的保护序列保护错配的碱基(即指导分子的不形成指导序列的一部分的碱基)降低了靶RNA与3’端错配碱基对结合的可能性。在本发明的特定实施方案中，在指导分子内还可存在包含延长长度的另外的序列，使得所述指导物在指导分子内包含保护序列。此“保护序列”确保指导分子除了“暴露的序列”(包含指导序列的与靶序列杂交的部分)之外还包含“受保护的序列”。在特定的实施方案中，通过保护指导物的存在修饰指导分子以包含二级结构，诸如发夹。有利地，存在三个或四个至三十个或更多个，例如约10个或更多个具有与受保护的序列、指导序列或两者互补性的连续碱基对。有利的是，受保护的部分不会妨碍CRISPR-Cas系统与其靶标相互作用的热力学。通过提供此种包括部分双链的指导分子的延伸，所述指导分子被认为是受保护的并且导致CRISPR-Cas复合物的特异性结合得到改善，同时保持特异性活性。

在特定的实施方案中，使用截短的指导物(tru-指导物)，即包含的指导序列的长度相对于规范指导序列的长度被截短的指导分子。如Nowak等人(Nucleic Acids Res(2016)44(20):9555-9564)所述，此类指导物可允许具有催化活性的CRISPR-Cas酶结合其靶标而不切割靶RNA。在特定的实施方案中，使用截短的指导物，其允许与靶标的结合，但仅保留CRISPR-Cas酶的切口酶活性。

另外的CRISPR-Cas开发和使用的考虑因素

本发明可基于以下文章中阐述的CRISPR-Cas9开发和使用的方面，并且特别是涉及细胞和生物体中CRISPR蛋白复合物的递送和RNA指导的核酸内切酶的使用的方面来进一步说明和扩展：

Multiplex genome engineering using CRISPR/Cas systems.Cong，L.，Ran，F.A.，Cox，D.，Lin，S.，Barretto，R.，Habib，N.，Hsu，P.D.，Wu，X.，Jiang，W.，Marraffini，L.A.，&Zhang，F.Science Feb 15；339(6121)：819-23(2013)；

RNA-guided editing of bacterial genomes using CRISPR-Cassystems.Jiang W.，Bikard D.，Cox D.，Zhang F，Marraffini LA.Nat Biotechnol Mar；31(3)：233-9(2013)；

One-Step Generation of Mice Carrying Mutations in Multiple Genes byCRISPR/Cas-Mediated Genome Engineering.Wang H.，Yang H.，Shivalila CS.，DawlatyMM.，Cheng AW.，Zhang F.，Jaenisch R.Cell May 9；153(4)：910-8(2013)；

Optical control of mammalian endogenous transcription andepigenetic states.Konermann S，Brigham MD，Trevino AE，Hsu PD，Heidenreich M，CongL，Platt RJ，Scott DA，Church GM，Zhang F.Nature.Aug 22；500(7463)：472-6.doi：10.1038/Nature12466.Epub 2013 Aug 23(2013)；

Double Nicking by RNA-Guided CRISPR Cas9 for Enhanced GenomeEditing Specificity.Ran，FA.，Hsu，PD.，Lin，CY.，Gootenberg，JS.，Konermann，S.，Trevino，AE.，Scott，DA.，Inoue，A.，Matoba，S.，Zhang，Y.，&Zhang，F.Cell Aug 28.pii：S0092-8674(13)01015-5(2013-A)；

DNA targeting specificity of RNA-guided Cas9 nucleases.Hsu，P.，Scott，D.，Weinstein，J.，Ran，FA.，Konermann，S.，Agarwala，V.，Li，Y.，Fine，E.，Wu，X.，Shalem，O.，Cradick，TJ.，Marraffini，LA.，Bao，G.，&Zhang，F.Nat Biotechnol doi：10.1038/nbt.2647(2013)；

Genome engineering using the CRISPR-Cas9 system.Ran，FA.，Hsu，PD.，Wright，J.，Agarwala，V.，Scott，DA.，Zhang，F.Nature Protocols Nov；8(11)：2281-308(2013-B)；

Genome-Scale CRISPR-Cas9 Knockout Screening in Human Cells.Shalem，O.，Sanjana，NE.，Hartenian，E.，Shi，X.，Scott，DA.，Mikkelson，T.，Heckl，D.，Ebert，BL.，Root，DE.，Doench，JG.，Zhang，F.Science Dec 12.(2013).[Epub ahead of print]；

Crystal structure of cas9 in complex with guide RNA and targetDNA.Nishimasu，H Ran，FA.，Hsu，PD.，Konermann，S.，Shehata，SI.，Dohmae，N.，Ishitani，R.，Zhang，F Nureki，O.Cell Feb 27，156(5)：935-49(2014)；

Genome-wide binding of the CRISPR endonuclease Cas9 in mammaliancells.Wu X.，Scott DA.，Kriz AJ.，Chiu AC.，Hsu PD.，Dadon DB.，Cheng AW.，TrevinoAE.，Konermann S.，Chen S.，Jaenisch R.，Zhang F.，Sharp PA.Nat Biotechnol.Apr20.doi：10.1038/nbt.2889(2014)；

CRISPR-Cas9 Knockin Mice for Genome Editing and CancerModeling.Platt RJ，Chen S，Zhou Y，Yim MJ，Swiech L，Kempton HR，Dahlman JE，ParnasO，Eisenhaure TM，Jovanovic M，Graham DB，Jhunjhunwala S，Heidenreich M，Xavier RJ，Langer R，Anderson DG，Hacohen N，Regev A，Feng G，Sharp PA，Zhang F.

159(2)：440-455 DOI：10.1016/j.cell.2014.09.014(2014)；

Development and Applications of CRISPR-Cas9 for Genome Engineering，Hsu PD，Lander ES，Zhang F.，Cell.Jun 5；157(6)：1262-78(2014).

Genetic screens in human cells using the CRISPR/Cas9 system，Wang T，Wei JJ，Sabatini DM，Lander ES.，Science.January 3；343(6166)：80-84.doi：10.1126/science.1246981(2014)；

Rational design of highly active sgRNAs for CRISPR-Cas9-mediatedgene inactivation，Doench JG，Hartenian E，Graham DB，Tothova Z，Hegde M，Smith I，Sullender M，Ebert BL，Xavier RJ，Root DE.，(published online 3 September 2014)Nat Biotechnol.Dec；32(12)：1262-7(2014)；

In vivo interrogation of gene function in the mammalian brain usingCRISPR-Cas9，Swiech L，Heidenreich M，Banerjee A，Habib N，Li Y，Trombetta J，Sur M，Zhang F(published online 19 October 2014)Nat Biotechnol.Jan；33(1)：102-6(2015)；

Genome-scale transcriptional activation by an engineered CRISPR-Cas9 complex，Konermann S，Brigham MD，Trevino AE，Joung J，Abudayyeh OO，BarcenaC，Hsu PD，Habib N，Gootenberg JS，Nishimasu H，Nureki O，Zhang F.，Nature.Jan 29；517(7536)：583-8(2015).

A split-Cas9 architecture for inducible genome editing andtranscription modulation，Zetsche B，Volz SE，Zhang F.，(published online 02February 2015)Nat Biotechnol.Feb；33(2)：139-42(2015)；

Genome-wide CRISPR Screen in a Mouse Model of Tumor Growth andMetastasis，Chen S，Sanjana NE，Zheng K，Shalem O，Lee K，Shi X，Scott DA，Song J，PanJQ，Weissleder R，Lee H，Zhang F，Sharp PA.Cell 160，1246-1260，March 12，2015(multiplex screen in mouse)，and

In vivo genome editing using Staphylococcus aureus Cas9，Ran FA，CongL，Yan WX，Scott DA，Gootenberg JS，Kriz AJ，Zetsche B，Shalem O，Wu X，Makarova KS，Koonin EV，Sharp PA，Zhang F.，(published online 01 April 2015)，Nature.Apr 9；520(7546)：186-91(2015).

Shalem et al.，“High-throughput functional genomics using CRISPR-Cas9，”Nature Reviews Genetics 16，299-311(May 2015).

Xu et al.，“Sequence determinants of improved CRISPR sgRNA design，”Genome Research 25，1147-1157(August 2015).

Parnas et al.，“A Genome-wide CRISPR Screen in Primary Immune Cellsto Dissect Regulatory Networks，”Cell 162，675-686(July 30，2015).

Ramanan et al.，CRISPR/Cas9cleavage of viral DNA efficientlysuppresses hepatitis B virus，”Scientific Reports 5：10833.doi：10.1038/srep10833(June 2，2015)

Nishimasu et al.，Crystal Structure of Staphylococcus aureus Cas9，”Cell 162，1113-1126(Aug.27，2015)

BCL11A enhancer dissection by Cas9-mediated in situ saturatingmutagenesis，Canver et al.，Nature 527(7577)：192-7(Nov.12，2015)doi：10.1038/nature15521.Epub 2015 Sep 16.

Cpf1 Is a Single RNA-Guided Endonuclease of a Class 2 CRISPR-CasSystem，Zetsche et al.，Cell 163，759-71(Sep 25，2015).

Discovery and Functional Characterization of Diverse Class 2CRISPR-Cas Systems，Shmakov et al.，Molecular Cell，60(3)，385-397doi：10.1016/j.molcel.2015.10.008 Epub October 22，2015.

Rationally engineered Cas9 nucleases with improved specificity，Slaymaker et al.，Science 2016 Jan 1 351(6268)：84-88doi：10.1126/science.aad5227.Epub 2015 Dec 1.[Epub ahead of print].

Gao et al，“Engineered Cpf1 Enzymes with Altered PAM Specificities，”bioRxiv 091611；doi：http://dx.doi.org/10.1101/091611(Dec.4，2016)

所述文献各自以引用的方式并入本文，在本发明的实践中可考虑，并在下面简要讨论：

Cong等人基于嗜热链球菌(Streptococcus thermophilus)Cas9和化脓性链球菌(Streptococcus pyogenes)Cas9设计了用于真核细胞的II型CRISPR-Cas系统，并且证明Cas9核酸酶可被短RNA引导以诱导人和小鼠细胞中的精确DNA切割。他们的研究还表明，Cas9转化为切口酶可用于以最小的诱变活性促进真核细胞中的同源定向修复。另外，他们的研究表明，可将多个指导序列编码到单个CRISPR阵列中，以使得能够在哺乳动物基因组内的几个内源性基因组基因座位点处同时进行编辑，从而证明了RNA指导的核酸酶技术的容易的可编程性和广泛的适用性。使用RNA对细胞中的序列特异性DNA切割进行编程的这种能力定义了一类新的基因组工程工具。这些研究还表明，其他CRISPR基因座可能可移植到哺乳动物细胞中，并且还可介导哺乳动物基因组切割。重要的是，可设想，可进一步改善CRISPR-Cas系统的几个方面以提高其效率和多功能性。

Jiang等人使用与双RNA复合的成簇、规则间隔、短回文重复序列(CRISPR)相关Cas9核酸内切酶，在肺炎链球菌(Streptococcus pneumoniae)和大肠杆菌(Escherichiacoli)的基因组中引入精确突变。所述方法依赖于所靶向的基因组位点处的双RNA:Cas9引导的切割来杀伤未突变的细胞，并且避免了对选择性标志物或反选择系统的需求。研究报道了通过改变短CRISPR RNA(crRNA)的序列以在编辑模板上进行单个和多个核苷酸改变，对双RNA:Cas9特异性进行重新编程。研究表明，同时使用两种crRNA能够进行多重诱变。此外，当所述方法与重组工程组合使用时，在肺炎链球菌中，使用所述方法回收的细胞中几乎100％含有所需的突变，而在大肠杆菌中，回收的细胞中65％含有所述突变。

Wang等人(2013)使用用于一步生成携带多基因突变的小鼠的CRISPR-Cas系统，而这传统上是通过带有单一突变的小鼠的胚胎干细胞的连续重组和/或耗时的互交以多个步骤生成的。CRISPR-Cas系统将极大地加速功能冗余基因和上位基因相互作用的体内研究。

Konermann等人(2013)解决了本领域对通用和稳健技术的需求，所述技术使得能够对基于DNA结合结构域的CRISPR Cas9酶以及转录激活子样效应物进行光学和化学调节

Ran等人(2013-A)描述了一种将Cas9切口酶突变体与配对的指导RNA组合以引入靶向双链断裂的方法。这解决了来自微生物CRISPR-Cas系统的Cas9核酸酶通过指导序列被靶向具体的基因组基因座的问题，所述指导序列可容忍与DNA靶标的某些错配，并由此促成不需要的脱靶诱变。由于基因组中的个别切口以高保真度进行修复，因此通过适当偏移的指导RNA进行同时切口对于双链断裂是必需的，并且扩大了用于靶切割的特异性识别的碱基的数量。作者证明，使用配对切口可在细胞系中将脱靶活性降低50至1,500倍，并且促进小鼠受精卵中的基因敲除，而不会牺牲在靶切割效率。这种通用策略使得能够实现需要高特异性的各种基因组编辑应用。

Hsu等人(2013)对SpCas9在人细胞中的靶向特异性进行了表征，以了解靶位点的选择并避免脱靶效应。所述研究评估了293T和293FT细胞中的>100个预测的基因组脱靶基因座处的>700个指导RNA变体和SpCas9诱导的插入缺失突变水平。作者认为，SpCas9以序列依赖性方式容忍指导RNA和靶DNA之间不同位置处的错配，对错配的数量、位置和分布敏感。作者还表明，SpCas9介导的切割不受DNA甲基化的影响，并且可对SpCas9和gRNA的剂量进行滴定以最小化脱靶修饰。另外，为了促进哺乳动物基因组工程应用，作者报道提供了一种指导靶序列的选择和验证以及脱靶分析的基于网络的软件工具。

Ran等人(2013-B)描述了一组用于在哺乳动物细胞中通过非同源末端连接(NHEJ)或同源定向修复(HDR)进行Cas9介导的基因组编辑以及生成修饰的细胞系以用于下游功能研究的工具。为了最小化脱靶切割，作者还描述了一种使用Cas9切口酶突变体与配对的指导RNA的双切口策略。作者提供的方案通过实验得出了用于选择靶位点、评估切割效率和分析脱靶活性的指南。研究表明，从靶标设计开始，基因修饰可在短短的1-2周内完成，并且修饰的克隆细胞系可在2-3周内获得。

Shalem等人描述了一种在全基因组范围内询问基因功能的新方法。他们的研究表明，递送基因组范围的CRISPR-Cas9敲除(GeCKO)文库利用64,751个独特的指导序列靶向18,080个基因，使得能够在人细胞中进行阴性和阳性选择筛选。首先，作者表明使用GeCKO文库来鉴定癌症和多能干细胞中细胞活力所必需的基因。接下来，在黑色素瘤模型中，作者针对其丢失涉及对威罗菲尼(vemurafenib，一种抑制突变蛋白激酶BRAF的治疗剂)的抗性的基因进行筛选。他们的研究表明，排名最高的候选物包括先前验证的基因NF1和MED12以及新型命中物NF2、CUL3、TADA2B和TADA1。作者观察到靶向同一基因的独立指导RNA之间的高水平一致性以及高命中确认率，并且因此证明了使用Cas9进行基因组规模筛选的前景。

Nishimasu等人报道了与sgRNA及其靶DNA复合的化脓性链球菌Cas9在2.5A°分辨率下的晶体结构。所述结构揭示了由靶标识别叶和核酸酶叶构成的双叶构造，其将sgRNA:DNA异源双链体容纳在它们界面处的带正电荷的凹槽中。识别叶对于结合sgRNA和DNA是必不可少的，而核酸酶叶含有HNH和RuvC核酸酶结构域，它们被适当定位以分别切割靶DNA的互补链和非互补链。核酸酶叶还含有羧基末端结构域，其负责与原间隔子相邻基序(PAM)的相互作用。这种高分辨率结构和伴随的功能分析揭示了Cas9靶向RNA指导的DNA的分子机制，从而为合理设计新的通用基因组编辑技术铺平了道路。

Wu等人绘制了加载有单指导RNA(sgRNA)的化脓性链球菌的无催化活性Cas9(dCas9)在小鼠胚胎干细胞(mESC)中的全基因组结合位点。作者表明，所测试的四种sgRNA中的每一种都将dCas9靶向数十至数千个基因组位点，其特征通常在于sgRNA中的5核苷酸种子区域和NGG原间隔子相邻基序(PAM)。染色质的不可及性降低了dCas9与具有匹配的种子序列的其他位点的结合；因此70％的脱靶位点与基因相关联。作者表明，在用具有催化活性的Cas9转染的mESC中295个dCas9结合位点的靶向测序仅鉴定出一个突变高于背景水平的位点。作者提出了用于Cas9结合和切割的两态模型，其中种子匹配触发结合，但切割需要与靶DNA的广泛配对。

Platt等人建立了Cre依赖性Cas9敲入小鼠。作者表明了在神经元、免疫细胞和内皮细胞中使用腺相关病毒(AAV)、慢病毒或粒子介导的指导RNA递送进行的体内以及离体基因组编辑。

Hsu等人(2014)是一篇综述文章，其大体上讨论了CRISPR-Cas9从酸奶到基因组编辑的历史，包括细胞的遗传筛选。

Wang等人(2014)涉及一种适用于使用基因组规模的慢病毒单指导RNA(sgRNA)文库进行阳性和阴性选择的合并的功能丧失的遗传筛选方法。

Doench等人创建了一个sgRNA池，将一组六个内源性小鼠和三个内源性人基因的所有可能靶位点平铺，并通过抗体染色和流式细胞术定量评估它们产生其靶基因无效等位基因的能力。作者表明，PAM的优化提高了活性，并且还提供了用于设计sgRNA的在线工具。

Swiec等人证明AAV介导的SpCas9基因组编辑可实现脑中基因功能的反向遗传研究。

Konermann等人(2015)讨论了在使用或不使用接头的情况下将多个效应结构域(例如转录激活子、功能和表观基因组调控因子)附接在指导物(诸如茎或四环)的适当位置处的能力。

Zetsche等人证明Cas9酶可拆分为两部分，并因此可控制Cas9的组装以进行激活。

Chen等人涉及通过证明小鼠全基因组体内CRISPR-Cas9筛选展示了调控肺转移的基因而进行的多重筛选。

Ran等人(2015)涉及SaCas9及其编辑基因组的能力，并证明无法从生物化学测定进行外推。

Shalem等人(2015)描述了无催化活性的Cas9(dCas9)融合物用于合成地阻遏(CRISPRi)或激活(CRISPRa)表达的方式，表明了Cas9在用于基因组规模筛选(包括阵列筛选和合并筛选)、使基因组基因座失活的敲除方法以及调节转录活性的策略方面的进展。

Xu等人(2015)评估了在基于CRISPR的筛选中有助于单指导RNA(sgRNA)效率的DNA序列特征。作者探索了CRISPR/Cas9敲除的效率和切割位点处的核苷酸偏好。作者还发现，CRISPRi/a的序列偏好与CRISPR/Cas9敲除的序列偏好有很大不同。

Parnas等人(2015)将全基因组合并的CRISPR-Cas9文库引入树突状细胞(DC)中，以鉴定控制细菌脂多糖(LPS)对肿瘤坏死因子(Tnf)的诱导的基因。鉴定了Tlr4信号传导的已知调控剂和先前未知的候选物，并将其分为对LPS的规范响应具有不同作用的三个功能模块。

Ramanan等人(2015)证明了感染细胞中病毒游离型DNA(cccDNA)的切割。HBV基因组以称为共价闭合环状DNA(cccDNA)的3.2kb双链游离型DNA种类存在于受感染肝细胞的细胞核中，所述cccDNA是HBV生命周期中的关键组分，其复制不受当前治疗的抑制。作者表明，特异性靶向HBV的高度保守区的sgRNA稳健地抑制病毒复制和耗尽的cccDNA。

Nishimasu等人(2015)报道了与单指导RNA(sgRNA)及其双链DNA靶标复合的SaCas9的晶体结构，所述靶标含有5'-TTGAAT-3'PAM和5'-TTGGGT-3'PAM。SaCas9与SpCas9的结构比较突出显示了结构保守性和差异性，解释了它们不同的PAM特异性和直系同源sgRNA识别。

Canver等人(2015)展示了非编码基因组元件的基于CRISPR-Cas9的功能研究。作者开发了合并的CRISPR-Cas9指导RNA文库，以进行人和小鼠BCL11A增强子的原位饱和诱变，这揭示了增强子的关键特征。

Zetsche等人(2015)报道了来自新凶手弗朗西丝氏菌(Francisella novicida)U112的具有与Cas9不同的特征的2类CRISPR核酸酶Cpf1的表征。Cpf1是一种缺乏tracrRNA的单RNA指导的核酸内切酶，利用富含T的原间隔子相邻基序，并通过交错的DNA双链断裂来切割DNA。

Shmakov等人(2015)报道了三种不同的2类CRISPR-Cas系统。两种系统CRISPR酶(C2c1和C2c3)含有与Cpf1不太相关的RuvC样核酸内切酶结构域。与Cpf1不同，C2c1依赖于crRNA和tracrRNA进行DNA切割。第三种酶(C2c2)含有两个预测的HEPN RNA酶结构域并且不依赖于tracrRNA。

Slaymaker等人(2016)报道了使用结构指导的蛋白质工程来提高化脓性链球菌Cas9(SpCas9)的特异性。作者开发了维持稳健的在靶切割并减小脱靶效应的“增强的特异性”SpCas9(eSpCas9)变体。

本文提供的方法和工具以某些Cas效应物为例。可使用本领域中描述的方法鉴定具有相似特性的其他核酸酶(Shmakov等人2015,60:385–397；Abudayeh等人2016,Science,5；353(6299))。在特定的实施方案中，用于鉴定新型CRISPR效应蛋白的此类方法可包括以下步骤：从数据库中选择编码鉴定CRISPR Cas基因座的存在的种子的序列，鉴定选定序列中位于包含开放阅读框(ORF)的种子的10kb内的基因座，从中选择包含ORF的基因座，其中只有单个ORF编码具有超过700个氨基酸且与已知CRISPR效应物具有不超过90％同源性的新型CRISPR效应物。在特定的实施方案中，种子是CRISPR-Cas系统共有的蛋白质，诸如Cas1。在其他实施方案中，CRISPR阵列用作种子以鉴定新的效应蛋白。

此外，“Dimeric CRISPR RNA-guided FokI nucleases for highly specificgenome editing”,Shengdar Q.Tsai,Nicolas Wyvekens,Cyd Khayter,JenniferA.Foden,Vishal Thapar,Deepak Reyon,Mathew J.Goodwin,Martin J.Aryee,J.KeithJoung Nature Biotechnology 32(6):569-77(2014)，涉及二聚体RNA指导的FokI核酸酶，所述核酸酶识别延伸序列并可在人细胞中高效编辑内源性基因。

关于CRISPR-Cas系统、其组分和此类组分的递送的一般信息，包括方法、材料、递送媒介物、载体、粒子、AAV及其制造和使用，包括关于数量和配方、在本发明的实践中所有有用者，参考：美国专利号8,697,359、8,771,945、8,795,965、8,865,406、8,871,445、8,889,356、8,889,418、8,895,308、8,906,616、8,932,814、8,945,839、8,993,233和8,999,641；美国专利申请US 2014-0310830(美国申请序列号14/105,031)、US 2014-0287938 A1(美国申请序列号14/213,991)、US 2014-0273234 A1(美国申请序列号14/293,674)、US2014-0273232A1(美国申请序列号14/290,575)、US 2014-027323 A1(美国申请序列号14/259,420)、US 2014-0256046 A1(美国申请序列号14/226,274)、US 2014-0248702 A1(美国申请序列号14/258,458)、US 2014-0242700 A1(美国申请序列号14/222,930)、US2014-0242699 A1(美国申请序列号14/183,512)、US 2014-0242664 A1(美国申请序列号14/104,990)、US 2014-0234972 A1(美国申请序列号14/183,471)、US 2014-0227787 A1(美国申请序列号14/256,912)、US 2014-0189896 A1(美国申请序列号14/105,035)、US2014-0186958 A1(美国申请序列号14/105,017)、US 2014-0186919 A1(美国申请序列号14/104,977)、US 2014-0186843 A1(美国申请序列号14/104,900)、US 2014-0179770 A1(美国申请序列号14/104,837)和US 2014-0179006 A1(美国申请序列号14/183,486)、US2014-0170753 A1(美国申请序列号14/183,429)；US 2015-0184139 A1(美国申请序列号14/324,960)；14/054,414欧洲专利申请EP 2771468(EP13818570.7)、EP 2764103(EP13824232.6)和EP 2784162(EP14170383.5)；以及PCT专利公布WO 2014/093661(PCT/US2013/074743)、WO 2014/093694(PCT/US 2013/074790)、WO 2014/093595(PCT/US2013/074611)、WO 2014/093718(PCT/US2013/074825)、WO 2014/093709(PCT/US2013/074812)、WO 2014/093622(PCT/US2013/074667)、WO 2014/093635(PCT/US2013/074691)、WO 2014/093655(PCT/US2013/074736)、WO 2014/093712(PCT/US2013/074819)、WO 2014/093701(PCT/US2013/074800)、WO 2014/018423(PCT/US2013/051418)、WO 2014/204723(PCT/US2014/041790)、WO 2014/204724(PCT/US2014/041800)、WO 2014/204725(PCT/US2014/041803)、WO 2014/204726(PCT/US 2014/041804)、WO 2014/204727(PCT/US2014/041806)、WO 2014/204728(PCT/US2014/041808)、WO 2014/204729(PCT/US2014/041809)、WO 2015/089351(PCT/US2014/069897)、WO 2015/089354(PCT/US2014/069902)、WO 2015/089364(PCT/US2014/069925)、WO 2015/089427(PCT/US2014/070068)、WO 2015/089462(PCT/US2014/070127)、WO 2015/089419(PCT/US2014/070057)、WO 2015/089465(PCT/US2014/070135)、WO 2015/089486(PCT/US2014/070175)、PCT/US2015/051691、PCT/US2015/051830。还参考了分别于2013年1月30日；2013年3月15日；2013年3月28日；2013年4月20日；2013年5月6日和2013年5月28日提交的美国临时专利申请61/758,468；61/802,174；61/806,375；61/814,263；61/819,803和61/828,130。还参考了2013年6月17日提交的美国临时专利申请61/836,123。另外参考了各自于2013年6月17日提交的美国临时专利申请61/835,931、61/835,936、61/835,973、61/836,080、61/836,101和61/836,127。进一步参考了2013年8月5日提交的美国临时专利申请61/862,468和61/862,355；2013年8月28日提交的美国临时专利申请61/871,301；2013年9月25日提交的美国临时专利申请61/960,777和2013年10月28日提交的美国临时专利申请61/961,980。此外又进一步参考了：2014年10月28日提交的PCT/US2014/62558和美国临时专利申请序列号：61/915,148、61/915,150、61/915,153、61/915,203、61/915,251、61/915,301、61/915,267、61/915,260和61/915,397，各自于2013年12月12日提交；61/757,972和61/768,959，于2013年1月29日和2013年2月25日提交；62/010,888和62/010,879，均于2014年6月11日提交；62/010,329、62/010,439和62/010,441，各自于2014年6月10日提交；61/939,228和61/939,242，各自于2014年2月12日提交；61/980,012，于2014年4月15日提交；62/038,358，于2014年8月17日提交；62/055,484、62/055,460和62/055,487，各自于2014年9月25日提交；以及62/069,243，于2014年10月27日提交。参考了2014年6月10日提交的PCT申请，尤其指定美国申请号PCT/US14/41806。参考了2014年1月22日提交的美国临时专利申请61/930,214。参考了2014年6月10日提交的PCT申请，尤其指定美国申请号PCT/US14/41806。

还提及了2015年6月17日提交的美国临时申请号62/180,709，PROTECTED GUIDERNAS(PGRNAS)；2014年12月12日提交的美国临时申请号62/091,455，PROTECTED GUIDERNAS(PGRNAS)；2014年12月24日提交的美国临时申请号62/096,708，PROTECTED GUIDERNAS(PGRNAS)；2014年12月12日提交的美国临时申请号62/091,462、2014年12月23日提交的美国临时申请号62/096,324、2015年6月17日提交的美国临时申请号62/180,681和2015年10月5日提交的美国临时申请号62/237,496，DEAD GUIDES FOR CRISPR TRANSCRIPTIONFACTORS；2014年12月12日提交的美国临时申请号62/091,456和2015年6月17日提交的美国临时申请号62/180,692，ESCORTED AND FUNCTIONALIZED GUIDES FOR CRISPR-CASSYSTEMS；2014年12月12日提交的美国临时申请号62/091,461，DELIVERY,USE ANDTHERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FORGENOME EDITING AS TO HEMATOPOETIC STEM CELLS(HSCs)；2014年12月19日提交的美国临时申请号62/094,903，UNBIASED IDENTIFICATION OF DOUBLE-STRAND BREAKS ANDGENOMIC REARRANGEMENT BY GENOME-WISE INSERT CAPTURE SEQUENCING；2014年12月24日提交的美国临时申请号62/096,761，ENGINEERING OF SYSTEMS,METHODS AND OPTIMIZEDENZYME AND GUIDE SCAFFOLDS FOR SEQUENCE MANIPULATION；2014年12月30日提交的美国临时申请号62/098,059、2015年6月18日提交的美国临时申请号62/181,641和2015年6月18日提交的美国临时申请号62/181,667，RNA-TARGETING SYSTEM；2014年12月24日提交的美国临时申请号62/096,656和2015年6月17日提交的美国临时申请号62/181,151，CRISPRHAVING OR ASSOCIATED WITH DESTABILIZATION DOMAINS；2014年12月24日提交的美国临时申请号62/096,697，CRISPR HAVING OR ASSOCIATED WITH AAV；2014年12月30日提交的美国临时申请号62/098,158，ENGINEERED CRISPR COMPLEX INSERTIONAL TARGETINGSYSTEMS；2015年4月22日提交的美国临时申请号62/151,052，CELLULAR TARGETING FOREXTRACELLULAR EXOSOMAL REPORTING；2014年9月24日提交的美国临时申请号62/054,490，DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS ANDCOMPOSITIONS FOR TARGETING DISORDERS AND DISEASES USING PARTICLE DELIVERYCOMPONENTS；2014年2月12日提交的美国临时申请号61/939,154，SYSTEMS,METHODS ANDCOMPOSITIONS FOR SEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CASSYSTEMS；2014年9月25日提交的美国临时申请号62/055,484，SYSTEMS,METHODS ANDCOMPOSITIONS FOR SEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CASSYSTEMS；2014年12月4日提交的美国临时申请号62/087,537，SYSTEMS,METHODS ANDCOMPOSITIONS FOR SEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CASSYSTEMS；2014年9月24日提交的美国临时申请号62/054,651，DELIVERY,USE ANDTHERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FORMODELING COMPETITION OF MULTIPLE CANCER MUTATIONS IN VIVO；2014年10月23日提交的美国临时申请号62/067,886，DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THECRISPR-CAS SYSTEMS AND COMPOSITIONS FOR MODELING COMPETITION OF MULTIPLECANCER MUTATIONS IN VIVO；2014年9月24日提交的美国临时申请号62/054,675和2015年6月17日提交的美国临时申请号62/181,002，DELIVERY,USE AND THERAPEUTICAPPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS IN NEURONAL CELLS/TISSUES；2014年9月24日提交的美国临时申请62/054,528，DELIVERY,USE ANDTHERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS IN IMMUNEDISEASES OR DISORDERS；2014年9月25日提交的美国临时申请号62/055,454，DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONSFOR TARGETING DISORDERS AND DISEASES USING CELL PENETRATION PEPTIDES(CPP)；2014年9月25日提交的美国临时申请号62/055,460，MULTIFUNCTIONAL-CRISPR COMPLEXESAND/OR OPTIMIZED ENZYME LINKED FUNCTIONAL-CRISPR COMPLEXES；2014年12月4日提交的美国临时申请号62/087,475和2015年6月18日提交的美国临时申请号62/181,690，FUNCTIONAL SCREENING WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS；2014年9月25日提交的美国临时申请62/055,487，FUNCTIONAL SCREENING WITH OPTIMIZED FUNCTIONALCRISPR-CAS SYSTEMS；2014年12月4日提交的美国临时申请号62/087,546和2015年6月18日提交的美国临时申请号62/181,687，MULTIFUNCTIONAL CRISPR COMPLEXES AND/OROPTIMIZED ENZYME LINKED FUNCTIONAL-CRISPR COMPLEXES；以及2014年12月30日提交的美国临时申请62/098,285，CRISPR MEDIA TED IN VIVO MODELING AND GENETICSCREENING OF TUMOR GROWTH AND METASTASIS。

提及了2015年6月18日提交的美国临时申请号62/181,659和2015年8月19日提交的美国临时申请号62/207,318，ENGINEERING AND OPTIMIZATION OF SYSTEMS,METHODS,ENZYME AND GUIDE SCAFFOLDS OF CAS9 ORTHOLOGS AND VARIANTS FOR SEQUENCEMANIPULATION。提及了2015年6月18日提交的美国临时申请号62/181,663和2015年10月22日提交的美国临时申请号62/245,264，NOVEL CRISPR ENZYMES AND SYSTEMS，2015年6月18日提交的美国临时申请号62/181,675、2015年10月22日提交的美国临时申请号62/285,349、2016年2月17日提交的美国临时申请号62/296,522和2016年4月8日提交的美国临时申请号62/320,231，NOVEL CRISPR ENZYMES AND SYSTEMS，2015年9月24日提交的美国临时申请号62/232,067、2015年12月18日提交的美国申请号14/975,085、欧洲申请号16150428.7、2015年8月16日提交的美国临时申请62/205,733、2015年8月5日提交的美国临时申请62/201,542、2015年7月16日提交的美国临时申请号62/193,507和2015年6月18日提交的美国临时申请号62/181,739，各自的标题为NOVEL CRISPR ENZYMES AND SYSTEMS，以及2015年10月22日提交的美国临时申请号62/245,270，NOVEL CRISPR ENZYMES AND SYSTEMS。还提及了2014年2月12日提交的美国临时申请号61/939,256和2014年12月12日提交的WO 2015/089473(PCT/US2014/070152)，各自的标题为ENGINEERING OF SYSTEMS,METHODS ANDOPTIMIZED GUIDE COMPOSITIONS WITH NEW ARCHITECTURES FOR SEQUENCEMANIPULATION。还提及了2015年8月15日提交的国际申请号PCT/US2015/045504、2015年6月17日提交的美国临时申请号62/180,699和2014年8月17日提交的美国临时申请号62/038,358，各自的标题为GENOME EDITING USING CAS9 NICKASES。

另外，提及了PCT申请PCT/US14/70057，代理人参考47627.99.2060和BI-2013/107，标题为“DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CASSYSTEMS AND COMPOSITIONS FOR TARGETING DISORDERS AND DISEASES USING PARTICLEDELIVERY COMPONENTS(要求以下美国临时专利申请中的一者或多者或全部的优先权：2014年9月24日提交的62/054,490；2014年6月10日提交的62/010,441；以及各自于2013年12月12日提交的61/915,118、61/915,215和61/915,148)(“the Particle Delivery PCT”)，以引用的方式并入本文，以及PCT申请PCT/US 14/70127、代理人参考47627.99.2091和BI-2013/101，标题为“DELIVERY,USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CASSYSTEMS AND COMPOSITIONS FOR GENOME EDITING“(要求以下美国临时专利申请中的一者或多者或全部的优先权：各自于2013年12月12日提交的61/915,176；61/915,192；61/915,215；61/915,107、61/915,145；61/915,148；和61/915,153)(“the Eye PCT”)，以引用的方式并入本文，这些参考是关于制备含有sgRNA和Cas蛋白的粒子的方法，所述方法包括将包含sgRNA和Cas效应蛋白(和任选的HDR模板)的混合物与包含以下或基本上由以下组成或由以下组成的混合物混合：表面活性剂、磷脂、可生物降解的聚合物、脂蛋白和醇；以及来自此种方法的粒子。例如，其中Cas蛋白和sgRNA在合适的温度(例如15C-30C，例如20C-25C，例如室温)下以合适的摩尔比(例如3:1至1:3或2:1至1:2或1:1)混合在一起，有利地在无菌的无核酸酶的缓冲液例如1X PBS中持续合适的时间，例如15-45分钟，诸如30分钟。单独地，粒子组分诸如或包含：表面活性剂，例如阳离子脂质，例如1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)；磷脂，例如二肉豆蔻酰基磷脂酰胆碱(DMPC)；可生物降解的聚合物，诸如乙二醇聚合物或PEG，和脂蛋白，诸如低密度脂蛋白，例如胆固醇，将所述粒子组分溶解在醇中，有利地是C1-6烷基醇，诸如甲醇、乙醇、异丙醇，例如100％乙醇。将两种溶液混合在一起以形成含有Cas9-sgRNA复合物的粒子。因此，可将sgRNA与Cas蛋白预复合，然后将整个复合物配制成粒子。可使用不同摩尔比的已知促进核酸递送到细胞中的不同组分(例如，1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)、1,2-二十四烷酰基-sn-甘油-3-磷酸胆碱(DMPC)、聚乙二醇(PEG)和胆固醇)来制备制剂。例如DOTAP:DMPC:PEG:胆固醇摩尔比可为DOTAP 100、DMPC 0、PEG 0、胆固醇0；或DOTAP 90、DMPC 0、PEG 10、胆固醇0；或DOTAP 90、DMPC 0、PEG 5、胆固醇5；DOTAP 100、DMPC 0、PEG 0、胆固醇0。其他示例性核苷酸结合系统和蛋白质

其他示例性核苷酸结合分子和系统

在某些实施方案中，本文的系统或组合物包含一种或多种转座酶和一种或多种核苷酸结合分子，它们不是CRISPR-Cas系统的组分。其他核苷酸结合分子的实例可以是转录激活子样效应物核酸酶(TALEN)、锌指核酸酶、大范围核酸酶、其功能片段、其变体或其任何组合的组分。在一些实例中，所述系统包含i)TALEN系统、锌指核酸酶系统或大范围核酸酶系统的一种或多种组分，和ii)本文所述的一种或多种转座酶。

TALE系统

在一些实施方案中，所述系统中的核苷酸结合分子可以是转录激活子样效应物核酸酶、其功能片段或其变体。本公开还包括作为或编码TALE系统的一种或多种组分的核苷酸序列。如本文所公开的，可通过转录激活子样效应物核酸酶(TALEN)系统进行编辑。转录激活子样效应物(TALE)可被工程化成几乎结合任何所需的DNA序列。使用TALEN系统进行基因组编辑的示例性方法可见于例如Cermak T.Doyle EL.Christian M.Wang L.ZhangY.Schmidt C等人Efficient design and assembly of custom TALEN and other TALeffector-based constructs for DNA targeting.Nucleic Acids Res.2011；39:e82；Zhang F.Cong L.Lodato S.Kosuri S.Church GM.Arlotta P Efficient constructionof sequence-specific TAL effectors for modulating mammalian transcription.NatBiotechnol.2011；29:149–153以及美国专利号8,450,471、8,440,431和8,440,432，所有这些均具体地以引用的方式并入。

在一些实施方案中，本文提供的包括分离的、非天然存在的、重组的或工程化的DNA结合蛋白，其包含TALE单体作为其组织结构的一部分，所述DNA结合蛋白能够以提高的效率和扩展的特异性靶向核酸序列。

天然存在的TALE或“野生型TALE”是由多个变形菌物种分泌的核酸结合蛋白。TALE多肽含有由高度保守的单体多肽的串联重复序列构成的核酸结合结构域，所述单体多肽的长度主要为33、34或35个氨基酸，并且主要在氨基酸位置12和13上彼此不同。在有利的实施方案中，核酸是DNA。如本文所用，术语“多肽单体”或“TALE单体”将用于指TALE核酸结合结构域内的高度保守的重复多肽序列，并且术语“重复可变二残基”或“RVD”将用于指多肽单体的位置12和13处的高度可变的氨基酸。如整个公开所提供的，RVD的氨基酸残基使用氨基酸的IUPAC单字母代码来描述。包含在DNA结合结构域中的TALE单体的一般表示是X_1-11-(X₁₂X₁₃)-X_14-33或₃₄或₃₅，其中下标指示氨基酸位置，并且X表示任何氨基酸。X₁₂X₁₃指示RVD。在一些多肽单体中，位置13处的可变氨基酸缺失或不存在，并且在此类多肽单体中，RVD由单个氨基酸组成。在此类情况下，RVD可以可替代地表示为X*，其中X表示X12，并且(*)指示X13不存在。DNA结合结构域包含TALE单体的若干个重复序列，并且这可表示为(X_1-11-(X₁₂X₁₃)-X_14-33或₃₄或₃₅)z，其中在一个有利的实施方案中，z为至少5至40。在另一有利的实施方案中，z为至少10至26。

TALE单体具有由在其RVD中的氨基酸身份决定的核苷酸结合亲和力。例如，RVD为NI的多肽单体优先结合腺嘌呤(A)，RVD为NG的多肽单体优先结合胸腺嘧啶(T)，RVD为HD的多肽单体优先结合胞嘧啶(C)，并且RVD为NN的多肽单体优先结合腺嘌呤(A)和鸟嘌呤(G)两者。在本发明的又一实施方案中，RVD为IG的多肽单体优先结合T。因此，TALE的核酸结合结构域中多肽单体重复序列的数量和顺序决定了其核酸靶标特异性。在本发明的再其他实施方案中，RVD为NS的多肽单体识别所有四个碱基对并且可结合A、T、G或C。TALE的结构和功能进一步描述于例如Moscou等人,Science 326:1501(2009)；Boch等人,Science 326:1509-1512(2009)；以及Zhang等人,Nature Biotechnology 29:149-153(2011)，所述文献各自以引用的方式整体并入。

本发明的方法中使用的TALE多肽是分离的、非天然存在的、重组的或工程化的核酸结合蛋白，其具有含有被设计成靶向具体核酸序列的多肽单体重复序列的核酸或DNA结合区。

如本文所述，RVD为HN或NH的多肽单体优先结合鸟嘌呤，并由此允许产生对含有鸟嘌呤的靶核酸序列具有高结合特异性的TALE多肽。在本发明的一个优选的实施方案中，具有RVD RN、NN、NK、SN、NH、KN、HN、NQ、HH、RG、KH、RH和SS的多肽单体优先结合鸟嘌呤。在本发明的一个更有利的实施方案中，具有RVDRN、NK、NQ、HH、KH、RH、SS和SN的多肽单体优先结合鸟嘌呤，并由此允许产生对含有鸟嘌呤的靶核酸序列具有高结合特异性的TALE多肽。在本发明的一个甚至更有利的实施方案中，具有RVDHH、KH、NH、NK、NQ、RH、RN和SS的多肽单体优先结合鸟嘌呤，并由此允许产生对含有鸟嘌呤的靶核酸序列具有高结合特异性的TALE多肽酸。在另一有利的实施方案中，对鸟嘌呤具有高结合特异性的RVD是RN、NH、RH和KH。此外，RVD为NV的多肽单体优先结合腺嘌呤和鸟嘌呤。在本发明的更优选的实施方案中，RVD为H*、HA、KA、N*、NA、NC、NS、RA和S*的多肽单体以相当的亲和力结合腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。

核酸或DNA结合结构域的一个或多个多肽单体的预定N末端至C末端顺序决定了TALE多肽将结合的对应预定靶核酸序列。如本文所用，多肽单体和至少一个或多个半多肽单体被“特异性排序成靶向”目标基因组基因座或基因。在植物基因组中，天然的TALE结合位点总是以胸腺嘧啶(T)开头，这可以由TALE多肽的非重复N末端内的隐蔽(cryptic)信号指定；在一些情况下，此区域可称为重复序列0。在动物基因组中，TALE结合位点不一定必须以胸腺嘧啶(T)开头，并且TALE多肽可靶向以T、A、G或C开头的DNA序列。TALE单体的串联重复序列总是以半长重复序列或可能与重复的全长TALE单体的仅前20个氨基酸共享同一性的序列段结束，并且此半重复序列可称为半单体(图8)，其包括在术语“TALE单体”中。因此断定，被靶向的核酸或DNA的长度等于全长多肽单体的数量加二。

如Zhang等人,Nature Biotechnology 29:149-153(2011)所述，TALE多肽结合效率可通过在工程化的TALE DNA结合区的N末端或C末端位置处在工程化TALE中包括来自直接位于天然存在的TALE的DNA结合区的N末端或C末端的“加帽区”的氨基酸序列来提高。因此，在某些实施方案中，本文所述的TALE多肽还包含N末端加帽区和/或C末端加帽区。

N末端加帽区的示例性氨基酸序列是：

M D P I R S R T P S P A R E L L S G P Q P D G V Q P T A D R G V S P

P A G G P L D G L P A R R T M S R T R L P S P P A P S P A F S A D S

F S D L L R Q F D P S L F N T S L F D S L P P F G A H H T E A A T G

E W D E V Q S G L R A A D A P P P T M R V A V T A A R P P R A K P A

P R R R A A Q P S D A S P A A Q V D L R T L G Y S Q Q Q Q E K I K P

K V R S T V A Q H H E A L V G H G F T H A H I V A L S Q H P A A L G

T V A V K Y Q D M I A A L P E A T H E A I V G V G K Q W S G A R A L

E A L L T V A G E L R G P P L Q L D T G Q L L K I A K R G G V T A V

E A V H A W R N A L T G A P L N(SEQ ID NO:1)

C末端加帽区的示例性氨基酸序列是：

R P A L E S I V A Q L S R P D P A L A A L T N D H L V A L A C L G

G R P A L D A V K K G L P H A P A L I K R T N R R I P E R T S H R

V A D H A Q V V R V L G F F Q C H S H P A Q A F D D A M T Q F G M

S R H G L L Q L F R R V G V T E L E A R S G T L P P A S Q R W D R

I L Q A S G M K R A K P S P T S T Q T P D Q A S L H A F A D S L E

R D L D A P S P M H E G D Q T R A S(SEQ ID NO:2)

如本文所用，N末端加帽区、包含重复TALE单体的DNA结合结构域和C末端加帽区的预定“N末端”至“C末端”方向为本发明的d-TALE或多肽中的不同结构域的组织提供结构基础。

整个N末端和/或C末端加帽区并非增强DNA结合区的结合活性所必需的。因此，在某些实施方案中，N末端和/或C末端加帽区的片段包括在本文所述的TALE多肽中。

在某些实施方案中，本文所述的TALE多肽含有N末端加帽区片段，其包括N末端加帽区的至少10、20、30、40、50、54、60、70、80、87、90、94、100、102、110、117、120、130、140、147、150、160、170、180、190、200、210、220、230、240、250、260或270个氨基酸。在某些实施方案中，N末端加帽区片段氨基酸位于N末端加帽区的C末端(DNA结合区近端)。如Zhang等人,Nature Biotechnology 29:149-153(2011)所述，包括C末端240个氨基酸的N末端加帽区片段增强了与全长加帽区相等的结合活性，而包括C末端147个氨基酸的片段保留了全长加帽区80％以上的功效，并且包括C末端117个氨基酸的片段保留了全长加帽区50％以上的活性。

在一些实施方案中，本文所述的TALE多肽含有C末端加帽区片段，其包括C末端加帽区的至少6、10、20、30、37、40、50、60、68、70、80、90、100、110、120、127、130、140、150、155、160、170、180个氨基酸。在某些实施方案中，C末端加帽区片段氨基酸位于C末端加帽区的N末端(DNA结合区近端)。如Zhang等人,Nature Biotechnology 29:149-153(2011)所述，包括C末端68个氨基酸的C末端加帽区片段增强了与全长加帽区相等的结合活性，而包括C末端20个氨基酸的片段保留了全长加帽区50％以上的功效。

在某些实施方案中，本文所述的TALE多肽的加帽区不需要具有与本文提供的加帽区序列相同的序列。因此，在一些实施方案中，本文所述的TALE多肽的加帽区具有与本文提供的加帽区氨基酸序列至少50％、60％、70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同或共享同一性的序列。序列同一性与序列同源性相关。同源性比较可通过肉眼进行，或者更通常的是借助容易获得的序列比较程序进行。这些可商购获得的计算机程序可计算两个或更多个序列之间的同源性百分比(％)，并且还可计算两个或更多个氨基酸或核酸序列共享的序列同一性。在一些优选的实施方案中，本文所述的TALE多肽的加帽区具有与本文提供的加帽区氨基酸序列至少95％相同或共享同一性的序列。

序列同源性可由本领域已知的多种计算机程序中的任一种产生，所述计算机程序包括但不限于BLAST或FASTA。也可使用用于进行比对的合适的计算机程序，如GCGWisconsin Bestfit软件包。一旦软件产生了最佳比对，就可以计算％同源性，优选％序列同一性。软件通常将此作为序列比较的一部分并生成数值结果。

在本文所述的一些实施方案中，本发明的TALE多肽包括与一个或多个效应结构域连接的核酸结合结构域。术语“效应结构域”或“调控和功能结构域”是指具有不同于与核酸结合结构域识别的核酸序列结合的活性的多肽序列。通过将核酸结合结构域与一个或多个效应结构域组合，本发明的多肽可用于将由效应结构域介导的一种或多种功能或活性靶向核酸结合结构域特异性结合的特定靶DNA序列。

在本文所述的TALE多肽的一些实施方案中，由效应结构域介导的活性是生物活性。例如，在一些实施方案中，效应结构域是转录抑制子(即阻遏结构域)，诸如mSin相互作用结构域(SID)。SID4X结构域或Krüppel相关框(KRAB)或KRAB结构域的片段。在一些实施方案中，效应结构域是转录增强子(即激活结构域)，诸如VP16、VP64或p65激活结构域。在一些实施方案中，核酸结合例如与效应结构域连接，所述效应结构域包括但不限于转座酶、整合酶、重组酶、解离酶、转化酶、蛋白酶、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰化酶、组蛋白脱乙酰基酶、核酸酶、转录阻遏子、转录激活子、转录因子募集、蛋白质核定位信号或细胞摄取信号。

在一些实施方案中，效应结构域是表现出活性的蛋白质结构域，所述活性包括但不限于转座酶活性、整合酶活性、重组酶活性、解离酶活性、转化酶活性、蛋白酶活性、DNA甲基转移酶活性、DNA脱甲基酶活性、组蛋白乙酰化酶活性、组蛋白脱乙酰基酶活性、核酸酶活性、核定位信号活性、转录阻遏子活性、转录激活子活性、转录因子募集活性或细胞摄取信号活性。本发明的其他优选的实施方案可包括本文所述的活性的任何组合。

锌指核酸酶

在一些实施方案中，所述系统的核苷酸结合分子可以是锌指核酸酶、其功能片段或其变体。组合物可包含一种或多种锌指核酸酶或编码其的核酸。在一些情况下，核苷酸序列可包含锌指核酸酶的编码序列。用于在本发明的上下文中使用的其他优选的基因组编辑工具包括锌指系统和TALE系统。人工锌指(ZF)技术提供了一种可编程的DNA结合结构域类型，所述技术涉及ZF模块阵列以靶向基因组中的新DNA结合位点。ZF阵列中的每个指模块靶向三个DNA碱基。将定制的个别锌指结构域的阵列组装成ZF蛋白(ZFP)。

ZFP可包含功能结构域。第一合成锌指核酸酶(ZFN)是通过将ZF蛋白与IIS型限制酶FokI的催化结构域融合而开发的。(Kim,Y.G.等人,1994,Chimeric restrictionendonuclease,Proc.Natl.Acad.Sci.U.S.A.91,883-887；Kim,Y.G.等人,1996,Hybridrestriction enzymes:zinc finger fusions to FokI cleavage domain.Proc.Natl.Acad.Sci.U.S.A.93,1156-1160)。通过使用配对的ZFN异二聚体，可通过降低脱靶活性来获得增加的切割特异性，每个异二聚体靶向由短间隔子分隔的不同核苷酸序列。(Doyon,Y.等人,2011,Enhancing zinc-finger-nuclease activity with improved obligateheterodimeric architectures.Nat.Methods 8,74-79)。ZFP也可被设计为转录激活子和阻遏子，并且已用于靶向多种生物体中的许多基因。使用ZFN进行基因组编辑的示例性方法可见于例如美国专利号6,534,261、6,607,882、6,746,838、6,794,136、6,824,978、6,866,997、6,933,113、6,979,539、7,013,219、7,030,215、7,220,719、7,241,573、7,241,574、7,585,849、7,595,376、6,903,185和6,479,626，所有专利均具体地以引用的方式并入。

大范围核酸酶

在一些实施方案中，核苷酸结合结构域可以是大范围核酸酶、其功能片段或其变体。组合物可包含一种或多种大范围核酸酶或编码其的核酸。如本文所公开的，可通过大范围核酸酶进行编辑，所述大范围核酸酶是特征在于大识别位点(12至40个碱基对的双链DNA序列)的脱氧核糖核酸内切酶。在一些情况下，核苷酸序列可包含大范围核酸酶的编码序列。用于使用大范围核酸酶的示例性方法可见于美国专利号：8,163,514；8,133,697；8,021,867；8,119,361；8,119,381；8,124,369；和8,129,134，所述专利具体地以引用的方式并入。

在某些实施方案中，可在根据本发明的方法、组合物和试剂盒中使用核酸酶中的任一种，包括如本文所述的修饰的核酸酶。在特定的实施方案中，可将未修饰的核酸酶的核酸酶活性与如本文所述的修饰的核酸酶中的任一种的核酸酶活性进行比较，以例如比较例如脱靶或在靶效应。可替代地，可比较不同的修饰的核酸酶的核酸酶活性(或如本文所述的修饰的活性)，以例如比较例如脱靶或在靶效应。

接头

转座酶和Cas蛋白可通过接头缔合。术语“接头”是指连接蛋白质以形成融合蛋白的分子。通常，此类分子除了连接或保持蛋白质之间的某一最小距离或其他空间关系外，没有特定的生物活性。然而，在某些实施方案中，可选择接头以影响接头和/或融合蛋白的一些特性，诸如接头的折叠、净电荷或疏水性。

用于本文方法的合适接头包括直链或支链碳接头、杂环碳接头或肽接头。然而，如本文所用，接头也可以是共价键(碳-碳键或碳-杂原子键)。在特定的实施方案中，接头用于将Cas蛋白与转座酶分隔开足以确保每个蛋白质保留其所需功能特性的距离。肽接头序列可采用柔性延伸构象并且不表现出形成有序二级结构的倾向。在某些实施方案中，接头可以是化学部分，其可以是单体、二聚体、多聚体或聚合体。优选地，接头包含氨基酸。柔性接头中的典型氨基酸包括Gly、Asn和Ser。因此，在特定的实施方案中，接头包含Gly、Asn和Ser氨基酸中的一种或多种的组合。其他近中性氨基酸，诸如Thr和Ala，也可用于接头序列。示例性接头公开于Maratea等人(1985),Gene 40:39-46；Murphy等人(1986)Proc.Nat'l.Acad.Sci.USA 83:8258-62；美国专利号4,935,233；和美国专利号4,751,180中。

例如，可使用GlySer接头GGS、GGGS(SEQ ID NO:3)或GSG。GGS、GSG、GGGS(SEQ IDNO:3)或GGGGS(SEQ ID NO:4)接头可以3个重复(诸如(GGS)₃(SEQ ID NO:5)、(GGGGS)₃(SEQID NO:6))或5、6、7、9或甚至12或更多个重复使用，以提供合适的长度。在一些情况下，接头可以是(GGGGS)_3-15，例如，在一些情况下，接头可以是(GGGGS)_3-11，例如GGGGS(SEQ ID NO:4)、(GGGGS)₂(SEQ ID NO:7)、(GGGGS)₃(SEQ ID NO:6)、(GGGGS)₄(SEQ ID NO:8)、(GGGGS)₅(SEQ ID NO:9)、(GGGGS)₆(SEQID NO:10)、(GGGGS)₇(SEQ ID NO:11)、(GGGGS)₈(SEQ ID NO:12)、(GGGGS)₉(SEQ ID NO:13)、(GGGGS)₁₀(SEQ ID NO:14)或(GGGGS)₁₁(SEQ ID NO:15)。

在特定的实施方案中，本文优选使用接头诸如(GGGGS)₃(SEQ ID NO:6)。(GGGGS)₆(SEQ ID NO:10)、(GGGGS)₉(SEQ ID NO:13)或(GGGGS)₁₂(SEQ ID NO:16)可用作替代物。其他替代物包括(GGGGS)₁(SEQ ID NO:4)、(GGGGS)₂(SEQ ID NO:7)、(GGGGS)₄(SEQ ID NO:8)、(GGGGS)₅(SEQ ID NO:9)、(GGGGS)₇(SEQ ID NO:11)、(GGGGS)₈(SEQ ID NO:12)、(GGGGS)₁₀(SEQ ID NO:14)或(GGGGS)₁₁(SEQ ID NO:15)。在又一实施方案中，LEPGEKPYKCPECGKSFSQSGALTRHQRTHTR(SEQ ID NO:17)用作接头。在又一实施方案中，接头是XTEN接头。在特定的实施方案中，Cas蛋白通过LEPGEKPYKCPECGKSFSQSGALTRHQRTHTR(SEQ ID NO:17)接头连接到脱氨酶蛋白或其催化结构域。在其他特定的实施方案中，Cas蛋白的C末端通过LEPGEKPYKCPECGKSFSQSGALTRHQRTHTR(SEQ ID NO:17)接头连接到脱氨酶蛋白或其催化结构域的N末端。另外，N末端和C末端NLS也可用作接头(例如，PKKKRKVEASSPKKRKVEAS(SEQ ID NO:18))。

接头的实例在下表中示出。

表1

接头可用于指导RNA与功能结构域(激活子或阻遏子)之间，或Cas蛋白与转座酶之间。接头可用于设计适当量的“机械柔性”。

在某些实施方案中，一个或多个功能结构域是可控的，例如可诱导的。

靶向部分

所述系统还可包含一个或多个靶向部分。靶向部分可例如通过结合到表面受体蛋白而结合到具体的细胞或组织。同样，下表提供了可用于本发明的实践的示例性靶向部分，关于本发明的每个方面都提供了包含这样的靶向部分的系统。

表2

因此，在系统的一个实施方案中，靶向部分包含受体配体，例如像针对CD44受体的透明质酸、针对肝细胞的半乳糖；或抗体或其片段，诸如针对所需表面受体的结合抗体片段，并且对于每个包含受体配体、或抗体或其片段(诸如其诸如针对所需表面受体的结合片段)的靶向部分，本发明的一个方面是其中系统包含靶向部分，所述靶向部分包含受体配体、或抗体或其片段，诸如其诸如针对所需表面受体结合片段、或针对CD44受体的透明质酸、针对肝细胞的半乳糖(参见例如，Surace等人,“Lipoplexes targeting the CD44hyaluronic acid receptor for efficient transfection of breast cancer cells,”J.Mol Pharm 6(4):1062-73；doi:10.1021/mp800215d(2009)；Sonoke等人,“Galactose-modified cationic liposomes as a liver-targeting delivery system for smallinterfering RNA,”Biol Pharm Bull.34(8):1338-42(2011)；Torchilin,“Antibody-modified liposomes for cancer chemotherapy,”Expert Opin.Drug Deliv.5(9),1003-1025(2008)；Manjappa等人,“Antibody derivatization and conjugation strategies:application in preparation of stealth immunoliposome to targetchemotherapeutics to tumor,”J.Control.Release 150(1),2-22(2011)；Sofou S“Antibody-targeted liposomes in cancer therapy and imaging,”Expert Opin.DrugDeliv.5(2):189-204(2008)；Gao J等人,“Antibody-targeted immunoliposomes forcancer treatment,”Mini.Rev.Med.Chem.13(14):2026-2035(2013)；Molavi等人,“Anti-CD30 antibody conjugated liposomal doxorubicin with significantly improvedtherapeutic efficacy against anaplastic large cell lymphoma,”Biomaterials 34(34):8718-25(2013)，所述文献和其中引用的文件各自在此以引用的方式并入本文)。

此外，鉴于本文的教义，本领域技术人员可在本发明的实践中容易地选择所需的靶向部分并将其应用到本发明的脂质实体。本发明涵盖一个实施方案，其中所述系统包含具有靶向部分的脂质实体。

核定位信号

在一些实施方案中，本文的系统和组合物还包含一个或多个核定位信号(NLS)。NLS可能能够驱动组分例如Cas和/或转座酶在细胞核中积聚至所需的量。

在某些实施方案中，至少一个核定位信号(NLS)附接至Cas和/或转座酶。在一些实施方案中，附接了一个或多个C末端或N末端NLS(并因此核酸分子编码Cas和/或转座酶可包括编码NLS，使得表达的产物已附接或连接NLS)。在一个优选的实施方案中，附接C末端NLS用于在真核细胞例如人细胞中实现最佳表达和核靶向。

NLS可以是单分型的。在某些情况下，NLS可以是双分型的。这些类型的NLS可进一步分类为单分型或双分型。双分型NLS中的两个碱性氨基酸簇由短间隔子序列(例如，约10个氨基酸)分隔开，而单分型NLS则不是。在一些情况下，一个或多个单分型NSL附接到Cas和/或转座酶。在某些情况下，一个或多个双分型NSL附接到Cas和/或转座酶。在一些情况下，一个或多个单分型NSL和一个或多个双分型NSL附接到Cas和/或转座酶。

NLS的非限制性实例包括源自以下的NLS序列：SV40病毒大T-抗原的NLS，具有氨基酸序列PKKKRKV(SEQ ID NO:26)；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKK(SEQ ID NO:27)的核质蛋白双分型NLS)；具有氨基酸序列PAAKRVKLD(SEQ ID NO:28)或RQRRNELKRS(SEQ ID NO:29)的c-myc NLS；具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:30)的hRNPA1 M9 NLS；来自输入蛋白-α(importin-alpha)的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:31)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:32)和PPKKARED(SEQ ID NO:33)；人p53的序列PQPKKKPL(SEQ IDNO:34)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:35)；流感病毒NS1的序列DRLRR(SEQ ID NO:36)和PKQKKRK(SEQ ID NO:37)；丁型肝炎病毒抗原的序列RKLKKKIKKL(SEQ IDNO:38)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:39)；人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:40)；以及类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:41)。

在一些实施方案中，NLS是异源NLS。例如，NLS并非天然存在于它所附接的分子(例如，Cas和/或转座酶)中。

一般来讲，核定位活性的强度可源自核酸靶向效应蛋白中NLS的数量、使用的特定NLS或这些因素的组合。可通过任何合适的技术来检测核中的积聚。例如，可检测的标志物可与核酸靶向蛋白融合，使得细胞内的位置可视化，诸如与用于检测细胞核位置的手段(例如，对细胞核具有特异性的染色剂诸如DAPI)组合。

在一些实施方案中，本文所述的载体(例如，包含编码Cas和/或转座酶的多核苷酸的那些)包含一个或多个核定位序列(NLS)，诸如约或多于约1、2、3、4、5、6、7、8、9、10或更多个NLS。更特别地，载体包含一个或多个并非天然存在于Cas和/或转座酶中的NLS。最特别地，NLS存在于Cas和/或转座酶序列的载体5’和/或3’中。在一些实施方案中，Cas和/或转座酶在氨基末端处或附近包含约或多于约1、2、3、4、5、6、7、8、9、10或更多个NLS，在羧基末端处或附近包含约或多于约1、2、3、4、5、6、7、8、9、10或更多个NLS，或这些的组合(例如，在氨基末端处零个或至少一个或多个NLS和在羧基末端处零个或至少一个或多个NLS)。当存在多于一个NLS时，每个NLS可独立于其他NLS进行选择，使得单个NLS可以多于一个拷贝存在和/或与以一个或多个拷贝存在的一个或多个其他NLS组合。在一些实施方案中，当NLS的最近氨基酸从N末端或C末端沿着多肽链在约1、2、3、4、5、10、15、20、25、30、40、50或更多个氨基酸内时，NLS被认为在N末端或C末端附近。

在某些实施方案中，其他定位标签可融合至Cas和/或转座酶，诸如但不限于用于定位到细胞中的特定位点，诸如细胞器，诸如线粒体、质体、叶绿体、囊泡、高尔基体、(核或细胞)膜、核糖体、核仁、ER、细胞骨架、液泡、中心体、核小体、颗粒、中心粒等。

异源组分

在一些实施方案中，所述系统中的组分可以是异源的，即它们不会一起天然存在于同一细胞或生物体中。例如，鉴于系统中的其他组分，Cas蛋白、转座酶、其他功能结构域、指导分子、供体多核苷酸和靶序列中的一个或多个可以是异源的(即它们不会与系统的其他组分一起天然存在于同一细胞或生物体中)。

在一些实例中，所述系统包含一种或多种异源指导分子。异源指导分子可能不会与系统中的Cas蛋白、转座酶天然存在于同一细胞或生物体中。此种指导分子可包含不会与指导分子的其余部分天然存在于同一分子中的异源指导序列。在一些实例中，指导分子可能不存在于自然界中，例如，可以是人工合成的。

在一些实例中，所述系统可包含一种或多种异源供体多核苷酸。异源供体多核苷酸可能不会与系统中的其他组分天然存在于同一细胞或生物体中。这种供体多核苷酸可包含不会与指导分子的其余部分天然存在于同一分子中的异源插入序列。在一些实例中，异源供体多核苷酸可能不存在于自然界中，例如，可以是人工合成的。

嵌合系统

在一些实施方案中，所述系统包含源自第一物种的一种或多种Tn7转座酶和源自不同于第一物种的第二物种的一种或多种I-B型Cas蛋白。在一些实例中，所述系统具有两个TnsD1，一个来自第一物种，并且另一个来自第二物种。在一些实例中，所述系统包含来自第一物种的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及来自第二物种的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸。在一些情况下，所述系统还可包含第二物种的Cas6和Cas7。

在一个实例中，所述系统包含t24的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及IB29的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸(以及任选的Cas6和Cas7)。在一个实例中，所述系统包含t24的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及IB18的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸(以及任选的Cas6和Cas7)。在一个实例中，所述系统包含IB29的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及t24的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸(以及任选的Cas6和Cas7)。在一个实例中，所述系统包含IB29的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及IB18的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸(以及任选的Cas6和Cas7)。在一个实例中，所述系统包含IB18的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及t24的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸(以及任选的Cas6和Cas7)。在一个实例中，所述系统包含IB18的Cas5、Cas6、Cas7、Cas8、crRNA和TnsD1以及IB29的TnsD1、TnsC、TnsB、TnsA和供体多核苷酸(以及任选的Cas6和Cas7)。

多核苷酸和载体

本文的系统可包含一种或多种多核苷酸。多核苷酸可包含Cas蛋白、转座酶、指导分子、供体多核苷酸或其任何组合的编码序列。本公开还提供了包含本文的一种或多种多核苷酸的载体或载体系统。载体或载体系统包括本文的递送部分中描述的那些。

术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”和“寡核苷酸”可互换使用。它们是指任何长度的核苷酸的聚合形式，脱氧核糖核苷酸或核糖核苷酸或其类似物。多核苷酸可具有任何三维结构，并且可执行任何已知或未知的功能。以下是多核苷酸的非限制性实例：基因或基因片段的编码或非编码区、连锁分析定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针和引物。所述术语还涵盖具有合成骨架的核酸样结构，参见例如，Eckstein,1991；Baserga等人,1992；Milligan,1993；WO 97/03211；WO 96/39154；Mata,1997；Strauss-Soukup,1997；和Samstag,1996。多核苷酸可包含一种或多种修饰的核苷酸，诸如甲基化的核苷酸和核苷酸类似物。如果存在，可在聚合物组装之前或之后赋予对核苷酸结构的修饰。核苷酸序列可能间杂有非核苷酸组分。多核苷酸可在聚合后进一步修饰，诸如通过与标记组分缀合。如本文所用，术语“野生型”是本领域技术人员所理解的术语，并且意指与突变体或变体形式不同的存在于自然界中的生物体、菌株、基因或特征的典型形式。“野生型”可以是基线。如本文所用，术语“变体”应理解为具有偏离存在于自然界中的模式的品质的表现。术语“非天然存在的”或“工程化的”可互换使用，并且指示人工的参与。当提及核酸分子或多肽时，所述术语意指核酸分子或多肽至少基本上不含至少一种在自然界中与它们天然相关联且如在自然界中发现的其他组分。“互补性”是指核酸通过传统的沃森-克里克碱基配对或其他非传统类型与另一个核酸序列形成氢键的能力。互补性百分比指示核酸分子中可与第二个核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个中的5、6、7、8、9、10个为50％、60％、70％、80％、90％和100％互补)。“完全互补”意指核酸序列的所有连续残基将与第二个核酸序列中相同数量的连续残基氢键合。如本文所用，“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50或更多个核苷酸的区域内至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补性程度，或是指在严格条件下杂交的两种核酸。如本文所用，用于杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交并且基本上不与非靶序列杂交的条件。严格条件通常是序列依赖性的，并且根据多种因素变化。一般来讲，序列越长，序列与其靶序列特异性杂交的温度越高。严格条件的非限制性实例详细描述于Tijssen(1993),Laboratory Techniques In Biochemistry And MolecularBiology-Hybridization With Nucleic Acid Probes Part I,Second Chapter“Overviewof principles of hybridization and the strategy of nucleic acid probe assay”,Elsevier,N.Y.中。在参考多核苷酸序列的情况下，还设想了互补或部分互补的序列。这些优选能够在高度严格的条件下与参考序列杂交。通常，为了使杂交率最大化，选择严格性相对较低的杂交条件：比热熔点(Tm)低约20℃至25℃。Tm是在限定的离子强度和pH下，50％的具体靶序列与溶液中完全互补的探针杂交时的温度。通常，为了要求杂交序列至少约85％的核苷酸互补性，选择高度严格的洗涤条件，以使其比Tm低约5℃至15℃。能够与给定序列杂交的序列被称为给定序列的“补体”。

如本文所用，术语“基因组基因座”或“基因座”是基因或DNA序列在染色体上的具体位置。“基因”是指编码多肽或RNA链的DNA或RNA段，所述多肽或RNA链在生物体中发挥功能性作用，并且因此是活生物体遗传的分子单位。可以认为基因包括调控基因产物产生的区域，无论此类调控序列是否与编码序列和/或转录的序列相邻。因此，基因包括但不一定限于，启动子序列、终止子、翻译调控序列诸如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点以及基因座控制区。如本文所用，“基因组基因座的表达”或“基因表达”是使用来自基因的信息合成功能性基因产物的过程。基因表达的产物往往是蛋白质，但在非蛋白质编码基因诸如rRNA基因或tRNA基因中，产物是功能性RNA。所有已知的生命-真核生物(包括多细胞生物体)、原核生物(细菌和古生菌)和病毒都使用基因表达的过程来产生功能性产物以生存。如本文所用，基因或核酸的“表达”不仅涵盖细胞基因表达，还涵盖核酸在克隆系统和任何其他环境中的转录和翻译。如本文所用，“表达”还指多核苷酸从DNA模板转录(诸如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后被翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可统称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可包括真核细胞中mRNA的剪接。术语“多肽”、“肽”和“蛋白质”可在本文中互换使用，以指代任何长度的氨基酸聚合物。聚合物可以是直链或支链的，其可包含修饰的氨基酸，并且其可间杂有非氨基酸。所述术语还涵盖已被修饰的氨基酸聚合物；所述修饰例如，二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操纵(诸如与标记组分缀合)。如本文所用，术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸以及D或L光学异构体，以及氨基酸类似物和肽模拟物。如本文所用，术语“结构域”或“蛋白质结构域”是指蛋白质序列的一部分，其可以独立于蛋白质链的其余部分而存在并发挥作用。如各方面所述，序列同一性与序列同源性相关。同源性比较可通过肉眼进行，或者更通常的是借助容易获得的序列比较程序进行。这些可商购获得的计算机程序可计算两个或更多个序列之间的同源性百分比(％)，并且还可计算两个或更多个氨基酸或核酸序列共享的序列同一性。

在某些实施方案中，多核苷酸序列是重组DNA。在其他实施方案中，多核苷酸序列还包含如本文别处所述的另外的序列。在某些实施方案中，核酸序列是在体外合成的。

本公开的方面涉及编码本文任何实施方案中提及的系统的一种或多种组分的多核苷酸分子。在某些实施方案中，多核苷酸分子还可包含调控序列。通过指导而非限制，多核苷酸序列可以是表达质粒、小环、慢病毒载体、逆转录病毒载体、腺病毒或腺相关病毒载体、piggyback载体或tol2载体的一部分。在某些实施方案中，多核苷酸序列可以是双顺反子表达构建体。在其他实施方案中，分离的多核苷酸序列可以并入细胞基因组中。在又其他实施方案中，分离的多核苷酸序列可以是细胞基因组的一部分。在其他实施方案中，分离的多核苷酸序列可包含在人工染色体中。在某些实施方案中，分离的多核苷酸序列的5’端和/或3’端可被修饰成提高序列的稳定性，从而主动避免降解。在某些实施方案中，分离的多核苷酸序列可包含在噬菌体中。在其他实施方案中，分离的多核苷酸序列可包含在土壤杆菌物种中。在某些实施方案中，分离的多核苷酸序列是冻干的。

密码子优化

本公开的方面涉及编码如本文实施方案中任一项所述的系统的一种或多种组分的多核苷酸分子，其中多核苷酸分子的至少一个或多个区域可被密码子优化用于在真核细胞中表达。在某些实施方案中，编码如本文实施方案中任一项所述的系统的一种或多种组分的多核苷酸分子被优化用于在哺乳动物细胞或植物细胞中的表达。

密码子优化的序列的实例在这种情况下是被优化用于在真核生物例如人中表达(即，被优化用于在人中表达)的序列，或被优化用于在如本文所讨论的另一种真核生物、动物或哺乳动物中表达的序列；参见例如，国际专利公布号WO 2014/093622(PCT/US2013/074667)中的SaCas9人密码子优化的序列，作为密码子优化的序列的实例(根据本领域和本公开的知识，密码子优化编码核酸分子，特别是关于效应蛋白，在本领域技术人员的范围内)。尽管这是优选的，但应理解其他实例也是可能的，并且对于除人以外的宿主物种的密码子优化或对于具体器官的密码子优化是已知的。在一些实施方案中，编码Cas蛋白和/或转座酶的酶编码序列被密码子优化用于在特定细胞诸如真核细胞中表达。真核细胞可以是特定生物体的或衍生自特定生物体的那些细胞，所述生物体诸如植物或哺乳动物，包括但不限于本文讨论的人或非人真核生物或动物或哺乳动物，例如小鼠、大鼠、兔、狗、牲畜，或非人哺乳动物或灵长类动物。在一些实施方案中，可排除用于修饰人类的种系遗传特性的方法和/或用于修饰动物的遗传特性的方法，所述方法可能导致他们遭受痛苦而对人或动物以及由此类方法获得的动物没有任何实质性医学益处。一般来讲，密码子优化是指通过将天然序列的至少一个密码子(例如，约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)替换为在宿主细胞的基因中更频繁或最频繁使用的密码子，同时保持天然氨基酸序列，以增强在目标宿主细胞中的表达的修饰核酸序列的过程。

不同物种对特定氨基酸的某些密码子表现出特定的偏好。密码子偏好(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关，除其他事项之外，据信所述翻译效率继而依赖于被翻译的密码子的特性和特定转运RNA(tRNA)分子的可用性。所选择的tRNA在细胞中的优势通常是肽合成中最频繁使用的密码子的反映。因此，可基于密码子优化来定制基因用于在给定生物体中最佳基因表达。密码子使用表容易获得，例如，可在www.kazusa.orjp/codon/获得的“密码子使用数据库(Codon Usage Database)”，并且这些表可以多种方式改编。参见Nakamura,Y.等人“Codon usage tabulated from theinternational DNA sequence databases:status for the year 2000”Nucl.AcidsRes.28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，诸如Gene Forge(Aptagen；Jacobus,PA)也是可获得的。在一些实施方案中，在编码DNA/RNA靶向Cas蛋白的序列中的一个或多个密码子(例如，1、2、3、4、5、10、15、20、25、50或更多个或所有密码子)对应于特定氨基酸的最频繁使用的密码子。

插入多核苷酸的方法

本公开还提供了将多核苷酸插入细胞中的靶核酸中的方法，所述方法包括向细胞中引入：(a)一种或多种转座酶(例如，CRISPR相关转座酶)或其功能片段，(b)核苷酸结合分子。在一些实例中，本公开提供了将供体多核苷酸插入细胞中的靶多核苷酸中的方法，所述方法包括向细胞中引入：一种或多种CRISPR相关Tn7转座酶或其功能片段；一种或多种I-B型Cas蛋白；和指导分子，所述指导分子能够与I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

组分(a)、(b)中的一种或多种可由与在细胞中表达的调控序列可操作地连接的核酸表达。将组分(a)、(b)中的一种或多种引入粒子中。粒子包含核糖核蛋白(RNP)。细胞是原核细胞。细胞是真核细胞。细胞是哺乳动物细胞、非人灵长类动物的细胞或人细胞。细胞是植物细胞。

在一些情况下，将供体多核苷酸插入细胞中的靶多核苷酸中的方法，所述方法包括向细胞中引入：一种或多种转座酶(例如，CRISPR相关转座酶)；Cas蛋白；和指导分子，所述指导分子能够与Cas蛋白复合并引导指导物-Cas蛋白复合物与靶核酸的靶序列的序列特异性结合。一种或多种CRISPR相关转座子可包含一种或多种转座酶和待插入的供体多核苷酸。

免疫正交直系同源物

在一些实施方案中，当需要在受试者中表达或施用本文的系统的一种或多种组分(例如，转座酶、核苷酸结合分子)时，可通过顺序表达或向受试者施用转座子复合物的组分的免疫正交直系同源物来降低所述组分的免疫原性。如本文所用，术语“免疫正交直系同源物”是指具有相似或基本相同的功能或活性但与彼此产生的免疫反应不具有交叉反应性或具有低交叉反应性的直系同源蛋白质。在一些实施方案中，此类直系同源物的顺序表达或施用引发低的二次免疫反应或不引发二次免疫反应。免疫正交直系同源物可避免被抗体(例如，在表达或施用直系同源物之前宿主中存在的抗体)中和。表达直系同源物的细胞可避免被宿主的免疫系统(例如，被激活的CTL)清除。在一些实例中，来自不同物种的CRISPR酶直系同源物可以是免疫正交直系同源物。

可通过分析一组候选直系同源物的序列、结构和/或免疫原性来鉴定免疫正交直系同源物。在示例性方法中，一组免疫正交直系同源物可通过以下来鉴定：a)比较一组候选直系同源物(例如，来自不同物种的直系同源物)的序列，以鉴定具有低序列相似性或不具有序列相似性的候选物亚组；b)评估候选物亚组成员之间的免疫重叠，以鉴定不具有免疫重叠或具有低免疫重叠的候选物。在一些情况下，候选物之间的免疫重叠可通过确定候选直系同源物与宿主的MHC(例如，MHC I型和/或MHC II)之间的结合(例如，亲和力)来评估。可替代地或另外地，候选物之间的免疫重叠可通过确定候选直系同源物的B细胞表位来评估。在一个实例中，可使用描述于Moreno AM等人,BioRxiv,在线发布于2018年1月10日,doi:doi.org/10.1101/245985中的方法来鉴定免疫正交直系同源物。

递送

本公开还提供了用于将本文的系统和组合物的组分引入细胞、组织、器官或生物体中的递送系统。递送系统可包含一种或多种递送媒介物和/或货物。示例性递送系统和方法包括描述于Feng Zhang等人,(WO2016106236A1)的段落[00117]至[00278]以及Lino CA等人,Delivering CRISPR:a review of the challenges and approaches,DRUGDELIVERY,2018,第25卷,第1期,1234–1257的第1241-1251页和表1中的那些，所述文献以引用的方式整体并入本文。

在一些实施方案中，递送系统可用于将系统和组合物的组分引入植物细胞中。例如，可使用电穿孔、显微注射、植物细胞原生质体的气溶胶束注射、基因枪(biolistic)法、DNA粒子轰击和/或土壤杆菌介导的转化将组分递送至植物。植物的方法和递送系统的实例包括描述于Fu等人,Transgenic Res.2000年2月；9(1):11-9；Klein RM等人,Biotechnology.1992；24:384-6；Casas AM等人,Proc Natl Acad Sci U S A.1993年12月1日；90(23):11212–11216；和美国专利号5,563,055，Davey MR等人,Plant Mol Biol.1989Sep；13(3):273-85中的那些，所述文献和专利以引用的方式整体并入本文。

货物

递送系统可包含一种或多种货物。货物可包含本文的系统和组合物的一种或多种组分。货物可包含以下中的一种或多种：i)编码一种或多种Cas蛋白的质粒；ii)编码一种或多种指导RNA的质粒，iii)一种或多种Cas蛋白的mRNA；iv)一种或多种指导RNA；v)一种或多种Cas蛋白；vi)其任何组合。在一些实例中，货物可包含编码一种或多种Cas蛋白和一种或多种(例如，多种)指导RNA的质粒。在一些实施方案中，货物可包含编码一种或多种Cas蛋白的mRNA和一种或多种指导RNA。

在一些实例中，货物可包含一种或多种Cas蛋白和一种或多种指导RNA，例如，以核糖核蛋白复合物(RNP)的形式。核糖核蛋白复合物可通过本文的方法和系统递送。在一些情况下，核糖核蛋白可通过基于多肽的穿梭剂递送。在一个实例中，核糖核蛋白可使用合成肽递送，所述合成肽包含与细胞穿透结构域(CPD)可操作地连接的内体泄漏结构域(ELD)、与富含组氨酸的结构域和CPD可操作地连接的ELD，例如，如WO2016161516中所述。RNP也可用于将组合物和系统递送至植物细胞，例如，如Wu JW等人,Nat Biotechnol.2015年11月；33(11):1162-4中所述。

物理递送

在一些实施方案中，可通过物理递送方法将货物引入细胞。物理方法的实例包括显微注射、电穿孔和流体动力学递送。核酸和蛋白质都可使用此类方法来递送。例如，Cas蛋白可在体外制备、分离、(如果需要的话，再折叠、纯化)，并引入细胞。

显微注射

将货物直接显微注射到细胞可实现高效率，例如，高于90％或约100％。在一些实施方案中，可使用显微镜和针头(例如，直径为0.5-5.0μm)进行显微注射以刺穿细胞膜并将货物直接递送至细胞内的靶位点。显微注射可用于体外和离体递送。

可显微注射包含Cas蛋白和/或指导RNA的编码序列的质粒、mRNA和/或指导RNA。在一些情况下，显微注射可用于i)将DNA直接递送至细胞核，和/或ii)将mRNA(例如，体外转录的)递送至细胞核或细胞质。在某些实例中，显微注射可用于将sgRNA直接递送至细胞核并将Cas编码mRNA递送至细胞质，从而例如促进Cas的翻译和向细胞核的穿梭。

显微注射可用于生成遗传修饰的动物。例如，可将基因编辑货物注射到受精卵中，以允许进行高效的种系修饰。此种方法可产生带有所需修饰的正常胚胎和足月小鼠幼崽。显微注射还可用于例如使用CRISPRa和CRISPRi来提供瞬时上调或下调细胞基因组内的特定基因。

电穿孔

在一些实施方案中，货物和/或递送媒介物可通过电穿孔递送。电穿孔可使用脉冲高压电流在悬浮于缓冲液中细胞的细胞膜中瞬时打开纳米大小的孔，从而使流体动力学直径为数十纳米的组分流入细胞中。在一些情况下，电穿孔可用于各种细胞类型并高效地将货物转移到细胞中。电穿孔可用于体外和离体递送。

电穿孔也可用于通过施加特定电压和试剂，例如通过核转染将货物递送到哺乳动物的细胞核中。此类方法包括描述于Wu Y等人(2015).Cell Res 25:67–79；Ye L等人(2014).Proc Natl Acad Sci USA 111:9591–6；Choi PS,Meyerson M.(2014).Nat Commun5:3728；Wang J,Quake SR.(2014).Proc Natl Acad Sci 111:13157–62中的那些。电穿孔也可用于体内递送货物，例如，通过使用描述于Zuckermann M等人(2015).Nat Commun 6:7391中的方法。

流体动力学递送

流体动力学递送也可用于递送货物，例如用于体内递送。在一些实例中，流体动力学递送可通过将含有基因编辑货物的大体积(8％-10％体重)溶液快速推入受试者(例如，动物或人)的血流中来进行，例如，对于小鼠，通过尾静脉推入血流中。由于血液是不可压缩的，大剂量的液体可能导致流体动力学压力增加，从而暂时增强对内皮细胞和实质细胞的渗透性，从而使通常不能穿过细胞膜的货物进入细胞中。这种方法可用于递送裸DNA质粒和蛋白质。递送的货物可富集于肝脏、肾脏、肺、肌肉和/或心脏。

转染

可通过用于将核酸引入细胞中的转染方法将货物例如核酸引入细胞。转染方法的实例包括磷酸钙介导的转染、阳离子转染、脂质体转染、树状聚合物转染、热休克转染、磁转染、脂质体转染、刺穿转染(impalefection)、光学转染、专利剂(proprietary agent)增强的核酸摄取。

递送媒介物

递送系统可包含一种或多种递送媒介物。递送媒介物可将货物递送到细胞、组织、器官或生物体(例如，动物或植物)中。货物可被包装、运送或以其他方式与递送媒介物缔合。递送媒介物可基于待递送的货物的类型来选择，并且/或者递送是体外和/或体内的。递送媒介物的实例包括载体、病毒、非病毒载体和本文所述的其他递送试剂。

根据本发明的递送媒介物的最大尺寸(例如直径)可小于100微米(μm)。在一些实施方案中，递送媒介物的最大尺寸小于10μm。在一些实施方案中，递送媒介物的最大尺寸可小于2000纳米(nm)。在一些实施方案中，递送媒介物的最大尺寸可小于1000纳米(nm)。在一些实施方案中，递送媒介物的最大尺寸(例如直径)可小于900nm、小于800nm、小于700nm、小于600nm、小于500nm、小于400nm、小于300nm、小于200nm、小于150nm或小于100nm、小于50nm。在一些实施方案中，递送媒介物的最大尺寸可在25nm与200nm之间。

在一些实施方案中，递送媒介物可以是或包含粒子。例如，递送媒介物可以是或包含纳米粒子(例如，最大尺寸(例如，直径)不大于1000nm的粒子)。粒子可以不同的形式提供，例如，作为固体粒子(例如，金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、粒子的悬浮液或其组合。可制备金属、电介质和半导体粒子，以及混合结构(例如，核壳粒子)。纳米粒子也可用于将组合物和系统递送至植物细胞，例如，如WO 2008042156、US20130185823和WO2015089419中所述。

载体

系统、组合物和/或递送系统可包含一种或多种载体。本公开还包括载体系统。载体系统可包含一种或多种载体。在一些实施方案中，载体是指一种核酸分子，其能够转运已与其连接的另一种核酸。载体包括单链、双链或部分双链的核酸分子；包含一个或多个游离端、不含游离端(例如，环状)的核酸分子；包含DNA、RNA或两者的核酸分子；和本领域已知的其他种类的多核苷酸。载体可以是质粒，例如环状双链DNA环，其中可诸如通过标准分子克隆技术插入另外的DNA区段。某些载体可能能够在其所引入的宿主细胞中自主复制(例如具有细菌复制起点的细菌载体和游离型哺乳动物载体)。一些载体(例如非游离型哺乳动物载体)在引入宿主细胞后整合到宿主细胞的基因组中，并由此随宿主基因组一起复制。在某些实例中，载体可以是例如能够引导与它们可操作地连接的基因的表达的表达载体。在一些情况下，表达载体可用于在真核细胞中表达。在重组DNA技术中有用的常见表达载体通常呈质粒形式。

载体的实例包括pGEX、pMAL、pRIT5、大肠杆菌表达载体(例如，pTrc、pET 11d)、酵母表达载体(例如，pYepSec1、pMFa、pJRY88、pYES2和picZ)、杆状病毒载体(例如，用于在昆虫细胞诸如SF9细胞中表达)(例如，pAc系列和pVL系列)、哺乳动物表达载体(例如，pCDM8和pMT2PC)。

载体可包含i)Cas编码序列，和/或ii)单个或至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少12个、至少14个、至少16个、至少32个、至少48个、至少50个指导RNA编码序列。在单个载体中，每个RNA编码序列都可以有启动子。可替代地或另外地，在单个载体中，可能存在控制(例如，驱动转录和/或表达)多个RNA编码序列的启动子。

在一些实施方案中，本文的组合物或系统中的组分(或其编码序列)可包含在单个载体中。例如，单个载体可包含一种或多种CRISPR相关Tn7转座酶、一种或多种Cas蛋白和一种或多种指导分子的编码序列。在某些实施方案中，本文的组合物或系统中的组分(或其编码序列)可包含在单独的载体中。在一些实例中，第一载体可包含一种或多种CRISPR相关Tn7转座酶的编码序列；第二载体可包含一种或多种Cas蛋白的编码序列；第三载体可包含一种或多种指导分子的编码序列。在一些实例中，第一载体可包含一种或多种CRISPR相关Tn7转座酶和一种或多种Cas蛋白的编码序列；第二载体可包含一种或多种指导分子的编码序列。在一些实例中，第一载体可包含一种或多种CRISPR相关Tn7转座酶的编码序列；第二载体可包含一种或多种Cas蛋白和一种或多种指导分子的编码序列。在一些实例中，第一载体可包含一种或多种CRISPR相关Tn7转座酶和一种或多种指导分子的编码序列；第二载体可包含一种或多种Cas蛋白的编码序列。

调控元件

载体可包含一种或多种调控元件。调控元件可与Cas蛋白、辅助蛋白、指导RNA(例如，单指导RNA、crRNA和/或tracrRNA)或其组合的编码序列可操作地连接。术语“可操作地连接”旨在表示目标核苷酸序列以允许所述核苷酸序列表达(例如，在体外转录/翻译系统中或当载体被引入宿主细胞中时在宿主细胞中表达)的方式与调控元件连接。在某些实例中，载体可包含：与编码Cas蛋白的核苷酸序列可操作地连接的第一调控元件，和与编码指导RNA的核苷酸序列可操作地连接的第二调控元件。

调控元件的实例包括启动子、增强子、内部核糖体进入位点(IRES)和其他表达控制元件(例如，转录终止信号，诸如多腺苷酸化信号和poly-U序列)。此类调控元件描述于例如Goeddel,GENE EXPRESSION TECHNOLOGY:METHODS IN ENZYMOLOGY 185,AcademicPress,San Diego,Calif.(1990)中。调控元件包括引导核苷酸序列在许多类型的宿主细胞中组成型表达的那些和引导核苷酸序列仅在某些宿主细胞中表达的那些(例如，组织特异性调控序列)。组织特异性启动子可主要引导在所需的目标组织中的表达，所述组织诸如肌肉、神经元、骨、皮肤、血液、具体的器官(例如肝脏、胰腺)或具体的细胞类型(例如淋巴细胞)。调控元件还可以时间依赖性方式(诸如以细胞周期依赖性或发育阶段依赖性方式)引导表达，所述表达可能是或也可能不是组织或细胞类型特异性的。

启动子的实例包括一个或多个pol III启动子(例如，1、2、3、4、5或更多个pol III启动子)、一个或多个pol II启动子(例如，1、2、3、4、5或更多个pol II启动子)、一个或多个pol I启动子(例如，1、2、3、4、5或更多个pol I启动子)，或其组合。pol III启动子的实例包括但不限于U6和H1启动子。pol II启动子的实例包括但不限于逆转录病毒劳斯肉瘤病毒(RSV)LTR启动子(任选地带有RSV增强子)、巨细胞病毒(CMV)启动子(任选地带有CMV增强子)、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EF1α启动子。

病毒载体

货物可通过病毒递送。在一些实施方案中，使用病毒载体。病毒载体可包含用于包装成病毒(例如，逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒和腺相关病毒)的病毒衍生的DNA或RNA序列。病毒载体还包括由病毒携带的用于转染到宿主细胞中的多核苷酸。病毒和病毒载体可用于体外、离体和/或体内递送。

腺相关病毒(AAV)

本文的系统和组合物可通过腺相关病毒(AAV)递送。AAV载体可用于此种递送。AAV属于依赖病毒属(Dependovirus)和细小病毒科(Parvoviridae)，是一种单链DNA病毒。在一些实施方案中，AAV可提供所提供DNA的持久性来源，因为AAV递送的基因组材料可例如作为外源性DNA无限期地存在于细胞中或者具有一些修饰直接整合到宿主DNA中。在一些实施方案中，AAV不会引起人的任何疾病或与人的任何疾病有关。病毒本身能够高效地感染细胞，同时几乎不会引起先天性或适应性免疫反应或相关毒性。

可在本文中使用的AAV的实例包括AAV-1、AAV-2、AAV-3、AAV-4、AAV-5、AAV-6、AAV-8和AAV-9。AAV的类型可根据待靶向的细胞来选择；例如，可选择AAV血清型1、2、5或混合衣壳AAV1、AAV2、AAV5或其任何组合用于靶向脑或神经元细胞；并且可选择AAV4用于靶向心脏组织。AAV8可用于递送至肝脏。基于AAV-2的载体最初被提议用于CFTR向CF气道的递送，其他血清型诸如AAV-1、AAV-5、AAV-6和AAV-9在肺上皮的多种模型中表现出改善的基因转移效率。AAV靶向的细胞类型的实例描述于Grimm,D.等人,J.Virol.82:5887-5911(2008))中，并且如下所示：

表3

细胞系	AAV-1	AAV-2	AAV-3	AAV-4	AAV-5	AAV-6	AAV-8	AAV-9
									Huh-7	13	100	2.5	0.0	0.1	10	0.7	0.0
HEK293	25	100	2.5	0.1	0.1	5	0.7	0.1
									HeLa	3	100	2.0	0.1	6.7	1	0.2	0.1
HepG2	3	100	16.7	0.3	1.7	5	0.3	ND
									Hep1A	20	100	0.2	1.0	0.1	1	0.2	0.0
911	17	100	11	0.2	0.1	17	0.1	ND
									CHO	100	100	14	1.4	333	50	10	1.0
COS	33	100	33	3.3	5.0	14	2.0	0.5
									MeWo	10	100	20	0.3	6.7	10	1.0	0.2
NIH3T3	10	100	2.9	2.9	0.3	10	0.3	ND
									A549	14	100	20	ND	0.5	10	0.5	0.1
HT1180	20	100	10	0.1	0.3	33	0.5	0.1
									单核细胞	1111	100	ND	ND	125	1429	ND	ND
不成熟DC	2500	100	ND	ND	222	2857	ND	ND
									成熟DC	2222	100	ND	ND	333	3333	ND	ND

AAV粒子可在HEK 293 T细胞中产生。一旦产生了具有具体趋向性的粒子，就会使用它们以与天然病毒粒子一样的方式来感染靶细胞系。这可能允许CRISPR-Cas组分在感染的细胞类型中持续存在，并且这使得这种递送型式特别适合于需要长期表达的情况。可以使用的AAV的剂量和配方的实例包括描述于美国专利号8,454,972和8,404,658中的那些。

多种策略可用于使用AAV递送本文的系统和组合物。在一些实例中，Cas和gRNA的编码序列可直接包装到一个DNA质粒载体上并通过一个AAV粒子递送。在一些实例中，AAV可用于将gRNA递送到先前已被工程化以表达Cas的细胞中。在一些实例中，Cas和gRNA的编码序列可制成用于共转染靶细胞的两个单独的AAV粒子。在一些实例中，标志物、标签和其他序列可包装在与Cas和/或gRNA的编码序列相同的AAV粒子中。

慢病毒

本文的系统和组合物可通过慢病毒递送。慢病毒载体可用于此种递送。慢病毒是复杂的逆转录病毒，其具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。

慢病毒的实例包括人免疫缺陷病毒(HIV)，其可利用其他病毒的包膜糖蛋白来靶向广泛的细胞类型；基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体，其可用于眼部治疗。在某些实施方案中，具有靶向由HIV tat/rev共享的共同外显子的siRNA、核仁定位TAR诱饵和抗CCR5特异性锤头状核酶的自灭活慢病毒载体(参见例如，DiGiusto等人(2010)Sci Transl Med 2:36ra43)可用于/和或适用于本文的核酸靶向系统。

慢病毒可以用其他病毒蛋白(诸如水疱性口炎病毒的G蛋白)进行假分型。这样一来，慢病毒的细胞趋向性可根据需要改变得广泛或狭窄。在一些情况下，为了提高安全性，第二代和第三代慢病毒系统可能会将必需基因拆分到三个质粒中，这可能会降低细胞内活病毒粒子意外重构的可能性。

在一些实例中，利用整合能力，慢病毒可用于创建包含各种遗传修饰的细胞文库，例如用于筛选和/或研究基因和信号通路。

腺病毒

本文的系统和组合物可通过腺病毒进行递送。腺病毒载体可用于此种递送。腺病毒包括具有含有双链DNA基因组的二十面体核衣壳的非包膜病毒。腺病毒可感染分裂和非分裂细胞。在一些实施方案中，腺病毒不整合到宿主细胞的基因组中，这可用于限制基因编辑应用中CRISPR-Cas系统的脱靶效应。

用于递送至植物的病毒媒介物

可使用病毒媒介物将系统和组合物递送至植物细胞。在特定的实施方案中，可使用植物病毒载体将组合物和系统引入植物细胞中(例如，如SScholthof等人1996,Annu RevPhytopathol.1996；34:299-323中所述)。此种病毒载体可以是来自DNA病毒的载体，例如双生病毒(例如，卷心菜卷叶病毒、豆黄矮病毒、小麦矮病毒、番茄卷叶病毒、玉米条纹病毒、烟草卷叶病毒或番茄金色花叶病毒)或纳米病毒(例如，蚕豆坏死黄病毒)。病毒载体可以是来自RNA病毒的载体，例如，烟草病毒(例如，烟草脆裂病毒、烟草花叶病毒)、马铃薯X病毒属(例如，马铃薯病毒X)或大麦病毒(例如，大麦条纹花叶病毒)。植物病毒的复制基因组可能是非整合性载体。

非病毒媒介物

递送媒介物可包含非病毒媒介物。一般来讲，能够递送核酸和/或蛋白质的方法和媒介物可用于递送本文的系统组合物。非病毒媒介物的实例包括脂质纳米粒子、细胞穿透肽(CPP)、DNA纳米线团(nanoclew)、金纳米粒子、链球菌溶血素O、多功能包膜型纳米装置(MEND)、脂质包被的介孔二氧化硅粒子和其他无机纳米粒子。

脂质粒子

递送媒介物可包括脂质粒子，例如脂质纳米粒子(LNP)和脂质体。

脂质纳米粒子(LNP)

LNP可将核酸封装在阳离子脂质粒子(例如脂质体)中，并且可以相对容易地递送至细胞。在一些实例中，脂质纳米粒子不含任何病毒组分，这有助于最小化安全性和免疫原性问题。脂质粒子可用于体外、离体和体内递送。脂质粒子可用于各种规模的细胞群。

在一些实例中。LNP可用于递送DNA分子(例如，包含Cas和/或gRNA的编码序列的那些)和/或RNA分子(例如，Cas的mRNA、gRNA)。在某些情况下，LNP可用于递送Cas/gRNA的RNP复合物。

LNP中的组分可包括阳离子脂质1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮基-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧杂环戊烷(DLinKC2-DMA)、(3-o-[2"-(甲氧基聚乙二醇2000)琥珀酰]-1,2-二肉豆蔻酰基-sn-甘油(PEG-S-DMG)、R-3-[(ρ-甲氧基-聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻基氧丙基-3-胺(PEG-C-DOMG)及其任何组合。LNP的制备和封装可改编自Rosin等人,MolecularTherapy,第19卷,第12期,第1286-2200页,2011年12月)。

脂质体

在一些实施方案中，脂质粒子可以是脂质体。脂质体是球形囊泡结构，其由围绕内部水性区室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。在一些实施方案中，脂质体是生物相容的、无毒的，可递送亲水性和亲脂性药物分子，保护它们的货物免于被血浆酶降解，以及将它们的负载物转运穿过生物膜和血脑屏障(BBB)。

脂质体可由几种不同类型的脂质(例如磷脂)制成。脂质体可包含天然磷脂和脂质，诸如1,2-二硬脂酰基-sn-甘油-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱、单唾液酸神经节苷脂或其任何组合。

可将几种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如，脂质体还可包含胆固醇、鞘磷脂和/或1,2-二油酰基-sn-甘油-3-磷酸乙醇胺(DOPE)，以例如增加稳定性和/或防止脂质体内部货物的泄漏。

稳定的核酸-脂质粒子(SNALP)

在一些实施方案中，脂质粒子可以是稳定的核酸脂质粒子(SNALP)。SNALP可包含可电离脂质(DLinDMA)(例如，在低pH下的阳离子)、中性辅助脂质、胆固醇、可扩散的聚乙二醇(PEG)-脂质或其任何组合。在一些实例中，SNALP可包含合成胆固醇、二棕榈酰基磷脂酰胆碱、3-N-[(w-甲氧基聚乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻基氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。在一些实例中，SNALP可包含合成胆固醇、1,2-二硬脂酰基-sn-甘油-3-磷酸胆碱、PEG-cDMA和1,2-二亚油基氧基-3-(N；N-二甲基)氨基丙烷(DLinDMA)

其他脂质

脂质粒子还可包含一种或多种其他类型的脂质，例如阳离子脂质，诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧杂环戊烷(DLin-KC2-DMA)、DLin-KC2-DMA4、C12-200和辅脂质(colipid)二硬脂酰基磷脂酰胆碱、胆固醇和PEG-DMG。

脂质复合物/多复合物

在一些实施方案中，递送媒介物包括脂质复合物和/或多复合物。脂质复合物可与带负电荷的细胞膜结合并诱导进入细胞中的内吞作用。脂质复合物的实例可以是包含脂质和非脂质组分的复合物。脂质复合物和多复合物的实例包括FuGENE-6试剂、含有脂质和其他组分的非脂质体溶液、两性离子氨基脂质(ZAL)、

(例如，形成DNA/Ca²⁺微复合物)、聚乙烯亚胺(PEI)(例如，支链PEI)和聚(L-赖氨酸)(PLL)。

细胞穿透肽

在一些实施方案中，递送媒介物包括细胞穿透肽(CPP)。CPP是促进细胞摄取各种分子货物(例如，从纳米大小的粒子到小的化学分子和大的DNA片段)的短肽。

CPP可具有不同的大小、氨基酸序列和电荷。在一些实例中，CPP可将质膜易位并促进各种分子货物向细胞质或细胞器的递送。CPP可通过不同的机制引入细胞中，例如通过直接穿透膜、内吞作用介导的进入和通过形成暂时性结构的易位。

CPP的氨基酸组成可含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸)，或具有含有极性/带电荷的氨基酸和非极性疏水氨基酸的交替模式的序列。这两种类型的结构分别称为聚阳离子或两亲结构。第三类CPP是疏水肽，其仅含有非极性残基，具有低净电荷或具有对细胞摄取至关重要的疏水氨基酸基团。另一种类型的CPP是来自人免疫缺陷病毒1(HIV-1)的反式激活转录激活子(Tat)。CPP的实例包括穿膜肽(Penetratin)、Tat(48-60)、转运肽(Transportan)和(R-AhX-R4)(Ahx是指氨基己酰基)、卡波西成纤维细胞生长因子(FGF)信号肽序列、整合素β3信号肽序列、聚精氨酸肽Args序列、富含鸟嘌呤的分子转运蛋白和甜箭肽(sweet arrow peptide)。CPP和相关应用的实例还包括描述于美国专利8,372,951中的那些。

CPP可以很容易地用于体外和离体作用，并且通常需要针对每种货物和细胞类型进行广泛优化。在一些实例中，CPP可直接共价附接至Cas蛋白，然后所述Cas蛋白与gRNA复合并递送至细胞。在一些实例中，可将CPP-Cas和CPP-gRNA单独递送至多个细胞。CPP也可用于递送RNP。

CPP可用于将组合物和系统递送至植物。在一些实例中，CPP可用于将组分递送至植物原生质体，然后将所述植物原生质体再生为植物细胞并进一步再生为植物。

DNA纳米线团

在一些实施方案中，递送媒介物包括DNA纳米线团。DNA纳米线团是指DNA的球形结构(例如，具有纱线球的形状)。纳米线团可通过滚环扩增合成，其中回文序列有助于结构的自组装。然后可向球体加载有效载荷。DNA纳米线团的实例描述于Sun W等人,J Am ChemSoc.2014年10月22日；136(42):14722-5；和Sun W等人,Angew Chem Int Ed Engl.2015年10月5日；54(41):12029-33中。DNA纳米线团可能具有与Cas:gRNA核糖核蛋白复合物中的gRNA部分互补的回文序列。DNA纳米线团可被包被，例如，被PEI包被以诱导内体逃逸。

金纳米粒子

在一些实施方案中，递送媒介物包括金纳米粒子(也称为AuNP或胶体金)。金纳米粒子可与货物例如Cas:gRNA RNP形成复合物。金纳米粒子可被包被，例如，包被在硅酸盐和内体破坏性聚合物PAsp(DET)中。金纳米粒子的实例包括AuraSense治疗性球形核酸(Therapeutics'Spherical Nucleic Acid)(SNA^TM)构建体，以及描述于Mout R,等人(2017).ACS Nano 11:2452–8；Lee K等人(2017).Nat Biomed Eng 1:889–901中的那些。

iTOP

在一些实施方案中，递送媒介物包括iTOP。iTOP是指小分子的组合驱动天然蛋白质的高效细胞内递送，不依赖于任何转导肽。iTOP可用于通过渗透细胞作用和丙烷甜菜碱，使用NaCl介导的高渗性与转导化合物(丙烷甜菜碱)一起触发细胞外大分子到细胞中的巨胞饮摄取来诱导转导。iTOP方法和试剂的实例包括描述于D'Astolfo DS,Pagliero RJ,Pras A等人(2015).Cell 161:674–690中的那些。

基于聚合物的粒子

在一些实施方案中，递送媒介物可包括基于聚合物的粒子(例如，纳米粒子)。在一些实施方案中，基于聚合物的粒子可模拟膜融合的病毒机制。基于聚合物的粒子可以是流感病毒机器的合成副本，并与细胞通过内吞途径(一种涉及形成酸性区室的过程)摄取的各种类型的核酸(siRNA、miRNA、质粒DNA或shRNA、mRNA)形成转染复合物。晚期内体中的低pH充当使粒子表面疏水并促进膜穿过的化学开关。一旦进入胞质溶胶，粒子就会释放其有效载荷用于细胞作用。这种活性内体逃逸技术是安全的并且使转染效率最大化，因为它使用的是自然摄取途径。在一些实施方案中，基于聚合物的粒子可包含烷基化和羧烷基化支链聚乙烯亚胺。在一些实例中，基于聚合物的粒子是VIROMER，例如VIROMER RNAi、VIROMERRED、VIROMER mRNA、VIROMER CRISPR。递送本文的系统和组合物的示例性方法包括描述于以下中的那些：Bawage SS等人,Synthetic mRNA expressed Cas13a mitigates RNAvirus infections,www.biorxiv.org/content/10.1101/370460v1.full doi:doi.org/10.1101/370460，

RED,a powerful tool for transfection ofkeratinocytes.doi:10.13140/RG.2.2.16993.61281，

Transfection-Factbook2018:technology,product overview,users'data.,doi:10.13140/RG.2.2.23912.16642。

链球菌溶血素O(SLO)

递送媒介物可以是链球菌溶血素O(SLO)。SLO是由A组链球菌产生的毒素，其通过在哺乳动物细胞膜中产生孔而发挥作用。SLO可以可逆方式发挥作用，这允许将蛋白质(例如，高达100kDa)递送至细胞的胞质溶胶，而不会损害整体活力。SLO的实例包括描述于以下中的那些：Sierig G等人(2003).Infect Immun 71:446–55；Walev I等人(2001).ProcNatl Acad Sci U S A 98:3185–90；Teng KW等人(2017).Elife 6:e25460。

多功能包膜型纳米装置(MEND)

递送媒介物可包含多功能包膜型纳米装置(MEND)。MEND可包含浓缩质粒DNA、PLL核心和脂质膜壳。MEND还可包含细胞穿透肽(例如，硬脂基八聚精氨酸)。细胞穿透肽可在脂质壳中。脂质包膜可用一种或多种功能组分修饰，例如以下中的一种或多种：聚乙二醇(例如，以增加血管循环时间)、用于靶向具体组织/细胞的配体、另外的细胞穿透肽(例如，用于更大的细胞递送)、增强内体逃逸的脂质以及细胞核递送标签。在一些实例中，MEND可以是四层MEND(T-MEND)，其可靶向细胞核和线粒体。在某些实例中，MEND可以是PEG-肽-DOPE-缀合的MEND(PPD-MEND)，其可靶向膀胱癌细胞。MEND的实例包括描述于Kogure K等人(2004).J Control Release 98:317–23；Nakamura T等人(2012).Acc Chem Res 45:1113–21中的那些。

脂质包被的介孔二氧化硅粒子

递送媒介物可包括脂质包被的介孔二氧化硅粒子。脂质包被的介孔二氧化硅粒子可包含介孔二氧化硅纳米粒子核心和脂质膜壳。二氧化硅核可具有较大的内表面积，从而导致较高的货物装载能力。在一些实施方案中，可修改孔径、孔化学和整体粒度用于装载不同类型的货物。粒子的脂质涂层也可被修改以最大化货物装载、增加循环时间并提供精确的靶向和货物释放。脂质包被的介孔二氧化硅粒子的实例包括描述于Du X等人(2014).Biomaterials 35:5580–90；Durfee PN等人(2016).ACS Nano 10:8325–45中的那些。

无机纳米粒子

递送媒介物可包括无机纳米粒子。无机纳米粒子的实例包括碳纳米管(CNT)(例如，如Bates K和Kostarelos K.(2013).Adv Drug Deliv Rev 65:2023–33.中所述)、裸介孔二氧化硅纳米粒子(MSNP)(例如，如Luo GF等人(2014).Sci Rep 4:6064中所述)和致密二氧化硅纳米粒子(SiNP)(如Luo D和Saltzman WM.(2000).Nat Biotechnol 18:893–5中所述)。

外泌体

递送媒介物可包括外泌体。外泌体包括膜结合的细胞外囊泡，其可用于容纳和递送各种类型的生物分子，诸如蛋白质、碳水化合物、脂质和核酸及其复合物(例如，RNP)。外泌体的实例包括描述于Schroeder A等人,J Intern Med.2010Jan；267(1):9-21；El-Andaloussi S等人,Nat Protoc.2012Dec；7(12):2112-26；Uno Y等人,Hum GeneTher.2011Jun；22(6):711-9；Zou W等人,Hum Gene Ther.2011 Apr；22(4):465-75中的那些。

在一些实例中，外泌体可与货物的一种或多种组分形成复合物(例如，通过直接或间接结合)。在某些实例中，外泌体的分子可与第一衔接蛋白融合，并且货物的组分可与第二衔接蛋白融合。第一衔接蛋白与第二衔接蛋白可彼此特异性结合，从而将货物与外泌体缔合。此类外泌体的实例包括描述于Ye Y等人,Biomater Sci.2020年4月28日.doi:10.1039/d0bm00427h中的那些。

一般应用

本文的组合物、系统和方法可用于各种应用。通常，可使用所述组合物、系统和方法修饰一种或多种靶多核苷酸。在一些实施方案中，所述组合物、系统和方法可用于生成包含此类修饰的多核苷酸的工程化细胞。也可生成包含此类工程化细胞的组织、器官、生物体、细胞系、组合物(例如药物组合物)和装置。工程化细胞、组织、器官、生物体、细胞系、组合物(例如，药物组合物)和装置可用作治疗剂(以治疗疾病)和/或诊断剂，产生生物产物，生成模型生物体等。

在一些实施方案中，生物产物可从工程化细胞、组织、器官、生物体、细胞系中获得。生物产物可以是化合物、核酸、蛋白质、脂质、碳水化合物或其任何组合。在一些实例中，生物产物可以是蛋白质。在一些实例中，生物产物可以是RNA。在一些实例中，生物产物可以是DNA。生物产物的蛋白质、RNA和/或DNA可以是天然存在的或非天然存在的，例如，包含一种或多种突变。产物可以是突变的蛋白质或由模板提供的产物。

在一些实施方案中，本公开提供了包含本文系统的一种或多种组分的细胞。细胞可以是工程化细胞。细胞可使用所述系统产生。本公开包括包含工程化细胞和/或其子代的细胞系。本公开包括包含工程化细胞和/或其子代的植物或动物模型。本公开包括包含工程化细胞的组合物。组合物被配制用作治疗剂。所述细胞或其子代可以是分离的(例如，以分离的形式)。细胞可包括由包含靶序列的基因表达的蛋白质中的突变。细胞可包括包含靶序列的基因组区域的缺失。细胞可包括通过同源定向修复对外源性序列的整合。细胞可包括与靶序列相关连的基因的转录减少。细胞可包括与靶序列相关联的基因的转录增加。在一些情况下，可将供体多核苷酸插入到细胞中的靶多核苷酸中。将供体多核苷酸插入细胞中的靶多核苷酸中导致：a)包含改变的表达水平的一种或多种基因产物的细胞或细胞群；和/或b)产生和/或分泌内源性或非内源性生物产物或化学化合物的细胞或细胞群。

本公开包括用于治疗疾病或病症的药物组合物，其包含所述细胞或其子代。治疗可导致一种或多种细胞中的遗传变化。治疗可导致一种或多种缺陷基因型的校正。治疗可导致改善的表型。

合成生物学应用

本文的组合物、系统和方法具有广泛的用途，包括在临床应用中的用途。据设想，可编程多核苷酸靶向系统可用于与毒性结构域的拆分蛋白融合以实现靶向细胞死亡，例如使用癌症相关RNA作为靶转录物。此外，涉及蛋白质-蛋白质相互作用的途径可在合成生物系统中受到影响，例如通过与适当的效应物(诸如激酶或其他酶)的融合复合物。

本公开通过遗传线路的改善和更高水平的遗传线路递送增强来靶向具体的诊断和治疗应用，从而扩展合成生物学的范围。

本文提供了具有工业、临床和其他技术实用性的方法和组合物。与所有面向工程的学科一样，本文提供了可针对不同的应用进行调整的模块化的灵活平台。本文的组合物、系统和方法的高度模块化和可编程性质可用作合成生物学中的平台技术。例如，在替代实施方案中，拆分酶与Cas蛋白融合，所述Cas蛋白的活性在与靶多核苷酸结合后重构，诸如在检测到癌症相关的RNA或DNA后拆分死亡诱导蛋白的互补。在替代实施方案中，涉及连续蛋白质/蛋白质相互作用的途径通过使用RNA或DNA支承如本文提供的示例性Cas融合蛋白之间的相互作用而被重新设计。在替代实施方案中，如本文提供的支架蛋白可结合激酶及其底物以强烈影响信号传导途径的输出，并且示例性Cas多肽用于支承蛋白质/蛋白质相互作用，从而以基因表达依赖性方式控制信号传导。另一组使用参与药物前体甲羟戊酸盐产生的酶的拴系，从而增加这种小分子的产量(Dueber JE,Wu GC,Malmirchegini GR,Moon TS等人2009.Synthetic protein scaffolds provide modular control over metabolicflux.Nat Biotechnol 27:753-9)。原则上，示例性Cas融合蛋白在靶RNA上的强共结合提供了新水平的对连续蛋白质相互作用或代谢物穿梭的控制。

合成生物学的新兴领域已经产生了可用于基础研究和治疗应用的基因调控系统的工具箱。合成生物学策略可为改变基础研究方法和改善用于治疗损伤和疾病的治疗性治疗创造机会。通过考虑由更简单部分或模块的子集构成的遗传网络，可简化细胞信号传导网络的复杂性。这种简化是合成生物学的基础，在所述合成生物学中，工程范式以合理且系统性的方式应用，以产生用于理解或控制细胞功能的可预测且稳健的系统。这种方法需要重新编程细胞来以可预测的方式进行。为此，遗传线路由DNA和RNA构建而成，使细胞能够执行从记忆和数学计算到更高阶的细胞功能(如癌细胞鉴定、控制T细胞群和报告微环境)的布尔(Boolean)逻辑功能。这些功能背后的工程化的基因线路包括遗传开关、振荡器、数字逻辑门和细胞计数器，并且已被设计成以动态且可预测的方式调控基因表达。虽然合成生物学的大部分工作都是在诸如酵母和细菌的简单生物体中进行的，但是，携带工程化的遗传线路的细胞的治疗潜力激发了人们对使用合成生物学来治疗或控制人类疾病的兴趣。这部分地基于这样一个前提，即有效的细胞疗法需要对基因表达进行精确的时间和空间调控，这可以通过使用遗传线路轻松地控制。

如本文公开的合成生物学方法可用于使用遗传线路对细胞进行重新编程，以在神经退行性疾病的发作和进展期间探测CNS。此种方法将使得能够更好地理解神经炎症与神经退行性变之间的相互作用，这将对广泛的神经系统病症产生重大影响。

在植物和真菌中的应用

本文所述的组合物、系统和方法可用于在植物和真菌中进行基因或基因组询问或编辑或操纵。例如，应用包括植物基因或基因组的调查和/或选择和/或询问和/或比较和/或操纵和/或转化；例如，以创建、鉴定、开发、优化或赋予植物性状或特征，或转化植物或真菌基因组。因此，可提高植物、具有新的性状或特征的组合的新植物或具有增强的性状的新植物的产量。所述组合物、系统和方法可用于定点整合(SDI)或基因编辑(GE)或任何近反向育种(NRB)或反向育种(RB)技术中的植物。

本文的组合物、系统和方法可用于赋予基本上任何植物和真菌以及它们的细胞和组织所需的性状(例如，增强的营养品质、增强的疾病抗性和对生物和非生物胁迫的抗性，以及增加的具有商业价值的植物产物或异源化合物的产量)。所述组合物、系统和方法可用于在不将任何外来基因永久引入基因组的情况下修饰内源性基因或修饰它们的表达。

在一些实施方案中，所述组合物、系统和方法可用于植物中的或先前已使用RNAi或类似基因组编辑技术的情况下的基因组编辑；参见例如，Nekrasov,“Plant genomeediting made easy:targeted mutagenesis in model and crop plants using theCRISPR-Cas system,”Plant Methods 2013,9:39(doi:10.1186/1746-4811-9-39)；Brooks,“Efficient gene editing in tomato in the first generation using theCRISPR-Cas9 system,”Plant Physiology 2014年9月pp 114.247577；Shan,“Targetedgenome modification of crop plants using a CRISPR-Cas system,”NatureBiotechnology 31,686-688(2013)；Feng,“Efficient genome editing in plants usinga CRISPR/Cas system,”Cell Research(2013)23:1229–1232.doi:10.1038/cr.2013.114；在线发布于2013年8月20日；Xie,“RNA-guided genome editing in plants using aCRISPR-Cas system,”Mol Plant.2013年11月；6(6):1975-83.doi:10.1093/mp/sst119.Epub 2013年8月17日；Xu,“Gene targeting using the Agrobacteriumtumefaciens-mediated CRISPR-Cas system in rice,”Rice 2014,7:5(2014)，Zhou等人,“Exploiting SNPs for biallelic CRISPR mutations in the outcrossing woodyperennial Populus reveals 4-coumarate:CoA ligase specificity and Redundancy,”New Phytologist(2015)(Forum)1-4(仅在www.newphytologist.com在线提供)；Caliando等人,“Targeted DNA degradation using a CRISPR device stably carried in thehost genome,NATURE COMMU NICATIONS 6:6989,DOI:10.1038/ncomms7989,www.nature.com/naturecommunications DOI:10.1038/ncomms7989；美国专利号6,603,061-Agrobacterium-Mediated Plant Transformation Method；美国专利号7,868,149-Plant Genome Sequences and Uses Thereof以及US 2009/0100536-Transgenic Plantswith Enhanced Agronomic Traits，Morrell等人“Crop genomics:advances andapplications,”Nat Rev Genet.2011年12月29日；13(2):85-96，其各自的所有内容和公开内容均以引用的方式整体并入本文。利用所述组合物、系统和方法的方面可类似于在植物中使用CRISPR-Cas(例如CRISPR-Cas9)系统，并且提及了亚利桑那大学(University ofArizona)网站“CRISPR-PLANT”(www.genome.arizona.edu/crispr/)(由宾夕法尼亚州立大学(Penn State)和AGI支持)。

所述组合物、系统和方法也可用于原生质体。“原生质体”是指已使用例如机械或酶手段完全或部分去除其保护性细胞壁，从而产生活植物的完整生化能力单位的植物细胞，所述完整生化能力单位可在适当的生长条件下重新形成其细胞壁、增殖并再生生长成完整植物。

所述组合物、系统和方法可用于筛选目标基因(例如，内源性、突变)。在一些实例中，目标基因包括编码涉及产生具有附加营养价值的组分的酶的那些基因，或通常影响跨物种、门和植物界的目标农艺性状的基因。通过选择性地靶向例如编码代谢途径的酶的基因，可鉴定负责植物的某些营养方面的基因。类似地，通过选择性地靶向可能影响所需的农艺性状的基因，可鉴定相关基因。因此，本发明涵盖用于编码涉及产生具有特定营养价值的化合物的酶的基因和/或农艺性状的筛选方法。

还应理解，除非另有明显说明，否则本文提及的动物细胞也可加以必要的变通适用于植物或真菌细胞；并且，本文中具有降低的脱靶效应的酶和使用此类酶的系统可用于植物应用，包括本文提及的那些。

在一些情况下，引入植物和真菌的核酸可被密码子优化用于在植物和真菌中表达。密码子优化的方法包括描述于Kwon KC等人,Codon Optimization to EnhanceExpression Yields Insights into Chloroplast Translation,Plant Physiol.2016年9月；172(1):62-77中的那些。

所述组合物和系统中的组分(例如，Cas蛋白)还可包含本文所述的一个或多个功能结构域。在一些实例中，功能结构域可以是核酸外切酶。此种核酸外切酶可提高Cas蛋白功能的效率，例如诱变效率。功能结构域的实例是Trex2，如Weiss T等人,www.biorxiv.org/content/10.1101/2020.04.11.037572v1,doi:https://doi.org/10.1101/2020.04.11.037572中所述。

植物的实例

本文的组合物、系统和方法可用于赋予基本上任何植物所需的性状。可对多种植物和植物细胞系统进行工程化以获得所需的生理和农艺特征。一般来讲，术语“植物”涉及植物界的任何各种光合、真核、单细胞或多细胞生物体，其特征在于通过细胞分裂生长，含有叶绿体，并且具有由纤维素组成的细胞壁。术语植物涵盖单子叶植物和双子叶植物。

所述组合物、系统和方法可用于广泛的植物，例如像属于以下目的双子叶植物：木兰目(Magniolales)、八角目(Illiciales)、樟目(Laurales)、胡椒目(Piperales)、马兜铃目(Aristochiales)、睡莲目(Nymphaeales)、毛茛目(Ranunculales)、罂粟目(Papeverales)、瓶子草科(Sarraceniaceae)、昆栏树目(Trochodendrales)、金缕梅目(Hamamelidales)、杜仲目(Eucomiales)、塞子木目(Leitneriales)、杨梅目(Myricales)、壳斗目(Fagales)、木麻黄目(Casuarinales)、石竹目(Caryophyllales)、肉穗果目(Batales)、寥目(Polygonales)、白花丹目(Plumbaginales)、五桠果目(Dilleniales)、山茶目(Theales)、锦葵目(Malvales)、荨麻目(Urticales)、玉蕊目(Lecythidales)、堇菜目(Violales)、杨柳目(Salicales)、白花菜目(Capparales)、杜鹃花目(Ericales)、岩梅目(Diapensales)、柿目(Ebenales)、报春花目(Primulales)、薔薇目(Rosales)、豆目(Fabales)、川草目(Podostemales)、小二仙草目(Haloragales)、桃金娘目(Myrtales)、山茱萸目(Cornales)、山龙眼目(Proteales)、檀香目(San tales)、大花草目(Rafflesiales)、卫矛目(Celastrales)、大戟目(Euphorbiales)、鼠李目(Rhamnales)、无患子目(Sapindales)、胡桃目(Juglandales)、牻牛儿苗目(Geraniales)、远志目(Polygalales)、伞形目(Umbellales)、龙胆目(Gentianales)、花葱目(Polemoniales)、唇形目(Lamiales)、车前目(Plantaginales)、玄参目(Scrophulariales)、桔梗目(Campanulales)、茜草目(Rubiales)、川续断目(Dipsacales)和菊目(Asterales)；诸如属于以下目的单子叶植物：泽泻目(Alismatales)、水鳖目(Hydrocharitales)、茨藻目(Najadales)、霉草目(Triuridales)、鸭跖草目(Commelinales)、谷精草目(Eriocaulales)、帚灯草目(Restionales)、禾本目(Poales)、灯芯草目(Juncales)、莎草目(Cyperales)、香蒲目(Typhales)、凤梨目(Bromeliales)、姜目(Zingiberales)、棕榈目(Arecales)、巴拿马草目(Cyclanthales)、露兜树目(Pandanales)、天南星目(Arales)、百合目(Lilliales)和兰目(Orchid ales)，或属于裸子植物(Gymnospermae)的那些植物，例如属于以下目的那些植物：松目(Pinales)、银杏目(Ginkgoales)、苏铁目(Cycadales)、南洋杉目(Araucariales)、柏目(Cupressales)和买麻藤目(Gnetales)。

本文的组合物、系统和方法可用于广泛的植物物种，包括在以下双子叶植物、单子叶植物或裸子植物属的非限制性列表中：颠茄属(Atropa)、油丹属(Alseodaphne)、腰果属(Anacardium)、落花生属(Arachis)、琼楠属(Beilschmiedia)、芸薹属(Brassica)、红花属(Carthamus)、木防己属(Cocculus)、巴豆属(Croton)、黄瓜属(Cucumis)、柑橘属(Citrus)、西瓜属(Citrullus)、辣椒属(Capsicum)、长春花属(Catharanthus)、椰子属(Cocos)、咖啡属(Coffea)、南瓜属(Cucurbita)、胡萝卜属(Daucus)、半聚果属(Duguetia)、花菱草属(Eschscholzia)、榕属(Ficus)、草莓属(Fragaria)、海罂粟属(Glaucium)、大豆属(Glycine)、棉属(Gossypium)、向日葵属(Helianthus)、橡胶树属(Hevea)、天仙子属(Hyoscyamus)、莴苣属(Lactuca)、卷枝藤属(Landolphia)、亚麻属(Linum)、木姜子属(Litsea)、番茄属(Lycopersicon)、羽扇豆属(Lupinus)、木薯属(Manihot)、马郁兰属(Majorana)、苹果属(Malus)、苜蓿属(Medicago)、烟草属(Nicotiana)、木犀榄属(Olea)、银胶菊属(Parthenium)、罂粟属(Papaver)、鳄梨属(Persea)、菜豆属(Phaseolus)、黄连木属(Pistacia)、豌豆属(Pisum)、梨属(Pyrus)、李属(Prunus)、萝卜属(Raphanus)、蓖麻属(Ricinus)、千里光属(Senecio)、风龙属(Sinomenium)、千金藤属(Stephania)、白芥属(Sinapis)、茄属(Solanum)、可可属(Theobroma)、车轴草属(Trifolium)、胡卢巴属(Trigonella)、蚕豆属(Vicia)、蔓长春花属(Vinca)、葡萄属(Vilis)和豇豆属(Vigna)；以及以下属：葱属(Allium)、须芒草属(Andropogon)、画眉草属(Aragrostis)、天门冬属(Asparagus)、燕麦属(Avena)、狗牙根属(Cynodon)、油棕属(Elaeis)、羊茅属(Festuca)、羊茅黑麦草属(Festulolium)、萱草属(Heterocallis)、大麦属(Hordeum)、浮萍属(Lemna)、黑麦草属(Lolium)、芭蕉属(Musa)、稻属(Oryza)、黍属(Panicum)、狼尾草属(Pannesetum)、梯牧草属(Phleum)、早熟禾属(Poa)、黑麦属(Secale)、高粱属(Sorghum)、小麦属(Triticum)、玉蜀黍属(Zea)、冷杉属(Abies)、杉木属(Cunninghamia)、麻黄属(Ephedra)、云杉属(Picea)、松属(Pinus)和黄杉属(Pseudotsuga)。

在一些实施方案中，用于工程化的靶植物和植物细胞包括那些单子叶植物和双子叶植物，诸如包括以下的作物：谷类作物(例如，小麦、玉米、水稻、小米、大麦)、水果作物(例如，番茄、苹果、梨、草莓、橙)、饲料作物(例如，苜蓿)、块根蔬菜作物(例如，胡萝卜、马铃薯、甜菜、山药)、叶菜作物(例如，生菜、菠菜)；开花植物(例如，矮牵牛、玫瑰、菊花)、针叶树和松树(例如，松冷杉、云杉)；用于植物修复的植物(例如，重金属积聚植物)；油料作物(例如，向日葵、油菜籽)和用于实验目的的植物(例如，拟南芥)。具体地，植物旨在包括但不限于被子植物和裸子植物，诸如金合欢、苜蓿、苋菜、苹果、杏、洋蓟、白蜡树、芦笋、鳄梨、香蕉、大麦、豆类、甜菜、桦树、山毛榉、黑莓、蓝莓、西兰花、球芽甘蓝、卷心菜、油菜、哈密瓜、胡萝卜、木薯、花椰菜、雪松、谷物、芹菜、栗子、樱桃、大白菜、柑橘、小柑橘、三叶草、咖啡、玉米、棉花、豇豆、黄瓜、柏树、茄子、榆树、菊苣、桉树、茴香、无花果、冷杉、天竺葵、葡萄、葡萄柚、落花生、地樱桃、树胶铁杉、山核桃、羽衣甘蓝、奇异果、大头菜、落叶松、生菜、韭菜、柠檬、青柠、刺槐、松树、铁线蕨、玉米、芒果、枫、甜瓜、小米、蘑菇、芥末、坚果、橡木、燕麦、油棕、秋葵、洋葱、橙子、观赏植物或花或树、木瓜、棕榈、欧芹、防风草、豌豆、桃、花生、梨、泥炭、胡椒、柿子、木豆、松树、菠萝、车前草、李子、石榴、马铃薯、南瓜、菊苣、萝卜、油菜籽、覆盆子、水稻、黑麦、高粱、红花、黄华柳、大豆、菠菜、云杉、笋瓜、草莓、甜菜、甘蔗、向日葵、甘薯、甜玉米、橘子、茶、烟草、番茄、树木、黑小麦、草坪草、芜菁、藤蔓、核桃、豆瓣菜、西瓜、小麦、山药、红豆杉和西葫芦。

术语植物还涵盖藻类，它们主要是光合自养生物，主要是由于缺乏根、叶和其他高等植物特有的器官而形成的。所述组合物、系统和方法可用于广泛的“藻类”或“藻类细胞”。藻类的实例包括真核生物门，包括红藻门(Rhodophyta)(红藻)、绿藻门(Chlorophyta)(绿藻)、褐藻门(Phaeophyta)(褐藻)、硅藻门(Bacillariophyta)(硅藻)、真眼点藻门(Eustigmatophyta)和甲藻门(dinoflagellates)以及原核生物蓝藻门(Cyanobacteria)(蓝绿藻)。藻类物种的实例包括以下中的那些：双眉藻属(Amphora)、鱼腥藻属(Anabaena)、纤维藻属(Anikstrodesmis)、葡萄藻属(Botryococcus)、角毛藻属(Chaetoceros)、衣藻属(Chlamydomonas)、小球藻属(Chlorella)、绿球藻属(Chlorococcum)、小环藻属(Cyclotella)、筒柱藻属(Cylindrotheca)、杜氏藻属(Dunaliella)、球石藻属(Emiliana)、眼虫藻属(Euglena)、红球藻属(Hematococcus)、等鞭金藻属(Isochrysis)、单鞭金藻属(Monochrysis)、单针藻属(Monoraphidium)、微拟球藻属(Nannochloris)、拟微绿球藻属(Nannnochloropsis)、舟形藻属(Navicula)、肾鞭藻属(Nephrochloris)、肾爿藻属(Nephroselmis)、菱形藻属(Nitzschia)、节球藻属(Nodularia)、念珠藻属(Nostoc)、棕鞭藻属(Oochromonas)、卵囊藻属(Oocystis)、颤藻属(Oscillartoria)、巴夫藻属(Pavlova)、褐指藻属(Phaeodactylum)、扁藻属(Playtmonas)、颗石藻属(Pleurochrysis)、紫菜属(Porhyra)、伪鱼腥藻属(Pseudoanabaena)、塔胞藻属(Pyramimonas)、裂丝藻属(Stichococcus)、聚球藻菌属(Synechococcus)、集胞藻属(Synechocystis)、扁藻属(Tetraselmis)、海链藻属(Thalassiosira)和束毛藻属(Trichodesmium)。

植物启动子

为了确保在植物细胞中的适当表达，本文的组分和系统的组分可置于植物启动子的控制下。植物启动子是可在植物细胞中操作的启动子。植物启动子能够在植物细胞中启动转录，无论其来源是否是植物细胞。设想使用不同类型的启动子。

在一些实例中，植物启动子是组成型植物启动子，其是能够在植物的所有或几乎所有发育阶段期间在所有或几乎所有植物组织中表达其控制的开放阅读框(ORF)(称为“组成型表达”)的启动子。组成型启动子的一个实例是花椰菜花叶病毒35S启动子。在一些实例中，植物启动子是受调控的启动子，其不是组成性地而是以时间和/或空间调控的方式引导基因表达，并且包括组织特异性、组织优选的和诱导型启动子。不同的启动子可引导基因在不同的组织或细胞类型中，或在不同的发育阶段，或响应不同的环境条件的表达。在一些实例中，植物启动子是组织优选的启动子，其可用于靶向特定植物组织内的某些细胞类型中的增强表达，例如叶或根中的维管细胞或种子的特定细胞中的增强表达。

示例性植物启动子包括从植物、植物病毒和细菌诸如土壤杆菌或根瘤菌中获得的那些，它们包含在植物细胞中表达的基因。启动子的另外的实例包括描述于Kawamata等人,(1997)Plant Cell Physiol 38:792-803；Yamamoto等人,(1997)Plant J 12:255-65；Hire等人,(1992)Plant Mol Biol 20:207-18，Kuster等人,(1995)Plant Mol Biol 29:759-72，和Capana等人,(1994)Plant Mol Biol 25:681-91中的那些。

在一些实例中，植物启动子可以是诱导型启动子，其是可诱导的并且允许对基因编辑的时空控制，或者基因表达可使用某种形式的能量。能量的形式可包括声能、电磁辐射、化学能和/或热能。诱导型系统的实例包括四环素诱导型启动子(Tet-On或Tet-Off)、小分子双杂交转录激活系统(FKBP、ABA等)或光诱导型系统(光敏色素、LOV结构域或隐花色素)，诸如以序列特异性方式引导转录活性变化的光诱导型转录效应物(LITE)。在特定的实例中，光诱导型系统的组分包括Cas蛋白、光响应性细胞色素异二聚体(例如来自拟南芥(Arabidopsis thaliana))和转录激活/抑制结构域。

在一些实例中，启动子可以是化学调控的启动子(其中外源性化学物质的应用诱导基因表达)或化学抑制型启动子(其中化学物质的应用抑制基因表达)。化学诱导型启动子的实例包括玉米ln2-2启动子(由苯磺酰胺类除草剂安全剂激活)、玉米GST启动子(由用作芽前除草剂的疏水亲电化合物激活)、烟草PR-1a启动子(由水杨酸激活)、由抗生素调控的启动子(诸如四环素诱导型和四环素抑制型启动子)。

植物基因组中的稳定整合

在一些实施方案中，可引入编码组合物和系统的组分的多核苷酸以稳定整合到植物细胞的基因组中。在一些情况下，载体或表达系统可用于此种整合。载体或表达系统的设计可根据指导RNA和/或Cas基因表达的时间、地点和条件进行调整。在一些情况下，多核苷酸可整合到植物的细胞器中，诸如质体、线粒体或叶绿体。表达系统的元件可位于一个或多个表达构建体上，所述表达构建体是环状的，诸如质粒或转化载体，或是非环状的，诸如线性双链DNA。

在一些实施方案中，整合方法通常包括以下步骤：选择合适的宿主细胞或宿主组织，将构建体引入宿主细胞或宿主组织，以及从其中再生植物细胞或植物。在一些实例中，用于稳定整合到植物细胞基因组中的表达系统可含有以下元件中的一个或多个：启动子元件，其可用于在植物细胞中表达RNA和/或Cas酶；5'非翻译区，用于增强表达；内含子元件，用于进一步增强某些细胞(诸如单子叶细胞)中的表达；多克隆位点，用于为插入指导RNA和/或Cas基因序列和其他所需元件提供方便的限制性位点；和3'非翻译区，用于提供表达的转录物的高效终止。

植物中的瞬时表达

在一些实施方案中，组合物和系统的组分可在植物细胞中瞬时表达。在一些实例中，组合物和系统可仅当指导RNA和Cas蛋白都存在于细胞中时修饰靶核酸，使得可以进一步控制基因组修饰。由于Cas蛋白的表达是瞬时的，因此从此类植物细胞再生的植物通常不含外来DNA。在某些实例中，Cas蛋白被稳定表达并且指导序列被瞬时表达。

可将DNA和/或RNA(例如，mRNA)引入植物细胞中用于瞬时表达。在此类情况下，可提供足够量的引入的核酸以修饰细胞，但所引入的核酸在经过预期的一段时间后或在一次或多次细胞分裂后不会持续存在。

可使用合适的载体实现瞬时表达。可用于瞬时表达的示例性载体包括pEAQ载体(可针对土壤杆菌介导的瞬时表达进行定制)和卷心菜叶卷曲病毒(CaLCuV)，以及描述于Sainsbury F.等人,Plant Biotechnol J.2009 Sep；7(7):682-93；和Yin K等人,Scientific Reports第5卷,文章编号:14926(2015)中的载体。

还设想了上述不同方法的组合。

易位至特定植物细胞器和/或在特定植物细胞器中表达

本文的组合物和系统可包含用于易位至特定植物细胞器和/或在特定植物细胞器中表达的元件。

叶绿体靶向

在一些实施方案中，设想所述组合物和系统用于特异性修饰叶绿体基因或确保在叶绿体中的表达。所述组合物和系统(例如，Cas蛋白、指导分子或它们的编码多核苷酸)可被转化、分隔和/或靶向至叶绿体。在一个实例中，在质体基因组中引入遗传修饰可减少生物安全问题，诸如通过花粉的基因流动。

叶绿体转化方法的实例包括粒子轰击、PEG处理和显微注射，以及将转化盒从核基因组易位至质体。在一些实例中，叶绿体的靶向可通过在叶绿体定位序列和/或表达构建体中并入编码叶绿体转运肽(CTP)或质体转运肽的序列来实现，所述序列与编码组合物和系统的组分的序列的5’区可操作地连接。叶绿体的转化、靶向和定位的另外的实例包括描述于WO2010061186、Protein Transport into Chloroplasts,2010,Annual Review ofPlant Biology,第61卷:157-180和US 20040142476中的那些，所述文献以引用的方式整体并入本文。

植物中的示例性应用

所述组合物、系统和方法可用于在目标植物(例如，作物)中生成遗传变异。可提供靶向基因组中一个或多个位置的一一种或多种指导分子，例如指导分子的文库，并将其与Cas效应蛋白一起引入植物细胞中。例如，可生成一组基因组规模的点突变和基因敲除。在一些实例中，所述组合物、系统和方法可用于从如此获得的细胞生成植物部分或植物，并针对目标性状筛选细胞。靶基因可同时包括编码区和非编码区。在一些情况下，性状是耐逆性，并且所述方法是用于生成耐逆性作物品种的方法。

在一些实施方案中，所述组合物、系统和方法用于修饰内源性基因或修饰它们的表达。组分的表达可通过Cas核酸酶的直接活性和任选地引入模板DNA，或者通过修饰被靶向的基因来诱导基因组的靶向修饰。上文所述的不同策略允许Cas介导的靶向基因组编辑，而不要求将组分引入植物基因组中。

在一些情况下，修饰可在不将任何外来基因(包括编码CRISPR组分的那些)永久引入植物基因组中的情况下进行，以避免植物基因组中存在外来DNA。这可能会引起人们的兴趣，因为对非转基因植物的调控要求不那么严格。瞬时引入植物细胞中的组分通常在杂交时被去除。

例如，可通过所述组合物和系统的组分的瞬时表达来进行修饰。瞬时表达可通过用病毒载体递送组合物和系统的组分，借助颗粒分子诸如纳米粒子或CPP递送到原生质体中来进行。

具有所需性状的植物的生成

本文的组合物、系统和方法可用于将所需性状引入植物。所述方法包括引入一种或多种外来基因以赋予目标性状，编辑或调节内源性基因以赋予目标性状。

农艺性状

在一些实施方案中，可通过影响具体植物性状来改良作物植物。性状的实例包括改良的农艺性状，诸如除草剂抗性、抗病性、非生物耐逆性、高产、和优越品质、杀有害生物剂抗性、抗病性、昆虫和线虫抗性、针对寄生杂草的抗性、耐旱性、营养价值、耐逆性、自花授粉无效、饲料消化率生物量和谷物产量。

在一些实施方案中，可将赋予对有害生物或疾病的抗性的基因引入植物。在植物中存在赋予此种抗性的内源性基因的情况下，可增强它们的表达和功能(例如，通过引入额外的拷贝、增强表达和/或活性的修饰)。

赋予抗性的基因的实例包括植物抗病性基因(例如，Cf-9、Pto、RSP2、SlDMR6-1)；赋予对以下各项的抗性的基因：有害生物(例如，描述于WO96/30517中的那些)，苏云金芽孢杆菌(Bacillus thuringiensis)蛋白，凝集素，维生素结合蛋白(例如，抗生物素蛋白)，酶抑制剂(例如，蛋白酶或蛋白酶抑制剂或淀粉酶抑制剂)，昆虫特异性激素或信息素(例如，蜕皮激素或保幼激素、其变体、基于其的模拟物、或其拮抗剂或激动剂)；或涉及产生和调控以下各项的基因：此类激素和信息素，昆虫特异性肽或神经肽，昆虫特异性毒液(例如，由蛇、黄蜂等产生，或其类似物)，负责单萜、倍半萜、类固醇、异羟肟酸、苯丙烷衍生物或另一种具有杀昆虫活性的非蛋白质分子的过度积聚的酶，涉及生物活性分子修饰的酶(例如，糖酵解酶、蛋白水解酶、脂肪分解酶、核酸酶、环化酶、转氨酶、酯酶、水解酶、磷酸酶、激酶、磷酸化酶、聚合酶、弹性蛋白酶、几丁质酶和葡聚糖酶，无论是天然的还是合成的)，刺激信号转导的分子，病毒侵入性蛋白质或由其衍生的复合毒素，由病原体或寄生虫在自然界中产生的发育阻滞蛋白，由植物在自然界中产生的发育阻滞蛋白，或其任何组合。

所述组合物、系统和方法可用于鉴定、筛选、引入或去除突变或导致对某些病原体(例如宿主特异性病原体)产生易感性的遗传变异的序列。此种方法可生成具有非宿主抗性的植物，例如，宿主和病原体不相容，或者可对病原体的所有种族有部分抗性，通常由许多基因控制，和/或还对病原体的某些种族有完全抗性但对其他种族没有完全抗性。

在一些实施方案中，所述组合物、系统和方法可用于修饰涉及植物疾病的基因。此类基因可被去除、灭活或以其他方式调控或修饰。植物疾病的实例包括描述于US20140213619A1的[0045]-[0080]中的那些，所述专利以引用的方式整体并入本文。

在一些实施方案中，可将赋予对除草剂的抗性的基因引入植物。赋予对除草剂的抗性的基因的实例包括赋予对抑制生长点或分生组织的除草剂(诸如咪唑啉酮或磺酰脲)的抗性的基因，赋予草甘膦耐受性的基因(例如，分别由例如突变体5-烯醇丙酮酰莽草酸-3-磷酸合酶基因、aroA基因和草甘膦乙酰转移酶(GAT)基因赋予的抗性)，或赋予对其他膦酰基化合物诸如草铵膦的抗性的基因(来自链霉菌属物种(包括吸水链霉菌(Streptomyceshygroscopicus)和绿色链霉菌(Streptomyces viridichromogenes))的膦丝菌素(phosphinothricin)乙酰转移酶(PAT)基因)，以及通过ACCase抑制剂编码基因赋予对吡啶氧基或苯氧基丙酸和环己酮的抗性的基因，赋予对抑制光合作用的除草剂的抗性的基因(诸如三嗪(psbA和gs+基因)或苯甲腈(腈水解酶基因)和谷胱甘肽S-转移酶))，编码使除草剂解毒的酶或具有抑制抗性的突变谷氨酰胺合酶的基因，编码解毒酶的基因是编码膦丝菌素乙酰转移酶(诸如来自链霉菌属物种的bar或pat蛋白)的酶，编码羟苯基丙酮酸双加氧酶(HPPD)抑制剂(例如天然存在的HPPD抗性酶)的基因，以及编码突变或嵌合HPPD酶的基因。

在一些实施方案中，可将涉及非生物耐逆性的基因引入植物。基因的实例包括能够降低聚(ADP-核糖)聚合酶(PARP)基因的表达和/或活性的基因、能够降低PARG编码基因的表达和/或活性的转基因、编码烟酰胺腺嘌呤二核苷酸补救合成途径的植物功能性酶的基因，所述酶包括烟酰胺酶，烟酸磷酸核糖基转移酶，烟酸单核苷酸腺苷转移酶，烟酰胺腺嘌呤二核苷酸合成酶，或烟酰胺磷酸核糖基转移酶，涉及碳水化合物生物合成的酶，涉及聚果糖(例如菊粉型和levan型)产生、α-1,6支链α-1,4-葡聚糖产生、交替糖(alternan)产生、透明质酸产生的酶。

在一些实施方案中，可将改良抗旱性的基因引入植物。基因的实例是泛素蛋白连接酶蛋白(UPL)、蛋白(UPL3)、DR02、DR03、ABC转运蛋白和DREB1A。

营养改良植物

在一些实施方案中，所述组合物、系统和方法可用于产生营养改良植物。在一些实例中，此类植物可提供功能性食物，例如可提供超出其所含传统营养素的健康益处的改变的食物或食物成分。在某些实例中，此类植物可提供保健食物，例如可被视为食物或食物的一部分并提供健康益处(包括预防和治疗疾病)的物质。保健食物可用于预防和/或治疗动物和人的疾病，例如癌症、糖尿病、心血管疾病和高血压。

改良植物可自然产生一种或多种所需化合物，并且修饰可提高化合物的水平或活性或质量。在一些情况下，改良植物可能不会自然产生化合物，而修饰使得植物能够产生此类化合物。在一些情况下，所述组合物、系统和方法用于间接修饰这些化合物的内源性合成，例如通过修饰控制这种化合物代谢的一个或多个转录因子。

营养改良植物的实例包括包含改变的蛋白质质量、含量和/或氨基酸组成、必需氨基酸含量、油和脂肪酸、碳水化合物、维生素和类胡萝卜素、功能性次生代谢物和矿物质的植物。在一些实例中，改良植物可包含或产生具有健康益处的化合物。营养改良植物的实例包括描述于Newell-McGloughlin,Plant Physiology,2008年7月,第147卷,第939–953页中的那些。

可产生的化合物的实例包括类胡萝卜素(例如，α-胡萝卜素或β-胡萝卜素)、叶黄素、番茄红素、玉米黄质、膳食纤维(例如，不溶性纤维、β-葡聚糖、可溶性纤维)、脂肪酸(例如，ω-3脂肪酸、共轭亚油酸、GLA)、类黄酮(例如，羟基肉桂酸酯、黄酮醇、儿茶素和单宁)、硫代葡萄糖苷、吲哚、异硫氰酸酯(例如，萝卜硫素)、酚类(例如，二苯乙烯、咖啡酸和阿魏酸、表儿茶素)、植物甾烷醇/甾醇、果聚糖、菊粉、低聚果糖、皂苷、大豆蛋白、植物雌激素(例如，异黄酮、木脂素)、硫化物和硫醇，诸如二烯丙基硫化物、烯丙基甲基三硫化物、二硫代硫酮、单宁(诸如原花青素)、或其任何组合。

所述组合物、系统和方法也可用于改变蛋白质/淀粉功能、保质期、味道/美学、纤维质量和过敏原、抗营养素和毒素减少性状。

可被修饰以引入性状的基因和核酸的实例包括硬脂基-ACP去饱和酶、与可能导致特征在于低植酸水平的玉米突变体的单个等位基因相关连的DNA、Tf RAP2.2及其相互作用的配偶体SINAT2、Tf Dof1和DOF Tf AtDof1.1(OBP2)。

多倍体植物的修饰

所述组合物、系统和方法可用于修饰多倍体植物。多倍体植物携带其基因组的重复拷贝(例如多达六个，诸如在小麦中)。在一些情况下，所述组合物、系统和方法可被多路复用以一次性影响基因的所有拷贝，或靶向数十个基因。例如，所述组合物、系统和方法可用于同时确保负责抑制对疾病的防御的不同基因中的功能突变丧失。所述修饰可以是同时抑制TaMLO-Al、TaMLO-Bl和TaMLO-Dl核酸序列在小麦植物细胞中的表达并由此再生小麦植物，以确保小麦植物对白粉病具有抗性(例如，如WO2015109752中所述)。

果实成熟调控

所述组合物、系统和方法可用于调控果实的成熟。成熟是水果和蔬菜成熟过程中的一个正常阶段。仅在开始几天后，所述成熟就可能使水果或蔬菜无法食用，这可能会给农民和消费者带来重大损失。

在一些实施方案中，所述组合物、系统和方法用于减少乙烯产生。在一些实例中，所述组合物、系统和方法可用于抑制ACC合酶的表达和/或活性，插入ACC脱氨酶基因或其功能片段，插入SAM水解酶基因或其功能片段，抑制ACC氧化酶基因表达。

可替代地或另外地，所述组合物、系统和方法可用于修饰乙烯受体(例如，抑制ETR1)和/或聚半乳糖醛酸酶(PG)。基因的抑制可通过将突变、反义序列和/或基因的截短拷贝引入基因组来实现。

增加植物的储存寿命

在一些实施方案中，所述组合物、系统和方法用于修饰涉及产生影响植物或植物部分的储存寿命的化合物的基因。所述修饰可能在阻止马铃薯块茎中还原糖的积聚的基因中。在高温处理后，这些还原糖与游离氨基酸反应，从而产生棕色的苦味产物和升高水平的丙烯酰胺，丙烯酰胺是一种潜在的致癌物。在特定的实施方案中，本文提供的方法用于降低或抑制液泡转化酶基因(VInv)的表达，所述基因编码将蔗糖分解成葡萄糖和果糖的蛋白质。

减少植物中的过敏原

在一些实施方案中，所述组合物、系统和方法用于生成过敏原水平降低的植物，使它们对消费者更安全。为此，所述组合物、系统和方法可用于鉴定和修饰(例如，抑制)负责产生植物过敏原的一种或多种基因。此类基因的实例包括Lol p5，以及花生、大豆、扁豆、豌豆、羽扇豆、青豆、绿豆中的那些基因，诸如描述于Nicolaou等人,Current Opinion inAllergy and Clinical Immunology 2011；11(3):222)中的那些，所述文献以引用的方式整体并入本文。

雄性不育植物的生成

所述组合物、系统和方法可用于生成雄性不育植物。与近交植物相比，杂交植物通常具有有利的农艺性状。然而，对于自花授粉植物，杂交种的生成可能具有挑战性。在不同的植物类型(例如，玉米和水稻)中，已鉴定出对植物可育性，更特别地是雄性可育性重要的基因。被如此遗传改变的植物可用于杂交育种计划。

所述组合物、系统和方法可用于修饰涉及雄性可育性的基因，例如使雄性可育性所需的基因失活(诸如通过引入突变)。涉及雄性可育性的基因的实例包括细胞色素P450样基因(MS26)或大范围核酸酶基因(MS45)，以及描述于Wan X等人,Mol Plant.2019年3月4日；12(3):321-342；和Kim YJ等人,Trends Plant Sci.2018年1月；23(1):53-65中的那些。

增加植物的生育期

在一些实施方案中，所述组合物、系统和方法可用于延长植物诸如水稻的生育期。例如，可靶向水稻生育期基因诸如Ehd3以在所述基因中产生突变，并且可选择用于延长再生植物生育期的幼苗。

产物的早期产量的产生

在一些实施方案中，所述组合物、系统和方法可用于产生产物的早期产量。例如，可调节开花过程，例如，通过使开花阻遏基因诸如SP5G突变。此类方法的实例包括描述于Soyk S等人,Nat Genet.2017年1月；49(1):162-168中的那些。

石油和生物燃料生产

所述组合物、系统和方法可用于生成用于油和生物燃料生产的植物。生物燃料包括由植物和植物衍生资源制成的燃料。生物燃料可从有机物质中提取，其能量是通过碳固定过程获得的，或者是通过使用或转化生物质而制成的。这种生物质可直接用于生物燃料，或可通过热转化、化学转化和生化转化来转化为方便的含能物质。这种生物质转化可产生固体、液体或气体形式的燃料。生物燃料包括生物乙醇和生物柴油。生物乙醇可通过纤维素(淀粉)的糖发酵过程产生，所述纤维素可源自玉米和甘蔗。生物柴油可从油料作物(诸如油菜籽、棕榈和大豆)中产生。生物燃料可用于运输。

用于产生植物油和生物燃料的植物的生成

所述组合物、系统和方法可用于生成表达或过表达高水平的油或生物燃料的藻类(例如硅藻)和其他植物(例如葡萄)。

在一些情况下，所述组合物、系统和方法可用于修饰涉及改变脂质的量和/或脂质的质量的基因。此类基因的实例包括涉及脂肪酸合成途径的那些，例如，乙酰辅酶A羧化酶、脂肪酸合酶、3-酮酰基-酰基-载剂蛋白合酶III、甘油-3-磷酸脱氢酶(G3PDH)、烯酰基-酰基载剂蛋白还原酶(烯酰基-ACP-还原酶)、甘油-3-磷酸酰基转移酶、溶血磷脂酰基转移酶或二酰基甘油酰基转移酶、磷脂:二酰基甘油酰基转移酶、磷脂酸磷酸酶、脂肪酸硫酯酶诸如棕榈酰蛋白硫酯酶或苹果酸酶活性。

在其他实施方案中，设想产生具有增加的脂质积聚的硅藻。这可以通过靶向降低脂质分解代谢的基因来实现。基因的实例包括涉及三酰基甘油和游离脂肪酸的激活、脂肪酸的β-氧化的那些基因，诸如酰基-辅酶A合成酶、3-酮酰基-辅酶A硫解酶、酰基-辅酶A氧化酶活性和磷酸葡萄糖变位酶的基因。

在一些实例中，藻类可被修饰用于产生油和生物燃料，包括脂肪酸(例如，脂肪酯，诸如酸甲酯(FAME)和脂肪酸乙酯(FAEE))。修饰微藻的方法的实例包括描述于Stovicek等人Metab.Eng.Comm.,2015；2:1；US 8945839；和WO 2015086795中的那些。

在一些实例中，可在植物(例如，藻类)中引入(例如，过表达)一种或多种基因，以从碳源(例如，醇)产生油和生物燃料(例如，脂肪酸)。基因的实例包括编码以下的基因：酰基-辅酶A合酶、酯合酶、硫酯酶(例如，tesA、'tesA、tesB、fatB、fatB2、fatB3、fatAl或fatA)、酰基-辅酶A合酶(例如，fadD、JadK、BH3103、pfl-4354、EAV15023、fadDl、fadD2、RPC_4074、fadDD35、fadDD22、faa39)、酯合酶(例如，来自希蒙得木(Simmondsia chinensis)、不动杆菌(Acinetobacter)属ADP、泊库岛食烷菌(Alcanivorax borkumensis)、铜绿假单胞菌(Pseudomonas aeruginosa)、亚德海床杆菌(Fundibacter jadensis)、拟南芥或真养产碱杆菌(Alkaligenes eutrophus)的合酶/酰基-辅酶A:二酰基甘油酰基转移酶、或其变体)。

另外地或可替代地，植物(例如，藻类)中的一种或多种基因可被灭活(例如，基因的表达降低)。例如，可将一种或多种突变引入基因。此类基因的实例包括编码酰基-辅酶A脱氢酶(例如，fade)、外膜蛋白受体和脂肪酸生物合成的转录调控因子(例如，阻遏子)(例如，fabR)、丙酮酸甲酸裂解酶(例如，pflB)、乳酸脱氢酶(例如，IdhA)的基因。

有机酸生产

在一些实施方案中，植物可被修饰以产生有机酸，诸如乳酸。植物可使用糖、戊糖或己糖产生有机酸。为此，可在植物中引入(例如，并过表达)一种或多种基因。此类基因的实例包括LDH基因。

在一些实例中，一种或多种基因可被灭活(例如，基因的表达降低)。例如，可将一种或多种突变引入基因。基因可包括编码涉及内源性代谢途径的蛋白质的那些基因，所述内源性代谢途径产生除目标有机酸以外的代谢物和/或其中内源性代谢途径消耗所述有机酸。

可被修饰或引入的基因的实例包括编码以下酶的那些基因：丙酮酸脱羧酶(pdc)、延胡索酸还原酶、醇脱氢酶(adh)、乙醛脱氢酶、磷酸烯醇丙酮酸羧化酶(ppc)、D-乳酸脱氢酶(d-ldh)、L-乳酸脱氢酶(l-ldh)、乳酸2-单加氧酶、乳酸脱氢酶、细胞色素依赖性乳酸脱氢酶(例如，细胞色素B2依赖性L-乳酸脱氢酶)。

增强植物特性用于生物燃料生产

在一些实施方案中，所述组合物、系统和方法用于改变植物细胞壁的特性以促进关键水解剂的进入，从而更高效地释放糖用于发酵。通过降低植物中木质素的比例，可增加纤维素的比例。在特定的实施方案中，植物中的木质素生物合成可被下调以增加可发酵碳水化合物。

在一些实例中，一种或多种木质素生物合成基因可被下调。此类基因的实例包括4-香豆酸3-羟化酶(C3H)、苯丙氨酸解氨酶(PAL)、肉桂酸4-羟化酶(C4H)、羟基肉桂酰转移酶(HCT)、咖啡酸O-甲基转移酶(COMT)、咖啡酰辅酶A 3-O-甲基转移酶(CCoAOMT)、阿魏酸5-羟化酶(F5H)、肉桂醇脱氢酶(CAD)、肉桂酰辅酶A还原酶(CCR)、4-香豆酸-辅酶A连接酶(4CL)、单木质醇-木质素特异性糖基转移酶和醛脱氢酶(ALDH)，以及描述于WO 2008064289中的那些。

在一些实例中，可减少在发酵期间产生较低水平乙酸的植物质量。为此，涉及多糖乙酰化的基因(例如，Cas1L和描述于WO 2010096488中的那些)可被灭活。

用于油和生物燃料生产的其他微生物

在一些实施方案中，使用本文的组合物、系统和方法，可使用植物以外的微生物产生油和生物燃料。微生物的实例包括以下属的那些：埃希氏菌属(Escherichia)、芽孢杆菌属(Bacillus)、乳杆菌属(Lactobacillus)、红球菌属(Rhodococcus)、聚球藻菌属(Synechococcus)、集胞藻属(Synechoystis)、假单胞菌属(Pseudomonas)、曲霉属(Aspergillus)、木霉属(Trichoderma)、链孢霉属(Neurospora)、镰刀菌属(Fusarium)、腐殖霉属(Humicola)、根毛霉属(Rhizomucor)、克鲁维酵母属(Kluyveromyces)、毕赤酵母属(Pichia)、毛霉属(Mucor)、毁丝霉属(Myceliophtora)、青霉属(Penicillium)、原毛平革菌属(Phanerochaete)、侧耳属(Pleurotus)、栓菌属(Trametes)、金孢属(Chrysosporium)、酵母属(Saccharomyces)、寡养单胞菌属(Stenotrophamonas)、裂殖酵母属(Schizosaccharomyces)、亚罗酵母属(Yarrowia)或链霉菌属(Streptomyces)。

植物培养和再生

在一些实施方案中，可培养修饰的植物或植物细胞以再生具有转化或修饰的基因型并因此具有所需表型的完整植物。再生技术的实例包括依赖于在组织培养生长培养基中操纵某些植物激素，依赖于与所需核苷酸序列一起引入的杀生物剂和/或除草剂标志物，从培养的原生质体、植物愈伤组织、外植体、器官、花粉、胚胎或其部分获得的那些技术。

检测植物基因组选择性标志物中的修饰

当所述组合物、系统和方法用于修饰植物时，可使用合适的方法来确认和检测在植物中进行的修饰。在一些实例中，当进行多种修饰时，可选择和检测一种或多种所需修饰或由所述修饰产生的性状。可通过生化和分子生物学技术进行检测和确认，所述技术诸如Southern分析、PCR、Northern印迹、S1 RNA酶保护、引物延伸或逆转录酶-PCR、酶测定、核酶活性、凝胶电泳、Western印迹、免疫沉淀、酶联免疫测定、原位杂交、酶染色和免疫染色。

在一些情况下，可将一种或多种标志物，诸如选择性的且可检测的标志物，引入植物中。此类标志物可用于选择、监测、分离具有所需修饰和性状的细胞和植物。选择性标志物可赋予阳性或阴性选择，并且是有条件的或无条件，这取决于外部底物的存在。此类标志物的实例包括赋予对抗生素(诸如潮霉素(hpt)和卡那霉素(nptII))的抗性的基因和蛋白质，以及赋予对除草剂(诸如膦丝菌素(bar)和氯磺隆(als))的抗性的基因，能够产生或加工有色物质的酶(例如，β-葡萄糖醛酸酶、萤光素酶、B或C1基因)。

在真菌中的应用

本文所述的组合物、系统和方法可用于在真菌或真菌细胞(诸如酵母)中进行高效且具有成本效益的基因或基因组询问或编辑或操纵。植物中的方法和应用也可应用于真菌。

真菌细胞可以是真菌界内的任何类型的真核细胞，诸如子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、芽枝菌门(Blastocladiomycota)、壶菌门(Chytridiomycota)、球囊菌门(Glomeromycota)、微孢子门(Microsporidia)和新丽鞭毛菌门(Neocallimastigomycota)。真菌或真菌细胞的实例包括酵母、霉菌和丝状真菌。

在一些实施方案中，真菌细胞是酵母细胞。酵母细胞是指子囊菌门和担子菌门内的任何真菌细胞。酵母的实例包括出芽酵母(buddingyeast)、裂殖酵母(fission yeas)和霉菌、酿酒酵母(S.cerervisiae)、马克斯克鲁维酵母(Kluyveromyces marxianus)、东方伊萨酵母(Issatchenkiaorientalis)、念珠菌属(Candida spp.)(例如，白色念珠菌(Candidaalbicans))、耶氏酵母属(Yarrowia spp.)(例如，解脂耶氏酵母(Yarrowia lipolytica))、毕赤酵母属(例如，毕赤酵母(Pichia pastoris))、克鲁维酵母属(例如，乳克鲁维酵母(Kluyveromyces lactis)和马克斯克鲁维酵母(Kluyveromyces marxianus))、链孢霉属(例如，粗糙链孢霉(Neurospora crassa))、镰刀菌属(例如，尖孢镰刀菌(Fusariumoxysporum))和伊萨酵母属(Issatchenkia spp.)(例如，东方伊萨酵母(Issatchenkiaorientalis)、库德毕赤酵母(Pichia kudriavzevii)和酸嗜热假丝酵母(Candidaacidothermophilum))。

在一些实施方案中，真菌细胞是丝状真菌细胞，其以丝状体(例如，菌丝或菌丝体)生长。丝状真菌细胞的实例包括曲霉属(例如，黑曲霉(Aspergillus niger))、木霉属(例如，里氏木霉(Trichoderma reesei))、根毛霉属(例如，米根毛霉(Rhizopus oryzae))和被孢霉属(Mortierella spp.)(例如，黄褐色被孢霉(Mortierella isabellina))。

在一些实施方案中，真菌细胞属于工业菌株。工业菌株包括在工业过程(例如以商业或工业规模生产产品)中使用或分离出来的任何真菌细胞的菌株。工业菌株可以指通常用于工业过程的真菌物种，或者它可以指也可用于非工业目的(例如，实验室研究)的真菌物种的分离物。工业过程的实例包括发酵(例如，在食物或饮料产品的生产中)、蒸馏、生物燃料产生、化合物产生和多肽产生。工业菌株的实例包括但不限于JAY270和ATCC4124。

在一些实施方案中，真菌细胞是多倍体细胞，其基因组以多于一个拷贝存在。多倍体细胞包括以多倍体状态天然存在的细胞，以及已被诱导以多倍体状态存在的细胞(例如，通过对减数分裂、胞质分裂或DNA复制的具体调控、改变、失活、激活或修饰)。多倍体细胞可以是整个基因组是多倍体的细胞，或者是在特定的目标基因组基因座中是多倍体的细胞。在一些实例中，与单倍体细胞相比，指导RNA的丰度在多倍体细胞的基因组工程中可能更经常是限速组分，并且因此使用本文所述的CRISPR系统的方法可利用使用某些真菌细胞类型。

在一些实施方案中，真菌细胞是二倍体细胞，其基因组以两个拷贝存在。二倍体细胞包括以二倍体状态天然存在的细胞，以及已被诱导以二倍体状态存在的细胞(例如，通过对减数分裂、胞质分裂或DNA复制的特具体调控、改变、失活、激活或修饰)。二倍体细胞可以指整个基因组是二倍体的细胞，或者可以指在特定的目标基因组基因座中是二倍体的细胞。

在一些实施方案中，真菌细胞是单倍体细胞，其基因组以一个拷贝存在。单倍体细胞包括以单倍体状态天然存在的细胞，或已被诱导以单倍体状态存在的细胞(例如，通过对减数分裂、胞质分裂或DNA复制的具体调控、改变、失活、激活或修饰)。单倍体细胞可以指整个基因组是单倍体的细胞，或者可以指在特定的目标基因组基因座中是单倍体的细胞。

可使用本文的递送系统和方法将所述组合物和系统以及编码所述组合物和系统的核酸引入真菌细胞。递送系统的实例包括乙酸锂处理、轰击、电穿孔，以及描述于Kawai等人,2010,Bioeng Bugs.2010年11月至12月；1(6):395–403中的那些。

在一些实例中，可使用酵母表达载体(例如，具有一种或多种调控元件的那些)。此类载体的实例包括着丝粒(CEN)序列、自主复制序列(ARS)、启动子(诸如与目标序列或基因可操作地连接的RNA聚合酶III启动子)、终止子(诸如RNA聚合酶III终止子)、复制起点和标志物基因(例如，营养缺陷型、抗生素或其他选择性标志物)。用于酵母的表达载体的实例可包括质粒、酵母人工染色体、2μ质粒、酵母整合性质粒、酵母复制性质粒、穿梭载体和游离型质粒。

通过真菌进行的生物燃料和材料生产

在一些实施方案中，所述组合物、系统和方法可用于生成用于生物燃料和材料生产的修饰的真菌。例如，用于从可发酵糖产生生物燃料或生物聚合物并且任选地能够降解源自农业废物的植物衍生的木质纤维素作为可发酵糖的来源的修饰的真菌。可将生物燃料生产和合成所需的外来基因引入真菌中。在一些实例中，所述基因可编码涉及将丙酮酸转化为乙醇或另一种目标产物、降解纤维素(例如纤维素酶)、与生物燃料生产途径竞争的内源性代谢途径的酶。

在一些实例中，所述组合物、系统和方法可用于生成和/或选择具有改变的木糖或纤维二糖利用、类异戊二烯生物合成和/或乳酸生产的酵母菌株。涉及这些化合物的代谢和合成的一种或多种基因可被修饰和/或引入酵母细胞。方法和基因的实例包括乳酸脱氢酶、PDC1和PDC5，以及描述于Ha,S.J.等人(2011)Proc.Natl.Acad.Sci.USA 108(2):504-9和Galazka,J.M.等人(2010)Science 330(6000):84-6；

T等人,Metab Eng.2015年3月；28:213-222；Stovicek V等人,FEMS Yeast Res.2017年8月1日；17(5)中的那些。

改良植物和酵母细胞

本公开还提供了改良植物和真菌。改良和真菌可包含由本文的组合物、系统和方法引入的一种或多种基因，和/或由本文的组合物、系统和方法修饰的一种或多种基因。改良植物和真菌可具有增加的食物或饲料产量(例如，更高的蛋白质、碳水化合物、营养素或维生素水平)，油和生物燃料产量(例如，甲醇、乙醇)，对有害生物、除草剂、干旱、低温或高温、过量水等的耐受性。

植物或真菌可具有改良的一个或多个部分，例如，叶、茎、根、块茎、种子、胚乳、胚珠和花粉。所述部分可以是有活力的、无活力的、可再生的和/或不可再生的。

改良植物和真菌可包括配子、种子、胚胎(合子或体细胞的)、改良植物和真菌的子代和/或杂种。子代可以是所产生的植物或真菌的克隆，或者可以是通过与同一物种的其他个体杂交以将其他所需性状渗入其后代的有性繁殖而产生的。在多细胞生物体，特别是植物的情况下，细胞可以在体内或离体。

CRISPR-Cas系统在植物中的其他应用

所述组合物、系统和方法在植物和真菌上的其他应用包括遗传元件动力学的可视化(例如，如Chen B等人,Cell.2013年12月19日；155(7):1479-91中所述)、体外和体内靶向基因破坏阳性选择(如Malina等人,Genes Dev.2013年12月1日；27(23):2602-14中所述)、诸如使用Cas和组蛋白修饰酶的融合体的表观遗传修饰(例如，如Rusk N,NatMethods.2014年1月；11(1):28中所述)、鉴定转录调控因子(例如，如Waldrip ZJ,Epigenetics.2014年9月；9(9):1207-11中所述)、RNA和DNA病毒的抗病毒治疗(例如，如Price AA等人,Proc Natl Acad Sci U S A.2015年5月12日；112(19):6164-9；Ramanan V等人,Sci Rep.2015年6月2日；5:10833中所述)、基因组复杂性诸如染色体数目的改变(例如，如Karimi-Ashtiyani R等人,Proc Natl Acad Sci U S A.2015年9月8日；112(36):11211-6；Anton T等人,Nucleus.2014年3月至4月；5(2):163-72中所述)、受控失活/激活的CRISPR系统的自切割(例如，如Sugano SS等人,Plant Cell Physiol.2014年3月；55(3):475-81中所述)、多重基因编辑(如Kabadi AM等人,Nucleic Acids Res.2014年10月29日；42(19):e147中所述)、多重基因组编辑试剂盒的开发(如Xing HL等人,BMC PlantBiol.2014年11月29日；14:327中所述)、淀粉生产(如Hebelstrup KH等人,Front PlantSci.2015年4月23日；6:247中所述)、靶向家族或途径中的多个基因(例如，如Ma X等人,MolPlant.2015年8月；8(8):1274-84中所述)、非编码基因和序列的调控(例如，如Lowder LG等人,Plant Physiol.2015年10月；169(2):971-85中所述)、编辑树中的基因(例如，如BelhajK等人,Plant Methods.2013年10月11日；9(1):39；Harrison MM等人,Genes Dev.2014年9月1日；28(17):1859-72；Zhou X等人,New Phytol.2015年10月；208(2):298-301中所述)、引入对宿主特定病原体和有害生物具有抗性的突变。

可使用所述组合物、系统和方法进行的植物和真菌修饰的另外的实例包括描述于国际专利公布号WO2016/099887、WO2016/025131、WO2016/073433、WO2017/066175、WO2017/100158、WO 2017/105991、WO2017/106414、WO2016/100272、WO2016/100571、WO 2016/100568、WO 2016/100562和WO 2017/019867中的那些。

在非人动物中的应用

所述组合物、系统和方法可用于研究和修饰非人动物，例如，引入所需性状和疾病恢复力(resilience)、治疗疾病、促进繁殖等。在一些实施方案中，可使用所述组合物、系统和方法改善繁殖和引入所需性状，例如，增加性状相关等位基因的频率、其他品种/物种的等位基因渗入而没有连锁累赘，以及从头产生有利的等位基因。可以筛选和鉴定可被靶向的基因和其他遗传元件。应用和方法的实例包括描述于以下中的那些：Tait-Burkard C等人,Livestock 2.0-genome editing for fitter,healthier,and more productivefarmed animals.Genome Biol.2018年11月26日；19(1):204；Lillico S,Agriculturalapplications of genome editing in farmed animals.Transgenic Res.2019年8月；28(增刊2):57-60；Houston RD等人,Harnessing genomics to fast-track geneticimprovement in aquaculture.Nat Rev Genet.2020年4月16日.doi:10.1038/s41576-020-0227-y，其以引用的方式整体并入本文。其他章节中描述的应用，诸如治疗、诊断等，也可用于本文的动物。

所述组合物、系统和方法可用于动物，诸如鱼、两栖动物、爬行动物、哺乳动物和鸟类。动物可以是农场和农业动物、或宠物。农场和农业动物的实例包括马、山羊、绵羊、猪、牛、美洲驼、羊驼和鸟类，例如鸡、火鸡、鸭和鹅。动物可以是非人灵长类动物，例如狒狒、卷尾猴、黑猩猩、狐猴、猕猴、狨猴、绢毛猴、蜘蛛猴、松鼠猴和长尾猴。宠物的实例包括狗、猫、马、狼、兔子、雪貂、沙鼠、仓鼠、毛丝鼠、花枝鼠、豚鼠、金丝雀、长尾鹦鹉和鹦鹉。

在一些实施方案中，可在动物中引入(例如，过表达)一种或多种基因以获得或增强一种或多种所需性状。可引入生长激素、胰岛素样生长因子(IGF-1)以增加动物(例如，猪或鲑鱼)的生长(诸如Pursel VG等人,J Reprod Fertil增刊1990；40:235-45；Waltz E,Nature.2017；548:148中所述)。可例如在猪中引入Fat-1基因(例如，来自秀丽隐杆线虫(Celegans))，可诱导产生更大比例的n-3至n-6脂肪酸(诸如Li M等人,Genetics.2018；8:1747–54中所述)。可例如在猪中引入植酸酶(例如，来自大肠杆菌)、木聚糖酶(例如，来自黑曲霉)、β-葡聚糖酶(例如，来自地衣芽孢杆菌(bacillus lichenformis))以通过减少磷和氮释放来减少环境影响(诸如Golovan SP等人,Nat Biotechnol.2001；19:741–5；Zhang X等人,elife.2018中所述)。可例如在鸡中引入shRNA诱饵以诱导禽流感恢复力(诸如Lyall等人,Science.2011；331:223–6中所述)。可例如在山羊和奶牛中引入溶菌酶或溶葡球菌酶以诱导乳腺炎恢复力(诸如Maga EA等人,Foodborne Pathog Dis.2006；3:384–92；Wall RJ等人,Nat Biotechnol.2005；23:445–51中所述)。可例如在猪中引入组蛋白脱乙酰基酶诸如HDAC6以诱导PRRSV恢复力(诸如Lu T.等人,PLoS One.2017；12:e0169317中所述)。CD163可被修饰(例如，灭活或去除)以在猪中引入PRRSV恢复力(诸如Prather RS等人,SciRep.2017年10月17日；7(1):13371中所述)。类似的方法可用于抑制或去除可能从动物传播给人的病毒和细菌(例如，猪流感病毒(SIV)毒株，包括丙型流感和甲型流感的亚型，称为H1N1、H1N2、H2N1、H3N1、H3N2和H2N3，以及肺炎、脑膜炎和水肿)。

在一些实施方案中，可针对疾病抗性和生产性状对一种或多种基因进行修饰或编辑。肌肉生长抑制素(例如，GDF8)可被修饰以增加例如牛、绵羊、山羊、鲶鱼和猪中的肌肉生长(诸如Crispo M等人,PLoS One.2015；10:e0136690；Wang X等人,Anim Genet.2018；49:43–51；Khalil K等人,Sci Rep.2017；7:7301；Kang J-D等人,RSC Adv.2017；7:12541–9中所述)。Pc POLLED可被修饰以例如在奶牛中诱导无角(horlessness)(诸如Carlson DF等人,Nat Biotechnol.2016；34:479–81中所述)。KISS1R可被修饰以例如在猪中诱导公猪异味(boretaint)(性成熟期间的激素释放导致不需要的肉味)。死端蛋白(Dead endprotein，dnd)可被修饰以例如在鲑鱼中诱导不育(诸如Wargelius A等人,Sci Rep.2016；6:21284中所述)。Nano2和DDX可被修饰以例如在猪和鸡中诱导不育(例如，在替代宿主中)(诸如Park K-E等人,Sci Rep.2017；7:40176；Taylor L等人,Development.2017；144:928–34中所述)。CD163可被修饰以例如在猪中诱导PRRSV抗性(诸如Whitworth KM等人,NatBiotechnol.2015；34:20–2中所述)。RELA可被修饰以例如在猪中诱导ASFV恢复力(诸如Lillico SG等人,Sci Rep.2016；6:21645中所述)。CD18可被修饰以例如在奶牛中诱导溶血性曼氏杆菌(巴氏杆菌)(Mannheimia(Pasteurella)haemolytica)恢复力(诸如Shanthalingam S等人,roc Natl Acad Sci U S A.2016；113:13186–90中所述)。NRAMP1可被修饰以例如在奶牛中诱导肺结核恢复力(诸如Gao Y等人,Genome Biol.2017；18:13中所述)。内源性逆转录病毒基因可被修饰或去除用于异种移植(诸如Yang L等人Science.2015；350:1101–4；Niu D等人,Science.2017；357:1303–7中所述)。肌肉量的负调控因子(例如，肌肉生长抑制素)可被修饰(例如，灭活)以例如在狗中增加肌肉量(如Zou Q等人,J Mol Cell Biol.2015年12月；7(6):580-3中所述)。

可生成(例如，通过修饰RAG2)患有严重联合免疫缺陷(SCID)的动物诸如猪，以为再生医学、异种移植(也在本文别处讨论)和肿瘤发生提供有用的模型。方法和途径的实例包括描述于Lee K等人,Proc Natl Acad Sci U S A.2014年5月20日；111(20):7260-5；和Schomberg等人FASEB Journal,2016年4月；30(1):增刊571.1中的那些。

动物中的SNP可被修饰。方法和途径的实例包括描述于Tan W.等人,Proc NatlAcad Sci U S A.2013年10月8日；110(41):16526-31；Mali P等人,Science.2013年2月15日；339(6121):823-6中的那些。

干细胞(例如，诱导的多能干细胞)可以被修饰并分化成所需的子代细胞，例如，如HeoYT等人，StemCellsDev.2015年2月1日；24(3):393-402。

可对动物进行特征分析(诸如Igenity)，以筛选和鉴定与经济性状相关的遗传变异。遗传变异可被修饰以引入或改善性状，诸如胴体组成、胴体质量、母体和生殖性状以及平均日增重。

遗传和表观遗传条件的模型

本发明的方法可用于产生可用于对目标遗传或表观遗传条件进行建模和/或研究(诸如通过目标突变模型或疾病模型)的植物、动物或细胞。如本文所用，“疾病”是指受试者中的疾病、病症或适应症。例如，本发明的方法可用于产生在与疾病相关联的一个或多个核酸序列中包含修饰的动物或细胞，或者其中与疾病相关联的一个或多个核酸序列的表达被改变的植物、动物或细胞。此种核酸序列可以编码疾病相关蛋白序列或者可以是疾病相关控制序列。因此，应当理解，在本发明的实施方案中，植物、受试者、患者、生物体或细胞可以是非人受试者、患者、生物体或细胞。因此，本发明提供了通过本发明方法产生的植物、动物或细胞，或其子代。子代可以是所产生的植物或动物的克隆，或者可以是通过与同一物种的其他个体杂交以将其他所需性状渗入其后代的有性繁殖而产生的。在多细胞生物体，特别是动物或植物的情况下，细胞可以在体内或离体。在培养细胞的情况下，如果满足适当的培养条件并且优选地如果细胞适合于此目的(例如干细胞)，则可建立细胞系。还设想了由本发明产生的细菌细胞系。因此，还设想了细胞系。

在一些方法中，疾病模型可用于使用疾病研究中常用的测量方法来研究突变对动物或细胞的影响以及疾病的发展和/或进展。可替代地，此种疾病模型可用于研究药物活性化合物对疾病的影响。

在一些方法中，疾病模型可用于评估潜在基因疗法策略的功效。也就是说，可修饰疾病相关基因或多核苷酸，使得疾病发展和/或进展得以抑制或减少。特别地，所述方法包括修饰疾病相关基因或多核苷酸，使得产生改变的蛋白质，并且因此，动物或细胞具有改变的反应。因此，在一些方法中，可将遗传修饰的动物与易于发展疾病的动物进行比较，使得可评估基因疗法事件的影响。

在另一个实施方案中，本发明提供了一种开发调节与疾病基因相关联的细胞信号传导事件的生物活性剂的方法。所述方法包括使测试化合物与包含一种或多种载体的细胞接触，所述一种或多种载体驱动系统的一种或多种组分的表达；以及检测读数的变化，所述变化指示与例如细胞中所含疾病基因的突变相关联的细胞信号传导事件的减少或增加。

可结合本发明的方法构建细胞模型或动物模型用于筛选细胞功能变化。此种模型可用于研究通过本文的系统和方法修饰的基因组序列对目标细胞功能的影响。例如，细胞功能模型可用于研究修饰的基因组序列对细胞内信号传导或细胞外信号传导的影响。可替代地，细胞功能模型可用于研究修饰的基因组序列对感官知觉的影响。在一些此类模型中，模型中的一个或多个信号传导生化途径相关基因组序列被修饰。

已经专门研究了几种疾病模型。这些包括新发自闭症风险基因CHD8、KATNAL2和SCN2A；以及综合征型自闭症(天使综合征)基因UBE3A。这些基因和所得的自闭症模型当然是优选的，但用于显示本发明在基因和对应模型中的广泛适用性。一个或多个信号传导生化途径相关基因组序列的改变的表达可通过测定测试模型细胞与对照细胞(在与候选剂接触时)之间的对应基因的mRNA水平差异来确定。可替代地，通过检测编码的多肽或基因产物水平差异来确定信号传导生化途径相关序列的差异表达。

为了测定剂诱导的mRNA转录物或对应多核苷酸的水平改变，首先根据本领域的标准方法提取样品中所含的核酸。例如，可根据Sambrook等人(1989)阐述的程序，使用各种裂解酶或化学溶液分离mRNA，或按照制造商提供的随附说明通过核酸结合树脂提取mRNA。然后根据本领域众所周知的方法或基于本文例示的方法，通过扩增程序或常规杂交测定(例如，Northern印迹分析)检测提取的核酸样品中所含的mRNA。

为了本发明的目的，扩增意指采用能够以合理保真度复制靶序列的引物和聚合酶的任何方法。扩增可通过天然或重组DNA聚合酶进行，所述聚合酶诸如TaqGold^TM、T7 DNA聚合酶、大肠杆菌DNA聚合酶的Klenow片段和逆转录酶。优选的扩增方法是PCR。特别地，可对分离的RNA进行逆转录测定，所述测定与定量聚合酶链式反应(RT-PCR)相结合，以量化信号传导生化途径相关序列的表达水平。

基因表达水平的检测可在扩增测定中实时进行。在一个方面，可用荧光DNA结合剂(包括但不限于DNA嵌入剂和DNA沟槽结合剂)使扩增产物直接可视化。由于并入双链DNA分子中的嵌入剂的量通常与扩增的DNA产物的量成比例，因此可通过使用本领域的常规光学系统量化嵌入染料的荧光来方便地确定扩增产物的量。适用于这种应用的DNA结合染料包括SYBR绿、SYBR蓝、DAPI、碘化丙啶、Hoeste、SYBR金、溴化乙锭、吖啶、原黄素、吖啶橙、吖啶黄、氟香豆素(fluorcoumanin)、玫瑰树碱、道诺霉素、氯喹、偏端霉素D、色霉素、乙菲啶(homidium)、光神霉素、多吡啶钌、蒽霉素等。

在另一个方面，可在扩增反应中使用其他荧光标记，诸如序列特异性探针，以有利于扩增产物的检测和定量。基于探针的定量扩增依赖于对所需扩增产物的序列特异性检测。所述检测利用荧光、靶特异性探针(例如，

探针)，从而增加特异性和灵敏度。用于进行基于探针的定量扩增的方法在本领域中已充分确立并且在美国专利号5,210,015中进行了教导。

在又一方面，可使用与信号传导生化途径相关序列共享序列同源性的杂交探针进行常规杂交测定。通常，允许探针在杂交反应中与源自测试受试者的生物样品中所含的信号传导生化途径相关序列形成稳定的复合物。本领域技术人员将理解，在使用反义核酸作为探针核酸的情况下，样品中提供的靶多核苷酸被选择成与反义核酸的序列互补。相反，在核苷酸探针是有义核酸的情况下，靶多核苷酸被选择成与有义核酸的序列互补。

杂交可在各种严格的条件下进行。用于实践本发明的合适杂交条件使得探针和与信号传导生化途径相关序列之间的识别相互作用既具有足够的特异性又具有足够的稳定性。提高杂交反应严格性的条件在本领域中是众所周知并发表的。参见，例如(Sambrook等人,(1989)；Nonradioactive In Situ Hybridization Application Manual,BoehringerMannheim,第二版)。可使用固定在任何固体支持物上的探针形成杂交测定，所述固体支持物包括但不限于硝酸纤维素、玻璃、硅和各种基因阵列。优选的杂交测定在高密度基因芯片上进行，如美国专利号5,445,934中所述。

为了方便检测在杂交测定期间形成的探针-靶标复合物，将核苷酸探针与可检测标记缀合。适用于本发明的可检测标记包括可通过光化学、生化、光谱、免疫化学、电学、光学或化学手段检测的任何组合物。本领域已知多种合适的可检测标记，包括荧光或化学发光标记、放射性同位素标记、酶或其他配体。在优选的实施方案中，人们可能需要采用荧光标记或酶标签，诸如地高辛、β-半乳糖苷酶、脲酶、碱性磷酸酶或过氧化物酶、抗生物素蛋白/生物素复合物。

用于检测或量化杂交强度的检测方法通常取决于上面选择的标记。例如，可使用照相胶片或磷光成像仪检测放射性标记。可使用检测发射光的光电检测器检测并量化荧光标志物。通常通过为酶提供底物并测量酶对底物的作用产生的反应产物来检测酶标记；并且最后通过简单地可视化彩色标记来检测比色标记。

也可通过检查对应的基因产物来确定剂诱导的信号传导生化途径相关序列的表达变化。确定蛋白质水平通常涉及a)使生物样品中所含的蛋白质与特异性结合与信号传导生化途径相关蛋白质的剂接触；以及(b)鉴定如此形成的任何剂:蛋白质复合物。在此实施方案的一个方面，特异性结合信号传导生化途径相关蛋白质的剂是抗体，优选单克隆抗体。

所述反应通过在允许剂与信号传导生化途径相关蛋白质之间形成复合物的条件下，使剂与源自测试样品的信号传导生化途径相关蛋白质的样品接触来进行。可根据本领域的标准程序直接或间接检测复合物的形成。在直接检测方法中，剂提供有可检测标记，并且未反应的剂可从复合物中去除；剩余标记的量由此指示形成的复合物的量。对于此种方法，优选选择即使在严格的洗涤条件期间仍保持附着在剂上的标记。优选标记不干扰结合反应。在替代方案中，间接检测程序可使用含有化学或酶促引入的标记的剂。所需的标记通常不会干扰所得剂:多肽复合物的结合或稳定性。然而，标记通常被设计成可被抗体接近以进行有效结合并因此生成可检测信号。

适用于检测蛋白质水平的多种标记是本领域已知的。非限制性实例包括放射性同位素、酶、胶体金属、荧光化合物、生物发光化合物和化学发光化合物。

在结合反应期间形成的剂:多肽复合物的量可通过标准定量测定来量化。如上所示，剂:多肽复合物的形成可通过保留在结合位点的标记量来直接测量。在替代方案中，测试信号传导生化途径相关蛋白质与标记的类似物竞争具体剂上的结合位点的能力。在此竞争性测定中，捕获的标记的量与测试样品中存在的信号传导生化途径相关蛋白质序列的量成反比。

基于上述一般原理的许多蛋白质分析技术在本领域中是可用的。它们包括但不限于放射免疫测定、ELISA(酶联免疫放射测定)、“夹心”免疫测定、免疫放射测定、原位免疫测定(使用例如胶体金、酶或放射性同位素标记)、western印迹分析、免疫沉淀测定、免疫荧光测定和SDS-PAGE。

特异性识别或结合信号传导生化途径相关蛋白质的抗体对于进行上述蛋白质分析是优选的。如果需要，可使用识别具体类型的翻译后修饰(例如，信号传导生化途径可诱导的修饰)的抗体。翻译后修饰包括但不限于糖基化、脂化、乙酰化和磷酸化。这些抗体可从商业供应商处购买。例如，可从包括Invitrogen和Perkin Elmer的许多供应商处获得特异性识别酪氨酸磷酸化蛋白的抗磷酸酪氨酸抗体。抗磷酸酪氨酸抗体在检测响应于ER应激而在其酪氨酸残基上差异磷酸化的蛋白质方面特别有用。此类蛋白质包括但不限于真核翻译起始因子2α(eIF-2α)。可替代地，可使用常规的多克隆或单克隆抗体技术，通过用表现出所需翻译后修饰的靶蛋白免疫宿主动物或抗体产生细胞来产生这些抗体。

在实践本发明方法时，可能需要辨别信号传导生化途径相关蛋白质在不同身体组织、不同细胞类型和/或不同亚细胞结构中的表达模式。这些研究可使用能够与优先在某些组织、细胞类型或亚细胞结构中表达的蛋白质标志物结合的组织特异性、细胞特异性或亚细胞结构特异性抗体来进行。

信号传导生化途径相关基的因表达改变也可通过检查基因产物相对于对照细胞的活性变化来确定。剂诱导的信号传导生化途径相关蛋白质活性变化的测定将取决于正在研究的生物活性和/或信号转导途径。例如，在蛋白质是激酶的情况下，其磷酸化下游底物的能力的变化可通过本领域已知的多种测定来确定。代表性测定包括但不限于使用抗体(诸如识别磷酸化蛋白质的抗磷酸酪氨酸抗体)的免疫印迹和免疫沉淀。另外，激酶活性可通过高通量化学发光测定诸如AlphaScreen^TM(可购自Perkin Elmer)和eTag^TM测定(Chan-Hui等人(2003)Clinical Immunology 111:162-174)来检测。

在信号传导生化途径相关蛋白质是导致细胞内pH条件波动的信号传导级联的一部分的情况下，可使用pH敏感分子诸如荧光pH染料作为报告分子。在信号传导生化途径相关蛋白质是离子通道的另一个实例中，可监测膜电位和/或细胞内离子浓度的波动。许多商业试剂盒和高通量装置特别适用于快速且稳健地筛选离子通道的调节剂。代表性仪器包括FLIPRTM(Molecular Devices,Inc.)和VIPR(Aurora Biosciences)。这些仪器能够同时检测微孔板的1000多个样品孔中的反应，并在一秒甚至一毫秒内提供实时测量和功能数据。

在实践本文公开的任一方法时，可通过本领域已知的一种或多种方法将合适的载体引入细胞或胚胎，所述方法包括但不限于显微注射、电穿孔、声穿孔、基因枪、磷酸钙介导的转染、阳离子转染、脂质体转染、树状聚合物转染、热休克转染、核转染、磁转染、脂质转染、刺穿转染、光学转染、专利剂增强的核酸摄取、以及通过脂质体、免疫脂质体、病毒体或人工病毒粒子进行的递送。在一些方法中，通过显微注射将载体引入胚胎中。可将一种或多种载体显微注射到胚胎的细胞核或细胞质中。在一些方法中，可通过核转染将一种或多种载体引入细胞中。

CRISPR复合物的靶多核苷酸可以是对真核细胞而言内源性或外源性的任何多核苷酸。例如，靶多核苷酸可以是驻留在真核细胞的细胞核中的多核苷酸。靶多核苷酸可以是编码基因产物(例如，蛋白质)的序列或非编码序列(例如，调控多核苷酸或无用DNA)。

靶多核苷酸的实例包括信号传导生化途径相关序列，例如信号传导生化途径相关基因或多核苷酸。靶多核苷酸的实例包括疾病相关基因或多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比，在源自疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在改变的表达与疾病的出现和/或进展相关的情况下，疾病相关基因或多核苷酸可以是以异常高的水平表达的基因；可以是以异常低的水平表达的基因。疾病相关基因还指具有突变或遗传变异的基因，所述突变或遗传变异直接负责疾病的病因学或与负责疾病的病因学的基因连锁不平衡。转录或翻译的产物可以是已知的或未知的，并且可以处于正常或异常水平。

本文系统的靶多核苷酸可以是对真核细胞而言内源性或外源性的任何多核苷酸。例如，靶多核苷酸可以是驻留在真核细胞的细胞核中的多核苷酸。靶多核苷酸可以是编码基因产物(例如，蛋白质)的序列或非编码序列(例如，调控多核苷酸或无用DNA)。不希望受理论的束缚，据信靶序列应与PAM(原间隔子相邻基序)相关联；也就是说，与由CRISPR复合物识别的短序列相关联。对PAM的精确序列和长度要求根据使用的CRISPR酶而不同，但PAM通常是与原间隔子(也就是说，靶序列)相邻的2-5个碱基对序列，PAM序列的实例在下面的实施例部分中给出，并且技术人员将能够鉴定用于与给定的CRISPR酶一起使用的其他PAM序列。此外，PAM相互作用(PI)结构域的工程化可允许对PAM特异性进行编程，提高靶位点识别的保真度，并增加Cas(例如Cas9)基因组工程平台的多功能性。Cas蛋白，诸如Cas9蛋白可被工程化成改变它们的PAM特异性，例如如Kleinstiver BP等人Engineered CRISPR-Cas9nucleases with altered PAM specificities.Nature.2015年7月23日；523(7561):481-5.doi:10.1038/nature14592中所述。

所述系统的靶多核苷酸可包括许多疾病相关基因和多核苷酸以及信号传导生化途径相关基因和多核苷酸，如在以下中列出：US临时专利申请61/736,527和61/748,427，其分别具有广泛参考BI-2011/008/WSGR案卷号44063-701.101和BI-2011/008/WSGR案卷号44063-701.102，两者标题均为SYSTEMS METHODS AND COMPOSITIONS FOR SEQUENCEMANIPULATION，分别提交于2012年12月12日和2013年1月2日；以及PCT申请PCT/US2013/074667，标题为DELIVERY,ENGINEERING AND OPTIMIZATION OF SYSTEMS,METHODS ANDCOMPOSITIONS FOR SEQUENCE MANIPULATION AND THERAPEUTIC APPLICATIONS，提交于2013年12月12日；所有申请的内容以引用的方式整体并入本文。

治疗应用

本文还提供了诊断、预测、治疗和/或预防受试者的疾病、状态或病状的方法。通常，诊断、预测、治疗和/或预防受试者的疾病、状态或病状的方法可包括使用本文所述的组合物、系统或其组分修饰受试者或其细胞中的多核苷酸，且/或包括使用本文所述的组合物、系统或其组分检测受试者或其细胞中的患病或健康多核苷酸。在一些实施方案中，治疗或预防方法可包括使用组合物、系统或其组分来修饰受试者或其细胞内的感染性生物体(例如，细菌或病毒)的多核苷酸。在一些实施方案中，治疗或预防方法可包括使用组合物、系统或其组分来修饰受试者体内的感染性生物体或共生生物体的多核苷酸。所述组合物、系统及其组分可用于开发疾病、状态或病状的模型。所述组合物、系统及其组分可用于检测疾病状态或其校正，诸如通过本文所述的治疗或预防方法。所述组合物、系统及其组分可用于筛选和选择可用作例如本文所述的治疗或预防的细胞。所述组合物、系统及其组分可用于开发可用于修改受试者或其细胞中的一种或多种生物功能或活性的生物活性剂。

一般来讲，所述方法可包括通过合适的递送技术和/或组合物将所述组合物、系统和/或其组分递送至受试者或其细胞，或递送至感染性或共生生物体。一旦施用，所述组分可如本文别处所述操作以引发核酸修饰事件。在一些方面，核酸修饰事件可以基因组、表观基因组和/或转录组水平发生。可能发生DNA和/或RNA切割、基因激活和/或基因失活。下文更详细地描述了另外的特征、用途和优点。基于这一概念，有几种变异适合引发基因组基因座事件，包括DNA切割、基因激活或基因失活。使用所提供的组合物，本领域技术人员可有利地且特异性地靶向具有相同或不同功能结构域的单个或多个基因座以引发一个或多个基因组基因座事件。除了治疗和/或预防受试者的疾病之外，所述组合物还可用于在细胞文库中进行筛选和在体内进行功能性建模的多种方法(例如，lincRNA的基因激活和功能鉴定；功能获得建模；功能丧失建模；使用本发明的组合物建立细胞系和转基因动物以用于优化和筛选目的)。

本文别处所述的组合物、系统及其组分可用于治疗和/或预防受试者的疾病，诸如遗传和/或表观遗传疾病。本文别处所述的组合物、系统及其组分可用于治疗和/或预防受试者的遗传感染性疾病，诸如细菌感染、病毒感染、真菌感染、寄生虫感染及其组合。本文别处所述的组合物、系统及其组件可用于修改受试者的微生物组的组成或特征，这继而可改变受试者的健康状态。本文所述的组合物、系统可用于离体修饰细胞，然后可将所述细胞施用于受试者，由此修饰的细胞可治疗或预防疾病或其症状。在一些情况下，这也被称为过继性疗法。本文所述的组合物、系统可用于治疗线粒体疾病，其中线粒体疾病病因学涉及线粒体DNA中的突变。

还提供了一种治疗受试者(例如，有需要的受试者)的方法，所述方法包括通过用编码组合物、系统或复合物的一种或多种组分的多核苷酸或本文所述的任一多核苷酸或载体转化受试者来诱导基因编辑，以及将它们施用于受试者。还可提供合适的修复模板，例如由包含所述修复模板的载体递送。还提供了一种治疗受试者(例如，有需要的受试者)的方法，所述方法包括通过用本文所述的多核苷酸或载体转化受试者来诱导多个靶基因基因座的转录激活或抑制，其中所述多核苷酸或载体编码或包含组合物、系统、复合物或其组分的包含多个Cas效应物的一种或多种组分。在离体(例如在细胞培养物中)进行任何治疗的情况下，则应理解术语“受试者”可被短语“细胞或细胞培养物”替换。

还提供了一种治疗受试者(例如，有需要的受试者)的方法，所述方法包括通过用Cas效应物转化受试者来诱导基因编辑，所述Cas效应物有利地在体内编码和表达组合物、系统的剩余部分(例如，RNA、指导物)。还可提供合适的修复模板，例如由包含所述修复模板的载体递送。还提供了一种治疗受试者(例如，有需要的受试者)的方法，所述方法包括通过用有利地在体内编码和表达组合物、系统的剩余部分(例如，RNA、指导物)的Cas效应物转化受试者来诱导转录激活或抑制；有利地，在一些实施方案中，CRISPR酶是催化失活的Cas效应物，并且包括一个或多个相关功能结构域。在离体(例如在细胞培养物中)进行任何治疗的情况下，则应理解术语“受试者”可被短语“细胞或细胞培养物”替换。

本文所述的组合物和系统的一种或多种组分可包括在组合物诸如药物组合物中，并单独或共同施用于宿主。可替代地，这些组分可以单一组合物的形式提供用于施用于宿主。可通过技术人员已知的或本文所述的用于递送至宿主的病毒载体(例如，慢病毒载体、腺病毒载体、AAV载体)施用于宿主。如本文所解释的，使用不同的选择标志物(例如，针对慢病毒gRNA选择)和gRNA浓度(例如，取决于是否使用多种gRNA)可能有利于引发改善的效果。

因此，本文还描述了在受试者、感染性生物体和/或受试者微生物组的生物体的真核或原核细胞或其组分(例如线粒体)中诱导一种或多种多核苷酸修饰的方法。修饰可包括在一个或多个细胞的多核苷酸的靶序列处的一个或多个核苷酸的引入、缺失或取代。修饰可在体外、离体、原位或体内发生。

在一些实施方案中，治疗或抑制由真核生物体或非人生物体的基因组基因座中的一个或多个突变引起的病状或疾病的方法可包括操纵有需要的受试者或非人受试者的靶序列中所述基因组基因座的编码、非编码或调控元件中的靶序列，包括通过操纵靶序列来修饰受试者或非人受试者，并且其中所述病状或疾病易于通过操纵靶序列来治疗或抑制，包括提供包括递送组合物的治疗，所述组合物包含如上述实施方案中任一项所述的粒子递送系统或递送系统或病毒粒子或如上述实施方案中任一项所述的细胞。

本文还提供了如上述实施方案中任一项所述的粒子递送系统或递送系统或病毒粒子或如上述实施方案中任一项所述的细胞在离体或体内基因或基因组编辑中的用途；或用于在体外、离体或体内基因疗法中使用。本文还提供了如上述实施方案中任一项所述的粒子递送系统、非病毒递送系统和/或病毒粒子或如上述实施方案中任一项所述的细胞，其用于制造用于体外、离体或体内基因或基因组编辑的药物，或用于在体外、离体或体内基因疗法中使用，或用于在通过操纵与疾病相关联的基因组基因座中的靶序列来修饰生物体或非人生物体的方法或者治疗或抑制由真核生物体或非人生物体的基因组基因座中的一个或多个突变引起的病状或疾病的方法中使用。

在一些实施方案中，多核苷酸修饰可包括在所述细胞的所述多核苷酸的每个靶序列处的1-75个核苷酸的引入、缺失或取代。修饰可包括在每个靶序列处的至少1、5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。修饰可包括在所述细胞的每个靶序列处的至少5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。修饰可包括在所述细胞的每个靶序列处的至少10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。修饰可包括在所述细胞的每个靶序列处的至少20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。修饰可包括在所述细胞的每个靶序列处的至少40、45、50、75、100、200、300、400或500个核苷酸的引入、缺失或取代。修饰可包括在所述细胞的每个靶序列处的至少500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900、5000、5100、5200、5300、5400、5500、5600、5700、5800、5900、6000、6100、6200、6300、6400、6500、6600、6700、6800、6900、7000、7100、7200、7300、7400、7500、7600、7700、7800、7900、8000、8100、8200、8300、8400、8500、8600、8700、8800、8900、9000、9100、9200、9300、9400、9500、9600、9700、9800或9900至10000个核苷酸的引入、缺失或取代。

在一些实施方案中，修饰可包括通过核酸组分(例如，指导RNA或sgRNA)在所述细胞的每个靶序列处的核苷酸的引入、缺失或取代，诸如由本文别处所述的组合物、系统或其组分介导的那些的引入、缺失或取代。在一些实施方案中，修饰可包括通过组合物、系统或技术在所述细胞的靶序列或随机序列处的核苷酸的引入、缺失或取代。

下文更详细地描述了待修饰以治疗或预防疾病的多核苷酸的靶序列。

如本文别处还讨论的，组合物、系统可包括模板多核苷酸(本文也称为模板核酸或模板序列)。在一个实施方案中，模板核酸通过参与同源重组来改变靶位置的结构。在一个实施方案中，模板核酸改变靶位置的序列。在一个实施方案中，模板核酸导致修饰的或非天然存在的碱基并入靶核酸中。

模板序列可经历断裂介导的或催化的与靶序列的重组。在一个实施方案中，模板核酸可包括对应于靶序列上的位点的序列，所述位点被一个或多个Cas效应物介导的切割事件切割、切口或以其他方式修饰。在一个实施方案中，模板核酸可包括对应于以下两个位点的序列：在第一Cas效应物介导的事件中被切割、切口或以其他方式修饰的靶序列上的第一位点，以及在第二Cas效应物介导的事件中被切割的靶序列上的第二位点。

在某些实施方案中，模板核酸可包括导致翻译序列的编码序列发生改变的序列，例如导致蛋白质产物中一种氨基酸取代另一种氨基酸的序列，例如将突变体等位基因转化为野生型等位基因，将野生型等位基因转化为突变等位基因，和/或引入终止密码子，插入氨基酸残基、缺失氨基酸残基或无义突变。在某些实施方案中，模板核酸可包括导致非编码序列改变，例如外显子或5’或3’非翻译区或非转录区改变的序列。此类改变包括控制元件(例如启动子、增强子)的改变和顺式作用或反式作用控制元件的改变。

与靶基因中的靶位置具有同源性的模板核酸可用于改变靶序列的结构。模板序列可用于改变不需要的结构，例如不需要的或突变的核苷酸。模板核酸可包括这样的序列，其在整合时导致：降低正控制元件的活性；增加正控制元件的活性；降低负控制元件的活性；增加负控制元件的活性；降低基因的表达；增加基因的表达；增加对病症或疾病的抗性；增加对病毒进入的抗性；校正突变或改变不需要的氨基酸残基，赋予、增加、消除或降低基因产物的生物学特性，例如，增加酶的酶活性，或增加基因产物与另一个分子相互作用的能力。

模板核酸可包括这样的序列，其导致：靶序列的1、2、3、4、5、6、7、8、9、10、11、12或更多个核苷酸的序列变化。在一个实施方案中，模板核酸的长度可以是20+/-10、30+/-10、40+/-10、50+/-10、60+/-10、70+/-10、80+/-10、90+/-10、100+/-10、110+/-10、120+/-10、130+/-10、140+/-10、150+/-10、160+/-10、170+/-10、180+/-10、190+/-10、200+/-10、210+/-10或220+/-10个核苷酸。在一个实施方案中，模板核酸的长度可以是30+/-20、40+/-20、50+/-20、60+/-20、70+/-20、80+/-20、90+/-20、100+/-20、110+/-20、120+/-20、130+/-20、140+/-20、150+/-20、160+/-20、170+/-20、180+/-20、190+/-20、200+/-20、210+/-20或220+/-20个核苷酸。在一个实施方案中，模板核酸的长度是10至1,000、20至900、30至800、40至700、50至600、50至500、50至400、50至300、50至200或50至100个核苷酸。

模板核酸包含以下组分：[5’同源臂]-[替换序列]-[3’同源臂]。同源臂提供用于重组到染色体中，从而用替换序列替换不需要的元件，例如突变或特征。在一个实施方案中，同源臂位于最远端切割位点的侧翼。在一个实施方案中，5’同源臂的3’端是紧邻替换序列5’端的位置。在一个实施方案中，5’同源臂可从替换序列的5’端5’延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500或2000个核苷酸。在一个实施方案中，3’同源臂的5’端是紧邻替换序列3’端的位置。在一个实施方案中，3’同源臂可从替换序列的3’端3’延伸至少10、20、30、40、50、100、200、300、400、500、600、700、800、900、1000、1500或2000个核苷酸。

在某些实施方案中，一个或两个同源臂可被缩短以避免包括某些序列重复元件。例如，5’同源臂可被缩短以避免序列重复元件。在其他实施方案中，3’同源臂可被缩短以避免序列重复元件。在一些实施方案中，5’同源臂和3’同源臂都可被缩短以避免包括某些序列重复元件。

在某些实施方案中，用于校正突变的模板核酸可被设计成用作单链寡核苷酸。当使用单链寡核苷酸时，5’同源臂和3’同源臂的长度可高达约200个碱基对(bp)，例如长度为至少25、50、75、100、125、150、175或200bp。

在一些实施方案中，组合物、系统或其组分可促进非同源末端连接(NHEJ)。在一些实施方案中，通过组合物、系统或其组分对多核苷酸(诸如患病多核苷酸)的修饰可包括NHEJ。在一些实施方案中，通过组合物、系统或其组分促进这种修复途径可用于靶向基因或多核苷酸特异性敲除和/或敲入。在一些实施方案中，通过组合物、系统或其组分促进这种修复途径可用于生成NHEJ介导的插入缺失。核酸酶诱导的NHEJ也可用于去除(例如，缺失)目标基因中的序列。通常，NHEJ通过将DNA中双链断裂的两端连接在一起来修复所述双链断裂；然而，通常，只有两个相容端恰好如它们通过双键断裂形成一样被完美连接，原始序列才能恢复。双键断裂的DNA端常常是酶加工的受试者，从而在一条或两条链处产生核苷酸的添加或去除，之后端部重新连接。这导致NHEJ修复位点处的DNA序列中存在插入和/或缺失(插入缺失)突变。插入缺失的大小范围可为1-50或更多个碱基对。在一些实施方案中，插入缺失可为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499或500个碱基对或更多。如果双链断裂被靶向靠近短的靶序列，则由NHEJ修复导致的缺失突变常常跨越并因此去除不需要的核苷酸。对于较大的DNA区间的缺失，引入两个双链断裂(序列的每侧上一个双链断裂)可在端部之间产生NHEJ，同时去除了整个中间序列。这两种方法都可用于缺失具体的DNA序列。

在一些实施方案中，组合物、系统介导的NHEJ可用于所述方法中以缺失小序列基序。在一些实施方案中，组合物、系统介导的NHEJ可用于所述方法以生成NHEJ介导的插入缺失，其可被靶向至基因，例如编码区，例如目标基因的早期编码区，可用于敲除目标基因(即消除所述目标基因的表达)。例如，目标基因的早期编码区包括紧接在转录起始位点之后、在编码序列的第一外显子内或在转录起始位点的500bp内(例如，小于500、450、400、350、300、250、200、150、100或50bp)的序列。在一个实施方案中，其中指导RNA和Cas效应物生成了双链断裂，目的是为了诱导NHEJ介导的插入缺失，指导RNA可被构造成将一个双链断裂定位成紧密接近靶位置的核苷酸。在一个实施方案中，切割位点可以距靶位置0-500bp之间(例如，距靶位置少于500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1bp)。在一个实施方案中，其中与一个或多个Cas切口酶复合的两个指导RNA诱导了两个单链断裂，目的是为了诱导NHEJ介导的插入缺失，两个指导RNA可被构造成将两个单链断裂定位成向靶位置的核苷酸提供NHEJ修复。

为了最小化毒性和脱靶效应，重要的是控制所递送的Cas mRNA和指导RNA的浓度。Cas mRNA和指导RNA的最佳浓度可通过在细胞模型或非人真核动物模型中测试不同的浓度，并使用深度测序分析潜在的脱靶基因组基因座处的修饰程度来确定。可替代地，为了最小化毒性水平和脱靶效应，可将Cas切口酶mRNA(例如带有D10A突变的化脓性链球菌Cas9)与一对靶向目标位点的指导RNA一起递送。将毒性和脱靶效应最小化的指导序列和策略可以如WO 2014/093622(PCT/US2013/074667)中一样；或者，通过突变。其他指导序列和策略如本文别处所述。

通常，在内源性CRISPR或CAST系统的情况下，CRISPR或CAST复合物(包含杂交至靶序列并且与一种或多种Cas蛋白复合的指导序列)的形成导致靶序列中或附近(例如，距靶序列1、2、3、4、5、6、7、8、9、10、20、50或更多个碱基对内)的一条或两条链的切割、切口和/或另一种修饰。在一些实施方案中，tracr序列可包含野生型tracr序列的全部或一部分(例如，野生型tracr序列的约或大于约20、26、32、45、48、54、63、67、85或更多个核苷酸)或由其组成，还可形成CRISPR复合物的一部分，诸如通过沿着tracr序列的至少一部分与可操作地连接到指导序列的tracr配对序列的全部或一部分杂交。

在一些实施方案中，修饰细胞中的靶多核苷酸以治疗或预防疾病的方法可包括允许组合物、系统或其组分结合靶多核苷酸，例如，以实现切割、切口或其他修饰，如组合物、系统能够对所述靶多核苷酸进行的，从而修饰所述靶多核苷酸，其中所述组合物、系统或其组分与指导序列复合，并使所述指导序列与靶多核苷酸内的靶序列杂交，其中所述指导序列任选地连接至tracr配对序列，所述tracr配对序列继而可与tracr序列杂交。在这些实施方案中的一些实施方案中，组合物、系统或其组分可以是或包括与指导序列复合的CRISPR-Cas效应物。在一些实施方案中，修饰可包括通过组合物、系统或其组分的一种或多种组分在靶序列的位置对一条或两条链进行切割或切口。

能够由组合物、系统进行的切割、切口或其他修饰可修饰靶多核苷酸的转录。在一些实施方案中，转录的修饰可包括减少靶多核苷酸的转录。在一些实施方案中，修饰可包括增加靶多核苷酸的转录。在一些实施方案中，所述方法包括通过与外源性模板多核苷酸同源重组来修复所述切割的靶多核苷酸，其中所述修复产生修饰，诸如但不限于所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代。在一些实施方案中，所述修饰产生由包含靶序列的基因表达的蛋白质中的一个或多个氨基酸变化。在一些实施方案中，由组合物、系统或其组分赋予的修饰提供可校正疾病或其症状的转录物和/或蛋白质，包括但不限于本文别处更详细描述的那些转录物和/或蛋白质中的任一种。

在一些实施方案中，治疗或预防疾病的方法可包括将一种或多种载体或载体系统递送至细胞，诸如真核或原核细胞，其中一种或多种载体或载体系统包括组合物、系统或其组分。在一些实施方案中，载体或载体系统可以是病毒载体或载体系统，诸如AAV或慢病毒载体系统，其在本文别处更详细地描述。在一些实施方案中，治疗或预防疾病的方法可包括递送一种或多种病毒粒子，诸如AAV或慢病毒粒子，其含有组合物、系统、或其组分。在一些实施方案中，病毒粒子具有组织特异性趋向性。在一些实施方案中，病毒粒子具有肝脏、肌肉、眼睛、心脏、胰腺、肾脏、神经元、上皮细胞、内皮细胞、星形胶质细胞、神经胶质细胞、免疫细胞或红细胞特异性趋向性。

应当理解，如本文所述的根据本发明的组合物、系统，诸如用于如本文所述的根据本发明的方法的组合物、系统，可适合用于针对组合物、系统已知的任何类型的应用，优选在真核生物中。在某些方面，所述应用是治疗性的，优选在真核生物体中是治疗性的，所述真核生物体诸如包括但不限于动物(包括人)、植物、藻类、真菌(包括酵母)等。可替代地或另外地，在某些方面，所述应用可涉及实现或诱导一种或多种特定性状或特征，诸如基因型和/或表型性状或特征，也如本文别处所述。

治疗循环系统的疾病

在一些实施方案中，本文所述的组合物、系统和/或其组分可用于治疗和/或预防循环系统疾病。例如，表3和表4中提供了示例性疾病。在一些实施方案中，Wahlgren等人(Nucleic Acids Research,2012,第40卷,第17e130期)的血浆外泌体可用于将本文所述的组合物、系统和/或其组分递送至血液。在一些实施方案中，循环系统疾病可通过使用慢病毒递送本文所述的组合物、系统以在体内或离体修饰造血干细胞(HSC)来治疗(参见例如Drakopoulou,“Review Article,The Ongoing Challenge of Hematopoietic Stem Cell-Based Gene Therapy forβ-Thalassemia,”Stem Cells International,第2011卷,文章编号987980,10页,doi:10.4061/2011/987980，鉴于本文的描述，其可适于与本文的组合物、系统一起使用)。在一些实施方案中，循环系统疾病可通过使用本文中的组合物、系统或其组分校正关于疾病的HSC来治疗，其中所述组合物、系统任选地包括合适的HDR修复模板(参见例如Cavazzana,“Outcomes of Gene Therapy forβ-Thalassemia Major viaTransplantation of Autologous Hematopoietic Stem Cells Transduced Ex Vivowith a LentiviralβA-T87Q-Globin Vector.”；Cavazzana-Calvo,“Transfusionindependence and HMGA2 activation after gene therapy of humanβ-thalassaemia”,Nature 467,318–322(2010年9月16日)doi:10.1038/nature09328；Nienhuis,“Development of Gene Therapy for Thalassemia,Cold Spring Harbor Perspectivesin Medicine,doi:10.1101/cshperspect.a011833(2012),Lenti Globin BB305,alentiviral vector containing an engineeredβ-globin gene(βA-T87Q)；和Xie等人,“Seamless gene correction ofβ-thalassaemia mutations in patient-specificiPSCs using CRISPR/Cas9 and piggyback”Genome Research gr.173427.114(2014)http://www.genome.org/cgi/doi/10.1101/gr.173427.114(Cold Spring HarborLaboratory Press；[1599]Watts,“Hematopoietic Stem Cell Expansion and GeneTherapy”Cytotherapy 13(10):1164–1171.doi:10.3109/14653249.2011.620748(2011)，鉴于本文的描述，其可适于与本文的组合物、系统一起使用)。在一些实施方案中，可使用本文所述的组合物、系统来修饰iPSC，以校正与循环系统疾病相关联的疾病多核苷酸。在这方面，Xu等人(Sci Rep.2015年7月9日；5:12065.doi:10.1038/srep12065)和Song等人(StemCells Dev.2015年5月1日；24(9):1053-65.doi:10.1089/scd.2014.0347.电子出版于2015年2月5日)关于修饰iPSC的教义鉴于本文的描述可适于与本文所述的组合物、系统一起使用。

术语“造血干细胞”或“HSC”泛指被认为是HSC的那些细胞，例如，产生所有其他血细胞并源自中胚层的血细胞；位于红骨髓中的细胞，所述红骨髓包含在大多数骨骼的核心中。本发明的HSC包括具有造血干细胞表型的细胞，通过小尺寸、缺乏谱系(lin)标志物和属于分化系列簇的标志物来鉴定，所述标志物如：CD34、CD38、CD90、CD133、CD105、CD45，以及干细胞因子的受体c-kit。造血干细胞对用于检测谱系确定的标志物呈阴性，并因此称为Lin-；并且，在通过FACS纯化它们的过程中，多达14种不同的成熟血谱系标志物，例如，对于人，针对骨髓的CD13和CD33，针对红细胞的CD71、针对B细胞的CD19，针对巨核细胞的CD61等；以及针对B细胞的B220(鼠CD45)，针对单核细胞的Mac-1(CD11b/CD18)，针对粒细胞的Gr-1、针对红细胞的Ter119，针对T细胞的Il7Ra、CD3、CD4、CD5、CD8等。小鼠HSC标志物：CD34lo/-、SCA-1+、Thy1.1+/lo、CD38+、C-kit+、lin-，以及人HSC标志物：CD34+、CD59+、Thy1/CD90+、CD38lo/-、C-kit/CD117+和lin-。HSC通过标志物来鉴定。因此，在本文讨论的实施方案中，HSC可以是CD34+细胞。HSC也可以是呈CD34-/CD38-的造血干细胞。在本领域中被认为是HSC的细胞表面上可能缺乏c-kit的干细胞在本发明的范围内，以及在本领域中同样被认为是HSC的CD133+细胞也在本发明的范围内。

CRISPR-Cas系统可被设计成靶向HSC中的一个或多个遗传基因座。在一些实施方案中，Cas效应物可针对真核细胞并且尤其是哺乳动物细胞(例如人细胞，例如HSC或iPSC)进行密码子优化，并且可制备靶向HSC诸如循环疾病中的一个或多个基因座的sgRNA。这些可通过粒子递送。粒子可由Cas效应物(例如，Cas9)蛋白和混合的gRNA形成。gRNA和Cas效应物(例如，Cas9)蛋白混合物可例如与包含表面活性剂、磷脂、生物可降解聚合物、脂蛋白和醇或基本上由其组成或由其组成的混合物混合，由此可形成含有gRNA和Cas效应物(例如，Cas9)蛋白的粒子。本发明包括这样制造粒子和由此种方法制成的粒子及其用途。在血液或循环系统或HSC递送至血液或循环系统的情况下，适合递送CRISRP-Cas系统的粒子在本文别处更详细地描述。

在一些实施方案中，在离体修饰后，可对HSC或iPCS进行扩增，之后将其施用于受试者。HSC的扩增可通过任何合适的方法进行，所述方法诸如由Lee,“Improved ex vivoexpansion of adult hematopoietic stem cells by overcoming CUL4-mediateddegradation of HOXB4.”Blood.2013年5月16日；121(20):4082-9.doi:10.1182/blood-2012-09-455204.电子出版于2013年3月21日描述的那些。

在一些实施方案中，修饰的HSC或iPSC可以是自体的。在一些实施方案中，HSC或iPSC可以是同种异体的。除了修饰疾病基因之外，还可使用本文所述的组合物、系统进一步修饰同种异体细胞以降低细胞在递送至受体时的免疫原性。此类技术描述于本文别处和例如Cartier,“MINI-SYMPOSIUM:X-Linked Adrenoleukodystrophypa,Hematopoietic StemCell Transplantation and Hematopoietic Stem Cell Gene Therapy in X-LinkedAdrenoleukodystrophy,”Brain Pathology 20(2010)857–862，其可适于与本文的组合物、系统一起使用。

治疗脑疾病

在一些实施方案中，本文所述的组合物、系统可用于治疗脑和CNS的疾病。对于脑的递送选项包括将CRISPR酶和指导RNA以DNA或RNA的形式封装到脂质体中，并与分子特洛伊木马(Trojan horses)缀合以进行跨血脑屏障(BBB)递送。分子特洛伊木马已被证明可有效地将B-gal表达载体递送到非人灵长类动物的脑中。同一方法可用于递送含有CRISPR酶和指导RNA的载体。例如，Xia CF和Boado RJ,Pardridge WM("Antibody-mediatedtargeting of siRNA via the human insulin receptor using avidin-biotintechnology.”Mol Pharm.2009年5月至6月；6(3):747-51.doi:10.1021/mp800194)描述了如何通过结合使用受体特异性单克隆抗体(mAb)和抗生物素蛋白-生物素技术，将短干扰RNA(siRNA)在培养物中和在体内递送至细胞。作者还报告说，由于靶向mAb和siRNA之间的键在抗生物素蛋白-生物素技术下是稳定的，并且在静脉内给予靶向siRNA后在体内观察到远处部位(如脑)的RNAi效应，其教导可以适用于与本文的组合物、系统一起使用。在其他实施方案中，可生成人工病毒以进行CNS和/或脑递送。参见例如Zhang等人(MolTher.2003Jan；7(1):11-8.))，其教义可适于与本文的组合物、系统一起使用。

治疗听力疾病

在一些实施方案中，本文所述的组合物、系统可用于治疗一只或两只耳朵的听力疾病或听力损失。耳聋通常是由毛细胞丢失或受损使得无法将信号传递给听觉神经元而引起的。在此类情况下，耳蜗植入物可用于对声音作出反应，并将电信号传输到神经细胞。但由于受损的毛细胞释放的生长因子较少，这些神经元经常退化并从耳蜗缩回。

在一些实施方案中，可通过任何合适的方法或技术将组合物、系统或修饰的细胞递送至一只或两只耳朵，用于治疗或预防听力疾病或听力损失。合适的方法和技术包括但不限于美国专利申请20120328580中阐述的那些，所述申请描述了例如使用注射器(例如，单剂量注射器)将药物组合物注射到耳中(例如，耳部施用)，诸如注射到耳蜗的腔(例如，中阶(Scala media)、前庭阶(Sc vestibulae)和鼓阶(Sc tympani))中。例如，本文所述化合物中的一种或多种可通过鼓室内注射(例如，到中耳中)和/或注射到外耳、中耳和/或内耳中来施用；通过导管或泵原位施用(参见例如McKenna等人,(美国公布号2006/0030837)和Jacobsen等人,(美国公布号7,206,639))；与佩戴在外耳中的机械装置(诸如耳蜗植入物或助听器)组合施用(参见例如美国公布号2007/0093878，其提供了适用于将本文所述的组合物、系统递送至耳的示例性耳蜗植入物)。此类方法在本领域中常规使用，例如，用于将类固醇和抗生素施用到人耳中。例如，可通过耳朵的圆窗或通过耳蜗囊进行注射。其他内耳施用方法是本领域已知的(参见例如，Salt和Plontke,Drug Discovery Today,10:1299-1306,2005)。在一些实施方案中，可在外科手术过程中将导管或泵定位在例如患者的耳(例如，外耳、中耳和/或内耳)中。在一些实施方案中，可将导管或泵定位在例如患者的耳(例如，外耳、中耳和/或内耳)中，而无需外科手术。

一般来讲，美国专利申请20120328580中描述的细胞治疗方法可用于在体外促进细胞向或朝向内耳的成熟细胞类型(例如，毛细胞)的完全或部分分化。然后可将由此类方法产生的细胞移植或植入到需要此种治疗的患者中。下面描述了实践这些方法所需的细胞培养方法，包括用于鉴定和选择合适细胞类型的方法、用于促进选定细胞的完全或部分分化的方法、用于鉴定完全或部分分化的细胞类型的方法、以及用于植入完全或部分分化的细胞的方法。

适用于本发明的细胞包括但不限于，当与本文所述化合物中的一种或多种例如体外接触时能够完全或部分分化成内耳的成熟细胞(例如毛细胞(例如，内耳和/或外耳毛细胞))的细胞。能够分化成毛细胞的示例性细胞包括但不限于干细胞(例如，内耳干细胞、成体干细胞、骨髓源性干细胞、胚胎干细胞、间充质干细胞、皮肤干细胞、iPS细胞和脂肪来源的干细胞)、祖细胞(例如，内耳祖细胞)、支持细胞(例如，戴特斯细胞(Deiters'细胞)、柱细胞、内指状细胞、顶盖细胞和汉森细胞(Hensen's cell))和/或生殖细胞。干细胞用于替换内耳感觉细胞的用途描述于Li等人,(美国公布号2005/0287127)和Li等人,(美国专利序列号11/953,797)中。骨髓源性干细胞用于替换内耳感觉细胞的用途描述于Edge等人,PCT/US2007/084654中。iPS细胞描述于例如，Takahashi等人,Cell,第131卷,第5期,第861-872页(2007)；Takahashi和Yamanaka,Cell 126,663-76(2006)；Okita等人,Nature 448,260-262(2007)；Yu,J.等人,Science 318(5858):1917-1920(2007)；Nakagawa等人,Nat.Biotechnol.26:101-106(2008)；以及Zaehres和Scholer,Cell 131(5):834-835(2007)中。可通过分析(例如，定性或定量)一种或多种组织特异性基因的存在来鉴定此类合适的细胞。例如，可通过检测一种或多种组织特异性基因的蛋白质产物来检测基因表达。蛋白质检测技术涉及使用针对适当抗原的抗体对蛋白质进行染色(例如，使用细胞提取物或全细胞)。在这种情况下，所述适当抗原是组织特异性基因表达的蛋白质产物。虽然在原则上可标记第一抗体(即，结合抗原的抗体)，但更常见(并改善可视化)的是使用针对第一抗体的第二抗体(例如，抗IgG)。这种第二抗体与荧光染料或用于比色反应的适当酶、或金珠(用于电子显微镜)或与生物素-抗生物素蛋白系统缀合，使得可识别一级抗体的位置，并因此可识别抗原的位置。

可通过将药物组合物直接应用于外耳来将组合物和系统递送到耳，其中组合物从美国发布的申请20110142917修改而来。在一些实施方案中，药物组合物应用于耳道。递送到耳也可以称为听觉或耳递送。

在一些实施方案中，可通过可应用于本发明的核酸靶向系统的新型蛋白质递送技术通过完整圆窗转染至内耳来将组合物、系统或其组分和/或载体或载体系统递送至耳(参见例如Qi等人,Gene Therapy(2013),1-9)。可考虑约40μl的10mM RNA作为施用至耳的剂量。

根据Rejali等人(Hear Res.2007年6月；228(1-2):180-7)，耳蜗植入物的功能通过良好保留螺旋神经节神经元而得以改善，所述神经元是由植入物电刺激的靶标，并且先前已经表明脑源性神经营养因子(BDNF)在实验性变聋的耳中增强了螺旋神经节的存活。Rejali等人测试了耳蜗植入物电极的修改设计，所述电极包括由具有BDNF基因插入物的病毒载体转导的成纤维细胞的涂层。为了完成这种类型的离体基因转移，Rejali等人用具有BDNF基因盒插入物的腺病毒转导豚鼠成纤维细胞，并且确定这些细胞分泌BDNF，然后将BDNF分泌细胞通过琼脂糖凝胶附着在耳蜗植入物电极上，并将电极植入鼓阶中。Rejali等人确定，BDNF表达电极与对照电极相比在植入48天之后能够在耳蜗底回中保留显著更多螺旋神经节神经元，并且证明了耳蜗植入物疗法与用于增强螺旋神经节神经元存活的离体基因转移相结合的可行性。此种系统可应用于递送到耳的本发明的核酸靶向系统。

在一些实施方案中，Mukherjea等人(Antioxidants&Redox Signaling,第13卷,第5期,2010)中阐述的系统可适于将组合物、系统或其组分经鼓室施用于耳。在一些实施方案中，用于施用于人的CRISPR Cas的剂量为约2mg至约4mg。

在一些实施方案中，Jung等人(Molecular Therapy,第21卷第4期,834–841 2013年4月)中阐述的系统可适于将组合物、系统或其组分经前庭上皮递送至耳。在一些实施方案中，用于施用于人的CRISPR Cas的剂量为约1mg至约30mg。

治疗非分裂细胞中的疾病

在一些实施方案中，待校正的基因或转录物位于非分裂细胞中。示例性非分裂细胞是肌肉细胞或神经元。非分裂(尤其是非分裂、完全分化)细胞类型提出了关于基因靶向或基因组工程的问题，例如因为同源重组(HR)一般在G1细胞周期阶段受抑制。然而，尽管研究了细胞控制正常DNA修复系统的机制，Durocher发现了使非分裂细胞中的HR保持“关闭”的先前未知的开关，并且设计了拨动此开关重新开启的策略。Orthwein等人(加拿大渥太华西奈山医院(Mount Sinai)的丹尼尔迪罗谢(Daniel Durocher)实验室)最近报道(Nature16142，在线发布于2015年12月9日)已经表面，对HR的抑制可被解除并且在肾(293T)和骨肉瘤(U2OS)细胞两者中成功完成基因靶向。已知肿瘤抑制因子BRCA1、PALB2和BRAC2通过HR促进DNA DSB修复。他们发现BRCA1与PALB2-BRAC2的复合物的形成受PALB2上的泛素位点支配，使得通过E3泛素连接酶对所述位点起作用。这种E3泛素连接酶由与cullin-3(CUL3)-RBX1复合的KEAP1(PALB2相互作用蛋白)构成。PALB2泛素化抑制它与BRCA1的相互作用并被去泛素化酶USP11抵消，所述去泛素化酶USP11本身处于细胞周期控制之下。与DNA端切除的激活结合的BRCA1-PALB2相互作用的恢复足以诱导G1中的同源重组，如通过多种方法所测量的，所述方法包括针对USP11或KEAP1(由pX459载体表达)的基于CRISPR-Cas9的基因靶向测定。然而，当使用KEAP1消耗或PALB2-KR突变体的表达使BRCA1-PALB2相互作用在切除感受态G1细胞中恢复时，检测到基因靶向事件的稳健增加。这些教义可适于和/或应用于本文所述的Cas组合物、系统。

因此，在一些实施方案中，细胞(尤其是非分裂、完全分化的细胞类型)中的HR再激活是优选的。在一些实施方案中，促进BRCA1-PALB2相互作用在一些实施方案中是优选的。在一些实施方案中，靶细胞是非分裂细胞。在一些实施方案中，靶细胞是神经元或肌细胞。在一些实施方案中，在体内靶向靶细胞。在一些实施方案中，细胞处于G1并且HR受抑制。在一些实施方案中，使用KEAP1消耗，例如抑制KEAP1活性的表达是优选的。KEAP1消耗可通过siRNA实现，例如，如Orthwein等人中所示。可替代地，与KEAP1消耗相结合的或单独的PALB2-KR突变体(在BRCA1相互作用结构域中缺乏所有八个Lys残基)的表达是优选的，。不管细胞周期定位，PALB2-KR与BRCA1相互作用。因此，在一些实施方案中，促进或恢复BRCA1-PALB2相互作用(尤其是在G1细胞中)是优选的，尤其是在靶细胞是非分裂的情况下，或在去除和返回(离体基因靶向)有问题的的情况下，例如神经元或肌细胞。KEAP1 siRNA可购自ThermoFischer。在一些实施方案中，可将BRCA1-PALB2复合物递送至G1细胞。在一些实施方案中，可例如通过增加去泛素化酶USP11的表达来促进PALB2去泛素化，因此设想可提供构建体以促进或上调去泛素化酶USP11的表达或活性。

治疗眼睛疾病

在一些实施方案中，待治疗的疾病是影响眼睛的疾病。因此，在一些实施方案中，将本文所述的组合物、系统或其组分递送至一只或两只眼睛。

所述组合物、系统可用于校正几种遗传突变引起的眼部缺陷，其进一步描述于Genetic Diseases of the Eye,第二版,由Elias I.Traboulsi编辑,Oxford UniversityPress,2012中。

在一些实施方案中，待治疗或待靶向的病状是眼部病症。在一些实施方案中，眼部病症可包括青光眼。在一些实施方案中，眼部病症包括视网膜退行性疾病。在一些实施方案中，所述视网膜退行性疾病选自Stargardt病、巴德-毕德氏综合征(Bardet-Biedlsyndrome)、Best病、蓝锥全色盲、脉络膜症、锥杆营养不良、先天性静止性夜盲症、增强的S锥综合征、青少年X连锁视网膜劈裂症、Leber先天性黑蒙、MalattiaLeventinesse、诺里病(Norrie Disease)或X连锁家族性渗出性玻璃体视网膜病变、模式营养不良、Sorsby营养不良、Usher综合征、色素性视网膜炎、色盲或黄斑营养不良或变性、色素性视网膜炎、色盲和年龄相关性黄斑变性。在一些实施方案中，视网膜退行性疾病是莱伯先天性黑蒙(LCA)或色素性视网膜炎。其他示例性眼部疾病在本文别处更详细地描述。

在一些实施方案中，任选地通过玻璃体内注射或视网膜下注射将组合物、系统递送至眼睛。可借助手术显微镜进行眼内注射。对于视网膜下和玻璃体内注射，可通过轻轻指压使眼睛突出，并且使用接触镜系统使眼底可视化，所述接触镜系统由用玻璃显微镜载玻片盖玻片覆盖的角膜上的一滴耦合介质溶液组成。对于视网膜下注射，安装在5-μl汉密尔顿(Hamilton)注射器上的10-mm 34号针的尖端可在直接可视化下穿过巩膜赤道部上部朝向后极切向行进，直到针的孔径在视网膜下空间中可见为止。然后，可注射2μl载体悬浮液以产生上部泡状视网膜脱离，从而证实视网膜下载体施用。这种方法创建了自我愈合的巩膜切开术，从而允许载体悬浮液保留在视网膜下空间，直到它在规程的48小时内被RPE吸收为止。可以在脑半球下方重复此规程以产生下部视网膜脱离。这种技术导致大约70％的感觉神经性视网膜和RPE暴露于载体悬浮液。对于玻璃体内注射，针尖端可在角巩膜缘后方1mm穿过巩膜行进并将2μl载体悬浮液注射到玻璃体腔中。对于前房内注射，针尖端可通过角巩膜缘穿刺朝向中央角膜行进，并且可注射2μl载体悬浮液。对于前房内注射，针尖端可通过角巩膜缘穿刺朝向中央角膜行进，并且可注射2μl载体悬浮液。可以1.0-1.4×10¹⁰或1.0-1.4×10⁹个转导单位(TU)/ml的滴度注射这些载体。

在一些实施方案中，为了向眼睛施用，慢病毒载体。在一些实施方案中，慢病毒载体是马传染性贫血病毒(EIAV)载体。用于眼部递送的示例性EIAV载体描述于Balagaan,JGene Med 2006；8:275–285,2005年11月21日在线发布于Wiley InterScience(www.interscience.wiley.com).DOI:10.1002/jgm.845；Binley等人,HUMAN GENETHERAPY 23:980–991(2012年9月)中，其可适于与本文所述的组合物、系统一起使用。在一些实施方案中，剂量可以是每只眼睛1.1x10⁵个转导单位(TU/眼)，总体积为100μl。

其他病毒载体也可用于递送至眼睛，所述病毒载体诸如AAV载体，诸如描述于以下中的那些：Campochiaro等人,Human Gene Therapy 17:167-176(2006年2月),Millington-Ward等人(Molecular Therapy,第19卷第4期,642–649 2011年4月；Dalkara等人(SciTransl Med 5,189ra76(2013))，其可适于与本文所述的组合物、系统一起使用。在一些实施方案中，剂量可在约10⁶至10^9.5个粒子单位的范围内。在Millington-Ward AAV载体的情况下，可施用的剂量为约2x10¹¹至约6x10¹³个病毒粒子。在Dalkara载体的情况下，施用于人的剂量为约1x10¹⁵至约1x10¹⁶vg/ml。

在一些实施方案中，RXi Pharmaceuticals的

系统可用于和/或适于将组合物、系统递送至眼睛。在此系统中，3μg sd-rxRNA的单次玻璃体内施用导致PPIBmRNA水平的序列特异性降低，持续14天。

系统可应用于本发明的核酸靶向系统，考虑施用于人的剂量为约3至20mg的CRISPR。

在其他实施方案中，涉及从人视紫红质基因切割靶序列的方法的美国专利公布号20130183282的方法也可修改用于本发明的核酸靶向系统。

在其他实施方案中，用于治疗视网膜病变和视力威胁性眼科病症的美国专利公布号20130202678的方法涉及向眼睛的视网膜下或玻璃体内空间中递送Puf-A基因(其在眼组织的视网膜神经节和色素细胞中表达并且展示出独特的抗凋亡活性)。特别地，理想的靶标是zgc:193933、prdm1a、spata2、tex10、rbb4、ddx3、zp2.2、Blimp-1和HtrA2，所有这些均可由本发明的组合物、系统靶向。

Wu(Cell Stem Cell,13:659–62,2013)设计了一种指导RNA，其将Cas9导向到在小鼠中引起白内障的单一碱基对突变，其中所述突变诱导DNA切割。然后，在突变小鼠中，使用针对接合子修复机制给予的另一种野生型等位基因或寡核苷酸来校正断裂的等位基因的序列并且校正引起白内障的基因缺陷。这种方法可适于和/或应用于本文所述的组合物、系统。

美国专利公布号20120159653描述了使用锌指核酸酶对与黄斑变性(MD)相关联的细胞、动物和蛋白质进行遗传修饰，其教义可应用于和/或适于本文所述的组合物、系统。

美国专利公布号20120159653的一个方面涉及对编码与MD相关联的蛋白质的任何染色体序列进行编辑，所述染色体序列可应用于本发明的核酸靶向系统。

治疗肌肉疾病和心血管疾病

在一些实施方案中，组合物、系统可用于治疗和/或预防肌肉疾病和相关的循环或心血管疾病或病症。本发明还考虑将本文所述的组合物、系统，例如Cas效应蛋白系统，递送至心脏。对于心脏，心肌热带腺相关病毒(AAVM)是优选的，特别是在心脏中表现出优先基因转移的AAVM41(参见例如，Lin-Yanga等人,PNAS,3月10日,2009年,第106卷,第10期)。施用可以是全身的或局部的。对于全身施用考虑约1-10x10¹⁴个载体基因组的剂量。另参见，例如，Eulalio等人(2012)Nature 492:376和Somasuntharam等人(2013)Biomaterials 34:7790，其教义可适于和/或应用于本文所述的组合物、系统。

例如，美国专利公布号20110023139，其教义可适于和/或应用于本文所述的组合物、系统，描述了使用锌指核酸酶对与心血管疾病相关联的细胞、动物和蛋白质进行遗传修饰。心血管疾病通常包括高血压、心脏病发作、心力衰竭、以及中风和TIA。涉及心血管疾病的任何染色体序列或由涉及心血管疾病的任何染色体序列编码的蛋白质都可用于本公开所述的方法。通常基于心血管相关蛋白与心血管疾病发展的实验性关联来选择心血管相关蛋白。例如，相对于缺乏心血管病症的群体，在患有心血管病症的群体中，心血管相关蛋白的产生率或循环浓度在患有心血管疾病的人群中可升高或降低。可使用蛋白质组学技术评估蛋白质水平的差异，所述技术包括但不限于Western印迹、免疫组织化学染色、酶联免疫吸附测定(ELISA)和质谱法。可替代地，可通过使用基因组技术获得编码蛋白质的基因的基因表达谱来鉴定心血管相关蛋白，所述技术包括但不限于DNA微阵列分析、基因表达系列分析(SAGE)和定量实时聚合酶链式反应(Q-PCR)。示例性染色体序列可见于表3。

本文的组合物、系统可用于治疗肌肉系统的疾病。本发明还考虑将本文所述的组合物、系统(例如，Cas(例如，Cas9和/或Cas12))递送至肌肉。

在一些实施方案中，待治疗的肌肉疾病是肌营养不良，诸如DMD。在一些实施方案中，本文所述的组合物、系统(诸如能够进行RNA修饰的系统)可用于实现外显子跳跃以实现患病基因的校正。如本文所用，术语“外显子跳跃”是指通过用一种或多种互补反义寡核苷酸(AON)靶向前体mRNA内的剪接供体和/或受体位点来修饰前体mRNA剪接。通过阻止剪接体接近一个或多个剪接供体或受体位点，AON可阻止剪接反应，从而导致一个或多个外显子从完全加工的mRNA中缺失。在前体mRNA的成熟过程中，可在细胞核中实现外显子跳跃。在一些实例中，外显子跳跃可包括通过使用本文所述的能够进行RNA修饰的组合物、系统来掩蔽参与靶向外显子的剪接的关键序列。在一些实施方案中，可在肌营养不良蛋白mRNA中实现外显子跳跃。在一些实施方案中，所述组合物、系统可在肌营养不良蛋白mRNA的外显子1、2、3、4、5、6、7、8、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、45、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79或其任何组合处诱导外显子跳跃。在一些实施方案中，所述组合物、系统可在肌营养不良蛋白mRNA的外显子43、44、50、51、52、55或其任何组合处诱导外显子跳跃。这些外显子中的突变也可使用非外显子跳跃多核苷酸修饰方法进行校正。

在一些实施方案中，对于肌肉疾病的治疗，Bortolanza等人(Molecular Therapy第19卷第11期,2055–2064 2011年11月)的方法可应用于表达CRISPR Cas的AAV，并且将其以约2×10¹⁵或2×10¹⁶vg载体的剂量注射到人体内。Bortolanza等人的教义可适于和/或应用于本文所述的组合物、系统。

在一些实施方案中，Dumonceaux等人(Molecular Therapy第18卷第5期,881–8872010年5月)的方法可应用于表达CRISPR Cas的AAV，并且将其例如以约10¹⁴至约10¹⁵vg载体的剂量注射到人体内。本文所述的Dumonceaux的教义可适于和/或应用于本文所述的组合物、系统。

在一些实施方案中，Kinouchi等人(Gene Therapy(2008)15,1126–1130)的方法可应用于本文所述的CRISPR Cas系统，并且将其例如以40μM溶液的约500至1000ml的剂量注射到人肌肉内。

在一些实施方案中，Hagstrom等人(Molecular Therapy第10卷,第2期,2004年8月)的方法可适于和/或应用于本文的组合物、系统，并且将其以约15至约50mg的剂量注射到人的大隐静脉中。

治疗肝脏和肾脏的疾病

在一些实施方案中，本文所述的组合物、系统或其组分可用于治疗肾脏或肝脏的疾病。因此，在一些实施方案中，本文所述的CRISRP-Cas系统或其组分递送到肝脏或肾脏。

诱导治疗性核酸的细胞摄取的递送策略包括物理力或载体系统，诸如基于病毒、脂质或复合体的递送，或纳米载剂。根据具有较低可能的临床相关性的最初应用，当以全身性流体动力高压注射将核酸投递(addressed)于肾细胞时，各种基因治疗性病毒和非病毒载剂已经被应用于体内靶向不同的动物肾脏疾病模型中的转录后事件(Csaba Révész和Péter Hamar(2011).Delivery Methods to Target RNAs in the Kidney,Gene TherapyApplications,Prof.Chunsheng Kang(编),ISBN:978-953-307-541-9,InTech,可获自：www.intechopen.com/books/gene-therapy-applications/delivery-methods-to-target-rnas-inthe-kidney)。递送至肾脏的方法可包括描述于Yuan等人(Am J PhysiolRenal Physiol 295:F605–F617,2008)中的那些。Yuang等人的方法可应用于本发明的CRISPR Cas系统，其考虑将1-2g与胆固醇缀合的CRISPR Cas皮下注射至人，用于递送至肾脏。在一些实施方案中，Molitoris等人(J Am Soc Nephrol 20:1754–1764,2009)的方法可适于本发明的CRISRP-Cas系统，并且对于人的12-20mg/kg的累积剂量可用于递送至肾脏的近端小管细胞。在一些实施方案中，Thompson等人(Nucleic Acid Therapeutics,第22卷,第4期,2012)的方法可适于本发明的CRISRP-Cas系统，并且可通过静脉内(i.v.)施用递送高达25mg/kg的剂量。在一些实施方案中，Shimizu等人(J Am Soc Nephrol 21:622–633,2010)的方法可适于本发明的CRISRP-Cas系统，并且可使用用于腹膜内(i.p.)施用的在约1-2升生理盐水中与纳米载剂复合的约10-20μmol CRISPR Cas的剂量。

其他各种递送媒介物可用于将组合物、系统递送至肾脏，所述媒介物诸如病毒、流体动力、脂质、聚合物纳米粒子、适体及其各种组合(参见例如，Larson等人,Surgery,(2007年8月),第142卷,第2期,第(262-269)页；Hamar等人,Proc Natl Acad Sci,(2004年10月),第101卷,第41期,第(14883-14888)页；Zheng等人,Am J Pathol,(2008年10月),第173卷,第4期,第(973–980)页；Feng等人,Transplantation,(2009年5月),第87卷,第9期,第(1283–1289)页；Q.Zhang等人,PloS ONE,(2010年7月),第5卷,第7期,e11709,第(1-13)页；Kushibikia等人,J Controlled Release,(2005年7月),第105卷,第3期,第(318-331)页；Wang等人,Gene Therapy,(2006年7月),第13卷,第14期,第(1097-1103)页；Kobayashi等人,Journal of Pharmacology and Experimental Therapeutics,(2004年2月),第308卷,第2期,第(688-693)页；Wolfrum等人,Nature Biotechnology,(2007年9月),第25卷,第10期,第(1149-1157)页；Molitoris等人,J Am Soc Nephrol,(2009年8月),第20卷,第8期第(1754-1764)页；Mikhaylova等人,Cancer Gene Therapy,(2011年3月),第16卷,第3期,第(217-226)页；Y.Zhang等人,J Am Soc Nephrol,(2006年4月),第17卷,第4期,第(1090–1101)页；Singhal等人,Cancer Res,(May 2009),第69卷,第10期,第(4244-4251)页；Malek等人,Toxicology and Applied Pharmacology,(2009年4月),第236卷,第1期,第(97-108)页；Shimizu等人,J Am Soc Nephrology,(2010年4月),第21卷,第4期,第(622-633)页；Jiang等人,Molecular Pharmaceutics,(2009年5月至6月),第6卷,第3期,第(727-737)页；Cao等人,J Controlled Release,(2010年6月),第144卷,第2期,第(203-212)页；Ninichuk等人,Am J Pathol,(Mar 2008),第172卷,第3期,第(628-637)页；Purschke等人,ProcNatl Acad Sci,(2006年3月),第103卷,第13期,第(5173-5178)页。

在一些实施方案中，递送至肝脏细胞。在一些实施方案中，肝脏细胞是肝细胞。本文的组合物和系统的递送可通过病毒载体进行，尤其是AAV(并且特别是AAV2/6)载体。这些可通过静脉内注射施用。无论是在体外还是在体内，针对肝脏的优选靶标都是白蛋白基因。这就是所谓的“安全港”，因为白蛋白以非常高的水平表达，并且因此在成功基因编辑后白蛋白产量的稍微降低是耐受的。这也是优选的，因为即使仅一小部分肝细胞被编辑，从白蛋白启动子/增强子所见的高水平表达允许实现有用水平的校正或转基因产生(由插入的供体模板产生)。参见Wechsler等人(在美国血液学会第57届年度会议上报道的-摘要可在线获得于https://ash.confex.com/ash/2015/webprogram/Paper86495.html，并且呈现于2015年12月6日)鉴定的位点，其可适于与本文的组合物、系统一起使用。

可治疗和/或预防的示例性肝脏和肾脏疾病在本文别处描述。

治疗上皮和肺部疾病

在一些实施方案中，由本文所述的组合物、系统治疗或预防的疾病可以是肺部或上皮疾病。本文所述的组合物、系统可用于治疗上皮和/或肺部疾病。本发明还考虑将本文所述的组合物、系统递送至一个或两个肺。

在一些实施方案中，病毒载体可用于将组合物、系统或其组分递送至肺。在一些实施方案中，AAV是用于递送至肺的AAV-1、AAV-2、AAV-5、AAV-6和/或AAV-9(参见例如，Li等人,Molecular Therapy,第17卷第12期,2067-2077 2009年12月)。在一些实施方案中，MOI可以从1×10³至4×10⁵个载体基因组/细胞变化。在一些实施方案中，递送载体可以是如在Zamora等人(Am J Respir Crit Care Med第183卷.第531–538页,2011)中的RSV载体。Zamora等人的方法可应用于本发明的核酸靶向系统，并且雾化的CRISPR Cas，例如以0.6mg/kg的剂量，可考虑用于本发明。

针对肺部疾病进行治疗的受试者的每一个肺可以例如接受支气管内递送的药学上有效量的雾化AAV载体系统，同时自然地呼吸。因此，通常对于AAV递送而言，雾化递送是优选的。腺病毒或AAV粒子可用于递送。其中每个都与一个或多个调控序列可操作地连接的合适的基因构建体可被克隆到递送载体中。在这种情况下，提供下列构建体作为实例：用于Cas(Cas(例如，Cas9和/或Cas12))的Cbh或EF1a启动子、用于指导RNA的U6或H1启动子：优选的安排是使用靶向指导物的CFTRδ508、用于δF508突变的修复模板以及密码子优化的Cas(例如，Cas9和/或Cas12)酶，所述酶具有任选地一个或多个核定位信号或序列(NLS)，例如，两(2)个NLS。

治疗皮肤疾病

本文所述的组合物、系统可用于治疗皮肤疾病。本发明还考虑将本文所述的组合物、系统递送至皮肤。

在一些实施方案中，可通过一种或多种微针或含有微针的装置将组合物、系统或其组分递送至皮肤(皮内递送)。例如，在一些实施方案中，所述装置和Hickerson等人(Molecular Therapy—Nucleic Acids(2013)2,e129)的方法可用于和/或适于例如以高达300μl的0.1mg/ml CRISPR-Cas(例如，Cas9和/或Cas12)系统的剂量将本文所述的组合物、系统递送至皮肤。

在一些实施方案中，Leachman等人(Molecular Therapy,第18卷第2期,442–4462010年2月)的方法和技术可用于和/或适于将本文所述的CIRPSR-Cas系统递送至皮肤。

在一些实施方案中，[1785]Zheng等人(PNAS,7月24日,2012年,第109卷,第30期,11975–11980)的方法和技术可用于和/或适于将本文所述的CIRPSR-Cas系统纳米粒子递送至皮肤。在一些实施方案中，在单次应用中应用的约25nM的剂量可实现皮肤中的基因敲低。

治疗癌症

本文所述的组合物、系统可用于治疗癌症。本发明还考虑将本文所述的组合物、系统递送至癌细胞。此外，如本文别处所述，组合物、系统可用于修饰免疫细胞，诸如CAR或CART细胞，然后所述免疫细胞继而可用于治疗和/或预防癌症。这也描述于WO2015161276中，其公开内容以引用的方式特此并入并在下文描述。

适用于治疗或预防癌症的靶基因可包括表4和表5中列出的那些。在一些实施方案中，用于癌症治疗和预防的靶基因还可包括描述于WO2015048577中的那些，其公开内容以引用的方式特此并入，并且可适于和/或应用于本文所述的组合物、系统。

疾病

遗传疾病和具有遗传和/或表观遗传方面的疾病

组合物、系统或其组分可用于治疗和/或预防遗传疾病或具有遗传和/或表观遗传方面的疾病。本文例示的基因和病状并不是详尽的。在一些实施方案中，治疗和/或预防遗传疾病的方法可包括向受试者施用组合物、系统和/或其一种或多种组分，其中所述组合物、系统和/或其一种或多种组分是能够修饰受试者的一个或多个细胞中与遗传疾病或具有遗传和/或表观遗传方面的疾病相关联的一种或多种基因的一个或多个拷贝。在一些实施方案中，修饰受试者中与遗传疾病或具有遗传和/或表观遗传方面的疾病相关联的一种或多种基因的一个或多个拷贝可消除受试者的遗传疾病或其症状。在一些实施方案中，修饰受试者中与遗传疾病或具有遗传和/或表观遗传方面的疾病相关联的一种或多种基因的一个或多个拷贝可降低受试者的遗传疾病或其症状的严重性。在一些实施方案中，组合物、系统或其组分可修饰与一种或多种疾病相关联的一种或多种基因或多核苷酸，所述一种或多种疾病包括遗传疾病和/或具有遗传方面和/或表观遗传方面的疾病，包括但不限于表3中列出的任一种或多种。应当理解，本文列出的那些疾病和相关基因是非详尽的且非限制性的。此外，一些基因在多种疾病的发生中发挥作用。

在一些实施方案中，组合物、系统或其组分可用于通过修饰与一种或多种细胞功能相关联的一种或多种基因(诸如表5中的基因的任一种或多种)来治疗或预防受试者的疾病。在一些实施方案中，所述疾病是遗传疾病或病症。在一些实施方案中，组合物、系统或其组分可修饰与一种或多种遗传疾病相关联的一种或多种基因或多核苷酸，诸如表5中列出的任何基因或多核苷酸。

在一个方面，本发明提供了对需要这种治疗的受试者的遗传疾病进行个体化或个体化治疗的方法，包括：(a)在组织、器官或细胞系中离体引入一个或多个突变，或在在转基因非人哺乳动物体内，包括向组织、器官、细胞或哺乳动物的细胞递送组合物，所述组合物包含粒子递送系统或递送系统或上述实施方案中任一项的递送系统或病毒粒子或细胞上述实施方案中任一项的，其中特定突变或精确序列替换与遗传疾病相关或已经相关；(b)在已递送媒介物的细胞上测试遗传疾病的治疗，这些细胞具有与遗传疾病相关的特定突变或精确序列替换；(c)根据步骤(b)的治疗测试结果治疗受试者。

感染性疾病

在一些实施方案中，组合物、系统或其组分可用于诊断、预测、治疗和/或预防由微生物诸如细菌、病毒、真菌、寄生虫、或其组合引起的感染性疾病。

在一些实施方案中，所述系统或其组分能够靶向混合群体中的具体微生物。此类技术的示例性方法描述于例如Gomaa AA,Klumpe HE,Luo ML,Selle K,Barrangou R,Beisel CL.2014.Programmable removal of bacterial strains by use of genome-targeting composition,systems.mBio 5:e00928-13；Citorik RJ,Mimee M,LuTK.2014.Sequence-specific antimicrobials using efficiently delivered RNA-guided nucleases.Nat Biotechnol 32:1141–1145中，其教义可适于与本文所述的组合物、系统及其组分一起使用。

在一些实施方案中，组合物、系统和/或其组分能够靶向致病和/或抗药微生物，诸如细菌、病毒、寄生虫和真菌。在一些实施方案中，组合物、系统和/或其组分能够靶向和修饰致病微生物中的一种或多种多核苷酸，从而使微生物毒性降低、被杀伤、受抑制或以其他方式使其不能在宿主细胞中引起疾病和/或感染和/或复制。

在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病菌包括但不限于以下属的那些：放线菌属(Actinomyces)(例如，衣氏放线菌(A.israelii))、芽孢杆菌属(例如，炭疽芽孢杆菌(B.anthracis)、蜡样芽孢杆菌(B.cereus))、拟杆菌属(Bactereoides)(例如，脆弱拟杆菌(B.fragilis))、巴通体属(Bartonella)(汉赛巴通体(B.henselae)、五日热巴通体(B.quintana))、博德特氏菌属(Bordetella)(百日咳博德特氏菌(B.pertussis))、疏螺旋体属(Borrelia)(例如，伯氏疏螺旋体(B.burgdorferi)、伽氏疏螺旋体(B.garinii)、阿氏疏螺旋体(B.afzelii))、布鲁氏菌属(Brucella)(例如，牛布鲁氏菌(B.abortus)、犬布鲁氏菌(B.canis)、羊布鲁氏菌(B.melitensis)和猪布鲁氏菌(B.suis))、弯曲杆菌属(Campylobacter)(例如，空肠弯曲杆菌(C.Jejuni))、衣原体属(Chlamydia)(例如，肺炎衣原体(C.pneumoniae)和沙眼衣原体(C.trachomatis))、嗜衣原体属(Chlamydophila)(例如，鹦鹉热嗜衣原体(C.psittaci))、梭菌属(Clostridium)(例如，肉毒梭菌(C.botulinum)、艰难梭菌(C.difficile)、产气荚膜梭菌(C.perfringens)、破伤风梭菌(C.tetani))、棒状杆菌属(Corynebacterium)(例如，白喉棒状杆菌(C.diptheriae))、肠球菌属(Enterococcus)(例如，粪肠球菌(E.Faecalis)、屎肠球菌(E.faecium))、埃立克体属(Ehrlichia)(例如，犬埃立克体(E.canis)和查菲埃立克体(E.chaffensis))、埃希氏菌属(例如，大肠杆菌)、弗朗西斯氏菌属(Francisella)(例如，土拉弗朗西斯氏菌(F.tularensis))、嗜血杆菌属(Haemophilus)(例如，流感嗜血杆菌(H.influenzae))、螺杆菌属(Helicobacter)(幽门螺杆菌(H.pylori))、克雷伯氏菌属(Klebsiella)(例如，肺炎克雷伯氏菌(K.pneumoniae))、军团菌属(Legionella)(例如，嗜肺军团菌(L.pneumophila))、钩端螺旋体属(Leptospira)(例如，问号钩端螺旋体(L.interrogans)、圣地罗西钩端螺旋体(L.santarosai)、韦氏钩端螺旋体(L.weilii)、野口钩端螺旋体(L.noguchii))、李斯特氏菌属(Listereia)(例如，单核细胞增多性李斯特菌(L.monocytogeenes))、分枝杆菌属(Mycobacterium)(例如，麻风分枝杆菌(M.leprae)、结核分枝杆菌(M.tuberculosis)、溃疡分枝杆菌(M.ulcerans))、支原体属(Mycoplasma)(肺炎支原体(M.pneumoniae))、奈瑟菌属(Neisseria)(淋病奈瑟菌(N.gonorrhoeae)和脑膜炎奈瑟菌(N.menigitidis))、诺卡菌属(Nocardia)(例如，星形诺卡菌(N.asteeroides))、假单胞菌属(铜绿假单胞菌)、立克次体属(Rickettsia)(立氏立克次体(R.rickettsia))、沙门氏菌属(Salmonella)(伤寒沙门氏菌(S.typhi)和鼠伤寒沙门氏菌(S.typhimurium))、志贺氏菌属(Shigella)(索氏志贺氏菌(S.sonnei)和痢疾志贺氏菌(S.dysenteriae))、葡萄球菌属(Staphylococcus)(金黄色葡萄球菌(S.aureus)、表皮葡萄球菌(S.epidermidis)和腐生葡萄球菌(S.saprophyticus))、链球菌属(无乳链球菌(S.agalactiaee)、肺炎链球菌(S.pneumoniae)、化脓性链球菌)、密螺旋体属(Treponema)(梅毒密螺旋体(T.pallidum))、脲原体属(Ureeaplasma)(例如，解脲脲原体(U.urealyticum))、弧菌属(Vibrio)(例如，霍乱弧菌(V.cholerae))、耶尔森氏菌属(Yersinia)(例如，鼠疫耶尔森氏菌(Y pestis)、小肠结肠炎耶尔森氏菌(Y,enteerocolitica)和假结核耶尔森氏菌(Y,pseudotuberculosis))。

在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病性病毒包括但不限于双链DNA病毒、部分双链DNA病毒、单链DNA病毒、阳性单链RNA病毒、阴性单链RNA病毒或双链RNA病毒。在一些实施方案中，致病性病毒可来自腺病毒科(Adenoviridae)(例如，腺病毒)、疱疹病毒科(Herpesviridae)(例如，单纯疱疹1型、单纯疱疹2型、水痘-带状疱疹病毒、爱泼斯坦-巴尔病毒(Epstein-Barr virus)、人巨细胞病毒、人疱疹病毒8型)、乳头瘤病毒科(Papillomaviridae)(例如，人乳头瘤病毒)、多瘤病毒科(Polyomaviridae)(例如，BK病毒、JC病毒)、痘病毒科(Poxviridae)(例如，天花)、肝炎病毒科(Hepadnaviridae)(例如，乙型肝炎)、细小病毒科(Parvoviridae)(例如，细小病毒B19)、星状病毒科(Astroviridae)(例如，人星状病毒)、杯状病毒科(Caliciviridae)(例如，诺沃克病毒(Norwalk virus))、小核糖核酸病毒科(Picornaviridae)(例如，柯萨奇病毒(coxsackievirus)、甲型肝炎病毒、脊髓灰质炎病毒、鼻病毒)、冠状病毒科(Coronaviridae)(例如，严重急性呼吸综合征相关冠状病毒，毒株：严重急性呼吸综合征病毒、严重急性呼吸综合征冠状病毒2(COVID-19))、黄病毒科(Flaviviridae)(例如，丙型肝炎病毒、黄热病病毒、登革热病毒、西尼罗河病毒(West Nile virus)、TBE病毒)、披膜病毒科(Togaviridae)(例如，风疹病毒)、肝炎病毒科(Hepeviridae)(例如，戊型肝炎病毒)、逆转录病毒科(Retroviridae)(人免疫缺陷病毒(HIV))、正粘病毒科(Orthomyxoviridae)(例如，流感病毒)、沙粒病毒科(Arenaviridae)(例如，拉沙病毒(Lassa virus))、布尼亚病毒科(Bunyaviridae)(例如，克里米亚-刚果出血热病毒(Crimean-Congo hemorrhagic fevervirus)、汉坦病毒(Hantaan virus))、丝状病毒科(Bunyaviridae)(例如，埃博拉病毒(Ebola virus)和马尔堡病毒(Marburg virus))、副粘病毒科(Paramyxoviridae)(例如，麻疹病毒、腮腺炎病毒、副流感病毒、呼吸道合胞病毒)、弹状病毒科(Rhabdoviridae)(狂犬病病毒)、丁型肝炎病毒、呼肠孤病毒科(Reoviridae)(例如，轮状病毒、环状病毒、结肠病毒、版纳病毒)。

在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病真菌包括但不限于以下属的那些：念珠菌属(例如，白色念珠菌)、曲霉属(例如，烟曲霉(A.fumigatus)、黄曲霉(A.flavus)、棒曲霉(A.clavatus))、隐球菌属(Cryptococcus)(例如，新生隐球菌属(C.neoformans)、格特隐球菌(C.gattii))、组织胞浆菌属(Histoplasma)(荚膜组织胞浆菌(H.capsulatum))、肺孢子菌属(Pneumocystis)(例如，耶氏肺孢子菌(P.jiroveecii))、葡萄穗霉属(Stachybotrys)(例如，纸葡萄穗霉(S.chartarum))。

在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病性寄生虫包括但不限于原生动物、蠕虫和体外寄生虫。在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病性原生动物包括但不限于来自以下组的那些：肉足亚门(Sarcodina)(例如，阿米巴，诸如内阿米巴属(Entamoeba))、鞭毛虫纲(例如，鞭毛虫，诸如贾第鞭毛虫属(Giardia)和利什曼原虫属(Leishmania))、纤毛门(Cilophora)(例如，纤毛虫，诸如巴拉坦丁属(Balantidum))和孢子虫纲(sporozoa)(例如，疟原虫属(plasmodium)和隐孢子虫属(cryptosporidium))。在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病性蠕虫包括但不限于扁形虫(扁形动物门((platyhelminths)))、棘头虫(棘头动物门(acanthoceephalins))和蛔虫(线虫动物门((nematodes)))。在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病性体外寄生虫包括但不限于蜱、蚤、虱和螨。

在一些实施方案中，可被本文所述的组合物、系统和/或其组分靶向和/或修饰的致病性寄生虫包括但不限于棘阿米巴属(Acanthamoeba)物种、狒狒巴拉姆希阿米巴(Balamuthia mandrillaris)、巴贝虫属(Babesiosis)物种(例如，分歧巴贝虫(BabesiaB.divergens)、双芽巴贝虫(B.bigemina)、马巴贝虫(B.equi)、田鼠巴贝虫(B.microfti)、杜氏巴贝虫(B.duncani))、小袋纤毛虫属物种(例如，结肠小袋纤毛虫(Balantidiumcoli))、芽囊原虫属(Blastocystis)物种、隐孢子虫属物种、圆孢子虫属(Cyclosporiasis)物种(例如，卡耶潭圆孢子虫(Cyclospora cayetanensis))、双核阿米巴属(Dientamoebiasis)物种(例如，脆弱双核阿米巴(Dientamoeba fragilis))、变形虫属(Amoebiasis)物种(例如，痢疾内变形虫(Entamoeba histolytica))、贾第鞭毛虫属(Giardiasis)物种(例如，蓝氏贾第鞭毛虫(Giardia lamblia))、等孢子虫属(Isosporiasis)物种(例如，贝氏等孢子虫(Isospora belli))、利什曼原虫属(Leishmania)物种、耐格里属(Naegleria)物种(例如，福氏耐格里(Naegleria fowleri))、疟原虫属(Plasmodium)物种(例如，恶性疟原虫(Plasmodium falciparum)、间日疟原虫(Plasmodium vivax)、卵形疟原虫柯氏亚种(Plasmodium ovale curtisi)、卵形疟原虫沃氏亚种(Plasmodium ovale wallikeri)、三日疟原虫(Plasmodium malariae)、诺氏疟原虫(Plasmodium knowlesi))、鼻孢子虫属(Rhinosporidiosis)物种(例如，西伯氏鼻孢子虫(Rhinosporidium seeberi))、肉孢子虫属(Sarcocystosis)物种(例如，牛人肉孢子虫(Sarcocystis bovihominis)、猪人肉孢子虫(Sarcocystis suihominis))、弓形虫属(Toxoplasma)物种(例如，刚地弓形虫(Toxoplasma gondii))、毛滴虫属(Trichomonas)物种(例如，阴道毛滴虫(Trichomonas vaginalis))、锥虫属(Trypanosoma)物种(例如，布氏锥虫(Trypanosoma brucei))、锥虫属物种(例如，克氏锥虫(Trypanosoma cruzi))、绦虫(例如，绦虫纲(Cestoda)、多头绦虫(Taenia multiceps)、牛带绦虫(Taenia saginata)、猪带绦虫(Taenia solium))、阔节裂头绦虫属(Diphyllobothrium latum)物种、棘球绦虫属(Echinococcus)物种(例如，细粒棘球绦虫(Echinococcus granulosus)、多房棘球绦虫(Echinococcus multilocularis)、福氏棘球绦虫(E.vogeli)、少节棘球绦虫(E.oligarthrus))、膜壳绦虫属(Hymenolepis)物种(例如，短膜壳绦虫(Hymenolepisnana)、缩小膜壳绦虫(Hymenolepis diminuta))、伯特绦虫属(Bertiella)物种(例如，古巴伯特绦虫(Bertiella mucronata)、司氏伯特绦虫(Bertiella studeri))、迭宫绦虫属(Spirometra)(例如，欧猬迭宫绦虫(Spirometra erinaceieuropaei))、支睾吸虫属(Clonorchis)物种(例如，华支睾吸虫(Clonorchis sinensis)；麝猫支睾吸虫(Clonorchisviverrini))、双腔吸虫属(Dicrocoelium)物种(例如，枝双腔吸虫(Dicrocoeliumdendriticum))、片形吸虫属(Fasciola)物种(例如，肝片形吸虫(Fasciola hepatica)、巨片形吸虫(Fasciola gigantica))、姜片吸虫属(Fasciolopsis)物种(例如，布氏姜片吸虫(Fasciolopsis buski))、后殖吸虫属(Metagonimus)物种(例如，横川后殖吸虫(Metagonimus yokogawai))、次睾吸虫属(Metorchis)物种(例如，结合次睾吸虫(Metorchis conjunctus))、后睾吸虫属(Opisthorchis)物种(例如，麝猫后睾吸虫(Opisthorchis viverrini)、猫后睾吸虫(Opisthorchis felineus))、支睾吸虫属(例如，华支睾吸虫)、并殖吸虫属(Paragonimus)物种(例如，卫氏并殖吸虫(Paragonimuswestermani)；非洲并殖吸虫(Paragonimus africanus)；卡里并殖吸虫(Paragonimuscaliensis)；克氏并殖吸虫(Paragonimus kellicotti)；斯氏并殖吸虫(Paragonimusskrjabini)；子宫双侧并殖吸虫(Paragonimus uterobilateralis))、血吸虫属(Schistosoma)物种、血吸虫属物种(例如，曼氏血吸虫(Schistosoma mansoni)、埃及血吸虫(Schistosoma haematobium)、日本血吸虫(Schistosoma japonicum)、湄公血吸虫(Schistosoma mekongi)和间插血吸虫(Schistosoma intercalatum))、棘口吸虫属(Echinostoma)物种(例如，多刺棘口吸虫(E.echinatum))、毛毕吸虫属(Trichobilharzia)物种(例如，毛毕吸虫尾蚴(Trichobilharzia regent))、钩口线虫属(Ancylostoma)物种(例如，十二指肠钩口线虫(Ancylostoma duodenale))、钩虫属(Necator)物种(例如，美洲钩虫(Necator americanus))、管圆线虫属(Angiostrongylus)物种、异尖线虫属(Anisakis)物种、蛔线虫属(Ascaris)物种(例如，似蚓蛔线虫(Ascaris lumbricoides))、贝利蛔线虫属(Baylisascaris)物种(例如，浣熊贝利蛔线虫属(Baylisascarisprocyonis))、布鲁丝虫属(Brugia)物种(例如，马来布鲁丝虫(Brugia malayi)、帝汶布鲁丝虫(Brugia timori))、膨结线虫属(Dioctophyme)物种(例如，肾膨结线虫(Dioctophymerenale))、龙线虫属(Dracunculus)物种(例如，麦地那龙线虫(Dracunculusmedinensis))、蛲虫属(Enterobius)物种(例如，人蛲虫(Enterobius vermicularis)、格氏蛲虫(Enterobius gregorii))、颚口线虫属(Gnathostoma)物种(例如，有棘颚口线虫(Gnathostoma spinigerum)、刚棘颚口线虫(Gnathostoma hispidum))、魔鬼线虫属(Halicephalobus)物种(例如，破坏魔鬼线虫(Halicephalobus gingivalis))、罗阿丝虫属(Loa loa)物种(例如，罗阿丝虫(Loa loa filaria))、曼森线虫属(Mansonella)物种(例如，链尾曼森线虫(Mansonella streptocerca))、盘尾丝虫属(Onchocerca)物种(例如，旋盘尾丝虫(Onchocerca volvulus))、类圆线虫属(Strongyloides)物种(例如，粪类圆线虫(Strongyloides stercoralis))、吸吮线虫属(Thelazia)物种(例如，加利福尼亚吸吮线虫(Thelazia californiensis)、结膜吸吮线虫(Thelazia callipaeda))、弓首蛔虫属(Toxocara)物种(例如，犬弓首蛔虫(Toxocara canis)、猫弓首蛔虫(Toxocara cati)、狮弓首蛔虫(Toxascaris leonine))、旋毛虫属(Trichinella)物种(例如，螺旋毛虫(Trichinella spiralis)、布氏旋毛虫(Trichinella britovi)、纳氏旋毛虫(Trichinellanelsoni)、乡土旋毛虫(Trichinella nativa))、毛首线虫属(Trichuris)物种(例如，鞭形毛首线虫(Trichuris trichiura)、狐毛首线虫(Trichuris vulpis))、吴策线虫属(Wuchereria)物种(例如，班氏吴策线虫(Wuchereria bancrofti))、人皮蝇属(Dermatobia)物种(例如，人皮蝇(Dermatobia hominis))、潜蚤属(Tunga)物种(例如，穿皮潜蚤(Tunga penetrans))、锥蝇属(Cochliomyia)物种(例如，嗜人锥蝇(Cochliomyiahominivorax))、舌形虫属(Linguatula)物种(例如，锯齿舌形虫(Linguatula serrata))、原棘头虫纲(Archiacanthocephala)物种、念珠棘虫属(Moniliformis)物种(例如，念珠棘头虫(Moniliformis moniliformis))、虱属(Pediculus)物种(例如，头虱(Pediculushumanus capitis)、体虱(Pediculus humanus humanus))、阴虱属(Pthirus)物种(例如，阴虱(Pthirus pubis))、蛛形纲(Arachnida)物种(例如，恙螨科(Trombiculidae)、硬蜱科(Ixodidae)、软蜱科(Argaside))、蚤目(Siphonaptera)物种(例如，蚤目：潜蚤亚科(Pulicinae))、臭虫科(Cimicidae)物种(例如，温带臭虫(Cimex lectularius)和热带臭虫(Cimex hemipterus))、双翅目(Diptera)物种、蠕形螨属(Demodex)物种(例如，毛囊蠕形螨(Demodex folliculorum)/皮脂蠕形螨(Demodex brevis)/犬蠕形螨(Demodex canis))、疥螨属(Sarcoptes)物种(例如，人疥螨(Sarcoptes scabiei))、皮刺螨属(Dermanyssus)物种(例如，鸡皮刺螨(Dermanyssus gallinae))、禽刺螨属(Ornithonyssus)物种(例如，林禽刺螨(Ornithonyssus sylviarum)、囊禽刺螨(Ornithonyssus bursa)、柏氏禽刺螨(Ornithonyssus bacoti))、厉螨属(Laelaps)物种(例如，毒厉螨(Laelaps echidnina))、刺脂螨属(Liponyssoides)物种(例如，吸血异脂刺螨(Liponyssoides sanguineus))。

在一些实施方案中，基因靶标可以是Strich和Chertow.2019.J.Clin.Microbio.57:4e01307-18的表1中列出的那些，将所述文献并入本文，如同在本文中整体表达一样。

在一些实施方案中，所述方法可包括将组合物、系统和/或其组分递送至本文所述的致病生物体，从而允许所述组合物、系统和/或其组分特异性结合并修饰致病生物体中的一个或多个靶标，由此所述修饰杀伤、抑制、降低致病生物体的致病性，或以其他方式使致病生物体无致病性。在一些实施方案中，组合物、系统的递送发生在体内(即在所治疗的受试者中)。在一些实施方案中，由对受试者无致病性但能够转移多核苷酸和/或感染致病微生物的中间体(诸如微生物或噬菌体)发生。在一些实施方案中，中间体微生物可以是工程化细菌、病毒或噬菌体，其含有组合物、系统和/或其组分和/或CRISPR-Cas载体和/或载体系统。所述方法可包括向待治疗的受试者施用含有组合物、系统和/或其组分和/或CRISPR-Cas载体和/或载体系统的中间体微生物。然后中间体微生物可产生CRISPR系统和/或其组分或将组合物、系统、多核苷酸转移至致病生物体。在实施方案中，在将CRISPR系统和/或其组分、载体或载体系统转移至致病微生物的情况下，就会在致病微生物中产生组合物、系统或其组分并修饰致病微生物，使得其毒性降低、被杀伤、受抑制或以其他方式不能在宿主或其细胞中引起疾病和/或感染和/或复制。

在一些实施方案中，在致病微生物将其遗传物质插入宿主细胞的基因组中的情况下(例如，病毒)，组合物、系统可被设计成使得其修饰宿主细胞的基因组，使得病毒DNA或cDNA不能被宿主细胞的机构复制成功能性病毒。在一些实施方案中，在致病微生物将其遗传物质插入宿主细胞的基因组中的情况下(例如，病毒)，组合物、系统可被设计成使得其修饰宿主细胞的基因组，使得病毒DNA或cDNA从宿主细胞的基因组中缺失。

应当理解，通过抑制或杀伤致病微生物，可治疗或预防感染在受试者中引起的疾病和/或病状。因此，本文还提供了治疗和/或预防由任何一种或多种致病微生物(诸如本文所述致病微生物中的任一种)引起的一种或多种疾病或其症状的方法。

线粒体疾病

最具挑战性的线粒体病症中的一些是由线粒体DNA(mtDNA)突变引起的，所述线粒体DNA是母系遗传的高拷贝数基因组。在一些实施方案中，可使用本文所述的组合物、系统来修饰mtDNA突变。在一些实施方案中，可诊断、预测、治疗和/或预防的线粒体疾病可以是MELAS(线粒体肌病脑病和乳酸酸中毒和中风样发作)、CPEO/PEO(慢性进行性外眼肌麻痹综合征/进行性外眼眼肌麻痹)、KSS(卡恩斯-塞尔综合征)、MIDD(母系遗传性糖尿病和耳聋)、MERRF(肌阵挛性癫痫伴红色纤维参差不齐)、NIDDM(非胰岛素依赖型糖尿病)、LHON(Leber遗传性视神经病变)、LS(Leigh综合征)、氨基糖苷类诱发的听力障碍、NARP(神经病、共济失调和色素性视网膜病)、锥体外系障碍伴运动不能-僵硬、精神病和SNHL、非综合征性听力损失、心肌病、脑肌病、皮尔逊综合征(Pearson’s syndrome)或其组合。

在一些实施方案中，受试者的mtDNA可在体内或离体进行修饰。一些实施方案中，在离体修饰mtDNA的情况下，在修饰后，可将含有修饰的线粒体的细胞施用回受试者。在一些实施方案中，组合物、系统或其组分能够校正mtDNA突变或其组合。

在一些实施方案中，一种或多种mtDNA突变中的至少一种选自由以下组成的组：A3243G、C3256T、T3271C、G1019A、A1304T、A15533G、C1494T、C4467A、T1658C、G12315A、A3421G、A8344G、T8356C、G8363A、A13042T、T3200C、G3242A、A3252G、T3264C、G3316A、T3394C、T14577C、A4833G、G3460A、G9804A、G11778A、G14459A、A14484G、G15257A、T8993C、T8993G、G10197A、G13513A、T1095C、C1494T、A1555G、G1541A、C1634T、A3260G、A4269G、T7587C、A8296G、A8348G、G8363A、T9957C、T9997C、G12192A、C12297T、A14484G、G15059A，位置305-314和/或956-965处CCCCCTCCCC串联重复序列的重复、位置8,469-13,447、4,308-14,874和/或4,398-14,822处的缺失、961ins/delC、线粒体常见缺失(例如，mtDNA 4,977bp缺失)及其组合。

在一些实施方案中，线粒体突变可以是如在mitomap.org.上可查看的Mitomap中所列出的或通过使用Mitomap中可用的一种或多种生物信息学工具鉴定的任何突变。此类工具包括但不限于“Variant Search，又称为Market Finder”、Find Sequences for AnyHaplogroup，又称为“Sequence Finder”、“Variant Info”、“POLG PathogenicityPrediction Server、“MITOMASTER”、“Allele Search”、“Sequence and VariantDownloads”、“Data Downloads”。MitoMap含有可与疾病相关联的mtDNA的突变报告，并维护报告的线粒体DNA碱基取代疾病：rRNA/tRNA突变的数据库。

在一些实施方案中，所述方法包括将组合物、系统和/或其组分递送至细胞，并且更具体地递送至细胞中的一个或多个线粒体，从而允许组合物、系统和/或其组分修饰细胞中的一个或多个靶多核苷酸，并且更具体地修饰细胞中的一个或多个线粒体。靶多核苷酸可对应于mtDNA中的突变，诸如本文所述突变中的任一种或多种。在一些实施方案中，修饰可改变线粒体的功能，使得与未修饰的线粒体相比，线粒体功能正常或至少不太有功能障碍。修饰可发生在体内或离体。在离体进行修饰的情况下，可以自体或同种异体的方式将含有修饰的线粒体的细胞施用于有需要的受试者。

微生物组修饰

微生物组在健康和疾病方面起重要作用。例如，肠道微生物组可通过控制消化、防止致病微生物的生长而在健康方面发挥作用，并被认为会影响心境和情绪。不平衡的微生物组可促发疾病，并被认为会导致体重增加、血糖失控、高胆固醇、癌症和其他病症。健康的微生物组具有一系列可与非健康个体区分开来的联合特征，因此疾病相关微生物组的检测和鉴定可用于诊断和检测个体的疾病。组合物、系统及其组分可用于筛选微生物组细胞群并用于鉴定疾病相关微生物组。利用组合物、系统及其组分的细胞筛选方法在本文别处描述并且可应用于筛选受试者的微生物组，诸如肠道、皮肤、阴道和/或口腔微生物组。

在一些实施方案中，可使用本文所述的组合物、系统和/或其组分来修饰受试者的微生物组的微生物群体。在一些实施方案中，组合物、系统和/或其组分可用于鉴定和选择微生物组中的一种或多种细胞类型并将它们从微生物组群体中去除。使用组合物、系统和/或其组分选择细胞的示例性方法在本文别处描述。以此方式，可改变微生物组的组成或微生物特征。在一些实施方案中，所述改变致使从患病微生物组组合物变化成健康微生物组组合物的。以此方式，可修改一种微生物类型或物种与另一种的比例，诸如从患病比例变为健康比例。在一些实施方案中，所选择的细胞是致病微生物。

在一些实施方案中，本文所述的组合物、系统可用于修饰受试者的微生物组的微生物中的多核苷酸。在一些实施方案中，微生物是致病微生物。在一些实施方案中，微生物是共生和非致病微生物。修饰受试者的细胞中的多核苷酸的方法在本文别处描述并且可应用于这些实施方案。

过继性疗法

本文所述的组合物、系统及其组分可用于修饰用于过继性细胞疗法的细胞。在本发明的一个方面，涉及编辑靶核酸序列或调节靶核酸序列的表达的方法和组合物及其结合癌症免疫疗法的应用通过适配本发明的组合物、系统来理解。

如本文所用，“ACT”、“过继性细胞疗法”和“过继性细胞转移”可互换使用。在某些实施方案中，过继性细胞疗法(ACT)可以指将细胞转移到患者，目的是通过细胞的植入将功能和特征转移到新宿主中(参见例如，Mettananda等人,Editing anα-globin enhancer inprimary human hematopoietic stem cells as a treatment forβ-thalassemia,NatCommun.2017年9月4日；8(1):424)。如本文所用，术语“植入(engraft)”或“植入(engraftment)”是指通过与组织的现有细胞接触而将细胞在体内并入目标组织中的过程。过继性细胞疗法(ACT)可以指将细胞(最常见的是免疫源性细胞)转移回同一患者或新的受体宿主中，目的是将免疫功能和特征转移到新宿主中。如果可能的话，使用自体细胞通过最小化GVHD问题来帮助受体。自体肿瘤浸润淋巴细胞(TIL)(Zacharakis等人,(2018)NatMed.2018年6月；24(6):724-730；Besser等人,(2010)Clin.Cancer Res 16(9)2646–55；Dudley等人,(2002)Science 298(5594):850–4；和Dudley等人,(2005)Journal ofClinical Oncology 23(10):2346–57.)或基因重定向的外周血单核细胞(Johnson等人,(2009)Blood 114(3):535–46；和Morgan等人,(2006)Science 314(5796)126-9)的过继性转移已被用于成功治疗患有晚期实体瘤(包括黑色素瘤、转移性乳腺癌和结直肠癌)的患者以及患有CD19表达血液系统恶性肿瘤的患者(Kalos等人,(2011)Science TranslationalMedicine 3(95):95ra73)。在某些实施方案中，转移同种异体细胞和免疫细胞(参见例如，Ren等人,(2017)Clin Cancer Res 23(9)2255-2266)。如本文进一步描述的，可编辑同种异体细胞以降低同种异体反应性并预防移植物抗宿主病。因此，同种异体细胞的使用允许从健康供体获得细胞并将其制备用于患者，而不是从诊断后的患者制备自体细胞。

本发明的方面涉及免疫系统细胞诸如T细胞的过继转移，所述细胞对选定的抗原诸如肿瘤相关抗原或肿瘤特异性新抗原具有特异性(参见例如，Maus等人,2014,AdoptiveImmunotherapy for Cancer or Viruses,Annual Review of Immunology,第32卷:189-225；Rosenberg和Restifo,2015,Adoptive cell transfer as personalizedimmunotherapy for human cancer,Science第348卷第6230期第62-68页；Restifo等人,2015,Adoptive immunotherapy for cancer:harnessing the T cellresponse.Nat.Rev.Immunol.12(4):269-281；以及Jenson和Riddell,2014,Design andimplementation of adoptive therapy with chimeric antigen receptor-modified Tcells.ImmunolRev.257(1)：127-144；和Rajasagi等人，2014年，慢性淋巴细胞白血病中个人肿瘤特异性新抗原的系统性鉴定。Blood.2014年7月17日；124(3):453-62)。

在某些实施方案中，在疾病(诸如特别是肿瘤或癌症)的过继性细胞疗法(诸如特别是CAR或TCR T细胞疗法)中被靶向的抗原(诸如肿瘤抗原)可选自由以下组成的组：MR1(参见例如，Crowther等人,2020,Genome-wide CRISPR–Cas9 screening revealsubiquitous T cell cancer targeting via the monomorphic MHC class I-relatedprotein MR1,Nature Immunology第21卷,第178–185页)；B细胞成熟抗原(BCMA)(参见例如，Friedman等人,Effective Targeting of Multiple BCMA-Expressing HematologicalMalignancies by Anti-BCMA CAR T Cells,Hum Gene Ther.2018年3月8日；Berdeja JG等人Durable clinical responses in heavily pretreated patients with relapsed/refractory multiple myeloma:updated results from a multicenter study ofbb2121 anti-Bcma CAR T cell therapy.Blood.2017；130:740；以及Mouhieddine和Ghobrial,Immunotherapy in Multiple Myeloma:The Era of CAR T Cell Therapy,Hematologist,2018年5月至6月,第15卷,第3期)；PSA(前列腺特异性抗原)；前列腺特异性膜抗原(PSMA)；PSCA(前列腺干细胞抗原)；酪氨酸蛋白激酶跨膜受体ROR1；成纤维细胞激活蛋白(FAP)；肿瘤相关糖蛋白72(TAG72)；癌胚抗原(CEA)；上皮细胞粘附分子(EPCAM)；间皮素；人表皮生长因子受体2(ERBB2(Her2/neu))；前列腺酶；前列腺酸性磷酸酶(PAP)；延伸因子2突变体(ELF2M)；胰岛素样生长因子1受体(IGF-1R)；gplOO；BCR-ABL(断裂点簇集区-Abelson)；酪氨酸酶；纽约食管鳞状细胞癌1(NY-ESO-1)；κ-轻链、LAGE(L抗原)；MAGE(黑色素瘤抗原)；黑色素瘤相关抗原1(MAGE-A1)；MAGE A3；MAGE A6；豆荚蛋白；人乳头瘤病毒(HPV)E6；HPV E7；prostein；生存素(survivin)；PCTA1(半乳糖凝集素8)；Melan-A/MART-1；Ras突变体；TRP-1(酪氨酸酶相关蛋白1或gp75)；酪氨酸酶相关蛋白2(TRP2)；TRP-2/INT2(TRP-2/内含子2)；RAGE(肾抗原)；晚期糖基化终产物受体1(RAGE1)；肾泛素1、肾泛素2(RU1、RU2)；肠道羧酸酯酶(iCE)；热休克蛋白70-2(HSP70-2)突变体；促甲状腺激素受体(TSHR)；CD123；CD171；CD19；CD20；CD22；CD26；CD30；CD33；CD44v7/8(分化簇44，内含子7/8)；CD53；CD92；CD100；CD148；CD150；CD200；CD261；CD262；CD362；CS-1(CD2亚群1、CRACC、SLAMF7、CD319和19A24)；C型凝集素样分子-1(CLL-1)；神经节苷脂GD3(aNeu5Ac(2-8)aNeu5Ac(2-3)bDGalp(1-4)bDGlcp(1-1)Cer)；Tn抗原(Tn Ag)；Fms样酪氨酸激酶3(FLT3)；CD38；CD138；CD44v6；B7H3(CD276)；KIT(CD117)；白细胞介素-13受体亚基α-2(IL-13Ra2)；白细胞介素11受体α(IL-11Ra)；前列腺干细胞抗原(PSCA)；丝氨酸蛋白酶21(PRSS21)；血管内皮生长因子受体2(VEGFR2)；路易斯(Y)抗原(Lewis(Y)antigen)；CD24；血小板源性生长因子受体β(PDGFR-β)；阶段特异性胚胎抗原-4(SSEA-4)；细胞表面相关粘蛋白1(MUC1)；粘蛋白16(MUC16)；表皮生长因子受体(EGFR)；表皮生长因子受体变体III(EGFRvIII)；神经细胞粘附分子(NCAM)；碳酸酐酶IX(CAIX)；蛋白酶体(Prosome，Macropain)β亚基9型(LMP2)；肾上腺素A型受体2(EphA2)；Ephrin B2；岩藻糖基GM1；唾液酸路易斯粘附分子(sLe)；神经节苷脂GM3(aNeu5Ac(2-3)bDGalp(1-4)bDGlcp(1-1)Cer)；TGS5；高分子量黑色素瘤相关抗原(HMWMAA)；o-乙酰基-GD2神经节苷脂(OAcGD2)；叶酸受体α；叶酸受体β；肿瘤内皮标志物1(TEM1/CD248)；肿瘤内皮标志物7相关(TEM7R)；claudin 6(CLDN6)；G蛋白偶联受体C类第5组成员D(GPRC5D)；染色体X开放阅读框61(CXORF61)；CD97；CD179a；间变性淋巴瘤激酶(ALK)；聚唾液酸；胎盘特异性1(PLAC1)；globoH神经酰胺的六糖部分(GloboH)；乳腺分化抗原(NY-BR-1)；尿溶蛋白(uroplakin)2(UPK2)；甲型肝炎病毒细胞受体1(HAVCR1)；肾上腺素受体β3(ADRB3)；泛连接蛋白3(PANX3)；G蛋白偶联受体20(GPR20)；淋巴细胞抗原6复合物基因座K 9(LY6K)；嗅觉受体51E2(OR51E2)；TCRγ交替阅读框蛋白(TARP)；威尔姆斯肿瘤蛋白(WT1)；ETS易位变异基因6，位于染色体12p上(ETV6-AML)；精子蛋白17(SPA17)；X抗原家族成员1A(XAGE1)；血管生成素结合细胞表面受体2(Tie 2)；CT(癌症/睾丸(抗原))；黑色素瘤癌睾丸抗原-1(MAD-CT-1)；黑色素瘤癌睾丸抗原-2(MAD-CT-2)；Fos相关抗原1；p53；p53突变体；人端粒酶逆转录酶(hTERT)；肉瘤易位断裂点；细胞凋亡的黑色素瘤抑制剂(ML-IAP)；ERG(跨膜蛋白酶丝氨酸2(TMPRSS2)ETS融合基因)；N-乙酰葡糖胺基转移酶V(NA17)；配对盒蛋白Pax-3(PAX3)；雄激素受体；细胞周期蛋白B1；细胞周期蛋白D1；v-myc禽骨髓细胞瘤病毒癌基因神经母细胞瘤衍生同源物(MYCN)；Ras同源物家族成员C(RhoC)；细胞色素P4501B1(CYP1B1)；CCCTC结合因子(锌指蛋白)样(BORIS)；T细胞识别的鳞状细胞癌抗原1或3(SART1、SART3)；配对盒蛋白Pax-5(PAX5)；前顶体结合蛋白sp32(OY-TES1)；淋巴细胞特异性蛋白酪氨酸激酶(LCK)；A激酶锚定蛋白4(AKAP-4)；滑膜肉瘤X断裂点1、2、3或4(SSX1、SSX2、SSX3、SSX4)；CD79a；CD79b；CD72；白细胞相关免疫球蛋白样受体1(LAIR1)；IgA受体的Fc片段(FCAR)；白细胞免疫球蛋白样受体亚家族A成员2(LILRA2)；CD300分子样家族成员f(CD300LF)；C型凝集素结构域家族12成员A(CLEC12A)；骨髓基质细胞抗原2(BST2)；含有EGF样模块粘蛋白样激素受体样2(EMR2)；淋巴细胞抗原75(LY75)；磷脂酰肌醇蛋白聚糖-3(GPC3)；Fc受体样5(FCRL5)；小鼠双分钟2同源物(MDM2)；活素(livin)；甲胎蛋白(AFP)；跨膜激活剂和CAML相互作用子(TACI)；B细胞激活因子受体(BAFF-R)；V-Ki-ras2 Kirsten大鼠肉瘤病毒癌基因同源物(KRAS)；免疫球蛋白λ样多肽1(IGLL1)；707-AP(707丙氨酸脯氨酸)；ART-4(T4细胞识别的腺癌抗原)；BAGE(B抗原；b-连环蛋白/m，b-连环蛋白/突变型)；CAMEL(CTL识别的黑色素瘤抗原)；CAP1(癌胚抗原肽1)；CASP-8(半胱天冬酶-8)；CDC27m(突变细胞分裂周期27)；CDK4/m(突变细胞周期蛋白依赖性激酶4)；Cyp-B(亲环素B)；DAM(分化抗原黑色素瘤)；EGP-2(上皮糖蛋白2)；EGP-40(上皮糖蛋白40)；Erbb2、3、4(红细胞白血病病毒癌基因同源物2、3、4)；FBP(叶酸结合蛋白)；fAchR(胎儿乙酰胆碱受体)；G250(糖蛋白250)；GAGE(G抗原)；GnT-V(N-乙酰氨基葡萄糖转移酶V)；HAGE(解旋酶抗原)；ULA-A(人白细胞抗原A)；HST2(人印戒瘤2)；KIAA0205；KDR(激酶插入结构域受体)；LDLR/FUT(低密度脂受体/GDP L-岩藻糖：b-D-半乳糖苷酶2-a-L岩藻糖基转移酶)；L1CAM(L1细胞粘附分子)；MC1R(黑素皮质素1受体)；Myosin/m(突变肌球蛋白)；MUM-1、2、3(黑色素瘤遍在突变蛋白1、2、3)；NA88-A(患者M88的NA cDNA克隆)；KG2D(自然杀伤组2成员D)配体；癌胚抗原(h5T4)；p190小bcr-abl(190KD bcr-abl蛋白)；Pml/RARa(早幼粒细胞白血病/维甲酸受体a)；PRAME(黑色素瘤优先表达的抗原)；SAGE(肉瘤抗原)；TEL/AML1(易位Ets家族白血病/急性髓样白血病1)；TPI/m(突变磷酸丙糖异构酶)；CD70；及其任何组合。

在某些实施方案中，要在疾病(诸如特别是肿瘤或癌症)的过继性细胞疗法(诸如特别是CAR或TCR T细胞疗法)中被靶向的抗原是肿瘤特异性抗原(TSA)。

在某些实施方案中，要在疾病(诸如特别是肿瘤或癌症)的过继性细胞疗法(诸如特别是CAR或TCR T细胞疗法)中被靶向的抗原是新抗原。

在某些实施方案中，要在疾病(诸如特别是肿瘤或癌症)的过继性细胞疗法(诸如特别是CAR或TCR T细胞疗法)中被靶向的抗原是肿瘤相关抗原(TAA)。

在某些实施方案中，要在疾病(诸如特别是肿瘤或癌症)的过继性细胞疗法(诸如特别是CAR或TCR T细胞疗法)中被靶向的抗原是通用肿瘤抗原。在某些优选的实施方案中，通用肿瘤抗原选自由以下组成的组：人端粒酶逆转录酶(hTERT)、生存素、小鼠双分钟2同源物(MDM2)、细胞色素P450 1B 1(CYP1B)、HER2/neu、威尔姆斯肿瘤基因1(WT1)、活素、甲胎蛋白(AFP)、癌胚抗原(CEA)、粘蛋白16(MUC16)、MUC1、前列腺特异性膜抗原(PSMA)、p53、细胞周期蛋白(Dl)及其任何组合。

在某些实施方案中，要在疾病(诸如特别是肿瘤或癌症)的过继性细胞疗法(诸如特别是CAR或TCR T细胞疗法)中被靶向的抗原(诸如肿瘤抗原)可选自由以下组成的组：CD19、BCMA、CD70、CLL-1、MAGE A3、MAGE A6、HPV E6、HPV E7、WT1、CD22、CD171、ROR1、MUC16和SSX2。在某些优选的实施方案中，抗原可以是CD19。例如，可在血液系统恶性肿瘤中靶向CD19，所述肿瘤诸如淋巴瘤，更特别地B细胞淋巴瘤，诸如但不限于弥漫性大B细胞淋巴瘤、原发性纵隔b细胞淋巴瘤、转化滤泡性淋巴瘤、边缘区淋巴瘤、套细胞淋巴瘤、急性淋巴细胞白血病(包括成人和儿童ALL)、非霍奇金淋巴瘤、惰性非霍奇金淋巴瘤或慢性淋巴细胞白血病。例如，可在多发性骨髓瘤或浆细胞白血病中靶向BCMA(参见例如，2018AmericanAssociation for Cancer Research(AACR)Annual meeting Poster:AllogeneicChimeric Antigen Receptor T Cells Targeting B Cell Maturation Antigen)。例如，可在急性髓样白血病中靶向CLL1。例如，可在实体瘤中靶向MAGE A3、MAGE A6、SSX2和/或KRAS。例如，可在宫颈癌或头颈癌中靶向HPV E6和/或HPV E7。例如，可在急性髓样白血病(AML)、骨髓增生异常综合征(MDS)、慢性髓样白血病(CML)、非小细胞肺癌、乳腺癌、胰腺癌、卵巢癌或结直肠癌或间皮瘤中靶向WT1。例如，可在B细胞恶性肿瘤，包括非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤或急性淋巴细胞白血病中靶向CD22。例如，可在神经母细胞瘤、胶质母细胞瘤或肺癌、胰腺癌或卵巢癌中靶向CD171。例如，可在ROR1+恶性肿瘤，包括非小细胞肺癌、三阴性乳腺癌、胰腺癌、前列腺癌、ALL、慢性淋巴细胞白血病或套细胞淋巴瘤中靶向ROR1。例如，可在MUC16ecto+上皮性卵巢癌、输卵管癌或原发性腹膜癌中靶向MUC16。例如，可在血液系统恶性肿瘤以及实体癌，诸如肾细胞癌(RCC)、神经胶质瘤(例如，GBM)和头颈癌(HNSCC)中靶向CD70。CD70在血液系统恶性肿瘤以及实体癌中均表达，而在正常组织中的表达仅限于淋巴细胞类型的子集(参见例如，2018American Association for CancerResearch(AACR)Annualmeeting Poster:Allogeneic CRISPR Engineered Anti-CD70CAR-T Cells Demonstrate Potent Preclinical Activity Against Both Solid andHematological Cancer Cells)。

例如，可采用各种策略通过改变T细胞受体(TCR)的特异性(例如通过引入具有选定肽特异性的新TCRα和β链)来对T细胞进行遗传修饰(参见美国专利号8,697,854；PCT专利公布：WO2003020763、WO2004033685、WO2004044004、WO2005114215、WO2006000830、WO2008038002、WO2008039818、WO2004074322、WO2005113595、WO2006125962、WO2013166321、WO2013039889、WO2014018863、WO2014083173；美国专利号8,088,379)。

作为TCR修饰的替代或补充，嵌合抗原受体(CAR)可用于生成免疫反应细胞，诸如T细胞，其对选定的靶标诸如恶性细胞具有特异性，其中已描述了多种受体嵌合体构建体(参见美国专利号5,843,728；5,851,828；5,912,170；6,004,811；6,284,240；6,392,013；6,410,014；6,753,162；8,211,422；和PCT公布WO9215322)。

通常，CAR由细胞外结构域、跨膜结构域和细胞内结构域组成，其中细胞外结构域包含对预定靶标具有特异性的抗原结合结构域。虽然CAR的抗原结合结构域通常是抗体或抗体片段(例如，单链可变片段，scFv)，但结合结构域不受特别限制，只要其导致对靶标的特异性识别即可。例如，在一些实施方案中，抗原结合结构域可包含受体，使得CAR能够结合受体的配体。可替代地，抗原结合结构域可包含配体，使得CAR能够结合该配体的内源受体。

CAR的抗原结合结构域通常通过铰链或间隔子与跨膜结构域隔开。间隔子也不受特别限制，并且它被设计成为CAR提供柔性。例如，间隔子结构域可包含人Fc结构域的一部分，包括CH3结构域的一部分；或任何免疫球蛋白(诸如IgA、IgD、IgE、IgG或IgM或其变体)的铰链区。此外，可修饰铰链区以防止FcR或其他潜在干扰物的脱靶结合。例如，铰链可包含具有或不具有S228P、L235E和/或N297Q突变(根据Kabat编号)的IgG4 Fc结构域，以降低与FcR的结合。另外的间隔子/铰链包括但不限于CD4、CD8和CD28铰链区。

CAR的跨膜结构域可源自天然来源或合成来源。在来源是天然来源的情况下，所述结构域可源自任何膜结合蛋白或跨膜蛋白。在本公开中特别使用的跨膜区可源自CD8、CD28、CD3、CD45、CD4、CD5、CDS、CD9、CD 16、CD22、CD33、CD37、CD64、CD80、CD86、CD 134、CD137、CD 154、TCR。可替代地，跨膜结构域可以是合成的，在这种情况下，它将主要包含疏水残基，诸如亮氨酸和缬氨酸。优选地，苯丙氨酸、色氨酸和缬氨酸的三联体将出现在合成跨膜结构域的每一端。任选地，优选长度在2与10个氨基酸之间的短寡核苷酸或多肽接头可在CAR的跨膜结构域与细胞质信号传导结构域之间形成连接。甘氨酸-丝氨酸双联体提供了特别合适的接头。

替代的CAR构建体可被表征为属于连续的世代。第一代CAR通常由对抗原具有特异性的抗体的单链可变片段组成，所述单链可变片段例如包含与特定抗体的VH连接的VL，通过柔性接头(例如通过CD8α铰链结构域和CD8α跨膜结构域)连接到CD3ζ或FcRγ的跨膜和细胞内信号传导结构域(scFv-CD3ζ或scFv-FcRγ；参见美国专利号7,741,465；美国专利号5,912,172；美国专利号5,906,936)。第二代CAR将一种或多种共刺激分子(诸如CD28、OX40(CD134)或4-1BB(CD137))的细胞内结构域整合在内部结构域(endodomain)内(例如scFv-CD28/OX40/4-1BB-CD3ζ；参见美国专利号8,911,993；8,916,381；8,975,071；9,101,584；9,102,760；9,102,761)。第三代CAR包括共刺激内部结构域，诸如CD3ζ-链、CD97、GDI la-CD18、CD2、ICOS、CD27、CD154、CDS、OX40、4-1BB、CD2、CD7、LIGHT、LFA-1、NKG2C、B7-H3、CD30、CD40、PD-1或CD28信号传导结构域的组合(例如scFv-CD28-4-1BB-CD3ζ或scFv-CD28-OX40-CD3ζ；参见美国专利号8,906,682；美国专利号8,399,645；美国专利号5,686,281；PCT公布号WO2014134165；PCT公布号WO2012079000)。在某些实施方案中，一级信号传导结构域包含选自由以下组成的组的蛋白质的功能性信号传导结构域：CD3ζ、CD3γ、CD3δ、CD3ε、共同FcRγ(FCERIG)、FcRβ(FcεR1b)、CD79a、CD79b、FcγRIIa、DAP10和DAP12。在某些优选的实施方案中，一级信号传导结构域包含CD3ζ或FcRγ的功能性信号传导结构域。在某些实施方案中，所述一个或多个共刺激信号传导结构域包含各自独立地选自由以下组成的组的蛋白质的功能性信号传导结构域：CD27、CD28、4-1BB(CD137)、OX40、CD30、CD40、PD-1、ICOS、淋巴细胞功能相关抗原-1(LFA-1)、CD2、CD7、LIGHT、NKG2C、B7-H3、与CD83特异性结合的配体、CDS、ICAM-1、GITR、BAFFR、HVEM(LIGHTR)、SLAMF7、NKp80(KLRF1)、CD160、CD19、CD4、CD8α、CD8β、IL2Rβ、IL2Rγ、IL7Rα、ITGA4、VLA1、CD49a、ITGA4、IA4、CD49D、ITGA6、VLA-6、CD49f、ITGAD、CD11d、ITGAE、CD103、ITGAL、CD11a、LFA-1、ITGAM、CD11b、ITGAX、CD11c、ITGB1、CD29、ITGB2、CD18、ITGB7、TNFR2、TRANCE/RANKL、DNAM1(CD226)、SLAMF4(CD244、2B4)、CD84、CD96(Tactile)、CEACAM1、CRTAM、Ly9(CD229)、CD160(BY55)、PSGL1、CD100(SEMA4D)、CD69、SLAMF6(NTB-A、Lyl08)、SLAM(SLAMF1、CD150、IPO-3)、BLAME(SLAMF8)、SELPLG(CD162)、LTBR、LAT、GADS、SLP-76、PAG/Cbp、NKp44、NKp30、NKp46和NKG2D。在某些实施方案中，所述一个或多个共刺激信号传导结构域包含各自独立地选自由以下组成的组的蛋白质的功能性信号传导结构域：4-1BB、CD27和CD28。在某些实施方案中，嵌合抗原受体可具有如美国专利号7,446,190中所述的设计，其包含CD3ζ链的细胞内结构域(诸如人CD3ζ链的氨基酸残基52-163，如US 7,446,190的SEQ ID NO:14所示)、来自CD28的信号传导区以及抗原结合元件(或部分或结构域；诸如scFv)。当CD28部分在ζ链部分与抗原结合元件之间时，可适当地包括CD28的跨膜和信号传导结构域(诸如SEQ ID NO:10的氨基酸残基114-220，US 7,446,190的SEQ ID NO:6中示出的完整序列；这些可包括如Genbank标识符NM_006139(序列版本1、2或3)中列出的CD28的以下部分：IEVMYPPPYLDNEKSNGTIIHVKGKHLCPSPLFPGPSKPFWVLVVVGGVLACYSLLVTVAFIIFWVRSKRSRLLHSDYMNMTPRRPGPTRKHYQPYAPPRDFAAYRS))(SEQ ID NO:42)。可替代地，当ζ序列位于CD28序列与抗原结合元件之间时，可单独使用CD28的细胞内结构域(诸如US 7,446,190的SEQ ID NO:9中列出的氨基序列)。因此，某些实施方案使用包含以下的CAR：(a)包含人CD3ζ链的胞内结构域的ζ链部分、(b)共刺激信号传导区和(c)抗原结合元件(或部分或结构域)，其中共刺激信号传导区包含由US 7,446,190的SEQ ID NO:6编码的氨基酸序列。

可替代地，可通过以下来协调共刺激：在所选择的抗原特异性T细胞中表达CAR以便在它们的天然αβTCR接合(例如通过专职抗原呈递细胞上的抗原)后被激活和扩增，并伴随共刺激。另外，可在免疫反应细胞上提供另外的工程化受体，以例如提高T细胞攻击的靶向和/或最小化副作用

举例来讲，但不限于Kochenderfer等人,(2009)J Immunother.32(7):689-702描述了抗CD19嵌合抗原受体(CAR)。FMC63-28Z CAR含有识别源自FMC63小鼠杂交瘤的CD19的单链可变区部分(scFv)(描述于Nicholson等人,(1997)Molecular Immunology 34:1157–1165中)、人CD28分子的一部分以及人TCR-ζ分子的细胞内成分。FMC63-CD828BBZ CAR含有FMC63 scFv、CD8分子的铰链区和跨膜区、CD28和4-1BB的细胞质部分以及TCR-ζ分子的细胞质组分。FMC63-28Z CAR中包括的CD28分子的确切序列对应于Genbank标识符NM_006139；所述序列包括从氨基酸序列IEVMYPPPY(SEQ ID NO:43)开始并一直延续到蛋白质羧基末端的所有氨基酸。为了编码载体的抗CD19 scFv组分，作者设计了DNA序列，所述DNA序列基于先前发布的CAR的一部分(Cooper等人,(2003)Blood 101:1637–1644)。此序列在框架内从5’端到3’端编码以下组分：XhoI位点、人粒细胞-巨噬细胞集落刺激因子(GM-CSF)受体α链信号序列、FMC63轻链可变区(如在Nicholson等人，同上中)、接头肽(如在Cooper等人，同上中)、FMC63重链可变区(如在Nicholson等人，同上中)和NotI位点。用XhoI和NotI消化编码此序列的质粒。为了形成MSGV-FMC63-28Z逆转录病毒载体，将编码FMC63 scFv的XhoI和NotI消化片段连接到编码MSGV逆转录病毒骨架的第二个XhoI和NotI消化片段(如在Hughes等人,(2005)Human Gene Therapy 16:457–472中)以及人CD28的细胞外部分、人CD28的整个跨膜和细胞质部分以及人TCR-ζ分子的细胞质部分中(如在Maher等人,2002)NatureBiotechnology 20:70–75中)。FMC63-28Z CAR包括在Kite Pharma,Inc.正在开发的KTE-C19(axicabtagene ciloleucel)抗CD19 CAR-T治疗产品中，用于治疗患有复发/难治性侵袭性B细胞非霍奇金淋巴瘤(NHL)的患者。因此，在某些实施方案中，旨在用于过继性细胞疗法的细胞(更特别地免疫反应细胞诸如T细胞)可表达如Kochenderfer等人(同上)描述的FMC63-28Z CAR。因此，在某些实施方案中，旨在用于过继性细胞疗法的细胞(更特别地免疫反应细胞诸如T细胞)可包含CAR，其包含特异性结合抗原的细胞外抗原结合元件(或部分或结构域；诸如scFv)、包含CD3ζ链的细胞内结构域的细胞内信号传导结构域和包含CD28的信号传导结构域的共刺激信号传导区。优选地，CD28氨基酸序列如Genbank标识符NM_006139(序列版本1、2或3)中所列出的，从氨基酸序列IEVMYPPPY(SEQ ID NO:43)开始并一直延续到蛋白质的羧基末端。所述序列在本文中再现：IEVMYPPPYLDNEKSNGTIIHVKGKHLCPSPLFPGPSKPFWVLVVVGGVLACYSLLVTVAFIIFWVRSKRSRLLHSDYMNMTPRRPGPTRKHYQPYAPPRDFAAYRS(SEQID NO:42)。优选地，抗原是CD19，更优选地，抗原结合元件是抗CD19 scFv，甚至更优选地是如Kochenderfer等人(同上)描述的抗CD19 scFv。

WO2015187528中进一步描述了另外的抗CD19 CAR。更特别地，以引用的方式并入本文的WO2015187528的实施例1和表1，证明了基于全人抗CD19单克隆抗体(47G4，如US20100104509中所述)和鼠抗CD19单克隆抗体(如Nicholson等人中所述并在上面进行了解释)的抗CD19 CAR的生成。公开了信号序列(人CD8-α或GM-CSF受体)、细胞外和跨膜区(人CD8-α)和细胞内T细胞信号传导结构域(CD28-CD3ζ；4-1BB-CD3ζ；CD27-CD3ζ；CD28-CD27-CD3ζ；4-1BB-CD27-CD3ζ；CD27-4-1BB-CD3ζ；CD28-CD27-FcεRIγ链；或CD28-FcεRIγ链)的各种组合。因此，在某些实施方案中，旨在用于过继性细胞疗法的细胞(更特别地免疫反应细胞诸如T细胞)可包含CAR，其包含特异性结合抗原的细胞外抗原结合元件、如WO2015187528的表1中列出的细胞外和跨膜区以及如WO2015187528的表1中列出的细胞内T细胞信号传导结构域。优选地，抗原是CD19，更优选地，抗原结合元件是抗CD19 scFv，甚至更优选地是如WO2015187528的实施例1中描述的小鼠或人抗CD19 scFv。在某些实施方案中，CAR包含如WO2015187528的表1中列出的SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12或SEQ ID NO:13的氨基酸序列，或基本上由所述氨基酸序列组成或由所述氨基酸序列组成。

举例来讲，但不限于，识别CD70抗原的嵌合抗原受体描述于WO2012058460A2中(另参见，Park等人,CD70 as a target for chimeric antigen receptor T cells in headand neck squamous cell carcinoma,Oral Oncol.2018年3月；78:145-150；和Jin等人,CD70,a novel target of CAR T-cell therapy for gliomas,Neuro Oncol.2018年1月10日；20(1):55-65)。CD70由弥漫性大B细胞和滤泡性淋巴瘤表达并且也由霍奇金淋巴瘤、华氏巨球蛋白血症(Waldenstrom's macrog lobulinemia)和多发性骨髓瘤的恶性细胞以及HTLV-1和EBV相关恶性肿瘤表达。(Agathanggelou等人Am.J.Pathol.1995；147:1152-1160；Hunter等人,Blood 2004；104:4881.26；Lens等人,J Immunol.2005；174:6212-6219；Baba等人,J Virol.2008；82:3843-3852.)另外，CD70由非血液恶性肿瘤诸如肾细胞癌和胶质母细胞瘤表达。(Junker等人,J Urol.2005；173:2150-2153；Chahlavi等人,Cancer Res2005；65:5428-5438)在生理学上，CD70表达是瞬时的，并且限于高度激活的T细胞、B细胞和树突状细胞的子集。

举例来讲，但不限于，已经描述了识别BCMA的嵌合抗原受体(参见例如，US20160046724A1；WO2016014789A2；WO2017211900A1；WO2015158671A1；US20180085444A1；WO2018028647A1；US20170283504A1；和WO2013154760A1)。

在某些实施方案中，除了如本文所述的CAR或外源性TCR之外，免疫细胞还可包含嵌合抑制性受体(抑制性CAR)，其特异性结合第二靶抗原并且能够在识别第二靶抗原时诱导对细胞的抑制性或免疫抑制性或阻遏性信号。在某些实施方案中，嵌合抑制性受体包含被构造成特异性结合靶抗原的细胞外抗原结合元件(或部分或结构域)、跨膜结构域和细胞内免疫抑制或阻遏信号传导结构域。在某些实施方案中，第二靶抗原是不在癌细胞或感染细胞表面上表达或者在癌细胞或感染细胞上表达下调的抗原。在某些实施方案中，第二靶抗原是MHCI类分子。在某些实施方案中，细胞内信号传导结构域包含免疫检查点分子的功能性信号传导部分，例如像PD-1或CTLA4。有利地，包含此种抑制性CAR降低了工程化免疫细胞攻击非靶(例如，非癌)组织的机会。

可替代地，可进一步修饰表达CAR的T细胞以减少或消除内源性TCR的表达，以便减少脱靶效应。减少或消除内源性TCR可减少脱靶效应并增加T细胞的有效性(U.S.9,181,527)。可使用多种方法产生稳定缺乏功能性TCR表达的T细胞。T细胞将整个T细胞受体作为复合物内化、分类和降解，其中静息T细胞的半衰期为约10小时，而经刺激的T细胞的半衰期为3小时(von Essen,M.等人2004.J.Immunol.173:384-393)。TCR复合物的正常功能需要构成TCR复合物的蛋白质的适当化学计量比。TCR功能还需要两种具有ITAM基序的功能性TCRζ蛋白。TCR在与其MHC肽配体接合后的激活需要在同一T细胞上接合几个TCR，所有TCR必须正确发出信号。因此，如果不能正确缔合或不能最佳地发出信号的蛋白质使TCR复合物失稳，则T细胞将不会被充分激活以开始细胞反应。

因此，在一些实施方案中，在原代T细胞中可使用RNA干扰(例如，shRNA、siRNA、miRNA等)、CRISPR或靶向编码具体TCR(例如，TCR-α和TCR-β)和/或CD3链的核酸的其他方法来消除TCR表达。通过阻断这些蛋白质中的一种或多种的表达，T细胞将不再产生TCR复合物的关键组分中的一种或多种，从而使TCR复合物失稳并阻止功能性TCR的细胞表面表达。

在一些情况下，CAR还可包含用于控制CAR的表达和/或激活的开关机制。例如，CAR可包含细胞外结构域、跨膜结构域和细胞内结构域，其中细胞外结构域包含靶特异性结合元件，所述靶特异性结合元件包含对靶细胞上的或由靶细胞表达的分子而非靶抗原具有特异性的标记、结合结构域或标签。在此类实施方案中，CAR的特异性由第二构建体提供，所述第二构建体包含靶抗原结合结构域(例如，scFv或对靶抗原以及CAR上的标记或标签都具有特异性的双特异性抗体)以及由CAR上的标记、结合结构域或标签识别或结合的结构域。参见例如，WO 2013/044225、WO 2016/000304、WO 2015/057834、WO 2015/057852、WO 2016/070061、US 9,233,125、US 2016/0129109。以此方式，可将表达CAR的T细胞施用于受试者，但CAR不能结合其靶抗原，直到施用包含抗原特异性结合结构域的第二组合物。

替代的开关机制包括CAR，其需要多聚化以激活它们的信号传导功能(参见例如，US 2015/0368342、US 2016/0175359、US 2015/0368360)和/或外源性信号，诸如小分子药物(US 2016/0166613,Yung等人,Science,2015)以引发T细胞反应。一些CAR还可包含“自杀开关”，以在治疗后诱导CAR T细胞的细胞死亡(Buddee等人,PLoS One,2013)或在与靶抗原结合后下调CAR的表达(WO 2016/011210)。

替代技术可用于转化靶免疫反应细胞，诸如原生质体融合、脂质转染、转染或电穿孔。可使用多种载体，诸如逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体、质粒或转座子，诸如睡美人转座子(参见美国专利号6,489,458；7,148,203；7,160,682；7,985,739；8,227,432)，可用于引入CAR，例如使用通过CD3ζ和CD28或CD137进行信号传导的第2代抗原特异性CAR。病毒载体可包括例如基于HIV、SV40、EBV、HSV或BPV的载体。

被靶向用于转化的细胞可包括例如T细胞、自然杀伤(NK)细胞、细胞毒性T淋巴细胞(CTL)、调控性T细胞、人胚胎干细胞、肿瘤浸润性淋巴细胞(TIL)或可从中分化出淋巴样细胞的多能干细胞。表达所需CAR的T细胞可例如通过与γ辐照的激活和增殖细胞(AaPC)共培养来选择，所述AaPC共表达癌症抗原和共刺激分子。工程化CART细胞可例如通过在AaPC上在可溶性因子(诸如IL-2和IL-21)的存在下共培养来扩增。例如，可进行这种扩增以提供记忆CAR+ T细胞(其可例如通过非酶数字阵列和/或多面板流式细胞术来测定)。以此方式，可提供对抗原携带肿瘤具有特异性细胞毒性活性(任选地与所需趋化因子诸如干扰素-γ的产生相结合)的CAR T细胞。这种CAR T细胞可例如用于动物模型，例如治疗肿瘤异种移植物。

在某些实施方案中，ACT包括共转移CD4+ Th1细胞和CD8+ CTL以诱导协同抗肿瘤反应(参见例如，Li等人，Adoptive cell therapy with CD4+ T helper 1 cells and CD8+ cytotoxic T cells enhances complete rejection of an established tumour,leading to generation of endogenous memory responses to non-targeted tumourepitopes.Clin Transl Immunology.2017年10月；6(10):e160)。

在某些实施方案中，将Th17细胞转移至有需要的受试者。据报道，Th17细胞比Th1细胞更能直接根除小鼠体内的黑色素瘤(Muranski P等人,Tumor-specific Th17-polarized cells eradicate large established melanoma.Blood.2008年7月15日；112(2):362-73；和Martin-Orozco N等人,T helper 17cells promote cytotoxic T cellactivation in tumor immunity.Immunity.2009年11月20日；31(5):787-98)。这些研究涉及过继性T细胞转移(ACT)治疗方法，所述方法利用表达TCR识别酪氨酸酶肿瘤抗原的CD4+T细胞。TCR的开发导致Th17群体离体快速扩增到大量以回输到自体荷瘤宿主中。

在某些实施方案中，ACT可包括基于自体iPSC的疫苗，诸如自体抗肿瘤疫苗中的辐照iPSC(参见例如，Kooreman,Nigel G.等人,Autologous iPSC-Based Vaccines ElicitAnti-tumor Responses In Vivo,Cell Stem Cell 22,1–13,2018,doi.org/10.1016/j.stem.2018.01.016)。

与受MHC限制的T细胞受体(TCR)不同，CAR可以潜在地结合任何细胞表面表达的抗原，并且因此可以更普遍地用于治疗患者(参见Irving等人,Engineering ChimericAntigen Receptor T-Cells for Racing in Solid Tumors:Don’t Forget the Fuel,Front.Immunol.,2017年4月3日,doi.org/10.3389/fimmu.2017.00267)。在某些实施方案中，在不存在内源性T细胞浸润(例如，由于异常的抗原加工和呈递)(这排除了TIL疗法和免疫检查点阻断的使用)的情况下，CAR T细胞的转移可用于治疗患者(参见例如，HinrichsCS,Rosenberg SA.Exploiting the curative potential of adoptive T-cell therapyfor cancer.Immunol Rev(2014)257(1):56–71.doi:10.1111/imr.12132)。

诸如前述的方法可适于提供治疗患有疾病诸如瘤形成的受试者和/或增加所述受试者存活的方法，例如通过施用有效量的包含结合选定抗原的抗原识别受体的免疫反应细胞，其中所述结合激活免疫反应细胞，从而治疗或预防疾病(诸如瘤形成、病原体感染、自身免疫病症或同种异体移植反应)。

在某些实施方案中，所述治疗可在以化学疗法(通常是环磷酰胺和氟达拉滨的组合)或放射疗法形式的淋巴消耗预处理之后施用。ACT的初步研究具有短暂的反应，并且转移的细胞在体内不会持续存在很长时间(Houot等人,T-cell-based immunotherapy:adoptive cell transfer and checkpoint inhibition.Cancer Immunol Res(2015)3(10):1115–22；和Kamta等人,Advancing Cancer Therapy with Present and EmergingImmuno-Oncology Approaches.Front.Oncol.(2017)7:64)。免疫抑制细胞(如Treg和MDSC)可通过与转移细胞竞争必要的细胞因子来减弱转移细胞的活性。不受理论的束缚，淋巴消耗预处理可消除抑制细胞，从而使TIL持续存在。

在一个实施方案中，可将所述治疗施用于正在进行免疫抑制治疗(例如，糖皮质激素治疗)的患者。由于编码此种免疫抑制剂受体的基因失活，可使细胞或细胞群对至少一种免疫抑制剂产生抗性。在某些实施方案中，免疫抑制治疗提供了患者体内免疫反应T细胞的选择和扩增。

在某些实施方案中，可在初级治疗(例如，手术或放射疗法)之前施用所述治疗以在初级治疗之前缩小肿瘤。在另一个实施方案中，可在初级治疗之后施用所述治疗以去除任何剩余的癌细胞。

在某些实施方案中，可在ACT之前和/或期间治疗性地靶向免疫代谢屏障，以增强对ACT或CAR T细胞疗法的反应并支持内源性免疫(参见例如，Irving等人,EngineeringChimeric Antigen Receptor T-Cells for Racing in Solid Tumors:Don’t Forget theFuel,Front.Immunol.,2017年4月3日,doi.org/10.3389/fimmu.2017.00267)。

如本文所公开的细胞或细胞群，诸如免疫系统细胞或细胞群，诸如更特别地免疫反应细胞或细胞群，可以任何方便的方式进行施用，包括通过气溶胶吸入、注射、摄取、输血、植入或移植。可将所述细胞或细胞群皮下、皮内、瘤内、淋巴结内(intranodally)、髓内、肌肉内、鞘内、通过静脉内或淋巴管内注射或腹膜内施用于患者。在一些实施方案中，所公开的CAR可被递送或施用到通过切除肿瘤组织形成的腔中(即腔内递送)或在切除之前直接被递送或施用到肿瘤中(即瘤内递送)。在一个实施方案中，本发明的细胞组合物优选通过静脉内注射施用。

所述细胞或细胞群的施用可包括施用104-109个细胞/kg体重，优选105至106个细胞/kg体重，包括所述范围内的所有整数值的细胞数。CAR T细胞疗法中的给药可例如涉及在有或没有淋巴消耗过程(例如使用环磷酰胺)的情况下施用106至109个细胞/kg。可以一个或多个剂量施用所述细胞或细胞群。在另一个实施方案中，有效量的细胞以单剂量施用。在另一个实施方案中，有效量的细胞在一段时间内以多于一个剂量施用。施用时间在主治医师的判断范围内，并取决于患者的临床病状。所述细胞或细胞群可从任何来源(诸如血库或供体)获得。虽然个体需求不同，但对于特定疾病或病状的给定细胞类型的有效量的最佳范围的确定在本领域技术范围内。有效量意指提供治疗或预防益处的量。施用的剂量将取决于受体的年龄、健康和体重、同时治疗的种类(如果有的话)、治疗频率和所需效果的性质。

在另一个实施方案中，肠胃外施用有效量的细胞或包含那些细胞的组合物。所述施用可以是静脉内施用。所述施用可通过在肿瘤内注射直接进行。

为了防止可能的不良反应，工程化免疫反应细胞可配备有转基因形式的转基因安全开关，其使得细胞容易暴露于具体信号。例如，单纯疱疹病毒胸苷激酶(TK)基因可以这种方式使用，例如通过在干细胞移植后引入用作供体淋巴细胞输注的同种异体T淋巴细胞中(Greco等人,Improving the safety of cell therapy with the TK-suicidegene.Front.Pharmacol.2015；6:95)。在此类细胞中，施用核苷前药诸如更昔洛韦(ganciclovir)或阿昔洛韦(acyclovir)会导致细胞死亡。替代的安全开关构建体包括例如通过施用小分子二聚体来触发的诱导型半胱天冬酶9，所述二聚体将两个非功能性icasp9分子结合在一起形成活性酶。已经描述了实施细胞增殖控制的多种替代方法(参见美国专利公布号20130071414；PCT专利公布WO2011146862；PCT专利公布WO2014011987；PCT专利公布WO2013040371；Zhou等人BLOOD,2014,123/25:3895–3905；Di Stasi等人,The NewEngland Journal of Medicine 2011；365:1673-1683；Sadelain M,The New EnglandJournal of Medicine 2011；365:1735-173；Ramos等人,Stem Cells 28(6):1107-15(2010))。

在过继性疗法的进一步优化中，基因组编辑可用于定制针对替代实现方式的免疫反应细胞，例如提供编辑的CAR T细胞(参见Poirot等人,2015,Multiplex genome editedT-cell manufacturing platform for"off-the-shelf"adoptive T-cellimmunotherapies,Cancer Res 75(18):3853；Ren等人,2017,Multiplex genome editingto generate universal CAR T cells resistant to PD1 inhibition,Clin CancerRes.2017年5月1日；23(9):2255-2266.doi:10.1158/1078-0432.CCR-16-1300.电子出版于2016年11月4日；Qasim等人,2017,Molecular remission of infant B-ALL afterinfusion of universal TALEN gene-edited CAR T cells,Sci Transl Med.2017年1月25日；9(374)；Legut等人,2018,CRISPR-mediated TCR replacement generates superioranticancer transgenic T cells.Blood,131(3),311-322；和Georgiadis等人,LongTerminal Repeat CRISPR-CAR-Coupled“Universal”T Cells Mediate Potent Anti-leukemic Effects,Molecular Therapy,In Press,Corrected Proof，可在线访问，2018年3月6日)。可使用如本文所述的任何CRISPR系统及其使用方法来编辑细胞。可通过本文所述的任何方法将组合物和系统递送至免疫细胞。在优选的实施方案中，离体编辑细胞并将其转移至有需要的受试者。可编辑免疫反应细胞、CAR T细胞或任何用于过继性细胞转移的细胞。例如可进行编辑以在细胞中的预选基因座(例如，TRAC基因座)处插入或敲入外源性基因，诸如编码CAR或TCR的外源性基因；消除潜在的同种异体反应性T细胞受体(TCR)或防止内源性TCR链与外源性TCR链之间的不适当配对，诸如敲除或敲低细胞中内源性TCR的表达；破坏细胞中化学治疗剂的靶标；阻断免疫检查点，诸如敲除或敲低细胞中免疫检查点蛋白或受体的表达；敲除或敲低细胞中其他一个或多个基因的表达，其表达减少或缺乏表达可增强使用所述细胞的过继性疗法的功效；敲除或敲低细胞中内源性基因的表达，所述内源性基因编码由外源性CAR或TCR靶向的抗原；敲除或敲低细胞中一种或多种MHC组成蛋白的表达；激活T细胞；调节细胞，使得细胞抵抗耗竭或功能障碍；和/或增加功能耗竭或功能障碍的CD8+ T细胞的分化和/或增殖(参见PCT专利公布：WO2013176915、WO2014059173、WO2014172606、WO2014184744和WO2014191128)。

在某些实施方案中，编辑可导致基因失活。通过使基因失活，旨在使目标基因不以功能性蛋白形式表达。在一个特定的实施方案中，所述系统特异性地催化一种靶向基因的切割，从而使所述靶向基因失活。引起的核酸链断裂通常通过同源重组或非同源末端连接(NHEJ)的不同机制进行修复。然而，NHEJ是不完善的修复过程，其通常会导致切割位点处的DNA序列发生变化。通过非同源末端连接(NHEJ)进行修复通常会导致小的插入或缺失(插入缺失)，并且可用于创建具体的基因敲除。可通过本领域众所周知的方法鉴定和/或选择其中已经发生切割诱导的诱变事件的细胞。在某些实施方案中，同源定向修复(HDR)用于同时使基因(例如，TRAC)失活，并且将内源性TCR或CAR插入灭活基因座中。

因此，在某些实施方案中，可编辑细胞，特别是旨在用于过继性细胞疗法的细胞，更特别是免疫反应细胞诸如T细胞，以在细胞中的预选基因座处插入或敲入外源性基因，诸如编码CAR或TCR的外源性基因。传统上，使用随机整合的载体将编码CAR或TCR的核酸分子转染或转导至细胞，根据整合的位点这可能导致克隆扩增、致癌转化、多样化的转基因表达和/或转基因的转录沉默。将转基因引导至细胞中的特定基因座可最小化或避免此类风险，并有利地提供细胞对转基因的均匀表达。非限制地，用于定向转基因整合的合适“安全港”基因座包括CCR5或AAVS1。同源定向修复(HDR)策略是已知的并在本说明书别处进行了描述，从而允许将转基因插入所需的基因座(例如，TRAC基因座)。

用于插入转基因(特别是CAR或外源性TCR转基因)的其他合适的基因座包括但不限于包含编码内源性T细胞受体成分的基因的基因座，诸如T细胞受体α基因座(TRA)或T细胞受体β基因座(TRB)，例如T细胞受体α恒定(TRAC)基因座、T细胞受体β恒定区1(TRBC1)基因座或T细胞受体β恒定区2(TRBC1)基因座。有利地，将转基因插入此类基因座可同时实现转基因的表达(可能由内源性启动子控制)和内源性TCR的敲除表达。Eyquem等人,(2017)Nature 543:113-117中例示了这种方法，其中作者使用CRISPR/Cas9基因编辑将编码CD19特异性CAR的DNA分子敲入内源性启动子下游的TRAC基因座中；通过CRISPR获得的CAR-T细胞在减少强直CAR信号传导和耗竭方面具有显著优势。

T细胞受体(TCR)是细胞表面受体，其参与T细胞激活以对抗原呈递作出反应。TCR通常由两条链α和β组成，它们组装形成异二聚体并与CD3转导亚基缔合形成存在于细胞表面上的T细胞受体复合物。TCR的每条α和β链由免疫球蛋白样N末端可变区(V)和恒定区(C)、疏水跨膜结构域和短细胞质区组成。至于免疫球蛋白分子，α和β链的可变区通过V(D)J重组产生，从而在T细胞群体中产生多种抗原特异性。然而，与识别完整抗原的免疫球蛋白不同，T细胞被与MHC分子缔合的加工肽片段激活，从而为T细胞的抗原识别引入额外的维度，称为MHC限制。通过T细胞受体识别供体与受体之间的MHC差异导致T细胞增殖和移植物抗宿主病(GVHD)的潜在发生。TCRα或TCRβ的失活可导致TCR从T细胞表面消除，从而防止同种异体抗原的识别并因此防止GVHD。然而，TCR破坏通常会导致CD3信号传导组分的消除，并改变T细胞进一步扩增的方式。

因此，在某些实施方案中，可编辑细胞，特别是旨在用于过继性细胞疗法的细胞，更特别是免疫反应细胞诸如T细胞，以敲除或敲低细胞中内源性TCR的表达。例如，可采用基于NHEJ或基于HDR的基因编辑方法来破坏内源性TCRα和/或β链基因。例如，一个或多个基因编辑系统，诸如一个或多个CRISPR/Cas系统，可被设计成靶向在β1与β2恒定区基因(TRBC1和TRBC2)之间保守的TCRβ链中发现的序列和/或靶向TCRα链的恒定区(TRAC)基因。

同种异体细胞被宿主免疫系统迅速排斥。已经证明，存在于未经辐照的血液产品中的同种异体白细胞将持续不超过5至6天(Boni,Muranski等人2008Blood 1；112(12):4746-54)。因此，为了防止同种异体细胞的排斥，通常必须在一定程度上抑制宿主的免疫系统。然而，在过继性细胞转移的情况下，使用免疫抑制药物也会对引入的治疗性T细胞产生不利影响。因此，为了在这些情况下有效地使用过继性免疫治疗方法，引入的细胞需要对免疫抑制治疗具有抗性。因此，在一个特定的实施方案中，本发明还包括修饰T细胞以使其对免疫抑制剂具有抗性的步骤，优选通过使编码免疫抑制剂的靶标的至少一种基因失活。免疫抑制剂是通过几种作用机制之一抑制免疫功能的剂。免疫抑制剂可以是但不限于钙调磷酸酶抑制剂、雷帕霉素的靶标、白细胞介素-2受体α链阻断剂、肌苷一磷酸脱氢酶的抑制剂、二氢叶酸还原酶的抑制剂、皮质类固醇或免疫抑制抗代谢物。本发明允许通过使T细胞中的免疫抑制剂的靶标失活来赋予T细胞对免疫疗法的免疫抑制抗性。作为非限制性实例，免疫抑制剂的靶标可以是免疫抑制剂的受体，诸如：CD52、糖皮质激素受体(GR)、FKBP家族基因成员和亲环素家族基因成员。

在某些实施方案中，可编辑细胞，特别是旨在用于过继性细胞疗法的细胞，更特别是免疫反应细胞诸如T细胞，以阻断免疫检查点，诸如以敲除或敲低细胞中免疫检查点蛋白或受体的表达。免疫检查点是减缓或停止免疫反应并防止免疫细胞不受控制的活动造成过度组织损伤的抑制性途径。在某些实施方案中，被靶向的免疫检查点是程序性死亡-1(PD-1或CD279)基因(PDCD1)。在其他实施方案中，被靶向的免疫检查点是细胞毒性T淋巴细胞相关抗原(CTLA-4)。在另外的实施方案中，被靶向的免疫检查点是CD28和CTLA4 Ig超家族的另一个成员，诸如BTLA、LAG3、ICOS、PDL1或KIR。在其他另外的实施方案中，被靶向的免疫检查点是TNFR超家族的成员，诸如CD40、OX40、CD137、GITR、CD27或TIM-3。

另外的免疫检查点包括含有Src同源2结构域的蛋白酪氨酸磷酸酶1(SHP-1)(Watson HA等人,SHP-1:the next checkpoint target for cancer immunotherapy？Biochem Soc Trans.2016年4月15日；44(2):356-62)。SHP-1是广泛表达的抑制性蛋白酪氨酸磷酸酶(PTP)。在T细胞中，它是抗原依赖性激活和增殖的负调控因子。它是一种细胞质蛋白，并且因此不适合抗体介导的疗法，但它在激活和增殖中的作用使其成为过继性转移策略(诸如嵌合抗原受体(CAR)T细胞)中遗传操纵的有吸引力的靶标。免疫检查点还可包括具有Ig和ITIM结构域(TIGIT/Vstm3/WUCAM/VSIG9)和VISTA的T细胞免疫受体(LeMercierI等人,(2015)Beyond CTLA-4and PD-1,the generation Z of negative checkpointregulators.Front.Immunol.6:418)。

国际专利公布号WO2014172606涉及使用MT1和/或MT2抑制剂来增加耗竭的CD8+ T细胞的增殖和/或活性并减少CD8+ T细胞耗竭(例如，减少功能耗竭或无反应的CD8+免疫细胞)。在某些实施方案中，金属硫蛋白通过在过继性转移的T细胞中的基因编辑被靶向。

在某些实施方案中，基因编辑的靶标可以是涉及免疫检查点蛋白表达的至少一个所靶向的基因座。此类靶标可包括但不限于CTLA4、PPP2CA、PPP2CB、PTPN6、PTPN22、PDCD1、ICOS(CD278)、PDL1、KIR、LAG3、HAVCR2、BTLA、CD160、TIGIT、CD96、CRTAM、LAIR1、SIGLEC7、SIGLEC9、CD244(2B4)、TNFRSF10B、TNFRSF10A、CASP8、CASP10、CASP3、CASP6、CASP7、FADD、FAS、TGFBRII、TGFRBRI、SMAD2、SMAD3、SMAD4、SMAD10、SKI、SKIL、TGIF1、IL10RA、IL10RB、HMOX2、IL6R、IL6ST、EIF2AK4、CSK、PAG1、SIT1、FOXP3、PRDM1、BATF、VISTA、GUCY1A2、GUCY1A3、GUCY1B2、GUCY1B3、MT1、MT2、CD40、OX40、CD137、GITR、CD27、SHP-1、TIM-3、CEACAM-1、CEACAM-3或CEACAM-5。在优选的实施方案中，靶向参涉及PD-1或CTLA-4基因表达的基因座。在其他优选的实施方案中，靶向基因的组合，诸如但不限于PD-1和TIGIT。

举例来讲，但不限于，WO2016196388涉及工程化T细胞，其包含(a)特异性结合抗原的遗传工程化抗原受体，所述受体可以是CAR；和(b)被破坏的编码PD-L1的基因；用于破坏编码PD-L1的基因的剂；和/或破坏编码PD-L1的基因，其中所述基因的破坏可由基因编辑核酸酶、锌指核酸酶(ZFN)、CRISPR/Cas9和/或TALEN介导。WO2015142675涉及包含CAR的免疫效应细胞与增加免疫效应细胞在癌症治疗中的功效的剂(诸如本文的组合物或系统)的组合，其中所述剂可抑制免疫抑制分子，诸如PD1、PD-L1、CTLA-4、TIM-3、LAG-3、VISTA、BTLA、TIGIT、LAIR1、CD160、2B4、TGFRβ、CEACAM-1、CEACAM-3或CEACAM-5。Ren等人,(2017)ClinCancer Res 23(9)2255-2266进行了CAR的慢病毒递送和同时靶向内源性TCR、β-2微球蛋白(B2M)和PD1的Cas9 mRNA和gRNA的电转移，以生成缺乏TCR、HLA I类分子和PD1的基因破坏的同种异体CAR T细胞。

在某些实施方案中，细胞可被工程化以表达CAR，其中细胞中甲基胞嘧啶双加氧酶基因(TET1、TET2和/或TET3)的表达和/或功能已经降低或消除，(诸如本文的组合物或系统)(例如，如WO201704916中所述)。

在某些实施方案中，可编辑细胞，特别是旨在用于过继性细胞疗法的细胞，更特别是免疫反应细胞诸如T细胞，以敲除或敲低细胞中内源性基因的表达，所述内源性基因编码外源性CAR或TCR靶向的抗原，从而降低靶向工程化细胞的可能性。在某些实施方案中，所靶向的抗原可以是一种或多种选自由以下组成的组的抗原：CD38、CD138、CS-1、CD33、CD26、CD30、CD53、CD92、CD100、CD148、CD150、CD200、CD261、CD262、CD362、人端粒酶逆转录酶(hTERT)、生存素、小鼠双分钟2同源物(MDM2)、细胞色素P450 1B1(CYP1B)、HER2/neu、威尔姆斯肿瘤基因1(WT1)、活素、甲胎蛋白(AFP)、癌胚抗原(CEA)、粘蛋白16(MUC16)、MUC1、前列腺特异性膜抗原(PSMA)、p53、细胞周期蛋白(D1)、B细胞成熟抗原(BCMA)、跨膜激活剂和CAML相互作用子(TACI)和B细胞激活因子受体(BAFF-R)(例如，如WO2016011210和WO2017011804中所述)。

在某些实施方案中，可编辑细胞，特别是旨在用于过继性细胞疗法的细胞，更特别是免疫反应细胞诸如T细胞，以敲除或敲低细胞中一种或多种MHC组成蛋白(诸如一种或多种HLA蛋白和/或β-2微球蛋白(B2M))的表达，由此可减少或避免受体免疫系统对非自体(例如同种异体)细胞的排斥。在优选的实施方案中，一种或多种HLA I类蛋白，诸如HLA-A、HLA-B和/或HLA-C和/或B2M可被敲除或敲低。优选地，B2M可被敲除或敲低。举例来讲，Ren等人,(2017)Clin Cancer Res 23(9)2255-2266进行了CAR的慢病毒递送和同时靶向内源性TCR、β-2微球蛋白(B2M)和PD1的Cas9 mRNA和gRNA的电转移，以生成缺乏TCR、HLA I类分子和PD1的基因破坏的同种异体CAR T细胞。

在其他实施方案中，编辑至少两个基因。基因对可包括但不限于PD1和TCRα、PD1和TCRβ、CTLA-4和TCRα、CTLA-4和TCRβ、LAG3和TCRα、LAG3和TCRβ、Tim3和TCRα、Tim3和TCRβ、BTLA和TCRα、BTLA和TCRβ、BY55和TCRα、BY55和TCRβ、TIGIT和TCRα、TIGIT和TCRβ、B7H5和TCRα、B7H5和TCRβ、LAIR1和TCRα、LAIR1和TCRβ、SIGLEC10和TCRα、SIGLEC10和TCRβ、2B4和TCRα、2B4和TCRβ、B2M和TCRα、B2M和TCRβ。

在某些实施方案中，可如本文教导的那样对细胞进行多重编辑(多重基因组编辑)以(1)敲除或敲低内源性TCR(例如，TRBC1、TRBC2和/或TRAC)的表达，(2)敲除或敲低免疫检查点蛋白或受体(例如，PD1、PD-L1和/或CTLA4)的表达；以及(3)敲除或敲低一种或多种MHC组成蛋白(例如，HLA-A、HLA-B和/或HLA-C和/或B2M，优选B2M)的表达。

无论是在对T细胞进行遗传修饰之前还是之后，T细胞通常都可使用如描述于例如以下中的方法来激活和扩增：美国专利6,352,694；6,534,055；6,905,680；5,858,358；6,887,466；6,905,681；7,144,575；7,232,566；7,175,843；5,883,223；6,905,874；6,797,514；6,867,041；和7,572,631。T细胞可在体外或体内扩增。

可使用本领域已知的任何方法获得免疫细胞。在一个实施方案中，同种异体T细胞可从健康受试者中获得。在一个实施方案中，分离出已浸润肿瘤的T细胞。手术期间可去除T细胞。在通过活检去除肿瘤组织后可分离T细胞。T细胞可通过本领域已知的任何方式分离。在一个实施方案中，通过单采术获得T细胞。在一个实施方案中，所述方法可包括通过本领域已知的任何合适的方法从肿瘤样品中获得大的T细胞群。例如，可通过将肿瘤样品解离成可从中选择具体的细胞群的细胞悬浮液而从肿瘤样品中获得大的T细胞群。获得大的T细胞群的合适方法可包括但不限于以下中的任一种或多种：将肿瘤机械解离(例如，切碎)、将肿瘤酶促解离(例如，消化)和抽吸(例如，用针)。

从肿瘤样品中获得的大的T细胞群可包含任何合适的T细胞类型。优选地，从肿瘤样品中获得的大的T细胞群包含肿瘤浸润淋巴细胞(TIL)。

可从任何哺乳动物中获得肿瘤样品。除非另有说明，否则如本文所用，术语“哺乳动物”是指任何哺乳动物，包括但不限于以下目的哺乳动物：兔形目(Logomorpha)，诸如兔子；食肉目(Carnivora)，包括猫科动物(猫)和犬科动物(狗)；偶蹄目(Artiodactyla)，包括牛科动物(奶牛)和猪科动物(猪)；或奇蹄目(Perssodactyla)，包括马科动物(马)。哺乳动物可以是非人灵长类动物，例如灵长目(Primates)、猿目(Ceboids)或猴目(Simoids)(猴)、或类人猿亚目(Anthropoids)(人和类人猿)。在一些实施方案中，哺乳动物可以是啮齿目(Rodentia)的哺乳动物，诸如小鼠和仓鼠。优选地，哺乳动物是非人灵长类动物或人。特别优选的哺乳动物是人。

可从多种来源，包括外周血单核细胞(PBMC)、骨髓、淋巴结组织、脾组织和肿瘤中获得T细胞。在本发明的某些实施方案中，可使用本领域技术人员已知的任何数量的技术(诸如Ficoll分离)从采集自受试者的单位血液中获得T细胞。在一个优选的实施方案中，通过单采术或白细胞单采术从个体的循环血液中获得细胞。单采术产物通常含有淋巴细胞，包括T细胞、单核细胞、粒细胞、B细胞、其他有核白细胞、红细胞和血小板。在一个实施方案中，可洗涤通过单采术采集的细胞以去除血浆部分，并且将细胞置于适当的缓冲液或培养基中以用于后续处理步骤。在本发明的一个实施方案中，用磷酸盐缓冲盐水(PBS)洗涤细胞。在一个替代的实施方案中，洗涤溶液缺乏钙并且可能缺乏镁或可能缺乏许多(如果不是全部的话)二价阳离子。在不存在钙的情况下，初始激活步骤导致激活放大。如本领域普通技术人员将容易理解的，可通过本领域技术人员已知的方法来完成洗涤步骤，诸如通过根据制造商的说明使用半自动“流通式”离心机(例如，Cobe 2991细胞处理器)。在洗涤之后，可将细胞重悬于多种生物相容性缓冲液中，例如像无Ca、无Mg的PBS。可替代地，可去除单采术样品的不需要的成分，并且将细胞直接重悬于培养基中。

在另一个实施方案中，通过裂解红细胞并消耗单核细胞(例如通过PERCOLL^TM梯度离心)从外周血淋巴细胞中分离T细胞。可通过阳性或阴性选择技术进一步分离T细胞的具体亚群，诸如CD28+、CD4+、CDC、CD45RA+和CD45RO+ T细胞。例如，在一个优选的实施方案中，通过与抗CD3/抗CD28(即3×28)缀合的珠(诸如

M-450 CD3/CD28 T或XCYTE DYNABEADS^TM)一起孵育足以用于所需T细胞的阳性选择的时间段来分离T细胞。在一个实施方案中，时间段为约30分钟。在另一实施方案中，时间段的范围为30分钟到36小时或更长，以及其间的所有整数值。在另一实施方案中，时间段为至少1、2、3、4、5或6小时。在又一优选的实施方案中，时间段为10至24小时。在一个优选的实施方案中，孵育时间段为24小时。为了从白血病患者中分离T细胞，使用较长的孵育时间(诸如24小时)可提高细胞产量。在与其他细胞类型相比T细胞很少的任何情况下，诸如在从肿瘤组织或免疫功能低下的个体中分离肿瘤浸润淋巴细胞(TIL)的情况下，可使用更长的孵育时间来分离T细胞。此外，使用更长的孵育时间可提高捕获CD8+ T细胞的效率。

可通过针对阴性选择细胞特有的表面标志物的抗体的组合来完成通过阴性选择富集T细胞群。优选的方法是经阴性磁性免疫粘附或流式细胞术进行细胞分选和/或选择，所述方法使用针对阴性选择的细胞上存在的细胞表面标志物的单克隆抗体的混合物。例如，为了通过阴性选择富集CD4+细胞，单克隆抗体混合物通常包括针对CD14、CD20、CD11b、CD16、HLA-DR和CD8的抗体。

此外，可通过多种方法从血液制剂中去除单核细胞群体(例如，CD14+细胞)，所述方法包括抗CD14包被的珠或柱，或利用这些细胞的吞噬活性来促进去除。因此，在一个实施方案中，本发明使用大小足以被吞噬性单核细胞吞噬的顺磁性粒子。在某些实施方案中，顺磁性粒子是可商购获得的珠，例如由Life Technologies以商品名Dynabeads^TM生产的那些。在一个实施方案中，通过用“无关”蛋白质(例如，血清蛋白或抗体)包被顺磁性粒子来去除其他非特异性细胞。无关蛋白质和抗体包括那些不特异性靶向待分离的T细胞的蛋白质和抗体或其片段。在某些实施方案中，无关珠包括包被有绵羊抗小鼠抗体、山羊抗小鼠抗体和人血清白蛋白的珠。

简而言之，这种单核细胞的消耗是通过以下进行的：将从全血、外周血或肿瘤中分离的T细胞与一种或多种无关的或非抗体偶联的顺磁性粒子以允许去除单核细胞的任何量(大约20:1的珠:细胞比率)一起在22至37摄氏度下预先孵育约30分钟至2小时，之后磁性去除附着至顺磁性粒子或吞噬了顺磁性粒子的细胞。可使用本领域可用的标准方法进行此种分离。例如，可使用任何磁性分离方法，包括多种可商购获得的磁性分离方法(例如，

磁性粒子浓缩器(DYNAL

))。可通过本领域普通技术人员已知的多种方法(包括流式细胞术分析CD14阳性细胞)在消耗前后进行监测，以保证必要的消耗。

为了通过阳性或阴性选择分离所需的细胞群，可改变细胞和表面(例如，粒子诸如珠)的浓度。在某些实施方案中，可能需要显著降低珠和细胞混合在一起的体积(即，增加细胞浓度)，以确保细胞和珠的最大接触。例如，在一个实施方案中，使用20亿个细胞/ml的浓度。在一个实施方案中，使用10亿个细胞/ml的浓度。在另一实施方案中，使用大于1亿个细胞/ml。在另一实施方案中，使用1000万、1500万、2000万、2500万、3000万、3500万、4000万、4500万或5000万个细胞/ml的细胞浓度。在又一实施方案中，使用7500万、8000万、8500万、9000万、9500万或1亿个细胞/ml的细胞浓度。在其他实施方案中，可使用1.25亿或1.5亿个细胞/ml的浓度。使用高浓度可导致提高的细胞产量、细胞激活和细胞扩增。此外，使用高细胞浓度允许更有效地捕获可能弱表达目标靶抗原的细胞，诸如CD28阴性T细胞，或捕获来自存在许多肿瘤细胞的样品(即白血病血液、肿瘤组织等)的细胞。此类细胞群可具有治疗价值并且将是希望获得的。例如，使用高浓度的细胞允许更有效地选择通常具有较弱CD28表达的CD8+ T细胞。

在一个相关的实施方案中，可能希望使用较低的细胞浓度。通过显著稀释T细胞和表面(例如，粒子诸如珠)的混合物，粒子与细胞之间的相互作用被最小化。这选择了表达大量所需抗原以与粒子结合的细胞。例如，CD4+ T细胞表达更高水平的CD28，并且在稀释浓度下比CD8+ T细胞更有效地被捕获。在一个实施方案中，使用的细胞浓度是5×106/ml。在其他实施方案中，使用的浓度可以是约1×105/ml至1×106/ml，以及两者之间的任何整数值。

T细胞也可被冷冻。不希望受理论的束缚，冷冻和随后的解冻步骤通过去除细胞群中的粒细胞和一定程度上的单核细胞而提供更均匀的产物。经洗涤步骤去除血浆和血小板之后，可将细胞悬浮在冷冻溶液中。许多冷冻溶液和参数在本领域中是已知的并且将在这种情况下有用，一种方法包括使用含有20％DMSO和8％人血清白蛋白的PBS或其他合适的细胞冷冻培养基，然后以每分钟1℃的速率将细胞冷冻至-80℃并储存在液氮储罐的气相中。可使用其他受控冷冻的方法以及立即在-20℃或在液氮中的不受控冷冻。

用于本发明的T细胞也可以是抗原特异性T细胞。例如，可使用肿瘤特异性T细胞。在某些实施方案中，抗原特异性T细胞可从目标患者，诸如患有癌症或感染性疾病的患者中分离。在一个实施方案中，确定受试者的新表位并分离对这些抗原具有特异性的T细胞。用于扩增的抗原特异性细胞也可使用本领域已知的任何数量的方法在体外生成，例如，如标题为Generation and Isolation of Antigen-Specific T Cells的美国专利公布号US20040224402、或美国专利号6,040,177中所述。用于本发明的抗原特异性细胞也可使用本领域已知的任何数量的方法生成，例如，如均由John Wiley&Sons,Inc.,Boston发布的MassCurrent Protocols in Immunology或Current Protocols in Cell Biology中所述。

在一个相关实施方案中，可能需要在一轮或两轮扩增之前或之后对抗原特异性细胞进行分选或以其他方式进行阳性选择(例如通过磁性选择)。可使用肽-MHC四聚体进行分选或阳性选择抗原特异性细胞(Altman等人,Science.1996Oct.4；274(5284):94-6)。在另一个实施方案中，使用了适应性四聚体技术方法(Andersen等人,2012 Nat Protoc.7:891-902)。四聚体受限于对利用基于先前假设的预测结合肽的需要，以及对具体HLA的限制。肽-MHC四聚体可使用本领域已知的技术生成并且可以用本文所述的任何目标MHC分子和任何目标抗原来制备。可使用本领域已知的多种测定法来鉴定在上下文中使用的具体表位。例如，可通过监测促进125I标记的β2-微球蛋白(β2m)并入MHC I类/β2m/肽异源三聚体复合物的能力来间接评估多肽与MHC I类结合的能力(参见Parker等人,J.Immunol.152:163,1994)。

在一个实施方案中，直接用表位特异性试剂标记细胞，以用于通过流式细胞术分离，之后表征表型和TCR。在一个实施方案中，通过与T细胞特异性抗体接触来分离T细胞。可使用多种可商购获得的细胞分选仪中的任一种对抗原特异性T细胞或通常本发明的任何细胞进行分选，所述细胞分选仪包括但不限于MoFlo分选仪(DakoCytomation,Fort Collins,Colo.)、FACSAria^TM、FACSArray^TM、FACSVantage^TM、BD^TM LSR II和FACSCalibur^TM(BDBiosciences,San Jose,Calif.)。

在一个优选的实施方案中，所述方法包括选择也表达CD3的细胞。所述方法可包括以任何合适的方式具体选择细胞。优选地，使用流式细胞术进行选择。可使用本领域已知的任何合适的方法进行流式细胞术。流式细胞术可采用任何合适的抗体和染色剂。优选地，选择抗体以使其特异性识别并结合所选择的特定生物标志物。例如，可分别使用抗CD3、抗CD8、抗TIM-3、抗LAG-3、抗4-lBB或抗PD-1抗体对CD3、CD8、TIM-3、LAG-3、4-1BB或PD-1进行特异性选择。一种或多种抗体可与珠(例如，磁珠)或荧光染料缀合。优选地，流式细胞术是荧光激活的细胞分选(FACS)。可基于对自体肿瘤的反应性来选择在T细胞上表达的TCR。另外，可使用专利公布号WO2014133567和WO2014133568中描述的方法基于标志物选择对肿瘤有反应性的T细胞，所述专利以引用的方式整体并入本文。另外，可基于CD107a的表面表达选择激活的T细胞。

在本发明的一个实施方案中，所述方法还包括扩大富集的细胞群中T细胞的数量。此类方法描述于美国专利号8,637,307中，并且以引用的方式整体并入本文。T细胞的数量可增加至少约3倍(或4、5、6、7、8或9倍)，更优选至少约10倍(或20、30、40、50、60、70、80或90倍)，更优选至少约100倍，更优选至少约1,000倍，或最优选至少约100,000倍。可使用本领域已知的任何合适的方法来扩大T细胞的数量。扩大细胞数量的示例性方法描述于专利公布号WO 2003057171、美国专利号8,034,334和美国专利申请公布号2012/0244133中，其各自以引用的方式并入本文。

在一个实施方案中，可通过分离T细胞并随后刺激或激活，之后进一步扩增来进行离体T细胞扩增。在本发明的一个实施方案中，T细胞可被单一剂刺激或激活。在另一个实施方案中，用两种剂刺激或激活T细胞，一种诱导主要信号，并且另一种诱导共刺激信号。可用于刺激单一信号或刺激主要信号的配体和刺激第二信号的辅助分子可以可溶形式使用。配体可附着在细胞表面、附着在工程化多价信号平台(EMSP)上或固定在表面上。在一个优选的实施方案中，将第一剂和第二剂共同固定在表面上，例如珠或细胞上。在一个实施方案中，提供主要激活信号的分子可以是CD3配体，并且共刺激分子可以是CD28配体或4-1BB配体。

在某些实施方案中，可如WO2015120096中所述通过包括以下步骤的方法制造包含CAR或外源性TCR的T细胞：富集从供体受试者获得的淋巴细胞群；用一种或多种T细胞刺激剂刺激淋巴细胞群以产生激活的T细胞群，其中所述刺激是在使用无血清培养基的封闭系统中进行的；使用单周期转导用包含编码CAR或TCR的核酸分子的病毒载体转导激活的T细胞群以产生转导的T细胞群，其中所述转导是在使用无血清培养基的封闭系统中进行的；以及将转导的T细胞群扩增预定时间以产生工程化T细胞群，其中所述扩增是在使用无血清培养基的封闭系统中进行的。在某些实施方案中，可如WO2015120096中所述通过包括以下步骤的方法制造包含CAR或外源性TCR的T细胞：获得淋巴细胞群；用一种或多种刺激剂刺激淋巴细胞群以产生激活的T细胞群，其中所述刺激是在使用无血清培养基的封闭系统中进行的；使用至少一个周期转导用包含编码CAR或TCR的核酸分子的病毒载体转导激活的T细胞群以产生转导的T细胞群，其中所述转导是在使用无血清培养基的封闭系统中进行的；以及将转导的T细胞群扩增以产生工程化T细胞群，其中所述扩增是在使用无血清培养基的封闭系统中进行的。扩增转导的T细胞群的预定时间可以是3天。从富集淋巴细胞群到产生工程化T细胞的时间可以是6天。封闭系统可以是封闭袋系统。还提供了包含可通过所述方法获得或通过所述方法获得的CAR或外源性TCR的T细胞群，以及包含此类细胞的药物组合物。

在某些实施方案中，T细胞体外成熟或分化可通过如WO2017070395中描述的方法延迟或抑制，所述方法包括将来自需要T细胞疗法的受试者的一个或多个T细胞与AKT抑制剂(例如像WO2017070395的权利要求8中公开的一种AKT抑制剂或者两种或更多种AKT抑制剂的组合)以及外源性白细胞介素7(IL-7)和外源性白细胞介素15(IL-15)中的至少一种接触，相对于在不存在AKT抑制剂的情况下培养的T细胞的T细胞功能而言，其中所得T细胞表现出延迟的成熟或分化，且/或其中所得T细胞表现出改善的T细胞功能(例如像增加的T细胞增殖；增加的细胞因子产生；和/或增加的溶细胞活性)。

在某些实施方案中，需要T细胞疗法的患者可通过如WO2016191756中所述的方法进行调理，所述方法包括向患者施用200mg/m2/天与2000mg/m2/天之间剂量的环磷酰胺和20mg/m2/天与900mg/m²/天之间剂量的氟达拉滨。

使用RNA编辑治疗和预防疾病

在一些实施方案中，可使用本文所述的组合物或系统来治疗或预防疾病、病症和/病状或其症状。在一些实施方案中，本文所述的组合物、系统是核酸编辑系统。在一些实施方案中，使用本文所述的组合物或系统进行治疗或预防可具有免疫原性低于核酸编辑组合物、系统的优势，并且不受病毒载体包装大小限制的阻碍。此外，由于影响是瞬时的，因此影响可随时间推移得到更好的控制，并且可能是可逆的。因此，与基于核酸编辑的预防和治疗相比，它们造成永久性有害影响的风险更小。

可通过使用本文别处所述的能够进行核酸修饰的组合物、系统修饰其序列来治疗或预防任何涉及功能障碍的核酸分子的疾病，其中所述功能障碍是核酸序列突变的结果。在一些实施方案中，可使用能够进行RNA修饰的组合物、系统来治疗或预防的疾病可以是表3至表4中列出的那些中的一种或多种或其组合。在一些实施方案中，涉及疾病的基因的编码序列大于病毒载体系统，特别是AAV载体系统的包装能力。

现已在体外和体内证明了RNA编辑用于与囊性纤维化、杜兴氏肌营养不良、霍勒综合征和鸟氨酸转氨甲酰酶(OTC)缺乏等相关的基因的致病性突变的潜力。参见例如，Katrekar等人Nat.Methods.2019.16:239-242；Montieel-Gonzalez等人2013.PNASUSA.110:18285-18290；Sinnamon等人PNAS USA 2017；Wettengel等人Curr.GeneTher.2018,18:31-39；Qu等人BioRxiv.2019.,605972；和Fry等人2020.Int.J.Mol.Sci.12:777，其以引用的方式并入，就如同它们在此整体表达一样，并且其教义鉴于本文的描述可适于本文所述的CRISPR-Cas系统。

在一些实施方案中，所述疾病是遗传性视网膜退行性疾病。在一些实施方案中，其转录物可使用本文所述的能够进行与遗传性视网膜退行性相关的核酸修饰的组合物、系统进行修饰并且其编码序列太大而不能包装在单个AAV中的基因可以是ABC4、USH2A、CEP290、MYO7A、EYS和CDH23。

疾病和病状的模型

在一个方面，本发明提供了一种对与真核生物体或非人生物体中的基因组基因座相关联的疾病进行建模的方法，所述方法包括操纵所述基因组基因座的编码、非编码或调控元件内的靶序列，包括递送包含病毒载体系统的非天然存在或工程化的组合物，所述病毒载体系统包括一种或多种可操作地编码用于其表达的组合物的病毒载体，其中所述组合物包含粒子递送系统或如上述实施方案中任一项所述的递送系统或病毒粒子或如上述实施方案中任一项所述的细胞。

在一个方面，本发明提供了一种生成模型真核细胞的方法，所述模型真核细胞可包括一个或多个突变的疾病基因和/或感染性微生物。在一些实施方案中，疾病基因是与患有或发生疾病的风险增加相关联的任何基因。在一些实施方案中，所述方法包括(a)将一种或多种载体引入真核细胞，其中所述一种或多种载体包含组合物、系统和/或其组分和/或能够驱动组合物、系统和/或其组分的表达的载体或载体系统，其包括但不限于：任选地连接到tracr配对序列的指导序列、tracr序列、一种或多种Cas效应物及其组合以及(b)允许组合物、系统或复合物结合一种或多种靶多核苷酸，例如以实现所述疾病基因内靶多核苷酸的切割、切口或其他修饰，其中组合物、系统或复合物由与以下序列复合的一种或多种CRISPR-Cas效应物构成：(1)一种或多种与靶多核苷酸内的靶序列杂交的指导序列，和任选的(2)与tracr序列杂交的tracr配对序列，从而产生包含一个或多个突变疾病基因的模型真核细胞。因此，在一些实施方案中，组合物、系统含有用于并驱动以下中的一种或多种的表达的核酸分子：Cas效应物、与tracr配对序列连接的指导序列、以及tracr序列和/或同源重组模板和/或稳定化配体(如果Cas效应物具有失稳结构域)。在一些实施方案中，所述切割包括通过Cas效应物在靶序列的位置处切割一条或两条链。在一些实施方案中，切口包括通过Cas效应物在靶序列的位置处对一条或两条链进行切口。在一些实施方案中，所述切割或切口导致靶多核苷酸的修饰的转录。在一些实施方案中，修饰导致靶多核苷酸的转录减少。在一些实施方案中，所述方法还包括通过与外源性模板多核苷酸同源重组来修复所述切割或切口的靶多核苷酸，其中所述修复导致突变，包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代。在一些实施方案中，所述突变导致包含靶序列的基因的蛋白质表达中的一个或多个氨基酸变化。

建模的疾病可以是具有遗传或表观遗传组分的任何疾病。在一些实施方案中，建模的疾病可以是如本文别处讨论的任何疾病，包括但不限于本文的表3和表4中列出的任何疾病。

原位疾病检测

组合物、系统和/或其组分可用于检测的诊断方法，诸如CASFISH(参见例如，Deng等人2015.PNAS USA 112(38):11870-11875)、CRISPR-Live FISH(参见例如，Wang等人2020.Science；365(6459):1301-1305)、sm-FISH(Lee和Jefcoate.2017.Front.Endocrinol.doi.org/10.3389/fendo.2017.00289)、序列FISH CRISPRainbow(Ma等人NatBiotechnol,34(2016),第528-530页)、CRISPR-Sirius(Nat Methods,15(2018),第928-931页)、Casilio(Cheng等人Cell Res,26(2016),第254-257页)、基于Halo标签的基因组基因座可视化技术(例如，Deng等人2015.PNAS USA 112(38):11870-11875；Knight等人,Science,350(2015),第823-826页)、基于RNA适体的方法(例如，Ma等人,J Cell Biol,214(2016),第529-537页)、基于分子信标的方法(例如，Zhao等人Biomaterials,100(2016),第172-183页；Wu等人Nucleic Acids Res(2018))、基于量子点的系统(例如，Ma等人AnalChem,89(2017),第12896-12901页)、多重方法(例如，Ma等人,Proc Natl Acad Sci U S A,112(2015),第3002-3007页；Fu等人Nat Commun,7(2016),第11707页；Ma等人NatBiotechnol,34(2016),第528-530页；Shao等人Nucleic Acids Res,44(2016),文章e86)；Wang等人Sci Rep,6(2016),第26857页)、

和其他基于原位CRISPR杂交的方法(例如，Chen等人Cell,155(2013),第1479-1491页；Gu等人Science,359(2018),第1050-1055页；Tanebaum等人Cell,159(2014),第635-646页；Ye等人Protein Cell,8(2017),第853-855页；Chen等人Nat Commun,9(2018),第5065页；Shao等人ACS Synth Biol(2017)；Fu等人NatCommun,7(2016),第11707页；Shao等人Nucleic Acids Res,44(2016),文章e86；Wang等人,Sci Rep,6(2016),第26857页)，所有文献均以引用的方式并入本文，就如同它们整体表达一样，并且其教义鉴于本文的描述可适于本文所述的组合物、系统及其组分。

在一些实施方案中，组合物、系统或其组分可用于检测方法，诸如本文所述的原位检测方法。在一些实施方案中，组合物、系统或其组分可包括本文所述的催化失活的Cas效应物，并且在检测方法，诸如荧光原位杂交(FISH)或本文所述的任何其他检测方法中使用此系统。在一些实施方案中，缺乏产生DNA双链断裂能力的失活Cas效应物可与标志物(诸如荧光蛋白，诸如增强型绿色荧光蛋白(eEGFP))融合，并与小指导RNA共表达以在体内靶向臂间(pericentric)、中心和端粒重复序列。dCas效应物或其系统可用于可视化人基因组中的重复序列和个别基因。标记的dCas效应物及其组合物、系统的此类新应用在使细胞成像和研究功能性核结构方面可能很重要，尤其是在核体积小或3-D结构复杂的情况下。

细胞选择

在一些实施方案中，本文所述的组合物、系统和/或其组分可用于筛选和/或选择细胞的方法中。在一些实施方案中，基于组合物、系统的筛选/选择方法可用于鉴定细胞群中的患病细胞。在一些实施方案中，细胞的选择导致细胞中的修饰，使得所选择的细胞死亡。以此方式，可鉴定出患病细胞，并将其从健康细胞群中去除。在一些实施方案中，患病细胞可以是癌细胞、癌前细胞、病毒或其他致病生物体感染的细胞，或其他异常细胞。在一些实施方案中，修饰可在待选择的细胞中赋予另一种可检测的变化(例如，功能变化和/或基因组条形码)，这有助于选择所需细胞。在一些实施方案中，可使用阴性选择方案来获得所需的细胞群。在这些实施方案中，对待选择的细胞进行修饰，因此可基于它们的死亡或基于赋予细胞的可检测变化的鉴定或分选而将其从细胞群中去除。因此，在这些实施方案中，选择后的剩余细胞是所需的细胞群。

在一些实施方案中，选择含有多核苷酸修饰的一种或多种细胞的方法可包括：将一种或多种组合物、系统和/或其组分和/或载体或载体系统引入细胞中，其中所述组合物、系统和/或其组分和/或载体或载体系统含有和/或能够表达以下中的一种或多种：Cas效应物、任选地连接到tracr配对序列的指导序列、tracr序列和编辑模板；其中，例如，所表达的物质是在组合物、系统、载体或载体系统内的并通过组合物、系统、载体或载体系统在体内表达的，且/或编辑模板包含消除Cas效应物切割的一个或多个突变；允许编辑模板与待选择的细胞中的靶多核苷酸同源重组；允许组合物、系统或复合物结合靶多核苷酸以实现所述基因内的靶多核苷酸的切割，其中AAV-CAST复合物包含与以下序列复合的Cas效应物：(1)与靶多核苷酸内的靶序列杂交的指导序列，和(2)与tracr序列杂交的tracr配对序列，其中复合物与靶多核苷酸的结合诱导细胞死亡或赋予细胞一些其他可检测的变化，从而允许选择已引入一个或多个突变的一个或多个细胞。在一些实施方案中，待选择的细胞可以是真核细胞。在一些实施方案中，待选择的细胞可以是原核细胞。通过本文的方法选择具体细胞可在不需要选择标志物或可包括反选择系统的两步法的情况下进行。

治疗剂的开发

本文所述的组合物、系统及其组分可用于开发基于CRISPR-Cas和基于非CRISPR-Cas的生物活性剂，诸如小分子治疗剂。因此，本文描述了用于开发调节与疾病和/或疾病基因相关联的细胞功能和/或信号传导事件的生物活性剂的方法。在一些实施方案中，所述方法包括(a)使测试化合物与患病细胞和/或含有疾病基因细胞的细胞接触；以及(b)检测读数的变化，所述变化指示细胞信号传导事件或与所述疾病或疾病基因相关联的其他细胞功能的减少或增加，从而开发调节所述细胞信号传导事件或与所述疾病基因相关联的其他功能的所述生物活性剂。在一些实施方案中，患病细胞是本文别处所述的模型细胞。在一些实施方案中，患病细胞是从需要治疗的受试者中分离的患病细胞。在一些实施方案中，测试化合物是小分子剂。在一些实施方案中，测试化合物是小分子剂。在一些实施方案中，测试化合物是生物分子剂。

在一些实施方案中，所述方法涉及开发基于本文所述的组合物、系统的治疗剂。在特定的实施方案中，治疗剂包含能够与目标靶序列杂交的Cas效应物和/或指导RNA。在特定的实施方案中，治疗剂是载体或载体系统，其可含有a)第一调控元件，其与编码Cas效应蛋白的核苷酸序列可操作地连接；和b)第二调控元件，其与编码一种或多种核酸分子的一个或多个核苷酸序列可操作地连接，所述核酸分子包括包含指导序列、正向重复序列的指导RNA；其中组分(a)和(b)位于相同或不同的载体上。在特定的实施方案中，生物活性剂是包含递送系统的组合物，所述递送系统被可操作地构造成将组合物、系统或其组分和/或含有或编码所述组分的一种或多种多核苷酸序列、载体或载体系统递送到细胞中，并且能够与本文的组合物和系统的组分形成复合物，并且其中所述复合物在细胞中是可操作的。在一些实施方案中，复合物可包括如本文所述的Cas效应蛋白、包含指导序列的指导RNA和正向重复序列。在任何此类组合物中，递送系统可以是酵母系统、脂质转染系统、显微注射系统、基因枪系统、病毒体、脂质体、免疫脂质体、聚阳离子、脂质:核酸缀合物或人工病毒粒子、或如本文所述的任何其他系统。在特定的实施方案中，递送是通过粒子、纳米粒子、脂质或细胞穿透肽(CPP)进行的。

本文还描述了用于开发或设计组合物，系统，任选地基于组合物、系统的疗法或治疗剂的方法，所述方法包括(a)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，并且从所述选择的靶位点中子选择靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，或(b)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，或选择目标(治疗性)基因座gRNA靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，并且任选地估计治疗或以其他方式调节或操纵群体所需的(子)选择的靶位点的数量，并且任选地验证个体受试者的一个或多个(子)选择的靶位点，任选地设计识别所述(子)选择的靶位点中的一个或多个的一个或多个gRNA。

在一些实施方案中，用于开发或设计用于在组合物，系统，任选地基于组合物、系统的疗法或治疗剂中使用的gRNA的方法可包括(a)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，并且从所述选择的靶位点中子选择靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，或(b)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，或选择目标(治疗性)基因座gRNA靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，并且任选地估计治疗或以其他方式调节或操纵群体所需的(子)选择的靶位点的数量，任选地验证个体受试者的一个或多个(子)选择的靶位点，任选地设计识别所述(子)选择的靶位点中的一个或多个的一个或多个gRNA。

在一些实施方案中，用于开发或设计群体中的组合物，系统，任选地基于组合物、系统的疗法或治疗剂的方法可包括(a)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，并且从所述选择的靶位点中子选择靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，或(b)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，或选择目标(治疗性)基因座gRNA靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，并且任选地估计治疗或以其他方式调节或操纵群体所需的(子)选择的靶位点的数量，任选地验证个体受试者的一个或多个(子)选择的靶位点，任选地设计识别所述(子)选择的靶位点中的一个或多个的一个或多个gRNA。

在一些实施方案中，用于开发或设计用于在群体中的组合物，系统，任选地基于组合物、系统的疗法或治疗剂中使用的gRNA的方法可包括(a)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，并且从所述选择的靶位点中子选择靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，或(b)选择目标(治疗性)基因座gRNA靶位点，其中所述靶位点在群体中具有最小的序列变异，或选择目标(治疗性)基因座gRNA靶位点，其中针对所述靶位点的gRNA识别所述群体中最小数量的脱靶位点，并且任选地估计治疗或以其他方式调节或操纵群体所需的(子)选择的靶位点的数量，任选地验证个体受试者的一个或多个(子)选择的靶位点，任选地设计识别所述(子)选择的靶位点中的一个或多个的一个或多个gRNA。

在一些实施方案中，用于开发或设计任选地在群体中的组合物，系统，诸如基于组合物、系统的疗法或治疗剂；或用于开发或设计用于在任选地在群体中的组合物，系统，任选地基于组合物、系统的疗法或治疗剂中使用的gRNA的方法可包括：为靶群体中的一个或多个基因座选择一组靶序列，其中靶序列不含在靶群体中出现高于阈值等位基因频率的变体(即铂靶序列)；从所述选择的(铂)靶序列中去除具有高频脱靶候选物(相对于组中的其他(铂)靶标)的任何靶序列，以定义最终靶序列组；基于最终靶序列组制备一种或多种(诸如一组)组合物、系统，任选地其中制备的CRISP-Cas系统的数量(至少部分地)基于靶群体的大小。

在某些实施方案中，脱靶候选物/脱靶、PAM限制性、靶切割效率或效应蛋白特异性使用基于测序的双链断裂(DSB)检测测定来鉴定或确定，诸如本文别处所述。在某些实施方案中，脱靶候选物/脱靶使用基于测序的双链断裂(DSB)检测测定来鉴定或确定，诸如本文别处所述。在某些实施方案中，脱靶或脱靶候选物具有至少1个、优选1至3个错配或(远端)PAM错配，诸如1个或多个，诸如1、2、3或更多个(远端)PAM错配。在某些实施方案中，基于测序的DSB检测测定包括用包含引物结合位点的衔接子标记DSB的位点，用条形码或唯一分子标识符或其组合标记DSB的位点，如本文别处所述。

应当理解，gRNA的指导序列与靶位点100％互补，即不包含与靶位点的任何错配。将进一步理解的是，gRNA对(脱)靶位点的“识别”以组合物、系统、功能为前提，即只有当gRNA与(脱)靶位点的结合导致组合物、系统、活性(诸如诱导单链或双链DNA切割、转录调节等)时，gRNA才能识别(脱)靶位点。

在某些实施方案中，在群体中具有最小序列变异的靶位点的特征在于在至少99％、优选至少99.9％、更优选至少99.99％的群体中不存在序列变异。在某些实施方案中，优化靶位置包括选择在至少99％、优选至少99.9％、更优选至少99.99％的群体中不存在序列变异的靶序列或基因座。这些靶标在本文别处也称为“铂靶标”。在某些实施方案中，所述群体包括至少1000个个体，诸如至少5000个个体，诸如至少10000个个体，诸如至少50000个个体。

在某些实施方案中，脱靶位点的特征在于脱靶位点与gRNA之间的至少一个错配。在某些实施方案中，脱靶位点的特征在于脱靶位点与gRNA之间的至多五个、优选至多四个、更优选至多三个错配。在某些实施方案中，脱靶位点的特征在于脱靶位点与gRNA之间的至少一个错配以及脱靶位点与gRNA之间的至多五个、优选至多四个、更优选至多三个错配。

在某些实施方案中，针对所述群体中的高频单倍型确定所述群体中的所述脱靶位点的最小数量。在某些实施方案中，针对所述群体中的脱靶位点基因座的高频单倍型确定所述群体中的所述脱靶位点的最小数量。在某些实施方案中，针对所述群体中的靶位点基因座的高频单倍型确定所述群体中所述脱靶位点的最小数量。在某些实施方案中，高频单倍型的特征在于在至少0.1％的群体中出现。

在某些实施方案中，基于低频序列变异，诸如在大规模测序数据集中捕获的低频序列变异，估计治疗群体所需的(子)选择的靶位点的数量。在某些实施方案中，估计治疗给定大小的群体所需的(子)选择的靶位点的数量。

在某些实施方案中，所述方法还包括获得待治疗受试者的基因组测序数据；以及用选自一组组合物、系统的组合物、系统治疗受试者，其中选择的组合物、系统(至少部分地)是基于个体的基因组测序数据的。在某些实施方案中，((子)选择的)靶标通过基因组测序，优选全基因组测序来验证。

在某些实施方案中，如本文所述的靶序列或基因座基于一个或多个参数的优化来(进一步)选择，所述参数诸如PAM类型(天然的或修饰的)、PAM核苷酸含量、PAM长度、靶序列长度、PAM限制性、靶切割效率以及靶序列在基因、基因座或其他基因组区域内的位置。优化方法在本文别处更详细地讨论。

在某些实施方案中，如本文所述的靶序列或基因座基于靶基因座位置、靶长度、靶特异性和PAM特征中的一个或多个的优化来(进一步)选择。如本文所用，PAM特征可包括例如PAM序列、PAM长度和/或PAM GC含量。在某些实施方案中，优化PAM特征包括优化PAM的核苷酸含量。在某些实施方案中，优化PAM的核苷酸含量是选择具有最大化一个或多个靶基因座中的丰度、最小化突变频率或两者的基序的PAM。例如，可通过选择没有CpG或具有低或最少CpG的PAM序列来实现最小化突变频率。

在某些实施方案中，组合物、系统组中的每个组合物、系统的效应蛋白基于选自由以下组成的组的一个或多个参数的优化来选择：效应蛋白大小、效应蛋白进入高染色质可及性区域的能力、跨基因组靶标的均匀酶活性程度、表观遗传耐受性、错配/凸起(budge)耐受性、效应蛋白特异性、效应蛋白稳定性或半衰期、效应蛋白免疫原性或毒性。优化方法在本文别处更详细地讨论。

系统的优化

本发明的方法可包括优化与组合物、系统和/或其功能相关联的选定参数或变量，如本文别处进一步描述的。如本文所述的方法中的组合物、系统的优化可取决于靶标(诸如一个或多个治疗靶标)，组合物、系统的模式或类型，组合物、系统、组分的调节(诸如基于组合物、系统的治疗靶标调节)、修饰或操纵以及递送。根据基因型和/或表型结果，可选择一个或多个靶标。例如，可根据(遗传)疾病病因学或所需治疗结果来选择一个或多个治疗靶标。(治疗)靶标可以是单个基因、基因座或其他基因组位点，或者可以是多个基因、基因座或其他基因组位点。如本领域已知的，单个基因、基因座或其他基因组位点可被靶向多于一次，诸如通过使用多个gRNA。

组合物和/或系统，诸如基于CRISPR-Cas或CAST系统的疗法或治疗剂的活性可涉及靶标破坏，诸如靶标突变，诸如导致基因敲除。组合物和/或系统，诸如基于CRISPR-Cas或CAST系统的疗法或治疗剂的活性可涉及特定靶位点的替换，诸如导致靶标校正。基于CRISPR-Cas或CAST系统的疗法或治疗剂可涉及去除特定靶位点，诸如导致靶标缺失。组合物和/或系统，诸如基于CRISPR-Cas或CAST系统的疗法或治疗剂的活性可涉及靶位点功能的调节，诸如靶位点活性或可及性，导致例如(转录和/或表观遗传)基因或基因组区域激活或者基因或基因组区域沉默。技术人员将理解，靶位点功能的调节可涉及CRISPR效应物突变(例如像产生催化失活的CRISPR效应物)和/或功能化(例如像CRISPR效应物与异源功能性结构域(诸如转录激活子或阻遏子)的融合)，如本文别处所述。

因此，在一个方面，本发明涉及一种如本文所述的方法，其包括选择一个或多个(治疗)靶标，选择组合物和/或系统的一个或多个功能，以及优化与CRISPR-Cas或CAST系统和/或其功能相关联的选定参数或变量。在一个相关方面，本发明涉及一种如本文所述的方法，其包括(a)选择一个或多个(治疗)靶基因座，(b)选择一种或多种CRISPR-Cas系统功能，(c)任选地选择一种或多种递送模式，以及制备、开发或设计基于步骤(a)至(c)选择的CRISPR-Cas系统或CAST。

在某些实施方案中，组合物和/或系统的功能包括基因组突变。在某些实施方案中，组合物和/或系统的功能包括单个基因组突变。在某些实施方案中，组合物和/或系统功能的功能包括多个基因组突变。在某些实施方案中，组合物和/或系统的功能包括基因敲除。在某些实施方案中，组合物和/或系统的功能包括单个基因敲除。在某些实施方案中，组合物和/或系统的功能包括多个基因敲除。在某些实施方案中，组合物和/或系统的功能包括基因校正。在某些实施方案中，组合物和/或系统的功能包括单个基因校正。在某些实施方案中，组合物和/或系统的功能包括多个基因校正。在某些实施方案中，组合物和/或系统的功能包括基因组区域校正。在某些实施方案中，组合物和/或系统的功能包括单个基因组区域校正。在某些实施方案中，组合物和/或系统的功能包括多个基因组区域校正。在某些实施方案中，组合物和/或系统的功能包括基因缺失。在某些实施方案中，组合物和/或系统的功能包括单个基因缺失。在某些实施方案中，组合物和/或系统的功能包括多个基因缺失。在某些实施方案中，组合物和/或系统的功能包括基因组区域缺失。在某些实施方案中，组合物和/或系统的功能包括单个基因组区域缺失。在某些实施方案中，组合物和/或系统的功能包括多个基因组区域缺失。在某些实施方案中，组合物和/或系统的功能包括调节基因或基因组区域功能。在某些实施方案中，组合物和/或系统的功能包括调节单个基因或基因组区域功能。在某些实施方案中，组合物和/或系统的功能包括调节多个基因或基因组区域功能。在某些实施方案中，组合物和/或系统的功能包括基因或基因组区域功能，诸如基因或基因组区域活性。在某些实施方案中，组合物和/或系统的功能包括单个基因或基因组区域功能，诸如基因或基因组区域活性。在某些实施方案中，组合物和/或系统的功能包括多个基因或基因组区域功能，诸如基因或基因组区域活性。在某些实施方案中，组合物和/或系统的功能包括调节基因活性或可及性，任选地导致转录和/或表观遗传基因或基因组区域激活或者基因或基因组区域沉默。在某些实施方案中，组合物和/或系统的功能包括调节单个基因活性或可及性，任选地导致转录和/或表观遗传基因或基因组区域激活或者基因或基因组区域沉默。在某些实施方案中，组合物和/或系统的功能包括调节多个基因活性或可及性，任选地导致转录和/或表观遗传基因或基因组区域激活或者基因或基因组区域沉默。

如本文所述的方法中的选定参数或变量的优化可导致优化或改进系统，诸如基于CISPR-Cas或CAST系统的疗法或治疗剂、特异性、功效和/或安全性。在某些实施方案中，在如本文所述的本发明方法中考虑、选择或优化以下参数或变量中的一个或多个：Cas蛋白变构相互作用、Cas蛋白功能性结构域和功能性结构域相互作用、CRISPR效应物特异性、gRNA特异性、CRISPR-Cas复合物特异性、PAM限制性、PAM类型(天然的或修饰的)、PAM核苷酸含量、PAM长度、CRISPR效应物活性、gRNA活性、CRISPR-Cas复合物活性、靶切割效率、靶位点选择、靶序列长度、效应蛋白进入高染色质可及性区域的能力、基因组靶标间均匀酶活性的程度、表观遗传耐受性、错配/凸起耐受性、CRISPR效应物稳定性、CRISPR效应mRNA稳定性、gRNA稳定性、CRISPR-Cas或CAST复合物稳定性、CRISPR效应蛋白或mRNA免疫原性或毒性、gRNA免疫原性或毒性、CRISPR-Cas复合物免疫原性或毒性、CRISPR效应蛋白或mRNA剂量或滴度、gRNA剂量或滴度、CRISPR-Cas或CAST复合物剂量或滴度、CRISPR效应蛋白大小、CRISPR效应物表达水平、gRNA表达水平、CRISPR-Cas或CAST复合物表达水平、CRISPR效应物时空表达、gRNA时空表达、CRISPR-Cas或CAST复合物时空表达。

举例来讲，但不限于，参数或变量优化可如下实现。CRISPR效应物特异性可通过选择最具特异性的CRISPR效应物来优化。这可例如通过选择最具特异性的CRISPR效应物直系同源物或通过增加特异性的特定CRISPR效应物突变来实现。gRNA特异性可通过选择最具特异性的gRNA来优化。这可例如通过选择具有低同源性的gRNA(即与脱靶位点具有至少一个或优选多个，诸如至少2个、或优选至少3个错配)来实现。可通过增加如上所述的CRISPR效应物特异性和/或gRNA特异性来优化CRISPR-Cas复合物特异性。PAM限制性可通过选择具有最具限制性的PAM识别的CRISPR效应物来优化。这可例如通过选择具有更具限制性的PAM识别的CRISPR效应物直系同源物或通过增加或改变PAM限制性的具体CRISPR效应物突变来实现。可例如通过选择适当的CRISPR效应物，诸如识别所需PAM类型的适当CRISPR效应物来优化PAM类型。CRISPR效应物或PAM类型可以是天然存在的，或者可例如基于具有改变的PAM识别或PAM识别库的CRISPR效应物突变体对其进行优化。可例如通过选择适当的CRISPR效应物，诸如识别所需PAM核苷酸含量的适当CRISPR效应物来优化PAM核苷酸含量。CRISPR效应物或PAM类型可以是天然存在的，或者可例如基于具有改变的PAM识别或PAM识别库的CRISPR效应物突变体对其进行优化。可例如通过选择适当的CRISPR效应物，诸如识别所需PAM核苷酸长度的适当CRISPR效应物来优化PAM长度。CRISPR效应物或PAM类型可以是天然存在的，或者可例如基于具有改变的PAM识别或PAM识别库的CRISPR效应物突变体对其进行优化。

可例如通过选择适当的CRISPR效应物，诸如识别所需靶标或靶序列核苷酸长度的适当CRISPR效应物来优化靶标长度或靶序列长度。可替代地或另外地，可通过提供长度偏离通常与CRISPR效应物(诸如天然存在的CRISPR效应物)相关联的靶(序列)长度的靶标来优化靶(序列)长度。CRISPR效应物或靶(序列)长度可以是天然存在的，或者可例如基于具有改变的靶(序列)长度识别或靶(序列)长度识别库的CRISPR效应物突变体对其进行优化。例如，增加或减少靶(序列)长度可能影响靶标识别和/或脱靶识别。CRISPR效应物活性可通过选择最具活性的CRISPR效应物来优化。这可例如通过选择最具活性的CRISPR效应物直系同源物或通过增加活性的具体CRISPR效应物突变来实现。CRISPR效应蛋白进入高染色质可及性区域的能力可通过选择适当的CRISPR效应物或其突变体来优化，并且可考虑CRISPR效应物的大小、电荷或其他维度变量等。均匀CRISPR效应物活性的程度可通过选择适当的CRISPR效应物或其突变体来优化，并且可考虑CRISPR效应物特异性和/或活性、PAM特异性、靶标长度、错配耐受性、表观遗传耐受性、CRISPR效应物和/或gRNA稳定性和/或半衰期、CRISPR效应物和/或gRNA免疫原性和/或毒性等。gRNA活性可通过选择最具活性的gRNA来优化。在一些实施方案中，这可通过RNA修饰增加gRNA稳定性来实现。可通过增加如上所述的CRISPR效应物活性和/或gRNA活性来优化CRISPR-Cas复合物活性。

靶位点选择可通过选择靶位点在基因、基因座或其他基因组区域内的最佳位置来优化。靶位点选择可通过优化靶标位置来优化，包括选择具有变异性低的基因、基因座或其他基因组区域的靶序列。这可例如通过选择早期和/或保守外显子或结构域(即在群体中具有低变异性，诸如多态性)中的靶位点来实现。

在某些实施方案中，优化靶(序列)长度包括选择5与25个核苷酸之间的一个或多个靶基因座中的靶序列。在某些实施方案中，靶序列是20个核苷酸。

在某些实施方案中，优化靶特异性包括选择最小化脱靶候选物的靶基因座。

在一些实施方案中，可通过脱靶效应的最小化(例如，与靶标相比具有1至5、1至4或优选1至3个错配和/或具有一个或多个PAM错配诸如远端PAM错配的脱靶)优选还考虑群体中的变异性，来选择靶位点，。可通过选择具有适当半衰期(诸如优选地短半衰期同时仍然能够保持足够的活性)的CRISPR效应物来优化CRISPR效应物稳定性。在一些实施方案中，这可通过选择具有具体半衰期的适当CRISPR效应物直系同源物或通过影响半衰期或稳定性的具体CRISPR效应物突变或修饰(诸如包含(例如融合)稳定化或去稳定化结构域或序列)来实现。CRISPR效应mRNA稳定性可通过增加或降低CRISPR效应mRNA稳定性来优化。在一些实施方案中，这可通过mRNA修饰增加或降低CRISPR效应mRNA稳定性来实现。gRNA稳定性可通过增加或降低gRNA稳定性来优化。在一些实施方案中，这可通过RNA修饰增加或降低gRNA稳定性来实现。CRISPR-Cas或CAST复合物稳定性可通过如上所述增加或降低CRISPR效应物稳定性和/或gRNA稳定性来优化。CRISPR效应蛋白或mRNA免疫原性或毒性可通过降低CRISPR效应蛋白或mRNA免疫原性或毒性来优化。在一些实施方案中，这可通过mRNA或蛋白质修饰来实现。类似地，在基于DNA的表达系统的情况下，DNA免疫原性或毒性可能会降低。gRNA免疫原性或毒性可通过降低gRNA免疫原性或毒性来优化。在一些实施方案中，这可通过gRNA修饰来实现。类似地，在基于DNA的表达系统的情况下，DNA免疫原性或毒性可能会降低。CRISPR-Cas或CAST复合物免疫原性或毒性可通过如上所述降低CRISPR效应物免疫原性或毒性和/或gRNA免疫原性或毒性，或通过选择免疫原性或毒性最小的CRISPR效应物/gRNA组合来优化。类似地，在基于DNA的表达系统的情况下，DNA免疫原性或毒性可能会降低。CRISPR效应蛋白或mRNA剂量或滴度可通过选择剂量或滴度以最小化毒性和/或最大化特异性和/或功效来优化。gRNA剂量或滴度可通过选择剂量或滴度以最小化毒性和/或最大化特异性和/或功效来优化。CRISPR-Cas或CAST复合物剂量或滴度可通过选择剂量或滴度以最小化毒性和/或最大化特异性和/或功效来优化。CRISPR效应蛋白大小可通过选择最小的蛋白质大小以提高递送效率(特别是对于病毒介导的递送)来优化。CRISPR效应物、gRNA或CRISPR-Cas或CAST复合物表达水平可通过限制(或延长)表达持续时间和/或限制(或增加)表达水平来优化。这可例如通过以下方式来实现：使用自失活组合物、系统(诸如包括自靶向(例如，CRISPR效应物靶向)gRNA)、通过使用具有有限表达持续时间的病毒载体、通过使用用于低(或高)表达水平的适当启动子、通过将针对个别CRISP-Cas或CAST系统组分的不同递送方法(诸如病毒介导的CRISPR效应物编码核酸的递送)与非病毒介导的gRNA的递送结合，或病毒介导的gRNA的递送与非病毒介导的CRISPR效应蛋白或mRNA的递送结合。CRISPR效应物、gRNA或CRISPR-Cas或CAST复合物时空表达可通过适当选择条件和/或诱导表达系统(包括可控CRISPR效应物活性，任选地失稳的CRISPR效应物和/或分裂CRISPR效应物和/或细胞或组织特异性表达系统)来优化。

在一个方面，本发明涉及一种如本文所述的方法，其包括选择一个或多个(治疗性)靶标、选择组合物和/或系统的功能、选择CRISPR-Cas系统递送模式、选择CRISPR-Cas或CAST系统递送媒介物或表达系统，以及优化与CRISPR-Cas系统和/或其功能相关联的选定参数或变量，任选地其中所述参数或变量是选自以下中的一个或多个：CRISPR效应物特异性、gRNA特异性、CRISPR-Cas或CAST复合物特异性、PAM限制性、PAM类型(天然的或修饰的)、PAM核苷酸含量、PAM长度、CRISPR效应物活性、gRNA活性、CRISPR-Cas或CAST复合物活性、靶切割效率、靶位点选择、靶序列长度、效应蛋白进入高染色质可及性区域的能力、基因组靶标间均匀酶活性的程度、表观遗传耐受性、错配/凸起耐受性、CRISPR效应物稳定性、CRISPR效应物mRNA稳定性、gRNA稳定性、CRISPR-Cas或CAST复合物稳定性、CRISPR效应蛋白或mRNA免疫原性或毒性、gRNA免疫原性或毒性、CRISPR-Cas复合物免疫原性或毒性、CRISPR效应蛋白或mRNA剂量或滴度、gRNA剂量或滴度、CRISPR-Cas或CAST复合物剂量或滴度、CRISPR效应蛋白大小、CRISPR效应物表达水平、gRNA或CAST表达水平、CRISPR-Cas复合物表达水平、CRISPR效应物时空表达、gRNA时空表达、CRISPR-Cas或CAST复合物时空表达。

在一个方面，本发明涉及一种如本文所述的方法，其包括选择一个或多个(治疗性)靶标、选择组合物和/或系统的一种或多种功能、选择一种或多种CRISPR-Cas或CAST系统递送模式、选择一种或多种递送媒介物或表达系统，以及优化与CRISPR-Cas或CAST系统和/或其功能相关联的选定参数或变量，其中对特异性、功效和/或安全性进行优化，并且任选地其中优化特异性包括优化选自以下的一个或多个参数或变量：CRISPR效应物特异性、gRNA特异性、CRISPR-Cas或CAST复合物特异性、PAM限制性、PAM类型(天然的或修饰的)、PAM核苷酸含量、PAM长度，其中优化功效包括优化选自以下的一个或多个参数或变量：CRISPR效应物活性、gRNA活性、CRISPR-Cas或CAST复合物活性、靶切割效率、靶位点选择、靶序列长度、CRISPR效应蛋白大小、效应蛋白进入高染色质可及性区域的能力、基因组靶标间均匀酶活性的程度、表观遗传耐受性、错配/凸起耐受性，并且其中优化安全性包括优化选自以下的一个或多个参数或变量：CRISPR效应物稳定性、CRISPR效应mRNA稳定性、gRNA稳定性、CRISPR-Cas或CAST复合物稳定性、CRISPR效应蛋白或mRNA免疫原性或毒性、gRNA免疫原性或毒性、CRISPR-Cas或CAST复合物免疫原性或毒性、CRISPR效应蛋白或mRNA剂量或滴度、gRNA剂量或滴度、CRISPR-Cas或CAST复合物剂量或滴度、CRISPR效应物表达水平、gRNA表达水平、CRISPR-Cas或CAST复合物表达水平、CRISPR效应物时空表达、gRNA时空表达、CRISPR-Cas或CAST复合物时空表达。

在一个方面，本发明涉及一种如本文所述的方法，其包括任选地选择一个或多个(治疗性)靶标、任选地选择组合物和/或系统的一种或多种功能、任选地选择一种或多种递送模式、任选地选择一种或多种递送媒介物或表达系统，以及优化与系统和/或其功能相关联的选定参数或变量，其中对特异性、功效和/或安全性进行优化，并且任选地其中优化特异性包括优化选自以下的一个或多个参数或变量：CRISPR效应物特异性、gRNA特异性、CRISPR-Cas或CAST复合物特异性、PAM限制性、PAM类型(天然的或修饰的)、PAM核苷酸含量、PAM长度，其中优化功效包括优化选自以下的一个或多个参数或变量：CRISPR效应物活性、gRNA活性、CRISPR-Cas或CAST复合物活性、靶切割效率、靶位点选择、靶序列长度、CRISPR效应蛋白大小、效应蛋白进入高染色质可及性区域的能力、基因组靶标间均匀酶活性的程度、表观遗传耐受性、错配/凸起耐受性，并且其中优化安全性包括优化选自以下的一个或多个参数或变量：CRISPR效应物稳定性、CRISPR效应mRNA稳定性、gRNA稳定性、CRISPR-Cas复合物稳定性、CRISPR效应蛋白或mRNA免疫原性或毒性、gRNA免疫原性或毒性、CRISPR-Cas复合物免疫原性或毒性、CRISPR效应蛋白或mRNA剂量或滴度、gRNA剂量或滴度、CRISPR-Cas或CAST复合物剂量或滴度、CRISPR效应物表达水平、gRNA表达水平、CRISPR-Cas或CAST复合物表达水平、CRISPR效应物时空表达、gRNA时空表达、CRISPR-Cas复合物时空表达。

在一个方面，本发明涉及一种如本文所述的方法，其包括优化与系统和/或其功能相关联的选定参数或变量，其中对特异性、功效和/或安全性进行优化，并且任选地其中优化特异性包括优化选自以下的一个或多个参数或变量：CRISPR效应物特异性、gRNA特异性、CRISPR-Cas或CAST复合物特异性、PAM限制性、PAM类型(天然的或修饰的)、PAM核苷酸含量、PAM长度，其中优化功效包括优化选自以下的一个或多个参数或变量：CRISPR效应物活性、gRNA活性、CRISPR-Cas或CAST复合物活性、靶切割效率、靶位点选择、靶序列长度、CRISPR效应蛋白大小、效应蛋白进入高染色质可及性区域的能力、基因组靶标间均匀酶活性的程度、表观遗传耐受性、错配/凸起耐受性，并且其中优化安全性包括优化选自以下的一个或多个参数或变量：CRISPR效应物稳定性、CRISPR效应mRNA稳定性、gRNA稳定性、CRISPR-Cas复合物稳定性、CRISPR效应蛋白或mRNA免疫原性或毒性、gRNA免疫原性或毒性、CRISPR-Cas或CAST复合物免疫原性或毒性、CRISPR效应蛋白或mRNA剂量或滴度、gRNA剂量或滴度、CRISPR-Cas或CAST复合物剂量或滴度、CRISPR效应物表达水平、gRNA表达水平、CRISPR-Cas或CAST复合物表达水平、CRISPR效应物时空表达、gRNA时空表达、CRISPR-Cas或CAST复合物时空表达。

应当理解，待优化的参数或变量以及优化的性质可取决于(治疗性)靶标、组合物和/或系统的功能、系统递送模式和/或CRISPR-Cas系统递送媒介物或表达系统。

在一个方面，本发明涉及一种如本文所述的方法，其包括以群体水平优化gRNA特异性。优选地，所述优化gRNA特异性包括最小化群体中的gRNA靶位点序列变异和/或最小化群体中的gRNA脱靶发生率。

在一些实施方案中，优化可导致选择天然存在的或修饰的CRISPR-Cas效应物。在一些实施方案中，优化可导致选择具有核酸酶、切口酶、脱氨酶、转座酶和/或具有失活或消除的一种或多种效应物功能的CRISPR-Cas效应物。在一些实施方案中，优化PAM特异性可包括选择具有修饰的PAM特异性的CRISPR-Cas效应物。在一些实施方案中，优化可包括选择具有最小尺寸的CRISPR-Cas效应物。在某些实施方案中，优化效应物蛋白稳定性包括选择具有短半衰期同时保持足够活性的效应蛋白，诸如通过选择具有具体半衰期或稳定性的适当CRISPR效应物直系同源物。在某些实施方案中，优化免疫原性或毒性包括通过蛋白质修饰最小化效应蛋白免疫原性或毒性。在某些实施方案中，优化功能特异性包括选择对指导RNA与一个或多个靶基因座之间的错配和/或凸起的耐受性降低的蛋白质效应物。

在某些实施方案中，优化功效包括优化整体效率、表观遗传耐受性或两者。在某些实施方案中，使整体效率最大化包括选择在具有不同染色质复杂性的靶基因座上具有均匀酶活性的效应蛋白，选择酶活性限于开放染色质可及性区域的效应蛋白。在某些实施方案中，染色质可及性使用ATAC-seq或DNA邻近连接测定中的一种或多种来测量。在某些实施方案中，优化表观遗传耐受性包括优化甲基化耐受性、表观遗传标记竞争或两者。在某些实施方案中，优化甲基化耐受性包括选择修饰甲基化的DNA的效应蛋白。在某些实施方案中，优化表观遗传耐受性包括选择不能修饰染色体沉默区域的效应蛋白，选择能够修饰染色体沉默区域的效应蛋白，或选择未富集表观遗传标志物的靶基因座

在某些实施方案中，选择优化的指导RNA包括优化gRNA稳定性、gRNA免疫原性或两者，或如本文别处所述的其他gRNA相关参数或变量。

在某些实施方案中，优化gRNA稳定性和/或gRNA免疫原性包括RNA修饰，或如本文别处所述的其他gRNA相关参数或变量。在某些实施方案中，修饰包括从gRNA的靶互补区的3’端去除1-3个核苷酸。在某些实施方案中，修饰包括延伸的gRNA和/或反式RNA/DNA元件，其在gRNA中创建稳定的结构，所述结构在脱靶基因座的靶标处与gRNA碱基配对竞争；或延伸的gRNA与靶序列之间的互补核苷酸，或两者。

在某些实施方案中，递送模式包括递送gRNA和/或CRISPR效应蛋白、递送gRNA和/或CRISPR效应mRNA、或递送gRNA和/或CRISPR效应物作为基于DNA的表达系统。在某些实施方案中，递送模式还包括从由以下组成的组中选择递送媒介物和/或表达系统：脂质体、脂质粒子、纳米粒子、基因枪或基于病毒的表达/递送系统。在某些实施方案中，表达是时空表达，其通过选择条件和/或诱导表达系统(包括可控CRISPR效应物活性，任选地失稳的CRISPR效应物和/或分裂CRISPR效应物和/或细胞或组织特异性表达系统)来优化。

如本文所述的方法还可涉及选择递送模式。在某些实施方案中，gRNA(和tracr，如果需要并且在需要时，任选地作为sgRNA提供)和/或CRISPR效应蛋白被递送或将被递送。在某些实施方案中，gRNA(和tracr，如果需要并且在需要时，任选地作为sgRNA提供)和/或CRISPR效应mRNA被递送或将被递送。在某些实施方案中，在基于DNA的表达系统中提供的gRNA(和tracr，如果需要并且在需要时，任选地作为sgRNA提供)和/或CRISPR效应物被递送或将被递送。在某些实施方案中，个别系统组分的递送包括上述递送模式的组合。在某些实施方案中，递送包括递送gRNA和/或CRISPR效应蛋白、递送gRNA和/或CRISPR效应mRNA、或递送gRNA和/或CRISPR效应物作为基于DNA的表达系统。

如本文所述的方法还可涉及选择CRISPR-Cas系统递送媒介物和/或表达系统。递送媒介物和表达系统在本文别处描述。举例来讲，核酸和/或蛋白质的递送媒介物包括纳米粒子、脂质体等。对于DNA的递送媒介物，诸如基于DNA的表达系统，包括例如基因枪、基于病毒的载体系统(例如，腺病毒、AAV、慢病毒)等。技术人员将理解，递送模式以及递送媒介物或表达系统的选择可取决于例如待靶向的细胞或组织。在某些实施方案中，用于递送组合物、系统或其组分的递送媒介物和/或表达系统包括脂质体、脂质粒子、纳米粒子、基因枪或基于病毒的表达/递送系统。

治疗性应用的考虑因素

基因组编辑疗法中的一个考虑因素是选择序列特异性核酸酶，诸如Cas(例如，Cas9和/或Cas12)核酸酶的变体。每种核酸酶变体都可具有自己独特的优势和劣势，其中许多必须在治疗的背景下加以平衡，以最大化治疗益处。为了使具体的编辑疗法有效，必须在靶细胞群中实现足够高水平的修饰以逆转疾病症状。这种治疗性修饰“阈值”由治疗后经编辑的细胞的适应度和逆转症状必需的基因产物的量决定。关于适应度，相对于未经编辑的细胞，编辑为经处理的细胞创造了三种潜在结果：适应度增加、不变或降低。在适应度增加的情况下，校正的细胞可能能够相对于其患病的对应物进行扩增以介导治疗。在这种情况下，在经编辑的细胞具有选择性优势的情况下，即使是少量经编辑的细胞也可通过扩增进行扩增，从而为患者提供治疗益处。在经编辑的细胞的适应度没有变化的情况下，可以保证增加治疗性修饰阈值。因此，治疗疾病可能需要显著更高水平的编辑，其中相对于其中编辑增加了靶细胞的适应度的疾病而言，编辑创造了不变的适应度优势。如果编辑会造成适应度劣势，就如同恢复癌细胞中肿瘤抑制基因的功能一样，那么经修饰的细胞将与其患病的对应物竞争，从而导致治疗的益处相对于编辑率而言较低。这可通过补充疗法来克服，以增加经编辑的细胞相对于患病的对应物的效力和/或适应度。

除了细胞适应度之外，治疗疾病必需的基因产物的量也可以影响可治疗或预防疾病或其症状的治疗性基因组编辑的最低水平。在基因产物水平的微小变化可导致临床结果显著变化的情况下，治疗性基因组编辑的最低水平相对于需要基因产物水平的较大变化以获得临床相关反应的情况而言较低。在一些实施方案中，治疗性基因组编辑的最低水平可以在0.1％至1％、1％-5％、5％-10％、10％-15％、15％-20％、20％-25％、25％-30％、30％-35％、35％-40％、40％-45％、45％-50％或50％-55％的范围内。因此，在基因产物水平的微小变化可影响临床结果的情况下，则对于经编辑的细胞具有适应度优势的疾病，是基因组编辑疗法的理想靶标，因为治疗性修饰阈值低到足以允许很高的成功机会。

NHEJ和HDR DSB修复的活性可能因细胞类型和细胞状态而变化。NHEJ不受细胞周期的高度调控，并且跨细胞类型有效，从而允许在可接近的靶细胞群中发生高水平的基因破坏。相比之下，HDR主要在S/G2期期间发挥作用，并且因此仅限于活跃分裂的细胞，从而限制了需要对有丝分裂细胞进行精确基因组修饰的治疗[Ciccia,A.和Elledge,S.J.Molecular cell 40,179-204(2010)；Chapman,J.R.等人Molecular cell 47,497-510(2012)]。

通过HDR进行校正的效率可由所靶向的基因座的表观遗传状态或序列，或使用的具体修复模板配置(单链与双链的长与短同源臂)来控制[Hacein-Bey-Abina,S.等人TheNew England journal of medicine 346,1185-1193(2002)；Gaspar,H.B.等人Lancet364,2181-2187(2004)；Beumer,K.J.等人G3(2013)]。NHEJ和HDR机制在靶细胞中的相对活性也可影响基因校正效率，因为这些途径可能竞争解决DSB[Beumer,K.J.等人Proceedingsof the National Academy of Sciences of the United States of America 105,19821-19826(2008)]。HDR还带来了NHEJ策略所没有的递送挑战，因为它使用核酸酶和修复模板的同时递送。因此，在设计、优化和/或选择基于CRISPR-Cas的治疗剂时，可记住这些差异，如本文别处更详细描述的。

基于CRISPR-Cas或CAST的多核苷酸修饰应用可包括蛋白质、小RNA分子和/或修复模板的组合，并且在一些实施方案中，可使这些多个部分的递送比例如传统小分子治疗剂显著更具挑战性。已经开发了用于递送组合物、系统及其组分的两种主要策略：离体和体内。在离体治疗的一些实施方案中，从受试者中取出患病细胞，对其进行编辑，然后移植回患者体内。在其他实施方案中，采集来自健康同种异体供体的细胞，使用CRISPR-Cas系统或其组分对其进行修饰，以赋予各种功能和/或降低免疫原性，并将其施用于需要治疗的同种异体受体。离体编辑的优点是允许很好地定义靶细胞群，并指定递送到细胞的治疗分子的具体剂量。当脱靶修饰是一个问题时，后一种考虑可能特别重要，因为滴定核酸酶的量可能会减少此类突变(Hsu等人,2013)。离体方法的另一个优点是可以实现典型的高编辑率，这是由于开发了将蛋白质和核酸递送到培养细胞中的有效递送系统以用于研究和基因疗法应用。

通过组合物、系统和/或其组分的体内多核苷酸修饰涉及将组合物、系统和/或其组分直接递送至其天然组织中的细胞类型。通过组合物、系统和/或其组分的体内多核苷酸修饰允许治疗其中受影响的细胞群不适合离体操纵的疾病。此外，将组合物、系统和/或其组分原位递送至细胞允许治疗多种组织和细胞类型。

在一些实施方案中，诸如其中病毒载体系统用于生成病毒粒子以将CRISPR-Cas系统和/或其组分递送至细胞的实施方案，CRISPR-Cas系统和/或其组分的总货物大小应被认为载体系统可对可从其中表达的和/或包装到病毒粒子内部的货物中的多核苷酸的大小有限制。在一些实施方案中，应考虑载体系统诸如病毒载体系统的趋向性，因为它可影响CRISPR-Cas系统或其组分可高效和/或有效递送至其中的细胞类型。

当通过基于病毒的系统递送系统或其组分时，重要的是考虑实现治疗效果所需的病毒粒子的量，以便说明病毒粒子在递送至受试者或细胞时可能引发的潜在免疫反应。当通过基于病毒的系统递送系统或其组分时，重要的是考虑控制所述系统在体内的分布和/或剂量的机制。通常，为了减少脱靶效应的可能性，系统的量最好但不是必须要接近最小或最低有效剂量。在实践中，这可能具有挑战性。

在一些实施方案中，重要的是考虑系统或其组分的免疫原性。在系统或其组分的免疫原性是一个问题的实施方案中，可降低免疫原性系统或其组分。仅举例来讲，系统或其组分的免疫原性可使用Tangri等人阐述的方法来降低。因此，定向进化或合理设计可用于降低宿主物种(人或其他物种)中CRISPR酶的免疫原性。

试剂盒

在另一个方面，本公开提供试剂盒(kit)和成套试剂盒(kit of parts)。本说明书通篇使用的术语“成套试剂盒”和“试剂盒”是指含有进行具体方法(例如，如本文教导的用于检测、量化或分离免疫细胞的方法)所必需的组分将其包装以允许它们的运输和储存的产品。适用于包装试剂盒中所含组分的材料包括水晶、塑料(例如，聚乙烯、聚丙烯、聚碳酸酯)、瓶子、烧瓶、小瓶、安瓿、纸、信封或其他类型的容器、载剂或支持物。在试剂盒包含多种组分的情况下，组分的至少一个子集(例如，多种组分中的两种或更多种)或所有组分可以是物理分离的，例如包含在单独的容器、载剂或支持物中或之上。包含在试剂盒中的组分可能足以或可能不足以进行具体的方法，因此外部试剂或物质对于进行所述方法分别可能不是必需的或可能是必需的。通常，试剂盒与标准实验室设备(诸如液体处理设备、环境(例如，温度)控制设备、分析仪器等)结合使用。除了任选地提供在阵列或微阵列上的如本文教导的所述结合剂例如像抗体、杂交探针、扩增和/或测序引物之外，本发明的试剂盒还可包括可用于具体方法的一些或全部溶剂、缓冲液(例如像但不限于组氨酸缓冲液、柠檬酸盐缓冲液、琥珀酸盐缓冲液、乙酸盐缓冲液、磷酸盐缓冲液、甲酸盐缓冲液、苯甲酸盐缓冲液、TRIS(三(羟甲基)-氨基甲烷)缓冲液或马来酸盐缓冲液或其混合物)、酶(例如像但不限于热稳定性DNA聚合酶)、可检测标记、检测试剂和对照制剂(阳性和/或阴性)。通常，试剂盒还可包括其使用说明，诸如在印刷插页上或在计算机可读介质上。当在本发明的上下文中使用时，所述术语可与术语“制品”互换使用，制品广泛涵盖任何人造有形结构产品。

本申请还提供了如在以下编号的陈述中阐述的方面和实施方案：

陈述1.一种工程化系统，所述系统包含：a.一种或多种CRISPR相关Tn7转座酶；b.一种或多种I-B型Cas蛋白；和c.指导分子，所述指导分子能够与所述I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

陈述2.如陈述1所述的系统，其中所述一种或多种CRISPR相关Tn7转座酶包含TnsA、TnsB、TnsC和/或TniQ。

陈述3.如前述陈述中任一项所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC、第一TniQ和第二TniQ，其中所述第一TniQ和所述第二TniQ是不同的。

陈述4.如前述陈述中任一项所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC和TniQ。

陈述5.如陈述4所述的系统，其中所述TniQ包含DNA结合结构域。

陈述6.如陈述5所述的系统，其中所述DNA结合结构域位于所述TniQ的C末端。

陈述7.如前述陈述中任一项所述的系统，其中所述一种或多种CRISPR相关Tn7转座酶包含TnsA、TnsB、TnsC和/或TnsD。

陈述8.如陈述7所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC、第一TnsD和第二TnsD，其中所述第一TnsD和所述第二TnsD是不同的。

陈述9.如陈述7所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC和TnsD。

陈述10.如陈述9所述的系统，其中所述TnsD包含DNA结合结构域。

陈述11.如陈述9或10所述的系统，其中所述TnsA和TnsB包含在单一蛋白质中。

陈述12.如陈述9、10或11所述的系统，其中所述Tn7转座酶包含：a.TnsA、TnsB、TnsC和TnsD1；b.TnsA、TnsB、TnsC和TnsD2；或c.TnsA、TnsB、TnsC、TnsD和TnsD2。

陈述13.如前述陈述中任一项所述的系统，其中所述一种或多种I-B型Cas蛋白包含Cas5、Cas6、Cas7和/或Cas 8。

陈述14.如前述陈述中任一项所述的系统，其中所述一种或多种I-B型Cas蛋白包含Cas 8b。

陈述15.如陈述14所述的系统，其中所述Cas8b是Cas8b3。

陈述16.如前述陈述中任一项所述的系统，其中所述一种或多种CRISPR相关Tn7转座酶和/或所述一种或多种I-B型Cas蛋白来自或源自多变鱼腥藻。

陈述17.如前述陈述中任一项所述的系统，其中所述一种或多种I-B型Cas蛋白缺乏核酸酶活性。

陈述18.如前述陈述中任一项所述的系统，其还包含供体多核苷酸。

陈述19.如陈述18所述的系统，其中所述供体多核苷酸包含多核苷酸插入物、左侧元件序列和右侧元件序列。

陈述20.如陈述18或19所述的系统，其中所述供体多核苷酸：a.向所述靶多核苷酸引入一个或多个突变；b.在所述靶多核苷酸中校正提前终止密码子；c.破坏剪接位点；d.恢复剪接位点；或e.其组合。

陈述21.如陈述20所述的系统，其中由所述供体多核苷酸引入的所述一个或多个突变包括取代、缺失、插入或其组合。

陈述22.如陈述20或21所述的系统，其中所述一个或多个突变导致所述靶多核苷酸上的开放阅读框的移位。

陈述23.如陈述18至22中任一项所述的系统，其中所述供体多核苷酸的长度在100个碱基与30kb之间。

陈述24.如前述陈述中任一项所述的系统，其中所述靶多核苷酸包含原间隔子相邻基序(PAM)。

陈述25.如陈述24所述的系统，其中所述PAM是AT或ATG。

陈述26.如陈述25所述的系统，其中将所述供体多核苷酸插入到所述靶多核苷酸的所述PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点处。

陈述27.如陈述25或26所述的系统，其中将所述供体多核苷酸插入到所述靶多核苷酸的所述PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点处。

陈述28.如前述陈述中任一项所述的系统，其中所述靶多核苷酸是线性、环状或基因组DNA。

陈述29.如前述陈述中任一项所述的系统，其中所述一种或多种Tn7转座酶源自第一物种，并且所述一种或多种I-B型Cas蛋白源自不同于所述第一物种的第二物种。

陈述30.如陈述29所述的系统，其包含源自所述第一物种的第一TnsD1和源自所述第二物种的第二TnsD2。

陈述31.如前述陈述中任一项所述的系统，其中所述一种或多种Tn7转座酶包含具有TnsA和TnsB活性的转座酶。

陈述32.如前述陈述中任一项所述的系统，其还包含靶向部分。

陈述33.如前述陈述中任一项所述的系统，其包含能够引导所述指导物-Cas蛋白复合物与一种或多种靶多核苷酸的结合的多种指导分子。

陈述34.一种系统，其包含一种或多种编码以下的多核苷酸：a.一种或多种CRISPR相关Tn7转座酶；b.一种或多种I-B型Cas蛋白；和c.指导分子，所述指导分子能够与所述I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

陈述35.如陈述34所述的系统，其还包含供体多核苷酸。

陈述36.如陈述35所述的系统，其中所述供体多核苷酸包含多核苷酸插入物、左侧元件序列和右侧元件序列。

陈述37.如陈述34至36中任一项所述的系统，其包含表5中一个或多个基因座中的一种或多种多核苷酸或所述多核苷酸的编码产物。

陈述38.如陈述34-37中任一项所述的系统，其中所述一种或多种多核苷酸编码如陈述1至33中任一项所述的组分(a)至(c)。

陈述39.如陈述34-38中任一项所述的系统，其中所述一种或多种I-B型Cas蛋白包含Cas5、Cas6、Cas7和/或Cas 8。

陈述40.如陈述34至39中任一项所述的系统，其中所述系统包含编码第一Cas6的第一多核苷酸和编码第二Cas6的第二多核苷酸。

陈述41.一种载体，其包含如陈述34至40中任一项所述的一种或多种多核苷酸。

陈述42.一种工程化细胞，其包含如陈述1至40中任一项所述的系统或如陈述41所述的载体。

陈述43.如陈述42所述的工程化细胞，其中所述细胞产生和/或分泌内源性或非内源性生物产物或化学化合物。

陈述44.如陈述43所述的工程化细胞，其中所述生物产物是蛋白质或RNA。

陈述45.一种细胞系，其包含如陈述42至44中任一项所述的工程化细胞及其子代。

陈述46.一种植物或动物模型，其包含如陈述42至44中任一项所述的工程化细胞及其子代。

陈述47.一种组合物，其包含如陈述42至44中任一项所述的工程化细胞。

陈述48.如陈述47所述的组合物，其被配制用作治疗剂。

陈述49.一种生物产物或化学化合物，其由如陈述42至44中任一项所述的工程化细胞产生。

陈述50.一种工程化细胞或其子代，所述细胞是通过使用如陈述1至40中任一项所述的系统进行工程化的。

陈述51.如陈述50所述的细胞或其子代，其是分离的。

陈述52.如陈述50或51所述的细胞或其子代，其进一步用作治疗剂。

陈述53.如陈述50、51或52所述的细胞或其子代，从其中分离出产物。

陈述54.一种产物，其由如陈述50、51或52所述的细胞或其子代产生。

陈述55.如陈述54所述的产物，其中所述产物是蛋白质或RNA。

陈述56.如陈述55所述的蛋白质，其中所述蛋白质包含突变。

陈述57.一种用于治疗疾病或病症的药物组合物，其包含如陈述50、51或52所述的细胞或其子代。

陈述58.根据陈述57所述的药物组合物，其中所述治疗导致一种或多种细胞的遗传变化。

陈述59.根据陈述57或58所述的药物组合物，其中所述治疗导致一种或多种缺陷基因型的校正。

陈述60.根据陈述57、58或59所述的药物组合物，其中所述治疗导致改善的表型。

陈述61.如陈述50、51或52所述的细胞或其子代，其中所述细胞包括由包含所述靶序列的基因表达的蛋白质中的突变。

陈述62.如陈述61所述的细胞或其子代，其中所述细胞包括包含所述靶序列的基因组区域的缺失。

陈述63.如陈述61至62中任一项所述的细胞或其子代，其中所述细胞包括通过同源定向修复对外源性序列的整合。

陈述64.如陈述61至63中任一项所述的细胞或其子代，其中所述细胞包括与所述靶序列相关联的基因的转录减少。

陈述65.如陈述61至64中任一项所述的细胞或其子代，其中所述细胞包括与所述靶序列相关联的基因的转录增加。

陈述66.如陈述49所述的产物，其中所述产物是突变的蛋白质或由模板提供的产物。

陈述67.一种将供体多核苷酸插入细胞中的靶多核苷酸中的方法，所述方法包括向所述细胞中引入：a.一种或多种CRISPR相关Tn7转座酶或其功能片段；b.一种或多种I-B型Cas蛋白；和c.指导分子，所述指导分子能够与所述I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

陈述68.如陈述67所述的方法，其中所述供体多核苷酸：a.向所述靶多核苷酸引入一个或多个突变；b.在所述靶多核苷酸中校正提前终止密码子；c.破坏剪接位点；d.恢复剪接位点；或e.其组合。

69.如陈述68所述的方法，其中由所述供体多核苷酸引入的所述一个或多个突变包括取代、缺失、插入或其组合。

陈述70.如陈述68或69所述的方法，其中所述一个或多个突变导致所述靶多核苷酸上的开放阅读框的移位。

陈述71.如陈述67至70中任一项所述的方法，其中所述供体多核苷酸的长度在100个碱基与30kb之间。

陈述72.如陈述67至71中任一项所述的方法，其中组分(a)、(b)和(c)中的一种或多种由与调控序列可操作地连接的核酸表达。

陈述73.如陈述67至72中任一项所述的方法，其中将组分(a)、(b)和(c)中的一种或多种引入粒子中。

陈述74.如陈述67至73中任一项所述的方法，其中所述粒子包含核糖核蛋白(RNP)。

陈述75.如陈述67至74中任一项所述的方法，其中所述细胞是原核细胞。

陈述76.如陈述67至74中任一项所述的方法，其中所述细胞是真核细胞。

陈述77.如陈述67至74中任一项所述的方法，其中所述细胞是哺乳动物细胞、非人灵长类动物的细胞或人细胞。

陈述78.如陈述67至74中任一项所述的方法，其中所述细胞是植物细胞。

陈述79.如陈述67至78中任一项所述的方法，其中将所述供体多核苷酸插入所述细胞中的所述靶多核苷酸中导致：包含改变的表达水平的一种或多种基因产物的细胞或细胞群；产生和/或分泌内源性或非内源性生物产物或化学化合物的细胞或细胞群。

陈述80.如陈述67至79中任一项所述的方法，其中将所述供体多核苷酸插入到所述靶多核苷酸上PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。

陈述81.如陈述67至79中任一项所述的方法，其中将所述供体多核苷酸插入到所述靶多核苷酸上PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。

陈述82.如陈述67至81中任一项所述的方法，其中所述靶多核苷酸是线性、环状或基因组DNA。

实施例

实施例1–示例性CAST系统

来自多变鱼腥藻ATCC 29413的基因座CP000117的示例性I-B型CAST系统的构建体在图1中示出。用于表达CAST系统的质粒在图2中示出。质粒的详细图谱在图3中示出。质粒的序列在下表5中示出。

表6

pDonor_CP000117上的左端(LE)序列元件和右端(RE)序列元件的序列在下表6中示出。

表7

使用携带Cas蛋白和不同NN-PAM的pCas6875质粒来测试不同PAM序列的效果。Tn6677 LE/RE序列的不同引物对用于扩增作为阳性对照。图4示出了一组实验中引物对a、b、c和d的测试结果。图5示出了另一组实验中引物对a和c的测试结果。扩增子(通过引物对a和b)的凝胶条带被回收和测定(图6)。在实验中，多种37-bp序列被用作预期的插入序列，所述插入序列在下表7中示出。

表8

检查了CAST系统的组分的作用。从辅助载体中删除所述组分中的每一种，并检查靶序列的插入(图7)。确定了扩增子的序列(图8)。

实施例2–

图9示出了CP000117中蛋白质的纯化：TnsA、TnsB、TniQ1和TniQ2。进行了亲和纯化(Strep-Tag)和尺寸排阻色谱。

测试了系统(CAST/归巢到glms)是否可以在体外重构。可使用离子交换色谱，例如，以获得提高的纯度。

对系统进行了靶向BL21DE3的10个基因组基因座的测试(图10)。CP000117CAST系统基因座带有用于CAST和glms归巢的两个TniQ(图11)。图12示出了glmS基因座中的“N”AT-PAM平铺。

实施例3–示例性CAST 1-B系统的生化分析

使用新鲜亲和纯化的SUMO标记的TnsA、TnsB、TnsC、TnsD2(+SUMO蛋白酶切割的天然全长TnsA、TnsB、TnsC、TnsD2)。标记条件和天然条件都有效。如果D2被Cascade+D1替换，则T24-CAST可在体外重构。体外Tn7反应在200mM NaCl下发生。图13示出了T24的体外归巢。TniQ能够在没有Cascade的情况下进行glms靶向的归巢。

Tn7转座子也在293FT细胞中进行了测试。除了用于体外测定的pDonor和pTarget(glmS基因座)之外，申请人还转染了N-末端和C-末端标记(用HA、NLS、接头标记)的人密码子优化的TnsA、TnsB、TnsC、TnsD2。3次独立转染的结果是稳健的。图14示出了T24在293T细胞中的归巢。

对于CAST，申请人将FLAG标记的Cas8或TnsD1与其他HA标记的组分共转染，并进行拉下实验(pull-down)以确定它们是否形成复合物。同时，申请人纯化D1-Cascade用于进行RNP转染。申请人通过phiC31整合酶将glmS基因座载体插入到293FT的基因组中，以观察Tn7是否发生在哺乳动物基因组上。

实施例4–在真核细胞中表达的CAST 1B的表征

申请人针对CAST I-B型系统的活性和功能测试了温度、盐浓度和缓冲组分的条件。在这些实验中，CAST在30℃-37℃、小于200mM的NaCl、和15mM的Mg₂、和2mM的ATP下工作良好。结果在图15中示出。

标签与CAST质粒的N-末端和/或C-末端融合。测试了通过CAST插入供体多核苷酸。结果在图16中示出。

对CAST的组分进行密码子优化用于在人细胞中表达。在293细胞中测试了组分的表达。HA标签用于检测表达。结果在图17中示出。用于测试在293细胞中的表达的质粒在图18中示出。

测试了在哺乳动物细胞中通过CAST在靶序列处插入供体多核苷酸(图19至图21)。通过下一代测序来表征所述插入(图22)。

实施例5–TniQ1和TniQ2的功能的表征

测试了TniQ1和TniQ2的作用。在这些实验中，需要TniQ1用于通过CAST将供体多核苷酸插入靶位点(由指导RNA指导)，而需要TniQ2用于归巢到具体的靶位点(图23)。针对共同的组分(例如，TniQ1和TniQ2)完成了CAST和归巢转座。

实施例6–TnsB靶免疫相互作用抑制转座

TnsB和CAST的功能可能与TnsB水平与CAST系统中其他组分之间的比率相关(图24)。

实施例7–表征I-B型CAST：PAM筛选

针对示例性I-B型CAST筛选PAM基序(图25)。

实施例8–TnsB的表征

检查了最小TnsB结合位点(图26)。研究了TnsB共有位点(图27)。测试了各种货物大小(图28)。进行了插入位点特异性分析(图29)。

实施例9–示例性CAST的表征

图30示出了哺乳动物细胞中示例性CAST的质粒靶向和LE连接处的结果。

实施例10-筛选哺乳动物细胞中的PAM序列

申请人进行了293FT细胞中的示例性CAST系统的PAM筛选。图31示出了用于筛选的质粒的分析，并且图32示出了筛选结果。

实施例11–哺乳动物细胞中TnsD1和TnsD2的功能分析

申请人测试了TnsD1和TnsD2对归巢和CAST功能的竞争和/或合作效应。在TnsD1和/或TnsD2存在的情况下测试了靶序列的插入。图33示出了分析的结果。

实施例12–哺乳动物细胞中质粒靶向的检查

申请人检查了发生质粒靶向的亚细胞位置。从细胞核和细胞溶质部分分离出转染的质粒。图34示出了结果，表明质粒靶向发生在细胞核中。

实施例13

图35示出了示例性I-B型CAST系统。

实施例14

T24 CAST基因座在图36中示出。用于在哺乳动物细胞中适应T24 CAST系统的构建体也在图36中示出。

测试了哺乳动物细胞中T24-CAST系统的组分的表达水平。所述组分在HEK293FT细胞中瞬时表达。细胞在RIPA缓冲液中裂解，并且在每个泳道上加载30μg蛋白质用于分析。结果在图37中示出。

T24-CAST系统的组分用NLS标记。检查了NLS标记的组分的定位(图38)。

掺入GFP，用lipofectamine3000转染，并且结果在图39中示出。

图40示出了用于分析靶向293FT细胞的Tn7/CAST质粒的实验方案。293FT细胞中T24-Tn7系统的质粒靶向在图41中示出。293FT细胞中T24-CAST系统的质粒靶向在图42中示出。

通过在第2次转染中转染选定的组分来测试个别组分在T24-CAST中的作用并测试效果。结果在图43中示出。

优化了蛋白质与指导分子之间的比率，以及供体与靶标之间的比率(图44)。在一些情况下，需要较少的蛋白质表达。

实施例15

另外的I-B型CAST系统在图45中示出。在大肠杆菌中分析了另外的I-B型CAST系统(图46)。可进行更大的pHelper构造。人密码子优化的蛋白质可在细菌中表达。在哺乳动物细胞中分析质粒靶向特征(图47)。可使用不同的表达载体。测试了三种I-B型CAST系统以示出在哺乳动物质粒靶向中的作用(图48)。

实施例16–293FT细胞中T24的PAM筛选

在293FT细胞中筛选T24的PAM序列(图49)。图50示出了针对新直系同源物的哺乳动物PAM筛选流程。针对2种新的直系同源物(IB18和IB28)，生成PAM文库并在293FT细胞中测试质粒靶向(图51)。2种新的直系同源物(IB18和IB28)的PAM筛选结果在图52中示出。

实施例17–示例性I-B型CAST IB18和IB28的序列

IB18基因座的图谱在图53中示出。IB18基因座的序列如下所示。

(SEQ ID NO:65)

1 ggttttgaat tcaagtaacg cttcatatat gtttacaaat cggctaaatc tctgattggg

61 tgatgaggag aaatacgagg cggaaatgtg gctattttat aggaacagag agagattgcc

121 gaaaagtgaa ttttgagaag tgcctattaa attgtttaaa gttatgtagc cttttactta

181 cgccgtataa gccactgcgg taaactatgc gttgattatg attctttcac agataaagaa

241 cactggaaag gagccgtttt ttcaatgtct cataccgtaa aaatctacga tacctgcatt

301 ggctgcaccc aatgtgtccg cgcttgcccg actgacgttc tggagatggt tccttgggat

361 ggctgcaaag ctgctcaagt tgcttcttcc ccccgtacag aagactgtgt aggctgcaaa

421 cgttgtgaaa ctgcttgccc caccgacttt ttgagcatcc gggtttacct gggcgcagaa

481 acgactcgca gtatgggtct agcttactaa ggaattaact gctaattcct gatttagttg

541 accattcagt gcctcgatag caaacaactt tagcattgta gggtgggcgg cgatcgctca

601 tcctacaatg tcaaactgga aaaatatgaa tatacttctt gacacagggg ctaacagctc

661 ctttttttgt ggaactcgat atttagatca gcatctatac ttgatgtaat tatcctgaac

721 aggtggtgtg agtaatgtgt ggcatcgttg ggtatatagg cactcaaaca gcgacagaaa

781 ttttattagc agggttagaa aaactagagt atcggggata tgactccgcc ggaattgcca

841 cggtttggga aggagaggtt aattgtgtcc gcgctaaagg gaaactctac aatcttcgtt

901 ctaagctgga acagtcagca acaccagccc aaataggcat cggacacaca cgctgggcaa

961 ctcatggtaa accagaggaa cataacgccc atccgcattt agacacagct atgcgggttg

1021 ctgttgttca aaatggaatt attgaaaact accgcgagtt acgcgaggaa ctgaaacaga

1081 aggggcatca gttccgttcg caaaccgata cagaagtgat tccccatcta attgcagaat

1141 atttacagca tcttccctca ccttctcacc ccctcacccc ctctgacttt ttagaggcag

1201 tgcgccaagc tgccaatcat ttagaagggg catttgcgat cgccgtcatt tcggctgact

1261 accccgacga gttggttgtg gtgcgtcagc aagccccctt agtgatagga tttggtcaag

1321 gtgagttttt ctgtgcttct gataccccgg caattgtcgc ctatacccgc gccgtactcc

1381 ccctagagaa tggcgaaata gcccgcctca cacctttggg agtggaaatt tacaactttg

1441 ctggcgacag gttgaaaaga caaccccgaa tgctcaactt gaatcccacg atggtagaaa

1501 agcagggatt caaacacttc atgctcaaag aaatttatga gcaaccggga gtagtcagag

1561 ctagtttaga agcatatttt gatcatgata ccgttaacct agacttacca caggattttt

1621 acgcagattt agagcaaatt cacatcgtcg cctgtggtac aagttggcac gctgccttag

1681 tgggtaaaca cttactcgaa caactagcgg gaatttctac ccaggtacat tacgcttctg

1741 agtatcgcta tgccccatca cccctgacag ccaatacctt aattattggt gtcactcagt

1801 caggggaaac ggctgatacc ctagcggcgt tagcaatgga aaaagaacgc cgccaaggaa

1861 aagaagcgaa atatcaggcg cgacttttgg ggattaccaa ccgcccagaa agtagcctcg

1921 gtttgatggt tccccatatt attaataccc tagccggaat tgagattggg gtagcggcga

1981 caaaaacctt tattgcccag ttgatggcgt tttatgcctt agcattggat ttagcggctc

2041 gtcgccagac actaccaccg gaaaaactca cagaaattat tcaaggcttg cgccagattc

2101 ccaaggaaat tgaggcgaca ttagaacgtc aggaagaaat caccgaacac ttagcccatg

2161 aatttgcgga aaccaaagat tttatctttt tgggtagagg gattaacttc ccgatagcat

2221 tagaaggggc gttgaaatta aaagaaatca gttatattca cgctgaaggt tatccggctg

2281 gggaaatgaa acacggcccg atagctttgt tagatgctaa agttccggta gtagcgatcg

2341 cagttcctgg tactgtgtat gaaaaggtga tttctaacgc tcaagaagcc aaagccagag

2401 attcccggtt aattggggtg actcctgtga cagatggcga agccgcagaa atctttaacg

2461 atttactccc agtgtcatca gtggatgaat tattatctcc catcctgaca gtcgtacctt

2521 tgcaactttt ggcttatcat attgcagcaa gaaggggttt agacgttgac cagcctcgga

2581 atttggcgaa gtcggtaact gtggagtaaa ataatacttt aaataagtat aattgtacaa

2641 caataaaaaa gtcgtataac aaataaaaaa gttgtacaat atataaaaaa gttgtacaat

2701 atatcctgtg ggtgcatatg caagcatcta caggagtttt tatggctaga agtaagcaag

2761 attggacgca agccaagttt gagcgttact gtaaggaagg tcgtggtcag ggcagtggga

2821 aaaactatca gccctggatc aagattcagg actttccctc caagggtcgt gtttccagac

2881 caccaggttg gaaaacaaac cgagaacatc atctcttttc tgataacgag aagcgactgt

2941 tttacgtatt tgagtggtca gatgcgatcg ttgatattag agagcagttt cctctacttg

3001 atctggactt agcaattaat attgcggatg aaatgggtat taactatccc aaagatccgc

3061 aaagcaatac gccatatgtt ttagccacgg attttatgct ttctgtccag caaggtaaga

3121 atatagttca gaaagcacga acatttaaac taaccaagga tttgggaagt aagtcggtag

3181 ctgaaaaatt tgagttagaa aaacgttact ttgctgccaa aggtattgat tggggaataa

3241 tcacagaaaa agaagtccct aaacaattag ctgagaatgt tgaatggatt catactgctt

3301 ataaattaga agaaaatgca gatataaatc ttgaagaatt acgtaacatc gcaaatattt

3361 taaagtttag acttcaggaa agtgatgcaa gtatcaataa aataacaacg gttttagata

3421 aggagatgaa catagagtct ggcacatctc tctatctttt tagacacctt attgctcgga

3481 aagaaatcat tatggatatg ctggtaaata aaatatctag ttgtccatct tctaaagaaa

3541 ttcaaaaaat aattttttaa gctaggacga ggtactttat atgattaatg atttgtttgt

3601 aaatgacctg attgaatgga ttgatgaatc cggtaataac tttatagaac gagttctctg

3661 gattgatgaa ggatatatta ttgcctttgt ttatgatata aatgctaaaa caggatttcc

3721 agaggctaaa aaagtttcag agattagaga agctatttct gatggtcgtg cattgaagct

3781 taaatcagac ccgtgggcaa gaatcgtaag agatgaagat ttgtcagaga aagaaaaaga

3841 acttagagat agggcttggc aaataatttc atttatcgtt actcaagaac cctcaatata

3901 ctatcgggat tatagaggta ctttagttca gcaggttatt gaaaaatata atgcaggtag

3961 aactgaaggt gaattagtac caataactgt ttataaatat ttaagaagat tttggcagag

4021 gggtaaaaac aagaatgctc tcttgcctga ttatgcaaat tctggtggta aaggaaagcc

4081 taaatcttct ggagacaaga agagaggaag acctagaaaa tacgcacaag ttccagaaat

4141 tggtgttgga agaaatgtta cagaagaaga taaaagaata tttagatttg caactgctaa

4201 attctataat aattccaaag aaaatttctt aacgactgct tatgatttaa tgattaaaga

4261 atattacgct gaagattttt attacgatga taatggagtt aagaaaagta ttttaattcc

4321 tccagataaa cgacctacat ttacccaatt taaatactgg tacgaagtag aacaaactga

4381 tatcagaaaa actatgatat ctcgtaaggg ttcgagaaaa tatgccttag aaaatcgagc

4441 cattaccgga acttcccaaa tggaaactat tgggccaggg tctagatatc aaattgatgc

4501 tacgattgca gatgtatact tagtatccct ttacaaccgc aactggatta ttggtagacc

4561 tgttatatat gtggtgattg atgtttttag tcgcatgata acaggggttt acattggatt

4621 ggaagggcca tcttggacag gagcaatgat ggctttagcc aatgcagcta cggagaaggt

4681 caagttttgt cgggagtatg gtattgagat ttctgaagat gagtggccat gcaagcatat

4741 tcctgatacc attttaggcg acagaggtga attagcaggg atgacagtag aaacattaat

4801 ccctaattta aatgttcgta ttgaaaatac tgctccttat cgagcagatt ggaaaggatt

4861 agtggaaaga caatttcgca ttattcatgg gtatgtcaaa ccatttgttc ctggttatat

4921 agatactgac tttagacaga gaggaggaca tgattatcgc cttgatggta ggcttaacat

4981 agatgaattt actaaaatag ttatattttt gattctccag cataacaatc atgattatct

5041 aattgattat gctagagatg aaatgatgat taccgatgat gttaatccta tacctagaga

5101 attatggcaa tggggaattg ccaatcgttc tggtagactg agaacttttc cagaagatat

5161 tgtcaagcta aatttaatgc ccacagaaaa agcaacaatt actgctcgtg gtatcaaatt

5221 taaaggaatg tactacactt gcgagaaagc aaggaaggaa ttttggtttg aaaaatctag

5281 aagtagttta ttatctaagt cagagaaatc attgaatata tcatatgata ttcgacagcc

5341 aaactttatt tatttacgtt ccccaaacgg tagagaattt gaaaaaggtt ggcttttaga

5401 atcgcaacaa agatatttag ataaaaactt ttatgacatt gattatttat tagcatatga

5461 aaaattgcaa aatcaaaaac atcaaggtac tcggttacag gcaaaagctg atctgatagc

5521 caatatagaa agtattgtta gtcaggctaa agaagagact gaggcagttt tagatgatac

5581 tataagtaat agacaaaaag ttagtggcat tcgacagaat agagcagacg aaaaaaatgc

5641 tcgacgtaaa aatgaagcat ttgaactagc aaaagcagaa actcccaata ctgataatac

5701 taagaatcta ataaacactc aatctgaaga ttccgaggat tcaaaactat tacagcctga

5761 ccatatggat ttactcaaac ggaaaagaca ggagcgaaaa cgtggaaagt aatgaggaag

5821 aagttgttag tattcctaat ggaaagtcag cagttattgc cagatacata gaccaaaaac

5881 ttccagaata taacgctaat ccattgattc aggcactacc tcctatcctc tcagcagaag

5941 aatttatcga taaagtaacg agaacaccag attttgatga acaagagagg gagctagaag

6001 cgcactacag gtttcattgc attgagaggc tatctagata ttttgatcct caaaataaaa

6061 ctgttgaact acagaaggtc atttgtgcgc taattatgac gggctattta gctcggaata

6121 ttctgaaacc tgaatatgca agtcgctcta ggcaaattta taatgcaatt aaagatggag

6181 gagggaaaaa cttagaaaac tatgttaatc ttcctacatc tgcttccggc ctaaccctaa

6241 ttggcccatc agggatggga aagtctacga atttccaaaa tattcttaat ctttatactc

6301 aagtaattct tcatcctgag tatagtgttt accaaatagt ttggttgaag gttgactgcc

6361 ctcatgctgg ttctttaaag ggtctgtgta cggatatttt tcttgctgtt gacaggctat

6421 taggtactaa ctactttaaa aagtttggtt cctcacgcaa ctctgaagat tatatgctgg

6481 ctcaagttgc ccaaattgcc catactcatc atttaggggt tttagttata gatgagatgc

6541 agaatctggt tacagcaaga agacgtagct cagatatgtt gaatttttta gtaaaaatgg

6601 acaatactgt aggaattcca gtaattcgag taggtactaa tgaggctttt cctattcttc

6661 aaggaaattt tagaaatgcc aggagaggga caggagaagg cagtgtaatt tgggacagaa

6721 tggtaaatga tgatgaatgg tatttcttca tggaaggaat gtgggaatac cagtggacaa

6781 aaactcctgt tcctttctcg gatgaaataa acgaggtttt ttatgacgaa agccagggaa

6841 ttattgatat tgctgtcaaa ctttacaaaa tggttcaatg gagagcgatt tcaataggtg

6901 gtaaagaaat tattactatt gagttaattc gtcaagctgc taaagacgga ctatatttag

6961 tcaagccaat gcttgatgca attaggtcag gggacaagga gtggatgatt aagtataaag

7021 atattgcgcc cctagatact acagaatatc aaaataaatg tctatctgag cttgattcca

7081 aggatttgaa agaaattcgc agattggcaa gaaagcaaca gaatcagcag aaagtatcgc

7141 cgaagctaaa ttatgtaatt cttgagcttt tgaacttgga agtagaacct gctaaagcaa

7201 aggaatgtgc agaacaagta attgtttcta gtgatgaaga tgccgaaatt ccatctttag

7261 tcaaaaaggc atatgctctt gctttgcaag gagggcaagt aaatgagagc ctgactaaga

7321 caaatactaa gaaagctaag ttaaagccca attatcaaga aaatgatatt cgacgaattg

7381 ttgaaaatgc caataaggag aaaaaatctg catacgagga tttgaaattg gcaggcataa

7441 tcaaaaatcc agttgaagat tttataaata tttagcttct caatgcttag tttcttccca

7501 actctgtatc ccgatgaact gttatatagc actttagcta gataccacat tcggagtgga

7561 aataaaagtt tcaagcaaac tgacttagag ctattcggtt acagttctca acaagtatgc

7621 aaaattactt taactaataa tttaaattat ttagtgaaaa acttaccttt acgctcccag

7681 caaaaagttg agaatttgct acaaaatcat acgttatatc ccttttacgc aactttttta

7741 atgccacagg aggcttggtt actaaaaaac tcaattagta aaaaactcag tggctccata

7801 ctagatgttg ctaaggtggc tactaattct attggtgatt caaaaaaatt tttaaaattt

7861 tgtcctgaat gtttagaaaa agatacccaa aaatatggcg aaccttactg gcatagaata

7921 catcaagtac ctggcatttt agtttgtcca actcatggta tcgttttaca ggatagttgt

7981 gtaaaagttg aatcgaaagg cgtacattat catgctgcga gcgtagataa ttgtttagta

8041 gcctgcaagg tcaaaaattt gacaaataac acagtaaaaa cactcttcac actggtgaat

8101 gatattaatt ggctaattca tagcaatttt gcctttcaag gtttggcttg gcttcgcgct

8161 cagtaccagc gttacttagt ggataaaggt ctgctacaaa cctttcctgg tggcaagttt

8221 aagtttgatg agtatggttt tgcccagctt atatttgagt tttatggtca agaatcctta

8281 gaagccatca atcccaagtt gactcaacat caaggtaaat acttttctca ctgcttgttt

8341 ggatgcgact taagcccagc aattgaccgg ataactcata tcttattgat aaaattttta

8401 gcaaattcta tagaagagtt ttttcagtaa taatctgcat ataaaaactg ttaaatacat

8461 taatataaag taataaataa ttaagaaaat tatctttata ggttggtatt tcaagtattc

8521 tcagattcgt gagtaaggta aagtaagtaa tatcatattt atttcacacc acgttgcatc

8581 tactgaaatt tggcatctaa aaatgattgt tgatggcaac ttacttaggc agattccctc

8641 agaatcacca ccaaagccaa gagagctttt aatgtctcag ttaccatata tggatttaac

8701 ttttaacctt attggtgaga cattaccttt cgaccacggc tatgagctat tttctgcgat

8761 cgcccacttt gaacccaaac ttcatacatt agacacgctg ggaattcaca ccattgcagg

8821 tattcccaag gatggtgtaa ttaatctgac ccaaaattct aggcttcgtg ttcggatacc

8881 agtaaatcag gtacatttag tttacccatt ggcgggtaag tccttgagaa ttggtaagca

8941 tacaattcgt ttgggtattc ccgacatatg tttgcttcaa cctgccgagc aattgcgatc

9001 gcgcattgtg gtaataagag gtcatgaaga acctgaaact tttttagtcg tagcgcagcg

9061 tcagctagaa cagctgggta tccaagcaac cgctagcatt cccaccaaag ccaatggcaa

9121 accaatacgt aaaactatca aaattaagcg atttacagtc gtgggttttg gattagaagt

9181 tacaaattta agcaatgaag actcactgac gttgcaaata catggtgtag gaggaaagca

9241 aaagatgggt tgtggactct tcatgcccat tcaagaaagg caatagcaat tactcgaaag

9301 cagataatga agacagcagc taaccccaaa attcagctta atctcggcga tcctagtatg

9361 accttattgc atcgtgctgg ggtggcagga ctttggatga cgctcaaaaa actggaaaaa

9421 atctatccaa ctgctgctca acgtattggt aattttactt ggttgctaac ccctagtaat

9481 atcagtcttt attgggaagg acaggatttc acagttttag actggttgct gaagcattca

9541 tttcagatca gtgatgaggg tttaatttcc ctaacagggt tagattctca aaacatggat

9601 attcaaacgc aaataattat ccaccaaggt atcacagcaa cttttataca acataataaa

9661 ttttttaagt ctgcgggtca acaatctaag caactaatta ttgatggtat tcaactcagg

9721 gttgattata agaaagctgc ttcctatgct catcaacatt ttgctaaaca tttatgtgac

9781 cagtacggac aattgctaca agagccaatt ggtataaggg ggtggcttta tccaggagca

9841 gtagttcgcc attatgcttt taaagaacaa accgcatttg aagaaaaagc agaatatgct

9901 ctagcgttgt tgttcgctcc tgtggcttgt caatattttg tgctgcgatc gcacaccgaa

9961 ccatcacata caaactatgt tctggttgtt cctgaagtaa ttgatttaga actttatgcc

10021 cagtatttgt ggtatttgag taaattagat tataaacatt ttcacgtatc tagcttagga

10081 gatgctggat taaaatttat tacttatgaa gcaaaacaac tagataattt caattttatc

10141 aaacgatgtc aagtaatctc ctttagtaca aaagcttggt cagagcggca aaaaactcgt

10201 gcagaaatag caatcataga attaaattct tcagttagtt atctctataa acttagttgt

10261 atttgttttc ctaattgcca agttgttata tataaaaatc aacatttttt gcttccaagt

10321 ttaatgaaag gaataattgc caataatcta gcaatgggtt ggccttggtg ggctaattgg

10381 atctcagtta ttaaaaataa taaatcattt aaacaattta ctgatgagta tataggaatt

10441 aataaaatga ttcaggactc agaatgggac atagaagctc aaaaattatt tattcaagct

10501 tgtcatgaag cattaaggaa aatatacgcc aagatttata gcagaatgaa agaaggtgga

10561 tatgctcaaa tagaacgaga aaatacacgc attttatctc agctaaaacg ctgcaccaat

10621 gctgacaatt tcagaaaatt tattgcagag ttttggggga gggcagggca aatgacaatt

10681 ctggaggaac attgggtgga attactacca ttgactacag ggataggcaa ttggaaagta

10741 gccagggact taacttttat tgcaatggct agctatccaa agaataaaat aacagaggta

10801 taggtaaaat catcacaact atttgagcta aatcgtgagt aaacgttaga ttttttgatt

10861 tgattaagca caaaatatta attgtttagg taattgttga atgtttcatc tgttcggtaa

10921 cattttgact acttatggaa ccgccgctaa taatcgtggt gaaaatgaag gtaacacaac

10981 tactttacaa aaattaattt ggaaaggtga agttcactct accgtttcat ctgaggcaat

11041 tcgttgggca ttgcgatatc attggcaaaa tgctggctat cctgtgaata gacgttggga

11101 tgagaatgct caaccagtag cggatcacat ctgggaagat cctaattttg atgatattcg

11161 cttcattgat gatgatgtgt tgggatttat gcaagcggaa gcggcaaaag ttgaagcagc

11221 agatgaatcc gaagttgaaa tccagaactc aactcaagat gagaaccaaa caacctctca

11281 aggtgaggag aaaaaaacct cacaacgtaa gcgcaagcaa agacctaaag ggagaataag

11341 tgctagacga ggtgtattag aagtcactcg tgcagtatca acaattcctt atgctggtga

11401 tattactttc aattctatga gtggaaagaa aggacgaaca tctctttatg ctacagaagt

11461 tcacgctact cggtatcaat atggctttgc attaacaccc aatagactca aagataaatc

11521 tcgcattcat gctgtcttag atggcttaat ttcgattgga gacgtggcag gaaatcacgc

11581 tcgtttcttt tatgattttt ctcccgatag cataatatta cggtggacac atgatttctc

11641 acctcgctta ctttactgct ttgaagaaga tgaacttaga aatatatcaa cacccgattt

11701 agtgcgacgg gtagaagctg gagatataga ccctaaagaa ttatggatag gaggggcaat

11761 tgctagcact ctagaaaatt taggggccaa tctttttccc ggagtgaagg caacagttga

11821 agcattaaaa caggtgatta ttgaagattt gcagttgtcg ttaaggagtt catgatatga

11881 cgacaattgt tgtaaaagta gaagttccca tagcttgttt tcgccagtct catgctaggg

11941 aatacgctga aacctaccct gtaccaccgc catcgacagt atatggaatg ttactatctc

12001 tggttggaga agttgataga tacaaacact gcggcgttaa gctggcgatc gcacttctat

12061 ctaaaccaga aaagtcaact gttattcgta cctgccaccg atttaaaacg aagaatatcc

12121 atgaatctaa aaataataaa cctgattacc aggatttact aactaatatt gagtttgtag

12181 tttgggtaga tgctggggca gataaagcca aaccaaattt agcgcaacgt ttagaagagg

12241 catttactaa cccagcttct attaataggt ttggtggatt atgtttaggt gaaagtcggg

12301 atttagtgaa tgatgttagc ctgttacctg aaaattacta tgcagaatca atgcgatggt

12361 taattcgaga tgattatggg ttactaacct taccttattg ggtagatcat gtaggttcac

12421 ggggaacgcg atggctgtgt tacgaaattc aggaatttca agtatttcaa ccacccgaat

12481 tatcttggac ttcaattcaa agtgattaga gggcattatt tacttttgca agcatctttg

12541 cttgggcaat ttaaatacca caataaataa tcttgtcttc ttgtttcaca agcattttag

12601 ggatttcata tactttcaat gtgcttgcaa tttcctggaa caccttcaaa acaagggtta

12661 gagctttagc aactttgctt ttgctatgaa tagctattaa tttttgcaac ttgactaatc

12721 ctaattggaa ggtgcttgta aaattagtac agagctttgg ctagtcaaca ggtttgatga

12781 tcgccgtgct ttaacattag atgtcgttag gcgttgagca gtgattaacc tgaaggcttg

12841 ctccgggatg ttgtaggtgc tttaacatta gatgtcgtta ggcgttgagc agcaccggta

12901 ccgcgagtag tcgcaccaat attcatatgt gctttaacat tagatgtcgt taggcgttga

12961 gcagttgaat gcgaagttat cggcagatgt tttgttgttg tgctttaaca ttagatgtcg

13021 ttagacgttg agcagtgacc attggtgtat ccatcaatcc tgactgctgc gtgctttaac

13081 attagatgtc gttaggcgtt atctactttt gatacaaata cttttgaaat acatacaaaa

13141 ctagctctgc caaatatctc cttttcaaga catttttgcg attatttttt cccactgctc

13201 aatctggttc tgtagttgta attgccgatc gcccaaatct tgactatcat caacagacaa

13261 atcctgaccg ctcaatcgct cacgatagag agcaatcagt tcggttaggg cttttttatt

13321 gcttgctgat cctcctgggt cagagaacta acattgactg gaatcaactt tctgccaatt

13381 ctctctacaa actcagaccg acttaaatcc atactgtcgg cgatcgcatc taatccatca

13441 atcccggtag gagttagggc taggttaact cgtttcttca cctcatcgta cagttctggt

13501 acgtcttttt gacctttttg ccctttctta cccattgccg tctagttttt gctttcctcc

13561 caatcatagt aaacacattt agcacttaag ttaaacatta aaattttttc caatacttta

13621 ggtattgtgt aatccctaat ttagttagat aatacaggca ttgtgtaatg cctaagcagg

13681 catctcgtaa ggatatgagt aactaattgc accgtttgat tcctcaacat ctcaacggct

13741 taattttcat gggcaagcat taattgcttc gtggccaatt cagattaatc aaaatctgcc

13801 agatgattta ggcatttttc aaaactatat ggttagtttc ttccctaaac cttatccaga

13861 tgaaatttta tatagcgtca ttgctcgtta tcacattaga agtggcaata cgagtcccaa

13921 aattacactt caagagttat tcaattcaca aactactgtc gcaacagtag atttaccatc

13981 gaacctgaat aatttaattc aaaacctaca atttatctca aattaccaag ttgaagattt

14041 gatatataaa catactctct atcctttata tagccctttt ttacctgcaa acaggtctag

14101 tcaggtactg gaatctatga aaggagatta tgggggagat attcatacaa gagccggaat

14161 tatggcaagc tcaattacta tgccaaaata ttttcggttt tgtccaactt gctgggaaga

14221 agacttaaaa aattatggcg aaccttactg gcatcgcatc catcaaatac caggggtttt

14281 agtttgtcca tttcatgatg aagttttgca agatagccta gctcctttac acggttttaa

14341 taagcatgaa tattatgcag ctagtacaga caaatgttct attactaaag aaccaagtat

14401 ttttagccct gacacgttga aaaaattact ggtattagct aaagattttt ggtggttact

14461 caatagtgaa ataccttgcc aagaaccaca gtggtttcgc aaacagtaca ccaatctgat

14521 gattgagcag ggtcttgcaa ctgcaactgg acgaatttac cagaaaaaac tactagataa

14581 ttttttgttt ttttatggtc gagaaatgct cagtgccgtt aattcaatag tcactcataa

14641 tgattcaagc aactgggtta ctagcattgt caggaaacat aggaaatctt tccatcctct

14701 tagacatctg ctgatgatgc gttttttgaa aacatcagta gaggaatttt tcaagcaaga

14761 taataaatac aagccttttg gtgaaccccc gtggttgtgt ctcaatgctg ccgcagagca

14821 ttacctacaa ccagtcatta ccaatttagt cattacttta tgctgcgata caaaaaagcc

14881 tgttggtact ttttcttgta cttgtggaat ggtttattgc cggactgggc ctgatgaaac

14941 ggatgatgac aaacttcgca ttggtaaagt aaaggcattc ggtcaactat gggaacaaaa

15001 gctgaaagaa tttgttgaag ttgaaaagtt gggtttgcgg gagacagcta gaagattaaa

15061 tgttgatccc ggaactatca aacgctatgt atctctgcta aaactgacca cttattggca

15121 gactagaaag gaaaatggct ctgtagactt acaggaagta gcagaaatac accccaattc

15181 tgcaactgaa ctcaaattga aacacaggca agattggatg gctttacaag cacagaatcc

15241 tgacgcttca aagacaactc tgagaaaact agcaccagcc acctatattt ggctatacag

15301 aaatgataga gaatggctca atcaaaactc acctgcatta caagttgctg ttccttccgt

15361 tgtgagagtt gattggcagg aacgagatcg gcaaattctc gcccaggctc aagacgcagt

15421 gcgatcgcta attaacgccg atacgccaga aagaatttct attagtaggg taggaaaaac

15481 tatcggctta ctcgccttac tcgaaaaaca cctcgaccaa atgcctttaa caaaggctta

15541 cttagaatca gtagttgaaa ctgtagaaga ttttcagatg cgccggatca agtgggcaat

15601 caagttgctt gatgaatgtg gagaagaaat tatgcgctgg aaggtagtca gagttgctgc

15661 tttgcgggag gattgctctg aaagagtcaa cgcatttctg gaaaatgaac ttgacaaagc

15721 gtacaagaaa gagaggtgat tccattcacc tctccaagtg atgagataaa tgctttgtgt

15781 gttatgctgc gtcggctacc agtaagccat tcacagcgac gatgatgatt tgcgctgcca

15841 aaggagtgtc acaacgtagc ttatcgtcac tattacaggg ttgtgctatc cattgaccct

15901 ccagattttg gtagaaagtg ccgagaagtt gggaaccatt ccaaacacgg taaagttcac

15961 caaatacctc tgataccgaa tcaatctcaa tttccggtgc tatttcctca cctagctgct

16021 caatgtactc ctcaaactct aattgagcca aggcttggtt atcaaattca tcctgtacaa

16081 tcatcatgag tcacctcgtt aacggggttg aacaaaaggc gatggcgtaa aacgcccgcc

16141 taaaaggcga tcgcatttct cttgccggag ggcgatcgcc tttttgattt cagattttat

16201 tttagctact atagtggcta tatacaatat atgtatggaa aactttattc agtcacttcc

16261 actgtgctaa gaaaatcctt taaagaaatg cctaaagcca agcaaatagc ctctaacacc

16321 ttgatagaga cactttcaga ctcgccgtac tctagttttt tcaggttttg gtgagagcat

16381 tccccaccct tagcagaaat ttcctctgcc aatttctgcc gggatttttt accacgcata

16441 cgctttaaaa ctgctgctct atctttattc cagctaacgg ccacaacgtc tgaaacataa

16501 atatacattt tagtttctct attcctctca ttgttcatat aatagctaca gcagtaaaca

16561 aaagttatta atttcggcta ctacagttta caaattatgg gttagaggta agcgatcgca

16621 gttaatcaag ttttcctgtc agtcaaaaga gagtaactgt ttttgctatg aataccactt

16681 gtgcatataa tttcaaaggt tctcccagaa caaatacatt agccatctac agcatctaga

16741 gccttgacac ccgaagaact aaaacagctt gaagacaccc tatggcagag tgcagatacc

16801 ctgcgggcta actctgacct cacatcgaat gaatattcga cccctgtaat gggtttaata

16861 tttctcaagt ttgctgataa taaatatcgt cagtatgaag cggagatttt acaggcttat

16921 gaagcattaa aagggactcg tagagagaag aatatagaag aaatagctat tgagaaatgt

16981 ggtttttatt taccaaatca cgcgcgttat gactatttat taaacttacc agaagaggaa

17041 gatatagcta aaaaaattaa agaggcgatg gagtccatag aaaattataa gccagaactc

17101 aaagacacat tgcctaaaga tgaatatttc cgcctcactc gtacagacaa aggtattcct

17161 aaacaactat taaaaaattt ttctaatatt cctcaaaacg ccactgggga tatatttgga

17221 cgaatttatg agtatttttt aggtaatttt gcactttcag aaggacaagg tggaggtgag

17281 ttttttacac cccgttctgt ggtgcggcta atggtagaaa ttattgaacc attaaaaggt

17341 agagtatttg atcctgcttg tggttctggg ggaatgtttg tacagacagg acaatttatt

17401 caagaacagc aagaaaatca aaatcagggt gtaattaatg atttatatgt ttgtgggcaa

17461 gaaaagagac tggaaactgt aaaactagca aaaatgaaca ttacagttaa tgggttaagg

17521 ggagaaatca aacaagcaaa tacgtattat gaagacttgt ttaatagtct tggcgatttt

17581 gattatgttc tggctaaccc accctttaat gtggatgatg taaatctgac acaggtggag

17641 aaagacccgc gatttaatac ctatggtatc ccccgcaata aaacaaaagt taaaaagcag

17701 gatgagggta aacaaacagt acctaatgct aattatctgt ggattaattt gtttgctaca

17761 tccctaaaac ctaaagctag agcagcgtta gtaatggcta actcggcttc tgatgcgcgt

17821 cacgcggaag cagatattcg ccaaaagctg attgaagaga atttaattta tgggatgctt

17881 gctctgccct caaatatgtt ttacacggtg acgctacctg cgacattgtg gttttttgat

17941 aagggcaaga ccgatgataa gattttgttt attgatgccc gaaatatttt tacccaggtt

18001 gacaggtcac atcgagaatt ttcagcagaa caaatcagta atctggcggt tattagttat

18061 ttgcgtcagg gtaagcgaca tcggtttatt aagttgatta atcgctattt tcagcaagga

18121 atggcgaagt taaaagaaaa tcaatcacag gtaaagcctg tttctcagca attaatggct

18181 gtgttgaatg atggtgcaga tgatgtcaaa gctagggaag ttgctgttaa tttcctcaat

18241 ttgtgggatg aggtaacaga tttagaaatt cagtatcaag gttatttaga taaatataat

18301 tatcctggaa taaatattga tacccaaaat gaggcacagc aaaaactaag tgccgcattt

18361 aaaccgtttt ttgataattt ccatgttgag ctaaaacagc ttgataagac tgtgcgcgct

18421 cgtgaagcag agctaaagga gaaagcaaag gaagcagagg cgaagaaacg ggggcagatt

18481 gataaacaaa ttaaggaact gaaaagcact ttggaaacgc tgcatgagga ggtaaaatca

18541 gcagaattat tttttactca tattcgctgg ttacaggaac gttttcctaa tgcaaaatat

18601 gaggatgtga cagggttgtg taagttggca actttggagg aagtgaaaga acaggattat

18661 tcgttaaatc ctgggcggta tgtgggggta gtgattgagg aagatgggaa aacggaagag

18721 gagtttattg aggagatttt aggtttaaat gaagagttgg aaaaattaaa tcaagatgtg

18781 catttgttag aggggattat tgctcataat ttacgtgaga tagcggggga tttatgagtg

18841 attatttaaa tcaatttcag aaattagatg aagtggggac tattgcaaga ggtaaatcaa

18901 aacatcgccc aagaaatgag ccatcgttat atggtggaaa atatccattt attcaaactg

18961 gagatgtaaa acatagcaat ctttacataa ctgagtattc ccaaacatat aatgaaaaag

19021 ggctatctca aagtaaatta tggcaagcag gtacattatg tataacaatt gcagctaata

19081 tagctgatac tgcgatatta aaatttcctg cgtgctttcc tgatagtatt atcggattta

19141 taccctacaa aaataaagct gatgttcgat ttatcaaata ttgtttagat acatataaaa

19201 ttcaaattca ggcaatttct caaggcacaa cacaagacaa tttgagcgta gaaaaacttt

19261 tatcgcttaa atttagaatt ccattaattt ccattcagaa aaagattggg gcgatacttt

19321 cagcttatga tgatttgatt gaaaaaaata atcgccgtat tgccatatta gaaaaaatgg

19381 ctgaggaaat ctaccgtgag tggtttgtcc gtctgcgctt tccgggacat gaacaggtta

19441 agtttaataa aggcatcccg gaggggtggg agagaaaaag attcgatgaa ttttgtctac

19501 tccagcgtgg gtatgatcta ccagatgcta aagtaattcc tggccaatat cctgttatcg

19561 cttcaacttc aattaaaacg taccataatc aatttaaagt taaccctcca gtaattacaa

19621 ctggtcgctc aggctctctt ggcacagttt tattcatcaa tagtcaagcc tggcctttaa

19681 acacgacatt atttttaaaa aacttttatg gtaattcacc atacttaatt tactacacac

19741 taaaattctt aaaactggaa aattttaatt ctggtgctgg tgtacccaca ctaaacagaa

19801 atcatttggg tggattgtat atgtctgttc ctcctaaaaa cttgcaaaat aattttactg

19861 acaaaatagc aattattttt aaacagaaag agcttttagt taggttaaat aataaacttg

19921 ttgaaacacg cgatcgcctt ctcccccgcc tcatctcagg taaactttcc gtcgaaaact

19981 tagacatcca attcccaccg agtatggctg acacaccacc ataaaagtaa tactcagtgt

20041 ttatcctata aagtcagggc agatattgac aaatttaagc agcaatgggc taaaatttgt

20101 acattgatgg actaataata tcaaaaacag cctatagccg tgtagtttgc ctaaactatg

20161 cctaacttta tctctgaaga tgacatcgaa caagcggtac tccgcaaatt agagcagcag

20221 cacggtttta aattactcaa ctgctacacc ccaaaccctg acgacctcaa cgacagttca

20281 aaccgcacag ataaacgaga tgtcattttt agcgatcgcc tgaaagctgc ggctatacgc

20341 ctcaacccca ccttaccaga aacagccata gatgaagctt taaaaatcct caccagtcaa

20401 cgtcagtcta tgtctcccat cgctgcaaat cgggaaatag acgggctgat tcgtgacggt

20461 atccccatac aatatgaaaa tgcccaaggt agaaccgaac ccatcaaagt acgagtaata

20521 gattttaacg atttcaggac agatttcaat aatgaatatt tagccgtttc ccaactgtgg

20581 attaaaggag aaagaaatta tcgccgtcct gacatcatcc tctacatcaa cggtttaccc

20641 ctggttttca ttgaactgaa aaattccaac gtcaaattac aaacagcctt tgacgataac

20701 ctcaccaact acaaaaaaga tattcctcaa ctcttccttg ccaatgcttt ctgcattctt

20761 tccaatgcac tagaaaccaa aattggcagt tttaccgcag actgggaaaa cttctttaac

20821 tggttacggg tagaagatga aaaggaaaaa ataaatcgtc agcagattca ggaatctggt

20881 actagcctag aacgagccat agatggtctt tgtcaccctg ccaaactcct agactacatc

20941 gagaatttta ttatttacag aagtggaact cagaaaattg tcgcccaaaa tcaccaattc

21001 attggtgtga atcgcgcaat tgatgccttt atccatcggg aagaaaaaca ggggaaatta

21061 ggcgttttct ggcacactca aggctcagga aagagctttt ctatgatttt ttatgtccga

21121 aagatttcgc gcaagctcaa aggcgatttt acctttgtgg tggtaacaga ccgggacgat

21181 ttagacgggc agatttaccg caatttctta aacaccgaaa ccgtccaaga gaaagaagct

21241 gctcaaccca aaaacagtaa acaactgcgg gattttcttt ctttcaacaa gcggatagtt

21301 tttaccttga ttcaaaaatt ccgctacaaa aagggcaaga agtatccaat attgagtgaa

21361 cgtaacgata tcatcgtcat tgttgatgaa gcacaccgca cacagtataa atccttagcg

21421 gaaaatatgc gggcaggttt acccaatgcc aactacctcg cgtttacagg tacacctctg

21481 ttaggtaaag aacgcaaaac taatgaatgg tttggggatt atgtcagcga atacaacttt

21541 tctcagtcaa tagatgatgg tgctactgtc cccctgtttt accagaagcg agtaccagag

21601 gtactgattc aaaacgagaa tttaagcgag gaattttacc aaatactcga agatgaaaac

21661 cttgatgata cgcaacaagc caagctagaa aggaaatttg cccgtgaaat tgaggtcatt

21721 aaacgtgacg atcgcttaga aacagtagcc aaagatatag tttaccactt tccccgtcgt

21781 ggttatctag gtaaaggttt ggtagtttcc gtagataaat tcactgctgt gaagatgtac

21841 gacaaagtac agtatcactg gaaagcagaa attaaaaatt tagtgggacg aattaggaaa

21901 tctaataatg aaatcgagaa agtgcgcctc aaaaagattc tcgattttat gcgcgaaaca

21961 gaaatggctg tagtgattag tttagaagga agcgagagcg aagagaaaaa atttgctcaa

22021 caaggactcg atatcaaacc ccaccgaaaa agaatgaata cccttgatgc tcaaggtcat

22081 gatatcgagt atcaattcaa agattcagaa aatcccctgc gcttggtgtt tgtctgtgcc

22141 atgtggttga caggttttga cctacctacc ttgtctactc tctacctaga caagcccatg

22201 aaagaccaca cgctgatgca aactatagcc cgtgcaaatc gcgttagtag ttatcagatt

22261 aataatgtca ctaaaaccaa cggcgagatt attgattact acaatgtctt ccgtgatatg

22321 aaaaaagccc tagcagctta cgctttgggc aatgatgaaa actccctagt tccagaaaaa

22381 tctgacctgt ttaaattact tgatgatgcg atcgcgcaag gactaaactt ttgtcatgaa

22441 cgaggcatta atctagaaac tatccttgcc agtcaagata ccttcaagaa cttagagcag

22501 tttaaccagt ttgccgacac cctactgcaa aaagatgaat ggcgtaaagc ctttgtggtt

22561 tatgacaata ccattacctc actctacgaa gcctgtaagc cagagatatt aaaccaacca

22621 cgccccctgg tgtcagtttt tcaatactta cgaggagtca ttgatagtat tatcgagcgc

22681 aaagatattg gtaacgtcag tttaaaaatt gccgagttat tagatgaaag tatagtcaca

22741 gatgatcaag gagtgaccac acaagagtat agtgcgaaat accaaattat ccagaaaggt

22801 gaagtttggg atttaagtaa aatcaactgt gagcagctaa aagccgaatt taaacacaaa

22861 ccctataaaa atattgcaat taccgattta aggagcttca tcgaagacaa gctcaaccgc

22921 atgattcagc aaaatactac tcgtacagac tttgcccaaa gactacaagc aatcattgac

22981 aaatataacg ctggtggttc atcaactgag aactactacg aagccctggt aaactttgcc

23041 gaaaacctga aacaagaagc agaacggcat attcgggaag gcttgacaga agacgaactg

23101 gaactatttg atttactcaa gaaagacaaa atgactgcgg atgaaaccca gaaagtcaaa

23161 ttagctgcca agtccctttt acagcgactc acagcagagc agccaaaagt tttagtgcaa

23221 gattggtata aagatatgca gagtcaacgc agggtgaaat ccgtagtgga agcagtctta

23281 gatcaaaatc tgcctgaaag ctatgatcga gcgttattta agtttaaatg cgacacagta

23341 tttgatttga tctatgacca ggccagtaaa ggtgcaaagt gggcagtctg agtaatggaa

23401 actatgtcta tctatgaacg cgatcgcatg aagacgaaaa tcagatttat gagatttgta

23461 cggctggcat aatttatcac tgctttcgac ttttcaagta gctctactta agcgataatt

23521 agaacttgaa gacacatgat gactataaca aaatgggcca gcatttatac gctttacttg

23581 ttggtatcga caactatcct gaccccaatc atcgccttca agggtgtgtg aacgacataa

23641 cagtaataca agagtatctt aacgaacggg tcgatcagca gcagtatgaa ctgcattcat

23701 tgatacttaa aaatagtgaa gccactcgtc aggcggttat taatggcttc cgcaaccatc

23761 tttgtcaagc tcaacaaaat gatatagttc tgttttacta cagcggtcat ggttctcagg

23821 agttagcacc gaaagaattt tggtatttag aaccagacca tctggatgaa actttagtat

23881 gttatgacag tcgtactgag aacggctggg atttggctga taaagaattg gcactactga

23941 ttggggaagt cgcagaaaac aacccccata tcacaattat tttagattgc tgtcactctg

24001 gttctggtac taaagatccc atgcagacag ctaaggaacg tcgcttcccc acagacaagc

24061 gatcacgtcc attagatagc tttatctttt ccctcgacga tttagagaga ctttcagata

24121 cccacaaccc cgaaaaacac ccgactgggt ggaaaatccc cagaggtcgt catgtacttt

24181 tagcagcttg tcgagaccac gaaacggcaa aggaatacta tggtggtggc caacaccggg

24241 gtagtttctc ctatttctta ctggataccc tttctaaaac taacggaaaa ctaacttatc

24301 gagatttatt tgcacgcacc aacgctattg tccgcagtga aattacagac cagtctcctc

24361 agttggaagt aaatgatcct gaagatgaca ataaattttt tctcgatcgc gtgatcgctg

24421 aacatgaccc ctattttatc gttcagaatc acagaaccta cggatgggta attgatggtg

24481 gtgcagttca cggagttcaa gcacctgaac atggagaaac tactttacta gcattgtttc

24541 cctttgatgc caatattgat gatctacgtg acccatcgaa atctgtgggt atagcaaaag

24601 ttactcaggt actaccaggt aagagcaaaa tagatattga aggtatacaa aacttagctg

24661 ctgataacac ttttaaagca gttgtgacga gtctacctct accaccttta ggagtgtact

24721 ttgagggaga tgaggatggt gtcaccatag caagggaaaa gctgagaaca gtgggtaatg

24781 gtaagtctcc atcaccatat ctccgcgaag agaaagaagc tagtcaagct gagtttcgtc

24841 tgttgtgtca caacaaccaa tatgtaatag ccaaaccaac agatagccga cctcttgtag

24901 aacagattga tggttacaca ccaaaaaatg cagaaatagc aattaaacgc ctagaacata

24961 ttgcccgttg gacaacaatt gctaaacttt caaatactgc ggcaactcgg attaaagctg

25021 gtgatgtgaa gatggaactt atctttgctg atgaggattt accacaatca aaccagatgc

25081 gtttgccata caaatataat aatggaacat ggcaacgacc agaatttaga cttaaactca

25141 ccaatacgac gaaaaagcca cttttctgtg ctttagttaa cctgtcagat agtttctcca

25201 ttagtacccc gttttttgaa gcaggtagca ttagactgga agcagaacag gaagcttatg

25261 ctttagatgg agaagaattg caactagaag tcccagacga gtattgggaa cagggtatca

25321 cggagtacaa agacattatt aaattgattg ttagtaatga tgagtttgat ccaagattgt

25381 taaatcaaag caaacttgat gctcctcggc ttaaagcaat agataggaat tatgcaaatc

25441 aaagtagtct tgatcggttg atggatcgta ctcaaaatcg agaaattaga gcgaaaagtg

25501 acgctgttag atttgatgat tggtacgctg aagaaatcac aattactaca gtccgtcccc

25561 tgcaatctac accagtttct cagcaacaag aacaacaatt aggcgcaggg gtaagattac

25621 aaccacatcc taatttagtg gcaaatgtta gcctcacaac tataccagaa gtgagccgag

25681 atttgggtaa caacattgta cctcctatct tgagagaaaa ttccgaagtt attcaaccgt

25741 tccaatttac tgccagtcgt gctactgacc ctggattaag tgtattggaa ttaaacgata

25801 ttcaagatta caaagttgtt actcctaatg cacctctaaa attatttgtt gatgcaccac

25861 tagcagataa tgagtatatt cttcctatcg gctatgacgg agaatttttc ttgccgttag

25921 gtcgtggtca taaaacttta catggtcaaa cagaaattga gatagaacaa ttaccagccc

25981 cagttagtca aggagagaaa agcctacaag gttctattcg catctttttt caaaaaatta

26041 tcaaccaaaa attaggaaaa aaatataact atcctctact cagagtagta gaagttaatg

26101 ataatcaaca agttaattat ctaccagatg aggtaactat taaccgagtt aaggaagcaa

26161 aaagaattgc tgtttatatt catggaatta ttggcgatac tgaaagttta gtggcaacca

26221 tcaaacagcc tatattacaa ccagacagac aaacagtttc tatcagcgaa ctttatgatc

26281 taattcttac ctttgactat gaaaatctca acacttccat tgaaaataat gctcaatatt

26341 taaaaaagcg attgagagat gtaggtctgg gagaaaatca cggcaaagaa ttacatatta

26401 ttgctcattc aatgggggga ttggtatctc gttggttcat tgaaagagaa ggaggaaata

26461 aagttgtcca acacttgatt atgttgggta caccgaatgc aggttctcct tggccagttg

26521 tagaagattg ggtaaaactc actttaggta ttgcacttaa tggtcttgct atcattgctt

26581 ggactgcaac tgtggtagct ggactaatgg gtgctttaga aagaaatatt cgggtagcat

26641 tagcccaaat gaacccagct tctgattttc tcaattctct agcagccagt gatgaccctg

26701 gtattcctta ctcaattatt gctggtaata cttctatgat tacatctgtt gttccagcag

26761 cattagagca acaaccagag aaaaattcta gtgtgctaga acgactcaag caaagtttat

26821 ttaatagagt tgtagcttta ccttttggtg gtgaaccgaa tgatattgct gtgacggtgg

26881 aaagtattaa tagcattcct caagggcgat cgcatcctcc ccatattcaa gaagtacctt

26941 gcgatcactt gagttacttc ctgaatcaac ctgatgaagt tgggttacaa gctttgattg

27001 cagctattac gaatcaagaa tattcttatg gagagttaca aaaaccttat aaagatcaag

27061 aattacaggg actttatgaa ggattacaag atttatggga aaaacaagaa attcatactt

27121 gttctatttg ctcgaatttt atcacagtta atcaaaaatt tgaaggtgct agtaatgttg

27181 agtctttcat tgcgaaaaac agaaaaaaag tggaaaatat aattgttgaa attaatagca

27241 catattcggc aaaagaaata aaagataact tacatcaaat tgcaattata gggttctaca

27301 gaagtaacag tttccgttcg ttacctgcaa ttatttccca aaaagataat tttttacaaa

27361 tcgagcttga agacattttt agctttttag atcctaaaga aaatcaacaa actgaaaata

27421 ttccatcttt ttcaacagag ataattttgt ttgccgttta ctatcagaag gagaataaac

27481 atggatacta agaaagtaga agaggtaagg aagacaggat gtactcttat tgcttttaaa

27541 gatggtaagt atgaaagagc agcatctgaa gattttaaaa cagaagctga catagttatt

27601 ttaattcatg gctttacgag tcatggagaa tacatgggtc aggaattagt accttatctt

27661 tatagtgaaa attatcaaat cttcttgttt aattatgatt cttacaaagg aatattatct

27721 gctgtaagga gtttacaaga attactggaa acgtatgata atctaactaa tcaaaaaata

27781 cgctccaaga aaatattcct tattgggcat agtatgggtg gtcttgtagc tcgtcaattt

27841 actatagatg atgcaaagaa ggacaattca gataggttta taaaaggagt gatcatgttg

27901 gctactccta ataatggtgt attacaaaat aaattaagta acgaaaattg gagaaatttt

27961 gttaagtatt taatatctgt ttcagaagaa ataggcggag tattcccaca agccagaaca

28021 ttggagtgcg tcgcggtaaa agaacttgct aaaattgatg agtataatat tattgataaa

28081 ttgaattacg aatgggaaaa gatgagttgc aatttgccac caagtttatc tatatctggt

28141 ggacaaaatt atcttgaatt cactaataaa ttaattgaag gaataattaa tcgtggaatt

28201 cagcaattaa tatctgattc taatacccgc tgccctaatg atggaattgt gcttgaatgc

28261 agtgttgata tgaactcatg tattagctat ccccaacaaa atcaacaata tatacacctg

28321 aataattatc atgaatattc aaataccaat cacaatacaa ttcatatcca acaaatagta

28381 tcaattaaaa ttgtagaatg gttacaaaca atcagcaaaa aaaatacgag tttactaaat

28441 aacgcataat aataaaattg attgtagtgc ttttgaattt ttagagttaa cataacaatt

28501 atgtctaaac ataaatttaa ccttaatttt gctattatta tcggtattaa taattatcaa

28561 agcgggatca aagagctaga aacggcagtt ccagatgcta ttaaacttgc tgaaattcta

28621 caaaagcagc atgatgctct aaaaccacaa tatcaagcac aaaataaata tgaagtgcaa

28681 ttatttttaa atcaacgcgc tggtcttaaa caactgaatc aattaattgc agattttaaa

28741 caaggtcaaa taccattaga cagaggtaaa gttacagtta cagaaaatga tcgcctcctt

28801 ttttactttg ctgggcatgg aattgcttta gatgctctag aaaatcaaga aggcccagtg

28861 ggttacttaa ttcctcaaga tgctatatca ggggatagca gtacctactt gccaatgcag

28921 gaattgcatg atgctttaaa ctcacttcct tgtaggcata tgttagcaat tcttgattgc

28981 tgctttgcag gagtatttcg ttgggcaagt ctaaaaagag aaattgtgcc taaagtaaaa

29041 gtatataagg aacgctacga ccgattcatt agcgatcgcg cttggcaagt aattacttct

29101 gctgctgatg accaaacagc tttagattct ttaggttcac ggggtatggt cacagagggg

29161 aacgaagttc attctccctt tgccaaagct ttgtttgatg gtttatttgg gaagggtgca

29221 gacctaaata aagatggtat catcaccgca actgagcttt acttgtattt aagagatcaa

29281 gtcgaaatcc ttacagaaaa taactacaag cggcaaaccc ctggtttgtg tccactgaaa

29341 aaacacgata aaggggaatt tatctttttg tcgtctgaat ttgaccgaaa taatttggag

29401 gatgcaccgc cactaaattt agaaaataat ccctatcgag gattagaatc ctatgatgaa

29461 aaacacagtc atttgttctt tggtagagaa gaacagatta aaaagcttta ccagaaagta

29521 gttgctaaca accagaagtt aacattagtt ttgggtgctt caggtactgg caaatccagt

29581 ttggtgaaag ccggacttat tcctaaactc aggaaagata aaacttggtt tatcctaccc

29641 ccttttcgac caggggagtc tcctttcaaa tcattgaata acgcactaga atcggttaag

29701 cagcctttga ttgctgcttc ctcaacgacg acaccttctc gtttgcttac cccagccgaa

29761 gaaagccttg caaattggtt taataatcat cctcaagcaa agctactggt ggttattgat

29821 cagtttgaag aactgataac tctgtgtaaa agtgacaaag agcgagagca atttgagcaa

29881 ctgattaaaa atgcaattac caaatatgcc gacaaaatcc atgtagttat caccttgcgg

29941 cttgactttg aagcacagct tcaaaactct gtacttgaaa agttctggaa tgatgagact

30001 cggtttgttg tcccaccaat gagccagaat gaatttcggg aagtgattga gaaacctgca

30061 ctagaaaaag ttatatattt tgaccctccc agcttggtag atgacttgat taacgaagtt

30121 gtacaaatgc cgggtgcttt acctttgctt tctttcaccc tcagtgaatt gtacttgaaa

30181 tatttgcagg agcggagaga taaccgggct ttaacgaaag aagattacga acagttagga

30241 agagtagttg gttctttaac caaacgagct aatcaggaat atgatcattt aattcaagaa

30301 aaccccgctt atgaaaacac tgtacaacag gtaatgttac gaatgatttc attgcagggt

30361 agggagtcag cacgacggca agttcctaaa tcggaactgg tgtatgccaa tgaggaagaa

30421 aataaacggg ttcaaagaat tattaaatgc ttttctgaag ctcgcttaat cgttgagggt

30481 tctaattctc aaggtgaacc ttatgtggaa ccagcacatg atgctttagt acaggggtgg

30541 gttaagttac aggagtggat taaacaagag caacagaatt tacctttaca acgacgattg

30601 acattagctg tccttgagtg gaaaactaag aaacaaagcc aagataggca agaagcaaag

30661 ttcctttgga atgccgatcc ttacttagat gttttaaaca aaatactcaa ttccagtgac

30721 aattggctta accaagtaga aactgagttt gttaagtgta gcaccaacct cagagaaaag

30781 aatcgtcgca ttagaatggg cttggttgct accgcattct cttttatctc catattttct

30841 tttatacaat ggaaacaaaa tcaagaagct cagagtatca acttgagtgt atcttcaaaa

30901 actttatttg ctgctgatca acaaatagaa gcgttagtag aagccataaa atctgggaaa

30961 aagctcaaat ctgtggttat accagaagca agtaccactc accaggttgt aacaactcta

31021 tatcaattag tttacagttc gatagagtat aatcgtttgc aagaagaaaa aggattttat

31081 cgtgctagtt ttagccctga tggcaagatg ctggtttcag taagtcagga caatattatc

31141 caattgtgga gcttagatgg taagaaactt aagaaaaatt ttaccagtaa tctttcaagt

31201 gtagatagca tcaactttag tcccaacggc aaaatgctgg ctctggcagg taataatgat

31261 aattttatcg aattttggaa tctggatgga gaagataaac ccaggacgct taaaggaaaa

31321 ctttcaaaaa caaatagtgt tagctttagc cccgatggta caatgctggc tttaggaagt

31381 aacgacggca tcatccaatt atggaattta gatagtaatg aagttaaaac ttttactact

31441 aatcttaaaa taaatagtgt tagctttagc cccgatggta caatgctggc tttaggaagt

31501 aacgacggca tcattcaatt gtgggatttt cgtagcaatg aaatcaaaaa ttttaatagt

31561 aagtataaaa taaaaaatgt tagctttagc cccgatggta caatgctggc ttcagtaagt

31621 acaggaatca ttcaattgtg gagcattcaa acaggcgaaa aaatcggtgc gggaagggaa

31681 ctcgtagggg atgtggattg ggttagtcgt gttagcttca gtcaagatgg caaaatgctg

31741 gcttcaggtg gctataacgg cattattaaa atctgggaca ctgaaacagg taaagaactc

31801 ttaagcatcc aagggagtcg aggtaggact ggtgcgtcaa ttatggatat cacttttagt

31861 cctaacggca agatgttagc ttcagtagat gatgacaagt ttatcaagct ctggaatctg

31921 aatggtgaga ataaatccaa gatgctcaag ggtcagcttt caaagataag gaatattagc

31981 tttagcccca acggcaagat gttggctttg gctggtgatg ataagtttat cgaactctgg

32041 aatctagatg gacaggataa acccagaaaa cttcaactac aagtttcaaa gataaggagt

32101 attggcttta gccctaacgg caagatgctg gctttagctg gcgatgataa gtttatcgaa

32161 ctccggaatt tagatgaaca gtatgaacag tatcaacctg gaaaacttct aggacataag

32221 tcacgtgtta atagtattag ttttagccct gatggcaaga tgctagcttc agcgagcgat

32281 gaccagacaa taaaactatg gagtctagat agaaacaaag aacccacaac tttaaaaggt

32341 catagtaatt tggtcaattt tgttagtttt agtcctgatg gcaacttcct agcttcatca

32401 agtaaagacc acactatcaa actctggaga ttgaaagaca ataaggaagt ctggagtaag

32461 aaaattgggt ctggttctgg tggccaaacc tggtgggttg gttttagccc tgatagcaca

32521 atattggctt cggtgggttc ttacaatttt atccagctct ggaatctaga cggtaacgaa

32581 ttcagaaggc ttagaggtaa tctttcaaat atcaatagtg tagccttcag tcccgacagc

32641 aagatgctag cctcagtaga aacgacagaa gattcagtag gtaaagcaga ggaaagcgtc

32701 atcaaattct taaacttaga ggggcttgaa ttcaataggc tcaaaagcca atttgtagat

32761 attaatacca tcagtttcag tcctgacggc aaacttttag ctgtaggagt tgaagatggc

32821 actgttatat tacacaactt agatttagat aatttattaa gacgcggatg tcattggata

32881 cgtgattatt tgcgaaataa ccctaatgtt agtgaggtcg atcgccatct ctgtgacgat

32941 gtaccaccaa ttactacaaa tcctgagaat taggtgagtt aaaagcgaac tgcaaccacc

33001 atatgtccaa atccaagtac gaattttacc gcgaccttgc agtaatcatt gggattaata

33061 actactcaaa tggtattcca gagttagaaa cgcctgtcgc tgacgctgaa aaattcgcca

33121 aaattctcca agataattat caatatgagg cgcagatatt actaaacgaa aaagcgacat

33181 tgaaagagtt aaattctcta ctggaggact tcaagcaaaa aaaattacgc ctaccagata

33241 aaactgtaca gatagaagaa aatgaccgct taatacttta ctttgctgga cacggaatcg

33301 tcctcagaga tgggctagaa aatacggata atctggaagg atatcttgtt ccccaagatg

33361 ctagaggaga tatcttgttg caaaacaata ttcttctacc tatgcaagac ttgcatgatg

33421 cactagcaca attaccttgc cgtcatttgc taattatact tgactgctgt tttgctgggg

33481 catttcggtc gagtttgtat agagaaattg tacctgcacg aaaagtttat aaacaacggt

33541 acgatcgctt tattagagat ccagcatggc aagcgatcgc atctgcggct catgaccaaa

33601 aagctattga ccatctaggt tgttttggac agagaggaag caaaggcaaa cactctcctt

33661 ttgcaaaagc tttgtttgac ggtttgctgg gtgctgctga cacaactcta agagaaggtg

33721 atggtattat cacagcaaca gaactttact gttatttacg cgatcgcgtt gaggaactaa

33781 ctgataaata tgacaaacgc caaactccag gtttatttcc tctgaaaaag catgataaag

33841 gcgagtatat cttcttgctt cccaacttcg accaaaacaa tttagaagat gcaccagcac

33901 tcaagcaaga aaacaatcct tatcggggtt taaagagcta tgaagaagaa cattctctcc

33961 tgttttttgg tagagatgaa cttgtcaaag aactatctac ccatgtttct caaaccaata

34021 acccactcac cgtagttttg ggtatttctg gttctggaaa gtcgagctta gtgaaagcag

34081 gactcattcc ttatttacga aaacatcata accaagaatg gtacatcata ccaactattc

34141 gcccaggaga taattctttc acttctctgg cagaggcact tgtagaaaag tctgaaacag

34201 atggaaatta cttaaacaaa attaaatctc taaatcagac attaaaacaa ataccacagg

34261 attttattaa gataatacaa gaattactac taatacctga aaaagtaaaa attttattag

34321 ttatagacca atttgaagaa ctaatcacag tttgtaatcc acaagaaaaa gaacaatttt

34381 taaatttcct tagcagtatt ttagaagctc atcctcagca aatttccatt gtattgactc

34441 tgcgttctga ctttgaacct cggtttttag attctgctct gaaagcatat tggacacaat

34501 ctcgttttcc tatacgagct atgagatccg atgaattacg gcaggcaatt gaacgacctg

34561 ctaacgaaaa aatgctcgat tttgacccac caaatttagt tgatcagttg attgacgaag

34621 tggggcaaat gccaggagca ttgtcgctat tatcttttac attgagtgaa ctatatatta

34681 aagccataaa tcgagaaagc agaactttaa gtaagactga ttacgataca ttaggcggag

34741 ttgcaggttc attaacacaa agagcaactc aggaatacca aacattagtg aaacttgatc

34801 cagcttatga acataccgtc cgccaactca tgctgagaat ggtagctatt gaaggtaatg

34861 aattagcacg acgacgagta ccaatgtcag aactggagta tgagagtgta gaaaaaaatc

34921 aaagggtgtc gcgggcgatt gctcagtttt cggcggcacg tctaattgtt gaaggtaaag

34981 aaactggtga cgaaccttat gttgaaccag cacacgatgc cttagtaagc gggtggaaca

35041 aactacagga atggaaaaat gatgagcaag gaagtttagt tttgcgtcaa cgcttaacac

35101 catctgctaa cgattggcta aaagatgggc gcaaatctga ttatctatgg attcgtgatc

35161 ctcgcctcgc tatcctggaa aaagtcctgg aattgccatc tgaagaaaac tggctcaatc

35221 agctagaaac agaatttgtg aacaccagta ttcagaaaag aaaggatgaa cttgaagaaa

35281 ctaaagaaca actccgcatt tctgaagagc gtcgtatcga agcagaaaag caaactgcga

35341 tcgcgcttgc tagaaattct gaagccttac tatcttctaa tcaacaatta gaagcactga

35401 ttgcagcagt aaaggcagga agaaaattac aaaatctact agcagaagaa gctatttctt

35461 cacaaagttt gttattcaag caaactgtgt tattcaagca aactgtgatt gccctagaac

35521 gagcagttta tggagtgaga gagcgtaacc gtttggaagg acatagcggg ccagttcaaa

35581 gcgtctgttt tagtcctgat ggcaagatga ttgccactgc tagttgggat aatacagtta

35641 agctatggag tagggaaggt aaagaactaa aaactctgaa aggacattat gatggtgttt

35701 taagtgtctg tttcagtcct gatggtcaaa ctgttgcctc aactggttgg gataacacga

35761 tcagaatatg gaatctggag ggacaggagc ttacacagca ccctctcgga tttggccata

35821 cagatcaggt atggtgtgtt tgttttagtc ctgacggaga aatgatcgcc tctgccagtc

35881 atgacaggag agttaaactg tggaataaag atggacagtt tctcagaaac ctttgtgaat

35941 caagtaccac cgagcatgaa ctaaccgtca gtagtgtttg ctttagtcct gatggaaaaa

36001 taattgctac tgcaagttat gataacacag ttaaactttg gaatcttgac ggtactttaa

36061 ttaaaagttt tacacatagc ggggcagttt atgatatcag tttcagcccc gatggtaaca

36121 ctattgtttc tgctagtgca gacaagacag taaaaatttg gagtttaaac ggcaaaaaac

36181 aaactcttaa aggacatgaa ggtgaattta cgagtgttag gtttagccct gatggaaaaa

36241 taattgcctc tggtagtaaa gataattcta tcaagctttg gagtaaagac ggtcaggaac

36301 ttacaactct cagagggcat actgcggaaa ttactagcat taattttagc cctgatggta

36361 atatcattgc ttctgctagt gaagattcaa ctgtcaagat ttggaacaaa gacggtcaac

36421 aaatcactat ccttccagaa tatggtgaag gggttactca agtctgtttt agtccagacg

36481 gcaaaacaat tgttggtaat gcgaaaaata cactcaaact ctggaatctt gatactcaag

36541 agagcaaaat gttttctgat attactggtg caaacaatgg tatcagtttc agttttagcc

36601 cagatggtaa cgcgatcgcg gtctgtggag gttttgacaa aatggttaaa ctttgcaatc

36661 ttgaaggcca agaaattaag aactctaacg attattatca cgcaataagg gctatccggt

36721 tcagccctga tggtaaaact attgctttta ataataataa aaagattgac ctttggaatt

36781 gggagaatca agagataaaa accctgtcag ggcatacagg caaggtttgt agtctatgtt

36841 tcagcccaga cagtaagata attgtttctg gtagtgatgg ttctgataag acaattaaac

36901 tgtggaacct aagcagtggt gaagttatca tccttgaagg tcatagtaat agtgtaaatc

36961 aagtctgttt cagtccagat ggcgaaataa ttgcttctgc cagttctgat aacacagtaa

37021 aactttggaa tcttaatgga caagaactaa aaactctccg aggtcatagc tatcaggtat

37081 ttgatgtaac ttttagcctt gatgggaaaa tgattgcttc tgctgattgg gatggcacaa

37141 tcaaactttg gaatcgtgat ggtcaactgc tcacaacttt agaaaaacga agtgaaaaac

37201 tatccagtat tagcttcagc ccggatgttc aaatcctggc tgctgccagt aataaaggag

37261 taattttatg gaacttcaat ttagatgact tagtagcacg tggttgtaat ttgttacatg

37321 aatacttaat gaataacact aatgttcaag aagagcaaaa tctctgcaat gacagatgaa

37381 taagcagtaa gcaatatacg caaaatagtt cacagaaaat aactgacatt ctcaaaacta

37441 aattagttat taacccaagt tgctagttat gccgaagagc gatcgcagtg ggttccattg

37501 ccgcttcaga atggatagtt aacatatact ctcaaggcga ctgtatttac tgcttccctg

37561 cgtggcgtag ccattcctgt tacttaatgt ttccggtttt agtcgatact attaccatag

37621 cagcaataga gggattactg attaagcttg ctctggagag cgatcgcaag ttattttgga

37681 acaaatagat gccaaatcct tacagggctt gctttcggca aattatatga cttttttatt

37741 tatcaatatg aggcatttct gaaaaattgt acaactttat tttttgatat caaataaaat

37801 tgaacgtaaa tacaaggctt ataaactttc aaattatata agttttttat gtttttacaa

37861 taatttggta gaataaccag ataatttctg aatgtgatga taatattatc acaatcagga

37921 atattttttt gggcgatcgc ctacggtgct gatgcgtcca cctcatcact tgtctataaa

37981 taaaaaacaa gcaggacata tactatgagc caaaaaacca ttgattccaa aaatctgacc

38041 atagaaaaaa tttttgaaga tttttatatt attcctagtt atcaaagaga atatatttgg

38101 aaagaaaaac aagtattaga gttattaaat gatgtatata gtgaatttcc tggctcttta

38161 aatatagaat ctgatgaata ttttctaggc agtattgtaa tttgtcctag ttctgaagat

38221 acagacaatg tgtatcaggt aattgatggg caacaaagat taacaacttc ttatatcttc

38281 ttttgtgctg tcaaaaatta tataaataag ttgccagaac atcaaaagtt tgatgcgatt

38341 aagaaattaa tttattcaga gtatacaaat gcacaaggtc aagaccaatc acaatacagg

38401 ataaatcctc aatatccaga cagtaaaaat attttggaag aatttgctaa agatgaaatc

38461 aatatagaag agatagaaaa taaaaaaaat aataaaactg aatctacaat taatttgatt

38521 tcagcttacc aaacaataga agattttatt aaggataagt tcaaagatga tgaaaaccag

38581 atcaaaaggt tttatgcaca tttcatcaaa aaagtaaagt tagttagagt tgaaactaca

38641 gatattaacc acgccttaag agtttttgaa accatcaata atagaggcgt tggcttggat

38701 tctatggatt tacttaaaaa tcttttgttt aaacaagttg aaaaagaaga tttttcaaaa

38761 attagtaatt cttggaaaga aataaaaaat gaattagatt cagtaaagga aaagcctatg

38821 gattttctac gatactttat tctaactcaa tatgatgttg aaagagataa tgtccaaact

38881 aaagaatacc aatggttact ggaaaataat actacttgta aatatgaaga aaaaccattt

38941 gagtttgtcg aggacttact gaaggctgca aaggcttata aatcattact agaaagaaaa

39001 aatccttctg ataattcaga taacccgcat ttagctaata ttaagtattt aagccccaat

39061 cttaaacaac atctatatat actgttagca gcaagggata tgtcaatgga aatattttct

39121 caattgtgtc tacatattga aaactttatt tttgtttata gttttcctaa taattcaatc

39181 agtgaattag aaaaaatatt tattaattgg ggtcaagaga ttcgtaaaat agtacaaaat

39241 acagacaaag aagagcaatt atctaaatta aaagaatttt tatataacaa tctaggtgta

39301 cgtaaagaaa atctcaagaa atcttttgag aaaaagttta aggaagcaag tcaattagac

39361 tttaattcaa gaggaacaaa taaaaagcca acatcaaatg ctaataaaaa aacaaagtat

39421 atattagcaa aaatttctca gtatgtacaa cttatagctt atagcgacaa tgatgagtgt

39481 aaaaatttta caacttttac tcagagttca atagaaattg agcatatttt accacaagat

39541 ttaaattctg aacctgttaa agcttttgat aaaccagatg aagttgaatc atatatatac

39601 aaattaggca atttagcttt gctagaacaa actctcaatg cttctattca aaatagtcca

39661 tttgaagtta agaaagaagc ttatcaacaa tcgaattttc ttttaacaca atgtatatct

39721 gaaaagccca ctattggaac taatactgca attaataggg ctgtggagaa attaataagt

39781 tttaatgaat ggaattcaca atcaattgat aaaagacaag aaatgctcac agaattagca

39841 ttgaaaatat ggtacgagga agtatctttc gaagaagtac cttttgagga aagtctggat

39901 gctagggaaa tacaggaact attgcggttt ggtggtgaaa gagctattta atttgatagc

39961 atctgatatc ctttctacac ctaaagtgcc agttgcgtaa gtcctgaaca tatatagata

40021 gaaagtgaga taagaacagg taagagtaag ctattcaaac acaacgccaa ttttcgattt

40081 gtaagttagg tattctttga aattctcgaa cattagatgt caccacaata tgattattga

40141 tgactgcggt agctgcgatg agtacatcat acgcaccaat aggtgaacca gctagtttga

40201 gaaagcttct gatttcggct gcttgttctg ctgctttcga gtcaaaaggt aaaattgtga

40261 ttgagtttaa taatgtttca aaaattgatt ggattttaac agcgcgttgt gggttaatag

40321 ctaatccata tttcacctcc ataactgtta gagatgacac aaaaatctcc gcaggggaaa

40381 ttaattttat tcgcttgagg gtgttttctt ctcctttgac aaaatcacta atgacgcaag

40441 tatccaatag ataacccata cataattaaa gttctatttc gttaggaggt atcagttcat

40501 ctcgatatga ttcaaagata atactttcgt ttacaccttg atattgtatt agggtttctg

40561 gccattggct gggtttagtt tctaggaatg tcacgaaaac aatgctttca gtaatacctt

40621 gcggtgtttc agctagttca attttgccgt ttttataaat tccttgaatg gtttttaaca

40681 tagagcttac ctcctacatt aagtttaacc tatttattct ccttcttcag tcatgctggg

40741 tgggaatcga atgtctgagt cttcaatata aattttacct gagatgagac gatttatcag

40801 gcgatcgcgt gtttgtttaa ggtgtaattt tactaattgg atataatcaa tttgattgtt

40861 caatttactt gcaaatttac aaaagtttac tgtgt

上述IB18基因座中组分的特征，例如TnsA、TnsB、TnsC、TniQ(TnsD)、Cas5、Cas6、Cas7、Cas8和CRISPR簇如下所示。

特征位置/限定符

CDS 265..510

/product＝"NA>cl_18381"

/gene＝"NA>cl_18381"

/locus_tag＝"NA>cl_18381"

/label＝"NA>cl 18381CDS"

CDS 735..2609

/product＝"NA>cl_19425"

/gene＝"NA>cl_19425"

/locus_tag＝"NA>cl_19425"

/label＝"NA>cl 19425 CDS"

glmS 735..2609

/created_by＝"makoto"

/label＝"glmS"

ITR 2634..2700

/created_by＝"makoto"

/label＝"Right End"

motif_3 2642..2660

/Mismatches＝0

/％_Identity＝100

/Motif＝"[AC][AC][TA]AA[AT]AAAGT[TC][AG]TA[CT]AN[TC]"

/annotation_group＝"AttTn7_cluster_2:7,354,202->

7,354,220"

/label＝"AttTn7_cluster_2"

motif_3 2662..2680

/Mismatches＝0

/％_Identity＝100

/Motif＝"[AC][AC][TA]AA[AT]AAAGT[TC][AG]TA[CT]AN[TC]"

/annotation_group＝"AttTn7_cluster_2:7,354,222->

7,354,240"

/label＝"AttTn7_cluster_2"

motif_3 2682..2700

/Mismatches＝1

/％_Identity＝"94.73684210526316"

/Motif＝"[AC][AC][TA]AA[AT]AAAGT[TC][AG]TA[CT]AN[TC]"

/annotation_group＝"AttTn7_cluster_2:7,354,242->

7,354,260"

/label＝"AttTn7_cluster_2"

tnsA 2742..3557

/product＝"1-272|id:63.235@bs:384"

/gene＝"1-272|id:63.235@bs:384"

/locus_tag＝"1-272|id:63.235@bs:384"

/label＝"1-272|id:63.235@bs:384 tnsA"

CDS 2742..3560

/product＝"tnsA_10>cl_27484"

/gene＝"tnsA_10>cl_27484"

/locus_tag＝"tnsA_10>cl_27484"

/label＝"tnsA 10>cl 27484 CDS"

tnsB 3581..5809

/product＝"1-741|id:67.738@bs:1002"

/gene＝"1-741|id:67.738@bs:1002"

/locus_tag＝"1-741|id:67.738@bs:1002"

/label＝"1-741|id:67.738@bs:1002 tnsB"

CDS 3581..5812

/product＝"tnsB_11>cl_26522"

/gene＝"tnsB_11>cl_26522"

/locus_tag＝"tnsB_11>cl_26522"

/label＝"tnsB 11>cl 26522 CDS"

CDS 5802..7475

/product＝"NA>cl_6196"

/gene＝"NA>cl_6196"

/locus_tag＝"NA>cl_6196"

/label＝"NA>cl 6196 CDS"

tnsC 5832..7472

/product＝"18-568|id:62.976@bs:712"

/gene＝"18-568|id:62.976@bs:712"

/locus_tag＝"18-568|id:62.976@bs:712"

/label＝"18-568|id:62.976@bs:712 tnsC"

tniQ 7483..8445

/product＝"1-315|id:40.683@bs:231"

/gene＝"1-315|id:40.683@bs:231"

/locus_tag＝"1-315|id:40.683@bs:231"

/label＝"1-315|id:40.683@bs:231 tniQ"

CDS 7483..8430

/product＝"NA>cl_2402"

/gene＝"NA>cl_2402"

/locus_tag＝"NA>cl_2402"

/label＝"NA>cl 2402 CDS"

cas6 8603..9283

/product＝"1-227|id:90.308@bs:421"

/gene＝"1-227|id:90.308@bs:421"

/locus_tag＝"1-227|id:90.308@bs:421"

/label＝"1-227|id:90.308@bs:421 cas6"

CDS 8603..9286

/product＝"NA>cl_11380"

/gene＝"NA>cl_11380"

/locus_tag＝"NA>cl_11380"

/label＝"NA>cl 11380 CDS"

cas8 9304..10839

/product＝"1-512|id:88.867@bs:952"

/gene＝"1-512|id:88.867@bs:952"

/locus_tag＝"1-512|id:88.867@bs:952"

/label＝"1-512|id:88.867@bs:952 cas8"

CDS 9307..10803

/product＝"devT_12>cl_6205"

/gene＝"devT_12>cl_6205"

/locus_tag＝"devT_12>cl_6205"

/label＝"devT 12>cl 6205 CDS"

cas7 10901..11872

/product＝"1-324|id:90.123@bs:493"

/gene＝"1-324|id:90.123@bs:493"

/locus_tag＝"1-324|id:90.123@bs:493"

/label＝"1-324|id:90.123@bs:493 cas7"

CDS 10901..11875

/product＝"devR_22>cl_17591"

/gene＝"devR_22>cl_17591"

/locus_tag＝"devR_22>cl_17591"

/label＝"devR 22>cl 17591 CDS"

cas5 11877..12506

/product＝"1-210|id:89.048@bs:396"

/gene＝"1-210|id:89.048@bs:396"

/locus_tag＝"1-210|id:89.048@bs:396"

/label＝"1-210|id:89.048@bs:396 cas5"

CDS 11877..12509

/product＝"devS_14>cl_25717"

/gene＝"devS_14>cl_25717"

/locus_tag＝"devS_14>cl_25717"

/label＝"devS 14>cl 25717 CDS"

CRISPR complement(12786..13107)

/product＝"5 ACTGCTCAACGTCTAACGACATCTAATGTTAAAGCAC"(SEQ ID NO:66)

/gene＝"5 ACTGCTCAACGTCTAACGACATCTAATGTTAAAGCAC"(SEQ ID NO:67)

/locus_tag＝"5 ACTGCTCAACGTCTAACGACATCTAATGTTAAAGCAC"(SEQ ID NO:68)

/label＝"5 ACTGCTCAACGTCTAACGACATCTAATGTTAAAGCAC CRISPR"(SEQ ID NO:69)

CDS complement(13305..13535)

/product＝"NA>cl_2538"

/gene＝"NA>cl_2538"

/locus_tag＝"NA>cl_2538"

/label＝"NA>cl 2538 CDS"

tniQ 13829..15736

/product＝"1-636|id:91.038@bs:1200"

/gene＝"1-636|id:91.038@bs:1200"

/locus_tag＝"1-636|id:91.038@bs:1200"

/label＝"1-636|id:91.038@bs:1200 tniQ"

CDS 13829..15739

/product＝"NA>cl_1243"

/gene＝"NA>cl_1243"

/locus_tag＝"NA>cl_1243"

/label＝"NA>cl 1243 CDS"

CDS complement(15782..16087)

/product＝"NA>cl_14703"

/gene＝"NA>cl_14703"

/locus_tag＝"NA>cl_14703"

/label＝"NA>cl 14703 CDS"

CDS complement(16245..16538)

/product＝"NA>cl_2353"

/gene＝"NA>cl_2353"

/locus_tag＝"NA>cl_2353"

/label＝"NA>cl 2353 CDS"

CDS 16744..18837

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 18834..20024

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 20158..23391

/product＝"NA>cl_16927"

/gene＝"NA>cl_16927"

/locus_tag＝"NA>cl_16927"

/label＝"NA>cl 16927 CDS"

CDS 23553..27491

/product＝"NA>cl_9573"

/gene＝"NA>cl_9573"

/locus_tag＝"NA>cl_9573"

/label＝"NA>cl 9573 CDS"

CDS 27481..28449

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 28501..32973

/product＝"tolB_48>cl_2719"

/gene＝"tolB_48>cl_2719"

/locus_tag＝"tolB_48>cl_2719"

/label＝"tolB 48>cl 2719 CDS"

CRISPR complement(31332..31631)

/product＝"3ATGCCGTCGTTACTTCCTAAAGCCAGCATTGTACCATCGGGGCTAAAGCTAACACTATT T"(SEQ ID NO:70)

/gene＝"3ATGCCGTCGTTACTTCCTAAAGCCAGCATTGTACCATCGGGGCTAAAGCTAACACTATTT"(SEQ ID NO:71)

/locus_tag＝"3ATGCCGTCGTTACTTCCTAAAGCCAGCATTGTACCATCGGGGCTAAAGCTAACACTATT T"(SEQ ID NO:72)

/label＝"3ATGCCGTCGTTACTTCCTAAAGCCAGCATTGTACCATCGGGGCTAAAGCTAACACTATTT CRISPR"(SEQ ID NO:73)

CDS 33003..37379

/product＝"tolB_47>cl_2719"

/gene＝"tolB_47>cl_2719"

/locus_tag＝"tolB_47>cl_2719"

/label＝"tolB 47>cl 2719 CDS"

ITR complement(37722..37859)

/created_by＝"makoto"

/modified_by＝"makoto"

/label＝"Left End"

motif_3 complement(37722..37740)

/Mismatches＝0

/％_Identity＝100

/Motif＝"[AC][AC][TA]AA[AT]AAAGT[TC][AG]TA[CT]AN[TC]"

/annotation_group＝"AttTn7_cluster_2:7,389,282<-

7,389,300"

/label＝"AttTn7_cluster_2"

motif_3 complement(37766..37784)

/Mismatches＝0

/％_Identity＝100

/Motif＝"[AC][AC][TA]AA[AT]AAAGT[TC][AG]TA[CT]AN[TC]"

/annotation_group＝"AttTn7_cluster_2:7,389,326<-

7,389,344"

/label＝"AttTn7_cluster_2"

motif_3 complement(37833..37851)

/Mismatches＝1

/％_Identity＝"94.73684210526316"

/Motif＝"[AC][AC][TA]AA[AT]AAAGT[TC][AG]TA[CT]AN[TC]"

/annotation_group＝"AttTn7_cluster_2:7,389,393<-

7,389,411"

/label＝"AttTn7_cluster_2"

CDS 38005..39951

/product＝"NA>cl_7816"

/gene＝"NA>cl_7816"

/locus_tag＝"NA>cl_7816"

/label＝"NA>cl 7816 CDS"

CDS complement(40055..40459)

/product＝"NA>cl_13569"

/gene＝"NA>cl_13569"

/locus_tag＝"NA>cl_13569"

/label＝"NA>cl 13569 CDS"

CDS complement(40466..40681)

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

IB28基因座的图谱在图54中示出。IB28基因座的序列如下所示。

IB28-CAST基因座(39,833bp)；登录号：133464|0|GCA_002368215.1_ASM236821v1_genomic|AP018184.1|6522801|Nostoc

(SEQ ID NO:74)

1 ttataaaaat acctagtggc caaaggagca aacctgctcc ttttttcttt ggtaaagttt

61 gttgatgatt aacggttgac tgtggactat ggactattga ctatgaactg ttgactatac

121 tggaatttaa ttctcttgaa gaaagggtgg tgtgagcaat gtgtggcatc gttgggtata

181 ttggcactca agcagcgaca gaaatcttat tatctgggct ggaaaagtta gagtatcggg

241 gttatgactc agcaggtgta gctacgcttt gggaaggtga ggttcactgt gtccgagcca

301 agggcaaact gcataacctc cgttctaaac tagagcaact agtaacctcc tctcaaatcg

361 gaattggtca tacacgctgg gcgactcatg gtaaaccaga ggagcataac gcccatcctc

421 atttagatac agcaaggcgc atagctgttg tccaaaatgg gattattgaa aattaccgcg

481 agttacggga agaactgaag cagaaaggat atgagtttcg ttctgaaacc gatacagaag

541 ttattcctca cctcatagcc gaattgtcaa aaaatgcctc ctcttttcta gaagcagtac

601 gccaagctgt tagccatctg catggagcat ttgcgatcgc cgtcatttcg gctgattacc

661 ccgacgaatt gattgttgtc cgccagcaag cgccgttagt gataggattt ggtcaaggtg

721 agtttttctg tgcttcagat acgccagcca tagtttccca tacccgcgcc gtcttacccc

781 tggagaatgg cgaaatcgcc cgtcttacac ccttgggagt agagatttat aactttgctg

841 gcgacaggct caaaaaacaa ccccggatgc tcaacttgag tcccacgatg gtagaaaagc

901 agggattcaa gcactttatg ctcaaggaga tttatgagca accaggagtt gttagagcaa

961 gtttagacgc atactttaat acagaggtta attctggtaa atcattccaa tcaccagtta

1021 agttaggttt acccgaacag ttctacgcag acttagaaca aattcatatt gttgcttgcg

1081 gtacaagttg gcacgccgct ttagtaggga agtatttact tgaacaatta gcaggaatct

1141 ctactcaggt acattatgct tctgagtatc gttatgcacc atcaccgcta acagcgaata

1201 cattaattat tggcgttacg cagtctgggg aaacagctga taccttagca gccttagcaa

1261 tggaaaaaga acgccgtcaa ggtaaagaag caaaatatca agcgcaattc ttgggtatta

1321 ccaatcgccc agagagtagc cttggtcatc ttgtacccca tattatcaac accttggcag

1381 gaattgaaat cggtgtggca gcaactaaaa cctttgtcgc ccaactgatg gcgttttatg

1441 ccctagcctt agatttagcc tatcatcgtc aaactgtagc gccggataaa ttagcagata

1501 ttattcaagg tttgcgccag atacccaagg aaatagaaga aaccttagaa cgccaagaaa

1561 aattaacgga acatttagct catgaatttg cagagactca agacttcatc tttttgggta

1621 gagggattaa tttccccatt gcattggaag gggctttgaa attaaaagaa attagctata

1681 ttcacgctga aggttatccg gctggggaaa tgaaacatgg ccccattgct ttattagatg

1741 caaaagtgcc agtagtggcg atcgctttcc ctggtactgt gtatgagaaa gtcatttcca

1801 actctcagga agccaaagcc agagattccc gcttaattgg cgtaacgcca gtcagcgatg

1861 gcgaagccgg ggaaatcttt aatgatttac ttcccgtttc ccctgtggat gaattacttt

1921 cacccatcct cacagtagta cctttgcaac tattggctta ccacatcgcc gcccgtcgcg

1981 gtttggatgt cgatcagcca aggaatcttg ctaagagcgt tactgttgag tagtgttgaa

2041 tcgagaaata ttgaggttgt ggaaacataa taaagttgta caataaataa taaagttgta

2101 caatgcctaa taaagttata caatttctcc tatgggtgag tataattcca tctgtaggag

2161 attgtcttta tggctagaac caagcaagag tggacgcaag ctaagtttga gcgctacatg

2221 aaggaaggtc gaggtcaggg tagtggaaaa aattatcaac cgtggataaa aattcaagat

2281 tttccgtcga agggtagggt atctagacca cccggttgga aaacaaaccg agagcatcat

2341 ctgttctccg atcatgagaa acggttattt tatttgtttg agtggtcgga cagcattatt

2401 gatataaggg aacaattccc tttaattgac ttagacttag cgatgaacat tgctaccgaa

2461 atggcgattg agtatcccaa agatgttaat aataatactc cctatgtttt aactacagac

2521 tttatgttat ctgtgaagca aggaaagcag atagttgaaa aagctcgcac tttcaaatta

2581 gttaaggatt taggaattaa atctgttgct gaaaaatttg agttagaaaa gcgttattac

2641 acagcaaaag ggattgattg gggtattatt acggaaaaag aaattcctac gcttttagta

2701 aaaaatgttg agtggattca ttctagttat aagttagaag cagccgcaga aatcaatgtt

2761 gatgagttga ataacatcgc aaatatttta aagtcaaaat tgcaagaaag cgattctact

2821 attaataaaa ttacaaattg cttagataaa gagatgaatc tagaaatagg tacgtcactc

2881 tacattttta agcatctcct tgccaataag aaaataatca tggatatgca aacaaatgca

2941 atatctagtt ctatttcagc gcgagaaatt caaaaaatca ttttctagaa atttatattg

3001 gttgttccca tgaataataa tttgtttgtt aatgacttaa ttgagtggat tgacgaatca

3061 ggaaacaact ttgtagagag aattatttgg attgatgaag cctatatcat tgcctttacg

3121 atagatataa atatcaaaac tggatttcca gtgtctaaaa gagtatcaga tatccaagaa

3181 gcaatttatg aaggtcgtgc attgaagttg aggacagacc cttgggcaag aatcgttaga

3241 gatgaagact tatctgctaa agaaaaagaa attagagata agtattggga tattatttca

3301 tctatagtaa ttcaagaacc atctatatac tatcgagata aacgaggctc gctcattaaa

3361 caagttatag aaaaatataa taataataag agcgaaggaa aattaattga aagaagcgtt

3421 tatcagatta ttaggagata ctggcaaaga ggtaaagata aaaactctct cttacctgat

3481 tatgcaaatt ccggtggcaa aggcaaagta agagcatcta gagaaaaaaa gagaggaaga

3541 ccaagaaaat atgctcatga gccagacatc ggtgtaggta taaatataac cgatgaagat

3601 aagaaaatat ttagattagc agttactaag ttttatcaca atcaaaaaga aaactttttg

3661 acaactgctt atgatttaat gattaaaaac tattattcag aggaaactat ttacgatgag

3721 aatggcgtta aaaaacatat attaattccc ccagataaac gaccaacatt aacccagttt

3781 aaatattggt atgacgttga acaaggagac attagaaaaa aaataatttc tcgtagggga

3841 gctaaaaaat atgctctgga acatagagca attacaggaa actcaacaat ggaaactatt

3901 gggcctggtt ctagatacca aatagatgcg acgatcgcag acgtgtacct agtttctgcg

3961 tacaatcgca actggattgt tggtagacct gttatctatg tagtcatcga tgtttttagc

4021 cggatgataa caggagttta tgttgggttt gaaggccctt cttggatagg agcaatgatg

4081 gctttagcaa atgcagccag tgataaagta gcattttgca aagaatacgg tatcgagatt

4141 acagaagatg aatgggcttg tcatcatatt cctgatgcaa ttttaggcga tcgcggcgag

4201 ttagcaggga tggcagtaga aacactaatt cccaatcttg gtattcgtat cgaaaatgct

4261 gcaccctacc gagcagattg gaagggttta gtagaaagac attttggcat tatccacggt

4321 catatcaaac catttgtgcc aggttacata gacaaggatt ttagggaaag aggagcaaga

4381 gattatcgac ttgatagcaa gcttgatata gagcagttta ctgaaattat tatcaagatc

4441 atcctttacc acaacaatga acattactta gataactatg aaagagatga ggcaatgata

4501 gctgatgatg ttccccccat acctagagaa ttatggcagt ggggaattgc aaatcgttca

4561 ggtagactta ggactattcc tgaagatatt gttaagctga acttaatgcc aacagaaaac

4621 gcaacgatta ccgaacgtgg cattaaattt aaaggaatgt actacacctg tcaaaaagca

4681 aaaaacgaat tttggtttga gaaagctaga agtaattctc tttctaggtt agagaaaaaa

4741 ttagaaattt catatgacat tagaaaacct gattatatat atcttcgctc tcctgatggt

4801 agaaactttg agaaatgttt tcttttagaa tcagaatcaa aatattttaa taaaaattta

4861 catgaaattg aatatttatt tgcttttgaa gagttacaaa aacaaaaaaa taaaggttta

4921 aaacaacaac agaaagtaga cttaatcgca gaaattgaaa gtgtcgtgaa taaagcaaaa

4981 aaaatgaccg aggaaatgaa agatgataaa ctgagcaata gaaaaagaac cgcaggtatt

5041 cgagataata gaagtgctga aaaatctaaa cgtcgaaaaa ttgaaggctt tgagctagaa

5101 aagagtgatc atgaaaatac tagtaatact gtggatattg aaagtcaaaa agtagagcag

5161 ccacaatcat tgcaacctaa ctatcttgat attcttcgtc agaagcgaga ggaacgaaag

5221 cgtgaacaag ataaatgatt ggaaatgggt tgaaattcca aatggtaaat ctgctgctgt

5281 agctaaatat aatgaccata aattaccaga gtacaataat aaccctttaa ttcaagcatt

5341 acctccaatt ctttctggag aagaatttat tgaaaaagca ataatactcc ccagttacgc

5401 acctgaagag agggaaatgg atgcacaccg tcgatttcac tgcgttgaac gattatctag

5461 atactttcaa cctttaaata aaacggttaa tttacagcag gttatgtgtg cattattaat

5521 gcagggctac atagcacgta atatttccaa acctgaatat gcacgccgat cccgacaaat

5581 ttatgaagcg ataaaagcgg gagatggtag aaatttagat gtttatgtaa atgttcccac

5641 atccacatcc gcatctggtt taacattaat tggcccatca ggcatgggta aatctactaa

5701 ttttattaat attcttaatt tatatcctca agtaattcta catccagaat acagtactta

5761 ccaaattgtt tggttaaaag tcgattgtcc tcatgctggt tctctcaaag gcttatgtac

5821 agatatattt cttggtatag ataggttact gggaaccaac tattttaaaa aatttggtgc

5881 atcacgaaat tctgaagatt atatgctggc tcaagttgcc caaatggctc atactcacca

5941 tttgggagtc ttagtgattg atgagatgca aaatttagta acagcaagaa gaagttgctc

6001 tgatatgctg aatttcttag taaaaatgga taacatcatt ggagttcctg ttatccgtat

6061 tggtaccaat gaagcttttc caattcttca aggtaatttt aggaatgcta gaaggggaac

6121 tggtgaagga agcgttattt gggacaggat gagaaatgat gatgaatggt acttttttat

6181 ggagaccatg tgggagtatc aatggacaaa aatatctact gatttttctg atgagtttaa

6241 tgatgttttt tatgatgaaa gtcaaggaat tattgatatt gccattaaac tttataaaat

6301 ggttcaatgg agagctattt cactgggtgg aaaagaggca ataaacgcca atttaattaa

6361 acaatctgtt aaagacggat tatttttagt aaaaccaatg ctaaatgcta tccgttctgg

6421 agacaaggaa tggatgatta agtataaaga tatagctcct attgatacta cagaatatta

6481 caataattgt ttatctaatt tagaaactaa agatttaaaa gaaattagta gattagcgaa

6541 aaaacagcaa gctgagaatg gacatttatc agcgacacaa cgtcatataa ttcttaaact

6601 tttagaatta gatgtagaac cgcaattagc caaagaatgt gcagtacaag taattaattc

6661 tggcgaagaa gatgctgata ttcctatttt ggtaaaacaa gcttatgctc tagctttggg

6721 tgggcaagtt caggaggcta ctgtaaagaa agtgagaacg cacacactaa aagcaaagcc

6781 aaaatatcaa ataaacgata ttcgacaaat tgcggaaaaa gcaaagaaaa atcaaactag

6841 tgcatatgaa ggtttgaaat cgacaggaat tatcaaagat ccagtccagg attttatcac

6901 tatcacctaa ttatatgctt agtttctttc caacactata tcctgatgaa ctgttatata

6961 gtgctttggc tagatatcat atacggagtg gcaataaaac ctttaagcaa actgatttag

7021 aattatttgg ttacagttct cagcaactat gtaaagttac tttaaccaat aatttgaatt

7081 atttagttaa aaacttgtct ttattttctc agttaacagt tagtgattta ctacaaaatc

7141 ataccctata ccctttttat gcaagtttct taatacccca gcaagcttgg caattacaag

7201 actctatgag gaaaaagcta ggtggctcta ttttagaggt tgcaaaagta gctaatcact

7261 ctgctgacaa ctcaacaaag tttttaaagt tttgtcctat atgtctagaa caagatacac

7321 aggaatatgg tgaaccatac tggcatcgaa ttcaccaaat acctggtata ttagtttgtg

7381 caacccatag agttgttttg catgatagct ctgtagctgt tgattctaag ggtatccatt

7441 attatgcagc gagtccagag aattgtctca ccaatcaaaa tcaagtgaaa tgcgctgata

7501 acactgtaga aaagttatta atcttagctc atgatatttg gaatataagt actattaata

7561 ttccttttaa aggtttaact tggctccgca atcaatatca gtcctattta attaatcaaa

7621 agtttatgac cctcctacct ggggagaaat ttagatttaa cgaaaaatct ttttcaaatt

7681 ctatctgtga tttttatgga caagagtttc tagaaataat taatccaaat ttaatcagga

7741 atccagacaa atatttttct ggttatttac tagcttgtga tttgaatcca gtaatcgacc

7801 ggattacaca tatattgata ataaaatttt tagctaattc tgtagaaata ttttttacat

7861 aacatacttg ttagagtact taatatataa aaatattttt tagcaaaaaa tatattaatt

7921 tacttgaaat tgcataccga ttaaagatgt agcaatagag tatggtagag aaacaacata

7981 aattaagctc agaagtagcg atttttcaga gaaatgaaat aaatgggtga taattttcac

8041 gtatcaactc agagccatgc tacagaggtt ttaaatcctc agttaatcta cgtggactta

8101 agctttcgtg taattggtca gactttaccc atagaccacg gctatgcttt gtatgctgca

8161 ctgactcact tacaggacaa acttcattct ctagatgacc tcagcattca aactattcct

8221 ggcattcctg atggcaacga ttcacttcat cttaataacc actctaggct tcggattcgg

8281 ctaccagtag ataaaatacc tttagtttat ccgtttgcag gtaaatcact aacaattggc

8341 aggcataaga ttcatttaga aattccccaa atgtatcttc ttcaagcggt ggagaaattg

8401 cgatcgcgta ttgtggttat caaaggctac gaagaaccaa agggtttttt agcagcagcg

8461 cagcgtcaac tggaaaaact gggtgtccag ggaatagcca gtatacctac caaagctgat

8521 ggcaaaccag aacgcagaag tatcaaaatt aagaaattta cagttgtggg ttttggattg

8581 gaggtaacga atttaaatga tgaagattca ataaccttgc aaaaatacgg tgttggcggg

8641 aagcaaaaaa tgggttgtgg agtttttgta ccagttaacg aaaaacgata gcagttgttt

8701 aaaggcagat gataaataca acagctaact ccaaaattca gttaaatctg agcgactcta

8761 gcactacttt gttacatcgc gcagggatag caggattttg gatgacgcta aaacagttgg

8821 aagaaatata tccgaatcct gctcaacgta ctggtaattt aacctgggta ctaacacccc

8881 atagcatcag tcttaactgg gaagggcagg atttcgcagc tttagactgg ttgctaaagc

8941 aatcttttca aattagtgat gagggtttaa ttttcctgac aggattaaat ccaaaagcaa

9001 ttcatattga aagacaaata ataatccatc aaggtattac aggaactttt ttacagcaca

9061 ataaattttt caaattttca gacaaaaaat taaagtccat aattgttgac ggcagacaat

9121 ttgtgactga gtacaaaagt gctatgtctt atgctcatca gcactttgct aaaaagttgt

9181 gtgatgaatc tggccaattg ttacaagagc ctattggcat agtaggttgg ctgtatccag

9241 gagcagtagt tcgtcattct gcttttccaa aacaaaccaa atttgaagag aagccagagt

9301 atgcactagc gttattgttt gtgcctgtag cgtgccacta ttttattttg cgatcgcaca

9361 ccaaacccca atctacaaac tatattctgg ttgtccccga agtaaataat ttagagtttt

9421 acgcccagca ttgctggaat ctgagtaatt tgagttacag agattttcat gtatctagct

9481 taagagacgc tggattaaaa ttcctgacta atgaagcagc aatacagata aaacaaaatt

9541 gtgttaagcg atgtcaggtt ttttcttttg ggacgctaat ttggtcagaa cagcaaaaag

9601 ttcgtacaga aacagcaaca ttagagctaa cggaaaaagt gagcttctac tataagttta

9661 gtcggagttg tttctccaat taccgaatcg ttgactatga aaatcaacat tttatcctta

9721 caagtctagt tcaaggaata attgctaata atttaggttt agggttgcct tggtggaatg

9781 attttggcaa catacttaca tctagtaatt tgtttaatca aatagctgat gaaaatcaag

9841 gaatttatat gatgattcaa gagtctgaat gggacataga atcgcaaaag ctgtttatca

9901 aagcttgtca tgaagcatta aaggtaatat acgccaaaat ttattcccga accaaggaaa

9961 atgaatatgc tcaaattgaa cgagaaaata cgaaaattat atctcaacta ggacgctgta

10021 ctaatgctga aaattttaga aaatttattg cggaattctg gggcaaagca gggcaacttt

10081 caattttaga agaacactgg gaagaattac taccaataac aacaggtgtt aggcattgga

10141 aaatgtccag ggatttaact tttattgcaa tcgctagcta tcccaaaagt aagaacatca

10201 agcctgaatc atcagaaata tctcagacaa gtagtgaata attagaattt tttctatttt

10261 cttaaatcca tgattttaaa tttttaggta aatactcaat gtctcatctg tttggtaata

10321 ttttaactat ttatggtact gctgctaata atcgaggtga aaatgaaggt aatattacta

10381 ccctacaaaa aataaactgg aagggcgaag ttcacaccag tgtctcagca gaggctattc

10441 gttgggcagt gcgctactac tggcaaaata atggttatga agtaaatcga cgttgggatg

10501 aaaatgcaca accactggct gatcatatct ggcaagacac gaacttcaat agtgttcggt

10561 tcattgatga tgatgtttta ggattcatgc aggcagaggc agcaagagtt gaagcaggtg

10621 agcaatctgg aggtgaagtc caggaagcat ccgcaggaga aattcaaaat gtgtctcaag

10681 atgaagagac agcaagccca aaaggcaagg gaaaaaaaac ttcgcaacgc aaaggacgag

10741 aaagatcaca agggagagtt accgctaaaa gaggtgtact agaggttact cgtgcagtat

10801 cattgattcc ctatgggggt aacattactt ttaatgcagt cagtggaaca aaaggacgaa

10861 cttctcttta tggtacagaa gttcatgcta ctcgttatca gtatggtttt gcaatgacac

10921 ccaatagtct ccaagacaaa tctcggatca atgcagttct agatggctta atttcaattg

10981 gagaagtagg aggaaatcat gcccggtttt tatatgattt ttccccagat agtattatat

11041 tacgctggac acatgatttc tctcctcggt ttctctattg ctttgaacaa gatgaatggg

11101 gaactatatc agttccagat ttagtcagac gggtagaagc tgaagatatt gacccaaaag

11161 aattatggat tggaggagca attgctagag atttaggaaa tttgggtgca aatgtgtttc

11221 caggtgtgaa gaaagtagta gaagaattat taaaggtcat tacacgagac ttacaattgc

11281 caccaaggag ttcataatgt gacgactatt gctttgaaag tagaagtccc tatcgcttgt

11341 tttcgccagt ctcgtgctag ggagtatgta gaaacctatt cggtaccacc accatcaaca

11401 gtatatggaa tgttactgtc tcttgtaggg gaagaaaaca gatatactca ctgtggagtc

11461 aagctggcga tcacacttgt atctgaacca gcaaaatcaa ctgtaattcg tacctttcat

11521 cgattgaaaa cgaagaatat tcatgatcct aaaaataata aacctgatta ccaggagtta

11581 ctgactaata ttgagtttgt agtttgggta gaccctgggg tagataaagc tagaccaaat

11641 ttagtgcaac gtttagaaga ggcatttact aacccagctt ctattaatag atttggtgga

11701 ctatgtttag gtgaaagtcg ggatttagta aatgatatta ccctcttacc aaaaaactac

11761 tatgcagaat caatgcggtg gttaatcaag gatgaacacg ggttgctaac tttaccttat

11821 tgggtagacc acgtaggttc gcaaggaacg cgatggctgc gttacgagct tcaggaatgc

11881 caagtattgc aaccgcctga attatcttgg acttcagttc aaagtgatta gggggttatt

11941 attttatttt gcaagtacct ttgcttgaga agtctaaata ccatgagcaa tagccttgtc

12001 ttcttatttg acaagccttt tagggatttt atacgcatcc aagatgcttg cgatttcctg

12061 gaacaccgtc aacacaagag ttgagggctt taacaacttt ccttgtgcta tgaatagcta

12121 ttaatttttg caactggact aatcttcagt gatagatgct tgtaaaattg aactagagct

12181 taggcgagtc aacaagtttg gcgatcgccg tgcttcaaca ttagatgcca ttaggcgttg

12241 agcaggcatc gtgcggggtg agaattgggt ttacgaaaat gtgcttcaac attagatgcc

12301 attaggcgtt gagcaggtag ttagtaataa ttaattcttt gccctttttt acttgtgctt

12361 caacattaga tgccattagg cgttgagcag agtctagata ttgcaacatt aacattctga

12421 gggttctgtg cttcaacatt agatgccatt aggcgttgag caggaagatt ttaattatcg

12481 ccatgtcggg gaaatagaag tgcttcaaca ttatcagatg ctgttaggtg ttgagcaaaa

12541 aaataggctc aagtatttgc gcttaatata aatacgttct cactgagtac aaaactagtc

12601 atcttgagtc tcgtctttcc gagaaatttt agcgataatt ttttcccatt cctcaatttg

12661 cttctgtatt tgtaatttgc gatcgctcaa ctctttatta tcattaacag acaaatcctg

12721 accactcaat cgctcacggt aaagagcaat cagttcggtt agggcttttt tattgcgtgc

12781 ttatcctcct gagtcagaga actcacattg actggaatca gctttctgcc tattctctcc

12841 acaaattcag accgacttaa atccatgctg tcggcgatcg catctaatcc atcaatcccg

12901 gtaggagtta gggctaggtt aactcgtttc ttcacctcat cgtacagttc tggtacgtct

12961 ttttgacctt tttgcccttt cttacccatt gccgtctact ttttacattc ctcccaatca

13021 tagtaaacac attcaacact ttaagctaaa cattaaaact gtttctaatc tttaggtatt

13081 gtgtaatgcc taatttagct agataattta ggtattgtgt aatgcctgaa taggcatctt

13141 gtaggaatat gagtaactaa tttcaccgtt tggcttatca acatctaaac ggcttaattt

13201 tcatgggcaa tccttaattg ctgcttatct aattcaaatt aataaaaatc tgctaaataa

13261 ttcggtcatt tttcacaact atatggtgag ttttttccct aaaccttatc cagaggaaat

13321 tttatatagt gtcattgctc gttatcacat tagaagtggc aataccagtc caaaaattac

13381 acttcaagag ttatttaatt cacaaactac tgtagcaaca gtagatttac catcgaacct

13441 gaataattta attcaaaatc tacaatttat ttcaaattac caagttgagg atttgatata

13501 taaacatact ctctaccctt tatatagccc tttcttgtct gcaaacaggt ctagtcaggt

13561 tttggaatct atgaaaggag attacggagg agatattcat acaagagccg gaattatggc

13621 aagctcaatt actatgccaa agtattttcg gttttgtcca acttgcctag aagaagacct

13681 aaaaacttat ggcgaacctt actggcatcg catccatcaa ataccagggg ttttagtttg

13741 tccatttcat gctgaagttt tgcaaaatag tctagttccc ttacacggtt ttaataagca

13801 tgaatatcat gcagctagta cagacaactg ttctattact aaagaatcaa ctttttttag

13861 cactgacata ctgaaaaaac tactgttatt agccaaagac ttttggtggt tactcaatag

13921 tgaaatacct tgccaagaac cacagtggtt tcgcaaacaa tataccaatc tgatgattga

13981 gcagcgtctt gcaactgcaa caggtcgaat ttatcagaaa agactactgg ataatttttt

14041 gtttttttat ggtcgagaaa tgctcagtgc cgttgattca atggtaaatc ataatgactc

14101 aaacaattgg gttactagca ttgtcaggaa gcataggaaa tctttccatc ctcttaggca

14161 tttactgata atcagttttt tgaaaacgtc agtagaggaa tttttcaagc aagatactga

14221 atacaagcct tttggcgaat ctccttggtt gtgtctcaat gctgccgcag aacattatct

14281 acaaccagtg attaccagtt tagacattac tttatgctgc gatacaaaaa agcctgtcgg

14341 tactttttct tgttcttgtg gaatgattta ttgccggact gggcctgatg aaacagatga

14401 agacaaactt cgcattggta aaattaaaac atttggtcaa ctatgggagc aaaagctgaa

14461 agagttagta gaagttgaaa agttgggttt gcgggagaca gccagaagat taaatgttga

14521 tgctagaact atcaaacgtt atgtatctcg tctgagactg acaacttatt ggcagactag

14581 aaaggaaaat gactctgtag gcttacagga attaccagaa atagatccca attttgcaac

14641 tgaactcaaa ttgaaacaca ggcaaaattg gatggtttta caagtacaga accctgaagc

14701 ttcaaagaca actctgagaa aactagcacc agccacctat atttggctat acaggaatga

14761 cagagaatgg ctcaatcaaa actcacccgc tttacaagtt gctgttcctt ccgttgtgag

14821 agttgattgg catgagcgag atcagcaaat tctcactcag gttcaagatg cagtgcgatc

14881 gctacttaac gctgagatac cagagaaaat ttctattagt agggtaggga aaactatcgg

14941 cttacttgca ttactcgaaa aacatctcga ccaaatgcct ctaacaaagg cttacttaga

15001 atcagtagtt gaaacggtag aagaatttca aatgcgccgg atcaagtggg caatcaagtt

15061 gcttgatgaa tgtggagaag aaattatgcg ctggaaggta gtcagagttg ctgctttgcg

15121 agaggattgc tctgaaaggg tcagtgcatt tctggaaagt gaacttgaga aagcatacaa

15181 gaaagagagg tgattcaatt cacctctcca agtgatggga taaatgcttt gtgtgttagg

15241 ccgcgtcggc taccagtaag ccattcatag cgatgatgat gatttgtgct gctaaaggag

15301 tatcacaacg tggtctatcg tcgctattac agggttgtgc tacccattta ccctccagat

15361 tttggtagaa agtgccgaga agttgataac cattccaaac acggtaaagc tccccaaata

15421 cttcagatac cgaatcaatc tcaatttctg gtgctactgg gtcagcaagc tggtcaatat

15481 attcctcaaa ctctaattga gctaaggctt ggttatcaaa ttcatcttgt acaatcatca

15541 tgagtaacct cattaatggg gttgaacaaa aagcgatcgc atttctcttg gcggagggcg

15601 atcgcctttt tgatatcatc ccacaatatg gctactttag tagctaaata ataacaaatg

15661 tatctaaagc tttaatttgt cacttcgact gtgcttaaaa aattgcttac cgatatttcc

15721 aatgcagtac atatagcttc taatactttt agggaaacac tttcagactc accatattct

15781 aattttttca agttttgatg ggaacattca ccacctctag cagcaatttc atcagctagt

15841 ttctgacgtg attttttacc acgcaatcgc tttaaaatga ttcctctgtc ttgattccag

15901 acgacagata caacatctgc aacataaata tacgtttttg tttctttttc acccttattg

15961 cccatatagt agctacaaca gtaaacaata cataaatttt gagctactat agtttacaaa

16021 ttattaggat ttaggtatct caaaacgaag ttgcgcccgg tcttcaggat gagagcgtta

16081 tcatccaaga agatacacaa tgcaggtttt gctaagagaa tgtgtcatag ccaatattat

16141 gagtaatcgc ggattcctta aagaggtagc aaacaaatat atattaggct gattatgtta

16201 atttgctaaa aatgttcagt tcttaaaaat aactgaacgt ttttatctaa gtataagtac

16261 gagcttattt tattagtaga ttattaaatt aataaattaa taaattaaat aattacttgg

16321 gctatgacac cgtataaaca cggttttaaa atcaaaataa ggatttaaag aagaaatatc

16381 tataaaagta tttgcggcaa aatgtggcgg ttaagagtat atgcaaatac aataacttga

16441 atatgttttc ctactattat ttgtcataag tgtatccttt atggcgcaaa ccatagtaat

16501 acccacgggc attcctatca taacccttcg cctccaggta cttgtattgg ctttggggga

16561 agtttcaaca tggtggcgaa ctcaatattt ttctgctgct ggactgagat ttttagaaag

16621 aatctaccca cgtacagctt ttgccgcagc tatcaatgct gctagtacgg cagctcgtcc

16681 tgttcacgac gctagtactg gcagtaacca aatctaccat ctgtttcgcc ttcctatttc

16741 catagagcgg gaagttcaac tattactaac aaaggcacaa ggagcaagtt tggcgttaga

16801 agtcaaacca gcacttgggg ataaagacaa gttgatgaca atgttagatg cactaactac

16861 agaaaaatct aaggtagcgg ttggtgcatt acgtttagga agcagtgcag aggcatacca

16921 actagcaacc tacaaacgga tggcaggagc atatctaaga ggttttcaaa caggcgatcg

16981 cgtctttccc tacatggagg cagaccagga gtgattgtta tgacatcggg tgacgcagtg

17041 caaaagtcac ctcgttacag tattgcgatt gtctgtaagg gaactgcaat ggtgaacgag

17101 actcgccatt taattcaaca gtggcatcct acagaaaatg tggatacatt tgttaaacgc

17161 gttcaagctg aggatctgct gggacgacaa acagcccagc gagcaaagga cattgcccga

17221 aaagtctttg cagcacgctt tttgctacca aacaacaaac ctgctcgact ccttaaacaa

17281 attgttgagg ctggtcttcc ccataaaact tttgtagaaa tactattttt atttgcgtgt

17341 cgtgctgata atttattgta tgattttacg ctaaatattt actgggcagc agtagcacaa

17401 agacgaaaga aaattttcac tcaagacgtt ttagacttct tcgagtcagc tgctgttgat

17461 ggacgaattc tctctccttg gtctgaggga acgcaggtgc ggacagctag gggattgtta

17521 gcgacgttgc gtgatgttgg ttttttacgc gatgttagtc atggtaaatc ggagcgagag

17581 attattccct actacatatc tgatgaaggt gtagcttgcc ttgcacgcta tctccatgaa

17641 tcaggaattt ctaactcagc tttgtgtgaa caccaagact ggaatatttt tggtctcaac

17701 cgtgaacaag tgtgcgatcg cctagatcaa cttggagaac accgtggatt aatcatacaa

17761 aaagctgggt cagtagtcag catcacttgg aaggtcaact ctatggagga acttattaat

17821 gtcctctctc gatgaaactt ttgaattact tttacaaaag ctagaccgcc cagacaccct

17881 caatgctgct aaaagtgacc caatttttta cttcgtttac aaacccgaag atatgctcac

17941 cctaaagcag cgtttatcgc tttggaaagc taaattaagg gagttgaaat ttgatgttga

18001 aagaatatcg ctctccgacc ttttgtggca gattattgac gaatcagggc ggtgggaaga

18061 ctggctagaa attgaacctt cagcagaggt tgaggagtta aatcaagcca ttcgtgatgt

18121 tttaactagt cagagtcgtc taattgaaga ggtggcacaa cgaattaatt ctttgatgcc

18181 tcccaaaatt gtttttttaa ctgaagtcga gatgctgcat ccttatctac gctctcggac

18241 tctagaaaac aagcttcatg atcgcgtgcc agtaccattg ataatttttt atccaggtta

18301 tcgggcggga cagtacggtc tacgcttttt aggtttccac gcagaagaca gtaactatcg

18361 ctcgataatc gtcggaggca tttgatggca acaattcaat ctcttttttc cagcagtaga

18421 cctattgacc gacagattga aaaggtcatc gattattctg cacaggatga agacagacta

18481 gctacagaaa tttcagaata tgagattacc gataatattg agcgatgtta tcggaggttt

18541 ctggatgtat tttcggaagg agttcgtggt ggacgcgtaa ctgagactgg aatatgggtg

18601 tctgggttct atggttctgg caagagttct tttacaaaat atttgggatt tgcattagaa

18661 ggagagagaa aaaaagtacg tggcaagcca tttctggaac ttttatctga gcgctttgtt

18721 aatcgcaata ctatccaagc cgaactacta actctagtta gacaacattc cactgttgtc

18781 attttccttg atttaggttc tgaacaactt tctgaaagtg ctgccacgac tgtttccaca

18841 gtcctttatt ggaaagtatt gcagtgggca ggtttttcta aagaaaagaa actagcacaa

18901 ctggagttaa ctttagaacg tcaaggaaaa tatgctgaat ttcagcagct atatcgagat

18961 acgtataaca aagaatggga agaaattcac aatgatccct tactaggggt tagtcgcgct

19021 gcggaaattg tcactcaagt attacctaaa gaatttccta caagtaaaaa ctttcgagaa

19081 ttgagatttg atctggctga taatttgcgc gatcgcacca gtgaaattat tgatttagtg

19141 cgacagcgaa ccaaatgtga aaatatctta tttttactcg atgaagcggg tcaatacgtt

19201 gctcctcgtg gggaattgat tcttaactta gatggaatgg ctcgtaattt caaagagtta

19261 ggtgaaggaa aagtctggat aattgccaca ggtcagcaaa ccctgaatga aattgtcgaa

19321 aaagctgcct ataactctgc tgaactgaac aagctgaaag acagattccc aatctctatt

19381 caccttgatg ctagcgacat tagagaaatt acttatcggc gattattgac aaagccgcct

19441 gataaagaac aattattaaa agatttattt gctacccacg gtcaagcggt tttaacacac

19501 acacgactaa ctgaaacagt actttataag aatgatccga acgctaccac ctttgctcaa

19561 ctttatccct tcctgcccca gcactttgat ttgctgctgg agttgattcg caccctggct

19621 cggtcaacag ggggtgttgg cttacgttca gccattcgtg tgattcaaga tgttctcatt

19681 gacaaaagcc gtgttttgcc agcaaacact cttaaattag cagaacgtcc tataggtgtt

19741 ttggcttgtg tggatgactt ctacaacact ttgcgcgaag acatcaacaa agtatatcct

19801 cacgttgtga gtggggcaga taaagttgtc agaatttttc ctaatgatga gatcgcccat

19861 agggtagcta aagctgtagc tgctttacag ccgattgata cctttccgcg cacagcagaa

19921 aatattgctg ctcttcttta cccagaattg ggttcgcttt ctttattcga tgaggttcaa

19981 caagcactca agagaatttt aaatgagaag gagtgcggtt taattgaaga ccctcaagca

20041 ggtggttatg tttttctcag tgaatctgtt agacctttgc gagataagcg aacttcctac

20101 atccctacgt ctaacgaatg ctctcgcatt aaagaagata ttgttaagca aatttttcgg

20161 gatcaaccat ccacaagact tgacaatatt aaggaagtaa aagccattgt caaactagag

20221 cataagctag tcgttggtcg ggatgaaacc atcgatttca aattagaatt cgttgatgct

20281 ggcggattct ccaatcgccg tactgaattg atggcagaaa caaacagtcg gcgagaattg

20341 aaaaactcta ttgtttggtt ggcaaaatca gacaacacag tagatgaact actgcaagaa

20401 attgctcgtt ctgagtgggt agttagagaa attgatgagc gagcagatga taaaggagat

20461 gtggcacagt ttttgcgagc agagcggcgt tcaggcgatc gcaaccgaga cgaagtagcg

20521 aaaaaaattg agcgcttgct gatggaagga actttgattt tccgaggaaa acctacacca

20581 gttagtgagg caggacagac tctaaacgct ggagcgcaga cggttctcgc aaatgcagca

20641 aaagaagtgt ttcatctaca caatctcgca gctattcgac cagcaacgga tgttgctgct

20701 aagtttttgg gcgtagagcg tttagatcgc attacagagc aacttgatcc tttgcgttta

20761 gtgactaaaa aagctagcaa tactcgtgtt aatgtcaacc attcagcttt ggcggaagtg

20821 ctgcgagtgt tccgggcaaa agtagatgag tctggttcag gtcgcttgca aggaaatttc

20881 ctacaagatt ttttctcggc agatccttat ggctggacta aggatacagt ccgttactta

20941 tttgctgcac tattgacagc tggtgaaatt gaattacatt accccaaagc tgatggccca

21001 ctgcggacac cggggccttt agccgtggag gcaatgaaaa atactatgga atttagccgg

21061 gtgggagttt cattgcggga tagcaaacct tccattgaag ctttggagcg ggctgcacag

21121 cgtttagaag agctttttgc tgtggaagtt gtaccgttgg aagacaatat cagccgtgca

21181 gtacaaaaac agatgccaga gttattagaa caaattgcag acttacctgt tcgtctacgt

21241 cttttggatc tgcggggaga acaaaaggca aaagaactgc aagcaagttt aacggatatc

21301 ctcagaggcg atgctagcaa tgcaacagca cttttaggta gtcaaaattg cacaattcct

21361 gacgatatcc aatgggcaaa gcaaattgtt aatttactca acaatggcgc tgaaagagaa

21421 ttcaaagtag cacgatcgtt actcaataac ttagatgaac ttaaggattt attttccaag

21481 caggtgctag aactgtcatc tcaaggtaat cgagaagcta tttacaatgt ttttcactca

21541 gaacggtttc aagaacatct accagagttg cggcgagcag ttcgagaatt gacggggcaa

21601 ttagaagaac gctacacaac tgaggttgca gagtataaac aagacttaca aaaagcctta

21661 aacggcttgg agctagagcc agaatggtta aaactaactg acgagcagcg aaataatatt

21721 gccgatcgct tgcagatgga tgttgccgaa caaattgacg gacagaatcc agtgcgatcg

21781 ctccaggtga ttctcacccg ccgtttaggt ctaactggag tagttgataa tttacggcgg

21841 cagatacaac aatcagtgcc acatgaggcg gaatcaacaa atgggctagc aggtacttac

21901 tctgtagaaa atctacatga aacagaaaga gtgaatacac ctactggtga atacactgta

21961 gaaacagcaa ttgatgcagc cgaatttgtc atgccagtac ttatagaaaa ttctgagcaa

22021 ctggatactt ggttagcttc cataagagga aaactactag aaattttgaa tttacgtaag

22081 cgtatacgca ttaagggata aatatgagct ttgatcgaga aaccctcaac gccttagcta

22141 gaatggttgc agcgtgtagg cggcgactga cggaagatgt agaaaatcaa ctccagcaga

22201 ctttcgggtt gtatgtagat ggcacaattc ttcccttatc ccaattgacc catctgacag

22261 aggagcaaaa ggttgcagcg caagcattac gtgaactgct aaaccacttc aaagccagcg

22321 acccacaaaa aagctatcaa tctgcttaca atcgcacaat tctggaaatc tcctttacca

22381 tcctcaaccg tttggcagct ttgcgcttgt gtgaggagcg gaatttagta attgaatgcg

22441 tccgcaaagg aatggagtct gacgggtttc gcttgtttga aagacttgcc aatggcagtt

22501 tggggagtcg ttacgaaacc tatcgggtgt ttgtggagtc catgtttgac gagttggcgg

22561 tggatttggg agtactattt gaccgcacta ctccacagtc aacgattttt ccgagcgatc

22621 gcgtcttaac agaagtcttc gatttgctca atgatgtcac actgcaactt gtctggactg

22681 aagatgaaac aataggctgg atttaccaat acttcaatcc acctgaagaa cggcgagcaa

22741 tgcgggaagc gtcccaagca ccccgcaata gtcgggaatt agctgttcgc aaccagtttt

22801 ttactccacg ttatgttgtt gagtttctta cagaaaatac ccttggtcgc ctctggtatg

22861 agatgcgtca aggagaaact cgaatcaaag atgaatgcca gtattttgtc gaaaattctg

22921 agcaattctt agccagggat cgtaaagacc cccgtgatat caaagggcta gatccggcaa

22981 gcggtagcgg tcattttctc ctttacgctt atgacttatt tgaggtgatt tatcaggaag

23041 catgggaaga tgaaaattcc ccgccctcag aatttacggg tcgaaagttg cgagaagatt

23101 acccaacttt agaagagttg cacagacagt tacctgtatt aattcttaag tacaatttgc

23161 atggtattga cattgatgcc cgtgcttgtc aaattgccgc tcttgctttg tggctacgcg

23221 ctcaacgtta ttaccaatcg ctaaatatta aactaagtga acgtccaccc atacaaaaaa

23281 ttaatattat ctgcgctgaa cccatgcctg gggaagaaga attactcgca gaatttatcg

23341 atgagttgaa tcagaaacgt ccaccaatta ttggtgaatt ggtaagaaaa gtttttgaaa

23401 agatgaattt agccggagaa actggagcat tacttaaaat tgaagaagaa attagagatg

23461 agattacaca agctaaaaca caatggctag ctgaatataa cccagagcaa ccaactctat

23521 tttcattagg agaatattca gatgttaacc aattaagttt atttaagttc gccggaatta

23581 ccgatgagca gttctggact caagttgaag actgggttat agaagagctt cagaactatg

23641 ctaatcgagc aacgacaggg caagttttcc agcgtcagct attttctgac gatgcgctac

23701 agggatttgc ctttgtggat atctgccgta agcagttcga ttttatatta atgaatcccc

23761 catttggtga ggtaagtatt ccttcaaaag aatatattga agaagtttat gaagatacca

23821 agggtaatgt ttatcaaacc tttgttgaat gtttccaaga caggctagta gcaggaggat

23881 tcttaggggt tatttctagc agaacaggct ttttcttggc gcaatcaagc gattggcgta

23941 aaagaatatt actgcgtttg tatcgtccgt tattgttagc cgatttaggt tatggtgttt

24001 tggaagcgat ggtggaaaca gcagcctatg ttctacgtag tattacaata gaagaagata

24061 aaaacttaac attaaatctt gttccacaac tattagaaat tcctgtagat agacagagat

24121 gttttagcat tcccaaatat cagaaacatc gaggcggctt aaagcggcat caggctaatc

24181 aagaattaaa aaaactgcac gaaaatggtt atatatcatt gacactaggt cgttttattc

24241 gctataaagc taattttgca aaaattcaac agtctgatat tcctagttat ttagcatatc

24301 ctaatttaat ttgttttcga ctgttggagg aaggagataa aaaaagtgcc ttaatagata

24361 ttttacaaaa ttacaatgac tctagatatt ttgtagtttc gccagaaagt ttttcaatgg

24421 ttcctaatac accattttgt tattgggtaa gtaataatat tcgccagtta tttactaaac

24481 tgccgcaatt tgaaagtaat ggtagaatcg ctcaacacgg agcatcaaca aaaaaagatc

24541 cacgatttct acgtctttgg tgggaaatac tacctaataa aatagtaact ggtacggtag

24601 aaacaacacc agaacagttt tgtcaacaaa cttttgagga taagccttgg gtcttatttg

24661 ctaaaggtgg agcttattct ccatattatg cagacttaca tttgctaata aattggaaga

24721 ataatggcga ggaaattgaa caatatgttt tatacaaata tccatatcta ggcagaagtg

24781 gtgcagattg gattctacat agggagtgta attatttcca agcaggctta acatggacta

24841 ctcggactac tagcaagatt agttttcgga atttgcctgc gggtagcata tttagtagta

24901 aaggagcagc agcttttact aaccatgaaa tgtattggtt ggctatttta caatcgtcta

24961 tctctgaagc tttaattagt ttgcagcttg cagcagtaga tgcagcagcc cgctcttatg

25021 aagtaggttt aattcaacgt acacctgttc ctcctaatag ttctgatttc cataaggaaa

25081 tattagtaaa attagcagat ttttgtattg gtattaaacg ctctttagat acagtaaatg

25141 aacatagcca catatttcat atacctgctc tgcttcaagc attaggtaat aacttaactg

25201 ataagatttt taattgggaa gataatatta ataaatccac taaacgatta agtaagtatc

25261 aagaacaaat tgatgatgtc gtcttccaac tttacggaat atcaaaaaca gagaagaaaa

25321 gtcttgaaat aaatattaaa aacaaaaata taagaattga agataatact gaagatatag

25381 acgaagaaga tgaaactgca ctagcagcag acgcaaaaca gctagttact gatttacttt

25441 cttatacact cggttgctct tttggtcgtt gggatatccg cttttctaca ggcgataaat

25501 cagcaccaga acttcccgac ccctttgcac cattaccagc ctgttcaccg ggaatgctta

25561 ttggtactga tggtttacca gtttcagaaa ctccgccagg atatcccatt cccattgctt

25621 gggatggcat tttagtagat gaccccaatc accccaacga catcacccgt cgtgtccgtg

25681 aagttttaga aattatatgg aagaacaacg ccaataaaat tgaacaggaa gcttgcgaaa

25741 ttcttagtgt gtgtgaactg cgggattact tccaacgtcc tacaaacttc tttcaaaaac

25801 atctcaaatg ctataccaaa agtaaacgca aagcaccaat ttactggtca ctttctacaa

25861 catctagttc ttacacagtc tggatttatt accaccgcct tacagaccaa acgctctaca

25921 caatcgtcaa ccgctacctt gaaccaaaaa ttgccgaggt tgagcgtatc actggtggct

25981 tagaaaaaga attagagaca aaatcgggac gggaagcttc acaagtacgc gataacttac

26041 acgcaacacg caaattcctc agtgaattgc aagatatgaa gcaggaactt ttgcgcgtcg

26101 cacagctacc ttacaaaccc aatctcaatg atggcgcaat tatcactgcc gcccctctac

26161 accgtttatt tgctttgcga cagtgggcgc aagaaaccaa gaaatgttgg gaaagtttgg

26221 aaaaaggcga atacgattgg gcgcatttag cctacacaat ttggacagac agagtgcggg

26281 aagtctgcaa aagggataaa tcaattgcga tcgcccacgg acttgaagaa gtttaccaag

26341 cagctaaccc agaaaattcc caacccaaaa caaccaaagg cagaagccgt aaaaagacga

26401 cacaggagtc agtataatga gcgtctcaga ctttgtttgc cgacaattac accaaagatt

26461 agaacagcac cgtattgtcg tttggtacga tggcaatcgc gcttttgctg attttattca

26521 atccttccaa gctgactcct gtgtagtcgt atctgctgtt gagtctattt tgaactcccg

26581 tcgtcaagcc gaagccgtct accgccagat gaacgagtct aataactcag ccaaagctgg

26641 gttgaatctc ctcatttacg taccccgcca gcgcggaaca atagaagatg agaagcggca

26701 agatccgttt gaagttttcg catgggctgg tgtggcgttt ggcgacaaag aagcagaaca

26761 gttagaatct cttgctagac aagcaatgcc agaacgggct atagaaatta ctcggctatt

26821 tgcccaaggc agtccaacgc tatcgatgtt ggataaatta cagttccatc accgttcgcc

26881 tttactgtta gaggcgctag gtactgactc accatcagaa gcgatagcct tagtcctctg

26941 cttagaggag aaatcacaac gaattgattc tgttaaaggt tgtttaaaag aatttttgcc

27001 gttattggca acggagattg gttttaaacc tgcatccaaa gctaaatcat ggacagaaat

27061 tagaaagcaa ctcattcagt atgtgctgtt tagcgaattt gccctcgacc tgccttgtga

27121 cctgccagag tcattaagta ccttacccag agccaaagcc agccatgaat tagtgatttt

27181 tgcagtgtgc gatcgcatga gggatagttc cgacttgcga tcgggctatg ttcagctagc

27241 agtagaagta gaaaaccagt tgcaccttgg caatctcaca gaaaatatag ctcaactagg

27301 tactagagat accttcccct ttgcagaaaa gcgataccta cagcaagtgc tggagtatgt

27361 gcaacagaat aacttagcag atgcccagaa gattttaacc caacgccgtc attccatctg

27421 gaacaaccac ttggaacgag gtaatatttg gatgatagta gagcgttgtg tgacatttct

27481 cgccacaagt aatgctgtag aagagttgtc aaaaaaatct ttacagtcaa tgtctttacg

27541 ccaaatcatc tctgcatacg cacctccaga tcgctgggga tgggcagaac tagaccgaca

27601 tcagcgacta tttgaacagg gtgcaaccgc ctatgcagga gatgagggag agatagaatc

27661 tttagtcgaa ttttgccgcc gacgttactt agaagtggca ttagcaattc aagactgctt

27721 ccttaaatgt gttcagaaag aaggttggtt tcccgaagga gtgctgcgat aaacccaaat

27781 atttgaccag tatgtagctc ctctactgga acagaacaac aaaaaagtcg cattttttct

27841 agttgattcc ctgcgcttcg agatgggacg agatttggca gaagctttag aacagttggg

27901 cgaagtcgag attttaccag tcgcatctgt tttacctaca actacacctt gcgggatggc

27961 agcactgatg cctaatgctg atggtacgct cagactggtg gaatcaggcg gagagctaat

28021 tcctgtctta ggtgaaagga aactggaaga gtccaagcac cggatgcgac tgctacagga

28081 aaaatacggc gatcgcttca aagatatcga accggaagat attttcagca aaaaggtaaa

28141 tgccttgggt aagcagttag cctctgtgga tttattagtt gtccgcacca aagaccctga

28201 ccgcattgct gaaagtattg gcaacatgaa agcccgaaaa tatctttcgg atatagtcgc

28261 tgaaatggta aatacaattc gtcgattatc tacaattggg ttcacccatt ttgtcattag

28321 tgcagatcat ggtcacgtcc taattgacga aataccatta ggagatgtaa ttcccaaacc

28381 agggggtgag tggttgaaaa ctaagcgcag gagtttgctt gggcaattta tatcgggcga

28441 atcttcaagt gtagttatct tcaaaactga gcaggttggt atccaaggcg atgcccaaga

28501 cctctgtgtt gctaaaggct ttaaagtttt ccaacaagtt gaaggttact tccacgaagg

28561 cataagcttg caggaagcga tcgtgccatt ggtaattttg cgatcgcaag gtaagattac

28621 tgctcagagt aagccaaata ttttcctgcg ttataagtac gattacttta ccaataaagt

28681 cattaatctg cgagtctgct atgaatattt gctaccagaa gcaatacaag tccgcattga

28741 agcttacgat ggctcaacag caaaagccaa gcgggtaggt aaagcaaccg actgtgatgc

28801 tagagacgaa cgaactggtg aaatcatact ccagcccaat caagaaactt cggttcctat

28861 cttactggag tctgacgaca tttcatgctc caaaattgaa atacgagtaa ttgacccaca

28921 aactggcgta atttgggcaa agttagaact ggaaaatcgc ttactagatt aagaatgaac

28981 tcatgtttca agatgcctta gaccaaaaag ttaatcaaac atttccagga aaggtagtac

29041 gtaaggactt gctacatcaa atcaagggtg gagaaaatgt accatcttat gtactggaat

29101 atcttctggg aaagtactgc gcctcagatg atgaagatga aatccgcatt ggtattcagg

29161 ctgtcaaaga aacactacaa agcaactact tccgccacga tgaagctaac aaagcccaag

29221 cgctagtaga acaacgggga cgacatcgat ttatagaccg tatagaagtt cgttatctcg

29281 ccagtgaaaa caaatattgg gcggcaatgg atcactttag ttactccaga attcatgttg

29341 ctgaccgatt ttatcgacaa tacgaacgac ttttagaagg tggaatttgg ggtcttgtag

29401 atgttgaatt tcaaccaact gaagaagaag gtgctaaagc cagtcccttt cacattgctg

29461 acttaagacc aattcagtta gcaagattta acgttgatga atatgcagaa ggtcgtcgca

29521 gcttcagccg cgatcaatgg attgatattt tgctgcggag tgtgggttta gaacctaccc

29581 aaatagaaca acgtttaaaa ctgctgttac tgactcggtt cattcccttt gtcgaaaaaa

29641 attataactt cattgagcta gggccacgag gaacaggtaa atcctatgcc tacagtgaga

29701 tgtcgcctta cagcatcctc atttctggtg gtaaagccag cactgcaaac cttttctaca

29761 acaatgcccg ccgtcaggta ggtttagtag gtcattggga tgttgttgct tttgatgaag

29821 tcggtggttt gaaagttacc gatgcggatg caattcagat tatgaaagat tacatggcta

29881 acggtcgttt cagtcgtgga atcacccaag ttttagctga cgcgtctttg gtatttgttg

29941 gtaatcttaa ccaacctgtt gaaactctag tccaaaatac tgcaacagac ttatttcagc

30001 cattaccaaa agaatttgat ctggctttac ttgaccggat gcacttctac ttgccaggat

30061 gggaagtgcc aaaaaactcc aaaaatctgc ttacagaaca ctatggtttt gtcactgatt

30121 atttggctga agcgtttcgt accctaagaa aacaaaatcg gtttgatgaa gtcgagaaag

30181 tcttccgttt tggttctcat gtagaaggac gagatgcgat cgctgtcaaa aaaaccgtta

30241 gcggattact taagattatc catccagacg gagaatggac aaaggaaaac ctgacagaat

30301 atgtagaact agccttagaa gggcgcagac gagttaaaga acaactcaaa aagcgaggtt

30361 ctttcgagtt ttataaaacc agtttttctt acatcgacca ggaaaccgaa gcagagatga

30421 cagtgggtgt accagaacaa ggtagtgctg gaattatctc tcaagaaccc ttacccccag

30481 gcacagtgta caccgccaca gcagatggag aagcaagggt tggtcttttc cgcttggaag

30541 tagcttgtac atcggggaca ggaaaattgc gaacccctac aggacttgac aaagctttga

30601 aagaatcatt aaaccgcgct tacagctatc ttcaaagtat aaaggaaaga aaaggactca

30661 atgaaacttt gggattgaaa gatatttacg ctgaagctgt ggacttgtct ggaagtcgtg

30721 ttgaatgtcc ttgtggtgta gcattttttg tcgccatcat ttcagccata cagaatcgtc

30781 aaatccaagc tggaactctt atcttgggcg atttaacgat tcaagggaat atcaaaggcc

30841 ctgcttcaat tgttgaatca ttacaaatag caatggaaag tggagcttta cgagctttag

30901 taccactttc taataaaagc cagtttgcag gtttaccaga agagatagtc gaaaagctgg

30961 atattgtgtt ttacggtgat gttgaccgag cagtaattaa gagcgtcgaa atttaagaga

31021 ctatccctat tatgtcactc tcgaaaaaca ataattgaaa caagattcta aacctttgat

31081 ttaattaagc ttcagccttt attttctaac aataactaaa tttatagcca aaatcagaaa

31141 attaaagccc tgaaagcttt ccagcgattc ggttctccta aaatgacaca acagggctat

31201 ttataaaata aatctttagg ctacaagacg acttagcata atcctacttt gagaaacctt

31261 taatgtagct gatgagatgt tgatctatat tgtcgatatc acctttaagc tactgaaaat

31321 cgagttctga acggttatga aatgcgattg ctcgtgacct tgtagatgca gttcaccgca

31381 attttgctat cgactggcca cagaaataac tttttaaaac taacctctgc cgattagcgt

31441 gtgaggtcga gaattttgtt gtgcgatcgc ctcactacga acaaatgcta acttttttac

31501 acccctttaa atttgcttgt ttctagtatc gctgtttcta cgattttttt gagattaata

31561 gcacctccaa ttacagtaga aatactgtga atttagcttt tattgacttg gtacttagct

31621 aaaatactat tcttctattg gagtattgag gagcgctcgc gcaataggaa aagcaagaca

31681 caatatttat ttataaaaag gaaataattc agcttaaagg tttcttaatg gaacctgacg

31741 ggaactttca atctttcatc aacgtgatta tagtaagctc aacagtaaat atacgattta

31801 tagttattta gttattgtta accttcaagc catctaagct aaattacgga tgattaaccc

31861 ccagctagac aaaactattg agcgttatga gacggaaatt gagagactga aagtgactga

31921 cacggccata gatgccgaac aagttttgga agtgttaagt gccagggatg ctgtgcagtt

31981 agccttaaag ggtgcaacat tcattcctag cagtaggcta aagcaggttc tagagttaga

32041 tgcagaactc aggaaacaag cagtacacat taacaaagtt atcaaagctg aacaattcgc

32101 ccagtggcga gaaagtacac atcctcctgc tgaagcttgg tggtggcggt tagaaaatct

32161 tacccctcac cataagtggg atagatttga ttggttgtgg aagggtctag tagttgctgg

32221 ctggactgct aacctcagtt tattaatcaa tattgctact cgctttttga gcgggggagc

32281 aggattattg ggagcttctg cggttatttt gccgagtatt ctggcattgc tacaggcaag

32341 tagtgaacta actcaagcag gtaaacaaga atttgacaaa ttactcacaa aactgaatat

32401 cccccagcac ttacacgaag aagctaagtt cggatcaact ttattaatga caatcttttt

32461 acttggtttt tggttggctc taccgtcaat ttcccaactc tacaaccgtc aaggactcag

32521 taattaccta cagggaaaat taggagcagc agaacaagac taccttaaag caatttcctt

32581 ggatgccgat aatgcagatg ctcattataa tcttggcaat ctttacgagg atttacaaga

32641 ttttgagaaa gcacggaagc attatcaaat cgcagtggga agtgacgttc ctgatgctta

32701 caataatcta gctcgcttat acatccagga taaaaaatat tcccaggcta gagctttgct

32761 acaaaatgga ctagtaaaag ctaaagacct tcccgaagtc agatacagcc tgtttaaaaa

32821 tttaggatgg gtaaggtttg agcaaggcag atatgaagaa gcacaactaa acttacaagc

32881 agcaattggt attgcaaata acccagaggt agcaaagaat atccaaaata ctggtgcggc

32941 gtattgtatc ttagcgcagg taatggagcg gcaaaaacaa ccggccgctt tggagcaatg

33001 gcagaagtgc tgtgaacaag gttctactct caatgctgat gaagacacat ggttgcatct

33061 agctcggcaa aaattacaaa aggcaggaag agtatgcaaa tagaccggaa aaagattagt

33121 ttcttagcca ttgtactaag cctacctttt atgacggtag caacacctgg gctgagtcaa

33181 cagaatagtc taaattttat ctccgaagtt aagggagatg tcaaaattca acgttctgga

33241 cgcaagaacc atcaaaaagc atatggtggt gaactactag attcttctga ttctttgcga

33301 ttgggaaaag gtgcttctac aaaagttgta tgtaataact tatccatttg gaatattaaa

33361 tctccaggga aattttcagt ctctagtggt tgtccatcca ctggaaaacc agttcttata

33421 agaaatggta gtgaacgcgc tccgactcgc gctcccaatg acccgacaat tccctacatc

33481 attagtccgc gtgatacagc aattttgagt ggcaaaccta ctctgcgttg gaatgctgtt

33541 aagggtgcaa ccagctataa ggtgacgtta cgcggccctg gtgttaattg gacaactaat

33601 gtgaagcagt cagaagttgt ttattctggt caagaacctc tacagccagg ttttcgttat

33661 cgggtagttg tgactgctga taatggagca acttctgaga gtgatgcacc tgttggattc

33721 aatttactga gtgaggggga ggctcaacag gtaaaagctg aaattacaca attacaaaag

33781 caaccgctaa ctgatgaatc taaaaatctt gctttggcat atttgtacca aagcaagaat

33841 ttaaatgctg tggcaattga tttattagca ggcttagtta agcaagaaaa ccaaagcaca

33901 gcagtttatc agcttttagg tagcctctac caacaggtag gtttacatcg attagctaaa

33961 gaacattact taactgcgct caagttagct aagacaaaca aaagtctgga agcgcaagca

34021 atcatccaaa ccagcttagg agaaattgat atagttcttg acaacttgca gcaggcgttt

34081 gagtcattgc aagctgctca aaataactat cgtgccttgg gagatgagca acaagtacag

34141 caactacagc agaaactaga tgacttgaaa ggaaggctac catcatgaat aacctgcgaa

34201 ctagacaatt agtaacccta acaattttgg tagcaacagc tggattatgg gtgttaatgc

34261 caaagcccac aattgggcaa tcaacccctc ctgtttctgc tgctcagtct gcggaattgg

34321 cggaagtaga aagactcaat caacaggtga ttcaacttta tgaaaaaggc aaatatagtg

34381 aagcaattcc cttagcagag cgtgcattgg ctatccgtaa gcaaaaacta ggcgatgagc

34441 atccggatgt ggcaagnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34501 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34561 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34621 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34681 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34741 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34801 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34861 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34921 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

34981 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35041 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35101 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35161 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35221 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35281 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35341 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35401 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35461 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35521 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35581 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35641 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35701 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35761 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35821 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35881 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

35941 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36001 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36061 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36121 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36181 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36241 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36301 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36361 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36421 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36481 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36541 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36601 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36661 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36721 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36781 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36841 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36901 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn

36961 ntagcttgaa taatctggca ttgctgtact ggaaccaaga tgacacaagc cgcgctcttg

37021 agtttttaac tcaaggaata acagttcaag aacacaacct cactctcaac ttggctgtcg

37081 gttttgagcg acaaaaacgc gattacgtca agactatctc tgctaccaca gatgcttcca

37141 tttcactgca cctcaatggt gctgctaata accccagtgc tgctaattta gctctaagca

37201 cagtcttaca acgcaaagga cgcatcttgg atgtcctcac taatagccag caaattctac

37261 gtcaacgcct agacccagaa agcaagactc tgttaacgaa gttagcaaac acccaaactc

37321 aactagccaa tctattttat aaccgaccag agaaacttcc tcttgagcag tatcggactc

37381 aaattgccca actggaaacc caagcaaaac aactagaaga tcaactgagt cgtcgcagcc

37441 aagaatttcg tactcagtcc cagcttgtca ccattgaaac tgttcaaaaa ttaattcctg

37501 ctgatggtgc tttggtagaa atagtccgct atcgacctgt taatcttaaa gcagcacctg

37561 aagatcagtt tggtaaacct cgttacgcag tatacgtcct tccagcaaaa ggacaaccta

37621 aaggtattga tttaggcgat gctgaaacaa ttgagcaaac tctcatccaa ttacgcaagg

37681 acttgcaaga tcaaaaaact cctatttctc aaatgaaaca gtcggctcgt gagttggatt

37741 caattctcat gcagcctgta cgcaaacttt tgggcaatac tcgcaaaatt ttactctctc

37801 cagacagtca gcttcacctc attccctttg aggcactggt ggatgaaaat aaccgctacc

37861 tactagaaaa ctattctttc acctacctta cctctggacg agacttgctc agactgcaaa

37921 acaaatctgc cagtaaacag ccgccagtta ttattgctga ccccaatttc aatcgtcctg

37981 gcaaattagt tgcgcgtcag ccttatgcta atagtattga tgcaaatacc cgctctatag

38041 acctgtccca gaaagtattt ccccccctcc ccggtacagc acaagaagcc aaggccattg

38101 ccagtctatt aaaaatccaa cctcttacag acactaaggc tactgagggt gctgtcaaac

38161 aagttaacag ccccaggatt ctgcatattg ccacacacgg tatttttgaa aatcccccag

38221 caaacgaagg gaaaaccaca cttgaagata atccgctact gcaatcagga ttagttctag

38281 ctggcttaaa acctcgtcag agtgctggtg aagatgggat tctcactgcc ctggaaacaa

38341 ctacactcaa tctagttggt acaaaactgg tggtactctc tgcctgtaat acaggtttgg

38401 gtaatattaa tgcaggtgaa ggcgtttatg gtttgcgtcg cgctttagtc attgctggtt

38461 ctgaaagcca agtcatcagc ctgtggaaag tagcagatga tgctactaaa gattttatgg

38521 tggcttacta ccaaagatta ttagataatc aaggacgcag tgaagcacta cgccaaacgc

38581 aactagagat gttaaagggt gataagtatc agcatcccta cttctgggct gcgtttatcc

38641 cttctggtga ttggaaaccg atgggtaagt gagttagttt tgagagcttt ggcgatcctt

38701 ccatattatc ggctcaacat gaaatagagt gcgatcgcct ccctcgaaac taaactgttg

38761 attcagcttt gtactgggaa tgcgatgcga tcgccactaa atcttggagt aaatattccc

38821 aaatccttac ggggaagtaa tttgcaaaat tgtacaactt ttttatttct ttttggatag

38881 tagcctgatg aaattgtaga actttatttt ttcaagactt cttagtaatc aacgatataa

38941 caatccttgt agccgcgcaa attatacaac tttattatat ttatacagag gttgtagaga

39001 aataattcga ttcaacaata aagatgttaa aaataacctc taaagaatta ctaaaataat

39061 tgcaaataga ggttattttt attggaacag agacaaaaca ggtttttcaa aggctagagt

39121 ctttcgatat caggtaaaat ttgataaatc tgctgccagt gaggacttat ccagccaaca

39181 atacgcacta cttctcgtaa aattacgata gacaaaccgc attcaacctt ctcaaaagca

39241 gttgcacaat ctgttaatag acttacgaaa ctatctagtt tttgtaattt catctttgct

39301 aatccatctg caaattgccc aatttgagct aatactacac taatttcgcc taaactctct

39361 tcgtccatat ccttacatat taaatcccaa tctttcttga tttctgaaaa tatctcctca

39421 gcttctactt cttgcccttg ttgataaaag gcttctacta aactatataa agctactatc

39481 ttttctggtg tatcttcaat caagcctgct actttcttag ctttagaaca aaagccaaat

39541 cttgctaaga cttgtgttaa attctctaat aaaaatggtt gatcaaaagg attatccatt

39601 tcaagaatca tttcttctat ttcagttagc aatatatctg ctctttctgc gtattcaccc

39661 ttataaaggc tatttaataa tattgttaaa gcttggattt ggaaaaaacc agtttcaagt

39721 tttctggcta ttctttcggt agctaaaaat agagtattag catttttggg tttgtttata

39781 caattaaatg cgactgccaa atcagtcatt aatcataagc gataaggctc att

上述IB28基因座中组分的特征，例如TnsA、TnsB、TnsC、TniQ(TnsD)、Cas5、Cas6、Cas7、Cas8和CRISPR簇如下所示。

特征位置/限定符

glmS 159..2033

/created_by＝"makoto"

/label＝"glmS"

CDS 159..2033

/product＝"NA>cl_19425"

/gene＝"NA>cl_19425"

/locus_tag＝"NA>cl_19425"

/label＝"NA>cl 19425CDS"

ITR 2058..2124

/created_by＝"makoto"

/label＝"RE"

motif_3 2066..2084

/Mismatches＝0

/％_Identity＝100

/Motif＝"[ATC][AC][AT]AA[AT]AAAGTT[GC]TA[CT]AAT"

/annotation_group＝"AttTn7_cluster_3:11,075,376->

11,075,394"

/label＝"AttTn7_cluster_3"

motif_3 2086..2104

/Mismatches＝0

/％_Identity＝100

/Motif＝"[ATC][AC][AT]AA[AT]AAAGTT[GC]TA[CT]AAT"

/annotation_group＝"AttTn7_cluster_3:11,075,396->

11,075,414"

/label＝"AttTn7_cluster_3"

motif_3 2106..2124

/Mismatches＝1

/％_Identity＝"94.73684210526316"

/Motif＝"[ATC][AC][AT]AA[AT]AAAGTT[GC]TA[CT]AAT"

/annotation_group＝"AttTn7_cluster_3:11,075,416->

11,075,434"

/label＝"AttTn7_cluster_3"

tnsA 2170..2985

/product＝"1-272|id:62.500@bs:371"

/gene＝"1-272|id:62.500@bs:371"

/locus_tag＝"1-272|id:62.500@bs:371"

/label＝"1-272|id:62.500@bs:371 tnsA"

CDS 2170..2988

/product＝"tnsA_13>cl_27484"

/gene＝"tnsA_13>cl_27484"

/locus_tag＝"tnsA_13>cl_27484"

/label＝"tnsA 13>cl 27484 CDS"

tnsB 3010..5232

/product＝"1-742|id:67.564@bs:1041"

/gene＝"1-742|id:67.564@bs:1041"

/locus_tag＝"1-742|id:67.564@bs:1041"

/modified_by＝"makoto"

/label＝"29-B 1-742|id:67.564@bs:1041 tnsB"

CDS 3010..5238

/product＝"tnsB_14>cl_26522"

/gene＝"tnsB_14>cl_26522"

/locus_tag＝"tnsB_14>cl_26522"

/label＝"tnsB 14>cl 26522 CDS"

tnsC 5207..6904

/product＝"2-568|id:59.331@bs:688"

/gene＝"2-568|id:59.331@bs:688"

/locus_tag＝"2-568|id:59.331@bs:688"

/label＝"2-568|id:59.331@bs:688 tnsC"

CDS 5222..6910

/product＝"NA>cl_6196"

/gene＝"NA>cl_6196"

/locus_tag＝"NA>cl_6196"

/label＝"NA>cl 6196 CDS"

tniQ 6915..7868

/product＝"1-309|id:25.731@bs:85.1"

/gene＝"1-309|id:25.731@bs:85.1"

/locus_tag＝"1-309|id:25.731@bs:85.1"

/label＝"1-309|id:25.731@bs:85.1 tniQ"

CDS 6915..7862

/product＝"NA>cl_2402"

/gene＝"NA>cl_2402"

/locus_tag＝"NA>cl_2402"

/label＝"NA>cl 2402 CDS"

CDS 8023..8691

/product＝"NA>cl_11380"

/gene＝"NA>cl_11380"

/locus_tag＝"NA>cl_11380"

/label＝"NA>cl 11380 CDS"

cas6 8047..8688

/product＝"15-227|id:63.084@bs:281"

/gene＝"15-227|id:63.084@bs:281"

/locus_tag＝"15-227|id:63.084@bs:281"

/label＝"15-227|id:63.084@bs:281 cas6"

cas8 8709..10238

/product＝"1-512|id:64.453@bs:696"

/gene＝"1-512|id:64.453@bs:696"

/locus_tag＝"1-512|id:64.453@bs:696"

/label＝"1-512|id:64.453@bs:696 cas8"

CDS 8709..10241

/product＝"devT_19>cl_6205"

/gene＝"devT_19>cl_6205"

/locus_tag＝"devT_19>cl_6205"

/label＝"devT 19>cl 6205 CDS"

cas7 10299..11294

/product＝"1-324|id:74.096@bs:433"

/gene＝"1-324|id:74.096@bs:433"

/locus_tag＝"1-324|id:74.096@bs:433"

/label＝"1-324|id:74.096@bs:433 cas7"

CDS 10299..11297

/product＝"devR_31>cl_17591"

/gene＝"devR_31>cl_17591"

/locus_tag＝"devR_31>cl_17591"

/label＝"devR 31>cl 17591 CDS"

cas5 11299..11928

/product＝"1-210|id:87.619@bs:390"

/gene＝"1-210|id:87.619@bs:390"

/locus_tag＝"1-210|id:87.619@bs:390"

/label＝"1-210|id:87.619@bs:390 cas5"

CDS 11299..11931

/product＝"devS_23>cl_25717"

/gene＝"devS_23>cl_25717"

/locus_tag＝"devS_23>cl_25717"

/label＝"devS 23>cl 25717 CDS"

CRISPR complement(12210..12538)

/product＝"5 CTGCTCAACGCCTAATGGCATCTAATGTTGAAGCAC"(SEQ ID NO:75)

/gene＝"5 CTGCTCAACGCCTAATGGCATCTAATGTTGAAGCAC"(SEQ ID NO:76)

/locus_tag＝"5 CTGCTCAACGCCTAATGGCATCTAATGTTGAAGCAC"(SEQ ID NO；77)

/label＝"5 CTGCTCAACGCCTAATGGCATCTAATGTTGAAGCAC CRISPR"(SEQ ID NO:78)

CDS complement(12759..12989)

/product＝"NA>cl_2538"

/gene＝"NA>cl_2538"

/locus_tag＝"NA>cl_2538"

/label＝"NA>cl 2538 CDS"

CRISPR complement(13076..13127)

/product＝"2 AGGCATTACACAATAC"(SEQ ID NO:79)

/gene＝"2 AGGCATTACACAATAC"(SEQ ID NO:80)

/locus_tag＝"2 AGGCATTACACAATAC"(SEQ ID NO:81)

/label＝"2 AGGCATTACACAATAC CRISPR"(SEQ ID NO:82)

tniQ 13283..15190

/product＝"1-636|id:91.352@bs:1195"

/gene＝"1-636|id:91.352@bs:1195"

/locus_tag＝"1-636|id:91.352@bs:1195"

/label＝"1-636|id:91.352@bs:1195 tniQ"

CDS 13283..15193

/product＝"NA>cl_1243"

/gene＝"NA>cl_1243"

/locus_tag＝"NA>cl_1243"

/label＝"NA>cl 1243 CDS"

CDS complement(15236..15541)

/product＝"NA>cl_14703"

/gene＝"NA>cl_14703"

/locus_tag＝"NA>cl_14703"

/label＝"NA>cl 14703 CDS"

CDS complement(15672..15965)

/product＝"NA>cl_2353"

/gene＝"NA>cl_2353"

/locus_tag＝"NA>cl_2353"

/label＝"NA>cl 2353 CDS"

CDS 16481..17014

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 17020..17835

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 17819..18385

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 18385..22101

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 22104..26417

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 26417..27772

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 27863..28972

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 28983..31016

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 31850..33103

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 33094..34188

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS 36966..38672

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

ITR complement(38849..38987)

/created_by＝"makoto"

/label＝"Left End"

motif_3 complement(38849..38867)

/Mismatches＝0

/％_Identity＝100

/Motif＝"[ATC][AC][AT]AA[AT]AAAGTT[GC]TA[CT]AAT"

/annotation_group＝"AttTn7_cluster_3:11,112,159<-

11,112,177"

/label＝"AttTn7_cluster_3"

motif_3 complement(38893..38911)

/Mismatches＝0

/％_Identity＝100

/Motif＝"[ATC][AC][AT]AA[AT]AAAGTT[GC]TA[CT]AAT"

/annotation_group＝"AttTn7_cluster_3:11,112,203<-

11,112,221"

/label＝"AttTn7_cluster_3"

motif_3 complement(38961..38979)

/Mismatches＝0

/％_Identity＝100

/Motif＝"[ATC][AC][AT]AA[AT]AAAGTT[GC]TA[CT]AAT"

/annotation_group＝"AttTn7_cluster_3:11,112,271<-

11,112,289"

/label＝"AttTn7_cluster_3"

CDS complement(39114..39809)

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

CDS complement(39813..>39833)

/product＝"NA>nocl"

/gene＝"NA>nocl"

/locus_tag＝"NA>nocl"

/label＝"NA>nocl CDS"

实施例18–

图55示出了包含IB型Cas蛋白的示例性CAST系统。

申请人制成了表达附接有各种NLS的示例性CAST(T24)的构建体(图56)。将V1.N标签和v1.C标签混合用于所有ORF。V.4NLS是c-Myc和SV40融合人工双分型NLS。

附接有v1 NLS的T24的组分的亚细胞定位在图57中示出。Cas8、TnsC和TnsD1没有进入细胞核。附接有其他版本的NLS的T24的组分的亚细胞定位在图58中示出。

申请人带来制成了具有带有T24的各种NLS的质粒，并测试了它们的靶向活性(图59)。针对Cas8、TnsC和TnsD1的V4 NLS是功能性的。图60示出了用t24测试哺乳动物基因组靶向的示例性实验。用QE以96孔格式进行质粒的靶向(图61)。

进行PCR实验以测试质粒对靶基因的影响(图62)。基因组提取时使用0.3X10⁵个细胞。40μL QE，10μL(孔中总细胞的25％)于50μLPCR反应中。奇数泳道运行所有组分转染，并且偶数泳道运行对照(不具有TnsD1的转染)。指导物的预期扩增子大小为200至400bp。

IB28 CAST系统的Cascade组分的亚细胞定位在图63中示出。Cas8没有进入细胞核。IB28 CAST系统的Tns组分的亚细胞定位在图64中示出。TnsA、TnsC和TnsD1没有进入细胞核。具有不同版本的NLS的IB28 CAST系统的组分的亚细胞定位在图65中示出。申请人制成了具有带有IB28的各种NLS的质粒，并测试了它们的靶向活性(图66)。

IB18的NLS的v.1的Cascade组分的亚细胞定位在图67中示出。Cas8没有进入细胞核。

IB18的NLS的v.1的Tns组分的亚细胞定位在图68中示出。N标签TnsC和TnsD没有进入细胞核。

实施例19

表征了示例性CAST系统IB20。图69示出了IB20的基因座。图70示出了IB IB20在哺乳动物细胞中的功能。图71示出了PAM序列的筛选结果。

质粒和相关序列总结如下。

表9

图104示出了供体质粒(pDonor_IB20-CmR)的图谱。序列如下。

primer_bind 379..395

/label＝M13 fwd

/note＝"common sequencing primer,one of multiple similar

variants"

misc_feature 416..470

/label＝gblock

misc_feature 471..475

/label＝TSD？

misc_feature 476..631

/label＝IB20-RE

misc_feature 484..501

/label＝attTn7

primer_bind complement(497..521)

/label＝Primer 1350

misc_feature 507..524

/label＝attTn7

misc_feature 584..601

/label＝attTn7

primer_bind complement(597..619)

/label＝Primer 1351

misc_feature 614..631

/label＝attTn7

misc_feature 632..691

/label＝Rside-60bp

misc_feature 1360..1419

/label＝Lside-60bp

primer_bind 1362..1386

/label＝Primer 1353

misc_feature 1420..1491

/label＝IB20-LE

misc_feature 1420..1437

/label＝attTn7

misc_feature 1447..1464

/label＝attTn7

primer_bind 1450..1469

/label＝Primer 1352

misc_feature complement(1466..1483)

/label＝attTn7

misc_feature 1492..1496

/label＝TSD？

misc_feature 1497..1551

/label＝gblock

(SEQ ID NO:99)

1 tcgcgcgttt cggtgatgac ggtgaaaacc tctgacacat gcagctcccg gagacggtca

61 cagcttgtct gtaagcggat gccgggagca gacaagcccg tcagggcgcg tcagcgggtg

121 ttggcgggtg tcggggctgg cttaactatg cggcatcaga gcagattgta ctgagagtgc

181 accatatgcg gtgtgaaata ccgcacagat gcgtaaggag aaaataccgc atcaggcgcc

241 attcgccatt caggctgcgc aactgttggg aagggcgatc ggtgcgggcc tcttcgctat

301 tacgccagct ggcgaaaggg ggatgtgctg caaggcgatt aagttgggta acgccagggt

361 tttcccagtc acgacgttgt aaaacgacgg ccagtgaatt gacgcgtatt gggatcaatg

421 gctggtacta taattcccct ggttgctgaa gcggtaaaag tgcgtcaact agttttgtga

481 ctttacccat aactttgccg ttactggaac cataactttg ccgtcaacaa cactacaacc

541 ctcattcttg cgtcagctaa ttttggatga aattgacagt ttggaaccat aactttgccg

601 ctagtccaaa ttggaaggat aagcttgccg tgagtccaat caagcataga aagcaggaaa

661 acgccgaatt tttttagaat ggagcagaag cgtcgatgga gaaaaaaatc actggatata

721 ccaccgttga tatatcccaa tggcatcgta aagaacattt tgaggcattt cagtcagttg

781 ctcaatgtac ctataaccag accgttcagc tggatattac ggccttttta aagaccgtaa

841 agaaaaataa gcacaagttt tatccggcct ttattcacat tcttgcccgc ctgatgaatg

901 ctcatccgga gttccgtatg gcaatgaaag acggtgagct ggtgatatgg gatagtgttc

961 acccttgtta caccgttttc catgagcaaa ctgaaacgtt ttcatcgctc tggagtgaat

1021 accacgacga tttccggcag tttctacaca tatattcgca agatgtggcg tgttacggtg

1081 aaaacctggc ctatttccct aaagggttta ttgagaatat gtttttcgtc tcagccaatc

1141 cctgggtgag tttcaccagt tttgatttaa acgtggccaa tatggacaac ttcttcgccc

1201 ccgttttcac tatgggcaaa tattatacgc aaggcgacaa ggtgctgatg ccgctggcga

1261 ttcaggttca tcatgccgtt tgtgatggct tccatgtcgg cagaatgctt aatgaattac

1321 aacagtactg cgatgagtgg cagggcgggg cgtaacactc acgacgtgag tttggtttgt

1381 aagctgttat atgtaaaact agaacagctt atataactgg aaccataacc ttgccaccct

1441 ttattggaag cataagcttg ccgttgcggc aaagttatgg gtaaagtcac atctaagctg

1501 tctctagcct ttatttactg aatgggcagt accagactcg aactgatgac aatcccaatg

1561 gcgcgccgag cttggcgtaa tcatggtcat agctgtttcc tgtgtgaaat tgttatccgc

1621 tcacaattcc acacaacata cgagccggaa gcataaagtg taaagcctgg ggtgcctaat

1681 gagtgagcta actcacatta attgcgttgc gctcactgcc cgctttccag tcgggaaacc

1741 tgtcgtgcca gctgcattaa tgaatcggcc aacgcgcggg gagaggcggt ttgcgtattg

1801 ggcgctcttc cgcttcctcg ctcactgact cgctgcgctc ggtcgttcgg ctgcggcgag

1861 cggtatcagc tcactcaaag gcggtaatac ggttatccac agaatcaggg gataacgcag

1921 gaaagaacat gtgagcaaaa ggccagcaaa aggccaggaa ccgtaaaaag gccgcgttgc

1981 tggcgttttt ccataggctc cgcccccctg acgagcatca caaaatcaca aaaatcgacg

2041 ctcaagtcag aggtggcgaa acccgacagg actataaaga taccaggcgt ttccccctgg

2101 aagctccctc gtgcgctctc ctgttccgac cctgccgctt accggatacc tgtccgcctt

2161 tctcccttcg ggaagcgtgg cgctttctca tagctcacgc tgtaggtatc tcagttcggt

2221 gtaggtcgtt cgctccaagc tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg

2281 cgccttatcc ggtaactatc gtcttgagtc caacccggta agacacgact tatcgccact

2341 ggcagcagcc actggtaaca ggattagcag agcgaggtat gtaggcggtg ctacagagtt

2401 cttgaagtgg tggcctaact acggctacac tagaagaaca gtatttggta tctgcgctct

2461 gctgaagcca gttaccttcg gaaaaagagt tggtagctct tgatccggca aacaaaccac

2521 cgctggtagc ggtggttttt ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc

2581 tcaagaagat cctttgatct tttctacggg gtctgacgct cagtggaacg aaaactcacg

2641 ttaagggatt ttggtcatga gattatcaaa aaggatcttc acctagatcc ttttaaatta

2701 aaaatgaagt tttaaatcaa tctaaagtat atatgagtaa acttggtctg acagttacca

2761 atgcttaatc agtgaggcac ctatctcagc gatctgtcta tttcgttcat ccatagttgc

2821 ctgactcccc gtcgtgtaga taactacgat acgggagggc ttaccatctg gccccagtgc

2881 tgcaatgata ccgcgagacc cacgctcacc ggctccagat ttatcagcaa taaaccagcc

2941 agccggaagg gccgagcgca gaagtggtcc tgcaacttta tccgcctcca tccagtctat

3001 taattgttgc cgggaagcta gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt

3061 tgccattgct acaggcatcg tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc

3121 cggttcccaa cgatcaaggc gagttacatg atcccccatg ttgtgcaaaa aagcggttag

3181 ctccttcggt cctccgatcg ttgtcagaag taagttggcc gcagtgttat cactcatggt

3241 tatggcagca ctgcataatt ctcttactgt catgccatcc gtaagatgct tttctgtgac

3301 tggtgagtac tcaaccaagt cattctgaga atagtgtatg cggcgaccga gttgctcttg

3361 cccggcgtca atacgggata ataccgcgcc acatagcaga actttaaaag tgctcatcat

3421 tggaaaacgt tcttcggggc gaaaactctc aaggatctta ccgctgttga gatccagttc

3481 gatgtaaccc actcgtgcac ccaactgatc ttcagcatct tttactttca ccagcgtttc

3541 tgggtgagca aaaacaggaa ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa

3601 atgttgaata ctcatactct tcctttttca atattattga agcatttatc agggttattg

3661 tctcatgagc ggatacatat ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg

3721 cacatttccc cgaaaagtgc cacctgacgt ctaagaaacc attattatca tgacattaac

3781 ctataaaaat aggcgtatca cgaggccctt tcgtc//

用于表征PAM的质粒(pU6-IB20_CRISPR_PAMcont(-)和pU6-IB20_CRISPR_PAMlib(+))在图105和图106中示出。序列和特征如下。

pU6-IB20_CRISPR_PAMcont(-)

misc_feature 1..30

/label＝Overhung

primer_bind 1..30

/label＝Vector.REV

primer_bind 1..22

/label＝Vector.FOR

promoter 14..343

/label＝SV40 promoter

/note＝"SV40 enhancer and early promoter"

rep_origin 194..329

/label＝SV40 ori

/note＝"SV40 origin of replication"

primer_bind complement(235..256)

/label＝Primer 738

primer_bind complement(329..348)

/label＝Primer 1

polyA_signal 349..470

/label＝SV40 poly(A)signal

/note＝"SV40 polyadenylation signal"

primer_bind 349..373

/label＝Primer 2

primer_bind complement(519..535)

/label＝M13 rev

/note＝"common sequencing primer,one of multiple similar

variants"

protein_bind 543..559

/label＝lac operator

/bound_moiety＝"lac repressor encoded by lacI"

/note＝"The lac repressor binds to the lac operator to

inhibit transcription in E.coli.This inhibition can be

relieved by adding lactose or

isopropyl-beta-D-thiogalactopyranoside(IPTG)."

promoter complement(567..597)

/label＝lac promoter

/note＝"promoter for the E.coli lac operon"

protein_bind 612..633

/label＝CAP binding site

/bound_moiety＝"E.coli catabolite activator protein"

/note＝"CAP binding activates transcription in the presence

of cAMP."

rep_origin complement(921..1506)

/direction＝LEFT

/label＝ori

/note＝"high-copy-number ColE1/pMB1/pBR322/pUC origin of

replication"

CDS complement(1677..2537)

/codon_start＝1

/gene＝"bla"

/product＝"beta-lactamase"

primer_bind 2427..2447

/label＝Primer 261

promoter complement(2538..2642)

/gene＝"bla"

/label＝AmpR promoter

misc_feature 2643..2667

/label＝Overhung

primer_bind complement(2645..2667)

/label＝Vector.FOR

promoter 2668..2908

/label＝U6 promoter

/note＝"RNA polymerase III promoter for human U6 snRNA"

primer_bind 2668..2688

/label＝hU6-F

/note＝"Human U6 promoter,forward primer"

primer_bind 2839..2858

/label＝LKO.1 5'

/note＝"Human U6 promoter,forward primer"

misc_feature 2879..2908

/label＝Overhung

primer_bind complement(2883..2908)

/label＝Vector.REV

misc_feature 2909..2944

/label＝IB20-DR

misc_feature 2980..3015

/label＝IB20-DR

misc_feature 3016..3021

/label＝U6 terminator

(SEQ ID NO:100)

1 aattctgtgg aatgtgtgtc agttagggtg tggaaagtcc ccaggctccc cagcaggcag

61 aagtatgcaa agcatgcatc tcaattagtc agcaaccagg tgtggaaagt ccccaggctc

121 cccagcaggc agaagtatgc aaagcatgca tctcaattag tcagcaacca tagtcccgcc

181 cctaactccg cccatcccgc ccctaactcc gcccagttcc gcccattctc cgccccatgg

241 ctgactaatt ttttttattt atgcagaggc cgaggccgcc tctgcctctg agctattcca

301 gaagtagtga ggaggctttt ttggaggcct aggcttttgc aaaaagctaa cttgtttatt

361 gcagcttata atggttacaa ataaagcaat agcatcacaa atttcacaaa taaagcattt

421 ttttcactgc attctagttg tggtttgtcc aaactcatca atgtatctta tcatgtctgt

481 ataccgtcga cctctagcta gagcttggcg taatcatggt catagctgtt tcctgtgtga

541 aattgttatc cgctcacaat tccacacaac atacgagccg gaagcataaa gtgtaaagcc

601 tggggtgcct aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc

661 cagtcgggaa acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc

721 ggtttgcgta ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt

781 cggctgcggc gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca

841 ggggataacg caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa

901 aaggccgcgt tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat

961 cgacgctcaa gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc

1021 cctggaagct ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc

1081 gcctttctcc cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt

1141 tcggtgtagg tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac

1201 cgctgcgcct tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg

1261 ccactggcag cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca

1321 gagttcttga agtggtggcc taactacggc tacactagaa gaacagtatt tggtatctgc

1381 gctctgctga agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa

1441 accaccgctg gtagcggttt ttttgtttgc aagcagcaga ttacgcgcag aaaaaaagga

1501 tctcaagaag atcctttgat cttttctacg gggtctgacg ctcagtggaa cgaaaactca

1561 cgttaaggga ttttggtcat gagattatca aaaaggatct tcacctagat ccttttaaat

1621 taaaaatgaa gttttaaatc aatctaaagt atatatgagt aaacttggtc tgacagttac

1681 caatgcttaa tcagtgaggc acctatctca gcgatctgtc tatttcgttc atccatagtt

1741 gcctgactcc ccgtcgtgta gataactacg atacgggagg gcttaccatc tggccccagt

1801 gctgcaatga taccgcgaga cccacgctca ccggctccag atttatcagc aataaaccag

1861 ccagccggaa gggccgagcg cagaagtggt cctgcaactt tatccgcctc catccagtct

1921 attaattgtt gccgggaagc tagagtaagt agttcgccag ttaatagttt gcgcaacgtt

1981 gttgccattg ctacaggcat cgtggtgtca cgctcgtcgt ttggtatggc ttcattcagc

2041 tccggttccc aacgatcaag gcgagttaca tgatccccca tgttgtgcaa aaaagcggtt

2101 agctccttcg gtcctccgat cgttgtcaga agtaagttgg ccgcagtgtt atcactcatg

2161 gttatggcag cactgcataa ttctcttact gtcatgccat ccgtaagatg cttttctgtg

2221 actggtgagt actcaaccaa gtcattctga gaatagtgta tgcggcgacc gagttgctct

2281 tgcccggcgt caatacggga taataccgcg ccacatagca gaactttaaa agtgctcatc

2341 attggaaaac gttcttcggg gcgaaaactc tcaaggatct taccgctgtt gagatccagt

2401 tcgatgtaac ccactcgtgc acccaactga tcttcagcat cttttacttt caccagcgtt

2461 tctgggtgag caaaaacagg aaggcaaaat gccgcaaaaa agggaataag ggcgacacgg

2521 aaatgttgaa tactcatact cttccttttt caatattatt gaagcattta tcagggttat

2581 tgtctcatga gcggatacat atttgaatgt atttagaaaa ataaacaaat aggggttccg

2641 cgcacatttc cccgaaaagt gccacctgag ggcctatttc ccatgattcc ttcatatttg

2701 catatacgat acaaggctgt tagagagata attagaatta atttgactgt aaacacaaag

2761 atattagtac aaaatacgtg acgtagaaag taataatttc ttgggtagtt tgcagtttta

2821 aaattatgtt ttaaaatgga ctatcatatg cttaccgtaa cttgaaagta tttcgatttc

2881 ttggctttat atatcttgtg gaaaggacgt gagtcgtggc tttatgccgt taggcgttgc

3001aaccatc tatgtatagc tacgatggaa tagtaaaggg tgagtcgtgg ctttatgccg

3001 ttaggcgttg ctcaattttt t//

pU6-IB20_CRISPR_PAMlib(+)

misc_feature 1..30

/label＝Overhung

primer_bind 1..30

/label＝Vector.REV

primer_bind 1..22

/label＝Vector.FOR

promoter 14..343

/label＝SV40 promoter

/note＝"SV40 enhancer and early promoter"

rep_origin 194..329

/label＝SV40 ori

/note＝"SV40 origin of replication"

primer_bind complement(235..256)

/label＝Primer 738

primer_bind complement(329..348)

/label＝Primer 1

polyA_signal 349..470

/label＝SV40 poly(A)signal

/note＝"SV40 polyadenylation signal"

primer_bind 349..373

/label＝Primer 2

primer_bind complement(519..535)

/label＝M13 rev

/note＝"common sequencing primer,one of multiple similar

variants"

protein_bind 543..559

/label＝lac operator

/bound_moiety＝"lac repressor encoded by lacI"

/note＝"The lac repressor binds to the lac operator to

inhibit transcription in E.coli.This inhibition can be

relieved by adding lactose or

isopropyl-beta-D-thiogalactopyranoside(IPTG)."

promoter complement(567..597)

/label＝lac promoter

/note＝"promoter for the E.coli lac operon"

protein_bind 612..633

/label＝CAP binding site

/bound_moiety＝"E.coli catabolite activator protein"

/note＝"CAP binding activates transcription in the presence

of cAMP."

rep_origin complement(921..1506)

/direction＝LEFT

/label＝ori

/note＝"high-copy-number ColE1/pMB1/pBR322/pUC origin of

replication"

CDS complement(1677..2537)

/codon_start＝1

/gene＝"bla"

/product＝"beta-lactamase"

/label＝AmpR

/note＝"confers resistance to ampicillin,carbenicillin,and

related antibiotics"

/translation＝"

primer_bind 2427..2447

/label＝Primer 261

promoter complement(2538..2642)

/gene＝"bla"

/label＝AmpR promoter

misc_feature 2643..2667

/label＝Overhung

primer_bind complement(2645..2667)

/label＝Vector.FOR

promoter 2668..2908

/label＝U6 promoter

/note＝"RNA polymerase III promoter for human U6 snRNA"

primer_bind 2668..2688

/label＝hU6-F

/note＝"Human U6 promoter,forward primer"

primer_bind 2839..2858

/label＝LKO.1 5'

/note＝"Human U6 promoter,forward primer"

misc_feature 2879..2908

/label＝Overhung

primer_bind complement(2883..2908)

/label＝Vector.REV

misc_feature 2909..2944

/label＝IB20-DR

misc_feature 2980..3015

/label＝IB20-DR

misc_feature 3016..3021

/label＝U6 terminator

ORIGIN

(SEQ ID NO:101)

1 aattctgtgg aatgtgtgtc agttagggtg tggaaagtcc ccaggctccc cagcaggcag

61 aagtatgcaa agcatgcatc tcaattagtc agcaaccagg tgtggaaagt ccccaggctc

121 cccagcaggc agaagtatgc aaagcatgca tctcaattag tcagcaacca tagtcccgcc

181 cctaactccg cccatcccgc ccctaactcc gcccagttcc gcccattctc cgccccatgg

241 ctgactaatt ttttttattt atgcagaggc cgaggccgcc tctgcctctg agctattcca

301 gaagtagtga ggaggctttt ttggaggcct aggcttttgc aaaaagctaa cttgtttatt

361 gcagcttata atggttacaa ataaagcaat agcatcacaa atttcacaaa taaagcattt

421 ttttcactgc attctagttg tggtttgtcc aaactcatca atgtatctta tcatgtctgt

481 ataccgtcga cctctagcta gagcttggcg taatcatggt catagctgtt tcctgtgtga

541 aattgttatc cgctcacaat tccacacaac atacgagccg gaagcataaa gtgtaaagcc

601 tggggtgcct aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc

661 cagtcgggaa acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc

721 ggtttgcgta ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt

781 cggctgcggc gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca

841 ggggataacg caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa

901 aaggccgcgt tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat

961 cgacgctcaa gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc

1021 cctggaagct ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc

1081 gcctttctcc cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt

1141 tcggtgtagg tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac

1201 cgctgcgcct tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg

1261 ccactggcag cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca

1321 gagttcttga agtggtggcc taactacggc tacactagaa gaacagtatt tggtatctgc

1381 gctctgctga agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa

1441 accaccgctg gtagcggttt ttttgtttgc aagcagcaga ttacgcgcag aaaaaaagga

1501 tctcaagaag atcctttgat cttttctacg gggtctgacg ctcagtggaa cgaaaactca

1561 cgttaaggga ttttggtcat gagattatca aaaaggatct tcacctagat ccttttaaat

1621 taaaaatgaa gttttaaatc aatctaaagt atatatgagt aaacttggtc tgacagttac

1681 caatgcttaa tcagtgaggc acctatctca gcgatctgtc tatttcgttc atccatagtt

1741 gcctgactcc ccgtcgtgta gataactacg atacgggagg gcttaccatc tggccccagt

1801 gctgcaatga taccgcgaga cccacgctca ccggctccag atttatcagc aataaaccag

1861 ccagccggaa gggccgagcg cagaagtggt cctgcaactt tatccgcctc catccagtct

1921 attaattgtt gccgggaagc tagagtaagt agttcgccag ttaatagttt gcgcaacgtt

1981 gttgccattg ctacaggcat cgtggtgtca cgctcgtcgt ttggtatggc ttcattcagc

2041 tccggttccc aacgatcaag gcgagttaca tgatccccca tgttgtgcaa aaaagcggtt

2101 agctccttcg gtcctccgat cgttgtcaga agtaagttgg ccgcagtgtt atcactcatg

2161 gttatggcag cactgcataa ttctcttact gtcatgccat ccgtaagatg cttttctgtg

2221 actggtgagt actcaaccaa gtcattctga gaatagtgta tgcggcgacc gagttgctct

2281 tgcccggcgt caatacggga taataccgcg ccacatagca gaactttaaa agtgctcatc

2341 attggaaaac gttcttcggg gcgaaaactc tcaaggatct taccgctgtt gagatccagt

2401 tcgatgtaac ccactcgtgc acccaactga tcttcagcat cttttacttt caccagcgtt

2461 tctgggtgag caaaaacagg aaggcaaaat gccgcaaaaa agggaataag ggcgacacgg

2521 aaatgttgaa tactcatact cttccttttt caatattatt gaagcattta tcagggttat

2581 tgtctcatga gcggatacat atttgaatgt atttagaaaa ataaacaaat aggggttccg

2641 cgcacatttc cccgaaaagt gccacctgag ggcctatttc ccatgattcc ttcatatttg

2701 catatacgat acaaggctgt tagagagata attagaatta atttgactgt aaacacaaag

2761 atattagtac aaaatacgtg acgtagaaag taataatttc ttgggtagtt tgcagtttta

2821 aaattatgtt ttaaaatgga ctatcatatg cttaccgtaa cttgaaagta tttcgatttc

2881 ttggctttat atatcttgtg gaaaggacgt gagtcgtggc tttatgccgt taggcgttgc

3001 agagaag tcatttaata aggccactgt taaacgtagg tgagtcgtgg ctttatgccg

3001 ttaggcgttg ctcaattttt t//

实施例20

细菌中的示例性CAST 1-b T24表征总结在图107中。在本实施例中，当系统包含TnsD2时，供体多核苷酸可在没有Cas蛋白的情况下通过Tn7转座酶插入。在此类情况下，靶序列在Tn7转座酶的基因座上，例如，在glmS基因旁边。当系统包含TnsD1时，供体多核苷酸可通过CAST(即由Cas蛋白和指导分子指导的Tn7转座酶)插入。在此类情况下，靶序列可以是由Cas蛋白和指导分子的特异性决定的任何序列。Cas蛋白和指导分子可被设计成将供体插入所需的靶序列。

申请人测试了T24 CAST在哺乳动物细胞中靶向质粒的功能。将表达转座酶、Cas蛋白、指导分子的质粒以及提供供体多核苷酸和靶序列的质粒共转染到293FT细胞中。2天后，通过QE/mini-prep从细胞中提取DNA，并通过PCR和下一代测序确定供体多核苷酸在靶序列中的插入。质粒设计和结果在图108中示出。

针对T24 CAST筛选PAM。将表达转座酶和指导分子的质粒以及提供供体多核苷酸和靶序列的质粒与PAM文库在293FT细胞中共转染。对PAM进行筛选，并且结果在图109中示出。

通过PAM筛选鉴定了新的功能性CAST直系同源物(IB29和IB18)(图110)。IB29与本文所述的IB28相同。

鉴定了1-b型CAST的两种亚型。亚型之一的系统(例如，IB20)包含在典型的Tn7系统中具有TnsA和TnsB两者的活性的转座酶(例如，在IB20中示出为tnsAB)(图111)。图112示出了示例性I-b型CAST基因座。发现这些系统中的四种(T24、IB29、IB18和IB20)能够靶向哺乳动物细胞中的质粒。

NLS与示例性I-b型CAST系统的组分融合，并通过免疫荧光测试组分的亚细胞定位(图113A至图113B)。

测试了T24系统被激活所需的质粒拷贝数(图114A至图114B)。申请人还通过具有24个指导分子的四种示例性CAST系统中的每种测试了靶向LINE1-ORF2(图115)。

申请人测试了示例性CAST-1b系统在靶向超螺旋(质粒)和线性DNA方面的活性。CAST系统在靶向超螺旋和线性DNA靶标方面具有活性(图116)。申请人进一步测试了靶位点位置对CAST-1b系统的活性的影响。测试了不同大小的靶序列，包括包含上游(PAM的5’)最多300bp的线性靶标和包含下游(PAM的3’)最多348bp的线性靶标(图117)。对于293FT细胞中I-b型CAST功能的最小片段大小(图118)。

通过转录激活测定测试I-b型CAST系统中Cas蛋白的核小体可及性，如Pickar-Oliver等人Nat.Biotechnol.37,1493-1501(2019)中所述(图119至图120)。在另一项测试中，将IB20中的个别Cas蛋白与p300融合，并且测试转录激活(图121至图122)。

测试了嵌合I-b型CAST系统。在本实施例中，嵌合系统包含源自第一物种的一些组分和源自不同于第一物种的第二物种的其他组分。图123示出了示例性嵌合CAST系统。测试了嵌合CAST系统在哺乳动物细胞中质粒靶向方面的活性(图124)，并确定了插入位置(图125)。在这些实施例的一些中，包括来自两种直系同源物的TnsD1对嵌合CAST的活性有影响(图126和图127)。

实施例25

测试了具有新NLS的CAST系统在质粒靶向方面的活性(对于T24为图128；对于IB29为图129；对于IB18为图130)。

***

在不偏离本发明的范围和精神的情况下，本发明的所述方法、药物组合物和试剂盒的各种修改和更改对于本领域技术人员而言将是明显的。尽管已结合具体实施方案对本发明进行了描述，但是应当理解，能够进一步修改本发明，并且所要求保护的本发明不应当不适当地限于此类具体实施方案。实际上，用于进行本发明的所述方式的各种修改对于本领域技术人员而言是明显的，并且旨在包含在本发明的范围内。本申请旨在涵盖大体上符合本发明原理的、并且包括虽然不属于本发明所公开内容范围但属于本发明所属领域的已知的常用技术手段并可以应用于上文中阐述的必要特征中的任何变型、用途或者变更。

Claims

1.一种工程化系统，所述系统包含：

a.一种或多种CRISPR相关Tn7转座酶；

b.一种或多种I-B型Cas蛋白；和

c.指导分子，所述指导分子能够与所述I-B型Cas蛋白复合并引导指导物-Cas蛋白复合物与靶多核苷酸的结合。

2.如权利要求1所述的系统，其中所述一种或多种CRISPR相关Tn7转座酶包含TnsA、TnsB、TnsC和/或TniQ。

3.如权利要求2所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC、第一TniQ和第二TniQ，其中所述第一TniQ和所述第二TniQ是不同的。

4.如权利要求2所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC和TniQ。

5.如权利要求4所述的系统，其中所述TniQ包含DNA结合结构域。

6.如权利要求5所述的系统，其中所述DNA结合结构域位于所述TniQ的C末端。

7.如权利要求1所述的系统，其中所述一种或多种CRISPR相关Tn7转座酶包含TnsA、TnsB、TnsC和/或TnsD。

8.如权利要求7所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC、第一TnsD和第二TnsD，其中所述第一TnsD和所述第二TnsD是不同的。

9.如权利要求7所述的系统，其中所述Tn7转座酶包含TnsA、TnsB、TnsC和TnsD。

10.如权利要求9所述的系统，其中所述TnsD包含DNA结合结构域。

11.如权利要求9所述的系统，其中所述TnsA和TnsB包含在单一蛋白质中。

12.如权利要求9所述的系统，其中所述Tn7转座酶包含：

a.TnsA、TnsB、TnsC和TnsD1；

b.TnsA、TnsB、TnsC和TnsD2；或

c.TnsA、TnsB、TnsC、TnsD和TnsD2。

13.如权利要求1所述的系统，其中所述一种或多种I-B型Cas蛋白包含Cas5、Cas6、Cas7和/或Cas 8。

14.如权利要求1所述的系统，其中所述一种或多种I-B型Cas蛋白包含Cas 8b。

15.如权利要求14所述的系统，其中所述Cas8b是Cas8b3。

16.如权利要求1所述的系统，其中所述一种或多种CRISPR相关Tn7转座酶和/或所述一种或多种I-B型Cas蛋白来自或源自多变鱼腥藻。

17.如权利要求1所述的系统，其中所述一种或多种I-B型Cas蛋白缺乏核酸酶活性。

18.如权利要求1所述的系统，其还包含供体多核苷酸。

19.如权利要求18所述的系统，其中所述供体多核苷酸包含多核苷酸插入物、左侧元件序列和右侧元件序列。

20.如权利要求18所述的系统，其中所述供体多核苷酸：

a.向所述靶多核苷酸引入一个或多个突变；

b.在所述靶多核苷酸中校正提前终止密码子；

c.破坏剪接位点；

d.恢复剪接位点；或

e.其组合。

21.如权利要求20所述的系统，其中由所述供体多核苷酸引入的所述一个或多个突变包括取代、缺失、插入或其组合。

22.如权利要求20所述的系统，其中所述一个或多个突变导致所述靶多核苷酸上的开放阅读框的移位。

23.如权利要求18所述的系统，其中所述供体多核苷酸的长度在100个碱基与30kb之间。

24.如权利要求1所述的系统，其中所述靶多核苷酸包含原间隔子相邻基序(PAM)。

25.如权利要求24所述的系统，其中所述PAM是AT或ATG。

26.如权利要求25所述的系统，其中将所述供体多核苷酸插入到所述靶多核苷酸的所述PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点处。

27.如权利要求25所述的系统，其中将所述供体多核苷酸插入到所述靶多核苷酸的所述PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点处。

28.如权利要求1所述的系统，其中所述靶多核苷酸是线性、环状或基因组DNA。

29.如权利要求1所述的系统，其中所述一种或多种Tn7转座酶源自第一物种，并且所述一种或多种I-B型Cas蛋白源自不同于所述第一物种的第二物种。

30.如权利要求29所述的系统，其包含源自所述第一物种的第一TnsD1和源自所述第二物种的第二TnsD2。

31.如权利要求1所述的系统，其中所述一种或多种Tn7转座酶包含具有TnsA和TnsB活性的转座酶。

32.如权利要求1所述的系统，其还包含靶向部分。

33.如权利要求1所述的系统，其包含能够引导所述指导物-Cas蛋白复合物与一种或多种靶多核苷酸的结合的多种指导分子。

34.一种系统，其包含一种或多种编码以下的多核苷酸：

a.一种或多种CRISPR相关Tn7转座酶；

b.一种或多种I-B型Cas蛋白；和

35.如权利要求34所述的系统，其还包含供体多核苷酸。

36.如权利要求35所述的系统，其中所述供体多核苷酸包含多核苷酸插入物、左侧元件序列和右侧元件序列。

37.如权利要求34所述的系统，其包含表5中一个或多个基因座中的一种或多种多核苷酸或所述多核苷酸的编码产物。

38.如权利要求34所述的系统，其中所述一种或多种多核苷酸编码如权利要求1至33中任一项所述的组分(a)至(c)。

39.如权利要求34所述的系统，其中所述一种或多种I-B型Cas蛋白包含Cas5、Cas6、Cas7和/或Cas 8。

40.如权利要求34所述的系统，其中所述系统包含编码第一Cas6的第一多核苷酸和编码第二Cas6的第二多核苷酸。

41.一种载体，其包含如权利要求34至40中任一项所述的一种或多种多核苷酸。

42.一种工程化细胞，其包含如权利要求1至40中任一项所述的系统或如权利要求41所述的载体。

43.如权利要求42所述的工程化细胞，其中所述细胞产生和/或分泌内源性或非内源性生物产物或化学化合物。

44.如权利要求43所述的工程化细胞，其中所述生物产物是蛋白质或RNA。

45.一种细胞系，其包含如权利要求42所述的工程化细胞及其子代。

46.一种植物或动物模型，其包含如权利要求42所述的工程化细胞及其子代。

47.一种组合物，其包含如权利要求42所述的工程化细胞。

48.如权利要求47所述的组合物，其被配制用作治疗剂。

49.一种生物产物或化学化合物，其由如权利要求42所述的工程化细胞产生。

50.一种工程化细胞或其子代，所述细胞是通过使用如权利要求1至40中任一项所述的系统进行工程化的。

51.如权利要求50所述的细胞或其子代，其是分离的。

52.如权利要求50所述的细胞或其子代，其进一步用作治疗剂。

53.如权利要求50所述的细胞或其子代，从其中分离出产物。

54.一种产物，其由如权利要求50所述的细胞或其子代产生。

55.如权利要求54所述的产物，其中所述产物是蛋白质或RNA。

56.如权利要求55所述的蛋白质，其中所述蛋白质包含突变。

57.一种用于治疗疾病或病症的药物组合物，其包含如权利要求50所述的细胞或其子代。

58.根据权利要求57所述的药物组合物，其中所述治疗导致一种或多种细胞的遗传变化。

59.根据权利要求57所述的药物组合物，其中所述治疗导致一种或多种缺陷基因型的校正。

60.根据权利要求57所述的药物组合物，其中所述治疗导致改善的表型。

61.如权利要求50所述的细胞或其子代，其中所述细胞包括由包含所述靶序列的基因表达的蛋白质中的突变。

62.如权利要求61所述的细胞或其子代，其中所述细胞包括包含所述靶序列的基因组区域的缺失。

63.如权利要求61所述的细胞或其子代，其中所述细胞包括通过同源定向修复对外源性序列的整合。

64.如权利要求61所述的细胞或其子代，其中所述细胞包括与所述靶序列相关联的基因的转录减少。

65.如权利要求61所述的或其子代，其中所述细胞包括与所述靶序列相关联的基因的转录增加。

66.如权利要求49所述的产物，其中所述产物是突变的蛋白质或由模板提供的产物。

67.一种将供体多核苷酸插入细胞中的靶多核苷酸中的方法，所述方法包括向所述细胞中引入：

a.一种或多种CRISPR相关Tn7转座酶或其功能片段；

b.一种或多种I-B型Cas蛋白；和

68.如权利要求67所述的方法，其中所述供体多核苷酸：

a.向所述靶多核苷酸引入一个或多个突变；

b.在所述靶多核苷酸中校正提前终止密码子；

c.破坏剪接位点；

d.恢复剪接位点；或

e.其组合。

69.如权利要求68所述的方法，其中由所述供体多核苷酸引入的所述一个或多个突变包括取代、缺失、插入或其组合。

70.如权利要求68所述的方法，其中所述一个或多个突变导致所述靶多核苷酸上的开放阅读框的移位。

71.如权利要求67所述的方法，其中所述供体多核苷酸的长度在100个碱基与30kb之间。

72.如权利要求67所述的方法，其中组分(a)、(b)和(c)中的一种或多种由与调控序列可操作地连接的核酸表达。

73.如权利要求67所述的方法，其中将组分(a)、(b)和(c)中的一种或多种引入粒子中。

74.如权利要求67所述的方法，其中所述粒子包含核糖核蛋白(RNP)。

75.如权利要求67所述的方法，其中所述细胞是原核细胞。

76.如权利要求67所述的方法，其中所述细胞是真核细胞。

77.如权利要求67所述的方法，其中所述细胞是哺乳动物细胞、非人灵长类动物的细胞或人细胞。

78.如权利要求67所述的方法，其中所述细胞是植物细胞。

79.如权利要求67所述的方法，其中将所述供体多核苷酸插入所述细胞中的所述靶多核苷酸中导致：

包含改变的表达水平的一种或多种基因产物的细胞或细胞群；

产生和/或分泌内源性或非内源性生物产物或化学化合物的细胞或细胞群。

80.如权利要求67所述的方法，其中将所述供体多核苷酸插入到所述靶多核苷酸上PAM的3’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。

81.如权利要求67所述的方法，其中将所述供体多核苷酸插入到所述靶多核苷酸上PAM的5’不超过80、不超过90、不超过100、不超过200或不超过300bp的位点。

82.如权利要求67所述的方法，其中所述靶多核苷酸是线性、环状或基因组DNA。