CN114729368A

CN114729368A - 用于免疫疗法的组合物和方法

Info

Publication number: CN114729368A
Application number: CN202080077031.0A
Authority: CN
Inventors: B·奥克斯; S·希金斯; H·斯平纳; S·丹尼; B·T·斯塔尔; K·泰勒; K·班尼; I·科林; M·阿迪勒; C·乌尔内斯
Original assignee: Scribe Therapy
Current assignee: Scribe Therapy
Priority date: 2019-09-09
Filing date: 2020-09-09
Publication date: 2022-07-08
Also published as: US20230081117A1; KR20220070456A; IL291176A; JP7696335B2; AU2020344553A1; JP2022547168A; CA3153700A1; WO2021050601A1; EP4028523A1

Abstract

本文提供了CasX:gNA系统以及与其相关的组合物和方法，所述系统包含CasX蛋白、引导核酸(gNA)和任选地供体模板核酸，其可用于修饰编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因，以及产生和使用包含这些修饰基因的细胞群的方法。在一些实施例中，所述修饰细胞进一步表达嵌合抗原受体(CAR)或工程化T细胞受体(TCR)。此类系统可用于制备用于免疫疗法的细胞。

Description

用于免疫疗法的组合物和方法

相关申请案的交叉参考

本申请案要求于2019年9月9日提交的美国临时专利申请案第62/897,947号和2020年 9月4日提交的第63/075,041号的优先权，其内容各自通过引用整体并入本文。

对以电子方式提交的文本文件的描述

与本申请一起以电子方式提交的文本文件的内容以全文引用的方式并入本文：序列表的计算机可读格式副本(文件名称：SCRB_016_02WO_SeqList_ST25.txt，记录日期：2020年9 月9日，文件大小12.0兆字节)。

背景技术

许多批准的治疗剂，例如癌症治疗剂，是杀死正常细胞和患病细胞的细胞毒性药物。这些细胞毒性药物的治疗益处取决于患病细胞比正常细胞更敏感，从而允许使用不会导致不可接受的副作用的剂量实现临床反应。然而，基本上所有这些非特异性药物都会对正常组织造成一些即使不是严重的损伤，这通常会限制治疗的适用性。

基因组工程可以为细胞毒性药物提供一种不同的方法，因为它允许创建被编程为特异性结合和杀死患病细胞(例如癌细胞)的免疫细胞。嵌合抗原受体T细胞(CAR-T)技术的出现为某些类型的癌症带来了新的治疗益处。通过对包含CAR的细胞进行工程化以与受体受试者的细胞相比减少HLA蛋白中的错配，减少或消除野生型T细胞受体或修饰细胞的其它成分，它通过消除宿主T细胞受体对错配(例如，同种异体)移植组织的识别和反应减少或消除了宿主对抗移植物疾病(GVHD)的可能性(参见例如，Takahiro Kamiya,T.等人，《一种生成T细胞受体缺陷型嵌合抗原受体T细胞的新方法(A novel method to generate T-cellreceptor–deficient chimeric antigen receptor T cells)》《血液进展(BloodAdvances)》2:517(2018))。因此，这种方法可用于生成具有改善的治疗指数的免疫细胞，用于患有癌症、自身免疫性疾病和移植排斥等疾病的受试者的免疫肿瘤学应用。

由于CRISPR/Cas系统已适用于真核细胞中的基因组编辑，这两种技术有可能允许对免疫细胞进行工程化，使其对靶细胞具有强大的细胞毒性，但允许减少或消除有助于引发对这些细胞移植的不需要的受体免疫反应的细胞标记，特别是在这些细胞的同种异体移植情况下。因此，需要修饰的细胞和将这些细胞修饰成工程化的CAR-T细胞的方法，其表现出这些特性以用于免疫疗法治疗，例如基于同种异体的免疫疗法治疗。

发明内容

在一些方面，本公开提供了CasX：引导核酸系统(CasX:gNA系统)的组合物和用于修饰编码一种或多种参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因的靶核酸序列的方法。在上文中，蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC，或TCRA)、II类主要组织相容性复合物反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1，或TCRB)、T细胞受体β恒定2(TRBC2)、程序性细胞死亡1(PD-1)、细胞因子诱导型SH2(CISH)、具有Ig和ITIM域的T细胞免疫受体(TIGIT)、腺苷A2a受体(ADORA2A)、杀伤细胞凝集素样受体C1(NKG2A)、细胞毒性T淋巴细胞相关蛋白4 (CTLA-4)、淋巴细胞激活3(LAG-3)、T细胞免疫球蛋白和粘蛋白域3(TIM-3)、2B4(CD244)、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)、TGFβ受体2(TGFβRII)、分化簇247 (CD247)、CD3d分子(CD3D)、CD3e分子(CD3E)、CD3g分子(CD3G)、CD52分子(CD52)、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)或FKBP脯氨酰异构酶1A(FKBP1A)。 CasX:gNA系统可以包含参考CasX蛋白、相对于参考CasX具有改进特性的CasX变异蛋白、作为参考序列的引导核酸(gNA)或相对于参考序列具有改进特性的gNA变异体，以及供体模板核酸，它们可以插入由CasX核酸酶引入的细胞中靶核酸序列的断裂位点以修饰靶核酸序列。这些组分的实施例在下文中描述。在一些方面，本公开提供了如本文所述的任何实施例的CasX和gNA的基因编辑对，其复合为核糖核蛋白复合物(RNP)。在一些实施例中，本公开提供了修饰编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因的方法，其中基因被敲低或从此类蛋白质的表达中敲除。

CasX:gNA系统修饰的细胞可用于免疫疗法等应用；例如，制备和使用具有降低的移植物抗宿主病(GVHD)潜力的免疫细胞，并且还被修饰以表达一种或多种嵌合抗原受体(CAR)，用于治疗受试者的癌症或自身免疫性疾病。此类细胞还经过工程化以减少宿主与移植物的并发症。在其它实施例中，CasX-gNA系统用于将核酸敲入编码CAR和/或工程化T细胞受体 (TCR)的细胞中，CAR和/或TCR包含对肿瘤细胞抗原的特异性结合域，包括下面列出的那些。这种结合域可以是线性抗体、如VHH的单域抗体(sdAb)或单链可变片段(scFv)的形式。可用于制备修饰细胞的细胞包括祖细胞、造血干细胞、多能干细胞或选自由T细胞、TREG细胞、 NK细胞、B细胞、巨噬细胞或树突细胞组成的组的免疫细胞。

在一些方面，本公开提供了编码或包含CasX蛋白、gNA、基因编辑对或包含本文所述的供体模板核酸的多核苷酸和载体。在一些实施例中，载体为病毒载体，例如腺相关病毒(AAV)载体或慢病毒载体。在其它实施例中，载体为非病毒颗粒，如类病毒颗粒(VLP)或纳米颗粒。

在一些方面，本公开提供了修饰细胞群中的靶核酸序列的方法，其包含向细胞群的每个细胞中引入：a)本文公开的实施例中任一项的CasX:gNA系统；b)本文公开的实施例中任一项的核酸；c)本文公开的实施例中任一项的载体；d)本文公开的实施例中任一项的VLP；e)上述 (a)-(d))中的两个或更多个的组合，其中细胞的靶核酸序列被CasX蛋白修饰(例如，单链或双链断裂，或靶核酸序列中一个或多个核苷酸的插入、缺失、取代、重复或倒位)。

在一些方面，本公开提供了通过本文描述的实施例中任一项的CasX:gNA系统、载体或 VLP(或其组合)修饰靶核酸的离体方法修饰的细胞群，其中在修饰细胞中，MHC I类分子或T 细胞受体或参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的表达已减少或消除。在一些实施例中，本公开提供了通过本文描述的任何实施例的CasX:gNA系统、载体或VLP (或其组合)修饰靶核酸的离体方法修饰的细胞群，其中修饰的细胞表达本文描述的实施例中任一项的可检测水平的CAR和/或TCR。

在一些方面，本公开提供了在受试者中提供抗肿瘤免疫的方法，该方法包含向受试者施用治疗有效量的本文描述的实施例中任一项的修饰细胞。

在一些方面，本公开提供了治疗患有与肿瘤抗原表达相关的疾病的受试者的方法，该方法包含向受试者施用治疗有效量的本文描述的实例中任一项的修饰细胞。

在另一方面，本文提供了由CasX和gNA基因编辑对修饰的免疫细胞的组合物，以及任选的供体模板和/或编码CAR和/或TCR的多核苷酸，用作治疗患有与肿瘤抗原表达相关的疾病的受试者的药物。在上文中，CasX可以是本文描述的实施例中任一项的CasX变异体(例如，表4的序列)，并且gNA可以是本文描述的实施例中任一项的gNA变异体(例如，表2的序列)。在其它实施例中，本公开提供了由包含或编码CasX和gNA的基因编辑对、供体模板和/或编码CAR的多核苷酸的载体修饰的细胞组合物，用作治疗患有与肿瘤抗原表达相关的疾病的受试者的药物。

在一些方面，本公开提供了包含本文描述的CasX:gNA系统、载体或VLP并进一步包含赋形剂和容器的试剂盒。

在另一方面，本文提供了CasX:gNA系统、包含CasX:gNA系统的组合物、包含或编码CasX:gNA系统的载体、包含CasX:gNA系统的VLP，或使用CasX:gNA系统编辑的细胞群，用作用于治疗疾病或病症的药物。

在另一方面，本文提供了CasX:gNA系统、包含g CasX:gNA系统的组合物，或包含或编码CasX:gNA系统的载体、包含CasX:gNA系统的VLP、使用CasX:gNA系统编辑的细胞群，以供使用在治疗疾病或病症的方法中。

通过引用的并入

本说明书中所提及的所有公开案、专利及专利申请案均以引用的方式并入本文中，其引用的程度如各个别公开案、专利或专利申请案经特定及个别地指示以引用的方式并入一般。于2020年6月5日提交的PCT/US2020/036505的内容公开了CasX变异体和gNA变异体，通过引用将其全部并入本文。

附图说明

本发明的新颖特征在随附权利要求书中细致阐述。将参考阐述利用本发明原理的说明性实施例及其附图的以下详细描述来获得对本发明的特征及优势的更好理解：

图1示出了如实例1中所述的通过胶体考马斯染色观测的StX2纯化级分的SDS-PAGE 凝胶。

图2示出了如实例1中所述的使用Superdex 200 16/600pg凝胶过滤对StX2进行的尺寸排阻色谱分析的色谱图。

图3示出了如实例1中所述的通过胶体考马斯染色观测的StX2纯化级分的SDS-PAGE 凝胶。

图4为示出了如实例2中所述的用于装配CasX构筑体的pSTX34质粒中的组分的组织的示意图。

图5为示出了如实例2中所述的生成CasX 119变异体的步骤的示意图。

图6示出了如实例2中所述的在Bio-Rad Stain-Free^TM凝胶上观测的纯化样品的SDS-PAGE凝胶。

图7示出了如实例2中所述的Superdex 200 16/600pg凝胶过滤的色谱图。

图8示出了如实例2中所述的通过胶体考马斯染色的凝胶过滤样品的SDS-PAGE凝胶。

图9示出了如实例10中所述的HEK293T细胞中的6种靶基因的编辑测定的结果。每个点表示使用各个间隔子的结果。

图10示出了如实例10中所述的HEK293T细胞中的6种靶基因的编辑测定的结果，其中各个条形表示由各个间隔获得的结果。

图11示出了如实例10中所述的HEK293T细胞中的4种靶基因的编辑测定的结果。每个点表示使用各个间隔，利用CTC PAM的结果。

图12为如实例14中所述的由sgRNA174和CasX变异体形成的RNP的活性分率的定量测定的结果的图示。等摩尔量的RNP及目标经共培育且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值及标准差。展示合并复本的双相拟合。“2”是指SEQID NO:2的参考CasX蛋白。

图13示出了如实例14中所述的由CasX2和修饰的sgRNA形成的RNP的活性分率的定量。等摩尔量的RNP及目标经共培育且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值及标准差。展示合并复本的双相拟合。

图14示出了如实例14中所述的在指导限制条件下由CasX 491和修饰的sgRNA形成的 RNP的活性分率的定量。等摩尔量的RNP及目标经共培育且在指定时间点测定裂解目标的量。示出了数据的双相拟合。

图15示出了如实例14中所述的由sgRNA174和CasX变异体形成的RNP的裂解速率的定量。目标DNA与20倍过量的指定RNP一起培育，且在指定时间点测定裂解目标的量。示出了每个时间点的三个独立重复的平均值和标准偏差，除了示出了单个重复的488和491。展示合并复本的单相拟合。

图16示出了如实例14中所述的由CasX2和sgRNA变异体形成的RNP的裂解速率的定量。目标DNA与20倍过量的指定RNP一起培育，且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值及标准差。展示合并复本的单相拟合。

图17示出了如实例14中所述的由CasX2和sgRNA变异体形成的RNP的初始速度的定量。将前述裂解实验之前两个时间点与线性模型拟合以确定初始裂解速度。

图18示出了如实例14中所述的由CasX491和sgRNA变异体形成的RNP的裂解速率的定量。靶DNA与20倍过量的指定RNP在10℃下一起培育，且在指定时间点测定裂解靶标的量。示出了时间点的单相拟合。

图19为如实例17中所述的绘示了用于测定参考CasX蛋白或单引导RNA(sgRNA)或其变异体的有效性的示范性方法的图解和实例荧光活化细胞分选(FACS)图。偶联至gRNA目标序列、与gRNA间隔互补的报道子(例如，GFP报道子)集成至报道子细胞系中。细胞经CasX蛋白和/或sgRNA变异体转化或转染，其中sgRNA的间隔基序与报道子的gRNA靶序列互补且靶向gRNA靶序列。通过FACS分析CasX:sgRNA核糖核蛋白复合物裂解目标序列的能力。丧失报道子表达的细胞指示发生CasX:sgRNA核糖核蛋白复合物介导的裂解及插入缺失形成。

图20示出了如实例19中所述的EGFP破坏测定中基因编辑的结果。编辑係通过携有GFP 报道子的HEK293细胞中的插入缺失形成及GFP破坏来测量。图2示出了SEQ ID NO:5的CasX sgRNA变异体相对于SEQ ID NO:4的参考在10个靶标上的编辑效率的提高。当跨越10个靶标取平均值时，sgRNA SEQ ID NO:5的编辑效率相比于SEQ ID NO:4提高了176％。

图21示出了如实例20中所述的在EGFP破坏测定中基因编辑的结果，其中通过将延伸的茎环序列(在X轴中指示)交换为额外的序列以生成序列示于表2中的支架，从而在SEQID NO:5的sgRNA支架中获得了进一步的编辑改进。

图22为示出了如实例20中所述的由DME突变生成的sgRNA变异体相对于作为CasX参考sgRNA的SEQ ID NO:5归一化的改进倍数的图示。

图23为示出了通过组合(堆叠)示出改进裂解的支架茎突变、示出改进裂解的DME突变和使用示出改进裂解的核酶附属物(附属物及其序列列于实例20的表15中)产生的变异体相对于SEQ ID NO:5参考CasX sgRNA归一化的改进倍数的图示。在此测定中，相比于SEQ ID NO:5，所得的sgRNA变异体产生2倍或更大的裂解改进。用实例19中描述的E6(TGTGGTCGGGGTAGCGGCTG(SEQ ID NO:17))和E7(TCAAGTCCGCCATGCCCGAA (SEQ ID NO:18))的间隔靶序列进行EGFP编辑测定。

图24为示出了如实例21中所述的HLA1在Jurkat和HEK 293T中的表达水平的图示。使用靶向HLA1的荧光抗体通过流式细胞术分析细胞。

图25为示出了如实例21中所述的用Stx 2.2处理的HEK 293T基因组DNA的T7E1的琼脂糖凝胶。使用靶向间隔(p6.2.2.7.37)在B2M基因座上进行编辑，但不使用非靶向间隔子 (p6.2.2.0.1)。

图26为示出了如实例21中所述的与Stx 2.2相比，使用Stx分子119.64(数字分别指CasX 和引导)在HEK 293T细胞中编辑(敲除)B2M的相对改善的图示。

图27为示出了如实例21中所述的使用Stx 119.64在HEK 293T细胞中编辑(敲除)B2M与五个高性能SaCas9间隔的比较的图示，示出了可比的编辑水平。

图28为示出了如实例21中所述的与Stx 2.2相比，使用Stx分子119.64.7(数字分别指 CasX、引导和间隔)的HEK 293T细胞中编辑(敲除)B2M的相对改善的图示，结果与SaCas9 相当。

图29为示出了如实例21中所述的用Stx 119.64修饰高达80％的HEK 293T B2M基因座的百分比编辑的NGS分析图。

图30示出了如实例24中所述的在B2M基因座处RNP介导的编辑的结果。Jurkat细胞用指定剂量和CasX变异体进行电穿孔，并带有间隔7.9或7.37的引导。用抗体染色和流式细胞术确定HLA敲低。

图31示出了如实例24中所述的CasX RNP电穿孔后的细胞活力测定结果，具有间隔7.9 (顶部)和7.37(底部)。在HLA敲低分析时，通过DAPI染色和流式细胞术对活细胞进行计数。

图32示出了如实例24中所述的在B2M基因座处RNP介导的编辑的NGS分析结果。用指定剂量的RNP对Jurkat细胞进行电穿孔，并通过NGS分析插入缺失的形成。

图33示出了如实例25中所述的通过在TRAC基因座处编辑的插入缺失和HDR率的结果，分析了TCRα/β的表面表达损失，其指示插入缺失的形成、GFP的表达(其指示HDR)和活细胞的数量。“T”和“B”表示ssDNA相对于TRAC基因的方向是上链还是下链。

图34示出了如实例26中所述的共同编辑B2M和TRAC基因座的结果。用指定剂量的RNP对Jurkat细胞进行电穿孔，通过HLA-1和TCR染色鉴定B2M和TRAC的编辑α/β并通过流式细胞仪检测。

图35示出了表3A，即靶向B2M基因(SEQ ID NO:725-2100和2281-7085)的gNA靶向序列(间隔)的表。

图36示出了表3B，即靶向TRAC基因(SEQ ID NO:7086-27454)的gNA靶向序列(间隔) 的表。

图37示出了表3C，即靶向CIITA基因(SEQ ID NO:27455-55572)的gNA靶向序列(间隔) 的表。

具体实施方式

虽然本文中已显示及描述示范性实施例，但熟习所属领域者将显而易知此类实施例仅作为实例提供。在不脱离本发明的情况下，熟习所属领域者现将想到诸多变化、改变及取代。应当理解，本文所述的本发明的实施例的各种替代方案可用于实践本发明。预期权利要求书界定本发明的范围，且因此涵盖这些权利要求书及其等效物的范围内的方法和结构。

除非另外定义，否则本文中所用的所有技术及科学术语均具有与本发明所属领域的一般技术者通常所理解相同的含义。尽管与本文所述的方法和材料类似或等效的方法和材料可用于实践或测试本发明，但下文描述适合的方法和材料。在冲突的情况下，将以专利说明书(包括定义)为准。另外，所述材料、方法及实例仅为说明性的且不打算为限制性的。在不脱离本发明的情况下，熟习所属领域者现将想到诸多变化、改变及取代。

定义

术语“聚核苷酸”及“核酸”在本文中可互换使用，是指任何长度的核苷酸(核糖核苷酸或去氧核糖核苷酸)的聚合形式。因此，术语“聚核苷酸”及“核酸”涵盖单链DNA；双链DNA；多链DNA；单链RNA；双链RNA；多链RNA；基因组DNA；cDNA；DNA-RNA杂合体；及包含嘌呤及嘧啶碱基或其它天然、经化学或生物化学修饰、非天然或衍生化核苷酸碱基的聚合物。

“可杂交”或“互补”可互换使用，意谓核酸(例如RNA、DNA)包含使其能够在温度及溶液离子强度的适当活体外及/或活体内条件下以序列特异性、反向平行方式(即，核酸特异性结合于互补核酸)与另一核酸非共价结合(即形成沃森-克里克(Watson-Crick)碱基对及/或G/U 碱基对)、“黏接”或“杂交”的核苷酸序列。应当理解，聚核苷酸的序列不必与待特异性杂交的靶核酸100％互补；其可以具有至少约70％、至少约80％、或至少约90％、或至少约95％序列同一性且仍与靶核酸序列杂交。此外，多核苷酸可以在一个或多个区段上杂交，使得中间或邻近区段不参与杂交事件(例如，环结构或发夹结构、“凸起”等)。

出于本发明的目的，“基因”包括编码基因产物(例如蛋白质、RNA)的DNA区域以及调节基因产物生产的所有DNA区域，无论此类调节序列是否邻近于编码及/或经转录序列。因此，基因可以包括调节元件序列，其包括但不必限于启动子序列、终止子、翻译调节序列(如核糖体结合位点和内部核糖体进入位点)、强化子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。编码序列在转录或转录及翻译后编码基因产物；本发明的编码序列可包含片段且不必含有全长开放阅读框架。基因可包括经转录的股，例如含有编码序列的股，以及互补股。

术语“下游”是指位于参考核苷酸序列的3'处的核苷酸序列。在某些实施例中，下游核苷酸序列与转录起始点之后的序列相关。举例来说，基因的翻译起始密码子位于转录起始位点下游。

术语“上游”是指位于参考核苷酸序列的5'处的核苷酸序列。在某些实施例中，上游核苷酸序列与位于编码区或转录起始点的5'侧上的序列相关。举例来说，大部分启动子位于转录起始位点上游。

术语“调节元件”在本文中可与术语“调节序列”互换使用，且打算包括启动子、强化子及其它表达调节元件(例如转录终止信号，例如聚腺苷酸化信号及聚-U序列)。示范性调节元件包括转录启动子，例如但不限于CMV、CMV+、内含子A、SV40、RSV、HIV-Ltr、延长因子1α(EF1α)、MMLV-ltr、内部核糖体进入位点(IRES)或P2A肽以准许自单一转录物、金属硫蛋白、转录强化子元件、转录终止信号、聚腺苷酸化序列、用于使翻译起始优化的序列及翻译终止序列翻译多个基因。应了解，适当调节元件的选择将取决于待表达的经编码组分(例如蛋白质或RNA)或核酸是否包含多个需要不同聚合酶或不打算表达为融合蛋白的组分。

术语“启动子”是指含有RNA聚合酶结合位点、转录起始位点、TATA盒及/或B识别元件且有助于或促进相关可转录聚核苷酸序列及/或基因(或转殖基因)的转录及表达的DNA序列。启动子可以合成方式产生或可衍生自已知或天然存在的启动子序列或另一启动子序列。启动子可在待转录的基因近端或远程。启动子亦可包括嵌合启动子，其包含两种或更多种异源序列的组合以赋予某些特性。本发明的启动子可包括与本文已知或提供的其它启动子序列在组成上类似，但与其不相同的启动子序列的变异体。启动子可根据与相关编码或可转录序列或基因的表达模式相关的标准分类，该序列或基因可操作地连接于启动子，例如组成性、发育性、组织特异性、诱导性启动子等。

术语“强化子”是指当与称为转录因子的特异性蛋白质结合时，调节相关基因的表达的调节DNA序列。强化子可位于基因的内含子中，或基因的编码序列的5'或3'处。强化子可在基因近端(即，在启动子的几十或数百个碱基对(bp)内)，或可位于基因远程(即，与启动子相距数千个bp、数十万个bp或甚至数百万个bp)。单一基因可通过超过一种强化子调节，其均被设想为在本发明的范围内。

如本文所用，“重组”意谓特定核酸(DNA或RNA)为选殖、限制及/或连接步骤的各种组合的产物，产生具有与天然系统中发现的内源核酸可区分的结构性编码或非编码序列的构筑体。一般来说，编码结构性编码序列的DNA序列可组装自cDNA片段及短寡核苷酸连接子，或组装自一系列合成寡核苷酸，以得到能够自细胞或游离转录及翻译系统中所含的重组转录单元表达的合成核酸。此类序列可以未经内部非翻译序列，或内含子(其通常存在于真核基因中)间断的开放阅读框架的形式提供。包含相关序列的基因组DNA亦可用于形成重组基因或转录单元。非翻译DNA的序列可存在于开放阅读框架的5'或3'，其中此类序列不干扰编码区的操纵或表达，且可实际上用于通过各种机制调节所需产物的生产(参见上文的“强化子”及“启动子”)。

术语“重组聚核苷酸”或“重组核酸”是指不天然存在的聚核苷酸或核酸，例如经由人工干预由序列的两个另外分离区段的人工组合制得。此人工组合通常通过化学合成手段或通过人工操纵核酸的分离区段，例如通过基因工程化技术来实现。可进行此类操作以用编码相同或保守氨基酸，同时通常引入或去除序列识别位点的冗余密码子来替换密码子。或者，进行其以将具有所需功能的核酸区段连接在一起以产生功能的所需组合。此人工组合通常通过化学合成手段或通过人工操纵核酸的分离区段，例如通过基因工程化技术来实现。

类似地，术语“重组”多肽是指非天然存在的多肽，例如通过人工干预将氨基序列的两个另外分离的区段人工组合而制得。因此，例如包含异源氨基酸序列的多肽为重组的。

如本文所用，术语“接触”意谓在两个或更多个物理之间建立物理连接。例如，使靶核酸序列与引导核酸接触意味着使靶核酸序列和引导核酸共享物理连接；例如，在序列共享序列类似性时可以杂交。

“解离常量”或“K_d”可互换使用且意谓配位体“L”与蛋白质“P”之间的亲和力；即配位体与特定蛋白质结合的紧密程度。其可使用式K_d＝[L][P]/[LP]计算，其中[P]、[L]及[LP] 分别表示蛋白质、配位体及复合物的摩尔浓度。

术语“敲除”是指基因的消除或基因的表达。例如，可以通过删除或添加导致阅读框破坏的核苷酸序列来敲除基因。作为另一实例，可以通过用不相关的序列替换基因的一部分来敲除基因。如本文所用，术语“敲低”是指基因或其基因产物的表达减少。作为基因敲低的结果，蛋白质活性或功能可能会减弱，或者蛋白质水平可能会降低或消除。

如本文所用，“同源定向修复”(HDR)是指在修复细胞中的双链断裂期间发生的DNA修复形式。此方法需要核苷酸序列同源性，且使用供体模板来修复或敲除靶DNA，且使得遗传信息自供体转移至靶标。如果供体模板不同于靶DNA序列且供体模板的一部分或所有序列并入至靶DNA中，则同源定向修复可以通过插入、缺失或突变导致靶核酸序列的序列改变。

如本文所用，“非同源末端连接”(NHEJ)是指通过断裂末端彼此直接连接而修复DNA中的双链断裂，而无需同源模板(相比于同源定向修复，其需要同源序列来引导修复)。NHEJ通常导致双链断裂位点附近的核苷酸序列的丢失(缺失)。

如本文所用，“微同源性介导的末端连接”(MMEJ)是指突变诱发DSB修复机制，其始终与侧接断裂位点的缺失结合，而无需同源模板(相比于同源定向修复，其需要同源序列来引导修复)。MMEJ通常引起双链断裂位点附近核苷酸序列的损失(缺失)。

聚核苷酸或多肽与另一聚核苷酸或多肽具有某一百分比“序列类似性”或“序列同一性”，这意味着当比对时，碱基或氨基酸的百分比相同，且当比较两个序列时在相同的相对位置。序列类似性(有时称为百分比类似性、百分比一致性或同源性)可以多种不同方式确定。为了确定序列类似性，序列可使用所属领域中已知的方法及计算机程式比对，包括在全球信息网上于ncbi.nlm.nih.gov/BLAST可用的BLAST。核酸内的核酸序列的特定伸长部之间的百分比互补性可使用任何便利方法确定。实例性方法包括BLAST程式(基本局部比对搜索工具)及 PowerBLAST程式(Altschul等人,J.Mol.Biol.,1990,215,403-410；Zhang及Madden,Genome Res.,1997,7,649-656)或通过使用Gap程式(Wisconsin SequenceAnalysis Package,用于Unix 的版本8,Genetics Computer Group,University ResearchPark,Madison Wis.)，例如使用默认设定，其使用史密斯及沃特曼算法(algorithm ofSmith and Waterman)(Adv.Appl.Math.,1981,2, 482-489)。

术语“多肽”及“蛋白质”在本文中可互换使用，且是指任何长度的氨基酸的聚合形式，其可包括编码及非编码氨基酸、化学或生物化学修饰或衍生的氨基酸及具有经修饰肽主链的多肽。该术语包括融合蛋白，包括但不限于具有异源氨基酸序列的融合蛋白。

“载体”或“表达载体”为复制子，例如质粒、噬菌体、病毒或黏质粒，另一DNA区段(即“插入物”)可与其连接，以引起细胞中经连接区段的复制或表达。

应用于核酸、多肽、细胞或生物体的如本文所用的术语“天然存在的”或“未修饰”或“野生型”是指自然界中发现的核酸、多肽、细胞或生物体。

如本文所用，“突变”是指相比于参考氨基酸序列或参考核苷酸序列，一个或多个氨基酸或核苷酸的插入、缺失、取代、复制或倒位。

如本文所用，术语“经分离”打算描述处于与聚核苷酸、多肽或细胞天然存在的环境不同的环境中的聚核苷酸、多肽或细胞。经分离的遗传修饰宿主细胞可存在于遗传修饰宿主细胞的混合群体中。

如本文所用，“宿主细胞”指示真核细胞、原核细胞或来自多细胞生物体(例如，在细胞系)的细胞，其中真核细胞或原核细胞用作核酸(例如，表达载体)的受体，且包括已通过核酸遗传修饰的原始细胞的后代。应理解，单一细胞之后代可归因于天然、偶发或故意突变而不一定与原始亲本细胞具有完全相同的形态或基因体或总DNA补体。“重组宿主细胞”(亦称为“遗传修饰宿主细胞”)为其中已引入异源核酸，例如表达载体的宿主细胞。

术语“保守氨基酸取代”是指具有类似侧链的氨基酸残基的蛋白质中的互换性。举例来说，具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、白氨酸及异白氨酸组成；具有脂肪族-羟基侧链的一组氨基酸由丝氨酸及苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺及氨酸谷氨酰胺组成；具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸及色氨酸组成；具有碱性侧链的一组氨基酸由氨酸赖氨酸、精氨酸及组氨酸组成；且具有含硫侧链的一组氨基酸由半胱氨酸及甲硫氨酸组成。示范性保守氨基酸取代组为：缬氨酸-白氨酸-异白氨酸、苯丙氨酸-酪氨酸、氨酸赖氨酸-精氨酸、丙氨酸-缬氨酸及天冬酰胺-氨酸谷氨酰胺。

术语“嵌合抗原受体”或“CAR”包含至少两个域，当它们在细胞中表达时，为细胞提供对靶抗原或携带靶抗原的靶细胞的特异性，通常是携带特定疾病相关抗原的患病细胞。在一些实施例中，CAR至少包含细胞外抗原结合域(例如，对涉及疾病(例如癌症)的蛋白质具有结合特异性的scFv、跨膜域和细胞质信号传导域(在本文中也称为“细胞内信号传导域”)，其包含衍生自如下提供的一种或多种刺激和/或共刺激分子的功能性信号传导域。在一些方面，该组多肽彼此邻接。本公开的CAR包含其抗原结合域的部分可以以多种形式存在，其中抗原结合域表达为连续多肽链的一部分，包括例如单域抗体片段(sdAb)、单链抗体(scFv)、人源化抗体或双特异性抗体(Harlow等人，1999，发表于：《使用抗体：实验室手册(Using Antibodies:A Laboratory Manual)》，纽约冷泉港实验室出版社(Cold SpringHarbor Laboratory Press,NY)；Harlow等人，1989，发表于：《抗体：实验室手册(Antibodies:A Laboratory Manual)》，纽约冷泉港(Cold Spring Harbor,N.Y.)；Houston等人，1988，《美国国家科学院院刊(Proc.Natl. Acad.Sci.USA)》85:5879-5883；Bird等人，1988，《科学(Science)》242:423-426)，并且可以进一步包含铰链区，例如免疫球蛋白分子的铰链区，以及为受体提供灵活性的间隔。铰链、间隔和跨膜域将scFv连接到激活域并将CAR锚定在T细胞膜中。在一些实施例中，本公开的CAR组合物包含抗原结合域。在进一步的实施例中，CAR包含抗体片段，其包含scFv。给定CDR的精确氨基酸序列边界可以使用许多众所周知的方案中的任何一种来确定，包括 Kabat等人(1991)，《免疫相关蛋白质序列(Sequences of Proteins of Immunological Interest)》，第 5版，马里兰州贝塞斯达美国国立卫生研究院公共卫生服务(“Kabat”编号方案)，Al-Lazikani 等人，(1997)JMB 273,927-948(“Chothia”编号方案)或其组合中描述的方案。

术语“T细胞受体(TCR)”是指在T细胞表面发现的一种蛋白质复合物，它负责识别与主要组织相容性复合物(MHC)分子结合的肽抗原。TCR由多个亚基组成，包括TCRα链和TCRβ链(分别由TRAC或TCRA和TBRC1或TCRB编码)，并且在这些链中是互补决定区(CDR)，它们决定将与之结合的抗原。其它亚基包括CD-ε(CD3E)、CD3-δ(CD3D)、CD3-γ(CD3G)和 CD3-ζ(CD3Z)。TCRα和TCRβ亚基的细胞外域形成天然TCR的抗原结合位点。TCR细胞外域的CDR是抗原结合部分，并且多样化的识别能力导致有效保护免受外来抗原或疾病细胞的侵袭，并生成最佳的免疫反应。一旦TCR与抗原正确结合，相关CD3链的构象变化就会被诱导，从而与其它因素一起启动信号传导过程和T细胞激活。

如本文所用，“工程化TCR”是指已被工程化以包括对靶抗原或带有靶抗原的靶细胞具有特异性的抗原结合域的TCR，靶细胞通常是带有特定疾病相关抗原的患病细胞。例如，工程化TCR可以包括与TCR的TCRα或TCRβ亚基或其组合融合的抗原结合域。任何抗原结合域，包括例如单域抗体片段(sdAb)、单链抗体(scFv)、人源化抗体或双特异性抗体均可以与本文描述的工程化TCR一起使用。除了与抗原结合域融合的一个或多个亚基之外，工程化TCR还可以包括由细胞基因组编码的野生型亚基。例如，工程化TCR可以包括与TCR的TCR α或TCRβ亚基以及野生型CD3-δ、CD3-γ、CD3-ε和CD3-ζ亚基融合的抗原结合域。

“信号传导域”是指蛋白质的功能部分，其通过在细胞内传递信息以通过定义的信号传导通路通过生成第二信使或通过响应此类信使而作为效应器发挥作用来调节细胞活性。

“细胞内信号传导域”是指分子的细胞内部分，并且如本文所用，是CAR的组分。T细胞衍生的信号传导域的实例衍生自选自由以下组成的组的多肽：CD247分子(CD3-ζ或CD3Z)、 CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB或41BB)、诱导型T细胞共刺激分子(ICOS)、TNF受体超家族成员4(OX40)，或其组合。细胞内信号传导域生成促进含有CAR的细胞，例如CAR-T细胞的免疫效应功能的信号。例如，在CAR-T细胞中的免疫效应功能的实例包括细胞溶解活性和辅助活性，包括细胞因子的分泌。细胞内信号传导域可以包含称为基于免疫受体酪氨酸的激活基序或ITAM的信号基序。含有初级细胞质信号传导序列的ITAM的实例包括但不限于衍生自CD3zeta、IgE受体Ig的Fc片段(常见的FcRγ或FCER1G)、IgG受体IIa的Fc片段(FcγRIIa或FCGR2A)、Fc受体γRIIB、CD3g分子(CD3 γ或CD3G)、CD3d分子(CD3δ或CD3D)、CD3e分子(CD3ε或CD3E)、CD79a、CD79b、 DAP10和DAP12的那些。

术语“ζ”或替代地“ζ链”、“CD3-ζ”或“TCR-ζ”被定义为作为GenBan Acc编号BAG36664.1 提供的蛋白质，或来自非人类物种(例如，小鼠、啮齿动物或非人类灵长类动物)的等效残基，并且“ζ刺激域”或替代地“CD3-ζ刺激域”或“TCR-ζ刺激域”被定义为来自zeta链的细胞质域或其功能衍生物的氨基酸残基，其足以在功能上传递T细胞激活所必需的初始信号。在一些实施例中，ζ的细胞质域包含GenBank Acc.编号BAG36664.1的残基52至164，或其功能性直系同源物的非人类物种的等效残基。

如本文所用，“参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质”是指参与抗原加工、呈递、识别和/或反应的细胞外、跨膜和细胞内蛋白质或糖蛋白。在一些情况下，蛋白质或糖蛋白在细胞表面表达，并且可以方便地用作特定细胞类型的标志物。例如，T细胞和B细胞表面蛋白识别其谱系和分化过程中的阶段。在一些情况下，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质是对配体具有结合亲和力的受体。

“肿瘤抗原”在癌细胞表面上完全或作为片段(例如，MHC肽)表达，并且可用于将免疫细胞优先靶向癌细胞。在一些实施例中，肿瘤抗原是由正常细胞和癌细胞两者表达的标志物，例如，B细胞上的CD19。在一些实施例中，肿瘤抗原是与正常细胞相比在癌细胞中过度表达的细胞表面分子。

如本文所用，术语“抗体”涵盖各种抗体结构，包括但不限于单克隆抗体、多克隆抗体、多特异性抗体(例如，双特异性抗体)、纳米抗体、单域抗体(如VHH抗体)以及抗体片段，只要它们表现出所需的抗原结合活性或免疫活性。抗体代表一大类分子，其中包括几种类型的分子，如IgD、IgG、IgA、IgM和IgE。

“人源化”抗体是指包含来自非人互补决定区(CDR)的氨基酸残基和来自人框架区(FR)的氨基酸残基的抗体。通常，人源化抗体将包含基本上所有的可变域，其中所有或基本上所有的CDR对应于非人抗体的那些(其可以包括氨基酸取代)，并且所有或基本上所有的FR对应于人类抗体的那些。

如本文所用，术语“单克隆抗体”是指从基本上同质的抗体群体获得的抗体，其中该群体是相同的和/或结合相同的表位。因此，修饰语“单克隆”表示抗体的特征是从基本上同质的抗体群体中获得，并且不应解释为需要通过任何特定方法产生抗体。

如本文所用，“抗原结合域”是指分子的免疫活性部分，其含有特异性结合抗原(“与抗原发生免疫反应”)的抗原结合位点。如果抗原结合域以比它与包括多肽或其它物质的其它参考抗原结合更大的亲和力或亲合力结合，则抗原结合域“特异性结合”或“特异性针对”抗原。包含抗原结合域的蛋白质的实例包括但不限于Fv、Fab、Fab'、Fab'-SH、F(ab')2、双体、线性抗体(参见US 5,641,870)、单域抗体、单域骆驼抗体、单链可变片段(scFv)抗体分子，或任何含有多肽链的分子结构，其具有适合并识别和结合表位的特定形状。

“scFv”或“单链可变片段”在本文中可互换使用，是指包含重链(“VH”)和轻链(“VL”) 的可变区或抗体的VH或VL链的两个拷贝的抗体片段形式，它们通过短而灵活的肽连接子连接在一起，使scFv能够形成抗原结合所需的结构。scFv是免疫球蛋白的重链(VH)和轻链 (VL)可变区的融合蛋白，每个可变区包含互补决定区(CDR)，其可以以任一顺序排列；VH-VL 或VL-VH，通常由连接子连接。

术语“4-1BB”是指TNF-R超家族成员，其具有如GenBank Acc.编号AAA62478.2提供的氨基酸序列，或来自非人类物种的等效残基；“4-1BB共刺激域”定义为GenBank Acc.编号AAA62478.2的氨基酸残基214-255，或来自非人类物种的等效残基。

“免疫效应细胞”是指参与免疫反应的细胞，例如促进免疫效应反应的细胞。免疫效应细胞的实例包括T细胞，如辅助T细胞和细胞毒性T细胞、γ-δT细胞、肿瘤浸润淋巴细胞、 NK细胞、B细胞、单核细胞、巨噬细胞或树突细胞。

“免疫效应功能”或“免疫效应反应”是指例如免疫效应细胞的功能或反应，其增强或促进靶细胞的免疫攻击。在本公开的上下文中，免疫效应功能或反应是指T或NK细胞促进杀死或抑制靶细胞生长或增殖的特性。

如本文所用，“治疗(treatment)”或“治疗(treating)”在本文中可互换使用，且是指获得有益或所需结果，包括但不限于治疗益处及/或预防益处的方法。治疗效益意谓根除或改善所治疗的潜在病症或疾病。治疗益处亦可通过与潜在病症相关的一种或多种症状的根除或改善或一种或多种临床参数的改进，使得在个体中观测到改进来达成，尽管如此，个体仍可能罹患潜在病症。

如本文所用，术语“治疗有效量”和“治疗有效剂量”是指单独或作为组合物一部分的药物或生物制剂的量，其当以一个或重复剂量向如人类或实验动物的受试者施用时，能够对疾病状态或病症的任何症状、方面、测量参数或特征具有任何可检测的有益影响。此类效应不必绝对有益。

如本文所用，“施用”意指向受试者服用一定剂量的化合物(例如，本公开的组合物)或组合物(例如，药物组合物)的方法。

如本文所用，“受试者”为哺乳动物。哺乳动物包括但不限于驯养动物、非人类灵长类动物、人类、兔子、小鼠、大鼠及其它啮齿类动物。

I.通用方法

除非另有规定，否则本公开的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学及重组DNA的常规技术，其可见于如以下标准教科书：《分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)》，第3版(Sambrook等人，冷泉港实验室出版社(HaRBor Laboratory Press)2001)；《分子生物学的简短协议(ShortProtocols in Molecular Biology)》，第4版(Ausubel等人编,John Wiley&Sons 1999)；Protein Methods(Bollag 等人,John Wiley&Sons 1996)；Nonviral Vectors for GeneTherapy(Wagner等人编,Academic Press 1999)；Viral Vectors(Kaplift及Loewy编,Academic Press 1995)；Immunology Methods Manual(I.Lefkovits编,Academic Press1997)；及Cell and Tissue Culture:Laboratory Procedures in Biotechnology(Doyle及Griffiths,John Wiley&Sons 1998)，所述文献的公开内容以引用的方式并入本文中。

在提供数值范围的情况下，应当理解为包括端点，并且包括该范围的上限和下限以及该规定范围内的任何其它规定值或中间值之间的每个中间值，以下限的十分之一为单位，除非上下文另有明确规定。此些较小范围的上限及下限可独立地包括于较小范围中，且亦被涵盖，在所述范围内受到任何特定排他性限制。当所述范围包括限值中的一者或两者时，也包括排除那些所包括限值的任一者或两者的范围。

除非另外规定，否则本文中所用的所有技术及科学术语具有与本发明所属领域的一般技术者通常所理解相同的含义。本文中所提及的所有公开案以引用的方式并入本文中以结合所述公开案所列举的方法及/或材料来公开且描述。

必须注意，除非上下文另有明确规定，否则如在本文中及所附权利要求书中所使用，单数形式“一(a/an)”及“该”包括多个指示物。

应当理解，为清楚起见，在独立实施例的背景下描述的本发明的某些特征也可以组合在单个实施例中提供。在其它情况下，为简洁起见，在单一实施例的背景下描述的本发明的各种特征也可以分别或以任何适合的子组合提供。关于本发明的实施例的所有组合旨在由本发明特定涵盖且在本文中公开，如同单独且明确地公开每个组合一般。另外，各种实施例及其要素的所有子组合也由本发明特定涵盖且在本文中公开，如同单独且明确地在本文中公开每个此类子组合一般。

II.参与抗原加工、呈递、识别和/或反应的蛋白质基因编辑系统

在第一方面，本公开提供了包含CRISPR核酸酶和一种或多种引导核酸(gNA)的系统，其在真核细胞的基因组编辑中具有实用性。在一些实施例中，CRISPR核酸酶选自由以下组成的组：Cas9、Cas12a、Cas12b、Cas12c、Cas12d(CasY)、CasX、Cas13a、Cas13b、Cas13c、Cas13d、CasX、CasY、Cas14、Cpfl、C2cl、Csn2和Cas Phi。在一些实施例中，CRISPR核酸酶是V型CRISPR核酸酶。在一些实施例中，本公开提供了包含CasX蛋白和一种或多种引导核酸(gNA)的CasX:gNA系统，这些引导核酸被专门设计用于修饰编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的一种或多种细胞基因的靶核酸序列。本公开的 gNA和CasX蛋白可以形成复合物并经由非共价相互作用结合，在本文中称为核糖核蛋白(RNP)复合物。使用预复合的CasX:gNA在将系统组分递送至细胞或靶核酸序列以编辑靶核酸序列方面赋予优势。在RNP中，gNA可以通过包括具有与靶核酸序列互补的核苷酸序列的靶向序列(或“间隔”)来为复合物提供靶特异性，而预复合的CasX:gNA的CasX蛋白提供了位点特异性活性，该活性由于其与引导NA的关联被引导至靶核酸序列(例如，待修饰的B2M 或TRAC基因)内的靶位点(例如，稳定在靶位点)。复合物的CasX蛋白提供复合物的位点特异性活性，如CasX蛋白对靶序列的裂解或切割和/或在嵌合CasX蛋白的情况下由融合搭配物提供的活性。另外，本公开提供了用于修饰细胞群的靶核酸序列以使用CasX:gNA系统引入或调节参与抗原加工、呈递、识别和/或反应的一种或多种蛋白质的表达的方法。其中参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质已被下调或消除的此类修饰细胞群可用于免疫疗法。本公开的CasX:gNA系统包含CasX蛋白、一种或多种引导核酸(gNA)和任选地一种或多种供体模板核酸中的一种或多种，供体模板核酸包含编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的修饰的核酸，其中与编码蛋白质或其调控元件的基因组核酸序列相比，核酸包含一个或多个核苷酸的缺失、插入或突变以敲低/敲除基因功能。在一些实施例中，供体多核苷酸包含待修饰的细胞基因的全部或部分靶核酸序列的至少约10、至少约50、至少约100、或至少约200、或至少约300、或至少约400、或至少约500、或至少约600、或至少约700、或至少约800、或至少约900、或至少约1000、或至少约10,000，或至少约15,000个核苷酸。在其它实施例中，供体多核苷酸包含待修饰的细胞基因的至少约 10至约10,000个核苷酸，或至少约100至约8000个核苷酸，或至少约400至约6000个核苷酸，或至少约600至约4000个核苷酸，或至少约1000至约2000个核苷酸。在一些实施例中，供体模板为单链DNA模板或单链RNA模板。在其它实施例中，供体模板为双链DNA模板。

在其它实施例中，本公开提供了编码嵌合抗原受体(CAR)的多核酸，其对疾病抗原，任选地肿瘤细胞抗原具有结合特异性，可以将其引入待修饰的细胞中，使得修饰的细胞能够在修饰的细胞中表达CAR。在其它实施例中，本公开提供了编码工程化T细胞受体(TCR)的多核酸，其对疾病抗原，任选地肿瘤细胞抗原具有结合特异性，可以将其引入待修饰的细胞中，使得修饰的细胞能够在修饰细胞中表达TCR。

CasX:gNA系统可用于治疗患有某些疾病或病症的受试者，包括癌症、自身免疫性疾病和移植排斥。本文描述了CasX:gNA系统的每个组件及其在细胞中编辑靶核酸以修饰参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质的用途，以及编码CAR和工程化TCR亚基或多个亚基的多核酸的用途。本文描述的CasX:gNA系统和多核酸可用于产生修饰的细胞群，这些细胞群可有效杀死与如癌症、自身免疫性疾病和移植排斥等疾病相关的靶细胞。此外，修饰的细胞群可用于在患有此类疾病的受试者中赋予免疫力。

III.遗传编辑系统的引导核酸

在另一方面，本公开涉及一种引导核酸(gNA)，其包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因的靶链中的靶核酸序列互补的靶向序列，其中gNA 能够与CRISPR蛋白形成复合物，该CRISPR蛋白对包含互补非靶链中的TC基序的前间隔邻近基序(PAM)序列具有特异性，并且其中PAM序列位于非靶链中与靶链中的靶核酸序列互补的序列的5′端1个核苷酸处。

在一些实施例中，本公开涉及在CasX:gNA系统中使用的引导核酸(gNA)，其在真核细胞的基因组编辑中具有实用性。本公开提供了特别设计的引导核酸(“gNA”)，其中当使用时， gNA的靶向序列(或间隔，在下文更全面地描述)与靶核酸序列互补(并因此能够与之杂交)作为基因编辑CasX:gNA系统的一个组成部分。设想在一些实施例中，多个gNA在CasX:gNA系统中被递送以用于修饰靶核酸序列。例如，当需要敲低/敲除蛋白质编码基因时，可以使用一对gNA以在基因内的两个不同位点结合和裂解。

本公开提供了特别设计的引导核酸(“gNA”)，其具有与靶核酸互补(并因此能够与之杂交)的靶向序列作为基因编辑CasX:gNA系统的组成部分。如下文更全面地描述，编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因的靶核酸序列的靶向序列的代表性但非限制性实例呈现于表3A、3B和3C(表3A、3B和3C如图35至37所示)。设想在一些实施例中，在CasX:gNA系统中递送多个gNA用于修饰靶核酸序列。例如，当需要敲低/敲除蛋白质编码基因时，可以使用一对具有针对靶核酸序列的不同或重叠区域的靶向序列的gNA，以便在基因内或基因附近的两个不同或重叠位点处结合和裂解CasX，然后通过非同源末端连接(NHEJ)、同源定向修复(HDR，其可以包括例如插入供体模板以替换所有或部分内含子)、同源独立靶向整合(HITI)、微同源介导的末端连接(MMEJ)、单链退火(SSA)或碱基切除修复(BER)进行编辑。

a.参考gNA及gNA变异体

在一些实施例中，本公开的gNA包含天然存在的gNA(“参考gNA”)的序列。在其它情况下，本发明的参考gNA可经受一种或多种突变诱发方法，例如本文所述的突变诱发方法，其可包括深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、卡匣突变诱发、随机突变诱发、交错延伸PCR、基因改组或域交换，以便产生一个或多个具有相对于参考gNA增强或改变的特性的gNA变异体。gNA变异体亦包括包含一个或多个外源序列，例如与5'或3'端融合，或插入内部的变异体。参考gNA的活性可用作与gNA变异体的活性进行比较的基准，由此测量gNA变异体的功能或其它特性的改进。在其它实施例中，参考gNA可经受一个或多个有意的靶向突变以产生gNA变异体，例如合理设计的变异体。如本文所用，术语gNA、 gRNA和gDNA涵盖天然存在的分子，以及序列变异体。因此，在一些实施例中，gNA是脱氧核糖核酸分子(“gDNA”)；在一些实施例中，gNA是核糖核酸分子(“gRNA”)，并在其它实施例中，gNA是嵌合体并且包含DNA和RNA两者。

gNA的靶向序列能够结合至目标核酸序列，包括编码序列、编码序列的互补序列、非编码序列，且结合至调节元件。gNA支架(或“蛋白质结合序列”)与CasX蛋白相互作用(例如，结合)，形成RNP(下文更全面地描述)。在一些实施例中，靶向序列和支架各自包括包括互补的核苷酸片段，其彼此杂交以形成双链双螺旋体(dgRNA的dsRNA双螺旋体)。CasX蛋白对靶核酸序列(例如，基因组DNA)的位点特异性结合和/或裂解可以发生在由gNA的靶向序列和靶核酸序列之间的碱基配对互补性测定的一个或多个位置(例如，靶核酸的序列)。因此，例如，本公开的gNA与真核细胞中的核酸中参与抗原加工、抗原呈递、抗原识别和/或抗原反应基因的蛋白质和/或其调节序列具有序列互补性并且因此可以与之杂交，真核细胞核酸例如是与TC PAM基序或PAM序列(如ATC、CTC、GTC或TTC)互补的序列相邻的真核核酸(例如，真核染色体、染色体序列、真核RNA等)。

在核酸的上下文中，裂解是指核酸分子共价骨架的断裂；无论是DNA还是RNA。裂解可以通过多种方法引发，包括但不限于磷酸二酯键的酶水解或化学水解。单链裂解和双链裂解都是可能的，并且双链裂解可以由于两个不同的单链裂解事件而发生。DNA裂解可能导致产生平端或交错端。

在一些实施例中，本公开提供了本文所述的任一实施例的CasX和gNA的基因编辑对，其能够在其用于基因编辑之前结合在一起并且因此“预复合”为核糖核蛋白复合物(RNP)。使用预复合RNP在将系统组分递送至细胞或目标核酸序列以编辑目标核酸序列中赋予优势。 RNP的CasX蛋白提供了通过其与包含能够与靶核酸序列杂交的靶向序列的引导RNA的缔合引导至靶核酸序列内的靶位点(例如，稳定在靶位点)的位点特异性活性。

在一些实施例中，其中gNA是gRNA，术语“靶向子”或“靶向子RNA”在本文中用于指CasX双引导RNA(因此，当“活化子”和“靶向子”例如通过插入核苷酸连接在一起时， CasX单引导RNA)的crRNA样分子(crRNA：“CRISPR RNA”)。因此，例如，CasX引导RNA (dgRNA或sgRNA)包含引导序列和crRNA的双螺旋体形成段，其也可称为crRNA重复序列。由于引导序列的序列与靶核酸序列的序列杂交，因此只要考虑到PAM序列的位置，靶向子就可以由用户修饰以与特定靶核酸序列杂交。因此，在一些情况下，靶向子的序列可以为非天然存在的序列。在其它情况下，靶向子的序列可以是天然存在的序列，源自待编辑的基因。在双引导RNA的情况下，靶向子和活化子各自具有双螺旋体形成段，其中靶向子的双螺旋体形成段和活化子的双螺旋体形成段彼此具有互补性，并彼此杂交以形成双链双螺旋体(gRNA 的dsRNA双螺旋体)。在一些实施例中，靶向子包含引导RNA的引导序列和形成gRNA的蛋白结合段的dsRNA双螺旋体的一半的一段核苷酸。相应的tracrRNA样分子(活化子)也包含核苷酸的双螺旋体形成段，其形成CasX引导RNA的蛋白结合段的dsRNA双螺旋体的另一半。因此，靶向子和活化子作为相应的一对杂交以形成CasX双引导NA，在本文中称为“双引导 NA”、“双分子gNA”、“dgNA”、“双分子引导NA”或“二分子引导NA”。

在一些实施例中，参考gNA的活化子和靶向子彼此共价连接且包含单分子，在本文中称为“单分子gNA”、“一分子引导NA”、“单引导NA”、“单引导RNA”、“单分子引导RNA”、“一分子引导RNA”、“单引导DNA”、“单分子DNA”或“一分子引导DNA”(“sgNA”、“sgRNA”或“sgDNA”)。在一些实施例中，sgNA包括“活化子”或“靶向子”且因此可分别为“活化子-RNA”及“靶向子-RNA”。

总的来说，本公开的gNA包含四个不同的区或域：RNA三螺旋体、支架茎、延伸茎和靶向序列，在本公开的实施例中，它们对靶核酸具有特异性。RNA三螺旋体、支架茎和延伸茎在一起被称为gNA的“支架”。在一些实施例中，靶向序列位于gNA的3'端。

b.RNA三螺旋体

在本文提供的引导NA(包括参考sgNA)的一些实施例中，存在RNA三螺旋体，并且RNA 三螺旋体包含UUU--nX(～4-15)--UUU茎环(SEQ ID NO:19)的序列，其在2个中间茎环(支架茎环和延伸茎环)之后以AAAG结束，形成也可延伸穿过三螺旋体进入双螺旋假结中的假结。三螺旋体的UU-UUU-AAA序列形成为间隔、支架茎和延伸茎之间的连接。在示范性参考CasX sgNA中，首先对UUU-环-UUU区域进行编码，然后是支架茎环，且接着是延伸茎环，其由四环连接，且接着AAAG封闭三螺旋体，随后变为间隔。

c.支架茎环

在本公开的sgNA的一些实施例中，三螺旋区之后是支架茎环。支架茎环为与CasX蛋白 (例如参考或CasX变异蛋白)结合的gNA区域。在一些实施例中，支架茎环为相当短且稳定的茎环。在一些情况下，支架茎环不耐受许多变化，且需要一些形式的RNA气泡。在一些实施例中，支架茎是CasX sgNA功能所需的。尽管CasX sgNA的支架茎可能与Cas9的连接茎类似地作为重要茎环，但在一些实施例中，其具有与CRISPR/Cas系统中发现的许多其它茎环不同的所需凸起(RNA气泡)。在一些实施例中，这个凸起的存在在与不同CasX蛋白相互作用的sgNA中是保守的。gNA的支架茎环序列的示范性序列包含序列 CCAGCGACUAUGUCGUAUGG(SEQ ID NO:20)。在其它实施例中，本公开提供了gNA变异体，其中支架茎环被来自具有近端5'和3'端的异源性RNA源的RNA茎环序列取代，例如但不限于选自MS2、Qβ、U1发夹II、Uvsx或PP7茎环的茎环序列。在一些情况下，gNA 的异源性RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。

d.延伸茎环

在本公开的CasX sgNA的一些实施例中，支架茎环之后是延伸茎环。在一些实施例中，延伸茎包含很大程度上未经CasX蛋白结合的合成tracr及crRNA融合物。在一些实施例中，延伸茎环可为高度展性的。在一些实施例中，通过延伸茎环中tracrRNA与crRNA之间的GAAA四环连接子或GAGAAA连接子制得单引导gRNA。在一些情况下，CasX sgNA的靶向子和活化子通过中间核苷酸彼此连接，且连接子的长度可为3至20个核苷酸。在本公开的 CasXsgNA的一些实施例中，延伸茎为位于核糖核蛋白复合物中的CasX蛋白外部的大型 32-bp环。sgNA的延伸茎环序列的示范性序列包含序列 GCGCUUAUUUAUCGGAGAGAAAUCCGAUAAAUAAGAAGC(SEQ ID NO:21)。在一些实施例中，延伸茎环包含GAGAAA间隔序列。在一些实施例中，本发明提供gNA变异体，其中延伸茎环经来自具有近端5'及3'端的异源性RNA源的RNA茎环序列，例如但不限于选自 MS2、Qβ、U1发夹II、Uvsx或PP7茎环的茎环序列置换。在此类状况下，异源性RNA茎环增加gNA的稳定性。在其它实施例中，本发明提供具有包含至少10、至少100、至少500、至少1000或至少10,000个核苷酸的延伸茎环区的gNA变异体。

e.靶向序列

在本公开的gNA的一些实施例中，延伸茎环之后是形成三螺旋体的部分的区域，且接着是靶向序列(或“间隔”)。靶向序列将CasX核糖核蛋白整体复合物靶向至待修饰基因的靶核酸序列的特定区域。因此，例如，当PAM序列TTC、ATC、GTC或CTC中的任一者位于与靶序列互补的非靶链序列的5'端1个核苷酸处时，本公开的gNA靶向序列与真核细胞中的核酸中的B2M基因的一部分(例如真核染色体、染色体序列、真核RNA等)具有序列互补性，且因此可与其杂交，作为RNP的组成部分。可以修饰gNA的靶向序列，使得gNA可以靶向任何所需靶核酸序列的所需序列，只要考虑到PAM序列位置即可。在一些实施例中，gNA 支架在靶向序列的5'端，靶向序列位于gNA的3'端。在一些实施例中，RNP识别的PAM序列是TC。在其它实施例中，RNP识别的PAM序列是NTC。

在一些实施例中，gNA的靶向序列对编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因的一部分具有特异性并且能够与其杂交，该基因包括但不仅限于β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合体反式激活因子 (CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A (HLA-A)、人白细胞抗原B(HLA-B)、TGFβ受体2(TGFβRII)、程序性细胞死亡1(PD-1)、细胞因子诱导SH2(CISH)、淋巴细胞激活3(LAG-3)、具有Ig和ITIM域的T细胞免疫受体 (TIGIT)、腺苷A2a受体(ADORA2A)、杀伤细胞凝集素样受体C1(NKG2A)、细胞毒性T淋巴细胞相关蛋白4(CTLA-4)、T细胞免疫球蛋白和粘蛋白域3(TIM-3)和2B4(CD244)。在一个具体实施例中，该基因是B2M。B2M基因编码与几乎所有有核细胞表面上的主要组织相容性复合体(MHC)I类重链相关的血清蛋白。在另一具体实施例中，该基因是TRAC。TRAC基因编码C末端恒定区，与T细胞α受体的70个可变区中的一个连接。在β链的类似合成之后，α和β链配对产生α-βT细胞受体异二聚体。在另一具体实施例中，该基因是CITTA。 CIITA基因提供了制造蛋白质的指令，该蛋白质主要有助于控制主要组织相容性复合物 (MHC)II类基因的活性(转录)。在前述内容中，基因组靶标是其中靶标的编码基因意欲被敲除或敲低以使得蛋白质(例如，细胞标志物或细胞内蛋白质)在细胞中不表达或以较低水平表达的那些靶标。在一些实施例中，gNA的靶向序列对基因的外显子具有特异性。在其它实施例中，gNA的靶向序列对基因的内含子具有特异性。在其它实施例中，gNA的靶向序列对基因的调节元件具有特异性。在其它实施例中，gNA的靶向序列对基因的外显子、内含子和/或调节元件的连接具有特异性。在其它实施例中，gNA的靶向序列对基因间区域具有特异性。在靶向序列对调节元件具有特异性的情况下，此类调节元件包括但不限于启动子区、强化子区、基因间区、5'非翻译区(5'UTR)、3'非翻译区(3'UTR)、保守元件和包含顺式调节元件的区域。启动子区打算涵盖编码序列的起始点的5kb内的核苷酸，或在基因强化子元件或保守元件的情况下，可与目标核酸的基因的编码序列相距数千bp、数十万bp或甚至数百万bp。在前述内容中，靶标是其中靶标的编码基因打算经敲除或敲低以使得靶向蛋白质在细胞中不表达或以较低水平表达的那些靶标。

在一些实施例中，gNA的靶向序列具有14至35个连续核苷酸。在一些实施例中，靶向序列具有14、15、16、18、18、19、20、21、22、23、24、25、26、27、28、29、30、31、 32、33、34或35个连续核苷酸。在一些实施例中，靶向序列由20个连续核苷酸组成。在一些实施例中，靶向序列由19个连续核苷酸组成。在一些实施例中，靶向序列由18个连续核苷酸组成。在一些实施例中，靶向序列由17个连续核苷酸组成。在一些实施例中，靶向序列由16个连续核苷酸组成。在一些实施例中，靶向序列由15个连续核苷酸组成。在一些实施例中，靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、 30、31、32、33、34或35个连续核苷酸，且靶向序列可包含0至5、0至4、0至3或0至2 个相对于目标核酸序列的失配且保留足够结合特异性，以使得含有包含靶向序列的gNA的 RNP可与目标核酸形成互补键。

表3A、3B和3C(包括在图35至37中)给出了本公开的gNA中包括的靶向序列的代表性但非限制性实例，分别表示B2M、TRAC和CIITA的靶向序列。

与CasX:gNA系统一起用于编辑B2M基因的gNA实施例的示范性靶向序列(间隔序列) 在表3A中提供(SEQ ID NO:725-2100和2281-7085)。在一个实施例中，B2M gNA的靶向序列包含与从表3A中所列序列组成的组中选择的序列具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列。在另一实施例中，gNA的靶向序列由从表3A中所列序列组成的组中选择的序列组成。在前述实施例中，胸腺嘧啶(T)核苷酸可以取代任何靶向序列中的一个或多个或所有尿嘧啶(U)核苷酸，使得gNA可以是gDNA或gRNA，或RNA和DNA的嵌合体。在一些实施例中，表3A的靶向序列具有至少1、2、3、4、5或6个或更多个胸腺嘧啶核苷酸取代胸腺嘧啶核苷酸。在其它实施例中，本公开的gNA、gRNA或gDNA包含表3A 的1、2、3个或更多个靶向序列，或与表3A的一个或多个序列具有至少50％同一性、至少 55％同一性、至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少95％同一性的靶向序列。

表3B中提供了与CasX:gNA系统一起用于编辑TRAC基因的gNA实施例的示范性靶向序列(间隔序列)。在一个实施例中，TRAC gNA的靶向序列包含与从表3B中所列序列组成的组中选择的序列具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列。在另一实施例中，gNA的靶向序列由从表3B中所列序列组成的组中选择的序列组成。在前述实施例中，胸腺嘧啶(T)核苷酸可以取代任何靶向序列中的一个或多个或所有尿嘧啶(U)核苷酸，使得gNA可以是gDNA或gRNA，或RNA和DNA的嵌合体。在一些实施例中，表3B的靶向序列具有至少1、2、3、4、5或6个或更多个胸腺嘧啶核苷酸取代尿嘧啶核苷酸。在其它实施例中，本公开的gNA、gRNA或gDNA包含表3B的1、2、3个或更多个靶向序列，或与表3B的一个或多个序列具有至少50％同一性、至少55％同一性、至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少95％同一性的靶向序列。

表3C中提供了与CasX:gNA系统一起用于编辑CIITA基因的gNA实施例的示范性靶向序列(间隔序列)。在一个实施例中，TRAC gNA的靶向序列包含与从表3C中所列序列组成的组中选择的序列具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列。在另一实施例中，gNA的靶向序列由从表3C中所列序列组成的组中选择的序列组成。在前述实施例中，胸腺嘧啶(T)核苷酸可以取代任何靶向序列中的一个或多个或所有尿嘧啶(U)核苷酸，使得gNA可以是gDNA或gRNA，或RNA和DNA的嵌合体。在一些实施例中，表3C的靶向序列具有至少1、2、3、4、5或6个或更多个胸腺嘧啶核苷酸取代尿嘧啶核苷酸。在其它实施例中，本公开的gNA、gRNA或gDNA包含表3C的1、2、3个或更多个靶向序列，或与表3C的一个或多个序列具有至少50％同一性、至少55％同一性、至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少95％同一性的靶向序列。

在一些实施例中，CasX:gNA系统包含第一gNA且进一步包含第二(及任选地第三、第四、第五或更多)gNA，其中第二gNA或额外gNA具有与靶核酸序列的相比于第一gNA的靶向序列不同或重叠的部分互补的靶向序列，使得靶核酸中的多个点经靶向，且例如通过CasX在靶核酸中引入多个断裂。应了解，在此类状况下，第二或额外gNA与CasX蛋白的额外复本复合。通过选择gNA的靶向序列，可以使用本文描述的CasX:gNA系统来修饰或编辑包含靶核酸内特定位置的靶核酸序列的限定区域，包括促进供体模板的插入。

f.gNA支架

在一些实施例中，CasX参考gRNA包含分离或衍生自δ变形菌纲(Deltaproteobacteria) 的序列。在一些实施例中，序列为CasX tracrRNA序列。分离或衍生自δ变形菌纲的示范性 CasX参考tracrRNA序列可以包括：ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGC CAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO: 22)和ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUC GUAUGGACGAAGCGCUUAUUUAUCGG(SEQ ID NO:23)。分离或衍生自δ变形菌纲的示范性crRNA序列可以包含CCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:24)的序列。在一些实施例中，CasX参考gNA包含与分离或衍生自δ变形菌纲的序列具有至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少81％同一性、至少82％同一性、至少83％同一性、至少84％同一性、至少85％同一性、至少86％同一性、至少 86％同一性、至少87％同一性、至少88％同一性、至少89％同一性、至少89％同一性、至少90％同一性、至少91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性、至少99％同一性、至少99.5％同一性或100％同一性的序列。

在一些实施例中，CasX参考引导RNA包含分离或衍生自浮霉菌门(Planctomycetes)的序列。在一些实施例中，序列为CasX tracrRNA序列。分离或衍生自浮霉菌门的示范性CasX参考tracrRNA序列可以包括：UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACC AGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:25)和

UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGG(SEQ ID NO:26)。分离或衍生自浮霉菌门的示范性 crRNA序列可以包含UCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:27)的序列。在一些实施例中，CasX参考gNA包含与分离或衍生自浮霉菌门的序列具有至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少81％同一性、至少82％同一性、至少83％同一性、至少84％同一性、至少85％同一性、至少86％同一性、至少 86％同一性、至少87％同一性、至少88％同一性、至少89％同一性、至少89％同一性、至少90％同一性、至少91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性、至少99％同一性、至少99.5％同一性或100％同一性的序列。

在一些实施例中，CasX参考gNA包含分离或衍生自宋氏细菌暂定种(CandidatusSungbacteria)的序列。在一些实施例中，序列为CasX tracrRNA序列。分离或衍生自宋氏细菌暂定种的示范性CasX参考tracrRNA序列可以包含以下序列：GUUUACACACUCCCUCUCAUAGGGU(SEQ ID NO:28)、GUUUACACACUCCCUCUCAUGAGGU(SEQ ID NO: 29)、UUUUACAUACCCCCUCUCAUGGGAU(SEQ ID NO:30)和GUUUACACACUCCC UCUCAUGGGGG(SEQ IDNO:31)。在一些实施例中，CasX参考引导RNA包含与分离或衍生自宋氏细菌暂定种的序列具有至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少81％同一性、至少82％同一性、至少83％同一性、至少84％同一性、至少85％同一性、至少86％同一性、至少86％同一性、至少87％同一性、至少88％同一性、至少89％同一性、至少89％同一性、至少90％同一性、至少91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性、至少99％同一性、至少99.5％同一性或100％同一性的序列。

表1提供了参考gRNAtracr的序列和支架序列。在一些实施例中，本公开提供了gNA序列，其中gNA具有支架，其包含相对于具有表1的SEQ ID NO:4-16中的任一者的序列的参考gNA序列具有至少一个核苷酸修饰的序列。应了解，在那些实施例中，其中载体包含用于gNA的编码DNA序列，或其中gNA为gDNA或RNA及DNA的嵌合体，胸腺嘧啶(T)碱基可取代本文所述的gNA序列实施例中的任一者的尿嘧啶(U)碱基。

表1.参考gRNA序列

g.gNA变异体

在另一方面中，本发明係关于引导核酸变异体(替代地，在本文中称为“gNA变异体”或“gRNA变异体”，其包含相对于参考gRNA支架的一个或多个修饰。如本文所用，“支架”是指除间隔序列的外的gNA功能所需的gNA的所有部分。

在一些实施例中，gNA变异体包含相对于本发明的参考gRNA序列的一个或多个核苷酸取代、插入、缺失或交换或替换区域。在一些实施例中，突变可发生于参考gRNA的任何区域中以产生gNA变异体。在一些实施例中，gNA变异序列的支架与SEQ ID NO:4或SEQ IDNO:5的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、或至少70％、至少80％、至少85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、或至少约99％同一性。

在一些实施例中，gNA变异体包含参考gRNA的一个或多个区域内的一个或多个核苷酸变化，这些变化改进了参考gRNA的特性。示范性区域包括RNA三螺旋体、假结、支架茎环及延伸茎环。在一些情况下，变异支架茎进一步包含气泡。在其它情况下，变异支架进一步包含三螺旋环区。在其它情况下，变异支架进一步包含5'非结构化区。在一些实施例中，gNA变异支架包含与SEQ ID NO:14具有至少60％序列同一性的支架茎环。在其它实施例中，gNA变异体包含具有CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:32)的序列的支架茎环。在其它实施例中，本公开提供了相对于SEQ ID NO:5包含C18G取代、G55插入、U1缺失和经修饰的延伸茎环的gNA支架，其中原始6nt环和13个在环最近端的碱基对(总共32个核苷酸)经Uvsx发夹(4nt环和5个环近侧碱基对；总共14个核苷酸)取代，且延伸茎的环远侧碱基通过A99的缺失和G64U的取代而转化为与新Uvsx发夹邻接的完全碱基配对茎。在前述实施例中，gNA支架包含序列ACUGGCGCUUUUAUCUGAUUACUUUGAGAGCCAU CACCAGCGACUAUGUCGUAGUGGGUAAAGCUCCCUCUUCGGAGGGAGCAUCAAAG (SEQ ID NO:33)。

当将变异体gNA与本文描述的参考gRNA进行比较时，具有一个或多个改进功能或特征，或添加一种或多种新功能的所有gNA变异体均被设想为在本发明的范围内。这种gNA变异体的代表性实例是引导174(SEQ ID NO:2238)，其设计描述于实例中。在一些实施例中，gNA 变异体向包含gNA变异体的RNP添加新功能。在一些实施例中，gNA变异体具有选自以下的改进特征：改进的稳定性；改进的溶解度；改进的gNA转录；改进的核酸酶活性抗性；增加的gNA折叠速率；折叠期间减少的副产物形成；增加的生产性折叠；改进的与CasX蛋白的结合亲和力；当与CasX蛋白复合时改进的与靶DNA的结合亲和力；当与CasX蛋白复合时改进的基因编辑；当与CasX蛋白复合时改进的编辑特异性；以及当与CasX蛋白复合时改进的在靶DNA的编辑中利用较大范围的一个或多个PAM序列，包括ATC、CTC、GTC或 TTC的能力，及其任何组合。在一些情况下，gNA变异体的改进特征中的一个或多个是相对于SEQ ID NO:4或SEQ ID NO:5的参考gNA改进至少约1.1至约100,000倍。在其它情况下，gNA变异体的一个或多个改进特征是相对于SEQ ID NO:4或SEQ ID NO:5的参考gNA 改进至少约1.1、至少约10、至少约100、至少约1000、至少约10,000、至少约100,000倍或更大改进。在其它情况下，gNA变异体的改进特征中的一个或多个是相对于SEQ ID NO:4 或SEQ ID NO:5的参考gNA改进约1.1至100,00倍、约1.1至10,00倍、约1.1至1,000倍、约1.1至500倍、约1.1至100倍、约1.1至50倍、约1.1至20倍、约10至100,00倍、约 10至10,00倍、约10至1,000倍、约10至500倍、约10至100倍、约10至50倍、约10 至20倍、约2至70倍、约2至50倍、约2至30倍、约2至20倍、约2至10倍、约5至 50倍、约5至30倍、约5至10倍、约100至100,00倍、约100至10,00倍、约100至1,000 倍、约100至500倍、约500至100,00倍、约500至10,00倍、约500至1,000倍、约500 至750倍、约1,000至100,00倍、约10,000至100,00倍、约20至500倍、约20至250倍、约20至200倍、约20至100倍、约20至50倍、约50至10,000倍、约50至1,000倍、约 50至500倍、约50至200倍或约50至100倍。在其它情况下，gNA变异体的一个或多个改进特征是相对于SEQ IDNO:4或SEQ ID NO:5的参考gNA改进约1.1倍、1.2倍、1.3倍、 1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、 9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25 倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120 倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230 倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340 倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍。

在一些实施例中，可如下创建gNA变异体：通过使参考gRNA经受一种或多种突变诱发方法，如下文描述的突变诱发方法，其可以包括深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、卡匣突变诱发、随机突变诱发、交错延伸PCR、基因改组或域交换，以便生成本公开的gNA变异体。参考gRNA的活性可用作与gNA变异体的活性进行比较的基准，从而衡量gNA变异体功能的改进。在其它实施例中，参考gRNA可经受一个或多个有意的靶向突变、取代或域交换以产生gNA变异体，例如合理设计的变异体。由此类方法产生的示范性 gRNA变异体描述于实例中，且gNA支架的代表性序列呈现于表2中。

在一些实施例中，gNA变异体包含相比于参考引导核酸支架序列的一个或多个修饰，其中一个或多个修饰选自：gNA变异体区域中的至少一个核苷酸取代；gNA变异体区中的至少一个核苷酸缺失；gNA变异体区中的至少一个核苷酸插入；gNA变异体区的全部或一部分的取代；gNA变异体区的全部或一部分的缺失；或前述的任何组合。在一些情况下，修饰是在一个或多个区域中取代gNA变异体中的1至15个连续或非连续核苷酸。在其它情况下，修饰是在一个或多个区域中缺失gNA变异体中的1至10个连续或非连续核苷酸。在其它情况下，修饰是在一个或多个区域中插入gNA变异体中的1至10个连续或非连续核苷酸。在其它情况下，修饰为通过来自具有近端5'及3'端的异源性RNA源的RNA茎环序列取代支架茎环或延伸茎环。在一些情况下，本公开的gNA变异体在一个区域中包含两个或更多个修饰。在其它情况下，本发明的gNA变异体在两个或更多个区域中包含修饰。在其它情况下，gNA 变异体包含此段中所述之前述修饰的任何组合。

在一些实施例中，将5'G添加到gNA变异序列以用于活体内表达，因为当+1核苷酸为 G时，从U6启动子的转录更高效且相对于起始位点更一致。在其它实施例中，将两个5'G添加到gNA变异序列用于活体外转录以提高生产效率，因为T7聚合酶强烈偏好+1位置中的G和+2位置中的嘌呤。在一些情况下，将5'G碱基添加至表1的参考支架。在其它情况下，将5'G碱基添加至表2的变异支架。

表2提供了示范性gNA变异支架序列。在表2中，(-)表示在相对于SEQ ID NO:5的参考序列的指定位置处的缺失，(+)表示在相对于SEQ ID NO:5的指示位置处插入指定碱基，(:) 表示相对于SEQ ID NO:5的缺失或取代的指定起始:终止坐标处的碱基范围，且多个插入、缺失或取代通过逗号分隔；例如，A14C，U17G。在一些实施例中，gNA变异支架包含表2 中所列序列SEQ ID NO:2101-2280中的任一者，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％序列同一性的序列。应了解，在那些实施例中，其中载体包含用于gNA 的编码DNA序列，或其中gNA为gDNA或RNA及DNA的嵌合体，胸腺嘧啶(T)碱基可取代本文所述的gNA序列实施例中的任一者的尿嘧啶(U)碱基。

表2.示范性gNA支架序列

在一些实施例中，gNA变异体包含tracrRNA茎环，其包含序列–UUU-N4-25-UUU–(SEQ ID NO:34)。举例来说，gNA变异体包含支架茎环或其替代物，经两个促进三螺旋区的三联体U模体侧接。在一些实施例中，支架茎环或其替代物包含至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少 19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸或至少25个核苷酸。

在一些实施例中，gNA变异体包含在间隔区的5'端的位置具有-AAAG-的crRNA序列。在一些实施例中，-AAAG-序列紧靠间隔区的5'端。

在一些实施例中，对参考gNA的至少一个核苷酸修饰以产生gNA变异体包含CasX变异 gNA中相对于参考gRNA的至少一个核苷酸缺失。在一些实施例中，gNA变异体包含相对于参考gNA缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或 20个连续或非连续核苷酸。在一些实施例中，至少一个缺失包含相对于参考gNA缺失1、2、 3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个连续核苷酸。在一些实施例中，gNA变异体包含相对于参考gNA的2、3、4、5、6、7、8、9、10、 11、12、13、14、15、16、17、18、19或20个或更多个核苷酸缺失，且所述缺失不在连续核苷酸中。在其中gNA变异体中存在两个或更多个相对于参考gRNA的非连续缺失的那些实施例中，如本文所述的任何缺失长度及缺失长度的任何组合涵盖于本发明的范围内。举例来说，在一些实施例中，gNA变异体可包含一个核苷酸的第一缺失，及两个核苷酸的第二缺失，且该两个缺失不连续。在一些实施例中，gNA变异体包含参考gRNA的不同区域中的至少两个缺失。在一些实施例中，gNA变异体包含参考gRNA的相同区域中的至少两个缺失。举例来说，所述区域可为gNA变异体的延伸茎环、支架茎环、支架茎气泡、三螺旋环、假结、三螺旋体或5'端。参考gRNA中任何核苷酸的缺失涵盖于本发明的范围内。

在一些实施例中，参考gRNA的至少一个核苷酸修饰以产生gNA变异体包含至少一个核苷酸插入。在一些实施例中，gNA变异体包含相对于参考gRNA插入1、2、3、4、5、6、7、 8、9或10个连续或非连续核苷酸。在一些实施例中，至少一个核苷酸插入包含相对于参考 gRNA插入1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20 个或更多个连续核苷酸。在一些实施例中，gNA变异体包含相对于参考gRNA的2个或更多个插入，且所述插入不连续。在其中gNA变异体中存在两个或更多个相对于参考gRNA的非连续插入的那些实施例中，如本文所述的任何插入长度及插入长度的任何组合涵盖于本发明的范围内。举例来说，在一些实施例中，gNA变异体可包含一个核苷酸的第一插入，及两个核苷酸的第二插入，且该两个插入不连续。在一些实施例中，gNA变异体包含参考gRNA的不同区域中的至少两个插入。在一些实施例中，gNA变异体包含参考gRNA的相同区域中的至少两个插入。举例来说，所述区域可为gNA变异体的延伸茎环、支架茎环、支架茎气泡、三螺旋环、假结、三螺旋体或5'端。在参考gRNA中的任何位置插入任何A、G、C、U(或T，于对应DNA中)或其组合涵盖于本发明的范围内。

在一些实施例中，参考gRNA的至少一个核苷酸修饰以生成gNA变异体包含至少一个核酸取代。在一些实施例中，相对于参考gRNA，gNA变异体包含1、2、3、4、5、6、7、8、 9、10、11、12、13、14、15、16、17、18、19或20个或更多个连续或非连续经取代核苷酸。在一些实施例中，相对于参考gRNA，gNA变异体包含1-4个核苷酸取代。在一些实施例中，至少一个取代包含相对于参考gRNA取代1、2、3、4、5、6、7、8、9、10、11、12、13、 14、15、16、17、18、19或20个或更多个连续核苷酸。在一些实施例中，gNA变异体包含相对于参考gRNA的2个或更多个取代，且所述取代不连续。在其中gNA变异体中存在两个或更多个相对于参考gRNA的非连续取代的那些实施例中，如本文所述的任何经取代核苷酸长度及经取代核苷酸长度的任何组合涵盖于本发明的范围内。举例来说，在一些实施例中， gNA变异体可包含一个核苷酸的第一取代，及两个核苷酸的第二取代，且该两个取代不连续。在一些实施例中，gNA变异体包含参考gRNA的不同区域中的至少两个取代。在一些实施例中，gNA变异体包含参考gRNA的相同区域中的至少两个取代。举例来说，所述区域可为gNA 变异体的三螺旋体、延伸茎环、支架茎环、支架茎气泡、三螺旋环、假结、三螺旋体或5'端。在参考gRNA中的任何位置取代任何A、G、C、U(或T，于对应DNA中)或其组合涵盖于本发明的范围内。

本文所述的取代、插入及缺失中的任一者可经合并以产生本发明的gNA变异体。举例来说，gNA变异体可包含相对于参考gRNA的至少一个取代及至少一个缺失、相对于参考gRNA 的至少一个取代及至少一个插入、相对于参考gRNA的至少一个插入及至少一个缺失或相对于参考gRNA的至少一个取代、一个插入及一个缺失。

在一些实施例中，gNA变异体包含与SEQ ID NO:4-16中的任一者具有至少20％同一性、至少30％同一性、至少40％同一性、至少50％同一性、至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少 91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性或至少99％同一性的支架区。在一些实施例中，gNA 变异体包含与SEQ ID NO:4-16中的任一者具有至少60％同源(或同一性)的支架区。

在一些实施例中，gNA变异体包含与SEQ ID NO:14具有至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性或至少99％同一性的tracr茎环。在一些实施例中，gNA变异体包含与SEQ ID NO:14具有至少60％同源(或同一性)的tracr茎环。

在一些实施例中，gNA变异体包含与SEQ ID NO:15具有至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性或至少99％同一性的延伸茎环。在一些实施例中，gNA变异体包含与SEQ ID NO:15具有至少60％同源(或同一性)的延伸茎环。

在一些实施例中，gNA变异体包含外源延伸茎环，其中与参考gNA的此类差异描述如下。在一些实施例中，外源延伸茎环与本文公开的参考茎环区(例如，SEQ ID NO:15)几乎没有或没有同一性。在一些实施例中，外源茎环为至少10bp、至少20bp、至少30bp、至少40bp、至少50bp、至少60bp、至少70bp、至少80bp、至少90bp、至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少600bp、至少700bp、至少800bp、至少900bp、至少 1,000bp、至少2,000bp、至少3,000bp、至少4,000bp、至少5,000bp、至少6,000bp、至少7,000bp、至少8,000bp、至少9,000bp、至少10,000bp、至少12,000bp、至少15,000bp或至少20,000bp。在一些实施例中，gNA变异体含有包含至少10、至少100、至少500、至少1000或至少10,000 个核苷酸的延伸茎环区。在一些实施例中，异源性茎环增加gNA的稳定性。在一些实施例中，异源性RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。在一些实施例中，外源茎环区包含RNA茎环或发夹，例如热稳定RNA，如MS2(ACAUGAGGAUUACCCAUGU (SEQ ID NO:35))、Qβ(UGCAUGUCUAAGACAGCA(SEQ ID NO:36))、U1发夹II (AAUCCAUUGCACUCCGGAUU(SEQID NO:37))、Uvsx(CCUCUUCGGAGG(SEQ ID NO: 38))、PP7(AGGAGUUUCUAUGGAAACCCU(SEQ IDNO:39))、噬菌体复制环 (AGGUGGGACGACCUCUCGGUCGUCCUAUCU(SEQ ID NO:40))、吻合环_a(UGCUCGCUCCGUUCGAGCA(SEQ ID NO:41))、吻合环_b1 (UGCUCGACGCGUCCUCGAGCA(SEQ IDNO:42))、吻合环_b2 (UGCUCGUUUGCGGCUACGAGCA(SEQ ID NO:43))、G四螺旋体M3q(AGGGAGGGAGGGAGAGG(SEQ ID NO:44))、G四螺旋体端粒篮 (GGUUAGGGUUAGGGUUAGG(SEQ IDNO:45))、帚曲菌素-蓖麻毒素环 (CUGCUCAGUACGAGAGGAACCGCAG(SEQ ID NO:46))或假结(UACACUGGGAUCGCUGAAUUAGAGAUCGGCGUCCUUUCAUUCUAUAUACUUUGGAGUUUUAAAAUGUCUCUAAGUACA(SEQ ID NO:47))。在一些实施例中，外源茎环包含 RNA支架。如本文所用，“RNA支架”是指能够与一种或多种蛋白质相互作用且组织或定位一种或多种蛋白质的多维RNA结构。在一些实施例中，RNA支架为合成或非天然存在的。在一些实施例中，外源茎环包含长非编码RNA(lncRNA)。如本文所用，lncRNA是指长度长于大约200bp的非编码RNA。在一些实施例中，外源茎环的5'及3'端碱基配对，即相互作用以形成双螺旋RNA区域。在一些实施例中，外源茎环的5'及3'端碱基配对，且外源茎环的 5'与3'端之间的一个或多个区域不碱基配对。在一些实施例中，至少一个核苷酸修饰包含：(a) 在一个或多个区域中取代gNA变异体的1至15个连续或非连续核苷酸；(b)在一个或多个区域中缺失gNA变异体的1至10个连续或非连续核苷酸；(c)在一个或多个区域中插入gNA变异体的1至10个连续或非连续核苷酸；(d)经来自具有近端5'及3'端的异源性RNA源的RNA 茎环序列取代支架茎环或延伸茎环；或(a)-(d)的任何组合。

在一些实施例中，gNA变异体包含与SEQ ID NO:14具有至少60％同一性的支架茎环。在一些实施例中，gNA变异体包含与SEQ ID NO:14具有至少60％同一性、至少70％同一性、至少80％同一性、至少90％同一性、至少95％同一性、至少98％同一性或至少99％同一性的支架茎环。在一些实施例中，gNA变异体包含支架茎环，其包含SEQ ID NO:14。

在一些实施例中，gNA变异体包含CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:32) 的支架茎环序列。在一些实施例中，gNA变异体包含与其具有至少1、2、3、4或5个失配的CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:32)的支架茎环序列。

在一些实施例中，gNA变异体含有包含小于32个核苷酸、小于31个核苷酸、小于30个核苷酸、小于29个核苷酸、小于28个核苷酸、小于27个核苷酸、小于26个核苷酸、小于25个核苷酸、小于24个核苷酸、小于23个核苷酸、小于22个核苷酸、小于21个核苷酸或小于20个核苷酸的延伸茎环区。在一些实施例中，gNA变异体含有包含小于32个核苷酸的延伸茎环区。在一些实施例中，gNA变异体进一步包含热稳定茎环。

在一些实施例中，sgRNA变异体包含SEQ ID NO:2104、SEQ ID NO:2106、SEQ IDNO:2163、SEQ ID NO:2107、SEQ ID NO:2164、SEQ ID NO:2165、SEQ ID NO:2166、SEQ IDNO:2103、SEQ ID NO:2167、SEQ ID NO:2105、SEQ ID NO:2108、SEQ ID NO:2112、SEQ IDNO:2160、SEQ ID NO:2170、SEQ ID NO:2114、SEQ ID NO:2171、SEQ ID NO:2112、SEQ IDNO:2173、SEQ ID NO:2102、SEQ ID NO:2174、SEQ ID NO:2175、SEQ ID NO:2109、SEQ IDNO:2176、SEQ ID NO:2238、SEQ ID NO:2239、SEQ ID NO:2240、SEQ ID NO:2241、SEQ IDNO:2274或SEQ ID NO:2275的序列。

在一些实施例中，gNA变异体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一者，或与其具有至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％同一性的序列。在一些实施例中，gNA变异体包含对 SEQ ID NO:2201-2280中的任一者的序列的一个或多个额外改变。在一些实施例中，gNA变异体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一者的序列。

在一些实施例中，sgRNA变异体包含对SEQ ID NO:2104、SEQ ID NO:2163、SEQ IDNO:2107、SEQ ID NO:2164、SEQ ID NO:2165、SEQ ID NO:2166、SEQ ID NO:2103、SEQ IDNO:2167、SEQ ID NO:2105、SEQ ID NO:2108、SEQ ID NO:2112、SEQ ID NO:2160、SEQ IDNO:2170、SEQ ID NO:2114、SEQ ID NO:2171、SEQ ID NO:2112、SEQ ID NO:2173、SEQ IDNO:2102、SEQ ID NO:2174、SEQ ID NO:2175、SEQ ID NO:2109、SEQ ID NO:2176、SEQ IDNO:2238、SEQ ID NO:2239、SEQ ID NO:2240、SEQ ID NO:2241、SEQ ID NO:2274或SEQ IDNO:2275的序列的一个或多个额外改变。

在本公开的gNA变异体的一些实施例中，gNA变异体包含至少一个修饰，其中相比于 SEQ ID NO:5的参考引导支架的至少一个修饰选自以下中的一个或多个：(a)三螺旋环中的 C18G取代；(b)茎气泡中的G55插入；(c)U1缺失；(d)延伸茎环的修饰，其中(i)6nt环和13 个环近侧碱基对经Uvsx发夹替换；且(ii)A99的缺失和G65U的取代产生经完全碱基配对的环远侧碱基。在此些实施例中，gNA变异体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一者的序列。

在一些实施例中，gNA变异体的支架包含表2的SEQ ID NO:2201-2280中的任一者的序列。在一些实施例中，gNA的支架由SEQ ID NO:2201-2280中的任一者的序列组成或基本上由其组成。在一些实施例中，gNA变异体序列的支架与SEQ ID NO:2201至2280中的任一者具有至少约60％同一性、至少约65％同一性、至少约70％同一性、至少约75％同一性、至少约 80％同一性、至少约85％同一性、至少约90％同一性、至少约91％同一性、至少约92％同一性、至少约93％同一性、至少约94％同一性、至少约95％同一性、至少约96％同一性、至少约97％同一性、至少约98％同一性或至少约99％同一性。

在gNA变异体的实施例中，gNA变异体进一步包含更充分描述于前文的间隔(或靶向序列)区，其包含至少14至约35个核苷酸，其中间隔设计成具有与靶DNA互补的序列。在一些实施例中，gNA变异体包含与目标DNA互补的至少10至30个核苷酸的靶向序列。在一些实施例中，靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、 28、29、30、31、32、33、34或35个核苷酸。在一些实施例中，gNA变异体包含具有20个核苷酸的靶向序列。在一些实施例中，靶向序列具有25个核苷酸。在一些实施例中，靶向序列具有24个核苷酸。在一些实施例中，靶向序列具有23个核苷酸。在一些实施例中，靶向序列具有22个核苷酸。在一些实施例中，靶向序列具有21个核苷酸。在一些实施例中，靶向序列具有20个核苷酸。在一些实施例中，靶向序列具有19个核苷酸。在一些实施例中，靶向序列具有18个核苷酸。在一些实施例中，靶向序列具有17个核苷酸。在一些实施例中，靶向序列具有16个核苷酸。在一些实施例中，靶向序列具有15个核苷酸。在一些实施例中，靶向序列具有14个核苷酸。在一些实施例中，本公开提供了用于包括在本公开的gNA变异体中的靶向序列，其包含与表3A、3B或3C中的序列具有至少50％同一性、至少55％同一性、至少60％同一性、至少65％同一性、至少70％同一性、至少75％同一性、至少80％同一性、至少85％同一性、至少90％同一性、至少95％同一性或100％同一性。在一些实施例中，gNA变异体的靶向序列包含表3A、3B或3C的序列，其中从序列的3'端去除单个核苷酸。在其它实施例中，gNA变异体的靶向序列包含表3A、3B或3C的序列，其中从序列的3'端去除两个核苷酸。在其它实施例中，gNA变异体的靶向序列包含表3A、3B或3C的序列，其中从序列的3'端去除三个核苷酸。在其它实施例中，gNA变异体的靶向序列包含表3A、3B或3C 的序列，其中从序列的3'端去除四个核苷酸。在其它实施例中，gNA变异体的靶向序列包含表3的序列，其中从序列的3'端去除五个核苷酸。

表3A.B2M的gNA靶向序列

表3A如图35所示，并且通篇称为表3A。

表3B.TRAC的gNA靶向序列

表3B如图36所示，并且通篇称为表3B。

表3C：CIITA的gNA靶向序列

表3C如图37所示，并且通篇称为表3C。

在表3A、3B和3C中，左栏表示PAM序列，右栏表示相应间隔序列(本文有时称为靶向序列)的SEQ ID NO。

在一些实施例中，gNA变异体的支架是RNP的一部分，其具有包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白。在其它实施例中，gNA变异体的支架是RNP 的一部分，其具有包含表4、7、8、9或11的序列中的任一者，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的序列的CasX变异蛋白。在前述实施例中，gNA进一步包含间隔序列。

在一些实施例中，gNA变异体的支架是包含对包含SEQ ID NO:4或SEQ ID NO:5的参考gRNA的序列的一个或多个额外改变的变异体。在其中参考gRNA的支架衍生自SEQ IDNO:4或SEQ ID NO:5的那些实施例中，gNA变异体的一个或多个改进或增加的特征相比于SEQ ID NO:4或SEQ ID NO:5中的相同特征得到了改进。

h.与CasX蛋白形成复合物

在一些实施例中，当相比于参考gRNA时，gNA变异体具有改进的与CasX蛋白(例如参考CasX或CasX变异蛋白)形成复合物的能力。在一些实施例中，当相比于参考gRNA时，gNA变异体具有改进的针对CasX蛋白(例如参考或变异蛋白)的亲和力，由此改进其与CasX蛋白形成核糖核蛋白(RNP)复合物的能力，如实例中所述。在一些实施例中，改进核糖核蛋白复合物形成可提高组装功能性RNP的效率。在一些实施例中，大于90％、大于93％、大于95％、大于96％、大于97％、大于98％或大于99％的包含gNA变异体及其间隔的RNP有能力对靶核酸进行基因编辑。

在一些实施例中，可改进gNA变异体与CasX蛋白形成复合物的能力的示范性核苷酸变化可包括以热稳定茎环替换支架茎。不希望受任何理论束缚，以热稳定茎环替换支架茎可增加gNA变异体与CasX蛋白的总体结合稳定性。或者或另外，去除一大段茎环可改变gNA变异体折叠动力学，且使得功能性折叠gNA更容易且更快速地结构组装，例如通过减轻gNA 变异体自身可变得“缠结”的程度。在一些实施例中，支架茎环序列的选择可随着用于gNA 的不同间隔子而改变。在一些实施例中，支架序列可适于间隔子且因此适于目标序列。生物化学分析可用于评估CasX蛋白与gNA变异体结合以形成RNP的结合亲和力，包括实例的分析。举例来说，一般技术者可测量结合至固定CasX蛋白的萤光标记gNA的量的变化，作为对增加额外未标记的“冷竞争者”gNA的浓度的反应。或者或另外，可监测萤光信号或查看其如何变化，因为不同量的经萤光标记的gNA流经固定CasX蛋白。或者，可使用活体外裂解分析相对于界定目标核酸序列评估形成RNP的能力。

i.gNA稳定性

在一些实施例中，当相比于参考gRNA时，gNA变异体具有改进的稳定性。在一些实施例中，增加的稳定性及有效折叠可增加gNA变异体持续存在于目标细胞内部的程度，其可由此提高形成能够执行CasX功能(例如基因编辑)的功能性RNP的概率。在一些实施例中，增加的gNA变异体稳定性亦可允许在向细胞递送较低量gNA的情况下的类似结果，其可转而降低基因编辑期间的脱靶效应的概率。

在其它实施例中，本公开提供了gNA，其中支架茎环和/或延伸茎环被发夹环或热稳定 RNA茎环替换，其中所得gNA具有增加的稳定性，并且取决于环的选择，可与某些细胞蛋白或RNA相互作用。在一些实施例中，替换RNA环选自MS2、Qβ、U1发夹II、Uvsx、PP7、噬菌体复制环、吻合环_a、吻合环_b1、吻合环_b2、G四螺旋体M3q、G四螺旋体端粒篮、帚曲菌素-蓖麻毒素环和假结。包括此类组分的gNA变异体的序列提供于表2B中。

可以多种方式评估引导RNA稳定性，包括例如在活体外通过组装该引导、在模拟细胞内环境的溶液中培育不同时段并且然后经由本文所述的活体外裂解分析来测量功能活性。或者或另外，gNA可在初始转染/转导gNA之后的不同时间点自细胞收获，以确定gNA变异体相对于参考gRNA保持的时长。

j.溶解度

在一些实施例中，当相比于参考gRNA时，gNA变异体具有改进的溶解度。在一些实施例中，当相比于参考gRNA时，gNA变异体具有改进的CasX蛋白:gNA RNP溶解度。在一些实施例中，CasX蛋白:gNARNP的溶解度係通过将核糖核酸酶序列添加至gNA变异体的5' 或3'端，例如参考sgRNA的5'或3'来改进。一些核酶，例如M1核糖核酸酶可经由RNA介导的蛋白质折叠增加蛋白质的溶解度。

包含如本文所述的gNA变异体的CasX RNP的增加的溶解度可经由熟习所属领域者已知的多种方法评估，例如通过在表达CasX及gNA变异体的溶解大肠杆菌的可溶部分的凝胶上获取密度测定法读数。

k.核酸酶活性抗性

在一些实施例中，相比于参考gRNA，gNA变异体具有改进的核酸酶活性抗性。不希望受任何理论束缚，对核酸酶，例如细胞中发现的核酸酶增加的抗性可例如增加变异gNA于细胞内环境中的续存，由此改进基因编辑。

许多核酸酶为前进的，且以3'至5'方式降解RNA。因此，在一些实施例中，将核酸酶抵抗性二级结构添加至gNA的一个或两个末端，或改变sgNA的二级结构的核苷酸变化可产生具有增加的核酸酶活性抗性的gNA变异体。核酸酶活性抗性可经由熟习所属领域者已知的多种方法来评估。举例来说，测量核酸酶活性抗性的活体外方法可包括例如使参考gNA与具有一种或多种示范性RNA核酸酶的变异体接触及测量降解。或者或另外，使用本文所述的方法测量gNA变异体于细胞环境中的续存可指示gNA变异体的核酸酶抵抗性程度。

l.对目标DNA的结合亲和力

在一些实施例中，相对于参考gRNA，gNA变异体具有改进的针对目标DNA的亲和力。在某些实施例中，相对于包含参考gRNA的RNP的亲和力，包含gNA变异体的核糖核蛋白复合物对靶DNA的亲和力有所提高。在一些实施例中，RNP对目标DNA改进的亲和力包含对目标序列改进的亲和力、对PAM序列改进的亲和力、改进的RNP搜索用于目标序列的DNA 的能力或其任何组合。在一些实施例中，针对目标DNA改进的亲和力为增加的总体DNA结合亲和力的结果。

在不希望受到理论约束的情况下，gNA变异体中影响CasX蛋白中OBD的功能的核苷酸变化可能会增加CasX变异蛋白与前间隔邻近基序(PAM)结合的亲和力，以及结合或利用除了由SEQ ID NO:2的参考CasX蛋白识别的典型TTC PAM以外更多PAM序列(包括选自由TTC、ATC、GTC和CTC组成的组的PAM序列)，从而增加CasX变异蛋白对靶DNA序列的亲和力和多样性，与参考CasX相比，可编辑和/或结合的靶核酸序列大大增加。如下文更充分地描述，相比于参考CasX，增加可编辑的目标核酸的序列是指PAM及前间隔子序列及其根据非靶链定向的方向性。此不意味着非靶链，而非靶链的PAM序列决定裂解或在机制上涉及目标识别。举例来说，当参考TTC PAM时，其可实际上为目标裂解所需的互补GAA序列，或其可为来自两个股的核苷酸的某一组合。在本文公开的CasX蛋白的情况下，PAM位于前间隔子的5'端，其中至少单个核苷酸将PAM与前间隔子的第一核苷酸分离。或者或另外，影响增加CasX变异蛋白对目标DNA股的亲和力的螺旋形I及/或螺旋形II域的功能的gNA 的变化可增加包含变异gNA的CasX RNP对目标DNA的亲和力。

m.添加或改变gNA功能

在一些实施例中，相对于参考gRNA，gNA变异体可包含改变gNA变异体的拓扑结构的较大结构变化，由此允许不同gNA功能。举例来说，在一些实施例中，gNA变异体用先前鉴别的稳定RNA结构或茎环交换参考gRNA支架的内源茎环，该RNA结构或茎环可与蛋白质或RNA结合搭配物相互作用以将额外部分募集至CasX至将CasX募集至特定位置，例如具有与该RNA结构的结合搭配物的病毒衣壳内部。在其它情境下，RNA可彼此补充(如在吻合环中)，使得两个CasX蛋白可共定位以在目标DNA序列处更有效地基因编辑。此类RNA结构可包括MS2、Qβ、U1发夹II、Uvsx、PP7、噬菌体复制环、吻合环_a、吻合环_b1、吻合环_b2、G四螺旋体M3q、G四螺旋体端粒篮、帚曲菌素-蓖麻毒素环或假结。

在一些实施例中，gNA变异体包含末端融合搭配物。示范性末端融合物可包括gRNA与自裂解核糖核酸酶或蛋白质结合模体的融合物。如本文所用，“核糖核酸酶”是指具有一种或多种与蛋白质酶类似的催化活性的RNA或其区段。示范性核糖核酸酶催化活性可包括例如 RNA的裂解及/或连接、DNA的裂解及/或连接或肽键形成。在一些实施例中，此类融合可改进支架折叠或募集DNA修复机构。举例来说，在一些实施例中，gRNA可与肝炎δ病毒(HDV) 反基因组核糖核酸酶、HDV基因组核糖核酸酶、手斧核糖核酸酶(来自宏基因组数据)、env25 手枪核糖核酸酶(代表物来自Aliistipesputredinis)、HH15最小锤头核糖核酸酶、烟草环斑病毒 (TRSV)核糖核酸酶、WT病毒锤头核糖核酸酶(及合理变异体)或扭曲姊妹1或RBMX募集模体融合。锤头核酶为在RNA分子内的特定位点处催化可逆裂解及连接反应的RNA模体。锤头核酶包括I型、II型及III型锤头核酶。HDV、手枪及手斧核酶具有自裂解活性。包含一种或多种核酶的gNA变异体可允许相比于gRNA参考物扩展的gNA功能。举例来说，在一些实施例中，包含自裂解核酶的gNA可转录及加工为成熟gNA，作为多顺反子转录物的一部分。此类融合物可出现于gNA的5'或3'端。在一些实施例中，gNA变异体在5'及3'端处均包含融合物，其中各融合物独立地如本文所述。在一些实施例中，gNA变异体包含噬菌体复制环或四环。在一些实施例中，gNA包含能够结合蛋白质的发夹环。举例来说，在一些实施例中，发夹环为MS2、Qβ、U1发夹II、Uvsx或PP7发夹环。

在一些实施例中，gNA变异体包含一个或多个RNA适体。如本文所用，“RNA适体”是指以高亲和力及高特异性结合目标的RNA分子。

在一些实施例中，gNA变异体包含一个或多个核糖开关。如本文所用，“核糖开关”是指在结合小分子时改变状态的RNA分子。

在一些实施例中，gNA变异体进一步包含一个或多个蛋白质结合模体。在一些实施例中，将蛋白质结合模体添加到本公开的参考gRNA或gNA变异体可允许CasX RNP与额外蛋白质缔合，其可例如将那些蛋白质的功能添加到CasX RNP。

n.化学修饰的gNA

在一些实施例中，本公开涉及化学修饰的gNA。在一些实施例中，本公开提供了一种化学修饰的gNA，其具有引导RNA功能且降低了对通过核酸酶裂解的易感性。包含除四种典型核糖核苷酸A、C、G及U或去氧核苷酸以外的任何核苷酸的gNA为经化学修饰的gNA。在一些情况下，经化学修饰的gNA包含除天然磷酸二酯核苷酸间键以外的任何主链或核苷酸间键。在某些实施例中，保留功能包括经修饰gNA结合至本文所描述的任一实施例的CasX 的能力。在某些实施例中，保留功能包括经修饰gNA结合至目标核酸序列的能力。在某些实施例中，保留功能包括靶向CasX蛋白或预复合CasX蛋白gNA结合到靶核酸序列的能力。在某些实施例中，保留功能包括通过CasX-gNA切割目标聚核苷酸的能力。在某些实施例中，保留功能包括通过CasX-gNA裂解目标核酸序列的能力。在某些实施例中，保留功能是gNA 于具有本公开实施例中含有CasX蛋白的CasX系统中gNA的任何其它已知功能。

在一些实施例中，本公开提供了一种化学修饰的gNA，其中核苷酸糖修饰并入至选自由以下组成的组的gNA中：2′-O—C_1-4烷基(如2′-O-甲基(2′-OMe))、2'-脱氧基(2′-H)、2′-O—C_1-3烷基-O—C_1-3烷基(如2′-甲氧基乙基(“2′-MOE”))、2'-氟基(“2'-F”)、2'-氨基(“2'-NH₂”)、 2'-阿拉伯糖基(“2'-阿糖”)核苷酸、2'-F-阿拉伯糖基(“2'-F-阿糖”)核苷酸、2'-锁定核酸(“LNA”) 核苷酸、2'-解锁核酸(“ULNA”)核苷酸、L形式的糖(“L-糖”)和4'-硫代核糖基核苷酸。在其它实施例中，并入引导RNA的核苷酸间连键修饰选自由以下组成的组：硫代磷酸酯“P(S)” (P(S))、膦酰基羧酸酯(P(CH₂)_nCOOR)(如膦酰基乙酸酯“PACE”(P(CH₂COO^-)))、硫代膦酸羧酸酯((S)P(CH₂)_nCOOR)(如硫代膦酸乙酸酯“thioPACE”((S)P(CH₂)_nCOO^-)))、烷基膦酸酯(P(C_1-3烷基)(如甲基膦酸酯-P(CH₃))、硼烷膦酸酯(P(BH₃))和二硫代磷酸酯(P(S)₂)。

在某些实施例中，本发明提供经化学修饰的gNA，其中核碱基(“碱基”)修饰係并入至选自由以下组成的群的gNA中：2-硫尿嘧啶(“2-thioU”)、2-硫胞嘧啶(“2-thioC”)、4-硫尿嘧啶(“4-thioU”)、6-硫鸟嘌呤(“6-thioG”)、2-氨基腺嘌呤(“2-aminoA”)、2-氨基嘌呤、假尿嘧啶、次黄嘌呤、7-去氮鸟嘌呤、7-去氮-8-氮杂鸟嘌呤、7-去氮腺嘌呤、7-去氮-8-氮杂腺嘌呤、5-甲基胞嘧啶(“5-methylC”)、5-甲基尿嘧啶(“5-methylU”)、5-羟甲基胞嘧啶、5-羟甲基尿嘧啶、5,6-去氢尿嘧啶、5-丙炔基胞嘧啶、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶、5-乙炔基尿嘧啶、5-烯丙基尿嘧啶(“5-allylU”)、5-烯丙基胞嘧啶(“5-allylC”)、5-氨基烯丙基尿嘧啶(“5-aminoallylU”)、5-氨基烯丙基-胞嘧啶(“5-aminoallylC”)、无碱基核苷酸、Z碱基、 P碱基、非结构化核酸(“UNA”)、异鸟嘌呤(“isoG”)、异胞嘧啶(“isoC”)、5-甲基-2-嘧啶、x(A、G、C、T)及y(A、G、C、T)。

在其它实施例中，本发明提供经化学修饰的gNA，其中在核苷酸糖、核碱基、磷酸二酯键及/或磷酸核苷酸，包括包含一个或多个¹⁵N、¹³C、¹⁴C、氘、³H、³²P、¹²⁵I、¹³¹I原子或其它用作示踪剂的原子或元素的核苷酸上引入一个或多个同位素修饰。

在一些实施例中，并入至gNA中的“末端”修饰选自由以下组成的组：PEG(聚乙二醇)；烃连接子(包括：杂原子(O,S,N)-取代的烃间隔；卤基取代的烃间隔；含酮基、羧基、酰氨基、亚硫酰基、胺甲酰基、硫羰胺甲酰基的烃间隔)；精胺连接子；包括附接到例如6-荧光素-己基的连接子的荧光染料(例如荧光素、若丹明、花青)的染料；淬灭剂(例如dabcyl、BHQ)及其它标记(例如生物素、地高辛、吖啶、抗生蛋白链菌素、抗生物素蛋白、肽和/或蛋白质)。在一些实施例中，“末端”修饰包含将gNA结合(或连接)至包含去氧核苷酸及/或核糖核苷酸的寡核苷酸的另一分子、肽、蛋白质、糖、寡醣、类固醇、脂质、叶酸、维生素及/或其它分子。在某些实施例中，本发明提供经化学修饰的gNA，其中“末端”修饰(上文所述)经由例如2-(4- 丁基酰氨基萤光素)丙烷-1,3-二醇双(磷酸二酯)连接子的连接子定位于gNA序列内部，该连接子以磷酸二酯键形式并入且可并入gNA中的两个核苷酸之间的任何位置。

在一些实施例中，本发明提供具有末端修饰的经化学修饰的gNA，该末端修饰包含末端官能团，例如胺、硫醇(或巯基)、羟基、羧基、羰基、亚硫酰基、硫羰基、胺甲酰基、胺(硫甲酰)基、磷酰基、烯烃、炔烃、卤素或官能团封端的连接子，其可随后结合至选自由以下组成的群的所需部分：萤光染料、非萤光标记、标签(例如¹⁴C、生物素、抗生物素蛋白、抗生蛋白链菌素或含有同位素标记，例如¹⁵N、¹³C、氘、³H、³²P、¹²⁵I及其类似物)的部分、寡核苷酸(包含去氧核苷酸及/或核糖核苷酸，包括适体)、氨基酸、肽、蛋白质、糖、寡醣、类固醇、脂质、叶酸及维生素。共轭采用本领域中熟知的标准化学方法，包括但不限于经由N-羟基丁二酰亚胺、异硫氰酸酯、DCC(或DCI)偶合，和/或如出版社爱思唯尔科学公司(Eslsevier Science)Greg T.Hermanson在《Bioconjugate Techniques》第3版(2013)中所述的任何其它标准方法，该文献的内容以全文引用的方式并入本文中

IV.用于修饰靶核酸的蛋白质

本公开提供了包含CRISPR核酸酶的系统，其在真核细胞的基因组编辑中具有实用性。在一些实施例中，CRISPR核酸酶选自由以下组成的组：Cas9、Cas12a、Cas12b、Cas12c、Cas12d(CasY)、CasX、Cas13a、Cas13b、Cas13c、Cas13d、CasX、CasY、Cas14、Cpfl、C2cl、 Csn2和Cas Phi。在一些实施例中，CRISPR核酸酶是V型CRISPR核酸酶。在一些实施例中，本公开提供了包含CasX蛋白和一种或多种引导核酸(gNA)的系统，这些引导核酸被专门设计用于修饰真核细胞中的靶核酸序列。

如本文所用，术语“CasX蛋白”是指蛋白质家族，且涵盖所有天然存在的CasX蛋白、与天然存在的CasX蛋白具有至少50％一致性的蛋白质以及相对于天然存在的参考CasX蛋白具有一种或多种改进特征的CasX变异体。CasX蛋白属于CRISPR-Cas的V型蛋白。CasX 变异体实施例的示范性改进特征包括但不限于改进的变异体折叠、改进的对gNA的结合亲和力、改进的对目标核酸的结合亲和力、改进的利用较大范围的PAM序列编辑及/或结合目标DNA的能力、改进的目标DNA退绕、增加的编辑活性、改进的编辑效率、改进的编辑特异性、增加的可有效编辑的真核基因体的百分比、增加的核酸酶活性、增加的用于双链裂解的靶链负载、减少的用于单链切割的靶链负载、减少的脱靶裂解、改进的DNA的非靶链的结合、改进的蛋白质稳定性、改进的蛋白质:gNA(RNP)复合物稳定性、改进的蛋白质溶解度、改进的蛋白质:gNA(RNP)复合物溶解度、改进的蛋白质产率、改进的蛋白质表达及改进的熔融特征，如下文更充分地描述。在前述实施例中，当以可比较的方式分析时，CasX变异体和 gNA变异体的RNP的一个或多个改进特征相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3 的参考CasX蛋白和表1的gNA的RNP改进至少约1.1至约100,000倍。在其它情况下，CasX 变异体和gNA变异体的RNP的一个或多个改进特征是相对于SEQ ID NO:1、SEQ ID NO:2 或SEQ IDNO:3的参考CasX蛋白和表1的gNA的RNP改进至少约1.1、至少约10、至少约 100、至少约1000、至少约10,000、至少约100,000倍或更大改进。在其它情况下，当以可比较的方式分析时，CasX变异体和gNA变异体的RNP的改进特征中的一个或多个是相对于 SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的CasX蛋白和表1的gNA的RNP改进约1.1 至100,00倍、约1.1至10,00倍、约1.1至1,000倍、约1.1至500倍、约1.1至100倍、约1.1至50倍、约1.1至20倍、约10至100,00倍、约10至10,00倍、约10至1,000倍、约 10至500倍、约10至100倍、约10至50倍、约10至20倍、约2至70倍、约2至50倍、约2至30倍、约2至20倍、约2至10倍、约5至50倍、约5至30倍、约5至10倍、约 100至100,00倍、约100至10,00倍、约100至1,000倍、约100至500倍、约500至100,00 倍、约500至10,00倍、约500至1,000倍、约500至750倍、约1,000至100,00倍、约10,000 至100,00倍、约20至500倍、约20至250倍、约20至200倍、约20至100倍、约20至 50倍、约50至10,000倍、约50至1,000倍、约50至500倍、约50至200倍或约50至100 倍。在其它情况下，当以可比较的方式分析时，CasX变异体和gNA变异体的RNP的一个或多个改进特征是相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白和表1的 gNA的RNP改进约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、 2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、 16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70 倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180 倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290 倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400 倍、425倍、450倍、475倍或500倍。

术语“CasX变异体”包括为融合蛋白的变异体；即CasX“融合至”异源序列。此包括包含CasX变异体序列及CasX与异源蛋白或其域的N端、C端或内部融合物的CasX变异体。

本发明的CasX蛋白包含以下域中的至少一者：非靶链结合(NTSB)域、靶链负载(TSL) 域、螺旋形I域、螺旋形II域、寡核苷酸结合域(OBD)及RuvC DNA裂解域(其中的最后一者可在催化死亡CasX变异体中经修饰或缺失)，更充分描述于下文。另外，与参考CasX蛋白和参考gNA的RNP相比，本公开的CasX变异蛋白在与gNA复合成为RNP时，利用选自 TTC、ATC、GTC或CTC的PAM序列，具有更强的高效编辑和/或结合目标DNA的能力。在一些实施例中，PAM序列包含TC基序。在前文中，与包含参考CasX蛋白和参考gNA的 RNP在可比分析系统中的编辑效率和/或结合相比，PAM序列位于与分析系统中gNA的靶向序列具有同一性的前间隔的非靶链的5′端至少1个核苷酸处。在一个实施例中，CasX变异体和gNA变异体的RNP在可比较的测定系统中与包含参考CasX蛋白和参考gNA的RNP相比表现出更高的编辑效率和/或靶DNA中靶序列的结合，其中靶DNA的PAM序列是TTC。在另一实施例中，CasX变异体和gNA变异体的RNP在可比较的测定系统中与包含参考CasX 蛋白和参考gNA的RNP相比表现出更高的编辑效率和/或靶DNA中靶序列的结合，其中靶 DNA的PAM序列是ATC。在另一实施例中，CasX变异体和gNA变异体的RNP在可比较的测定系统中与包含参考CasX蛋白和参考gNA的RNP相比表现出更高的编辑效率和/或靶 DNA中靶序列的结合，其中靶DNA的PAM序列是CTC。在另一实施例中，CasX变异体和 gNA变异体的RNP在可比较的测定系统中与包含参考CasX蛋白和参考gNA的RNP相比表现出更高的编辑效率和/或靶DNA中靶序列的结合，其中靶DNA的PAM序列是GTC。在前述实施例中，与SEQ ID NO:1-3的任何一种CasX蛋白和表1的gNA的RNP对PAM序列的编辑效率和/或结合亲和力相比，一种或多种PAM序列的增加的编辑效率和/或结合亲和力至少大1.5倍。

在一些情况下，CasX蛋白为天然存在的蛋白(例如天然地存在于原核细胞中且自原核细胞分离)。在其它实施例中，CasX蛋白不为天然存在的蛋白(例如CasX蛋白为CasX变异蛋白、嵌合蛋白及其类似物)。天然存在的CasX蛋白(在本文中称为“参考CasX蛋白”)充当催化靶向双链DNA(dsDNA)中特定序列处的双链断裂的核酸内切酶。序列特异性由其所复合的相关 gNA的靶向序列提供，该靶向序列与目标核酸内的目标序列杂交。

在一些实施例中，CasX蛋白可结合及/或修饰(例如裂解、切割、甲基化、去甲基等)目标核酸及/或与目标核酸相关的多肽(例如组蛋白尾的甲基化或乙酰化)。在一些实施例中，CasX 蛋白为催化死亡的(dCasX)，但保留结合目标核酸的能力。示范性催化死亡CasX蛋白包含 CasX蛋白的RuvC域的活性位点中的一个或多个突变。在一些实施例中，催化死亡的CasX 蛋白包含SEQ ID NO:1的残基672、769和/或935处的取代。在一个实施例中，催化死亡的 CasX蛋白包含SEQ ID NO:1的参考CasX蛋白中D672A、E769A和/或D935A取代。在其它实施例中，催化死亡的CasX蛋白包含SEQ ID NO:2的参考CasX蛋白中氨基酸659、756和 /或922处的取代。在一些实施例中，催化死亡的CasX蛋白包含SEQ ID NO:2的参考CasX 蛋白中D659A、E756A和/或D922A取代。在其它实施例中，催化死亡CasX蛋白包含CasX 蛋白的全部或一部分RuvC域的缺失。应了解，相同之前述取代可类似地引入至本发明的CasX 变异体中，产生dCasX变异体。在一个实施例中，全部或一部分RuvC域自CasX变异体缺失，产生dCasX变异体。在一些实施例中，无催化活性的dCasX变异蛋白可用于碱基编辑或表观遗传修饰。在对DNA的较高亲和力下，在一些实施例中，相对于催化活性CasX，无催化活性的dCasX变异蛋白可以更快地发现其靶核酸、与靶核酸保持结合的时间更长、以更稳定方式结合靶核酸或其组合，从而与保留其裂解能力的CasX变异体相比，改善催化死亡的CasX变异蛋白的这些功能。

a.非靶链结合域

发明的参考CasX蛋白包含非靶链结合域(NTSBD)。NTSBD为先前未发现于任何Cas蛋白中的域；举例来说，此域不存在于Cas蛋白，例如Cas9、Cas12a/Cpf1、Cas13、Cas14、CASCADE、CSM或CSY中。不受理论或机制束缚，CasX中的NTSBD允许结合至非目标 DNA股且可帮助非目标及靶链的退绕。假定NTSBD负责非目标DNA股的退绕或呈退绕状态的非目标DNA股的捕捉。NTSBD与迄今为止派生的CryoEM模型结构中的非靶链直接接触，且可含有非典型锌指域。NTSBD亦可在退绕、引导RNA侵入及R环形成期间于稳定 DNA中起作用。在一些实施例中，示范性NTSBD包含SEQ ID NO:1的氨基酸101-191或 SEQ ID NO:2的氨基酸103-192。在一些实施例中，参考CasX蛋白的NTSBD包含四股β折叠。

b.靶链负载域

本发明的参考CasX蛋白包含靶链负载(TSL)域。TSL域为某些Cas蛋白，例如Cas9、CASCADE、CSM或CSY中未发现的域。不希望受理论或机制所束缚，认为TSL域负责辅助将目标DNA股负载至CasX蛋白的RuvC活性位点中。在一些实施例中，TSL用以放置或捕捉呈折叠状态的靶链，其将靶链DNA主链的易切断磷酸置于RuvC活性位点中。TSL包含由TSL的主体分隔的cys4(CXXC、CXXC锌指/带域(SEQ ID NO:48))。在一些实施例中，示范性TSL包含SEQ IDNO:1的氨基酸825-934或SEQ ID NO:2的氨基酸813-921。

c.螺旋形I域

本发明的参考CasX蛋白包含螺旋形I域。除CasX以外的某些Cas蛋白具有可以类似方式命名的域。然而，在一些实施例中，相比于非CasX蛋白，CasX蛋白的螺旋形I域包含一个或多个独特结构特征，或包含独特序列，或其组合。举例来说，在一些实施例中，相比于可具有类似名称的其它Cas蛋白中的域，CasX蛋白的螺旋形I域包含一个或多个独特二级结构。举例来说，在一些实施例中，相比于其它CRISPR蛋白，CasX蛋白中的螺旋形I域包含布置、数目及长度独特的结构及序列的一个或多个α螺旋。在某些实施例中，螺旋形I域负责与引导RNA的结合DNA及间隔子相互作用。不希望受理论所束缚，认为在一些情况下，螺旋形I域可促进前间隔子邻近模体(PAM)的结合。在一些实施例中，示范性螺旋形I域包含 SEQ ID NO:1的氨基酸57-100和192-332，或SEQ ID NO:2的氨基酸59-102和193-333。在一些实施例中，参考CasX蛋白的螺旋形I域包含一个或多个α螺旋。

d.螺旋形II域

本发明的参考CasX蛋白包含螺旋形II域。除CasX以外的某些Cas蛋白具有可以类似方式命名的域。然而，在一些实施例中，相比于可具有类似名称的其它Cas蛋白中的域，CasX 蛋白的螺旋形II域包含一个或多个独特结构特征，或独特序列，或其组合。举例来说，在一些实施例中，螺旋形II域包含沿目标DNA:引导RNA通道对准的一个或多个独特结构性α螺旋束。在一些实施例中，在包含螺旋形II域的CasX中，靶链及引导RNA与螺旋形II(且在一些实施例中，螺旋形I域)相互作用，以允许RuvC域接近目标DNA。螺旋形II域负责结合至引导RNA支架茎环以及结合DNA。在一些实施例中，示范性螺旋形II域包含SEQ ID NO: 1的氨基酸333-509，或SEQ ID NO:2的氨基酸334-501。

e.寡核苷酸结合域

本发明的参考CasX蛋白包含寡核苷酸结合域(OBD)。除CasX以外的某些Cas蛋白具有可以类似方式命名的域。然而，在一些实施例中，OBD包含一种或多种独特功能特征，或包含相对于CasX蛋白独特的序列，或其组合。举例来说，在一些实施例中，桥连螺旋(BH)、螺旋形I域、螺旋形II域及寡核苷酸结合域(OBD)在一起负责将CasX蛋白结合至引导RNA。因此，举例来说，在一些实施例中，OBD相对于CasX蛋白的独特的处在于其与螺旋形I域，或螺旋形II域或两者功能上相互作用，所述域各自可相对于如本文所述的CasX蛋白为独特的。特定言的，在CasX中，OBD很大程度上结合引导RNA支架的RNA三螺旋体。OBD 亦可负责结合至前间隔子邻近模体(PAM)。示范性OBD域包含SEQ ID NO:1的氨基酸1-56 和510-660，或SEQ IDNO:2的氨基酸1-58和502-647。

f.RuvC DNA裂解域

本发明的参考CasX蛋白包含RuvC域，其包括2个部分RuvC域(RuvC-I及RuvC-II)。RuvC域为所有12型CRISPR蛋白的祖先域。RuvC域源自TNPB(转座酶B)样转座酶。与其它RuvC域类似，CasXRuvC域具有负责配位镁(Mg)离子及裂解DNA的DED催化三联体。在一些实施例中，RuvC具有负责裂解DNA的两个股(一个接一个地，最可能首先为靶向序列中11-14个核苷酸(nt)处的非靶链，且接着随后为目标序列之后2-4个核苷酸处的靶链)的DED 模体活性位点。特定言的，在CasX中，RuvC域的独特的处在于其亦负责结合对CasX功能重要的引导RNA支架茎环。示范性RuvC域包含SEQ ID NO:1的氨基酸661-824和935-986，或SEQ ID NO:2的氨基酸648-812和922-978。

g.参考CasX蛋白

本发明提供参考CasX蛋白。在一些实施例中，参考CasX蛋白为天然存在的蛋白。举例来说，参考CasX蛋白可自天然存在的原核生物，例如δ变形菌纲、浮霉菌门或宋氏细菌暂定种物种分离。参考CasX蛋白(有时在本文中称为参考CasX蛋白)为II型CRISPR/Cas核酸内切酶，其属于能够与引导NA相互作用以形成核糖核蛋白(RNP)复合物的CasX(有时称为Cas12e)蛋白家族。在一些实施例中，包含参考CasX蛋白的RNP复合物可经由gNA的靶向序列(或间隔子)与目标核酸中的目标序列之间的碱基配对靶向至目标核酸中的特定位点。在一些实施例中，包含参考CasX蛋白的RNP能够裂解目标DNA。在一些实施例中，包含参考 CasX蛋白的RNP能够切割目标DNA。在一些实施例中，包含参考CasX蛋白的RNP能够编辑目标DNA，例如在如下那些实施例中，其中参考CasX蛋白能够裂解或切割DNA，接着为非同源末端连接(NHEJ)、同源定向修复(HDR)、同源独立性靶向集成(HITI)、微同源性介导的末端连接(MMEJ)、单链黏接(SSA)或碱基切除修复(BER)。在一些实施例中，包含CasX蛋白的RNP为催化死亡(无催化活性或基本上无裂解活性)CasX蛋白(dCasX)，但保留结合目标 DNA的能力，更充分描述于前文。

在一些情况下，参考CasX蛋白分离或衍生自δ变形菌纲。在一些实施例中，CasX蛋白包含与以下序列至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列：

在一些情况下，参考CasX蛋白分离或衍生自浮霉菌门。在一些实施例中，CasX蛋白包含与以下序列至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列：

在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少60％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少80％类似的序列。在一些实施例中，CasX 蛋白包含SEQ ID NO:2，或与其至少90％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少95％类似的序列。在一些实施例中，CasX蛋白由SEQ ID NO:2的序列组成。在一些实施例中，CasX蛋白包含相对于SEQ ID NO:2的序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10 个、至少20个、至少30个、至少40个或至少50个突变的序列或由其组成。此些突变可为插入、缺失、氨基酸取代或其任何组合。

在一些情况下，参考CasX蛋白分离或衍生自宋氏细菌暂定种。在一些实施例中，CasX 蛋白包含与以下序列至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列：

在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少60％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少80％类似的序列。在一些实施例中，CasX 蛋白包含SEQ ID NO:3，或与其至少90％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少95％类似的序列。在一些实施例中，CasX蛋白由SEQ ID NO:3的序列组成。在一些实施例中，CasX蛋白包含相对于SEQ ID NO:3的序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10 个、至少20个、至少30个、至少40个或至少50个突变的序列或由其组成。此些突变可为插入、缺失、氨基酸取代或其任何组合。

h.CasX变异蛋白

本公开提供了参考CasX蛋白(在本文中可互换地称为“CasX变异体”或“CasX变异蛋白”)的变异体，其中CasX变异体在参考CasX蛋白的至少一个域中包含至少一个修饰，包括SEQ ID NO:1-3的序列。在一些实施例中，相比于参考CasX蛋白，CasX变异体展现至少一种改进特征。当相比于本文所述的参考CasX蛋白时改进CasX变异蛋白的一种或多种功能或特征的所有变异体係设想为在本发明的范围内。在一些实施例中，修饰为参考CasX的一个或多个氨基酸中的突变。在其它实施例中，修饰为参考CasX的一个或多个域经来自不同CasX的一个或多个域取代。在一些实施例中，插入包括插入来自不同CasX蛋白的部分或所有域。突变可出现于参考CasX蛋白的任何一个或多个域中，且可包括例如一个或多个域的一部分或全部的缺失，或参考CasX蛋白的任何域中的一个或多个氨基酸取代、缺失或插入。CasX蛋白的域包括非靶链结合(NTSB)域、靶链负载(TSL)域、螺旋形I域、螺旋形II域、寡核苷酸结合域(OBD)及RuvC DNA裂解域。将引起CasX蛋白的特征改进的参考CasX蛋白的任何氨基酸序列变化视为本发明的CasX变异蛋白。举例来说，相对于参考CasX蛋白序列， CasX变异体可包含一个或多个氨基酸取代、插入、缺失或交换域，或其任何组合。

在一些实施例中，CasX变异蛋白在参考CasX蛋白的两个域的至少每一个中包含至少一个修饰，包括SEQ ID NO:1-3的序列。在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少2个域、至少3个域、至少4个域或至少5个域中的至少一个修饰。在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少一个域中的两个或更多个修饰。在一些实施例中，CasX变异蛋白包含参考CasX蛋白质的至少一个域中的至少两个修饰、参考CasX蛋白的至少一个域中的至少三个修饰或参考CasX蛋白的至少一个域中的至少四个修饰。在一些实施例中，其中与参考CasX蛋白相比，CasX变异体包含两个或更多个修饰，每个修饰在独立地选自由NTSBD、TSLD、螺旋形I域、螺旋形II域、OBD和RuvC DNA裂解域组成的组中的域中进行。

在一些实施例中，CasX变异蛋白的至少一个修饰包含参考CasX蛋白的一个域的至少一部分的缺失，包括SEQ ID NO:1-3的序列。在一些实施例中，缺失在NTSBD、TSLD、螺旋形I域、螺旋形II域、OBD或RuvC DNA裂解域中。

适用于产生本发明的CasX变异蛋白的突变诱发方法可包括例如深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、卡匣突变诱发、随机突变诱发、交错延伸PCR、基因改组或域交换。在一些实施例中，CasX变异体例如通过选择参考CasX中的一个或多个所需突变而设计。在某些实施例中，参考CasX蛋白的活性係用作比较一种或多种CasX变异体的活性，由此测量CasX变异体的功能改进的基准。CasX变异体的示范性改进包括但不限于改进的变异体折叠、改进的对gNA的结合亲和力、改进的对靶DNA的结合亲和力、改变的对一个或多个PAM序列的结合亲和力、改进的靶DNA解旋、增加的活性、改进的编辑效率、改进的编辑特异性、增加的核酸酶活性、增加的用于双链裂解的靶链负载、减少的用于单链切割的靶链负载、减少的脱靶裂解、改进的DNA的非靶链的结合、改进的蛋白质稳定性、改进的蛋白质:gNA复合物稳定性、改进的蛋白质溶解度、改进的蛋白质:gNA复合物溶解度、改进的蛋白质产率、改进的蛋白质表达及改进的熔融特征，如下文更充分地描述。

在本文所述的CasX变异体的一些实施例中，至少一个修饰包含：(a)与SEQ ID NO:1、 SEQ ID NO:2或SEQ ID NO:3的参考CasX相比，CasX变异体中1至100个连续或非连续氨基酸的取代；(b)与参考CasX相比，CasX变异体中1至100个连续或非连续氨基酸的缺失；(c)与参考CasX相比，CasX中1至100个连续或非连续氨基酸的插入；或(d)(a)-(c)的任何组合。在一些实施例中，至少一个修饰包含：(a)与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3 的参考CasX相比，CasX变异体中5至10个连续或非连续氨基酸的取代；(b)与参考CasX相比，CasX变异体中1至5个连续或非连续氨基酸的缺失；(c)与参考CasX相比，CasX中1 至5个连续或非连续氨基酸的插入；或(d)(a)-(c)的任何组合。

在一些实施例中，CasX变异蛋白包含相对于SEQ ID NO:1、SEQ ID NO:2或SEQ IDNO:3 的序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个或至少50个突变的序列或由其组成。此些突变可为插入、缺失、氨基酸取代或其任何组合。

在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少一个域中的至少一个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1-4个氨基酸取代、1-10 个氨基酸取代、1-20个氨基酸取代、1-30个氨基酸取代、1-40个氨基酸取代、1-50个氨基酸取代、1-60个氨基酸取代、1-70个氨基酸取代、1-80个氨基酸取代、1-90个氨基酸取代、1-100 个氨基酸取代、2-10个氨基酸取代、2-20个氨基酸取代、2-30个氨基酸取代、3-10个氨基酸取代、3-20个氨基酸取代、3-30个氨基酸取代、4-10个氨基酸取代、4-20个氨基酸取代、3-300 个氨基酸取代、5-10个氨基酸取代、5-20个氨基酸取代、5-30个氨基酸取代、10-50个氨基酸取代或20-50个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少约100个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1、2、3、4、5、6、7、8、9或10个氨基酸取代。在一些实施例中，相对于参考CasX蛋白， CasX变异蛋白包含单一域中的1、2、3、4、5、6、7、8、9或10个氨基酸取代。在一些实施例中，氨基酸取代为保守取代。在其它实施例中，取代为非保守的；例如极性氨基酸取代非极性氨基酸，或反的亦然。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1个氨基酸取代、2-3个连续氨基酸取代、2-4个连续氨基酸取代、2-5个连续氨基酸取代、2-6个连续氨基酸取代、2-7个连续氨基酸取代、2-8个连续氨基酸取代、2-9个连续氨基酸取代、2-10个连续氨基酸取代、2-20个连续氨基酸取代、2-30个连续氨基酸取代、2-40个连续氨基酸取代、2-50个连续氨基酸取代、2-60个连续氨基酸取代、2-70个连续氨基酸取代、2-80个连续氨基酸取代、2-90个连续氨基酸取代、2-100个连续氨基酸取代、3-10个连续氨基酸取代、3-20个连续氨基酸取代、3-30个连续氨基酸取代、4-10个连续氨基酸取代、4-20个连续氨基酸取代、3-300个连续氨基酸取代、5-10个连续氨基酸取代、5-20个连续氨基酸取代、5-30个连续氨基酸取代、10-50个连续氨基酸取代或20-50个连续氨基酸取代。在一些实施例中，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续氨基酸取代。在一些实施例中，CasX变异蛋白包含至少约100个连续氨基酸的取代。如本文所用，“连续氨基酸”是指在多肽的一级序列中连续的氨基酸。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含两个或更多个取代，且该两个或更多个取代不在参考CasX序列的连续氨基酸中。举例来说，第一取代可在参考CasX 蛋白的第一域中，且第二取代可在参考CasX蛋白的第二域中。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、 17、18、19或20个非连续取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少20个非连续取代。各非连续取代可具有本文所述的氨基酸的任何长度，例如1-4个氨基酸、1-10个氨基酸及其类似者。在一些实施例中，相对于参考CasX蛋白的两个或更多个取代不为相同长度，例如一个取代是一个氨基酸而第二个取代是三个氨基酸。在一些实施例中，相对于参考CasX蛋白的两个或更多个取代为相同长度，例如两个取代为两个长度上连续的氨基酸。

任何氨基酸可在本文所述的取代中取代任何其它氨基酸。取代可为保守取代(例如碱性氨基酸取代另一碱性氨基酸)。取代可为非保守取代(例如碱性氨基酸取代酸性氨基酸，或反的亦然)。举例来说，参考CasX蛋白中的脯氨酸可取代以下中的任一者以产生本发明的CasX 变异蛋白：精氨酸、组氨酸、氨酸赖氨酸、天冬氨酸、麸氨酸、丝氨酸、苏氨酸、天冬酰胺、氨酸谷氨酰胺、半胱氨酸、甘氨酸、丙氨酸、异白氨酸、白氨酸、甲硫氨酸、苯丙氨酸、色氨酸、酪氨酸或缬氨酸。

在一些实施例中，CasX变异蛋白包含相对于参考CasX蛋白的至少一个氨基酸缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1-4个氨基酸、1-10个氨基酸、 1-20个氨基酸、1-30个氨基酸、1-40个氨基酸、1-50个氨基酸、1-60个氨基酸、1-70个氨基酸、1-80个氨基酸、1-90个氨基酸、1-100个氨基酸、2-10个氨基酸、2-20个氨基酸、2-30个氨基酸、3-10个氨基酸、3-20个氨基酸、3-30个氨基酸、4-10个氨基酸、4-20个氨基酸、 3-300个氨基酸、5-10个氨基酸、5-20个氨基酸、5-30个氨基酸、10-50个氨基酸或20-50个氨基酸的缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异体包含至少约100个连续氨基酸的缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少1、2、 3、4、5、6、7、8、9、10、20、30、40、50或100个连续氨基酸的缺失。在一些实施例中， CasX变异蛋白包含1、2、3、4、5、6、7、8、9或10个连续氨基酸的缺失。

在一些实施例中，CasX变异蛋白包含相对于参考CasX蛋白的两个或更多个缺失，且该两个或更多个缺失不为连续氨基酸。举例来说，第一缺失可在参考CasX蛋白的第一域中，且第二缺失可在参考CasX蛋白的第二域中。在一些实施例中，相对于参考CasX蛋白，CasX 变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20 个非连续缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少20个非连续缺失。各非连续缺失可具有本文所述的氨基酸的任何长度，例如1-4个氨基酸、1-10个氨基酸及其类似者。

在一些实施例中，CasX变异蛋白包含相对于SEQ ID NO:1、2或3的序列的至少一个氨基酸插入。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1个氨基酸的插入、2-3个连续氨基酸、2-4个连续氨基酸、2-5个连续氨基酸、2-6个连续氨基酸、2-7个连续氨基酸、2-8个连续氨基酸、2-9个连续氨基酸、2-10个连续氨基酸、2-20个连续氨基酸、2-30 个连续氨基酸、2-40个连续氨基酸、2-50个连续氨基酸、2-60个连续氨基酸、2-70个连续氨基酸、2-80个连续氨基酸、2-90个连续氨基酸、2-100个连续氨基酸、3-10个连续氨基酸、 3-20个连续氨基酸、3-30个连续氨基酸、4-10个连续氨基酸、4-20个连续氨基酸、3-300个连续氨基酸、5-10个连续氨基酸、5-20个连续氨基酸、5-30个连续氨基酸、10-50个连续氨基酸或20-50个连续氨基酸的插入。在一些实施例中，CasX变异蛋白包含2、3、4、5、6、7、 8、9、10、11、12、13、14、15、16、17、18、19或20个连续氨基酸的插入。在一些实施例中，CasX变异蛋白包含至少约100个连续氨基酸的插入。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含两个或更多个插入，且该两个或更多个插入不为序列的连续氨基酸。举例来说，第一插入可在参考CasX蛋白的第一域中，且第二插入可在参考CasX蛋白的第二域中。在一些实施例中，相对于参考CasX蛋白， CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19 或20个非连续插入。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少10 至约20个或更多个非连续插入。各非连续插入可具有本文所述的氨基酸的任何长度，例如 1-4个氨基酸、1-10个氨基酸及其类似者。

任何氨基酸或氨基酸的组合可以插入本文所述的插入物中。举例来说，脯氨酸、精氨酸、组氨酸、氨酸赖氨酸、天冬氨酸、麸氨酸、丝氨酸、苏氨酸、天冬酰胺、氨酸谷氨酰胺、半胱氨酸、甘氨酸、丙氨酸、异白氨酸、白氨酸、甲硫氨酸、苯丙氨酸、色氨酸、酪氨酸或缬氨酸或其任何组合可插入至本发明的参考CasX蛋白中以产生CasX变异蛋白。

本文所述的取代、插入及缺失实施例的任何排列可经组合以产生本发明的CasX变异蛋白。举例来说，CasX变异蛋白可包含相对于参考CasX蛋白序列的至少一个取代及至少一个缺失、相对于参考CasX蛋白序列的至少一个取代及至少一个插入、相对于参考CasX蛋白序列的至少一个插入及至少一个缺失或相对于参考CasX蛋白序列的至少一个取代、一个插入及一个缺失。

在一些实施例中，CasX变异蛋白与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3中的一个具有至少约60％序列类似性、至少70％类似性、至少80％类似性、至少85％类似性、至少 86％类似性、至少87％类似性、至少88％类似性、至少89％类似性、至少90％类似性、至少91％类似性、至少92％类似性、至少93％类似性、至少94％类似性、至少95％类似性、至少96％类似性、至少97％类似性、至少98％类似性、至少99％类似性、至少99.5％类似性、至少99.6％类似性、至少99.7％类似性、至少99.8％类似性或至少99.9％类似性。

在一些实施例中，CasX变异蛋白与SEQ ID NO:2或其部分具有至少约60％序列类似性。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Y789T的取代、SEQ ID NO:2的P793 的缺失、SEQ ID NO:2的Y789D的取代、SEQ ID NO:2的T72S的取代、SEQ ID NO:2的I546V 的取代、SEQ ID NO:2的E552A的取代、SEQ ID NO:2的A636D的取代，SEQ ID NO:2的F536S的取代、SEQ ID NO:2的A708K的取代、SEQ ID NO:2的Y797L的取代、SEQ ID NO:2 的L792G的取代、SEQ ID NO:2的A739V的取代、SEQ ID NO:2的G791M的取代、在SEQ ID NO:2的位置661处的插入A、SEQ ID NO:2的A788W的取代、SEQ ID NO:2的K390R 的取代、SEQ IDNO:2的A751S的取代、SEQ ID NO:2的E385A的取代、在SEQ ID NO:2 的位置696处的插入P、在SEQ ID NO:2的位置773处的插入M、SEQ ID NO:2的G695H的取代、在SEQ ID NO:2的位置793处的插入AS、在SEQ ID NO:2的位置795处的插入AS、 SEQ ID NO:2的C477R的取代、SEQID NO:2的C477K的取代、SEQ ID NO:2的C479A的取代、SEQ ID NO:2的C479L的取代、SEQ IDNO:2的I55F的取代、SEQ ID NO:2的K210R 的取代、SEQ ID NO:2的C233S的取代、SEQ IDNO:2的D231N的取代、SEQ ID NO:2的 Q338E的取代、SEQ ID NO:2的Q338R的取代、SEQ IDNO:2的L379R的取代、SEQ ID NO:2 的K390R的取代、SEQ ID NO:2的L481Q的取代、SEQ IDNO:2的F495S的取代、SEQ ID NO:2 的D600N的取代、SEQ ID NO:2的T886K的取代、SEQ IDNO:2的A739V的取代、SEQ ID NO:2的K460N的取代、SEQ ID NO:2的I199F的取代、SEQ IDNO:2的G492P的取代、SEQ ID NO:2的T153I的取代、SEQ ID NO:2的R591I的取代、在SEQ IDNO:2的位置795处的插入AS、在SEQ ID NO:2的位置796处的插入AS、在SEQ ID NO:2的位置889处的插入L、 SEQ ID NO:2的E121D的取代、SEQ ID NO:2的S270W的取代、SEQ ID NO:2的E712Q的取代、SEQ ID NO:2的K942Q的取代、SEQ ID NO:2的E552K的取代、SEQ ID NO:2的K25Q 的取代、SEQ ID NO:2的N47D的取代、在SEQ ID NO:2的位置696处的插入T、SEQ IDNO:2 的L685I的取代、SEQ ID NO:2的N880D的取代、SEQ ID NO:2的Q102R的取代、SEQ IDNO:2 的M734K的取代、SEQ ID NO:2的A724S的取代、SEQ ID NO:2的T704K的取代、SEQ IDNO:2的P224K的取代、SEQ ID NO:2的K25R的取代、SEQ ID NO:2的M29E的取代、SEQ ID NO:2的H152D的取代、SEQ ID NO:2的S219R的取代、SEQ ID NO:2的E475K的取代、 SEQ ID NO:2的G226R的取代、SEQ ID NO:2的A377K的取代、SEQ ID NO:2的E480K的取代、SEQ ID NO:2的K416E的取代、SEQ ID NO:2的H164R的取代、SEQ ID NO:2的K767R 的取代、SEQ ID NO:2的I7F的取代、SEQ ID NO:2的M29R的取代、SEQ ID NO:2的H435R 的取代、SEQ ID NO:2的E385Q的取代、SEQ ID NO:2的E385K的取代、SEQ ID NO:2的I279F 的取代、SEQ ID NO:2的D489S的取代、SEQ ID NO:2的D732N的取代、SEQ ID NO:2的 A739T的取代、SEQ ID NO:2的W885R的取代、SEQ ID NO:2的E53K的取代、SEQ ID NO:2 的A238T的取代、SEQ ID NO:2的P283Q的取代、SEQ ID NO:2的E292K的取代、SEQ ID NO:2 的Q628E的取代、SEQ ID NO:2的R388Q的取代、SEQ ID NO:2的G791M的取代、SEQ ID NO:2的L792K的取代、SEQ ID NO:2的L792E的取代、SEQ ID NO:2的M779N的取代、SEQ ID NO:2的G27D的取代、SEQ ID NO:2的K955R的取代、SEQ ID NO:2的S867R的取代、 SEQ ID NO:2的R693I的取代、SEQ ID NO:2的F189Y的取代、SEQ ID NO:2的V635M的取代、SEQ ID NO:2的F399L的取代、SEQ ID NO:2的E498K的取代、SEQ ID NO:2的E386R 的取代、SEQ ID NO:2的V254G的取代、SEQ ID NO:2的P793S的取代、SEQ ID NO:2的 K188E的取代、SEQ ID NO:2的QT945KI的取代、SEQ ID NO:2的T620P的取代、SEQ ID NO:2 的T946P的取代、SEQ ID NO:2的TT949PP的取代、SEQ ID NO:2的N952T的取代、SEQ ID NO:2的K682E的取代、SEQ ID NO:2的K975R的取代、SEQ ID NO:2的L212P的取代、SEQ ID NO:2的E292R的取代、SEQ ID NO:2的I303K的取代、SEQ ID NO:2的C349E的取代、 SEQ ID NO:2的E385P的取代、SEQ ID NO:2的E386N的取代、SEQ ID NO:2的D387K的取代、SEQ ID NO:2的L404K的取代、SEQ ID NO:2的E466H的取代、SEQ ID NO:2的C477Q 的取代、SEQ ID NO:2的C477H的取代、SEQ ID NO:2的C479A的取代、SEQ ID NO:2的D659H的取代、SEQ ID NO:2的T806V的取代、SEQ ID NO:2的K808S的取代、在SEQ ID NO:2的位置797处的插入AS、SEQ ID NO:2的V959M的取代、SEQ ID NO:2的K975Q的取代、 SEQ IDNO:2的W974G的取代、SEQ ID NO:2的A708Q的取代、SEQ ID NO:2的V711K的取代、SEQ IDNO:2的D733T的取代、SEQ ID NO:2的L742W的取代、SEQ ID NO:2的V747K 的取代、SEQ IDNO:2的F755M的取代、SEQ ID NO:2的M771A的取代、SEQ ID NO:2的 M771Q的取代、SEQ IDNO:2的W782Q的取代、SEQ ID NO:2的G791F的取代、SEQ ID NO:2 的L792D的取代、SEQ IDNO:2的L792K的取代、SEQ ID NO:2的P793Q的取代、SEQ ID NO:2 的P793G的取代、SEQ IDNO:2的Q804A的取代、SEQ ID NO:2的Y966N的取代、SEQ ID NO:2的Y723N的取代、SEQ IDNO:2的Y857R的取代、SEQ ID NO:2的S890R的取代、SEQ ID NO:2的S932M的取代、SEQ IDNO:2的L897M的取代、SEQ ID NO:2的R624G的取代、 SEQ ID NO:2的S603G的取代、SEQ IDNO:2的N737S的取代、SEQ ID NO:2的L307K的取代、SEQ ID NO:2的I658V的取代、在SEQ IDNO:2的位置688处的插入PT、在SEQ ID NO:2 的位置794处的插入SA、SEQ ID NO:2的S877R的取代、SEQ ID NO:2的N580T的取代、 SEQ ID NO:2的V335G的取代、SEQ ID NO:2的T620S的取代、SEQ ID NO:2的W345G的取代、SEQ ID NO:2的T280S的取代、SEQ ID NO:2的L406P的取代、SEQ ID NO:2的A612D 的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E386R的取代、SEQ ID NO:2的 V351M的取代、SEQ ID NO:2的K210N的取代、SEQ ID NO:2的D40A的取代、SEQ ID NO:2 的E773G的取代、SEQ ID NO:2的H207L的取代、SEQ ID NO:2的T62A的取代、SEQ ID NO:2 的T287P的取代、SEQ ID NO:2的T832A的取代、SEQ ID NO:2的A893S的取代、在SEQ ID NO:2的位置14处的插入V、在SEQ ID NO:2的位置13处的插入AG、SEQ ID NO:2的R11V 的取代、SEQ ID NO:2的R12N的取代、SEQ ID NO:2的R13H的取代、在SEQ ID NO:2的位置13处的插入Y、SEQ ID NO:2的R12L的取代、在SEQ ID NO:2的位置13处的插入Q、 SEQID NO:2的V15S的取代、在SEQ ID NO:2的位置17处的插入D或其组合。

在一些实施例中，CasX变异体包含NTSB域中的至少一个修饰。

在一些实施例中，CasX变异体包含TSL域中的至少一个修饰。在一些实施例中，TSL域中的至少一个修饰包含SEQ ID NO:2的氨基酸Y857、S890或S932中的一个或多个的氨基酸取代。

在一些实施例中，CasX变异体包含螺旋形I域中的至少一个修饰。在一些实施例中，螺旋形I域中的至少一个修饰包含SEQ ID NO:2的氨基酸S219、L249、E259、Q252、E292、L307或D318中的一个或多个的氨基酸取代。

在一些实施例中，CasX变异体包含螺旋形II域中的至少一个修饰。在一些实施例中，螺旋形II域中的至少一个修饰包含SEQ ID NO:2的氨基酸D361、L379、E385、E386、D387、F399、L404、R458、C477或D489中的一个或多个的氨基酸取代。

在一些实施例中，CasX变异体包含OBD域中的至少一个修饰。在一些实施例中，OBD中的至少一个修饰包含SEQ ID NO:2的氨基酸F536、E552、T620或I658中的一个或多个的氨基酸取代。

在一些实施例中，CasX变异体包含RuvC DNA裂解域中的至少一个修饰。在一些实施例中，RuvC DNA裂解域中的至少一个修饰包含SEQ ID NO:2的氨基酸K682、G695、A708、V711、D732、A739、D733、L742、V747、F755、M771、M779、W782、A788、G791、L792、 P793、Y797、M799、Q804、S819或Y857中的一个或多个的氨基酸取代或氨基酸P793的缺失。

在一些实施例中，与SEQ ID NO:2的参考CasX序列相比，CasX变异体包含选自以下中的一个或多个的至少一个修饰：(a)L379R的氨基酸取代；(b)A708K的氨基酸取代；(c)T620P 的氨基酸取代；(d)E385P的氨基酸取代；(e)Y857R的氨基酸取代；(f)I658V的氨基酸取代； (g)F399L的氨基酸取代；(h)Q252K的氨基酸取代；(i)L404K的氨基酸取代；和(j)P793的氨基酸缺失。

在一些实施例中，CasX变异蛋白包含对参考CasX蛋白氨基酸序列的至少两个氨基酸变化。至少两个氨基酸变化可为对参考CasX蛋白氨基酸序列的取代、插入或缺失或其任何组合。取代、插入或缺失可为本文所述的参考CasX蛋白的序列中的任何取代、插入或缺失。在一些实施例中，变化为对参考CasX蛋白序列的连续氨基酸变化、非连续氨基酸变化或连续及非连续氨基酸变化的组合。在一些实施例中，参考CasX蛋白为SEQ ID NO:2。在一些实施例中，CasX变异蛋白包含对参考CasX蛋白序列的至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少 20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少30个、至少40 个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个、至少75个、至少80个、至少85个、至少90个、至少95个或至少100个氨基酸变化在一些实施例中， CasX变异蛋白包含对参考CasX蛋白序列的1-50个、3-40个、5-30个、5-20个、5-15个、 5-10个、10-50个、10-40个、10-30个、10-20个、15-50个、15-40个、15-30个、2-25个、2-24个、2-22个、2-23个、2-22个、2-21个、2-20个、2-19个、2-18个、2-17个、2-16个、 2-15个、2-14个、2-12个、2-11个、2-10个、2-9个、2-8个、2-7个、2-6个、2-5个、2-4 个、2-3个、3-25个、3-24个、3-22个、3-23个、3-22个、3-21个、3-20个、3-19个、3-18 个、3-17个、3-16个、3-15个、3-14个、3-12个、3-11个、3-10个、3-9个、3-8个、3-7个、 3-6个、3-5个、3-4个、4-25个、4-24个、4-22个、4-23个、4-22个、4-21个、4-20个、4-19 个、4-18个、4-17个、4-16个、4-15个、4-14个、4-12个、4-11个、4-10个、4-9个、4-8 个、4-7个、4-6个、4-5个、5-25个、5-24个、5-22个、5-23个、5-22个、5-21个、5-20个、 5-19个、5-18个、5-17个、5-16个、5-15个、5-14个、5-12个、5-11个、5-10个、5-9个、 5-8个、5-7个或5-6个氨基酸变化。在一些实施例中，CasX变异蛋白包含对参考CasX蛋白序列的15-20个变化。在一些实施例中，CasX变异蛋白包含对参考蛋白序列的1、2、3、4、 5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、 27、28、29或30个氨基酸变化。在一些实施例中，参考CasX变异蛋白的序列的至少两个氨基酸变化选自由以下组成的组：SEQ ID NO:2的Y789T的取代、SEQ ID NO:2的P793的缺失、SEQ ID NO:2的Y789D的取代、SEQ ID NO:2的T72S的取代、SEQ ID NO:2的I546V 的取代、SEQ ID NO:2的E552A的取代、SEQ ID NO:2的A636D的取代、SEQ ID NO:2的 F536S的取代、SEQ ID NO:2的A708K的取代、SEQ ID NO:2的Y797L的取代、SEQ ID NO:2 的L792G的取代、SEQ ID NO:2的A739V的取代、SEQ ID NO:2的G791M的取代、在SEQ ID NO:2的位置661处的插入A、SEQ ID NO:2的A788W的取代、SEQ ID NO:2的K390R的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E385A的取代、在SEQ ID NO:2 的位置696处的插入P、在SEQ ID NO:2的位置773处的插入M、SEQ ID NO:2的G695H的取代、在SEQID NO:2的位置793处的插入AS、在SEQ ID NO:2的位置795处的插入AS、 SEQ ID NO:2的C477R的取代、SEQ ID NO:2的C477K的取代、SEQ ID NO:2的C479A的取代、SEQ ID NO:2的C479L的取代、SEQ ID NO:2的I55F的取代、SEQ ID NO:2的K210R 的取代、SEQ ID NO:2的C233S的取代、SEQ ID NO:2的D231N的取代、SEQ ID NO:2的 Q338E的取代、SEQ ID NO:2的Q338R的取代、SEQ ID NO:2的L379R的取代、SEQ ID NO:2 的K390R的取代、SEQ ID NO:2的L481Q的取代、SEQ ID NO:2的F495S的取代、SEQ ID NO:2 的D600N的取代、SEQ ID NO:2的T886K的取代、SEQ ID NO:2的A739V的取代、SEQ ID NO:2的K460N的取代、SEQ ID NO:2的I199F的取代、SEQ ID NO:2的G492P的取代、SEQ ID NO:2的T153I的取代、SEQ ID NO:2的R591I的取代，在SEQ ID NO:2的位置795处的插入AS、在SEQ ID NO:2的位置796处的插入AS、在SEQ ID NO:2的位置889处的插入L、 SEQ ID NO:2的E121D、SEQ ID NO:2的S270W的取代、SEQ ID NO:2的E712Q的取代、 SEQ ID NO:2的K942Q的取代、SEQ ID NO:2的E552K的取代、SEQ ID NO:2的K25Q的取代、SEQ ID NO:2的N47D的取代、在SEQ ID NO:2的位置696处的插入T、SEQ ID NO:2 的L685I的替换、SEQ ID NO:2的N880D的替换、SEQ ID NO:2的Q102R的取代、SEQ ID NO:2 的M734K的取代、SEQ ID NO:2的A724S的取代、SEQ ID NO:2的T704K的取代、SEQ ID NO:2的P224K的取代、SEQ ID NO:2的K25R的取代、SEQ ID NO:2的M29E的取代、SEQ ID NO:2的H152D的取代、SEQ ID NO:2的S219R的取代、SEQ ID NO:2的E475K的取代、 SEQ ID NO:2的G226R的取代、SEQ ID NO:2的A377K的取代、SEQ ID NO:2的E480K的取代、SEQ ID NO:2的K416E的取代、SEQ ID NO:2的H164R的取代、SEQ ID NO:2的K767R 的取代、SEQ ID NO:2的I7F的取代、SEQ ID NO:2的M29R替代、SEQ ID NO:2的H435R 的取代、SEQID NO:2的E385Q的取代、SEQ ID NO:2的E385K的取代、SEQ ID NO:2的I279F 的取代、SEQID NO:2的D489S的取代、SEQ ID NO:2的D732N的取代、SEQ ID NO:2的 A739T的取代、SEQID NO:2的W885R的取代、SEQ ID NO:2的E53K的取代、SEQ ID NO:2 的A238T的取代、SEQ IDNO:2的P283Q的取代、SEQ ID NO:2的E292K、SEQ ID NO:2的 Q628E的取代、SEQ ID NO:2的R388Q的取代、SEQ ID NO:2的G791M的取代、SEQ ID NO:2 的L792K的取代、SEQ ID NO:2的L792E的取代、SEQ ID NO:2的M779N的取代、SEQ ID NO:2的G27D的取代、SEQ ID NO:2的K955R的取代、SEQ ID NO:2的S867R的取代、SEQ ID NO:2的R693I的取代、SEQ ID NO:2的F189Y的取代、SEQ ID NO:2的V635M的取代、 SEQ ID NO:2的F399L的取代、SEQ ID NO:2的E498K的取代、SEQ ID NO:2的E386R的取代、SEQ ID NO:2的V254G的取代、SEQ ID NO:2的P793S的取代、SEQ ID NO:2的K188E 的取代、SEQ ID NO:2的QT945KI的取代、SEQ ID NO:2的T620P的取代、SEQ ID NO:2的 T946P的取代、SEQ ID NO:2的TT949PP的取代、SEQ ID NO:2的N952T的取代、SEQ ID NO:2 的K682E的取代、SEQ ID NO:2的K975R的取代、SEQ ID NO:2的L212P的取代、SEQ ID NO:2 的E292R的取代、SEQ ID NO:2的I303K的取代、SEQ ID NO:2的C349E的取代、SEQ ID NO:2 的E385P的取代、SEQ ID NO:2的E386N的取代、SEQ ID NO:2的D387K的取代、SEQ ID NO:2 的L404K的取代、SEQ ID NO:2的E466H的取代、SEQ ID NO:2的C477Q的取代、SEQ ID NO:2 的C477H的取代、SEQ ID NO:2的C479A的取代、SEQ ID NO:2的D659H的取代、SEQ ID NO:2的T806V的取代、SEQ ID NO:2的K808S的取代、在SEQ ID NO:2的位置797处的插入AS、SEQ ID NO:2的V959M的取代、SEQ ID NO:2的K975Q的取代、SEQ IDNO:2的 W974G的取代、SEQ ID NO:2的A708Q的取代、SEQ ID NO:2的V711K的取代、SEQ IDNO:2 的D733T的取代、SEQ ID NO:2的L742W的取代、SEQ ID NO:2的V747K的取代、SEQ IDNO:2的F755M的取代、SEQ ID NO:2的M771A的取代、SEQ ID NO:2的M771Q的取代、 SEQ IDNO:2的W782Q的取代、SEQ ID NO:2的G791F的取代、SEQ ID NO:2的L792D的取代、SEQ IDNO:2的L792K的取代、SEQ ID NO:2的P793Q的取代、SEQ ID NO:2的P793G 的取代、SEQ IDNO:2的Q804A的取代、SEQ ID NO:2的Y966N的取代、SEQ ID NO:2的 Y723N的取代、SEQ IDNO:2的Y857R的取代、SEQ ID NO:2的S890R的取代、SEQ ID NO:2 的S932M的取代、SEQ IDNO:2的L897M的取代、SEQ ID NO:2的R624G的取代、SEQ ID NO:2的S603G的取代、SEQ IDNO:2的N737S的取代、SEQ ID NO:2的L307K的取代、SEQ ID NO:2的I658V的取代、在SEQ IDNO:2的位置688处的插入PT、在SEQ ID NO:2的位置 794处的插入SA、SEQ ID NO:2的S877R的取代、SEQ ID NO:2的N580T的取代、SEQ ID NO:2 的V335G的取代、SEQ ID NO:2的T620S的取代、SEQ ID NO:2的W345G的取代、SEQ ID NO:2的T280S的取代、SEQ ID NO:2的L406P的取代、SEQ ID NO:2的A612D的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E386R的取代、SEQ ID NO:2的V351M的取代、 SEQ ID NO:2的K210N的取代、SEQ ID NO:2的D40A的取代、SEQ ID NO:2的E773G的取代、SEQ ID NO:2的H207L的取代、SEQ ID NO:2的T62A的取代、SEQ ID NO:2的T287P 的取代、SEQ ID NO:2的T832A的取代、SEQ ID NO:2的A893S的取代、在SEQ ID NO:2 的位置14处的插入V、在SEQ ID NO:2的位置13处的插入AG、SEQ ID NO:2的R11V的取代、SEQ ID NO:2的R12N的取代、SEQ ID NO:2的R13H的取代、在SEQ ID NO:2的位置 13处的插入Y、SEQ ID NO:2的R12L的取代、在SEQ ID NO:2的位置13处的插入Q、SEQ IDNO:2的V15S的取代和在SEQ ID NO：2的位置17处的插入D。在一些实施例中，对参考CasX蛋白的至少两个氨基酸变化选自表4的序列中公开的氨基酸变化。在一些实施例中，CasX变异体包含此段之前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含对参考CasX蛋白氨基酸序列的超过一个取代、插入及/或缺失。在一些实施例中，参考CasX蛋白包含SEQ ID NO:2或基本上由其组成。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的S794R的取代和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的K416E的取代和A708K的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代和P793的缺失。在一些实施例中， CasX变异蛋白包含SEQ ID NO:2的P793的缺失和在位置795处的插入AS。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Q367K的取代和I425S的取代。在一些实施例中， CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和A793V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Q338R的取代和A339E的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Q338R的取代和A339K的取代。在一些实施例中，CasX变异蛋白包含SEQID NO:2的S507G的取代和G508R的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQID NO:2 的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置 793处P的缺失和M779N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的 L379R的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中， CasX变异蛋白包含SEQ ID NO:2的L379R的取代、708K的取代、位置793处P的缺失和 D489S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K 的取代、位置793处P的缺失和A739T的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P 的缺失和G791M的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、708K的取代、位置793处P的缺失和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和M779N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、 C477K的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中， CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D489S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和A739T的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2 的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和G791M的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K 的取代、位置793处P的缺失和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和T620P的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和E386S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的E386R的取代、 F399L的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2 的R581I和A739V的取代。在一些实施例中，CasX变异体包含此段之前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含对参考CasX蛋白氨基酸序列的超过一个取代、插入及/或缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ IDNO:2的C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代和位置793处P 的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO: 2的C477K的取代、A708K的取代、位置793处P的缺失和A739的取代。在一些实施例中， CasX变异蛋白包含SEQID NO:2的L379R的取代、C477K的取代、A708K的取代、位置 793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R 的取代、C477K的取代、A708K的取代、位置793处P的缺失和T620P的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的M771A的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异体包含此段之前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的W782Q的取代。在一些实施例中， CasX变异蛋白包含SEQ ID NO:2的M771Q的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的R458I的取代和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ IDNO:2的L379R的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处 P的缺失和A739T的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D489S的取代。在一些实施例中，CasX变异蛋白包含SEQID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2 的V711K的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、 C477K的取代、A708K的取代、位置793处P的缺失和Y797L的取代。在一些实施例中， CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K 的取代、位置793处P的缺失和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的取代和E386S的取代。在一些实施例中，CasX 变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代和位置793处 P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L792D的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的G791F的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代和位置793处P的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO: 2的L249I的取代和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的 V747K的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477 的取代、A708K的取代、位置793处P的缺失和M779N的取代。在一些实施例中，CasX变异蛋白包含F755M的取代。在一些实施例中，CasX变异体包含此段之前述实施例的任何组合。

在一些实施例中，CasX变异蛋白与SEQ ID NO:2的参考CasX序列相比包含至少一个修饰，其中至少一个修饰选自以下中的一个或多个：L379R的氨基酸取代；A708K的氨基酸取代；T620P的氨基酸取代；E385P的氨基酸取代；Y857R的氨基酸取代；I658V的氨基酸取代；F399L的氨基酸取代；Q252K的氨基酸取代；以及[P793]的氨基酸缺失。在一些实施例中，CasX变异蛋白与SEQ ID NO:2的参考CasX序列相比包含至少一个修饰，其中至少一个修饰选自以下中的一个或多个：L379R的氨基酸取代；A708K的氨基酸取代；T620P的氨基酸取代；E385P的氨基酸取代；Y857R的氨基酸取代；I658V的氨基酸取代；F399L的氨基酸取代；Q252K的氨基酸取代；L404K的氨基酸取代；以及[P793]的氨基酸缺失。在其它实施例中，CasX变异蛋白与SEQ ID NO:2的参考CasX序列相比包含前述取代或缺失的任何组合。在其它实施例中，除了前述取代或缺失以外，CasX变异蛋白可进一步包含来自SEQ ID NO: 1的参考CasX的NTSB和/或螺旋形1b域的取代。

在一些实施例中，CasX变异蛋白包含400至2000个氨基酸、500至1500个氨基酸、700 至1200个氨基酸、800至1100个氨基酸或900至1000个氨基酸。

在一些实施例中，CasX变异蛋白在形成发生目标DNA复合的通道的非连续残基区域中包含一个或多个修饰。在一些实施例中，CasX变异蛋白包含一个或多个修饰，其包含形成与 gNA结合的界面的非连续残基区域。举例来说，在参考CasX蛋白的一些实施例中，螺旋形 I、螺旋形II及OBD域全部接触或邻近gNA:目标DNA复合物，且对此些域中的任一者内的非连续残基的一个或多个修饰可改进CasX变异蛋白的功能。

在一些实施例中，CasX变异蛋白在形成与非靶链DNA结合的通道的非连续残基区域中包含一个或多个修饰。举例来说，CasX变异蛋白可包含对NTSBD的非连续残基的一个或多个修饰。在一些实施例中，CasX变异蛋白在形成与PAM结合的界面的非连续残基区域中包含一个或多个修饰。举例来说，CasX变异蛋白可包含对螺旋形I域或OBD的非连续残基的一个或多个修饰。在一些实施例中，CasX变异蛋白含有包含非连续表面暴露残基区域的一个或多个修饰。如本文所用，“表面暴露残基”是指CasX蛋白的表面上的氨基酸，或其中氨基酸的至少一部分，例如主链或一部分侧链在蛋白质的表面上的氨基酸。例如CasX的细胞蛋白质的表面暴露残基(其暴露于水性细胞内环境)经常选自带正电亲水性氨基酸，例如精氨酸、天冬酰胺、天冬氨酸、氨酸谷氨酰胺、麸氨酸、组氨酸、氨酸赖氨酸、丝氨酸及苏氨酸。因此，举例来说，在本文提供的变异体的一些实施例中，相比于参考CasX蛋白，表面暴露残基的区域包含一个或多个插入、缺失或取代。在一些实施例中，一个或多个带正电残基取代一个或多个其它带正电残基，或带负电残基，或不带电残基，或其任何组合。在一些实施例中，一个或多个取代氨基酸残基接近结合核酸，例如RuvC域或螺旋形I域中接触目标DNA 的残基，或OBD或螺旋形II域中结合gNA的残基可取代一个或多个带正电或极性氨基酸。

在一些实施例中，CasX变异蛋白包含非连续残基区域中的一个或多个修饰，所述非连续残基经由参考CasX蛋白的域中的疏水性填充形成核。不希望受任何理论束缚，经由疏水性填充形成核心的区域富含疏水性氨基酸，例如缬氨酸、异白氨酸、白氨酸、甲硫氨酸、苯丙氨酸、色氨酸及半胱氨酸。举例来说，在一些参考CasX蛋白中，RuvC域包含邻近于活性位点的疏水袋。在一些实施例中，该区域的2至15个残基为带电、极性或碱基堆叠的。带电氨基酸(有时在本文中称为残基)可包括例如精氨酸、赖氨酸、天冬氨酸和谷氨酸，且这些氨基酸的侧链可形成盐桥，前提是亦存在桥连搭配物。极性氨基酸可包括例如氨酸谷氨酰胺、天冬酰胺、组氨酸、丝氨酸、苏氨酸、酪氨酸及半胱氨酸。在一些实施例中，极性氨基酸可取决于其侧链标识而形成质子供体或受体形式的氢键。如本文所用，“碱基堆叠”包括氨基酸残基(例如色氨酸、酪氨酸、苯丙氨酸或组氨酸)的芳香族侧链与核酸中的堆叠核苷酸碱基的相互作用。在空间上紧邻以形成CasX变异蛋白的功能性部分的对非连续氨基酸区域的任何修饰係设想为在本发明的范围内。

i.具有来自多种源蛋白质的域的CasX变异蛋白

在某些实施例中，本公开提供了嵌合CasX蛋白，其包含来自两种或更多种不同CasX蛋白的蛋白域，如两种或更多种参考CasX蛋白，或两种或更多种如本文所述的CasX变异蛋白序列。如本文所用，“嵌合CasX蛋白”是指含有至少两个分离或衍生自不同来源，例如两种天然存在的蛋白质的域的CasX，在一些实施例中，该两种蛋白质可分离自不同物种。举例来说，在一些实施例中，嵌合CasX蛋白包含来自第一CasX蛋白的第一域及来自不同的第二 CasX蛋白的第二域。在一些实施例中，第一域可选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。在一些实施例中，第二域选自由以下组成的组：NTSB、 TSL、螺旋形I、螺旋形II、OBD和RuvC域，其中第二域不同于前述第一域。例如，嵌合 CasX蛋白可包含来自SEQ ID NO:2的CasX蛋白的NTSB、TSL、螺旋形I、螺旋形II、OBD 域，以及来自SEQ IDNO:1的CasX蛋白的RuvC域，或反之亦然。作为另一实例，嵌合CasX 蛋白可包含来自SEQ IDNO:2的CasX蛋白的NTSB、TSL、螺旋形II、OBD和RuvC域，以及来自SEQ ID NO:1的CasX蛋白的螺旋形I域，或反之亦然。因此，在某些实施例中，嵌合CasX蛋白可包含来自第一CasX蛋白的NTSB、TSL、螺旋形II、OBD和RuvC域，以及来自第二CasX蛋白的螺旋形I域。在嵌合CasX蛋白的一些实施例中，第一CasX蛋白的域衍生自SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的序列，且第二CasX蛋白的域衍生自SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的序列，并且第一CasX蛋白和第二CasX 蛋白不相同。在一些实施例中，第一CasX蛋白的域包含衍生自SEQID NO:1的序列，且第二CasX蛋白的域包含衍生自SEQ ID NO:2的序列。在一些实施例中，第一CasX蛋白的域包含衍生自SEQ ID NO:1的序列，且第二CasX蛋白的域包含衍生自SEQ IDNO:3的序列。在一些实施例中，第一CasX蛋白的域包含衍生自SEQ ID NO:2的序列，且第二CasX蛋白的域包含衍生自SEQ ID NO:3的序列。在一些实施例中，CasX变异体选自由CasX变异体 387、388、389、390、395、485、486、487、488、489、490和491组成的组，其序列列于表4中。

在一些实施例中，CasX变异蛋白包含至少一个嵌合域，其包含来自第一CasX蛋白的第一部分及来自不同的第二CasX蛋白的第二部分。如本文所用，“嵌合域”是指含有至少两个分离或衍生自不同来源，例如两种天然存在的蛋白质的部分的域，或来自两种参考CasX蛋白的域部分。至少一个嵌合域可为如本文所述的NTSB、TSL、螺旋形I、螺旋形II、OBD或 RuvC域中的任一者。在一些实施例中，CasX域的第一部分包含SEQ ID NO:1的序列，且CasX域的第二部分包含SEQ ID NO:2的序列。在一些实施例中，CasX域的第一部分包含 SEQID NO:1的序列，且CasX域的第二部分包含SEQ ID NO:3的序列。在一些实施例中， CasX域的第一部分包含SEQ ID NO:2的序列，且CasX域的第二部分包含SEQ ID NO:3的序列。在一些实施例中，至少一个嵌合域包含嵌合RuvC域。作为前述的实例，嵌合RuvC 域包含SEQ IDNO:1的氨基酸661至824和SEQ ID NO:2的氨基酸922至978。作为前述的替代实例，嵌合RuvC域包含SEQ ID NO:2的氨基酸648至812和SEQ ID NO:1的氨基酸 935至986。在一些实施例中，CasX蛋白包含来自第一CasX蛋白的第一域及来自第二CasX 蛋白的第二域，及至少一个嵌合域，其包含使用此段中所述的实施例的方法自不同CasX蛋白分离的至少两个部分。在前述实施例中，具有衍生自SEQ ID NO:1、2和3的域或域部分的嵌合CasX蛋白可进一步包含本文公开的任一实施例的氨基酸插入、缺失或取代。

在一些实施例中，CasX变异蛋白包含表4、7、8、9或11中阐述的序列。在一些实施例中，CasX变异蛋白由表4中阐述的序列组成。在其它实施例中，CasX变异蛋白包含与表4、7、8、9或11中阐述的序列具有至少60％同一性、至少65％同一性、至少70％同一性、至少 75％同一性、至少80％同一性、至少81％同一性、至少82％同一性、至少83％同一性、至少84％同一性、至少85％同一性、至少86％同一性、至少86％同一性、至少87％同一性、至少88％同一性、至少89％同一性、至少89％同一性、至少90％同一性、至少91％同一性、至少92％同一性、至少93％同一性、至少94％同一性、至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性、至少99％同一性、至少99.5％同一性的序列。在其它实施例中，CasX变异蛋白包含表4中阐述的序列，且进一步包含在N-末端、C-末端或两者处或附近的一个或多个本文公开的NLS。应了解，在一些情况下，表中的CasX变异体的N端甲硫氨酸在翻译后修饰期间自经表达CasX变异体去除。

表4：CasX变异序列

在一些实施例中，CasX变异蛋白包含选自由SEQ ID NO:49-143、438、440、442、444、 446、448-460、472、474、478、480、482、484、486、488、490、612和613组成的组的序列。在一些实施例中，CasX变异蛋白包含选自由SEQ ID NO:49-143、438、440、442、444、 446、448-460、472、474、478、480、482、484、486、488、490、612和613组成的组的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约 95％、或至少约95％、或至少约96％、或至少约97％、或至少约98％、或至少约99％序列同一性的序列。在一些实施例中，CasX变异蛋白包含选自由SEQ ID NO:49-143组成的组的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％、或至少约95％、或至少约96％、或至少约97％、或至少约98％、或至少约99％序列同一性的序列。在一些实施例中，CasX变异蛋白包含选自由SEQ ID NO:49-143组成的组的序列。

在一些实施例中，当与参考CasX蛋白相比时，例如与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白相比时，CasX变异蛋白具有一个或多个改进特征。在一些实施例中， CasX变异体的至少一个改进特征是相对于参考蛋白改进至少约1.1至约100,000倍。在一些实施例中，CasX变异体的至少一个改进特征是相比于参考CasX蛋白改进至少约1.1至约 10,000倍、改进至少约1.1至约1,000倍、改进至少约1.1至约500倍、改进至少约1.1至约400倍、改进至少约1.1至约300倍、改进至少约1.1至约200倍、改进至少约1.1至约100 倍、改进至少约1.1至约50倍、改进至少约1.1至约40倍、改进至少约1.1至约30倍、改进至少约1.1至约20倍、改进至少约1.1至约10倍、改进至少约1.1至约9倍、改进至少约 1.1至约8倍、改进至少约1.1至约7倍、改进至少约1.1至约6倍、改进至少约1.1至约5 倍、改进至少约1.1至约4倍、改进至少约1.1至约3倍、改进至少约1.1至约2倍、改进至少约1.1至约1.5倍、改进至少约1.5至约3倍、改进至少约1.5至约4倍、改进至少约1.5 至约5倍、改进至少约1.5至约10倍、改进至少约5至约10倍、改进至少约10至约20倍、改进至少10至约30倍、改进至少10至约50倍或改进至少10至约100倍。在一些实施例中， CasX变异体的至少一个改进特征是相对于参考CasX蛋白改进至少约10至约1000倍。

在一些实施例中，CasX变异蛋白的一种或多种改进特征为相对于参考CasX蛋白改进至少约5、至少约10、至少约20、至少约30、至少约40、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约250、至少约500或至少约1000、至少约5,000、至少约10,000或至少约100,000倍。在一些实施例中，CasX变异蛋白的改进特征为相对于参考CasX蛋白改进至少约1.1、至少约1.2、至少约1.3、至少约1.4、至少约1.5、至少约1.6、至少约1.7、至少约1.8、至少约1.9、至少约2、至少约2.1、至少约2.2、至少约2.3、至少约2.4、至少约2.5、至少约2.6、至少约2.7、至少约2.8、至少约2.9、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、至少约5.5、至少约6、至少约6.5、至少约7.0、至少约7.5、至少约8、至少约8.5、至少约9、至少约9.5、至少约10、至少约11、至少约12、至少约13、至少约14、至少约15、至少约20、至少约30、至少约40、至少约50、至少约60、至少约 70、至少约80、至少约90、至少约100、至少约500、至少约1,000、至少约10,000或至少约100,000倍。在其它情况下，CasX变异体的一个或多个改进特征是相对于SEQ ID NO:1、 SEQ ID NO:2或SEQ ID NO:3的参考CasX改进约1.1至100,00倍、约1.1至10,00倍、约 1.1至1,000倍、约1.1至500倍、约1.1至100倍、约1.1至50倍、约1.1至20倍、约10 至100,00倍、约10至10,00倍、约10至1,000倍、约10至500倍、约10至100倍、约10 至50倍、约10至20倍、约2至70倍、约2至50倍、约2至30倍、约2至20倍、约2至 10倍、约5至50倍、约5至30倍、约5至10倍、约100至100,00倍、约100至10,00倍、约100至1,000倍、约100至500倍、约500至100,00倍、约500至10,00倍、约500至1,000倍、约500至750倍、约1,000至100,00倍、约10,000至100,00倍、约20至500倍、约20 至250倍、约20至200倍、约20至100倍、约20至50倍、约50至10,000倍、约50至1,000 倍、约50至500倍、约50至200倍或约50至100倍。在其它情况下，CasX变异体的一个或多个改进特征是相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX改进约 1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5 倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18 倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、 100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、 210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、 320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、 475倍或500倍或更多倍。相对于参考CasX蛋白中的相同特征，在CasX变异蛋白中可改进的示范性特征包括但不限于改进的变异体折叠、改进的对gNA的结合亲和力、改进的对靶 DNA的结合亲和力、改进的利用较大范围的PAM序列编辑及/或结合靶DNA的能力、改进的靶DNA解旋、增加的编辑活性、改进的编辑效率、改进的编辑特异性、增加的核酸酶活性、增加的用于双链裂解的靶链负载、减少的用于单链切割的靶链负载、减少的脱靶裂解、改进的DNA的非靶链的结合、改进的蛋白质稳定性、改进的CasX:gNA RNA复合物稳定性、改进的蛋白质溶解度、改进的CasX:gNA RNP复合物溶解度、改进的与gNA形成裂解胜任型 RNP的能力改进的蛋白质产率、改进的蛋白质表达及改进的熔融特征。在一些实施例中，变异体包含至少一种改进特征。在其它实施例中，变异体包含至少两种改进特征。在其它实施例中，变异体包含至少三种改进特征。在一些实施例中，变异体包含至少四种改进特征。在其它实施例中，变异体包含至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种或更多种改进特征。

作为一个实例，示范性的改进特征包括改进的编辑效率。在一些实施例中，包含本公开的CasX蛋白和浓度为20pM或更低的gNA的RNP能够以至少80％的效率裂解双链DNA靶标。在一些实施例中，浓度为20pM或更低的RNP能够以至少40％、至少50％、至少60％、至少70％、至少80％、至少85％、至少90％或至少95％的效率裂解双链DNA靶标。在一些实施例中，浓度为50pM或更低、40pM或更低、30pM或更低、20pM或更低、10pM或更低或5pM或更低的RNP能够以至少40％、至少50％、至少60％、至少70％、至少80％、至少85％、至少90％或至少95％的效率裂解双链DNA靶标。

此些改进特征更详细描述于下文中。

j.蛋白质稳定性

在一些实施例中，本发明提供相对于参考CasX蛋白具有经改进稳定性的CasX变异蛋白。在一些实施例中，CasX变异蛋白的经改进稳定性引起较高稳态蛋白质的表达，其提高编辑效率。在一些实施例中，CasX变异蛋白的经改进稳定性使得较大分率的CasX蛋白以功能性构形保持折叠，且提高编辑效率或改进纯化能力以用于制造目的。如本文所用，“功能性构形”是指构形为其中蛋白质能够结合gNA及目标DNA的CasX蛋白。在其中CasX变异体不携有一个或多个使其催化死亡的突变的实施例中，CasX变异体能够裂解、切割或以其它方式修饰目标DNA。举例来说，在一些实施例中，功能性CasX变异体可用于基因编辑，且功能性构形是指“编辑胜任型”构形。在一些示范性实施例，包括其中CasX变异蛋白产生较大分率的以功能性构形保持折叠的CasX蛋白的那些实施例中，相比于参考CasX蛋白，例如基因编辑的应用需要较低浓度的CasX变异体。因此，在一些实施例中，相比于参考CasX，具有经改进稳定性的CasX变异体在一种或多种基因编辑背景下具有经改进效率。

在一些实施例中，本发明提供相对于参考CasX蛋白具有经改进热稳定性的CasX变异蛋白。在一些实施例中，CasX变异蛋白在特定温度范围内具有改进的CasX变异蛋白热稳定性。不希望受任何理论束缚，一些参考CasX蛋白天然地在生态栖位处于地下水及沉积物中的生物体中起作用；因此，一些参考CasX蛋白可能已进化为在比某些应用可能需要的温度更低或更高的温度下展现最优选功能。举例来说，CasX变异蛋白的一种应用为哺乳动物细胞的基因编辑，其通常在约37℃下进行。在一些实施例中，与参考CasX蛋白相比，本文所述的CasX 变异蛋白在至少16℃、至少18℃、至少20℃、至少22℃、至少24℃、至少26℃、至少28℃、至少30℃、至少32℃、至少34℃、至少35℃、至少36℃、至少37℃、至少38℃、至少39℃、至少40℃、至少41℃、至少42℃、至少44℃、至少46℃、至少48℃、至少50℃、至少52℃或更高的温度下具有改进的热稳定性。在一些实施例中，相比于参考CasX蛋白，CasX变异蛋白具有改进的热稳定性及功能，产生改进的基因编辑功能，例如哺乳动物基因编辑应用，其可包括人类基因编辑应用。

在一些实施例中，本公开提供了相对于参考CasX蛋白:gNA复合物具有改进的CasX变异蛋白:gNA复合物稳定性的CasX变异蛋白，使得RNP保持于功能形式。稳定性改进可包括增加的热稳定性；蛋白水解降解抗性；增强的药物动力学特性；跨越一系列pH条件、盐条件及张力的稳定性。在一些实施例中，复合物改进的稳定性使得编辑效率提高。在一些实施例中，CasX变异体和gNA变异体的RNP与SEQ ID NOS:1-3的参考CasX的RNP和表1的 SEQ IDNOS:4-16中任一项的gNA的RNP相比，具有百分比高至少5％、至少10％、至少15％、或至少20％、或至少5-20％的裂解胜任型RNP。

在一些实施例中，本发明提供相对于参考CasX蛋白:gNA复合物具有改进的CasX变异蛋白:gNA复合物热稳定性的CasX变异蛋白。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改进的热稳定性。在一些实施例中，CasX变异蛋白:gNA复合物在至少16℃、至少18℃、至少20℃、至少22℃、至少24℃、至少26℃、至少28℃、至少30℃、至少32℃、至少34℃、至少35℃、至少36℃、至少37℃、至少38℃、至少39℃、至少40℃、至少41℃、至少42℃、至少44℃、至少46℃、至少48℃、至少50℃、至少52℃或更高的温度下相对于包含参考CasX蛋白的复合物具有改进的热稳定性。在一些实施例中，与参考CasX蛋白:gNA 复合物相比，CasX变异蛋白具有改进的CasX变异蛋白:gNA复合物热稳定性，其使得针对基因编辑应用，如哺乳动物基因编辑应用(其可包括人类基因编辑应用)的功能改进。

在一些实施例中，CasX变异蛋白改进的稳定性及/或热稳定性包含CasX变异蛋白相对于参考CasX蛋白更快的折叠动力学、CasX变异蛋白相对于参考CasX蛋白更慢的去折叠动力学、CasX变异蛋白相对于参考CasX蛋白在折叠时更大的自由能释放、相对于参考CasX蛋白更高的50％的CasX变异蛋白未折叠的温度(Tm)或其任何组合。此些特征可改进大范围的值；例如相比于参考CasX蛋白改进至少1.1、至少1.5、至少10、至少50、至少100、至少500、至少1,000、至少5,000或至少10,000倍。在一些实施例中，CasX变异蛋白改进的热稳定性包含CasX变异蛋白相对于参考CasX蛋白更高的Tm。在一些实施例中，CasX变异蛋白的 Tm为约20℃至约30℃、约30℃至约40℃、约40℃至约50℃、约50℃至约60℃、约60℃至约70℃、约70℃至约80℃、约80℃至约90℃或约90℃至约100℃。热稳定性係通过测量“熔融温度”(Tm)来测定，熔融温度定义为一半分子变性的温度。测量蛋白质稳定性的特征，例如Tm及去折叠自由能的方法为所属领域所属领域的一般技术人员所知，且可使用标准生物化学技术在活体外测量。举例来说，Tm可使用差示扫描热测量定来测量，差示扫描热测量定为一种热分析技术，其中测量增加样品及参考的温度所需的热量差作为温度的函数(Chen 等人(2003)Pharm Res 20:1952-60；Ghirlando等人(1999)Immunol Lett 68:47-52)。或者或另外，CasX变异蛋白Tm可使用市售方法，例如Thermo Fisher Protein Thermal Shift系统来测量。或者或另外，圆二色性可用于测量折叠及去折叠的动力学，以及Tm(Murray等人(2002)J.Chromatogr Sci40:343-9)。圆二色性(CD)依赖于左手侧及右手侧圆偏振光被例如蛋白质的不对称分子不等地吸收。蛋白质的某些结构，例如α螺旋及β折叠具有特征性CD光谱。因此，在一些实施例中，CD可用于确定CasX变异蛋白的二级结构。

在一些实施例中，CasX变异蛋白改进的稳定性及/或热稳定性包含CasX变异蛋白相对于参考CasX蛋白改进的折叠动力学。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白的折叠动力学改进至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500 倍、至少约1,000倍、至少约2,000倍、至少约3,000倍、至少约4,000倍、至少约5,000倍或至少约10,000倍改进。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白的折叠动力学改进至少约1kJ/mol、至少约5kJ/mol、至少约10kJ/mol、至少约20kJ/mol、至少约30kJ/mol、至少约40kJ/mol、至少约50kJ/mol、至少约60kJ/mol、至少约70kJ/mol、至少约80kJ/mol、至少约90kJ/mol、至少约100kJ/mol、至少约150kJ/mol、至少约200kJ/mol、至少约250kJ/mol、至少约300kJ/mol、至少约350kJ/mol、至少约400kJ/mol、至少约450kJ/mol或至少约500kJ/mol。

相对于参考CasX蛋白，可增加CasX变异蛋白的稳定性的示范性氨基酸变化可包括但不限于以下氨基酸变化：增加CasX变异蛋白内的氢键数目、增加CasX变异蛋白内的二硫桥键数目、增加CasX变异蛋白内的盐桥数目、增强CasX变异蛋白的部分之间的相互作用、增加 CasX变异蛋白的埋入疏水表面积或其任何组合。

k.蛋白质产率

在一些实施例中，本发明提供相对于参考CasX蛋白，在表达及纯化期间具有改进产率的CasX变异蛋白。在一些实施例中，相对于参考CasX蛋白，自细菌或真核宿主细胞纯化的 CasX变异蛋白的产率经改进。在一些实施例中，细菌宿主细胞为大肠杆菌细胞。在一些实施例中，真核细胞是酵母、植物(例如烟草)、昆虫(例如草地贪夜蛾(Spodopterafrugiperda)sf9细胞)、小鼠、大鼠、仓鼠、天竺鼠、猴子或人类细胞。在一些实施例中，真核宿主细胞是哺乳动物细胞，包括但不限于人胚肾293(HEK293)细胞、幼仓鼠肾(BHK)细胞、NS0细胞、SP2/0 细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、杂交瘤细胞、NIH3T3 细胞、COS、HeLa或中国仓鼠卵巢(CHO)细胞。

在一些实施例中，CasX变异蛋白的改进产率係经由密码子优化达成。细胞使用64种不同的密码子，其中的61种编码20种标准氨基酸，而另外3种充当终止密码子。在一些情况下，单一氨基酸由超过一个密码子编码。对于相同的天然存在的氨基酸，不同生物体展现朝向使用不同密码子的偏移。因此，蛋白质中密码子的选择，及将密码子选择与蛋白质将表达的生物体匹配可在一些情况下显著影响蛋白质翻译且因此影响蛋白质表达量。在一些实施例中，CasX变异蛋白由已经密码子优化的核酸编码。在一些实施例中，编码CasX变异蛋白的核酸已经密码子优化以表达于细菌细胞、酵母细胞、昆虫细胞、植物细胞或哺乳动物细胞中。在一些实施例中，哺乳动物细胞为小鼠、大鼠、仓鼠、天竺鼠、猴或人类。在一些实施例中， CasX变异蛋白由已经密码子优化以表达于人类细胞中的核酸编码。在一些实施例中，CasX 变异蛋白由已去除降低原核生物及真核生物中的翻译速率的核苷酸序列的核酸编码。举例来说，大于三个胸腺嘧啶残基成一列的运行可降低某些生物体中的翻译速率，或内部聚腺苷酸化信号可减少翻译。

在一些实施例中，如本文所述的溶解度及稳定性的改进使得CasX变异蛋白的产率相对于参考CasX蛋白改进。

可通过所属领域中已知的方法评估表达及纯化期间改进的蛋白质产率。例如，可如下地测定CasX变异蛋白的量：通过在SDS-page凝胶上运行蛋白质，且将CasX变异蛋白与事先已知其量或浓度的对照进行比较，以确定蛋白质的绝对含量。或者或另外，纯化CasX变异蛋白可在SDS-page凝胶上紧邻经历相同纯化过程的参考CasX蛋白运行，以确定CasX变异蛋白产率的相对改进。或者或另外，蛋白质含量可使用免疫组织化学方法，例如通过针对CasX 的抗体的西方墨点或ELISA，或通过HPLC来测量。对于溶液中的蛋白质，可通过测量蛋白质的内在UV吸光度，或通过使用蛋白质依赖性颜色变化的方法，例如劳立分析(Lowryassay)、史密斯铜/双金鸡纳酸分析(Smith copper/bicinchoninic assay)或布拉福染料分析(Bradford dye assay)来确定浓度。此类方法可用于计算在某些条件下通过表达获得的总蛋白质(如总可溶性蛋白质)产率。举例来说，此可与参考CasX蛋白在类似表达条件下的蛋白质产率比较。

l.蛋白质溶解度

在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改进的溶解度。在一些实施例中，相对于包含参考CasX蛋白的核糖核蛋白复合物，CasX变异蛋白具有改进的CasX:gNA 核糖核蛋白复合物变异体溶解度。

在一些实施例中，蛋白质溶解度的改进使得自蛋白质纯化技术，如自大肠杆菌(E.coli)纯化的蛋白质产率更高。在一些实施例中，CasX变异蛋白改进的溶解度可使得细胞中的活性能够更高效，因为更可溶的蛋白质不大可能在细胞中聚集。蛋白质聚集体可在某些实施例中对细胞为毒性或繁重的，且不希望受任何理论束缚，增加CasX变异蛋白的溶解度可改善此蛋白质聚集结果。另外，CasX变异蛋白改进的溶解度可允许增强的调配物，准许递送更高有效剂量的功能蛋白，例如在所需基因编辑应用中。在一些实施例中，CasX变异蛋白相对于参考 CasX蛋白改进的溶解度使得CasX变异蛋白在纯化期间的产率改进，产率大至少约5倍、至少约10倍、至少约20倍、至少约30倍、至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍、至少约100倍、至少约250倍、至少约500倍或至少约1000倍。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白改进的溶解度将CasX变异蛋白在细胞中的活性改进了至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约2.1倍、至少约2.2倍、至少约2.3倍、至少约2.4倍、至少约2.5倍、至少约2.6倍、至少约2.7倍、至少约2.8倍、至少约2.9倍、至少约3倍、至少约3.5倍、至少约4倍、至少约4.5倍、至少约5倍、至少约5.5倍、至少约6倍、至少约6.5倍、至少约7.0倍、至少约7.5倍、至少约8倍、至少约8.5倍、至少约9倍、至少约9.5倍、至少约10倍、至少约 11倍、至少约12倍、至少约13倍、至少约14倍或至少约15倍的更大活性。

测量CasX蛋白质溶解度及其于CasX变异蛋白中的改进的方法将为所属领域所属领域的一般技术人员显而易见。例如，在一些实施例中，可通过在裂解大肠杆菌的可溶级分的凝胶上读取密度计读数来测量CasX变异蛋白溶解度。替代地或另外，可通过测量可溶性蛋白质产物在整个蛋白质纯化过程中的维持情况来测量CasX变异蛋白溶解度的改进。例如，可在凝胶亲和纯化、标签裂解、阳离子交换纯化、在施胶柱上运行蛋白质的一个或多个步骤中测量可溶性蛋白质产物。在一些实施例中，在纯化过程的各步骤之后读取凝胶上的每一蛋白质带的密度测定值。在一些实施例中，当相比于参考CasX蛋白时，具有改进溶解度的CasX变异蛋白可在蛋白质纯化过程的一个或多个步骤处维持较高浓度，同时不溶性蛋白质变异体可由于缓冲液交换、过滤步骤、与纯化管柱的相互作用及其类似者而在一个或多个步骤处损失。

在一些实施例中，当相比于参考CasX蛋白时，改进CasX变异蛋白的溶解度产生就蛋白质纯化期间蛋白质的mg/L而言较高的产率。

在一些实施例中，当在编辑分析，例如本文所述的EGFP破坏分析中评估时，改进CasX 变异蛋白的溶解度使得相比于较不可溶的蛋白质，编辑事件的量能够更大。

m.对gNA的蛋白质亲和力

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白对gNA的亲和力改进，使得形成核糖核蛋白复合物。CasX变异蛋白对gNA增加的亲和力可例如针对RNP复合物生成产生更低Kd，其可在一些情况下使得核糖核蛋白复合物形成更稳定。在一些实施例中，CasX变异蛋白对gNA增加的亲和力使得核糖核蛋白复合物在递送至人类细胞时的稳定性增加。此增加的稳定性可影响复合物于个体细胞中的功能及效用，以及使得当递送至个体时改进血液中的药物动力学特性。在一些实施例中，CasX变异蛋白增加的亲和力，以及由此产生的核糖核蛋白复合物增加的稳定性允许向受试者或细胞递送较低剂量的CasX变异蛋白，同时仍具有所需活性，例如活体内或活体外基因编辑。

在一些实施例中，当CasX变异蛋白及gNA均保持于RNP复合物中时，CasX变异蛋白对gNA的较高亲和力(更紧密结合)允许编辑事件的量更大。可使用编辑分析，如本文所述的EGFP破坏测定来评估增加的编辑事件。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白针对gNA的K_d增加至少约1.1 倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20 倍、至少约25倍、至少约30倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。在一些实施例中，与SEQ ID NO:2的参考CasX蛋白相比，CasX变异体对gNA的结合亲和力增加约1.1至约 10倍。

在不希望受理论约束的情况下，在一些实施例中，螺旋形I域中的氨基酸变化可增加CasX 变异蛋白与gNA靶向序列的结合亲和力，而螺旋形II域中的变化可增加CasX变异蛋白与gNA 支架茎环的结合亲和力，且寡核苷酸结合域(OBD)中的变化增加CasX变异蛋白与gRNA三螺旋体的结合亲和力。

测量CasX蛋白对gNA的结合亲和力的方法包括使用纯化的CasX蛋白及gNA的活体外方法。如果gNA或CasX蛋白係用萤光团标记，那么可通过萤光偏振测量对参考CasX及变异蛋白的结合亲和力。或者或另外，可通过生物层干涉测量术、电泳迁移率变动分析(EMSA)或过滤结合来测量结合亲和力。定量RNA结合蛋白，例如本发明的参考CasX及变异蛋白对特定gNAs，例如参考gNA及其变异体的绝对亲和力的额外标准技术包括但不限于等温量热法(ITC)及表面等离子体子共振(SPR)，以及实例的方法。

n.对靶DNA的亲和力

在一些实施例中，相对于参考CasX蛋白对目标核酸的亲和力，CasX变异蛋白对目标核酸的结合亲和力改进。在一些实施例中，对靶核酸改进的亲和力包含对靶核酸序列改进的亲和力、对PAM序列改进的亲和力、在DNA中搜索靶核酸序列的改进能力，或其任何组合。在不希望受到理论约束的情况下，认为如CasX的CRISPR/Cas系统蛋白质可通过沿DNA分子的一维扩散发现其靶核酸序列。认为这个方法包括(1)核糖核蛋白与DNA分子结合，接着为(2)在靶核酸序列处停顿，在一些实施例中，其中的任一者可受CasX蛋白对靶核酸序列改进的亲和力影响，从而相比于参考CasX蛋白改进了CasX变异蛋白的功能。

在一些实施例中，具有改进的目标核酸亲和力的CasX变异蛋白具有增加的对DNA的总体亲和力。在一些实施例中，具有改进的靶核酸亲和力的CasX变异蛋白对特定PAM序列的亲和力具有增加的亲和力，该特定PAM序列不为由SEQ ID NO:2的参考CasX蛋白识别的典型TTC PAM，包括对选自由TTC、ATC、GTC和CTC组成的组的PAM序列的结合亲和力。在不希望受到理论约束的情况下，这些蛋白质变异体可总体上更强有力地与DNA相互作用，且由于能够结合野生型Cas X以外的额外PAM序列，因此能够更有效地搜索CasX蛋白质中的靶序列，从而能够更有效地访问和编辑目标DNA内的序列。在一些实施例中，对 DNA的较高总体亲和力亦可增加CasX蛋白质可有效地起始及完成结合及退绕步骤的频率，由此促进靶链侵入及R环形成，且最终促进目标核酸序列裂解。

不希望受理论束缚，可能的是增加非目标DNA股的退绕或呈退绕状态的非目标DNA股的捕捉效率的NTSBD中的氨基酸变化可增加CasX变异蛋白对目标DNA的亲和力。或者或另外，增加NTSBD在退绕期间稳定DNA的能力的NTSBD中的氨基酸变化可增加CasX变异蛋白对目标DNA的亲和力。或者或另外，OBD中的氨基酸变化可增加CasX变异蛋白结合至前间隔子邻近模体(PAM)的亲和力，由此增加CasX变异蛋白对目标核酸的亲和力。替代地或另外，螺旋形I和/或II、RuvC及TSL域中增加CasX变异蛋白对靶核酸股的亲和力的氨基酸变化可增加CasX变异蛋白对靶核酸的亲和力。

在一些实施例中，与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白相比，CasX 变异蛋白对靶核酸序列的结合亲和力增加。在一些实施例中，相对于参考CasX蛋白，本公开的CasX变异蛋白对靶核酸分子的结合亲和力增加至少约1.1倍、至少约1.2倍、至少约1.3 倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9 倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20倍、至少约25倍、至少约30 倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。

在一些实施例中，CasX变异蛋白对目标核酸的非靶链的结合亲和力改进。如本文所用，术语“非靶链”是指不与gNA中的靶向序列形成沃森及克里克(Watson and Crick)碱基对，且与靶链互补的DNA靶核酸序列的链。

测量CasX蛋白(如参考或变异体)对靶核酸分子的亲和力的方法可包括电泳迁移率变动分析(EMSA)、过滤结合、等温量热法(ITC)及表面等离子体子共振(SPR)、荧光偏振及生物层干涉测量法(BLI)。测量CasX蛋白对目标的亲和力的其它方法包括测量随时间推移的DNA裂解事件的活体外生物化学分析。

在一些实施例中，相比于对靶核酸不具有增加的亲和力的参考CasX蛋白，对其靶核酸具有较高亲和力的CasX变异蛋白可更快速地裂解靶核酸序列。

在一些实施例中，CasX变异蛋白是催化死亡的(dCasX)。在一些实施例中，本公开提供了包含催化死亡的CasX蛋白的RNP，其保留结合靶DNA的能力。示范性催化死亡的CasX变异蛋白包含CasX蛋白的RuvC域的活性位点中的一个或多个突变。在一些实施例中，催化死亡的CasX变异蛋白包含SEQ ID NO:1的残基672、769和/或935处的取代。在一些实施例中，催化死亡的CasX变异蛋白包含SEQ ID NO:1的参考CasX蛋白中的D672A、E769A 和/或D935A的取代。在一些实施例中，催化死亡的CasX蛋白包含SEQ ID NO:2的氨基酸 659、765和/或922处的取代。在一些实施例中，催化死亡的CasX蛋白包含SEQ ID NO:2 的参考CasX蛋白中D659A、E756A和/或D922A取代。在其它实施例中，催化死亡的CasX 变异蛋白包含参考CasX蛋白的全部或一部分RuvC域的缺失。

在一些实施例中，CasX变异蛋白对DNA的改进亲和力也改进了CasX变异蛋白的无催化活性形式的功能。在一些实施例中，CasX变异蛋白的无催化活性形式包含RuvC中的DED基序中的一个或多个突变。在一些实施例中，催化死亡的CasX变异蛋白可用于碱基编辑或表观遗传修饰。在对DNA的较高亲和力下，在一些实施例中，相对于催化活性CasX，催化死亡的CasX变异蛋白可更快地发现其靶核酸、与靶核酸保持结合的时间更长、以更稳定方式结合靶核酸或其组合，从而改进催化死亡的CasX变异蛋白的功能。

o.对目标位点改进的特异性

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白对靶DNA序列具有改进的特异性。如本文所用，“特异性”，有时称为“靶特异性”，是指CRISPR/Cas系统核糖核蛋白复合物裂解与靶DNA序列类似，但不相同的脱靶序列的程度；例如，相对于参考CasX蛋白，具有较高特异性程度的CasX变异体RNP将表现出减少的序列脱靶裂解。CRISPR/Cas系统蛋白质的特异性及潜在有害的脱靶效应的减少可为极其重要的，以便达成用于哺乳动物个体的可接受治疗指数。

在一些实施例中，CasX变异蛋白对与gNA的靶向序列互补的目标序列内的目标位点的特异性改进。

在不希望受到理论约束的情况下，螺旋形I及II域中增加CasX变异蛋白对靶DNA链的特异性的氨基酸变化可能会总体上增加CasX变异蛋白对靶DNA的特异性。在一些实施例中，增加CasX变异蛋白对靶DNA的特异性的氨基酸变化也可使得CasX变异蛋白对DNA的亲和力降低。

测试CasX蛋白(例如变异体或参考)目标特异性的方法可包括引导及环化以通过定序活体外报道裂解效应(CIRCLE-seq)，或类似方法。简言的，在CIRCLE-seq技术中，基因体DNA 经剪切且通过连接茎-环衔接子而环化，所述衔接子在茎-环区域中带切口以暴露4个核苷酸回文突出物。此后为其余线性DNA的分子内连接及降解。含有CasX裂解位点的环状DNA 分子随后经CasX线性化，且衔接子连接至暴露末端，接着进行高通量定序以产生含有关于脱靶位点的信息的配对末端读段。可用于检测脱靶事件，且因此检测CasX蛋白质特异性的额外分析包括用于检测及定量那些所选脱靶位点处形成的插入缺失(插入及缺失)的分析，例如失配检测核酸酶分析及次世代定序(NGS)。示范性失配检测分析包括核酸酶分析，其中来自用CasX及sgNA处理的细胞的基因体DNA经PCR扩增、变性及再杂交以形成杂双螺旋 DNA，其含有一个野生型股及一个具有插入缺失的股。失配经失配检测核酸酶，例如Surveyor 核酸酶或T7核酸内切酶I识别及裂解。

p.DNA的退绕

在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改进的解旋DNA的能力。在一些实施例中，CasX变异蛋白具有增强的DNA解旋特征。先前已显示良的dsDNA解旋会削弱或阻止CRISPR/Cas系统蛋白anaCas9或Cas14s裂解DNA的能力。因此，在不希望受到任何理论约束的情况下，一些CasX变异蛋白增加的DNA裂解活性可能至少部分是由于寻找和解旋靶位点的dsDNA的能力增强。

不希望受理论束缚，认为NTSB域中的氨基酸变化可产生具有增加的DNA退绕特征的 CasX变异蛋白。或者或另外，与PAM相互作用的OBD或螺旋形域区域中的氨基酸变化亦可产生具有增加的DNA退绕特征的CasX变异蛋白。

测量CasX蛋白(例如变异体或参考)退绕DNA的能力的方法包括但不限于观测萤光偏振或生物层干涉测量术中dsDNA目标增加的缔合速率的活体外分析。

q.催化活性

本文公开的CasX:gNA系统的核糖核蛋白复合物包含结合靶核酸序列并裂解靶核酸序列的参考CasX蛋白或其变异体。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改进的催化活性。不希望受理论束缚，认为在一些情况下，靶链裂解可为Cas12样分子产生 dsDNA断裂中的限制因素。在一些实施例中，CasX变异蛋白改进DNA的靶链的弯曲及此股的裂解，使得通过CasX核糖核蛋白复合物裂解的dsDNA的总效率改进。

在一些实施例中，CasX变异蛋白相比于参考CasX蛋白具有增加的核酸酶活性。具有增加的核酸酶活性的变异体可例如经由RuvC核酸酶域中的氨基酸变化来产生。在一个实施例中，CasX变异体包含具有切口酶活性的核酸酶域。在前述实施例中，CasX:gNA系统的CasX 切口酶在非靶链中PAM位点3'的10-18个核苷酸内生成单链断裂。在另一实施例中，CasX 变异体包含具有双链裂解活性的核酸酶域。在前述实施例中，CasX:gNA系统的CasX在靶链上的PAM位点的18-26个核苷酸5'和非靶链上的10-18个核苷酸3'内生成双链断裂。可通过多种方法，包括实例的那些方法分析核酸酶活性。在一个实施例中，CasX变异体的Kcleave 常量与参考野生型CasX相比大至少2倍，或至少3倍，或至少4倍，或至少5倍，或至少6 倍，或至少7倍，或至少8倍，或至少9倍，或至少10倍。

在一些实施例中，针对双链裂解，CasX变异蛋白具有增加的靶链负载。具有增加的靶链负载活性的变异体可例如经由TLS域中的氨基酸变化来产生。

不希望受理论束缚，TSL域中的氨基酸变化可产生具有改进的催化活性的CasX变异蛋白。或者或另外，RNA:DNA双螺旋的结合通道周围的氨基酸变化亦可改进CasX变异蛋白的催化活性。

在一些实施例中，CasX变异蛋白相比于参考CasX蛋白具有增加的附带裂解活性。如本文所用，“附带裂解活性”是指在识别及裂解靶核酸序列之后，核酸的额外非靶向裂解。在一些实施例中，CasX变异蛋白相比于参考CasX蛋白具有减少的附带裂解活性。

在一些实施例，例如涵盖其中靶DNA的裂解并非所需结果的应用的那些实施例中，改进CasX变异蛋白的催化活性包含改变、降低或消除CasX变异蛋白的催化活性。在一些实施例中，包含CasX变异蛋白的核糖核蛋白复合物结合至靶DNA且不裂解靶DNA。

在一些实施例中，包含CasX变异蛋白的CasX核糖核蛋白复合物结合目标DNA，但在目标DNA中产生单链切口。在一些实施例，尤其是其中CasX蛋白为切口酶的那些实施例中，CasX变异蛋白具有减少的针对单链切口的靶链负载。具有减少的靶链负载的变异体可例如经由TSL域中的氨基酸变化来产生。

用于表征CasX蛋白的催化活性的示范性方法可包括但不限于活体外i裂解分析。在一些实施例中，DNA产物于琼脂糖凝胶上的电泳可查询股裂解的动力学。

r.对靶DNA和RNA的亲和力

在一些实施例中，包含参考CasX蛋白或其变异体的核糖核蛋白复合物结合至靶DNA并裂解靶DNA。在一些实施例中，当与参考CasX蛋白相比时，参考CasX蛋白的变异体增加CasX变异蛋白对靶RNA的特异性，且增加CasX变异蛋白相对于靶RNA的活性。举例来说，当相比于参考CasX蛋白时，CasX变异蛋白可显示增加的对目标RNA的结合亲和力，或增加的目标RNA裂解。在一些实施例中，包含CasX变异蛋白的核糖核蛋白复合物结合至目标 RNA及/或裂解目标RNA。在一个实施例中，与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO: 3的参考蛋白相比，CasX变异体对靶核酸序列的结合亲和力增加至少约二倍至约10倍。

s.突变组合

在一些实施例中，本公开提供了变异体，其是来自不同CasX变异蛋白的突变的组合。在一些实施例中，本文描述的任何域的任何变异体可以与本文描述的其它变异体组合。在一些实施例中，本文描述的任何域内的任何变异体可以与本文描述的其它变异体在同一域中组合。在一些实施例中，不同氨基酸变化的组合可以产生新的优化变异体，其功能通过氨基酸变化的组合得到进一步改善。在一些实施例中，组合氨基酸变化对CasX蛋白功能的影响是线性的。如本文所用，线性组合是指当单独测定时其对功能的影响等于每个单独氨基酸变化的影响的总和的组合。在一些实施例中，组合氨基酸变化对CasX蛋白功能的影响是协同的。如本文所用，具有协同作用的变异体组合是指当单独测定时其对功能的影响大于每个单独氨基酸变化的影响的总和的组合。在一些实施例中，组合氨基酸变化产生CasX变异蛋白，其中CasX蛋白的一种以上功能相对于参考CasX蛋白得到改善。

t.CasX融合蛋白

在一些实施例中，本发明提供包含与CasX融合的异源蛋白的CasX蛋白。在一些情况下， CasX为参考CasX蛋白。在其它情况下，CasX为本文所述的任一实施例的CasX变异体。

在一些实施例中，CasX变异蛋白与一种或多种具有不同目的活性的蛋白质或其域融合 (即，是融合蛋白的一部分)。例如，在一些实施例中，CasX变异蛋白与抑制转录、修饰靶核酸序列或修饰与核酸相关的多肽(例如，组蛋白修饰)的蛋白质(或其域)融合。

在一些实施例中，异源多肽(或异源氨基酸，如半胱氨酸残基或非天然氨基酸)可插入CasX 蛋白内的一个或多个位置以生成CasX融合蛋白。在其它实施例中，半胱氨酸残基可插入CasX 蛋白内的一个或多个位置，接着缀合下文所述的异源多肽。在一些替代实施例中，异源多肽或异源氨基酸可在参考或CasX变异蛋白的N端或C端处添加。在其它实施例中，异源多肽或异源氨基酸可插入CasX蛋白质的序列内部。

在一些实施例中，参考CasX或变异融合蛋白保留RNA引导序列特异性目标核酸结合及裂解活性。在一些情况下，参考CasX或变异融合蛋白具有(保留)不具有异源蛋白插入的对应参考CasX或变异蛋白的活性(例如裂解及/或结合活性)的50％或更大。在一些情况下，参考 CasX或变异融合蛋白保留不具有异源蛋白插入的对应CasX蛋白的至少约60％、或至少约70％、至少约80％、或至少约90％、或至少约92％、或至少约95％、或至少约98％、或至少约100％的活性(例如，裂解和/或结合活性)。

在一些情况下，相对于不具有插入的异源氨基酸或异源多肽的CasX蛋白的活性，参考 CasX或变异融合蛋白保留(具有)靶核酸结合活性。例如，在一些情况下，参考CasX或变异融合蛋白具有(保留)对应CasX蛋白(不具有插入的CasX蛋白)的50％或更大的结合活性。例如，在一些情况下，参考CasX或变异融合蛋白具有(保留)对应亲本CasX蛋白(不具有插入的CasX 蛋白)的60％或更大(70％或更大、80％或更大、90％或更大、92％或更大、95％或更大、98％或更大、或100％)的结合活性。

在一些情况下，相对于不具有插入的异源氨基酸或异源多肽的亲本CasX蛋白的活性，参考CasX或变异融合蛋白保留(具有)靶核酸结合活性和/或裂解活性。例如，在一些情况下，参考CasX或变异融合蛋白具有(保留)对应亲本CasX蛋白(不具有插入的CasX蛋白)的50％或更大的结合和/或裂解活性。例如，在一些情况下，参考CasX或变异融合蛋白具有(保留)对应CasX亲本多肽(不具有插入的CasX蛋白)的60％或更大(70％或更大、80％或更大、90％或更大、92％或更大、95％或更大、98％或更大、或100％)的结合和/或裂解活性。测量CasX蛋白和/ 或CasX融合多肽的裂解和/或结合活性的方法是本领域普通技术人员已知的并且可以使用任何方便的方法。

多种异源多肽适合包括于本发明的参考CasX或CasX变异融合蛋白中。在一些情况下，融合搭配物可调节目标DNA的转录(例如抑制转录、增加转录)。举例来说，在一些情况下，融合搭配物为抑制转录的蛋白质(或来自蛋白质的域)(例如转录抑制因子，一种经由募集转录抑制剂蛋白、修饰目标DNA(例如甲基化)、募集DNA修饰剂、调节与目标DNA相关的组蛋白、募集组蛋白修饰剂(例如修饰组蛋白的乙酰化及/或甲基化的那些)及其类似者起作用的蛋白质)。在一些情况下，融合搭配物为增加转录的蛋白质(或来自蛋白质的域)(例如转录活化因子，一种经由募集转录活化因子蛋白、修饰目标DNA (例如去甲基化)、募集DNA修饰剂、调节与目标DNA相关的组蛋白、募集组蛋白修饰剂(例如修饰组蛋白的乙酰化及/或甲基化的那些)及其类似者起作用的蛋白质)。

在一些情况下，融合搭配物具有修饰靶核酸序列的酶活性(例如，核酸酶活性、甲基转移酶活性、去甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、岐化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解螺旋酶活性、光裂合酶活性或糖基化酶活性)。

在一些情况下，融合搭配物具有修饰与靶核酸相关的多肽(例如，组蛋白)的酶活性(例如，甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素蛋白连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性)。

可用作融合搭配物以增加转录的蛋白质(或其片段)的实例包括但不限于：转录活化子，如VP16、VP64、VP48、VP160、p65子域(例如，来自NFkB)和EDLL的激活域和/或TAL 激活域(例如，用于植物中的活性)；组蛋白氨酸赖氨酸甲基转移酶，如含有SET域的1A，组蛋白氨酸赖氨酸甲基转移酶(SET1A)、含有SET域的1B，组蛋白氨酸赖氨酸甲基转移酶 (SET1B)、氨酸赖氨酸甲基转移酶2A(MLL1至5、ASCL1(ASH1)无刚毛鳞甲(achaete-scute) 家族bHLH转录因子1(ASH1)、含有SET和MYND域2(SYMD2)、核受体结合SET域蛋白 1(NSD1)及其类似物；组蛋白氨酸赖氨酸去甲基酶，如氨酸赖氨酸去甲基酶3A(JHDM2a)/氨酸赖氨酸特异性去甲基酶3B(JHDM2b)、氨酸赖氨酸去甲基酶6A(UTX)、氨酸赖氨酸去甲基酶6B(JMJD3)及其类似物；组蛋白乙酰基转移酶，如氨酸赖氨酸乙酰转移酶2A(GCN5)、氨酸赖氨酸乙酰转移酶2B(PCAF)、CREB结合蛋白(CBP)、E1A结合蛋白p300(p300)、TATA- 盒结合蛋白相关因子1(TAF1)、氨酸赖氨酸乙酰转移酶5(TIP60/PLIP)、氨酸赖氨酸乙酰转移酶6A(MOZ/MYST3)、氨酸赖氨酸乙酰转移酶6B(MORF/MYST4)、SRC原癌基因、非受体酪氨酸激酶(SRC1)、核受体共活化剂3(ACTR)、MYB结合蛋白1a(P160)、时钟昼夜节律调节因子(CLOCK)及其类似物；及DNA去甲基酶，如十-十一易位(TET)双加氧酶1(TET1CD)、 tet甲基胞嘧啶双加氧酶1(TET1)、demeter(DME)、demeter类似物1(DML1)、demeter类似物2(DML2)、蛋白质ROS1(ROS1)及其类似物。

可用作融合搭配物以减少转录的蛋白质(或其片段)的实例包括但不限于：转录抑制子，如Kruppel相关盒(KRAB或SKD)；KOX1抑制域；Mad mSIN3相互作用域(SID)；ERF抑制子域(ERD)、SRDX抑制域(例如，用于植物中的抑制)及其类似物；组蛋白氨酸赖氨酸甲基转移酶，如含PR/SET域的蛋白质(Pr-SET7/8)、氨酸赖氨酸甲基转移酶5B(SUV4-20H1)、PR/SET域2(RIZ1)及其类似物；组蛋白氨酸赖氨酸去甲基酶，如氨酸赖氨酸去甲基酶4A (JMJD2A/JHDM3A)、氨酸赖氨酸去甲基酶4B(JMJD2B)、氨酸赖氨酸去甲基酶4C (JMJD2C/GASC1)、氨酸赖氨酸去甲基酶4D(JMJD2D)、氨酸赖氨酸去甲基酶5A (JARID1A/RBP2)、氨酸赖氨酸去甲基酶5B(JARID1B/PLU-1)、氨酸赖氨酸去甲基酶5C (JARID 1C/SMCX)、氨酸赖氨酸去甲基酶5D(JARID1D/SMCY)及其类似物；组蛋白氨酸赖氨酸脱乙酰基酶，如组蛋白脱乙酰基酶1(HDAC1)、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、 HDAC7、HDAC9、长寿蛋白1(SIRT1)、SIRT2、HDAC11及其类似物；DNA甲基化酶，如 HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a (DNMT3a)、DNA甲基转移酶3b(DNMT3b)、甲基转移酶1(MET1)、S-腺苷-L-甲硫氨酸依赖性甲基转移酶超家族蛋白(DRM3)(植物)、DNA胞嘧啶甲基转移酶MET2a(ZMET2)、染色质甲基化酶1(CMT1)、染色质甲基化酶2(CMT2)(植物)及其类似物；及边缘募集元件，如核纤层蛋白A、核纤层蛋白B及其类似物。

在一些情况下，融合搭配物具有修饰目标核酸序列(例如，ssRNA、dsRNA、ssDNA、dsDNA) 的酶活性。可由融合搭配物提供的酶活性的实例包括但不限于：核酸酶活性，如由限制酶(例如，FokI核酸酶)提供；甲基转移酶活性，如由甲基转移酶(例如，Hhal DNA m5c-甲基转移酶 (M.Hhal)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶 3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)及其类似物)提供；去甲基酶活性，如由去甲基酶(例如，十-十一易位(TET)双加氧酶1(TET 1CD)、TET1、DME、 DML1、DML2、ROS1及其类似物)提供；DNA修复活性；DNA损伤活性；脱氨基活性，如由脱胺酶(例如，胞嘧啶脱胺酶，例如APOBEC蛋白，如大鼠APOBECl)提供；岐化酶活性；烷基化活性；脱嘌呤活性；氧化活性；嘧啶二聚体形成活性；集成酶活性，如由整合酶和/或解离酶(例如，Gin转化酶，如Gin转化酶的高度活化突变体GinH106Y；人类免疫缺陷病毒1 型整合酶(IN)；Tn3解离酶；及其类似物)提供；转座酶活性；重组酶活性，如由重组酶(例如， Gin重组酶的催化域)提供；聚合酶活性；连接酶活性；解螺旋酶活性；光裂合酶活性及糖基化酶活性)。

在一些情况下，本公开的参考CasX或Cas X变异蛋白与选自以下的多肽融合：增加转录的域(例如，VP16域、VP64域)、减少转录的域(例如，KRAB域，例如来自Kox1蛋白)、组蛋白乙酰转移酶(例如，组蛋白乙酰转移酶p300)的核催化域、提供可检测信号的蛋白质/域(例如，荧光蛋白，如GFP)、核酸酶域(例如，Fokl核酸酶)及碱基编辑剂(例如，胞苷脱氨酶，如APOBEC1)。

在一些情况下，融合搭配物具有修饰与靶核酸序列(例如，ssRNA、dsRNA、ssDNA、dsDNA) 相关的蛋白质(例如，组蛋白、RNA结合蛋白、DNA结合蛋白及其类似物)的酶活性。可由由融合搭配物提供的酶活性(修饰与靶核酸相关的蛋白质)的实例包括但不限于：甲基转移酶活性，如由组蛋白甲基转移酶(HMT)(例如，杂色抑制子3-9同源物1(SUV39H1，亦称为KMT1A)、常染色质组蛋白赖氨酸甲基转移酶2(G9A，亦称为KMT1C和EHMT2)、SUV39H2、 ESET/SETDB 1及其类似物、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L, Pr-SET7/8,SUV4-20H1,EZH2,RIZ1提供；去甲基酶活性，如由组蛋白去甲基酶(例如，氨酸赖氨酸去甲基酶1A(KDM1A，亦称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、 JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、 JARID1D/SMCY、UTX、JMJD3及其类似物)提供；乙酰转移酶活性，如由组蛋白乙酰酶转移酶(例如，人类乙酰转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、 MORF/MYST4、HB01/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK及其类似物的催化核/片段)提供；脱乙酰基酶活性，如由组蛋白脱乙酰基酶(例如，HDAC1、HDAC2、 HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11及其类似物)提供；激酶活性；磷酸酶活性；泛素蛋白连接酶活性；去泛素化活性；腺苷酸化活性；去腺苷酸化活性；SUMO化活性；去SUMO化活性；核糖基化活性；去核糖基化活性；豆蔻酰化活性；及去豆蔻酰化活性。

合适的融合搭配物的其它实例为(i)二氢叶酸还原酶(DHFR)不稳定域以生成化学可控的主题RNA引导多肽或条件活性RNA引导多肽，以及(ii)叶绿体转运肽。

合适的叶绿体转运肽包括但不限于：

MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:144)；

MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:145)；

MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:146)；

MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:147)；

MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:148)；

MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:149)；

MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:150)；

MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:151)；

MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:152)；

MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVIS RSAAAA(SEQ ID NO:153)；以及

MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:154)。

在一些情况下，本公开的参考CasX或变异蛋白可包括内体逃逸肽。在一些情况下，内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:155)，其中X各自独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下，内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:156)或HHHHHHHHH(SEQ ID NO:157)。

当靶向ssRNA靶核酸序列时使用的融合搭配物的非限制性实例包括(但不限于)：剪接因子(例如，RS域)；蛋白质翻译组分(例如，翻译起始、伸长和/或释放因子；例如eIF4G)；RNA 甲基化酶；RNA编辑酶(例如，RNA脱氨基酶，例如作用于RNA的腺苷脱胺酶(ADAR)，包括A至I和/或C至U编辑酶)；解螺旋酶；RNA结合蛋白；及其类似物。应理解，异源多肽可包括整个蛋白质，或在一些情况下可包括蛋白质片段(例如功能域)。

融合搭配物可为能够与ssRNA相互作用的任何域(出于本公开的目的，其包括分子内和/ 或分子间二级结构，例如双链RNA双螺旋体，如发夹、茎环等)，无论是瞬时的还是不可逆的、直接的或间接的，包括但不限于选自由以下组成的组的效应域：核酸内切酶(例如来自 SMG5和SMG6等蛋白质的RNase III、CRR22 DYW域、Dicer和PIN(PilT N-末端)域)；负责刺激RNA裂解的蛋白及蛋白域(例如CPSF、CstF、CFIm和CFIIm)；核酸外切酶(例如XRN-1或核酸外切酶T)；脱腺苷化酶(例如HNT3)；负责无义介导的RNA衰减的蛋白及蛋白域(例如UPF1、UPF2、UPF3、UPF3b、RNP SI、Y14、DEK、REF2和SRm160)；负责稳定RNA的蛋白及蛋白域(例如PABP)；负责抑制翻译的蛋白及蛋白域(例如Ago2和Ago4)；负责刺激翻译的蛋白及蛋白域(例如Staufen)；负责(例如，能够)调节翻译的蛋白及蛋白域(例如，翻译因子，如起始因子、伸长因子、释放因子等，例如，eIF4G)；负责RNA的聚腺苷酸化的蛋白及蛋白域(例如PAP1、GLD-2和Star-PAP)；负责RNA的聚尿苷化的蛋白及蛋白域(例如CI Dl 和末端尿苷酸转移酶)；负责RNA定位的蛋白及蛋白域(例如来自IMP1、ZBP1、She2p、She3p 和Bicaudal-D)；负责RNA的核保留的蛋白及蛋白域(例如Rrp6)；负责RNA的核输出的蛋白及蛋白域(例如TAP、NXF1、THO、TREX、REF和Aly)；负责抑制RNA剪接的蛋白及蛋白域(例如PTB、Sam68和hnRNP Al)；负责刺激RNA剪接的蛋白及蛋白域(例如富含丝氨酸/ 精氨酸(SR)的域)；负责降低转录效率的蛋白及蛋白域(例如FUS(TLS))；及负责刺激转录的蛋白及蛋白域(例如CDK7和HIV Tat)。替代地，效应子域可选自包含以下的组：核酸内切酶；能够刺激RNA裂解的蛋白及蛋白域；核酸外切酶；脱腺苷化酶；具有无义介导的RNA衰减活性的蛋白及蛋白域；能够稳定RNA的蛋白及蛋白域；能够抑制翻译的蛋白及蛋白域；能够刺激翻译的蛋白及蛋白域；能够调节翻译的蛋白及蛋白域(例如翻译因子，例如起始因子、伸长因子、释放因子等，例如eIF4G)；能够对RNA进行聚腺苷酸化的蛋白及蛋白域；能够对 RNA进行聚尿苷化的蛋白及蛋白域；具有RNA定位活性的蛋白及蛋白域；能够对RNA进行核保留的蛋白及蛋白域；具有RNA核导出活性的蛋白及蛋白域；能够抑制RNA剪接的蛋白及蛋白域；能够刺激RNA剪接的蛋白及蛋白域；能够降低转录效率的蛋白及蛋白域；及能够刺激转录的蛋白及蛋白域。另一适合的异源多肽为PUF RNA结合域，其更详细地描述于以全文引用的方式并入本文中的WO2012068627中。

可用作(以整体或其片段形式)融合搭配物的RNA剪接因子具有模块化组织，其具有独立的序列特异性RNA结合模块及剪接效应子域。例如，富含丝氨酸/精氨酸(SR)的蛋白家族的成员含有结合至前mRNA中的外显子剪接强化子(ESE)的N-末端RNA识别基序(RRM)及促进外显子涵盖的C-末端RS域。作为另一实例，hnRNP蛋白hnRNP Al经由其RRM域结合至外显子剪接沉默子(ESS)，且经由C-末端富含甘氨酸的域抑制外显子包含。一些剪接因子可通过结合至两个替代位点之间的调节序列而调节剪接位点的替代使用。例如，ASF/SF2可识别ESE 且促进使用内含子近侧位点，而hnRNP AI可结合至ESS且使剪接转向使用内含子远侧位点。此类因子的一种应用为产生调节内源基因，尤其是疾病相关基因的替代性剪接的ESF。例如， Bcl-x前mRNA产生两种剪接异构体，具有两个可选的5'剪接位点，以编码功能相反的蛋白质。长剪接同功异型物Bcl-xL为强力细胞凋亡抑制剂，其表达于长寿命的有丝分裂后细胞中且在许多癌细胞中上调，保护细胞免受凋亡信号影响。短同功异型物Bcl-xS为促细胞凋亡同功异型物，且在具有高周转率(例如产生淋巴细胞)的细胞中以高表达量表达。通过位于核外显子区域或外显子延伸区域(即，在两个替代5'剪接位点之间)中的多个cc-元件调节两种Bcl-x 剪接的比。关于更多实例，参见WO2010075303，其以全文引用的方式并入本文中。

其它适合的融合搭配物包括但不限于作为边界元件的蛋白质(或其片段)(例如，CTCF)、提供边缘募集的蛋白质及其片段(例如，核纤层蛋白A、核纤层蛋白B等)及蛋白质对接元件(例如，FKBP/FRB、Pill/Abyl等)。

在一些情况下，异源多肽(融合搭配物)提供亚细胞定位，即异源多肽含有亚细胞定位序列(例如，用于靶向至细胞核的核定位信号(NLS)；保持融合蛋白在细胞核的外的序列，例如核输出序列(NES)；保持融合蛋白滞留于细胞质中的序列；用于靶向至线粒体的线粒体定位信号；用于靶向至叶绿体的叶绿体定位信号；ER滞留信号；等)。在一些实施例中，主题RNA 引导多肽或条件活性RNA引导多肽和/或主题CasX融合蛋白不包括NLS，以使得蛋白质不靶向至细胞核(这可能是有利的；例如当靶核酸序列是存在于细胞溶质中的RNA时)。在一些实施例中，融合搭配物可提供标签(即，异源多肽为可检测标记)以易于跟踪及/或纯化(例如萤光蛋白，例如绿色萤光蛋白(GFP)、黄色萤光蛋白(YFP)、红色萤光蛋白(RFP)、强化型蓝萤光蛋白(CFP)、mCherry、tdTomato及其类似物；组氨酸标签，例如6×His标签；血凝素(HA)标签；FLAG标签；Myc标签；及其类似物)。

在一些情况下，参考或CasX变异多肽包括(融合至)核定位信号(NLS)(例如，在一些情况下，2个或更多、3个或更多、4个或更多、5个或更多、6个或更多、7个或更多、8个或更多NLS)。因此，在一些情况下，参考或CasX变异多肽包括一个或多个NLS(例如，2个或更多、3个或更多、4个或更多、或5个或更多NLS)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个、或5个或更多个NLS)位于N端及/或C端处或附近 (例如在其50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、 4个或更多个、或5个或更多个NLS)位于N端处或附近(例如在其50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个、或5个或更多个NLS) 位于C端处或附近(例如在其50个氨基酸内)。在一些情况下，一个或多个NLS(3个或更多个、4个或更多个、或5个或更多个NLS)位于N端及C端处或附近(例如在其50个氨基酸内)。在一些情况下，一个NLS位于N端且一个NLS位于C端。在一些情况下，参考或CasX变异多肽包括(融合至)1至10个NLS(例如，1至9、1至8、1至7、1至6、1至5、2至10、2 至9、2至8、2至7、2至6或2至5个NLS)。在一些情况下，参考或CasX变异多肽包括(融合至)2至5个NLS(例如，2至4或2至3个NLS)。

NLS的非限制性实例包括衍生自以下的序列：SV40病毒大T-抗原的NLS，具有氨基酸序列PKKKRKV(SEQ ID NO:158)；来自核质蛋白的NLS(例如，具有序列 KRPAATKKAGQAKKKK(SEQ ID NO:159)的核质蛋白二分NLS；具有氨基酸序列 PAAKRVKLD(SEQ ID NO:160)或RQRRNELKRSP(SEQ ID NO:161)的c-myc NLS；hRNPAl M9 NLS，其具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:162)；来自输入蛋白-α的IBB域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRK AKKDEQILKRRNV(SEQ ID NO:163)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:164)及 PPKKARED(SEQ ID NO:165)；人类p53的序列PQPKKKPL(SEQID NO:166)；小鼠c-abl IV 的序列SALIKKKKKMAP(SEQ ID NO:167)；流感病毒NS1的序列DRLRR(SEQ ID NO:168) 及PKQKKRK(SEQ ID NO:169)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:170)；小鼠Mxl蛋白的序列REKKKFLKRR(SEQ ID NO:171)；人类聚(ADP-核糖)聚合酶的序列 KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:172)；类固醇激素受体(人类)糖皮质激素的序列 RKCLQAGMNLEARKTKK(SEQ ID NO:173)；博纳病(Borna disease)病毒P蛋白(BDV-P1)的序列PRPRKIPR(SEQ ID NO:174)；C型肝炎病毒非结构蛋白(HCV-NS5A)的序列PPRKKRTVV(SEQ ID NO:175)；LEF1的序列NLSKKKKRKREK(SEQ ID NO:176)；ORF57 simirae的序列RRPSRPFRKP(SEQ ID NO:177)；EBV LANA的序列KRPRSPSS(SEQ ID NO: 178)；A型流感蛋白的序列KRGINDRNFWRGENERKTR(SEQ ID NO:179)；人类RNA解螺旋酶A (RHA)的序列PRPPKMARYDN(SEQ ID NO:180)；核仁RNA解螺旋酶II的序列 KRSFSKAF(SEQ ID NO:181)；TUS-蛋白的序列KLKIKRPVK(SEQ ID NO:182)；与输入蛋白-α相关的序列PKKKRKVPPPPAAKRVKLD(SEQ ID NO:183)；来自HTLV-1中的Rex蛋白的序列PKTRRRPRRSQRKRPPT(SEQ ID NO:184)；来自秀丽隐杆线虫(Caenorhabditis elegans)的EGL-13蛋白的序列MSRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:185)；及序列KTRRRPRRSQRKRPPT(SEQ ID NO:186)、RRKKRRPRRKKRR(SEQ ID NO:187)、 PKKKSRKPKKKSRK(SEQ ID NO:188)、HKKKHPDASVNFSEFSK(SEQ ID NO:189)、 QRPGPYDRPQRPGPYDRP(SEQ IDNO:190)、LSPSLSPLLSPSLSPL(SEQ ID NO:191)、 RGKGGKGLGKGGAKRHRK(SEQ ID NO:192)、PKRGRGRPKRGRGR(SEQ ID NO:193)、 PKKKRKVPPPPAAKRVKLD(SEQ ID NO:183)及PKKKRKVPPPPKKKRKV(SEQ ID NO: 194)。一般来说，NLS(或多个NLS)具有足以在真核细胞的细胞核中驱动参考或CasX变异融合蛋白的积聚的强度。可通过任何适合的技术进行细胞核中的积聚的检测。举例来说，可检测标志物可与参考或CasX变异融合蛋白融合，使得可观测到细胞内的位置。细胞核亦可自细胞分离，可接着通过任何适合于检测蛋白质的方法，例如免疫组织化学、西方墨点或酶活性分析来分析其内容。亦可确定细胞核中的积聚。

在一些情况下，参考或CasX变异融合蛋白包括“蛋白质转导域”或PTD(亦称为CPP-细胞穿透肽)，其是指促进穿越脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的蛋白质、聚核苷酸、碳水化合物或有机或无机化合物。连接至另一分子(其可在小极性分子至大型大分子及 /或纳米粒子范围内)的PTD促进分子穿越膜，例如自细胞外空间进入细胞内空间，或自胞溶质进入细胞器内。在一些实施例中，PTD共价连接至参考或CasX变异融合蛋白的氨基末端。在一些实施例中，PTD共价连接至参考或CasX变异融合蛋白的羧基末端。在一些情况下，PTD在适合的插入位点处插入参考或CasX变异融合蛋白的序列内部。在一些情况下，参考或CasX变异融合蛋白包括(结合至、融合至)一个或多个PTD(例如两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下，PTD包括一个或多个核定位信号(NLS)。PTD的实例包括但不限于包含YGRKKRRQRRR(SEQ ID NO:195)、RKKRRQRR(SEQ ID NO:196)、 YARAAARQARA(SEQ ID NO:197)、THRLPRRRRRR(SEQ ID NO:198)及GGRRARRRRRR (SEQ ID NO:199)的HIVTAT的肽转导域；包含足以直接进入细胞的多个精氨酸(例如，3、4、 5、6、7、8、9、10或10至50个精氨酸(SEQ ID NO:200))的聚精氨酸序列；VP22域(Zender 等人(2002)《肿瘤基因治疗(Cancer Gene Ther.)》9(6):489-96)；果蝇触角足蛋白转导域(Noguchi 等人(2003)《糖尿病(Diabetes)》52(7):1732-1737)；截短人类降钙素肽(Trehin等人(2004)《药学研究(Pharm.Research)》21:1248-1256)；聚氨酸赖氨酸(Wender等人(2000)《美国国立科学院院报(Proc.Natl.Acad.Sci.USA)97:13003-13008)；RRQRRTSKLMKR(SEQ ID NO:201)；运输蛋白GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:202)； KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:203)；及 RQIKIWFQNRRMKWKK(SEQ ID NO:204)。在一些实施例中，PTD为可活化CPP(ACPP) (Aguilera等人(2009)Integr Biol(Camb)6月；1(5-6):371-381)。ACPP包含经由可裂解连接子连接至匹配的聚阴离子(例如Glu9或“E9”)的聚阳离子CPP(例如Arg9或“R9”)，其将净电荷降至接近零且因此抑制黏附及吸收至细胞中。在连接子裂解之后，聚阴离子释放，局部揭露聚精氨酸及其固有黏附性，因此“活化”ACPP以穿过膜。

在一些实施例中，参考或CasX变异融合蛋白可包括经由连接子多肽(例如一个或多个连接子多肽)连接至内部插入的异源氨基酸或异源多肽(异源氨基酸序列)的CasX蛋白。在一些实施例中，参考或CasX变异融合蛋白可经由连接子多肽(例如一个或多个连接子多肽)在C末端及/或N末端连接至异源多肽(融合搭配物)。连接子多肽可具有多个氨基酸序列中的任一者。蛋白质可通过一般具有可挠性性质之间隔子肽连接，但不排除其它化学键。适合的连接子包括长度为4个氨基酸至40个氨基酸，或长度为4个氨基酸至25个氨基酸的多肽。此些连接子一般通过使用合成、编码连接子的寡核苷酸偶联蛋白质而产生。可使用具有一定程度的可挠性的肽连接子。连接肽可具有几乎任何氨基酸序列，应记住，优选连接子将具有产生总体可挠性肽的序列。使用小氨基酸，例如甘氨酸及丙氨酸在产生可挠性肽中有用。产生此类序列对于熟习所属领域者为常规的。多种不同连接子为市售的且被视为适合使用。实例连接子多肽包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如，(GS)n、GSGGSn(SEQ ID NO: 205)、GGSGGSn(SEQ ID NO:206)及GGGSn(SEQ ID NO:207)，其中n为至少1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物、甘氨酸-脯氨酸聚合物、脯氨酸聚合物及脯氨酸- 丙氨酸聚合物。实例连接子可包含氨基酸序列，其包括但不限于GGSG(SEQ ID NO:208)、 GGSGG(SEQ ID NO:209)、GSGSG(SEQ ID NO:210)、GSGGG(SEQ ID NO:211)、GGGSG (SEQ ID NO:212)、GSSSG(SEQ ID NO:213)、GPGP(SEQ ID NO:214)、GGP、PPP、PPAPPA (SEQ ID NO:215)、PPPGPPP(SEQ ID NO:216)等。所属领域所属领域的一般技术人员应认识到，结合至上文所述的任何元件的肽的设计可包括完全或部分可挠性的连接子，以使得连接子可包括可挠性连接子以及一个或多个赋予较不可挠结构的部分。

V.用于修饰编码参与抗原加工、呈递、识别和/或反应的蛋白质的核酸及其调节区域的 CasX:gNA系统和方法

本文提供的CasX蛋白、引导核酸及其变异体可用于各种应用，包括作为治疗学、诊断学和用于研究。为了实现本公开的基因编辑方法，本文提供了可编程的CasX:gNA系统。本文提供的CasX:gNA系统的可编程特性允许在编码感兴趣的蛋白质的基因的靶核酸序列中的一个或多个预先确定的感兴趣的区域进行精确定位，以达到预期的效果(切割、裂解、修复等)。在一些实施例中，本文提供的CasX:gNA系统包含表4、7、8、9或11的CasX变异体或与表4的序列具有至少50％、至少60％、至少70％、至少80％、或至少90％、或至少95％、或至少99％序列同一性的变异体，和gNA(例如，包含表2的支架变异体或与表2的序列具有至少50％、至少60％、至少70％、至少80％、或至少90％、或至少95％、或至少99％序列同一性的变异体的 gNA)或一种或多种编码CasX变异蛋白和gNA的多核苷酸，其中gNA的靶向序列与编码靶蛋白、其调节元件或两者或与其互补的序列的靶核酸序列互补并因此能够与该靶核酸序列杂交。在其它情况下，CasX:gNA系统可以包含参考CasX或参考gNA。在一些情况下，CasX:gNA 系统进一步包含供体模板核酸。

可以采用多种策略和方法来修饰编码细胞表面标记蛋白、跨膜蛋白或细胞内或细胞外蛋白的靶核酸序列和/或使用本文提供的CasX:gNA系统将参与抗原加工、抗原呈递、抗原识别、和/或抗原反应的蛋白质引入细胞。如本文所用，“修饰”包括但不限于裂解、切割、编辑、删除、敲入、敲出、修复/校正等。术语“敲除”是指基因的消除或基因的表达。例如，可以通过删除或添加导致阅读框破坏的核苷酸序列来敲除基因。作为另一实例，可以通过用不相关的序列或一个或多个取代的碱基替换基因的一部分来敲除基因。如本文所用，术语“敲低”是指基因或其基因产物的表达减少。作为基因敲低的结果，蛋白质活性或功能可能会减弱，或者蛋白质水平可能会降低或消除。在这样的实施例中，可以使用具有对编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因的一部分或其调节元件或序列的互补序列特异的靶向序列的gNA。根据所使用的CasX蛋白和gNA，该事件可能是一个裂解事件，允许敲低/敲除表达。在一些实施例中，蛋白质的基因表达可以通过引入随机插入或缺失(indels) 来破坏或消除，例如通过利用不精确的非同源DNA端连接(NHEJ)修复途径。在这样的实施例中，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的靶向区域包括基因的编码序列(外显子)，其中插入或缺失核苷酸可生成移码突变。这种方法也可用于其它非编码区域，如内含子或调节元件，以干扰靶基因的表达。

在一些实施例中，本公开的方法提供了在双链DNA (dsDNA)靶核酸内生成位点特异性双链断裂(DSB)或单链断裂(SSB)的CasX蛋白和一种或多种gNA(例如，当CasX蛋白是可以仅裂解靶核酸的一条链的切口酶时)，然后可以通过非同源末端连接(NHEJ)、同源定向修复 (HDR)、同源独立靶向整合(HITI)、微同源介导的末端连接(MMEJ)、单链退火(SSA)或碱基切除修复(BER)进行修复，从而导致靶核酸序列的修饰。在一些实施例中，可能需要利用一个或一对(或3或4个)gNA，每个具有对参与抗原加工、抗原呈递、抗原识别和/或抗原反应等位基因的蛋白质的不同区域特异的靶向序列，然后引入包含将插入断裂位点的多核苷酸序列的供体模板。

在一个实施例中，本公开提供了一种修饰细胞群中基因的靶核酸序列的方法，其中该基因编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质，包括向细胞群的每个细胞中引入：a)本文所述的任一实施例的CasX:gNA系统；b)编码本文所述的任一实施例的 CasX:gNA系统的核酸；c)包含上述(b)的核酸的载体；d)包含本文所述的任一实施例的 CasX:gNA系统的VLP；或e)(a)至(d)中的两种或更多种的组合，其中细胞的靶核酸序列被 CasX蛋白修饰。在一个实施例中，将CasX:gNA系统作为RNP引入细胞中。在该方法的一些实施例中，细胞选自由啮齿动物细胞、小鼠细胞、大鼠细胞和非人灵长类动物细胞组成的组。在该方法的其它实施例中，细胞是人类细胞。在该方法的其它实施例中，细胞选自由祖细胞、造血干细胞和多能干细胞组成的组。在该方法的其它实施例中，细胞是诱导多能干细胞。在该方法的其它实施例中，细胞是免疫细胞，其选自由T细胞、肿瘤浸润淋巴细胞、NK 细胞、B细胞、单核细胞、巨噬细胞或树突细胞组成的组。在一个特定实施例中，T细胞选自由CD4+T细胞、CD8+T细胞、γ-δT细胞或其组合组成的组。在T细胞是待修饰的细胞的情况下，在CAR-T细胞工程中经常选择CD4+和CD8+T细胞的混合物，这可能是因为CD4 T 细胞提供生长因子和其它信号来维持输注CTL的功能和存活(Barrett,DM等人，嵌合抗原受体(CAR)和T细胞受体(TCR)修饰的T细胞进入Main Street和Wall Street《免疫学杂志(J Immunol.)》195(3)：755–761(2015))。在一些实施例中，细胞对于待施用所述细胞的受试者而言是自体的。在该方法的其它实施例中，该细胞相对于待施用所述细胞的受试者是同种异体的。

在修饰细胞群中基因的靶核酸序列的方法的一些实施例中，修饰包含在群体细胞的靶核酸序列中引入一个或多个单链断裂。在该方法的其它实施例中，修饰包含在群体细胞的靶核酸序列中引入一个或多个双链断裂。在该方法的其它实施例中，修饰包含在群体细胞的靶核酸序列中引入一个或多个核苷酸的插入、缺失、取代、复制或倒位，从而导致在群体细胞中敲低或敲除编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质的基因。在一些实施例中，靶向蛋白质选自β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、 ICP47多肽、II类主要组织相容性复合物反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、 T细胞受体β恒定2(TRBC2)、人白细胞抗原A (HLA-A)、人白细胞抗原B(HLA-B)、TGFβ受体2(TGFβRII)、程序性细胞死亡1(PD-1)、细胞因子诱导型SH2(CISH)、淋巴细胞激活3 (LAG-3)、具有Ig和ITIM域的T细胞免疫受体(TIGIT)、腺苷A2a受体(ADORA2A)、杀伤细胞凝集素样受体C1(NKG2A)、细胞毒性T淋巴细胞-相关蛋白4(CTLA-4)、T细胞免疫球蛋白和粘蛋白域3(TIM-3)和2B4(CD244)。在一个示范性实施例中，细胞表面标记蛋白是B2M 并且gNA的靶向序列包含选自表3A的序列的序列。在另一示范性实施例中，细胞表面标记蛋白是TRAC并且gNA的靶向序列包含选自表3B的序列的序列。在另一示范性实施例中，细胞内蛋白是CIITA并且gNA的靶向序列包含选自表3C的序列的序列。在该方法的另一实施例中，待修饰的基因是选自由B2M、TRAC和CIITA组成的组的蛋白质中的至少两种。在前述的一个实施例中，群体细胞已经被修饰，使得与未修饰的细胞相比，一种或多种蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。在前述的另一实施例中，群体细胞已经被修饰，使得与未修饰的细胞相比，至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％的细胞不表达可检测水平的一种或多种蛋白质。在该方法的另一实施例中，细胞已被修饰，使得至少70％、至少75％、至少 80％、至少85％、至少90％或至少95％的修饰细胞不表达可检测水平的MHC I类分子。在该方法的另一实施例中，细胞已被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞不表达可检测水平的野生T型细胞受体。

在一些实施例中，该方法包含将供体模板插入群体细胞的靶核酸序列的断裂位点。根据系统是用于敲低/敲除或敲入参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质，供体模板可以是短单链或双链寡核苷酸，或编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因的长单链或双链寡核苷酸。对于敲低/敲除，供体模板序列通常与其替换的基因组序列不同，并且可能含有相对于基因组序列的一个或多个单碱基变化、插入、缺失、倒位或重排，条件是与靶序列有足够的同源性以支持同源定向修复，这可能导致移码或其它突变，从而使靶蛋白不表达或以较低水平表达。在某些实施例中，对于敲低/敲除修饰，供体模板序列与需要重组的靶基因组序列具有至少约60％、70％、80％、90％、95％、98％、99％或99.9％的序列同一性。在一些实施例中，供体模板序列包含侧接两个同源区域(“同源臂”)的非同源序列，使得靶DNA区域和两个侧接序列之间的同源定向修复导致在目标区域插入非同源序列。上游和下游序列与靶DNA中整合位点的任一侧具有序列相似性，从而促进序列的插入。在一些实施例中，供体模板序列的同源区与需要重组的靶基因组序列具有至少50％的序列同一性。供体模板序列可包含相比于基因体序列，的某些序列差异，例如限制位点、核苷酸多形性、可选标记(例如耐药性基因、萤光蛋白、酶等)等，其可用于评估供体核酸于裂解位点处的成功插入，或在一些情况下可用于其它目的(例如表示靶向基因体基因座处的表达)。或者，此些序列差异可包括侧接重组序列，例如FLP、loxP序列或其类似者，其可稍后经活化以去除标记序列。在一些实施例中，供体模板包含靶基因的至少约10、至少约50、至少约 100，或至少约200，或至少约300，或至少约400，或至少约500，或至少约600，或至少约 700，或至少约800，或至少约900，或至少约1000，或至少约10,000，或至少15,000个核苷酸。在其它实施例中，供体模板包含靶基因的至少约20至约10,000个核苷酸，或至少约200 至约8000个核苷酸，或至少约400至约6000个核苷酸，或至少约600至约4000个核苷酸，或至少约1000至约2000个核苷酸。在其它实施例中，本公开提供了一种使用CasX:gNA系统和供体模板改变细胞靶序列的方法，供体模板包含基因的编码核酸中的20个或更少核苷酸、10个或更少核苷酸、5个或更少核苷酸、4个或更少核苷酸、3个或更少核苷酸、2个核苷酸或单个核苷酸的缺失、插入或突变，其中与未修饰的细胞相比，靶蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、或至少约90％、或至少约95％。在一些实施例中，供体模板包含单链DNA序列。在其它实施例中，供体模板包含单链RNA模板。在其它实施例中，供体模板包含双链DNA模板。

在其它情况下，通过同源独立性靶向整合(HITI)机制将外源供体模板插入由CasX裂解生成的末端之间。通过HITI插入的外源序列可为任何长度，例如长度为1至50个核苷酸的相对较短序列，或长度为约50至1000个核苷酸的较长序列。不具有同源性可例如为不具有大于20-50％序列一致性及/或不具有低严格度下的特异性杂交。在其它情况下，不具有同源性可进一步包括不具有大于5、6、7、8或9bp一致性的标准。供体模板插入可以是由同源定向修复(HDR)或同源独立靶向整合(HITI)介导。在某些情况下，供体模板的插入导致在群体细胞中敲低或敲除编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质的基因。在一些情况下，群体细胞已经被修饰，使得与未修饰的细胞相比，一种或多种蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。在其它情况下，群体细胞已经被修饰，使得细胞不表达可检测水平的一种或多种蛋白质。在一个特定实施例中，一种或多种蛋白质选自由B2M、TRAC和CIITA组成的组。在一个实施例中，该方法在细胞群上离体进行。在另一实施例中，该方法在受试者体内进行。

在修饰细胞群中基因的靶核酸序列的方法的一些实施例中，修饰进一步包含插入编码嵌合抗原受体(CAR)的多核苷酸，下文更全面地描述，从而导致在该群体的修饰细胞中表达可检测水平的CAR。示范性CAR，以及用于将此类受体工程化和引入细胞的方法，包括那些描述于例如国际专利申请公开号WO2013126726、WO2012129514、WO2014031687、WO2013166321、WO2013071154、WO2013123061、美国专利申请公开号US2002131960、US2013287748、US20130149337、US 20190136230、美国专利号6,451,995、7,446,190、 8,252,592、8,339,645、8,398,282、7,446,179、6,410,319、7,070,995、7,265,209、7,354,762、 7,446,191、8,324,353和8,479,118，它们通过引用并入本文。多核苷酸可以通过本文所述的载体或使用本领域已知的常规方法作为质粒引入待修饰的细胞中；例如电穿孔或显微注射。

在修饰细胞群中基因的靶核酸序列的方法的一些实施例中，修饰进一步包含插入编码融合蛋白的多核苷酸，该融合蛋白包含与抗原结合域连接的TCR亚基，该抗原结合域能够重新将TCR(本文称为工程化T细胞受体或工程化TCR)靶向参与抗原加工、抗原呈递、抗原识别和/或抗原反应的所需蛋白质。T细胞的工程化导致在群体的修饰细胞中表达可检测水平的工程化TCR，从而产生具有第二定义特异性的TCR的细胞，其在治疗疾病(如癌症或自身免疫性疾病)中具有实用性。TCR的一个或多个亚基可包含TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ中的任一种。因此，工程化的TCR包含融合蛋白，该融合蛋白包含TCR胞外域或跨膜域的至少一部分，以及其中TCR亚基和抗原结合域有效连接的抗原结合域。在一些实施例中，工程化的TCR包含融合蛋白，该融合蛋白包含TCR胞外域或跨膜域的至少一部分、包含刺激域的TCR胞内域和其中TCR亚基和抗原域有效连接的抗原结合域。除了表达CAR 或第二TCR的修饰的T细胞群在体外/离体识别和破坏相应靶细胞的能力外，修饰的细胞群在治疗患有如癌症或自身免疫性疾病等疾病的受试者中具有实用性。

在一些实施例中，CAR或工程化TCR具有对疾病抗原，任选地肿瘤细胞抗原具有特异性结合亲和力的抗原结合域。在上文中，肿瘤细胞抗原可以选自由以下组成的组：分化簇19 (CD19)、分化簇3(CD3)、CD3d分子(CD3D)、CD3g分子(CD3G)、CD3e分子(CD3E)、CD247 分子(CD247、或CD3Z)、CD8a分子(CD8)、CD7分子(CD7)、膜金属内肽酶(CD10)、跨膜4 域A1(CD20)、CD22分子(CD22)、TNF受体超家族成员8(CD30)、C型凝集素域家族12成员A(CLL1)、CD33分子(CD33)、CD34分子(CD34)、CD38分子(CD38)、整合素亚基α2b (CD41)、CD44分子(印度血型)(CD44)、CD47分子(CD47)、整合素α6(CD49f)、神经细胞粘附分子1(CD56)、CD70分子(CD70)、CD74分子(CD74)、CD99分子(Xg血型)(CD99)、白细胞介素3受体亚基α(CD123),prominin 1(CD133)、syndecan 1(CD138)、碳酸酐酶IX(CAIX)、 CC趋化因子受体4(CCR4)、ADAM金属肽酶域12(ADAM12)、粘附G蛋白偶联受体E2 (ADGRE2)、碱性磷酸酶胎盘样2(ALPPL2)、α4整合素、血管生成素-2(ANG2)、B细胞成熟抗原(BCMA)、CD44V6、癌胚抗原(CEA)、CEAC、CEA细胞粘附分子5(CEACAM5)、连接蛋白6(CLDN6)、CLDN18、C型凝集素域家族12成员A(CLEC12A)、间充质-上皮转换因子(cMET)、细胞毒性T淋巴细胞相关蛋白4(CTLA4)、表皮生长因子受体1(EGF1R)、表皮生长因子受体变异体III(EGFRvIII)、上皮糖蛋白2(EGP-2)、上皮细胞粘附分子(EGP-40或 EpCAM)、EPH受体A2(EphA2)、外核苷酸焦磷酸酶/磷酸二酯酶3(ENPP3)、erb-b2受体酪氨酸激酶2(ERBB2)、erb-b2受体酪氨酸激酶3(ERBB3)、erb-b2受体酪氨酸激酶4(ERBB4)、叶酸结合蛋白(FBP)、胎儿烟碱乙酰胆碱受体(AChR)、叶酸受体α(Fralpha或FOLR1)、G蛋白偶联受体143(GPR143)、谷氨酸代谢受体8(GRM8)、磷脂酰肌醇聚糖-3(GPC3)、神经节苷脂GD2、神经节苷脂GD3、人表皮生长因子受体1(HER1)、人表皮生长因子受体2(HER2)、人表皮生长因子受体3(HER3)、整合素B7、细胞间细胞粘附分子1(ICAM-1)、人端粒酶逆转录酶(hTERT)、白介素13受体α2(IL-13R-a2)、K-轻链、激酶插入域受体(KDR)、Lewis-Y (LeY)、软骨调节素-1(LECT1)、L1细胞粘附分子(L1CAM)、溶血磷脂酸受体3(LPAR3)、黑色素瘤相关抗原1(MAGE-A1)、间皮素(MSLN)、粘蛋白1(MUC1)、粘蛋白16、细胞表面相关(MUC16)、黑色素瘤相关抗原3(MAGEA3)、肿瘤蛋白p53(p53)、T细胞识别的黑色素瘤抗原1(MART1)、糖蛋白100(GP100)、蛋白酶3(PR1)、ephrin-A受体2(EphA2)、自然杀伤组2D配体(NKG2D配体)、纽约食管鳞状细胞癌1(NY-ESO-1)、癌胎儿抗原(h5T4)、前列腺特异性膜抗原(PSMA)、程序性死亡配体1(PDL-1)、受体酪氨酸激酶样孤儿受体1(ROR1)、滋养层糖蛋白(TPBG)、肿瘤相关糖蛋白72(TAG-72)、肿瘤相关钙信号传感器2(TROP-2)、酪氨酸酶、存活素、血管内皮生长因子受体2(VEGF-R2)、Wilms肿瘤-1(WT-1)、白细胞免疫球蛋白样受体B2(LILRB2)、黑色素瘤中优先表达的抗原(PRAME)、T细胞受体β恒定1 (TRBC1)、TRBC2和(T细胞免疫球蛋白粘蛋白3)TIM-3。在一个实施例中，CAR或工程化 TCR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段(scFv)组成的组的抗原结合域。在另一实施例中，CAR进一步包含至少一个细胞内信号传导域，其中至少一种细胞内信号传导域包含一种或多种分离或衍生自CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、 TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS)，或TNF受体超家族成员4 (OX40)的细胞内信号传导域。在另一个实施例中，CAR进一步包含细胞外铰链域或间隔。在一个实施例中，细胞外铰链域是免疫球蛋白样域，其中铰链域分离或衍生自IgG1、IgG2或 IgG4。在另一实施例中，铰链域分离或衍生自CD8a分子(CD8)或CD28。在另一实施例中， CAR进一步包含跨膜域。跨膜域可以分离或衍生自由CD3-ζ、CD4、CD8和CD28组成的组。

在一些实施例中，CAR或工程化TCR的抗原结合域选自由线性抗体、单域抗体(sdAb) 和单链可变片段(scFv)组成的组。在一个具体实施例中，抗原结合域是scFv。在一些实施例中，scFv包含对肿瘤细胞抗原或靶细胞标志物具有特异性结合亲和力的重链可变域(VH)和轻链可变域(VL)。通常，VH包含CDR-H1区、CDR-H2区、CDR-H3区，其中穿插框架区(FR) 连接每个CDR，并且VL包含CDR-L1区、CDR-L2区和具有穿插FR的CDR-L3区。在一些实施例中，抗原结合域表现出对肿瘤细胞抗原的平衡结合常数介于或介于约10^-5和10^-12M之间的亲和力以及其中的所有单独值和范围；这种结合亲和力是“特异性的”。在其它实施例中，scFv包含与参考抗体相同的重链互补决定区(CDR)和轻链CDR。在一些情况下，参考抗体是人源化抗体。人源化抗体是指非人类(例如，鼠)抗体的形式，其是特异性嵌合免疫球蛋白、免疫球蛋白链或其抗原结合片段，其包含源自非人免疫球蛋白的最小序列。在大多数情况下，人源化抗体是人免疫球蛋白，其中来自受体抗体CDR的残基被来自非人物种(如小鼠、大鼠或兔子)的CDR残基替换，具有所需的特异性、亲和力和容量。在一些情况下，Fv框架区(FR) 残基被相应的非人残基替换。一般而言，人源化抗体将包含基本上所有的至少一个，通常是两个可变域，其中所有或基本上所有的CDR区对应于非人免疫球蛋白的CDR区和所有或基本上所有的FR区是人免疫球蛋白共有序列的那些。在该方法的一些实施例中，用于提供CAR 的抗原结合域的参考抗体包含选自由表5所列序列组成的组的VH和VL和/或重链和轻链 CDR。应理解，表5的VH和VL序列包含CDR-H1区、CDR-H2区、CDR-H3区、CDR-L1 区、CDR-L2区和CDR-H3区(由表5的下划线序列指示)，并且CAR和/或工程化的TCR实施例的抗原结合域可以用这些CDR利用替代的框架区而不是相应的VH和VL的框架区构建，但仍保留对靶细胞标志物的特异性结合亲和力。在一些情况下，CDR或VL和VH可以具有一个或多个氨基酸取代、缺失或插入，只要保留对靶细胞标志物的特异性结合亲和力即可。在前述实施例中，编码作为编码的CAR或TCR的组分的scFv的CDR或VH和VL的核酸用于修饰细胞群。

表5：参考抗体序列

*带下划线的序列(如果存在)是VL和VH内的CDR

在一些实施例中，本公开的CAR和/或工程化TCR包含抗原结合域，其包含VH和VL，并且VH和VL选自由以下组成的组：SEQ ID NO:217和SEQ ID NO:218、SEQ ID NO:219 和SEQID NO:220、SEQ ID NO:221和SEQ ID NO:222、SEQ ID NO:223和SEQ ID NO:224、 SEQ IDNO:225和SEQ ID NO:226、SEQ ID NO:227和SEQ ID NO:228、SEQ ID NO:229 和SEQ ID NO:230、SEQ ID NO:231和SEQ ID NO:232、SEQ ID NO:233和SEQ ID NO:234、SEQ ID NO:235和SEQ ID NO:236、SEQ ID NO:237和SEQ ID NO:238、SEQ ID NO:239 和SEQ ID NO:240、SEQID NO:241和SEQ ID NO:242、SEQ ID NO:243和SEQ ID NO:244、 SEQ ID NO:245和SEQ IDNO:246、SEQ ID NO:247和SEQ ID NO:248、SEQ ID NO:249 和SEQ ID NO:250、SEQ ID NO:251和SEQ ID NO:252、SEQ ID NO:253和SEQ ID NO:254、 SEQ ID NO:255和SEQ ID NO:256、SEQ ID NO:257和SEQ ID NO:258、SEQ ID NO:259 和SEQ ID NO:260、SEQ ID NO:261和SEQ ID NO:262、SEQ ID NO:263和SEQ ID NO:264、 SEQ ID NO:265和SEQ ID NO:266、SEQ ID NO:267和SEQ ID NO:268、SEQ ID NO:269 和SEQ ID NO:270、SEQ ID NO:271和SEQID NO:272、SEQ ID NO:273和SEQ ID NO:274、 SEQ ID NO:275和SEQ ID NO:276、SEQ IDNO:277和SEQ ID NO:278、SEQ ID NO:279 和SEQ ID NO:280、SEQ ID NO:281和SEQ ID NO:282、SEQ ID NO:283和SEQ ID NO:284、 SEQ ID NO:285和SEQ ID NO:286、SEQ ID NO:287和SEQ ID NO:288、SEQ ID NO:289 和SEQ ID NO:290、SEQ ID NO:291和SEQ ID NO:292、SEQ ID NO:293和SEQ ID NO:294、 SEQ ID NO:295和SEQ ID NO:296、SEQ ID NO:297和SEQID NO:298、SEQ ID NO:299 和SEQ ID NO:300、SEQ ID NO:301和SEQ ID NO:302、SEQ IDNO:303和SEQ ID NO:304、 SEQ ID NO:305和SEQ ID NO:306、SEQ ID NO:307和SEQ ID NO:308、SEQ ID NO:309 和SEQ ID NO:310、SEQ ID NO:311和SEQ ID NO:312、SEQ ID NO:313和SEQ ID NO:314、 SEQ ID NO:315和SEQ ID NO:316、SEQ ID NO:317和SEQ ID NO:318、SEQ ID NO:319 和SEQ ID NO:320、SEQ ID NO:321和SEQ ID NO:322、SEQ ID NO:323和SEQID NO:324、 SEQ ID NO:325和SEQ ID NO:326、SEQ ID NO:327和SEQ ID NO:328、SEQ IDNO:329 和SEQ ID NO:330、SEQ ID NO:331和SEQ ID NO:332、SEQ ID NO:333和SEQ ID NO:334、 SEQ ID NO:335和SEQ ID NO:336、SEQ ID NO:337和SEQ ID NO:338、SEQ ID NO:339和SEQ ID NO:340、SEQ ID NO:341和SEQ ID NO:342、SEQ ID NO:343和SEQ ID NO:344、SEQ ID NO:345和SEQ ID NO:346、SEQ ID NO:347和SEQ ID NO:348、SEQ ID NO:349 和SEQID NO:350、SEQ ID NO:351和SEQ ID NO:352、SEQ ID NO:353和SEQ ID NO:354、 SEQ IDNO:355和SEQ ID NO:356、SEQ ID NO:357和SEQ ID NO:358、SEQ ID NO:359 和SEQ ID NO:360、SEQ ID NO:361和SEQ ID NO:362、SEQ ID NO:363和SEQ ID NO:364、 SEQ ID NO:365和SEQ ID NO:366、SEQ ID NO:367和SEQ ID NO:368、SEQ ID NO:369 和SEQ ID NO:370、SEQ ID NO:371和SEQ ID NO:372、SEQ ID NO:373和SEQ ID NO:374、 SEQ ID NO:375和SEQID NO:376、SEQ ID NO:377和SEQ ID NO:378、SEQ ID NO:379 和SEQ ID NO:380、SEQ IDNO:381和SEQ ID NO:382、SEQ ID NO:383和SEQ ID NO:384、 SEQ ID NO:385和SEQ ID NO:386、SEQ ID NO:387和SEQ ID NO:388、SEQ ID NO:389 和SEQ ID NO:390、SEQ ID NO:391和SEQ ID NO:392、SEQ ID NO:393和SEQ ID NO:394、 SEQ ID NO:395和SEQ ID NO:396、SEQ ID NO:397和SEQ ID NO:398、SEQ ID NO:399 和SEQ ID NO:400、SEQ ID NO:401和SEQID NO:402、SEQ ID NO:403和SEQ ID NO:404、 SEQ ID NO:405和SEQ ID NO:406、SEQ IDNO:407和SEQ ID NO:408、SEQ ID NO:409 和SEQ ID NO:410、SEQ ID NO:411和SEQ ID NO:412、SEQ ID NO:413和SEQ ID NO:414、 SEQ ID NO:415和SEQ ID NO:416、SEQ ID NO:417和SEQ ID NO:418、SEQ ID NO:419 和SEQ ID NO:420、SEQ ID NO:421和SEQ ID NO:422、SEQ ID NO:423和SEQ ID NO:424、 SEQ ID NO:425和SEQ ID NO:426、SEQ ID NO:427和SEQID NO:418、SEQ ID NO:419和 SEQ ID NO:430、SEQ ID NO:431和SEQ ID NO:432。SEQ IDNO:433和SEQ ID NO:434、 SEQ ID NO:435和SEQ ID NO:436，或与其具有至少90％、至少95％或至少99％同一性的序列。

在一些实施例中，群体细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞表达可检测水平的嵌合抗原受体(CAR)或工程化TCR。在一个实施例中，修饰细胞群中基因的靶核酸序列的方法是在细胞群上离体进行的。在另一实施例中，该方法在受试者体内进行，其中受试者选自由啮齿动物、小鼠、大鼠、非人灵长类动物和人类组成的组。

因此，本文所述的CasX:gNA系统和方法可与常规分子生物学方法结合使用，以修饰细胞群(其实例在下文更全面地描述)以产生具有同种异体CAR-或TCR-工程化T细胞功能的细胞，其例如通过改变主要组织相容性复合物组分的基因(例如HLA蛋白，例如HLA-A、HLA-B、 HLA-C或B2M(由B2M基因编码)，或调节主要组织相容性复合物的一种或多种组分表达的蛋白质)来减少或消除不良免疫原性(如宿主抗移植物反应或移植物抗宿主反应)，并增强存活、增殖和/或功效，消除作为T细胞受体一部分的蛋白质(如TRAC)，抑制转录共激活因子的表达，这些转录共激活因子调节主要组织相容性复合物(MHC)I类和II类基因(如CIITA)的γ-干扰素激活转录，或允许修饰的细胞逃避因子(如TGFβ)的免疫抑制作用。通过减少HLA蛋白中的错配，与受体受试者相比，减少或消除野生型T细胞受体或修饰细胞的其它成分，它通过消除宿主T细胞受体对错配(例如，同种异体)移植组织的识别和反应减少或消除了宿主抗移植物疾病(GVHD)的可能性(参见例如，Takahiro Kamiya,T.等人，《一种生成T细胞受体缺陷型嵌合抗原受体T细胞的新型方法(A novel method to generate T-cell receptor–deficient chimeric antigen receptor T cells)》，《血液进展(BloodAdvances)》2:517(2018))。因此，这种方法可用于生成具有改善的治疗指数的免疫细胞，用于患有癌症、自身免疫性疾病和移植排斥等疾病的受试者的免疫肿瘤学应用。

VI.多核苷酸和载体

在另一方面，本公开涉及编码本文描述的任一实施例的CasX蛋白的CasX:gNA系统的多核苷酸和gNA(例如，gDNA和gRNA)的多核苷酸。在另一方面，本公开提供了供体模板多核苷酸用于修饰修饰细胞中的靶蛋白。在又一方面，本公开涉及包含编码本文所述的CasX蛋白和gNA的多核苷酸，以及编码实施例的CAR的供体模板和多核苷酸的载体。在又一方面，本公开涉及包含编码实施例的工程化TCR的融合蛋白的多核苷酸的载体。

在一些实施例中，本公开提供了编码SEQ ID NO:1-3的参考CasX的多核苷酸序列。在其它实施例中，本公开提供了编码本文描述的任一实施例的CasX变异体的多核苷酸序列。在一些实施例中，本公开提供了编码表4中所列CasX变异多肽序列的分离多核苷酸序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的序列。在一些实施例中，本公开提供了编码本文描述的任一实施例的gNA序列的分离多核苷酸序列。在一些实施例中，多核苷酸编码表1或表2中所列gNA支架序列，或与其具有至少约50％、至少约60％、至少约 70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约 99％序列同一性的序列。在一些实施例中，多核苷酸编码选自由SEQ ID NO:2101-2280组成的组的gNA支架序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约 90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％序列同一性的序列。在其它实施例中，本公开提供了表3A、3B或3C的靶向序列多核苷酸，或与其具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列，以及编码靶向序列的DNA。在一些实施例中，编码支架序列的多核苷酸进一步包含编码靶向序列的序列，使得能够结合CasX和靶序列的gNA可以表达为sgNA或dgNA。在其它实施例中，本公开提供了编码与靶基因杂交的gNA序列的分离多核苷酸序列，该靶基因编码参与抗原加工、抗原呈递、抗原识别和/ 或抗原反应的蛋白质。在一些情况下，多核苷酸序列编码与靶基因外显子杂交的gNA序列。在其它情况下，多核苷酸序列编码与靶基因内含子杂交的gNA序列。在其它情况下，多核苷酸序列编码与靶基因内含子-外显子连接处杂交的gNA序列。在其它情况下，多核苷酸序列编码与靶基因的基因间区域杂交的gNA序列。在其它情况下，多核苷酸序列编码与靶基因的调节元件杂交的gNA序列。在一些情况下，细胞表面标记调节元件是基因的5'。在其它情况下，调节元件是细胞表面标记基因的3'。在其它情况下，调节元件包含靶基因的5'UTR。在其它情况下，调节元件包含靶基因的3'UTR。

在其它实施例中，本公开提供了供体模板核酸，其中供体模板包含与预期进行基因编辑的靶核酸的靶序列具有同源性但不完全同一性的核苷酸序列。对于敲低/敲除，供体模板序列通常与其替换的基因组序列不同，并且可能含有相对于基因组序列的一个或多个单碱基变化、插入、缺失、倒位或重排，条件是与靶序列有足够的同源性以支持同源定向修复，或者供体模板具有同源臂，因此插入会导致移码或其它突变，从而使靶蛋白不表达或以较低水平表达。在某些实施例中，对于敲低/敲除修饰，供体模板序列与需要重组的靶基因组序列具有至少约 60％、70％、80％、90％、95％、98％、99％或99.9％的序列同一性。在一些实施例中，靶序列具有与蛋白质靶基因杂交并插入由CasX引入的断裂位点的序列，从而实现基因序列的修饰。在一些情况下，靶序列具有与靶基因外显子杂交的序列。在其它情况下，靶序列具有与靶基因内含子杂交的序列。在其它情况下，靶序列具有与靶基因内含子-外显子连接处杂交的序列。在其它情况下，靶序列具有与靶基因的基因间区域杂交的序列。在其它情况下，靶序列具有与靶基因的调节元件杂交的序列。在前述实施例中，供体模板的大小范围可以是10至15,000 个核苷酸、50至10,000个核苷酸或100至1000个核苷酸。在一些实施例中，供体模板是单链DNA模板。在其它实施例中，供体模板是单链RNA模板。在其它实施例中，供体模板是双链DNA模板。

在其它实施例中，本公开提供了编码嵌合抗原受体(CAR)、工程化TCR或工程化TCR的一个或多个亚基的多核苷酸，工程化TCR具有对疾病抗原、任选地肿瘤细胞抗原特异性的结合域，其将被引入群体的靶细胞以表达CAR或工程化TCR。在上文中，肿瘤细胞抗原选自由以下组成的组：分化簇19(CD19)、CD3、CD8、CD7、CD10、CD20、CD22、CD30、CLL1、 CD33、CD34、CD38、CD41、CD44、CD47、CD49f、CD56、CD70、CD74、CD99、CD123、 CD133、CD138、碳酸酐酶IX(CAIX)、CC趋化因子受体4(CCR4)、ADAM金属肽酶域12 (ADAM12)、粘附G蛋白偶联受体E2(ADGRE2)、碱性磷酸酶胎盘样2(ALPPL2)、α4整合素、血管生成素-2(ANG2)、B细胞成熟抗原(BCMA)、CD44V6、癌胚抗原(CEA)、CEAC、 CEACAM5、连接蛋白6(CLDN6)、CLDN18、C型凝集素域家族12成员A(CLEC12A)、间充质-上皮转换因子(cMET)、细胞毒性T淋巴细胞相关蛋白4(CTLA4)、表皮生长因子受体1 (EGF1R)、EGFR-VIII、上皮糖蛋白2(EGP-2)、EGP-40、EphA2、ENPP3、上皮细胞粘附分子(EpCAM)、erb-B2,3,4、叶酸结合蛋白(FBP)、胎儿乙酰胆碱受体、叶酸受体-a、叶酸受体1 (FOLR1)、G蛋白偶联受体143(GPR143)、谷氨酸代谢受体8(GRM8)、磷脂酰肌醇聚糖-3 (GPC3)、神经节苷脂GD2、神经节苷脂GD3、人表皮生长因子受体1(HER1)、人表皮生长因子受体2(HER2)、HER3、整合素B7、细胞间细胞粘附分子-1(ICAM-1)、人端粒酶逆转录酶(hTERT)、白介素-13受体α2(IL-13R-a2)、K-轻链、激酶插入域受体(KDR)、Lewis-Y(LeY)、软骨调节素-1(LECT1)、Ll细胞粘附分子、溶血磷脂酸受体3(LPAR3)、黑色素瘤相关抗原1 (MAGE-A1)、间皮素、粘蛋白1(MUC1)、MUC16、黑色素瘤相关抗原3(MAGEA3)、肿瘤蛋白p53(p53)、T细胞识别的黑色素瘤抗原1(MART1)、糖蛋白100(GP100)、蛋白酶3(PR1)、 ephrin-A受体2(EphA2)、自然杀伤组2D配体(NKG2D配体)、纽约食管鳞状细胞癌1 (NY-ESO-1)、癌胎儿抗原(h5T4)、前列腺特异性膜抗原(PSMA)、程序性死亡配体1(PDL-1)、受体酪氨酸激酶样孤儿受体1(ROR1)、滋养层糖蛋白(TPBG)、肿瘤相关糖蛋白72(TAG-72)、肿瘤相关钙信号转导2(TROP-2)、酪氨酸酶、存活素、血管内皮生长因子受体2(VEGF-R2)、肾母细胞瘤1(WT-1)、白细胞免疫球蛋白样受体B2(LILRB2)、黑色素瘤中优先表达的抗原 (PRAME)、T细胞受体β恒定1(TRBC1)、TRBC2和(T细胞免疫球蛋白粘蛋白3)TIM-3。在一些实施例中，CAR或工程化TCR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段 (scFv)组成的组的抗原结合域。在一个具体实施例中，抗原结合域是scFv。适用于实施例的 scFv的示范性CDR和VL和VH序列在本文中描述，包括表5的序列。在一个实施例中，scFv 的VH、VL和/或CDR相对于表5的序列具有一个或多个氨基酸修饰，其中scFv保留对肿瘤抗原的结合亲和力，并且其中修饰选自由取代、缺失和插入组成的组。

在包含CAR的那些实施例中，CAR可以进一步包含一个或多个细胞内信号传导域，其中至少一种细胞内信号传导域包含至少一种分离或衍生自CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS) 或TNF受体超家族成员4(OX40)的细胞内信号传导域。在另一实施例中，至少一个细胞内信号传导域包含：a)CD3-ζ细胞内信号传导域；b)CD3-ζ细胞内信号传导域和4-1BB或CD28细胞内信号传导域；c)CD-zeta细胞内信号传导域、4-1BB细胞内信号传导域和CD28细胞内信号传导域；或d)CD-ζ细胞内信号传导域、CD28细胞内信号传导域、4-1BB细胞内信号传导域和CD27或OX40细胞内信号传导域。在另一实施例中，CAR进一步包含细胞外铰链域，其中铰链域是免疫球蛋白样域或其中铰链域分离或衍生自IgG1、IgG2或IgG4，或其中铰链域分离或衍生自CD8a分子(CD8)或CD28。在另一实施例中，CAR进一步包含跨膜域，其中跨膜域分离或衍生自CD3-ζ、CD4、CD8和CD28。

在包含工程化T细胞受体(TCR)的那些实施例中，TCR可进一步包含一种或多种选自由 TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ组成的组的亚基。在一些实施例中，TCR进一步包含细胞内域，其包含来自细胞内信号传导域的刺激域，其中TCR的抗原结合域可操作地与一个或多个亚基连接。

在一些实施例中，本公开进一步提供了编码可诱导表达盒的多核苷酸，该表达盒编码选自由IL-7、IL-12、IL-15和IL-18组成的组的免疫刺激细胞因子，其中多核苷酸将被引入到表达CAR的群体的修饰靶细胞，其中细胞因子的表达使修饰细胞在施用于受试者时对免疫抑制性肿瘤环境具有抗性。编码具有上述组分的CAR的多核苷酸可以通过几种常规方法引入细胞，如下所述。

在一些实施例中，本公开涉及产生编码本文描述的任一实施例的参考CasX、CasX变异体或gNA的多核苷酸序列的方法，包括其变异体，或与靶序列互补的序列，以及表达由多核苷酸序列表达的蛋白质或转录的RNA的方法。通常，该方法包括产生编码本文描述的任一实施例的参考CasX、CasX变异体或gNA的多核苷酸序列，并将编码基因掺入适合宿主细胞的表达载体中。为了产生本文描述的任一实施例的编码的参考CasX、CasX变异体或gNA，该方法包括用包含编码多核苷酸的表达载体转化合适的宿主细胞，并在导致或允许产生本文描述的任何实施例的参考CasX、CasX变异体或gNA以在转化的宿主细胞中表达或转录的条件下培养宿主细胞，从而产生参考CasX、CasX变异体或gNA，其通过本文描述的方法或通过本领域已知的标准纯化方法回收。分子生物学中的标准重组技术用于制备本公开的多核苷酸和表达载体。

根据本公开，编码本文描述的任一实施例的参考CasX、CasX变异体、gNA、CAR或免疫刺激细胞因子的表达盒的多核苷酸序列用于生成重组DNA分子，其指导在适当的宿主细胞中的表达。几种克隆策略适用于实施本公开，其中许多用于生成包含编码本公开组合物或其互补物的基因的构筑体。在一些实施例中，克隆策略用于创建编码构筑体的基因，该构筑体包含编码参考CasX、CasX变异体或用于转化宿主细胞以表达组合物的gNA的核苷酸。

在一种方法中，首先制备含有编码参考CasX、CasX变异体或gNA的DNA序列的构筑体。用于制备此类构筑体的示范性方法在实例中进行了描述。然后将该构筑体用于创建适合转化宿主细胞(原核或真核宿主细胞)的表达载体，以表达和恢复多肽构筑体。如果需要，宿主细胞是大肠杆菌。在其它实施例中，宿主细胞选自BHK细胞、HEK293细胞、HEK293T 细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6 细胞、杂交瘤细胞、NIH3T3细胞、COS、HeLa、CHO或酵母细胞。实例中描述了用于创建表达载体、宿主细胞转化以及参考CasX、CasX变异体或gNA的表达和恢复的示范性方法。

编码参考CasX、CasX变异体、gNA构筑体、CAR、一种或多种包含TCR亚基的融合多肽或免疫刺激细胞因子的一个或多个基因可以在一个或多个步骤中完全合成或通过合成结合酶促过程，如限制酶介导的克隆、PCR和重叠延伸，包括在实例中更充分描述的方法。例如，本文公开的方法可用于连接编码所需序列的各种组分(例如，CasX和gNA)基因的多核苷酸序列。使用基因合成的标准技术从寡核苷酸组装编码多肽组合物的基因。

在一些实施例中，编码CasX蛋白、CAR、工程化TCR或工程化TCR的一个或多个亚基的核苷酸序列是密码子优化的。这种类型的优化可能需要对编码核苷酸序列进行突变，以模拟预期宿主生物体或细胞的密码子偏好，同时编码相同的CasX蛋白、CAR或TCR。因此，密码子可改变，但经编码蛋白质保持不变。例如，如果CasX蛋白的预期目标细胞是人类细胞，则可以使用人类密码子优化的CasX编码核苷酸序列。作为另一非限制性实例，如果预期宿主细胞是小鼠细胞，则可以生成小鼠密码子优化的CasX编码核苷酸序列。作为另一非限制性实例，如果预期宿主细胞是植物细胞，则可以生成植物密码子优化的编码CasX蛋白变异体的核苷酸序列。作为另一非限制性实例，如果预期宿主细胞是昆虫细胞，则可以生成昆虫密码子优化的CasX蛋白编码核苷酸序列。可以使用优化密码子使用和氨基酸组成的算法进行基因设计，该算法适用于生产参考CasX、CasX变异体或gNA时使用的宿主细胞。在本公开的一种方法中，创建编码构筑体的组分的多核苷酸文库，然后进行组装，如上所述。然后组装所得基因，并且所得基因用于转化宿主细胞并产生和恢复参考CasX、CasX变异体或gNA组合物以评估其性质，如本文所述。

在一些实施例中，编码gNA的核苷酸序列可操作地连接到控制元件，例如转录控制元件，如启动子。在一些实施例中，编码CasX蛋白的核苷酸序列可操作地连接到控制元件，例如转录控制元件，如启动子。在一些实施例中，编码CAR的核苷酸序列可操作地连接到控制元件，例如转录控制元件，如启动子。

转录控制元件可以是启动子。在一些情况下，启动子为组成性活化启动子。在一些情况下，启动子为可调节启动子。在一些情况下，启动子为诱导型启动子。在一些情况下，启动子为组织特异性启动子。在一些情况下，启动子为细胞类型特异性启动子。在一些情况下，转录控制元件(例如启动子)在目标细胞类型或目标细胞群体中起作用。例如，在一些情况下，转录控制元件可以在真核细胞中起作用，例如神经元、脊髓运动神经元、少突胶质细胞或神经胶质细胞。

真核启动子(在真核细胞中起作用的启动子)的非限制性实例包括EF1α、EF1α核启动子、来自细胞巨大病毒(CMV)即刻早期的那些、单纯疱疹病毒(HSV)胸苷激酶、早期及晚期SV40、来自反转录病毒的长末端重复序列(LTR)及小鼠金属硫蛋白-I。真核启动子的其它非限制性实例包括CMV启动子全长启动子、最小CMV启动子、鸡β-肌动蛋白启动子、hPGK启动子、 HSV TK启动子、Mini-TK启动子、赋予神经元特异性表达的人类突触蛋白I启动子、选择性表达于神经元中的Mecp2启动子、最小IL-2启动子、劳氏肉瘤病毒强化子/启动子(单一)、形成脾脏病灶的病毒长末端重复序列(LTR)启动子、SV40启动子、SV40强化子及早期启动子、 TBG启动子：来自人类甲状腺素结合球蛋白基因的启动子(肝脏特异性)、PGK启动子、人类泛素C启动子、UCOE启动子(HNRPA2B1-CBX3的启动子)、组蛋白H2启动子、组蛋白H3 启动子、U1a1小核RNA启动子(226nt)、U1b2小核RNA启动子(246nt)26、TTR最小强化子 /启动子、b-驱动蛋白启动子、人类eIF4A1启动子、ROSA26启动子及3-磷酸甘油醛脱氢酶 (GAPDH)启动子。

合适的载体和启动子的选择完全在本领域普通技术的水平内，因为它涉及控制表达，例如，用于修饰参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质和/或其调节元件。表达载体亦可含有用于翻译起始及转录终止的核糖体结合位点。表达载体亦可包括用于扩增表达的适合的序列。表达载体也可包括编码蛋白质标签(例如，6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列，其可与CasX蛋白融合，从而产生用于纯化或检测的嵌合CasX蛋白。

在一些实施例中，编码gNA变异体或CasX蛋白、CAR或免疫刺激细胞因子的表达盒中的每一个的核苷酸序列可操作地连接到诱导型启动子、组成型活性启动子、空间限制启动子 (即，转录控制元件、强化子、组织特异性启动子、细胞类型特异性启动子等)或时间限制启动子。在其它实施例中，编码gNA、CasX、CAR或免疫刺激细胞因子表达盒的单个核苷酸序列与前述种类的启动子中的一个连接，然后将其引入细胞中以通过常规方法进行修饰，如下面所描述的。

在某些实施例中，适合的启动子可衍生自病毒且可因此称为病毒启动子，或其可衍生自任何生物体，包括原核或真核生物体。适合的启动子可用于通过任何RNA聚合酶(例如pol I、 pol II、pol III)驱动表达。示范性启动子包括但不限于SV40早期启动子、小鼠乳房肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(AdMLP)；单纯疱疹病毒(HSV)启动子；细胞巨大病毒(CMV)启动子，例如CMV即刻早期启动子区域(CMVIE)、劳氏肉瘤病毒(RSV) 启动子、人类U6小核启动子(U6)、增强型U6启动子、人类HI启动子(HI)、POL1启动子、 7SK启动子、tRNA启动子及其类似物。

在一些实施例中，一种或多种编码CasX和gNA并且任选地包含供体模板或编码CAR的多核酸的核苷酸序列各自可操作地连接到可在真核细胞中操作的启动子(在其控制下)。诱导型启动子的实例可以包括但不限于T7 RNA聚合酶启动子、T3 RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)-调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。因此，在一些实施例中，诱导型启动子可以由包括但不限于强力霉素；雌激素和/或雌激素类似物；IPTG；等的分子调节。

在某些实施例中，适合使用的诱导型启动子可包括本文所述或所属领域所属领域的一般技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节和物理调节的启动子，如醇调节启动子、四环素调节启动子(例如，无水四环素(aTc)反应性启动子及其它四环素反应性启动子系统，其包括四环素抑制蛋白(tetR)、四环素操纵序列(tetO)和四环素反式激活融合蛋白(tTA)、类固醇调节启动子(例如，基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子，以及来自类固醇/类视黄素/甲状腺受体超家族的启动子)、金属调节启动子(例如，衍生自来自酵母、小鼠及人类的金属硫蛋白(结合和螯合金属离子的蛋白)基因的启动子)、发病机制调节启动子(例如，由水杨酸、乙烯或苯并噻二唑(BTH) 诱导)、温度/热诱导性启动子(例如，热休克启动子)以及光调节启动子(例如，来自植物细胞的光反应性启动子)。

在一些情况下，启动子是空间受限启动子(即，细胞类型特异性启动子、组织特异性启动子等)，使得在多细胞生物体中，启动子在特定细胞的子集中是活跃的(即，“开启”)。空间受限启动子亦可称为强化子、转录控制元件、控制序列等。可使用任何便利的空间受限启动子，只要启动子在靶向宿主细胞(例如真核细胞；原核细胞)中起作用。

在一些情况下，启动子为可逆启动子。适合的可逆启动子，包括可逆诱导型启动子为所属领域中已知的。此类可逆启动子可分离及衍生自多种生物体，例如真核生物及原核生物。衍生自用于第二生物体的第一生物体(例如第一原核生物及第二真核生物、第一真核生物及第二原核生物等)的可逆启动子的修饰在所属领域中为熟知的。此类可逆启动子及基于此类可逆启动子的系统但也包含额外对照蛋白，包括但不限于醇调节启动子(例如，醇脱氢酶I(alcA) 基因启动子、对醇反式激活蛋白(AlcR)有反应的启动子等)、四环素调节启动子(例如，包括 Tet活化子、TetON、TetOFF等的启动子系统)、类固醇调节启动子(例如，大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类视黄素启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调节启动子(例如，金属硫蛋白启动子系统等)、发病机制相关调节启动子(例如，水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等)、温度调节启动子(例如，热休克诱导性启动子(例如，HSP-70、HSP-90、大豆热休克启动子等)、光调节启动子、合成诱导型启动子及其类似物。

本公开的重组表达载体还可包含促进本公开的CasX蛋白、gNA和CAR的稳健表达的元件。举例来说，重组表达载体可包括以下中的一或多者：聚腺苷酸化信号(PolyA)、内含子序列或转录后调节元件，例如土拔鼠肝炎转录后调节元件(WPRE)。示范性polyA序列包括hGHpoly(A)信号(短)、HSVTKpoly(A)信号、合成聚腺苷酸化信号、SV40 poly(A)信号、β-血球蛋白poly(A)信号及其类似物。所属领域所属领域的一般技术人员将能够选择本文所述的重组表达载体中包括的适合元件。

然后可以将编码参考CasX、CasX变异体、gNA序列和CAR、工程化TCR或工程化TCR的一个或多个亚基的多核苷酸单独克隆到一个或多个表达载体中。在一些实施例中，本公开提供了包含多核苷酸的载体，其选自由以下组成的组：逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒(AAV)载体、病毒样颗粒(VLP)、单纯疱疹病毒(HSV)载体、质粒、小环、纳米质粒、DNA载体和RNA载体。在一些实施例中，载体是重组表达载体，其包含编码CasX 蛋白的核苷酸序列。在其它实施例中，本公开提供了包含编码CasX蛋白的核苷酸序列和编码gNA的核苷酸序列的重组表达载体。在一些情况下，编码CasX蛋白变异体的核苷酸序列和/或编码gNA的核苷酸序列可操作地连接到在所选细胞类型中可操作的启动子。在其它实施例中，编码CasX蛋白变异体的核苷酸序列和编码gNA的核苷酸序列在可操作地连接到启动子的单独载体中提供。在其它实施例中，载体可包含供体模板或编码一种或多种CAR、工程化TCR、一种或多种工程化TCR亚基的多核苷酸，或者单独的载体可用于将供体模板或一种或多种CAR或工程化TCR亚基引入待修饰的靶细胞。

在一些实施例中，本文提供了一种或多种重组表达载体，其包含以下一项或多项：(i)供体模板核酸的核苷酸序列，其中供体模板包含与靶核酸(例如，靶基因组)的靶序列具有同源性的核苷酸序列；(ii)编码gNA的核苷酸序列，该gNA与可操作地连接到在如真核细胞的靶细胞中可操作的启动子的靶基因组基因座的靶序列(例如，被配置为单或双引导RNA)杂交； (iii)编码CasX蛋白的核苷酸序列，CasX蛋白可操作地连接到可在如真核细胞的靶细胞中操作的启动子；(iv)编码CAR的核苷酸序列，该CAR可操作地连接到可在如真核细胞的靶细胞中操作的启动子；(v)编码免疫刺激细胞因子的表达盒的核苷酸序列，该表达盒可操作地连接到可在如真核细胞的靶细胞中操作的启动子。在一些实施例中，编码供体模板、gNA、CasX 蛋白、CAR、工程化TCR或其一种或多种亚基的序列和表达盒在不同的重组表达载体中，并且在其它实施例中，一种或多种多核苷酸序列(对于供体模板、CasX、gNA、CAR、工程化 TCR或其一个或多个亚基，以及表达盒)在相同的重组表达载体中。在其它情况下，CasX和 gNA作为RNP(例如，通过电穿孔或化学方式)和供体模板和/或编码CAR、或工程化TCR或其一个或多个亚基的多核苷酸递送到靶细胞，和表达盒由载体传递。

通过多种程序将多核苷酸序列插入载体中。通常，使用本领域已知的技术将DNA插入适当的限制性核酸内切酶位点。载体组分通常包括但不限于信号序列、复制起点、一种或多种标记基因、强化子元件、启动子和转录终止序列中的一种或多种。含有一种或多种这些组分的合适载体的构建采用本领域技术人员已知的标准连接技术。此类技术在本领域中是众所周知的并且在科学和专利文献中得到充分描述。各种载体是公开的。例如，载体可以是质粒、粘粒、病毒颗粒或噬菌体的形式，它们可以方便地进行重组DNA程序，并且载体的选择通常取决于将其引入的宿主细胞。因此，载体可以是自主复制载体，即作为染色体外实体存在的载体，其复制独立于染色体复制，例如质粒。替代地，该载体可以是当被引入宿主细胞时，被整合到宿主细胞基因组中并与已整合入的染色体一起复制的载体。一旦引入合适的宿主细胞，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的表达可以使用本领域已知的任何核酸或蛋白质测定来确定。例如，参考CasX的转录mRNA或CasX变异体的存在可以通过常规杂交测定(例如，Northern印迹分析)、扩增程序(例如RT-PCR)、SAGE(美国专利号5,695,937)和基于阵列的技术(参见例如，美国专利号5,405,783、5,412,087和5,445,934)，使用与多核苷酸的任何区域互补的探针进行检测和/或量化。

本公开提供了含有复制和控制序列的质粒表达载体的用途，该复制和控制序列与宿主细胞相容并被宿主细胞识别并且可操作地连接到编码多肽的基因以用于多肽的受控表达或 RNA的转录。此类载体序列对于多种细菌、酵母和病毒是众所周知的。可以使用的有用的表达载体包括例如染色体、非染色体和合成DNA序列的段。“表达载体”是指含有DNA序列的DNA构筑体，该DNA序列可操作地连接到合适的控制序列，该控制序列能够影响编码多肽的DNA在合适的宿主中的表达。要求是载体在所选宿主细胞中是可复制的和可行的。可以根据需要使用低拷贝数或高拷贝数载体。载体的控制序列包括影响转录的启动子、控制这种转录的任选操纵子序列、编码合适的mRNA核糖体结合位点的序列以及控制转录和翻译终止的序列。启动子可以是在所选宿主细胞中显示转录活性的任何DNA序列，并且可以衍生自编码与宿主细胞同源或异源的蛋白质的基因。

可以通过多种方法将多核苷酸和重组表达载体递送至靶宿主细胞。此类方法包括但不限于病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE- 葡聚糖介导的转染、显微注射、脂质体介导的转染、粒子枪技术、核转染、通过与供体DNA 融合或募集的细胞穿透CasX蛋白直接添加、细胞挤压、磷酸钙沉淀、直接显微注射、纳米颗粒介导的核酸递送，以及使用Qiagen的市售

试剂、Stemgent的StemfectTM RNA转染试剂盒和来自Mirus Bio LLC的

-mRNA转染试剂盒、Lonza核转染、 Maxagen电穿孔等。

重组表达载体序列可封装至病毒或病毒样颗粒(在本文中亦称为“VLP”或“病毒粒子”) 中，用于随后离体、体外或体内的细胞感染和转化。此类VLP或病毒粒子将通常包括包裹或包装载体基因组的蛋白质。合适的表达载体可以包括基于牛痘病毒的病毒表达载体；脊髓灰质炎病毒；腺病毒；逆转录病毒载体(例如，鼠白血病病毒)、脾坏死病毒和衍生自逆转录病毒的载体，如劳斯肉瘤病毒、哈维肉瘤病毒、禽白血病病毒、逆转录病毒、慢病毒、人类免疫缺陷病毒、骨髓增殖性肉瘤病毒和乳腺肿瘤病毒；等等。在一些实施例中，本发明的重组表达载体为重组腺相关病毒(AAV)载体。在一个具体实施例中，本公开的重组表达载体是重组逆转录病毒载体。在另一具体实施例中，本公开的重组表达载体是重组慢病毒载体。

AAV是一种小型(20nm)非致病性病毒，在使用病毒载体输送到细胞(如真核细胞)的情况下，可用于治疗人类疾病，无论是在体内还是体外，用于制备向受试者施用的细胞。生成构筑体，例如编码如本文所述的CasX蛋白和/或gNA实施例中的任一者的构筑体，以及任选的供体模板或编码CAR的多核苷酸，并且可以侧接AAV反向末端重复(ITR)序列，从而能够将 AAV载体包装成AAV病毒颗粒。

“AAV”载体可指天然存在的野生型病毒自身或其衍生物。该术语涵盖所有亚型、血清型及假型，及天然存在的及重组形式，除了另外要求时。如本文所用，术语“血清型”是指基于衣壳蛋白与界定抗血清的反应性鉴别且区别于其它AAV的AAV，例如存在许多已知的灵长类动物AAV血清型。在一些实施例中，AAV载体係选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74(恒河猴源性AAV)及AAVRh10，及此些血清型的经修饰衣壳。举例来说，血清型AAV-2用于指含有自AAV-2的cap基因编码的衣壳蛋白及含有来自相同AAV-2血清型的5'及3'ITR序列的基因体的AAV。假型AAV是指含有来自一种血清型的衣壳蛋白及包括第二血清型的5'-3'ITR的病毒基因体的AAV。将预期假型rAAV具有衣壳血清型的细胞表面结合特性及与ITR血清型一致的遗传特性。假型重组AAV(rAAV)係使用所属领域中描述的标准技术产生。如本文所用，举例来说，rAAV1可用于指衣壳蛋白及5'-3'ITR均来自相同血清型的AAV，或其可指具有来自血清型1的衣壳蛋白及来自不同AAV血清型(例如AAV血清型2)的5'-3'ITR的AAV。对于本文中说明的各实例，载体设计及生产的规格描述衣壳及5'-3'ITR序列的血清型。

“AAV病毒”或“AAV病毒粒子”是指由至少一种AAV衣壳蛋白(优选野生型AAV的所有衣壳蛋白)及衣壳化聚核苷酸构成的病毒粒子。如果粒子另外包含异源聚核苷酸(即，除了递送至哺乳动物细胞的野生型AAV基因体以外的聚核苷酸)，那么其通常称为“rAAV”。示范性异源多核苷酸是包含本文所述的任一实施例的CasX蛋白和/或sgNA及任选地供体模板的多核苷酸。

“腺相关病毒反向末端重复”或“AAVITR”意谓发现于AAV基因体的每一端处的技术识别的区域，其以顺式在一起起作用，作为DNA复制起点及病毒的封装信号。AAV ITR连同AAV rep编码区提供自插入两个侧接ITR之间的核苷酸序列的有效切除及解救，及将该核苷酸序列集成至哺乳动物细胞基因体中。

AAV ITR区的核苷酸序列为已知的。参见，例如Kotin,R.M.(1994)Human GeneTherapy 5:793-801；Berns,K.I.“Parvoviridae and their Replication”,FundamentalVirology,第2版,(B.N. Fields及D.M.Knipe编)。如本文所用，AAV ITR不必描绘野生型核苷酸序列，而是可经改变，例如通过核苷酸的插入、缺失或取代。另外，AAV ITR可衍生自若干AAV血清型中的任一者，包括但不限于AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、 AAV10、AAV-Rh74及AAVRh10，及此些血清型的经修饰衣壳。此外，侧接AAV载体中的所选核苷酸序列的5'及3'ITR不必相同或衍生自相同AAV血清型或分离株，只要其如所预期地起作用，即允许自宿主细胞基因体或载体切除及解救所关注序列，及允许将异源序列集成至受体细胞基因体中(当AAVRep基因产物存在于细胞中时)。使用AAV血清型将异源序列集成至宿主细胞中为所属领域中已知的(参见例如，WO2018195555A1和US20180258424A1，其通过引用并入本文)。

“AAV rep编码区”意谓编码复制蛋白Rep 78、Rep 68、Rep 52及Rep 40的AAV基因体区域。已显示此些Rep表达产物具有许多功能，包括识别、结合及切割DNA复制的AAV起点、DNA解螺旋酶活性及调节自AAV(或其它异源)启动子的转录。复制AAV基因体总体需要Rep表达产物。

“AAVcap编码区”意谓编码衣壳蛋白VP1、VP2及VP3，或其功能同源物的AAV基因体区域。此些Cap表达产物提供封装病毒基因体总体需要的封装功能。

在一些实施例中，用于将CasX、gNA和任选地供体模板核苷酸或编码CAR和/或细胞因子表达盒的多核苷酸递送到宿主细胞的AAV衣壳可衍生自几种AAV血清型中的任一种，包括但不限于AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、 AAV-Rh74(恒河猴源性AAV)，和AAVRh10，并且AAV ITR衍生自AAV血清型2。

为了产生rAAV病毒粒子，使用已知技术，例如通过转染将AAV表达载体引入至适合的宿主细胞中。包装细胞通常用于形成病毒颗粒；此类细胞包括包装腺病毒的HEK293或HEK293T细胞(以及本领域已知的其他它细胞)。多种转染技术为所属领域中总体已知的；参见例如Sambrook等人(1989)Molecular Cloning,a laboratory manual,Cold SpringHarbor Laboratories,New York。尤其适合的转染方法包括磷酸钙共沉淀、直接显微注射至经培养细胞中、电穿孔、脂质粒介导的基因转移、脂质介导的转导及使用高速微弹的核酸递送。

在一些实施例中，经上述AAV表达载体转染的宿主细胞使得能够提供AAV辅助功能，以便复制及衣壳化由AAVITR侧接的核苷酸序列，以产生rAAV病毒粒子。AAV辅助功能一般为AAV源性编码序列，其可经表达以得到AAV基因产物，所述产物转而以反式起作用以进行生产性AAV复制。AAV辅助功能在本文中用于补充自AAV表达载体缺失的所需AAV 功能。因此，AAV辅助功能包括一种或两种编码rep及cap编码区的AAV ORF(开放阅读框架)，或其功能同源物。可使用熟习所属领域者已知的方法将辅助功能引入至宿主细胞中且接着表达于宿主细胞中。通常，辅助功能係通过用无关的辅助病毒感染宿主细胞来提供。在一些实施例中，辅助功能係使用辅助功能载体提供。取决于所利用的宿主/载体系统，多种适合的转录及翻译控制元件(包括组成型及诱导型启动子、转录强化子元件、转录终止子等)中的任一者可用于表达载体中。

在其它实施例中，合适的载体可以包括病毒样颗粒(VLP)。病毒样颗粒(VLP)是与病毒非常相似的颗粒，但不含病毒遗传物质，因此不具有传染性。在一些实施例中，VLP包含编码感兴趣的转基因的多核苷酸，例如任何CasX蛋白和/或gNA实施例，和任选地，包装有一种或多种病毒结构蛋白的供体模板多核苷酸或编码CAR的多核苷酸，如本文所述。

在其它实施例中，本公开提供了体外产生的VLP，其包含CasX:gNA RNP复合物和任选地供体模板或编码CAR、工程化TCR或包含工程化TCR亚基的融合多肽的多核苷酸。来自不同病毒的结构蛋白的组合可用于产生VLP，包括来自病毒科的组分，病毒科包括细小病毒科(例如，腺相关病毒)、逆转录病毒科(例如，HIV)、黄病毒科(例如，丙型肝炎病毒)、副粘病毒科(例如，Nipah)和噬菌体(例如，Qβ、AP205)。在一些实施例中，本公开提供了使用逆转录病毒组分设计的VLP系统，包括慢病毒，如HIV，其中将包含编码各种组分的多核苷酸的单个质粒引入包装细胞中，继而产生VLP。在一些实施例中，本公开提供了包含gag多蛋白的一种或多种组分的VLP，该gag多蛋白选自基质蛋白(MA)、核衣壳蛋白(NC)、衣壳蛋白 (CA)、p1-p6蛋白和蛋白酶裂解位点，其中所得VLP颗粒包裹CasX:gNA RNP，并且其中VLP 颗粒进一步包含在表面上为靶细胞提供趋向性的靶向糖蛋白，其中在施用和进入靶细胞时， RNP分子可以自由运输到细胞核中。在其它实施例中，本公开提供了包含gag多蛋白的一种或多种组分的VLP，gag多蛋白选自基质蛋白(MA)、核衣壳蛋白(NC)、衣壳蛋白(CA)、p1-p6 蛋白、pol多蛋白的一种或多种成分、蛋白酶裂解位点，其中所得VLP颗粒包裹CasX:gNA RNP，并且其中VLP颗粒进一步包含在表面上向靶细胞提供趋向性的靶向糖蛋白，其中在施用和进入靶细胞时，RNP分子可以自由运输到细胞核中。前述提供优于本领域其它载体的优势在于病毒转导至分裂和非分裂细胞是有效的，并且VLP递送有效且短寿命的RNP，其逃避受试者的免疫监视机制，否则将检测到外来蛋白质。在一些实施例中，一种在宿主细胞中制备VLP的系统包含编码一种或多种组分的多核苷酸，该一种或多种组分选自i)gag多蛋白或其部分；ii)本文所述的任何实施例的CasX蛋白；iii)蛋白酶裂解位点；iv)蛋白酶；v)本文所述的任何实施例的引导RNA；vi)pol多蛋白或其部分；vii)提供VLP与靶细胞结合和融合的假型糖蛋白或抗体片段；以及viii)CAR或工程化TCR。包膜蛋白或糖蛋白可以衍生自本领域已知的赋予VLP嗜性的任何包膜病毒，包括但不限于由以下组成的组：阿根廷出血热病毒、澳大利亚蝙蝠病毒、加州自体多核多角体病毒、禽白血病病毒、狒狒内源性病毒、玻利维亚出血热病毒、博尔纳病病毒、布雷达病毒、布尼亚姆韦拉病毒、昌迪普拉病毒、基孔肯雅病毒、克里米亚-刚果出血热病毒、登革热病毒、杜文哈奇病毒、东部马脑炎病毒、埃博拉出血热病毒、扎伊尔埃博拉病毒病毒、肠道腺病毒、暂时热病毒属、Epstein-Bar病毒(EBV)、欧洲蝙蝠病毒1、欧洲蝙蝠病毒2、Fug合成gP融合、长臂猿白血病病毒、汉坦病毒、亨德拉病毒、甲型肝炎病毒、乙型肝炎病毒、丙型肝炎病毒、丁型肝炎病毒、戊型肝炎病毒、庚型肝炎病毒(GB病毒C)、单纯疱疹病毒1型、单纯疱疹病毒2型、人类巨细胞病毒(HHV5)、人类泡沫病毒、人类疱疹病毒(HHV)、人类疱疹病毒7、人类疱疹病毒6型、人类疱疹病毒8 型、人类免疫缺陷病毒1(HIV-1)、人类偏肺病毒、人类T淋巴细胞病毒1、甲型流感、乙型流感、丙型流感病毒、日本脑炎病毒、卡波西肉瘤相关疱疹病毒(HHV8)、凯萨努尔森林病病毒、拉克罗斯病毒、拉各斯蝙蝠病毒、拉沙热病毒、淋巴细胞脉络丛脑膜炎病毒(LCMV)、马丘波病毒、马尔堡出血热病毒、麻疹病毒、中东呼吸综合征相关冠状病毒、莫科拉病毒、莫洛尼鼠白血病病毒、猴痘病毒、小鼠乳腺肿瘤病毒、腮腺炎病毒、鼠γ疱疹病毒、新城疫病毒、尼帕病毒、尼帕病毒、诺沃克病毒、鄂木斯克出血热病毒、乳头瘤病毒、细小病毒、伪狂犬病病毒、夸兰菲尔病毒、狂犬病病毒、RD114内源性猫逆转录病毒、呼吸道合胞病毒(RSV)、裂谷热病毒、罗斯河病毒、rRotavirus、Rous肉瘤病毒、风疹病毒、Sabia相关出血热病毒、 SARS相关冠状病毒(SARS-CoV)、仙台病毒、塔卡里伯病毒、索戈托病毒、蜱传脑炎病毒、水痘带状疱疹病毒(HHV3)、水痘带状疱疹病毒(HHV3)、主要天花病毒、小型天花病毒、委内瑞拉马脑炎病毒、委内瑞拉出血热病毒、水疱性口炎病毒(VSV)、VSV-G、水疱病毒、西尼罗河病毒、西部马脑炎病毒和寨卡病毒。在一些实施例中，用于生产VLP的包装细胞选自由以下组成的组：HEK293细胞、Lenti-X 293T细胞、BHK细胞、HepG2细胞、Saos-2细胞、 HuH7细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、A549细胞、P3X63小鼠骨髓瘤细胞、 PER细胞、PER.C6细胞、杂交瘤细胞、VERO细胞、NIH3T3细胞、COS细胞、WI38细胞、 MRC5细胞、A549细胞、HeLa细胞、CHO细胞或HT1080细胞。

VII.细胞

在一些实施例中，本公开提供了一种已被修饰以敲低或敲除参与抗原加工、抗原呈递、抗原识别和/或抗原反应的细胞的一种或多种蛋白质的细胞群。在其它实施例中，本公开提供了一种已被修饰以敲入一种或多种嵌合抗原受体(CAR)或融合多肽的细胞群，融合多肽包含对疾病抗原具有结合亲和力的工程化TCR的亚基。在其它实施例中，本公开提供了一种已被修饰以敲入一种或多种T细胞衍生的信号链多肽的细胞群。在一些实施例中，细胞群包含所有前述修饰；例如，一种或多种参与抗原加工、抗原呈递、抗原识别和/或抗原反应的细胞蛋白质的敲低/敲除，一种或多种嵌合抗原受体(CAR)或对疾病抗原特异的工程化TCR的融合多肽的敲入。以这种方式改变的此类修饰细胞可用于免疫治疗应用，例如用于离体制备带有 CAR的细胞，以用于有需要的受试者。

在一些实施例中，本公开提供了一种包含CasX:gNA系统的细胞群，该CasX:gNA系统包含CasX蛋白和一种或多种gNA，其中gNA包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因的靶核酸序列互补的靶向序列，其中设计CasX和gNA以修饰编码蛋白质的基因。在前述的一个实施例中，CasX:gNA系统被设计为敲低/敲除编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质的基因，从而产生修饰的细胞群。在前述的另一实施例中，CasX:gNA系统被设计为敲低/敲除编码MHC I类分子的基因，从而产生修饰的细胞群。在一些实施例中，蛋白质是免疫细胞表面标志物。在其它实施例中，蛋白质是细胞内蛋白质。在一些实施例中，将CasX和一种或多种gNA引入复合为RNP的细胞群中，使得RNP可以随后修饰靶基因。在其它情况下，使用载体将CasX和一种或多种gNA作为编码多核苷酸引入细胞群。

在其它实施例中，细胞群已通过使细胞与CasX蛋白、一种或多种包含靶向序列的gNA 和供体模板接触而被修饰，其中供体模板插入或替换编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因的全部或部分靶核酸序列。在前述实施例中，供体模板包含靶基因的至少一部分，其中靶基因部分选自外显子、内含子、内含子-外显子连接或调节元件，并且细胞的修饰导致野生型序列的突变和靶基因的敲低或敲除。在一些情况下，供体模板是单链DNA模板或单链RNA模板。在其它情况下，供体模板是双链DNA模板。在一些情况下，细胞与CasX和gNA接触，其中gNA是引导RNA(gRNA)。在其它情况下，细胞与CasX和gNA接触，其中gNA是引导DNA(gDNA)。在其它情况下，细胞与CasX和gNA 接触，其中gNA是包含DNA和RNA的嵌合体。如本文所述，在任何组合的实施例中，所述gNA分子(支架和靶向序列的组合，其可以被配置为sgRNA或dgRNA)中的每一个可以作为与本文所述的CasX分子复合的RNP提供。可以通过任何合适的方法将RNP引入待修饰的细胞中，包括通过电穿孔、注射、核转染、通过脂质体递送、通过纳米颗粒递送或使用与 CasX:gNA的一种或多种组分缀合的蛋白质转导域(PTD)。使用CasX:gNA系统组件修饰细胞的其它方法包括病毒感染、转染、缀合、原生质体融合、粒子枪技术、磷酸钙沉淀、直接显微注射等。方法的选择通常取决于被转化细胞的类型和发生转化的环境；例如，体外、离体或体内。对这些方法的一般性讨论可见于Ausubel等人，《分子生物学简短协议Short Protocols in MolecularBiology)》，第3版，Wiley&Sons出版社，1995。

在示范性实施例中，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质选自β-2- 微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子 (CIITA)、ICP47、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)、PD-1、CTLA-4、LAG-3、TIM-3、2B4、TIGIT、 CISH、ADORA2A、NKG2A或TGFβ受体2(TGFβRII)。在其它实施例中，蛋白质选自分化簇247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK) 或FKBP1A。在其它实施例中，待在细胞中修饰的蛋白质选自以下中的一个：i)β-2-微球蛋白 (B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子(CIITA)、 ICP47、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、TIGIT、CISH ADORA2A、 NKG2A、PD-1、CTLA-4、LAG-3、TIM-3、2B4、人白细胞抗原A(HLA-A)、人白细胞抗原 B(HLA-B)或TGFβ受体2(TGFβRII)，以及另一种选自以下中的一个：ii)分化簇247(CD247)、 CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)或FKBP1A。

在一些实施例中，细胞群包括一种或多种细胞，其减少或消除了T细胞受体(TCR)组分的表达。在一些实施例中，T细胞受体是天然T细胞受体。在一些实施例中，T细胞受体(TCR) 组分的减少或消除的表达包括TRAC的减少或消除的表达。在其它实施例中，T细胞受体 (TCR)组分的减少或消除的表达包括TRBC1的减少或消除的表达。在又其它实施例中，T细胞受体(TCR)组分的减少或消除的表达包括TRBC2的减少或消除的表达。在又其它实施例中， T细胞受体(TCR)的组分的减少或消除的表达包括CD3G的减少或消除的表达。在又其它实施例中，T细胞受体(TCR)组分的减少或消除的表达包括CD3D的减少或消除的表达。在其它实施例中，T细胞受体(TCR)组分的减少或消除的表达包括CD3E的减少或消除的表达。在一些情况下，TCR的所述组分的减少或消除的表达是将一种或多种，例如一种或两种，例如一种本文描述的对TCR的组分特异的gNA分子引入细胞的结果。例如，使用CasX:gNA系统的方法可以在gNA分子对TCR的靶向域的靶序列处或附近向细胞中引入插入缺失，例如移码突变，例如如本文所述。在其它情况下，TCR的所述组分的减少或消除的表达是引入CasX、一种或多种gNA和供体模板的结果，该供体模板与待敲低或敲除的TCR相比包含一种或多种突变。在一些实施例中，细胞群包括至少约50％，例如至少约60％，例如至少约70％，例如至少约80％，例如至少约90％或更多的细胞(如本文所述)，其表现出TCR组分的减少或消除表达；例如，TRAC。在实施例中，通过流式细胞术或本领域已知的其它方法测量TCR组分的所述减少或消除表达。在其它实施例中，至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞不表达可检测水平的野生型T细胞受体。

在一些实施例中，(替代地或除此之外，包括TCR组分的减少或消除表达)细胞或细胞群包括一种或多种β-2微球蛋白(B2M)表达减少或消除的细胞。在实施例中，所述B2M的所述减少或消除表达是将一种或多种，例如一种或两种，例如一种本文描述的靶向编码B2M的基因的gNA分子引入所述细胞的结果。在前述实施例中，gNA的靶向序列包括选自由表3A、表13和表16所列序列组成的组的序列，或与其具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。在一些实施例中，修饰的细胞在gNA分子对所述B2M的靶向域的靶序列处或附近包括插入缺失，例如移码突变，如本文所述。在一些实施例中，细胞群包括至少约50％，例如至少约60％，例如至少约70％，例如至少约80％，例如至少约90％或更多细胞(如本文所述)，其表现出B2M的减少或消除表达。在实施例中，通过流式细胞术或本领域已知的其它方法测量B2M的所述减少或消除表达。

在某些实施例中，(替代地或除此之外，包括TCR和/或B2M组分的减少或消除表达)细胞或细胞群包括一种或多种CIITA表达减少或消除的细胞。在前述实施例中，gNA的靶向序列包含选自由表3C所列序列组成的组的序列，或与其具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。在一些实施例中，所述CIITA的所述减少或消除表达是将一种或多种，例如一种或两种，例如一种本文描述的靶向编码所述CIITA的基因的gNA分子引入所述细胞的结果。在上文中，gNA的靶向序列包含选自由表3C中所列序列组成的组的序列，或与其具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。在实施例中，细胞在gNA分子的对所述CIITA的靶向域的靶序列处或附近包括插入缺失，例如移码突变，例如，如本文所述。在实施例中，细胞群包括至少约50％，例如至少约60％，例如至少约70％，例如至少约80％，例如至少约90％或更多细胞(如本文所述)，其表现出CIITA的减少或消除表达。在实施例中，通过流式细胞术或本领域已知的其它方法测量CIITA的所述减少或消除表达。

在其它实施例中，本公开提供了细胞群，其中细胞已经被修饰，使得至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％的细胞不表达可检测水平的至少两种选自由B2M、TRAC和CIITA组成的组的蛋白质。在其它实施例中，本公开提供了细胞群，其中细胞已经被修饰，使得至少约50％、至少约60％、至少约70％、至少约80％、至少约 90％或至少约95％的细胞不表达可检测水平的蛋白质B2M、TRAC和CIITA。在其它实施例中，本公开提供了细胞群，其中细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞不表达可检测水平的MHC I类分子或野生型T细胞受体。在其它实施例中，本公开提供了细胞群，其经修饰以产生CAR并且被进一步修饰以使得至少约 50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％的细胞包含编码一种或多种选自由IL-7、IL-12、IL-15和IL-18组成的组的免疫刺激细胞因子的诱导型表达盒。

在一些实施例中，本公开提供了经修饰以：i)具有MHC I类分子和/或野生型T细胞受体的减少或消除表达，和ii)表达CAR或工程化TCR的细胞群。此类细胞能够特异性结合作为 CAR或工程化TCR的配体的细胞的肿瘤抗原，由此结合，修饰的细胞能够产生选自以下的反应：i)被激活；ii)诱导修饰细胞的增殖；iii)修饰细胞分泌的细胞因子；或iv)诱导带有所述肿瘤抗原的细胞的细胞毒性。例如，细胞群可能具有野生型TRAC和TRBC1的减少或消除表达，并且表达包含与抗原结合域融合的TRAC和/或TRBC1跨膜和细胞内域的融合多肽。激活包括克隆扩增和分化、包括IFN-γ、TNF-α或IL-2的细胞因子的表达。细胞因子的产生和细胞毒性的评估可以通过如ELISA、⁵¹CR释放、流式细胞术和本领域已知的其它此类测定法的标准测定法来确定。

在旨在减少或消除T细胞受体的两种组分(例如，TRAC)在细胞或细胞群中的表达的示范性实施例中(包括当额外靶标(例如，多于一个额外靶标)的表达或功能也被减少或消除的实施例)，靶向TRAC的gNA靶向序列分子选自表3B的序列。例如，细胞表现出TCR组分(例如， TRAC、TRBC1、TRBC2、CD3E、CD3G和/或CD3D)的表达减少或消除，并且免疫抑制剂或例如FKBP1A的免疫检查点蛋白或选自由PD-1、CISH、CTLA-4、LAG-3、TIM-3、2B4、 TIGIT、ADORA2A、NKG2A、分化簇247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)和脱氧胞苷激酶(dCK)组成的组的蛋白质的靶标的表达减少或消除。如本文所述，在任何组合的实施例中，所述gNA分子(支架和靶向序列的组合，其可以被配置为例如sgRNA或dgRNA)中的每一个可以作为具有本文所述的CasX分子RNP提供，用于修饰细胞群。在任何组合的其它实施例中，所述gNA分子(支架和靶向序列的组合，其可以被配置为例如sgRNA或dgRNA)和CasX中的每一个可以作为载体内的编码多核苷酸提供，用于修饰细胞群。

在一些实施例中，细胞群是动物细胞，例如，源自啮齿动物、大鼠、小鼠、兔子或狗细胞。在一些实施例中，细胞为人类细胞。在一些实施例中，细胞是非人灵长类动物细胞；例如，食蟹猴细胞。在一些实施例中，细胞是祖细胞、造血干细胞或多能干细胞。在一个实施例中，细胞是诱导多能干细胞。在一些实施例中，细胞为免疫细胞。在一些实施例中，细胞是免疫效应细胞(例如，包括一种或多种免疫效应细胞的细胞群)，例如，T细胞、NK细胞、 B细胞、巨噬细胞或树突细胞。T细胞包括但不限于调节性T细胞(TREG)、γ-δT细胞、辅助性T细胞和细胞毒性T细胞。在一些实施例中，细胞是选自由CD4+T细胞、CD8+T细胞或其组合组成的组的T细胞。在一些实施例中，细胞群相对于待施用所述细胞群的受试者是自体的或同种异体的(遗传上不匹配的)。

在一些实施例中，本公开提供了一种细胞或细胞群，其是表达CAR或工程化TCR的细胞，并且已被修饰以减少或消除一种或多种参与抗原加工、呈递、识别或反应的蛋白质，如上所述。在一些实施例中，通过本文所述的方法、离体、通过引入编码CAR或工程化TCR 的多核苷酸或包含多核苷酸的载体，修饰和/或改变如本文所述的CAR或工程化TCR细胞。在其它实施例中，如本文所述的CAR或工程化TCR细胞通过本文所述的方法在体内利用引入如本文所述细胞的CasX:gNA分子和/或组合物(例如，包含CasX、多于一种gNA分子的组合物以及任选地，供体模板，以及编码CAR的多核苷酸)进行修饰和/或改变。在实施例中，细胞已经、正在或将被修饰以表达嵌合抗原受体(CAR)或工程化TCR，如本文所述(例如，细胞包括或将包括编码CAR的多核苷酸序列，或包含工程化TCR亚基的融合蛋白)。在实施例中，CAR或工程化TCR对选自以下的抗原具有特异性结合亲和力：分化簇19(CD19)、CD3、 CD8、CD7、CD10、CD20、CD22、CD30、CLL1、CD33、CD34、CD38、CD41、CD44、 CD47、CD49f、CD56、CD70、CD74、CD99、CD123、CD133、CD138、碳酸酐酶IX(CAIX)、 CC趋化因子受体4(CCR4)、ADAM金属肽酶域12(ADAM12)、粘附G蛋白偶联受体E2 (ADGRE2)、碱性磷酸酶胎盘样2(ALPPL2)、α4整合素、血管生成素-2(ANG2)、B细胞成熟抗原(BCMA)、CD44V6、癌胚抗原(CEA)、CEAC、CEACAM5、连接蛋白6(CLDN6)、 CLDN18、C型凝集素域家族12成员A(CLEC12A)、间充质-上皮转换因子(cMET)、细胞毒性T淋巴细胞相关蛋白4(CTLA4)、表皮生长因子受体1(EGF1R)、EGFR-VIII、上皮糖蛋白2(EGP-2)、EGP-40、EphA2、ENPP3、上皮细胞粘附分子(EpCAM)、erb-B2,3,4、叶酸结合蛋白(FBP)、胎儿乙酰胆碱受体、叶酸受体-a、叶酸受体1(FOLR1)、G蛋白偶联受体143(GPR143)、谷氨酸代谢受体8(GRM8)、磷脂酰肌醇聚糖-3(GPC3)、神经节苷脂GD2、神经节苷脂GD3、人表皮生长因子受体1(HER1)、人表皮生长因子受体2(HER2)、HER3、整合素B7、细胞间细胞粘附分子-1(ICAM-1)、人端粒酶逆转录酶(hTERT)、白介素-13受体α2(IL-13R-a2)、K- 轻链、激酶插入域受体(KDR)、Lewis-Y(LeY)、软骨调节素-1(LECT1)、Ll细胞粘附分子、溶血磷脂酸受体3(LPAR3)、黑色素瘤相关抗原1(MAGE-A1)、间皮素、粘蛋白1(MUC1)、 MUC16、黑色素瘤相关抗原3(MAGEA3)、肿瘤蛋白p53(p53)、T细胞识别的黑色素瘤抗原 1(MARTl)、糖蛋白100(GP100)、蛋白酶3(PR1)、ephrin-A受体2(EphA2)、自然杀伤组2D 配体(NKG2D配体)、纽约食管鳞状细胞癌1(NY-ESO-1)、癌胎儿抗原(h5T4)、前列腺特异性膜抗原(PSMA)、程序性死亡配体1(PDL-1)、受体酪氨酸激酶样孤儿受体1(ROR1)、滋养层糖蛋白(TPBG)、肿瘤相关糖蛋白72(TAG-72)、肿瘤相关钙信号转导2(TROP-2)、酪氨酸酶、存活素、血管内皮生长因子受体2(VEGF-R2)、肾母细胞瘤1(WT-1)、白细胞免疫球蛋白样受体B2(LILRB2)、黑色素瘤中优先表达的抗原(PRAME)、T细胞受体β恒定1(TRBC1)、 TRBC2和(T细胞免疫球蛋白粘蛋白3)TIM-3。在上文中，CAR或工程化TCR包含选自单域抗体、线性抗体或单链可变片段(scFv)的抗原结合域，其可以源于参考抗体；例如，表5的抗体(具有表5的VL、VH和/或CDR序列)。在一些实施例中，抗原结合域表现出对靶抗原的平衡结合常数介于或介于约10^-5和10^-12M之间的亲和力以及其中的所有单独值和范围(例如， 10^-5M、10^-6M、10^-7M、10^-8M、10^-9M、10^-10M、10^-11M或10^-12M)；这种结合亲和力是“特异性的”。在一些实施例中，CAR或工程化TCR包括抗原结合域、衍生自选自由CD3-ζ、 CD4、CD8和CD28组成的组的多肽的跨膜域和细胞内信号传导域，其可以通过间隔序列连接。在一些实施例中，编码的CAR进一步包含一种或多种T细胞衍生的信号链多肽，包括但不限于CD3-ζ、CD27、CD28、4-1BB(41BB)、ICOS或OX40，它们直接或通过域铰链和/ 或间隔连接到CAR抗原结合域。铰链域可以是免疫球蛋白样铰链，或分离或衍生自CD8a分 (CD8)或CD28的铰链域。铰链、间隔和跨膜域将抗原结合域连接到激活域并将CAR锚定在 T细胞膜中。在其它实施例中，本文所述的CAR或工程化TCR表达细胞可以进一步包含第二CAR或工程化TCR，例如第二CAR，其包括不同的抗原结合域，例如对相同靶标或不同靶标(例如，除本文所述的癌症相关抗原或上文所述的不同癌症相关抗原之外的靶标)。在一些实施例中，第二CAR或工程化包括与在与癌症相关抗原相同的癌细胞类型上表达的靶标结合的抗原结合域。在一些实施例中，表达CAR的细胞包含：第一CAR，其靶向第一抗原并包括具有共刺激信号传导域但不是初级信号传导域的细胞内信号传导域；以及第二CAR，其靶向第二不同抗原并包括具有初级信号传导域但没有共刺激信号传导域的细胞内信号传导域。在不希望受到理论约束的情况下，将共刺激T细胞衍生的信号传导域，例如CD27、CD28、4-1BB(41BB)、ICOS或OX40，放置在第一CAR上，并将初级信号域，例如，CD3ζ，放置在第二CAR上，可以将CAR活性限制在表达两个靶标的细胞上。在一些实施例中，CAR表达细胞包含：第一疾病(例如癌症)相关抗原CAR，其包括结合本文所述靶抗原的抗原结合域、跨膜域和共刺激域；以及第二CAR，其靶向不同靶抗原(例如，在与第一靶抗原相同的细胞类型上表达的抗原)并且包括抗原结合域、跨膜域和初级信号传导域。在其它实施例中，CAR 表达细胞包含：第一CAR，其包括结合本文所述靶抗原的抗原结合域、跨膜域和初级信号传导域；以及和第二CAR，其靶向除第一靶抗原以外的抗原(例如，在与第一靶抗原相同的癌细胞类型上表达的抗原)并且包括与抗原的抗原结合域、跨膜域和共刺激信号传导域。

在另一实施例中，本公开提供了用可诱导表达盒修饰的CAR或工程化TCR表达细胞群，该表达盒编码如IL-7、IL-12、IL-15和/或IL-18等免疫刺激细胞因子的表达，其中细胞因子改善了CAR或工程化TCR细胞的扩增和持久性，同时使它们在施用于受试者时对免疫抑制性肿瘤环境具有抗性。在一些实施例中，本公开提供了一种细胞群，其中该群的至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞表达可检测水平的CAR或工程化TCR。

在实施例中，其中一种或多种蛋白质的表达或功能已通过本文所述的方法降低或消除的本发明的CAR或工程化TCR表达细胞群保持响应于刺激而被激活和增殖的能力，例如，CAR 或工程化TCR与其靶抗原的结合。在实施例中，增殖离体发生，从而可以扩增细胞群。在一个实施例中，通过在适当培养基中在适当生长条件下体外培养扩增CAR或工程化TCR表达细胞群。在其它实施例中，增殖发生在体内。在实施例中，增殖发生在离体和体内。在实施例中，增殖水平与由相同细胞类型(例如，相同类型的CAR表达细胞)表现出的增殖水平基本相同，但一种或多种蛋白质的表达或功能没有降低或消除。

该方法提供免疫细胞；例如，T细胞、TREG细胞、γ-δT细胞、NK细胞、B细胞、巨噬细胞或树突细胞，可以使用本领域技术人员已知的许多技术从自受试者收集的血液单位中获得。在一个示范性方面，来自个体循环血液的细胞通过单采术获得。单采产品通常含有淋巴细胞，包括T细胞、单核细胞、粒细胞、B细胞、其它有核白细胞、红细胞和血小板。在一些实施例中，T细胞是CD4+T细胞、CD8+T细胞或其组合。可以洗涤通过单采术收集的细胞以去除血浆级分，并且任选地，将细胞置于适当的缓冲液或培养基中用于后续处理步骤。在一些实施例中，通过裂解红细胞并耗尽单核细胞，例如通过PERCOLL^TM梯度离心或通过逆流离心淘析，从外周血淋巴细胞中分离T细胞。该方法可以包括以下步骤：i)引入CasX:gNA 系统组件以编辑靶核酸；ii)将编码CAR和/或实施例的工程化TCR的一种或多种融合多肽的核酸引入细胞；iii)i)细胞的扩增，和iv)细胞的冷冻保存以便随后施用于受试者。造血干细胞和祖细胞的离体扩增程序描述于通过引用并入本文的美国专利号5,199,942，可以应用于本发明的细胞。

在T细胞和/或CD4+和/或CD8+T细胞的亚型和亚群中，有幼稚T细胞、效应T细胞、如干细胞记忆T、中枢记忆T、效应记忆T或终末分化效应记忆T细胞等记忆T细胞及其亚型、肿瘤浸润淋巴细胞、未成熟T细胞、成熟T细胞、辅助T细胞、细胞毒性T细胞、黏膜相关不变T细胞、天然存在和适应性调节T(Treg)细胞、如TH1细胞、TH2细胞、TH3细胞、 TH17细胞、TH9细胞、TH22细胞、滤泡辅助T细胞等辅助T细胞、α/βT细胞和δ/γT细胞。

本文所述的方法可包括使用例如本文所述的负选择技术选择免疫效应细胞的特定亚群，例如T细胞，其是T调节细胞耗尽的群体、CD25+耗尽的细胞。优选地，T调节耗尽的细胞群含有少于30％、25％、20％、15％、10％、5％、4％、3％、2％、1％的CD25+细胞。在一些实施例中，该方法提供使用抗CD25抗体或其片段或CD25结合配体IL-2从群体中去除T调节细胞，例如CD25+T细胞。在其它实施例中，抗CD25抗体缀合至基底，例如珠子，或以其它方式包被在基底上，在基底上添加并洗涤细胞群以实现分离。

在其它实施例中，通过裂解红细胞并耗尽单核细胞，例如通过PERCOLL^TM梯度离心或通过逆流离心淘析，从外周血淋巴细胞中分离T细胞。细胞通常是原代细胞，如直接从受试者分离和/或从受试者分离并冷冻的那些细胞。

本文所述的方法可进一步包括从表达疾病抗原(例如，不包含CD25的肿瘤抗原，例如， CD19、CD30、CD38、CD123、CD20、CD14或CD11b)的群体中移除细胞，从而提供适合表达本文所述CAR的T调节耗尽(例如，CD25+耗尽)和肿瘤抗原耗尽的细胞群体。在一些实施例中，肿瘤抗原表达细胞与T调节细胞，例如CD25+细胞同时移除。例如，抗CD25抗体或其片段和抗肿瘤抗原抗体或其片段可附着于相同的基底，例如珠子，其可用于移除细胞，或抗CD25抗体或其片段，或抗肿瘤抗原抗体或其片段可以附着于单独的珠子上，其混合物可以用于移除细胞。在其它实施例中，T调节细胞(例如CD25+细胞)的移除和肿瘤抗原表达细胞的移除是连续的，并且可以例如以任一顺序发生。

用于刺激的T细胞也可以在洗涤步骤后冷冻，冷冻和随后的解冻步骤通过去除细胞群中的粒细胞和一定程度的单核细胞来提供更均匀的产品。在去除血浆和血小板的洗涤步骤之后，可以将细胞悬浮在合适的冷冻溶液中。在某些情况下，在使用本公开的方法激活之前，将冷冻保存的细胞解冻并洗涤并使其在室温下静置一小时。

在其它实施例中，本公开的细胞(例如，本公开的免疫细胞和/或本发明的CAR表达细胞) 是诱导多能干细胞(“iPSC”)或胚胎干细胞(ESC)，或者是由所述iPSC和/或ESC生成(例如，分化)的T细胞。iPSCs可以例如通过本领域已知的方法从外周血T淋巴细胞，例如从健康志愿者分离的外周血T淋巴细胞中生成。同样，此类细胞可以通过本领域已知的方法分化成T 细胞(参见例如，Themeli M.等人，《自然生物技术(Nat.Biotechnol.)31:928(2013)；doi:10.1038/nbt.2678；和WO2014/165707，其各自的内容通过引用整体并入本文)。

在一些实施例中，本公开提供了修饰的细胞群，用于在患有与癌症或肿瘤相关的疾病的受试者(免疫疗法)中提供抗肿瘤免疫的方法中使用。在一些实施例中，该方法包含向受试者施用治疗有效量的本文所述的任何修饰细胞实施例的群体。

在一些实施例中，总细胞的剂量和/或单个细胞亚群的剂量在等于或约10⁴至等于或约10⁹细胞/千克(kg)体重的范围内，如在10⁵和10⁶细胞/kg体重，例如，等于或约1×10⁵细胞/kg、 1.5×10⁵细胞/kg、2×10⁵细胞/kg或1×10⁶细胞/kg体重。例如，在一些实施例中，以等于或约 10⁴至或约10⁹细胞/千克(kg)体重，如10⁵和10⁶细胞/kg体重之间，例如等于或约1×10⁵细胞/kg、 1.5×10⁵细胞/kg、2×10⁵细胞/kg，或1×10⁶细胞/kg体重，或在某个误差范围内施用细胞。

在一些实施例中，有效量的修饰细胞的施用导致受试者中与疾病相关的临床参数或指标的改善，其中临床参数或指标选自由以下组成的组中的一种或任意组合：完全、部分或不完全反应的肿瘤缩小；进展时间、治疗失败时间、生物标志物反应；无进展生存期；无病生存；复发时间；转移时间；总生存时间；提高生活质量；以及症状的改善。

在一些实施例中，本公开提供了制备用于受试者中的免疫疗法的细胞的方法，其包含通过减少或消除一种或多种参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的表达来修饰免疫效应细胞。在一些实施例中，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质选自β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、ICP47多肽、 II类主要组织相容性复合体反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、PD-1、CTLA-4、LAG-3、TIM-3、2B4、CISH、ADORA2A、TIGIT、 NKG2A、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)、TGFβ受体2(TGFβRII)、分化簇247(CD247)、CD3D、CD3E、CD3G、CD52、人类白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)或FKBP1A。在一些实施例中，该方法包含使免疫效应细胞的靶核酸序列与包含CasX 蛋白和引导核酸(gNA)的CasX:gNA系统接触，其中gNA包含(a)与基因或编码蛋白质的基因的一部分、基因的调节元件，或两者的靶核酸序列互补的靶向序列，或(b)与编码一种或多种蛋白质的基因的靶核酸序列互补的靶向序列。在一些实施例中，细胞已经被修饰，使得与未修饰的细胞相比，一种或多种蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％或至少约90％、或至少约95％。在该方法的其它实施例中，细胞已经被修饰，使得细胞不表达可检测水平的一种或多种蛋白质。在该方法的示范性实施例中，待敲低或敲除的蛋白质选自B2M、TRAC或CIITA。在该方法的其它实施例中，细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞不表达可检测水平的MHC I 类分子。在该方法的其它实施例中，细胞已经被修改，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞不表达可检测水平的野生型T细胞受体。

在一些实施例中，本公开提供了一种制备用于受试者中的免疫疗法的细胞的方法，该方法除了通过减少或消除参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的表达来修饰免疫效应细胞外进一步包含通过引入编码对肿瘤细胞抗原特异的嵌合抗原受体(CAR)的核酸来修饰细胞。在一些实施例中，CAR的肿瘤细胞抗原配体选自：分化簇19(CD19)、CD3、 CD8、CD7、CD10、CD20、CD22、CD30、CLL1、CD33、CD34、CD38、CD41、CD44、 CD47、CD49f、CD56、CD70、CD74、CD99、CD123、CD133、CD138、碳酸酐酶IX(CAIX)、 CC趋化因子受体4(CCR4)、ADAM金属肽酶域12(ADAM12)、粘附G蛋白偶联受体E2 (ADGRE2)、碱性磷酸酶胎盘样2(ALPPL2)、α4整合素、血管生成素-2(ANG2)、B细胞成熟抗原(BCMA)、CD44V6、癌胚抗原(CEA)、CEAC、CEACAM5、连接蛋白6(CLDN6)、 CLDN18、C型凝集素域家族12成员A(CLEC12A)、间充质-上皮转换因子(cMET)、细胞毒性T淋巴细胞相关蛋白4(CTLA4)、表皮生长因子受体1(EGF1R)、EGFR-VIII、上皮糖蛋白 2(EGP-2)、EGP-40、EphA2、ENPP3、上皮细胞粘附分子(EpCAM)、erb-B2,3,4、叶酸结合蛋白(FBP)、胎儿乙酰胆碱受体、叶酸受体-a、叶酸受体1(FOLR1)、G蛋白偶联受体143(GPR143)、谷氨酸代谢受体8(GRM8)、磷脂酰肌醇聚糖-3(GPC3)、神经节苷脂GD2、神经节苷脂GD3、人表皮生长因子受体1(HER1)、人表皮生长因子受体2(HER2)、HER3、整合素B7、细胞间细胞粘附分子-1(ICAM-1)、人端粒酶逆转录酶(hTERT)、白介素-13受体α2(IL-13R-a2)、K- 轻链、激酶插入域受体(KDR)、Lewis-Y(LeY)、软骨调节素-1(LECT1)、Ll细胞粘附分子、溶血磷脂酸受体3(LPAR3)、黑色素瘤相关抗原1(MAGE-A1)、间皮素、粘蛋白1(MUC1)、 MUC16、黑色素瘤相关抗原3(MAGE-A3)、肿瘤蛋白p53(p53)、T细胞识别的黑色素瘤抗原 1(MART1)、糖蛋白100(GP100)、蛋白酶3(PR1)、ephrin-A受体2(EphA2)、自然杀伤组2D 配体(NKG2D配体)、纽约食管鳞状细胞癌1(NY-ES0-1)、癌胎儿抗原(h5T4)、前列腺特异性膜抗原(PSMA)、程序性死亡配体1(PDL-1)、受体酪氨酸激酶样孤儿受体1(ROR1)、滋养层糖蛋白(TPBG)、肿瘤相关糖蛋白72(TAG-72)、肿瘤相关钙信号转导2(TROP-2)、酪氨酸酶、存活素、血管内皮生长因子受体2(VEGF-R2)、肾母细胞瘤1(WT-1)、白细胞免疫球蛋白样受体B2(LILRB2)、黑色素瘤中优先表达的抗原(PRAME)、T细胞受体β恒定1(TRBC1)、 TRBC2和(T细胞免疫球蛋白粘蛋白3)TIM-3。在一些实施例中，CAR包含选自线性抗体、单域抗体(sdAb)或单链可变片段(scFv)的抗原结合域。在一些实施例中，抗原结合域是衍生自对肿瘤细胞抗原具有特异性结合亲和力的参考抗体的scFv。在一些实施例中，scFv包含选自由表5中所列序列组成的组的VH和VL和/或重链和轻链CDR。在上述实施例中，VH、VL和 /或CDR可以具有一个或多个氨基酸取代，其中scFv保留对肿瘤抗原的特异性结合亲和力。

在制备用于受试者中的免疫疗法的细胞的方法的其它实施例中，编码CAR的核酸进一步包含编码至少一个细胞内信号传导域的核酸，其中至少一种细胞内信号传导域包含至少一种分离或衍生自CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS)或TNF受体超家族成员4(OX40)的细胞内信号传导域。在一个实施例中，至少一个细胞内信号传导域包含：a)CD3-ζ细胞内信号传导域； b)CD3-ζ细胞内信号传导域和4-1BB或CD28细胞内信号传导域；c)CD-ζ细胞内信号传导域、 4-1BB细胞内信号传导域和CD28细胞内信号传导域；或d)CD-ζ细胞内信号传导域、CD28细胞内信号传导域、4-1BB细胞内信号传导域和CD27或OX40细胞内信号传导域。在其它实施例中，CAR进一步包含细胞外铰链域，其中铰链域是免疫球蛋白样域，或其中铰链域分离或衍生自IgG1、IgG2或IgG4，或其中铰链域分离或衍生自CD8a分子(CD8)或CD28。在一些实施例中，CAR进一步包含跨膜域，其中跨膜域分离或衍生自由CD3-ζ、CD4、CD8和 CD28组成的组。在上文中，CAR的组分与合适的连接子可操作地连接以形成单个嵌合融合多肽。

在一些实施例中，TCR包含一个或多个选自由以下组成的组的亚基：TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ，其可操作地连接到抗原结合域，排列成使得细胞外抗原结合域和亚基形成单个嵌合融合多肽。在一些实施例中，单个嵌合融合多肽包含TCR亚基和抗原结合域之间的连接子。

在一些实施例中，TCR包含一个或多个选自由以下组成的组的亚基：TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ，其可操作地连接到抗原结合域和包含排列成使得细胞外抗原结合域、细胞内信号传导域(和适当的连接子)形成单个嵌合融合多肽的细胞内信号传导域的一个或多个细胞内域。一个或多个细胞内信号传导域可以分离或衍生自由以下组成的组： CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS)或TNF受体超家族成员4(OX40)。

在一些实施例中，该方法进一步包含向免疫细胞中引入编码诱导型表达盒的多核酸，该诱导型表达盒编码选自由IL-7、IL-12、IL-15和IL-18组成的组的免疫刺激细胞因子。在其它实施例中，该方法进一步包含通过在合适的培养基中和在合适的条件下体外培养来扩增细胞群，用于随后施用于有需要的受试者。

在一种制备用于受试者中的免疫疗法的细胞的方法的一些实施例中，该方法进一步包含向免疫细胞中引入编码TCR的多核酸，该TCR包含一个或多个选自由TCRα、TCRβ、CD3-δ、 CD3-ε、CD-γ或CD3-ζ组成的组的亚基。在一些实施例中，TCR进一步包含细胞内域，该细胞内域包含来自细胞内信号传导域的刺激域。在一些实施例中，TCR的抗原结合域可操作地连接到一个或多个亚基。在一些情况下，TCR的抗原结合域是包含可变重链(VH)和可变轻链(VL)和/或重链和轻链CDR的scFv，这些CDR选自由表5所列序列组成的组。

VIII.治疗方法

在另一方面，本公开涉及治疗患有与肿瘤抗原表达相关的疾病或患有自身免疫疾病的受试者的方法。在一些实施例中，本公开提供了用于治疗有需要的受试者的疾病的免疫疗法方法。在本公开的一些实施例中，治疗方法可以通过向受试者施用治疗有效量的由CasX:gNA 系统组合物和本文所述实施例的多核酸修饰的细胞或细胞群来预防、治疗和/或改善受试者的疾病。在一些实施例中，治疗方法包含向受试者施用由CasX:gNA组合物以及任选的供体模板修饰的细胞或细胞群，其中一种或多种编码一种或多种参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因被修饰。在一些情况下，细胞或细胞群也已被修饰以表达本文描述的任何实施例的CAR或工程化TCR。在一个实施例中，疾病是癌症。在另一实施例中，疾病是自身免疫疾病。与抗体疗法不同，实施例的修饰细胞能够在体内复制，从而导致长期持续性，这可以导致对潜在疾病的持续控制。在各个方面，在将修饰细胞施用于受试者后，施用于受试者或其后代的修饰细胞在受试者体内持续至少一个月、两个月、三个月、四个月、五个月、六个月、七个月、八个月、九个月、十个月、十一个月、十二个月、十三个月、十四个月、十五个月、十六个月、十七个月、十八个月、十九个月、二十个月、二十一个月、二十二个月、二十三个月、两年、三年、四年或五年。通过治疗方法，施用修饰细胞可杀死引起或与潜在疾病相关的细胞，例如肿瘤细胞。

在一个实施例中，本公开提供了一种治疗患有与肿瘤抗原表达相关的疾病的受试者的方法，其包含施用细胞群，其中细胞已经被修饰，使得与未修饰的细胞相比，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％，或其中该细胞不表达可检测水平的蛋白质。在一个实施例中，蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子(CIITA)、ICP47多肽、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、程序性细胞死亡1受体(PD-1)、细胞毒性T 淋巴细胞相关蛋白4(CTLA-4)、淋巴细胞激活基因3(LAG-3)、T细胞免疫球蛋白和粘蛋白域 3(TIM-3)、2B4(CD244)、CISH、ADORA2A、TIGIT、NGK2A、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)和TGFβ受体2(TGFβRII)。在另一实施例中，蛋白质选自由分化簇 247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK) 和FKBP1A组成的组。在一个具体实施例中，蛋白质选自由B2M、TRAC和CIITA组成的组。在一些实施例中，待修饰的细胞选自由啮齿动物细胞、小鼠细胞、大鼠细胞、非人灵长类动物细胞或人类细胞组成的组。在一些实施例中，待修饰的细胞选自由祖细胞、造血干细胞和多能干细胞组成的组。在一种情况下，细胞是诱导多能干细胞。在一些实施例中，待修饰的细胞是选自T细胞、Treg细胞、NK细胞、B细胞、巨噬细胞或树突细胞的免疫细胞。在免疫细胞是T细胞的情况下，T细胞可以是CD4+T细胞、CD8+T细胞、γ-δT细胞或其组合。在一个具体实施例中，待修饰的细胞相对于待施用该细胞的受试者而言是自体的。在另一实施例中，待修饰的细胞相对于待施用该细胞的受试者而言是同种异体的。修饰用于施用于受试者的细胞的方法已在本文中描述，但简言之，修饰包含使细胞接触：a)包含本文描述的任一实施例的CasX和gNA的CasX:gNA系统；b)编码CasX蛋白和gNA的核酸；c)包含b)的核酸的载体；或d)a)至c)中的任一者，其中一种或多种蛋白质(以上列出的那些)的表达降低或细胞不表达可检测水平的一种或多种蛋白质。在前述靶蛋白的情况下，治疗方法包含敲低或敲除一种或多种靶蛋白的表达。在上述治疗方法的实施例中，还可以修饰细胞，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的修饰细胞表达可检测水平的嵌合抗原受体(CAR)或对肿瘤细胞抗原特异的工程化TCR。在上文中，CAR或工程化TCR可对选自由以下组成的组的肿瘤细胞抗原具有特异性：分化簇19(CD19)、CD3、CD8、CD7、CD10、 CD20、CD22、CD30、CLL1、CD33、CD34、CD38、CD41、CD44、CD47、CD49f、CD56、 CD70、CD74、CD99、CD123、CD133、CD138、碳酸酐酶IX(CAIX)、CC趋化因子受体4(CCR4)、 ADAM金属肽酶域12(ADAM12)、粘附G蛋白偶联受体E2(ADGRE2)、碱性磷酸酶胎盘样 2(ALPPL2)、α4整合素、血管生成素-2(ANG2)、B细胞成熟抗原(BCMA)、CD44V6、癌胚抗原(CEA)、CEAC、CEACAM5、连接蛋白6(CLDN6)、CLDN18、C型凝集素域家族12成员A(CLEC12A)、间充质-上皮转换因子(cMET)、细胞毒性T淋巴细胞相关蛋白4(CTLA4)、表皮生长因子受体1(EGF1R)、EGFR-VIII、上皮糖蛋白2(EGP-2)、EGP-40、EphA2、ENPP3、上皮细胞粘附分子(EpCAM)、erb-B2,3,4、叶酸结合蛋白(FBP)、胎儿乙酰胆碱受体、叶酸受体-a、叶酸受体1(FOLR1)、G蛋白偶联受体143(GPR143)、谷氨酸代谢受体8(GRM8)、磷脂酰肌醇聚糖-3(GPC3)、神经节苷脂GD2、神经节苷脂GD3、人表皮生长因子受体1(HER1)、人表皮生长因子受体2(HER2)、HER3、整合素B7、细胞间细胞粘附分子-1(ICAM-1)、人端粒酶逆转录酶(hTERT)、白介素-13受体α2(IL-13R-a2)、K-轻链、激酶插入域受体(KDR)、 Lewis-Y(LeY)、软骨调节素-1(LECT1)、Ll细胞粘附分子、溶血磷脂酸受体3(LPAR3)、黑色素瘤相关抗原1(MAGE-A1)、间皮素、粘蛋白1(MUC1)、MUC16、黑色素瘤相关抗原3 (MAGEA3)、肿瘤蛋白p53(p53)、T细胞识别的黑色素瘤抗原1(MARTl)、糖蛋白100(GP100)、蛋白酶3(PR1)、ephrin-A受体2(EphA2)、自然杀伤组2D配体(NKG2D配体)、纽约食管鳞状细胞癌1(NY-ESO-1)、癌胎儿抗原(h5T4)、前列腺特异性膜抗原(PSMA)、程序性死亡配体 1(PDL-1)、受体酪氨酸激酶样孤儿受体1(ROR1)、滋养层糖蛋白(TPBG)、肿瘤相关糖蛋白 72(TAG-72)、肿瘤相关钙信号转导2(TROP-2)、酪氨酸酶、存活素、血管内皮生长因子受体 2(VEGF-R2)、肾母细胞瘤1(WT-1)、白细胞免疫球蛋白样受体B2(LILRB2)、黑色素瘤中优先表达的抗原(PRAME)、T细胞受体β恒定1(TRBC1)、TRBC2和(T细胞免疫球蛋白粘蛋白 3)TIM-3。在治疗方法的一些实施例中，CAR或工程化TCR包含选自由线性抗体、单域抗体 (sdAb)和单链可变片段(scFv)组成的组的抗原结合域。在一些情况下，CAR进一步包含一种或多种选自由CD3ζ、CD27、CD28、4-1BB(41BB)、ICOS和OX40组成的组的多肽。CD3-ζ、 CD27、CD28、4-1BB(41BB)、ICOS或OX40中的一种或多种可以通过免疫球蛋白样域铰链和/或间隔序列连接到CAR抗原结合域，并且进一步包含衍生自选自由CD3-ζ、CD4、CD8 和CD28组成的组的多肽的跨膜域。在其它情况下，通过向免疫细胞中引入编码可诱导表达盒的多核酸来进一步修饰细胞，该表达盒编码选自由IL-7、IL-12、IL-15和IL-18组成的组的免疫刺激细胞因子。

在治疗患有与肿瘤抗原表达相关的疾病的受试者的方法的一些实施例中，向受试者施用治疗有效量的本文所述实施例中任一项的修饰细胞群在帮助治疗(例如，治愈或降低严重性) 或预防(例如，降低复发的可能性)癌症或肿瘤方面可产生有益效果或导致与受试者的疾病相关的临床参数或指标的改善，其中临床参数或指标选自由以下组成的组中的一种或任意组合：完全、部分或不完全反应的肿瘤缩小；进展时间、治疗失败时间、生物标志物反应；无进展生存期；无病生存；复发时间；转移时间；总生存时间；提高生活质量；以及症状的改善。

在前述实施例中，与肿瘤抗原表达相关的疾病是癌症。在一些实施例中，癌症包含实体瘤或液体瘤。在一些实施例中，癌症选自结肠癌、直肠癌、肾细胞癌、肝癌、非小细胞肺癌、小肠癌、食道癌、黑色素瘤、骨癌、胰腺癌、皮肤癌、头颈癌、皮肤或眼内恶性黑色素瘤、子宫癌、卵巢癌、直肠癌、肛门癌、胃癌、睾丸癌、输卵管癌、子宫内膜癌、癌子宫颈癌、阴道癌、外阴癌、霍奇金病、非霍奇金淋巴瘤、内分泌系统癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、儿童实体瘤、膀胱癌、肾癌或输尿管癌、肾盂癌、中枢神经系统(CNS)肿瘤、原发性中枢神经系统淋巴瘤、肿瘤血管生成、脊柱轴肿瘤、脑干神经胶质瘤、垂体腺瘤、卡波西肉瘤、表皮样癌、鳞状细胞癌、T细胞淋巴瘤、环境诱发的癌症、慢性淋巴细胞白血病(CLL)、急性白血病、急性淋巴细胞白血病(ALL)、B细胞急性淋巴细胞白血病(B-ALL)、T细胞急性淋巴细胞白血病(T-ALL)、慢性粒细胞白血病(CML)、急性粒细胞白血病(AML)、B细胞幼淋巴细胞白血病、母细胞浆细胞样树突状细胞肿瘤、伯基特氏病淋巴瘤、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、毛细胞白血病、小细胞或大细胞滤泡性淋巴瘤、恶性淋巴增生性疾病、MALT淋巴瘤、套细胞淋巴瘤、边缘区淋巴瘤、多发性骨髓瘤、骨髓增生异常和骨髓增生异常综合征、霍奇金氏症淋巴瘤、浆母细胞淋巴瘤、浆细胞样树突状细胞瘤、华氏巨球蛋白血症或白血病前期、所述癌症的组合或所述癌症的转移性病变。在该方法中，当带有CAR或工程化TCR的修饰细胞与带有CAR或工程化TCR配体的细胞的肿瘤抗原结合时，所施用的细胞能够：i)被激活；ii)诱导修饰细胞的增殖；iii)修饰细胞分泌的细胞因子；或iv)诱导带有所述肿瘤抗原的细胞的细胞毒性。在治疗患有与肿瘤抗原表达相关的疾病的受试者的方法的其它实施例中，该方法进一步包含施用化学治疗剂。化疗剂的非限制性实例包括免疫抑制剂，如环孢菌素、硫唑嘌呤、甲氨蝶呤、霉酚酸酯和FK506，或其它免疫清除剂，如阿仑单抗、抗CD3抗体，或其它抗肿瘤抗体疗法、细胞毒素、氟达拉滨、环孢菌素、FK506、雷帕霉素、霉酚酸、类固醇、FR901228和细胞因子。

在一些实施例中，本公开提供了一种治疗患有自身免疫疾病的受试者的方法。在一些实施例中，向患有自身免疫疾病的受试者施用有效量的同种异体免疫细胞群(例如，Treg细胞)，该同种免疫细胞群经修饰以减少一种或多种参与抗原加工、呈递、识别和/或反应的蛋白质的表达。

在另一实施例中，本发明提供了一种治疗患有与肿瘤抗原表达相关的疾病的受试者的方法，该方法包含向受试者施用多种细胞，该细胞经修饰以表达可检测水平的嵌合抗原受体 (CAR)或工程化TCR，并且根据治疗方案具有降低或不可检测水平的MHC I类分子和/或野生型T细胞受体，该治疗方案包含使用治疗有效剂量的细胞的一个或多个连续剂量。在治疗方案的一个实施例中，将细胞的治疗有效剂量作为单一剂量施用。在治疗方案的另一实施例中，治疗有效剂量的细胞在至少两周，或至少一个月，或至少两个月，或至少三个月，或至少四个月，或至少五个月，或至少六个月，或每年一次，或每2或3年一次的时间段内以两个或更多个剂量向受试者施用。在一些实施例中，总细胞的剂量和/或单个细胞亚群的剂量在每剂量为或约10⁴至或约10⁹细胞/千克(kg)体重之间的范围内，如在10⁵和10⁶细胞/kg体重之间，例如，每剂等于或约为1×10⁵细胞/kg、1.5×10⁵细胞/kg、2×10⁵细胞/kg或1×10⁶细胞/kg体重。例如，在一些实施例中，以每剂量等于或约10⁴至或约10⁹细胞/千克(kg)体重，如10⁵和10⁶细胞/kg体重之间，例如，每剂量在或约1×10⁵细胞/kg、1.5×10⁵细胞/kg、2×10⁵细胞/kg，或 1×10⁶细胞/kg体重，或在某个误差范围内施用细胞。

在另一实施例中，本发明提供了一种治疗患有与肿瘤抗原表达相关的疾病的受试者的方法，该方法包含向受试者施用多种经修饰以表达本文所述的任何实施例的CAR或工程化TCR 的细胞，并且进一步修饰使得在与未修饰的细胞相比，参与抗原加工、抗原呈递、抗原识别和/或抗原反应的一种或多种蛋白质的表达降低至少约50％、至少约60％、至少约70％，至少约 80％、至少约90％、或至少约95％，其中施用根据治疗方案，治疗方案包含使用细胞的治疗有效剂量的一个或多个连续剂量。在治疗方案的一个实施例中，将细胞的治疗有效剂量作为单一剂量施用。在治疗方案的另一实施例中，治疗有效剂量的细胞在至少两周，或至少一个月，或至少两个月，或至少三个月，或至少四个月，或至少五个月，或至少六个月，或每年一次，或每2或3年一次的时间段内以两个或更多个剂量向受试者施用。在一些实施例中，治疗方案导致与受试者的疾病相关的临床参数或指标的改善，其中临床参数或指标选自由以下组成的组中的一种或任意组合：完全、部分或不完全反应的肿瘤缩小；进展时间、治疗失败时间、生物标志物反应；无进展生存期；无病生存；复发时间；转移时间；总生存时间；提高生活质量；以及症状的改善。在治疗方案的上述实施例中，一种或多种蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子(CIITA)、ICP47多肽、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、 PD-1、CTLA-4、LAG-3、TIM-3、2B4、CISH、ADORA2A、TIGIT、NKG2A、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)和TGFβ受体2(TGFβRII)。在另一实施例中，进一步修饰细胞以降低一种或多种选自由分化簇247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)和FKBP1A组成的组的蛋白质的表达。

细胞可以通过任何合适的方式施用，例如，通过推注、通过注射，例如，实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内、腰椎内、腹膜内，或通过皮下注射、眼内注射、眼周注射、视网膜下注射、玻璃体内注射、经间隔注射、巩膜下注射、脉络膜内注射、前房内注射、深部注射、结膜下注射、眼球筋膜囊下注射、球后注射、球周注射或后巩膜旁递送。在一些实施例中，它们通过肠胃外、肺内和鼻内施用，并且如果需要局部治疗，则通过病灶内施用。

在一些实施例中，本文提供了由CasX和gNA基因编辑对修饰的免疫细胞的组合物，以及任选地供体模板和/或编码CAR、工程化TCR或包含其亚基的融合多肽的多核苷酸，用作治疗患有与肿瘤抗原表达相关的疾病的受试者的药物。在上文中，CasX可以是本文描述的实施例中任一项的CasX变异体(例如，表4的序列)，并且gNA可以是本文描述的实施例中任一项的gNA变异体(例如，表2的序列)。在其它实施例中，本公开提供了由包含或编码CasX和gNA的基因编辑对、供体模板和/或编码CAR的多核苷酸的载体修饰的细胞组合物，用作治疗患有与肿瘤抗原表达相关的疾病的受试者的药物。

IX.试剂盒及制品

在另一方面，本文提供了包含本文所述实施例的组合物的试剂盒。在一些实施例中，试剂盒包含CasX蛋白质和本公开任何实施例的一个或多个gNA(其包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因互补的靶向序列)、赋形剂和合适的容器(例如管、小瓶或板)。在其它实施例中，试剂盒包含编码CasX蛋白的核酸和本公开任何实施例的一个或多个gNA(其包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因互补的靶向序列)、编码CAR或工程TCR的核酸、赋形剂和合适的容器。在其它实施例中，试剂盒包含载体、编码CAR或工程化TCR的核酸、赋形剂和合适的容器，该载体包含编码CasX蛋白的核酸和本公开任何实施例的一个或多个gNA(其包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因互补的靶向序列)。在其它实施例中，该试剂盒包含VLP、编码CAR的核酸、赋形剂和合适的容器，该VLP包含CasX蛋白和本公开任何实施例的一个或多个gNA(其包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的细胞基因互补的靶向序列)。

在一些实施例中，试剂盒进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质粒、治疗剂、标记、标记显色剂、或前述的任何组合。在一些实施例中，试剂盒进一步包含药学上可接受的载剂、稀释剂或赋形剂。

在一些实施例中，试剂盒包含用于基因修饰应用的适当对照组合物，及使用说明书。

本说明书阐述大量示范性配置、方法、参数及其类似者。然而，应认识到，此类描述并不打算作为本发明的范围的限制，而是替代地作为示范性实施例的描述而提供。

本公开的非限制性实施例的实例

上文所述的本发明主题的实施例可有益地单独或与一个或多个其它实施例组合。在不限制前述说明书的情况下，下文提供了编号为1-234的本发明的某些非限制性方面。如熟习所属领域者在阅读本发明时将显而易见，经单独编号的实施例中的每一者可使用或与之前或之后经单独编号的实施例中的任一者组合。这旨在为实施例的所有此类组合提供支持，且不限于以下明确提供的实施例组合：

实施例集1：

1.一种包含CasX多肽和引导核酸(gNA)的CasX:gNA系统，其中所述gNA包含(a)与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质和/或其调节区域的核酸序列互补的靶向序列；(b)与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质或其调节区域的核酸序列的互补体互补的靶向序列。

2.根据1所述的CasX:gNA系统，其中所述蛋白质是免疫细胞表面标志物。

3.根据1所述的CasX:gNA系统，其中所述蛋白质是细胞内蛋白质。

4.根据1至3中任一项所述的CasX:gNA系统，其中所述蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合体反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A(HLA-A)和人白细胞抗原B(HLA-B)。

5.根据4所述的CasX:gNA系统，其进一步包含gNA，所述gNA包含(a)与编码选自由分化簇247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)和FKBP1A组成的组的蛋白质的核酸序列互补的靶向序列；(b)与编码选自由分化簇 247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK) 和FKBP1A组成的组的蛋白质的核酸序列的互补体互补的靶向序列。

6.根据1至5中任一项所述的CasX:gNA系统，其中所述gNA是引导RNA(gRNA)。

7.根据1至5中任一项所述的CasX:gNA系统，其中所述gNA是引导DNA(gDNA)。

8.根据1至5中任一项所述的CasX:gNA系统，其中所述gNA是包含DNA和RNA的嵌合体。

9.根据4所述的CasX:gNA系统，其中所述蛋白质是B2M。

10.根据9所述的CasX:gNA系统，其中所述gNA的所述靶向序列包含与选自由表3A所列序列组成的组的序列具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。

11.根据4所述的CasX:gNA系统，其中所述蛋白质是TRAC。

12.根据11所述的CasX:gNA系统，其中所述gNA的所述靶向序列包含与选自由表3B中所列序列组成的组的序列具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。

13.根据4所述的CasX:gNA系统，其中所述蛋白质是CIITA。

14.根据1至13中任一项所述的CasX:gNA系统，其中所述gNA具有支架，所述支架包含与表2的序列具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％或100％序列同一性的序列。

15.根据1至14中任一项所述的CasX:gNA系统，其中所述靶向序列由14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个连续核苷酸组成。

16.根据1至15中任一项所述的组合物，其中所述CasX多肽包含SEQ ID NO:1-3中的任一项或表4的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％序列同一性的序列。

17.根据1至16中任一项所述的CasX:gNA系统，其中所述CasX多肽和所述gNA在核糖核蛋白复合物(RNP)中缔合在一起。

18.根据1至17中任一项所述的CasX:gNA系统，其进一步包含供体模板核酸。

19.根据18所述的CasX:gNA系统，其中所述供体模板包含核酸，其编码i)对疾病抗原特异的嵌合抗原受体(CAR)，所述嵌合抗原受体任选地是肿瘤细胞抗原；和/或ii)4的蛋白质。

20.根据19所述的CasX:gNA系统，其中所述肿瘤细胞抗原选自由CD47、CD19、CD20、CD22、CD33、CD123、CD138、FLT3、BCMA、EGFR和间皮素组成的组。

21.根据19或20所述的CasX:gNA系统，其中所述CAR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段(scFv)组成的组的抗原结合域。

22.根据19所述的CasX:gNA系统，其中所述CAR进一步包含一种或多种选自由CD3ζ、 CD27、CD28、4-1BB(41BB)、ICOS和OX40组成的组的多肽。

23.根据22所述的CasX:gNA系统，其中CD3ζ、CD27、CD28、4-1BB(41BB)、ICOS 或OX40中的一种或多种通过免疫球蛋白样域铰链和任选地间隔序列连接到CAR抗原结合域。

24.根据18至23中任一项所述的CasX:gNA系统，其中所述供体模板包含基因或编码4 的所述蛋白质的基因的一部分或所述基因的调节区域的核酸，其中与编码所述蛋白质或其调节区域的基因组核酸序列相比，所述核酸包含一个或多个核苷酸的缺失、插入或突变。

25.一种核酸，其包含编码根据1至17中任一项所述的CasX:gNA系统的序列。

26.一种包含根据25所述的核酸的载体。

27.一种包含供体模板的载体，其中所述供体模板包含核酸，其编码i)对疾病抗原、任选地肿瘤细胞抗原特异的嵌合抗原受体(CAR)；和/或ii)编码选自由β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A(HLA-A)和人白细胞抗原B (HLA-B)组成的组的蛋白质的基因或基因的一部分或iii)ii)的所述基因的调节区。

28.根据27所述的载体，其中所述肿瘤细胞抗原选自由CD47、CD19、CD20、CD22、CD33、CD123、CD138、FLT3、BCMA、EGFR和间皮素组成组。

29.根据27或28所述的载体，其中所述CAR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段(scFv)组成的组的抗原结合域。

30.根据29所述的载体，其中所述CAR进一步包含与所述抗原结合域连接的选自由CD3ζ、CD27、CD28、4-1BB(41BB)、ICOS和OX40组成的组的一种或多种多肽。

31.根据30所述的载体，其中CD3ζ、CD27、CD28、4-1BB(41BB)、ICOS或OX40中的所述一种或多种通过免疫球蛋白样域铰链和任选地连接序列连接到所述CAR抗原结合域。

32.根据27至31任一项所述的载体，其进一步包含根据25所述的核酸。

33.根据26至32中任一项所述的载体，其中所述载体选自由慢病毒载体、腺病毒载体、腺相关病毒(AAV)载体、单纯疱疹病毒(HSV)载体、质粒、小环、纳米质粒和RNA载体组成的组。

34.一种改变细胞靶序列的方法，其包含使所述细胞接触：a)根据1至24中任一项所述的CasX:gNA系统；b)根据25所述的核酸；c)根据26至33中任一项所述的载体；或d)上述a)至c)中的任一项。

35.根据34所述的方法，其中所述细胞已经被工程化，使得与未经工程化的细胞相比，所述蛋白质的表达降低至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。

36.根据34或35所述的方法，其中所述细胞已经被工程化，使得所述细胞不表达可检测水平的所述蛋白质。

37.根据35或36所述的方法，其中所述蛋白质选自由B2M、TRAC和CIITA组成的组。

38.一种由根据34或35所述的方法工程化的细胞群，其中所述细胞已经被工程化，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞不表达可检测水平的MHC I类分子。

39.一种由根据34或35所述的方法工程化的细胞群，其中所述细胞已经被工程化，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述工程细胞不表达可检测水平的野生型T细胞受体。

40.根据38或39所述的细胞群，其中所述细胞已经被工程化，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞表达可检测水平的所述嵌合抗原受体(CAR)。

41.根据38至40中任一项所述的细胞群，其中所述细胞是非灵长类哺乳动物细胞、非人灵长类细胞或人类细胞。

42.根据38至41中任一项所述的细胞群，其中所述细胞选自由祖细胞、造血干细胞和多能干细胞组成的组。

43.根据42所述的细胞群，其中所述细胞是诱导多能干细胞。

44.根据38至41中任一项所述的细胞群，其中所述细胞是免疫细胞。

45.根据44所述的细胞群，其中所述免疫细胞是T细胞、TREG细胞、NK细胞、B细胞、巨噬细胞或树突细胞。

46.根据45所述的细胞群，其中所述免疫细胞是T细胞，其中所述T细胞是CD4+T细胞、CD8+T细胞或其组合。

47.根据38至46中任一项所述的细胞群，其中所述细胞相对于待施用所述细胞的患者是自体的。

48.根据38至46中任一项所述的细胞群，其中所述细胞相对于待施用所述细胞的患者是同种异体的。

49.一种细胞群，其包含根据1至24中任一项所述的CasX:gNA系统。

50.根据49所述细胞群，其中所述细胞已经被工程化为i)表达对疾病抗原，任选地肿瘤细胞抗原特异的嵌合抗原受体(CAR)；和/或ii)破坏根据4所述的蛋白质的表达。

51.根据50所述的细胞群，其中至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞表达可检测水平的所述CAR。

52.根据50或51所述的细胞群，其中所述细胞已经被工程化，使得与未经工程化的细胞相比，所述蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。

53.根据49至52中任一项所述的细胞群，其中所述细胞相对于待施用所述细胞的患者是自体的。

54.根据49至52中任一项所述的细胞群，其中所述细胞对于待施用所述细胞的患者是同种异体的。

55.根据49至54中任一项所述的细胞群，其中至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞不表达可检测水平的MHC I类分子。

56.根据49至55中任一项所述的细胞群，其中至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞不表达可检测水平的野生型T细胞受体。

57.一种在受试者中提供抗肿瘤免疫的方法，所述方法包含向所述受试者施用有效量的根据49至56中任一项所述的细胞。

58.一种治疗患有与肿瘤抗原表达相关的疾病或患有自身免疫性疾病的受试者的方法，所述方法包含向所述受试者施用有效量的根据49至56中任一项所述的细胞。

59.根据58所述的方法，其中与肿瘤抗原表达相关的所述疾病是癌症，其选自由以下组成的组：结肠癌、直肠癌、肾细胞癌、肝癌、非小细胞肺癌、小肠癌、食道癌、黑色素瘤、骨癌、胰腺癌、皮肤癌、头颈癌、皮肤或眼内恶性黑色素瘤、子宫癌、卵巢癌、直肠癌、肛门癌、胃癌、睾丸癌、输卵管癌、子宫内膜癌、癌子宫颈癌、阴道癌、外阴癌、霍奇金病、非霍奇金淋巴瘤、内分泌系统癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、儿童实体瘤、膀胱癌、肾癌或输尿管癌、肾盂癌、中枢神经系统(CNS)肿瘤、原发性中枢神经系统淋巴瘤、肿瘤血管生成、脊柱轴肿瘤、脑干神经胶质瘤、垂体腺瘤、卡波西肉瘤、表皮样癌、鳞状细胞癌、T细胞淋巴瘤、环境诱发的癌症、慢性淋巴细胞白血病(CLL)、急性白血病、急性淋巴细胞白血病(ALL)、B细胞急性淋巴细胞白血病(B-ALL)、T细胞急性淋巴细胞白血病(T-ALL)、慢性粒细胞白血病(CML)、急性粒细胞白血病(AML)、B细胞幼淋巴细胞白血病、母细胞浆细胞样树突状细胞肿瘤、伯基特氏病淋巴瘤、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、毛细胞白血病、小细胞或大细胞滤泡性淋巴瘤、恶性淋巴增生性疾病、MALT淋巴瘤、套细胞淋巴瘤、边缘区淋巴瘤、多发性骨髓瘤、骨髓增生异常和骨髓增生异常综合征、霍奇金氏症淋巴瘤、浆母细胞淋巴瘤、浆细胞样树突状细胞瘤、华氏巨球蛋白血症、白血病前期、所述癌症的组合，以及所述癌症的转移性病变。

60.根据57至59中任一项所述的方法，其中所述方法进一步包含施用化学治疗剂。

61.一种制备用于免疫治疗的细胞的方法，其包含通过减少或消除i)参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质或ii)所述蛋白质的调节区的表达来修饰免疫细胞。

62.根据61所述的方法，其包含使所述免疫细胞的核酸与包含CasX多肽和引导核酸 (gNA)的CasX:gNA系统接触，其中所述gNA包含(a)与编码所述蛋白质的基因或基因的一部分或所述基因的调控区的核酸序列互补的靶向序列，或(b)与编码所述蛋白质或其调控区的核酸序列的互补体互补的靶向序列。

63.根据61所述的方法，其中所述蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T 细胞受体α链恒定区(TRAC)、II类主要组织相容性复合体反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A(HLA-A)和人白细胞抗原 B(HLA-B)。

64.根据63所述的方法，其进一步包含gNA，所述gNA包含(a)与编码选自由分化簇247 (CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)和FKBP1A组成的组的蛋白质的核酸序列互补的靶向序列；或(b)与编码选自由分化簇247(CD247)、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)和 FKBP1A组成的组的蛋白质的核酸序列的互补体互补的靶向序列。

65.根据61至64所述的方法，其中所述细胞已经被工程化，使得与未经工程化的细胞相比，所述蛋白质的表达降低至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。

66.根据61至65中任一项所述的方法，其中所述细胞已经被工程化，使得所述细胞不表达可检测水平的所述蛋白质。

67.根据65或66所述的方法，其中所述蛋白质选自由B2M、TRAC和CIITA组成的组。

68.根据61至67中任一项所述的方法，其中所述细胞已经被工程化，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞不表达可检测水平的MHC I类分子。

69.根据61至68所述的方法，其中所述细胞已经被工程化，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述工程化细胞不表达可检测水平的野生型T细胞受体。

70.根据61至69中任一项所述的方法，其进一步包含使所述免疫细胞的所述核酸与供体模板核酸接触，其中所述供体模板包含编码对肿瘤细胞抗原特异的嵌合抗原受体(CAR)的核酸。

71.根据70所述的方法，其中所述肿瘤细胞抗原选自由CD47、CD19、CD20、CD22、CD33、CD123、CD138、FLT3、BCMA、EGFR和间皮素组成的组。

72.根据70或71所述的方法，其中所述CAR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段(scFv)组成的组的抗原结合域。

73.根据72所述的方法，其中所述CAR包含一种或多种选自由CD3ζ、CD27、CD28、 4-1BB(41BB)、ICOS和OX40组成的组的多肽。

74.根据73所述的方法，其中CD3ζ、CD27、CD28、4-1BB(41BB)、ICOS或OX40中的所述一种或多种通过免疫球蛋白样域铰链和任选地间隔序列连接到所述CAR抗原结合域。

75.根据61至74中任一项所述的方法，其进一步包含扩增所述细胞群。

76.一种治疗有需要的受试者的方法，其包含施用通过根据61至75中任一项所述的方法制备的细胞。

77.一种治疗有需要的受试者的方法，其包含将通过根据61至75中任一项所述的方法制备的细胞与免疫抑制剂联合施用。

78.根据76或77所述的方法，其中所述细胞对于所述受试者是自体的。

79.根据76或77所述的方法，其中所述细胞对于所述受试者是同种异体的。

80.根据76至79中任一项所述的方法，其中所述受试者患有与肿瘤抗原表达相关的疾病，其中所述施用治疗与肿瘤抗原表达相关的所述疾病。

81.根据80所述的方法，其中与肿瘤抗原表达相关的所述疾病是癌症，其选自由以下组成的组：结肠癌、直肠癌、肾细胞癌、肝癌、非小细胞肺癌、小肠癌、食道癌、黑色素瘤、骨癌、胰腺癌、皮肤癌、头颈癌、皮肤或眼内恶性黑色素瘤、子宫癌、卵巢癌、直肠癌、肛门癌、胃癌、睾丸癌、输卵管癌、子宫内膜癌、癌子宫颈癌、阴道癌、外阴癌、霍奇金病、非霍奇金淋巴瘤、内分泌系统癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、儿童实体瘤、膀胱癌、肾癌或输尿管癌、肾盂癌、中枢神经系统(CNS)肿瘤、原发性中枢神经系统淋巴瘤、肿瘤血管生成、脊柱轴肿瘤、脑干神经胶质瘤、垂体腺瘤、卡波西肉瘤、表皮样癌、鳞状细胞癌、T细胞淋巴瘤、环境诱发的癌症、慢性淋巴细胞白血病(CLL)、急性白血病、急性淋巴细胞白血病(ALL)、B细胞急性淋巴细胞白血病(B-ALL)、T细胞急性淋巴细胞白血病(T-ALL)、慢性粒细胞白血病(CML)、急性粒细胞白血病(AML)、B细胞幼淋巴细胞白血病、母细胞浆细胞样树突状细胞肿瘤、伯基特氏病淋巴瘤、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、毛细胞白血病、小细胞或大细胞滤泡性淋巴瘤、恶性淋巴增生性疾病、 MALT淋巴瘤、套细胞淋巴瘤、边缘区淋巴瘤、多发性骨髓瘤、骨髓增生异常和骨髓增生异常综合征、霍奇金氏症淋巴瘤、浆母细胞淋巴瘤、浆细胞样树突状细胞瘤、华氏巨球蛋白血症、白血病前期、所述癌症的组合，以及所述癌症的转移性病变。

实例

实例1：CasX Stx2的产生、表达及纯化

1.构筑体的产生、表达及纯化

源自浮霉菌门(Planctomycetes)(具有SEQ ID NO:2的CasX氨基酸序列并由下表6的序列编码)的CasX Stx2(本文也称为CasX2)的表达构筑体由针对大肠杆菌优化密码子的基因片段 (Twist Biosciences)构建。装配构筑体含有TEV-可裂解、C端、TwinStrep标签，且选殖至含有安比西林耐受性基因的pBR322衍生的质粒主链中。将表达构筑体转化至化学感受态BL21*(DE3)大肠杆菌中，且起子培养物在37℃、200RPM下在UltraYield烧瓶(Thomson Instrument Company)中于补充有羧苄青霉素的LB培养液中生长过夜。第二天，此培养物以 1:100比率(起子培养物：表达培养物)用于种子表达培养物。将表达培养物接种至补充有卡本西林的Terrific Broth(Novagen)中且在37℃、200RPM下于UltraYield烧瓶中生长。一旦培养物达到2的光密度(OD)，便将其冷却至16℃，且从1M原料中添加IPTG(异丙基β-D-1-硫代半乳糖苷)至1mM的最终浓度。培养物在16℃、200RPM下诱导20小时，随后通过在4℃下以4,000xg离心15分钟收获。将细胞浆料称重且以每克细胞浆料5mL溶解缓冲液的比率再悬浮于溶解缓冲液(50mM HEPES-NaOH，250mM NaCl，5mM MgCl2，1mM TCEP，1mM 苯甲脒-HCL，1mM PMSF，0.5％CHAPS，10％甘油，pH 8)中。一旦再悬浮，便将样品冷冻于 -80℃直至纯化。

表6：CasX Stx2构筑体的DNA序列

构筑体	DNA序列
		SV40 NLS-CasX-SV40 NLS-TEV裂解位点–TwinStrep标签	(SEQ ID NO:437)

2.纯化

冷冻样品在4℃下在磁力搅拌下解冻过夜。通过超声处理降低所得裂解物的黏度，且通过使用Emulsiflex C3(Avestin)在17k PSI下分三次均质化来完成裂解。通过在4℃下以 50,000x g离心30分钟来澄清裂解物且收集上清液。通过重力流将澄清的上清液上样到Heparin 6Fast Flow柱(GE Life Sciences)。用5CV肝素缓冲液A(50mM HEPES-NaOH，250mM NaCl，5mM MgCl₂，1mM TCEP，10％甘油，pH 8)洗涤柱子，接着用5CV肝素缓冲液B(NaCl浓度调节至500mM的缓冲液A)洗涤。用5CV的肝素缓冲液C(将NaCl浓度调整到1M的缓冲液A)洗脱蛋白质，收集级分。通过Bradford Assay测定各级分中的蛋白质，并将含蛋白质的级分汇集起来。通过重力流将合并的肝素洗脱液应用于Strep-Tactin XT Superflow柱(IBA Life Sciences)。用5CV的Strep缓冲液(50mM HEPES-NaOH，500mM NaCl， 5mM MgCl₂，1mM TCEP，10％甘油，pH 8)洗涤柱子。使用添加50mM D-生物素的5CV Strep 缓冲液自柱子洗脱蛋白质且收集级分。将含有CasX的级分合并，使用30kDa截止自旋浓缩器在4℃下浓缩，并在Superdex 200pg柱(GE Life Sciences)上通过尺寸排阻色谱法纯化。柱子用SEC缓冲液(25mM磷酸钠，300mM NaCl，1mM TCEP，10％甘油，pH 7.25)平衡，该缓冲液由AKTA纯FPLC系统(GE Life Sciences)操作。在适当分子量下洗脱的含CasX的级分经汇集，使用30kDa截止旋转浓缩器在4℃下浓缩，等分，且在液氮中急冻，随后存储于-80℃下。

3.结果

来自整个纯化程序的样品通过SDS-PAGE解析且通过胶体考马斯染色观测，如图1和图 3中所示。在图1中，自左至右，通道为：分子量标准，颗粒：细胞溶解之后的不溶性部分，裂解物：细胞溶解之后的可溶性部分，流经：不结合肝素管柱的蛋白质，洗涤：洗涤缓冲液中自管柱洗脱的蛋白质，洗脱：自肝素管柱洗脱的蛋白质伴以洗脱缓冲液，流经：不结合StrepTactinXT柱的蛋白质，洗脱：自StrepTactin XT柱洗脱的蛋白质伴以洗脱缓冲液，注射：注射至s200凝胶过滤柱上的浓缩蛋白质，冷冻：已浓缩及冷冻的来自s200洗脱的汇集级分。在图3中，从右到左的通道是注射(将蛋白质样品注入凝胶过滤柱)分子量标记，通道3-9是指示洗脱体积的样品。来自凝胶过滤的结果如图2所示。68.36mL峰对应于CasX的表观分子量且含有大多数CasX蛋白。通过胶体考马斯染色评估，每升培养物的平均产量为0.75mg纯化CasX蛋白，纯度为75％。

实例2：CasX构筑体119、438和457

为了生成CasX 119、438及457构筑体(表7中的序列)，经密码子优化的CasX37构筑体(基于实例1的CasX Stx2构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代及[P793]缺失，及连接引导及非靶向序列)使用标准克隆方法克隆至哺乳动物表达质粒(pStX；参见图4)中。为了建立CasX 119，在两个反应中使用Q5 DNA聚合酶(新英格兰生物实验室目录号M0491L)，根据制造商的方案，分别使用引物oIC539及oIC88以及oIC87及oIC540对CasX 37构筑体DNA进行PCR扩增(参见图5)。为了建立CasX457，在四个反应中使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，分别使用引子oIC539及oIC212、oIC211及oIC376、oIC375及oIC551以及oIC550及oIC540对 CasX365构筑体DNA进行PCR扩增。为了建立CasX438，在四个反应中使用Q5 DNA聚合酶(New EnglandBioLabs目录号M0491L)，根据制造商的方案，分别使用引子oIC539及 oIC689、oIC688及oIC376、oIC375及oIC551以及oIC550及oIC540对CasX119构筑体DNA 进行PCR扩增。所得PCR扩增产物接着使用Zymoclean DNA清洁及浓缩器(Zymo Research 目录号4014)，根据制造商的方案进行纯化。使用XbaI及SpeI消化pStX主链以去除质粒pStx34 中的两个位点之间的DNA的2931个碱基对的片段。消化的主链片段係通过使用Zymoclean Gel DNA RecoveryKit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶 (Gold Bio目录号A-201-500)进行凝胶提取而纯化。然后，按照制造商的协议，使用Gibson assembly(新英格兰生物实验室Cat#E2621S)将三个碎片拼接在一起。将pStx34中的装配产物转化至化学感受态或电感受态Turbo Competent大肠杆菌细菌细胞，接种于含有羧苄青霉素的 LB-琼脂板(LB:Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用QiagenQiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。pStX34包括用于蛋白质的EF-1α启动子以及用于嘌呤霉素及卡本西林两者的选择标记。编码靶向所关注基因的靶向序列的序列係基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过 Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至pStX中。将Golden Gate产物转化至化学或电感受态细胞，例如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂盘(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。SaCas9及SpyCas9对照质粒係与上文所述的pStX 质粒类似地制备，其中pStX的蛋白质及引导区交换各别蛋白质及引导物。SaCas9及SpyCas9 的靶向序列获自文献或根据确立方法合理地设计。CasX 119和457蛋白的表达和恢复使用实例1的一般方法进行(但是DNA序列为在大肠杆菌中表达进行了密码子优化)。CasX 119的分析测定结果如在图6至8所示。通过胶体考马斯染色评估，在纯度为75％的条件下，每升培养物中的CasX 119的平均产量为1.56mg纯化的CasX蛋白。图6示出了纯化样品的 SDS-PAGE凝胶，在Bio-Rad Stain-Free^TM凝胶上可视化，如上所述。自左至右，通道为：颗粒：细胞裂解之后的不溶性部分，裂解物：细胞裂解之后的可溶性部分，流经：不结合肝素管柱的蛋白质，洗涤：洗涤缓冲液中自管柱洗脱的蛋白质，洗脱：自肝素管柱洗脱的蛋白质伴以洗脱缓冲液，流经：不结合StrepTactinXT柱的蛋白质，洗脱：自StrepTactinXT柱洗脱的蛋白质伴以洗脱缓冲液，注射：注射至s200凝胶过滤管柱上的浓缩蛋白质，冷冻：已浓缩及冷冻的来自s200洗脱的汇集级分。

图7示出了Superdex 200 16/600pg凝胶过滤的色谱图，如所述。CasX变异体119蛋白的凝胶过滤运行绘制为280nm吸光度与洗脱体积的关系。65.77mL峰对应于CasX变异体119 的表观分子量且含有大多数CasX变异体119蛋白。图8示出了凝胶过滤样品的SDS-PAGE凝胶，如所述，用胶体考马斯染色。来自指定洗脱份的样品係通过SDS-PAGE解析且通过胶体考马斯染色。自右向左，注射：注射至凝胶过滤管柱上的蛋白质样品、分子量标记、通道 3-10：来自指定洗脱体积的样品。

表7：CasX 119、438和457的序列

实例3：CasX构筑体488和491

为了生成CasX 488构筑体(表8中的序列)，经密码子优化的CasX 119构筑体(基于实例1的CasX Stx2构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代、L379R取代及[P793]缺失，及连接引导及非靶向序列)使用标准克隆方法克隆至哺乳动物表达质粒(pStX；参见图4)中。构造CasX 1(基于实例1的CasX Stx1构筑体，编码CasXSEQ ID NO:1)使用标准克隆方法克隆到目的载体中。为了建立CasX 488，根据制造商的协议，使用Q5 DNA聚合酶(新英格兰生物实验室猫#M0491L)，使用引物oIC765和oIC762(见图5)对 CasX 119构建DNA进行PCR扩增。根据制造商的协议，使用Q5 DNA聚合酶(新英格兰生物实验室猫#M0491L)和引物oIC766和oIC784对CasX 1构筑体进行PCR扩增。通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号A-201-500)进行凝胶提取而纯化PCR产物。然后，按照制造商的协议，使用Gibson assembly(新英格兰生物实验室Cat#E2621S)将两个碎片拼接在一起。将pStx1 中的装配产物转化为化学感受态Turbo Competent大肠杆菌细菌细胞，将其接种于含有卡那霉素的LB-琼脂板(LB:Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。然后使用限制酶克隆将正确的克隆亚克隆到哺乳动物表达载体pStx34中。pStx1中的pStx34主链和CasX 488克隆分别用XbaI和 BamHI消化。通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化消化的主干和插入片段。然后根据制造商的方案使用T4连接酶(新英格兰生物实验室目录号M0202L)将干净的主链和插入物连接在一起。将连接产物转化为化学感受态Turbo Competent大肠杆菌细菌细胞，将其接种于含有羧苄青霉素的LB-琼脂板(LB:Teknova目录号L9315，琼脂：Quartzy 目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号 27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。

为了生成CasX 491(表8中的序列)，使用Q5 DNA聚合酶(新英格兰生物实验室目录号 M0491L)，使用引物oIC765和oIC762(参见图5)，根据制造商的方案对CasX 484构筑体DNA 进行PCR扩增。根据制造商的协议，使用Q5 DNA聚合酶(新英格兰生物实验室猫#M0491L) 和引物oIC766和oIC784对CasX 1构筑体进行PCR扩增。通过使用Zymoclean GelDNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号A-201-500)进行凝胶提取而纯化PCR产物。然后，按照制造商的协议，使用Gibson assembly(新英格兰生物实验室Cat#E2621S)将两个碎片拼接在一起。将pStx1中的装配产物转化为化学感受态Turbo Competent大肠杆菌细菌细胞，将其接种于含有卡那霉素的LB-琼脂板(LB:Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。然后使用限制酶克隆将正确的克隆亚克隆到哺乳动物表达载体pStx34中。pStx1中的pStx34主链和CasX 491克隆分别用XbaI和BamHI消化。通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化消化的主干和插入片段。然后根据制造商的方案使用T4连接酶(新英格兰生物实验室目录号M0202L)将干净的主链和插入物连接在一起。将连接产物转化为化学感受态TurboCompetent大肠杆菌细菌细胞，将其接种于含有羧苄青霉素的LB-琼脂板(LB:Teknova目录号L9315，琼脂：Quartzy目录号214510) 上。选取个别菌落且使用Qiagen Qiaprep spinMiniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。pStX34包括用于蛋白质的EF-1α启动子以及用于嘌呤霉素及卡本西林两者的选择标记。编码靶向所关注基因的靶向序列的序列係基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过GoldenGate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至pStX中。将Golden Gate产物转化至化学或电感受态细胞，例如NEBTurbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂盘(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用QiagenQiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。SaCas9及SpyCas9对照质粒係与上文所述的pStX质粒类似地制备，其中pStX的蛋白质及引导区交换各别蛋白质及引导物。SaCas9及SpyCas9的靶向序列获自文献或根据确立方法合理地设计。使用实例1 和实例2的通用方法进行CasX构筑体的表达和恢复，获得了相似的结果。

表8：CasX 488和491的序列

实例4：CasX构筑体278-280、285-288、290、291、293、300、492和493的设计及生成

为了生成CasX 278-280、285-288、290、291、293、300、492和493构筑体(表9中的序列)，哺乳动物表达载体中的经密码子优化的CasX 119构筑体(基于实例2的CasX Stx37构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代及[P793]缺失，及连接引导及非靶向序列)的N-末端及C-末端经操纵以缺失或添加NLS序列(表10中的序列)。构筑体278、279及280为仅使用SV40 NLS序列的N端及C端操纵。构筑体280在N 端上不具有NLS且在C端上添加两个SV40 NLS，在两个SV40 NLS序列之间具有三重脯氨酸连接子。通过用Q5 DNA聚合酶(New England BioLabs目录号M0491L)根据制造商的方案，对于第一片段各自使用引子oIC527及oIC528、oIC730及oIC522以及oIC730及oIC530，且为了产生第二片段各自使用oIC529及oIC520、oIC519及oIC731以及oIC529及oIC731扩增pStx34.119.174.NT而制得构筑体278、279及280。此些片段係通过使用Zymoclean Gel DNARecovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号A-201-500)进行凝胶提取而纯化。各别片段係使用吉布森装配(New EnglandBioLabs目录号E2621S)，遵循制造商的方案选殖在一起。pStx34中的装配产物转化为化学感受态Turbo Competent大肠杆菌细菌细胞，将其接种于含有羧苄青霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。编码靶向所关注基因的靶向序列的序列係基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列及反向互补序列组成的单链 DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过 Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至pStX中。将Golden Gate产物转化为化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)，将其接种于含有羧苄青霉素的LB- 琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。

为了产生构筑体285-288、290、291、293及300，嵌套式PCR方法用于选殖。用的主链载体及PCR模板为构筑体pStx34 279.119.174.NT，其具有CasX 119、引导174及非靶向间隔(关于序列，参见实例8及9及其中的表)。构筑体278具有配置SV40 NLS-CasX119。构筑体279具有配置CasX119-SV40 NLS。构筑体280具有配置CasX119-SV40 NLS-PPP连接子-SV40NLS。构筑体285具有配置CasX119-SV40 NLS-PPP连接子-SynthNLS3。构筑体286具有配置CasX119-SV40 NLS-PPP连接子-SynthNLS4。构筑体287具有配置CasX119-SV40 NLS-PPP 连接子-SynthNLS5。构筑体288具有配置CasX119-SV40 NLS-PPP连接子-SynthNLS6。构筑体290具有配置CasX119-SV40 NLS-PPP连接子-EGL-13NLS。构筑体291具有配置 CasX119-SV40 NLS-PPP连接子-c-Myc NLS。构筑体293具有配置CasX119-SV40 NLS-PPP 连接子-核仁RNA解螺旋酶II NLS。构筑体300具有配置CasX119-SV40 NLS-PPP连接子-A 型流感蛋白NLS。构筑体492具有配置SV40 NLS-CasX119-SV40 NLS-PPP连接子-SV40 NLS。构筑体493具有配置SV40 NLS-CasX119-SV40 NLS-PPP连接子-c-Myc NLS。各变异体具有一组三个PCR；其中的两者为嵌套式的，通过凝胶提取纯化，消化，且接着连接至经消化及纯化的主链。pStx34中的装配产物转化为化学感受态Turbo Competent大肠杆菌细菌细胞，将其接种于含有羧苄青霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号 214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。编码靶向所关注基因的靶向序列的序列係基于CasX PAM位置而设计。靶向序列DNA 排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(IntegratedDNATechnologies)。此两个寡核苷酸黏接在一起且通过Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至所得 pStX中。将Golden Gate产物转化为化学或电感受态细胞，如NEB Turbo competent大肠杆菌 (NEB目录号C2984I)，将其接种于含有羧苄青霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用QiagenQiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。

为了产生构筑体492及493，使用XbaI及BamHI(NEB#R0145S及NEB#R3136S)根据制造商的方案消化构筑体280及291。随后，其係通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号 A-201-500)进行凝胶提取而纯化。最后，使用T4DNA连接酶(NEB#M0202S)根据制造商的方案，使用XbaI及BamHI及Zymoclean Gel DNA Recovery Kit将其连接至经消化及纯化的pStx34.119.174.NT中。pStx34中的装配产物转化为化学感受态Turbo Competent大肠杆菌细菌细胞，将其接种于含有羧苄青霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy 目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spinMiniprep Kit (Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。编码靶向所关注基因的靶向间隔序列的序列係基于CasXPAM位置而设计。靶向序列DNA排序为由此序列的靶向间隔序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于各别质粒的限制酶个别地或整体地选殖至各pStX中。将Golden Gate产物转化为化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)，将其接种于含有羧苄青霉素的LB-琼脂板(LB： Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。利用实施例1和2的一般方法，使用质粒生产和恢复CasX蛋白。

表9：CasX 278-280、285-288、290、291、293、300、492和493序列

表10：核定位序列列表

实例5：CasX构筑体387、395、485-491及494的设计及生成

为了生成CasX395、CasX485、CasX486、CasX487，经密码子优化的CasX 119(基于实例2的CasX 37构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K 取代及[P793]缺失，及连接引导及非靶向序列)、CasX435、CasX438及CasX484(各自基于实例2的CasX 119构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的L379R 取代、A708K取代及[P793]缺失，及连接引导及非靶向序列)分别使用标准克隆方法克隆至包含KanR标记、colE1 ori及具有融合NLS的CasX(pStx1)的4kb分段载体中。吉布森引子经设计以自其自身载体中的氨基酸192-331扩增CasX SEQ ID NO:1螺旋形I域，以分别替换 pStx1中的CasX119、CasX435、CasX438及CasX484上的此对应区域(aa193-332)。使用Q5 DNA 聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引子oIC768及oIC784扩增来自CasX SEQ ID NO:1的螺旋形I域。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引子oIC765及oIC764扩增含有所需CasX变异体的目的载体。两个片段係通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号A-201-500)进行凝胶提取而纯化。插入及主链片段接着使用吉布森装配(Gibson assembly)(New England BioLabs目录号 E2621S)，遵循制造商的方案拼凑在一起。pStx1分段载体中的装配产物转化至化学感受态 Turbo Competent大肠杆菌细菌细胞中，接种于含有康霉素的LB-琼脂盘(LB：Teknova目录号 L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。然后使用标准克隆方法将正确的克隆剪切并粘贴到哺乳动物表达质粒中(见图5)。所得质粒係使用桑格定序定序以确保适当装配。编码靶向所关注基因的靶向间隔序列的序列係基于CasX PAM位置而设计。靶向间隔序列DNA排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至pStX中。Golden Gate 产物转化至化学或电感受态细胞，例如NEB Turbocompetent大肠杆菌(NEB目录号C2984I) 中，接种于含有卡本西林的LB-琼脂盘(LB：Teknova目录号L9315，琼脂：Quartzy目录号 214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。

为了生成CasX 488、CasX 489、CasX 490及CasX 491(表11中的序列)，经密码子优化的CasX 119(基于实例2的CasX 37构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代及[P793]缺失，及连接引导及非靶向序列)、CasX 435、CasX 438及CasX 484(各自基于实例2的CasX 119构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS的L379R取代、A708K取代及[P793]缺失，及连接引导及非靶向序列)分别使用标准克隆方法克隆至由KanR标记、colE1 ori及具有融合NLS的STX(pStx1)构成的4kb分段载体中。吉布森引子经设计以扩增其自身载体中的来自氨基酸101-191的CasX Stx1 NTSB域及来自氨基酸192-331的螺旋形I域，以分别替换pStx1中的CasX119、CasX435、CasX438及 CasX484上的此类似区域(aa103-332)。使用Q5 DNA聚合酶(New England BioLabs目录号 M0491L)，根据制造商的方案，通过引子oIC766及oIC784扩增来自CasX SEQ ID NO:1的NTSB及螺旋形I域。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引子oIC762及oIC765扩增含有所需CasX变异体的目的载体。两个片段係通过使用ZymocleanGel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号A-201-500)进行凝胶提取而纯化。插入及主链片段接着使用吉布森装配(Gibson assembly)(New England BioLabs目录号E2621S)，遵循制造商的方案拼凑在一起。pStx1分段载体中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有康霉素的LB-琼脂盘(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。然后使用标准克隆方法将正确的克隆剪切并粘贴到哺乳动物表达质粒中(见图5)。所得质粒係使用桑格定序定序以确保适当装配。编码靶向所关注基因的靶向间隔序列的序列係基于 CasX PAM位置而设计。靶向间隔序列DNA排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至pStX中。Golden Gate产物转化至化学或电感受态细胞，例如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂盘(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。

为了生成CasX 387及CasX 494(表11中的序列)，经密码子优化的CasX 119(基于实例 2的CasX 37构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代及[P793]缺失，及连接引导及非靶向序列)及CasX 484(基于实例2的CasX 119构筑体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS的L379R取代、A708K取代及[P793]缺失，及连接引导及非靶向序列)分别使用标准克隆方法克隆至由KanR标记、colE1 ori及具有融合NLS的STX(pStx1)构成的4kb分段载体中。吉布森引子经设计以扩增其自身载体中来自氨基酸101-191的CasX Stx1 NTSB域，以分别替换pStx1中的CasX119及CasX484上的此类似区域(aa103-192)。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引子oIC766及oIC767扩增来自CasX Stx1的NTSB域。使用Q5 DNA聚合酶 (NewEngland BioLabs目录号M0491L)，根据制造商的方案，通过引子oIC763及oIC762扩增含有所需CasX变异体的目的载体。两个片段係通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号 A-201-500)进行凝胶提取而纯化。插入及主链片段接着使用吉布森装配(Gibson assembly)(New England BioLabs目录号E2621S)，遵循制造商的方案拼凑在一起。pStx1分段载体中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有康霉素的LB-琼脂盘 (LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当装配。然后使用标准克隆方法将正确的克隆剪切并粘贴到哺乳动物表达质粒中(见图5)。所得质粒係使用桑格定序定序以确保适当装配。编码靶向所关注基因的靶向序列的序列係基于CasX PAM位置而设计。靶向序列DNA 排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸黏接在一起且通过Golden Gate装配，使用T4DNA连接酶(New England BioLabs目录号M0202L)及适合于质粒的限制酶个别地或整体地选殖至pStX 中。Golden Gate产物转化至化学或电感受态细胞，例如NEB Turbocompetent大肠杆菌(NEB 目录号C2984I)中，接种于含有卡本西林的LB-琼脂盘(LB：Teknova目录号L9315，琼脂： Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。所得构筑体的序列在表11中列出。

表11：CasX 395和485-491的序列

实例6：RNA引导的生成

为了产生RNA单引导及间隔子，通过用Q5聚合酶(NEB M0491)根据推荐方案，通过用于各主链的模板寡核苷酸及具有T7启动子及间隔序列的扩增引子进行PCR来产生用于活体外转录的模板。用于引导及间隔的T7启动子、引导及间隔的DNA引物序列呈现于下表12中。对于各支架标记为“主链fwd”及“主链rev”的模板寡核苷酸係以各20nM的最终浓度包括在内，且扩增引子(T7启动子及独特间隔引子)係以各1μM的最终浓度包括在内。sg2、 sg32、sg64及sg174引导分别对应于SEQ ID NO:5、2104、2106及2238，除了sg2、sg32及 sg64经额外5'G修饰以提高转录效率(比较表12与表2中的序列)。7.37间隔子靶向β2-微球蛋白(B2M)。在PCR扩增之后，模板经清洁且通过酚-氯仿-异戊醇萃取分离，接着进行乙醇沉淀。

在含有50mM Tris pH 8.0、30mM MgCl₂、0.01％Triton X-100、2mM亚精胺、20mMDTT、 5mM NTP、0.5μM模板及100μg/mL T7 RNA聚合酶的缓冲液中进行活体外转录。将反应物在37℃下培育过夜。每1mL转录体积添加20单位的DNA酶I(Promega#M6101))且培育一小时。RNA产物经由变性PAGE纯化、经乙醇沉淀且再悬浮于1×磷酸盐缓冲盐水中。为了折叠sgRNA，将样品加热至70℃后维持5分钟且接着冷却至室温。将反应物补充至1mM最终MgCl₂浓度，加热至50℃后维持5分钟且接着冷却至室温。将最终RNA引导产物存储于 -80℃。

表12：用于生成引导RNA的序列

实例7：RNP装配

CasX及单引导RNA(sgRNA)的纯化野生型及RNP係在即将进行实验之前制备，或经制备且在液氮中急冻且存储于-80℃以便后续使用。为了制备RNP复合物，将CasX蛋白与sgRNA以1:1.2摩尔比一起培育。简言之，将sgRNA添加至Buffer#1(25mM NaPi、150mM NaCl、200mM海藻糖、1mM MgCl2)中，接着将CasX在涡旋下缓慢添加至sgRNA溶液中，且在37℃下培育10分钟以形成RNP复合物。RNP复合物在使用之前经由用200μl Buffer#1 预润湿的0.22μm Costar 8160过滤器过滤。必要时，RNP样品用0.5ml Ultra 100-Kd截止过滤器(Millipore零件号UFC510096)浓缩，直至获得所需体积。如实例14中所述地评估胜任型RNP的形成。

实例8：评估对引导RNA的结合亲和力

纯化野生型及改进CasX将在含有氯化镁以及肝素的低盐缓冲液中与含有3'Cy7.5部分的合成单引导RNA一起培育，以防止非特异性结合及聚集。sgRNA将维持于10pM的浓度，而蛋白质将在独立结合反应中自1pM滴定至100μM。在允许反应达到平衡之后，样品将穿过具有硝化纤维素膜及带正电尼龙膜的真空歧管过滤器-结合分析，所述膜分别结合蛋白质及核酸。膜将经成像以鉴别引导RNA，且将通过针对各蛋白质浓度在硝化纤维素相对于尼龙膜上的萤光的量来确定结合相对于未结合RNA的分率，以计算蛋白质-sgRNA复合物的解离常量。亦将通过sgRNA的改进变异体进行实验，以确定此些突变是否亦影响引导对于野生型及突变蛋白的亲和力。吾人亦将进行电迁移率变动分析以与过滤器-结合分析定性比较，及确认可溶性结合而非聚集为蛋白质-RNA结合的主要贡献因素。

实例9：评估对靶DNA的结合亲和力

纯化野生型及改进CasX将与携有与目标核酸互补的靶向序列的单引导RNA复合。RNP 复合物将与含有PAM及适当目标核酸序列(在靶链上具有5'Cy7.5标记)的双链目标DNA在含有氯化镁以及肝素的低盐缓冲液中一起培育，以防止非特异性结合及聚集。目标DNA将维持于1nM的浓度，而RNP将在独立结合反应中自1pM滴定至100μM。在允许反应达到平衡之后，样品将在天然5％聚丙烯酰胺凝胶上运行以分离结合及未结合目标DNA。凝胶将经成像以鉴别目标DNA的迁移率变动，且将对于各蛋白质浓度计算结合相对于未结合DNA的分率，以确定RNP-目标DNA三元复合物的解离常量。

实例10：编辑基因靶标PCSK9、PMP22、TRAC、SOD1、B2M及HTT

此研究的目的为评估CasX变异体119及gNA变异体174编辑六个基因标靶中的核酸序列的能力。

材料及方法

基于靶向所关注的所需基因座的PAM要求(TTC或CTC)以无偏方式设计用于除了B2M 及SOD1的外的所有标靶之间隔子。先前已经由针对此些基因进行的慢病毒间隔子筛选而在靶向外显子内鉴别靶向B2M及SOD1之间隔子。设计用于其它标靶之间隔子係以单链DNA(ssDNA)寡核苷酸对形式订购自Integrated DNA Technologies(IDT)。ssDNA间隔子对係黏接在一起且经由Golden Gate选殖选殖至含有以下组分的碱基哺乳动物表达质粒构筑体中：EF1A 启动子下的经密码子优化的CasX119蛋白+NLS、U6启动子下的引导支架174、卡本西林及嘌呤霉素抗性基因。将装配产物转化至化学感受态大肠杆菌中，接种于含有卡本西林的Lb- 琼脂盘(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上，且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒经由桑格定序(Quintara Biosciences)经引导支架区定序，以确保适当连接。

在补充有10％胎牛血清(FBS；Seradigm，#1500-500)、100单位/毫升青霉素及100mg/ml 链霉素(100×-青霉素-链霉素；GIBCO#15140-122)、丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100×Thermofisher#11140050)、HEPES缓冲液(100×Thermofisher#15630080)及 2-巯基乙醇(1000×Thermofisher#21985023)的达尔伯克氏改进伊格尔培养基(DMEM；Corning Cellgro，#10-013-CV)中生长HEK293T细胞。使用TryplE将细胞每3-5天继代一次，且维持于37℃及5％CO2的培育箱中。

在第0天，HEK293T细胞以每孔30k个细胞接种于96孔平底盘中。在第1天，使用脂染胺3000根据制造商的方案，细胞经100ng质粒DNA转染。在第2天，将细胞转换至含有嘌呤霉素的FB培养基。在第3天，此培养基经含有嘌呤霉素的新鲜FB培养基替换。此时间点之后的方案取决于所关注基因而趋异。针对PCSK9、PMP22及TRAC的第4天：验证细胞已完成选择且转换至无嘌呤霉素的FB培养基。针对B2M、SOD1及HTT的第4天：验证细胞已完成选择且使用TryplE 1:3继代至含有无嘌呤霉素的FB培养基的新盘中。针对 PCSK9、PMP22及TRAC的第7天：细胞自盘中上升，在dPBS中洗涤，计数，且以每微升 10,000个细胞再悬浮于QuickExtract(Lucigen，QE09050)中。根据制造商的方案提取基因体 DNA且存储于-20℃下。针对B2M、SOD1及HTT的第7天：细胞自盘中上升，在dPBS中洗涤，且根据制造商的方案用Quick-DNA Miniprep Plus Kit(Zymo，D4068)提取基因体DNA 且存储于-20℃下。

NGS分析：使用下一代定序(NGS)分析来分析来自各实验样品的细胞中的编辑。使用 KAPA HiFi HotStart ReadyMix PCR试剂盒(KR0370)进行所有PCR。对于PCSK9、PMP22及TRAC，基因体DNA样品PCR的模板为QE中的5μl基因体DNA，每μL 10k个细胞。对于B2M、SOD1及HTT，基因体DNA样品PCR的模板为水中的400ng基因体DNA。设计对所关注的目标基因体位置具有特异性的引子以形成目标扩增子。此些引子在5'端含有额外序列以引入Illumina读段及2个序列。另外，其含有充当独特分子标识符(UMI)的7nt随机序列。使用FragmentAnalyzer DNA分析仪试剂盒(Agilent，dsDNA 35-1500bp)评估扩增子的质量及定量。根据制造商的说明书在Illumina Miseq上定序扩增子。将所得定序读段与参考序列比对且分析插入缺失。将具有不与估计的切割位置对准的编辑或在间隔区中具有出人意料的对偶基因的样品丢弃。

结果

为了验证在多个基因座处由CasX:gNA119.174实现的编辑，在HEK293T细胞中进行纯系质粒转染实验。设计了多个间隔(表13，列出了实际gNA间隔的编码DNA和RNA序列)，并将其克隆到编码CasX 119核酸酶和引导174支架的表达质粒中。HEK293T细胞经质粒DNA 转染，用嘌呤霉素选择，且在转染后六天收获用于基因体DNA。经由下一代定序(NGS)分析基因体DNA且与参考DNA序列比对以分析插入或缺失(插入缺失)。CasX:gNA 119.174能够在6个靶基因上有效地生成插入缺失，如图9和10中所示。插入缺失率在间隔子之间变化，但中值编辑速率始终为60％或更高，且在一些情况下，观测到高达91％的插入缺失率。另外，表明具有非典型CTC PAM的间隔能够在所有测试靶基因的情况下生成插入缺失(图11)。

结果表明CasX变异体119及gNA变异体174可在人类细胞中的多个基因座处始终且有效地产生插入缺失。分析中所用的许多间隔子的无偏选择展示119.174RNP分子编辑基因座的总体有效性，而通过TTC及CTCPAM靶向间隔子的能力表明其相比于仅通过TTC PAM编辑的参考CasX增加的通用性。

表13：靶向各个基因座的间隔序列。

实例11：体外评估差分PAM识别

纯化野生型及工程化CasX变异体将与携有固定靶向序列的单引导RNA复合。RNP复合物将以100nM的最终浓度添加至含有MgCl2的缓冲液，且以10nM的浓度与5'Cy7.5标记的双链目标DNA一起培育。将通过含有与目标核酸序列邻近的不同PAM的不同DNA受质进行独立反应。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA及95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解及未裂解的DNA受质。将观测结果且将测定非典型PAM通过CasX变异体的裂解速率。

实例12：评估针对双链裂解的核酸酶活性

纯化野生型及工程化CasX变异体将与携有固定PM22靶向序列的单引导RNA复合。RNP 复合物将以100nM的最终浓度添加至含有MgCl₂的缓冲液且以10nM的浓度与在靶标或非靶标链上具有5'Cy7.5标记的双链靶DNA一起培育。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA及95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解及未裂解的DNA受质。将观测结果且将确定目标及非靶链通过野生型及工程化变异体的裂解速率。为了更明显地区分目标结合相对于核分解反应自身的催化速率的变化，将在10nM至1μM范围内滴定蛋白质浓度，且将在各浓度下确定裂解速率以产生假-米曼氏拟合(pseudo-Michaelis-Mentenfit)且确定kcat*及KM*。KM*的变化指示改变的结合，而kcat*的变化指示改变的催化。

实例13：评估针对裂解的靶链负载

纯化野生型及工程化CasX119将与携有固定PM22靶向序列的单引导RNA复合。RNP复合物将以100nM的最终浓度添加至含有MgCl2的缓冲液，且以10nM的浓度与在靶链上具有5'Cy7.5标记且在非靶链上具有5'Cy5标记的双链目标DNA一起培育。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA及95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解及未裂解的DNA受质。将观测结果且将确定两个股通过变异体的裂解速率。靶链裂解但并非非靶链裂解的速率的变化将指示裂解活性位点中靶链负载的改进。此活性可通过用在非靶链上具有间隙的dsDNA受质(模拟预裂解受质)重复该分析而进一步分离。在此情形下改进的非靶链裂解将进一步证明靶链的负载及裂解。

实例14：CasX:gNA活体外裂解分析

1.与野生型参考CasX相比，确定蛋白质变异体的裂解胜任性分率

使用活体外裂解分析确定相比于参考CasX，CasX变异体形成活性RNP的能力。如下地产生用于裂解分析的β-2微球蛋白(B2M)7.37目标。具有序列TGAAGCTGACAGCATTCGGG CCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCT(非靶链，NTS(SEQ ID NO:596) 及TGAAGCTGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGC GCT(靶链，TS(SEQ ID NO:597))的DNA寡核苷酸与5'荧光标记(分别为LI-COR IRDye 700 和800)一起购买。如下地形成dsDNA靶标：通过在1×裂解缓冲液(20mM Tris HCl pH 7.5， 150mM NaCl，1mM TCEP，5％甘油，10mM MgCl₂₎中以1:1比率混合寡核苷酸，加热至95℃后保持10分钟，且使溶液冷却至室温。

在1×裂解缓冲液(20mM Tris HCl pH 7.5，150mM NaCl，1mM TCEP，5％甘油，10mMMgCl₂)中于37℃下持续10分钟用最终浓度为1μM的指示CasX及引导(参见图表)复原CasXRNP，其中指示引导为1.5倍过量，随后移至冰上直至准备使用。使用7.37靶标，以及具有与7.37靶标互补的间隔的sgRNA。

制备最终RNP浓度为100nM且最终目标浓度为100nM的裂解反应物。在37℃下进行反应且通过添加7.37靶DNA起始。在5、10、30、60及120分钟处获取等分试样且通过添加至95％甲酰胺，20mMEDTA中淬灭。样品通过在95℃下加热10分钟变性，且在10％脲-PAGE 凝胶上运行。使用LI-COR Odyssey CLx对凝胶进行成像并使用LI-COR Image Studio软件进行定量，或者施用Cytiva Typhoon对凝胶进行成像并使用Cytiva IQTL软件进行定量。使用Prism绘制及分析所得数据。吾人假设CasX在分析条件下基本上以单周转酶形式起作用，如由以下观测结果指示：亚化学计算量的酶即使在扩展时间标度下亦无法裂解大于化学计算量的目标，且替代地接近随着存在的酶的量缩放的平稳段。因此，目标在长时间标度内通过等摩尔量的RNP裂解的分率指示RNP的何种分率为恰当形成的且对于裂解具活性。用双相速率模型拟合裂解迹线，因为裂解反应在此浓度范围内明显偏离单相，且对于三个独立复本中的每一者确定平稳段。计算平均值及标准差以确定活性分率(表14)。图表示于图12中。

对于针对CasX2+引导174+7.37间隔、CasX119+引导174+7.37间隔、CasX457+引导174+7.37间隔、CasX488+引导174+7.37间隔及CasX491+引导174+7.37间隔形成的RNP确定表观活性(胜任性)分率。确定的活性分率展示于表14中。所有CasX变异体均具有高于野生型CasX2的活性分率，表明相比于野生型CasX，工程化CasX变异体在测试条件下通过相同引导形成显著更具活性且稳定的RNP。此可归因于对sgRNA增加的亲和力、在sgRNA存在下增加的稳定性、或溶解度或工程化CasX:sgRNA复合物的裂解胜任型构形的更大稳定性。与CasX2相比，向sgRNA中添加CasX457、CasX488或CasX491时，观察到的沉淀物显著减少，表明RNP的溶解度增加。

2.活体外裂解分析-确定CasX变异体相比于野生型参考CasX的k_cleave

对于CasX2.2.7.37、CasX2.32.7.37、CasX2.64.7.37及CasX2.174.7.37，也使用相同的方案测定裂解胜任性分率为16±3％、13±3％、5±2％及22±5％，如图13和表14中所示。

第二组引导在不同条件下进行了测试，以更好地隔离引导对RNP形成的贡献。将174、 175、185、186、196、214和215个带有7.37间隔的引导与CasX491混合，最终浓度为1μM的引导和1.5μM的蛋白质，而不是像以前那样使用过量的引导。结果示于图14和表14。与174相比，这些引导中的许多都表现出额外的改进，其中185和196分别实现了44％和46％的胜任性分率，而在这些引导限制条件下，174为17％。

数据指示相比于野生型CasX及野生型sgRNA，CasX变异体及sgRNA变异体均能够通过引导RNA形成较高程度的活性RNP。

与野生型参考CasX相比，CasX变异体119、457、488和491的表观裂解速率是通过体外荧光分析来测定的，用于裂解靶7.37。

CasX RNP用指示CasX(参见图15)在1×裂解缓冲液(20mM Tris HCl pH 7.5，150mM NaCl，1mM MTCEP，5％甘油，10mM MgCl₂₎中于37℃下用1.5倍过量的指示引导以1μM的最终浓度复原10分钟，随后移至冰上直至准备使用。以200nM的最终RNP浓度及10nM 的最终目标浓度建立裂解反应。在37℃下进行反应且通过添加靶DNA起始。在0.25、0.5、 1、2、5及10分钟处获取等分试样且通过添加至95％甲酰胺，20mMEDTA中淬灭。样品通过在95℃下加热10分钟变性，且在10％脲-PAGE凝胶上运行。凝胶用LI-COR Odyssey CLx成像，并使用LI-COR Image Studio软件进行量化，或用Cytiva Typhone成像，并使用Cytiva IQTL 软件进行量化。使用Prism绘制及分析所得数据，且针对各CasX:sgRNA组合复本个别地确定非靶链裂解的表观一阶速率常量(kcleave)。具有独立拟合的三个重复的平均值和标准偏差如表14所示，解理迹线如图15所示。

测定野生型CasX2和CasX变异体119、457、488和491的表观裂解速率常数，每个分析中使用引导174和间隔7.37(见表14和图15)。相对于野生型CasX2，所有CasX变异体都提高了裂解速率。CasX457的裂解速度比119慢，尽管如上所述具有更高的胜任性分率。CasX488和CasX491的裂解速率最高；由于靶标在第一个时间点几乎完全被裂解，真正的裂解速率超过了该测定的分辨率，报告的k_裂解应作为下限。

数据表明，相比于野生型CasX2，CasX变异体具有较高活性水准，其中k_裂解速率至少高出30倍。

3.活体外裂解分析：比较引导变异体与野生型引导

亦通过野生型参考CasX2及参考引导2相比于引导变异体32、64及174进行裂解分析，以确定变异体是否改进裂解。如上文所述地进行实验。由于许多所得RNP在测试时间内未接近目标的完全裂解，吾人决定初始反应速度(V0)而非一阶速率常量。前两个时间点(15及30 秒)与各CasX:sgRNA组合及复制的线拟合。确定三个复本的斜率的平均值及标准差。

在分析条件下，CasX2在引导2、32、64及174的情况下的V₀为20.4±1.4nM/min、18.4 ±2.4nM/min、7.8±1.8nM/min及49.3±1.4nM/min(参见表14及图16和图17)。引导174 表明，所得RNP的裂解速率的大幅改进(相对于2为约2.5倍，参见图17)，而引导32及64的表达与引导2类似或比其更差。值得注意的是，引导64支持比引导2更低的裂解速率，但在活体内的表达好得多(数据未示出)。产生引导64的一些序列改变可能以参与三螺旋体形成的核苷酸为代价来改进活体内转录。引导64改进的表达可能解释其改进的活体内活性，而其降低的稳定性可导致不当活体外折叠。

使用具有间隔7.37和CasX491的引导174、175、185、186、196、214和215进行了额外的实验，以确定相对裂解速率。为了将裂解动力学降低到用我们的测定可测量的范围，裂解反应在10℃下孵育。结果如图18和表14。在这些条件下，215是唯一支持比174更快的裂解速率的引导。196在引导限制条件下表现出最高的RNP活性分率，其动力学与174基本相同，再次强调了不同的变异体导致不同特征的改进。

这些数据支持，在测定条件下，使用带有CasX的大多数引导变异体导致RNP的活性水平高于使用野生型引导变异体的RNP，初始裂解速度的改善范围为约2倍至>6倍。表14中的数值从左到右表示RNP构筑体的CasX变异体、sgRNA支架和间隔序列。

表14：裂解及RNP形成分析的结果

*平均值及标准差

实例15：切口变异体的识别

纯化的修饰CasX变异体将与带有固定靶向序列的单引导RNA复合。RNP复合物将以100nM的最终浓度添加至含有MgCl₂的缓冲液，且以10nM的浓度与在靶链上具有5'荧光素标记且在非靶链上具有5'Cy5标记的双链靶DNA一起培育。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA及95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解及未裂解的DNA受质。一条链而不是另一条链的有效裂解表明该变异体具有单链切口酶活性。

实例16：评估用于RNP生产的CasX变异体的改进表达和溶解度特征

野生型和修饰的CasX变异体将在相同条件下在BL21(DE3)大肠杆菌中表达。所有蛋白质都将处于IPTG诱导型T7启动子的控制之下。细胞将在37℃的TB培养基中生长至OD为0.6，此时生长温度将降低至16℃，并通过添加0.5mM IPTG诱导表达。细胞将在表达18小时后收获。将提取可溶性蛋白质级分并在SDS-PAGE凝胶上进行分析。可溶性CasX表达的相对水平将通过考马斯染色来鉴定。蛋白质将根据上述方案平行纯化，并比较纯蛋白质的最终产量。为了确定纯化蛋白质的溶解度，构筑体将在储存缓冲液中浓缩，直到蛋白质开始沉淀。将通过离心去除沉淀的蛋白质，并测量可溶性蛋白质的最终浓度以确定每种变异体的最大溶解度。最后，CasX变异体将与单引导RNA复合并浓缩，直到开始沉淀。沉淀的RNP将通过离心去除，并测量可溶性RNP的最终浓度以确定每个变异体与引导RNA结合时的最大溶解度。

实例17：用于测量sgNA和CasX蛋白活性的测定

使用多种检测方法对CasX蛋白和sgNA深度突变进化(DME)文库和修饰的突变体进行初步筛选，并测量所选蛋白质和sgNA变异体相对于CasX参考sgNA和蛋白质的活性。

大肠杆菌CRISPRi筛选：

简言之，将氯霉素(CM)耐受性质粒上的死亡CasX DME库与羧苄青霉素(Carb)耐受性质粒上的GFP gNA的生物三倍体转化为通过基因集成及组成性表达的GFP及RFP转化(以>5×库大小)到具有基因整合和组成型表达的GFP和RFP的MG1655中。细胞在EZ-RDM+Carb、CM及无水四环素(aTc)诱导剂中生长过夜。大肠杆菌係基于GFP而非RFP抑制的顶部1％的门进行FACS分选，收集，且立即重新分选以进一步富集高度功能性CasX分子。接着生长双重分选库且收集DNA用于highseq上的深度定序。此DNA亦重新转移至盘上且选取个别纯系用于进一步分析。

大肠杆菌毒素选择：

简言之，含有阿拉伯糖诱导性毒素的羧苄青霉素耐受性质粒转化至大肠杆菌细胞中且变为电感受态。将具有氯霉素耐受性质粒上的毒素靶向gNA的CasX DME文库的生物三倍体转化(以>5x文库大小)到所述细胞中，并在LB+CM和阿拉伯糖诱导剂中生长。裂解毒素质粒的大肠杆菌在诱导培养基中存活且生长至对数中期，且回收具有功能性CasX裂解剂的质粒。按需要重复此选择。接着生长所选库且收集DNA用于highseq上的深度定序。此DNA亦重新转移至盘上且选取个别纯系用于进一步分析及测试。

基于慢病毒的筛选EGFP筛选：

在转染时以70％-90％的汇合度于HEK293细胞中产生慢病毒粒子。基于含有CasXDME 库的质粒的转染使用聚乙烯亚胺转染细胞。慢病毒载体经用于粒子生产的慢病毒封装质粒及 VSV-G包膜质粒共转染。在转染后12小时更换培养基，且在转染后36-48小时收集病毒。使用0.45mm膜过滤器过滤病毒上清液，适当时于细胞培养基中稀释，且添加至具有集成式GFP 报道子的目标细胞HEK细胞中。必要时，补充凝聚胺以增强转导效率。经转导的细胞在转导后24-48小时使用嘌呤霉素选择，且生长7-10天。然后对细胞进行GFP破坏分类，并收集高功能的CasX-sgNA或蛋白质变异体(参见图19)。接着经由PCR直接自基因体扩增库且收集用于在highseq上进行深度定序。此DNA亦可重新选殖及重新转移至盘上且选取个别纯系用于进一步分析。

实例18：分析HEK EGFP报道子的编辑效率

为了分析CasX参考sgRNA及蛋白质及其变异体的编辑效率，将EGFP HEK293T报道子细胞接种至96孔板中，且根据制造商的方案用脂染胺3000(Life Technologies)及100-200ng 编码参考或CasX变异蛋白、P2A-嘌呤霉素融合物及参考或变异sgRNA的质粒DNA进行转染。次日，细胞用1.5μg/ml嘌呤霉素选择2天且在选择之后通过萤光活化细胞分选(FACS)分析7天，以允许自细胞清除EGFP蛋白。使用Attune NxT流式细胞仪及高通量自动进样器跟踪经由编辑的EGFP破坏。

实例19：CasX参考sgRNA的裂解效率

SEQ ID NO:4(如下)的参考CasX sgRNA描述于WO 2018064371和US10570415B2中，其内容通过引用并入本文。

ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCG UAUGGACGAAGCGCUUAUUUAUCGGAGAGAAACCGAUAAGUAAAACGCAUCAAAG (SEQ ID NO:4)。

研究发现，改变SEQ ID NO:4的sgRNA参考序列，产生SEQ ID NO:5(如下)能够提高CasX裂解效率。序列为：UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACCAG CGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGAGAGAAAUCCGAUAAAUAAG AAGCAUCAAAG(SEQ ID NO:5)。

为了分析CasX参考sgRNA及其变异体的编辑效率，将EGFP HEK293T报道子细胞接种至96孔盘中，且根据制造商的方案用脂染胺3000(Life Technologies)及100-200ng编码参考 CasX蛋白、P2A-嘌呤霉素融合物及sgRNA的质粒DNA进行转染。次日用1.5μg/ml嘌呤霉素选择细胞2天，并在选择后7天通过荧光激活细胞分选(FACS)分析以允许从细胞中清除EGFP蛋白。使用Attune NxT流式细胞仪及高通量自动进样器跟踪经由编辑的EGFP破坏。

当通过CasX参考和sgNA变异体测试EGFP报道子的裂解时，使用了以下间隔靶序列：

E6(TGTGGTCGGGGTAGCGGCTG(SEQ ID NO:17))和E7 (TCAAGTCCGCCATGCCCGAA(SEQID NO:18))。

图20示出了与SEQ ID NO:4的sgRNA相比，SEQ ID NO:5的sgRNA的裂解效率提高的实例。相比于SEQ ID NO:4，SEQ ID NO:5的编辑效率改进176％。因此，选择SEQ ID NO:5 作为DME和其它sgNA变异体设计的参考sgRNA，如下所述。

实例20：具有改进靶裂解的gNA变异体的设计、创建和评估

设计和测试了引导核酸(gNA)变异体，以评估裂解活性相对于参考gNA的改进。如本文所述，这些引导是通过DME或合理设计和替换或添加引导部分(例如延伸的茎或在末端添加核酶)发现的。

实验设计：所有引导都在HEK293T或HEK293T报道子系中进行了如下测试。哺乳动物细胞维持在5％CO2的37℃培养箱中。在补充有10％胎牛血清(FBS；Seradigm，#1500-500)、 100单位/毫升青霉素及100mg/ml链霉素(100x-Pen-Strep；GIBCO#15140-122)并另外包括丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100x Thermofisher#11140050)、HEPES 缓冲液(100x Thermofisher#15630080)及2-巯基乙醇(1000xThermofisher#21985023)的达尔伯克氏改进伊格尔培养基(DMEM；Corning Cellgro，#10-013-CV)中生长HEK293T人肾细胞及其衍生物。将细胞以每孔20-30,000个细胞接种到96孔板中，并使用0.25-1uL的Lipofectamine 3000(赛默飞世尔科技(Thermo FisherScientific)#L3000008)、50-500ng含有CasX的质粒和参考或变异CasX引导按照制造商的方案靶向报道子或靶基因进行转染。24至72小时后，更换培养基，添加0.3至3.0ug/ml的嘌呤霉素(Sigma#P8833)以选择转化。选择后24至96小时，通过流式细胞术对细胞进行分析，并选择适当的正向和侧向散射，选择单个细胞，然后选择绿色荧光蛋白(GFP)或抗体报道子表达(Attune Nxt流式细胞仪，赛默飞世尔科技)，以量化荧光团的表达水平。对于各样品收集至少10,000个事件。对于HEK293T-GFP基因组编辑报道细胞系，流式细胞术用于量化GFP阴性(编辑)细胞的百分比，并将每个变异体的GFP破坏的细胞数与参考引导进行比较，以生成变化倍数测量值。

结果：测量了来自通过DME生成的sgNA变异体的结果，并将其与SEQ ID NO：4的参考gNA进行比较，如图22所示，与参考gNA相比，大多数变异体表现出从0.1到近1.5倍的改进。通过合理设计和替换或添加引导部分(如延伸的茎或在末端添加核酶)生成的变异体的结果分别如图21和23所示；再次示出许多构筑体的改进。下表15列出了图23中以数字表示的变异体的添加及其编码序列。我们观察到，与参考相比，C18G等单一突变提高了引导活性。此外，与参考引导相比，合理地将不同的茎环交换为延伸茎环，如MS2、QB、PP7、 UvsX等，提高了活性，截短原始的延伸茎环也是如此。最后，我们证明虽然大多数核酶会破坏活性，但在参考引导RNA中添加3'HDV可以将活性提高20至50％。

表15：添加到gNA的3'和5"端的延伸

结论：结果支持以下结论：DME和合理设计可用于改善gNA的性能，并且许多这些变异RNA现在可与靶向序列一起使用，作为本文所述CasX:gNA系统的组成部分，用于编辑靶向核酸序列。

实例21：B2M基因座的CasX编辑

目标：进行实验以确定最佳的CasX和gNA分子以编辑B2M基因座

材料及方法：

1.生成B2M靶向构筑体：

为了生成B2M靶向构筑体，密码子优化的CasX 2(构筑体2.2)和构筑体119.64分子(表 16中的CasX序列；表1和2中列出了引导序列)和融合的NLS(在本文中称为“StX”)，使用编码DNA序列，使用标准克隆方法将引导支架和非靶向靶向序列克隆到哺乳动物表达质粒(pStX)中。pStX包括嘌呤霉素和羧苄青霉素的选择标记。编码靶向感兴趣基因的靶向序列的序列是基于StX PAM位置设计的(表17，列出了RNA靶向序列；质粒是用相应的DNA编码序列创建的)。靶向序列DNA排序为由此序列的靶向序列及反向互补序列组成的单链DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。将这两个寡核苷酸一起退火，并使用T4 DNA 连接酶(新英格兰生物实验室目录号M0202L)和适当的质粒限制酶通过GoldenGate组装单独或批量克隆到pStx中。将Golden Gate产物转化为化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，将其接种于含有羧苄青霉素的LB-琼脂板(LB： Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒係使用桑格定序定序以确保适当连接。SaCas9及SpyCas9对照质粒与上文所述的pStx质粒类似地制备，其中pStx的蛋白质及引导区与相应的蛋白质和引导区交换。SaCas9及SpyCas9的靶向序列获自文献或根据确立方法合理地设计。

2.评估哺乳动物细胞系中的B2M编辑活性：

在哺乳动物细胞中评估了两种StX变异体的活性，包括人类胚胎肾(HEK293T)细胞和人类T淋巴细胞(Jurkats)。哺乳动物细胞维持在5％CO2的37℃培养箱中。在补充有10％胎牛血清(FBS；Seradigm，#1500-500)、100单位/毫升青霉素及100mg/ml链霉素(100x-Pen-Strep； GIBCO#15140-122)并另外包括丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100x Thermofisher#11140050)、HEPES缓冲液(100x Thermofisher#15630080)及2-巯基乙醇(1000x Thermofisher#21985023)的达尔伯克氏改进伊格尔培养基(DMEM；Corning Cellgro， #10-013-CV)中生长HEK293T细胞及其衍生物。在补充有10％胎牛血清(FBS；Seradigm， #1500-500)、100单位/毫升青霉素及100mg/ml链霉素(100x-Pen-Strep；GIBCO#15140-122) 并另外包括丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100x Thermofisher #11140050)、HEPES缓冲液(100x Thermofisher#15630080)及2-巯基乙醇(1000x Thermofisher #21985023)的RPMI培养基中培养Jurkats和K562s。将如HEK293T的粘附细胞以每孔20-30,000个细胞接种到96孔板中，并使用0.25-1uL的Lipofectamine 3000(赛默飞世尔科技 #L3000008)、50-500ng含有CasX的质粒和参考或变异CasX引导按照制造商的方案靶向报道子或靶基因进行转染。替代地，按照制造商的方案，使用Lonza 4D-nucleofector用0.5-4.0ug 质粒DNA/200k细胞对如Jurkats等悬浮细胞进行核转染。核转染后，在96孔板中培养悬浮细胞，如Jurkats。24至72小时后，更换培养基，添加0.3至3.0ug/ml的嘌呤霉素(Sigma#P8833) 以选择转化。以下对照或其组合用于每次转染或核转染实验：具有非靶向靶向序列的StX分子、靶向B2M的Sa.Cas9和/或SpyCas9，以及具有非靶向靶向序列的Sa.Cas9和Spy.Cas9。选择后24至96小时或之后，通过流式细胞术对细胞进行分析，并选择适当的正向和侧向散射，选择单个细胞，然后对抗体报道子的表达进行门控(Attune Nxt流式细胞仪，赛默飞世尔科技)，以量化荧光团的表达水平。对于各样品收集至少10,000个事件。然后将数据用于计算抗体标记阴性(编辑)细胞的百分比。

此外，使用T7E1和NGS对来自每个实验样品的细胞中的编辑进行了分析。为此，按照制造商的方案，使用Quikextract溶液(Lucigen目录号QE09050)裂解每个实验样品中的一部分细胞，并提取基因组DNA。对于T7E1，首先用引物在感兴趣的靶基因组位置通过PCR扩增基因组DNA。然后按照新英格兰生物实验室T7E1协议对扩增的DNA进行处理，并通过凝胶电泳进行分析。

3.NGS分析

对于NGS分析，使用特定于靶基因组位置的引物，通过PCR扩增基因组DNA，以形成靶扩增子。这些引物在5'端含有额外序列以引入Illumina读段1和2个序列。另外，其含有充当独特分子标识符(UMI)的16nt随机序列。使用Fragment Analyzer DNA分析仪试剂盒(Agilent，dsDNA 35-1500bp)评估扩增子的质量及定量。根据制造商的说明书，在IlluminaMiseq 上对扩增子进行测序。

对测序得到的原始fastq文件进行如下处理：(1)使用程序cutadapt(版本2.1)对序列进行质量和适配器序列修剪；(2)使用程序flash2(版本2.2.00)将来自读段1和读段2的序列合并为单个插入序列；(3)将具有相同UMI序列的插入合并为单个序列。第一步，使用每个碱基投票策略，从具有相同UMI的所有单个插入生成单个共有序列。第二步，将各个插入与共有序列进行比较。如果超过67％的插入与共有序列完全匹配，则为该UMI采用共有序列。如果不是，则为该UMI获取具有最高测序质量的单个插入片段；(4)共有插入序列与预期的扩增子序列和靶向序列一起通过程序CRISPResso2(版本2.0.29)运行。该程序量化了在靶向序列3'端周围的窗口中修饰的读取百分比(20bp窗口以距靶向序列3'端–3bp为中心)。StX分子的修饰百分比通过在这个窗口中包含插入和/或删除的总读取百分比进行量化。

表16：Stx CasX构筑体的序列

表17：使用靶向序列通过CasX或Cas9编辑HLA1

*至少3次重复测定的平均值

结果：

首先在多个人类细胞系中评估HLA1表达水平(图24)。该测定的基础是由于敲除HLA1 的必需结构蛋白B2M而导致HLA1表达水平的降低。T7E1测定验证了HEK细胞中B2M基因座的编辑(图25)。我们使用对HLA 1特异的荧光抗体对此进行了筛选。使用我们的初始Stx分子2.2，以SpyCas9为对照，在HEK293T细胞中对具有各种PAM特异性的68个B2M靶向序列(参见表17)进行了初始筛选，并且a)然后使用26个与SaCas9兼容的B2M靶向序列(参见表17)进行类似筛选，以建立该靶标与SaCas9分子的对照。编辑测定的结果示于表17，表示为HLA1表达的百分比变化。

Stx 119.64变异体显示出比Stx 2.2的显着改进，在HEK细胞中的内源B2M基因座处进行编辑，通过流式细胞术在HEK293T细胞中测得的效率高达20倍(图26)。Stx 119.64与靶向HEK 293T细胞中内源性B2M的五个最佳SaCas9间隔的比较显示了相当的编辑水平(图27 和28)。HEK 293tTB2M基因座的NGS分析显示用Stx 119.64的修饰率高达80％(图29)。这些修饰主要是缺失，而SpyCas9主要是插入。

结论：这些结果表明，在Stx 2.2序列中引入选择性突变可以提高Stx CasX的编辑性能。

实例22：B2M在基因工程表达嵌合抗原受体(CAR)和TCR的细胞中的遗传破坏

原代人CD4+和CD8+T细胞将通过基于免疫亲和性的选择从自健康供体获得的人PBMC 样品中分离。所得的细胞将在37℃下用抗CD3/抗CD28试剂在含有人血清、IL-2(100U/mL)、IL-7(10ng/mL)和IL-15(5ng/mL)的培养基中进行刺激，然后通过慢病毒转导进行嵌合抗原受体(CAR)工程化24至48小时。将使用慢病毒载体转导细胞，该载体含有编码示范性抗CD19 CAR的核酸分子和编码截短的EGFR(EGFRt)的核酸，用作转导的替代标记，由编码T2A核糖体转换的序列隔开。CAR将包括抗CD19 scFv(如表5的抗CD19序列，其中VH和VL通过短连接子连接)、Ig衍生的间隔、人CD28衍生的跨膜域、人4-1BB衍生的细胞内信号传导域和人CD3ζ衍生的信号传导域。为了引入工程化T细胞受体(TCR)，将使用慢病毒载体转导细胞，该慢病毒载体含有编码人类全长T细胞受体α链的核酸分子，该链通过连接子序列连接到表5的抗CD19序列(与CAR抗CD19序列可能相同或不同)，并且该慢病毒载体进一步含有CD3ε或CD3γ的细胞内信号传导域。

转导后，细胞将在含有人血清和IL-2(50U/mL)、IL-7(5ng/mL)和IL-15(0.5ng/mL)的培养基中培养36至48小时。然后将使用具有靶向序列GUGUAGUACAAGAGAUAGAA(表17 的TTC 9(SEQ ID NO:616))的B2M靶向gNA和具有引导174的CasX 119制备的RNP对细胞进行电穿孔。然后将细胞在含有相同浓度的IL-2、IL-7和IL-15的相同培养基中在30℃下培养过夜，然后在37℃下培养至电穿孔后第12至15天。

CAR和B2M表达

B2M、TCR和CAR表达的细胞表面表达(如通过替代标志物指示)将在电穿孔后第12天评估，随后用与抗CD3/抗CD28抗体缀合的珠子再刺激24小时。细胞将用抗EGFR抗体染色以验证CAR表达(如替代标志物EGFRt的表面表达所示)，用抗TCRα染色以验证TCR表达，以及用抗B2M抗体染色以验证并通过流式细胞术敲除表面上B2M的表达。通过流式细胞术，预计大多数细胞会显示B2M、i和CAR表达群体(如EGFRt标志物所示)的表达降低以及TCR表达群体中TCR的表达降低。

修饰的工程化CD4+和CD8+T细胞的表型特征也将通过流式细胞术评估各种标志物的表面表达，包括指示表型、分化状态和/或活化状态的那些标志物。除了上述识别B2M和EGFRt 标志物(CAR表达的替代物)的抗体外，还用特异于-C基序趋化因子受体7(CCR7)、4-1BB、 TIM-3、CD27、CD45RA、CD45RO、Lag-3、CD62L、CD25和CD69的抗体对细胞进行染色。

实例23：细胞毒性测定

JVM-2细胞(表达CD19的人慢性B细胞白血病细胞系)和实例22的CAR-T细胞将在补充有10％FCS(马里兰州沃克斯维尔的Bio Whittaker)、100IU/mL青霉素和100μg/mL链霉素(Life Technologies)的RPMI 1640(马里兰州罗克维尔的Life Technologies)中培养。细胞毒性将在标准的⁵¹Cr释放测定中测量。CAR-T细胞将在96孔U形底微量滴定板(每个样品三个孔) 中以不同的效应/靶细胞比率接种51(⁵¹Cr)标记的靶细胞(每孔5×103个细胞)。将板在37℃、 5％CO2下孵育6小时。将使用液体闪烁计数器在100μL上清液中测量⁵¹Cr释放。从去污剂释放的靶细胞计数和在没有效应细胞的情况下从靶细胞计数的自发释放将获得最大释放。细胞毒性将计算如下：％特异性裂解＝[(实验释放-自发释放)/(最大释放-自发释放)]。预计这些数据将证实CAR-T细胞对CD19+靶细胞产生裂解作用的能力。

实例24：在B2M基因座编辑

材料及方法

CasX变异体119、488和491如上文实例中所述进行表达和纯化。具有支架174和间隔 7.9(具有序列GUGUAGUACAAGAGAUAGAA(SEQ ID NO:616))和7.37(具有序列GGCCGAGAUGUCUCGCUCCG(SEQ ID NO:592))的单引导RNA如上文实例中所述进行转录和纯化。通过在含有25mM磷酸钠缓冲液(pH 7.25)、150mM NaCl、1mM MgCl₂和200mM 的海藻糖(缓冲液1)的缓冲液中将蛋白质与1.2倍摩尔过量的引导混合，组装单个RNP。RNP 在37℃下孵育10分钟，然后通过尺寸排阻色谱法纯化。在纯化后使用Pierce 660nm蛋白质测定法测定RNP的浓度。

纯化的RNP在Jurkat细胞的B2M基因座上进行了编辑测试。使用Lonza 4-Dnucleofector 系统通过电穿孔递送RNP。除非另有说明，否则将700,000个细胞重悬于20uL的Lonza缓冲液P3中，并添加到在缓冲液1中稀释至适当浓度和最终体积为5uL的RNP。使用协议 EH-115通过Lonza 96孔穿梭系统对细胞进行电穿孔。在预平衡的RPMI中回收细胞，然后将每个电穿孔条件分成96孔板的三个孔。在核转染后的第1天和第4天更换培养基。在核转染后第7天，细胞用荧光抗HLA 1抗体染色，并使用Attune Nxt流式细胞仪评估表面HLA的消除。如果进行下一代测序，则每种条件下的一半细胞在收获前再传代三天。分离基因组DNA，并使用Illumina MiSeq对B2M基因的相关区域(7.37的外显子1、7.9的外显子2)进行PCR扩增和测序。使用Crispresso分析所得序列读数以用于编辑配置文件。

结果

由CasX变异体119、488或491和B2M靶向引导174.7.9或174.7.37组成的CasX RNP以1.25、5、20和80pmol/25uL核转染条件的剂量核转染到Jurkat细胞中。由于空间限制，RNP 119.174.7.37的1.25pmol剂量被省略。对于20和80pmol剂量的所有蛋白质变异体，靶向7.9的RNP在>90％的细胞中消除了表面HLA(图30)。在较低剂量下，CasX 488和491RNP 的性能优于CasX 119RNP。7.37靶向RNP似乎具有约80％的编辑上限，在5pmol剂量下对 119的编辑大幅下降，但在488和491的最低剂量下编辑下降相对较小(图30)。在所有剂量中，基于488和491的RNP的性能几乎相同。与仅缓冲液对照相比，经RNP处理后的活细胞数测定，所有RNP均未表现出明显的RNP依赖性毒性(图31)。491可能比488具有更好的生存能力，尽管相对于测量的标准偏差而言差异很小，并且它还具有更好的生产特性(数据未显示)，使其成为未来RNP编辑实验的首选候选。

为了验证HLA的表型敲低，对每个RNP的1.25、5和20pmol剂量进行了B2M靶区的深度测序。488.174.7.9(CasX 488、gNA 174和间隔7.9)和491.174.7.9(CasX 491、gNA 174和间隔7.9)RNP分别在20pmol剂量下在>99％的B2M基因座中产生插入缺失，在5pmol剂量下在95％和97％的B2M基因座中产生插入缺失(图32)。相应的7.37RNP在20pmol剂量和 5pmol剂量下均导致>99％的插入缺失，表明该位置的许多编辑仍然导致功能性B2M产生，并导致表型敲除的明显上限。NGS数据与表型分析一致，显示在皮摩尔范围内与基于119的 RNP相比，488和491的编辑始终更高，并证明使用极低剂量的RNP进行有效编辑。

实例25.TRAC基因座上的NHEJ和HDR

方法及材料

如上所述组装和纯化由CasX变异体491和gRNA 174.15.3或174.15.5组成的RNP。用于同源定向修复的模板是通过PCR扩增来自人类基因组DNA的同源臂生成的，对应于裂解位点两侧大约500bp和带有侧翼P2A和T2A自裂解肽序列的eGFP序列(使用的引物见表18)。使用重叠延伸PCR将这些片段结合在一起，使得所得模板包括与TRAC同框的 P2A-eGFP-T2A构筑体。然后使用PstI和HindIII限制性位点将组装的模板序列克隆到质粒骨架中。为了产生双链DNA模板，使用指定的引物对适当的质粒进行PCR扩增，并通过苯酚- 氯仿提取和乙醇沉淀纯化产物。为了产生单链DNA模板，使用相同的引物对质粒进行PCR 扩增，但两者中的一个含有5'磷酸。使用λ核酸外切酶纯化和消化所得产物，该酶降解带有 5'磷酸的股，主要产生所需链的ssDNA。通过苯酚-氯仿萃取和乙醇沉淀纯化ssDNA产物。

主要如上所述进行电穿孔，除了在适当的情况下将在水中稀释至最终体积为2uL的所需浓度的模板DNA添加到反应中。使用50pmol的RNP，并且dsDNA的模板DNA的量为2 至8ug，ssDNA的模板DNA的量为1至4ug。核转染后七天，使用荧光抗TCRα/β抗体对细胞进行染色并使用Attune Nxt流式细胞仪评估TCR敲除和GFP表达。在基因座没有编辑的情况下，Jurkat细胞具有显着的TCR阴性群体。为了纠正这一点，我们假设不表达TCR的细胞在TRAC基因座上的编辑率与具有常规TCR表达和呈现的细胞相当，并应用公式E_c＝ (TCRNeg_Obs–TCRNeg_ctrl)/(1–TCRNeg_ctrl)，其中E_c是校正编辑，TCRNeg_Obs是观察到的TCR 阴性细胞分率，并且TCRNeg_ctrl是在仅缓冲液对照中观察到的TCR阴性细胞的平均分率。没有对GFP+细胞进行校正，尽管TCRα基因座的沉默可能导致我们低估了HDR效率。

表18.用于HDR模板生成的引物

结果

在没有供体的情况下，TRAC靶向RNPs在50pmol剂量的间隔15.3和15.5中分别有75％和83％的细胞消除了表面TCRα/β(图33)。dsDNA似乎生成最高的HDR率，达到10％以上，但也导致几乎所有细胞死亡。ssDNA对存活率的影响要小得多，在某些情况下，相对于没有供体和只有缓冲液的对照而言，似乎增加了存活率。ssDNA的HDR率随RNP和供体的剂量变化，从1％至6％不等，其中间隔15.5和供体DNA的顶链的比率最高。对于这两种间隔，来自模板顶链的供体DNA导致更高水平的HDR，尽管目前尚不清楚这是否是该系统中ssDNA 模板的一致特征。

实例26.在B2M和TRAC基因座同时编辑

方法及材料

如上所述，RNP使用CasX 491和引导174.7.9、174.7.37和174.15.3组装。使用阴离子交换而不是尺寸排阻色谱法纯化RNP。

主要如上所述进行电穿孔。通过在5uL的最终体积中混合等摩尔量的每种RNP，对靶向 B2M和TRAC的RNP进行共电穿孔。每种RNP单独使用时，RNP剂量为2倍稀释，从20pmol至0.3725pmol，在共电穿孔条件下，RNP剂量为20pmol至0.625pmol。摩尔量是指单个RNP，而不是在一个条件下两个RNP的总和。当仅测量TRAC敲除时，如上所述应用背景校正。在确定双敲除的分率时，我们假设TRAC和B2M的编辑相互独立，也独立于细胞的TCR状态，并应用公式DblNeg_c＝(DblNeg_obs–TCRNeg_ctrl*HLANeg_obs)/(1–TCRNeg_ctrl)，其中DblNeg_c是校正的双阴性分率，DblNeg_obs是给定样品的观察到的TCR–/HLA–分率，TCRNeg_ctrl是仅在缓冲区对照中的总TCR分率，并且HLANeg_obs是给定样品的观察到的总HLA分率。

结果

B2M和TRAC的编辑在不同的RNP水平上表现出良好的剂量反应。TRAC基因座的编辑通常低于B2M基因座，最大编辑率为57％(图34)。在最高RNP剂量下，双敲除率达到45％。每个剂量的双敲除率与两个基因座被独立编辑的预期一致。通过增加TRAC靶向RNP的剂量以补偿该位点编辑效率的降低，可能会继续提高共同编辑的速度。

Claims

1.一种CasX:gNA系统，其包含CasX蛋白和第一引导核酸(gNA)，其中所述gNA包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的第一蛋白质的基因的靶核酸序列互补的靶向序列。

2.根据权利要求1所述的CasX:gNA系统，其中所述第一蛋白质是免疫细胞表面标记或免疫检查点蛋白质。

3.根据权利要求1所述的CasX:gNA系统，其中所述第一蛋白质是细胞内蛋白质。

4.根据权利要求1至3中任一项所述的CasX:gNA系统，其中所述蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)、TGFβ受体2(TGFβRII)、程序性细胞死亡1(PD-1)、细胞因子诱导型SH2(CISH)、淋巴细胞激活3(LAG-3)、具有Ig和ITIM域的T细胞免疫受体(TIGIT)、腺苷A2a受体(ADORA2A)、杀伤细胞凝集素样受体C1(NKG2A)、细胞毒性T淋巴细胞相关蛋白4(CTLA-4)、T细胞免疫球蛋白和粘蛋白域3(TIM-3)和2B4(CD244)。

5.根据权利要求4所述的CasX:gNA系统，其中所述第一蛋白质是B2M。

6.根据权利要求5所述的CasX:gNA系统，其中所述第一gNA的所述靶向序列包含选自由SEQ ID NO:725-2100、2281-7085、547-551、591-595和614-681组成的组的序列或与其具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。

7.根据权利要求5所述的CasX:gNA系统，其中所述第一gNA的所述靶向序列包含选自由SEQ ID NO:725-2100、2281-7085、547-551、591-595和614-681组成的组的序列。

8.根据权利要求4所述的CasX:gNA系统，其中所述第一蛋白质是TRAC。

9.根据权利要求8所述的CasX:gNA系统，其中所述第一gNA的所述靶向序列包含选自由SEQ ID NO:7086-27454、522-529和566-573组成的组的序列或与其具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。

10.根据权利要求8所述的CasX:gNA系统，其中所述第一gNA的所述靶向序列包含选自由SEQ ID NO:7086-27454、522-529和566-573组成的组的序列。

11.根据权利要求4所述的CasX:gNA系统，其中所述第一蛋白质是CIITA。

12.根据权利要求11所述的CasX:gNA系统，其中所述第一gNA的所述靶向序列包含选自由SEQ ID NO:27455-55572组成的组的序列或与其具有至少约65％、至少约75％、至少约85％、或至少约95％同一性的序列。

13.根据权利要求11所述的CasX:gNA系统，其中所述第一gNA的所述靶向序列包含选自由SEQ ID NO:27455-55572组成的组的序列。

14.根据权利要求1至13中任一项所述的CasX:gNA系统，其进一步包含第二gNA，所述第二gNA包含与编码选自由β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合体反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A (HLA-A)、人白细胞抗原B(HLA-B)、TGFβRII、PD-1、CISH、LAG-3、TIGIT、ADORA2A、NKG2A、CTLA-4、TIM-3和CD244组成的组的第二蛋白质的免疫细胞基因的靶核酸序列互补的靶向序列，其中所述第二蛋白质不同于所述第一蛋白质。

15.根据权利要求14所述的CasX:gNA系统，其中所述第一gNA靶向序列与B2M基因靶核酸序列互补，并且所述第二gNA靶向序列与TRAC基因靶核酸序列互补。

16.根据权利要求14所述的CasX:gNA系统，其中所述第一gNA靶向序列与B2M基因靶核酸序列互补，并且所述第二gNA靶向序列与CIITA基因靶核酸序列互补。

17.根据权利要求14所述的CasX:gNA系统，其中所述第一gNA靶向序列与TRAC基因靶核酸序列互补，并且所述第二gNA靶向序列与CIITA基因靶核酸序列互补。

18.根据权利要求14至17中任一项所述的CasX:gNA系统，其进一步包含第三gNA，所述第三gNA包含与编码选自由β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合体反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A (HLA-A)、人白细胞抗原B(HLA-B)、TGFβRII、PD-1、CISH、LAG-3、TIGIT、ADORA2A、NKG2A、CTLA-4、TIM-3和CD244组成的组的第三蛋白质的免疫细胞基因的靶核酸序列互补的靶向序列，其中所述第三蛋白质不同于所述第一蛋白质和所述第二蛋白质。

19.根据权利要求18所述的CasX:gNA系统，其中所述第一gNA靶向序列与编码B2M的基因的靶核酸序列互补，所述第二gNA靶向序列与编码TRAC的基因的靶核酸序列互补，并且所述第三gNA靶向序列与编码CIITA的基因的靶核酸序列互补。

20.根据权利要求1至19中任一项所述的CasX:gNA系统，其进一步包含具有与免疫细胞基因的靶核酸序列互补的靶向序列的额外gNA，所述免疫细胞基因编码选自由分化簇247(CD247)、CD3d分子(CD3D)、CD3e分子(CD3E)、CD3g分子(CD3G)、CD52分子(CD52)、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)和FKBP脯氨酰异构酶1A (FKBP1A)组成的组的蛋白质。

21.根据权利要求1至20中任一项所述的CasX:gNA系统，其中所述第一gNA、所述第二gNA、所述第三gNA和/或所述额外gNA是引导RNA (gRNA)。

22.根据权利要求1至20中任一项所述的CasX:gNA系统，其中所述gNA是引导DNA(gDNA)。

23.根据权利要求1至20中任一项所述的CasX:gNA系统，其中所述gNA是包含DNA和RNA的嵌合体。

24.根据权利要求1至23中任一项所述的CasX:gNA系统，其中所述gNA是单分子gNA(sgNA)。

25.根据权利要求1至23中任一项所述的CasX:gNA系统，其中所述gNA是双分子gNA(dgNA)。

26.根据权利要求1至25中任一项所述的CasX:gNA系统，其中所述gNA的所述靶向序列包含15、16、17、18、19或20个核苷酸。

27.根据权利要求1至26中任一项所述的CasX:gNA系统，其中所述gNA具有支架，所述支架包含选自由SEQ ID NO:4-16的参考gNA序列或SEQ ID NO:2101-2280的gNA变异序列组成的组的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、或至少约99％序列同一性的序列。

28.根据权利要求27所述的CasX:gNA系统，其中所述gNA变异支架包含相对于参考gNA序列具有至少一个修饰的序列，所述参考gNA序列选自由SEQ ID NO:4-16组成的组。

29.根据权利要求28所述的CasX:gNA系统，其中所述参考gNA的所述至少一个修饰包含所述gNA序列的核苷酸的至少一个取代、缺失或取代。

30.根据前述权利要求中任一项所述的CasX:gNA系统，其中所述gNA是化学修饰的。

31.根据前述权利要求中任一项所述的CasX:gNA系统，其中所述CasX蛋白包含具有SEQID NO:1-3中任一项的序列的参考CasX蛋白、具有SEQ ID NO:49-143、438、440、442、444、446、448-460、472、474、478、480、482、484、486、488、490、612或613的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％、或至少约95％、或至少约96％、或至少约97％或至少约98％、或至少约99％序列同一性的序列的CasX变异蛋白。

32.根据权利要求31所述的CasX:gNA系统，其中所述CasX变异蛋白包含相对于具有选自SEQ ID NO:1-3的序列的参考CasX蛋白的至少一个修饰。

33.根据权利要求32所述的CasX:gNA系统，其中所述至少一个修饰包含在所述CasX变异蛋白的域中相对于所述参考CasX蛋白的至少一个氨基酸取代、缺失或取代。

34.根据权利要求33所述的CasX:gNA系统，其中所述域选自由非靶链结合(NTSB)域、靶链负载(TSL)域、螺旋形I域、螺旋形II域、寡核苷酸结合域(OBD)和RuvC DNA裂解域组成的组。

35.根据权利要求31至34中任一项所述的CasX:gNA系统，其中所述CasX蛋白进一步包含一个或多个核定位信号(NLS)。

36.根据权利要求35所述的CasX:gNA系统，其中所述一个或多个NLS选自由以下组成的序列的组：PKKKRKV(SEQ ID NO:158)、KRPAATKKAGQAKKKK(SEQ ID NO:159)、PAAKRVKLD(SEQID NO:160)、RQRRNELKRSP(SEQ ID NO:161)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:162)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:163)、VSRKRPRP(SEQ ID NO:164)、PPKKARED(SEQ ID NO:165)、PQPKKKPL(SEQ ID NO:166)、SALIKKKKKMAP(SEQ ID NO:167)、DRLRR(SEQ ID NO:168)、PKQKKRK(SEQ ID NO:169)、RKLKKKIKKL(SEQ ID NO:170)、REKKKFLKRR(SEQ ID NO:171)、KRKGDEVDGVDEVAKKKSKK(SEQID NO:172)、RKCLQAGMNLEARKTKK(SEQ ID NO:173)、PRPRKIPR(SEQ ID NO:174)、PPRKKRTVV(SEQ ID NO:175)、NLSKKKKRKREK(SEQ ID NO:176)、RRPSRPFRKP(SEQ ID NO:177)、KRPRSPSS(SEQ ID NO:178)、KRGINDRNFWRGENERKTR(SEQ ID NO:179)、PRPPKMARYDN(SEQ IDNO:180)、KRSFSKAF(SEQ ID NO:181)、KLKIKRPVK(SEQ ID NO:182)、PKTRRRPRRSQRKRPPT(SEQ ID NO:184)RRKKRRPRRKKRR(SEQ ID NO:187)、PKKKSRKPKKKSRK(SEQ ID NO:188)、HKKKHPDASVNFSEFSK(SEQ ID NO:189)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:190)、LSPSLSPLLSPSLSPL(SEQ ID NO:191)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:192)、PKRGRGRPKRGRGR(SEQ ID NO:193)、MSRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:185)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:183)和PKKKRKVPPPPKKKRKV(SEQ ID NO:194)。

37.根据权利要求35或权利要求36所述的CasX:gNA系统，其中所述一个或多个NLS在所述CasX蛋白的C-末端处或附近表达。

38.根据权利要求35或权利要求36所述的CasX:gNA系统，其中所述一个或多个NLS在所述CasX蛋白的N-末端处或附近表达。

39.根据权利要求35或权利要求36所述的CasX:gNA系统，其包含位于所述CasX蛋白的所述N-末端处或附近以及所述C-末端处或附近的一个或多个NLS。

40.根据权利要求31至39中任一项所述的CasX:gNA系统，其中所述CasX变异体能够与所述变异gNA形成核糖核蛋白复合物(RNP)。

41.根据权利要求40所述的CasX:gNA系统，其中所述CasX变异蛋白和所述gNA变异体的RNP与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和包含SEQ ID NO:4-16中任一项的序列的gNA的RNP相比表现出至少一种或多种改进特征。

42.根据权利要求41所述的CasX:gNA系统，其中所述改进特征选自由以下组成的组中的一个或多个：所述CasX变异体的改进折叠；对引导核酸(gNA)的改进结合亲和力；对靶DNA的改进结合亲和力；在靶DNA的编辑中利用较大范围的一种或多种PAM序列(包括ATC、CTC、GTC或TTC)的改进能力；所述靶DNA的改进解旋；增加的编辑活性；改进的编辑效率；改进的编辑特异性；增加的核酸酶活性；增加的用于双链裂解的靶链负载；减少的用于单链切割的靶链负载；减少的脱靶裂解；改进的非靶DNA链的结合；改进的蛋白质稳定性；改进的蛋白质溶解度；改进的蛋白质:gNA复合物(RNP)稳定性；改进的蛋白质:gNA复合物溶解度；改进的蛋白质产率；改进的蛋白质表达；以及改进的熔融特征。

43.根据权利要求41或权利要求42所述的CasX:gNA系统，其中所述CasX变异蛋白和所述gNA变异体的所述RNP的所述改进特征相对于SEQ ID NO:1、SEQ ID NO:2，或SEQ ID NO:3的所述参考CasX蛋白和SEQ ID NO:4-16中任一项的所述gNA的所述RNP改进至少约1.1至约100倍或更多。

44.根据权利要求41或权利要求42所述的CasX:gNA系统，其中所述CasX变异蛋白的所述改进特征是相对于SEQ ID NO:1、SEQ ID NO:2，或SEQ ID NO:3的所述参考CasX蛋白和包含SEQ ID NO:4-16中任一项的所述序列的所述gNA改进至少约1.1、至少约2、至少约10、至少约100倍或更多。

45.根据权利要求41至43中任一项所述的CasX:gNA系统，其中所述改进特征包含编辑效率，并且与SEQ ID NO:2的所述参考CasX蛋白和包含SEQ ID NO:4-16中任一项的所述序列的所述gNA的所述RNP相比，所述CasX变异蛋白和所述gNA变异体的所述RNP包含1.1至100倍的编辑效率改进。

46.根据权利要求40至45中任一项所述的CasX:gNA系统，其中相比于类似分析系统中包含SEQ ID NO:2的参考CasX蛋白和包含SEQ ID NO:4-16中任一项的所述序列的所述gNA的RNP的所述编辑效率和/或结合，当所述PAM序列TTC、ATC、GTC或CTC中的任一个位于与细胞分析系统中的所述gNA的所述靶向序列具有同一性的前间隔的非靶向链的5'端1个核苷酸处时，包含所述CasX变异体和所述gNA变异体的所述RNP表现出更高的编辑效率和/或与所述靶DNA中的靶序列的结合。

47.根据权利要求46所述的CasX:gNA系统，其中所述PAM序列是TTC。

48.根据权利要求46所述的CasX:gNA系统，其中所述PAM序列是ATC。

49.根据权利要求46所述的CasX:gNA系统，其中所述PAM序列是CTC。

50.根据权利要求46所述的CasX:gNA系统，其中所述PAM序列是GTC。

51.根据权利要求46至50中任一项所述的CasX:gNA系统，其中与SEQ ID NO:1-3的任何一种所述参考CasX蛋白对所述PAM序列的结合亲和力相比，对所述一种或多种PAM序列的结合亲和力增加至少1.5倍至至少10倍。

52.根据权利要求40至51中任一项所述的CasX:gNA系统，其中与SEQ ID NOS:1-3的所述参考CasX和包含SEQ ID NO:4-16中任一项的序列的所述gNA的RNP相比，所述RNP具有百分比高至少5％、至少10％、至少15％或至少20％的裂解胜任型RNP。

53.根据权利要求31至52中任一项所述的CasX:gNA系统，其中所述CasX变异蛋白包含具有切口酶活性的RuvC DNA裂解域。

54.根据权利要求31至52中任一项所述的CasX:gNA系统，其中所述CasX变异蛋白包含具有双链裂解活性的RuvC DNA裂解域。

55.根据权利要求1至40中任一项所述的CasX:gNA系统，其中所述CasX蛋白是无催化活性CasX(dCasX)蛋白，并且其中所述dCasX和所述gNA保留结合至SOD1靶核酸的能力。

56.根据权利要求55所述的CasX:gNA系统，其中所述dCasX包含以下残基处的突变：

a.对应于SEQ ID NO:1的CasX蛋白的D672、E769及/或D935；或

b.对应于SEQ ID NO:2的所述CasX蛋白的D659、E756和/或D922。

57.根据权利要求56所述的CasX:gNA系统，其中所述突变是用丙氨酸对所述残基的取代。

58.根据权利要求1至54中任一项所述的CasX:gNA系统，其进一步包含供体模板核酸。

59.根据权利要求58所述的CasX:gNA系统，其中所述供体模板包含多核苷酸，所述多核苷酸包含编码选自由B2M、TRAC、CIITA、TRBC1、TRBC2、HLA-A、HLA-B、TGFβRII、PD-1、CISH、LAG-3、TIGIT、ADORA2A、NKG2A、CTLA-4、TIM-3和CD244组成的组的蛋白质的基因的全部或部分，其中与编码所述蛋白质的基因组多核苷酸序列相比，所述多核苷酸包含一个或多个核苷酸的缺失、插入或突变。

60.一种多核苷酸，其包含编码根据权利要求31至57中任一项所述的CasX的序列。

61.一种多核苷酸，其包含编码根据权利要求1至30中任一项所述的gNA的序列。

62.一种多核苷酸，其包含根据权利要求58或权利要求59所述的供体模板。

63.一种载体，其包含根据权利要求60至62所述的一种或多种多核苷酸。

64.一种载体，其包含根据权利要求60至62中任一项所述的多核苷酸。

65.根据权利要求63或权利要求64所述的载体，其中所述载体进一步包含启动子。

66.根据权利要求63至65中任一项所述的载体，其中所述载体选自由逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒(AAV)载体、病毒样颗粒(VLP)、单纯疱疹病毒(HSV)载体、质粒、小环、纳米质粒、DNA载体和RNA载体组成的组。

67.根据权利要求66所述的载体，其中所述载体是AAV载体。

68.根据权利要求67所述的载体，其中所述AAV载体选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。

69.根据权利要求66所述的载体，其中所述载体是逆转录病毒载体。

70.一种病毒样颗粒(VLP)，其包含选自由基质蛋白(MA)、核衣壳蛋白(NC)、衣壳蛋白(CA)、p1-p6蛋白和蛋白酶裂解位点组成的组的gag多蛋白的一种或多种组分，并且进一步包含提供所述VLP与靶细胞结合和融合的靶向糖蛋白。

71.根据权利要求70所述的VLP，其包含根据权利要求31至57中任一项所述的CasX蛋白，以及根据权利要求1至30中任一项所述的gNA，并且任选地包含根据权利要求62所述的多核苷酸。

72.根据权利要求71所述的VLP，其中所述CasX蛋白和所述gNA在RNP中缔合在一起。

73.一种修饰细胞群中基因的靶核酸序列的方法，其中所述基因编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质，所述方法包含将以下引入所述细胞群的每个细胞中：

a.根据权利要求1至59中任一项所述的CasX:gNA系统；

b.根据权利要求60至62中任一项所述的多核苷酸；

c.根据权利要求63中任一项所述的载体；

d.根据权利要求70至72中任一项所述的VLP；或

e.(a)至(d)中两种或更多种的组合，

其中所述细胞的所述靶核酸序列被所述CasX蛋白修饰。

74.根据权利要求73所述的方法，其中所述CasX:gNA系统作为RNP被引入所述细胞中。

75.根据权利要求73或权利要求74所述的方法，其中通过引入编码嵌合抗原受体(CAR)的多核苷酸对所述细胞进行修饰，所述嵌合抗原受体对疾病抗原，任选地肿瘤细胞抗原具有结合亲和力。

76.根据权利要求73或权利要求74所述的方法，其中通过引入编码工程化T细胞受体(TCR)的多核苷酸对所述细胞进行修饰，所述工程化T细胞受体包含对疾病抗原，任选地肿瘤细胞抗原具有结合亲和力的结合域。

77.根据权利要求74或权利要求75所述的方法，其中所述肿瘤细胞抗原选自由以下组成的组：分化簇19(CD19)、分化簇3(CD3)、CD3d分子(CD3D)、CD3g分子(CD3G)、CD3e分子(CD3E)、CD247分子(CD247、或CD3Z)、CD8a分子(CD8)、CD7分子(CD7)、膜金属内肽酶(CD10)、跨膜4域A1(CD20)、CD22分子(CD22)、TNF受体超家族成员8(CD30)、C型凝集素域家族12成员A (CLL1)、CD33分子(CD33)、CD34分子(CD34)、CD38分子(CD38)、整合素亚基α2b(CD41)、CD44分子(印度血型)(CD44)、CD47分子(CD47)、整合素α6(CD49f)、神经细胞粘附分子1(CD56)、CD70分子(CD70)、CD74分子(CD74)、CD99分子(Xg血型)(CD99)、白细胞介素3受体亚基α(CD123),prominin 1(CD133)、syndecan 1(CD138)、碳酸酐酶IX(CAIX)、CC趋化因子受体4(CCR4)、ADAM金属肽酶域12(ADAM12)、粘附G蛋白偶联反应受体E2(ADGRE2)、碱性磷酸酶胎盘样2(ALPPL2)、α4整合素、血管生成素-2(ANG2)、B细胞成熟抗原(BCMA)、CD44V6、癌胚抗原(CEA)、CEAC、CEA细胞粘附分子5(CEACAM5)、连接蛋白6(CLDN6)、连接蛋白18(CLDN18)、C型凝集素域家族12成员A (CLEC12A)、间充质-上皮转换因子(cMET)、细胞毒性T淋巴细胞相关蛋白4(CTLA4)、表皮生长因子受体1(EGF1R)、表皮生长因子受体变异体III(EGFRvIII)、上皮糖蛋白2(EGP-2)、上皮细胞粘附分子(EGP-40或EpCAM)、EPH受体A2(EphA2)、外核苷酸焦磷酸酶/磷酸二酯酶3(ENPP3)、erb-b2受体酪氨酸激酶2(ERBB2)、erb-b2受体酪氨酸激酶3(ERBB3)、erb-b2受体酪氨酸激酶4(ERBB4)、叶酸结合蛋白(FBP)、胎儿烟碱乙酰胆碱受体(AChR)、叶酸受体α(FRalpha或FOLR1)、G蛋白偶联受体143(GPR143)、谷氨酸代谢受体8(GRM8)、磷脂酰肌醇聚糖-3(GPC3)、神经节苷脂GD2、神经节苷脂GD3、人表皮生长因子受体1(HER1)、人表皮生长因子受体2(HER2)、人表皮生长因子受体3(HER3)、整合素B7、细胞间细胞粘附分子1(ICAM-1)、人端粒酶逆转录酶(hTERT)、白介素13受体α2(IL-l3R-a2)、K-轻链、激酶插入域受体(KDR)、Lewis-Y(LeY)、软骨调节素-1(LECT1)、L1细胞粘附分子(L1CAM)、溶血磷脂酸受体3(LPAR3)、黑色素瘤相关抗原1(MAGE-A1)、间皮素(MSLN)、粘蛋白1(MUC1)、粘蛋白16、细胞表面相关抗原(MUC16)、黑色素瘤相关抗原3(MAGE-A3)、肿瘤蛋白p53(p53)、T细胞识别的黑色素瘤抗原1(MART1)、糖蛋白100(GPl00)、蛋白酶3(PR1)、ephrin-A受体2(EphA2)、自然杀伤组2D配体(NKG2D配体)、纽约食管鳞状细胞癌1(NY-ESO-1)、癌胎儿抗原(h5T4)、前列腺特异性膜抗原(PSMA)、程序性死亡配体1(PDL-1)、受体酪氨酸激酶样孤儿受体1(ROR1)、滋养层糖蛋白(TPBG)、肿瘤相关糖蛋白72(TAG-72)、肿瘤相关钙信号传感器2(TROP-2)、酪氨酸酶(TYR)、存活素、血管内皮生长因子受体2(VEGF-R2)、Wilms肿瘤-1(WT-1)、白细胞免疫球蛋白样受体B2(LILRB2)、黑色素瘤中优先表达的抗原(PRAME)、T细胞受体β恒定1(TRBC1)、TRBC2和(T细胞免疫球蛋白粘蛋白-3)TIM-3。

78.根据权利要求75至77中任一项所述的方法，其中所述CAR和/或所述TCR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段(scFv)组成的组的抗原结合域。

79.根据权利要求78所述的方法，其中所述抗原结合域是对所述肿瘤细胞抗原具有结合亲和力的scFv。

80.根据权利要求79所述的方法，其中所述抗原结合域是包含选自由表5中所列序列组成的组的可变重链(VH)和可变轻链(VL)和/或重链和轻链CDR的scFv。

81.根据权利要求80所述的方法，其中所述scFv的所述VH、VL和/或所述CDR具有一个或多个氨基酸修饰，其中所述scFv保留对所述肿瘤抗原的结合亲和力，并且其中所述修饰选自由取代、缺失和插入组成的组。

82.根据权利要求75至81中任一项所述的方法，其中所述CAR进一步包含至少一个细胞内信号传导域。

83.根据权利要求82所述的方法，其中所述至少一个细胞内信号传导域包含分离或衍生自CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS)，或TNF受体超家族成员4(OX40)的至少一个细胞内信号传导域。

84.根据权利要求83所述的方法，其中所述至少一个细胞内信号传导域包含：

a.CD3-ζ细胞内信号传导域；

b.CD3-ζ细胞内信号传导域和4-1BB或CD28细胞内信号传导域；

c.CD-ζ细胞内信号传导域、4-1BB细胞内信号传导域和CD28细胞内信号传导域；或

d.CD-ζ细胞内信号传导域、CD28细胞内信号传导域、4-1BB细胞内信号传导域和CD27或OX40细胞内信号传导域。

85.根据权利要求75至84中任一项所述的方法，其中所述CAR进一步包含细胞外铰链域。

86.根据权利要求85所述的方法，其中所述铰链域是免疫球蛋白样域。

87.根据权利要求86所述的方法，其中所述铰链域分离或衍生自IgG1、IgG2或IgG4。

88.根据权利要求86所述的方法，其中所述铰链域分离或衍生自CD8a分子(CD8)或CD28。

89.根据权利要求75至88中任一项所述的方法，其中所述CAR进一步包含跨膜域。

90.根据权利要求89所述的方法，其中所述跨膜域分离或衍生自由CD3-ζ、CD4、CD8和CD28组成的组。

91.根据权利要求76至81中任一项所述的方法，其中所述TCR包含一个或多个选自由以下组成的组的亚基：TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ。

92.根据权利要求91所述的方法，其中所述TCR进一步包含一个或多个细胞内信号传导域，一个或多个细胞内信号传导域选自由CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS)或TNF受体超家族成员4(OX40)组成的组。

93.根据权利要求90或权利要求91所述的方法，其中所述TCR的所述抗原结合域可操作地连接到一个或多个TCR亚基，所述一个或多个TCR亚基选自由TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ组成的组。

94.根据权利要求93所述的方法，其中所述TCR的所述抗原结合域是包含选自由表5中所列序列组成的组的可变重链(VH)和可变轻链(VL)和/或重链和轻链CDR的scFv。

95.根据权利要求94所述的方法，其中所述scFv的所述VH、VL和/或所述CDR具有一个或多个氨基酸修饰，其中所述scFv保留对所述肿瘤抗原的结合亲和力，并且其中所述修饰选自由取代、缺失和插入组成的组。

96.根据权利要求73至95中任一项所述的方法，其中所述细胞选自由啮齿动物细胞、小鼠细胞、大鼠细胞和非人灵长类动物细胞组成的组。

97.根据权利要求73至95中任一项所述的方法，其中所述细胞是人类细胞。

98.根据权利要求73至97中任一项所述的方法，其中所述细胞选自由祖细胞、造血干细胞和多能干细胞组成的组。

99.根据权利要求98所述的方法，其中所述细胞是诱导多能干细胞。

100.根据权利要求73至97中任一项所述的方法，其中所述细胞是免疫细胞。

101.根据权利要求100所述的方法，其中所述免疫细胞选自由T细胞、肿瘤浸润淋巴细胞、NK细胞、B细胞、单核细胞、巨噬细胞或树突细胞组成的组。

102.根据权利要求101所述的方法，其中所述T细胞选自由以下组成的组：CD4+T细胞、CD8+T细胞、细胞毒性T细胞、末端效应T细胞、记忆T细胞、幼稚T细胞、调节性T细胞、自然杀伤T细胞、γ-δT细胞、细胞因子诱导的杀伤(CIK)T细胞和肿瘤浸润淋巴细胞或其组合。

103.根据权利要求73至102中任一项所述的方法，其中所述修饰包含在所述群体细胞的所述靶核酸序列中引入一个或多个单链断裂。

104.根据权利要求73至102中任一项所述的方法，其中所述修饰包含在所述群体细胞的所述靶核酸序列中引入一个或多个双链断裂。

105.根据权利要求73至104中任一项所述的方法，其中所述修饰包含在所述群体细胞的所述靶核酸序列中引入一个或多个核苷酸的插入、缺失、取代、复制或倒位，从而导致在所述群体细胞中敲低或敲除编码一种或多种选自由以下组成的组的蛋白质的基因：B2M、TRAC、CIITA、TRBC1、TRBC2、HLA-A、HLA-B、TGFβRII、PD-1、CISH、LAG3、TIGIT、ADORA2A、NKG2A、CTLA-4、TIM-3和CD244。

106.根据权利要求73至104中任一项所述的方法，其中所述方法包含将根据权利要求58或权利要求59所述的供体模板插入所述群体细胞的所述靶核酸序列的所述断裂位点。

107.根据权利要求106所述的方法，其中所述供体模板的所述插入是由同源定向修复(HDR)或同源独立靶向整合(HITI)介导。

108.根据权利要求106或权利要求107所述的方法，其中所述供体模板的所述插入导致在所述群体细胞中敲低或敲除编码一种或多种选自由以下组成的组的蛋白质的所述基因：B2M、TRAC、CIITA、TRBC1、TRBC2、HLA-A、HLA-B、TGFβRII、PD-1、CISH、LAG-3、TIGIT、ADORA2A、NKG2A、CTLA-4、TIM-3和CD244。

109.根据权利要求105至108中任一项所述的方法，其中所述群体细胞已经被修饰，使得与未修饰的细胞相比，所述一种或多种蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。

110.根据权利要求105至109中任一项所述的方法，其中所述群体细胞已经被修饰，使得与未修饰的细胞相比，至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％的所述细胞不表达可检测水平的所述一种或多种蛋白质。

111.根据权利要求105至110中任一项所述的方法，其中所述一种或多种蛋白质选自由B2M、TRAC和CIITA组成的组。

112.根据权利要求111所述的方法，其中所述群体细胞已经被修饰，使得至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％的所述细胞不表达可检测水平的至少两种选自由B2M、TRAC和CIITA组成的组的所述蛋白质。

113.根据权利要求105至112中任一项所述的方法，其中所述细胞已经被修饰，使得至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％的所述细胞群不表达可检测水平的MHC I类分子。

114.根据权利要求105至113中任一项所述的方法，其中所述细胞已经被修饰，使得至少约50％、至少约60％、至少约70％、至少约80％、至少约90％或至少约95％的所述细胞群不表达可检测水平的野生型T细胞受体。

115.根据权利要求105至114中任一项所述的方法，其中所述细胞群表达可检测水平的所述CAR。

116.根据权利要求105至115中任一项所述的方法，其中所述细胞群表达可检测水平的所述TCR。

117.根据权利要求73至115中任一项所述的方法，其中所述方法在所述细胞群上离体进行。

118.根据权利要求73至115中任一项所述的方法，其中所述方法在受试者体内进行。

119.根据权利要求118所述的方法，其中所述受试者选自由啮齿动物、小鼠、大鼠和非人灵长类动物组成的组。

120.根据权利要求118所述的方法，其中所述受试者是人类。

121.一种通过根据权利要求73至117中任一项所述的方法离体修饰的细胞群。

122.根据权利要求121所述的细胞群，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述细胞群不表达可检测水平的MHC I类分子。

123.根据权利要求121或权利要求122所述的细胞群，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述细胞群不表达可检测水平的野生型T细胞受体。

124.根据权利要求121至123中任一项所述的细胞群，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述细胞群表达可检测水平的嵌合抗原受体(CAR)。

125.根据权利要求121至124所述的细胞群，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述细胞群表达可检测水平的选自由白细胞介素7(IL-7)、IL-12、IL-15和IL-18组成的组的免疫刺激细胞因子。

126.根据权利要求121至125中任一项所述的细胞群，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述细胞群表达可检测水平的所述TCR。

127.根据权利要求124至126中任一项所述的细胞群，其中在所述CAR与带有所述肿瘤抗原的细胞的所述肿瘤抗原结合时，所述细胞群能够产生选自以下的反应：i)被激活；ii)诱导所述细胞群的增殖；iii)所述细胞群分泌细胞因子；iv)诱导带有所述肿瘤抗原的所述细胞的细胞毒性，或v)(i)-(iv)中任一项的组合。

128.一种在受试者中提供抗肿瘤免疫的方法，所述方法包含向所述受试者施用治疗有效量的根据权利要求121至127中任一项所述的细胞群。

129.一种治疗有需要的受试者的方法，其包含向所述受试者施用治疗有效量的根据权利要求121至127中任一项所述的细胞群。

130.根据权利要求129所述的方法，其中所述受试者患有癌症或自身免疫性疾病。

131.根据权利要求130所述的方法，其中所述癌症选自由以下组成的组：结肠癌、直肠癌、肾细胞癌、肝癌、非小细胞肺癌、小肠癌、食道癌、黑色素瘤、骨癌、胰腺癌、皮肤癌、头颈癌、皮肤或眼内恶性黑色素瘤、子宫癌、卵巢癌、直肠癌、肛门癌、胃癌、睾丸癌、输卵管癌、子宫内膜癌、癌子宫颈癌、阴道癌、外阴癌、霍奇金病、非霍奇金淋巴瘤、内分泌系统癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、儿童实体瘤、膀胱癌、肾癌或输尿管癌、肾盂癌、中枢神经系统(CNS)肿瘤、原发性中枢神经系统淋巴瘤、肿瘤血管生成、脊柱轴肿瘤、脑干神经胶质瘤、垂体腺瘤、卡波西肉瘤、表皮样癌、鳞状细胞癌、T细胞淋巴瘤、环境诱发的癌症、慢性淋巴细胞白血病(CLL)、急性白血病、急性淋巴细胞白血病(ALL)、B细胞急性淋巴细胞白血病(B-ALL)、T细胞急性淋巴细胞白血病(T-ALL)、慢性粒细胞白血病(CML)、急性粒细胞白血病(AML)、B细胞幼淋巴细胞白血病、母细胞浆细胞样树突状细胞肿瘤、伯基特氏病淋巴瘤、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、毛细胞白血病、小细胞或大细胞滤泡性淋巴瘤、恶性淋巴增生性疾病、MALT淋巴瘤、套细胞淋巴瘤、边缘区淋巴瘤、多发性骨髓瘤、骨髓增生异常和骨髓增生异常综合征、霍奇金氏症淋巴瘤、浆母细胞淋巴瘤、浆细胞样树突状细胞瘤、华氏巨球蛋白血症、白血病前期、所述癌症的组合，以及所述癌症的转移性病变。

132.根据权利要求130或131所述的方法，其中所述癌症表达肿瘤细胞抗原。

133.根据权利要求132所述的方法，其中所述CAR对所述肿瘤细胞抗原具有特异性结合亲和力。

134.根据权利要求133所述的方法，其中在所述CAR与所述肿瘤抗原结合时，所述细胞群能够：i)被激活；ii)诱导所述细胞群的增殖；iii)所述细胞群分泌细胞因子；iv)诱导带有所述肿瘤抗原的所述细胞的细胞毒性，或v)(i)-(iv)中任一项的组合。

135.根据权利要求128至134中任一项所述的方法，其中所述细胞群通过选自以下的施用途径施用于所述受试者：实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内、腰椎、腹膜内、皮下、眼内、眼周、视网膜下、玻璃体内、肺内、鼻内及其组合。

136.根据权利要求128至135中任一项所述的方法，其中所述治疗有效量的所述细胞群的所述施用导致所述受试者中与所述疾病相关的临床参数或指标的改善，所述临床参数或指标选自以下中的一个或多个：完全、部分或不完全反应的肿瘤缩小；进展时间、治疗失败时间、生物标志物反应；无进展生存期；无病生存；复发时间；转移时间；总生存时间；提高生活质量；以及症状的改善。

137.根据权利要求128至136中任一项所述的方法，其中所述方法进一步包含施用化学治疗剂。

138.一种制备用于受试者中的免疫疗法的细胞的方法，其包含通过减少或消除一种或多种参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的表达来修饰免疫细胞。

139.根据权利要求138所述的方法，其包含使所述免疫细胞的靶核酸序列与包含CasX蛋白和一种或多种gNA的CasX:gNA系统接触，其中每个gNA包含与编码涉及抗原加工、抗原呈递、抗原识别和/或抗原反应的所述一种或多种蛋白质的一种或多种基因的靶核酸序列互补的靶向序列。

140.根据权利要求138或权利要求139所述的方法，其中所述一种或多种蛋白质选自由B2M、TTRAC、CIITA、TRBC1、TRBC2、HLA-A、HLA-B、TGFβRII、PD-1、CISH、LAG-3、TIGIT、ADORA2A、NKG2A、CTLA-4、TIM-3和CD244组成的组。

141.根据权利要求140所述的方法，其中所述一种或多种蛋白质选自由B2M、TRAC和CIITA组成的组。

142.根据权利要求140或权利要求141所述的方法，其进一步包含gNA，其包含与编码选自由CD247、CD3D、CD3E、CD3G、CD52、人白细胞抗原C(HLA-C)、脱氧胞苷激酶(dCK)和FKBP1A组成的组的蛋白质的基因的核酸序列互补的靶向序列。

143.根据权利要求138至142中任一项所述的方法，其中所述细胞已经被修饰，使得与未修饰的细胞相比，所述一种或多种蛋白质的表达减少至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％。

144.根据权利要求138至143中任一项所述的方法，其中所述细胞已经被修饰，使得所述细胞不表达可检测水平的所述一种或多种蛋白质。

145.根据权利要求138至144中任一项所述的方法，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述修饰细胞不表达可检测水平的MHC I类分子。

146.根据权利要求138至145所述的方法，其中所述细胞已经被修饰，使得至少70％、至少75％、至少80％、至少85％、至少90％或至少95％的所述修饰细胞不表达可检测水平的野生型T细胞受体。

147.根据权利要求138至146中任一项所述的方法，其进一步包含将编码嵌合抗原受体(CAR)的多核酸引入所述免疫细胞，所述嵌合抗原受体对肿瘤细胞抗原具有特异性结合亲和力。

148.根据权利要求138至147中任一项所述的方法，其进一步包含将编码工程化T细胞受体(TCR)的多核酸引入所述免疫细胞，所述工程化T细胞受体包含对疾病抗原，任选地肿瘤细胞抗原具有结合亲和力的结合域。

149.根据权利要求147所述的方法，其中所述肿瘤细胞抗原选自由以下组成的组：CD19、CD3、CD3D、CD3G、CD3E、CD247、CD8、CD7、CD10、CD20、CD22、CD30、CLL1、CD33、CD34、CD38、CD41、CD44、CD47、CD49f、CD56、CD70、CD74、CD99、CD123、CD133、CD138、CAIX、CCR4、ADAM12、ADGRE2、ALPPL2、ANG2、BCMA、CD44V6、CEA、CEAC、CEACAM5、CLDN6、CLDN18、CLEC12A、cMET、CTLA-4、EGF1R、EGFR-vIII、EGP-2、EGP-40、EphA2、ENPP3、EpCAM、ERBB2、ERBB3、ERBB4、FBP、AChR、FRalpha、GPR143、GRM8、gGPC3、神经节苷脂GD2、神经节苷脂GD3、HER1、HER2、HER3、整合素B7、ICAM-1、hTERT、IL-13R-a2、K-轻链、KDR、Lewis-Y、LECT1、L1CAM、LPAR3、MAGE-A1、MSLN、MUC1、MUC16、MAGE-A3、p53、MART1、GP100、PR1、EphA2、NKG2D配体、NY-ESO-1、h5T4、PSMA、PDL-1、ROR1、TPBG、TAG-72、TROP-2、TYR、存活素、VEGF-R2、WT-1、LILRB2、PRAME、TRBC1、TRBC2和TIM-3。

150.根据权利要求147或权利要求148所述的方法，其中所述CAR包含选自由线性抗体、单域抗体(sdAb)和单链可变片段(scFv)组成的组的抗原结合域。

151.根据权利要求150所述的方法，其中所述抗原结合域是包含选自由表5中所列序列组成的组的可变重链(VH)和可变轻链(VL)和/或重链和轻链CDR的scFv。

152.根据权利要求151所述的方法，其中所述scFv的所述VH、VL和/或所述CDR具有一个或多个氨基酸修饰，其中所述scFv保留对所述肿瘤抗原的结合亲和力，并且其中所述修饰选自由取代、缺失和插入组成的组。

153.根据权利要求147至152中任一项所述的方法，其中所述CAR进一步包含至少一个细胞内信号传导域。

154.根据权利要求153所述的方法，其中所述至少一个细胞内信号传导域包含分离或衍生自CD247分子(CD3-ζ)、CD27分子(CD27)、CD28分子(CD28)、TNF受体超家族成员9(4-1BB)、诱导型T细胞共刺激物(ICOS)，或TNF受体超家族成员4(OX40)的至少一个细胞内信号传导域。

155.根据权利要求154所述的方法，其中所述至少一个细胞内信号传导域包含：

a.CD3-ζ细胞内信号传导域；

b.CD3-ζ细胞内信号传导域和4-1BB或CD28细胞内信号传导域；

c.CD-ζ细胞内信号传导域、4-1BB细胞内信号传导域和CD28细胞内信号传导域；

156.根据权利要求147至155中任一项所述的方法，其中所述CAR进一步包含细胞外铰链域。

157.根据权利要求156所述的方法，其中所述铰链域是免疫球蛋白样域。

158.根据权利要求157所述的方法，其中所述铰链域分离或衍生自IgG1、IgG2或IgG4。

159.根据权利要求157所述的方法，其中所述铰链域分离或衍生自CD8a分子(CD8)或CD28。

160.根据权利要求147至159中任一项所述的方法，其中所述CAR进一步包含跨膜域。

161.根据权利要求160所述的方法，其中所述跨膜域分离或衍生自由CD3-ζ、CD4、CD8和CD28组成的组。

162.根据权利要求148至161中任一项所述的方法，其中所述TCR包含一个或多个选自由以下组成的组的亚基：TCRα、TCRβ、CD3-δ、CD3-ε、CD-γ或CD3-ζ。

163.根据权利要求162所述的方法，其中所述TCR进一步包含细胞内域，所述细胞内域包含来自细胞内信号传导域的刺激域。

164.根据权利要求162或权利要求163所述的方法，其中所述TCR的所述抗原结合域可操作地连接到所述TCRα或所述TCRβ亚基。

165.根据权利要求164所述的方法，其中所述TCR的所述抗原结合域是包含选自由表5中所列序列组成的组的可变重链(VH)和可变轻链(VL)和/或重链和轻链CDR的scFv。

166.根据权利要求165所述的方法，其中所述scFv的所述VH、VL和/或所述CDR具有一个或多个氨基酸修饰，其中所述scFv保留对所述肿瘤抗原的结合亲和力，并且其中所述修饰选自由取代、缺失和插入组成的组。

167.根据权利要求147至166中任一项所述的方法，其进一步包含将编码选自由IL-7、IL-12、IL-15和IL-18组成的组的免疫刺激细胞因子的多核苷酸引入所述免疫细胞。

168.根据权利要求138至167中任一项所述的方法，其进一步包含通过在合适的生长条件下在合适的培养基中进行体外培养来扩增所述细胞的群体。

169.根据权利要求138至168中任一项所述的方法，其中所述细胞对于接受所述细胞的所述受试者而言是自体的。

170.根据权利要求138至168中任一项所述的方法，其中所述细胞对于接受所述细胞的所述受试者而言是同种异体的。

171.根据权利要求138至170中任一项所述的方法，其中所述受试者患有癌症或自身免疫性疾病。

172.根据权利要求171所述的方法，其中所述癌症选自由以下组成的组：结肠癌、直肠癌、肾细胞癌、肝癌、非小细胞肺癌、小肠癌、食道癌、黑色素瘤、骨癌、胰腺癌、皮肤癌、头颈癌、皮肤或眼内恶性黑色素瘤、子宫癌、卵巢癌、直肠癌、肛门癌、胃癌、睾丸癌、输卵管癌、子宫内膜癌、癌子宫颈癌、阴道癌、外阴癌、霍奇金病、非霍奇金淋巴瘤、内分泌系统癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、儿童实体瘤、膀胱癌、肾癌或输尿管癌、肾盂癌、中枢神经系统(CNS)肿瘤、原发性中枢神经系统淋巴瘤、肿瘤血管生成、脊柱轴肿瘤、脑干神经胶质瘤、垂体腺瘤、卡波西肉瘤、表皮样癌、鳞状细胞癌、T细胞淋巴瘤、环境诱发的癌症、慢性淋巴细胞白血病(CLL)、急性白血病、急性淋巴细胞白血病(ALL)、B细胞急性淋巴细胞白血病(B-ALL)、T细胞急性淋巴细胞白血病(T-ALL)、慢性粒细胞白血病(CML)、急性粒细胞白血病(AML)、B细胞幼淋巴细胞白血病、母细胞浆细胞样树突状细胞肿瘤、伯基特氏病淋巴瘤、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、毛细胞白血病、小细胞或大细胞滤泡性淋巴瘤、恶性淋巴增生性疾病、MALT淋巴瘤、套细胞淋巴瘤、边缘区淋巴瘤、多发性骨髓瘤、骨髓增生异常和骨髓增生异常综合征、霍奇金氏症淋巴瘤、浆母细胞淋巴瘤、浆细胞样树突状细胞瘤、华氏巨球蛋白血症、白血病前期、所述癌症的组合，以及所述癌症的转移性病变。

173.根据权利要求171或权利要求172所述的方法，其中所述癌症表达肿瘤细胞抗原。

174.根据权利要求173所述的方法，其中所述CAR对所述肿瘤细胞抗原具有特异性结合亲和力。

175.根据权利要求174所述的方法，其中在所述CAR与所述肿瘤抗原结合时，所述细胞能够：i)被激活；ii)诱导所述细胞的增殖；iii)诱导所述细胞分泌细胞因子；iv)诱导带有所述肿瘤抗原的所述细胞的细胞毒性，或v)(i)-(iv)中任一项的组合。

176.根据权利要求138至175中任一项所述的方法，其中所述细胞通过选自以下的施用途径施用于所述受试者：实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内、腰椎、腹膜内、皮下、眼内、眼周、视网膜下、玻璃体内、肺内、鼻内及其组合。

177.根据权利要求138至176中任一项所述的方法，其中治疗有效量的所述细胞的所述施用导致所述受试者中与所述疾病相关的临床参数或指标的改善，所述临床参数或指标选自以下中的一个或多个：完全、部分或不完全反应的肿瘤缩小；进展时间、治疗失败时间、生物标志物反应；无进展生存期；无病生存；复发时间；转移时间；总生存时间；提高生活质量；以及症状的改善。

178.根据权利要求138至177中任一项所述的方法，其中所述方法进一步包含施用化学治疗剂。

179.一种试剂盒，其包含

a.根据权利要求1至59中任一项所述的CasX系统；

b.根据权利要求63至69中任一项所述的载体或

c.根据权利要求70至72中任一项所述的VLP；

并且进一步包含赋形剂和容器。

180.根据权利要求179所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

181.根据权利要求1至54中任一项所述的CasX:gNA系统、根据权利要求60至62中任一项所述的多核苷酸、根据权利要求63至69中任一项所述的载体、根据权利要求70至72中任一项所述的VLP，或根据权利要求121至127中任一项所述的细胞群用作治疗疾病或病症的药物。

182.根据权利要求1至54中任一项所述的CasX:gNA系统、根据权利要求60至62中任一项所述的多核苷酸、根据权利要求63至69中任一项所述的载体、根据权利要求70至72中任一项所述的VLP，或根据权利要求121至127中任一项所述的细胞群用于治疗有需要的受试者的疾病或病症的方法。

183.根据权利要求181或182所述的CasX:gNA系统、多核苷酸、载体、VLP或细胞群，其中所述疾病或病症是癌症或自身免疫性疾病。

184.一种引导核酸(gNA)，其包含与编码参与抗原加工、抗原呈递、抗原识别和/或抗原反应的蛋白质的基因的靶链中的靶核酸序列互补的靶向序列，其中所述gNA能够与CRISPR蛋白形成复合物，所述CRISPR蛋白对包含互补非靶链中的TC基序的前间隔邻近基序(PAM)序列具有特异性，并且其中所述PAM序列位于所述非靶链中与所述靶链中的所述靶核酸序列互补的序列的5′端1个核苷酸处。

185.根据权利要求184所述的gNA，其中所述CRISPR蛋白对TC PAM序列具有特异性。

186.根据权利要求184所述的gNA，其中所述CRISPR蛋白对TTC PAM序列具有特异性。

187.根据权利要求184所述的gNA，其中所述CRISPR蛋白对ATC PAM序列具有特异性。

188.根据权利要求184所述的gNA，其中所述CRISPR蛋白对CTC PAM序列具有特异性。

189.根据权利要求184所述的gNA，其中所述CRISPR蛋白对GTC PAM序列具有特异性。

190.根据权利要求184至189中任一项所述的gNA，其中所述靶向序列位于所述gNA的3'端。

191.根据权利要求184至190中任一项所述的gNA，其中所述CRISPR蛋白是V型CRISPR蛋白。

192.根据权利要求184至191所述的gNA序列，其中所述蛋白质是免疫细胞表面标记。

193.根据权利要求184至191所述的gNA序列，其中所述蛋白质是免疫检查点蛋白质。

194.根据权利要求184至191所述的gNA序列，其中所述蛋白质是细胞内蛋白质。

195.根据权利要求184至191所述的gNA序列，其中所述蛋白质选自由以下组成的组：β-2-微球蛋白(B2M)、T细胞受体α链恒定区(TRAC)、II类主要组织相容性复合物反式激活因子(CIITA)、T细胞受体β恒定1(TRBC1)、T细胞受体β恒定2(TRBC2)、人白细胞抗原A(HLA-A)、人白细胞抗原B(HLA-B)、TGFβ受体2(TGFβRII)、程序性细胞死亡1(PD-1)、细胞因子诱导型SH2(CISH)、淋巴细胞激活3(LAG-3)、具有Ig和ITIM域的T细胞免疫受体(TIGIT)、腺苷A2a受体(ADORA2A)、杀伤细胞凝集素样受体C1(NKG2A)、细胞毒性T淋巴细胞相关蛋白4(CTLA-4)、T细胞免疫球蛋白和粘蛋白域3(TIM-3)和2B4(CD244)。

196.根据权利要求195所述的gNA，其中所述蛋白质是B2M。

197.根据权利要求196所述的gNA，其中所述gNA的所述靶向序列包含选自由SEQ IDNO:725-2100、2281-7085、547-551、591-595和614-681组成的组的序列或与其具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列。

198.根据权利要求196所述的gNA，其中所述gNA的所述靶向序列包含选自由SEQ IDNO:725-2100、2281-7085、547-551、591-595和614-681组成的组的序列。

199.根据权利要求195所述的gNA，其中所述蛋白质是TRAC。

200.根据权利要求199所述的gNA，其中所述gNA的所述靶向序列包含选自由SEQ IDNO:7086-27454、522-529和566-573组成的组的序列，或与其具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列。

201.根据权利要求199所述的gNA，其中所述gNA的所述靶向序列包含选自由SEQ IDNO:7086-27454、522-529和566-573组成的组的序列。

202.根据权利要求195所述的gNA，其中所述蛋白质是CIITA。

203.根据权利要求202所述的gNA，其中所述gNA的所述靶向序列包含选自由SEQ IDNO:27455-55572组成的组的序列，或与其具有至少约65％、至少约75％、至少约85％或至少约95％同一性的序列。

204.根据权利要求202所述的gNA，其中所述gNA的所述靶向序列包含选自由SEQ IDNO:27455-55572组成的组的序列。

205.根据权利要求184至204中任一项所述的gNA，其中所述gNA是引导RNA (gRNA)。

206.根据权利要求184至204中任一项所述的gNA，其中所述gNA是引导DNA (gDNA)。

207.根据权利要求184至204中任一项所述的gNA，其中所述gNA是包含DNA和RNA的嵌合体。

208.根据权利要求184至204中任一项所述的gNA，其中所述gNA是单分子gNA(sgNA)。

209.根据权利要求184至208中任一项所述的gNA，其中所述gNA是双分子gNA(dgNA)。

210.根据权利要求184至209中任一项所述的gNA，其中所述gNA的所述靶向序列包含15、16、17、18、19或20个核苷酸。

211.根据权利要求184至210中任一项所述的gNA，其中所述gNA具有支架，所述支架包含选自由SEQ ID NO:4-16的参考gNA序列或SEQ ID NO:2101-2280的gNA变异序列组成的组的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、或至少约99％序列同一性的序列。

212.根据权利要求211所述的gNA，其中所述gNA变异支架包含相对于参考gNA序列具有至少一个修饰的序列，所述参考gNA序列选自由SEQ ID NO:4-16组成的组。

213.根据权利要求212所述的gNA，其中所述参考gNA的所述至少一个修饰包含所述gNA序列的核苷酸的至少一个取代、缺失或取代。

214.根据权利要求184至213中任一项所述的gNA，其中所述gNA是化学修饰的。

215.根据权利要求184至214中任一项所述的gNA，其中所述gNA能够与II类V型CRISPR-Cas蛋白形成核糖核蛋白复合物(RNP)。

216.根据权利要求215所述的gNA，其中所述II类V型CRISPR-Cas蛋白选自包含SEQ IDNO:1-3中任一项的蛋白质、包含SEQ ID NO:49-143、438、440、442、444、446、448-460、472、474、478、480、482、484、486、488、490、612或613的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％、或至少约95％、或至少约96％、或至少约97％、或至少约98％、或至少约99％序列同一性的序列的蛋白质。

217.一种II类V型CRISPR蛋白，其中包含所述CRISPR蛋白和浓度为20pM或更低的gNA的RNP能够以至少80％的效率裂解双链DNA靶标。