CN114375334A

CN114375334A - 工程化CasX系统

Info

Publication number: CN114375334A
Application number: CN202080056141.9A
Authority: CN
Inventors: B·奥克斯; S·希金斯; H·斯平纳; S·丹尼; B·T·斯塔尔; K·泰勒; K·班尼; I·科林; M·阿迪勒
Original assignee: Scribe Therapy
Current assignee: Scribe Therapy
Priority date: 2019-06-07
Filing date: 2020-06-05
Publication date: 2022-04-19
Also published as: WO2020247882A1; EP3980533A1; US20220220508A1; CA3142883A1; BR112021024288A2; CL2021003233A1; AU2020289591A1; US20230124880A1; US12084692B2; GB2600274B; IL288738A; PE20220256A1; TW202113074A; KR20220032050A; PH12021553076A1; MX2021015058A; GB2600274A; JP2022534809A; SG11202113253SA; US20250043262A1

Abstract

本文提供工程化CasX系统和其组分，包括变异CasX蛋白和变异引导核酸(gNA)。当相比于本发明的参考CasX蛋白或参考gNA时，本发明的变异CasX蛋白和变异gNA显示至少一种改良特征。在一些情况下，变体具有一种或多种改良的CasX核糖核蛋白复合物功能。还提供制造和使用所述变体的方法。

Description

工程化CasX系统

相关申请的交叉参考

本申请要求2019年6月7日提交的美国临时专利申请第62,858,750号、2019年12月6日提交的第62/944,892号和2020年5月27日提交的第63/030,838号的优先权，其内容各自以全文引用的方式并入本文中。

序列表以引用的方式并入

本申请含有序列表，所述序列表已以ASCII格式、经由EFS-WEB提交且以全文引用的方式并入本文中。2020年6月5日创建的所述ASCII复本名为SCRB_011_03WO_SeqList_25且大小为3.63MB。

背景技术

CRISPR-Cas系统赋予细菌和古菌针对噬菌体和病毒的获得性免疫性。过去十年的密集研究未覆盖这些系统的生物化学。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成，Cas蛋白涉及外来DNA或RNA的获取、靶向和裂解，CRISPR阵列包括侧接将Cas蛋白引导至其目标的短间隔序列的直接重复序列。2类CRISPR-Cas为流线型式，其中结合至RNA的单一Cas蛋白负责结合至和裂解靶向序列。这些最小系统的可程序化性质促进其用作变革基因组操纵领域的通用技术。

迄今为止，发现的2类CRISPR/Cas系统中仅一些已广泛使用。因此，本领域中需要额外2类CRISPR/Cas系统(例如Cas蛋白加引导RNA组合)，其已优化和/或相对于多种治疗、诊断和研究应用中所用的早代系统提供改良。

发明内容

在一些方面中，本发明提供参考CasX核酸酶蛋白的变体，其中所述CasX变体能够与引导核酸(NA)形成复合物，且其中所述复合物可结合目标DNA，其中所述目标DNA包含非目标股和目标股，且其中所述CasX变体包含相对于参考CasX的域的至少一种修饰，且展现相比于参考CasX蛋白的一种或多种改良特征。参考CasX蛋白的域包括：(a)结合至DNA的非目标股的非目标股结合(NTSB)域，其中所述NTSB域包含四股β折叠；(b)将目标DNA置于CasX变体的裂解位点中的目标股负载(TSL)域，所述TSL域包含三个带正电氨基酸，其中所述三个带正电氨基酸结合至DNA的目标股，(c)与目标DNA和引导NA的间隔区相互作用的螺旋形I域，其中所述螺旋形I域包含一个或多个α螺旋；(d)与目标DNA和引导NA的支架茎相互作用的螺旋形II域；(e)结合引导NA的三螺旋区的寡核苷酸结合域(OBD)；和(f)RuvC DNA裂解域。

在一些方面中，本发明提供能够结合CasX蛋白的参考引导核酸(gNA)的变体，其中相比于参考引导核酸序列，所述参考引导核酸在区域中包含至少一种修饰，且变体展现相比于参考向导RNA的一种或多种改良特征。gNA的支架区域包括：(a)延伸茎环；(b)支架茎环；(c)三螺旋体；和(d)假结。在一些情况下，变异gNA的支架茎进一步包含气泡。在其它情况下，变异gNA的支架进一步包含三螺旋环区。在其它情况下，变异gNA的支架进一步包含5'非结构化区。

在一些方面中，本发明提供包含本文所述的任一实施例的CasX蛋白和gNA的基因编辑对。

在一些方面中，本发明提供编码本文所述的CasX蛋白、gNA和基因编辑对的聚核苷酸和载体。在一些实施例中，载体为病毒载体，如腺相关病毒(AAV)载体或慢病毒载体。在其它实施例中，载体为非病毒粒子，如病毒样粒子或纳米粒子。

在一些方面中，本发明提供包含本文所述的聚核苷酸、载体、CasX蛋白、gNA和基因编辑对的细胞。在其它方面中，本发明提供包含通过本文所述的编辑实施例的方法编辑的目标DNA的细胞。

在一些方面中，本发明提供包含本文所述的聚核苷酸、载体、CasX蛋白、gNA和基因编辑对的试剂盒。

在一些方面中，本发明提供编辑目标DNA的方法，其包含使目标DNA与本文所述的基因编辑对中的一个或多个接触，其中所述接触引起目标DNA的编辑。

在其它方面中，本发明提供治疗有需要的个体的方法，其包含施用本文所述的任一实施例的基因编辑对或包含或编码基因编辑对的载体。

在另一方面中，本文提供用作药剂的基因编辑对、包含基因编辑对的组合物、或包含或编码基因编辑对的载体。

在另一方面中，本文提供用于治疗方法的基因编辑对、包含基因编辑对的组合物或包含或编码基因编辑对的载体，其中所述方法包含编辑或修饰目标DNA；任选地其中编辑发生于在基因的等位基因中具有突变的个体中，其中所述突变引起个体的疾病或病症，优选其中所述编辑改变针对基因的野生型等位基因的突变，或敲落或敲除引起个体的疾病或病症的基因的等位基因。

附图说明

本发明的新颖特征在随附权利要求书中细致阐述。将参考阐述利用本发明原理的说明性实施例和其附图的以下详细描述来获得对本发明的特征和优势的更好理解：

图1为出示使用深度突变进化(DME)制造本发明的CasX蛋白和引导RNA变体的示例性方法的图。在一些示例性实施例中，DME建立和测试生物分子中几乎每一可能的突变、插入和缺失和其组合/多重组，且提供生物分子的适合度景观的接近全面且无偏性的评估和序列空间朝向所需结果的路径。如本文所述，DME可应用于CasX蛋白和引导RNA。

图2为说明分析参考CasX蛋白或单引导RNA(sgRNA)或其变体的有效性的示例性方法的图和实例性荧光活化细胞分选(FACS)图。偶联至gRNA目标序列、与gRNA间隔子互补的报告子(例如GFP报告子)整合至报告子细胞系中。细胞经CasX蛋白和/或sgNA变体转型或转染，其中sgRNA的间隔子基序与报告子的gRNA目标序列互补且靶向所述目标序列。通过FACS分析CasX:sgRNA核糖核蛋白复合物裂解目标序列的能力。丧失报告子表达的细胞指示发生CasX:sgRNA核糖核蛋白复合物介导的裂解和插入缺失形成。

图3A和图3B为出示如实例3中所述的由SEQ ID NO:5编码的参考sgRNA的示例性DME诱变的结果的热图。图3A出示在显示于顶部的参考sgRNA的各位置处的单碱基对(单碱基)取代、双碱基对(双碱基)取代、单碱基对插入、单碱基对缺失和单碱基对缺失加单碱基对取代的效应。图3B出示在经改良参考sgRNA的各位置处的双碱基对插入和单碱基对插入加单碱基对取代的效应。SEQ ID NO:5的参考sgRNA序列出示于图3A顶部和图3B底部。在图3A和图3B中，以灰度指示相对于选择之后的参考sgRNA，DME库中变体的Log₂倍数富集。富集为活性的代表，其中更大富集为更具活性的分子。结果出示不应突变的参考sgRNA区域和定为诱变的目标的关键区域。

图4A出示如实例3中所述的使用参考sgRNA的示例性DME实验的结果。具有序列SEQID NO:5的经改良参考sgNA(sgRNA)出示于顶部，且以灰度指示相对于选择之后的参考sgRNA，DME库中变体的Log₂倍数富集。富集为活性的代表，其中更大富集为更具活性的分子。热图出示示例性DME实验，其出示库的四个复本，其中参考sgRNA中的每一碱基对已经每一可能的替代碱基对取代。

图4B为比较不同DME库的生物复本的一系列8个图。针对DME复本对相对于彼此绘制个别变体相对于参考sgRNA序列的Log₂倍数富集。出示了针对单一缺失、单一插入和单一取代DME实验以及野生型对照的图，且所述图指示各复本存在良好量的一致。

图4C为出示库的四个复本的示例性DME实验的热图，其中参考sgRNA中的每一位置已经历单碱基对插入。DME实验使用SEQ ID NO:5的参考sgRNA(顶部处)，且如实例3中所述地进行。以灰度指示相对于选择之后的参考sgRNA，DME库中变体的Log₂倍数富集。

图5A-图5E为出示sgNA变体可在EGFP破坏分析中改良基因编辑超过两倍的一系列图，如实例2和3中所述。编辑通过携有GFP报告子的HEK293细胞中的插入缺失形成和GFP破坏来测量。图5A出示SEQ ID NO:4的CasX sgRNA参考和具有序列SEQ ID NO:5的参考的变体跨越10个目标的编辑效率的倍数变化。当跨越10个目标取平均值时，sgRNA SEQ ID NO:5的编辑效率相比于SEQ ID NO:4改良176％。图5B出示通过用额外序列交换延伸茎环序列以产生序列在表2示出中的支架，有可能进一步改良SEQ ID NO:5的sgRNA支架。编辑效率的倍数变化出示于Y轴上。图5C为出示通过标准化为作为CasX参考sgRNA的SEQ ID NO:5的DME突变产生的sgNA变体(包括具有SEQ ID NO:17的变体)的倍数改良。图5D为出示表2中所列的序列的sgNA变体的倍数改良的图，所述变体通过将核糖核酸酶序列附加至参考sgRNA序列而产生，标准化为作为CasX参考sgRNA的SEQ ID NO:5。图5E为出示通过组合(堆叠)出示改良裂解的支架茎突变、出示改良裂解的DME突变和使用出示改良裂解的核糖核酸酶附属物产生的标准化为变体的SEQ ID NO:5参考sgRNA的倍数改良。在此分析中，相比于SEQ ID NO:5，所得sgNA变体产生2倍或更大的裂解改良。通过E6和E7的间隔子目标序列进行EGFP编辑分析。

图6出示示例性gNA变体(SEQ ID NO:18-22)中所用的肝炎δ病毒(HDV)基因组核糖核酸酶。

图7A-图7I为一系列热度图，其出示如实例4中所述的SEQ ID NO:2的参考CasX蛋白中的各氨基酸位置处的单氨基酸取代、单氨基酸插入和缺失的效应。数据通过在37℃下运行的DME分析产生。Y轴出示各种可能的取代或插入(从上到下：R、H、K、D、E、S、T、N、Q、C、G、P、A、I、L、M、F、W、Y或V；方块指示参考蛋白的氨基酸一致性)，X轴出示参考CasX蛋白中的氨基酸位置。指示在富集之后，DME库中的CasX变异蛋白相对于SEQ ID NO:2的参考CasX蛋白的Log₂倍数富集。如本文所用，“富集”为活性的代表，其中更大富集为更具活性的分子。(*)指示活性位点。图7A至图7D出示单氨基酸取代的效应。图7E至图7H出示单氨基酸插入的效应。图7I出示单氨基酸缺失的效应。

图8A-图8C为出示如实例4中所述的SEQ ID NO:2的参考CasX蛋白的各氨基酸位置处的单氨基酸取代、单氨基酸插入和缺失的效应的一系列热度图。数据通过在45℃下运行的DME分析产生。图8A出示单氨基酸取代的效应。图8B出示单氨基酸插入的效应。图8C出示单氨基酸缺失的效应。对于所有的图8A-图8C，Y轴出示各种可能的取代或插入(从上到下：R、H、K、D、E、S、T、N、Q、C、G、P、A、I、L、M、F、W、Y或V；方块指示参考蛋白质的氨基酸一致性)，X轴出示参考CasX蛋白中的氨基酸位置。以灰度指示富集后，CasX变异蛋白相对于DME库中的SEQ ID NO:2的参考CasX蛋白的Log₂倍数富集，其中更大富集为更活性分子。(*)指示活性位点。相比于在37℃下运行相同分析，在45℃下运行此分析富集不同变体(参见图7A-图7I)，由此表明哪些氨基酸残基和变化对于热稳定性和折叠重要。

图9出示SEQ ID NO:2的参考CasX蛋白的所有单一突变的全面突变景观的调查。在Y轴上，针对单一取代(顶部)、单一插入(中间)或单一缺失(底部)，CasX变体相对于参考CasX蛋白的倍数富集。在X轴上，参考CasX蛋白中的氨基酸位置。产生改良CasX变体的关键区域为初始螺旋区域和RuvC域中毗邻目标股负载(TLS)域的区域，以及其它。

图10为出示如实例5中所述，在EGFP破坏分析中，相对于参考CasX蛋白，评估的CasX变异蛋白改良编辑大于三倍。测试CasX蛋白在人类HEK293细胞中的2个不同目标位点处裂解EGFP报告子的能力，且出示这些位点处的基因组编辑相比于SEQ ID NO:2的基础参考CasX蛋白的标准化改良。从左到右，变体(由给定残基编号处的氨基酸取代、插入或缺失指示)为：Y789T、[P793]、Y789D、T72S、I546V、E552A、A636D、F536S、A708K、Y797L、L792G、A739V、G791M、^G661、A788W、K390R、A751S、E385A、^P696、^M773、G695H、^AS793、^AS795、C477R、C477K、C479A、C479L、I55F、K210R、C233S、D231N、Q338E、Q338R、L379R、K390R、L481Q、F495S、D600N、T886K、A739V、K460N、I199F、G492P、T153I、R591I、^AS795、^AS796、^L889、E121D、S270W、E712Q、K942Q、E552K、K25Q、N47D、^T696、L685I、N880D、Q102R、M734K、A724S、T704K、P224K、K25R、M29E、H152D、S219R、E475K、G226R、A377K、E480K、K416E、H164R、K767R、I7F、M29R、H435R、E385Q、E385K、I279F、D489S、D732N、A739T、W885R、E53K、A238T、P283Q、E292K、Q628E、R388Q、G791M、L792K、L792E、M779N、G27D、K955R、S867R、R693I、F189Y、V635M、F399L、E498K、E386S、V254G、P793S、K188E、QT945KI、T620P、T946P、TT949PP、N952T、K682E、K975R、L212P、E292R、I303K、C349E、E385P、E386N、D387K、L404K、E466H、C477Q、C477H、C479A、D659H、T806V、K808S、^AS797、V959M、K975Q、W974G、A708Q、V711K、D733T、L742W、V747K、F755M、M771A、M771Q、W782Q、G791F、L792D、L792K、P793Q、P793G、Q804A、Y966N、Y723N、Y857R、S890R、S932M、L897M、R624G、S603G、N737S、L307K、I658V^PT688、^SA794、S877R、N580T、V335G、T620S、W345G、T280S、L406P、A612D、A751S、E386R、V351M、K210N、D40A、E773G、H207L、T62A、T287P、T832A、A893S、^V14、^AG13、R11V、R12N、R13H、^Y13、R12L、^Q13、V15S、^D17。^指示插入，[]指示缺失。

图11为出示个别有益突变可经合并(有时称为“堆叠”)以实现基因编辑活性的甚至更大改良的图。使用靶向EGFP报告子的E6和E7间隔子测试CasX蛋白在人类HEK293细胞中的2个不同目标位点处裂解的能力，如实例5中所述。从左到右，变体为：SEQ ID NO:2的参考CasX蛋白的S794R+Y797L、K416E+A708K、A708K+[P793]、[P793]+P793AS、Q367K+I425S、A708K+[P793]+A793V、Q338R+A339E、Q338R+A339K、S507G+G508R、L379R+A708K+[P793]、C477K+A708K+[P793]、L379R+C477K+A708K+[P793]、L379R+A708K+[P793]+A739V、C477K+A708K+[P793]+A739V、L379R+C477K+A708K+[P793]+A739V、L379R+A708K+[P793]+M779N、L379R+A708K+[P793]+M771N、L379R+A708K+[P793]+D489S、L379R+A708K+[P793]+A739T、L379R+A708K+[P793]+D732N、L379R+A708K+[P793]+G791M、L379R+A708K+[P793]+Y797L、L379R+C477K+A708K+[P793]+M779N、L379R+C477K+A708K+[P793]+M771N、L379R+C477K+A708K+[P793]+D489S、L379R+C477K+A708K+[P793]+A739T、L379R+C477K+A708K+[P793]+D732N、L379R+C477K+A708K+[P793]+G791M、L379R+C477K+A708K+[P793]+Y797L、L379R+C477K+A708K+[P793]+T620P、A708K+[P793]+E386S、E386R+F399L+[P793]和R4581I+A739V。[]是指SEQ ID NO:2的指定位置处缺失的氨基酸残基。

图12A和图12B为出示CasX蛋白和sgNA变体在合并时可相对于参考sgRNA和参考CasX蛋白对改良活性超过6倍的一对图。sgNA：分析蛋白质对裂解HEK293细胞中的GFP报告子的能力，如实例5中所述。在Y轴上，显示其中GFP报告子的表达被CasX介导的基因编辑破坏的细胞分率。图12A出示通过靶向GFP的E6间隔子分析的CasX蛋白和sgNA。图12B出示通过靶向GFP的E7间隔子分析的CasX蛋白和sgNA。iGFP表示“诱导性GFP”。

图13A、图13B和图13C出示制造和筛选DME库允许产生和鉴别展现编辑效率的1至81倍改良的变体，如实例1和3中所述。图13A出示大肠杆菌细胞中的RFP+和GFP+报告子，对其分析GFP通过参考核酸酶死亡CasX蛋白和sgNA的CRISPR干扰抑制。图13B出示相同报告子细胞，对其分析通过自DME库筛选的核酸酶死亡CasX变体的GFP抑制。图13C出示相比于具有5个靶向HEK 293人类细胞中的内源B2M基因座的间隔子的参考，所选CasX蛋白和sgNA变体改良的编辑效率。Y轴出示B2M染色经HLA1抗体的破坏，表明通过CasX编辑和插入缺失形成的基因破坏。在引导间隔子#43的情况下，相比于参考，改良的CasX变体改良此基因座的编辑至多81倍。CasX与SEQ ID NO:5和SEQ ID NO:2的参考sgRNA:蛋白质对配对，且指示SEQID NO:2的L379R+A708K+[P793]的CasX变异蛋白，通过具有截短茎环和T10C取代的sgNA变体分析，所述变体由序列TACTGGCGCCTTTATCTCATTACTTTGAGAGCCATCACCAGCGACTATGTCGTATGGGTAAAGCGCTTACGGACTTCGGTCCGTAAGAAGCATCAAAG(SEQ ID NO:23)编码。使用以下间隔序列：#9：GTGTAGTACAAGAGATAGAA(SEQ ID NO:24)；#14：TGAAGCTGACAGCATTCGGG(SEQ ID NO:25)，#20：tagATCGAGACATGTAAGCA(SEQ ID NO:26)；#37：GGCCGAGATGTCTCGCTCCG(SEQ IDNO:27)和#43：AGGCCAGAAAGAGAGAGTAG(SEQ ID NO:28)。

图14A-图14F为原型CasX蛋白的一系列结构模型，其出示展现改良活性的本发明的CasX变异蛋白的突变位置。图14A出示SEQ ID NO:2的793处P的缺失，其中环中的缺失可影响折叠。图14B出示在SEQ ID NO:2的位置708处经赖氨酸(K)替换丙氨酸(A)。此突变面向gNA5'端加上与gNA的盐桥。图14C出示在SEQ ID NO:2的位置477处经赖氨酸(K)替换半胱氨酸(C)。此突变面向gNA。在可受影响的大约碱基14处存在与gNAbb(gNA磷酸酶主链)的盐桥。此突变去除表面暴露半胱氨酸。图14D出示在SEQ ID NO:2的位置379处经精氨酸(R)替换亮氨酸(L)。朝向可受影响的碱基对22-23存在与目标DNAbb(DNA磷酸盐主链)的盐桥。图14E出示793处P的缺失和A708K取代的组合的一个视图。图14F出示替代视图，其出示个别突变体的效应为加性的，且单一突变体可组合(堆叠)以实现甚至更大改良。贯穿图14A-图14F，箭头指示突变位置。

图15为出示如实例6中所述的针对所关注基因鉴别最佳浮霉菌门CasX PAM和间隔子的图。在Y轴上，显示GFP阴性细胞％，其指示GFP报告子的裂解。在X轴上，不同PAM序列和间隔子：ATC PAM、CTC PAM和TTC PAM。还测试GTC、TTT和CTT PAM且不出示活性。

图16为出示如实例6中所述的相比于参考CasX蛋白，通过DME产生的改良的CasX变体可更有效地编辑典型和非典型PAM。Y轴出示相对于参考具有2个目标，N＝6的sgRNA:蛋白质对(SEQ ID NO:2、SEQ ID NO:5)，编辑的平均倍数改良。从左到右，各组条的蛋白质变体为：A708K+[P793]+A739V；L379R+A708K+[P793]；C477K+A708K+[P793]；L379R+C477K+A708K+[P793]；L379R+A708K+[P793]+A739V；C477K+A708K+[P793]+A739V；和L379R+C477K+A708K+[P793]+A739V。通过从左到右具有以下DNA编码间隔序列的SEQ ID NO:5的参考sgRNA支架分析参考CasX和蛋白质变体：具有TTC PAM的E6(SEQ ID NO:29)；具有TTC PAM的E7(SEQ IDNO:30)；具有TTC PAM的GFP8(SEQ ID NO:31)；具有CTC PAM的B1(SEQ ID NO:32)和具有ATCPAM的A7(SEQ ID NO:33)。

图17A至图17F为出示对目标序列具有高度特异性的参考CasX蛋白和参考sgRNA支架对的一系列图，如实例7中所述。图17A和图17D，对于具有两种不同gNA间隔子和5'PAM位点(SEQ ID NO:34-65)和(SEQ ID NO:136-166)的酿脓链球菌Cas9(SpyCas9)分析编辑模板的能力，所述模板具有与间隔序列互补的目标序列(箭头)，或具有目标序列中相对于间隔序列的1、2、3或4个突变。图17B和图17E，对于具有两种不同gNA间隔子和5'PAM位点(SEQ IDNO:66-103)和(SEQ ID NO:167-204)的酿脓链球菌Cas9(SauCas9)分析编辑模板的能力，所述模板具有与间隔序列互补的目标序列(箭头)，或具有目标序列中相对于间隔序列的1、2、3或4个突变。图17C和图17F，对于具有两种不同gNA间隔子和3'PAM位点(SEQ ID NO:104-135)和(SEQ ID NO:205-236)的参考Plm CasX蛋白和sgNA支架对分析编辑模板的能力，所述模板具有与间隔序列互补的目标序列(箭头)，或具有目标序列中相对于间隔序列的1、2、3或4个突变。在所有的图17A-图17F中，X轴出示在目标序列处发生基因编辑的细胞分率。

图18说明本发明的示例性参考sgRNA(SEQ ID NO:237)的支架茎环。

图19说明本发明的示例性参考sgRNA(SEQ ID NO:238)的延伸茎环序列。

图20A-图20B为出示如实例4所述的由CasX的DME发现的变化的特定子集更可能预测活性改良的一对图。图表示来自图7和图8中所述的实验的数据。图20A出示改变在引导RNA与疏水性残基(A、V、I、L、M、F、Y、W)10埃(A)的距离内的氨基酸产生活性显著较低的蛋白质。图20B表明相比的下，改变在RNA与带正电氨基酸(R、H、K)的10A内的残基可能改良活性。

图21说明两个参考CasX蛋白序列(SEQ ID NO:1，上方；SEQ ID NO:2，下方)的比对，其中域经注解。

图22说明SEQ ID NO:1的参考CasX蛋白的域组织。域具有以下座标：非目标股结合(NTSB)域：氨基酸101-191；螺旋形I域：氨基酸57-100和192-332；螺旋形II域：333-509；寡核苷酸结合域(OBD)：氨基酸1-56和510-660；RuvC DNA裂解域(RuvC)：氨基酸551-824和935-986；目标股负载(TSL)域：氨基酸825-934。应注意，螺旋形I、OBD和RuvC域为非连续的。

图23说明两个CasX参考sgRNA支架SEQ ID NO:5(上方)和SEQ ID NO:4(下方)的比对。

图24出示如实例8中所述的通过胶体考马斯染色观察到的StX2(SEQ ID NO:2的CasX参考)纯化洗脱份的SDS-PAGE凝胶。从左到右，通道为：集结粒：细胞溶解之后的不溶性部分，溶解物：细胞溶解之后的可溶性部分，流经：不结合肝素柱的蛋白质，洗涤：洗涤缓冲液中从柱洗脱的蛋白质，洗脱：自肝素柱洗脱的蛋白质伴以洗脱缓冲液，流经：不结合StrepTactin柱的蛋白质，洗脱：从StrepTactin柱洗脱的蛋白质伴以洗脱缓冲液，注射：注射至s200凝胶过滤柱上的浓缩蛋白质，冷冻：已浓缩和冷冻的来自s200洗脱的汇集洗脱份。

图25出示如实例8中所述的来自StX2的尺寸排阻色谱分析的色谱图。

图26出示如实例8中所述的通过胶体考马斯染色观察的StX2纯化洗脱份的SDS-PAGE凝胶。从左到右：注射样品、分子量标记、通道3-9：来自指定洗脱体积的样品。

图27出示如实例8中所述的使用Superdex 200 16/600pg凝胶过滤，来自CasX 119的尺寸排阻色谱分析的色谱图。67.47mL峰对应于CasX变体119的表观分子量且含有大多数CasX变体119蛋白。

图28出示如实例8中所述的通过胶体考马斯染色观察的CasX 119纯化洗脱份的SDS-PAGE凝胶。来自指定洗脱份的样品通过SDS-PAGE解析且通过胶体考马斯染色。从左到右，注射：注射至凝胶过滤柱上的蛋白质样品、分子量标记、通道3-10：来自指定洗脱体积的样品。

图29出示在Bio-Rad Stain-Free^TM凝胶上观察的CasX 438的纯化样品的SDS-PAGE凝胶。从左到右，通道为：集结粒：细胞溶解之后的不溶性部分，溶解物：细胞溶解之后的可溶性部分，流经：不结合肝素柱的蛋白质，洗脱：自肝素柱洗脱的蛋白质伴以洗脱缓冲液，流经：不结合StrepTactin柱的蛋白质，洗脱：自StrepTactin柱洗脱的蛋白质伴以洗脱缓冲液，注射：注射至s200凝胶过滤柱上的浓缩蛋白质，汇集：汇集的含CasX的洗脱份，最终：已浓缩和冷冻的来自s200洗脱的汇集洗脱份。

图30出示如实例8中所述的使用Superdex 200 16/600pg凝胶过滤，来自CasX 438的尺寸排阻色谱分析的色谱图。69.13mL峰对应于CasX变体438的表观分子量且含有大多数CasX变体438蛋白。

图31出示如实例8中所述的通过胶体考马斯染色观察的CasX 438纯化洗脱份的SDS-PAGE凝胶。来自指定洗脱份的样品通过SDS-PAGE解析且通过胶体考马斯染色。从左到右，注射：注射至凝胶过滤柱上的蛋白质样品、分子量标记、通道3-10：来自指定洗脱体积的样品。

图32出示在Bio-Rad Stain-Free^TM凝胶上观察的CasX 457的纯化样品的SDS-PAGE凝胶。从左到右，通道为：集结粒：细胞溶解之后的不溶性部分，溶解物：细胞溶解之后的可溶性部分，流经：不结合肝素柱的蛋白质，洗脱：自肝素柱洗脱的蛋白质伴以洗脱缓冲液，流经：不结合StrepTactin柱的蛋白质，洗脱：自StrepTactin柱洗脱的蛋白质伴以洗脱缓冲液，注射：注射至s200凝胶过滤柱上的浓缩蛋白质，最终：已浓缩和冷冻的来自s200洗脱的汇集洗脱份。

图33出示如实例8中所述的使用Superdex 200 16/600pg凝胶过滤，来自CasX 457的尺寸排阻色谱分析的色谱图。67.52mL峰对应于CasX变体457的表观分子量且含有大多数CasX变体457蛋白。

图34出示如实例8中所述的通过胶体考马斯染色观察的CasX 457纯化洗脱份的SDS-PAGE凝胶。来自指定洗脱份的样品通过SDS-PAGE解析且通过胶体考马斯染色。从左到右，注射：注射至凝胶过滤柱上的蛋白质样品、分子量标记、通道3-10：来自指定洗脱体积的样品。

图35为出示如实例9中所述的用于装配CasX构建体的pSTX34质粒中的组分的组织的示意图。

图36为出示如实例9中所述的产生CasX 119变体的步骤的示意图。

图37为如实例19中所述的由sgRNA174和CasX变体119和457形成的RNP的活性分率的定量分析的结果的图示。等摩尔量的RNP和目标经共培育且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值和标准差。出示合并复本的双相拟合。“2”是指SEQ ID NO:2的参考CasX蛋白。

图38为如实例19中所述的由CasX2和参考引导2、经修饰sgRNA引导32、64和174形成的RNP的活性分率的定量分析的结果的图示。等摩尔量的RNP和目标经共培育且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值和标准差。出示合并复本的双相拟合。“2”分别是指参考gRNA SEQ ID NO:5，且经修饰sgRNA在鉴别数目指示于表2中。

图39为如实例19中所述的由sgRNA174和CasX变体119和457形成的RNP的裂解速率的定量分析的结果的图示。目标DNA与20倍过量的指定RNP一起培育且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值和标准差。出示合并复本的单相拟合。

图40为如实例19中所述的由CasX2和sgRNA引导变体2、32、64和174形成的RNP的裂解速率的定量分析的结果的图示。目标DNA与20倍过量的指定RNP一起培育且在指定时间点测定裂解目标的量。针对各时间点显示三个独立复本的平均值和标准差。出示合并复本的单相拟合。

图41为如实例19中所述的由CasX2和sgRNA引导变体2、32、64和174形成的RNP的初始速度的定量分析的结果的图示。将前述裂解实验的前两个时间点与线性模型拟合以确定初始裂解速度。

图42为出示如实例20中所述的用于封装于腺相关病毒(AAV)中的CasX蛋白和支架DNA序列的实例的示意图。由编码CasX的DNA和其启动子，和编码支架的DNA和其启动子构成的AAV反向末端重复序列(ITR)之间的DNA区段在AAV生产期间变为封装于AAV衣壳内。

图43为出示如实例20中所述的通过qPCR的AAV滴定的代表性结果的图。在AAV纯化期间，收集流经(FT)和连续洗脱份(1-6)且通过qPCR滴定。大部分病毒(在此实例中为约1e14个病毒基因组)发现于第二洗脱份中。

图44出示如实例21中所述的SOD1-GFP报告子细胞系中AAV介导的基因编辑实验的结果。具有SOD1靶向间隔子的CasX构建体(CasX 119和引导64，具有SOD1靶向间隔子2，ATGTTCATGAGTTTGGAGAT；SEQ ID NO:239)和SauCas9封装于AAV载体中且用于在一系列不同感染倍率(MOI，每一细胞的病毒基因组的数目)下转导SOD1-GFP报告子细胞。十二天后，经由FACS分析细胞的GFP破坏。在此实例中，CasX和SauCas9出示等同的编辑水准，其中1-2％的细胞在最高MOI，1e7或1e6处出示GFP破坏。

图45出示如实例21中所述的SOD1-GFP报告子细胞系中第二AAV介导的基因编辑实验的结果。具有SOD1靶向间隔子(2，ATGTTCATGAGTTTGGAGAT；SEQ ID NO:239)的CasX构建体119.64和具有SOD1靶向间隔子的SauCas9封装于AAV载体中且用于在一系列不同感染倍率(MOI，每一细胞的病毒基因组的数目)下转导SOD1-GFP报告子细胞。十二天后，经由FACS分析细胞的GFP破坏。在此实例中，CasX和SauCas9在最高MOI处出示等同的编辑水准，其中约2-4％的细胞出示GFP破坏。

图46出示如实例21中所述的来自ALS的G93A小鼠模型的神经组细胞(NPC)中AAV介导的基因编辑实验的结果。CasX构建体(CasX 119和引导64，具有SOD1靶向间隔子2，ATGTTCATGAGTTTGGAGAT；SEQ ID NO:239)封装于AAV载体中且用于在一系列不同感染倍率(MOI，每一细胞的病毒基因组的数目)下转导G93A NPC。十二天后，经由T7E1分析来分析细胞的基因编辑。此处出示的来自T7E1分析的琼脂糖凝胶图像表明SOD1基因座的成功编辑。双箭头出示归因于细胞中的成功编辑的两条DNA带。

图47出示如实例23中所述的HEK293T细胞中的6种目标基因的编辑分析的结果。各点表示使用个别间隔子的结果。

图48出示如实例23中所述的HEK293T细胞中的6种目标基因的编辑分析的结果，其中个别条表示由个别间隔子获得的结果。

图49出示如实例23中所述的HEK293T细胞中的4种目标基因的编辑分析的结果。各点表示使用个别间隔子，使用CTC(CTCN)PAM的结果。

图50为出示如实例24中所述的用于产生编码CasX变体的基因库的深度突变进化步骤的示意图。pSTX1主链最小，仅由高复本数起点和KanR抗性基因构成，使其与重组工程化大肠杆菌菌株EcNR2相容。pSTX2为用于大肠杆菌中的aTc诱导性表达的BsmbI目的质粒。

图51为出示如实例24中所述的关于库D1、D2和D3中的突变的CRISPRi筛选的结果的点阵图。在不存在CRISPRi的情况下，大肠杆菌组成性表达GFP和RFP两者，在两种波长下产生剧烈荧光，由图的右上区域中的点表示。产生GFP的CRISPRi的CasX蛋白可减少绿色荧光>10倍，同时保持红色荧光不变，且这些细胞属于指定分选门1。指示展现CRISPRi的细胞的总分率。

图52为如实例24中所述的ccdB分析中的菌落生长的照片。在葡萄糖或阿拉伯糖存在下分析10倍稀释液以诱导ccdB毒素的表达，在功能性与非功能性蛋白质之间产生大约1000倍差异。当在液体培养物中生长时，解析力为大约10,000倍，如右手侧上所见。

图53为如实例24中所述的具有sgRNA 2(SEQ ID NO:5)与适当间隔子的HEK iGFP基因组编辑效率测试CasX变体的图，其中数据表示为相比于HEK iGFP编辑分析中的野生型CasX蛋白(SEQ ID NO:2)的倍数改良。单一突变出示于顶部，突变组出示于图底部)。误差条在至少重复三次的分析中组合内部测量误差(SD)和实验间测量误差(对于测试超过一次的那些变体，跨越重复实验的SD)。

图54为出示如实例24中所述的对于GFP使用两种不同间隔子，具有sgRNA支架2的CasX变体的SOD1-GFP报导分析的结果的散布图。

图55为出示如实例24中所述的评估跨越四种不同PAM序列，比较野生型CasX(SEQID NO:2)和CasX变体119的HEK293 iGFP基因组编辑分析的结果的图；所述CasX和CasX变体均使用sgRNA支架1(SEQ ID NO:4)，其中间隔子使用四种不同PAM序列。

图56为出示如实例24中所述的相比于使用两种不同间隔子的iGFP脂质体转染分析中的野生型CasX 2和引导支架1，CasX变体119和sgRNA 174的基因组编辑活性的结果的图。

图57为出示如实例24中所述的相比于使用两种不同间隔子的iGFP慢病毒转导分析中的野生型CasX和引导，CasX变体119和sgRNA 174的基因组编辑活性的结果的图。

图58为出示如实例24中所述的用于比较四种CasX变体(119、438、488和491)和优化sgNA 174和两种不同间隔子的编辑活性的更严格慢病毒分析中的基因组编辑的结果的图。结果出示通过引入至起始点119变体中的额外修饰和域交换实现的编辑效率的逐步改良。

图59A-图59B出示如实例25中所述的sgRNA的库的NGS分析的结果。图59A出示取代、缺失和插入的分布。图59B为出示在未分选、未处理细胞群体中的CRISPRi分析之后，两个独立库池中的变体表示的高再现性的散布图。(库池D3相对于D2为dCasX蛋白的两种不同型式，且表示CRISPRi分析的复本)。

图60A-图60B出示野生型CasX和RNA引导(SEQ ID NO:4)的结构。图60A描绘δ变形菌纲CasX蛋白:sgRNA RNP复合物(PDB标识：6YN2)的CryoEM结构，包括两个茎环、一个假结和一个三螺旋体。图60B描绘使用工具RNAPDBee 2.0(rnapdbee.cs.put.poznan.pl/，使用工具3DNA/DSSR，和使用VARNA可视化工具)自(A)中所示的结构鉴别的sgRNA的二级结构。RNA区域经指示。在PDB晶体结构档案中不明显的残基通过纯文本字母(即，未圈出)指示，且不包括于残基编号中。

图61A-图61C描绘两个引导RNA支架之间的比较。图61A提供单一引导支架1(SEQID NO:4)与支架2(SEQ ID NO:5)之间的序列比对。图61B出示支架1的预测二级结构(无5'ACAUCU碱基，其不在cryoEM结构中)。使用RNAfold(v 2.1.7)，使用衍生自cryoEM结构中观察的碱基配对的限制进行预测(参见图60A-图60B)。此限制需要形成cryoEM结构中观察的碱基对，且需要涉及三螺旋体形成的碱基不配对。此结构具有来自5'端处的最低能量预测结构(即，假结和三螺旋环)的独特碱基配对。图61C出示支架2的预测二级结构。使用基于序列比对的类似限制对于支架1进行预测。

图62出示比较使用四种利用不同PAM序列的不同间隔子，在GFP-脂质体转染分析中支架1相对于支架2的GFP敲落能力的图示，如实例25中所述。结果出示相比于野生型支架1，通过使用经修饰支架2赋予较大编辑；野生型支架1未出示通过使用GTC和CTC PAM序列的间隔子编辑。

图63A-图63C出示描绘跨越支架的单一变体的富集的图，展现可突变区域，如实例25中所述。图63A描绘取代的碱基(A、T、G或C；顶部至底部)，图63B描绘插入的碱基(A、T、G或C；顶部至底部)，且图63C描绘跨越支架2在个别核苷酸位置(X轴)处的缺失。相对于平均WT值，跨越三种死亡CasX型式对富集值求平均值。将相对log2富集>0的支架视为‘富集’，因为相比于表示的野生型支架，其在分选群体相对于未处理群体中更多地表示。误差条表示跨越三个催化死亡CasX实验的信赖区间。

图64为出示跨越在很大程度上一致的不同dCasX变体获得的富集值的散布图，如实例25中所述。库D2和DDD具有高度相关的富集评分，而D3更独特。

图65出示若干支架变体在更严格脂质体转染分析中，于SOD1-GFP基因座处的裂解活性的条形图，如实例25中所述。

图66出示使用两种不同间隔子的若干支架变体的裂解活性的条形图；间隔子为靶向SOD1-GFP基因座的8.2和8.4(和非靶向间隔子NT)，使用p34质粒主链具有低MOI慢病毒转导，如实例25中所述。

图67为出示单一引导174的二级结构(顶部)和线性结构(底部)的示意图，其中线连接通过碱基配对或其它非共价相互作用结合的那些区段。支架茎(白色，无填充)(和环)和延伸茎(灰色，无填充)(和环)在序列中自5'至3'邻近。然而，假结和延伸由在序列中具有中间区域的股形成。在单一引导174的情况下形成三螺旋体，其包含形成碱基配对双螺旋的核苷酸5'-CUUUG'-3'和5'-CAAAG-3'，和与5'-AAA-3'结合形成三螺旋区的核苷酸5'-UUU-3'。

图68出示充当实例25中所述的DME程序的起点的高度进化单引导174与支架1和2之间的比较。图68A出示在HEK-GFP细胞中的GFP基因座处于质粒脂质体转染分析中头对头比较具有五种不同间隔子的引导支架的裂解活性的裂解活性条形图。图68B出示支架2与引导174之间的序列比对(SEQ ID NO:2238)。星号指示点突变，且虚线框出示整个延伸茎交换。

图69A-69B出示支架序列相对于具有2个间隔子(4.76(图69A)和4.77(图69B))的WT支架的HEK-iGFP裂解分析的散布图，如实例25中所述。

图70出示比较相对于具有2个间隔子(4.76和4.77)的WT，若干支架的标准化裂解活性的散布图，如实例25中所述。误差条组合内部测量误差(SD)和实验间测量误差(对于测试超过一次的那些变体，SD跨越重复实验)(正交)。

图71出示比较HEK-iGFP裂解分析中多个支架相对于WT的标准化裂解活性与获自CRISPRi全面筛选的富集的散布图，如实例25中所述。一般来说，具有高富集(>1.5)的支架突变具有与WT类似或比其更大的活性。两个变体具有高裂解活性与低富集评分(C18G和T17G)；有趣的是，这些取代在与若干个高度富集插入相同的位置处(图63A-图63C)。标记指示对比较子组的突变。

图72出示对于CasX变异构建体438、499和491，在转染后14天于APRE19 RHO-GFP细胞中的RHO基因座处的Cas介导的编辑的流式细胞测量术分析的结果，如实例26中所述。点为个别样品的结果且浅虚线为上四分位数和下四分位数。

图73出示由sgRNA174和CasX变体形成的RNP对具有不同PAM的目标的裂解速率的定量。目标DNA与20倍过量的指定RNP一起培育，且在指定时间点测定裂解目标的量。出示合并复本的单相拟合。

具体实施方式

虽然本文中已显示和描述示例性实施例，但本领域技术人员将显而易知此类实施例仅作为实例提供。在不背离本文所主张的本发明的情况下，本领域技术人员现将想到许多变化、改变和替代。应理解，本文所述的实施例的各种替代例可用于实践本发明的实施例。预期权利要求书界定本发明的范围，且因此涵盖这些权利要求书和其等效物的范围内的方法和结构。

定义

除非另外定义，否则本文中所用的所有技术和科学术语均具有与本发明所属领域的普通技术人员通常所理解相同的含义。尽管与本文所述的方法和材料类似或等效的方法和材料可用于实践或测试本发明实施例，但下文描述适合的方法和材料。在冲突的情况下，将以专利说明书(包括定义)为准。另外，所述材料、方法和实例仅为说明性的且不意图为限制性的。在不脱离本发明的情况下，本领域技术人员现将想到诸多变化、改变和取代。

术语“聚核苷酸”和“核酸”在本文中可互换使用，是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此，术语“聚核苷酸”和“核酸”涵盖单股DNA；双股DNA；多股DNA；单股RNA；双股RNA；多股RNA；基因组DNA；cDNA；DNA-RNA杂合体；和包含嘌呤和嘧啶碱基或其它天然、经化学或生物化学修饰、非天然或衍生化核苷酸碱基的聚合物。

“可杂交”或“互补”可互换使用，意指核酸(例如RNA、DNA)包含使其能够在温度和溶液离子强度的适当体外和/或体内条件下以序列特异性、反向平行方式(即，核酸特异性结合于互补核酸)与另一核酸非共价结合(即形成沃森-克里克(Watson-Crick)碱基对和/或G/U碱基对)、“粘接”或“杂交”的核苷酸序列。应理解，聚核苷酸的序列不必与待特异性杂交的目标核酸100％互补；其可具有至少约70％、至少约80％、或至少约90％、或至少约95％序列一致性且仍与目标核酸杂交。此外，聚核苷酸可在一个或多个区段上杂交以使得中间或邻近区段不参与杂交事件(例如环结构或发夹结构、‘凸起’、‘气泡’等)。

出于本发明的目的，“基因”包括编码基因产物(例如蛋白质、RNA)的DNA区域以及调节基因产物生产的所有DNA区域，无论此类调节序列是否邻近于编码和/或经转录序列。因此，基因可包括调节序列，其包括但未必限于启动子序列、终止子、翻译调节序列(如核糖体结合位点和内部核糖体进入位点)、强化子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。编码序列在转录或转录和翻译后编码基因产物；本发明的编码序列可包含片段且不必含有全长开放阅读框架。基因可包括经转录的股，例如含有编码序列的股，以及互补股。

术语“下游”是指位于参考核苷酸序列的3'处的核苷酸序列。在某些实施例中，下游核苷酸序列与转录起始点之后的序列相关。举例来说，基因的翻译起始密码子位于转录起始位点下游。

术语“上游”是指位于参考核苷酸序列的5'处的核苷酸序列。在某些实施例中，上游核苷酸序列与位于编码区或转录起始点的5'侧上的序列相关。举例来说，大部分启动子位于转录起始位点上游。

术语“调节元件”在本文中可与术语“调节序列”互换使用，且意图包括启动子、强化子和其它表达调节元件(例如转录终止信号，如聚腺苷酸化信号和聚-U序列)。示例性调节元件包括转录启动子，如但不限于CMV、CMV+、内含子A、SV40、RSV、HIV-Ltr、延长因子1α(EF1α)、MMLV-ltr、内部核糖体进入位点(IRES)或P2A肽以准许自单一转录物、金属硫蛋白、转录强化子元件、转录终止信号、聚腺苷酸化序列、用于使翻译起始优化的序列和翻译终止序列翻译多个基因。应了解，适当调节元件的选择将取决于待表达的经编码组分(例如蛋白质或RNA)或核酸是否包含多个需要不同聚合酶或不意图表达为融合蛋白的组分。

术语“启动子”是指含有RNA聚合酶结合位点、转录起始位点、TATA盒和/或B识别元件且有助于或促进相关可转录聚核苷酸序列和/或基因(或转基因)的转录和表达的DNA序列。启动子可以合成方式产生或可衍生自已知或天然存在的启动子序列或另一启动子序列。启动子可在待转录的基因近端或远端。启动子还可包括嵌合启动子，其包含两种或更多种异源序列的组合以赋予某些特性。本发明的启动子可包括与本文已知或提供的其它启动子序列在组成上类似，但与其不相同的启动子序列的变体。启动子可根据与相关编码或可转录序列或基因的表达模式相关的标准分类，所述序列或基因可操作地连接于启动子，如组成性、发育性、组织特异性、诱导性启动子等。

术语“强化子”是指当与称为转录因子的特异性蛋白质结合时，调节相关基因的表达的调节元件DNA序列。强化子可位于基因的内含子中，或基因的编码序列的5'或3'处。强化子可在基因近端(即，在启动子的几十或数百个碱基对(bp)内)，或可位于基因远端(即，与启动子相距数千个bp、数十万个bp或甚至数百万个bp)。单一基因可通过超过一种强化子调节，其均被设想为在本发明的范围内。

如本文所用，“重组”意指特定核酸(DNA或RNA)为克隆、限制和/或连接步骤的各种组合的产物，产生具有与天然系统中发现的内源核酸可区分的结构性编码或非编码序列的构建体。一般来说，编码结构性编码序列的DNA序列可组装自cDNA片段和短寡核苷酸连接子，或组装自一系列合成寡核苷酸，以得到能够自细胞或游离转录和翻译系统中所含的重组转录单元表达的合成核酸。此类序列可以未经内部非翻译序列，或内含子(其通常存在于真核基因中)间断的开放阅读框架的形式提供。包含相关序列的基因组DNA还可用于形成重组基因或转录单元。非翻译DNA的序列可存在于开放阅读框架的5'或3'，其中此类序列不干扰编码区的操纵或表达，且可实际上用于通过各种机制调节所需产物的生产(参见上文的“强化子”和“启动子”)。

术语“重组聚核苷酸”或“重组核酸”是指不天然存在的聚核苷酸或核酸，例如经由人工干预由序列的两个另外分离区段的人工组合制得。此人工组合通常通过化学合成手段或通过人工操纵核酸的分离区段，如通过基因工程化技术来实现。可进行此类操作以用编码相同或保守氨基酸，同时通常引入或去除序列识别位点的冗余密码子来替换密码子。或者，进行其以将具有所需功能的核酸区段连接在一起以产生功能的所需组合。此人工组合通常通过化学合成手段或通过人工操纵核酸的分离区段，如通过基因工程化技术来实现。

类似地，术语“重组多肽”或“重组蛋白”是指并非天然存在的多肽或蛋白质，例如通过经由人工干预将氨基序列的两个另外分离的区段人工组合而制得。因此，例如包含异源氨基酸序列的蛋白质为重组的。

如本文所用，术语“接触”意指在两个或更多个实体之间建立物理连接。举例来说，使目标核酸与引导核酸接触意指使目标核酸和引导核酸共用物理连接；例如在序列共用序列类似性时可杂交。

“解离常数”或“K_d”可互换使用且意指配体“L”与蛋白质“P”之间的亲和力；即配体与特定蛋白质结合的紧密程度。其可使用式K_d＝[L][P]/[LP]计算，其中[P]、[L]和[LP]分别表示蛋白质、配体和复合物的摩尔浓度。

本发明提供适用于编辑目标核酸序列的组合物和方法。如本文所用，“编辑”可与“修饰”互换使用，且包括但不限于裂解、切割、缺失、敲入、敲除等。

如本文所用，“同源定向修复”(HDR)是指在修复细胞中的双股断裂期间发生的DNA修复形式。此方法需要核苷酸序列同源性，且使用供体模板来修复或敲除目标DNA，且使得遗传信息自供体(例如供体模板)转移至目标。如果供体模板不同于目标DNA序列且供体模板的一部分或所有序列在适当基因组基因座处并入至目标DNA中，则同源定向修复可通过插入、缺失或突变引起目标核酸序列的序列的改变。

如本文所用，“非同源末端连接”(NHEJ)是指通过断裂末端彼此直接连接而修复DNA中的双股断裂，而无需同源模板(相比于同源定向修复，其需要同源序列来引导修复)。NHEJ通常引起插入缺失；双股断裂位点附近核苷酸序列的损失(缺失)或插入。

如本文所用，“微同源性介导的末端连接”(MMEJ)是指诱变DSB修复机制，其始终与侧接断裂位点的缺失结合，而无需同源模板(相比于同源定向修复，其需要同源序列来引导修复)。MMEJ通常引起双股断裂位点附近核苷酸序列的损失(缺失)。

聚核苷酸或多肽(或蛋白质)与另一聚核苷酸或多肽具有某一百分比“序列类似性”或“序列一致性”意指当比对时，碱基或氨基酸的百分比相同，且当比较两个序列时在相同的相对位置。序列类似性(有时称为百分比类似性、百分比一致性或同源性)可以多种不同方式确定。为了确测序列类似性，序列可使用本领域中已知的方法和计算机程序比对，包括在全球信息网上于ncbi.nlm.nih.gov/BLAST可用的BLAST。核酸内的核酸序列的特定伸长部之间的百分比互补性可使用任何便利方法确定。实例性方法包括BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul等人,J.Mol.Biol.,1990,215,403-410；Zhang和Madden,Genome Res.,1997,7,649-656)或通过使用Gap程序(Wisconsin SequenceAnalysis Package,用于Unix的版本8,Genetics Computer Group,University ResearchPark,Madison Wis.)，例如使用默认设定，其使用史密斯和沃特曼算法(algorithm ofSmith and Waterman)(Adv.Appl.Math.,1981,2,482-489)。

术语“多肽”和“蛋白质”在本文中可互换使用，且是指任何长度的氨基酸的聚合形式，其可包括编码和非编码氨基酸、化学或生物化学修饰或衍生的氨基酸和具有经修饰肽主链的多肽。所述术语包括融合蛋白，包括但不限于具有异源氨基酸序列的融合蛋白。

“载体”或“表达载体”为复制子，如质粒、噬菌体、病毒或粘质粒，另一DNA区段(即“插入物”)可与其连接，以引起细胞中经连接区段的复制或表达。

应用于核酸、多肽、细胞或生物体的如本文所用的术语“天然存在的”或“未修饰”或“野生型”是指自然界中发现的核酸、多肽、细胞或生物体。

如本文所用，“突变”是指相比于野生型或参考氨基酸序列或野生型或参考核苷酸序列，一个或多个氨基酸或核苷酸的插入、缺失、取代、复制或反转。

如本文所用，术语“经分离”意图描述处于与聚核苷酸、多肽或细胞天然存在的环境不同的环境中的聚核苷酸、多肽或细胞。经分离的遗传修饰宿主细胞可存在于遗传修饰宿主细胞的混合群体中。

如本文所用，“宿主细胞”指示真核细胞、原核细胞或来自以单细胞实体形式培养的多细胞生物体(例如细胞系)的细胞，所述细胞用作核酸的受体(例如表达载体)，且包括已通过核酸遗传修饰的原始细胞的后代。应理解，单一细胞的后代可归因于天然、偶发或故意突变而不一定与原始亲本细胞具有完全相同的形态或基因组或总DNA补体。“重组宿主细胞”(也称为“遗传修饰宿主细胞”)为其中已引入异源核酸，例如表达载体的宿主细胞。

术语“保守氨基酸取代”是指具有类似侧链的氨基酸残基的蛋白质中的互换性。举例来说，具有脂族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成；具有脂族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成；具有芳族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成；具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成；且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代组为：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。

如本文所用，“治疗(treatment)”或“治疗(treating)”在本文中可互换使用，且是指获得有益或所需结果，包括但不限于治疗益处和/或预防益处的方法。治疗效益意指根除或改善所治疗的潜在病症或疾病。治疗益处还可通过与潜在病症相关的一种或多种症状的根除或改善或一种或多种临床参数的改良，使得在个体中观察到改良来实现，尽管如此，个体仍可能罹患潜在病症。

如本文所用，术语“治疗有效量”和“治疗有效剂量”是指当以一个或重复剂量向个体施用时，能够对疾病病状或病况的任何症状、方面、测量参数或特征具有任何可检测的有益效应的组合物、载体细胞等的量。此类效应不必绝对有益。此类效应可为短暂的。

如本文所用，“施用”意指给与个体一个剂量的本发明组合物的方法。

如本文所用，“个体”为哺乳动物。哺乳动物包括但不限于驯养动物、灵长类动物、非人类灵长类动物、人类、犬、猪类动物(猪)、兔、小鼠、大鼠和其它啮齿动物。

本说明书中所提及的所有公开案、专利和专利申请均以引用的方式并入本文中，其引用的程度如各个别公开案、专利或专利申请经特定和个别地指示以引用的方式并入一般。

I.通用方法

除非另外规定，否则本发明的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术，其可见于如以下的标准教科书：《分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)》,第3版(Sambrook等人,Harbor Laboratory Press 2001)；《分子生物学简短协议(Short Protocols inMolecular Biology)》,第4版(Ausubel等人编,John Wiley&Sons 1999)；《蛋白质方法(Protein Methods)》(Bollag等人,John Wiley&Sons 1996)；《用于基因疗法的非病毒载体(Nonviral Vectors for Gene Therapy)》(Wagner等人编,Academic Press 1999)；《病毒载体(Viral Vectors)》(Kaplift和Loewy编,Academic Press 1995)；《免疫学方法手册(Immunology Methods Manual)》(I.Lefkovits编,Academic Press 1997)；和《细胞和组织培养：生物技术实验室程序(Cell and Tissue Culture:Laboratory Procedures inBiotechnology)》(Doyle和Griffiths,John Wiley&Sons 1998)，所述文献的公开内容以引用的方式并入本文中。

当提供值范围时，应理解除非上下文另外明确指出，否则包括端点且在所述范围的上限与下限之间的各个中间值(至下限的单位的十分之一)和在所述规定范围内的任何其它指定值或中间值均被涵盖。这些较小范围的上限和下限可独立地包括于较小范围中，并且也被涵盖，在所述范围内受到任何特定排他性限制。当所述范围包括界限中的一或两者时，也包括排除那些所包括的界限的任一者或两者的范围。

除非另外规定，否则本文中所用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解相同的含义。本文中所提及的所有公开案以引用的方式并入本文中以结合所述公开案所列举的方法和/或材料来公开且描述。

必须注意，除非上下文另有明确规定，否则如在本文中和所附权利要求书中所使用，单数形式“一(a/an)”和“所述”包括复数个指示物。

应了解，出于明晰的目的而在独立实施例的背景下描述的本发明的某些特征还可以组合形式提供于单一实施例中。在其它情况下，为简洁起见而在单一实施例的背景下描述的本发明的各种特征还可分别或以任何适合的子组合提供。关于本发明的实施例的所有组合意图由本发明特定涵盖且在本文中公开，如同单独且明确地公开每一组合一般。另外，各种实施例和其要素的所有子组合也由本发明特定涵盖且在本文中公开，如同单独且明确地在本文中公开每一此类子组合一般。

II.CasX:gNA系统

在第一方面中，本发明提供CasX:gNA系统，其包含CasX蛋白和一种或多种引导核酸(gNA)，用于修饰或编辑目标核酸，包括编码和非编码区。术语CasX蛋白和CasX在本文中可互换使用；术语CasX变异蛋白和CasX变体在本文中可互换使用。本文提供的CasX:gNA系统的CasX蛋白和gNA各独立地可为参考CasX蛋白、CasX变异蛋白、参考gNA、gNA变体或参考CasX蛋白、参考gNA、CasX变异蛋白或gNA变体的任何组合。gNA和CasX蛋白、gNA变体和CasX变体或其任何组合可形成复合物且经由非共价相互作用结合，在本文中称为核糖核蛋白(RNP)复合物。在一些实施例中，使用预复合CasX:gNA在将系统组分递送至细胞或目标核酸以编辑目标核酸中赋予优势。在RNP中，gNA可通过包括具有与目标核酸的序列互补的核苷酸序列的间隔序列(靶向序列)而提供针对RNP复合物的标靶特异性。在RNP中，预复合CasX:gNA的CasX蛋白提供位点特异性活性，且通过其与gNA的关联被导引至待修饰的目标核酸序列内的目标位点(且在目标位点处进一步稳定化)。RNP复合物的CasX蛋白提供复合物的位点特异性活性，如通过CasX蛋白结合、裂解或切割目标序列。本文提供包含参考CasX蛋白、CasX变异蛋白、参考gNA、gNA变体、和CasX和gNA的任何组合的CasX:gNA基因编辑对的组合物和细胞，以及包含CasX:gNA的递送模态。在其它实施例中，本发明提供编码或包含CasX:gNA对，和任选的供体模板的载体，用于生产和/或递送CasX:gNA系统。本文还提供制造CasX蛋白和gNA的方法，以及使用CasX和gNA的方法，包括基因编辑方法和治疗方法。CasX:gNA的CasX蛋白和gNA组分和其特征，以及递送模态和使用组合物的方法更充分描述于下文。

CasX:gNA系统的供体模板取决于以下各者而设计：其是否用于校正目标基因中的突变或在基因组中的不同基因座处插入转基因(“基因敲入”)，或用于破坏异常基因产物的表达；例如其包含一个或多个降低基因产物的表达或使蛋白质功能异常的突变(“基因敲落”或“基因敲除”)。在一些实施例中，供体模板为单股DNA模板或单股RNA模板。在其它实施例中，供体模板为双股DNA模板。在一些实施例中，目标核酸的编辑中所用的CasX:gNA系统包含供体模板，其具有目标核酸中的基因的开放阅读框架的全部或至少一部分，用于插入校正性、野生型序列以矫正缺陷蛋白。在其它情况下，供体模板包含野生型基因的全部或一部分，用于在基因组中的不同基因座处插入，以表达基因产物。在其它情况下，基因的一部分可在目标核酸中的突变上游('5)插入，其中所述供体模板基因部分跨越至基因的C端，在其插入至目标核酸中时引起基因产物的表达。在其它实施例中，相比于用于插入以敲除或敲落(更充分描述于下文)缺陷性目标核酸序列的目标基因的正常、野生型序列，供体模板可包含编码序列中的一个或多个突变。在其它实施例中，供体模板可包含调节元件、内含子或内含子-外显子接合区，其具有经特定设计以敲落或敲除缺陷性基因，或在替代方案中，敲入校正性序列以准许功能性基因产物的表达的序列。在一些实施例中，供体聚核苷酸包含至少约10、至少约20、至少约50、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000、至少约10,000、至少约15,000、至少约25,000、至少约50,000、至少约100,000或至少约200,000个核苷酸。其限制条件为存在DNA序列的伸长部，其具有足够数目的具有足够同源性的核苷酸，所述核苷酸侧接CasX:gNA所靶向的目标核酸序列的裂解位点(即，在裂解位点的5'和3')以支持同源定向修复(侧接区域为“同源臂”)，使用此类供体模板可使其通过HDR整合至目标核酸中。在其它情况下，供体模板可通过非同源末端连接(NHEJ；其不需要同源臂)或通过微同源性介导的末端连接(MMEJ；其需要5'和3'端上的短同源区)插入。在一些实施例中，供体模板包含5'和3'端上的同源臂，其各自具有至少约2、至少约10、至少约20、至少约30、至少约50、至少约100、至少约150、至少约300、至少约1000、至少约1500个或更多个与侧接目标核酸的预期裂解位点的序列具有同源性的核苷酸。在一些实施例中，CasX:gNA系统利用两个或更多个具有与目标核酸的重叠或不同区域互补的靶向序列的gNA，使得缺陷性序列可通过多个双股断裂或通过在侧接缺陷性序列的位置切割而切除，且通过HDR插入供体模板以替换切除的序列。在前文中，gNA将经设计以含有在待切除的个别位点或序列的5'和3'的靶向序列。通过gNA的靶向序列的此类适当选择，可使用本文所述的CasX:gNA系统来编辑目标核酸的界定区域。

III.CasX:gNA系统的引导核酸

在其它方面中，本发明提供用于CasX:gNA系统中，且可用于编辑目标核酸的引导核酸(gNA)。本发明提供经专门设计的gNA，其具有与目标核酸互补(且因此能够与其杂交)的靶向序列(或“间隔子”)作为基因编辑CasX:gNA系统的组分。预想的是在一些实施例中，多个gNA(例如多个gRNA)由CasX:gNA系统递送，以修饰基因的不同区域，包括调节元件、外显子、内含子或内含子-外显子接合区。在一些实施例中，gNA的靶向序列与包含目标核酸的一个或多个单核苷酸多形现象(SNP)的序列互补。在其它实施例中，gNA的靶向序列与基因间区域的序列互补。举例来说，当需要使蛋白质编码基因缺失时，可使用具有针对目标核酸序列的不同或重叠区域的靶向序列的一对gNA，以便在基因内的两个不同位点处结合和裂解，所述基因可接着通过插入缺失形成或同源定向修复(HDR)编辑，在HDR的情况下，其利用插入以替换缺失序列的供体模板来完成编辑。

a.参考gNA和gNA变体

在一些实施例中，本发明的gNA包含天然存在的gNA(“参考gNA”)的序列。在其它情况下，本发明的参考gNA可经受一种或多种诱变方法，如本文所述的诱变方法，其可包括深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、盒诱变、随机诱变、交错延伸PCR、基因改组或域交换，以便产生一个或多个具有相对于参考gNA增强或改变的特性的gNA变体。gNA变体还包括包含一个或多个外源序列，例如与5'或3'端融合，或插入内部的变体。参考gNA的活性可用作与gNA变体的活性进行比较的基准，由此测量gNA变体的功能或其它特性的改良。在其它实施例中，参考gNA可经受一个或多个有意的靶向突变以产生gNA变体，例如经合理设计的变体。如本文所用，术语gNA、gRNA和gDNA涵盖天然存在的分子(参考分子)，以及序列变体。

在一些实施例中，gNA为脱氧核糖核酸分子(“gDNA”)；在一些实施例中，gNA为核糖核酸分子(“gRNA”)，且在其它实施例中，gNA为嵌合体，且包含DNA和RNA两者。

本发明的gNA包含两个区段；靶向序列和蛋白结合区段(其构成本文所论述的支架)。gNA的靶向区段包括核苷酸序列(在本文中可互换地称为引导序列、间隔子、靶向序列或靶向区)，其与目标核酸序列(例如目标ssRNA、目标ssDNA、双股目标DNA的互补股等)内的特测序列(目标位点)互补(且因此与其杂交)，在下文更充分描述。

gNA的靶向序列能够结合至目标核酸序列，包括编码序列、编码序列的互补序列、非编码序列，且结合至调节元件。蛋白结合区段(或“蛋白结合序列”)与CasX蛋白相互作用(例如与其结合)。蛋白结合区段在本文中替代地称为“支架”。在一些实施例中，靶向序列和支架各包括核苷酸的互补伸长部，其彼此杂交以形成双股双螺旋(例如用于gRNA的dsRNA双螺旋)。目标核酸序列(例如基因组DNA)通过CasX:gNA的位点特异性结合和/或裂解可发生于目标核酸的一个或多个位置，通过gNA的靶向序列与目标核酸序列之间的碱基配对互补性测定。

gNA通过具有与目标核酸的目标序列互补的核苷酸序列而提供针对复合物的目标特异性。复合物的CasX提供复合物的位点特异性活性，如通过CasX核酸酶结合、裂解或切割目标核酸的目标序列，和/或在含CasX的融合蛋白的情况下，由融合搭配物提供的活性(下文所述)。在一些实施例中，本发明提供本文所述的任一实施例的CasX和gNA的基因编辑对，其能够在其用于基因编辑之前结合在一起且因此“预复合”为RNP。使用预复合RNP在将系统组分递送至细胞或目标核酸序列以编辑目标核酸序列中赋予优势。RNP的CasX蛋白提供位点特异性活性，通过其与包含靶向序列的向导RNA的关联被导引至目标核酸序列内的目标位点(例如在目标位点处稳定化)。

在一些实施例中，其中所述gNA为gRNA，术语“靶向子”或“靶向子RNA”在本文中用于指CasX双引导RNA(dgRNA)的crRNA样分子(crRNA：“CRISPR RNA”)。在单引导RNA(sgRNA)中，“活化子”和“靶向子”连接在一起，例如通过中间核苷酸)。因此，举例来说，引导RNA(dgRNA或sgRNA)包含引导序列和crRNA的双螺旋形成区段，其也可称为crRNA重复序列。由于引导序列的靶向子序列与特定目标核酸序列杂交，靶向子可由使用者修饰以与所需目标核酸序列杂交。在一些实施例中，靶向子的序列可通常为非天然存在的序列。靶向子和活化子各具有双螺旋形成区段，其中靶向子的双螺旋形成区段和活化子的双螺旋形成区段彼此具有互补性且彼此杂交以形成双股双螺旋(用于gRNA的dsRNA双螺旋)。在一些实施例中，靶向子包含CasX引导RNA的引导序列和形成gNA的蛋白结合区段的dsRNA双螺旋的二分之一的一段核苷酸。对应tracrRNA样分子(活化子“反式作用CRISPR RNA”)还包含核苷酸的双螺旋形成段，其形成CasX引导RNA的蛋白结合区段的dsRNA双螺旋的另一半。在一些情况下，活化子包含一个或多个可与CasX蛋白相互作用的茎环。因此，呈对应对形式的靶向子和活化子杂交以形成CasX双引导NA，在本文中称为“双引导NA”、“dgNA”、“双分子引导NA”或“二分子引导NA”。

在一些实施例中，参考gNA的活化子和靶向子彼此共价连接且包含单分子，在本文中称为“单分子引导NA”、“一分子引导NA”、“单引导NA”、“单引导RNA”、“单分子引导RNA”、“一分子引导RNA”、“单引导DNA”、“单分子DNA”或“一分子引导DNA”(“sgNA”、“sgRNA”或“sgDNA”)。在一些实施例中，sgNA包括“活化子”或“靶向子”且因此可分别为“活化子-RNA”和“靶向子-RNA”。

本发明的参考gRNA包含四个独特区域或域：RNA三螺旋体、支架茎、延伸茎和靶向序列(对目标核酸具有特异性。RNA三螺旋体、支架茎和延伸茎在一起被称为参考gNA的“支架”，基于其产生另外的gNA变体。

b.RNA三螺旋体

在本文提供的引导NA的一些实施例中，gNA包含RNA三螺旋体，且RNA三螺旋体包含UUU--N_X(～4-15)--UUU茎环(SEQ ID NO:241)的序列，其在2个中间茎环(支架茎环和延伸茎环)之后以AAAG结束，形成还可延伸穿过三螺旋体进入双螺旋假结中的假结。三螺旋体的UU-UUU-AAA序列形成为靶向序列、支架茎与延伸茎之间的连接。在示例性gRNA中，UUU-环-UUU区域首先经编码，接着为支架茎环，且接着为延伸茎环，其由四环连接，且接着封闭AAAG三螺旋体，随后变为靶向序列。

c.支架茎环

在本发明的gNA的一些实施例中，三螺旋区之后为支架茎环。支架茎环为与CasX蛋白(如参考或CasX变异蛋白)结合的gNA区域。在一些实施例中，支架茎环为相当短且稳定的茎环，且增加gNA的总体稳定性。在一些情况下，支架茎环不耐受许多变化，且需要一些形式的RNA气泡。在一些实施例中，支架茎为gNA功能所需。尽管gNA的支架茎可能与Cas9的连接茎类似地作为重要茎环，但在一些实施例中，其具有与CRISPR/Cas系统中发现的许多其它茎环不同的所需凸起(RNA气泡)。在一些实施例中，此凸起的存在跨越与不同CasX蛋白相互作用的gNA保守。gNA的支架茎环序列的示例性序列包含序列CCAGCGACUAUGUCGUAUGG(SEQID NO:242)。在其它实施例中，本发明提供gNA变体，其中支架茎环经来自具有近端5'和3'端的异源性RNA源的RNA茎环序列，如但不限于选自MS2、Qβ、U1发夹II、Uvsx或PP7茎环的茎环序列置换。在一些情况下，gNA的异源性RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。

d.延伸茎环

在本发明的gNA的一些实施例中，支架茎环之后为延伸茎环。在一些实施例中，延伸茎包含很大程度上未经CasX蛋白结合的合成tracr和crRNA融合物。在一些实施例中，延伸茎环可为高度展性的。在一些实施例中，通过延伸茎环中tracr与crRNA之间的GAAA四环连接子或GAGAAA连接子制得单引导gRNA。在一些情况下，sgNA的靶向子和活化子通过中间核苷酸彼此连接，且连接子的长度可为3至20个核苷酸。在本发明的sgNA的一些实施例中，延伸茎为位于核糖核蛋白复合物中的CasX蛋白外部的大型32-bp环。sgNA的延伸茎环序列的示例性序列包含序列GCGCUUAUUUAUCGGAGAGAAAUCCGAUAAAU AAGAAGC(SEQ ID NO:15)。在一些实施例中，延伸茎环包含GAGAAA间隔序列。在一些实施例中，本发明提供gNA变体，其中延伸茎环经来自具有近端5'和3'端的异源性RNA源的RNA茎环序列，如但不限于选自MS2、Qβ、U1发夹II、Uvsx或PP7茎环的茎环序列置换。在此类状况下，异源性RNA茎环增加gNA的稳定性。在其它实施例中，本发明提供具有包含至少10、至少100、至少500、至少1000或至少10,000个核苷酸的延伸茎环区的gNA变体。

e.靶向序列

在本发明的gNA的一些实施例中，延伸茎环之后为形成三螺旋体的部分的区域，且接着为靶向序列(或“间隔子”)。靶向序列可经设计以将CasX核糖核蛋白整体复合物靶向至目标核酸序列的特定区域。因此，当PAM序列TTC、ATC、GTC或CTC中的任一个位于与目标序列互补的非目标股序列的5'为1个核苷酸时，本发明的gNA的gNA靶向序列与真核细胞中的核酸中的一部分目标核酸(例如真核染色体、染色体序列、真核RNA等)具有序列互补性，且因此可与其杂交，作为RNP的组分。

在一些实施例中，本发明提供gNA，其中出于用本发明的CasX:gNA系统编辑包含突变的序列的目的，gNA的靶向序列与相比于野生型基因序列包含一个或多个突变的目标核酸序列互补。在一些实施例中，gNA的靶向序列经设计以对目标核酸的基因的外显子具有特异性。在其它实施例中，gNA的靶向序列经设计以对目标核酸的基因的内含子具有特异性。在其它实施例中，gNA的靶向序列经设计以对目标核酸的基因的内含子-外显子接合区具有特异性。在其它实施例中，gNA的靶向序列经设计以对目标核酸的基因的调节元件具有特异性。在一些实施例中，gNA的靶向序列经设计以与目标核酸的基因中包含一个或多个单核苷酸多形现象(SNP)的序列互补。在编码序列内或在非编码序列内的SNP皆在本发明的范围内。在其它实施例中，gNA的靶向序列经设计以与目标核酸的基因的基因间区域的序列互补。

在一些实施例中，gNA的靶向序列经设计以对调节目标核酸的基因产物表达的调节元件具有特异性。此类调节元件包括但不限于启动子区、强化子区、基因间区、5'非翻译区(5'UTR)、3'非翻译区(3'UTR)、保守元件和包含顺式调节元件的区域。启动子区意图涵盖编码序列的起始点的5kb内的核苷酸，或在基因强化子元件或保守元件的情况下，可与目标核酸的基因的编码序列相距数千bp、数十万bp或甚至数百万bp。在前述内容的一些实施例中，标靶为其中标靶的编码基因意图被敲除或敲落，以使得包含突变的所编码蛋白质不表达于细胞中或在细胞中的表达量较低的那些。

在一些实施例中，gNA的靶向序列具有14至35个连续核苷酸。在一些实施例中，靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个连续核苷酸。在一些实施例中，gNA的靶向序列由20个连续核苷酸组成。在一些实施例中，靶向序列由19个连续核苷酸组成。在一些实施例中，靶向序列由18个连续核苷酸组成。在一些实施例中，靶向序列由17个连续核苷酸组成。在一些实施例中，靶向序列由16个连续核苷酸组成。在一些实施例中，靶向序列由15个连续核苷酸组成。在一些实施例中，靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个连续核苷酸，且靶向序列可包含0至5、0至4、0至3或0至2个相对于目标核酸序列的失配且保留足够结合特异性，以使得含有包含靶向序列的gNA的RNP可与目标核酸形成互补键。

在一些实施例中，CasX:gNA系统包含第一gNA且进一步包含第二(和任选的第三、第四、第五或更大)gNA，其中第二gNA或额外gNA具有与目标核酸序列的相比于第一gNA的靶向序列不同或重叠的部分互补的靶向序列，以使得目标核酸中的多个点经靶向，且例如通过CasX在目标核酸中引入多个断裂。应了解，在此类状况下，第二或额外gNA与CasX蛋白的额外复本复合。通过选择gNA的靶向序列，携有突变的目标核酸序列的界定区域可使用本文所述的CasX:gNA系统进行修饰或编辑，包括促进供体模板插入。

f.gNA支架

除了靶向序列区域之外，gNA的其余区域在本文中被称为支架。在一些实施例中，gNA支架衍生自天然存在的序列，在下文描述为参考gNA。在其它实施例中，gNA支架为参考gNA的变体，其中引入突变、插入、缺失或域取代以赋予gNA所需特性。

在一些实施例中，参考gRNA包含分离或衍生自δ变形菌纲(Deltaproteobacteria)的序列。在一些实施例中，序列为CasX tracrRNA序列。分离或衍生自δ变形菌纲的示例性CasX参考tracrRNA序列可包括：ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:6)和ACAUCUGGCGCGUUUAUUCCAUUACUUUGGAGCCAGUCCCAGCGACUAUGUCGUAUGGACGAAGCGCUUAUUUAUCGG(SEQ ID NO:7)。分离或衍生自δ变形菌纲的示例性crRNA序列可包含序列CCGAUAAGUAAAACGCAUCAAAG(SEQ ID NO:243)。在一些实施例中，参考gNA包含与分离或衍生自δ变形菌纲的序列至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列。

在一些实施例中，参考引导RNA包含分离或衍生自浮霉菌门(Planctomycetes)的序列。在一些实施例中，序列为CasX tracrRNA序列。分离或衍生自浮霉菌门的示例性参考tracrRNA序列可包括：UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGGAGA(SEQ ID NO:8)和UACUGGCGCUUUUAUCUCAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAUGGGUAAAGCGCUUAUUUAUCGG(SEQ ID NO:9)。分离或衍生自浮霉菌门的示例性crRNA序列可包含序列UCUCCGAUAAAUAAGAAGCAUCAAAG(SEQ ID NO:244)。在一些实施例中，参考gNA包含与分离或衍生自浮霉菌门的序列至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列。

在一些实施例中，参考gNA包含分离或衍生自宋氏细菌暂定种(CandidatusSungbacteria)的序列。在一些实施例中，序列为CasX tracrRNA序列。分离或衍生自宋氏细菌暂定种的示例性CasX参考tracrRNA序列可包含以下序列：GUUUACACACUCCCUCUCAUAGGGU(SEQ ID NO:10)、GUUUACACACUCCCUCUCAUGAGGU(SEQ ID NO:11)、UUUUACAUACCCCCUCUCAUGGGAU(SEQ ID NO:12)和GUUUACACACUCCCUCUCAUGGGGG(SEQ ID NO:13)。在一些实施例中，参考引导RNA包含与分离或衍生自宋氏细菌暂定种的序列至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列。

表1提供参考gRNA tracr、cr和支架序列的序列。在一些实施例中，本发明提供gNA序列，其中gNA具有支架，其包含相对于具有表1的SEQ ID NO:4-16中的任一个的序列的参考gNA序列具有至少一个核苷酸修饰的序列。应了解，在那些实施例中，其中载体包含用于gNA的DNA编码序列，或其中gNA为gDNA或RNA和DNA的嵌合体，胸腺嘧啶(T)碱基可取代本文所述的gNA序列实施例中的任一个的尿嘧啶(U)碱基。

表1.参考gRNA tracr、cr和支架序列

g.gNA变体

在另一方面中，本发明涉及引导核酸变体(替代地，在本文中称为“gNA变体”或“gRNA变体”，其包含相对于参考gRNA支架的一个或多个修饰。如本文所用，“支架”是指除间隔序列之外的gNA功能所需的gNA的所有部分。

在一些实施例中，gNA变体包含相对于本发明的参考gRNA序列的一个或多个核苷酸取代、插入、缺失或交换或替换区域。在一些实施例中，突变可发生于参考gRNA支架的任何区域中以产生gNA变体。在一些实施例中，gNA变异序列的支架与SEQ ID NO:4或SEQ IDNO:5的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、或至少70％、至少80％、至少85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、或至少约99％一致性。

在一些实施例中，gNA变体包含参考gRNA支架的一个或多个区域内的一个或多个核苷酸变化，其改良参考gRNA的特性。示例性区域包括RNA三螺旋体、假结、支架茎环和延伸茎环。在一些情况下，变异支架茎进一步包含气泡。在其它情况下，变异支架进一步包含三螺旋环区。在其它情况下，变异支架进一步包含5'非结构化区。在一些实施例中，gNA变异支架包含与SEQ ID NO:14具有至少60％序列一致性、至少70％序列一致性、至少80％序列一致性、至少90％序列一致性、至少95％序列一致性或至少99％序列一致性的支架茎环。在一些实施例中，gNA变异支架包含与SEQ ID NO:14具有至少60％序列一致性的支架茎环。在其它实施例中，gNA变体包含具有序列CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:245)的支架茎环。在其它实施例中，本发明提供相对于SEQ ID NO:5包含C18G取代、G55插入、U1缺失和经修饰的延伸茎环的gNA支架，其中原始6nt环和13个在环最近端的碱基对(总共32个核苷酸)经Uvsx发夹(4nt环和5个环近端碱基对；总共14个核苷酸)置换，且延伸茎的环远端碱基通过A99的缺失和G65U的取代而转化为与新Uvsx发夹邻接的完全碱基配对茎。在前述实施例中，gNA支架包含序列ACUGGCGCUUUUAUCUGAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAGUGGGUAAAGCUCCCUCUUCGGAGGGAGCAUCAAAG(SEQ ID NO:2238)。

当将变异gNA与本文所述的参考gRNA相比时，具有一个或多个改良特征，或添加一种或多种新功能的所有gNA变体均被设想为在本发明的范围内。此类gNA变体的代表性实例为引导174(SEQ ID NO:2238)，其设计描述于实例中。在一些实施例中，gNA变体向包含gNA变体的RNP添加新功能。在一些实施例中，gNA变体具有选自以下的改良特征：改良的稳定性；改良的溶解度；改良的gNA转录；改良的核酸酶活性抗性；增加的gNA折叠速率；折叠期间减少的副产物形成；增加的生产性折叠；改良的与CasX蛋白的结合亲和力；当与CasX蛋白复合时，改良的与目标DNA的结合亲和力；当与CasX蛋白复合时，改良的基因编辑；当与CasX蛋白复合时改良的编辑特异性；和当与CasX蛋白复合时，改良的在目标DNA的编辑中利用较大范围的一种或多种PAM序列，包括ATC、CTC、GTC或TTC的能力，和其任何组合。在一些情况下，gNA变体的改良特征中的一个或多个为相对于SEQ ID NO:4SEQ ID NO:5的参考gNA改良至少约1.1至约100,000倍。在其它情况下gNA变体的一种或多种改良特征为相对于SEQ IDNO:4或SEQ ID NO:5的参考gNA的至少约1.1、至少约10、至少约100、至少约1000、至少约10,000、至少约100,000倍或更大改良。在其它情况下，gNA变体的改良特征中的一个或多个为相对于SEQ ID NO:4或SEQ ID NO:5的参考gNA的约1.1至100,00倍、约1.1至10,00倍、约1.1至1,000倍、约1.1至500倍、约1.1至100倍、约1.1至50倍、约1.1至20倍、约10至100,00倍、约10至10,00倍、约10至1,000倍、约10至500倍、约10至100倍、约10至50倍、约10至20倍、约2至70倍、约2至50倍、约2至30倍、约2至20倍、约2至10倍、约5至50倍、约5至30倍、约5至10倍、约100至100,00倍、约100至10,00倍、约100至1,000倍、约100至500倍、约500至100,00倍、约500至10,00倍、约500至1,000倍、约500至750倍、约1,000至100,00倍、约10,000至100,00倍、约20至500倍、约20至250倍、约20至200倍、约20至100倍、约20至50倍、约50至10,000倍、约50至1,000倍、约50至500倍、约50至200倍或约50至100倍改良。在其它情况下，gNA变体的一种或多种改良特征为相对于SEQ ID NO:4或SEQ ID NO:5的参考gNA的约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍改良。

在一些实施例中，可如下地产生gNA变体：通过使参考gNA经受一种或多种诱变方法，如下文所述的诱变方法，其可包括深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、盒诱变、随机诱变、交错延伸PCR、基因改组或域交换，以便产生本发明的gNA变体。参考gNA的活性可用作与gNA变体的活性进行比较的基准，由此测量gNA变体的功能的改良。在其它实施例中，参考gNA可经受一个或多个有意的靶向突变、取代或域交换以产生gNA变体，例如经合理设计的变体。由此类方法产生的示例性gNA变体描述于实例中，且gNA支架的代表性序列呈现于表2中。

在一些实施例中，gNA变体包含相比于参考引导核酸支架序列的一个或多个修饰，其中所述一个或多个修饰选自：参考gNA区域中的至少一个核苷酸取代参考gNA区域中的至少一个核苷酸缺失；参考gNA区域中的至少一个核苷酸插入；参考gNA区域的全部或一部分的取代；参考gNA区域的全部或一部分的缺失；或前述的任何组合。在一些情况下，修饰为在一个或多个区域中取代参考gNA中的1至15个连续或非连续核苷酸。在其它情况下，修饰为在一个或多个区域中使参考gNA中的1至10个连续或非连续核苷酸缺失。在其它情况下，修饰为一个或多个区域中将1至10个连续或非连续核苷酸插入参考gNA中。在其它情况下，修饰为通过来自具有近端5'和3'端的异源性RNA源的RNA茎环序列取代支架茎环或延伸茎环。在一些情况下，相对于参考gRNA，本发明的gNA变体在一个区域中包含两个或更多个修饰。在其它情况下，本发明的gNA变体在两个或更多个区域中包含修饰。在其它情况下，gNA变体包含此段中所述的前述修饰的任何组合。在一些实施例中，本发明的gNA的示例性修饰包括表24的修饰。

在一些实施例中，相对于参考gRNA，将5'G添加至gNA变异序列以用于体内表达，因为当+1核苷酸为G时，自U6启动子的转录对于起始位点更高效且更一致。在其它实施例中，添加两个5'G以产生gNA变异序列用于体外转录以提高生产效率，因为T7聚合酶强烈偏好+1位置中的G和+2位置中的嘌呤。在一些情况下，将5'G碱基添加至表1的参考支架。在其它情况下，将5'G碱基添加至表2的变异支架。

表2提供本发明的示例性gNA变异支架序列。在表2中，(-)指示在相对于SEQ IDNO:5的参考序列的指定位置处的缺失，(+)指示在相对于SEQ ID NO:5所指示位置处插入指定碱基，(：)指示相对于SEQ ID NO:5的缺失或取代的指定起始:终止座标处的碱基范围，且多个插入、缺失或取代通过逗号分离；例如A14C,T17G。在一些实施例中，gNA变异支架包含表2中所列的序列SEQ ID NO:2101-2280中的任一个，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％序列一致性的序列。应了解，在那些实施例中，其中载体包含用于gNA的编码DNA序列，或其中gNA为gDNA或RNA和DNA的嵌合体，胸腺嘧啶(T)碱基可取代本文所述的gNA序列实施例中的任一个的尿嘧啶(U)碱基。

表2.示例性gNA变异支架序列

在一些实施例中，gNA变体含有包含序列-UUU-N4-25-UUU-(SEQ ID NO:240)的tracrRNA茎环。举例来说，gNA变体包含支架茎环或其替代物，经两个促进三螺旋区的三联体U基序侧接。在一些实施例中，支架茎环或其替代物包含至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸或至少25个核苷酸。

在一些实施例中，gNA变体包含在间隔区的5'的位置具有-AAAG-的crRNA序列。在一些实施例中，-AAAG-序列紧靠间隔区的5'。

在一些实施例中，对参考gNA的至少一个核苷酸修饰以产生gNA变体包含CasX变异gNA中相对于参考gRNA的至少一个核苷酸缺失。在一些实施例中，gNA变体包含相对于参考gNA缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续或非连续核苷酸。在一些实施例中，至少一个缺失包含相对于参考gNA缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个连续核苷酸。在一些实施例中，gNA变体包含相对于参考gNA的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个核苷酸缺失，且所述缺失不在连续核苷酸中。在其中gNA变体中存在两个或更多个相对于参考gRNA的非连续缺失的那些实施例中，如本文所述的任何缺失长度和缺失长度的任何组合涵盖于本发明的范围内。举例来说，在一些实施例中，gNA变体可包含一个核苷酸的第一缺失，和两个核苷酸的第二缺失，且所述两个缺失不连续。在一些实施例中，gNA变体包含参考gRNA的不同区域中的至少两个缺失。在一些实施例中，gNA变体包含参考gRNA的相同区域中的至少两个缺失。举例来说，所述区域可为gNA变体的延伸茎环、支架茎环、支架茎气泡、三螺旋环、假结、三螺旋体或5'端。参考gRNA中任何核苷酸的缺失涵盖于本发明的范围内。

在一些实施例中，参考gRNA的至少一个核苷酸修饰以产生gNA变体包含至少一个核苷酸插入。在一些实施例中，gNA变体包含相对于参考gRNA插入1、2、3、4、5、6、7、8、9或10个连续或非连续核苷酸。在一些实施例中，至少一个核苷酸插入包含相对于参考gRNA插入1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个连续核苷酸。在一些实施例中，gNA变体包含相对于参考gRNA的2个或更多个插入，且所述插入不连续。在其中gNA变体中存在两个或更多个相对于参考gRNA的非连续插入的那些实施例中，如本文所述的任何插入长度和插入长度的任何组合涵盖于本发明的范围内。举例来说，在一些实施例中，gNA变体可包含一个核苷酸的第一插入，和两个核苷酸的第二插入，且所述两个插入不连续。在一些实施例中，gNA变体包含参考gRNA的不同区域中的至少两个插入。在一些实施例中，gNA变体包含参考gRNA的相同区域中的至少两个插入。举例来说，所述区域可为gNA变体的延伸茎环、支架茎环、支架茎气泡、三螺旋环、假结、三螺旋体或5'端。在参考gRNA中的任何位置插入任何A、G、C、U(或T，于对应DNA中)或其组合涵盖于本发明的范围内。

在一些实施例中，参考gRNA的至少一个核苷酸修饰以产生gNA变体包含至少一个核酸取代。在一些实施例中，相对于参考gRNA，gNA变体包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个连续或非连续经取代核苷酸。在一些实施例中，相对于参考gRNA，gNA变体包含1-4个核苷酸取代。在一些实施例中，至少一个取代包含相对于参考gRNA取代1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个连续核苷酸。在一些实施例中，gNA变体包含相对于参考gRNA的2个或更多个取代，且所述取代不连续。在其中gNA变体中存在两个或更多个相对于参考gRNA的非连续取代的那些实施例中，如本文所述的任何经取代核苷酸长度和经取代核苷酸长度的任何组合涵盖于本发明的范围内。举例来说，在一些实施例中，gNA变体可包含一个核苷酸的第一取代，和两个核苷酸的第二取代，且所述两个取代不连续。在一些实施例中，gNA变体包含参考gRNA的不同区域中的至少两个取代。在一些实施例中，gNA变体包含参考gRNA的相同区域中的至少两个取代。举例来说，所述区域可为gNA变体的三螺旋体、延伸茎环、支架茎环、支架茎气泡、三螺旋环、假结、三螺旋体或5'端。在参考gRNA中的任何位置取代任何A、G、C、U(或T，于对应DNA中)或其组合涵盖于本发明的范围内。

本文所述的取代、插入和缺失中的任一个可经合并以产生本发明的gNA变体。举例来说，gNA变体可包含相对于参考gRNA的至少一个取代和至少一个缺失、相对于参考gRNA的至少一个取代和至少一个插入、相对于参考gRNA的至少一个插入和至少一个缺失或相对于参考gRNA的至少一个取代、一个插入和一个缺失。

在一些实施例中，gNA变体包含与SEQ ID NO:4-16中的任一个至少20％一致、至少30％一致、至少40％一致、至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少85％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致或至少99％一致的支架区。在一些实施例中，gNA变体包含与SEQ ID NO:4-16中的任一个至少60％同源(或一致)的支架区。

在一些实施例中，gNA变体包含与SEQ ID NO:14至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少85％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致或至少99％一致的tracr茎环。在一些实施例中，gNA变体包含与SEQ IDNO:14至少60％同源(或一致)的tracr茎环。

在一些实施例中，gNA变体包含与SEQ ID NO:15至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少85％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致或至少99％一致的延伸茎环。在一些实施例中，gNA变体包含与SEQ IDNO:15至少60％同源(或一致)的延伸茎环。

在一些实施例中，gNA变体包含SEQ ID NO:412-3295中任一个的序列。在一些实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列。在一些实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列。

在一些实施例中，gNA变体包含外源延伸茎环，其中与参考gNA的此类差异描述如下。在一些实施例中，外源延伸茎环与本文公开的参考茎环区(例如SEQ ID NO:15)具有极小一致性或无一致性。在一些实施例中，外源茎环为至少10bp、至少20bp、至少30bp、至少40bp、至少50bp、至少60bp、至少70bp、至少80bp、至少90bp、至少100bp、至少200bp、至少300bp、至少400bp、至少500bp、至少600bp、至少700bp、至少800bp、至少900bp、至少1,000bp、至少2,000bp、至少3,000bp、至少4,000bp、至少5,000bp、至少6,000bp、至少7,000bp、至少8,000bp、至少9,000bp、至少10,000bp、至少12,000bp、至少15,000bp或至少20,000bp。在一些实施例中，gNA变体含有包含至少10、至少100、至少500、至少1000或至少10,000个核苷酸的延伸茎环区。在一些实施例中，异源性茎环增加gNA的稳定性。在一些实施例中，异源性RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。在一些实施例中，外源茎环区包含RNA茎环或发夹，例如热稳定RNA，如MS2(ACAUGAGGAUUACCCAUGU；SEQ ID NO:4278),Qβ(UGCAUGUCUAAGACAGCA；SEQ ID NO:4279)、U1发夹II(AAUCCAUUGCACUCCGGAUU；SEQID NO:4280)、Uvsx(CCUCUUCGGAGG；SEQ ID NO:4281)、PP7(AGGAGUUUCUAUGGAAACCCU；SEQID NO:4282)、噬菌体复制环(AGGUGGGACGACCUCUCGGUCGUCCUAUCU；SEQ ID NO:4283)、吻合环_a(UGCUCGCUCCGUUCGAGCA；SEQ ID NO:4284)、吻合环_b1(UGCUCGACGCGUCCUCGAGCA；SEQID NO:4285)、吻合环_b2(UGCUCGUUUGCGGCUACGAGCA；SEQ ID NO:4286)、G四螺旋体M3q(AGGGAGGGAGGGAGAGG；SEQ ID NO:4287)、G四螺旋体端粒篮(GGUUAGGGUUAGGGUUAGG；SEQ IDNO:4288)、帚曲菌素-蓖麻毒素环(CUGCUCAGUACGAGAGGAACCGCAG；SEQ ID NO:4289)或假结(UACACUGGGAUCGCUGAAUUAGAGAUCGGCGUCCUUUCAUUCUAUAUACUUUGGAGUUUUAAAAUGUCUCUAAGUACA；SEQ ID NO:4290)。在一些实施例中，外源茎环包含RNA支架。如本文所用，“RNA支架”是指能够与一种或多种蛋白质相互作用且组织或定位一种或多种蛋白质的多维RNA结构。在一些实施例中，RNA支架为合成或非天然存在的。在一些实施例中，外源茎环包含长非编码RNA(lncRNA)。如本文所用，lncRNA是指长度长于大约200bp的非编码RNA。在一些实施例中，外源茎环的5'和3'端碱基配对，即相互作用以形成双螺旋RNA区域。在一些实施例中，外源茎环的5'和3'端碱基配对，且外源茎环的5'与3'端之间的一个或多个区域不碱基配对。在一些实施例中，至少一个核苷酸修饰包含：(a)在一个或多个区域中取代gNA变体的1至15个连续或非连续核苷酸；(b)在一个或多个区域中缺失gNA变体的1至10个连续或非连续核苷酸；(c)在一个或多个区域中插入gNA变体的1至10个连续或非连续核苷酸；(d)经来自具有近端5'和3'端的异源性RNA源的RNA茎环序列取代支架茎环或延伸茎环；或(a)-(d)的任何组合。

在一些实施例中，gNA变体包含SEQ ID NO:412-3295中的任一个的序列或子序列和外源茎环的序列。在一些实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列或子序列和外源茎环的序列。在一些实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列或子序列和外源茎环的序列。

在一些实施例中，gNA变体包含与SEQ ID NO:14具有至少60％一致性的支架茎环。在一些实施例中，gNA变体包含与SEQ ID NO:14具有至少60％一致性、至少70％一致性、至少80％一致性、至少90％一致性、至少95％一致性、至少98％一致性或至少99％一致性的支架茎环。在一些实施例中，gNA变体含有包含SEQ ID NO:14的支架茎环。

在一些实施例中，gNA变体包含CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:245)的支架茎环序列。在一些实施例中，gNA变体包含与其具有至少1、2、3、4或5个失配的CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:245)的支架茎环序列。

在一些实施例中，gNA变体含有包含小于32个核苷酸、小于31个核苷酸、小于30个核苷酸、小于29个核苷酸、小于28个核苷酸、小于27个核苷酸、小于26个核苷酸、小于25个核苷酸、小于24个核苷酸、小于23个核苷酸、小于22个核苷酸、小于21个核苷酸或小于20个核苷酸的延伸茎环区。在一些实施例中，gNA变体含有包含小于32个核苷酸的延伸茎环区。在一些实施例中，gNA变体进一步包含热稳定茎环。

在一些实施例中，sgRNA变体包含SEQ ID NO:2104、2106、SEQ ID NO:2163、SEQ IDNO:2107、SEQ ID NO:2164、SEQ ID NO:2165、SEQ ID NO:2166、SEQ ID NO:2103、SEQ IDNO:2167、SEQ ID NO:2105、SEQ ID NO:2108、SEQ ID NO:2112、SEQ ID NO:2160、SEQ IDNO:2170、SEQ ID NO:2114、SEQ ID NO:2171、SEQ ID NO:2112、SEQ ID NO:2173、SEQ IDNO:2102、SEQ ID NO:2174、SEQ ID NO:2175、SEQ ID NO:2109、SEQ ID NO:2176、SEQ IDNO:2238、SEQ ID NO:2239、SEQ ID NO:2240或SEQ ID NO:2241的序列。

在一些实施例中，gNA变体包含对SEQ ID NO:2201-2280中的任一个的序列的一个或多个额外改变。在一些实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个，或与其具有至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％一致性的序列。在一些实施例中，gNA变体包含对SEQ ID NO:2201-2280中的任一个的序列的一个或多个额外改变。在一些实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列。

在一些实施例中，sgRNA变体包含对SEQ ID NO:2104、SEQ ID NO:2163、SEQ IDNO:2107、SEQ ID NO:2164、SEQ ID NO:2165、SEQ ID NO:2166、SEQ ID NO:2103、SEQ IDNO:2167、SEQ ID NO:2105、SEQ ID NO:2108、SEQ ID NO:2112、SEQ ID NO:2160、SEQ IDNO:2170、SEQ ID NO:2114、SEQ ID NO:2171、SEQ ID NO:2112、SEQ ID NO:2173、SEQ IDNO:2102、SEQ ID NO:2174、SEQ ID NO:2175、SEQ ID NO:2109、SEQ ID NO:2176、SEQ IDNO:2238、SEQ ID NO:2239、SEQ ID NO:2240或SEQ ID NO:2241的序列的一个或多个额外改变。

在本发明的gNA变体的一些实施例中，gNA变体包含至少一个修饰，其中相比于SEQID NO:5的参考引导支架的至少一个修饰选自以下中的一个或多个：(a)三螺旋环中的C18G取代；(b)茎气泡中的G55插入；(c)U1缺失；(d)延伸茎环的修饰，其中(i)6nt环和13个环近端碱基对经Uvsx发夹置换；且(ii)A99的缺失和G65U的取代产生经完全碱基配对的环远端碱基。在此类实施例中，gNA变体包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列。

在一些实施例中，gNA变体的支架包含表2的SEQ ID NO:2201-2280中的任一个的序列。在一些实施例中，gNA的支架由SEQ ID NO:2201-2280中的任一个的序列组成或基本上由其组成。在一些实施例中，gNA变异序列的支架与SEQ ID NO:2201至2280中的任一个至少约60％一致、至少约65％一致、至少约70％一致、至少约75％一致、至少约80％一致、至少约85％一致、至少约90％一致、至少约91％一致、至少约92％一致、至少约93％一致、至少约94％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致或至少约99％一致。

在一些实施例中，gNA变体进一步包含更充分描述于前文的间隔子(或靶向序列)区，其包含至少14至约35个核苷酸，其中间隔子设计成具有与目标DNA互补的序列。在一些实施例中，gNA变体包含与目标DNA互补的至少10至30个核苷酸的靶向序列。在一些实施例中，靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸。在一些实施例中，gNA变体包含具有20个核苷酸的靶向序列。在一些实施例中，靶向序列具有25个核苷酸。在一些实施例中，靶向序列具有24个核苷酸。在一些实施例中，靶向序列具有23个核苷酸。在一些实施例中，靶向序列具有22个核苷酸。在一些实施例中，靶向序列具有21个核苷酸。在一些实施例中，靶向序列具有20个核苷酸。在一些实施例中，靶向序列具有19个核苷酸。在一些实施例中，靶向序列具有18个核苷酸。在一些实施例中，靶向序列具有17个核苷酸。在一些实施例中，靶向序列具有16个核苷酸。在一些实施例中，靶向序列具有15个核苷酸。在一些实施例中，靶向序列具有14个核苷酸。

在一些实施例中，gNA变体的支架为包含对包含SEQ ID NO:4或SEQ ID NO:5的参考gRNA的序列的一个或多个额外改变的变体。在其中参考gRNA的支架衍生自SEQ ID NO:4或SEQ ID NO:5的那些实施例中，gNA变体的一个或多个改良或增加特征为相比于SEQ IDNO:4或SEQ ID NO:5中的相同特征的改良。

在一些实施例中，gNA变体的支架为RNP的一部分，其具有包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白。在其它实施例中，gNA变体的支架为RNP的一部分，其具有包含表3、8、9、10和12的序列中的任一个，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％一致性的序列的CasX变异蛋白。在前述实施例中，gNA进一步包含间隔序列。

h.经化学修饰的gNA

在一些实施例中，本发明提供经化学修饰的gNA。在一些实施例中，本发明提供经化学修饰的gNA，其具有引导NA功能且对通过核酸酶裂解的易感性降低。包含除四种典型核糖核苷酸A、C、G和U或脱氧核苷酸以外的任何核苷酸的gNA为经化学修饰的gNA。在一些情况下，经化学修饰的gNA包含除天然磷酸二酯核苷酸间键以外的任何主链或核苷酸间键。在某些实施例中，保留功能包括经修饰gNA结合至本文所描述的任一实施例的CasX的能力。在某些实施例中，保留功能包括经修饰gNA结合至目标核酸序列的能力。在某些实施例中，保留功能包括靶向CasX蛋白或预复合RNP结合至目标核酸序列的能力。在某些实施例中，保留功能包括通过CasX-gNA切割目标聚核苷酸的能力。在某些实施例中，保留功能包括通过CasX-gNA裂解目标核酸序列的能力。在某些实施例中，保留功能为gNA于具有本发明的实施例的CasX嵌合体蛋白的重组系统中的任何其它已知功能。

在一些实施例中，本发明提供经化学修饰的gNA，其中核苷酸糖修饰并入至选自由以下组成的组的gNA中：2'-O-C_1-4烷基(如2'-O-甲基(2'-OMe))、2'-脱氧基(2'-H)、2'-O-C_1-3烷基-O-C_1-3烷基(如2'-甲氧基乙基(“2'-MOE”))、2'-氟基(“2'-F”)、2'-氨基(“2'-NH₂”)、2'-阿拉伯糖基(“2'-阿糖”)核苷酸、2'-F-阿拉伯糖基(“2'-F-阿糖”)核苷酸、2'-锁定核酸(“LNA”)核苷酸、2'-解锁核酸(“ULNA”)核苷酸、L形式的糖(“L-糖”)和4'-硫代核糖基核苷酸。在其它实施例中，并入至引导RNA中的核苷酸间键修饰选自由以下组成的组：硫代磷酸酯“P(S)”(P(S))、膦酰基羧酸酯(P(CH₂)_nCOOR)(如膦酰基乙酸酯“PACE”(P(CH₂COO^-))、硫代膦酰基羧酸酯((S)P(CH₂)_nCOOR)(如硫代膦酰基乙酸酯“thioPACE”((S)P(CH₂)_nCOO^-))、膦酸烷基酯(P(C_1-3烷基)(如甲基膦酸酯-P(CH₃)、硼烷磷酸酯(P(BH₃))和二硫代磷酸酯(P(S)₂)。

在某些实施例中，本发明提供经化学修饰的gNA，其中核碱基(“碱基”)修饰并入至选自由以下组成的组的gNA中：2-硫尿嘧啶(“2-thioU”)、2-硫胞嘧啶(“2-thioC”)、4-硫尿嘧啶(“4-thioU”)、6-硫鸟嘌呤(“6-thioG”)、2-氨基腺嘌呤(“2-aminoA”)、2-氨基嘌呤、假尿嘧啶、次黄嘌呤、7-去氮鸟嘌呤、7-去氮-8-氮杂鸟嘌呤、7-去氮腺嘌呤、7-去氮-8-氮杂腺嘌呤、5-甲基胞嘧啶(“5-methylC”)、5-甲基尿嘧啶(“5-methylU”)、5-羟甲基胞嘧啶、5-羟甲基尿嘧啶、5,6-去氢尿嘧啶、5-丙炔基胞嘧啶、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶、5-乙炔基尿嘧啶、5-烯丙基尿嘧啶(“5-allylU”)、5-烯丙基胞嘧啶(“5-allylC”)、5-氨基烯丙基尿嘧啶(“5-aminoallylU”)、5-氨基烯丙基-胞嘧啶(“5-aminoallylC”)、无碱基核苷酸、Z碱基、P碱基、非结构化核酸(“UNA”)、异鸟嘌呤(“isoG”)、异胞嘧啶(“isoC”)、5-甲基-2-嘧啶、x(A、G、C、T)和y(A、G、C、T)。

在其它实施例中，本发明提供经化学修饰的gNA，其中在核苷酸糖、核碱基、磷酸二酯键和/或磷酸核苷酸，包括包含一个或多个¹⁵N、¹³C、¹⁴C、氘、³H、³²P、¹²⁵I、¹³¹I原子或其它用作示踪剂的原子或元素的核苷酸上引入一个或多个同位素修饰。

在一些实施例中，并入至gNA中的“末端”修饰选自由以下组成的组：PEG(聚乙二醇)；烃连接子(包括：杂原子(O、S、N)取代的烃间隔子；卤基取代的烃间隔子；含酮基、羧基、酰氨基、亚硫酰基、氨甲酰基、硫羰氨甲酰基的烃间隔子)；精胺连接子；连接至如6-荧光素-己基的连接子的染料，包括荧光染料(例如荧光素、罗丹明、花青)；淬灭剂(例如dabcyl，BHQ)和其它标记(例如生物素、地高辛、吖啶、链霉亲和素、亲和素、肽和/或蛋白质)。在一些实施例中，“末端”修饰包含将gNA结合(或连接)至包含脱氧核苷酸和/或核糖核苷酸的寡核苷酸的另一分子、肽、蛋白质、糖、寡糖、类固醇、脂质、叶酸、维生素和/或其它分子。在某些实施例中，本发明提供经化学修饰的gNA，其中“末端”修饰(上文所述)经由如2-(4-丁基酰氨基荧光素)丙烷-1,3-二醇双(磷酸二酯)连接子的连接子定位于gNA序列内部，所述连接子以磷酸二酯键形式并入且可并入gNA中的两个核苷酸之间的任何位置。

在一些实施例中，本发明提供具有末端修饰的经化学修饰的gNA，所述末端修饰包含末端官能团，如胺、硫醇(或巯基)、羟基、羧基、羰基、亚硫酰基、硫羰基、氨甲酰基、硫代氨甲酰基、磷酰基、烯烃、炔烃、卤素或官能团封端的连接子，其可随后结合至选自由以下组成的组的所需部分：荧光染料、非荧光标记、标签(例如¹⁴C、生物素、亲和素、链霉亲和素或含有同位素标记，如¹⁵N、¹³C、氘、³H、³²P、¹²⁵I等)的部分、寡核苷酸(包含脱氧核苷酸和/或核糖核苷酸，包括适体)、氨基酸、肽、蛋白质、糖、寡糖、类固醇、脂质、叶酸和维生素。结合采用本领域中熟知的标准化学方法，包括但不限于经由N-羟基琥珀酰亚胺、异硫氰酸酯、DCC(或DCI)偶合，和/或如“生物结合物技术(Bioconjugate Techniques)”,Greg T.Hermanson,Publisher Eslsevier Science,第3版(2013)中所述的任何其它标准方法，所述文献的内容以全文引用的方式并入本文中。

i.与CasX蛋白形成复合物

在一些实施例中，当相比于参考gRNA时，gNA变体具有改良的与CasX蛋白(如参考CasX或CasX变异蛋白)形成复合物的能力。在一些实施例中，当相比于参考gRNA时，gNA变体具有改良的针对CasX蛋白(如参考或变异蛋白)的亲和力，由此改良其与CasX蛋白形成核糖核蛋白(RNP)复合物的能力，如实例中所述。在一些实施例中，改良核糖核蛋白复合物形成可提高组装功能性RNP的效率。在一些实施例中，大于90％、大于93％、大于95％、大于96％、大于97％、大于98％或大于99％包含gNA变体和间隔子的RNP能胜任目标核酸的基因编辑。

在一些实施例中，可改良gNA变体与CasX蛋白形成复合物的能力的示例性核苷酸变化可包括以热稳定茎环替换支架茎。不希望受任何理论束缚，以热稳定茎环替换支架茎可增加gNA变体与CasX蛋白的总体结合稳定性。或者或另外，去除一大段茎环可改变gNA变体折叠动力学，且使得功能性折叠gNA更容易且更快速地结构组装，例如通过减轻gNA变体自身可变得“缠结”的程度。在一些实施例中，支架茎环序列的选择可随着用于gNA的不同间隔子而改变。在一些实施例中，支架序列可适于间隔子且因此适于目标序列。生物化学分析可用于评估CasX蛋白与gNA变体结合以形成RNP的结合亲和力，包括实例的分析。举例来说，普通技术人员可测量结合至固定CasX蛋白的荧光标记gNA的量的变化，作为对增加额外未标记的“冷竞争者”gNA的浓度的反应。或者或另外，可监测荧光信号或查看其如何变化，因为不同量的经荧光标记的gNA流经固定CasX蛋白。或者，可使用体外裂解分析相对于界定目标核酸序列评估形成RNP的能力。

j.gNA稳定性

在一些实施例中，当相比于参考gRNA时，gNA变体具有改良的稳定性。在一些实施例中，增加的稳定性和有效折叠可增加gNA变体持续存在于目标细胞内部的程度，其可由此提高形成能够执行CasX功能(如基因编辑)的功能性RNP的机率。在一些实施例中，增加的gNA变体稳定性还可允许在向细胞递送较低量gNA的情况下的类似结果，其可转而降低基因编辑期间的脱靶效应的机率。

在其它实施例中，本发明提供gNA，其中支架茎环和/或延伸茎环经发夹环或热稳定RNA茎环置换，其中所得gNA具有增加的稳定性，且取决于环的选择，可与某些细胞蛋白质或RNA相互作用。在一些实施例中，替换RNA环选自MS2、Qβ、U1发夹II、Uvsx、PP7、噬菌体复制环、吻合环_a、吻合环_b1、吻合环_b2、G四螺旋体M3q、G四螺旋体端粒篮、帚曲菌素-蓖麻毒素环和假结。包括此类组分的gNA变体的序列提供于表2中。

可以多种方式评估引导NA稳定性，包括例如在体外通过组装所述引导、在模拟细胞内环境的溶液中培育不同时段且接着经由本文所述的体外裂解分析来测量功能活性。或者或另外，gNA可在初始转染/转导gNA之后的不同时间点自细胞收获，以确定gNA变体相对于参考gRNA保持的时长。

k.溶解度

在一些实施例中，当相比于参考gRNA时，gNA变体具有改良的溶解度。在一些实施例中，当相比于参考gRNA时，gNA变体具有改良的CasX蛋白:gNA RNP溶解度。在一些实施例中，CasX蛋白:gNA RNP的溶解度通过将核糖核酸酶序列添加至gNA变体的5'或3'端，例如参考sgRNA的5'或3'来改良。一些核糖核酸酶，如M1核糖核酸酶可经由RNA介导的蛋白质折叠增加蛋白质的溶解度。

包含如本文所述的gNA变体的CasX RNP的增加的溶解度可经由本领域技术人员已知的多种方法评估，如通过在表达CasX和gNA变体的溶解大肠杆菌的可溶部分的凝胶上获取密度测定法读数。

l.核酸酶活性抗性

在一些实施例中，相比于参考gRNA，gNA变体具有改良的核酸酶活性抗性。不希望受任何理论束缚，对核酸酶，如细胞中发现的核酸酶增加的抗性可例如增加变异gNA于细胞内环境中的续存，由此改良基因编辑。

许多核酸酶为前进的，且以3'至5'方式降解RNA。因此，在一些实施例中，将核酸酶抵抗性二级结构添加至gNA的一个或两个末端，或改变sgNA的二级结构的核苷酸变化可产生具有增加的核酸酶活性抗性的gNA变体。核酸酶活性抗性可经由本领域技术人员已知的多种方法来评估。举例来说，测量核酸酶活性抗性的体外方法可包括例如使参考gNA与具有一种或多种示例性RNA核酸酶的变体接触和测量降解。或者或另外，使用本文所述的方法测量gNA变体于细胞环境中的续存可指示gNA变体的核酸酶抵抗性程度。

m.对目标DNA的结合亲和力

在一些实施例中，相对于参考gRNA，gNA变体具有改良的针对目标DNA的亲和力。在某些实施例中，相对于包含参考gRNA的RNP的亲和力，包含gNA变体的核糖核蛋白复合物具有改良的针对目标DNA的亲和力。在一些实施例中，RNP对目标DNA改良的亲和力包含对目标序列改良的亲和力、对PAM序列改良的亲和力、改良的RNP搜索用于目标序列的DNA的能力或其任何组合。在一些实施例中，针对目标DNA改良的亲和力为增加的总体DNA结合亲和力的结果。

不希望受理论所束缚，可能的是gNA变体中影响CasX蛋白中OBD的功能的核苷酸变化可增加CasX变异蛋白结合至前间隔子邻近基序(PAM)的亲和力，以及结合或利用除了由SEQ ID NO:2的参考CasX蛋白识别的典型TTC PAM以外增大范围的PAM序列(包括选自由TTC、ATC、GTC和CTC组成的组的PAM序列)，由此增加CasX变异蛋白针对目标DNA序列的亲和力和多样性，由此增加可编辑和/或结合的目标核酸序列(相比于参考CasX)的能力。如下文更充分地描述，相比于参考CasX，增加可编辑的目标核酸的序列是指PAM和前间隔子序列和其根据非目标股定向的方向性。此不意味着非目标股，而非目标股的PAM序列决定裂解或在机制上涉及目标识别。举例来说，当参考TTC PAM时，其可实际上为目标裂解所需的互补GAA序列，或其可为来自两个股的核苷酸的某一组合。在本文公开的CasX蛋白的情况下，PAM位于前间隔子的5'，其中至少单个核苷酸将PAM与前间隔子的第一核苷酸分离。或者或另外，影响增加CasX变异蛋白对目标DNA股的亲和力的螺旋形I和/或螺旋形II域的功能的gNA的变化可增加包含变异gNA的CasX RNP对目标DNA的亲和力。

n.添加或改变gNA功能

在一些实施例中，相对于参考gRNA，gNA变体可包含改变gNA变体的拓朴结构的较大结构变化，由此允许不同gNA功能。举例来说，在一些实施例中，gNA变体用先前鉴别的稳定RNA结构或茎环交换参考gRNA支架的内源茎环，所述RNA结构或茎环可与蛋白质或RNA结合搭配物相互作用以将额外部分募集至CasX至将CasX募集至特定位置，如具有与所述RNA结构的结合搭配物的病毒衣壳内部。在其它情境下，RNA可彼此补充(如在吻合环中)，使得两个CasX蛋白可共定位以在目标DNA序列处更有效地基因编辑。此类RNA结构可包括MS2、Qβ、U1发夹II、Uvsx、PP7、噬菌体复制环、吻合环_a、吻合环_b1、吻合环_b2、G四螺旋体M3q、G四螺旋体端粒篮、帚曲菌素-蓖麻毒素环或假结。

在一些实施例中，gNA变体包含末端融合搭配物。术语gNA变体包括含有外源序列(如末端融合物)或内部插入的变体。示例性末端融合物可包括gRNA与自裂解核糖核酸酶或蛋白质结合基序的融合物。如本文所用，“核糖核酸酶”是指具有一种或多种与蛋白质酶类似的催化活性的RNA或其区段。示例性核糖核酸酶催化活性可包括例如RNA的裂解和/或连接、DNA的裂解和/或连接或肽键形成。在一些实施例中，此类融合可改良支架折叠或募集DNA修复机构。举例来说，在一些实施例中，gRNA可与肝炎δ病毒(HDV)反基因组核糖核酸酶、HDV基因组核糖核酸酶、手斧核糖核酸酶(来自宏基因组数据)、env25手枪核糖核酸酶(代表物来自Aliistipes putredinis)、HH15最小锤头核糖核酸酶、烟草环斑病毒(TRSV)核糖核酸酶、WT病毒锤头核糖核酸酶(和合理变体)或扭曲姊妹1或RBMX募集基序融合。锤头核糖核酸酶(hammerhead ribozyme)为在RNA分子内的特定位点处催化可逆裂解和连接反应的RNA基序。锤头核糖核酸酶包括I型、II型和III型锤头核糖核酸酶。HDV、手枪(pistol)和手斧(hatchet)核糖核酸酶具有自裂解活性。包含一种或多种核糖核酸酶的gNA变体可允许相比于gRNA参考物扩展的gNA功能。举例来说，在一些实施例中，包含自裂解核糖核酸酶的gNA可转录和加工为成熟gNA，作为多顺反子转录物的一部分。此类融合物可出现于gNA的5'或3'端。在一些实施例中，gNA变体在5'和3'端处均包含融合物，其中各融合物独立地如本文所述。在一些实施例中，gNA变体包含噬菌体复制环或四环。在一些实施例中，gNA包含能够结合蛋白质的发夹环。举例来说，在一些实施例中，发夹环为MS2、Qβ、U1发夹II、Uvsx或PP7发夹环。

在一些实施例中，gNA变体包含一个或多个RNA适体。如本文所用，“RNA适体”是指以高亲和力和高特异性结合目标的RNA分子。

在一些实施例中，gNA变体包含一个或多个核糖开关。如本文所用，“核糖开关”是指在结合小分子时改变状态的RNA分子。

在一些实施例中，gNA变体进一步包含一个或多个蛋白质结合基序。在一些实施例中，将蛋白质结合基序添加至本发明的参考gRNA或gNA变体可允许CasX RNP与额外蛋白质缔合，其可例如将那些蛋白质的功能添加至CasX RNP。

IV.用于修饰目标核酸的CasX蛋白

如本文所用，术语“CasX蛋白”是指蛋白质家族，且涵盖所有天然存在的CasX蛋白、与天然存在的CasX蛋白具有至少50％一致性的蛋白质以及相对于天然存在的参考CasX蛋白具有一种或多种改良特征的CasX变体。CasX变体实施例的示例性改良特征包括但不限于改良的变体折叠、改良的对gNA的结合亲和力、改良的对目标核酸的结合亲和力、改良的利用较大范围的PAM序列编辑和/或结合目标DNA的能力、改良的目标DNA解旋、增加的编辑活性、改良的编辑效率、改良的编辑特异性、增加的可有效编辑的真核基因组的百分比、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合、改良的蛋白质稳定性、改良的蛋白质:gNA(RNP)复合物稳定性、改良的蛋白质溶解度、改良的蛋白质:gNA(RNP)复合物溶解度、改良的蛋白质产率、改良的蛋白质表达和改良的熔融特征，如下文更充分地描述。在前述实施例中，以类似方式分析时，CasX变体的改良特征中的一个或多个为当相对于SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白改良至少约1.1至约100,000倍。在其它实施例中，当以类似方式分析时，所述改良为相比于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白的至少约1.1倍、至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。

术语CasX变体包括为融合蛋白的变体，即CasX“融合至”异源序列。此包括包含CasX变体序列和CasX与异源蛋白或其域的N端、C端或内部融合物的CasX变体。

本发明的CasX蛋白包含以下域中的至少一者：非目标股结合(NTSB)域、目标股负载(TSL)域、螺旋形I域、螺旋形II域、寡核苷酸结合域(OBD)和RuvC DNA裂解域(其中的最后一者可在催化死亡CasX变体中经修饰或缺失)，更充分描述于下文。另外，本发明的CasX变异蛋白具有相比于野生型参考CasX蛋白增强的使用选自TTC、ATC、GTC或CTC的PAM序列有效编辑和/或结合目标DNA的能力。在前文中，相比于类似分析系统中包含参考CasX蛋白的RNP的编辑效率和/或结合，PAM序列位于分析系统中与gNA的靶向序列具有一致性的前间隔子的非目标股的5'为至少1个核苷酸。

在一些情况下，CasX蛋白为天然存在的蛋白(例如天然地存在于原核细胞中且自原核细胞分离)。在其它实施例中，CasX蛋白不为天然存在的蛋白(例如CasX蛋白为CasX变异蛋白、嵌合蛋白等)。天然存在的CasX蛋白(在本文中称为“参考CasX蛋白”)充当催化靶向双股DNA(dsDNA)中特测序列处的双股断裂的核酸内切酶。序列特异性由其所复合的相关gNA的靶向序列提供，所述靶向序列与目标核酸内的目标序列杂交。

在一些实施例中，CasX蛋白可结合和/或修饰(例如裂解、切割、甲基化、去甲基等)目标核酸和/或与目标核酸相关的多肽(例如组蛋白尾的甲基化或乙酰化)。在一些实施例中，CasX蛋白为催化死亡的(dCasX)，但保留结合目标核酸的能力。示例性催化死亡CasX蛋白包含CasX蛋白的RuvC域的活性位点中的一个或多个突变。在一些实施例中，催化死亡CasX蛋白包含SEQ ID NO:1的残基672、769和/或935处的取代。在一个实施例中，催化死亡CasX蛋白包含SEQ ID NO:1的参考CasX蛋白中的D672A、E769A和/或D935A取代。在其它实施例中，催化死亡CasX蛋白包含SEQ ID NO:2的参考CasX蛋白中氨基酸659、756和/或922处的取代。在一些实施例中，催化死亡CasX蛋白包含SEQ ID NO:2的参考CasX蛋白中的D659A、E756A和/或D922A取代。在其它实施例中，催化死亡CasX蛋白包含CasX蛋白的全部或一部分RuvC域的缺失。应了解，相同的前述取代可类似地引入至本发明的CasX变体中，产生dCasX变体。在一个实施例中，全部或一部分RuvC域自CasX变体缺失，产生dCasX变体。在一些实施例中，无催化活性的dCasX变异蛋白可用于碱基编辑或表观遗传修饰。在对于DNA的较高亲和力下，在一些实施例中，相对于催化活性CasX，无催化活性的dCasX变异蛋白可更快地发现其目标核酸、保持结合至目标核酸更长时段、以更稳定方式结合目标核酸或其组合，由此改良催化死亡CasX变异蛋白的功能。

a.非目标股结合域

本发明的参考CasX蛋白包含非目标股结合域(NTSBD)。NTSBD为先前未发现于任何Cas蛋白中的域；举例来说，此域不存在于Cas蛋白，如Cas9、Cas12a/Cpf1、Cas13、Cas14、CASCADE、CSM或CSY中。不受理论或机制束缚，CasX中的NTSBD允许结合至非目标DNA股且可帮助非目标和目标股的解旋。假定NTSBD负责非目标DNA股的解旋或呈解旋状态的非目标DNA股的捕捉。NTSBD与迄今为止派生的CryoEM模型结构中的非目标股直接接触，且可含有非典型锌指域。NTSBD还可在解旋、引导RNA侵入和R环形成期间于稳定DNA中起作用。在一些实施例中，示例性NTSBD包含SEQ ID NO:1的氨基酸101-191或SEQ ID NO:2的氨基酸103-192。在一些实施例中，参考CasX蛋白的NTSBD包含四股β折叠。

b.目标股负载域

本发明的参考CasX蛋白包含目标股负载(TSL)域。TSL域为某些Cas蛋白，如Cas9、CASCADE、CSM或CSY中未发现的域。不希望受理论或机制所束缚，认为TSL域负责辅助将目标DNA股负载至CasX蛋白的RuvC活性位点中。在一些实施例中，TSL用以置放或捕捉呈折叠状态的目标股，其将目标股DNA主链的易切断磷酸置于RuvC活性位点中。TSL包含通过大部分TSL分离的cys4(CXXC(SEQ ID NO:246，CXXC(SEQ ID NO:246)锌指/带域。在一些实施例中，示例性TSL包含SEQ ID NO:1的氨基酸825-934或SEQ ID NO:2的氨基酸813-921。

c.螺旋形I域

本发明的参考CasX蛋白包含螺旋形I域。除CasX以外的某些Cas蛋白具有可以类似方式命名的域。然而，在一些实施例中，相比于非CasX蛋白，CasX蛋白的螺旋形I域包含一个或多个独特结构特征，或包含独特序列，或其组合。举例来说，在一些实施例中，相比于可具有类似名称的其它Cas蛋白中的域，CasX蛋白的螺旋形I域包含一个或多个独特二级结构。举例来说，在一些实施例中，相比于其它CRISPR蛋白，CasX蛋白中的螺旋形I域包含布置、数目和长度独特的结构和序列的一个或多个α螺旋。在某些实施例中，螺旋形I域负责与引导RNA的结合DNA和间隔子相互作用。不希望受理论所束缚，认为在一些情况下，螺旋形I域可促进前间隔子邻近基序(PAM)的结合。在一些实施例中，示例性螺旋形I域包含SEQ ID NO:1的氨基酸57-100和192-332，或SEQ ID NO:2的氨基酸59-102和193-333。在一些实施例中，参考CasX蛋白的螺旋形I域包含一个或多个α螺旋。

d.螺旋形II域

本发明的参考CasX蛋白包含螺旋形II域。除CasX以外的某些Cas蛋白具有可以类似方式命名的域。然而，在一些实施例中，相比于可具有类似名称的其它Cas蛋白中的域，CasX蛋白的螺旋形II域包含一个或多个独特结构特征，或独特序列，或其组合。举例来说，在一些实施例中，螺旋形II域包含沿目标DNA:引导RNA通道对准的一个或多个独特结构性α螺旋束。在一些实施例中，在包含螺旋形II域的CasX中，目标股和引导RNA与螺旋形II(且在一些实施例中，螺旋形I域)相互作用，以允许RuvC域接近目标DNA。螺旋形II域负责结合至引导RNA支架茎环以及结合DNA。在一些实施例中，示例性螺旋形II域包含SEQ ID NO:1的氨基酸333-509，或SEQ ID NO:2的氨基酸334-501。

e.寡核苷酸结合域

本发明的参考CasX蛋白包含寡核苷酸结合域(OBD)。除CasX以外的某些Cas蛋白具有可以类似方式命名的域。然而，在一些实施例中，OBD包含一种或多种独特功能特征，或包含相对于CasX蛋白独特的序列，或其组合。举例来说，在一些实施例中，桥连螺旋(BH)、螺旋形I域、螺旋形II域和寡核苷酸结合域(OBD)在一起负责将CasX蛋白结合至引导RNA。因此，举例来说，在一些实施例中，OBD相对于CasX蛋白的独特的处在于其与螺旋形I域，或螺旋形II域或两者功能上相互作用，所述域各自可相对于如本文所述的CasX蛋白为独特的。确切地说，在CasX中，OBD很大程度上结合引导RNA支架的RNA三螺旋体。OBD还可负责结合至前间隔子邻近基序(PAM)。示例性OBD域包含SEQ ID NO:1的氨基酸1-56和510-660，或SEQ IDNO:2的氨基酸1-58和502-647。

f.RuvC DNA裂解域

本发明的参考CasX蛋白包含RuvC域，其包括2个部分RuvC域(RuvC-I和RuvC-II)。RuvC域为所有12型CRISPR蛋白的祖先域。RuvC域源自TNPB(转座酶B)样转座酶。与其它RuvC域类似，CasX RuvC域具有负责配位镁(Mg)离子和裂解DNA的DED催化三联体。在一些实施例中，RuvC具有负责裂解DNA的两个股(一个接一个地，最可能首先为靶向序列中11-14个核苷酸(nt)处的非目标股，且接着随后为目标序列之后2-4个核苷酸处的目标股)的DED基序活性位点。确切地说，在CasX中，RuvC域的独特的处在于其还负责结合对CasX功能重要的引导RNA支架茎环。示例性RuvC域包含SEQ ID NO:1的氨基酸661-824和935-986，或SEQ ID NO:2的氨基酸648-812和922-978。

g.参考CasX蛋白

本发明提供参考CasX蛋白。在一些实施例中，参考CasX蛋白为天然存在的蛋白。举例来说，参考CasX蛋白可自天然存在的原核生物，如δ变形菌纲、浮霉菌门或宋氏细菌暂定种物种分离。参考CasX蛋白(有时在本文中称为参考CasX多肽)为II型CRISPR/Cas核酸内切酶，其属于能够与引导NA相互作用以形成核糖核蛋白(RNP)复合物的蛋白质的CasX(有时称为Cas12e)家族。在一些实施例中，包含参考CasX蛋白的RNP复合物可经由gNA的靶向序列(或间隔子)与目标核酸中的目标序列之间的碱基配对靶向至目标核酸中的特定位点。在一些实施例中，包含参考CasX蛋白的RNP能够裂解目标DNA。在一些实施例中，包含参考CasX蛋白的RNP能够切割目标DNA。在一些实施例中，包含参考CasX蛋白的RNP能够编辑目标DNA，例如在如下那些实施例中，其中参考CasX蛋白能够裂解或切割DNA，接着为非同源末端连接(NHEJ)、同源定向修复(HDR)、同源独立性靶向整合(HITI)、微同源性介导的末端连接(MMEJ)、单股粘接(SSA)或碱基切除修复(BER)。在一些实施例中，包含CasX蛋白的RNP为催化死亡(无催化活性或基本上无裂解活性)CasX蛋白(dCasX)，但保留结合目标DNA的能力，更充分描述于前文。

在一些情况下，参考CasX蛋白分离或衍生自δ变形菌纲。在一些实施例中，CasX蛋白包含与以下序列至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列：

在一些情况下，参考CasX蛋白分离或衍生自浮霉菌门。在一些实施例中，CasX蛋白包含与以下序列至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列：

在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少60％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少80％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少90％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:2，或与其至少95％类似的序列。在一些实施例中，CasX蛋白由SEQ ID NO:2的序列组成。在一些实施例中，CasX蛋白包含相对于SEQ ID NO:2的序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个或至少50个突变的序列或由其组成。这些突变可为插入、缺失、氨基酸取代或其任何组合。

在一些情况下，参考CasX蛋白分离或衍生自宋氏细菌暂定种。在一些实施例中，CasX蛋白包含与以下序列至少50％一致、至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致或100％一致的序列：

在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少60％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少80％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少90％类似的序列。在一些实施例中，CasX蛋白包含SEQ ID NO:3，或与其至少95％类似的序列。在一些实施例中，CasX蛋白由SEQ ID NO:3的序列组成。在一些实施例中，CasX蛋白包含相对于SEQ ID NO:3的序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个或至少50个突变的序列或由其组成。这些突变可为插入、缺失、氨基酸取代或其任何组合。

h.CasX变异蛋白

本发明提供参考CasX蛋白(在本文中可互换地称为“CasX变体”或“CasX变异蛋白”)的变体，其中相对于参考CasX蛋白，CasX变体包含至少一个域中的至少一个修饰，包括但不限于SEQ ID NO:1-3的序列。在一些实施例中，相比于参考CasX蛋白，CasX变体展现至少一种改良特征。当相比于本文所述的参考CasX蛋白时改良CasX变异蛋白的一种或多种功能或特征的所有变体被设想为在本发明的范围内。在一些实施例中，修饰为参考CasX的一个或多个氨基酸中的突变。在其它实施例中，修饰为参考CasX的一个或多个域经来自不同CasX的一个或多个域取代。在一些实施例中，插入包括插入来自不同CasX蛋白的部分或所有域。突变可出现于参考CasX蛋白的任何一个或多个域中，且可包括例如一个或多个域的一部分或全部的缺失，或参考CasX蛋白的任何域中的一个或多个氨基酸取代、缺失或插入。CasX蛋白的域包括非目标股结合(NTSB)域、目标股负载(TSL)域、螺旋形I域、螺旋形II域、寡核苷酸结合域(OBD)和RuvC DNA裂解域。将引起CasX蛋白的特征改良的参考CasX蛋白的任何氨基酸序列变化视为本发明的CasX变异蛋白。举例来说，相对于参考CasX蛋白序列，CasX变体可包含一个或多个氨基酸取代、插入、缺失或交换域，或其任何组合。

在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少两个域中的每一者中的至少一个修饰，包括SEQ ID NO:1-3的序列。在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少2个域、至少3个域、至少4个域或至少5个域中的至少一个修饰。在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少一个域中的两个或更多个修饰。在一些实施例中，CasX变异蛋白包含参考CasX蛋白质的至少一个域中的至少两个修饰、参考CasX蛋白的至少一个域中的至少三个修饰或参考CasX蛋白的至少一个域中的至少四个修饰。在一些实施例中，其中CasX变体相比于参考CasX蛋白包含两个或更多个修饰，在独立地选自由以下组成的组的域中进行各修饰：NTSBD、TSLD、螺旋形I域、螺旋形II域、OBD和RuvC DNA裂解域。

在一些实施例中，CasX变异蛋白的至少一个修饰包含参考CasX蛋白的一个域的至少一部分的缺失。在一些实施例中，缺失在NTSBD、TSLD、螺旋形I域、螺旋形II域、OBD或RuvCDNA裂解域中。

适用于产生本发明的CasX变异蛋白的诱变方法可包括例如深度突变进化(DME)、深度突变扫描(DMS)、易错PCR、盒诱变、随机诱变、交错延伸PCR、基因改组或域交换。产生具有改良特征的CasX变体的示例性方法提供于以下实例中。在一些实施例中，CasX变体例如通过选择参考CasX中的一个或多个所需突变而设计。在某些实施例中，参考CasX蛋白的活性被用作比较一种或多种CasX变体的活性，由此测量CasX变体的功能改良的基准。CasX变体的示例性改良包括但不限于改良的变体折叠、改良的对gNA的结合亲和力、改良的对目标DNA的结合亲和力、改良的利用较大范围的PAM序列编辑和/或结合目标DNA的能力、改良的目标DNA解旋、增加的编辑活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合、改良的蛋白质稳定性、改良的CasX:gNA(RNP)复合物稳定性、改良的蛋白质溶解度、改良的CasX:gNA(RNP)复合物溶解度、改良的蛋白质产率、改良的蛋白质表达和改良的熔融特征，如下文更充分地描述。

在本文所述的CasX变体的一些实施例中，至少一个修饰包含：(a)CasX变体中1至100个连续或非连续氨基酸的取代；(b)CasX变体中1至100个连续或非连续氨基酸的缺失；(c)CasX中1至100个连续或非连续氨基酸的插入；或(d)(a)-(c)的任何组合。在一些实施例中，至少一个修饰包含：(a)CasX变体中5-10个连续或非连续氨基酸的取代；(b)CasX变体中1-5个连续或非连续氨基酸的缺失；(c)CasX中1-5个连续或非连续氨基酸的插入；或(d)(a)-(c)的任何组合。

在一些实施例中，CasX变异蛋白包含相对于SEQ ID NO:1、SEQ ID NO:2或SEQ IDNO:3的序列具有至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个或至少50个突变的序列或由其组成。这些突变可为插入、缺失、氨基酸取代或其任何组合。

在一些实施例中，CasX变异蛋白包含参考CasX蛋白的至少一个域中的至少一个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1-4个氨基酸取代、1-10个氨基酸取代、1-20个氨基酸取代、1-30个氨基酸取代、1-40个氨基酸取代、1-50个氨基酸取代、1-60个氨基酸取代、1-70个氨基酸取代、1-80个氨基酸取代、1-90个氨基酸取代、1-100个氨基酸取代、2-10个氨基酸取代、2-20个氨基酸取代、2-30个氨基酸取代、3-10个氨基酸取代、3-20个氨基酸取代、3-30个氨基酸取代、4-10个氨基酸取代、4-20个氨基酸取代、3-300个氨基酸取代、5-10个氨基酸取代、5-20个氨基酸取代、5-30个氨基酸取代、10-50个氨基酸取代或20-50个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少约100个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1、2、3、4、5、6、7、8、9或10个氨基酸取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含单一域中的1、2、3、4、5、6、7、8、9或10个氨基酸取代。在一些实施例中，氨基酸取代为保守取代。在其它实施例中，取代为非保守的；例如极性氨基酸取代非极性氨基酸，或反之亦然。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1个氨基酸取代、2-3个连续氨基酸取代、2-4个连续氨基酸取代、2-5个连续氨基酸取代、2-6个连续氨基酸取代、2-7个连续氨基酸取代、2-8个连续氨基酸取代、2-9个连续氨基酸取代、2-10个连续氨基酸取代、2-20个连续氨基酸取代、2-30个连续氨基酸取代、2-40个连续氨基酸取代、2-50个连续氨基酸取代、2-60个连续氨基酸取代、2-70个连续氨基酸取代、2-80个连续氨基酸取代、2-90个连续氨基酸取代、2-100个连续氨基酸取代、3-10个连续氨基酸取代、3-20个连续氨基酸取代、3-30个连续氨基酸取代、4-10个连续氨基酸取代、4-20个连续氨基酸取代、3-300个连续氨基酸取代、5-10个连续氨基酸取代、5-20个连续氨基酸取代、5-30个连续氨基酸取代、10-50个连续氨基酸取代或20-50个连续氨基酸取代。在一些实施例中，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续氨基酸取代。在一些实施例中，CasX变异蛋白包含至少约100个连续氨基酸的取代。如本文所用，“连续氨基酸”是指在多肽的一级序列中连续的氨基酸。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含两个或更多个取代，且所述两个或更多个取代不在参考CasX序列的连续氨基酸中。举例来说，第一取代可在参考CasX蛋白的第一域中，且第二取代可在参考CasX蛋白的第二域中。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个非连续取代。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少20个非连续取代。各非连续取代可具有本文所述的氨基酸的任何长度，例如1-4个氨基酸、1-10个氨基酸等。在一些实施例中，相对于参考CasX蛋白的两个或更多个取代不为相同长度，例如一个取代为一个氨基酸且第二取代为三个氨基酸。在一些实施例中，相对于参考CasX蛋白的两个或更多个取代为相同长度，例如两个取代为两个长度上连续的氨基酸。

任何氨基酸可在本文所述的取代中取代任何其它氨基酸。取代可为保守取代(例如碱性氨基酸取代另一碱性氨基酸)。取代可为非保守取代(例如碱性氨基酸取代酸性氨基酸，或反之亦然)。举例来说，参考CasX蛋白中的脯氨酸可取代以下中的任一个以产生本发明的CasX变异蛋白：精氨酸、组氨酸、赖氨酸、天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、甘氨酸、丙氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、色氨酸、酪氨酸或缬氨酸。

在一些实施例中，CasX变异蛋白包含相对于参考CasX蛋白的至少一个氨基酸缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1-4个氨基酸、1-10个氨基酸、1-20个氨基酸、1-30个氨基酸、1-40个氨基酸、1-50个氨基酸、1-60个氨基酸、1-70个氨基酸、1-80个氨基酸、1-90个氨基酸、1-100个氨基酸、2-10个氨基酸、2-20个氨基酸、2-30个氨基酸、3-10个氨基酸、3-20个氨基酸、3-30个氨基酸、4-10个氨基酸、4-20个氨基酸、3-300个氨基酸、5-10个氨基酸、5-20个氨基酸、5-30个氨基酸、10-50个氨基酸或20-50个氨基酸的缺失。在一些实施例中，相对于参考CasX蛋白，CasX变体包含至少约100个连续氨基酸的缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少1、2、3、4、5、6、7、8、9、10、20、30、40、50或100个连续氨基酸的缺失。在一些实施例中，CasX变异蛋白包含1、2、3、4、5、6、7、8、9或10个连续氨基酸的缺失。

在一些实施例中，CasX变异蛋白包含相对于参考CasX蛋白的两个或更多个缺失，且所述两个或更多个缺失不为连续氨基酸。举例来说，第一缺失可在参考CasX蛋白的第一域中，且第二缺失可在参考CasX蛋白的第二域中。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个非连续缺失。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少20个非连续缺失。各非连续缺失可具有本文所述的氨基酸的任何长度，例如1-4个氨基酸、1-10个氨基酸等。

在一些实施例中，CasX变异蛋白包含至少一个氨基酸插入。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含1个氨基酸的插入、2-3个连续氨基酸、2-4个连续氨基酸、2-5个连续氨基酸、2-6个连续氨基酸、2-7个连续氨基酸、2-8个连续氨基酸、2-9个连续氨基酸、2-10个连续氨基酸、2-20个连续氨基酸、2-30个连续氨基酸、2-40个连续氨基酸、2-50个连续氨基酸、2-60个连续氨基酸、2-70个连续氨基酸、2-80个连续氨基酸、2-90个连续氨基酸、2-100个连续氨基酸、3-10个连续氨基酸、3-20个连续氨基酸、3-30个连续氨基酸、4-10个连续氨基酸、4-20个连续氨基酸、3-300个连续氨基酸、5-10个连续氨基酸、5-20个连续氨基酸、5-30个连续氨基酸、10-50个连续氨基酸或20-50个连续氨基酸的插入。在一些实施例中，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续氨基酸的插入。在一些实施例中，CasX变异蛋白包含至少约100个连续氨基酸的插入。

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含两个或更多个插入，且所述两个或更多个插入不为序列的连续氨基酸。举例来说，第一插入可在参考CasX蛋白的第一域中，且第二插入可在参考CasX蛋白的第二域中。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个非连续插入。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白包含至少10至约20个或更多个非连续插入。各非连续插入可具有本文所述的氨基酸的任何长度，例如1-4个氨基酸、1-10个氨基酸等。

任何氨基酸或氨基酸的组合可如本文所述地插入。举例来说，脯氨酸、精氨酸、组氨酸、赖氨酸、天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、甘氨酸、丙氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、色氨酸、酪氨酸或缬氨酸或其任何组合可插入至本发明的参考CasX蛋白中以产生CasX变异蛋白。

本文所述的取代、插入和缺失实施例的任何排列可经组合以产生本发明的CasX变异蛋白。举例来说，CasX变异蛋白可包含相对于参考CasX蛋白序列的至少一个取代和至少一个缺失、相对于参考CasX蛋白序列的至少一个取代和至少一个插入、相对于参考CasX蛋白序列的至少一个插入和至少一个缺失或相对于参考CasX蛋白序列的至少一个取代、一个插入和一个缺失。

在一些实施例中，CasX变异蛋白与SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3中的一者具有至少约60％序列类似性、至少70％类似性、至少80％类似性、至少85％类似性、至少86％类似性、至少87％类似性、至少88％类似性、至少89％类似性、至少90％类似性、至少91％类似性、至少92％类似性、至少93％类似性、至少94％类似性、至少95％类似性、至少96％类似性、至少97％类似性、至少98％类似性、至少99％类似性、至少99.5％类似性、至少99.6％类似性、至少99.7％类似性、至少99.8％类似性或至少99.9％类似性。

在一些实施例中，CasX变异蛋白与SEQ ID NO:2或其部分具有至少约60％序列类似性。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Y789T的取代、SEQ ID NO:2的P793的缺失、SEQ ID NO:2的Y789D的取代、SEQ ID NO:2的T72S的取代、SEQ ID NO:2的I546V的取代、SEQ ID NO:2的E552A的取代、SEQ ID NO:2的A636D的取代、SEQ ID NO:2的F536S的取代、SEQ ID NO:2的A708K的取代、SEQ ID NO:2的Y797L的取代、SEQ ID NO:2的L792G的取代、SEQ ID NO:2的A739V的取代、SEQ ID NO:2的G791M的取代、在SEQ ID NO:2的位置661处插入A、SEQ ID NO:2的A788W的取代、SEQ ID NO:2的K390R的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E385A的取代、在SEQ ID NO:2的位置696处插入P、在SEQ IDNO:2的位置773处插入M、SEQ ID NO:2的G695H的取代、在SEQ ID NO:2的位置793处插入AS、在SEQ ID NO:2的位置795处插入AS、SEQ ID NO:2的C477R的取代、SEQ ID NO:2的C477K的取代、SEQ ID NO:2的C479A的取代、SEQ ID NO:2的C479L的取代、SEQ ID NO:2的I55F的取代、SEQ ID NO:2的K210R的取代、SEQ ID NO:2的C233S的取代、SEQ ID NO:2的D231N的取代、SEQ ID NO:2的Q338E的取代、SEQ ID NO:2的Q338R的取代、SEQ ID NO:2的L379R的取代、SEQ ID NO:2的K390R的取代、SEQ ID NO:2的L481Q的取代、SEQ ID NO:2的F495S的取代、SEQ ID NO:2的D600N的取代、SEQ ID NO:2的T886K的取代、SEQ ID NO:2的A739V的取代、SEQ ID NO:2的K460N的取代、SEQ ID NO:2的I199F的取代、SEQ ID NO:2的G492P的取代、SEQ ID NO:2的T153I的取代、SEQ ID NO:2的R591I的取代、在SEQ ID NO:2的位置795处插入AS、在SEQ ID NO:2的位置796处插入AS、在SEQ ID NO:2的位置889处插入L、SEQ IDNO:2的E121D的取代、SEQ ID NO:2的S270W的取代、SEQ ID NO:2的E712Q的取代、SEQ IDNO:2的K942Q的取代、SEQ ID NO:2的E552K的取代、SEQ ID NO:2的K25Q的取代、SEQ ID NO:2的N47D的取代、在SEQ ID NO:2的位置696处插入T、SEQ ID NO:2的L685I的取代、SEQ IDNO:2的N880D的取代、SEQ ID NO:2的Q102R的取代、SEQ ID NO:2的M734K的取代、SEQ IDNO:2的A724S的取代、SEQ ID NO:2的T704K的取代、SEQ ID NO:2的P224K的取代、SEQ IDNO:2的K25R的取代、SEQ ID NO:2的M29E的取代、SEQ ID NO:2的H152D的取代、SEQ ID NO:2的S219R的取代、SEQ ID NO:2的E475K的取代、SEQ ID NO:2的G226R的取代、SEQ ID NO:2的A377K的取代、SEQ ID NO:2的E480K的取代、SEQ ID NO:2的K416E的取代、SEQ ID NO:2的H164R的取代、SEQ ID NO:2的K767R的取代、SEQ ID NO:2的I7F的取代、SEQ ID NO:2的M29R的取代、SEQ ID NO:2的H435R的取代、SEQ ID NO:2的E385Q的取代、SEQ ID NO:2的E385K的取代、SEQ ID NO:2的I279F的取代、SEQ ID NO:2的D489S的取代、SEQ ID NO:2的D732N的取代、SEQ ID NO:2的A739T的取代、SEQ ID NO:2的W885R的取代、SEQ ID NO:2的E53K的取代、SEQ ID NO:2的A238T的取代、SEQ ID NO:2的P283Q的取代、SEQ ID NO:2的E292K的取代、SEQ ID NO:2的Q628E的取代、SEQ ID NO:2的R388Q的取代、SEQ ID NO:2的G791M的取代、SEQ ID NO:2的L792K的取代、SEQ ID NO:2的L792E的取代、SEQ ID NO:2的M779N的取代、SEQ ID NO:2的G27D的取代、SEQ ID NO:2的K955R的取代、SEQ ID NO:2的S867R的取代、SEQID NO:2的R693I的取代、SEQ ID NO:2的F189Y的取代、SEQ ID NO:2的V635M的取代、SEQ IDNO:2的F399L的取代、SEQ ID NO:2的E498K的取代、SEQ ID NO:2的E386R的取代、SEQ IDNO:2的V254G的取代、SEQ ID NO:2的P793S的取代、SEQ ID NO:2的K188E的取代、SEQ IDNO:2的QT945KI的取代、SEQ ID NO:2的T620P的取代、SEQ ID NO:2的T946P的取代、SEQ IDNO:2的TT949PP的取代、SEQ ID NO:2的N952T的取代、SEQ ID NO:2的K682E的取代、SEQ IDNO:2的K975R的取代、SEQ ID NO:2的L212P的取代、SEQ ID NO:2的E292R的取代、SEQ IDNO:2的I303K的取代、SEQ ID NO:2的C349E的取代、SEQ ID NO:2的E385P的取代、SEQ IDNO:2的E386N的取代、SEQ ID NO:2的D387K的取代、SEQ ID NO:2的L404K的取代、SEQ IDNO:2的E466H的取代、SEQ ID NO:2的C477Q的取代、SEQ ID NO:2的C477H的取代、SEQ IDNO:2的C479A的取代、SEQ ID NO:2的D659H的取代、SEQ ID NO:2的T806V的取代、SEQ IDNO:2的K808S的取代、在SEQ ID NO:2的位置797处插入AS、SEQ ID NO:2的V959M的取代、SEQID NO:2的K975Q的取代、SEQ ID NO:2的W974G的取代、SEQ ID NO:2的A708Q的取代、SEQ IDNO:2的V711K的取代、SEQ ID NO:2的D733T的取代、SEQ ID NO:2的L742W的取代、SEQ IDNO:2的V747K的取代、SEQ ID NO:2的F755M的取代、SEQ ID NO:2的M771A的取代、SEQ IDNO:2的M771Q的取代、SEQ ID NO:2的W782Q的取代、SEQ ID NO:2的G791F的取代、SEQ IDNO:2的L792D的取代、SEQ ID NO:2的L792K的取代、SEQ ID NO:2的P793Q的取代、SEQ IDNO:2的P793G的取代、SEQ ID NO:2的Q804A的取代、SEQ ID NO:2的Y966N的取代、SEQ IDNO:2的Y723N的取代、SEQ ID NO:2的Y857R的取代、SEQ ID NO:2的S890R的取代、SEQ IDNO:2的S932M的取代、SEQ ID NO:2的L897M的取代、SEQ ID NO:2的R624G的取代、SEQ IDNO:2的S603G的取代、SEQ ID NO:2的N737S的取代、SEQ ID NO:2的L307K的取代、SEQ IDNO:2的I658V的取代、在SEQ ID NO:2的位置688处插入PT、在SEQ ID NO:2的位置794处插入SA、SEQ ID NO:2的S877R的取代、SEQ ID NO:2的N580T的取代、SEQ ID NO:2的V335G的取代、SEQ ID NO:2的T620S的取代、SEQ ID NO:2的W345G的取代、SEQ ID NO:2的T280S的取代、SEQ ID NO:2的L406P的取代、SEQ ID NO:2的A612D的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E386R的取代、SEQ ID NO:2的V351M的取代、SEQ ID NO:2的K210N的取代、SEQ ID NO:2的D40A的取代、SEQ ID NO:2的E773G的取代、SEQ ID NO:2的H207L的取代、SEQ ID NO:2的T62A的取代、SEQ ID NO:2的T287P的取代、SEQ ID NO:2的T832A的取代、SEQID NO:2的A893S的取代、在SEQ ID NO:2的位置14处插入V、在SEQ ID NO:2的位置13处插入AG、SEQ ID NO:2的R11V的取代、SEQ ID NO:2的R12N的取代、SEQ ID NO:2的R13H的取代、在SEQ ID NO:2的位置13处插入Y、SEQ ID NO:2的R12L的取代、在SEQ ID NO:2的位置13处插入Q、SEQ ID NO:2的V15S的取代、在SEQ ID NO:2的位置17处插入D或其组合。

在一些实施例中，CasX变体包含NTSB域中的至少一个修饰。

在一些实施例中，CasX变体包含TSL域中的至少一个修饰。在一些实施例中，TSL域中的至少一个修饰包含SEQ ID NO:2的氨基酸Y857、S890或S932中的一个或多个的氨基酸取代。

在一些实施例中，CasX变体包含螺旋形I域中的至少一个修饰。在一些实施例中，螺旋形I域中的至少一个修饰包含SEQ ID NO:2的氨基酸S219、L249、E259、Q252、E292、L307或D318中的一个或多个的氨基酸取代。

在一些实施例中，CasX变体包含螺旋形II域中的至少一个修饰。在一些实施例中，螺旋形II域中的至少一个修饰包含SEQ ID NO:2的氨基酸D361、L379、E385、E386、D387、F399、L404、R458、C477或D489中的一个或多个的氨基酸取代。

在一些实施例中，CasX变体包含OBD域中的至少一个修饰。在一些实施例中，OBD中的至少一个修饰包含SEQ ID NO:2的氨基酸F536、E552、T620或I658中的一个或多个的氨基酸取代。

在一些实施例中，CasX变体包含RuvC DNA裂解域中的至少一个修饰。在一些实施例中，RuvC DNA裂解域中的至少一个修饰包含SEQ ID NO:2的氨基酸K682、G695、A708、V711、D732、A739、D733、L742、V747、F755、M771、M779、W782、A788、G791、L792、P793、Y797、M799、Q804、S819或Y857中的一个或多个的氨基酸取代或氨基酸P793的缺失。

在一些实施例中，相比于SEQ ID NO:2的参考CasX序列，CasX变体包含选自以下中的一个或多个的至少一个修饰：(a)L379R的氨基酸取代；(b)A708K的氨基酸取代；(c)T620P的氨基酸取代；(d)E385P的氨基酸取代；(e)Y857R的氨基酸取代；(f)I658V的氨基酸取代；(g)F399L的氨基酸取代；(h)Q252K的氨基酸取代；(i)L404K的氨基酸取代；和(j)P793的氨基酸缺失。

在一些实施例中，CasX变异蛋白包含对参考CasX蛋白氨基酸序列的至少两个氨基酸变化。至少两个氨基酸变化可为对参考CasX蛋白氨基酸序列的取代、插入或缺失或其任何组合。取代、插入或缺失可为本文所述的参考CasX蛋白的序列中的任何取代、插入或缺失。在一些实施例中，变化为对参考CasX蛋白序列的连续氨基酸变化、非连续氨基酸变化或连续和非连续氨基酸变化的组合。在一些实施例中，参考CasX蛋白为SEQ ID NO:2。在一些实施例中，CasX变异蛋白包含对参考CasX蛋白序列的至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少30个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个、至少75个、至少80个、至少85个、至少90个、至少95个或至少100个氨基酸变化。在一些实施例中，CasX变异蛋白包含对参考CasX蛋白序列的1-50个、3-40个、5-30个、5-20个、5-15个、5-10个、10-50个、10-40个、10-30个、10-20个、15-50个、15-40个、15-30个、2-25个、2-24个、2-22个、2-23个、2-22个、2-21个、2-20个、2-19个、2-18个、2-17个、2-16个、2-15个、2-14个、2-12个、2-11个、2-10个、2-9个、2-8个、2-7个、2-6个、2-5个、2-4个、2-3个、3-25个、3-24个、3-22个、3-23个、3-22个、3-21个、3-20个、3-19个、3-18个、3-17个、3-16个、3-15个、3-14个、3-12个、3-11个、3-10个、3-9个、3-8个、3-7个、3-6个、3-5个、3-4个、4-25个、4-24个、4-22个、4-23个、4-22个、4-21个、4-20个、4-19个、4-18个、4-17个、4-16个、4-15个、4-14个、4-12个、4-11个、4-10个、4-9个、4-8个、4-7个、4-6个、4-5个、5-25个、5-24个、5-22个、5-23个、5-22个、5-21个、5-20个、5-19个、5-18个、5-17个、5-16个、5-15个、5-14个、5-12个、5-11个、5-10个、5-9个、5-8个、5-7个或5-6个氨基酸变化。在一些实施例中，CasX变异蛋白包含对参考CasX蛋白序列的15-20个变化。在一些实施例中，CasX变异蛋白包含对参考蛋白序列的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个氨基酸变化。在一些实施例中，对参考CasX变异蛋白的序列的至少两个氨基酸变化选自由以下组成的组：SEQ ID NO:2的Y789T的取代、SEQ ID NO:2的P793的缺失、SEQ ID NO:2的Y789D的取代、SEQ ID NO:2的T72S的取代、SEQ ID NO:2的I546V的取代、SEQ ID NO:2的E552A的取代、SEQ ID NO:2的A636D的取代、SEQ ID NO:2的F536S的取代、SEQ ID NO:2的A708K的取代、SEQ ID NO:2的Y797L的取代、SEQ ID NO:2的L792G的取代、SEQ ID NO:2的A739V的取代、SEQ ID NO:2的G791M的取代、在SEQ ID NO:2的位置661处插入A、SEQ ID NO:2的A788W的取代、SEQ ID NO:2的K390R的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E385A的取代、在SEQ ID NO:2的位置696处插入P、在SEQ ID NO:2的位置773处插入M、SEQ ID NO:2的G695H的取代、在SEQ ID NO:2的位置793处插入AS、在SEQ IDNO:2的位置795处插入AS、SEQ ID NO:2的C477R的取代、SEQ ID NO:2的C477K的取代、SEQID NO:2的C479A的取代、SEQ ID NO:2的C479L的取代、SEQ ID NO:2的I55F的取代、SEQ IDNO:2的K210R的取代、SEQ ID NO:2的C233S的取代、SEQ ID NO:2的D231N的取代、SEQ IDNO:2的Q338E的取代、SEQ ID NO:2的Q338R的取代、SEQ ID NO:2的L379R的取代、SEQ IDNO:2的K390R的取代、SEQ ID NO:2的L481Q的取代、SEQ ID NO:2的F495S的取代、SEQ IDNO:2的D600N的取代、SEQ ID NO:2的T886K的取代、SEQ ID NO:2的A739V的取代、SEQ IDNO:2的K460N的取代、SEQ ID NO:2的I199F的取代、SEQ ID NO:2的G492P的取代、SEQ IDNO:2的T153I的取代、SEQ ID NO:2的R591I的取代、在SEQ ID NO:2的位置795处插入AS、在SEQ ID NO:2的位置796处插入AS、在SEQ ID NO:2的位置889处插入L、SEQ ID NO:2的E121D的取代、SEQ ID NO:2的S270W的取代、SEQ ID NO:2的E712Q的取代、SEQ ID NO:2的K942Q的取代、SEQ ID NO:2的E552K的取代、SEQ ID NO:2的K25Q的取代、SEQ ID NO:2的N47D的取代、在SEQ ID NO:2的位置696处插入T、SEQ ID NO:2的L685I的取代、SEQ ID NO:2的N880D的取代、SEQ ID NO:2的Q102R的取代、SEQ ID NO:2的M734K的取代、SEQ ID NO:2的A724S的取代、SEQ ID NO:2的T704K的取代、SEQ ID NO:2的P224K的取代、SEQ ID NO:2的K25R的取代、SEQ ID NO:2的M29E的取代、SEQ ID NO:2的H152D的取代、SEQ ID NO:2的S219R的取代、SEQ ID NO:2的E475K的取代、SEQ ID NO:2的G226R的取代、SEQ ID NO:2的A377K的取代、SEQ ID NO:2的E480K的取代、SEQ ID NO:2的K416E的取代、SEQ ID NO:2的H164R的取代、SEQ ID NO:2的K767R的取代、SEQ ID NO:2的I7F的取代、SEQ ID NO:2的M29R的取代、SEQID NO:2的H435R的取代、SEQ ID NO:2的E385Q的取代、SEQ ID NO:2的E385K的取代、SEQ IDNO:2的I279F的取代、SEQ ID NO:2的D489S的取代、SEQ ID NO:2的D732N的取代、SEQ IDNO:2的A739T的取代、SEQ ID NO:2的W885R的取代、SEQ ID NO:2的E53K的取代、SEQ ID NO:2的A238T的取代、SEQ ID NO:2的P283Q的取代、SEQ ID NO:2的E292K的取代、SEQ ID NO:2的Q628E的取代、SEQ ID NO:2的R388Q的取代、SEQ ID NO:2的G791M的取代、SEQ ID NO:2的L792K的取代、SEQ ID NO:2的L792E的取代、SEQ ID NO:2的M779N的取代、SEQ ID NO:2的G27D的取代、SEQ ID NO:2的K955R的取代、SEQ ID NO:2的S867R的取代、SEQ ID NO:2的R693I的取代、SEQ ID NO:2的F189Y的取代、SEQ ID NO:2的V635M的取代、SEQ ID NO:2的F399L的取代、SEQ ID NO:2的E498K的取代、SEQ ID NO:2的E386R的取代、SEQ ID NO:2的V254G的取代、SEQ ID NO:2的P793S的取代、SEQ ID NO:2的K188E的取代、SEQ ID NO:2的QT945KI的取代、SEQ ID NO:2的T620P的取代、SEQ ID NO:2的T946P的取代、SEQ ID NO:2的TT949PP的取代、SEQ ID NO:2的N952T的取代、SEQ ID NO:2的K682E的取代、SEQ ID NO:2的K975R的取代、SEQ ID NO:2的L212P的取代、SEQ ID NO:2的E292R的取代、SEQ ID NO:2的I303K的取代、SEQ ID NO:2的C349E的取代、SEQ ID NO:2的E385P的取代、SEQ ID NO:2的E386N的取代、SEQ ID NO:2的D387K的取代、SEQ ID NO:2的L404K的取代、SEQ ID NO:2的E466H的取代、SEQ ID NO:2的C477Q的取代、SEQ ID NO:2的C477H的取代、SEQ ID NO:2的C479A的取代、SEQ ID NO:2的D659H的取代、SEQ ID NO:2的T806V的取代、SEQ ID NO:2的K808S的取代、在SEQ ID NO:2的位置797处插入AS、SEQ ID NO:2的V959M的取代、SEQ IDNO:2的K975Q的取代、SEQ ID NO:2的W974G的取代、SEQ ID NO:2的A708Q的取代、SEQ IDNO:2的V711K的取代、SEQ ID NO:2的D733T的取代、SEQ ID NO:2的L742W的取代、SEQ IDNO:2的V747K的取代、SEQ ID NO:2的F755M的取代、SEQ ID NO:2的M771A的取代、SEQ IDNO:2的M771Q的取代、SEQ ID NO:2的W782Q的取代、SEQ ID NO:2的G791F的取代、SEQ IDNO:2的L792D的取代、SEQ ID NO:2的L792K的取代、SEQ ID NO:2的P793Q的取代、SEQ IDNO:2的P793G的取代、SEQ ID NO:2的Q804A的取代、SEQ ID NO:2的Y966N的取代、SEQ IDNO:2的Y723N的取代、SEQ ID NO:2的Y857R的取代、SEQ ID NO:2的S890R的取代、SEQ IDNO:2的S932M的取代、SEQ ID NO:2的L897M的取代、SEQ ID NO:2的R624G的取代、SEQ IDNO:2的S603G的取代、SEQ ID NO:2的N737S的取代、SEQ ID NO:2的L307K的取代、SEQ IDNO:2的I658V的取代、在SEQ ID NO:2的位置688处插入PT、在SEQ ID NO:2的位置794处插入SA、SEQ ID NO:2的S877R的取代、SEQ ID NO:2的N580T的取代、SEQ ID NO:2的V335G的取代、SEQ ID NO:2的T620S的取代、SEQ ID NO:2的W345G的取代、SEQ ID NO:2的T280S的取代、SEQ ID NO:2的L406P的取代、SEQ ID NO:2的A612D的取代、SEQ ID NO:2的A751S的取代、SEQ ID NO:2的E386R的取代、SEQ ID NO:2的V351M的取代、SEQ ID NO:2的K210N的取代、SEQ ID NO:2的D40A的取代、SEQ ID NO:2的E773G的取代、SEQ ID NO:2的H207L的取代、SEQ ID NO:2的T62A的取代、SEQ ID NO:2的T287P的取代、SEQ ID NO:2的T832A的取代、SEQID NO:2的A893S的取代、在SEQ ID NO:2的位置14处插入V、在SEQ ID NO:2的位置13处插入AG、SEQ ID NO:2的R11V的取代、SEQ ID NO:2的R12N的取代、SEQ ID NO:2的R13H的取代、在SEQ ID NO:2的位置13处插入Y、SEQ ID NO:2的R12L的取代、在SEQ ID NO:2的位置13处插入Q、SEQ ID NO:2的V15S的取代、在SEQ ID NO:2的位置17处插入D。在一些实施例中，对参考CasX蛋白的至少两个氨基酸变化选自表3的序列中公开的氨基酸变化。在一些实施例中，CasX变体包含此段的前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含对参考CasX蛋白氨基酸序列的超过一个取代、插入和/或缺失。在一些实施例中，参考CasX蛋白包含SEQ ID NO:2或基本上由其组成。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的S794R的取代和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的K416E的取代和A708K的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代和P793的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的P793的缺失和在位置795处插入AS。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Q367K的取代和I425S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和A793V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Q338R的取代和A339E的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Q338R的取代和A339K的取代。在一些实施例中，CasX变异蛋白包含SEQ IDNO:2的S507G的取代和G508R的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQID NO:2的C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和M779N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQID NO:2的L379R的取代、708K的取代、位置793处P的缺失和D489S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739T的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和G791M的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、708K的取代、位置793处P的缺失和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和M779N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D489S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和A739T的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和G791M的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和T620P的取代。在一些实施例中，CasX变异蛋白包含SEQ IDNO:2的A708K的取代、位置793处P的缺失和E386S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的E386R的取代、F399L的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的R581I和A739V的取代。在一些实施例中，CasX变体包含此段的前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含对参考CasX蛋白氨基酸序列的超过一个取代、插入和/或缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代、位置793处P的缺失和A739的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和T620P的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的M771A的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变体包含此段的前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的W782Q的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的M771Q的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的R458I的取代和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ IDNO:2的L379R的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中，CasX变异蛋白包含对SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739T的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D489S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和D732N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的V711K的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和Y797L的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代、位置793处P的缺失和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的取代和E386S的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477K的取代、A708K的取代和位置793处P的缺失。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L792D的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的G791F的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、A708K的取代、位置793处P的缺失和A739V的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的C477K的取代、A708K的取代和位置793处P的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L249I的取代和M771N的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的V747K的取代。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的L379R的取代、C477的取代、A708K的取代、位置793处P的缺失和M779N的取代。在一些实施例中，CasX变异蛋白包含F755M的取代。在一些实施例中，CasX变体包含此段的前述实施例的任何组合。

在一些实施例中，CasX变异蛋白包含相比于SEQ ID NO:2的参考CasX序列的至少一个修饰，其中所述至少一个修饰选自以下中的一个或多个：L379R的氨基酸取代；A708K的氨基酸取代；T620P的氨基酸取代；E385P的氨基酸取代；Y857R的氨基酸取代；I658V的氨基酸取代；F399L的氨基酸取代；Q252K的氨基酸取代；L404K的氨基酸取代；和[P793]的氨基酸缺失。在其它实施例中，CasX变异蛋白包含相比于SEQ ID NO:2的参考CasX序列的前述取代或缺失的任何组合。在其它实施例中，除了前述取代或缺失以外，CasX变异蛋白可进一步包含来自SEQ ID NO:1的参考CasX的NTSB和/或螺旋形1b域的取代。

在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个。在一些实施例中，CasX变体包含SEQ IDNO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个。

在一些实施例中，CasX变体包含对SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的一个或多个修饰。在一些实施例中，CasX变体包含对SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的一个或多个修饰。在一些实施例中，CasX变体包含对SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个的一个或多个修饰。

在一些实施例中，CasX变异蛋白包含400至2000个氨基酸、500至1500个氨基酸、700至1200个氨基酸、800至1100个氨基酸或900至1000个氨基酸。

在一些实施例中，CasX变异蛋白在形成发生gNA:目标DNA复合的通道的非连续残基区域中包含一个或多个修饰。在一些实施例中，CasX变异蛋白包含一个或多个修饰，其包含形成与gNA结合的界面的非连续残基区域。举例来说，在参考CasX蛋白的一些实施例中，螺旋形I、螺旋形II和OBD域全部接触或邻近gNA:目标DNA复合物，且对这些域中的任一个内的非连续残基的一个或多个修饰可改良CasX变异蛋白的功能。

在一些实施例中，CasX变异蛋白在形成与非目标股DNA结合的通道的非连续残基区域中包含一个或多个修饰。举例来说，CasX变异蛋白可包含对NTSBD的非连续残基的一个或多个修饰。在一些实施例中，CasX变异蛋白在形成与PAM结合的界面的非连续残基区域中包含一个或多个修饰。举例来说，CasX变异蛋白可包含对螺旋形I域或OBD的非连续残基的一个或多个修饰。在一些实施例中，CasX变异蛋白含有包含非连续表面暴露残基区域的一个或多个修饰。如本文所用，“表面暴露残基”是指CasX蛋白的表面上的氨基酸，或其中氨基酸的至少一部分，如主链或一部分侧链在蛋白质的表面上的氨基酸。如CasX的细胞蛋白质的表面暴露残基(其暴露于水性细胞内环境)经常选自带正电亲水性氨基酸，例如精氨酸、天冬酰胺、天冬氨酸、谷氨酰胺、谷氨酸、组氨酸、赖氨酸、丝氨酸和苏氨酸。因此，举例来说，在本文提供的变体的一些实施例中，相比于参考CasX蛋白，表面暴露残基的区域包含一个或多个插入、缺失或取代。在一些实施例中，一个或多个带正电残基取代一个或多个其它带正电残基，或带负电残基，或不带电残基，或其任何组合。在一些实施例中，一个或多个取代氨基酸残基接近结合核酸，例如RuvC域或螺旋形I域中接触目标DNA的残基，或OBD或螺旋形II域中结合gNA的残基可取代一个或多个带正电或极性氨基酸。

在一些实施例中，CasX变异蛋白包含非连续残基区域中的一个或多个修饰，所述非连续残基经由参考CasX蛋白的域中的疏水性填充形成核。不希望受任何理论束缚，经由疏水性填充形成核心的区域富含疏水性氨基酸，如缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、色氨酸和半胱氨酸。举例来说，在一些参考CasX蛋白中，RuvC域包含邻近于活性位点的疏水袋。在一些实施例中，所述区域的2至15个残基为带电、极性或碱基堆叠的。带电氨基酸(有时在本文中称为残基)可包括例如精氨酸、赖氨酸、天冬氨酸和谷氨酸，且这些氨基酸的侧链可形成盐桥，其限制条件为还存在桥连搭配物(参见图14)。极性氨基酸可包括例如谷氨酰胺、天冬酰胺、组氨酸、丝氨酸、苏氨酸、酪氨酸和半胱氨酸。在一些实施例中，极性氨基酸可取决于其侧链标识而形成质子供体或受体形式的氢键。如本文所用，“碱基堆叠”包括氨基酸残基(如色氨酸、酪氨酸、苯丙氨酸或组氨酸)的芳族侧链与核酸中的堆叠核苷酸碱基的相互作用。在空间上紧邻以形成CasX变异蛋白的功能性部分的对非连续氨基酸区域的任何修饰被设想为在本发明的范围内。

i.具有来自多种源蛋白质的域的CasX变异蛋白

在某些实施例中，本发明提供嵌合CasX蛋白，其包含来自两种或更多种不同CasX蛋白的蛋白域，如两种或更多种天然存在的CasX蛋白，或两种或更多种如本文所述的CasX变异蛋白序列。如本文所用，“嵌合CasX蛋白”是指含有至少两个分离或衍生自不同来源，如两种天然存在的蛋白质的域的CasX，在一些实施例中，所述两种蛋白质可分离自不同物种。举例来说，在一些实施例中，嵌合CasX蛋白包含来自第一CasX蛋白的第一域和来自不同的第二CasX蛋白的第二域。在一些实施例中，第一域可选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。在一些实施例中，第二域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域，其中第二域不同于前述第一域。举例来说，嵌合CasX蛋白可包含来自SEQ ID NO:2的CasX蛋白的NTSB、TSL、螺旋形I、螺旋形II、OBD域，和来自SEQ IDNO:1的CasX蛋白的RuvC域，或反之亦然。作为另一实例，嵌合CasX蛋白可包含来自SEQ IDNO:2的CasX蛋白的NTSB、TSL、螺旋形II、OBD和RuvC域，和来自SEQ ID NO:1的CasX蛋白的螺旋形I域，或反之亦然。因此，在某些实施例中，嵌合CasX蛋白可包含来自第一CasX蛋白的NTSB、TSL、螺旋形II、OBD和RuvC域，和来自第二CasX蛋白的螺旋形I域。在嵌合CasX蛋白的一些实施例中，第一CasX蛋白的域衍生自SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的序列，且第二CasX蛋白的域衍生自SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的序列，且第一和第二CasX蛋白不相同。在一些实施例中，第一CasX蛋白的域包含衍生自SEQ ID NO:1的序列，且第二CasX蛋白的域包含衍生自SEQ ID NO:2的序列。在一些实施例中，第一CasX蛋白的域包含衍生自SEQ ID NO:1的序列，且第二蛋白的域包含衍生自SEQ ID NO:3的序列。在一些实施例中，第一CasX蛋白的域包含衍生自SEQ ID NO:2的序列，且第二蛋白的域包含衍生自SEQ ID NO:3的序列。在一些实施例中，CasX变体选自由具有以下序列的CasX变体组成的组：SEQ ID NO:328、SEQ ID NO:3540、SEQ ID NO:4413、SEQ ID NO:4414、SEQ ID NO:4415、SEQ ID NO:329、SEQ ID NO:3541、SEQ ID NO:330、SEQ ID NO:3542、SEQ ID NO:331、SEQ ID NO:3543、SEQ ID NO:332、SEQ ID NO:3544、SEQ ID NO:333、SEQ ID NO:3545、SEQID NO:334、SEQ ID NO:3546、SEQ ID NO:335、SEQ ID NO:3547、SEQ ID NO:336和SEQ IDNO:3548。在一些实施例中，CasX变体包含对以下中的任一者的一个或多个额外修饰：SEQID NO:328、SEQ ID NO:3540、SEQ ID NO:4413、SEQ ID NO:4414、SEQ ID NO:4415、SEQ IDNO:329、SEQ ID NO:3541、SEQ ID NO:330、SEQ ID NO:3542、SEQ ID NO:331、SEQ ID NO:3543、SEQ ID NO:332、SEQ ID NO:3544、SEQ ID NO:333、SEQ ID NO:3545、SEQ ID NO:334、SEQ ID NO:3546、SEQ ID NO:335、SEQ ID NO:3547、SEQ ID NO:336或SEQ ID NO:3548。在一些实施例中，一个或多个额外修饰包含如本文所述的插入、取代或缺失。

在一些实施例中，CasX变异蛋白包含至少一个嵌合域，其包含来自第一CasX蛋白的第一部分和来自不同的第二CasX蛋白的第二部分。如本文所用，“嵌合域”是指含有至少两个分离或衍生自不同来源，如两种天然存在的蛋白质的部分的域，或来自两种参考CasX蛋白的域部分。至少一个嵌合域可为如本文所述的NTSB、TSL、螺旋形I、螺旋形II、OBD或RuvC域中的任一个。在一些实施例中，CasX域的第一部分包含SEQ ID NO:1的序列，且CasX域的第二部分包含SEQ ID NO:2的序列。在一些实施例中，CasX域的第一部分包含SEQ IDNO:1的序列，且CasX域的第二部分包含SEQ ID NO:3的序列。在一些实施例中，CasX域的第一部分包含SEQ ID NO:2的序列，且CasX域的第二部分包含SEQ ID NO:3的序列。在一些实施例中，至少一个嵌合域包含嵌合RuvC域。作为前述的实例，嵌合RuvC域包含SEQ ID NO:1的氨基酸661至824和SEQ ID NO:2的氨基酸922至978。作为前述的替代实例，嵌合RuvC域包含SEQ ID NO:2的氨基酸648至812和SEQ ID NO:1的氨基酸935至986。在一些实施例中，CasX蛋白包含来自第一CasX蛋白的第一域和来自第二CasX蛋白的第二域，和至少一个嵌合域，其包含使用此段中所述的实施例的方法自不同CasX蛋白分离的至少两个部分。在前述实施例中，具有衍生自SEQ ID NO:1、2和3的域或域部分的嵌合CasX蛋白可进一步包含本文公开的任一实施例的氨基酸插入、缺失或取代。

在一些实施例中，CasX变异蛋白包含表3、8、9、10或12中阐述的序列。在其它实施例中，CasX变异蛋白包含与表3、8、9、10或12中阐述的序列至少60％一致、至少65％一致、至少70％一致、至少75％一致、至少80％一致、至少81％一致、至少82％一致、至少83％一致、至少84％一致、至少85％一致、至少86％一致、至少86％一致、至少87％一致、至少88％一致、至少89％一致、至少89％一致、至少90％一致、至少91％一致、至少92％一致、至少93％一致、至少94％一致、至少95％一致、至少96％一致、至少97％一致、至少98％一致、至少99％一致、至少99.5％一致的序列。在其它实施例中，CasX变异蛋白包含表3中阐述的序列，且进一步包含N端、C端或两者上的一个或多个本文公开的NLS。应了解，在一些情况下，表中的CasX变体的N端甲硫氨酸在翻译后修饰期间自经表达CasX变体去除。

表3：CasX变异序列

*菌株以数值指示；当指示时，变化是相对于SEQ ID NO:2

在一些实施例中，当相比于参考CasX蛋白，例如SEQ ID NO:1、SEQ ID NO:2或SEQID NO:3的参考蛋白时，CasX变异蛋白具有一种或多种改良特征。在一些实施例中，CasX变体的改良特征为相对于参考蛋白改良至少约1.1至约100,000倍。在一些实施例中，CasX变体的改良特征为相比于参考CasX蛋白改良至少约1.1至约10,000倍、改良至少约1.1至约1,000倍、改良至少约1.1至约500倍、改良至少约1.1至约400倍、改良至少约1.1至约300倍、改良至少约1.1至约200倍、改良至少约1.1至约100倍、改良至少约1.1至约50倍、改良至少约1.1至约40倍、改良至少约1.1至约30倍、改良至少约1.1至约20倍、改良至少约1.1至约10倍、改良至少约1.1至约9倍、改良至少约1.1至约8倍、改良至少约1.1至约7倍、改良至少约1.1至约6倍、改良至少约1.1至约5倍、改良至少约1.1至约4倍、改良至少约1.1至约3倍、改良至少约1.1至约2倍、改良至少约1.1至约1.5倍、改良至少约1.5至约3倍、改良至少约1.5至约4倍、改良至少约1.5至约5倍、改良至少约1.5至约10倍、改良至少约5至约10倍、改良至少约10至约20倍、改良至少10至约30倍、改良至少10至约50倍或改良至少10至约100倍。在一些实施例中，CasX变体的改良特征为相对于参考CasX蛋白改良至少约10至约1000倍。

在一些实施例中，CasX变异蛋白的一种或多种改良特征为相对于参考CasX蛋白改良至少约5、至少约10、至少约20、至少约30、至少约40、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约250、至少约500或至少约1000、至少约5,000、至少约10,000或至少约100,000倍。在一些实施例中，CasX变异蛋白的改良特征为相对于参考CasX蛋白改良至少约1.1、至少约1.2、至少约1.3、至少约1.4、至少约1.5、至少约1.6、至少约1.7、至少约1.8、至少约1.9、至少约2、至少约2.1、至少约2.2、至少约2.3、至少约2.4、至少约2.5、至少约2.6、至少约2.7、至少约2.8、至少约2.9、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、至少约5.5、至少约6、至少约6.5、至少约7.0、至少约7.5、至少约8、至少约8.5、至少约9、至少约9.5、至少约10、至少约11、至少约12、至少约13、至少约14、至少约15、至少约20、至少约30、至少约40、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约500、至少约1,000、至少约10,000或至少约100,000倍。在其它情况下，CasX变体的一种或多种改良特征为相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX改良约1.1至100,00倍、约1.1至10,00倍、约1.1至1,000倍、约1.1至500倍、约1.1至100倍、约1.1至50倍、约1.1至20倍、约10至100,00倍、约10至10,00倍、约10至1,000倍、约10至500倍、约10至100倍、约10至50倍、约10至20倍、约2至70倍、约2至50倍、约2至30倍、约2至20倍、约2至10倍、约5至50倍、约5至30倍、约5至10倍、约100至100,00倍、约100至10,00倍、约100至1,000倍、约100至500倍、约500至100,00倍、约500至10,00倍、约500至1,000倍、约500至750倍、约1,000至100,00倍、约10,000至100,00倍、约20至500倍、约20至250倍、约20至200倍、约20至100倍、约20至50倍、约50至10,000倍、约50至1,000倍、约50至500倍、约50至200倍或约50至100倍。在其它情况下，CasX变体的一种或多种改良特征为相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX改良约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍。相对于参考CasX蛋白中的相同特征，在CasX变异蛋白中可改良的示例性特征包括但不限于改良的变体折叠、改良的对gNA的结合亲和力、改良的对目标DNA的结合亲和力、改良的利用较大范围的PAM序列编辑和/或结合目标DNA的能力、改良的目标DNA解旋、增加的编辑活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合、改良的蛋白质稳定性、改良的CasX:gNA RNA复合物稳定性、改良的蛋白质溶解度、改良的CasX:gNA RNP复合物溶解度、改良的蛋白质产率、改良的蛋白质表达和改良的熔融特征。在一些实施例中，变体包含至少一种改良特征。在其它实施例中，变体包含至少两种改良特征。在其它实施例中，变体包含至少三种改良特征。在一些实施例中，变体包含至少四种改良特征。在其它实施例中，变体包含至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种或更多种改良特征。这些改良特征更详细描述于下文中。

j.蛋白质稳定性

在一些实施例中，本发明提供相对于参考CasX蛋白具有经改良稳定性的CasX变异蛋白。在一些实施例中，CasX变异蛋白的经改良稳定性引起较高稳态蛋白质的表达，其提高编辑效率。在一些实施例中，CasX变异蛋白的经改良稳定性使得较大分率的CasX蛋白以功能性构形保持折叠，且提高编辑效率或改良纯化能力以用于制造目的。如本文所用，“功能性构形”是指构形为其中蛋白质能够结合gNA和目标DNA的CasX蛋白。在其中CasX变体不携有一个或多个使其催化死亡的突变的实施例中，CasX变体能够裂解、切割或以其它方式修饰目标DNA。举例来说，在一些实施例中，功能性CasX变体可用于基因编辑，且功能性构形是指“编辑胜任型”构形。在一些示例性实施例，包括其中CasX变异蛋白产生较大分率的以功能性构形保持折叠的CasX蛋白的那些实施例中，相比于参考CasX蛋白，如基因编辑的应用需要较低浓度的CasX变体。因此，在一些实施例中，相比于参考CasX，具有经改良稳定性的CasX变体在一种或多种基因编辑背景下具有经改良效率。

在一些实施例中，本发明提供相对于参考CasX蛋白具有经改良热稳定性的CasX变异蛋白。在一些实施例中，CasX变异蛋白在特定温度范围内具有改良的CasX变异蛋白热稳定性。不希望受任何理论束缚，一些参考CasX蛋白天然地在生态栖位处于地下水和沈积物中的生物体中起作用；因此，一些参考CasX蛋白可能已进化为在比某些应用可能需要的温度更低或更高的温度下展现最佳功能。举例来说，CasX变异蛋白的一种应用为哺乳动物细胞的基因编辑，其通常在约37℃下进行。在一些实施例中，相比于参考CasX蛋白，如本文所述的CasX变异蛋白在至少16℃、至少18℃、至少20℃、至少22℃、至少24℃、至少26℃、至少28℃、至少30℃、至少32℃、至少34℃、至少35℃、至少36℃、至少37℃、至少38℃、至少39℃、至少40℃、至少41℃、至少42℃、至少44℃、至少46℃、至少48℃、至少50℃、至少52℃或更高温度下具有改良的热稳定性。在一些实施例中，相比于参考CasX蛋白，CasX变异蛋白具有改良的热稳定性和功能，产生改良的基因编辑功能，如哺乳动物基因编辑应用，其可包括人类基因编辑应用。

在一些实施例中，本发明提供相对于参考CasX蛋白:gNA复合物具有改良的CasX变异蛋白:gNA RNP复合物稳定性的CasX变异蛋白，使得RNP保持于功能形式。稳定性改良可包括增加的热稳定性；蛋白水解降解抗性；增强的药物动力学特性；跨越一系列pH条件、盐条件和张力的稳定性。在一些实施例中，复合物改良的稳定性使得编辑效率提高。

在一些实施例中，本发明提供相对于参考CasX蛋白:gNA复合物具有改良的CasX变异蛋白:gNA复合物热稳定性的CasX变异蛋白。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改良的热稳定性。在一些实施例中，相对于包含参考CasX蛋白的复合物，CasX变异蛋白:gNA RNP复合物在至少16℃、至少18℃、至少20℃、至少22℃、至少24℃、至少26℃、至少28℃、至少30℃、至少32℃、至少34℃、至少35℃、至少36℃、至少37℃、至少38℃、至少39℃、至少40℃、至少41℃、至少42℃、至少44℃、至少46℃、至少48℃、至少50℃、至少52℃或更高温度下具有改良的热稳定性。在一些实施例中，相比于参考CasX蛋白:gNA复合物，CasX变异蛋白具有改良的CasX变异蛋白:gNA RNP复合物热稳定性，其使得针对基因编辑应用，如哺乳动物基因编辑应用(其可包括人类基因编辑应用)的功能改良。

在一些实施例中，CasX变异蛋白改良的稳定性和/或热稳定性包含CasX变异蛋白相对于参考CasX蛋白更快的折叠动力学、CasX变异蛋白相对于参考CasX蛋白更慢的去折叠动力学、CasX变异蛋白相对于参考CasX蛋白在折叠时更大的自由能释放、相对于参考CasX蛋白更高的50％的CasX变异蛋白未折叠的温度(Tm)或其任何组合。这些特征可改良大范围的值；例如相比于参考CasX蛋白改良至少1.1、至少1.5、至少10、至少50、至少100、至少500、至少1,000、至少5,000或至少10,000倍。在一些实施例中，CasX变异蛋白改良的热稳定性包含CasX变异蛋白相对于参考CasX蛋白更高的Tm。在一些实施例中，CasX变异蛋白的Tm为约20℃至约30℃、约30℃至约40℃、约40℃至约50℃、约50℃至约60℃、约60℃至约70℃、约70℃至约80℃、约80℃至约90℃或约90℃至约100℃。热稳定性是通过测量“熔融温度”(T_m)来测定，熔融温度定义为一半分子变性的温度。测量蛋白质稳定性的特征，如Tm和去折叠自由能的方法为本领域普通技术人员所知，且可使用标准生物化学技术在体外测量。举例来说，Tm可使用差示扫描热量测定来测量，差示扫描热量测定为一种热分析技术，其中测量增加样品和参考的温度所需的热量差作为温度的函数(Chen等人(2003)《药学研究(PharmRes)》20:1952-60；Ghirlando等人(1999)《免疫学快讯(Immunol Lett)》68:47-52)。或者或另外，CasX变异蛋白Tm可使用市售方法，如ThermoFisher Protein Thermal Shift系统来测量。或者或另外，圆二色性可用于测量折叠和去折叠的动力学，以及Tm(Murray等人(2002)《色谱科学杂志(J.Chromatogr Sci)》40:343-9)。圆二色性(CD)依赖于左手侧和右手侧圆偏振光被如蛋白质的不对称分子不等地吸收。蛋白质的某些结构，例如α螺旋和β折叠具有特征性CD光谱。因此，在一些实施例中，CD可用于确定CasX变异蛋白的二级结构。

在一些实施例中，CasX变异蛋白改良的稳定性和/或热稳定性包含CasX变异蛋白相对于参考CasX蛋白改良的折叠动力学。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白的折叠动力学改良至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1,000倍、至少约2,000倍、至少约3,000倍、至少约4,000倍、至少约5,000倍或至少约10,000倍改良。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白的折叠动力学改良至少约1kJ/mol、至少约5kJ/mol、至少约10kJ/mol、至少约20kJ/mol、至少约30kJ/mol、至少约40kJ/mol、至少约50kJ/mol、至少约60kJ/mol、至少约70kJ/mol、至少约80kJ/mol、至少约90kJ/mol、至少约100kJ/mol、至少约150kJ/mol、至少约200kJ/mol、至少约250kJ/mol、至少约300kJ/mol、至少约350kJ/mol、至少约400kJ/mol、至少约450kJ/mol或至少约500kJ/mol。

相对于参考CasX蛋白，可增加CasX变异蛋白的稳定性的示例性氨基酸变化可包括但不限于以下氨基酸变化：增加CasX变异蛋白内的氢键数目、增加CasX变异蛋白内的二硫桥键数目、增加CasX变异蛋白内的盐桥数目、增强CasX变异蛋白的部分之间的相互作用、增加CasX变异蛋白的埋入疏水表面积或其任何组合。

k.蛋白质产率

在一些实施例中，本发明提供相对于参考CasX蛋白，在表达和纯化期间具有改良产率的CasX变异蛋白。在一些实施例中，相对于参考CasX蛋白，自细菌或真核宿主细胞纯化的CasX变异蛋白的产率经改良。在一些实施例中，细菌宿主细胞为大肠杆菌细胞。在一些实施例中，真核细胞为酵母、植物(例如烟草)、昆虫(例如草地粘虫(Spodoptera frugiperda)sf9细胞)、小鼠、大鼠、仓鼠、天竺鼠、非人类灵长类动物或人类细胞。在一些实施例中，真核宿主细胞为哺乳动物细胞，包括但不限于HEK293细胞、HEK293T细胞、HEK293-F细胞、Lenti-X 293T细胞、BHK细胞、HepG2细胞、Saos-2细胞、HuH7细胞、A549细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、融合瘤细胞、VERO细胞、NIH3T3细胞、COS、WI38细胞、MRC5细胞、HeLa、HT1080细胞或CHO细胞。

在一些实施例中，CasX变异蛋白的改良产率是通过密码子优化实现。细胞使用64种不同的密码子，其中的61种编码20种标准氨基酸，而另外3种充当终止密码子。在一些情况下，单一氨基酸由超过一个密码子编码。对于相同的天然存在的氨基酸，不同生物体展现朝向使用不同密码子的偏移。因此，蛋白质中密码子的选择，和将密码子选择与蛋白质将表达的生物体匹配可在一些情况下显著影响蛋白质翻译且因此影响蛋白质表达量。在一些实施例中，CasX变异蛋白由已经密码子优化的核酸编码。在一些实施例中，编码CasX变异蛋白的核酸已经密码子优化以表达于细菌细胞、酵母细胞、昆虫细胞、植物细胞或哺乳动物细胞中。在一些实施例中，哺乳动物细胞为小鼠、大鼠、仓鼠、天竺鼠、猴或人类。在一些实施例中，CasX变异蛋白由已经密码子优化以表达于人类细胞中的核酸编码。在一些实施例中，CasX变异蛋白由已去除降低原核生物和真核生物中的翻译速率的核苷酸序列的核酸编码。举例来说，大于三个胸腺嘧啶残基成一列的运行可降低某些生物体中的翻译速率，或内部聚腺苷酸化信号可减少翻译。

在一些实施例中，如本文所述的溶解度和稳定性的改良使得CasX变异蛋白的产率相对于参考CasX蛋白改良。

可通过本领域中已知的方法评估表达和纯化期间改良的蛋白质产率。举例来说，可如下地测定CasX变异蛋白的量：通过在SDS-page凝胶上运行蛋白质，且将CasX变异蛋白与事先已知其量或浓度的对照比较，以确定蛋白质的绝对含量。或者或另外，纯化CasX变异蛋白可在SDS-page凝胶上紧邻经历相同纯化过程的参考CasX蛋白运行，以确定CasX变异蛋白产率的相对改良。或者或另外，蛋白质含量可使用免疫组织化学方法，如通过针对CasX的抗体的蛋白质印迹或ELISA，或通过HPLC来测量。对于溶液中的蛋白质，可通过测量蛋白质的内在UV吸光度，或通过使用蛋白质依赖性颜色变化的方法，如劳立分析(Lowry assay)、史密斯铜/双金鸡纳酸分析(Smith copper/bicinchoninic assay)或布拉福染料分析(Bradford dye assay)来确定浓度。此类方法可用于计算在某些条件下通过表达获得的总蛋白质(如总可溶性蛋白质)产率。举例来说，此可与参考CasX蛋白在类似表达条件下的蛋白质产率比较。

l.蛋白质溶解度

在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改良的溶解度。在一些实施例中，相对于包含参考CasX蛋白的核糖核蛋白复合物，CasX变异蛋白具有改良的CasX:gNA核糖核蛋白复合物变体溶解度。

在一些实施例中，蛋白质溶解度的改良使得自蛋白质纯化技术，如自大肠杆菌纯化的蛋白质产率较高。在一些实施例中，CasX变异蛋白改良的溶解度可使得细胞中的活性能够更高效，因为更可溶的蛋白质不大可能在细胞中聚集。蛋白质聚集体可在某些实施例中对细胞为毒性或繁重的，且不希望受任何理论束缚，增加CasX变异蛋白的溶解度可改善此蛋白质聚集结果。另外，CasX变异蛋白改良的溶解度可允许增强的调配物，准许递送更高有效剂量的功能蛋白，例如在所需基因编辑应用中。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白改良的溶解度使得CasX变异蛋白在纯化期间的产率改良，产率大至少约5倍、至少约10倍、至少约20倍、至少约30倍、至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍、至少约100倍、至少约250倍、至少约500倍或至少约1000倍。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白改良的溶解度改良CasX变异蛋白于细胞中的活性，使活性大至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约2.1倍、至少约2.2倍、至少约2.3倍、至少约2.4倍、至少约2.5倍、至少约2.6倍、至少约2.7倍、至少约2.8倍、至少约2.9倍、至少约3倍、至少约3.5倍、至少约4倍、至少约4.5倍、至少约5倍、至少约5.5倍、至少约6倍、至少约6.5倍、至少约7.0倍、至少约7.5倍、至少约8倍、至少约8.5倍、至少约9倍、至少约9.5倍、至少约10倍、至少约11倍、至少约12倍、至少约13倍、至少约14倍、至少约15倍或至少约20倍。

测量CasX蛋白质溶解度和其于CasX变异蛋白中的改良的方法将为本领域普通技术人员显而易见。举例来说，在一些实施例中，可通过在溶解大肠杆菌的可溶部分的凝胶上获取密度测定法读数来测量CasX变异蛋白溶解度。或者或另外，可通过测量可溶性蛋白质产物在整个蛋白质纯化过程中的维持，包括实例的方法来测量CasX变异蛋白溶解度的改良。举例来说，可溶性蛋白质产物可在凝胶亲和纯化、标签裂解、阳离子交换纯化、在尺寸排阻色谱(SEC)柱上运行蛋白质的一个或多个步骤处测量。在一些实施例中，在纯化过程的各步骤之后读取凝胶上的每一蛋白质带的密度测定值。在一些实施例中，当相比于参考CasX蛋白时，具有改良溶解度的CasX变异蛋白可在蛋白质纯化过程的一个或多个步骤处维持较高浓度，同时不溶性蛋白质变体可由于缓冲液交换、过滤步骤、与纯化柱的相互作用等而在一个或多个步骤处损失。

在一些实施例中，当相比于参考CasX蛋白时，改良CasX变异蛋白的溶解度产生就蛋白质纯化期间蛋白质的mg/L而言较高的产率。

在一些实施例中，当在编辑分析，如本文所述的EGFP破坏分析中评估时，改良CasX变异蛋白的溶解度使得相比于较不可溶的蛋白质，编辑事件的量能够更大。

m.对gNA的亲和力

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白对gNA的亲和力改良，使得形成核糖核蛋白复合物。CasX变异蛋白对gNA增加的亲和力可例如针对RNP复合物生成产生更低K_d，其可在一些情况下使得核糖核蛋白复合物形成更稳定。在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白针对gNA的K_d增加至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20倍、至少约25倍、至少约30倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。在一些实施例中，相比于SEQ ID NO:2的参考CasX蛋白，CasX变体对gNA的结合亲和力增加约1.1至约10倍。

在一些实施例中，CasX变异蛋白对gNA增加的亲和力使得当递送至哺乳动物细胞，包括体内递送至个体时，核糖核蛋白复合物的稳定性增加。此增加的稳定性可影响复合物于个体细胞中的功能和效用，以及使得当递送至个体时改良血液中的药物动力学特性。在一些实施例中，CasX变异蛋白增加的亲和力，和核糖核蛋白复合物增加的所得稳定性允许向个体或细胞递送较低剂量的CasX变异蛋白，同时仍具有所需活性；例如体内或体外基因编辑。可使用分析，如本文所述的体外裂解分析来评估增强的形成RNP和将其保持于稳定形式的能力。在一些实施例中，当以RNP形式复合时，本发明的CasX变体能够获得相比于参考CasX的RNP高至少2倍、至少5倍、或至少10倍的K_cleave速率。

在一些实施例中，当CasX变异蛋白和gNA均保持于RNP复合物中时，CasX变异蛋白对gNA的较高亲和力(更紧密结合)允许编辑事件的量更大。可使用编辑分析，如本文所述的EGFP破坏和体外裂解分析来评估增加的编辑事件。

不希望受理论束缚，在一些实施例中，螺旋形I域中的氨基酸变化可增加CasX变异蛋白与gNA靶向序列的结合亲和力，而螺旋形II域中的变化可增加CasX变异蛋白与gNA支架茎环的结合亲和力，且寡核苷酸结合域(OBD)中的变化增加CasX变异蛋白与gNA三螺旋体的结合亲和力。

测量CasX蛋白对gNA的结合亲和力的方法包括使用纯化CasX蛋白和gNA的体外方法。如果gNA或CasX蛋白用荧光团标记，则可通过荧光偏振测量对参考CasX和变异蛋白的结合亲和力。或者或另外，可通过生物层干涉测量术、电泳迁移率变动分析(EMSA)或过滤结合来测量结合亲和力。定量RNA结合蛋白，如本发明的参考CasX和变异蛋白对特定gNA，如参考gNA和其变体的绝对亲和力的额外标准技术包括但不限于等温量热法(ITC)和表面等离子共振(SPR)，以及实例的方法。

n.对目标核酸的亲和力

在一些实施例中，相对于参考CasX蛋白对目标核酸的亲和力，CasX变异蛋白对目标核酸的结合亲和力改良。在一些实施例中，相比于对目标核酸不具有增加的亲和力的参考CasX蛋白，对其目标核酸具有较高亲和力的CasX变体可更快速地裂解目标核酸序列。

在一些实施例中，对目标核酸改良的亲和力包含对目标核酸的目标序列或前间隔子序列改良的亲和力、对PAM序列改良的亲和力、改良的搜索用于目标序列的DNA的能力或其任何组合。不希望受理论束缚，认为CRISPR/Cas系统蛋白质，如CasX可通过沿DNA分子的一维扩散发现其目标序列。认为所述方法(1)包括核糖核蛋白与DNA分子结合，接着为(2)在目标序列处停顿，在一些实施例中，其中的任一个可受CasX蛋白对目标核酸序列改良的亲和力影响，由此相比于参考CasX蛋白改良CasX变异蛋白的功能。

在一些实施例中，具有改良的目标核酸亲和力的CasX变异蛋白具有增加的对DNA的总体亲和力。在一些实施例中，具有改良的目标核酸亲和力的CasX变异蛋白具有增加的对特定PAM序列的亲和力或利用所述特定PAM序列的能力，所述特定PAM序列不为由SEQ IDNO:2的参考CasX蛋白识别的典型TTC PAM，包括选自由TTC、ATC、GTC和CTC组成的组的PAM序列，由此相比于野生型CasX核酸酶增加可编辑的目标DNA的量。不希望受理论束缚，可能的是由于利用超出野生型参考CasX的那些序列的额外PAM序列的能力，这些蛋白质变体可总体上更强有力地与DNA相互作用，且可具有增强的接近和编辑目标DNA内的序列的能力，由此允许针对目标序列搜索CasX蛋白的更高效方法。在一些实施例中，对DNA的较高总体亲和力还可增加CasX蛋白质可有效地起始和完成结合和解旋步骤的频率，由此促进目标股侵入和R环形成，且最终促进目标核酸序列裂解。

不希望受理论束缚，可能的是增加非目标DNA股的解旋或呈解旋状态的非目标DNA股的捕捉效率的NTSBD中的氨基酸变化可增加CasX变异蛋白对目标DNA的亲和力。或者或另外，增加NTSBD在解旋期间稳定DNA的能力的NTSBD中的氨基酸变化可增加CasX变异蛋白对目标DNA的亲和力。或者或另外，OBD中的氨基酸变化可增加CasX变异蛋白结合至前间隔子邻近基序(PAM)的亲和力，由此增加CasX变异蛋白对目标核酸的亲和力。或者或另外，螺旋形I和/或II、RuvC和TSL域中增加CasX变异蛋白对目标核酸股的亲和力的氨基酸变化可增加CasX变异蛋白对目标核酸的亲和力。

在一些实施例中，相对于参考CasX蛋白，本发明的CasX变异蛋白对目标核酸分子的结合亲和力增加至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约15倍、至少约20倍、至少约25倍、至少约30倍、至少约35倍、至少约40倍、至少约45倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。在一些实施例中，相比于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白，CasX变异蛋白对目标核酸的结合亲和力增加约1.1至约100倍。

在一些实施例中，CasX变异蛋白对目标核酸的非目标股的结合亲和力改良。如本文所用，术语“非目标股”是指不与gNA中的靶向序列形成沃森和克里克(Watson andCrick)碱基对，且与目标DNA股互补的DNA目标核酸序列的股。在一些实施例中，相比于SEQID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白，CasX变异蛋白对目标核酸的非目标股的结合亲和力增加约1.1至约100倍。

测量CasX蛋白(如参考或变体)对目标和/或非目标核酸分子的亲和力的方法可包括电泳迁移率变动分析(EMSA)、过滤结合、等温量热法(ITC)和表面等离子共振(SPR)、荧光偏振和生物层干涉测量术(BLI)。测量CasX蛋白对目标的亲和力的其它方法包括测量随时间推移的DNA裂解事件的体外生物化学分析。

o.对目标位点改良的特异性

在一些实施例中，相对于参考CasX蛋白，CasX变异蛋白对目标核酸序列的特异性改良。如本文所用，“特异性”(有时称为“目标特异性”)是指CRISPR/Cas系统核糖核蛋白复合物裂解与目标核酸序列类似，但不相同的脱靶序列的程度；例如，相对于参考CasX蛋白，具有较高特异性程度的CasX变体RNP将展现减少的序列脱靶裂解。CRISPR/Cas系统蛋白质的特异性和潜在有害的脱靶效应的减少可为极其重要的，以便实现用于哺乳动物个体的可接受治疗指数。

在一些实施例中，CasX变异蛋白对与gNA的靶向序列互补的目标序列内的目标位点的特异性改良。不希望受理论束缚，可能的是螺旋形I和II域中增加CasX变异蛋白对目标核酸股的特异性的氨基酸变化可增加CasX变异蛋白对目标核酸的总体特异性。在一些实施例中，增加CasX变异蛋白对目标核酸的特异性的氨基酸变化还可使得CasX变异蛋白对DNA的亲和力降低。

测试CasX蛋白(如变体或参考)目标特异性的方法可包括引导和环化以通过测序体外报导裂解效应(CIRCLE-seq)，或类似方法。简而言之，在CIRCLE-seq技术中，基因组DNA经剪切且通过连接茎-环衔接子而环化，所述衔接子在茎-环区域中带切口以暴露4个核苷酸回文突出物。此后为其余线性DNA的分子内连接和降解。含有CasX裂解位点的环状DNA分子随后经CasX线性化，且衔接子连接至暴露末端，接着进行高通量测序以产生含有关于脱靶位点的信息的配对末端读段。可用于检测脱靶事件，且因此检测CasX蛋白质特异性的额外分析包括用于检测和定量那些所选脱靶位点处形成的插入缺失(插入和缺失)的分析，如失配检测核酸酶分析和下一代测序(NGS)。示例性失配检测分析包括核酸酶分析，其中来自用CasX和sgNA处理的细胞的基因组DNA经PCR扩增、变性和再杂交以形成杂双螺旋DNA，其含有一个野生型股和一个具有插入缺失的股。失配经失配检测核酸酶，如Surveyor核酸酶或T7核酸内切酶I识别和裂解。

p.前间隔子和PAM序列

本文中，前间隔子定义为与引导RNA的靶向序列互补的DNA序列，且与所述序列互补的DNA分别称为目标股和非目标股。如本文所用，PAM为接近前间隔子的核苷酸序列，其与gNA的靶向序列结合帮助CasX定向和定位以潜在地裂解前间隔子股。

PAM序列可简并，且特定RNP构建体可具有支持不同裂解效率的不同优选和容许的PAM序列。除非另外说明，否则遵循惯例，本发明是指PAM和前间隔子序列和其根据非目标股定向的方向性。此不意味着非目标股，而非目标股的PAM序列决定裂解或在机制上涉及目标识别。举例来说，当参考TTC PAM时，其可实际上为目标裂解所需的互补GAA序列，或其可为来自两个股的核苷酸的某一组合。在本文公开的CasX蛋白的情况下，PAM位于前间隔子的5'，其中单个核苷酸将PAM与前间隔子的第一核苷酸分离。因此，在参考CasX的情况下，TTCPAM应理解为意指遵循式5'-…NNTTCN(前间隔子)NNNNNN…3'(SEQ ID NO:3296)的序列，其中‘N’为DNA核苷酸且‘(前间隔子)’为与引导RNA的靶向序列具有一致性的DNA序列。在具有扩大的PAM识别的CasX变体的情况下，TTC、CTC、GTC或ATC PAM应理解为意指以下式的序列：5'-…NNTTCN(前间隔子)NNNNNN…3'(SEQ ID NO:3296)；5'-…NNCTCN(前间隔子)NNNNNN…3'(SEQ ID NO:3297)；5'-…NNGTCN(前间隔子)NNNNNN…3'(SEQ ID NO:3298)；或5'-…NNATCN(前间隔子)NNNNNN…3'(SEQ ID NO:3299)。或者，TC PAM应理解为意指以下式的序列：5'-…NNNTCN(前间隔子)NNNNNN…3'(SEQ ID NO:3300)。

在一些实施例中，相比于类似分析系统中包含参考CasX蛋白的RNP的编辑效率和/或结合，当PAM序列TTC、ATC、GTC或CTC中的任一个位于与细胞分析系统中的gNA的靶向序列具有一致性的前间隔子的非目标股的5'为1个核苷酸时，具有改良的PAM序列编辑的CasX变体展现目标DNA中目标序列的较大编辑效率和/或结合。在一些实施例中，PAM序列为TTC。在一些实施例中，PAM序列为ATC。在一些实施例中，PAM序列为CTC。在一些实施例中，PAM序列为GTC。

q.DNA的解旋

在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改良的解旋DNA的能力。先前已显示不佳dsDNA解旋削弱或阻止CRISPR/Cas系统蛋白质AnaCas9或Cas14s裂解DNA的能力。因此，不希望受任何理论束缚，可能的是通过一些本发明的CasX变异蛋白增加的DNA裂解活性至少部分归因于增强的发现和解旋目标位点处的dsDNA的能力。测量CasX蛋白(如变体或参考)解旋DNA的能力的方法包括但不限于观察荧光偏振或生物层干涉测量术中dsDNA目标增加的缔合速率的体外分析。

不希望受理论束缚，认为NTSB域中的氨基酸变化可产生具有增加的DNA解旋特征的CasX变异蛋白。或者或另外，与PAM相互作用的OBD或螺旋形域区域中的氨基酸变化还可产生具有增加的DNA解旋特征的CasX变异蛋白。

r.催化活性

本文公开的CasX:gNA系统的核糖核蛋白复合物包含与gNA复合的参考CasX蛋白或CasX变体，gNA结合至目标核酸且在一些情况下裂解目标核酸。在一些实施例中，CasX变异蛋白相对于参考CasX蛋白具有改良的催化活性。不希望受理论束缚，认为在一些情况下，目标股裂解可为Cas12样分子产生dsDNA断裂中的限制因素。在一些实施例中，CasX变异蛋白改良DNA的目标股的弯曲和此股的裂解，使得通过CasX核糖核蛋白复合物裂解的dsDNA的总效率改良。

在一些实施例中，CasX变异蛋白相比于参考CasX蛋白具有增加的核酸酶活性。具有增加的核酸酶活性的变体可例如经由RuvC核酸酶域中的氨基酸变化来产生。在一些实施例中，RuvC域的氨基酸残基708-804中的氨基酸取代可使得编辑效率提高，如图10中所见。在一些实施例中，CasX变体包含具有切口酶活性的核酸酶域。在前述实施例中，基因编辑对的CasX切口酶在非目标股中的PAM位点的3'的10-18个核苷酸内产生单股断裂。在其它实施例中，CasX变体包含具有双股裂解活性的核酸酶域。在前述内容中，基因编辑对的CasX在目标股上的PAM位点的5'的18-26个核苷酸和非目标股上的3'的10-18个核苷酸内产生双股断裂。可通过多种方法，包括实例的那些方法分析核酸酶活性。在一些实施例中，相比于参考或野生型CasX，CasX变体的K_cleave常数大至少2倍，或至少3倍，或至少4倍，或至少5倍，或至少6倍，或至少7倍，或至少8倍，或至少9倍，或至少10倍。

在一些实施例中，针对双股裂解，CasX变异蛋白具有增加的目标股负载。具有增加的目标股负载活性的变体可例如经由TLS域中的氨基酸变化来产生。不希望受理论束缚，TSL域中的氨基酸变化可产生具有改良的催化活性的CasX变异蛋白。或者或另外，RNA:DNA双螺旋的结合通道周围的氨基酸变化还可改良CasX变异蛋白的催化活性。

在一些实施例中，CasX变异蛋白相比于参考CasX蛋白具有增加的附带裂解活性。如本文所用，“附带裂解活性”是指在识别和裂解目标核酸之后，核酸的额外非靶向裂解。在一些实施例中，CasX变异蛋白相比于参考CasX蛋白具有减少的附带裂解活性。

在一些实施例，例如包涵其中目标核酸的裂解并非所需结果的应用的那些实施例中，改良CasX变异蛋白的催化活性包含改变、降低或消除CasX变异蛋白的催化活性。在一些实施例中，包含dCasX变异蛋白的核糖核蛋白复合物结合至目标核酸且不裂解目标核酸。

在一些实施例中，包含CasX变异蛋白的CasX核糖核蛋白复合物结合目标DNA，但在目标DNA中产生单股切口。在一些实施例，尤其是其中CasX蛋白为切口酶的那些实施例中，CasX变异蛋白具有减少的针对单股切口的目标股负载。具有减少的目标股负载的变体可例如经由TSL域中的氨基酸变化来产生。

用于表征CasX蛋白的催化活性的示例性方法可包括但不限于体外裂解分析，包括以下实例的那些。在一些实施例中，DNA产物于琼脂糖凝胶上的电泳可查询股裂解的动力学。

s.针对目标RNA的亲和力

在一些实施例中，包含参考CasX蛋白或其变体的核糖核蛋白复合物结合至目标RNA且裂解目标核酸。在一些实施例中，当相比于参考CasX蛋白时，参考CasX蛋白的变体增加CasX变异蛋白对目标RNA的特异性，且增加CasX变异蛋白对于目标RNA的活性。举例来说，当相比于参考CasX蛋白时，CasX变异蛋白可显示增加的对目标RNA的结合亲和力，或增加的目标RNA裂解。在一些实施例中，包含CasX变异蛋白的核糖核蛋白复合物结合至目标RNA和/或裂解目标RNA。在一些实施例中，相比于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考蛋白质，CasX变体对目标核酸的结合亲和力增加至少约二倍至约10倍。

t.CasX融合蛋白

在一些实施例中，本发明提供包含与CasX融合的异源蛋白的CasX蛋白。在一些情况下，CasX为参考CasX蛋白。在其它情况下，CasX为本文所述的任一实施例的CasX变体。

在一些实施例中，CasX变异蛋白与具有不同的所关注活性的一种或多种蛋白或其域融合，产生融合蛋白。举例来说，在一些实施例中，CasX变异蛋白与抑制转录、修饰目标核酸或修饰与核酸相关的多肽(例如组蛋白修饰)的蛋白质(或其域)融合。

在一些实施例中，CasX变体包含与具有所关注活性的一种或多种蛋白质或其域融合的SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个。在一些实施例中，CasX变体包含与具有所关注活性的一种或多种蛋白质或其域融合的SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个。在一些实施例中，CasX变体包含与具有所关注活性的一种或多种蛋白质或其域融合的SEQ IDNO:3498-3501、3505-3520和3540-3549中的任一个。

在一些实施例中，异源多肽(或异源氨基酸，如半胱氨酸残基或非天然氨基酸)可插入CasX蛋白内的一个或多个位置以产生CasX融合蛋白。在其它实施例中，半胱氨酸残基可插入CasX蛋白内的一个或多个位置，接着结合下文所述的异源多肽。在一些替代实施例中，异源多肽或异源氨基酸可在参考或CasX变异蛋白的N端或C端处添加。在其它实施例中，异源多肽或异源氨基酸可插入CasX蛋白质的序列内部。

在一些实施例中，参考CasX或变异融合蛋白保留RNA引导序列特异性目标核酸结合和裂解活性。在一些情况下，参考CasX或变异融合蛋白具有(保留)不具有异源蛋白插入的对应参考CasX或变异蛋白的活性(例如裂解和/或结合活性)的50％或更大。在一些情况下，参考CasX或变异融合蛋白保留不具有异源蛋白插入的对应CasX蛋白的活性(例如裂解和/或结合活性)的至少约60％、或至少约70％、至少约80％、或至少约90％、或至少约92％、或至少约95％、或至少约98％、或约100％。

在一些情况下，相对于不具有插入的异源氨基酸或异源多肽的CasX蛋白的活性，参考CasX或CasX变异融合蛋白保留(具有)目标核酸结合活性。在一些情况下，参考CasX或CasX变异融合蛋白保留不具有异源蛋白插入的对应CasX蛋白的结合活性的至少约60％、或至少约70％、至少约80％、或至少约90％、或至少约92％、或至少约95％、或至少约98％、或约100％。

在一些情况下，相对于不具有插入的异源氨基酸或异源多肽的亲本CasX蛋白的活性，参考CasX或CasX变异融合蛋白保留(具有)目标核酸结合和/或裂解活性。举例来说，在一些情况下，参考CasX或CasX变异融合蛋白具有(保留)对应亲本CasX蛋白(不具有插入的CasX蛋白)的结合和/或裂解活性的50％或更大。举例来说，在一些情况下，参考CasX或CasX变异融合蛋白具有(保留)对应亲本CasX蛋白(不具有插入的CasX蛋白)的结合和/或裂解活性的60％或更大(70％或更大、80％或更大、90％或更大、92％或更大、95％或更大、98％或更大、或100％)。测量CasX蛋白和/或CasX融合蛋白的裂解和/或结合活性的方法将为本领域普通技术人员已知，且可使用任何便利方法。

多种异源多肽适合包括于本发明的参考CasX或CasX变异融合蛋白中。在一些情况下，融合搭配物可调节目标DNA的转录(例如抑制转录、增加转录)。举例来说，在一些情况下，融合搭配物为抑制转录的蛋白质(或来自蛋白质的域)(例如转录抑制因子，一种经由募集转录抑制剂蛋白、修饰目标DNA(如甲基化)、募集DNA修饰剂、调节与目标DNA相关的组蛋白、募集组蛋白修饰剂(如修饰组蛋白的乙酰化和/或甲基化的那些)等起作用的蛋白质)。在一些情况下，融合搭配物为增加转录的蛋白质(或来自蛋白质的域)(例如转录活化因子，一种经由募集转录活化因子蛋白、修饰目标DNA(如去甲基化)、募集DNA修饰剂、调节与目标DNA相关的组蛋白、募集组蛋白修饰剂(如修饰组蛋白的乙酰化和/或甲基化的那些)等起作用的蛋白质)。

在一些情况下，融合搭配物具有修饰目标核酸的酶活性；例如核酸酶活性、甲基转移酶活性、去甲基酶活性、DNA修复活性、DNA损伤活性、脱胺活性、岐化酶活性、烷基化活性、去嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解螺旋酶活性、光裂合酶活性或醣苷酶活性。

在一些情况下，融合搭配物具有修饰与目标核酸相关的多肽(例如组蛋白)的酶活性；例如甲基转移酶活性、去甲基酶活性、乙酰转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛蛋白连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，和具有甲基转移酶活性、去甲基酶活性、乙酰转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛蛋白连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性的多肽。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，和具有甲基转移酶活性、去甲基酶活性、乙酰转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛蛋白连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性的多肽。在一些实施例中，CasX变体包含SEQID NO:3498-3501、3505-3520和3540-3549中的任一个，和具有甲基转移酶活性、去甲基酶活性、乙酰转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛蛋白连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性的多肽。

可用作适合于参考CasX或CasX变体的融合搭配物以增加转录的蛋白质(或其片段)的实例包括但不限于：转录活化子，如VP16、VP64、VP48、VP160、p65子域(例如来自NFkB)和EDLL的活化域和/或转录活化因子样(TAL)活化域(例如用于植物中的活性)；组蛋白赖氨酸甲基转移酶，如含有1A，组蛋白赖氨酸甲基转移酶的SET域(SET1A)、含有1B，组蛋白赖氨酸甲基转移酶的SET域(SET1B)、赖氨酸甲基转移酶2A(MLL1)至5、ASCL1(ASH1)无刚毛鳞甲(achaete-scute)家族bHLH转录因子1(ASH1)、含有2provided的SET和MYND域(SMYD2)、核受体结合SET域蛋白1(NSD1)等；组蛋白赖氨酸去甲基酶，如赖氨酸去甲基酶3A(JHDM2a)/赖氨酸特异性去甲基酶3B(JHDM2b)、赖氨酸去甲基酶6A(UTX)、赖氨酸去甲基酶6B(JMJD3)等；组蛋白乙酰基转移酶，如赖氨酸乙酰转移酶2A(GCN5)、赖氨酸乙酰转移酶2B(PCAF)、CREB结合蛋白(CBP)、E1A结合蛋白p30(p300)、TATA-盒结合蛋白相关因子1(TAF1)、赖氨酸乙酰转移酶5(TIP60/PLIP)、赖氨酸乙酰转移酶6A(MOZ/MYST3)、赖氨酸乙酰转移酶6B(MORF/MYST4)、SRC原癌基因、非受体酪氨酸激酶(SRC1)、核受体共活化剂3(ACTR)、MYB结合蛋白1a(P160)、时钟昼夜节律调节因子(CLOCK)等；和DNA去甲基酶，如十-十一易位(TET)双加氧酶1(TET1CD)、tet甲基胞嘧啶双加氧酶1(TET1)、demeter(DME)、demeter样1(DML1)、demeter样2(DML2)、蛋白质ROS1(ROS1)等。

可用作适合于参考CasX或CasX变体的融合搭配物以减少转录的蛋白质(或其片段)的实例包括但不限于：转录抑制子，如Kruppel相关盒(KRAB或SKD)；KOX1抑制域；MadmSIN3相互作用域(SID)；ERF抑制子域(ERD)、SRDX抑制域(例如用于植物中的抑制)等；组蛋白赖氨酸甲基转移酶，如含蛋白质的PR/SET域(Pr-SET)7/8、赖氨酸甲基转移酶5B(SUV4-20H1)、PR/SET域2(RIZ1)等；组蛋白赖氨酸去甲基酶，如赖氨酸去甲基酶4A(JMJD2A/JHDM3A)、赖氨酸去甲基酶4B(JMJD2B)、赖氨酸去甲基酶4C(JMJD2C/GASC1)、赖氨酸去甲基酶4D(JMJD2D)、赖氨酸去甲基酶5A(JARID1A/RBP2)、赖氨酸去甲基酶5B(JARID1B/PLU-1)、赖氨酸去甲基酶5C(JARID 1C/SMCX)、赖氨酸去甲基酶5D(JARID1D/SMCY)等；组蛋白赖氨酸脱乙酰基酶，如组蛋白脱乙酰基酶1(HDAC1)、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、长寿蛋白1(SIRT1)、SIRT2、HDAC11等；DNA甲基化酶，如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、甲基转移酶1(MET1)、S-腺苷-L-甲硫氨酸依赖性甲基转移酶超家族蛋白(DRM3)(植物)、DNA胞嘧啶甲基转移酶MET2a(ZMET2)、染色质甲基化酶1(CMT1)、染色质甲基化酶2(CMT2)(植物)等；和边缘募集元件，如核纤层蛋白A、核纤层蛋白B等。

在一些情况下，参考CasX或CasX变体的融合搭配物具有修饰目标核酸(例如ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合搭配物提供的酶活性的实例包括但不限于：核酸酶活性，如由限制酶(例如FokI核酸酶)提供；甲基转移酶活性，如由甲基转移酶(例如Hhal DNA m5c-甲基转移酶(M.Hhal)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供；去甲基酶活性，如由去甲基酶(例如十-十一易位(TET)双加氧酶1(TET 1CD)、TET1、DME、DML1、DML2、ROS1等提供)；DNA修复活性；DNA损伤活性；脱胺活性，如由脱胺酶(例如胞嘧啶脱胺酶，例如APOBEC蛋白，如大鼠脂蛋白元B mRNA编辑酶、催化多肽1{APOBEC1})提供；岐化酶活性；烷基化活性；去嘌呤活性；氧化活性；嘧啶二聚体形成活性；整合酶活性，如由整合酶和/或解离酶(例如Gin转化酶，如Gin转化酶的高度活化突变体GinH106Y；人类免疫缺陷病毒1型整合酶(IN)；Tn3解离酶；等)提供；转座酶活性；重组酶活性，如由重组酶(例如Gin重组酶的催化域)提供；聚合酶活性；连接酶活性；解螺旋酶活性；光裂合酶活性和醣苷酶活性)。

在一些情况下，本发明的参考CasX或CasX变异蛋白与选自以下的多肽融合：增加转录的域(例如VP16域、VP64域)、减少转录的域(例如KRAB域，例如来自Kox1蛋白)、组蛋白乙酰转移酶(例如组蛋白乙酰转移酶p300)的核催化域、提供可检测信号的蛋白质/域(例如荧光蛋白，如GFP)、核酸酶域(例如Fokl核酸酶)和碱基编辑剂(进一步论述于下文)。

在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，其与选自由以下组成的组的多肽融合：减少转录的域、具有酶活性的域、组蛋白乙酰转移酶的核催化域、提供可检测信号的蛋白质/域、核酸酶域和碱基编辑剂。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，其与选自由以下组成的组的多肽融合：减少转录的域、具有酶活性的域、组蛋白乙酰转移酶的核催化域、提供可检测信号的蛋白质/域、核酸酶域和碱基编辑剂。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个，其与选自由以下组成的组的多肽融合：减少转录的域、具有酶活性的域、组蛋白乙酰转移酶的核催化域、提供可检测信号的蛋白质/域、核酸酶域和碱基编辑剂。

在一些情况下，本发明的参考CasX蛋白或CasX变体与碱基编辑剂融合。碱基编辑剂包括可改变核苷或核苷酸上的鸟嘌呤、腺嘌呤、胞嘧啶、胸腺嘧啶或尿嘧啶碱基的那些。碱基编辑剂包括但不限于腺苷脱胺酶、胞嘧啶脱胺酶(例如APOBEC1)和鸟嘌呤氧化酶。因此，本文提供的参考CasX或CasX变体中的任一个可包含碱基编辑剂(即，与其融合)；举例来说，本发明的参考CasX或CasX变体可与腺苷脱胺酶、胞嘧啶脱胺酶或鸟嘌呤氧化酶融合。在示例性实施例中，包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的本发明的CasX变体与腺苷脱胺酶、胞嘧啶脱胺酶或鸟嘌呤氧化酶融合。

在一些情况下，参考CasX或CasX变体的融合搭配物具有酶活性，所述酶活性修饰与目标核酸(例如ssRNA、dsRNA、ssDNA、dsDNA)相关的蛋白质(例如组蛋白、RNA结合蛋白、DNA结合蛋白等)。可由与参考CasX或CasX变体的融合搭配物提供的酶活性(修饰与目标核酸相关的蛋白质)的实例包括但不限于：甲基转移酶活性，如由组蛋白甲基转移酶(HMT)(例如杂色(variegation)3-9同源物1的抑制剂(SUV39H1，也称为KMT1A)、真染色质组蛋白赖氨酸甲基转移酶2(G9A，也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SMYD2、NSD1、DOT1样组蛋白赖氨酸甲基转移酶(DOT1L)、Pr-SET7/8、赖氨酸甲基转移酶5B(SUV4-20H1)、zeste 2多蜂房蛋白抑制复合物2次单位的强化子(EZH2)、PR/SET域2(RIZ1)提供；去甲基酶活性，如由组蛋白去甲基酶(例如赖氨酸去甲基酶1A(KDM1A，也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供；乙酰转移酶活性，如由组蛋白乙酰酶转移酶(例如人类乙酰转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HB01/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核/片段)提供；脱乙酰基酶活性，如由组蛋白脱乙酰基酶(例如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供；激酶活性；磷酸酶活性；泛蛋白连接酶活性；去泛素化活性；腺苷酸化活性；去腺苷酸化活性；SUMO化活性；去SUMO化活性；核糖基化活性；去核糖基化活性；豆蔻酰化活性；和去豆蔻酰化活性。

适合于参考CasX或CasX变体的熔融搭配物的额外实例为(i)二氢叶酸还原酶(DHFR)不稳定域(例如以产生化学可控对象RNA引导多肽)，和(ii)叶绿体转运肽。

适合的叶绿体转运肽包括但不限于与以下各者具有至少80％、至少90％、或至少95％一致性或与其一致的序列：MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGR VKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:338)；MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:339)；MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQV WPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:340)；MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIG SELRPLKVMSSVSTAC(SEQ ID NO:341)；MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:342)；MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:343)；MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPH RFDRRCLSMVV(SEQ ID NO:344)；MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:345)；MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:346)；MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVIS RSAAAA(SEQ ID NO:347)；和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQID NO:348)。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个和叶绿体转运肽。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个和叶绿体转运肽。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个和叶绿体转运肽。

在一些情况下，本发明的参考CasX或CasX变异蛋白可包括内体逃逸肽。在一些情况下，内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:349)，其中各X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下，内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:350)或HHHHHHHHH(SEQ ID NO:351)。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的序列和内体逃逸多肽。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的序列和内体逃逸多肽。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个的序列和内体逃逸多肽。

适合于参考CasX或CasX变体以供靶向ssRNA目标核酸时使用的熔融搭配物的非限制性实例包括(但不限于)：剪接因子(例如RS域)；蛋白质翻译组分(例如翻译起始、伸长和/或释放因子；例如真核翻译起始因子4γ{eIF4G})；RNA甲基化酶；RNA编辑酶(例如RNA去胺酶，例如作用于RNA的腺苷脱胺酶(ADAR)，包括A至I和/或C至U编辑酶)；解螺旋酶；RNA结合蛋白；等。应理解，异源多肽可包括整个蛋白质，或在一些情况下可包括蛋白质片段(例如功能域)。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，和选自由以下组成的组的蛋白质或域：剪接因子、蛋白质翻译组分、RNA甲基化酶、RNA编辑酶、解螺旋酶和RNA结合蛋白。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，和选自由以下组成的组的蛋白质或域：剪接因子、蛋白质翻译组分、RNA甲基化酶、RNA编辑酶、解螺旋酶和RNA结合蛋白。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个，和选自由以下组成的组的蛋白质或域：剪接因子、蛋白质翻译组分、RNA甲基化酶、RNA编辑酶、解螺旋酶和RNA结合蛋白。

参考CasX或CasX变体的融合搭配物可为能够与ssRNA(其出于本发明的目的包括分子内和/或分子间二级结构，例如双股RNA双螺旋体，如发夹、茎-环等)相互作用的任何域，无论短暂地或不可逆地、直接地或间接地，包括但不限于选自包含以下的组的效应子域：核酸内切酶(例如RNA酶III、CRR22 DYW域、内切酶和PIN(PilT N端)域，来自如SMG5和SMG6的蛋白质)；负责刺激RNA裂解的蛋白和蛋白域(例如裂解和聚腺苷酸化特异性因子{CPSF}、裂解刺激因子{CstF}、CFIm和CFIIm)；核酸外切酶(例如染色质结合核酸外切酶XRN1(XRN-1)或核酸外切酶T)；脱腺苷化酶(例如DNA 5'-单磷酸腺苷水解酶{HNT3})；负责无义介导的RNA衰减的蛋白和蛋白域(例如UPF1 RNA解螺旋酶和ATP酶{UPF1}、UPF2、UPF3、UPF3b、RNP SI、RNA结合基序蛋白8A{Y14}、DEK原癌基因{DEK}、RNA加工蛋白REF2{REF2}和丝氨酸-精氨酸重复基质1{SRm160})；负责稳定RNA的蛋白和蛋白域(例如poly(A)结合蛋白细胞质1{PABP})；负责抑制翻译的蛋白和蛋白域(例如argonaute RISC催化组分2{Ago2}和Ago4)；负责刺激翻译的蛋白和蛋白域(例如Staufen)；负责(例如能够)调节翻译的蛋白和蛋白域(例如翻译因子，如起始因子、伸长因子、释放因子等，例如eIF4G)；负责RNA的聚腺苷酸化的蛋白和蛋白域(例如poly(A)聚合酶(PAP1)、含有PAP相关域的蛋白；poly(A)RNA聚合酶gld-2{GLD-2}和Star-PAP)；负责RNA的聚尿苷化的蛋白和蛋白域(例如末端尿苷酰转移酶{CID1}和末端尿苷酸转移酶)；负责RNA定位的蛋白和蛋白域(例如来自胰岛素样生长因子2mRNA结合蛋白1{IMP1}、Z-DNA结合蛋白1{ZBP1}、She2p、She3p和Bicaudal-D)；负责RNA的核保留的蛋白和蛋白域(例如Rrp6)；负责RNA的核输出的蛋白和蛋白域(例如核RNA输出因子1{TAP}、核RNA输出因子1{NXF1}、THO复合物{THO}、TREX、REF和Aly/REF输出因子{Aly})；负责抑制RNA剪接的蛋白和蛋白域(例如多嘧啶串结合蛋白1{PTB}、含有信号转导相关1的KH RNA结合域Sam68}和核不均一核糖核蛋白A1{hnRNP A1})；负责刺激RNA剪接的蛋白和蛋白域(例如丝氨酸/精氨酸富含(SR)域)；负责降低转录效率的蛋白和蛋白域(例如FUS RNA结合蛋白{FUS(TLS)})；和负责刺激转录的蛋白和蛋白域(例如细胞周期蛋白依赖性激酶7{CDK7}和HIV Tat)。或者，效应子域可选自包含以下各者的组：核酸内切酶；能够刺激RNA裂解的蛋白和蛋白域；核酸外切酶；脱腺苷化酶；具有无义介导的RNA衰减活性的蛋白和蛋白域；能够稳定RNA的蛋白和蛋白域；能够抑制翻译的蛋白和蛋白域；能够刺激翻译的蛋白和蛋白域；能够调节翻译的蛋白和蛋白域(例如翻译因子，如起始因子、伸长因子、释放因子等，例如eIF4G)；能够对RNA进行聚腺苷酸化的蛋白和蛋白域；能够对RNA进行聚尿苷化的蛋白和蛋白域；具有RNA定位活性的蛋白和蛋白域；能够对RNA进行核保留的蛋白和蛋白域；具有RNA核导出活性的蛋白和蛋白域；能够抑制RNA剪接的蛋白和蛋白域；能够刺激RNA剪接的蛋白和蛋白域；能够降低转录效率的蛋白和蛋白域；和能够刺激转录的蛋白和蛋白域。另一适合的异源多肽为PUF RNA结合域，其更详细地描述于以全文引用的方式并入本文中的WO2012068627中。

可用作(以整体或其片段形式)与参考CasX或CasX变体的融合搭配物的一些适合的RNA剪接因子具有模组化组织，其具有独立的序列特异性RNA结合模组和剪接效应子域。举例来说，富含丝氨酸/精氨酸(SR)的蛋白质家族的成员含有结合至前mRNA中的外显子剪接强化子(ESE)的N端RNA识别基序(RRM)和促进外显子包涵的C端RS域。作为另一实例，hnRNP蛋白hnRNP A1经由其RRM域结合至外显子剪接沉默子(ESS)，且经由C端甘氨酸富含域抑制外显子包涵。一些剪接因子可通过结合至两个替代位点之间的调节序列而调节剪接位点的替代使用。举例来说，ASF/SF2可识别ESE且促进使用内含子近端位点，而hnRNP A1可结合至ESS且使剪接转向使用内含子远端位点。此类因子的一种应用为产生调节内源基因，尤其是疾病相关基因的替代性剪接的ESF。举例来说，BCL2样1(Bcl-x)前mRNA产生具有两个替代5'剪接位点的两种剪接同功异型物，以编码具有相反功能的蛋白质。长剪接同功异型物Bcl-xL为强力细胞雕亡抑制剂，其表达于长寿命的有丝分裂后细胞中且在许多癌细胞中上调，保护细胞免受雕亡信号影响。短同功异型物Bcl-xS为促细胞雕亡同功异型物，且在具有高周转率(例如产生淋巴细胞)的细胞中以高表达量表达。通过位于核外显子区域或外显子延伸区域(即，在两个替代5'剪接位点之间)中的多个cc-元件调节两种Bcl-x剪接的比。关于更多实例，参见WO2010075303，其以全文引用的方式并入本文中。其它适合的熔融搭配物包括但不限于为边界元件的蛋白质(或其片段)(例如CTCF)、提供边缘募集的蛋白质和其片段(例如核纤层蛋白A、核纤层蛋白B等)和蛋白质对接元件(例如FKBP/FRB、Pill/Abyl等)。

在一些情况下，与参考CasX或CasX变体一起使用的异源多肽(融合搭配物)提供次细胞定位，即异源多肽含有次细胞定位序列(例如用于靶向至细胞核的核定位信号(NLS)；保持融合蛋白在细胞核之外的序列，例如核输出序列(NES)；保持融合蛋白滞留于细胞质中的序列；用于靶向至线粒体的线粒体定位信号；用于靶向至叶绿体的叶绿体定位信号；ER滞留信号；等)。在一些实施例中，主题RNA引导多肽或条件活性RNA引导多肽和/或主题CasX融合蛋白不包括NLS，以使得蛋白质不靶向至细胞核，其可为有利的；例如当目标核酸为存在于胞溶质中的RNA时。在一些实施例中，融合搭配物可提供标签(即，异源多肽为可检测标记)以易于追踪和/或纯化(例如荧光蛋白，例如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、强化型蓝荧光蛋白(CFP)、mCherry、tdTomato等；组氨酸标签，例如6×His标签；血凝素(HA)标签；FLAG标签；Myc标签；等)。在一些实施例中，CasX变体包含SEQ IDNO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，和次细胞定位序列或标签。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个，和次细胞定位序列或标签。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个，和次细胞定位序列或标签。

在一些情况下，参考或CasX变异蛋白包括(融合至)核定位信号(NLS)。在一些情况下，参考或CasX变异蛋白融合至2个或更多个、3个或更多个、4个或更多个、或5个或更多个、6个或更多个、7个或更多个、8个或更多个NLS。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个、或5个或更多个NLS)位于N端和/或C端处或附近(例如在其50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个、或5个或更多个NLS)位于N端处或附近(例如在其50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个、或5个或更多个NLS)位于C端处或附近(例如在其50个氨基酸内)。在一些情况下，一个或多个NLS(3个或更多个、4个或更多个、或5个或更多个NLS)位于N端和C端处或附近(例如在其50个氨基酸内)。在一些情况下，一个NLS位于N端且一个NLS位于C端。在一些情况下，参考或CasX变异蛋白包括(融合至)1至10个NLS(例如1-9、1-8、1-7、1-6、1-5、2-10、2-9、2-8、2-7、2-6或2-5个NLS)。在一些情况下，参考或CasX变异蛋白包括(融合至)2至5个NLS(例如2-4或2-3个NLS)。

适合与参考CasX或CasX变体一起使用的NLS的非限制性实例包括与衍生自以下各者的序列具有至少约80％、至少约90％、或至少约95％一致性或与其一致的序列：SV40病毒大T-抗原的NLS，具有氨基酸序列PKKKRKV(SEQ ID NO:352)；来自核质蛋白的NLS(例如具有序列KRPAATKKAGQAKKKK(SEQ ID NO:353)的核质蛋白二分NLS；具有氨基酸序列PAAKRVKLD(SEQ ID NO:354)或RQRRNELKRSP(SEQ ID NO:355)的c-myc NLS；hRNPAl M9 NLS，其具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:356)；来自输入蛋白-α的IBB域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:358)和PPKKARED(SEQ ID NO:359)；人类p53的序列PQPKKKPL(SEQID NO:360)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:361)；流感病毒NS1的序列DRLRR(SEQ ID NO:362)和PKQKKRK(SEQ ID NO:363)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:364)；小鼠Mxl蛋白的序列REKKKFLKRR(SEQ ID NO:365)；人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:366)；类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:367)；博纳病(Borna disease)病毒P蛋白(BDV-P1)的序列PRPRKIPR(SEQ ID NO:368)；丙型肝炎病毒非结构蛋白(HCV-NS5A)的序列PPRKKRTVV(SEQ ID NO:369)；LEF1的序列NLSKKKKRKREK(SEQ ID NO:370)；ORF57 simirae的序列RRPSRPFRKP(SEQ ID NO:371)；EBV LANA的序列KRPRSPSS(SEQ ID NO:372)；甲型流感蛋白的序列KRGINDRNFWRGENERKTR(SEQ ID NO:373)；人类RNA解螺旋酶A(RHA)的序列PRPPKMARYDN(SEQ ID NO:374)；核仁RNA解螺旋酶II的序列KRSFSKAF(SEQ ID NO:375)；TUS-蛋白的序列KLKIKRPVK(SEQ ID NO:376)；与输入蛋白-α相关的序列PKKKRKVPPPPAAKRVKLD(SEQ ID NO:377)；来自HTLV-1中的Rex蛋白的序列PKTRRRPRRSQRKRPPT(SEQ ID NO:378)；来自秀丽隐杆线虫(Caenorhabditis elegans)的EGL-13蛋白的序列SRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:379)；和序列KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ IDNO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:388)和PKKKRKVPPPPKKKRKV(SEQ ID NO:389)。一般来说，NLS(或多个NLS)具有足以在真核细胞的细胞核中驱动参考或CasX变异融合蛋白的积聚的强度。可通过任何适合的技术进行细胞核中的积聚的检测。举例来说，可检测标记物可与参考或CasX变异融合蛋白融合，使得可观察到细胞内的位置。细胞核还可自细胞分离，可接着通过任何适合于检测蛋白质的方法，如免疫组织化学、蛋白质印迹或酶活性分析来分析其内容。还可间接地确定细胞核中的积聚。

在一些实施例中，包含N端NLS的CasX变体包含SEQ ID NO:3508-3540-3549中的任一个的序列。在一些实施例中，包含N端NLS的CasX变体包含对SEQ ID NO:3508-3540-3549中的任一个具有一个或多个额外修饰的序列。

在一些情况下，参考或CasX变异融合蛋白包括“蛋白质转导域”或PTD(也称为CPP-细胞穿透肽)，其是指促进穿越脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的蛋白质、聚核苷酸、碳水化合物或有机或无机化合物。连接至另一分子(其可在小极性分子至大型大分子和/或纳米粒子范围内)的PTD促进分子穿越膜，例如自细胞外空间进入细胞内空间，或自胞溶质进入细胞器内。在一些实施例中，PTD共价连接至参考或CasX变异融合蛋白的氨基末端。在一些实施例中，PTD共价连接至参考或CasX变异融合蛋白的羧基末端。在一些情况下，PTD在适合的插入位点处插入参考或CasX变异融合蛋白的序列内部。在一些情况下，参考或CasX变异融合蛋白包括(结合至、融合至)一个或多个PTD(例如两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下，PTD包括一个或多个核定位信号(NLS)。PTD的实例包括但不限于包含YGRKKRRQRRR(SEQ ID NO:390)、RKKRRQRR(SEQ ID NO:391)、YARAAARQARA(SEQ ID NO:392)、THRLPRRRRRR(SEQ ID NO:393)和GGRRARRRRRR(SEQ ID NO:394)的HIVTAT的肽转导域；包含足以直接进入细胞的多个精氨酸(例如3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列；VP22域(Zender等人(2002)《癌症基因疗法(Cancer GeneTher.)》9(6):489-96)；果蝇触角足蛋白转导域(Noguchi等人(2003)《糖尿病(Diabetes)》52(7):1732-1737)；截短人类降钙素肽(Trehin等人(2004)《药学研究(Pharm.Research)》21:1248-1256)；聚赖氨酸(Wender等人(2000)《美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)》97:13003-13008)；RRQRRTSKLMKR(SEQ ID NO:395)；运输蛋白GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:396)；KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:397)；和RQIKIWFQNRRMKWKK(SEQ ID NO:398)。在一些实施例中，PTD为可活化CPP(ACPP)(Aguilera等人(2009)《整合生物学(Integr Biol(Camb))》6月；1(5-6):371-381)。ACPP包含经由可裂解连接子连接至匹配的聚阴离子(例如Glu9或“E9”)的聚阳离子CPP(例如Arg9或“R9”)，其将净电荷降至接近零且因此抑制粘附和吸收至细胞中。在连接子裂解之后，聚阴离子释放，局部揭露聚精氨酸和其固有粘附性，因此“活化”ACPP以穿过膜。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个和PTD。在一些实施例中，CasX变体包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个和PTD。在一些实施例中，CasX变体包含SEQ ID NO:3498-3501、3505-3520和3540-3549中的任一个和PTD。

在一些实施例中，参考或CasX变异融合蛋白可包括经由连接子多肽(例如一个或多个连接子多肽)连接至内部插入的异源氨基酸或异源多肽(异源氨基酸序列)的CasX蛋白。在一些实施例中，参考或CasX变异融合蛋白可经由连接子多肽(例如一个或多个连接子多肽)在C端和/或N端连接至异源多肽(融合搭配物)。连接子多肽可具有多个氨基酸序列中的任一个。蛋白质可通过一般具有柔性性质的间隔子肽连接，但不排除其它化学键。适合的连接子包括长度为4个氨基酸至40个氨基酸，或长度为4个氨基酸至25个氨基酸的多肽。这些连接子一般通过使用合成、编码连接子的寡核苷酸偶联蛋白质而产生。可使用具有一定程度的柔性的肽连接子。连接肽可具有几乎任何氨基酸序列，应记住，优选连接子将具有产生总体柔性肽的序列。使用小氨基酸，如甘氨酸和丙氨酸在产生柔性肽中有用。产生此类序列对于本领域技术人员为常规的。多种不同连接子为市售的且被视为适合使用。实例性连接子多肽包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如(GS)n、GSGGSn(SEQ IDNO:399)、GGSGGSn(SEQ ID NO:400)和GGGSn(SEQ ID NO:401)，其中n为至少1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物、甘氨酸-脯氨酸聚合物、脯氨酸聚合物和脯氨酸-丙氨酸聚合物。实例性连接子可包含氨基酸序列，包括但不限于GGSG(SEQ ID NO:402)、GGSGG(SEQ ID NO:403)、GSGSG(SEQ ID NO:404)、GSGGG(SEQ ID NO:405)、GGGSG(SEQ IDNO:406)、GSSSG(SEQ ID NO:407)、GPGP(SEQ ID NO:408)、GGP、PPP、PPAPPA(SEQ ID NO:409)、PPPGPPP(SEQ ID NO:410)等。本领域普通技术人员应认识到，结合至上文所述的任何元件的肽的设计可包括完全或部分柔性的连接子，以使得连接子可包括柔性连接子以及一个或多个赋予较不可挠结构的部分。

V.gNA和CasX蛋白基因编辑对

在其它方面中，本文提供包含CasX蛋白和引导NA的基因编辑对(在本文中称为基因编辑对)的组合物。在某些实施例中，基因编辑对包含如本文所述的CasX变异蛋白(例如表3、8、9、10和12中所阐述的序列中的任一个)或如本文所述的参考CasX蛋白(例如SEQ IDNO:1-3)，尽管引导NA为如本文所述的参考gRNA(SEQ ID NO:4-16)或gNA变体(例如SEQ IDNO:2101-2280)，或与其具有至少60％、或至少70％、至少约80％、或至少约90％、或至少约95％序列一致性的序列变体，其中gNA包含与目标DNA互补的靶向序列。在其中一种组分为变体的那些实施例中，所述对被称为变异基因编辑对。在其它实施例中，基因编辑对包含CasX蛋白、具有靶向序列的第一gNA(参考gRNA{SEQ ID NO:4-16}或如本文所述的gNA变体{例如SEQ ID NO:2101-2280})和第二gNA变体或第二参考引导核酸，其中相比于第一gNA的靶向序列，第二gNA变体或第二参考引导核酸具有与目标DNA的不同或重叠部分互补的靶向序列。

在一些实施例中，相比于参考基因编辑对，变异基因编辑对具有一种或多种改良特征，其中参考基因编辑对包含SEQ ID NO:1-3的CasX蛋白、不同gNA或两者。举例来说，在一些实施例中，变异基因编辑对包含CasX变异蛋白，且相比于包含参考CasX蛋白的参考基因编辑对，变异基因编辑对具有一种或多种改良特征。在其它实施例中，变异基因编辑对包含gNA变体，且相比于包含参考gRNA的参考基因编辑对，变异基因编辑对具有一种或多种改良特征。在其它实施例中，变异基因编辑对包含gNA变体，且相比于包含参考CasX蛋白和参考gRNA的参考基因编辑对，变异基因编辑对具有一种或多种改良特征。

在本文提供的变异基因编辑对的一些实施例中，CasX为如本文所述的变异蛋白(例如表3、8、9、10和12中所阐述的序列或与所列序列具有至少60％、或至少70％、至少约80％、或至少约90％、或至少约95％、或至少约99％序列一致性的序列变体)，而gNA为SEQID NO:5或SEQ ID NO:4的参考gRNA。在本文提供的变异基因编辑对的一些实施例中，CasX包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白，而gNA变体为SEQ ID NO:2101-2280的序列，或与所列序列具有至少60％、或至少70％、至少约80％、或至少约90％、或至少约95％序列一致性的序列变体。

在一些实施例中，相比于包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白的参考基因编辑对，变异基因编辑对具有一种或多种改良特征。在一些实施例中，相比于包含SEQ ID NO:5或SEQ ID NO:4的参考gRNA的参考基因编辑对，变异基因编辑对具有一种或多种改良特征。在一些实施例中，相比于包含SEQ ID NO:1、SEQ ID NO:2或SEQ IDNO:3的参考CasX蛋白和SEQ ID NO:5或SEQ ID NO:4的参考gRNA的参考基因编辑对，变异基因编辑对具有一种或多种改良特征。

如本文所述的示例性改良特征可在一些实施例中，且包括改良的CasX:gNA RNP复合物稳定性、改良的CasX与gNA之间的结合亲和力、改良的RNP复合物形成的动力学、较高百分比的裂解胜任型RNP、改良的RNP与目标DNA的结合亲和力、改良的目标DNA解旋、增加的编辑活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合或改良的核酸酶活性抗性。在前述实施例中，相比于参考CasX蛋白和参考gNA对的特性，所述改良为至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。在其它情况下，改良特征中的一个或多个可相对于参考基因编辑对改良约1.1至100,00倍、约1.1至10,00倍、约1.1至1,000倍、约1.1至500倍、约1.1至100倍、约1.1至50倍、约1.1至20倍、约10至100,00倍、约10至10,00倍、约10至1,000倍、约10至500倍、约10至100倍、约10至50倍、约10至20倍、约2至70倍、约2至50倍、约2至30倍、约2至20倍、约2至10倍、约5至50倍、约5至30倍、约5至10倍、约100至100,00倍、约100至10,00倍、约100至1,000倍、约100至500倍、约500至100,00倍、约500至10,00倍、约500至1,000倍、约500至750倍、约1,000至100,00倍、约10,000至100,00倍、约20至500倍、约20至250倍、约20至200倍、约20至100倍、约20至50倍、约50至10,000倍、约50至1,000倍、约50至500倍、约50至200倍或约50至100倍。在其它情况下，改良特征中的一个或多个可相对于参考基因编辑对改良约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、25倍、30倍、40倍、45倍、50倍、55倍、60倍、70倍、80倍、90倍、100倍、110倍、120倍、130倍、140倍、150倍、160倍、170倍、180倍、190倍、200倍、210倍、220倍、230倍、240倍、250倍、260倍、270倍、280倍、290倍、300倍、310倍、320倍、330倍、340倍、350倍、360倍、370倍、380倍、390倍、400倍、425倍、450倍、475倍或500倍或更大。

在一些实施例中，变异基因编辑对含有包含SEQ ID NO:2101-2280中的任一个的序列的gNA变体和包含SEQ ID NO:1的氨基酸序列的参考CasX蛋白。在一些实施例中，变异基因编辑对含有包含SEQ ID NO:2101-2280中的任一个的序列的gNA变体和包含SEQ IDNO:2的参考CasX蛋白的变体的CasX变异蛋白。在一些实施例中，变异基因编辑对含有包含SEQ ID NO:5或SEQ ID NO:4的序列的参考gRNA和包含SEQ ID NO:2的参考CasX蛋白的变体的CasX变异蛋白。在一些实施例中，CasX变异蛋白包含SEQ ID NO:2的Y789T取代；SEQ IDNO:2的位置793处P的缺失、SEQ ID NO:2的Y789D取代、SEQ ID NO:2的T72S取代、SEQ IDNO:2的I546V取代、SEQ ID NO:2的E552A取代、SEQ ID NO:2的A636D取代、SEQ ID NO:2的F536S取代、SEQ ID NO:2的A708K取代、SEQ ID NO:2的Y797L取代、SEQ ID NO:2的L792G取代、SEQ ID NO:2的A739V取代、SEQ ID NO:2的G791M取代、SEQ ID NO:2的位置661处A的插入、SEQ ID NO:2的A788W取代、SEQ ID NO:2的K390R取代、SEQ ID NO:2的A751S取代、SEQID NO:2的E385A取代、SEQ ID NO:2的S794R和Y797L取代的组合、SEQ ID NO:2的696处P的插入、SEQ ID NO:2的K416E和A708K取代的组合、SEQ ID NO:2的位置773处M的插入、SEQ IDNO:2的G695H取代、SEQ ID NO:2的位置793处AS的插入、SEQ ID NO:2的位置795处AS的插入、SEQ ID NO:2的C477R取代、SEQ ID NO:2的C477K取代、SEQ ID NO:2的C479A取代、SEQID NO:2的C479L取代、SEQ ID NO:2的A708K取代和位置793处P的缺失的组合、SEQ ID NO:2的I55F取代、SEQ ID NO:2的K210R取代、SEQ ID NO:2的C233S取代、SEQ ID NO:2的D231N取代、SEQ ID NO:2的Q338E取代、SEQ ID NO:2的Q338R取代、SEQ ID NO:2的L379R取代、SEQID NO:2的K390R取代、SEQ ID NO:2的L481Q取代、SEQ ID NO:2的F495S取代、SEQ ID NO:2的D600N取代、SEQ ID NO:2的T886K取代、SEQ ID NO:2的位置793]处P的缺失和P793AS取代的组合、SEQ ID NO:2的A739V取代、SEQ ID NO:2的K460N取代、SEQ ID NO:2的I199F取代、SEQ ID NO:2的G492P取代、SEQ ID NO:2的T153I取代、SEQ ID NO:2的R591I取代、SEQ IDNO:2的位置795处AS的插入、SEQ ID NO:2的位置796处AS的插入、SEQ ID NO:2的位置889处L的插入、SEQ ID NO:2的E121D取代、SEQ ID NO:2的S270W取代、SEQ ID NO:2的E712Q取代、SEQ ID NO:2的K942Q取代、SEQ ID NO:2的E552K取代、SEQ ID NO:2的K25Q取代、SEQ IDNO:2的N47D取代、SEQ ID NO:2的Q367K和I425S取代的组合、SEQ ID NO:2的位置696处T的插入、SEQ ID NO:2的L685I取代、SEQ ID NO:2的N880D取代、SEQ ID NO:2的A708K取代、位置793处P的缺失和A739V取代的组合、SEQ ID NO:2的Q102R取代、SEQ ID NO:2的M734K取代、SEQ ID NO:2的A724S取代、SEQ ID NO:2的T704K取代、SEQ ID NO:2的P224K取代、SEQID NO:2的Q338R和A339E取代的组合、SEQ ID NO:2的Q338R和A339K取代的组合、SEQ IDNO:2的K25R取代、SEQ ID NO:2的M29E取代、SEQ ID NO:2的H152D取代、SEQ ID NO:2的S219R取代、SEQ ID NO:2的E475K取代、SEQ ID NO:2的S507G和G508R取代的组合、SEQ IDNO:2的g226R取代、SEQ ID NO:2的A377K取代、SEQ ID NO:2的E480K取代、SEQ ID NO:2的K416E取代、SEQ ID NO:2的H164R取代、SEQ ID NO:2的K767R取代、SEQ ID NO:2的I7F取代、SEQ ID NO:2的m29R取代、SEQ ID NO:2的H435R取代、SEQ ID NO:2的E385Q取代、SEQ IDNO:2的E385K取代、SEQ ID NO:2的I279F取代、SEQ ID NO:2的D489S取代、SEQ ID NO:2的D732N取代、SEQ ID NO:2的A739T取代、SEQ ID NO:2的W885R取代、SEQ ID NO:2的E53K取代、SEQ ID NO:2的A238T取代、SEQ ID NO:2的P283Q取代、SEQ ID NO:2的E292K取代、SEQID NO:2的Q628E取代、SEQ ID NO:2的F556I+D646A+G695D+A751S+A820P取代的组合、SEQID NO:2的R388Q取代、SEQ ID NO:2的L491I和M771N取代的组合、SEQ ID NO:2的G791M取代、SEQ ID NO:2的L792K取代、SEQ ID NO:2的L792E取代、SEQ ID NO:2的M779N取代、SEQID NO:2的G27D取代、SEQ ID NO:2的L379R和A708K取代和位置793处P的缺失的组合、SEQID NO:2的C477K和A708K取代和位置793处P的缺失的组合、SEQ ID NO:2的L379R、C477K和A708K取代和位置793处P的缺失的组合、SEQ ID NO:2的L379R、A708K和A739V取代和位置793处P的缺失的组合、SEQ ID NO:2的C477K、A708K和A739V取代和位置793处P的缺失的组合、SEQ ID NO:2的L379R、C477K、A708K和A739V取代和位置793处P的缺失的组合、SEQ IDNO:2的K955R取代、SEQ ID NO:2的S867R取代、SEQ ID NO:2的R693I取代、SEQ ID NO:2的F189Y取代、SEQ ID NO:2的V635M取代、SEQ ID NO:2的F399L取代、SEQ ID NO:2的E498K取代、SEQ ID NO:2的E386R取代、SEQ ID NO:2的V254G取代、SEQ ID NO:2的P793S取代、SEQID NO:2的K188E取代、SEQ ID NO:2的QT945KI取代、SEQ ID NO:2的T620P取代、SEQ ID NO:2的T946P取代、SEQ ID NO:2的TT949PP取代、SEQ ID NO:2的N952T取代或SEQ ID NO:2的K682E取代。

在一些实施例中，变异基因编辑对包含SEQ ID NO:5的CasX gRNA，和包含SEQ IDNO:2的L379R和A708K取代和位置793处P的缺失的组合的CasX变异蛋白。在一些实施例中，变异基因编辑对包含SEQ ID NO:2的参考CasX蛋白和SEQ ID NO:5的sgNA支架变体。

在本发明的sgNA:蛋白质变体对的一些实施例中，CasX变异蛋白选自由以下组成的组：包含SEQ ID NO:2的L379R取代、C477K取代、A708K取代、位置793处P的缺失和T620P取代的CasX变异蛋白；包含SEQ ID NO:2的M771A取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、A708K取代、位置793处P的缺失和D732N取代的CasX变异蛋白；包含SEQ ID NO:2的W782Q取代的CasX变异蛋白；包含SEQ ID NO:2的M771Q取代的CasX变异蛋白；包含SEQ IDNO:2的R458I取代和A739V取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、A708K取代、位置793处P的缺失和M771N取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、A708K取代、位置793处P的缺失和A739T取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、C477K取代、A708K取代、位置793处P的缺失和D489S取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、C477K取代、A708K取代、位置793处P的缺失和D732N取代的CasX变异蛋白；包含SEQ ID NO:2的V711K取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、C477K取代、A708K取代、位置793处P的缺失和Y797L取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、A708K取代和位置793处P的缺失的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、C477K取代、A708K取代、位置793处P的缺失和M771N取代的CasX变异蛋白；包含SEQ ID NO:2的A708K取代、位置793处P的取代和E386S取代的CasX变异蛋白；包含SEQ ID NO:2的L379R取代、C477K取代、A708K取代和位置793处P的缺失的CasX变异蛋白；包含SEQ ID NO:2的L792D取代的CasX变异蛋白；包含SEQ ID NO:2的G791F取代的CasX变异蛋白；包含SEQ ID NO:2的A708K取代、位置793处P的缺失和A739V取代的CasX变异蛋白；包含SEQ ID NO:2的L379取代、A708K取代、位置793处P的缺失和A739V取代的CasX变异蛋白；包含SEQ ID NO:2的C477K取代、A708K取代和位置793处P的取代的CasX变异蛋白；包含SEQ ID NO:2的L249I取代和M771N取代的CasX变异蛋白；包含SEQ ID NO:2的V747K取代的CasX变异蛋白；和包含SEQ IDNO:2的L379R取代、C477取代、A708K取代、位置793处P的缺失和M779N取代的CasX变异蛋白；且编码sgNA变体的序列选自由以下组成的组：SEQ ID NO:2104、SEQ ID NO:2163、SEQ IDNO:2107、SEQ ID NO:2164、SEQ ID NO:2165、SEQ ID NO:2166、SEQ ID NO:2103、SEQ IDNO:2167、SEQ ID NO:2105、SEQ ID NO:2108、SEQ ID NO:2112、SEQ ID NO:2160、SEQ IDNO:2170、SEQ ID NO:2114、SEQ ID NO:2171、SEQ ID NO:2112、SEQ ID NO:2173、SEQ IDNO:2102、SEQ ID NO:2174、SEQ ID NO:2175、SEQ ID NO:2109、SEQ ID NO:2176、SEQ IDNO:2238或SEQ ID NO:2239。

在一些实施例中，基因编辑对包含选自具有序列SEQ ID NO:270、SEQ ID NO:292、SEQ ID NO:311、SEQ ID NO:333或SEQ ID NO:336的CasX中的任一个的CasX，和选自SEQ IDNO:2104、2106或2238中的任一个的gNA。

在一些实施例中，基因编辑对包含选自SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体。在一些实施例中，基因编辑对包含选自247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体。在一些实施例中，基因编辑对包含选自3498-3501、3505-3520和3540-3549中的任一个的CasX变体。

在一些实施例中，基因编辑对包含选自SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，以及选自由SEQ ID NO:412-3295中的任一个组成的组的gNA。在一些实施例中，基因编辑对包含选自247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，以及选自由SEQNO:412-3295中的任一个组成的组的gNA。在一些实施例中，基因编辑对包含选自3498-3501、3505-3520和3540-3549中的任一个的CasX变体，以及选自由SEQ ID NO:412-3295中的任一个组成的组的gNA。

在一些实施例中，基因编辑对包含选自SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，以及选自由SEQ ID NO:2101-2280中的任一个组成的组的gNA。在一些实施例中，基因编辑对包含选自247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，以及选自由SEQNO:2101-2280中的任一个组成的组的gNA。在一些实施例中，基因编辑对包含选自3498-3501、3505-3520和3540-3549中的任一个的CasX变体，以及选自由SEQ ID NO:2101-2280中的任一个组成的组的gNA。

在一些实施例中，基因编辑对包含选自SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，以及选自由SEQ ID NO:2236、2237、2238、2241、2244、2248、2249和2259-2280中的任一个组成的组的gNA。在一些实施例中，基因编辑对包含选自247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，以及选自由SEQ ID NO:2236、2237、2238、2241、2244、2248、2249和2259-2280中的任一个组成的组的gNA。在一些实施例中，基因编辑对包含选自3498-3501、3505-3520和3540-3549中的任一个的CasX变体，以及选自由SEQ ID NO:2236、2237、2238、2241、2244、2248、2249和2259-2280中的任一个组成的组的gNA。

在其它实施例中，本发明提供包含CasX蛋白和gNA的基因编辑对，其中所述gNA为如本文所述的引导RNA变体。在本发明的基因编辑对的一些实施例中，Cas蛋白为如本文所述的CasX变体。在一些实施例中，CasX蛋白质为SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白，且gNA为如本文所述的引导RNA变体。如本文所述，基因编辑对实施例的示例性改良特征可在一些实施例中包括改良的蛋白质:gNA复合物稳定性、改良的核糖核蛋白复合物(RNP)形成、较高百分比的裂解胜任型RNP、改良的CasX蛋白与gNA之间的结合亲和力、改良的与目标DNA的结合亲和力、改良的目标DNA解旋、增加的活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合或改良的核酸酶活性抗性。在前述实施例中，相比于参考CasX蛋白和参考gNA对的特性，所述改良为至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。

在一些实施例中，其中基因编辑对包含如本文所述的CasX变异蛋白和gNA变体，基因编辑对的一种或多种特征改良超出可通过单独改变CasX蛋白或gNA实现的程度。在一些实施例中，CasX变异蛋白和gNA变体加性地起作用以改良基因编辑对的一种或多种特征。在一些实施例中，CasX变异蛋白和gNA变体协同地起作用以改良基因编辑对的一种或多种特征。在前述实施例中，相比于参考CasX蛋白和参考gNA对的特性，所述改良为至少约2倍、至少约5倍、至少约10倍、至少约50倍、至少约100倍、至少约500倍、至少约1000倍、至少约5000倍、至少约10,000倍或至少约100,000倍。

VI.制造CasX变异蛋白和gNA变体的方法

如本文所述的CasX变异蛋白和gNA变体可经由多种方法构建。此类方法可包括例如下文和实例中所述的深度突变进化(DME)。

a.深度突变进化(DME)

在一些实施例中，DME用于鉴别具有改良功能的CasX蛋白和sgNA支架变体。在一些实施例中，DME方法包含构建和测试全面的突变集合以起始生物分子，以产生生物分子变体库；举例来说，CasX变异蛋白或sgNA支架变体的库。DME可涵盖进行氨基酸(在蛋白质的情况下)或核苷酸(在RNA或DNA的情况下)的所有可能的取代，以及所有可能的小插入，和所有可能的缺失以起始生物分子。在图1中示出说明DME方法的示意图。在一些实施例中，DME包含所有此类可能的取代、插入和缺失的子组。在DME的某些实施例中，构建变体的一个或多个库、评估功能变化，且此信息用于构建一个或多个额外库。变体的此类迭代构建和评估可例如使得鉴别引起某些功能结果的突变主题，如当以某些方式突变时使得一种或多种功能改良的蛋白质或RNA的区域。此类经鉴别突变的分层可接着进一步改良功能，例如经由加性或协同相互作用。DME包含库设计、库构建和库筛选。在一些实施例中，进行多轮设计、构建和筛选。

b.库设计

DME方法产生生物分子的变体，其为许多单体的聚合物。在一些实施例中，生物分子包含蛋白质或核糖核酸(RNA)分子，其中单体单元分别为氨基酸或核糖核苷酸。生物分子突变的基本单元包含：(1)将一种单体与不同标识的另一单体交换(取代)；(2)在生物分子中插入一个或多个额外单体(插入)；或(3)自生物分子去除一个或多个单体(缺失)。包含单独或呈组合形式的对本文所述的任何生物分子内的任何一种或多种单体的取代、插入和缺失的DME库被视为在本发明的范围内。

在一些实施例中，DME用于建立和测试对生物分子的全面的突变集合，包含氨基酸(在蛋白质的情况下)或核苷酸(在RNA的情况下)的所有可能的取代，以及小插入和缺失。这些突变的构建和功能读出可通过多种确立的分子生物学方法来实现。在一些实施例中，库包含对单体的所有可能的修饰的子组。举例来说，在一些实施例中，库共同地表示一种单体的单一修饰，针对生物分子中的总单体位置的至少10％，其中各单一修饰选自由取代、单一插入和单一缺失组成的组。在一些实施例中，库共同地表示对一种单体的单一修饰，针对起始生物分子中的总单体位置的至少5％、至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或至多100％。在某些实施例中，针对起始生物分子中的总单体位置的某一百分比，库共同地表示一种单体的每种可能的单一修饰，如通过19种其它天然存在的氨基酸(针对蛋白质)或3种其它天然存在的核糖核苷酸(针对RNA)的所有可能的取代、20种天然存在的氨基酸(针对蛋白质)或4种天然存在的核糖核苷酸(针对RNA)的插入或单体的缺失。在其它实施例中，每一位置处的插入独立地超过一种单体，例如两种或更多种、三种或更多种或四种或更多种单体的插入，或一至四种、二至四种或一至三种单体的插入。在其它实施例中，位置处的缺失独立地超过一种单体，例如两种或更多种、三种或更多种或四种或更多种单体的缺失，或一至四种、二至四种或一至三种单体的缺失。CasX变体和gNA变体的此类库的实例分别描述于实例24和25中。

在一些实施例中，生物分子为蛋白质且个别单体为氨基酸。在其中生物分子为蛋白质的那些实施例中，蛋白质中各单体(氨基酸)位置处的可能的DME突变的数目包含19个氨基酸取代、20个氨基酸插入和1个氨基酸缺失，使得蛋白质中的每一氨基酸产生总共40种可能的突变。

在一些实施例中，包含插入的CasX变异蛋白的DME库为1个氨基酸插入库、2个氨基酸插入库、3个氨基酸插入库、4个氨基酸插入库、5个氨基酸插入库、6个氨基酸插入库、7个氨基酸插入库、8个氨基酸插入库、9个氨基酸插入库或10个氨基酸插入库。在一些实施例中，CasX变异蛋白的DME库含有包含1至4个氨基酸插入的插入。

在一些实施例中，生物分子为RNA。在其中生物分子为RNA的那些实施例中，RNA中各单体(核糖核苷酸)位置处的可能的DME突变的数目包含3个核苷酸取代、4个核苷酸插入和1个核苷酸缺失，使得每一核苷酸产生总共8种可能的突变。

在一些实施例中，DME库设计包含针对生物分子中的一个或多个目标单体中的每一者计数所有可能的突变。如本文所用，“目标单体”是指定为以本文所述的取代、插入和缺失进行DME的目标的生物分子聚合物中的单体。举例来说，目标单体可为蛋白质中的指定位置处的氨基酸，或RNA中的指定位置处的核苷酸。生物分子可具有至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、100个或更多个经系统突变以产生生物分子变体的DME库的目标单体。在一些实施例中，生物分子中的每一单体为目标单体。举例来说，在其中存在两种目标氨基酸的蛋白质的DME中，DME库设计包含计数两种目标氨基酸中的每一者处的40种可能的DME突变。在另一实例中，在其中存在四种目标核苷酸的RNA的DME中，DME库设计包含计数四种目标核苷酸中的每一者处的8种可能的DME突变。在一些实施例中，生物分子的各目标单体经独立地随机选择或通过有意设计来选择。因此，在一些实施例中，DME库包含随机变体，或经设计的变体，或在单一生物分子内包含随机突变和经设计突变的变体，或其任何组合。

在DME方法的一些实施例中，将DME突变并入至编码生物分子的双股DNA中。此DNA可在标准克隆载体，例如细菌质粒(在本文中称为目标质粒)中维持和复制。示例性目标质粒含有编码起始生物分子的DNA序列，起始生物分子将经受DME、细菌复制起点和适合的抗生素抗性表达盒。在一些实施例中，抗生素抗性盒赋予针对康霉素、安比西林、大观霉素、博莱霉素、链霉素、红霉素、四环素或氯霉素的抗性。在一些实施例中，抗生素抗性盒赋予针对康霉素的抗性。

包含所述变体的库可以多种方式构建。在某些实施例中，质粒重组工程化用于构建库。此类方法可使用编码一个或多个突变的DNA寡核苷酸将所述突变并入至编码参考生物分子的质粒中。对于具有复数个突变的生物分子变体，在一些实施例中，使用超过一种寡核苷酸。在一些实施例中，DNA寡核苷酸编码一个或多个突变，其中突变区由10至100个与目标质粒具有同源性的核苷酸侧接，在突变的5'和3'两者处。在一些实施例中，此类寡核苷酸可商业上合成且用于PCR扩增。编码突变的寡核苷酸的示例性模板提供于下：

5'-(N)_10-100-突变-(N')_10-100-3'

在此示例性寡核苷酸设计中，N表示与目标质粒相同的序列，在本文中称为同源臂。当将生物分子中的特定单体定为突变的目标时，这些同源臂直接侧接目标质粒中编码单体的DNA。在其中经历DME的生物分子为蛋白质的一些示例性实施例中，使用相同组同源臂的40种不同寡核苷酸用于针对定为DME的目标的蛋白质中的各氨基酸残基编码列举的40种不同氨基酸突变。当突变为单一氨基酸时，编码一个或多个所需突变的区域包含三个编码氨基酸的核苷酸(针对取代或单一插入)，或零个核苷酸(针对缺失)。在一些实施例中，寡核苷酸编码大于一个氨基酸的插入。举例来说，当寡核苷酸编码X个氨基酸的插入时，编码所需突变的区域包含3*X个编码X个氨基酸的核苷酸。在一些实施例中，突变区域编码超过一个突变，例如对生物分子的两个或更多个单体的突变，所述单体为极为贴近的(例如相互紧靠地，或在彼此的1、2、3、4、5、6、7、8、9或10个或更多个单体内)。

在如本文所述的寡核苷酸的取代或插入突变中编码特定氨基酸单体的核苷酸序列将为本领域普通技术人员已知。举例来说，TTT或TTC三联体可用于编码苯丙氨酸；TTA、TTG、CTT、CTC、CTA或CTG可用于编码亮氨酸；ATT、ATC或ATA可用于编码异亮氨酸；ATG可用于编码甲硫氨酸；GTT、GTC、GTA或GTG可用于编码缬氨酸；TCT、TCC、TCA、TCG、AGT或AGC可用于编码丝氨酸；CCT、CCC、CCA或CCG可用于编码脯氨酸；ACT、ACC、ACA或ACG可用于编码苏氨酸；GCT、GCC、GCA或GCG可用于编码丙氨酸；TAT或TAC可用于编码酪氨酸；CAT或CAC可用于编码组氨酸；CAA或CAG可用于编码谷氨酰胺、AAT或AAC可用于编码天冬酰胺；AAA或AAG可用于编码赖氨酸；GAT或GAC可用于编码天冬氨酸；GAA或GAG可用于编码谷氨酸；TGT或TGC可用于编码半胱氨酸；TGG可用于编码色氨酸；CGT、CGC、CGA、CGG、AGA或AGG可用于编码精氨酸；且GGT、GGC、GGA或GGG可用于编码甘氨酸。另外，ATG用于起始肽合成以及用于甲硫氨酸，且TAA、TAG和TGA可用于编码肽合成的终止。

在其中经历DME的生物分子为RNA的一些示例性实施例中，使用相同组同源臂的8种不同寡核苷酸用于针对定为DME的目标的RNA中的各核苷酸编码以上列举的8种不同单一核苷酸突变。当突变为单一核糖核苷酸时，编码所述突变的寡核苷酸区域可由以下核苷酸序列组成：一个指定核苷酸的核苷酸(用于取代或插入)，或零个核苷酸(用于缺失)。在一些实施例中，寡核苷酸合成为单股DNA寡核苷酸。在一些实施例中，汇集靶向经受DME的生物分子的特定氨基酸或核苷酸的所有寡核苷酸。在一些实施例中，汇集靶向经受DME的生物分子的所有寡核苷酸。可在DME库中同时产生的突变的类型或数目无限制。

c.DME库构建

在一些实施例中，质粒重组工程化用以构建一个或多个DME库。质粒重组工程化描述于Higgins,Sean A.,Sorel V.Y.Ouonkap和David F.Savage(2017)“使用质粒重组工程进行快速和可编程的蛋白质诱变(Rapid and Programmable Protein Mutagenesis UsingPlasmid Recombineering)”《ACS合成化学(ACS Synthetic Biology)》中，其内容以全文引用的方式并入本文中。

示例性库构建方案显示如下：

第1天：bla、bio-、λ-Red1、mutS-、cmR大肠杆菌菌株(例如EcNR2，Addgene标识：26931)在含有标准浓度的抗生素氯霉素和安比西林的LB琼脂板上划线培养。菌落在30℃下生长过夜。

第2天：将EcNR2的单一菌落收集至5mL含有标准浓度的抗生素氯霉素和安比西林的LB液体培养基中。培养物在30℃下于振荡下生长过夜。

第3天：使用本领域中已知的任何方法制得电感受态细胞。制备电感受态细胞的非限制性、示例性方案包含：

(1)将50μL过夜培养物稀释至50mL含有标准浓度的抗生素氯霉素和安比西林的LB液体培养基中。使此50mL培养物在30℃下于振荡下生长。

(2)一旦50mL培养物已生长至OD600＝0.5，便转移至在42℃下于液态水浴中的振荡生长。应注意将42℃下的此生长限制为15分钟。

(3)在加热生长之后，将培养物转移至冰水浴且涡旋至少一分钟以冷却培养物。

(4)通过以4,000×g旋转10分钟而对培养物进行离心。倾析上清液。

(5)通过添加至多50mL冰冷水而小心地洗涤和再悬浮离心块。重复旋转步骤4。

(6)将离心块再悬浮于1mL冰冷水中。细胞现在能胜任标准电穿孔步骤。

电感受态大肠杆菌接着经DME寡核苷酸转型：

(1)将汇集的DME寡核苷酸在水中稀释至20μM的最终浓度。如果同时产生超过一种突变，则对应寡核苷酸应合并和彻底混合。

(2)将例如来自小规模纯化的纯目标质粒在水中稀释至10ng/μL的最终浓度。

(3)在冰上混合：

2.5μL DME寡核苷酸混合物

1μL目标质粒

46.5μL电感受态EcNR2细胞

(4)将混合物转移至冰上的无菌0.1cm电穿孔比色管且进行电穿孔。举例来说，可使用1800kV、200Ω、25μF的参数。

(5)通过添加1mL标准温SOC培养基而回收电穿孔细胞。将培养物在30℃下于振荡下生长一小时。

(6)在回收之后，再添加4mL标准LB培养基至培养物。添加标准浓度的康霉素抗生素以选择电穿孔目标质粒。培养物接着在30℃下于振荡下生长＝过夜。

第4天.自过夜培养物分离目标质粒的方法将为本领域普通技术人员显而易见。举例来说，目标质粒可使用商业小规模纯化试剂盒，如获自Qiagen的小规模纯化试剂盒分离。获得的质粒库包含突变的目标质粒。在一些实施例中，质粒库包含10％至30％突变的目标质粒。可通过使库反复穿过多轮电穿孔和过度生长而逐渐添加额外突变，其中对可进行的轮数无实际限制。因此，举例来说，在一些实施例中，库包含每一质粒编码大于一种突变的质粒。举例来说，在一些实施例中，库包含每一质粒独立地包含一种、两种、三种、四种、五种、六种、七种、八种、九种或更多种突变的质粒。在一些实施例中，还存在不包含任何突变的质粒(例如不并入DME寡核苷酸的质粒)。

在其它实施例中，除质粒重组工程化以外的方法用于构建一个或多个DME库，或质粒重组工程化和其它方法的组合用于构建一个或多个DME库。举例来说，在一些实施例中，DME库可使用本文所述的其它突变方法中的一者来构建。此类库可接着进行如本文所述的库筛选且在必要时进行进一步迭代。

d.库筛选

筛选或选择DME库的任何适当方法被设想为在本发明的范围内。高通量方法可用于评估具有数千个个别突变的大型库。在一些实施例中，库筛选或选择分析的通量具有数百万个个别细胞的通量。在一些实施例中，优选使用活细胞的分析，因为表型和基因型通过包含于相同脂质双层内的性质而在活细胞中物理关联。活细胞还可用于直接扩大总库的亚群。在其它实施例中，较小分析用于DME方法中，例如以筛选经由多轮突变和评估产生的聚焦库。筛选库的示例性方法描述于实例24和25中。

示例性但非限制性DME筛选分析包含荧光活化细胞分选(FACS)。在一些实施例中，FACS可用于分析DME库中的数百万个独特细胞。示例性FACS筛选方案包含以下步骤：

(1)对来自库构建阶段的纯化质粒库进行PCR扩增。可设计侧接PCR引物，其添加侧接编码生物分子的DNA的适当限制酶位点。标准寡核苷酸可用作PCR引物，且可商业上合成。市售PCR试剂可用于PCR扩增，且方案应根据制造商说明书进行。设计PCR引物的方法、适当限制酶位点的选择、PCR试剂和PCR扩增方案的选择将为本领域普通技术人员显而易见。

(2)所得PCR产物用设计的侧接限制酶消化。限制酶可为市售的，且限制酶消化的方法将为本领域普通技术人员显而易见。

(3)PCR产物接合至新DNA载体。适当DNA载体可包括允许DME库表达于细胞中的载体。示例性载体包括但不限于反转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒(AAV)载体和质粒。此新DNA载体可为如哺乳动物组织培养物中的慢病毒整合的方案，或如细菌中的质粒转化的简单表达方法的一部分。允许生物分子和其变体的DME库表达于任何适合的细胞类型中的任何载体被视为在本发明的范围内。细胞类型可包括细菌细胞、酵母细胞和哺乳动物细胞。示例性细菌细胞类型可包括大肠杆菌(E.coli)。示例性酵母细胞类型可包括酿酒酵母(Saccharomyces cerevisiae)。示例性哺乳动物细胞类型可包括小鼠、仓鼠和人类细胞系，诸HEK293细胞、HEK293T细胞、HEK293-F细胞、Lenti-X 293T细胞、BHK细胞、HepG2细胞、Saos-2细胞、HuH7细胞、A549细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、融合瘤细胞、VERO细胞、NIH3T3细胞、COS、WI38细胞、MRC5细胞、HeLa、HT1080细胞或CHO细胞。载体和细胞类型的选择将为本领域普通技术人员显而易见。DNA连接酶可为商购的，且其使用方案也将为本领域普通技术人员显而易见。

(4)一旦DME库已克隆至适合于体内表达的载体中，便筛选DME库。如果生物分子具有改变活细胞中的荧光蛋白生产的功能，则生物分子的生物化学功能将与细胞的荧光强度总体相关。通过在流式细胞仪上观察数百万个细胞的群体，可看出DME库产生荧光强度的广泛分布。来自此总体广泛分布的个别亚群可通过FACS提取。举例来说，如果生物分子的功能为抑制荧光蛋白的表达，则最不明亮的细胞将为表达功能已由DME改良的生物分子的细胞。或者，如果生物分子的功能为增加荧光蛋白的表达，则最明亮的细胞将为表达功能已由DME改良的生物分子的细胞。细胞可基于荧光强度通过FACS自总群体分离且分开生长。示例性FACS筛选分析在图2中示出。

(5)在FACS分选表达生物分子变体的DME库的细胞之后，可分别扩增包含原始DME库和/或仅包含高度功能性生物分子变体(如通过FACS分选所确定)的培养物。如果经FACS分选的细胞包含表达来自质粒的生物分子变体的DME库的细胞(例如经质粒表达载体转型的大肠杆菌细胞)，则这些质粒可例如经由小规模纯化来分离。相反，如果生物分子变体的DME库已整合至FAC分选细胞的基因组中，则此DNA区域可经PCR扩增且任选地亚克隆至适合载体中，以使用本领域中已知的方法进一步表征。因此，库筛选的最终产物为表示初始或‘未处理’DME库的DNA库，以及一个或多个含有初始DME库的亚群的DNA库，其包含通过本文所述的筛选方法鉴别的生物分子的高度功能性突变变体。

在一些实施例中，进一步表征已针对高度功能性变体筛选或选择的DME库。在一些实施例中，进一步表征DME库包含经由测序，如桑格测序(Sanger sequencing)个别地分析DME变体，以鉴别产生高度功能性变体的一个或多个特异性突变。生物分子的个别突变变体可经由标准分子生物学技术分离，以用于随后功能分析。在一些实施例中，进一步表征DME库包含初始库和高度功能性变体的一个或多个库的高通量测序。在一些实施例中，此方法可允许快速鉴别相比于未处理的DME库，在高度功能性变体的一个或多个库过度表达的突变。不希望受任何理论束缚，在高度功能性变体的一个或多个库中过度表达的突变可能引起高度功能性变体的活性。在一些实施例中，进一步表征DME库包含个别变体的测序以及初始库和高度功能性变体的一个或多个库的高通量测序。

高通量测序可产生指示库成员的功能效应的高通量数据。在其中一个或多个库表示每一单体位置的每一可能突变的实施例中，此类高通量测序可评估每一可能的DME突变的功能效应。此类测序还可用于评估给定库的一个或多个高度功能性亚群，其在一些实施例中可使得鉴别产生改良功能的突变。用于具有高度功能性亚群的库的高通量测序的示例性方案如下：

(1)初始DME库N的高通量测序。高度功能性亚群库F的高通量测序。可使用可产生适合的读数丰度的任何高通量测序平台。示例性测序平台包括但不限于Illumina、IonTorrent、454和PacBio测序平台。

(2)选择评估的特定突变，i。计算i于N中的总分率丰度，i(N)。计算i于F中的总分率丰度，i(F)。

(3)计算以下者：[(i(F)+1)/(i(N)+1)]。此值(‘富集比’)与生物分子的特定突变变体i的功能相关。

(4)对于DME库的深度测序中观察的每一突变计算富集比。

(5)整个库的富集比集合可转化为对数标度，以使得零的值表示无富集(即，富集比为一)，大于零的值表示富集，且小于零的值表示耗尽。或者，对数标度可经设定以使得1.5表示富集，且-0.6表示耗尽，如在图3A、图3B、图4A、图4C中。这些重新按比例调整的值可称为任何特定突变的相对‘适合度’。这些适合度值定量地指示特定突变对生物分子的生物化学功能具有的效应。

(6)计算的DME适合度值的集合可经映射以视觉上表示对生物分子的所有可能的突变的适合度景观。适合度值也可被排序以确定DME库内所含的最有益突变。

e.迭代DME

在一些实施例中，由DME产生的高度功能性变体具有超过一个突变。举例来说，不同突变的组合可在一些实施例中产生优化生物分子，其功能通过突变的组合进一步改良。在一些实施例中，组合突变对生物分子功能的效应为线性的。如本文所用，线性的突变组合是指对功能的效应等于分开分析时各个别突变的效应总和的组合。在一些实施例中，组合突变对生物分子功能的效应为协同的。如本文所用，协同的突变组合是指对功能的效应大于分开分析时各个别突变的效应总和的组合。其它突变可展现额外出人意料的非线性累加效应，或甚至负效应。此现象被称为上位(epistasis)。

上位可为不可预测的，且在组合突变时为重要的变化源。上位效应可经由DME库构建和分析中的额外高通量实验方法解决。在一些实施例中，整个DME方案可迭代，返回至库构建步骤且自初始DME库筛选仅选择鉴别为具有所需效应(如增强的功能)的突变。因此，在一些实施例中，DME库构建和筛选经迭代，其中一个或多个循环将库聚焦于具有所需效应的突变子组。在此类实施例中，所选突变的分层可产生改良变体。在一些替代实施例中，DME可与重复完整突变集合，但靶向生物分子的新颖、突变前型式。举例来说，第一轮DME库构建、分析和表征中鉴别的一个或多个高度功能性变体可用作使用其它突变的广泛、非聚焦集合(如每一可能的突变，或其子集)的其它轮DME的目标质粒，且重复所述过程。DME的任何数目、类型的迭代或迭代组合被设想为在本发明的范围内。

f.深度突变扫描

在一些实施例中，深度突变扫描(DMS)用于鉴别具有改良功能的CasX变异蛋白。深度突变扫描评估蛋白质可塑性，因为其与功能相关。在DMS方法中，蛋白质的每一氨基酸改变为每一其它氨基酸且分析绝对蛋白质功能。举例来说，CasX蛋白中的每一氨基酸可改变为每一其它氨基酸，且分析突变CasX蛋白结合至DNA或裂解DNA的能力。可用于表征DMSCasX变异蛋白的集合的示例性分析，如CRISPRi分析或基于细菌的裂解分析描述于Oakes等人(2016)“工程化热点分析确定了变构CRISPR-Cas9开关(Profiling of engineeringhotspots identifies an allosteric CRISPR-Cas9 switch)”《自然·生物技术(NatBiotechnol)》34(6):646-51和Liu等人(2019)“CasX酶包含一个独特的RNA引导基因组编辑器家族(CasX enzymes comprise a distinct family of RNA-guided genomeeditors)》”《自然(Nature)》doi.org/10.1038/s41586-019-0908中；其内容以引用的方式并入本文中。

在一些实施例中，DMS用于鉴别具有改良的DNA结合活性的CasX蛋白。在一些实施例中，使用CRISPRi分析来分析DNA结合活性。在CRISPRi分析的非限制性、示例性实施例中，使用FACS分析表达荧光蛋白，如绿色荧光蛋白(GFP)或红色荧光蛋白(RFP)的细胞，以鉴别能够以sgNA依赖性方式抑制荧光蛋白表达的CasX变体。在此实例中，催化死亡CasX(dCasX)用于产生所分析DMS突变体的集合。野生型CasX蛋白结合至其同源sgNA且形成蛋白质-RNA复合物。复合物通过sgNA与DNA目标之间的沃森-克里克碱基配对结合至特定DNA目标，在此情况下，编码荧光蛋白的DNA序列。在野生型CasX的情况下，DNA将由于CasX蛋白的核酸酶活性而裂解。然而，不希望受理论束缚，可能的是dCasX仍能够与sgNA形成复合物且结合至特定DNA目标。当蛋白质编码区发生dCasX的靶向时，其阻断RNA聚合酶II和转录物起始和/或伸长，引起可通过FAC检测的荧光蛋白表达降低。

在一些实施例中，DMS用于鉴别具有改良的DNA裂解活性的CasX蛋白。分析CasX变异蛋白的DNA裂解效率的方法将为本领域普通技术人员显而易见。举例来说，与sgNA(具有与特定目标DNA序列互补的间隔子)复合的CasX蛋白可用于在适合的细胞类型中体外或体内裂解DNA目标序列，且分析裂解位点处的插入和缺失频率。不希望受理论束缚，通过CasX的裂解或切割在DNA中产生双股断裂，其通过非同源末端连接路径(NHEJ)的后续修复引起双股断裂位点处的小插入或缺失(插入缺失)。CasX裂解位点处的插入缺失频率可使用目标序列的高通量或桑格测序来测量。或者或另外，通过目标序列的CasX裂解的插入缺失产生频率可使用失配分析，如T7核酸内切酶I(T7EI)或Surveyor失配分析来测量。

在一些实施例中，在DMS之后，产生与DMS突变体的所得表型相关的基因型图(例如热图)且用于表征蛋白质的基本原理。将所有可能的突变表征为产生功能性或非功能性蛋白质产物，以确立蛋白质的功能景观。

g.易错PCR

在一些实施例中，易错PCR用于产生具有改良功能的CasX蛋白或sgNA支架变体。复制DNA的聚合酶具有不同保真度水准。将随机突变引入至基因的一种方法为经由将在一定频率范围内并入不正确核苷酸的易错聚合酶。可取决于所需结果而调节此频率。在一些实施例中，将用于聚合酶活性的聚合酶和条件选择为使得核苷酸变化频率在蛋白质序列中平均产生n 1-4个氨基酸变化。示例性易错聚合酶包含Agilent的GeneMorphII试剂盒。GeneMorphII试剂盒可用于根据制造商的方案扩增编码野生型CasX蛋白(例如SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的蛋白)的DNA序列，由此对蛋白质进行无偏随机诱变且产生CasX变异蛋白的多样群体。CasX变异蛋白的此多样群体可接着使用与针对DMS在上文所述相同的分析进行分析，以观察基因型的变化与表型的变化如何相关。

h.盒诱变

在一些实施例中，盒诱变用于产生具有改良功能的CasX变异蛋白或sgNA支架变体。盒诱变利用经变性核苷酸置换的独特限制酶位点在如CasX蛋白或sgNA支架的所关注基因的所选区域中产生具有高多样性的小区域。在示例性盒诱变方案中，限制酶用于在编码适合载体中所含的CasX蛋白或sgNA支架的DNA分子上于定为诱变的目标的序列附近裂解。此步骤去除定为诱变的目标的序列和限制位点之间的一切。接着，含有所需突变和与限制消化末端互补的末端的合成双股DNA分子经连接，替代已通过限制消化去除的序列，且如大肠杆菌的适合的细胞经连接载体转型。在一些实施例中，盒诱变可用于在CasX蛋白或sgNA支架中产生一个或多个特异性突变。在一些实施例中，盒诱变可用于产生可使用本文所述的方法针对改良功能进行筛选或选择的CasX变异蛋白或sgNA支架变体的库。举例来说，在使用盒诱变产生CasX变体中，非目标股结合(NTSB)域的一部分可经简并核苷酸的序列置换。简并核苷酸的序列可高度局限于CasX蛋白区域，例如感兴趣的NTSB区域(由于其高度移动元件或其与DNA直接接触)。经由盒诱变产生的CasX变异蛋白的库可接着使用本文所述的分析筛选DME、DMS和易错PCR，且可选择变体以改良功能。

i.随机诱变

在一些实施例中，随机诱变用于产生具有改良功能的CasX变异蛋白或sgNA支架变体。随机诱变为改变DNA的无偏方式。随机诱变的示例性方法将为本领域普通技术人员已知，且包括暴露于化学物质、UV光、X射线或使用不稳定细胞系。不同诱变剂产生不同类型的突变，且通常，本领域技术人员将能够选择适当试剂以产生所需类型的突变。举例来说，甲磺酸乙酯(EMS)和N-乙基-N-亚硝基脲(ENU)可用于产生单碱基对变化，而X射线通常引起缺失和总染色体重排。UV光暴露在DNA的邻近嘧啶之间产生二聚体，其可引起点突变、缺失和重排。易错细胞系也可用于引入突变，例如在包含本发明的CasX蛋白或sgNA支架的质粒上。编码CasX蛋白(例如SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的蛋白)或sgNA支架的DNA分子群体可暴露于诱变剂以产生CasX变异蛋白或sgNA支架变体的集合，且可使用本文所述的分析中的任一个分析这些集合的改良功能。

j.交错延伸法(StEP)

在一些实施例中，交错延伸法(StEP)用于产生具有改良功能的CasX变异蛋白或sgNA支架变体。交错延伸法为允许在PCR反应期间培育蛋白质的多种变体的特定PCR方案。StEP利用具有低持续合成能力的聚合酶(例如Taq或Vent聚合酶)产生两个或更多个具有显著序列类似性水准的不同模板股的短引物。短引物接着持续短时间间隔延伸，允许模板股改组。此方法还可用作堆叠DME变体的手段。示例性StEP方案由Zhao,H.等人(1998)“通过交错延伸过程(StEP)体外重组进行分子进化(Molecular evolution by staggeredextension process(StEP)in vitro recombination)”《自然·生物技术(NatureBiotechnology)》16:258-261描述，其内容以全文引用的方式并入本文中。StEP可用于产生CasX变异蛋白或sgNA支架变体的集合，且可使用本文所述的分析中的任一个来分析这些集合的改良功能。

k.基因改组

在一些实施例中，基因改组用于产生具有改良功能的CasX变异蛋白或sgNA支架变体。在一些实施例中，基因改组用于组合(在本文中有时称为“堆叠”)经由本文所述的其它方法，如质粒重组工程产生的变体。在示例性基因改组方案中，DNA酶，例如DNA酶I用于将一组亲本基因剪切为长度为50-100个碱基对(bp)的片段。在一些实施例中，这些亲本基因包含CasX变异蛋白，其具有使用本文所述的方法产生和分离的改良功能。在一些实施例中，这些亲本基因包含sgNA支架变体，其具有使用本文所述的方法产生和分离的改良功能。DNA酶片段化之后接着为无引物的聚合酶链反应(PCR)。具有足够重叠同源序列的DNA片段将彼此粘接且接着通过DNA聚合酶延伸。如果包含不同突变的不同片段粘接，则结果为组合所述两个突变的新变体。在一些实施例中，无引物的PCR之后为PCR延伸，和已达到亲本基因(例如编码CasX蛋白或sgNA支架的序列)大小的改组DNA分子的纯化。这些基因可接着通过另一PCR扩增，例如通过添加与经历改组的基因的5'和3'端互补的PCR引物。在一些实施例中，引物可具有添加至其5'端的额外序列，如连接至克隆载体中必需的限制酶识别位点的序列。

l.域交换

在一些实施例中，域交换用于产生具有改良功能的CasX变异蛋白或sgNA支架变体。为了产生CasX变异蛋白，工程化域交换可用于将部分与其它蛋白质和CRISPR分子混合和匹配。举例来说，CRISPR蛋白具有保守RuvC域，因此CasX RuvC域可与其它CRISPR蛋白的域交换，且使用本文所述的分析来分析所得蛋白质改良的DNA裂解。对于sgNA，支架茎、延伸茎或环可与其它RNA中发现的结构交换，例如sgNA的支架茎和延伸茎可与来自其它RNA的热稳定茎环交换，且使用本文所述的分析来分析所得变体的改良功能。在一些实施例中，域交换可用于将新域插入至CasX蛋白或sgNA中。在其中域交换应用于蛋白的一些示例性实施例中，插入域包含整个第二蛋白。

VII.载体

在一些实施例中，本文提供载体，其包含本文所述的编码CasX变异蛋白和sgNA或dgNA变体的聚核苷酸和任选的供体模板聚核苷酸。在一些情况下，载体用于基因编辑对的CasX、gNA(和任选的供体模板)组分的表达和回收。在其它情况下，载体用于将编码聚核苷酸递送至目标细胞以编辑目标核酸，如下文更充分地描述。

在一些实施例中，本文提供编码本文所述的sgNA或dgNA变体的聚核苷酸。在一些实施例中，所述聚核苷酸为DNA。在其它实施例中，所述聚核苷酸为RNA。在一些实施例中，本文提供包含编码本文所述的sgNA或dgNA变体的聚核苷酸序列的载体。在一些实施例中，包含聚核苷酸的载体包括细菌质粒、病毒载体等。在一些实施例中，CasX变异蛋白和sgNA变体在相同载体上编码。在一些实施例中，CasX变异蛋白和sgNA变体在不同载体上编码。

在一些实施例中，本发明提供载体，其包含编码CasX:gNA系统的组分的核苷酸序列。举例来说，在一些实施例中，本文提供包含以下的重组表达载体：a)编码CasX变异蛋白的核苷酸序列；和b)编码本文所述的gNA变体的核苷酸序列。在一些情况下，编码CasX变异蛋白的核苷酸序列和/或编码gNA变体的核苷酸序列可操作地连接于启动子，所述启动子在所选细胞类型(例如原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人类细胞)中可操作。适合包括于载体中的启动子描述于下文中。

在一些实施例中，编码CasX变异蛋白的核苷酸序列经密码子优化。此类型的优化可必然伴有编码CasX的核苷酸序列的突变，以模拟预期宿主生物体或细胞的密码子偏好，同时编码相同蛋白质。因此，密码子可改变，但经编码蛋白质保持不变。举例来说，如果预期目标细胞为人类细胞，则可使用编码经人类密码子优化的CasX变体的核苷酸序列。作为另一非限制性实例，如果预期宿主细胞为小鼠细胞，则可产生编码经小鼠密码子优化的CasX变体的核苷酸序列。作为另一非限制性实例，如果预期宿主细胞为植物细胞，则可产生编码经植物密码子优化的CasX变异蛋白的核苷酸序列。作为另一非限制性实例，如果预期宿主细胞为细菌细胞，则可产生编码经细菌密码子优化的CasX变异蛋白的核苷酸序列。

在一些实施例中，本文提供一种或多种重组表达载体，如(i)供体模板核酸的核苷酸序列，其中供体模板包含与目标核酸(例如目标基因组)的目标序列具有同源性的核苷酸序列；(ii)编码如本文所述的gNA或gNA变体(其可以单引导或双引导形式提供)的核苷酸序列(例如可操作地连接于在如真核细胞的目标细胞中可操作的启动子)；和(iii)编码CasX蛋白或CasX变异蛋白的核苷酸序列(例如可操作地连接于在如真核细胞的目标细胞中可操作的启动子)。在一些实施例中，编码gNA和CasX蛋白的序列在不同重组表达载体中，且在其它实施例中，gNA和CasX蛋白在相同重组表达载体中。在一些实施例中，编码gNA、CasX蛋白和供体模板的序列在不同重组表达载体中，且在其它实施例中，一或多者在相同重组表达载体中。在一些实施例中，重组表达载体中的sgNA、由重组表达载体编码的CasX蛋白或两者为如本文所述的参考CasX蛋白或gNA的变体。在编码gNA的核苷酸序列的情况下，重组表达载体可经体外转录，例如使用T7启动子调节序列和T7聚合酶，以产生gRNA，其可接着通过常规方法回收；例如经由凝胶电泳纯化。一旦合成，gRNA便可用于基因编辑对中以直接接触目标DNA，或可通过将核酸引入至细胞中的熟知技术中的任一种(例如显微注射、电穿孔、转染等)引入至细胞中。

取决于所利用的宿主/载体系统，多种适合的转录和翻译控制元件(包括组成型和诱导型启动子、转录强化子元件、转录终止子等)中的任一个可用于表达载体中。

在一些实施例中，编码参考或变异CasX和/或gNA的核苷酸序列可操作地连接于控制元件；例如转录控制元件，如启动子。在一些实施例中，编码参考或CasX变异蛋白的核苷酸序列可操作地连接于控制元件；例如转录控制元件，如启动子。在一些情况下，启动子为组成性活化启动子。在一些情况下，启动子为可调节启动子。在一些情况下，启动子为诱导型启动子。在一些情况下，启动子为组织特异性启动子。在一些情况下，启动子为细胞类型特异性启动子。在一些情况下，转录控制元件(例如启动子)在目标细胞类型或目标细胞群体中起作用。举例来说，在一些情况下，转录控制元件可在真核细胞，例如造血干细胞(例如移动外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等)中起作用。通过转录活化，预期转录将在目标细胞中增至高于基础水准10倍、100倍、更通常1000倍。

真核启动子(在真核细胞中起作用的启动子)的非限制性实例包括EF1α、EF1α核启动子、来自细胞巨大病毒(CMV)即刻早期的那些、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、来自反转录病毒的长末端重复序列(LTR)和小鼠金属硫蛋白-I。真核启动子的其它非限制性实例包括CMV启动子全长启动子、最小CMV启动子、鸡β-肌动蛋白启动子、hPGK启动子、HSV TK启动子、Mini-TK启动子、赋予神经元特异性表达的人类突触蛋白I启动子、选择性表达于神经元中的Mecp2启动子、最小IL-2启动子、劳氏肉瘤病毒强化子/启动子(单一)、形成脾脏病灶的病毒长末端重复序列(LTR)启动子、SV40启动子、SV40强化子和早期启动子、TBG启动子(来自人类甲状腺素结合球蛋白基因的启动子(肝脏特异性))、PGK启动子、人类泛素C启动子、UCOE启动子(HNRPA2B1-CBX3的启动子)、组蛋白H2启动子、组蛋白H3启动子、U1a1小核RNA启动子(226nt)、U1b2小核RNA启动子(246nt)26、TTR最小强化子/启动子、b-驱动蛋白启动子、人类eIF4A1启动子、ROSA26启动子和3-磷酸甘油醛脱氢酶(GAPDH)启动子。

适当载体和启动子的选择完全在本领域的一般技艺水准内。表达载体还可含有用于翻译起始和转录终止的核糖体结合位点。表达载体还可包括用于扩增表达的适合的序列。表达载体还可包括编码蛋白质标签(例如6×His标签、血凝素标签、荧光蛋白等)的核苷酸序列，其可与CasX蛋白融合，因此产生嵌合CasX多肽。

在一些实施例中，编码gNA变体和/或CasX变异蛋白的核苷酸序列可操作地连接于为诱导型启动子(即，状态、活性/“开启”或非活性/“关闭”受外部刺激，例如特定温度、化合物或蛋白质的存在控制的启动子)的启动子或为组成性活化启动子(即，在活性/“开启”状态下为组成性的启动子)的启动子。在其它实施例中，编码gNA变体和/或CasX变异蛋白的核苷酸序列可操作地连接于空间受限启动子(即，转录控制元件、强化子、组织特异性启动子、细胞类型特异性启动子等)，且其可为时间受限启动子(即，启动子在胚胎发育的特定阶段期间或在生物过程的特定阶段期间(例如小鼠中的毛囊循环)呈“开启”状态或“关闭”状态)。

在某些实施例中，适合的启动子可衍生自病毒且可因此称为病毒启动子，或其可衍生自任何生物体，包括原核或真核生物体。适合的启动子可用于通过任何RNA聚合酶(例如pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳房肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子；细胞巨大病毒(CMV)启动子，如CMV即刻早期启动子区域(CMVIE)、劳氏肉瘤病毒(RSV)启动子、人类U6小核启动子(U6)、增强型U6启动子、人类HI启动子(HI)、POL1启动子、7SK启动子、tRNA启动子等。

在一些实施例中，编码gNA的核苷酸序列可操作地连接于在真核细胞中可操作的启动子(例如U6启动子、增强型U6启动子、HI启动子等)(处于其控制下)。如本领域普通技术人员将理解，当使用U6启动子(例如在真核细胞中)或另一PolIII启动子自核酸(例如表达载体)表达RNA(例如gRNA)时，如果存在成一列的若干个T，则RNA可能需要经突变(编码RNA中的U)。这是因为DNA中的一串T(例如5个T)可充当聚合酶III(Pol III)的终止子。因此，为了确保真核细胞中gRNA(例如活化子部分和/或靶向子部分，呈双引导或单引导型式)的转录，有时可能需要修饰编码gRNA的序列以消除T的运行。在一些情况下，编码CasX蛋白(例如野生型CasX蛋白、切口酶CasX蛋白、dCasX蛋白、嵌合CasX蛋白等)的核苷酸序列可操作地连接于在真核细胞中可操作的启动子(例如CMV启动子、EF1α启动子、雌激素受体调节启动子等)。

在某些实施例中，适合使用的诱导型启动子可包括本文所述或本领域普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代半乳糖苷(IPTG)调节启动子、乳糖诱导启动子、化学/生物化学调节和物理调节启动子，如醇调节启动子、四环素调节启动子(例如无水四环素(aTc)反应性启动子和其它四环素反应性启动子系统，其包括四环素抑制蛋白(tetR)、四环素操纵序列(tetO)和四环素反式激活融合蛋白(tTA)、类固醇调节启动子(例如基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子，和来自类固醇/类视黄素/甲状腺受体超家族的启动子)、金属调节启动子(例如衍生自来自酵母、小鼠和人类的金属硫蛋白(结合和螯合金属离子的蛋白)基因的启动子)、发病机制调节启动子(例如由水杨酸、乙烯或苯并噻二唑(BTH)诱导)、温度/热诱导性启动子(例如热休克启动子)和光调节启动子(例如来自植物细胞的光反应性启动子)。

在一些情况下，启动子为空间受限启动子(即，细胞类型特异性启动子、组织特异性启动子等)，以使得在多细胞生物体中，启动子在特定细胞的子集中活跃(即，“开启”)。空间受限启动子也可称为强化子、转录控制元件、控制序列等。可使用任何便利的空间受限启动子，只要启动子在靶向宿主细胞(例如真核细胞；原核细胞)中起作用。

在一些情况下，启动子为可逆启动子。适合的可逆启动子，包括可逆诱导型启动子为本领域中已知的。此类可逆启动子可分离和衍生自多种生物体，例如真核生物和原核生物。衍生自用于第二生物体的第一生物体(例如第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰在本领域中为熟知的。此类可逆启动子和基于此类可逆启动子的系统还包含额外对照蛋白，包括但不限于醇调节启动子(例如醇脱氢酶I(alcA)基因启动子、对醇反式激活蛋白(AlcR)有反应的启动子等)、四环素调节启动子(例如包括Tet活化子、TetON、TetOFF等的启动子系统)、类固醇调节启动子(例如大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类视黄素启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调节启动子(例如金属硫蛋白启动子系统等)、发病机制相关调节启动子(例如水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等)、温度调节启动子(例如热休克诱导性启动子(例如HSP-70、HSP-90、大豆热休克启动子等)、光调节启动子、合成诱导型启动子等。

本发明的重组表达载体还可包含促进本发明的参考或CasX变异蛋白和/或参考或变体gNA的稳定表达的元件。举例来说，重组表达载体可包括以下中的一个或多个：聚腺苷酸化信号(PolyA)、内含子序列或转录后调节元件，如土拔鼠肝炎转录后调节元件(WPRE)。示例性polyA序列包括hGH poly(A)信号(短)、HSV TK poly(A)信号、合成聚腺苷酸化信号、SV40 poly(A)信号、β-血球蛋白poly(A)信号等。另外，用于向细胞提供编码gNA和/或CasX蛋白的核酸的载体可包括编码目标细胞中的可选标记的核酸序列，以鉴别吸收gNA和/或CasX蛋白的细胞。本领域普通技术人员将能够选择本文所述的重组表达载体中包括的适合元件。

重组表达载体序列可封装至病毒或病毒样粒子(在本文中也称为“粒子”或“病毒粒子”)中，以用于细胞的后续感染和转型(离体、体外或体内)。此类粒子或病毒粒子将通常包括将载体基因组衣壳化或封装的蛋白质。在一些实施例中，本发明的重组表达载体为重组腺相关病毒(AAV)载体。在一些实施例中，本发明的重组表达载体为重组慢病毒载体。在一些实施例中，本发明的重组表达载体为重组反转录病毒载体。

腺相关病毒(AAV)为小型(20nm)、非病原性病毒，其适用于在采用病毒载体体内或离体递送至细胞(如真核细胞)，用于制备以向个体施用的细胞的情形下治疗人类疾病。产生构建体，例如编码如本文所述的CasX蛋白和/或gNA实施例中的任一个的构建体，且经AAV反向末端重复(ITR)序列侧接，由此使得能够将AAV载体封装至AAV病毒粒子中。

“AAV”载体可指天然存在的野生型病毒自身或其衍生物。所述术语涵盖所有亚型、血清型和假型，和天然存在的和重组形式，除了另外要求时。如本文所用，术语“血清型”是指基于衣壳蛋白与界定抗血清的反应性鉴别且区别于其它AAV的AAV，例如存在许多已知的灵长类动物AAV血清型。在一些实施例中，AAV载体选自AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV 10、AAV-Rh74(恒河猴源性AAV)和AAVRh10，和这些血清型的经修饰衣壳。举例来说，血清型AAV-2用于指含有自AAV-2的cap基因编码的衣壳蛋白和含有来自相同AAV-2血清型的5'和3'ITR序列的基因组的AAV。假型AAV是指含有来自一种血清型的衣壳蛋白和包括第二血清型的5'-3'ITR的病毒基因组的AAV。将预期假型rAAV具有衣壳血清型的细胞表面结合特性和与ITR血清型一致的遗传特性。假型重组AAV(rAAV)使用本领域中描述的标准技术产生。如本文所用，举例来说，rAAV1可用于指衣壳蛋白和5'-3'ITR均来自相同血清型的AAV，或其可指具有来自血清型1的衣壳蛋白和来自不同AAV血清型(例如AAV血清型2)的5'-3'ITR的AAV。对于本文中说明的各实例，载体设计和生产的规格描述衣壳和5'-3'ITR序列的血清型。

“AAV病毒”或“AAV病毒粒子”是指由至少一种AAV衣壳蛋白(优选野生型AAV的所有衣壳蛋白)和衣壳化聚核苷酸构成的病毒粒子。如果粒子另外包含异源聚核苷酸(即，除了递送至哺乳动物细胞的野生型AAV基因组以外的聚核苷酸)，则其通常称为“rAAV”。示例性异源聚核苷酸为包含本文所述的任一实施例的CasX蛋白和/或sgRNA和任选的供体模板的聚核苷酸。

“腺相关病毒反向末端重复序列”或“AAV ITR”意指出现在AAV基因组的每一端处的技术识别的区域，其以顺式作用一起运作，作为DNA复制起点和病毒的封装信号。AAV ITR连同AAV rep编码区提供自插入两个侧接ITR之间的核苷酸序列的有效切除和修复，和将所述核苷酸序列整合至哺乳动物细胞基因组中。AAV ITR区的核苷酸序列为已知的。参见例如Kotin,R.M.(1994)《人类基因疗法(Human Gene Therapy)》5:793-801；Berns,K.I.“细小病毒科和其复制(Parvoviridae and their Replication)”,《基础病毒学(FundamentalVirology)》,第2版,(B.N.Fields和D.M.Knipe编)。如本文所用，AAV ITR不一并具有所出示的野生型核苷酸序列，但是可能改变，例如通过核苷酸的插入、缺失或取代。另外，AAV ITR可衍生自若干AAV血清型中的任一个，包括但不限于AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74和AAVRh10，和这些血清型的经修饰衣壳。此外，侧接AAV载体中的所选核苷酸序列的5'和3'ITR不必相同或衍生自相同AAV血清型或分离株，只要其如所预期地运作功能，即当AAV Rep基因产物存在于细胞中时，即容许自宿主细胞基因组或载体切除和修复所关注序列，和容许将异源序列整合至受体细胞基因组中。使用AAV血清型将异源序列整合至宿主细胞中为本领域中已知的(参见例如WO2018195555A1和US20180258424A1，其以引用的方式并入本文中)。

“AAV rep编码区”意指编码复制蛋白Rep 78、Rep 68、Rep 52和Rep 40的AAV基因组区域。已显示这些Rep表达产物具有许多功能，包括识别、结合和切割DNA复制的AAV起点、DNA解螺旋酶活性和调节自AAV(或其它异源)启动子的转录。复制AAV基因组总体需要Rep表达产物。“AAV cap编码区”意指编码衣壳蛋白VP1、VP2和VP3，或其功能同源物的AAV基因组区域。这些Cap表达产物提供封装病毒基因组总体需要的封装功能。

在一些实施例中，用于将针对CasX和gNA和任选的供体模板核苷酸的编码序列递送至宿主细胞的AAV衣壳可衍生自若干AAV血清型中的任一个，包括但不限于AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74(恒河猴源性AAV)和AAVRh10，和衍生自AAV血清型2的AAV ITR。

为了产生rAAV病毒粒子，使用已知技术，如通过转染将AAV表达载体引入至适合的宿主细胞中。封装细胞通常用于形成病毒粒子；此类细胞包括HEK293细胞(和本领域中已知的其它细胞)，其封装腺病毒。多种转染技术为本领域中总体已知的；参见例如Sambrook等人(1989)《分子克隆，实验室手册(Molecular Cloning,a laboratory manual)》,ColdSpring Harbor Laboratories,New York。尤其适合的转染方法包括磷酸钙共沉淀、直接显微注射至经培养细胞中、电穿孔、脂质体介导的基因转移、脂质介导的转导和使用高速微弹的核酸递送。

在一些实施例中，经上述AAV表达载体转染的宿主细胞使得能够提供AAV辅助功能，以便复制和衣壳化由AAV ITR侧接的核苷酸序列，以产生rAAV病毒粒子。AAV辅助功能一般为AAV源性编码序列，其可经表达以得到AAV基因产物，所述产物转而以反式起作用以进行生产性AAV复制。AAV辅助功能在本文中用于补充自AAV表达载体缺失的所需AAV功能。因此，AAV辅助功能包括一种或两种编码rep和cap编码区的AAV ORF(开放阅读框架)，或其功能同源物。可使用本领域技术人员已知的方法将辅助功能引入至宿主细胞中且接着表达于宿主细胞中。通常，辅助功能通过用无关的辅助病毒感染宿主细胞来提供。在一些实施例中，辅助功能使用辅助功能载体提供。取决于所利用的宿主/载体系统，多种适合的转录和翻译控制元件(包括组成型和诱导型启动子、转录强化子元件、转录终止子等)中的任一个可用于表达载体中。

在其它实施例中，反转录病毒(例如慢病毒)可适用作递送本发明的CasX:gNA系统的编码核酸的载体。常用的反转录病毒载体为“缺陷性的”，例如无法产生生产性感染所需的病毒蛋白，且可称为病毒样粒子(VLP)。确切而言，载体的复制需要封装细胞系中的生长。为了产生包含所关注核酸的病毒粒子，通过封装细胞系将包含核酸的反转录病毒核酸封装至VLP衣壳中。不同封装细胞系提供并入至衣壳中的不同包膜蛋白(亲嗜性、双嗜性或嗜异性)，此包膜蛋白决定病毒粒子对细胞的特异性(对鼠类和大鼠为亲嗜性的；对大部分哺乳动物细胞类型，包括人类、狗和小鼠为双嗜性的；且对除了鼠类细胞的大部分哺乳动物细胞类型为嗜异性的)。适当封装细胞系可用于确保细胞经封装病毒粒子靶向。将个别载体表达载体引入至封装细胞系中和收集通过封装细胞系产生的病毒粒子的方法为本领域中熟知的。

对于非病毒递送，载体也可经递送，其中编码CasX变体和gNA的一种或多种载体在纳米粒子中调配，其中涵盖的纳米粒子包括但不限于纳米球、脂质体、量子点、聚乙二醇粒子、水凝胶和胶束。脂质纳米粒子一般由可电离阳离子脂质和三种或更多种额外组分，如胆固醇、DOPE、聚乳酸-共-乙醇酸和含聚乙二醇(PEG)的脂质构成。在一些实施例中，本文公开的实施例的CasX变体在纳米粒子中调配。在一些实施例中，纳米粒子包含本文公开的实施例的gNA。在一些实施例中，纳米粒子包含与gNA复合的CasX变体的RNP。在一些实施例中，系统包含纳米粒子，所述纳米粒子包含编码CasX变体和gNA的核酸和任选的供体模板核酸。在一些实施例中，CasX:gNA系统的组分在独立纳米粒子中调配，用于递送至细胞或向有需要的个体施用。

VIII.应用

本文提供的CasX蛋白、引导物、核酸和其变体，以及编码此类组分的载体适用于各种应用，包括治疗、诊断和研究。

本文提供裂解目标DNA的方法，其包含使目标DNA与CasX蛋白和gNA对接触。在一些实施例中，所述对包含CasX变异蛋白和gNA，其中CasX变异蛋白为如本文所述的SEQ ID NO:2的CasX变体(例如表3、8、9、10和12的序列)，且其中接触引起目标DNA的裂解和任选的编辑。在其它实施例中，所述对包含参考CasX蛋白和gNA。在一些实施例中，gNA为本发明的gNA变体(例如SEQ ID NO:2101-2280的序列)，或包含SEQ ID NO:5或SEQ ID NO:4的参考gRNA支架，且进一步包含与目标DNA互补的间隔子。

在其它方面中，本发明提供裂解目标DNA的方法，其包含使目标DNA与本文所述的任一实施例的CasX蛋白和gNA对接触，其中所述接触引起目标DNA的裂解和任选的编辑。在一些实施例中，gNA变体的支架包含SEQ ID NO:2101-2280的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％序列一致性的序列，且进一步包含与目标DNA互补的间隔子。在一些实施例中，CasX蛋白为本文所述的任一实施例的CasX变异蛋白(例如表3、8、9、10和12的序列)，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白。

在一些实施例中，编辑目标DNA的方法包含使目标DNA与如本文所述的CasX蛋白和gNA对和供体聚核苷酸(有时称为供体模板)接触。在一些实施例中，CasX蛋白和gNA对在双股DNA(dsDNA)目标核酸内产生位点特异性双股断裂(DSB)或单股断裂(SSB)(例如当CasX变异蛋白为切口酶时)，其通过非同源末端连接(NHEJ)、同源定向修复(HDR)、同源独立性靶向整合、微同源性介导的末端连接(MMEJ)、单股粘接(SSA)或碱基切除修复(BER)修复。在一些情况下，目标DNA与基因编辑对接触发生于容许NHEJ、HDR或MMEJ的条件下。因此，在一些情况下，如本文所提供的方法包括使目标DNA与供体聚核苷酸接触(例如通过将供体聚核苷酸引入至细胞中)，其中供体聚核苷酸、供体聚核苷酸的一部分、供体聚核苷酸的复本或供体聚核苷酸的复本的一部分整合至目标DNA中。举例来说，可包含由上游序列和下游序列整合式侧接的校正序列(或缺陷性等位基因的基因敲除的缺失)的外源供体模板被引入至细胞中。相对于裂解位点的上游和下游序列与目标DNA的整合位点的任一侧具有序列类似性(即，同源臂)，从而促进插入。在其它情况下，可包含校正序列的外源供体模板通过同源独立性靶向整合(HITI)机制插入通过CasX裂解产生的末端之间。通过HITI插入的外源序列可为任何长度，例如长度为1至50个核苷酸的相对较短序列，或长度为约50-1000个核苷酸的较长序列。不具有同源性可例如为不具有大于20-50％序列一致性和/或不具有低严格度下的特异性杂交。在其它情况下，不具有同源性可进一步包括不具有大于5、6、7、8或9bp一致性的标准。在一些情况下，方法不包含使细胞与供体聚核苷酸接触，且目标DNA经修饰以使得目标DNA内的核苷酸根据细胞自身的修复路径而缺失或插入。

供体模板序列可包含相比于基因组序列，的某些序列差异，例如限制位点、核苷酸多形性、可选标记(例如耐药性基因、荧光蛋白、酶等)等，其可用于评估供体核酸于裂解位点处的成功插入，或在一些情况下可用于其它目的(例如表示靶向基因组基因座处的表达)。或者，这些序列差异可包括侧接重组序列，如FLP、loxP序列等，其可稍后经活化以去除标记序列。在方法的一些实施例中，供体聚核苷酸包含野生型基因的至少约10、至少约50、至少约100、或至少约200、或至少约300、或至少约400、或至少约500、或至少约600、或至少约700、或至少约800、或至少约900、或至少约1000、或至少约10,000、或至少15,000个核苷酸。在其它实施例中，供体聚核苷酸包含野生型基因的至少约10至约15,000个核苷酸，或至少约200至约10,000个核苷酸，或至少约400至约6000个核苷酸，或至少约600至约4000个核苷酸，或至少约1000至约2000个核苷酸。在一些实施例中，供体模板为单股DNA模板或单股RNA模板。在其它实施例中，供体模板为双股DNA模板。

在一些实施例中，使目标DNA与本发明的CasX蛋白和gNA基因编辑对接触引起基因编辑。在一些实施例中，编辑发生于体外、细胞外部、无细胞系统中。在一些实施例中，编辑发生于体外、细胞内部，例如细胞培养系统中。在一些实施例中，编辑发生于体内、细胞内部，例如生物体的细胞中。在一些实施例中，细胞为真核细胞。示例性真核细胞可包括选自由以下组成的组的细胞：植物细胞、真菌细胞、哺乳动物细胞、爬虫细胞、昆虫细胞、禽类细胞、鱼类细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、猪细胞、犬细胞、灵长类动物细胞、非人类灵长类动物细胞和人类细胞。在一些实施例中，细胞为人类细胞。在一些实施例中，细胞为胚胎干细胞、诱导多能干细胞、生殖细胞、成纤维细胞、寡树突神经胶质细胞、胶细胞、造血干细胞、神经元组细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T细胞、B细胞、NK细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增心肌细胞、脂肪细胞、分化全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间叶细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生的组细胞、心肌细胞、骨胳细胞、胎儿细胞、未分化细胞、多潜能组细胞、单潜能组细胞、单核细胞、心成肌细胞、骨胳成肌细胞、巨噬细胞、毛细管内皮细胞、异种细胞、同种异体细胞或产后干细胞。在替代实施例中，细胞为原核细胞。

本发明的编辑方法可发生于体外、细胞外部；体外、细胞内部；或体内、细胞内部。细胞可在个体中。在一些实施例中，编辑发生于在基因的等位基因中具有突变的个体中，其中所述突变引起个体的疾病或病症。在一些实施例中，编辑改变对基因的野生型等位基因的突变。在一些实施例中，编辑敲落或敲除引起所述个体的疾病或病症的基因的等位基因的表达。在一些实施例中，编辑在将所述细胞引入至个体中之前在体外所述细胞内部发生。在一些实施例中，细胞为自体或同种异体的。

将核酸(例如包含供体聚核苷酸序列的核酸、编码CasX蛋白和/或gNA的一种或多种核酸或如本文所述的其变体)引入至细胞中的方法为本领域中已知的，且任何便利方法可用于将核酸(例如表达构建体，如AAV或病毒样粒子(VLP；例如衍生自反转录病毒的一种或多种组分的衣壳，前述)载体，其包含经编码的CasX和gNA组分，如前文所述)引入至细胞中。适合的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙二亚胺(PEI)介导的转染、DEAE-聚葡萄糖介导的转染、脂质体介导的转染、粒子枪技术、核转染、电穿孔、通过与供体DNA融合或募集供体DNA的细胞穿透CasX蛋白直接添加、细胞挤压、磷酸钙沉淀、直接显微注射、纳米粒子介导的核酸递送等。

将重组表达载体引入至细胞中可发生于任何适合的培养基中且发生于促进细胞存活的任何适合的培养条件下。将重组表达载体引入至目标细胞中可体内、体外或离体进行。

在一些实施例中，CasX变异蛋白可提供为RNA。RNA可通过直接化学合成提供，或可体外转录自DNA(例如编码mRNA的DNA，所述mRNA包含编码CasX变异蛋白的序列)。一旦合成，RNA便可例如通过将核酸引入至细胞中的任何熟知技术(例如显微注射、电穿孔、转染)引入至细胞中。

可使用充分发展的转染技术，和获自Qiagen的市售

试剂、获自Stemgent的Stemfect^TM RNA转染试剂盒和获自Mirus Bio LLC的

转染试剂盒、Lonza核转染、Maxagen电穿孔等将核酸提供至细胞。

在一些实施例中，载体可直接提供至目标宿主细胞。举例来说，细胞可与包含个别核酸的载体(例如具有供体模板序列且编码gNA变体的重组表达载体；编码CasX变异蛋白的重组表达载体)接触，以使得载体被细胞吸收。使细胞与为质粒的核酸载体接触的方法包括电穿孔、氯化钙转染、显微注射和脂质体转染，为本领域中熟知的。对于病毒载体递送，细胞可与包含个别病毒表达载体的病毒粒子接触；例如，载体为病毒粒子，如AAV或VLP，其包含编码CasX:gNA组分的聚核苷酸或包含CasX:gNA RNP。对于非病毒递送，载体或CasX:gNA组分也可调配为在纳米粒子中递送，其中涵盖的纳米粒子包括但不限于纳米球、脂质体、量子点、聚乙二醇粒子、水凝胶和胶束。

包含编码CasX变异蛋白的核苷酸序列的核酸在一些情况下为RNA。因此，在一些实施例中，CasX变异蛋白可以RNA形式引入至细胞中。将RNA引入至细胞中的方法为本领域中已知的，且可包括例如直接注射、转染或用于引入DNA的任何其它方法。CasX变异蛋白可替代地以多肽形式提供至细胞。此类多肽可任选地与增加产物的溶解度的多肽域融合。所述域可经由界定蛋白酶裂解位点，例如TEV序列(其通过TEV蛋白酶裂解)连接至多肽。连接子也可包括一个或多个柔性序列，例如1至10个甘氨酸残基。在一些实施例中，融合蛋白的裂解在维持产物的溶解度的缓冲液中进行，例如在0.5至2M脲存在下、在增加溶解度的多肽和/或聚核苷酸存在下等。所关注的域可包括核内体裂解域，例如流感HA域；和帮助生产的其它多肽，例如IF2域、GST域、GRPE域等。多肽可调配用于改良稳定性。举例来说，肽可经聚乙二醇化，其中聚乙烯氧基提供血流中增强的寿命。

另外或替代地，本发明的参考或CasX变异蛋白可与多肽渗透域融合以促进被细胞吸收。多种渗透域为本领域中已知的且可用于本发明的非整合多肽，包括肽、肽模拟物和非肽载体。举例来说，以全文引用的方式并入本文中的WO2017/106569和US20180363009A1描述Cas蛋白与一个或多个核定位序列(NLS)融合以促进细胞吸收。在其它实施例中，渗透剂肽可衍生自黑腹果蝇转录因子Antennapaedia(称为穿膜肽)的第三α螺旋，其包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO:398)。作为另一实例，渗透肽包含HIV-1tat碱性区域氨基酸序列，其可包括例如天然存在的tat蛋白的氨基酸49-57。其它渗透域包括聚精氨酸基序，例如HIV-1rev蛋白、壬-精氨酸、辛-精氨酸等的氨基酸34-56的区域。进行熔融的位点可经选择以优化多肽的生物活性、分泌或结合特征。最佳位点将由常规实验确定。

本发明的CasX变异蛋白可体外产生或通过真核细胞或通过经编码载体转型的原核细胞(上文所述)，且其可通过去折叠，例如热变性、二硫苏糖醇还原等进一步加工，且可使用本领域中已知的方法进一步再折叠。在产生本发明的gNA的情况下，编码gNA的重组表达载体可经体外转录，例如使用T7启动子调节序列和T7聚合酶，以产生gRNA，其可接着通过常规方法回收；例如经由凝胶电泳纯化。一旦合成，gRNA便可用于基因编辑对中以直接接触目标DNA，或可通过将核酸引入至细胞中的熟知技术中的任一个(例如显微注射、电穿孔、转染等)引入至细胞中。

在一些实施例中，不改变CasX变异蛋白的一级序列的所关注修饰可包括多肽的化学衍生化，例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化修饰，例如通过在多肽的合成和加工期间或在其它加工步骤中修饰多肽的糖基化模式进行的修饰；例如通过使多肽暴露于影响糖基化的酶，如哺乳动物糖基化或去糖基化酶。还涵盖具有磷酸化氨基酸残基，例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。

在其它实施例中，本发明提供编码gNA变体或编码CasX变体和参考CasX蛋白的核酸，其已使用一般分子生物技术和合成化学方法修饰，以改良其对蛋白水解降解的抗性、以改变目标序列特异性、以优化溶解度特性、以改变蛋白质活性(例如转录调节活性、酶活性等)或使其为更适合的。此类多肽的类似物包括含有除天然存在的L-氨基酸以外的残基，例如D-氨基酸或非天然存在的合成氨基酸的那些。D-氨基酸可取代一些或全部氨基酸残基。

本发明的CasX变异蛋白可通过体外合成，使用本领域中已知的常规方法制备。各种商业合成装置为可用的，例如Applied Biosystems,Inc.,Beckman的自动化合成器等。通过使用合成器，天然存在的氨基酸可经非天然氨基酸取代。制备的特定次序和方式将由便利性、经济因素、所需的纯度等决定。必要时，可在合成期间或表达期间将各种基团引入至肽中，其允许连接至其它分子或表面。因此，半胱氨酸可用于制造硫醚、组氨酸以连接至金属离子复合物、羧基以形成酰胺或酯、氨基以形成酰胺等。

本发明的CasX变异蛋白还可根据重组合成的常规方法分离和纯化。可制备表达宿主的溶解物，且使用高效液相色谱(HPLC)、排阻色谱、凝胶电泳、亲和色谱或其它纯化技术纯化溶解物。大部分地，相对于涉及产物制备和其纯化方法的污染物，所使用的组合物将占所需产物的重量的50％或更大，更通常75重量％或更大，优选95重量％或更大，且出于治疗目的，通常99.5重量％或更大。通常，百分比将基于总蛋白质。因此，在一些情况下，本发明的CasX多肽或CasX融合多肽为至少80％纯、至少85％纯、至少90％纯、至少95％纯、至少98％纯、或至少99％纯(例如不含污染物、非CasX蛋白或其它大分子等)。

在一些实施例中，为了诱导裂解或对目标核酸(例如基因组DNA)的任何所需修饰，或对与体外细胞中的目标核酸相关的多肽的任何所需修饰，本发明的gNA变体和/或CasX变异蛋白和/或供体模板序列(无论其以核酸或多肽形式引入)持续约30分钟至约24小时，例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其它时段提供至细胞，其可以约每天至约每7天，例如每1.5天、每2天、每3天的频率或约每天至约每7天的任何其它频率重复。可将药剂提供至个体细胞一次或多次，例如一次、两次、三次或大于三次，且使细胞与药剂在各接触事件之后持续一定时间量(例如16-24小时)在一起培育，其后用新鲜培养基更换所述培养基且进一步培养细胞。

在一些实施例中，本发明提供治疗有需要的个体的疾病的方法，其包含修饰个体的细胞中的基因，所述修饰包含：a)向个体施用本文所述的任一实施例的CasX蛋白和本文所述的任一实施例的gNA，其中gNA的靶向序列具有与目标核酸杂交的序列；b)编码本文所述的任一实施例的CasX蛋白和gNA的核酸；c)包含编码CasX和gNA的核酸的载体；d)包含CasX:gNA RNP的VLP；或e)其组合。在方法的一些实施例中，CasX蛋白和gNA在蛋白复合物，例如核糖核蛋白复合物(RNP)中结合在一起。

在其它实施例中，治疗有需要的个体的疾病的方法包含向个体施用a)CasX蛋白或编码CasX蛋白的聚核苷酸，b)包含靶向序列的引导核酸(gNA)或编码gNA的聚核苷酸，其中gNA的靶向序列具有与目标核酸杂交的序列，和c)包含待修饰的基因的至少一部分或全部的供体模板。

在治疗疾病的方法的一些实施例中，其中向个体施用载体，载体以至少约1×10⁹个载体基因组(vg)、至少约1×10¹⁰vg、至少约1×10¹¹vg、至少约1×10¹²vg、至少约1×10¹³vg、至少约1×10¹⁴vg、至少约1×10¹⁵vg或至少约1×10¹⁶vg的剂量施用。载体可通过选自由以下组成的组的施用途径施用：脑实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内、玻璃体内、视网膜下和腹膜内途径。

多种治疗策略已用于设计用于治疗患病个体的方法的组合物。在一些实施例中，本发明提供治疗患病个体的方法，所述方法包含根据包含一个或多个连续剂量的治疗方案，使用治疗有效剂量向所述个体施用本文公开的任一实施例的CasX:gNA组合物或载体。在示例性实施例中，CasX:gNA组合物包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体，或编码其的载体。在治疗方案的一些实施例中，组合物或载体的治疗有效剂量以单次剂量施用。在治疗方案的其它实施例中，治疗有效剂量以经至少两周、或至少一个月、或至少两个月、或至少三个月、或至少四个月、或至少五个月、或至少六个月的时段的两个或更多个剂量向个体施用。在治疗方案的一些实施例中，有效剂量通过选自由以下组成的组的途径施用：皮下、皮内、神经内、结节内、髓内、肌肉内、腰髓内、鞘内、蛛膜下、室内、囊内、静脉内、淋巴内、玻璃体内、视网膜下或腹膜内途径，其中施用方法为注射、输注或植入。

在治疗患病个体的方法的一些实施例中，方法包含根据包含一个或多个连续剂量的治疗方案，使用治疗有效剂量向个体施用呈本文公开的VLP内的RNP形式的CasX:gNA组合物。

在一些实施例中，向患病个体施用治疗有效量的CasX:gNA模态，包括包含编码CasX蛋白的聚核苷酸和引导核酸的载体，或施用本文公开的CasX-gNA组合物以敲落或敲除基因产物的表达引起潜在疾病的预防或改善，使得在个体中观察到改善，尽管如此，个体仍可能罹患潜在疾病。在一些实施例中，施用治疗有效量的CasX-gNA模态引起疾病的至少一个临床相关参数的改良。

在其中将两种或更多种不同靶向复合物提供至细胞(例如包含与相同或不同目标核酸内的不同序列互补的两种或更多种不同间隔子的两个gNA)的实施例中，复合物可同时提供(例如以两种多肽和/或核酸的形式)，或同时递送。或者，其可连续提供，例如首先提供靶向复合物，接着提供第二靶向复合物等，或反之亦然。

为了改良DNA载体向目标细胞的递送，可保护DNA免受损伤且例如通过使用脂质复合体和聚合复合体促进其进入细胞。因此，在一些情况下，本发明的核酸(例如本发明的重组表达载体)可在组织化结构，如胶束、脂质体或脂质纳米颗粒中覆盖有脂质。当组织化结构与DNA复合时，其被称为脂质复合体。存在三种类型的脂质：阴离子型(带负电)、中性或阳离子型(带正电)。已证明利用阳离子型脂质的脂质复合体适用于基因转移。阳离子型脂质由于其正电荷而天然地与带负电DNA复合。也由于其电荷，其与细胞膜相互作用。接着发生脂质复合体的内饮作用，且DNA释放至细胞质中。阳离子型脂质也保护DNA免于被细胞降解。

聚合物与DNA的复合物被称为聚合复合体。大多数聚合复合体由阳离子聚合物组成，且其产生通过离子相互作用调节。聚合复合体与脂质复合体的作用方法之间的一种巨大差异为聚合复合体无法将其DNA负载释放至细胞质中，因此为此目的，必须进行与内体溶解剂共转染(以溶解在内饮作用期间制得的内体)，如不活化腺病毒。然而，情况并非始终如此；如聚乙烯亚胺的聚合物自身具有内体破坏方法，聚葡萄胺糖和三甲基聚葡萄胺糖也是如此。

树枝状聚合物(具有球形的高度分支大分子)也可用于遗传修饰干细胞。树枝状聚合物粒子的表面可经官能化以改变其特性。确切地说，有可能构建阳离子树枝状聚合物(即，具有正表面电荷的树枝状聚合物)。在如DNA质粒的遗传物质存在下时，电荷互补使得核酸与阳离子树枝状聚合物暂时缔合。到达其目的地时，树枝状聚合物-核酸复合物可通过内饮作用溶解于细胞中。

在一些情况下，本发明的核酸(例如表达载体)包括用于所关注引导序列的插入位点。举例来说，核酸可包括用于所关注引导序列的插入位点，其中所述插入位点紧邻编码gNA变体的部分(例如支架区)的核苷酸序列，所述部分在改变引导序列以与所需目标序列杂交时不改变。因此，在一些情况下，表达载体包括编码gNA的核苷酸序列，除了编码gNA的间隔序列部分的部分为插入序列(插入位点)。插入位点为用于将间隔子插入所需序列中的任何核苷酸序列。与各种技术一起使用的“插入位点”为本领域普通技术人员所知，且可使用任何便利的插入位点。插入位点可用于操纵核酸序列的任何方法。举例来说，在一些情况下，插入位点为多克隆位点(MCS)(例如包括一个或多个限制酶识别序列的位点)、用于连接非依赖性克隆的位点、用于基于重组(例如基于att位点的重组)的克隆的位点、通过基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。

IX.细胞

在其它实施例中，本文提供包含本文所述的CasX:gNA系统中的任一个的组分的细胞。在一些实施例中，细胞包含如本文所述的gNA变体实施例中的任一个，或SEQ ID NO:5或SEQ ID NO:4的参考gRNA，且进一步包含与目标DNA互补的间隔子。在一些实施例中，细胞进一步包含如本文所述的CasX变体(例如表3、8、9、10和12的序列或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO.3的参考CasX蛋白)。在其它实施例中，细胞包含本文所述的CasX:gNA实施例中的任一个的RNP。在其它实施例中，本发明提供包含编码本文所述的任一实施例的CasX:gNA系统的载体的细胞。在其它实施例中，细胞包含已通过本文所述的CasX:gNA实施例编辑的目标DNA；以校正突变(基因敲入)或敲落或敲除缺陷基因。

在一些实施例中，细胞为真核细胞，例如人类细胞。在替代实施例中，细胞为原核细胞。

在一些实施例中，细胞为经修饰细胞(例如遗传修饰细胞)，其含有包含编码本发明的CasX变异蛋白的核苷酸序列的核酸。在一些实施例中，遗传修饰细胞经包含编码CasX变异蛋白的核苷酸序列的mRNA遗传修饰。在一些实施例中，细胞经包含以下的重组表达载体遗传修饰：a)编码本发明的CasX变异蛋白的核苷酸序列；和b)编码本发明的gNA的核苷酸序列，且任选地包含编码供体模板的核苷酸序列。在一些情况下，此类细胞用于产生用于编辑目标DNA的CasX:gNA系统的个别组分或RNP。在其它情况下，已以此方式遗传修饰的细胞可出于如基因疗法的目的向个体施用，例如治疗由基因突变或缺陷引起的疾病或病况。

可充当本发明的CasX变异蛋白和/或gNA和/或包含编码CasX变异蛋白和/或gNA变体的核苷酸序列的核酸的受体的细胞可为多种细胞中的任一个，包括例如体外细胞；体内细胞；离体细胞；原代细胞；永生化细胞系的细胞；癌细胞；动物细胞；植物细胞；藻类细胞；真菌细胞；等。细胞可为本发明的CasX RNP的受体。细胞可为本发明的CasX系统的单一组分的受体。细胞可为编码本文所述的任一实施例的CasX:gNA系统的CasX、gNA和任选的供体模板的载体的受体。

可充当用于产生本文公开的CasX:gNA系统的宿主细胞的细胞的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如来自植物作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、西红柿、水稻、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松、金鱼藻、苔类、藓类、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、瓜迪亚纳微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、桥弯藻(C.agardh)等)、海藻(例如海带)、真菌细胞(例如酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼类、两栖动物、爬虫、禽类、哺乳动物)的细胞、来自哺乳动物(例如有蹄类动物(例如猪、牛、山羊、绵羊)；啮齿动物(例如大鼠、小鼠)；非人类灵长类动物；人类；猫类动物(例如猫)；犬类动物(例如犬)；等)的细胞，等。在一些情况下，细胞为不源自天然生物体的细胞(例如细胞可为以合成方式制得的细胞；也称为人工细胞)。

在如本文所提供的某些实施例中，细胞可为体外细胞(例如确立的培养细胞系，包括但不限于HEK293细胞、HEK293T细胞、HEK293-F细胞、Lenti-X 293T细胞、BHK细胞、HepG2细胞、Saos-2细胞、HuH7细胞、A549细胞、NS0细胞、SP2/0细胞、YO骨髓瘤细胞、P3X63小鼠骨髓瘤细胞、PER细胞、PER.C6细胞、融合瘤细胞、VERO细胞、NIH3T3细胞、COS、WI38细胞、MRC5细胞、HeLa、HT1080细胞或CHO细胞)。细胞可为离体细胞(来自个体的培养细胞)。此类细胞可相对于待施用所述细胞的个体为自体的。在其它实施例中，细胞可相对于待施用所述细胞的个体为同种异体的。细胞可为体内细胞(例如个体中的细胞)。细胞可为经分离细胞。细胞可为生物体内的细胞。细胞可为生物体。细胞可为细胞培养物(例如体外细胞培养物)中的细胞。细胞可为细胞集合中的一者。细胞可为原核细胞或衍生自原核细胞。细胞可为细菌细胞或可衍生自细菌细胞。细胞可为古细菌细胞或衍生自古细菌细胞。细胞可为真核细胞或衍生自真核细胞。细胞可为植物细胞或衍生自植物细胞。细胞可为动物细胞或衍生自动物细胞。细胞可为无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可为脊椎动物细胞或可衍生自脊椎动物细胞。细胞可为哺乳动物细胞或衍生自哺乳动物细胞。细胞可为啮齿动物细胞或衍生自啮齿动物细胞。细胞可为人类细胞或衍生自人类细胞。细胞可为微生物细胞或衍生自微生物细胞。细胞可为真菌细胞或衍生自真菌细胞。细胞可为昆虫细胞。细胞可为节肢动物细胞。细胞可为原虫细胞。细胞可为蠕虫细胞。

在一些实施例中，适合的细胞可包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞；生殖细胞(例如卵母细胞、精子、卵原细胞、精原细胞等)；体细胞，例如成纤维细胞、寡树突神经胶质细胞、胶细胞、造血干细胞、神经元组细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T细胞、B细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增心肌细胞、脂肪细胞、分化全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间叶细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生的组细胞、心肌细胞、骨胳细胞、胎儿细胞、未分化细胞、多潜能组细胞、单潜能组细胞、单核细胞、心成肌细胞、骨胳成肌细胞、巨噬细胞、毛细管内皮细胞、异种细胞、同种异体细胞和产后干细胞。

在一些实施例中，细胞为免疫细胞。在一些情况下，免疫细胞为T细胞、B细胞、单核细胞、自然杀手细胞、树突状细胞或巨噬细胞。在一些情况下，免疫细胞为细胞毒性T细胞。在一些情况下，免疫细胞为辅助T细胞。在一些情况下，免疫细胞为调节T细胞(Treg)。在一些情况下，细胞表达嵌合抗原受体。

在一些实施例中，细胞为干细胞。干细胞可包括例如成体干细胞。成体干细胞也可称为体干细胞。在一些实施例中，干细胞为造血干细胞(HSC)、神经干细胞或间充质干细胞。在其它实施例中，干细胞为间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层且自成人骨髓分离，可分化以形成肌肉、骨头、软骨、脂肪、骨髓基质、和肌腱。分离MSC的方法为本领域中已知的；且任何已知方法可用于获得MSC。

在一些实施例中，细胞为节肢动物细胞。

X.试剂盒和制品

在另一方面中，本文提供试剂盒，其包含本发明的任一实施例的CasX蛋白和一种或复数种gNA和适合的容器(例如管、小瓶或板)。在一些实施例中，试剂盒包含本发明的gNA变体，或SEQ ID NO:5或SEQ ID NO:4的参考gRNA。可包括的示例性gNA变体包含SEQ ID NO:2101-2280中的任一个的序列。

在一些实施例中，试剂盒包含本发明的CasX变异蛋白(例如表3、8、9、10和12的序列)，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白。在示例性实施例中，本发明的试剂盒包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体。在一些实施例中，试剂盒包含SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415中的任一个的CasX变体。在一些实施例中，试剂盒包含3498-3501、3505-3520和3540-3549中的任一个的CasX变体。

在一些实施例中，试剂盒包含gNA或编码gNA的载体，其中gNA包含选自由SEQ IDNO:412-3295以下组成的组的序列。在一些实施例中，gNA包含选自由SEQ ID NO:2101-2280组成的组的序列。在一些实施例中，gNA包含选自由SEQ ID NO:2236、2237、2238、2241、2244、2248、2249和2259-2280组成的组的序列。

在某些实施例中，本文提供试剂盒，其包含如本文所述的CasX蛋白和gNA编辑对，所述gNA编辑对包含表3、8、9、10和12的CasX变异蛋白和gNA变体(例如表2的序列)。在示例性实施例中，本发明的试剂盒包含CasX和gNA编辑对，其中CasX变体包含SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415中的任一个。在一些实施例中，基因编辑对的gNA包含SEQ ID NO:412-3295中的任一个。在一些实施例中，基因编辑对的gNA包含SEQ ID NO:2101-2280中的任一个。在一些实施例中，基因编辑对的gNA包含SEQID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个。

在一些实施例中，试剂盒进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。在一些实施例中，试剂盒进一步包含医药学上可接受的载剂、稀释剂或赋形剂。

在一些实施例中，试剂盒包含用于基因编辑应用的适当对照组合物，和使用说明书。

在一些实施例中，试剂盒包含载体，其包含编码本发明的CasX变异蛋白、本发明的gNA变体、任选的供体模板或其组合的序列。

本说明书阐述大量示例性配置、方法、参数等。然而，应认识到，此类描述并不意图作为本发明的范围的限制，而是替代地作为示例性实施例的描述而提供。上文所述的本发明主题的实施例可有益地单独或与一个或多个其它方面或实施例组合。在不限制前述说明书的情况下，本发明的某些非限制性实施例提供于下文中。如本领域技术人员在阅读本发明时将显而易见，经单独编号的实施例中的每一者可使用或与之前或之后经单独编号的实施例中的任一个组合。此意图为所有此类实施例组合提供支持且不限于下文明确提供的实施例组合：

实施例集合#1：

实施例1.一种参考CasX蛋白的变体，其中所述CasX变体能够与引导核酸形成复合物，且其中所述复合物结合目标核酸，且其中所述CasX变体包含参考CasX蛋白的以下域中的至少一者中的至少一个修饰：

(a)结合至DNA的非目标股的非目标股结合(NTSB)域，其中所述NTSB域包含四股β折叠；

(b)将目标DNA置于CasX变体的裂解位点中的目标股负载(TSL)域，所述TSL域包含三个带正电氨基酸，其中所述三个带正电氨基酸结合至DNA的目标股，

(c)与目标DNA和引导RNA的间隔区相互作用的螺旋形I域，其中所述螺旋形I域包含一个或多个α螺旋；

(d)与目标DNA和引导RNA的支架茎相互作用的螺旋形II域；

(e)结合引导RNA的三螺旋区的寡核苷酸结合域(OBD)；和

(f)RuvC DNA裂解域；

其中相比于参考CasX蛋白，CasX变体展现至少一种改良特征。

实施例2.根据实施例1所述的CasX变体，其中所述参考CasX包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3，或与其至少60％类似的序列。

实施例3.根据实施例2所述的CasX变体，其中所述参考CasX包含SEQ ID NO:1，或与其至少60％类似的序列。

实施例4.根据实施例2所述的CasX变体，其中所述参考CasX包含SEQ ID NO:2，或与其至少60％类似的序列。

实施例5.根据实施例2所述的CasX变体，其中所述参考CasX包含SEQ ID NO:3，或与其至少60％类似的序列。

实施例6.根据实施例1至实施例5中任一项所述的CasX变体，其中所述复合物结合目标DNA且裂解目标DNA。

实施例7.根据实施例1至实施例5中任一项所述的CasX变体，其中所述复合物结合目标DNA，但不裂解目标DNA。

实施例8.根据实施例1至实施例5中任一项所述的CasX变体，其中所述复合物结合目标DNA且在目标DNA中产生单股切口。

实施例9.根据实施例1至实施例8中任一项所述的CasX变体，其中至少一个修饰包含域中的至少一个氨基酸取代。

实施例10.根据实施例1至实施例9中任一项所述的CasX变体，其中至少一个修饰包含域中的至少一个氨基酸缺失。

实施例11.根据实施例10的CasX变体，其中至少一个修饰包含蛋白质中1至4个连续或非连续氨基酸的缺失。

实施例12.根据实施例1至实施例10中任一项所述的CasX变体，其修饰包含域中的至少一个氨基酸插入。

实施例13.根据实施例12所述的CasX变体，其中至少一个修饰包含域中的1至4个连续或非连续氨基酸插入。

实施例14.如1至实施例13中任一项所述的CasX变体，其与SEQ ID NO:1、SEQ IDNO:2或SEQ ID NO:3中的一者具有至少60％类似性。

实施例15.根据实施例14所述的CasX变体，其中所述变体与SEQ ID NO:2具有至少60％类似性序列一致性。

实施例16.根据实施例1至实施例15中任一项所述的CasX变体，其中所述改良特征选自由以下组成的组：改良的变体折叠、改良的对引导RNA的结合亲和力、改良的对目标DNA的结合亲和力、改变的对一个或多个PAM序列的结合亲和力、改良的目标DNA解旋、增加的活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合、改良的蛋白质稳定性、改良的蛋白质:引导RNA复合物稳定性、改良的蛋白质溶解度、改良的蛋白质:引导RNA复合物溶解度、改良的蛋白质产率和改良的熔融特征。

实施例17.根据实施例1至实施例16中任一项所述的CasX变体，其中CasX变体的至少一种改良特征中的至少一者为相对于参考蛋白改良至少约1.1至约100,000倍。

实施例18.根据实施例1至实施例17中任一项所述的CasX变体，其中CasX变体的至少一种改良特征中的至少一者为相对于参考蛋白改良至少约10至约100倍。

实施例19.根据实施例1至实施例18中任一项所述的CasX变体，其中相比于SEQ IDNO:2的蛋白质，CasX变体对引导RNA的结合亲和力增加约1.1至约100倍。

实施例20.根据实施例1至实施例19中任一项所述的CasX变体，其中相比于SEQ IDNO:1、SEQ ID NO:2或SEQ ID NO:3的蛋白质，CasX变体对目标DNA的结合亲和力增加约1至约2倍。

实施例21.根据实施例1至实施例20中任一项所述的CasX变体，其中CasX蛋白包含400至3000个氨基酸。

实施例22.根据实施例1至实施例21中任一项所述的CasX变体，其包含参考CasX蛋白的至少两个域中的至少一个修饰。

实施例23.根据实施例1至实施例22中任一项所述的CasX变体，其包含参考CasX蛋白的至少两个域中的两个或更多个修饰。

实施例24.根据实施例1至实施例23中任一项所述的CasX变体，其中至少一个修饰包含参考CasX蛋白的一个域的至少一部分的缺失。

实施例25.根据实施例1至实施例24中任一项所述的CasX变体，其在形成发生引导RNA:目标DNA复合的通道的非连续残基区域中包含至少一个修饰。

实施例26.根据实施例1至实施例25中任一项所述的CasX变体，其包含形成与引导RNA结合的界面的非连续残基区域的至少一个修饰。

实施例27.根据实施例1至实施例26中任一项所述的CasX变体，其包含形成与非目标股DNA结合的通道的非连续残基区域的至少一个修饰。

实施例28.根据实施例1至实施例27中任一项所述的CasX变体，其包含形成与PAM结合的界面的非连续残基区域的至少一个修饰。

实施例29.根据实施例1至实施例28中任一项所述的CasX变体，其包含非连续表面暴露残基区域的至少一个修饰。

实施例30.根据实施例1至实施例29中任一项所述的CasX变体，其包含经由变体域中的疏水性填充形成核的非连续残基区域的至少一个修饰。

实施例31.根据实施例1至实施例30中任一项所述的CasX变体，其中所述区域的2至15个残基为带电的。

实施例32.根据实施例1至实施例31中任一项所述的CasX变体，其中所述区域的2至15个残基为极性的。

实施例33.根据实施例1至实施例32中任一项所述的CasX变体，其中所述区域的2至15个残基与DNA或RNA碱基堆叠。

实施例34.一种能够结合参考CasX蛋白的参考引导核酸(NA)的变体，其中：

参考核酸包含tracrNA序列和crNA序列，其中：

tracrNA含有包含气泡的支架茎环区，

tracrNA和crNA形成茎和三螺旋区，且

tracrNA和crNA经融合，且形成融合茎环区；

变体包含对参考引导NA的至少一个修饰，且

相比于参考引导RNA，变体展现至少一种改良特征。

实施例35.根据实施例34所述的引导NA变体，其含有包含序列-UUU-N_3-20-UUU-的tracrRNA茎环。

实施例36.根据实施例34或实施例35所述的引导NA变体，其在间隔区的位置5'包含具有-AAAG-的crRNA序列。

实施例37.根据实施例36所述的引导NA变体，其中所述-AAAG-序列紧邻间隔区的5'。

实施例38.根据实施例34至实施例37中任一项所述的引导NA变体，其中至少一种改良特征选自由以下组成的组：改良的稳定性、改良的溶解度、改良的核酸酶活性抗性、增加的NA折叠速率、减少的折叠期间的副产物形成、增加的生产性折叠、改良的对参考CasX蛋白的结合亲和力、改良的对目标DNA的结合亲和力、改良的基因编辑和改良的特异性。

实施例39.根据实施例34至实施例37中任一项所述的引导NA变体，其中至少一个修饰包含区域中的至少一个核酸取代。

实施例40.根据实施例34至实施例39中任一项所述的引导NA变体，其中至少一个修饰包含区域中的至少一个核酸缺失。

实施例41.根据实施例40所述的引导NA变体，其中至少一个修饰包含区域中的1至4个核酸缺失。

实施例42.根据实施例34至实施例40中任一项所述的引导NA变体，其中至少一个修饰包含区域中的至少一个核酸插入。

实施例43.根据实施例42所述的引导NA变体，其中至少一个修饰包含区域中的1至4个核酸插入。

实施例44.根据实施例34至实施例42中任一项所述的引导NA变体，其包含与SEQID NO:5至少60％同源的支架区。

实施例45.根据实施例34至实施例44中任一项所述的引导NA变体，其包含与SEQID NO:6至少60％同源的支架NA茎环。

实施例46.根据实施例34至实施例45中任一项所述的引导NA变体，其包含与SEQID NO:7至少60％同源的延伸茎环。

实施例47.根据实施例34至实施例46中任一项所述的引导NA变体，其中引导NA变异序列与SEQ ID NO:4至少20％、至少30％、至少40％、至少50％、至少60％、或至少70％同源。

实施例48.根据实施例34至实施例47中任一项所述的引导NA变体，其含有包含少于10,000个核苷酸的延伸茎环区。

实施例49.根据实施例34至实施例44中任一项所述的引导NA变体，其中所述支架茎环或延伸茎环与外源茎环交换。

实施例50.根据实施例34至实施例49中任一项所述的引导NA变体，其进一步包含能够结合蛋白质、RNA或DNA的发夹环。

实施例51.根据实施例50的引导NA变体，其中所述发夹环来自MS2、QB、U1A或PP7。

实施例52.根据实施例34至实施例48中任一项所述的引导NA变体，其进一步包含一种或多种核糖核酸酶。

实施例53.根据实施例52所述的引导NA变体，其中所述一种或多种核糖核酸酶独立地与引导RNA变体的末端融合。

实施例54.根据实施例52或实施例53的引导NA变体，其中一种或多种核糖核酸酶中的至少一者为肝炎δ病毒(HDV)核糖核酸酶、锤头核糖核酸酶、手枪核糖核酸酶、手斧核糖核酸酶或烟草环斑病毒(TRSV)核糖核酸酶。

实施例55.根据实施例34至实施例54中任一项所述的引导NA变体，其进一步包含蛋白质结合基序。

实施例56.根据实施例34至实施例55中任一项所述的引导NA变体，其进一步包含热稳定茎环。

实施例57.根据实施例34所述的引导NA变体，其包含SEQ ID NO:9至SEQ ID NO:66中的任一个的序列。

实施例58.根据实施例34至实施例57中任一项所述的引导NA变体，其进一步包含间隔区。

实施例59.根据实施例34至实施例58中任一项所述的引导NA变体，其中所述参考引导RNA包含SEQ ID NO:5。

实施例60.根据实施例38至实施例59中任一项所述的引导NA变体，其中所述参考CasX蛋白包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3。

实施例61.一种包含CRISPR相关蛋白(Cas蛋白)和引导NA的基因编辑对，其中所述Cas蛋白为根据实施例1至实施例33中任一项所述的CasX变体。

实施例62.根据61所述的基因编辑对，其中所述引导NA为根据实施例34至实施例60中任一项所述的引导NA变体，或SEQ ID NO:4或SEQ ID NO:5的引导NA。

实施例63.根据实施例61或实施例62所述的基因编辑对，其中相比于包含SEQ IDNO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白质，和SEQ ID NO:4或SEQ ID NO:5的引导RNA的基因编辑对，所述基因编辑对具有一种或多种改良特征。

实施例64.根据实施例63所述的基因编辑对，其中所述一种或多种改良特征包含改良的蛋白质:引导NA复合物稳定性、改良的蛋白质:引导NA复合物稳定性、改良的蛋白质与引导NA之间的结合亲和力、改良的复合物形成的动力学、改良的与目标DNA的结合亲和力、改良的目标DNA解旋、增加的活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合或改良的核酸酶活性抗性。

实施例65.一种包含CRISPR相关蛋白(Cas蛋白)和引导NA的基因编辑对，其中所述引导NA为根据实施例34至实施例60中任一项所述的引导NA变体。

实施例66.根据实施例65所述的基因编辑对，其中所述Cas蛋白为根据实施例1至实施例22中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO.3的CasX蛋白。

实施例67.根据实施例65或实施例66所述的基因编辑对，其中所述基因编辑对具有一种或多种改良特征。

实施例68.根据实施例67所述的基因编辑对，其中所述一种或多种改良特征包含改良的蛋白质:引导NA复合物稳定性、改良的蛋白质:引导NA复合物稳定性、改良的蛋白质与引导NA之间的结合亲和力、改良的与目标DNA的结合亲和力、改良的目标DNA解旋、增加的活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合或改良的核酸酶活性抗性。

实施例69.一种编辑目标DNA的方法，其包含组合目标DNA与基因编辑对，所述基因编辑对包含CasX变体和引导RNA，其中所述CasX变体为根据实施例1至实施例33中任一项所述的CasX变体，且其中所述组合引起目标DNA的编辑。

实施例70.根据69所述的方法，其中所述引导NA为根据实施例34至实施例60中任一项所述的引导NA变体，或SEQ ID NO:4或SEQ ID NO:5的引导RNA。

实施例71.根据实施例69或实施例70所述的方法，其中在体外在细胞外部发生编辑。

实施例72.根据实施例69或实施例70所述的方法，其中在体外在细胞内部发生编辑。

实施例73.根据实施例69或实施例70所述的方法，其中在体内在细胞内部发生编辑。

实施例74.根据实施例71至实施例73中任一项所述的方法，其中所述细胞为真核细胞。

实施例75.根据实施例74所述的方法，其中所述真核细胞选自由以下组成的组：植物细胞、真菌细胞、原生生物细胞、哺乳动物细胞、爬虫细胞、昆虫细胞、禽类细胞、鱼类细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人类灵长类动物细胞和人类细胞。

实施例76.根据实施例71至实施例73中任一项所述的方法，其中所述细胞为原核细胞。

实施例77.一种编辑目标DNA的方法，其包含组合目标DNA与基因编辑对，所述基因编辑对包含CRISPR相关蛋白(Cas蛋白)和引导NA变体，其中所述引导NA变体为根据实施例34至实施例60中任一项所述的引导NA变体，且其中所述组合引起目标DNA的编辑。

实施例78.根据实施例77所述的方法，其中所述Cas蛋白为根据实施例1至实施例33中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

实施例79.根据实施例77或实施例78所述的方法，其中在体外在细胞外部发生编辑。

实施例80.根据实施例77或实施例78所述的方法，其中在体外在细胞内部发生编辑。

实施例81.根据实施例77或实施例78所述的方法，其中接触在细胞内部体内发生。

实施例82.根据实施例79至实施例81中任一项所述的方法，其中所述细胞为真核细胞。

实施例83.根据实施例82所述的方法，其中所述真核细胞选自由以下组成的组：植物细胞、真菌细胞、哺乳动物细胞、爬虫细胞、昆虫细胞、禽类细胞、鱼类细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人类灵长类动物细胞和人类细胞。

实施例84.根据实施例79至实施例81中任一项所述的方法，其中所述细胞为原核细胞。

实施例85.一种包含CasX变体的细胞，其中所述CasX变体为根据实施例1至实施例33中任一项所述的CasX变体。

实施例86.根据实施例85所述的细胞，其进一步包含根据实施例34至实施例60中任一项所述的引导NA变体，或SEQ ID NO:4或SEQ ID NO:5的引导RNA。

实施例87.一种包含引导NA变体的细胞，其中所述引导NA变体为根据实施例34至实施例60中任一项所述的引导NA变体。

实施例88.根据实施例87所述的细胞，其进一步包含根据实施例1至实施例33中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO.3的CasX蛋白。

实施例89.如85至实施例88中任一项所述的细胞，其中所述细胞为真核细胞。

实施例90.如85至实施例88中任一项所述的细胞，其中所述细胞为原核细胞。

实施例91.一种聚核苷酸，其编码根据实施例1至实施例33中任一项所述的CasX变体。

实施例92.一种载体，其包含根据实施例91所述的聚核苷酸。

实施例93.根据实施例92所述的载体，其中所述载体为细菌质粒。

实施例94.一种细胞，其包含根据实施例91所述的聚核苷酸，或根据实施例92或实施例93所述的载体。

实施例95.一种组合物，其包含根据实施例1至实施例33中任一项所述的CasX变体。

实施例96.根据95所述的组合物，其进一步包含根据实施例34至实施例60中任一项所述的引导RNA变体，或SEQ ID NO:4或SEQ ID NO:5的引导RNA。

实施例97.根据实施例95或实施例96所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例98.一种组合物，其包含根据实施例34至实施例60中任一项所述的引导RNA变体。

实施例99.根据实施例98所述的组合物，其进一步包含如1至实施例33中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

实施例100.根据实施例98或实施例99所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例101.一种组合物，其包含实施例61至实施例68中任一项所述的基因编辑对。

实施例102.根据实施例101所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例103.一种试剂盒，其包含根据实施例1至实施例33中任一项所述的CasX变体和容器。

实施例104.根据实施例103所述的试剂盒，其进一步包含根据实施例34至实施例60中任一项所述的引导NA变体，或SEQ ID NO:4或SEQ ID NO:5的引导RNA。

实施例105.根据实施例103或实施例104所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例106.一种试剂盒，其包含根据实施例34至实施例60中任一项所述的引导NA变体。

实施例107.根据106所述的试剂盒，其进一步包含根据实施例1至实施例33中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

实施例108.根据实施例106或实施例107所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例109.一种试剂盒，其包含实施例61至实施例68中任一项所述的基因编辑对。

实施例110.根据实施例109所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例111.一种CasX变体，其包含表3中所列的任一序列。

实施例112.一种引导RNA变体，其包含表1或表2中所列的任一序列。

实施例113.根据实施例1至实施例33中任一项所述的CasX变体，其中所述参考CasX蛋白包含来自第一CasX蛋白的第一域和来自第二CasX蛋白的第二域。

实施例114.根据实施例113所述的CasX变体，其中所述第一域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

实施例115.根据实施例113所述的CasX变体，其中所述第二域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

实施例116.根据实施例113至实施例115中任一项所述的方法，其中第一和第二域不为相同域。

实施例117.根据实施例113至实施例116中任一项所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:1的序列，且第二CasX蛋白包含SEQ ID NO:2的序列。

实施例118.根据实施例113至实施例116中任一项所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:1的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例119.根据实施例113至实施例116中任一项所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:2的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例120.根据实施例1至实施例33或113实施例119中任一项所述的CasX变体，其中所述CasX蛋白包含至少一个嵌合域，其包含来自第一CasX蛋白的第一部分和来自第二CasX蛋白的第二部分。

实施例121.根据实施例120所述的CasX变体，其中所述至少一个嵌合域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

实施例122.根据实施例120或实施例121所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:1的序列，且第二CasX蛋白包含SEQ ID NO:2的序列。

实施例123.根据实施例120或实施例121所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:1的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例124.根据实施例120或实施例121所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:2的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例125.根据实施例120所述的CasX变体，其中所述至少一个嵌合包含嵌合RuvC域。

实施例126.根据125所述的CasX变体，其中所述嵌合RuvC域包含SEQ ID NO:1的氨基酸661至实施例824和SEQ ID NO:2的氨基酸922至实施例978。

实施例127.根据125所述的CasX变体，其中所述嵌合RuvC域包含SEQ ID NO:2的氨基酸648至812和SEQ ID NO:1的氨基酸935至986。

实施例128.根据34至实施例60中任一项所述的引导NA变体，其中所述参考引导NA包含来自第一引导NA的第一区域和来自第二引导NA的第二区域。

实施例129.根据128所述的引导NA变体，其中所述第一区域选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

实施例130.根据128或129所述的引导NA变体，其中所述第二区域选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

实施例131.根据实施例128至实施例130中任一项所述的引导NA变体，其中第一和第二区域不为相同区域。

实施例132.根据实施例128至实施例131中任一项所述的引导NA变体，其中所述一引导NA包含SEQ ID NO:4的序列且第二引导NA包含SEQ ID NO:5的序列。

实施例133.根据实施例34至60或实施例128至132中任一项所述的引导NA变体，其包含至少一个嵌合区，所述至少一个嵌合区包含来自第一引导NA的第一部分和来自第二引导NA的第二部分。

实施例134.根据实施例133所述的引导NA变体，其中所述至少一个嵌合区选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

实施例135.根据实施例134所述的引导NA变体，其中第一引导NA包含SEQ ID NO:4的序列，且第二引导NA包含SEQ ID NO:5的序列。

实施例集合#2

实施例1.一种参考CasX蛋白的变体，其中所述CasX变体能够与引导核酸(gNA)形成复合物，且其中所述复合物可结合目标核酸，且其中所述CasX变体包含选自以下的参考CasX蛋白的至少一个域中的至少一个修饰：

a.结合至DNA的非目标股的非目标股结合(NTSB)域，其中所述NTSB域包含四股β折叠；

b.将目标DNA置于CasX变体的裂解位点中的目标股负载(TSL)域，所述TSL域包含三个带正电氨基酸，其中所述三个带正电氨基酸结合至DNA的目标股，

c.与目标DNA和gNA的靶向序列相互作用的螺旋形I域，其中所述螺旋形I域包含一个或多个α螺旋；

d.与目标DNA和gNA的支架茎相互作用的螺旋形II域；

e.结合gNA的三螺旋区的寡核苷酸结合域(OBD)；或

f.RuvC DNA裂解域；

其中相比于参考CasX蛋白，CasX变体展现一种或多种改良特征。

实施例2.根据实施例1所述的CasX变体，其中所述CasX参考包含SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的序列。

实施例3.根据实施例1或实施例2所述的CasX变体，其中所述至少一个修饰包含CasX变体的域中的至少一个氨基酸取代。

实施例4.根据前述实施例中任一项所述的CasX变体，其中所述至少一个修饰包含CasX变体中的1至10个连续或非连续氨基酸取代的取代。

实施例5.根据前述实施例中任一项所述的CasX变体，其中至少一个修饰包含CasX变体的域中的至少一个氨基酸缺失。

实施例6.根据前述实施例中任一项所述的CasX变体，其中所述至少一个修饰包含CasX变体中1至10个连续或非连续氨基酸的缺失。

实施例7.根据前述实施例中任一项所述的CasX变体，其中所述至少一个修饰包含CasX变体中1至10个连续或非连续氨基酸取代的取代和1至10个连续或非连续氨基酸的缺失。

实施例8.根据前述实施例中任一项所述的CasX变体，其中所述至少一个修饰包含CasX变体的域中的至少一个氨基酸插入。

实施例9.根据前述实施例中任一项所述的CasX变体，其中所述至少一个修饰包含CasX变体的域中的1至4个连续或非连续氨基酸的插入。

实施例10.根据前述实施例中任一项所述的CasX变体，其中所述CasX变体具有选自由以下组成的组的序列：表3的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％、或至少约96％、或至少约97％、或至少约98％、或至少约99％序列一致性的序列。

实施例11.根据前述实施例中任一项所述的CasX变体，其中所述CasX蛋白质对选自由TTC、ATC、GTC和CTC组成的组的前间隔子邻近基序(PAM)序列具有结合亲和力。

实施例12.根据前述实施例中任一项所述的CasX变体，其中所述CasX蛋白进一步包含一个或多个核定位信号(NLS)。

实施例13.根据实施例12所述的CasX变体，其中所述一个或多个NLS选自以下序列的组，所述序列由以下各者组成：PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ IDNO:353)、PAAKRVKLD(SEQ ID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:359)、PQPKKKPL(SEQ ID NO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQID NO:363)、RKLKKKIKKL(SEQ ID NO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ ID NO:372)、KRGINDRNFWRGENERKTR(SEQ IDNO:373)、PRPPKMARYDN(SEQ ID NO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ IDNO:376)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)和MSRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO:411)。

实施例14.根据实施例12或实施例13所述的CasX变体，其中所述一个或多个NLS表达于CasX蛋白的C端。

实施例15.根据实施例12或实施例13所述的CasX变体，其中所述一个或多个NLS表达于CasX蛋白的N端。

实施例16.根据实施例12或实施例13所述的CasX变体，其中所述一个或多个NLS表达于CasX蛋白的N端和C端。

实施例17.根据前述实施例中任一项所述的CasX变体，其中所述改良特征选自由以下组成的组：改良的变体折叠、改良的对gNA的结合亲和力、改良的对目标DNA的结合亲和力、改变的对目标DNA的一个或多个PAM序列的结合亲和力、改良的目标DNA解旋、增加的活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的非目标DNA股的结合、改良的蛋白质稳定性、改良的蛋白质:gNA复合物稳定性、改良的蛋白质溶解度、改良的蛋白质:gNA复合物溶解度、改良的蛋白质产率、改良的蛋白质表达和改良的熔融特征。

实施例18.根据前述实施例中任一项所述的CasX变体，其中相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白，CasX变体的改良特征中的至少一或多者改良至少约1.1至约100,000倍。

实施例19.根据前述实施例中任一项所述的CasX变体，其中相对于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白，CasX变体的改良特征中的至少一或多者改良至少约10至约100倍。

实施例20.根据前述实施例中任一项所述的CasX变体，其中相比于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的多蛋白质，CasX变体对gNA的结合亲和力增加约1.1至约100倍。

实施例21.根据前述实施例中任一项所述的CasX变体，其中相比于SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的蛋白质，CasX变体对目标DNA的结合亲和力增加约1.1至约10倍。

实施例22.根据前述实施例中任一项所述的CasX变体，其中CasX变体包含400至3000个氨基酸。

实施例23.根据前述实施例中任一项所述的CasX变体，其相对于SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白包含CasX变体的至少两个域中的至少一个修饰。

实施例24.根据前述实施例中任一项所述的CasX变体，其相对于SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白包含CasX变体的至少一个域中的两个或更多个修饰。

实施例25.根据前述实施例中任一项所述的CasX变体，其相对于SEQ ID NO:1、SEQID NO:2或SEQ ID NO:3的参考CasX蛋白包含CasX变体的一个域的至少一部分的缺失。

实施例26.根据前述实施例中任一项所述的CasX变体，其包含CasX变体的非连续氨基酸残基区域的至少一个修饰，所述区域形成其中发生gNA:目标DNA与CasX变体复合的通道。

实施例27.根据前述实施例中任一项所述的CasX变体，其包含形成与gNA结合的界面的CasX变体的非连续氨基酸残基区域的至少一个修饰。

实施例28.根据前述实施例中任一项所述的CasX变体，其包含形成与非目标股DNA结合的通道的CasX变体的非连续氨基酸残基区域的至少一个修饰。

实施例29.根据前述实施例中任一项所述的CasX变体，其包含形成与PAM结合的界面的CasX变体的非连续氨基酸残基区域的至少一个修饰。

实施例30.根据前述实施例中任一项所述的CasX变体，其包含CasX变体的非连续表面暴露氨基酸残基区域的至少一个修饰。

实施例31.根据前述实施例中任一项所述的CasX变体，其包含经由CasX变体的域中的疏水性填充形成核的非连续氨基酸残基区域中的至少一个修饰。

实施例32.根据实施例25至30中任一项所述的CasX变体，其中所述修饰为所述区域的一个或多个氨基酸的缺失、插入和/或取代。

实施例33.根据实施例25至32中任一项所述的CasX变体，其中CasX变体的区域的2至15个氨基酸残基经带电荷氨基酸取代。

实施例34.根据实施例25至32中任一项所述的CasX变体，其中CasX变体的区域的2至15个氨基酸残基经极性氨基酸取代。

实施例35.根据实施例25至32中任一项所述的CasX变体，其中CasX变体的区域的2至15个氨基酸残基经与DNA或RNA碱基堆叠的氨基酸取代。

实施例36.根据前述实施例中任一项所述的CasX变体，其中所述CasX变异蛋白包含具有切口酶活性的核酸酶域。

实施例37.根据实施例1至35中任一项所述的CasX变体，其中所述CasX变异蛋白包含具有双股裂解活性的核酸酶域。

实施例38.根据实施例1至35中任一项所述的CasX变体，其中所述CasX蛋白为无催化活性CasX(dCasX)蛋白，且其中dCasX和gNA保留结合至目标核酸的能力。

实施例39.根据实施例38的CasX变体，其中所述dCasX包含以下残基处的突变：

a.对应于SEQ ID NO:1的CasX蛋白的D672、E769和/或D935；或

b.对应于SEQ ID NO:2的CasX蛋白的D659、E756和/或D922。

实施例40.根据实施例39的CasX变体，其中所述突变为丙氨酸对残基的取代。

实施例41.一种能够结合CasX蛋白的参考引导核酸(gNA)的变体，其中所述参考引导核酸包含tracrNA序列和crNA序列，其中：

a.tracrNA含有包含气泡的支架茎环区；

b.tracrNA和crNA形成茎和三螺旋区；且

c.tracrNA和crNA经融合，且形成融合茎环区

其中所述gNA变体相比于参考引导核酸序列包含至少一个修饰，且变体相比于参考引导RNA展现一种或多种改良特征。

实施例42.根据实施例41的gNA变体，其含有包含序列-UUU-N_3-20-UUU-(SEQ IDNO:4403)的tracrRNA茎环。

实施例43.根据实施例41或42的gNA变体，其包含在gNA变体的靶向序列的位置5'具有-AAAG-的crRNA序列。

实施例44.根据实施例43的gNA变体，其中所述-AAAG-序列紧邻靶向序列的5'。

实施例45.根据实施例41至44中任一项所述的gNA变体，其中所述gNA变体进一步包含靶向序列，其中所述靶向序列与目标DNA序列互补。

实施例46.根据实施例41至45中任一项所述的gNA变体，其中所述一种或多种改良特征选自由以下组成的组：改良的稳定性、改良的溶解度、改良的核酸酶活性抗性、增加的NA折叠速率、减少的折叠期间的副产物形成、增加的生产性折叠、改良的对参考CasX蛋白的结合亲和力、改良的对目标DNA的结合亲和力、改良的基因编辑和改良的特异性。

实施例47.根据实施例46所述的gNA变体，其中相对于SEQ ID NO:4或SEQ ID NO:5的参考gNA，所述CasX变体的改良特征中的一个或多个改良至少约1.1至约100,000倍。

实施例48.根据实施例46或47所述的CasX变体，其中相对于SEQ ID NO:4或SEQ IDNO:5的参考gNA，所述CasX变体的改良特征中的一个或多个改良至少约10至约100倍。

实施例49.根据实施例41至48中任一项所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的至少一个核苷酸取代。

实施例50.根据实施例41至49所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的至少1至4个核苷酸取代。

实施例51.根据实施例41至50中任一项所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的至少一个核苷酸缺失。

实施例52.根据实施例41至51中任一项所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的1至4个核苷酸缺失。

实施例53.根据实施例41至52中任一项所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的至少一个核苷酸插入。

实施例54.根据实施例41至53中任一项所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的1至4个核苷酸插入。

实施例55.根据实施例41至54中任一项所述的gNA变体，其中所述至少一个修饰包含相比于SEQ ID NO:4或SEQ ID NO:5的参考gNA，gNA变体的区域中的至少1至4个核苷酸缺失、至少1至4个核苷酸插入、至少1至4个核苷酸取代或其任何组合。

实施例56.根据实施例41至

中任一项所述的gNA变体，其包含与SEQ ID NO:4或SEQ ID NO:5至少60％同源的支架区。

实施例57.根据实施例41至55中任一项所述的gNA变体，其包含与SEQ ID NO:14至少60％同源的支架NA茎环。

实施例58.根据实施例41至55中任一项所述的gNA变体，其包含与SEQ ID NO:14至少60％同源的延伸茎环。

实施例59.根据实施例41至55中任一项所述的gNA变体，其中所述gNA变异序列与SEQ ID NO:4至少20％、至少30％、至少40％、至少50％、至少60％、或至少70％、或至少80％同源。

实施例60.根据实施例41至58中任一项所述的gNA变体，其中所述gNA变异序列与选自序列SEQ ID NO:2101-2241的组的序列至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％同源，或100％同源。

实施例61.根据实施例41至60中任一项所述的gNA变体，其含有包含少于10,000个核苷酸的延伸茎环区。

实施例62.根据实施例41至60中任一项所述的gNA变体，其中所述支架茎环或延伸茎环序列经外源茎环序列置换。

实施例63.根据实施例62所述的gNA变体，其中所述外源茎环为能够结合蛋白质、RNA或DNA分子的发夹环。

实施例64.根据实施例62或63所述的gNA变体，其中所述外源茎环为增加gNA稳定性的发夹环。

实施例65.根据实施例63或64所述的gNA变体，其中所述发夹环选自MS2、Qβ、U1A或PP7。

实施例66.根据实施例41至65中任一项所述的gNA变体，其进一步包含一种或多种核糖核酸酶。

实施例67.根据实施例66所述的gNA变体，其中所述一种或多种核糖核酸酶独立地与gNA变体的末端融合。

实施例68.根据实施例66或67所述的gNA变体，其中一种或多种核糖核酸酶中的至少一者为肝炎δ病毒(HDV)核糖核酸酶、锤头核糖核酸酶、手枪核糖核酸酶、手斧核糖核酸酶或烟草环斑病毒(TRSV)核糖核酸酶。

实施例69.根据实施例41至68中任一项所述的gNA变体，其进一步包含蛋白质结合基序。

实施例70.根据实施例41至69中任一项所述的gNA变体，其进一步包含热稳定茎环。

实施例71.根据实施例41所述的gNA变体，其包含SEQ ID NO:2101-2241中的任一个的序列。

实施例72.根据实施例41至71中任一项所述的gNA变体，其进一步包含靶向序列。

实施例73.根据实施例72所述的gNA变体，其中所述靶向序列具有14、15、16、18、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸。

实施例74.根据实施例41至73中任一项所述的gNA变体，其中所述gNA经化学修饰。

实施例75.一种基因编辑对，其包含CasX蛋白和第一gNA。

实施例76.根据实施例74所述的基因编辑对，其中所述第一gNA包含：

a.根据实施例41至74中任一项所述的gNA变体和靶向序列；或

b.SEQ ID NO:4或5的参考引导核酸和靶向序列，其中所述靶向序列与目标核酸互补。

实施例77.根据实施例74或76所述的基因编辑对，其中所述CasX包含：

a.根据实施例1至40中任一项所述的CasX变体；或

b.SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白。

实施例78.根据实施例74至77中任一项所述的基因编辑对，其进一步包含第二gNA或编码第二gNA的核酸，其中相比于第一gNA的靶向序列，所述第二gNA具有与目标核酸的不同部分互补的靶向序列。

实施例79.根据实施例74至78中任一项所述的基因编辑对，其中所述CasX蛋白和gNA能够在核糖核蛋白复合物(RNP)中结合在一起。

实施例80.根据实施例74至79中任一项所述的基因编辑对，其中所述CasX蛋白和gNA在核糖核蛋白复合物(RNP)中结合在一起。

实施例81.根据实施例79或80所述的基因编辑对，其中所述RNP能够结合目标DNA。

实施例82.根据实施例79至81中任一项所述的基因编辑对，其中相比于参考CasX蛋白和参考引导核酸的RNP，所述RNP具有较高百分比的裂解胜任型RNP。

实施例83.根据实施例79至82中任一项所述的基因编辑对，其中所述RNP能够结合和裂解目标DNA。

实施例84.根据实施例79至82中任一项所述的基因编辑对，其中所述RNP结合目标DNA但不裂解目标DNA。

实施例85.根据实施例79至83中任一项所述的基因编辑对，其中所述RNP能够结合目标DNA且在目标DNA中产生一个或多个单股切口。

实施例86.根据实施例79至83或85中任一项所述的基因编辑对，其中相比于包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和SEQ ID NO:4或5的参考引导核酸的基因编辑对，所述基因编辑对具有一种或多种改良特征。

实施例87.根据实施例86所述的基因编辑对，其中所述一种或多种改良特征包含改良的CasX:gNA RNP复合物稳定性、改良的CasX与gNA之间的结合亲和力、改良的RNP复合物形成的动力学、较高百分比的裂解胜任型RNP、改良的RNP与目标DNA的结合亲和力、改良的目标DNA解旋、增加的编辑活性、改良的编辑效率、改良的编辑特异性、增加的核酸酶活性、增加的用于双股裂解的目标股负载、减少的用于单股切割的目标股负载、减少的脱靶裂解、改良的DNA的非目标股的结合或改良的核酸酶活性抗性。

实施例88.根据实施例86或87所述的基因编辑对，其中相对于参考CasX蛋白和参考引导核酸的基因编辑对，改良特征中的至少一或多者改良至少约1.1至约100,000倍。

实施例89.根据实施例86至88中任一项所述的基因编辑对，其中相对于参考CasX蛋白和参考引导核酸的基因编辑对，CasX变体的改良特征中的一个或多个改良至少约10至约100倍。

实施例90.一种编辑目标DNA的方法，其包含使目标DNA与根据实施例74至89中任一项所述的基因编辑对接触，其中所述接触引起目标DNA的编辑。

实施例91.根据实施例90所述的方法，其包含使目标DNA与复数个gNA接触，所述复数个gNA包含与目标DNA的不同区域互补的靶向序列。

实施例92.根据实施例90或91所述的方法，其中所述接触在目标DNA中引入一个或多个单股断裂，且其中所述编辑包含目标DNA中的突变、插入或缺失。

实施例93.根据实施例90或91所述的方法，其中所述接触在目标DNA中引入一个或多个双股断裂，且其中所述编辑包含目标DNA中的突变、插入或缺失。

实施例94.根据实施例90至93中任一项所述的方法，其进一步包含使目标DNA与供体模板核酸的核苷酸序列接触，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

实施例95.根据实施例94所述的方法，其中所述供体模板通过同源定向修复在断裂位点处插入目标DNA中。

实施例96.根据实施例90至95中任一项所述的方法，其中在体外在细胞外部发生编辑。

实施例97.根据实施例90至95中任一项所述的方法，其中在体外在细胞内部发生编辑。

实施例98.根据实施例90至95中任一项所述的方法，其中在体内在细胞内部发生编辑。

实施例99.根据实施例97或98所述的方法，其中所述细胞为真核细胞。

实施例100.根据实施例99所述的方法，其中所述真核细胞选自由以下组成的组：植物细胞、真菌细胞、原生生物细胞、哺乳动物细胞、爬虫细胞、昆虫细胞、禽类细胞、鱼类细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人类灵长类动物细胞和人类细胞。

实施例101.根据实施例99或100所述的方法，其中所述方法包含使真核细胞与编码或包含CasX蛋白gNA，且任选地进一步包含供体模板的载体接触。

实施例102.根据实施例101所述的方法，其中所述载体为腺相关病毒(AAV)载体。

实施例103.根据实施例102所述的方法，其中所述AAV为AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。

实施例104.根据实施例101所述的方法，其中所述载体为慢病毒载体。

实施例105.根据实施例101所述的方法，其中所述载体为病毒样粒子(VLP)。

实施例106.根据实施例101至105中任一项所述的方法，其中所述载体以治疗有效剂量向个体施用。

实施例107.根据实施例105所述的方法，其中所述个体选自由以下组成的组：小鼠、大鼠、猪、非人类灵长类动物和人类。

实施例108.根据实施例107所述的方法，其中所述个体为人类。

实施例109.根据实施例106至108中任一项所述的方法，其中所述载体以至少约1×10¹⁰个载体基因组(vg)，或至少约1×10¹¹vg，或至少约1×10¹²vg，或至少约1×10¹³vg，或至少约1×10¹⁴vg，或至少约1×10¹⁵vg，或至少约1×10¹⁶vg的剂量施用。

实施例110.根据实施例106至109中任一项所述的方法，其中所述载体通过选自由以下组成的组的施用途径施用：脑实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内和腹膜内途径。

实施例111.根据实施例97所述的方法，其中所述细胞为原核细胞。

实施例112.一种包含CasX变体的细胞，其中所述CasX变体为根据实施例1至40中任一项所述的CasX变体。

实施例113.根据实施例112所述的细胞，其进一步包含

a.根据实施例41至74中任一项所述的gNA变体，或

b.SEQ ID NO:4或5的参考引导核酸和靶向序列。

实施例114.一种细胞，其包含根据实施例41至74中任一项所述的gNA变体。

实施例115.根据实施例114所述的细胞，其进一步包含根据实施例1至实施例35中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO.3的CasX蛋白。

实施例116.根据实施例114或115所述的细胞，其进一步包含供体核苷酸模板，所述模板包含与目标DNA杂交的序列。

实施例117.根据实施例116所述的细胞，其中所述供体模板的大小在10-10,000个核苷酸的范围内。

实施例118.根据实施例116或117所述的细胞，其中所述供体模板为单股DNA模板或单股RNA模板。

实施例119.根据实施例116或117所述的方法，其中所述供体模板为双股DNA模板。

实施例120.根据实施例112至119中任一项所述的细胞，其中所述细胞为真核细胞。

实施例121.根据实施例112至119中任一项所述的细胞，其中所述细胞为原核细胞。

实施例122.一种聚核苷酸，其编码根据实施例1至40中任一项所述的CasX变体。

实施例123.一种聚核苷酸，其编码根据实施例41至74中任一项所述的gNA变体。

实施例124.一种载体，其包含根据实施例122和/或123所述的聚核苷酸。

实施例125.根据实施例123所述的载体，其中所述载体为腺相关病毒(AAV)载体。

实施例126.根据实施例125所述的方法，其中所述AAV为AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。

实施例127.根据实施例123所述的载体，其中所述载体为慢病毒载体。

实施例128.根据实施例124所述的载体，其中所述载体为病毒样粒子(VLP)。

实施例129.一种细胞，其包含根据实施例122所述的聚核苷酸，或根据实施例124至128中任一项所述的载体。

实施例130.一种组合物，其包含根据实施例1至35中任一项所述的CasX变体。

实施例131.根据实施例130所述的组合物，其进一步包含：

a.根据实施例45至74中任一项所述的gNA变体，或

b.SEQ ID NO:4或5的参考引导RNA和靶向序列。

实施例132.根据实施例130或131所述的组合物，其中所述CasX蛋白和gNA在核糖核蛋白复合物(RNP)中结合在一起。

实施例133.根据实施例130至132中任一项所述的组合物，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

实施例134.根据实施例130至133中任一项所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例135.一种组合物，其包含根据实施例41至74中任一项所述的gNA变体。

实施例136.根据实施例135所述的组合物，其进一步包含根据实施例1至35中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

实施例137.根据实施例136所述的组合物，其中所述CasX蛋白和gNA在核糖核蛋白复合物(RNP)中结合在一起。

实施例138.根据实施例135至137中任一项所述的组合物，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

实施例139.根据实施例135至138中任一项所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例140.一种组合物，其包含实施例4至89中任一项所述的基因编辑对。

实施例141.根据实施例140所述的组合物，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

实施例142.根据实施例140或141所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例143.一种试剂盒，其包含根据实施例1至35中任一项所述的CasX变体和容器。

实施例144.根据实施例143所述的试剂盒，其进一步包含：

a.根据实施例45至74中任一项所述的gNA变体，或

b.SEQ ID NO:4或5的参考引导RNA和靶向序列。

实施例145.根据实施例143或144所述的试剂盒，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA的目标序列具有同源性的核苷酸序列。

实施例146.根据实施例143至145中任一项所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例147.一种试剂盒，其包含根据实施例45至74中任一项所述的gNA变体。

实施例148.根据实施例147所述的试剂盒，其进一步包含根据实施例1至35中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

实施例149.根据实施例147或148所述的试剂盒，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA的目标序列具有同源性的核苷酸序列。

实施例150.根据实施例147至149中任一项所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例151.一种试剂盒，其包含实施例74至89中任一项所述的基因编辑对。

实施例152.根据实施例151所述的试剂盒，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

实施例153.根据实施例151或152所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

实施例154.一种CasX变体，其包含表3中所列的任一序列。

实施例155.一种gNA变体，其包含表2中所列的任一序列。

实施例156.根据实施例155所述的gNA变体，其进一步包含与目标DNA互补的至少10至30个核苷酸的靶向序列。

实施例157.根据实施例156所述的gNA变体，其中所述靶向序列具有20个核苷酸。

实施例158.根据实施例156所述的gNA变体，其中所述靶向序列具有19个核苷酸。

实施例159.根据实施例156所述的gNA变体，其中所述靶向序列具有18个核苷酸。

实施例160.根据实施例156所述的gNA变体，其中所述靶向序列具有17个核苷酸。

实施例161.根据实施例1至40中任一项所述的CasX变体，其中所述CasX蛋白质包含来自第一CasX蛋白的第一域和来自与第一CasX蛋白不同的第二CasX蛋白的第二域。

实施例162.根据实施例161所述的CasX变体，其中所述第一域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

实施例163.根据实施例162所述的CasX变体，其中所述第二域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

实施例164.根据实施例161至163中任一项所述的CasX变体，其中所述第一和第二域不为相同域。

实施例165.根据实施例161至164中任一项所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:1的序列，且第二CasX蛋白包含SEQ ID NO:2的序列。

实施例166.根据实施例161至164中任一项所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:1的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例167.根据实施例161至164中任一项所述的CasX变体，其中第一CasX蛋白包含SEQ ID NO:2的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例168.根据实施例1至40或161至167中任一项所述的CasX变体，其中所述CasX变异蛋白包含至少一个嵌合域，其包含来自第一CasX蛋白的第一部分和来自与第一CasX蛋白不同的第二CasX蛋白的第二部分。

实施例169.根据实施例168所述的CasX变体，其中所述至少一个嵌合域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

实施例170.根据实施例168或169所述的CasX变体，其中第一CasX蛋白包含SEQ IDNO:1的序列，且第二CasX蛋白包含SEQ ID NO:2的序列。

实施例171.根据实施例168或169所述的CasX变体，其中第一CasX蛋白包含SEQ IDNO:1的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例172.根据实施例168或169所述的CasX变体，其中第一CasX蛋白包含SEQ IDNO:2的序列，且第二CasX蛋白包含SEQ ID NO:3的序列。

实施例173.根据实施例168所述的CasX变体，其中所述至少一个嵌合域包含嵌合RuvC域。

实施例174.根据实施例173所述的CasX变体，其中所述嵌合RuvC域包含SEQ IDNO:1的氨基酸661至824和SEQ ID NO:2的氨基酸922至978。

实施例175.根据实施例173所述的CasX变体，其中所述嵌合RuvC域包含SEQ IDNO:2的氨基酸648至812和SEQ ID NO:1的氨基酸935至986。

实施例176.根据实施例41至74中任一项所述的gNA变体，其中所述gNA包含来自第一gNA的第一区域和来自第二gNA的第二区域。

实施例177.根据实施例176所述的gNA变体，其中所述第一区域选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

实施例178.根据实施例176或177所述的gNA变体，其中所述第二区域选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

实施例179.根据实施例176至178中任一项所述的gNA变体，其中所述第一和第二区域不为相同区域。

实施例180.根据实施例176至179中任一项所述的gNA变体，其中第一gNA包含SEQID NO:4的序列且第二gNA包含SEQ ID NO:5的序列。

实施例181.根据实施例41至74或176至180中任一项所述的gNA变体，其包含至少一个嵌合区，所述至少一个嵌合区包含来自第一gNA的第一部分和来自第二gNA的第二部分。

实施例182.根据实施例181所述的gNA变体，其中所述至少一个嵌合区选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

实施例183.根据实施例182所述的gNA变体，其中第一gNA包含SEQ ID NO:4的序列且第二gNA包含SEQ ID NO:5的序列。

以下实例仅为示例性的且不意图以任何方式限制本发明的任何方面。

实例

实例1：用于测量sgRNA和CasX蛋白活性的分析

若干分析用于进行CasX蛋白和sgRNA DME库和工程化突变体的初始筛选，和测量所选蛋白质和sgRNA变体相对于CasX参考sgRNA和蛋白质的活性。

大肠杆菌CRISPRi筛选：

简而言之，氯霉素(CM)耐受性质粒上的死亡CasX DME库与卡本西林(Carb)耐受性质粒上的GFP引导RNA的生物一式三份通过基因整合和组成性表达的GFP和RFP转化(在>5×库大小下)至MG1655中(参见图13A-图13B)。细胞在EZ-RDM+Carb、CM和无水四环素(aTc)诱导剂中生长过夜。大肠杆菌是基于GFP而非RFP抑制的顶部1％的门进行FACS分选，收集，且立即重新分选以进一步富集高度功能性CasX分子。接着生长双重分选库且收集DNA用于highseq上的深度测序。此DNA也重新转移至板上且选取个别克隆用于进一步分析。

大肠杆菌毒素选择：

简而言之，含有阿拉伯糖诱导性毒素的卡本西林耐受性质粒转化至大肠杆菌细胞中且变为电感受态。CasX DME库与氯霉素耐受性质粒上的毒素靶向引导RNA的生物一式三份转化(在>5×库大小下)至所述细胞中且在LB+CM和阿拉伯糖诱导剂中生长。裂解毒素质粒的大肠杆菌在诱导培养基中存活且生长至对数中期，且回收具有功能性CasX裂解剂的质粒。按需要重复此选择。接着生长所选库且收集DNA用于highseq上的深度测序。此DNA也重新转移至板上且选取个别克隆用于进一步分析和测试。

基于慢病毒的筛选EGFP筛选：

在转染时以70％-90％的汇合度于HEK293细胞中产生慢病毒粒子。基于含有CasXDME库的质粒的转染使用聚乙烯亚胺转染细胞。慢病毒载体经用于粒子生产的慢病毒封装质粒和VSV-G包膜质粒共转染。在转染后12小时更换培养基，且在转染后36-48小时收集病毒。使用0.45mm膜过滤器过滤病毒上清液，适当时于细胞培养基中稀释，且添加至具有整合式GFP报告子的目标细胞HEK细胞中。必要时，补充凝聚胺以增强转导效率。经转导的细胞在转导后24-48小时使用嘌呤霉素选择，且生长7-10天。细胞接着针对GFP破坏分选和针对高度功能性sgRNA或蛋白质变体收集(参见图2)。接着经由PCR直接自基因组扩增库且收集用于在highseq上进行深度测序。此DNA也可重新克隆和重新转移至板上且选取个别克隆用于进一步分析。

分析HEK EGFP报告子的编辑效率：

为了分析CasX参考sgRNA和蛋白质和其变体的编辑效率，将EGFP HEK293T报告子细胞接种至96孔板中，且根据制造商的方案用脂染胺3000(Life Technologies)和100-200ng编码参考或变异CasX蛋白、P2A-嘌呤霉素融合物和参考或变异sgRNA的质粒DNA进行转染。次日，细胞用1.5μg/ml嘌呤霉素选择2天且在选择之后通过荧光活化细胞分选(FACS)分析7天，以允许自细胞清除EGFP蛋白。使用Attune NxT流式细胞仪和高通量自动进样器追踪经由编辑的EGFP破坏。

实例2：CasX参考sgRNA的裂解效率

SEQ ID NO:4(下文)的参考CasX sgRNA描述于WO 2018/064371中，其内容以引用的方式并入本文中。

发现对SEQ ID NO:4的sgRNA参考序列的改变产生SEQ ID NO:5(下文)，能够改良CasX裂解效率。

为了分析CasX参考sgRNA和其变体的编辑效率，将EGFP HEK293T报告子细胞接种至96孔板中，且根据制造商的方案用脂染胺3000(Life Technologies)和100-200ng编码参考CasX蛋白、P2A-嘌呤霉素融合物和sgRNA的质粒DNA进行转染。次日，细胞用1.5μg/ml嘌呤霉素选择2天且在选择之后通过荧光活化细胞分选(FACS)分析7天，以允许自细胞清除EGFP蛋白。使用Attune NxT流式细胞仪和高通量自动进样器追踪经由编辑的EGFP破坏。

当测试通过CasX参考和sgRNA变体裂解EGFP报告子时，使用以下DNA编码间隔子目标序列：

E6(TGTGGTCGGGGTAGCGGCTG；SEQ ID NO:29)，和

E7(TCAAGTCCGCCATGCCCGAA；SEQ ID NO:30)。

SEQ ID NO:5的sgRNA相比于SEQ ID NO:4的sgRNA增加的裂解效率的实例出示于图5A中。相比于SEQ ID NO:4，SEQ ID NO:5的编辑效率改良176％。因此选择SEQ ID NO:5作为下文所述的DME和额外sgRNA变体设计的参考sgRNA。

实例3：CasX参考gRNA的诱变产生具有改良的目标裂解的变体

使用两种独特PCR方法实现sgRNA的DME。产生单一核苷酸取代的第一种方法利用简并寡核苷酸。这些是通过定制核苷酸混合合成，使得与sgRNA基因座互补的各引物基因座具有97％机率为野生型碱基，且具有1％机率为其它三种核苷酸中的每一者。在PCR期间，简并寡核苷酸粘接至小质粒内的sgRNA支架且正好超出所述sgRNA支架，从而扩增整个质粒。PCR产物经纯化、连接且转化至大肠杆菌中。第二种方法用于产生具有单或双核苷酸插入和缺失的sgRNA支架。对于意图用于突变的各碱基对建立独特PCR反应：在SEQ ID NO:5的CasX支架的情况下，使用109个PCR。这些PCR引物经设计和配对以使得PCR产物缺失碱基对，或含有额外插入碱基对。对于插入碱基对，PCR引物插入简并碱基，以使得所有四种可能的核苷酸表示于最终库中。

一旦构建，便如实例1中所述地在筛选或选择中分析蛋白质和sgRNA DME库，以定量地鉴别赋予增强的功能的突变。任何分析，如细胞存活或荧光强度是足够的，只要所述分析维持基因型与表型之间的联系即可。这些群体的高通量测序和确证个别变异表型提供关于影响功能的突变(如由筛选或选择所分析)的信息。深度测序数据的统计分析提供对突变景观和蛋白质功能或引导RNA功能机制的详细洞察(参见图3A-图3B、图4A、图4B、图4C)。

DME库sgRNA RNA变体使用SEQ ID NO:5的参考gRNA制得，进行选择或富集，且经测序以确定库中的sgRNA变体的倍数富集。库包括每一核苷酸的每一可能的单一突变，和双重插入缺失(插入/缺失)。结果出示于图3A-图3B、图4A-图4C和下表4中。

为了使用DME产生碱基对取代的库，设计两种简并寡核苷酸，其各结合至sgRNA支架的一半且共同扩增包含起始sgRNA支架的整个质粒。这些寡核苷酸由具有3％突变率的定制核苷酸混合制得。这些简并寡核苷酸接着用于使用标准制造方案对起始支架质粒进行PCR扩增。同样遵循标准方案，对此PCR产物进行凝胶纯化。凝胶纯化的PCR产物接着进行钝端连接且电穿孔至适当大肠杆菌克隆菌株中。转化体在标准培养基中生长过夜，且经由小规模纯化来纯化质粒DNA。

为了产生小插入和缺失的库，PCR引物经设计以使得由包含碱基sgRNA支架的质粒的扩增产生的PCR产物将缺失碱基对，或含有额外插入碱基对。对于插入碱基对，设计了其中已插入简并碱基的PCR引物，使得所有四种可能的核苷酸均表示于汇集PCR产物的最终库中。起始sgRNA支架接着经各组寡核苷酸进行PCR扩增，作为其自身的反应。各PCR反应含有五种可能的引物，尽管所有引物粘接至相同序列。举例来说，引物1省去碱基，以产生缺失。引物2、3、4和5插入A、T、G或C。然而，此五种引物全部粘接至相同区域且因此可汇集于单一PCR中。然而，对于沿sgRNA的不同位置的PCR必需保持于独立管中，且109种独特PCR反应用于产生sgRNA DME库。

所得109种PCR产物接着在琼脂糖凝胶上运行且切除，随后合并和纯化。汇集的PCR产物经钝端连接且电穿孔至大肠杆菌中。转化体在具有适当可选标记的标准培养基中生长过夜，且经由小规模纯化来纯化质粒DNA。已产生具有所有单一小插入缺失的库，可重复通过各组寡核苷酸对起始质粒进行PCR扩增、纯化、钝端连接、转化至大肠杆菌中和小规模纯化的步骤，以获得含有大部分双重小插入缺失的库。以1:1000的比率组合单一插入缺失库和双重插入缺失库产生代表单一和双重插入缺失的库。

所得库接着经合并且穿过DME筛选和/或选择程序，以鉴别具有增强的裂解活性的变体。使用大肠杆菌中的毒素裂解和CRISPRi抑制，以及慢病毒转染的HEK293细胞中的EGFP切割来筛选DME库，如实例1中所述。经历筛选/选择，接着测序的DME库中的支架变体的倍数富集出示于下表4中。确定与下表4中的每一序列相关的读段计数(‘注解’、‘seq’)。仅分析跨越任何样品具有至少10个读段的序列，以将1500万个序列过滤为600K个。以下‘seq’给出两个5'随机5聚体与3'随机5聚体之间的整个插入物的序列。‘seq_短’仅给出支架的预期序列。与各序列相关的突变通过比对确定(‘muts’)。所有修饰均由其[位置0-编索引)].[参考碱基].[替代碱基]指示。位置0指示经转录gRNA的第一个T。具有多个突变的序列经半克隆分离。muts_1编索引栏给出相同信息，但为1-编索引而非0-编索引。修饰中的每一者被注解(‘注解_变体’)为单取代/插入/缺失、双取代/插入/缺失、单_del_单_sub(缺失和相邻取代)、单_sub_单_ins(取代和相邻插入)、‘外部_ref’(指示修饰在经转录gRNA外部)或‘其它’(任何较大取代/插入/缺失或其某一组合)。位置i处的插入指示位置i-1与i之间(即，在指示位置之前)的插入碱基。关于变体注解应注意：连续碱基集中的任一个的缺失可归因于那些碱基中的任一个。因此，位置-1处T的缺失与位置0处T的缺失为相同序列。‘计数’指示测序深度标准化读段计数/序列/样品。技术复本通过取几何平均值而合并。‘log2富集’给出在合并技术复本之后，跨越各情形或跨越所有样品的中值富集(使用10的伪计数)。未处理的读段计数在D2_N与D3_N样品之间取平均值(几何平均值)。最后，‘log2富集_err’给出平均log2富集的‘信赖区间’。其为跨越样品×2/样品数目的sqrt的富集的标准差。以下仅出示中值log2富集-log2富集_err>0的序列(614564个经检查序列中的2704个)。

在表4中，CI指示信赖区间且MI指示中值富集，其指示增强的活性。

表4.DME支架变体的中值富集

产生大约140个经修饰gRNA，一些通过DME且一些通过靶向工程化，且分析其通过产生插入缺失而破坏目标GFP报告子构建体的表达的能力。这些gRNA变体的序列出示于表2中。这些经修饰gRNA不包括对间隔区的修饰，且替代地包含不同的经修饰支架(与CRISPR蛋白相互作用的sgRNA部分)。通过DME产生的gRNA支架包括一个或多个缺失、取代和插入，其可由单个或若干个碱基对组成。基于热稳定RNA结构知识将其余的gRNA变体合理地工程化，且为核糖核酸酶的末端融合物或高度稳定茎环序列的插入物。通过组合gRNA变体产生额外gRNA。所选gRNA变体的结果出示于下表5中。

表5.所选gRNA变体破坏GFP表达的能力

尽管可以热力学方式(例如通过分析熔融温度)或以动力学方式(例如使用光学光镊测量折叠强度)测量引导稳定性，但不希望受任何理论束缚，相信更稳定sgRNA增强CRISPR编辑效率。因此，编辑效率用作改良引导功能的主要分析。

使用如上文所述的靶向GFP的E6和E7间隔子分析gRNA支架变体的活性。在此情况下，起始sgRNA支架为使用“GAAA”茎环(SEQ ID NO:5)与浮霉状菌属crispr RNA(crRNA)融合的参考浮霉状菌属CasX tracr RNA。此sgRNA支架被用作DME和合理工程化突变的基础。表6中所示的变异gRNA的活性被标准化为此起始或基础sgRNA支架的活性。

将sgRNA支架克隆至具有3'II型限制酶位点的小(小于3千个碱基对)质粒中，以落入不同间隔子中。sgRNA的间隔区为与目标DNA相互作用，且不直接与CasX蛋白相互作用的sgRNA部分。因此，支架工程化应为间隔子非依赖性的。实现此目标的一种方法为通过使用若干独特间隔子，如靶向GFP的E6和E7间隔子执行sgRNA DME和测试工程化sgRNA变体。此降低产生在靶向一个遗传目标的一个间隔序列的情况下良好地起作用，但对于针对其它目标的其它间隔序列并非如此的sgRNA支架变体的可能性。对于表6中所示的数据，使用靶向GFP的E6和E7间隔序列。sgRNA变体对GFP表达的抑制被标准化为以相同间隔序列分析的SEQ IDNO:5的sgRNA起始支架的GFP抑制。

通过DME和合理工程化产生的所选sgRNA变体的活性出示于图5A-图5E中，活性的平均变化出示于表6中，且sgRNA变体序列提供于表2中。如实例1中所述地在HEK293细胞中测试具有增加活性的sgRNA变体。图5C出示当在HEK293细胞中分析时，所选sgRNA变体具有改良的GFP编辑。图5D出示在一些情况下，可通过附加核糖核酸酶序列来改良活性。图5E出示sgRNA变体包含变化的组合，例如通过DME或替换茎环序列产生的那些可进一步改良编辑活性。

实例4：CasX蛋白的诱变产生改良变体

构建可选的哺乳动物表达质粒，其包括参考(在本文中也称为起始或基础)CasX蛋白序列、sgRNA支架和可经间隔序列替换的目的序列。在此情况下，起始CasX蛋白为Stx2(SEQ ID NO:2)，野生型浮霉菌门CasX序列，且支架为SEQ ID NO:5的野生型sgRNA支架。此目的质粒使用适当限制酶遵循制造商的方案消化。消化后，经消化的DNA使用柱纯化根据制造商的方案纯化。靶向GFP的E6和E7间隔子寡核苷酸在10μL粘接缓冲液中粘接。使用GoldenGate连接反应将粘接的寡核苷酸连接至纯化的消化主链。将Golden Gate连接产物转化至化学感受态大肠杆菌细菌细胞中且接种至具有适当抗生素的LB琼脂板上。选取个别菌落，且经由桑格测序验证GFP间隔子插入。

以下方法用于构建CasX蛋白变体的DME库。功能性Plm CasX蛋白(其为978个残基的多域蛋白(SEQ ID NO:2))可在与108bp sgRNA支架(SEQ ID NO:5)的复合物中起作用，所述复合物具有赋予DNA结合特异性的额外3'20bp可变间隔序列。构建全面突变库因此需要两种方法：一种用于蛋白质，且一种用于sgRNA。质粒重组工程化用于构建CasX蛋白变体的DME蛋白库。基于PCR的诱变用于构建sgRNA的RNA库。重要的是，DME方法可利用多种分子生物学技术。用于基因库构建的技术可为可变的，而突变的设计和范围涵盖DME方法。

在针对参考CasX蛋白设计DME突变中，如下地构建合成寡核苷酸：对于各密码子，合成三种类型的寡核苷酸。第一，取代寡核苷酸用编码19种可能的氨基酸突变的19种可能的替代密码子中的一者替换密码子的三个核苷酸。与目标基因具有完美同源性的30个碱基对的侧接区域允许可程序化靶向这些突变。第二，20个合成寡核苷酸的类似集合编码单一氨基酸的插入物。此处，由三个碱基对组成的新区域插入密码子与侧接同源区之间，而非替换密码子。插入二十组不同的三个核苷酸，对应于二十种氨基酸中的每一者的新密码子。可相同地建立较大插入物，但将含有额外三、六或九个碱基对，编码二、三或四种氨基酸的所有可能的组合。第三，寡核苷酸经设计以去除三个包含密码子的碱基对，因此使氨基酸缺失。如上，寡核苷酸可经设计以缺失一、二、三或四个氨基酸。质粒重组工程化接着用于将这些合成突变重组为所关注的目标基因，然而，其它分子生物学方法可替代其使用以实现相同目标。

表6出示由SEQ ID NO:2的参考蛋白产生的CasX蛋白变体DME库的倍数富集，所述库接着经受DME选择/筛选方法。

在下表6中，确定与所列变体中的每一者相关的读段计数。各变体由其位置(0-编索引)、参考碱基和替代碱基定义。仅分析跨越样品具有至少10个读段(总计)的序列，以将457K个变体过滤为60K个变体。位置i处的插入指示位置i-1与i之间(即，在指示位置之前)的插入碱基。‘计数’指示测序深度标准化读段计数/序列/样品。技术复本通过取几何平均值而合并。‘log2富集’给出在合并技术复本之后，跨越各情形或跨越所有样品的中值富集(使用10的伪计数)。各情形通过其自身的未处理样品标准化。最后，‘log2富集_err’给出平均log2富集的‘信赖区间’。其为跨越样品×2/样品数目的sqrt的富集的标准差。以下仅出示中值log2富集-log2富集_err>0的序列(检查60274个序列)。

用于产生表6的计算方案为如下：各样品库在Illumina HiSeq上测序150个循环配对末端(总共300个循环)。读段经修整以去除衔接子序列，且与参考序列比对。如果读段不与参考比对，或如果鉴于phred碱基质量评分每一读段的预期误差数目较高，则将其过滤。对于与参考序列比对，但不恰好匹配的读段通过将读段的编码蛋白质序列与比对位置处参考的蛋白质序列进行比对来评估导致失配的蛋白质突变。将任何连续变体分组至延伸多个残基的一个变体中。对于各样品确定支持任何给定变体的读段数目。此每一样品的原始变异读段计数通过每一样品的总读段数目标准化(在鉴于phred质量评分，过滤每一读段的低预期误差数之后)，以顾及不同测序深度。通过发现变体标准化读段计数(下文出示为‘计数’)的几何平均值来合并技术复本。通过除以未处理的读段计数对于各样品计算富集(在相同背景下-即D2、D3、DDD)。为了使与低读段计数相关的富集降权，在富集计算期间将10的伪计数添加至分子和分母中。各情形的富集为跨越个别门的中值，且总体富集为跨越门和情形的中值富集。富集误差为log2富集值的标准差除以每一变体的值数目的sqrt，乘以2以作出平均值的95％信赖区间。

参考CasX蛋白的各位置的DME变体富集的热度图出示于图7A-图7I和图8A-图8C中。示出具有SEQ ID NO:2的参考CasX蛋白的各氨基酸的单一取代、插入和缺失的DME变体的倍数富集。图7A-图7I和表6概述当在37℃下运行DME实验时的结果。图8A-图8C概述当在45℃下运行相同实验时的结果。图7A-图7I和图8A-图8C中的数据的比较出示在两种温度下运行相同分析富集不同变体。两种温度的比较因此指示哪些氨基酸残基和变化对于热稳定性和折叠重要，且这些氨基酸可接着经靶向以产生具有改良的热稳定性和折叠的CasX蛋白变体。

表6：CasX DME变体的倍数富集

在表6中，[终止]表示终止密码子，以使得随后的氨基酸为终止密码子之后的额外氨基酸。(-)占有相邻“改变”栏中所示的插入的位置。Pos.：位置；Ref.：参考；Alt.：替代；Med.Enrich.：中值富集。

实例5：所选CasX蛋白变体和变异蛋白:sgRNA对的裂解活性

使用参考sgRNA支架(SEQ ID NO:5)和E6和/或E7间隔子，所选CasX蛋白变体对CasX蛋白活性的效应出示于下表7以及图10和图11中。

简而言之，将EGFP HEK293T报告子细胞接种至96孔板中，且根据制造商的方案用脂染胺3000(Life Technologies)和100-200ng编码变异CasX蛋白、P2A-嘌呤霉素融合物和参考sgRNA的质粒DNA进行转染。次日，细胞用1.5μg/ml嘌呤霉素选择2天且在选择之后7天通过荧光活化细胞分选分析，以允许自细胞清除EGFP蛋白。使用Attune NxT流式细胞仪和高通量自动进样器跟踪经由编辑的EGFP破坏。

表7：CasX蛋白变体的效应。这些突变是相对于SEQ ID NO:2。

[]指示缺失，且(^)指示SEQ ID NO:2的指定位置处的插入。使用E6和E7间隔子，且数据为N＝6个复本的平均值。Stdev＝标准差。编辑活性被标准化为SEQ ID NO:2的参考CasX蛋白。

对来自DME筛选的所选CasX蛋白变体和包含突变组合的CasX蛋白变体分析经由裂解和插入缺失形成GFP报告子表达破坏的能力。通过两个目标(具有6个复本)分析CasX蛋白变体。图10出示相比于携有单一突变的所选变体的SEQ ID NO:2的参考CasX蛋白，活性的倍数改良，其通过SEQ ID NO:5的参考sgRNA支架分析。

图11出示如图10中所示的那些单一突变可组合产生CasX蛋白变体，其可改良编辑效率超过两倍。组合3或4个个别突变的最改良CasX蛋白变体展现与已用于临床的金黄色葡萄球菌Cas9(SaCas9)类似的活性(Maeder等人2019,《自然·医学(Nature Medicine)》25(2):229-233)。

图12A-图12B出示CasX蛋白变体在与所选sgRNA变体组合时，可实现甚至更大幅改良编辑效率。举例来说，包含L379K和A708K取代和SEQ ID NO:2的P793缺失的蛋白质变体在与截短茎环T10C sgRNA变体组合时，使被破坏细胞的分率超过加倍。

实例6：CasX蛋白变体可影响PAM特异性

实验目的为证实CasX变体2(SEQ ID NO:2)和支架变体2(SEQ ID NO:5)编辑GFP基因中的ATCN、CTCN和TTCN PAM处的目标基因序列的能力。在没有过去可能活性的认知下，依据PAM可用性来选择GFP基因中的ATCN、CTCN和TTCN间隔子。

为了便于评估编辑结果，首先通过将组成性表达GFP的转基因盒敲入至HEK293T细胞中来产生HEK293T-GFP报告子细胞系。经修饰细胞通过每3-5天连续传代扩增，且维持于成纤维细胞(FB)培养基中，其组成为：达尔伯克氏改良伊格尔培养基(Dulbecco'sModified Eagle Medium)(DMEM；Corning Cellgro,#10-013-CV)，补充有10％胎牛血清(FBS；Seradigm,#1500-500)和100单位/毫升青霉素和100mg/mL链霉素(100×-Pen-Strep；GIBCO#15140-122)，且可另外包括丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100×Thermofisher#11140050)、HEPES缓冲液(100×Thermofisher#15630080)和2-巯基乙醇(1000×Thermofisher#21985023)。在37℃和5％CO2下培育细胞。在1-2周之后，GFP+细胞整体分选至FB培养基中。报告子细胞通过每3-5天连续传代扩增且在37℃和5％CO2下维持于培育箱中的FB培养基中。通过限制稀释法产生克隆细胞系。

使用所上文所述的细胞系产生方法构建的HEK293T-GFP报告子细胞系用于此实验。细胞以每孔20-40k个细胞接种在96孔板的100μl FB培养基中，且在具有5％CO2的37℃培育箱中培养。第二天，使用脂染胺3000和制造商推荐方案，在约75％汇合度下转染细胞。编码CasX和引导构建体的质粒DNA(例如关于序列，参见表)用于使用每一构建体3个孔，以每孔100-400ng转染细胞，作为复本。非靶向质粒构建体用作阴性对照。选择细胞以用0.3-3μg/ml的嘌呤霉素成功转染24-48小时，接着在FB培养基中回收。在转导后5天通过流式细胞测量术分析编辑的细胞。简而言之，细胞针对活细胞、单细胞和GFP阴性细胞的分率依序门控。

结果：图15中的图示出示转染后5天，HEK293T-GFP细胞中的GFP基因座处Cas介导的编辑的流式细胞测量术分析的结果。各数据点为个别间隔子的3个复本的平均测量值。参考CasX参考蛋白(SEQ ID NO:2)和gRNA(SEQ ID NO:5)RNP复合物显示对TTC PAM的明显偏好(图15)。此充当改变对PAM序列的特异性的CasX蛋白和sgRNA变体的基线。图16出示当通过HEK293细胞中的各种PAM和间隔序列分析时，所选CasX蛋白变体可比SEQ ID NO:2的参考CasX蛋白更有效地编辑非典型和典型PAM序列。具有非靶向间隔子的构建体不引起编辑(数据未示出)。此实例表明在分析条件下，具有适当引导的CasX可在目标序列处通过HEK293T-GFP报告子细胞中的ATCN、CTCN和TTCN PAM编辑，且改良的CasX变体增加典型和非典型PAM处的编辑活性。

实例7：参考浮霉菌门CasX RNP为高度特异性的

分析参考CasX RNP复合物裂解具有1-4个突变的目标序列的能力，其中结果出示于图17A-图17F中。发现参考浮霉菌门CasX RNP为高度特异性的且展现比SpyCas9和SauCas9更少的脱靶效应。

实例8：CasX构建体的产生、表达和纯化

生长和表达

表8的CasX的表达构建体构建自针对大肠杆菌经密码子优化的基因片段(TwistBiosciences)。装配构建体含有TEV-可裂解、C端、TwinStrep标签，且克隆至含有安比西林耐受性基因的pBR322衍生的质粒主链中。表8的序列经配置为：SV40 NLS-CasX-SV40 NLS-TEV裂解位点-TwinStrep标签。将表达构建体转化至化学胜任型BL21*(DE3)大肠杆菌中，且起子培养物在37℃、180RPM下在UltraYield烧瓶(Thomson Instrument Company)中于补充有卡本西林的LB培养液中生长过夜。第二天，此培养物以1:100v/v比率(起子培养物:表达培养物)用于种子表达培养物。将表达培养物接种至补充有卡本西林的Terrific Broth(Novagen)中且在37℃、180RPM下于UltraYield烧瓶中生长。一旦培养物达到0.5的OD，便将其在振荡时经2小时冷却至16℃，且添加IPTG(异丙基β-D-1-硫代半乳糖苷)至1mM的最终浓度(自1M储备液)。培养物在16℃、180RPM下诱导20小时，随后通过在4℃下以4,000×g离心15分钟收获。将细胞浆料称重且以每克细胞浆料5mL溶解缓冲液的比率再悬浮于溶解缓冲液(50mM HEPES-NaOH，250mM NaCl，5mM MgCl₂，1mM TCEP，1mM苯甲脒-HCL，1mM PMSF，0.5％CHAPS，10％甘油，pH 8)中。一旦再悬浮，便将样品冷冻于-80℃直至纯化。

表8：CasX构建体的序列

纯化

冷冻样品在4℃下在轻轻摇动下解冻过夜。通过音波处理降低所得溶解物的粘度，且通过使用Emulsiflex C3均质机(Avestin)在17k PSI下分三次均质化来完成溶解。通过在4℃下以50,000×g离心30分钟来澄清溶解物且收集上清液。使用AKTA Pure 25M FPLC系统(GE Life Sciences)将澄清上清液施加至肝素6Fast Flow柱(GE Life Sciences)。柱用5CV肝素缓冲液A(50mM HEPES-NaOH，250mM NaCl，5mM MgCl₂，1mM TCEP，10％甘油，pH8)，接着用3CV肝素缓冲液B(NaCl浓度调节至500mM的缓冲液A)洗涤。蛋白质用1.75CV肝素缓冲液C(NaCl浓度调节至1M的缓冲液A)洗脱。通过AKTA FPLC将肝素洗脱液施加至StrepTactinHP柱(GE Life Sciences)。柱用10CV Strep缓冲液(50mM HEPES-NaOH，500mM NaCl，5mMMgCl₂，1mM TCEP，10％甘油，pH 8)洗涤。使用添加2.5mM去硫生物素的2CV Strep缓冲液自柱洗脱蛋白质且收集于0.8CV洗脱份中。含CasX的洗脱份经汇集，使用50kDa截止旋转浓缩器(Millipore Sigma)在4℃下浓缩，且通过在由AKTA FPLC操作的Superdex 200pg柱(GELife Sciences)上进行尺寸排阻色谱而纯化。柱用SEC缓冲液(25mM磷酸钠，300mM NaCl，1mM TCEP，10％甘油，pH 7.25)平衡。在适当分子量下洗脱的含CasX的洗脱份经汇集，使用50kDa截止旋转浓缩器在4℃下浓缩，等分，且在液氮中急冻，随后储存于-80℃下。

结果

在上文的生长和纯化部分之后，获得以下结果。

衍生自浮霉菌门的WT CasX(SEQ ID NO:2)：来自整个纯化程序的样品通过SDS-PAGE解析且通过胶体考马斯染色观察，如图24和图26中所示。来自凝胶过滤的结果出示于图25中。

平均产率为每升培养物0.75mg纯化CasX蛋白(75％纯度)，如通过胶体考马斯染色所评估。

CasX变体119：遵循与WT CasX相同的表达和纯化方案，对于CasX变体119获得以下结果。来自整个纯化程序的样品通过SDS-PAGE解析且通过胶体考马斯染色观察，如图28中所示。来自凝胶过滤的结果出示于图27中。平均产率为每升培养物11.7mg纯化CasX蛋白(95％纯度)，如通过胶体考马斯染色所评估。

CasX变体438：遵循与WT CasX相同的表达和纯化方案，对于CasX变体438获得以下结果。来自整个纯化程序的样品通过SDS-PAGE解析且通过胶体考马斯染色观察，如图29和图31中所示。来自凝胶过滤的结果出示于图30中。平均产率为每升培养物13.1mg纯化CasX蛋白(97.5％纯度)，如通过胶体考马斯染色所评估。

CasX变体457：遵循与WT CasX相同的表达和纯化方案，对于CasX变体457获得以下结果。来自整个纯化程序的样品通过SDS-PAGE解析且通过胶体考马斯染色观察，如图32和图34中所示。来自凝胶过滤的结果出示于图33中。平均产率为每升培养物9.76mg纯化CasX蛋白(91.6％纯度)，如通过胶体考马斯染色所评估。

总体而言，结果支持CasX变体可在对于实验分析和评估足够的高纯度水准下产生和回收。

实例9：CasX 119、438和457的设计和产生

为了产生CasX 119、438和457构建体(表9中的序列)，经密码子优化的CasX 37构建体(基于实例8的WT CasX Stx2构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代和[P793]缺失，和连接引导和非靶向序列)使用标准克隆方法克隆至哺乳动物表达质粒(pStX；参见图35)中。为了建立CasX 119，在两个反应中使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，分别使用引物oIC539和oIC88以及oIC87和oIC540对CasX 37构建体DNA进行PCR扩增(参见图36)。为了建立CasX 457，在四个反应中使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，分别使用引物oIC539和oIC212、oIC211和oIC376、oIC375和oIC551以及oIC550和oIC540对CasX 365构建体DNA进行PCR扩增。为了建立CasX 438，在四个反应中使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，分别使用引物oIC539和oIC689、oIC688和oIC376、oIC375和oIC551以及oIC550和oIC540对CasX 119构建体DNA进行PCR扩增。所得PCR扩增产物接着使用Zymoclean DNA清洁和浓缩器(Zymo Research目录号4014)，根据制造商的方案进行纯化。使用XbaI和SpeI消化pStX主链以去除质粒pStx34中的两个位点之间的DNA的2931个碱基对的片段。消化的主链片段通过使用Zymoclean Gel DNARecovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(GoldBio目录号A-201-500)进行凝胶提取而纯化。插入和主链片段接着使用吉布森装配(Gibsonassembly)(New England BioLabs目录号E2621S)，遵循制造商的方案拼凑在一起。将pStx34中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。pStX34包括用于蛋白质的EF-1α启动子以及用于嘌呤霉素和卡本西林两者的选择标记。编码靶向所关注基因的靶向序列的序列是基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸粘接在一起且通过Golden Gate装配，使用T4 DNA连接酶(New EnglandBioLabs目录号M0202L)和适合于质粒的限制酶个别地或整体地克隆至pStX中。将GoldenGate产物转化至化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。SaCas9和SpyCas9对照质粒与上文所述的pStX质粒类似地制备，其中pStX的蛋白质和引导区交换各别蛋白质和引导物。SaCas9和SpyCas9的靶向序列获自文献或根据确立方法合理地设计。CasX蛋白的表达和回收如实例8中所述地进行，然而，在所述实例中，DNA序列经密码子优化以表达于大肠杆菌中。

表9：CasX 119、438和457的序列

构建体	DNA[SEQ ID NO]	蛋白质[SEQ ID NO]
			CasX 119	3502	3505
CasX 457	3503	3506
			CasX 438	3504	3507

实例10：CasX构建体278-280、285-288、290、291、293、300、492和493的设计和产生

为了产生CasX 278-280、285-288、290、291、293、300、492和493构建体(表10中的序列)，哺乳动物表达载体中的经密码子优化的CasX 119构建体(基于实例9的CasX Stx37构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代和[P793]缺失，和连接引导和非靶向序列)的N端和C端经操纵以缺失或添加NLS序列(表11中的序列)。构建体278、279和280为仅使用SV40 NLS序列的N端和C端操纵。构建体280在N端上不具有NLS且在C端上添加两个SV40 NLS，在两个SV40 NLS序列之间具有三重脯氨酸连接子。通过用Q5DNA聚合酶(New England BioLabs目录号M0491L)根据制造商的方案，对于第一片段各自使用引物oIC527和oIC528、oIC730和oIC522以及oIC730和oIC530，且为了产生第二片段各自使用oIC529和oIC520、oIC519和oIC731以及oIC529和oIC731扩增pStx34.119.174.NT而制得构建体278、279和280。这些片段通过使用Zymoclean Gel DNA Recovery Kit(ZymoResearch目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化。各别片段使用吉布森装配(New England BioLabs目录号E2621S)，遵循制造商的方案克隆在一起。pStx34中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spinMiniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。编码靶向所关注基因的靶向序列的序列是基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸粘接在一起且通过Golden Gate装配，使用T4 DNA连接酶(New England BioLabs目录号M0202L)和适合于质粒的限制酶个别地或整体地克隆至pStX中。Golden Gate产物转化中化学或电感受态细胞中，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。

为了产生构建体285-288、290、291、293和300，嵌套式PCR方法用于克隆。使用的主链载体和PCR模板为构建体pStx34 279.119.174.NT，其具有CasX 119、引导174和非靶向间隔子(关于序列，参见实例8和9和其中的表)。构建体278具有配置SV40NLS-CasX119。构建体279具有配置CasX119-SV40NLS。构建体280具有配置CasX119-SV40NLS-PPP连接子-SV40NLS。构建体285具有配置CasX119-SV40NLS-PPP连接子-SynthNLS3。构建体286具有配置CasX119-SV40NLS-PPP连接子-SynthNLS4。构建体287具有配置CasX119-SV40NLS-PPP连接子-SynthNLS5。构建体288具有配置CasX119-SV40NLS-PPP连接子-SynthNLS6。构建体290具有配置CasX119-SV40NLS-PPP连接子-EGL-13NLS。构建体291具有配置CasX119-SV40NLS-PPP连接子-c-Myc NLS。构建体293具有配置CasX119-SV40NLS-PPP连接子-核仁RNA解螺旋酶II NLS。构建体300具有配置CasX119-SV40NLS-PPP连接子-甲型流感蛋白NLS。构建体492具有配置SV40NLS-CasX119-SV40NLS-PPP连接子-SV40NLS。构建体493具有配置SV40NLS-CasX119-SV40NLS-PPP连接子-c-Myc NLS。各变体具有一组三个PCR；其中的两者为嵌套式的，通过凝胶提取纯化，消化，且接着连接至经消化和纯化的主链。pStx34中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。编码靶向所关注基因的靶向序列的序列是基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸粘接在一起且通过Golden Gate装配，使用T4 DNA连接酶(New England BioLabs目录号M0202L)和适合于质粒的限制酶个别地或整体地克隆至所得pStX中。Golden Gate产物转化至化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。

为了产生构建体492和493，使用XbaI和BamHI(NEB#R0145S和NEB#R3136S)根据制造商的方案消化构建体280和291。随后，其通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化。最后，使用T4 DNA连接酶(NEB#M0202S)根据制造商的方案，使用XbaI和BamHI和Zymoclean Gel DNA Recovery Kit将其连接至经消化和纯化的pStx34.119.174.NT中。pStx34中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin MiniprepKit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。编码靶向所关注基因的靶向间隔序列的序列是基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向间隔序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸粘接在一起且通过Golden Gate装配，使用T4 DNA连接酶(New England BioLabs目录号M0202L)和适合于各别质粒的限制酶个别地或整体地克隆至各pStX中。Golden Gate产物转化至化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。质粒将用于使用实例8和9的一般方法产生和回收CasX蛋白。

表10：CasX 278-280、285-288、290、291、293、300、492和493构建体和对应SEQ IDNO

构建体	SEQ ID NO
		278	3508
279	3509
		280	3510
285	3511
		286	3512
287	3513
		288	3514
290	3515
		291	3516
293	3517
		300	3518
492	3519
		493	3520

表11：核定位序列清单

实例11：CasX构建体387、395、485-491和494的设计和产生

为了产生CasX 395、CasX 485、CasX 486、CasX 487，经密码子优化的CasX 119(基于实例9的CasX 37构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代和[P793]缺失，和连接引导和非靶向序列)、CasX 435、CasX 438和CasX 484(各基于实例9的CasX 119构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的L379R取代、A708K取代和[P793]缺失，和连接引导和非靶向序列)分别使用标准克隆方法克隆至包含KanR标记、colE1 ori和具有融合NLS的CasX(pStx1)的4kb分段载体中。吉布森引物经设计以自其自身载体中的氨基酸192-331扩增CasX SEQ ID NO:1螺旋形I域，以分别替换pStx1中的CasX 119、CasX 435、CasX 438和CasX 484上的此对应区域(aa 193-332)。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引物oIC768和oIC784扩增来自CasX SEQ ID NO:1的螺旋形I域。使用Q5 DNA聚合酶(New EnglandBioLabs目录号M0491L)，根据制造商的方案，通过引物oIC765和oIC764扩增含有所需CasX变体的目的载体。两个片段通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化。插入和主链片段接着使用吉布森装配(Gibson assembly)(New EnglandBioLabs目录号E2621S)，遵循制造商的方案拼凑在一起。pStx1分段载体中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有康霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。适当克隆接着经切割且使用标准克隆方法粘贴至哺乳动物表达质粒(pStX；参见图36)中。所得质粒使用桑格测序进行测序以确保适当装配。编码靶向所关注基因的靶向间隔序列的序列是基于CasX PAM位置而设计。靶向间隔序列DNA排序为由此序列的靶向序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸粘接在一起且通过GoldenGate装配，使用T4 DNA连接酶(New England BioLabs目录号M0202L)和适合于质粒的限制酶个别地或整体地克隆至pStX中。Golden Gate产物转化至化学或电感受态细胞，如NEBTurbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。

为了产生CasX 488、CasX 489、CasX 490和CasX 491(表12中的序列)，经密码子优化的CasX 119(基于实例9的CasX 37构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代和[P793]缺失，和连接引导和非靶向序列)、CasX 435、CasX 438和CasX 484(各基于实例9的CasX 119构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS的L379R取代、A708K取代和[P793]缺失，和连接引导和非靶向序列)分别使用标准克隆方法克隆至由KanR标记、colE1 ori和具有融合NLS的STX(pStx1)构成的4kb分段载体中。吉布森引物经设计以扩增其自身载体中的来自氨基酸101-191的CasX Stx1 NTSB域和来自氨基酸192-331的螺旋形I域，以分别替换pStx1中的CasX 119、CasX 435、CasX 438和CasX484上的此类似区域(aa 103-332)。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引物oIC766和oIC784扩增来自CasX SEQ ID NO:1的NTSB和螺旋形I域。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引物oIC762和oIC765扩增含有所需CasX变体的目的载体。两个片段通过使用Zymoclean Gel DNA Recovery Kit(Zymo Research目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化。插入和主链片段接着使用吉布森装配(Gibson assembly)(New England BioLabs目录号E2621S)，遵循制造商的方案拼凑在一起。pStx1分段载体中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有康霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。适当克隆接着经切割且使用标准克隆方法粘贴至哺乳动物表达质粒(pStX；参见图36)中。所得质粒使用桑格测序进行测序以确保适当装配。编码靶向所关注基因的靶向间隔序列的序列是基于CasX PAM位置而设计。靶向间隔序列DNA排序为由此序列的靶向序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNATechnologies)。此两个寡核苷酸粘接在一起且通过Golden Gate装配，使用T4 DNA连接酶(New England BioLabs目录号M0202L)和适合于质粒的限制酶个别地或整体地克隆至pStX中。Golden Gate产物转化至化学或电感受态细胞，如NEB Turbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spinMiniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。

为了产生CasX 387和CasX 494(表12中的序列)，经密码子优化的CasX 119(基于实例9的CasX 37构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS进行的A708K取代和[P793]缺失，和连接引导和非靶向序列)和CasX 484(基于实例9的CasX 119构建体，编码浮霉菌门CasX SEQ ID NO:2，具有经融合NLS的L379R取代、A708K取代和[P793]缺失，和连接引导和非靶向序列)分别使用标准克隆方法克隆至由KanR标记、colE1 ori和具有融合NLS的STX(pStx1)构成的4kb分段载体中。吉布森引物经设计以扩增其自身载体中来自氨基酸101-191的CasX Stx1 NTSB域，以分别替换pStx1中的CasX 119和CasX 484上的此类似区域(aa 103-192)。使用Q5 DNA聚合酶(New England BioLabs目录号M0491L)，根据制造商的方案，通过引物oIC766和oIC767扩增来自CasX Stx1的NTSB域。使用Q5 DNA聚合酶(NewEngland BioLabs目录号M0491L)，根据制造商的方案，通过引物oIC763和oIC762扩增含有所需CasX变体的目的载体。两个片段通过使用Zymoclean Gel DNA Recovery Kit(ZymoResearch目录号D4002)，根据制造商的方案自1％琼脂糖凝胶(Gold Bio目录号A-201-500)进行凝胶提取而纯化。插入和主链片段接着使用吉布森装配(Gibson assembly)(NewEngland BioLabs目录号E2621S)，遵循制造商的方案拼凑在一起。pStx1分段载体中的装配产物转化至化学感受态Turbo Competent大肠杆菌细菌细胞中，接种于含有康霉素的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当装配。适当克隆接着经切割且使用标准克隆方法粘贴至哺乳动物表达质粒(pStX；参见图36)中。所得质粒使用桑格测序进行测序以确保适当装配。编码靶向所关注基因的靶向序列的序列是基于CasX PAM位置而设计。靶向序列DNA排序为由此序列的靶向序列和反向互补序列组成的单股DNA(ssDNA)寡核苷酸(Integrated DNA Technologies)。此两个寡核苷酸粘接在一起且通过GoldenGate装配，使用T4 DNA连接酶(New England BioLabs目录号M0202L)和适合于质粒的限制酶个别地或整体地克隆至pStX中。Golden Gate产物转化至化学或电感受态细胞，如NEBTurbo competent大肠杆菌(NEB目录号C2984I)中，接种于含有卡本西林的LB-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)且遵循制造商的方案进行小规模纯化。所得质粒使用桑格测序进行测序以确保适当连接。所得构建体的序列在表12中列出。

表12：CasX 395和485-491构建体和对应SEQ ID NO

构建体	DNA[SEQ ID NO]	蛋白质[SEQ ID NO]
			CasX 387	3530	3540
CasX 395	3531	3541
			CasX 485	3532	3542
CasX 486	3533	3543
			CasX 487	3534	3544
CasX 488	3535	3545
			CasX 489	3536	3546
CasX 490	3537	3547
			CasX 491	3538	3548
CasX 494	3539	3549

实例12：RNA引导的产生

为了产生RNA单引导和间隔子，通过用Q5聚合酶(NEB M0491)根据推荐方案，通过用于各主链的模板寡核苷酸和具有T7启动子和间隔序列的扩增引物进行PCR来产生用于体外转录的模板。用于引导和间隔子的T7启动子、引导和间隔子的DNA引物序列呈现于下表13中。对于各支架标记为“主链fwd”和“主链rev”的模板寡核苷酸以各20nM的最终浓度包括在内，且扩增引物(T7启动子和独特间隔引物)以各1μM的最终浓度包括在内。sg2、sg32、sg64和sg174引导分别对应于SEQ ID NO:5、2104、2106和2238，除了sg2、sg32和sg64经额外5'G修饰以提高转录效率(比较表13与表2中的序列)。7.37间隔子靶向β2-微球蛋白(B2M)。在PCR扩增之后，模板被清洁且通过酚-氯仿-异戊醇萃取分离，接着进行乙醇沉淀。

在含有50mM Tris pH 8.0、30mM MgCl₂、0.01％Triton X-100、2mM亚精胺、20mMDTT、5mM NTP、0.5μM模板和100μg/mL T7 RNA聚合酶的缓冲液中进行体外转录。将反应物在37℃下培育过夜。每1mL转录体积添加20单位的DNA酶I(Promega#M6101))且培育一小时。RNA产物经由变性PAGE纯化、经乙醇沉淀且再悬浮于1×磷酸盐缓冲盐水中。为了折叠sgRNA，将样品加热至70℃后维持5分钟且接着冷却至室温。将反应物补充至1mM最终MgCl₂浓度，加热至50℃后维持5分钟且接着冷却至室温。将最终RNA引导产物储存于-80℃。

表13：用于产生引导RNA的序列

实例13：RNP装配

CasX和单引导RNA(sgRNA)的纯化野生型和RNP在即将进行实验之前制备，或经制备且在液氮中急冻且储存于-80℃以便后续使用。为了制备RNP复合物，将CasX蛋白与sgRNA以1:1.2摩尔比一起培育。简而言之，将sgRNA添加至Buffer#1(25mM NaPi、150mM NaCl、200mM海藻糖、1mM MgCl2)中，接着将CasX在涡旋下缓慢添加至sgRNA溶液中，且在37℃下培育10分钟以形成RNP复合物。RNP复合物在使用之前经由用200μl Buffer#1预润湿的0.22μmCostar 8160过滤器过滤。必要时，RNP样品用0.5ml Ultra 100-Kd截止过滤器(Millipore零件号UFC510096)浓缩，直至获得所需体积。如实例19中所述地评估胜任型RNP的形成。

实例14：评估与引导RNA的结合亲和力

纯化野生型和改良CasX将在含有氯化镁以及肝素的低盐缓冲液中与含有3'Cy7.5部分的合成单引导RNA一起培育，以防止非特异性结合和聚集。sgRNA将维持于10pM的浓度，而蛋白质将在独立结合反应中自1pM滴定至100μM。在允许反应达到平衡之后，样品将穿过具有硝化纤维素膜和带正电尼龙膜的真空歧管过滤器-结合分析，所述膜分别结合蛋白质和核酸。膜将经成像以鉴别引导RNA，且将通过针对各蛋白质浓度在硝化纤维素相对于尼龙膜上的荧光的量来确定结合相对于未结合RNA的分率，以计算蛋白质-sgRNA复合物的解离常数。也将通过sgRNA的改良变体进行实验，以确定这些突变是否也影响引导对于野生型和突变蛋白的亲和力。我们也将进行电迁移率变动分析以与过滤器-结合分析定性比较，和确认可溶性结合而非聚集为蛋白质-RNA结合的主要贡献因素。

实例15：评估对目标DNA的结合亲和力

纯化野生型和改良CasX将与携有与目标核酸互补的靶向序列的单引导RNA复合。RNP复合物将与含有PAM和适当目标核酸序列(在目标股上具有5'Cy7.5标记)的双股目标DNA在含有氯化镁以及肝素的低盐缓冲液中一起培育，以防止非特异性结合和聚集。目标DNA将维持于1nM的浓度，而RNP将在独立结合反应中自1pM滴定至100μM。在允许反应达到平衡之后，样品将在天然5％聚丙烯酰胺凝胶上运行以分离结合和未结合目标DNA。凝胶将经成像以鉴别目标DNA的迁移率变动，且将对于各蛋白质浓度计算结合相对于未结合DNA的分率，以确定RNP-目标DNA三元复合物的解离常数。

实例16：体外评估差分PAM识别

纯化野生型和工程化CasX变体将与携有固定靶向序列的单引导RNA复合。RNP复合物将以100nM的最终浓度添加至含有MgCl2的缓冲液，且以10nM的浓度与5'Cy7.5标记的双股目标DNA一起培育。将通过含有与目标核酸序列邻近的不同PAM的不同DNA底物进行独立反应。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA和95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解和未裂解的DNA底物。将观察结果且将测定非典型PAM通过CasX变体的裂解速率。

实例17：评估针对双链裂解的核酸酶活性

纯化野生型和工程化CasX变体将与携有固定PM22靶向序列的单引导RNA复合。RNP复合物将以100nM的最终浓度添加至含有MgCl2的缓冲液且以10nM的浓度与在目标或非目标股上具有5'Cy7.5标记的双股目标DNA一起培育。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA和95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解和未裂解的DNA底物。将观察结果且将确定目标和非目标股通过野生型和工程化变体的裂解速率。为了更明显地区分目标结合相对于核分解反应自身的催化速率的变化，将在10nM至1μM范围内滴定蛋白质浓度，且将在各浓度下确定裂解速率以产生假-米曼氏拟合(pseudo-Michaelis-Menten fit)且确定kcat*和KM*。KM*的变化指示改变的结合，而kcat*的变化指示改变的催化。

实例18：评估针对裂解的目标股负载

纯化野生型和工程化CasX 119将与携有固定PM22靶向序列的单引导RNA复合。RNP复合物将以100nM的最终浓度添加至含有MgCl2的缓冲液，且以10nM的浓度与在目标股上具有5'Cy7.5标记且在非目标股上具有5'Cy5标记的双股目标DNA一起培育。将在固定时间点获取反应物的等分试样且通过添加等体积的50mM EDTA和95％甲酰胺淬灭。样品将在变性聚丙烯酰胺凝胶上运行，以分离裂解和未裂解的DNA底物。将观察结果且将确定两个股通过变体的裂解速率。目标股裂解但并非非目标股裂解的速率的变化将指示裂解活性位点中目标股负载的改良。此活性可通过用在非目标股上具有间隙的dsDNA底物(模拟预裂解底物)重复所述分析而进一步分离。在此情形下改良的非目标股裂解将进一步证明目标股的负载和裂解，而非上游步骤已改良。

实例19：CasX:gNA体外裂解分析

1.确定裂解胜任型分率

使用体外裂解分析确定相比于参考CasX，CasX变体形成活性RNP的能力。如下地产生用于裂解分析的β-2微球蛋白(B2M)7.37目标。具有序列TGAAGCTGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCT(非目标股，NTS；SEQ ID NO:3567)和TGAAGCTGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCT(目标股，TS；SEQ ID NO:3568)的DNA寡核苷酸与5'荧光标记(分别为LI-COR IRDye 700和800)一起购买。如下地形成dsDNA标靶：通过在1×裂解缓冲液(20mM Tris HCl pH 7.5，150mM NaCl，1mM TCEP，5％甘油，10mM MgCl₂)中以1:1比率混合寡核苷酸，加热至95℃后维持10分钟，且使溶液冷却至室温。

在1×裂解缓冲液(20mM Tris HCl pH 7.5，150mM NaCl，1mM TCEP，5％甘油，10mMMgCl₂)中于37℃下持续10分钟用最终浓度为1μM的指示CasX和引导物(参见图表)(其中指示引导物为1.5倍过量)复原CasX RNP，随后移至冰上直至准备使用。使用7.37目标，以及具有与7.37目标互补的间隔子的sgRNA。

制备最终RNP浓度为100nM且最终目标浓度为100nM的裂解反应物。在37℃下进行反应且通过添加7.37目标DNA起始。在5、10、30、60和120分钟处获取等分试样且通过添加至95％甲酰胺，20mM EDTA中淬灭。样品通过在95℃下加热10分钟变性，且在10％脲-PAGE凝胶上运行。凝胶通过LI-COR Odyssey CLx成像，且使用LI-COR Image Studio软件定量。使用Prism绘制和分析所得数据。我们假设CasX在分析条件下基本上以单周转酶形式起作用，如由以下观察结果指示：亚化学计算量的酶即使在扩展时间标度下也无法裂解大于化学计算量的目标，且替代地接近随着存在的酶的量缩放的平稳段。因此，目标在长时间标度内通过等摩尔量的RNP裂解的分率指示RNP的何种分率为恰当形成的且对于裂解具活性。用双相速率模型拟合裂解迹线，因为裂解反应在此浓度范围内明显偏离单相，且对于三个独立复本中的每一者确定平稳段。计算平均值和标准差以确定活性分率(表14)。图表出示于图37中。

对于针对CasX2+引导174+7.37间隔子、CasX119+引导174+7.37间隔子和CasX459+引导174+7.37间隔子形成的RNP确定表观活性(胜任型)分率。确定的活性分率出示于表14中。两种CasX变体均具有高于野生型CasX2的活性分率，表明相比于野生型CasX，工程化CasX变体在测试条件下通过相同引导形成显著更具活性且稳定的RNP。此可归因于对sgRNA增加的亲和力、在sgRNA存在下增加的稳定性、或溶解度或工程化CasX:sgRNA复合物的裂解胜任型构形的更大稳定性。RNP的溶解度的增加由相比于CasX2，当将CasX457添加至sgRNA时，观察到的所形成沉淀物显著减少来指示。也确定CasX2.2.7.37、CasX2.32.7.37、CasX2.64.7.37和CasX2.174.7.37的裂解胜任型分率为16±3％、13±3％、5±2％和22±5％，如图38中所示。

数据指示相比于野生型CasX和野生型sgRNA，CasX变体和sgRNA变体均能够通过引导RNA形成较高程度的活性RNP。

2.体外裂解分析-确定CasX变体相比于野生型参考CasX的k_cleave

使用体外荧光分析针对目标7.37的裂解确定CasX变体119和457相比于野生型参考CasX的表观裂解速率。

在1×裂解缓冲液(20mM Tris HCl pH 7.5，150mM NaCl，1mM TCEP，5％甘油，10mMMgCl₂)中于37℃下持续10分钟用最终浓度为1μM的指示CasX(参见图39)(其中指示引导物为1.5倍过量)复原CasX RNP，随后移至冰上直至准备使用。以200nM的最终RNP浓度和10nM的最终目标浓度建立裂解反应。在37℃下进行反应且通过添加目标DNA起始。在0.25、0.5、1、2、5和10分钟处获取等分试样且通过添加至95％甲酰胺，20mM EDTA中淬灭。样品通过在95℃下加热10分钟变性，且在10％脲-PAGE凝胶上运行。凝胶通过LI-COR Odyssey CLx成像，且使用LI-COR Image Studio软件定量。使用Prism绘制和分析所得数据，且针对各CasX:sgRNA组合复本个别地确定非目标股裂解的表观一阶速率常数(k_cleave)。具有独立拟合的三个复本的平均值和标准差呈现于表14中，且裂解迹线出示于图38中。

通过各分析中所用的引导174和间隔子7.37对于野生型CasX2和CasX变体119和457确定表观断裂速率常数。在分析条件下，CasX2、CasX119和CasX457的k_cleave分别为0.51±0.01min^-1、6.29±2.11min^-1和3.01±0.90min^-1(平均值±SD)(参见表14和图39)。相对于野生型CasX2，两种CasX变体均具有改良的裂解速率，但值得注意的是，CasX119在测试条件下具有比CasX457更高的断裂速率。然而，如通过活性分率测定所表明，CasX457更有效地形成稳定和活性RNP复合物，允许取决于切割速率或活性全酶的的量对于所需结果更重要而使用不同变体。

数据表明相比于野生型CasX2，CasX变体具有较高活性水准，其中K_cleave速率高大约5至10倍。

3.体外裂解分析：比较引导变体与野生型引导

也通过野生型参考CasX2和参考引导2相比于引导变体32、64和174进行裂解分析，以确定变体是否改良裂解。如上文所述地进行实验。由于许多所得RNP在测试时间内未接近目标的完全裂解，我们决定初始反应速度(V₀)而非一阶速率常数。前两个时间点(15和30秒)与各CasX:sgRNA组合和复制的线拟合。确定三个复本的斜率的平均值和标准差。

在分析条件下，CasX2在引导2、32、64和174的情况下的V₀为20.4±1.4nM/min、18.4±2.4nM/min、7.8±1.8nM/min和49.3±1.4nM/min(参见表14和图40)。引导174出示所得RNP的断裂速率的大幅改良(相对于2为约2.5倍，参见图41)，而引导32和64的表达与引导2类似或比其更差。值得注意的是，引导64支持比引导2更低的断裂速率，但在体内的表达好得多(数据未示出)。产生引导64的一些序列改变可能以参与三螺旋体形成的核苷酸为代价来改良体内转录。引导64改良的表达可能解释其改良的体内活性，而其降低的稳定性可导致不当体外折叠。

表14：裂解和RNP形成分析的结果

RNP构建体	k<sub>cleave</sub>*	初始速度*	胜任型分率
				2.2.7.37		20.4±1.4nM/min	16±3％
2.32.7.37		18.4±2.4nM/min	13±3％
				2.64.7.37		7.8±1.8nM/min	5±2％
2.174.7.37	0.51±0.01min<sup>-1</sup>	49.3±1.4nM/min	22±5％
				119.174.7.37	6.29±2.11min<sup>-1</sup>		35±6％
457.174.7.37	3.01±0.90min<sup>-1</sup>		53±7％

*平均值和标准差

实例20：产生和分析递送靶向SOD1的CasX构建体的AAV载体

此实例描述产生和表征封装CasX分子和引导的AAV2载体所遵循的典型方案。

材料和方法：

对于AAV生产，使用三质粒转染方法，其使用三种必需质粒-携有封装于AAV中的所关注基因的pTransgene、pRC和pHelper。将编码CasX和引导RNA的DNA克隆至AAV转基因盒中，在ITR之间(图42)，以产生pTransgene质粒。构建的转基因质粒通过全长质粒测序(参见表15)、限制消化和功能测试(包括哺乳动物细胞的体外转染)来验证。AAV生产所需的额外质粒(pRC质粒和pHelper质粒)购自商业供应商(Aldevron,Takara)。

对于AAV生产，HEK293/T细胞在具有5％CO2的37℃培育箱中于FB培养基中培养。10-20个HEK293T细胞的15cm培养皿用于单批病毒生产。对于单个15cm培养皿，15μg的各质粒首先在4ml FB培养基中混合在一起，且与145μg聚乙二亚胺(PEI)(即以3μg PEI/μg DNA)在室温下复合10分钟。所用的三种质粒的比可按需要改变以进一步优化病毒生产。

接着将PEI-DNA复合物缓慢滴至HEK293T细胞的15cm板上，且将经转染细胞的板移回至培育箱中。次日，将培养基更换为具有2％FBS(而非10％FBS)的FB。在转染后3天时，可收集来自细胞的培养基以提高病毒产率。在转染后5-6天时，收集培养基和细胞。收获时序可进一步改变以优化病毒产率。

细胞通过离心粒化，且自顶部收集培养基。细胞在37℃下溶解于具有高盐含量和高盐活性核酸酶的缓冲液中1小时。细胞也可使用额外方法溶解，如顺序冻融，或通过洗涤剂的化学溶解。

收获时收集的培养基，和在更早时间点收集的任何培养基用1:5稀释度的含有40％PEG8000和2.5M NaCl的溶液处理，且在冰上培育2小时，以使AAV沉淀。培育也可在4℃下进行过夜。

来自培养基的AAV沉淀物通过离心粒化，再悬浮于具有高盐活性核酸酶的高盐含量缓冲液中且与溶解的细胞集结粒合并。合并的细胞溶解物接着通过离心澄清且经由0.45μm过滤器过滤，且在AAV Poros亲和力树脂柱(Thermofisher Scientific)上纯化。病毒从柱洗脱至中和溶液中。在此阶段，病毒可进行额外轮次的纯化以提高病毒制剂质量。

洗脱的病毒接着经由qPCR滴定以定量病毒产率。对于滴定，病毒样品首先用DNA酶消化以去除任何非封装病毒DNA，DNA酶经去活化，且接着通过蛋白酶K进行病毒衣壳破坏以暴露封装的病毒基因组，以用于滴定。

结果：

封装编码CasX 119分子和rRNA引导64(119.64)(具有序列为ATGTTCATGAGTTTGGAGAT；SEQ ID NO:239的间隔子)的DNA的AAV的代表性效价显示于图43中。通常，约1e13个病毒基因组获自一批如本文所述的病毒生产。

此实例表明i)CasX和gNA可克隆至AAV转基因构建体中，和ii)CasX和引导可封装于AAV载体中且在足够高效价下产生。

表15：pStx17构建体的序列

构建体	DNA序列
		pStX17	SEQ ID NO:3569

实例21：体外施用编码CasX系统的AAV载体和SOD1基因编辑的证据

材料和方法：

SOD1-GFP报告子细胞以每孔30k个细胞接种于96孔板中的100μl FB培养基中。次日检查细胞的汇合，且细胞在80％汇合下经一系列剂量或感染倍率(MOI)，例如1e7至1个病毒基因组/细胞的AAV载体(封装靶向SOD1的构建体119.64，和靶向SOD1的SauCas9)转导。在独立实验中，类似地转导来自ALS的G93A小鼠模型的神经组细胞(G93A NPC)。NPC在37℃和5％CO2下于NPC培养基(DMEMF12与Glutamax，补充有10mM Hepes(100×Thermofisher#15630080)、非必需氨基酸(100×Thermofisher#11140050)、青霉素-链霉素(100×-Pen-Strep；GIBCO#15140-122)、2-巯基乙醇1000x(Thermofisher#21985023)、无维生素-A的B27(50×，Thermofisher)、N2(100×，Thermofisher)、20ng/ml bFGF(Biolegend目录号#579606)和20ng/ml EGF(Thermofisher#PHG0311))中培养。基于由qPCR测定的病毒效价计算AAV剂量。可在次日或按需要补充新鲜FB培养基或NPC培养基。在转导后5天开始，且此后每周经由流式细胞测量术或T7E1分析来分析一部分细胞。

结果：

转导后12天时SOD1编辑(如通过GFP阴性细胞百分比所表明)的代表性实例出示于图44和图45中。图46出示经由AAV递送的CasX，有证据表明G93A NPC的编辑。

此实例表明靶向SOD1的CasX构建体可经由AAV递送至哺乳动物细胞，且引起SOD1基因座的成功编辑。

实例22：用于产生引导和间隔子的体外转录

为了产生RNA单引导和间隔子，通过用Q5聚合酶(NEB M0491)根据推荐方案，通过用于各主链的模板寡核苷酸和具有T7启动子和间隔序列的扩增引物进行PCR来产生用于体外转录的模板。用于引导和间隔子的T7启动子、引导和间隔子的DNA引物序列呈现于下表16中。对于各支架标记为“主链fwd”和“主链rev”的模板寡核苷酸以各20nM的最终浓度包括在内，且扩增引物(T7启动子和独特间隔引物)以各1μM的最终浓度包括在内。sg2、sg32、sg64和sg174引导分别对应于SEQ ID NO:5、2104、2106和2238，除了sg2、sg32和sg64经额外5'G修饰以提高转录效率(比较表16与表2中的序列)。7.37间隔子靶向β2-微球蛋白(B2M)。在PCR扩增之后，模板被清洁且通过酚-氯仿-异戊醇萃取分离，接着进行乙醇沉淀。

表16：序列

实例23：编辑基因标靶PCSK9、PMP22、TRAC、SOD1、B2M和HTT

此研究的目的为评估CasX变体119和gNA变体174编辑六个基因标靶中的核酸序列的能力。

材料和方法

基于靶向所关注的所需基因座的PAM要求(TTC或CTC)以无偏方式设计用于除了B2M和SOD1之外的所有标靶的间隔子。先前已经由针对这些基因进行的慢病毒间隔子筛选而在靶向外显子内鉴别靶向B2M和SOD1的间隔子。设计用于其它标靶的间隔子以单股DNA(ssDNA)寡核苷酸对形式订购自Integrated DNA Technologies(IDT)。ssDNA间隔子对粘接在一起且经由Golden Gate克隆克隆至含有以下组分的碱基哺乳动物表达质粒构建体中：EF1A启动子下的经密码子优化的Cas X 119蛋白+NLS、U6启动子下的引导支架174、卡本西林和嘌呤霉素抗性基因。将装配产物转化至化学感受态大肠杆菌中，接种于含有卡本西林的Lb-琼脂板(LB：Teknova目录号L9315，琼脂：Quartzy目录号214510)上，且在37℃下培育。选取个别菌落且使用Qiagen Qiaprep spin Miniprep Kit(Qiagen目录号27104)遵循制造商的方案进行小规模纯化。所得质粒经由桑格测序(Quintara Biosciences)经引导支架区测序，以确保适当连接。

在补充有10％胎牛血清(FBS；Seradigm，#1500-500)、100单位/毫升青霉素和100mg/ml链霉素(100×-青霉素-链霉素；GIBCO#15140-122)、丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100×Thermofisher#11140050)、HEPES缓冲液(100×Thermofisher#15630080)和2-巯基乙醇(1000×Thermofisher#21985023)的达尔伯克氏改良伊格尔培养基(DMEM；Corning Cellgro，#10-013-CV)中生长HEK 293T细胞。使用TryplE将细胞每3-5天传代一次，且维持于37℃和5％CO2的培育箱中。

在第0天，HEK293T细胞以每孔30k个细胞接种于96孔平底板中。在第1天，使用脂染胺3000根据制造商的方案，细胞经100ng质粒DNA转染。在第2天，将细胞转换至含有嘌呤霉素的FB培养基。在第3天，此培养基经含有嘌呤霉素的新鲜FB培养基替换。此时间点之后的方案取决于所关注基因而趋异。针对PCSK9、PMP22和TRAC的第4天：验证细胞已完成选择且转换至无嘌呤霉素的FB培养基。针对B2M、SOD1和HTT的第4天：验证细胞已完成选择且使用TryplE 1:3传代至含有无嘌呤霉素的FB培养基的新板中。针对PCSK9、PMP22和TRAC的第7天：细胞自板中上升，在dPBS中洗涤，计数，且以每微升10,000个细胞再悬浮于QuickExtract(Lucigen，QE09050)中。根据制造商的方案提取基因组DNA且储存于-20℃下。针对B2M、SOD1和HTT的第7天：细胞自板中上升，在dPBS中洗涤，且根据制造商的方案用Quick-DNA Miniprep Plus Kit(Zymo，D4068)提取基因组DNA且储存于-20℃下。

NGS分析：使用下一代测序(NGS)分析来分析来自各实验样品的细胞中的编辑。使用KAPA HiFi HotStart ReadyMix PCR试剂盒(KR0370)进行所有PCR。对于PCSK9、PMP22和TRAC，基因组DNA样品PCR的模板为QE中的5μl基因组DNA，每μL 10k个细胞。对于B2M、SOD1和HTT，基因组DNA样品PCR的模板为水中的400ng基因组DNA。设计对所关注的目标基因组位置具有特异性的引物以形成目标扩增子。这些引物在5'端含有额外序列以引入Illumina读段和2个序列。另外，其含有充当独特分子标识符(UMI)的7nt随机序列。使用FragmentAnalyzer DNA分析仪试剂盒(Agilent，dsDNA 35-1500bp)评估扩增子的质量和定量。根据制造商的说明书在Illumina Miseq上测序扩增子。将所得测序读段与参考序列比对且分析插入缺失。将具有不与估计的切割位置对准的编辑或在间隔区中具有出人意料的等位基因的样品丢弃。

结果

为了验证在多个基因座处由CasX:gNA 119.174实现的编辑，在HEK 293T细胞中进行克隆质粒转染实验。多个间隔子(表17)经设计和克隆至编码CasX 119核酸酶和引导174支架的表达质粒中。HEK 293T细胞经质粒DNA转染，用嘌呤霉素选择，且在转染后六天收获用于基因组DNA。经由下一代测序(NGS)分析基因组DNA且与参考DNA序列比对以分析插入或缺失(插入缺失)。CasX:gNA 119.174能够跨越6种目标基因有效地产生插入缺失，如图47和48中所示。插入缺失率在间隔子之间变化，但中值编辑速率始终为60％或更高，且在一些情况下，观察到高达91％的插入缺失率。另外，表明具有非典型CTC PAM的间隔子能够在所有测试目标基因的情况下产生插入缺失(图49)。

结果表明CasX变体119和gNA变体174可在人类细胞中的多个基因座处始终且有效地产生插入缺失。分析中所用的许多间隔子的无偏选择出示119.174RNP分子编辑基因座的总体有效性，而通过TTC和CTC PAM靶向间隔子的能力表明其相比于仅通过TTC PAM编辑的参考CasX增加的通用性。

表17：靶向各基因座的间隔序列。

实例24：通过深度突变进化改良CasX变体的设计和评估

实验目的为鉴别和工程改造相对于野生型CasX具有增强的基因组编辑效率的新颖CasX蛋白变体。为了有效裂解活细胞中的DNA，CasX蛋白必须有效地执行以下功能：i)形成和稳定R-环结构，所述结构由粘接至DNA:RNA杂合体中的互补基因组目标位点的靶向引导RNA组成；和ii)定位裂解目标序列处的DNA的两个股的活性核酸酶域。可通过改变蛋白质的生物化学或结构特性，尤其通过以加性或组合方式引入氨基酸突变或交换蛋白域而各自增强此两种功能。

为了构建具有改良特性的CasX蛋白变体，选择一种总体方法，其中细菌分析和假定驱动的方法首先用于鉴别增强特定功能的候选突变，其后以逐步方式使用愈来愈严格的人类基因组编辑分析，以合理地组合协作功能增强突变，以鉴别具有增强的编辑特性的CasX变体。

材料和方法：

克隆和培养基

限制酶、PCR试剂和大肠杆菌克隆菌株获自New England Biolabs。所有分子生物学和克隆程序均根据制造商说明书进行。除非另外规定，否则使用Q5聚合酶进行PCR。除非另外规定，否则所有细菌培养生长均在2XYT培养基(Teknova)中进行。除非另外规定，否则标准质粒克隆在

大肠杆菌中进行。当指示时，使用标准最终浓度的以下抗生素：卡本西林：100μg/mL；康霉素：60μg/mL；氯霉素：25μg/mL。

蛋白质库构建的分子生物学

使用质粒重组工程化于大肠杆菌菌株EcNR2(Addgene标识：26931)中构建CasX蛋白变体的四个库，且蛋白质诱变的总体方法被称为深度突变进化(DME)，其示意性地出示于图50中。对应于三种裂解-不活化突变中的每一者构建三个库，所述突变对浮霉菌门，SEQID NO:2(“STX2”)的参考CasX蛋白开放阅读框架进行，使得CasX催化死亡(dCasX)。此三个突变被称为D1(具有D659A取代)、D2(具有E756A取代)或D3(具有D922A取代)。第四个库由所有三种突变组合地构成，称为DDD(D659A；E756A；D922A取代)。这些库通过将所需突变引入至四种起始质粒中的每一者而构建。简而言之，寡核苷酸库获自Twist Biosciences且制备用于重组工程化(参见下文)。最终体积为50μL的1μM寡核苷酸加上10ng编码dCasX开放阅读框架的pSTX1(由D1、D2或D3构成)使用1mm电穿孔比色管(BioRad GenePulser)电穿孔至50μL经诱导、洗涤和浓缩的EcNR2中。Harvard Apparatus ECM 630电穿孔系统以设定1800kV，200Ω，25μF使用。进行三次重复电穿孔，接着使其在30℃下于1mL无抗生素的SOC(Teknova)中回收2小时。这些回收培养物在LB板上用康霉素滴定以确定库大小。接着将2XYT培养基和康霉素添加至6mL最终体积且再在30℃下生长16小时。培养物经小规模纯化(QIAprep Spin小规模纯化试剂盒)，且接着合并三个复本，完成一轮质粒重组工程化。接着使用来自第1轮的所得小规模纯化质粒作为输入质粒进行第二轮重组工程化。

寡核苷酸库合成和成熟：由Twist Biosciences合成总共57751个独特寡核苷酸序列，所述序列经设计以在沿STX 2开放阅读框架的各密码子位置处引起氨基酸插入、取代或缺失，其中包括所谓的‘重组工程化寡核苷酸’，其包括一个表示二十种标准氨基酸中的每一者的密码子和当在质粒pSTX1中编码时具有侧接同源性的密码子。寡核苷酸库包括用于PCR扩增的侧接5'和3'恒定区。相容PCR引物包括oSH7：5'AACACGTCCGTCCTAGAACT(通用正向；SEQ ID NO:3613)和oSH8：5'ACTTGGTTACGCTCAACACT(通用反向；SEQ ID NO:3614)(参见参考表)。整个寡核苷酸池扩增为400个个别100μL反应。方案经优化以在164bp处产生清洁带。最后，扩增的寡核苷酸用限制酶消化(以去除引物粘接位点，所述位点将另外在重组工程化期间形成疤痕)，且接着清洁，例如通过PCR清理试剂盒(以去除可干扰电穿孔步骤的过量盐)。此处，用在37℃下消化两小时的30μg DNA+30μL BsaI酶进行600μL最终体积BsaI限制消化。

对于DME1：在完成两轮重组工程化之后，将质粒库克隆至细菌表达质粒pSTX2中。这使用BsmbI Golden Gate克隆方法完成，以将STX基因库亚克隆至表达相容背景中，产生质粒pSTX3。库转化至

大肠杆菌(New England Biolabs)中且在37℃下于氯霉素中生长16小时，接着在次日进行小规模纯化。

对于DME2：来自DME1的蛋白质库经进一步克隆以产生三个库的新集合，用于进一步筛选和分析。在质粒pSTX1的情形内完成所有亚克隆和PCR。库D1中断，且库D2和D3保持相同。如下地自库D2和D3产生新库DDD。首先，库D2和D3经PCR扩增以便将Dead1突变E756A添加至各库中的所有质粒，接着进行钝端连接、转化和小规模纯化，产生库A(D1+D2)和库B(D1+D3)。随后，进行另一轮PCR以分别将突变D3或D2添加至库A和B，产生PCR产物A'和B'。此时，将A'和B'以等摩尔量合并，接着进行钝端连接、转化和小规模纯化，以产生在各质粒中含有所有三种死亡突变的新库DDD。

细菌CRISPR干扰(CRISPRi)筛选

使用单体红色荧光蛋白(mRFP)和Superfolder绿色荧光蛋白(sfGFP)，基于Qi LS等人Cell 152:1173-1183(2013)实施双色荧光报告子筛选。此筛选用于分析由CasX系统的可程序化DNA结合介导的基因特异性转录抑制。大肠杆菌的此菌株在标准培养条件下或当在琼脂板上以菌落形式生长时表达亮绿色和红色荧光。在CRISPRi系统下，CasX蛋白自含有p15A复制起点的质粒(质粒pSTX3；氯霉素耐受性)上的无水四环素(aTc)诱导型启动子表达，且sgRNA自含有ColE1复制起点的质粒(pSTX4、非靶向间隔子或pSTX5，GFP靶向间隔子#1；卡本西林耐受性)上的最小组成型启动子表达。当CRISPRi大肠杆菌菌株经两种质粒共转化时，由pSTX4中的间隔子靶向的基因被抑制；在此情况下，观察到GFP抑制，其程度取决于靶向CasX蛋白和sgRNA的功能。在此系统中，RFP荧光可充当标准化对照。确切地说，RFP荧光为不变的且独立于基于功能性CasX的CRISPRi活性。可通过调节CasX蛋白的表达来调谐此系统中的CRISPRi活性；此处，所有分析使用生长培养基中20nM aTc最终浓度的诱导浓度。

使用以上CRISPRi系统初始筛选CasX蛋白的库。在共转化和回收之后，库为：1)接种于LB琼脂加适当抗生素上且经滴定以使得可选取个别菌落，或2)在具有适当抗生素的2XYT培养基中生长八小时且在MA900流式细胞测量术仪器(Sony)上分选。使用所收集菌落的标准桑格测序(UC Berkeley Barker Sequencing Facility)或小规模纯化质粒的NGS测序(Massachusetts General Hospital CCIB DNA Core Next-Generation SequencingService)检测所关注的变体。

质粒经小规模纯化且蛋白质序列经PCR扩增，接着使用Nextera试剂盒(Illumina)标签化以将扩增子分段，且引入索引衔接子以在150配对末端HiSeq 2500(UC BerkeleyGenomics Sequencing Lab)上测序。

细菌ccdB质粒清除率选择

双质粒选择系统用于分析毒性质粒通过CasX DNA裂解的清除率。简而言之，表达毒性蛋白ccdB的阿拉伯糖诱导性质粒pBLO63.3在转化至大肠杆菌菌株BW25113中且在容许条件下生长时导致死亡。然而，如果通过dsDNA裂解，且尤其通过共表达CasX蛋白和靶向质粒pBLO63.3的引导RNA的质粒pSTX3成功清除质粒，则生长被拯救。来自DME1的CasX蛋白库(无催化不活化突变D1、D2或D3)被亚克隆至质粒pSTX3中。这些质粒库通过电穿孔(200ng质粒至50μL电感受态细胞中)转化至携有pBLO63.3的BW25113中，且在37℃下在200rpm振荡下于2mL SOC培养基中回收25分钟，其后添加1μL的1M IPTG。再继续生长40分钟，其后跨越96孔深孔块均匀划分培养物且在37℃或45℃下在750rpm下于选择性培养基中生长4.5小时。选择性培养基由以下组成：2XYT伴以氯霉素+10mM阿拉伯糖+500μM IPTG+2nM aTc(浓度最终)。生长后，质粒经小规模纯化以完成一轮选择，且所得DNA用作后一轮的输入物。对CasX蛋白库进行七轮选择。如上文所述地进行CasX变体桑格测序或NGS。

NGS数据分析

配对末端读段通过cutadapt(版本2.1)针对衔接子序列修整，且通过bowtie2(v2.3.4.3)与参考比对。参考为Nextera方案中标签化之前的整个扩增子序列。各无催化活性CasX变体与其各别扩增子序列比对。评估测序读段与参考序列的氨基酸变化。简而言之，读段序列和比对的参考序列经翻译(框内)，接着重新比对且称为氨基酸变体。丢弃具有不佳比对或高误差率的读段(mapq<20和估计误差率>4％；估计误差率使用每一碱基的phred质量评分计算)。丢弃不佳质量测序位置处的突变(phred评分<20)。将突变标记为单取代、插入或缺失，或其它高阶突变，或在扩增子的蛋白编码序列外部。确定支持各组突变的读段数目。这些读段计数针对测序深度标准化(均值标准化)，且来自技术复本的读段计数通过取几何平均值而平均化。通过对各门的富集取平均值而计算各CasX变体内的富集。

变体的分子生物学

为了筛选所关注变体，使用标准分子生物学技术构建个别变体。使用分段载体和吉布森克隆在STX2上建立所有突变。为了建立单一突变，在与用于筛选的所需主链具有同源性的蛋白质序列的任一末端上设计通用正向(5'→3')和反向(3'→5')引物(参见表18)。也设计产生所需突变的引物(F引物和其反向补体)且与通用F和R引物一起用于扩增，因此产生两个片段。为了添加多个突变，设计具有重叠的额外引物且产生更多PCR片段。举例来说，为了构建三重突变体，设计四组F/R引物。所得PCR片段经凝胶提取，且筛选载体用适当限制酶消化，接着进行凝胶提取。插入片段和载体接着使用吉布森装配预混液装配、转型且使用适当LB琼脂+抗生素接种。克隆经桑格测序且选择适当克隆。

最后，进行间隔子克隆以将引导RNA靶向至适当分析或筛选中的所关注基因。序列验证的非靶向克隆用适当Golden Gate酶消化且使用DNA Clean和Concentrator试剂盒(Zymo)清洁。所关注间隔子的寡核苷酸经粘接。使用标准Golden Gate克隆方案将粘接的间隔子接合至经消化和清洁的载体中。反应物经转化且接种于LB琼脂+抗生素上。克隆经桑格测序且选择适当克隆。

表18：引物序列

通过HEK293T细胞的质粒脂质体转染的GFP编辑

多西环素诱导性GFP(iGFP)报告子HEK293T细胞或SOD1-GFP报告子HEK293T细胞以每孔20-40k个细胞在96孔板中于100μl FB培养基中接种，且在具有5％CO2的37℃培育箱中培养。第二天，检查经接种细胞的汇合。细胞在转染时为约75％汇合。使用脂染胺3000遵循制造商的方案，将各CasX构建体以每孔100-500ng转染至每一构建体3个孔中，作为复本。靶向适当基因的SaCas9和SpyCas9用作基准评效对照。对于各Cas蛋白类型，非靶向质粒用作阴性对照。在以0.3-3μg/ml进行嘌呤霉素选择24-48小时以选择成功转染的细胞，接着在FB培养基中回收1-7天之后，经由流式细胞测量术分析经转染细胞中的GFP荧光。在此方法中，细胞针对适当正向和侧向散射进行门控、针对单细胞进行选择且接着针对报告子表达进行门控(Attune Nxt Flow Cytometer，Thermo Fisher Scientific)，以定量荧光团的表达量。对于各样品收集至少10,000个事件。数据接着用于计算编辑细胞的百分比。

通过HEK293T细胞的慢病毒转导的GFP编辑

遵循标准分子生物学和组织培养技术，在Lenti-X 293T细胞系(Takara)中产生编码CasX蛋白的质粒的慢病毒产物，包括对照、CasX变体和/或CasX库。基于标准组织培养技术使用慢病毒转导iGFP HEK293T细胞或SOD1-GFP报告子HEK293T细胞。如上文所述地进行选择和荧光分析，除了选择后回收时间为5-21天。对于荧光活化细胞分选(FACS)，细胞在MA900仪器(Sony)上如上文所述地门控。通过QuickExtract^TMDNA Extraction Solution(Lucigen)或Genomic DNA Clean&Concentrator(Zymo)提取基因组DNA。

CasX蛋白2工程化为CasX 119

先前操作表明由来自浮霉菌门的功能性野生型CasX蛋白(下文称为CasX蛋白2{或STX2，或STX蛋白2，SEQ ID NO:2}和CasX sgRNA 1{或STX sgRNA 1、SEQ ID NO:4})构成的CasX RNP复合物能够诱导哺乳动物基因组的dsDNA裂解和基因编辑(Liu,JJ等人《自然》,566,218-223(2019))。然而，裂解效率的前述观察相对较低(约30％或更小)，即使在最佳实验室条件下也是如此。基因组编辑的这些不佳速率对于野生型CasX CRISPR系统充当治疗基因组编辑分子可为不充足的。为了有效地进行基因组编辑，CasX蛋白必须有效地执行两种中心功能：(i)形成和稳定R-环，和(ii)定位裂解两个DNA股的核酸酶域。在CasX RNP可接近基因组DNA的条件下，基因组编辑速率将由CasX蛋白执行这些功能的能力部分调节(另一控制组分为引导RNA)。两种功能的优化取决于编码CasX蛋白的氨基酸的直链与完全形成的裂解胜任型RNP的生物化学特性之间的复杂序列-功能关系。由于增强这些功能中的每一者的氨基酸突变可合并以累积产生展现对于人类治疗剂足够的极大增强的基因组编辑效率的高度工程化CasX蛋白，设计总体工程化方法，其中鉴别突变增强功能(i)，鉴别突变增强功能(ii)，且接着多个有益突变的合理堆叠(或组合)将用于构建能够进行有效基因组编辑的CasX变体。功能(i)，R-环稳定化自身足以干扰活细胞中的基因表达，甚至在不存在DNA核酸酶活性的情况下也是如此，现象称为CRISPR干扰(CRISPRi)。确定细菌CRISPRi分析将非常适合于鉴别增强此功能的突变。类似地，用于双股DNA(dsDNA)裂解的细菌分析测试将能够鉴别增强功能(ii)的突变。选择毒性质粒清除率分析充当细菌选择策略和鉴别相关氨基酸变化。接着证实这些突变组增强人类基因组编辑活性，且充当跨越愈来愈严格的分析的更广泛和合理组合测试的基础。

在蛋白质库设计、库的分子生物学构建和库的高通量分析的工程化循环中进行增强核心功能的突变的鉴别。STX2蛋白的潜在改良变体通过高通量生物分析的NGS鉴别，作为克隆直接自群体测序，或重新设计用于特定假设测试。对于功能(i)或(ii)的高通量分析，诱变的全面和无偏的设计方法用于初始多样化。选择质粒重组工程化作为库构建的充分全面和快速方法，且在无启动子分段载体pSTX1中进行以使整个克隆过程中的库偏差最小化。通过DME构建编码STX2序列中的所有可能的单氨基酸取代、插入和缺失的全面寡核苷酸池；第一轮库构建和筛选在下文称为DME1(图50)。选择两个高通量细菌分析以在DME1中鉴别来自多样突变集合的潜在改良变体。如上文所论述，我们推论CRISPRi细菌筛选将鉴别增强功能(i)的突变。尽管CRISPRi使用CasX蛋白的无催化活性形式，许多特定特征在一起影响此功能的总体增强，如表达效率、折叠速率、蛋白质稳定性或R-环稳定性(包括与sgRNA或DNA的结合亲和力)。在dCasX突变体模板上构建DME1库且个别地筛选。在先前证实的双色CRISPRi方案中以GFP抑制的荧光活化细胞分选(FACS)形式进行筛选。

结果：

对于DME1、DME2和DME3库中的每一者，三个库展现不同基线CRISPRi活性，由此充当独立但相关的筛选。对于各库，在所关注群体周围绘制改变严格性的门，且分选细胞群体经深度测序以鉴别增强GFP抑制的CasX突变(图51)。开发第二高通量细菌分析以通过选择来评估大肠杆菌中的dsDNA裂解(参见方法)。相比于非功能性CasX蛋白，当在选择性条件下进行此分析时，功能性STX2 RNP可展现菌落形成单位的约1000至10,000倍增加(图52)。对于DME1的裂解胜任型库进行多轮液体培养基选择。连续轮次的集落挑选和测序鉴别增强功能(ii)的突变。观察到若干突变具有增加的频率域延长的选择。值得注意的一种突变，脯氨酸793的缺失首先在第四轮中以36个测序菌落中的两个的频率观察到。在第五轮之后，频率增加至36个测序菌落中的六个。在第七轮中，其在48个测序菌落中的十个中被观察到。此轮间富集表明这些分析中观察的突变可潜在地增强CasX蛋白的功能(ii)。跨越这些分析观察的所选突变可如下地见于表19中：

表19：细菌分析中针对功能(i)或(ii)观察到的所选突变

*取代、插入或缺失位置相对于SEQ ID NO:2指示

Pos.：位置；Ref.：参考；Alt：替代

以上细菌分析中观察的突变针对其增强CasX蛋白功能(i)或(ii)的潜力选择，但所需突变将增强至少一种功能，同时仍与其它突变相容。为对此进行测试，测试突变改良总体人类细胞基因组编辑活性的能力，其需要两种功能协同作用。实施HEK293T GFP编辑分析，其中含有稳定整合诱导性GFP(iGFP)基因的人类细胞经质粒转导，所述质粒表达具有将RNP靶向至GFP基因的间隔子的CasX蛋白和sgRNA 2。对细菌筛选、细菌选择中鉴别的突变以及自检查同源DpbCasX蛋白的公布Cryo-EM结构产生的生物化学假设重新选择的突变测试其对于人类基因组编辑活性的相对改良，如相对于亲本蛋白STX 2定量(图53)，其中对于构建体119展现最大改良，在图53底部示出。发现数十种提出的增强功能的突变实质性改良人类细胞基因组编辑，且来自这些分析的所选突变可如下地见于表20中：

表20：观察到增强基因组编辑的所选单一突变

位置	参考	替代*	倍数改良(两个GFP间隔子的平均值)
				379	L	R	1.4
708	A	K	2.13
				620	T	P	1.84
385	E	P	1.19
				857	Y	R	1.95
658	I	V	1.94
				399	F	L	1.64
404	L	K	2.23
				793	P	-	1.23
252	Q	K	1.12**

*相对于SEQ ID NO:2的取代、插入或缺失位置

**计算为跨越具有或不具有突变的四个变体的平均改良

此处采用的总体工程化方法依赖于增强各功能的个别突变可加性组合以获得具有经改良编辑能力的极大增强的CasX变体的中心假设，其由如下所述的发现支持；例如CasX变体119(在图54中由星形指示)展现相对于野生型CasX的23.9倍改良。为对此进行测试，如果单一突变增强总体编辑活性，则首先鉴别单一突变。此处应特别注意的是，螺旋形II域中的疏水性亮氨酸379取代为带正电精氨酸使得编辑活性改良1.40倍。此突变可提供与DNA目标股的附近磷酸盐主链(在PAM-远端bp 22与23之间)的有利离子相互作用，因此稳定R-环形成且因此增强功能(i)。第二疏水性带电突变(丙氨酸708至赖氨酸)增加编辑活性2.13倍，且可在RuvC域与sgRNA 5'端之间提供额外离子相互作用，因此通过增加蛋白质对sgRNA的结合亲和力且因此增加R-环形成速率而合理地增强功能(i)。脯氨酸793的缺失通过缩短RuvC域中的α螺旋与β折叠之间的环而改良编辑活性1.23倍，通过有利地改变dsDNA裂解的核酸酶定位而潜在地增强功能(ii)。总体而言，发现数十种单一突变改良编辑活性，包括自细菌分析中的每一者鉴别的突变以及自重新假设产生提出的突变。为了进一步鉴别以协同方式增强功能的那些突变，测试由多个突变的组合构成的合理CasX变体(图53)。初始小组合集合经设计和分析，其中CasX变体119作为总体最改良编辑分子出现，编辑效率相比于STX2野生型蛋白改良2.8倍。变体119由三个单一突变L379R、A708K和[P793]构成，表明其对于功能增强的个别贡献为加性的。

SOD1-GFP分析开发。

为了评估具有极大改良的基因组编辑活性的CasX变体，我们设法开发更严格的基因组编辑分析。iGFP分析提供相对便捷的编辑目标，以使得以上分析中的STX蛋白2在GFP靶向间隔子4.76和4.77的情况下分别展现41％和16％的平均编辑效率。随着蛋白质变体接近2倍或更大的效率改良，分析变得饱和。因此，开发GFP序列在内源人类基因SOD1的C端框内整合的新HEK293T细胞系，称为SOD1-GFP细胞系。此细胞系充当测量数百种额外CasX蛋白变体的编辑效率的新型、更严格的分析(图54)。额外突变鉴别自细菌分析，包括DME库构建和筛选的第二迭代，以及使用假设驱动法。也在SOD1-GFP分析中进行组合型改良变体的进一步探索。

根据SOD1-GFP分析结果，测量的效率改良不再饱和，且CasX变体119(在图54中由星形指示)相对于野生型CasX(两个间隔子的平均值)展现23.9倍改良，其中若干构建体展现相对于CasX 119构建体增强的活性。或者，iGFP分析的动态范围可通过降低WT CasX蛋白的基线活性，即通过使用sgRNA变体1而非2来增加(尽管可能并非完全不饱和)。在iGFP分析的这些更严格条件下，CasX变体119相对于使用相同间隔子的野生型CasX展现15.3倍改良。引起兴趣地，CasX变体119也在使用四种NTCN PAM序列中的每一者的间隔子的情况下展现相当大编辑活性，而WT CasX在使用TTCN和ATCN PAM序列的间隔子的情况下仅编辑超过1％(图55)，表明CasX变体使用扩大范围的PAM序列有效编辑的能力。

通过广泛组合型诱变的CasX功能增强。

以上多种分析中测试的潜在改良变体提供选择候选主导蛋白质的数据集。在个别克隆分析中评估超过300种蛋白质，且其中评估197种单一突变；其余的约100种蛋白质含有这些突变的组合型组合。经由三种不同分析(通过iGFP的质粒p6、通过SOD1-GFP的质粒p6或通过SOD1-GFP的质粒p16)来评估蛋白质变体。尽管单一突变体在iGFP分析中引起显著改良(其中GFP-分率大于50％)，但这些单一突变体在SOD1-GFP p6主链分析中全部表达不佳(GFP-分率小于10％)。然而，含有多个堆叠突变的蛋白质能够在此更严格分析中成功地不活化GFP，表明改良突变的堆叠可实质性改良裂解活性。

观察到增强功能的个别突变在与额外突变组合时加性改良编辑活性的能力通常不同。为了合理地定量这些上位效应和进一步改良基因组编辑活性，鉴别各添加至含有至少一种其它突变的蛋白质变体的突变子组，且其中在相同实验背景下测试两种蛋白质(具有或不具有突变)(分析和间隔子；总共46个突变)。为了确定由突变所致的效应，在具有和不具有突变的情况下比较GFP-细胞分率。对于各蛋白质/实验背景，突变效应被定量为：1)实质性改良活性(f_v>1.1f₀，其中f₀为无突变的GFP-分率，且f_v为有突变的GFP-分率)，2)实质性恶化活性(f_v<0.9f₀)，或3)不影响活性(不符合任一其它条件)。基于其中突变实质性改良活性的蛋白质/实验背景的分率减去其中突变实质性恶化活性的背景的分率来计算总分数/突变(s)。在获得的46个突变中，且13个与始终增加活性(s≥0.5)相关，且18个突变实质性减少活性(s≤-0.5)。重要的是，这些突变之间的区别仅在检查跨越多种变体背景的相互作用时明显：当单独测量时，所有这些突变在iGFP分析中具有类似活性。

以上定量分析允许系统设计由个别地和组合地增强功能的单一突变构成的高度工程化CasX蛋白的额外集合。第一，前13个突变中的七个选择为堆叠(其它6个变体包含包括于所有蛋白质中的三个变体A708K、[P793]和L379R，和影响冗余位置的另外两个；参见图14)。这些突变迭代地堆叠至CasX蛋白的三种不同型式：CasX 119、311和365上；前进至仅添加一种突变(例如Y857R)，至组合地添加若干突变。为了最大化促进功能(i)和功能(ii)两者的组合，合理地选择个别突变以维持生物化学特性的多样性-即避免用带负电残基取代疏水性残基的多个突变。相对于STX2，所得约30个蛋白质变体具有5至10个个别突变(模式＝7个突变)。在脂质体转染分析中在具有引导支架64的新的主链背景(p34)下测试蛋白质，且大部分显示相对于蛋白质119的改良。此组的最改良变体，蛋白质438测量为相对于蛋白质119改良>20％(参见下表21)。

慢病毒转导iGFP分析开发

如关于iGFP分析在上文所论述，促进CasX系统可能使脂质体转染分析变得饱和-即，受测量的动态范围限制。为了增大动态范围，设计了新分析，其中CasX基因的少得多的复本被递送至人类细胞，由新主链背景，质粒pSTX34下的慢病毒转导组成(参见图35)。在此更严格递送模态下，动态范围足以在另一改良sgRNA，即sgRNA变体174的情况下观察CasX蛋白变体119的改良。发现蛋白质和sgRNA的改良变体加性组合以产生进一步改良的CasXCRISPR系统。当与脂质体转染分析中的与sgRNA 1(SEQ ID NO:4)复合的野生型CasX蛋白2(SEQ ID NO:2)相比时，蛋白质变体119和sgRNA变体174各测量为改良iGFP编辑活性大约一个数量级(图56)。此外，相对于蛋白质和sgRNA的编辑活性改良看起来几乎线性地堆叠；而CasX 2个别地取代CasX 119，或sgRNA 174取代sgRNA 1产生十倍改良，同时取代两者产生至少另外十倍改良(图57)。值得注意的是，此活性改良范围超过任一分析的动态范围。然而，可通过计算相对于样品2.174的倍数变化(其在两个分析中精确测量)来估计总体活性改良。高度工程化CasX CRISPR系统119.174相比于野生型CasX CRISPR系统2.1的增强使得人类细胞中的基因组编辑效率改良259倍(+/-58，传播标准差，如图57中所示)，支持在分析条件下，CasX和引导的工程化均使得编辑效率相比于野生型CasX和引导显著改良。

域交换变体的工程化

基于诱变的定向进化的一个有问题的限制为可能序列的数目的组合增加的结果为在序列空间中采取更大步长的增加。为克服此问题，将交换蛋白域与不同CasX蛋白的同源序列评估为替代方法。为了利用可用于CasX CRISPR系统的系统发生数据，在CasX 1(SEQID NO:1)与CasX 2(SEQ ID NO:2)蛋白序列之间进行比对，且域在经改良CasX蛋白变体119的情况下注解为交换。为了针对顶部设计的组合型CasX蛋白变体和顶部域交换变体(全部在经改良sgRNA174的背景内)对CasX 119进行基准测试，进行严格的iGFP慢病毒转导分析。来自各类的蛋白质变体鉴别为相对于CasX变体119改良(图58)，且倍数变化表示于表21中。举例来说，在第13天，具有GFP间隔子4.76的CasX 119.174在仅约60％的细胞中引起表型破坏，而相同背景下的CasX变体491引起>90％表型编辑。总的，相对于WT CasX蛋白2比较含有以下突变数目的蛋白质：119＝3个点突变；438＝7个点突变；488＝蛋白质119，其中NTSB和螺旋形Ib域来自CasX 1(总共67个突变)；491＝5个点突变，其中NTSB和螺旋形Ib域来自CasX 1(总共69个突变)。

表21：在经改良sgRNA 174的情况下，iGFP慢病毒转导分析中CasX变体相比于CasX变体119的改良

*相对于CasX 119

结果出示将合理设计的库、筛选和分析方法应用于我们称为深度突变进化的技术以扫描CasX蛋白和引导RNA的适合度景观使得能够鉴别和验证增强特定功能的突变，有助于改良总体基因组编辑活性。这些数据集使得能够合理地组合设计本文公开的进一步改良的CasX和引导变体。

实例25：设计和评估改良的引导RNA变体

当相比于替代CRISPR系统时，用于人类细胞的dsDNA编辑的基于野生型序列的现有CasX平台实现极低效率编辑结果(Liu,JJ等人《自然》,566,218-223(2019))。基因组DNA的裂解效率在很大程度上由CasX系统的生物化学特征调节，所述特征转而由裂解胜任型CasX RNP(与sgRNA复合的CasX蛋白)的两种组分中的每一者的序列-功能关系产生。以下实验的目的为经由全面诱变程序和合理方法产生和鉴别相对于野生型CasX:gNA RNP具有增强的编辑特性的gRNA支架变体。

方法

高通量sgRNA库筛选方法

1)sgRNA库构建的分子生物学

为了建立sgRNA变体的库，引物经设计以系统地突变编码SEQ ID NO:5的参考gRNA支架的各位置，其中突变可为取代、插入或缺失。在针对sgRNA突变的以下体内细菌筛选中，sgRNA(或其突变体)自质粒pSTX4上的最小组成型启动子表达。此最小质粒含有ColE1复制起点和卡本西林抗生素耐受性盒，且长度为2311个碱基对，允许标准角周PCR(Around-the-Horn PCR)和钝端连接克隆(使用常规方法)。正向引物KST223-331和反向引物KST332-440跨越sgRNA序列以一个碱基对增量拼贴，且用于在两个依序PCR步骤中扩增载体。在步骤1中，对于每种类型的突变进行108个平行PCR反应，从而在各设计位置处产生单碱基突变。产生三种类型的突变。为了产生碱基取代突变，在以KST224+KST332开始的匹配对中选择正向和反向引物。为了产生碱基插入突变，在以KST223+KST332开始的匹配对中选择正向和反向引物。为了产生碱基缺失突变，在以KST225+KST332开始的匹配对中选择正向和反向引物。在步骤1PCR之后，样品以等摩尔方式汇集、钝端连接且转化至Turbo大肠杆菌(New EnglandBiolabs)中，接着在次日进行质粒提取。所得质粒库理论上含有所有可能的单一突变。在步骤2中，此PCR和克隆方法接着使用步骤1质粒库作为模板对于第二组PCR重复(布置如上)，以产生所有双重突变。将来自步骤1的单一突变库和来自步骤2的双重突变库汇集在一起。

在以上克隆步骤之后，通过下一代测序评估库多样性(关于方法，参见以下部分)(参见图59)。确认大多数库含有超过一种突变(‘其它’)类别。相当一部分的库含有单碱基取代、缺失和插入(针对单一取代为1/18,000个变体的库内的平均表示，且针对单一缺失为至多1/740个变体)。

2)评估下一代测序的库多样性。

对于NGS分析，经由PCR用对细菌表达载体的支架区具有特异性的引物扩增基因组DNA以形成目标扩增子。这些引物在5'端含有额外序列以引入Illumina读段(关于序列，参见表22)。典型PCR条件为：1×Kapa Hifi缓冲液，300nM dNTPs，300nM的各引物，0.75μlKapa Hifi Hotstart DNA聚合酶于50μl反应物中。在热循环仪上，培育在95℃持续5分钟；接着为98℃持续15秒、60℃持续20秒、72℃持续1分钟的16-25个循环；且在72℃下最终延伸2分钟。扩增DNA产物通过Ampure XP DNA清除试剂盒纯化，且在30μl水中洗脱。通过索引衔接子进行第二PCR步骤以允许Illumina平台上的多重化。20μl来自前一步骤的纯化产物与1×Kapa GC缓冲液、300nM dNTPs、200nM的各引物、0.75μl Kapa Hifi Hotstart DNA聚合酶于50μl反应物中组合。在热循环仪上，培育在95℃持续5分钟；接着为98℃持续15秒、65℃持续15秒、72℃持续30秒的18个循环；且在72℃下最终延伸2分钟。扩增DNA产物通过AmpureXP DNA清除试剂盒纯化，且在30μl水中洗脱。使用Fragment Analyzer DNA分析仪试剂盒(Agilent，dsDNA 35-1500bp)评估扩增子的质量和定量。

表22：引物序列.

3)细菌CRISPRi(CRISPR干扰)分析

使用单体红色荧光蛋白(mRFP)和Superfolder绿色荧光蛋白(sfGFP)，基于Qi LS等人(Cell 152,5,1173-1183(2013))实施双色荧光报告子筛选。此筛选用于分析由CasX系统的可程序化DNA结合介导的基因特异性转录抑制)。大肠杆菌的此菌株在标准培养条件下或当在琼脂板上以菌落形式生长时表达亮绿色和红色荧光。在CRISPRi系统下，CasX蛋白自含有p15A复制起点的质粒(质粒pSTX3；氯霉素耐受性)上的无水四环素(aTc)诱导型启动子表达，且sgRNA自含有ColE1复制起点的质粒(pSTX4、非靶向间隔子或pSTX5，GFP靶向间隔子#1；卡本西林耐受性)上的最小组成型启动子表达。当大肠杆菌菌株经两种质粒共转化时，由pSTX4中的间隔子靶向的基因被抑制；在此情况下，观察到GFP抑制，其程度取决于靶向CasX蛋白和sgRNA的功能。在此系统中，RFP荧光可充当标准化对照。确切地说，RFP荧光应为不变的且独立于基于功能性CasX的CRISPRi活性。可通过调节CasX蛋白的表达来调谐此系统中的CRISPRi活性；此处，所有分析使用生长培养基中20nM无水四环素(aTc)最终浓度的浓度诱导。

构建sgRNA的库以评估复合物中sgRNA变体的活性，其中对浮霉菌门，SEQ ID NO:2的参考CasX蛋白开放阅读框架进行三种裂解-不活化突变，使得CasX催化死亡(dCasX)。此三个突变被称为D1(具有D659A取代)、D2(具有E756A取代)或D3(具有D922A取代)。由所有三种突变组合地构成的第四个库被称为DDD(D659A；E756A；D922A取代)。

使用具有D2、D3或DDD的以上CRISPRi系统筛选sgRNA库的活性。在共转化和回收之后，库在具有适当抗生素的2xyt培养基中生长8小时且在Sony MA900流式细胞测量术仪器上分选。各库型式经三个不同门(外加未处理、未分选的库)分选。三种不同分选门用于提取GFP-细胞：10％、1％和“F”，其表示由GFP抑制排名的约0.1％细胞。最后，在两个技术复本中进行各分选。使用选取菌落的桑格测序(UC Berkeley Barker Sequencing Facility)或小规模纯化质粒的NGS测序(Massachusetts General Hospital CCIB DNA Core Next-Generation Sequencing Service)或PCR扩增子的NGS测序检测所关注变体，PCR扩增子通过引入索引衔接子以在Illumina平台上测序的引物产生(参见以上章节)。将扩增子送至通过Novogene(Beijing,China)测序，以在Illumina Hiseq上以150个循环、成对末端读段测序。各分选样品的每一技术复本具有至少3百万个读段，且对于未处理样品为至少2500万个读段。跨越所有样品的平均读段计数为1千万个读段。

4)NGS数据分析

配对末端读段通过cutadapt(版本2.1)针对衔接子序列修整、通过flash2(v2.2.00)合并以形成单一读取且通过bowtie2(v2.3.4.3)与参考比对。参考为整个扩增子序列，其包括侧接来自具有以下序列的质粒主链的浮霉状菌属参考引导支架的约30个碱基对：

自bowtie2结果确定参考与读段之间的变异。简而言之，python(analyzeDME/bin/bam_to_variants.py)中的定制软件使用来自各比对的cigar字符串和md字符串自参考序列提取单碱基变体。丢弃具有不佳比对或高误差率的读段(mapq<20和估计误差率>4％；估计误差率使用每一碱基的phred质量评分计算)。丢弃不佳质量测序位置处的单碱基变体(phred评分<20)。将紧邻的单碱基变体合并为可跨越多个碱基的一个突变。将突变标记为单取代、插入或缺失，或其它高阶突变，或在支架序列外部。

确定支持各组突变的读段数目。这些读段计数针对测序深度标准化(均值标准化)，且来自技术复本的读段计数通过取几何平均值而平均化。

为了获得各支架变体的富集值，各分选样品的标准化读段数目是相比于高度相关的D2和D3的标准化读段计数的平均值(图59B)。未处理DDD样品未经测序。为了获得各催化死亡CasX变体的富集，对跨三个分选门的富集值的对数求平均值。

人类细胞分析中sgRNA活性的个别验证的方法

1)个别sgRNA变体构建

为了筛选所关注变体，使用标准分子生物学技术构建个别变体。使用分段载体和吉布森克隆在参考CasX(SEQ ID NO:2)上建立所有突变。为了建立单一突变，在与用于筛选的所需主链具有同源性的编码蛋白质序列的任一末端上设计通用正向(5'→3')和反向(3'→5')引物(参见下表23)。也设计产生所需突变的引物(F引物和其反向补体)且与通用F和R引物一起用于扩增；因此产生两个片段。为了添加多个突变，设计具有重叠的额外引物且产生更多PCR片段。举例来说，为了构建三重突变体，设计四组F/R引物。所得PCR片段经凝胶提取。随后通过用适当限制酶消化筛选载体主链和凝胶提取将这些片段装配至筛选载体中(参见表23)。插入片段和载体接着使用吉布森装配预混液装配、转型且使用适当LB琼脂+抗生素接种。克隆经桑格测序且选择适当克隆。

最后，进行间隔子克隆以将引导RNA靶向至适当分析或筛选中的所关注基因。序列验证的非靶向克隆用适当Golden Gate酶消化且使用DNA清洁和浓缩器试剂盒(Zymo)清洁。所关注间隔子的寡核苷酸经粘接。使用标准Golden Gate克隆方案将粘接的间隔子接合至经消化和清洁的载体中。将反应物转化至Turbo大肠杆菌中且接种于LB琼脂+卡本西林上，且使其在37℃下生长过夜。次日选取个别菌落，在37℃下于2XYT+卡本西林中生长八小时，且进行小规模纯化。克隆经桑格测序且选择适当克隆。

表23：筛选载体和相关引物序列

2)通过HEK293T细胞的质粒脂质体转染的GFP编辑

多西环素诱导性GFP(iGFP)报告子HEK293T细胞或SOD1-GFP报告子HEK293T细胞以每孔20-40k个细胞在96孔板中于100μl FB培养基中接种，且在具有5％CO₂的37℃培育箱中培养。第二天，检查经接种细胞的汇合。细胞在转染时为约75％汇合。使用脂染胺3000遵循制造商的方案，将各CasX构建体以每孔100-500ng转染至每一构建体3个孔中，作为复本。靶向适当基因的SaCas9和SpyCas9用作基准评效对照。对于各Cas蛋白类型，非靶向质粒用作阴性对照。

在以0.3-3μg/ml进行嘌呤霉素选择24-48小时以选择成功转染的细胞，接着在FB培养基中回收1-7天之后，经由流式细胞测量术分析经转染细胞中的GFP荧光。在此方法中，细胞针对适当正向和侧向散射进行门控、针对单细胞进行选择且接着针对报告子表达进行门控(Attune Nxt Flow Cytometer，Thermo Fisher Scientific)，以定量荧光团的表达量。对于各样品收集至少10,000个事件。数据接着用于计算编辑细胞的百分比。

3)通过HEK293T细胞的慢病毒转导的GFP编辑

遵循标准分子生物学和组织培养技术，在Lenti-X 293T细胞系(Takara)中产生编码CasX蛋白的质粒的慢病毒产物，包括对照、CasX变体和/或CasX库。基于标准组织培养技术使用慢病毒转导iGFP HEK293T细胞或SOD1-GFP报告子HEK293T细胞。如上文所述地进行选择和荧光分析，除了选择后回收时间为5-21天。对于荧光活化细胞分选(FACS)，细胞在MA900仪器(Sony)上如上文所述地门控。通过QuickExtract^TM DNA Extraction Solution(Lucigen)或Genomic DNA Clean&Concentrator(Zymo)提取基因组DNA。

结果：

sgRNA 1至174的工程化

1)衍生自细菌物种的宏基因组学的sgRNA改良人类细胞中的功能

通过针对可能的CasX引导支架评估新宏基因组细菌序列来发现CasX RNP裂解活性的初始改良。先前操作表明δ变形菌纲sgRNA(SEQ ID NO:4)可与CasX蛋白，包括δ变形菌纲CasX(SEQ ID NO:1或浮霉菌门CasX(SEQ ID NO:2)形成功能性RNA引导的核酸酶复合物。此复合物的结构表征允许鉴别sgRNA内的结构元件(图60A-图60C)。然而，从未测试来自浮霉菌门的sgRNA支架。自浮霉菌门鉴别第二tracrRNA，其通过与用于δ变形菌纲tracrRNA-crRNA(SEQ ID NO:5)相同的方法制成sgRNA(Liu,JJ等人《自然》,566,218-223(2019))。基于RNA二级结构预测算法，此两个sgRNA具有类似结构元件，包括三个茎环结构和可能的三螺旋体形成(图61)。

相比于GFP-脂质体转染分析中的其它者，与δ变形菌纲sgRNA复合的浮霉菌门CasX蛋白(下文称为RNP 2.1，其中CasX蛋白具有序列SEQ ID NO:2)和与支架2sgRNA复合的浮霉菌门CasX蛋白(下文称为RNP 2.2)的活性表征显示RNP 2.2的明显优越性(参见方法)(图62)。因此，此支架形成我们的分子工程化和优化的基础。

2)经由全面RNA支架诱变筛选改良CasX RNP的活性。

为了发现可改良CasX RNP的dsDNA裂解活性的引导RNA支架突变，对gRNA支架2产生多种多样的插入、缺失和取代(参见方法)。使用CRISPRi筛选此多样库以确定改良DNA结合能力且最终改良人类细胞中的裂解活性的变体。库通过如材料和方法中所述的汇集引物克隆方法产生。使用CasX的无酶活性型式(称为D2、D3和DDD；参见方法)进行CRISPRi筛选。经由高通量分选和测序方法鉴别具有改良DNA结合特征的库变体。来自具有高GFP抑制(即，低荧光)的细胞的支架变体经分离且通过下一代测序鉴别。GFP-池中各变体的表示相比于其于未处理库中的表示，以形成每一变体的富集评分(参见材料和方法)。富集跨越三种催化死亡CasX变体可再现(图64)。

检查所有单一变体的富集评分展现引导支架，尤其延伸茎内的可突变位置(图63A-图63C)。在表24中列出延伸茎之外的前20个富集单一变体。除了延伸茎以外，这些在很大程度上丛集至四个区域中：位置55(支架茎气泡)、位置15-19(三螺旋环)、位置27(三螺旋体)和序列的5'端(位置1、2、4、8)。尽管这些顶部富集变体中的大多数跨越所有三种催化死亡CasX型式始终富集，但位置27处的富集为可变的，在D3 CasX中无明显富集(数据未示出)。

变体的不同结构类别的富集表明RNP活性可通过独特机制改良。举例来说，延伸茎内的特定突变相对于WT支架富集。在此区域基本上不接触CasX蛋白(图60A)的条件下，我们假设使此区域突变可改良gRNA支架的折叠稳定性，同时不影响任何特定蛋白结合相互作用界面。另一方面，5'突变可与增加的转录效率有关。在第三机制中，推论对支架茎气泡或三螺旋体的突变可经由与CasX蛋白直接接触，或通过影响与RNP的异位机制而使得稳定性增加。改良RNP结合的这些独特机制支持这些突变可经堆叠或组合以加性地改良活性。

表24：延伸茎之外的顶部富集单一变体

位置	注解	参考	替代	log2富集	区域
						55	插入	-	G	2.37466	支架茎气泡
55	插入	-	T	1.93584	支架茎气泡
						15	插入	-	T	1.65155	三螺旋环
17	插入	-	T	1.56605	三螺旋环
						4	缺失	T	-	1.48676	5'端
27	插入	-	C	1.26385	三螺旋体
						16	插入	-	C	1.26025	三螺旋环
19	插入	-	T	1.25306	三螺旋环
						18	插入	-	G	1.22628	三螺旋环
2	缺失	A	-	1.17690	5'端
						17	插入	-	A	1.16081	三螺旋环
18	取代	C	T	1.10247	三螺旋环
						18	插入	-	A	1.04716	三螺旋环
16	取代	C	T	0.97399	三螺旋环
						8	取代	G	C	0.95127	假结
16	取代	C	A	0.89373	三螺旋环
						27	插入	-	A	0.86722	三螺旋体
1	取代	T	C	0.83183	5'端
						18	缺失	C	-	0.77641	三螺旋环
19	插入	-	G	0.76838	三螺旋环

3)在dsDNA裂解分析中评估人类细胞中的RNA支架突变体

CRISPRi筛选能够以高通量评估细菌细胞中的结合力。然而，其不保证人类细胞分析中的更高裂解活性。我们随后在HEK细胞中使用质粒脂质体转染评估一大条个别支架变体在人类细胞中的裂解能力(参见材料和方法)。在此分析中，含有稳定整合GFP基因的人类HEK293T细胞经质粒(p16)转导，所述质粒表达参考CasX蛋白(Stx2)(SEQ ID NO:2)和包含gRNA支架变体和间隔子4.76(具有序列UGUGGUCGGGGUAGCGGCUG(SEQ ID NO:3624)和4.77(具有序列UCAAGUCCGCCAUGCCCGAA(SEQ ID NO:3625))的sgRNA以靶向RNP以敲落GFP基因。使用流式细胞测量术分析GFP敲落％。在此分析中测试超过一百个支架变体。

分析对于间隔子4.76产生跨越不同分析日期在很大程度上可再现的值，同时对于间隔子4.77展现更多变化性(图69)。间隔子4.77一般对野生型RNP复合物具有较少活性，且较低总体信号可贡献于此增加的变化性。跨越两个间隔子比较裂解活性显示总体相关的结果(r＝0.652；图70)。由于间隔子4.77测量中增加的杂讯，将每一支架的报导裂解活性视为对各支架的测量值之间的加权平均值，其中权重等于逆平方误差。此权重使来自高误差测量的贡献有效地降权。

在HEK-iGFP分析和CRISPRi分析中测试序列子组。比较CRISPRi富集评分与GFP裂解活性出示高度富集变体在野生型RNP处或超出野生型RNP具有裂解活性(图63C)。两个变体具有高裂解活性与低富集评分(C18G和T17G)；有趣的是，这些取代在与若干高度富集插入相同的位置(图71)。

检查HEK-iGFP分析中测试的所有支架展现始终改良裂解活性的某些特征。我们发现延伸茎可通常经具有改良或等同活性的不同茎完全交换(例如比较SEQ ID NO:2101-2105、2111、2113、2115的支架；其均已替换延伸茎，相对于参考具有增加的活性，如表5中所见)。我们特定聚焦于具有不同来源的两个茎：野生型茎的截短型，其中环序列经高度稳定UUCG四环替换(茎42)。另一个(茎46)衍生自Uvsx噬菌体T4 mRNA，在其生物背景下对于调节噬菌体基因组的反转录重要(Tuerk等人《美国国家科学院院刊(Proc Natl Acad Sci U SA.)》85(5):1364(1988))。表达最好的gRNA支架全部具有此两种延伸茎型式(例如SEQ IDNO:2160和2161)中的一种。

将核糖核酸酶附加至3'端通常产生功能性支架(例如参见SEQ ID NO:2182，在此分析中具有与WT引导等同的活性{表5})。另一方面，添加至5'端一般损害裂解活性。在所述分析中，表达最佳的5'核糖核酸酶构建体(SEQ ID NO:2208)的裂解活性为WT引导的<40％。

某些单点突变总体上良好，或至少无害，包括T10C，其经设计以通过在支架的5'起点处去除四个连续T而提高人类细胞中的转录效率(Kiyama和Oishi.《核酸研究(NucleicAcids Res.)》,24:4577(1996))。C18G为另一有帮助的突变，其获自从CRISPRi筛选的个别集落挑选。位置27处C的插入在CRISPRi筛选的三种dCasX型式中的两者中为高度富集的。然而，其似乎不有助于裂解活性。最后，RNA气泡内位置55处的插入大幅改良裂解活性(即，比较具有^G55插入的SEQ ID NO:2236与表5中的SEQ ID NO:2106)。

4)较高严格性裂解分析中变体的进一步堆叠

将证明有益的支架突变堆叠在一起以形成一组新变体，其在更严格标准下测试：GFP基因敲入至SOD1等位基因中的人类HEK-293t细胞中的质粒脂质体转染分析，我们观察到所述基因一般更难敲落。在此批变体中，将引导支架158鉴别为表达最好者(图65)。此支架具有经修饰的延伸茎(Uvsx)，具有额外突变以与延伸茎完全碱基配对([A99]和G65U)。其还含有三螺旋环(C18G)和支架茎气泡(^G55)中的突变。

在改良的DNA编辑能力的第二验证中，将sgRNA递送至具有低MOI慢病毒转导，且具有针对SOD1基因的独特靶向序列的细胞(参见方法)；间隔子为8.2(具有序列AUGUUCAUGAGUUUGGAGAU(SEQ ID NO:3626))和8.4(具有序列UCGCCAUAACUCGCUAGGCC(SEQID NO:3627))(结果出示于图66中)。另外，引导支架158和64的初始GT的5'截短经缺失(分别形成支架174和175)。此分析显示引导支架174的优势度：衍生自引导支架158的变体自5'端截短2个碱基(图66)。支架174的二级结构的示意图出示于图67中。

总的，我们的经改良引导支架174显示相比于我们的起始参考引导支架(来自δ变形菌纲的支架1，SEQ ID NO:4)的显著改良，和相比于支架2(SEQ ID NO:5)的实质性改良(图68)。此支架含有交换的延伸茎(用14个碱基替换32个碱基)、延伸茎中的额外突变([A99]和G65U)、三螺旋环中的突变(C18G)和支架茎气泡中的突变(^G55)(其中所有编号均指支架2)。最后，初始T自支架2缺失，以及将G添加至5'端以增强转录效率。引导支架174可见的实质性改良共同地来自指定突变。

实例26：编辑ARPE19 RHO-GFP细胞中的RHO

实验目的为出示CasX使用CasX变体438、488和491、引导174变体和靶向RHO基因的外显子1的间隔子编辑RHO基因座的能力。基于基因座中的PAM可用性在无潜在活性的先验知识的情况下选择间隔子。

为了促进编辑结果的评估，首先通过将转基因盒敲入至ARPE19细胞中来产生ARPE19 RHO-GFP报告子细胞系，所述转基因盒组成性表达连接至GFP的人类RHO基因的外显子1。经修饰细胞通过每3-5天连续传代扩增，且维持于由以下各者组成的成纤维细胞(FB)培养基中：达尔伯克氏改良伊格尔培养基(DMEM；Corning Cellgro,#10-013-CV)，补充有10％胎牛血清(FBS；Seradigm,#1500-500)和100单位/毫升青霉素和100mg/mL链霉素(100×-青霉素-链霉素；GIBCO#15140-122)，且可另外包括丙酮酸钠(100×，Thermofisher#11360070)、非必需氨基酸(100×Thermofisher#11140050)、HEPES缓冲液(100×Thermofisher#15630080)和2-巯基乙醇(1000×Thermofisher#21985023)。在37℃和5％CO2下培育细胞。在1-2周之后，GFP+细胞整体分选至FB培养基中。报告子细胞系通过每3-5天连续传代扩增且在37℃和5％CO2下维持于培育箱中的FB培养基中。通过限制稀释法产生报告子克隆。经由流式细胞测量术、基因组测序和使用先前证实的靶向CasX分子的RHO进行RHO基因座的功能修饰来表征克隆细胞系。最佳报告子细胞系鉴别为如下细胞系：i)每个细胞具有GFP恰当整合的单一复本，ii)维持等同于未修饰细胞的加倍时间，和iii)当使用下文所述的方法分析时，在RHO基因破坏后引起GFP荧光减少。

使用上文所述的细胞系产生方法构建的ARPE19 RHO-GFP报告子细胞用于此实验。细胞以每孔20-40k个细胞在96孔板中于100μL FB培养基中接种，且在具有5％CO2的37℃培育箱中培养。第二天，封装各CasX和引导构建体的慢病毒载体(例如关于序列，参见表25)用于使用每一构建体3个孔作为复本以高感染倍率(MOI)转导细胞。封装非靶向构建体的慢病毒用作阴性对照。选择细胞以用0.3-3μg/ml的嘌呤霉素成功转导24-48小时，接着在FB培养基中回收。在转导后14天通过流式细胞测量术分析编辑的细胞。简而言之，细胞针对活细胞、单细胞和GFP阴性细胞的分率依序门控。

结果：图72中的图示出示转染后14天，APRE19 RHO-GFP细胞中的RHO基因座处Cas介导的编辑的流式细胞测量术分析的结果。靶向RHO外显子1基因座的十八种不同间隔子(由个别数据点指示)用于此实验中所用的不同CasX变体(438、488和491)中的每一者。各数据点为个别间隔子的3个复本的平均测量值。构建体的中值为：438(48.4)；488(59.0)和491(56.4)，指示在分析条件下，具有适当引导的CasX变体中的每一者能够以高水准在APRE19RHO-GFP报告子细胞中特异性编辑，而具有非靶向间隔子的构建体不引起编辑(数据未示出)。

表25：引导编码序列

实例27.基于预测二级结构稳定性设计改良引导

方法

计算方法用于预测相比于替代、非功能性二级结构，‘目标’二级结构的相对稳定性。首先，gRNA的‘目标’二级结构通过针对CasX 1.1提取CryoEM结构中的RNA内形成的碱基对而确定。为了预测RNA二级结构，使用程序RNAfold(版本2.4.14)。‘目标’二级结构转化为迫使碱基与其它碱基配对，或不配对的‘限制串’。由于三螺旋体无法在RNAfold中建模，三螺旋体中涉及的碱基需要在限制串中不配对，而其它茎(假结、支架和延伸茎)中的碱基需要适当地配对。对于引导支架2(SEQ ID NO:5)、174(SEQ ID NO:2238)和175(SEQ ID NO:2239)，此限制串是基于延伸茎之外的支架与支架1(SEQ ID NO:4)之间的序列比对构建，所述序列可具有最小序列一致性。在延伸茎内，假设碱基根据分离的延伸茎序列的预测二级结构配对。关于序列子组和其限制串，参见表26。

表26：表示RNAfold算法中的‘目标二级结构’的限制串。

使用命令：‘RNAfold-p0--noPS-C’，且以kcal/mol获取‘集合的自由能’(ΔG_constraint)，获得满足限制的结构集合的二级结构稳定性。使用命令：‘RNAfold-p0--noPS’，且以kcal/mol获取‘集合的自由能’(ΔG_all)，在无限制的情况下重复所述预测以获得包括目标和替代结构的整个集合的二级结构稳定性。

目标结构与替代结构的相对稳定性被定量为此两个ΔG值的差：ΔΔG＝ΔG_constraint-ΔG_all。预测具有高ΔΔG值的序列具有许多竞争性的替代二级结构，将使得RNA难以折叠为目标结合胜任型结构。预测具有低ΔΔG值的序列就其折叠为结合胜任型二级结构的能力而言更佳。

结果

基于现有数据和新假设设计了一系列新支架以改良支架活性。各新支架包含一组突变，预测其组合地使得dsDNA裂解活性能够更高。这些突变属于以下类别：第一，预测支架的5'非结构化区中的突变提高转录效率或另外改良支架活性。最通常地，支架的5'“GU”核苷酸缺失(支架181-220：SEQ ID NO:2242-2280)。“U”为参考序列SEQ ID NO:5中的第一核苷酸(U1)。G经前置以提高通过U6聚合酶的转录效率。然而，去除此两个核苷酸出人意料地显示提高活性(图66)。5'端处的额外突变包括(a)组合GU缺失与A2G，使得第一转录碱基为参考支架(支架199：SEQ ID NO:2259)中位置2处的G；(b)仅使U1缺失且保留前置G(支架200：SEQ ID NO:2260)；和(c)使位置4处的U缺失，预测其为非结构化的且发现当在高通量CRISPRi分析中添加至支架2(支架208：SEQ ID NO:2268)时有益。

第二类突变是对于延伸茎区域。此区域的序列选自三种可能的选择：(a)“截短茎环”，其具有比参考序列延伸茎更短的环序列(支架64和175含有此延伸茎：分别为SEQ IDNO:2106和2239)，(b)具有额外环远端突变[A99]和G65T以完全碱基配对延伸茎的Uvsx发夹(支架174：SEQ ID NO:2238)含有此延伸茎)；或(c)具有与(b)中相同的额外环远端突变[A99]和G65T的“MS2(U15C)”发夹。此三种延伸茎类别以高活性存在于支架中(例如参见图65)，且其序列可见于表27中。

表27：新颖支架中所用的延伸的茎区域的序列。

第三，对于三螺旋环区设计一组突变。此区域未在CasX 1.1的CryoEM结构中解析，可能因为其不形成碱基对且因此更具柔性。基于来自支架2的CRISPRi数据，此区域包容突变，具有某些对RNP结合具有有益效应的突变(图63)。三螺旋环内的C18G取代已并入支架174中。以下突变被添加至支架174，所述突变不紧邻C18G取代以限制这些突变之间的潜在负上位性：^U15(在支架2中的核苷酸15之前插入U)、^U17和C16A(支架208、210和209：分别为SEQ ID NO:2268、2270、2269)。

第四，一组突变经设计以系统地稳定支架的目标二级结构。对于背景，将RNA聚合物折叠为加强其功能的复合三维结构。在CasX RNP中，RNA支架形成包含如假结茎、三螺旋体、支架茎-环和延伸茎-环的二级结构元件的结构，如在CasX RNP 1.1的Cryo-EM表征中显而易见。这些结构元件可能帮助加强能胜任结合CasX蛋白的三维结构，且转而使得构象转变能够为RNP的酶功能所需。然而，RNA序列可折叠为与形成目标二级结构竞争的替代二级结构。给测序列折叠为目标相对于替代二级结构的倾向使用计算预测定量，与(Jarmoskaite,I.等人2019.人类pumilio蛋白结合RNA的定量和预测模型(A quantitativeand predictive model for RNA binding by human pumilio proteins).《分子细胞(Molecular Cell)》74(5),第966-981.e18.页)中所述的用于校正独特蛋白质-RNA相互作用的观察结合平衡常数，使用RNAfold(Lorenz,R.,Bernhart,S.H.,

ZuSiederdissen,C.等人2011.ViennaRNA包2.0(ViennaRNA Package 2.0).《分子生物学算法6(Algorithms for Molecular Biology 6)》,第26页)预测二级结构稳定性的方法类似(参见方法)。

在以下区域中选择预测帮助稳定目标二级结构的一系列突变：假结为在支架的5'序列与三螺旋体和三螺旋环的序列3'之间形成的碱基配对茎。预测此茎包含5个碱基对，其中的4个为典型沃森-克里克对，且第五个为非典型G:A摆动对。预测将此G:A摆动转化为沃森克里克对将相对于目标二级结构稳定替代二级结构(目标与替代二级结构稳定性之间的高ΔΔG；方法)。此异常稳定性来自一组二级结构，其中三螺旋体碱基为异常配对的。然而，预测将G转化为A或C(对于A:A摆动或C:A摆动)将降低ΔΔG值(G8C或G8A添加至支架174和175+C18G)。第二组突变在三螺旋环中：包括U15C突变和C18G突变(对于尚未包含此变体的支架175)。最后，假结茎与支架茎之间的连接子在位置35处突变(U35A)，再次预测其相对于替代结构稳定目标二级结构。

支架189-198(SEQ ID NO:2250-2258)在支架174或175的顶部上个别地和组合地包括这些预测突变。在下表28中给出这些支架中的每一者的ΔΔG的预测改变。此算法预测将多个这些突变组合至单一支架中对ΔΔG的效应强得多。

表28：个别地或组合地将特定突变并入至支架174或175对目标二级结构稳定性的预测效应。

第五组突变经设计以测试三螺旋体碱基是否可经仍能够形成三螺旋体对的三个核苷酸的替代组替换(支架212-220：SEQ ID NO:2272-2280)。预测这些取代的子组阻止形成替代二级结构。

第六组突变经设计以改变假结-三螺旋体边界核苷酸，预测其对转录效率和三螺旋体形成具有竞争效应。这些包括支架201-206(SEQ ID NO:2261-2266)。

实例28：通过NTC PAM的体外裂解分析

使用与具有靶向B2M的间隔子7.37的单一引导174复合的CasX 2(SED ID NO:2)、CasX 119和CasX 438，基本上如实例19中所述地进行体外裂解分析。使用将与7.37间隔子和TTC、CTC、GTC或ATC PAM互补的经荧光标记的dsDNA目标(用于产生各dsDNA底物的DNA序列出示于表29中。用于各者的PAM序列为粗体。TS-目标股。NTS-非目标股)。目标DNA与20倍过量的指定RNP一起培育，且在指定时间点测定裂解目标的量。出示合并复本的单相拟合。在分析期间，在0.25、0.5、1、2、5、10、30和60分钟处获取样品。凝胶通过Amersham Typhoon成像且使用IQTL 8.2软件定量。针对各目标上的各Casx:sgRNA复合物确定非目标股裂解的表观一阶速率常数(k_cleave)。具有非TTC PAM的目标的速率常数相比于TTC PAM目标，以确定对各PAM的相对偏好是否针对给定CasX变体改变。结果出示于图73(出示合并复本的单相拟合)和表30中。对于所有Cas X变体，TTC PAM目标序列支持最高裂解速率，接着为ATC，接着为CTC，且最后为GTC目标序列。相对于TTC目标的速度，CTC目标以3.5-4.3％支持裂解；GTC目标以1.0-1.4％支持裂解；且ATC目标以6.5-8.3％支持裂解。尽管对于非TTC PAM的k_cleave速率较低，但变体的裂解速率允许具有ATC或CTC PAM的目标在10分钟内几乎完全裂解，且相对于野生型CasX的这些增加的裂解速率对于人类细胞中的有效基因组编辑可为足够的，支持具有增强的利用较大范围的PAM序列的能力的CasX变体的效用。

表29.体外PAM裂解分析中所用的DNA底物的序列。

*PAM以粗体指示

表30：裂解速率

*对于所有非NTC PAM，相比于所述变体的TTC速率的相对裂解速率在圆括号中示出。

Claims

1.一种参考CasX蛋白的变体(CasX变体)，其中：

a.所述CasX变体包含所述参考CasX蛋白中的至少一个修饰；且

b.其中相比于所述参考CasX蛋白，所述CasX变体展现至少一种改良特征。

2.根据权利要求1所述的CasX变体，其中所述CasX变体的所述改良特征选自由以下组成的组：改良所述CasX变体的折叠；改良对引导核酸(gNA)的结合亲和力；改良对目标DNA的结合亲和力；改良在目标DNA的编辑中利用较大范围的一种或多种PAM序列，包括ATC、CTC、GTC或TTC的能力；改良目标DNA解旋；增加编辑活性；改良编辑效率；改良编辑特异性；增加核酸酶活性；增加用于双股裂解的目标股负载；减少用于单股切割的目标股负载；减少脱靶裂解；改良非目标DNA股的结合；改良蛋白质稳定性；改良蛋白质溶解度；改良蛋白质:gNA复合物(RNP)稳定性；改良蛋白质:gNA复合物溶解度；改良蛋白质产率；改良蛋白质表达；改良熔融特征，或其组合。

3.根据权利要求1或2所述的Cas X变体，其中所述至少一个修饰包含：

a.所述CasX变体的域中的至少一个氨基酸取代；

b.所述CasX变体的域中的至少一个氨基酸缺失；

c.所述CasX变体的域中的至少一个氨基酸插入；

d.来自不同CasX的域的全部或一部分的取代；

e.所述CasX变体的域的全部或一部分的缺失；或

f.(a)-(e)的任何组合。

4.根据权利要求1至3中任一项所述的CasX变体，其中所述参考CasX蛋白包含SEQ IDNO:1、SEQ ID NO:2或SEQ ID NO:3的序列。

5.根据权利要求1至4中任一项所述的CasX变体，其中所述至少一个修饰在选自以下的域中：

a.非目标股结合(NTSB)域；

b.目标股负载(TSL)域；

c.螺旋形I域；

d.螺旋形II域；

e.寡核苷酸结合域(OBD)；或

f.RuvC DNA裂解域。

6.根据权利要求5所述的CasX变体，其包含所述NTSB域中的至少一个修饰。

7.根据权利要求5所述的CasX变体，其包含所述TSL域中的至少一个修饰。

8.根据权利要求7所述的CasX变体，其中所述TSL域中的所述至少一个修饰包含SEQ IDNO:2的氨基酸Y857、S890或S932中的一个或多个的氨基酸取代。

9.根据权利要求5所述的CasX变体，其包含所述螺旋形I域中的至少一个修饰。

10.根据权利要求9所述的CasX变体，其中所述螺旋形I域中的所述至少一个修饰包含SEQ ID NO:2的氨基酸S219、L249、E259、Q252、E292、L307或D318中的一个或多个的氨基酸取代。

11.根据权利要求5至10中任一项所述的CasX变体，其包含所述螺旋形II域中的至少一个修饰。

12.根据权利要求11所述的CasX变体，其中所述螺旋形II域中的所述至少一个修饰包含SEQ ID NO:2的氨基酸D361、L379、E385、E386、D387、F399、L404、R458、C477或D489中的一个或多个的氨基酸取代。

13.根据权利要求5所述的CasX变体，其包含所述OBD域中的至少一个修饰。

14.根据权利要求13所述的CasX变体，其中所述OBD中的所述至少一个修饰包含SEQ IDNO:2的氨基酸F536、E552、T620或I658中的一个或多个的氨基酸取代。

15.根据权利要求5所述的CasX变体，其包含所述RuvC DNA裂解域中的至少一个修饰。

16.根据权利要求15所述的CasX变体，其中所述RuvC DNA裂解域中的所述至少一个修饰包含SEQ ID NO:2的氨基酸K682、G695、A708、V711、D732、A739、D733、L742、V747、F755、M771、M779、W782、A788、G791、L792、P793、Y797、M799、Q804、S819或Y857中的一个或多个的氨基酸取代或氨基酸P793的缺失。

17.根据权利要求5至16中任一项所述的CasX变体，其中所述修饰使得编辑目标DNA的能力增强。

18.根据权利要求1至17中任一项所述的CasX变体，其中所述CasX变体能够与引导核酸(gNA)形成核糖核蛋白复合物(RNP)。

19.根据权利要求1至18中任一项所述的CasX变体，其中所述至少一个修饰包含：

a.所述CasX变体中1至100个连续或非连续氨基酸的取代；

b.所述CasX变体中1至100个连续或非连续氨基酸的缺失；

c.所述CasX中1至100个连续或非连续氨基酸的插入；或

d.(a)-(c)的任何组合。

20.根据权利要求19所述的CasX变体，其中所述至少一个修饰包含：

a.所述CasX变体中5-10个连续或非连续氨基酸的取代；

b.所述CasX变体中1-5个连续或非连续氨基酸的缺失；

c.所述CasX变体中1-5个连续或非连续氨基酸的插入；或

d.(a)-(c)的任何组合。

21.根据权利要求1至20中任一项所述的CasX变体，其中所述CasX变体包含一个域中的两个或更多个修饰。

22.根据权利要求1至21中任一项所述的CasX变体，其中所述CasX变体包含两个或更多个域中的修饰。

23.根据权利要求1至20中任一项所述的CasX变体，其包含所述CasX变体的非连续氨基酸残基区域的至少一个修饰，而形成其中发生gNA:目标DNA与所述CasX变体复合的通道。

24.根据权利要求1至20中任一项所述的CasX变体，其包含所述CasX变体的非连续氨基酸残基区域的至少一个修饰，而形成与所述gNA结合的界面。

25.根据权利要求1至20中任一项所述的CasX变体，其包含所述CasX变体的非连续氨基酸残基区域的至少一个修饰，而形成与所述非目标股DNA结合的通道。

26.根据权利要求1至20中任一项所述的CasX变体，其包含所述CasX变体的非连续氨基酸残基区域的至少一个修饰，而形成与所述目标DNA的前间隔子邻近基序(PAM)结合的界面。

27.根据权利要求1至20中任一项所述的CasX变体，其包含所述CasX变体的非连续表面暴露氨基酸残基区域的至少一个修饰。

28.根据权利要求1至20中任一项所述的CasX变体，其包含非连续氨基酸残基区域的至少一个修饰，而经由所述CasX变体的域中的疏水性填充形成核心。

29.根据权利要求23至28中任一项所述的CasX变体，其中所述修饰为所述区域的一个或多个氨基酸的缺失、插入或取代中的一个或多个。

30.根据权利要求23至28中任一项所述的CasX变体，其中所述CasX变体的所述区域的2至15个氨基酸残基经带电荷氨基酸取代。

31.根据权利要求23至28中任一项所述的CasX变体，其中所述CasX变体的区域的2至15个氨基酸残基经极性氨基酸取代。

32.根据权利要求23至28中任一项所述的CasX变体，其中所述CasX变体的区域的2至15个氨基酸残基经与DNA或RNA碱基堆叠的氨基酸取代。

33.根据权利要求1至5中任一项所述的CasX变体，其中相比于SEQ ID NO:2，所述参考CasX序列的至少一个修饰选自以下中的一个或多个：

a.L379R的氨基酸取代；

b.A708K的氨基酸取代；

c.T620P的氨基酸取代；

d.E385P的氨基酸取代；

e.Y857R的氨基酸取代；

f.I658V的氨基酸取代；

g.F399L的氨基酸取代；

h.Q252K的氨基酸取代；

i.L404K的氨基酸取代；和

j.P793的氨基酸缺失。

34.根据权利要求1至5中任一项所述的CasX变体，其中所述CasX变体具有选自由以下组成的组的序列：表3、8、9、10和12的序列，或与其具有至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或至少约95％、或至少约96％、或至少约97％、或至少约98％、或至少约99％序列一致性的序列。

35.根据权利要求1至5中任一项所述的CasX变体，其包含选自由SEQ ID NO:258-327、3508-3520和4412-4415组成的组的序列。

36.根据权利要求1至5中任一项所述的CasX变体，其进一步包含来自不同CasX的NTSB和/或螺旋形1b域的取代。

37.根据权利要求36所述的CasX变体，其中所述经取代的NTSB和/或所述螺旋形1b域来自SEQ ID NO:1的参考CasX。

38.根据权利要求1至37中任一项所述的CasX变体，其进一步包含一个或多个核定位信号(NLS)。

39.根据权利要求38所述的CasX变体，其中所述一个或多个NLS选自由以下各者组成的序列的组：PKKKRKV(SEQ ID NO:352)、KRPAATKKAGQAKKKK(SEQ ID NO:353)、PAAKRVKLD(SEQID NO:354)、RQRRNELKRSP(SEQ ID NO:355)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:356)、RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:357)、VSRKRPRP(SEQ ID NO:358)、PPKKARED(SEQ ID NO:35()、PQPKKKPL(SEQ ID NO:360)、SALIKKKKKMAP(SEQ ID NO:361)、DRLRR(SEQ ID NO:362)、PKQKKRK(SEQ ID NO:363)、RKLKKKIKKL(SEQ ID NO:364)、REKKKFLKRR(SEQ ID NO:365)、KRKGDEVDGVDEVAKKKSKK(SEQID NO:366)、RKCLQAGMNLEARKTKK(SEQ ID NO:367)、PRPRKIPR(SEQ ID NO:368)、PPRKKRTVV(SEQ ID NO:369)、NLSKKKKRKREK(SEQ ID NO:370)、RRPSRPFRKP(SEQ ID NO:371)、KRPRSPSS(SEQ ID NO:372)、KRGINDRNFWRGENERKTR(SEQ ID NO:373)、PRPPKMARYDN(SEQ IDNO:374)、KRSFSKAF(SEQ ID NO:375)、KLKIKRPVK(SEQ ID NO:376)、PKKKRKVPPPPAAKRVKLD(SEQ ID NO:377)、PKTRRRPRRSQRKRPPT(SEQ ID NO:378)、SRRRKANPTKLSENAKKLAKEVEN(SEQID NO:379)、KTRRRPRRSQRKRPPT(SEQ ID NO:380)、RRKKRRPRRKKRR(SEQ ID NO:381)、PKKKSRKPKKKSRK(SEQ ID NO:382)、HKKKHPDASVNFSEFSK(SEQ ID NO:383)、QRPGPYDRPQRPGPYDRP(SEQ ID NO:384)、LSPSLSPLLSPSLSPL(SEQ ID NO:385)、RGKGGKGLGKGGAKRHRK(SEQ ID NO:386)、PKRGRGRPKRGRGR(SEQ ID NO:387)和PKKKRKVPPPPKKKRKV(SEQ ID NO:389)。

40.根据权利要求38所述的CasX变体，其包含SEQ ID NO:3540-3549中的任一个的序列。

41.根据权利要求38或39所述的CasX变体，其中所述一个或多个NLS位于所述CasX蛋白的C端处或附近。

42.根据权利要求38或39所述的CasX变体，其中所述一个或多个NLS位于所述CasX蛋白的N端处或附近。

43.根据权利要求38或39所述的CasX变体，其包含至少两个NLS，其中所述至少两个NLS位于所述CasX蛋白的N端处或附近和C端处或附近。

44.根据权利要求2至43中任一项所述的CasX变体，其中相对于SEQ ID NO:1、SEQ IDNO:2或SEQ ID NO:3的参考CasX蛋白，所述CasX变体的所述改良特征中的一个或多个改良至少约1.1至约100倍或更大。

45.根据权利要求2至43所述的CasX变体，其中相对于SEQ ID NO:1、SEQ ID NO:2或SEQID NO:3的参考CasX蛋白，所述CasX变体的所述改良特征中的一个或多个改良至少约1.1倍、至少约2倍、至少约10倍、至少约100倍或更大。

46.根据权利要求2至45中任一项所述的CasX变体，其中所述改良特征包含编辑效率，且相比于SEQ ID NO:2的参考CasX蛋白，所述CasX变体包含改良1.1至100倍的编辑效率。

47.根据权利要求1至46中任一项所述的CasX变体，其中相比于类似分析系统中包含参考CasX蛋白的RNP的编辑效率和/或结合性，当所述PAM序列TTC、ATC、GTC或CTC中的任一个位于与细胞分析系统中的所述gNA的靶向序列具有一致性的前间隔子的非目标股的5'为1个核苷酸时，包含所述CasX变体的RNP展现在目标DNA中目标序列的较大编辑效率和/或结合性。

48.根据权利要求47所述的CasX变体，其中所述PAM序列为TTC。

49.根据权利要求47所述的CasX变体，其中所述PAM序列为ATC。

50.根据权利要求47所述的CasX变体，其中所述PAM序列为CTC。

51.根据权利要求47所述的CasX变体，其中所述PAM序列为GTC。

52.根据权利要求47中任一项所述的CasX变体，其中相对于包含所述参考CasX的所述RNP，包含所述CasX变体的所述RNP的目标DNA的改良编辑效率和/或与其的结合性改良至少约1.1至约100倍。

53.根据权利要求1至52中任一项所述的CasX变体，其中所述CasX变体包含400至2000个氨基酸。

54.根据权利要求1至53中任一项所述的CasX变体，其中所述CasX变异蛋白包含具有切口酶活性的核酸酶域。

55.根据权利要求1至53中任一项所述的CasX变体，其中所述CasX变异蛋白包含具有双股裂解活性的核酸酶域。

56.根据权利要求1至53中任一项所述的CasX变体，其中所述CasX蛋白为无催化活性CasX(dCasX)蛋白，且其中所述dCasX和所述gNA保留结合至目标DNA的能力。

57.根据权利要求56所述的CasX变体，其中所述dCasX包含以下残基处的突变：

a.对应于SEQ ID NO:1的CasX蛋白的D672和/或E769和/或D935；或

b.对应于SEQ ID NO:2的CasX蛋白的D659和/或E756和/或D922。

58.根据权利要求57所述的CasX变体，其中所述突变为丙氨酸对残基的取代。

59.根据权利要求1至58中任一项所述的CasX变体，其中所述CasX变体包含来自第一CasX蛋白的第一域和来自与所述第一CasX蛋白不同的第二CasX蛋白的第二域。

60.根据权利要求59所述的CasX变体，其中所述第一域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

61.根据权利要求59所述的CasX变体，其中所述第二域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

62.根据权利要求59至61中任一项所述的CasX变体，其中所述第一域和所述第二域不为相同域。

63.根据权利要求59至62中任一项所述的CasX变体，其中所述第一域包含选自由以下组成的组的序列的一部分：SEQ ID NO:1的氨基酸1-56、57-100、101-191、192-332、333-509、510-660、661-824、825-934和935-986，且所述第二域包含选自由以下组成的组的序列的一部分：SEQ ID NO:2的氨基酸1-58、59-102、103-192、193-333、334-501、502-647、648-812、813-921和922-978。

64.根据权利要求1至63中任一项所述的CasX变体，其中所述CasX变体选自由以下组成的组：CasX变体SEQ ID NO:328、SEQ ID NO:3540、SEQ ID NO:4413、SEQ ID NO:4414、SEQID NO:4415、SEQ ID NO:329、SEQ ID NO:3541、SEQ ID NO:330、SEQ ID NO:3542、SEQ IDNO:331、SEQ ID NO:3543、SEQ ID NO:332、SEQ ID NO:3544、SEQ ID NO:333、SEQ ID NO:3545、SEQ ID NO:334、SEQ ID NO:3546、SEQ ID NO:335、SEQ ID NO:3547、SEQ ID NO:336和SEQ ID NO:3548。

65.根据权利要求1至58中任一项所述的CasX变体，其中所述CasX变体包含至少一个嵌合域，其包含来自第一CasX蛋白的第一部分和来自与所述第一CasX蛋白不同的第二CasX蛋白的第二部分。

66.根据权利要求65所述的CasX变体，其中所述至少一个嵌合域选自由以下组成的组：NTSB、TSL、螺旋形I、螺旋形II、OBD和RuvC域。

67.根据权利要求65或66所述的CasX变体，其中所述第一CasX蛋白包含SEQ ID NO:1的序列，且所述第二CasX蛋白包含SEQ ID NO:2的序列。

68.根据权利要求66所述的CasX变体，其中所述至少一个嵌合域包含嵌合RuvC域。

69.根据权利要求68所述的CasX变体，其中所述嵌合RuvC域包含SEQ ID NO:1的氨基酸661至824和SEQ ID NO:2的氨基酸922至978。

70.根据权利要求68所述的CasX变体，其中所述嵌合RuvC域包含SEQ ID NO:2的氨基酸648至812和SEQ ID NO:1的氨基酸935至986。

71.根据权利要求1至5中任一项所述的CasX变体，其包含选自由以下组成的组的序列：SEQ ID NO:247-337、3301-3493、3498-3501、3505-3520、3540-3549和4412-4415。

72.根据权利要求1至5中任一项所述的CasX变体，其包含选自由以下组成的组的序列：SEQ ID NO:247-337、3498-3501、3505-3520、3540-3549和4412-4415。

73.根据权利要求1至5中任一项所述的CasX变体，其包含选自由以下组成的组的序列：SEQ ID NO:3498-3501、3505-3520和3540-3549。

74.根据权利要求1至73中任一项所述的CasX变体，其包含与CasX融合的异源蛋白或其域。

75.根据权利要求74所述的CasX变体，其中所述异源蛋白或其域为碱基编辑剂。

76.根据权利要求75所述的CasX变体，其中所述碱基编辑剂为腺苷脱氨酶、胞嘧啶脱氨酶或鸟嘌呤氧化酶。

77.一种能够结合参考CasX蛋白或CasX变体的参考引导核酸支架的变体(gNA变体)，其中：

a.相比于所述参考引导核酸支架序列，所述gNA变体包含至少一个修饰；且

b.相比于所述参考引导核酸支架，所述gNA变体展现一种或多种改良特征。

78.根据权利要求77所述的gNA变体，其中所述一种或多种改良特征选自由以下组成的组：改良稳定性；改良溶解度；改良所述gNA的转录；改良核酸酶活性抗性；增加所述gNA的折叠速率；折叠期间减少副产物形成；增加生产性折叠；改良与CasX蛋白的结合亲和力；当与所述CasX蛋白复合时，改良与目标DNA的结合亲和力；当与所述CasX蛋白复合时，改良基因编辑；当与所述CasX蛋白复合时，改良编辑特异性；和当与所述CasX蛋白复合时，在目标DNA的编辑中，改良利用较大范围的一种或多种PAM序列，包括ATC、CTC、GTC或TTC的能力。

79.根据权利要求77或78所述的gNA变体，其中所述参考引导支架包含选自由SEQ IDNO:4-16的序列组成的组的序列。

80.根据权利要求77至79中任一项所述的gNA变体，其中所述至少一个修饰包含：

a.所述gNA变体的区域中的至少一个核苷酸取代；

b.所述gNA变体的区域中的至少一个核苷酸缺失；

c.所述gNA变体的区域中的至少一个核苷酸插入；

d.所述gNA变体的区域的全部或一部分的取代；

e.所述gNA变体的区域的全部或一部分的缺失；或

f.(a)-(e)的任何组合。

81.根据权利要求80所述的gNA变体，其中所述gNA变体的所述区域选自由以下组成的组：延伸茎环、支架茎环、三螺旋体和假结。

82.根据权利要求81所述的gNA变体，其中所述支架茎进一步包含气泡。

83.根据权利要求81或82所述的gNA变体，其中所述支架进一步包含三螺旋环区。

84.根据权利要求81至83中任一项所述的gNA变体，其中所述支架进一步包含5'非结构化区。

85.根据权利要求80至84中任一项所述的gNA变体，其中所述至少一个修饰包含：

a.一个或多个区域中的所述gNA变体的1至15个连续或非连续核苷酸的取代；

b.一个或多个区域中的所述gNA变体的1至10个连续或非连续核苷酸的缺失；

c.一个或多个区域中的所述gNA变体的1至10个连续或非连续核苷酸的插入；

d.所述支架茎环或所述延伸茎环经来自具有近端5'和3'端的异源性RNA源的RNA茎环序列取代；或

e.(a)-(d)的任何组合。

86.根据权利要求77至85中任一项所述的gNA变体，其含有包含至少10、至少100、至少500、至少1000、或至少10,000个核苷酸的延伸茎环区。

87.根据权利要求85所述的gNA变体，其中所述异源性RNA茎环序列提高所述gNA的稳定性。

88.根据权利要求87所述的gNA变体，其中所述异源性RNA茎环能够结合蛋白质、RNA结构、DNA序列或小分子。

89.根据权利要求87或88所述的gNA变体，其中所述异源性RNA茎环序列选自MS2、Qβ、U1发夹II、Uvsx或PP7茎环。

90.根据权利要求85至89中任一项所述的gNA变体，其中相比于SEQ ID NO:5的参考引导支架的至少一个修饰选自以下中的一个或多个：

a.所述三螺旋环中的C18G取代；

b.所述茎气泡中的G55插入；

c.U1缺失；

d.所述延伸茎环的修饰，其中

i.6nt环和13环-近端碱基对被Uvsx发夹置换；且

ii.A99的缺失和G64U的取代产生完全碱基配对的环-远端碱基。

91.根据权利要求77至90中任一项所述的gNA变体，其中所述gNA变体包含一个区域中的两个或更多个修饰。

92.根据权利要求77至91中任一项所述的gNA变体，其中所述gNA变体包含两个或更多个区域中的修饰。

93.根据权利要求77至92中任一项所述的gNA变体，其中所述gNA变体进一步包含靶向序列，其中所述靶向序列与所述目标DNA序列互补。

94.根据权利要求93所述的gNA变体，其中所述靶向序列具有14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸。

95.根据权利要求93或94中任一项所述的gNA变体，其中所述靶向序列具有20个核苷酸。

96.根据权利要求93至95中任一项所述的gNA变体，其中所述gNA为包含与所述靶向序列连接的支架序列的单引导gNA。

97.根据权利要求77至96中任一项所述的gNA变体，其中相对于SEQ ID NO:4或SEQ IDNO:5的参考gNA，所述CasX变体的所述改良特征中的一个或多个改良至少约1.1至约100倍或更大。

98.根据权利要求77至96中任一项所述的gNA变体，其中相对于SEQ ID NO:4或SEQ IDNO:5的参考gNA，所述gNA变体的所述改良特征中的一个或多个改良至少约1.1倍、至少约2倍、至少约10倍或至少约100倍或更大。

99.根据权利要求77至98中任一项所述的gNA变体，其包含与SEQ ID NO:4或SEQ IDNO:5具有至少60％序列一致性的支架区，不包括延伸茎区。

100.根据权利要求77至98中任一项所述的gNA变体，其包含与SEQ ID NO:14具有至少60％序列一致性的支架茎环。

101.根据权利要求100所述的gNA变体，其包含CCAGCGACUAUGUCGUAGUGG(SEQ ID NO:245)的支架茎环序列。

102.根据权利要求77至101中任一项所述的gNA变体，其中所述gNA变异序列的所述支架与SEQ ID NO:4或SEQ ID NO:5的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、或至少70％、至少80％、至少85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、或至少约99％一致性。

103.根据权利要求77至101中任一项所述的gNA变体，其中所述gNA变异序列的所述支架包含选自以下的组的序列：SEQ ID NO:2101-2280，或与其具有至少约80％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％一致性的序列。

104.根据权利要求103所述的gNA变体，其中所述gNA变异序列的所述支架由选自序列SEQ ID NO:2101-2280的组的序列组成。

105.根据权利要求77至104中任一项所述的gNA变体，其进一步包含一种或多种核糖核酸酶。

106.根据权利要求105所述的gNA变体，其中所述一种或多种核糖核酸酶独立地与所述gNA变体的末端融合。

107.根据权利要求105或106所述的gNA变体，其中所述一种或多种核糖核酸酶中的至少一者为肝炎δ病毒(HDV)核糖核酸酶、锤头核糖核酸酶(hammerhead ribozyme)、手枪核糖核酸酶(pistolribozyme)、手斧核糖核酸酶(hatchet ribozyme)或烟草环斑病毒(TRSV)核糖核酸酶。

108.根据权利要求77至107中任一项所述的gNA变体，其进一步包含蛋白质结合基序。

109.根据权利要求77至108中任一项所述的gNA变体，其进一步包含热稳定茎环。

110.根据权利要求77至109中任一项所述的gNA变体，其中所述gNA经化学修饰。

111.根据权利要求77至110中任一项所述的gNA变体，其中所述gNA包含来自第一gNA的第一区域和来自与所述第一gNA不同的第二gNA的第二区域。

112.根据权利要求111所述的gNA变体，其中所述第一区域选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

113.根据权利要求111或112所述的gNA变体，其中所述第二区域选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

114.根据权利要求111至113中任一项所述的gNA变体，其中所述第一区域和所述第二区域不为相同区域。

115.根据权利要求111至113中任一项所述的gNA变体，其中所述第一gNA包含SEQ IDNO:4的序列，且所述第二gNA包含SEQ ID NO:5的序列。

116.根据权利要求77至115中任一项所述的gNA变体，其包含至少一个嵌合区，所述至少一个嵌合区包含来自第一gNA的第一部分和来自第二gNA的第二部分。

117.根据权利要求116所述的gNA变体，其中所述至少一个嵌合区选自由以下组成的组：三螺旋区、支架茎环和延伸茎环。

118.据权利要求77所述的gNA变体，其包含SEQ ID NO:2101-2280中的任一个的序列。

119.根据权利要求77所述的gNA变体，其包含SEQ ID NO:2236、2237、2238、2241、2244、2248、2249或2259-2280中的任一个的序列。

120.一种基因编辑对，其包含CasX蛋白和第一gNA。

121.根据权利要求120所述的基因编辑对，其中所述CasX和所述gNA能够在核糖核蛋白复合物(RNP)中结合在一起。

122.根据权利要求120所述的基因编辑对，其中所述CasX和所述gNA在核糖核蛋白复合物(RNP)中结合在一起。

123.根据权利要求120至122中任一项所述的基因编辑对，其中所述第一gNA包含：

a.根据权利要求93至119中任一项所述的gNA变体；或

b.SEQ ID NO:4或5的参考引导核酸和靶向序列，其中所述靶向序列与所述目标DNA互补。

124.根据权利要求120至123中任一项所述的基因编辑对，其中所述CasX包含：

a.根据权利要求1至76中任一项所述的CasX变体；或

b.SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白。

125.根据权利要求120至124中任一项所述的基因编辑对，其中所述第一gNA包含：

a.根据权利要求93至119中任一项所述的gNA变体；和

b.根据权利要求1至76中任一项所述的CasX变体。

126.根据权利要求125所述的基因编辑对，其中相比于包含SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的参考CasX蛋白和SEQ ID NO:4或5的参考引导核酸的基因编辑对，所述CasX变体和所述gNA变体的所述基因编辑对具有一种或多种改良特征。

127.根据权利要求126所述的基因编辑对，其中所述一种或多种改良特征包含改良CasX:gNA(RNP)复合物稳定性、改良CasX与gNA之间的结合亲和力、改良RNP复合物形成的动力学、较高百分比的裂解胜任型RNP、改良RNP与目标DNA的结合亲和力、利用增大范围的PAM序列的能力、改良所述目标DNA的解旋性、增加编辑活性、改良编辑效率、改良编辑特异性、增加核酸酶活性、增加用于双股裂解的目标股负载、减少用于单股切割的目标股负载、减少脱靶裂解、改良DNA的非目标股的结合性、或改良核酸酶活性抗性。

128.根据权利要求126或127所述的基因编辑对，其中相对于所述参考CasX蛋白和所述参考引导核酸的基因编辑对，所述改良特征中的至少一或多者改良至少约1.1至约100倍或更大。

129.根据权利要求126或127所述的基因编辑对，其中相对于所述参考CasX蛋白和所述参考引导核酸的基因编辑对，所述CasX变体的所述改良特征中的一个或多个改良至少约1.1倍、至少约2倍、至少约10倍或至少约100倍或更大。

130.根据权利要求126或127所述的基因编辑对，其中相比于SEQ ID NO:2和SEQ IDNO:5的参考编辑对，所述改良特征包含编辑活性提高4至9倍。

131.根据权利要求130所述的基因编辑对，其包含选自SEQ ID NO:270、SEQ ID NO:292、SEQ ID NO:311、SEQ ID NO:333、SEQ ID NO:336、SEQ ID NO:3498-3501、SEQ ID NO:3505-3520和SEQ ID NO:3540-3549中的任一个的CasX和选自SEQ ID NO:2104、2106或2238中的任一个的gNA。

132.一种包含根据权利要求120至131中任一项所述的基因编辑对的组合物，其进一步包含：

a.包含根据权利要求1至76中任一项所述的CasX变体或SEQ ID NO:1-3中的任一个的参考CasX蛋白的第二基因编辑对；和

b.根据权利要求77至119中任一项所述的第二gNA变体或第二参考引导核酸，其中相比于第一gNA的靶向序列，所述第二gNA变体或所述第二参考引导核酸具有与目标DNA的不同或重叠部分互补的靶向序列。

133.根据权利要求120至132中任一项所述的基因编辑对，其中相比于参考CasX蛋白和参考引导核酸的RNP，所述CasX变体和所述gNA变体的RNP具有较高百分比的裂解胜任型RNP。

134.根据权利要求120至133中任一项所述的基因编辑对，其中所述RNP能够结合和裂解目标DNA。

135.根据权利要求120至132中任一项所述的基因编辑对，其中所述RNP能够结合目标DNA，但不能够裂解目标DNA。

136.根据权利要求120至132中任一项所述的基因编辑对，其中所述RNP能够结合目标DNA且在所述目标DNA中产生一个或多个单股切口。

137.一种编辑目标DNA的方法，其包含使所述目标DNA与根据权利要求120至136中任一项所述的基因编辑对接触，其中所述接触造成所述目标DNA的编辑或修饰。

138.根据权利要求137所述的方法，其包含使所述目标DNA与复数个gNA接触，所述复数个gNA包含与所述目标DNA的不同或重叠区域互补的靶向序列。

139.根据权利要求137或138所述的方法，其中通过基因编辑对的所述接触包含结合所述目标DNA和造成在所述目标DNA中引入突变、插入或缺失。

140.根据权利要求137或138所述的方法，其中所述接触在所述目标DNA中引入一个或多个单股断裂，且其中所述编辑包含在所述目标DNA中引入突变、插入或缺失。

141.根据权利要求137或138所述的方法，其中所述接触包含在所述目标DNA中引入一个或多个双股断裂，且其中所述编辑包含在所述目标DNA中引入突变、插入或缺失。

142.根据权利要求140或141所述的方法，其进一步包含使所述目标DNA与供体模板核酸的核苷酸序列接触，其中所述供体模板包含与所述目标DNA具有同源性的核苷酸序列。

143.根据权利要求142所述的方法，其中所述供体模板在所述供体模板的5'和3'端上包含同源臂。

144.根据权利要求142或143所述的方法，其中所述供体模板通过同源定向修复，在断裂位点处插入所述目标DNA中。

145.根据权利要求142或143所述的方法，其中所述供体模板通过非同源末端连接(NHEJ)或微同源性末端连接(MMEJ)，在断裂位点处插入所述目标DNA中。

146.根据权利要求137至144中任一项所述的方法，其中在体外在细胞外部发生编辑。

147.根据权利要求137至144中任一项所述的方法，其中在体外在细胞内部发生编辑。

148.根据权利要求137至144中任一项所述的方法，其中在体内在细胞内部发生编辑。

149.根据权利要求147或148所述的方法，其中所述细胞为真核细胞。

150.根据权利要求149所述的方法，其中所述真核细胞选自由以下组成的组：植物细胞、真菌细胞、原生生物细胞、哺乳动物细胞、爬虫细胞、昆虫细胞、禽类细胞、鱼类细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞和非人类灵长类动物细胞。

151.根据权利要求149所述的方法，其中所述真核细胞为人类细胞。

152.根据权利要求151所述的方法，其中所述细胞为胚胎干细胞、诱导多能干细胞、生殖细胞、成纤维细胞、寡树突神经胶质细胞、胶细胞、造血干细胞、神经元组细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、视网膜细胞、癌细胞、T细胞、B细胞、NK细胞、胎儿心肌细胞、肌成纤维细胞、间充质干细胞、自体移植扩增心肌细胞、脂肪细胞、分化全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间叶细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生的组细胞、心肌细胞、骨胳细胞、胎儿细胞、未分化细胞、多潜能组细胞、单潜能组细胞、单核细胞、心成肌细胞、骨胳成肌细胞、巨噬细胞、毛细管内皮细胞、异种细胞、同种异体细胞或产后干细胞。

153.根据权利要求151或152所述的方法，其中所述细胞在个体中。

154.根据权利要求153所述的方法，其中在基因的等位基因中具有突变的个体中发生编辑，其中所述突变引起所述个体的疾病或病症。

155.根据权利要求154所述的方法，其中所述编辑改变对所述基因的野生型等位基因的突变。

156.根据权利要求154所述的方法，其中所述编辑敲落或敲除引起所述个体的疾病或病症的基因的等位基因。

157.根据权利要求151所述的方法，其中在将所述细胞引入至个体中之前，在体外所述细胞内部发生编辑。

158.根据权利要求157所述的方法，其中所述细胞为自体或同种异体。

159.根据权利要求147至151中任一项所述的方法，其中相比于类似分析系统中包含参考CasX蛋白的RNP的编辑效率，当所述PAM序列TTC、ATC、GTC或CTC中的任一个位于与细胞分析系统中的所述gNA的靶向序列具有一致性的前间隔子的非目标股的5'为1个核苷酸时，在含有包含所述CasX变体的RNP的细胞分析系统中实现所述目标DNA中目标序列的较大编辑。

160.根据权利要求149至159中任一项所述的方法，其中所述方法包含使所述真核细胞与编码或包含CasX蛋白和所述gNA，且任选地进一步包含所述供体模板的载体接触。

161.根据权利要求160所述的方法，其中所述载体为腺相关病毒(AAV)载体。

162.根据权利要求161所述的方法，其中所述AAV为AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。

163.根据权利要求160所述的方法，其中所述载体为慢病毒载体。

164.根据权利要求160所述的方法，其中所述载体为非病毒粒子。

165.根据权利要求160所述的方法，其中所述载体为病毒样粒子(VLP)。

166.根据权利要求160至164中任一项所述的方法，其中所述载体使用治疗有效剂量向有需要的个体施用。

167.根据权利要求164所述的方法，其中所述个体选自由以下组成的组：小鼠、大鼠、猪和非人类灵长类动物。

168.根据权利要求166所述的方法，其中所述个体为人类。

169.根据权利要求166至168中任一项所述的方法，其中所述载体以至少约1×10⁹个载体基因组(vg)、至少约1×10¹⁰vg、至少约1×10¹¹vg、至少约1×10¹²vg、至少约1×10¹³vg、至少约1×10¹⁴vg、至少约1×10¹⁵vg或至少约1×10¹⁶vg的剂量施用。

170.根据权利要求166至169中任一项所述的方法，其中所述载体通过选自由以下组成的组的施用途径施用：脑实质内、静脉内、动脉内、脑室内、脑池内、鞘内、颅内和腹膜内途径。

171.根据权利要求147所述的方法，其中所述细胞为原核细胞。

172.一种细胞，其包含通过根据权利要求120至136中任一项所述的基因编辑对或组合物编辑的目标DNA。

173.一种细胞，其通过根据权利要求137至165中任一项所述的方法编辑。

174.根据权利要求172或173所述的细胞，其中所述细胞为原核细胞。

175.根据权利要求172或173所述的细胞，其中所述细胞为真核细胞。

176.根据权利要求175所述的细胞，其中所述真核细胞选自由以下组成的组：植物细胞、真菌细胞、原生生物细胞、哺乳动物细胞、爬虫细胞、昆虫细胞、禽类细胞、鱼类细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞和非人类灵长类动物。

177.根据权利要求175所述的细胞，其中所述真核细胞为人类细胞。

178.一种聚核苷酸，其编码根据权利要求1至76中任一项所述的CasX变体。

179.一种聚核苷酸，其编码根据权利要求77至119中任一项所述的gNA变体。

180.一种载体，其包含根据权利要求178或179所述的聚核苷酸。

181.一种载体，其包含编码根据权利要求1至76中任一项所述的CasX变体和根据权利要求77至119中任一项所述的gNA变体。

182.根据权利要求180所述的载体，其中所述载体为腺相关病毒(AAV)载体。

183.根据权利要求182所述的载体，其中所述AAV为AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV-Rh74或AAVRh10。

184.根据权利要求180所述的载体，其中所述载体为慢病毒载体。

185.根据权利要求180所述的载体，其中所述载体为病毒样粒子(VLP)。

186.根据权利要求180所述的载体，其中所述载体为非病毒粒子。

187.一种细胞，其包含根据权利要求178所述的聚核苷酸，或根据权利要求180至186中任一项所述的载体。

188.一种组合物，其包含根据权利要求1至76中任一项所述的CasX变体。

189.根据权利要求188所述的组合物，其进一步包含：

a.根据权利要求77至119中任一项所述的gNA变体，或

b.SEQ ID NO:4或5的参考引导支架和靶向序列。

190.根据权利要求188或189所述的组合物，其中所述CasX蛋白和所述gNA在核糖核蛋白复合物(RNP)中结合在一起。

191.根据权利要求188至190中任一项所述的组合物，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

192.根据权利要求188至191中任一项所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

193.一种组合物，其包含根据权利要求77至119中任一项所述的gNA变体。

194.根据权利要求193所述的组合物，其进一步包含根据权利要求1至76中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

195.根据权利要求194所述的组合物，其中所述CasX蛋白和所述gNA在核糖核蛋白复合物(RNP)中结合在一起。

196.根据权利要求193至195中任一项所述的组合物，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

197.根据权利要求193至196中任一项所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

198.一种组合物，其包含根据权利要求120至136中任一项所述的基因编辑对。

199.根据权利要求198所述的组合物，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

200.根据权利要求198或199所述的组合物，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

201.一种试剂盒，其包含根据权利要求1至76中任一项所述的CasX变体和容器。

202.根据权利要求201所述的试剂盒，其进一步包含：

a.根据权利要求93至119中任一项所述的gNA变体，或

b.SEQ ID NO:4或5的参考引导RNA和靶向序列。

203.根据权利要求201或202所述的试剂盒，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA的目标序列具有同源性的核苷酸序列。

204.根据权利要求201至203中任一项所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

205.一种试剂盒，其包含根据权利要求77至119中任一项所述的gNA变体。

206.根据权利要求205所述的试剂盒，其进一步包含根据权利要求1至76中任一项所述的CasX变体，或SEQ ID NO:1、SEQ ID NO:2或SEQ ID NO:3的CasX蛋白。

207.根据权利要求205或206所述的试剂盒，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA的目标序列具有同源性的核苷酸序列。

208.根据权利要求205至207中任一项所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

209.一种试剂盒，其包含根据权利要求120至136中任一项所述的基因编辑对或组合物。

210.根据权利要求209所述的试剂盒，其进一步包含供体模板核酸，其中所述供体模板包含与目标DNA具有同源性的核苷酸序列。

211.根据权利要求209或210所述的试剂盒，其进一步包含缓冲剂、核酸酶抑制剂、蛋白酶抑制剂、脂质体、治疗剂、标记、标记显色剂、或前述的任何组合。

212.一种CasX变体，其包含表3中所列的任一序列。

213.一种gNA变体，其包含表2中所列的任一序列。

214.根据权利要求213所述的gNA变体，其进一步包含与目标DNA互补的至少10至30个核苷酸的靶向序列。

215.根据权利要求214所述的gNA变体，其中所述靶向序列具有20个核苷酸。

216.根据权利要求214所述的gNA变体，其中所述靶向序列具有19个核苷酸。

217.根据权利要求214所述的gNA变体，其中所述靶向序列具有18个核苷酸。

218.根据权利要求214所述的gNA变体，其中所述靶向序列具有17个核苷酸。

219.一种CasX变体，其包含SEQ ID NO:2的取代L379R和A708K，和P793的缺失。

220.一种gNA变体，其包含ACUGGCGCUUUUAUCUGAUUACUUUGAGAGCCAUCACCAGCGACUAUGUCGUAGUGGGUAAAGCUCCCUCUUCGGAGGGAGCAUCAAAG(SEQ ID NO:2238)的序列。

221.一种基因编辑对或组合物，其包含根据权利要求120至136中任一项所述的基因编辑对或组合物或根据权利要求180至186中任一项所述的载体，用作药剂。

222.一种基因编辑对或组合物，其包含根据权利要求120至136中任一项所述的基因编辑对或组合物或根据权利要求180至186中任一项所述的载体，用于治疗方法，其中所述方法包含编辑或修饰目标DNA；任选地其中所述编辑发生于在基因的等位基因中具有突变的个体中，其中所述突变引起所述个体的疾病或病症，优选其中所述编辑改变针对所述基因的野生型等位基因的突变，或敲落或敲除引起所述个体的疾病或病症的基因的等位基因。