CN116804190A

CN116804190A - SlugCas9突变体蛋白及其相关应用

Info

Publication number: CN116804190A
Application number: CN202310692499.6A
Authority: CN
Inventors: 王永明; 齐涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-26

Abstract

本发明涉及基因编辑技术领域，具体地涉及一种Slug突变体蛋白、包括其的CRISPR/Cas9基因编辑系统、及其应用。更具体地，本发明的SlugCas9突变体蛋白与单链向导RNA形成的复合体，较野生型SlugCas9复合体的PAM更简单，具有更大的靶向范围，能够精确地定位靶向DNA序列并产生切割，使所述靶序列发生双链断裂损伤，具有高的特异性，能够降低细胞中或体外进行基因编辑的脱靶率，具有广泛的应用前景。

Description

SlugCas9突变体蛋白及其相关应用

技术领域

本发明涉及基因编辑技术领域，具体地涉及一种SlugCas9突变体蛋白、包含其的CRISPR/Cas9基因编辑系统、以及用于基因编辑的相关应用。

背景技术

CRISPR/Cas9系统是细菌和古细菌为抵御外源病毒或质粒入侵而进化的一种获得性免疫系统。CRISPR/Cas9系统含有tracrRNA(trans-activating RNA)和crRNA(CRISPR-derived RNA)，它们与Cas9共同形成复合物发挥功能。tracrRNA和crRNA通过连接序列可以融合成为单链向导RNA(single guide RNA，sgRNA)。当DNA发生断裂损伤后，细胞内的两种主要DNA损伤修复机制负责修复：非同源末端连接(Non-homologous end-joining，NHEJ)和同源重组(homologous recombination，HR)。NHEJ修复的结果会引起碱基的缺失或插入，可以进行基因敲除；在提供同源模板的情况下，利用HR修复可以进行基因的定点插入和碱基的精确替换。

CRISPR/Cas9系统可以靶向3’端具有原间隔邻近序列(PAM)的靶位点序列，CRISPR/Cas9系统的PAM需求越简单，CRISPR/Cas9系统的靶向范围越大。

除了基础科研外，CRISPR/Cas9基因编辑系统还具有广泛的临床应用前景。利用CRISPR/Cas9基因编辑系统做基因治疗时，另一个关键问题是脱靶问题。脱靶可能会破坏正常基因，导致癌症。大多数CRISPR/Cas9都存在脱靶效应。

因此，需要开发一种PAM需求更加简单、且具有更高特异性的CRISPR/Cas9系统，以扩大基因编辑的范围，减少脱靶的发生，增加基因编辑的安全性。

发明内容

本发明人通过反复研究，找到了与野生型SlugCas9蛋白的PAM识别、靶向特异性及切割活性相关的突变位点，由此获得了一系列的SlugCas9突变体蛋白，它们都能与单链向导RNA构成有效地进行基因编辑的切割特异性提高的CRISPR/Cas9基因编辑系统，由此完成了本发明。

综上，在本发明的第一方面，提供了一种SlugCas9突变体蛋白，所述SlugCas9突变体蛋白包含对应于野生型SlugCas9蛋白的Q782、S888、L906、N984、E1012和K1016中的一个或多个氨基酸残基处的突变。

在第二方面，本发明提供了一种缀合物，所述缀合物包含：

a)第一方面所述的SlugCas9突变体蛋白；

b)修饰部分；以及

c)任选的用于连接所述SlugCas9突变体蛋白与所述修饰部分的接头。

在第三方面，本发明提供了一种融合蛋白，所述融合蛋白包含：

a)第一方面所述的SlugCas9突变体蛋白；

b)另外的蛋白和多肽；以及

c)任选的用于连接所述SlugCas9突变体蛋白与所述另外的蛋白和多肽的接头。

在第四方面，本发明提供了一种分离的核酸分子，包含编码以下的核酸序列：

a)第一方面所述的SlugCas9突变体蛋白；

b)第二方面所述的缀合物；或者

c)第三方面所述的融合蛋白。

在第五方面，本发明提供了一种载体，包含编码以下的核酸序列：

a)第一方面所述的SlugCas9突变体蛋白；

b)第二方面所述的缀合物；或者

c)第三方面所述的融合蛋白。

在第六方面，本发明提供了一种CRISPR/Cas9基因编辑系统，其包含：

1)蛋白组分，其包含：

a)第一方面所述的SlugCas9突变体蛋白；

b)第二方面所述的缀合物；或者

c)第三方面所述的融合蛋白；

以及

2)单链向导RNA，其中，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；

并且，所述蛋白组分和所述单链向导RNA相互结合形成复合物。

在第七方面，本发明提供了一种细胞，所述细胞包含：第四方面所述的分离的核酸分子、或者第五方面所述的载体。

在第八方面，本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括：使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触：

(1)第一方面所述的SlugCas9突变体蛋白、第二方面所述的缀合物或者第三方面所述的融合蛋白，以及单链向导RNA；

(2)第四方面所述的分离的核酸分子；

(3)第五方面所述的载体；以及

(4)第六方面所述的CRISPR/Cas9基因编辑系统；

其中，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；

其中，所述SlugCas9突变体蛋白、所述缀合物或所述融合蛋白识别位于靶序列的3’端并且具有序列5’-NNGG或5’-NNG的原间隔邻近序列(PAM)。

在第九方面，本发明提供了一种试剂盒，所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑，包括：

a)选自以下(1)至(4)中的任一项：

(2)第四方面所述的分离的核酸分子；

(3)第五方面所述的载体；以及

(4)第六方面所述的CRISPR/Cas9基因编辑系统；

其中，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；以及

b)如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。

本发明的发明人在野生型SlugCas9蛋白(具有SEQ ID NO：1所示的氨基酸序列)的基础上开发出多种SlugCas9突变体蛋白，所述SlugCas9突变体蛋白包含对应于野生型SlugCas9蛋白的Q782、S888、L906、N984、E1012和K1016中的一个或多个氨基酸残基处的突变，由此具有更简单的PAM需求并表现出更低的脱靶率和更高的特异性。

本发明的SlugCas9突变体蛋白能够与sgRNA形成复合体进行基因编辑。相较于野生型SlugCas9，采用本发明的具有多个突变位点、尤其是至少两个突变位点的SlugCas9突变体蛋白的基因编辑工具，能够识别的PAM从野生型蛋白的NNGG变为NNG，由此具有更多的靶位点且更高的特异性。并且由于蛋白具有数量相对少的氨基酸，分子量小，可容易地被腺相关病毒等载体工具包装，非常适合后期作为基因治疗工具的开发。由此，本发明进一步拓展了基因编辑范围，在基因编辑领域中具有广泛的应用前景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1示出了包括野生型SlugCas9及本发明的突变体蛋白SlugCas9-N984S和SlugCas9-K1 0 16I的CRISPR/Cas9基因编辑系统的PAM需求。

图2示出了包括本发明的突变体蛋白SlugCas9-2mut(包括突变位点N984S和K1016I)、SlugCas9-5mut(包括突变位点Q782R、S888R、L906R、E1012K和K1016I)和SlugCas9-6mut(包括突变位点Q782R、S888R、L906R、N984S、E1012K和K1016I)的CRISPR/Cas9基因编辑系统的PAM需求。

图3示出了包括野生型SlugCas9及本发明的突变体蛋白SlugCas9-5mut的基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果比较的示意图。

图4示出了包括野生型SlugCas9及本发明的突变体蛋白SlugCas9-6mut的基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果比较的示意图。

图5示出了包括野生型SlugCas9及本发明的突变体蛋白SlugCas9-5mut或SlugCas9-6mut的基因编辑系统对多个靶位点的编辑效率结果。

具体实施方式

在下文中，将结合附图对本发明进行详细的描述。需理解，以下描述仅以示例方式来对本发明进行说明，而无意于对本发明的范围进行限制，本发明的保护范围以随附权利要求为准。并且，本领域技术人员理解，在不背离本发明的精神和主旨的情况下，可以对本发明的技术方案进行修改。若并未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。

定义

除非另外定义，否则本文所使用的所有技术和科学术语具有与本发明所述主题所属领域的普通技术人员通常理解的相同含义。在对本发明进行详细描述之前，提供以下定义以更好地理解本发明。

在提供数值范围的情况中，例如浓度范围、百分比范围或比率范围，应当理解，除非上下文另有明确规定，否则在该范围的上限与下限之间的、到下限单位的十分之一的各中间值以及在所述范围内的任何其他所述值或中间值包含在所述主题内。这些较小范围的上限和下限可独立地包括在较小范围中，并且此类实施方案也包括在所述主题内，受限于所述范围中的任何特定排除的极限值。在所述范围包括一个或两个极限值的情况中，排除那些所包括的极限值中的任一个或两个的范围也包括在所述主题中。

在本发明的上下文中，很多实施方案使用表述“包含”、“包括”或者“基本/主要由……组成”。表述“包含”、“包括”或“基本/主要由……组成”通常情况下可以理解为开放式表述，表示不仅包括该表述后面具体列出的各元素、组分、组件、方法步骤等外，还包括其他的元素、组分、组件、方法步骤。另外，在本文中，表述“包含”、“包括”或者“基本/主要由……组成”在某些情况下也可以理解为封闭式表述，表示仅包括该表述后面具体列出的各元素、组分、组件、方法步骤，而不包括任何其他的元素、组分、组件、方法步骤。此时，该表述等同于表述“由……组成”。

为了更好地理解本教导并且不限制本教导的范围，除非另外指出，否则在说明书和权利要求中使用的表示数量、百分比或比例的所有数字以及其他数值在所有情况下都应理解为由术语“约”进行修饰。因此，除非相反地指出，否则在以下说明书和所附权利要求书中阐述的数值参数为近似值，其可以根据寻求获得的所需性质而变化。至少，每个数值参数应该至少根据所报告的有效数字的数值并通过应用普通的舍入技术来进行解释。

本文中使用的术语“SlugCas9蛋白”、“Cas9”和“Cas”在本申请中可互换使用，指包括SlugCas9蛋白或其功能活性片段在内的RNA指导的核酸酶。SlugCas9蛋白是CRISPR/Cas9基因组编辑系统的蛋白组分，能在单链向导RNA(sgRNA)的指导下靶向并切割DNA靶序列，形成DNA双链断裂(DSB)。DNA双链断裂能够激活细胞内固有的修复机制非同源末端连接(non-homologousendjoining，NHEJ)和同源重组(homologous recombination，HR)，由此对细胞中的DNA损伤进行修复。在修复过程中，对该特定的DNA序列进行定点编辑。

本文中使用的术语“单链向导RNA(guide RNA)”、“gRNA”、“sgRNA(single guidedRNA)”或“成熟crRNA”在本申请中可互换使用并且具有本领域技术人员通常理解的含义。一般而言，单链向导RNA可以包含支架序列(scaffold sequence)和向导序列(guidesequence)，向导序列在本文中也称为向导RNA(guide RNA或gRNA)。在内源性CRISPR系统背景下，向导序列也称为间隔序列(spacer)。在某些情况下，向导序列是与靶序列具有足够相似性从而与所述靶序列杂交并引导CRISPR/Cas9复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中，当最佳比对时，向导序列与其相应靶序列之间的互补程度为至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、或至少99％。确定最佳比对在本领域的普通技术人员的能力范围内。例如，存在公开和可商购的比对算法和程序，诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。本文中所使用的术语“CRISPR/Cas9复合物”是指单链向导RNA(single guide RNA)或成熟crRNA与SlugCas9蛋白结合所形成的复合体，其包含与靶序列杂交并由此使SlugCas9蛋白与所述靶序列结合的向导序列。该复合体能够识别并切割能与该单链向导RNA杂交的多核苷酸。

因此，在形成CRISPR/Cas9复合物的情况下，“靶序列”是指被设计为具有靶向性的向导序列所靶向的多核苷酸，例如与该向导序列具有互补性的序列，其中靶序列与向导序列之间的杂交将促进CRISPR/Cas9复合物的形成。完全互补性不是必需的，只要存在足够互补性以引起杂交并且促进CRISPR/Cas9复合物的形成即可。靶序列可以包括任何多核苷酸，如DNA。在某些情况下，所述靶序列位于细胞的细胞核或细胞质中。在某些情况下，该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。

在本文中使用的术语“靶序列”或“靶多核苷酸”可以是对细胞(例如，真核细胞)而言任何内源或外源的多核苷酸。例如，该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如，蛋白质)的序列或一个非编码序列(例如，调节多核苷酸或无用DNA)。在某些情况下，该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求根据使用的Cas蛋白而不同，但是PAM典型地是临近原间隔序列(靶序列)的2-5个碱基序列。本领域技术人员能够鉴定与给定的Cas蛋白一起使用的PAM序列。

本文中使用的术语“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

在本发明使用的序列中，有时还使用简并碱基来表示其中的一个或者多个位置的碱基。简并碱基可以用字母R、Y、M、K、S、W、H、B、V、D、N表示，其中，R代表A/G，Y代表C/T，M代表A/C，K代表G/T，S代表C/G，W代表A/T，H代表A/T/C，B代表G/T/C，V代表G/A/C，D代表G/A/T，N代表A/T/C/G。

本文中使用的术语“多肽”、“肽”、和“蛋白(质)”在本申请中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，并且适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

本文中所使用的术语“载体”是指可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时，或者当载体能使得插入的多核苷酸发生转录(例如转录生成mRNA或功能RNA)时，载体称为表达载体。载体可以通过转化、转导或者转染而被导入宿主细胞，使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的，包括但不限于：质粒载体、病毒载体等。载体还可以含有多种调控表达的调控序列。“调控序列”和“调控元件”在本文中可互换使用，指位于编码序列的上游(5’非编码序列)、中间或下游(3’非编码序列)、并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可以包括但不限于启动子序列、转录起始序列、增强子序列、选择元件及报告基因等。所述调控序列可以是不同来源的，也可以是相同来源但以不同于通常天然存在的方式排列的。另外，载体还可含有复制起始位点。

本文中使用的术语“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

本文中使用的术语“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。

本文中使用的术语序列“同一性”、“一致性”或者“同源性”具有本领域公认的含义，并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列同一性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列同一性(参见，例如Computational Molecular Biology，Lesk，A.M.，ed.，Oxford University Press，NewYork，1988；Biocomputing：Informatics and Genome Projects，Smith，D.W.，ed.，Academic Press，New York，1993；Computer Analysis of Sequence Data，Part I，Griffin，A.M.，and Griffin，H.G.，eds.，Humana Press，New Jersey，1994；SequenceAnalysis in Molecular Biology，von Heinje，G.，Academic Press，1987；and SequenceAnalysis Primer，Gribskov，M.and Devereux，J.，eds.，M Stockton Press，New York，1991)。虽然存在许多测量两个多核苷酸或多肽之间的同一性的方法，但是术语“同一性”是技术人员公知的在肽或蛋白中适合于保守型氨基酸置换的，并且一般可以进行而不改变所得分子的生物活性。通常，本领域技术人员认识到多肽的非必需区中的单个氨基酸置换基本上不改变生物活性(参见例如Watson et al.，Molecular Biology of the Gene，4^thEdition，1987，The Benjamin/Cummings Pub.co.，p.224)。

本文中使用的术语“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。

本文中使用的术语“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

本文中使用的术语“互补性”是指一个核酸序列与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与另一个核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个之中有5、6、7、8、9、10个互补，则互补百分比为50％、60％、70％、80％、90％和100％)。“完全互补”表示一个核酸序列的所有连续残基与另一个核酸序列中的相同数目的连续残基均形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补程度，或者是指在严格条件下杂交的两个核酸。

本文中使用的与杂交相关的术语“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的，并且取决于许多因素。一般而言，该序列越长，则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于Tijssen，1993，Laboratory Techniquesin Biochemistry and Molecular Biology-Hybridization With Nucleic AcidProbes)，Section I，Chapter II，“Overview of principles of hybridization and thestrategy of nucleic acid probe assay”，Elsevier，纽约。

本文中使用的术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应，该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。

SlueCas9蛋白

在本发明的第一方面，提供了一种SlugCas9突变体蛋白，所述SlugCas9突变体蛋白包含对应于野生型SlugCas9蛋白的Q782、S888、L906、N984、E1012和K1016中的一个或多个氨基酸残基处的突变。

在本文中使用的野生型SlugCas9蛋白具有SEQ ID NO：1所示的氨基酸序列。

在一个具体的实施方案中，所述突变为选自Q782R、S888R、L906R、N984S、E1 012K和K1016I中的一个或者多个突变。

在又一个具体的实施方案中，所述突变为Q782R、S888R、L906R、N984S、E1012K或K1016I。

在又一个具体的实施方案中，所述SlugCas9突变体蛋白相对于野生型SlugCas9蛋白可以包括Q782R、S888R、L906R、N984S、E1012K和K1016I中的多个突变，例如两个、三个、四个、五个或六个突变。

本发明人发现，当本发明的SlugCas9突变体蛋白相对于野生型SlugCas9蛋白包括Q782R、S888R、L906R、N984S、E1012K或K1016I的点突变时，能够识别的PAM为NNGG，但出人意料的是，当本发明的SlugCas9突变体蛋白相对于野生型SlugCas9蛋白包括两个(如包括突变位点N984S和K1016I)或两个以上(如五个或六个)突变时，能够识别的PAM从野生型蛋白的NNGG变为NNG，由此具有更多的靶位点且更高的特异性。

因此，在一个优选的实施方案中，所述SlugCas9突变体蛋白相对于野生型SlugCas9蛋白可以包括Q782R、S888R、L906R、N984S、E1012K和K1016I中的至少两个突变。

在一个更优选的实施方案中，所述SlugCas9突变体蛋白相对于野生型SlugCas9蛋白可以包括N984S和K1016I的突变组合。

在一个进一步优选的实施方案中，所述SlugCas9突变体蛋白相对于野生型SlugCas9蛋白可以包括Q782R、S888R、L906R、E1012K和K1016I的突变组合，或包括Q782R、S888R、L906R、N984S、E1012K和K1016I的突变组合。

在一个进一步优选的实施方案中，所述SlugCas9突变体蛋白与野生型SlugCas9蛋白具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、甚至更高(如99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％、99.99％或99.999％)的序列一致性。

衍生化蛋白

可以对蛋白进行衍生化，例如将其连接至另外的分子(例如另外的蛋白或多肽)。通常，蛋白的衍生化(例如标记)不会不利地影响该蛋白的期望活性(例如，与单链向导RNA结合的活性、核酸内切酶活性、在向导RNA引导下与靶序列特定位点结合并切割的活性)。因此，本发明的SlugCas9突变体蛋白还意欲包括此类衍生化的形式。例如，可以将本发明的SlugCas9突变体蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子部分，例如另外的蛋白或多肽、可检测标记、药用试剂等。

特别地，可以将SlugCas9突变体蛋白连接其他功能性单元。例如，可以将其与核定位信号(NLS)序列连接，以提高本发明的蛋白进入细胞核的能力。例如，可以将其与靶向部分连接，以使得本发明的SlugCas9突变体蛋白具有靶向性。例如，可以将其与可检测标记连接，以便于对本发明的SlugCas9突变体蛋白进行检测。例如，可以将其与表位标签连接，以便于对本发明的SlugCas9突变体蛋白的表达、检测、示踪和/或纯化。

因此，在第二方面，本发明提供了一种缀合物，所述缀合物包含：

a)第一方面所述的SlugCas9突变体蛋白；

b)修饰部分；以及

可以理解，除了SlugCas9突变体蛋白自身外，还可以使SlugCas9突变体蛋白与其他物质例如其他蛋白或者可标记标签等结合从而赋予其他的功能性。

因此，在一个具体的实施方案中，所述修饰部分可以为另外的蛋白或多肽、可检测标记或其组合。

在一个进一步的实施方案中，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQl、胞嘧啶去甲基化酶Tetl、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSDl、和内切酶FokI中的一种或者多种。

表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。

报告蛋白是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

可检测标记是本领域技术人员熟知的，其实例包括荧光染料，例如异硫氰酸荧光素(FITC)或DAPI。

本发明的SlugCas9突变体蛋白可以通过接头与所述修饰部分偶联、缀合或融合，也可以不通过接头而直接地与所述修饰部分连接。接头是本领域熟知的，其实例可以包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。

a)第一方面所述的SlugCas9突变体蛋白；

b)另外的蛋白和多肽；以及

同本发明的第二方面一样，所述另外的蛋白或多肽可以选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tetl、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSDl、和内切酶FokI中的一种或者多种。

表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。报告蛋白是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

本发明的SlugCas9突变体蛋白可以通过接头与所述另外的蛋白或多肽偶联、缀合或融合，也可以不通过接头而直接地与所述另外的蛋白或多肽连接。接头是本领域熟知的，其实例包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。

本发明的SlugCas9突变体蛋白具有数量相对少的氨基酸，能够与sgRNA形成复合体进行精准的基因编辑，并且能够在真核细胞环境进行基因编辑。本发明人出乎意料地发现，相比野生型SlugCas9蛋白，包含本发明的具有多个突变位点的SlugCas9突变体蛋白的各基因编辑工具能够识别更加简单的PAM，即5’NNG，例如5’AGGA、5’GTGA、5’GCGT、5’CTGT、5’GTGC、5’GAGC、5’-GTGG或5’TGGG，且具有较高的编辑效率和特异性，并且因蛋白分子量小而能够容易地被腺相关病毒等载体工具包装，非常适合后期作为基因治疗工具的开发。本发明拓展了基因编辑范围，在基因编辑领域中具有广泛的应用前景。

编码核酸以及载体

a)第一方面所述的SlugCas9突变体蛋白；

b)第二方面所述的缀合物；或者

c)第三方面所述的融合蛋白。

在一个具体的实施方案中，所述分离的核酸分子还包含编码单链向导RNA的核酸序列，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列。

在一个进一步具体的实施方案中，所述支架序列可以为SEQ ID NO：2-4中任一个所示的核酸序列，但不限于此，只要能够与本发明的SlugCas9突变体蛋白联合使用发挥基因编辑功能或其他功能即可。

在一个进一步具体的实施方案中，所述CRISPR间隔序列为长度为15、16、17、18、19、20、21、22、23、24、25、26、27、28个核苷酸且能够与靶序列互补配对的序列。

在一个优选的实施方案中，所述CRISPR间隔序列为长度为21个核苷酸且能够与靶序列互补配对的序列。

在一个进一步具体的实施方案中，所述单链向导RNA在所述支架序列的3’端进一步包括终止子。作为示例，所述终止子可以为多个如至少六个(例如七个或者八个)U构成的终止子。

所述单链向导RNA能够与上述的SlugCas9突变体蛋白、缀合物或者融合蛋白结合而形成复合物，该复合物可以识别PAM序列(5’-NNGG或5’-NNG)并由此与靶序列结合，进而实现对靶序列的剪切或者说基因编辑。

在利用本领域已知的某些工具例如表达载体将本发明的分离的核酸分子转染到相应的细胞中后，本发明的分离的核酸分子可以表达出本发明上文所述的SlugCas9突变体蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA，并在此行使相应的功能，例如进行基因编辑。

另外，本发明的分离的核酸分子可以单独地/分别地表达SlugCas9蛋白、其缀合物或融合蛋白、以及单链向导RNA，也可以一体地表达所述的表达产物，选择何种表达方式根据具体情况而定。

再者，所述表达产物具有上文记载的相应作用和/或功能，为简洁起见在此不再赘述。

a)第一方面所述的SlugCas9突变体蛋白；

b)第二方面所述的缀合物；或者

c)第三方面所述的融合蛋白。

在一个具体的实施方案中，所述载体可以为表达载体，例如质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。

在又一个具体的实施方案中，所述载体还包含编码单链向导RNA的核酸序列，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列。

在一个进一步具体的实施方案中，所述支架序列可以为SEQ ID NO：2-4中任一个所示的核酸序列，但不限于此。

在一个进一步具体的实施方案中，所述CRISPR间隔序列为长度为15-28个核苷酸例如15、16、17、18、19、20、21、22、23、24、25、26、27、28个核苷酸且能够与靶序列互补配对的序列。

根据上文的记载可知，在将本发明的载体转染到细胞中后，在载体中克隆的编码序列可以被表达为SlugCas9突变体蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA，并在此行使相应的功能。例如进行基因编辑。

另外，可以将多种载体例如两种载体转染到细胞中，其中一种载体表达SlugCas9突变体蛋白、其缀合物或融合蛋白，而另一种载体表达单链向导RNA。随后，表达出来的SlugCas9突变体蛋白、其缀合物或融合蛋白与表达出来的单链向导RNA复合形成复合物，并在此行使相应的功能，例如进行基因编辑。

当然，也可以将编码SlugCas9突变体蛋白、其缀合物或融合蛋白的核酸序列以及编码单链向导RNA的核酸序列克隆到一个载体中，使得该载体转染到细胞内后表达所述SlugCas9突变体蛋白、其缀合物或融合蛋白以及所述单链向导RNA两者，并在此行使相应的功能，例如进行基因编辑。

CRISPR/Cas9基因编辑系统

1)蛋白组分，其包含：

a)第一方面所述的SlugCas9突变体蛋白；

b)第二方面所述的缀合物；或者

c)第三方面所述的融合蛋白；

以及

2)单链向导RNA，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；

在一个进一步具体的实施方案中，所述支架序列可以为SEQ ID NO：2-4中任一项所示的核酸序列，但不限于此。

本发明的CRISPR/Cas9基因编辑系统可以由本文所述的SlugCas9突变体蛋白、其缀合物或融合蛋白与单链向导RNA直接地构成，也可以本文所述的分离的核酸分子或载体表达得到的表达产物构成。本发明的CRISPR/Cas9基因编辑系统通过其中包含的SlugCas9突变体蛋白和单链向导RNA共同作用而实现对靶序列的识别、定位、切割和基因编辑。

本发明CRISPR/Cas9基因编辑系统能够精确定位靶序列。所谓“精确定位”有两层含义：第一层含义是指本发明的CRISPR/Cas9基因编辑系统自身能够识别并结合靶序列，第二层含义是指本发明的CRISPR/Cas9基因编辑系统能够将与所述SlugCas9突变体蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至靶序列的位置。

本发明的CRISPR/Cas9基因编辑系统对非靶序列具有低容忍度。在本文中，所谓“具有低容忍度”是指本发明的CRISPR/Cas9基因编辑系统基本上不能或者完全不能识别并结合非靶序列，或基本上不能或者完全不能将与所述SlugCas9突变体蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至非靶序列的位置。

本发明的CRISPR/Cas9基因编辑系统具有更大的基因编辑靶向范围。由于本发明中包括多个突变位点的SlugCas9突变体蛋白相比野生型SlugCas9蛋白所识别的PAM序列(5’-NNG)更加简单，因此可以靶向基因组中更多的DNA序列，进行拥有更广泛的靶向范围。

细胞

作为一个示例，所述细胞可以为原核细胞或者动物细胞。对于所述动物细胞，作为示例，其可以为哺乳动物细胞例如人类细胞。

方法

(2)第四方面所述的分离的核酸分子；

(3)第五方面所述的载体；以及

(4)第六方面所述的CRISPR/Cas9基因编辑系统；

其中，所述SlugCas9突变蛋白、所述缀合物或所述融合蛋白识别位于靶序列的3’端并且具有序列5’-NNG的原间隔邻近序列(PAM)。

在一个实施方案中，所述支架序列可以为SEQ ID NO：2-4中任一项所示的核酸序列，但不限于此。

在一个具体的实施方案中，所述PAM序列可以为5’AGGA、5’GTGA、5’GCGT、5’CTGT、5’GTGC、5’GAGC、5’-GTGG或5’-TGGG。

在一个具体的实施方案中，所述细胞为原核细胞或者动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞。

在又一个具体的实施方案中，所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种。例如，所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。

对于以上第(2)和(3)项，从上文给出的内容可以知晓，本发明第四方面所述的分离的核酸分子以及第五方面所述的载体，在一些情况下可以仅包含编码SlugCas9突变体蛋白或其缀合物或融合蛋白的核酸序列，在另一些情况下可以包含编码SlugCas9突变体蛋白或其缀合物或融合蛋白的核酸序列以及编码单链向导RNA的核酸序列。因此，视情况而定，所述分离的核酸分子或所述载体还可以进一步包含编码单链向导RNA的核酸序列。

此外，可以理解，此处的表述“包含编码单链向导RNA的核酸序列的分离的核酸分子”或“包含编码单链向导RNA的核酸序列的载体”中涉及到的单链向导RNA，既可以是包含SEQ ID NO：2-4中任一项所示支架序列的单链向导RNA，也可以是包含其他支架序列的单链向导RNA，只要能够与本发明的SlugCas9突变体蛋白联合使用发挥基因编辑功能或其他功能即可。

在又一个具体的实施方案中，在所述方法中，所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构，而与非靶序列形成不完全碱基互补配对结构。

在本文中，所述不完全碱基互补配对结构是指其中包括一部分碱基互补配对和一部分非碱基互补配对的结构，所述非碱基互补配对包括例如碱基错配(mismatch)和/或碱基凸出(bulge)等。

在一个进一步具体的实施方案中，所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配。

由此，本发明的SlugCas9突变体蛋白可以对所述靶序列上的靶位点进行切割，并且在SlugCas9突变体蛋白的切割作用下，靶序列发生双链断裂。进一步地，当所述方法在细胞内进行时，切割后的靶序列可以通过细胞内的非同源末端连接修复或同源重组修复途径进行修复，从而实现对靶序列的基因编辑。

在本发明的CRISPR/Cas9基因编辑系统以及采用该基因编辑系统的基因编辑方法中，本发明的SlugCas9突变体蛋白经实验发现其能与sgRNA形成复合体进行基因编辑，其含mismatch的向导RNA具有接近0％的容错率。因此，这些基因编辑系统可以高特异性地编辑靶基因，具有编辑效率高、脱靶率低的特点，可广泛应用于细胞中或者体外环境中的基因编辑。

试剂盒

a)选自以下(1)至(4)中的任一项：

(2)第四方面所述的分离的核酸分子；

(3)第五方面所述的载体；以及

(4)第六方面所述的CRISPR/Cas9基因编辑系统；

其中，所述单链向导RNA从5’端至3’端包括支架序列和CRISPR间隔序列；

以及

在一个具体的实施方案中，所述支架序列可以是SEQ ID NO：2-4中任一项所示的支架序列，但不限于此。

在一个进一步具体的实施方案中，所述CRISPR间隔序列可以为长度为15-28个核苷酸例如15、16、17、18、19、20、21、22、23、24、25、26、27、28个核苷酸且能够与靶序列互补配对的序列。

在一个优选的实施方案中，所述CRISPR间隔序列可以为长度为21个核苷酸且能够与靶序列互补配对的序列。

此外，可以理解，此处的表述“包含编码单链向导RNA的核酸序列的分离的核酸分子”或“包含编码单链向导RNA的核酸序列的载体”中涉及到的单链向导RNA，既可以是包含SEQ ID NO：2-4中任一项所示支架序列的单链向导RNA，也可以是包含其他支架序列的单链向导RNA。

当然，本领域技术人员可以理解，本发明试剂盒中还可以包含其他有助于进行基因编辑的试剂。

对本发明涉及序列的简单描述

SEQ ID NO：1：野生型SlugCas9蛋白序列；

SEQ ID NO：2：SaCas9_sgRNA支架序列；

SEQ ID NO：3：SlugCas9_sgRNA支架序列；

SEQ ID NO：4：Modified_SlugCas9_sgRNA支架序列；

SEQ ID NO：5：SlugCas9表达质粒的构建的DNA片段1；

SEQ ID NO：6：Sa_sgRNA fragment的序列。

实施例

现参照下列意在举例说明而非限定本发明的实施例来描述本发明。本领域技术人员知晓，在此提供实施例仅出于详细描述本发明之目的，无意于限制本发明所要求保护的范围。

除非特别指明，否则基本按照本领域内熟知的以及在各参考文献中描述的常规方法进行实施例中描述的实验和方法。另外，对于实施例中未注明具体条件者，均按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1：

(1)SlugCas9表达质粒的构建

以pCMV_ABEmax_P2A_GFP质粒(Addgene平台，catalog为#112101)和SlugCas9质粒(Addgene平台，catalog为#163793)为模板(Addgene平台，catalog为#52963)，通过PCR扩增SlugCas9质粒上的785-3943bp的序列(SlugCas9序列，PCR片段1)和pCMV_ABEmax_P2A_GFP质粒上的866-4357bp的序列(除去ABEmax、P2A和eGFP的部分，PCR片段2)，并委托上海华津生物科技有限公司公司合成具有SEQ ID NO：5所示核苷酸序列的DNA片段1(该片段包含一个BPSV40 NLS、P2A和Puro)。PCR引物如表1所示。

表1：构建SlugCas9表达质粒的PCR引物

PCR扩增反应体系如下：

PCR运行程序如下：

PCR产物在1％琼脂糖凝胶上以120V电压电泳30min，用胶回收试剂盒依据厂家提供的步骤，纯化得到目的DNA片段，用NanoDrop^TM Lite分光光度计(Thermo Scientific)测定DNA浓度，使用HiFi DNA Assembly(NEB)同源重组试剂盒，采用以下反应体系和反应条件对上述3个片段进行重组连接。

反应体系如下：

反应条件如下：

取3μL连接产物加到100μL大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中，冰上孵育30min，42℃热激1min，冰上孵育2min，加入900μL LB培养基，于37℃培养1小时。5000转/分钟离心1分钟，保留100μL左右菌液涂布在含有氨苄青霉素的LB固体平板上，在37℃培养箱倒置培养16小时，挑单克隆进行Sanger测序验证。

将测序验证连接正确的克隆摇菌，提取质粒，即得到SlugCas9表达质粒，备用或置于-20℃进行长期保存。

(2)SlugCas9突变体表达质粒的构建

以SlugCas9表达质粒为模板对多个位点进行组合PCR反应，可获得包含不同点突变的SlugCas9突变体表达质粒，PCR引物序列见表2。

表2：构建SlugCas9突变体表达质粒的PCR引物

注：下划线且加粗位置为突变碱基

PCR扩增反应体系如下：

/>

PCR运行程序如下：

PCR产物依次进行跑胶、纯化、浓度测定、同源重组连接(单次重组片段最多为3个)、DH5α转化、单克隆测序鉴定和质粒提取保存，具体步骤同(1)中SlugCas9表达质粒的构建，由此得到SlugCas9突变体表达质粒，即SlugCas9-N984S表达质粒、SlugCas9-K1016I表达质粒、SlugCas9-2mut表达质粒(包括突变位点N984S和K1016I)、SlugCas9-5mut表达质粒(包括突变位点Q782R、S888R、L906R、E1012K和K1016I)和SlugCas9-6mut表达质粒(包括突变位点Q782R、S888R、L906R、N984S、E1012K和K1016I)。

(3)mU6-Sa trac质粒的构建及线性化载体制备

通过PCR扩增pBluescript II SK(-)vector(NovoPro公司，产品编号：V012543)682-649bp的序列，并将其与合成的具有SEQ ID NO：6所示核苷酸序列的DNA片段Sa_sgRNAfragment通过同源重组的方式进行连接。引物序列见下表3：

表3：构建mU6-Sa_trac质粒的PCR引物

PCR扩增反应体系如下：

PCR运行程序如下：

PCR产物依次进行跑胶、纯化、浓度测定、与Sa_sgRNA fragment同源重组连接、DH5α转化、单克隆测序鉴定和质粒提取，具体步骤同(1)中SlugCas9表达质粒的构建。最终获得mU6-Sa_trac质粒，备用或-20℃保存。

通过以下反应体系和反应条件，使用购自NEB的BbsI-HF切割mU6-Sa_trac质粒。

反应体系如下：

反应条件如下：

酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。从琼脂糖凝胶上切下3355bpDNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱，得到线性化片段mU6-Sa_trac_BbsI。

将回收的线性化片段mU6-Sa_trac_BbsI用NanoDrop^TM Lite分光光度计(ThermoScientific)测定DNA浓度，备用或置于-20℃保存。之后描述中所有sgRNA表达质粒的构建中均使用该线性化片段。

(4)sgRNA表达质粒的构建(sgRNA-PAM质粒)

设计靶位点的gRNA的序列，其对应的寡核苷酸单链DNA序列如下表4所示。

表4：gRNA的寡核苷酸单链DNA序列

将oligo-F和oligo-R进行退火。退火反应体系为：1μL 100μM oligo-F、1μL 100μMoligo-R、28μL水。将该退火体系震荡混匀后，放置于PCR仪中运行退火程序；退火程序如下：

95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。

退火后，将所得的产物通过粘性末端瞬时连接酶(购于NEB公司)与线性化片段mU6-Sa_trac_BbsI通过以下反应体系和反应条件进行连接。

反应体系如下：

/>

反应条件如下：

取3μL连接产物转化至100μL DH5α感受态细胞，随后进行挑单克隆、测序鉴定和提取质粒，即可得到sgRNA-PAM质粒，备用或置于-20℃保存。

(5)SlugCas9表达质粒及SlugCas9突变体表达质粒的转染与基因编辑

将(1)和(2)中所得的SlugCas9表达质粒和SlugCas9突变体表达质粒(即SlugCas9-N984S表达质粒、SlugCas9-K1016I表达质粒、SlugCas9-2mut表达质粒、SlugCas9-5mut表达质粒或SlugCas9-6mut表达质粒)分别与sgRNA-PAM质粒通过聚乙烯亚胺(简称PEI，购于polysciences公司)共转染至含有靶序列(GGCTCGGAGATCATCATTGCG)的GFP报告细胞系文库中。

所述含有靶序列的GFP报告细胞系文库是通过下述方式获得的：首先将一段包含CMV启动子和GFP基因的DNA片段利用慢病毒感染的方式插入到HEK293T细胞系的基因组中。在该DNA片段中，起始密码子(ATG)和GFP编码序列之间有一段非3倍数的DNA序列，导致GFP移码突变无法正常产生荧光。基因编辑会使这段非3倍数的DNA序列产生插入或者缺失，使得一部分细胞中的移码突变得到修复，GFP正常表达。在该细胞文库中，起始密码子和GFP编码序列之间的插入序列为5’-GAACGGCTCGGAGATCATCATTGCGNNNNNNN-3’。通过分析阳性细胞中7个连续“N”的序列组成，可以获得SlugCas9及其突变体蛋白的PAM识别序列。

上述转染过程包括如下步骤：

第0天，根据转染所需，将含有靶序列的GFP报告系统HEK293T细胞系在10cm平皿中进行铺板，使其在转染时达到70％汇合度。该GFP报告细胞系文库中包含CMV-ATG-targetsite-NNNNNNN-GFP的核苷酸序列，其中靶位点(target site)的序列为GGCTCGGAGATCATCATTGCG。

第1天，进行转染，转染过程如下：分别取10μgSlugCas9表达质粒或SlugCas9突变体表达质粒与5μg sgRNA-PAM质粒加入500μL Opti-MEM培养基(购于Gibco公司)中，吹打混匀。

将PEI轻弹混匀，吸取15μL PEI加入500μL Opti-MEM培养基中，轻轻混匀，室温静置5min。

将经稀释的质粒和经稀释的转染试剂进行混合，振荡混匀，得到的混合液室温静置15min，然后加入到GFP报告细胞系文库的培养基中，并将其置于37℃、5％CO₂培养箱中继续培养。

转染5天后，使用MoFlo XDP分选仪分选GFP阳性细胞。将分选后的细胞继续放入37℃、5％CO₂培养箱中培养5天。

之后收集细胞，使用DNA试剂盒(天根生化科技(北京)有限公司，DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。

(6)二代测序文库的制备

提取后的基因组DNA通过两轮PCR建库，引物序列如下表5所示。

表5：两轮PCR建库的引物序列

一轮PCR反应体系如下：

一轮PCR运行程序如下：

二轮PCR反应体系如下：

二轮PCR运行程序如下：

将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤，纯化得到300-400bp的DNA片段，由此，二代测序文库制备完毕。

(7)二代测序结果的分析

将制备好的二代测序文库在高通量测序仪HiseqXTen(Illumina)上进行双端测序。

通过对二代测序数据进行分析，获得SlugCas9蛋白及其突变体蛋白的PAM识别序列。结果如图1和图2所示，5种突变体蛋白的PAM识别序列均发生改变，其中SlugCas9-2mut、SlugCas9-5mut和SlugCas9-6mut的PAM识别序列为NNG，而不是SlugCas9的NNGG，这表明本发明的具有至少2个突变位点的SlugCas9突变体蛋白可以靶向更多种靶序列。

实施例2

(1)sgRNA-on/off-target质粒的构建

设计on/offtarget gRNA的序列，其对应的寡核苷酸单链DNA如下表6所示。

退火后，将所得的产物通过粘性末端瞬时连接酶(购于NEB公司)与线性化片段mU6-Sa_trac_BbsI进行连接。

反应体系如下：

反应条件如下：

取3μL连接产物转化至100μLDH5α感受态细胞，随后进行挑单克隆，测序鉴定和提质粒，即可得到sgRNA-on/off-target质粒，备用或置于-20℃保存。

(2)SlugCas9表达质粒及SlugCas9突变体表达质粒的转染和基因编辑

将实施例1中制备的SlugCas9表达质粒和SlugCas9突变体表达质粒(SlugCas9-5mut表达质粒和SlugCas9-6mut表达质粒)分别与sgRNA-on/off-target质粒通过PEI共转染至含有靶序列(GGATATGTTGAAGAACACCATGAC)的GFP报告细胞系中。

所述含有靶序列的GFP报告细胞系是通过下述方式获得的：在起始密码子ATG和GFP编码序列之间插入PAM序列和特定的靶序列，造成GFP移码突变，然后通过慢病毒感染整合到HEK293T细胞中，得到含有靶序列的GFP报告细胞系。当基因编辑系统对靶序列进行切割后，细胞通过自身修复系统会使部分细胞恢复GFP阅读框，产生绿色荧光，通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。

上述转染过程包括如下步骤：

第0天，根据转染所需，将含有靶序列的GFP报告系统HEK293T细胞系在24孔板进行铺板，使其在转染时达到70％汇合度。该GFP报告细胞系包含CMV-ATG-target site-PAM-GFP的核苷酸序列，其中，靶位点(target site)的序列为GGCTCGGAGATCATCATTGCG，PAM序列为CTGG。

第1天，进行转染，转染过程如下：分别取0.6μgSlugCas9表达质粒、或SlugCas9突变体表达质粒(SlugCas9-5mut表达质粒、SlugCas9-6mut表达质粒)，并将其与0.3μgsgRNA-on/off-target质粒共同加入至25μL Opti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

将聚乙烯亚胺(简称PEI，购于polysciences公司)轻弹混匀，吸取0.9μL PEI加入至25μL Opti-MEM培养基中，轻轻混匀，室温静置5min。

将经稀释的质粒和经稀释的转染试剂振荡混匀，得到的混合液室温静置15min，然后加入到含有靶序列的GFP报告系统HEK293T细胞系的培养基中，并将其置于37℃、5％C0₂培养箱中继续培养。

(3)利用流式分析评估SlugCas9及其突变体的特异性

转染5天后，采用流式细胞仪(BD Biosciences FACSCalibur)分析GFP阳性细胞比例，并用FlowJo软件分析作图，评估SlugCas9蛋白及其突变体蛋白的特异性。

SlugCas9蛋白及其突变体蛋白SlugCas9-5mut和SlugCas9-6mut在含有靶序列的GFP报告细胞系中的编辑效率结果分别示于图3-4。图3-4中的Y轴代表GFP阳性细胞百比率(％)，X轴代表on/off target gRNA。从图3-4中可以看出，SlugCas9蛋白及其突变体蛋白SlugCas9-5mut和SlugCas9-6mut均能有效编辑GFP报告细胞系中的靶位点。尽管SlugCas9突变体蛋白SlugCas9-5mut和SlugCas9-6mut在靶编辑效率略低于野生型SlugCas9蛋白，但脱靶率在各靶位点处明显降低，表现出更高的特异性。其中，SlugCas9-6mut在各靶位点处的脱靶率最低。

实施例3：

(1)sgRNA-target质粒的构建

设计target gRNA的序列，其对应的寡核苷酸单链DNA如下表7所示。

表7：gRNA及其DNA序列

注：“位点”中的“-”之前部分表示靶位点所在基因，“-”之后部分表示靶位点的PAM序列。

反应体系如下：

反应条件如下：

/>

取3μL连接产物转化至100μL DH5α感受态细胞，随后进行挑单克隆，测序鉴定和提质粒，即可得到sgRNA-target质粒，备用或置于-20℃保存。

(2)SlugCas9表达质粒以及SlugCas9突变体表达质粒(SlugCas9-5mut表达质粒和 SlugCas9-6mut表达质粒)的转染与基因编辑

在第0天，根据转染所需，将含有靶序列的HEK293T细胞在24孔板进行铺板，使其在转染时达到70％汇合度。

第1天，进行转染，转染过程如下：

分别取0.6μg SlugCas9表达质粒以及SlugCas9突变体表达质粒(SlugCas9-mut5表达质粒和SlugCas9-mut6表达质粒)，并将其与0.3μg sgRNA-on/off-target质粒共同加入至25μL Opti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

吸取0.9μL PEI加入至25μL Opti-MEM培养基中，轻轻混匀，室温静置5min。

将经稀释的质粒和经稀释的转染试剂混合后振荡混匀，得到的混合液室温静置15min，然后加入到含有靶序列的GFP报告系统HEK293T细胞系的培养基中，并将其置于37℃、5％CO₂培养箱中继续培养。

转染后24小时，加入终浓度为1ng/μL的嘌呤霉素进行筛选。转染后72小时，更换为无嘌呤霉素的普通培养基，将其置于37℃、5％CO₂培养箱中继续培养2天。

收集编辑5天的细胞，用DNA试剂盒(天根生化科技(北京)有限公司，DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。

(3)二代测序文库的制备

提取后的基因组通过两轮PCR建库，一轮PCR引物如下表8所示：

表8：一轮PCR引物

一轮PCR反应体系如下：

一轮PCR运行程序如下：

二轮PCR引物如下表9所示：

表9：二轮PCR引物

二轮PCR反应体系如下：

二轮PCR运行程序如下：

/>

将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤，纯化300-400bp的DNA片段，由此，二代测序文库制备完毕。

(4)二代测序结果的分析

二代测序分析得到上述步骤(3)中得到SlugCas9蛋白及其突变体蛋白对多个靶位点的编辑效率结果，如图5所示。在该图中，X轴表示靶位点，Y轴表示编辑效率(Indels％)。结果显示，SlugCas9蛋白只在PAM序列为NNGG的测试位点具有高效率，而SlugCas9突变体蛋白SlugCas9-5mut和SlugCas9-6mut不仅在PAM序列为NNGG的测试位点具有与野生型SlugCas9蛋白相似的编辑活性，而且在PAM序列为NNGA、NNGT和NNGC的测试位点表现出高编辑活性，这证明了本发明的这两种突变体蛋白能够有效编辑PAM序列为NNG的内源位点。

本发明人同时也验证了本发明的其他具有多个例如2个或5个突变位点的突变体蛋白与SEQ ID NO：2所示sgRNA的组合，均获得了类似的技术效果。如前所述，包括至少两个突变位点的本发明的突变体蛋白即能够识别NNG的PAM序列。

此外，本发明人还采用与实施例1中步骤(3)中描述的类似方法构建了包含具有SEQ ID NO：3或4所示支架序列的质粒，采用本实施例中步骤(1)中描述的方法构建了其他的sgRNA-on-target质粒，并依据本实施例中步骤(2)-(4)中描述的方法进行了检测。结果发现，与采用SEQ ID NO：2所示支架序列一样，在采用SEQ ID NO：3或4所示支架序列时，也得到了类似的结果。

序列表

SEQ ID NO：1：SlugCas9蛋白序列(路邓葡萄球菌(Staphylococcuslugdunensis))

SEQ ID NO：2(SaCas9_sgRNA支架序列)

SEQ ID NO：3：(SlugCas9_sgRNA支架序列)

SEQ ID NO：4：(Modified_SlugCas9_sgRNA支架序列)

SEQ ID NO：5：(SlugCas9表达质粒的构建的DNA片段1)

SEQ ID NO：6(Sa_sgRNA fragment的序列)

/>

Claims

1.一种SlugCas9突变体蛋白，所述SlugCas9突变体蛋白包含对应于野生型SlugCas9蛋白的Q782、S888、L906、N984、E1012和K1016中的一个或多个氨基酸残基处的突变；

优选地，所述突变为选自Q782R、S888R、L906R、N984S、E1012K和K1016I中的一个或多个突变，优选至少两个突变(例如N984S和K1016I的突变组合)，更优选五个或六个突变；最优选地，所述突变为Q782R、S888R、L906R、E1012K和K1016I的突变组合或者Q782R、S888R、L906R、N984S、E1012K和K1016I的突变组合；

优选地，所述SlugCas9突变体蛋白与所述野生型SlugCas9蛋白具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列一致性。

2.一种缀合物，所述缀合物包含：

a)权利要求1所述的SlugCas9突变体蛋白；

b)修饰部分；例如，所述修饰部分选自另外的蛋白或多肽、可检测标记或其组合；例如，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种；以及

c)任选的用于连接所述SlugCas9突变体蛋白与所述修饰部分的接头，例如长度为1-50个氨基酸的接头。

3.一种融合蛋白，所述融合蛋白包含：

a)权利要求1所述的SlugCas9突变体蛋白；

b)另外的蛋白和多肽；例如，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种；以及

4.一种分离的核酸分子，包含编码以下的核酸序列：

a)权利要求1所述的SlugCas9突变体蛋白；

b)权利要求2所述的缀合物；或者

c)权利要求3所述的融合蛋白。

5.根据权利要求4所述的分离的核酸分子，还包含编码单链向导RNA的核酸序列，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；例如，所述支架序列具有SEQID NO:2-4中任一个所示的核酸序列；优选地，所述CRISPR间隔序列为长度为15-28个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列。

6.一种载体，所述载体包含编码以下的核酸序列：

a)权利要求1所述的SlugCas9突变体蛋白；

b)权利要求2所述的缀合物；或者

c)权利要求3所述的融合蛋白；

例如，所述载体为质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。

7.根据权利要求6所述的载体，还包含编码单链向导RNA的核酸序列，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；例如，所述支架序列具有SEQ ID NO:2所示的核酸序列；优选地，所述CRISPR间隔序列为长度为15-28个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列。

8.一种CRISPR/Cas9基因编辑系统，其包含：

1)蛋白组分，其包含：

a)权利要求1所述的SlugCas9突变体蛋白；

b)权利要求2所述的缀合物；或者

c)权利要求3所述的融合蛋白；

以及

2)单链向导RNA，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；例如，所述支架序列具有SEQ ID NO:2-4中任一项所示的核酸序列；优选地，所述CRISPR间隔序列为长度为15-28个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列；

9.一种细胞，所述细胞包含权利要求4或5所述的分离的核酸分子；或权利要求6或7所述的载体；

例如，所述细胞为原核细胞或者动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞。

10.一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括：使以下(1)至(6)中任一项与细胞内或体外环境中的靶序列相接触：

(1)权利要求1所述的SlugCas9突变体蛋白、权利要求2所述的缀合物或者权利要求3所述的融合蛋白，以及单链向导RNA，

(2)权利要求4所述的分离的核酸分子、以及包含编码单链向导RNA的核酸序列的分离的核酸分子；

(3)权利要求5所述的分离的核酸分子；

(4)权利要求6所述的载体、以及包含编码单链向导RNA的核酸序列的载体；

(5)权利要求7所述的载体；或者

(6)权利要求8所述的CRISPR/Cas9基因编辑系统；

其中，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；例如，所述支架序列具有SEQ ID NO:2-4中任一个所示的核酸序列；优选地，所述CRISPR间隔序列为长度为15-28个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列；

其中，所述SlugCas9突变体蛋白、所述缀合物或所述融合蛋白识别位于靶序列的3’端并且具有序列5’-NNGG或5’-NNG的原间隔邻近序列(PAM)；

例如，所述细胞为原核细胞或者动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞；

例如，所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种，例如，所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。

11.根据权利要求10所述的方法，其中，所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构，而与非靶序列形成不完全碱基互补配对的结构；

例如，所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配的结构。

12.一种试剂盒，所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑，包括：

a)选自以下(1)至(6)中的任一项：

(3)权利要求5所述的分离的核酸分子；

(5)权利要求7所述的载体；或者

(6)权利要求8所述的CRISPR/Cas9基因编辑系统；

其中，所述单链向导RNA从5’端至3’端包括CRISPR间隔序列和支架序列；例如，所述支架序列具有SEQ ID NO:2所示的核酸序列；优选地，所述CRISPR间隔序列为长度为15-28个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列；

以及