CN115397995A

CN115397995A - 来自细菌嗜肺巴斯德杆菌的cas9蛋白的用途

Info

Publication number: CN115397995A
Application number: CN202080092630.XA
Authority: CN
Inventors: K·V·谢韦里诺夫; S·A·什马科夫; D·N·阿尔塔莫诺娃; I·I·戈里亚宁; O·S·穆沙罗娃; J·V·安德烈耶娃; T·I·祖布克; I·V·费多罗娃; M·A·霍多尔科夫斯基; G·E·波贝加洛夫; A·N·阿尔谢涅夫; P·A·瑟尔科娃; A·A·瓦西里耶娃; T·O·阿尔塔莫诺娃; M·V·阿布拉莫娃
Original assignee: Biocard Jsc
Current assignee: Biocard Jsc
Priority date: 2019-11-11
Filing date: 2020-07-02
Publication date: 2022-11-25
Also published as: US20220403369A1; CL2022001220A1; MX2022005685A; PE20230035A1; ZA202205208B; JP2023501524A; CA3157898A1; RU2724470C1; KR20220145324A; CO2022006156A2; AU2020384851A1; EP4056705A1; EP4056705A4; WO2021096391A1; MA57032A1; BR112022009148A2

Abstract

本发明描述了来自细菌嗜肺巴斯德杆菌(P.pneumotropica)的CRISPR‑Cas9系统的新型细菌核酸酶，以及所述核酸酶用于在DNA分子中产生严格特异性的双链切割的用途。所述核酸酶具有独特的性质，并且可以用于改变单细胞或多细胞生物体的细胞中的基因组DNA序列。本发明因此增加了可用CRISPR‑Cas9系统的普适性，使得能够使用不同的Cas9核酸酶变体，以在大量特异性位点中和/或在不同条件下，切割各种生物体中的基因组或质粒DNA。

Description

来自细菌嗜肺巴斯德杆菌的CAS9蛋白的用途

技术领域

本发明涉及生物技术，具体而言涉及新型酶，CRISPR-Cas系统的Cas核酸酶，其用于切割DNA且编辑各种生物体的基因组。该技术将来可用于遗传性人疾病的基因治疗，以及用于编辑其它生物体的基因组。

背景技术

DNA序列修饰是当今生物技术领域的热点问题之一。编辑且修饰真核和原核生物体的基因组，以及在体外操纵DNA，需要在DNA序列中靶向引入双链断裂。

为了解决这个问题，目前使用下述技术：含有锌指型结构域的人工核酸酶系统、TALEN系统和细菌CRISPR-Cas系统。前两种技术需要用于识别特定DNA序列的核酸酶氨基酸序列的费力优化。相比之下，当就CRISPR-Cas系统而言时，识别DNA靶的结构不是蛋白质，而是短引导RNA。特定DNA靶的切割并不需要从头合成核酸酶或其基因，而是通过使用与靶序列互补的引导RNA来进行。它使得CRISPR Cas系统成为用于切割各种DNA序列的方便且高效的手段。该技术允许使用不同序列的引导RNA在几个区域处同时切割DNA。这种方法也用于同时修饰真核生物体中的若干基因。

就其性质而言，CRISPR-Cas系统是能够将断裂高度特异性地引入病毒遗传材料内的原核免疫系统(Mojica F. J. M.等人，Intervening sequences of regularly spacedprokaryotic repeats derive from foreign genetic elements //Journal ofmolecular evolution. – 2005. – 第60卷. – 第2期. –第174-182页)。缩写CRISPR-Cas代表“成簇规律间隔短回文重复和CRISPR相关基因”(Jansen R.等人，Identification ofgenes that are associated with DNA repeats in prokaryotes //Molecularmicrobiology. – 2002. – 第43卷. – 第6期. – 第1565-1575页)。所有CRISPR-Cas系统都由CRISPR盒和编码各种Cas蛋白的基因组成(Jansen R.等人，Molecular microbiology.– 2002. – 第43卷. – 第6期. – 第1565-1575页)。CRISPR盒由各自具有独特核苷酸序列的间隔区和重复的回文重复组成(Jansen R.等人，Molecular microbiology. – 2002. –第43卷. – 第6期. – 第1565-1575页)。CRISPR盒的转录随后为其加工导致引导crRNA的形成，所述引导crRNA连同Cas蛋白一起形成效应复合物(Brouns S. J. J.等人，SmallCRISPR RNAs guide antiviral defense in prokaryotes //Science. – 2008. – 第321卷. – 第5891期. – 第960-964页)。由于crRNA和称为前间隔序列的靶DNA位点之间的互补配对，Cas核酸酶识别DNA靶并且在其中高度特异性地引入断裂。

取决于系统中包括的Cas蛋白，具有单个效应蛋白的CRISPR-Cas系统分组成六种不同类型(I-VI型)。2013年，首次提出了使用II型CRISPR-Cas9系统用于编辑人细胞的基因组DNA (Cong L等人，Multiplex genome engineering using CRISPR/Cas systems.Science. 2013年2月15日；339(6121 ):819-23)。II型CRISPR-Cas9系统的特征在于其简单的组成和活性机制，即其发挥功能需要形成仅由一种Cas9蛋白和如下的两种短RNA组成的效应复合物：crRNA和tracer RNA (tracrRNA)。tracer RNA与源自CRISPR重复的crRNA区域互补配对，以形成引导RNA与Cas效应子结合所必需的二级结构。确定引导RNA的序列是表征先前未研究的Cas直向同源物的重要步骤。Cas9效应蛋白是RNA依赖性DNA核酸内切酶，具有两个核酸酶结构域(HNH和RuvC)，其将断裂引入靶DNA的互补链内，因此产生双链DNA断裂(Deltcheva E.等人，CRISPR RNA maturation by trans-encoded small RNA and hostfactor RNase III //Nature. – 2011. – 第471卷. – 第7340期. – 第602页)。

迄今为止，已知几种CRISPR-Cas核酸酶，其能够将双链断裂靶向且特异性地引入DNA内。CRISPR-Cas9技术是最现代和发展最快的技术之一，用于在范围从细菌菌株到人细胞的各种生物体的DNA中引入断裂，还提供了体外应用(Song M. The CRISPR/Cas9system: Their delivery，in vivo and ex vivo applications and clinicaldevelopment by startups. Biotechnol Prog. 2017年7月；33(4):1035-1045)。

除了crRNA间隔区-前间隔序列的互补性外，由Cas9和crRNA/tracrRNA双链体组成的效应核糖核酸复合物(ribonucleic complex)还需要在DNA靶上存在PAM (前间隔序列邻近基序)，用于DNA的识别和后续水解(Mojica F. J.M.等人2009)。PAM是定位于II型系统中的严格限定的几个核苷酸的序列，其与脱靶链上的前间隔序列的3'端相邻或远离几个核苷酸。在不存在PAM的情况下，并不发生DNA键的水解以及随后双链断裂的形成。对于在靶上存在PAM序列的需要增加了识别特异性，但同时对于用于引入断裂的靶DNA区域选择施加了限制。因此，从3'端侧接DNA靶的所需PAM序列的存在是限制在任何DNA位点处使用CRISPR-Cas系统的特征。

不同的CRISPR-Cas蛋白使用不同的、独特的PAM序列用于其活性。具有新型的各种PAM序列的CRISPR-Cas蛋白的使用是必要的，以使得能够在体外以及在活生物体的基因组两者中修饰任何DNA区域。真核基因组的修饰还需要使用小尺寸核酸酶，以提供AAV介导的CRISPR-Cas系统递送到细胞内。

尽管用于切割DNA且修饰基因组DNA序列的许多技术是已知的，但仍需要新型的有效手段用于在各种生物体中以及在DNA序列的严格特异性位点处修饰DNA。

发明内容

本发明的目的是提供使用CRISPR-Cas9系统，修饰单细胞或多细胞生物体的基因组DNA序列的新型手段。由于必须存在于待修饰的DNA区域的3'端处的特定PAM序列，目前现有的系统具有有限的用途。寻找具有其它PAM序列的新型Cas9酶将扩大用于在各种生物体的DNA分子中的所需严格特异性位点处形成双链断裂的可用手段的范围。为了解决这个问题，作者表征了先前对于嗜肺巴斯德杆菌(Pasteurella pneumotropica) (嗜肺巴斯德杆菌(Р. pneumotropica))预测的II型CRISPR核酸酶PpCas9，其可以用于将定向修饰引入上述及其它生物体两者的基因组内。本发明的特征在于其具有下述基本特征：(a)与其它已知PAM序列不同的短PAM序列；(b)特征性PpCas9蛋白的相对小尺寸，即1055个氨基酸残基(a.a.r.)。

所述问题借助于蛋白质在DNA分子中形成定位紧接所述DNA分子中的核苷酸序列5’-NNNN(A/G)TT-3’之前的双链断裂的用途得到解决，所述蛋白质包含SEQ ID NO: 1的氨基酸序列，或包含与SEQ ID NO: 1的氨基酸序列具有至少95%同一性且与SEQ ID NO: 1的不同之处仅在于非保守氨基酸残基的氨基酸序列。在本发明的一些实施方案中，该用途的特征在于DNA分子中的双链断裂在35℃至45℃的温度下形成。在本发明的一些实施方案中，该用途的特征在于双链断裂在哺乳动物细胞的基因组DNA中形成。在本发明的一些实施方案中，该用途的特征在于DNA分子中的双链断裂形成导致所述哺乳动物细胞的基因组DNA的修饰。

所述问题通过提供用于修饰单细胞或多细胞生物体的细胞中的基因组DNA序列的方法得到进一步解决，所述方法包括将有效量的以下引入生物体的所述细胞内：a)包含SEQID NO: 1的氨基酸序列的蛋白质、或编码包含SEQ ID NO: 1的氨基酸序列的蛋白质的核酸，和b)包含与生物体的基因组DNA区域的核苷酸序列形成双链体的序列的引导RNA或编码所述引导RNA的DNA序列，所述核苷酸序列与核苷酸序列5’-NNNN(A/G)TT-3’直接相邻，并且在双链体形成之后与所述蛋白质相互作用；其中所述蛋白质与引导RNA和核苷酸序列5’-NNNN(A/G)TT-3’的相互作用导致在紧邻序列5’-NNNN(A/G)TT-3’的基因组DNA序列中的双链断裂形成。

在本发明的一些实施方案中，该方法的特征在于其进一步包括与引导RNA同时引入外源DNA序列。在本发明的一些实施方案中，该方法的特征在于所述细胞是哺乳动物细胞。

可以与靶DNA区域和PpCas9蛋白形成复合物的crRNA和tracer RNA (tracrRNA)的混合物可以用作引导RNA。在本发明的优选实施方案中，基于crRNA和tracer RNA构建的杂合RNA可以用作引导RNA。用于构建杂合引导RNA的方法是技术人员已知的(Hsu PD等人，DNAtargeting specificity of RNA-guided Cas9 nucleases. Nat Biotechnol. 2013年9月；31(9):827-32)。用于构建杂合RNA的方法之一已在下述实施例中得到公开。

本发明既可以用于在体外切割靶DNA，又可以用于修饰一些活生物体的基因组。基因组DNA可以以直接方式，即通过在相应位点处切割基因组DNA，以及通过经由同源修复插入外源DNA序列进行修饰。

除用于施用的区域外，来自生物体的基因组的双链或单链DNA的任何区域(或此类区域彼此之间以及与其它DNA片段的组合物)都可以用作外源DNA序列，其中所述区域(或区域组合物)预期整合到由PpCas9核酸酶诱导的靶DNA中的双链断裂的位置内。在本发明的一些实施方案中，通过突变(核苷酸的取代)以及通过一个或多个核苷酸的插入或缺失进行进一步修饰、用于引入PpCas9蛋白的来自生物体的基因组DNA的双链DNA区域可以用作外源DNA序列。

本发明的技术效果是增加了可用CRISPR-Cas9系统的普适性，以使得能够使用Cas9核酸酶用于在更大量的特定位点和特定条件下切割基因组或质粒DNA。新型核酸酶可以用于细菌、哺乳动物或其它生物体的细胞中。

附图说明

图1. CRISPR PpCas9系统的基因座的示意图。DR (正向重复)是作为CRISPR盒的部分的规律重复区域。

图2. 体外PAM筛选。实验的示意图。

图3. 在不同反应温度下7N文库片段的PpCas9核酸酶切割。

图4. (A)对于在每个PAM (FC)位置处的每个具体核苷酸使用比例变化对数的计算，来分析PpCas9核酸酶的体外筛选结果。(B) PpCas9核酸酶的PAM标记(Logo)。对于每个位置指示了腺嘌呤、胞嘧啶、胸腺嘧啶和鸟嘌呤的出现。字母的高度对应于在PAM序列的给定位置处出现的核苷酸。

图5. 在PAM的位置1处的单核苷酸取代对通过PpCas9核酸酶切割DNA靶效率的作用的验证。

图6. PpCas9 PAM序列中的核苷酸位置的重要性的验证。

图7. 在PAM的位置5处的A至G取代对通过PpCas9核酸酶的DNA靶切割效率的作用的验证。

图8. 在PAM的位置7处的单核苷酸取代对通过PpCas9核酸酶切割DNA靶效率的作用的验证。

图9. 使用PpCas9蛋白切割各种DNA位点。泳道1和2是阳性对照。

图10. PpCas9核酸酶对PAM序列CAGCATT的识别的验证。泳道1和2是阳性对照。

图11. DNA切割工具PpCas9的图解。

图12. 关于DNA靶切割的实验。使用了不同长度的杂合引导RNA。

图13. 使用NCBI BLASTp软件(默认参数)，比对PpCas9和来自金黄色葡萄球菌(Staphylococcus aureus)的Cas9蛋白的氨基酸序列。

图14. 使用PpCas9修饰人细胞的基因组DNA。(A)是确定使用携带PpCas9的质粒修饰人细胞的基因组DNA的效率的实验示意图。(B)是在人细胞的基因组DNA的靶位点序列内的核苷酸插入和缺失的分析结果(顶部 – 将与T7核酸内切酶I的反应产物施加到琼脂糖凝胶电泳上，底部 - 通过高通量测序确定的通过PpCas9在EMX1基因中形成的插入和缺失的实例)。

具体实施方式

如本发明的说明书中使用的，术语“包括(includes)”和“包括(including)”应该被解释为意指“除其它外还包括”。所述术语并不预期解释为“仅由……组成”。除非分开定义，否则本申请中的技术和科学术语具有科学和技术文献中一般公认的通常含义。

如本文使用的，术语“两个序列的同源性百分比”等价于术语“两个序列的同一性百分比”。序列同一性基于参考序列进行确定。用于序列分析的算法是本领域已知的，例如Altschul等人，J. Mol. Biol.，215，第403-10页(1990)中描述的BLAST。为了本发明的目的，为了确定核苷酸序列和氨基酸序列之间的同一性和相似性水平，可以使用核苷酸序列和氨基酸序列的比较，其通过由美国国家生物技术信息中心(National Center forBiotechnology Information) (http://www.ncbi.nlm.nih.gov/blast)提供的BLAST软件包，使用具有标准参数的空位比对来执行。考虑到为了两个序列通过比对进行最佳比较而输入的空位数目和每个空位的长度，通过这两个序列中的相同氨基酸的位置数目，确定两个序列的同一性百分比。同一性百分比等于考虑到序列比对在给定位置处的相同氨基酸数目除以位置总数目，再乘以100。

术语“特异性杂交”指两个单链核酸分子或充分互补的序列之间的结合，其允许在本领域通常使用的预定条件下的此类杂交。

短语“定位紧接核苷酸PAM序列之前的双链断裂”意指靶DNA序列中的双链断裂将在核苷酸PAM序列之前0至25个核苷酸的距离处产生。

与引导RNA同时引入的外源DNA序列预期指在由引导RNA的特异性决定的断裂位点处，对于双链靶DNA的特异性修饰而特异性地制备的DNA序列。此类修饰可以是例如在靶DNA中的断裂位点处的某些核苷酸的插入或缺失。外源DNA可以是来自不同生物体的DNA区域或来自与靶DNA相同的生物体的DNA区域。

包含特定氨基酸序列的蛋白质预期指具有这样的氨基酸序列的蛋白质，该氨基酸序列由所述氨基酸序列和可能通过肽键与所述氨基酸序列连接的其它序构成。其它序列的实例可以是核定位信号(NLS)，或对于所述氨基酸序列提供增加的功能性的其它序列。

引入细胞内的蛋白质和RNA的有效量预期指这样的蛋白质和RNA量，当引入所述细胞内时，所述量能够形成功能性复合物，即与靶DNA特异性结合，并且在其中在由引导RNA和DNA上的PAM序列确定的位点处产生双链断裂的复合物。该过程的效率可以通过使用技术人员已知的常规技术，分析从所述细胞中分离的靶DNA进行评价。

蛋白质和RNA可以通过各种技术递送至细胞。例如，蛋白质可以作为编码该蛋白质的基因的DNA质粒、作为用于在细胞质中翻译该蛋白质的mRNA、或作为包括该蛋白质和引导RNA的核糖核蛋白复合物进行递送。递送可以通过技术人员已知的各种技术来执行。

编码系统的组分的核酸可以如下直接或间接地引入细胞内：通过经由技术人员已知的方法转染或转化细胞，通过使用重组病毒，通过对细胞的操纵如DNA显微注射等。

由核酸酶和引导RNA和外源DNA (如果需要的话)组成的核糖核酸复合物可以通过将复合物转染到细胞内，或通过例如经由显微注射将复合物机械引入细胞内进行递送。

编码待引入细胞内的蛋白质的核酸分子可以整合到染色体内，或者可以是染色体外复制的DNA。在一些实施方案中，为了确保其DNA引入细胞内的蛋白质基因的有效表达，有必要按照细胞类型修饰所述DNA的序列以便优化密码子用于表达，这是由于在各种生物体的基因组的编码区中的同义密码子出现的频率不等。密码子优化对于增加在动物、植物、真菌或微生物细胞中的表达是必要的。

对于具有与SEQ ID NO: 1的氨基酸序列具有至少95%同一性的序列的蛋白质在真核细胞中发挥功能，该蛋白质在这种细胞的核中终止是必要的。因此，在本发明的一些实施方案中，具有与SEQ ID NO: 1的氨基酸序列具有至少95%同一性并且在一端或两端处通过添加一种或多种核定位信号进一步修饰的序列的蛋白质，用于在靶DNA中形成双链断裂。例如，可以使用来自SV40病毒的核定位信号。为了提供对核的有效递送，核定位信号可以通过间隔区序列与主要蛋白质序列分开，所述间隔区序列例如在Shen B等人，"Generation ofgene-modified mice via Cas9/RNA-mediated gene targeting"，Cell Res. 2013 May；23(5):720-3中进行描述。进一步地，在其它实施方案中，可以使用不同的核定位信号或用于将所述蛋白质递送到细胞核内的替代方法。

本发明包括来自嗜肺巴斯德杆菌生物体的蛋白质在严格指定的位置处将双链断裂引入DNA分子内的用途，所述蛋白质与先前表征的Cas9蛋白同源。使用CRISPR核酸酶将靶向修饰引入基因组具有许多优点。首先，系统活性的特异性由crRNA序列决定，这允许对于所有靶基因座使用一种类型的核酸酶。其次，该技术使得能够一次将与不同基因靶互补的几种引导RNA递送到细胞内，从而使得能够一次同时修饰几种基因。

PpCas9是在嗜肺巴斯德杆菌АТСС 35149中发现的Cas核酸酶，所述嗜肺巴斯德杆菌是在动物的肺中生活的啮齿类动物病原体。嗜肺巴斯德杆菌(Pasteurella pneumotropica) (嗜肺巴斯德杆菌(P. pneumotropica)) CRISPR Cas9系统(以下称为CRISPR PpCas9)属于II-C型CRISPR Cas系统，并且由CRISPR盒组成，所述CRISPR盒携带通过独特间隔区的序列间隔的、具有序列5’ATTATAGCACTGCGAAATGAAAAAGGGAGCTACAAC3’的四个正向重复(DR)。该系统的间隔区无一在序列上与目前已知的细菌噬菌体或质粒一致，所述事实使得无法通过生物信息学分析确定目的PpCas9 PAM。与CRISPR盒相邻的是效应Cas9蛋白PpCas9的基因，以及涉及新间隔区的适应和整合的Cas1和Cas2蛋白的基因。在Cas基因附近，发现与正向重复部分互补并折叠成特征性二级结构的序列，其被视为tracer RNA(tracrRNA) (图1)。

II-C型系统的RNA-Cas蛋白复合物的特征性体系结构的了解使得能够预测CRISPR盒的转录方向：前体crRNA在与Cas基因相反的方向上进行转录(图1)。

因此，PpCas9基因座的序列分析使得能够预测tracer 和引导RNA的序列(表1)。

表1. 通过生物信息学方法确定的CRISPR PpCas9系统的引导RNA的序列。粗体指示正向重复，DR的序列。

为了验证PpCas9核酸酶的活性并确定目的PpCas9 PAM，我们进行了关于在体外重建DNA切割反应的实验。为了确定PpCas9蛋白的PAM序列，采用了双链PAM文库的体外切割。为此，有必要获得如下的PpCas9效应复合物的所有组分：引导RNA和以重组形式的核酸酶。引导RNA序列的确定使得能够在体外合成crRNA和tracrRNA分子。使用NEB HiScribe T7RNA合成试剂盒进行合成。双链DNA文库是374个碱基对(bp)的片段，其包含从3'端侧接随机化的七个核苷酸(5’-NNNNNNN-3’)的前间隔序列：5'-

cccggggtaccacggagagatggtggaaatcatctttctcgtgggcatccttgatggccacctcgtcggaagtgcccacgaggatgacagcaatgccaatgctgggggggctcttctgagaacgagctctgctgcctgacacggccaggacggccaacaccaaccagaacttgggagaacagcactccgctctgggcttcatcttcaactcgtcgactccctgcaaacacaaagaaagagcatgttaaaataggatctacatcacgtaacctgtcttagaagaggctagatactgcaattcaaggaccttatctcctttcattgagcacNNNNNNNaactccatcta ccagcctactctcttatctctggtatt -3’

为了切割该靶，使用了下述序列的引导RNA：

tracrRNA：

5’GCGAAATGAAAAACGUUGUUACAAUAAGAGAUGAAUUUCUCGCAAAGCTCUGCCUCUUGAAAUUUCGGUUUCAAGAGGCAUCUUUUU

和crRNA：5'

uaucuccuuucauugagcacGUUGUAGCUCCCUUUUUCAUUUCGC。

粗体指示了与前间隔序列(靶DNA序列)互补的crRNA序列。

为了产生重组PpCas9蛋白，将其基因克隆到质粒pET21a内。通过Integrated DNATechnologies (IDT)合成的DNA用作编码基因的DNA。该序列进行密码子优化，以排除在嗜肺巴斯德杆菌基因组中发现的稀有密码子。用所得到的质粒рЕТ21a-6xHis-PpCas9转化大肠杆菌Rosetta细胞。

500 μl过夜培养物在500 ml LB培养基中进行稀释，并且细胞在37°C下生长直至获得0.6 Ru的光密度。通过添加IPTG至1 mM的浓度来诱导靶蛋白的合成，然后使细胞在20°C下温育6小时。然后，将细胞以5,000 g离心30分钟，将所得到的细胞沉淀物在-20°C下冷冻。

使沉淀物在冰上解冻30分钟，重悬浮于补充有15 mg溶菌酶的15 ml裂解缓冲液(Tris-HCI 50 mM pH 8、500 mM NaCl、β-巯基乙醇1 mM、咪唑10 mM)中，并且在冰上再温育30分钟。细胞然后通过超声处理破坏30分钟，并且以16,000 g离心40分钟。使所得到的上清液通过0.2 µm过滤器，并且以1 ml/分钟施加到HisTrap HP 1 mL柱(GE Healthcare)上。

使用AKTA FPLC色谱仪(GE Healthcare)以1 ml/分钟执行色谱法。用补充有30 mM咪唑的20 ml裂解缓冲液洗涤具有所施加的蛋白质的柱，这之后用补充有300 mM咪唑的裂解缓冲液洗掉蛋白质。

然后，使在亲和色谱法的过程中获得的蛋白质级分通过Superdex 200 10/300 GL凝胶过滤柱(24 ml)，所述柱用下述缓冲液进行平衡：Tris-HCI 50 mM pH 8、500 mM NaCl、1 mM DTT。使用Amicon浓缩器(具有30 kDa过滤器)，将对应于PpCas9蛋白的单体形式的级分浓缩至3 mg/ml，这之后将纯化的蛋白质在-80℃下贮存于含有10%甘油的缓冲液中。

切割线性PAM文库的体外反应在下述条件下在20 μl的体积中进行。反应混合物由以下组成：1X CutSmart缓冲液(NEB)、5 mM DTT、100 nM PAM文库、2 μM trRNA/crRNA、400nM PpCas9蛋白。作为对照，以类似方式制备不含RNA的样品。使样品在不同温度下温育，并且通过在2%琼脂糖凝胶中的凝胶电泳进行分析。在DNA通过PpCas9蛋白正确识别和特异性切割的情况下，应该生成约326和48个碱基对的两个DNA片段(参见图2)。

实验结果显示了，PpCas9具有核酸酶活性，并且切割了PAM文库片段的一部分。温度梯度(图3)显示了该蛋白质在35-45℃的温度范围内具有活性。该研究随后使用42℃的温度作为工作温度。

在选择的条件下重复文库切割反应。将反应产物施加到1.5%琼脂糖凝胶上并经受电泳。从凝胶中提取长度为374 bp的未切割的DNA片段，并且准备使用NEB NextUltra II试剂盒进行高通量测序。在lllumina平台上对样品进行测序，然后使用生物信息学方法进行序列分析：我们使用(Maxwell CS等人，A detailed cell-free transcription-translation-based assay to decipher CRISPR protospacer-adjacent motifs.Methods. 2018年7月1日；143:48-57)中描述的方法，确定了与对照样品相比，在PAM(NNNNNNN)的各个位置处出现的核苷酸的差异。此外，构建了PAM标记(logo)以分析结果(图4)。

数据分析的两种方法(图4)均指示了PAM位置5、6和7的重要性。因此，体外分析允许建立如下的关于PpCas9的推定PAM序列：NNNNATT。然而，鉴于通过确定PAM的筛选方法获得的不准确结果，该序列仅是推定的。

在这方面，为了序列的更精确确定，验证了各个PAM序列位置的重要性。为此，我们执行了DNA 片段切割的体外反应，所述DNA 片段含有侧翼为PAM 序列CAACATT (或其衍生物)的 DNA 靶5’-atctcctttcattgagcac-3’： 5’-cccggggtaccacggagagatggtggaaatcatctttctcgtgggcatccttgatggccacctcgtcggaagtgcccacgaggatgacagcaatgccaatgctgggggggctcttctgagaacgagctctgctgcctgacacggccaggacggccaacaccaaccagaacttgggagaacagcactccgctctgggcttcatcttcaactcgtcgactccctgcaaacacaaagaaagagcatgttaaaataggatctacatcacgtaacctgtcttagaagaggctagatactgcaattcaaggaccttatctcctttcattgagcacCAACATTaactccatcta ccagcctactctcttatctctggtatt- 3’

所有DNA切割反应都在下述条件下执行：

1xCutSmart缓冲液

400 nM PpCas9

20 nM DNA

2 µM crRNA

2 µM tracrRNA

温育时间 - 30分钟，反应温度- 42℃。

用所有四种可能的核苷酸变体取代PAM位置1并不影响蛋白质活性的效率(图5)。

通过在PAM位置各自中的单核苷酸取代(嘌呤由嘧啶取代且反之亦然)，在实验上确认了预测的位置5和6的重要性。当取代在位置5和6处发生时，蛋白质实际上停止其活性。当取代在位置7处发生时，PpCas9活性的效率降低为1/2，所述事实反映了在该位置处的核苷酸的需求减少(图6)。因此，根据PpCas9核酸酶的体外PAM筛选结果，在PAM的位置5处最可能的核苷酸是腺嘌呤或鸟嘌呤，所述事实在实验上得到确认(图7)。A至G的取代并未降低片段的切割效率。

根据体外筛选的结果，在位置7处具有“T”或“S”的片段应该得到更有效地识别。进行了另外的实验，以明确地验证在该位置处的核苷酸的重要性。体外测试的结果显示了，用A或G取代在位置7处的核苷酸“T”使切割效率降低了40-50% (图8)。因此，与位置5和6相比，PAM位置7是较不保守的：在位置7处的嘌呤降低识别效率，但并不阻止PpCas9蛋白将双链断裂引入DNA内。

研究结果如下：由PpCas9核酸酶识别的PAM对应于下式5’- NNNN(A/G)TT-3’。位置7是较不保守的。

该方法的下述示例性实施方案为了公开本发明的特性的目的而给出，并且不应被解释为以任何方式限制本发明的范围。

实施例1. 测试PpCas9蛋白在各种DNA靶的切割方面的活性。

为了检查PpCas9识别侧翼为序列5’-NNNN(A/G)TT-3’的各种DNA序列的能力，进行了关于来自人grin2b基因序列的DNA靶的体外切割实验(参见表2)。

表2. 来自人GRIN2B基因的DNA靶。

按照PAM共有序列5’-NNNN(A/G)TT-3’，携带很可能被PpCas9识别的识别位点(表2)的grin2b基因的PCR片段用作切割反应中的靶。合成将PpCas9引导至这些位点的CrRNA以识别这些序列。

切割反应在对于PpCas9选择的条件下执行；结果显示于图9中。图9显示了PpCas9酶成功切割了具有合适PAM的四个靶中的三个。

在泳道6上的靶具有PAM序列CAGCATT，根据基于耗尽分析结果的预测，该序列应该被该蛋白质有效识别。然而，该片段的识别在这个实验中并未发生。

因此，PAM CAGCATT在受限于同一PAM的另一个前间隔序列靶上得到另外验证(图10)。在这种情况下，PAM被有效识别，其导致DNA的切割。因此，该蛋白质对于DNA靶序列具有一些进一步的优先。该优先很可能与DNA的二级结构有关。

因此，研究显示了PpCas9中存在核酸酶活性，并且还允许确定其PAM序列并验证引导RNA的序列。

PpCas9核糖核蛋白复合物在受限于PAM 5’-NNNN(A/G)TT -3’的靶中从前间隔序列的5'端特异性引入断裂。PpCas9/RNA复合物的示意图显示于图11中。

实施例2. 使用杂合引导RNA用于切割DNA靶。

sgRNA是一种引导RNA的形式，其是融合的tracrRNA (tracer RNA)和crRNA。为了选择最佳sgRNA，我们构建了该序列的三种变体，其在tracrRNA-crRNA双链体的长度方面不同。RNA在体外进行合成，并且进行了关于切割DNA靶的涉及其的实验(图12)。

下述RNA序列用作杂合RNA：

1 - sgRNA1 25DR: UAUCUCCUUUCAUUGAGCACGUUGUAGCUCCCUUUUUCAUUUCGCGAAAGCGAAAUGAAAAACGUUGUUACAAUAAGAGAUGAAUUUCUCGCAAAGCTCTGCCUCUUGAAAUUUCGGUUUCAAGAGGCAUCUUUUU

2 - sgRNA2 36DR UAUCUCCUUUCAUUGAGCACGUUGUAGCUCCCUUUUUUCAUUUCGCAGUGCUAUAAUGAAAAUUAUAGCACUGCGAAAUGAAAAACGUUGUUACAAUAAGAGAUGAAUUUCUCGCAAAGCUCUGCCUCUUGAAAUUUCGGUUUCAAGAGGCAUCUUUUU

粗体指示了提供与DNA靶配对的20个核苷酸的序列(sgRNA的可变部分)。此外，该实验使用了不含RNA的对照样品和阳性对照，其是使用crRNA+trRNA的靶切割。

含有识别位点5’ tatctcctttcattgagcac 3’与相应的共有序列PAM CAACATT的序列用作DNA靶：5’-cccggggtaccacggagagatggtggaaatcatctttctcgtgggcatccttgatggccacctcgtcggaagtgcccacgaggatgacagcaatgccaatgctgggggggctcttctgagaacgagctctgctgcctgacacggccaggacggccaacaccaaccagaacttgggagaacagcactccgctctgggcttcatcttcaactcgtcgactccctgcaaacacaaagaaagagcatgttaaaataggatctacatcacgtaacctgtcttagaagaggctagatactgcaattcaaggaccttatctcctttcattgagcacCAACATTcaactccat ctaccagcctactctcttatctctggtatt – 3’

粗体指示识别位点，大写字母代表PAM。

反应在下述条件下执行：含有PAM (CAACATT)的DNA序列的浓度为20 nM，蛋白质浓度为400 nM，RNA浓度为2 μM；温育时间为30分钟，温育温度为37°C。

发现所选择的sgRNA1和sgRNA2与天然tracrRNA和crRNA序列一样有效：切割在多于80%的DNA靶中发生(图12)。

在修饰与DNA靶直接配对的序列后，这些杂合RNA变体可以用于切割任何其它靶DNA。

实施例3. 来自属于嗜肺巴斯德杆菌的密切相关生物体的Cas9蛋白。

迄今为止，在嗜肺巴斯德杆菌中并未表征CRISPR-Cas9酶。在大小方面可比较的来自金黄色葡萄球菌的Cas9蛋白与PpCas9的同一性为28% ((图13，同一性程度通过BLASTp软件，默认参数进行计算)。相似程度的同一性存在于其它已知的Cas9蛋白中(未显示)。

因此，PpCas9蛋白在其氨基酸序列方面显著不同于迄今为止研究的其它Cas9蛋白。

遗传工程领域的技术人员将了解，在本说明书中通过申请人获得并表征的PpCas9蛋白序列变体可以进行修饰，而不改变蛋白质本身的功能(例如，通过并不直接影响功能活性的氨基酸残基的定向诱变) (Sambrook等人，Molecular Cloning: A LaboratoryManual，(1989)，CSH Press，第15.3-15.108页))。特别地，技术人员将认识到非保守氨基酸残基可以进行修饰，而不影响负责蛋白质功能性(决定蛋白质功能或结构)的残基。此类修饰的实例包括用同源氨基酸残基取代非保守氨基酸残基。含有非保守氨基酸残基的一些区域显示于图12中。在本发明的一些实施方案中，使用包含氨基酸序列的蛋白质以在DNA分子中形成定位紧接所述DNA分子中的核苷酸序列5’-NNNN(A/G)TT-3’之前的双链断裂是可能的，所述氨基酸序列与SEQ ID NO: 1的氨基酸序列具有至少95%同一性，且与SEQ ID NO: 1的不同之处仅在于非保守氨基酸残基。可以通过相应核酸分子的诱变(例如，定点或PCR介导的诱变)，随后按照本文描述的功能分析就其功能的保存测试所编码的修饰的Cas9蛋白质，获得同源蛋白质。

实施例4. 使用PpCas9修饰人细胞的基因组DNA。

为了修饰人细胞的基因组DNA，将PpCas9核酸酶基因克隆到在CMV启动子的控制下的真核质粒载体内。将编码核定位信号的序列加入PpCas9基因的5'和3'端中，所述核定位信号确保核酸酶递送到细胞核。将sgRNA序列克隆到在U6启动子的控制下的载体内。为了测试系统的活性，使用具有与20和24个核苷酸长度的靶DNA互补的序列的sgRNA。根据现有技术已知的带有基于SpCas9的基因组DNA修饰系统的类似质粒用作阳性对照。为了评价转染的有效性，质粒进一步带有GFP (绿色荧光蛋白)基因。人基因组DNA的下述区域用作DNA靶(表3)。

表3. 人EMX1和GRIN2B基因的DNA靶。

核酸酶	位点名称	靶序列	PAM
				PpCas9	EMX1.1 sg20	GCCCTTCCTCCTCCAGCTTC	GTT
PpCas9	EMX1.1 sg24	ТСAGGCCCTТССТССТССAGCTТС	GTT
				FpCas9	EMX1.2 sg20	GGAGGTGACATCGATGTCCT	ATT
FpCas9	EMX1.2 sg24	CATTGGAGGTGACATCGATGTCCT	ATT
				PpCas9	GRIN2B1.1 sg20	CAGCTGAAGTAATGTTAGAG	ATT
PpCas9	GRIN2B1.1 sg24	TTAGCAGCTGAAGTAATGTTAGAG	ATT
				PpCas9	GRIN2B1.2 sg20	AATAAGAAAAACATTATTAT	ATT
PpCas9	GRIN2B1.2 sg24	ATAAAATAAGAAAAACATTATTAT	ATT
				SpCas9	EMX1 sg20	GAGTCCGAGCAGAAGAAGAA	GGG
SpCas9	GRIN2B sg20	ACCTTTTATTGCCTTGTTCA	AGG

EMX1.1和EMX1.2是EMX1基因中的两个不同的修饰位点；类似地，GRIN2B1.1和GRIN2B1.2是GRIN2B基因中的两个不同的修饰位点。

DNA靶的3'端侧翼为PpCas9 5’-NNNNRTT -3'或SpCas9 5’- NGG -3'的PAM序列。

对于PpCas9核酸酶在真核细胞中的有效活性，有必要将蛋白质输入真核细胞的核内。这可以通过使用来自SV40 T抗原的核定位信号(Lanford等人，Cell，1986，46: 575–582)来完成，所述核定位信号经由Shen B等人"Generation of gene-modified mice viaCas9/RNA-mediated gene targeting"，Cell Res. 2013 May；23(5):720-3中所述的间隔区序列或无需间隔区序列与PpCas9序列连接。

在给定的实例中，在人细胞的核内部转运的核酸酶的完整氨基酸序列为下述序列：

MAPKKKRKVGIHGVPAAEQNNPLNYILGLDLGIASIGWAVVEIDEESSPIRLIDVGVRTFERAEVAKTGESLALSRRLARSSRRLIKRRAERLKKAKRLLKAEKILHSIDEKLPINVWQLRVKGLKEKLERQEWAAVLLHLSKHRGYLSQRKNEGKSDNKELGALLSGIASNHQMLQSSEYRTPAEIAVKKFQVEEGHIRNQRGSYTHTFSRLDLLAEMELLFQRQAELGNSYTSTTLLENLTALLMWQKPALAGDAILKMLGKCTFEPSEYKAAKNSYSAERFVWLTKLNNLRILENGTERALNDNERFALLEQPYEKSKLTYAQVRAMLALSDNAIFKGVRYLGEDKKTVESKTTLIEMKFYHQIRKTLGSAELKKEWNELKGNSDLLDEIGTAFSLYKTDDDICRYLEGKLPERVLNALLENLNFDKFIQLSLKALHQILPLMLQGQRYDEAVSAIYGDHYGKKSTETTRLLPTIPADEIRNPVVLRTLTQARKVINAVVRLYGSPARIHIETAREVGKSYQDRKKLEKQQEDNRKQRESAVKKFKEMFPHFVGEPKGKDILKMRLYELQQAKCLYSGKSLELHRLLEKGYVEVDHALPFSRTWDDSFNNKVLVLANENQNKGNLTPYEWLDGKNNSERWQHFVVRVQTSGFSYAKKQRILNHKLDEKGFIERNLNDTRYVARFLCNFIADNMLLVGKGKRNVFASNGQITALLRHRWGLQKVREQNDRHHALDAVVVACSTVAMQQKITRFVRYNEGNVFSGERIDRETGEIIPLHFPSPWAFFKENVEIRIFSENPKLELENRLPDYPQYNHEWVQPLFVSRMPTRKMTGQGHMETVKSAKRLNEGLSVLKVPLTQLKLSDLERMVNRDREIALYESLKARLEQFGNDPAKAFAEPFYKKGGALVKAVRLEQTQKSGVLVRDGNGVADNASMVRVDVFTKGGKYFLVPIYTWQVAKGILPNRAATQGKDENDWDIMDEMATFQFSLCQNDLIKLVTKKKTIFGYFNGLNRATSNINIKEHDLDKSKGKLGIYLEVGVKLAISLEKYQVDELGKNIRPCRPTKRQHVRFKRPAATKKAGQAKKKK

该实验中使用的质粒具有下述序列：

gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaattaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggtagtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgatttcttggctttatatatcttgtggaaaggacgaaacaccgXXXXXXXXXXXXXXXXXXXXXXXGTTGTAGCTCCCTTTTTCATTTCGCGAAAGCGAAATGAAAAACGTTGTTACAATAAGAGATGAATTTCTCGCAAAGCTCTGCCTCTTGAAATTTCGGTTTCAAGAGGCATCTTTTTtgctTCTCATGTCCAATATGACCGCCATGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtccgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttacgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtgatgcggttttggcagtacaccaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttggcaccaaaatcaacgggactttccaaaatgtcgtaataaccccgccccgttgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcAGAGCTCGTTTAGTGAACCGTCAGAATTAATTCAGATCGATCTACCaccgccaccATGATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCGAACAGAATAATCCGCTTAACTACATTCTTGGGCTGGATTTGGGAATTGCGAGTATAGGCTGGGCGGTGGTTGAGATCGATGAAGAGAGTAGTCCGATACGCCTTATCGACGTTGGAGTTAGGACGTTCGAGAGGGCGGAGGTCGCCAAGACCGGTGAGAGCTTGGCCCTCAGCCGGCGGCTCGCTCGATCTAGTCGCAGGCTTATAAAGAGGAGGGCTGAGCGCCTTAAGAAAGCTAAGAGGCTCCTTAAGGCAGAAAAAATTCTGCATAGTATCGACGAAAAGCTGCCGATAAATGTTTGGCAGCTCCGAGTAAAAGGGCTGAAGGAAAAATTGGAAAGGCAGGAGTGGGCGGCGGTACTGCTTCATCTCTCCAAGCACCGGGGCTATCTGTCTCAGCGAAAAAACGAAGGTAAGTCAGACAACAAGGAGCTGGGCGCACTTTTGTCCGGGATAGCGTCAAATCATCAGATGCTCCAATCAAGTGAGTATCGGACCCCTGCGGAGATCGCCGTTAAAAAGTTTCAAGTTGAGGAGGGCCACATCAGAAATCAGAGGGGGTCTTACACCCATACGTTCTCTAGACTCGACCTCCTTGCGGAAATGGAACTCCTGTTTCAGCGCCAGGCGGAGCTTGGTAACTCCTACACGTCCACTACCCTCCTGGAAAACCTGACAGCCCTGCTGATGTGGCAGAAGCCCGCTTTGGCGGGGGATGCCATCCTGAAGATGCTGGGTAAATGCACCTTTGAGCCGTCAGAATATAAAGCCGCCAAGAATAGTTACTCTGCGGAGCGATTTGTTTGGTTGACAAAGTTGAATAACCTGCGCATCCTGGAGAACGGTACCGAGCGCGCACTCAATGATAATGAGCGCTTCGCCCTCCTGGAACAGCCCTACGAGAAGTCCAAGCTCACCTACGCCCAAGTCAGAGCCATGCTGGCTCTTAGTGACAACGCGATTTTTAAGGGCGTGCGATACTTGGGCGAGGATAAGAAAACCGTAGAGTCAAAAACGACTCTGATCGAGATGAAATTCTATCACCAAATTAGAAAGACCCTCGGTTCTGCCGAGCTGAAAAAGGAATGGAACGAACTTAAGGGTAACAGCGACCTGCTCGATGAAATCGGTACCGCATTTAGCCTTTATAAAACGGACGACGACATCTGCCGATATTTGGAGGGGAAGCTCCCAGAGCGAGTATTGAATGCACTCCTTGAGAACCTTAATTTTGACAAGTTCATTCAGCTGTCCCTCAAAGCACTGCATCAAATCCTCCCACTTATGCTGCAAGGACAACGATACGACGAAGCCGTCAGCGCGATATATGGAGATCATTACGGAAAAAAGTCCACCGAGACCACACGACTGCTTCCTACGATCCCCGCCGATGAGATCAGAAATCCCGTAGTCCTTCGAACACTTACTCAGGCTAGGAAGGTGATTAATGCGGTAGTTAGGTTGTATGGATCTCCGGCACGGATACATATAGAAACAGCTCGCGAAGTGGGTAAATCTTACCAAGACCGCAAGAAATTGGAGAAACAACAGGAGGATAACCGAAAGCAACGAGAATCTGCCGTTAAAAAGTTTAAGGAAATGTTTCCTCACTTTGTAGGAGAACCGAAGGGTAAAGATATCTTGAAAATGCGGTTGTACGAGTTGCAGCAAGCTAAGTGTCTCTATAGCGGCAAGAGTTTGGAATTGCACCGCCTCCTGGAGAAAGGCTACGTGGAAGTAGACCATGCGCTCCCGTTTTCCCGAACCTGGGATGATTCTTTCAATAACAAAGTCCTTGTGCTGGCAAATGAGAACCAGAACAAAGGAAATCTGACTCCTTATGAGTGGTTGGATGGCAAGAATAATTCTGAGCGGTGGCAACATTTCGTTGTCCGCGTCCAAACGTCAGGGTTCAGCTATGCTAAGAAACAAAGGATCCTCAATCACAAGCTCGACGAGAAAGGATTCATAGAACGAAATTTGAATGACACTAGGTATGTGGCTCGATTTCTCTGCAATTTTATTGCTGACAATATGCTCCTCGTTGGGAAGGGAAAGCGGAATGTTTTTGCATCAAATGGGCAGATAACGGCGCTCTTGAGACATAGATGGGGGCTGCAAAAGGTGAGAGAGCAAAATGATAGACATCACGCCCTGGATGCCGTTGTAGTCGCCTGTTCAACGGTTGCGATGCAGCAAAAGATCACTCGGTTCGTTAGGTATAACGAAGGGAACGTTTTTAGTGGAGAGCGCATAGATCGGGAAACAGGCGAAATCATCCCTTTGCATTTCCCAAGTCCTTGGGCTTTTTTCAAAGAGAATGTGGAAATAAGGATATTCAGTGAAAACCCTAAGTTGGAGCTTGAGAATCGGTTGCCCGATTATCCCCAGTACAATCATGAGTGGGTTCAACCGCTGTTCGTATCCCGCATGCCAACCCGAAAGATGACCGGGCAGGGTCACATGGAGACTGTGAAATCTGCAAAGAGACTTAATGAGGGCCTGTCAGTGTTGAAGGTGCCCTTGACTCAACTGAAATTGAGCGACCTCGAGCGCATGGTAAACCGCGATAGAGAAATCGCACTTTATGAGAGTCTGAAGGCGCGATTGGAACAATTCGGTAATGATCCGGCAAAGGCTTTCGCTGAGCCATTCTACAAGAAGGGTGGAGCGCTGGTTAAGGCTGTCCGACTCGAACAGACACAAAAGTCAGGGGTCTTGGTCAGAGATGGTAACGGGGTTGCCGACAACGCCTCCATGGTACGAGTAGATGTTTTCACGAAAGGAGGAAAATACTTTCTGGTACCTATCTATACCTGGCAAGTTGCCAAGGGAATACTCCCGAATAGGGCGGCGACCCAGGGAAAGGATGAAAACGACTGGGATATAATGGATGAAATGGCTACGTTTCAGTTTAGCTTGTGCCAGAATGACCTCATAAAACTGGTAACCAAAAAAAAGACTATATTCGGGTATTTCAATGGCCTTAATCGGGCAACTTCCAATATCAACATCAAGGAACATGATCTGGATAAGAGCAAGGGAAAGCTTGGTATCTATCTCGAAGTTGGAGTCAAGCTCGCTATTTCCCTCGAGAAATATCAAGTAGATGAACTGGGAAAGAATATACGGCCATGCCGGCCCACAAAAAGACAACACGTACGGTTCAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCGGCGCAACAAACTTCTCTCTGCTGAAACAAGCCGGAGATGTCGAAGAGAATCCTGGACCGgtgagcaagggcgaggagctgttcaccggggtggtgcccatcctggtcgagctggacggcgacgtaaacggccacaagttcagcgtgtccggcgagggcgagggcgatgccacctacggcaagctgaccctgaagttcatctgcaccaccggcaagctgcccgtgccctggcccaccctcgtgaccaccctgacctacggcgtgcagtgcttcagccgctaccccgaccacatgaagcagcacgacttcttcaagtccgccatgcccgaaggctacgtccaggagcgcaccatcttcttcaaggacgacggcaactacaagacccgcgccgaggtgaagttcgagggcgacaccctggtgaaccgcatcgagctgaagggcatcgacttcaaggaggacggcaacatcctggggcacaagctggagtacaactacaacagccacaacgtctatatcatggccgacaagcagaagaacggcatcaaggtgaacttcaagatccgccacaacatcgaggacggcagcgtgcagctcgccgaccactaccagcagaacacccccatcggcgacggccccgtgctgctgcccgacaaccactacctgagcacccagtccgccctgagcaaagaccccaacgagaagcgcgatcacatggtcctgctggagttcgtgaccgccgccgggatcactctcggcatggacgagctgtacaagTAA

在质粒序列中区分了下述部分：U6启动子(第一个区域，大写字母)，与前间隔序列互补的序列(“XXX-XXX")，sgRNA的保守部分(第三个区域，大写字母)，PpCas9基因(以粗体突出显示)，GFP基因(最后一个区域，大写字母)。

使用Lipofectamine 2000试剂，将具有PpCas9或SpCas9的质粒转染到人HEK293T细胞培养物内。在转染之后72小时使细胞裂解，使所得到的裂解物经受PCR，以生成包括基因组DNA的靶修饰位点的区域。使所得到的PCR片段经受与T7核酸内切酶I的体外反应，以确定基因组DNA的靶位点中的插入和缺失频率。将反应产物施加到琼脂糖凝胶上并经受电泳。图14A显示了PpCas9活跃地引入对EMX1和GRIN2b基因的修饰，其效率类似于现有技术中描述的SpCas9核酸酶。

该实验显示，为了有效地修饰基因组DNA，与SpCas9相比，PpCas9需要延长的sgRNA：在给定的实例中，当使用具有与长度为24个核苷酸的DNA靶互补的序列的sgRNA时，遗传修饰的效率更高(与20个核苷酸的长度相比)。

高通量测序确认了在靶DNA位点中引入的修饰。图14B显示了对EMX1基因的核苷酸序列的可检测修饰的实例。

以核糖核酸复合物形式的递送也可以用于将NLS_PpCas9_NLS递送到人细胞。它通过使重组形式的PpCas9 NLS与引导RNA一起在CutSmart缓冲液(NEB)中温育来进行。通过经由亲和色谱(NiNTA，Qiagen)与尺寸排阻(Superdex 200)纯化重组蛋白质，由细菌生产细胞产生重组蛋白质。

蛋白质以1:2 (PpCas9 NLS : sgRNA)的比率与RNA混合，使混合物在室温下温育10分钟，然后转染到细胞内。

接下来，分析从其中提取的DNA在靶DNA位点处的插入/缺失(如上所述)。

可以使用技术人员已知的标准途径和方法，将本发明表征的来自细菌嗜肺巴斯德杆菌的PpCas9核酸酶递送到各种起源的细胞，用于修饰DNA。与先前表征的Cas9蛋白相比，PpCas9具有许多优点。

PpCas9具有与其它已知的Cas核酸酶不同的短的两字母PAM，其是系统发挥功能所必需的。本发明已表明，定位远离前间隔序列4个核苷酸的短PAM (RTT)的存在足以使PpCas9在体内成功发挥功能。

迄今为止已知的能够将双链断裂引入DNA内的许多小尺寸的Cas核酸酶具有复杂的多字母PAM序列，限制了适合于切割的序列的选择。在迄今为止研究的识别短PAM的Cas核酸酶中，仅PpCas9能够识别侧翼为RTT基序的序列。

PpCas9的第二个优点是蛋白质的小尺寸(1055个aar)。迄今为止，它是所研究的具有三字母RTT РАМ序列的唯一的小尺寸蛋白质。

PpCas9是新型的、小尺寸的Cas核酸酶，具有短的、易于使用的PAM，其不同于目前已知的其它核酸酶的PAM序列。PpCas9蛋白在37℃下以高效率切割各种DNA靶，包括人细胞中的基因组DNA，并且可能成为新基因组编辑工具的基础。

尽管本发明已参考所公开的实施方案进行描述，但本领域技术人员将了解，已提供详细描述的特定实施方案用于说明本发明的目的，并且不应被解释为以任何方式限制本发明的范围。应理解，可以进行各种修改而不背离本发明的精神。

序列表

<110>高等教育斯科尔科沃科学技术学院的自治非营利教育组织

<120> 来自细菌嗜肺巴斯德杆菌的CAS9蛋白的用途

<130> 424316

<150> RU 2019136164

<151> 2019-11-11

<160> 2

<210> 1

<211> 1055

<212> PRT

<213> 嗜肺巴斯德杆菌

<220>

<223> 与Cas9同源的蛋白质

<400> 1

Met Gln Asn Asn Pro Leu Asn Tyr Ile Leu Gly Leu Asp Leu Gly Ile

1 5 10 15

Ala Ser Ile Gly Trp Ala Val Val Glu Ile Asp Glu Glu Ser Ser Pro

20 25 30

Ile Arg Leu Ile Asp Val Gly Val Arg Thr Phe Glu Arg Ala Glu Val

35 40 45

Ala Lys Thr Gly Glu Ser Leu Ala Leu Ser Arg Arg Leu Ala Arg Ser

50 55 60

Ser Arg Arg Leu Ile Lys Arg Arg Ala Glu Arg Leu Lys Lys Ala Lys

65 70 75 80

Arg Leu Leu Lys Ala Glu Lys Ile Leu His Ser Ile Asp Glu Lys Leu

85 90 95

Pro Ile Asn Val Trp Gln Leu Arg Val Lys Gly Leu Lys Glu Lys Leu

100 105 110

Glu Arg Gln Glu Trp Ala Ala Val Leu Leu His Leu Ser Lys His Arg

115 120 125

Gly Tyr Leu Ser Gln Arg Lys Asn Glu Gly Lys Ser Asp Asn Lys Glu

130 135 140

Leu Gly Ala Leu Leu Ser Gly Ile Ala Ser Asn His Gln Met Leu Gln

145 150 155 160

Ser Ser Glu Tyr Arg Thr Pro Ala Glu Ile Ala Val Lys Lys Phe Gln

165 170 175

Val Glu Glu Gly His Ile Arg Asn Gln Arg Gly Ser Tyr Thr His Thr

180 185 190

Phe Ser Arg Leu Asp Leu Leu Ala Glu Met Glu Leu Leu Phe Gln Arg

195 200 205

Gln Ala Glu Leu Gly Asn Ser Tyr Thr Ser Thr Thr Leu Leu Glu Asn

210 215 220

Leu Thr Ala Leu Leu Met Trp Gln Lys Pro Ala Leu Ala Gly Asp Ala

225 230 235 240

Ile Leu Lys Met Leu Gly Lys Cys Thr Phe Glu Pro Ser Glu Tyr Lys

245 250 255

Ala Ala Lys Asn Ser Tyr Ser Ala Glu Arg Phe Val Trp Leu Thr Lys

260 265 270

Leu Asn Asn Leu Arg Ile Leu Glu Asn Gly Thr Glu Arg Ala Leu Asn

275 280 285

Asp Asn Glu Arg Phe Ala Leu Leu Glu Gln Pro Tyr Glu Lys Ser Lys

290 295 300

Leu Thr Tyr Ala Gln Val Arg Ala Met Leu Ala Leu Ser Asp Asn Ala

305 310 315 320

Ile Phe Lys Gly Val Arg Tyr Leu Gly Glu Asp Lys Lys Thr Val Glu

325 330 335

Ser Lys Thr Thr Leu Ile Glu Met Lys Phe Tyr His Gln Ile Arg Lys

340 345 350

Thr Leu Gly Ser Ala Glu Leu Lys Lys Glu Trp Asn Glu Leu Lys Gly

355 360 365

Asn Ser Asp Leu Leu Asp Glu Ile Gly Thr Ala Phe Ser Leu Tyr Lys

370 375 380

Thr Asp Asp Asp Ile Cys Arg Tyr Leu Glu Gly Lys Leu Pro Glu Arg

385 390 395 400

Val Leu Asn Ala Leu Leu Glu Asn Leu Asn Phe Asp Lys Phe Ile Gln

405 410 415

Leu Ser Leu Lys Ala Leu His Gln Ile Leu Pro Leu Met Leu Gln Gly

420 425 430

Gln Arg Tyr Asp Glu Ala Val Ser Ala Ile Tyr Gly Asp His Tyr Gly

435 440 445

Lys Lys Ser Thr Glu Thr Thr Arg Leu Leu Pro Thr Ile Pro Ala Asp

450 455 460

Glu Ile Arg Asn Pro Val Val Leu Arg Thr Leu Thr Gln Ala Arg Lys

465 470 475 480

Val Ile Asn Ala Val Val Arg Leu Tyr Gly Ser Pro Ala Arg Ile His

485 490 495

Ile Glu Thr Ala Arg Glu Val Gly Lys Ser Tyr Gln Asp Arg Lys Lys

500 505 510

Leu Glu Lys Gln Gln Glu Asp Asn Arg Lys Gln Arg Glu Ser Ala Val

515 520 525

Lys Lys Phe Lys Glu Met Phe Pro His Phe Val Gly Glu Pro Lys Gly

530 535 540

Lys Asp Ile Leu Lys Met Arg Leu Tyr Glu Leu Gln Gln Ala Lys Cys

545 550 555 560

Leu Tyr Ser Gly Lys Ser Leu Glu Leu His Arg Leu Leu Glu Lys Gly

565 570 575

Tyr Val Glu Val Asp His Ala Leu Pro Phe Ser Arg Thr Trp Asp Asp

580 585 590

Ser Phe Asn Asn Lys Val Leu Val Leu Ala Asn Glu Asn Gln Asn Lys

595 600 605

Gly Asn Leu Thr Pro Tyr Glu Trp Leu Asp Gly Lys Asn Asn Ser Glu

610 615 620

Arg Trp Gln His Phe Val Val Arg Val Gln Thr Ser Gly Phe Ser Tyr

625 630 635 640

Ala Lys Lys Gln Arg Ile Leu Asn His Lys Leu Asp Glu Lys Gly Phe

645 650 655

Ile Glu Arg Asn Leu Asn Asp Thr Arg Tyr Val Ala Arg Phe Leu Cys

660 665 670

Asn Phe Ile Ala Asp Asn Met Leu Leu Val Gly Lys Gly Lys Arg Asn

675 680 685

Val Phe Ala Ser Asn Gly Gln Ile Thr Ala Leu Leu Arg His Arg Trp

690 695 700

Gly Leu Gln Lys Val Arg Glu Gln Asn Asp Arg His His Ala Leu Asp

705 710 715 720

Ala Val Val Val Ala Cys Ser Thr Val Ala Met Gln Gln Lys Ile Thr

725 730 735

Arg Phe Val Arg Tyr Asn Glu Gly Asn Val Phe Ser Gly Glu Arg Ile

740 745 750

Asp Arg Glu Thr Gly Glu Ile Ile Pro Leu His Phe Pro Ser Pro Trp

755 760 765

Ala Phe Phe Lys Glu Asn Val Glu Ile Arg Ile Phe Ser Glu Asn Pro

770 775 780

Lys Leu Glu Leu Glu Asn Arg Leu Pro Asp Tyr Pro Gln Tyr Asn His

785 790 795 800

Glu Trp Val Gln Pro Leu Phe Val Ser Arg Met Pro Thr Arg Lys Met

805 810 815

Thr Gly Gln Gly His Met Glu Thr Val Lys Ser Ala Lys Arg Leu Asn

820 825 830

Glu Gly Leu Ser Val Leu Lys Val Pro Leu Thr Gln Leu Lys Leu Ser

835 840 845

Asp Leu Glu Arg Met Val Asn Arg Asp Arg Glu Ile Ala Leu Tyr Glu

850 855 860

Ser Leu Lys Ala Arg Leu Glu Gln Phe Gly Asn Asp Pro Ala Lys Ala

865 870 875 880

Phe Ala Glu Pro Phe Tyr Lys Lys Gly Gly Ala Leu Val Lys Ala Val

885 890 895

Arg Leu Glu Gln Thr Gln Lys Ser Gly Val Leu Val Arg Asp Gly Asn

900 905 910

Gly Val Ala Asp Asn Ala Ser Met Val Arg Val Asp Val Phe Thr Lys

915 920 925

Gly Gly Lys Tyr Phe Leu Val Pro Ile Tyr Thr Trp Gln Val Ala Lys

930 935 940

Gly Ile Leu Pro Asn Arg Ala Ala Thr Gln Gly Lys Asp Glu Asn Asp

945 950 955 960

Trp Asp Ile Met Asp Glu Met Ala Thr Phe Gln Phe Ser Leu Cys Gln

965 970 975

Asn Asp Leu Ile Lys Leu Val Thr Lys Lys Lys Thr Ile Phe Gly Tyr

980 985 990

Phe Asn Gly Leu Asn Arg Ala Thr Ser Asn Ile Asn Ile Lys Glu His

995 1000 1005

Asp Leu Asp Lys Ser Lys Gly Lys Leu Gly Ile Tyr Leu Glu Val Gly

1010 1015 1020

Val Lys Leu Ala Ile Ser Leu Glu Lys Tyr Gln Val Asp Glu Leu Gly

1025 1030 1035 1040

Lys Asn Ile Arg Pro Cys Arg Pro Thr Lys Arg Gln His Val Arg

1045 1050 1055

<210> 2

<211> 3168

<212> DNA

<213> 嗜肺巴斯德杆菌

<220>

<223> 与Cas9同源的蛋白质

<400> 2

atgcaaaata atccattaaa ttacatttta gggttagatt taggcattgc ttctattggt 60

tgggcggttg tggaaattga tgaggagagt tcacctattc gcttaattga tgtgggcgtc 120

cgtacatttg aacgggctga agtcgctaaa accggcgaaa gtttagcatt gtctcgtcgt 180

ttagctcgtt catcacggcg attaattaaa cgccgagcag agcgattaaa aaaagcaaaa 240

cgtttattaa aagcagaaaa gattttacat tctattgatg aaaaattacc cattaatgtt 300

tggcagcttc gagtaaaagg attgaaggaa aaactcgaac gtcaggagtg ggcagcggtt 360

ttattacatt tgtcaaagca tcgtggctat ttatcacaac gtaaaaatga gggtaaaagt 420

gataataaag agctgggggc attactttca ggtatcgcaa gtaaccacca aatgttgcaa 480

tcctccgaat atcgtacccc tgcagaaatt gcagtcaaaa aatttcaagt agaagaagga 540

catattcgta atcaacgtgg atcttatacc cataccttta gccgtttgga tttgttggca 600

gaaatggaat tattatttca acgccaagct gagttaggca attcttacac gtccaccaca 660

ttattagaaa atttgacggc gttactaatg tggcaaaagc cagctcttgc gggtgatgcg 720

attttaaaaa tgttgggcaa gtgtaccttc gaacccagcg aatataaagc cgcaaaaaat 780

agttattctg ctgaacgttt tgtgtggtta accaagctga ataatttacg cattttagaa 840

aatggcacgg aaagagcttt aaatgacaat gaacgttttg ctttgcttga gcaaccgtat 900

gagaaatcaa aattaactta tgctcaagtg agagcaatgc ttgcgttatc tgataatgct 960

attttcaaag gggttcgtta tttaggcgaa gataaaaaaa cagtagagag caaaactacg 1020

ttgatagaaa tgaagtttta tcatcaaatc cgcaaaacat taggcagtgc agaattaaaa 1080

aaggaatgga atgagttaaa aggcaattcc gatttattag atgagattgg cacggcattt 1140

tcgttgtata aaacggatga tgatatttgc cgttatttag agggaaaact accagaaagg 1200

gtattaaatg cgttattgga aaatttaaat ttcgataaat ttattcaact ttcacttaaa 1260

gccttacacc aaattttacc attgatgctg caagggcaac gttatgatga ggcggtttct 1320

gcgatttatg gtgatcatta tggtaaaaaa tcgacagaaa caacccgctt gttgccgact 1380

attcctgccg atgaaatccg aaatcctgtg gtattacgca ccctgaccca agcccgtaaa 1440

gtgatcaatg cggtggtgcg gttatatggt tcgcctgccc gtattcatat tgaaacagcg 1500

agagaagtcg gcaaatctta ccaagatcgt aaaaaacttg aaaaacagca agaagataat 1560

cgtaagcaac gtgaaagtgc ggtcaaaaaa tttaaagaaa tgtttccgca ttttgtgggg 1620

gagccgaaag gtaaagatat tttaaaaatg cgattgtatg agttacaaca agcgaaatgt 1680

ttatattctg gaaaatcttt agaacttcat cgtttgcttg agaaggggta tgtagaagtg 1740

gatcacgctt tgccattttc tcgcacgtgg gatgatagct ttaataataa agtactggtg 1800

cttgccaacg agaaccaaaa taaaggcaat ttaacgcctt atgaatggtt agatggtaaa 1860

aataacagtg agcgttggca acattttgtt gtacgagtac aaaccagcgg tttctcttat 1920

gctaaaaaac aacgcatttt gaaccataaa ttggatgaaa aagggtttat cgaacgtaat 1980

ttaaacgata ctcgctatgt agctcgtttc ttatgtaact ttattgccga taatatgttg 2040

ttggttggta aaggcaagcg aaacgtgttt gcttcaaacg ggcaaatcac ggcgttattg 2100

cggcatcgtt ggggcttaca aaaagtgcgt gaacagaatg atcgccacca cgcactggac 2160

gcggttgtgg tggcttgctc tactgtggca atgcaacaaa aaatcactcg atttgtgaga 2220

tataacgaag gaaatgtctt tagcggtgaa cgtatcgatc gtgaaactgg cgagattatt 2280

ccattacatt ttccaagccc ttgggctttt ttcaaagaga atgtggaaat tcgcattttt 2340

agtgaaaatc caaaattgga attagaaaat cgcctgcctg attatccgca atataatcac 2400

gaatgggtgc aaccattgtt tgtttcgaga atgccaaccc gaaaaatgac agggcaaggg 2460

catatggaaa cggtaaaatc cgcaaaacga ttaaatgaag gtttaagtgt gttaaaagtc 2520

cctttaacac aacttaaatt gagtgattta gaacgaatgg ttaatcgtga tcgtgaaatt 2580

gcattgtatg aatccttaaa agcacgttta gagcaatttg gtaacgaccc agccaaagcc 2640

tttgccgaac cattctataa aaagggtggg gcattagtca aagcagtccg attggaacaa 2700

acacaaaaat cgggggtatt agtacgtgat ggtaacggtg ttgcggataa tgcttcaatg 2760

gtacgggttg atgtttttac taaaggtgga aaatatttct tagtgccgat ttatacttgg 2820

caggtagcga aagggatttt accgaatagg gctgcgacac aaggtaaaga tgaaaatgat 2880

tgggatatta tggatgaaat ggctactttc caattttctc tatgtcaaaa tgatctaatt 2940

aaattagtta ccaaaaagaa aacaatcttt ggatatttta atggattaaa tagagctact 3000

agcaatataa atattaaaga gcatgatcta gataagtcta aagggaaatt aggtatttac 3060

ttagaagttg gtgtaaaact agctatttcc cttgaaaagt accaagtcga cgaactcggc 3120

aaaaatatcc gtccttgtcg tccgactaaa cgacagcacg tgcgttaa 3168

序列表

<110> JSC BIOCAD

<120> 来自细菌嗜肺巴斯德杆菌的CAS9蛋白的用途

<150> RU 2019136164

<151> 2019-11-11

<160> 2

<210> 1

<211> 1055

<212> PRT

<213> 嗜肺巴斯德杆菌

<220>

<223> 与Cas9同源的蛋白质

<400> 1

Met Gln Asn Asn Pro Leu Asn Tyr Ile Leu Gly Leu Asp Leu Gly Ile

1 5 10 15

Ala Ser Ile Gly Trp Ala Val Val Glu Ile Asp Glu Glu Ser Ser Pro

20 25 30

Ile Arg Leu Ile Asp Val Gly Val Arg Thr Phe Glu Arg Ala Glu Val

35 40 45

Ala Lys Thr Gly Glu Ser Leu Ala Leu Ser Arg Arg Leu Ala Arg Ser

50 55 60

Ser Arg Arg Leu Ile Lys Arg Arg Ala Glu Arg Leu Lys Lys Ala Lys

65 70 75 80

Arg Leu Leu Lys Ala Glu Lys Ile Leu His Ser Ile Asp Glu Lys Leu

85 90 95

Pro Ile Asn Val Trp Gln Leu Arg Val Lys Gly Leu Lys Glu Lys Leu

100 105 110

Glu Arg Gln Glu Trp Ala Ala Val Leu Leu His Leu Ser Lys His Arg

115 120 125

Gly Tyr Leu Ser Gln Arg Lys Asn Glu Gly Lys Ser Asp Asn Lys Glu

130 135 140

Leu Gly Ala Leu Leu Ser Gly Ile Ala Ser Asn His Gln Met Leu Gln

145 150 155 160

Ser Ser Glu Tyr Arg Thr Pro Ala Glu Ile Ala Val Lys Lys Phe Gln

165 170 175

Val Glu Glu Gly His Ile Arg Asn Gln Arg Gly Ser Tyr Thr His Thr

180 185 190

Phe Ser Arg Leu Asp Leu Leu Ala Glu Met Glu Leu Leu Phe Gln Arg

195 200 205

Gln Ala Glu Leu Gly Asn Ser Tyr Thr Ser Thr Thr Leu Leu Glu Asn

210 215 220

Leu Thr Ala Leu Leu Met Trp Gln Lys Pro Ala Leu Ala Gly Asp Ala

225 230 235 240

Ile Leu Lys Met Leu Gly Lys Cys Thr Phe Glu Pro Ser Glu Tyr Lys

245 250 255

Ala Ala Lys Asn Ser Tyr Ser Ala Glu Arg Phe Val Trp Leu Thr Lys

260 265 270

Leu Asn Asn Leu Arg Ile Leu Glu Asn Gly Thr Glu Arg Ala Leu Asn

275 280 285

Asp Asn Glu Arg Phe Ala Leu Leu Glu Gln Pro Tyr Glu Lys Ser Lys

290 295 300

Leu Thr Tyr Ala Gln Val Arg Ala Met Leu Ala Leu Ser Asp Asn Ala

305 310 315 320

Ile Phe Lys Gly Val Arg Tyr Leu Gly Glu Asp Lys Lys Thr Val Glu

325 330 335

Ser Lys Thr Thr Leu Ile Glu Met Lys Phe Tyr His Gln Ile Arg Lys

340 345 350

Thr Leu Gly Ser Ala Glu Leu Lys Lys Glu Trp Asn Glu Leu Lys Gly

355 360 365

Asn Ser Asp Leu Leu Asp Glu Ile Gly Thr Ala Phe Ser Leu Tyr Lys

370 375 380

Thr Asp Asp Asp Ile Cys Arg Tyr Leu Glu Gly Lys Leu Pro Glu Arg

385 390 395 400

Val Leu Asn Ala Leu Leu Glu Asn Leu Asn Phe Asp Lys Phe Ile Gln

405 410 415

Leu Ser Leu Lys Ala Leu His Gln Ile Leu Pro Leu Met Leu Gln Gly

420 425 430

Gln Arg Tyr Asp Glu Ala Val Ser Ala Ile Tyr Gly Asp His Tyr Gly

435 440 445

Lys Lys Ser Thr Glu Thr Thr Arg Leu Leu Pro Thr Ile Pro Ala Asp

450 455 460

Glu Ile Arg Asn Pro Val Val Leu Arg Thr Leu Thr Gln Ala Arg Lys

465 470 475 480

Val Ile Asn Ala Val Val Arg Leu Tyr Gly Ser Pro Ala Arg Ile His

485 490 495

Ile Glu Thr Ala Arg Glu Val Gly Lys Ser Tyr Gln Asp Arg Lys Lys

500 505 510

Leu Glu Lys Gln Gln Glu Asp Asn Arg Lys Gln Arg Glu Ser Ala Val

515 520 525

Lys Lys Phe Lys Glu Met Phe Pro His Phe Val Gly Glu Pro Lys Gly

530 535 540

Lys Asp Ile Leu Lys Met Arg Leu Tyr Glu Leu Gln Gln Ala Lys Cys

545 550 555 560

Leu Tyr Ser Gly Lys Ser Leu Glu Leu His Arg Leu Leu Glu Lys Gly

565 570 575

Tyr Val Glu Val Asp His Ala Leu Pro Phe Ser Arg Thr Trp Asp Asp

580 585 590

Ser Phe Asn Asn Lys Val Leu Val Leu Ala Asn Glu Asn Gln Asn Lys

595 600 605

Gly Asn Leu Thr Pro Tyr Glu Trp Leu Asp Gly Lys Asn Asn Ser Glu

610 615 620

Arg Trp Gln His Phe Val Val Arg Val Gln Thr Ser Gly Phe Ser Tyr

625 630 635 640

Ala Lys Lys Gln Arg Ile Leu Asn His Lys Leu Asp Glu Lys Gly Phe

645 650 655

Ile Glu Arg Asn Leu Asn Asp Thr Arg Tyr Val Ala Arg Phe Leu Cys

660 665 670

Asn Phe Ile Ala Asp Asn Met Leu Leu Val Gly Lys Gly Lys Arg Asn

675 680 685

Val Phe Ala Ser Asn Gly Gln Ile Thr Ala Leu Leu Arg His Arg Trp

690 695 700

Gly Leu Gln Lys Val Arg Glu Gln Asn Asp Arg His His Ala Leu Asp

705 710 715 720

Ala Val Val Val Ala Cys Ser Thr Val Ala Met Gln Gln Lys Ile Thr

725 730 735

Arg Phe Val Arg Tyr Asn Glu Gly Asn Val Phe Ser Gly Glu Arg Ile

740 745 750

Asp Arg Glu Thr Gly Glu Ile Ile Pro Leu His Phe Pro Ser Pro Trp

755 760 765

Ala Phe Phe Lys Glu Asn Val Glu Ile Arg Ile Phe Ser Glu Asn Pro

770 775 780

Lys Leu Glu Leu Glu Asn Arg Leu Pro Asp Tyr Pro Gln Tyr Asn His

785 790 795 800

Glu Trp Val Gln Pro Leu Phe Val Ser Arg Met Pro Thr Arg Lys Met

805 810 815

Thr Gly Gln Gly His Met Glu Thr Val Lys Ser Ala Lys Arg Leu Asn

820 825 830

Glu Gly Leu Ser Val Leu Lys Val Pro Leu Thr Gln Leu Lys Leu Ser

835 840 845

Asp Leu Glu Arg Met Val Asn Arg Asp Arg Glu Ile Ala Leu Tyr Glu

850 855 860

Ser Leu Lys Ala Arg Leu Glu Gln Phe Gly Asn Asp Pro Ala Lys Ala

865 870 875 880

Phe Ala Glu Pro Phe Tyr Lys Lys Gly Gly Ala Leu Val Lys Ala Val

885 890 895

Arg Leu Glu Gln Thr Gln Lys Ser Gly Val Leu Val Arg Asp Gly Asn

900 905 910

Gly Val Ala Asp Asn Ala Ser Met Val Arg Val Asp Val Phe Thr Lys

915 920 925

Gly Gly Lys Tyr Phe Leu Val Pro Ile Tyr Thr Trp Gln Val Ala Lys

930 935 940

Gly Ile Leu Pro Asn Arg Ala Ala Thr Gln Gly Lys Asp Glu Asn Asp

945 950 955 960

Trp Asp Ile Met Asp Glu Met Ala Thr Phe Gln Phe Ser Leu Cys Gln

965 970 975

Asn Asp Leu Ile Lys Leu Val Thr Lys Lys Lys Thr Ile Phe Gly Tyr

980 985 990

Phe Asn Gly Leu Asn Arg Ala Thr Ser Asn Ile Asn Ile Lys Glu His

995 1000 1005

Asp Leu Asp Lys Ser Lys Gly Lys Leu Gly Ile Tyr Leu Glu Val Gly

1010 1015 1020

Val Lys Leu Ala Ile Ser Leu Glu Lys Tyr Gln Val Asp Glu Leu Gly

1025 1030 1035 1040

Lys Asn Ile Arg Pro Cys Arg Pro Thr Lys Arg Gln His Val Arg

1045 1050 1055

<210> 2

<211> 3168

<212> DNA

<213> 嗜肺巴斯德杆菌

<220>

<223> 与Cas9同源的蛋白质

<400> 2

atgcaaaata atccattaaa ttacatttta gggttagatt taggcattgc ttctattggt 60

tgggcggttg tggaaattga tgaggagagt tcacctattc gcttaattga tgtgggcgtc 120

cgtacatttg aacgggctga agtcgctaaa accggcgaaa gtttagcatt gtctcgtcgt 180

ttagctcgtt catcacggcg attaattaaa cgccgagcag agcgattaaa aaaagcaaaa 240

cgtttattaa aagcagaaaa gattttacat tctattgatg aaaaattacc cattaatgtt 300

tggcagcttc gagtaaaagg attgaaggaa aaactcgaac gtcaggagtg ggcagcggtt 360

ttattacatt tgtcaaagca tcgtggctat ttatcacaac gtaaaaatga gggtaaaagt 420

gataataaag agctgggggc attactttca ggtatcgcaa gtaaccacca aatgttgcaa 480

tcctccgaat atcgtacccc tgcagaaatt gcagtcaaaa aatttcaagt agaagaagga 540

catattcgta atcaacgtgg atcttatacc cataccttta gccgtttgga tttgttggca 600

gaaatggaat tattatttca acgccaagct gagttaggca attcttacac gtccaccaca 660

ttattagaaa atttgacggc gttactaatg tggcaaaagc cagctcttgc gggtgatgcg 720

attttaaaaa tgttgggcaa gtgtaccttc gaacccagcg aatataaagc cgcaaaaaat 780

agttattctg ctgaacgttt tgtgtggtta accaagctga ataatttacg cattttagaa 840

aatggcacgg aaagagcttt aaatgacaat gaacgttttg ctttgcttga gcaaccgtat 900

gagaaatcaa aattaactta tgctcaagtg agagcaatgc ttgcgttatc tgataatgct 960

attttcaaag gggttcgtta tttaggcgaa gataaaaaaa cagtagagag caaaactacg 1020

ttgatagaaa tgaagtttta tcatcaaatc cgcaaaacat taggcagtgc agaattaaaa 1080

aaggaatgga atgagttaaa aggcaattcc gatttattag atgagattgg cacggcattt 1140

tcgttgtata aaacggatga tgatatttgc cgttatttag agggaaaact accagaaagg 1200

gtattaaatg cgttattgga aaatttaaat ttcgataaat ttattcaact ttcacttaaa 1260

gccttacacc aaattttacc attgatgctg caagggcaac gttatgatga ggcggtttct 1320

gcgatttatg gtgatcatta tggtaaaaaa tcgacagaaa caacccgctt gttgccgact 1380

attcctgccg atgaaatccg aaatcctgtg gtattacgca ccctgaccca agcccgtaaa 1440

gtgatcaatg cggtggtgcg gttatatggt tcgcctgccc gtattcatat tgaaacagcg 1500

agagaagtcg gcaaatctta ccaagatcgt aaaaaacttg aaaaacagca agaagataat 1560

cgtaagcaac gtgaaagtgc ggtcaaaaaa tttaaagaaa tgtttccgca ttttgtgggg 1620

gagccgaaag gtaaagatat tttaaaaatg cgattgtatg agttacaaca agcgaaatgt 1680

ttatattctg gaaaatcttt agaacttcat cgtttgcttg agaaggggta tgtagaagtg 1740

gatcacgctt tgccattttc tcgcacgtgg gatgatagct ttaataataa agtactggtg 1800

cttgccaacg agaaccaaaa taaaggcaat ttaacgcctt atgaatggtt agatggtaaa 1860

aataacagtg agcgttggca acattttgtt gtacgagtac aaaccagcgg tttctcttat 1920

gctaaaaaac aacgcatttt gaaccataaa ttggatgaaa aagggtttat cgaacgtaat 1980

ttaaacgata ctcgctatgt agctcgtttc ttatgtaact ttattgccga taatatgttg 2040

ttggttggta aaggcaagcg aaacgtgttt gcttcaaacg ggcaaatcac ggcgttattg 2100

cggcatcgtt ggggcttaca aaaagtgcgt gaacagaatg atcgccacca cgcactggac 2160

gcggttgtgg tggcttgctc tactgtggca atgcaacaaa aaatcactcg atttgtgaga 2220

tataacgaag gaaatgtctt tagcggtgaa cgtatcgatc gtgaaactgg cgagattatt 2280

ccattacatt ttccaagccc ttgggctttt ttcaaagaga atgtggaaat tcgcattttt 2340

agtgaaaatc caaaattgga attagaaaat cgcctgcctg attatccgca atataatcac 2400

gaatgggtgc aaccattgtt tgtttcgaga atgccaaccc gaaaaatgac agggcaaggg 2460

catatggaaa cggtaaaatc cgcaaaacga ttaaatgaag gtttaagtgt gttaaaagtc 2520

cctttaacac aacttaaatt gagtgattta gaacgaatgg ttaatcgtga tcgtgaaatt 2580

gcattgtatg aatccttaaa agcacgttta gagcaatttg gtaacgaccc agccaaagcc 2640

tttgccgaac cattctataa aaagggtggg gcattagtca aagcagtccg attggaacaa 2700

acacaaaaat cgggggtatt agtacgtgat ggtaacggtg ttgcggataa tgcttcaatg 2760

gtacgggttg atgtttttac taaaggtgga aaatatttct tagtgccgat ttatacttgg 2820

caggtagcga aagggatttt accgaatagg gctgcgacac aaggtaaaga tgaaaatgat 2880

tgggatatta tggatgaaat ggctactttc caattttctc tatgtcaaaa tgatctaatt 2940

aaattagtta ccaaaaagaa aacaatcttt ggatatttta atggattaaa tagagctact 3000

agcaatataa atattaaaga gcatgatcta gataagtcta aagggaaatt aggtatttac 3060

ttagaagttg gtgtaaaact agctatttcc cttgaaaagt accaagtcga cgaactcggc 3120

aaaaatatcc gtccttgtcg tccgactaaa cgacagcacg tgcgttaa 3168

Claims

1. 蛋白质在DNA分子中形成定位紧接所述DNA分子中的核苷酸序列5’-NNNN(A/G)TT-3’之前的双链断裂的用途，所述蛋白质包含SEQ ID NO: 1的氨基酸序列，或包含与SEQ IDNO: 1的氨基酸序列具有至少95%同一性且与SEQ ID NO: 1的不同之处仅在于非保守氨基酸残基的氨基酸序列。

2.根据权利要求1所述的用途，其特征在于所述DNA分子中的双链断裂在35℃至45℃的温度下形成。

3. 根据权利要求1所述的蛋白质的用途，其中所述蛋白质包含SEQ ID NO: 1的氨基酸序列。

4.根据权利要求1所述的用途，其特征在于所述DNA分子中的双链断裂在哺乳动物细胞的基因组DNA中形成。

5.根据权利要求4所述的用途，其特征在于所述DNA分子中的双链断裂导致所述哺乳动物细胞的基因组DNA的修饰。

6. 一种用于修饰包含基因组DNA的单细胞或多细胞生物体的细胞中的基因组DNA序列的方法，所述方法包括将有效量的以下引入生物体的所述细胞内：a)包含SEQ ID NO: 1的氨基酸序列的蛋白质、或编码包含SEQ ID NO: 1的氨基酸序列的蛋白质的核酸，和b)包含与生物体的基因组DNA区域的核苷酸序列形成双链体的序列的引导RNA或编码所述引导RNA的DNA序列，所述核苷酸序列与核苷酸序列5’-NNNN(A/G)TT-3’直接相邻，并且在双链体形成之后与所述蛋白质相互作用；

其中所述蛋白质与引导RNA和核苷酸序列5’-NNNN(A/G)TT-3’的相互作用导致在紧邻序列5’-NNNN(A/G)TT-3’的基因组DNA序列中的双链断裂形成。

7.根据权利要求6所述的方法，其进一步包括与所述引导RNA同时引入外源DNA序列。

8.根据权利要求6所述的方法，其特征在于所述细胞是哺乳动物细胞。