CN111902536A

CN111902536A - 用于真核基因组修饰的改造的cas9系统

Info

Publication number: CN111902536A
Application number: CN201980013625.2A
Authority: CN
Inventors: T.西贝克; 陈福强; G.戴维斯
Original assignee: Sigma Aldrich Co LLC
Current assignee: Sigma Aldrich Co LLC
Priority date: 2018-02-15
Filing date: 2019-02-15
Publication date: 2020-11-06
Also published as: AU2019222568A1; US10767193B2; SG11202007382TA; JP2022122910A; KR20200121342A; WO2019161290A1; KR102494449B1; CA3084020A1; JP2021505180A; KR102465067B1; BR112020010479A2; JP7109547B2; KR20220015502A; IL274528A; AU2022200130B2; KR20230022258A; AU2022200130A1; EP3752607A1; AU2024202158A1; US20200354752A1

Abstract

利用交替的前间隔序列邻近基序用于靶DNA结合的改造的Cas9系统，编码所述改造的Cas9系统的核酸，以及使用所述改造的Cas9系统用于修饰真核细胞中的靶染色体序列的方法。

Description

用于真核基因组修饰的改造的CAS9系统

相关申请的交叉引用

本申请要求2018年2月15日提交的美国临时申请序列号62/631,304、以及于2018年8月21日提交的美国临时申请序列号62/720,525的权益，所述美国临时申请各自的公开内容在此整体引入作为参考。

序列表

本申请含有序列表，所述序列表已以ASCII格式电子提交，并且在此整体引入作为参考。所述ASCII副本于2019年2月12日创建，命名为P18_023PCT_SL.txt，且大小为370,305字节。

领域

本公开内容涉及改造的Cas9系统，编码所述系统的核酸，以及使用所述系统用于基因组修饰的方法。

背景

细菌2类成簇规则间隔短回文重复序列(CRISPR)和CRISPR相关(Cas)CRISPR/Cas系统作为基因组编辑工具的最近开发，已对改造用于真核基因组修饰的位点特异性内切核酸酶提供了前所未有的容易和简单性。然而，因为每种CRISPR/Cas系统需要特异性前间隔序列邻近基序(PAM)用于靶DNA结合，所以每种系统局限于某些基因组位点。尽管目前最广泛采用的化脓性链球菌(Streptococcus pyogenes)Cas9(SpyCas9)使用频繁出现的PAM(5'-NGG-3')用于靶向，但它仍被缺少此类基序的许多基因组位点排除在外，因为真核基因组，尤其是哺乳动物和植物的真核基因组，在DNA序列中是高度复杂和异质的。此外，使用同源定向修复(HDR)或碱基编辑器(例如dCas9/胞苷脱氨酶和dCas9/腺苷脱氨酶)的精确基因编辑，即使在单碱基对分辨率下，也经常需要精确的DNA结合位置，以获得最佳的编辑结果。因此，需要开发新的CRISPR/Cas系统，其使用新型PAM用于靶向，以增加基因组覆盖密度。

概述

在本公开内容的各个方面中包括改造的Cas9系统，其包含改造的Cas9蛋白和改造的引导RNA，其中每种改造的引导RNA设计为与改造的Cas9蛋白复合，并且所述改造的引导RNA包含设计为与双链序列的靶序列杂交的5'引导序列，其中所述靶序列对于前间隔序列邻近基序(PAM)为5'，并且所述PAM具有如表A中列出的序列。

本公开内容的另一个方面涵盖编码所述改造的Cas9系统的多种核酸、以及包含所述多种核酸的至少一种载体。

一个进一步方面包括真核细胞，其包含至少一种改造的Cas9系统和/或编码所述改造的Cas9系统的至少一种核酸。

本公开内容的另外一个方面涵盖用于修饰真核细胞中的染色体序列的方法。该方法包括将包含改造的Cas9蛋白和改造的引导RNA的至少一种改造的Cas9系统、和/或编码所述改造的Cas9系统的至少一种核酸、以及任选地至少一种供体多核苷酸引入真核细胞内，其中所述至少一种改造的引导RNA将至少一种改造的Cas9蛋白引导至染色体序列中的靶位点，使得发生染色体序列的修饰。

下文详细描述了本公开内容的其它方面和特点。

附图简述

图1显示了对于通过Cas9直向同源物的体外靶DNA切割所需的前间隔序列邻近基序(PAM)的WebLogo分析。水平轴上的数目指示核苷酸在PAM序列中的位置。

图2A呈现了McaCas9、McaCas9-HN1HB1融合物(即，在氨基末端处的HMGN1以及在羧基末端处的HMGB1框A)、以及McaCas9-HN1H1G融合物(即，在氨基末端处的HMGN1以及在羧基末端处的组蛋白H1中心球状基序)的切割效率(作为插入缺失的百分比)。表6中呈现了每个基因座的靶位点。误差条显示了平均值±SD(n＝3个生物学重复)。

图2B呈现了PexCas9、PexCas9-HN1HB1融合物(即，在氨基末端处的HMGN1以及在羧基末端处的HMGB1框A)、以及PexCas9-HN1H1G融合物(即，在氨基末端处的HMGN1以及在羧基末端处的组蛋白H1中心球状基序)的切割效率(作为插入缺失的百分比)。表6中呈现了每个基因座的靶位点。误差条显示了平均值±SD(n＝3个生物学重复)。

图2C呈现了BsmCas9、BsmCas9-HN1HB1融合物(即，在氨基末端处的HMGN1以及在羧基末端处的HMGB1框A)、以及BsmCas9-HN1H1G融合物(即，在氨基末端处的HMGN1以及在羧基末端处的组蛋白H1中心球状基序)的切割效率(作为插入缺失的百分比)。表6中呈现了每个基因座的靶位点。误差条显示了平均值±SD(n＝3个生物学重复)。

图2D呈现了LrhCas9、LrhCas9-HN1HB1融合物(即，在氨基末端处的HMGN1以及在羧基末端处的HMGB1框A)、以及LrhCas9-HN1H1G融合物(即，在氨基末端处的HMGN1以及在羧基末端处的组蛋白H1中心球状基序)的切割效率(作为插入缺失的百分比)。表6中呈现了每个基因座的靶位点。误差条显示了平均值±SD(n＝3个生物学重复)。

图3显示了对照Cas9和Cas9-CMM融合核酸酶的脱靶活性(作为插入缺失的百分比)。误差条显示了平均值±SD(n＝3个生物学重复)。

详述

本公开内容提供了直向同源的Cas9系统，其使用交替PAM用于靶DNA结合，从而增加了基因组覆盖密度。例如，这些交替PAM中的一些包含A和/或T残基，而其它交替PAM是富含GC的。像这样，利用这些交替PAM的改造的Cas9系统使得以前无法接近的基因组基因座的靶向基因组编辑或基因组修饰成为可能。

(I)改造的Cas9系统

本公开内容的一个方面提供了改造的Cas9系统，其包含改造的Cas9蛋白和改造的引导RNA，其中每种改造的引导RNA设计为与特异性改造的Cas9蛋白复合。每种改造的引导RNA包含设计为与双链序列的靶序列杂交的5'引导序列，其中所述靶序列对于前间隔序列邻近基序(PAM)为5'，并且所述PAM具有如表A中列出的序列。这些改造的Cas9系统并非天然存在的。

(a)改造的Cas9蛋白

改造的Cas9蛋白包含相对于其野生型配对物的至少一个氨基酸取代、插入或缺失。Cas9蛋白是II型CRISPR系统中的单个效应蛋白，所述II型CRISPR系统存在于各种细菌中。本文公开的改造的Cas9蛋白可以来自Acaryochlorissp.、醋卤菌属物种(Acetohalobium sp.)、氨基酸球菌属物种(Acidaminococcus sp.)、酸硫杆菌属物种(Acidithiobacillussp.)、热酸菌属物种(Acidothermussp.)、艾克曼氏菌属物种(Akkermansia sp.)、脂环酸芽孢杆菌属物种(Alicyclobacillussp.)、异色菌属物种(Allochromatium sp.)、Ammonifex sp.、鱼腥藻属物种(Anabaenasp.)、节旋藻属物种(Arthrospira sp.)、芽孢杆菌属物种(Bacillussp.)、双歧杆菌属物种(Bifidobacteriumsp.)、伯克氏菌目物种(Burkholderiales sp.)、热解纤维素菌属物种(Caldicelulosiruptor sp.)、弯曲杆菌属物种(Campylobacter sp.)、Candidatus sp.、梭菌属物种(Clostridium sp.)、棒状杆菌属物种(Corynebacterium sp.)、Crocosphaerasp.、蓝杆藻属物种(Cyanothece sp.)、微小杆菌属物种(Exiguobacterium sp.)、大芬戈尔德菌属物种(Finegoldia sp.)、弗朗西斯氏菌属物种(Francisella sp.)、纤线杆菌属物种(Ktedonobactersp.)、毛螺菌科物种(Lachnospiraceaesp.)、乳杆菌属物种(Lactobacillus sp.)、鞘丝藻属物种(Lyngbya sp.)、海杆菌属物种(Marinobactersp.)、甲烷盐菌属物种(Methanohalobium sp.)、微颤菌属物种(Microscilla sp.)、微鞘藻属物种(Microcoleus sp.)、微囊藻属物种(Microcystissp.)、支原体属物种(Mycoplasmasp.)、盐碱厌氧菌属物种(Natranaerobius sp.)、奈瑟菌属物种(Neisseria sp.)、Nitratifractorsp.、亚硝化球菌属物种(Nitrosococcussp.)、拟诺卡氏菌属物种(Nocardiopsissp.)、节球藻属物种(Nodularia sp.)、念珠藻属物种(Nostocsp.)、酒球菌属物种(Oenococcussp.)、颤藻属物种(Oscillatoria sp.)、副萨特氏菌属物种(Parasutterella sp.)、Pelotomaculum sp.、石袍菌属物种(Petrotoga sp.)、极地单胞菌属物种(Polaromonas sp.)、普雷沃菌属物种(Prevotella sp.)、假交替单胞菌属物种(Pseudoalteromonassp.)、雷尔氏菌属物种(Ralstonia sp.)、葡萄球菌属物种(Staphylococcussp.)、链球菌属物种(Streptococcus sp.)、链霉菌属物种(Streptomycessp.)、链孢囊菌属物种(Streptosporangium sp.)、聚球藻属物种(Synechococcus sp.)、栖热腔菌属物种(Thermosipho sp.)、疣微菌门物种(Verrucomicrobia sp.)和沃林氏菌属物种(Wolinella sp.)。

在某些实施方案中，本文公开的改造的Cas9蛋白来自热酸菌属物种、艾克曼氏菌属物种、脂环酸芽孢杆菌属物种、芽孢杆菌属物种、双歧杆菌属物种、伯克氏菌目物种、棒状杆菌属物种、乳杆菌属物种、支原体属物种、Nitratifractorsp.、酒球菌属物种、副萨特氏菌属物种、雷尔氏菌属物种或沃林氏菌属物种。

在特定实施方案中，本文公开的改造的Cas9蛋白来自解纤维素热酸菌(Acidothermus cellulolyticus)(Ace)、Akkermansia glycaniphila(Agl)、嗜粘蛋白艾克曼氏菌(Akkermansia muciniphila)(Amu)、橙皮苷脂环酸芽孢杆菌(Alicyclobacillushesperidum)(Ahe)、斯密氏芽孢杆菌(Bacillussmithii)(Bsm)、Bifidobacterium bombi(Bbo)、白喉棒状杆菌(Corynebacterium diphtheria)(Cdi)、鼠李糖乳杆菌(Lactobacillus rhamnosus)(Lrh)、犬支原体(Mycoplasma canis)(Mca)、鸡败血支原体(Mycoplasma gallisepticum)(Mga)、Nitratifractor salsuginis(Nsa)、北原酒球菌(Oenococcus kitaharae)(Oki)、Parasutterella excrementihominis(Pex)、蒲桃雷尔氏菌(Ralstonia syzygii)(Rsy)或产琥珀酸沃林氏菌(Wolinella succinogenes)(Wsu)。

野生型Cas9蛋白包含两个核酸酶结构域，即，RuvC和HNH结构域，其各自切割双链序列的一条链。Cas9蛋白质还包含与引导RNA(例如REC1、REC2)或RNA/DNA异源双链体(例如REC3)相互作用的REC结构域，以及与前间隔序列邻近基序(PAM)相互作用的结构域(即PAM-相互作用结构域)。

Cas9蛋白可以被改造为包含一种或多种修饰(即，至少一个氨基酸的取代、至少一个氨基酸的缺失、至少一个氨基酸的插入)，使得Cas9蛋白具有改变的活性、特异性和/或稳定性。

例如，Cas9蛋白可以通过一种或多种突变和/或缺失进行改造，以使核酸酶结构域之一或两者失活。一个核酸酶结构域的失活生成切割双链序列的一条链的Cas9蛋白(即，Cas9切口酶)。RuvC结构域可以通过突变例如D10A、D8A、E762A和/或D986A而失活，而HNH结构域可以通过突变例如H840A、H559A、N854A、N856A和/或N863A而失活(参考化脓性链球菌Cas9，SpyCas9的编号系统)。两个核酸酶结构域的失活生成不具有切割活性的Cas9蛋白(即，催化失活或死亡的Cas9)。

Cas9蛋白还可以通过一种或多种氨基酸取代、缺失和/或插入进行改造，以具有改善的靶向特异性、改善的保真度、改变的PAM特异性、减少的脱靶效应和/或增加的稳定性。改善靶向特异性、改善保真度和/或减少脱靶效应的一种或多种突变的非限制性实例包括N497A、R661A、Q695A、K810A、K848A、K855A、Q926A、K1003A、R1060A和/或D1135E(参考SpyCas9的编号系统)。

(i)异源结构域

Cas9蛋白可以被改造为包含至少一个异源结构域，即，Cas9融合到一个或多个异源结构域。在其中两个或更多个异源结构域与Cas9融合的情况下，两个或更多个异源结构域可以是相同的或它们可以是不同的。一个或多个异源结构域可以融合到N末端、C末端、内部位置或其组合。融合可以是经由化学键直接的，或者键合可以是经由一个或多个接头间接的。在各种实施方案中，异源结构域可以是核定位信号、细胞穿透结构域、标记物结构域、染色质破坏结构域、表观遗传修饰结构域(例如胞苷脱氨酶结构域、组蛋白乙酰转移酶结构域等等)、转录调节结构域、RNA适体结合结构域或非Cas9核酸酶结构域。

在一些实施方案中，一个或多个异源结构域可以是核定位信号(NLS)。核定位信号的非限制性实例包括PKKKRKV(SEQ ID NO：78)、PKKKRRV(SEQ ID NO：79)、KRPAATKKAGQAKKKK(SEQ ID NO：80)、YGRKKRRQRRR(SEQ ID NO：81)、RKKRRQRRR(SEQ ID NO：82)、PAAKRVKLD(SEQ ID NO：83)、RQRRNELKRSP(SEQ ID NO：84)、VSRKRPRP(SEQ ID NO：85)、PPKKARED(SEQ ID NO：86)、PQPKKKPL(SEQ ID NO：87)、SALIKKKKKMAP(SEQ ID NO：88)、PKQKKRK(SEQ ID NO：89)、RKLKKKIKKL(SEQ ID NO：90)、REKKKFLKRR(SEQ ID NO：91)、KRKGDEVDGVDEVAKKKSKK(SEQ ID NO：92)、RKCLQAGMNLEARKTKK(SEQ ID NO：93)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO：94)、以及RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO：95)。

在其它实施方案中，一个或多个异源结构域可以是细胞穿透结构域。合适的细胞穿透结构域的实例包括但不限于GRKKRRQRRRPPQPKKKRKV(SEQ ID NO：96)、PLSSIFSRIGDPPKKKRKV(SEQ ID NO：97)、GALFLGWLGAAGSTMGAPKKKRKV(SEQ ID NO：98)、GALFLGFLGAAGSTMGAWSQPKKKRKV(SEQ ID NO：99)、KETWWETWWTEWSQPKKKRKV(SEQ ID NO：100)、YARAAARQARA(SEQ ID NO：101)、THRLPRRRRRR(SEQ ID NO：102)、GGRRARRRRRR(SEQ IDNO：103)、RRQRRTSKLMKR(SEQ ID NO：104)、GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO：105)、KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO：106)、以及RQIKIWFQNRRMKWKK(SEQ ID NO：107)。

在替代实施方案中，一个或多个异源结构域可以是标记物结构域。标记物结构域包括荧光蛋白和纯化标签或表位标签。合适的荧光蛋白包括但不限于绿色荧光蛋白(例如GFP、eGFP、GFP-2、tagGFP、turboGFP、Emerald、Azami Green、Monomeric Azami Green、CopGFP、AceGFP、ZsGreen1)，黄色荧光蛋白(例如YFP、EYFP、Citrine、Venus、YPet、PhiYFP、ZsYellow1)，蓝色荧光蛋白(例如BFP、EBFP、EBFP2、Azurite、mKalama1、GFPuv、Sapphire、T-sapphire)，青色荧光蛋白(例如ECFP、Cerulean、CyPet、AmCyan1、Midoriishi-Cyan)，红色荧光蛋白(例如mKate、mKate2、mPlum、DsRed单体、mCherry、mRFP1、DsRed-Express、DsRed2、DsRed-Monomer、HcRed-Tandem、HcRed1、AsRed2、eqFP611、mRasberry、mStrawberry、Jred)，橙色荧光蛋白(例如mOrange、mKO、Kusabira-Orange、Monomeric Kusabira-Orange、mTangerine、tdTomato)或其组合。标记物结构域可以包含一种或多种荧光蛋白(例如，Suntag)的串联重复。合适的纯化标签或表位标签的非限制性实例包括6xHis(SEQ ID NO：134)、

HA、GST、Myc、SAM等等。促进CRISPR复合物的检测或富集的异源融合物的非限制性实例包括链霉抗生物素蛋白(Kipriyanov等人，Human Antibodies，1995，6(3)：93-101.)，抗生物素蛋白(Airenne等人，Biomolecular Engineering，1999，16(1-4)：87-92)，抗生物素蛋白的单体形式(Laitinen等人，Journal ofBiological Chemistry，2003，278(6)：4010-4014)，在重组生产过程中促进生物素化的肽标签(Cull等人，Methods inEnzymology，2000，326：430-440)。

在另外其它实施方案中，一个或多个异源结构域可以是染色质调节基序(CMM)。CMM的非限制性实例包括衍生自高迁移率族(HMG)蛋白(例如HMGB1、HMGB2、HMGB3、HMGN1、HMGN2、HMGN3a、HMGN3b、HMGN4和HMGN5蛋白)的核小体相互作用肽，组蛋白H1变体(例如，组蛋白H1.0、H1.1、H1.2、H1.3、H1.4、H1.5、H1.6、H1.7、H1.8、H1.9和H.1.10)的中心球状结构域，或染色质重塑复合物的DNA结合结构域(例如SWI/SNF(SWItch/蔗糖不可发酵的)，ISWI(模拟SWItch)，CHD(克罗莫结构域-解旋酶-DNA结合)，Mi-2/NuRD(核小体重塑和脱乙酰酶)，INO80，SWR1和RSC复合物。在其它实施方案中，CMM也可以衍生自拓扑异构酶、解旋酶或病毒蛋白。CMM的来源可以并且将不同。CMM可以来自人、动物(即，脊椎动物和无脊椎动物)、植物、藻类或酵母。下表列出了特异性CMM的非限制性实例。本领域技术人员可以容易地鉴定其它物种中的同系物和/或其中的有关融合基序。

在另外其它实施方案中，一个或多个异源结构域可以是表观遗传修饰结构域。合适的表观遗传修饰域的非限制性实例包括具有以下的那些：DNA脱氨作用(例如胞苷脱氨酶、腺苷脱氨酶、鸟嘌呤脱氨酶)，DNA甲基转移酶活性(例如胞嘧啶甲基转移酶)，DNA脱甲基酶活性，DNA胺化，DNA氧化活性，DNA解旋酶活性，组蛋白乙酰转移酶(HAT)活性(例如衍生自E1A结合蛋白p300的HAT结构域)，组蛋白脱乙酰基酶活性，组蛋白甲基转移酶活性，组蛋白脱甲基酶活性，组蛋白激酶活性，组蛋白磷酸酶活性，组蛋白泛素连接酶活性，组蛋白去泛素化活性，组蛋白腺苷化活性，组蛋白脱腺苷化活性，组蛋白SUMO化活性，组蛋白去SUMO化活性，组蛋白核糖基化活性，组蛋白去核糖基化活性，组蛋白肉豆蔻酰化活性，组蛋白去肉豆蔻酰化活性，组蛋白瓜氨酸化活性，组蛋白烷基化活性，组蛋白脱烷基化活性或组蛋白氧化活性。在特定实施方案中，表观遗传修饰结构域可以包含胞苷脱氨酶活性、腺苷脱氨酶活性、组蛋白乙酰转移酶活性或DNA甲基转移酶活性。

在其它实施方案中，一个或多个异源结构域可以是转录调节结构域(即，转录激活结构域或转录阻遏物结构域)。合适的转录激活结构域包括但不限于单纯疱疹病毒VP16结构域，VP64(即VP16的四个串联拷贝)，VP160(即VP16的十个串联拷贝)，NFκB p65激活结构域(p65)，EB病毒R反式激活子(Rta)结构域，VPR(即VP64+p65+Rta)，p300依赖性转录激活结构域，p53激活结构域1和2，热休克因子1(HSF1)激活结构域，Smad4激活结构域(SAD)，cAMP应答元件结合蛋白(CREB)激活结构域，E2A激活结构域，活化T细胞核因子(NFAT)激活结构域或其组合。合适的转录阻遏物结构域的非限制性实例包括Kruppel相关框(KRAB)阻遏物结构域，Mxi阻遏物结构域，诱导型cAMP早期阻遏物(ICER)结构域，YY1富甘氨酸阻遏物结构域，Sp1样阻遏物，E(spl)阻遏物，IκB阻遏物，Sin3阻遏物，甲基CpG结合蛋白2(MeCP2)阻遏物或其组合。转录激活或转录阻遏物结构域可以遗传融合至Cas9蛋白，或者经由非共价蛋白质-蛋白质、蛋白质-RNA、或蛋白质-DNA相互作用结合。

在进一步的实施方案中，一个或多个异源结构域可以是RNA适体结合结构域(Konermann等人，Nature，2015，517(7536)：583-588；Zalatan等人，Cell，2015，160(1-2)：339-50)。合适的RNA适体蛋白结构域的实例包括MS2外壳蛋白(MCP)，PP7细菌噬菌体外壳蛋白(PCP)，μ细菌噬菌体Com蛋白，λ细菌噬菌体N22蛋白，茎环结合蛋白(SLBP)，脆性X智力低下综合征相关蛋白1(FXR1)，衍生自细菌噬菌体例如AP205、BZ13、f1、f2、fd、fr、ID2、JP34/GA、JP501、JP34、JP500、KU1、M11、M12、MX1、NL95、PP7、φCb5、φCb8r、φCb12r、φCb23r、Qβ、R17、SP-β、TW18、TW19和VK的蛋白，其片段或其衍生物。

在另外其它实施方案中，一个或多个异源结构域可以是非Cas9核酸酶结构域。合适的核酸酶结构域可以得自任何核酸内切酶或核酸外切酶。核酸酶结构域可以由其衍生的核酸内切酶的非限制性实例包括但不限于限制性核酸内切酶和归巢核酸内切酶。在一些实施方案中，核酸酶结构域可以衍生自II-S型限制性核酸内切酶。II-S型核酸内切酶在通常远离识别/结合位点数个碱基对的位点处切割DNA，并且像这样，具有可分开的结合和切割结构域。这些酶一般是单体，其瞬时结合以形成二聚体，以在交错位置处切割DNA的每条链。合适的II-S型核酸内切酶的非限制性实例包括BfiI、BpmI、BsaI、BsgI、BsmBI、BsmI、BspMI、FokI、MboII和SapI。在一些实施方案中，核酸酶结构域可以是FokI核酸酶结构域或其衍生物。可以修饰II-S型核酸酶结构域，以促进两个不同核酸酶结构域的二聚化。例如，可以通过使某些氨基酸残基突变来修饰FokI的切割结构域。作为非限制性实例，在FokI核酸酶结构域的位置446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538处的氨基酸残基是用于修饰的靶。在特定实施方案中，FokI核酸酶结构域可以包括包含Q486E、I499L和/或N496D突变的第一FokI半结构域，以及包含E490K、I538K和/或H537R突变的第二FokI半结构域。

一个或多个异源结构域可以经由一个或多个化学键(例如，共价键)直接连接至Cas9蛋白，或者一个或多个异源结构域可以经由一个或多个接头间接连接至Cas9蛋白。

接头是经由至少一个共价键连接一个或多个其它化学基团的化学基团。合适的接头包括氨基酸，肽，核苷酸，核酸，有机接头分子(例如马来酰亚胺衍生物、N-乙氧基苄基咪唑、联苯-3,4',5-三羧酸、对氨基苄氧羰基等等)，二硫键接头和聚合物接头(例如PEG)。接头可以包括一个或多个间隔基团，包括但不限于亚烷基、亚烯基、亚炔基、烷基、烯基、炔基、烷氧基、芳基、杂芳基、芳烷基、芳烯基、芳炔基等等。接头可以是中性的，或者携带正电荷或负电荷。另外，接头可以是可切割的，使得在特定条件包括pH、温度、盐浓度、光、催化剂或酶下，连接接头与另一个化学基团的接头的共价键可以被断裂或切割。在一些实施方案中，接头可以是肽接头。肽接头可以是柔性氨基酸接头(例如，包含小的非极性或极性氨基酸)。柔性接头的非限制性实例包括LEGGGS(SEQ ID NO：108)、TGSG(SEQ ID NO：109)、GGSGGGSG(SEQ ID NO：110)、(GGGGS)_1-4(SEQ ID NO：111)、以及(Gly)_6-8(SEQ ID NO：112)。可替代地，肽接头可以是刚性氨基酸接头。此类接头包括(EAAAK)_1-4(SEQ ID NO：113)、A(EAAAK)_2-5A(SEQ ID NO：114)、PAPAP(SEQ ID NO：115)、以及(AP)_6-8(SEQ ID NO：116)。合适接头的另外实例是本领域众所周知的，并且设计接头的程序是可容易获得的(Crasto等人，ProteinEng.，2000，13(5)：309-312)。

在一些实施方案中，改造的Cas9蛋白可以在无细胞系统、细菌细胞或真核细胞中重组产生，并且使用标准纯化手段纯化。在其它实施方案中，改造的Cas9蛋白在目的真核细胞中从编码改造的Cas9蛋白的核酸体内产生(参见下文节段(II))。

在其中改造的Cas9蛋白包含核酸酶或切口酶活性的实施方案中，改造的Cas9蛋白可以进一步包含至少一个核定位信号、细胞穿透结构域和/或标记物结构域、以及至少一种染色质破坏结构域。在其中改造的Cas9蛋白与表观遗传修饰结构域连接的实施方案中，改造的Cas9蛋白可以进一步包含至少一个核定位信号、细胞穿透结构域和/或标记物结构域、以及至少一个染色质破坏结构域。此外，在其中改造的Cas9蛋白与转录调节结构域连接的实施方案中，改造的Cas9蛋白可以进一步包含至少一个核定位信号、细胞穿透结构域和/或标记物结构域、以及至少一个染色质破坏结构域和/或至少一个RNA适体结合结构域。

(ii)特异性改造的Cas9蛋白

在特定实施方案中，改造的Cas9蛋白来自斯密氏芽孢杆菌、鼠李糖乳杆菌、Parasutterella excrementihominis、犬支原体、鸡败血支原体、Akkermansiaglycaniphila、嗜粘蛋白艾克曼氏菌、北原酒球菌、Bifidobacterium bombi、解纤维素热酸菌、橙皮苷脂环酸芽孢杆菌、产琥珀酸沃林氏菌、Nitratifractor salsuginis、蒲桃雷尔氏菌或白喉棒状杆菌，并且与至少一个NLS连接。在一些迭代中，改造的Cas9蛋白可以与SEQID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28或30具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、或至少约99％的序列同一性。在某些实施方案中，改造的Cas9蛋白可以与SEQ ID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28或30具有至少约95％的序列同一性。在其它迭代中，改造的Cas9蛋白具有SEQ ID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28或30的氨基酸序列。

在其它实施方案中，改造的Cas9蛋白可以是与至少一个染色质调节基序(CMM)连接的斯密氏芽孢杆菌、鼠李糖乳杆菌、Parasutterella excrementihominis、犬支原体、鸡败血支原体、Akkermansia glycaniphila、嗜粘蛋白艾克曼氏菌、北原酒球菌、Bifidobacterium bombi、解纤维素热酸菌、橙皮苷脂环酸芽孢杆菌、产琥珀酸沃林氏菌、Nitratifractor salsuginis、蒲桃雷尔氏菌或白喉棒状杆菌Cas9蛋白。Cas9蛋白和CMM之间的键合可以是直接的或经由接头。Cas9-CMM融合蛋白可以进一步包含至少一个NLS。在特定实施方案中，Cas9-CMM融合蛋白可以与SEQ ID NO：117、118、119、1200、121、122、123或124具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、或至少约99％的序列同一性。在某些实施方案中，Cas9-CMM融合蛋白可以与SEQ ID NO：117、118、119、120、121、122、123或124具有至少约95％的序列同一性。在特定迭代中，Cas9-CMM融合蛋白具有SEQ ID NO：117、118、119、120、121、122、123或124的氨基酸序列。

(b)改造的引导RNA

改造的引导RNA设计为与特异性改造的Cas9蛋白复合。引导RNA包括(i)CRISPRRNA(crRNA)，其在5'末端处含有与靶序列杂交的引导序列，以及(ii)募集Cas9蛋白的反式作用crRNA(tracrRNA)序列。每种引导RNA的crRNA引导序列是不同的(即，是序列特异性的)。tracrRNA序列在设计为与特定细菌物种的Cas9蛋白复合的引导RNA中一般是相同的。

crRNA引导序列设计为与以双链序列的靶序列(即，前间隔序列)杂交。一般而言，crRNA与靶序列之间的互补性为至少80％、至少85％、至少90％、至少95％或至少99％。在特定实施方案中，互补性是完全的(即100％)。在各种实施方案中，crRNA引导序列的长度范围可以是约15个核苷酸至约25个核苷酸。例如，crRNA引导序列可以是长度约15、16、17、18、19、20、21、22、23、24或25个核苷酸。在特定实施方案中，crRNA是长度约19、20或21个核苷酸。在一个实施方案中，crRNA引导序列具有20个核苷酸的长度。

引导RNA包含与Cas9蛋白质相互作用、形成至少一个茎环结构的重复序列，以及保持单链的3'序列。每个环和茎的长度可以不同。例如，环的长度范围可以是约3至约10个核苷酸，而茎的长度范围可以是约6至约20个碱基对。茎可以包含1至约10个核苷酸的一个或多个凸起。单链3'区域的长度可以不同。改造的引导RNA中的tracrRNA序列一般基于目的细菌物种中的野生型tracrRNA的编码序列。可以修饰野生型序列，以促进二级结构的形成、增加二级结构的稳定性、促进在真核细胞中的表达等等。例如，可以将一种或多种核苷酸变化引入引导RNA编码序列内(参见下文的实施例3)。tracrRNA序列的长度范围可以是约50个核苷酸至约300个核苷酸。在各种实施方案中，tracrRNA的长度范围可以是约50至约90个核苷酸、约90至约110个核苷酸、约110至约130个核苷酸、约130至约150个核苷酸、约150至约170个核苷酸、约170至约200个核苷酸、约200至约250个核苷酸、或约250至约300个核苷酸。

一般而言，改造的引导RNA是单个分子(即，单个引导RNA或sgRNA)，其中所述crRNA序列与tracrRNA序列连接。然而，在一些实施方案中，改造的引导RNA可以是两个分开的分子。第一分子包含含有3'序列(包含约6至约20个核苷酸)的crRNA，所述3'序列能够与第二分子的5'端碱基配对，其中所述第二分子包含含有5'序列(包含约6至约20个核苷酸)的tracrRNA，所述5'序列能够与第一分子的3'端碱基配对。

在一些实施方案中，可以修饰改造的引导RNA的tracrRNA序列，以包含一个或多个适体序列(Konermann等人，Nature，2015，517(7536)：583-588；Zalatan等人，Cell，2015，160(1-2)：339-50)。合适的适体序列包括结合选自以下的衔接蛋白的那些：MCP、PCP、Com、SLBP、FXR1、AP205、BZ13、f1、f2、fd、fr、ID2、JP34/GA、JP501、JP34、JP500、KU1、M11、M12、MX1、NL95、PP7、φCb5、φCb8r、φCb12r、φCb23r、Qβ、R17、SP-β、TW18、TW19、VK、其片段或其衍生物。本领域技术人员应了解，适体序列的长度可以不同。

在其它实施方案中，引导RNA可以进一步包含至少一种可检测标记物。可检测标记物可以是荧光团(例如，FAM、TMR、Cy3、Cy5、Texas Red、Oregon Green、Alexa Fluors、Halo标签或合适的荧光染料)，检测标签(例如生物素、洋地黄毒苷等等)，量子点或金颗粒。

引导RNA可以包含标准核糖核苷酸和/或修饰的核糖核苷酸。在一些实施方案中，引导RNA可以包含标准或修饰的脱氧核糖核苷酸。在其中酶促合成(即，在体内或体外)引导RNA的实施方案中，引导RNA一般包含标准核糖核苷酸。在其中化学合成引导RNA的实施方案中，引导RNA可以包含标准或修饰的核糖核苷酸和/或脱氧核糖核苷酸。修饰的核糖核苷酸和/或脱氧核糖核苷酸包括碱基修饰(例如假尿苷、2-硫代尿苷、N6-甲基腺苷等等)和/或糖修饰(例如2'-O-甲基、2'-氟、2'-氨基、锁核酸(LNA)等等)。引导RNA的主链也可以被修饰为包含硫代磷酸酯键合、硼烷磷酸酯键合或肽核酸。

在特定实施方案中，改造的引导RNA与SEQ ID NO：31、32、33、34、35、36、37、38、39、40、41、42、43、44或45具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％或至少约99％的序列同一性。在一些实施方案中，改造的Cas9引导RNA具有SEQ ID NO：31、32、33、34、35、36、37、38、39、40、41、42、43、44或45的序列。

(c)PAM序列

上文详述的改造的Cas9系统靶向位于新型PAM序列上游的呈双链DNA的特异性序列。使用简并PAMS的文库在体外鉴定由改造的Cas9系统优选的PAM序列(参见实施例1和图1)，并且在基因组编辑实验后通过测序进行确认(参见实施例2)。下表A中呈现了关于本文公开的改造的Cas9系统各自的PAM。

*K是G或T；M是A或C；R是A或G；Y是C或T；并且N是A、C、G或T。

(II)核酸

本公开内容的一个进一步方面提供了编码上文在节段(I)中描述的改造的Cas9系统的核酸。该系统可以由单个核酸或多重核酸编码。核酸可以是DNA或RNA、线性或环状、单链或双链的。RNA或DNA可以进行密码子优化，用于在目的真核细胞中有效翻译成蛋白质。密码子优化程序可作为免费软件获得或从商业来源获得。

在一些实施方案中，核酸编码的蛋白质与SEQ ID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28或30的氨基酸序列具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、或至少约99％的序列同一性。在某些实施方案中，编码改造的Cas9蛋白可以与SEQ ID NO：1、3、5、7、9、11、13、15、17、19、21、23、25、27或29的DNA序列具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、或至少约99％的序列同一性。在某些实施方案中，编码改造的Cas9蛋白的DNA具有SEQ ID NO：1、3、5、7、9、11、13、15、17、19、21、23、25、27或29的DNA序列。在另外的实施方案中，核酸编码的蛋白质与SEQ ID NO：117、118、119、120、121、122、123或124的氨基酸序列具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、或至少约99％的序列同一性。

在一些实施方案中，编码改造的Cas9蛋白的核酸可以是RNA。RNA可以在体外酶促合成。为此，编码改造的Cas9蛋白的DNA可以与启动子序列可操作地连接，所述启动子序列由噬菌体RNA聚合酶识别，用于体外RNA合成。例如，启动子序列可以是T7、T3或SP6启动子序列，或者T7、T3或SP6启动子序列的变化。如下文详述的，编码改造蛋白质的DNA可以是载体的部分。在此类实施方案中，体外转录的RNA可以进行纯化、加帽和/或多聚腺苷酸化。在其它实施方案中，编码改造的Cas9蛋白的RNA可以是自复制RNA的部分(Yoshioka等人，CellStem Cell，2013，13：246-254)。自复制RNA可以衍生自非传染性、自复制委内瑞拉马脑炎(VEE)病毒RNA复制子，其为能够自复制有限数目的细胞分裂的正义单链RNA，并且可以进行修饰以编码目的蛋白质(Yoshioka等人，Cell Stem Cell，2013，13：246-254)。

在其它实施方案中，编码改造的Cas9蛋白的核酸可以是DNA。DNA编码序列可以与至少一个启动子控制序列可操作地连接，用于在目的细胞中表达。在某些实施方案中，DNA编码序列可以与启动子序列可操作地连接，用于在细菌(例如，大肠杆菌(E.coli))细胞或真核(例如，酵母、昆虫或哺乳动物)细胞中表达改造的Cas9蛋白。合适的细菌启动子包括但不限于T7启动子、lac操纵子启动子、trp启动子、tac启动子(其为trp和lac启动子的杂合体)、前述任一种的变化以及前述任一种的组合。合适的真核启动子的非限制性实例包括组成型、调节型、或者细胞或组织特异性启动子。合适的真核组成型启动子控制序列包括但不限于巨细胞病毒立即早期启动子(CMV)、猿猴病毒(SV40)启动子、腺病毒主要晚期启动子、劳斯肉瘤病毒(RSV)启动子、小鼠乳房肿瘤病毒(MMTV)启动子、磷酸甘油酸酯激酶(PGK)启动子、延伸因子(ED1)-α启动子、泛素启动子、肌动蛋白启动子、微管蛋白启动子、免疫球蛋白启动子、其片段或前述任一种的组合。合适的真核调节型启动子控制序列的实例包括但不限于由热休克、金属、类固醇、抗生素或醇调节的那些。组织特异性启动子的非限制性实例包括B29启动子、CD14启动子、CD43启动子、CD45启动子、CD68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮糖蛋白启动子、纤连蛋白启动子、Flt-1启动子、GFAP启动子、GPIIb启动子、ICAM-2启动子、INF-β启动子、Mb启动子、NphsI启动子、OG-2启动子、SP-B启动子、SYN1启动子和WASP启动子。启动子序列可以是野生型的，或者它可以进行修饰用于更有效或高效的表达。在一些实施方案中，DNA编码序列也可以连接至多聚腺苷酸化信号(例如，SV40多聚A信号、牛生长激素(BGH)多聚A信号等)和/或至少一个转录终止序列。在一些情况下，可以从细菌或真核细胞中纯化改造的Cas9蛋白。

在另外其它实施方案中，改造的引导RNA可以由DNA编码。在一些情况下，编码改造的引导RNA的DNA可以与启动子序列可操作地连接，所述启动子序列由噬菌体RNA聚合酶识别，用于体外RNA合成。例如，启动子序列可以是T7、T3或SP6启动子序列，或者T7、T3或SP6启动子序列的变化。在其它情况下，编码改造的引导RNA的DNA可以与启动子序列可操作地连接，所述启动子序列由RNA聚合酶III(Pol III)识别，用于在目的真核细胞中表达。合适的Pol III启动子的实例包括但不限于哺乳动物U6、U3、H1和7SL RNA启动子。

在各种实施方案中，编码改造的Cas9蛋白的核酸可以存在于载体中。在一些实施方案中，载体可以进一步包含编码改造的引导RNA的核酸。合适的载体包括质粒载体、病毒载体和自复制RNA(Yoshioka等人，Cell Stem Cell，2013，13：246-254)。在一些实施方案中，编码复合物或融合蛋白的核酸可以存在于质粒载体中。合适的质粒载体的非限制性实例包括pUC、pBR322、pET、pBluescript及其变体。在其它实施方案中，编码复合物或融合蛋白的核酸可以是病毒载体(例如，慢病毒载体、腺相关病毒载体、腺病毒载体等等)的部分。质粒或病毒载体可以包含另外的表达控制序列(例如，增强子序列、Kozak序列、多聚腺苷酸化序列、转录终止序列等)，可选择标记物序列(例如，抗生素抗性基因)，复制起点等等。关于载体及其用途的另外信息可以在“Current Protocols in Molecular Biology”Ausubel等人，John Wiley&Sons，NewYork，2003，或者“Molecular Cloning：A Laboratory Manual”Sambrook&Russell，Cold Spring Harbor Press，Cold Spring Harbor，NY，第3版，2001中找到。

(III)真核细胞

本公开内容的另一个方面包括真核细胞，所述真核细胞包含如上文在节段(I)中详述的至少一种改造的Cas9系统、和/或如上文在节段(II)中详述的编码改造的Cas9蛋白质和/或改造的引导RNA的至少一种核酸。

真核细胞可以是人细胞、非人哺乳动物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞、植物细胞或单细胞真核生物。合适的真核细胞的实例在下文节段(IV)(c)中详述。真核细胞可以是体外、离体或体内的。

(IV)用于修饰染色体序列的方法

本公开内容的一个进一步方面涵盖了用于修饰真核细胞中的染色体序列的方法。一般而言，该方法包括将如上文在节段(I)中详述的至少一种改造的Cas9系统、和/或如上文在节段(II)中详述的编码改造的Cas9系统的至少一种核酸引入目的真核细胞内。

在其中改造的Cas9蛋白包含核酸酶或切口酶活性的实施方案中，染色体序列修饰可以包含至少一个核苷酸的取代、至少一个核苷酸的缺失、至少一个核苷酸的插入。在一些迭代中，该方法包括将包含核酸酶活性的一种改造的Cas9系统、或包含切口酶活性且不含供体多核苷酸的两种改造的Cas9系统引入真核细胞内，使得一种或多种改造的Cas9系统在染色体序列中的靶位点中引入双链断裂，并且通过细胞DNA修复过程的双链断裂修复引入至少一个核苷酸变化(即，插入缺失)，从而使染色体序列失活(即，基因敲除)。在其它迭代中，该方法包括将包含核酸酶活性的一种改造的Cas9系统、或包含切口酶活性以及供体多核苷酸的两种改造的Cas9系统引入真核细胞内，使得一种或多种改造的Cas9系统在染色体序列中的靶位点中引入双链断裂，并且通过细胞DNA修复过程的双链断裂修复导致供体多核苷酸中的序列插入或交换到染色体序列的靶位点内(即，基因校正或基因敲入)。

在其中改造的Cas9蛋白包含表观遗传修饰活性或转录调节活性的实施方案中，染色体序列修饰可以包含在靶位点中或附近的至少一个核苷酸的转换、在靶位点中或附近的至少一个核苷酸的修饰、在靶位点中或附近的至少一种组蛋白的修饰、和/或在染色体序列中的靶位点中或附近的转录变化。

(a)引入细胞内

如上文提到的，该方法包括将至少一种改造的Cas9系统和/或编码所述系统的核酸(和任选的供体多核苷酸)引入真核细胞内。可以通过各种手段，将至少一种系统和/或核酸/供体多核苷酸引入目的细胞内。

在一些实施方案中，可以用适当的分子(即蛋白质、DNA和/或RNA)转染细胞。合适的转染方法包括核转染(或电穿孔)、磷酸钙介导的转染、阳离子聚合物转染(例如DEAE-葡聚糖或聚乙烯亚胺)、病毒转导、病毒体转染、病毒粒子转染、脂质体转染、阳离子脂质体转染、免疫脂质体转染、非脂质体脂质转染、树枝状大分子转染、热休克转染、磁转染、脂转染、基因枪递送、刺穿转染(impalefection)、声致穿孔、光学转染以及有专利权的试剂增强的核酸摄取。转染方法是本领域众所周知的(参见例如，“Current Protocols in MolecularBiology”Ausubel等人，John Wiley&Sons，New York，2003，或者“Molecular Cloning：ALaboratory Manual”Sambrook&Russell，Cold Spring Harbor Press，Cold SpringHarbor，NY，第3版，2001)。在其它实施方案中，可以通过显微注射将分子引入细胞内。例如，可以将分子注射到目的细胞的细胞质或核内。引入细胞内的每种分子的量可以不同，但本领域技术人员熟悉用于确定适当量的手段。

可以同时或序贯地将各种分子引入细胞内。例如，改造的Cas9系统(或其编码核酸)和供体多核苷酸可以同时引入。可替代地，可以首先引入一种，然后将另一种引入细胞内。

一般而言，细胞维持在适合于细胞生长和/或维持的条件下。合适的细胞培养条件是本领域众所周知的，并且例如在Santiago等人，Proc.Natl.Acad.Sci.USA，2008，105：5809-5814；Moehle等人Proc.Natl.Acad.Sci.USA，2007，104：3055-3060；Urnov等人，Nature，2005，435：646-651；以及Lombardo等人，Nat.Biotechnol.，2007，25：1298-1306中描述。本领域技术人员应了解，用于培养细胞的方法是本领域已知的，并且可以且将取决于细胞类型而变。在所有情况下，都可以使用常规优化来确定用于特定细胞类型的最佳技术。

(b)任选的供体多核苷酸

在其中改造的Cas9蛋白包含核酸酶或切口酶活性的实施方案中，该方法可以进一步包括将至少一种供体多核苷酸引入细胞内。供体多核苷酸可以是单链或双链的、线性或环状的、和/或RNA或DNA。在一些实施方案中，供体多核苷酸可以是载体，例如质粒载体。

供体多核苷酸包含至少一种供体序列。在一些方面，供体多核苷酸的供体序列可以是内源或天然染色体序列的修饰形式。例如，供体序列可以基本等同于在由改造的Cas9系统靶向的序列处或附近的染色体序列的一部分，但其包含至少一种核苷酸变化。因此，在与天然序列整合或交换后，在靶染色体位置处的序列包含至少一种核苷酸变化。例如，变化可以是一个或多个核苷酸的插入、一个或多个核苷酸的缺失、一个或多个核苷酸的取代或其组合。作为修饰序列的“基因校正”整合的结果，细胞可以从靶向的染色体序列产生修饰的基因产物。

在其它方面，供体多核苷酸的供体序列可以是外源序列。如本文使用的，“外源”序列指并非细胞天然的序列，或其天然位置在细胞的基因组中的不同位置的序列。例如，外源序列可以包含蛋白质编码序列，其可以与外源启动子控制序列可操作地连接，使得在整合到基因组内后，细胞能够表达由整合的序列编码的蛋白质。可替代地，外源序列可以整合到染色体序列内，使得其表达受内源启动子控制序列调节。在其它迭代中，外源序列可以是转录控制序列、另一种表达控制序列、RNA编码序列等等。如上文指出的，外源序列整合到染色体序列内被称为“敲入”。

如本领域技术人员可以了解的，供体序列的长度可以且将不同。例如，供体序列的长度可以从数个核苷酸到数百个核苷酸到数十万个核苷酸不等。

通常，供体多核苷酸中的供体序列侧翼为上游序列和下游序列，其与分别位于由改造的Cas9系统靶向的序列上游和下游的序列具有基本的序列同一性。因为这些序列相似性，供体多核苷酸的上游序列和下游序列允许供体多核苷酸和靶向染色体序列之间的同源重组，使得供体序列可以整合到染色体序列内(或与之交换)。

如本文使用的，上游序列指与由改造的Cas9系统靶向的序列上游的染色体序列共享基本的序列同一性的核酸序列。类似地，下游序列指与由改造的Cas9系统靶向的序列下游的染色体序列共享基本的序列同一性的核酸序列。如本文使用的，短语“基本的序列同一性”指具有至少约75％序列同一性的序列。因此，供体多核苷酸中的上游序列和下游序列可以与靶序列上游或下游的序列具有约75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性。在示例性实施方案中，供体多核苷酸中的上游序列和下游序列可以与由改造的Cas9系统靶向的序列上游或下游的染色体序列具有约95％或100％的序列同一性。

在一些实施方案中，上游序列与位于由改造的Cas9系统靶向的序列的紧上游的染色体序列共享基本的序列同一性。在其它实施方案中，上游序列与位于靶序列上游约一百(100)个核苷酸内的染色体序列共享基本的序列同一性。因此，例如，上游序列可以与位于靶序列上游的约1至约20、约21至约40、约41至约60、约61至约80、或约81至约100个核苷酸的染色体序列共享基本的序列同一性。在一些实施方案中，下游序列与位于由改造的Cas9系统靶向的序列的紧下游的染色体序列共享基本的序列同一性。在其它实施方案中，下游序列与位于靶序列下游约一百(100)个核苷酸内的染色体序列共享基本的序列同一性。因此，例如，下游序列可以与位于靶序列下游的约1至约20、约21至约40、约41至约60、约61至约80、或约81至约100个核苷酸的染色体序列共享基本的序列同一性。

每个上游序列或下游序列的长度范围可以是约20个核苷酸至约5000个核苷酸。在一些实施方案中，上游序列和下游序列可以包含约50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800或5000个核苷酸。在特定实施方案中，上游序列和下游序列的长度范围可以是约50至约1500个核苷酸。

(c)细胞类型

各种真核细胞适用于本文公开的方法。例如，细胞可以是人细胞、非人哺乳动物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞、昆虫细胞、植物细胞、酵母细胞或单细胞真核生物。在一些实施方案中，细胞可以是一个细胞胚胎。例如，非人哺乳动物胚胎包括大鼠、仓鼠、啮齿类动物、兔、猫、犬、绵羊、猪、牛、马和灵长类动物胚胎。在另外其它实施方案中，细胞可以是干细胞，例如胚胎干细胞、ES样干细胞、胎儿干细胞、成人干细胞等等。在一个实施方案中，干细胞不是人胚胎干细胞。此外，干细胞可以包括通过整体引入本文的WO2003/046141、或Chung等人(Cell Stem Cell，2008，2：113-117)中公开的技术制备的干细胞。细胞可以是体外(即，在培养中)、离体(即，在从生物中分离的组织内)、或体内的(即，在生物内)。在示例性实施方案中，细胞是哺乳动物细胞或哺乳动物细胞系。在特定实施方案中，细胞是人细胞或人细胞系。

合适的哺乳动物细胞或细胞系的非限制性实例包括人胚肾细胞(HEK293、HEK293T)；人宫颈癌细胞(HELA)；人肺细胞(W138)；人肝细胞(Hep G2)；人U2-OS骨肉瘤细胞、人A549细胞、人A-431细胞和人K562细胞；中国仓鼠卵巢(CHO)细胞、幼仓鼠肾(BHK)细胞；小鼠骨髓瘤NS0细胞、小鼠胚胎成纤维细胞3T3细胞(NIH3T3)、小鼠B淋巴瘤A20细胞；小鼠黑素瘤B16细胞；小鼠成肌细胞C2C12细胞；小鼠骨髓瘤SP2/0细胞；小鼠胚胎间充质C3H-10T1/2细胞；小鼠癌CT26细胞、小鼠前列腺DuCuP细胞；小鼠乳腺EMT6细胞；小鼠肝癌Hepa1c1c7细胞；小鼠骨髓瘤J5582细胞；小鼠上皮MTD-1A细胞；小鼠心肌MyEnd细胞；小鼠肾RenCa细胞；小鼠胰腺RIN-5F细胞；小鼠黑色素瘤X64细胞；小鼠淋巴瘤YAC-1细胞；大鼠胶质母细胞瘤9L细胞；大鼠B淋巴瘤RBL细胞；大鼠神经母细胞瘤B35细胞；大鼠肝癌细胞(HTC)；水牛鼠肝BRL 3A细胞；犬肾细胞(MDCK)；犬乳房(CMT)细胞；大鼠骨肉瘤D17细胞；大鼠单核细胞/巨噬细胞DH82细胞；猴肾SV-40转化成纤维细胞(COS7)；猴肾CVI-76细胞；非洲绿猴肾(VERO-76)细胞。哺乳动物细胞系的广泛列表可以在美国典型培养物保藏中心目录(ATCC，Manassas，VA)中找到。

(V)应用

本文公开的组合物和方法可以用于各种治疗、诊断、工业和研究应用中。在一些实施方案中，本公开内容可以用于修饰细胞、动物或植物中的任何目的染色体序列，以便建模和/或研究基因的功能、研究目的遗传或表观遗传条件、或者研究涉及各种疾病或病症的生化途径。例如，可以产生建模疾病或病症的转基因生物，其中与疾病或病症相关的一种或多种核酸序列的表达被改变。疾病模型可以用于研究突变对生物的作用，研究疾病的发展和/或进展，研究药物活性化合物对疾病的作用，和/或评价潜在基因疗法策略的功效。

在其它实施方案中，组合物和方法可以用于执行有效且具有成本效益的功能基因组筛选，其可以用于研究涉及特定生物学过程的基因的功能，以及基因表达中的任何改变可以如何影响生物学过程，或者执行与细胞表型结合的基因组基因座的饱和或深层扫描诱变。例如，饱和或深层扫描诱变可以用于确定基因表达、药物抗性和疾病逆转所需的关键最小特点和功能元件的离散脆弱性。

在进一步的实施方案中，本文公开的组合物和方法可以用于诊断测试，以确定疾病或病症的存在和/或用于确定治疗选项。合适的诊断测试的实例包括检测癌细胞中的特异性突变(例如EGFR、HER2等等中的特异性突变)，与特定疾病相关的特异性突变(例如三核苷酸重复、与镰状细胞病相关的β珠蛋白中的突变、特异性SNP等)的检测，肝炎的检测，病毒(例如寨卡病毒)的检测等等。

在另外的实施方案中，本文公开的组合物和方法可以用于校正与特定疾病或病症相关的遗传突变，例如校正与镰状细胞病或地中海贫血相关的珠蛋白基因突变，校正与重症联合免疫缺陷(SCID)相关的腺苷脱氨酶基因中的突变，降低HTT(亨廷顿氏病的致病基因)的表达，或校正视紫红质基因中的突变用于治疗色素性视网膜炎。此类修饰可以在离体细胞中进行。

在另外其它实施方案中，本文公开的组合物和方法可以用于生成具有改善的性状或增加的对环境应激的抗性的作物植物。本公开内容还可以用于生成具有改善的性状的家畜或生产动物。例如，猪具有使其作为生物医学模型有吸引力的许多特点，尤其是在再生医学或异种移植中。

定义

除非另有定义，否则本文使用的所有技术和科学术语都具有本发明所属领域的技术人员通常理解的含义。下述参考文献为技术人员提供了本发明中使用的许多术语的一般定义：Singleton等人，Dictionary ofMicrobiology and Molecular Biology(第2版，1994)；The Cambridge Dictionary ofScience and Technology(Walker编辑，1988)；TheGlossary ofGenetics，第5版，R.Rieger等人(编辑)，Springer Verlag(1991)；以及Hale&Marham，The Harper Collins Dictionary ofBiology(1991)。如本文使用的，除非另有说明，否则下述术语具有归于其的含义。

当介绍本公开内容或其优选实施方案的要素时，冠词“一个”、“一种”、“该”和“所述”预期意指存在一个或多个要素。术语“包含”、“包括”和“具有”预期是包括在内的，并且意指可以存在除所列要素外的另外要素。

当关于数值x使用时，术语“约”例如意指x±5％。

如本文使用的，术语“互补的”或“互补性”指通过特定氢键的碱基配对的双链核酸结合。碱基配对可以是标准的沃森-克里克碱基配对(例如5’-A G T C-3’与互补序列3’-TC A G-5’配对)。碱基配对也可以是Hoogsteen或反向Hoogsteen氢键合。互补性通常关于双链体区域进行测量，并且因此，例如排除突出端。如果仅一些(例如70％)碱基是互补的，则双链体区域的两条链之间的互补性可以是部分的，并且表示为百分比(例如70％)。并不互补的碱基是“错配的”。如果双链体区域中的所有碱基都是互补的，则互补性也可以是完全的(即，100％)。

如本文使用的，术语“CRISPR/Cas系统”或“Cas9系统”指包含Cas9蛋白(即，核酸酶、切口酶或催化死亡蛋白)和引导RNA的复合物。

如本文使用的，术语“内源序列”指对于细胞是天然的染色体序列。

如本文使用的，术语“外源的”指对于细胞并非天然的序列，或者其在细胞的基因组中的天然位置处于不同染色体位置中的染色体序列。

如本文使用的，“基因”指编码基因产物的DNA区域(包括外显子和内含子)，以及调节基因产物产生的所有DNA区域，无论此类调节序列是否与编码和/或转录序列相邻。相应地，基因包括但不一定限于启动子序列、终止子、翻译调节序列如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。

术语“异源的”指对于目的细胞并非内源或天然的实体。例如，异源蛋白质指衍生自或最初衍生自外源来源(例如外源引入的核酸序列)的蛋白质。在一些情况下，异源蛋白质通常不由目的细胞产生。

术语“切口酶”指切割双链核酸序列的一条链(即，切开双链序列)的酶。例如，可以通过突变和/或缺失来修饰具有双链切割活性的核酸酶，以充当切口酶并且仅切割双链序列的一条链。

如本文使用的，术语“核酸酶”指切割双链核酸序列的两条链的酶。

术语“核酸”和“多核苷酸”指呈线性或环状构象、以及以单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。为了本公开内容的目的，这些术语不应解释为关于聚合物长度的限制。该术语可以涵盖天然核苷酸的已知类似物，以及在碱基、糖和/或磷酸酯部分(例如，硫代磷酸酯主链)中修饰的核苷酸。一般而言，特定核苷酸的类似物具有相同的碱基配对特异性；即A的类似物将与T碱基配对。

术语“核苷酸”指脱氧核糖核苷酸或核糖核苷酸。核苷酸可以是标准核苷酸(即，腺苷、鸟苷、胞苷、胸苷和尿苷)，核苷酸异构体或核苷酸类似物。核苷酸类似物指具有修饰的嘌呤或嘧啶碱基或者修饰的核糖部分的核苷酸。核苷酸类似物可以是天然存在的核苷酸(例如肌苷、假尿苷等)或非天然存在的核苷酸。核苷酸的糖或碱基部分上的修饰的非限制性实例包括乙酰基、氨基、羧基、羧甲基、羟基、甲基、磷酰基和硫醇基的添加(或去除)，以及碱基的碳和氮原子被其它原子的取代(例如7-脱氮嘌呤)。核苷酸类似物还包括双脱氧核苷酸、2'-O-甲基核苷酸、锁核酸(LNA)、肽核酸(PNA)和吗啉代。

术语“多肽”和“蛋白质”可互换使用，以指氨基酸残基的聚合物。

术语“靶序列”、“靶染色体序列”和“靶位点”可互换使用，以指改造的Cas9系统靶向其的染色体DNA中的特异性序列、以及改造的Cas9的系统在其处修饰DNA或与DNA相关的蛋白质的位点。

用于确定核酸和氨基酸序列同一性的技术是本领域已知的。通常，此类技术包括确定基因的mRNA的核苷酸序列和/或确定由此编码的氨基酸序列，并且将这些序列与第二核苷酸或氨基酸序列进行比较。基因组序列也可以以这种方式来确定且比较。一般而言，同一性分别指两个多核苷酸或多肽序列的精确核苷酸对核苷酸或氨基酸对氨基酸的对应关系。可以通过确定其同一性百分比来比较两个或更多个序列(多核苷酸或氨基酸)。两个序列(无论是核酸序列还是氨基酸序列)的同一性百分比是两个比对序列之间的精确匹配数目除以较短序列的长度，且乘以100。关于核酸序列的近似比对由Smith和Waterman，Advances in Applied Mathematics 2：482-489(1981)的局部同源性算法提供。这种算法通过使用评分矩阵可以应用于氨基酸序列，所述评分矩阵由Dayhoff，Atlas of ProteinSequences and Structure，M.O.Dayhoff编辑，5suppl.3：353-358，National BiomedicalResearch Foundation，Washington，D.C.，USA开发，并且由Gribskov，Nucl.Acids Res.14(6)：6745-6763(1986)标准化。这种算法确定序列的同一性百分比的示例性实现由“BestFit”实用应用程序中的Genetics Computer Group(Madison，Wis.)提供。用于计算序列之间的同一性或相似性百分比的其它合适程序是本领域一般已知的，例如，另一种比对程序是与缺省参数一起使用的BLAST。例如，可以使用下述缺省参数来使用BLASTN和BLASTP：遗传密码＝标准；过滤器＝无；链＝两条；截断＝60；期望＝10；矩阵＝BLOSUM62；描述＝50个序列；排序方式＝高得分；数据库＝非冗余，GenBank+EMBL+DDBJ+PDB+GenBankCDS翻译+Swiss蛋白+Spupdate+PIR。这些程序的详细信息可以在GenBank网站上找到。

由于可以在所述细胞和方法中作出各种变化，而不背离本发明的范围，因此预期上述说明和下文给出的实施例中包含的所有内容，都应该解释为示例性的而不是限制性的。

实施例

下述实施例示出了本公开内容的某些方面。

实施例1：关于通过Cas9直向同源物的靶DNA切割的PAM要求的确定

来自斯密氏芽孢杆菌、鼠李糖乳杆菌、Parasutterella excrementihominis、犬支原体、鸡败血支原体、Akkermansiaglycaniphila、嗜粘蛋白艾克曼氏菌、北原酒球菌、Bifidobacterium bombi、解纤维素热酸菌、橙皮苷脂环酸芽孢杆菌、产琥珀酸沃林氏菌、Nitratifractor salsuginis、蒲桃雷尔氏菌和白喉棒状杆菌的Cas9直向同源物对于在人细胞中的表达进行密码子优化，并且在C末端上用SV40大T抗原核定位(NLS)加上标签(SEQID NO：1-30；参见下表6)。每种直向同源物的表达由人巨细胞病毒(CMV)立即早期增强子和启动子驱动。关于每种直向同源物的CRISPRRNA(crRNA)和推定的反式激活crRNA(tracrRNA)连接在一起，以形成单个引导RNA(sgRNA)(SEQ ID NO：31-45；参见下表6)。每种sgRNA的表达由人U6启动子驱动。从加上T7启动子标签的PCR模板制备体外转录的sgRNA，作为体外消化的补充物。

通过核转染，用Cas9编码质粒和sgRNA表达质粒转染人K562细胞。每次转染由200万个细胞、5μg Cas9编码质粒DNA和3μg sgRNA表达质粒DNA组成。在转染后大约24小时收获细胞，用冰冷的PBS缓冲液洗涤，并且用150μL裂解溶液(20mM HEPES，pH 7.5；100mM KCl；5mM MgCl2、1mM DTT、5％甘油、0.1％Triton X-100、1x蛋白酶抑制剂)裂解，伴随在4℃冷室中30分钟的恒定搅动。通过在4℃下以16,000xg离心2分钟去除残留的细胞碎片来制备上清液，并且用作Cas9 RNP的来源，用于质粒DNA PAM文库的体外消化。该文库含有4⁸种简并PAM，各自紧跟具有下述配置的前间隔序列：5’-GTACAAACGGCAGAAGCTGGNNNNNNNN-3’(SEQID NO：46)。每次体外消化由在20μL反应体积中的10μL细胞裂解上清液，2μL 5x消化缓冲液(100mM HEPES，pH 7.5；500mM KCl；25mM MgCl₂；5mM DTT；25％甘油)，800ng PAM文库DNA，以及20pmol体外转录的sgRNA补充物组成。反应在37℃下维持30分钟，然后用PCR纯化试剂盒纯化。从消化产物制备Illumina NextSeq测序文库，并且经受深度测序。使用Weblogo程序分析了深度测序数据，以推断关于每种Cas9直向同源物的PAM要求。

结果概括于图1中。结果揭示了几种Cas9直向同源物，其使用含有A和/或T的PAM用于体外靶DNA切割。这些Cas9直向同源物可以提供靶向富含AT的基因组位点的手段。结果还揭示了几种Cas9直向同源物，其使用适合于靶向富含GC的基因组位点的PAM。这些Cas9直向同源物可以在富含GC的基因组位点中提供对SpyCas9的交替靶向方案，以增加靶向分辨率和特异性。

实施例2：使用斯密氏芽孢杆菌Cas9(BsmCas9)和鼠李糖乳杆菌Cas9(LrhCas9)的基因组修饰

如图1和表A(上文)中所示，小的BsmCas9(1095aa)(SEQ ID NO：2)和LrhCas9(SEQID NO：4)分别使用5’-NNNNCAAA-3’PAM和5’-NGAAA-3’PAM，用于靶DNA结合。这些新型PAM用法提供了靶向富含AT的基因组位点的手段。为了证实基因编辑，用5μg Cas9编码质粒DNA和3μg sgRNA表达质粒DNA，对人K562细胞(1x10⁶)进行核转染。靶向的基因组位点包括人酪氨酸蛋白磷酸酶非受体2型(PTN2)基因座、人空通气孔同源框1(EMX1)基因座、人程序性细胞死亡1配体1(PD1L1)基因座、人AAVS1安全港基因座、人细胞色素p450氧化还原酶(POR)基因座、以及人核受体亚家族1组I成员3(CAR)基因座。在转染三天后，使用DNA提取溶液(QuickExtract^TM)制备基因组DNA，并且靶向基因组区域各自进行PCR扩增(JumpStartTaq^TMReadyMix^TM)。PCR引物在表1中列出。

使用下述条件进行扩增：98℃2分钟的1个循环用于初始变性；98℃15秒、62℃30秒和72℃45秒的34个循环；72℃5分钟的1个循环；并且保持在4℃下。PCR产物用Cel-1核酸酶消化，并且在10％丙烯酰胺凝胶上分辨。使用ImageJ测量靶向突变率，并且表示为插入和/或缺失百分比(％插入缺失)。结果概括于表2中。这些结果证实使用5’-NNNNCAAA-3’PAM(BsmCas9)或5’-NGAAA-3’PAM(LrhCas9)，两种Cas9直向同源物均能够编辑人细胞中的内源性基因组位点。

实施例3：通过与染色质调节基序融合改善Parasutterella excrementihominisCas9(PexCas9)

通过使用TGSG接头(SEQ ID NO：109)在N末端上与人HMGN1肽(SEQ ID NO：72)融合，并且使用LEGGGS接头(SEQ ID NO：108)在C末端上与人HMGB1框A肽(PexCas9-HN1HB1融合物；SEQ ID NO:117)或人组蛋白H1中心球状结构域肽(PexCas9-HN1H1G；SEQ ID NO：118)融合，来修饰Parasutterella excrementihominis Cas9(PexCas9-NLS)(SEQ ID NO：6)。

用等摩尔量(分别为5和5.4μg)的编码PexCas9-NLS、PexCas9-HN1HB1融合物或PexCas9-HN1H1G融合物的质粒DNA和3μg sgRNA质粒转染人K562细胞(1x10⁶)，用于靶向人细胞色素p450氧化还原酶(POR)基因座中的基因组位点。转染后三天，使用DNA提取溶液(QuickExtract^TM)制备基因组DNA，并且使用正向引物5’-CTCCCCTGCTTCTTGTCGTAT-3’(SEQID NO：55)和反向引物5’-ACAGGTCGTGGACACTCACA-3’(SEQ ID NO：56)，对靶向基因组区域进行PCR扩增。用下述条件进行扩增：98℃2分钟的1个循环用于初始变性；98℃15秒、62℃30秒和72℃45秒的34个循环；72℃5分钟的1个循环；并且保持在4℃下。PCR产物用Cel-1核酸酶消化，并且在10％丙烯酰胺凝胶上分辨。使用ImageJ测量靶向突变率，并且表示为插入和/或缺失百分比(％插入缺失)。结果概括于表4中。结果证实具有至少一个染色质调节基序的Cas9融合物增强了其对人细胞中的内源靶的基因编辑效率。

*PAM的决定性核苷酸是加下划线的。

实施例4.通过sgRNA修饰改善犬支原体Cas9(McaCas9)系统

McaCas9的野生型crRNA编码序列在重复区域中含有四个连续的胸苷残基，并且当crRNA和tracrRNA连接在一起以形成sgRNA时，四个胸苷残基中的三个预测与推定的tracrRNA序列中的三个腺苷残基配对。已知人RNA聚合酶(Pol)III使用编码RNA链上的四个或更多个连续的胸苷残基作为转录终止信号。为了防止McaCas9 sgRNA在人细胞中的早期转录终止，将T至C突变和相应的A至G突变引入sgRNA支架内，以形成具有下述序列的修饰的sgRNA支架：5’-GUUCUAGUGUUGUACAAUAUUUGGGUGAAAACCCAAAUAUUGUACAUCCUAGAUCAAGGCGCUUAAUUGCUGCCGUAAUUGCUGAAAGCGUAGCUUUCAGUUUUUUU-3’(SEQ ID NO：76)，其中突变的核苷酸是加下划线的。还预测这种修饰增加sgRNA支架的热力学稳定性。

用5.5μg编码McaCas9融合蛋白的质粒DNA、以及3μg编码对照sgRNA支架或修饰的sgRNA支架的sgRNA质粒DNA转染人K562细胞(1x10⁶)，所述McaCas9融合蛋白含有在N末端上的HMGN1肽以及在C末端上的组蛋白H1球状结构域肽。转染后三天，使用DNA提取溶液(QuickExtract^TM)制备基因组DNA，并且使用正向引物5’-CTCCCCTGCTTCTTGTCGTAT-3’(SEQID NO：55)和反向引物5’-ACAGGTCGTGGACACTCACA-3’(SEQ ID NO：56)，对靶向基因组区域进行PCR扩增。用下述条件进行扩增：98℃2分钟的1个循环用于初始变性；98℃15秒、62℃30秒和72℃45秒的34个循环；72℃5分钟的1个循环；并且保持在4℃下。PCR产物用Cel-1核酸酶消化，并且在10％丙烯酰胺凝胶上分辨。使用ImageJ测量靶向突变率，并且表示为插入和/或缺失百分比(％插入缺失)。结果概括于表5中。结果证实通过修饰其sgRNA支架，可以增强Cas9直向同源物在哺乳动物细胞中的活性。

*PAM的决定性核苷酸是加下划线的。

实施例5.通过与染色质调节基序融合改善McaCas9、BsmCas9、PexCas9和LrhCas9活性

通过将McaCas9-NLS、BsmCas9-NLS和LrhCas9-NLS蛋白在氨基末端处与HMGN1(HN1)连接，并且在羧基末端处与HMGB1框A(HB1)或组蛋白H1中心球状基序(H1G)连接，来制备另外的Cas9-CMM融合蛋白，以获得McaCas9-HN1HB1(SEQ ID NO：123)、McaCas9-HN1H1G(SEQ ID NO：124)、BsmCas9-HN1HB1(SEQ ID NO：119)、Bsm-HN1H1G(SEQ ID NO：120)、Lrh-HN1HB1(SEQ ID NO：121)、LrhCas9-HN1H1G(SEQ ID NO：122)。将上文实施例3中所述的这些融合物和PexCas9-CMM融合物的核酸酶活性，与基本上如上文实施例2和3中所述的相应的改造的Cas9蛋白的活性进行比较。表6呈现了关于每种Cas9核酸酶的特异性基因座中的靶位点(即，前间隔序列+PAM，其以粗体显示，伴随加下划线的决定性核苷酸)。

在图2A-D中绘制了在每种条件下的插入缺失百分比。HN1HB1和HN1H1G组合两者均对至少一个位点显著增强了四种Cas9直向同源物。基于倍数变化量级，CMM融合修饰对McaCas9提供了最大的增强，使其对测试的两个位点的活性增加到至少五倍(图2A)。CMM融合对PexCas9提供了多于两倍增强(图2B)。BsmCas9活性对一个位点增强到多于三倍，但对第二个位点仅存在20％的增加，而对第三个位点没有作用(图2C)。然而，应该指出，所有三种BsmCas9核酸酶都是高度有效的(>35％插入缺失)。即使没有融合修饰，LrhCas9对测试的两个位点也是高度有效的(22％和33％插入缺失)(图2D)。然而，HN1H1G组合仍对两个位点均提供了显著增强，伴随活性的70％和28％增加。这些结果证实CMM融合策略增强了基因编辑效率。

实施例6.Cas9-CMM融合物的脱靶效应

为了评价Cas9-CMM融合物的脱靶活性，使用Surveyor Nuclease测定，分析了关于每个靶位点的1至5个排名最高的潜在脱靶位点。除上文实施例5中所述的Cas9和Cas9-CMM融合数据之外，还分析了来自化脓性链球菌Cas9(SpyCas9)、SpyCas9-CMM融合物、巴氏链球菌(Streptococcus pasteurianus)Cas9(SpaCas9)、Spa-CMM融合物、空肠弯曲杆菌(Campylobacter jejuni)Cas9(CjeCas9)和CjeCas9-SMM融合物的数据。从测定的总共64个潜在的脱靶位点中，在11个位点上检测到脱靶切割，其由测试的总共21种引导序列中的9种引导序列贡献。在11个脱靶位点上，对照Cas9和融合核酸酶同时存在，除了POR Spy 1-OT1位点之外，其中在对照SpyCas9上未检测到脱靶切割。总之，融合核酸酶与对照Cas9之间不存在显著差异(图3)。例如，在所有11个脱靶位点中，HN1H1G融合组合平均为8.0±6.0％插入缺失，而对照Cas9平均为7.5±5.1％插入缺失。同样地，在与HN1HB1融合组合相关的10个脱靶位点上，融合组合与对照Cas9之间不存在显著差异(6.9±5.7％相对于6.5±5.4％插入缺失)。总而言之，这些结果显示了，通过HN1H1B和HN1H1G融合组合的中靶活性增强一般不导致脱靶活性的增加。

改造的Cas9系统

表7呈现了改造的Cas9/NLS蛋白的人密码子优化的DNA和蛋白质序列(SEQ ID NO：1-30，其中NLS序列是加下划线的)，以及改造的sgRNA的DNA序列(SEQ ID NO：31-45；在5'端处的N残基指示可编程的靶序列)。还呈现了Cas9-CMM融合物(SEQ ID NO：117-124)。

Claims

1.一种系统，其包含改造的Cas9蛋白和改造的引导RNA，其中所述改造的引导RNA设计为与所述改造的Cas9蛋白复合，并且所述改造的引导RNA包含设计为与双链序列的靶序列杂交的5'引导序列，其中所述靶序列对于前间隔序列邻近基序（PAM）为5'，并且所述PAM具有如表A中列出的序列。

2.权利要求1的系统，其中所述改造的Cas9蛋白包含相对于其野生型配对物的至少一种修饰。

3.权利要求2的系统，其中所述至少一种修饰包含至少一个异源结构域的添加。

4.权利要求2或3的系统，其中所述至少一个异源结构域是核定位信号、细胞穿透结构域、标记物结构域、染色质调节基序、表观遗传修饰结构域、转录调节结构域、RNA适体结合结构域或其组合。

5.权利要求2的系统，其中所述至少一种修饰包含一个或多个氨基酸的取代、一个或多个氨基酸的插入、一个或多个氨基酸的缺失或其组合。

6.权利要求5的系统，其中所述至少一种修饰在RuvC结构域、HNH结构域、REC结构域、PAM相互作用结构域或其组合内。

7.权利要求1至6中任一项的系统，其中所述改造的Cas9蛋白是核酸酶并且切割双链序列的两条链，是切口酶并且切割双链序列的一条链，或者不具有核酸酶或切口酶活性。

8.权利要求1至7中任一项的系统，其中所述改造的引导RNA是单个分子。

9.权利要求1至8中任一项的系统，其中所述改造的引导RNA序列进行优化，以促进在所述改造的引导RNA内的碱基配对，使所述改造的引导RNA内的碱基配对降到最低，增加所述改造的引导RNA的稳定性，促进所述改造的引导RNA在真核细胞中的转录或其组合。

10.权利要求1至9中任一项的系统，其中所述改造的Cas9蛋白来自斯密氏芽孢杆菌(Bacillus smithii)、鼠李糖乳杆菌(Lactobacillus rhamnosus)、Parasutterella excrementihominis、犬支原体(Mycoplasma canis)、鸡败血支原体(Mycoplasma gallisepticum)、Akkermansia glycaniphila、嗜粘蛋白艾克曼氏菌(Akkermansia muciniphila)、北原酒球菌(Oenococcus kitaharae)、Bifidobacterium bombi、解纤维素热酸菌(Acidothermus cellulolyticus)、橙皮苷脂环酸芽孢杆菌(Alicyclobacillus hesperidum)、产琥珀酸沃林氏菌(Wolinella succinogenes)、Nitratifractor salsuginis、蒲桃雷尔氏菌(Ralstonia syzygii)或白喉棒状杆菌(Corynebacterium diphtheria)。

11.权利要求1至10中任一项的系统，其中所述改造的Cas9蛋白来自斯密氏芽孢杆菌，并且其识别的PAM序列是5’-NNNNCAAA-3’，所述改造的Cas9蛋白来自鼠李糖乳杆菌，并且其识别的PAM序列是5’-NGAAA-3’，所述改造的Cas9蛋白来自Parasutterella excrementihominis，并且其识别的PAM序列是5'-NGG-3'，所述改造的Cas9蛋白来自犬支原体，并且其识别的PAM序列是5'-NNGG-3'，所述改造的Cas9蛋白来自鸡败血支原体，并且其识别的PAM序列是5’-NNAAT-3’，所述改造的Cas9蛋白来自Akkermansia glycaniphila，并且其识别的PAM序列是5’-NNNRTA-3’，所述改造的Cas9蛋白来自嗜粘蛋白艾克曼氏菌，并且其识别的PAM序列是5’-MMACCA-3’，所述改造的Cas9蛋白来自北原酒球菌，并且其识别的PAM序列是5'-NNG-3'，所述改造的Cas9蛋白来自Bifidobacterium bombi，并且其识别的PAM序列是5’-NNNNGRY-3’，所述改造的Cas9蛋白来自解纤维素热酸菌，并且其识别的PAM序列是5'-NGG-3'，所述改造的Cas9蛋白来自橙皮苷脂环酸芽孢杆菌，并且其识别的PAM序列是5'-NGG-3'，所述改造的Cas9蛋白来自产琥珀酸沃林氏菌，并且其识别的PAM序列是5'-NGG-3'，所述改造的Cas9蛋白来自Nitratifractor salsuginis，并且其识别的PAM序列是5’-NRGNK-3’，所述改造的Cas9蛋白来自蒲桃雷尔氏菌，并且其识别的PAM序列是5’-GGGRG-3’，或所述改造的Cas9蛋白来自白喉棒状杆菌，并且其识别的PAM序列是5’-NNAMMMC-3’，其中K是G或T；M是A或C；N是A、C、G或T；R是A或G；且Y是C或T。

12.权利要求1至11中任一项的系统，其中所述改造的Cas9蛋白具有的氨基酸序列与SEQ ID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、117、118、119、120、121、122、123或124具有至少约90%的序列同一性。

13.权利要求1至12中任一项的系统，其中所述改造的Cas9蛋白具有如SEQ ID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、117、118、119、120、121、122、123或124中所示的氨基酸序列。

14.编码权利要求1至13中任一项的系统的多种核酸，所述多种核酸包含编码所述改造的Cas9蛋白的至少一种核酸、以及编码所述改造的引导RNA的至少一种核酸。

15.权利要求14的多种核酸，其中编码所述改造的Cas9蛋白的所述至少一种核酸是RNA。

16.权利要求14的多种核酸，其中编码所述改造的Cas9蛋白的所述至少一种核酸是DNA。

17.权利要求14至16中任一项的多种核酸，其中编码所述改造的Cas9蛋白的所述至少一种核酸进行密码子优化，用于在真核细胞中表达。

18.权利要求17的多种核酸，其中所述真核细胞是人细胞、非人哺乳动物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞、植物细胞或单细胞真核生物。

19.权利要求14的多种核酸，其中编码所述改造的引导RNA的所述至少一种核酸是DNA。

20.权利要求14至19中任一项的多种核酸，其中编码所述改造的Cas9蛋白的所述至少一种核酸与噬菌体启动子序列可操作地连接，用于在细菌细胞中的体外RNA合成或蛋白质表达，并且编码所述改造的引导RNA的所述至少一种核酸与噬菌体启动子序列可操作地连接，用于体外RNA合成。

21.权利要求14至19中任一项的多种核酸，其中编码所述改造的Cas9蛋白的所述至少一种核酸与真核启动子序列可操作地连接，用于在真核细胞中的表达，并且编码所述改造的引导RNA的所述至少一种核酸与真核启动子序列可操作地连接，用于在真核细胞中的表达。

22.至少一种载体，其包含权利要求14至21中任一项的多种核酸。

23.权利要求22的至少一种载体，其是质粒载体、病毒载体或自复制病毒RNA复制子。

24.一种真核细胞，其包括如权利要求1至13中定义的包含改造的Cas9蛋白和改造的引导RNA的至少一种系统、如权利要求14至21中定义的至少一种核酸、或者如权利要求22或23中定义的至少一种载体。

25.权利要求24的真核细胞，其是人细胞、非人哺乳动物细胞、植物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞或单细胞真核生物。

26.权利要求24或25的真核细胞，其是体内、离体或体外的。

27.一种用于修饰真核细胞中的染色体序列的方法，所述方法包括将如权利要求1至13中定义的包含改造的Cas9蛋白和改造的引导RNA的至少一种系统、如权利要求14至21中定义的至少一种核酸、或者如权利要求22或23中定义的至少一种载体、以及任选地至少一种供体多核苷酸引入真核细胞内，其中所述至少一种改造的引导RNA将所述至少一种改造的Cas9蛋白引导至所述染色体序列中的靶位点，使得发生染色体序列的修饰。

28.权利要求27的方法，其中所述修饰包含至少一个核苷酸的取代、至少一个核苷酸的缺失、至少一个核苷酸的插入、至少一个核苷酸的转换、至少一个核苷酸的修饰、至少相关的组蛋白的修饰或其组合。

29.权利要求27或28的方法，其中所述改造的Cas9蛋白具有核酸酶或切口酶活性，所述至少一种供体多核苷酸未引入所述细胞内，并且所述修饰包含至少一个插入缺失。

30.权利要求29的方法，其中所述修饰包含所述染色体序列的失活。

31.权利要求27或28的方法，其中所述改造的Cas9蛋白具有核酸酶或切口酶活性，所述至少一种供体多核苷酸引入所述细胞内，并且所述修饰包含所述染色体序列中的至少一个核苷酸的变化。

32.权利要求31的方法，其中所述至少一种供体多核苷酸的供体序列相对于所述染色体序列中的靶位点附近的序列具有至少一个核苷酸变化。

33.权利要求31的方法，其中所述至少一种供体多核苷酸包含对应于外源序列的供体序列。

34.权利要求32或33的方法，其中所述供体序列侧翼为与位于所述染色体序列中的所述靶位点上游和下游的序列具有基本序列同一性的序列。

35.权利要求32或33的方法，其中所述供体序列侧翼为与由所述至少一种改造的Cas9蛋白生成的突出端相容的短突出端。

36.权利要求27至35中任一项的方法，其中所述真核细胞是人细胞、非人哺乳动物细胞、植物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞或单细胞真核生物。

37.权利要求27至36中任一项的方法，其中所述真核细胞是体内、离体或体外的。

38.一种融合蛋白，其包含与至少一个染色质调节基序连接的Cas9蛋白，其中所述Cas9蛋白是斯密氏芽孢杆菌、鼠李糖乳杆菌、Parasutterella excrementihominis、犬支原体、鸡败血支原体、Akkermansia glycaniphila、嗜粘蛋白艾克曼氏菌、北原酒球菌、Bifidobacterium bombi、解纤维素热酸菌、橙皮苷脂环酸芽孢杆菌、产琥珀酸沃林氏菌、Nitratifractor salsuginis、蒲桃雷尔氏菌或白喉棒状杆菌Cas9蛋白。

39.权利要求38的融合蛋白，其中所述至少一个染色质调节基序是高迁移率族（HMG）框（HMGB）DNA结合结构域、HMG核小体结合（HMGN）蛋白、来自组蛋白H1变体的中心球状结构域、来自染色质重塑复合蛋白的DNA结合结构域或其组合。

40.权利要求38或39的融合蛋白，其中所述至少一个染色质调节基序是HMGB1框A结构域、HMGN1蛋白、HMGN2蛋白、HMGN3a蛋白、HMGN3b蛋白、组蛋白H1中心球状结构域、模拟开关（ISWI）蛋白DNA结合结构域、克罗莫结构域-解旋酶-DNA蛋白1（CHD1）DNA结合结构域或其组合。

41.权利要求38至40中任一项的融合蛋白，其中所述至少一个染色质调节基序直接经由化学键、间接经由接头或其组合与所述Cas9蛋白连接。

42.权利要求38至41中任一项的融合蛋白，其中所述至少一个染色质调节基序在其N末端、C末端、内部位置或其组合处与所述Cas9蛋白连接。

43.权利要求38至42中任一项的融合蛋白，其进一步包含至少一个核定位信号。

44.权利要求38至43中任一项的融合蛋白，其进一步包含至少一个细胞穿透结构域、至少一个标记物结构域或其组合。

45.权利要求38至44中任一项的融合蛋白，其中所述融合蛋白具有的氨基酸序列与SEQID NO：117、118、119、120、121、122、123或124具有至少90%的序列同一性。

46.权利要求38至45中任一项的融合蛋白，其中所述融合蛋白具有如SEQ ID NO：117、118、119、120、121、122、123或124中所示的氨基酸序列。