CN117070497A

CN117070497A - 可降低基因编辑脱靶率的基因编辑蛋白变体

Info

Publication number: CN117070497A
Application number: CN202210508434.7A
Authority: CN
Inventors: 尹蕾
Original assignee: Shanghai Tolo Biotechnology Co ltd
Current assignee: Shanghai Tolo Biotechnology Co ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-11-17
Also published as: WO2023216764A1

Abstract

本发明涉及可降低基因编辑脱靶率的基因编辑蛋白变体。具体地，本发明提供一种基因编辑蛋白变体，所述变体为具有cis切割活性的非天然蛋白，且所述变体相较于其野生型基因编辑蛋白的trans切割活性降低，并且所述变体在野生型基因编辑蛋白的选自下组一个或多个与切割活性相关的核心氨基酸位点发生突变：对应于FnCas12a第1081位的苯丙氨酸(F)位点；和/或对应于FnCas12a第1069位的赖氨酸(K)位点，本发明首次发现，本发明的基因编辑蛋白变体可具有cis切割活性且trans切割活性降低，并且本发明的基因编辑蛋白变体以及含有本发明的基因编辑蛋白变体的基因编辑系统可显著降低基因编辑脱靶率。

Description

可降低基因编辑脱靶率的基因编辑蛋白变体

技术领域

本发明涉及生物技术领域，具体地，涉及可降低基因编辑脱靶率的基因编辑蛋白变体。

背景技术

基因编辑是指对DNA序列进行删除、插入或替换等操作，广泛应用于基因功能研究、疾病模型建立、疾病治疗以及转基因动植物工程等等。第一代基因编辑技术基于锌指核酸酶(Zinc Finger Nuclease，ZFN)，ZFN含有一个能够特异性识别序列的DNA锌指结合域，通过改造这个区域可以实现靶向不同的DNA序列。一个DNA锌指结合域一般由多个锌指结构组成，每个锌指结构识别3个碱基，因此ZNF的靶序列必须是3的倍数。由于ZNF的识别结构域存在上下文依赖效应，其设计和筛选的难度非常大，应用范围受到限制，并且该技术还存在成本高、劳动量大、耗时长、成功率低、易脱靶、细胞毒性大等缺陷。第二代基因编辑技术基于转录激活样效用因子核酸酶(TALEN，Transcription Activator-like effectorNuclease)，其识别靶位点DNA特异性的单位模块是间隔32个恒定氨基酸残基的二联氨基酸，不同的二联氨基酸能够与AGTC四个核苷酸碱基一一对应。根据靶标DNA的序列反推出对应的二联氨基酸序列，从而构成TALEN靶点识别模块。该模块进行组装需要大量的分子克隆和测序操作，从而限制了该技术的推广。

第三基因编辑技术基于CRISPR-Cas技术，该技术通过guide RNA实现特异性识别靶标DNA序列，guide RNA的设计和合成工作量远小于TALEN和ZFN技术的DNA识别模块的构建过程。Guide RNA能够结合具有核酸酶活性的Cas蛋白，并引导其对靶标DNA进行切割。

目前基因编辑蛋白还是存在一定程度的脱靶率。当基因编辑蛋白(比如Cas12a)与guide RNA和靶标DNA形成三元复合体后，不仅对靶标DNA具有cis切割活性，还对体系中存在的单链DNA具有非特异的trans切割活性。当DNA处于复制或转录状态时，双链DNA会解链成单链DNA，此时基因编辑蛋白(比如Cas12a)的trans切割活性可能会导致这些DNA被切割，因而导致脱靶产生，并且引起细胞毒问题。因此需要消除基因编辑蛋白(比如Cas12a)的trans切割活性以解决脱靶引起的细胞毒问题。

因此，本领域迫切需要开发消除基因编辑蛋白(比如Cas12a)的trans切割活性以解决脱靶引起的细胞毒问题的方法。

发明内容

本发明的目的是提供一种降低乃至消除基因编辑蛋白(比如Cas12a)的trans切割活性以解决脱靶引起的细胞毒问题的方法。

本发明第一方面提供了一种基因编辑蛋白变体，所述变体为具有cis切割活性的非天然蛋白，且所述变体相较于其野生型基因编辑蛋白的trans切割活性降低，并且所述变体在野生型基因编辑蛋白的选自下组一个或多个与切割活性相关的核心氨基酸位点发生突变：

对应于FnCas12a第1081位的苯丙氨酸(F)位点；和/或

对应于FnCas12a第1069位的赖氨酸(K)位点。

在另一优选例中，所述变体相较于其野生型基因编辑蛋白的trans切割活性降低指与野生型的基因编辑蛋白相比，所述变体的trans切割活性降低≥50，较佳地≥80％，更佳地，≥90％或100％。

在另一优选例中，所述FnCas12a第1081位的苯丙氨酸(F)突变为选自下组的一种或多种氨基酸：精氨酸(R)、酪氨酸(Y)、色氨酸(W)、谷氨酰胺(Q)、天冬酰胺(N)、赖氨酸(K)、谷氨酸(E)、天冬氨酸(D)或其组合。

在另一优选例中，所述FnCas12a第1069位的赖氨酸(K)突变为选自下组的一种或多种氨基酸：精氨酸(R)、酪氨酸(Y)、谷氨酰胺(Q)、天冬酰胺(N)、赖氨酸(K)、谷氨酸(E)、天冬氨酸(D)或其组合。

在另一优选例中，所述FnCas12a第1081位的苯丙氨酸(F)突变为精氨酸(R)。

在另一优选例中，所述FnCas12a第1069位的赖氨酸(K)突变为精氨酸(R)。

在另一优选例中，所述的突变选自下组：F1081R、K1069R、或其组合。

在另一优选例中，所述基因编辑蛋白为V型CRISPR/Cas蛋白。

在另一优选例中，所述基因编辑蛋白选自下组：Cas 12、Cas14、或其组合。

在另一优选例中，所述基因编辑蛋白选自下组：Cas12a、Cas12b、Cas12e或其组合。

另一优选例中，所述Cas12a选自下组：FnCas12a、AsCas12a、LbCas12a、Lb5Cas12a、HkCas12a、OsCas12a、TsCas12a、BbCas12a、BoCas12a、Lb4Cas12a、或其组合。

在另一优选例中，所述基因编辑蛋白的来源选自下组：纤毛菌属、李斯特菌属、棒状杆菌属、萨特氏菌属、军团菌属、密螺旋体属、产线菌属、真细菌属、链球菌属、乳酸菌属、支原体属、拟杆菌属、Flaviivola、黄杆菌属、固氮螺菌属、Sphaerochaeta、葡糖醋杆菌属、奈瑟氏菌属、罗氏菌属、Parvibaculum、葡萄球菌属、Nitratifractor、支原体属、弯曲杆菌属、毛螺菌属、或其组合。

在另一优选例中，所述基因编辑蛋白的来源选自下组：毛螺菌科细菌ND2006(Lachnospiraceae bacterium ND2006)(LbCas12a)、Thiomicrospira sp.XS5(TsCas12a)、土拉弗菌(Francisella tularensis)(FnCas12a)、Bacteroidetes oral taxon 274(BoCas12a)、Oribacterium sp.NK2B42(OsCas12a)、氨基酸球菌属BV3L6(Acidaminococcussp.BV3L6)(AsCas12a)、孔氏创伤球菌(Helcococcus sp kunzii)(HkCas12a)、毛螺菌科细菌NC2008(Lachnospiraceae bacterium NC2008)(Lb5Cas12a)、或其组合。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于FnCas12a的第1081和1069位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于BbCas12a的第1019和1007位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于AsCas12a的第1069和1057位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于BoCas12a的第1033和1021位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于HkCas12a的第1090和1078位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于Lb4Cas12a的第1004和992位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于Lb5Cas12a的第980和968位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于LbCas12a的第1018和1006位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于OsCas12a的第1001和989位。

在另一优选例中，所述FnCas12a第1081和1069位的位点位于TsCas12a的第1070和1058位。

在另一优选例中，所述基因编辑蛋白为FnCas12a。

在另一优选例中，所述基因编辑蛋白的序列如SEQ ID NO.1所示。

在另一优选例中，所述变体的氨基酸序列如SEQ ID NO.2-3中的任一所示。

在另一优选例中，所述的变体为具有SEQ ID NO.:2-3中任一所示氨基酸序列的多肽、其活性片段、或其保守性变异多肽。

在另一优选例中，所述的变体除所述突变(如1081位、和/或1069位)外，其余的氨基酸序列与野生型的基因编辑蛋白的序列相同或基本相同。

在另一优选例中，所述的基本相同是至多有50个(较佳地为1-20个，更佳地为1-10个、更佳地1-5个)氨基酸不相同，其中，所述的不相同包括氨基酸的取代、缺失或添加，且所述的变体具有cis切割活性且trans切割活性降低。

在另一优选例中，所述变体与所述野生型的基因编辑蛋白的同源性至少为80％，较佳地至少为85％或90％，更佳地至少为95％，最佳地至少为98％或99％。

在另一优选例中，所述的变体选自下组：

(a)具有SEQ ID NO.:2-3中任一所示氨基酸序列的多肽；

(b)将SEQ ID NO.:2-3中任一所示氨基酸序列经过一个或多个(如2个、3个、4个或5个)氨基酸残基的取代、缺失或添加而形成的，且具有cis切割活性且trans切割活性降低的由(a)衍生的多肽。

在另一优选例中，所述的衍生的多肽与SEQ ID NO.:2-3中任一所示序列的同源性至少为60％，较佳地至少为70％，更佳地至少为80％，最佳地至少为90％，如95％、97％、99％。

在另一优选例中，所述变体为所述野生型的基因编辑蛋白经突变形成的。

本发明第二方面提供了一种多核苷酸，所述的多核苷酸编码本发明第一方面所述的变体。

在另一优选例中，所述多核苷酸选自下组：

(a)编码如SEQ ID NO.2-3中任一所示多肽的多核苷酸；

(b)序列如SEQ ID NO.:4-5中任一所示的多核苷酸；

(c)核苷酸序列与SEQ ID NO.:4-5中任一所示序列的同源性≥80％(较佳地≥90％，更佳地≥95％，最佳地≥98％)，且编码SEQ ID NO.:2-3中任一所示多肽的多核苷酸；

(d)与(a)-(c)任一所述的多核苷酸互补的多核苷酸。

在另一优选例中，所述的多核苷酸在所述变体的ORF的侧翼还额外含有选自下组的辅助元件：信号肽、分泌肽、标签序列(如6His)、或其组合。

在另一优选例中，所述的多核苷酸选自下组：基因组序列、cDNA序列、RNA序列、或其组合。

在另一优选例中，该多核苷酸还包含与所述变体的ORF序列操作性连接的启动子。

在另一优选例中，所述的启动子选自下组：组成型启动子、组织特异性启动子、诱导型启动子、或者强启动子。

本发明第三方面提供了一种载体，所述的载体含有本发明第二方面所述的多核苷酸。

在另一优选例中，所述载体包含一个或多个启动子，所述启动子可操作地与所述核酸序列、增强子、转录终止信号、多腺苷酸化序列、复制起点、选择性标记、核酸限制性位点、和/或同源重组位点连接。

在另一优选例中，所述载体包括质粒、病毒载体。

在另一优选例中，所述的病毒载体选自下组：腺相关病毒(AAV)、腺病毒、慢病毒、逆转录病毒、疱疹病毒、SV40、痘病毒、或其组合。

在另一优选例中，所述载体包括克隆载体、转化载体、表达载体、穿梭载体、整合载体、多功能载体。

本发明第四方面提供了一种宿主细胞，所述宿主细胞含有本发明第三方面所述的载体，或其基因组中整合有本发明第二方面所述的多核苷酸。

在另一优选例中，所述的宿主细胞为真核细胞，如酵母细胞、植物细胞或哺乳动物细胞(包括人和非人哺乳动物)。

在另一优选例中，所述的宿主细胞为原核细胞，如大肠杆菌。

在另一优选例中，所述酵母细胞选自下组的一种或多种来源的酵母：毕氏酵母、克鲁维酵母、或其组合；较佳地，所述的酵母细胞包括：克鲁维酵母，更佳地为马克斯克鲁维酵母、和/或乳酸克鲁维酵母。

在另一优选例中，所述宿主细胞选自下组：大肠杆菌、麦胚细胞，昆虫细胞，SF9、Hela、HEK293、CHO、酵母细胞、或其组合。

本发明第五方面提供了一种基因编辑蛋白变体的制备方法，所述的方法包括步骤：

(a)在适合表达的条件下，培养本发明第四方面所述的宿主细胞，从而表达所述的基因编辑蛋白变体；和

(b)分离所述的基因编辑蛋白变体。

本发明第六方面提供了一种酶制剂，所述酶制剂包括本发明第一方面所述的基因编辑蛋白变体。

在另一优选例中，所述的酶制剂包括注射剂、和/或冻干制剂。

本发明第七方面提供了一种基因编辑系统，包括：

本发明第一方面所述的基因编辑蛋白变体、或其编码基因或其表达载体；和

gRNA或其表达载体，和/或其用于靶标位点断裂修复的寡核苷酸或核酸片段或质粒。

在另一优选例中，所述表达载体包括质粒、病毒载体。

在另一优选例中，所述gRNA包括crRNA、tracrRNA、sgRNA。

在另一优选例中，所述gRNA包括未修饰和经修饰的gRNA。

在另一优选例中，所述经修饰的gRNA包括碱基的化学修饰。

在另一优选例中，所述化学修饰包括甲基化修饰、甲氧基修饰、氟化修饰或硫代修饰。

在另一优选例中，所述的基因编辑包括基于CRISPR的基因编辑。

本发明第八方面提供了一种组合物，包括：

本发明第七方面所述的系统；和

药学上可接受的载体。

在另一优选例中，所述组合物包括药物组合物。

在另一优选例中，所述组合物的剂型选自下组：冻干制剂、液体制剂、或其组合。

在另一优选例中，所述组合物的剂型为液体制剂。

在另一优选例中，所述组合物的剂型为注射剂型。

在另一优选例中，所述组合物为细胞制剂。

在另一优选例中，所述基因编辑蛋白变体的表达载体和gRNA的表达载体为同一载体或不同载体。

在另一优选例中，所述的组合物中，本发明第三方面所述的系统占所述组合物总重量的1-99wt％，较佳地10-90wt％，更佳地30-70wt％。

本发明第九方面提供了一种试剂盒，包括：本发明第一方面所述的基因编辑蛋白变体或本发明第七方面所述的基因编辑系统。

在另一优选例中，所述试剂盒还包括标签或说明书。

本发明第十方面提供了一种药盒，包括：

第一容器，以及位于所述第一容器中的本发明第七方面所述的基因编辑系统或本发明第八方面所述的组合物，或含有本发明第七方面所述的基因编辑系统或本发明第八方面所述的组合物的药物。

在另一优选例中，所述的第一容器的药物是含本发明第七方面所述的基因编辑系统或本发明第八方面所述的组合物的单方制剂。

在另一优选例中，所述药物的剂型选自下组：冻干制剂、液体制剂、或其组合。

在另一优选例中，所述药物的剂型为口服剂型或注射剂型。

在另一优选例中，所述的试剂盒还含有说明书。

本发明第十一方面提供了一种药盒，包括：

(a1)第一容器，以及位于所述第一容器中的本发明第一方面所述的基因编辑蛋白变体、或其编码基因或其表达载体，或含有本发明第一方面所述的基因编辑蛋白变体、或其编码基因或其表达载体的药物；

(b1)第二容器，以及位于所述第二容器中的gRNA或其表达载体，或含有gRNA或其表达载体的药物。

在另一优选例中，所述的第一容器和第二容器为不同的容器。

在另一优选例中，所述的第一容器的药物是含本发明第一方面所述的基因编辑蛋白变体、或其编码基因或其表达载体的单方制剂。

在另一优选例中，所述的第二容器的药物是含gRNA或其表达载体的单方制剂。

在另一优选例中，所述药物的剂型为口服剂型或注射剂型。

在另一优选例中，所述的试剂盒还含有说明书。

本发明第十二方面提供了一种本发明第一方面所述的基因编辑蛋白变体、本发明第七方面所述的基因编辑系统、本发明第八方面所述的组合物、本发明第九方面所述的试剂盒或本发明第十方面或第十一方面所述的药盒的用途，用于制备用于降低基因编辑脱靶率的试剂或试剂盒。

在另一优选例中，所述试剂或试剂盒用于降低基因编辑的trans切割活性。

在另一优选例中，所述试剂或试剂盒用于降低基因编辑的trans切割活性同时保留cis切割活性。

在另一优选例中，所述降低基因编辑的trans切割活性指将基因编辑的trans切割活性降低≥80％，更佳地，≥90％或100％。

本发明第十三方面提供了一种降低基因编辑脱靶率的方法，包括步骤：

在本发明第一方面所述的基因编辑蛋白变体、本发明第七方面所述的基因编辑系统、本发明第八方面所述的组合物、本发明第九方面所述的试剂盒或本发明第十方面或第十一方面所述的药盒的存在下，对细胞进行基因编辑，从而降低基因编辑脱靶率。

在另一优选例中，所述细胞是原核细胞或真核细胞。

在另一优选例中，所述细胞是哺乳动物细胞。

在另一优选例中，所述哺乳动物细胞是非人类哺乳动物，例如灵长类动物、牛、羊、猪类、犬、啮齿动物、兔科，例如猴、母牛、绵羊、猪、狗、兔、大鼠或小鼠的细胞。

在另一优选例中，所述细胞是非哺乳动物真核细胞例如家禽鸟类(例如鸡)、脊椎动物鱼(例如鲑鱼)或甲壳类动物(例如牡蛎、蛤、龙虾、虾)的细胞。

在另一优选例中，所述细胞是植物细胞。

在另一优选例中，所述植物细胞是单子叶植物或双子叶植物具有的细胞或栽培植物或粮食植物例如木薯、玉米、高粱、大豆、小麦、燕麦或稻具有的细胞。

在另一优选例中，所述植物细胞是藻类、树或生产植物、果实或蔬菜(例如，树类例如柑橘树，例如桔子树、葡萄柚树或柠檬树；桃树或油桃树；苹果树或梨树；坚果树例如杏树或核桃树或阿月浑子树；茄属植物；芸苔属植物；莴苣属植物；菠菜属植物；辣椒属植物；棉花、烟草、芦笋、胡萝卜、甘蓝、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等)具有的细胞。。

在另一优选例中，所述的基因编辑在一体外反应体系中进行。

在另一优选例中，所述方法为非诊断性和非治疗性的。

在另一优选例中，所述细胞为体外的细胞。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1为基因编辑蛋白纯化胶图，显示了三种基因编辑蛋白的分子量大小，均为150KDa。泳道1和2为野生型FnCas12a，上样量分别为3μg和5μg；泳道3和4为突变型蛋白FnCas12a^K1069R，上样量分别为2μg和3μg；泳道5和6为突变型蛋白FnCas12a^F1081R，上样量分别为2μg和3μg。

图2为基因编辑蛋白与靶标dsDNA的顺式切割反应产物的电泳图，显示了三种蛋白都有cis切割活性，且突变体蛋白FnCas12a^K1069R和FnCas12a^F1081R的cis切割活力与野生型基因编辑蛋白的cis切割活性相比并没有显著差异。图2中M为1Kb DNA Marker；S为靶标dsDNA片段，大小为829bp；P为靶标dsDNA的顺式切割产物，大小分别为529bp和300bp。

图3为基因编辑蛋白与非靶标ssDNA的反式切割反应的荧光信号变化图。如图3所示，用实时荧光定量PCR仪器检测反应体系的荧光信号。其中，control为阴性对照trans切割反应体系，即trans切割体系中不添加target dsDNA。随着时间的增加，control体系中没有检测到荧光信号。WT为野生型FnCas12a蛋白，其trans切割反应体系的荧光信号随着反应时间的延长而增强，说明野生型FnCas12a具有trans切割活性。突变体蛋白FnCas12a^K1069R、FnCas12a^F1081Rtrans切割反应体系的荧光信号随着反应时间的延长，一直处于本底水平，保持不变，说明突变体蛋白FnCas12a^K1069R和FnCas12a^F1081R没有显著的trans切割活性。

图4(4a-4e)是10种类型的Cas12a蛋白氨基酸序列比对分析图。从该图可以得知，这10种Cas12a蛋白氨基酸序列具有较高的同源性。

图5是CRISPR V型Cas蛋白(即Cas12蛋白)的进化树。据图所示，Cas12蛋白都含有RuvC功能结构域。(Yan Winston X等人.Functionally diverse type VCRISPR-Cassystems.[J].Science(New York,N.Y.),2018,363(6422).)。

图6是FnCas12a的蛋白质结构域示意图，标明了各功能结构域的氨基酸残基起止位置(Stefano,Stella,Pablo,等人.Conformational Activation Promotes CRISPR-Cas12a Catalysis and Resetting of the Endonuclease Activity.[J].Cell,2018,175:1856–1871)。

图7是Cas12a、Cas12b、Cas12e的蛋白质结构域示意图(Tong Baisong等人.TheVersatile Type V CRISPR Effectors and Their Application Prospects[J].Frontiers in Cell and Developmental Biology,2021,8:622103-622103.)

具体实施方式

本发明人经过广泛而深入的研究，原本尝试突变V型家族的效应蛋白以期增加其与反式切割活性底物DNA的相互作用，经过大量筛选，却相反地意外获得一种基因编辑蛋白变体。相比野生型基因编辑蛋白，本发明的基因编辑蛋白变体可具有cis切割活性且trans切割活性降低，甚至没有trans切割活性，并且本发明的基因编辑蛋白变体以及含有本发明的基因编辑蛋白变体的基因编辑系统可显著降低基因编辑脱靶率。在此基础上，本发明人完成了本发明。

术语

为了可以更容易地理解本公开，首先定义某些术语。如本申请中所使用的，除非本文另有明确规定，否则以下术语中的每一个应具有下面给出的含义。在整个申请中阐述了其它定义。

术语“约”可以是指在本领域普通技术人员确定的特定值或组成的可接受误差范围内的值或组成，其将部分地取决于如何测量或测定值或组成。例如，如本文所用，表述“约100”包括99和101和之间的全部值(例如，99.1、99.2、99.3、99.4等)。

如本文所用，术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之，所述术语也包括“基本上由…构成”、或“由…构成”。

序列同一性(或同源性)通过沿着预定的比较窗(其可以是参考核苷酸序列或蛋白的长度的50％、60％、70％、80％、90％、95％或100％)比较两个对齐的序列，并且确定出现相同的残基的位置的数目来确定。通常地，这表示为百分比。核苷酸序列的序列同一性的测量是本领域技术人员熟知的方法。

cis切割活性

在本发明中，cis切割活性是指Cas蛋白对靶标核酸分子的特异切割活性。

trans切割活性

在本发明中，trans切割活性是指Cas蛋白对非靶标核酸分子(主要是非靶标单链核酸分子)的非特异切割活性。

当DNA处于复制或转录状态时，双链DNA会解链成单链DNA，此时基因编辑蛋白(比如Cas12a)的trans切割活性可能会导致这些单链状态的DNA被切断，从而引起脱靶切割，因此，降低基因编辑蛋白的trans切割活性等同于降低基因编辑蛋白的基因编辑脱靶率。

野生型的基因编辑蛋白

如本文所用，“野生型的基因编辑蛋白”是指天然存在的、未经过人工改造的基因编辑蛋白，其核苷酸可以通过基因工程技术来获得，如基因组测序、聚合酶链式反应(PCR)等，其氨基酸序列可由核苷酸序列推导而得到。所述野生型基因编辑蛋白的来源包括毛螺菌科细菌ND2006(Lachnospiraceae bacterium ND2006)(LbCas12a)、Thiomicros pirasp.XS5(TsCas12a)、土拉弗菌(Francisella tularensis)(FnCas12a)、Bacteroidetesoral taxon 274(BoCas12a)、Oribacterium sp.NK2B42(OsCas12a)、氨基酸球菌属BV3L6(Acidaminococcus sp.BV3L6)(AsCas12a)、孔氏创伤球菌(Helcococcus sp kunzii)(HkCas12a)、毛螺菌科细菌NC2008(Lachnospiraceae bacterium NC2008)(Lb5Cas12a)。野生型的基因编辑蛋白包括Cas12、Cas14，进一步包括Cas12a、Cas12b、Cas12e；又进一步，所述Cas12a选自以下组：FnCas12a、AsCas12a、LbCas12a、Lb5Cas12a、HkCas12a、OsCas12a、TsCas12a、BbCas12a、BoCas12a、Lb4Cas12a、或其组合。

在本发明的一个优选例中，所述野生型的基因编辑蛋白为FnCas12a，序列如SEQID NO.1所示。

野生型FnCas12a氨基酸序列(SEQ ID NO.1)：

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN*

基因编辑蛋白变体及其编码核酸

如本文所用，术语“基因编辑蛋白变体”、“本发明的变体”、“本发明的基因编辑突变蛋白”、“突变蛋白”均可互换使用，均指具有cis切割活性的非天然存在的突变的基因编辑蛋白，并且所述突变蛋白在野生型的基因编辑蛋白的选自下组的一个或多个与切割活性相关的核心氨基酸位点发生突变：

对应于FnCas12a第1081位的苯丙氨酸(F)位点；和/或

对应于FnCas12a第1069位的赖氨酸(K)位点，且所述突变蛋白相较于其野生型基因编辑蛋白的trans切割活性降低，甚至没有trans切割活性。

术语“核心氨基酸”指的是基于野生型的基因编辑蛋白，且与野生型的基因编辑蛋白同源性达至少80％，如84％、85％、90％、92％、95％、98％或99％的序列中，相应位点是本文所述的特定氨基酸，如基于野生型的基因编辑蛋白，核心氨基酸为：

对应于FnCas12a第1081位的苯丙氨酸(F)；和/或

对应于FnCas12a第1069位的赖氨酸(K)。

且对上述核心氨基酸进行突变所得到的突变蛋白具有cis切割活性且trans切割活性降低，甚至没有trans切割活性。

优选地，在本发明中，对本发明的所述核心氨基酸进行如下突变：

对应于FnCas12a第1081位的苯丙氨酸(F)突变为精氨酸(R)；

对应于FnCas12a第1069位的赖氨酸(K)突变为精氨酸(R)。

应理解，本发明突变蛋白中的氨基酸编号基于野生型的基因编辑蛋白作出，当某一具体突变蛋白与野生型的基因编辑蛋白的序列的同源性达到80％或以上时，突变蛋白的氨基酸编号可能会有相对于野生型的基因编辑蛋白的氨基酸编号的错位，如向氨基酸的N末端或C末端错位1-100位，而采用本领域常规的序列比对技术，本领域技术人员通常可以理解这样的错位是在合理范围内的，且不应当由于氨基酸编号的错位而使同源性达80％(如90％、95％、98％)的、具有相同或相似的具有cis切割活性且trans切割活性降低的突变蛋白不在本发明突变蛋白的范围内。

本发明突变蛋白是合成蛋白或重组蛋白，即可以是化学合成的产物，或使用重组技术从原核或真核宿主(例如，细菌、酵母、植物)中产生。根据重组生产方案所用的宿主，本发明的突变蛋白可以是糖基化的，或可以是非糖基化的。本发明的突变蛋白还可包括或不包括起始的甲硫氨酸残基。

本发明还包括所述突变蛋白的片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持所述突变蛋白相同的生物学功能或活性的蛋白。

本发明的突变蛋白片段、衍生物或类似物可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的突变蛋白，而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的，或(ii)在一个或多个氨基酸残基中具有取代基团的突变蛋白，或(iii)成熟突变蛋白与另一个化合物(比如延长突变蛋白半衰期的化合物，例如聚乙二醇)融合所形成的突变蛋白，或(iv)附加的氨基酸序列融合到此突变蛋白序列而形成的突变蛋白(如前导序列或分泌序列或用来纯化此突变蛋白的序列或蛋白原序列，或与抗原IgG片段的形成的融合蛋白)。根据本文的教导，这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。本发明中，保守性替换的氨基酸最好根据表I进行氨基酸替换而产生。

表I

本发明的活性突变蛋白具有cis切割活性且trans切割活性降低，甚至没有trans切割活性。

优选地，所述的突变蛋白如SEQ ID NO.:2-3中任一所示。

突变体蛋白FnCas12a^K1069R氨基酸序列：

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGRQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN*

(SEQ ID NO.2)

突变型蛋白FnCas12a^F1081R氨基酸序列：

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGRTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN*(SEQ ID NO.3)

应理解，本发明突变蛋白与SEQ ID NO.:2-3中任一所示的序列相比，通常具有较高的同源性(相同性)，优选地，所述的突变蛋白与SEQ ID NO.:2-3中任一所示序列的同源性至少为80％，较佳地至少为85％-90％，更佳地至少为95％，最佳地至少为98％或99％。

此外，还可以对本发明突变蛋白进行修饰。修饰(通常不改变一级结构)形式包括：体内或体外的突变蛋白的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化，如那些在突变蛋白的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的突变蛋白。这种修饰可以通过将突变蛋白暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸，磷酸丝氨酸，磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的突变蛋白。

术语“编码突变蛋白的多核苷酸”可以是包括编码本发明突变蛋白的多核苷酸，也可以是还包括附加编码和/或非编码序列的多核苷酸。

在一优选实施方式中，本发明的编码突变蛋白的多核苷酸的序列如SEQ ID NO.:4-5中任一所示。

FnCas12a^K1069R核苷酸序列(SEQ ID NO.4)：

atgagcatctatcaggagttcgtgaataagtacagcctgtccaagaccctgcggtttgagctgatcccccagggcaagacactggagaacatcaaggccaggggcctgatcctggacgatgagaagcgcgccaaggactataagaaggccaagcagatcatcgataagtaccaccagttctttatcgaggagatcctgagcagcgtgtgcatctctgaggatctgctgcagaattacagcgacgtgtatttcaagctgaagaagtctgacgatgacaacctgcagaaggacttcaagagcgccaaggacaccatcaagaagcagatcagcgagtatatcaaggactccgagaagtttaagaatctgttcaaccagaatctgatcgatgccaagaagggccaggagtccgacctgatcctgtggctgaagcagtctaaggacaatggcatcgagctgttcaaggccaactctgatatcaccgatatcgacgaggccctggagatcatcaagagctttaagggctggaccacatactttaagggcttccacgagaacaggaagaacgtgtacagcagcaacgacatccctacaagcatcatctaccgcatcgtggatgacaatctgccaaagttcctggagaacaaggccaagtatgagtccctgaaggacaaggcccccgaggccatcaattacgagcagatcaagaaggatctggccgaggagctgaccttcgatatcgactataagacatccgaggtgaaccagcgggtgttttctctggacgaggtgtttgagatcgccaatttcaacaattacctgaaccagtccggcatcaccaagttcaatacaatcatcggcggcaagtttgtgaacggcgagaataccaagagaaagggcatcaacgagtacatcaatctgtatagccagcagatcaacgacaagaccctgaagaagtacaagatgagcgtgctgttcaagcagatcctgtccgatacagagtctaagagctttgtgatcgataagctggaggatgactctgacgtggtgaccacaatgcagagcttttatgagcagatcgccgccttcaagaccgtggaggagaagtctatcaaggagacactgagcctgctgttcgatgacctgaaggcccagaagctggacctgtctaagatctacttcaagaacgataagtccctgaccgacctgtctcagcaggtgtttgatgactatagcgtgatcggcaccgccgtgctggagtacatcacacagcagatcgccccaaagaacctggataatccctctaagaaggagcaggagctgatcgccaagaagaccgagaaggccaagtatctgagcctggagacaatcaagctggccctggaggagttcaataagcaccgggatatcgacaagcagtgcagatttgaggagatcctggccaacttcgccgccatccccatgatctttgatgagatcgcccagaacaaggacaatctggcccagatctccatcaagtaccagaaccagggcaagaaggacctgctgcaggcctctgccgaggatgacgtgaaggccatcaaggatctgctggaccagaccaacaatctgctgcacaagctgaagatcttccacatctcccagtctgaggataaggccaatatcctggataaggacgagcacttttatctggtgttcgaggagtgttacttcgagctggccaacatcgtgcccctgtacaacaagatcagaaattatatcacacagaagccttactccgacgagaagtttaagctgaacttcgagaacagcaccctggccaacggctgggataagaataaggagcctgacaacacagccatcctgttcatcaaggatgacaagtactatctgggcgtgatgaataagaagaacaataagatcttcgatgacaaggccatcaaggagaacaagggcgagggctacaagaagatcgtgtataagctgctgcccggcgccaataagatgctgcctaaggtgttcttttccgccaagtctatcaagttctacaacccatccgaggacatcctgcggatcagaaatcactccacccacacaaagaacggctctccccagaagggctatgagaagtttgagttcaatatcgaggattgccggaagtttatcgacttctacaagcagagcatctccaagcaccctgagtggaaggattttggcttcaggtttagcgacacccagcggtacaactccatcgacgagttctacagagaggtggagaatcagggctataagctgacatttgagaacatctctgagagctacatcgacagcgtggtgaatcagggcaagctgtacctgttccagatctataacaaggacttcagcgcctattccaagggccggccaaacctgcacaccctgtactggaaggccctgttcgatgagagaaatctgcaggacgtggtgtataagctgaacggcgaggccgagctgttttacaggaagcagtccatccctaagaagatcacacacccagccaaggaggccatcgccaacaagaataaggacaatcctaagaaggagagcgtgttcgagtacgatctgatcaaggacaagcggttcaccgaggataagttctttttccactgtccaatcacaatcaacttcaagtcctctggcgccaacaagtttaatgacgagatcaatctgctgctgaaggagaaggccaacgatgtgcacatcctgagcatcgaccggggcgagagacacctggcctactataccctggtggatggcaagggcaatatcatcaagcaggataccttcaacatcatcggcaatgacaggatgaagacaaactaccacgataagctggccgccatcgagaaggatagggactccgcccgcaaggactggaagaagatcaacaatatcaaggagatgaaggagggctatctgtctcaggtggtgcacgagatcgccaagctggtcatcgagtacaatgccatcgtggtgttcgaggatctgaacttcggctttaagaggggccgctttaaggtggagaagcaggtgtatcagaagctggagaagatgctgatcgagaagctgaattacctggtgtttaaggataacgagttcgacaagaccggaggcgtgctgagggcataccagctgaccgccccctttgagacattcaagaagatgggcAGgcagacaggcatcatctactatgtgccagccggcttcacctccaagatctgccccgtgacaggctttgtgaaccagctgtaccctaagtatgagtccgtgtctaagagccaggagtttttcagcaagttcgataagatctgttataatctggacaagggctacttcgagttttccttcgattataagaactttggcgacaaggccgccaagggcaagtggaccatcgcctctttcggcagccggctgatcaactttagaaattccgataagaaccacaattgggacacccgggaggtgtacccaacaaaggagctggagaagctgctgaaggactacagcatcgagtatggccacggcgagtgcatcaaggccgccatctgtggcgagagcgataagaagtttttcgccaagctgacctccgtgctgaatacaatcctgcagatgcggaacagcaagaccggcacagagctggactacctgatctcccccgtggccgatgtgaacggcaacttcttcgacagcagacaggcccccaagaatatgcctcaggatgccgacgccaacggcgcctatcacatcggcctgaagggcctgatgctgctgggcaggatcaagaacaatcaggagggcaagaagctgaacctggtcatcaagaacgaggagtactttgagttcgtgcagaaccgcaacaattga

FnCas12a^F1081R核苷酸序列(SEQ ID NO.5):

atgagcatctatcaggagttcgtgaataagtacagcctgtccaagaccctgcggtttgagctgatcccccagggcaagacactggagaacatcaaggccaggggcctgatcctggacgatgagaagcgcgccaaggactataagaaggccaagcagatcatcgataagtaccaccagttctttatcgaggagatcctgagcagcgtgtgcatctctgaggatctgctgcagaattacagcgacgtgtatttcaagctgaagaagtctgacgatgacaacctgcagaaggacttcaagagcgccaaggacaccatcaagaagcagatcagcgagtatatcaaggactccgagaagtttaagaatctgttcaaccagaatctgatcgatgccaagaagggccaggagtccgacctgatcctgtggctgaagcagtctaaggacaatggcatcgagctgttcaaggccaactctgatatcaccgatatcgacgaggccctggagatcatcaagagctttaagggctggaccacatactttaagggcttccacgagaacaggaagaacgtgtacagcagcaacgacatccctacaagcatcatctaccgcatcgtggatgacaatctgccaaagttcctggagaacaaggccaagtatgagtccctgaaggacaaggcccccgaggccatcaattacgagcagatcaagaaggatctggccgaggagctgaccttcgatatcgactataagacatccgaggtgaaccagcgggtgttttctctggacgaggtgtttgagatcgccaatttcaacaattacctgaaccagtccggcatcaccaagttcaatacaatcatcggcggcaagtttgtgaacggcgagaataccaagagaaagggcatcaacgagtacatcaatctgtatagccagcagatcaacgacaagaccctgaagaagtacaagatgagcgtgctgttcaagcagatcctgtccgatacagagtctaagagctttgtgatcgataagctggaggatgactctgacgtggtgaccacaatgcagagcttttatgagcagatcgccgccttcaagaccgtggaggagaagtctatcaaggagacactgagcctgctgttcgatgacctgaaggcccagaagctggacctgtctaagatctacttcaagaacgataagtccctgaccgacctgtctcagcaggtgtttgatgactatagcgtgatcggcaccgccgtgctggagtacatcacacagcagatcgccccaaagaacctggataatccctctaagaaggagcaggagctgatcgccaagaagaccgagaaggccaagtatctgagcctggagacaatcaagctggccctggaggagttcaataagcaccgggatatcgacaagcagtgcagatttgaggagatcctggccaacttcgccgccatccccatgatctttgatgagatcgcccagaacaaggacaatctggcccagatctccatcaagtaccagaaccagggcaagaaggacctgctgcaggcctctgccgaggatgacgtgaaggccatcaaggatctgctggaccagaccaacaatctgctgcacaagctgaagatcttccacatctcccagtctgaggataaggccaatatcctggataaggacgagcacttttatctggtgttcgaggagtgttacttcgagctggccaacatcgtgcccctgtacaacaagatcagaaattatatcacacagaagccttactccgacgagaagtttaagctgaacttcgagaacagcaccctggccaacggctgggataagaataaggagcctgacaacacagccatcctgttcatcaaggatgacaagtactatctgggcgtgatgaataagaagaacaataagatcttcgatgacaaggccatcaaggagaacaagggcgagggctacaagaagatcgtgtataagctgctgcccggcgccaataagatgctgcctaaggtgttcttttccgccaagtctatcaagttctacaacccatccgaggacatcctgcggatcagaaatcactccacccacacaaagaacggctctccccagaagggctatgagaagtttgagttcaatatcgaggattgccggaagtttatcgacttctacaagcagagcatctccaagcaccctgagtggaaggattttggcttcaggtttagcgacacccagcggtacaactccatcgacgagttctacagagaggtggagaatcagggctataagctgacatttgagaacatctctgagagctacatcgacagcgtggtgaatcagggcaagctgtacctgttccagatctataacaaggacttcagcgcctattccaagggccggccaaacctgcacaccctgtactggaaggccctgttcgatgagagaaatctgcaggacgtggtgtataagctgaacggcgaggccgagctgttttacaggaagcagtccatccctaagaagatcacacacccagccaaggaggccatcgccaacaagaataaggacaatcctaagaaggagagcgtgttcgagtacgatctgatcaaggacaagcggttcaccgaggataagttctttttccactgtccaatcacaatcaacttcaagtcctctggcgccaacaagtttaatgacgagatcaatctgctgctgaaggagaaggccaacgatgtgcacatcctgagcatcgaccggggcgagagacacctggcctactataccctggtggatggcaagggcaatatcatcaagcaggataccttcaacatcatcggcaatgacaggatgaagacaaactaccacgataagctggccgccatcgagaaggatagggactccgcccgcaaggactggaagaagatcaacaatatcaaggagatgaaggagggctatctgtctcaggtggtgcacgagatcgccaagctggtcatcgagtacaatgccatcgtggtgttcgaggatctgaacttcggctttaagaggggccgctttaaggtggagaagcaggtgtatcagaagctggagaagatgctgatcgagaagctgaattacctggtgtttaaggataacgagttcgacaagaccggaggcgtgctgagggcataccagctgaccgccccctttgagacattcaagaagatgggcaagcagacaggcatcatctactatgtgccagccggcCGcacctccaagatctgccccgtgacaggctttgtgaaccagctgtaccctaagtatgagtccgtgtctaagagccaggagtttttcagcaagttcgataagatctgttataatctggacaagggctacttcgagttttccttcgattataagaactttggcgacaaggccgccaagggcaagtggaccatcgcctctttcggcagccggctgatcaactttagaaattccgataagaaccacaattgggacacccgggaggtgtacccaacaaaggagctggagaagctgctgaaggactacagcatcgagtatggccacggcgagtgcatcaaggccgccatctgtggcgagagcgataagaagtttttcgccaagctgacctccgtgctgaatacaatcctgcagatgcggaacagcaagaccggcacagagctggactacctgatctcccccgtggccgatgtgaacggcaacttcttcgacagcagacaggcccccaagaatatgcctcaggatgccgacgccaacggcgcctatcacatcggcctgaagggcctgatgctgctgggcaggatcaagaacaatcaggagggcaagaagctgaacctggtcatcaagaacgaggagtactttgagttcgtgcagaaccgcaacaattga

本发明还涉及上述多核苷酸的变异体，其编码与本发明有相同的氨基酸序列的多肽或突变蛋白的片段、类似物和衍生物。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的，等位变异体是一个多核苷酸的替换形式，它可能是一个或多个核苷酸的取代、缺失或插入，但不会从实质上改变其编码的突变蛋白的功能。

本发明还涉及与上述的序列杂交且两个序列之间具有至少50％，较佳地至少70％，更佳地至少80％相同性的多核苷酸。本发明特别涉及在严格条件(或严紧条件)下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中，“严格条件”是指：(1)在较低离子强度和较高温度下的杂交和洗脱，如0.2×SSC，0.1％SDS，60℃；或(2)杂交时加有变性剂，如50％(v/v)甲酰胺，0.1％小牛血清/0.1％Ficoll，42℃等；或(3)仅在两条序列之间的相同性至少在90％以上，更好是95％以上时才发生杂交。

本发明的突变蛋白和多核苷酸优选以分离的形式提供，更佳地，被纯化至均质。

本发明多核苷酸全长序列通常可以通过PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。通常，通过先合成多个小片段，然后再进行连接可获得序列很长的片段。

目前，已经可以完全通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。此外，还可通过化学合成将突变引入本发明蛋白序列中。

应用PCR技术扩增DNA/RNA的方法被优选用于获得本发明的多核苷酸。特别是很难从文库中得到全长的cDNA时，可优选使用RACE法(RACE-cDNA末端快速扩增法)，用于PCR的引物可根据本文所公开的本发明的序列信息适当地选择，并可用常规方法合成。可用常规方法如通过凝胶电泳分离和纯化扩增的DNA/RNA片段。

应注意，本发明中来源于Francisella tularensis的基因编辑蛋白(FnCas12a)氨基酸序列中的1081位点、1069位点在其余来源的Cas12a中对应的位点均为保守位点，具体对应关系见表II。

表II突变氨基酸对应位点

NCBI序列登录号	蛋白种类	对应突变位点1	对应突变位点2
				489130501	FnCas12a	K1069	F1081
987324269	BbCas12a	K1007	N1019
				545612232	AsCas12a	T1057	Y1069
496509559	BoCas12a	K1021	N1033
				491540987	HkCas12a	G1078	Y1090
769130406	Lb4Cas12a	R992	N1004
				652820612	Lb5Cas12a	K968	L980
917059416	LbCas12a	T1006	L1018
				909652572	OsCas12a	K989	L1001
972924080	TsCas12a	K1058	Y1070

因此，上述位点的突变对于降低基因编辑脱靶率具有至关重要的作用。

表达载体和宿主细胞

本发明也涉及包含本发明的多核苷酸的载体，以及用本发明的载体或本发明突变蛋白编码序列经基因工程产生的宿主细胞，以及经重组技术产生本发明所述多肽的方法。

通过常规的重组DNA技术，可利用本发明的多聚核苷酸序列可用来表达或生产重组的突变蛋白。一般来说有以下步骤：

(1).用本发明的编码本发明突变蛋白的多核苷酸(或变异体)，或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞；

(2).在合适的培养基中培养的宿主细胞；

(3).从培养基或细胞中分离、纯化蛋白质。

本发明中，编码突变蛋白的多核苷酸序列可插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒如腺病毒、逆转录病毒或其他载体。只要能在宿主体内复制和稳定，任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。

本领域的技术人员熟知的方法能用于构建含本发明突变蛋白编码DNA序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上，以指导mRNA合成。这些启动子的代表性例子有：大肠杆菌的lac或trp启动子；λ噬菌体PL启动子；真核启动子包括CMV立即早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、反转录病毒的LTRs和其他一些已知的可控制基因在原核或真核细胞或其病毒中表达的启动子。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。

此外，表达载体优选地包含一个或多个选择性标记基因，以提供用于选择转化的宿主细胞的表型性状，如真核细胞培养用的二氢叶酸还原酶、新霉素抗性以及绿色荧光蛋白(GFP)，或用于大肠杆菌的四环素或氨苄青霉素抗性。

包含上述的适当DNA序列以及适当启动子或者控制序列的载体，可以用于转化适当的宿主细胞，以使其能够表达蛋白质。

宿主细胞可以是原核细胞(如大肠杆菌)，或是低等真核细胞，或是高等真核细胞，如酵母细胞、植物细胞或哺乳动物细胞(包括人和非人哺乳动物)。代表性例子有：大肠杆菌、麦胚细胞，昆虫细胞，SF9、Hela、HEK293、CHO、酵母细胞等。在本发明的一个优选实施方式中，选择酵母细胞(如毕氏酵母、克鲁维酵母、或其组合；较佳地，所述的酵母细胞包括：克鲁维酵母，更佳地为马克斯克鲁维酵母、和/或乳酸克鲁维酵母)为宿主细胞。

本发明的多核苷酸在高等真核细胞中表达时，如果在载体中插入增强子序列时将会使转录得到增强。增强子是DNA的顺式作用因子，通常大约有10到300个碱基对，作用于启动子以增强基因的转录。可举的例子包括在复制起始点晚期一侧的100到270个碱基对的SV40增强子、在复制起始点晚期一侧的多瘤增强子以及腺病毒增强子等。

本领域一般技术人员都清楚如何选择适当的载体、启动子、增强子和宿主细胞。

用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物如大肠杆菌时，能吸收DNA的感受态细胞可在指数生长期后收获，用CaCl₂法处理，所用的步骤在本领域众所周知。另一种方法是使用MgCl₂。如果需要，转化也可用电穿孔的方法进行。当宿主是真核生物，可选用如下的DNA转染方法：磷酸钙共沉淀法，常规机械方法如显微注射、电穿孔、脂质体包装等。

获得的转化子可以用常规方法培养，表达本发明的基因所编码的多肽。根据所用的宿主细胞，培养中所用的培养基可选自各种常规培养基。在适于宿主细胞生长的条件下进行培养。当宿主细胞生长到适当的细胞密度后，用合适的方法(如温度转换或化学诱导)诱导选择的启动子，将细胞再培养一段时间。

在上面的方法中的重组多肽可在细胞内、或在细胞膜上表达、或分泌到细胞外。如果需要，可利用其物理的、化学的和其它特性通过各种分离方法分离和纯化重组的蛋白。这些方法是本领域技术人员所熟知的。这些方法的例子包括但并不限于：常规的复性处理、用蛋白沉淀剂处理(盐析方法)、离心、渗透破菌、超处理、超离心、分子筛层析(凝胶过滤)、吸附层析、离子交换层析、高效液相层析(HPLC)和其它各种液相层析技术及这些方法的结合。

本发明的主要优点包括：

(1)本发明首次发现一种新的基因编辑蛋白变体，相比野生型基因编辑蛋白，本发明的基因编辑蛋白变体可具有cis切割活性且trans切割活性降低，甚至没有trans切割活性，并且本发明的基因编辑蛋白变体以及含有本发明的基因编辑蛋白变体的基因编辑系统可显著降低基因编辑脱靶率。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring HarborLaboratory Press,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数是重量百分比和重量份数。

除非有特别说明，否则本发明实施例中的试剂和材料均为市售产品。

(一)材料与方法

1、FnCas12a蛋白突变实验

(1)FnCas12a突变体蛋白表达载体的构建

设计包含突变位点的引物(序列见表1)，以野生型FnCas12a表达质粒为模板，用Phanta DNA polymerase扩增出具有目的位点突变的线性片段，用Ezmax(获自安徽吐露港生物科技有限公司)将扩增产物无缝拼接连接为环状表达载体，将反应产物转入DH10B(获自安徽吐露港生物科技有限公司)，并在50μg/mL Kan的LB培养基37℃过夜培养，挑取单克隆在50μg/mL Kan液体LB培养基中摇菌，37℃过夜，提取质粒。将测序正确的质粒保存于-80℃。

表1

(2)FnCas12a突变体蛋白的纯化

将构建好的pET28TEV-FnCas12a质粒转化E.coli BL21(DE3)感受态，在含有50μg/mL卡那(后面简称Kan)抗性的固体LB培养基37℃培养12-14h。挑3个单克隆到50mL Kan抗性的液体LB培养基中，37℃摇床过夜培养后，1％(v/v)转接到1L含有Kan抗性的液体LB培养基，37℃培养至OD600＝0.6-0.8之间，冰浴30min，加入终浓度为0.2-0.5mM的IPTG，16℃，220rpm培养14-16h。16℃，6000rpm离心5min收菌，将菌沉淀称好重量后开始破菌，也可以暂时保存于-80℃。(以下步骤都要在4℃操作)。按蛋白裂解缓冲液/菌重量为5-10mL/g的比例重悬菌沉淀，同时，加入终浓度为1mM PMSF蛋白抑制剂，菌体重悬均匀后，细胞破碎仪高压裂解，将获得的裂解溶液14000rpm离心30min，收集上清。将离心所得蛋白上清液与Ni-NTA(天地人和生物科技有限公司)混合，4℃慢慢晃动1h，使蛋白与镍柱充分结合，然后将其装载到30mL的柱上，流尽上清液后，用低浓度咪唑的洗杂缓冲液冲洗杂蛋白，在用高浓度咪唑的洗脱缓冲液洗脱目的蛋白，小体积洗脱目的蛋白(具体操作步骤参考Ni-NTA的操作说明书)。浓度为10％(v/v)的SDS-PAGE胶验证目的蛋白的纯度，将较纯的几管目的蛋白合并，透析过夜后用50KDa超滤管浓缩，蛋白纯度如图1所示。等体积的甘油(提前预冷至4℃)与蛋白混合均匀，用Bradford方法测定蛋白浓度，小体积分装保存于-80℃，短期使用可在-20℃保存。

2、target dsDNA序列的制备：

以AMED16s-F/R(序列AMED16s-F：5'-gtgaactaagccagtagagc-3'，AMED16s-R：5'-ctttcgctcctcagcgtcag-3'，生工生物工程(上海)股份有限公司合成)为扩增引物，以地中海拟无枝酸菌U32基因组(NCBI登录号：SAMN02603409)为模板进行PCR扩增。Target dsDNA片段的PCR扩增体系见表2。PCR反应程序为：95℃预变性10min，95℃变性15s，57℃退火15s，72℃延伸30s(1min可扩增2kb)，32个cycles，最后，75℃延伸5min。1.5％(w/v)琼脂糖凝胶电泳鉴定片段大小，扩增产物为正确单一的DNA片段，采用柱回收方法回收目的片段，柱回收用Promega公司的Wizard SV Gel and PCR clean-up system试剂盒。

表2 target dsDNA片段的PCR扩增体系

3、cis切割反应实验：

表3顺式切割反应体系

表4 10xHOLMES buffer成分

成分	浓度(mM或％)
		Spermidine	25
Tris	400
		MgCl₂	60
DTT	10
		Glycine	400
Triton X-100	0.01％
		PEG20000	4％
pH	8.4

crRNA序列：5'-AAUUUCUACUCUUGUAGAUGCCAGGGACGAAGCGCAAGUGACGGAA U-3'，由南京金斯瑞生物科技有限公司合成，HPLC纯化。检测方法如下：37℃反应40min，85℃灭活5min，加入终浓度为1×DNA loading。将全部反应产物上样，2％(w/v)琼脂糖凝胶电泳，140V电泳25min，EB泡染30min，凝胶成像仪照胶，cis-cleavage产物约为529bp和300bp的DNA片段。另外，Control的实验体系不加入FnCas12a蛋白。实验结果如图2所示。

4、trans切割活性检测实验

表5 trans切割反应体系

成分	用量
		FnCas12a蛋白	5μM
target dsDNA	30nM
		crRNA	50nM
10×HOLMES buffer	2μL
		RRI(Takara)	0.25μL
HOLMES-P(FQ-reporter)	1μM
		ddH₂O(RNase free)	Up to 20μL

HOLMES-P(FQ-reporter)，购自安徽吐露港生物科技有限公司，是一端为FAM荧光发光基团修饰另一端为荧光淬灭基团修饰的短单链DNA探针(5'-TTTTTT-3')。当该短单链DNA片段完整时，该DNA探针不发荧光；而只有当该单链DNA片段被切开后，淬灭基团与荧光基团分开，才能检测到该DNA探针的荧光信号。配好体系后立刻放入实时荧光定量PCR仪器中检测荧光信号，37℃条件下孵育，每隔一分钟采集一次荧光信号，共计采集30次信号(计60min)，其实验结果如图3所示。该体系中除FnCas12a蛋白外，其它成分均先配成混合体系。另外，Control即实验体系不加入target dsDNA。

(二)结果与讨论

本发明对FnCas12a结构进行分析，根据晶体结构6i1k显示的结果，与DNA底物相互作用的FnCas12a氨基酸包括：K1069,F1081,F1010,V1285、N1288等，这些氨基酸位点可能与trans切割活性相关，本发明对这些位点进行突变，并对这些蛋白进行cis和trans切割活性测定，最后获得两个具有cis切割活性且没有trans切割活性的突变体蛋白，这两个蛋白的突变分别是1081位氨基酸从苯丙氨酸突变为精氨酸(F1081R)和1069位氨基酸从赖氨酸突变为精氨酸(K1069R)，对应的蛋白名称分别为FnCas12a^F1081R和FnCas12a^K1069R。野生型蛋白(WT)和突变体蛋白(F1081R和K1069R)的纯化结果如图1。cis切割活性检测结果显示FnCas12a^F1081R和FnCas12a^K1069R这两个突变体蛋白的cis活性和FnCas12a无显著差异(图2)。trans切割活性检测结果表明FnCas12a^F1081R和FnCas12a^K1069R的trans切割活性相较于野生型FnCas12a蛋白的trans切割活性有显著降低(图3)。

综上所述，本发明发现了两个FnCas12a的突变体蛋白，它们的突变位点分别是1081位氨基酸从苯丙氨酸突变为精氨酸(F1081R)和1069位氨基酸从赖氨酸突变为精氨酸(K1069R)，该两种突变体蛋白保留了cis切割活性，丧失(或显著降低)原有野生型基因编辑的trans切割活性。由于Cas12a野生型蛋白不但能够特异性切割靶标DNA，还具有对单链状态的DNA具有非特异的trans切割活性，其在基因编辑过程中会引起一定程度的脱靶效应。在本发明通过对野生型基因编辑蛋白进行人工改造的方法将Cas12a的trans切割活性去除(或降低)的同时保留了其cis切割活性，克服了由基因编辑蛋白的trans切割活性所引起的脱靶问题，从而使Cas12a突变体蛋白在基因编辑方面更有优势。

此外，2类成簇规则间隔短回文重复序列(CRISPR)-Cas系统以单一效应蛋白为特征，可进一步细分为类型II、V和VI等。V型家族的效应蛋白在N端具有多样性，但在C端保留一个统一的RuvC样内切酶结构域。V型系统进一步细分为许多亚型，包括V-A型到V-I型、V-K型、V-U型和CRISPR–Cas8φ(见图5)。Cas12a(V-A型)、Cas12b(V-B型)和Cas12e(V-E型)都属于V型系统，它们在效应蛋白结合gRNA形成二元复合物后，特异性识别富含5'-T的PAM，并促进靶DNA解旋，同时，靶标序列的非靶标链(NTS)发生位移，形成所谓的“R环”结构。RuvC域在PAM远处连续切割NTS和靶标链(TS)，形成一个有5、7或10个NT链5'突出部分的交错切口。Cas12a,Cas12b,和Cas12e，这三种蛋白质都有由α螺旋识别(REC)叶和核酸酶(NUC)叶组成的双叶结构(见图7)。两个叶通过桥螺旋(BH)结构域连接。REC叶包含两个REC结构域(REC1和REC2)，主要帮助调节和稳定形成“R环”后的crRNA靶与DNA杂交。(Tong Baisong等人.TheVersatile Type V CRISPR Effectors and Their Application Prospects[J].Frontiers in Cell and Developmental Biology,2021,8:622103-622103.)

根据图6，FnCas12a的1069位点位于RuvC域。V型系统下各Cas蛋白均存在RuvC域(见图5)及相应位点，可以预料，对V型系统下各Cas蛋白中对应于FnCas12a的1069位点的氨基酸残基进行突变，会获得类似的效果；尤其是对结构、功能更为类似，同源性更高的Cas12a、Cas12b、Cas12e中对应于FnCas12a的1069位点的氨基酸残基进行突变，更会获得类似的效果；更尤其是对结构功能又更为类似、同源性又更高的其余来源的Cas12a(见图4，a-e)中对应于FnCas12a的1069位点的氨基酸残基进行突变(见表II)，更会获得类似效果。

同样，根据图6，FnCas12a的1081位点位于RuvC域与NUC域交界处。Cas12a、Cas12b、Cas12e均存在RuvC域及NUC域(见图7)。可以预料，对结构、功能类似，同源性高的Cas12a、Cas12b、Cas12e中对应于FnCas12a的1081位点的氨基酸残基进行突变，会获得类似的效果；更尤其是结构功能更为类似、同源性高的其余来源的Cas12a(见图4，a-e)中对应于FnCas12a的1081位点的氨基酸残基进行突变(见表II)，更会获得类似效果。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 上海吐露港生物科技有限公司

<120> 可降低基因编辑脱靶率的基因编辑蛋白变体

<130> P2022-0226

<160> 5

<170> PatentIn version 3.5

<210> 1

<211> 1299

<212> PRT

<213> 人工序列(artificial sequence)

<400> 1

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala Lys

435 440 445

Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn Lys

450 455 460

His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala Asn

465 470 475 480

Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys Asp

485 490 495

Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys Asp

500 505 510

Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp Leu

515 520 525

Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His Ile

530 535 540

Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His Phe

545 550 555 560

Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val Pro

565 570 575

Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser Asp

580 585 590

Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly Trp

595 600 605

Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys Asp

610 615 620

Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile Phe

625 630 635 640

Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys Ile

645 650 655

Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe

660 665 670

Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile Leu

675 680 685

Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln Lys

690 695 700

Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe Ile

705 710 715 720

Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp Phe

725 730 735

Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu Phe

740 745 750

Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn Ile

755 760 765

Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr Leu

770 775 780

Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg Pro

785 790 795 800

Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn Leu

805 810 815

Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr Arg

820 825 830

Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala Ile

835 840 845

Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu Tyr

850 855 860

Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe His

865 870 875 880

Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe Asn

885 890 895

Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His Ile

900 905 910

Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu Val

915 920 925

Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile Gly

930 935 940

Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile Glu

945 950 955 960

Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn Ile

965 970 975

Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile Ala

980 985 990

Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu Asn

995 1000 1005

Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val Tyr

1010 1015 1020

Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu Val

1025 1030 1035

Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg Ala

1040 1045 1050

Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly Lys

1055 1060 1065

Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser Lys

1070 1075 1080

Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys Tyr

1085 1090 1095

Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp Lys

1100 1105 1110

Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe Asp

1115 1120 1125

Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr Ile

1130 1135 1140

Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp Lys

1145 1150 1155

Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu Leu

1160 1165 1170

Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly Glu

1175 1180 1185

Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe Phe

1190 1195 1200

Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg Asn

1205 1210 1215

Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val Ala

1220 1225 1230

Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys Asn

1235 1240 1245

Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly Leu

1250 1255 1260

Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu Gly

1265 1270 1275

Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu Phe

1280 1285 1290

Val Gln Asn Arg Asn Asn

1295

<210> 2

<211> 1299

<212> PRT

<213> 人工序列(artificial sequence)

<400> 2

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala Lys

435 440 445

Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn Lys

450 455 460

His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala Asn

465 470 475 480

Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys Asp

485 490 495

Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys Asp

500 505 510

Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp Leu

515 520 525

Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His Ile

530 535 540

Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His Phe

545 550 555 560

Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val Pro

565 570 575

Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser Asp

580 585 590

Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly Trp

595 600 605

Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys Asp

610 615 620

Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile Phe

625 630 635 640

Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys Ile

645 650 655

Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe

660 665 670

Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile Leu

675 680 685

Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln Lys

690 695 700

Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe Ile

705 710 715 720

Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp Phe

725 730 735

Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu Phe

740 745 750

Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn Ile

755 760 765

Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr Leu

770 775 780

Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg Pro

785 790 795 800

Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn Leu

805 810 815

Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr Arg

820 825 830

Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala Ile

835 840 845

Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu Tyr

850 855 860

Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe His

865 870 875 880

Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe Asn

885 890 895

Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His Ile

900 905 910

Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu Val

915 920 925

Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile Gly

930 935 940

Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile Glu

945 950 955 960

Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn Ile

965 970 975

Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile Ala

980 985 990

Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu Asn

995 1000 1005

Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val Tyr

1010 1015 1020

Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu Val

1025 1030 1035

Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg Ala

1040 1045 1050

Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly Arg

1055 1060 1065

Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser Lys

1070 1075 1080

Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys Tyr

1085 1090 1095

Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp Lys

1100 1105 1110

Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe Asp

1115 1120 1125

Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr Ile

1130 1135 1140

Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp Lys

1145 1150 1155

Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu Leu

1160 1165 1170

Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly Glu

1175 1180 1185

Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe Phe

1190 1195 1200

Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg Asn

1205 1210 1215

Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val Ala

1220 1225 1230

Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys Asn

1235 1240 1245

Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly Leu

1250 1255 1260

Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu Gly

1265 1270 1275

Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu Phe

1280 1285 1290

Val Gln Asn Arg Asn Asn

1295

<210> 3

<211> 1299

<212> PRT

<213> 人工序列(artificial sequence)

<400> 3

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala Lys

435 440 445

Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn Lys

450 455 460

His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala Asn

465 470 475 480

Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys Asp

485 490 495

Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys Asp

500 505 510

Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp Leu

515 520 525

Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His Ile

530 535 540

Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His Phe

545 550 555 560

Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val Pro

565 570 575

Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser Asp

580 585 590

Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly Trp

595 600 605

Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys Asp

610 615 620

Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile Phe

625 630 635 640

Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys Ile

645 650 655

Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe

660 665 670

Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile Leu

675 680 685

Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln Lys

690 695 700

Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe Ile

705 710 715 720

Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp Phe

725 730 735

Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu Phe

740 745 750

Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn Ile

755 760 765

Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr Leu

770 775 780

Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg Pro

785 790 795 800

Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn Leu

805 810 815

Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr Arg

820 825 830

Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala Ile

835 840 845

Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu Tyr

850 855 860

Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe His

865 870 875 880

Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe Asn

885 890 895

Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His Ile

900 905 910

Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu Val

915 920 925

Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile Gly

930 935 940

Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile Glu

945 950 955 960

Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn Ile

965 970 975

Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile Ala

980 985 990

Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu Asn

995 1000 1005

Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val Tyr

1010 1015 1020

Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu Val

1025 1030 1035

Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg Ala

1040 1045 1050

Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly Lys

1055 1060 1065

Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Arg Thr Ser Lys

1070 1075 1080

Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys Tyr

1085 1090 1095

Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp Lys

1100 1105 1110

Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe Asp

1115 1120 1125

Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr Ile

1130 1135 1140

Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp Lys

1145 1150 1155

Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu Leu

1160 1165 1170

Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly Glu

1175 1180 1185

Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe Phe

1190 1195 1200

Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg Asn

1205 1210 1215

Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val Ala

1220 1225 1230

Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys Asn

1235 1240 1245

Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly Leu

1250 1255 1260

Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu Gly

1265 1270 1275

Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu Phe

1280 1285 1290

Val Gln Asn Arg Asn Asn

1295

<210> 4

<211> 3903

<212> DNA

<213> 人工序列(artificial sequence)

<400> 4

atgagcatct atcaggagtt cgtgaataag tacagcctgt ccaagaccct gcggtttgag 60

ctgatccccc agggcaagac actggagaac atcaaggcca ggggcctgat cctggacgat 120

gagaagcgcg ccaaggacta taagaaggcc aagcagatca tcgataagta ccaccagttc 180

tttatcgagg agatcctgag cagcgtgtgc atctctgagg atctgctgca gaattacagc 240

gacgtgtatt tcaagctgaa gaagtctgac gatgacaacc tgcagaagga cttcaagagc 300

gccaaggaca ccatcaagaa gcagatcagc gagtatatca aggactccga gaagtttaag 360

aatctgttca accagaatct gatcgatgcc aagaagggcc aggagtccga cctgatcctg 420

tggctgaagc agtctaagga caatggcatc gagctgttca aggccaactc tgatatcacc 480

gatatcgacg aggccctgga gatcatcaag agctttaagg gctggaccac atactttaag 540

ggcttccacg agaacaggaa gaacgtgtac agcagcaacg acatccctac aagcatcatc 600

taccgcatcg tggatgacaa tctgccaaag ttcctggaga acaaggccaa gtatgagtcc 660

ctgaaggaca aggcccccga ggccatcaat tacgagcaga tcaagaagga tctggccgag 720

gagctgacct tcgatatcga ctataagaca tccgaggtga accagcgggt gttttctctg 780

gacgaggtgt ttgagatcgc caatttcaac aattacctga accagtccgg catcaccaag 840

ttcaatacaa tcatcggcgg caagtttgtg aacggcgaga ataccaagag aaagggcatc 900

aacgagtaca tcaatctgta tagccagcag atcaacgaca agaccctgaa gaagtacaag 960

atgagcgtgc tgttcaagca gatcctgtcc gatacagagt ctaagagctt tgtgatcgat 1020

aagctggagg atgactctga cgtggtgacc acaatgcaga gcttttatga gcagatcgcc 1080

gccttcaaga ccgtggagga gaagtctatc aaggagacac tgagcctgct gttcgatgac 1140

ctgaaggccc agaagctgga cctgtctaag atctacttca agaacgataa gtccctgacc 1200

gacctgtctc agcaggtgtt tgatgactat agcgtgatcg gcaccgccgt gctggagtac 1260

atcacacagc agatcgcccc aaagaacctg gataatccct ctaagaagga gcaggagctg 1320

atcgccaaga agaccgagaa ggccaagtat ctgagcctgg agacaatcaa gctggccctg 1380

gaggagttca ataagcaccg ggatatcgac aagcagtgca gatttgagga gatcctggcc 1440

aacttcgccg ccatccccat gatctttgat gagatcgccc agaacaagga caatctggcc 1500

cagatctcca tcaagtacca gaaccagggc aagaaggacc tgctgcaggc ctctgccgag 1560

gatgacgtga aggccatcaa ggatctgctg gaccagacca acaatctgct gcacaagctg 1620

aagatcttcc acatctccca gtctgaggat aaggccaata tcctggataa ggacgagcac 1680

ttttatctgg tgttcgagga gtgttacttc gagctggcca acatcgtgcc cctgtacaac 1740

aagatcagaa attatatcac acagaagcct tactccgacg agaagtttaa gctgaacttc 1800

gagaacagca ccctggccaa cggctgggat aagaataagg agcctgacaa cacagccatc 1860

ctgttcatca aggatgacaa gtactatctg ggcgtgatga ataagaagaa caataagatc 1920

ttcgatgaca aggccatcaa ggagaacaag ggcgagggct acaagaagat cgtgtataag 1980

ctgctgcccg gcgccaataa gatgctgcct aaggtgttct tttccgccaa gtctatcaag 2040

ttctacaacc catccgagga catcctgcgg atcagaaatc actccaccca cacaaagaac 2100

ggctctcccc agaagggcta tgagaagttt gagttcaata tcgaggattg ccggaagttt 2160

atcgacttct acaagcagag catctccaag caccctgagt ggaaggattt tggcttcagg 2220

tttagcgaca cccagcggta caactccatc gacgagttct acagagaggt ggagaatcag 2280

ggctataagc tgacatttga gaacatctct gagagctaca tcgacagcgt ggtgaatcag 2340

ggcaagctgt acctgttcca gatctataac aaggacttca gcgcctattc caagggccgg 2400

ccaaacctgc acaccctgta ctggaaggcc ctgttcgatg agagaaatct gcaggacgtg 2460

gtgtataagc tgaacggcga ggccgagctg ttttacagga agcagtccat ccctaagaag 2520

atcacacacc cagccaagga ggccatcgcc aacaagaata aggacaatcc taagaaggag 2580

agcgtgttcg agtacgatct gatcaaggac aagcggttca ccgaggataa gttctttttc 2640

cactgtccaa tcacaatcaa cttcaagtcc tctggcgcca acaagtttaa tgacgagatc 2700

aatctgctgc tgaaggagaa ggccaacgat gtgcacatcc tgagcatcga ccggggcgag 2760

agacacctgg cctactatac cctggtggat ggcaagggca atatcatcaa gcaggatacc 2820

ttcaacatca tcggcaatga caggatgaag acaaactacc acgataagct ggccgccatc 2880

gagaaggata gggactccgc ccgcaaggac tggaagaaga tcaacaatat caaggagatg 2940

aaggagggct atctgtctca ggtggtgcac gagatcgcca agctggtcat cgagtacaat 3000

gccatcgtgg tgttcgagga tctgaacttc ggctttaaga ggggccgctt taaggtggag 3060

aagcaggtgt atcagaagct ggagaagatg ctgatcgaga agctgaatta cctggtgttt 3120

aaggataacg agttcgacaa gaccggaggc gtgctgaggg cataccagct gaccgccccc 3180

tttgagacat tcaagaagat gggcaggcag acaggcatca tctactatgt gccagccggc 3240

ttcacctcca agatctgccc cgtgacaggc tttgtgaacc agctgtaccc taagtatgag 3300

tccgtgtcta agagccagga gtttttcagc aagttcgata agatctgtta taatctggac 3360

aagggctact tcgagttttc cttcgattat aagaactttg gcgacaaggc cgccaagggc 3420

aagtggacca tcgcctcttt cggcagccgg ctgatcaact ttagaaattc cgataagaac 3480

cacaattggg acacccggga ggtgtaccca acaaaggagc tggagaagct gctgaaggac 3540

tacagcatcg agtatggcca cggcgagtgc atcaaggccg ccatctgtgg cgagagcgat 3600

aagaagtttt tcgccaagct gacctccgtg ctgaatacaa tcctgcagat gcggaacagc 3660

aagaccggca cagagctgga ctacctgatc tcccccgtgg ccgatgtgaa cggcaacttc 3720

ttcgacagca gacaggcccc caagaatatg cctcaggatg ccgacgccaa cggcgcctat 3780

cacatcggcc tgaagggcct gatgctgctg ggcaggatca agaacaatca ggagggcaag 3840

aagctgaacc tggtcatcaa gaacgaggag tactttgagt tcgtgcagaa ccgcaacaat 3900

tga 3903

<210> 5

<211> 3903

<212> DNA

<213> 人工序列(artificial sequence)

<400> 5

atgagcatct atcaggagtt cgtgaataag tacagcctgt ccaagaccct gcggtttgag 60

ctgatccccc agggcaagac actggagaac atcaaggcca ggggcctgat cctggacgat 120

gagaagcgcg ccaaggacta taagaaggcc aagcagatca tcgataagta ccaccagttc 180

tttatcgagg agatcctgag cagcgtgtgc atctctgagg atctgctgca gaattacagc 240

gacgtgtatt tcaagctgaa gaagtctgac gatgacaacc tgcagaagga cttcaagagc 300

gccaaggaca ccatcaagaa gcagatcagc gagtatatca aggactccga gaagtttaag 360

aatctgttca accagaatct gatcgatgcc aagaagggcc aggagtccga cctgatcctg 420

tggctgaagc agtctaagga caatggcatc gagctgttca aggccaactc tgatatcacc 480

gatatcgacg aggccctgga gatcatcaag agctttaagg gctggaccac atactttaag 540

ggcttccacg agaacaggaa gaacgtgtac agcagcaacg acatccctac aagcatcatc 600

taccgcatcg tggatgacaa tctgccaaag ttcctggaga acaaggccaa gtatgagtcc 660

ctgaaggaca aggcccccga ggccatcaat tacgagcaga tcaagaagga tctggccgag 720

gagctgacct tcgatatcga ctataagaca tccgaggtga accagcgggt gttttctctg 780

gacgaggtgt ttgagatcgc caatttcaac aattacctga accagtccgg catcaccaag 840

ttcaatacaa tcatcggcgg caagtttgtg aacggcgaga ataccaagag aaagggcatc 900

aacgagtaca tcaatctgta tagccagcag atcaacgaca agaccctgaa gaagtacaag 960

atgagcgtgc tgttcaagca gatcctgtcc gatacagagt ctaagagctt tgtgatcgat 1020

aagctggagg atgactctga cgtggtgacc acaatgcaga gcttttatga gcagatcgcc 1080

gccttcaaga ccgtggagga gaagtctatc aaggagacac tgagcctgct gttcgatgac 1140

ctgaaggccc agaagctgga cctgtctaag atctacttca agaacgataa gtccctgacc 1200

gacctgtctc agcaggtgtt tgatgactat agcgtgatcg gcaccgccgt gctggagtac 1260

atcacacagc agatcgcccc aaagaacctg gataatccct ctaagaagga gcaggagctg 1320

atcgccaaga agaccgagaa ggccaagtat ctgagcctgg agacaatcaa gctggccctg 1380

gaggagttca ataagcaccg ggatatcgac aagcagtgca gatttgagga gatcctggcc 1440

aacttcgccg ccatccccat gatctttgat gagatcgccc agaacaagga caatctggcc 1500

cagatctcca tcaagtacca gaaccagggc aagaaggacc tgctgcaggc ctctgccgag 1560

gatgacgtga aggccatcaa ggatctgctg gaccagacca acaatctgct gcacaagctg 1620

aagatcttcc acatctccca gtctgaggat aaggccaata tcctggataa ggacgagcac 1680

ttttatctgg tgttcgagga gtgttacttc gagctggcca acatcgtgcc cctgtacaac 1740

aagatcagaa attatatcac acagaagcct tactccgacg agaagtttaa gctgaacttc 1800

gagaacagca ccctggccaa cggctgggat aagaataagg agcctgacaa cacagccatc 1860

ctgttcatca aggatgacaa gtactatctg ggcgtgatga ataagaagaa caataagatc 1920

ttcgatgaca aggccatcaa ggagaacaag ggcgagggct acaagaagat cgtgtataag 1980

ctgctgcccg gcgccaataa gatgctgcct aaggtgttct tttccgccaa gtctatcaag 2040

ttctacaacc catccgagga catcctgcgg atcagaaatc actccaccca cacaaagaac 2100

ggctctcccc agaagggcta tgagaagttt gagttcaata tcgaggattg ccggaagttt 2160

atcgacttct acaagcagag catctccaag caccctgagt ggaaggattt tggcttcagg 2220

tttagcgaca cccagcggta caactccatc gacgagttct acagagaggt ggagaatcag 2280

ggctataagc tgacatttga gaacatctct gagagctaca tcgacagcgt ggtgaatcag 2340

ggcaagctgt acctgttcca gatctataac aaggacttca gcgcctattc caagggccgg 2400

ccaaacctgc acaccctgta ctggaaggcc ctgttcgatg agagaaatct gcaggacgtg 2460

gtgtataagc tgaacggcga ggccgagctg ttttacagga agcagtccat ccctaagaag 2520

atcacacacc cagccaagga ggccatcgcc aacaagaata aggacaatcc taagaaggag 2580

agcgtgttcg agtacgatct gatcaaggac aagcggttca ccgaggataa gttctttttc 2640

cactgtccaa tcacaatcaa cttcaagtcc tctggcgcca acaagtttaa tgacgagatc 2700

aatctgctgc tgaaggagaa ggccaacgat gtgcacatcc tgagcatcga ccggggcgag 2760

agacacctgg cctactatac cctggtggat ggcaagggca atatcatcaa gcaggatacc 2820

ttcaacatca tcggcaatga caggatgaag acaaactacc acgataagct ggccgccatc 2880

gagaaggata gggactccgc ccgcaaggac tggaagaaga tcaacaatat caaggagatg 2940

aaggagggct atctgtctca ggtggtgcac gagatcgcca agctggtcat cgagtacaat 3000

gccatcgtgg tgttcgagga tctgaacttc ggctttaaga ggggccgctt taaggtggag 3060

aagcaggtgt atcagaagct ggagaagatg ctgatcgaga agctgaatta cctggtgttt 3120

aaggataacg agttcgacaa gaccggaggc gtgctgaggg cataccagct gaccgccccc 3180

tttgagacat tcaagaagat gggcaagcag acaggcatca tctactatgt gccagccggc 3240

cgcacctcca agatctgccc cgtgacaggc tttgtgaacc agctgtaccc taagtatgag 3300

tccgtgtcta agagccagga gtttttcagc aagttcgata agatctgtta taatctggac 3360

aagggctact tcgagttttc cttcgattat aagaactttg gcgacaaggc cgccaagggc 3420

aagtggacca tcgcctcttt cggcagccgg ctgatcaact ttagaaattc cgataagaac 3480

cacaattggg acacccggga ggtgtaccca acaaaggagc tggagaagct gctgaaggac 3540

tacagcatcg agtatggcca cggcgagtgc atcaaggccg ccatctgtgg cgagagcgat 3600

aagaagtttt tcgccaagct gacctccgtg ctgaatacaa tcctgcagat gcggaacagc 3660

aagaccggca cagagctgga ctacctgatc tcccccgtgg ccgatgtgaa cggcaacttc 3720

ttcgacagca gacaggcccc caagaatatg cctcaggatg ccgacgccaa cggcgcctat 3780

cacatcggcc tgaagggcct gatgctgctg ggcaggatca agaacaatca ggagggcaag 3840

aagctgaacc tggtcatcaa gaacgaggag tactttgagt tcgtgcagaa ccgcaacaat 3900

tga 3903

Claims

1.一种基因编辑蛋白变体，其特征在于，所述变体为具有cis切割活性的非天然蛋白，且所述变体相较于其野生型基因编辑蛋白的trans切割活性降低，并且所述变体在野生型基因编辑蛋白的选自下组一个或多个与切割活性相关的核心氨基酸位点发生突变：

对应于FnCas12a第1081位的苯丙氨酸(F)位点；和/或

对应于FnCas12a第1069位的赖氨酸(K)位点。

2.一种多核苷酸，其特征在于，所述的多核苷酸编码权利要求1所述的变体。

3.一种载体，其特征在于，所述的载体含有权利要求2所述的多核苷酸。

4.一种宿主细胞，其特征在于，所述宿主细胞含有权利要求3所述的载体，或其基因组中整合有权利要求2所述的多核苷酸。

5.一种基因编辑蛋白变体的制备方法，其特征在于，所述的方法包括步骤：

(a)在适合表达的条件下，培养权利要求4所述的宿主细胞，从而表达所述的基因编辑蛋白变体；和

(b)分离所述的基因编辑蛋白变体。

6.一种酶制剂，其特征在于，所述酶制剂包括权利要求1所述的基因编辑蛋白变体。

7.一种基因编辑系统，其特征在于，包括：

权利要求1所述的基因编辑蛋白变体、或其编码基因或其表达载体；和

8.一种组合物，其特征在于，包括：

权利要求7所述的系统；和

药学上可接受的载体。

9.一种试剂盒，其特征在于，包括：权利要求1所述的基因编辑蛋白变体或权利要求7所述的基因编辑系统。

10.一种药盒，其特征在于，包括：

第一容器，以及位于所述第一容器中的权利要求7所述的基因编辑系统或权利要求8所述的组合物，或含有权利要求7所述的基因编辑系统或权利要求8所述的组合物的药物。

11.一种药盒，其特征在于，包括：

(a1)第一容器，以及位于所述第一容器中的权利要求1所述的基因编辑蛋白变体、或其编码基因或其表达载体，或含有权利要求1所述的基因编辑蛋白变体、或其编码基因或其表达载体的药物；

12.一种权利要求1所述的基因编辑蛋白变体、权利要求7所述的基因编辑系统、权利要求8所述的组合物、权利要求9所述的试剂盒或权利要求10或11所述的药盒的用途，其特征在于，用于制备用于降低基因编辑脱靶率的试剂或试剂盒。

13.一种降低基因编辑脱靶率的方法，其特征在于，包括步骤：

在权利要求1所述的基因编辑蛋白变体、权利要求7所述的基因编辑系统、权利要求8所述的组合物、权利要求9所述的试剂盒或权利要求10或11所述的药盒的存在下，对细胞进行基因编辑，从而降低基因编辑脱靶率。