CN116615226A - 用于编辑真核细胞的内源dna的融合蛋白 - Google Patents

用于编辑真核细胞的内源dna的融合蛋白 Download PDF

Info

Publication number
CN116615226A
CN116615226A CN202180076089.8A CN202180076089A CN116615226A CN 116615226 A CN116615226 A CN 116615226A CN 202180076089 A CN202180076089 A CN 202180076089A CN 116615226 A CN116615226 A CN 116615226A
Authority
CN
China
Prior art keywords
seq
exonuclease
amino acid
protein
acid sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180076089.8A
Other languages
English (en)
Inventor
S·马里隆内特
A·蒂西尔
T·施赖伯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leibniz Institute of Plant Biochemistry
Original Assignee
Leibniz Institute of Plant Biochemistry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leibniz Institute of Plant Biochemistry filed Critical Leibniz Institute of Plant Biochemistry
Priority claimed from PCT/EP2021/081279 external-priority patent/WO2022101286A1/en
Publication of CN116615226A publication Critical patent/CN116615226A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

一种用于在靶位点处编辑真核细胞或真核生物体中的内源DNA的蛋白,其包含位点特异性核酸内切酶和5’‑3’核酸外切酶,其中所述5’‑3’核酸外切酶是单体的5’‑3’核酸外切酶。

Description

用于编辑真核细胞的内源DNA的融合蛋白
发明领域
本发明涉及用于在真核细胞或真核生物体中在内源DNA的靶位点处编辑内源DNA的蛋白(如融合蛋白)以及包含编码该蛋白的多核苷酸的核酸分子。本发明还涉及包含所述核酸分子的多核苷酸的DNA构建体、质粒或载体。本发明还涉及包含所述蛋白或核酸分子或DNA构建体、质粒或载体的原核或真核细胞。本发明还涉及用于在真核细胞或真核生物体中在靶位点处编辑内源DNA的试剂盒。此外,本发明涉及一种用于在靶位点处将目标供体序列(donor sequence of interest)插入真核细胞或真核生物体的内源DNA中的方法,以及一种用于在靶位点处修饰真核细胞或真核生物体的内源DNA的方法。还提供了通过所述方法产生的细胞或真核生物体。
发明背景
通过CRISPR/Cas技术的基因组编辑的最新进展简化了基因和基因组的靶向修饰,并为基因工程创造了新的可能性。位点特异性核酸内切酶如Cas9使得在基因组中诱导靶向修饰相对容易,因为它们可以在指定位点产生双链断裂(DSB)。DSB对细胞的基因完整性是潜在有害的,并且细胞试图通过几种内源修复途径之一来修复它们。在真核生物体中,非同源末端连接(NHEJ)途径是DSB修复的最常见形式。NHEJ途径能够以准确度为代价简单而快速地修复DSB,原因是断裂末端直接连接在一起而不使用DNA模板进行修复。因此,通过NHEJ的修复偶尔将突变引入基因组,通常是数个碱基对的缺失或插入。基因工程利用这种现象以产生靶基因的敲除或敲低,因为数个碱基对的缺失或插入可引起移码突变或产生提前终止密码子,其可产生突变体表型。
然而,基因工程不仅仅需要基因敲除或基因敲低的方法。基因工程还需要以可预测的方式将核苷酸序列靶向敲入基因组或在靶位点处引入特定突变的方法。此类修饰通过NHEJ途径是不可能进行的。然而,通过同源介导修复(HDR)途径的DSB修复适合于将序列敲入基因组和基因置换,因为HDR依赖于用于DNA断裂修复的模板。将位于这样的DNA修复模板(本文也称为“供体核酸”,或者如果是DNA,称为“供体DNA”)的侧翼臂之间的序列整合到基因组中,条件是所述侧翼臂与DSB位点的侧翼序列同源。因此,HDR允许基因组中序列的靶向整合和缺失。然而,由于NHEJ是修复的主要途径,因此通过HDR途径的DSB修复在真核细胞中是罕见的,并且发生的阈值可能远低于检测和分离的实际限值。这意味着依赖于HDR的基因编辑应用仅当通过HDR途径的DSB修复频率显著增加时才在真核细胞中变得可行。US20170175140描述了使用5’-核酸外切酶增加真核细胞中同源重组频率的方法。然而,所报道的改进相当低,使得仍然需要提高HDR的效率,并且广泛来说是基因编辑的效率,尤其是通过HDR机制的基因编辑的效率。
因此,本发明的一个目的是提供用于提高细胞中基因编辑中HDR效率的方法及其分子工具。本发明的另一个目的是提供用于提高真核细胞中基因置换事件(genereplacement events)的频率的方法和工具(例如蛋白、核酸分子和/或试剂盒),用于以可预测的方式在基因组靶位点处编辑目标核苷酸序列。本发明的再一个目的是提供用于在真核细胞和/或生物体中,特别是在植物中进行基因编辑的蛋白或编码它的多核苷酸。
发明概述
这些目的是根据权利要求来实现。除此之外,这些目的还通过以下来实现:
1)用于在真核细胞或真核生物体中在内源DNA的靶位点处编辑所述内源DNA的蛋白,所述蛋白包含位点特异性核酸内切酶和5’-3’核酸外切酶,其中所述5’-3’核酸外切酶是单体的5’-3’核酸外切酶。
2)用于在真核细胞或真核生物体中在内源DNA的靶位点处编辑所述内源DNA的蛋白,所述蛋白包含位点特异性核酸内切酶和5’-3’核酸外切酶,其中所述5’-3’核酸外切酶是单体的5’-3’核酸外切酶,其在说明书中描述的体外核酸外切酶测定中具有至少0.072(μM·s)-1的5’-3’核酸外切酶催化效率kcat/Km或至少0.50s-1的转换数(turnover number)。
3)根据项1或2所述的蛋白,其中所述5’-3’核酸外切酶:
在说明书中所述的体外核酸外切酶测定中,在催化效率kcat/Km或转换数方面,与T7核酸外切酶(SEQ ID NO:30)相比具有相同或更高的5’-3’核酸外切酶活性;或
在说明书中所述的体外核酸外切酶测定中,在催化效率kcat/Km或转换数方面,具有至少两倍于T5核酸外切酶(SEQ ID NO:31)的5’-3’核酸外切酶活性。
4)根据项1、2和3中任一项所述的蛋白,其中所述蛋白是包含所述位点特异性核酸内切酶和所述5’-3’核酸外切酶的融合蛋白。
5)根据项1、2和3中任一项所述的蛋白,其中所述蛋白是包含第一蛋白亚基和第二蛋白亚基的寡聚蛋白(蛋白复合物),所述第一蛋白亚基包含所述核酸外切酶,所述第二蛋白亚基包含所述核酸外切酶。
6)根据项5所述的蛋白,其中所述第一亚基包含(作为所述第一亚基的结构域)所述位点特异性核酸内切酶和第一相互作用结构域,所述第二亚基包含(作为所述第二亚基的结构域)所述5’-3’核酸外切酶和第二相互作用结构域,其中所述第一相互作用结构域和所述第二相互作用结构域彼此结合以形成所述寡聚蛋白(蛋白复合物)。
7)根据项1至6中任一项所述的蛋白,其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:30(T7核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:30的氨基酸序列具有至少80%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:30的氨基酸序列具有至少90%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:30的氨基酸序列相比具有1至50个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
8)根据项1至6中任一项所述的融合蛋白,其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:32(UL12-1核酸外切酶)或SEQ ID NO:33(UL12-2核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:32或SEQ ID NO:33的氨基酸序列具有至少80%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:32或SEQ ID NO:33的氨基酸序列具有至少90%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:32或SEQ ID NO:33的氨基酸序列相比具有1至120个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
9)根据项1至8中任一项所述的蛋白,其中所述位点特异性核酸内切酶是能够诱导DNA双链断裂的CRISPR核酸酶,例如Cas9,或是能够诱导双链DNA的单链切口的具有切口酶活性的CRISPR核酸酶,例如Cas9的切口酶变体。
10)根据项1至9中任一项所述的蛋白,其中,与所述蛋白的所述位点特异性核酸内切酶和所述5’-3’核酸外切酶当与供体核酸一起提供时没有融合在一起时或没有形成蛋白复合物的单独应用相比,所述蛋白提供了更高的基因靶向事件的频率。
11)根据项4所述的融合蛋白,任选地如项2、3和7至10中任一项所进一步定义的,其中所述5’-3’核酸外切酶融合至所述位点特异性核酸内切酶的N-末端或C-末端。
12)根据项4所述的融合蛋白,任选地如在项2、3和7至11中任一项中所进一步定义的,其中所述位点特异性核酸内切酶和所述5’-3’核酸外切酶经由多肽接头融合。
13)根据项12所述的融合蛋白,所述多肽接头由5至300个氨基酸残基组成,优选由10至200个氨基酸残基组成,更优选由20至120个氨基酸残基组成。
14)核酸分子,其包含编码项1至13中任一项所述的蛋白,优选编码项4和11至13中任一项所述的蛋白的多核苷酸。
15)核酸构建体、质粒或载体,其包含项14所述的核酸分子的多核苷酸。
16)试剂盒,其包含:
-包含编码项5或6所述的所述第一蛋白亚基的多核苷酸的核酸分子,和
-包含编码项5或6所述的所述第二蛋白亚基的多核苷酸的核酸分子。
17)原核或真核细胞,其包含:
i)项1至13中任一项所述的蛋白,
ii)项14所述的核酸分子,
iii)项15所述的核酸构建体、质粒或载体,或
iv)项16所述的试剂盒。
18)根据项17所述的细胞,其中所述细胞是真核细胞,其进一步包含用于同源介导DNA修复的供体核酸。
19)根据项18所述的细胞,其中所述供体核酸按以下顺序包含:
-第一同源臂,其与所述细胞基因组中靶位点侧翼的于所述靶位点第一侧的第一区域同源,
-任选的目标供体序列,其在所述靶位点处插入所述细胞的基因组DNA中,和
-第二同源臂,其与所述靶位点侧翼的于所述靶位点第二侧的第二区域同源。
20)根据项19所述的细胞,所述供体序列在长度上包含至多15,000个、优选至多10,000个核苷酸,优选由其组成。
21)根据项17至20中任一项所述的细胞,其进一步包含指导RNA(guide RNA)或编码所述指导RNA的指导构建体(guide construct),所述指导RNA能够结合位点特异性核酸内切酶并能够将位点特异性核酸内切酶引导至所述细胞的基因组中的靶位点。
22)根据项17至21中任一项所述的细胞,其中所述细胞是植物细胞。
23)非人生物体,优选植物,其包含项17至22中任一项所述的细胞。
24)用于在真核细胞或真核生物体中于靶位点处编辑内源DNA的试剂盒,所述试剂盒包含:
(a)项19所定义的供体核酸或包含所述供体核酸的供体构建体,和
(b)项1至13中任一项所定义的蛋白,或项14所定义的核酸,或项15所述的DNA构建体、质粒或载体,或项16所述的试剂盒。
25)根据项24所述的试剂盒,进一步包含:
(c)真核生物体的细胞或真核生物体。
26)根据项24或25所述的试剂盒,进一步包含:
(d)指导RNA(gRNA),其能够结合所述位点特异性核酸内切酶并且能够将所述蛋白引导至所述细胞或生物体的内源DNA上的靶位点;或编码所述指导RNA的核酸分子。
27)在靶位点处修饰真核细胞或真核生物体的内源DNA的方法,所述方法包括向所述细胞或生物体提供:
(a)项19所定义的供体核酸,和
(b)项1至13中任一项所定义的蛋白,或项14所定义的核酸,或项15所述的DNA构建体、质粒或载体,或项16所述的试剂盒,
其中所述内源DNA的修饰包括通过同源介导修复在所述靶位点将目标供体序列插入内源DNA中,和/或包括通过同源介导修复在所述靶位点使所述内源DNA中的序列缺失。
28)根据项27所述的方法,所述方法是在靶位点将目标供体序列插入真核细胞或真核生物体的所述内源DNA中的方法,其中将所述供体核酸中包含的目标供体序列插入所述内源DNA中。
29)根据项28中任一项所述的方法,进一步包括向所述细胞或生物体提供:
(c)指导RNA(gRNA)或编码所述指导RNA的核酸(指导核酸(guide nucleicacid)),所述gRNA能够结合所述位点特异性核酸内切酶并且能够将所述蛋白引导至所述细胞或生物体的内源DNA中的所述靶位点。
30)根据项28或29所述的方法,其中所述供体序列具有至多15kbp的长度。
31)根据项1至13中任一项所述的融合蛋白用于在真核细胞中进行基因编辑的用途。
32)通过项27至30中任一项所述的方法产生的细胞或真核生物体。
在以下详细描述中描述了可以与权利要求或上述项中定义的技术方案组合的优选实施方案。
本发明基于以下惊人发现:5’-3’核酸外切酶(即,以5’至3’方向水解DNA的核酸外切酶)在提高HDR频率的能力方面并因此在通过HDR的基因编辑的效率方面有巨大差异。值得注意的是,本发明人发现显示高的体外5’-3’核酸外切酶活性的单体的5’-3’核酸外切酶特别适于显著提高HDR。相比之下,单体的但5’-核酸外切酶活性太低的酶或多聚体的酶不适合于提高HDR的频率。本发明人进一步发现(即便在单体5’-3’核酸外切酶中)5’-3’核酸外切酶在提高HDR频率的能力方面并因此在通过HDR的基因编辑的效率方面存在巨大差异。此外,本发明人发现,通过将核酸内切酶与对由所述核酸内切酶产生的单链或双链断裂(例如,平末端(blunt end)或交错末端(staggered end))类型具有高活性的特定5’-3’核酸外切酶组合,可以实现通过HDR的基因编辑的效率的提高。因此,本发明提供了用于通过HDR的基因编辑的改进的方法、蛋白、试剂盒和核酸分子。因此,本发明使得HDR对细胞,特别是真核细胞中的DSB修复的其它更快的NHEJ途径具有竞争力。
附图简要说明
图1:在NbPGK(本氏烟(Nicotiana benthamiana)的磷酸甘油酸激酶)基因组序列中接近终止密码子的PAM-in方向上的推定单指导RNA(sgRNA)靶位点的鉴定(通过CRISPOR和CRISPR-P v2.0),参见实施例1。LB代表T-DNA左边界;RB代表T-DNA右边界;GUS是编码GUS蛋白的ORF;5’HA和3’HA表示供体DNA上的同源臂以及基因组DNA上的供体DNA的5’和3’同源臂的结合区。箭头指示sgRNA靶标的位置。
图2:SpCas9核酸外切酶融合体和sgRNA的设计。A:N-末端Exo-Cas9-融合体。B:C-末端Cas9-Exo-融合体。细节在实施例2中解释。Exo表示核酸外切酶编码片段;接头代表Exo和SpCas9i片段之间的接头;tOCS是转录终止子。N-SpCas9i-N代表具有两个NLS信号(核定位信号)的Cas9版本。标有“BsaI”的垂直框代表限制酶BsaI的IIS型限制性内切酶识别位点;含有碱基四联体(base quadruplet)的水平框表示形成GG悬突(overhang)的BsaI切割位点,用于使用Marillonnet等(尤其在WO2011154147A1中描述)描述的Golden Gate(GG)克隆方法通过连接组装相邻片段。
图3:使用Golden Gate(GG)克隆方法的sgRNA构建体设计的示意图。SlU6代表来自番茄(Solanum lycopersicum)的U6启动子(SlU6,pAGT5824)。
图4:使用与NbPGK的翻译GUS融合,通过在本氏烟叶中瞬时表达的基因靶向的结果。A)接种基因靶向构建体4天后的相对GUS活性。不同核酸外切酶与Cas9的融合产生不同的GUS活性。GUS活性是相对于Act2p-GUS对照构建体的。相对GUS活性以每μg总蛋白表示。E-4LF2-Cas9代表N-末端融合体,其中核酸外切酶E在Cas9的N-末端侧并且经由接头4LF2连接。Cas9-4LF2-E代表C-末端融合体,其中核酸外切酶E在Cas9的C-末端侧并且通过接头4LF2连接。各条柱用融合蛋白的核酸外切酶的缩写标记。UL12是指UL12-1核酸外切酶。DU代表DUMAS核酸外切酶。MD代表MD5核酸外切酶。dCas9代表失活的Cas9。B)这是A)中所示实验的重复,除此之外还有Cas9与λ-核酸外切酶(LaExo)(一种多聚体(三聚体)核酸外切酶)的融合,表明该融合不导致HDR增加。C)使用与A)和B)相同的测定,对Cas9和UL12的单独表达进行测试,显示其导致HDR的增加,但不像所述融合那么强。D)来自A)的定量GUS测量的染色叶盘(leaf disc)。放大的叶盘比较了用Cas9::UL12融合体接种的具有高GUS活性的叶盘(左)与无核酸外切酶的Cas9对照(右)。
图5:通过平末端发夹寡核苷酸的体外加工分析核酸外切酶活性。比较T5和T7核酸外切酶活性。A)基于Nikiforov(2014)但在5’末端磷酸化且携带Oregon绿色荧光染料的发夹寡核苷酸(SEQ ID NO:37)。染料与最后的G:C碱基对的堆叠使荧光猝灭。从5’末端核酸外切降解后,不能发生堆叠且猝灭被解除,导致更高的荧光。B)在27℃下,于30分钟内测量来自所测量的四种浓度中的两种浓度的发夹寡核苷酸(10和20μM)的荧光。C)如B)中所述,对5μM发夹寡核苷酸和3种酶测量荧光(T5:T5-核酸外切酶;T7:T7核酸外切酶;LaExo:λ-核酸外切酶;H2O:水对照)。
图6:使用gDNA中编码的GFP的转基因本氏烟烟草花叶病毒(TMV)-报告株系。该报告株系用于测定实施例7至22中HDR的频率和效率。“gDNA(nbi775)”表示如SEQ ID NO:99中给出的转基因本氏烟株系中的插入盒,其编码具有带有GFP的截短RdRP的TMV,在作为转录启动子的Act2p的控制下。GFP取代了TMV的衣壳蛋白(CP)。MP代表TMV运动蛋白(movementprotein)。“供体”代表包含编码TMV的RNA依赖性RNA聚合酶(RdRP)的供体序列的供体核酸,并在SEQ ID NO:74中给出。通过HDR插入供体修复了RdRP并允许表达GFP的复制性TMV的转录。细节参见实施例7。图6底部的TMV转基因构建体的序列段以SEQ ID NO:73给出。
图7:与核酸外切酶融合的Cas9导致植物(planta)中增加的HDR。Cas9-4LF2-X表示使用4LF2接头将核酸外切酶融合至Cas9的C-末端。使用Cas9WT和失活的Cas9(dCas9)作为对照。供体DNA如图6所示。Exo1:拟南芥(Arabidopsis)核酸外切酶I;LaExo:λ噬菌体核酸外切酶;T5:噬菌体T5核酸外切酶;T7:噬菌体T7核酸外切酶;Exo3:来自大肠杆菌(E.coli)的核酸外切酶III;TREX1:来自智人(Homo sapiens)的三引物修复核酸外切酶1。细节参见实施例8。
图8:通过GFP-点计数(spot count)定量HDR事件。细节参见实施例9。
图9:通过PCR对HDR事件进行基因分型(参见实施例10)。“供体”代表供体核酸。引物对P1由引物1F和1R组成,引物对P2由引物2F和2R组成,引物对P3由引物3F和3R组成。“NbWT”代表本氏烟野生型DNA。“Cas9”代表野生型Cas9,“dCas9”代表失活的Cas9。
图10:与Cas9融合的Exo1(Exo1△C)的核酸外切酶结构域仅略微增加HDR效率(参见实施例11)。X-4LF2-Cas9表明使用4LF2接头将核酸外切酶融合至Cas9的N-末端。“Cas9”代表野生型Cas9,“dCas9”代表失活的Cas9。
图11:HDR中UL12-同源物的比较(参见实施例12)。X-4LF2-Cas9表明使用4LF2接头将核酸外切酶融合至Cas9的N-末端。“Cas9”代表野生型Cas9,“dCas9”代表失活的Cas9。UL12的氨基酸序列在SEQ ID NO:32中给出。其它核酸外切酶的氨基酸序列在以下给出:UL12-2=SEQ ID NO:33、BGLF5=SEQ ID NO:34、Dumas=SEQ ID NO:35、MD5=SEQ ID NO:36、PapE=SEQ ID NO:43、PiE=SEQ ID NO:44、SOX=SEQ ID NO:68、AB4P=SEQ ID NO:69。
图12:在GFP点计数分析中,与Cas9融合的UL12同源物PapE和PiE显示出比UL12增加的HDR-效率(参见实施例12)。氨基酸序列在以下SEQ ID NO中给出:UL12=SEQ ID NO:32、UL12-2=SEQ ID NO:33、PapE=SEQ ID NO:43、PiE=SEQ ID NO:44、AB4P=SEQ ID NO:69、MD5=SEQ ID NO:36、Dumas=SEQ ID NO:35、BGLF5=SEQ ID NO:34、SOX=SEQ ID NO:68。
图13:HDR中T7-同源物的比较(参见实施例13)。氨基酸序列在以下SEQ ID NO中给出:UL12/UL12-1=SEQ ID NO:32、UL12-2=SEQ ID NO:33、T7=SEQ ID NO:30、ME15/IME15=SEQ ID NO:45、O3-12/YerO3-12=SEQ ID NO:70、SpiPh=SEQ ID NO:46、PHBO2=SEQ IDNO:71、RaTL1/RaITL1=SEQ ID NO:72。
图14:T7同源物ME15显示与UL12相当的HDR效率(参见实施例13)。氨基酸序列在以下SEQ ID NO中给出:UL12/UL12-1=SEQ ID NO:32、UL12-2=SEQ ID NO:33、T7=SEQ IDNO:30、ME15/IME15=SEQ ID NO:45、O3-12/YerO3-12=SEQ ID NO:70、SpiPh=SEQ ID NO:46、PHBO2=SEQ ID NO:71、RaTL1/RaITL1=SEQ ID NO:72。
图15:UL12同源物的树图(参见实施例12)。
图16:T7同源物的树图(参见实施例13)。
图17:UL12-和T7-同源物连同T5的氨基酸序列同一性(参见实施例12和13)。
图18:使用平末端DNA底物比较单体核酸外切酶的核酸外切酶活性(参见实施例14)。发夹寡聚物:SEQ ID NO:37。
图19:使用平末端DNA底物SEQ ID NO:37,比较单体核酸外切酶(T5和T7)与三聚体核酸外切酶(LaExo)的核酸外切酶活性(参见实施例15)。
图20:通过共表达核定位的LaExo(称为N-LaExo或LaExo-N),不能增加与Cas9融合的LaExo的活性(参见实施例16)。Cas9-2LF2-X表示使用2LF2接头将核酸外切酶融合至Cas9的C-末端。N-LaExo表明将核定位信号(NLS)融合至LaExo(λ核酸外切酶)的N-末端。LaExo-N表明将核定位信号(NLS)融合至LaExo的C-末端。“Cas9”代表野生型Cas9,“dCas9”代表失活的Cas9。
图21:最小同源臂长度的确定(参见实施例17)。
图22:Cas12a-核酸外切酶融合导致植物中HDR增加(参见实施例18)。X-4LF2-Cas12a表示使用4LF2接头将核酸外切酶融合至Cas12a的N-末端。“Cas12a”代表野生型Cas12a。
图23:通过GFP点计数估算Cas12a核酸外切酶融合蛋白的HDR效率(参见实施例19)。标记如图22所示。dCas12a指失活的Cas12a。
图24:对Cas9-和Cas12a-核酸外切酶融合蛋白的切割模式的比较分析(参见实施例20)。X-Cas9和X-Cas12a表示将所测试的核酸外切酶分别融合至Cas9和Cas12a的N-末端。
图25A-D:使用Cas9核酸外切酶融合蛋白和PAM-out方向的sgRNA的扩增子测序(参见实施例21)。
图26A-D:使用Cas12a-核酸外切酶融合蛋白和PAM-out方向的crRNA的扩增子测序(参见实施例22)。
图27A/B/C:所测试的与UL12同源的碱性核酸外切酶的序列比对(参见实施例23)。5’-磷酸配位的残基和催化性三联体(catalytic triad)的残基分别用粗体和下划线表示。根据Goldstein和Weller(1998)以及Buisson等,2009,将碱性核酸外切酶的保守基序用下划线表示。UL12-组-特异性基序和PapE-特异性氨基酸残基分别用矩形和线条表示。所示的氨基酸序列部分如下:BGLF5=SEQ ID NO:34、SOX=SEQ ID NO:68、MD5=SEQ ID NO:36、DUMAS=SEQ ID NO:35、AB4P=SEQ ID NO:69、PiE=SEQ ID NO:44、PapE=SEQ ID NO:43、UL12-1=SEQ ID NO:32、UL12-2=SEQ ID NO:33。标记为“共有”的线不是氨基酸序列,而表示上方序列中高度保守的位置。
图28A/B:与PapE同源的序列部分的氨基酸序列比对(参见实施例24)。PapE-组特异性基序I、II、III和IV与增加的HDR效率相关。PapE-组是UL12-组核酸外切酶的亚组。显示了PapE-组特异性基序I、II、III和IV。一般的碱性核酸外切酶功能基序II、III和IV(根据Goldstein和Weller 1998以及Buisson等,2009)由中心的条表示。UL12的氨基酸序列在SEQID NO:32中给出,PapE的氨基酸序列在SEQ ID NO:43中给出。除UL12和PapE之外的蛋白/肽的氨基酸序列在SEQ ID NO:75至94中给出。标有“共有”的线不是氨基酸序列,而表示在上方序列中高度保守的位置。
图29:所测试的T7核酸外切酶同源物的比对。催化性三联体的残基用粗体下划线表示。T7核酸外切酶-组特异性基序I和II用线表示。ME15-特异性基序I和II在从顶部起的第五部分中也用条表示。RalTL1=SEQ ID NO:72、PaPHBO2=SEQ ID NO:71、SpiPhage=SEQID NO:46、YerO3-12=SEQ ID NO:70、T7=SEQ ID NO:30、ME15=SEQ ID NO:45。标记“共有”的线不是氨基酸序列,而表示在上方序列中高度保守的位置。
发明详述
本发明的蛋白和融合蛋白
本发明的蛋白包含位点特异性核酸内切酶(在本文中也简称为“核酸内切酶”)和5’-3’核酸外切酶(在本文中也简称为“核酸外切酶”)。核酸内切酶是具有核酸内切酶活性的蛋白,并且能够在特定位点切割多核苷酸链内的磷酸二酯键。核酸外切酶是具有5’-3’核酸外切酶活性的蛋白,能够以5’至3’方向从多核苷酸链的末端切割核苷酸。因此,核酸内切酶和核酸外切酶是酶,并且这些酶活性必须存在于本发明的蛋白中。因此,本发明的蛋白是5’-3’核酸外切酶和位点特异性核酸内切酶。
关于核酸内切酶和核酸外切酶如何可以组合成本发明的蛋白,存在多种可能性。它们可以共价或非共价结合。共价结合的一个实例是包含其中核酸内切酶和核酸外切酶作为融合蛋白结构域的融合蛋白。或者,核酸内切酶和核酸外切酶可通过其它共价化学键如二硫桥或通过化学接头(例如使用戊二醛,任选地随后进行还原,例如使用硼氢化钠)结合。在核酸内切酶和核酸外切酶之间的共价结合中,融合蛋白是优选的。
或者,所述蛋白可以是包含第一亚基(优选蛋白亚基)和第二亚基(优选蛋白亚基)的寡聚蛋白(蛋白复合物),所述第一亚基包含所述核酸内切酶,所述第二亚基包含所述核酸外切酶。第一亚基可以包含:
-位点特异性核酸内切酶(例如作为第一亚基的结构域)和
-第一相互作用结构域(例如第一蛋白相互作用结构域)或第一相互作用核酸(例如包含适体的核酸);
第二亚基可以包含:
-5’-3’核酸外切酶(例如作为第二亚基的结构域)和
-第二相互作用结构域(第二蛋白或肽相互作用结构域);
其中所述第一相互作用结构域或第一相互作用核酸和所述第二相互作用结构域彼此结合,以形成所述寡聚蛋白(蛋白复合物)。因此,在该实施方案中,可以通过特定的蛋白-蛋白或蛋白-RNA相互作用结构域,使5’-3’核酸外切酶和核酸内切酶彼此接近。例如,肽表位和识别该肽的单链抗体之间的特异性蛋白-蛋白相互作用已经用于产生基于dCas9(失活的Cas9)的强转录激活子(Tanenbaum等,2014,Cell,159:635–646)。因此,第一相互作用结构域可以是这样的肽表位,并且第二相互作用结构域可以是结合所述肽表位的单链抗体。类似地,卷曲-卷曲(coil-coil)蛋白-蛋白相互作用结构域可用于相同目的(Lebar等,Nat Chem Biol,16:513–519)。因此,第一和第二相互作用结构域可以是卷曲-卷曲蛋白-蛋白相互作用结构域。
类似地,蛋白-RNA相互作用结构域可以用于相同的目的。因此,通过将适体插入本发明所用的gRNA中,特异性识别该适体的肽将结合所述gRNA并与核酸内切酶物理接近(Ma等,Nature Biotech,34:528-531)。这个原理可用于使5’-3’核酸外切酶接近核酸内切酶,例如通过将核酸外切酶融合至识别特异性RNA适体的肽和将RNA适体融合至gRNA。在后一实施方案中,本发明的蛋白是CRISPR-Cas核酸酶,gRNA包含适体,并且核酸外切酶包含作为相互作用结构域而结合适体的肽。因此,适体-肽复合物可以充当核酸内切酶和核酸外切酶之间的非共价接头。在该实施方案中,所述蛋白可以是包含以下的寡聚蛋白:
-第一亚基,其是核酸内切酶或包含核酸内切酶,
-第二亚基,其包含所述5’-3’核酸外切酶和(作为第二相互作用结构域的)能够结合适体的肽,和
-具有能够结合核酸内切酶的区段的核酸(上文称为“相互作用核酸”,例如gRNA)和能够结合5’-3’核酸外切酶(特别是能够结合适体的所述肽)的适体(区段)。如上所述,核酸内切酶优选是CRISPR-Cas核酸酶。
因此,核酸内切酶和核酸外切酶形成蛋白复合物的实施方案的具体实施方案如下:第一相互作用结构域是单链抗体,并且第二相互作用结构域是特异性结合所述单链抗体的肽表位;第二相互作用结构域是单链抗体,并且第一相互作用结构域是特异性结合所述单链抗体的肽表位;第一相互作用核酸是包含适体的gRNA,并且第二相互作用结构域是特异性识别并结合所述适体的肽。
在核酸内切酶和核酸外切酶之间的共价和非共价结合中,共价结合是优选的,并且包含核酸内切酶和核酸外切酶的融合蛋白是更优选的。
本发明的融合蛋白是位点特异性核酸内切酶与5’-3’核酸外切酶的融合体。核酸内切酶和核酸外切酶代表融合蛋白的结构域。其中,在下文中,在融合蛋白的上下文中提及核酸内切酶或核酸外切酶时,分别是指融合蛋白的核酸内切酶结构域或核酸外切酶结构域。核酸外切酶可融合至位点特异性核酸内切酶的N-末端或C-末端。融合可以是直接的,即没有接头。然而,优选地,两个结构域通过接头多肽融合,以避免两个结构域之间和/或两个结构域的空间位阻。融合蛋白是5’-3’核酸外切酶和位点特异性核酸内切酶(并且这些功能通常存在于融合蛋白的单独结构域中)。
接头是至少10个,优选至少20个,更优选至少30个氨基酸残基的多肽。接头的氨基酸残基的最大数量没有特别限制,但可以定义为250个残基,优选至多200个,更优选至多150个氨基酸残基。在一个优选的实施方案中,多肽接头的长度为40至90个氨基酸,优选50至80个氨基酸,更优选60至70个氨基酸。在一个具体实施方案中,多肽接头由61个氨基酸组成。
位点特异性核酸内切酶提供本发明的蛋白,任选地与其它组分结合,其具有检测真核细胞或真核生物体的内源DNA上的靶位点的能力,以将包括核酸外切酶的本发明的蛋白(例如融合蛋白)引导至靶位点,并在靶位点处切割内源DNA。术语“靶位点”是指内源DNA上欲被核酸内切酶切割的位点。本发明蛋白的核酸内切酶(以及融合蛋白的核酸内切酶结构域)具有位点特异性核酸内切酶功能,并能在靶位点处切割DNA。在优选的实施方案中,对内源DNA诱导双链断裂(DSB)。DSB可以是平末端DSB或具有粘性悬突的交错DSB(staggeredDSB)。在靶位点处的切割类型取决于所用的核酸内切酶。一些核酸内切酶如Cas9诱导DNA的平末端DSB,而其它核酸内切酶如Cas12a(以前称为Cpf1)诱导具有粘性悬突的交错DSB。也可以使用具有切口酶活性的核酸内切酶,即所谓的切口酶。这样的切口酶可以是CRISPR核酸酶如Cas9的突变变体。在一个实施方案中,切口酶用于对内源DNA分子诱导DSB,其中切口酶在邻近的编码链和模板链两者处诱导单链切口。可以使用两种gRNA将切口酶引导至两个位点,以通过两个切口酶反应产生DSB。
5’-3’核酸外切酶通过其5’-3’核酸外切酶活性,为本发明的蛋白提供在核酸内切酶切割后于靶位点处加工DNA的能力。与核酸内切酶的融合或其它键合确保了核酸外切酶接近由核酸内切酶产生的DNA末端。本发明人预期5’-3’核酸外切酶对双链DNA末端的亲和力高于NHEJ途径的DNA修复因子,这防止后者与DNA末端结合。这种NHEJ途径的抑制被认为促进通过HDR途径的DNA断裂修复,从而增加基因置换事件的频率。本发明人还预期,对断裂的DNA末端的亲和力差异使得本发明人观察到一些5’-3’核酸外切酶比其它5’-3’核酸外切酶产生更高的基因置换效率。可以想象,本发明中使用的核酸外切酶作用于由核酸内切酶产生的DSB的高活性有效地与NHEJ途径竞争。
在结合至DNA断裂末端后,核酸外切酶以5’到3’的方向加工DNA,并优选在被切割的DNA的两个末端产生自由的3’-悬突。发明人假设,加工有助于通过HDR途径的DNA断裂修复而不是通过NHEJ途径的DNA断裂修复,特别是当存在合适的供体DNA时(进一步参见下文)。3’悬突被认为与供体核酸(优选供体DNA)同源臂的互补链配对,以产生包含被切割的内源DNA和供体核酸的杂交DNA的复合物。还认为该复合物的形成有助于提高通过同源介导修复(HDR)途径的DNA断裂修复的频率,而不是通过非同源末端连接(NHEJ)途径的DNA断裂修复的频率。
本发明的蛋白所包含的核酸内切酶和核酸外切酶在下文中进一步详细描述。
位点特异性核酸内切酶及其任选的其他组分
融合蛋白的位点特异性核酸内切酶可以是以位点特异性方式在靶位点处切割双链DNA的任何核酸内切酶。可用于本发明的位点特异性核酸内切酶的实例是锌指核酸酶(ZFN)、转录激活子样效应子核酸酶(TALEN)和CRISPR-核酸内切酶,其中后者由于其易于使用和广泛适用性而优选。CRISPR-核酸内切酶的实例是Cas9和Cas12a(以前称为Cpf1)及具有核酸内切酶活性的其修饰形式(例如突变体)。CRISPR-核酸内切酶Cas9的结构和用途尤其描述于WO2014093712A1和WO2014093635A1中。CRISPR-核酸酶Cpf1的结构和用途尤其描述于WO2016205711A1和WO2017141173A1中。在优选的实施方案中,位点特异性核酸内切酶是Cas9或具有核酸内切酶活性的其突变体。
通常已知CRISPR-核酸内切酶如Cas9需要指导RNA(gRNA),以通过gRNA与靶DNA上序列的互补性将核酸内切酶引导至靶位点。因此,gRNA与靶核酸(通常为靶DNA)具有互补性,并且具有结合用于切割靶DNA的核酸内切酶的能力。如上所述,核酸酶可以是Cas9或Cpf1或具有核酸内切酶活性的其修饰形式(例如突变体)。然而,本发明不限于Cas9或Cpf1核酸内切酶,并且也可以使用其它CRISPR核酸内切酶。在一些实施方案中,gRNA包含与直接重复序列(direct repeat sequence)连接的指导序列(guide sequence)。指导序列提供与靶DNA的互补性,以将核酸内切酶引导至靶位点。所述直接重复序列通常提供允许gRNA与CRISPR核酸酶(例如在tracrRNA中)结合的部分。gRNA可以是单指导RNA(sgRNA),即其可以包含某些CRISPR-Cas系统(例如II型CRISPR-Cas9系统)所需的反式激活RNA(tracrRNA)。因此,gRNA可以包含与靶DNA互补的序列段和(如果需要)反式激活CRISPR RNA(tracrRNA)。与靶DNA互补的序列段可具有19至22个连续核苷酸,优选20至21个核苷酸的长度。这些元件的连续性取决于所使用的CRISPR-Cas系统的类型。
对于Cas9或2类II型CRISPR-Cas系统的另一种核酸内切酶的使用,gRNA通常是在5’至3’方向上包含与靶DNA的链互补的序列段和反式激活CRISPR RNA(tracrRNA)的sgRNA。CRISPR-Cas系统的使用是技术人员通常已知的。
为了序列特异性切割靶DNA,具有结合的gRNA(例如sgRNA)的CRISPR核酸内切酶(也简称为CRISPR核酸酶)如Cas9可以在真核细胞中扫描内源DNA,以在靶位点识别与原间隔子相邻基序(Proto-spacer Adjacent Motif,所谓的PAM-序列)相邻的靶序列。当在靶位点检测到PAM-序列时,核酸内切酶与其结合并可使DNA解链(unwind)。随后,与核酸内切酶结合的gRNA的远端部分可与解链的靶DNA杂交以鉴定由gRNA确定的靶位点。当gRNA远端的约20个连续核苷酸已成功地与分离的DNA链杂交时,核酸内切酶可发挥其功能并切割PAM序列附近的靶DNA或将其切口。DNA切割的模式取决于核酸内切酶的性质。CRISPR核酸酶通常引入双链断裂(DSB)。DSB可以具有平末端(例如在Cas9的情况下)。如果需要具有粘性末端的DSB,则可以使用Cpf1作为CRISPR核酸酶。在另一个可选方案中,可以将靶DNA切口,即仅切割靶DNA的一条链。切口(nicking)可通过使用具有通过突变失活的天然CRISPR核酸酶的两个核酸酶结构域中之一的CRISPR核酸酶来实现。然而,在本发明中,优选切割靶DNA的两条链以在靶DNA中引入DSB。甚至更优选地,切割靶DNA的两条链以在靶DNA中引入平末端DSB。在另一个实施方案中,切割靶DNA的两条链以在靶DNA中引入粘性末端DSB。
CRISPR核酸酶基于其工作模式被分为不同类型。它们来源于不同的细菌和/或古细菌,并且在大小、结构域结构和所识别的PAM-序列方面不同。然而,CRISPR/Cas核酸酶依赖于RNA引导的核酸酶活性的基本原理。Cpf1作为CRISPR核酸酶的实例,其与Cas9的不同之处在于它识别不同的PAM-序列且不需要gRNA中的tracrRNA序列(EP 3 009 511;Zetsche等,Cell 163(3)(2015)759-771)。与Cas9不同,Cpf1产生具有粘性悬突的双链断裂。
位点特异性核酸内切酶可选地可以具有切口酶活性并将单链断裂(切口)引入真核或原核细胞的内源DNA中。需要在编码链和模板链两者处的单链切口以使用切口酶产生DNA的DSB。这两个切口可以由相同的切口酶进行。可以使用两种不同的指导gRNA,一种针对编码链,另一种针对模板链,来获得DSB。在一个实施方案中,两种gRNA引导切口酶在邻近的DNA的编码链和模板链两者处引入单链切口,其中一种指导RNA以PAM-in方向设计,另一种以PAM-out方向设计。
5’-3’核酸外切酶
本发明的蛋白(例如融合蛋白)的核酸外切酶通常是单体5’-3’核酸外切酶。如果核酸外切酶由单个蛋白亚基组成并且核酸外切酶活性存在于该单个蛋白亚基中,则核酸外切酶是本发明意义上的单体5’-3’核酸外切酶。通常,本领域已知的许多5’-3’核酸外切酶都是多聚的。然而,本发明人惊奇地发现,如果核酸外切酶是单体核酸外切酶,则可以实现远远更好的结果和更好的基因编辑效率,特别是使用HDR机制。
如果核酸外切酶以5’至3’方向,优选从DSB的两端水解平末端双链DNA以产生未水解链的3’-悬突,则其包含5’-3’核酸外切酶活性。然而,所述活性不限于水解平末端双链DNA。在本发明的一个实施方案中,5’-3’核酸外切酶是使用本文所述的核酸外切酶测定时具有至少0.072(μM·s)-1的5’-3’核酸外切酶催化效率kcat/Km或至少0.50s-1的转换数的5’-3’核酸外切酶。在更优选的实施方案中,5’-3’核酸外切酶是具有至少0.10,优选至少0.20(μM·s)-1的5’-3’核酸外切酶催化效率kcat/Km,和/或至少0.70s-1,优选至少1.4s-1的转换数的5’-3’核酸外切酶。催化效率和/或转换数可以使用SEQ ID NO:37的发夹寡核苷酸作为底物来测定,所述发夹寡核苷酸在其5’末端磷酸化并携带与最接近寡核苷酸3’-末端的胸腺嘧啶碱基(T)连接的荧光染料。实施例4中描述了基本的测定。所述测定在27℃和pH 7.9(在25℃测量)下进行,并监测、记录和绘制由于荧光淬灭减少而增加的荧光。从图的初始线性部分确定使用多个不同底物浓度的初始速度。转换数和Km值由初始速度对底物浓度的Lineweaver-Burk图确定。实施例4给出了关于所述测定的进一步细节。
在本文中,当提及核酸外切酶的转换数和/或催化效率时,这些值是指游离核酸外切酶,并且通过使用游离核酸外切酶进行测定,所述游离核酸外切酶即为不是本发明蛋白的一部分的核酸外切酶。为了本发明的目的,假定游离核酸外切酶的转换数和催化效率对应于包含核酸外切酶的融合蛋白或蛋白复合物的转换数和催化效率。
在另一个实施方案中,在实施例4所述的体外核酸外切酶测定中,本发明的5’-3’核酸外切酶的5’-3’核酸外切酶活性高于T5核酸外切酶(SEQ ID NO:31)的5’-3’核酸外切酶活性。优选地,在实施例4所述的体外核酸外切酶测定中,本发明的5’-3’核酸外切酶的5’-3’核酸外切酶活性是T5核酸外切酶(SEQ ID NO:31)的5’-3’核酸外切酶活性的至少2倍,优选至少3倍,更优选至少4倍。
在另一个实施方案中,在实施例4所述的体外核酸外切酶测定中,本发明的5’-3’核酸外切酶的5’-3’核酸外切酶活性与噬菌体T7核酸外切酶(SEQ ID NO:30)的5’-3’核酸外切酶活性相同或比其更高。
本发明人惊奇地发现,使用HDR机制的基因编辑的效率取决于核酸外切酶的核酸外切酶活性。另外,核酸外切酶除了是单体5’-3’核酸外切酶以外,没有特别限制。天然核酸外切酶可用于与核酸内切酶融合。然而,天然核酸外切酶可以被修饰,例如通过引入突变、添加、插入和/或缺失,条件是核酸外切酶活性不受损害。核酸外切酶的实例是T7核酸外切酶(SEQ ID NO:30)、UL12-1核酸外切酶(SEQ ID NO:32)和UL12-2核酸外切酶(SEQ ID NO:33)。进一步的实例是BGLF5核酸外切酶(SEQ ID NO:34)、DUMAS核酸外切酶(SEQ ID NO:35)和MD5核酸外切酶(SEQ ID NO:36)。优选的核酸外切酶是PapE(SEQ ID NO:43),一种来自Papiineα-疱疹病毒2的脱氧核糖核酸酶;PiE(SEQ ID NO:44),一种来自莱丽狐蝠(Pteropus lylei)相关α-疱疹病毒的脱氧核糖核酸酶。核酸外切酶的进一步的实例是SOX(SEA ID NO:68)和AB4P(SEQ ID NO:69)。其它特别适合的核酸外切酶是ME15(SEQ ID NO:45)和SpiPh(SEQ ID NO:46)。其它合适的核酸外切酶是O3-12(SEQ ID NO:70)、PhBO2(SEQID NO:71)和RaTL1(SEQ ID NO:72)。如本文定义的这些核酸外切酶的变体也适于实施本发明。
可用于本发明的5’-3’核酸外切酶可分成以下两组,(I)UL-12同源物(其中一些在图15中示出)和(II)T7同源物(其中一些在图16中示出)。
组(I)的成员和实例有:UL12-1核酸外切酶(SEQ ID NO:32)、UL12-2核酸外切酶(SEQ ID NO:33)、BGLF5核酸外切酶(SEQ ID NO:34)、DUMAS核酸外切酶(SEQ ID NO:35)、MD5核酸外切酶(SEQ ID NO:36)、PapE核酸外切酶(SEQ ID NO:43)、PiE核酸外切酶(SEQ IDNO:44)、SOX核酸外切酶(SEA ID NO:68)、AB4P核酸外切酶(SEQ ID NO:69);以及如本文定义的这些核酸外切酶的变体。优选的是UL12-1核酸外切酶(SEQ ID NO:32)、UL12-2核酸外切酶(SEQ ID NO:33)、PapE核酸外切酶(SEQ ID NO:43)和PiE核酸外切酶(SEQ ID NO:44)及其变体。最优选的是PapE核酸外切酶(SEQ ID NO:43)和PiE核酸外切酶(SEQ ID NO:44)及其变体。
组(II)的成员和实例有:T7核酸外切酶(SEQ ID NO:30)、ME15核酸外切酶(SEQ IDNO:45)、SpiPh核酸外切酶(SEQ ID NO:46)、O3-12核酸外切酶(SEQ ID NO:70)、PhBO2(SEQID NO:71)和RaTL1核酸外切酶(SEQ ID NO:72),以及如本文所定义的它们的变体。优选的是ME15核酸外切酶(SEQ ID NO:45)和SpiPh核酸外切酶(SEQ ID NO:46)和本文定义的它们的变体。最优选的是ME15核酸外切酶及下文定义的其变体。
用于本发明的各种核酸外切酶在下文中进一步详细描述。项(ii)至(iv)的变体具有(如项(i)的)5’-3’-核酸外切酶活性,优选具有如上文在数值上定义的那些最小活性。在此,在整个说明书中,氨基酸序列以WIPO标准ST25的标准单字母代码给出。X代表20种标准氨基酸残基中的任何一种。
组(I)的核酸外切酶
在一个实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列包含以下或由以下组成的蛋白:
(i)SEQ ID NO:32(UL12-1核酸外切酶)或SEQ ID NO:33(UL12-2核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:32或SEQ ID NO:33的氨基酸序列具有至少70%,优选至少80%,更优选至少85%,甚至更优选至少90%,并且最优选至少95%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:32或SEQ ID NO:33的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,并且最优选至少98%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:32或SEQ ID NO:33的氨基酸序列相比具有1至50个,优选至多40个,更优选至多30个,甚至更优选至多20个,最优选至多10个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
在另一个实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列包含以下或由以下组成的蛋白:
(i)SEQ ID NO:34(BGLF5核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:34的氨基酸序列具有至少70%,优选至少80%,更优选至少85%,甚至更优选至少90%,最优选至少95%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:34的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:34的氨基酸序列相比具有1至50个,优选至多40个,更优选至多30个,甚至更优选至多20个,最优选至多10个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
在另一个实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列包含以下或由以下组成的蛋白:
(i)SEQ ID NO:35(DUMAS核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:35的氨基酸序列具有至少70%,优选至少80%,更优选至少85%,甚至更优选至少90%,并且最优选至少95%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:35的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:35的氨基酸序列相比具有1至50个,优选至多40个,更优选至多30个,甚至更优选至多20个,最优选至多10个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
在另一个实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列包含以下或由以下组成的蛋白:
(i)SEQ ID NO:36(MD5核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:36的氨基酸序列具有至少70%,优选至少80%,更优选至少85%,甚至更优选至少90%,最优选至少95%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:36的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:36的氨基酸序列相比具有1至50个,优选至多40个,更优选至多30个,甚至更优选至多20个,最优选至多10个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
上述项(ii)至(iv)的变体具有5’-3’-核酸外切酶活性,优选为上文在数值上定义的那些。
如上所述,在优选的实施方案中,5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:43(PapE)中定义的氨基酸序列,或
(ii)与SEQ ID NO:43中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:43中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选95%,最优选98%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:43中定义的氨基酸序列相比,1至121个,优选1至90个,更优选1至60个,甚至更优选1至45个,最优选1至30个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
该实施方案的5’-3’核酸外切酶(特别是项(ii)至(iv))的氨基酸序列优选在对应于PapE的那些的位置处(参见图27)分别包含氨基酸序列PAASVH、RRL和APASAPAAVRAA(SEQID NO:50)的PapE-组特异性基序I和/或II和/或III(参见图27,下划线表示图27中鉴定的基序)。更优选地,所有这三个基序都存在。
可选地或另外,该实施方案的5’-3’核酸外切酶(特别是项(ii)至(iv))的氨基酸序列优选包含一个或多个选自SEQ ID NO:47(APAESVHACGVL)、SEQ ID NO:48(APAASVHACGVL)、SEQ ID NO:49(AKYAFDPADAGXXVVAAHRRL)、SEQ ID NO:50(APASAPAAVRAA)和SEQ ID NO:51(LIITPVRXDAA)的氨基酸序列区段,更优选在与SEQ ID NO:43中的那些对应的位置处。
在另一个优选的实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:44(PiE)中定义的氨基酸序列,或
(ii)与SEQ ID NO:44中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:44中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选95%,最优选98%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:44中定义的氨基酸序列相比,1至131,优选1至98,更优选1至65,甚至更优选1至49,最优选1至32个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
组(i)的核酸外切酶,尤其是如上文SEQ ID NO:43和44所定义的PapE和PiE及其变体,可以是氨基酸序列包含SEQ ID NO:54(FRYCVGRAD)和/或SEQ ID NO:55(PXPLMXFFEAATQ)的氨基酸序列区段的蛋白,例如在与SEQ ID NO:43中的那些对应的位置处。
组(I)的核酸外切酶的优选实施方案
组(I)的核酸外切酶通常共有如图27的比对中所显示的某些序列基序。上文给出的核酸外切酶的变体优选具有这些序列基序,例如氨基酸序列K/RPLMXFF/YE的UL12-组特 异性基序I。在该氨基酸序列区段中,K/R表示K或R,F/Y表示F或Y。X如上文所定义。
作为上述实施方案的备选或补充,组(I)核酸外切酶是包含UL12-组特异性基序I基序I区、基序IaUL12-组特异性基序II的5’-3’核酸外切酶,参见图27(下划线突出显示图27中所示的区段)。因此,5’-3’核酸外切酶可以是氨基酸序列包含SEQ ID NO:56(PXPLMXFXEAATQXQXXXQLWXLLRRGLXTAXTLXWGXXGPXFXXXWLXXXXXXXXXXXXXAXXFGRXNEXXARXXLFRYCVGRAD)的氨基酸序列区段的核酸外切酶,其中该序列第35位的X优选为K或R。该区段优选存在于与UL12-1中的位置对应的位置。
或者,组(I)核酸外切酶可包含基序I,参照图27。因此,5’-3’核酸外切酶可以是氨基酸序列包含SEQ ID NO:56的氨基酸残基9至37的氨基酸序列区段,且包含含有SEQ IDNO:56的氨基酸残基9至37的氨基酸序列区段,其中SEQ ID NO:56的第35位的X优选为K或R。
作为上述实施方案的备选或补充,组(I)的核酸外切酶是包含UL12-组特异性基序 II的5’-3’核酸外切酶,参见图27。所述5’-3’因此可以是这样的核酸外切酶,其氨基酸序列包含氨基酸序列区段RYCV或FRYCV,优选地随后连续是区段GRAD,分别产生区段RYCVGRAD或FRYCVGRAD。如上所述,此类序列区段优选存在于与UL12-1中的位置对应的位置处。
可选地或另外,组(I)的核酸外切酶可包含基序II,参照图27。因此,5’-3’核酸外切酶可以是氨基酸序列包含SEQ ID NO:95(GVLXDXHTGMVGASLD)的氨基酸序列区段的蛋白,其中第4位的X优选是M、V、L或I;第7位的H可以可选地为R;和/或第10位的M可以可选地为V或L。
可选地或另外,组(I)的核酸外切酶可包含基序III,参见图27。因此,5’-3’核酸外切酶可以是氨基酸序列包含SEQ ID NO:96(EVKCRAKYAFDPXD)的氨基酸序列区段的蛋白,其中第2位的V可以可选地是I;第9位的A可以可选地是L或T;和/或第14位的D可以可选地是E。
可选地或另外,组(I)的核酸外切酶可包含基序VI,参照图27。因此,5’-3’核酸外切酶可以是氨基酸序列包含SEQ ID NO:97(FANPRHPNFKQILVQXYVLXXHFP)的氨基酸序列区段的蛋白,其中第10位的K可以可选地是R;和/或第16位的X优选为G、A、S或T。
包含5’-3’核酸外切酶UL12和变体的其它优选实施方案
在一个优选的实施方案中,用于编辑内源DNA的蛋白是融合蛋白,其包含CRISPR-核酸酶作为核酸内切酶和UL12(UL12_1或UL12_2或本文中定义的它们的变体)作为核酸外切酶。在该实施方案中,用于编辑内源DNA的蛋白优选是蛋白,
其中所述位点特异性核酸内切酶是如上文所定义的CRISPR-核酸酶,和
其中所述位点特异性核酸内切酶和所述5’-3’核酸外切酶通过多肽接头融合,所述多肽接头长度为25个氨基酸或更多,优选30个氨基酸或更多,更优选40个氨基酸或更多,甚至更优选50个氨基酸或更多,最优选60个氨基酸或更多,和
其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:32(UL12-1)或SEQ ID NO:33(UL12-2)中定义的氨基酸序列,或
(ii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列相比,1至120个,优选1至93个,更优选1至62个,甚至更优选1至46个,最优选1至31个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
该实施方案可与本文所述的其它优选实施方案组合,例如包含SEQ ID NO:56的氨基酸序列区段。
组(II)的核酸外切酶
在另一个优选的实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列包含以下或由以下组成的蛋白:
(i)SEQ ID NO:30(T7核酸外切酶)的氨基酸序列;或
(ii)与SEQ ID NO:30的氨基酸序列具有至少70%,优选至少80%,更优选至少85%,甚至更优选至少90%,并且最优选至少95%序列同一性的氨基酸序列;或
(iii)与SEQ ID NO:30的氨基酸序列具有至少80%,优选至少85%,更优选至少95%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列;或
(iv)与SEQ ID NO:30的氨基酸序列相比具有1至50个,优选至多40个,更优选至多30个,甚至更优选至多20个,最优选至多10个氨基酸取代、添加、缺失和/或插入的氨基酸序列。
在优选的实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:45(ME15)中定义的氨基酸序列,或
(ii)与SEQ ID NO:45中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:45中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:45中定义的氨基酸序列相比,1至60个,优选1至45个,更优选1至30个,甚至更优选1至22个,最优选1至15个氨基酸的取代、添加、插入和/或缺失的氨基酸序列。
任选地,该实施方案的5’-3’核酸外切酶的氨基酸序列可以包含一个或多个选自SEQ ID NO:52(APTESETLWDCI)和SEQ ID NO:53(ILRFNDYNIDT)的氨基酸序列区段。
在另一个优选的实施方案中,本发明的5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:46(SpiPh)中定义的氨基酸序列,或
(ii)与SEQ ID NO:46中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:46中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:46中定义的氨基酸序列相比,1至59个,优选1至44个,更优选1至29个,甚至更优选1至22个,最优选1至14个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
由核酸外切酶的作用产生的3’-悬突(优选在被切割的内源DNA的两端上)与供体核酸的同源臂同源,并可与它们退火。这种退火是通过HDR的DNA断裂修复的起点。
当蛋白在本文中由氨基酸取代、添加、缺失和/或插入的数目或数目范围定义时,氨基酸取代、添加、缺失和插入可以组合,但是给定的数目或数目范围是指与由SEQ ID NO定义的参考序列相比,氨基酸残基的所有取代、添加、插入和缺失的总和。在氨基酸取代、添加、插入和缺失中,氨基酸取代、添加和缺失是优选的。术语“插入”是指在参考序列的氨基酸序列内插入氨基酸残基,即排除在C-或N-末端的添加。术语“添加”是指在参考序列的氨基酸序列的C-或N-末端添加氨基酸残基。“缺失”可以是参考序列的末端或内部氨基酸残基的缺失。在本文中,当通过相对于参考序列的氨基酸取代、添加、缺失和/或插入的数目或数目范围来定义蛋白或其结构域时,作为可选实施方案,所述蛋白可以相对于区段的所示氨基酸序列具有1至数个氨基酸取代、添加、插入或缺失。
供体核酸
与本发明的蛋白(即本发明的融合蛋白或寡聚蛋白(蛋白复合物))一起使用的供体核酸(有时也称为“修复模板”、“供体片段”;或者如果是DNA,称为“DNA修复模板”或“供体DNA”)是通常包含供体序列的核酸分子,所述供体序列的侧翼是第一和第二同源臂,一个在供体核酸的5’末端,另一个在供体核酸的3’末端。第一同源臂通常与所述细胞基因组中靶位点侧翼的于所述靶位点第一侧的第一区域同源。第二同源臂与所述靶位点侧翼的于所述靶位点第二侧的第二区域同源。
当被提供到细胞中时,供体核酸可以是单链或双链DNA或RNA,并且可以是线性或环状的。然而,如果供体核酸作为RNA被提供到细胞中,则其通常需要在细胞中从RNA转录成供体DNA以供HDR工作。供体核酸可通过逆转录酶从RNA转录成DNA,除了供体RNA之外,其也可被提供到细胞中。为了避免反转录(retro-transcription),供体核酸优选是DNA,并且在该实施方案中,在本文中也称为供体DNA。
供体核酸可以是DNA构建体、质粒或载体的一部分。供体核酸的同源臂包含与靶位点附近的内源DNA同源的核苷酸序列。供体核酸5’端的同源臂可以与靶位点上游的核苷酸序列同源,3’端的同源臂可以与靶位点下游的核苷酸序列同源。由于这种同源性,由本发明蛋白的5’-3’核酸外切酶产生的3’悬突可侵入供体核酸的同源臂,并与同源臂的互补链退火。结果产生了包含内源DNA和供体核酸的杂合DNA复合物。该杂合DNA复合物也称为“置换环”(D-环),代表通过HDR的DNA DSB修复的第一步。为了解开置换环,与同源臂退火的3’悬突可用作DNA聚合酶的引物,以使用同源臂作为模板合成新的DNA链。该方法允许将供体核酸中包含的供体序列的拷贝插入到位于靶位点的内源DNA中。可以在内源DNA中在靶位点处使特定核苷酸序列缺失。为此目的,可以使用比其在内源DNA中取代的核苷酸序列更短的供体序列,并适当选择同源臂。对于内源DNA中核苷酸序列(例如非特定数目的核苷酸)的缺失,供体序列甚至可以不存在。
在一个实施方案中,将本发明的蛋白与供体核酸组合提供到真核细胞中,用于使用HDR编辑内源DNA。在一个可选的实施方案中,将本发明的蛋白提供到细胞中,而无供体核酸。在该实施方案中,本发明的蛋白可以在靶位点处产生的双链断裂的直接邻近区域,在内源DNA中产生至少一个核苷酸的缺失。优选地,该实施方案在靶位点处产生的双链断裂的直接邻近区域,产生两个或更多个连续核苷酸的缺失。这样的实施方案尤其可用于以随机方式使内源DNA非编码区中的一个或多个核苷酸缺失。
供体核酸可以以本领域技术人员通常已知的许多不同方式被引入细胞中。根据递送方法,供体核酸可以单链或双链DNA或RNA形式被引入细胞中。在植物的情况下,可以通过农杆菌介导的转化将供体核酸引入细胞。为了将供体核酸提供到植物细胞或植物的细胞中,使所述细胞或植物与在T-DNA双元质粒(binary plasmid)的T-DNA内携带供体核酸的农杆菌细胞悬液接触。根据目前的知识,农杆菌细胞将T-DNA作为单链DNA分泌到植物细胞中,如以下实施例所证明的,这足以使HDR工作并最终导致本发明所述的基因置换(基因靶向)。然而,在作为单链T-DNA的一部分被分泌到植物细胞中时,供体核酸也可能在HDR发生之前转变成双链DNA。无论哪种方式,使用农杆菌转化将供体核酸以单链或双链形式提供到植物细胞中,这触发了HDR并最终导致本发明所述的基因置换或编辑。
如上所述,可选地,供体核酸可以以RNA的形式被提供到细胞中,例如通过RNA病毒递送或在从转基因表达后。然而,如果供体核酸以RNA的形式被提供到细胞中,则应使用可在细胞内共表达的逆转录酶将它逆转录为DNA。
可以使用本领域通常已知的其它转化或转染方法。例如,还可以通过电穿孔、使用转染试剂的化学转移或通过基因轰击(gene bombardment),将供体核酸递送到真核细胞中,特别是动物细胞中。
供体核酸可以是线性单链DNA。然而,优选地,供体核酸是线性双链DNA,更优选是线性双链DNA。在任何情况下,供体核酸包含如上所述的第一同源臂和第二同源臂。供体核酸可以任选地包含位于两个同源臂之间的供体序列。第一同源臂可以位于供体核酸的5’末端,并且包含与内源DNA上位于靶位点上游的片段优选地共有至少95%序列同一性的核苷酸序列。在供体核酸的3’末端处的第二同源臂包含与位于靶位点下游的内源DNA的片段共有至少95%序列同一性的核苷酸序列。在优选的实施方案中,供体核酸的同源臂显示不与内源DNA错配。在另一个优选的实施方案中,同源臂至少在供体核酸分子的5’末端和3’末端方向与内源DNA完美匹配。如果同源臂与内源DNA的区段共有至少95%的序列同一性,则同源臂的核苷酸序列长度为至少20bp,优选至少60bp,更优选至少60bp,最优选至少120bp,并且具有最高同一性的序列段应当朝向供体核酸分子的5’-末端和3’-末端。
每个同源臂应具有20bp的最小长度,并且可以长达1000bp,优选长达500bp,更优选长达250bp。优选地,同源臂的长度大于50bp。在一个具体实施方案中,两个同源臂中的每一个的长度均在100和300bp之间,并且允许与内源DNA完美配对而没有错配。
任选地存在于供体核酸中的供体序列(在本文中也可称为供体核苷酸序列)是可在靶位点处被插入内源DNA中的核苷酸序列。如果供体核酸中不存在供体序列,则没有核苷酸序列要从供体核酸被整合到内源DNA中。然而,序列区段可以从内源DNA中缺失,例如在供体核酸已经与内源DNA退火之后位于两个同源臂之间的序列区段。
供体序列(如果存在的话)包含至少一个核苷酸,优选至少10个核苷酸,更优选至少30个核苷酸,甚至更优选至少100个核苷酸。供体序列的最大长度没有特别限制。供体序列可以长达15,000个核苷酸。在另一个实施方案中,供体序列也可以是20,000个核苷酸(20kb)长。然而,长供体序列在靶位点被插入内源DNA的可能性可能低于较短供体序列。在一个实施方案中,修复模板的供体序列长达10,000个核苷酸,优选长达7,000个核苷酸,并且更优选长达3000个核苷酸。
本发明人发现,本发明的蛋白允许通过HDR将供体核酸中包含的出乎意料地长的供体核苷酸序列插入到内源DNA中。与不存在核酸外切酶相比,本发明的蛋白可以增加基因置换事件的频率,优选增加数个数量级,从而可以将出乎意料地长的核苷酸序列插入内源DNA中。供体序列可以是或可以含有一个或多个开放阅读框(ORF)或完整基因,以在靶位点处被插入内源DNA中。
修饰或编辑内源DNA的方法
本发明的蛋白可用于在内源DNA的靶位点处修饰(也是“编辑”)真核细胞的内源DNA。术语“编辑内源DNA”是指在靶位点处修饰内源DNA。本发明的修饰的根本机制被认为是同源介导修复(HDR)。内源DNA中的修饰依赖于供体核酸,并且选自向内源DNA中插入、从内源DNA中缺失和在内源DNA中的取代。这里,插入是指来自供体核酸的至少一个核苷酸在靶位点处被插入内源DNA中。取代是指在靶位点处的内源DNA的至少一个核苷酸(优选两个或更多个核苷酸的区段)在靶位点处被来自供体核酸的至少一个不同核苷酸或两个或更多个核苷酸的区段置换。缺失是指在靶位点从内源DNA缺失至少一个核苷酸(优选两个或更多个核苷酸的区段)。通过适当设计供体核酸,实现内源DNA中核苷酸的插入、取代或缺失。
真核细胞的内源DNA可以是细胞的基因组DNA,但是细胞内包含的任何双链DNA分子(例如线粒体DNA、质体或其它)都可以被编辑。内源DNA可以在单个靶位点或同时在两个或更多个靶位点被编辑。
本发明的内源DNA的编辑也可以被称为“基因置换”或“基因靶向”。本发明的基因置换包括编辑如上定义的内源DNA。特别地,基因置换还包括通过真核细胞的内源DNA中一个或多个核苷酸序列段或单碱基对的靶向缺失而产生靶向基因敲除。这需要与不能预先预测突变性质的非靶基因敲除进行区分。
本发明的蛋白可以通过同源介导修复(HDR)途径增加双链断裂修复的频率。本发明还可以增加真核细胞中基因置换事件的数目,推测是因为通过HDR的DNA断裂修复是基因置换的先决条件。与核酸外切酶和核酸内切酶不融合在一起或不形成蛋白复合物的单独作用相比,本发明的蛋白在与供体核酸一起提供时可以实现更高数量(即,频率增加)的基因置换事件。在优选的实施方案中,与单独提供核酸外切酶和核酸内切酶(即,当与供体核酸一起提供时没有融合在一起或没有形成蛋白复合物)时相比,本发明的蛋白使基因置换事件的数目增加至少1.5倍,更优选至少3倍,甚至更优选至少5倍。进一步地,与包含T5核酸外切酶作为核酸外切酶的融合蛋白或蛋白复合物相比,本发明的蛋白使基因置换事件的数目增加至少1.5倍,更优选至少2倍,甚至更优选至少3倍。与包含多聚核酸外切酶的融合蛋白或蛋白复合物相比,本发明的蛋白还可以使基因置换事件的数目增加至少1.5倍,更优选至少2倍,甚至更优选至少3倍。
本发明人发现,显示高的体外5’-3’核酸外切酶活性的单体的5’-3’核酸外切酶,当它们与位点特异性核酸内切酶一起包含在融合蛋白或蛋白复合物中并与供体核酸一起提供时,特别适于显著增加HDR的频率,并最终增加基因置换事件的频率。
本发明的内源DNA的编辑在真核细胞中进行。优选地,它发生在真核生物体的至少一个细胞中。然而,优选地,所述编辑在真核生物体的多个细胞中进行,例如在植物的一个或多个叶的多个细胞中进行。所述编辑通常在两个或更多个细胞中并行进行。
本发明的真核细胞中内源DNA的编辑需要将本发明的蛋白和供体核酸提供到相同细胞中。真核细胞通常天然地包含功能性HDR途径,因此通常不需要细胞基因工程为细胞提供HDR途径。任选地,可以向细胞中提供改良和/或提高通过同源重组(HDR)的DNA断裂修复的频率和/或效率的其他组分。例如,可以将组分如蛋白Rad51和/或Rad52提供到细胞中,以支持通过HDR的DNA断裂修复。或者,可以将下调NHEJ途径的组分提供到细胞中,以利于通过HDR的DNA断裂修复。
在真核细胞中成功编辑后,可以从经编辑的真核细胞获得生物体。例如,在对胚胎动物细胞进行编辑后,可以获得在所有细胞中均含有经编辑的内源DNA的动物。在对动物的生殖细胞进行编辑后,经编辑的生殖细胞可用于使另一生殖细胞受精,或者经编辑的生殖细胞可以被另一生殖细胞受精,以获得含有经编辑的内源DNA的胚胎细胞。在进一步的可选方案中,可以产生和繁殖包含经编辑的内源DNA的动物体细胞。例如,此类细胞可以表达在起始细胞中不以合适形式表达的蛋白或其它因子。如果将经编辑的细胞施用于缺失所述蛋白或因子的生物体,则可以提供丧失所述蛋白或因子的生物体。因此,本发明提供了治疗或预防真核生物(例如人或动物)中的遗传缺陷的方法,所述方法包括在(本发明的)内源DNA靶位点处修饰真核细胞的内源DNA,培养经修饰的细胞和/或经修饰细胞的子代细胞,以及将一个或多个经修饰的细胞施用于有此需要的真核生物。
在真核植物细胞中成功编辑后,可以从所述细胞再生植物,其中所述植物在植物的所有细胞中均含有内源DNA。这可以产生含有经编辑的内源DNA的新植物株系(new plantline)(例如作物植物的新植物株系)。从细胞或组织再生植物的方法是植物生物技术领域通常已知的。例如,可以使用合适的培养基从愈伤组织再生植物,如例如在关于植物生物技术的教科书中所述,如Slater,Scott和Fowler,Plant Biotechnology,second edition,Oxford University Press,2008。可选地,所述编辑可在花组织的生殖系细胞(germlinecell)中进行,例如使用例如Clough和Bent(The Plant Journal(1998)16(6),735-743)所述的花浸渍转化(floral dip transformation)方法。由这些花产生的种子可以含有经编辑的内源DNA,并且可以被选择,并且如果需要的话,可以被进一步培育以产生含有经编辑的内源DNA的植物株系。
可使用本发明进行编辑的真核细胞和生物体
可以根据本发明进行编辑的真核细胞可以是真菌(例如酵母)细胞、植物细胞或动物细胞,例如人细胞。优选地,真核细胞是植物细胞。因此,本发明的生物体可以是植物或动物生物体。在一个实施方案中,本发明不包括人和/或本发明不包括修饰人生殖系的方法。在一个实施方案中,编辑真核生物体的单个细胞的内源DNA。在另一个实施方案中,编辑真核生物体(特别是植物)的多个细胞的内源DNA。在进一步的实施方案中,编辑真核生物体(特别是植物)的体细胞的内源DNA。在另一个实施方案中,编辑生殖系细胞的内源DNA,使得经编辑的内源DNA被遗传给子代。在另一个实施方案中,编辑胚胎细胞的内源DNA,使得经编辑的内源DNA存在于由经编辑的胚胎细胞发育的生物体的所有细胞中。
在动物细胞中,人细胞可以根据本发明进行编辑。然而,家畜动物的细胞是优选的。
在植物中,其中可以实施本发明的编辑的植物或其细胞不受特别限制。本发明可以应用于可以根据本发明进行编辑的单子叶和双子叶植物。用于实施本发明的植物物种包括但不限于双子叶植物中的豆科(Leguminoseae)、茄科(Solanaceae)、藜科(Chenopodiaceae)、菊科(Compositae)、葫芦科(Cucurbitaceae)、十字花科(Brassicaceae)和玄参科(Scrophulariaceae),以及单子叶植物中的禾本科(Poaceae)、芭蕉科(Musaceae)和姜科(Zingiberaceae)的代表。作物和非作物植物都可以使用,其中优选作物植物。优选用本发明蛋白编辑的常见作物包括苜蓿(alfalfa)、大麦(barley)、豆(beans)、油菜(canola)、豇豆(cowpeas)、棉花(cotton)、玉米(corn)、三叶草(clover)、莲(lotus)、小扁豆(lentils)、羽扇豆(lupine)、玉米(maize)、小米(millet)、燕麦(oats)、豌豆(peas)、花生(peanuts)、白杨(poplar)、水稻(rice)、黑麦(rye)、草木樨(sweetclover)、向日葵(sunflower)、甜豌豆(sweetpea)、大豆(soybean)、高粱(sorghum)、黑小麦(triticale)、菜豆(yam beans)、黎豆(velvet beans)、巢菜(vetch)、小麦(wheat)、紫藤(wisteria)、马铃薯(potato)、香蕉、咖啡(coffee)、可可(cacao)、甜菜(sugar beet)和坚果(nut)植物。
用此类植物或此类植物的细胞实施本发明的方法可以产生含有经编辑的内源DNA的这些植物的细胞。如上所述,可以由此产生在植物的所有细胞中均含有经编辑的内源DNA的植物。
本发明的核酸、DNA构建体、质粒和载体
本发明还提供了包含编码本发明蛋白的多核苷酸的核酸分子。该核酸分子在本文中也称为第一核酸分子。多核苷酸应理解为本发明蛋白的编码序列,例如本发明的融合蛋白的编码序列或本发明蛋白的一个亚基的编码序列。如果本发明的蛋白是寡聚蛋白,则核酸分子可以包含两个编码序列,它们是编码第一亚基的第一编码序列和编码第二亚基的第二编码序列。可选地,寡聚蛋白如二聚蛋白的第一和第二亚基可以在单独的核酸分子上编码。
本发明还提供了包含编码本发明蛋白的多核苷酸的第一DNA构建体。本发明还提供了包含所述DNA构建体的质粒或载体。所述核酸分子和DNA构建体可以含有额外的遗传元件,例如用于在真核细胞中表达所述蛋白的遗传元件。此类遗传元件的实例是在细胞或生物体中有活性并与所述多核苷酸、任选的转录增强子和/或转录终止子有效连接的启动子。对于农杆菌介导的转化,左和右T-DNA边界序列也可以是此类遗传元件。第一核酸分子、质粒或载体可进一步包含另外的核酸区段,例如质粒或载体骨架。所述核酸分子、DNA构建体、质粒或载体可以是单链或双链的,并且可以是环状或线性的;优选地,它们是双链且环状的。
在一个实施方案中,第一核酸分子可以进一步包含供体核酸。在另一个实施方案中,第一核酸分子可进一步编码gRNA,用于作为本发明核酸内切酶的CRISPR核酸酶。在进一步的实施方案中,第一核酸分子包含供体核酸并编码用于CRISPR核酸酶的gRNA。在转染到一个或多个真核细胞中之后,可以例如使用CRISPR核酸酶和另外的gRNA从核酸分子中切出供体核酸,所述另外的gRNA将CRISPR核酸酶引导至核酸分子上的合适切割位点以切出供体核酸。
本发明的第一核酸分子、DNA构建体、质粒或载体可以通过将待组合的元件克隆在一起而产生。还用于实施例中的方便的克隆方法是Golden Gate(GG)克隆,其利用IIS型限制酶进行限制性无缝连接,参见WO 2008/095927和WO2011154147。
本发明还描述了第二核酸分子。该第二核酸分子是如上所述的本发明的供体核酸,或包含如上所述的本发明的供体核酸。本发明还提供了第二DNA构建体,其包含供体核酸和任选的另外的元件,例如用于农杆菌介导的转化的左和右T-DNA边界。第二核酸分子可以包含另外的核酸区段,例如质粒或载体骨架。技术人员理解,供体核酸可以包含在第一核酸分子或第二核酸分子中。当第二核酸分子用于供体核酸时,其可进一步编码gRNA,用于作为作为本发明的核酸内切酶的CRISPR核酸酶。
本发明描述了第三核酸分子,其包含或编码gRNA,例如sgRNA。如果第三核酸分子是RNA,则它包含gRNA。如果第三核酸分子是DNA,则它包含编码gRNA的多核苷酸。对于真核细胞中的转录,如果第三核酸分子是DNA,则它可以包含(第三)DNA构建体,该DNA构建体含有与编码gRNA的多核苷酸有效连接的启动子。对于使用农杆菌介导的转染在植物细胞中的转染,第三DNA构建体可进一步含有左和右T-DNA边界。如上所述,第三核酸分子上可以存在或编码另外的gRNA,例如用于从相同或另一个核酸分子中切出供体核酸。
用于真核细胞中表达的启动子通常是已知的。为了在植物细胞和植物中表达,使用在植物细胞中有活性的启动子。术语“在植物细胞中有活性的启动子(promoter activein plant cells)”是指能够控制(启动)植物细胞中的转录的DNA序列。这包括植物来源的任何启动子,以及能够引导在植物细胞中转录的非植物来源的任何启动子,即病毒或细菌来源的某些启动子,如花椰菜花叶病毒(Cauliflower mosaic virus)35S启动子(CaMV35S启动子)(Harpster等(1988)Mol Gen Genet.212(1):182-90,地下三叶草病毒(subterranean clover virus)启动子4号或7号(WO9606932),或T-DNA基因启动子,还包括细胞周期特异性启动子(Ferreira等人,(1994)Plant Cell 6:1763-1774),组织特异性或器官特异性启动子,包括但不限于种子特异性启动子(例如WO89/03887),卵细胞特异性启动子(Steffen等,(2007)Plant J.51:281-292;Sprunck等,(2012)Science 338:1093-1097),器官原基特异性启动子(An等(1996)Plant Cell 8(1):15-30),茎特异性启动子(Keller等,(1988)EMBO J.7(12):3625-3633),叶特异性启动子(Hudspeth等(1989)PlantMol Biol.12:579-589),中间质特异性(mesophyl-specific)启动子(如光诱导型Rubisco启动子),根特异性启动子(Keller等(1989)Genes Dev.3:1639-1646),块茎特异性(tuber-specific)启动子(Keil等(1989)EMBO J.8(5):1323-1330),血管组织特异性启动子(Peleman等(1989)Gene 84:359-369),雄蕊选择性启动子(WO 89/10396,WO 92/13956)和开裂区特异性(dehiscence zone specific)启动子(WO 97/13865)等。对于瞬时表达,优选使用组成型启动子,即不受发育调节的启动子。然而,组成型启动子可以是组织特异性或器官特异性的。优选的启动子是用于下述实施例中的那些。
本发明的蛋白、供体DNA和/或gRNA向真核细胞中的递送
本发明内源DNA的编辑需要蛋白、供体核酸和(在CRISPR核酸酶作为核酸内切酶的情况下)一种或多种gRNA同时存在于同一细胞中。这些元件在本文中也被称为本发明的组分。这意味着本发明的组分应当同时存在于相同细胞中,并且因此可以并行地或连续地被提供给所述细胞。可以将所述组分瞬时或稳定地提供给真核细胞、生物体的细胞或生物体。瞬时是指将编码或包含所述组分的一种或多种核酸分子或其部分并入到真核细胞的基因组中是非常不可能的,并且通常不会发生(例如,因为没有施加用于将核酸分子并入到真核细胞或生物体的基因组中的选择压力)。例如,作为本发明核酸分子的DNA质粒可以包含或编码本发明的一种或多种组分(当需要时,有效连接至启动子上,从而所述一种或多种组分可以在细胞内由DNA质粒表达)。
将所述组分稳定地提供给真核细胞、生物体的细胞或生物体是指,将编码或包含所述一种或多种组分的一种或多种核酸分子或其部分并入到真核细胞或生物体的基因组中(例如,通过施加选择压力和选择其中已发生所述并入的细胞或生物体,或使用农杆菌介导的转化)。农杆菌介导的转化通常将包含或编码所述一种或多种组分的T-DNA整合到细胞的基因组中。基因组然后包含或编码在T-DNA中包含或编码的组分,从而所述组分可以通过与它们有效连接的启动子被表达或被切出(例如在供体核酸的情况下)。如果用农杆菌转化植物体细胞或植物的细胞,则所述组分通常不被传递至被转化植物的子代植物。如果用农杆菌转化生殖系植物细胞或植物的细胞,则所述组分可以被传递至子代细胞或生物体,从而所述组分或编码所述组分的编码序列在后代中稳定整合到基因组中。
本发明的所有组分不必以相同方式,即全部稳定地或全部瞬时地提供给真核细胞或生物体。相反,可以稳定地提供一种或多种组分,并且瞬时提供一种或多种其它组分。例如,可以将编码目标蛋白的第一核酸分子稳定地提供给真核细胞或生物体。然后,可以向稳定地含有并表达本发明的蛋白的细胞瞬时提供包含供体核酸的第二核酸分子和任选的编码一种或多种gRNA的第三核酸分子。
将本发明的组分瞬时提供给真核细胞、生物体的细胞或生物体是有利的,因为通常希望将遗传修饰限制于特定的期望编辑事件。然而,如上所述,可以将本发明的一种或多种组分稳定地并入真核细胞、生物体的细胞或生物体中,使得它们可以被表达,并瞬时提供其它组分。然后可以通过隔离(segregation)和异交(out-crossing)从转基因植物中除去任何不希望的稳定遗传修饰。
存在几种可能性来为真核细胞提供用于实施本发明方法的本发明组分,特别是瞬时提供。例如,所述组分可以作为本发明的蛋白、供体DNA(或包含供体DNA的DNA)和gRNA的混合溶液被注射到真核细胞中或被真核细胞摄取(例如在电穿孔或PEG介导的转化时)。这些方法可以用动物细胞实施,也可以用植物细胞实施。然而,通常,通过遗传转化或瞬时转染编码融合蛋白和gRNA的核酸分子,使得它们在经转化或转染的真核细胞中表达,来将这些组分提供给细胞,并且供体DNA也将被转化或转染到细胞中。
将一种或多种核酸分子引入动物细胞的方法是本领域技术人员已知的,例如电穿孔、微注射或使用转染剂(例如如WO2014056590或WO2014053245中所述)。这些方法特别适合于将所述组分瞬时提供给细胞。
另外,已知有各种用于将一种或多种DNA分子引入植物细胞、植物的细胞或植物的方法,实例有电穿孔、PEG(聚乙二醇)转化、微注射、粒子轰击(particle bombardment)、使用病毒载体等。同样,这些方法特别适合于将所述组分瞬时提供给植物细胞。然而,将本发明的DNA分子引入植物细胞或植物的细胞的优选方法是农杆菌介导的转化。农杆菌介导的转化在植物生物技术领域是确立已久的,例如来自关于植物生物技术的教科书,例如Slater,Scott和Fowler,Plant Biotechnology,second edition,Oxford UniversityPress,2008。它包括使活的植物组织(例如叶或花组织)与含有Ti-质粒和包含T-DNA的双元载体的农杆菌细胞悬液接触。可通过压力差(例如使用无针头注射器)或抽吸(例如真空渗透)促进农杆菌细胞进入植物组织。可选地,可以用含有农杆菌细胞和任选的研磨剂和表面活性剂的悬液喷洒植物组织,例如如WO2012019660中所述。
对于农杆菌介导的转染,本发明的第一核酸分子可以是在其T-DNA中包含编码本发明蛋白的第一DNA构建体的质粒(例如双元载体)。本发明的第二核酸分子可以是在其T-DNA中包含本发明供体核酸的质粒(例如双元载体)。本发明的第三核酸分子可以是在其T-DNA中包含编码本发明的一种或多种gRNA的DNA构建体的质粒(例如双元载体)。然而,可以产生在其T-DNA中在单个分子中含有多于一种所述核酸(例如第一和第二核酸)的双元载体。任选地,这样的质粒可额外含有在其T-DNA中编码一种或多种gRNA的第三核酸。如果使用两种或更多种核酸分子,每种类型的核酸分子可以作为双元载体单独引入农杆菌中并培养。为了转化或转染,可以将一种、两种或更多种农杆菌培养物(各自含有一种双元载体)混合,并且可以将混合物用于转化植物细胞或植物的细胞。
农杆菌可以属于根癌农杆菌(Agrobacterium tumefaciens)或毛根农杆菌(Agrobacterium rhizogenes)物种,它们通常用于植物转化和转染并且是本领域技术人员由公知常识已知的。用于本发明方法的农杆菌菌株可以包含是所述第一、第二或第三核酸分子的核酸分子(Ti质粒或双元载体),或者可以包含含有两个或更多个本发明核酸的核酸分子。一种或多种DNA构建体通常存在于质粒或双元载体的T-DNA中,用于通过农杆菌的分泌系统将核酸构建体引入植物细胞中。一种或多种核酸构建体在至少一侧或两侧的侧翼为T-DNA边界序列,用于转染所述一种或多种植物和向植物细胞或植物的细胞中引入。优选地,所述一种或多种DNA构建体存在于T-DNA中,并且在两侧侧翼均为T-DNA边界序列。在本文中,术语“DNA构建体”是指包含或编码本发明的一种或多种组分的重组构建体。
DNA构建体可存在于农杆菌菌株的Ti质粒或双元载体的T-DNA中。Ti质粒或双元载体可以含有在所述T-DNA之外的选择性标记,以允许在细菌中克隆和基因工程化。然而,被转移到植物细胞中的T-DNA可以不含有选择性标记,该选择性标记(如果存在的话)将允许选择含有所述T-DNA的植物或植物细胞。在该实施方案中,不应存在于Ti质粒或双元载体的T-DNA中的选择性标记基因的实例是抗生素抗性基因或除草剂抗性基因。本发明的方法优选利用瞬时转染。在该实施方案中,本发明的方法不包括通过使用这样的抗生素抗性基因或除草剂抗性基因选择已并入本发明的一种或多种核酸分子的植物细胞或植物的步骤。因此,在该实施方案中,不需要将抗生素抗性基因或除草剂抗性基因并入植物细胞或植物中。然而,可以使用合适的标记来选择或鉴定编辑事件和其中已发生编辑的细胞。
农杆菌介导的基因转移及用于其的载体是技术人员已知的,例如从本文引用的参考文献或从关于植物生物技术的教科书如Slater,Scott和Fowler,Plant Biotechnology,second edition,Oxford University Press,2008。可用于本发明的农杆菌菌株是本领域中通常用于转染或转化植物的那些。通常,一方面,使用双元载体系统和双元菌株,即,将T-DNA转移到植物细胞中所需的vir基因,另一方面,T-DNA在单独的质粒上。可用的农杆菌菌株的实例在关于双元农杆菌菌株和载体系统的文章Hellens等,Trends in Plant Science5(2000)446-451中给出。在双元农杆菌菌株的情况下,含有vir基因的质粒被称为“vir质粒”或“vir辅助质粒”。含有待转染的T-DNA的质粒是所谓的双元载体,其可以是本发明的“DNA分子”或“载体”。
因此,本发明还提供了含有本发明的第一核酸分子的农杆菌细胞。值得注意的是,本发明提供了包含质粒的农杆菌细胞,所述质粒在T-DNA中包含含有编码融合蛋白的多核苷酸的第一DNA构建体。
通过农杆菌进行共转染可以通过制备两种或更多种不同的农杆菌培养物来实现,第一种农杆菌培养物包含编码融合蛋白的第一核酸分子(Ti质粒或双元载体)、构建体或载体,第二种农杆菌培养物包含第二核酸分子。还可制备含有第三核酸分子的第三种农杆菌培养物。这些农杆菌培养物的悬液可以在转染前单独生长和混合。农杆菌的悬液可以如下生产。可以将核酸分子或载体转化到农杆菌菌株中,并且经转化的农杆菌培养物可以优选在施加用于维持相关核酸分子的选择压力下生长。在一种方法中,将待用于本发明方法的农杆菌菌株接种到培养基中并生长至高细胞浓度。农杆菌通常生长至对应于600nm处的OD为至少1,通常为约1.5的细胞浓度。然后将此类高度浓缩的农杆菌悬液稀释以达到所需的细胞浓度。为了稀释高度浓缩的农杆菌悬液,可以使用水或农杆菌渗透培养基(Agrobacterium infiltration medium)。水可以含有缓冲剂或盐。水可以进一步含有表面活性剂或润湿剂。可选地,浓缩的农杆菌悬液可以用水稀释,并且在稀释过程之后或期间添加任何添加剂如表面活性剂和任选的缓冲物质。然后可以将单独产生的用于共转染的悬液混合,并将混合的悬液用于转染植物细胞或植物的细胞。
如果要转染细胞培养物中的植物细胞,可将农杆菌悬液添加到植物细胞培养物中。如果要转染植物的选定部分如植物叶,可以使用通常已知的农杆菌渗透法(agroinfiltration),由此使用压力差将农杆菌悬液插入植物组织中。例如,可以使用含有农杆菌悬液的无针头注射器将农杆菌悬液压入植物组织中。在另一种农杆菌渗透法中,将整个植物或植物的主要部分倒置浸入农杆菌悬液中,施加真空,然后快速释放,由此将农杆菌悬液插入植物组织中。
用于编辑内源DNA的试剂盒
本发明还包括用于在真核细胞中于靶位点处编辑内源DNA的试剂盒。试剂盒包括至少两部分:如“供体核酸”一节中描述的供体核酸、供体构建体或第二核酸分子,以及如“本发明的蛋白和融合蛋白”一节中描述的本发明的蛋白。试剂盒包含本发明的蛋白,所述本发明的蛋白是经表达的蛋白的形式或作为包含编码所述蛋白(例如融合蛋白)的多核苷酸的核酸分子。试剂盒可以进一步包含真核细胞。当本发明的试剂盒中包含的供体核酸和蛋白被提供到同一真核细胞中时,试剂盒可以如本文所述地编辑真核细胞的内源DNA。
如果需要,试剂盒还可包含一种或多种gRNA或编码所述一种或多种gRNA的一种或多种核酸分子,所述gRNA结合所述蛋白的位点特异性核酸内切酶部分。
本发明还提供了试剂盒,其包含含有编码上述第一蛋白亚基的多核苷酸的核酸分子和含有编码上述第二蛋白亚基的多核苷酸的核酸分子。
此外,本发明还提供了用于在真核细胞或真核生物体中在内源性DNA的靶位点处编辑所述内源性DNA的试剂盒,其中所述试剂盒包含含有UL12核酸外切酶的融合蛋白和供体核酸。在该具体实施方案中,试剂盒包含:
-本发明的供体核酸或本发明的包含所述供体核酸的供体构建体,和
-用于编辑内源DNA的融合蛋白,其包含位点特异性核酸内切酶和5’-3’核酸外切酶,
其中所述位点特异性核酸内切酶和所述5’-3’核酸外切酶通过多肽接头融合,和
其中所述多肽接头的长度为25个氨基酸或更多,优选30个氨基酸或更多,更优选40个氨基酸或更多,甚至更优选50个氨基酸或更多,最优选60个氨基酸或更多,和
其中所述位点特异性核酸内切酶优选如上文所定义,和
其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:32(UL12-1)或SEQ ID NO:33(UL12-2)中定义的氨基酸序列,或
(ii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少80%,优选至少85%,更优选至少90%,甚至更优选至少95%,最优选至少98%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列相比,1至120个,优选1至93个,更优选1至62个,甚至更优选1至46个,最优选1至31个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
修饰真核细胞的内源DNA的方法
本发明还包括用于在内源DNA的靶位点处编辑所述内源DNA的方法。一种方法涉及将目标核苷酸序列在靶位点处插入真核细胞的内源DNA中,和/或在靶位点使核苷酸序列区段缺失。另一种方法涉及在靶位点处修饰真核细胞的内源DNA。所有这些方法均包括向真核细胞或生物体中提供本发明的供体核酸和蛋白。然后,所述蛋白(例如融合蛋白)的核酸内切酶在靶位点处切割DNA,并且所述蛋白的核酸外切酶处理被切割的DNA以产生3’悬突,其可以侵入供体核酸的同源臂以诱导通过同源介导修复(HDR)的DNA修饰。所述DNA修饰可以导致供体核酸内携带的插入序列被插入到内源DNA中。因此,取决于供体核酸的设计,本发明的方法允许真核宿主细胞的内源DNA中一个或多个碱基对的插入、取代和缺失。本发明的蛋白和供体核酸以及用于将修复模板的插入序列插入内源DNA的原理和方法在上文部分中描述。
将长核苷酸片段插入基因组的方法
本发明还提供了将至少5,000个碱基对的核苷酸片段在靶位点处插入真核细胞基因组的方法。该方法包括向真核细胞中提供本发明的蛋白和供体核酸,其中供体核酸包含至少5,000个核苷酸长的插入序列,并且其中真核细胞应具有功能性HDR途径。在一个实施方案中,供体核酸包含7,000个核苷酸的插入序列,并且插入序列的7,000个核苷酸可以在靶位点处被插入真核细胞的内源DNA中。在另一个实施方案中,插入序列的长度为15,000个核苷酸,并且15,000个核苷酸的插入序列在靶位点处被插入内源DNA中。在进一步的实施方案中,插入序列的长度为20,000个核苷酸,并且20,000个核苷酸的插入序列在靶位点处被插入内源DNA。插入物长度不存在上限,然而,成功插入事件的频率可能随着插入序列长度的增加而降低。
本发明还提供了不依赖于HDR和供体核酸/供体序列而在靶位点处修饰真核细胞或真核生物体的内源DNA的方法。该方法特别适于诱导在靶位点处如在非编码区或顺式活性元件中的内源DNA中一个或多个连续核苷酸的随机缺失。在一个实施方案中,该方法包括向细胞或生物体提供以下:
本发明的蛋白,或本发明的核酸分子,或本发明的核酸构建体、质粒或载体,或本发明的试剂盒。作为结果,所述方法产生了对内源DNA的修饰,其中所述修饰包括以随机方式使靶位点上游和/或下游的内源DNA中两个或更多个核苷酸的序列缺失。
实施例
实施例1:用于翻译GUS与本氏烟磷酸甘油酸激酶NbPGK (Niben101Scf05688g08010.1)的融合的供体构建体设计
首先,我们鉴定了NbPGK的基因组序列中靠近终止密码子的PAM-in方向的推定的单指导RNA(sgRNA)靶位点(通过CRISPOR(http://crispor.tefor.net/)和CRISPR-P v2.0(http://crispr.hzau.edu.cn/CRISPR2/);图1)。为了构建供体构建体,我们扩增并克隆了终止密码子上游和下游大约1kb分别作为5’和3’同源臂(HA)。在供体片段中对sgRNA靶序列进行突变以防止Cas9介导的供体切割(整合之前和/或之后)。通过使用相应的寡核苷酸去除内部BsaI或BpiI位点,使扩增的片段适用于Golden-Gate(GG)克隆。在供体(5'HA)中,使NbPGK的终止密码子缺失以允许翻译通读(translational read-trough),从而产生翻译的NbPGK-GUS融合体。在供体片段的上游和下游,以PAM-out方向整合sgRNA_Csy4-3的正交靶位点,用于切割、加工和释放供体片段。通过GG-克隆组装供体片段,并作为T-DNA通过根癌农杆菌(GV3101 pMP90菌株)介导的瞬时表达在本氏烟(Nb)叶中递送。
供体片段(PGK-GUS)的序列的多核苷酸序列是以下SEQ ID NO:1的多核苷酸序列:
/>
/>
/>
在如上所示的SEQ ID NO:1的多核苷酸中,格式具有以下含义:
T-DNA左边界;/>用于在供体片段外通过Cas9切割的靶序列;5’HA+3’HA:5’和3’同源臂;(sgR-PGK1+2突变的PAM):由单指导RNA靶向但在供体中突变的PGK基因座的序列;/>(内含子):具有内含子的GUS基因;/>T-DNA右边界
实施例2:SpCas9核酸外切酶融合体和sgRNA的设计
将核酸外切酶针对本氏烟进行密码子优化,并且作为具有匹配悬突的1级GG-模块(Level-1 GG-module)来合成(图2)。通过引物延伸扩增LF2接头片段,随后组装成1级模块,产生2xLF2或4xLF2(参见以下序列)。合成来自XTEN接头(144aa)的432bp片段作为1级GG-模块。使用432bp XTEN片段作为模板经由PCR产生XTEN接头的较短变体(XTEN16和XTEN40),并且组装成1级GG模块。通过GG克隆将核酸外切酶和接头的模块组装在一起成为0级模块(Level 0module)(图2)。将得到的核酸外切酶-接头0级模块与2×35S(短)、ω翻译增强子、SpCas9i和tOCS终止子作为转录单元一起组装成1级。将1级表达载体转化到根瘤农杆菌(GV3101 pMP90)中并用于在本氏烟叶中瞬时表达。
N-末端核酸外切酶-Cas9融合体
编码目标蛋白的构建体的一般结构如下(图2A):
RB(T-DNA右边界)-2x35S短(双花椰菜花叶病毒35S启动子,短形式)-翻译增强子(来自烟草花叶病毒的ω翻译增强子)/>-外切核酸酶-接头/>-SpCas9(具有内含子的SpCas9形式)/LbCas12a(具有内含子的LbCas12a形式)/>-tOCS(OCS转录终止子)/>-LB(T-DNA左边界)。
序列-表示用在Golden Gate克隆中组装不同模块的悬突。
启动子-增强子模块GGAG_2x35Ss_TACT-ΩAATG的多核苷酸序列如以下SEQ IDNO:2所示:
用于N-末端融合体的Cas9模块AGGT_NLS-SpCas9i-NLS*_GCTT的多核苷酸序列示于以下SEQ ID NO:3中(*表示终止密码子,NLS表示核定位信号,粗体字母的序列对应于编码序列,正常字母的序列对应于内含子):
/>
/>
/>
/>
用于N-末端融合体的Cas12a模块AGGT_NLS-LbCas12ai-NLS*_GCTT的多核苷酸序列显示于以下SEQ ID NO:57中(*表示终止密码子,NLS表示核定位信号,粗体字母的序列对应于编码序列,正常字母的序列对应于内含子):
/>
/>
/>
转录终止子模块GCTT_tOCS_CGCT的多核苷酸序列显示于以下SEQ ID NO:17中:
在以上示出的SEQ ID NO:2、3和17的多核苷酸中,格式具有以下含义:
2×35S短:双花椰菜花叶病毒35S启动子,短形式,翻译增强子:来自烟草花叶病毒的ω翻译增强子,NLS-SpCas9(内含子)-NLS:具有内含子以及N-末端和C-末端核定位序列(NLS)的SpCas9形式,tOCS:OCS转录终止子, Golden Gate克隆悬突。
在组装的1级构建体中,SEQ ID NO:2、3和17的序列与被称为“Exo-接头”的图2A中的包含核酸外切酶和多肽接头的片段组合。Exo-接头通过GG(Golden Gate)克隆从图2A所示的1级片段“Exo”和“接头”组装得到。
核酸外切酶和各种接头的多核苷酸序列如下:
SEQ ID NO:4:编码接头TTCG_2xLF2_AGGT的多核苷酸
SEQ ID NO:5:编码接头TTCG_4xLF2_AGGT的多核苷酸
SEQ ID NO:6:编码接头TTCG_XTEN144_AGGT的多核苷酸
SEQ ID NO:7:编码接头TTCG_XTEN40_AGGT的多核苷酸
SEQ ID NO:8:编码接头TTCG_XTEN16_AGGT的多核苷酸
SEQ ID NO:9:编码用于N-末端核酸外切酶-Cas9融合体的T7核酸外切酶(AATG_T7_TTCG)的多核苷酸
SEQ ID NO:10:编码用于N-末端核酸外切酶-Cas9融合体的T5核酸外切酶(AATG_T5_TTCG)的多核苷酸
/>
SEQ ID NO:11:编码用于N-末端核酸外切酶-Cas9融合体的UL12核酸外切酶(AATG_UL12_TTCG)的多核苷酸
/>
SEQ ID NO:12:编码用于N-末端核酸外切酶-Cas9融合体的UL12-2核酸外切酶(AATG_UL12-2_TTCG)的多核苷酸
/>
SEQ ID NO:13:编码用于N-末端核酸外切酶-Cas9融合体的爱泼斯坦-巴尔病毒(Epstein-Barr virus)BGLF5核酸外切酶(AATG_BGLF5_TTCG)的多核苷酸
/>
SEQ ID NO:14:编码用于N-末端核酸外切酶-Cas9融合体的水痘带状疱疹(Varicella-zoster)病毒(Dumas毒株)核酸外切酶(DUMAS)(AATG_DUMAS_TTCG)的多核苷酸
/>
SEQ ID NO:15:编码用于N-末端核酸外切酶-Cas9融合体的马立克氏病(Marek’sdisease)MD5核酸外切酶(AATG_MD5_TTCG)的多核苷酸
/>
SEQ ID NO:58:编码用于N-末端核酸外切酶-Cas9融合体的Shutoff碱性核酸外切酶SOX(AATG_SOX_TTCG)的多核苷酸
SEQ ID NO:59:编码用于N-末端核酸外切酶-Cas9融合体的马疱疹病毒1(Ab4p毒株)核酸外切酶(AATG_AB4P_TTCG)的多核苷酸
SEQ ID NO:60:编码用于N-末端核酸外切酶-Cas9融合体的Papiineα疱疹病毒2(OU1-76毒株)核酸外切酶AATG_PapE_TTCG核酸外切酶的多核苷酸
/>
SEQ ID NO:61:编码用于N-末端核酸外切酶-Cas9融合体的莱丽狐蝠-相关α疱疹病毒核酸外切酶(PiE)AATG_PiE_TTCG核酸外切酶的多核苷酸
/>
/>
表1:用于N-末端标记的SpCas9(核酸外切酶-接头-SpCas9)的模块的1级组装。
/>
首先将任何给定的核酸外切酶-接头组合从1级组装到0级。将相应的核酸外切酶-接头融合体(0级)与其它给定的0级模块(2x35Ss_Ω增强子_核酸外切酶-接头_NLS-SpCas9i-NLS_tOCS)组合,并组装到GG相容的MoClo 1级T-DNA载体中,用于植物中农杆菌介导的瞬时表达(包括用于T-DNA递送的LB和RB序列)。
C-末端Cas9-核酸外切酶融合体
编码本发明蛋白的构建体的一般结构如下(图2B):
用于C末端融合体的Cas9模块AATG_NLS-SpCas9i-NLS_TTCG的多核苷酸序列显示于以下SEQ ID NO:16:
/>
/>
/>
/>
在SEQ ID NO:16的多核苷酸序列中,格式具有以下含义:
NLS-SpCas9((内含子)-NLS
用于C末端融合体的LbCas12a(D156R)模块AATG_NLS-LbCas12ai-NLS_TTCG的多核苷酸序列示于以下SEQ ID NO:62:
/>
/>
/>
在组装的1级构建体中,SEQ ID NO:2、16和17的序列与图2B中的称为“接头-Exo”的包含多肽接头和核酸外切酶的片段组合。接头-Exo通过GG(Golden Gate)克隆从图2B所示的1级片段“接头”和“Exo”组装得到。
用于C-末端核酸外切酶-Cas9融合体的接头(框加下划线)
SEQ ID NO:18:编码接头TTCG_2xLF2_AATG的多核苷酸
SEQ ID NO:19:编码接头TTCG_4xLF2_AATG的多核苷酸
SEQ ID NO:20:编码接头TTCG_XTEN144_AATG的多核苷酸
SEQ ID NO:21:编码接头TTCG_XTEN40_AATG的多核苷酸
SEQ ID NO:22:编码接头TTCG_XTEN16_AATG的多核苷酸
用于C-末端核酸外切酶-Cas9融合体的核酸外切酶
SEQ ID NO:23:编码用于C-末端核酸外切酶-Cas9融合体的T7核酸外切酶(AATG_T7*_GCTT)的多核苷酸(*表示终止密码子)
SEQ ID NO:24:编码用于C-末端核酸外切酶-Cas9融合体的T5核酸外切酶(AATG_T5*_GCTT)的多核苷酸(*表示终止密码子)
/>
SEQ ID NO:25:编码用于C-末端核酸外切酶-Cas9融合体的UL12核酸外切酶(AATG_UL12*_GCTT)的多核苷酸(*表示终止密码子)
/>
SEQ ID NO:26:编码用于C末端核酸外切酶-Cas9融合体的UL12-2核酸外切酶(AATG_UL12-2*_GCTT)的多核苷酸(*表示终止密码子)
/>
SEQ ID NO:63:编码用于C末端核酸外切酶-Cas9融合体的寡养单胞菌(Stenotrophomonas)噬菌体IME15核酸外切酶(AATG_ME15*_GCTT)的多核苷酸(*表示终止密码子)
SEQ ID NO:64:编码用于C末端核酸外切酶-Cas9融合体的耶尔森菌(Yersinia)噬菌体phiYeO3-12核酸外切酶(AATG_O3-12*_GCTT)的多核苷酸(*表示终止密码子)
SEQ ID NO:65:编码用于C末端核酸外切酶-Cas9融合体的螺旋体细菌(Spirochaeta bacterium)核酸外切酶(AATG_SpiPh*_GCTT)的多核苷酸(*表示终止密码子)
SEQ ID NO:66:编码用于C末端核酸外切酶-Cas9融合体的巴斯德菌(Pasteurella)噬菌体vB_PmuP_PHB02核酸外切酶(AATG_PhBO2*_GCTT)的多核苷酸(*表示终止密码子)
/>
SEQ ID NO:67:编码用于C末端核酸外切酶-Cas9融合体的罗尔斯通菌(Ralstonia)噬菌体phiITL-1核酸外切酶(AATG_RaTL1*_GCTT)的多核苷酸(*表示终止密码子)
/>
表2:用于C-末端标记的SpCas9(SpCas9-接头-Exo)的模块的1级组装
/>
首先将任何给定的接头-核酸外切酶组合从1级组装到0级。将相应的接头-核酸外切酶融合体(0级)与其它给定的0级模块(2x35Ss_Ω增强子;NLS-SpCas9i-NLS;接头-exo;tOCS)组合,并组装到GG相容的MoClo 1级T-DNA载体中,用于植物中的农杆菌介导的瞬时表达(包括LB和RB序列,用于T-DNA递送)。
sgRNA的设计
Cas9 sgRNA作为Golden-Gate(GG)-模块通过PCR扩增。正向引物结合sgRNA支架,并引入新的间隔子序列以及包括相应的悬突的BsaI限制性位点(ATTG,粗体的鸟嘌呤是SlU6转录起始位点)。使用sgRNA翻转延伸(flip extension)支架(Chen等,2013)和随后的67bp U-26终止子(Castel等,2018)作为模板(pAGT6182)。反向引物结合在终止子序列中,并含有包括相应悬突的BsaI位点(CGCT,图3)。通过GG-克隆将得到的sgRNA-终止子PCR片段与来自番茄(Solanum lycopersicum)的U6启动子(SlU6,pAGT5824)组合到1级T-DNA载体中。将1级表达载体转化至根癌农杆菌(GV3101 pMP90)中并用于在本氏烟叶中瞬时表达。
SEQ ID NO:27:sgRNA转录单元
在如上所示的SEQ ID NO:27的多核苷酸中,格式具有以下含义:
SlU6:来自番茄的U6启动子,/>sgRNA支架(SpCas9),AtU6-26-t67:来自拟南芥(Arabidopsis thaliana)的U6启动子,/>
SEQ ID NO:28:sgR-PGK1(如SEQ ID NO:27中所示)的间隔子:
AGCCACATATCCACTGGTGG
SEQ ID NO:29:sgR-PGK2的间隔子(可选间隔子,其可替代SEQ ID NO:27中的SEQID NO:28间隔子):
CCACTGATTATGCTGATCAC
实施例3:通过在本氏烟叶中瞬时表达的经由基因靶向的翻译GUS与NbPGK的融合
为了验证产生的SpCas9-核酸外切酶变体的效率,我们通过农杆菌介导的瞬时表达在本氏烟(Nb)中表达了所有组分(SpCas9、sgRNA、供体片段)。成功的基因靶向应导致可测量的GUS活性。
将相应的农杆菌菌株在28℃下在平板上生长2天(具有相应抗生素的LB琼脂)。将生长的细菌重悬于AIM(农杆菌渗透培养基)中,至Cas9变体和sgRNA/供体的光密度(OD600)分别为0.1和0.2。将农杆菌菌株的稀释液等量混合在一起(1:1:1:1,Cas9-构建体:sgR-PGK1:sgR-PGK2:供体)。使用无针头注射器将农杆菌悬液接种到Nb叶中。接种后4天,收集叶样品,并根据Kay等,2007(Kay等.,2007)分析定量(2个叶盘,0.9cm)和定性(1个叶盘,0.9cm)的GUS活性。单独接种由肌动蛋白2的组成型启动子驱动的GUS构建体,并用作阳性对照。由不同的Cas9-核酸外切酶融合体产生的GUS活性是相对于Act2p-GUS活性的(图4A)。与Cas9相比,Cas9-4LF2-UL12、UL12-2-4LF2-Cas9和T7-4LF2-Cas9的融合体导致GUS活性的最高增加(图4A)。当使用dCas9时检测到低GUS活性,其与没有任何核酸酶的对照的GUS活性(背景活性)相当。用VHX显微镜(Keyence;图4B)拍摄染色的叶盘的照片。叶盘和定量GUS数据来自相同的实验,将其重复两次,结果相似。
实施例4:通过对平末端发夹寡核苷酸的体外加工来分析核酸外切酶活性
为了测定T5和T7噬菌体核酸外切酶对平末端dsDNA的活性,我们使用了如(Nikiforov,2014)中所述的具有连接的荧光团(Oregon Green)的发夹寡核苷酸,不同的是5’端被磷酸化。通过堆叠至平末端位点处的G-C碱基对,淬灭荧光团(图5)。核酸外切酶对平末端的加工释放荧光团,防止淬灭,并且可以通过荧光来测量(激发495nm,发射520nm)。
反应(在100μL中):
10μL缓冲液NEB4
2.5μL核酸外切酶(1:5稀释;5U)
xμL寡核苷酸(调节至所需终浓度(5至20μM)
2μL DTT(250mM)
yμL H2O至100μL
T5和T7核酸外切酶购自New England Biolabs(目录号分别为M0363和M0263)。所述寡核苷酸具有核苷酸序列:GGAAGGGCCCGCTGACAGTTTTTCTGTCAGCGGGCCCTTCC(SEQ ID NO:37)。它在5’末端被磷酸化,并在图5所示的位置携带Oregon Green荧光染料。
将所有组分在96孔板中在冰上混合以防止引发反应。在将多孔板置于荧光读取仪(TECAN Spark Fusion读板仪)中时开始反应。测量在27℃进行30分钟。
为了计算T7核酸外切酶的动力学参数,使用四种不同浓度的发夹寡核苷酸(5、10、15和20μM)。减去无酶对照的荧光值,并通过测量荧光增加的斜率来计算反应的初始速度(V0),所述荧光增加在最初300至400秒期间是线性的(参见图5)。然后使用Michaelis-Menten方程的Lineweaver-Burk线性表示法,用该组V0值计算Km和Kcat值。应当提及,由此计算的动力学参数对于该测定是明显且特异的,因为核酸外切酶是加工酶,其一个接一个地切割核苷酸。
T5和T7的比较(图5)清楚地表明,T7核酸外切酶降解平末端寡核苷酸要比T5核酸外切酶快得多。
实施例5:C-末端Cas12a(D156R)核酸外切酶融合体的设计
与实施例2中所述类似地设计构建体。组装的构建体的一般结构是:T-DNA右边界RB,2×35S短,翻译增强子,NLS-LbCas12a(D156R)-NLS(内含子),接头-核酸外切酶,tOCS,T-DNA左边界LB。
用于C-末端融合体的Cas12a模块AATG_NLS-LbCas12a(D156R)-NLS(内含子)_TTCG的多核苷酸序列显示于以下SEQ ID NO:38:
/>
/>
/>
/>
在上方示出的SEQ ID NO:38的多核苷酸中,格式具有以下含义:NLS-LbCas12a(D156R)-NLS,INTRON,表3:用于C-末端标记LbCas12a(LbCas12a(D156R)i-接头-Exo)的模块的1级组装
*表示终止密码子(如上文)。
首先将任何给定的接头-核酸外切酶组合从1级组装成0级。将相应的接头-核酸外切酶融合体(0级)与其它0级模块(2x35Ss_Ω增强子_NLS-LbCas12a(D156R)i-NLS_接头-exo_tOCS)组合,并组装成GG相容的MoClo 1级T-DNA载体,用于植物中农杆菌介导的瞬时表达(包括LB和RB序列,用于T-DNA递送)
实施例6:N-末端Cas12a(D156R)核酸外切酶融合体的设计
与如实施例2中所述相似地设计构建体。核酸外切酶和接头可以如实施例2中所述。待组装的构建体的一般结构是:T-DNA右边界-RB,2×35S短,翻译增强子,核酸外切酶-接头,NLS-LbCas12a(D156R)-NLS(内含子),tOCS,T-DNA左边界LB。
用于N-末端融合体的Cas12a模块AGGT_NLS-Cas12a(D156R)-NLS(内含子)_GCTT的多核苷酸序列显示于以下SEQ ID NO:39:
/>
/>
/>
/>
在如上所示的SEQ ID NO:39的多核苷酸中,格式具有以下含义:NLS-LbCas12a(D156R)-NLS(内含子)
表4:用于N-末端标记的LbCas12a(Exo-接头-LbCas12a)的模块的1级组装
首先将任何给定的核酸外切酶-接头组合从1级组装成0级。将相应的核酸外切酶-接头融合体(0级)与其它给定的0级模块(2x35Ss_Ω增强子_核酸外切酶-接头_NLS-SpCas9i-NLS_tOCS)组合,并组装成GG相容的MoClo 1级T-DNA载体,用于植物中农杆菌介导的瞬时表达(包括LB和RB序列,用于T-DNA递送)。
实施例7:使用GFP的转基因本氏烟烟草花叶病毒(TMV)报告株系
除了上述基于GUS的报告系统外,还产生了基于GFP的病毒报告系统。图6中给出了使用GFP的基于TMV的HDR报告系统的示意图。本氏烟植物的基因组是转基因的,并且包含含有使用GFP的基于TMV的HDR报告系统的插入盒。当来自供体核酸(供体)的供体序列成功地且正确地整合到植物基因组中时,该报告系统产生GFP荧光。存在于插入盒中的TMV的基因组被修饰:(i)编码衣壳蛋白(CP)的序列被交换为编码GFP的序列,和(ii)复制酶RdRP含有被76bp attB位点取代的3.8kb缺失。MP是完整的,并且促进病毒从细胞到细胞的传播(信号传输),这允许肉眼观察衍生自单细胞HDR事件的GFP表达(一个GFP点等于一个单细胞HDR事件)。RdRP对于病毒复制和从亚基因组启动子产生次级转录物(MP和GFP)是必需的。CP与GFP的交换阻止了病毒基因组包装到病毒颗粒(非感染性病毒)中,并允许高的RdRP依赖性GFP表达率。仅当通过HDR精确插入所提供的供体DNA而修复被破坏的RdRP时,才发生病毒复制(GFP表达)。使用四个Cas9 sgRNA靶标,其对于attB位点是特异的,以诱导PAM-in(PAM-In1和PAM-In2 sgRNA的组合)或PAM-out(PAM-out1和PAM-out2 sgRNA的组合)方向的DNA双链断裂(DSB)。经由提供供体核酸(供体)的通过同源介导修复(HDR)的DSB修复导致TMV复制酶(RdRP)的重构和随后的GFP产生(作为HDR读出)。详细内容见图6。在下列实施例中,该报告系统用于测量HDR频率。
实施例8:与核酸外切酶融合的Cas9导致植物中增加的HDR
使用来自实施例7的转基因本氏烟TMV报告系分析HDR效率。如实施例3所述,使用无针头注射器,通过农杆菌介导的瞬时转化,将携带表达(i)Cas9核酸外切酶融合蛋白和(ii)sgRNA以及(iii)供体DNA的转录单元的T-DNA瞬时递送至本氏烟植物的叶中。接种后3或6天(dpi),在手持灯(来自UVP的Blak-Ray B100A型)产生的UV光下监测GFP荧光,并使用数码相机(Canon EOS700D)拍照。将与核酸外切酶融合的Cas9与作为对照的WT Cas9(表示为“Cas9”)和失活的Cas9(表示为“dCas9”)进行比较。使用4LF2接头将核酸外切酶融合至Cas9的C-末端(Cas9-4LF2-X)。在图7中,UL12和T7与Cas9的融合导致最强的HDR增加。3dpi后不久,用融合UL12的Cas9可观察到高比率的HDR事件。6dpi后,GFP荧光在表达与UL12和T7融合的Cas9的组织中饱和。6dpi Cas9表达仅导致很少的HDR事件。参见图7。
实施例9:通过GFP点计数来定量HDR事件
为了定量HDR事件,如实施例8所述,在3dpi和6dpi使用数码相机拍摄来自三株被接种植物的本氏烟叶的图片,同时用手持UV灯在黑暗中照射叶子。在每片叶上以秩乱位置将所有构建体接种在一单片叶上。为了评估相当的GFP点计数,使用与每个接种点匹配的相同大小的区域来人工计数这些区域内的GFP荧光点(接种点;GFP点等于HDR事件)。显示GFP信号的饱和(未定义-nd)。表达Cas9的组织的GFP点数量(6dpi)不超过表达Cas9-UL12的组织的GFP点数量(3dpi)。参见图8。
实施例10:通过PCR对HDR事件进行基因分型
在4dpi从表达双重PAM In sgRNA(dual PAM In sgRNA)、供体核酸(供体)和相应的Cas9核酸外切酶融合体的组织中分离本氏烟叶的基因组DNA。细节描述于图9中。引物对P1(由引物1F和1R组成)用于监测中靶(on-target)NHEJ事件(小缺失)。引物对P2(2F和2R)和P3(3F和3R)分别用于扩增HDR连接的上游和下游。Cas9导致sgRNA靶位点侧翼的片段缺失(较小条带)。该片段的强度与GFP点数目负相关。对于融合UL12、T5和T7的Cas9变体,两侧均可证实HDR事件的连接。测序证实了精确的修复(数据未显示)。细节见图9。
实施例11:与Cas9融合的Exo1(Exo1ΔC)的核酸外切酶结构域仅略微增加HDR效率
使用根据实施例7和8的转基因本氏烟TMV报告系分析HDR效率。在5dpi监测GFP荧光。将融合核酸外切酶的Cas9与作为对照的WT Cas9和失活的Cas9(dCas9)进行比较。X-4LF2-Cas9显示,使用4LF2接头将核酸外切酶融合至Cas9的N-末端。与Cas9相比,Exo1的融合Cas9的核酸外切酶结构域(Exo1ΔC)仅导致HDR事件的轻微增加。融合UL12和T7的Cas9的表现优于融合Exo1ΔC的Cas9。参见图10。
实施例12:HDR中UL12-同源物的比较
在图11的上图中给出了所分析的UL12-同源物的氨基酸(aa)序列同一性。使用实施例7和8的转基因本氏烟TMV报告系对HDR效率进行分析。在图11中,具有50%或更高序列同一性的UL12同源物,例如PiE(SEQ ID NO:44)或PapE(SEQ ID NO:43)显示了与UL12(SEQID NO:32)或UL12-2(SEQ ID NO:33)相当或更高的HDR-比率。图12提供了对图11的定量GFP点计数分析。GFP点计数如实施例9所述进行。图12表明,与Cas9融合的PapE(SEQ ID NO:43)和PiE(SEQ ID NO:44)显示出比UL12和UL12-2增加的HDR效率。序列同一性低于49%的UL12同源物显示出比UL12或UL12-2更低的HDR-比率。参见图11、12、15和17。UL12=SEQ ID NO:32,UL12-2=SEQ ID NO:33,PapE=SEQ ID NO:43,PiE=SEQ ID NO:44,AB4P=SEQ ID NO:69,MD5=SEQ ID NO:36,Dumas=SEQ ID NO:35,BGLF5=SEQ ID NO:34,SOX=SEQ ID NO:68。
实施例13:HDR中T7-同源物的比较
在图13的上图中给出了所分析的T7-同源物的氨基酸(aa)序列同一性。使用实施例7、8和12的转基因本氏烟TMV报告系对HDR效率进行分析。T7同源物ME15(SEQ ID NO:45)(87%序列同一性)和SpiPh(SEQ ID NO:46)(65%序列同一性)显示出与T7(SEQ ID NO:30)相比增加的HDR-比率。T7同源物ME15(SEQ ID NO:45)显示出与UL12(SEQ ID NO:32)和UL12-2(SEQ ID NO:33)相当的HDR效率,并且在图13中和图14的GFP点计数分析中高于T7。图14提供了对图13的定量GFP点计数分析。如实施例9所述进行GFP点计数。在图13和14中,T7同源物SpiPh(SEQ ID NO:46)显示出比T7更高的HDR效率。也参见图16和17。UL12/UL12-1=SEQ ID NO:32,UL12-2=SEQ ID NO:33,T7=SEQ ID NO:30,ME15/IME15=SEQ ID NO:45,O3-12/YerO3-12=SEQ ID NO:70,SpiPh=SEQ ID NO:46,PHBO2=SEQ ID NO:71,RaTL1/RaITL1=SEQ ID NO:72。
实施例14:使用平末端DNA底物比较单体核酸外切酶的核酸外切酶活性
参见图18。(A)使用荧光团标记的发夹寡聚物来评估对平末端DNA的核酸外切酶活性。荧光团通过堆叠至平面末端GC-键而淬灭。核酸外切酶的5’至3’切割导致荧光团的释放和随后的荧光。(B)根据实施例4进行测定,将标记的寡聚物(浓度为10μM)与不同的核酸外切酶在28℃下温育大于30分钟。T5(NEB;#M0363)、T7(NEB;M0263S)、重组的His-标记的UL12已经从大肠杆菌中纯化。图18中荧光的快速增加表明,与T5相比,UL12和T7具有高的核酸外切酶活性和对平末端DNA底物的偏好。参见图18。UL12=SEQ ID NO:32,T7=SEQ ID NO:30,T5=SEQ ID NO:31。
实施例15:使用平末端DNA底物比较单体(T5和T7)与三聚(LaExo)核酸外切酶的核 酸外切酶活性
参见图19。(A)使用荧光团标记的发夹寡聚物来评估对平末端DNA的核酸外切酶活性。荧光团通过堆叠到平面末端GC-键而淬灭。核酸外切酶的5’至3’切割导致荧光团的释放和随后的荧光。(B)根据实施例4进行测定,并进行如下小的改变:来自NEB的LaExo需要其自己的特异性缓冲液(LaExo缓冲液)。使用NEB缓冲液4进行T5-exo和T7-exo的实验,使用LaExo-特异性缓冲液(NEB)进行LaExo的实验。在同一96孔板中同时进行反应。
反应T5-Exo和T7-Exo(在100μL中):
10μL缓冲液NEB4
1μL核酸外切酶(T5或T7)(10U)
xμL寡核苷酸(调节至所需终浓度(10μM)
2μL DTT(250mM)
yμL H2O至100μL
反应LaExo(在100μL中)
10μL缓冲液LaExo
2μL核酸外切酶(LaExo)(10U)
xμL寡核苷酸(调节至所需终浓度(10μM)
2μL DTT(250mM)
yμL H2O至100μL
将标记的寡聚物与不同的核酸外切酶在28℃下温育大于30分钟。T5(NEB;#M0363)、T7(NEB;M0263S)、LaExo(NEB;M0262S)。图19中荧光的快速增加表明高的核酸外切酶活性和对平末端DNA底物的偏好。T7和LaExo(λ核酸外切酶)显示出对平末端DNA底物的核酸外切酶活性比T5高(参见图19)。然而,如实施例16和图20中所证明的,三聚体λ核酸外切酶(LaExo)与Cas9的融合显示出比Cas9与UL12的融合更低的HDR效率。
实施例16:共表达核定位的LaExo(称为N-LaExo或LaExo-N)不能增加融合Cas9的 LaExo的活性
使用前述的转基因本氏烟TMV报告系和方法来分析HDR效率。在接种后5天(dpi)监测GFP荧光。三聚LaExo(λ核酸外切酶)与Cas9的融合显示出比UL12与Cas9的融合更低的HDR效率。核定位的LaExo(通过核定位信号(NLS)进行核定位;称为N-LaExo或La-Exo-N)的共表达不增加HDR效率。参见图20。N-LaExo和LaExo-N分别表示核定位信号(NLS)融合至LaExo的N-或C-末端。
实施例17:最小同源臂长度的测定
使用前述的转基因本氏烟TMV报告系和方法来分析HDR效率。在接种后第5天(dpi)监测GFP荧光。如所示,供体核酸在同源臂(HA)长度上不同(1000bp、500bp、250bp、100bp)。250bp的最小同源臂长度显示HDR效率略微增加。参见图21。
实施例18:Cas12a-核酸外切酶融合导致植物中HDR增加
使用前述的转基因本氏烟TMV报告系和方法来分析Cas12a-核酸外切酶融合蛋白的HDR效率。在5dpi监测荧光。WT Cas12a和无核酸内切酶用作对照。注意,Cas12a产生“交错”切割,其在双链DNA上具有悬突,这与Cas9产生的“平末端”切割不同。参见图22。还参见实施例19。
实施例19:通过GFP点计数估计Cas12a核酸外切酶融合蛋白的HDR效率
根据实施例9中所述的方法定量来自实施例18/图22的HDR事件。为了定量HDR事件,在3dpi拍摄来自三株被接种植物的本氏烟叶的图片。将所有构建体接种在一单片叶上,在每株植物中的位置不同。为了评估相当的GFP荧光点数目,在相同大小的限定区域中进行计数。与融合Cas9的核酸外切酶不同的是,融合Cas12a的T5导致与融合Cas12a的T7相比增加的HDR。融合Cas12a的UL12导致HDR效率的最高增加。参见图23。dCas12a指失活的Cas12a。
实施例20:对Cas9-和Cas12a-核酸外切酶融合蛋白的NHEJ切割模式的比较分析
参见图24。通过农杆菌介导的表达(如实施例7和8中所述),在转基因本氏烟TMV-报告系的叶中瞬时表达在存在(+D-供体DNA)和不存在供体DNA的情况下的相应的Cas9-和Cas12a-核酸外切酶融合蛋白和sgRNA(Cas9)/crRNA(Cas12a)(PAM-in或PAM-out)。在4dpi从表达相应核酸酶-核酸外切酶融合蛋白和sgRNA/crRNA的植物叶组织中分离基因组DNA,并用作模板,用于使用引物对P1(引物1F和1R)进行中靶扩增。Cas9介导的切割导致双重sgRNA靶位点侧翼的片段缺失(图24中额外的更小的条带;指示NHEJ;例如PAM-In1和PAM-In2之间的44bp缺失)。Cas12a不导致明显的缺失,表明缺失的范围更宽或通常减少的NHEJ介导的缺失。Cas9-核酸外切酶融合体导致更宽的缺失大小,导致可见的模糊带而不是明显的条带(图24)。降低的精确缺失频率与增加的HDR相关。也参见实施例21和22。
这清楚地表明,UL12或T7exo的融合允许在NHEJ介导的DNA损伤降级(relegation)之前进行5’至3’切割。
实施例21:使用Cas9-核酸外切酶融合蛋白进行扩增子测序
参见图25A-D。使用来自实施例20/图24的具有5’衔接子(5’adapter)的引物对P1,将来自实施例20的相同基因组DNA(无供体的Cas9和Cas9-exo融合蛋白)用作模板进行中靶扩增。衔接子充当扩增子测序的索引引物(index primer)的结合锚。Cas9介导的切割主要导致切割位点之间的精确缺失。Cas9介导的PAM-out方向的切割也导致显著数目的2nt小缺失(每个切割位点1nt移位)。Cas9-核酸外切酶融合体通常导致更大的缺失。不同的融合核酸外切酶之间的最大缺失大小是相似的,而UL12-和T7-融合的Cas9显示更高的频率。参见图25A-D。
实施例22:使用Cas12a-核酸外切酶融合蛋白进行扩增子测序
使用具有5’衔接子的引物对P1,将来自实施例20的基因组DNA(无供体的Cas12a和Cas12a-核酸外切酶融合蛋白)用作模板进行中靶扩增。衔接子充当扩增子测序的索引引物的结合锚。通常,Cas12a导致双重crRNA切割位点之间的片段缺失和几个较小的中靶缺失。与Cas12a WT相比,核酸外切酶与Cas12a的融合体导致增加的具有较大缺失的插入缺失(indels)。参见图26A-D。
实施例23:所测试的与UL12同源的碱性核酸外切酶的序列比对。
将在图15中鉴定为与UL12同源的核酸外切酶的氨基酸序列进行比对。所述比对在图27A至27C中给出。鉴定了对在实施例12和图11-12中显示高HDR效率的核酸外切酶特异的序列基序/序列区段。核酸外切酶PiE、PapE、UL12-1和UL12-2在实施例12中显示最高的HDR效率,并选择它们用于分析。该分析鉴定出PiE(SEQ ID NO:44)、PapE(SEQ ID NO:43)、UL12-1(SEQ ID NO:32)和UL12-2(SEQ ID NO:33)均含有SEQ ID NO:56(PXPLMXFXEAATQXQXXXQLWXLLRRGLXTAXTLXWGXXGPXFXXXWLXXXXXXXXXXXXXAXXFGRXNEXXARXXLFRYCVGRAD)的氨基酸序列作为共同的序列基序/序列区段,其中第2位的X优选为R或K,第8位的X优选为F或Y,第17位的X优选为D或E,第35位的X优选为R或K。SEQ ID NO:56和本申请中包含的所有其它氨基酸序列区段中的X均代表标准遗传密码中的20种氨基酸中的任何一个,其中X位必须存在氨基酸残基,因为X不允许不存在氨基酸残基。因此,SEQ ID NO:56中的X代表可变的氨基酸残基,而SEQ ID NO:56中的非X残基固定为单字母密码种所示的残基。
从图27A和27B中可以明显看出,可以鉴定UL12-组特异性基序I和II。这些基序存在于PiE、PapE、UL12-1和UL12-2中,但不存在于BGLF5、SOX、MD5、DUMAS和AB4P中。特别地,由SEQ ID NO:54(FRYCVGRAD)组成的UL12-组特异性基序II将PiE、PapE、UL12-1、UL12-2与BGLF5、SOX、MD5、DUMAS、AB4P区分开来。由于UL12-组特异性基序I和II也包含在SEQ ID NO:56中,SEQ ID NO:56也将能够把PiE、PapE、UL12-1、UL12-2与BGLF5、SOX、MD5、DUMAS、AB4P区分开来。这意味着SEQ ID NO:56存在于实施例12/图11-12中所有显示高HDR效率的核酸外切酶中,并且不存在于实施例12/图11-12中所有显示低HDR效率的核酸外切酶中。因此,SEQID NO:56可解释为什么PiE、PapE、UL12-1、UL12-2与BGLF5、SOX、MD5、DUMAS、AB4P相比显示出更高的HDR效率。
实施例24:对PapE特异的氨基酸序列区段
在实施例12/图11-12中,PapE(SEQ ID NO:43)显示出特别高的HDR效率。将与PapE同源的氨基酸序列与PapE(SEQ ID NO:43)进行比对,以鉴定对PapE-组核酸外切酶特异的序列基序/序列区段。如图28A和28B所示,可以鉴定对PapE和PapE-组核酸外切酶特异的基序(PapE-组特异性基序I至IV)。PapE-组特异性基序I至IV将PapE或PapE-组核酸外切酶与图27A至27C中示出的UL12-1、UL12-2、PiE、BGLF5、SOX、MD5、DUMAS和AB4P区分开来。图28A和28B中的PapE-组特异性基序I、II、III和IV包含在SEQ ID NO:47(APAESVHACGVL)、SEQ IDNO:48(APAASVHACGVL)、SEQ ID NO:49(AKYAFDPADAGXXVVAAHRRL)、SEQ ID NO:50(APASAPAAVRAA)和SEQ ID NO:51(LIITPVRXDAA)中的至少一个中。因此,选自SEQ ID NO:47、48、49、50和51的任一者是对PapE(SEQ ID NO:43)或PapE-组特异性核酸外切酶特异的氨基酸区段。
实施例25:所测试的T7核酸外切酶同源物的序列比对
如图29所示,将与T7同源的核酸外切酶的氨基酸序列进行比对。鉴定出在SpiPhage、T7和ME15中存在,但在RalTL1、PaPHBO2或YerO3-12中不存在的氨基酸序列基序/序列区段(T7核酸外切酶组基序I和II)。由于SpiPhage、T7和ME15在实施例13/图13-14中显示出比RalTL1、PaPHBO2或YerO3-12更高的HDR效率,因此T7核酸外切酶组特异性基序I和II与SpiPhage、T7和ME15的更高的HDR效率相关。特别地,ME15(SEQ ID NO:45)显示出所测试的T7同源物的最高HDR效率(图14)。鉴定了ME15特异性基序I和II,其存在于ME15(SEQ IDNO:45)的氨基酸序列中,但不存在于T7(SEQ ID NO:30)的氨基酸序列中。ME15特异性基序I和II包含在SEQ ID NO:52(APTESETLWDCI)和SEQ ID NO:53(ILRFNDYNIDT)的至少一个中。因此,SEQ ID NO:52和/或53的序列区段与ME15与T7相比增加的HDR频率相关,并允许区分ME15与T7核酸外切酶。另一方面,SEQ ID NO:98(WEEEIWHRCCDHAKAR)的氨基酸序列为对T7、SpiPhage和ME15特异的序列基序。
参考
Kay,S.,Hahn,S.,Marois,E.,Hause,G.and Bonas,U.(2007)A bacterialeffectoracts as a plant transcription factor and induces a cell sizeregulator.Science,318,648-651.
Nikiforov,T.T.(2014)Generic assay format for endo-and exonucleasesbasedon fluorogenic substrates labeled with single fluorophores.Anal Biochem,461,67-73.
Goldstein JN,Weller SK.The exonuclease activity of HSV-1UL12 isrequiredfor in vivo function.Virology.1998May 10;244(2):442-57.doi:10.1006/viro.1998.9129.PMID:9601512.
Buisson M,Géoui T,Flot D,Tarbouriech N,Ressing ME,Wiertz EJ,BurmeisterWP.A bridge crosses the active-site canyon of the Epstein-Barrvirus nuclease withDNase and RNase activities.J Mol Biol.2009Aug 28;391(4):717-28.doi:10.1016/j.jmb.2009.06.034.Epub 2009Jun 16.PMID:19538972.
Ferreira PCG,Hemerly AS,de Almeida Engler J,Van Montagu M,Engler G,InzéD(1994)Developmental expression of the Arabidopsis cyclin genecyc1At.PlantCell 6:1763-1774
Steffen JG,Kang IH,Macfarlane J,Drews GN.Identification of genesexpressedin the Arabidopsis female gametophyte.Plant J.2007;51:281–92.
Sprunck S,Rademacher S,Vogler F,Gheyselinck J,Grossniklaus U,DresselhausT.Egg cell-secreted EC1 triggers sperm cell activation duringdouble fertilization.Science.2012;338:1093–7.
蛋白和氨基酸序列的概述
SEQ ID NO:1:供体片段序列(PGK-GUS)的多核苷酸序列:上文给出的序列
SEQ ID NO:2:模块2x35Ss-Ω的多核苷酸序列
SEQ ID NO:3:用于N-末端融合体的模块AGGT_NLS-SpCas9i-NLS*_GCTT的多核苷酸序列
SEQ ID NO:4:编码接头2xLF2的多核苷酸
SEQ ID NO:5:编码接头4xLF2的多核苷酸
SEQ ID NO:6:编码接头XTEN144的多核苷酸
SEQ ID NO:7:编码接头XTEN40的多核苷酸
SEQ ID NO:8:编码接头XTEN16的多核苷酸
SEQ ID NO:9:编码用于N-末端核酸外切酶-Cas9融合体的T7核酸外切酶的多核苷酸
SEQ ID NO:10:编码用于N-末端核酸外切酶-Cas9融合体的T5核酸外切酶的多核苷酸
SEQ ID NO:11:编码用于N-末端核酸外切酶-Cas9融合体的UL12核酸外切酶的多核苷酸
SEQ ID NO:12:编码用于N-末端核酸外切酶-Cas9融合体的UL12-2核酸外切酶的多核苷酸
SEQ ID NO:13:编码用于N-末端核酸外切酶-Cas9融合体的BGLF5核酸外切酶的多核苷酸
SEQ ID NO:14:编码用于N-末端核酸外切酶-Cas9融合体的DUMAS核酸外切酶的多核苷酸
SEQ ID NO:15:编码用于N-末端核酸外切酶-Cas9融合体的MD5核酸外切酶的多核苷酸
SEQ ID NO:16:用于C-末端融合体的模块AATG_NLS-SpCas9i-NLS_TTCG的多核苷酸序列
SEQ ID NO:17:模块tOCS的多核苷酸序列
SEQ ID NO:18:编码接头2xLF2的多核苷酸
SEQ ID NO:19:编码接头4xLF2的多核苷酸
SEQ ID NO:20:编码接头XTEN144的多核苷酸
SEQ ID NO:21:编码接头XTEN40的多核苷酸
SEQ ID NO:22:编码接头XTEN16的多核苷酸
SEQ ID NO:23:编码用于C末端核酸外切酶-Cas9融合体的T7核酸外切酶的多核苷酸
SEQ ID NO:24:编码用于C末端核酸外切酶-Cas9融合体的T5核酸外切酶的多核苷酸
SEQ ID NO:25:编码用于C末端核酸外切酶-Cas9融合体的UL12核酸外切酶的多核苷酸
SEQ ID NO:26:编码用于C末端核酸外切酶-Cas9融合体的UL12-2核酸外切酶的多核苷酸
SEQ ID NO:27:sgRNA转录单元
SEQ ID NO:28:sgR-PGK1的间隔子
SEQ ID NO:29:sgR-PGK2的间隔子
SEQ ID NO:30:T7核酸外切酶的氨基酸序列
MALLDLKQFYELREGCDDKGILVMDGDWLVFQAMSAAEFDASWEEEIWHRCCDHAKARQILEDSIKSYETRKKAWAGAPIVLAFTDSVNWRKELVDPNYKANRKAVKKPVGYFEFLDALFEREEFYCIREPMLEGDDVMGVIASNPSAFGARKAVIISCDKDFKTIPNCDFLWCTTGNILTQTEESADWWHLFQTIKGDITDGYSGIAGWGDTAEDFLNNPFITEPKTSVLKSGKNKGQEVTKWVKRDPEPHETLWDCIKSIGAKAGMTEEDIIKQGQMARILRFNEYNFIDKEIYLWRP
SEQ ID NO:31:T5核酸外切酶的氨基酸序列
MSKSWGKFIEEEEAEMASRRNLMIVDGTNLGFRFKHNNSKKPFASSYVSTIQSLAKSYSARTTIVLGDKGKSVFRLEHLPEYKGNRDEKYAQRTEEEKALDEQFFEYLKDAFELCKTTFPTFTIRGVEADDMAAYIVKLIGHLYDHVWLISTDGDWDTLLTDKVSRFSFTTRREYHLRDMYEHHNVDDVEQFISLKAIMGDLGDNIRGVEGIGAKRGYNIIREFGNVLDIIDQLPLPGKQKYIQNLNASEELLFRNLILVDL
PTYCVDAIAAVGQDVLDKFTKDILEIAEQ
SEQ ID NO:32:UL12-1核酸外切酶的氨基酸序列
MESTVGPACPPGRTVTKRPWALAEDTPRGPDSPPKRPRPNSLPLTTTFRPLPP
PPQTTSAVDPSSHSPVNPPRDQHATDTADEKPRAASPALSDASGPPTPDIPLSP
GGTHARDPDADPDSPDLDSMWSASVIPNALPSHILAETFERHLRGLLRGVRA
PLAIGPLWARLDYLCSLAVVLEEAGMVDRGLGRHLWRLTRRGPPAAADAV
APRPLMGFYEAATQNQADCQLWALLRRGLTTASTLRWGPQGPCFSPQWLK
HNASLRPDVQSSAVMFGRVNEPTARSLLFRYCVGRADDGGEAGADTRRFIF
HEPSDLAEENVHTCGVLMDGHTGMVGASLDILVCPRDIHGYLAPVPKTPLA
FYEVKCRAKYAFDPMDPSDPTASAYEDLMAHRSPEAFRAFIRSIPKPSVRYF
APGRVPGPEEALVTQDQAWSEAHASGEKRRCSAADRALVELNSGVVSEVLL
FGAPDLGRHTISPVSWSSGDLVRREPVFANPRHPNFKQILVQGYVLDSHFPD
CPPHPHLVTFIGRHRTSAEEGVTFRLEDGAGALGAAGPSKASILPNQAVPIALI
ITPVRIDPEIYKAIQRSSRLAFDDTLAELWASRSPGPGPAAAETTSSSPTTGRSS
R
SEQ ID NO:33:UL12-2核酸外切酶的氨基酸序列
MAAAATPGAKRPADPARDPDSPPKRPRPNSLDLATVFGPRPAPPHPTSPGAP
GSHSPQSPPRGQPDGGAPGEKARPASPALSEASSGPPTPDIPLSPGGAHAIDPD
CSPGPPDPDPMWSASAIPNALPPHILAETFERHLRGLLRGVRSPLAIGPLWAR
LDYLCSLVVSLEAAGMVDRGLGRHLWRLTRRAPPSAAEAVAPRPLMGFYE
AATQNQADCQLWALLRRGLTTASTLRWGAQGPCFSSQWLTHNASLRLDAQ
SSAVMFGRVNEPTARNLLFRYCVGRADAGVNDDADAGRFVFHQPGDLAEE
NVHACGVLMDGHTGMVGASLDILVCPRDPHGYLAPAPQTPLAFYEVKCRA
KYAFDPADPGAPAASAYEDLMARRSPEAFRAFIRSIPNPGVRYFAPGRVPGP
EEALVTQDRDWLDSRAAGEKRRCSAPDRALVELNSGVVSEVLLFGVPDLER
RTISPVAWSSGELVRREPIFANPRHPNFKQILVQGYVLDSHFPDCPLQPHLVT
FLGRHRAGAEEGVTFRLEDGRGAPAGRGGAPGPAKASILPDQAVPIALIITPV
RVEPGIYRDIRRNSRLAFDDTLAKLWASRSPGRGPAAADTTSSSPTAGRSSR
SEQ ID NO:34:BGLF5核酸外切酶的氨基酸序列
MADVDELEDPMEEMTSYTFARFLRSPETEAFVRNLDRPPQMPAMRYVYLY
CLCKQIQEFSGETGFCDFVSSLVQENDSKDGPSLKSIYWGLQEATDEQRTVL
CSYVESMTRGQSENLMWDILRNGIISSSKLLSTIKNGPTKVFEPAPISTNHYFG
GPVAFGLRCEDTVKDIVCKLICGDASANRQFGFMISPTDGIFGVSLDLCVNVE
SQGDFILFTDRSCIYEIKCRFKYLFSKSEFDPIYPSYTALYKRPCKRSFIRFINSI
ARPTVEYVPDGRLPSEGDYLLTQDEAWNLKDVRKRKLGPGHDLVADSLAA
NRGVESMLYVMTDPSENAGRIGIKDRVPVNIFINPRHNYFYQVLLQYKIVGD
YVRHSGGGKPGRDCSPRVNIVTAFFRKRSPLDPATCTLGSDLLLDASVEIPVA
VLVTPVVLPDSVIRKTLSTAAGSWKAYADNTFDTAPWVPSGLFADDESTP
SEQ ID NO:35:DUMAS核酸外切酶的氨基酸序列
MARSGLDRIDISPQPAKKIARVGGLQHPFVKTDINTINVEHHFIDTLQKTSPN
MDCRGMTAGIFIRLSHMYKILTTLESPNDVTYTTPGSTNALFFKTSTQPQEPR
PEELASKLTQDDIKRILLTIESETRGQGDNAIWTLLRRNLITASTLKWSVSGPV
IPPQWFYHHNTTDTYGDAAAMAFGKTNEPAARAIVEALFIDPADIRTPDHLT
PEATTKFFNFDMLNTKSPSLLVGTPRIGTYECGLLIDVRTGLIGASLDVLVCD
RDPLTGTLNPHPAETDISFFEIKCRAKYLFDPDDKNNPLGRTYTTLINRPTMA
NLRDFLYTIKNPCVSFFGPSANPSTREALITDHVEWKRLGFKGGRALTELDA
HHLGLNRTISSRVWVFNDPDIQKGTITTIAWATGDTALQIPVFANPRHANFK
QIAVQTYVLSGYFPALKLRPFLVTFIGRVRRPHEVGVPLRVDTQAAAIYEYN
WPTIPPHCAVPVIAVLTPIEVDVPRVTQILKDTGNNAITSALRSLRWDNLHPA
VEEESVDCANGTTSLLRATEKPLL
SEQ ID NO:36:MD5核酸外切酶的氨基酸序列
MELGTKFPLSKSCKDESRKRKRGITIDCDSQILVGDEQSNSTKTKPYDEICENI
VPNYTFGNYILQKIDPNDCRHSLHPLYHRLFYIADVIKQGISEGSLLENKYSYILETEHILLDESRINNLSPSIHASRWCKMVESLTRLQANSELWHIFRQCLLTASSVKWSPNGTINTAGLITNDLPSRGQTESILFGTRNESLAKSLIAALCVSQSSVRTIDNSDKKNEFDNTTTGILDIEKYSCGLMIDIRTGMLGASLDMVMCNRNRHGILAPCLTDNNIETYEIKCRFKYAFCPEMRSELSQCYERLMATKTVQWFRRFLYTIDCPCVDYFRPDNYPRAKEALITSDDDWKVGHSAYHAAQSRIKCNEFEMHHLTLNKNMSSRVWLFGEPDLQTNSIYPLLWNTGERVLSIPIFANPRHQNFKQIFLQSYVASGYFGNRKIVPFLATFIGRHRRQTELGRCFSLFVDDTEASEVVYEITPEQAIPVILIITPVIIDNTFYVGIEESGYRAFGELVDHLWAKQCRI
SEQ ID NO:37:发夹核苷酸,基于Nikiforov(2014)
GGAAGGGCCCGCTGACAGTTTTTCTGTCAGCGGGCCCTTCC
SEQ ID NO:38:编码AATG_NLS-LbCas12a(D156R)-NLS(内含子)_TTCG(用于核酸外切酶的C-末端融合体)的多核苷酸
SEQ ID NO:39:用于N-末端融合体的Cas12a模块AGGT_NLS-Cas12a(D156R)-NLS(内含子)_GCTT的多核苷酸序列
SEQ ID NO:40:用于C-末端融合体的NLS-LbCas12a(D156R)-NLS的氨基酸序列
/>
SEQ ID NO 41:用于N-末端融合体的蛋白NLS-LbCas12a(D156R)-NLS(内含子)的氨基酸序列
GLQPKKKRKVGGVDSSAAATMSKLEKFTNCYSLSKTLRFKAIPVGKTQENID
NKRLLVEDEKRAEDYKGVKKLLDRYYLSFINDVLHSIKLKNLNNYISLFRKK
TRTEKENKELENLEINLRKEIAKAFKGNEGYKSLFKKDIIETILPEFLDDKDEI
ALVNSFNGFTTAFTGFFRNRENMFSEEAKSTSIAFRCINENLTRYISNMDIFEK
VDAIFDKHEVQEIKEKILNSDYDVEDFFEGEFFNFVLTQEGIDVYNAIIGGFVT
ESGEKIKGLNEYINLYNQKTKQKLPKFKPLYKQVLSDRESLSFYGEGYTSDE
EVLEVFRNTLNKNSEIFSSIKKLEKLFKNFDEYSSAGIFVKNGPAISTISKDIFG
EWNVIRDKWNAEYDDIHLKKKAVVTEKYEDDRRKSFKKIGSFSLEQLQEYA
DADLSVVEKLKEIIIQKVDEIYKVYGSSEKLFDADFVLEKSLKKNDAVVAIM
KDLLDSVKSFENYIKAFFGEGKETNRDESFYGDFVLAYDILLKVDHIYDAIRN
YVTQKPYSKDKFKLYFQNPQFMGGWDKDKETDYRATILRYGSKYYLAIMD
KKYAKCLQKIDKDDVNGNYEKINYKLLPGPNKMLPKVFFSKKWMAYYNPS
EDIQKIYKNGTFKKGDMFNLNDCHKLIDFFKDSISRYPKWSNAYDFNFSETE
KYKDIAGFYREVEEQGYKVSFESASKKEVDKLVEEGKLYMFQIYNKDFSDK
SHGTPNLHTMYFKLLFDENNHGQIRLSGGAELFMRRASLKKEELVVHPANS
PIANKNPDNPKKTTTLSYDVYKDKRFSEDQYELHIPIAINKCPKNIFKINTEVR
VLLKHDDNPYVIGIDRGERNLLYIVVVDGKGNIVEQYSLNEIINNFNGIRIKT
DYHSLLDKKEKERFEARQNWTSIENIKELKAGYISQVVHKICELVEKYDAVI
ALEDLNSGFKNSRVKVEKQVYQKFEKMLIDKLNYMVDKKSNPCATGGALK
GYQITNKFESFKSMSTQNGFIFYIPAWLTSKIDPSTGFVNLLKTKYTSIADSKK
FISSFDRIMYVPEEDLFEFALDYKNFSRTDADYIKKWKLYSYGNRIRIFRNPK
KNNVFDWEEVCLTSAYKELFNKYGINYQQGDIRALLCEQSDKAFYSSFMAL
MSLMLQMRNSITGRTDVDFLISPVKNSDGIFYDSRNYEAQENAILPKNADAN
GAYNIARKVLWAIGQFKKAEDEKLDKVKIAISNKEWLEYAQTSVKHKRPAA
TKKAGQAKKKKGSSEQ ID NO 42:用于N-末端和C-末端融合体的NLS-SpCas9-NLS的氨基酸序列
SEQ ID NO:43:PapE的氨基酸序列,PapE是一种来自Papiineα疱疹病毒2的脱氧核糖核酸酶(AHM96060.1)
MQTTTPVDPPSSRSENKRPPAPAGDEGAGPGRGLVDPARPPKRPRPDSLPLAAVCRPATPPSPGRPETPPTPDLPLSPRGTHGIAAPAGEPEPGSPSLLENYVPPAPDAGDAGSTPEPGWSAVAIPDALPSHVLAETFERHLCGLLRGVRRPLDVEPLRARLGYLFSLATALEEAGMVDRGVGGHLLRLSRRAAAADPRPLMAFFEAATQNQAESQLWGLLRRGLTTASTLKWGPRGPCFSPRWLKNNGDPRLDFQSSAVMFGRTNEPAARALLFRYCVGRADDRDAEGDDAGRRFVFCEPGDAPAASVHACGVLVDAHTGMVGASLDILVCPRDRHGCLNPAPGTPLRFYEVKCRAKYAFDPADAGDPVVAAHRRLVARRSPSDFRAFLRSIARPGVRYFAPGRVPGPEEALVSDHAVWADARAGDEKRRCSALDRALVGLNSGVASDVLLFGDPDPERRTVSPLAWSSGALVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHPHLVTFIGRHRTPDEEGLSLRLEDAPASAPAAVRAAAGASILPDQAVPVALIITPVRVDA
AIYDLIRRNSRLAFDETLARLWASRAPASDPAAAGETSS
SEQ ID NO:44:PiE的氨基酸序列,PiE是一种来自莱丽狐蝠相关α疱疹病毒的脱氧核糖核酸酶(BBM13184.1)
MTSTSSSSPLHPPSPQKRKSLSADGVAGLATPTKRARPHSLPPLVLHWSPPSP
SLLPQDGTFIFPSDDTKTRAAEETGPPAPQSQNAPVSPLGDKFSPACAPTSGLI
CSDSEETEDLVESTQVLSSEAATPLSRVEACDLPPPLMWSATSIPNALPPEIFT
KTFAKYLRKLLIGIDHPLDIEPLQARLGYLYSLMRALEGGGMLSEGLSRYLIC
QSRPQASRSKLPRPGLPVVNPKPLMRFFEAATQSQGDSQLWALLRRGLATA
TTLKWGSQGPAFAPQWLDGVVDQSAGGKGAAIAFGRINELTARTILFRYCV
GRADHTADADPEERFIFHQPDDMAEENVHTCGVLMDTHTGMVGASLDILV
CPRDQHGCLSPPPKYPLAFYEVKCRAKYAFDPMDLQSPTTLAYNQLMDRRS
PAAFRRFMHSISKPGVQFISHGNFPGPEEALVTTSSLWDQSSGAPTKKRRCPA
AEQALVKLNKSVTSSILLFGTPDLEQRTITPVRWDSGCLFYREALFANPRHPN
FRQILVQAYVLTSHFPDSPVSPHLVTFIGRQRTVAEEGVNFWLETPSPSVACP
PNHDPSPPPVSNRASIAADQAIPVAVIITPVRLDVAVYKVLQRNSRLAFDATL
AQLWASRTPKSVLAADETSSSPTTESP
SEQ ID NO:45:ME15的氨基酸序列
MAVLSLKEFRDIRKGCDDKGILVMDGDWLVFQAMSAAEFDASWEEEIWHR
CCDHAKARQILDDSIKSYSTRKKAWNGAPIVLAFTDTINWRKELVDPTYKEN
RKATKKPVGYFEFLDALFERPEFYCVREDMLEGDDVMGIIGSNPSAFGARKA
VIISCDKDFKTIPDCDFLWCTTGNILTQTQESADWWHLFQTIKGDITDGYSGI
AGWGDSAEGFLNAPFITEPQVSVLKSGKNKGQEVTKWVKRAPTESETLWDC
IVSIGAKAGMTEEDVIKQGQMARILRFNDYNIDTKEITLWRPSASF
SEQ ID NO:46:SpiPh(Spi-Phage)的氨基酸序列
MSIKSLAQFEAMGLSGKGLLVMDGDWLVFQAMSAAEFDASWEEEIWHRCC
DHAKARQILDQSISGYANRKKAWVGAPIVLAFTSDTNWRKDVLESYKSNRK
KTKKPVGYFEFLDAVFEDDRYICVREDNLEGDDVMGIIGSNPVPFGFKKAVL
VSCDKDFKTIPNCDFFHVTAGKLLEQNEKSADYWWMFQTIKGDITDGYSGI
AGMGETGALEFLNAPYKLVQETSLIKAGKNKGQERTVWTKRELEESDSLW
DAIKSMGAKAGMSEEDVRAQALVARILRHNDYNWIDREIYFPEI
SEQ ID NO:47:APAESVHACGVL
SEQ ID NO:48:APAASVHACGVL
SEQ ID NO:49:AKYAFDPADAGXXVVAAHRRL
SEQ ID NO:50:APASAPAAVRAA
SEQ ID NO:51:LIITPVRXDAA
SEQ ID NO:52:APTESETLWDCI
SEQ ID NO:53:ILRFNDYNIDT
SEQ ID NO:54:FRYCVGRAD
SEQ ID NO:55:PXPLMXFFEAATQ
SEQ ID NO:56:
PXPLMXFXEAATQXQXXXQLWXLLRRGLXTAXTLXWGXXGPXFXXXWLX
XXXXXXXXXXXXAXXFGRXNEXXARXXLFRYCVGRAD
SEQ ID NO:57:AGGT_NLS-LbCas12a(D156R)i-NLS*_GCTT(CDS;内含子;
/>
/>
/>
SEQ ID NO:58:编码用于N-末端核酸外切酶-Cas9融合体的AATG_SOX_TTCG核酸外切酶的多核苷酸
/>
SEQ ID NO:59:编码用于N-末端核酸外切酶-Cas9融合体的AATG_AB4P_TTCG核酸外切酶的多核苷酸
/>
SEQ ID NO:60:编码用于N-末端核酸外切酶-Cas9融合体的AATG_PapE_TTCG核酸外切酶的多核苷酸
/>
SEQ ID NO:61:编码用于N-末端核酸外切酶-Cas9融合体的AATG_PiE_TTCG核酸外切酶的多核苷酸
/>
SEQ ID NO:62:用于C-末端融合体的LbCas12a(D156R)模块AATG_NLS-LbCas12ai-NLS_TTCG的多核苷酸序列
/>
/>
/>
SEQ ID NO:63:编码用于C末端核酸外切酶-Cas9融合体的AATG_ME15*_GCTT核酸外切酶的多核苷酸(*表示终止密码子)
SEQ ID NO:64:编码用于C末端核酸外切酶-Cas9融合体的AATG_O3-12*_GCTT核酸外切酶的多核苷酸(*表示终止密码子)
SEQ ID NO:65:编码用于C末端核酸外切酶-Cas9融合体的AATG_SpiPh*_GCTT核酸外切酶的多核苷酸(*表示终止密码子)
SEQ ID NO:66:编码用于C-末端核酸外切酶-Cas9融合体的AATG_PhBO2*_GCTT核酸外切酶的多核苷酸(*表示终止密码子)
/>
SEQ ID NO:67:编码用于C末端核酸外切酶-Cas9融合体的AATG_RaTL1*_GCTT核酸外切酶的多核苷酸(*表示终止密码子)
SEQ ID NO:68:SOX核酸外切酶的氨基酸序列
MADVDELEDPMEEMTSYTFARFLRSPETEAFVRNLDRPPQMPAMRYVYLY
CLCKQIQEFSGETGFCDFVSSLVQENDSKDGPSLKSIYWGLQEATDEQRTVL
CSYVESMTRGQSENLMWDILRNGIISSSKLLSTIKNGPTKVFEPAPISTNHYFG
GPVAFGLRCEDTVKDIVCKLICGDASANRQFGFMISPTDGIFGVSLDLCVNVE
SQGDFILFTDRSCIYEIKCRFKYLFSKSEFDPIYPSYTALYKRPCKRSFIRFINSI
ARPTVEYVPDGRLPSEGDYLLTQDEAWNLKDVRKRKLGPGHDLVADSLAA
NRGVESMLYVMTDPSENAGRIGIKDRVPVNIFINPRHNYFYQVLLQYKIVGD
YVRHSGGGKPGRDCSPRVNIVTAFFRKRSPLDPATCTLGSDLLLDASVEIPVA
VLVTPVVLPDSVIRKTLSTAAGSWKAYADNTFDTAPWVPSGLFADDESTPSEQ ID NO:69:AB4P核酸外切酶的氨基酸序列
MDSSPVTYSGEPPYKLRRLSPSYPYVSKLRERCASKIETLSEGSARDSLEEED
VSEAMATGAFLATRLYLPSVLPQRITTLTFLDHFKKSRPLPNSDKRLNPIFYR
LAYIRDLVGEMELEGIVERGTASRLLGASSPAGFVAGTYTHARDLSKTMSLA
SVRDAVLAIEAQTRDQSESQLWALLRRGLATASTMKWGALGPQYHPQWCE
VSTNAKGIPNNPALQFGQTNERTARSLISALYVARSEAATPDLLVDPGCGQC
FVFDESASVPGDAYACGLLMDARTGVVGASLDMLVCDRDPSGVLSPHSTQT
TLDFFEIKCRAKYLFDPDLFSPVATAYANLLKHRTAVCLRKFLRSIKNPAVEY
FAPTSVPGATEALITCNSSWKPREVNETNRRCGDFDRDHIALNLDASSDVWL
FSEPDLESETITPARWDTGELALSVPVFANPRHPNFKQILVQAYVLSGHFPDH
QLRPFLVTFIGRHRKRCEEGKTFTICDRPEGSPYNLNEVVHSSCAIPILLFVTPVIVDREGCWEDIEIESLTAFNKTADAIWDSDSPADVSEPTSS
SEQ ID NO:70:O3-12(YerO3-12)核酸外切酶的氨基酸序列
MSLITLKDFAEMREGKPMEKGVLVMDGDWLVYQSMAAAEVETDWGDDIWTLECDHAKARSILDSAIESYRTRKKAWSDAMVVLAFTDDVNWRKVLVDETYKENRKATRKPVGYRDFLSKLWERDEFIHIKEDMLEGDDVMGIIGSGHEVFGFKKAVLVSCDKDFKTIPDVDFLWCTTGNILTQTKETADWWHLFQTIKGDMTDGYSGIPGWGDTAEAFLNDPFIVEPVESVLKSGKNKGQTVTKWVKRAPDATETLWDCIKSIGAKAGMTEQEIIKQGQMARILRFEEYNYIDKEIYLWTPRS
SEQ ID NO:71:PHBO2(PaPHBO2)核酸外切酶的氨基酸序列
MKFNLNELKDHLKPSKNLLVLDGDWLVFQAMSASEQEVDWGNDIWTLTCDHANALDILQNSIEAWTTRRSTWKNATIVVAFSDDTNWRKDLVDENYKTNRKKTRKPCGYRHFVDTYMEREDTICVVHPNLEADDCMGIIGSGGHHFGTQKVTLISIDKDFRTVPNCDFLWCSTNNILPQDQESADFWHLYQTIKGDITDGYSGIKGWGETAEDFLLDPYMLVRQESTLQSGKNKGQLKVQYVKADKGDNSLWDCIVSLGSKVDMSEEDIIKQARMARILRYSDYDFKNQQVILWTPDKLNQ
SEQ ID NO:72:RaTL1/RaITL1核酸外切酶的氨基酸序列
MSEQRLGLLIDADFLAFQAAANATRVVEWEDGVLTTWANMEDCTQAFLSSLEALTSRNRRWSTAKLIMCFTDDHNWRKDILPSYKANRSGVGKGKPIAYWKLVEWVHQNFECFVRPGLEGDDCMGILSTKPSLVGCTHTVIVSPDKDFKTVPGEFFWMTTGESLVLSEEDANYWHMYQTLMGDTTDGYAGCPGVGPTSAAEFLAEPYIAYEASKVLKSGPRKGEEVTYWTQRPLEAGEDLWDGIVSLFKKAGLTEEDALVQARVARILRASDFDFKAKTPILWERPPKEDVGTD
SEQ ID NO:73:图6底部显示的序列
CCTCTTTTCTCGAAGCCGCGGTGCGGGTGCCAGGGCGTGCCCTTGGGCTCCCCGGGCGCGTACTCCACC TCACCCATCTTTTGATCAACA
SEQ ID NO:74:TMV DNA供体的序列
/>
/>
/>
/>
T-DNA左边界;/>RdRP(内含子);MP(内含子);/> T-DNA右边界
SEQ ID NO:75:(AHM95988.1:1-617)
MQTTTPAGPPSSRAEHKRPPAPAGNEGAEPGRGVDESARPPKRPRPDSLPLAAVYRPATPPSPGRPETPPTPDLPLSPRGTHGLAAPAGEPEPESDPEPGSQSLLA
NYVPPAQDVGGADADAGSTPEPGWSAVAIPDALPPHVLAETFERHLCGLLR
GVRRPLDVEPLRARLGYLFSLATALEEAGMVDRGIGGHLLRLSRRAAAADP
RPLMAFFEAATQNQAESQLWGLLRRGLTTASTLKWGPRGPCFSPRWLKNN
DDPRLDFQSSAVMFGRTNEPAARALLFRYCVGRADDRDAEGDDAGRRFVF
CEPGDAPAASVHACGVLVDAHTGMVGASLDILVCPRDRHGCLNPAPGTPLR
FYEVKCRAKYAFDPADAGDPVVAAHRRLVARRSPADFRAFLRSIARPGVRY
FAPGRVPGPEEALVSDHAVWADARAGDEKRRCSALDRALVGLNSGVESDV
LLFGDPDPERRTVSPLAWSSGALVHREPIFANPRHPNFKQILVQAYVLASHFP
ECPLHPHLVTFIGRHRTPDEEGLSLRLEDAPASAPAAVRAAAGASILPDQAVP
VALIITPVRVDAAIYDLIRRNSRLAFDETLARLWASRAPASDPAAAGGTSS
SEQ ID NO:76:(AHM96060.1:1-607)
MQTTTPVDPPSSRSENKRPPAPAGDEGAGPGRGLVDPARPPKRPRPDSLPLA
AVCRPATPPSPGRPETPPTPDLPLSPRGTHGIAAPAGEPEPGSPSLLENYVPPA
PDAGDAGSTPEPGWSAVAIPDALPSHVLAETFERHLCGLLRGVRRPLDVEPL
RARLGYLFSLATALEEAGMVDRGVGGHLLRLSRRAAAADPRPLMAFFEAAT
QNQAESQLWGLLRRGLTTASTLKWGPRGPCFSPRWLKNNGDPRLDFQSSAV
MFGRTNEPAARALLFRYCVGRADDRDAEGDDAGRRFVFCEPGDAPAASVH
ACGVLVDAHTGMVGASLDILVCPRDRHGCLNPAPGTPLRFYEVKCRAKYAF
DPADAGDPVVAAHRRLVARRSPSDFRAFLRSIARPGVRYFAPGRVPGPEEAL
VSDHAVWADARAGDEKRRCSALDRALVGLNSGVASDVLLFGDPDPERRTV
SPLAWSSGALVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHPHLVTFIG
RHRTPDEEGLSLRLEDAPASAPAAVRAAAGASILPDQAVPVALIITPVRVDA
AIYDLIRRNSRLAFDETLARLWASRAPASDPAAAGETSS
SEQ ID NO:77:(AHM96133.1:134-621)
WSAVAIPDALPPHVLAETFERHLRGLLRGVRRPLDVEPLRARLGYLFSLATA
LEEAGMVDRGIGGHLLRLSRRAAAADPRPLMAFFEAATQNQAESQLWALL
RRGLTTASTLKWGPRGPCFSPRWLKNNDDPRLDFQSSAVMFGRTNEPAARA
LLFRYCVGRADDRDAEGDDAGRRFVFCEPGDAPAASVHACGVLVDAHTGM
VGASLDILVCPRDRHGCLNPAPGTPLRFYEVKCRAKYAFDPADAGDPVVAA
HRRLVARRSPADFRAFLRSIARPGVRYFAPGRVPGPEEALVSDHAVWADAR
AGDEKRRCSALDRALVGLNSGVASDVLLFGDPDPERRTVSPLAWSSGALVH
REPIFANPRHPNFKQILVQAYVLASHFPECPLRPHLVTFIGRHRTPDEEGLSLR
LEDAPASAPAAVRAAAGASILPDQAVPVALIITPVRVDAAIYDLIRRNSRLAF
DETLARLWASRAPASDPAAAGETSS
SEQ ID NO:78:(AHM96206.1:148-635)
WSAVAIPDALPPHVLAETFERHLRGLLRGVRRPLDVEPLRARLGYLFSLATA
LEEAGMVDRGIGGHLLRLSRRAAAADPRPLMAFFEAATQNQAESQLWALL
RRGLTTASTLKWGPRGPCFSPRWLKNNDDPRLDFQSSAVMFGRTNEPAARA
LLFRYCVGRADDRDAEGDDAGRRFVFCEPGDAPAASVHACGVLVDAHTGM
VGASLDILVCPRDRHGCLNPAPGTPLRFYEVKCRAKYAFDPADAGDPVVAA
HRRLVARRSPADFRAFLRSIARPGVRYFAPGRVPGPEEALVSDHAVWADAR
AGDEKRRCSALDRALVGLNSGVASDVLLFGDPDPERRTVSPLAWSSGALVH
REPIFANPRHPNFKQILVQAYVLASHFPECPLRPHLVTFIGRHRTPDEEGLSLR
LEDAPASAPAAVRAAAGASILPDQAVPVALIITPVRVDAAIYDLIRRNSRLAF
DETLARLWASRAPASDPAAAGETSS
SEQ ID NO:79:(AHM96279.1:2-616)
QTTTPADPPSSRSEHKRPLAPAGDEGAEPGRGPDDPTRPPKRPRPDSLPLAAV
YRPATPPSPGRPETPPTPDLPLSPRGTHGIAVPAGEPEPESDPEPGSQSLLANY
VPPAQDVGGADADAGSTPEPGWSAVAIPDALPPHVLAETFERHLRGLLRGV
RRPLDVEPLRARLGYLFSLATALEEAGMVDRGIGGHLLRLSRRAAAADPRPL
MAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPRWLKNNDDP
RLDFQSSAVMFGRTNEPAARALLFRYCVGRADDRDAEGDDAGRRFVFCEPG
DAPAASVHACGVLVDAHTGMVGASLDILVCPRDRHGCLNPAPGTPLRFYEV
KCRAKYAFDPADAGDPVVAAHRRLVARRSPSDFRAFLRSIARPGVRYFAPG
RVPGPEEALVSDHAVWADARAGDEKRRCSALDRALVGLNSGVASDVLLFG
DPDPERRTVSPLAWSSGALVHREPIFANPRHPNFKQILVQAYVLASHFPECPL
HPHLVTFIGRHRTPDEEGLSLRLEDAPASAPAAVRAAGASILPDQAVPVALII
TPVRVDAAVYDLIRRNSRLAFDETLARLWASRAPASDPAAAGETSS
SEQ ID NO:80:(AIA09505.1:11-623)
PPARAESKRPLAPEDEGGDRTRDPGGRSPKRARPNSLPLAAVYRPATPETPE
RPRTPPTPDLPLSPRGTRALAPPESRAETGPSSPASQSLLANYAPPPSPGDADG
GDDVDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRA
RLGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPGAANP
RPLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNN
HDLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREP
GEAPAESVHACGVLMDAHTGMVGASLDILVCPRDQHGCLNPTPGTPLRFYE
VKCRAKYAFDPADAGEPVVAAHRRLLATRSPVSFRAFVRSIARPGVRYFAP
GRVPGPEEALVSEHASWADVRAGDEKRRCSAFDRALVGLNSGVASDVLLF
GDPDLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECP
LHPHLVTFIGRHRTLDEEGVSLRLEDAPAAAPAAARAAIRGSILPDQAVPVAL
IITPVRIDAAVYEVIHRNSRLAFDETLARIWASRDPAPRPAAAGETS
SEQ ID NO:81:(ARS01649.1:11-594)
PVARSECKRPLVPDARGGSPKRARPDSLPLVAVHRPASPGTTPERPQTPDLPL
SPRGTHALAPPGSGPESAPPSPASQSLLANYVPPASPGSTPDAHADVEPGWSA
VAIPDALPPHVLAETFESHLRGLLRGVRRPLDVEPLRARLGYLFSLVTALEEA
GMVDRGVGGHLVRLSRRAGAALGAAAANPNPNPRPLMAFFEAATQNQAES
QLWALLRRGLTTASTLKWGPRGPCFSPQWLRINDDPRLDFQSSAVMFGRTN
EPAARALLFRYCVGRADDEEDEAGRRFVFREPGDAPAESVHACGVLVDAHT
GMVGASLDILVCPRDSHGCLNPAPGAPLRFYEVKCRAKYAFDPADAGEAVV
AAHRRLLATRSPVDFRAFVRSIARPGVRYFAPGRVPGPEEALVSEHAVWAD
ARAGEEKRRCSAFDRALVGLNSGVASDVLLFGNPDLERRTISPLVWTSGDV
VHREPIFANPRHANFKQILVQAYVLSSHFPECPLHPHLVTFIGRHRTLDEEGV
SLRLEDAPGAAPAAVRAAIRGSILPDQAVPVALIITPVRIDAAIYEEIRRNSRL
AFDETLARIWASR
SEQ ID NO:82:(ARS01723.1:30-627)
PKRARPDSLPLVAVYRPASPGTPERPQTPPTPDPPLPPRGASAPAPSGSGSESG
PPSPASQSLLANYAPPRSPGGDAGSPDAGSPDAGSPDAGSPDAGSPDAGSPD
AGVEPGWSAAAIPDALPPHVLAETFESHLRGLLRGVRRPLDVEPLRARLGYL
FSLVTALEEAGMVDRGIGGHLIRLSRRAGAANPRPLMAFFEAATQNQAESQL
WALLRRGLTTASTLKWGPRGPCFSPQWLRNNDDPRLDFQSAAVMFGRTNE
PAARALLFRYCVGRADNIGGGDEAGRRFVFREPGDAPAESVHACGVLVDAH
TGMVGASLDILVCPRDGHGCLNPAPGTPLRFYEVKCRAKYAFDPADAGEAV
VAAHRRLVATRSPVDFRAFVRSIARPGVRYFAPGRVPGPEEALVSDHASWA
DARAGDEKRRCSAFDRGLVGLNSGVVSDVLLFGEPDLERRTISPLVWTSGG
VVHREPIFANPRHPNFKQILVQAYVLSSHFPECPLRPHLVTFIGRHRTLDEEG
VSLRLEDAPAPAPAAARAAIRGSILPDQAVPVALIITPVRIDAAVYDVIRRNSR
LAFDETLARIWASRDPASRPAAAGETS
SEQ ID NO:83:(ARS01798.1:30-602)
PKRARPNSLPLVAVYRPASPGTPERPQTPPTPDPPLPPRGASAPAPSGSGSESG
PPSPASQSLLANYAPPRSPGGDAGSPDAGVEPGWSAAAIPDALPPHVLAETFE
SHLRGLLRGVRRPLDVEPLRARLGYLFSLVTALEEAGMVDRGIGGHLIRLSR
RAGAANPRPLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSP
QWLRNNDDPRLDFQSAAVMFGRTNEPAARALLFRYCVGRADDIGGGDEAG
RRFVFREPGDAPAESVHACGVLVDAHTGMVGASLDILVCPRDGHGCLNPAP
GTPLRFYEVKCRAKYAFDPADAGEAVVAAHRRLVATRSPVDFRAFVRSIAR
PGVRYFAPGRVPGPEEALVSDHASWADARAGDEKRRCSAFDRGLVGLNSG
VVSDVLLFGEPDLERRTISPLVWTSGGVVHREPIFANPRHPNFKQILVQAYVL
SSHFPECPLRPHLVTFIGRHRTLDEEGVSLRLEDAPAPAPAAARAAIRGSILPD
QAVPVALIITPVRIDAAVYDVIRRNSRLAFDETLARIWASRDPASRPAAAGET
S
SEQ ID NO:84:(ARS01873.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTP
KRPRTPPTPDLPLSPRGSRAAASPEFRSETGPSSPASQSLLADYAPPPSPGDAD
GNDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRA
RLGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANP
RPLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNN
HDLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADNERDEAGRRFVFREP
GEAPAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYE
VKCRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAP
GRVPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLF
GDPDLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECP
LHPHLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVAL
IITPVRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:85:(ARS01948.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGTRAAASPESRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:86:(ARS02023.1:12-624)
PARAESKRPLVLGDEDENGDRIRNPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLLPRGTRAAASPESRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:87:(ARS02681.1:12-624)
PARAEIKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGTRAAASPESRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRRPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:88:(ARS02756.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGTRAVASPESRSETGPSSPASQSLLADYAPPPTPGDADD
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSAFDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:89:(ARS02831.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGSRAAASPEFRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADNERDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:90:(ARS02906.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGTRAAASPESRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRRPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:91:(BAC58051.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGSRAAASPEFRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLRNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADNEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:92:(NP_851871.1:12-624)
PARAESKRPLVLGDEDENGDRIRDPHGRSPKRARPNSLPLAAVFRPATPGTPE
RPRTPPTPDLPLSPRGTRAAASPESRSETGPSSPASQSLLADYAPPPSPGDADG
NDTDSTVEPGWSAVAIPDALPPHVLAETFESHLRGLLRGVRGPLDVEPLRAR
LGYLFSLATALEEAGMVDRGLGGHLVRLSRRAPAALGAGAAGGPAAANPR
PLMAFFEAATQNQAESQLWALLRRGLTTASTLKWGPRGPCFSPQWLMNNH
DLRLDCQSAAVMFGRTNEPAARALLFRYCVGRADDEKDEAGRRFVFREPGE
APAESVHACGVLMDAHTGMVGASLDILVCPRDHHGCLNPAPGTPLRFYEVK
CRAKYAFDPADAGEPVVAAHRRLVATRSPVSFRAFVRSIARPGVRYFAPGR
VPGPEEALVSEHASWADVRAGDEKRRCSALDRDLVGLNSGVASDVLLFGDP
DLERRTISPLAWDSGELVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHP
HLVTFIGRHRTLDEEGVSLRLEDAPAAAPPAARAAIRGSILPDQAVPVALIITP
VRIDAAVYEVIRRNSRLAFDETLARIWASRDPVPRPAAADETS
SEQ ID NO:93:(YP_164454.1:69-615)
PPTPDLPLSPRGTHGVAAPAGEAEPRLPSPPSPASPSLLADYVPPAPDADADA
PDVEPWWSAVAIPDALPPHVQAETFERHLRGLLRGVRRPLDVEPLGARLGY
LFSLATALEEAGMVDRGLGGHLFRLSRRAAAADPRPLMAFFEAATQNQAES
QLWALLRRGLTTASTLKWGPRGPCFSPRWLKNNDDPRLDFPSSAVMFGRTN
EPAARALLFRYCVGRTDDRDAEGGEAGRRFVFCEPGDAPVAGVHACGVLV
DAHTGMVGASLDILVCPRDRHGCLSPTPGTPLRFYEVKCRAKYAFDPADAG
DPVVAAHRRLVARRSPADFRAFLRSIARPGVRYFAPGQVPGPEEALVSDHAV
WADARAGGEKRRCPALDRALVGLNSGVASDVLLFGDPDPERRTVSPLVWS
SGDLVHREPIFANPRHPNFKQILVQAYVLASHFPECPLHPHLVTFIGRHRTPD
EEGLSLRLGDAPASAPAAVRAAAGASILPDQAVPVALIITPVRVDAAVYDLIR
RNSRLAFDETLARLWASRAPASDPAVADGTSS
SEQ ID NO:94:(YP_443858.1:1-617)
MQTTTPAGPPSSRAEHKRPPAPAGNEGAEPGRGVDESARPPKRPRPDSLPLA
AVYRPATPPSPGRPETPPTPDLPLSPRGTHGLAAPAGEPEPESDPEPGSQSLLA
NYVPPAQDVGGADADAGSTPEPGWSAVAIPDALPPHVLAETFERHLCGLLR
GVRRPLDVEPLRARLGYLFSLATALEEAGMVDRGIGGHLLRLSRRAAAADP
RPLMAFFEAATQNQAESQLWGLLRRGLTTASTLKWGPRGPCFSPRWLKNN
DDPRLDFQSSAVMFGRTNEPAARALLFRYCVGRADDRDAEGDDAGRRFVF
CEPGDAPAASVHACGVLVDAHTGMVGASLDILVCPRDRHGCLNPAPGTPLR
FYEVKCRAKYAFDPADAGDPVVAAHRRLVARRSPADFRAFLRSIARPGVRY
FAPGRVPGPEEALVSDHAVWADARAGDEKRRCSALDRALVSLNSGVESDV
LLFGDPDPERRTVSPLAWSSGALVHREPIFANPRHPNFKQILVQAYVLASHFP
ECPLHPHLVTFIGRHRTPDEEGLSLRLEDAPASAPAAVRAAAGASILPDQAVP
VALIITPVRVDAAIYDLIRRNSRLAFDETLARLWASRAPASDPAAAGGTSSSEQ ID NO:95:GVLXDXHTGMVGASLD
SEQ ID NO:96:EVKCRAKYAFDPXD
SEQ ID NO:97:FANPRHPNFKQILVQXYVLXXHFP
SEQ ID NO:98:WEEEIWHRCCDHAKAR
SEQ ID NO:99:TMV转基因的序列
/>
/>
/>
/>
/>
T-DNA右边界;Act2p;ω增强子;RdRP(内含子);/> MP(内含子);GFP;3`UTR;tNOS;/>T-DNA左边界。/>
序列表
<110> 莱布尼茨植物生化研究所(LEIBNIZ-INSTITUT FÜR PFLANZENBIOCHEMIE)
<120> 用于编辑真核细胞的内源DNA的融合蛋白
<130> EAD-17863
<160> 99
<170> PatentIn version 3.5
<210> 1
<211> 4480
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 1: 供体片段(PGK-GUS) 序列的多核苷酸序列
<400> 1
ctgatgggct gcctgtatcg agtggtgatt ttgtgccgag ctgccggtcg gggagctgtt 60
ggctggctgg tggcaggata tattgtggtg taaacaaatt gacgcttaga caacttaata 120
acacattgcg gacgttttta atgtactggg gtggatgcag tgggccccac tctgtgaaga 180
caagagcgaa ttccatatgg gagccaattc tatctcctcc ttgagcaaca agagcttgat 240
gaagctttcc ttgctattgt gggtggttca aaggtttcat ccaagattgg agtgatcgaa 300
tcacttttag agaaatgtga tatattgctt ttgggtggag gaatgatctt taccttctac 360
aaggctcagg gtctttcagt tggttcctcc ttggttgagg aagataaact agaactcgct 420
acatcactcc tagagaaggc caaggcgaaa ggagtcagtc tcttgttacc atctgatgtt 480
gtgattgcag ataaatttgc tcctgatgca aacagcaagg tttgcatgct aagttttctc 540
atataaacct atctgacctt agagcttttt gctcttgaga ttctttagac tttccatctg 600
aaatctgtac tgtaattggc tcttaatatc agagtttgtt acttatggat tgtgttgaaa 660
atgcaatttt gttttggtta ctgcagattg tgccggcatc tgctatccca gatggttgga 720
tggggttgga cattggacca gactctgtta agactttcaa cgatgccttg gataccacaa 780
aaacagtgat ctggaatgga cctatggggg tgtttgaatt tgacaagttt gctgttggaa 840
cagaggtacc aattaccatt cttctcttca tatttgtttt accttaccga atgctgagct 900
ttataaaaga aataaaaaag ggaataaagc tggttttaca tagctttaaa agtaaaggaa 960
gaggaataat ctggttggat atgtcacttt gtgtgtttac ctgagagtaa atagtaataa 1020
gaatgttgtt gtggtgatag gcaattgcaa agaagctcgc ggacttaagt gggaaaggag 1080
tgacaactat cattggaggt ggagattctg ttgcagctgt tgagaaagtt ggagttgcta 1140
gcgtgatgag ccacatatcc actggaggtg ctgccagttt ggagctactg gaaggcaagg 1200
tgctccctgg tgtcgttgct ctagatgaag cagatgcccc tgttgctgtg tcaggtcagt 1260
cccttatgtt acgtcctgta gaaaccccaa cccgtgaaat caaaaaactc gacggcctgt 1320
gggcattcag tctggatcgc gaaaactgtg gaattgatca gcgttggtgg gaaagcgcgt 1380
tacaagaaag ccgggcaatt gctgtgccag gcagttttaa cgatcagttc gccgatgcag 1440
atattcgtaa ttatgcgggc aacgtctggt atcagcgcga agtctttata ccgaaaggta 1500
agtcttactc tctctttttt ggtctgtatt tttaattttt tgaagtatac tatttgtact 1560
gacgctaata atcttttttc aggttgggca ggccagcgta tcgtgctgcg tttcgatgcg 1620
gtcactcatt acggcaaagt gtgggtcaat aatcaggaag tgatggagca tcagggcggc 1680
tatacgccat ttgaagccga tgtcacgccg tatgttattg ccgggaaaag tgtacgtatc 1740
accgtttgtg tgaacaacga actgaactgg cagactatcc cgccgggaat ggtgattacc 1800
gacgaaaacg gcaagaaaaa gcagtcttac ttccatgatt tctttaacta tgccggaatc 1860
catcgcagcg taatgctcta caccacgccg aacacctggg tggacgatat caccgtggtg 1920
acgcatgtcg cgcaagactg taaccacgcg tctgttgact ggcaggtact tcatgcttca 1980
acgtgtaact taagagatac tgtgtgaaat tttatatttc catacatttg cttgaccttt 2040
gctttttgtc aatttttttc cccttacagg tggtggccaa tggtgatgtc agcgttgaac 2100
tgcgtgatgc ggatcaacag gtggttgcaa ctggacaagg cactagcggg actttgcaag 2160
tggtgaatcc gcacctctgg caaccgggtg aaggttatct ctatgaactg tgcgtcacag 2220
ccaaaagcca gacagagtgt gatatctacc cgcttcgcgt cggcatccgg tcagtggcag 2280
tgaagggcga acagttcctg attaaccaca aaccgttcta ctttactggc tttggtcgtc 2340
atgaagatgc ggacttgcgt ggcaaaggat tcgataacgt gctgatggtg cacgaccacg 2400
cattaatgga ctggattggg gccaactcct accgtacctc gcattaccct tacgctgaag 2460
agatgctcga ctgggcagat gaacatggca tcgtggtgat tgatgaaact gctgctgtcg 2520
gctttaacct ctctttaggc attggtttcg aagcgggcaa caagccgaaa gaactgtaca 2580
gcgaagaggc agtcaacggg gaaactcagc aagcgcactt acaggcgatt aaagagctga 2640
tagcgcgtga caaaaaccac ccaagcgtgg tgatgtggag tattgccaac gaaccggata 2700
cccgtccgca aggtgcacgg gaatatttcg cgccactggc ggaagcaacg cgtaaactcg 2760
acccgacgcg tccgatcacc tgcgtcaatg taatgttctg cgacgctcac accgatacca 2820
tcagcgatct ctttgatgtg ctgtgcctga accgttatta cggatggtat gtccaaagcg 2880
gcgatttgga aacggcagag aaggtactgg aaaaagaact tctggcctgg caggagaaac 2940
tgcatcagcc gattatcatc accgaatacg gcgtggatac gttagccggg ctgcactcaa 3000
tgtacaccga catgtggagt gaagagtatc agtgtgcatg gctggatatg tatcaccgcg 3060
tctttgatcg cgtcagcgcc gtcgtcggtg aacaggtatg gaatttcgcc gattttgcga 3120
cctcgcaagg catattgcgc gttggcggta acaagaaagg gatcttcact cgcgaccgca 3180
aaccgaagtc ggcggctttt ctgctgcaaa aacgctggac tggcatgaac ttcggtgaaa 3240
aaccgcagca gggaggcaaa caatgagctt aacaatttgt actaattctt ttttctgcgg 3300
tcatcagcat aatcagtggt aatttccagt tgggaagcat tgagttgatg ttgtagattt 3360
ttcaggttat attgttatat aatgtcccct ttctttaacc catgttattt tgtctaaata 3420
aagggcgagt atatcagtta tagacagcta tccttttgat gtccttcaac aaactctatc 3480
cttgatttgg ttcagtttgg aggaacttct ttagacataa gaacttttgc catgtgaaca 3540
aactcatgct gcgtgttaat gttcacctgc ccttcgcatt aaatgacgcc tctaatacgt 3600
ggtggtctat gtaaagtgag attactgtta gttatgcagt tatgaaactt ctggaaaact 3660
tgagacacct gatctttgat tttcaaaata taaacccata attttcgtga agcatcatca 3720
ataaaagtaa caaaatattt gttaccgtac atttattcaa tttccattgg gccacaaaca 3780
tcagaatata ctaaatcaag tatattcaat tttctttcaa acgatgtctg aaatgagact 3840
caatgctgct taccaaataa acagtagtca cagggtttta ttgttgtacc tttggcataa 3900
gaaataagtg attttttggc aagaatctgc aatcccttgt cgctcatatg acccattctt 3960
tttatgccac aaatttgcag aaatctcatc ttgcatcgca ttcaattcac cttggcatat 4020
tactgcattt gtcctgtaca acgtgccacg agtaactccc tttgcaatca ccaacgatcc 4080
cttggtgagt ctccattttt gatttgcaaa atagttctcg tatccatctc ggtccaaagt 4140
aatccccgag atcaagttca tccacaaaac aggtacatgc cgcacatcct ttagaaccaa 4200
tgtgcatccg acatttgtct tgatacaaat gtcaccaatc cccctgcaat ctttgagtaa 4260
ctcgtgttac cactggaaag cttcatcaag ctcttgttgc tcaaggagga gatagaattg 4320
gcgcttgcct tgtcttctgc acgaagtggt ttaaactatc agtgtttgac aggatatatt 4380
ggcgggtaaa cctaagagaa aagagcgttt attagaataa tcggatattt aaaagggcgt 4440
gaaaaggttt atccgttcgt ccatttgtat gtgcatgcca 4480
<210> 2
<211> 832
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 2: 模块2x35Ss - Ω 的多核苷酸序列
<400> 2
ggaggtcaac atggtggagc acgacactct ggtctactcc aaaaatgtca aagatacagt 60
ctcagaagat caaagggcta ttgagacttt tcaacaaagg ataatttcgg gaaacctcct 120
cggattccat tgcccagcta tctgtcactt catcgaaagg acagtagaaa aggaaggtgg 180
ctcctacaaa tgccatcatt gcgataaagg aaaggctatc attcaagatc tctctgccga 240
cagtggtccc aaagatggac ccccacccac gaggagcatc gtggaaaaag aagaggttcc 300
aaccacgtct acaaagcaag tggattgatg tgataacatg gtggagcacg acactctggt 360
ctactccaaa aatgtcaaag atacagtctc agaagatcaa agggctattg agacttttca 420
acaaaggata atttcgggaa acctcctcgg attccattgc ccagctatct gtcacttcat 480
cgaaaggaca gtagaaaagg aaggtggctc ctacaaatgc catcattgcg ataaaggaaa 540
ggctatcatt caagatctct ctgccgacag tggtcccaaa gatggacccc cacccacgag 600
gagcatcgtg gaaaaagaag aggttccaac cacgtctaca aagcaagtgg attgatgtga 660
catctccact gacgtaaggg atgacgcaca atcccactat ccttcgcaag acccttcctc 720
tatataagga agttcatttc atttggagag gacacgctac tgtattttta caacaattac 780
caacaacaac aaacaacaaa caacattaca attactattt acaattacaa tg 832
<210> 3
<211> 5806
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 3: 用于N-末端融合体的模块 AGGT_NLS-SpCas9i-NLS*_GCTT的多核苷酸序列
<400> 3
aggtatggct tctagcccac cgaagaagaa gcggaaggtc agctggaaaa tggacaagaa 60
gtacagcatt ggacttgata ttggtacgaa ctcagttggg tgggccgtta tcaccgatga 120
atacaaggta ccttcgaaga aatttaaagt gctgggcaac acagataggc acagcattaa 180
gaagaacttg atcggagctc tgctctttga ctctggagaa accgcggagg cgacaaggct 240
taaacgtact gcgaggagaa ggtacactcg caggaagaac agaatctgtt atctccaaga 300
gatctttagc aacgagatgg cgaaggtaag gatttttatg atatactatg cttatgtatt 360
ttgtactgaa agcatatcct gcttcattgg gatattactg aaagcattta actacatgta 420
aactcacttg atgatcaata aacttgattt tgcaggttga cgactcgttc ttccatcgcc 480
tcgaggaatc cttcctggta gaggaagata agaaacacga gcgtcacccc atctttggga 540
atattgttga cgaagtagcc tatcatgaaa agtatccgac tatataccac cttcgcaaga 600
agctggtgga ctcaaccgat aaggcagacc ttcggctcat atacctggct ctcgcgcaca 660
tgataaagtt tcgtggccat ttcttgatcg aaggggacct caacccggat aactccgatg 720
tggataaact gttcattcag ctcgtccaaa cctacaatca gctgttcgag gagaacccca 780
tcaatgcatc aggtaacatt ccttagttac ctttcttttc tttttccatc ataagtttat 840
agattgtaca tgctttgaga tttttctttg caaacaatct caggtgtcga cgccaaggca 900
atactgtctg ccagactttc gaagtccaga cggcttgaga atctgatcgc tcaattgcca 960
ggcgagaaga agaacggctt gttcgggaat ctgattgcac tgtctctggg cctcacccct 1020
aacttcaaaa gcaactttga cctcgccgag gacgcgaagc tgcagctgtc aaaggataca 1080
tacgatgatg atctggacaa tctgctcgcc caaataggta atcttgaaat tggaactctt 1140
cttttgttgt ctaaacctat caatttcttt gcggaaattt atttgaagct gtagagttaa 1200
aattgagtct tttaaacttt tgtaggtgat cagtatgccg acctgttctt ggctgccaag 1260
aatctgtcag acgctatctt gctcagtgac attctgcggg tcaacacgga gataaccaaa 1320
gcgccactta gcgcctccat gatcaagagg tacgacgagc atcaccagga tctgaccctt 1380
ctgaaggctt tggttcgcca gcaactcccc gagaagtaca aggagatttt ctttgaccaa 1440
tcgaagaatg gctacgcagg gtacattgat ggaggtaagt tgttacttat gattgttttc 1500
ctctctgcta catgtatttt gttgttcatt tctgtaagat ataagaattg agttttcctc 1560
tgatgatatt attaggtgca agtcaggagg aattctacaa attcatcaag cctattctgg 1620
aaaagatgga cggtacagag gagctgctcg ttaaattgaa ccgcgaagat ttgcttcgga 1680
agcagcgtac cttcgacaat ggcagcatac cgcaccagat ccacctcggt gagctgcatg 1740
ctatcttgag gaggcaagag gacttctatc cgttcctgaa agacaacaga gagaagattg 1800
aaaagatcct cacgttccgc attccctact atgtaggtta gtatcatatg aagaaatacc 1860
tagtttcagt tgatgaatgc tattttctga cctcagttgt tctcttttga gaattatttc 1920
ttttctaatt tgcctgattt ttctattaat tcattaggtc cactcgcacg cgggaactcg 1980
cggtttgcgt ggatgacacg caaatccgag gagactatca cgccttggaa cttcgaagag 2040
gtcgtggaca agggtgcgag tgcacagtcc ttcatcgaaa ggatgaccaa cttcgataag 2100
aatctcccaa atgagaaagt cctgcccaag catagtctcc tgtacgaata cttcacggtc 2160
tacaacgagc tgacgaaggt gaaatatgtg acggagggga tgcgcaaacc ggccttcctg 2220
tcaggtaaat cctggtccac acttttacga taaaaacaca agattttaaa ctatgaactg 2280
atcaataatc attcctaaaa gaccacactt ttgttttgtt tctaaagtaa tttttactgt 2340
tataacaggt gagcagaaga aggccattgt cgatctcttg ttcaaaacca atcggaaggt 2400
cactgtgaaa cagcttaaag aggactactt taagaagatc gaatgctttg attctgtgga 2460
aatcagcggc gttgaggata ggttcaatgc ctctcttggc acataccatg acctgttgaa 2520
aatcatcaag gacaaggact tccttgacaa cgaggagaac gaggacatcc tcgaggacat 2580
cgtgctgact ctcacgctgt ttgaggacag agaaatgatc gaggagcgcc ttaagactta 2640
tgcgcatctg ttcgatgaca aggtcatgaa gcagttgaag aggaggagat atacaggtaa 2700
gaggtcaaaa ggtttccgca atgatccctc tttttttgtt tctctagttt caagaatttg 2760
ggtatatgac taacttctga gtgttccttg atgcatattt gtgatgagac aaatgtttgt 2820
tctatgtttt aggttgggga aggctctcca ggaagctcat caacggcatc cgcgacaagc 2880
aatccggcaa gactatactg gactttctca aatccgacgg ttttgcgaat cggaacttca 2940
tgcagcttat tcacgatgac tcactgacct tcaaagaaga tatccagaag gcccaagtgt 3000
caggtcaggg cgatagcctt cacgaacaca tagccaacct ggctggatcg ccagctataa 3060
agaagggcat actgcagaca gtgaaggttg tggatgagct ggtgaaggta agttctgcat 3120
ttggttatgc tccttgcatt ttaggtgttc gtcgcacttc catttccatg aatagctaag 3180
attttttttc tctgcattca ttcttcttgc ctcagttcta actgtttgtg gtatttttgt 3240
tttaattatt gctacaggtc atgggccgcc ataagccgga gaacatcgtc atcgagatgg 3300
cgagggaaaa ccagacgact cagaaagggc agaagaactc acgggagcgc atgaagcgga 3360
tagaggaagg catcaaggag cttgggagtc agattctgaa agagcaccca gtcgaaaata 3420
ctcaactcca gaacgagaag ctgtacctct attacctcca gaatgggaga gatatgtacg 3480
tcgaccaaga gctcgacatt aacagactct ccgactatga tgtggatcac attgtccctc 3540
aatctttcct gaaggacgat agtattgaca acaaggtaaa gcaactgtgt tttaatcaat 3600
ttcttgtcag gatatatgga ttataactta atttttgaga aatctgtagt atttggcgtg 3660
aaatgagttt gctttttggt ttctcccgtg ttataggtcc ttacgcgctc agacaagaac 3720
cgcggaaaat ccgacaatgt acccagcgag gaggttgtga agaagatgaa gaactattgg 3780
aggcagcttt tgaatgctaa gctcataacc caacggaaat tcgacaatct cacgaaggca 3840
gaaaggggcg gactgtctga gctcgacaaa gccggcttca tcaagcgcca gttggttgaa 3900
actcgtcaga ttacgaaaca tgtggcccag atactcgatt cgcgtatgaa tacgaagtat 3960
gatgagaatg acaaacttat cagggaggta aaggtaaagt ttccaacttt cctttaccat 4020
atcaaactaa agttcgaaac tttttatttg atcaacttca aggccacccg atctttctat 4080
tcctgattaa tttgtgatga atccatattg acttttgatg gttacgcagg tgatcaccct 4140
caagagcaaa ctggttagtg acttccggaa ggacttccag ttttacaagg ttcgcgagat 4200
caacaactac catcatgccc atgacgccta cctgaacgcc gttgttggca ctgctctcat 4260
caagaagtat ccgaaactgg agtctgagtt tgtgtacggg gattacaagg tgtacgacgt 4320
taggaagatg atcgcgaagt cagaacaaga gatcggcaag gctaccgcga aatacttctt 4380
ttactcgaat atcatgaact tcttcaagac agagatcact ctggcgaatg gtgaaatccg 4440
gaagaggcct ctgatcgaga caaatggcga aacaggtctg tctttcctat ttcatatgtt 4500
taatcctagg aatttgatca attgattgta tgtatgtcga tcccaagact ttcttgttca 4560
cttatatctt aactctctct ttgctgtttc ttgcaggtga gattgtctgg gataagggca 4620
gggattttgc gactgtgcgt aaggttctca gcatgcccca agtcaacata gtcaagaaaa 4680
cggaggttca aaccggtggt ttctccaagg agtccattct ccctaagcgc aactccgaca 4740
aactgattgc gaggaagaag gattgggatc cgaagaaata cggaggcttt gatagcccta 4800
ccgtggcata cagcgtactg gtagtggcca aggtggagaa gggcaagagc aagaaactga 4860
aaagcgtcaa ggaactgctt ggaattacca taatggaaag gtcctcgttc gagaagaatc 4920
cgatcgactt cctcgaggct aaaggtaaaa tattggatgc cagacgatat tctttctttt 4980
gatttgtaac tttttcctgt caaggtcgat aaattttatt ttttttggta aaaggtcgat 5040
aatttttttt tggagccatt atgtaatttt cctaattaac tgaaccaaaa ttatactttg 5100
caggttacaa agaggtgaag aaagacctca ttatcaaact gcccaagtat tcgcttttcg 5160
aattggaaaa tggcagaaaa cgcatgctgg catctgccgg agaactgcag aagggcaacg 5220
agctggcatt gcccagtaag tacgtcaact tcctgtactt ggcctcacac tatgagaagc 5280
tgaaggggtc accagaggac aacgagcaga agcagttgtt tgtcgagcag cacaagcact 5340
atcttgatga gatcatagag cagatcagcg aattttccaa gcgggtcatt cttgcagacg 5400
ctaacctcga taaggtaagg acttctcatg aatattagtg gcagattagt gttgttaaag 5460
tctttggtta gataatcgat gcctcctaat tgtccatgtt ttactggttt tctacaatta 5520
caggtgcttt ccgcgtacaa caagcacaga gataagccga taagggaaca agcggaaaac 5580
atcatccacc tgttcacact gaccaatctg ggagccccag cagcctttaa gtacttcgat 5640
accactatcg acagaaagcg ctacacatca accaaggaag tgttggacgc tacccttatt 5700
caccaatcta ttacagggct ctatgagaca aggatagatc tgtcgcagtt gggtggtgac 5760
tctagggctg acccaaagaa gaagcgtaaa gtcggttcgt gagctt 5806
<210> 4
<211> 97
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 4: 编码接头2xLF2的多核苷酸
<400> 4
ttcgggtgga ggtggttctg gtggaggtgg atcaggagga ggaggttcgg gtggaggtgg 60
ttctggtgga ggtggatcag gaggaggagg atcaggt 97
<210> 5
<211> 187
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 5: 编码接头4xLF2的多核苷酸
<400> 5
ttcgggtgga ggtggttctg gtggaggtgg atcaggagga ggaggttcgg gtggaggtgg 60
ttctggtgga ggtggatcag gaggaggagg atcaggtgga ggtggttctg gtggaggtgg 120
atcaggagga ggaggttcag gtggaggtgg ttctggtgga ggtggatcag gaggaggagg 180
atcaggt 187
<210> 6
<211> 439
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 6: 编码接头XTEN144的多核苷酸
<400> 6
ttcgggtact tctactgagc cttctgaagg ttctgctcct ggaacttctg agtctgctac 60
tcctgaatct ggtcctggtt ctgagccagc tacttctggt tcagaaaccc ctggtactag 120
cgagtcagct acaccagagt ctggaccagg atctgaacct gctactagtg gatctgagac 180
acctggaact agtgagagtg caactcctga gtcaggacct ggtacttcaa cagaacctag 240
tgagggtagt gctccaggca ctagtgaatc tgcaactcca gaaagtggac ctggatctcc 300
tgctggttct cctacttcta cagaagaggg tagtcctgct ggaagcccta catctactga 360
agaaggttct ccagctggca gtccaacttc aactgaagag ggaacttcag agagcgctac 420
acctgaaagt ggtccaggt 439
<210> 7
<211> 124
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 7: 编码接头XTEN40的多核苷酸
<400> 7
ttcgggttca gaaacccctg gtactagcga gtcagctaca ccagagtctg gaccaggatc 60
tgaacctgct actagtggat ctgagacacc tggaactagt gagagtgcaa ctcctgagtc 120
aggt 124
<210> 8
<211> 52
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 8: 编码接头XTEN16的多核苷酸
<400> 8
ttcgggttca gaaacccctg gtactagcga gtcagctaca ccagagtcag gt 52
<210> 9
<211> 907
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 9: 编码用于N-末端核酸外切酶-Cas9融合体的T7核酸外切酶的多核苷酸
<400> 9
aatggctctg cttgacctga agcagttcta tgagcttaga gagggctgcg acgataaggg 60
tattctggtg atggatggtg actggcttgt gttccaagct atgtctgctg ctgagttcga 120
cgcctcttgg gaagaagaaa tttggcaccg ttgctgcgat cacgctaagg ctagacagat 180
ccttgaggac agcatcaaga gctacgagac tcggaagaaa gcttgggctg gtgctcctat 240
tgtgctggct ttcaccgatt ctgtgaactg gcggaaagag ctggttgacc ctaactacaa 300
ggctaaccgg aaggctgtga agaagcctgt tggttacttc gagttcctgg acgctctttt 360
cgagcgggaa gagttctact gcatcaggga acctatgctt gagggcgacg atgtgatggg 420
tgtgattgct tctaacccta gcgctttcgg tgctaggaag gccgttatta tcagctgcga 480
caaggacttc aagaccattc cgaactgcga ctttctgtgg tgcactaccg gtaacattct 540
tacccagacc gaagagtctg ctgattggtg gcatcttttc cagaccatca agggcgatat 600
caccgatggc tactctggta ttgctggttg gggtgatact gctgaggact tccttaacaa 660
cccgttcatt accgagccta agaccagcgt gttgaagtcc ggtaagaaca agggtcaaga 720
ggtgaccaag tgggtgaaga gggatcctga acctcatgag actctgtggg actgcatcaa 780
gtctatcggt gctaaggctg gtatgaccga ggaagatatc atcaagcagg gtcagatggc 840
tcggatcctt aggttcaacg agtacaactt catcgacaaa gagatctacc tctggcggcc 900
tggttcg 907
<210> 10
<211> 880
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 10: 编码用于N-末端核酸外切酶-Cas9融合体的T5核酸外切酶的多核苷酸
<400> 10
aatgtctaag agctggggca agttcatcga agaggaagag gctgagatgg cctctcggag 60
gaatcttatg atcgtggatg gtactaacct cggcttccgg ttcaagcaca acaacagcaa 120
gaagccgttc gcctcctctt acgtgtcaac cattcagagc ctggccaagt cttactctgc 180
taggactacc attgtgctgg gcgataaggg aaagtctgtg ttcaggcttg agcaccttcc 240
tgagtacaag ggcaaccgtg atgagaagta tgctcagagg actgaggaag agaaggctct 300
tgacgagcag ttcttcgagt acctgaagga tgctttcgag ctgtgcaaga ccacctttcc 360
taccttcacc attaggggcg ttgaggctga tgatatggct gcctacattg tgaagctgat 420
cggccacctt tacgatcacg tgtggcttat ctctaccgat ggcgattggg ataccctgct 480
taccgataag gtgagcaggt tctcattcac taccaggcgt gagtaccacc tgagggatat 540
gtacgagcac cataacgtgg acgacgttga gcagttcatc tccctgaagg ctatcatggg 600
tgatctgggt gataacatca ggggcgtcga aggtattggt gctaagaggg gttacaacat 660
catccgtgag ttcggcaacg tgctggatat tatcgatcag ctgcctctgc ctggcaagca 720
gaagtacatt cagaacctga acgccagcga ggaactgctg tttaggaacc ttattctggt 780
ggacctgccg acttactgcg ttgacgctat tgctgctgtt ggtcaggatg tgctcgacaa 840
gttcaccaag gacatccttg agattgccga gcagggttcg 880
<210> 11
<211> 1885
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 11: 编码用于N-末端核酸外切酶-Cas9融合体的UL12核酸外切酶的多核苷酸
<400> 11
aatggaatct actgtgggtc ctgcttgtcc tcctggtagg actgttacta agaggccttg 60
ggctcttgct gaggatactc ctagaggtcc tgactctcca ccaaagaggc ctagacctaa 120
ctctcttcct ctgactacta ccttcaggcc tttgccacct cctccacaaa ctacctctgc 180
tgtggatcct tcttctcact ctcctgtgaa tcctccaagg gatcagcatg ctactgatac 240
cgctgatgag aagcctagag ctgcttctcc tgctctgtct gatgcttctg gtcctcctac 300
tcctgatatc cctctttctc ctggtggtac tcatgctagg gatcctgatg cagatcctga 360
tagccctgat ctggactcta tgtggtctgc ttctgtgatc cctaacgctc tgccttctca 420
cattctggct gagactttcg agaggcacct taggggtttg cttagaggtg ttagggctcc 480
tcttgctatt ggtcctcttt gggctagact ggactacctt tgctctcttg ctgtggtgct 540
tgaagaggct ggtatggtgg atagaggtct tggtagacac ctttggaggc ttactagaag 600
aggtcctcca gctgctgctg atgctgttgc tcctagacct cttatgggat tctacgaggc 660
tgctactcag aaccaggctg attgtcaact ttgggctctg cttagaaggg gtcttactac 720
cgcttctact cttagatggg gtcctcaggg accttgcttt tctcctcaat ggctgaaaca 780
caacgctagc cttaggcctg atgtgcagtc atctgctgtg atgttcggta gggttaacga 840
gcctaccgct cggtctttgc ttttcaggta ttgcgttggc agggctgatg atggtggtga 900
agctggtgct gataccaggc ggtttatttt ccacgagcca tctgatctgg ccgaagagaa 960
tgttcatacc tgcggtgtgc ttatggatgg tcacactgga atggtgggcg cttctcttga 1020
tattcttgtg tgccctaggg acatccacgg ttaccttgct ccagttccta agactcctct 1080
ggccttttac gaggttaagt gcagggctaa gtacgctttc gatcctatgg acccttctga 1140
ccctactgct tctgcttacg aggatctgat ggctcataga agccctgagg ctttcagggc 1200
tttcatccgg tctattccta agccgagcgt gagatacttt gctcctggaa gagttcctgg 1260
tcctgaggaa gctcttgtta ctcaagatca ggcttggtct gaggctcatg cttcaggtga 1320
gaagagaaga tgctcagctg ctgatagggc actcgttgag cttaattctg gcgtggtgtc 1380
tgaggtgttg cttttcggtg ctcctgatct cggtaggcac actatttctc cagtgagctg 1440
gtcctctggt gatcttgtta gaagggaacc cgtgttcgct aatcctaggc accctaactt 1500
caagcagatt ctggtgcagg gttacgtgct ggattctcac tttccagatt gccctccaca 1560
tcctcacctt gtgactttca ttggtcggca taggacctca gctgaagagg gtgttacttt 1620
caggcttgag gatggtgctg gtgctcttgg tgctgctggt ccttctaagg cttctattct 1680
tcctaaccag gccgtgccta tcgctcttat tatcacccct gtgaggatcg accccgagat 1740
ctataaggct atccagaggt catctcggct ggctttcgat gatactttgg ctgagctttg 1800
ggcctctaga tctcctggtc caggtcctgc tgctgcagaa actacttctt cttcacctac 1860
caccggcagg tcatctagag gttcg 1885
<210> 12
<211> 1867
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 12: 编码用于N-末端核酸外切酶-Cas9融合体的UL12-2核酸外切酶的多核苷酸
<400> 12
aatggctgct gctgctactc ctggtgctaa gaggcctgct gatcctgcta gagatcctga 60
ctctccacca aagaggccaa ggcctaactc tcttgatctt gctactgtgt tcggtcctag 120
acctgctcct cctcatccta cttctccagg tgctcctggt tctcattctc ctcaatctcc 180
acctagaggt cagcctgatg gtggtgctcc aggtgaaaag gctagaccag cttctcctgc 240
tcttagcgaa gcttcttctg gtcctcctac tcctgatatc cctctttctc ctggtggcgc 300
tcatgctatt gatcctgatt gctctcctgg acctcctgat ccagatccta tgtggtctgc 360
ttctgctatc cctaacgctc tgcctcctca tattctggct gagactttcg agaggcacct 420
taggggtttg cttaggggtg ttagatctcc tcttgctatc ggtcctcttt gggctagact 480
tgactacctt tgctctctgg tggtgtctct tgaagctgct ggtatggtgg atagaggtct 540
tggtagacac ctttggaggc ttactagaag ggctcctcca tctgctgctg aagctgttgc 600
tcctagacca cttatgggat tctacgaggc tgctacccag aaccaggctg attgtcaact 660
ttgggctctg cttagaaggg gtcttactac cgcttctact cttagatggg gtgctcaggg 720
accttgcttt tcatctcagt ggcttaccca caacgctagc cttaggcttg atgctcagtc 780
aagcgctgtg atgttcggta gagtgaatga gcctaccgct aggaaccttc tgttcaggta 840
ttgcgttggt agggctgatg ctggcgttaa cgatgatgca gatgctggca gattcgtgtt 900
ccatcagcca ggtgatctgg ccgaagagaa tgttcatgct tgcggtgtgc ttatggatgg 960
tcacactgga atggtgggcg cttctcttga tattcttgtg tgccctaggg atcctcacgg 1020
ttatcttgct ccagctcctc aaactcctct ggccttttat gaggttaagt gccgggctaa 1080
gtacgctttc gatccagctg accctggcgc tcctgctgct tcagcttatg aagatctgat 1140
ggctaggcgt agccctgagg cttttagggc tttcattcgg agcatcccta atccgggtgt 1200
gagatatttt gctcctggaa gagttcctgg gcctgaagag gctcttgtta cccaagatag 1260
agactggctg gattctagag cagctggtga gaagagaaga tgctctgctc ctgatagggc 1320
actcgttgag cttaattctg gcgtggtgtc tgaggtgttg cttttcggtg ttcctgatct 1380
cgagcggagg actatttctc ctgttgcttg gtcatctggt gagcttgtga gaagggaacc 1440
gatcttcgct aatcctaggc accctaactt caagcagatt ctggtgcagg gttacgtgct 1500
ggattcacac tttccagatt gccctcttca gcctcacctg gtgacttttc ttggtaggca 1560
tagagctggt gctgaggaag gtgttacttt caggcttgag gatggtagag gtgcaccagc 1620
tggaagaggt ggtgcccctg gtcctgctaa ggcttctatt cttcctgatc aagctgtgcc 1680
gatcgctctg attattaccc ctgttagagt tgagccgggc atctacagag atatccgtag 1740
gaattctcgg ctggctttcg atgataccct tgctaagctt tgggcctcta gatctccagg 1800
tagaggtcct gctgcagctg atacaacttc ttcttcacct actgccggcc gttcttctag 1860
aggttcg 1867
<210> 13
<211> 1414
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 13: 编码用于N-末端核酸外切酶-Cas9融合体的BGLF5核酸外切酶的多核苷酸
<400> 13
aatggctgat gtggatgagc ttgaggaccc tatggaagag atgacctctt acaccttcgc 60
tcggttcctt aggtcacctg agactgaggc tttcgtgagg aatcttgata ggcctcctca 120
gatgcctgcc atgagatacg tttaccttta ctgcctgtgc aagcagatcc aagagttctc 180
tggtgagact ggcttctgcg acttcgtgtc tagtcttgtg caagagaacg acagcaagga 240
tgggccttct ctgaagtcta tctactgggg acttcaagag gctaccgatg agcagagaac 300
tgtgctttgc tcctacgtcg agtctatgac tagaggccag tctgagaacc tgatgtggga 360
tattctgcgg aacggcatta tcagctccag caagcttctg agcaccatca agaacggtcc 420
taccaaggtt ttcgagcctg ctcctattag caccaaccac tactttggtg gtcctgtggc 480
ttttggtctt aggtgcgagg ataccgtgaa ggacattgtc tgcaagctga tctgcggtga 540
cgcttcagct aataggcagt tcggcttcat gatcagccct accgatggta tcttcggtgt 600
gtctcttgat ctgtgcgtga acgttgaaag ccagggcgat ttcatcctgt tcaccgatag 660
gtcttgcatc tacgagatca agtgccggtt caagtacctg ttcagcaaga gcgagttcga 720
ccctatctac ccttcttaca ccgctctgta taagcggccc tgcaagagat ccttcatccg 780
gttcattaac tctatcgctc ggccgaccgt tgagtacgtt ccagatggta gattgcctag 840
cgagggcgat taccttctta ctcaggatga ggcttggaac ctgaaggatg tgaggaagag 900
aaagcttggt cctggtcacg atctggtggc tgattctctt gctgctaaca ggggtgttga 960
gagcatgctt tacgtgatga ccgatccttc tgagaacgct ggtaggatcg gaatcaagga 1020
tagggtgcca gtgaacatct tcatcaaccc gaggcacaac tacttctacc aggtgctgct 1080
tcagtacaag atcgtgggag attacgtgag gcatagcggt ggtggtaagc ctggtagaga 1140
ttgctctcct agggtgaaca ttgtgaccgc attcttcaga aagaggtccc cacttgatcc 1200
tgctacctgt accttgggtt ctgatcttct gctggacgcc tctgttgaga ttcctgttgc 1260
tgttcttgtg acccctgtgg tgcttcctga tagcgtgatc agaaagaccc tttctaccgc 1320
tgctggtagc tggaaggctt acgctgataa taccttcgat accgctcctt gggtgccatc 1380
tggtcttttt gctgatgatg agagcacccc ttcg 1414
<210> 14
<211> 1657
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 14: 编码用于N-末端核酸外切酶-Cas9融合体的DUMAS核酸外切酶的多核苷酸
<400> 14
aatggctagg tctggtctgg ataggatcga tatctctcca cagcctgcca agaaaatcgc 60
tagagttggt ggacttcagc acccgttcgt taagaccgat atcaacacca tcaacgtcga 120
gcaccacttc atcgataccc tgcaaaagac ctctccgaac atggattgca ggggtatgac 180
cgctggtatc ttcattaggc tgagccacat gtacaagatc ctgaccactc tcgagtcccc 240
aaacgatgtg acttacacta ctcctggctc taccaacgct ctgttcttca agacttctac 300
ccagcctcaa gagcctaggc ctgaagaact tgcttctaag ctgacccagg acgatatcaa 360
gaggatcctt ctgaccatcg agagcgagac tagaggtcag ggtgataacg ctatttggac 420
ccttctgcgg aggaacctta ttaccgcttc tacccttaag tggtccgtgt ctggtcctgt 480
tattcctcct cagtggttct accatcacaa caccactgat acctacgggg atgctgctgc 540
tatggctttc ggtaagacta atgagcctgc tgctagggca atcgttgagg ctcttttcat 600
cgaccctgct gacattagga cccctgatca tcttacacct gaggccacca ccaagttttt 660
caacttcgat atgctgaata ccaagtctcc ctctcttctt gtgggcaccc ctaggattgg 720
tacttatgag tgcggtctgc tgatcgatgt gaggaccggt cttattggtg cttctcttga 780
tgtgctggtg tgcgataggg atccacttac cggtactctt aaccctcatc ctgctgagac 840
tgacatctca ttcttcgaga tcaagtgccg ggccaagtac ctgttcgatc ctgatgataa 900
gaacaacccg cttggcagga cttacaccac cttgattaac aggcctacca tggctaacct 960
gcgggatttc ctgtacacca ttaagaaccc gtgcgtgagc ttcttcggtc cttctgctaa 1020
tccttctacc agagaggctc tgatcaccga tcatgttgag tggaagaggc tgggctttaa 1080
aggtggtagg gctcttactg agcttgacgc tcatcacctt ggtctgaacc ggaccatttc 1140
ttctagagtg tgggtgttca acgacccgga tattcagaag ggaaccatca ccactattgc 1200
ttgggctact ggtgataccg ctctgcagat tcctgtgttc gctaatccta ggcacgccaa 1260
cttcaagcag attgccgttc agacctacgt gctgtctggt tacttcccgg ctcttaagct 1320
taggcctttc ctggtgactt tcatcggtag agttagaagg ccacatgagg ttggagttcc 1380
tcttagagtg gatactcagg ctgctgccat ctacgagtac aactggccta ctattcctcc 1440
acattgcgct gtgcctgtga ttgctgtgct tacccctatt gaagtggatg tgcctagggt 1500
gacccagatc ttgaaggata ctggcaacaa cgccatcacc agcgctctta gatctctgag 1560
gtgggataat cttcaccctg ccgtcgaaga ggaatctgtg gattgtgcta acggaaccac 1620
ctctttgttg agggctactg agaagcctct tctttcg 1657
<210> 15
<211> 1576
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 15: 编码用于N-末端核酸外切酶-Cas9融合体的MD5核酸外切酶的多核苷酸
<400> 15
aatggaactg ggcactaagt tcccgctgtc taagtcttgc aaggacgagt ctagaaagcg 60
gaagaggggt atcaccatcg attgcgattc tcagatcctg gtgggtgacg agcagtctaa 120
ttctaccaag accaagccgt acgacgagat ctgcgagaac attgtgccta actacacctt 180
cggcaactac atcctgcaaa agatcgaccc taacgactgc aggcattctc ttcacccact 240
ttaccaccgg ctgttctaca ttgctgacgt gatcaagcaa gggatctctg agggttcact 300
gctcgagaac aagtacagct acatcctcga gactgagcac atcctgttgg acgagagcag 360
gatcaacaac ctgtctcctt ctatccacgc ttccaggtgg tgtaagatgg ttgagtctct 420
taccaggctg caggctaact ctgagctttg gcatattttc agacagtgcc tgctgaccgc 480
ttcttctgtt aagtggtcac ctaacggcac catcaacacc gctggtctga ttaccaacga 540
tctgccttct agaggtcaaa ccgagtctat tctgttcggc actaggaacg agagcctggc 600
taagtctctt atcgctgctc tttgcgtgag ccagtcatct gtgaggacca tcgataacag 660
cgacaagaag aacgagttcg acaacaccac caccggcatt ctggatatcg agaagtactc 720
ttgcggcctg atgatcgata ttcggaccgg tatgcttggc gcttctctgg atatggtgat 780
gtgcaatagg aacaggcacg gtattcttgc tccatgcctg accgataaca acatcgagac 840
ttacgagatc aagtgccggt tcaagtacgc tttctgtccc gagatgaggt ccgagctttc 900
tcagtgctat gagaggctta tggccactaa gactgtgcag tggtttcggc ggttccttta 960
caccattgat tgcccttgcg tggactactt caggccagat aattaccctc gggctaaaga 1020
ggctctgatc acctctgatg acgattggaa ggtgggacac tctgcttatc atgctgctca 1080
gtcccggatt aagtgcaatg agttcgagat gcaccacttg accctgaaca agaacatgtc 1140
ctctcgtgtg tggcttttcg gtgagcctga tcttcagacc aacagcatct accctctgct 1200
ttggaatacc ggtgagaggg tgctgtctat ccctatcttt gctaatccgc ggcaccagaa 1260
cttcaagcag attttcctgc agagctacgt ggcctctggt tacttcggta acagaaagat 1320
cgtgccgttc ctggctacct tcattggtag gcatagacgg cagactgagc ttggcagatg 1380
cttctctctt ttcgtggatg acaccgaggc tagcgaggtt gtgtatgaga ttactcctga 1440
gcaggctatc cccgtgattc tgattattac cccggtgatc attgacaaca ccttctacgt 1500
gggcatcgaa gagtctggct acagagcttt tggtgagttg gtggatcacc tgtgggctaa 1560
gcagtgcaga atttcg 1576
<210> 16
<211> 5796
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 16: 用于C-末端融合体的模块 AATG_NLS-SpCas9i-NLS_TTCG的多核苷酸序列
<400> 16
aatggcttct agcccaccga agaagaagcg gaaggtcagc tggaaaatgg acaagaagta 60
cagcattgga cttgatattg gtacgaactc agttgggtgg gccgttatca ccgatgaata 120
caaggtacct tcgaagaaat ttaaagtgct gggcaacaca gataggcaca gcattaagaa 180
gaacttgatc ggagctctgc tctttgactc tggagaaacc gcggaggcga caaggcttaa 240
acgtactgcg aggagaaggt acactcgcag gaagaacaga atctgttatc tccaagagat 300
ctttagcaac gagatggcga aggtaaggat ttttatgata tactatgctt atgtattttg 360
tactgaaagc atatcctgct tcattgggat attactgaaa gcatttaact acatgtaaac 420
tcacttgatg atcaataaac ttgattttgc aggttgacga ctcgttcttc catcgcctcg 480
aggaatcctt cctggtagag gaagataaga aacacgagcg tcaccccatc tttgggaata 540
ttgttgacga agtagcctat catgaaaagt atccgactat ataccacctt cgcaagaagc 600
tggtggactc aaccgataag gcagaccttc ggctcatata cctggctctc gcgcacatga 660
taaagtttcg tggccatttc ttgatcgaag gggacctcaa cccggataac tccgatgtgg 720
ataaactgtt cattcagctc gtccaaacct acaatcagct gttcgaggag aaccccatca 780
atgcatcagg taacattcct tagttacctt tcttttcttt ttccatcata agtttataga 840
ttgtacatgc tttgagattt ttctttgcaa acaatctcag gtgtcgacgc caaggcaata 900
ctgtctgcca gactttcgaa gtccagacgg cttgagaatc tgatcgctca attgccaggc 960
gagaagaaga acggcttgtt cgggaatctg attgcactgt ctctgggcct cacccctaac 1020
ttcaaaagca actttgacct cgccgaggac gcgaagctgc agctgtcaaa ggatacatac 1080
gatgatgatc tggacaatct gctcgcccaa ataggtaatc ttgaaattgg aactcttctt 1140
ttgttgtcta aacctatcaa tttctttgcg gaaatttatt tgaagctgta gagttaaaat 1200
tgagtctttt aaacttttgt aggtgatcag tatgccgacc tgttcttggc tgccaagaat 1260
ctgtcagacg ctatcttgct cagtgacatt ctgcgggtca acacggagat aaccaaagcg 1320
ccacttagcg cctccatgat caagaggtac gacgagcatc accaggatct gacccttctg 1380
aaggctttgg ttcgccagca actccccgag aagtacaagg agattttctt tgaccaatcg 1440
aagaatggct acgcagggta cattgatgga ggtaagttgt tacttatgat tgttttcctc 1500
tctgctacat gtattttgtt gttcatttct gtaagatata agaattgagt tttcctctga 1560
tgatattatt aggtgcaagt caggaggaat tctacaaatt catcaagcct attctggaaa 1620
agatggacgg tacagaggag ctgctcgtta aattgaaccg cgaagatttg cttcggaagc 1680
agcgtacctt cgacaatggc agcataccgc accagatcca cctcggtgag ctgcatgcta 1740
tcttgaggag gcaagaggac ttctatccgt tcctgaaaga caacagagag aagattgaaa 1800
agatcctcac gttccgcatt ccctactatg taggttagta tcatatgaag aaatacctag 1860
tttcagttga tgaatgctat tttctgacct cagttgttct cttttgagaa ttatttcttt 1920
tctaatttgc ctgatttttc tattaattca ttaggtccac tcgcacgcgg gaactcgcgg 1980
tttgcgtgga tgacacgcaa atccgaggag actatcacgc cttggaactt cgaagaggtc 2040
gtggacaagg gtgcgagtgc acagtccttc atcgaaagga tgaccaactt cgataagaat 2100
ctcccaaatg agaaagtcct gcccaagcat agtctcctgt acgaatactt cacggtctac 2160
aacgagctga cgaaggtgaa atatgtgacg gaggggatgc gcaaaccggc cttcctgtca 2220
ggtaaatcct ggtccacact tttacgataa aaacacaaga ttttaaacta tgaactgatc 2280
aataatcatt cctaaaagac cacacttttg ttttgtttct aaagtaattt ttactgttat 2340
aacaggtgag cagaagaagg ccattgtcga tctcttgttc aaaaccaatc ggaaggtcac 2400
tgtgaaacag cttaaagagg actactttaa gaagatcgaa tgctttgatt ctgtggaaat 2460
cagcggcgtt gaggataggt tcaatgcctc tcttggcaca taccatgacc tgttgaaaat 2520
catcaaggac aaggacttcc ttgacaacga ggagaacgag gacatcctcg aggacatcgt 2580
gctgactctc acgctgtttg aggacagaga aatgatcgag gagcgcctta agacttatgc 2640
gcatctgttc gatgacaagg tcatgaagca gttgaagagg aggagatata caggtaagag 2700
gtcaaaaggt ttccgcaatg atccctcttt ttttgtttct ctagtttcaa gaatttgggt 2760
atatgactaa cttctgagtg ttccttgatg catatttgtg atgagacaaa tgtttgttct 2820
atgttttagg ttggggaagg ctctccagga agctcatcaa cggcatccgc gacaagcaat 2880
ccggcaagac tatactggac tttctcaaat ccgacggttt tgcgaatcgg aacttcatgc 2940
agcttattca cgatgactca ctgaccttca aagaagatat ccagaaggcc caagtgtcag 3000
gtcagggcga tagccttcac gaacacatag ccaacctggc tggatcgcca gctataaaga 3060
agggcatact gcagacagtg aaggttgtgg atgagctggt gaaggtaagt tctgcatttg 3120
gttatgctcc ttgcatttta ggtgttcgtc gcacttccat ttccatgaat agctaagatt 3180
ttttttctct gcattcattc ttcttgcctc agttctaact gtttgtggta tttttgtttt 3240
aattattgct acaggtcatg ggccgccata agccggagaa catcgtcatc gagatggcga 3300
gggaaaacca gacgactcag aaagggcaga agaactcacg ggagcgcatg aagcggatag 3360
aggaaggcat caaggagctt gggagtcaga ttctgaaaga gcacccagtc gaaaatactc 3420
aactccagaa cgagaagctg tacctctatt acctccagaa tgggagagat atgtacgtcg 3480
accaagagct cgacattaac agactctccg actatgatgt ggatcacatt gtccctcaat 3540
ctttcctgaa ggacgatagt attgacaaca aggtaaagca actgtgtttt aatcaatttc 3600
ttgtcaggat atatggatta taacttaatt tttgagaaat ctgtagtatt tggcgtgaaa 3660
tgagtttgct ttttggtttc tcccgtgtta taggtcctta cgcgctcaga caagaaccgc 3720
ggaaaatccg acaatgtacc cagcgaggag gttgtgaaga agatgaagaa ctattggagg 3780
cagcttttga atgctaagct cataacccaa cggaaattcg acaatctcac gaaggcagaa 3840
aggggcggac tgtctgagct cgacaaagcc ggcttcatca agcgccagtt ggttgaaact 3900
cgtcagatta cgaaacatgt ggcccagata ctcgattcgc gtatgaatac gaagtatgat 3960
gagaatgaca aacttatcag ggaggtaaag gtaaagtttc caactttcct ttaccatatc 4020
aaactaaagt tcgaaacttt ttatttgatc aacttcaagg ccacccgatc tttctattcc 4080
tgattaattt gtgatgaatc catattgact tttgatggtt acgcaggtga tcaccctcaa 4140
gagcaaactg gttagtgact tccggaagga cttccagttt tacaaggttc gcgagatcaa 4200
caactaccat catgcccatg acgcctacct gaacgccgtt gttggcactg ctctcatcaa 4260
gaagtatccg aaactggagt ctgagtttgt gtacggggat tacaaggtgt acgacgttag 4320
gaagatgatc gcgaagtcag aacaagagat cggcaaggct accgcgaaat acttctttta 4380
ctcgaatatc atgaacttct tcaagacaga gatcactctg gcgaatggtg aaatccggaa 4440
gaggcctctg atcgagacaa atggcgaaac aggtctgtct ttcctatttc atatgtttaa 4500
tcctaggaat ttgatcaatt gattgtatgt atgtcgatcc caagactttc ttgttcactt 4560
atatcttaac tctctctttg ctgtttcttg caggtgagat tgtctgggat aagggcaggg 4620
attttgcgac tgtgcgtaag gttctcagca tgccccaagt caacatagtc aagaaaacgg 4680
aggttcaaac cggtggtttc tccaaggagt ccattctccc taagcgcaac tccgacaaac 4740
tgattgcgag gaagaaggat tgggatccga agaaatacgg aggctttgat agccctaccg 4800
tggcatacag cgtactggta gtggccaagg tggagaaggg caagagcaag aaactgaaaa 4860
gcgtcaagga actgcttgga attaccataa tggaaaggtc ctcgttcgag aagaatccga 4920
tcgacttcct cgaggctaaa ggtaaaatat tggatgccag acgatattct ttcttttgat 4980
ttgtaacttt ttcctgtcaa ggtcgataaa ttttattttt tttggtaaaa ggtcgataat 5040
ttttttttgg agccattatg taattttcct aattaactga accaaaatta tactttgcag 5100
gttacaaaga ggtgaagaaa gacctcatta tcaaactgcc caagtattcg cttttcgaat 5160
tggaaaatgg cagaaaacgc atgctggcat ctgccggaga actgcagaag ggcaacgagc 5220
tggcattgcc cagtaagtac gtcaacttcc tgtacttggc ctcacactat gagaagctga 5280
aggggtcacc agaggacaac gagcagaagc agttgtttgt cgagcagcac aagcactatc 5340
ttgatgagat catagagcag atcagcgaat tttccaagcg ggtcattctt gcagacgcta 5400
acctcgataa ggtaaggact tctcatgaat attagtggca gattagtgtt gttaaagtct 5460
ttggttagat aatcgatgcc tcctaattgt ccatgtttta ctggttttct acaattacag 5520
gtgctttccg cgtacaacaa gcacagagat aagccgataa gggaacaagc ggaaaacatc 5580
atccacctgt tcacactgac caatctggga gccccagcag cctttaagta cttcgatacc 5640
actatcgaca gaaagcgcta cacatcaacc aaggaagtgt tggacgctac ccttattcac 5700
caatctatta cagggctcta tgagacaagg atagatctgt cgcagttggg tggtgactct 5760
agggctgacc caaagaagaa gcgtaaagtc ggttcg 5796
<210> 17
<211> 722
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 17: 模块 tOCS 的多核苷酸序列
<400> 17
gcttgtcctg ctttaatgag atatgcgaga agcctatgat cgcatgatat ttgctttcaa 60
ttctgttgtg cacgttgtaa aaaacctgag catgtgtagc tcagatcctt accgccggtt 120
tcggttcatt ctaatgaata tatcacccgt tactatcgta tttttatgaa taatattctc 180
cgttcaattt actgattgta ccctactact tatatgtaca atattaaaat gaaaacaata 240
tattgtgctg aataggttta tagcgacatc tatgatagag cgccacaata acaaacaatt 300
gcgttttatt attacaaatc caattttaaa aaaagcggca gaaccggtca aacctaaaag 360
actgattaca taaatcttat tcaaatttca aaagtgcccc aggggctagt atctacgaca 420
caccgagcgg cgaactaata acgctcactg aagggaactc cggttccccg ccggcgcgca 480
tgggtgagat tccttgaagt tgagtattgg ccgtccgctc taccgaaagt tacgggcacc 540
attcaacccg gtccagcacg gcggccgggt aaccgacttg ctgccccgag aattatgcag 600
catttttttg gtgtatgtgg gccccaaatg aagtgcaggt caaaccttga cagtgacgac 660
aaatcgttgg gcgggtccag ggcgaatttt gcgacaacat gtcgaggctc agcaggaccg 720
ct 722
<210> 18
<211> 97
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 18: 编码接头2xLF2的多核苷酸
<400> 18
ttcgggtgga ggtggttctg gtggaggtgg atcaggagga ggaggttcgg gtggaggtgg 60
ttctggtgga ggtggatcag gaggaggagg atcaatg 97
<210> 19
<211> 187
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 19: 编码接头4xLF2的多核苷酸
<400> 19
ttcgggtgga ggtggttctg gtggaggtgg atcaggagga ggaggttcgg gtggaggtgg 60
ttctggtgga ggtggatcag gaggaggagg atcaggtgga ggtggttctg gtggaggtgg 120
atcaggagga ggaggttcag gtggaggtgg ttctggtgga ggtggatcag gaggaggagg 180
atcaatg 187
<210> 20
<211> 439
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 20: 编码接头XTEN144的多核苷酸
<400> 20
ttcgggtact tctactgagc cttctgaagg ttctgctcct ggaacttctg agtctgctac 60
tcctgaatct ggtcctggtt ctgagccagc tacttctggt tcagaaaccc ctggtactag 120
cgagtcagct acaccagagt ctggaccagg atctgaacct gctactagtg gatctgagac 180
acctggaact agtgagagtg caactcctga gtcaggacct ggtacttcaa cagaacctag 240
tgagggtagt gctccaggca ctagtgaatc tgcaactcca gaaagtggac ctggatctcc 300
tgctggttct cctacttcta cagaagaggg tagtcctgct ggaagcccta catctactga 360
agaaggttct ccagctggca gtccaacttc aactgaagag ggaacttcag agagcgctac 420
acctgaaagt ggtccaatg 439
<210> 21
<211> 124
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 21: 编码接头XTEN40的多核苷酸
<400> 21
ttcgggttca gaaacccctg gtactagcga gtcagctaca ccagagtctg gaccaggatc 60
tgaacctgct actagtggat ctgagacacc tggaactagt gagagtgcaa ctcctgagtc 120
aatg 124
<210> 22
<211> 52
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 22: 编码接头XTEN16的多核苷酸
<400> 22
ttcgggttca gaaacccctg gtactagcga gtcagctaca ccagagtcaa tg 52
<210> 23
<211> 908
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 23: 编码用于C末端核酸外切酶-Cas9融合体的T7核酸外切酶的多核苷酸
<400> 23
aatggctctg cttgacctga agcagttcta tgagcttaga gagggctgcg acgataaggg 60
tattctggtg atggatggtg actggcttgt gttccaagct atgtctgctg ctgagttcga 120
cgcctcttgg gaagaagaaa tttggcaccg ttgctgcgat cacgctaagg ctagacagat 180
ccttgaggac agcatcaaga gctacgagac tcggaagaaa gcttgggctg gtgctcctat 240
tgtgctggct ttcaccgatt ctgtgaactg gcggaaagag ctggttgacc ctaactacaa 300
ggctaaccgg aaggctgtga agaagcctgt tggttacttc gagttcctgg acgctctttt 360
cgagcgggaa gagttctact gcatcaggga acctatgctt gagggcgacg atgtgatggg 420
tgtgattgct tctaacccta gcgctttcgg tgctaggaag gccgttatta tcagctgcga 480
caaggacttc aagaccattc cgaactgcga ctttctgtgg tgcactaccg gtaacattct 540
tacccagacc gaagagtctg ctgattggtg gcatcttttc cagaccatca agggcgatat 600
caccgatggc tactctggta ttgctggttg gggtgatact gctgaggact tccttaacaa 660
cccgttcatt accgagccta agaccagcgt gttgaagtcc ggtaagaaca agggtcaaga 720
ggtgaccaag tgggtgaaga gggatcctga acctcatgag actctgtggg actgcatcaa 780
gtctatcggt gctaaggctg gtatgaccga ggaagatatc atcaagcagg gtcagatggc 840
tcggatcctt aggttcaacg agtacaactt catcgacaaa gagatctacc tctggcggcc 900
ttgagctt 908
<210> 24
<211> 881
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 24: 编码用于C末端核酸外切酶-Cas9融合体的T5核酸外切酶的多核苷酸
<400> 24
aatgtctaag agctggggca agttcatcga agaggaagag gctgagatgg cctctcggag 60
gaatcttatg atcgtggatg gtactaacct cggcttccgg ttcaagcaca acaacagcaa 120
gaagccgttc gcctcctctt acgtgtcaac cattcagagc ctggccaagt cttactctgc 180
taggactacc attgtgctgg gcgataaggg aaagtctgtg ttcaggcttg agcaccttcc 240
tgagtacaag ggcaaccgtg atgagaagta tgctcagagg actgaggaag agaaggctct 300
tgacgagcag ttcttcgagt acctgaagga tgctttcgag ctgtgcaaga ccacctttcc 360
taccttcacc attaggggcg ttgaggctga tgatatggct gcctacattg tgaagctgat 420
cggccacctt tacgatcacg tgtggcttat ctctaccgat ggcgattggg ataccctgct 480
taccgataag gtgagcaggt tctcattcac taccaggcgt gagtaccacc tgagggatat 540
gtacgagcac cataacgtgg acgacgttga gcagttcatc tccctgaagg ctatcatggg 600
tgatctgggt gataacatca ggggcgtcga aggtattggt gctaagaggg gttacaacat 660
catccgtgag ttcggcaacg tgctggatat tatcgatcag ctgcctctgc ctggcaagca 720
gaagtacatt cagaacctga acgccagcga ggaactgctg tttaggaacc ttattctggt 780
ggacctgccg acttactgcg ttgacgctat tgctgctgtt ggtcaggatg tgctcgacaa 840
gttcaccaag gacatccttg agattgccga gcagtgagct t 881
<210> 25
<211> 1886
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 25: 编码用于C末端核酸外切酶-Cas9融合体的UL12核酸外切酶的多核苷酸
<400> 25
aatggaatct actgtgggtc ctgcttgtcc tcctggtagg actgttacta agaggccttg 60
ggctcttgct gaggatactc ctagaggtcc tgactctcca ccaaagaggc ctagacctaa 120
ctctcttcct ctgactacta ccttcaggcc tttgccacct cctccacaaa ctacctctgc 180
tgtggatcct tcttctcact ctcctgtgaa tcctccaagg gatcagcatg ctactgatac 240
cgctgatgag aagcctagag ctgcttctcc tgctctgtct gatgcttctg gtcctcctac 300
tcctgatatc cctctttctc ctggtggtac tcatgctagg gatcctgatg cagatcctga 360
tagccctgat ctggactcta tgtggtctgc ttctgtgatc cctaacgctc tgccttctca 420
cattctggct gagactttcg agaggcacct taggggtttg cttagaggtg ttagggctcc 480
tcttgctatt ggtcctcttt gggctagact ggactacctt tgctctcttg ctgtggtgct 540
tgaagaggct ggtatggtgg atagaggtct tggtagacac ctttggaggc ttactagaag 600
aggtcctcca gctgctgctg atgctgttgc tcctagacct cttatgggat tctacgaggc 660
tgctactcag aaccaggctg attgtcaact ttgggctctg cttagaaggg gtcttactac 720
cgcttctact cttagatggg gtcctcaggg accttgcttt tctcctcaat ggctgaaaca 780
caacgctagc cttaggcctg atgtgcagtc atctgctgtg atgttcggta gggttaacga 840
gcctaccgct cggtctttgc ttttcaggta ttgcgttggc agggctgatg atggtggtga 900
agctggtgct gataccaggc ggtttatttt ccacgagcca tctgatctgg ccgaagagaa 960
tgttcatacc tgcggtgtgc ttatggatgg tcacactgga atggtgggcg cttctcttga 1020
tattcttgtg tgccctaggg acatccacgg ttaccttgct ccagttccta agactcctct 1080
ggccttttac gaggttaagt gcagggctaa gtacgctttc gatcctatgg acccttctga 1140
ccctactgct tctgcttacg aggatctgat ggctcataga agccctgagg ctttcagggc 1200
tttcatccgg tctattccta agccgagcgt gagatacttt gctcctggaa gagttcctgg 1260
tcctgaggaa gctcttgtta ctcaagatca ggcttggtct gaggctcatg cttcaggtga 1320
gaagagaaga tgctcagctg ctgatagggc actcgttgag cttaattctg gcgtggtgtc 1380
tgaggtgttg cttttcggtg ctcctgatct cggtaggcac actatttctc cagtgagctg 1440
gtcctctggt gatcttgtta gaagggaacc cgtgttcgct aatcctaggc accctaactt 1500
caagcagatt ctggtgcagg gttacgtgct ggattctcac tttccagatt gccctccaca 1560
tcctcacctt gtgactttca ttggtcggca taggacctca gctgaagagg gtgttacttt 1620
caggcttgag gatggtgctg gtgctcttgg tgctgctggt ccttctaagg cttctattct 1680
tcctaaccag gccgtgccta tcgctcttat tatcacccct gtgaggatcg accccgagat 1740
ctataaggct atccagaggt catctcggct ggctttcgat gatactttgg ctgagctttg 1800
ggcctctaga tctcctggtc caggtcctgc tgctgcagaa actacttctt cttcacctac 1860
caccggcagg tcatctagat aggctt 1886
<210> 26
<211> 1868
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 26: 编码用于C末端核酸外切酶-Cas9融合体的UL12-2核酸外切酶的多核苷酸
<400> 26
aatggctgct gctgctactc ctggtgctaa gaggcctgct gatcctgcta gagatcctga 60
ctctccacca aagaggccaa ggcctaactc tcttgatctt gctactgtgt tcggtcctag 120
acctgctcct cctcatccta cttctccagg tgctcctggt tctcattctc ctcaatctcc 180
acctagaggt cagcctgatg gtggtgctcc aggtgaaaag gctagaccag cttctcctgc 240
tcttagcgaa gcttcttctg gtcctcctac tcctgatatc cctctttctc ctggtggcgc 300
tcatgctatt gatcctgatt gctctcctgg acctcctgat ccagatccta tgtggtctgc 360
ttctgctatc cctaacgctc tgcctcctca tattctggct gagactttcg agaggcacct 420
taggggtttg cttaggggtg ttagatctcc tcttgctatc ggtcctcttt gggctagact 480
tgactacctt tgctctctgg tggtgtctct tgaagctgct ggtatggtgg atagaggtct 540
tggtagacac ctttggaggc ttactagaag ggctcctcca tctgctgctg aagctgttgc 600
tcctagacca cttatgggat tctacgaggc tgctacccag aaccaggctg attgtcaact 660
ttgggctctg cttagaaggg gtcttactac cgcttctact cttagatggg gtgctcaggg 720
accttgcttt tcatctcagt ggcttaccca caacgctagc cttaggcttg atgctcagtc 780
aagcgctgtg atgttcggta gagtgaatga gcctaccgct aggaaccttc tgttcaggta 840
ttgcgttggt agggctgatg ctggcgttaa cgatgatgca gatgctggca gattcgtgtt 900
ccatcagcca ggtgatctgg ccgaagagaa tgttcatgct tgcggtgtgc ttatggatgg 960
tcacactgga atggtgggcg cttctcttga tattcttgtg tgccctaggg atcctcacgg 1020
ttatcttgct ccagctcctc aaactcctct ggccttttat gaggttaagt gccgggctaa 1080
gtacgctttc gatccagctg accctggcgc tcctgctgct tcagcttatg aagatctgat 1140
ggctaggcgt agccctgagg cttttagggc tttcattcgg agcatcccta atccgggtgt 1200
gagatatttt gctcctggaa gagttcctgg gcctgaagag gctcttgtta cccaagatag 1260
agactggctg gattctagag cagctggtga gaagagaaga tgctctgctc ctgatagggc 1320
actcgttgag cttaattctg gcgtggtgtc tgaggtgttg cttttcggtg ttcctgatct 1380
cgagcggagg actatttctc ctgttgcttg gtcatctggt gagcttgtga gaagggaacc 1440
gatcttcgct aatcctaggc accctaactt caagcagatt ctggtgcagg gttacgtgct 1500
ggattcacac tttccagatt gccctcttca gcctcacctg gtgacttttc ttggtaggca 1560
tagagctggt gctgaggaag gtgttacttt caggcttgag gatggtagag gtgcaccagc 1620
tggaagaggt ggtgcccctg gtcctgctaa ggcttctatt cttcctgatc aagctgtgcc 1680
gatcgctctg attattaccc ctgttagagt tgagccgggc atctacagag atatccgtag 1740
gaattctcgg ctggctttcg atgataccct tgctaagctt tgggcctcta gatctccagg 1800
tagaggtcct gctgcagctg atacaacttc ttcttcacct actgccggcc gttcttctag 1860
atgagctt 1868
<210> 27
<211> 810
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 27: sgRNA转录单元
<400> 27
ctgatgggct gcctgtatcg agtggtgatt ttgtgccgag ctgccggtcg gggagctgtt 60
ggctggctgg tggcaggata tattgtggtg taaacaaatt gacgcttaga caacttaata 120
acacattgcg gacgttttta atgtactggg gtggatgcag tgggccccac tctgtgaaga 180
caaactagaa ttcgagctcg gagccaaaac gtagaaccga taccccaata aaacaaaagt 240
accaataccg ttattaaaat agttaaacca ataactcatt accgataaat cgcagttcta 300
ctttgttttt ctccattgaa gtccatgaag caagagaaat aagaaaaagg ccggcccatt 360
tagattgaag atccaggccc aggcccgtaa aagaaaccca acaagcaaat tctccctcat 420
cgcttataca aagctacttt gcctcgttta tatagcggaa tatgaacatg tatgattgag 480
ccacatatcc actggtgggt ttaagagcta tgctggaaac agcatagcaa gtttaaataa 540
ggctagtccg ttatcaactt gaaaaagtgg caccgagtcg gtgctttttt ttgcaaaatt 600
ttccagatcg atttcttctt cctctgttct tcggcgttca atttctgggg tcgctttact 660
tgtcttctgc acgaagtggt ttaaactatc agtgtttgac aggatatatt ggcgggtaaa 720
cctaagagaa aagagcgttt attagaataa tcggatattt aaaagggcgt gaaaaggttt 780
atccgttcgt ccatttgtat gtgcatgcca 810
<210> 28
<211> 20
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 28: sgR-PGK1的间隔子
<400> 28
agccacatat ccactggtgg 20
<210> 29
<211> 20
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 29: sgR-PGK2的间隔子
<400> 29
ccactgatta tgctgatcac 20
<210> 30
<211> 300
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 30: T7核酸外切酶的氨基酸序列
<400> 30
Met Ala Leu Leu Asp Leu Lys Gln Phe Tyr Glu Leu Arg Glu Gly Cys
1 5 10 15
Asp Asp Lys Gly Ile Leu Val Met Asp Gly Asp Trp Leu Val Phe Gln
20 25 30
Ala Met Ser Ala Ala Glu Phe Asp Ala Ser Trp Glu Glu Glu Ile Trp
35 40 45
His Arg Cys Cys Asp His Ala Lys Ala Arg Gln Ile Leu Glu Asp Ser
50 55 60
Ile Lys Ser Tyr Glu Thr Arg Lys Lys Ala Trp Ala Gly Ala Pro Ile
65 70 75 80
Val Leu Ala Phe Thr Asp Ser Val Asn Trp Arg Lys Glu Leu Val Asp
85 90 95
Pro Asn Tyr Lys Ala Asn Arg Lys Ala Val Lys Lys Pro Val Gly Tyr
100 105 110
Phe Glu Phe Leu Asp Ala Leu Phe Glu Arg Glu Glu Phe Tyr Cys Ile
115 120 125
Arg Glu Pro Met Leu Glu Gly Asp Asp Val Met Gly Val Ile Ala Ser
130 135 140
Asn Pro Ser Ala Phe Gly Ala Arg Lys Ala Val Ile Ile Ser Cys Asp
145 150 155 160
Lys Asp Phe Lys Thr Ile Pro Asn Cys Asp Phe Leu Trp Cys Thr Thr
165 170 175
Gly Asn Ile Leu Thr Gln Thr Glu Glu Ser Ala Asp Trp Trp His Leu
180 185 190
Phe Gln Thr Ile Lys Gly Asp Ile Thr Asp Gly Tyr Ser Gly Ile Ala
195 200 205
Gly Trp Gly Asp Thr Ala Glu Asp Phe Leu Asn Asn Pro Phe Ile Thr
210 215 220
Glu Pro Lys Thr Ser Val Leu Lys Ser Gly Lys Asn Lys Gly Gln Glu
225 230 235 240
Val Thr Lys Trp Val Lys Arg Asp Pro Glu Pro His Glu Thr Leu Trp
245 250 255
Asp Cys Ile Lys Ser Ile Gly Ala Lys Ala Gly Met Thr Glu Glu Asp
260 265 270
Ile Ile Lys Gln Gly Gln Met Ala Arg Ile Leu Arg Phe Asn Glu Tyr
275 280 285
Asn Phe Ile Asp Lys Glu Ile Tyr Leu Trp Arg Pro
290 295 300
<210> 31
<211> 291
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 31: T5核酸外切酶的氨基酸序列
<400> 31
Met Ser Lys Ser Trp Gly Lys Phe Ile Glu Glu Glu Glu Ala Glu Met
1 5 10 15
Ala Ser Arg Arg Asn Leu Met Ile Val Asp Gly Thr Asn Leu Gly Phe
20 25 30
Arg Phe Lys His Asn Asn Ser Lys Lys Pro Phe Ala Ser Ser Tyr Val
35 40 45
Ser Thr Ile Gln Ser Leu Ala Lys Ser Tyr Ser Ala Arg Thr Thr Ile
50 55 60
Val Leu Gly Asp Lys Gly Lys Ser Val Phe Arg Leu Glu His Leu Pro
65 70 75 80
Glu Tyr Lys Gly Asn Arg Asp Glu Lys Tyr Ala Gln Arg Thr Glu Glu
85 90 95
Glu Lys Ala Leu Asp Glu Gln Phe Phe Glu Tyr Leu Lys Asp Ala Phe
100 105 110
Glu Leu Cys Lys Thr Thr Phe Pro Thr Phe Thr Ile Arg Gly Val Glu
115 120 125
Ala Asp Asp Met Ala Ala Tyr Ile Val Lys Leu Ile Gly His Leu Tyr
130 135 140
Asp His Val Trp Leu Ile Ser Thr Asp Gly Asp Trp Asp Thr Leu Leu
145 150 155 160
Thr Asp Lys Val Ser Arg Phe Ser Phe Thr Thr Arg Arg Glu Tyr His
165 170 175
Leu Arg Asp Met Tyr Glu His His Asn Val Asp Asp Val Glu Gln Phe
180 185 190
Ile Ser Leu Lys Ala Ile Met Gly Asp Leu Gly Asp Asn Ile Arg Gly
195 200 205
Val Glu Gly Ile Gly Ala Lys Arg Gly Tyr Asn Ile Ile Arg Glu Phe
210 215 220
Gly Asn Val Leu Asp Ile Ile Asp Gln Leu Pro Leu Pro Gly Lys Gln
225 230 235 240
Lys Tyr Ile Gln Asn Leu Asn Ala Ser Glu Glu Leu Leu Phe Arg Asn
245 250 255
Leu Ile Leu Val Asp Leu Pro Thr Tyr Cys Val Asp Ala Ile Ala Ala
260 265 270
Val Gly Gln Asp Val Leu Asp Lys Phe Thr Lys Asp Ile Leu Glu Ile
275 280 285
Ala Glu Gln
290
<210> 32
<211> 626
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 32: UL12-1核酸外切酶的氨基酸序列
<400> 32
Met Glu Ser Thr Val Gly Pro Ala Cys Pro Pro Gly Arg Thr Val Thr
1 5 10 15
Lys Arg Pro Trp Ala Leu Ala Glu Asp Thr Pro Arg Gly Pro Asp Ser
20 25 30
Pro Pro Lys Arg Pro Arg Pro Asn Ser Leu Pro Leu Thr Thr Thr Phe
35 40 45
Arg Pro Leu Pro Pro Pro Pro Gln Thr Thr Ser Ala Val Asp Pro Ser
50 55 60
Ser His Ser Pro Val Asn Pro Pro Arg Asp Gln His Ala Thr Asp Thr
65 70 75 80
Ala Asp Glu Lys Pro Arg Ala Ala Ser Pro Ala Leu Ser Asp Ala Ser
85 90 95
Gly Pro Pro Thr Pro Asp Ile Pro Leu Ser Pro Gly Gly Thr His Ala
100 105 110
Arg Asp Pro Asp Ala Asp Pro Asp Ser Pro Asp Leu Asp Ser Met Trp
115 120 125
Ser Ala Ser Val Ile Pro Asn Ala Leu Pro Ser His Ile Leu Ala Glu
130 135 140
Thr Phe Glu Arg His Leu Arg Gly Leu Leu Arg Gly Val Arg Ala Pro
145 150 155 160
Leu Ala Ile Gly Pro Leu Trp Ala Arg Leu Asp Tyr Leu Cys Ser Leu
165 170 175
Ala Val Val Leu Glu Glu Ala Gly Met Val Asp Arg Gly Leu Gly Arg
180 185 190
His Leu Trp Arg Leu Thr Arg Arg Gly Pro Pro Ala Ala Ala Asp Ala
195 200 205
Val Ala Pro Arg Pro Leu Met Gly Phe Tyr Glu Ala Ala Thr Gln Asn
210 215 220
Gln Ala Asp Cys Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr
225 230 235 240
Ala Ser Thr Leu Arg Trp Gly Pro Gln Gly Pro Cys Phe Ser Pro Gln
245 250 255
Trp Leu Lys His Asn Ala Ser Leu Arg Pro Asp Val Gln Ser Ser Ala
260 265 270
Val Met Phe Gly Arg Val Asn Glu Pro Thr Ala Arg Ser Leu Leu Phe
275 280 285
Arg Tyr Cys Val Gly Arg Ala Asp Asp Gly Gly Glu Ala Gly Ala Asp
290 295 300
Thr Arg Arg Phe Ile Phe His Glu Pro Ser Asp Leu Ala Glu Glu Asn
305 310 315 320
Val His Thr Cys Gly Val Leu Met Asp Gly His Thr Gly Met Val Gly
325 330 335
Ala Ser Leu Asp Ile Leu Val Cys Pro Arg Asp Ile His Gly Tyr Leu
340 345 350
Ala Pro Val Pro Lys Thr Pro Leu Ala Phe Tyr Glu Val Lys Cys Arg
355 360 365
Ala Lys Tyr Ala Phe Asp Pro Met Asp Pro Ser Asp Pro Thr Ala Ser
370 375 380
Ala Tyr Glu Asp Leu Met Ala His Arg Ser Pro Glu Ala Phe Arg Ala
385 390 395 400
Phe Ile Arg Ser Ile Pro Lys Pro Ser Val Arg Tyr Phe Ala Pro Gly
405 410 415
Arg Val Pro Gly Pro Glu Glu Ala Leu Val Thr Gln Asp Gln Ala Trp
420 425 430
Ser Glu Ala His Ala Ser Gly Glu Lys Arg Arg Cys Ser Ala Ala Asp
435 440 445
Arg Ala Leu Val Glu Leu Asn Ser Gly Val Val Ser Glu Val Leu Leu
450 455 460
Phe Gly Ala Pro Asp Leu Gly Arg His Thr Ile Ser Pro Val Ser Trp
465 470 475 480
Ser Ser Gly Asp Leu Val Arg Arg Glu Pro Val Phe Ala Asn Pro Arg
485 490 495
His Pro Asn Phe Lys Gln Ile Leu Val Gln Gly Tyr Val Leu Asp Ser
500 505 510
His Phe Pro Asp Cys Pro Pro His Pro His Leu Val Thr Phe Ile Gly
515 520 525
Arg His Arg Thr Ser Ala Glu Glu Gly Val Thr Phe Arg Leu Glu Asp
530 535 540
Gly Ala Gly Ala Leu Gly Ala Ala Gly Pro Ser Lys Ala Ser Ile Leu
545 550 555 560
Pro Asn Gln Ala Val Pro Ile Ala Leu Ile Ile Thr Pro Val Arg Ile
565 570 575
Asp Pro Glu Ile Tyr Lys Ala Ile Gln Arg Ser Ser Arg Leu Ala Phe
580 585 590
Asp Asp Thr Leu Ala Glu Leu Trp Ala Ser Arg Ser Pro Gly Pro Gly
595 600 605
Pro Ala Ala Ala Glu Thr Thr Ser Ser Ser Pro Thr Thr Gly Arg Ser
610 615 620
Ser Arg
625
<210> 33
<211> 620
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 33: UL12-2核酸外切酶的氨基酸序列
<400> 33
Met Ala Ala Ala Ala Thr Pro Gly Ala Lys Arg Pro Ala Asp Pro Ala
1 5 10 15
Arg Asp Pro Asp Ser Pro Pro Lys Arg Pro Arg Pro Asn Ser Leu Asp
20 25 30
Leu Ala Thr Val Phe Gly Pro Arg Pro Ala Pro Pro His Pro Thr Ser
35 40 45
Pro Gly Ala Pro Gly Ser His Ser Pro Gln Ser Pro Pro Arg Gly Gln
50 55 60
Pro Asp Gly Gly Ala Pro Gly Glu Lys Ala Arg Pro Ala Ser Pro Ala
65 70 75 80
Leu Ser Glu Ala Ser Ser Gly Pro Pro Thr Pro Asp Ile Pro Leu Ser
85 90 95
Pro Gly Gly Ala His Ala Ile Asp Pro Asp Cys Ser Pro Gly Pro Pro
100 105 110
Asp Pro Asp Pro Met Trp Ser Ala Ser Ala Ile Pro Asn Ala Leu Pro
115 120 125
Pro His Ile Leu Ala Glu Thr Phe Glu Arg His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Ser Pro Leu Ala Ile Gly Pro Leu Trp Ala Arg Leu
145 150 155 160
Asp Tyr Leu Cys Ser Leu Val Val Ser Leu Glu Ala Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Arg His Leu Trp Arg Leu Thr Arg Arg Ala Pro
180 185 190
Pro Ser Ala Ala Glu Ala Val Ala Pro Arg Pro Leu Met Gly Phe Tyr
195 200 205
Glu Ala Ala Thr Gln Asn Gln Ala Asp Cys Gln Leu Trp Ala Leu Leu
210 215 220
Arg Arg Gly Leu Thr Thr Ala Ser Thr Leu Arg Trp Gly Ala Gln Gly
225 230 235 240
Pro Cys Phe Ser Ser Gln Trp Leu Thr His Asn Ala Ser Leu Arg Leu
245 250 255
Asp Ala Gln Ser Ser Ala Val Met Phe Gly Arg Val Asn Glu Pro Thr
260 265 270
Ala Arg Asn Leu Leu Phe Arg Tyr Cys Val Gly Arg Ala Asp Ala Gly
275 280 285
Val Asn Asp Asp Ala Asp Ala Gly Arg Phe Val Phe His Gln Pro Gly
290 295 300
Asp Leu Ala Glu Glu Asn Val His Ala Cys Gly Val Leu Met Asp Gly
305 310 315 320
His Thr Gly Met Val Gly Ala Ser Leu Asp Ile Leu Val Cys Pro Arg
325 330 335
Asp Pro His Gly Tyr Leu Ala Pro Ala Pro Gln Thr Pro Leu Ala Phe
340 345 350
Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Ala Asp Pro
355 360 365
Gly Ala Pro Ala Ala Ser Ala Tyr Glu Asp Leu Met Ala Arg Arg Ser
370 375 380
Pro Glu Ala Phe Arg Ala Phe Ile Arg Ser Ile Pro Asn Pro Gly Val
385 390 395 400
Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro Glu Glu Ala Leu Val
405 410 415
Thr Gln Asp Arg Asp Trp Leu Asp Ser Arg Ala Ala Gly Glu Lys Arg
420 425 430
Arg Cys Ser Ala Pro Asp Arg Ala Leu Val Glu Leu Asn Ser Gly Val
435 440 445
Val Ser Glu Val Leu Leu Phe Gly Val Pro Asp Leu Glu Arg Arg Thr
450 455 460
Ile Ser Pro Val Ala Trp Ser Ser Gly Glu Leu Val Arg Arg Glu Pro
465 470 475 480
Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys Gln Ile Leu Val Gln
485 490 495
Gly Tyr Val Leu Asp Ser His Phe Pro Asp Cys Pro Leu Gln Pro His
500 505 510
Leu Val Thr Phe Leu Gly Arg His Arg Ala Gly Ala Glu Glu Gly Val
515 520 525
Thr Phe Arg Leu Glu Asp Gly Arg Gly Ala Pro Ala Gly Arg Gly Gly
530 535 540
Ala Pro Gly Pro Ala Lys Ala Ser Ile Leu Pro Asp Gln Ala Val Pro
545 550 555 560
Ile Ala Leu Ile Ile Thr Pro Val Arg Val Glu Pro Gly Ile Tyr Arg
565 570 575
Asp Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Asp Thr Leu Ala Lys
580 585 590
Leu Trp Ala Ser Arg Ser Pro Gly Arg Gly Pro Ala Ala Ala Asp Thr
595 600 605
Thr Ser Ser Ser Pro Thr Ala Gly Arg Ser Ser Arg
610 615 620
<210> 34
<211> 470
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 34: BGLF5核酸外切酶的氨基酸序列
<400> 34
Met Ala Asp Val Asp Glu Leu Glu Asp Pro Met Glu Glu Met Thr Ser
1 5 10 15
Tyr Thr Phe Ala Arg Phe Leu Arg Ser Pro Glu Thr Glu Ala Phe Val
20 25 30
Arg Asn Leu Asp Arg Pro Pro Gln Met Pro Ala Met Arg Tyr Val Tyr
35 40 45
Leu Tyr Cys Leu Cys Lys Gln Ile Gln Glu Phe Ser Gly Glu Thr Gly
50 55 60
Phe Cys Asp Phe Val Ser Ser Leu Val Gln Glu Asn Asp Ser Lys Asp
65 70 75 80
Gly Pro Ser Leu Lys Ser Ile Tyr Trp Gly Leu Gln Glu Ala Thr Asp
85 90 95
Glu Gln Arg Thr Val Leu Cys Ser Tyr Val Glu Ser Met Thr Arg Gly
100 105 110
Gln Ser Glu Asn Leu Met Trp Asp Ile Leu Arg Asn Gly Ile Ile Ser
115 120 125
Ser Ser Lys Leu Leu Ser Thr Ile Lys Asn Gly Pro Thr Lys Val Phe
130 135 140
Glu Pro Ala Pro Ile Ser Thr Asn His Tyr Phe Gly Gly Pro Val Ala
145 150 155 160
Phe Gly Leu Arg Cys Glu Asp Thr Val Lys Asp Ile Val Cys Lys Leu
165 170 175
Ile Cys Gly Asp Ala Ser Ala Asn Arg Gln Phe Gly Phe Met Ile Ser
180 185 190
Pro Thr Asp Gly Ile Phe Gly Val Ser Leu Asp Leu Cys Val Asn Val
195 200 205
Glu Ser Gln Gly Asp Phe Ile Leu Phe Thr Asp Arg Ser Cys Ile Tyr
210 215 220
Glu Ile Lys Cys Arg Phe Lys Tyr Leu Phe Ser Lys Ser Glu Phe Asp
225 230 235 240
Pro Ile Tyr Pro Ser Tyr Thr Ala Leu Tyr Lys Arg Pro Cys Lys Arg
245 250 255
Ser Phe Ile Arg Phe Ile Asn Ser Ile Ala Arg Pro Thr Val Glu Tyr
260 265 270
Val Pro Asp Gly Arg Leu Pro Ser Glu Gly Asp Tyr Leu Leu Thr Gln
275 280 285
Asp Glu Ala Trp Asn Leu Lys Asp Val Arg Lys Arg Lys Leu Gly Pro
290 295 300
Gly His Asp Leu Val Ala Asp Ser Leu Ala Ala Asn Arg Gly Val Glu
305 310 315 320
Ser Met Leu Tyr Val Met Thr Asp Pro Ser Glu Asn Ala Gly Arg Ile
325 330 335
Gly Ile Lys Asp Arg Val Pro Val Asn Ile Phe Ile Asn Pro Arg His
340 345 350
Asn Tyr Phe Tyr Gln Val Leu Leu Gln Tyr Lys Ile Val Gly Asp Tyr
355 360 365
Val Arg His Ser Gly Gly Gly Lys Pro Gly Arg Asp Cys Ser Pro Arg
370 375 380
Val Asn Ile Val Thr Ala Phe Phe Arg Lys Arg Ser Pro Leu Asp Pro
385 390 395 400
Ala Thr Cys Thr Leu Gly Ser Asp Leu Leu Leu Asp Ala Ser Val Glu
405 410 415
Ile Pro Val Ala Val Leu Val Thr Pro Val Val Leu Pro Asp Ser Val
420 425 430
Ile Arg Lys Thr Leu Ser Thr Ala Ala Gly Ser Trp Lys Ala Tyr Ala
435 440 445
Asp Asn Thr Phe Asp Thr Ala Pro Trp Val Pro Ser Gly Leu Phe Ala
450 455 460
Asp Asp Glu Ser Thr Pro
465 470
<210> 35
<211> 551
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 35: DUMAS核酸外切酶的氨基酸序列
<400> 35
Met Ala Arg Ser Gly Leu Asp Arg Ile Asp Ile Ser Pro Gln Pro Ala
1 5 10 15
Lys Lys Ile Ala Arg Val Gly Gly Leu Gln His Pro Phe Val Lys Thr
20 25 30
Asp Ile Asn Thr Ile Asn Val Glu His His Phe Ile Asp Thr Leu Gln
35 40 45
Lys Thr Ser Pro Asn Met Asp Cys Arg Gly Met Thr Ala Gly Ile Phe
50 55 60
Ile Arg Leu Ser His Met Tyr Lys Ile Leu Thr Thr Leu Glu Ser Pro
65 70 75 80
Asn Asp Val Thr Tyr Thr Thr Pro Gly Ser Thr Asn Ala Leu Phe Phe
85 90 95
Lys Thr Ser Thr Gln Pro Gln Glu Pro Arg Pro Glu Glu Leu Ala Ser
100 105 110
Lys Leu Thr Gln Asp Asp Ile Lys Arg Ile Leu Leu Thr Ile Glu Ser
115 120 125
Glu Thr Arg Gly Gln Gly Asp Asn Ala Ile Trp Thr Leu Leu Arg Arg
130 135 140
Asn Leu Ile Thr Ala Ser Thr Leu Lys Trp Ser Val Ser Gly Pro Val
145 150 155 160
Ile Pro Pro Gln Trp Phe Tyr His His Asn Thr Thr Asp Thr Tyr Gly
165 170 175
Asp Ala Ala Ala Met Ala Phe Gly Lys Thr Asn Glu Pro Ala Ala Arg
180 185 190
Ala Ile Val Glu Ala Leu Phe Ile Asp Pro Ala Asp Ile Arg Thr Pro
195 200 205
Asp His Leu Thr Pro Glu Ala Thr Thr Lys Phe Phe Asn Phe Asp Met
210 215 220
Leu Asn Thr Lys Ser Pro Ser Leu Leu Val Gly Thr Pro Arg Ile Gly
225 230 235 240
Thr Tyr Glu Cys Gly Leu Leu Ile Asp Val Arg Thr Gly Leu Ile Gly
245 250 255
Ala Ser Leu Asp Val Leu Val Cys Asp Arg Asp Pro Leu Thr Gly Thr
260 265 270
Leu Asn Pro His Pro Ala Glu Thr Asp Ile Ser Phe Phe Glu Ile Lys
275 280 285
Cys Arg Ala Lys Tyr Leu Phe Asp Pro Asp Asp Lys Asn Asn Pro Leu
290 295 300
Gly Arg Thr Tyr Thr Thr Leu Ile Asn Arg Pro Thr Met Ala Asn Leu
305 310 315 320
Arg Asp Phe Leu Tyr Thr Ile Lys Asn Pro Cys Val Ser Phe Phe Gly
325 330 335
Pro Ser Ala Asn Pro Ser Thr Arg Glu Ala Leu Ile Thr Asp His Val
340 345 350
Glu Trp Lys Arg Leu Gly Phe Lys Gly Gly Arg Ala Leu Thr Glu Leu
355 360 365
Asp Ala His His Leu Gly Leu Asn Arg Thr Ile Ser Ser Arg Val Trp
370 375 380
Val Phe Asn Asp Pro Asp Ile Gln Lys Gly Thr Ile Thr Thr Ile Ala
385 390 395 400
Trp Ala Thr Gly Asp Thr Ala Leu Gln Ile Pro Val Phe Ala Asn Pro
405 410 415
Arg His Ala Asn Phe Lys Gln Ile Ala Val Gln Thr Tyr Val Leu Ser
420 425 430
Gly Tyr Phe Pro Ala Leu Lys Leu Arg Pro Phe Leu Val Thr Phe Ile
435 440 445
Gly Arg Val Arg Arg Pro His Glu Val Gly Val Pro Leu Arg Val Asp
450 455 460
Thr Gln Ala Ala Ala Ile Tyr Glu Tyr Asn Trp Pro Thr Ile Pro Pro
465 470 475 480
His Cys Ala Val Pro Val Ile Ala Val Leu Thr Pro Ile Glu Val Asp
485 490 495
Val Pro Arg Val Thr Gln Ile Leu Lys Asp Thr Gly Asn Asn Ala Ile
500 505 510
Thr Ser Ala Leu Arg Ser Leu Arg Trp Asp Asn Leu His Pro Ala Val
515 520 525
Glu Glu Glu Ser Val Asp Cys Ala Asn Gly Thr Thr Ser Leu Leu Arg
530 535 540
Ala Thr Glu Lys Pro Leu Leu
545 550
<210> 36
<211> 524
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 36: MD5核酸外切酶的氨基酸序列
<400> 36
Met Glu Leu Gly Thr Lys Phe Pro Leu Ser Lys Ser Cys Lys Asp Glu
1 5 10 15
Ser Arg Lys Arg Lys Arg Gly Ile Thr Ile Asp Cys Asp Ser Gln Ile
20 25 30
Leu Val Gly Asp Glu Gln Ser Asn Ser Thr Lys Thr Lys Pro Tyr Asp
35 40 45
Glu Ile Cys Glu Asn Ile Val Pro Asn Tyr Thr Phe Gly Asn Tyr Ile
50 55 60
Leu Gln Lys Ile Asp Pro Asn Asp Cys Arg His Ser Leu His Pro Leu
65 70 75 80
Tyr His Arg Leu Phe Tyr Ile Ala Asp Val Ile Lys Gln Gly Ile Ser
85 90 95
Glu Gly Ser Leu Leu Glu Asn Lys Tyr Ser Tyr Ile Leu Glu Thr Glu
100 105 110
His Ile Leu Leu Asp Glu Ser Arg Ile Asn Asn Leu Ser Pro Ser Ile
115 120 125
His Ala Ser Arg Trp Cys Lys Met Val Glu Ser Leu Thr Arg Leu Gln
130 135 140
Ala Asn Ser Glu Leu Trp His Ile Phe Arg Gln Cys Leu Leu Thr Ala
145 150 155 160
Ser Ser Val Lys Trp Ser Pro Asn Gly Thr Ile Asn Thr Ala Gly Leu
165 170 175
Ile Thr Asn Asp Leu Pro Ser Arg Gly Gln Thr Glu Ser Ile Leu Phe
180 185 190
Gly Thr Arg Asn Glu Ser Leu Ala Lys Ser Leu Ile Ala Ala Leu Cys
195 200 205
Val Ser Gln Ser Ser Val Arg Thr Ile Asp Asn Ser Asp Lys Lys Asn
210 215 220
Glu Phe Asp Asn Thr Thr Thr Gly Ile Leu Asp Ile Glu Lys Tyr Ser
225 230 235 240
Cys Gly Leu Met Ile Asp Ile Arg Thr Gly Met Leu Gly Ala Ser Leu
245 250 255
Asp Met Val Met Cys Asn Arg Asn Arg His Gly Ile Leu Ala Pro Cys
260 265 270
Leu Thr Asp Asn Asn Ile Glu Thr Tyr Glu Ile Lys Cys Arg Phe Lys
275 280 285
Tyr Ala Phe Cys Pro Glu Met Arg Ser Glu Leu Ser Gln Cys Tyr Glu
290 295 300
Arg Leu Met Ala Thr Lys Thr Val Gln Trp Phe Arg Arg Phe Leu Tyr
305 310 315 320
Thr Ile Asp Cys Pro Cys Val Asp Tyr Phe Arg Pro Asp Asn Tyr Pro
325 330 335
Arg Ala Lys Glu Ala Leu Ile Thr Ser Asp Asp Asp Trp Lys Val Gly
340 345 350
His Ser Ala Tyr His Ala Ala Gln Ser Arg Ile Lys Cys Asn Glu Phe
355 360 365
Glu Met His His Leu Thr Leu Asn Lys Asn Met Ser Ser Arg Val Trp
370 375 380
Leu Phe Gly Glu Pro Asp Leu Gln Thr Asn Ser Ile Tyr Pro Leu Leu
385 390 395 400
Trp Asn Thr Gly Glu Arg Val Leu Ser Ile Pro Ile Phe Ala Asn Pro
405 410 415
Arg His Gln Asn Phe Lys Gln Ile Phe Leu Gln Ser Tyr Val Ala Ser
420 425 430
Gly Tyr Phe Gly Asn Arg Lys Ile Val Pro Phe Leu Ala Thr Phe Ile
435 440 445
Gly Arg His Arg Arg Gln Thr Glu Leu Gly Arg Cys Phe Ser Leu Phe
450 455 460
Val Asp Asp Thr Glu Ala Ser Glu Val Val Tyr Glu Ile Thr Pro Glu
465 470 475 480
Gln Ala Ile Pro Val Ile Leu Ile Ile Thr Pro Val Ile Ile Asp Asn
485 490 495
Thr Phe Tyr Val Gly Ile Glu Glu Ser Gly Tyr Arg Ala Phe Gly Glu
500 505 510
Leu Val Asp His Leu Trp Ala Lys Gln Cys Arg Ile
515 520
<210> 37
<211> 41
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 37: 发夹核苷酸,基于Nikiforov (2014)
<400> 37
ggaagggccc gctgacagtt tttctgtcag cgggcccttc c 41
<210> 38
<211> 4988
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 38: 编码AATG_NLS-LbCas12a(D156R)-NLS(内含子)_TTCG (用于核酸外切酶的C-末端融合体)的多核苷酸
<400> 38
aatgctgcag cctaagaaga agagaaaggt tggaggagtc gactcgagtg cggccgccac 60
aatgagcaag ctcgagaagt ttaccaactg ctacagcctg tctaagaccc tgaggttcaa 120
ggctattcct gtgggtaaga cccaagagaa tatcgacaac aagcggctgc tggttgagga 180
tgagaagaga gctgaggatt acaagggcgt gaagaagctg ctggatcggt actacctgag 240
cttcatcaac gatgtgctgc acagcatcaa gctgaagaac ctgaacaact acatcagcct 300
gttccggaag aaaacccgga ccgagaaaga gaacaaagag cttgagaacc tcgagatcaa 360
cctgcggaaa gagatcgcta aggctttcaa gggtaacgaa ggtaaggatt tttatgatat 420
actatgctta tgtattttgt actgaaagca tatcctgctt cattgggata ttactgaaag 480
catttaacta catgtaaact cacttgatga tcaataaact tgattttgca ggttacaaga 540
gcctgttcaa gaaggatatt atcgagacta tcctgcctga gttcctggac gataaggatg 600
agattgccct ggtgaacagc ttcaacggtt tcactactgc cttcaccggt ttcttcagaa 660
accgggaaaa catgttcagc gaagaggcca agtctacctc tatcgctttc cggtgcatta 720
acgagaactt gacccggtac atcagcaaca tggacatctt cgagaaggtg gacgccatct 780
tcgataagca cgaggtgcaa gaaatcaaag agaagatcct gaactccgac tacgacgtcg 840
aggatttttt tgagggcgag ttcttcaact tcgtgctcac ccaagaaggt aacattcctt 900
agttaccttt cttttctttt tccatcataa gtttatagat tgtacatgct ttgagatttt 960
tctttgcaaa caatctcagg tatcgatgtg tacaacgcta tcatcggtgg tttcgtgact 1020
gagagcggtg agaagattaa gggcctgaac gagtacatta acctgtacaa tcaaaagacc 1080
aagcagaagc tgccgaagtt caagccgctt tacaagcagg ttctgagcga tcgtgagagc 1140
ctgtcttttt acggagaggg atacacctct gatgaagagg ttttggaggt aatcttgaaa 1200
ttggaactct tcttttgttg tctaaaccta tcaatttctt tgcggaaatt tatttgaagc 1260
tgtagagtta aaattgagtc ttttaaactt ttgtaggtgt tccgtaacac cctgaacaag 1320
aacagcgaga tcttcagctc catcaagaag ctggaaaagc tgtttaagaa cttcgacgag 1380
tacagcagcg ctggcatctt cgttaagaac ggtcctgcta tcagcaccat cagcaaggat 1440
attttcggcg agtggaacgt gatccgggat aagtggaatg ctgagtacga tgacatccac 1500
ctgaagaaaa aggctgtggt gaccgagaag tacgaggatg ataggcggaa gtccttcaag 1560
aagataggta agttgttact tatgattgtt ttcctctctg ctacatgtat tttgttgttc 1620
atttctgtaa gatataagaa ttgagttttc ctctgatgat attattaggt tcctttagcc 1680
tcgagcagct tcaagagtat gctgacgctg atctgtccgt ggtcgagaag cttaaagaga 1740
tcatcatcca gaaggtcgac gagatctaca aggtgtacgg cagctctgag aagcttttcg 1800
atgctgactt cgtgttggag aagtctctga agaagaacga cgccgttgtc gctatcatga 1860
aggatctgct ggacagcgtg aagtctttcg agaactatat caaggccttc ttcggcgaag 1920
gttagtatca tatgaagaaa tacctagttt cagttgatga atgctatttt ctgacctcag 1980
ttgttctctt ttgagaatta tttcttttct aatttgcctg atttttctat taattcatta 2040
ggtaaagaga ctaataggga cgagtcattc tacggcgatt tcgtgctggc ttacgacatc 2100
cttcttaagg tggaccacat ctacgacgcc atcagaaatt acgtgaccca gaagccgtac 2160
agcaaggaca agttcaagtt gtacttccag aatccgcagt tcatgggcgg ctgggacaaa 2220
gacaaagaga cagattacag ggctaccatc ctgcggtacg gctctaagta ctaccttgcc 2280
atcatggaca agaaatacgc caagtgcctg caaaagatcg acaaggatga tgtgaacggc 2340
aactacgaga agatcaacta caagctcctg ccaggtaaat cctggtccac acttttacga 2400
taaaaacaca agattttaaa ctatgaactg atcaataatc attcctaaaa gaccacactt 2460
ttgttttgtt tctaaagtaa tttttactgt tataacaggt cctaacaaga tgcttcctaa 2520
ggtgttcttc tcaaagaaat ggatggccta ctacaacccg agcgaggaca tccagaaaat 2580
ctacaagaac ggcaccttca aaaagggcga catgttcaac ctgaacgact gccacaagct 2640
gatcgatttc ttcaaggaca gcatcagccg gtatccgaag tggtctaacg cttacgattt 2700
caacttcagc gagactgaga agtataagga tatcgccggc ttctaccgtg aggttgagga 2760
acagggttac aaggttagct tcgagagcgc cagcaagaaa gaggtggaca agttggttga 2820
agaaggtaag aggtcaaaag gtttccgcaa tgatccctct ttttttgttt ctctagtttc 2880
aagaatttgg gtatatgact aacttctgag tgttccttga tgcatatttg tgatgagaca 2940
aatgtttgtt ctatgtttta ggtaagctgt acatgttcca aatctataac aaggacttct 3000
ccgacaagtc tcacggcact cctaatctgc atacaatgta cttcaagctg ctgttcgacg 3060
agaacaacca cggtcagatt aggctttctg gtggtgctga gctgttcatg agaagggcct 3120
cactgaagaa agaagagttg gtcgttcacc ctgccaactc tccaatcgct aacaagaacc 3180
ctgacaaccc gaaaaagacc accaccttgt cttacgacgt gtacaaggat aagcggttca 3240
gcgaggatca gtacgagctt cacattccga tcgccatcaa caagtgcccg aagaacatct 3300
tcaagatcaa taccgaggtg cgggtgctgc tgaagcacga tgataatcct tacgtgatcg 3360
gcatcgatag gggcgagaga aaccttcttt acatcgtggt ggtggacggc aagggcaata 3420
tcgttgagca gtactctctg aacgagatta tcaacaattt caacggcatc cggatcaaga 3480
ccgactacca ctctctgctg gataagaaag aaaaagagcg gttcgaggcc aggcagaact 3540
ggacttctat cgaaaacatc aaagagctga aggccggcta catctctcag gtggtgcata 3600
agatttgcga gctggtggaa aagtacgacg ctgtgattgc tctcgaggat ctgaacagcg 3660
gcttcaagaa ctcacgtgtg aaggtaaagc aactgtgttt taatcaattt cttgtcagga 3720
tatatggatt ataacttaat ttttgagaaa tctgtagtat ttggcgtgaa atgagtttgc 3780
tttttggttt ctcccgtgtt ataggttgag aagcaggtct accaaaagtt cgagaagatg 3840
ctcatcgaca agctgaacta catggtggac aaaaagagca acccttgcgc taccggtggt 3900
gctcttaagg gttaccagat cactaacaag ttcgagtctt tcaagagcat gagcacccag 3960
aacggcttca tcttctacat ccctgcttgg ctgaccagca agatcgatcc ttctactggc 4020
ttcgtcaacc tgctcaagac caagtacacc agcattgccg acagcaagaa gttcatcagc 4080
tcattcgacc ggatcatgta cgtgccagaa gaggatcttt tcgagttcgc cctcgattac 4140
aagaacttct ctaggaccga cgccgactac attaagaagt ggaagctgta ctcctacggc 4200
aaccggattc ggatctttcg gaacccgaag aaaaacaacg tgttcgactg ggaagaggta 4260
aagtttccaa ctttccttta ccatatcaaa ctatagttcg aaacttttta tttgatcaac 4320
ttcaaggcca cccgatcttt ctattcctga ttaatttgtg atgaatccat attgactttt 4380
gatggttacg caggtgtgcc tgacctctgc ctacaaagaa ctgttcaaca agtacggcat 4440
caactaccag cagggtgata ttagggctct gctttgcgag cagtctgaca aggctttcta 4500
cagctctttc atggccctga tgtctctgat gctgcaaatg aggaactcta tcaccggtag 4560
gaccgatgtg gacttcctta tctctccggt gaagaacagt gacgggatct tctacgacag 4620
ccggaattat gaggctcaag agaacgcaat cctgccgaag aatgctgatg ctaacggcgc 4680
ttacaacatt gccagaaagg tgctgtgggc tatcggccag tttaagaaag ccgaagatga 4740
gaagttggac aaggtctgtc tttcctattt catatgttta atcctaggaa tttgatcaat 4800
tgattgtatg tatgtcgatc ccaagacttt cttgttcact tatatcttaa ctctctcttt 4860
gctgtttctt gcaggtgaag atcgctatct ccaacaaaga gtggctcgag tacgctcaga 4920
ctagcgttaa gcataaaagg ccggcggcca cgaaaaaggc cggccaggca aaaaagaaaa 4980
agggttcg 4988
<210> 39
<211> 4995
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 39: 用于N-末端融合体的Cas12a模块 AGGT_NLS-Cas12a(D156R)-NLS (内含子)_GCTT的多核苷酸序列
<400> 39
aggtctgcag cctaagaaga agagaaaggt tggaggagtc gactcgagtg cggccgccac 60
aatgagcaag ctcgagaagt ttaccaactg ctacagcctg tctaagaccc tgaggttcaa 120
ggctattcct gtgggtaaga cccaagagaa tatcgacaac aagcggctgc tggttgagga 180
tgagaagaga gctgaggatt acaagggcgt gaagaagctg ctggatcggt actacctgag 240
cttcatcaac gatgtgctgc acagcatcaa gctgaagaac ctgaacaact acatcagcct 300
gttccggaag aaaacccgga ccgagaaaga gaacaaagag cttgagaacc tcgagatcaa 360
cctgcggaaa gagatcgcta aggctttcaa gggtaacgaa ggtaaggatt tttatgatat 420
actatgctta tgtattttgt actgaaagca tatcctgctt cattgggata ttactgaaag 480
catttaacta catgtaaact cacttgatga tcaataaact tgattttgca ggttacaaga 540
gcctgttcaa gaaggatatt atcgagacta tcctgcctga gttcctggac gataaggatg 600
agattgccct ggtgaacagc ttcaacggtt tcactactgc cttcaccggt ttcttcagaa 660
accgggaaaa catgttcagc gaagaggcca agtctacctc tatcgctttc cggtgcatta 720
acgagaactt gacccggtac atcagcaaca tggacatctt cgagaaggtg gacgccatct 780
tcgataagca cgaggtgcaa gaaatcaaag agaagatcct gaactccgac tacgacgtcg 840
aggatttttt tgagggcgag ttcttcaact tcgtgctcac ccaagaaggt aacattcctt 900
agttaccttt cttttctttt tccatcataa gtttatagat tgtacatgct ttgagatttt 960
tctttgcaaa caatctcagg tatcgatgtg tacaacgcta tcatcggtgg tttcgtgact 1020
gagagcggtg agaagattaa gggcctgaac gagtacatta acctgtacaa tcaaaagacc 1080
aagcagaagc tgccgaagtt caagccgctt tacaagcagg ttctgagcga tcgtgagagc 1140
ctgtcttttt acggagaggg atacacctct gatgaagagg ttttggaggt aatcttgaaa 1200
ttggaactct tcttttgttg tctaaaccta tcaatttctt tgcggaaatt tatttgaagc 1260
tgtagagtta aaattgagtc ttttaaactt ttgtaggtgt tccgtaacac cctgaacaag 1320
aacagcgaga tcttcagctc catcaagaag ctggaaaagc tgtttaagaa cttcgacgag 1380
tacagcagcg ctggcatctt cgttaagaac ggtcctgcta tcagcaccat cagcaaggat 1440
attttcggcg agtggaacgt gatccgggat aagtggaatg ctgagtacga tgacatccac 1500
ctgaagaaaa aggctgtggt gaccgagaag tacgaggatg ataggcggaa gtccttcaag 1560
aagataggta agttgttact tatgattgtt ttcctctctg ctacatgtat tttgttgttc 1620
atttctgtaa gatataagaa ttgagttttc ctctgatgat attattaggt tcctttagcc 1680
tcgagcagct tcaagagtat gctgacgctg atctgtccgt ggtcgagaag cttaaagaga 1740
tcatcatcca gaaggtcgac gagatctaca aggtgtacgg cagctctgag aagcttttcg 1800
atgctgactt cgtgttggag aagtctctga agaagaacga cgccgttgtc gctatcatga 1860
aggatctgct ggacagcgtg aagtctttcg agaactatat caaggccttc ttcggcgaag 1920
gttagtatca tatgaagaaa tacctagttt cagttgatga atgctatttt ctgacctcag 1980
ttgttctctt ttgagaatta tttcttttct aatttgcctg atttttctat taattcatta 2040
ggtaaagaga ctaataggga cgagtcattc tacggcgatt tcgtgctggc ttacgacatc 2100
cttcttaagg tggaccacat ctacgacgcc atcagaaatt acgtgaccca gaagccgtac 2160
agcaaggaca agttcaagtt gtacttccag aatccgcagt tcatgggcgg ctgggacaaa 2220
gacaaagaga cagattacag ggctaccatc ctgcggtacg gctctaagta ctaccttgcc 2280
atcatggaca agaaatacgc caagtgcctg caaaagatcg acaaggatga tgtgaacggc 2340
aactacgaga agatcaacta caagctcctg ccaggtaaat cctggtccac acttttacga 2400
taaaaacaca agattttaaa ctatgaactg atcaataatc attcctaaaa gaccacactt 2460
ttgttttgtt tctaaagtaa tttttactgt tataacaggt cctaacaaga tgcttcctaa 2520
ggtgttcttc tcaaagaaat ggatggccta ctacaacccg agcgaggaca tccagaaaat 2580
ctacaagaac ggcaccttca aaaagggcga catgttcaac ctgaacgact gccacaagct 2640
gatcgatttc ttcaaggaca gcatcagccg gtatccgaag tggtctaacg cttacgattt 2700
caacttcagc gagactgaga agtataagga tatcgccggc ttctaccgtg aggttgagga 2760
acagggttac aaggttagct tcgagagcgc cagcaagaaa gaggtggaca agttggttga 2820
agaaggtaag aggtcaaaag gtttccgcaa tgatccctct ttttttgttt ctctagtttc 2880
aagaatttgg gtatatgact aacttctgag tgttccttga tgcatatttg tgatgagaca 2940
aatgtttgtt ctatgtttta ggtaagctgt acatgttcca aatctataac aaggacttct 3000
ccgacaagtc tcacggcact cctaatctgc atacaatgta cttcaagctg ctgttcgacg 3060
agaacaacca cggtcagatt aggctttctg gtggtgctga gctgttcatg agaagggcct 3120
cactgaagaa agaagagttg gtcgttcacc ctgccaactc tccaatcgct aacaagaacc 3180
ctgacaaccc gaaaaagacc accaccttgt cttacgacgt gtacaaggat aagcggttca 3240
gcgaggatca gtacgagctt cacattccga tcgccatcaa caagtgcccg aagaacatct 3300
tcaagatcaa taccgaggtg cgggtgctgc tgaagcacga tgataatcct tacgtgatcg 3360
gcatcgatag gggcgagaga aaccttcttt acatcgtggt ggtggacggc aagggcaata 3420
tcgttgagca gtactctctg aacgagatta tcaacaattt caacggcatc cggatcaaga 3480
ccgactacca ctctctgctg gataagaaag aaaaagagcg gttcgaggcc aggcagaact 3540
ggacttctat cgaaaacatc aaagagctga aggccggcta catctctcag gtggtgcata 3600
agatttgcga gctggtggaa aagtacgacg ctgtgattgc tctcgaggat ctgaacagcg 3660
gcttcaagaa ctcacgtgtg aaggtaaagc aactgtgttt taatcaattt cttgtcagga 3720
tatatggatt ataacttaat ttttgagaaa tctgtagtat ttggcgtgaa atgagtttgc 3780
tttttggttt ctcccgtgtt ataggttgag aagcaggtct accaaaagtt cgagaagatg 3840
ctcatcgaca agctgaacta catggtggac aaaaagagca acccttgcgc taccggtggt 3900
gctcttaagg gttaccagat cactaacaag ttcgagtctt tcaagagcat gagcacccag 3960
aacggcttca tcttctacat ccctgcttgg ctgaccagca agatcgatcc ttctactggc 4020
ttcgtcaacc tgctcaagac caagtacacc agcattgccg acagcaagaa gttcatcagc 4080
tcattcgacc ggatcatgta cgtgccagaa gaggatcttt tcgagttcgc cctcgattac 4140
aagaacttct ctaggaccga cgccgactac attaagaagt ggaagctgta ctcctacggc 4200
aaccggattc ggatctttcg gaacccgaag aaaaacaacg tgttcgactg ggaagaggta 4260
aagtttccaa ctttccttta ccatatcaaa ctatagttcg aaacttttta tttgatcaac 4320
ttcaaggcca cccgatcttt ctattcctga ttaatttgtg atgaatccat attgactttt 4380
gatggttacg caggtgtgcc tgacctctgc ctacaaagaa ctgttcaaca agtacggcat 4440
caactaccag cagggtgata ttagggctct gctttgcgag cagtctgaca aggctttcta 4500
cagctctttc atggccctga tgtctctgat gctgcaaatg aggaactcta tcaccggtag 4560
gaccgatgtg gacttcctta tctctccggt gaagaacagt gacgggatct tctacgacag 4620
ccggaattat gaggctcaag agaacgcaat cctgccgaag aatgctgatg ctaacggcgc 4680
ttacaacatt gccagaaagg tgctgtgggc tatcggccag tttaagaaag ccgaagatga 4740
gaagttggac aaggtctgtc tttcctattt catatgttta atcctaggaa tttgatcaat 4800
tgattgtatg tatgtcgatc ccaagacttt cttgttcact tatatcttaa ctctctcttt 4860
gctgtttctt gcaggtgaag atcgctatct ccaacaaaga gtggctcgag tacgctcaga 4920
ctagcgttaa gcataaaagg ccggcggcca cgaaaaaggc cggccaggca aaaaagaaaa 4980
agggttcgtg agctt 4995
<210> 40
<211> 1266
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 40: 用于C-末端融合体的NLS-LbCas12a(D156R)-NLS的氨基酸序列
<400> 40
Met Leu Gln Pro Lys Lys Lys Arg Lys Val Gly Gly Val Asp Ser Ser
1 5 10 15
Ala Ala Ala Thr Met Ser Lys Leu Glu Lys Phe Thr Asn Cys Tyr Ser
20 25 30
Leu Ser Lys Thr Leu Arg Phe Lys Ala Ile Pro Val Gly Lys Thr Gln
35 40 45
Glu Asn Ile Asp Asn Lys Arg Leu Leu Val Glu Asp Glu Lys Arg Ala
50 55 60
Glu Asp Tyr Lys Gly Val Lys Lys Leu Leu Asp Arg Tyr Tyr Leu Ser
65 70 75 80
Phe Ile Asn Asp Val Leu His Ser Ile Lys Leu Lys Asn Leu Asn Asn
85 90 95
Tyr Ile Ser Leu Phe Arg Lys Lys Thr Arg Thr Glu Lys Glu Asn Lys
100 105 110
Glu Leu Glu Asn Leu Glu Ile Asn Leu Arg Lys Glu Ile Ala Lys Ala
115 120 125
Phe Lys Gly Asn Glu Gly Tyr Lys Ser Leu Phe Lys Lys Asp Ile Ile
130 135 140
Glu Thr Ile Leu Pro Glu Phe Leu Asp Asp Lys Asp Glu Ile Ala Leu
145 150 155 160
Val Asn Ser Phe Asn Gly Phe Thr Thr Ala Phe Thr Gly Phe Phe Arg
165 170 175
Asn Arg Glu Asn Met Phe Ser Glu Glu Ala Lys Ser Thr Ser Ile Ala
180 185 190
Phe Arg Cys Ile Asn Glu Asn Leu Thr Arg Tyr Ile Ser Asn Met Asp
195 200 205
Ile Phe Glu Lys Val Asp Ala Ile Phe Asp Lys His Glu Val Gln Glu
210 215 220
Ile Lys Glu Lys Ile Leu Asn Ser Asp Tyr Asp Val Glu Asp Phe Phe
225 230 235 240
Glu Gly Glu Phe Phe Asn Phe Val Leu Thr Gln Glu Gly Ile Asp Val
245 250 255
Tyr Asn Ala Ile Ile Gly Gly Phe Val Thr Glu Ser Gly Glu Lys Ile
260 265 270
Lys Gly Leu Asn Glu Tyr Ile Asn Leu Tyr Asn Gln Lys Thr Lys Gln
275 280 285
Lys Leu Pro Lys Phe Lys Pro Leu Tyr Lys Gln Val Leu Ser Asp Arg
290 295 300
Glu Ser Leu Ser Phe Tyr Gly Glu Gly Tyr Thr Ser Asp Glu Glu Val
305 310 315 320
Leu Glu Val Phe Arg Asn Thr Leu Asn Lys Asn Ser Glu Ile Phe Ser
325 330 335
Ser Ile Lys Lys Leu Glu Lys Leu Phe Lys Asn Phe Asp Glu Tyr Ser
340 345 350
Ser Ala Gly Ile Phe Val Lys Asn Gly Pro Ala Ile Ser Thr Ile Ser
355 360 365
Lys Asp Ile Phe Gly Glu Trp Asn Val Ile Arg Asp Lys Trp Asn Ala
370 375 380
Glu Tyr Asp Asp Ile His Leu Lys Lys Lys Ala Val Val Thr Glu Lys
385 390 395 400
Tyr Glu Asp Asp Arg Arg Lys Ser Phe Lys Lys Ile Gly Ser Phe Ser
405 410 415
Leu Glu Gln Leu Gln Glu Tyr Ala Asp Ala Asp Leu Ser Val Val Glu
420 425 430
Lys Leu Lys Glu Ile Ile Ile Gln Lys Val Asp Glu Ile Tyr Lys Val
435 440 445
Tyr Gly Ser Ser Glu Lys Leu Phe Asp Ala Asp Phe Val Leu Glu Lys
450 455 460
Ser Leu Lys Lys Asn Asp Ala Val Val Ala Ile Met Lys Asp Leu Leu
465 470 475 480
Asp Ser Val Lys Ser Phe Glu Asn Tyr Ile Lys Ala Phe Phe Gly Glu
485 490 495
Gly Lys Glu Thr Asn Arg Asp Glu Ser Phe Tyr Gly Asp Phe Val Leu
500 505 510
Ala Tyr Asp Ile Leu Leu Lys Val Asp His Ile Tyr Asp Ala Ile Arg
515 520 525
Asn Tyr Val Thr Gln Lys Pro Tyr Ser Lys Asp Lys Phe Lys Leu Tyr
530 535 540
Phe Gln Asn Pro Gln Phe Met Gly Gly Trp Asp Lys Asp Lys Glu Thr
545 550 555 560
Asp Tyr Arg Ala Thr Ile Leu Arg Tyr Gly Ser Lys Tyr Tyr Leu Ala
565 570 575
Ile Met Asp Lys Lys Tyr Ala Lys Cys Leu Gln Lys Ile Asp Lys Asp
580 585 590
Asp Val Asn Gly Asn Tyr Glu Lys Ile Asn Tyr Lys Leu Leu Pro Gly
595 600 605
Pro Asn Lys Met Leu Pro Lys Val Phe Phe Ser Lys Lys Trp Met Ala
610 615 620
Tyr Tyr Asn Pro Ser Glu Asp Ile Gln Lys Ile Tyr Lys Asn Gly Thr
625 630 635 640
Phe Lys Lys Gly Asp Met Phe Asn Leu Asn Asp Cys His Lys Leu Ile
645 650 655
Asp Phe Phe Lys Asp Ser Ile Ser Arg Tyr Pro Lys Trp Ser Asn Ala
660 665 670
Tyr Asp Phe Asn Phe Ser Glu Thr Glu Lys Tyr Lys Asp Ile Ala Gly
675 680 685
Phe Tyr Arg Glu Val Glu Glu Gln Gly Tyr Lys Val Ser Phe Glu Ser
690 695 700
Ala Ser Lys Lys Glu Val Asp Lys Leu Val Glu Glu Gly Lys Leu Tyr
705 710 715 720
Met Phe Gln Ile Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr
725 730 735
Pro Asn Leu His Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn
740 745 750
His Gly Gln Ile Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg
755 760 765
Ala Ser Leu Lys Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro
770 775 780
Ile Ala Asn Lys Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser
785 790 795 800
Tyr Asp Val Tyr Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu
805 810 815
His Ile Pro Ile Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile
820 825 830
Asn Thr Glu Val Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val
835 840 845
Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val
850 855 860
Asp Gly Lys Gly Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile
865 870 875 880
Asn Asn Phe Asn Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu
885 890 895
Asp Lys Lys Glu Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser
900 905 910
Ile Glu Asn Ile Lys Glu Leu Lys Ala Gly Tyr Ile Ser Gln Val Val
915 920 925
His Lys Ile Cys Glu Leu Val Glu Lys Tyr Asp Ala Val Ile Ala Leu
930 935 940
Glu Asp Leu Asn Ser Gly Phe Lys Asn Ser Arg Val Lys Val Glu Lys
945 950 955 960
Gln Val Tyr Gln Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr
965 970 975
Met Val Asp Lys Lys Ser Asn Pro Cys Ala Thr Gly Gly Ala Leu Lys
980 985 990
Gly Tyr Gln Ile Thr Asn Lys Phe Glu Ser Phe Lys Ser Met Ser Thr
995 1000 1005
Gln Asn Gly Phe Ile Phe Tyr Ile Pro Ala Trp Leu Thr Ser Lys
1010 1015 1020
Ile Asp Pro Ser Thr Gly Phe Val Asn Leu Leu Lys Thr Lys Tyr
1025 1030 1035
Thr Ser Ile Ala Asp Ser Lys Lys Phe Ile Ser Ser Phe Asp Arg
1040 1045 1050
Ile Met Tyr Val Pro Glu Glu Asp Leu Phe Glu Phe Ala Leu Asp
1055 1060 1065
Tyr Lys Asn Phe Ser Arg Thr Asp Ala Asp Tyr Ile Lys Lys Trp
1070 1075 1080
Lys Leu Tyr Ser Tyr Gly Asn Arg Ile Arg Ile Phe Arg Asn Pro
1085 1090 1095
Lys Lys Asn Asn Val Phe Asp Trp Glu Glu Val Cys Leu Thr Ser
1100 1105 1110
Ala Tyr Lys Glu Leu Phe Asn Lys Tyr Gly Ile Asn Tyr Gln Gln
1115 1120 1125
Gly Asp Ile Arg Ala Leu Leu Cys Glu Gln Ser Asp Lys Ala Phe
1130 1135 1140
Tyr Ser Ser Phe Met Ala Leu Met Ser Leu Met Leu Gln Met Arg
1145 1150 1155
Asn Ser Ile Thr Gly Arg Thr Asp Val Asp Phe Leu Ile Ser Pro
1160 1165 1170
Val Lys Asn Ser Asp Gly Ile Phe Tyr Asp Ser Arg Asn Tyr Glu
1175 1180 1185
Ala Gln Glu Asn Ala Ile Leu Pro Lys Asn Ala Asp Ala Asn Gly
1190 1195 1200
Ala Tyr Asn Ile Ala Arg Lys Val Leu Trp Ala Ile Gly Gln Phe
1205 1210 1215
Lys Lys Ala Glu Asp Glu Lys Leu Asp Lys Val Lys Ile Ala Ile
1220 1225 1230
Ser Asn Lys Glu Trp Leu Glu Tyr Ala Gln Thr Ser Val Lys His
1235 1240 1245
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys
1250 1255 1260
Lys Gly Ser
1265
<210> 41
<211> 1266
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO 41: 用于N-末端融合体的蛋白NLS-LbCas12a(D156R)-NLS (内含子)的氨基酸序列
<400> 41
Gly Leu Gln Pro Lys Lys Lys Arg Lys Val Gly Gly Val Asp Ser Ser
1 5 10 15
Ala Ala Ala Thr Met Ser Lys Leu Glu Lys Phe Thr Asn Cys Tyr Ser
20 25 30
Leu Ser Lys Thr Leu Arg Phe Lys Ala Ile Pro Val Gly Lys Thr Gln
35 40 45
Glu Asn Ile Asp Asn Lys Arg Leu Leu Val Glu Asp Glu Lys Arg Ala
50 55 60
Glu Asp Tyr Lys Gly Val Lys Lys Leu Leu Asp Arg Tyr Tyr Leu Ser
65 70 75 80
Phe Ile Asn Asp Val Leu His Ser Ile Lys Leu Lys Asn Leu Asn Asn
85 90 95
Tyr Ile Ser Leu Phe Arg Lys Lys Thr Arg Thr Glu Lys Glu Asn Lys
100 105 110
Glu Leu Glu Asn Leu Glu Ile Asn Leu Arg Lys Glu Ile Ala Lys Ala
115 120 125
Phe Lys Gly Asn Glu Gly Tyr Lys Ser Leu Phe Lys Lys Asp Ile Ile
130 135 140
Glu Thr Ile Leu Pro Glu Phe Leu Asp Asp Lys Asp Glu Ile Ala Leu
145 150 155 160
Val Asn Ser Phe Asn Gly Phe Thr Thr Ala Phe Thr Gly Phe Phe Arg
165 170 175
Asn Arg Glu Asn Met Phe Ser Glu Glu Ala Lys Ser Thr Ser Ile Ala
180 185 190
Phe Arg Cys Ile Asn Glu Asn Leu Thr Arg Tyr Ile Ser Asn Met Asp
195 200 205
Ile Phe Glu Lys Val Asp Ala Ile Phe Asp Lys His Glu Val Gln Glu
210 215 220
Ile Lys Glu Lys Ile Leu Asn Ser Asp Tyr Asp Val Glu Asp Phe Phe
225 230 235 240
Glu Gly Glu Phe Phe Asn Phe Val Leu Thr Gln Glu Gly Ile Asp Val
245 250 255
Tyr Asn Ala Ile Ile Gly Gly Phe Val Thr Glu Ser Gly Glu Lys Ile
260 265 270
Lys Gly Leu Asn Glu Tyr Ile Asn Leu Tyr Asn Gln Lys Thr Lys Gln
275 280 285
Lys Leu Pro Lys Phe Lys Pro Leu Tyr Lys Gln Val Leu Ser Asp Arg
290 295 300
Glu Ser Leu Ser Phe Tyr Gly Glu Gly Tyr Thr Ser Asp Glu Glu Val
305 310 315 320
Leu Glu Val Phe Arg Asn Thr Leu Asn Lys Asn Ser Glu Ile Phe Ser
325 330 335
Ser Ile Lys Lys Leu Glu Lys Leu Phe Lys Asn Phe Asp Glu Tyr Ser
340 345 350
Ser Ala Gly Ile Phe Val Lys Asn Gly Pro Ala Ile Ser Thr Ile Ser
355 360 365
Lys Asp Ile Phe Gly Glu Trp Asn Val Ile Arg Asp Lys Trp Asn Ala
370 375 380
Glu Tyr Asp Asp Ile His Leu Lys Lys Lys Ala Val Val Thr Glu Lys
385 390 395 400
Tyr Glu Asp Asp Arg Arg Lys Ser Phe Lys Lys Ile Gly Ser Phe Ser
405 410 415
Leu Glu Gln Leu Gln Glu Tyr Ala Asp Ala Asp Leu Ser Val Val Glu
420 425 430
Lys Leu Lys Glu Ile Ile Ile Gln Lys Val Asp Glu Ile Tyr Lys Val
435 440 445
Tyr Gly Ser Ser Glu Lys Leu Phe Asp Ala Asp Phe Val Leu Glu Lys
450 455 460
Ser Leu Lys Lys Asn Asp Ala Val Val Ala Ile Met Lys Asp Leu Leu
465 470 475 480
Asp Ser Val Lys Ser Phe Glu Asn Tyr Ile Lys Ala Phe Phe Gly Glu
485 490 495
Gly Lys Glu Thr Asn Arg Asp Glu Ser Phe Tyr Gly Asp Phe Val Leu
500 505 510
Ala Tyr Asp Ile Leu Leu Lys Val Asp His Ile Tyr Asp Ala Ile Arg
515 520 525
Asn Tyr Val Thr Gln Lys Pro Tyr Ser Lys Asp Lys Phe Lys Leu Tyr
530 535 540
Phe Gln Asn Pro Gln Phe Met Gly Gly Trp Asp Lys Asp Lys Glu Thr
545 550 555 560
Asp Tyr Arg Ala Thr Ile Leu Arg Tyr Gly Ser Lys Tyr Tyr Leu Ala
565 570 575
Ile Met Asp Lys Lys Tyr Ala Lys Cys Leu Gln Lys Ile Asp Lys Asp
580 585 590
Asp Val Asn Gly Asn Tyr Glu Lys Ile Asn Tyr Lys Leu Leu Pro Gly
595 600 605
Pro Asn Lys Met Leu Pro Lys Val Phe Phe Ser Lys Lys Trp Met Ala
610 615 620
Tyr Tyr Asn Pro Ser Glu Asp Ile Gln Lys Ile Tyr Lys Asn Gly Thr
625 630 635 640
Phe Lys Lys Gly Asp Met Phe Asn Leu Asn Asp Cys His Lys Leu Ile
645 650 655
Asp Phe Phe Lys Asp Ser Ile Ser Arg Tyr Pro Lys Trp Ser Asn Ala
660 665 670
Tyr Asp Phe Asn Phe Ser Glu Thr Glu Lys Tyr Lys Asp Ile Ala Gly
675 680 685
Phe Tyr Arg Glu Val Glu Glu Gln Gly Tyr Lys Val Ser Phe Glu Ser
690 695 700
Ala Ser Lys Lys Glu Val Asp Lys Leu Val Glu Glu Gly Lys Leu Tyr
705 710 715 720
Met Phe Gln Ile Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr
725 730 735
Pro Asn Leu His Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn
740 745 750
His Gly Gln Ile Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg
755 760 765
Ala Ser Leu Lys Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro
770 775 780
Ile Ala Asn Lys Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser
785 790 795 800
Tyr Asp Val Tyr Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu
805 810 815
His Ile Pro Ile Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile
820 825 830
Asn Thr Glu Val Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val
835 840 845
Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val
850 855 860
Asp Gly Lys Gly Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile
865 870 875 880
Asn Asn Phe Asn Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu
885 890 895
Asp Lys Lys Glu Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser
900 905 910
Ile Glu Asn Ile Lys Glu Leu Lys Ala Gly Tyr Ile Ser Gln Val Val
915 920 925
His Lys Ile Cys Glu Leu Val Glu Lys Tyr Asp Ala Val Ile Ala Leu
930 935 940
Glu Asp Leu Asn Ser Gly Phe Lys Asn Ser Arg Val Lys Val Glu Lys
945 950 955 960
Gln Val Tyr Gln Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr
965 970 975
Met Val Asp Lys Lys Ser Asn Pro Cys Ala Thr Gly Gly Ala Leu Lys
980 985 990
Gly Tyr Gln Ile Thr Asn Lys Phe Glu Ser Phe Lys Ser Met Ser Thr
995 1000 1005
Gln Asn Gly Phe Ile Phe Tyr Ile Pro Ala Trp Leu Thr Ser Lys
1010 1015 1020
Ile Asp Pro Ser Thr Gly Phe Val Asn Leu Leu Lys Thr Lys Tyr
1025 1030 1035
Thr Ser Ile Ala Asp Ser Lys Lys Phe Ile Ser Ser Phe Asp Arg
1040 1045 1050
Ile Met Tyr Val Pro Glu Glu Asp Leu Phe Glu Phe Ala Leu Asp
1055 1060 1065
Tyr Lys Asn Phe Ser Arg Thr Asp Ala Asp Tyr Ile Lys Lys Trp
1070 1075 1080
Lys Leu Tyr Ser Tyr Gly Asn Arg Ile Arg Ile Phe Arg Asn Pro
1085 1090 1095
Lys Lys Asn Asn Val Phe Asp Trp Glu Glu Val Cys Leu Thr Ser
1100 1105 1110
Ala Tyr Lys Glu Leu Phe Asn Lys Tyr Gly Ile Asn Tyr Gln Gln
1115 1120 1125
Gly Asp Ile Arg Ala Leu Leu Cys Glu Gln Ser Asp Lys Ala Phe
1130 1135 1140
Tyr Ser Ser Phe Met Ala Leu Met Ser Leu Met Leu Gln Met Arg
1145 1150 1155
Asn Ser Ile Thr Gly Arg Thr Asp Val Asp Phe Leu Ile Ser Pro
1160 1165 1170
Val Lys Asn Ser Asp Gly Ile Phe Tyr Asp Ser Arg Asn Tyr Glu
1175 1180 1185
Ala Gln Glu Asn Ala Ile Leu Pro Lys Asn Ala Asp Ala Asn Gly
1190 1195 1200
Ala Tyr Asn Ile Ala Arg Lys Val Leu Trp Ala Ile Gly Gln Phe
1205 1210 1215
Lys Lys Ala Glu Asp Glu Lys Leu Asp Lys Val Lys Ile Ala Ile
1220 1225 1230
Ser Asn Lys Glu Trp Leu Glu Tyr Ala Gln Thr Ser Val Lys His
1235 1240 1245
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys
1250 1255 1260
Lys Gly Ser
1265
<210> 42
<211> 1396
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO 42: 用于N-末端和C-末端融合体的NLS-SpCas9-NLS的氨基酸序列
<400> 42
Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Met
1 5 10 15
Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly
20 25 30
Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys
35 40 45
Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly
50 55 60
Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys
65 70 75 80
Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr
85 90 95
Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe
100 105 110
Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His
115 120 125
Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His
130 135 140
Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser
145 150 155 160
Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met
165 170 175
Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp
180 185 190
Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn
195 200 205
Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys
210 215 220
Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu
225 230 235 240
Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu
245 250 255
Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp
260 265 270
Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp
275 280 285
Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu
290 295 300
Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile
305 310 315 320
Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met
325 330 335
Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala
340 345 350
Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp
355 360 365
Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln
370 375 380
Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly
385 390 395 400
Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys
405 410 415
Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly
420 425 430
Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu
435 440 445
Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro
450 455 460
Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met
465 470 475 480
Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val
485 490 495
Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn
500 505 510
Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu
515 520 525
Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr
530 535 540
Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys
545 550 555 560
Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val
565 570 575
Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser
580 585 590
Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr
595 600 605
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn
610 615 620
Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu
625 630 635 640
Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His
645 650 655
Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
660 665 670
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys
675 680 685
Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala
690 695 700
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys
705 710 715 720
Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His
725 730 735
Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile
740 745 750
Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg
755 760 765
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
770 775 780
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
785 790 795 800
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
805 810 815
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
820 825 830
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
835 840 845
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp
850 855 860
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
865 870 875 880
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
885 890 895
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
900 905 910
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
915 920 925
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
930 935 940
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
945 950 955 960
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
965 970 975
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
980 985 990
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
995 1000 1005
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
1010 1015 1020
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1025 1030 1035
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1040 1045 1050
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1055 1060 1065
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1070 1075 1080
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1085 1090 1095
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1100 1105 1110
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1115 1120 1125
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1130 1135 1140
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1145 1150 1155
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1160 1165 1170
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1175 1180 1185
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1190 1195 1200
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1205 1210 1215
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1220 1225 1230
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1235 1240 1245
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1250 1255 1260
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1265 1270 1275
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1280 1285 1290
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1295 1300 1305
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1310 1315 1320
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1325 1330 1335
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1340 1345 1350
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1355 1360 1365
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1370 1375 1380
Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val Gly Ser
1385 1390 1395
<210> 43
<211> 607
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 43: PapE的氨基酸序列,PapE是一种来自Papiine α疱疹病毒2的脱氧核糖核酸酶(AHM96060.1)
<400> 43
Met Gln Thr Thr Thr Pro Val Asp Pro Pro Ser Ser Arg Ser Glu Asn
1 5 10 15
Lys Arg Pro Pro Ala Pro Ala Gly Asp Glu Gly Ala Gly Pro Gly Arg
20 25 30
Gly Leu Val Asp Pro Ala Arg Pro Pro Lys Arg Pro Arg Pro Asp Ser
35 40 45
Leu Pro Leu Ala Ala Val Cys Arg Pro Ala Thr Pro Pro Ser Pro Gly
50 55 60
Arg Pro Glu Thr Pro Pro Thr Pro Asp Leu Pro Leu Ser Pro Arg Gly
65 70 75 80
Thr His Gly Ile Ala Ala Pro Ala Gly Glu Pro Glu Pro Gly Ser Pro
85 90 95
Ser Leu Leu Glu Asn Tyr Val Pro Pro Ala Pro Asp Ala Gly Asp Ala
100 105 110
Gly Ser Thr Pro Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala
115 120 125
Leu Pro Ser His Val Leu Ala Glu Thr Phe Glu Arg His Leu Cys Gly
130 135 140
Leu Leu Arg Gly Val Arg Arg Pro Leu Asp Val Glu Pro Leu Arg Ala
145 150 155 160
Arg Leu Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly
165 170 175
Met Val Asp Arg Gly Val Gly Gly His Leu Leu Arg Leu Ser Arg Arg
180 185 190
Ala Ala Ala Ala Asp Pro Arg Pro Leu Met Ala Phe Phe Glu Ala Ala
195 200 205
Thr Gln Asn Gln Ala Glu Ser Gln Leu Trp Gly Leu Leu Arg Arg Gly
210 215 220
Leu Thr Thr Ala Ser Thr Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe
225 230 235 240
Ser Pro Arg Trp Leu Lys Asn Asn Gly Asp Pro Arg Leu Asp Phe Gln
245 250 255
Ser Ser Ala Val Met Phe Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala
260 265 270
Leu Leu Phe Arg Tyr Cys Val Gly Arg Ala Asp Asp Arg Asp Ala Glu
275 280 285
Gly Asp Asp Ala Gly Arg Arg Phe Val Phe Cys Glu Pro Gly Asp Ala
290 295 300
Pro Ala Ala Ser Val His Ala Cys Gly Val Leu Val Asp Ala His Thr
305 310 315 320
Gly Met Val Gly Ala Ser Leu Asp Ile Leu Val Cys Pro Arg Asp Arg
325 330 335
His Gly Cys Leu Asn Pro Ala Pro Gly Thr Pro Leu Arg Phe Tyr Glu
340 345 350
Val Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Ala Asp Ala Gly Asp
355 360 365
Pro Val Val Ala Ala His Arg Arg Leu Val Ala Arg Arg Ser Pro Ser
370 375 380
Asp Phe Arg Ala Phe Leu Arg Ser Ile Ala Arg Pro Gly Val Arg Tyr
385 390 395 400
Phe Ala Pro Gly Arg Val Pro Gly Pro Glu Glu Ala Leu Val Ser Asp
405 410 415
His Ala Val Trp Ala Asp Ala Arg Ala Gly Asp Glu Lys Arg Arg Cys
420 425 430
Ser Ala Leu Asp Arg Ala Leu Val Gly Leu Asn Ser Gly Val Ala Ser
435 440 445
Asp Val Leu Leu Phe Gly Asp Pro Asp Pro Glu Arg Arg Thr Val Ser
450 455 460
Pro Leu Ala Trp Ser Ser Gly Ala Leu Val His Arg Glu Pro Ile Phe
465 470 475 480
Ala Asn Pro Arg His Pro Asn Phe Lys Gln Ile Leu Val Gln Ala Tyr
485 490 495
Val Leu Ala Ser His Phe Pro Glu Cys Pro Leu His Pro His Leu Val
500 505 510
Thr Phe Ile Gly Arg His Arg Thr Pro Asp Glu Glu Gly Leu Ser Leu
515 520 525
Arg Leu Glu Asp Ala Pro Ala Ser Ala Pro Ala Ala Val Arg Ala Ala
530 535 540
Ala Gly Ala Ser Ile Leu Pro Asp Gln Ala Val Pro Val Ala Leu Ile
545 550 555 560
Ile Thr Pro Val Arg Val Asp Ala Ala Ile Tyr Asp Leu Ile Arg Arg
565 570 575
Asn Ser Arg Leu Ala Phe Asp Glu Thr Leu Ala Arg Leu Trp Ala Ser
580 585 590
Arg Ala Pro Ala Ser Asp Pro Ala Ala Ala Gly Glu Thr Ser Ser
595 600 605
<210> 44
<211> 656
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 44: PiE的氨基酸序列,PiE是一种来自莱丽狐蝠相关α疱疹病毒的脱氧核糖核酸酶(BBM13184.1)
<400> 44
Met Thr Ser Thr Ser Ser Ser Ser Pro Leu His Pro Pro Ser Pro Gln
1 5 10 15
Lys Arg Lys Ser Leu Ser Ala Asp Gly Val Ala Gly Leu Ala Thr Pro
20 25 30
Thr Lys Arg Ala Arg Pro His Ser Leu Pro Pro Leu Val Leu His Trp
35 40 45
Ser Pro Pro Ser Pro Ser Leu Leu Pro Gln Asp Gly Thr Phe Ile Phe
50 55 60
Pro Ser Asp Asp Thr Lys Thr Arg Ala Ala Glu Glu Thr Gly Pro Pro
65 70 75 80
Ala Pro Gln Ser Gln Asn Ala Pro Val Ser Pro Leu Gly Asp Lys Phe
85 90 95
Ser Pro Ala Cys Ala Pro Thr Ser Gly Leu Ile Cys Ser Asp Ser Glu
100 105 110
Glu Thr Glu Asp Leu Val Glu Ser Thr Gln Val Leu Ser Ser Glu Ala
115 120 125
Ala Thr Pro Leu Ser Arg Val Glu Ala Cys Asp Leu Pro Pro Pro Leu
130 135 140
Met Trp Ser Ala Thr Ser Ile Pro Asn Ala Leu Pro Pro Glu Ile Phe
145 150 155 160
Thr Lys Thr Phe Ala Lys Tyr Leu Arg Lys Leu Leu Ile Gly Ile Asp
165 170 175
His Pro Leu Asp Ile Glu Pro Leu Gln Ala Arg Leu Gly Tyr Leu Tyr
180 185 190
Ser Leu Met Arg Ala Leu Glu Gly Gly Gly Met Leu Ser Glu Gly Leu
195 200 205
Ser Arg Tyr Leu Ile Cys Gln Ser Arg Pro Gln Ala Ser Arg Ser Lys
210 215 220
Leu Pro Arg Pro Gly Leu Pro Val Val Asn Pro Lys Pro Leu Met Arg
225 230 235 240
Phe Phe Glu Ala Ala Thr Gln Ser Gln Gly Asp Ser Gln Leu Trp Ala
245 250 255
Leu Leu Arg Arg Gly Leu Ala Thr Ala Thr Thr Leu Lys Trp Gly Ser
260 265 270
Gln Gly Pro Ala Phe Ala Pro Gln Trp Leu Asp Gly Val Val Asp Gln
275 280 285
Ser Ala Gly Gly Lys Gly Ala Ala Ile Ala Phe Gly Arg Ile Asn Glu
290 295 300
Leu Thr Ala Arg Thr Ile Leu Phe Arg Tyr Cys Val Gly Arg Ala Asp
305 310 315 320
His Thr Ala Asp Ala Asp Pro Glu Glu Arg Phe Ile Phe His Gln Pro
325 330 335
Asp Asp Met Ala Glu Glu Asn Val His Thr Cys Gly Val Leu Met Asp
340 345 350
Thr His Thr Gly Met Val Gly Ala Ser Leu Asp Ile Leu Val Cys Pro
355 360 365
Arg Asp Gln His Gly Cys Leu Ser Pro Pro Pro Lys Tyr Pro Leu Ala
370 375 380
Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Met Asp
385 390 395 400
Leu Gln Ser Pro Thr Thr Leu Ala Tyr Asn Gln Leu Met Asp Arg Arg
405 410 415
Ser Pro Ala Ala Phe Arg Arg Phe Met His Ser Ile Ser Lys Pro Gly
420 425 430
Val Gln Phe Ile Ser His Gly Asn Phe Pro Gly Pro Glu Glu Ala Leu
435 440 445
Val Thr Thr Ser Ser Leu Trp Asp Gln Ser Ser Gly Ala Pro Thr Lys
450 455 460
Lys Arg Arg Cys Pro Ala Ala Glu Gln Ala Leu Val Lys Leu Asn Lys
465 470 475 480
Ser Val Thr Ser Ser Ile Leu Leu Phe Gly Thr Pro Asp Leu Glu Gln
485 490 495
Arg Thr Ile Thr Pro Val Arg Trp Asp Ser Gly Cys Leu Phe Tyr Arg
500 505 510
Glu Ala Leu Phe Ala Asn Pro Arg His Pro Asn Phe Arg Gln Ile Leu
515 520 525
Val Gln Ala Tyr Val Leu Thr Ser His Phe Pro Asp Ser Pro Val Ser
530 535 540
Pro His Leu Val Thr Phe Ile Gly Arg Gln Arg Thr Val Ala Glu Glu
545 550 555 560
Gly Val Asn Phe Trp Leu Glu Thr Pro Ser Pro Ser Val Ala Cys Pro
565 570 575
Pro Asn His Asp Pro Ser Pro Pro Pro Val Ser Asn Arg Ala Ser Ile
580 585 590
Ala Ala Asp Gln Ala Ile Pro Val Ala Val Ile Ile Thr Pro Val Arg
595 600 605
Leu Asp Val Ala Val Tyr Lys Val Leu Gln Arg Asn Ser Arg Leu Ala
610 615 620
Phe Asp Ala Thr Leu Ala Gln Leu Trp Ala Ser Arg Thr Pro Lys Ser
625 630 635 640
Val Leu Ala Ala Asp Glu Thr Ser Ser Ser Pro Thr Thr Glu Ser Pro
645 650 655
<210> 45
<211> 304
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 45: ME15的氨基酸序列
<400> 45
Met Ala Val Leu Ser Leu Lys Glu Phe Arg Asp Ile Arg Lys Gly Cys
1 5 10 15
Asp Asp Lys Gly Ile Leu Val Met Asp Gly Asp Trp Leu Val Phe Gln
20 25 30
Ala Met Ser Ala Ala Glu Phe Asp Ala Ser Trp Glu Glu Glu Ile Trp
35 40 45
His Arg Cys Cys Asp His Ala Lys Ala Arg Gln Ile Leu Asp Asp Ser
50 55 60
Ile Lys Ser Tyr Ser Thr Arg Lys Lys Ala Trp Asn Gly Ala Pro Ile
65 70 75 80
Val Leu Ala Phe Thr Asp Thr Ile Asn Trp Arg Lys Glu Leu Val Asp
85 90 95
Pro Thr Tyr Lys Glu Asn Arg Lys Ala Thr Lys Lys Pro Val Gly Tyr
100 105 110
Phe Glu Phe Leu Asp Ala Leu Phe Glu Arg Pro Glu Phe Tyr Cys Val
115 120 125
Arg Glu Asp Met Leu Glu Gly Asp Asp Val Met Gly Ile Ile Gly Ser
130 135 140
Asn Pro Ser Ala Phe Gly Ala Arg Lys Ala Val Ile Ile Ser Cys Asp
145 150 155 160
Lys Asp Phe Lys Thr Ile Pro Asp Cys Asp Phe Leu Trp Cys Thr Thr
165 170 175
Gly Asn Ile Leu Thr Gln Thr Gln Glu Ser Ala Asp Trp Trp His Leu
180 185 190
Phe Gln Thr Ile Lys Gly Asp Ile Thr Asp Gly Tyr Ser Gly Ile Ala
195 200 205
Gly Trp Gly Asp Ser Ala Glu Gly Phe Leu Asn Ala Pro Phe Ile Thr
210 215 220
Glu Pro Gln Val Ser Val Leu Lys Ser Gly Lys Asn Lys Gly Gln Glu
225 230 235 240
Val Thr Lys Trp Val Lys Arg Ala Pro Thr Glu Ser Glu Thr Leu Trp
245 250 255
Asp Cys Ile Val Ser Ile Gly Ala Lys Ala Gly Met Thr Glu Glu Asp
260 265 270
Val Ile Lys Gln Gly Gln Met Ala Arg Ile Leu Arg Phe Asn Asp Tyr
275 280 285
Asn Ile Asp Thr Lys Glu Ile Thr Leu Trp Arg Pro Ser Ala Ser Phe
290 295 300
<210> 46
<211> 298
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 46: SpiPh (Spi-Phage)的氨基酸序列
<400> 46
Met Ser Ile Lys Ser Leu Ala Gln Phe Glu Ala Met Gly Leu Ser Gly
1 5 10 15
Lys Gly Leu Leu Val Met Asp Gly Asp Trp Leu Val Phe Gln Ala Met
20 25 30
Ser Ala Ala Glu Phe Asp Ala Ser Trp Glu Glu Glu Ile Trp His Arg
35 40 45
Cys Cys Asp His Ala Lys Ala Arg Gln Ile Leu Asp Gln Ser Ile Ser
50 55 60
Gly Tyr Ala Asn Arg Lys Lys Ala Trp Val Gly Ala Pro Ile Val Leu
65 70 75 80
Ala Phe Thr Ser Asp Thr Asn Trp Arg Lys Asp Val Leu Glu Ser Tyr
85 90 95
Lys Ser Asn Arg Lys Lys Thr Lys Lys Pro Val Gly Tyr Phe Glu Phe
100 105 110
Leu Asp Ala Val Phe Glu Asp Asp Arg Tyr Ile Cys Val Arg Glu Asp
115 120 125
Asn Leu Glu Gly Asp Asp Val Met Gly Ile Ile Gly Ser Asn Pro Val
130 135 140
Pro Phe Gly Phe Lys Lys Ala Val Leu Val Ser Cys Asp Lys Asp Phe
145 150 155 160
Lys Thr Ile Pro Asn Cys Asp Phe Phe His Val Thr Ala Gly Lys Leu
165 170 175
Leu Glu Gln Asn Glu Lys Ser Ala Asp Tyr Trp Trp Met Phe Gln Thr
180 185 190
Ile Lys Gly Asp Ile Thr Asp Gly Tyr Ser Gly Ile Ala Gly Met Gly
195 200 205
Glu Thr Gly Ala Leu Glu Phe Leu Asn Ala Pro Tyr Lys Leu Val Gln
210 215 220
Glu Thr Ser Leu Ile Lys Ala Gly Lys Asn Lys Gly Gln Glu Arg Thr
225 230 235 240
Val Trp Thr Lys Arg Glu Leu Glu Glu Ser Asp Ser Leu Trp Asp Ala
245 250 255
Ile Lys Ser Met Gly Ala Lys Ala Gly Met Ser Glu Glu Asp Val Arg
260 265 270
Ala Gln Ala Leu Val Ala Arg Ile Leu Arg His Asn Asp Tyr Asn Trp
275 280 285
Ile Asp Arg Glu Ile Tyr Phe Pro Glu Ile
290 295
<210> 47
<211> 12
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 47: 氨基酸序列区段
<400> 47
Ala Pro Ala Glu Ser Val His Ala Cys Gly Val Leu
1 5 10
<210> 48
<211> 12
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 48: 氨基酸序列区段
<400> 48
Ala Pro Ala Ala Ser Val His Ala Cys Gly Val Leu
1 5 10
<210> 49
<211> 21
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 49: 氨基酸序列区段
<220>
<221> 变体
<222> (12)..(13)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<400> 49
Ala Lys Tyr Ala Phe Asp Pro Ala Asp Ala Gly Xaa Xaa Val Val Ala
1 5 10 15
Ala His Arg Arg Leu
20
<210> 50
<211> 12
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 50: 氨基酸序列区段
<400> 50
Ala Pro Ala Ser Ala Pro Ala Ala Val Arg Ala Ala
1 5 10
<210> 51
<211> 11
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 51: 氨基酸序列区段
<220>
<221> 变体
<222> (8)..(8)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<400> 51
Leu Ile Ile Thr Pro Val Arg Xaa Asp Ala Ala
1 5 10
<210> 52
<211> 12
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 52: 氨基酸序列区段
<400> 52
Ala Pro Thr Glu Ser Glu Thr Leu Trp Asp Cys Ile
1 5 10
<210> 53
<211> 11
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 53: 氨基酸序列区段
<400> 53
Ile Leu Arg Phe Asn Asp Tyr Asn Ile Asp Thr
1 5 10
<210> 54
<211> 9
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 54: 氨基酸序列区段
<400> 54
Phe Arg Tyr Cys Val Gly Arg Ala Asp
1 5
<210> 55
<211> 13
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 55: 氨基酸序列区段
<220>
<221> 变体
<222> (2)..(2)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (6)..(6)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<400> 55
Pro Xaa Pro Leu Met Xaa Phe Phe Glu Ala Ala Thr Gln
1 5 10
<210> 56
<211> 86
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 56: 氨基酸序列区段
<220>
<221> 变体
<222> (2)..(2)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (6)..(6)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (8)..(8)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (14)..(14)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (16)..(18)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (22)..(22)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (29)..(29)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (32)..(32)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (35)..(35)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (38)..(39)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (42)..(42)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (44)..(46)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (49)..(50)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (51)..(61)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (63)..(64)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (68)..(68)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (71)..(72)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<220>
<221> 变体
<222> (75)..(76)
<223> A 或 R 或 N 或 D 或 C 或 Q 或 E 或 G 或 H 或 I 或 L 或 K 或 M 或
F 或 P 或 O 或 S 或 U 或 T 或 W 或 Y 或 V
<400> 56
Pro Xaa Pro Leu Met Xaa Phe Xaa Glu Ala Ala Thr Gln Xaa Gln Xaa
1 5 10 15
Xaa Xaa Gln Leu Trp Xaa Leu Leu Arg Arg Gly Leu Xaa Thr Ala Xaa
20 25 30
Thr Leu Xaa Trp Gly Xaa Xaa Gly Pro Xaa Phe Xaa Xaa Xaa Trp Leu
35 40 45
Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Ala Xaa Xaa
50 55 60
Phe Gly Arg Xaa Asn Glu Xaa Xaa Ala Arg Xaa Xaa Leu Phe Arg Tyr
65 70 75 80
Cys Val Gly Arg Ala Asp
85
<210> 57
<211> 4988
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 57: AGGT_NLS-LbCas12ai-NLS*_GCTT
<400> 57
aggtctgcag cctaagaaga agagaaaggt tggaggagtc gactcgagtg cggccgccac 60
aatgagcaag ctcgagaagt ttaccaactg ctacagcctg tctaagaccc tgaggttcaa 120
ggctattcct gtgggtaaga cccaagagaa tatcgacaac aagcggctgc tggttgagga 180
tgagaagaga gctgaggatt acaagggcgt gaagaagctg ctggatcggt actacctgag 240
cttcatcaac gatgtgctgc acagcatcaa gctgaagaac ctgaacaact acatcagcct 300
gttccggaag aaaacccgga ccgagaaaga gaacaaagag cttgagaacc tcgagatcaa 360
cctgcggaaa gagatcgcta aggctttcaa gggtaacgaa ggtaaggatt tttatgatat 420
actatgctta tgtattttgt actgaaagca tatcctgctt cattgggata ttactgaaag 480
catttaacta catgtaaact cacttgatga tcaataaact tgattttgca ggttacaaga 540
gcctgttcaa gaaggatatt atcgagacta tcctgcctga gttcctggac gataaggatg 600
agattgccct ggtgaacagc ttcaacggtt tcactactgc cttcaccggt ttcttcagaa 660
accgggaaaa catgttcagc gaagaggcca agtctacctc tatcgctttc cggtgcatta 720
acgagaactt gacccggtac atcagcaaca tggacatctt cgagaaggtg gacgccatct 780
tcgataagca cgaggtgcaa gaaatcaaag agaagatcct gaactccgac tacgacgtcg 840
aggatttttt tgagggcgag ttcttcaact tcgtgctcac ccaagaaggt aacattcctt 900
agttaccttt cttttctttt tccatcataa gtttatagat tgtacatgct ttgagatttt 960
tctttgcaaa caatctcagg tatcgatgtg tacaacgcta tcatcggtgg tttcgtgact 1020
gagagcggtg agaagattaa gggcctgaac gagtacatta acctgtacaa tcaaaagacc 1080
aagcagaagc tgccgaagtt caagccgctt tacaagcagg ttctgagcga tcgtgagagc 1140
ctgtcttttt acggagaggg atacacctct gatgaagagg ttttggaggt aatcttgaaa 1200
ttggaactct tcttttgttg tctaaaccta tcaatttctt tgcggaaatt tatttgaagc 1260
tgtagagtta aaattgagtc ttttaaactt ttgtaggtgt tccgtaacac cctgaacaag 1320
aacagcgaga tcttcagctc catcaagaag ctggaaaagc tgtttaagaa cttcgacgag 1380
tacagcagcg ctggcatctt cgttaagaac ggtcctgcta tcagcaccat cagcaaggat 1440
attttcggcg agtggaacgt gatccgggat aagtggaatg ctgagtacga tgacatccac 1500
ctgaagaaaa aggctgtggt gaccgagaag tacgaggatg ataggcggaa gtccttcaag 1560
aagataggta agttgttact tatgattgtt ttcctctctg ctacatgtat tttgttgttc 1620
atttctgtaa gatataagaa ttgagttttc ctctgatgat attattaggt tcctttagcc 1680
tcgagcagct tcaagagtat gctgacgctg atctgtccgt ggtcgagaag cttaaagaga 1740
tcatcatcca gaaggtcgac gagatctaca aggtgtacgg cagctctgag aagcttttcg 1800
atgctgactt cgtgttggag aagtctctga agaagaacga cgccgttgtc gctatcatga 1860
aggatctgct ggacagcgtg aagtctttcg agaactatat caaggccttc ttcggcgaag 1920
gttagtatca tatgaagaaa tacctagttt cagttgatga atgctatttt ctgacctcag 1980
ttgttctctt ttgagaatta tttcttttct aatttgcctg atttttctat taattcatta 2040
ggtaaagaga ctaataggga cgagtcattc tacggcgatt tcgtgctggc ttacgacatc 2100
cttcttaagg tggaccacat ctacgacgcc atcagaaatt acgtgaccca gaagccgtac 2160
agcaaggaca agttcaagtt gtacttccag aatccgcagt tcatgggcgg ctgggacaaa 2220
gacaaagaga cagattacag ggctaccatc ctgcggtacg gctctaagta ctaccttgcc 2280
atcatggaca agaaatacgc caagtgcctg caaaagatcg acaaggatga tgtgaacggc 2340
aactacgaga agatcaacta caagctcctg ccaggtaaat cctggtccac acttttacga 2400
taaaaacaca agattttaaa ctatgaactg atcaataatc attcctaaaa gaccacactt 2460
ttgttttgtt tctaaagtaa tttttactgt tataacaggt cctaacaaga tgcttcctaa 2520
ggtgttcttc tcaaagaaat ggatggccta ctacaacccg agcgaggaca tccagaaaat 2580
ctacaagaac ggcaccttca aaaagggcga catgttcaac ctgaacgact gccacaagct 2640
gatcgatttc ttcaaggaca gcatcagccg gtatccgaag tggtctaacg cttacgattt 2700
caacttcagc gagactgaga agtataagga tatcgccggc ttctaccgtg aggttgagga 2760
acagggttac aaggttagct tcgagagcgc cagcaagaaa gaggtggaca agttggttga 2820
agaaggtaag aggtcaaaag gtttccgcaa tgatccctct ttttttgttt ctctagtttc 2880
aagaatttgg gtatatgact aacttctgag tgttccttga tgcatatttg tgatgagaca 2940
aatgtttgtt ctatgtttta ggtaagctgt acatgttcca aatctataac aaggacttct 3000
ccgacaagtc tcacggcact cctaatctgc atacaatgta cttcaagctg ctgttcgacg 3060
agaacaacca cggtcagatt aggctttctg gtggtgctga gctgttcatg agaagggcct 3120
cactgaagaa agaagagttg gtcgttcacc ctgccaactc tccaatcgct aacaagaacc 3180
ctgacaaccc gaaaaagacc accaccttgt cttacgacgt gtacaaggat aagcggttca 3240
gcgaggatca gtacgagctt cacattccga tcgccatcaa caagtgcccg aagaacatct 3300
tcaagatcaa taccgaggtg cgggtgctgc tgaagcacga tgataatcct tacgtgatcg 3360
gcatcgatag gggcgagaga aaccttcttt acatcgtggt ggtggacggc aagggcaata 3420
tcgttgagca gtactctctg aacgagatta tcaacaattt caacggcatc cggatcaaga 3480
ccgactacca ctctctgctg gataagaaag aaaaagagcg gttcgaggcc aggcagaact 3540
ggacttctat cgaaaacatc aaagagctga aggccggcta catctctcag gtggtgcata 3600
agatttgcga gctggtggaa aagtacgacg ctgtgattgc tctcgaggat ctgaacagcg 3660
gcttcaagaa ctcacgtgtg aaggtaaagc aactgtgttt taatcaattt cttgtcagga 3720
tatatggatt ataacttaat ttttgagaaa tctgtagtat ttggcgtgaa atgagtttgc 3780
tttttggttt ctcccgtgtt ataggttgag aagcaggtct accaaaagtt cgagaagatg 3840
ctcatcgaca agctgaacta catggtggac aaaaagagca acccttgcgc taccggtggt 3900
gctcttaagg gttaccagat cactaacaag ttcgagtctt tcaagagcat gagcacccag 3960
aacggcttca tcttctacat ccctgcttgg ctgaccagca agatcgatcc ttctactggc 4020
ttcgtcaacc tgctcaagac caagtacacc agcattgccg acagcaagaa gttcatcagc 4080
tcattcgacc ggatcatgta cgtgccagaa gaggatcttt tcgagttcgc cctcgattac 4140
aagaacttct ctaggaccga cgccgactac attaagaagt ggaagctgta ctcctacggc 4200
aaccggattc ggatctttcg gaacccgaag aaaaacaacg tgttcgactg ggaagaggta 4260
aagtttccaa ctttccttta ccatatcaaa ctatagttcg aaacttttta tttgatcaac 4320
ttcaaggcca cccgatcttt ctattcctga ttaatttgtg atgaatccat attgactttt 4380
gatggttacg caggtgtgcc tgacctctgc ctacaaagaa ctgttcaaca agtacggcat 4440
caactaccag cagggtgata ttagggctct gctttgcgag cagtctgaca aggctttcta 4500
cagctctttc atggccctga tgtctctgat gctgcaaatg aggaactcta tcaccggtag 4560
gaccgatgtg gacttcctta tctctccggt gaagaacagt gacgggatct tctacgacag 4620
ccggaattat gaggctcaag agaacgcaat cctgccgaag aatgctgatg ctaacggcgc 4680
ttacaacatt gccagaaagg tgctgtgggc tatcggccag tttaagaaag ccgaagatga 4740
gaagttggac aaggtctgtc tttcctattt catatgttta atcctaggaa tttgatcaat 4800
tgattgtatg tatgtcgatc ccaagacttt cttgttcact tatatcttaa ctctctcttt 4860
gctgtttctt gcaggtgaag atcgctatct ccaacaaaga gtggctcgag tacgctcaga 4920
ctagcgttaa gcataaaagg ccggcggcca cgaaaaaggc cggccaggca aaaaagaaaa 4980
agggttcg 4988
<210> 58
<211> 1458
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 58: 编码用于N-末端核酸外切酶-Cas9融合体的AATG_SOX_TTCG核酸外切酶的多核苷酸
<400> 58
aatggaagct actcctactc ctgctgacct gttctctgag gattaccttg tggataccct 60
ggatggtctg accgttgatg atcagcaagc tgtgcttgcc agcctgagct tctctaagtt 120
tctgaagcac gccaaggtga gagattggtg tgctcaggct aagatccagc cttctatgcc 180
tgctcttagg atggcctaca actacttcct gttcagcaag gtgggcgagt tcatcggttc 240
tgaggatgtg tgcaacttct tcgtggatag agtgttcggt ggtgtgaggc ttcttgatgt 300
ggcttctgtt tacgctgcct gctcacagat gaatgctcat cagaggcatc acatctgctg 360
ccttgttgag agggctacct cttctcagtc tcttaaccct gtgtgggatg ctctgcgtga 420
tggcatcatc agctcatcta agttccactg ggctgtgaag cagcagaaca ccagcaagaa 480
aatcttcagc ccttggccga tcaccaacaa ccattttgtt gctggccctc tggctttcgg 540
tcttagatgt gaggaagtgg ttaagaccct tctggctacc ttgcttcatc ctgatgaggc 600
taactgcctg gactacggtt ttatgcagtc tccacagaac ggcatcttcg gtgtgtctct 660
tgatttcgcc gctaacgtta agaccgatac cgagggtaga ctgcagttcg accctaattg 720
caaggtgtac gagatcaagt gctcaagtac accttcgcca agatggaatg cgaccctatc 780
tatgctgctt accagaggct ttatgaggct cctggtaagc tggctctgaa ggacttcttc 840
tacagcatct ctaagccggc cgttgagtac gttggtcttg gtaagcttcc atccgagagc 900
gattacctgg tggcttatga tcaagagtgg gaagcttgcc ctcggaagaa gagaaagctt 960
acccctcttc acaacctgat ccgtgagtgc attctgcaca atagcaccac cgagtccgat 1020
gtgtacgtgt tgactgatcc tcaggatacc aggggccaga tctctattaa ggctcggttc 1080
aaggctaacc tgttcgtgaa tgtgcggcac agctacttct accaggtgct ccttcagtcc 1140
tctatcgtgg aagagtacat cggtctggat agcggtattc ctaggctggg ttctccgaag 1200
tactacattg ctaccggttt cttccgtaag cggggttacc aagatcctgt gaactgcacc 1260
attggcggtg atgctcttga tcctcacgtt gagattccga ctcttctgat tgtgacccct 1320
gtgtactttc ctaggggtgc taaacacagg ctgcttcatc aggctgccaa tttctggtct 1380
aggtccgcta aggacacttt cccgtacatc aagtgggact tcagctacct gtctgctaac 1440
gtgccacatt ctccttcg 1458
<210> 59
<211> 1692
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 59: 编码用于N-末端核酸外切酶-Cas9融合体的AATG_AB4P_TTCG核酸外切酶的多核苷酸
<400> 59
aatggactct tctccggtga cttattctgg tgagcctcct tacaagctgc ggaggctttc 60
tccttcttac ccgtacgtta gcaagctgag agagaggtgc gctagcaaga ttgagactct 120
gtctgagggt agcgctaggg attctctgga agaggaagat gtgtctgagg ctatggctac 180
cggtgctttt cttgctacca ggctttacct tcctagcgtg ttgcctcaga ggattactac 240
cctgaccttc ctggaccact tcaagaagtc taggcctctg cctaacagcg acaagaggct 300
taaccctatc ttctaccggc tggcttacat cagggatctt gtgggtgaaa tggaactcga 360
gggtatcgtt gagaggggta ctgcttctag actgcttggt gcttcttctc ctgctggttt 420
cgttgctggt acttacaccc atgctaggga cctgagcaag actatgtctc ttgcttctgt 480
gagggatgct gtgcttgcta ttgaggctca gactagggat cagtctgagt ctcagctttg 540
ggctcttttg agaaggggtc ttgctactgc ctctaccatg aagtggggtg ctcttggtcc 600
tcagtatcat cctcagtggt gcgaggtgtc aactaacgct aagggtatcc ctaacaaccc 660
ggctctgcaa ttcggtcaga ctaatgagag gaccgctcgg agccttatct ctgctcttta 720
tgttgctagg tccgaggctg ctacccctga tcttcttgtt gatcctggtt gcggtcagtg 780
cttcgtgttt gatgagtctg cttcagtgcc tggggatgct tatgcttgcg gtcttttgat 840
ggatgctagg gtgttgtggg cgcttctctt gatatgcttg tgtgcgatag ggacccttct 900
ggtgttcttt ctccacattc tacccagact accctggact tcttcgagat taagtgccgg 960
gctaagtacc tgttcgatcc ggatttgttc tctcctgtgg ctaccgctta cgccaacctt 1020
cttaaacata ggaccgctgt gtgcctgagg aagttcctgc ggtctattaa gaaccctgcc 1080
gtcgagtact tcgctcctac ttctgttcct ggtgctaccg aggctcttat tacctgcaac 1140
tcttcttgga agccgcgtga ggtgaacgag actaatagaa ggtgcggcga tttcgacagg 1200
gaccacattg ctcttaacct ggacgcttct tctgacgtgt ggttgttctc tgagcctgac 1260
cttgagtctg agactattac tcctgctagg tgggataccg gtgagcttgc tctttctgtg 1320
cctgtgtttg ctaatcctcg gcaccctaac ttcaagcaga ttctggttca ggcctacgtg 1380
ctgtctggtc atttccctga tcatcagctg aggcctttct tggtgacctt cattggtaga 1440
cataggaaga ggtgcgaaga gggtaagacc ttcaccattt gcgataggcc tgagggctct 1500
ccatacaacc ttaatgaggt ggtgcacagc tcttgcgcta ttcctattct tctgttcgtg 1560
acccctgtga tcgtggatag agaaggatgc tgggaagata tcgagatcga gtctctgacc 1620
gccttcaaca agaccgctga tgctatctgg gatagcgact ctccagctga tgtttctgag 1680
ccaacctctt cg 1692
<210> 60
<211> 1822
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 60: 编码用于N-末端核酸外切酶-Cas9融合体的AATG_PapE_TTCG核酸外切酶的多核苷酸
<400> 60
aatgcagact actacccctg tggatcctcc atcttctcgg tctgaaaaca agaggcctcc 60
tgctcctgct ggtgatgaag gtgctggtcc tggtagaggt cttgttgatc ctgctagacc 120
tcctaagagg ccaaggcctg attctcttcc tcttgctgct gtgtgtagac ctgctactcc 180
tccatcacct ggtagaccag aaactcctcc tactcctgat ctgcctttgt ctcctagagg 240
aacccatggt attgcagctc cagctggcga acctgaacct ggttctccta gtctgcttga 300
gaactatgtt cctccagctc ctgatgctgg tgacgctggt tctactccag agcctggttg 360
gtctgctgtt gctattccag atgctctgcc ttctcatgtg ctggctgaga cttttgagag 420
gcacctttgc ggtcttttga ggggtgttag aaggcctttg gatgttgagc ctcttagagc 480
taggctgggc taccttttct ctcttgctac tgctcttgaa gaggctggca tggtggatag 540
aggtgttggt ggtcatcttc tgaggctgtc tagaagggct gctgctgcag atcctagacc 600
tcttatggct tttttcgagg ccgctactca gaaccaggct gaatctcaac tttggggtct 660
gcttagaagg ggtcttacta ccgcttctac ccttaagtgg ggacctagag gaccttgctt 720
tagccctaga tggctgaaga acaacggtga tcctaggctg gacttccagt catctgctgt 780
tatgttcggt aggaccaatg agcctgctgc tagggctctt ttgttcaggt attgcgttgg 840
cagggctgat gatagagatg ctgaaggtga tgatgctggc aggcgttttg ttttttgcga 900
gcctggtgat gctcctgcag cttctgttca tgcttgcggt gttcttgtgg atgctcacac 960
tggtatggtg ggcgcttctc ttgatattct tgtgtgccct agagataggc acggctgcct 1020
taatcctgct ccaggtactc ctcttaggtt ctacgaggtt aagtgccggg ctaagtacgc 1080
tttcgatcct gctgatgcag gcgatcctgt tgttgctgct catagaaggc ttgtggctag 1140
gcgttctcca tctgatttca gggctttctt gcggtctatt gctaggcctg gtgtgagata 1200
ctttgctcct ggaagagttc ctggtcctga ggaagctctt gtttctgatc atgctgtgtg 1260
ggctgatgca agagccggtg atgagaagag aaggtgctct gctttggaca gggctcttgt 1320
gggtcttaat tctggtgtgg cttccgatgt gctgcttttc ggagatcctg atccagagag 1380
aaggaccgtt tctcctttgg cttggtcatc tggtgctctt gtgcacaggg aacctatctt 1440
cgctaatcct aggcacccga acttcaagca gattctggtt caggcttacg tgctggcttc 1500
tcattttcct gaatgccctc ttcatcctca cctcgtgact ttcattggta gacataggac 1560
ccctgatgag gaaggacttt ctctgagact tgaggacgct ccagcttctg ctccagcagc 1620
tgttagggct gcagctggtg cttctattct tccagatcag gctgttcctg tggctctgat 1680
tattacccct gttagggttg acgctgccat ctacgatctt atccgtagga actctaggct 1740
cgccttcgat gagactcttg ctagactttg ggcttctagg gctcctgctt ctgatcctgc 1800
cgctgctggc gaaacttctt cg 1822
<210> 61
<211> 1972
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 61: 编码用于N-末端核酸外切酶-Cas9融合体的AATG_PiE_TTCG核酸外切酶的多核苷酸
<400> 61
aatgacctct accagcagct ctagtcctct tcatcctcct agtcctcaga agcggaagtc 60
tctttctgct gatggtgttg ctggtcttgc tactcctact aagagagcta ggcctcactc 120
tcttccacct cttgtgcttc attggtcacc tccatctcca tctttgctgc ctcaggacgg 180
gactttcatc ttcccatctg atgataccaa gaccagggct gctgaagaaa ctggtcctcc 240
tgctcctcaa tctcagaatg ctcctgttag ccctctgggc gataagtttt ctcctgcttg 300
tgctcctacc agcggtctga tttgttccga ttctgaagag actgaggacc tggtcgagtc 360
tactcaggtt ttgtcatctg aggctgctac ccctctgtct agagttgagg cttgtgatct 420
tcctcctccg cttatgtggt ccgctacctc tattcctaat gctctgcctc ctgagatctt 480
caccaagacc ttcgctaagt acctgcggaa gcttctgatc ggtattgatc accctctgga 540
cattgagcct cttcaggcta ggcttggtta cctgtactct ctgatgaggg ctcttgaagg 600
tggtggtatg ctttctgagg gcctgtctag atacctgatc tgccaatcta gacctcaggc 660
cagcagatct aagttgccta gacctggttt gcctgtggtg aaccctaagc cactgatgag 720
atttttcgag gccgctactc agtctcaggg cgattctcaa ctttgggctc ttttgagaag 780
gggccttgct accgctacta ctcttaagtg gggttctcag ggtccagctt ttgctcctca 840
gtggttggat ggtgtggttg atcaatctgc tggtggtaag ggtgctgcta ttgctttcgg 900
taggattaac gagcttaccg ccaggaccat tctgttcagg tattgcgttg gtagggctga 960
tcataccgct gatgctgatc ctgaggaacg gttcattttc caccagcctg atgacatggc 1020
cgaagagaat gttcatacct gcggtgtgct tatggatacc cacactggta tggtgggcgc 1080
ttctcttgat attcttgtgt gccctagaga tcagcacggt tgcttgtctc cacctcctaa 1140
gtaccctctt gctttctacg aggttaagtg ccgggctaag tacgctttcg atcctatgga 1200
tcttcagagc ccaaccacct tggcttacaa ccagctgatg gatagaaggt cccctgctgc 1260
tttcaggcgg ttcatgcact ctatttctaa gcctggcgtg cagttcatca gccacggtaa 1320
ttttccagga cctgaggaag ctctggtcac cacttctagt ctttgggatc agtcatctgg 1380
tgccccgacc aagaaaagaa gatgtcctgc tgctgagcag gctctggtga agcttaacaa 1440
gtctgtgacc agcagcatcc ttcttttcgg cactcctgat cttgagcaga ggactattac 1500
acctgtgagg tgggattctg gctgcctgtt ttacagagag gctctgttcg ctaatcctcg 1560
gcatcctaac ttcaggcaga ttctggttca ggcttacgtg ctgacttctc acttccctga 1620
ttctccagtg tctcctcacc ttgtgacctt cattggaagg cagagaactg tggctgaaga 1680
gggtgtgaat ttctggctcg aaaccccttc tccttctgtt gcttgccctc ctaatcacga 1740
tccttctcca ccacctgtgt ctaacagggc ttctattgct gccgatcagg ctattcctgt 1800
ggctgtgatt attaccccag tgaggcttga tgtggccgtg tataaggtgt tgcagaggaa 1860
ctctaggctg gctttcgatg ctactcttgc tcagttgtgg gcttctagga ctcctaagtc 1920
tgttctcgct gctgacgaga ctagctcatc tcctactact gagtctcctt cg 1972
<210> 62
<211> 4988
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 62: 用于C-末端融合体的LbCas12a(D156R)模块 AATG_NLS-LbCas12ai-NLS_TTCG的多核苷酸序列
<400> 62
aatgctgcag cctaagaaga agagaaaggt tggaggagtc gactcgagtg cggccgccac 60
aatgagcaag ctcgagaagt ttaccaactg ctacagcctg tctaagaccc tgaggttcaa 120
ggctattcct gtgggtaaga cccaagagaa tatcgacaac aagcggctgc tggttgagga 180
tgagaagaga gctgaggatt acaagggcgt gaagaagctg ctggatcggt actacctgag 240
cttcatcaac gatgtgctgc acagcatcaa gctgaagaac ctgaacaact acatcagcct 300
gttccggaag aaaacccgga ccgagaaaga gaacaaagag cttgagaacc tcgagatcaa 360
cctgcggaaa gagatcgcta aggctttcaa gggtaacgaa ggtaaggatt tttatgatat 420
actatgctta tgtattttgt actgaaagca tatcctgctt cattgggata ttactgaaag 480
catttaacta catgtaaact cacttgatga tcaataaact tgattttgca ggttacaaga 540
gcctgttcaa gaaggatatt atcgagacta tcctgcctga gttcctggac gataaggatg 600
agattgccct ggtgaacagc ttcaacggtt tcactactgc cttcaccggt ttcttcagaa 660
accgggaaaa catgttcagc gaagaggcca agtctacctc tatcgctttc cggtgcatta 720
acgagaactt gacccggtac atcagcaaca tggacatctt cgagaaggtg gacgccatct 780
tcgataagca cgaggtgcaa gaaatcaaag agaagatcct gaactccgac tacgacgtcg 840
aggatttttt tgagggcgag ttcttcaact tcgtgctcac ccaagaaggt aacattcctt 900
agttaccttt cttttctttt tccatcataa gtttatagat tgtacatgct ttgagatttt 960
tctttgcaaa caatctcagg tatcgatgtg tacaacgcta tcatcggtgg tttcgtgact 1020
gagagcggtg agaagattaa gggcctgaac gagtacatta acctgtacaa tcaaaagacc 1080
aagcagaagc tgccgaagtt caagccgctt tacaagcagg ttctgagcga tcgtgagagc 1140
ctgtcttttt acggagaggg atacacctct gatgaagagg ttttggaggt aatcttgaaa 1200
ttggaactct tcttttgttg tctaaaccta tcaatttctt tgcggaaatt tatttgaagc 1260
tgtagagtta aaattgagtc ttttaaactt ttgtaggtgt tccgtaacac cctgaacaag 1320
aacagcgaga tcttcagctc catcaagaag ctggaaaagc tgtttaagaa cttcgacgag 1380
tacagcagcg ctggcatctt cgttaagaac ggtcctgcta tcagcaccat cagcaaggat 1440
attttcggcg agtggaacgt gatccgggat aagtggaatg ctgagtacga tgacatccac 1500
ctgaagaaaa aggctgtggt gaccgagaag tacgaggatg ataggcggaa gtccttcaag 1560
aagataggta agttgttact tatgattgtt ttcctctctg ctacatgtat tttgttgttc 1620
atttctgtaa gatataagaa ttgagttttc ctctgatgat attattaggt tcctttagcc 1680
tcgagcagct tcaagagtat gctgacgctg atctgtccgt ggtcgagaag cttaaagaga 1740
tcatcatcca gaaggtcgac gagatctaca aggtgtacgg cagctctgag aagcttttcg 1800
atgctgactt cgtgttggag aagtctctga agaagaacga cgccgttgtc gctatcatga 1860
aggatctgct ggacagcgtg aagtctttcg agaactatat caaggccttc ttcggcgaag 1920
gttagtatca tatgaagaaa tacctagttt cagttgatga atgctatttt ctgacctcag 1980
ttgttctctt ttgagaatta tttcttttct aatttgcctg atttttctat taattcatta 2040
ggtaaagaga ctaataggga cgagtcattc tacggcgatt tcgtgctggc ttacgacatc 2100
cttcttaagg tggaccacat ctacgacgcc atcagaaatt acgtgaccca gaagccgtac 2160
agcaaggaca agttcaagtt gtacttccag aatccgcagt tcatgggcgg ctgggacaaa 2220
gacaaagaga cagattacag ggctaccatc ctgcggtacg gctctaagta ctaccttgcc 2280
atcatggaca agaaatacgc caagtgcctg caaaagatcg acaaggatga tgtgaacggc 2340
aactacgaga agatcaacta caagctcctg ccaggtaaat cctggtccac acttttacga 2400
taaaaacaca agattttaaa ctatgaactg atcaataatc attcctaaaa gaccacactt 2460
ttgttttgtt tctaaagtaa tttttactgt tataacaggt cctaacaaga tgcttcctaa 2520
ggtgttcttc tcaaagaaat ggatggccta ctacaacccg agcgaggaca tccagaaaat 2580
ctacaagaac ggcaccttca aaaagggcga catgttcaac ctgaacgact gccacaagct 2640
gatcgatttc ttcaaggaca gcatcagccg gtatccgaag tggtctaacg cttacgattt 2700
caacttcagc gagactgaga agtataagga tatcgccggc ttctaccgtg aggttgagga 2760
acagggttac aaggttagct tcgagagcgc cagcaagaaa gaggtggaca agttggttga 2820
agaaggtaag aggtcaaaag gtttccgcaa tgatccctct ttttttgttt ctctagtttc 2880
aagaatttgg gtatatgact aacttctgag tgttccttga tgcatatttg tgatgagaca 2940
aatgtttgtt ctatgtttta ggtaagctgt acatgttcca aatctataac aaggacttct 3000
ccgacaagtc tcacggcact cctaatctgc atacaatgta cttcaagctg ctgttcgacg 3060
agaacaacca cggtcagatt aggctttctg gtggtgctga gctgttcatg agaagggcct 3120
cactgaagaa agaagagttg gtcgttcacc ctgccaactc tccaatcgct aacaagaacc 3180
ctgacaaccc gaaaaagacc accaccttgt cttacgacgt gtacaaggat aagcggttca 3240
gcgaggatca gtacgagctt cacattccga tcgccatcaa caagtgcccg aagaacatct 3300
tcaagatcaa taccgaggtg cgggtgctgc tgaagcacga tgataatcct tacgtgatcg 3360
gcatcgatag gggcgagaga aaccttcttt acatcgtggt ggtggacggc aagggcaata 3420
tcgttgagca gtactctctg aacgagatta tcaacaattt caacggcatc cggatcaaga 3480
ccgactacca ctctctgctg gataagaaag aaaaagagcg gttcgaggcc aggcagaact 3540
ggacttctat cgaaaacatc aaagagctga aggccggcta catctctcag gtggtgcata 3600
agatttgcga gctggtggaa aagtacgacg ctgtgattgc tctcgaggat ctgaacagcg 3660
gcttcaagaa ctcacgtgtg aaggtaaagc aactgtgttt taatcaattt cttgtcagga 3720
tatatggatt ataacttaat ttttgagaaa tctgtagtat ttggcgtgaa atgagtttgc 3780
tttttggttt ctcccgtgtt ataggttgag aagcaggtct accaaaagtt cgagaagatg 3840
ctcatcgaca agctgaacta catggtggac aaaaagagca acccttgcgc taccggtggt 3900
gctcttaagg gttaccagat cactaacaag ttcgagtctt tcaagagcat gagcacccag 3960
aacggcttca tcttctacat ccctgcttgg ctgaccagca agatcgatcc ttctactggc 4020
ttcgtcaacc tgctcaagac caagtacacc agcattgccg acagcaagaa gttcatcagc 4080
tcattcgacc ggatcatgta cgtgccagaa gaggatcttt tcgagttcgc cctcgattac 4140
aagaacttct ctaggaccga cgccgactac attaagaagt ggaagctgta ctcctacggc 4200
aaccggattc ggatctttcg gaacccgaag aaaaacaacg tgttcgactg ggaagaggta 4260
aagtttccaa ctttccttta ccatatcaaa ctatagttcg aaacttttta tttgatcaac 4320
ttcaaggcca cccgatcttt ctattcctga ttaatttgtg atgaatccat attgactttt 4380
gatggttacg caggtgtgcc tgacctctgc ctacaaagaa ctgttcaaca agtacggcat 4440
caactaccag cagggtgata ttagggctct gctttgcgag cagtctgaca aggctttcta 4500
cagctctttc atggccctga tgtctctgat gctgcaaatg aggaactcta tcaccggtag 4560
gaccgatgtg gacttcctta tctctccggt gaagaacagt gacgggatct tctacgacag 4620
ccggaattat gaggctcaag agaacgcaat cctgccgaag aatgctgatg ctaacggcgc 4680
ttacaacatt gccagaaagg tgctgtgggc tatcggccag tttaagaaag ccgaagatga 4740
gaagttggac aaggtctgtc tttcctattt catatgttta atcctaggaa tttgatcaat 4800
tgattgtatg tatgtcgatc ccaagacttt cttgttcact tatatcttaa ctctctcttt 4860
gctgtttctt gcaggtgaag atcgctatct ccaacaaaga gtggctcgag tacgctcaga 4920
ctagcgttaa gcataaaagg ccggcggcca cgaaaaaggc cggccaggca aaaaagaaaa 4980
agggttcg 4988
<210> 63
<211> 920
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 63: 编码用于C末端核酸外切酶-Cas9融合体的AATG_ME15*_GCTT核酸外切酶的多核苷酸 (* 表示终止密码子)
<400> 63
aatggctgtg ctgagcctta aagagttcag ggatatcaga aagggctgcg acgataaggg 60
tatcctggtg atggatggtg attggcttgt gttccaggct atgtctgctg ctgagttcga 120
tgcctcttgg gaagaagaga tttggcaccg ttgttgcgat cacgctaagg ctaggcagat 180
cctggatgac agcatcaaga gctacagcac ccgtaaaaag gcttggaacg gtgctcctat 240
tgtgctggct ttcaccgaca ctatcaactg gcggaaagag ctggttgacc cgacctacaa 300
agagaatagg aaggctacca agaagccggt cggttacttc gagttccttg acgctctttt 360
tgagcggcct gagttctact gcgtgaggga agatatgctc gagggtgatg atgtgatggg 420
cattatcggc tctaaccctt ctgctttcgg tgctagaaag gccgtgatca tcagctgcga 480
taaggacttc aagaccattc cggactgcga ctttctttgg tgcactaccg gtaacatcct 540
gactcagact caagagtctg ctgattggtg gcaccttttc cagaccatca agggcgatat 600
caccgatggc tactctggta ttgctggttg gggagattct gctgagggtt tccttaacgc 660
tcctttcatc actgagcctc aggtgtccgt tctgaagtcc ggtaagaaca agggtcaaga 720
ggttaccaag tgggtgaaga gggctcctac tgagtctgaa actctgtggg attgcatcgt 780
gagcatcggt gctaaggctg gtatgactga agaggacgtt atcaagcagg gtcagatggc 840
taggatcctg aggttcaacg actacaacat cgataccaaa gagattaccc tctggcggcc 900
ttcagcttct ttttgagctt 920
<210> 64
<211> 917
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 64: 编码用于C末端核酸外切酶-Cas9融合体的AATG_O3-12*_GCTT核酸外切酶的多核苷酸 (* 表示终止密码子)
<400> 64
aatgtctctg atcaccctga aggacttcgc tgagatgaga gaaggcaagc cgatggaaaa 60
gggtgtgctt gtgatggatg gtgactggct tgtgtaccag tctatggctg ctgctgaggt 120
tgaaaccgat tggggtgatg atatctggac ccttgagtgc gatcacgcta aggctcggtc 180
tattctggat tccgctatcg agtcttaccg gaccagaaag aaggcttggt ctgacgctat 240
ggtggtgctt gctttcaccg acgatgtgaa ctggcggaag gttttggtgg acgagactta 300
caaagagaac cggaaggcta ccagaaagcc tgttggttac agggacttcc tgtctaagct 360
gtgggagcgt gatgagttca tccacatcaa agaggacatg ctcgagggtg atgacgtgat 420
gggtattatc ggttctggtc acgaggtgtt cggcttcaag aaggctgttc tggttagctg 480
cgacaaggac ttcaagacca ttccggatgt ggactttctg tggtgcacta ccggtaacat 540
tctgacccag accaaagaaa ccgctgattg gtggcatctg ttccagacca tcaagggcga 600
tatgaccgat ggttactctg gtattcctgg ttggggagat actgctgagg ctttccttaa 660
cgacccgttc atcgttgagc ctgttgagtc tgtgctgaag tccggaaaga acaagggtca 720
gactgtgacc aagtgggtta agagggctcc tgatgctact gagactctgt gggattgcat 780
caagagcatc ggtgctaagg ctggtatgac cgagcaagag attatcaagc agggtcagat 840
ggctcggatt ctgaggttcg aagagtacaa ctacatcgac aaagagatct acctctggac 900
cccgagatct tgagctt 917
<210> 65
<211> 902
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 65: 编码用于C末端核酸外切酶-Cas9融合体的AATG_SpiPh*_GCTT核酸外切酶的多核苷酸(* 表示终止密码子)
<400> 65
aatgagcatc aagagccttg ctcagttcga ggctatgggc ctttctggta agggtctgct 60
tgtgatggat ggtgattggc ttgtgttcca ggctatgtct gctgctgagt tcgatgcctc 120
ttgggaagaa gagatttggc accgttgttg cgatcacgct aaggctaggc agattctgga 180
ccagtctatc agcggttacg ccaacagaaa gaaggcttgg gttggagcac ctatcgtgct 240
tgctttcacc agcgatacca actggcggaa ggatgtgctt gagagctaca agagcaaccg 300
gaaaaagacc aagaagccgg ttggctactt cgagttcctt gatgctgtgt tcgaggacga 360
ccggtacatt tgcgtgaggg aagataacct cgagggcgac gatgtgatgg gtatcattgg 420
ttctaaccct gtgccgttcg gcttcaagaa ggctgttctt gttagctgcg acaaggactt 480
caagaccatt ccgaactgcg atttcttcca cgtgaccgct ggtaagcttc ttgagcagaa 540
tgagaagtcc gctgactact ggtggatgtt ccagaccatc aagggcgata tcaccgatgg 600
ctactctggt attgctggta tgggtgagac tggcgctctt gagtttctta acgctcctta 660
caagctggtg caagagacta gccttatcaa ggccggtaag aacaagggtc aagagaggac 720
tgtttggacc aagagagagc tggaagagtc cgattctctg tgggacgcta tcaagtctat 780
gggtgctaag gctgggatga gcgaagaaga tgttagggct caagctctgg tggctaggat 840
tcttaggcac aacgactaca actggatcga ccgtgagatc tacttccccg agatttgagc 900
tt 902
<210> 66
<211> 911
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 66: 编码用于C-末端核酸外切酶-Cas9融合体的AATG_PhBO2*_GCTT核酸外切酶的多核苷酸(*表示终止密码子)
<400> 66
aatgaagttc aacctgaacg agctgaagga ccacctgaag ccttctaaga accttctggt 60
gctggatggt gattggcttg tgttccaagc tatgagcgcc tctgaacaag aggtggactg 120
gggtaatgat atctggaccc ttacttgcga ccacgctaac gctcttgata tcctgcagaa 180
ctctatcgag gcttggacta ctagacggtc cacttggaag aacgctacca ttgtggtggc 240
tttcagcgac gataccaact ggcgtaagga tctggtggac gagaactaca agaccaaccg 300
gaagaaaact aggaagcctt gcggttacag gcacttcgtg gatacctaca tggaacgtga 360
ggacaccatt tgcgtggtgc atcctaatct tgaggctgat gattgcatgg gcatcatcgg 420
ttctggtggt catcatttcg gaacccagaa ggtgaccctg atcagcatcg ataaggattt 480
caggaccgtg ccgaactgcg atttcctttg gtgctctacc aacaacatcc tgcctcagga 540
tcaagagagc gctgatttct ggcatctgta ccagaccatc aagggcgata tcaccgatgg 600
ttacagcggt atcaaaggtt ggggtgagac tgctgaggat ttcctgcttg atccttacat 660
gctggtgcgg caagagtcta ctcttcagag cggtaagaac aagggtcagc tgaaggttca 720
gtacgtgaag gctgataagg gcgacaactc tctgtgggat tgcattgtga gcctgggttc 780
taaggtggac atgagcgaag aggacatcat taagcaggct cggatggcta ggatcctcag 840
gtactctgat tacgacttca agaaccagca ggtcatcctg tggacccctg ataagttgaa 900
tcagtgagct t 911
<210> 67
<211> 890
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 67: 编码用于C末端核酸外切酶-Cas9融合体的AATG_RaTL1*_GCTT核酸外切酶的多核苷酸(* 表示终止密码子)
<400> 67
aatgtctgag cagaggcttg gtctgctgat cgatgctgat ttccttgctt ttcaggctgc 60
tgctaacgct accagagttg ttgaatggga ggatggtgtg cttaccacct gggctaatat 120
ggaagattgc acccaggcct ttctgtcctc tttggaggct cttacctcta ggaacagaag 180
gtggtctacc gccaagctga ttatgtgctt caccgacgat cacaactggc ggaaggatat 240
tctgcctagc tacaaggcta acaggtccgg tgttggtaag ggtaagccta tcgcttactg 300
gaagcttgtt gagtgggtgc accagaactt cgagtgcttt gttagacctg gccttgaggg 360
tgatgattgc atgggtattc tgagcaccaa gccttctctt gtgggttgca ctcataccgt 420
gatcgtgagc cctgataagg acttcaagac tgtgcctggt gagttcttct ggatgactac 480
cggtgagtct cttgtgctgt ctgaagagga tgctaactac tggcacatgt accagacctt 540
gatgggcgat accactgatg gttatgctgg ttgtcctggt gtgggtccta cttctgctgc 600
tgaatttctt gccgagccgt acattgctta cgaggcttct aaggtgctga agtccggtcc 660
tagaaagggt gaagaggtta cctattggac ccagaggcct ttggaagctg gtgaggatct 720
ttgggatggt atcgtgtccc tgttcaagaa ggctggtttg accgaggaag atgctctggt 780
tcaagctaga gtggctagga ttctgagggc tagcgatttc gacttcaagg ctaagacccc 840
tattctgtgg gagcgtccac ctaaagagga tgttggtact gactgagctt 890
<210> 68
<211> 470
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 68: SOX核酸外切酶的氨基酸序列
<400> 68
Met Ala Asp Val Asp Glu Leu Glu Asp Pro Met Glu Glu Met Thr Ser
1 5 10 15
Tyr Thr Phe Ala Arg Phe Leu Arg Ser Pro Glu Thr Glu Ala Phe Val
20 25 30
Arg Asn Leu Asp Arg Pro Pro Gln Met Pro Ala Met Arg Tyr Val Tyr
35 40 45
Leu Tyr Cys Leu Cys Lys Gln Ile Gln Glu Phe Ser Gly Glu Thr Gly
50 55 60
Phe Cys Asp Phe Val Ser Ser Leu Val Gln Glu Asn Asp Ser Lys Asp
65 70 75 80
Gly Pro Ser Leu Lys Ser Ile Tyr Trp Gly Leu Gln Glu Ala Thr Asp
85 90 95
Glu Gln Arg Thr Val Leu Cys Ser Tyr Val Glu Ser Met Thr Arg Gly
100 105 110
Gln Ser Glu Asn Leu Met Trp Asp Ile Leu Arg Asn Gly Ile Ile Ser
115 120 125
Ser Ser Lys Leu Leu Ser Thr Ile Lys Asn Gly Pro Thr Lys Val Phe
130 135 140
Glu Pro Ala Pro Ile Ser Thr Asn His Tyr Phe Gly Gly Pro Val Ala
145 150 155 160
Phe Gly Leu Arg Cys Glu Asp Thr Val Lys Asp Ile Val Cys Lys Leu
165 170 175
Ile Cys Gly Asp Ala Ser Ala Asn Arg Gln Phe Gly Phe Met Ile Ser
180 185 190
Pro Thr Asp Gly Ile Phe Gly Val Ser Leu Asp Leu Cys Val Asn Val
195 200 205
Glu Ser Gln Gly Asp Phe Ile Leu Phe Thr Asp Arg Ser Cys Ile Tyr
210 215 220
Glu Ile Lys Cys Arg Phe Lys Tyr Leu Phe Ser Lys Ser Glu Phe Asp
225 230 235 240
Pro Ile Tyr Pro Ser Tyr Thr Ala Leu Tyr Lys Arg Pro Cys Lys Arg
245 250 255
Ser Phe Ile Arg Phe Ile Asn Ser Ile Ala Arg Pro Thr Val Glu Tyr
260 265 270
Val Pro Asp Gly Arg Leu Pro Ser Glu Gly Asp Tyr Leu Leu Thr Gln
275 280 285
Asp Glu Ala Trp Asn Leu Lys Asp Val Arg Lys Arg Lys Leu Gly Pro
290 295 300
Gly His Asp Leu Val Ala Asp Ser Leu Ala Ala Asn Arg Gly Val Glu
305 310 315 320
Ser Met Leu Tyr Val Met Thr Asp Pro Ser Glu Asn Ala Gly Arg Ile
325 330 335
Gly Ile Lys Asp Arg Val Pro Val Asn Ile Phe Ile Asn Pro Arg His
340 345 350
Asn Tyr Phe Tyr Gln Val Leu Leu Gln Tyr Lys Ile Val Gly Asp Tyr
355 360 365
Val Arg His Ser Gly Gly Gly Lys Pro Gly Arg Asp Cys Ser Pro Arg
370 375 380
Val Asn Ile Val Thr Ala Phe Phe Arg Lys Arg Ser Pro Leu Asp Pro
385 390 395 400
Ala Thr Cys Thr Leu Gly Ser Asp Leu Leu Leu Asp Ala Ser Val Glu
405 410 415
Ile Pro Val Ala Val Leu Val Thr Pro Val Val Leu Pro Asp Ser Val
420 425 430
Ile Arg Lys Thr Leu Ser Thr Ala Ala Gly Ser Trp Lys Ala Tyr Ala
435 440 445
Asp Asn Thr Phe Asp Thr Ala Pro Trp Val Pro Ser Gly Leu Phe Ala
450 455 460
Asp Asp Glu Ser Thr Pro
465 470
<210> 69
<211> 565
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 69: AB4P核酸外切酶的氨基酸序列
<400> 69
Met Asp Ser Ser Pro Val Thr Tyr Ser Gly Glu Pro Pro Tyr Lys Leu
1 5 10 15
Arg Arg Leu Ser Pro Ser Tyr Pro Tyr Val Ser Lys Leu Arg Glu Arg
20 25 30
Cys Ala Ser Lys Ile Glu Thr Leu Ser Glu Gly Ser Ala Arg Asp Ser
35 40 45
Leu Glu Glu Glu Asp Val Ser Glu Ala Met Ala Thr Gly Ala Phe Leu
50 55 60
Ala Thr Arg Leu Tyr Leu Pro Ser Val Leu Pro Gln Arg Ile Thr Thr
65 70 75 80
Leu Thr Phe Leu Asp His Phe Lys Lys Ser Arg Pro Leu Pro Asn Ser
85 90 95
Asp Lys Arg Leu Asn Pro Ile Phe Tyr Arg Leu Ala Tyr Ile Arg Asp
100 105 110
Leu Val Gly Glu Met Glu Leu Glu Gly Ile Val Glu Arg Gly Thr Ala
115 120 125
Ser Arg Leu Leu Gly Ala Ser Ser Pro Ala Gly Phe Val Ala Gly Thr
130 135 140
Tyr Thr His Ala Arg Asp Leu Ser Lys Thr Met Ser Leu Ala Ser Val
145 150 155 160
Arg Asp Ala Val Leu Ala Ile Glu Ala Gln Thr Arg Asp Gln Ser Glu
165 170 175
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Ala Thr Ala Ser Thr
180 185 190
Met Lys Trp Gly Ala Leu Gly Pro Gln Tyr His Pro Gln Trp Cys Glu
195 200 205
Val Ser Thr Asn Ala Lys Gly Ile Pro Asn Asn Pro Ala Leu Gln Phe
210 215 220
Gly Gln Thr Asn Glu Arg Thr Ala Arg Ser Leu Ile Ser Ala Leu Tyr
225 230 235 240
Val Ala Arg Ser Glu Ala Ala Thr Pro Asp Leu Leu Val Asp Pro Gly
245 250 255
Cys Gly Gln Cys Phe Val Phe Asp Glu Ser Ala Ser Val Pro Gly Asp
260 265 270
Ala Tyr Ala Cys Gly Leu Leu Met Asp Ala Arg Thr Gly Val Val Gly
275 280 285
Ala Ser Leu Asp Met Leu Val Cys Asp Arg Asp Pro Ser Gly Val Leu
290 295 300
Ser Pro His Ser Thr Gln Thr Thr Leu Asp Phe Phe Glu Ile Lys Cys
305 310 315 320
Arg Ala Lys Tyr Leu Phe Asp Pro Asp Leu Phe Ser Pro Val Ala Thr
325 330 335
Ala Tyr Ala Asn Leu Leu Lys His Arg Thr Ala Val Cys Leu Arg Lys
340 345 350
Phe Leu Arg Ser Ile Lys Asn Pro Ala Val Glu Tyr Phe Ala Pro Thr
355 360 365
Ser Val Pro Gly Ala Thr Glu Ala Leu Ile Thr Cys Asn Ser Ser Trp
370 375 380
Lys Pro Arg Glu Val Asn Glu Thr Asn Arg Arg Cys Gly Asp Phe Asp
385 390 395 400
Arg Asp His Ile Ala Leu Asn Leu Asp Ala Ser Ser Asp Val Trp Leu
405 410 415
Phe Ser Glu Pro Asp Leu Glu Ser Glu Thr Ile Thr Pro Ala Arg Trp
420 425 430
Asp Thr Gly Glu Leu Ala Leu Ser Val Pro Val Phe Ala Asn Pro Arg
435 440 445
His Pro Asn Phe Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ser Gly
450 455 460
His Phe Pro Asp His Gln Leu Arg Pro Phe Leu Val Thr Phe Ile Gly
465 470 475 480
Arg His Arg Lys Arg Cys Glu Glu Gly Lys Thr Phe Thr Ile Cys Asp
485 490 495
Arg Pro Glu Gly Ser Pro Tyr Asn Leu Asn Glu Val Val His Ser Ser
500 505 510
Cys Ala Ile Pro Ile Leu Leu Phe Val Thr Pro Val Ile Val Asp Arg
515 520 525
Glu Gly Cys Trp Glu Asp Ile Glu Ile Glu Ser Leu Thr Ala Phe Asn
530 535 540
Lys Thr Ala Asp Ala Ile Trp Asp Ser Asp Ser Pro Ala Asp Val Ser
545 550 555 560
Glu Pro Thr Ser Ser
565
<210> 70
<211> 303
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 70: O3-12 (YerO3-12)核酸外切酶的氨基酸序列
<400> 70
Met Ser Leu Ile Thr Leu Lys Asp Phe Ala Glu Met Arg Glu Gly Lys
1 5 10 15
Pro Met Glu Lys Gly Val Leu Val Met Asp Gly Asp Trp Leu Val Tyr
20 25 30
Gln Ser Met Ala Ala Ala Glu Val Glu Thr Asp Trp Gly Asp Asp Ile
35 40 45
Trp Thr Leu Glu Cys Asp His Ala Lys Ala Arg Ser Ile Leu Asp Ser
50 55 60
Ala Ile Glu Ser Tyr Arg Thr Arg Lys Lys Ala Trp Ser Asp Ala Met
65 70 75 80
Val Val Leu Ala Phe Thr Asp Asp Val Asn Trp Arg Lys Val Leu Val
85 90 95
Asp Glu Thr Tyr Lys Glu Asn Arg Lys Ala Thr Arg Lys Pro Val Gly
100 105 110
Tyr Arg Asp Phe Leu Ser Lys Leu Trp Glu Arg Asp Glu Phe Ile His
115 120 125
Ile Lys Glu Asp Met Leu Glu Gly Asp Asp Val Met Gly Ile Ile Gly
130 135 140
Ser Gly His Glu Val Phe Gly Phe Lys Lys Ala Val Leu Val Ser Cys
145 150 155 160
Asp Lys Asp Phe Lys Thr Ile Pro Asp Val Asp Phe Leu Trp Cys Thr
165 170 175
Thr Gly Asn Ile Leu Thr Gln Thr Lys Glu Thr Ala Asp Trp Trp His
180 185 190
Leu Phe Gln Thr Ile Lys Gly Asp Met Thr Asp Gly Tyr Ser Gly Ile
195 200 205
Pro Gly Trp Gly Asp Thr Ala Glu Ala Phe Leu Asn Asp Pro Phe Ile
210 215 220
Val Glu Pro Val Glu Ser Val Leu Lys Ser Gly Lys Asn Lys Gly Gln
225 230 235 240
Thr Val Thr Lys Trp Val Lys Arg Ala Pro Asp Ala Thr Glu Thr Leu
245 250 255
Trp Asp Cys Ile Lys Ser Ile Gly Ala Lys Ala Gly Met Thr Glu Gln
260 265 270
Glu Ile Ile Lys Gln Gly Gln Met Ala Arg Ile Leu Arg Phe Glu Glu
275 280 285
Tyr Asn Tyr Ile Asp Lys Glu Ile Tyr Leu Trp Thr Pro Arg Ser
290 295 300
<210> 71
<211> 301
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 71: PHBO2 (PaPHBO2)核酸外切酶的氨基酸序列
<400> 71
Met Lys Phe Asn Leu Asn Glu Leu Lys Asp His Leu Lys Pro Ser Lys
1 5 10 15
Asn Leu Leu Val Leu Asp Gly Asp Trp Leu Val Phe Gln Ala Met Ser
20 25 30
Ala Ser Glu Gln Glu Val Asp Trp Gly Asn Asp Ile Trp Thr Leu Thr
35 40 45
Cys Asp His Ala Asn Ala Leu Asp Ile Leu Gln Asn Ser Ile Glu Ala
50 55 60
Trp Thr Thr Arg Arg Ser Thr Trp Lys Asn Ala Thr Ile Val Val Ala
65 70 75 80
Phe Ser Asp Asp Thr Asn Trp Arg Lys Asp Leu Val Asp Glu Asn Tyr
85 90 95
Lys Thr Asn Arg Lys Lys Thr Arg Lys Pro Cys Gly Tyr Arg His Phe
100 105 110
Val Asp Thr Tyr Met Glu Arg Glu Asp Thr Ile Cys Val Val His Pro
115 120 125
Asn Leu Glu Ala Asp Asp Cys Met Gly Ile Ile Gly Ser Gly Gly His
130 135 140
His Phe Gly Thr Gln Lys Val Thr Leu Ile Ser Ile Asp Lys Asp Phe
145 150 155 160
Arg Thr Val Pro Asn Cys Asp Phe Leu Trp Cys Ser Thr Asn Asn Ile
165 170 175
Leu Pro Gln Asp Gln Glu Ser Ala Asp Phe Trp His Leu Tyr Gln Thr
180 185 190
Ile Lys Gly Asp Ile Thr Asp Gly Tyr Ser Gly Ile Lys Gly Trp Gly
195 200 205
Glu Thr Ala Glu Asp Phe Leu Leu Asp Pro Tyr Met Leu Val Arg Gln
210 215 220
Glu Ser Thr Leu Gln Ser Gly Lys Asn Lys Gly Gln Leu Lys Val Gln
225 230 235 240
Tyr Val Lys Ala Asp Lys Gly Asp Asn Ser Leu Trp Asp Cys Ile Val
245 250 255
Ser Leu Gly Ser Lys Val Asp Met Ser Glu Glu Asp Ile Ile Lys Gln
260 265 270
Ala Arg Met Ala Arg Ile Leu Arg Tyr Ser Asp Tyr Asp Phe Lys Asn
275 280 285
Gln Gln Val Ile Leu Trp Thr Pro Asp Lys Leu Asn Gln
290 295 300
<210> 72
<211> 294
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 72: RaTL1/RaITL1核酸外切酶的氨基酸序列
<400> 72
Met Ser Glu Gln Arg Leu Gly Leu Leu Ile Asp Ala Asp Phe Leu Ala
1 5 10 15
Phe Gln Ala Ala Ala Asn Ala Thr Arg Val Val Glu Trp Glu Asp Gly
20 25 30
Val Leu Thr Thr Trp Ala Asn Met Glu Asp Cys Thr Gln Ala Phe Leu
35 40 45
Ser Ser Leu Glu Ala Leu Thr Ser Arg Asn Arg Arg Trp Ser Thr Ala
50 55 60
Lys Leu Ile Met Cys Phe Thr Asp Asp His Asn Trp Arg Lys Asp Ile
65 70 75 80
Leu Pro Ser Tyr Lys Ala Asn Arg Ser Gly Val Gly Lys Gly Lys Pro
85 90 95
Ile Ala Tyr Trp Lys Leu Val Glu Trp Val His Gln Asn Phe Glu Cys
100 105 110
Phe Val Arg Pro Gly Leu Glu Gly Asp Asp Cys Met Gly Ile Leu Ser
115 120 125
Thr Lys Pro Ser Leu Val Gly Cys Thr His Thr Val Ile Val Ser Pro
130 135 140
Asp Lys Asp Phe Lys Thr Val Pro Gly Glu Phe Phe Trp Met Thr Thr
145 150 155 160
Gly Glu Ser Leu Val Leu Ser Glu Glu Asp Ala Asn Tyr Trp His Met
165 170 175
Tyr Gln Thr Leu Met Gly Asp Thr Thr Asp Gly Tyr Ala Gly Cys Pro
180 185 190
Gly Val Gly Pro Thr Ser Ala Ala Glu Phe Leu Ala Glu Pro Tyr Ile
195 200 205
Ala Tyr Glu Ala Ser Lys Val Leu Lys Ser Gly Pro Arg Lys Gly Glu
210 215 220
Glu Val Thr Tyr Trp Thr Gln Arg Pro Leu Glu Ala Gly Glu Asp Leu
225 230 235 240
Trp Asp Gly Ile Val Ser Leu Phe Lys Lys Ala Gly Leu Thr Glu Glu
245 250 255
Asp Ala Leu Val Gln Ala Arg Val Ala Arg Ile Leu Arg Ala Ser Asp
260 265 270
Phe Asp Phe Lys Ala Lys Thr Pro Ile Leu Trp Glu Arg Pro Pro Lys
275 280 285
Glu Asp Val Gly Thr Asp
290
<210> 73
<211> 90
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 73: 图6底部显示的序列
<400> 73
cctcttttct cgaagccgcg gtgcgggtgc cagggcgtgc ccttgggctc cccgggcgcg 60
tactccacct cacccatctt ttgatcaaca 90
<210> 74
<211> 6500
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 74: TMV DNA供体的序列
<400> 74
ctgatgggct gcctgtatcg agtggtgatt ttgtgccgag ctgccggtcg gggagctgtt 60
ggctggctgg tggcaggata tattgtggtg taaacaaatt gacgcttaga caacttaata 120
acacattgcg gacgttttta atgtactggg gtggatgcag tgggccccac tctgtgaaga 180
caagagcgaa ttccatatgg gagggaaagc ttcatcaagc tcttgttgct caaggaggag 240
atagaattgg cttggtaatt tacgttctgt acgcgacgac tgaatacgac agcgaatggc 300
actgacacct acgctgtagc tctccatagc atttatgata tccctgttga ggagttcggt 360
tctgcgctac tcaggaagaa tgtgaaaact tgtttcgcgg cctttcattt ccatgagaat 420
atgcttctag attgtgatac agtcacactc gatgagattg gagctacgtt ccagaaatca 480
ggtaacattc cttagttacc tttcttttct ttttccatca taagtttata gattgtacat 540
gctttgagat ttttctttgc aaacaatctc aggtgataac ctgagcttct tcttccataa 600
tgagagcact ctcaattaca cccacagctt cagcaacatc atcaagtacg tgtgcaagac 660
gttcttccct gctagtcaac gcttcgtgta ccacaaggag ttcctggtca ctagagtcaa 720
cacttggtac tgcaagttca cgagagtgga tacgttcact ctgttccgtg gtgtgtacca 780
caacaatgtg gattgcgaag agttttacaa ggctatggac gatgcgtggc actacaaaaa 840
gacgttagca atgcttaatg ccgagaggac catcttcaag gataacgctg cgttaaactt 900
ctggttcccg aaggtgctct tgaaattgga actcttcttt tgttgtctaa acctatcaat 960
ttctttgcgg aaatttattt gaagctgtag agttaaaatt gagtctttta aacttttgta 1020
ggtgagagac atggttatcg tccctctctt tgacgcttct atcacaactg gtaggatgtc 1080
taggagagag gttatggtga acaaggactt cgtctacacg gtcctaaatc acatcaagac 1140
ctatcaagct aaggcactga cgtacgcaaa cgtgctgagc ttcgtggagt ctattaggtc 1200
tagagtgata attaacggtg tcactgccag gtaagttgtt acttatgatt gttttcctct 1260
ctgctacatg tattttgttg ttcatttctg taagatataa gaattgagtt ttcctctgat 1320
gatattatta ggtctgaatg ggacacagac aaggcaattc taggtccatt agcaatgaca 1380
ttcttcctga tcacgaagct gggtcatgtg caagatgaaa taatcctgaa aaagttccag 1440
aagttcgaca gaaccaccaa tgagctgatt tggacaagtc tctgcgatgc cctgatgggg 1500
gttattccct cggtcaagga gacacttgtg cgcggtggtt ttgtgaaagt agcagaacaa 1560
gccttagaga tcaaggttag tatcatatga agaaatacct agtttcagtt gatgaatgct 1620
attttctgac ctcagttgtt ctcttttgag aattatttct tttctaattt gcctgatttt 1680
tctattaatt cattaggttc ccgagctata ctgtaccttc gccgaccgat tggtactaca 1740
gtacaagaag gcggaggagt tccaatcgtg tgatctttcc aaacctctag aagagtcaga 1800
gaagtactac aacgcattat ccgagctatc agtgcttgag aatctcgact cttttgactt 1860
agaggcgttt aagactttat gtcagcagaa gaatgtggac ccggatatgg cagcaaaggt 1920
aaatcctggt ccacactttt acgataaaaa cacaagattt taaactatga actgatcaat 1980
aatcattcct aaaagaccac acttttgttt tgtttctaaa gtaattttta ctgttataac 2040
aggtggtcgt agcaatcatg aagtcagaat tgacgttgcc tttcaagaaa cctacagaag 2100
aggaaatctc ggagtcgcta aaaccaggag aggggtcgtg tgcagagcat aaggaagtgt 2160
tgagcttaca aaatgatgct ccgttcccgt gtgtgaaaaa tctagttgaa ggttccgtgc 2220
cggcgtatgg aatgtgtcct aagggtggtg gtttcgacaa attggatgtg gacattgctg 2280
atttccatct caagagtgta gatgcagtta aaaagggaac tatgatgtct gcggtgtaca 2340
cagggtctat caaagttcaa caaatgaaga actacataga ttacttaagt gcgtcgctgg 2400
cagctacagt ctcaaacctc tgcaaggtaa gaggtcaaaa ggtttccgca atgatccctc 2460
tttttttgtt tctctagttt caagaatttg ggtatatgac taacttctga gtgttccttg 2520
atgcatattt gtgatgagac aaatgtttgt tctatgtttt aggtgcttag agatgttcac 2580
ggcgttgacc cagagtcaca ggagaaatct ggagtgtggg atgttaggag aggacgttgg 2640
ttacttaaac ctaatgcgaa aagtcacgcg tggggtgtgg cagaagatgc caaccacaag 2700
ttggttattg tgttactcaa ctgggatgac ggaaagccgg tttgtgatga gacatggttc 2760
agggtggcgg tgtcaagcga ttccttgata tattcggata tgggaaaact taagacgctc 2820
acgtcttgca gtccaaatgg tgagccaccg gagcctaacg ccaaagtaat tttggtcgat 2880
ggtgttcccg gttgtggaaa aacgaaggag attatcgaaa aggtaagttc tgcatttggt 2940
tatgctcctt gcattttagg tgttcgtcgc acttccattt ccatgaatag ctaagatttt 3000
ttttctctgc attcattctt cttgcctcag ttctaactgt ttgtggtatt tttgttttaa 3060
ttattgctac aggtaaactt ctctgaggac ttgatcttag tccctgggaa ggaagcttct 3120
aagatgatca tccggagggc caaccaagct ggtgtgataa gagcggataa ggacaatgtt 3180
agaacggtgg attccttctt gatgcatcct tctagaaggg tgtttaagag gttgtttatc 3240
gatgaaggac taatgctgca tacaggttgt gtaaatttcc tactgctgct atctcaatgt 3300
gacgtcgcat atgtgtatgg ggacacaaag caaattccgt tcatttgcag agtcgcgaac 3360
tttccgtatc cagcgcattt tgcaaaactc gtcgctgatg agaaggaagt cagaagagtt 3420
acgctcaggt aaagcaactg tgttttaatc aatttcttgt caggatatat ggattataac 3480
ttaatttttg agaaatctgt agtatttggc gtgaaatgag tttgcttttt ggtttctccc 3540
gtgttatagg tgcccggctg atgttacgta tttccttaac aagaagtatg acggggcggt 3600
gatgtgtacc agcgcggtag agagatccgt gaaggcagaa gtggtgagag gaaagggtgc 3660
attgaaccca ataaccttac cgttggaggg taaaattttg accttcacac aagctgacaa 3720
gttcgagtta ctggagaagg gttacaaggt aaagtttcca actttccttt accatatcaa 3780
actaaagttc gaaacttttt atttgatcaa cttcaaggcc acccgatctt tctattcctg 3840
attaatttgt gatgaatcca tattgacttt tgatggttac gcaggatgtg aacactgtgc 3900
acgaggtgca aggggagaca tacgagaaaa ctgctattgt gcgcttgaca tcaactccgt 3960
tagagatcat atcgagtgcg tcacctcatg ttttggtggc gctgacaaga cacacaacgt 4020
gttgtaaata ttacaccgtt gtgttggacc cgatggtgaa tgtgatttca gaaatggaga 4080
agttgtccaa tttccttctt gacatgtata gagttgaagc aggtctgtct ttcctatttc 4140
atatgtttaa tcctaggaat ttgatcaatt gattgtatgt atgtcgatcc caagactttc 4200
ttgttcactt atatcttaac tctctctttg ctgtttcttg caggtgtcca atagcaatta 4260
caaatcgatg cagtattcag gggacagaac ttgtttgttc agacgcccaa gtcaggagat 4320
tggcgagata tgcaatttta ctatgacgca cttcttcccg gaaacagtac tattctcaat 4380
gaatttgatg ctgttacgat gaatttgagg gatatttcct taaacgtcaa agattgcaga 4440
atcgacttct ccaaatccgt gcaacttcct aaagaacaac ctattttcct caagcctaaa 4500
ataagaactg cggcagaaat gccgagaact gcaggtaaaa tattggatgc cagacgatat 4560
tctttctttt gatttgtaac tttttcctgt caaggtcgat aaattttatt ttttttggta 4620
aaaggtcgat aatttttttt tggagccatt atgtaatttt cctaattaac tgaaccaaaa 4680
ttatacaaac caggtttgct ggaaaatttg gttgcaatga tcaaaagaaa catgaatgcg 4740
ccggatttga cagggacaat tgacattgag gatactgcat ctctggtggt tgaaaagttt 4800
tgggattcgt atgttgacaa ggaatttagt ggaacgaacg aaatgaccat gacaagggag 4860
agcttctcca ggtaaggact tctcatgaat attagtggca gattagtgtt gttaaagtct 4920
ttggttagat aatcgatgcc tcctaattgt ccatgtttta ctggttttct acaattaaag 4980
gtggctttcg aaacaagagt catctacagt tggtcagtta gcggacttta actttgtgga 5040
tttgccggca gtagatgagt acaagcatat gatcaagagt caaccaaagc aaaagttaga 5100
cttgagtatt caagacgaat atcctgcatt gcagacgata gtctaccatt cgaaaaagat 5160
caatgcgatt ttcggtccaa tgttttcaga acttacgagg atgttactcg aaaggattga 5220
ctcttcgaag tttctgttct acaccagaaa gacacctgca caaatagagg acttcttttc 5280
tgacctagac tcaacccagg cgatggaaat tctggaactc gacatttcga agtacgataa 5340
gtcacaaaac gagttccatt gtgctgtaga gtacaagatc tgggaaaagt taggaattga 5400
tgagtggcta gctgaggtct ggaaacaagg tgagttccta agttccattt ttttgtaatc 5460
cttcaatgtt attttaactt ttcagatcaa catcaaaatt aggttcaatt ttcatcaacc 5520
aaataatatt tttcatgtat atataggtca cagaaaaacg accttgaaag attatacggc 5580
cggaatcaaa acatgtcttt ggtatcaaag gaaaagtggt gatgtgacaa cctttattgg 5640
taataccatc atcattgccg catgtttgag ctcaatgatc cccatggaca aagtgataaa 5700
ggcagctttt tgtggcgacg atagcctgat ttacattcct aaaggtttag acttgcctga 5760
tattcaggcg ggcgcgaacc tcatgtggaa cttcgaggcc aaactcttca ggaagaagta 5820
tggttacttc tgtggtcgtt atgttattca ccatgataga ggagccattg tgtattacga 5880
tccgcttaaa ctaatatcta agttaggttg taaacatatt agagatgttg ttcacttaga 5940
agagttacgc gagtctttgt gtgatgtagc tagtaactta aataattgtg cgtatttttc 6000
acagttagat gaggccgttg ccgaggttca taagaccgcg gtaggcggtt cgtttgcttt 6060
ttgtagtata attaagtatt tgtcagataa gagattgttt agagatttgt tctttgtttg 6120
ataatgtcga tagtctcgta cgaacctaag gtgagtgatt tcctcaatct ttcgaagaag 6180
gaagagatct tgccgaaggc tctaacgagg ttaaaaaccg tgtctattag tactaaagat 6240
attatatctg tcaaggagtc gtgcttggta atttagtcgc gcgattgtac cactggaaag 6300
cttcatcaag ctcttgttgc tcaaggagga gatagaattg gcgcttgcct tgtcttctgc 6360
acgaagtggt ttaaactatc agtgtttgac aggatatatt ggcgggtaaa cctaagagaa 6420
aagagcgttt attagaataa tcggatattt aaaagggcgt gaaaaggttt atccgttcgt 6480
ccatttgtat gtgcatgcca 6500
<210> 75
<211> 617
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 75: (AHM95988.1:1-617)
<400> 75
Met Gln Thr Thr Thr Pro Ala Gly Pro Pro Ser Ser Arg Ala Glu His
1 5 10 15
Lys Arg Pro Pro Ala Pro Ala Gly Asn Glu Gly Ala Glu Pro Gly Arg
20 25 30
Gly Val Asp Glu Ser Ala Arg Pro Pro Lys Arg Pro Arg Pro Asp Ser
35 40 45
Leu Pro Leu Ala Ala Val Tyr Arg Pro Ala Thr Pro Pro Ser Pro Gly
50 55 60
Arg Pro Glu Thr Pro Pro Thr Pro Asp Leu Pro Leu Ser Pro Arg Gly
65 70 75 80
Thr His Gly Leu Ala Ala Pro Ala Gly Glu Pro Glu Pro Glu Ser Asp
85 90 95
Pro Glu Pro Gly Ser Gln Ser Leu Leu Ala Asn Tyr Val Pro Pro Ala
100 105 110
Gln Asp Val Gly Gly Ala Asp Ala Asp Ala Gly Ser Thr Pro Glu Pro
115 120 125
Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro Pro His Val Leu
130 135 140
Ala Glu Thr Phe Glu Arg His Leu Cys Gly Leu Leu Arg Gly Val Arg
145 150 155 160
Arg Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu Gly Tyr Leu Phe
165 170 175
Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val Asp Arg Gly Ile
180 185 190
Gly Gly His Leu Leu Arg Leu Ser Arg Arg Ala Ala Ala Ala Asp Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Gly Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Arg Trp Leu Lys
245 250 255
Asn Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ser Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Arg Asp Ala Glu Gly Asp Asp Ala Gly Arg
290 295 300
Arg Phe Val Phe Cys Glu Pro Gly Asp Ala Pro Ala Ala Ser Val His
305 310 315 320
Ala Cys Gly Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser
325 330 335
Leu Asp Ile Leu Val Cys Pro Arg Asp Arg His Gly Cys Leu Asn Pro
340 345 350
Ala Pro Gly Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys
355 360 365
Tyr Ala Phe Asp Pro Ala Asp Ala Gly Asp Pro Val Val Ala Ala His
370 375 380
Arg Arg Leu Val Ala Arg Arg Ser Pro Ala Asp Phe Arg Ala Phe Leu
385 390 395 400
Arg Ser Ile Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val
405 410 415
Pro Gly Pro Glu Glu Ala Leu Val Ser Asp His Ala Val Trp Ala Asp
420 425 430
Ala Arg Ala Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Ala
435 440 445
Leu Val Gly Leu Asn Ser Gly Val Glu Ser Asp Val Leu Leu Phe Gly
450 455 460
Asp Pro Asp Pro Glu Arg Arg Thr Val Ser Pro Leu Ala Trp Ser Ser
465 470 475 480
Gly Ala Leu Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro
485 490 495
Asn Phe Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe
500 505 510
Pro Glu Cys Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His
515 520 525
Arg Thr Pro Asp Glu Glu Gly Leu Ser Leu Arg Leu Glu Asp Ala Pro
530 535 540
Ala Ser Ala Pro Ala Ala Val Arg Ala Ala Ala Gly Ala Ser Ile Leu
545 550 555 560
Pro Asp Gln Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Val
565 570 575
Asp Ala Ala Ile Tyr Asp Leu Ile Arg Arg Asn Ser Arg Leu Ala Phe
580 585 590
Asp Glu Thr Leu Ala Arg Leu Trp Ala Ser Arg Ala Pro Ala Ser Asp
595 600 605
Pro Ala Ala Ala Gly Gly Thr Ser Ser
610 615
<210> 76
<211> 607
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 76: (AHM96060.1:1-607)
<400> 76
Met Gln Thr Thr Thr Pro Val Asp Pro Pro Ser Ser Arg Ser Glu Asn
1 5 10 15
Lys Arg Pro Pro Ala Pro Ala Gly Asp Glu Gly Ala Gly Pro Gly Arg
20 25 30
Gly Leu Val Asp Pro Ala Arg Pro Pro Lys Arg Pro Arg Pro Asp Ser
35 40 45
Leu Pro Leu Ala Ala Val Cys Arg Pro Ala Thr Pro Pro Ser Pro Gly
50 55 60
Arg Pro Glu Thr Pro Pro Thr Pro Asp Leu Pro Leu Ser Pro Arg Gly
65 70 75 80
Thr His Gly Ile Ala Ala Pro Ala Gly Glu Pro Glu Pro Gly Ser Pro
85 90 95
Ser Leu Leu Glu Asn Tyr Val Pro Pro Ala Pro Asp Ala Gly Asp Ala
100 105 110
Gly Ser Thr Pro Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala
115 120 125
Leu Pro Ser His Val Leu Ala Glu Thr Phe Glu Arg His Leu Cys Gly
130 135 140
Leu Leu Arg Gly Val Arg Arg Pro Leu Asp Val Glu Pro Leu Arg Ala
145 150 155 160
Arg Leu Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly
165 170 175
Met Val Asp Arg Gly Val Gly Gly His Leu Leu Arg Leu Ser Arg Arg
180 185 190
Ala Ala Ala Ala Asp Pro Arg Pro Leu Met Ala Phe Phe Glu Ala Ala
195 200 205
Thr Gln Asn Gln Ala Glu Ser Gln Leu Trp Gly Leu Leu Arg Arg Gly
210 215 220
Leu Thr Thr Ala Ser Thr Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe
225 230 235 240
Ser Pro Arg Trp Leu Lys Asn Asn Gly Asp Pro Arg Leu Asp Phe Gln
245 250 255
Ser Ser Ala Val Met Phe Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala
260 265 270
Leu Leu Phe Arg Tyr Cys Val Gly Arg Ala Asp Asp Arg Asp Ala Glu
275 280 285
Gly Asp Asp Ala Gly Arg Arg Phe Val Phe Cys Glu Pro Gly Asp Ala
290 295 300
Pro Ala Ala Ser Val His Ala Cys Gly Val Leu Val Asp Ala His Thr
305 310 315 320
Gly Met Val Gly Ala Ser Leu Asp Ile Leu Val Cys Pro Arg Asp Arg
325 330 335
His Gly Cys Leu Asn Pro Ala Pro Gly Thr Pro Leu Arg Phe Tyr Glu
340 345 350
Val Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Ala Asp Ala Gly Asp
355 360 365
Pro Val Val Ala Ala His Arg Arg Leu Val Ala Arg Arg Ser Pro Ser
370 375 380
Asp Phe Arg Ala Phe Leu Arg Ser Ile Ala Arg Pro Gly Val Arg Tyr
385 390 395 400
Phe Ala Pro Gly Arg Val Pro Gly Pro Glu Glu Ala Leu Val Ser Asp
405 410 415
His Ala Val Trp Ala Asp Ala Arg Ala Gly Asp Glu Lys Arg Arg Cys
420 425 430
Ser Ala Leu Asp Arg Ala Leu Val Gly Leu Asn Ser Gly Val Ala Ser
435 440 445
Asp Val Leu Leu Phe Gly Asp Pro Asp Pro Glu Arg Arg Thr Val Ser
450 455 460
Pro Leu Ala Trp Ser Ser Gly Ala Leu Val His Arg Glu Pro Ile Phe
465 470 475 480
Ala Asn Pro Arg His Pro Asn Phe Lys Gln Ile Leu Val Gln Ala Tyr
485 490 495
Val Leu Ala Ser His Phe Pro Glu Cys Pro Leu His Pro His Leu Val
500 505 510
Thr Phe Ile Gly Arg His Arg Thr Pro Asp Glu Glu Gly Leu Ser Leu
515 520 525
Arg Leu Glu Asp Ala Pro Ala Ser Ala Pro Ala Ala Val Arg Ala Ala
530 535 540
Ala Gly Ala Ser Ile Leu Pro Asp Gln Ala Val Pro Val Ala Leu Ile
545 550 555 560
Ile Thr Pro Val Arg Val Asp Ala Ala Ile Tyr Asp Leu Ile Arg Arg
565 570 575
Asn Ser Arg Leu Ala Phe Asp Glu Thr Leu Ala Arg Leu Trp Ala Ser
580 585 590
Arg Ala Pro Ala Ser Asp Pro Ala Ala Ala Gly Glu Thr Ser Ser
595 600 605
<210> 77
<211> 488
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 77: (AHM96133.1:134-621)
<400> 77
Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro Pro His Val Leu Ala
1 5 10 15
Glu Thr Phe Glu Arg His Leu Arg Gly Leu Leu Arg Gly Val Arg Arg
20 25 30
Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu Gly Tyr Leu Phe Ser
35 40 45
Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val Asp Arg Gly Ile Gly
50 55 60
Gly His Leu Leu Arg Leu Ser Arg Arg Ala Ala Ala Ala Asp Pro Arg
65 70 75 80
Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu Ser
85 90 95
Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr Leu
100 105 110
Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Arg Trp Leu Lys Asn
115 120 125
Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ser Ala Val Met Phe Gly
130 135 140
Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys Val
145 150 155 160
Gly Arg Ala Asp Asp Arg Asp Ala Glu Gly Asp Asp Ala Gly Arg Arg
165 170 175
Phe Val Phe Cys Glu Pro Gly Asp Ala Pro Ala Ala Ser Val His Ala
180 185 190
Cys Gly Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser Leu
195 200 205
Asp Ile Leu Val Cys Pro Arg Asp Arg His Gly Cys Leu Asn Pro Ala
210 215 220
Pro Gly Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr
225 230 235 240
Ala Phe Asp Pro Ala Asp Ala Gly Asp Pro Val Val Ala Ala His Arg
245 250 255
Arg Leu Val Ala Arg Arg Ser Pro Ala Asp Phe Arg Ala Phe Leu Arg
260 265 270
Ser Ile Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro
275 280 285
Gly Pro Glu Glu Ala Leu Val Ser Asp His Ala Val Trp Ala Asp Ala
290 295 300
Arg Ala Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Ala Leu
305 310 315 320
Val Gly Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp
325 330 335
Pro Asp Pro Glu Arg Arg Thr Val Ser Pro Leu Ala Trp Ser Ser Gly
340 345 350
Ala Leu Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn
355 360 365
Phe Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro
370 375 380
Glu Cys Pro Leu Arg Pro His Leu Val Thr Phe Ile Gly Arg His Arg
385 390 395 400
Thr Pro Asp Glu Glu Gly Leu Ser Leu Arg Leu Glu Asp Ala Pro Ala
405 410 415
Ser Ala Pro Ala Ala Val Arg Ala Ala Ala Gly Ala Ser Ile Leu Pro
420 425 430
Asp Gln Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Val Asp
435 440 445
Ala Ala Ile Tyr Asp Leu Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp
450 455 460
Glu Thr Leu Ala Arg Leu Trp Ala Ser Arg Ala Pro Ala Ser Asp Pro
465 470 475 480
Ala Ala Ala Gly Glu Thr Ser Ser
485
<210> 78
<211> 488
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 78: (AHM96206.1:148-635)
<400> 78
Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro Pro His Val Leu Ala
1 5 10 15
Glu Thr Phe Glu Arg His Leu Arg Gly Leu Leu Arg Gly Val Arg Arg
20 25 30
Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu Gly Tyr Leu Phe Ser
35 40 45
Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val Asp Arg Gly Ile Gly
50 55 60
Gly His Leu Leu Arg Leu Ser Arg Arg Ala Ala Ala Ala Asp Pro Arg
65 70 75 80
Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu Ser
85 90 95
Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr Leu
100 105 110
Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Arg Trp Leu Lys Asn
115 120 125
Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ser Ala Val Met Phe Gly
130 135 140
Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys Val
145 150 155 160
Gly Arg Ala Asp Asp Arg Asp Ala Glu Gly Asp Asp Ala Gly Arg Arg
165 170 175
Phe Val Phe Cys Glu Pro Gly Asp Ala Pro Ala Ala Ser Val His Ala
180 185 190
Cys Gly Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser Leu
195 200 205
Asp Ile Leu Val Cys Pro Arg Asp Arg His Gly Cys Leu Asn Pro Ala
210 215 220
Pro Gly Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr
225 230 235 240
Ala Phe Asp Pro Ala Asp Ala Gly Asp Pro Val Val Ala Ala His Arg
245 250 255
Arg Leu Val Ala Arg Arg Ser Pro Ala Asp Phe Arg Ala Phe Leu Arg
260 265 270
Ser Ile Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro
275 280 285
Gly Pro Glu Glu Ala Leu Val Ser Asp His Ala Val Trp Ala Asp Ala
290 295 300
Arg Ala Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Ala Leu
305 310 315 320
Val Gly Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp
325 330 335
Pro Asp Pro Glu Arg Arg Thr Val Ser Pro Leu Ala Trp Ser Ser Gly
340 345 350
Ala Leu Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn
355 360 365
Phe Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro
370 375 380
Glu Cys Pro Leu Arg Pro His Leu Val Thr Phe Ile Gly Arg His Arg
385 390 395 400
Thr Pro Asp Glu Glu Gly Leu Ser Leu Arg Leu Glu Asp Ala Pro Ala
405 410 415
Ser Ala Pro Ala Ala Val Arg Ala Ala Ala Gly Ala Ser Ile Leu Pro
420 425 430
Asp Gln Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Val Asp
435 440 445
Ala Ala Ile Tyr Asp Leu Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp
450 455 460
Glu Thr Leu Ala Arg Leu Trp Ala Ser Arg Ala Pro Ala Ser Asp Pro
465 470 475 480
Ala Ala Ala Gly Glu Thr Ser Ser
485
<210> 79
<211> 615
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 79: (AHM96279.1:2-616)
<400> 79
Gln Thr Thr Thr Pro Ala Asp Pro Pro Ser Ser Arg Ser Glu His Lys
1 5 10 15
Arg Pro Leu Ala Pro Ala Gly Asp Glu Gly Ala Glu Pro Gly Arg Gly
20 25 30
Pro Asp Asp Pro Thr Arg Pro Pro Lys Arg Pro Arg Pro Asp Ser Leu
35 40 45
Pro Leu Ala Ala Val Tyr Arg Pro Ala Thr Pro Pro Ser Pro Gly Arg
50 55 60
Pro Glu Thr Pro Pro Thr Pro Asp Leu Pro Leu Ser Pro Arg Gly Thr
65 70 75 80
His Gly Ile Ala Val Pro Ala Gly Glu Pro Glu Pro Glu Ser Asp Pro
85 90 95
Glu Pro Gly Ser Gln Ser Leu Leu Ala Asn Tyr Val Pro Pro Ala Gln
100 105 110
Asp Val Gly Gly Ala Asp Ala Asp Ala Gly Ser Thr Pro Glu Pro Gly
115 120 125
Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro Pro His Val Leu Ala
130 135 140
Glu Thr Phe Glu Arg His Leu Arg Gly Leu Leu Arg Gly Val Arg Arg
145 150 155 160
Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu Gly Tyr Leu Phe Ser
165 170 175
Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val Asp Arg Gly Ile Gly
180 185 190
Gly His Leu Leu Arg Leu Ser Arg Arg Ala Ala Ala Ala Asp Pro Arg
195 200 205
Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu Ser
210 215 220
Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr Leu
225 230 235 240
Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Arg Trp Leu Lys Asn
245 250 255
Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ser Ala Val Met Phe Gly
260 265 270
Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys Val
275 280 285
Gly Arg Ala Asp Asp Arg Asp Ala Glu Gly Asp Asp Ala Gly Arg Arg
290 295 300
Phe Val Phe Cys Glu Pro Gly Asp Ala Pro Ala Ala Ser Val His Ala
305 310 315 320
Cys Gly Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser Leu
325 330 335
Asp Ile Leu Val Cys Pro Arg Asp Arg His Gly Cys Leu Asn Pro Ala
340 345 350
Pro Gly Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr
355 360 365
Ala Phe Asp Pro Ala Asp Ala Gly Asp Pro Val Val Ala Ala His Arg
370 375 380
Arg Leu Val Ala Arg Arg Ser Pro Ser Asp Phe Arg Ala Phe Leu Arg
385 390 395 400
Ser Ile Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro
405 410 415
Gly Pro Glu Glu Ala Leu Val Ser Asp His Ala Val Trp Ala Asp Ala
420 425 430
Arg Ala Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Ala Leu
435 440 445
Val Gly Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp
450 455 460
Pro Asp Pro Glu Arg Arg Thr Val Ser Pro Leu Ala Trp Ser Ser Gly
465 470 475 480
Ala Leu Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn
485 490 495
Phe Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro
500 505 510
Glu Cys Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg
515 520 525
Thr Pro Asp Glu Glu Gly Leu Ser Leu Arg Leu Glu Asp Ala Pro Ala
530 535 540
Ser Ala Pro Ala Ala Val Arg Ala Ala Gly Ala Ser Ile Leu Pro Asp
545 550 555 560
Gln Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Val Asp Ala
565 570 575
Ala Val Tyr Asp Leu Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu
580 585 590
Thr Leu Ala Arg Leu Trp Ala Ser Arg Ala Pro Ala Ser Asp Pro Ala
595 600 605
Ala Ala Gly Glu Thr Ser Ser
610 615
<210> 80
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 80: (AIA09505.1:11-623)
<400> 80
Pro Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Ala Pro Glu Asp Glu
1 5 10 15
Gly Gly Asp Arg Thr Arg Asp Pro Gly Gly Arg Ser Pro Lys Arg Ala
20 25 30
Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Tyr Arg Pro Ala Thr Pro
35 40 45
Glu Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro Leu
50 55 60
Ser Pro Arg Gly Thr Arg Ala Leu Ala Pro Pro Glu Ser Arg Ala Glu
65 70 75 80
Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asn Tyr Ala
85 90 95
Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Gly Asp Asp Val Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Gly Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp Gln His Gly Cys Leu Asn Pro Thr Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Leu Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Phe Asp Arg Ala Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Ala Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile His Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Ala Pro Arg Pro Ala Ala
595 600 605
Ala Gly Glu Thr Ser
610
<210> 81
<211> 584
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 81: (ARS01649.1:11-594)
<400> 81
Pro Val Ala Arg Ser Glu Cys Lys Arg Pro Leu Val Pro Asp Ala Arg
1 5 10 15
Gly Gly Ser Pro Lys Arg Ala Arg Pro Asp Ser Leu Pro Leu Val Ala
20 25 30
Val His Arg Pro Ala Ser Pro Gly Thr Thr Pro Glu Arg Pro Gln Thr
35 40 45
Pro Asp Leu Pro Leu Ser Pro Arg Gly Thr His Ala Leu Ala Pro Pro
50 55 60
Gly Ser Gly Pro Glu Ser Ala Pro Pro Ser Pro Ala Ser Gln Ser Leu
65 70 75 80
Leu Ala Asn Tyr Val Pro Pro Ala Ser Pro Gly Ser Thr Pro Asp Ala
85 90 95
His Ala Asp Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala
100 105 110
Leu Pro Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly
115 120 125
Leu Leu Arg Gly Val Arg Arg Pro Leu Asp Val Glu Pro Leu Arg Ala
130 135 140
Arg Leu Gly Tyr Leu Phe Ser Leu Val Thr Ala Leu Glu Glu Ala Gly
145 150 155 160
Met Val Asp Arg Gly Val Gly Gly His Leu Val Arg Leu Ser Arg Arg
165 170 175
Ala Gly Ala Ala Leu Gly Ala Ala Ala Ala Asn Pro Asn Pro Asn Pro
180 185 190
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
195 200 205
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
210 215 220
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
225 230 235 240
Ile Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ser Ala Val Met Phe
245 250 255
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
260 265 270
Val Gly Arg Ala Asp Asp Glu Glu Asp Glu Ala Gly Arg Arg Phe Val
275 280 285
Phe Arg Glu Pro Gly Asp Ala Pro Ala Glu Ser Val His Ala Cys Gly
290 295 300
Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
305 310 315 320
Leu Val Cys Pro Arg Asp Ser His Gly Cys Leu Asn Pro Ala Pro Gly
325 330 335
Ala Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
340 345 350
Asp Pro Ala Asp Ala Gly Glu Ala Val Val Ala Ala His Arg Arg Leu
355 360 365
Leu Ala Thr Arg Ser Pro Val Asp Phe Arg Ala Phe Val Arg Ser Ile
370 375 380
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
385 390 395 400
Glu Glu Ala Leu Val Ser Glu His Ala Val Trp Ala Asp Ala Arg Ala
405 410 415
Gly Glu Glu Lys Arg Arg Cys Ser Ala Phe Asp Arg Ala Leu Val Gly
420 425 430
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asn Pro Asp
435 440 445
Leu Glu Arg Arg Thr Ile Ser Pro Leu Val Trp Thr Ser Gly Asp Val
450 455 460
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Ala Asn Phe Lys
465 470 475 480
Gln Ile Leu Val Gln Ala Tyr Val Leu Ser Ser His Phe Pro Glu Cys
485 490 495
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
500 505 510
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Gly Ala Ala
515 520 525
Pro Ala Ala Val Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
530 535 540
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
545 550 555 560
Ile Tyr Glu Glu Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
565 570 575
Leu Ala Arg Ile Trp Ala Ser Arg
580
<210> 82
<211> 598
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 82: (ARS01723.1:30-627)
<400> 82
Pro Lys Arg Ala Arg Pro Asp Ser Leu Pro Leu Val Ala Val Tyr Arg
1 5 10 15
Pro Ala Ser Pro Gly Thr Pro Glu Arg Pro Gln Thr Pro Pro Thr Pro
20 25 30
Asp Pro Pro Leu Pro Pro Arg Gly Ala Ser Ala Pro Ala Pro Ser Gly
35 40 45
Ser Gly Ser Glu Ser Gly Pro Pro Ser Pro Ala Ser Gln Ser Leu Leu
50 55 60
Ala Asn Tyr Ala Pro Pro Arg Ser Pro Gly Gly Asp Ala Gly Ser Pro
65 70 75 80
Asp Ala Gly Ser Pro Asp Ala Gly Ser Pro Asp Ala Gly Ser Pro Asp
85 90 95
Ala Gly Ser Pro Asp Ala Gly Ser Pro Asp Ala Gly Val Glu Pro Gly
100 105 110
Trp Ser Ala Ala Ala Ile Pro Asp Ala Leu Pro Pro His Val Leu Ala
115 120 125
Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu Arg Gly Val Arg Arg
130 135 140
Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu Gly Tyr Leu Phe Ser
145 150 155 160
Leu Val Thr Ala Leu Glu Glu Ala Gly Met Val Asp Arg Gly Ile Gly
165 170 175
Gly His Leu Ile Arg Leu Ser Arg Arg Ala Gly Ala Ala Asn Pro Arg
180 185 190
Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu Ser
195 200 205
Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr Leu
210 215 220
Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg Asn
225 230 235 240
Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ala Ala Val Met Phe Gly
245 250 255
Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys Val
260 265 270
Gly Arg Ala Asp Asn Ile Gly Gly Gly Asp Glu Ala Gly Arg Arg Phe
275 280 285
Val Phe Arg Glu Pro Gly Asp Ala Pro Ala Glu Ser Val His Ala Cys
290 295 300
Gly Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp
305 310 315 320
Ile Leu Val Cys Pro Arg Asp Gly His Gly Cys Leu Asn Pro Ala Pro
325 330 335
Gly Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala
340 345 350
Phe Asp Pro Ala Asp Ala Gly Glu Ala Val Val Ala Ala His Arg Arg
355 360 365
Leu Val Ala Thr Arg Ser Pro Val Asp Phe Arg Ala Phe Val Arg Ser
370 375 380
Ile Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly
385 390 395 400
Pro Glu Glu Ala Leu Val Ser Asp His Ala Ser Trp Ala Asp Ala Arg
405 410 415
Ala Gly Asp Glu Lys Arg Arg Cys Ser Ala Phe Asp Arg Gly Leu Val
420 425 430
Gly Leu Asn Ser Gly Val Val Ser Asp Val Leu Leu Phe Gly Glu Pro
435 440 445
Asp Leu Glu Arg Arg Thr Ile Ser Pro Leu Val Trp Thr Ser Gly Gly
450 455 460
Val Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe
465 470 475 480
Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ser Ser His Phe Pro Glu
485 490 495
Cys Pro Leu Arg Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr
500 505 510
Leu Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Pro
515 520 525
Ala Pro Ala Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp
530 535 540
Gln Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala
545 550 555 560
Ala Val Tyr Asp Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu
565 570 575
Thr Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Ala Ser Arg Pro Ala
580 585 590
Ala Ala Gly Glu Thr Ser
595
<210> 83
<211> 573
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 83: (ARS01798.1:30-602)
<400> 83
Pro Lys Arg Ala Arg Pro Asn Ser Leu Pro Leu Val Ala Val Tyr Arg
1 5 10 15
Pro Ala Ser Pro Gly Thr Pro Glu Arg Pro Gln Thr Pro Pro Thr Pro
20 25 30
Asp Pro Pro Leu Pro Pro Arg Gly Ala Ser Ala Pro Ala Pro Ser Gly
35 40 45
Ser Gly Ser Glu Ser Gly Pro Pro Ser Pro Ala Ser Gln Ser Leu Leu
50 55 60
Ala Asn Tyr Ala Pro Pro Arg Ser Pro Gly Gly Asp Ala Gly Ser Pro
65 70 75 80
Asp Ala Gly Val Glu Pro Gly Trp Ser Ala Ala Ala Ile Pro Asp Ala
85 90 95
Leu Pro Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly
100 105 110
Leu Leu Arg Gly Val Arg Arg Pro Leu Asp Val Glu Pro Leu Arg Ala
115 120 125
Arg Leu Gly Tyr Leu Phe Ser Leu Val Thr Ala Leu Glu Glu Ala Gly
130 135 140
Met Val Asp Arg Gly Ile Gly Gly His Leu Ile Arg Leu Ser Arg Arg
145 150 155 160
Ala Gly Ala Ala Asn Pro Arg Pro Leu Met Ala Phe Phe Glu Ala Ala
165 170 175
Thr Gln Asn Gln Ala Glu Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly
180 185 190
Leu Thr Thr Ala Ser Thr Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe
195 200 205
Ser Pro Gln Trp Leu Arg Asn Asn Asp Asp Pro Arg Leu Asp Phe Gln
210 215 220
Ser Ala Ala Val Met Phe Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala
225 230 235 240
Leu Leu Phe Arg Tyr Cys Val Gly Arg Ala Asp Asp Ile Gly Gly Gly
245 250 255
Asp Glu Ala Gly Arg Arg Phe Val Phe Arg Glu Pro Gly Asp Ala Pro
260 265 270
Ala Glu Ser Val His Ala Cys Gly Val Leu Val Asp Ala His Thr Gly
275 280 285
Met Val Gly Ala Ser Leu Asp Ile Leu Val Cys Pro Arg Asp Gly His
290 295 300
Gly Cys Leu Asn Pro Ala Pro Gly Thr Pro Leu Arg Phe Tyr Glu Val
305 310 315 320
Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Ala Asp Ala Gly Glu Ala
325 330 335
Val Val Ala Ala His Arg Arg Leu Val Ala Thr Arg Ser Pro Val Asp
340 345 350
Phe Arg Ala Phe Val Arg Ser Ile Ala Arg Pro Gly Val Arg Tyr Phe
355 360 365
Ala Pro Gly Arg Val Pro Gly Pro Glu Glu Ala Leu Val Ser Asp His
370 375 380
Ala Ser Trp Ala Asp Ala Arg Ala Gly Asp Glu Lys Arg Arg Cys Ser
385 390 395 400
Ala Phe Asp Arg Gly Leu Val Gly Leu Asn Ser Gly Val Val Ser Asp
405 410 415
Val Leu Leu Phe Gly Glu Pro Asp Leu Glu Arg Arg Thr Ile Ser Pro
420 425 430
Leu Val Trp Thr Ser Gly Gly Val Val His Arg Glu Pro Ile Phe Ala
435 440 445
Asn Pro Arg His Pro Asn Phe Lys Gln Ile Leu Val Gln Ala Tyr Val
450 455 460
Leu Ser Ser His Phe Pro Glu Cys Pro Leu Arg Pro His Leu Val Thr
465 470 475 480
Phe Ile Gly Arg His Arg Thr Leu Asp Glu Glu Gly Val Ser Leu Arg
485 490 495
Leu Glu Asp Ala Pro Ala Pro Ala Pro Ala Ala Ala Arg Ala Ala Ile
500 505 510
Arg Gly Ser Ile Leu Pro Asp Gln Ala Val Pro Val Ala Leu Ile Ile
515 520 525
Thr Pro Val Arg Ile Asp Ala Ala Val Tyr Asp Val Ile Arg Arg Asn
530 535 540
Ser Arg Leu Ala Phe Asp Glu Thr Leu Ala Arg Ile Trp Ala Ser Arg
545 550 555 560
Asp Pro Ala Ser Arg Pro Ala Ala Ala Gly Glu Thr Ser
565 570
<210> 84
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 84: (ARS01873.1:12-624)
<400> 84
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Lys Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Ser Arg Ala Ala Ala Ser Pro Glu Phe Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asn Glu Arg Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 85
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 85: (ARS01948.1:12-624)
<400> 85
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Thr Arg Ala Ala Ala Ser Pro Glu Ser Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 86
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 86: (ARS02023.1:12-624)
<400> 86
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asn Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Leu Pro Arg Gly Thr Arg Ala Ala Ala Ser Pro Glu Ser Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 87
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 87: (ARS02681.1:12-624)
<400> 87
Pro Ala Arg Ala Glu Ile Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Thr Arg Ala Ala Ala Ser Pro Glu Ser Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Arg Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 88
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 88: (ARS02756.1:12-624)
<400> 88
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Thr Arg Ala Val Ala Ser Pro Glu Ser Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Thr Pro Gly Asp Ala Asp Asp Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Phe Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 89
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 89: (ARS02831.1:12-624)
<400> 89
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Ser Arg Ala Ala Ala Ser Pro Glu Phe Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asn Glu Arg Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 90
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 90: (ARS02906.1:12-624)
<400> 90
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Thr Arg Ala Ala Ala Ser Pro Glu Ser Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Arg Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 91
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 91: (BAC58051.1:12-624)
<400> 91
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Ser Arg Ala Ala Ala Ser Pro Glu Phe Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Arg
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asn Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 92
<211> 613
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 92: (NP_851871.1:12-624)
<400> 92
Pro Ala Arg Ala Glu Ser Lys Arg Pro Leu Val Leu Gly Asp Glu Asp
1 5 10 15
Glu Asn Gly Asp Arg Ile Arg Asp Pro His Gly Arg Ser Pro Lys Arg
20 25 30
Ala Arg Pro Asn Ser Leu Pro Leu Ala Ala Val Phe Arg Pro Ala Thr
35 40 45
Pro Gly Thr Pro Glu Arg Pro Arg Thr Pro Pro Thr Pro Asp Leu Pro
50 55 60
Leu Ser Pro Arg Gly Thr Arg Ala Ala Ala Ser Pro Glu Ser Arg Ser
65 70 75 80
Glu Thr Gly Pro Ser Ser Pro Ala Ser Gln Ser Leu Leu Ala Asp Tyr
85 90 95
Ala Pro Pro Pro Ser Pro Gly Asp Ala Asp Gly Asn Asp Thr Asp Ser
100 105 110
Thr Val Glu Pro Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro
115 120 125
Pro His Val Leu Ala Glu Thr Phe Glu Ser His Leu Arg Gly Leu Leu
130 135 140
Arg Gly Val Arg Gly Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu
145 150 155 160
Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val
165 170 175
Asp Arg Gly Leu Gly Gly His Leu Val Arg Leu Ser Arg Arg Ala Pro
180 185 190
Ala Ala Leu Gly Ala Gly Ala Ala Gly Gly Pro Ala Ala Ala Asn Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Ala Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Gln Trp Leu Met
245 250 255
Asn Asn His Asp Leu Arg Leu Asp Cys Gln Ser Ala Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Glu Lys Asp Glu Ala Gly Arg Arg Phe Val
290 295 300
Phe Arg Glu Pro Gly Glu Ala Pro Ala Glu Ser Val His Ala Cys Gly
305 310 315 320
Val Leu Met Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile
325 330 335
Leu Val Cys Pro Arg Asp His His Gly Cys Leu Asn Pro Ala Pro Gly
340 345 350
Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe
355 360 365
Asp Pro Ala Asp Ala Gly Glu Pro Val Val Ala Ala His Arg Arg Leu
370 375 380
Val Ala Thr Arg Ser Pro Val Ser Phe Arg Ala Phe Val Arg Ser Ile
385 390 395 400
Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val Pro Gly Pro
405 410 415
Glu Glu Ala Leu Val Ser Glu His Ala Ser Trp Ala Asp Val Arg Ala
420 425 430
Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Asp Leu Val Gly
435 440 445
Leu Asn Ser Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp
450 455 460
Leu Glu Arg Arg Thr Ile Ser Pro Leu Ala Trp Asp Ser Gly Glu Leu
465 470 475 480
Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys
485 490 495
Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys
500 505 510
Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Leu
515 520 525
Asp Glu Glu Gly Val Ser Leu Arg Leu Glu Asp Ala Pro Ala Ala Ala
530 535 540
Pro Pro Ala Ala Arg Ala Ala Ile Arg Gly Ser Ile Leu Pro Asp Gln
545 550 555 560
Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Ile Asp Ala Ala
565 570 575
Val Tyr Glu Val Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr
580 585 590
Leu Ala Arg Ile Trp Ala Ser Arg Asp Pro Val Pro Arg Pro Ala Ala
595 600 605
Ala Asp Glu Thr Ser
610
<210> 93
<211> 547
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 93: (YP_164454.1:69-615)
<400> 93
Pro Pro Thr Pro Asp Leu Pro Leu Ser Pro Arg Gly Thr His Gly Val
1 5 10 15
Ala Ala Pro Ala Gly Glu Ala Glu Pro Arg Leu Pro Ser Pro Pro Ser
20 25 30
Pro Ala Ser Pro Ser Leu Leu Ala Asp Tyr Val Pro Pro Ala Pro Asp
35 40 45
Ala Asp Ala Asp Ala Pro Asp Val Glu Pro Trp Trp Ser Ala Val Ala
50 55 60
Ile Pro Asp Ala Leu Pro Pro His Val Gln Ala Glu Thr Phe Glu Arg
65 70 75 80
His Leu Arg Gly Leu Leu Arg Gly Val Arg Arg Pro Leu Asp Val Glu
85 90 95
Pro Leu Gly Ala Arg Leu Gly Tyr Leu Phe Ser Leu Ala Thr Ala Leu
100 105 110
Glu Glu Ala Gly Met Val Asp Arg Gly Leu Gly Gly His Leu Phe Arg
115 120 125
Leu Ser Arg Arg Ala Ala Ala Ala Asp Pro Arg Pro Leu Met Ala Phe
130 135 140
Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu Ser Gln Leu Trp Ala Leu
145 150 155 160
Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr Leu Lys Trp Gly Pro Arg
165 170 175
Gly Pro Cys Phe Ser Pro Arg Trp Leu Lys Asn Asn Asp Asp Pro Arg
180 185 190
Leu Asp Phe Pro Ser Ser Ala Val Met Phe Gly Arg Thr Asn Glu Pro
195 200 205
Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys Val Gly Arg Thr Asp Asp
210 215 220
Arg Asp Ala Glu Gly Gly Glu Ala Gly Arg Arg Phe Val Phe Cys Glu
225 230 235 240
Pro Gly Asp Ala Pro Val Ala Gly Val His Ala Cys Gly Val Leu Val
245 250 255
Asp Ala His Thr Gly Met Val Gly Ala Ser Leu Asp Ile Leu Val Cys
260 265 270
Pro Arg Asp Arg His Gly Cys Leu Ser Pro Thr Pro Gly Thr Pro Leu
275 280 285
Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Ala
290 295 300
Asp Ala Gly Asp Pro Val Val Ala Ala His Arg Arg Leu Val Ala Arg
305 310 315 320
Arg Ser Pro Ala Asp Phe Arg Ala Phe Leu Arg Ser Ile Ala Arg Pro
325 330 335
Gly Val Arg Tyr Phe Ala Pro Gly Gln Val Pro Gly Pro Glu Glu Ala
340 345 350
Leu Val Ser Asp His Ala Val Trp Ala Asp Ala Arg Ala Gly Gly Glu
355 360 365
Lys Arg Arg Cys Pro Ala Leu Asp Arg Ala Leu Val Gly Leu Asn Ser
370 375 380
Gly Val Ala Ser Asp Val Leu Leu Phe Gly Asp Pro Asp Pro Glu Arg
385 390 395 400
Arg Thr Val Ser Pro Leu Val Trp Ser Ser Gly Asp Leu Val His Arg
405 410 415
Glu Pro Ile Phe Ala Asn Pro Arg His Pro Asn Phe Lys Gln Ile Leu
420 425 430
Val Gln Ala Tyr Val Leu Ala Ser His Phe Pro Glu Cys Pro Leu His
435 440 445
Pro His Leu Val Thr Phe Ile Gly Arg His Arg Thr Pro Asp Glu Glu
450 455 460
Gly Leu Ser Leu Arg Leu Gly Asp Ala Pro Ala Ser Ala Pro Ala Ala
465 470 475 480
Val Arg Ala Ala Ala Gly Ala Ser Ile Leu Pro Asp Gln Ala Val Pro
485 490 495
Val Ala Leu Ile Ile Thr Pro Val Arg Val Asp Ala Ala Val Tyr Asp
500 505 510
Leu Ile Arg Arg Asn Ser Arg Leu Ala Phe Asp Glu Thr Leu Ala Arg
515 520 525
Leu Trp Ala Ser Arg Ala Pro Ala Ser Asp Pro Ala Val Ala Asp Gly
530 535 540
Thr Ser Ser
545
<210> 94
<211> 617
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 94: (YP_443858.1:1-617)
<400> 94
Met Gln Thr Thr Thr Pro Ala Gly Pro Pro Ser Ser Arg Ala Glu His
1 5 10 15
Lys Arg Pro Pro Ala Pro Ala Gly Asn Glu Gly Ala Glu Pro Gly Arg
20 25 30
Gly Val Asp Glu Ser Ala Arg Pro Pro Lys Arg Pro Arg Pro Asp Ser
35 40 45
Leu Pro Leu Ala Ala Val Tyr Arg Pro Ala Thr Pro Pro Ser Pro Gly
50 55 60
Arg Pro Glu Thr Pro Pro Thr Pro Asp Leu Pro Leu Ser Pro Arg Gly
65 70 75 80
Thr His Gly Leu Ala Ala Pro Ala Gly Glu Pro Glu Pro Glu Ser Asp
85 90 95
Pro Glu Pro Gly Ser Gln Ser Leu Leu Ala Asn Tyr Val Pro Pro Ala
100 105 110
Gln Asp Val Gly Gly Ala Asp Ala Asp Ala Gly Ser Thr Pro Glu Pro
115 120 125
Gly Trp Ser Ala Val Ala Ile Pro Asp Ala Leu Pro Pro His Val Leu
130 135 140
Ala Glu Thr Phe Glu Arg His Leu Cys Gly Leu Leu Arg Gly Val Arg
145 150 155 160
Arg Pro Leu Asp Val Glu Pro Leu Arg Ala Arg Leu Gly Tyr Leu Phe
165 170 175
Ser Leu Ala Thr Ala Leu Glu Glu Ala Gly Met Val Asp Arg Gly Ile
180 185 190
Gly Gly His Leu Leu Arg Leu Ser Arg Arg Ala Ala Ala Ala Asp Pro
195 200 205
Arg Pro Leu Met Ala Phe Phe Glu Ala Ala Thr Gln Asn Gln Ala Glu
210 215 220
Ser Gln Leu Trp Gly Leu Leu Arg Arg Gly Leu Thr Thr Ala Ser Thr
225 230 235 240
Leu Lys Trp Gly Pro Arg Gly Pro Cys Phe Ser Pro Arg Trp Leu Lys
245 250 255
Asn Asn Asp Asp Pro Arg Leu Asp Phe Gln Ser Ser Ala Val Met Phe
260 265 270
Gly Arg Thr Asn Glu Pro Ala Ala Arg Ala Leu Leu Phe Arg Tyr Cys
275 280 285
Val Gly Arg Ala Asp Asp Arg Asp Ala Glu Gly Asp Asp Ala Gly Arg
290 295 300
Arg Phe Val Phe Cys Glu Pro Gly Asp Ala Pro Ala Ala Ser Val His
305 310 315 320
Ala Cys Gly Val Leu Val Asp Ala His Thr Gly Met Val Gly Ala Ser
325 330 335
Leu Asp Ile Leu Val Cys Pro Arg Asp Arg His Gly Cys Leu Asn Pro
340 345 350
Ala Pro Gly Thr Pro Leu Arg Phe Tyr Glu Val Lys Cys Arg Ala Lys
355 360 365
Tyr Ala Phe Asp Pro Ala Asp Ala Gly Asp Pro Val Val Ala Ala His
370 375 380
Arg Arg Leu Val Ala Arg Arg Ser Pro Ala Asp Phe Arg Ala Phe Leu
385 390 395 400
Arg Ser Ile Ala Arg Pro Gly Val Arg Tyr Phe Ala Pro Gly Arg Val
405 410 415
Pro Gly Pro Glu Glu Ala Leu Val Ser Asp His Ala Val Trp Ala Asp
420 425 430
Ala Arg Ala Gly Asp Glu Lys Arg Arg Cys Ser Ala Leu Asp Arg Ala
435 440 445
Leu Val Ser Leu Asn Ser Gly Val Glu Ser Asp Val Leu Leu Phe Gly
450 455 460
Asp Pro Asp Pro Glu Arg Arg Thr Val Ser Pro Leu Ala Trp Ser Ser
465 470 475 480
Gly Ala Leu Val His Arg Glu Pro Ile Phe Ala Asn Pro Arg His Pro
485 490 495
Asn Phe Lys Gln Ile Leu Val Gln Ala Tyr Val Leu Ala Ser His Phe
500 505 510
Pro Glu Cys Pro Leu His Pro His Leu Val Thr Phe Ile Gly Arg His
515 520 525
Arg Thr Pro Asp Glu Glu Gly Leu Ser Leu Arg Leu Glu Asp Ala Pro
530 535 540
Ala Ser Ala Pro Ala Ala Val Arg Ala Ala Ala Gly Ala Ser Ile Leu
545 550 555 560
Pro Asp Gln Ala Val Pro Val Ala Leu Ile Ile Thr Pro Val Arg Val
565 570 575
Asp Ala Ala Ile Tyr Asp Leu Ile Arg Arg Asn Ser Arg Leu Ala Phe
580 585 590
Asp Glu Thr Leu Ala Arg Leu Trp Ala Ser Arg Ala Pro Ala Ser Asp
595 600 605
Pro Ala Ala Ala Gly Gly Thr Ser Ser
610 615
<210> 95
<211> 16
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 95
<220>
<221> misc_feature
<222> (4)..(4)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> misc_feature
<222> (6)..(6)
<223> Xaa可以是任何天然存在的氨基酸
<400> 95
Gly Val Leu Xaa Asp Xaa His Thr Gly Met Val Gly Ala Ser Leu Asp
1 5 10 15
<210> 96
<211> 14
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 96
<220>
<221> misc_feature
<222> (13)..(13)
<223> Xaa可以是任何天然存在的氨基酸
<400> 96
Glu Val Lys Cys Arg Ala Lys Tyr Ala Phe Asp Pro Xaa Asp
1 5 10
<210> 97
<211> 24
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 97
<220>
<221> misc_feature
<222> (16)..(16)
<223> Xaa可以是任何天然存在的氨基酸
<220>
<221> misc_feature
<222> (20)..(21)
<223> Xaa可以是任何天然存在的氨基酸
<400> 97
Phe Ala Asn Pro Arg His Pro Asn Phe Lys Gln Ile Leu Val Gln Xaa
1 5 10 15
Tyr Val Leu Xaa Xaa His Phe Pro
20
<210> 98
<211> 16
<212> PRT
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 98
<400> 98
Trp Glu Glu Glu Ile Trp His Arg Cys Cys Asp His Ala Lys Ala Arg
1 5 10 15
<210> 99
<211> 7965
<212> DNA
<213> 未知 (Unknown)
<220>
<223> SEQ ID NO: 99: TMV转基因的序列
<400> 99
cctgtggttg gcacatacaa atggacgaac ggataaacct tttcacgccc ttttaaatat 60
ccgattattc taataaacgc tcttttctct taggtttacc cgccaatata tcctgtcaaa 120
cactgatagt ttaaactgaa ggcgggaaac gacaatctga tctaagcttg catgcctgca 180
ggtcgatcta gtaacataga tgacaccgcg cgcgataatt tatcctagtt tgcgcgctat 240
attttgtttt ctatcgcgta ttaaatgtat aattgcggga ctctaatcat aaaaacccat 300
ctcataaata acgtcatgca ttacatgtta attattacat gcttaacgta attcaacaga 360
aattatatga taatcatcgc aagaccggca acaggattca atcttaagaa actttattgc 420
caaatgtttg aacgatctgc ttgactctag atccagagtc ccgctcagaa gaactcgtca 480
agaaggcgat agaaggcgat gcgctgcgaa tcgggagcgg cgataccgta aagcacgagg 540
aagcggtcag cccattcgcc gccaagctct tcagcaatat cacgggtagc caacgctatg 600
tcctgatagc ggtccgccac acccagccgg ccacagtcga tgaatccaga aaagcggcca 660
ttttccacca tgatattcgg caagcaggca tcgccatgag tcacgacgag atcctcgccg 720
tcgggcatac gcgccttgag cctggcgaac agttcggctg gcgcgagccc ctgatgctct 780
tcgtccagat catcctgatc gacaagaccg gcttccatcc gagtacgtgc tcgctcgatg 840
cgatgtttcg cttggtggtc gaatgggcag gtagccggat caagcgtatg cagccgccgc 900
attgcatcag ccatgatgga tactttctcg gcaggagcaa ggtgagatga caggagatcc 960
tgccccggca cttcgcccaa tagcagccag tcccttcccg cttcagtgac aacgtcgagc 1020
acagctgcgc aaggaacgcc cgtcgtggcc agccacgata gccgcgctgc ctcgtcctgg 1080
agttcattca gggcaccgga caggtcggtc ttgacaaaaa gaaccgggcg cccctgcgct 1140
gacagccgga acacggcggc atcagagcag ccgattgtct gttgtgccca gtcatagccg 1200
aatagcctct ccacccaagc ggccggagaa cctgcgtgca atccatcttg ttcaatcatg 1260
cgaaacgatc cagatccggt gcagattatt tggattgaga gtgaatatga gactctaatt 1320
ggataccgag gggaatttat ggaacgtcag tggagcattt ttgacaagaa atatttgcta 1380
gctgatagtg accttaggcg acttttgaac gcgcaataat ggtttctgac gtatgtgctt 1440
agctcattaa actccagaaa cccgcggctg agtggctcct tcaacgttgc ggttctgtca 1500
gttccaaacg taaaacggct tgtcccgcgt catcggcggg ggtcataacg tgactccctt 1560
aattctccgc tcatggtacc acgcgtttcg acaaaattta gaacgaactt aattatgatc 1620
tcaaatacat tgatacatat ctcatctaga tctaggttat cattatgtaa gaaagttttg 1680
acgaatatgg cacgacaaaa tggctagact cgatgtaatt ggtatctcaa ctcaacatta 1740
tacttatacc aaacattagt tagacaaaat ttaaacaact attttttatg tatgcaagag 1800
tcagcatatg tataattgat tcagaatcgt tttgacgagt tcggatgtag tagtagccat 1860
tatttaatgt acatactaat cgtgaatagt gaatatgatg aaacattgta tcttattgta 1920
taaatatcca taaacacatc atgaaagaca ctttctttca cggtctgaat taattatgat 1980
acaattctaa tagaaaacga attaaattac gttgaattgt atgaaatcta attgaacaag 2040
ccaaccacga cgacgactaa cgttgcctgg attgactcgg tttaagttaa ccactaaaaa 2100
aacggagctg tcatgtaaca cgcggatcga gcaggtcaca gtcatgaagc catcaaagca 2160
aaagaactaa tccaagggct gagatgatta attagtttaa aaattagtta acacgaggga 2220
aaaggctgtc tgacagccag gtcacgttat ctttacctgt ggtcgaaatg attcgtgtct 2280
gtcgatttta attatttttt tgaaaggccg aaaataaagt tgtaagagat aaacccgcct 2340
atataaattc atatattttc ctctccgctt tgaagtttta gttttattgc aacaacaaca 2400
acaaattaca ataacaacaa acaaaataca aacaacaaca acatggcaca atttcaacaa 2460
acaattgaca tgcaaactct ccaagccgct gcgggacgca acagcttggt gaatgatttg 2520
gcatctcgtc gcgtttacga taatgcagtc gaggagctga atgctcgttc cagacgtccc 2580
aaggtaatag gaactttctg gatctacttt atttgctgga tctcgatctt gttttctcaa 2640
tttccttgag atctggaatt cgtttaattt ggatctgtga acctccacta aatcttttgg 2700
ttttactaga atcgatctaa gttgaccgat cagttagctc gattatagct accagaattt 2760
ggcttgacct tgatggagag atccatgttc atgttacctg ggaaatgatt tgtatatgtg 2820
aattgaaatc tgaactgttg aagttagatt gaatctgaac actgtcaatg ttagattgaa 2880
tctgaacact gtttaaggtt agatgaagtt tgtgtataga ttcttcgaaa ctttaggatt 2940
tgtagtgtcg tacgttgaac agaaagctat ttctgattca atcagggttt atttgactgt 3000
attgaactct ttttgtgtgt ttgcaggtcc acttctccaa ggcagtgtct acggaacaga 3060
ccctgattgc aacaaacgca tatccggagt tcgagatttc ctttactcat acgcaatccg 3120
ctgtgcactc cttggccgga ggccttcggt cacttgagtt ggagtatctc atgatgcaag 3180
ttccgttcgg ttctctgacg tacgacatcg gcggtaactt ttccgcgcac cttttcaaag 3240
ggcgcgatta cgttcactgc tgcatgccta atctggatgt acgtgacatt gctcgccatg 3300
aaggacacaa ggaagctatt tacagttatg tgaatcgttt gaaaaggcag cagcgtcctg 3360
tgcctgaata ccagagggca gctttcaaca actacgctga gaacccgcac ttcgtccatt 3420
gcgacaaacc tttccaacag tgtgaattga cgacagcgta tggcactgac acctacgctg 3480
tagctctcca tagcatttat gatatccctg ttgaggagtt cggttctgcg ctactcagga 3540
agaatgtgaa aacttgtttc gcggcctttc atttccatga gaatatgctt ctagattgtg 3600
atacagtcac actcgatgag attggagcta cgttccagaa atcaggtaac attccttagt 3660
tacctttctt ttctttttcc atcataagtt tatagattgt acatgctttg agatttttct 3720
ttgcaaacaa tctcaggtga taacctgagc ttcttcttcc ataatgagag cactctcaat 3780
tacacccaca gcttcagcaa catcatcaag tacgtgtgca agacgttctt ccctgctagt 3840
caacgcttcg tgtaccacaa ggagttcctg gtcactagag tcaacacttg gtactgcaag 3900
ttcacgagag tggatacgtt cactctgttc cgtggtgtgt accacaacaa tgtggattgc 3960
gaagagtttt acaaggctat ggacgatgcg tggcactaca aaaagacgtt agcaatgctt 4020
aatgccgaga ggaccatctt caaggataac gctgcgttaa acttctggtt cccgaaggtg 4080
ctcttgaaat tggaagtctt cttttgttgt ctaaacctat caatttcttt gcggaaattt 4140
atttgaagct gtagagttaa aattgagtct tttaaacttt tgtaggtgag agacatggtt 4200
atcgtccctc tctttgacgc ttctatcaca actggtagga tgtctaggag agaggttatg 4260
gtgaacaagg acttcgtcta cacggtccta aatcacatca agacctatca agctaaggca 4320
ctgacgtacg caaacgtgct gagcttcgtg gagtctatta ggtctagagt gataattaac 4380
ggtgtcactg ccaggtaagt tgttacttat gattgttttc ctctctgcta catgtatttt 4440
gttgttcatt tctgtaagat ataagaattg agttttcctc tgatgatatt attaggtctg 4500
aatgggacac agacaaggca attctaggtc cattagcaat gacattcttc ctgatcacga 4560
agctgggtca tgtgcaagat gaaataatcc tgaaaaagtt ccagaagttc gacagaacca 4620
ccaatgagct gatttggaca agtctctgcg atgccctgat gggggttatt ccctcggtca 4680
aggagacgct tgtgcgcggt ggttttgtga aagtagcaga acaagcctta gagatcaagg 4740
ttagtatcat atgaagaaat acctagtttc agttgatgaa tgctattttc tgacctcttt 4800
tctcgaagcc gcggtgcggg tgccagggcg tgcccttggg ctccccgggc gcgtactcca 4860
cctcacccat cttttgatca acatcaaaat taggttcaat tttcatcaac caaataatat 4920
ttttcatgta tatataggtc acagaaaaac gaccttgaaa gattatacgg ccggaatcaa 4980
aacatgtctt tggtatcaaa ggaaaagtgg tgatgtgaca acctttattg gtaataccat 5040
catcattgcc gcatgtttga gctcaatgat ccccatggac aaagtgataa aggcagcttt 5100
ttgtggagac gatagcctga tttacattcc taaaggttta gacttgcctg atattcaggc 5160
gggcgcgaac ctcatgtgga acttcgaggc caaactcttc aggaagaagt atggttactt 5220
ctgtggtcgt tatgttattc accatgatag aggagccatt gtgtattacg atccgcttaa 5280
actaatatct aagttaggtt gtaaacatat tagagatgtt gttcacttag aagagttacg 5340
cgagtctttg tgtgatgtag ctagtaactt aaataattgt gcgtattttt cacagttaga 5400
tgaggccgtt gccgaggttc ataagaccgc ggtaggcggt tcgtttgctt tttgtagtat 5460
aattaagtat ttgtcagata agagattgtt tagagatttg ttctttgttt gataatgtcg 5520
atagtctcgt acgaacctaa ggtgagtgat ttcctcaatc tttcgaagaa ggaagagatc 5580
ttgccgaagg ctctaacgag gttaaaaacc gtgtctatta gtactaaaga tattatatct 5640
gtcaaggagt cggagacttt gtgtgatata gatttgttaa tcaatgtgcc attagataag 5700
tatagatatg tgggtatcct aggagccgtt tttaccggag agtggctagt gccagacttc 5760
gttaaaggtg gagtgacgat aagtgtgata gataagcgtc tggtgaactc aaaggagtgc 5820
gtgattggta cgtacagagc cgcagccaag agtaagaggt tccagttcaa attggttcca 5880
aattactttg tgtccaccgt ggacgcaaag aggaagccgt ggcaggtaag gatttttatg 5940
atatagtatg cttatgtatt ttgtactgaa agcatatcct gcttcattgg gatattactg 6000
aaagcattta actacatgta aactcacttg atgatcaata aacttgattt tgcaggttca 6060
tgttcgtata caagacttga agattgaggc gggttggcag ccgttagctc tggaagtagt 6120
ttcagttgct atggtcacca ataacgttgt catgaagggt ttgagggaaa aggtcgtcgc 6180
aataaatgat ccggacgtcg aaggtttcga aggtaagcca tcttcctgct tatttttata 6240
atgaacatag aaataggaag ttgtgcagag aaactaatta acctgactca aaatctaccc 6300
tcataattgt tgtttgatat tggtcttgta ttttgcaggt gtggttgacg aattcgtcga 6360
ttcggttgca gcatttaaag cggttgacaa ctttaaaaga aggaaaaaga aggttgaaga 6420
aaagggtgta gtaagtaagt ataagtacag accggagaag tacgccggtc ctgattcgtt 6480
taatttgaaa gaagaaaacg tcttacaaca ttacaaaccc gaatcagtac cagtatttcg 6540
ataagaaaca agaaaggtat ggtgagcaag ggcgaggagc tgttcaccgg ggtggtgccc 6600
atcctggtcg agctggacgg cgacgtaaac ggccacaagt tcagcgtgtc cggcgagggc 6660
gagggcgatg ccacctacgg caagctgacc ctgaagttca tctgcaccac cggcaagctg 6720
cccgtgccct ggcccaccct cgtgaccacc ttcagctacg gcgtgcagtg cttcagccgc 6780
taccccgacc acatgaagca gcacgacttc ttcaagtccg ccatgcccga aggctacgtc 6840
caggagcgca ccatcttctt caaggacgac ggcaactaca agacccgcgc cgaggtgaag 6900
ttcgagggcg acaccctggt gaaccgcatc gagctgaagg gcatcgactt caaggaggac 6960
ggcaacatcc tggggcacaa gctggagtac aactacaaca gccacaacgt ctatatcatg 7020
gccgacaagc agaagaacgg catcaaggtg aacttcaaga tccgccacaa catcgaggac 7080
ggcagcgtgc agctcgccga ccactaccag cagaacaccc ccatcggcga cggccccgtg 7140
ctgctgcccg acaaccacta cctgagcacc cagtccgccc tgagcaaaga ccccaacgag 7200
aagcgcgatc acatggtcct gctggagttc gtgaccgccg ccgggatcac tcacggcatg 7260
gacgagctgt acaagtaagc ttactagagc gtggtgcgca cgatagcgca tagtgttttt 7320
ctctccactt gaatcgaaga gatagactta cggtgtaaat ccgtaggggt ggcgtaaacc 7380
aaattacgca atgttttggg ttccatttaa atcgaaaccc cttatttcct ggatcacctg 7440
ttaacgcacg tttgacgtgt attacagtgg gaataagtaa aagtgagagg ttcgaatcct 7500
ccctaacccc gggtaggggc ccagcggccg ctctagctag agtcaagcag atcgttcaaa 7560
catttggcaa taaagtttct taagattgaa tcctgttgcc ggtcttgcga tgattatcat 7620
ataatttctg ttgaattacg ttaagcatgt aataattaac atgtaatgca tgacgttatt 7680
tatgagatgg gtttttatga ttagagtccc gcaattatac atttaatacg cgatagaaaa 7740
caaaatatag cgcgcaaact aggataaatt atcgcgcgcg gtgtcatcta tgttactaga 7800
tcgacctgca tccaccccag tacattaaaa acgtccgcaa tgtgttatta agttgtctaa 7860
gcgtcaattt gtttacacca caatatatcc tgccaccagc cagccaacag ctccccgacc 7920
ggcagctcgg cacaaaatca ccactcgata caggcagccc atcag 7965

Claims (42)

1.蛋白,用于在真核细胞或真核生物体中在内源DNA的靶位点处编辑所述内源DNA,所述蛋白包含位点特异性核酸内切酶和5’-3’核酸外切酶,其中所述5’-3’核酸外切酶优选地是单体的5’-3’核酸外切酶。
2.根据权利要求1所述的蛋白,其中5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
A)
(i)SEQ ID NO:43(PapE)中定义的氨基酸序列,或
(ii)与SEQ ID NO:43中定义的氨基酸序列具有至少80%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:43中定义的氨基酸序列具有至少90%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:43中定义的氨基酸序列相比具有1至121个氨基酸取代、添加、插入和/或缺失的氨基酸序列,或
B)
(i)SEQ ID NO:44(PiE)中定义的氨基酸序列,或
(ii)与SEQ ID NO:44中定义的氨基酸序列具有至少80%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:44中定义的氨基酸序列具有至少90%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:44中定义的氨基酸序列相比具有1至131个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
3.根据权利要求1所述的蛋白,其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
C)
(i)SEQ ID NO:45(ME15)中定义的氨基酸序列,或
(ii)与SEQ ID NO:45中定义的氨基酸序列具有至少80%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:45中定义的氨基酸序列具有至少90%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:45中定义的氨基酸序列相比具有1至60个氨基酸取代、添加、插入和/或缺失的氨基酸序列;或
D)
(i)SEQ ID NO:46(SpiPh)中定义的氨基酸序列,或
(ii)与SEQ ID NO:46中定义的氨基酸序列具有至少80%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:46中定义的氨基酸序列具有至少90%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:46中定义的氨基酸序列相比具有1至59个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
4.根据权利要求1至3中任一项所述的蛋白,其中所述蛋白是包含所述位点特异性核酸内切酶和所述5’-3’核酸外切酶的融合蛋白。
5.根据权利要求1至3中任一项所述的蛋白,其中所述蛋白是包含第一蛋白亚基和第二蛋白亚基的寡聚蛋白(蛋白复合物),所述第一蛋白亚基包含所述位点特异性核酸内切酶,所述第二蛋白亚基包含所述5’-3’核酸外切酶。
6.根据权利要求5所述的蛋白,其中所述第一蛋白亚基包含(优选地作为所述第一蛋白亚基的结构域的)所述位点特异性核酸内切酶和第一相互作用结构域,所述第二蛋白亚基包含(优选地作为所述第二蛋白亚基的结构域的)所述5’-3’核酸外切酶和第二相互作用结构域,其中所述第一相互作用结构域和所述第二相互作用结构域彼此结合以形成所述寡聚蛋白(蛋白复合物)。
7.根据权利要求1至3中任一项所述的蛋白,其中所述蛋白是包含第一蛋白亚基和第二蛋白亚基和核酸(如gRNA)和适体的寡聚蛋白,所述第一亚基包含所述核酸内切酶,所述第二亚基包含所述5’-3’核酸外切酶,所述核酸具有能够结合所述核酸内切酶的部分,所述适体能够结合所述5’-3’核酸外切酶。
8.根据权利要求1至7中任一项所述的蛋白,其中所述位点特异性核酸内切酶是能够诱导DNA双链断裂或DNA内的双链断裂的CRISPR核酸酶,例如Cas9或Cas12a,或是能够诱导双链DNA的单链切口的具有切口酶活性的CRISPR核酸酶,例如Cas9的切口酶变体。
9.蛋白,用于在真核细胞或真核生物体中在内源DNA的靶位点处编辑所述内源DNA,其包含位点特异性核酸内切酶和5’-3’核酸外切酶,
其中所述位点特异性核酸内切酶是如权利要求8中所定义的CRISPR核酸酶,和
其中所述位点特异性核酸内切酶和所述5’-3’核酸外切酶通过多肽接头融合,所述多肽接头具有25个氨基酸残基或更多,优选30个氨基酸残基或更多的长度,和
其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:32(UL12-1)或SEQ ID NO:33(UL12-2)中定义的氨基酸序列,或
(ii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少80%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少90%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列相比具有1至120个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
10.根据权利要求1至9中任一项所述的蛋白,其中所述5’-3’核酸外切酶:
在说明书中所述的体外核酸外切酶测定中,在催化效率kcat/Km或转换数方面,与T7核酸外切酶(SEQ ID NO:30)相比具有相同或更高的5’-3’核酸外切酶活性;或
在说明书中所述的体外核酸外切酶测定中,在催化效率kcat/Km或在转换数方面,具有至少两倍于T5核酸外切酶(SEQ ID NO:31)的5’-3’核酸外切酶活性。
11.根据权利要求1至10中任一项所述的蛋白,其中,与当提供供体核酸时所述蛋白的所述位点特异性核酸内切酶和所述5’-3’核酸外切酶没有相融合或没有形成蛋白复合物时的单独应用相比,所述蛋白提供了增加的通过同源介导修复(HDR)途径的双链断裂修复的频率和/或更高的基因靶向或基因置换事件的频率。
12.根据权利要求1、2或4至11中任一项所述的蛋白,其中所述5’-3’核酸外切酶的氨基酸序列包含SEQ ID NO:56(PXPLMXFXEAATQXQXXXQLWXLLRRGLXTAXTLXWGXXGPXFXXXWL XXXXXXXXXXXXXAXXFGRXNEXXARXXLFRYCVGRAD)的氨基酸序列区段。
13.根据权利要求1、2或4至11中任一项所述的蛋白,其中所述5’-3’核酸外切酶的氨基酸序列包含SEQ ID NO:54(FRYCVGRAD)和SEQ ID NO:55(PXPLMXFFEAATQ)的氨基酸序列区段。
14.根据权利要求4和8至13中任一项所述的蛋白,其中所述5’-3’核酸外切酶融合至所述位点特异性核酸内切酶的N-末端或C-末端。
15.根据权利要求4、8和10至14中任一项所述的蛋白,其中所述位点特异性核酸内切酶和所述5’-3’核酸外切酶通过多肽接头融合。
16.根据权利要求15所述的蛋白,所述多肽接头由5至300个氨基酸残基、优选10至200个、更优选20至120个氨基酸残基组成。
17.核酸分子,其包含编码权利要求1至16中任一项所述的蛋白的多核苷酸。
18.核酸构建体、质粒或载体,其包含权利要求17所述的核酸分子的多核苷酸。
19.试剂盒,其包含:
-包含编码权利要求5或6所述的所述第一蛋白亚基的多核苷酸的核酸分子,和包含编码权利要求5或6所述的所述第二蛋白亚基的多核苷酸的核酸分子;或
-包含编码权利要求7所述的蛋白-核酸复合物的位点特异性核酸内切酶的多核苷酸的核酸分子,和包含编码权利要求7所述的蛋白-核酸复合物的5’-3’核酸外切酶的多核苷酸的核酸分子。
20.原核或真核细胞,其包含
i)权利要求1至16中任一项所述的蛋白,
ii)权利要求17所述的核酸分子,
iii)权利要求18所述的核酸构建体、质粒或载体,或
iv)权利要求19所述的试剂盒。
21.根据权利要求20所述的细胞,其中所述细胞是进一步包含用于同源介导DNA修复的供体核酸的真核细胞。
22.根据权利要求21所述的细胞,其中所述供体核酸按以下顺序包含:
-第一同源臂,其与所述细胞基因组中靶位点侧翼的于所述靶位点第一侧的第一区域同源,
-任选的目标供体序列,其在所述靶位点插入所述细胞的基因组DNA中,和
-第二同源臂,其与所述靶位点侧翼的于所述靶位点第二侧的第二区域同源。
23.根据权利要求22所述的细胞,所述供体序列在长度上包含至多15,000个、优选至多10,000个、并且更优选至多20,000个核苷酸,优选由其组成。
24.根据权利要求20至23中任一项所述的细胞,其进一步包含指导RNA(gRNA)或编码所述指导RNA的指导构建体,所述指导RNA能够结合所述位点特异性核酸内切酶并且能够将所述位点特异性核酸内切酶引导至所述细胞的基因组中的靶位点。
25.根据权利要求20至24中任一项所述的细胞,其中所述细胞是植物细胞。
26.非人生物体,优选植物,其包含权利要求20至25中任一项所述的细胞。
27.试剂盒,其用于在真核细胞或真核生物体中在内源DNA的靶位点处编辑所述内源DNA,所述试剂盒包含:
-如权利要求22中定义的供体核酸或包含所述供体核酸的供体构建体,和
-用于编辑内源DNA的融合蛋白,其包含位点特异性核酸内切酶和5’-3’核酸外切酶,
其中所述位点特异性核酸内切酶和所述5’-3’核酸外切酶通过多肽接头融合,和
其中所述多肽接头具有25个或更多个氨基酸残基,优选30个或更多个氨基酸残基的长度,和
其中所述位点特异性核酸内切酶优选如权利要求8中所定义,和
其中所述5’-3’核酸外切酶是氨基酸序列为以下或氨基酸序列包含以下的蛋白:
(i)SEQ ID NO:32(UL12-1)或SEQ ID NO:33(UL12-2)中定义的氨基酸序列,或
(ii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少80%序列同一性的氨基酸序列,或
(iii)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列具有至少90%序列相似性的氨基酸序列,或
(iv)与SEQ ID NO:32或SEQ ID NO:33中定义的氨基酸序列相比具有1至120个氨基酸取代、添加、插入和/或缺失的氨基酸序列。
28.根据权利要求27所述的试剂盒,其中所述5’-3’核酸外切酶:
在说明书中所述的体外核酸外切酶测定中,在催化效率kcat/Km或转换数方面,与T7核酸外切酶(SEQ ID NO:30)相比具有相同或更高的5’-3’核酸外切酶活性;或
在说明书所述的体外核酸外切酶测定中,在催化效率kcat/Km或转换数方面,具有至少两倍于T5核酸外切酶(SEQ ID NO:31)的5’-3’核酸外切酶活性。
29.根据权利要求27或28所述的用于编辑内源DNA的试剂盒,其中所述5’-3’核酸外切酶融合至所述位点特异性核酸内切酶的N-末端或C-末端。
30.原核或真核细胞,其包含权利要求27至29中任一项所述的试剂盒。
31.根据权利要求30所述的细胞,其中所述细胞是植物细胞。
32.非人生物体,优选植物,其包含权利要求30或31所述的细胞。
33.试剂盒,用于在真核细胞或真核生物体中在靶位点处编辑内源DNA,所述试剂盒包含:
(a)权利要求22中定义的供体核酸或包含所述供体核酸的供体构建体,和
(b)权利要求1至16中任一项所定义的蛋白,或权利要求17所定义的核酸分子,或权利要求18所述的核酸构建体、质粒或载体,或权利要求19或27至29所述的试剂盒。
34.根据权利要求33所述的试剂盒,其进一步包含:
(c)真核生物体的细胞或真核生物体。
35.根据权利要求33或34所述的试剂盒,其进一步包含:
(d)指导RNA(gRNA),其能够结合所述位点特异性核酸内切酶并且能够将所述蛋白引导至所述细胞或生物体的内源DNA上的靶位点;或编码所述指导RNA的核酸分子。
36.一种用于在靶位点处修饰真核细胞或真核生物体的内源DNA的方法,所述方法包括向所述细胞或生物体提供:
(a)如权利要求22所定义的供体核酸,和
(b)权利要求1至16中任一项所定义的蛋白,或权利要求17所定义的核酸分子,或权利要求18所述的核酸构建体、质粒或载体,或权利要求19或27至29所述的试剂盒,
其中所述修饰内源DNA包括通过同源介导修复在所述靶位点处将目标供体序列插入内源DNA中,和/或包括通过同源介导修复在所述靶位点处使所述内源DNA中的序列缺失。
37.根据权利要求36所述的方法,所述方法是在靶位点处将目标供体序列插入真核细胞或真核生物体的所述内源DNA中的方法,其中将所述供体核酸中包含的目标供体序列插入所述内源DNA中。
38.根据权利要求36或37所述的方法,进一步包括向所述细胞或生物体提供:
(c)指导RNA(gRNA)或编码所述指导RNA的核酸(指导核酸),所述gRNA能够结合所述位点特异性核酸内切酶并且能够将所述蛋白引导至所述细胞或生物体的内源DNA中的所述靶位点。
39.根据权利要求36至38中任一项所述的方法,其中所述供体序列具有至多15kbp,更优选20kbp的长度。
40.一种用于在靶位点处修饰真核细胞或真核生物体的内源DNA的方法,所述方法包括向所述细胞或生物体提供:
权利要求1至16中任一项所定义的蛋白,或权利要求17所定义的核酸分子,或权利要求18所述的核酸构建体、质粒或载体,或权利要求19或27至29所述的试剂盒,
其中所述修饰内源DNA包括以随机方式使所述靶位点上游和/或下游的所述内源DNA中的两个或更多个核苷酸的序列缺失,其中不提供供体核酸或供体序列。
41.权利要求1至16中任一项所述的蛋白或权利要求19或27至29所述的试剂盒用于在真核细胞中进行基因编辑的用途。
42.细胞或真核生物体,其通过权利要求36至40中任一项所述的方法产生。
CN202180076089.8A 2020-11-11 2021-11-10 用于编辑真核细胞的内源dna的融合蛋白 Pending CN116615226A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP20206999.3 2020-11-11
EP21197718 2021-09-20
EP21197718.6 2021-09-20
PCT/EP2021/081279 WO2022101286A1 (en) 2020-11-11 2021-11-10 Fusion protein for editing endogenous dna of a eukaryotic cell

Publications (1)

Publication Number Publication Date
CN116615226A true CN116615226A (zh) 2023-08-18

Family

ID=78077982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180076089.8A Pending CN116615226A (zh) 2020-11-11 2021-11-10 用于编辑真核细胞的内源dna的融合蛋白

Country Status (1)

Country Link
CN (1) CN116615226A (zh)

Similar Documents

Publication Publication Date Title
CN108795972B (zh) 不使用转基因标记序列分离细胞的方法
CN108368517B (zh) 用于快速植物转化的方法和组合物
AU2020264325A1 (en) Plant genome modification using guide rna/cas endonuclease systems and methods of use
Lacroix et al. The VirE3 protein of Agrobacterium mimics a host cell function required for plant genetic transformation
EP3110945B1 (en) Compositions and methods for site directed genomic modification
Tzfira et al. Site-specific integration of Agrobacterium tumefaciens T-DNA via double-stranded intermediates
EP2893024B1 (en) Fluorescence activated cell sorting (facs) enrichment to generate plants
CN105074061B (zh) 位点特异性核酸酶活性的dna检测方法
KR20180002852A (ko) 가이드 RNA/Cas 엔도뉴클레아제 시스템
KR20210152597A (ko) 키메라 게놈 조작 분자 및 방법
KR20200128129A (ko) 식물 형질전환을 위한 방법
US20130091599A1 (en) Cosmid Vector for Transforming Plant and Use Thereof
AU2016350610A1 (en) Methods and compositions of improved plant transformation
Mohammadhassan et al. Constructional and functional evaluation of two new plant expression vectors—pBI121gus-6 and pBI1215+ 1
CN113166768A (zh) 用于真核宿主中真核mRNA生产、输出和翻译的工程细菌系统和方法
KR20200004382A (ko) 전이유전자성 마커 서열을 이용하지 않는 세포 단리 방법
EP4243608A1 (en) Fusion protein for editing endogenous dna of a eukaryotic cell
CN107937358B (zh) 一种诱导植物花粉败育的相关蛋白TaPaO1及其编码基因和应用
US20240150795A1 (en) Targeted insertion via transportation
CN116615226A (zh) 用于编辑真核细胞的内源dna的融合蛋白
US5474929A (en) Selectable/reporter gene for use during genetic engineering of plants and plant cells
US11459577B2 (en) Targeted insertion sites in the maize genome
CN111500623B (zh) 一种提高农杆菌介导的植物遗传转化效率的方法
WO2024098063A2 (en) Targeted insertion via transposition
CN116635529A (zh) 双单倍体诱导物

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination