发明详述
本发明提供了用于在植物细胞、组织、器官或材料中进行定向编辑的方法,所述方法具体组合并使用平行导入策略。因此,本文提供的方法依赖于在第一基因组靶位点处平行引入表型可选择性状,其中这种表型可选择性状因此容许筛选并且不包括引入转基因标记序列或标记盒。此外,在第一个基因组靶位点引入靶向修饰以获得可选择的表型不依赖于提供外源多核苷酸模板,也不依赖于在靶位点引入双链(ds)断裂,这些步骤通常在多种基因组编辑方法必需,所述方法需要使用位点特异性核酸酶(SSN)在基因组靶位点处引入双链断裂,其经常通过提供用于同源修复(HR)的修复模板作为外源核酸物质而被修复。
因此提供了与植物育种策略特别相关的方法,其中农艺感兴趣的性状必须在感兴趣的植物中组合,这通常需要迭代并且通常需要耗费时间的选择步骤。此外,本文提供的具体方法步骤在不同的基因组靶位点平行化转基因无标记选择和导致赋予植物或植物细胞选择性或其他表型靶向编辑。这反过来能够在没有选择标记盒的情况下分离这种修饰的植物材料,而这种表型选择可以显著降低用于筛选感兴趣的第二靶向修饰的成本,第二靶向修饰通常在表型上不是可筛选的。由于同时引入两种靶向修饰,一种保证转基因无标记选择的修饰和允许将高度位点特异性和可预测的编辑引入感兴趣的基因组靶标位点的第二种修饰的协同相互作用,本发明允许精确育种策略包括显著减少用于鉴定感兴趣基因型的选择努力,这又有助于减少识别感兴趣的植物细胞或种质内的相关修饰所需的时间和成本。
在第一方面,提供了提供用于分离至少一个经修饰的植物细胞或包含所述至少一个经修饰的植物细胞的至少一个经修饰的植物组织、器官或完整植物,而没有稳定整合转基因可选择标记序列的方法实现上述目的,所述方法包括:(a)将至少一个第一靶向碱基修饰引入至少一个待修饰植物细胞的第一植物基因组靶位点中,其中所述至少一个靶向碱基修饰引起至少一种表型可选择的性状的表达;(b)将至少一个第二靶向修饰引入所述至少一个待修饰植物细胞的第二植物基因组靶位点中,其中使用至少一个位点特异性效应物在所述第二植物基因组靶位点处产生所述至少一个第二靶向修饰来引入所述至少一个第二靶向修饰,其中所述至少一个第二靶向修饰与所述至少一个第一靶向碱基修饰的引入同时地或在所述至少一个第一靶向碱基修饰的引入之后被引入至相同的至少一个待修饰植物细胞,或者被引入至其包含所述至少一个第一靶向修饰的至少一个后代细胞、组织、器官或植物,从而获得至少一个经修饰的植物细胞;和(c)分离至少一个经修饰的植物细胞、组织、器官或完整植物,或分离其至少一个后代细胞、组织、器官或植物,其通过选择(i)由在所述第一植物基因组靶位点处的所述至少一个第一靶向碱基修饰导致的至少一种表型可选择性状,并且任选地通过进一步选择(ii)所述第二植物基因组靶位点中的所述至少一个第二靶向修饰。
根据本发明的方法,不需要用作选择性标记的转基因外源序列的稳定整合。相反,在第一植物基因组靶位点产生表型可选择性状或表型。这具有提供可选择编辑的优点,其不依赖于在选择期间用作标记的外源核酸构建体的整合。
如本文所用,“表型可选择性状”是指由表达相关基因组性状后引起可见或其他可选表型的至少一种基因编码的性状。所述性状的选择可通过视觉或通过使用选择剂、化合物或触发剂施用于植物细胞、组织、器官、材料或整株植物来完成。
第一和第二植物基因组靶位点可以是相同的或不同的基因组座。优选地,第一和第二植物基因组靶位点位于不同的基因组基因座内,该基因座可以位于相同或不同的染色体上。
根据本发明的方法,进行第一和第二靶向修饰的平行引入策略,其中在第一和第二植物基因组靶标位点引入的不同靶向修饰的这种平行化显著改善了后来的筛选步骤。通常,第二种修饰将没有机会进行选择,因为它赋予的表型在产生植物的过程中将不表达或不相关。因此,本发明的方法所基于的目的是使用引起表型可选择表型的第一修饰作为实现选择的工具。与传统方法相比,本文公开的方法具有不掺入转基因标记基因的优点。与不使用具有选择剂的选择性表型相比,其具有通过消除全部或大部分未处理的细胞来提高效率的优点,否则所述细胞将占产生植物的细胞的大部分。通过消除未处理的细胞,必须生产的植物数量大大减少,并且用于第二次靶向修饰的必须进行分子筛选的植物数量大大减少,这又增加了所公开的用于植物育种的方法的效率。
优选地,根据本发明的各个方面的方法依赖于同时或随后将至少一个第一靶向碱基修饰、密码子缺失或移码或缺失修饰引入到待修饰的相同的至少一个植物细胞中,所述至少一个植物细胞也接受所述至少一个第二靶向修饰导入感兴趣的第二植物基因组靶位点。因此,第一和第二靶位点的修饰最好同时引入同一个细胞,即以同时的方式,即并行地。因此,在此意义上的后续导入是指这样的事实,即引入的包括至少一个碱基编辑复合物和/或至少一个位点特异性效应物的不同工具可能在彼此之前短暂地起作用。尽管如此,这个术语随后意味着在同一个细胞内同时并行地引入感兴趣的工具。这进而具有改善筛选可能性的效果,这是由于介导至少一种第一和第二靶向修饰的分子工具的引入过程的耦合,这些修饰彼此并不完全独立。因此具有一个修饰的待修饰的细胞更有可能也具有第二个靶向修饰。与随机选择细胞相比,特别是对于通常不具有区分处理和未处理细胞的全部群体的清晰表型的第二种修饰,本发明的方法提供了选择优势。选择因此得到显著改善,因为通常代表基因组编辑过程中的瓶颈的各种工具以功能方式递送是同步并同时完成的。由于有可能以靶向的方式选择第一修饰,因此只需进行针对第二植物基因组靶位点的至少一个靶向修饰的有限数量的筛选努力,因为没有以功能性方式接受根据本发明的任何工具或复合物的细胞根本不会接受导致第一植物基因组靶位点处表型可选择性状的修饰。由于所述植物细胞接受根据本发明并行地添加到细胞中的第二位点特异性效应复合物的机会很低,如果第一靶向修饰的筛选是阴性的,对于第二靶向修饰将不必进行耗时的筛选。
根据本发明的方法因此使得可以通过适合的试剂或通过视觉筛选选择用第一靶向修饰靶向的表型可选择性状而选择接受或不接受至少一种第一修饰的细胞。因此,该筛选消除了不包含至少一种第一修饰的细胞,或者筛选允许目视检查并将细胞分离已接受或未接受第一靶向修饰的修饰细胞。由于根据本发明的并行引入和递送方法,在已经成功接收第一靶向修饰的细胞中,也可以预期合理的数目也具有至少一个第二靶向修饰。在这种情况下,“合理的”意味着通过选择至少一种由至少一种第一靶向修饰引起的可表型选择性状而针对至少一种第二靶向修饰的存在而筛选的细胞数量的任何改善(即,减少)。至少一个第二靶向修饰存在的实际频率通常很难预测,因为它会根据若干因素而变化。这使得使用普通分子技术(例如依赖于PCR)筛选通过基因组工程引入的任何修饰十分繁琐。根据本发明的方法,已经接受第一和第二靶向修饰二者的细胞的频率可以是具有第一修饰的植物细胞或植物与具有第一和第二修饰的植物细胞或植物相比的比例在2:1和1,000:1之间的范围内。因此,在任何筛选或选择步骤中都有固有的优点,因为第二次修饰必须筛选的细胞总数将会减少。特别地,其中用于引入第一和第二靶向修饰的工具的递送失败的那些细胞可能不会接收到任何分子工具,因此第一和第二靶向修饰都不存在。因此,第一表型可选择性状将不明显,即可选择。在选择压力下或在视觉选择之后,相应的植物细胞、组织、器官或整个植物对于表型可选择性状为“阴性”将不必经受随后的第二靶向修饰的筛选,因为第二修饰在第一修饰不存在的情况下,由于各工具的并行引入而被引入的可能较低。
如果需要,通过与衍生植物杂交将第一修饰与第二修饰遗传分离。
因此,本文公开的方法因此可以用于通过消除或去除没有接受编辑试剂的细胞或如针对至少一种第一靶向修饰所筛选的没有经过靶向修饰的细胞来增加具有在第二感兴趣的基因处的靶向修饰的植物的回收。
根据本发明的各种实施方案的靶向碱基修饰是指基因组编辑,其能够以可编程的方式将一个靶DNA碱基直接,不可逆地转化为另一个,而不需要dsDNA骨架切割或供体模板(参见图1)。Komor等,Nature,第533卷,2016)。
在一实施方案中,根据本发明第一方面的方法在步骤(b)中另外包含引入修复模板以在至少第二植物基因组靶位点进行靶向序列转换或置换。修复模板(RT)代表单链或双链核酸序列,其可在导致双链或单链DNA断裂的任意基因组编辑期间提供,从而通过提供RT作为帮助同源性定向修复的已知序列的模板。根据本发明的至少一个修复模板核酸序列的大小可以变化。它可以在约20bp至约5,000bp或甚至8,000bp的范围内,取决于以定点方式修饰的DNA靶序列。RT可以作为单独的物理实体提供,或者作为根据本发明的复合物的一部分提供。使用RT可能有利于某些应用,以避免由于细胞NHEJ修复机制造成的不希望的插入或缺失。
在根据本发明的各个方面的一实施方案中,本文提供的方法包括进一步的步骤(d)将包含所述至少一个第一和至少一个第二靶向修饰的至少一个经修饰的植物或植物材料与感兴趣的另外的植物或植物材料杂交以分离所产生的后代植物或植物材料以获得感兴趣的基因型,任选地其中感兴趣的基因型不包含所述至少一个第一靶向修饰。
感兴趣的另外的植物或植物材料可以是包含感兴趣的基因组材料的任何植物材料,其中包含例如良种事件或任何感兴趣的性状的该材料例如用于随后的育种以产生基因型以及因此产生感兴趣的植物。感兴趣的基因型因此是结合来自不同感兴趣植物的性状的前述育种步骤的结果。
在根据本发明的所有方面的一实施方案中,感兴趣的最终基因型不包含所述至少一个第一靶向修饰,即至少一种表型可选择性状。如图1所示,本发明的方法特别适用于通过将衍生的植物杂交并将其与第二靶向修饰遗传分离而去除导致表型可选择性状的第一靶向修饰(参见图1C),如果某些应用需要。在另一实施方案中,编码感兴趣的表型可选择性状的第一靶向修饰可以保持在感兴趣的基因型中,如果表型可选择性状本身对于所得感兴趣基因型和相应植物或植物材料具有价值。
在根据本发明第一方面的一实施方案中,其中所述至少一个位点特异性效应物与至少一个碱基编辑复合物暂时或永久连接,其中所述碱基编辑复合物介导至少一个第一靶向碱基修饰步骤(a)。因此,至少一个位点特异性效应物可以非共价(暂时)或共价(永久)附着于至少一个碱基编辑复合物。至少一个碱基编辑复合物的任何组件可以临时或永久链接到至少一个位点特异性效应物。术语“暂时”和“永久”因此应被广义地解释并且包含共价和/或非共价键或附接以实现至少一个位点特异性效应物和至少一个碱基编辑复合物的物理接近。至少一个碱基编辑复合物的至少一个组分与至少一个位点特异性效应物或者任何其它组分(例如与该至少一个位点特异性效应物相关的gRNA或RT)的连接在至少一个第一和至少一个第二基因组靶位点在感兴趣的基因组内很接近的情况下可能是感兴趣的。
在根据本发明的各个方面的一实施方案中,所述至少一种位点特异性效应物选自以下中的至少一种:核酸酶,包含CRISPR核酸酶,包括Cas或Cpf1核酸酶,TALEN,ZFN,大范围核酸酶,Argonaute核酸酶,限制性内切核酸酶,包括FokI或其变体,重组酶或两个位点特异性切口内切核酸酶,或碱基编辑器,或前述效应物的任何变体或催化活性片段。
因此,本文使用的“位点特异性效应物”可以定义为具有将单链或双链切割引入基因组靶位点或具有以下能力的任何核酸酶、切口酶、重组酶或碱基编辑器:将包含点突变、插入或缺失的靶向修饰引入感兴趣的基因组靶位点。至少一个“位点特异性效应物”可以单独作用或与其他分子组合作为分子复合物的一部分。“位点特异性效应物”可以作为融合分子存在,或者作为通过共价或非共价相互作用中的至少一种相关联的单独的分子存在,从而使位点特异性效应复合物的组分物理接近。
如本文所用的“碱基编辑器”是指蛋白质或其具有与其衍生的蛋白质相同的催化活性的片段,所述蛋白质或其片段单独地或当作为分子复合物提供时被称为本文中的碱基编辑复合物,具有介导靶向碱基修饰的能力,即,如果碱基转换不引起沉默突变而是导致由包含待转换的位置的密码子编码的氨基酸转换,则感兴趣的碱基的转换导致感兴趣的点突变,继而可导致靶向突变。优选地,根据本发明的至少一个碱基编辑器暂时或永久地连接至少一个位点特异性效应物,或任选地连接至少一个位点特异性效应物复合物的组分。连接可以是共价和/或非共价的。
本文公开的任何碱基编辑器或位点特异性效应物或其催化活性片段,或碱基编辑复合物或位点特异性效应复合物的任何组分可作为核酸片段引入细胞中,核酸表示或编码DNA、RNA或蛋白质效应物的片段,或其可作为DNA、RNA和/或蛋白质或其任何组合引入。
消除使用内切酶、DSB和修复模板制备可选择修饰的关键工具集是使用碱基编辑器或定向诱变结构域。多个出版物已经显示了靶向碱基转换,主要胞嘧啶(C)至胸腺嘧啶(T),其使用与胞苷脱氨酶结构域(载脂蛋白B mRNA编辑催化多肽(APOBEC1),例如,来源于大鼠的APOBEC)连接的CRISPR/Cas9切口酶或非功能性核酸酶。由胞苷脱氨酶催化胞嘧啶(C)的脱氨基并产生尿嘧啶(U),其具有胸腺嘧啶(T)的碱基配对性质。大多数已知的胞苷脱氨酶对RNA起作用,并且已知接受DNA的少数例子需要单链(ss)DNA。对dCas9-靶DNA复合物的研究表明,在形成Cas9-向导RNA-DNA'R-环'复合物时,置换的DNA链的至少9个核苷酸(nt)是未配对的(Jore等,Nat.Struct.Mol.Biol.,18,529-536(2011))。实际上,在Cas9R-环复合物的结构中,位于被置换的DNA链上的前间隔区的前11nt是无序的,这表明它们的移动不是高度受限的。还有人推测,Cas9切口酶诱导的非模板链胞嘧啶的突变可能是由细胞胞嘧啶脱氨酶的可及性引起的。推断R环中这段ssDNA的一个子集可以作为dCas9-连接的胞苷脱氨酶的有效底物,以实现DNA中C到U的直接可编程转换(Komor等,同上)。
因此,根据本发明的任何碱基编辑复合物可以包含至少一个胞苷脱氨酶或其催化活性片段。所述至少一个碱基编辑复合物可以包含胞苷脱氨酶或其催化活性片段形式的结构域作为碱基编辑器。
在另一实施方案中,所述至少一个第一靶向碱基修饰是任何核苷酸C、A、T或G至任何其他核苷酸的转化。C、A、T或G核苷酸中的任何一个可以以定点方式被交换为另一个核苷酸,如由碱基编辑器或其催化活性片段介导的。所述至少一个碱基编辑复合物因此可以包含任何碱基编辑器,或碱基编辑器结构域或其催化活性片段,其可以以靶向方式将感兴趣的核苷酸转化成任何其它感兴趣的核苷酸。
本发明提供了结合碱基编辑工具本身的知识的方法,并且将该技术用于实现感兴趣的表型可选择表型以避免需要转基因标记的组合方法中,因为碱基编辑可以人工创建内源标记,具有可选择的表型输出。为此,碱基编辑器与修饰的位点特异性效应物结合,其保留识别和结合基因组靶区域的能力,任选地由基于CRISPR的核酸酶的gRNA向导,介导C向U的转化,或G到A,以引入定点诱变。反过来,可以实现导致感兴趣表型的靶向突变。这为靶向育种策略铺平了道路,特别是因为本文公开的方法另外组合使用至少一种碱基编辑器或碱基编辑复合物以将靶向碱基修饰引入至少一个植物细胞的第一植物基因组靶位点,所述植物细胞平行地要由至少一种位点特异性效应物介导的第二修饰进行修饰。该方法允许以协同方式无标记地选择和筛选感兴趣的修饰或基因型,而不需要针对根据本发明的各个方面的至少一个第一修饰(即,靶向碱基修饰、靶向密码子缺失或靶向移码或缺失修饰)引入DSB或RT。
尿嘧啶DNA糖基化酶(UGI)结构域的添加进一步提高了碱基编辑效率。核定位信号(NLS)或任何其他细胞器靶向信号可以进一步需要以确保复合物的正确靶向。
在根据本发明所有方面的一实施方案中,所述至少一种位点特异性效应物是基于CRISPR的核酸酶,其中所述基于CRISPR的核酸酶包含指导所述至少一种碱基编辑复合物的位点特异性DNA结合结构域,其中所述至少一种基于CRISPR的核酸酶或编码其的核酸序列选自:(a)Cas9,包括SpCas9,SaCas9,SaKKH-Cas9,VQR-Cas9,St1Cas9,(b)Cpf1,包括AsCpf1,LbCpf1,FnCpf1,(c)CasX或(d)CasY或前述基于CRISPR的核酸酶的任何变体或衍生物,优选其中所述至少一种基于CRISPR的核酸酶与相应野生型相比包含突变型序列,从而使得到的基于CRISPR的核酸酶转变为单链特异性DNA切口酶,或转变为缺乏全部DNA切割能力的DNA结合效应物。
如本文所用,“基于CRISPR的核酸酶”是已经在天然存在的CRISPR系统中鉴定的任何核酸酶,其随后从其天然背景中分离,并且其优选已被修饰或组合成感兴趣的重组构建体,适合作为靶向基因组工程的工具。只要最初的基于野生型CRISPR的核酸酶提供DNA识别,即结合特性,任何基于CRISPR的核酸酶都可以使用并任选重新编程或另外突变以适合本发明的各种实施方案。所述DNA识别可以是PAM依赖性的。具有优化和工程化PAM识别模式的CRISPR核酸酶可用于特定应用。PAM识别编码的扩展可以适合于将位点特异性效应复合物靶向感兴趣的靶位点,而与野生型CRISPR基核酸酶的原始PAM特异性无关。Cpf1变体可以包含S542R,K548V,N552R或K607R突变中的至少一种,优选来自酸性氨基酸球菌的AsCpf1中的突变S542R/K607R或S542R/K548V/N552R(参见SEQ ID NO:24)。此外,根据本发明的方法,可以使用修饰的Cas变体,例如Cas9变体作为碱基编辑复合物的一部分,例如,BE3,VQR-BE3,EQR-BE3,VRER-BE3,SaBE3,SaKKH-BE3(参见Kim等,Nat.Biotech.,2017,doi:10.1038/nbt.3803)。因此,根据本发明,设想人工修饰的CRISPR核酸酶,其实际上可能不是在双链切割酶意义上的任何“核酸酶”,而是切口酶或核酸酶死亡变体,其仍具有固有的DNA识别以及结合能力。适用于本发明目的的示例性基于Cas或Cpf1的构建体公开于SEQ ID NO:17至19中。AsCpf1野生型序列公开于SEQ ID NO:24中。用于本发明方法中的其它合适的基于Cpf1的效应物来源于滑麻科细菌(LbCpf1,例如NCBI参考序列:WP_051666128.1),或来自土拉弗朗西斯菌(FnCpf1,例如UniProtKB/Swiss-Prot:A0Q7Q20.1)。Cpf1的变体是已知的(参见Gao等人,BioRxiv,dx.doi.org/10.1101/091611)。因此,可分别切割具有TYCV/CCCC和TATVPAM的靶位点并具有增强的体外和体内活性的具有突变S542R/K607R和S542R/K548V/N552R的AsCpf1突变体设想为本发明的位点特异性效应物。脱靶活性的全基因组范围评估表明这些变体保留了高水平的DNA靶向特异性,这可以通过在非PAM相互作用域中引入突变而进一步改善。总之,这些变体将AsCpf1的靶向范围增加到人类基因组的非重复区域中的每~8.7bp一个切割位点,为CRISPR/Cas基因组工程工具箱提供有用的添加(参见Gao等人,同上)。
在根据本发明的第一方面的一个实施方案中,所述至少一个第一靶向碱基修饰由包括至少一个碱基编辑器作为组件的至少一个碱基编辑复合物进行。根据本发明的碱基编辑复合物包括碱基编辑器以及其他可选组件。
在一实施方案中,碱基编辑复合物含有APOBEC1组分,优选大鼠APOBEC1。在另一实施方案中,碱基编辑复合物可以包含任何胞苷/胞嘧啶脱氨酶作为碱基编辑器,例如人AID,例如UniProtKB/Swiss-Prot:Q9GZX7.1,人APOBEC3G,例如GenBank:CAK54752.1,或七鳃鳗CDA1,例如GenBank:ABO15150.1,但是任何酶或其催化活性片段均被设想在本发明的范围内。适用于本发明方法的示例性APOBEC组分由SEQ ID NO:20表示。此外,根据本发明的方法,可以使用经修改的碱基编辑器,优选具有窄编辑宽度低于6nt,低于5nt,低于4nt,低于3nt或甚至2nt或1nt的碱基编辑器。编辑窗口越窄,可以在感兴趣的基因组目标位置引入编辑越精确。
在一实施方案中,碱基编辑复合物含有UGI(尿嘧啶DNA糖基化酶抑制剂)组分。在某些实施方案中,可以使用源自枯草芽孢杆菌的UGI或抑制UDG活性的任何其他结构域来抑制在某些细胞中具有活性的内源性碱基切除修复(BER)的活性。适用于本发明方法的示例性UGI组分由SEQ ID NO:21表示。
在又一实施方案中,碱基编辑复合物包含XTEN组分,即特定接头,以提供与至少一个位点特异性效应物连接的至少一个碱基编辑物的最佳脱氨基活性。可以使用在碱基编辑器和位点特异性效应物之间具有至少2个核苷酸(nt)长度的其他接头,其不影响由位点特异性效应物赋予的结合活性和/或碱基编辑器的碱基编辑活性。合适的XTEN接头序列由SEQID NO:1(688至735位),SEQ ID NO:2(706至753位),SEQ ID NO:14(706至753位)或SEQ IDNO:15(位置706至753)提供。本领域技术人员已知多种其他接头以及接头设计的文献。因此,根据本发明的各种方法,可以使用刚性以及柔性接头。
根据本发明的示例性融合构建体示于SEQ ID NO:1、2、14、15或16。
在一个实施方案中,所述至少一个碱基编辑复合物包括多于一个的组件,并且其中所述至少两个组件是物理链接的。物理连接可以包含共价键,例如通过将DNA片段彼此融合以在表达后形成融合蛋白,或通过将根据本公开内容的复合物的不同组分彼此化学交联。物理连接可以另外包含非共价相互作用。非共价相互作用或附着因此包括静电相互作用、范德华力、TT效应和疏水效应。在核酸分子背景下特别重要的是氢键作为静电相互作用。氢键(H-键)是特定类型的偶极-偶极相互作用,其涉及部分正氢原子与未与所述氢原子共价结合的高度负电、部分负的氧、氮、硫或氟原子之间的相互作用。
在另一实施方案中,碱基编辑复合物含有来自海萤光素的PmCDA1(活化诱导的胞嘧啶脱氨酶(AID)直系同源物PmCDA1,参见Nishida等(Science 2016,vol.353,issue6305,aaf8729))组分作为碱基编辑器。根据本发明的方法使用的示例性PmCDA1提供于SEQ IDNO:22。
基于CRISPR的核酸酶通过识别存在于待修饰的感兴趣的基因组目标区域内的前间隔区相邻基序(PAM)而起作用。为了进一步增加使用修饰的基于CRISPR的核酸酶的碱基编辑的范围和精确度,引入不同的PAM特异性以扩大可靶向的位点的数目因此是非常感兴趣的(Kim等,Nat.Biotech.,2017,doi:10.1038/nbt.3808)。如技术人员已知的,野生型CRISPR核酸酶具有核酸酶与核酸酶之间不同的内在PAM特异性。根据本发明,设想了基于CRISPR的核酸酶,其具有改变的PAM特异性和因此修饰的靶向范围,例如接受NGA(VQR-Cas9)、NGAG(EQR-Cas9)或NGCG的SpCas9突变体(VRER-Cas9)PAM序列以及包含将变体的PAM要求放松到NNNRRT的三个突变(SaKKH-Cas9)的工程化SaCas9变体(Kleinstiver等,Nat.Biotechnol.33,1293-1298(2015))。适合于不同的基于CRISPR的核酸酶的根据本发明的示例性PAM序列由SEQ ID NO:3-13和23表示。
在一个实施方案中,所述至少一个碱基编辑复合物包括多于一个的组件,其中所述至少两个组件作为单独的组件提供。这种方法可适用于某些转化或转染策略。
在根据本发明的方法的某些实施方案中,根据本发明的任何复合物的至少一种组分可以包含可与感兴趣的细胞内的同源结合配偶体特异性相互作用或缔合的部分,使得复合物将在细胞内形成,或者该复合物可以在转化或转染之前体外形成。结合对可通过对接结构域或结合结构域或编码其的核酸序列缔合,选自生物素、适体、DNA、RNA或蛋白质染料(所述染料包含荧光素,或包含荧光素,或它们的变体)、马来酰亚胺或四唑盐(XTT)、特异性配置为与至少一种修复模板核酸序列相互作用的向导核酸序列、链霉抗生物素蛋白或其变体(优选单体抗生物素蛋白,抗生物素蛋白或其变体)、亲和标签(优选抗生蛋白链菌素标签)、抗体、单链可变片段(scFv)、对特定抗体或scFv特异的抗原、单域抗体(纳米抗体)、anticalin、农杆菌VirD2蛋白或其结构域、Picornavirus VPg、拓扑异构酶或其结构域、PhiX174噬菌体A蛋白、PhiX A*蛋白、VirE2蛋白或其结构域或地高辛配基。其他合适的结合对是技术人员已知的。最优选地,同源结合配偶体在生理条件下彼此具有高亲和常数或结合亲和力并因此具有低解离常数(Kd),即在低μM或优选nM范围内的Kd值,并且优选低于以辅助根据本发明的至少一种碱基编辑复合物或至少一种位点特异性效应复合物的复合物形成。
在根据本发明的方法的所有方面的一实施方案中,所述至少一个碱基编辑复合物的至少一个组分和/或所述至少一个位点特异性效应物复合物的至少一种组分包含至少一个细胞器定位信号以将至少一个碱基编辑复合物靶向亚细胞器。在一个实施方案中,至少一个细胞器定位信号是核定位信号(NLS)。在另一实施方案中,所述至少一个细胞器定位信号是叶绿体转运肽。在又一实施方案中,所述至少一个细胞器定位信号是线粒体转运肽。可以存在一个或多个定位信号,其与碱基编辑的至少一个组件或位点特异性效应物复合物相关联。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是编码至少一种表型可选择性状的基因组靶位点,其中所述至少一种表型可选择性状是抗性/耐受性状或生长优势性状,并且其中所述至少一个植物细胞的第一植物基因组靶位点处的所述至少一个第一靶向碱基修饰赋予针对待添加到该至少一种修饰的植物细胞、组织或植物或其后代的化合物或触发剂的抗性/耐受性或生长优势。
本文所用的“生长优势”是指在植物发育和繁殖的所有阶段期间的任何生理或代谢上有利的性质,例如有利于对生物和非生物胁迫的抗性,或例如,在诸如干旱、盐度等胁迫条件下影响植物生长和发育。
因此,根据本发明的“化合物”或“触发剂”可以是除草剂,例如选自细胞代谢抑制剂,例如:EPSPS抑制(甘氨酸,例如草甘膦);ALS/AHAS(支链氨基酸生产)抑制(例如咪唑啉,磺酰脲);脂质合成抑制/ACCase(芳氧基苯氧基丙酸酯(FOPs),环己二酮(DIMs),苯基吡唑啉(DENs);谷氨酰胺合成酶抑制剂(草铵膦/膦丝菌素),生长/细胞分裂抑制剂,例如植物细胞生长干扰剂(苯氧基羧酸,如,2,4-D),合成植物生长素(苯甲酸例如麦草畏),生长素运输抑制(phtalamates);以及干扰光过程,例如:HPPDs(吡唑和异恶唑)的漂白剂/抑制剂;光系统II(PS II)抑制剂)(三嗪,三嗪酮,哒嗪酮,C3:碘苯腈和溴苯腈等);原卟啉原氧化酶(PPO/PPX)抑制剂(例如二苯基醚和N-苯基二甲酰亚胺)。
此外,根据本发明的“化合物”或“触发剂”可以是植物生长因子或植物内源产生的或外源施用的影响植物代谢的任何其他物质。
对于本文公开的方法的所有实施方案,所述化合物或触发剂可以外源施用以允许选择感兴趣的性状,所述表型可选择性状由根据本发明所有方面的各种方法以靶向方式修饰的至少一个植物细胞、组织、器官、材料或整株植物编码。因此,以表型可选择性状的修饰形式提供特定的相互作用对以及在随后的选择和杂交步骤期间提供相应的化合物或触发剂可以改善任何育种工作。
在根据本发明的各个方面的一实施方案中,所述至少一种表型可选的感兴趣性状是至少一个内源基因或由至少一个内源基因编码,或其中所述至少一种感兴趣的表型性状至少是或由至少一个转基因编码,其中所述至少一个内源基因或所述至少一个转基因编码选自对抑制、破坏或杀死缺乏在所述至少一种感兴趣的表型性状上的至少一种修饰的细胞的植物毒素优选除草剂的抗性/耐受性,或其中所述至少一种表型性状选自细胞分裂、生长速率、胚胎发生的增强剂,或另一种表型可选择的性质,所述性质为修饰的细胞、组织、器官或植物提供与未修饰的细胞、组织、器官或植物相比的优势。
在根据本发明各个方面的另一实施方案中,所述至少一个第一植物基因组靶位点是编码至少一种表型可选择性状的至少一个内源基因或转基因,所述表型可选择性状选自除草剂抗性/耐受性,其中除草剂抗性/耐受性选自包括对EPSPS抑制剂(包括草甘膦)的抗性/耐受性;对谷氨酰胺合成抑制剂包括草铵膦的抗性/耐受性;对ALS-或AHAS-抑制剂(包括咪唑啉或磺酰脲)的抗性/耐受性;对ACCase抑制剂(包括芳氧基苯氧基丙酸(FOP))的抗性/耐受性;对类胡萝卜素生物合成抑制剂的抗性/耐受性,包括八氢番茄红素去饱和酶步骤的类胡萝卜素生物合成抑制剂、4-羟基苯基丙酮酸双加氧酶(HPPD)抑制剂或其他类胡萝卜素生物合成靶抑制剂;对纤维素抑制剂的抗性/耐受性;对脂质合成抑制剂的抗性/耐受性;对长链脂肪酸抑制剂的抗性/耐受性;对微管组装抑制剂的抗性/耐受性;对光系统I电子分流剂的抗性/耐受性;对光系统II抑制剂(包括氨基甲酸酯、三嗪类和三嗪酮类)的抗性/耐受性;对PPO-抑制剂的抗性/耐受性和对合成生长素(包括麦草畏(2,4-D,即2,4-二氯苯氧乙酸))的抗性/耐受性。
在根据本发明各个方面的另一实施方案中,所述至少一个内源基因或所述至少一个转基因编码至少一种表型性状,所述表型性状选自:对生物胁迫的抗性/耐受性,包括病原体抗性/耐受性,其中病原体选自病毒,细菌,真菌或动物病原体;对非生物胁迫的抗性/耐受性,包括耐寒性/耐受性,干旱胁迫抗性/耐受性,渗透抗性/耐受性,抗热胁迫抗性/耐受性,抗冷性/耐受性,抗氧化胁迫抗性/耐受性,重金属胁迫抗性/耐受性,盐胁迫或洪涝抗性/耐受性,倒伏抗性/耐受性,碎裂抗性/耐受性;或其中感兴趣的至少一种表型性状是选自感兴趣的另外农学性状的改变,包括产量增加、开花时间修饰、种子颜色修饰、胚乳组合物修饰、营养含量修饰或感兴趣途径的代谢工程改造。
在根据本发明的各个方面的一实施方案中,所述至少一种表型可选择性状是植物毒性抗性/耐受性状,优选除草剂抗性/耐受性状,并且其中待修饰的至少一个植物细胞的第一基因组靶位点中的至少一个第一靶向碱基修饰赋予对植物毒性化合物,优选除草剂的抗性/耐受性,所述化合物是待加入至少一个修饰的植物细胞、组织、器官或整体或其后代中的外源性化合物。
根据本发明的各个方面,由感兴趣的植物细胞的基因组编码的任何其他表型可选择性状可以作为至少一个第一靶向修饰的靶,条件是至少一个基因已知编码感兴趣的表型可选择性状,并相应的和互补的化合物或触发器可用或可以设计为用于筛选所述靶向修饰。对于可见的表型,筛选不需要化合物或触发剂,相反,必须已有基于观察到的视觉可筛选性状的适当读出和确定策略。
在根据各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是赋予对除草剂或植物毒性化合物的抗性或耐受性的基因,其中所述第一植物基因组靶位点包含导致至少一个相应的氨基酸转换的至少一个核酸转换,其中所述至少一个核酸转换通过至少一个碱基编辑器进行。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是ALS。任何ALS序列都适用于本发明的目的。示例性的ALS序列由SEQ ID NO:25表示。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是PPO。任何PPO序列都适用于本发明的目的。示例性的PPO序列由SEQ ID NO:26表示。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是EPSPS。任何EPSPS序列都适用于本发明的目的。示例性的EPSPS序列由SEQ IDNO:27表示。
在根据本发明各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是EPSPS、ALS或PPO或其任何等位基因或植物变体,并且其中EPSPS、ALS或PPO包含导致至少一个相应氨基酸转换的至少一个核酸转换,其中所述至少一个核酸转换通过至少一个碱基编辑器进行。
编码根据本发明的表型可选择性状的一个此类靶是5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)基因。已经显示几个单和双氨基酸取代降低了该酶的草甘膦敏感性(Sammons,R.D.和Gaines,T.A.(2014),Glyphosate resistance:state ofknowledge.Pest.Manag.Sci.,70:1367-1377)。
另一个靶是乙酰乳酸合酶(ALS)基因,其中多种单氨基酸突变已经与对三唑并嘧啶类、磺酰脲类、嘧啶基硫代苯甲酸类、咪唑啉酮类和磺酰氨基羰基三唑啉酮类的一种或多种除草剂的耐受性相关联。用于本发明目的的合适的残基取代包括A122、P197、A205、D376、W574和S653)。
另一种可选择的修饰将在玉蜀黍和拟南芥的原卟啉原氧化酶(PPO)基因中。在此,将215位半胱氨酸修饰成苯丙氨酸(A215F)、亮氨酸(A215L)或赖氨酸(A215K),以及将220位丙氨酸修饰成缬氨酸(A220V)、苏氨酸(A220T)或亮氨酸(A220L),以及221位甘氨酸至丝氨酸(A221S)或亮氨酸(A221L)涉及对PPO除草剂如二苯醚、N-苯基邻苯二甲酰亚胺、恶二唑、恶唑烷二酮、苯基吡唑、嘧啶二酮、噻二唑、三唑啉酮以及其他的抗性(Li,Xianggan等人“Development of Protoporphyrinogen Oxidase as a Efficient Selection Markerfor Agrobacterium tumefaciens-Mediated Transformation of Maize.PlantPhysiology 133.2(2003):736-747.PMC.Web.15Mar.2017)。除了上述残基取代之外,烟草或其同系物中178位甘氨酸的单个氨基酸缺失阻碍了PPO抑制剂的结合,并对上述抑制剂提供了抗性(Patzoldt,W.L.et al.(2006)."A codon deletion confers resistance toherbicides inhibiting protoporphyrinogen oxidase"PNAS 103(33):12329-12334),并且可以根据本发明的各个方面使用。
此外,本申请中提出的技术允许精确的氨基酸修饰和缺失以及引入终止密码子以改变或中断产生可选择表型的基因序列。在编码氨基酸的61个密码子中,通过任一链上的至少一个胞嘧啶/胞苷到胸腺嘧啶/胸苷的转换,五种氨基酸可以转化成终止密码子。
进行这些修饰的工具是CRISPR核酸酶。显示提供单个或多个碱基对缺失的CRISPR核酸酶包括Cas9、Cpf1、CasX和CasY。虽然这些是目前最方便的选择,但定点核酸酶的未来发展很容易适应本申请中描述的方法。
在根据本发明的各个方面的一实施方案中,至少一个植物细胞的第一植物基因组靶位点是ALS,并且靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码A122的序列处,或靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码P197的序列处,或靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码A205的序列处,或靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码D376的序列处,或靶向修饰与根据SEQID NO:25的ALS参考序列相比发生在编码R377的序列处,或靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码W574的序列处,或靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码S653的序列处,或靶向修饰与根据SEQ ID NO:25的ALS参考序列相比发生在编码G654的序列处,或上述突变的任何组合。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是PPO,并且靶向修饰与根据SEQ ID NO:26的PPO参照序列相比,发生在编码C215、A220、G221、N425或Y426的序列处,或上述突变的任何组合。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是来自长芒苋(Amaranthus tuberculatus)的PPX2L基因产物以用于选择。在根据本发明的各个方面的一实施方案中,包含靶向碱基修饰、靶向密码子缺失或靶向移码或缺失修饰的第一靶向修饰发生在与根据SEQ ID NO:28的来自长芒苋PPX2L基因产物的G210残基相当的位置。
在根据本发明的各个方面的一实施方案中,所述至少一个植物细胞的第一植物基因组靶位点是EPSPS,并且至少一种靶向修饰与根据SEQ ID NO:27的EPSPS参考序列相比较,发生在编码G101、T102、P106、G144或A192的序列处,或上述突变的任何组合。在某些优选实施方案中,靶向修饰与根据SEQ ID NO:27的EPSPS参考序列相比较,发生在编码G101和G144的序列处,或者靶向修饰与根据SEQ ID NO:27的EPSPS参考序列相比较,发生在编码G101和A192的序列处,或靶向修饰与根据SEQ ID NO:27的EPSPS参考序列相比较,发生在编码T102和P106的序列处。
基于本文提供的公开内容,本领域普通技术人员还可以定义其他合适的植物毒性抗性/耐受性状和相应的突变,以产生至少一种根据本发明的表型可选择性状。
在根据本发明的各个方面的某些实施方案中,所述至少一种表型可选择性状是可用于鉴定或分离至少一个修饰的植物细胞、组织、器官或整株植物的可见表型。“可见”表型是可通过肉眼观察或显微镜观察来检测的任何表型,从而不需要通过分子生物学进行筛选。
在根据本发明的各个方面的一实施方案中,所述至少一种表型可选择性状是光泽表型、金色表型、色素沉着表型或生长优势表型。技术人员已知几种其他可见的表型。由于其遗传背景的原因,所述可见表型将根据感兴趣的植物或植物细胞而变化。
根据本发明的第二方面,提供了用于分离至少一个经修饰的植物细胞或包含所述至少一个经修饰的植物细胞的至少一个经修饰的植物组织、器官或完整植物而不稳定整合转基因可选择标记序列的方法,所述方法包括:(a)使用至少一个第一位点特异性效应物将至少一个第一靶向密码子缺失修饰引入至少一个待修饰植物细胞的第一植物基因组靶位点,所述至少一个第一位点特异性效应物包含核酸酶、重组酶或DNA修饰试剂,其中所述至少一个靶向密码子缺失修饰引起至少一种表型可选择性状的表达;(b)将至少一个第二靶向修饰引入至少一个待修饰植物细胞的第二植物基因组靶位点,其中使用至少一个第二位点特异性效应物引入所述至少一个第二靶向修饰以在所述第二植物基因组靶位点处产生至少一个第二靶向修饰,其中所述至少一个第二靶向修饰与所述至少一个第一靶向碱基修饰的引入同时地或在所述至少一个第一靶向碱基修饰的引入之后被引入至相同的至少一个待修饰植物细胞,或者被引入至其包含所述至少一个第一靶向修饰的至少一个后代细胞、组织、器官或植物,从而获得至少一个经修饰的植物细胞;和(c)分离至少一个经修饰的植物细胞、组织、器官或完整植物,或者分离其至少一个后代细胞、组织、器官或植物,通过选择(i)在所述第一植物基因组靶位点处的至少一个第一靶向密码子缺失修饰造成的至少一种表型可选择性状,以及任选地通过进一步选择(ii)所述第二植物基因组靶位点中的至少一个第二靶向修饰,(d)任选地:将包含所述至少一个第一和所述至少一个第二靶向修饰的至少一个经修饰的植物或植物材料与另外的感兴趣的植物或植物材料杂交以使所获得的后代植物或植物材料分离以产生感兴趣的基因型,任选地其中所述感兴趣的基因型不包含所述至少一个第一靶向修饰。
在根据本发明的另一方面,提供了用于分离至少一个经修饰的植物细胞或包含所述至少一个经修饰的植物细胞的至少一个经修饰的组织、器官或完整植物而不稳定整合转基因可选择标记序列的方法,所述方法包括:(a)使用至少一个第一位点特异性效应物将至少一个第一靶向移码或缺失修饰引入至少一个待修饰植物细胞的第一植物基因组靶位点,所述至少一个第一位点特异性效应物包含核酸酶、重组酶或DNA修饰试剂,其中所述至少一个靶向移码或缺失修饰引起至少一种表型可选择性状的表达;(b)将至少一个第二靶向修饰引入至少一个待修饰植物细胞的第二植物基因组靶位点,其中使用至少一个第二位点特异性效应物引入所述至少一个第二靶向修饰以在所述第二植物基因组靶位点处产生至少一个第二靶向修饰,其中所述至少一个第二靶向修饰与所述至少一个第一靶向碱基修饰的引入同时地或在所述至少一个第一靶向碱基修饰的引入之后被引入至相同的至少一个待修饰植物细胞,或者被引入至其包含所述至少一个第一靶向修饰的至少一个后代细胞、组织、器官或植物,从而获得至少一个经修饰的植物细胞;和(c)分离至少一个经修饰的植物细胞、组织、器官或完整植物,或者分离其至少一个后代细胞、组织、器官或植物,通过选择(i)在所述第一植物基因组靶位点处的至少一个第一靶向移码或缺失修饰造成的至少一种表型可选择性状,以及任选地通过进一步选择(ii)所述第二植物基因组靶位点中的至少一个第二靶向修饰,(d)任选地:将包含所述至少一个第一和所述至少一个第二靶向修饰的至少一个经修饰的植物或植物材料与另外的感兴趣的植物或植物材料杂交以使所获得的后代植物或植物材料分离以产生感兴趣的基因型,任选地其中所述感兴趣的基因型不包含所述至少一个第一靶向修饰。
如上所述,根据本发明的方法提供了组合两种不同分子复合物的新方法,一种复合物被配置成引入至少一个第一靶向修饰,导致可选择的表型而不插入转基因标记,并且另一种复合物被配置以引入至少一个第二靶向修饰,其中第一修饰用于筛选目的,而第二修饰代表待引入的基因组编辑。因此,本发明的方法在不同的基因组靶位点处协同地组合基因组编辑策略以实现不同的靶向修饰,最终导致有效的育种过程以实现具有感兴趣的基因型的植物。
在某些实施例中,本发明的方法步骤b还包括引入修复模板(RT)以在所述至少一个第一和/或第二植物基因组靶位点上进行靶向序列转换或置换。该RT为基因组编辑方法增加了另一水平的精确度,因为根据本发明提供(单独提供或作为至少一种复合物的一部分提供)的合适RT,由于由核酸酶或切口酶产生的断裂可以修复,通过提供感兴趣的RT来协助同源性定向修复而不是使用依赖易出错的内源性NHEJ途径作为修复机制。在一实施方案中,使用基于CRISPR的核酸酶作为与gRNA相互作用的位点特异性效应物,其中所述gRNA可以与RT共价连接,或其中基于CRISPR的核酸酶和/或gRNA与所述RT非共价相互作用。在另一实施方案中,单独地提供RT,包括在编码感兴趣RT的构建体上添加,并且RT将通过RT内的与至少一个感兴趣的基因组靶位点退火的同源臂介导的互补碱基配对与位点特异性效应复合物缔合。
在一实施方案中,可以提供作为相互作用结构域的活性Cpf1和非活性dCas9的融合蛋白或非共价缔合的活性Cpf1和非活性dCas9作为位点特异性效应物。Cas9的gRNA可以靶向修复模板或其延伸,形成Cpf1-dCas9-RT复合物。crRNA(Cpf1)靶向定义为用于双链切割以启动HDR的基因组基因座。同样,可以使用高活性锌指蛋白,megaTAL或无活性大范围核酸酶。
在根据本发明的各个方面的一实施方案中,提供了通过本文公开的任何一种方法可获得的植物细胞、组织、器官、材料或完整植物或其后代。
由于本文提供的方法被特别设计以帮助提供具有农学上有利的性状但不包含转基因标记序列的新植物,所以本文公开的方法适合于快速可靠地在植物中产生多种不同的植物基因型。
在根据本发明的各个方面的一实施方案中,待修饰的至少一种植物细胞优选源自选自以下的植物:大麦(Hordeum vulgare)、球茎大麦(Hordeum bulbusom)、双色高粱(Sorghum bicolor)、甘蔗(Saccharum officinarium)、玉蜀黍属(Zea spp.)包括玉米(Zeamays)、小米(Setaria italic)、小粒稻(Oryza minuta)、水稻(Oryza sativa)、澳洲野生稻(Oryza australiensis)、高秆野生稻(Oryza alta)、普通小麦(Triticum aestivum)、硬粒小麦(Triticum durum)、黑麦(Secale cereale)、黑小麦(Triticale)、苹果(Malusdomestica)、紫短柄草(Brachypodium distachyon)、海滨大麦(Hordeum marinum)、节节麦(Aegilops tauschii)、Daucus glochidiatus、甜菜属(Beta spp.)包括甜菜(Betavulgaris)、小胡萝卜(Daucus pusillus)、Daucus muricatus、胡萝卜(Daucus carota)、巨桉(Eucalyptus grandis)、美花烟草(Nicotiana sylvestris)、绒毛状烟草(Nicotianatomentosiformis)、烟草(Nicotiana tabacum)、本氏烟草(Nicotiana benthamiana)、番茄(Solanum lycopersicum)、马铃薯(Solanum tuberosum)、中果咖啡(Coffea canephora)、葡萄(Vitis vinifera)、Erythrante guttata、螺旋狸藻(Genlisea aurea)、黄瓜(Cucumissativus)、川桑(Morus notabilis)、Arabidopsis arenosa、深山南芥(Arabidopsislyrata)、拟南芥(Arabidopsis thaliana)、喜马拉雅鼠耳芥(Crucihimalaya himalaica)、卵叶须弥芥(Crucihimalaya wallichii)、弯曲碎米荠(Cardamine flexuosa)、北美独行菜(Lepidium virginicum)、荠菜(Capsella bursa pastoris)、Olmarabidopsis pumila、筷子芥(Arabis hirsute)、欧洲油菜(Brassica napus)、甘蓝(Brassica oeleracia)、芜菁(Brassica rapa)、萝卜(Raphanus sativus)、芥菜(Brassica juncea)、黑芥(Brassicanigra)、Eruca vesicaria subsp.sativa、甜橙(Citrus sinensis)、麻风树(Jatrophacurcas)、毛果杨(Populus trichocarpa)、蒺藜状苜蓿(Medicago truncatula)、山下鹰嘴豆(Cicer yamashitae)、Cicer bijugum、鹰嘴豆(Cicer arietinum)、网状鹰嘴豆(Cicerreticulatum)、Cicer judaicum、木豆(Cajanus cajanifolius)、蔓草虫豆(Cajanusscarabaeoides)、菜豆(Phaseolus vulgaris)、大豆(Glycine max)、棉属(Gossypiumsp.)、紫云英(Astragalus sinicus)、百脉根(Lotus japonicas)、夏堇(Toreniafournieri)、洋葱(Allium cepa)、葱(Allium fistulosum)、蒜(Allium sativum)、向日葵(Helianthus annuus)、菊芋(Helianthus tuberosus)和韭菜(Allium tuberosum),或属于上述植物之一的任何品种或亚种。
产生经遗传修饰的无转基因植物的方法
在另一方面,本发明提供一种通过基因组编辑产生经遗传修饰的无转基因植物的方法,所述方法包括以下步骤:
a)提供待遗传修饰的植物的细胞或组织;
b)提供第一基因组编辑系统和第二基因组编辑系统,其中所述第一基因组编辑系统能够靶向并修饰所述植物中的目的基因,所述第二基因组修饰系统能够靶向并修饰所述植物中的内源可选择标记基因;
c)用所述第一和第二基因组编辑系统共转化所述细胞或组织;
d)从所述经转化的细胞或组织再生植物;
e)从步骤d)再生的植物中选择所述可选择标记基因被修饰的植物;和
f)从步骤e)选择出的植物中鉴定目的基因被修饰的植物。
所述植物的细胞或组织包括任何可以再生成完整植物的细胞或组织,例如原生质体、愈伤组织、外植体、未成熟胚等。
如本文所用“修饰”包括改变基因序列和/或改变基因的表达。
如本文所用,术语“目的基因”意指植物中待修饰的任何核苷酸序列,包括结构基因和非结构基因。优选地,所述目的基因与植物的性状优选农艺性状相关。
如本文所用,“可选择标记基因”意指其被合适地修饰后使得植物产生能够被选择的性状的植物内源基因。优选地,所述可选择标记基因被合适地修饰后基本上不改变植物的其它性状。
例如,所述可选择标记基因可以是植物内源除草剂抗性基因,其被合适地修饰后将使得植物产生除草剂抗性。所述植物内源除草剂抗性基因包括但不限于PsbA、ALS、EPSPS、ACCase、PPO和HPPD、PDS、GS、DOXPS和P450。其中能够产生除草剂抗性的ALS基因突变位点包括但不限于A122、P197、A205、S653(氨基酸的编号参照拟南芥中ALS酶的氨基酸序列)。能够产生除草剂抗性的EPSPS基因突变位点包括但不限于T102、P106(氨基酸编号参照拟南芥中EPSPS酶氨基酸序列)。能够产生除草剂抗性的ACCase基因突变位点包括但不限于I1781、W2027、I2041、D2078、G2096(氨基酸编号参照大穗看麦娘Alopecurus myosuroides中叶绿体ACCase酶的氨基酸序列)。能够产生除草剂抗性的HPPD基因突变位点包括但不限于P277、L365、G417、G419(氨基酸的编号参照水稻中HPPD酶的氨基酸序列)。
在本发明的一些实施方案中,能够在小麦中赋予除草剂抗性的ALS突变位点包括TaALS P173。在一些实施方案中,玉米中能够赋予除草剂抗性的ALS突变位点包括ZmALSP165。在一些实施方案中,能够赋予水稻除草剂抗性的ALS突变位点包括OsALS P171。
或者,所述可选择标记基因可以是当合适地修饰后使得植物产生目视可见性状改变的基因,例如控制叶舌、叶片颜色、叶片蜡质的基因,包括但不限于LIG、PDS、zb7和GL2。
传统的植物修饰方法(转基因方法)需要在植物再生期间施加一定的选择压力进行筛选(例如根据使用的转基因载体不同而使用不同抗生素进行筛选),以提高成功率。然而,这样将会使植物基因组中整合有外源基因特别是抗生素抗性基因,存在安全性问题。
通过使用基因组编辑技术进行植物修饰,基因组编辑系统可以不整合进植物基因组即可实现目的基因的修饰。因此,在本发明的方法中,步骤d)的再生优选地在无选择压力下进行。这样可以避免外源基因的整合,获得经遗传修饰(基因组编辑)的无转基因植物。然而,无选择压力下再生植物会大大降低筛选效率。
这一问题在本发明中创造性地通过共转化靶向目的基因的基因组编辑系统和靶向内源可选择标记基因的基因组编辑系统解决。
不受任何理论限制,在本发明的方法中,靶向目的基因的基因组编辑系统和靶向内源可选择标记基因的基因组编辑系统共转化至植物(如植物细胞或组织)中后,对目的基因和内源可选择标记基因的编辑将倾向于一起发生。因此,根据内源可选择标记基因选择出的植物将有很大的概率其目的基因也被修饰。首先针对内源可选择标记基因的编辑进行筛选将大大提高对目的基因编辑的筛选效率。并且,由于仅仅使用了内源可选择标记基因,避免了转基因问题。本发明中,所述内源可选择标记基因优选在被修饰后不会影响感兴趣的性状,例如不会降低产量等。更优选地,所述内源可选择标记基因的修饰赋予所述植物额外的感兴趣的性状,例如除草剂抗性。也即是说,优选本发明中所述可用于选择植物的性状也是农艺学上有用的性状,例如除草剂抗性。
进行步骤e)中所述选择的方法取决于所述可选择标记基因的性质。例如,如果所述可选择标记基因被修饰后赋予植物除草剂抗性,则可以将再生的植物置于合适浓度(该浓度下具有野生型可选择标记基因的植物不能存活或生长很差)的除草剂下生长,选择在该浓度下存活或生长良好的植物。
步骤f)中所述鉴定可以通过例如PCR/RE、或者测序方法进行。本领域技术人员熟知如何鉴定基因突变与否的方法。
适合于本发明的转化植物(细胞或组织)的方法包括但不限于基因枪法、PEG介导的原生质体转化和土壤农杆菌介导的转化。
本发明并不特别限制使用的基因组编辑系统,只要其能够实现对植物基因组的精确编辑。例如,适于本发明使用的基因组编辑系统包括但不限于单碱基编辑(PBE)系统、CRISPR-Cas9系统、CRISPR-Cpf1系统、CRISPRi系统、锌指核酸酶系统和TALEN系统。选择或设计合适的靶向目的基因和内源可选择标记基因的基因组编辑系统在本领域技术人员的技能范围内。
CRISPR(Clustered regularly interspaced short palindromic repeats,成簇的规律间隔的短回文重复序列)系统是在进化过程中产生的细菌用于防御外来基因入侵的免疫系统。目前已经被改造并广泛用于真核生物的基因组编辑。
CRISPR-Cas9系统是指基于Cas9核酸酶的基因组CRISPR编辑系统。“Cas9核酸酶”和“Cas9”在本文中可互换使用,指的是包括Cas9蛋白或其片段(例如包含Cas9的活性DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白)的RNA指导的核酸酶。Cas9是CRISPR/Cas(成簇的规律间隔的短回文重复序列及其相关系统)原核免疫系统的组分,能在向导RNA的指导下靶向并切割DNA靶序列形成DNA双链断裂(DSB)。适用于本发明的CRISPR-Cas9系统包括但不限于记载于Shan,Q.et al.Targeted genome modification of crop plants using aCRISPR-Cas system.Nat.Biotechnol.31,686-688(2013)的系统。
“向导RNA”和“gRNA”在本文中可互换使用。在CRISPR-Cas9系统中,向导RNA通常由部分互补形成复合物的crRNA和tracrRNA分子构成,其中crRNA包含与靶序列具有足够互补性以便与该靶序列杂交并且指导CRISPR复合物(Cas9+crRNA+tracrRNA)与该靶序列序列特异性结合的序列。然而,本领域已知可以设计单向导RNA(sgRNA),其同时包含crRNA和tracrRNA的特征。
本发明的CRISPR-Cas9系统可以包含以下之一:
i)Cas9蛋白,和向导RNA;
ii)包含编码Cas9蛋白的核苷酸序列的表达构建体,和向导RNA;
iii)Cas9蛋白,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)包含编码Cas9蛋白的核苷酸序列的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;或
v)包含编码Cas9蛋白的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体。
CRISPR-Cpf1系统是基于Cpf1核酸酶的CRISPR基因组编辑系统。Cpf1与Cas9的区别在于蛋白分子量较小,并且只需要crRNA作为向导RNA,PAM序列也有所不同。适用于本发明的CRISPR-Cpf1系统包括但不限于记载于Tang et al.,2017的系统。
本发明的CRISPR-Cpf1系统可以包含以下之一:
i)Cpf1蛋白,和向导RNA(crRNA);
ii)包含编码Cpf1蛋白的核苷酸序列的表达构建体,和向导RNA;
iii)Cpf1蛋白,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)包含编码Cpf1蛋白的核苷酸序列的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;或
v)包含编码Cpf1蛋白的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体。
CRISPR干扰(CRISPRi)是衍生自CRISPR-Cas9系统的一种基因沉默系统,其使用的是核酸酶失活的Cas9蛋白。此系统尽管并没有改变靶基因的序列,在本文范围内也定义为基因组编辑系统。适用于本发明的CRISPRi系统包括但不限于Seth and Harish,2016中记载的系统。
本发明的CRISPRi系统可以包含以下之一:
i)核酸酶失活的Cas9蛋白,和向导RNA;
ii)包含编码核酸酶失活的Cas9蛋白的核苷酸序列的表达构建体,和向导RNA;
iii)核酸酶失活的Cas9蛋白,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)包含编码核酸酶失活的Cas9蛋白的核苷酸序列的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;或
v)包含编码核酸酶失活的Cas9蛋白的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体。
单碱基编辑系统是最近基于CRISPR-Cas9开发出的一种可以对基因组进行精确单碱基编辑的系统,其使用核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白。核酸酶失活的Cas9(由于DNA切割结构域的亚结构域HNH亚结构域和/或RuvC亚结构域的突变造成)保留gRNA指导的DNA结合能力,胞苷脱氨酶可以催化DNA上胞苷(C)的脱氨化作用形成尿嘧啶(U)。将核酸酶失活的Cas9与胞苷脱氨酶融合,在向导RNA的指导下,融合蛋白可以靶向植物基因组中的靶序列,由于Cas9核酸酶活性缺失,DNA双链不被切割,而融合蛋白中的脱氨酶结构域能够将Cas9-向导RNA-DNA复合物形成中产生的单链DNA的胞苷脱氨转换成U,再通过碱基错配修复实现C至T的取代。适用于本发明的单碱基编辑系统包括但不限于记载于Zonget al.,2017的系统。
本发明的单碱基编辑系统可以包含以下之一:
i)核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白,和向导RNA;
ii)包含编码核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白的核苷酸序列的表达构建体,和向导RNA;
iii)核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)包含编码核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白的核苷酸序列的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;或
v)包含编码核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体。
在一些实施方案中,所述核酸酶失活的Cas9蛋白相对于野生型Cas9(化脓链球菌SpCas9)包含氨基酸取代D10A和/或H840A。所述胞苷脱氨酶的实例包括但不限于:APOBEC1脱氨酶、激活诱导的胞苷脱氨酶(AID)、APOBEC3G或CDA1(PmCDA1)。
“锌指核酸酶(ZFN)”是通过将锌指DNA结合结构域与DNA切割结构域融合而制备的人工限制性酶。单个ZFN的锌指DNA结合结构域通常含有3-6个单独的锌指重复序列,每个锌指重复序列可以识别例如3bp。适用于本发明的ZFN系统例如可以参考Shukla et al.,2009和Townsend et al,2009的记载获得。
“转录激活因子样效应物核酸酶(TALEN)”是可以经工程化而可以切割特定DNA序列的限制性酶,通常通过将转录激活因子样效应物(TALE)的DNA结合结构域与DNA切割结构域融合而制备。TALE经工程化后可以结合几乎任何想要的DNA序列。适用于本发明的TALEN系统例如可以参考Li et al.,2012的记载获得。
本领域技术人员可以根据不同基因组编辑系统的各自特性以及所需实现的具体基因组编辑类型来合适地确定本发明方法中第一基因组编辑系统和第二基因组编辑系统的组合,例如选择合适的组合避免相互之间的干扰,例如可以共享gRNA的不同系统之间的干扰。
例如,如果内源可选择标记基因需要使用单碱基编辑系统进行精确突变以产生可选择性状,通常而言不使用CRISPR-Cas9系统靶向目的基因,因为这两种系统可以共享gRNA,Cas9在敲除目的基因外还可能敲除内源可选择标记基因。反之亦然。
在本发明方法的一些优选实施方案中,其中所述第一和第二基因组编辑系统均是单碱基编辑系统。
在本发明的一些实施方式中,所述第一和第二基因组编辑系统的各组分可以由同一表达构建体表达或由不同表达构建体表达,这可以由本领域技术人员便利地选择。例如,可以用同一表达构建体转录针对目的基因和可选择标记基因的向导RNA。优选地,所述第一和第二基因组编辑系统的各组分由同一表达构建体表达。
在本发明方法的一些具体实施方案中,其中所述第一和第二基因组编辑系统均是单碱基编辑系统,且核酸酶失活的Cas9蛋白和胞苷脱氨酶的融合蛋白以及针对目的基因和可选择标记基因的向导RNA由同一表达构建体表达。
在本发明方法的一些实施方案中,所述植物是单子叶植物或双子叶植物,例如,所述植物选自大麦(Hordeum vulgare)、球茎大麦(Hordeum bulbusom)、双色高粱(Sorghumbicolor)、甘蔗(Saccharum officinarium)、玉蜀黍属(Zea spp.)包括玉米(Zea mays)、小米(Setaria italic)、小粒稻(Oryza minuta)、水稻(Oryza sativa)、澳洲野生稻(Oryzaaustraliensis)、高秆野生稻(Oryza alta)、普通小麦(Triticum aestivum)、硬粒小麦(Triticum durum)、黑麦(Secale cereale)、黑小麦(Triticale)、苹果(Malusdomestica)、紫短柄草(Brachypodium distachyon)、海滨大麦(Hordeum marinum)、节节麦(Aegilops tauschii)、Daucus glochidiatus、甜菜属(Beta spp.)包括甜菜(Betavulgaris)、小胡萝卜(Daucus pusillus)、Daucus muricatus、胡萝卜(Daucus carota)、巨桉(Eucalyptus grandis)、美花烟草(Nicotiana sylvestris)、绒毛状烟草(Nicotianatomentosiformis)、烟草(Nicotiana tabacum)、本氏烟草(Nicotiana benthamiana)、番茄(Solanum lycopersicum)、马铃薯(Solanum tuberosum)、中果咖啡(Coffea canephora)、葡萄(Vitis vinifera)、Erythrante guttata、螺旋狸藻(Genlisea aurea)、黄瓜(Cucumissativus)、川桑(Morus notabilis)、Arabidopsis arenosa、深山南芥(Arabidopsislyrata)、拟南芥(Arabidopsis thaliana)、喜马拉雅鼠耳芥(Crucihimalaya himalaica)、卵叶须弥芥(Crucihimalaya wallichii)、弯曲碎米荠(Cardamine flexuosa)、北美独行菜(Lepidium virginicum)、荠菜(Capsella bursa pastoris)、Olmarabidopsis pumila、筷子芥(Arabis hirsute)、欧洲油菜(Brassica napus)、甘蓝(Brassica oeleracia)、芜菁(Brassica rapa)、萝卜(Raphanus sativus)、芥菜(Brassica juncea)、黑芥(Brassicanigra)、Eruca vesicaria subsp.sativa、甜橙(Citrus sinensis)、麻风树(Jatrophacurcas)、毛果杨(Populus trichocarpa)、蒺藜状苜蓿(Medicago truncatula)、山下鹰嘴豆(Cicer yamashitae)、Cicer bijugum、鹰嘴豆(Cicer arietinum)、网状鹰嘴豆(Cicerreticulatum)、Cicer judaicum、木豆(Cajanus cajanifolius)、蔓草虫豆(Cajanusscarabaeoides)、菜豆(Phaseolus vulgaris)、大豆(Glycine max)、棉属(Gossypiumsp.)、紫云英(Astragalus sinicus)、百脉根(Lotus japonicas)、夏堇(Toreniafournieri)、洋葱(Allium cepa)、葱(Allium fistulosum)、蒜(Allium sativum)、向日葵(Helianthus annuus)、菊芋(Helianthus tuberosus)和韭菜(Allium tuberosum),或属于上述植物之一的任何品种或亚种。在一些实施方案中,所述植物是作物植物。
在本发明的一些实施方式中,所述方法还包括获得所述经遗传修饰的无转基因植物的后代。
在另一方面,本发明还提供了经遗传修饰的植物或其后代或其部分,其中所述植物通过本发明上述的方法获得。
在另一方面,本发明还提供了一种植物育种方法,包括将通过本发明上述的方法获得的经遗传修饰的第一植物与不含有所述遗传修饰的第二植物杂交,从而将所述遗传修饰导入第二植物。
通过同时靶向植物中待修饰的目的基因和内源可选择标记基因,大大提高了通过基因组编辑方法产生经遗传修饰的无转基因植物的筛选效率。通过本发明的方法,对于突变率小于1%的目的基因,其无转基因突变体的筛选效率可以提高大约10-100倍。
递送方法:
本领域技术人员已知用于将遗传物质引入植物细胞的各种合适的递送技术。通过选择从原生质体的聚乙二醇(PEG)处理(Potrykus等,1985)直接递送技术,诸如电穿孔(D'Halluin等,1992),显微注射(Neuhaus等,1987),碳化硅纤维晶须技术(Kaeppler等,1992),病毒载体介导的方法(Gelvin,Nature Biotechnology 23,“Viral-mediated planttransformation gets a boost”,684-685(2005))和粒子轰击(参见例如Sood et al.,2011,Biologia Plantarum,55,1-15)。
尽管基于生物学方法的转化方法,如农杆菌转化或病毒载体介导的植物转化,以及基于物理递送方法(如粒子轰击或显微注射)的方法已经演化为用于将遗传物质引入感兴趣的植物细胞或组织的突出技术。Helenius等人(“使用HeliosTM基因枪将基因输送到完整植物中”,Plant Molecular Biology Reporter,2000,18(3):287-288)公开了作为将物质引入植物细胞的物理方法的粒子轰击。因此,目前存在多种将基因构建体形式的遗传物质引入感兴趣的植物细胞中的植物转化方法,包括植物生物技术领域的技术人员已知的生物和物理手段,并且可以应用以引入至少一个碱基编辑器和至少一个特定位置效应器以及包括至少一个碱基编辑器和至少一个特定位置效应器的相应复合物。值得注意的是,所述用于转化和转染的递送方法可以用于同时引入本发明的工具。常见的生物手段是用农杆菌转化。几十年来已经用于各种不同的植物材料。病毒载体介导的植物转化代表将遗传物质引入感兴趣的细胞的进一步策略。在植物生物学中找到应用的物理手段是粒子轰击,也称为生物射弹转染或微粒介导的基因转移,其是指用于将包含感兴趣的核酸或遗传构建体的包被微粒或纳米粒子转移到靶细胞中的物理输送方法或组织。物理引入装置适合于引入核酸,即RNA和/或DNA和蛋白质。同样,存在用于将感兴趣的核酸或氨基酸构建体特异性引入植物细胞中的特定转化或转染方法,包括电穿孔,显微注射,纳米颗粒和细胞穿透肽(CPP)。此外,存在基于化学的转染方法以引入基因构建体和/或核酸和/或蛋白质,其中包括用磷酸钙转染,用脂质体例如阳离子脂质体转染或用阳离子聚合物转染,包括DEAD-葡聚糖或聚乙烯亚胺,或其组合。所述递送方法和递送载体或货物因此与用于其他真核细胞(包括动物和哺乳动物细胞)的递送工具本质上不同,并且每种递送方法都必须进行特定的微调和优化,使得用于介导基因组编辑的感兴趣的构建体可以以全功能和主动的方式引入感兴趣的目标细胞的特定隔室中。单独或组合的上述递送技术可用于将根据本发明的至少一种分子复合物,即碱基编辑复合物和/或位点特异性效应物复合物或其至少一种亚组分,即至少一个SSN,至少一个gRNA,至少一个RT或至少一个碱基编辑器,或编码前述亚组分的序列,根据本发明在体内或体外转化至靶细胞。
根据本发明,物理和化学递送方法是特别优选的,因为所述方法允许共同递送以及因此将各种感兴趣的工具平行引入到至少一个植物细胞中。
在某些实施方案中,gRNA的crRNA部分包含茎环或优化的茎环结构或优化的二级结构。在另一实施方案中,成熟crRNA在直接重复序列中包含茎环或优化的茎环结构,其中茎环或优化的茎环结构对于裂解活性是重要的。在某些实施方案中,成熟crRNA优选包含单一茎环。在某些实施方案中,直接重复序列优选包含单个茎环。在某些实施方案中,通过引入影响茎环RNA双链体结构的突变来修饰效应蛋白复合物的裂解活性。在优选的实施方案中,可以引入保持茎环的RNA双链体的突变,由此维持效应蛋白复合物的切割活性。在其他优选的实施方案中,可以引入破坏茎环的RNA双链体结构的突变,由此完全消除效应蛋白复合物的裂解活性。
值得注意的是,根据本发明各方面的方法,第一和/或第二靶向修饰不限于编码氨基酸的编码区内的修饰的。也设想对调控序列进行修改。具有表观遗传效应的任何修饰也可以通过本发明的方法来解决。
在一实施方案中,待修饰的至少一个基因组靶序列可以是调控序列,如启动子,其中启动子的编辑包括用不同的启动子(也称为置换启动子)或启动子替换启动子或启动子片段片段(也称为替代启动子片段),其中所述启动子替代导致以下任一种或以下任何一种组合:增加的启动子活性,增加的启动子组织特异性,降低的启动子活性,减少的启动子组织特异性,新的启动子活性,诱导型启动子活性,延伸的基因表达窗口,相同细胞层或其他细胞层中基因表达的时间或发育进程的修饰,例如花药绒毡层延长基因表达的时间,DNA结合元件的突变和/或DNA结合元件的缺失或添加。待修饰的启动子(或启动子片段)可以是对正在编辑的细胞是内源的、人造的、预先存在的或转基因的启动子(或启动子片段)。替换启动子或其片段可以是对正在编辑的细胞是内源的、人造的、预先存在的或转基因的启动子或其片段。
在一实施方案中,所述至少一种基因组靶序列可以是其中编码启动子包括用植物泛素启动子替代天然EPSPS1启动子的启动子。在另一实施方案中,待修饰的至少一个基因组靶序列可以是启动子,其中待编辑的启动子选自玉米-PEPC1启动子(Kausch等,PlantMolecular Biology,45:1-15,2001),玉米泛素启动子(UBI1ZM PRO,Christensen等,植物分子生物学18:675-689,1992),水稻肌动蛋白启动子(McElroy等,The Plant Cell,Vol 2,163-171,1990年2月),玉米-GOS2启动子(美国专利号6,504,083)或玉米油质蛋白启动子(美国专利号8,466,341)。
在一实施方案中,所述至少一个位点特异性效应复合物可以与共递送的RT组合使用,以允许将启动子或启动子元件插入感兴趣的基因组核苷酸序列中而不掺入可选择的转基因标记,其中启动子插入(或启动子元件插入)导致以下任何一种或以下任何一种组合:增加的启动子活性。即增加的启动子强度,增加的启动子组织特异性,降低的启动子活性,降低的启动子组织特异性,新的启动子活性,诱导型启动子活性,延伸的基因表达窗口,修饰基因表达的时间或发育进程DNA结合元件的突变和/或DNA结合元件的添加。待插入的启动子元件可以是但不限于启动子核心元件,例如但不限于CAAT盒,CCAAT盒,Pribnow盒,和/或TATA盒,翻译调控序列和/或用于诱导型表达的阻遏物系统,如TET操纵阻遏物/操纵基因/诱导物元件或磺酰脲阻遏物/操纵基因/诱导物元件。在含有9bp保守核心序列TACCGACAT(Yamaguchi-Shinozaki,K。和Shinozaki,CA)的干旱响应基因rd29A的启动子中首先鉴定出脱水响应元件(DRE)为顺式作用启动子元件。K.(1994)Plant Cell 6,251-264)将DRE插入内源启动子可赋予下游基因的干旱诱导型表达。另一个例子是ABA反应元件(ABRE),其含有发现存在于许多ABA和/或胁迫调节基因中的(C/T)ACGTGGC共有序列(BuskPK,Pages M.(1998)Plant Mol.Biol。37:425-435)。将35S增强子或MMV增强子插入内源启动子区域将增加基因表达(美国专利号5,196,525)。待插入的启动子或启动子元件可以是内源的、人造的、预先存在的或转基因于正在编辑的细胞的启动子或启动子元件。
在一实施方案中,所述至少一个位点特异性效应物复合物可用于在内源性FMT1启动子前插入增强子元件,例如但不限于花椰菜花叶病毒35S增强子,以增强FTM1的表达。在另一实施方案中,所述至少一种位点特异性效应物复合物可以用于将TET操纵阻遏物/操纵基因/诱导物系统的组分或磺酰脲阻遏物/操纵基因/诱导物系统的组分插入植物基因组中以产生或控制诱导型表达系统而不掺入可选择的转基因标记。
在另一实施方案中,所述至少一个位点特异性效应物复合物可用于允许缺失启动子或启动子元件,其中启动子缺失(或启动子元件缺失)导致以下任一种或任何一种如下:永久失活的基因座,增加的启动子活性(增加的启动子强度),增加的启动子组织特异性,降低的启动子活性,降低的启动子组织特异性,新的启动子活性,诱导型启动子活性,基因表达,基因表达的时间或发育进程的修饰,DNA结合元件的突变和/或DNA结合元件的添加。待缺失的启动子元件可以是但不限于启动子核心元件、启动子增强子元件或35S增强子元件。待缺失的启动子或启动子片段可以是正在编辑的细胞的内源的、人造的、预先存在的或转基因的。
在又一实施方案中,待修饰的至少一个感兴趣的基因组靶位点可以是终止子,其中终止子的编辑包括替换也称为“终止子交换”或“终止子替换”的终止子或终止子片段具有不同的终止子,也称为替代终止子或终止子片段,也称为替换终止子片段,其中终止子替换导致以下任一种或以下任何一种组合:增加的终止子活性,增加的终止子活性终止子组织特异性,降低的终止子活性,降低的终止子组织特异性,DNA结合元件的突变和/或DNA结合元件的缺失或添加。待修饰的终止子或其片段可以是对正在编辑的细胞是内源的、人造的、预先存在的或转基因的终止子。替代终止子可以是终止子或其片段,其对正在编辑的细胞是内源的、人造的、预先存在的或转基因的。
在一实施方案中,待修饰的至少一个基因组靶位点可以是终止子,其中待编辑的终止子选自玉米Argos 8或SRTF18基因的终止子或其他终止子,如马铃薯PinII终止子,高粱肌动蛋白终止子(WO 2013/184537 A1),水稻T28终止子(WO 2013/012729 A2),AT-T9TERM(WO 2013/012729 A2)或GZ-W64A TERM(美国专利号7,053,282)。
在一实施方案中,根据本发明的所述至少一种位点特异性效应复合物可以与共递送的RT序列组合使用,以允许将终止子或终止子元件插入感兴趣的基因组核苷酸序列中,其中终止子(元件)插入导致以下任何一种或下列任何一种组合:增加的终止子活性,即增加的终止子强度,增加的终止子组织特异性,降低的终止子活性,降低的终止子组织特异性,DNA结合元件的突变和/或DNA结合元件的添加。
待插入的终止子或元件或其片段可以是终止子(或终止子元件),其是正被编辑的细胞的内源的、人造的、预先存在的或转基因的。
在又一实施方案中,所述至少一种位点特异性效应物复合物可以用于允许终止子或终止子元件的缺失,其中终止子缺失(或终止子元件缺失)导致以下任何一种或任何一种组合:终止子活性增加(终止子强度增加),终止子组织特异性增加,终止子活性降低,终止子组织特异性降低,DNA结合元件突变和/或DNA结合元件增加。待缺失的终止子或终止子片段可以是正在编辑的细胞的内源的、人造的、预先存在的或转基因的。
在一实施方案中,本发明的至少一种位点特异性效应复合物可用于修饰或置换细胞基因组中的调节序列而不掺入可选择的转基因标记。调控序列是核酸分子的片段,其能够增加或减少生物体内特定基因的表达和/或能够改变生物体内基因的组织特异性表达。调节序列的实例包括但不限于3'UTR(非翻译区),5'UTR区,转录激活因子,转录增强子转录抑制因子,翻译阻遏物,剪接因子,miRNA,siRNA,人工miRNA,启动子元件,CAMV35S增强子,MMV增强子元件,SECIS元件,聚腺苷酸化信号和多聚遍在蛋白化位点。在一些实施方案中,以本发明的至少一种靶向修饰物形式进行编辑或调节元件的替换导致蛋白质翻译,RNA切割,RNA剪接,转录终止或翻译后修饰改变。在一实施方案中,可以在启动子内鉴定调控元件,并且可以编辑或修饰这些调控元件以优化这些调控元件以上调或下调启动子。
在一实施方案中,待修饰的至少一个基因组靶位点是多聚泛素化位点,其中多聚泛素位点的修饰导致蛋白质降解速率的改变。泛素标签募集蛋白质被蛋白酶体或自噬降解。已知蛋白酶体抑制剂会导致蛋白质过度生成。对编码感兴趣蛋白质的DNA序列进行的修饰可导致感兴趣蛋白质的至少一个氨基酸修饰,其中所述修饰允许蛋白质的多聚泛素化(翻译后修饰),导致蛋白质降解的修饰。
在另一实施方案中,待修饰的至少一个感兴趣基因组靶位点是玉米EPSPS基因上的多聚泛素化位点,其中由于EPSPS蛋白质降解速率较慢,修饰多聚泛素化位点导致蛋白质含量增加。
在又一实施方案中,待修饰的至少一个感兴趣的基因组靶位点是内含子位点,其中所述修饰包括将内含子增强基序插入到内含子中,其导致调节包含所述基因的基因的转录活性内含子。
现在将通过以下实施例来说明本发明,这些实施例不被解释为限制本发明的范围。
实施例:
实施例1:验证碱基编辑的下一代测序
为了使用偶联切口酶的碱基编辑器测试对前文所述的靶的活性,通过标准方法构建了编码APOBEC-XTEN-Cas9(切口酶)-UGI(SEQ ID NO:1和SEQ ID NO:2)的质粒,编辑器和sgRNA在源自玉米组织的细胞中瞬时表达。与复合物一起,测试了实施例2至6设计的gRNA。此外,特定的PAM基序(参见SEQ ID NO:3至13和23)针对感兴趣的靶位点定义。
此外,为了增加可用于转化某些除草剂靶基因中相关氨基酸的靶位点的范围,SaKKH-BE3和VQR-BE3蛋白(Komor A.et al.,Increasing the genome-targeting scopeand precision of base editing with engineered Cas9-cytidine deaminase fusion,Nat.Biotech.(2017))被密码子优化用于在玉米中表达,合成并与合适的sgRNA一起克隆到质粒中以在相同的玉米细胞系统中表达。
在用表达碱基编辑器的质粒处理12-96小时后从细胞群中提取总基因组DNA,并进行靶向深度测序以分析靶标处碱基转换的频率和模式。评估在ALS1(特别是P197,S653),ALS2(特别是P197,S653)和PPO(特别是C215,A220,G221,N425,Y426)基因中引起除草剂抗性氨基酸取代的转化能力。
实施例2:碱基编辑组分的转化和针对磺酰脲类或咪唑啉酮类的选择
为了证明使用本申请中描述的方法进行碱基编辑赋予除草剂抗性的可行性,使用实施例1中描述的碱基编辑器,以及在实施例1中通过NGS验证的若干专门设计的针对玉米ALS1、ALS2基因的gRNA转化玉米组织,并在含有磺酰脲(对于P197或S653置换)或咪唑啉酮(对于S653置换)的选择培养基上再生。由于碱基编辑器的作用,除草剂抗性植物将经历碱基转换,导致位置197的脯氨酸取代或位置653的丝氨酸的取代,这取决于所递送的碱基编辑器。为了验证碱基转换事件,使用互补除草剂选择除草剂抗性植物中的ALS基因,并使用分子技术对其进行分析。
实施例3:由于碱基编辑器的作用而共同选择除草剂抗性以增加非连锁基因座处的非可选择修饰的频率
为了证明用基因编辑事件分离植物的无转基因选择在基因组工程过程中提供了合适且直接的工具,将实施例2中描述的方法与共位送位点特异性核酸酶组合以同时产生碱基转换的除草剂基因和平行地在相同细胞中靶向修饰感兴趣基因。在同一质粒或第二质粒上,核酸酶与sgRNA和任选的修复模板一起编码,以在由于碱基编辑器的作用而发生碱基转换的相同细胞中进行靶向修饰。在稍后的阶段,植物可以如实施例2中所述在除草剂选择下再生,然后通过分子和其他适当技术筛选感兴趣基因的靶向修饰,而除草剂选择允许显著减少筛选至少一个第二修饰(即在代表待修饰的感兴趣基因的第二基因组基因座处的至少一个靶向修饰)的细胞数目。
实施例4:设计功能性CRISPR/Cpf1碱基编辑器并定义碱基编辑窗口
在这个例子中,第二种CRISPR蛋白Cpf1被用于将碱基编辑复合物传递给基因组靶标。与CRISPR/Cas9一样,CRISPR/Cpf1在结合其DNA靶时也形成R环状结构,使得非靶链以单链形式可用于碱基转换。但是,由于基于Cpf1的碱基编辑器的碱基转换窗口的确切位置未知,因此需要针对靶中的PAM序列分析碱基转换模式。如实施例1中所述,在基于Cpf1的编辑器递送靶向细胞群体中的那些序列之后,碱基转化窗口可以通过在富含GC的玉米基因组序列上由靶向NGS限定。对于其他靶标植物,可以相应地调整策略。
实施例5:使用PPO基因中的单核苷酸缺失产生无修复模板或同源重组的可选择修饰
在长芒苋(Agranthus tuberculatus)的PPO基因第210位甘氨酸的单个氨基酸缺失使得这种杂草对PPO抑制性除草剂具有抗性(Patzoldt,WL等人(2006),“A codondeletion confers resistance to herbicides inhibition protoporphyrinogenoxidase”PNAS 103(33):12329-12334)。这种同种型也被称为PPX2L。烟草中的等价氨基酸是PPO2基因第178位的甘氨酸。在玉米中,相当的氨基酸是丙氨酸,但周围的残基高度保守,并且可能仍然构成由于缺失丙氨酸会变成抗性的功能性活性位点。
在这个例子中,定点核酸酶如Cas9或Cpf1可与适当的crRNA或sgRNA一起使用,在该氨基酸的密码子附近形成双链切割。保留活性PPO酶同时抑制除草剂结合的三碱基缺失将导致除草剂抗性植物。因此,可以在不使用修复模板或同源重组的情况下进行这种选择性修饰,从而提供无转基因标记的策略。
实施例6:其他应用
使用CRISPR核酸酶CasX、CasY和Cpf1以及上述实施例1-3中针对CRISPR Cas9描述的应用,可以设想其他实例。此外,使用实施例1中描述的Cas9连接的碱基编辑器或如实施例4中描述的与Cpf1连接的碱基编辑器将早期终止密码子导入用于植物筛选的可选择基因靶标或表型标记。具体的例子可以是表型基因中的终止密码子(例如,许多光泽基因、金黄色基因等)。
如前所述,基于除草剂抗性的其它用于选择的靶还包括PPO、ALS和EPSPS基因中其他氨基酸缺失,早期终止密码子的引入或氨基酸变化。提供了适用于PPO基因中的碱基编辑的gRNA前间隔区序列(参见SEQ ID NO:7至13)。
还提供了用于CasX连接的碱基编辑复合物(SEQ ID NO:14)的序列,用于AsCpf1连接的碱基编辑复合物的序列(SEQ ID NO:15)和用于将胞苷脱氨酶PmCDA1并入Cas9连接的碱基编辑复合物的序列(SEQ ID NO:16)。
为了优化,特别是对于从头设计CRISPR核酸酶连接的碱基编辑复合物,可以以任何顺序和组合使用以下组分:niCas9(D10A;SEQ ID NO:17),CasX(SEQ ID NO:18),niAsCpf1(R1226A;SEQ ID NO:19),APOBEC1(SEQ ID NO:20),UGI(SEQ ID NO:21),PmCDA1(SEQ ID NO:22),以及接头(包括XTEN接头)和核定位信号或其他细胞器靶向信号(取决于感兴趣的基因组位点),或上述组分的任何组合。
实施例7.水稻突变体植物的筛选
根据Yuan Zong报道文章(Zong,Y.et al.Precise base editing in rice,wheatand maize with a Cas9-cytidine deaminase fusion.Nat.Biotechnol.2017,doi:10.1038/nbt.3811),使用pH-nCas9-PBE构建同时靶向OsALS基因(Genbank号:AY885674.1)的两个不同位点(S1和S2)的载体pH-nCas9-PBE-OsALS-S1/S2。其中OsALS-S1位点作为除草剂筛选位点,如果S1位点发生突变,将使植物获得除草剂(如烟嘧磺隆)抗性(Tranel andWright,2002)。实验中sgRNA靶序列如表1所示。
表1.水稻sgRNA靶序列
sgRNA |
靶序列 |
sgRNA-OsALS-S1 |
CAGGTCCCCCGCCGCATGATCGG |
sgRNA-OsALS-S2 |
CCTACCCGGGCGGCGCGTCCATG |
下划线为PAM序列。
pH-nCas9-PBE-OsALS-S1/S2双元载体通过电穿孔转化进农杆菌AGL1菌株。根据Shan等人(Shan,Q.et al.Targeted genome modification of crop plants using aCRISPR-Cas system.Nat.Biotechnol.31,686-688(2013))进行水稻栽培种中花11的农杆菌介导的转化、组织培养和再生。在组织培养过程中使用潮霉素筛选(50μg/ml)(本次实验为概念验证,先用潮霉素筛选随后使用烟嘧磺隆筛选,目的是先获得转基因植株后筛选抗药性植株。)。水稻再生后,将10株再生幼苗放在0.0065PPM的烟嘧磺隆筛选培养基(在该浓度下野生型植物无法成活)上生长。14天后有4株幼苗成活,对4株幼苗均提取DNA,PCR扩增ALS基因,随后通过Sanger测序确定突变体基因型。结果发现4株幼苗的S2位点均发生了碱基突变,除草剂筛选到的抗除草剂植物在位点S2的突变率为100%(4/4),突变类型如图1A所示。
实施例8.小麦突变体植物的筛选
根据Yuan Zong报道文章(Zong,Y.et al.Precise base editing in rice,wheatand maize with a Cas9-cytidine deaminase fusion.Nat.Biotechnol.2017,doi:10.1038/nbt.3811),使用pTaU6分别构建:
1)靶向TaALS基因B组(Genbank号:AY210406)S2位点的载体pTaU6-TaALS-S2,
2)靶向TaACCase基因B组和D组(Genbank号:EU660901和EU660902)位点的pTaU6-TaACCase,
3)同时靶向TaALS基因的两个位点的载体pTaU6-TaALS-S1/S2,和
4)同时靶向TaALS和TaACCase基因的载体pTaU6-TaALS-S1/TaACCase。
其中TaALS-S1位点作为除草剂筛选位点,如果该位点发生突变,将使植物获得除草剂(如烟嘧磺隆)抗性,而仅仅TaALS-S2位点突变则不会出现抗性表型(Tranel andWright,2002)。实验中sgRNA靶序列表2所示。
表2.小麦sgRNA靶序列
sgRNA |
靶序列 |
sgRNA-TaALS-S1 |
CAGGTCCCCCGCCGCATGATCGG |
sgRNA-TaALS-S2 |
CCTACCCTGGCGGCGCGTCCATG |
sgRNA-TaACCase |
TTCAGCTACTAAGACAGCGCAGG |
下划线为PAM序列。
使用质粒DNA(pnCas9-PBE和pTaU6载体系列等比例混合)轰击科农199幼胚,如之前描述(Zhang,K.,Liu,J.,Zhang,Y.,Yang,Z.&Gao,C.Biolistic genetictransformation of a wide range of Chinese elite wheat(Triticum aestivum L.)varieties.J.Genet.Genomics.42,39-42(2015))进行基因枪转化。在轰击后,根据文献记载处理胚,在组织培养过程中不使用任何选择剂。
对于单独靶向TaALS基因B组S2位点获得的小麦植株,挑选3-4株合并为一组来通过PCR/RE检测突变。用PCR/RE检测样品258个(约1000个单株),均未检测到突变。
对于单独靶向TaACCase基因位点获得的小麦植株,挑选3-4株合并为一组来通过Sanger测序样品64个(约256个单株),均未检测到突变。
同时靶向TaALS基因S1和S2位点获得的小麦植株(约800株),先放在0.13PPM的烟嘧磺隆筛选培养基上(在该浓度下野生型植物无法成活)生长,30天后有12株幼苗成活,其中9株植物在TaALS-S2位点均发生了碱基突变,使用烟嘧磺隆筛选培养基筛选到ALS-S2位点突变植物的效率为75%(9/12),其中5株突变植株的突变类型如图1B所示。
同时靶向TaALS和TaACCase基因获得的小麦植株(约800株),先放在0.13PPM的烟嘧磺隆筛选培养基上生长,30天后有9株幼苗成活,其中2株植物在TaACCase位点生了碱基突变,使用烟嘧磺隆筛选培养基筛选到TaACCase位点突变植物的效率为22%(2/9),TaACCase位点的突变类型如图1C所示。
实验结果表明,对于突变率本身很低的目的基因(如目的基因的突变率为0.5%),该方法可将检测到目标基因的概率提高10-100倍。
实施例9:基于TaALS-P173在小麦中开发碱基共编辑系统
在这项研究中,相应于TaALS-P173的sgRNA位点被用于在小麦转化过程中建立除草剂选择系统。通过粒子轰击将PnCas9-PBE和TaALS-P173-sgRNA构建体递送到面包小麦品种Kenong 199的640个未成熟胚细胞中。在幼苗(2-3cm高)被再生后,使用PCR限制酶消化测定(PCR-RE测定)来分析突变频率。同时,将相同的幼苗转移到含有0.27ppm烟嘧磺隆的培养基中(图3)。在使用PCR-RE测定法鉴定的14种(2.1%)突变幼苗中有10种(1.56%)在含除草剂的培养基上生长3周后表现出抗性,并且三种敏感突变体不含任何氨基酸取代(表3)。
表3
SM:沉默突变;S:敏感;R:抗性;Homo:纯合;Hetero:杂合
结果证实,TaALS-P173取代可以从含除草剂的培养基中识别。然后发明人测试了该位点是否也可以用于选择其他基因组编辑的事件。所以另外三个位点(TaALS-A98,TaALS-A181以及TaACCase-A2004)分别与TaALS-P173组合。为了评估选择效率,将用TaALS-P173位点靶向系统共同轰击的再生苗置于含有烟嘧磺隆的培养基上,并将存活的苗进行基因分型。在所有三个位点(表4)检测到靶向突变体,选择效率高达78%。在TaALS-A181和TaACCase-A2004位点中,选择效率相对较低(约25%),这可能是由脱氨酶APOBEC1在GC情况下的低转化能力造成的。
为了提高GC背景下的选择效率,APOBEC1被另一种脱氨酶-PmCDA1取代,其与APOBEC1相比具有不同的序列优先性。通过粒子轰击将新产生的碱基编辑器pPmCDA1-PBE,TaACCase-A2004-sgRNA和TaALS-P173-sgRNA构建体递送到640个未成熟胚胎细胞中。在2个存活的幼苗中,两个(100%)在靶位点TaACCase-A2004处含有突变等位基因(表4)。
表4
实施例10:开发基于ZmALS-P165的玉米碱基共编辑系统
为了在玉米中建立共编辑系统,靶向相应的TaALS-P173的乙酰乳酸合酶位点以测试除草剂抗性。据报道,ZmALS2上的单个编辑的等位基因可赋予植物除草剂抗性(Svitashev等,2016)。因此,将靶向ZmALS-P165的双元载体转化未成熟胚(ZmALS-P165位点在ZmALS1和ZmALS2中都是保守的)。从再生植物获得三个独立突变体,它们的基因型相同。含有C至T取代的两个ZmALS1等位基因和一个ZmALS2等位基因导致单个氨基酸残基改变:在位置165处脯氨酸变为亮氨酸。在ZmALS2上具有杂合P165L取代的一个突变植物显示对磺酰脲类除草剂甲磺嘧磺隆抗性(图4)。
在确认ZmALS-P165位点可以很好地作为选择标记后,其他两个位点,ZmAccaseA2004和ZmSbe2Stop分别与该可选择位点组合。基因枪和土壤杆菌介导的递送都用于转化。由于ZmAccase A2004位点在GC环境中,因此使用PmCDA1替换APOBEC1。
为了评估使用基因枪传递的选择效率,将经过轰击的愈伤组织以及农杆菌转化的未成熟胚胎放置在含有甲磺嘧磺隆的培养基上。存活的幼苗显示目标位点突变。
实施例11:基于OsALS-P171在水稻中开发碱基共编辑系统
为了建立水稻中的共编辑系统,以对应于TaALS-P173的乙酰乳酸合酶位点为对象来测试除草剂抗性。据报道单个编辑的等位基因可赋予植物除草剂抗性(Kawai,K.,Kaku,K.,Izawa,N.,Shimizu,M.,Kobayashi,H.,&Shimizu,T.(2008).Herbicide sensitivitiesof mutated enzymes expressed from artificially generated genes ofacetolactate synthase.Journal of pesticide science,33(2),128-137.)。因此,将靶向OsALS-P171的二元载体转化为未成熟胚。突变体从再生植物获得。
在确认OsALS-P171位点可以很好地作为选择标记后,其他三个位点OsAccaseW2125、OsBDAH2Stop和OsSbe2Stop与这个可选择位点分别结合。基因枪和土壤杆菌介导的递送都用于转化。存活的幼苗显示目标位点突变。
实施例12:开发基于ZmALS-P197或ZmALS-G654的玉米的共编辑系统
1.用碱基编辑器产生赋予除草剂抗性的氨基酸转换
选择玉米的靶氨基酸用于转化成氨基酸,所述氨基酸在对除草剂如咪唑啉酮和磺酰脲类具有抗性的杂草中出现。图5中的绿色箭头是编码或非编码链的向导序列以获得期望的转化。注意:本实施例中氨基酸残基的编号的坐标是对来自拟南芥的原型ALS基因进行标准化的。这些残基在玉米和小麦肽序列中的位置会有所不同。
2.玉米ALS中除草剂敏感的P197密码子可由碱基编辑器有效编辑
所有实验均在玉米原生质体系统中进行。制备用Pol III启动子的sgRNA-Guide用于修饰ALS1和ALS2基因的P197基因座(图6,左图,顶部)和G654基因座(图6,右图,顶部)。碱基编辑器是一个单一载体,在这种情况下,由pUbi1驱动碱基编辑器和ZmU3驱动向导RNA。上面显示的结果是针对向导RNA中每个C计算的%C至T转换频率,并且均减去针对ALS1和ALS2阴性对照的背景。此处显示的频率没有说明P197密码子中的一个或两个C是否在同一个细胞中发生变化。在G654位点,变化也很明显,但程度较小。
3.除草剂敏感性残基以达6%的处理细胞的频率转化为除草剂抗性(图7)
分析图6中所示数据的另一种方式是通过计数显示所需氨基酸密码子转换的读段的数量。最终的%数据标准化为原生质体转化效率。
上图:-显示在ALS1和ALS2基因座处脯氨酸197已经被转化为亮氨酸或丝氨酸的读段的百分比。数据来自使用Pol III启动子的实验。
中图:-显示在ALS1和ALS2基因座处脯氨酸197已被转化为亮氨酸或丝氨酸的读段的百分比。数据来自实验,其中使用了Pol II启动子和用于sgRNA的核酶传递策略。
底部图:-显示在ALS1和ALS2基因座处甘氨酸654已经转化为天冬氨酸的读段的百分比。数据来自实验,其中使用了Pol III启动子和用于sgRNA的核酶传递策略。
序列表
<110> 中国科学院遗传与发育生物学研究所
<120> 不使用转基因标记序列分离细胞的方法
<130> NTD142650
<160> 28
<170> PatentIn version 3.5
<210> 1
<211> 5142
<212> DNA
<213> Artificial Sequence
<220>
<223> APOBEC1 XTEN nCas9(D10A) UGI NLS construct
<400> 1
atgagctcag agactggccc agtggctgtg gaccccacat tgagacggcg gatcgagccc 60
catgagtttg aggtattctt cgatccgaga gagctccgca aggagacctg cctgctttac 120
gaaattaatt gggggggccg gcactccatt tggcgacata catcacagaa cactaacaag 180
cacgtcgaag tcaacttcat cgagaagttc acgacagaaa gatatttctg tccgaacaca 240
aggtgcagca ttacctggtt tctcagctgg agcccatgcg gcgaatgtag tagggccatc 300
actgaattcc tgtcaaggta tccccacgtc actctgttta tttacatcgc aaggctgtac 360
caccacgctg acccccgcaa tcgacaaggc ctgcgggatt tgatctcttc aggtgtgact 420
atccaaatta tgactgagca ggagtcagga tactgctgga gaaactttgt gaattatagc 480
ccgagtaatg aagcccactg gcctaggtat ccccatctgt gggtacgact gtacgttctt 540
gaactgtact gcatcatact gggcctgcct ccttgtctca acattctgag aaggaagcag 600
ccacagctga cattctttac catcgctctt cagtcttgtc attaccagcg actgccccca 660
cacattctct gggccaccgg gttgaaaagc ggcagcgaga ctcccgggac ctcagagtcc 720
gccacacccg aaagtgataa aaagtattct attggtttag ccatcggcac taattccgtt 780
ggatgggctg tcataaccga tgaatacaaa gtaccttcaa agaaatttaa ggtgttgggg 840
aacacagacc gtcattcgat taaaaagaat cttatcggtg ccctcctatt cgatagtggc 900
gaaacggcag aggcgactcg cctgaaacga accgctcgga gaaggtatac acgtcgcaag 960
aaccgaatat gttacttaca agaaattttt agcaatgaga tggccaaagt tgacgattct 1020
ttctttcacc gtttggaaga gtccttcctt gtcgaagagg acaagaaaca tgaacggcac 1080
cccatctttg gaaacatagt agatgaggtg gcatatcatg aaaagtaccc aacgatttat 1140
cacctcagaa aaaagctagt tgactcaact gataaagcgg acctgaggtt aatctacttg 1200
gctcttgccc atatgataaa gttccgtggg cactttctca ttgagggtga tctaaatccg 1260
gacaactcgg atgtcgacaa actgttcatc cagttagtac aaacctataa tcagttgttt 1320
gaagagaacc ctataaatgc aagtggcgtg gatgcgaagg ctattcttag cgcccgcctc 1380
tctaaatccc gacggctaga aaacctgatc gcacaattac ccggagagaa gaaaaatggg 1440
ttgttcggta accttatagc gctctcacta ggcctgacac caaattttaa gtcgaacttc 1500
gacttagctg aagatgccaa attgcagctt agtaaggaca cgtacgatga cgatctcgac 1560
aatctactgg cacaaattgg agatcagtat gcggacttat ttttggctgc caaaaacctt 1620
agcgatgcaa tcctcctatc tgacatactg agagttaata ctgagattac caaggcgccg 1680
ttatccgctt caatgatcaa aaggtacgat gaacatcacc aagacttgac acttctcaag 1740
gccctagtcc gtcagcaact gcctgagaaa tataaggaaa tattctttga tcagtcgaaa 1800
aacgggtacg caggttatat tgacggcgga gcgagtcaag aggaattcta caagtttatc 1860
aaacccatat tagagaagat ggatgggacg gaagagttgc ttgtaaaact caatcgcgaa 1920
gatctactgc gaaagcagcg gactttcgac aacggtagca ttccacatca aatccactta 1980
ggcgaattgc atgctatact tagaaggcag gaggattttt atccgttcct caaagacaat 2040
cgtgaaaaga ttgagaaaat cctaaccttt cgcatacctt actatgtggg acccctggcc 2100
cgagggaact ctcggttcgc atggatgaca agaaagtccg aagaaacgat tactccatgg 2160
aattttgagg aagttgtcga taaaggtgcg tcagctcaat cgttcatcga gaggatgacc 2220
aactttgaca agaatttacc gaacgaaaaa gtattgccta agcacagttt actttacgag 2280
tatttcacag tgtacaatga actcacgaaa gttaagtatg tcactgaggg catgcgtaaa 2340
cccgcctttc taagcggaga acagaagaaa gcaatagtag atctgttatt caagaccaac 2400
cgcaaagtga cagttaagca attgaaagag gactacttta agaaaattga atgcttcgat 2460
tctgtcgaga tctccggggt agaagatcga tttaatgcgt cacttggtac gtatcatgac 2520
ctcctaaaga taattaaaga taaggacttc ctggataacg aagagaatga agatatctta 2580
gaagatatag tgttgactct taccctcttt gaagatcggg aaatgattga ggaaagacta 2640
aaaacatacg ctcacctgtt cgacgataag gttatgaaac agttaaagag gcgtcgctat 2700
acgggctggg gacgattgtc gcggaaactt atcaacggga taagagacaa gcaaagtggt 2760
aaaactattc tcgattttct aaagagcgac ggcttcgcca ataggaactt tatgcagctg 2820
atccatgatg actctttaac cttcaaagag gatatacaaa aggcacaggt ttccggacaa 2880
ggggactcat tgcacgaaca tattgcgaat cttgctggtt cgccagccat caaaaagggc 2940
atactccaga cagtcaaagt agtggatgag ctagttaagg tcatgggacg tcacaaaccg 3000
gaaaacattg taatcgagat ggcacgcgaa aatcaaacga ctcagaaggg gcaaaaaaac 3060
agtcgagagc ggatgaagag aatagaagag ggtattaaag aactgggcag ccagatctta 3120
aaggagcatc ctgtggaaaa tacccaattg cagaacgaga aactttacct ctattaccta 3180
caaaatggaa gggacatgta tgttgatcag gaactggaca taaaccgttt atctgattac 3240
gacgtcgatc acattgtacc ccaatccttt ttgaaggacg attcaatcga caataaagtg 3300
cttacacgct cggataagaa ccgagggaaa agtgacaatg ttccaagcga ggaagtcgta 3360
aagaaaatga agaactattg gcggcagctc ctaaatgcga aactgataac gcaaagaaag 3420
ttcgataact taactaaagc tgagaggggt ggcttgtctg aacttgacaa ggccggattt 3480
attaaacgtc agctcgtgga aacccgccaa atcacaaagc atgttgcaca gatactagat 3540
tcccgaatga atacgaaata cgacgagaac gataagctga ttcgggaagt caaagtaatc 3600
actttaaagt caaaattggt gtcggacttc agaaaggatt ttcaattcta taaagttagg 3660
gagataaata actaccacca tgcgcacgac gcttatctta atgccgtcgt agggaccgca 3720
ctcattaaga aatacccgaa gctagaaagt gagtttgtgt atggtgatta caaagtttat 3780
gacgtccgta agatgatcgc gaaaagcgaa caggagatag gcaaggctac agccaaatac 3840
ttcttttatt ctaacattat gaatttcttt aagacggaaa tcactctggc aaacggagag 3900
atacgcaaac gacctttaat tgaaaccaat ggggagacag gtgaaatcgt atgggataag 3960
ggccgggact tcgcgacggt gagaaaagtt ttgtccatgc cccaagtcaa catagtaaag 4020
aaaactgagg tgcagaccgg agggttttca aaggaatcga ttcttccaaa aaggaatagt 4080
gataagctca tcgctcgtaa aaaggactgg gacccgaaaa agtacggtgg cttcgatagc 4140
cctacagttg cctattctgt cctagtagtg gcaaaagttg agaagggaaa atccaagaaa 4200
ctgaagtcag tcaaagaatt attggggata acgattatgg agcgctcgtc ttttgaaaag 4260
aaccccatcg acttccttga ggcgaaaggt tacaaggaag taaaaaagga tctcataatt 4320
aaactaccaa agtatagtct gtttgagtta gaaaatggcc gaaaacggat gttggctagc 4380
gccggagagc ttcaaaaggg gaacgaactc gcactaccgt ctaaatacgt gaatttcctg 4440
tatttagcgt cccattacga gaagttgaaa ggttcacctg aagataacga acagaagcaa 4500
ctttttgttg agcagcacaa acattatctc gacgaaatca tagagcaaat ttcggaattc 4560
agtaagagag tcatcctagc tgatgccaat ctggacaaag tattaagcgc atacaacaag 4620
cacagggata aacccatacg tgagcaggcg gaaaatatta tccatttgtt tactcttacc 4680
aacctcggcg ctccagccgc attcaagtat tttgacacaa cgatagatcg caaacgatac 4740
acttctacca aggaggtgct agacgcgaca ctgattcacc aatccatcac gggattatat 4800
gaaactcgga tagatttgtc acagcttggg ggtgactctg gtggttctac taatctgtca 4860
gatattattg aaaaggagac cggtaagcaa ctggttatcc aggaatccat cctcatgctc 4920
ccagaggagg tggaagaagt cattgggaac aagccggaaa gcgatatact cgtgcacacc 4980
gcctacgacg agagcaccga cgagaatgtc atgcttctga ctagcgacgc ccctgaatac 5040
aagccttggg ctctggtcat acaggatagc aacggtgaga acaagattaa gatgctctct 5100
ggtggttctc ccaagaagaa gaggaaagtc taagacgtct aa 5142
<210> 2
<211> 5214
<212> DNA
<213> Artificial Sequence
<220>
<223> APOBEC1 XTEN nCas9(D10A) UGI NLS construct codon optimized
<400> 2
atgccaaaga agaagaggaa ggtttcatcg gagaccggcc ctgttgctgt tgaccccacc 60
ctgcggcgga gaatcgagcc acacgagttc gaggtgttct tcgacccaag ggagctccgc 120
aaggaaacgt gcctcctgta cgagatcaac tggggcggca ggcactccat ctggaggcac 180
accagccaaa acaccaacaa gcacgtggag gtcaacttca tcgagaagtt caccaccgag 240
aggtacttct gcccaaacac ccgctgctcc atcacctggt tcctgtcctg gagcccatgc 300
ggcgagtgct ccagggccat caccgagttc ctcagccgct acccacacgt caccctgttc 360
atctacatcg ccaggctcta ccaccacgcc gacccaagga acaggcaggg cctccgcgac 420
ctgatctcca gcggcgtgac catccaaatc atgaccgagc aggagtccgg ctactgctgg 480
aggaacttcg tcaactactc cccaagcaac gaggcccact ggccaaggta cccacacctc 540
tgggtgcgcc tctacgtgct cgagctgtac tgcatcatcc tcggcctgcc accatgcctc 600
aacatcctga ggcgcaagca accacagctg accttcttca ccatcgccct ccaaagctgc 660
cactaccaga ggctcccacc acacatcctg tgggctaccg gcctcaagtc cggcagcgaa 720
acgccaggca cctccgagag cgctacgcct gaacttaagg acaagaagta ctcgatcggc 780
ctcgccatcg ggacgaactc agttggctgg gccgtgatca ccgacgagta caaggtgccc 840
tctaagaagt tcaaggtcct ggggaacacc gaccgccatt ccatcaagaa gaacctcatc 900
ggcgctctcc tgttcgacag cggggagacc gctgaggcta cgaggctcaa gagaaccgct 960
aggcgccggt acacgagaag gaagaacagg atctgctacc tccaagagat tttctccaac 1020
gagatggcca aggttgacga ttcattcttc caccgcctgg aggagtcttt cctcgtggag 1080
gaggataaga agcacgagcg gcatcccatc ttcggcaaca tcgtggacga ggttgcctac 1140
cacgagaagt accctacgat ctaccatctg cggaagaagc tcgtggactc caccgataag 1200
gcggacctca gactgatcta cctcgctctg gcccacatga tcaagttccg cggccatttc 1260
ctgatcgagg gggatctcaa cccagacaac agcgatgttg acaagctgtt catccaactc 1320
gtgcagacct acaaccaact cttcgaggag aacccgatca acgcctctgg cgtggacgcg 1380
aaggctatcc tgtccgcgag gctctcgaag tccaggaggc tggagaacct gatcgctcag 1440
ctcccaggcg agaagaagaa cggcctgttc gggaacctca tcgctctcag cctggggctc 1500
accccgaact tcaagtcgaa cttcgatctc gctgaggacg ccaagctgca actctccaag 1560
gacacctacg acgatgacct cgataacctc ctggcccaga tcggcgatca atacgcggac 1620
ctgttcctcg ctgccaagaa cctgtcggac gccatcctcc tgtcagatat cctccgcgtg 1680
aacaccgaga tcacgaaggc tccactctct gcctccatga tcaagcgcta cgacgagcac 1740
catcaggatc tgaccctcct gaaggcgctg gtccgccaac agctcccgga gaagtacaag 1800
gagattttct tcgatcagtc gaagaacggc tacgctgggt acatcgacgg cggggcctca 1860
caagaggagt tctacaagtt catcaagcca atcctggaga agatggacgg cacggaggag 1920
ctcctggtga agctcaacag ggaggacctc ctgcggaagc agagaacctt cgataacggc 1980
agcatccccc accaaatcca tctcggggag ctgcacgcca tcctgagaag gcaagaggac 2040
ttctaccctt tcctcaagga taaccgggag aagatcgaga agatcctgac cttcagaatc 2100
ccatactacg tcggccctct cgcgcggggg aactcaagat tcgcttggat gacccgcaag 2160
tctgaggaga ccatcacgcc gtggaacttc gaggaggtgg tggacaaggg cgctagcgct 2220
cagtcgttca tcgagaggat gaccaacttc gacaagaacc tgcccaacga gaaggtgctc 2280
cctaagcact cgctcctgta cgagtacttc accgtctaca acgagctcac gaaggtgaag 2340
tacgtcaccg agggcatgcg caagccagcg ttcctgtccg gggagcagaa gaaggctatc 2400
gtggacctcc tgttcaagac caaccggaag gtcacggtta agcaactcaa ggaggactac 2460
ttcaagaaga tcgagtgctt cgattcggtc gagatcagcg gcgttgagga ccgcttcaac 2520
gccagcctcg ggacctacca cgatctcctg aagatcatca aggataagga cttcctggac 2580
aacgaggaga acgaggatat cctggaggac atcgtgctga ccctcacgct gttcgaggac 2640
agggagatga tcgaggagcg cctgaagacg tacgcccatc tcttcgatga caaggtcatg 2700
aagcaactca agcgccggag atacaccggc tgggggaggc tgtcccgcaa gctcatcaac 2760
ggcatccggg acaagcagtc cgggaagacc atcctcgact tcctcaagag cgatggcttc 2820
gccaacagga acttcatgca actgatccac gatgacagcc tcaccttcaa ggaggatatc 2880
caaaaggctc aagtgagcgg ccagggggac tcgctgcacg agcatatcgc gaacctcgct 2940
ggctcccccg cgatcaagaa gggcatcctc cagaccgtga aggttgtgga cgagctcgtg 3000
aaggtcatgg gccggcacaa gcctgagaac atcgtcatcg agatggccag agagaaccaa 3060
accacgcaga aggggcaaaa gaactctagg gagcgcatga agcgcatcga ggagggcatc 3120
aaggagctgg ggtcccaaat cctcaaggag cacccagtgg agaacaccca actgcagaac 3180
gagaagctct acctgtacta cctccagaac ggcagggata tgtacgtgga ccaagagctg 3240
gatatcaacc gcctcagcga ttacgatgtc gatcatatcg ttccccagtc tttcctgaag 3300
gatgactcca tcgacaacaa ggtcctcacc aggtcggaca agaaccgcgg caagtcagat 3360
aacgttccat ctgaggaggt cgttaagaag atgaagaact actggaggca gctcctgaac 3420
gccaagctga tcacgcaaag gaagttcgac aacctcacca aggctgagag aggcgggctc 3480
tcagagctgg acaaggccgg cttcatcaag cggcagctgg tcgagaccag acaaatcacg 3540
aagcacgttg cgcaaatcct cgactctcgg atgaacacga agtacgatga gaacgacaag 3600
ctgatcaggg aggttaaggt gatcaccctg aagtctaagc tcgtttccga cttcaggaag 3660
gatttccagt tctacaaggt tcgcgagatc aacaactacc accatgccca tgacgcttac 3720
ctcaacgctg tggtcggcac cgctctgatc aagaagtacc caaagctgga gtccgagttc 3780
gtgtacgggg actacaaggt ttacgatgtg cgcaagatga tcgccaagtc ggagcaagag 3840
atcggcaagg ctaccgccaa gtacttcttc tactcaaaca tcatgaactt cttcaagacc 3900
gagatcacgc tggccaacgg cgagatccgg aagagaccgc tcatcgagac caacggcgaa 3960
acgggggaga tcgtgtggga caagggcagg gatttcgcga ccgtccgcaa ggttctctcc 4020
atgccccagg tgaacatcgt caagaagacc gaggtccaaa cgggcgggtt ctcaaaggag 4080
tctatcctgc ctaagcggaa cagcgacaag ctcatcgcca gaaagaagga ctgggaccca 4140
aagaagtacg gcgggttcga cagccctacc gtggcctact cggtcctggt tgtggcgaag 4200
gttgagaagg gcaagtccaa gaagctcaag agcgtgaagg agctcctggg gatcaccatc 4260
atggagaggt ccagcttcga gaagaaccca atcgacttcc tggaggccaa gggctacaag 4320
gaggtgaaga aggacctgat catcaagctc ccgaagtact ctctcttcga gctggagaac 4380
ggcaggaaga gaatgctggc ttccgctggc gagctccaga aggggaacga gctcgcgctg 4440
ccaagcaagt acgtgaactt cctctacctg gcttcccact acgagaagct caagggcagc 4500
ccggaggaca acgagcaaaa gcagctgttc gtcgagcagc acaagcatta cctcgacgag 4560
atcatcgagc aaatctccga gttcagcaag cgcgtgatcc tcgccgacgc gaacctggat 4620
aaggtcctct ccgcctacaa caagcaccgg gacaagccca tcagagagca agcggagaac 4680
atcatccatc tcttcaccct gacgaacctc ggcgctcctg ctgctttcaa gtacttcgac 4740
accacgatcg atcggaagag atacacctcc acgaaggagg tcctggacgc gaccctcatc 4800
caccagtcga tcaccggcct gtacgaaacg aggatcgacc tctcacaact cggcggggat 4860
aagagacccg cagcaaccaa gaaggcaggg caagcaaaga agaagaagac gcgtgactcc 4920
ggcggcagca ccaacctgtc cgacatcatc gagaaggaaa cgggcaagca actcgtgatc 4980
caggagagca tcctcatgct gccagaggag gtggaggagg tcatcggcaa caagccagag 5040
tccgacatcc tggtgcacac cgcctacgac gagtccaccg acgagaacgt catgctcctg 5100
accagcgacg ccccagagta caagccatgg gccctcgtca tccaggacag caacggggag 5160
aacaagatca agatgctgtc gggggggagc ccaaagaaga agcggaaggt gtag 5214
<210> 3
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 3
caggtgccgc gacgcatgat 20
<210> 4
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 4
cacgggacag gtgccgcgac g 21
<210> 5
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 5
gggacaggtg ccgcgacgca 20
<210> 6
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 6
gccccaccac tagggatcat 20
<210> 7
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 7
atcaccagca tagacacctt 20
<210> 8
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 8
aggatcacca gcatagacac c 21
<210> 9
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 9
cttagaagga tcaccagcat 20
<210> 10
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 10
ctgagcagaa aggctcaatg 20
<210> 11
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 11
ataagcacct gagcagaaag g 21
<210> 12
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 12
cctttctgct caggtgctta t 21
<210> 13
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 13
acctgagcag aaaggctcaa 20
<210> 14
<211> 4047
<212> DNA
<213> Artificial Sequence
<220>
<223> APOBEC1 XTEN linker CasX1 UGI NLS codon optimized
<400> 14
atgccaaaga agaagaggaa ggtttcatcg gagaccggcc ctgttgctgt tgaccccacc 60
ctgcggcgga gaatcgagcc acacgagttc gaggtgttct tcgacccaag ggagctccgc 120
aaggaaacgt gcctcctgta cgagatcaac tggggcggca ggcactccat ctggaggcac 180
accagccaaa acaccaacaa gcacgtggag gtcaacttca tcgagaagtt caccaccgag 240
aggtacttct gcccaaacac ccgctgctcc atcacctggt tcctgtcctg gagcccatgc 300
ggcgagtgct ccagggccat caccgagttc ctcagccgct acccacacgt caccctgttc 360
atctacatcg ccaggctcta ccaccacgcc gacccaagga acaggcaggg cctccgcgac 420
ctgatctcca gcggcgtgac catccaaatc atgaccgagc aggagtccgg ctactgctgg 480
aggaacttcg tcaactactc cccaagcaac gaggcccact ggccaaggta cccacacctc 540
tgggtgcgcc tctacgtgct cgagctgtac tgcatcatcc tcggcctgcc accatgcctc 600
aacatcctga ggcgcaagca accacagctg accttcttca ccatcgccct ccaaagctgc 660
cactaccaga ggctcccacc acacatcctg tgggctaccg gcctcaagtc cggcagcgaa 720
acgccaggca cctccgagag cgctacgcct gaacttaagg agaagagaat taacaagatc 780
agaaaaaaat tgagcgccga caatgcgact aaaccagttt ccagaagcgg ccctatgaaa 840
acgctcctcg tgcgggtcat gacagatgac cttaaaaaac gccttgagaa gcgcagaaag 900
aaaccggaag tgatgcctca agttatttcc aataatgccg ccaataacct ccgcatgctt 960
ttggatgact acaccaaaat gaaggaagcg atacttcaag tttactggca agagttcaaa 1020
gatgatcacg ttggtcttat gtgtaaattt gcccaaccgg cctctaagaa gatagatcag 1080
aacaagctga agccagagat ggacgagaag ggaaatctca cgactgcggg cttcgcgtgc 1140
tcgcaatgtg gtcagcctct ctttgtgtat aaacttgagc aagtctcaga gaaggggaaa 1200
gcatatacga actacttcgg tagatgcaac gtggcagagc atgaaaaact tattttgctc 1260
gctcagctga aaccggagaa agactcggac gaagcagtta cttatagcct tggcaaattt 1320
ggccaaaggg cactcgactt ctatagcatc cacgtgacga aggaatctac gcatccagtg 1380
aaaccattgg cgcagattgc aggaaatcgc tatgcgtcgg gaccggtggg caaggccctt 1440
tcggatgcct gtatgggtac gatagcttcc tttttgtcaa agtaccaaga tataattatc 1500
gaacaccaaa aggtcgtcaa ggggaatcaa aagagattgg aaagtttgag ggagctcgct 1560
ggcaaggaga atctcgaata tccatcagtc acgctccctc cgcagccaca taccaaggaa 1620
ggggttgacg cttataatga ggttatcgcg cgggtccgca tgtgggtcaa cttgaatctt 1680
tggcaaaaac tcaaactgtc cagagatgat gcaaagcctt tgctcaggtt gaagggcttc 1740
ccttcgttcc cagtcgttga aaggagagaa aacgaagtcg attggtggaa cactatcaat 1800
gaagtgaaaa agctcattga tgctaagaga gacatgggta gggtcttttg gtctggagtt 1860
accgcagaaa agcggaatac tattctggaa ggctacaact atcttcccaa cgaaaacgac 1920
cacaagaaaa gggaggggag cctcgaaaat cccaaaaaac cggcgaaacg ccaatttggg 1980
gatctgcttc tttatctgga gaagaagtat gcaggcgact ggggaaaagt gtttgacgag 2040
gcttgggagc gcatcgacaa aaagatcgct ggcctcacat cacacataga aagggaggag 2100
gcaaggaatg cagaagatgc gcagagcaaa gcagttctta cggattggtt gcgcgctaag 2160
gcttcctttg ttttggagcg cttgaaggaa atggacgaaa aggaatttta tgcgtgcgaa 2220
atccagctgc aaaaatggta tggtgatttg agggggaacc ccttcgctgt ggaagccgaa 2280
aaccgggtcg tggacatatc cgggttttcc atagggtcgg acggtcactc cattcaatac 2340
cggaatttgc ttgcatggaa atatcttgag aacggtaagc gggagtttta tttgctgatg 2400
aactacggaa aaaagggtcg cattaggttc actgatggca cagatattaa aaaaagcggt 2460
aagtggcaag gtcttctgta cggcggagga aaggcgaagg ttatcgactt gacctttgac 2520
ccagacgatg agcagttgat tattttgcct ttggcattcg gtacaagaca agggagggaa 2580
ttcatctgga acgatctgct ctcccttgaa acgggtctca tcaagctggc taacggcaga 2640
gtcatagaga aaaccatata taataagaag attggtagag atgagccggc tctttttgtg 2700
gcgctcactt tcgagaggcg cgaggtcgtt gacccgtcca acatcaagcc cgttaacctg 2760
atcggtgttg ataggggaga aaacataccg gcggtgatag cacttaccga cccagaggga 2820
tgccccctcc cagaattcaa agattcttcg gggggaccaa ctgacattct caggataggt 2880
gagggctata aggagaagca gcgcgctatc caagcggcga aggaagtcga gcaacggaga 2940
gcggggggct attctcggaa attcgcatcg aaaagccgga atcttgccga cgacatggtc 3000
aggaactcag ccagggacct cttctatcac gcggttacgc acgacgccgt tcttgttttt 3060
gaaaatctct cgcggggttt tggacggcaa ggtaagcgga cctttatgac ggaaagacag 3120
tacaccaaaa tggaagattg gctcaccgcg aagctcgcgt acgaggggct tacatctaaa 3180
acgtacttgt ccaaaacact cgcccagtac actagcaaaa cgtgttctaa ctgcggcttt 3240
acgatcacta ccgcggacta cgacggcatg ctcgtcaggc tcaagaaaac gtctgacgga 3300
tgggcaacca cacttaacaa taaagagctc aaggctgaag gtcagatcac atattataat 3360
agatataaga ggcagaccgt ggagaaggag ctgtcagctg agcttgacag gttgtctgag 3420
gagtccggca acaacgatat ttctaagtgg acaaaaggac ggagagatga agcattgttt 3480
ctgctcaaaa agcggttctc gcacaggccc gttcaggagc agtttgtttg tcttgattgc 3540
ggtcacgagg tccacgcgga tgagcaggcc gctctcaata tagcgaggag ctggttgttt 3600
ttgaactcta attccacaga attcaaaagc tataagtccg ggaagcaacc gttcgtgggc 3660
gcttggcaag ccttttataa gcgcaggctc aaggaggttt ggaaaccaaa cgctaaacgc 3720
cccgcggcta caaagaaggc tggccaggca aagaagaaga agaccaacct gtccgacatc 3780
atcgagaagg aaacgggcaa gcaactcgtg atccaggaga gcatcctcat gctgccagag 3840
gaggtggagg aggtcatcgg caacaagcca gagtccgaca tcctggtgca caccgcctac 3900
gacgagtcca ccgacgagaa cgtcatgctc ctgaccagcg acgccccaga gtacaagcca 3960
tgggccctcg tcatccagga cagcaacggg gagaacaaga tcaagatgct gtcggggggg 4020
agcccaaaga agaagcggaa ggtgtag 4047
<210> 15
<211> 4962
<212> DNA
<213> Artificial Sequence
<220>
<223> APOBEC1 XTEN linker AsCpf1(R1226A) UGI NLS codon optimized
<400> 15
atgccaaaga agaagaggaa ggtttcatcg gagaccggcc ctgttgctgt tgaccccacc 60
ctgcggcgga gaatcgagcc acacgagttc gaggtgttct tcgacccaag ggagctccgc 120
aaggaaacgt gcctcctgta cgagatcaac tggggcggca ggcactccat ctggaggcac 180
accagccaaa acaccaacaa gcacgtggag gtcaacttca tcgagaagtt caccaccgag 240
aggtacttct gcccaaacac ccgctgctcc atcacctggt tcctgtcctg gagcccatgc 300
ggcgagtgct ccagggccat caccgagttc ctcagccgct acccacacgt caccctgttc 360
atctacatcg ccaggctcta ccaccacgcc gacccaagga acaggcaggg cctccgcgac 420
ctgatctcca gcggcgtgac catccaaatc atgaccgagc aggagtccgg ctactgctgg 480
aggaacttcg tcaactactc cccaagcaac gaggcccact ggccaaggta cccacacctc 540
tgggtgcgcc tctacgtgct cgagctgtac tgcatcatcc tcggcctgcc accatgcctc 600
aacatcctga ggcgcaagca accacagctg accttcttca ccatcgccct ccaaagctgc 660
cactaccaga ggctcccacc acacatcctg tgggctaccg gcctcaagtc cggcagcgaa 720
acgccaggca cctccgagag cgctacgcct gaacttaaga cccaatttga gggatttacg 780
aatctttatc aagtttcaaa gacgcttagg tttgagctca ttccacaagg aaaaaccttg 840
aagcacattc aagagcaggg ctttatcgag gaagacaagg cacggaatga ccattataaa 900
gaattgaaac ccataatcga tcgcatatac aaaacttatg ccgaccaatg cttgcagctt 960
gtccaactcg actgggaaaa tctctcggct gcgatagact cttacaggaa ggaaaagaca 1020
gaagaaacaa gaaacgccct cattgaagag caggctacgt atagaaatgc tattcacgac 1080
tatttcattg gcagaacaga taacttgacg gacgccataa acaaaagaca tgcggagatc 1140
tacaagggat tgttcaaagc ggagcttttc aacggaaaag ttctcaagca gcttggcacg 1200
gtcaccacta ccgaacacga aaacgccttg ttgaggagct tcgataagtt cacgacatat 1260
ttctctggtt tctatgagaa tcggaagaat gtcttctctg cagaagacat ttcaaccgca 1320
atcccacacc ggattgtgca agataacttt ccgaaattta aggaaaactg tcacatcttc 1380
actaggttga ttacggctgt tccatctctt agagaacact tcgaaaacgt caaaaaagct 1440
ataggcattt tcgtctcaac gagcatagag gaggtcttct cgttcccttt ctataaccag 1500
cttctcaccc agacacagat tgatctctat aatcaactcc ttggtggtat ttcaagggaa 1560
gccgggacgg agaagattaa ggggttgaat gaagttctca atctggcgat acagaagaat 1620
gacgaaaccg cccatattat agcttccctc ccacatcggt ttataccgtt gttcaagcag 1680
atcctgtcgg accgcaacac gctttctttc atactcgaag agttcaaaag cgacgaggaa 1740
gtcatacaga gcttctgtaa gtataaaaca cttttgagga atgaaaacgt tcttgaaact 1800
gccgaggcct tgtttaacga gctcaacagc atagatctta cgcatatttt tatttcccac 1860
aaaaaattgg aaactataag ctcagcgctg tgtgatcact gggatacgct tcgcaatgcc 1920
ctttatgagc gcaggatcag cgaactgacg gggaagatta cgaaatctgc gaaagagaaa 1980
gttcaaaggt cccttaagca cgaggatatt aatctccaag aaataataag cgcggctggt 2040
aaagaacttt ccgaagcttt caagcaaaag acatccgaaa tactctccca tgcgcatgca 2100
gccctggacc aaccattgcc aacaactttg aagaaacaag aagagaagga aatcctgaag 2160
tcccaactcg actctttgct cggcctctat cacttgcttg attggttcgc ggttgatgag 2220
tccaacgaag ttgaccctga gttcagcgcc aggttgaccg gtataaagtt ggaaatggaa 2280
ccaagcctct cattttacaa caaggcgagg aactacgcga ccaagaaacc atacagcgtc 2340
gaaaagttta agcttaactt tcaaatgcca acgctcgctt ccggttggga tgttaacaaa 2400
gaaaaaaata acggcgccat cttgtttgtt aaaaacggtt tgtattacct cggcatcatg 2460
ccaaaacaaa agggtcggta caaggctctg agcttcgagc caacagagaa aacaagcgaa 2520
ggcttcgaca agatgtatta tgattacttt cccgatgcag ctaaaatgat ccccaagtgc 2580
tcaacacagc ttaaagcggt taccgcccat ttccagactc acacgacccc aattctcttg 2640
tcaaataact ttattgaacc cttggaaata accaaagaga tatatgacct taataacccg 2700
gagaaagaac ccaagaagtt ccagacggcg tacgctaaga aaacaggaga tcagaagggc 2760
tatagggagg ccctttgtaa atggattgac tttacaaggg actttttgtc gaaatatacg 2820
aagaccactt caattgacct ttcgtccctg cggccgtcta gccagtataa agatttgggt 2880
gagtactatg cggaacttaa tcctttgttg taccacatat cttttcaacg gattgcagag 2940
aaggagataa tggatgcggt cgaaacagga aagctctatc tgttccagat ttacaataaa 3000
gattttgcca agggacacca tggaaaacct aacctgcata ctctttactg gacgggtctt 3060
ttctcgccgg aaaatttggc taagacgtct atcaagttga atgggcaggc agaactcttc 3120
tatcgcccta agtctaggat gaaacggatg gctcatcggc tgggtgaaaa aatgctcaac 3180
aaaaagctta aggatcaaaa gacaccaatc ccggacacac tttatcaaga attgtacgat 3240
tacgttaatc acagactctc acatgacctt tcagatgagg cccgcgcttt gcttcccaat 3300
gttattacta aagaggtctc gcatgagatc ataaaagata gaagattcac gtctgataag 3360
ttcttttttc atgtgccaat aactctcaac tatcaggccg caaattcgcc gtccaagttc 3420
aaccaaaggg tgaatgccta cctcaaggag cacccggaga cgccaataat aggtatcgat 3480
cggggcgaac gcaaccttat ttatataaca gttatcgata gcacagggaa aatactggag 3540
cagcggagcc tgaatactat tcaacagttt gactaccaaa agaaactgga caatagagag 3600
aaggagcgcg tcgccgcccg gcaagcttgg tccgtggtcg gaactataaa agatcttaaa 3660
cagggatacc tgtcacaggt catccatgaa atcgtggatc tgatgataca ctatcaagct 3720
gttgtcgtgc tcgaaaactt gaattttgga ttcaaatcga agagaactgg aatcgctgaa 3780
aaagcggtgt accaacagtt cgagaagatg ctcatcgata agcttaattg tttggtgctt 3840
aaggactatc ccgccgaaaa ggttgggggg gtgctgaacc cgtatcagct cacagatcaa 3900
tttacttcat tcgcgaagat gggaacgcag tcaggatttc tgttctacgt tccagcccct 3960
tatacgtcga aaattgaccc tcttacgggg ttcgtggacc cctttgtttg gaaaacgata 4020
aaaaaccacg agtcacgcaa gcactttctc gagggatttg attttcttca ttatgatgtg 4080
aagaccgggg acttcatttt gcactttaag atgaacagga acttgtcttt ccaaaggggc 4140
ttgcctggat tcatgccggc ctgggatatc gtgtttgaaa agaacgaaac acagttcgat 4200
gcgaaaggga cgcccttcat agctggaaag cgcatagttc cagtgattga gaaccacaga 4260
ttcactggtc gctacagaga cctgtatccg gcaaatgaac tgatagcact ccttgaggaa 4320
aagggtatcg tgtttcgcga tggttcaaat attctcccga agcttttgga gaacgacgat 4380
tctcatgcta tagatactat ggtcgctctc atccggtccg tccttcaaat ggccaattcg 4440
aatgcagcga ccggtgagga ttacataaat tcaccagtcc gggaccttaa tggggtttgc 4500
ttcgactcgc gctttcaaaa ccccgaatgg ccaatggacg ccgatgctaa cggtgcctac 4560
catatagcac ttaaaggaca gcttctgttg aatcacctta aagaatcaaa agaccttaag 4620
ctgcagaatg gaatttcaaa tcaggattgg ctcgcgtaca tacaggagct tcgcaatacc 4680
aacctgtccg acatcatcga gaaggaaacg ggcaagcaac tcgtgatcca ggagagcatc 4740
ctcatgctgc cagaggaggt ggaggaggtc atcggcaaca agccagagtc cgacatcctg 4800
gtgcacaccg cctacgacga gtccaccgac gagaacgtca tgctcctgac cagcgacgcc 4860
ccagagtaca agccatgggc cctcgtcatc caggacagca acggggagaa caagatcaag 4920
atgctgtcgg gggggagccc aaagaagaag cggaaggtgt ag 4962
<210> 16
<211> 5121
<212> DNA
<213> Artificial Sequence
<220>
<223> NLS dCas9 NLS Linker PmCDA1 UGI construct
<400> 16
atgccaaaga agaagaggaa ggttgacaag aagtactcga tcggcctcgc catcgggacg 60
aactcagttg gctgggccgt gatcaccgac gagtacaagg tgccctctaa gaagttcaag 120
gtcctgggga acaccgaccg ccattccatc aagaagaacc tcatcggcgc tctcctgttc 180
gacagcgggg agaccgctga ggctacgagg ctcaagagaa ccgctaggcg ccggtacacg 240
agaaggaaga acaggatctg ctacctccaa gagattttct ccaacgagat ggccaaggtt 300
gacgattcat tcttccaccg cctggaggag tctttcctcg tggaggagga taagaagcac 360
gagcggcatc ccatcttcgg caacatcgtg gacgaggttg cctaccacga gaagtaccct 420
acgatctacc atctgcggaa gaagctcgtg gactccaccg ataaggcgga cctcagactg 480
atctacctcg ctctggccca catgatcaag ttccgcggcc atttcctgat cgagggggat 540
ctcaacccag acaacagcga tgttgacaag ctgttcatcc aactcgtgca gacctacaac 600
caactcttcg aggagaaccc gatcaacgcc tctggcgtgg acgcgaaggc tatcctgtcc 660
gcgaggctct cgaagtccag gaggctggag aacctgatcg ctcagctccc aggcgagaag 720
aagaacggcc tgttcgggaa cctcatcgct ctcagcctgg ggctcacccc gaacttcaag 780
tcgaacttcg atctcgctga ggacgccaag ctgcaactct ccaaggacac ctacgacgat 840
gacctcgata acctcctggc ccagatcggc gatcaatacg cggacctgtt cctcgctgcc 900
aagaacctgt cggacgccat cctcctgtca gatatcctcc gcgtgaacac cgagatcacg 960
aaggctccac tctctgcctc catgatcaag cgctacgacg agcaccatca ggatctgacc 1020
ctcctgaagg cgctggtccg ccaacagctc ccggagaagt acaaggagat tttcttcgat 1080
cagtcgaaga acggctacgc tgggtacatc gacggcgggg cctcacaaga ggagttctac 1140
aagttcatca agccaatcct ggagaagatg gacggcacgg aggagctcct ggtgaagctc 1200
aacagggagg acctcctgcg gaagcagaga accttcgata acggcagcat cccccaccaa 1260
atccatctcg gggagctgca cgccatcctg agaaggcaag aggacttcta ccctttcctc 1320
aaggataacc gggagaagat cgagaagatc ctgaccttca gaatcccata ctacgtcggc 1380
cctctcgcgc gggggaactc aagattcgct tggatgaccc gcaagtctga ggagaccatc 1440
acgccgtgga acttcgagga ggtggtggac aagggcgcta gcgctcagtc gttcatcgag 1500
aggatgacca acttcgacaa gaacctgccc aacgagaagg tgctccctaa gcactcgctc 1560
ctgtacgagt acttcaccgt ctacaacgag ctcacgaagg tgaagtacgt caccgagggc 1620
atgcgcaagc cagcgttcct gtccggggag cagaagaagg ctatcgtgga cctcctgttc 1680
aagaccaacc ggaaggtcac ggttaagcaa ctcaaggagg actacttcaa gaagatcgag 1740
tgcttcgatt cggtcgagat cagcggcgtt gaggaccgct tcaacgccag cctcgggacc 1800
taccacgatc tcctgaagat catcaaggat aaggacttcc tggacaacga ggagaacgag 1860
gatatcctgg aggacatcgt gctgaccctc acgctgttcg aggacaggga gatgatcgag 1920
gagcgcctga agacgtacgc ccatctcttc gatgacaagg tcatgaagca actcaagcgc 1980
cggagataca ccggctgggg gaggctgtcc cgcaagctca tcaacggcat ccgggacaag 2040
cagtccggga agaccatcct cgacttcctc aagagcgatg gcttcgccaa caggaacttc 2100
atgcaactga tccacgatga cagcctcacc ttcaaggagg atatccaaaa ggctcaagtg 2160
agcggccagg gggactcgct gcacgagcat atcgcgaacc tcgctggctc ccccgcgatc 2220
aagaagggca tcctccagac cgtgaaggtt gtggacgagc tcgtgaaggt catgggccgg 2280
cacaagcctg agaacatcgt catcgagatg gccagagaga accaaaccac gcagaagggg 2340
caaaagaact ctagggagcg catgaagcgc atcgaggagg gcatcaagga gctggggtcc 2400
caaatcctca aggagcaccc agtggagaac acccaactgc agaacgagaa gctctacctg 2460
tactacctcc agaacggcag ggatatgtac gtggaccaag agctggatat caaccgcctc 2520
agcgattacg atgtcgatca tatcgttccc cagtctttcc tgaaggatga ctccatcgac 2580
aacaaggtcc tcaccaggtc ggacaagaac cgcggcaagt cagataacgt tccatctgag 2640
gaggtcgtta agaagatgaa gaactactgg aggcagctcc tgaacgccaa gctgatcacg 2700
caaaggaagt tcgacaacct caccaaggct gagagaggcg ggctctcaga gctggacaag 2760
gccggcttca tcaagcggca gctggtcgag accagacaaa tcacgaagca cgttgcgcaa 2820
atcctcgact ctcggatgaa cacgaagtac gatgagaacg acaagctgat cagggaggtt 2880
aaggtgatca ccctgaagtc taagctcgtt tccgacttca ggaaggattt ccagttctac 2940
aaggttcgcg agatcaacaa ctaccaccat gcccatgacg cttacctcaa cgctgtggtc 3000
ggcaccgctc tgatcaagaa gtacccaaag ctggagtccg agttcgtgta cggggactac 3060
aaggtttacg atgtgcgcaa gatgatcgcc aagtcggagc aagagatcgg caaggctacc 3120
gccaagtact tcttctactc aaacatcatg aacttcttca agaccgagat cacgctggcc 3180
aacggcgaga tccggaagag accgctcatc gagaccaacg gcgaaacggg ggagatcgtg 3240
tgggacaagg gcagggattt cgcgaccgtc cgcaaggttc tctccatgcc ccaggtgaac 3300
atcgtcaaga agaccgaggt ccaaacgggc gggttctcaa aggagtctat cctgcctaag 3360
cggaacagcg acaagctcat cgccagaaag aaggactggg acccaaagaa gtacggcggg 3420
ttcgacagcc ctaccgtggc ctactcggtc ctggttgtgg cgaaggttga gaagggcaag 3480
tccaagaagc tcaagagcgt gaaggagctc ctggggatca ccatcatgga gaggtccagc 3540
ttcgagaaga acccaatcga cttcctggag gccaagggct acaaggaggt gaagaaggac 3600
ctgatcatca agctcccgaa gtactctctc ttcgagctgg agaacggcag gaagagaatg 3660
ctggcttccg ctggcgagct ccagaagggg aacgagctcg cgctgccaag caagtacgtg 3720
aacttcctct acctggcttc ccactacgag aagctcaagg gcagcccgga ggacaacgag 3780
caaaagcagc tgttcgtcga gcagcacaag cattacctcg acgagatcat cgagcaaatc 3840
tccgagttca gcaagcgcgt gatcctcgcc gacgcgaacc tggataaggt cctctccgcc 3900
tacaacaagc accgggacaa gcccatcaga gagcaagcgg agaacatcat ccatctcttc 3960
accctgacga acctcggcgc tcctgctgct ttcaagtact tcgacaccac gatcgatcgg 4020
aagagataca cctccacgaa ggaggtcctg gacgcgaccc tcatccacca gtcgatcacc 4080
ggcctgtacg aaacgaggat cgacctctca caactcggcg gggataagag acccgcagca 4140
accaagaagg cagggcaagc aaagaagaag aagacgcgtg actccggcgg cagcccaaag 4200
aagaagagga aggttggtgg aggaggttct ggaggtggag gttctatgac cgacgctgag 4260
tacgtgagaa tccatgagaa gttggacatc tacacgttta agaaacagtt tttcaacaac 4320
aaaaaatccg tgtcgcatag atgctacgtt ctctttgaat taaaacgacg gggtgaacgt 4380
agagcgtgtt tttggggcta tgctgtgaat aaaccacaga gcgggacaga acgtggcatt 4440
cacgccgaaa tctttagcat tagaaaagtc gaagaatacc tgcgcgacaa ccccggacaa 4500
ttcacgataa attggtactc atcctggagt ccttgtgcag attgcgctga aaagatctta 4560
gaatggtata accaggagct gcgggggaac ggccacactt tgaaaatctg ggcttgcaaa 4620
ctctattacg agaaaaatgc gaggaatcaa attgggctgt ggaacctcag agataacggg 4680
gttgggttga atgtaatggt aagtgaacac taccaatgtt gcaggaaaat attcatccaa 4740
tcgtcgcaca atcaattgaa tgagaataga tggcttgaga agactttgaa gcgagctgaa 4800
aaacgacgga gcgagttgtc cattatgatt caggtaaaaa tactccacac cactaagagt 4860
cctgctgtta ccaacctgtc cgacatcatc gagaaggaaa cgggcaagca actcgtgatc 4920
caggagagca tcctcatgct gccagaggag gtggaggagg tcatcggcaa caagccagag 4980
tccgacatcc tggtgcacac cgcctacgac gagtccaccg acgagaacgt catgctcctg 5040
accagcgacg ccccagagta caagccatgg gccctcgtca tccaggacag caacggggag 5100
aacaagatca agatgctgtg a 5121
<210> 17
<211> 4101
<212> DNA
<213> Artificial Sequence
<220>
<223> nCas9 (D10A)
<400> 17
gataaaaagt attctattgg tttagccatc ggcactaatt ccgttggatg ggctgtcata 60
accgatgaat acaaagtacc ttcaaagaaa tttaaggtgt tggggaacac agaccgtcat 120
tcgattaaaa agaatcttat cggtgccctc ctattcgata gtggcgaaac ggcagaggcg 180
actcgcctga aacgaaccgc tcggagaagg tatacacgtc gcaagaaccg aatatgttac 240
ttacaagaaa tttttagcaa tgagatggcc aaagttgacg attctttctt tcaccgtttg 300
gaagagtcct tccttgtcga agaggacaag aaacatgaac ggcaccccat ctttggaaac 360
atagtagatg aggtggcata tcatgaaaag tacccaacga tttatcacct cagaaaaaag 420
ctagttgact caactgataa agcggacctg aggttaatct acttggctct tgcccatatg 480
ataaagttcc gtgggcactt tctcattgag ggtgatctaa atccggacaa ctcggatgtc 540
gacaaactgt tcatccagtt agtacaaacc tataatcagt tgtttgaaga gaaccctata 600
aatgcaagtg gcgtggatgc gaaggctatt cttagcgccc gcctctctaa atcccgacgg 660
ctagaaaacc tgatcgcaca attacccgga gagaagaaaa atgggttgtt cggtaacctt 720
atagcgctct cactaggcct gacaccaaat tttaagtcga acttcgactt agctgaagat 780
gccaaattgc agcttagtaa ggacacgtac gatgacgatc tcgacaatct actggcacaa 840
attggagatc agtatgcgga cttatttttg gctgccaaaa accttagcga tgcaatcctc 900
ctatctgaca tactgagagt taatactgag attaccaagg cgccgttatc cgcttcaatg 960
atcaaaaggt acgatgaaca tcaccaagac ttgacacttc tcaaggccct agtccgtcag 1020
caactgcctg agaaatataa ggaaatattc tttgatcagt cgaaaaacgg gtacgcaggt 1080
tatattgacg gcggagcgag tcaagaggaa ttctacaagt ttatcaaacc catattagag 1140
aagatggatg ggacggaaga gttgcttgta aaactcaatc gcgaagatct actgcgaaag 1200
cagcggactt tcgacaacgg tagcattcca catcaaatcc acttaggcga attgcatgct 1260
atacttagaa ggcaggagga tttttatccg ttcctcaaag acaatcgtga aaagattgag 1320
aaaatcctaa cctttcgcat accttactat gtgggacccc tggcccgagg gaactctcgg 1380
ttcgcatgga tgacaagaaa gtccgaagaa acgattactc catggaattt tgaggaagtt 1440
gtcgataaag gtgcgtcagc tcaatcgttc atcgagagga tgaccaactt tgacaagaat 1500
ttaccgaacg aaaaagtatt gcctaagcac agtttacttt acgagtattt cacagtgtac 1560
aatgaactca cgaaagttaa gtatgtcact gagggcatgc gtaaacccgc ctttctaagc 1620
ggagaacaga agaaagcaat agtagatctg ttattcaaga ccaaccgcaa agtgacagtt 1680
aagcaattga aagaggacta ctttaagaaa attgaatgct tcgattctgt cgagatctcc 1740
ggggtagaag atcgatttaa tgcgtcactt ggtacgtatc atgacctcct aaagataatt 1800
aaagataagg acttcctgga taacgaagag aatgaagata tcttagaaga tatagtgttg 1860
actcttaccc tctttgaaga tcgggaaatg attgaggaaa gactaaaaac atacgctcac 1920
ctgttcgacg ataaggttat gaaacagtta aagaggcgtc gctatacggg ctggggacga 1980
ttgtcgcgga aacttatcaa cgggataaga gacaagcaaa gtggtaaaac tattctcgat 2040
tttctaaaga gcgacggctt cgccaatagg aactttatgc agctgatcca tgatgactct 2100
ttaaccttca aagaggatat acaaaaggca caggtttccg gacaagggga ctcattgcac 2160
gaacatattg cgaatcttgc tggttcgcca gccatcaaaa agggcatact ccagacagtc 2220
aaagtagtgg atgagctagt taaggtcatg ggacgtcaca aaccggaaaa cattgtaatc 2280
gagatggcac gcgaaaatca aacgactcag aaggggcaaa aaaacagtcg agagcggatg 2340
aagagaatag aagagggtat taaagaactg ggcagccaga tcttaaagga gcatcctgtg 2400
gaaaataccc aattgcagaa cgagaaactt tacctctatt acctacaaaa tggaagggac 2460
atgtatgttg atcaggaact ggacataaac cgtttatctg attacgacgt cgatcacatt 2520
gtaccccaat cctttttgaa ggacgattca atcgacaata aagtgcttac acgctcggat 2580
aagaaccgag ggaaaagtga caatgttcca agcgaggaag tcgtaaagaa aatgaagaac 2640
tattggcggc agctcctaaa tgcgaaactg ataacgcaaa gaaagttcga taacttaact 2700
aaagctgaga ggggtggctt gtctgaactt gacaaggccg gatttattaa acgtcagctc 2760
gtggaaaccc gccaaatcac aaagcatgtt gcacagatac tagattcccg aatgaatacg 2820
aaatacgacg agaacgataa gctgattcgg gaagtcaaag taatcacttt aaagtcaaaa 2880
ttggtgtcgg acttcagaaa ggattttcaa ttctataaag ttagggagat aaataactac 2940
caccatgcgc acgacgctta tcttaatgcc gtcgtaggga ccgcactcat taagaaatac 3000
ccgaagctag aaagtgagtt tgtgtatggt gattacaaag tttatgacgt ccgtaagatg 3060
atcgcgaaaa gcgaacagga gataggcaag gctacagcca aatacttctt ttattctaac 3120
attatgaatt tctttaagac ggaaatcact ctggcaaacg gagagatacg caaacgacct 3180
ttaattgaaa ccaatgggga gacaggtgaa atcgtatggg ataagggccg ggacttcgcg 3240
acggtgagaa aagttttgtc catgccccaa gtcaacatag taaagaaaac tgaggtgcag 3300
accggagggt tttcaaagga atcgattctt ccaaaaagga atagtgataa gctcatcgct 3360
cgtaaaaagg actgggaccc gaaaaagtac ggtggcttcg atagccctac agttgcctat 3420
tctgtcctag tagtggcaaa agttgagaag ggaaaatcca agaaactgaa gtcagtcaaa 3480
gaattattgg ggataacgat tatggagcgc tcgtcttttg aaaagaaccc catcgacttc 3540
cttgaggcga aaggttacaa ggaagtaaaa aaggatctca taattaaact accaaagtat 3600
agtctgtttg agttagaaaa tggccgaaaa cggatgttgg ctagcgccgg agagcttcaa 3660
aaggggaacg aactcgcact accgtctaaa tacgtgaatt tcctgtattt agcgtcccat 3720
tacgagaagt tgaaaggttc acctgaagat aacgaacaga agcaactttt tgttgagcag 3780
cacaaacatt atctcgacga aatcatagag caaatttcgg aattcagtaa gagagtcatc 3840
ctagctgatg ccaatctgga caaagtatta agcgcataca acaagcacag ggataaaccc 3900
atacgtgagc aggcggaaaa tattatccat ttgtttactc ttaccaacct cggcgctcca 3960
gccgcattca agtattttga cacaacgata gatcgcaaac gatacacttc taccaaggag 4020
gtgctagacg cgacactgat tcaccaatcc atcacgggat tatatgaaac tcggatagat 4080
ttgtcacagc ttgggggtga c 4101
<210> 18
<211> 3003
<212> DNA
<213> Artificial Sequence
<220>
<223> CasX
<400> 18
gagaagagaa ttaacaagat cagaaaaaaa ttgagcgccg acaatgcgac taaaccagtt 60
tccagaagcg gccctatgaa aacgctcctc gtgcgggtca tgacagatga ccttaaaaaa 120
cgccttgaga agcgcagaaa gaaaccggaa gtgatgcctc aagttatttc caataatgcc 180
gccaataacc tccgcatgct tttggatgac tacaccaaaa tgaaggaagc gatacttcaa 240
gtttactggc aagagttcaa agatgatcac gttggtctta tgtgtaaatt tgcccaaccg 300
gcctctaaga agatagatca gaacaagctg aagccagaga tggacgagaa gggaaatctc 360
acgactgcgg gcttcgcgtg ctcgcaatgt ggtcagcctc tctttgtgta taaacttgag 420
caagtctcag agaaggggaa agcatatacg aactacttcg gtagatgcaa cgtggcagag 480
catgaaaaac ttattttgct cgctcagctg aaaccggaga aagactcgga cgaagcagtt 540
acttatagcc ttggcaaatt tggccaaagg gcactcgact tctatagcat ccacgtgacg 600
aaggaatcta cgcatccagt gaaaccattg gcgcagattg caggaaatcg ctatgcgtcg 660
ggaccggtgg gcaaggccct ttcggatgcc tgtatgggta cgatagcttc ctttttgtca 720
aagtaccaag atataattat cgaacaccaa aaggtcgtca aggggaatca aaagagattg 780
gaaagtttga gggagctcgc tggcaaggag aatctcgaat atccatcagt cacgctccct 840
ccgcagccac ataccaagga aggggttgac gcttataatg aggttatcgc gcgggtccgc 900
atgtgggtca acttgaatct ttggcaaaaa ctcaaactgt ccagagatga tgcaaagcct 960
ttgctcaggt tgaagggctt cccttcgttc ccagtcgttg aaaggagaga aaacgaagtc 1020
gattggtgga acactatcaa tgaagtgaaa aagctcattg atgctaagag agacatgggt 1080
agggtctttt ggtctggagt taccgcagaa aagcggaata ctattctgga aggctacaac 1140
tatcttccca acgaaaacga ccacaagaaa agggagggga gcctcgaaaa tcccaaaaaa 1200
ccggcgaaac gccaatttgg ggatctgctt ctttatctgg agaagaagta tgcaggcgac 1260
tggggaaaag tgtttgacga ggcttgggag cgcatcgaca aaaagatcgc tggcctcaca 1320
tcacacatag aaagggagga ggcaaggaat gcagaagatg cgcagagcaa agcagttctt 1380
acggattggt tgcgcgctaa ggcttccttt gttttggagc gcttgaagga aatggacgaa 1440
aaggaatttt atgcgtgcga aatccagctg caaaaatggt atggtgattt gagggggaac 1500
cccttcgctg tggaagccga aaaccgggtc gtggacatat ccgggttttc catagggtcg 1560
gacggtcact ccattcaata ccggaatttg cttgcatgga aatatcttga gaacggtaag 1620
cgggagtttt atttgctgat gaactacgga aaaaagggtc gcattaggtt cactgatggc 1680
acagatatta aaaaaagcgg taagtggcaa ggtcttctgt acggcggagg aaaggcgaag 1740
gttatcgact tgacctttga cccagacgat gagcagttga ttattttgcc tttggcattc 1800
ggtacaagac aagggaggga attcatctgg aacgatctgc tctcccttga aacgggtctc 1860
atcaagctgg ctaacggcag agtcatagag aaaaccatat ataataagaa gattggtaga 1920
gatgagccgg ctctttttgt ggcgctcact ttcgagaggc gcgaggtcgt tgacccgtcc 1980
aacatcaagc ccgttaacct gatcggtgtt gataggggag aaaacatacc ggcggtgata 2040
gcacttaccg acccagaggg atgccccctc ccagaattca aagattcttc ggggggacca 2100
actgacattc tcaggatagg tgagggctat aaggagaagc agcgcgctat ccaagcggcg 2160
aaggaagtcg agcaacggag agcggggggc tattctcgga aattcgcatc gaaaagccgg 2220
aatcttgccg acgacatggt caggaactca gccagggacc tcttctatca cgcggttacg 2280
cacgacgccg ttcttgtttt tgaaaatctc tcgcggggtt ttggacggca aggtaagcgg 2340
acctttatga cggaaagaca gtacaccaaa atggaagatt ggctcaccgc gaagctcgcg 2400
tacgaggggc ttacatctaa aacgtacttg tccaaaacac tcgcccagta cactagcaaa 2460
acgtgttcta actgcggctt tacgatcact accgcggact acgacggcat gctcgtcagg 2520
ctcaagaaaa cgtctgacgg atgggcaacc acacttaaca ataaagagct caaggctgaa 2580
ggtcagatca catattataa tagatataag aggcagaccg tggagaagga gctgtcagct 2640
gagcttgaca ggttgtctga ggagtccggc aacaacgata tttctaagtg gacaaaagga 2700
cggagagatg aagcattgtt tctgctcaaa aagcggttct cgcacaggcc cgttcaggag 2760
cagtttgttt gtcttgattg cggtcacgag gtccacgcgg atgagcaggc cgctctcaat 2820
atagcgagga gctggttgtt tttgaactct aattccacag aattcaaaag ctataagtcc 2880
gggaagcaac cgttcgtggg cgcttggcaa gccttttata agcgcaggct caaggaggtt 2940
tggaaaccaa acgctaaacg ccccgcggct acaaagaagg ctggccaggc aaagaagaag 3000
aag 3003
<210> 19
<211> 3918
<212> DNA
<213> Artificial Sequence
<220>
<223> AsCpf1 (R1226A)
<400> 19
acccaatttg agggatttac gaatctttat caagtttcaa agacgcttag gtttgagctc 60
attccacaag gaaaaacctt gaagcacatt caagagcagg gctttatcga ggaagacaag 120
gcacggaatg accattataa agaattgaaa cccataatcg atcgcatata caaaacttat 180
gccgaccaat gcttgcagct tgtccaactc gactgggaaa atctctcggc tgcgatagac 240
tcttacagga aggaaaagac agaagaaaca agaaacgccc tcattgaaga gcaggctacg 300
tatagaaatg ctattcacga ctatttcatt ggcagaacag ataacttgac ggacgccata 360
aacaaaagac atgcggagat ctacaaggga ttgttcaaag cggagctttt caacggaaaa 420
gttctcaagc agcttggcac ggtcaccact accgaacacg aaaacgcctt gttgaggagc 480
ttcgataagt tcacgacata tttctctggt ttctatgaga atcggaagaa tgtcttctct 540
gcagaagaca tttcaaccgc aatcccacac cggattgtgc aagataactt tccgaaattt 600
aaggaaaact gtcacatctt cactaggttg attacggctg ttccatctct tagagaacac 660
ttcgaaaacg tcaaaaaagc tataggcatt ttcgtctcaa cgagcataga ggaggtcttc 720
tcgttccctt tctataacca gcttctcacc cagacacaga ttgatctcta taatcaactc 780
cttggtggta tttcaaggga agccgggacg gagaagatta aggggttgaa tgaagttctc 840
aatctggcga tacagaagaa tgacgaaacc gcccatatta tagcttccct cccacatcgg 900
tttataccgt tgttcaagca gatcctgtcg gaccgcaaca cgctttcttt catactcgaa 960
gagttcaaaa gcgacgagga agtcatacag agcttctgta agtataaaac acttttgagg 1020
aatgaaaacg ttcttgaaac tgccgaggcc ttgtttaacg agctcaacag catagatctt 1080
acgcatattt ttatttccca caaaaaattg gaaactataa gctcagcgct gtgtgatcac 1140
tgggatacgc ttcgcaatgc cctttatgag cgcaggatca gcgaactgac ggggaagatt 1200
acgaaatctg cgaaagagaa agttcaaagg tcccttaagc acgaggatat taatctccaa 1260
gaaataataa gcgcggctgg taaagaactt tccgaagctt tcaagcaaaa gacatccgaa 1320
atactctccc atgcgcatgc agccctggac caaccattgc caacaacttt gaagaaacaa 1380
gaagagaagg aaatcctgaa gtcccaactc gactctttgc tcggcctcta tcacttgctt 1440
gattggttcg cggttgatga gtccaacgaa gttgaccctg agttcagcgc caggttgacc 1500
ggtataaagt tggaaatgga accaagcctc tcattttaca acaaggcgag gaactacgcg 1560
accaagaaac catacagcgt cgaaaagttt aagcttaact ttcaaatgcc aacgctcgct 1620
tccggttggg atgttaacaa agaaaaaaat aacggcgcca tcttgtttgt taaaaacggt 1680
ttgtattacc tcggcatcat gccaaaacaa aagggtcggt acaaggctct gagcttcgag 1740
ccaacagaga aaacaagcga aggcttcgac aagatgtatt atgattactt tcccgatgca 1800
gctaaaatga tccccaagtg ctcaacacag cttaaagcgg ttaccgccca tttccagact 1860
cacacgaccc caattctctt gtcaaataac tttattgaac ccttggaaat aaccaaagag 1920
atatatgacc ttaataaccc ggagaaagaa cccaagaagt tccagacggc gtacgctaag 1980
aaaacaggag atcagaaggg ctatagggag gccctttgta aatggattga ctttacaagg 2040
gactttttgt cgaaatatac gaagaccact tcaattgacc tttcgtccct gcggccgtct 2100
agccagtata aagatttggg tgagtactat gcggaactta atcctttgtt gtaccacata 2160
tcttttcaac ggattgcaga gaaggagata atggatgcgg tcgaaacagg aaagctctat 2220
ctgttccaga tttacaataa agattttgcc aagggacacc atggaaaacc taacctgcat 2280
actctttact ggacgggtct tttctcgccg gaaaatttgg ctaagacgtc tatcaagttg 2340
aatgggcagg cagaactctt ctatcgccct aagtctagga tgaaacggat ggctcatcgg 2400
ctgggtgaaa aaatgctcaa caaaaagctt aaggatcaaa agacaccaat cccggacaca 2460
ctttatcaag aattgtacga ttacgttaat cacagactct cacatgacct ttcagatgag 2520
gcccgcgctt tgcttcccaa tgttattact aaagaggtct cgcatgagat cataaaagat 2580
agaagattca cgtctgataa gttctttttt catgtgccaa taactctcaa ctatcaggcc 2640
gcaaattcgc cgtccaagtt caaccaaagg gtgaatgcct acctcaagga gcacccggag 2700
acgccaataa taggtatcga tcggggcgaa cgcaacctta tttatataac agttatcgat 2760
agcacaggga aaatactgga gcagcggagc ctgaatacta ttcaacagtt tgactaccaa 2820
aagaaactgg acaatagaga gaaggagcgc gtcgccgccc ggcaagcttg gtccgtggtc 2880
ggaactataa aagatcttaa acagggatac ctgtcacagg tcatccatga aatcgtggat 2940
ctgatgatac actatcaagc tgttgtcgtg ctcgaaaact tgaattttgg attcaaatcg 3000
aagagaactg gaatcgctga aaaagcggtg taccaacagt tcgagaagat gctcatcgat 3060
aagcttaatt gtttggtgct taaggactat cccgccgaaa aggttggggg ggtgctgaac 3120
ccgtatcagc tcacagatca atttacttca ttcgcgaaga tgggaacgca gtcaggattt 3180
ctgttctacg ttccagcccc ttatacgtcg aaaattgacc ctcttacggg gttcgtggac 3240
ccctttgttt ggaaaacgat aaaaaaccac gagtcacgca agcactttct cgagggattt 3300
gattttcttc attatgatgt gaagaccggg gacttcattt tgcactttaa gatgaacagg 3360
aacttgtctt tccaaagggg cttgcctgga ttcatgccgg cctgggatat cgtgtttgaa 3420
aagaacgaaa cacagttcga tgcgaaaggg acgcccttca tagctggaaa gcgcatagtt 3480
ccagtgattg agaaccacag attcactggt cgctacagag acctgtatcc ggcaaatgaa 3540
ctgatagcac tccttgagga aaagggtatc gtgtttcgcg atggttcaaa tattctcccg 3600
aagcttttgg agaacgacga ttctcatgct atagatacta tggtcgctct catccggtcc 3660
gtccttcaaa tggccaattc gaatgcagcg accggtgagg attacataaa ttcaccagtc 3720
cgggacctta atggggtttg cttcgactcg cgctttcaaa accccgaatg gccaatggac 3780
gccgatgcta acggtgccta ccatatagca cttaaaggac agcttctgtt gaatcacctt 3840
aaagaatcaa aagaccttaa gctgcagaat ggaatttcaa atcaggattg gctcgcgtac 3900
atacaggagc ttcgcaat 3918
<210> 20
<211> 687
<212> DNA
<213> Artificial Sequence
<220>
<223> APOBEC1
<400> 20
atgagctcag agactggccc agtggctgtg gaccccacat tgagacggcg gatcgagccc 60
catgagtttg aggtattctt cgatccgaga gagctccgca aggagacctg cctgctttac 120
gaaattaatt gggggggccg gcactccatt tggcgacata catcacagaa cactaacaag 180
cacgtcgaag tcaacttcat cgagaagttc acgacagaaa gatatttctg tccgaacaca 240
aggtgcagca ttacctggtt tctcagctgg agcccatgcg gcgaatgtag tagggccatc 300
actgaattcc tgtcaaggta tccccacgtc actctgttta tttacatcgc aaggctgtac 360
caccacgctg acccccgcaa tcgacaaggc ctgcgggatt tgatctcttc aggtgtgact 420
atccaaatta tgactgagca ggagtcagga tactgctgga gaaactttgt gaattatagc 480
ccgagtaatg aagcccactg gcctaggtat ccccatctgt gggtacgact gtacgttctt 540
gaactgtact gcatcatact gggcctgcct ccttgtctca acattctgag aaggaagcag 600
ccacagctga cattctttac catcgctctt cagtcttgtc attaccagcg actgccccca 660
cacattctct gggccaccgg gttgaaa 687
<210> 21
<211> 249
<212> DNA
<213> Artificial Sequence
<220>
<223> UGI
<400> 21
accaacctgt ccgacatcat cgagaaggaa acgggcaagc aactcgtgat ccaggagagc 60
atcctcatgc tgccagagga ggtggaggag gtcatcggca acaagccaga gtccgacatc 120
ctggtgcaca ccgcctacga cgagtccacc gacgagaacg tcatgctcct gaccagcgac 180
gccccagagt acaagccatg ggccctcgtc atccaggaca gcaacgggga gaacaagatc 240
aagatgctg 249
<210> 22
<211> 624
<212> DNA
<213> Artificial Sequence
<220>
<223> PmCDA1
<400> 22
atgaccgacg ctgagtacgt gagaatccat gagaagttgg acatctacac gtttaagaaa 60
cagtttttca acaacaaaaa atccgtgtcg catagatgct acgttctctt tgaattaaaa 120
cgacggggtg aacgtagagc gtgtttttgg ggctatgctg tgaataaacc acagagcggg 180
acagaacgtg gcattcacgc cgaaatcttt agcattagaa aagtcgaaga atacctgcgc 240
gacaaccccg gacaattcac gataaattgg tactcatcct ggagtccttg tgcagattgc 300
gctgaaaaga tcttagaatg gtataaccag gagctgcggg ggaacggcca cactttgaaa 360
atctgggctt gcaaactcta ttacgagaaa aatgcgagga atcaaattgg gctgtggaac 420
ctcagagata acggggttgg gttgaatgta atggtaagtg aacactacca atgttgcagg 480
aaaatattca tccaatcgtc gcacaatcaa ttgaatgaga atagatggct tgagaagact 540
ttgaagcgag ctgaaaaacg acggagcgag ttgtccatta tgattcaggt aaaaatactc 600
cacaccacta agagtcctgc tgtt 624
<210> 23
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Protospacer sequence
<400> 23
tgttacttct aaactacata 20
<210> 24
<211> 1307
<212> PRT
<213> Acidaminococcus sp. BV3L6
<400> 24
Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln
20 25 30
Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys
35 40 45
Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln
50 55 60
Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile
65 70 75 80
Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile
85 90 95
Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly
100 105 110
Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile
115 120 125
Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys
130 135 140
Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg
145 150 155 160
Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg
165 170 175
Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg
180 185 190
Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe
195 200 205
Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn
210 215 220
Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val
225 230 235 240
Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp
245 250 255
Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu
260 265 270
Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn
275 280 285
Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro
290 295 300
Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu
305 310 315 320
Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr
325 330 335
Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu
340 345 350
Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His
355 360 365
Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr
370 375 380
Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys
385 390 395 400
Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu
405 410 415
Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser
420 425 430
Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala
435 440 445
Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys
450 455 460
Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu
465 470 475 480
Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe
485 490 495
Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser
500 505 510
Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val
515 520 525
Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp
530 535 540
Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn
545 550 555 560
Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys
565 570 575
Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys
580 585 590
Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys
595 600 605
Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr
610 615 620
Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys
625 630 635 640
Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln
645 650 655
Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala
660 665 670
Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr
675 680 685
Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr
690 695 700
Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His
705 710 715 720
Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu
725 730 735
Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys
740 745 750
Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu
755 760 765
Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln
770 775 780
Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His
785 790 795 800
Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr
805 810 815
Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His
820 825 830
Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn
835 840 845
Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe
850 855 860
Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln
865 870 875 880
Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu
885 890 895
Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Asp Arg Gly Glu Arg
900 905 910
Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu
915 920 925
Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu
930 935 940
Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val
945 950 955 960
Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile
965 970 975
His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu
980 985 990
Glu Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu
995 1000 1005
Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu
1010 1015 1020
Asn Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly
1025 1030 1035
Val Leu Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala
1040 1045 1050
Lys Met Gly Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro
1055 1060 1065
Tyr Thr Ser Lys Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe
1070 1075 1080
Val Trp Lys Thr Ile Lys Asn His Glu Ser Arg Lys His Phe Leu
1085 1090 1095
Glu Gly Phe Asp Phe Leu His Tyr Asp Val Lys Thr Gly Asp Phe
1100 1105 1110
Ile Leu His Phe Lys Met Asn Arg Asn Leu Ser Phe Gln Arg Gly
1115 1120 1125
Leu Pro Gly Phe Met Pro Ala Trp Asp Ile Val Phe Glu Lys Asn
1130 1135 1140
Glu Thr Gln Phe Asp Ala Lys Gly Thr Pro Phe Ile Ala Gly Lys
1145 1150 1155
Arg Ile Val Pro Val Ile Glu Asn His Arg Phe Thr Gly Arg Tyr
1160 1165 1170
Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala Leu Leu Glu Glu
1175 1180 1185
Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu Pro Lys Leu
1190 1195 1200
Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val Ala Leu
1205 1210 1215
Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr Gly
1220 1225 1230
Glu Asp Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys
1235 1240 1245
Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp
1250 1255 1260
Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu
1265 1270 1275
Asn His Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile
1280 1285 1290
Ser Asn Gln Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn
1295 1300 1305
<210> 25
<211> 670
<212> PRT
<213> Arabidopsis thaliana
<400> 25
Met Ala Ala Ala Thr Thr Thr Thr Thr Thr Ser Ser Ser Ile Ser Phe
1 5 10 15
Ser Thr Lys Pro Ser Pro Ser Ser Ser Lys Ser Pro Leu Pro Ile Ser
20 25 30
Arg Phe Ser Leu Pro Phe Ser Leu Asn Pro Asn Lys Ser Ser Ser Ser
35 40 45
Ser Arg Arg Arg Gly Ile Lys Ser Ser Ser Pro Ser Ser Ile Ser Ala
50 55 60
Val Leu Asn Thr Thr Thr Asn Val Thr Thr Thr Pro Ser Pro Thr Lys
65 70 75 80
Pro Thr Lys Pro Glu Thr Phe Ile Ser Arg Phe Ala Pro Asp Gln Pro
85 90 95
Arg Lys Gly Ala Asp Ile Leu Val Glu Ala Leu Glu Arg Gln Gly Val
100 105 110
Glu Thr Val Phe Ala Tyr Pro Gly Gly Ala Ser Met Glu Ile His Gln
115 120 125
Ala Leu Thr Arg Ser Ser Ser Ile Arg Asn Val Leu Pro Arg His Glu
130 135 140
Gln Gly Gly Val Phe Ala Ala Glu Gly Tyr Ala Arg Ser Ser Gly Lys
145 150 155 160
Pro Gly Ile Cys Ile Ala Thr Ser Gly Pro Gly Ala Thr Asn Leu Val
165 170 175
Ser Gly Leu Ala Asp Ala Leu Leu Asp Ser Val Pro Leu Val Ala Ile
180 185 190
Thr Gly Gln Val Pro Arg Arg Met Ile Gly Thr Asp Ala Phe Gln Glu
195 200 205
Thr Pro Ile Val Glu Val Thr Arg Ser Ile Thr Lys His Asn Tyr Leu
210 215 220
Val Met Asp Val Glu Asp Ile Pro Arg Ile Ile Glu Glu Ala Phe Phe
225 230 235 240
Leu Ala Thr Ser Gly Arg Pro Gly Pro Val Leu Val Asp Val Pro Lys
245 250 255
Asp Ile Gln Gln Gln Leu Ala Ile Pro Asn Trp Glu Gln Ala Met Arg
260 265 270
Leu Pro Gly Tyr Met Ser Arg Met Pro Lys Pro Pro Glu Asp Ser His
275 280 285
Leu Glu Gln Ile Val Arg Leu Ile Ser Glu Ser Lys Lys Pro Val Leu
290 295 300
Tyr Val Gly Gly Gly Cys Leu Asn Ser Ser Asp Glu Leu Gly Arg Phe
305 310 315 320
Val Glu Leu Thr Gly Ile Pro Val Ala Ser Thr Leu Met Gly Leu Gly
325 330 335
Ser Tyr Pro Cys Asp Asp Glu Leu Ser Leu His Met Leu Gly Met His
340 345 350
Gly Thr Val Tyr Ala Asn Tyr Ala Val Glu His Ser Asp Leu Leu Leu
355 360 365
Ala Phe Gly Val Arg Phe Asp Asp Arg Val Thr Gly Lys Leu Glu Ala
370 375 380
Phe Ala Ser Arg Ala Lys Ile Val His Ile Asp Ile Asp Ser Ala Glu
385 390 395 400
Ile Gly Lys Asn Lys Thr Pro His Val Ser Val Cys Gly Asp Val Lys
405 410 415
Leu Ala Leu Gln Gly Met Asn Lys Val Leu Glu Asn Arg Ala Glu Glu
420 425 430
Leu Lys Leu Asp Phe Gly Val Trp Arg Asn Glu Leu Asn Val Gln Lys
435 440 445
Gln Lys Phe Pro Leu Ser Phe Lys Thr Phe Gly Glu Ala Ile Pro Pro
450 455 460
Gln Tyr Ala Ile Lys Val Leu Asp Glu Leu Thr Asp Gly Lys Ala Ile
465 470 475 480
Ile Ser Thr Gly Val Gly Gln His Gln Met Trp Ala Ala Gln Phe Tyr
485 490 495
Asn Tyr Lys Lys Pro Arg Gln Trp Leu Ser Ser Gly Gly Leu Gly Ala
500 505 510
Met Gly Phe Gly Leu Pro Ala Ala Ile Gly Ala Ser Val Ala Asn Pro
515 520 525
Asp Ala Ile Val Val Asp Ile Asp Gly Asp Gly Ser Phe Ile Met Asn
530 535 540
Val Gln Glu Leu Ala Thr Ile Arg Val Glu Asn Leu Pro Val Lys Val
545 550 555 560
Leu Leu Leu Asn Asn Gln His Leu Gly Met Val Met Gln Trp Glu Asp
565 570 575
Arg Phe Tyr Lys Ala Asn Arg Ala His Thr Phe Leu Gly Asp Pro Ala
580 585 590
Gln Glu Asp Glu Ile Phe Pro Asn Met Leu Leu Phe Ala Ala Ala Cys
595 600 605
Gly Ile Pro Ala Ala Arg Val Thr Lys Lys Ala Asp Leu Arg Glu Ala
610 615 620
Ile Gln Thr Met Leu Asp Thr Pro Gly Pro Tyr Leu Leu Asp Val Ile
625 630 635 640
Cys Pro His Gln Glu His Val Leu Pro Met Ile Pro Ser Gly Gly Thr
645 650 655
Phe Asn Asp Val Ile Thr Glu Gly Asp Gly Arg Ile Lys Tyr
660 665 670
<210> 26
<211> 537
<212> PRT
<213> Arabidopsis thaliana
<400> 26
Met Glu Leu Ser Leu Leu Arg Pro Thr Thr Gln Ser Leu Leu Pro Ser
1 5 10 15
Phe Ser Lys Pro Asn Leu Arg Leu Asn Val Tyr Lys Pro Leu Arg Leu
20 25 30
Arg Cys Ser Val Ala Gly Gly Pro Thr Val Gly Ser Ser Lys Ile Glu
35 40 45
Gly Gly Gly Gly Thr Thr Ile Thr Thr Asp Cys Val Ile Val Gly Gly
50 55 60
Gly Ile Ser Gly Leu Cys Ile Ala Gln Ala Leu Ala Thr Lys His Pro
65 70 75 80
Asp Ala Ala Pro Asn Leu Ile Val Thr Glu Ala Lys Asp Arg Val Gly
85 90 95
Gly Asn Ile Ile Thr Arg Glu Glu Asn Gly Phe Leu Trp Glu Glu Gly
100 105 110
Pro Asn Ser Phe Gln Pro Ser Asp Pro Met Leu Thr Met Val Val Asp
115 120 125
Ser Gly Leu Lys Asp Asp Leu Val Leu Gly Asp Pro Thr Ala Pro Arg
130 135 140
Phe Val Leu Trp Asn Gly Lys Leu Arg Pro Val Pro Ser Lys Leu Thr
145 150 155 160
Asp Leu Pro Phe Phe Asp Leu Met Ser Ile Gly Gly Lys Ile Arg Ala
165 170 175
Gly Phe Gly Ala Leu Gly Ile Arg Pro Ser Pro Pro Gly Arg Glu Glu
180 185 190
Ser Val Glu Glu Phe Val Arg Arg Asn Leu Gly Asp Glu Val Phe Glu
195 200 205
Arg Leu Ile Glu Pro Phe Cys Ser Gly Val Tyr Ala Gly Asp Pro Ser
210 215 220
Lys Leu Ser Met Lys Ala Ala Phe Gly Lys Val Trp Lys Leu Glu Gln
225 230 235 240
Asn Gly Gly Ser Ile Ile Gly Gly Thr Phe Lys Ala Ile Gln Glu Arg
245 250 255
Lys Asn Ala Pro Lys Ala Glu Arg Asp Pro Arg Leu Pro Lys Pro Gln
260 265 270
Gly Gln Thr Val Gly Ser Phe Arg Lys Gly Leu Arg Met Leu Pro Glu
275 280 285
Ala Ile Ser Ala Arg Leu Gly Ser Lys Val Lys Leu Ser Trp Lys Leu
290 295 300
Ser Gly Ile Thr Lys Leu Glu Ser Gly Gly Tyr Asn Leu Thr Tyr Glu
305 310 315 320
Thr Pro Asp Gly Leu Val Ser Val Gln Ser Lys Ser Val Val Met Thr
325 330 335
Val Pro Ser His Val Ala Ser Gly Leu Leu Arg Pro Leu Ser Glu Ser
340 345 350
Ala Ala Asn Ala Leu Ser Lys Leu Tyr Tyr Pro Pro Val Ala Ala Val
355 360 365
Ser Ile Ser Tyr Pro Lys Glu Ala Ile Arg Thr Glu Cys Leu Ile Asp
370 375 380
Gly Glu Leu Lys Gly Phe Gly Gln Leu His Pro Arg Thr Gln Gly Val
385 390 395 400
Glu Thr Leu Gly Thr Ile Tyr Ser Ser Ser Leu Phe Pro Asn Arg Ala
405 410 415
Pro Pro Gly Arg Ile Leu Leu Leu Asn Tyr Ile Gly Gly Ser Thr Asn
420 425 430
Thr Gly Ile Leu Ser Lys Ser Glu Gly Glu Leu Val Glu Ala Val Asp
435 440 445
Arg Asp Leu Arg Lys Met Leu Ile Lys Pro Asn Ser Thr Asp Pro Leu
450 455 460
Lys Leu Gly Val Arg Val Trp Pro Gln Ala Ile Pro Gln Phe Leu Val
465 470 475 480
Gly His Phe Asp Ile Leu Asp Thr Ala Lys Ser Ser Leu Thr Ser Ser
485 490 495
Gly Tyr Glu Gly Leu Phe Leu Gly Gly Asn Tyr Val Ala Gly Val Ala
500 505 510
Leu Gly Arg Cys Val Glu Gly Ala Tyr Glu Thr Ala Ile Glu Val Asn
515 520 525
Asn Phe Met Ser Arg Tyr Ala Tyr Lys
530 535
<210> 27
<211> 444
<212> PRT
<213> Arabidopsis thaliana
<400> 27
Lys Ala Ser Glu Ile Val Leu Gln Pro Ile Arg Glu Ile Ser Gly Leu
1 5 10 15
Ile Lys Leu Pro Gly Ser Lys Ser Leu Ser Asn Arg Ile Leu Leu Leu
20 25 30
Ala Ala Leu Ser Glu Gly Thr Thr Val Val Asp Asn Leu Leu Asn Ser
35 40 45
Asp Asp Ile Asn Tyr Met Leu Asp Ala Leu Lys Arg Leu Gly Leu Asn
50 55 60
Val Glu Thr Asp Ser Glu Asn Asn Arg Ala Val Val Glu Gly Cys Gly
65 70 75 80
Gly Ile Phe Pro Ala Ser Ile Asp Ser Lys Ser Asp Ile Glu Leu Tyr
85 90 95
Leu Gly Asn Ala Gly Thr Ala Met Arg Pro Leu Thr Ala Ala Val Thr
100 105 110
Ala Ala Gly Gly Asn Ala Ser Tyr Val Leu Asp Gly Val Pro Arg Met
115 120 125
Arg Glu Arg Pro Ile Gly Asp Leu Val Val Gly Leu Lys Gln Leu Gly
130 135 140
Ala Asp Val Glu Cys Thr Leu Gly Thr Asn Cys Pro Pro Val Arg Val
145 150 155 160
Asn Ala Asn Gly Gly Leu Pro Gly Gly Lys Val Lys Leu Ser Gly Ser
165 170 175
Ile Ser Ser Gln Tyr Leu Thr Ala Leu Leu Met Ser Ala Pro Leu Ala
180 185 190
Leu Gly Asp Val Glu Ile Glu Ile Val Asp Lys Leu Ile Ser Val Pro
195 200 205
Tyr Val Glu Met Thr Leu Lys Leu Met Glu Arg Phe Gly Val Ser Val
210 215 220
Glu His Ser Asp Ser Trp Asp Arg Phe Phe Val Lys Gly Gly Gln Lys
225 230 235 240
Tyr Lys Ser Pro Gly Asn Ala Tyr Val Glu Gly Asp Ala Ser Ser Ala
245 250 255
Ser Tyr Phe Leu Ala Gly Ala Ala Ile Thr Gly Glu Thr Val Thr Val
260 265 270
Glu Gly Cys Gly Thr Thr Ser Leu Gln Gly Asp Val Lys Phe Ala Glu
275 280 285
Val Leu Glu Lys Met Gly Cys Lys Val Ser Trp Thr Glu Asn Ser Val
290 295 300
Thr Val Thr Gly Pro Pro Arg Asp Ala Phe Gly Met Arg His Leu Arg
305 310 315 320
Ala Ile Asp Val Asn Met Asn Lys Met Pro Asp Val Ala Met Thr Leu
325 330 335
Ala Val Val Ala Leu Phe Ala Asp Gly Pro Thr Thr Ile Arg Asp Val
340 345 350
Ala Ser Trp Arg Val Lys Glu Thr Glu Arg Met Ile Ala Ile Cys Thr
355 360 365
Glu Leu Arg Lys Leu Gly Ala Thr Val Glu Glu Gly Ser Asp Tyr Cys
370 375 380
Val Ile Thr Pro Pro Lys Lys Val Lys Thr Ala Glu Ile Asp Thr Tyr
385 390 395 400
Asp Asp His Arg Met Ala Met Ala Phe Ser Leu Ala Ala Cys Ala Asp
405 410 415
Val Pro Ile Thr Ile Asn Asp Pro Gly Cys Thr Arg Lys Thr Phe Pro
420 425 430
Asp Tyr Phe Gln Val Leu Glu Arg Ile Thr Lys His
435 440
<210> 28
<211> 534
<212> PRT
<213> Amaranthus tuberculatus
<400> 28
Met Val Ile Gln Ser Ile Thr His Leu Ser Pro Asn Leu Ala Leu Pro
1 5 10 15
Ser Pro Leu Ser Val Ser Thr Lys Asn Tyr Pro Val Ala Val Met Gly
20 25 30
Asn Ile Ser Glu Arg Glu Glu Pro Thr Ser Ala Lys Arg Val Ala Val
35 40 45
Val Gly Ala Gly Val Ser Gly Leu Ala Ala Ala Tyr Lys Leu Lys Ser
50 55 60
His Gly Leu Ser Val Thr Leu Phe Glu Ala Asp Ser Arg Ala Gly Gly
65 70 75 80
Lys Leu Lys Thr Val Lys Lys Asp Gly Phe Ile Trp Asp Glu Gly Ala
85 90 95
Asn Thr Met Thr Glu Ser Glu Ala Glu Val Ser Ser Leu Ile Asp Asp
100 105 110
Leu Gly Leu Arg Glu Lys Gln Gln Leu Pro Ile Ser Gln Asn Lys Arg
115 120 125
Tyr Ile Ala Arg Asp Gly Leu Pro Val Leu Leu Pro Ser Asn Pro Ala
130 135 140
Ala Leu Leu Thr Ser Asn Ile Leu Ser Ala Lys Ser Lys Leu Gln Ile
145 150 155 160
Met Leu Glu Pro Phe Leu Trp Arg Lys His Asn Ala Thr Glu Leu Ser
165 170 175
Asp Glu His Val Gln Glu Ser Val Gly Glu Phe Phe Glu Arg His Phe
180 185 190
Gly Lys Glu Phe Val Asp Tyr Val Ile Asp Pro Phe Val Ala Gly Thr
195 200 205
Cys Gly Gly Asp Pro Gln Ser Leu Ser Met His His Thr Phe Pro Glu
210 215 220
Val Trp Asn Ile Glu Lys Arg Phe Gly Ser Val Phe Ala Gly Leu Ile
225 230 235 240
Gln Ser Thr Leu Leu Ser Lys Lys Glu Lys Gly Gly Glu Asn Ala Ser
245 250 255
Ile Lys Lys Pro Arg Val Arg Gly Ser Phe Ser Phe Gln Gly Gly Met
260 265 270
Gln Thr Leu Val Asp Thr Met Cys Lys Gln Leu Gly Glu Asp Glu Leu
275 280 285
Lys Leu Gln Cys Glu Val Leu Ser Leu Ser Tyr Asn Gln Lys Gly Ile
290 295 300
Pro Ser Leu Gly Asn Trp Ser Val Ser Ser Met Ser Asn Asn Thr Ser
305 310 315 320
Glu Asp Gln Ser Tyr Asp Ala Val Val Val Thr Ala Pro Ile Arg Asn
325 330 335
Val Lys Glu Met Lys Ile Met Lys Phe Gly Asn Pro Phe Ser Leu Asp
340 345 350
Phe Ile Pro Glu Val Thr Tyr Val Pro Leu Ser Val Met Ile Thr Ala
355 360 365
Phe Lys Lys Asp Lys Val Lys Arg Pro Leu Glu Gly Phe Gly Val Leu
370 375 380
Ile Pro Ser Lys Glu Gln His Asn Gly Leu Lys Thr Leu Gly Thr Leu
385 390 395 400
Phe Ser Ser Met Met Phe Pro Asp Arg Ala Pro Ser Asp Met Cys Leu
405 410 415
Phe Thr Thr Phe Val Gly Gly Ser Arg Asn Arg Lys Leu Ala Asn Ala
420 425 430
Ser Thr Asp Glu Leu Lys Gln Ile Val Ser Ser Asp Leu Gln Gln Leu
435 440 445
Leu Gly Thr Glu Asp Glu Pro Ser Phe Val Asn His Leu Phe Trp Ser
450 455 460
Asn Ala Phe Pro Leu Tyr Gly His Asn Tyr Asp Ser Val Leu Arg Ala
465 470 475 480
Ile Asp Lys Met Glu Lys Asp Leu Pro Gly Phe Phe Tyr Ala Gly Asn
485 490 495
His Lys Gly Gly Leu Ser Val Gly Lys Ala Met Ala Ser Gly Cys Lys
500 505 510
Ala Ala Glu Leu Val Ile Ser Tyr Leu Asp Ser His Ile Tyr Val Lys
515 520 525
Met Asp Glu Lys Thr Ala
530