发明描述
本发明提供了涉及调节细胞针对靶核酸或其转录产物的抗性的方法和组合物。在一些优选的实施方案中,本发明提供了使用一个或多个cas基因或蛋白调节细胞针对靶核酸或其转录产物的抗性的组合物和方法。在一些实施方案中,本发明提供了在开发和使用菌株组合及起子培养物轮换中使用的方法和组合物。在其它的实施方案中,本发明提供了用于标记和/或鉴定细菌的方法。在一些优选的实施方案中,本发明提供了使用CRISPR基因座确定噬菌体对细胞的潜在毒力和使用CRISPR-cas调整噬菌体的遗传序列以提高毒力水平的方法。在进一步的实施方案中,本发明提供了用于开发和使用噬菌体作为生物控制剂的方法和组合物。
嗜热链球菌是低G+C含量的革兰氏阳性细菌物种,它是在配制乳品培养系统以产生酸奶和干酪中所用的关键物种。亲缘关系密切的嗜热链球菌菌株的比较基因组分析先前已经揭示遗传多态性主要在超变基因座如eps和rps操纵子以及两个成簇的有规律间隔的短回文重复序列(CRISPR)基因座处出现(见例如,Jansen等人,Mol.Microbiol.,43:1565[2002];Bolotin等人,Microbiol.,151:2551[2005];和Bolotin等人,Nat.Biotechnol.,22:1554[2004])。如本文中更详细地描述,CRISPR基因座一般由几个不连续同向重复序列组成,其中所述的不连续同向重复序列由称作间隔区的可变序列片段分隔,并且往往与cas(CRISPR-相关)基因相邻。虽然还没有在生物学上确立CRISPR基因座的功能,计算机(in silico)分析间隔区已经揭示了与包括噬菌体和质粒序列在内的外来元件的序列同源性(见,例如上文的Bolotin等人,Microbiol.;上文的Mojica等;和上文的Pourcel等)。仅仅基于计算机分析,已经提出几个假设来建议CRISPR和cas基因的作用,这包括借助基于RNA干扰的机制提供针对外来遗传元件的免疫性(见,Makarova等人,Biol.Direct.,1:7[2006])。然而,不意图使本发明限于任何特定机制和/或作用方式。
工业中用来将噬菌体感染和所致细菌培养物失效减至最低程度的现有策略包括使用:(i)混合的起子培养物;和(ii)使用具有不同噬菌体易感性谱的备选菌株(即菌株轮换)。传统上,乳品工业中使用的起子培养物是乳酸细菌菌株的混合物。混合的起子培养物的复杂组成确保提供某种水平的针对噬菌体侵袭的抗性。然而,重复传代培养混合的菌株培养物导致各个菌株分布的不可预测性改变并且最终往往逐渐导致不利菌株占优势。这转而可以导致噬菌体侵袭易感性和发酵失败风险提高。
轮换对不同噬菌体敏感的所选细菌菌株是目前用来限制噬菌体发展的另一种方法。然而,鉴定并选择足够数量的具有不同噬菌体类型谱的菌株以提供高效和可靠的轮换程序是困难和费力的。此外,菌株的连续使用要求仔细监测新的感染性噬菌体并需要迅速用抗性细菌菌株置换感染的菌株。远在使用以前就制备的大量大体积起子培养物的制造厂中,这种快速反应通常是不可能的。因此,已经进行几种尝试以改善工业用培养物的抗性。
另外,虽然拥有标记的起子培养物从而可能确定其起源将是有用的,然而还没有这样做。实际上,尽管使用重组DNA技术将合成的寡核苷酸插入菌株中以标示或标记该菌株是可行的,不过该标记菌株将被视为一种遗传修饰生物并且可能因而在商业应用中面临管理规章问题。因此,本领域需要适合将可能用来鉴定和/或追踪细菌的独特序列导入细菌的天然方法和组合物。
噬菌体可辩论地是这个星球上最丰富的生物实体(见,Breitbart和Rohwer,Trends Microbiol.,13:278[2005])。其广泛分布和丰富性对微生物生态和细菌基因组的演化具有重要影响(见,Chibani-Chennoufi等人,J.Bacteriol.,186:3677[2004])。因此,细菌已经发展了以噬菌体生活周期的多个步骤为靶标的多种天然防御机制,尤其是阻断吸附、防止DNA注入、限制输入性DNA和无效感染系统。这些抗病毒屏障也可以改造和操纵以更好地控制噬菌体群体(见,例如上文的Chibani-Chennoufi等;以及Sturino和Klaenhammer,Nat.Rev.Microbiol.,4:395[2006])。
众多细菌已经由人类选择并广泛地用于发酵和生物技术工艺。不幸地是,工业应用中所用的驯化细菌往往对噬菌体侵袭易感,所述驯化细菌包括广泛用作乳品培养物的那些属和种(见,Brussow,Ann.Rev.Microbiol.,55:283[2001])。因此,工业界已经基于菌株多样性、噬菌体不敏感性突变体和携带噬菌体抗性机制的质粒而创造了多种策略来对抗噬菌体。
定义
除非本文另外定义,本文中所用的全部技术术语和科学术语具有与本发明所属领域的技术人员通常所理解的相同意义。尽管与本文所述的那些方法和材料相似或等效的任意方法和材料用于实施本文中所述内容,然而在本文中描述了示例性方法和材料。如本文中所用,单数“一个”、“一种”和“该”包括复数称谓,除非上下文另外清楚地说明。除非另外说明,核酸从左至右以5′至3′方向书写;氨基酸序列从左至右以氨基至羧基方向书写。应当理解本发明不限于所描述的具体方法学、方案和试剂,因为根据本领域技术人员使用它们的条件,这些内容可以变化。
意图在本说明书通篇范围内给出的每个最大数字界限包括每个较小的数字界限,如同在本文中清楚地写出此类较小的数字界限。在本说明书通篇范围内给出的每个最小数字界限将包括每个较高的数字界限,如同在本文中清楚地写出此类较高的数字界限。在本说明书通篇范围内给出的每个数字范围将包括属于这种较宽泛数字范围内的每个较窄的数字界限,如同在本文中清楚地写出此类较窄的数字界限。
如本文中所用,术语“天然存在的”指在自然界中存在的要素和/或过程。
如本文中所用,术语“构建体”、“缀合物”、“盒”和“杂交体”包括与另一个序列(例如调节序列,如启动子)直接或间接结合的核苷酸序列。在一些实施方案中,本发明提供了包含与这种调节序列有效连接的核苷酸序列的构建体。术语“有效连接的”指其中所述组件处在允许它们以其意图方式发挥功能的关系毗连。与编码序列“有效连接”的调节序列以这样的方式连接,从而在与该调控序列相容的条件下实现编码序列的表达。如本文中所用,术语“调节序列”包括启动子和增强子和其他表达调节信号。如本文中所用,术语“启动子”按照本领域的常规意思使用,例如RNA聚合酶结合位点。在一些实施方案中,构建体包含或表达标记物,所述的标记物允许在例如细菌中选择核苷酸序列构建体。存在可以使用的多种标记物,例如提供抗生素/抗微生物剂抗性的那些标记物。
在一些实施方案中,构建体包括载体(例如质粒)。在一些其他实施方案中,本发明提供了包含本文所述的一个或多个构建体或序列的载体。如本文中所用,术语“载体”包括表达载体、转化载体和穿梭载体。术语“转化载体”意指能够从一种实体转移至另一种实体的构建体,其中所述的实体可以是相同物种或可以是不同物种。能够从一种物种转移至另一种物种的构建体有时候称作“穿梭载体”。在一些实施方案中,将载体转化到如本文中所述的合适宿主细胞中。在一些实施方案中,所述载体是这样的质粒或噬菌体载体,其配有复制起点、任选地配有表达多核苷酸的启动子并且任选地配有该启动子的调节物。在一些实施方案中,所述载体含有一个或多个选择标记核苷酸序列。对工业微生物最合适的选择系统是由不要求宿主生物中突变的选择标记组所形成的那些选择系统。在一些实施方案中,在体外使用载体(例如用于产生RNA或用来转染或转化宿主细胞)。在一些实施方案中,将多核苷酸掺入重组载体(一般是复制型载体),如克隆载体或表达载体。该载体用于在相容性宿主细胞中复制核酸。
可以通过多种方法将核酸(例如噬菌体、构建体或载体)导入细胞。例如,在一些实施方案中,可以使用转导法、转化法、磷酸钙转染法、DEAE-葡聚糖介导的转染法、阴离子脂质介导的转染法、电穿孔法、转导法或感染法。实际上,可以在本发明中使用本领域已知的任意合适方法。在一些实施方案中,含有(借助噬菌体、构建体或载体导入的)外源核酸的细胞因使用本领域已知的任意合适方法选择。
在本领域中充分记录了关于转化细胞的教导,例如见Sambrook等(Molecular cloning:A Laboratory Manual,第2版,1989,Cold SpringHarbor Laboratory Press)和Ausubel等人,Current Protocols in MolecularBiology(1995),John Wiley&Sons,Inc。
在导入核酸到细胞中的情况下,在一些实施方案中,优选术语“导入”意指转化、转染、接合或转导中的一种或多种情况。在一些特别优选的实施方案中,使细菌菌株(例如亲代细菌菌株、变异细菌菌株等)“暴露”于至少一种噬菌体,从而噬菌体核酸被导入此细菌菌株的细胞。
如本文中所用,术语“核酸序列”、“核苷酸序列”和“核酸”指任意核酸序列,包括DNA、RNA、基因组的、合成的、重组的(例如,cDNA)核酸序列。该术语意图包括双链和/或单链序列,无论是否代表有义链或反义链或其组合。重组核酸序列通过利用任何合适的重组DNA技术制备。在一些实施方案中,如本文中所述,提供的核酸序列包括编码CRISPR、Cas和其他序列的基因序列。实际上,如在本文中所使用,本发明包括这样的核酸序列,其编码多种CRISPR序列(包括但不限于间隔区、假间隔区、前导序列等)以及cas序列及其他细菌核酸序列和噬菌体(“细菌噬菌体”)核酸序列。
术语“编码......的核酸分子”、“编码......的核酸序列”、“编码......的DNA序列”、“编码......的DNA”指脱氧核糖核苷酸沿脱氧核糖核酸链的次序或顺序。这些脱氧核糖核苷酸的次序决定氨基酸沿多肽(蛋白质)链的次序。DNA序列因而编码氨基酸序列。
如本文在导入核酸序列至细胞中的情况下所用,术语“导入”指适用于将该核酸序列转移到细胞中的任意方法。用于导入的此类方法包括但不限于原生质体融合法、转染法、转化法、接合法和转导法。在一些特别优选的实施方案中,核酸通过噬菌体感染细胞后导入受体细胞。
在一些实施方案中,本文中提供的核酸序列和核酸是分离的或基本上纯化的。“分离的”或“基本上纯化的”意指核酸分子或其生物活性片段或变体、同源物或衍生物是基本上或实质上不含这样的组分,其中通常发现所述组分与该核酸在天然状态下相关联。此类组分包括但不限于其他细胞材料、培养基、来自重组生产的材料和在化学合成所述核酸中使用的多种化学品。
在一些实施方案中,“分离的”核酸序列或核酸一般不含在衍生该核酸的生物的基因组中分布在目的核酸侧翼的核酸序列(例如,在5′或3′端存在的编码序列)。然而,所述分子可以包括不以有害方式影响组分的基本特征的一些额外碱基或部分。
如本文中所用,术语“修饰”指在核酸和/或氨基酸序列内部产生的改变。在一些实施方案中,使用基因工程(例如重组)方法完成修饰,而在其他实施方案中,使用天然存在的遗传机制进行修饰。意图使用本发明的方法修饰序列的全部或部分。在一些优选的实施方案中,修饰的核酸包括一个或多个天然存在的或重组产生的CRISPR间隔区、cas基因或蛋白、CRISPR重复序列、CRISPR基因座以及噬菌体核酸。在本发明中使用本领域已知的任意合适方法,包括但不限于使用PCR法、克隆法、位点定向诱变法等。实际上,在本发明中使用市售试剂盒。在一些实施方案中,使用合成的寡核苷酸。在一些实施方案中,使用了这样的方法如同源重组法(例如,用于插入或缺失CRISPR间隔区)。在一些实施方案中,基因工程包括激活一个或多个核酸序列(例如CRISPR基因座、CRISPR重复序列、CRISPR间隔区、cas基因或蛋白、cas基因或蛋白与CRISPR重复序列的功能性组合、或它们的组合)。
在一些实施方案中,将一个或多个CRISPR间隔区或假CRISPR间隔区插入至少一个CRISPR基因座。在一些其他实施方案中,所述修饰不破坏至少一个CRISPR基因座的一个或多个cas基因。在一些实施方案中,一个或多个cas基因保持完整。在一些其他实施方案中,所述修饰不破坏至少一个CRISPR基因座的一个或多个CRISPR重复序列。在一些实施方案中,一个或多个CRISPR重复序列保持完整。在一些实施方案中,将一个或多个CRISPR间隔区或假CRISPR间隔区插入或插到至少一个CRISPR基因座内。在一些实施方案中,将一个或多个CRISPR间隔区或假CRISPR间隔区插在至少一个CRISPR基因座的5’端。
在一些实施方案中,修饰包括将至少一个CRISPR间隔区或假CRISPR间隔区插入细胞(例如受体细胞)。在一些其他实施方案中,修饰包括将一个或多个CRISPR间隔区或假CRISPR间隔区插入受体细胞的一个或多个CRISPR间隔区(例如旨在修饰或替换)。在一些实施方案中,细胞的CRISPR间隔区是相同的,而在其他实施方案中,它们是不同的。在一些实施方案中,修饰包括将源自供体生物的至少一个CRISPR间隔区或假CRISPR间隔区插入受体细胞。在一些其他实施方案中,修饰包括将源自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区在适合修饰或替换受体细胞的一个或多个CRISPR间隔区或假CRISPR间隔区的条件下插入该受体细胞。在一些实施方案中,将源自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区插入细胞的一个或多个、优选两个或多个CRISPR重复序列。在一些优选的实施方案中,至少一个功能性CRISPR重复序列-cas组合在细胞中仍是完整的。
在一些其他实施方案中,插入过程毗邻一个或多个(优选两个或多个)CRISPR间隔区或假间隔区发生。如本文中所用,术语“毗邻”意指在其最广泛意义上的“邻近”并且包括“紧邻于”。因此,在一些实施方案中,“紧邻于”于受体细胞的一个或多个CRISPR间隔区或假CRISPR间隔区地插入来自生物的一个或多个CRISPR间隔区或假CRISPR间隔区。(即如此所述插入CRISPR间隔区或假CRISPR间隔区,以至于在间隔区之间不存在间插核苷酸)。
在一些其它实施方案中,如此插入CRISPR间隔区或假CRISPR间隔区,以至于在间隔区之间存在至少约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约15个、约20个、约25个、约30个、约35个、约40个、约45个、约50个、约55个、约60个、约65个、约70个、约75个、约80个、约85个、约90个、约95个、约100个、约200个、约300个、约400个、约500个、约600个、约700个、约800个、约900个、约1000个、约10,000个、约100,000个或约1,000,000个或更多个间插核苷酸。
在一些其他实施方案中,间插核苷酸称作“前导序列”。这些术语在本文可互换地使用。前导序列在不同细菌中可以具有不同长度。在一些实施方案中,前导序列具有至少约20个、约25个、约30个、约35个、约40个、约45个、约50个、约55个、约60个、约65个、约70个、约75个、约80个、约85个、约90个、约95个、约100个、约200个、约300个、约400个或约500个或更多个核苷酸长度。在一些优选的实施方案中,前导序列位于最末cas基因(在3’端)与CRISPR基因座的第一CRISPR重复序列(在5’端)之间。在一些实施方案中,前导序列具有约20-500个核苷酸长度。
在一些实施方案中,毗邻于受体细胞的一个或多个cas基因插入来自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区,其中所述cas基因是相同的或不同的。在一些其它实施方案中,毗邻于受体细胞的相同或不同间隔区插入来自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区。
在另一个实施方案中,毗邻于细胞的相同或不同CRISPR重复序列分别插入一个或多个CRISPR间隔区或假CRISPR间隔区-如来自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区。在另一个实施方案中,毗邻于受体细胞的相同或不同cas基因分别插入一个或多个CRISPR间隔区或假CRISPR间隔区-如来自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区。
在一些其他实施方案中,提供来自供体生物的一个或多个CRISPR间隔区的序列,在这样的条件下受体细胞受到了修饰,以至受体细胞的CRISPR间隔区与该供体生物的CRISPR间隔区或假CRISPR间隔区具有同源性。在一些实施方案中,CRISPR间隔区与该供体生物的CRISPR间隔区具有100%同源性。
在一些实施方案中,CRISPR间隔区或假CRISPR间隔区包含基因组、合成或重组来源的DNA或RNA。在一些实施方案中,CRISPR间隔区或假CRISPR间隔区是双链的,而在其他实施方案中,它们是单链的,无论是否代表有义链或反义链或其组合。如本文中所述,构思了通过使用重组DNA技术(例如重组DNA)制备CRISPR间隔区或假CRISPR间隔区。
在一些实施方案中,修饰包括将源自供体生物的一个或多个CRISPR间隔区或假CRISPR间隔区插入基本上敏感细胞的一个或多个CRISPR基因座,其中所述的供体生物基本上抗靶核酸或其转录产物。在一些实施方案中,在基本上敏感细胞中的至少两个CRISPR重复序列和至少一个cas基因的功能性组合处或在所述至少两个CRISPR重复序列和至少一个cas基因的功能性组合之间发生插入。在一些实施方案中,修饰包括修饰(例如突变)受体细胞的DNA(例如质粒DNA或基因组DNA),从而在细胞的DNA中产生一个或多个cas基因。在一些实施方案中,使用任意合适的方法,将cas基因克隆到构建体、质粒或载体等中,其随后转化到细胞中。
在一些实施方案中,修饰包括修饰(例如突变)受体细胞的DNA(如质粒DNA或基因组DNA),从而在细胞的DNA中产生一个或多个、优选两个或多个CRISPR重复序列。在一些实施方案中,使用任意合适的方法,将CRISPR重复序列克隆到构建体、质粒或载体等中,其随后转化到细胞中。
在一些其他实施方案中,修饰包括修饰(例如突变)受体细胞的DNA(例如质粒DNA或基因组DNA),从而在细胞的DNA中产生一个或多个cas-CRISPR重复序列功能性组合。在一些实施方案中,使用任意合适的方法,将所述cas-CRISPR重复序列功能性组合克隆到构建体、质粒或载体中,其随后转化到细胞中。
在一些实施方案中,修饰包括修饰(例如突变)受体细胞的DNA(例如质粒DNA或基因组DNA)从而在细胞的DNA中产生一个或多个CRISPR间隔区。在一些实施方案中,使用任意合适的方法,可以将CRISPR间隔区克隆到构建体、质粒或载体中,其随后转化到细胞中。在一些优选的实施方案中,一个CRISPR间隔区在侧翼具有两个CRISPR重复序列(即,一个CRISPR间隔区在每一侧具有至少一个CRISPR重复序列)。
在一些实施方案中,修饰包括靠近(例如毗邻于/紧邻于)一个或多个cas基因和/或前导序列插入一个或多个CRISPR间隔区(例如异源的CRISPR间隔区)。因此,在一些实施方案中,在插入一个或多个CRISPR间隔区后,维持了天然存在的CRISPR基因座的组织结构。
如本文中所用,术语“靶核酸”指这样的任意核酸序列或其转录产物,针对其调节细胞(例如受体细胞)的抗性。在一些实施方案中,所述抗性是针对靶核酸序列本身。有利地,这赋予细胞针对衍生靶核酸的供体生物的抗性。因此,在一些实施方案中,将衍生自噬菌体的假CRISPR间隔区或与所述一个或多个假CRISPR间隔区互补或同源的CRISPR间隔区插入受体细胞赋予了针对该噬菌体的抗性。因此,在一些优选的实施方案中,将衍生自噬菌体的假CRISPR间隔区的两个CRISPR重复序列或与所述一个或多个假CRISPR间隔区互补或同源的CRISPR间隔区插入受体细胞赋予了针对该噬菌体的抗性。在又一方面,提供了用于调节受体细胞针对靶核酸或其转录产物的抗性的方法。
本发明也提供了用于确定细胞针对靶核酸的抗性谱的方法。如本文中所用,术语“抗性谱”意指细胞对其敏感或抵抗的一种或多种实体。因此,在一些实施方案中,细胞的抗性谱反映细胞抵抗第一种噬菌体,对第二种噬菌体敏感,抵抗第一种可移动遗传元件并且对第一种抗生素抗性基因敏感等。
在一些实施方案中,检测和/或将细胞内的一个或多个cas基因或蛋白、一个或多个CRISPR重复序列、一个或多个cas基因、一个或多个cas-CRISPR重复序列功能性组合、一个或多个CRISPR间隔区和/或一个或多个CRISPR间隔区等测序,从而预测/确定特定细胞的可能抗性谱。在一些其他实施方案中,细胞内的一个或多个CRISPR间隔区被检测和/或测序,从而预测/确定特定细胞的可能抗性谱。合适的检测方法包括但不限于PCR、DNA-DNA杂交、DNA-RNA杂交、DNA微阵列等。实际上,意图在本发明中使用任意合适的方法。在其它的实施方案中,使用特定细菌细胞针对一种或多种噬菌体的可能抗性谱作为微生物选择的溶菌型预测指标。在一些其他实施方案中,除一个或多个CRISPR间隔区之外,还对一个或多个cas基因和/或一个或多个CRISPR重复序列测序,旨在验证cas基因-CRISPR重复序列组合的相容性或鉴定新的成对相容性cas/重复序列组合。
如本文中所用,术语“调节抗性”指抑制、减低、降低、诱导、赋予、恢复、升高、增加或以另外方式影响细胞针对靶核酸的抗性,这一点根据上下文取意。
如本文中所用,术语“抗性”不意图暗示细胞100%抗靶核酸或其转录产物,但包括耐受靶核酸或其转录产物的细胞。
如本文中所用,术语“针对靶核酸或其转录产物的抗性”意指赋予针对包含或产生所述靶核酸或其转录产物的细胞或生物(例如噬菌体)的抗性。在一些实施方案中,为赋予针对靶核酸或其表达产物的免疫性或抗性所需要的最少组分是分布在间隔区侧翼的至少一个cas基因(或一个Cas蛋白)和至少两个CRISPR重复序列。
在一些实施方案中,本发明提供了用于调节(例如赋予或提高)细胞针对靶核酸或其转录产物的抗性的方法,所述方法包括步骤:在生物中鉴定序列(例如保守序列)(优选地,对该生物的功能或存活为必需的序列);制备包含与所鉴定序列同源(例如100%同一)的CRISPR间隔区;制备包含至少一个cas基因和至少两个CRISPR重复序列连同CRISPR间隔区的核酸;和(iv)用该核酸转化细胞,因而使细胞抗靶核酸或其转录产物。
如本文中所用,术语“保守序列”在生物中鉴定保守序列的情况下不必定是在其最严格意义下的保守,因为来自给定生物的一种序列的知识是充分的。此外,该序列无需是主要实体的部分。然而,在一些实施方案中,该保守序列是对生物或细胞的功能和/或存活和/或复制和/或感染性等为必需的序列。在一些实施方案中,该保守序列包括解旋酶、引发酶、头部或尾部结构蛋白、具有保守结构域的蛋白质(例如穴蛋白、细胞溶素和其他蛋白等)或重要噬菌体基因当中的保守序列。
在一些其他实施方案中,本发明提供了用于调节(例如赋予或提高)细胞针对靶核酸或其转录产物的抗性的方法,所述方法包括步骤:在抗靶核酸或其转录产物的生物中鉴定一个或多个CRISPR间隔区;制备包含至少一个cas基因或蛋白和至少两个CRISPR重复序列连同已鉴定的一个或多个间隔区的重组核酸;和用该重组核酸转化细胞,因而使该受体细胞抗靶核酸或其转录产物。
在一些实施方案中,本发明提供了用于调节(例如赋予或提高)包含至少一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的细胞针对靶核酸或其转录产物的抗性的方法,所述方法包括步骤:在抗靶核酸或其转录产物的生物中鉴定一个或多个CRISPR间隔区;和修饰细胞中一个或多个CRISPR间隔区的序列,从而CRISPR间隔区与该生物中的CRISPR间隔区具有同源性。在一些实施方案中,受体细胞中的一个或多个CRISPR间隔区被修饰(例如,基因工程化改造),从而CRISPR间隔区与基本上抗靶核酸或其转录产物的供体生物中的一个或多个CRISPR间隔区具有同源性,旨在使细胞抗靶核酸。在一些优选的实施方案中,细胞中的一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列是如本文中所述的功能性组合。
所述基因工程方法包括本领域已知的任意合适方法,包括但不限于添加(例如插入)、缺失(例如除去)或修饰(例如突变)细胞中的一个或多个CRISPR间隔区和/或一个或多个假CRISPR间隔区的序列,从而CRISPR间隔区与供体生物的一个或多个CRISPR间隔区具有同源性(例如经所述基因工程后提高的同源性)。这个工程工程化改造步骤导致基本上对靶核酸或其转录产物敏感的细胞基本上抗所述靶核酸或其转录产物。
在一些其它实施方案中,本发明提供了用于降低或减低包含至少一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的受体细胞针对靶核酸或其转录产物的抗性的方法。
在一些实施方案中,该方法包括步骤:在基本上抗靶核酸或其转录产物的生物中鉴定一个或多个CRISPR间隔区;和修饰细胞中一个或多个CRISPR间隔区的序列,从而CRISPR间隔区与该生物中的CRISPR间隔区具有程度降低的同源性。
在其他实施方案中,用于调节(例如降低)包含一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的细胞针对靶核酸或其转录产物的抗性的方法包括步骤:在包含靶核酸或其转录产物的生物中鉴定CRISPR间隔区或假CRISPR间隔区,其中针对所述生物的抗性待调节;和在待调节抗性的生物中鉴定CRISPR间隔区;和修改待调节抗性的生物中的RISPR间隔区的序列,从而该CRISPR间隔区与包含所述靶核酸或其转录产物的生物的CRISPR间隔区或假CRISPR间隔区具有较低程度的同源性,其中针对所述生物的抗性待调节。
工程化改造基本上抗性细胞中的一个或多个CRISPR间隔区旨在使细胞对靶核酸敏感。可用的基因工程方法包括但不限于添加(例如插入)、缺失(例如除去)或修饰所述基本上抗性细胞中的一个或多个功能性CRISPR重复序列-cas组合或其部分或片段,和/或添加(例如插入)、缺失(例如除去)或修饰所述基本上抗性细胞中的一个或多个CRISPR间隔区或其部分或片段。这个工程化改造步骤导致对靶核酸或其转录产物基本上抵抗的细胞变得对靶核酸或其转录产物基本上敏感。
在一些实施方案中,为了赋予细胞敏感性,构思了除去、缺失或修饰来自基本上抗性细胞的一个或多个CRISPR间隔区、一个或多个cas基因或蛋白、一个或多个、优选两个或多个CRISPR重复序列和/或一个或多个功能性CRISPR重复序列-cas组合,从而不再赋予抗性。在一些实施方案中,制备对靶核酸或其转录产物敏的细胞,从而可以按需要调节(例如降低)它们在给定培养物(例如起子培养物)中的水平。因此,在一些实施方案中,开发了含有两种或多种细菌菌株的起子培养物,从而该培养物的全部成员对相同物质(例如相同的噬菌体)敏感。因此,当不再需要该培养物有活力的时间到来时,使此培养物与相同的单一物质接触以杀死该培养物的全部成员。在一些实施方案中,针对一种或多种物质(例如噬菌体)调节细胞的敏感性,从而该物质仅杀死给定培养物中的某个比例的细胞(例如该培养物中约10、约20、约30、约40、约50、约60、约70、约80、约90或约95%的细胞。
在一些实施方案中,工程化改造了受体细胞,从而它包含CRISPR间隔区或对应于假CRISPR间隔区的序列,因而使此细胞抗靶核酸或其转录产物。合适地是,工程化改造了细胞,从而CRISPR间隔区或对应于假CRISPR间隔区的序列与功能性cas基因-CRISPR重复序列组合如本文中所述一起使用。
在一些实施方案中,工程化改造了抗靶核酸或其转录产物的细胞,从而赋予针对靶核酸或其转录产物的免疫性的CRISPR间隔区插入包含功能性cas基因-CRISPR重复序列组合的细胞,从而使细胞抗靶核酸或其转录产物。
在一些其他实施方案中,确定了抗靶核酸或其转录产物的细胞的一个或多个CRISPR间隔区或假CRISPR间隔区的序列。随后工程化改造受体细胞,从而该受体细胞包含CRISPR间隔区和功能性cas基因-CRISPR重复序列组合的序列,因而使细胞抗靶核酸或其转录产物。
在一些其它实施方案中,制备了来自受体细胞的CRISPR间隔区和来自相同或不同细胞(例如相同或不同受体细胞)的功能性cas基因-CRISPR重复序列组合。随后工程化改造又一种受体细胞,从而该受体细胞包含CRISPR间隔区序列和功能性cas基因-CRISPR重复序列组合,因而使细胞抗靶核酸或其转录产物。
在一些实施方案中,所述抗性是抗靶核酸序列的转录产物(例如靶核酸序列的转录物,尤其是RNA或mRNA)、转录物(例如,有义或反义RNA转录物)或多肽转录产物。在一些实施方案中,这赋予细胞针对衍生所述转录产物的供体生物的抗性。
在一些实施方案中,靶核苷酸序列包含基因组、合成或重组来源的DNA或RNA。在一些其他实施方案中,该核苷酸序列是双链的,而在其他实施方案中,它是单链的,无论是否代表有义链或反义链或其组合。又在其它的实施方案中,通过使用重组DNA技术(例如重组DNA)制备该核苷酸序列。在进一步的实施方案中,该核苷酸序列与天然存在的形式相同,而在其他实施方案中中,该核苷酸序列从天然存在的形式衍生。还在其他实施方案中,靶核酸序列从基因衍生。在一些其他实施方案中,靶核酸序列从基因的变体、同源物、片段或衍生物衍生。在一些优选的实施方案中,靶核酸序列是噬菌体的或者是从噬菌体衍生。在一些实施方案中,靶核酸序列从质粒DNA衍生。在一些实施方案中,靶核酸序列从可移动遗传元件衍生。在一些其它实施方案中,靶核酸序列从转座元件或插入序列衍生。还在其它的实施方案中,靶核酸序列从赋予抗性的基因衍生。在一些其他实施方案中,靶核酸序列从赋予抗生素或抗微生物剂抗性的基因衍生。在一些实施方案中,靶核酸序列从毒力因子衍生。在一些其它实施方案中,靶核酸序列从毒素、内化蛋白或溶血素衍生。
在一些实施方案中,靶核酸序列或其转录产物从一种或多种细菌衍生。在一些优选的实施方案中,使用本发明的方法和组合物调节细菌细胞的抗性。在一些优选的实施方案中,靶核苷酸序列从这样的基因衍生,其中所述基因与细菌中针对质粒转移的抗性相关。在一些实施方案中,修饰了细胞中的一个或多个CRISPR间隔区,从而细胞的CRISPR间隔区与细菌细胞的质粒DNA中所含的CRISPR间隔区和/或假CRISPR间隔区具有同源性,因而提供针对特定质粒的抗性。因此,防止了外来DNA转移到细胞中。在一些优选的实施方案中,以质粒DNA内部的特定区域为靶标,从而提供针对质粒DNA的免疫性。例如,在一些实施方案中,以该质粒的复制起点内部的序列或编码复制蛋白的基因内部的序列为靶标。
在一些实施方案中,本发明提供了这样的方法,所述方法包括步骤:鉴定从细菌细胞的质粒DNA衍生的CRISPR间隔区和/或假CRISPR间隔区,其中针对所述细菌细胞的抗性待调节;和修饰待调节抗性的细胞中的CRISPR间隔区的序列,从而所述细胞的CRISPR间隔区与前述细菌细胞的质粒DNA中所含的CRISPR间隔区和/或假CRISPR间隔区具有同源性。
在进一步的实施方案中,本发明提供了用于赋予细胞针对质粒转移的抗性的方法,所述方法包括步骤:鉴定从质粒DNA衍生的CRISPR间隔区和/或假CRISPR间隔区;鉴定对该质粒基本上敏感的细胞中的一个或多个功能性CRISPR重复序列-cas基因组合;和工程化改造基本上敏感细胞中的一个或多个CRISPR基因座,从而这些CRISPR基因座包含来自该质粒的一个或多个CRISPR间隔区和/或假CRISPR间隔区,因而使此细胞具有抗性。
在一些实施方案中,靶核苷酸序列从基因衍生,其中所述的基因与针对一种或多种可移动遗传元件的抗性相关。在一些实施方案中,从一种或多种可移动遗传元件衍生的特定CRISPR间隔区和/或假CRISPR间隔区添加在细胞的CRISPR基因座内,从而提供针对可移动遗传元件(例如转座元件和插入序列)的抗性,因而防止外来DNA转移和遗传漂变。在一些实施方案中,以转座子和插入序列内部的特定区域为靶标,从而提供针对可移动遗传元件的免疫性。例如,在一些实施方案中,靶标包括但不限于接合转座子(Tn916)、II类转座子(Tn501)、插入序列(IS26)和转座酶基因。
在一些实施方案中,本发明提供了这样的方法,所述方法包括步骤:鉴定从细胞的一种或多种可移动遗传元件衍生的CRISPR间隔区和/或假CRISPR间隔区,其中针对所述细胞的抗性待调节;和修饰待调节抗性的细胞中的CRISPR间隔区的序列,从而所述细胞的CRISPR间隔区和/或假CRISPR间隔区与前述细胞的可移动遗传元件中所含的CRISPR间隔区具有同源性。
在进一步的实施方案中,本发明提供了用于赋予细胞针对一种或多种可移动遗传元件的抗性的方法,所述方法包括步骤:鉴定从一种或多种可移动遗传元件衍生的CRISPR间隔区和/或假CRISPR间隔区;鉴定对所述一种或多种可移动遗传元件基本上敏感的细胞中的一个或多个功能性CRISPR重复序列-cas基因组合;和工程化改造基本上敏感细胞中的一个或多个CRISPR基因座,从而这些CRISPR基因座包含来自所述一种或多种可移动遗传元件的一个或多个CRISPR间隔区和/或假CRISPR间隔区或与之具有同源性,以使此细胞具有抗性。
在一些实施方案中,靶核苷酸序列从基因衍生,其中所述基因与抗生素和/或抗微生物剂的抗性相关。如本文中所用,术语“抗微生物剂”指杀死微生物或抑制其生长或繁殖的任意组合物。意图该术语应当包括抗生素(即由其他微生物产生的组合物),以及合成产生的组合物。抗微生物剂抗性基因包括但不限于blatem、blarob、blashv、aadB、aacC1、aacC2、aacC3、aacA4、mecA、vanA、vanH、vanX、satA、aacA-aphH、vat、vga、msrA sul和/或int。抗微生物剂抗性基因包括从细菌物种获得的那些抗微生物剂抗性基因,所述的细菌物种包括但不限于埃希氏菌属、克雷伯氏菌属、假单胞菌属、变形菌属、链球菌属、葡萄球菌属、肠球菌属、嗜血杆菌属(Haemophilus)和莫拉氏菌属(Moraxella)。抗微生物剂抗性基因包括从细菌物种获得的那些抗微生物剂抗性基因,所述的细菌物种包括但不限于大肠杆菌(Escherichia coli)、肺炎克雷伯氏菌(Klebsiella pneumoniae)、铜绿假单胞菌(Pseudomonas aeruginosa)、奇异变形杆菌(Proteus mirabilis)、肺炎链球菌(Staphylococcus pneumoniae)、金黄色葡萄球菌(Staphylococcus aureus)、表皮葡萄球菌(Staphylococcus epidermidis)、粪肠球菌(Enterococcus faecalis)、腐生葡萄球菌(Staphylococcus saprophyticus)、酿脓链球菌(Staphylococcuspyogenes)、流感嗜血杆菌(Haemophilus influenzae)和卡他莫拉菌(Moraxellacatarrhalis)。在一些实施方案中,在受体细胞的CRISPR基因座内添加从抗微生物剂抗性编码基因衍生的特定CRISPR间隔区和/或假CRISPR间隔区,在这样的条件下防止了抗性基因转移。因此,减低了获得抗微生物剂抗性基因(即标记)的风险。在一些实施方案中,靶标也包括vanR(即万古霉素抗性)、tetR(即四环素抗性)和/或提供β-内酰胺酶抗性的抗性因子。
在一些实施方案中,本发明提供了这样的方法,所述方法包括步骤:鉴定从包含一个或多个抗微生物剂抗性基因或标记的细胞衍生的一个或多个CRISPR间隔区和/或假CRISPR间隔区;和修饰不包含或不表达所述抗微生物剂抗性基因或标记的细胞中的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与在包含一个或多个抗微生物剂抗性基因或标记的细胞中所含的一个或多个CRISPR间隔区和/或假CRISPR间隔区具有同源性。
在进一步的实施方案中,本发明提供了用于调节细胞中获得抗微生物剂抗性标记的方法,所述方法包括步骤:鉴定从包含一个或多个抗微生物剂抗性基因或标记的细胞衍生的一个或多个CRISPR间隔区和/或假CRISPR间隔区;鉴定不包含或不表达所述抗微生物剂抗性基因或标记的细胞中的一个或多个CRISPR基因座;和修饰不包含或不表达所述抗微生物剂抗性基因或标记的细胞中的CRISPR间隔区的序列,从而所述CRISPR间隔区和/或假CRISPR间隔区与抵抗赋予针对一种或多种抗微生物剂的抗性基因转移的细胞中所含的CRISPR间隔区具有同源性。
在一些实施方案中,靶核苷酸序列从与毒力因子关联的至少一个基因衍生。在一些实施方案中,在细菌CRISPR基因座内添加从编码毒力因子的基因衍生的特定CRISPR间隔区和/或假CRISPR间隔区以提供针对赋予毒力基因转移到细菌中的抗性。在一些实施方案中,以通常提供(例如病原体中)微生物毒力的因子如毒素、内化蛋白、溶血素和其他毒力因子为靶标。
本发明还提供了这样的方法,所述方法包括步骤:鉴定从包含一种或多种毒力因子的细胞衍生的一个或多个CRISPR间隔区和/或假CRISPR间隔区;和修饰不包含或不表达所述毒力因子或标记的细胞中的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与在包含一种或多种毒力因子的细胞中所含的一个或多个CRISPR间隔区和/或假CRISPR间隔区具有同源性。
在进一步的实施方案中,本发明提供了用于赋予细胞针对一种或多种毒力因子或标记的抗性的方法,所述方法包括步骤:鉴定从一种或多种毒力因子或标记衍生的CRISPR间隔区和/或假CRISPR间隔区;鉴定对所述一种或多种毒力因子或标记基本上敏感的细胞中的一个或多个功能性CRISPR重复序列-cas基因组合;和工程化改造基本上敏感细胞中的一个或多个CRISPR基因座,从而这些CRISPR基因座包含来自所述一种或多种毒力因子或标记的一个或多个CRISPR间隔区和/或假CRISPR间隔区,以使此细胞具有抗性。
本发明包括变体、同源物、衍生物和其片段的用途,所述的变体、同源物、衍生物和其片段包括CRISPR基因座、CRISPR间隔区、假CRISPR间隔区、cas基因或蛋白、CRISPR重复序列、功能性CRISPR重复序列-cas基因组合和靶核酸序列或其转录产物的变体、同源物、衍生物和片段。
术语“变体”用来意指不同于野生型序列的天然存在的多肽或核苷酸序列。
术语“片段”表明多肽或核苷酸序列包含野生型序列的一部分。它可以包含序列的一个或多个大的连续区段或多个小区段。该序列也可以包含序列的其他元件,例如,它可以是与另一蛋白质的融合蛋白。优选地,该序列包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。
优选地,所述片段保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
优选地,CRISPR间隔区或假CRISPR间隔区包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。优选地,CRISPR间隔区保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
优选地,cas基因包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。优选地,cas基因保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
优选地,Cas蛋白包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。优选地,Cas蛋白保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
优选地,CRISPR重复序列包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。优选地,CRISPR重复序列保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
优选地,功能性CRISPR重复序列-cas组合包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。优选地,功能性CRISPR重复序列-cas组合保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
优选地,靶核酸序列包含至少50%、更优选至少65%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、最优选至少99%的野生型序列。优选地,靶核酸序列保留野生型多肽或核苷酸序列的50%、更优选60%、更优选70%、更优选80%、更优选85%、更优选90%、更优选95%、更优选96%、更优选97%、更优选98%或最优选99%活性。
在一些实施方案中,片段是功能性片段。分子的“功能性片段”理解为基本上保留或拥有与该完整分子相同的生物学活性的片段。在全部情况下,分子的功能性片段保留该完整分子的至少10%和至少约25%、约50%、约75%、约80%、约85%、约90%、约95%、约96%、约97%、约98%或约99%的生物学活性。
术语“同源物”意指与主题氨基酸序列和主题核苷酸序列具有某种程度同源性的实体。这里,术语“同源性”可以等同于“同一性”。
在上下文中,同源序列意指包括这样的氨基酸序列,其可以与主题序列至少75、85或90%同一、优选地至少95%、96%、97%、98%或99%同一。尽管同源性也可以就相似性方面进行考虑(即具有相似化学属性/功能的氨基酸残基),在本发明上下文中,优选就序列同一性方面表述同源性。
在上下文中,同源序列意指包括这样的核苷酸序列,其可以与主题序列至少75、85或90%同一、优选至少95%、96%、97%、98%或99%同一。尽管同源性也可以就相似性方面进行考虑(即具有相似化学属性/功能的氨基酸残基),在本发明上下文中,优选就序列同一性方面表述同源性。
同源性比较可以通过肉眼或更常见地借助轻易可获得的序列比较程序进行。这些市售计算机程序可以计算两个或多个序列之间的同源性百分数。
可以在连续序列范围内计算同源性百分数(%)(即一个序列与另一个序列比对并且一个序列中的每个氨基酸与另一个序列中的相应氨基酸直接比较,一次一个残基)。这叫做“无空位”比对。一般,这类无空位比对仅在相对小数目的残基范围内进行。
尽管这是极其简单和一致的方法,然而它没有考虑当进行全局比对时,例如在否则是相同的序列对中,一个插入或缺失将导致后续氨基酸残基被排出比对,因此可能同源性百分数大大降低。因此,大部分序列比较方法设计旨在产生优化比对结果,所述的优化比对结果考虑了可能的插入和缺失,而没有不当地对整体同源性分值进行罚分。通过在序列比对中插入“空位”以使局部同源性最大化而做到这一点。
然而,这些较复杂的方法将“空位罚分”赋予比对结果中出现的每个空位,从而对相同数目的相同氨基酸而言,具有尽可能少的空位的序列比对结果-这反映比较的两个序列之间的较高相关性-将比具有众多空位的序列实现更高的评分。通常使用“亲合空位成本(Affine gap cost)”,其中所述的亲合空位成本对空位的存在要求相对高的成本并且对空位中的每个后续残基要求较小罚分。这是最常用的空位评分系统。高空位罚分当然将产生具有较少空位的优化比对结果。大多数比对结果程序允许调整空位罚分。然而,使用此类软件用于序列比较时,优选使用默认值。例如,使用GCGWisconsin Bestfit软件包时,氨基酸序列的默认空位罚分是空位-12和每个延伸-4。
计算最大同源性百分数因而首先要求在考虑空位罚分的情况下产生最佳比对结果。用于开展此类比对的合适计算机程序是GCG WisconsinBestfit软件包(美国威斯康辛大学;Devereux等人,1984,Nucleic AcidsResearch 12:387)。可以执行序列比较的其他软件的实例包括但不限于BLAST软件包(见Ausubel等人,1999,同上文-第18章)、FASTA(Atschul等人,1990,J.Mol.Biol.,403-410)、GENEWORKS套装比较工具和CLUSTAL。BLAST和FASTA均可用于离线和在线搜索(见Ausubel等人,1999,同上文,第7-58页至第7-60页)。然而,对于一些应用,优选使用GCG Bestfit程序。称作BLAST 2 Sequences的一个新工具也可用于比较蛋白质和核苷酸序列(见FEMS Microbiol Lett 1999174(2):247-50;FEMS Microbiol Lett 1999 177(1):187-8)。
尽管可以就同一性方面测定最终的同源性百分数,然而比对过程本身一般不基于全或无配对比较。相反,通常使用比例相似性评分矩阵,该评分矩阵基于化学相似性或进化距离对每个成对比较结果分配评分。此类通常使用的矩阵的实例是BLOSUM62矩阵-即程序BLAST套装的默认矩阵。GCG Wisconsin程序通常使用公共默认值,或者若提供了定制符号比较表的话,使用定制符号比较表(详细信息见用户手册)。对于一些应用,优选使用GCG软件包的公共默认值,或在其他软件的情况下,优选使用默认矩阵-如BLOSUM62。
一旦软件已经产生最佳比对结果,则可能计算同源性百分数,优选序列同一性百分数。软件一般将此作为序列比较的一部分并产生数字结果。
确定序列同一性时,应当使用空位罚分,随后适度地使用以下参数:
对于CLUSTAL |
DNA |
蛋白质 |
|
字大小 |
2 |
1 |
K triple |
空位罚分 |
10 |
10 |
|
空位延伸 |
0.1 |
0.1 |
|
对于多肽序列比较,可以使用以下设置:空位产生罚分3.0和空位延伸罚分0.1。适度地,同一性程度就氨基酸序列而言在至少5个连续氨基酸范围内确定,在至少10个连续氨基酸范围内、在至少15个连续氨基酸范围内、在至少20个连续氨基酸范围内、在至少30个连续氨基酸范围内、在至少40个连续氨基酸范围内、在至少50个连续氨基酸范围内或在至少60个连续氨基酸范围内确定。
序列也可以具有氨基酸残基的缺失、插入或替代,这产生沉默改变并且产生功能等同的物质。可以基于残基极性、电荷、溶解度、疏水性、亲水性和/或两亲性本质的相似性进行人为氨基酸替代,只要此物质的二级结合活性仍保留。例如,带负电荷的氨基酸包括天冬氨酸和谷氨酸;带正电荷的氨基酸包括赖氨酸和精氨酸;并且具有相似亲水性值的具有不带电荷极性首基的氨基酸包括亮氨酸、异亮氨酸、缬氨酸、甘氨酸、丙氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、苯丙氨酸和酪氨酸。
可以例如根据下表进行保守性替代。在第二列中处于相同格内并且优选处于第三列相同行中的氨基酸可以互相替代。
本发明也包括可以进行同源替代(在本文中使用了替代和替换这两种说法以意指以备选残基交换现有的氨基酸残基),即相似对相似的替代-如碱性对碱性,酸性对酸性、极性对极性等。也可以进行非同源替代,即来自一个类别的残基对另一个类别的残基或备选地涉及包括非天然氨基酸-如鸟氨酸(以下称作Z)、二氨基丁酸鸟氨酸(以下称作B)、正亮氨酸鸟氨酸(以下称作O)、吡啶基甘氨酸、噻吩基甘氨酸、萘基甘氨酸和苯基甘氨酸。
也可以由非天然氨基酸进行替换,所述的非天然氨基酸包括;α*和α-双取代*氨基酸、N-烷基氨基酸*、乳酸*、天然氨基酸的卤化衍生物-如三氟酪氨酸*、p-Cl-苯丙氨酸*、p-Br-苯丙氨酸*、p-I-苯丙氨酸*、L-烯丙基-甘氨酸*、β-丙氨酸*、L-α-氨基丁酸*、L-γ-氨基丁酸*、L-α-氨基异丁酸*、L-ε-氨基己酸#、7-氨基庚酸*、L-甲硫氨酸砜#*、L-正亮氨酸*、L-正缬氨酸*、p-硝基-L-苯丙氨酸*、L-羟脯氨酸#、L-硫代脯氨酸*、苯丙氨酸(Phe)的甲基衍生物-如4-甲基-Phe*、五甲基-Phe*、L-Phe(4-氨基)#、L-Tyr(甲基)*、L-Phe(4-异丙基)*、L-Tic(1,2,3,4-四氢异喹啉-3-羧酸)*、L-二氨基丙酸#和L-Phe(4-苄基)*。出于上文讨论的目的(涉及同源替代或非同源替代),注释*用来表示衍生物的疏水性质,而#用来表示所述衍生物的亲水性质,#*表示两亲性特征。
变异氨基酸序列包含了适于在该序列的任意两个氨基酸残基之间插入的合适间隔基团,除了氨基酸间隔区外-如甘氨酸或β-丙氨酸残基外,所述间隔基团还包括烷基如甲基、乙基或丙基。本领域技术人员将完全理解,变异的另一个形式包括一个或多个氨基酸残基以拟肽形式存在。为避免疑问,“拟肽形式”用来指其中α-碳取代基位于该残基的氮原子上而非α-碳上的变异氨基酸残基。用于制备拟肽形式的肽的方法是本领域熟知的。
本发明中所用的核苷酸序列可以在其中包括合成的或修饰的核苷酸。众多不同类型的寡核苷酸修饰法是本领域已知的。这些修饰包括磷酸甲酯和硫代磷酸酯主链和/或在分子的3′和/或5’端添加吖啶或聚赖氨酸链。出于本发明的目的,应当理解可以通过本领域中可用的任意方法修饰核苷酸序列。可以实施此类修饰来增强本发明中有用的核苷酸序列的体内活性或寿命。
CRISPRs
CRISPR(成簇的有规律间隔的短回文重复序列);又称作SPIDR(间隔区散在的同向重复序列)构成一个新近描述的DNA基因座家族,其通常是特定细菌物种特有的。CRISPR基因座是最初在大肠杆菌中认知到的一类独特的散置短序列重复序列(SSRs)(Ishino等人,J.Bacteriol.,169:5429-5433[1987];和Nakata等人,J.Bacteriol.,171:3553-3556[1989])。已经在地中海富盐菌(Haloferax mediterranei)、酿脓链球菌、鱼腥藻(Anabaena)和结核分支杆菌(Mycobacterium tuberculosis)中鉴定到相似的散置SSR(见,Groenen等人,Mol.Microbiol.,10:1057-1065[1993];Hoe等人,Emerg.Infect.Dis.,5:254-263[1999];Masepohl等人,Biochim.Biophys.Acta 1307:26-30[1996];和Mojica等人,Mol.Microbiol.,17:85-93[1995])。CRISPR基因座与其他SSR的不同在于重复序列的结构,其中所述的重复序列已经被命名为有规律间隔的短重复序列(SRSR)(Janssen等人,OMICSJ.Integ.Biol.,6:23-33[2002];和Mojica等人,Mol.Microbiol.,36:244-246[2000])。重复序列是成簇存在的短元件,所述短元件总是被具有恒定长度的独特间插序列有规律地隔开(上文的Mojica等人,[2000])。虽然所述重复序列在菌株之间是高度保守的,然而散置重复序列的数目和间隔区的序列在菌株间彼此不同(van Embden等人,J.Bacteriol.,182:2393-2401[2000])。
CRISPR基因座由通常24至40bp的短且高度保守的部分回文DNA重复序列组成,其中所述的部分回文DNA重复序列含有多达11bp的内部和末端反向重复序列。已经报道这些重复序列出现1至140次。尽管已经检测了分离的元件,然而它们通常排列在重复单元簇(每基因组多达约20或更多个簇)中,其中所述的重复单元簇由20-58bp的独特间插序列隔开。迄今,已经在单条染色体内找到多达20个不同的CRISPR基因座。
CRISPR通常在给定基因组内部是均一的,同时它们大部分是相同的。然而,存在不均一性的实例,例如在古细菌(Archaea)中(上文的Mojica等人,[2000])。
如本文中所用,术语“CRISPR基因座”指包括全部CRISPR重复序列的DNA节段,其中所述DNA节段始于第一CRISPR重复序列的第一核苷酸并以最末(末端)CRISPR重复序列的最末核苷酸结尾。
虽然CRISPR基因座的生物学功能是未知的,已经提出一些假设。例如,已经提出它们可以参与染色体与细胞结构的结合,或参与染色体复制和复制子分配(Jansen等人,OMICS 6:23-33[2002];Jansen等人,Mol.Microbiol.,43:1565-1575[2002];和Pourcel等人,Microbiol.,151:653-663[2005])。Mojica等(Mojica等人,J.Mol.Evol.,60:174-182[2005])假设CRISPR可以参与赋予针对外来DNA的特异免疫性并且Pourcel等(上文)假设CRISPR是能够攫取外来DNA碎片作为防御机制的一部分的结构。Bolotin等(上文)提出CRISPR间隔区元件是染色体外元件过去入侵的踪迹,并且假设它们通过编码反义RNA为细胞提供针对噬菌体感染并且更一般地针对外来DNA表达的免疫性。Bolotin等(上文)还提出cas基因对于CRISPR形成是必需的。然而,不意图使本发明限于任何特定机制、功能、理论以及作用方式。
嗜热链球菌LMG18311的基因组含有3个CRISPR基因座;36-bp重复序列在CRISPR1(34个重复序列)、CRISPR2(5个重复序列)和CRISPR3(单个序列)中是不同。然而,它们优选地在每个基因座中是保守的。CRISPR1和CRISPR2重复序列分别由30bp长度的33个和4个序列分隔。全部这些分隔性序列是彼此不同的。它们也不同于在菌株CNRZ1066(在CRISPR1内的41个分隔性序列)和菌株LMD-9(在CRISPR1内的16个分隔性序列和在CRISPR3内的8个分隔性序列)存在的那些分隔性序列,其中所述两个菌株均是嗜热链球菌。
用于鉴定CRISPR基因座的多种方法是本领域已知的。例如,Jensen等(上文的Jensen等人,[2002])描述了一种基于计算机的方法,其中使用位于美国伊利诺伊州阿贡地区阿贡国家实验室数学与计算机科学部服务器的PATSCAN程序搜索核苷酸序列的CRISPR基序。用于鉴定CRISPR基序的算法是p1=a...bc...dp1c...dpl c...dp1,其中a和b是重复序列大小的下限值和上限值,并且p1和c和d是间隔区序列大小的下限值和上限值。a、b、c和d的值可以从约15至约70bp以约5bp增量变化。在一些优选的实施方案中,使用点阵图(dotplot)(例如通过使用Dotter计算机程序)鉴定CRISPR基因座。
本领域已知的任意合适方法可用于分析序列相似性。例如,如本领域已知,可以使用NCBI BLAST连同微生物基因组数据库和GenBank进行分析。另外,核苷酸序列,包括本文中提供的那些核苷酸序列容纳于数据库中(例如,GenBank或JGI基因组网站)。如本文中所用,“上游”意指5′方向并且“下游”意指3′方向。
在其它的实施方案中,本发明的方法使用扩增方法(见例如,上文的Mojica等人,[2005];和上文的Pourcel等人,[2005])。扩增DNA的所需区域可以通过包括聚合酶链反应(PCR)在内的本领域已知的任意方法完成。“扩增”指产生核酸序列的额外拷贝。通常使用本领域熟知的PCR技术实施这个过程。“聚合酶链反应”(“PCR”)是本领域技术人员熟知的。在本发明中,设计寡核苷酸引物以用在PCR反应中扩增完整或部分的CRISPR基因座。
术语“引物”指这样的寡核苷酸,无论天然存在(如在纯化的限制性消化产物中)或合成产生,其中当置于这样的条件(即在核苷酸和诱导物质(如DNA聚合酶)存在时并在适宜的温度和pH)下时,所述寡核苷酸能够充当合成的起始点,其中在所述条件下诱导了与一条核酸链互补的引物延伸产物的合成。在一些实施方案中,为扩增中的最大效率,引物是单链的,不过在其他实施方案中,引物是双链的。在一些实施方案中,引物是寡脱氧核糖核苷酸。引物必须具有足够的长度以在诱导物质存在下引发延伸产物合成。引物的确切长度取决于众多因素,这包括温度、引物来源和所使用的方法。PCR引物一般是至少约10个核苷酸长度,和最常见是至少约20个核苷酸长度。用于设计和开展PCR的方法是本领域熟知的,并且包括但不限于使用成对引物、巢式引物、单特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物等的方法。
在本发明的一些优选实施方案中,使用本领域已知的任意合适方法比较来自亲代细菌和标记细菌的CRISPR基因座或其部分。在本发明的一些优选实施方案中,来自亲代细菌和标记细菌的CRISPR基因座或其部分通过扩增CRISPR基因座或其部分进行比较。除了熟知的循环扩增方法(例如PCR、连接酶链反应等)之外,在本发明中还使用其他方法,包括但不限于等温扩增方法。在本发明中使用的熟知的等温扩增方法包括但不限于链置换扩增(SDA)、Q-β-复制酶、基于核酸的序列扩增(NASBA)法和自我维持的序列复制法。
在本发明的一些其他优选实施方案中,来自亲代细菌和标记细菌的CRISPR基因座或其部分通过对CRISPR基因座或其部分测序进行比较;来自亲代细菌和标记细菌的CRISPR基因座或其部分通过扩增并随后对CRISPR基因座或其部分测序进行比较。在一些实施方案中,比较了CRISPR基因座的一端,而在其他实施方案中,比较了该基因座的5’和3’端。在一些优选的实施方案中,比较了CRISPR基因座的一端(例如5’端)。又在其他实施方案中,比较了在CRISPR基因座3′端的至少最末CRISPR重复序列和/或在CRISPR基因座3′端的至少最末CRISPR间隔区(例如最末CRISPR间隔区核心)和/或在CRISPR基因座5′端的至少第一CRISPR重复序列和/或在CRISPR基因座5′端的至少第一CRISPR间隔区(例如第一CRISPR间隔区核心)。在一些优选的实施方案中,比较了在CRISPR基因座5′端的至少第一CRISPR重复序列和/或在CRISPR基因座5′端的至少第一CRISPR间隔区(例如第一CRISPR间隔区核心)。在一些额外的优选实施方案中,比较了在CRISPR基因座3′端的至少最末CRISPR间隔区(例如最末CRISPR间隔区核心)和/或在CRISPR基因座5′端的至少第一CRISPR间隔区(例如第一CRISPR间隔区核心)。在一些其他的优选实施方案中,比较了在CRISPR基因座5’端的至少第一CRISPR间隔区(例如第一CRISPR间隔区核心)。
在一些实施方案中,该CRISPR基因座包含DNA,而在其他实施方案中,该CRISPR基因座包含RNA。在一些实施方案中,核酸是基因组来源的,而在其他实施方案中,它是合成或重组来源的。在一些实施方案中,CRISPR基因座是双链的,而在其他实施方案中,它们是单链的,无论是否代表有义链或反义链或其组合。在一些实施方案中,本文中所述,通过使用重组DNA技术(例如重组DNA)制备CRISPR基因座。
本发明也提供了用于产生CRISPR变体的方法。使用本领域已知的任意合适方法表达、分离、克隆和/或对这些变体测序。在一些特别优选的实施方案中,CRISPR变体是这样的噬菌体抗性突变菌株,其具有带额外间隔区的经修饰的CRISPR基因座。在一些其它实施方案中,这些变体用作靶标,用于检测/鉴定目的或用于工程化改造针对核酸分子的抗性。在进一步的实施方案中,这些变体用于开发生物控制剂。
在本发明的上下文中,CRISPR基因座具有如下文所述的定向。CRISPR前导序列是具有定义大小的保守DNA节段。使用以下特征建立嗜热链球菌CRISPR1基因座的定向。
CRISPR与相邻cas(CRISPR相关序列)基因的相对位置;CRISPR1位于4个cas基因(CNRZ1066染色体序列内部的基因str0657、str0658、str0659和str0660)的下游。
这种重复序列具有形成发夹二级结构的潜能,尽管它不是完全回文的,并且反向互补序列(5′-GTTGTACAGTTACTTAAATCTTGAGAGTACAAAAAC-3′;SEQID NO:695)不同于正向序列(5′-GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAAC-3′;SEQ IDNO:1)。通常,该正向序列的5’端比所述反向互补序列的5’端含有更多的核苷酸G和T。此外,由于G-T碱基配对作用优于A-C碱基配对作用,故该发夹结构通常在正链上更坚固;并且
如本文中所用,末端重复序列的位置是在其3’端显示序列变异的末端重复序列。
CRISPR前导序列是具有定义大小的保守DNA节段,其紧邻第一重复序列的上游定位。例如,嗜热链球菌CRISPR1的前导序列是紧邻基因str0660的终止密码子后开始并正好在第一重复序列之前结束的DNA节段。CRISPR前导序列位于CRISPR基因座的5’端。CRISPR前导序列紧邻CRISPR基因座的第一CRISPR重复序列的上游定位。
CRISPR非转录尾区是具有定义大小的保守DNA节段,其紧邻末端重复序列的下游定位。例如,嗜热链球菌CRISPR1的非转录尾区序列是紧邻末端重复序列后开始并正好在(位于相对DNA链上的)基因str0661的终止密码子之前结束的DNA节段。CRISPR非转录尾区位于CRISPR基因座的3’端。CRISPR非转录尾区紧邻末端重复序列的下游定位。
例如,嗜热链球菌菌株CNRZ1066的CRISPR1基因座中的CRISPR前导序列和CRISPR非转录尾区序列是
CRISPR前导序列
5′-CAAGGACAGTTATTGATTTTATAATCACTATGTGGGTATAAAAACGTCAAAATTTCATTTGAG-3′(SEQ ID NO:688)
CRISPR非转录尾区
5′-TTGATTCAACATAAAAAGCCAGTTCAATTGAACTTGGCTTT-3′(SEQ ID NO:691)
CRISPR前导序列对应于嗜热链球菌全基因组(CP000024)的第625038至625100位置,并且CRISPR非转录尾区对应于嗜热链球菌全基因组的第627845至627885位置。
如本文中所用,术语“上游”意指5′方向并且“下游”意指3′方向。如本文中所用,在CRISPR基因座的上下文中的术语“其部分”意指CRISPR基因座的至少约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或甚至约100个或更多个核苷酸(例如至少约44-98个核苷酸)。在一些优选的实施方案中,术语“其部分”意指CRISPR基因座从一端或两端(即5’和/或3’端)的至少约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或约100个或更多个核苷酸(例如至少约44-98个核苷酸)。在一些优选的实施方案中,术语“其部分”指在CRISPR基因座的5’端的至少约前44个核苷酸或在CRISPR基因座的3’端的约44个最末核苷酸。
在一些其他实施方案中,在CRISPR基因座的上下文中的术语“其部分”意指在CRISPR基因座5’端距离第一CRISPR重复序列的第一核苷酸下游或在CRISPR基因座3’端距离最末CRISPR重复序列的最末核苷酸上游的至少开头约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或约100个或更多个核苷酸(例如至少约44-98个核苷酸)。在一些优选的实施方案中,术语“其部分”指在CRISPR基因座5’端距离第一CRISPR重复序列的第一核苷酸下游的至少开头44个核苷酸或在CRISPR基因座3’端距离最末CRISPR重复序列的最末核苷酸上游的至少约44个核苷酸。
在一些实施方案中,重复序列的最小长度是约24个核苷酸并且标签序列的最小长度是约20个核苷酸。因此,在一些优选的实施方案中,在CRISPR基因座的上下文中的术语“其部分”意指至少44个核苷酸。
在一些实施方案中,重复序列的最大长度是约40个核苷酸并且标签序列的最大长度是约58个核苷酸。因此,在一些实施方案中,在CRISPR基因座的上下文中的术语“其部分”意指至少约98个核苷酸。在一些优选的实施方案中,在CRISPR基因座的上下文中的术语“其部分”意指至少约44-98个核苷酸。
当比较来自亲代细菌和标记细菌的CRISPR基因座或其部分时,比较了CRISPR基因座的至少约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或约100个(例如至少约44-98个核苷酸)。在一些优选的实施方案中,比较了在CRISPR基因座一端或两端的至少约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或约100个或更多个核苷酸(例如至少约44-98个核苷酸)。
在一些优选的实施方案中,比较了在CRISPR基因座5′端或在CRISPR基因座3′端的至少开头约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或约100个或更多个核苷酸(例如至少约44-98个核苷酸)。在一些优选的实施方案中,至少比较了在CRISPR基因座5’端的约开头44个核苷酸或在CRISPR基因座3’端的最后约44个核苷酸。
在一些实施方案中,比较了在CRISPR基因座5’端距离第一CRISPR重复序列的第一核苷酸下游或在CRISPR基因座3’端距离最末CRISPR重复序列的最末核苷酸上游的至少开头约10个核苷酸、约20个核苷酸、约24个核苷酸、约30个核苷酸、约40个核苷酸、约44个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约98个核苷酸或约100个或更多个核苷酸(例如至少约44-98个核苷酸)。在一些优选的实施方案中,比较了在CRISPR基因座5’端距离第一CRISPR重复序列的第一核苷酸下游的至少开头44个核苷酸或在CRISPR基因座3’端距离最末CRISPR重复序列的最末核苷酸上游的至少约44个核苷酸。
在一些实施方案中,该重复序列的最小长度是约24个核苷酸并且该标签序列的最小长度是约20个核苷酸。在一些优选的实施方案中,比较了至少44个核苷酸。在一些备选实施方案中,该重复序列的最大长度是约40个核苷酸并且该标签序列的最大长度是约58个核苷酸。在一些优选的实施方案中,比较了至少98个核苷酸。在一些备选的优选实施方案中,比较了至少约44-98个核苷酸。
如本文中所用,术语“CRISPR重复序列”具有如本领域使用的常规含义(即多重短同向重复序列,其在给定CRISPR基因座中不显示或显示很小的序列变异)。如本文中所用,在上下文中,“CRISPR重复序列”与术语“CRISPR”同义。
除存在CRISPR间隔区之外,CRISPR基因座包含一个或多个CRISPR重复序列。因此,CRISPR重复序列对应于CRISPR基因座内的重复序列。例如,除了末端重复序列之外,嗜热链球菌CRISPR1序列的常见重复序列是:5′-GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAAC-3′(SEQ IDNO:1)。
已经观察到这种重复序列的点变异,但是这些点变异极稀少。与这种常见重复序列相比,末端重复序列总在其3’端显示相同的变异。也已经观察到这种末端重复序列的点变异,但是这些点变异极稀少。CRISPR重复序列可以天然存在于亲代细菌中。CRISPR1序列的GenBank登录号包括:CP000023、CP000024、DQ072985、DQ072986、DQ072987、DQ072988、DQ072989、DQ072990、DQ072991、DQ072992、DQ072993、DQ072994、DQ072995、DQ072996、DQ072997、DQ072998、DQ072999、DQ073000、DQ073001、DQ073002、DQ073003、DQ073004、DQ073005、DQ073006、DQ073007、DQ073008和AAGS01000003。
如本文中进一步详述,重复序列从亲代细菌衍生、可从亲代细菌衍生、从亲代细菌获得或可从亲代细菌获得。在一些优选的实施方案中,所述序列包含亲代细菌的基因组DNA。在一些特别优选的实施方案中,重复的CRISPR重复序列(例如在相同的CRISPR基因座中)反复、依次、同时或基本上同时地连同标签序列一起整合到亲代细菌中,以产生标记的细菌。
在一个重复序列中的核苷酸数通常是约20至约40碱基对(例如36碱基对),不过在其他实施方案中是约20至约39碱基对、约20至约37碱基对、约20至约35碱基对、约20至约33碱基对、约20至约30碱基对、约21至约40碱基对、约21至约39碱基对、约21至约37碱基对、约23至约40碱基对、约23至约39碱基对、约23至约37碱基对、约25至约40碱基对、约25至约39碱基对、约25至约37碱基对、约25至约35碱基对或约28或29碱基对。
在一个重复序列中的核苷酸数通常是约20至约40碱基对,不过可以是约20至约39碱基对、约20至约37碱基对、约20至约35碱基对、约20至约33碱基对、约20至约30碱基对、约21至约40碱基对、约21至约39碱基对、约21至约37碱基对、约23至约40碱基对、约23至约39碱基对、约23至约37碱基对、约25至约40碱基对、约25至约39碱基对、约25至约37碱基对、约25至约35碱基对或约28或29碱基对。重复序列的数目可以是从约1至约140、从约1至约100、从约2至约100、从约5至约100、从约10至约100、从约15至约100、从约20至约100、从约25至约100、从约30至约100、从约35至约100、从约40至约100、从约45至约100、从约50至约100、从约1至约135、从约1至约130、从约1至约125、从约1至约120、从约1至约115、从约1至约110、从约1至约105、从约1至约100、从约1至约95、从约1至约90、从约1至约80、从约1至约70、从约1至约60、从约1至约50、从约10至约140、从约10至约130、从约10至约120、从约10至约110、从约10至约95、从约10至约90、从约20至约80、从约30至约70、从约30至约60、从约30至约50、从约30至约40或约32。
在一些其他实施方案中,在一个重复序列中的核苷酸数是约20至约39碱基对、约20至约37碱基对、约20至约35碱基对、约20至约33碱基对、约20至约30碱基对、约21至约40碱基对、约21至约39碱基对、约21至约37碱基对、约23至约40碱基对、约23至约39碱基对、约23至约37碱基对、约25至约40碱基对、约25至约39碱基对、约25至约37碱基对、约25至约35碱基对或约28或29碱基对。
在一些实施方案中重复序列的数目是从约1至约144个、从约1至约100个、从约2至约100个、从约5至约100个、从约10至约100个、从约15至约100个、从约20至约100个、从约25至约100个、从约30至约100个、从约35至约100个、从约40至约100个、从约45至约100个、从约50至约100个、从约1至约135个、从约1至约130个、从约1至约125个、从约1至约120个、从约1至约115个、从约1至约110个、从约1至约105个、从约1至约100个、从约1至约95个、从约1至约90个、从约1至约80个、从约1至约70个、从约1至约60个、从约1至约50个、从约10至约140个、从约10至约130个、从约10至约120个、从约10至约110个、从约10至约95个、从约10至约90个、从约20至约80个、从约30至约70个、从约30至约60个、从约30至约50个、从约30至约40个或约30、31、32、33、34或35个重复序列。
在一些实施方案中,重复序列的数目是从约2至约140、从约2至约100、从约2至约100、从约5至约100、从约10至约100、从约15至约100、从约20至约100、从约25至约100、从约30至约100、从约35至约100、从约40至约100、从约45至约100、从约50至约100。
在一些其他实施方案中,重复序列的数目是从约2至约135、从约2至约130、从约2至约125、从约2至约120、从约2至约115、从约2至约110、从约2至约105、从约2至约100、从约2至约95、从约2至约90、从约2至约80、从约2至约70、从约2至约60、从约2至约50、从约2至约40、从约2至约30、从约2至约20、从约2至约10、从约2至约9、从约2至约8、从约2至约7、从约2至约6、从约2至约5、从约2至约4或从约2至约3。
在一些实施方案中,该CRISPR重复序列包含DNA,而在其他实施方案中,该CRISPR重复序列包含RNA。在一些实施方案中,核酸是基因组来源的,而在其他实施方案中,它是合成或重组来源的。在一些实施方案中,CRISPR重复序列基因是双链的或单链的,无论是否代表有义链或反义链或其组合。在一些实施方案中,本文中所述,通过使用重组DNA技术(例如重组DNA)制备CRISPR重复序列基因。
在一些实施方案中,使用一个或多个CRISPR重复序列来工程化改造细胞(例如受体细胞)。在一些优选的实施方案中,使用一个或多个、优选两个或多个CRISPR重复序列来工程化改造细胞(例如受体细胞),其中所述的CRISPR重复序列与一个或多个cas基因或蛋白和一个或多个CRISPR间隔区的组合调节细胞针对靶核酸或其转录产物的抗性。例如,在一些实施方案中,使用本领域已知的任意合适方法,将CRISPR重复序列插入细胞的DNA(例如受体细胞的质粒和/或基因组DNA)。在其它的实施方案中,CRISPR重复序列用作模板,根据所述模板来修饰(例如突变)细胞的DNA(例如受体细胞的质粒和/或基因组DNA),从而在细胞的DNA中产生或工程化CRISPR重复序列。在其它的实施方案中,CRISPR重复序列存在于至少一个构建体、至少一个质粒和/或至少一个载体等中。在其他实施方案中,使用本领域已知的任意合适方法,将CRISPR重复序列导入细胞。
在其它的实施方案中,本发明提供了用于鉴定旨在用来调节细胞针对靶核酸或其转录产物的抗性的CRISPR重复序列的方法,所述方法包括步骤:(i)制备包含至少一个CRISPR间隔区和至少一个cas基因的细胞;(ii)工程化细胞,从而细胞含有CRISPR重复序列;(iii)确定细胞是否调节针对所述靶核酸或其转录产物的抗性,其中调节细胞针对靶核酸或其转录产物的抗性表明该CRISPR重复序列可以用来调节抗性。
在一些其他实施方案中,将一个或多个cas基因或蛋白与一个或多个、优选两个或多个CRISPR重复序列和任选一个或多个CRISPR间隔区一起使用或与它们组合使用。在一些特别优选的实施方案中,cas基因或蛋白质和CRISPR重复序列形成如下所述的功能性组合。在一些实施方案中,CRISPR重复序列包含在SEQ ID NO:1-22中所述的任意核苷酸。SEQ IDNO:1-12来自嗜热链球菌,而SEQ ID NO:13-16来自无乳链球菌(Streptococcus agalactiae),SEQ NO:17来自变异链球菌(S.mutans),并且SEQ ID NO:18-22来自酿脓链球菌(S.pyogenes)。
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAAC(SEQ ID NO:1)
GTTTTTGTATTCTCAAGATTTAAGTAACTGTACAGT(SEQ ID NO:2)
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT(SEQ ID NO:3)
GTTTTTGTACTCTCAAGATTTAAGTAACCGTACAAC(SEQ ID NO:4)
GTTTTTGTACTCTCAAGATTTAAGTAACTGTGCAAC(SEQ ID NO:5)
GTTTTTGTACTCTCAAGATTTAAGTAGCTGTACAGT(SEQ ID NO:6)
GTTTTTGTACTCTCAAGATATAAGTAACTGTACAAC(SEQ ID NO:7)
GTTTTTGTACTCTCAAGATCTAAGTAACTGTACAAC(SEQ ID NO:8)
GTTTTTGTACTCTCAAGATGTAAGTAACTGTACAAC(SEQ ID NO:9)
GTCTTTGTACTCTCAAGATTTAAGTAACTGTACAAC(SEQ ID NO:10)
AAAAAAGTCCCCTCTCGAGGTAATTAGGTTTATATC(SEQ ID NO:11)
GTTTCCGTCCCCTCTCGAGGTAATTAGGTTTATATC(SEQ ID NO:12)
GTTTTAGAGCTGTGTTGTTTCGAATGGTTCCAAAAC(SEQ ID NO:13)
GTTTTAAAGCTGTGCTGTTATTATGCTAGGGCACCA(SEQ IDNO:14)
GTTTTAGAGCTGTGCTGTTTCGAATGGTTCCAAAAC(SEQ ID NO:15)
GTTTTAGAGCTGTGCTGTTATTATGCTAGGACATCA(SEQ ID NO:16)
GTTTTAGAGCCATGTTAGTTACTGATTTACTAAAAT(SEQ ID NO:17)
GTTTTAGAGCTATGCTGTTTTGAATGGTCCCAAAAC SEQ ID NO:18
GTTTTAGAGCTATGCTGTTTTGAATGGTCTCCATTC(SEQ ID NO:19)
CTTTCAATCCACTCACCCATGAAGGGTGAGACG(SEQ ID NO:20)
ATTTCAATCCACTCACCCATGAAGGGTGAGACT(SEQ ID NO:21)
ATTTCAATCCACTCACCCATGAAGGGTGAGACC(SEQ ID NO:22)
CRISPR间隔区
如本文中所用,“CRISPR间隔区”包括存在于CRISPR基因座的多重短同向重复序列(即CRISPR重复序列)之间的非重复性间隔区序列。在本发明的一些实施方案中,“CRISPR间隔区”指在侧翼为两个CRISPR重复序列的核酸节段。已经发现CRISPR间隔区往往与多种可移动DNA分子(例如噬菌体和质粒)具有显著的相似性。在一些优选的实施方案中,CRISPR间隔区位于两个相同的CRISPR重复序列之间。在一些实施方案中,通过对位于两个CRISPR重复序列之间的DNA段进行序列分析来鉴定CRISPR间隔区。在一些优选的实施方案中,CRISPR间隔区天然地存在于作为回文的两个相同的多重短同向重复序列之间。
令人感兴趣的是,携带这些CRISPR间隔区的细胞不能够被含有与间隔区同源的序列的DNA分子感染(Mojica等2005)。在一些优选的实施方案中,CRISPR间隔区与靶核酸或其转录产物或鉴定的序列同源。尽管同源性也可以就相似性方面进行考虑,然而在本发明上下文中,优选就序列同一性方面表述同源性。同源序列视为包括CRISPR间隔区,其可以与靶核酸序列或其转录产物或鉴定的序列至少约70、约75、约80、约85或约90%同一,或至少约91、约92、约93、约94、约95、约96、约97、约98或约99%同一。在一些优选的实施方案中,CRISPR间隔区与靶核酸序列约100%同一。也应当指出在给定CRISPR基因座中CRISPR间隔区的数目在物种之间可以是不同的。另外,间隔区的数目是从约1至约140、从约1至约100、从约2至约100、从约5至约100、从约10至约100、从约15至约100、从约20至约100、从约25至约100、从约30至约100、从约35至约100、从约40至约100、从约45至约100或从约50至约100。在一些优选的实施方案中,间隔区的数目是从约1至约135、从约1至约130、从约1至约125、从约1至约120、从约1至约115、从约1至约110、从约1至约105、从约1至约100、从约1至约95、从约1至约90、从约1至约80、从约1至约70、从约1至约60、从约1至约50、从约1至约40、从约1至约30、从约1至约20、从约1至约10、从约1至约9、从约1至约8、从约1至约7、从约1至约6、从约1至约5、从约1至约4、从约1至约3、或从约1至约2。在一些优选的实施方案中,通过对位于两个CRISPR重复序列之间的DNA段进行序列分析来鉴定CRISPR间隔区。
如本文中所述,本发明提供了促进一个或多个cas基因或蛋白与一个或多个、优选两个或多个CRISPR重复序列组合使用的方法和组合物,其中所述的CRISPR重复序列适于在受体细胞中赋予针对至少一个CRISPR间隔区的免疫特异性。在一些优选的实施方案中,至少一个cas基因或蛋白和至少一个CRISPR重复序列以功能性组合方式使用,用来在细胞中赋予针对至少一个CRISPR间隔区的免疫特异性。
如本文中所用,术语“免疫特异性”意指使用特定的CRISPR间隔区或假CRISPR间隔区序列赋予针对特定核酸序列或其转录产物的免疫性。如本文中所示,给定CRISPR间隔区不赋予针对任意核酸序列或其转录产物的抗性,而仅赋予针对同源于CRISPR间隔区或假CRISPR间隔区的那些核酸序列或其转录产物(例如,约100%同一的那些核酸序列或其转录产物)的抗性。
在一些实施方案中,CRISPR间隔区从不同于受体细胞的供体生物获得。在一些优选的实施方案中,供体细胞和受体细胞是不同的细菌菌株、物种和/或属。在一些优选的实施方案中,至少一个cas基因或蛋白和/或至少一个CRISPR重复序列从不同于受体生物的生物获得。在一些优选的实施方案中,转移了至少两个CRISPR重复序列。在一些额外的优选实施方案中,从与所述受体生物异源的生物或从另一种供体细胞获得CRISPR间隔区,其中从与所述受体生物异源的生物或从另一种供体细胞获得至少一个cas基因和/或蛋白质和/或至少一个CRISPR重复序列。在一些备选的优选实施方案中,从与所述受体生物同源的生物或从另一种供体细胞获得CRISPR间隔区,其中从与所述受体生物同源的生物或从另一种供体细胞获得至少一个cas基因和/或蛋白质和/或至少一个CRISPR重复序列。在一些优选的实施方案中,使用本领域已知的重组方法设计和产生CRISPR间隔区。实际上,意图是使用本领域已知的任意合适方法产生CRISPR间隔区。
在一些实施方案中,CRISPR间隔区与受体细胞是异源的,其中从所述受体细胞获得至少一个cas基因或蛋白和/或至少一个CRISPR重复序列,并且在一些实施方案中,优选2个或多个CRISPR重复序列。在一些备选实施方案中,CRISPR间隔区与受体细胞是同源的,其中从所述受体细胞获得至少一个cas基因或蛋白和/或至少一个CRISPR重复序列,并且在一些实施方案中,优选2个或多个CRISPR重复序列。实际上,意图是在方法中所用的任意元件是异源或同源的。在一些实施方案中,当使用多种元件(例如,CRISPR间隔区、CRISPR重复序列、cas基因和Cas蛋白的任意组合)时,一些元件是彼此同源的并且一些元件是彼此异源的(例如,在一些实施方案中,CRISPR间隔区和cas基因是同源的,但是CRISPR重复序列是异源的)。因此,在一些实施方案中,CRISPR间隔区不与RISPR重复序列和/或cas基因和/或功能性CRISPR重复序列-cas基因组合天然地相关联。实际上,意图在本发明中使用异源元件和同源元件的任意组合。又在其它的实施方案中,供体细胞和受体细胞是异源的,而在其他实施方案中,它们是同源的。还意图的是供体细胞和受体细胞中所含的元件是同源和/或异源的。使用本领域已知的任意合适方法,将所述元件(例如CRISPR间隔区)导入受体细胞的质粒和/或基因组DNA。
在一些优选的实施方案中,使用至少一个CRISPR间隔区来工程化改造细胞(例如受体细胞)。在一些其它实施方案中,将一个或多个CRISPR间隔区与一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列组合(在一些优选的实施方案中,使用其一个或多个功能性组合)用来调节细胞针对靶核酸或其转录产物的抗性,以产生工程化改造的细胞。在一些其他实施方案中,CRISPR间隔区用作模板,根据所述模板来修饰(例如突变)细胞(例如受体细胞)的质粒和/或基因组DNA,从而在细胞的DNA中产生CRISPR间隔区。在一些实施方案中,将CRISPR间隔区克隆到至少一个构建体、质粒或其他载体中,其中随后使用本领域已知的任意合适方法,用所述构建体、质粒或其他载体转化受体细胞。
在一些其他实施方案中,本发明提供了用于鉴定旨在用来调节细胞针对靶核酸或其转录产物的抗性的CRISPR间隔区的方法,所述方法包括步骤:制备包含至少两个CRISPR重复序列和至少一个cas基因或蛋白的细胞;鉴定生物(例如供体生物)中的至少一个CRISPR间隔区;修饰细胞的CRISPR间隔区的序列,从而该CRISPR间隔区的序列与包含靶核酸的供体生物的CRISPR间隔区具有同源性;和确定细胞是否调节针对所述靶核酸的抗性,其中调节细胞针对所述靶核酸或其转录产物的抗性表明该CRISPR间隔区调节细胞针对所述靶核酸的抗性。
在一些优选的实施方案中,CRISPR间隔区包含或由SEQ IDNO:23-460和/或SEQ ID NO:522-665中任意一个或多个所述的核苷酸序列组成。SEQ ID NO:23-339,359-408,522-665来自嗜热链球菌,而SEQ IDNO:340-358来自前庭链球菌(S.vestibularis),SEQ ID NO:409-446来自无乳链球菌,SEQ ID NO:447-452来自变异链球菌并且SEQ ID NO:453-460来自酿脓链球菌。
AGAACGTATTCCAAAACCTCTTTACGATTA(SEQ ID NO:23)
TTAACTGTTATCAAAATGATAAGATAGTCT(SEQ ID NO:24)
CGTTGATGTTTATTCAAGTAAAATAATTAA(SEQ ID NO:25)
TCCTTTCACGGGTAGCACACTAACATACAC(SEQ ID NO:26)
GTTGGCAATGCAAACAACCTTTATGAACCG(SEQ ID NO:27)
TTTATTTCCTTGCGATAACGTTCCACCTTT(SEQ ID NO:28)
AGATTATAAGGAACACAACCAACTATATAG(SEQ ID NO:29)
ACGACATCAAGCTGATTGTCTTCTACATAA(SEQ ID NO:30)
TTTGGAATACTGAATGTTTTACTGAAAATC(SEQ ID NO:31)
ACACCACTATCTTTTCCTCCTGAAAATGAA(SEQ ID NO:32)
GTAATTCCACGAAATTATCAACCTTATGCA(SEQ ID NO:33)
TTGGAGGATTGCCCCATATTCCCAAGAGT(SEQ ID NO:34)
GAGAGGCGTTAAATATAGAAATGCAAGATT(SEQ ID NO:35)
TTTTAACGTCATCAGTCCACCGCCTTAAAT(SEQ ID NO:36)
CACCTCTTTCGATGGAAAGGTATCCTTCTA(SEQ ID NO:37)
GACCAAAGTTTGATTATAGAGCTATACACC(SEQ ID NO:38)
ACCATCATTCTTACCATTACAACTGTAATG(SEQ ID NO:39
ATACGAATTCGGTTCGCACAATTACAATTC(SEQ ID NO:40)
TATCAACGCAATCATTACAACAACTTCAAACA(SEQ ID NO:41)
ATCTACGTGTCAATACATATCACAAAACAG(SEQ ID NO:42)
ATTTTTAGAAATTTCTGATATAATAATGA(SEQ ID NO:43)
TTGTTGGAACAAGGACGACTTGGTAAACTA(SEQ ID NO:44)
CATATTAAGCTGACTGGGCCTAATGCTTTT(SEQ ID NO:45)
TTCATAGCATACCGTAGTTGTAAAATCTAT(SEQ ID NO:46)
AACATTTAGGGAATGAAATTGATAAGACTG(SEQ ID NO:47)
AACATGAGAAACTGTAGAAAACAAGCAATA(SEQ ID NO:48)
TGGTGAAGATGGCAGTCATAAATGGCACATT(SEQ ID NO:49)
AAGGGTTGAAAAATGTTGGTATATCAAACG(SEQ ID NO:50)
TTCTGGTAGTGGATTTAGTCAAACAGATGT(SEQ ID NO:51)
TCCATAGAGCGTCTTAAACAAAGAATAGTC(SEQ ID NO:52)
TTATGATTGAATGACATGGTTGTATAAGTA(SEQ ID NO:53)
TTTCTTTAGGAATACCAGGGAGTTCAGCTT(SEQ ID NO:54)
TGGCAGAGATTACACAGCAACGGAAACAGC(SEQ ID NO:55)
GGGTATCATTGTATCTAGTGATGGACCTGA(SEQ ID NO:56)
ATTTGAAAAATGCACAACAGCGTTTGATAG(SEQ ID NO:57)
GAGCTACCAGCTACCCCGTATGTCAGAGAG(SEQ ID NO:58)
CGTTCCTTTTTTCAAGGTAATCTTTGAAAG(SEQ ID NO:59)
AAGTCCGTAAGCACCAGTTCCAATCGTCAT(SEQ ID NO:60)
TTGAATACCAATGCCAGCTTCTTTTAAGGC(SEQ ID NO:61)
AACCTCATACATGGGGAAAATTGGTAAGTA(SEQ ID NO:62)
TAACTTCATTAGTGTAGTTGTAATTAGCAT(SEQ ID NO:63)
TTAGCTACCCAAATATCTTCTGTTTTCCAA(SEQ ID NO:64)
GAGTTTTCAATATTGGCACAGGAGACAATT(SEQ ID NO:65)
TGATACTATTTTAGTCAGATATGAAATATC(SEQ ID NO:66)
TCATCAATGTTTAAAGCCCAACAATACATGA(SEQ ID NO:67)
TAGATTTAATCAGTAATGAGTTAGGCATAA(SEQ ID NO:68)
AGGAAAATAGCATGAGCGTACAACAATCTA(SEQ ID NO:69)
TGTCTATCACGCTTCCTAAGTGCATGAAAA(SEQ ID NO:70)
ATGTCACCAATCACTAAAGAACCTACGCTG(SEQ ID NO:71)
AACATCTTCCTCTCCGATTGCAAATAGTGC(SEQ ID NO:72)
CATATTTGGTGCCCGTTCGATAAAGAGTA(SEQ ID NO:73)
CATTAAATCGCTTGAAGCAGACATTGAAGC(SEQ ID NO:74)
GACTTATCTTGGAAGGTAGTGAAGGCACTT(SEQ ID NO:75)
TCCTTGCCATCTGCACTGTAAGCCCAAGCA(SEQ ID NO:76)
TAGTACGCATAATCAATTCATCAAGCTTGA(SEQ ID NO:77)
GTAGTGACCCAAAATTCTATGACCTTGAAA(SEQ ID NO:78)
AGATTGTGGTGCTTACGGAAAATTCCTTGT(SEQ ID NO:79)
TGGCAAGAAGTGTAAGAGATGCAATGGATA(SEQ ID NO:80)
TTTATTATCATTATTCTTCTTCCCAAGCGT(SEQ ID NO:81)
TTTTATAGAATTTGGTGGTGAACTTTTTCA(SEQ ID NO:82)
AATGGGTCACAGATTGCCATAATAAGGAG(SEQ ID NO:83)
CCGAGGTCACTTTAGAACCCACAAAATAAG(SEQ ID NO:84)
ATGAGAGAACACAGTATAGACCCTGATACA(SEQ ID NO:85)
CAGTATTAATGAGGTTTGGGTGGTCATTCC(SEQ ID NO:86)
CCATACTCTCTATCAGTTCATTTAATTCTTC(SEQ ID NO:87)
TAATATGTCGCTCTACTGATTCCAAAACGG(SEQ ID NO:88)
ATGAATTACATTCATGATTTTATCGAGTTT(SEQ ID NO:89)
CGTGCCATTGTTTCGGTCGGACGTGGGCA(SEQ ID NO:90)
CTTTCTAAGTTGAATTAAATTCAAGTTTTG(SEQ ID NO:91)
TCGCTACTATGGTTAACGATGAGGAACTCT(SEQ ID NO:92)
AGCAACTTTAAAACTAAAAGAGCTACTTGA(SEQ ID NO:93)
AAAACCCTACACAGTGTGTGAGATGTGTCA(SEQ ID NO:94)
AATGGGTCACAGATTGCCATAATAAGGAGG(SEQ ID NO:95)
TTTTTTAAAATCCGTCATGCTATACTATAT(SEQ ID NO:96)
AATTCAAACTTTCTCCAATAATACCCTCCA(SEQ ID NO:97)
CATGCTTTCAGTTAATAAGACGTGGGACTA(SEQ ID NO:98)
TGGAAGGGGTGTCTAGTGAAGAAATTGTCG(SEQ ID NO:99)
CTCGAAGCGCTTCATTGCCCTATTCCTTTC(SEQ ID NO:100)
ATGTCTAAGGTATCCACTCGTGAAATCAT(SEQ ID NO:101)
ATATTAATGGAAATTTCATTCAAACGCAGT(SEQ ID NO:102)
TAGAGAGTTTATATCCTGATGGAATCGATG(SEQ ID NO:103)
TGGCGAATTAGAGAGCCAATGGCAAGCAAG(SEQ ID NO:104)
AGAAGACCAATAAACTTGAGAAAAAGCAAG(SEQ ID NO:105)
AAATGGTCGTTTAATTGTTAATGTCAAAGC(SEQ ID NO:106)
CAATTGATTCTAAAATGCTTGGTACACGTA(SEQ ID NO:107)
TCTTCGTGTTATCACAGCTTCTACACGTTG(SEQ ID NO:108)
GAAATCTCATTGAAACCAACTTCAAGACCA(SEQ ID NO:109)
TGCTTGGTAGTTGATGCACTGCATTAGTAA(SEQ ID NO:110)
AATGTACCGGAATAGCGTTACATTGCACAT(SEQ ID NO:111)
TTCATAAATTCTCACTTTTCCTTGCTATTC(SEQ ID NO:112)
TGTCGAAAAAATTACCTAGTCACGACAGAC(SEQ ID NO:113)
CAACAATTACTTATGCATTAGGAACATCTG(SEQ ID NO:114)
AATTCGTGAAAAACAATAAAAACAAAAAAA(SEQ ID NO:115)
TAACATTTCTGTCCATTTCTTCCTTGATGC(SEQ ID NO:116)
CAAGGCAACTCAACCAACCAAATTGACC(SEQ ID NO:117)
CTAAAATCGTAAATGGTAAGTTGCACGATG(SEQ ID NO:118)
AACGTAAGGAGTTTTTTTATTTCTTTGTTA(SEQ ID NO:119)
GTGGAAAATTTCACACCCTACATATATCAA(SEQ ID NO:120)
CCTCTGCTAATGACTTAAACGGCTCGTTTT(SEQ ID NO:121)
AAAATCAAAGTTTTGGGTTTGTCTACGTTG(SEQ ID NO:122)
ATATGTACATACCTAAAGAAAACACGGGCA(SEQ ID NO:123)
CGTTGTCAAAATATGTGATTACTTTGTATT(SEQ ID NO:124)
CCATAGCTGTAATGTTGTTTGTGACTGCTT(SEQ ID NO:125)
CGCTAAGTTTGGCTTTAAGTATAACAAGCT(SEQ ID NO:126)
AAAGTACGCTTCAAGGCACGTTGAAGACAT(SEQ ID NO:127)
CTTTTTAACGTGTTAGCGTCTTTAGCTTTG(SEQ ID NO:128)
TTGGCTTCGTGAATAATTTTTAAAACGCAT(SEQ ID NO:129)
TGTTGAATCAATACGCTGAAACACACTCCC(SEQ ID NO:130)
CGTTATCAGTTGAAAGTTTCAACTCGTAAG(SEQ ID NO:131)
TAAACTAGTTGGCATCTATGCTCCAGGAAG(SEQ ID NO:132)
TAGACCACCATAGCCGAGTTGTCTTTTTCG(SEQ ID NO:133)
ACATCCCACTTTCTGGGTTTTTTAGCCATG(SEQ ID NO:134)
AGTATGGCTATTGTCCTGATACTCATCCAC(SEQ ID NO:135)
CGCTCTTGACGTGGCTGGTGACATCTACGC(SEQ ID NO:136)
GAGTACATGGAGTTTCTGCTAGATACACTA(SEQ ID NO:137)
TAAGTTATGAAATATAAAGTTATTGTCTA(SEQ ID NO:138)
AACGTTATGACATTTAGGAGCTTCCAAATT(SEQ ID NO:139)
AACACAGCAAGACAAAAGGATGACACTTT(SEQ ID NO:140)
CAACCATAACTTACGCATCAGGTACATCTG(SEQ ID NO:141)
ACACGCGCTTACCTCGTATATCAAATTCA(SEQ ID NO:142)
TGCCCGCAAACTAGCGATACACAACAGCAT(SEQ ID NO:143)
CTCAAGCTCTTCATCTGTGATAGGTGTTTTG(SEQ ID NO:144)
ATCACTCTTTGATAGTATCTCAAACGCTGG(SEQ ID NO:145)
GAAACAGTCAGACCAGCTAATTCGCCAATT(SEQ ID NO:146)
ATATTTCGAAAGATACAAGGACACTTACAC(SEQ ID NO:147)
GCGGATGAAACACAACTTCAATTGTATTCA(SEQ ID NO:148)
TAATGCTACATCTCAAAGGATGATCCCAGA(SEQ ID NO:149)
ACGTCTGTCTAACTGGAAAGTACCTGCTAAT(SEQ ID NO:150)
CTGTTCTCTAATCGAGAGGCGCGTGATTGA(SEQ ID NO:151)
AAACCTCACTAGTCACTTAGTGCGGTTAGG(SEQ ID NO:152)
TATTAAGTTTAGTCCCAGGTTTCTTATCGT(SEQ ID NO:153)
AAACCAATAAACATACCGATTGCTGCCAAT(SEQ ID NO:154)
GCAAACGTTAGCCCAGGAAAGCATCATGAA(SEQ ID NO:155)
AAGAGCAAAAAATAACTCTAGCTCTCGTCC(SEQ ID NO:156)
AAGAAACCTCTAAGTTGAGCATTTAATGAT(SEQ ID NO:157)
ATATAGTTTTAAACTTTCTTGACCTTCTG(SEQ ID NO:158)
ACGTTGATGAATATTGTTGATAAACTTTA(SEQ ID NO:159)
CAAGAAGTGAACAAAGTACACGCTGGAAGT(SEQ ID NO:160)
GACAGCAAGATACACGTAGTTGATGAATTG(SEQ ID NO:161)
TAAGAAATCAACGCAGATTTTTAGCCAACA(SEQ ID NO:162)
TAACCCAATAATTACAGTGAAGCACAATAG(SEQ ID NO:163)
CAGGCGTAAGGTATGCTAATTATAACGAT(SEQ ID NO:164)
GCTATCGAACTAATAGCTTAGAGGAACTCA(SEQ ID NO:165)
GTGGAATATTAAGCCCGAATTGTTGCAGCA(SEQ ID NO:166)
TATTGCAATATTTGCGTTTGGGAAACCTTC(SEQ ID NO:167)
CGTCTGTCTAACTGGAAAGTACCGGCTAAT(SEQ ID NO:168)
AAAGAGATGTACCCATCCATTCTAACAGGT(SEQ ID NO:169)
GGGGAGTTGATTTCTTACATCAAAACAATG(SEQ ID NO:170)
CATCAAAGTTGAAAAGGACTACAACAGCCC(SEQ ID NO:171)
CTTAAATTTAGAGCGTGGGATCTTGAATAT(SEQ ID NO:172)
ATATACCGATGGCACATCTGAAACTGGCTG(SEQ ID NO:173)
TAACTCATATGTATCTTGACCAACTATTTT(SEQ ID NO:174)
AAATAGCACCTCTAAGCGTTAATGGTATTC(SEQ ID NO:175)
AATATCTACAGGTCACTACAAAGCTACGCT(SEQ ID NO:176)
GTTGGGGTGTGTTTGTAACGGCGTATGCTA(SEQ ID NO:177)
TCAATCAGGTGACGGTGATGCTTATATTAA(SEQ ID NO:178)
CATACATGATAGTTTGTCAACACTTTTGAT(SEQ ID NO:179)
TCAGCATTTGGTTTACATGACCCACGTCTG(SEQ ID NO:180)
CAATCAACAGGTTTGACTGATTATAACGGT(SEQ ID NO:181)
TAGCTACACATGAATTTTATTACAATGGTG(SEQ ID NO:182)
CTTACGTTTGAAAAGAATATCAAATCAATG(SEQ ID NO:183)
TTAAAAAAGGGCCTTTCTCTAAATCAAGTA(SEQ ID NO:184)
TGCTGAACGTATCTGTCCACTGTGTGGCCA(SEQ ID NO:185)
CCGTTCTTCAAACGTTAAATTCCAAGGTGT(SEQ ID NO:186)
GCTGCGATTATGACAATGCTGTCTGTAAGG(SEQ ID NO:187)
GAAGAATTTATTAATAAAGATGGTTCTGCT(SEQ ID NO:188)
AGGCAGAAAAGAAGTATTTTGGTAAGTATG(SEQ ID NO:189)
AAATGGTTTATCGACAAGAAAATGAAGCT(SEQ ID NO:190)
CCAAATTTGCATTATACAAAACGCTCCTTC(SEQ ID NO:191)
ATCCTAACTGCTTTGCTAACTACATCATGG(SEQ ID NO:192)
TAACAAGATAAGATTAGCGTCTTCAACAT(SEQ ID NO:193)
AAAAGCCTATGTTTGCCCACTTTGTGGAAG(SEQ ID NO:194)
TGTCACTTTCTCTTTCTGGGTTGTGCCAAT(SEQ ID NO:195)
CATACTTTTCCATCTGTTTGTTGTTTGAAAA(SEQ ID NO:196)
TGAGAGTGTCTGATGGATTTATTGGCAGCC(SEQ ID NO:197)
GGGGTTATTTTCCATTTTACCGTCTATCTA(SEQ ID NO:198)
TATCACGCCCATTTTCATTTCGCCATCTGT(SEQ ID NO:199)
AACATTTTAATATAATTTCTAAATCTATTG(SEQ ID NO:200)
TACAAAATTCCTTCAAACGCTATTTATTGA(SEQ ID NO:201)
AGAGTTTGAAAATTATTTTTCAGTTTCTA(SEQ ID NO:202)
TTCCTCATCTTTCTCCGCTTTTGCTAGCTT(SEQ ID NO:203)
TTGAGCGTTCTAGTGTGTGGCTTGTAATGAA(SEQ ID NO:204)
TGAAAGAAATACAATACAACGATAATGACC(SEQ ID NO:205)
CTAGTTTTAAGAGATAGCTCTCTAAGTAGG(SEQ ID NO:206)
AAATTCGACATAAGCACTACAGTTATATT(SEQ ID NO:207)
CTATTTTCGAGAGAACGTCAGTCATTTTAA(SEQ ID NO:208)
GTGCTAACTATATCAGTCGCATCAATAACA(SEQ ID NO:209)
TTAGCGGTGATTGGAATAGAATAAGCGAAT(SEQ ID NO:210)
CTTCTACAGCAGTTTAAGACACATTATCAT(SEQ ID NO:211)
CGTATCGAAAACGGCGATAATCCAACAGT(SEQ ID NO:212)
CAATACCTTTTTTTAATTCATCTTGATAAGT(SEQ ID NO:213)
TTAAGAACAATATCATCAATACGACTTTCA(SEQ ID NO:214)
CATCTATCAAATTCAAATTCGGATAAACTA(SEQ ID NO:215)
TGAGAGTGTCTGATGGATTTATTGGTAACC(SEQ ID NO:216)
ACCTCATACATGGGGAAAACTTGTAAGTA(SEQ ID NO:217)
TATTTCACGAATTTCTACACTTTTCAACCT(SEQ ID NO:218)
CTGAAACCTTGTTTTGAAGCGCTTGGAAGT(SEQ ID NO:219)
GTCAATTGATACTGCAATCTCTTTAACATT(SEQ ID NO:220)
ACTTCAATATGGTCAACATCTTGATCACCGA(SEQ ID NO:221)
TAAACTCGACAAAAGCACTACATGAATATT(SEQ ID NO:222)
ATTTTTTAAGGAAAGGAGGAAAATAATATA(SEQ ID NO:223)
CGTTCAAAACAGCGAAAACTTAACCCTAAC(SEQ ID NO:224)
CATTAAGTCGCTTGAGGCAGACATTGAAGC(SEQ ID NO:225)
CCAAACTCAAATTGTCTATAATAATAACCG(SEQ ID NO:226)
TATCTCTATTTCAGGTGGTTTAAAACATTC(SEQ ID NO:227)
AAACGAAGATGGAAGCGTTGATGTTTATTC(SEQ ID NO:228)
GATTGCATTTGCCAGTATTTCTTTTGATTA(SEQ ID NO:229)
TGAAGACAACGGAAACAATCAACCTATTA(SEQ ID NO:230)
ACTTCTTTTTTAATGTCATCTAAGACAATA(SEQ ID NO:231)
GCCAATGATGTTCAATTCGTTAATGGAATT(SEQ ID NO:232)
TCAACATGGGATATTTCGTTGGTCAGGATG(SEQ ID NO:233)
TATGGCTCTCTTGTTGGAATAAAGATGATT(SEQ ID NO:234)
ATAACATAGCAGTCTATTTCTTTGCTGATG(SEQ ID NO:235)
GTTACCACGCGCCCTACTGTATTAGTGGAG(SEQ ID NO:236)
TACATACCCAAGGTTGTAAGTCGTTAAATT(SEQ ID NO:237)
TGTAAGTAGTCAATATTCACTTCTGATAAC(SEQ ID NO:238)
GATAGCAATAGCTTTCTTGACCTAAAAGAC(SEQ ID NO:239)
GAGGTCTGTAATTTCATTCCCTCGTAATCT(SEQ ID NO:240)
AAAGGTTTCTCTAAACACATGCGGAATAT(SEQ ID NO:241)
GTCATAGTACCAAGCACAAATAACGTTAGT(SEQ ID NO:242)
GTGTATTTAGTAATGGTGATTTTTTAAATT(SEQ ID NO:243)
CATTCATTTTTTATATATCAATAAAACTTT(SEQ ID NO:244)
GGGGATTCTTATTTCACTGTAGTTACGATG(SEQ ID NO:245)
CAAAAATTGATGTCACAATTAATAAAGGTG(SEQ ID NO:246)
CTATTTCTGACAATGGTTGAAATTGTGTTC(SEQ ID NO:247)
CTTTTTTTAAATTAATTTATCGTAAGCAA(SEQ ID NO:248)
AACAAACTTATGAGAACGGTTGAACGGCTT(SEQ ID NO:249)
AGCCCGCTTATTGCTTCAGTTGGTTTATAT(SEQ ID NO:250)
TGGAGCAACAAGAATGATTAACTCTAATGC(SEQ ID NO:251)
TTTGATGGATATCATTGATAAACTATACGA(SEQ ID NO:252)
TAACGAAAGCAATACCAATCGTGCTAAAGC(SEQ ID NO:253)
TATTCCTATGGTCGATATTCGAACAGTCAA(SEQ ID NO:254)
CAGGGGACAAGGACTTTGACCCAACAGAAG(SEQ ID NO:255)
AGAAACACCTAATGGTCTCTTAGAACCCGA(SEQ ID NO:256)
AAGAAGTTAAAGACAACTTTGTTAAAGACT(SEQ ID NO:257)
GAAAAAGCATCCATGATAGTGCTTAGACCT(SEQ ID NO:258)
CGGAATGGTATAAAGAATACAAAGAAAACG(SEQ ID NO:259)
CCAAGTATCACGCAAAGAAATCAACGAGA(SEQ ID NO:260)
TTGACCTGTTTATCCTTGTTAACTAGAATAG(SEQ ID NO:261)
AGAGCACTAGCATACTGTTTAGTCCGAACG(SEQ ID NO:262)
AGGCAAGGTATTTGATCCAACAGAAGCCAA(SEQ ID NO:263)
CATGATTTACAACCACGCGCTAGACCAAG(SEQ ID NO:264)
ACCTAGAAGCATTTGAGCGTATATTGATTG(SEQ ID NO:265)
AATTTTGCCCCTTCTTTGCCCCTTGACTAG(SEQ ID NO:266)
TAATAGTTTACCAAATCGTCCTTGTTCCAA(SEQ ID NO:267)
ACCATTAGCAATCATTTGTGCCCATTGAGT(SEQ ID NO:268)
ACGTCTGTCTAACTGGAAAGTACCTGTTAAT(SEQ ID NO:269)
TTTTTATACTTTGGGTAATTACAAAATAG(SEQ ID NO:270)
AAGAAAGAAATATTCTAGATATAGATATAA(SEQ ID NO:271)
CAACGACCAACACAACAACTAAAGTTACTG(SEQ ID NO:272)
TGATTATGGGTGTTAAACAAGGAGCTTATG(SEQ ID NO:273)
TGAGTGGTAAGTACAAATACGCAGGACTGA(SEQ ID NO:274)
TTATTTCCTCCTTTCCTTAAAAAAATTAGA(SEQ ID NO:275)
GGATGTATCTGTTGAAAGAGGTGTGTATAT(SEQ ID NO:276)
AATAGGTGAAAAATATGCAAGTCACACAAA(SEQ ID NO:277)
AAAATGGCATTAAAAATTAACATAGGAATA(SEQ ID NO:278)
TATCAGCTCGTAAATGTTCGATAGACTCTT(SEQ ID NO:279)
ATTCCATTAACGTATTTGACTTCACTAGCT(SEQ ID NO:280)
CTGTTACCGATCCAAGAGCAGACATCATAC(SEQ ID NO:281)
AAGAAGCGGTTAAATGCTTCAACTGAATAG(SEQ ID NO:282)
AATTGCTAAACATCTAAAAGACTTAACGGG(SEQ ID NO:283)
GATGAAGATTTGACTGATGATAAAGAGAAA(SEQ ID NO:284)
GACATCAGAAAGCAGTTTATAAATATTTTA(SEQ ID NO:285)
TTTGAATTTAACAACCTTGATTTTGATATC(SEQ ID NO:286)
TGATACGGTCAAAGTTTTTCCACTAATAGCG(SEQ ID NO:287)
ATGGTTTTCATTTCCTGAACCCCTAAGAGG(SEQ ID NO:288)
AAGTTATTGAAAAACGCCAACATGATGAGT(SEQ ID NO:289)
ATATAAGTCCTCCTATTAATATCCACAATA(SEQ ID NO:290)
TTGCCTCAAGAGATCCTGCTTGTTGCCAAG(SEQ ID NO:291)
TCCCATAGTTTTAATGAGTCGGTTAACTTA(SEQ ID NO:292)
GTGTACTAAAAGTGTGCTAAGTTCATAAGG(SEQ ID NO:293)
ATATAGTGATTGTATCCAGCTGCGGCGTAG(SEQ ID NO:294)
AAAAGCAAATCGCGAGTATAAAGGATATA(SEQ ID NO:295)
TTTTAATTGATCTAGACACCCTATGAAATA(SEQ ID NO:296)
ACAGAGGAGAGAAACCATGGCTATTTTAGA(SEQ ID NO:297)
TGGCAGCAGTGAATTCGATGCCGAGCAAT(SEQ ID NO:298)
CCAAGGAATACCAGGTCCTAAAGGTGCCGA(SEQ ID NO:299)
CTAAATGAACTACAACAACAGCTTGATGA(SEQ ID NO:300)
TACCTTAACATTTTCGATATTTTTCAAATT(SEQ ID NO:301)
TTTGACTGCTTTTTTATCTGAATTGTAATT(SEQ ID NO:302)
CAGTAACCTAAAGCTCTATCAAGCCTATTT(SEQ ID NO:303)
CGTCAAGCTGACAGACCTTGACAACAAATC(SEQ ID NO:304)
AGGCATAAATAACATTGATAACCCTAACA(SEQ ID NO:305)
GCCAACGAGGTCAAATATGTCAACGGCATT(SEQ ID NO:306)
GAAATAGGAACTTCAAAGGTAATTTCTTTA(SEQ ID NO:307)
ATTTAGAGCAAGGAAAGCAGTACATCATTA(SEQ ID NO:308)
CTGTAATCATTTTTAAATCAGGATTATCAA(SEQ ID NO:309)
TTAAATGTATCCTAGTATTTTTGTACTATA(SEQ ID NO:310)
CCATCAGCCAACTGTATCGGCTACTTTCTA(SEQ ID NO:311)
ATGCTCTTGGCGACTATCTCATGGAGCGTG(SEQ ID NO:312)
AGGAAAAAACCCAAACAACCCAAAATGTTA(SEQ ID NO:313)
TCTAATTCTGTCACCACGACTATATCGCCA(SEQ ID NO:314)
AATCTGTGTGGGAAGTAAAGATTGAAGATG(SEQ ID NO:315)
ATAGTTTGTTAAGTCATACCCATTAAATTG(SEQ ID NO:316)
TCCACATGATTACAAAGCCACGCAAGACCT(SEQ ID NO:317)
GAAGACCAAAATTTGACAATGAGTCCTGC(SEQ ID NO:318)
ATTATATTTAAGTTGTAAATGTTGCTTTTC(SEQ ID NO:319)
GCAGACATTGGCTCAACAAGTGATTATGAA(SEQ ID NO:320)
TGTTCTCATAAATTGCCTTTCCTTTTTATG(SEQ ID NO:321)
CTTATCAAACATCAAGGATTGTAGATGAGG(SEQ ID NO:322)
ATTTCATTAGTAGCTTGATAAATGTTTCTA(SEQ ID NO:323)
GAAAATACTATACTTTAAAAGAAATTTTAA(SEQ ID NO:324)
TCTCCTCCGACATAATCTTTTGTCTTTCCG(SEQ ID NO:325)
ACAAAAGCACTGCCACCTATAGAAGCATTT(SEQ ID NO:326)
AAAAACTTTATGCTATCCGTGTCAGTATAT(SEQ ID NO:327)
TTTTCAATGATTGAAAGCCCATAACTAACA(SEQ ID NO:328)
CTTTCATAGTTGTTACGAAATGTTTGGCAT(SEQ ID NO:329)
CGATTTGCAATATGATGATATTGATGAATT(SEQ ID NO:330)
TTTAGATGCTAGTCCTAAGACTGTAGAGAC(SEQ ID NO:331)
GTAATCAAGCGTATATAAGTCAGGACTATC(SEQ ID NO:332)
ATAACAGAAGGAGTAGGGGACGTAGGCGCG(SEQ ID NO:333)
TTATTTGATAGGAATGTCAGTAATTTTTGA(SEQ ID NO:334)
AACATTTCAGCGCTTACTTATCAATCTAAT(SEQ ID NO:335)
GTATTAGTAGGCATACGATTATGGAAGTA(SEQ ID NO:336)
CATATATATATATATATTTATTTTAAATAT(SEQ ID NO:337)
TTGTCATAATAATTAAATCCAATAGGACTT(SEQ ID NO:338)
GAAAATTTCTGTTGTGTTCTTAATATTAGC(SEQ ID NO:339)
GTACTTCAAAGGTTCTAACTACATAACACA(SEQ ID NO:340)
TAAAACCAGATGGTGGTTCTTCTGATACTA(SEQ ID NO:341)
CATTTTCTTCAGTCAATTCGTTCTCAAGCG(SEQ ID NO:342)
AAAGGACGGGGGCAATGAACAAACGACAAC(SEQ ID NO:343)
TAATATCATTGATAGCTTCATCAAAGGCT(SEQ ID NO:344)
TAAATTGTTCCTTGACTCCGAACTGCCCT(SEQ ID NO:345)
AAACAATCGTTTATCTATCCTCAAAGGATG(SEQ ID NO:346)
ATAAAAAAACGCCTCAAAAACCGAGACAAC(SEQ ID NO:347)
TGGAAATCCCTTATATCGACAAATACGTTA(SEQ ID NO:348)
TTCCCAGTCGTTGATTTTTATTGAATACCC(SEQ ID NO:349)
GGACATCGAACAAGTCAATGCCGTAAGCTT(SEQ ID NO:350)
AATCTTTAACCGGATTGTAGAACCGTTCGG(SEQ ID NO:351)
TGCCTTTAAAATAACTAGATTTTACCATCA(SEQ ID NO:352)
GAGCAAGCACAAGCAAGCTTTACTATCCT(SEQ ID NO:353)
CAGATTGGTTTATCGAACAAGGTCGCAAGT(SEQ ID NO:354)
CAAAAGCTGTTGGTTAACGGTGCTTTGGGCA(SEQ ID NO:355)
CTTGTTTTTCCTCTGGGGTCTCTGCGACTT(SEQ ID NO:356)
GAAATAAACTGCCCAAACATTTTTATTTTC(SEQ ID NO:357)
TGAGTAAGCGACAAGCTAGAAATCAAGTCA(SEQ ID NO:358)
ATAGCTAAGATGGAAGAAGCATCAAGCACC(SEQ ID NO:359)
CAGTATCTCAAACGCTGGATACAACAAGAT(SEQ ID NO:360)
CCTACTCAGTGGACACCTGCAATTGAAGAC(SEQ ID NO:361)
CGATTGGAACGGGTGCTTATGGCCTTAAC(SEQ ID NO:362)
GCGAACAATTGAATTTGTTAGAAAATGTCG(SEQ ID NO:363)
GAAGCATTTATTAATATAGATGGTTCTGCT(SEQ ID NO:364)
TGCTGACGTATCTGTCCACTGTGTGCCA(SEQ ID NO:365)
TTTTTATACTTTGGGTAAATTACAAAATAG(SEQ ID NO:366)
TCAAGGTGTCGCCTTATGGAAAAGATGCTTG(SEQ ID NO:367)
TGTAAAAATTTCTAGACGTTTAGACACTTTA(SEQ ID NO:368)
AAATGATGATTGAATGCTTGAGATAGCAGT(SEQ ID NO:369)
AATAAGAAGTTCTTGACGACCAACCGACAT(SEQ ID NO:370)
TCGTCAACGTCGATACAGAACAACGTGCTT(SEQ ID NO:371)
TGATTAGCAAATTTAAAACAGGATATTTGG(SEQ ID NO:372)
AAAGACAAGCCCAAGGGATTGAACTAGCAA(SEQ ID NO:373)
CGAACAGTTGGCGAGAAATCCGTCTGGCGT(SEQ ID NO:374)
CTACATTATTGATCATGTTTTTTCTCCTGT(SEQ ID NO:375)
TAGAAGGCTCTGGAAATACAAAGCAATTCT(SEQ ID NO:376)
TAGAAGGCTCTGGTAAATACAAAGCAATTCT(SEQ ID NO:377)
TCTGATGGCTCTTGGTAGGGAACTGGATAT(SEQ ID NO:378)
TTTGATGGCTCTTGGTAGGGAACTGGATAT(SEQ ID NO:379)
TTTTGATGGCTCTTGGTAGGGAACTGGATAT(SEQ ID NO:380)
ACAGAACAAAATGGTAGAATATATCATCT(SEQ ID NO:381)
CCCTGGACAAGCTATCAGCACATATCCTTG(SEQ ID NO:382)
CGCTGTTGATGTAACCCGCTTTATATATAT(SEQ ID NO:383)
GAATGAATGTATTAGAGCAAGCACTTGACC(SEQ ID NO:384)
TAGACGAAAAGGAAGGAAAATAGCATGAGC(SEQ ID NO:385)
ATAACTCGATTGCTAACTTAAGCAAGCAGT(SEQ ID NO:386)
CTGCATGTGTAACCATGACTTCTTCGTCGT(SEQ ID NO:387)
CTTCGCTGGAAACTTCGTAGTCATACATAC(SEQ ID NO:388)
AAGACCGCTGTACTGGTTGGTATTCGTACC(SEQ ID NO:389)
CAACCAAGCGAACACAGCAGTAGCACCGCA(SEQ ID NO:390)
ATGATGATGAAGTATCGTCATCTACTAAC(SEQ ID NO:391)
CTTCACCTCAAATCTTAGAGATGGACTAAA(SEQ ID NO:392)
AAAAGGTGCGTATGAAACTCATCCCAGCGG(SEQ ID NO:393)
AAGGGTTTAAGTCCTTCATAGAGTGGAAAA(SEQ ID NO:394)
CCTCAAAGCTTAAAATTGGGCTGAAGTAGA(SEQ ID NO:395)
GCAATTTATTCGCTTGATGTACTCACGTTT(SEQ ID NO:396)
TATTTATTGCAAATGGTTACCATATTTTTA(SEQ ID NO:397)
TATTTTAGCACTACGGTATCAGCGTATCTC(SEQ ID NO:398)
TGCTACGTGCTCTGGACGGGCGCTATCAGC(SEQ ID NO:399)
AAATGAACAGACAAGAAGCAACAGAAATTG(SEQ ID NO:400)
AAGTTGATCGTATCTATTTAGAATATCGCA(SEQ ID NO:401)
ATTCACTTTGACAGATACTAATGCTACATC(SEQ ID NO:402)
CAAGCAGTGTAAAGGTGGTTTATATGTTAA(SEQ ID NO:403)
CATAGTATAGCCGTCTTCTTTGATTGATTG(SEQ ID NO:404)
CCATGGGTGCTAAAGGTGATGACTACCGCT(SEQ ID NO:405)
TTTCTAGGAATGGGTAATTATAGCGAGCTAGAAAGC(SEQ ID NO:406)
AGTTGGGAAGGTCTTGGAAAATCTATGGCAAAAAACCT(SEQ ID NO:407)
TATATGGTTCAAATGCGATTCAAAGACTATTCAAA(SEQ ID NO:408)
TAATTGCCAATGCTTACAATATCTTCGTCA(SEQ ID NO:409)
ATGTTCTGAATTACCTTTCTCGACACTCCG(SEQ ID NO:410)
ACCATCAAGGCTCTTATCTGCAGATTGTTA(SEQ ID NO:411)
AAATGGTTGCCAATGACTTTCTAGAGTGAT(SEQ ID NO:412)
ACAAAATCTTTTGTTGCTCCTGGACGTATT(SEQ ID NO:413)
ATGTAAGGTATTGTAAAACTTCTTCTTGCG(SEQ ID NO:414)
ACTGTTCCTATAATTAAAATAAAAGAGGTA(SEQ ID NO:415)
TGTTCCAGTAAAAAGTAATTTTAAAGCATT(SEQ ID NO:416)
CGCTCGATTGATGCTATCAACTATATTGAA(SEQ ID NO:417)
TTCTTCAAGAGAACTTGTAGAACAGCTTCA(SEQ ID NO:418)
AAGGTACTTTTAGCTTGTTCTTGTGGTGTT(SEQ ID NO:419)
ACAGCTACTGTAAATTCTGCTTTTACGGTT(SEQ ID NO:420)
TAGTGCAGTTGTCAAGGAGATTGTGAGCGA(SEQ ID NO:421)
TTTAACCTTTGAAAATGTGAAAGGCTCGTA(SEQ ID NO:422)
GCGATGATGGTAAGTCATCATGGACAGCGT(SEQ ID NO:423)
TTTTACACACGATGTCAGATATAATGTCAA(SEQ ID NO:424)
AGTACTGCACTAGGAATTGTAGAGATCAAA(SEQ ID NO:425)
CGTACCATCTATCAATTTACCGCAAGCTGT(SEQ ID NO:426)
TTAAAAGATTTAAACTATCAAGCGTCAATT(SEQ ID NO:427)
TTCTAAATGCTGGTGACTGCTTTGCATAAA(SEQ ID NO:428)
TTGCTGCTAGACCCAAACAGTTTATTTTTAG(SEQ ID NO:429)
TCCTTTTTTAGATAATGTGCGATCACGGAC(SEQ ID NO:430)
TTTTACCAATGCTTCCATATCGCTTATAT(SEQ ID NO:431)
TGGTTATACATTTACTAATCCATCAGCATT(SEQ ID NO:432)
AAGCTAATTCTCATCTCACCGAGATGGATA(SEQ ID NO:433)
AAAAACTCTTACCACTTACATACATGTATG(SEQ ID NO:434)
GCTGGAGATTTTACAAGCAGTTTGAATTTC(SEQ ID NO:435)
ATCACACCAGTCGTTATGATGGATGACTAT(SEQ ID NO:436)
TGTCAACAGTACGTGAGACGAGTGTGTAGG(SEQ ID NO:437)
TGAAGTTGATGGATATGTTGATTTAGAGCT(SEQ ID NO:438)
TAATCATTTTATGAGAGATACCGCCTCAAG(SEQ ID NO:439)
TTTAAAGAGATATCTGTTTCATCTTGCGGA(SEQ ID NO:440)
AATCACTTCTGCATAAATATCTTTTACTTC(SEQ ID NO:441)
AAACATCCGCAACGGGATAAATAAAGCTAG(SEQ ID NO:442)
AGTTTCTTGTGGGTTAGCTTGTCCACCGTA(SEQ ID NO:443)
GAACATGAAAGATTTTAAAAAAGAACATTT(SEQ ID NO:444)
AGAGGGGAAAATATCAATGCCGAATGCTGA(SEQ ID NO:445)
GATGGTACAAAATCATTTGTTGGTACTGAT(SEQ ID NO:446)
AAAAGGAAACGCCATTAATTAATATGGTGA(SEQ ID NO:447)
GATTGAACCAGCTAGCGCAGTTAGTGCTCT(SEQ ID NO:448)
CGCTAAAAGCTGTTGTGTCATCATAGTTAG(SEQ ID NO:449)
TAAATATTTTCAATTAGACAATAGACAAAC(SEQ ID NO:450)
TGCCTATGTATTCGGACATGACTTGCCACA(SEQ ID NO:451)
ATGTGAAAAGAAAGTAACTACTACATTTGA(SEQ ID NO:452)
TGCGCTGGTTGATTTCTTCTTGCGCTTTTT(SEQ ID NO:453)
TTATATGAACATAACTCAATTTGTAAAAAA(SEQ ID NO:454)
AGGAATATCCGCAATAATTAATTGCGCTCT(SEQ ID NO:455)
TAAATTTGTTTAGCAGGTAAACCGTGCTTT(SEQ ID NO:456)
TTCAGCACACTGAGACTTGTTGAGTTCCAT(SEQ ID NO:457)
CTGTGACATTGCGGGATGTAATCAAAGTAAAAA(SEQ ID NO:458)
AAAGCAAACCTAGCAGAAGCAGAAAATGACTT(SEQ ID NO:459)
TGATGTAATTGGTGATTTTCGTGATATGCTTTTT(SEQ ID NO:460)
CAACACATTCAACAGATTAATGAAGAATAC(SEQ ID NO:522)
TCCACTCACGTACAAATAGTGAGTGTACTC(SEQ ID NO:523)
GCCCTTCTAATTGGATTACCTTCCGAGGTG(SEQ ID NO:524)
CTCAGTCGTTACTGGTGAACCAGTTTCAAT(SEQ ID NO:525)
ATTGTCTATTACGACAACATGGAAGATGAT(SEQ ID NO:526)
GAGTTTCTTTGTCAGACTCTAACACAGCCGC(SEQ ID NO:527)
TTACTAGAGCGTGTCGTTAACCACTTTAAA(SEQ ID NO:528)
TTCGTTAAAGTCACCTCGTGCTAGCGTTGC(SEQ ID NO:529)
ATAACGGTAGCAAATATAAACCTGTTACTG(SEQ ID NO:530)
GAAGTAGCCATACAAGAAGATGGATCAGCA(SEQ ID NO:531)
ATGTCACTGAGTGTCTAAGCATTGCGTAC(SEQ ID NO:532)
TGAATAAGCAGTTCTTGACGACCAACCGAC(SEQ ID NO:533)
TTACGTTTGAAAAGAATATCAAATCAATGA(SEQ ID NO:535)
GCTCTACGACTTCTTCCACGAGTTCCTGCC(SEQ ID NO:536)
AACACAGCAAGACAAGAGGATGATGCTATG(SEQ ID NO:(SEQ ID NO:537)
AAGTAGTTGATGAC CTCTACAATGGTTTAT(SEQ ID NO:538)
AATAATTTATGGTATAGCTTAATATCATTG(SEQ ID NO:539)
AATCAATACGACAAGAGTTAAAATGGTCTT(SEQ ID NO:540)
AATCGTTCAAATTCTGTTTTAGGTACATTT(SEQ ID NO:541)
AATGACGAGGAGCTATTGGCACAACTTACA(SEQ ID NO:542)
AATTAAGGGCATAGAAAGGGAGACAACATG(SEQ ID NO:543)
ACAATTCTTCATCCGGTAACTGCTCAAGTG(SEQ ID NO:544)
ACACTTGGCAGGCTTATTACTCAACAGCGA(SEQ ID NO:545)
ATAAACTATGAAATTTTATAATTTTTAAGA(SEQ ID NO:546)
ATAACTGAAGGATAGGAGCTTGTAAAGTCT(SEQ ID NO:547)
ATAATGCCGTTGAATTACACGGCAAGTCA(SEQ ID NO:548)
CAACCAACGGTAACAGCTACTTTTTACAGT(SEQ ID NO:549)
CATAGAGTGGAAAACTAGAAACAGATTCAA(SEQ ID NO:550)
CGACACAAGAACGTATGCAAGAGTTCAAG(SEQ ID NO:551)
CGATATTTAAAATCATTTTCATAACTTCAT(SEQ ID NO:552)
CGATTTGACAATCTGCTGACCACTGTTATC(SEQ ID NO:553)
CTGTTCCTTGTTCTTTTGTTGTATCTTTTC(SEQ ID NO:554)
GAGCGAGCTCGAAATAATCTTAATTACAAG(SEQ ID NO:555)
GCAGTATCAGCAAGCAAGCTGTTAGTTACT(SEQ ID NO:556)
GCTGGCGAGGAAACGAACAAGGCCTCAACA(SEQ ID NO:557)
GCTTAGCTGTCCAATCCACGAACGTGGATG(SEQ ID NO:558)
GGCGTCCCAATCCTGATTAATACTTACTCG(SEQ ID NO:559)
GTTCGCTAGCGTCATGTGGTAACGTATTTA(SEQ ID NO:560)
TCTATATCGAGGTCAACTAACAATTATGCT(SEQ ID NO:561)
TGCATCGAGCACGTTCGAGTTTACCGTTTC(SEQ ID NO:562)
TGTTTGACAGCAAATCAAGATTCGAATTGT(SEQ ID NO:563)
TTCATTCTTCCGTTTTTGTTTGCGAATCCT(SEQ ID NO:564)
TGACTTAGCGAATTTAATCGCTAAGATATC(SEQ ID NO:565)
TTTATACTTTATCTTTTTAAAGAATGTATT(SEQ ID NO:566)
CCTAAAATCATTTTCAACGAGTTGCGATAC(SEQ ID NO:567)
AATAAATTGCTATGATACAGCGTACCGATA(SEQ ID NO:568)
TGCTCTCTATGCGATTGGACGTCTGTCTAA(SEQ ID NO:569)
AAGAAAGATAAGAAAAAAGTAACACTACTT(SEQ ID NO:570)
TCTCTTTCCATCGGTACTGGTATATCTCAT(SEQ ID NO:571)
ATTGGTAGCCAAGTAAATATCACCATTGAT(SEQ ID NO:572)
TTCTTCAAATTCACCGACTGCAAAATTACA(SEQ ID NO:573)
GCTTCCTAAGTGCATGAAAATCGCAAACGG(SEQ ID NO:574)
TATACCTGTCTATGTAAGGGAATTTAACTC(SEQ ID NO:575)
GGTGTAGGTGCTGTTGGTAAGTTGTTTAAT(SEQ ID NO:576)
GTGAAACAGGTTATCAAAAAACGTATATTG(SEQ ID NO:577)
TTATTCTTGGAATTATTACAGACCCTACTA(SEQ ID NO:578)
GCTTTCATTATATCACTTACTCATAAATCT(SEQ ID NO:579)
TAATCACCCCTTTTTCTAGCTCTTGATTGA(SEQ ID NO:580)
CAAGCAGTGTAAAGGTGGTTTAAATGTTAA(SEQ ID NO:581)
AACCCGCGTGGTTATGGGCTTGAGGAGTGT(SEQ ID NO:582)
ATATTAATAGCGATTCTATGCTACAACGTG(SEQ ID NO:583)
TCATCTTCTAAGTAAATACCACTGTCAGGG(SEQ ID NO:584)
TTTTCGCAAAGTAAGCGAAGCTCTACGTG(SEQ ID NO:585)
TTCTGTAGCCACTCCGTGGATGCCTTCAGC(SEQ ID NO:586)
TTCTTTAGTTCGGACACCCTCAACACCTAT(SEQ ID NO:587)
GCTTTGATTGGACGGAAAATGGTATCCCTG(SEQ ID NO:588)
TTCCTCATCTTTCTCCGCTTTTGCTAGACTT(SEQ ID NO:589)
TTAGACCAGATGGACAGATATTCTTCATCG(SEQ ID NO:590)
TCATCAGAGTCAACAATCACGGGAAAGACCT(SEQ ID NO:591)
ACACTCATCCTTATCCTGTAGTTCAAAACA(SEQ ID NO:592)
CAGCACTAGCCGCAAGCCCTTGTATATTAA(SEQ ID NO:593)
TAGAAATCAAGGAACTTGGATGAAAAGTAA(SEQ ID NO:594)
ATATGAAAGGGAAATGATATGAAGAATGAA(SEQ ID NO:595)
TTTTGGGATACAACACGCAGTCGTTGACTTG(SEQ ID NO:596)
GTTTGAGATGCCAATGTTTTTCAATCCTTG(SEQ ID NO:597)
GTATCAAAAGACGCATTCATGAAGCGAGCT(SEQ ID NO:598)
AAAAACAATTGAAATTCATAATCAGCGCTT(SEQ ID NO:599)
GCTTTTAACGTTTTAAGAGAATACCCTCT(SEQ ID NO:660)
GTGACGCTGCAATGACTTGCCATAGTAATT(SEQ ID NO:601)
ATACTGGTATATAGTAATTCATACTTCATC(SEQ ID NO:602)
TTGGTTTCATATTTACTCCTTTGTGTTTTG(SEQ ID NO:603)
CTGATTTGGTCTTGTTCTTTTGTCCCTTTT(SEQ ID NO:604)
GCAGCAGTTGAGAACTTTAGCGTCCAGTGG(SEQ ID NO:605)
TGCTACTATGAAGGACGCTGTTGATACTTT(SEQ ID NO:606)
TCTTCTTTAATCTTTTTTAACGTCAACGTT(SEQ ID NO:607)
GTATCCATTAATATAGTAGCATTTCTATCA(SEQ ID NO:608)
ATTCATTAATATCTGCAAGGATGTCTTGTT(SEQ ID NO:609)
GAGAAAGTAGCCCATTCGGCCCATTCGGGG(SEQ ID NO:610)
TACTTGAGTTAGCTCTGGAAGTCATTTATC(SEQ ID NO:611)
CTGCATTTGTAACCATGACTTCTTCGTCGT(SEQ ID NO:612)
AATTTGTCATCGACATCTACCAACGCCCAG(SEQ ID NO:613)
ATAAAATTATGCCACGTTTTGGCACTAGAT(SEQ ID NO:614)
ATGTCTCTGAGGCTGTAGTAATTTACTTGT(SEQ ID NO:615)
CTTTAAAGAGTTGATTAAGTGCGTTACTGT(SEQ ID NO:616)
AAATGGGTTATGCTGTTCAATATGCGTCCC(SEQ ID NO:617)
AAACTGAAAACAACACAGACAATTCAACAA(SEQ ID NO:618)
GCCCAAAATGCTAGACGTTTGAATGACGGC(SEQ ID NO:619)
ATGAAGAACGTGATTCACCTACGGTATGCT(SEQ ID NO:620)
GCTTTTGCAGAATTGTCTCCAGTGCCGATTT(SEQ ID NO:621)
TGTACTCTATTGATTGCTTCATCTTTATTA(SEQ ID NO:622)
CTTTCAAGATACTCATCAACCATTGATGTCA(SEQ ID NO:623)
CTATGTCTTTACTGTTCTTCCAAAACCACC(SEQ ID NO:624)
TGCTACGTGCTCTGTACGGGCGCTATCAGC(SEQ ID NO:625)
CGTGGCAGCGTGGTCGGGTTTAATAGCCCG(SEQ ID NO:626)
AAGCCCAAGTCAGAGCATCCGTCCAAGCC(SEQ ID NO:627)
ATTGGGTTTCGGTAAGAACTAAACATACCA(SEQ ID NO:628)
CACAAAATAATTCGGTAGTTTTTACTAACT(SEQ ID NO:629)
TTTGACCGTTTATTTAGACGTGCTAAAGT(SEQ ID NO:630)
CTTCACCTCAAATCTTAGAGCTGGACTAAA(SEQ ID NO:631)
ATGTCTGAAAAATAACCGACCATCATTACT(SEQ ID NO:632)
GAAGCTCATCATGTTAAGGCTAAAACCTAT(SEQ ID NO:633)
TAGTCTAAATAGATTTCTTGCACCATTGTA(SEQ ID NO:634)
ATTCGTGAAAAAATATCGTGAAATAGGCAA(SEQ ID NO:635)
TCTAGGCTCATCTAAAGATAAATCAGTAGC(SEQ ID NO:636)
TAAAAACATGGGGCGGCGGTAATAGTGTAAG(SEQ ID NO:637)
ACAACCAGCAAAGAGAGCGCCGACAACATT(SEQ ID NO:638)
TATAACACAGGTTTAGAGGATGTTATACTT(SEQ ID NO:639)
CTAGAAGCTCAAGCGGTAAAAGTTGATGGCG(SEQ ID NO:640)
CTTTGAGGGCAAGCCCTCGCCGTTCCATTT(SEQ ID NO:641)
AACTACCAAGCAAATCAGCAATCAATAAGT(SEQ ID NO:642)
CTATAAGTGACAATCAGC GTAGGGAATACG(SEQ ID NO:643)
ATCAGTGCGGTATATTTACCCTAGACGCTA(SEQ ID NO:644)
AACAGTTACTATTAATCACGATTCCAACGG(SEQ ID NO:645)
AATTAGGGCGTCTTCCTTTATTCCGTGGTT(SEQ ID NO:646)
ATAGCTTCATTGCGCTTTTTAATTTGACCT(SEQ ID NO:647)
AACAACAAAGCAAATACAACAGTAACAACC(SEQ ID NO:648)
CTAAACTACGTTTGAAGGTCTCAACTCCGT(SEQ ID NO:649)
GAGGTTGAATAGTGAGTGCACCATGTTTGT(SEQ ID NO:650)
AGTAGAGAGACCAGCACACTACTGTACTAC(SEQ ID NO:651)
CTTCGCACGAAAGTTTATTAGACAACTCGC(SEQ ID NO:652)
TGATAGAGCTAGAATTGTCTTTTTTACCGA(SEQ ID NO:653)
AGATACTCTTGCTCGCCTCTGAACAACCAG(SEQ ID NO:654)
GGTGAAAAAGGTTCACTGTACGAGTACTTA(SEQ ID NO:655)
TCAATGAGTGGTATCCAAGACGAAAACTTA(SEQ ID NO:656)
CCTTGTCGTGGCTCTCCATACGCCCATATA(SEQ ID NO:657)
TGTTTGGGAAACCGCAGTAGCCATGATTAA(SEQ ID NO:658)
ACAGAGTACAATATTGTCCTCATTGGAGACAC(SEQ ID NO:659)
CTCATATTCGTTAGTTGCTTTTGTCATAAA(SEQ ID NO:660)
AGAACTTTATCAAGATAAAACTACTTTAAA(SEQ ID NO:661)
ATAGTATTAATTTCATTGAAAAATAATTGT(SEQ ID NO:662)
GCTTTCTAGCTCGCTATAATTACCCATTCCTAGAAA(SEQ ID NO:663)
TCAAAATATGTTATTACCTTGTATTTCATAATTCAATTAA(SEQ ID NO:664)
CCACTTGCTGTGTACATCCTACCAGTTCCGCCTATGATG(SEQ ID NO:665)
在特别优选的实施方案中,CRISPR间隔区的侧翼为两个CRISPR重复序列(即,一个CRISPR间隔区在每一侧具有至少一个CRISPR重复序列)。虽然不意图使本发明限于任何具体机制机制、理论或假说,认为一个给定CRISPR间隔区距离包含cas基因和/或前导序列的CRISPR基因座的5’端越远,由该CRISPR间隔区赋予的抗性越低。因此,在本发明的一些实施方案中,修饰了来自CRISPR基因座5’端的开头100个CRISPR间隔区中的一个或多个CRISPR间隔区,而在其他实施方案中,修饰了来自CRISPR基因座5’端的开头50个CRISPR间隔区中的一个或多个CRISPR间隔区。在一些其它实施方案中,修饰了来自CRISPR基因座5’端的开头40个CRISPR间隔区中的一个或多个CRISPR间隔区,而在其他实施方案中,修饰了来自CRISPR基因座5’端的开头30个CRISPR间隔区中的一个或多个CRISPR间隔区,并且又在一些其它实施方案中,修饰了来自CRISPR基因座5’端的开头20个CRISPR间隔区中的一个或多个CRISPR间隔区,并且仍在更多的施方案中,修饰了来自CRISPR基因座5’端的开头15个CRISPR间隔区中的一个或多个CRISPR间隔区。在一些优选的实施方案中,修饰了来自CRISPR基因座5’端的开头10个CRISPR间隔区中的一个或多个CRISPR间隔区。如本文中所示,不同细菌具有不同的数目的CRISPR间隔区,因而在一些实施方案中,修饰了多个间隔区。
CRISPR间隔区核心
对于微生物物种中的特定CRISPR类型,CRISPR间隔区一般由定义的优势长度代表,尽管该大小可以变动。已经发现迄今所述的CRISPR类型含有在约20bp和约58bp之间的优势间隔区长度。
如本文中所用,术语“CRISPR间隔区核心”指在CRISPR类型中观察到的最短间隔区的长度。因此,例如在嗜热链球菌CRISPR类型1(CRISPR1)中,优势间隔区长度是30bp,而少数间隔区的大小在28bp和32bp之间。因此,在嗜热链球菌CRISPR类型1中,CRISPR间隔区核心定义为一个28bp的连续段。
在本发明的一些优选实施方案中,CRISPR间隔区核心与靶核酸、其转录产物或鉴定的序列在该核心序列的长度范围内同源。如上所示,尽管同源性也可以就相似性方面进行考虑,然而在本发明的一些优选实施方案中,以序列同一性表述同源性。因此,在一些实施方案中,同源序列包括这样的CRISPR间隔区核心,其可以在该核心序列的长度范围内与靶核酸、其转录产物或鉴定的序列至少约90%同一,或至少约91、约92、约93、约94、约95、约96、约97、约98或约99%同一。在一些特别优选的实施方案中,CRISPR间隔区核心与靶核酸序列、其转录产物或鉴定的序列在该核心序列的长度范围内约100%同一。
在研发本发明期间,分析了多种嗜热链球菌菌株的CRISPR序列,包括亲缘关系密切的工业菌株和噬菌体抗性变体。主要在CRISPR1基因座内观察到间隔区的数目和类型的不同,值得注意的是,噬菌体敏感性似乎与CRISPR1间隔区内容物相关。具体而言,间隔区内容物在亲代菌株与噬菌体抗性衍生物之间几乎相同,除了在噬菌体抗性衍生物存在额外的间隔区之外。这些研究结果提示了额外间隔区的存在与在给定菌株的噬菌体敏感性方面观察到的差异之间存在潜在联系。此观察结果推动了对噬菌体抗性突变体中存在的额外间隔区的起源和功能的研究。
假CRISPR间隔区
如本文中所用,术语“假CRISPR间隔区”指在生物(例如供体生物,包括但不限于噬菌体)中存在的核酸序列,其优选地对于功能和/或存活和/或复制和/或感染性等是必需的并且包含CRISPR间隔区。在一些实施方案中,假CRISPR间隔区用于产生与该假CRISPR间隔区互补或同源的CRISPR间隔区序列。在一些特别优选的实施方案中,这些序列用于调节抗性。
在一些实施方案中,与至少一个假CRISPR间隔区互补或同源的至少一个假CRISPR间隔区和CRISPR间隔区用来工程化改造受体细胞。在一些优选的实施方案中,与至少一个假CRISPR间隔区互补或同源的至少一个假CRISPR间隔区或CRISPR间隔区与一个或多个cas基因或蛋白和/或一个或多个CRISPR重复序列(例如其一个或多个功能性组合)组合使用,以工程化改造受体细胞,从而调节该受体细胞针对靶核酸或其转录产物的抗性。
在一些实施方案中,使用本领域已知的任意合适方法,插入与一个或多个假CRISPR间隔区互补或同源的假CRISPR间隔区或CRISPR间隔区到受体细胞的质粒和/或基因组DNA中。
在一些其它实施方案中,假CRISPR间隔区用作模板,根据所述模板来修饰(例如突变)受体细胞的质粒和/或基因组DNA,从而在细胞的质粒和/或基因组DNA中产生CRISPR间隔区。在一些其他实施方案中,使用本领域已知的任意合适方法,克隆与一个或多个假CRISPR间隔区互补或同源的假CRISPR间隔区或CRISPR间隔区到构建体、质粒和/或载体等中,其中将所述的构建体、质粒和/或载体等导入宿主细胞。
CAS和cas基因
如本文中所用,术语“cas基因”具有如本领域使用的常规含义并且指通常偶联、关联或靠近或位于CRISPR基因座侧翼附近的一个或多个cas基因。Cas蛋白家族的详尽综述由Haft等(Haft等人,PLoS.Comput.Biol.,1(6):e60[2005])描述,在所述综述中除了4个先前已知的基因家族外,还描述了41个新确认的CRISPR相关(cas)基因家族。如该综述中所述,CRISPR系统属于不同类别,具有不同的重复模式、基因群和物种范围。如本文中所示,cas基因在给定CRISPR基因座中的数目可以在物种之间变动。
在一些实施方案中,本发明提供了使用(单独的或与一个或多个CRISPR间隔区任意组合的)一个或多个cas基因或蛋白以调节细胞(例如受体细胞)针对靶核酸或其转录产物的抗性的方法和组合物。
在一些实施方案中,一个或多个cas基因和/或蛋白天然地存在于受体细胞中,并且毗邻于一个或多个cas基因或蛋白整合或插入一个或多个异源间隔区。在一些实施方案中,一个或多个cas基因和/或蛋白与受体细胞是异源的并且一个或多个间隔区是同源或异源的。在一些优选的实施方案中,毗邻于一个或多个cas基因或蛋白整合或插入间隔区。
在一些其他实施方案中,本发明提供了使用一个或多个cas基因或蛋白和至少两个CRISPR重复序列以调节细胞(例如受体细胞)针对靶核酸或其转录产物的抗性的方法和组合物。
又在其它的实施方案中,本发明提供了使用一个或多个cas基因或蛋白、至少两个CRISPR重复序列和至少一个CRISPR间隔区以调节细胞(例如受体细胞)针对靶核酸或其转录产物的抗性的方法和组合物。
CRISPR结构一般存在于名为cas1至cas4的4个基因附近。这些基因的最常见排列是cas3-cas4-cas1-cas2。Cas3蛋白似乎是一种解旋酶,而Cas4与核酸外切酶的RecB家族相似并且含有富含半胱氨酸的基序,提示具有DNA结合作用。Cas1通常是高度碱性的并且是在含有CRISPR基因座的全部物种中总是找得到的唯一Cas蛋白。Cas2仍待表征。cas1-4的特征通常是它们密切靠近CRISPR基因座并且广泛分布在细菌物种和古细菌物种中。尽管不是全部cas1-4基因都与所有CRISPR基因座关联,然而在多个亚型中都发现了它们。
另外,在许多细菌物种中存在与CRISPR结构关联的三种基因(在本文中称作cas1B、cas5和cas6)的另一个簇(见,上文的Bolotin等人,[2005])。应当指出的是cas基因的命名是处于经常变化的状态中。因此,必须在上下文中理解文本。在一些实施方案中,cas基因选自cas1、cas2、cas3、cas4、cas1B、cas5和/或cas6。在一些优选的实施方案中,cas基因是cas1。又在一些实施方案中,cas基因选自cas1、cas2、cas3、cas4、cas1B、cas5和/或cas6片段、变体、同源物和/或其衍生物。在一些其它实施方案中,使用两种或多种cas基因的组合,包括任意的合适组合,所述的合适组合包括在通过引用方式并入本文的WO 07/025097中提供的那些组合。在一些实施方案中,提供多个cas基因。在一些实施方案中,存在多个不同和/或相同的cas基因或其任意组合,如WO 07/025097中所述。
在一些实施方案中,cas基因包含DNA,而在其他实施方案中,cas基因包含RNA。在一些实施方案中,核酸是基因组来源的,而在其他实施方案中,它是合成或重组来源的。在一些实施方案中,cas基因是双链的或单链的,无论是否代表有义链或反义链或其组合。在一些实施方案中,如本文中所述,通过使用重组DNA技术(例如重组DNA)制备cas基因。
如本文中所述,在一些实施方案中,cas基因包含cas基因的一个片段(即cas基因的这个片段包含野生型序列的一部分)。在一些实施方案中,该序列包含野生型序列的至少约30%、至少约40%、至少约50%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%。
在一些实施方案中,优选cas基因是最靠近CRISPR基因座5’端处前导序列或第一CRISPR重复序列的cas基因,如cas4或cas6。
又在一些实施方案中,Cas蛋白选自Cas1、Cas2、Cas3、Cas4、Cas1B、Cas5和/或Cas6,以及其片段、变体、同源物和/或衍生物。又在一些实施方案中,Cas蛋白选自Cas1、Cas2、Cas3、Cas4、Cas1B、Cas5和/或Cas6,以及其组合,如WO 07/02509中所述。又在其它的实施方案中,Cas蛋白选自Cas1、Cas2、Cas3、Cas4、Cas1B、Cas5和/或Cas6中的一种或多种、或多个相同和/或不同的Cas蛋白,它们为任意合适数目和/或组合。
术语“Cas蛋白”也包括多个Cas蛋白(例如,约2个和约12个Cas蛋白之间、更优选约3个和约11个Cas蛋白之间、更优选约4个和约10个Cas蛋白之间、更优选约4个和约9个Cas蛋白之间、更优选约4个和约8个Cas蛋白之间和更优选约4个和约7个蛋白之间;如4、5、6或7个Cas蛋白)。
在一些实施方案中,Cas蛋白由包含DNA的cas基因编码,而在其他实施方案中,该cas包含RNA。在一些实施方案中,核酸是基因组来源的,而在其他实施方案中,它是合成或重组来源的。在一些实施方案中,编码Cas蛋白的cas基因是双链或单链的,无论是否代表有义链或反义链或其组合。在一些实施方案中,如本文中所述,通过使用重组DNA技术(例如重组DNA)制备cas基因。
本发明也提供了用于鉴定旨在用来调节细胞针对靶核酸或其转录产物的抗性的cas基因的方法,所述方法包括步骤:制备包含至少一个CRISPR间隔区和至少两个CRISPR重复序列的细胞;工程化改造细胞,从而细胞包含至少一个cas基因;并且确定细胞是否调节针对所述靶核酸或其转录产物的抗性,其中调节细胞针对靶核酸或其转录产物的抗性表明该cas基因可用于调节细胞的抗性。
在一些其他实施方案中,本发明提供了用于工程化改造细胞(例如受体细胞)的方法和一个或多个cas基因。在一些优选的实施方案中,使用一个或多个cas基因来工程化改造细胞(例如受体细胞),其中所述的cas基因与一个或多个、优选两个或多个CRISPR重复序列和一个或多个CRISPR间隔区的组合用于调节细胞针对靶核酸或其转录产物的抗性。例如,在一些实施方案中,使用本领域已知的任意合适方法,将cas基因插入细胞的DNA(例如受体细胞的质粒和/或基因组DNA)。在一些其它实施方案中,cas基因用作模板,根据所述模板来修饰(例如突变)细胞的DNA(例如受体细胞的质粒和/或基因组DNA),从而在细胞的DNA中产生或形成cas基因。在一些实施方案中,cas基因存在于至少一个构建体、至少一个质粒或至少一个载体中,其中随后使用本领域已知的任意合适方法,将所述构建体、质粒或载体导入细胞。
在一些实施方案中,cas基因包含至少一个cas簇,其中所述的cas簇选自SEQ ID NO:461、466、473、478、488、493、498、504、509和517中的任意一种或多种序列。在其他实施方案中,cas基因包含SEQ IDNO:462-465、467-472、474-477、479-487、489-492、494-497、499-503、505-508、510-517中的任意一种或多种,它们单独使用或以任意合适的组合一起使用。在一些优选的实施方案中,所述的簇与一个或多个、优选两个或多个CRISPR重复序列和任选一个或多个CRISPR间隔区组合使用。在一些其它实施方案中,一个或多个cas基因或蛋白以合适的组合使用。
如本文中所示,给定的一组cas基因或蛋白总是与特定CRISPR基因座中的给定重复序列关联。因此,cas基因或蛋白似乎对给定的DNA重复序列是特异的(即cas基因或蛋白和所述重复序列形成功能性配对)。
因此,使用一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的特定组合,旨在使CRISPR间隔区在细胞(例如受体细胞)中赋予针对靶核酸或其转录产物的抗性。因此,已经出乎意料地发现不可能仅使用任意cas基因或蛋白或任意CRISPR重复序列。相反,本发明的一个特征是该组合具有功能。
在本文中所述的CRISPR重复序列-cas基因或蛋白组合的上下文中,术语“功能的”意指与CRISPR间隔区一起用来时,该组合能够赋予针对靶核酸或其转录产物的抗性,其中所述的CRISPR间隔区与靶核酸或其转录产物一致或同源。如本文中所用,术语“功能性CRISPR重复序列-cas组合”和“功能性CRISPR重复序列-cas基因组合”包括其中cas是cas基因或Cas蛋白的功能性组合。
适宜地,一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列从相同细胞(例如相同受体细胞)衍生。在一些实施方案中,术语“可衍生的”与术语“可获得的”同义,如上下文中使用。在一些优选的实施方案中,如上下文中使用,术语“可衍生的”也与术语“衍生”同义,因为不意图使本发明具体地限于衍生的元件。在一些实施方案中,术语“衍生的”与术语“获得的”同义,如上下文中使用。
在一些实施方案中,一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列从基因组或质粒中的相同CRISPR基因座衍生、优选从相同菌株、物种或属的基因组或质粒中的相同CRISPR基因座衍生。在一些其它实施方案中,一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列从单一基因组或质粒中的相同CRISPR基因座衍生、优选从相同菌株、物种或属的单一基因组或质粒中的相同CRISPR基因座衍生。在一些实施方案中,一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列天然地共存。又在其它的实施方案中,一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列天然地共存于相同细胞(例如受体细胞)中。在其他实施方案中,一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列天然地共存于细胞(例如受体细胞)的相同基因组中。仍在其他优选的实施方案中,一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列天然地共存于菌株、物种或属的相同基因组中。在一些其他优选的实施方案中,本发明提供了核酸的任意合适的组合,所述的组合基本上由至少两个CRISPR重复序列和至少一个cas基因或蛋白组成。
在一些实施方案中,术语“基本上由......组成”指至少两个CRISPR重复序列和至少一个cas基因或蛋白的组合,并且不包括CRISPR基因座的至少一种其它组分(例如,缺少一个或多个CRISPR间隔区和/或缺少CRISPR基因座的一个或多个共同前导序列)。在一些备选实施方案中,术语“基本上由......组成”指仅至少两个CRISPR重复序列和至少一个cas基因或蛋白的组合,并且不包括CRISPR基因座的全部其他组分(例如,天然存在的CRISPR基因座)。在一些其他实施方案中,术语“基本上由......组成”指仅至少两个CRISPR重复序列和至少一个cas基因或蛋白的组合,并且不包括CRISPR基因座的至少一种其它组分、优选地不包括天然存在的CRISPR基因座的至少一种其它组分。仍在一些其他实施方案中,术语“基本上由......组成”指至少两个CRISPR重复序列和至少一个cas基因或蛋白的组合,前提是天然存在的CRISPR基因座的至少一种其它组分缺少(例如,基本上缺少)。因此,该术语意图在上下文中使用。在一些实施方案中,本发明提供了至少两个CRISPR重复序列和至少一个cas基因或蛋白的任意适宜组合,前提是CRISPR基因座的全部其他组分缺少(例如,基本上缺少),优选CRISPR重复序列和cas基因的天然组合的CRISPR基因座的全部其他组分缺少。在一些进一步的实施方案中,一个或多个cas基因或蛋白与一个或多个CRISPR间隔区组合或一起使用。在一些其它实施方案中,一个或多个cas基因或蛋白与至少一个或多个CRISPR间隔区和至少一个或多个、优选两个或多个CRISPR重复序列组合或一起使用。在一些实施方案中,CRISPR间隔区从这样的生物(例如供体生物)衍生,其中所述的生物与衍生一个或多个cas基因或蛋白和/或一个或多个、优选两个或多个CRISPR重复序列的细胞(例如受体细胞)不同。
提供了以多种方式排列CRISPR重复序列和cas基因或蛋白质、尤其功能性CRISPR重复序列-cas组合。在一些实施方案中,该组合包括约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19个或约20个CRISPR重复序列中的至少任一项和约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19或约20个cas基因或蛋白中的任一项的组合(例如16个CRISPR重复序列和12个cas基因或蛋白或18个CRISPR重复序列和20个cas基因或蛋白或其任意其他组合)、由所述组合组成或基本上由所述组合组成。本发明提供了以多种方式排列的CRISPR重复序列和cas基因,如WO 07/025097中所提供。在cas基因和CRISPR重复序列的组合包含多于一个cas基因的一些实施方案中,理解为CRISPR重复序列插入在cas基因的3’端处、cas基因5’端处或在cas基因之间,条件是cas基因的至少之一仍保留功能。
在一些实施方案中,第一CRISPR重复序列-cas基因或蛋白组合(包含至少一个cas基因或蛋白和至少两个CRISPR重复序列,两者均从基因组内的相同CRISPR基因座衍生)与第二CRISPR重复序列-cas基因或蛋白组合使用(包含至少一个cas基因或蛋白和至少两个CRISPR重复序列,其中两者均从基因组内的相同或不同CRISPR基因座衍生)。因此,在本发明的这些实施方案中,所述第一和第二组合从基因组内相同或不同的CRISPR基因座衍生。因此,在一些实施方案中,如本文中进一步详述,所述第一和第二CRISPR重复序列-cas基因或蛋白组合来自不同基因组(例如,来自相同簇内的不同基因组)。
仍在本发明的其他实施方案中,第一和/或第二CRISPR重复序列-cas基因或蛋白组合(包含从基因组内相同CRISPR基因座衍生的至少一个cas基因和至少两个CRISPR重复序列)与约3个、约4个、约5个、约6个、约7个、约8个、约9个或约10个或更多个CRISPR重复序列-cas基因或蛋白组合(每个组合包含从基因组内的相同或不同CRISPR基因座衍生的至少一个cas基因或蛋白和至少两个CRISPR重复序列)以组合方式使用。因此,在本发明的这些实施方案中,所述组合从基因组内的相同或不同CRISPR基因座衍生。在本发明的一些其他实施方案中,如本文中进一步详述,所述组合来自不同的基因组(例如,相同簇内的不同基因组)。
因此,在一些实施方案中,对于赋予抗性的CRISPR重复序列-cas基因或蛋白组合,CRISPR重复序列和cas基因或蛋白天然地共存于基因组的给定CRISPR基因座中。在一些实施方案中,CRISPR重复序列和cas基因或蛋白天然地共存于基因组的相同CRISPR基因座中。在一些实施方案中,这些功能性组合共同地赋予针对靶核酸或其转录产物的抗性。
在一些其他实施方案中,本发明提供了用于鉴定cas基因或蛋白和CRISPR重复序列的功能性组合的方法,所述方法包括步骤:分析cas基因或蛋白和CRISPR重复序列的序列(例如核酸或蛋白质序列);鉴定cas基因或蛋白的一个或多个簇;鉴定CRISPR重复序列的一个或多个簇;和组合属于相同簇的那些cas基因或蛋白和CRISPR重复序列。
在一些其它的实施方案中,本发明提供了用于鉴定cas基因或蛋白和CRISPR重复序列的功能性组合以用来调节细胞针对靶核酸或其转录产物的抗性的方法,所述方法包括步骤:制备包含一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的组合的细胞;工程化改造细胞,从而它含有一个或多个CRISPR间隔区;和确定细胞是否调节针对靶核酸的抗性,其中调节了细胞针对靶核酸或其转录产物的抗性则表明该组合可以用来调节细胞针对靶核酸的抗性。
在一些实施方案中,cas基因和/或蛋白和/或CRISPR重复序列的序列从相同或不同的菌株、物种、属和/或生物衍生。在一些实施方案中,该组合包含基因组、重组或合成来源的DNA和/或RNA。在一些实施方案中,CRISPR重复序列包含基因组、重组和/或合成来源的DNA和/或RNA。在一些实施方案中,cas基因包含基因组、重组和/或合成来源的DNA和/或RNA。实际上,意图是本发明包括每种元件(例如cas基因和/或CRISPR重复序列)的DNA和/或RNA的任意组合。在一些实施方案中,使用本领域已知的任意合适方法分析所述元件。在一些优选的实施方案中,使用点阵图分析法开展该分析。在一些实施方案中,CRISPR重复序列和/或cas基因是双链的,而在其他实施方案中,它们二者之中任何一个是单链的,无论是否代表有义链或反义链或其组合。
在一些实施方案中,使用本文中所述的一个或多个功能性组合来工程化改造细胞(例如受体细胞)。在一些优选的实施方案中,使用一个或多个功能性组合来工程化改造细胞(例如受体细胞),其中所述的功能性组合与一个或多个CRISPR间隔区的组合用于调节细胞针对靶核酸或其转录产物的抗性。在一些实施方案中,使用本领域已知的任意合适的方法,将所述功能性组合插入受体细胞的DNA(例如,细胞的质粒或基因组DNA)。在一些其它实施方案中,所述功能性组合用作模板,根据所述模板来修饰(例如突变)受体细胞的DNA(例如质粒和/或基因组DNA),从而在细胞的DNA中产生所述功能性组合。又在其它的实施方案中,使用方法如本文中所述和本领域已知的那些方法,将功能性组合克隆至构建体、质粒或载体等中,所述的构建体、质粒或载体随后转化至细胞中。
在一些实施方案中,功能性组合通过下述方法获得或可获得,所述方法包括步骤:分析cas基因和CRISPR重复序列的序列;鉴定cas基因的一个或多个簇;鉴定CRISPR重复序列的一个或多个簇;和组合属于相同簇的那些cas基因和CRISPR重复序列,其中相同簇内cas基因和CRISPR重复序列的组合表明该组合是功能性组合。
如上所述,出人意料地发现不可能仅交换任意细胞(例如,细胞的任意菌株、物种或属)之间的CRISPR重复序列-cas组合,因为这不必然产生功能性CRISPR重复序列-cas组合。实际上,对于有功能的CRISPR重复序列-cas组合而言,它们需要是相容的。因此,认为不可能交换不同CRISPR基因座之间的cas基因或CRISPR重复序列,除非它们来自相同的簇。甚至更出人意料的是该簇不遵循“生物”的系统发生过程。具体而言,在一种生物内,可以存在多于一个CRISPR。这些CRISPR可以属于不同的簇,既使它们在相同生物中存在。因此,认为功能性CRISPR重复序列-cas组合要求该组合应当在一个簇内转换,这一点与在一个生物内转换相对立。
为避免疑问,如本文中所用的术语“簇”不指位于相同基因座的基因簇(通常形成操纵子),而指来自序列比较分析(例如,多重序列比较分析和/或多重序列比对和/或点阵图分析)的结果。因此,在一些实施方案中,使用本领域已知的多种方法(例如,本文中所述的点阵图分析)或使用多重比对随后进行系统进化树计算,进行CRISPR基因座的簇分析。在一些实施方案中,所述簇是一类、一系、一组序列。
有利地,天然共存性CRISPR重复序列-cas组合的使用提供了在给定物种内部和在给定物种之间相互交换该组合,因而有可能使用来自不同菌株的组合工程化改造一种菌株的抗性。
噬菌体
如本文中所用,术语“细菌噬菌体(bacterophage)”(或“噬菌体(phage)”)具有如本领域所理解的其常规含义(即,选择性地感染一个或多个细菌物种的病毒)。众多噬菌体对具体属或物种或菌株的细菌是特异的。在一些优选的实施方案中,噬菌体能够感染亲代细菌和/或宿主细胞。在一些实施方案中,噬菌体对亲代细菌有毒力。在一些实施方案中,噬菌体是裂解性的,而在其他实施方案中,噬菌体是溶原性的。
裂解性噬菌体是通过完成裂解周期,沿裂解途径前进而不进入溶原途径的噬菌体。裂解性噬菌体经历病毒复制,造成细胞膜裂解、摧毁细胞并释放能够感染其他细胞的子代噬菌体粒子。
溶原性噬菌体是能够进入溶原性途径的那种噬菌体,在所述溶原性途径中,噬菌体在完成其裂解循环之前变成细胞基因组的蛰伏、不活泼部分。
在本发明中使用的噬菌体包括但不限于属于以下病毒科的噬菌体:覆盖噬菌体科、囊状噬菌体科、丝杆状噬菌体科、光滑噬菌体科、微小噬菌体科、肌尾噬菌体科、短尾噬菌体科、长尾噬菌体科或复层噬菌体科。在一些实施方案中,感染对植物和/或动物(包括人)致病的细菌的噬菌体特别有用。在一些特别优选的实施方案中,调节了细胞针对噬菌体的抗性。
在一些特别优选的实施方案中,本发明的噬菌体包括但不限于能够感染天然包含一个或多个CRISPR基因座的细菌的那些噬菌体。已经在超过40种原核生物中鉴定到CRISPR基因座(见例如,Jansen等人,Mol.Microbiol.,43:1565-1575[2002];和Mojica等人,[2005]),所述的原核生物包括但不限于气热菌属(Aeropyrum)、热棒菌属(Pyrobaculum)、硫化叶菌属(Sulfolobus)、古球状菌属(Archaeoglobus)、盐盒菌属(Halocarcula)、甲烷杆菌属(Methanobacterium)、甲烷球菌属(Methanococcus)、甲烷八叠球菌属(Methanosarcina)、超高温甲烷菌属(Methanopyrus)、火球菌属(Pyrococcus)、嗜酸古菌属(Picrophilus)、热原体属(Thermoplasma)、棒杆菌属、分枝杆菌属、链霉菌属(Streptomyces)、产水菌属(Aquifex)、卟啉菌属(Porphyromonas)、绿菌属(Chlorobium)、栖热菌属(Thermus)、芽孢杆菌属、利斯特氏菌属、葡萄球菌属、梭菌属、高温厌氧杆菌属(Thermoanaerobacter)、支原体属(Mycoplasma)、梭杆菌属(Fusobacterium)、固氮弓菌属(Azarcus)、色杆菌属(Chromobacterium)、奈瑟氏球菌属、亚硝化单胞菌属(Nitrosomonas)、脱硫弧菌属(Desulfovibrio)、地杆菌属(Geobacter)、粘球菌属(Myxococcus)、弯曲杆菌属(Campylobacter)、沃廉菌属(Wolinella)、不动杆菌属(Acinetobacter)、欧文氏菌属、埃希氏菌属、军团菌属、甲基球菌属(Methylococcus)、巴氏杆菌属(Pasteurella)、发光杆菌属(Photobacterium)、沙门氏菌属、黄单胞菌属(Xanthomonas)、耶尔森氏菌属、密螺旋体属和热袍菌属(Thermotoga)。
在一些实施方案中,所述噬菌体包括但不限于能够感染属于以下属的细菌的那些噬菌体:埃希氏菌属、志贺氏菌属、沙门氏菌属、欧文氏菌属、耶尔森氏菌属、芽孢杆菌属、弧菌属、军团菌属、假单胞菌属、奈瑟氏球菌属、博德特氏菌属、螺杆菌属、利斯特氏菌属、农杆菌属、葡萄球菌属、链球菌属、肠球菌属、梭菌属、棒杆菌属、分枝杆菌属、密螺旋体属、疏螺旋体属、弗朗西丝菌属、布鲁氏菌属和黄单胞菌属。
在其它的实施方案中,噬菌体包括但不限于能够感染(或转导)乳酸细菌、双歧杆菌属、短杆菌属、丙酸杆菌属、乳球菌属、链球菌属、乳杆菌属(例如,嗜酸乳杆菌(L.acidophilus))、肠球菌属、片球菌属、明串珠菌属和酒球菌属细菌的那些噬菌体。
在进一步的实施方案中,噬菌体包括但不限于能够感染乳酸乳球菌(Lactococcus lactis)(例如乳酸乳球菌乳酸亚种(L.lactis subsp.lactis)和乳酸乳球菌乳脂亚种(L.lactis subsp.cremoris)和乳酸乳球菌乳酸亚种双乙酰生物变种(L.lactis subsp.lactis biovar diacetylactis))、嗜热链球菌、德氏乳杆菌保加利亚亚种(Lactobacillus delbrueckii subsp.bulgaricus)、瑞士乳杆菌(Lactobacillus helveticus)、乳双歧杆菌(Bifidobacterium lactis)、嗜酸乳杆菌(Lactobacillus acidophilus)、干酪乳杆菌(Lactobacillus casei)、婴儿双歧杆菌(Bifidobacterium infantis)、类干酪乳杆菌(Lactobacillus paracasei)、唾液乳杆菌(Lactobacillus salivarius)、植物乳杆菌(Lactobacillus plantarum)、路氏乳杆菌(Lactobacillus reuteri)、戈氏乳杆菌(Lactobacillus gasseri)、约氏乳杆菌(Lactobacillus johnsonii)或长双歧杆菌(Bifidobactrerium longum)的那些噬菌体。
又在其他实施方案中,噬菌体包括但不限于能够感染易受噬菌体感染破坏的任何发酵细菌的那些噬菌体,其中所述的发酵细菌包括但不限于参与抗生素、氨基酸和溶剂产生过程的发酵细菌。已知经历过噬菌体感染的由发酵产生的产物和相应的被感染的发酵细菌包括切达干酪和农家干酪(乳酸乳球菌乳酸亚种(Lactococcus lactis subsp.lactis)、乳酸乳球菌乳脂亚种(Lactococcus lactis subsp.cremoris))、酸奶(德氏乳杆菌保加利亚亚种、嗜热链球菌)、瑞士干酪(嗜热链球菌、乳酸乳杆菌、瑞士乳杆菌)、青纹干酪(乳脂明串珠菌(Leuconostoc cremoris))、意大利干酪(保加利亚乳杆菌(L.bulgaricus)、嗜热链球菌)、芬兰传统酸奶(viili)(乳酸乳球菌乳脂亚种、乳酸乳球菌乳酸亚种双乙酰生物变种(Lactococcus lactis subsp.lactis biovardiacetylactis)、乳脂明串珠菌)、雅库特(干酪乳杆菌)、酪素(乳酸乳球菌乳脂亚种)、纳豆(枯草芽孢杆菌纳豆变种(Bacillus subtilis var natto))、酒(酒明串珠菌(Leuconostoc oenos))、清酒(肠膜明串珠菌(Leuconostocmesenteroides))、多粘菌素(多粘芽孢杆菌(Bacillus polymyxa))、黏杆菌素(肉毒芽孢杆菌(Bacillus colistrium))、杆菌肽(地衣芽孢杆菌(Bacilluslicheniformis))、L-谷氨酸(乳发酵短杆菌(Brevibaterium lactofermentum)、嗜氨小杆菌(Microbacterium ammoniaphilum))、以及丙酮和丁醇(丙酮丁醇梭菌(Clostridium acetobutylicum)、Clostridiumsaccharoperbutylacetonicum)。
在一些优选的实施方案中,在本发明中使用的细菌包括但不限于嗜热链球菌、德氏乳杆菌保加利亚亚种和/或嗜酸乳杆菌。
在一些特别优选的实施方案中,噬菌体包括但不限于能够感染包含一个或多个异源的CRISPR基因座的细菌的那些噬菌体。在一些实施方案中,细菌包含一个或多个异源的CRISPR基因座和/或一个或多个异源的cas基因和/或一个或多个异源的CRISPR重复序列和/或一个或多个异源的CRISPR间隔区。
细菌被噬菌体感染是由噬菌体DNA注入或转移到细胞中所致。在一些实施方案中,感染导致噬菌体核酸在细胞内表达(即转录和翻译)和噬菌体生活周期持续。在涉及重组噬菌体的一些实施方案中,噬菌体基因组内的重组序列(例如报道核酸)也表达。
已经发现原核生物中的CRISPR间隔区序列往往与多种DNA分子具有显著相似性,所述的多种DNA分子包括遗传元件如染色体、噬菌体和接合质粒。已经报道了携带这些CRISPR间隔区的细胞不能够被含有与间隔区同源的序列的DNA分子感染(见,Mojica等[2005])。
在本发明的一些实施方案中,在细胞(例如受体细胞)的CRISPR基因座内添加衍生自与一个或多个假CRISPR间隔区互补或同源的噬菌体DNA或CRISPR间隔区的一个或多个特定假间隔区,旨在调节(例如提供)针对特定噬菌体的抗性,因而基本上防止噬菌体侵袭。
在一些优选的实施方案中,将噬菌体基因组内的特定区域作为靶标以制备假间隔区,所述的特定区域包括但不限于编码宿主特异性蛋白质的基因,所述蛋白质包括提供特定噬菌体-宿主识别作用的那些蛋白质,如解旋酶、引发酶、头部或尾部结构蛋白、具有保守结构域的蛋白质(例如穴蛋白、细胞溶素等其他蛋白等)或具有重要噬菌体基因当中的保守序列的蛋白质。
当源自噬菌体基因组的任意核酸插入例如活性CRISPR基因座中的两个重复序列之间时,源自该噬菌体基因组的任意核酸可以赋予针对该噬菌体的免疫性。在一些实施方案中,当CRISPR间隔区对应于噬菌体基因的内部序列时,免疫性是较“高效”的。在一些特别优选的实施方案中,当该基因编码“必需”蛋白质(例如抗受体)时,使得免疫性甚至更“高效”。
在一些优选的实施方案中,本发明提供了用于赋予细胞(例如细菌细胞)针对噬菌体的抗性方法,所述方法包括步骤:(a)提供来自至少一种噬菌体的一个或多个假CRISPR间隔区;(b)在对该噬菌体基本上敏感的至少一种细胞中鉴定一个或多个功能性CRISPR重复序列-cas组合;和(c)工程化改造所述基本上敏感的细胞中的所述一个或多个CRISPR基因座,从而这些CRISPR基因座包含来自噬菌体的一个或多个假CRISPR间隔区和/或与所述一个或多个假CRISPR间隔区互补或同源的一个或多个CRISPR间隔区,以使此细胞具有抗性。
又在其它的实施方案中,本发明提供了用于赋予细胞(例如细菌细胞)针对噬菌体的抗性方法,所述方法包括步骤:(a)提供来自至少一种噬菌体的一个或多个假CRISPR间隔区;(b)鉴定对该噬菌体基本上敏感的至少一种细胞中的一个或多个功能性CRISPR重复序列-cas组合;和(c)插入来自该噬菌体的一个或多个假CRISPR间隔区或与所述一个或多个假CRISPR间隔区互补或同源的一个或多个CRISPR间隔区到所述基本上敏感的细胞,从而使细胞基本上抵抗该噬菌体。
又在其它的实施方案中,本发明提供了用于调节细菌细胞溶菌型的方法,所述方法包括步骤:(a)提供来自至少一种噬菌体的一个或多个假CRISPR间隔区;(b)鉴定对该噬菌体基本上敏感的至少一种细胞中的一个或多个功能性CRISPR重复序列-cas组合;和(c)工程化改造所述基本上敏感的细胞中的一个或多个CRISPR基因座,从而这些CRISPR基因座包含来自噬菌体的一个或多个假CRISPR间隔区和/或与所述一个或多个假CRISPR间隔区互补或同源的一个或多个CRISPR间隔区。
在进一步的实施方案中,本发明提供了用于调节细菌细胞溶菌型的方法,所述方法包括步骤:(a)提供来自至少一种噬菌体的一个或多个假CRISPR间隔区;(b)鉴定对该噬菌体基本上敏感的至少一种细胞中的一个或多个功能性CRISPR重复序列-cas组合;和(c)插入来自噬菌体的一个或多个假CRISPR间隔区和/或与所述一个或多个假CRISPR间隔区互补或同源的一个或多个CRISPR间隔区到所述基本上敏感的细胞中。
又在一些其他优选的实施方案中,本发明提供了用于赋予细胞(例如细菌细胞)针对噬菌体的抗性方法,所述方法包括步骤:i)鉴定包含靶核酸或其转录产物的噬菌体中的假CRISPR间隔区,其中针对所述靶核酸或其转录产物的抗性待调节;和(ii)修饰细胞的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与包含所述靶核酸的噬菌体的假CRISPR间隔区具有同源性。
在一些其他实施方案中,本发明提供了用于赋予细胞(例如细菌细胞)针对噬菌体的抗性的方法,所述方法包括步骤:i)鉴定包含靶核酸或其转录产物的噬菌体中的假CRISPR间隔区,其中针对所述靶核酸或其转录产物的抗性待调节;和(ii)修饰细胞的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与包含所述靶核酸的噬菌体的假CRISPR间隔区具有100%同源性或同一性。
又在其它的实施方案中,本发明提供了用于调节细菌细胞的溶菌型的方法,所述方法包括步骤:i)鉴定包含靶核酸或其转录产物的噬菌体中的假CRISPR间隔区,其中针对所述靶核酸或其转录产物的抗性待调节;和(ii)修饰细胞的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与包含所述靶核酸的噬菌体的假CRISPR间隔区具有同源性。
在一些其他实施方案中,本发明提供了用于调节细菌细胞的溶菌型的方法,所述方法包括步骤:i)鉴定包含靶核酸或其转录产物的噬菌体中的假CRISPR间隔区,其中针对所述靶核酸或其转录产物的抗性待调节;和(ii)修饰细胞的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与包含所述靶核酸的噬菌体的假CRISPR间隔区具有100%同源性或同一性。
在一些实施方案中,细菌细胞的CRISPR间隔区与包含靶核酸的噬菌体中的序列(如假CRISPR间隔区)具有100%同源性或同一性。
在一些备选的实施方案中,细菌细胞的CRISPR间隔区形成包含如本文中所述的功能性CRISPR重复序列-cas组合的CRISPR基因座的组成部分。
在一些特别优选的实施方案中,噬菌体中的靶核酸或其转录产物是高度保守的核酸序列。在一些其他实施方案中,噬菌体中的靶核酸或其转录产物是编码宿主特异性蛋白质的基因。在一些其他实施方案中,噬菌体中的靶核酸或其转录产物编码对该噬菌体存活、复制和/或生长为必需的酶。在其它的实施方案中,噬菌体中的靶核酸或其转录产物编码解旋酶、引发酶、头部或尾部结构蛋白、具有保守结构域的蛋白质(例如穴蛋白、细胞溶素等)。
在一些优选的实施方案中,制备了具有“降低的噬菌体增殖或感染易感性”的细菌细胞。如本文中所用,该术语指在(例如乳制品培养基中)培养时与野生型细菌相比,具有低噬菌体增殖或感染易感性或无噬菌体增殖或感染易感性的细菌。
在一些实施方案中,一些细菌细胞显示“低噬菌体增殖易感性”。该术语指细菌中的噬菌体增殖水平低于会在给定时间期间对培养物造成有害作用的水平。这种对培养物的有害作用包括但不限于在生产发酵乳产品(例如酸奶或干酪)期间乳凝结、在生产发酵乳产品(例如酸奶或干酪)期间pH不充分或缓慢降低、干酪成熟缓慢和/或食物质地退化到引不起食欲或不适合消费的程度。
对于等同的培养条件集合,通常相对于野生型细菌表述针对本发明噬菌体的细菌易感性。在一些实施方案中,所述细菌具有约100倍较低的(成斑效率[EOP]=10-2)、优选约1000倍较低的(EOP=10-3)、更优选10,000倍较低的(EOP=10-4)并且最优选约100,000倍较低的(EOP=10-5)。在一些优选的实施方案中,在温育培养物约14小时后、更优选在约12小时后、甚至更优选在约7小时后、仍更优选在约6小时后、还更优选在约5小时后并且最优选在约4小时后测定培养物中的噬菌体增殖水平。
在其它的实施方案中,本发明提供了用于赋予细胞(例如细菌细胞)针对噬菌体的敏感性的方法,所述方法包括步骤:(a)提供来自至少一种噬菌体的假CRISPR间隔区;(b)鉴定对该噬菌体基本上抵抗的细胞中的一个或多个功能性CRISPR重复序列-cas组合;和(c)工程化改造基本上敏感的细胞中的一个或多个CRISPR基因座,从而这些CRISPR基因座包含一个或多个假CRISPR间隔区或一个或多个CRISPR间隔区,其中所述的假CRISPR间隔区或CRISPR间隔区互补或同源于与所述基本上抵抗的细胞中的所述一个或多个CRISPR基因座相比时同源性程度降低的一个或多个假CRISPR间隔区。
在其他实施方案中,本发明提供了用于调节(例如减少)包含一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的细胞(例如细菌细胞)的溶菌型的方法,所述方法包括步骤:i)鉴定噬菌体中的假CRISPR间隔区,其中针对所述噬菌体的抗性待调节;和(ii)修饰细胞的CRISPR间隔区的序列,从而细胞的CRISPR间隔区与包含靶核酸的噬菌体的假CRISPR间隔区具有降低程度的同源性。
在进一步的实施方案中,本发明提供了用于调节(例如减少或降低)包含一个或多个cas基因或蛋白和一个或多个、优选两个或多个CRISPR重复序列的细菌细胞针对噬菌体的抗性的方法,所述方法包括步骤:(i)鉴定噬菌体中的一个或多个假CRISPR间隔区,其中针对所述噬菌体的抗性待调节;(ii)鉴定其中待调节抗性的细菌细胞中与所述假CRISPR间隔区同源的CRISPR间隔区;和(iii)修饰其中待调节抗性的细菌细胞中的CRISPR间隔区的序列,从而CRISPR间隔区与噬菌体的假CRISPR间隔区具有较低程度的同源性,其中针对所述噬菌体的抗性待调节。
在一些实施方案中,与待调节针对其抗性的噬菌体的假CRISPR间隔区相比较时,细胞的CRISPR间隔区具有降低程度的同源性(例如同源性降低约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约15%、约20%、约25%、约30%、约35%、约40%、约45%、约50%、约55%、约60%、约65%、约70%、约75%、约80%、约90%或约95%)。
在一些实施方案中,使用本发明的方法制备细菌细胞,从而细胞具有“提高的噬菌体增殖易感性”。如本文中所用,该术语指在(例如乳制品培养基中)培养时与野生型细菌相比,具有提高或更高的噬菌体增殖易感性的细菌。
在一些实施方案中,术语“高噬菌体增殖易感性”指细菌中的噬菌体增殖水平高于会在给定时间期间对培养物造成有害作用的水平。这种对培养物的有害作用包括但不限于在生产发酵乳产品(例如酸奶或干酪)期间乳凝结、在生产发酵乳产品(例如酸奶或干酪)期间pH不充分的或缓慢降低、干酪成熟缓慢和/或食物质地退化到引不起食欲或不适合消费的程度。
对于等同的培养条件集合,通常相对于野生型细菌表述针对本发明噬菌体的细菌易感性。在一些实施方案中,所述细菌具有约100倍较低的(成斑效率[EOP]=10-2)、优选约1000倍较低的(EOP=10-3)、更优选10,000倍较低的(EOP=10-4)并且最优选约100,000倍较低的(EOP=10-5)。在一些优选的实施方案中,在温育培养物约14小时后、更优选在约12小时后、甚至更优选在约7小时后、仍更优选在约6小时后、还更优选在约5小时后并且最优选在约4小时后测定培养物中的噬菌体增殖水平。
在一些优选的实施方案中,一个CRISPR间隔区在侧翼为两个CRISPR重复序列(即,一个CRISPR间隔区在每一侧具有至少一个CRISPR重复序列)。
在本发明的一些实施方案中,使亲代细菌(例如“亲代细菌菌株”)(例如反复、依次、同时或基本上同时地)暴露于多于一种噬菌体(例如一种或多种噬菌体的混合物)。在一些实施方案中,该亲代细菌菌株对混合物中亲代细菌菌株所暴露的每种噬菌体敏感,而在其他实施方案中,该细菌菌株对所述噬菌体的某些敏感,但抵抗其他噬菌体。
如本文中所用,术语“标签序列”指额外DNA片段的部分,其从一种或多种噬菌体的基因组例如一种或多种噬菌体的基因组的正链)衍生,其中根据本发明方法使亲代细菌暴露于所述噬菌体,并且用作为标记或标签(例如提供独特标记或独特标签)。
标签序列一般是噬菌体中作为天然存在的序列的序列。优选地,该标签序列与噬菌体中的天然存在的序列(例如衍生该标签序列的噬菌体基因组)具有至少约90%、约95%、约96%、约97%、约98%或约99%同一性。在一些最优选的实施方案中,该标签序列与噬菌体中的天然存在的序列(例如衍生该标签序列的噬菌体基因组)具有约100%同一性。
在一些实施方案中,标签序列与标记细菌的一个或多个CRISPR基因座中的任何其他CRISPR间隔区或CRISPR间隔区核心具有小于约40%、约30%、约20%、约10%、约5%、约4%、约3%、约2%、约1%或约0%同一性。
在一些实施方案中,标签序列与标记细菌的一个或多个CRISPR基因座中的任何其他序列具有小于约40%、约30%、约20%、约10%、约5%、约4%、约3%、约2%、约1%或约0%同一性。
在一些其它实施方案中,标签序列具有与细菌的CRISPR基因座中的序列(例如CRISPR间隔区)相同的序列。在一些其他实施方案中,标签序列具有这样的序列,所述序列除一个或多个单核苷酸多态性(例如一个或两个单核苷酸多态性)之外与此细菌的CRISPR基因座中的序列(例如CRISPR间隔区)相同。
在一些优选的实施方案中,该标签序列具有至少约20个核苷酸长度,而在一些特别优选的实施方案,它具有约20个至约58个核苷酸长度。
在一些特别优选的实施方案中,将至少一个标签序列整合到亲代细菌中。在一些其它实施方案中,还整合了从亲代细菌的基因组或亲代细菌的一个或多个质粒(例如,巨质粒(megaplasmid))衍生的至少一个重复序列(例如,重复的CRISPR重复序列)。不意图使本发明限于任何特定机制或理论。然而,认为至少一个重复序列从亲代细菌的基因组中被拷贝或复制。特别地,认为CRISPR基因座中的CRISPR重复序列一般被重复并且标签序列在该细菌的基因组中紧邻新的重复的CRISPR重复序列之后(即下游)整合。
在一些特别优选的实施方案中,所述至少一个重复序列是与亲代细菌和/或标记细菌的一个或多个CRISPR基因座中的CRISPR重复序列具有至少约90%、约95%、约96%、约97%、约98%、或约99%同一性的CRISPR重复序列。最优选地,所述至少一个重复序列是与亲代细菌和/或标记细菌的一个或多个CRISPR基因座中的CRISPR重复序列具有至少约100%同一性的CRISPR重复序列。在一些优选的实施方案中,所述重复的序列具有至少约24个核苷酸长度,而在一些特别优选的实施方案中,它具有约24个至约40个核苷酸长度。
在一些优选的实施方案中,至少一个标签序列和至少一个重复序列整合到亲代细菌中。不意图使本发明限于任何特定机制或理论。然而,认为每次一个标签序列整合到亲代细菌的基因组中,这伴有反复、依次、同时或基本上同时地整合至少一个重复序列。因此,包含所述标签序列和重复序列的至少一对序列整合到亲代细菌中,由此产生标记的细菌。
在一些优选的实施方案中,至少一个标签序列和至少一个重复序列彼此毗邻地整合。更优选地,至少一个标签序列和至少一个重复序列彼此毗邻地整合,从而所述序列之间不存在间插核苷酸。
在一些实施方案中,重复序列结合、连接或融合到标签序列的一端(例如5′或3’端)。优选地,重复序列结合、连接或融合到标签序列的5’端。因此,在整合单个序列对之后,重复序列是在CRISPR基因座5’端的第一序列并且标签序列会是CRISPR基因座中在该重复序列下游的第二(例如,下一个)序列。在一些优选的实施方案中,所述序列直接结合、直接连接或直接融合,从而在重复序列与标签序列之间无间插核苷酸。
因此,在一些实施方案中,将重复序列和标签序列对整合到亲代细菌的基因组中,以产生标记细菌。该重复序列从亲代细菌的基因组衍生、可衍生、获得或可获得,并且标签序列从用来感染该亲代细菌的噬菌体的基因组衍生、可衍生、获得或可获得。
出人意料地,甚至已经发现在一些实施方案中,多重序列对被整合到亲代细菌的基因组中。根据这些实施方案,所述的多重序列对包含含有重复序列和标签序列的第一序列对和含有第二重复序列和第二标签序列的第二序列对。第二重复序列一般包含与第一重复序列相同的序列(例如大于约95%、约96%、约97%、约98%、约99%或约100%同一性)。该标签序列一般包含与第一标签序列不同的序列(例如小于约40%、约30%、约20%、约10%、约5%、约4%、约3%、约2%、约1%或约0%同一性)。这在整合了额外序列对的实施方案中也是如此。
因此,多重序列对的构成一般包含
[重复序列-标签序列]n
其中n=2、3、4、5、6或更大数字
优选地,多重序列对的构成一般包含
[CRISPR重复序列-标签序列]n
其中n=2、3、4、5、6或更大数字
在一些实施方案中,多重序列对的构成是
5′-[重复序列-标签序列]n-3′
其中n=2、3、4、5、6或更大数字
优选地,多重序列对的构成是
5′-[CRISPR重复序列-标签序列]n-3′
其中n=2、3、4、5、6或更大数字。
因此,在一些实施方案中,多重序列对被整合到亲代细菌中。在一些实施方案中,标签序列相邻于以下重复序列整合:(i)与亲代细菌中天然存在的序列同源(例如同一)的重复序列;(ii)与亲代细菌的CRISPR基因座中天然存在的序列同源(例如同一)的重复序列;或(iii)最优选,与亲代细菌的CRISPR基因座中天然存在的CRISPR重复序列同源(例如同一)的重复序列。
在独立实验中亲代细菌每次暴露于给定噬菌体后,每一标记细菌中的标签序列代表不同的核苷酸序列,因而产生对于每一细菌为独特的序列。因此,不受任何具体理论限制,认为在亲代细菌暴露于给定噬菌体后,整合到亲代细菌中的标签序列似乎随机选自噬菌体的基因组。然而,不意图使本发明限于随机整合事件。
有利地,这个出人意料的发现因这样事实而在发明的上下文中使用,即随机选择的标签序列提供了标记细菌中的独特标签或标记。出人意料地,还发现当相同的亲代细菌暴露于相同的噬菌体时,在独立或不同实验中整合的标签序列具有不同序列,因而在每次暴露后于标记细菌中产生独特标记。
在一些实施方案中,借助标签序列的一个或多个以下特性,在标记细菌中鉴定了随机选择的标签序列:
(1)标签序列在噬菌体不敏感性突变体的一个或多个CRISPR基因座中的位置。如本文中所述,标签序列一般位于标记细菌的CRISPR基因座的一端和/或两端(例如5′和/或3’端,更优选5’端)。
(2)标签序列与亲代细菌所暴露的噬菌体基因组的序列具有高程度的同源性或同一性(例如100%同一性);和/或
(3)标签序列融合、连接或结合到(例如直接融合、连接或结合到)从亲代细菌基因组中复制而来的至少一个序列(例如CRISPR重复序列)。一般,如本文中所述,这种额外的序列对位于标记细菌的CRISPR基因座的一端和/或两端(例如5′和/或3’端,优选地5’端)。
在本文提供的一些标签/标记实施方案中,一个或多个标签序列和/或一个或多个重复序列(例如来自亲代细菌的重复的CRISPR重复序列)整合到亲代细菌的CRISPR基因座中。在一些优选的实施方案中,如本文中所述的一个或多个重复的序列-标签序列对整合到亲代细菌的CRISPR基因座中。在一些实施方案中,所述标签序列和/或重复序列整合到亲代细菌的CRISPR基因座内。在一些实施方案中,所述标签序列和/或重复序列整合到亲代细菌的CRISPR基因座的一端或两端。在另外的其他实施方案中,所述标签序列和/或重复序列整合到亲代细菌的CRISPR基因座的两端,从而所述序列处在CRISPR基因座的5’端和3’端。重复序列之一一般是在CRISPR基因座5’端的第一序列并且标签序列紧邻该重复序列下游定位。其他重复序列是在CRISPR基因座3’端的最末序列并且标签序列紧邻该重复序列上游定位。
在一些实施方案中,标签序列和/或重复序列整合到一个或多个CRISPR基因座中。又在其他实施方案中,所述标签序列和/或重复序列整合到亲代细菌的CRISPR基因座的一端,从而所述序列处在该CRISPR基因座的3’端。重复序列是在CRISPR基因座3’端的最末序列并且标签序列紧邻该重复序列上游定位。优选地,所述标签序列和/或重复序列整合到亲代细菌的CRISPR基因座的一端,从而所述序列处在该CRISPR基因座的5’端。重复序列是在CRISPR基因座5’端的第一序列并且标签序列紧邻该重复序列下游定位。
如本文中所述,所述标签序列是株特异性标签,其意指从噬菌体整合或插入亲代细菌中的标签序列在每次亲代细菌(例如相同的亲代细菌)暴露于噬菌体(例如相同的噬菌体)时是不同的。因此,所述标签序列用作给定细菌菌株的独特标签。
标签序列和/或重复序列整合到一个或多个不同的CRISPR基因座中,而在其他实施方案中,两个或多个不同的标签序列和/或重复序列整合到CRISPR基因座中,并且在进一步的实施方案中,两个或多个不同的标签序列和/或重复序列各自整合到两个或多个不同的CRISPR基因座中。来自每种噬菌体的每种标签序列和/或来自每种亲代细菌的每种重复序列(例如重复的CRISPR重复序列)可以整合到相同的CRISPR基因座中。
在一些实施方案中,每个标签序列和/或每个重复序列整合在相同CRISPR基因座的一端或两端。在一些其它实施方案中,每个标签序列和/或每个重复序列整合在相同CRISPR基因座的5′和/或3’端。优选地,每个标签序列和/或每个重复序列整合在相同CRISPR基因座的5′端。在一些其它实施方案中,来自亲代菌株的每个标签序列和/或每个重复序列反复、同时或基本上同时地整合。在一些实施方案中,每个标签序列和/或每个重复序列依次地整合,从而第一标签序列和/或第一重复序列整合到亲代细菌中。来自第二种噬菌体的第二标签序列和/或另一个重复序列随后整合到此亲代细菌中。合适地,标签序列和/或重复序列整合到亲代细菌的染色体DNA中。
在一些实施方案中,每个标签序列和/或每个重复序列彼此靠近地(例如相邻)整合到相同CRISPR基因座的一端(例如5’端)。因此,在一些实施方案中,每个标签序列和/或每个重复序列依次地整合,从而第一序列整合到亲代细菌中CRISPR基因座的一端(例如,在5′和/或3’端内部或在5′和/或3’端)。然后第二标签序列和/或重复序列可以靠近(例如紧邻于)第一序列对而整合到亲代细菌中。在一些实施方案中,所述第二序列靠近(例如紧邻于)所述第一序列对的5′或3’端整合到亲代细菌中。优选地,所述第二序列靠近(例如紧邻于)所述第一序列的3’端整合到亲代细菌中等。在一些实施方案中,每一序列在亲代细菌的相同CRISPR基因座3’端和/或5’端内或在3’端和/或5’端彼此靠近(例如相邻)地整合。在一些优选的实施方案中,每一序列在亲代细菌的相同CRISPR基因座5’端彼此靠近(例如相邻)地整合。更优选地,每一序列在亲代细菌的CRISPR基因座5’端上游彼此靠近(例如相邻)地整合。更优选地,每一序列在亲代细菌的CRISPR基因座的5’CRISPR重复序列上游彼此靠近(例如相邻)地整合。最优选地,每一序列在亲代细菌的CRISPR基因座的第一5’CRISPR重复序列上游彼此靠近(例如相邻)地整合。
标记细菌
如本文中所用,术语“标记细菌”指这样的亲代细菌或亲代细菌菌株,其中已经以如此方式修饰(如突变)一个或多个CRISPR基因座或其部分,从而所述细菌对它所暴露的一种或多种噬菌体不敏感。如本文中进一步详述,在一些实施方案中,该标记细菌(例如反复、依次或同时地)暴露于多于一种噬菌体,从而它以这样的方式在一种或多种CRISPR基因座中积累了一个或多个基因组修饰,从而该标记细菌对其所暴露的一个或多个噬菌体不敏感。
为感染细胞,噬菌体将其核酸注入或转移到细胞,同时噬菌体核酸独立于细胞基因组存在。在一些实施方案中,感染导致噬菌体核酸在细胞内表达(即转录和翻译)和噬菌体生活周期持续。
在本发明的一些实施方案中,暴露于噬菌体后,与亲代细菌比较时,标记细菌具有降低的噬菌体感染和/或增殖易感性或无噬菌体感染和/或增殖易感性。如本文中所用,术语“降低的噬菌体感染和/或增殖易感性”意指标记细菌中噬菌体感染和/或增殖的水平不引起对该标记细菌有害的影响。
因此,在本发明的一些实施方案中,亲代细菌在暴露于噬菌体后未被杀死,原因是该亲代细菌以对此噬菌体变得不敏感的方式突变。
在一些实施方案中,标记细菌对噬菌体进一步感染和/或增殖不敏感或基本上不敏感。在其它的实施方案中,标记细菌对噬菌体用来在细菌中感染和/或增殖的一个或多个机制不敏感或基本上不敏感。仍在其它的实施方案中,标记细菌对噬菌体用来在细菌中感染和/或增殖的全部机制不敏感或基本上不敏感。又在其它的实施方案中,标记细菌发展了在感染周期减弱、失活或摧毁该噬菌体的一个或多个机制。在一些其他实施方案中,本发明提供了通过本领域已知的标准筛选方法法选择的标记菌株来分离噬菌体不敏感性突变体。
在本发明的一些实施方案中,在比较来自亲代细菌和标记细菌的CRISPR基因座或其部分后,选择在CRISPR基因座中包含亲代细菌中不存的标签序列的标记细菌。
在一些优选的实施方案中,选择了在CRISPR基因座的5′和/或3’端内部或其5′和/或3’端处包含亲代细菌中不存在的额外DNA片段的标记细菌。更优选地,选择了靠近(例如紧邻于)标记细菌的CRISPR基因座中新重复序列3’端包含亲代细菌中不存在的标签序列的标记细菌。最优选地,选择了靠近(例如紧邻于)标记细菌中CRISPR基因座的第一CRISPR重复序列3’端包含亲代细菌中不存在的标签序列的标记细菌。
在一些实施方案中,分离和/或克隆标签序列(例如,一个或多个标签序列)。在一些其他实施方案中,将标签序列(例如,一个或多个标签序列)测序。这些实施方案提供了优势,因为它们不仅提供关于标签序列在CRISPR基因座中位置的信息,还提供其具体序列。在一些实施方案中,这种信息存储在数据库中,从而为给定细菌提供独特标记并且还为后继追踪和/或鉴定该细菌提供手段。
一旦标记细菌中标签序列的序列已知,则标签序列单独用在鉴定细菌中。使用本领域已知的和本文中所述的多种方法,确定标签序列的序列和/或位置。然后将这种序列与例如细菌序列数据库和/或噬菌体序列数据库和/或标记/标签数据库匹配,以鉴定该细菌。
供体生物
如在本文的一些实施方案中所用,术语“供体生物”指衍生CRISPR重复序列和/或cas基因和/或其组合和/或CRISPR间隔区的生物或细胞。这些生物或细胞可以是相同或不同的。在一些实施方案中,术语“供体生物”指衍生一个或多个、优选两个或多个CRISPR重复序列和/或一个或多个cas基因和/或其组合和/或CRISPR间隔区的生物或细胞。这些生物或细胞可以是相同或不同的。在一些实施方案中,以合成方式衍生CRISPR间隔区和/或假CRISPR间隔区。又在其他实施方案中,所述供体生物或细胞包含赋予针对靶核酸或其转录产物的特异免疫性的一个或多个CRISPR 间隔区。在其它的实施方案中,衍生cas基因和/或CRISPR重复序列和/或其组合的供体生物或细胞也是重组CRISPR基因座的受体细胞/生物。它们可以是相同或不同的。在其他实施方案中,衍生CRISPR间隔区的供体生物或细胞也是重组CRISPR基因座的受体细胞/生物。它们可以是相同或不同的。在供体生物是细菌细胞的实施方案中,供体生物一般包含赋予针对靶核酸或其转录产物的特异免疫性的CRISPR间隔区。在一些实施方案中,所述生物是细菌细胞,而在其他实施方案中,它是噬菌体。
宿主细胞
本文中所用,术语“宿主细胞”指包含本发明的组合、构建体或载体等的任意细胞。在一些实施方案中,用载体(例如克隆载体)中所含的核苷酸序列转化或转染宿主细胞。在一些实施方案中,核苷酸序列可以携带在用于复制和/或表达该核苷酸序列的载体中。选择与该载体相容的细胞,并且在一些实施方案中,选择原核(例如细菌)细胞。
受体细胞
如本文中所用,术语“受体细胞”指其中调节或待调节针对靶核酸或其转录产物的抗性的任意细胞。在一些实施方案中,该受体细胞指包含本发明重组核酸的任意细胞。在一些实施方案中,该受体细胞包含一个或多个、优选两个或多个CRISPR重复序列和一个或多个cas基因或蛋白。合适地,如本文中所述,CRISPR重复序列和cas基因或蛋白形成受体细胞中的功能性组合。在一些其他实施方案中,该受体细胞包含一个或多个经修饰的CRISPR重复序列和/或一个或多个经修饰的cas基因或蛋白。合适地,如本文中所述,所述经修饰的CRISPR重复序列和/或经修饰的cas基因或蛋白形成受体细胞中的功能性组合。在一些实施方案中,该受体细胞包含一个或多个基因修饰的CRISPR重复序列和/或一个或多个基因修饰的cas基因或蛋白。合适地,如本文中所述,所述基因修饰的CRISPR重复序列和/或基因修饰的cas基因或蛋白形成受体细胞中的功能性组合。在一些备选实施方案中,该受体细胞包含一个或多个重组CRISPR重复序列和/或一个或多个重组cas基因或蛋白。合适地,如本文中所述,所述重组CRISPR重复序列和/或重组cas基因或蛋白形成受体细胞中的功能性组合。又在其它的实施方案中,该受体细胞包含一个或多个天然存在的CRISPR重复序列和一个或多个天然存在的cas基因或蛋白。合适地,CRISPR重复序列和cas基因或蛋白形成功能性组合。
在一些实施方案中,受体细胞包含一个或多个修饰的、基因修饰的、重组的或天然存在的CRISPR重复序列与一个或多个修饰的、基因修饰的、重组的或天然存在的cas基因或蛋白的组合。合适地,一个或多个修饰的、基因修饰的、重组的或天然存在的CRISPR间隔区或一个或多个修饰的、基因修饰的、重组的或天然存在的cas基因或蛋白形成功能性组合.
在一些实施方案中,受体细胞是原核细胞。在一些优选的实施方案中,受体细胞是细菌细胞。本文中描述了合适的细菌细胞。在一些实施方案中,细菌细胞选自乳酸细菌物种、双歧杆菌属物种、短杆菌属物种、丙酸杆菌属物种、乳球菌属物种、链球菌属物种、乳杆菌属物种(包括肠球菌属物种)、片球菌属物种、明串珠菌属物种和酒球菌属物种。合适的物种包括但不限于乳酸乳球菌,包括乳酸乳球菌乳酸亚种和乳酸乳球菌乳脂亚种、乳酸乳球菌乳脂亚种、明串珠菌属物种、乳酸乳球菌乳酸亚种生物突变株(Lactococcus lactis subsp.lactis biovar)、嗜热链球菌、德氏乳杆菌保加利亚亚种和瑞士乳杆菌、乳双歧杆菌、嗜酸乳杆菌、干酪乳杆菌。
在待调节细胞的抗性的一些实施方案中,如本领域已知,细菌细胞用于发酵肉(包括牛肉、猪肉和禽肉),所述的细菌细胞包括但不限于乳酸细菌、啤酒片球菌(Brevibacterium cerevisiae)、植物乳杆菌、短乳杆菌(Lactobacillus brevis)、微球菌属(Micrococcus)物种、清酒乳杆菌(Lactobacillus sakei)、弯曲乳杆菌(Lactobacillus curvatus)、戊糖片球菌(Pediococcus pentosaceus)、木糖葡萄球菌(Staphylococcus xylosus)和小牛葡萄球菌(Staphylococcus vitulinus)和它们的混合物。在一些备选的实施方案中,如本领域已知,细菌细胞用于发酵蔬菜(例如胡萝卜、黄瓜、番茄、辣椒和卷心菜),所述细菌细胞包括但不限于植物乳杆菌、短乳杆菌、肠膜明串珠、戊糖片球菌及其混合物。在一些备选的实施方案中,细菌细胞用于发酵从谷物(例如小麦、黑麦、稻、燕麦、大麦和玉米)形成的面团。在一些其他实施方案中,细菌细胞用于产生酒。一般,通过发酵果汁、通常是葡萄汁来实现这个目的。在进一步的实施方案中,如本领域已知,细菌细胞用于发酵乳以产生干酪(例如德氏乳杆菌保加利亚亚种、瑞士乳杆菌、嗜热链球菌、乳酸乳球菌乳酸亚种、乳酸乳球菌乳脂亚种、乳酸乳球菌乳酸亚种双乙酰生物变种(Lactococcus lactis subsp.lactis biovar diacetylactis)、乳球菌属、双歧杆菌属和肠球菌属等及其混合物)。在进一步的实施方案中,如本领域已知,细菌细胞用于卵的发酵(例如戊糖片球菌、植物乳杆菌及其混合物)。在一些其他实施方案中,细菌细胞用在化妆品或药物组合物中。
在一些实施方案中,抗性待调节的细胞是天然地包含一个或多个CRISPR基因座的细菌。已经在超过40种原核生物中鉴定到CRISPR基因座(见上文的Haft等人,2005),所述的原核生物包括但不限于气热菌属、热棒菌属、硫化叶菌、古球状菌属、盐盒菌属、甲烷杆菌属、甲烷球菌属、甲烷八叠球菌属、超高温甲烷菌属、火球菌属、嗜酸古菌属、热原体属、棒杆菌属、分枝杆菌属、链霉菌属、产水菌属、卟啉菌属、绿菌属、栖热菌属、芽孢杆菌属、利斯特氏菌属、葡萄球菌属、梭菌属、高温厌氧杆菌属、支原体属、梭杆菌属、固氮弓菌属、色杆菌属、奈瑟氏球菌属、亚硝化单胞菌属、脱硫弧菌属、地杆菌属、粘球菌属、弯曲杆菌属、沃廉菌属、不动杆菌属、欧文氏菌属、埃希氏菌属、军团菌属、甲基球菌属、巴氏杆菌属、发光杆菌属、沙门氏菌属、黄单胞菌属、耶尔森氏菌属、密螺旋体属和热袍菌属。
亲代细菌菌株
如本文中所用,术语“亲代细菌”和“亲代菌株”指暴露于一个或多个噬菌体的任意细菌/菌株。在一些实施方案中,噬菌体是对亲代细菌菌株有毒力的,而在其他实施方案中,它们是没有毒力的。在一些特别优选的实施方案中,亲代细菌对烈性噬菌体敏感。在一些优选的实施方案中,亲代菌株被噬菌体感染。在一些特别优选的实施方案中,噬菌体的感染使得亲代细菌/菌株或其亚群对该噬菌体进一步感染不敏感。在一些优选的实施方案中,“亲代细菌”被一种或多种噬菌体感染导致标记菌株的产生,其中所述的标记菌株可以基于其对该噬菌体的不敏感性而选择。在一些优选的实施方案中,“噬菌体抗性突变体”是根据本发明方法标识或标记的细菌。在一些实施方案中,亲代细菌是野生型细菌菌株。在一些优选的实施方案中,亲代细菌是先前没有用任何噬菌体感染过的细菌的野生型菌株。在一些优选的实施方案中,亲代细菌是先前没有被标识或标记过的细菌的野生型菌株,而在一些备选的实施方案中,亲代细菌是先前已经标识或标记过的噬菌体抗性突变体。
在一些特别优选的实施方案中,亲代细菌选自天然包含一个或多个CRISPR基因座的任意细菌。如上所示,已经在超过40种原核生物中鉴定到CRISPR基因座(见上文的Haft等人,[2005]),所述的原核生物包括但不限于气热菌属、热棒菌属、硫化叶菌、古球状菌属、盐盒菌属、甲烷杆菌属、甲烷球菌属、甲烷八叠球菌属、超高温甲烷菌属、火球菌属、嗜酸古菌属、热原体属、棒杆菌属、分枝杆菌属、链霉菌属、产水菌属、卟啉菌属、绿菌属、栖热菌属、芽孢杆菌属、利斯特氏菌属、葡萄球菌属、梭菌属、高温厌氧杆菌属、支原体属、梭杆菌属、固氮弓菌属、色杆菌属、奈瑟氏球菌属、亚硝化单胞菌属、脱硫弧菌属、地杆菌属、粘球菌属、弯曲杆菌属、沃廉菌属、不动杆菌属、欧文氏菌属、埃希氏菌属、军团菌属、甲基球菌属、巴氏杆菌属、发光杆菌属、沙门氏菌属、黄单胞菌属、耶尔森氏菌属、密螺旋体属和热袍菌属。
在一些实施方案中,亲代细菌包含一个或多个异源的CRISPR间隔区、一个或多个异源的CRISPR重复序列和/或一个或多个异源的cas基因。在一些备选的实施方案中,亲代细菌包含一个或多个异源的CRISPR基因座,优选一个或多个完整CRISPR基因座。在一些其他实施方案中,亲代细菌天然地包含一个或多个CRISPR基因座并且还包含一个或多个异源的CRISPR间隔区、一个或多个异源的CRISPR重复序列和/或一个或多个异源的cas基因。在一些其它实施方案中,亲代细菌天然地包含一个或多个CRISPR基因座并且还包含一个或多个异源的CRISPR基因座、优选一个或多个完整CRISPR基因座。
在一些优选的实施方案中,通过亲代细菌暴露于至少一种噬菌体所产生的噬菌体抗性亚群是纯培养物。然而,不意图使本发明限于细菌菌株的纯培养物、变体或噬菌体。实际上,意图是本发明包括细胞和噬菌体的混合培养物。在一些实施方案中,所述混合培养物是与相同和/或不同CRISPR基因座处的不同整合事件对应的不同突变体的混合物。
尽管不意图对本发明进行如下限制,不过优选的亲代细菌属是链球菌属和乳杆菌属。实际上,意图在本发明中使用任何细菌物种,所述细菌物种包括但不限于埃希氏菌属、志贺氏菌属、沙门氏菌属、欧文氏菌属、耶尔森氏菌属、芽孢杆菌属、弧菌属、军团菌属、假单胞菌属、奈瑟氏球菌属、博德特氏菌属、螺杆菌属、利斯特氏菌属、农杆菌、葡萄球菌属、链球菌属、肠球菌属、梭菌属、棒杆菌属、分枝杆菌属、密螺旋体属、疏螺旋体属、弗朗西丝菌属、布鲁氏菌属、双歧杆菌属、短杆菌属、丙酸杆菌属、乳球菌属、乳杆菌属肠球菌属、片球菌属、明串珠菌属、酒球菌属和/或黄单胞菌属。在一些实施方案中,亲代细菌是乳酸细菌或从其中衍生,所述的乳酸细菌包括但不限于双歧杆菌属、短杆菌属、丙酸杆菌属、乳球菌属、链球菌属、乳杆菌属(例如嗜酸乳杆菌)、肠球菌属、片球菌属、明串珠菌属和/或酒球菌属。在其他实施方案中,亲代细菌是以下细菌或从其中衍生:乳酸乳球菌(例如乳酸乳球菌乳酸亚种和乳酸乳球菌乳脂亚种和乳酸乳球菌乳酸亚种双乙酰生物变种)、德氏乳杆菌保加利亚亚种、瑞士乳杆菌、嗜酸乳杆菌、干酪乳杆菌、类干酪乳杆菌、唾液乳杆菌、植物乳杆菌、罗伊氏乳杆菌(L.reuteri)、加氏乳杆菌(L.gasseri)、约氏乳杆菌、乳双歧杆菌、婴儿双歧杆菌、长双歧杆菌和/或嗜热链球菌。
在本发明的一些实施方案中,亲代细菌是“食品级细菌”(即,在食物和/或饲料制备和/或生产中使用并认为安全的细菌)。在一些优选的实施方案中,亲代细菌适合用作起子培养物、益生培养物和/或膳食补充剂。在其它的实施方案中,亲代细菌用于发酵肉(包括牛肉、猪肉、羊肉和禽肉),所述的亲代细菌包括但不限于乳酸细菌、啤酒片球菌、植物乳杆菌、短乳杆菌、清酒乳杆菌、弯曲乳杆菌、微球菌属(Micrococcus)物种、戊糖片球菌、木糖葡萄球菌、小牛乳杆菌及其混合物(见例如Knorr(编辑),Food Biotechnology,在第538-39页[1987];和Pederson,Microbiology of Fermented Foods,在第210-34页,第2版,[1979];和美国专利号2,225,783,通过引用的方式并入本文)。在其它的实施方案中,亲代细菌用于发酵蔬菜(例如胡萝卜、黄瓜、番茄、辣椒和卷心菜),所述亲代细菌包括但不限于植物乳杆菌、短乳杆菌、肠膜明串珠、戊糖片球菌及其混合物(见例如上文的Knorr;上文的Pederson;和美国专利号3,024,116、3,403,032、3,932,674和3,897,307)。又在其他施方案中,亲代细菌用于发酵从谷物(例如小麦、黑麦、稻、燕麦、大麦和玉米)形成的面团。在进一步的实施方案中,亲代细菌用于通过发酵果汁(如葡萄汁)产生酒。在一些其它实施方案中,亲代细菌用于乳的发酵(例如德氏乳杆菌保加利亚亚种、嗜酸乳杆菌、嗜热链球菌及其混合物(见,上文的Knorr;和上文的Pederson,在第105-35页)。在一些优选的实施方案中,亲代细菌用于产生干酪,所述亲代细菌包括但不限于德氏乳杆菌保加利亚亚种、瑞士乳杆菌、乳酸乳球菌乳酸亚种、乳酸乳球菌乳脂亚种、乳酸乳球菌乳酸亚种双乙酰生物变种、嗜热链球菌、双歧杆菌属、肠球菌属等及其混合物(见例如上文的Knorr和上文的Pederson,在第135-51页)。又在其他实施方案中,亲代细菌用于卵的发酵,所述亲代细菌包括但不限于戊糖片球菌、植物乳杆菌及其混合物(见,上文的Knorr)。在一些实施方案中,亲代细菌用于发酵以生产多种产品,所述的产物包括切达干酪和农家干酪(例如乳酸乳球菌乳酸亚种、乳酸乳球菌乳脂亚种)、酸奶(德氏乳杆菌保加利亚亚种和嗜热链球菌)、瑞士干酪(例如,嗜热链球菌、乳酸乳杆菌和瑞士乳杆菌)、青纹干酪(乳脂明串珠菌)、意大利干酪(保加利亚乳杆菌和嗜热链球菌)、芬兰传统酸奶(乳酸乳球菌乳脂亚种、乳酸乳球菌乳酸亚种双乙酰生物变种、乳脂明串珠菌)、雅库特(干酪乳杆菌)、干酪素(乳酸乳球菌乳脂亚种)、纳豆(枯草芽孢杆菌纳豆变种)、酒(酒明串珠菌)、清酒(肠膜明串珠菌)、多粘菌素(多粘芽孢杆菌)、黏杆菌素(肉毒芽孢杆菌)、杆菌肽(地衣芽孢杆菌)、L-谷氨酸(乳糖发酵短杆菌和嗜氨小杆菌)和丙酮与丁醇(丙酮丁醇梭菌和Clostridiumsaccharoperbutylacetonicum)。在一些优选的实施方案中,亲代细菌物种选自嗜热链球菌、德氏乳杆菌保加利亚亚种和/或嗜酸乳杆菌。
在其它的实施方案中,亲代细菌用于包括但不限于抗生素生产、氨基酸生产、溶剂生产的方法,和用于产生其他经济上有用的材料。仍然在其他的实施方案中,亲代细菌用于化妆品、治疗用组合物和/或药物组合物中。在一些实施方案中,所述组合物具有特殊活性,所述活性包括但不限于使皮肤再生,这包括但不限于抗皱特性、去除陈旧疤痕、修复烧伤组织、促进皮肤愈合、消除色素斑等。在一些实施方案中,所述组合物促进或抑制指(趾)甲、头发或毛发的生长。在一些其它实施方案中,所述组合物包含了使用本发明的方法和组合物产生的至少一种微生物培养物和/或标记细菌和/或细胞培养物。
在其他实施方案中,亲代细菌是噬菌体不敏感性突变体。因此,在一些实施方案中,亲代细菌对一种或多种噬菌体不敏感。在一些优选的实施方案中,亲代细菌在本发明使用期间对所暴露的噬菌体而言不是噬菌体不敏感性突变体。
起子培养物
起子培养物广泛地在食品工业中用于制造发酵产品,包括乳产品(例如酸奶和干酪)、以及肉产品、焙烘产品、酒和蔬菜产品。
在制造众多发酵乳、干酪和黄油产品中使用的起子培养物包括通常分类为乳酸细菌的细菌的培养物。此类细菌起子培养物通过执行多种功能而赋予多种乳制品特定特征。
细菌的商用非浓缩培养物在工业上称作“母培养物”并且在添加至可食用的原材料(如乳)用于发酵之前,在生产地点(例如奶油干酪制造场)增殖。在生产地点增殖以接种到可食用原材料中的起子培养物称作“生产用起始物(bulk starter)”。
合适用于本发明中的起子培养物包括在食品、化妆品或制药工业中使用的任意生物(即,“工业用培养物”或“工业用菌株”)。
起子培养物通过本领域熟知的技术制备(见例如美国专利号4,621,058,该文献通过引用的方式并入本文)。在一些实施方案中,通过如下方式制备起子培养物,即导入接种物例如细菌至生长培养基(例如发酵培养基或产物)以产生接种的培养基并温育该接种的培养基以产生起子培养物。
干燥的起子培养物通过本领域熟知的技术制备(见例如美国专利号4,423,079和4,140,800)。干燥起子培养物的任何合适形式在本发明中使用,所述的形式包括可湿性、喷雾干燥、冷冻干燥或冻干的固体制品(例如片剂、丸剂、胶囊剂、粉剂、颗粒剂和散剂)。在一些实施方案中,用于本发明中的干燥起子培养物处于深冷丸剂形式或冷冻干燥粉末形式。根据本领域已知的任意合适方法制备处于深冷丸剂形式或冷冻干燥粉末形式的干燥起子培养物。
在一些实施方案中,本发明中使用的干燥起子培养物处于包含极高浓度一种或多种细菌菌株的浓缩物形式。在一些实施方案中,所述浓缩物用水稀释或重悬于水或其他的合适稀释剂(例如适宜的生长培养基、矿物油或植物油)中。根据本领域已知的方法(例如离心、过滤或此类技术的组合)制备浓缩物形式的本发明的干燥起子培养物。
在一些实施方案中,所述起子培养物合适用于乳品工业中。在乳品工业中使用时,该起子培养物往往选自乳酸细菌物种、双歧杆菌属物种、短杆菌属物种、丙酸杆菌属物种。乳酸细菌群组的合适起子培养物包括乳球菌属物种、链球菌属物种、乳杆菌属物种(包括嗜酸乳杆菌)、肠球菌属物种、片球菌属物种、明串珠菌属物种和酒球菌属物种的常用菌株。
乳酸细菌的培养物通常用在制造发酵乳产品(例如酪乳、酸奶或酸奶油)和用在制造黄油和干酪(例如法国布里干酪(brie)或丹麦半硬牛奶干酪(havarti))中。乳球菌属物种包括广泛使用的乳酸乳球菌(Lactococcuslactis),所述乳酸乳球菌包括乳酸乳球菌乳酸亚种和乳酸乳球菌乳脂亚种。
其他乳酸细菌物种包括明串珠菌属物种、嗜热链球菌、德氏乳杆菌保加利亚亚种和瑞士乳杆菌。另外,益生菌株(例如乳球菌属物种)包括广泛使用的乳酸乳球菌,所述乳酸乳球菌包括乳酸乳球菌乳酸亚种和乳酸乳球菌乳脂亚种。
乳酸细菌的嗜温培养物通常用于制造发酵乳产品(例如酪乳、酸奶或酸奶油)和用于制造黄油和干酪(例如法国布里干酪(brie)或丹麦半硬牛奶干酪(havarti))。其它的乳球菌属物种包括乳酸乳球菌乳脂亚种、乳酸乳球菌、明串珠菌属物种、乳酸乳球菌乳酸亚种生物变种(Lactococcus lactissubsp.lactis biovar)、嗜热链球菌、德氏乳杆菌保加利亚亚种和瑞士乳杆菌。另外,在一些实施方案中,在制造期间添加益生菌株如乳双歧杆菌、嗜酸乳杆菌、干酪乳杆菌以增强风味或促进健康。
在制造法国切达干酪和蒙特里干酪干酪(monterey jack cheeses)中通常使用的乳酸细菌培养物包括嗜热链球菌、乳酸乳球菌乳酸亚种和乳酸乳球菌乳脂亚种或其组合。
制造意大利干酪如(帕斯塔菲拉塔干酪(pasta filata)或珀尔梅散干酪(parmesan))中通常使用的乳酸细菌的嗜热培养物包括嗜热链球菌和德氏乳杆菌保加利亚亚种。在制造期间添加其他乳杆菌属物种(例如瑞士乳杆菌)以获得所需的风味。
在一些优选的实施方案中,所述起子培养物的生物包含或由以上乳酸细菌菌株或任何其他起子培养物菌株之一的根据本文中所提供方法制备的基因修饰菌株组成。
选择用于本发明起子培养物的生物将取决于待制备或处理的产物的具体类型。因此,例如对于制造干酪和黄油而言,广泛使用乳球菌属物种、明串珠菌属物种和乳杆菌属物种的嗜温培养物,而对于酸奶和其他发酵乳产品,通常使用链球菌属物种和乳杆菌属物种的嗜热菌株。
在一些实施方案中,起子培养物是干燥的起子培养物、脱水的起子培养物、冷冻的起子培养物或浓缩的起子培养物。在一些实施方案中,该起子培养物用于直接接种发酵培养基或产物中。
在一些实施方案中,起子培养物包含纯培养物(即,仅包含一种细菌菌株)。在一些备选的实施方案中,该起子培养物包含混合的培养物(即,包含至少两种不同的细菌菌株)。
乳酸细菌
用于本发明中的特别合适的起子培养物,尤其干燥的起子培养物包含乳酸细菌。
如本文中所用,术语“乳酸细菌”指发酵糖伴有产生酸的革兰氏阳性、微需氧性或厌氧性细菌,所述的酸包括作为优势酸产生的乳酸、乙酸、甲酸和丙酸。工业上最有用的乳酸细菌存在于乳球菌属物种(如乳酸乳球菌)、乳杆菌属物种、双歧杆菌属物种、链球菌属物种、明串珠菌属物种、片球菌属物种和丙酸杆菌属(Propionibacterium)物种。
本发明的起子培养物可以包含一个或多个乳酸细菌物种,如乳酸乳球菌、德氏乳杆菌保加利亚亚种和嗜热链球菌或其组合。
乳酸细菌起子培养物通常在食品工业中作为包含一个或多个物种的混合菌株培养物使用。对于众多的混合菌株培养物,如包含菌株德氏乳杆菌保加利亚亚种和嗜热链球菌的酸奶起子培养物,物种之间存在共生关系,其中与单一菌株乳酸细菌的培养物相比较,乳酸的产生更多(见例如Rajagopal等人,J.Dairy Sci.,73:894-899[1990])。
产品
用于本发明中的合适产品包括但不限于食品、化妆产品或药物产品。根据本发明构思了从培养物制备或包含该培养物的任何产品。这些产品包括但不限于水果、豆类和蔬菜(包括衍生产品)、谷物和谷物衍生产品、乳制品和乳制品衍生的产品、肉、家禽、海鲜、化妆品和药物产品。
术语“食物”在最广泛的含义上使用并且包括饲料、食料、食物成分、食品补充剂和功能食品。
如本文中所用,术语“食物成分”包括添加或可以添加至食物的配方并且包括可以在需要例如酸化或乳化的多种产品中以低水平使用的配方。
如本文中所用,术语“功能食品”意指不仅能够提供营养作用和/或滋味满足,还能够向消费者传送其他有益作用的食物。尽管不存在功能食品的法律定义,本领域中的大部分利益团体认同因具有特定健康作用而销售的食物。
术语“食物”包括人的食物以及动物的食物(即饲料)。在优选的方面,该食物用于人类消费。
在一些实施方案中,本文中所述的细胞包含于或被添加至食物成分、食品补充剂或功能食品。在一些实施方案中,该食物是液体形式(例如溶液)、凝胶、乳液或固体,这一点由施加和/或施用模式所要求。
本文中所述的细胞用于制备如下一个或多个食品:糖果产品、乳制品、肉产品、禽产品、鱼产品和焙烘产品。在一些实施方案中,该细菌作为成分用于软饮料、果汁、包含乳清蛋白的饮料、保健茶、可可饮料、乳饮料、乳酸细菌饮料、酸奶、饮用酸奶和酒等。
也提供制备食物的方法,该方法包括将本发明的细胞与食物成分(如用于食物的原料)混合。用于制备食物的方法也是本发明的另一个方面。
适宜地,如本文中所述的食品是乳制品。在一些优选的实施方案中,该乳制品是酸奶、干酪(例如酸凝乳干酪、硬干酪、半硬干酪、酪农干酪等)、酪乳、粗制脱脂酸奶干酪(quark)、酸性稀奶油、克菲尔酸牛乳酒(kefir)、法式酸奶油(crème fraiche)、基于乳清蛋白的发酵饮料、马奶酒、乳饮料或酸奶饮料。
如本文中所用,术语“食物”是含义极广泛的,因为它意图包括人的食物以及动物的食物(即饲料)。在一些优选的实施方案中,食物用于人类消费。如本文中所用,术语“饲料”包括原始和加工的植物材料和非植物材料。该术语包括适于动物消费的任何饲料,所述的动物包括但不限于家畜、禽、鱼、甲壳动物和/或宠物。
噬菌体抗性菌株和起子培养物的开发
在研发本发明期间,已经阐明了涉及CRISPR-cas基因的噬菌体抗性,及它们在抗输入外来DNA抗性中的作用以及插入在CRISPR内部的间隔区在这种抗性的特异性中的作用。重要地,本发明提供了用于开发噬菌体抗性菌株和起子培养物的方法和组合物。在这些实施方案中,使亲代菌株“A”暴露于噬菌体“P”并选择噬菌体抗性变体(变体“A1.0”)。分析变体“A1.0”(例如通过PCR和/或DNA测序)以证实CRISPR基因座内存在额外插入的间隔区。随后测定该额外间隔区(间隔区Sp1.0)的核苷酸序列。一般地,间隔区Sp1.0是来自噬菌体P的大小大约30个核苷酸的片段,并且赋予针对噬菌体P和相关噬菌体(“相关噬菌”是在其基因组中含有该间隔区序列的那些噬菌体,并且定义了一个噬菌体科)抗性。
独立于第一种噬菌体暴露,使相同亲代菌株A暴露于相同的噬菌体P并且选出第二种噬菌体抗性变体(变体A2.0)。选择变体A2.0旨在也具有插入CRISPR基因座内的额外间隔区(间隔区Sp2.0),但是间隔区Sp2.0的序列与间隔区Sp1.0的序列不同。一般地,间隔区Sp2.0是来自噬菌体P的大小大约30个核苷酸的片段,并且赋予针对噬菌体P和相关噬菌体的抗性。类似地,在一些实施方案中,通过使相同菌株A暴露于相同的噬菌体P产生了变体A3.0至变体Ax.0。选择全部“A”变体,旨在也具有插入CRISPR基因座内的额外间隔区(间隔区Sp3.0至Spx.0),但是全部“Sp”间隔区的序列彼此相互不同。一般地,“Sp”间隔区是来自噬菌体P的大小大约30个核苷酸的片段,并且它们均产生针对噬菌体P和相关噬菌体的抗性。
尽管这些变体是有用的,然而就其抗性的范围而言,它们是有限的。因此,在一些实施方案中,有利的是开发第二水平噬菌体抗性菌株。实际上,有利的是通过增加和扩展它们针对噬菌体的抗性而进一步开发出这些噬菌体抗性变体。一般地,可以估计抗性的水平将大约是在噬菌体基因组中对应于间隔区的序列内出现的单一突变的水平(即大致10-4至10-6)。因此,在CRISPR基因座内累积不同间隔区的噬菌体抗性菌株对于在噬菌体基因组中含有这些间隔区的序列的噬菌体具有提高的抗性水平(即因为要求在该噬菌体基因组内出现多个单一突变)。
在一些实施方案中,第二水平变体以如下方式产生,即通过使变体A1.0暴露于噬菌体P而分离突变噬菌体。一般,这种突变噬菌体(噬菌体P1.0)在其基因组中含有间隔区Sp1.0序列的区域内具有突变(缺失、点突变等)。变体A1.0对噬菌体P1.0敏感。随后,使变体A1.0暴露于噬菌体P1.0并选择噬菌体抗性变体(变体A1.1)(见图15)。还选择变体A1.1,从而该变体具有插入CRISPR基因座内的额外间隔区(间隔区Sp1.1),但是间隔区Sp1.1的序列与间隔区Sp1.0、Sp2.0至Spx.0的序列不同。一般地,间隔区Sp1.1是来自噬菌体P1.0的大小大约30个核苷酸的片段,并且将赋予针对噬菌体P1.0和相关噬菌体的抗性。变体A1.1抵抗噬菌体P1.0并优选地具有针对噬菌体P的提高抗性,原因是间隔区Sp1.0和Sp1.1的积累。
在其它的实施方案中,通过使变体A1.1暴露于噬菌体P1.0而产生新突变的噬菌体(噬菌体P1.1)。随后,在变体A1.1暴露于噬菌体P1.1后,获得含有一个新的额外间隔区(Sp1.2)的新变体A1.2。该间隔区赋予针对噬菌体P1.1的抗性并且优选地提高针对噬菌体P1.0和P的抗性(即,因间隔区Sp1.0、Sp1.1、Sp1.2积累所致)。又在其它的实施方案中,在菌株A中借助变体A1,随后变体A1.1,然后变体A1.2等反复积累不同的间隔区(例如2、3或4个)以获得高度抵抗噬菌体的变体(变体A1.n)。在进一步的实施方案中,可以在相同菌株中借助变体A2,随后变体A2.1,然后变体A2.2等积累额外的不同间隔区以平行地获得菌株A的另一种高度抵抗噬菌体的变体(变体A2.n)。将相同的策略用于变体A3.0至Ax.0。
在一些实施方案中,提供了抵抗多于一个噬菌体科的菌株。因为给定菌株可以对多于一个噬菌体科敏感,因而在一些实施方案中,希望通过在CRISPR基因座内导入源自其余噬菌体科的额外间隔区而扩大菌株针对多个噬菌体科的抗性(见图16)。例如,噬菌体P、Q和R是能够感染菌株A的三个噬菌体科的代表性噬菌体。使用以上和本文中概述的方法,产生了抵抗全部三个噬菌体科的变体。在一些实施方案中,噬菌体P用来产生抵抗噬菌体P的变体A1p(含有间隔区Sp1)。随后,使变体A1p暴露于噬菌体Q并且选出噬菌体抗性变体(变体A1pq)。变体A1pq具有插入CRISPR基因座内的一个额外间隔区(Sq1)。一般地,间隔区Sq1是来自噬菌体Q的大小大约30个核苷酸的片段,并且赋予针对噬菌体Q和相关噬菌体的抗性。变体A1pq抵抗P和Q噬菌体。接下来,使变体A1pq暴露于噬菌体R并且选出噬菌体抗性变体(变体A1pqr)。变体A1pqr具有插入CRISPR基因座内的第三额外间隔区(Sr1)。一般地,Sr1是来自噬菌体R的大小大约30个核苷酸的片段,并且也赋予针对噬菌体R和相关噬菌体的抗性。变体A1pqr抵抗全部三种噬菌体。在一些特别优选的实施方案中,该变体也抵抗相关噬菌体。
在其它的实施方案中,组合使用以上方法来产生提高和扩展的噬菌体抗性。在一些特别优选的实施方案中,这些变体具有针对多个噬菌体家族的高度抗性。在进一步的实施方案中,产生了这样的菌株,其抵抗在具体工厂和/或发酵罐中造成问题的特定噬菌体或噬菌体科。
CRISPR介导的免疫性和噬菌体抗性菌株的应用
与假设CRISPR或CRISPR间隔区可能涉及赋予特异免疫性的本领域现有技术的教导相反,本发明部分地基于出乎意料的如下发现结果:cas基因或蛋白是针对靶核酸或其转录产物的免疫所需要的。然而,不意图使本发明限于任何特定机制、功能及作用方式。
甚至更出人意料地,在研发本发明期间,发现一个或多个cas基因或蛋白与CRISPR基因座内的两个或多个CRISPR重复序列关联。换句话说,cas基因或蛋白似乎对给定的DNA CRISPR重复序列是特异的,这意味cas基因或蛋白和重复序列形成功能性配对。因此,一个或多个CRISPR间隔区可与一个或多个这些功能性配对(即CRISPR重复序列和cas基因)一起使用以调节细胞针对靶核酸或其转录产物的抗性。
在一个实施方案中,对于赋予免疫性至细胞的一个或多个CRISPR间隔区而言,CRISPR重复序列和cas基因或蛋白形成功能性组合(即,CRISPR重复序列和cas基因或蛋白是相容的)。
在额外的优选实施方案中,本发明提供了影响细菌对噬菌体的抗性的cas基因/蛋白。在额外的其他优选实施方案中,本发明提供了用于预测、确定和/或修饰细菌针对噬菌体的抗性的至少两个CRISPR重复序列和至少一个cas基因/蛋白。实际上,本发明提供了用于修饰细菌溶菌型(即针对多种噬菌体的抗性/敏感性)的方法。因此,鉴定和检测细胞和噬菌体中的CRISPR基因座提供了确定、预测和修饰细胞抗性谱以及噬菌体-宿主相互作用的方法。
有利地,一个或多个CRISPR基因座、两个或多个CRISPR重复序列、一个或多个cas基因或蛋白和/或一个或多个CRISPR间隔区在基因工程中的应用提供了方法以产生在生物技术工业的多种应用中使用的细胞的抗性或敏感变体。
如下文更详细地讨论,噬菌体是可以在发酵期间发育的细菌的天然寄生者。一旦被噬菌体感染,则细菌被杀死,这破坏了发酵过程。在乳品发酵中,这些噬菌体感染常常产生重大的经济影响,从降低发酵产物质量直至该产物彻底损失。
为克服噬菌体问题,起子培养物公司已经开发了多种策略。传统的起子培养物程序依赖于噬菌体防御轮换策略(PDRS)以使得因噬菌体侵袭所致的失败最小化(见例如Klaenhammer,Adv.Appl.Microbiol.,30:1[1984];Lawrence等人,J.Dairy Res.43:141[1976)以及Whitehead和Hunter,J.Dairy Res.,15:112[1947])。这些策略依赖于可能展示不同噬菌体敏感性谱(即不同溶菌型)的多种遗传上不相关的菌株。当噬菌体在使用定义菌株的发酵过程期间出现时,理想地是具有不同溶菌型(即,具有不同的噬菌体敏感模式)的菌株替换地用于该发酵。然而,历史已经证明难以鉴定足够数量的不同溶菌型以成功地采用这些策略。实际上,众多工业目的菌株展示出稀有的功能性状(例如,可快速酸化、组织化的嗜热链球菌)。另外,并非全部菌株均展示适宜性状以作为起子培养物产生。此外,因为其稀有性和乳品工厂规模增加,这些菌株被广泛地使用。
传统的起子培养物轮换策略存在额外的问题。虽然一些菌株在导入时不受已存在的噬菌体侵袭,然而噬菌体往往最终还是出现,原因是侵袭新导入菌株的噬菌体突变、修饰和累积(见例如,Heap和Lawrence,N.Z.J.Dairy Sci.Technol.,11:16[1976];Limsowtin和Terzaghi,N.Z.J.Dairy Sci.Technol.,11:251[1976];Pearce,N.Z.J.Dairy Sci.Technol.,13:166[1978]以及Sanders和Klaenhammer,Appl.Environ.Microbiol.,40:500[1980])。另外,在众多情况下,复杂菌株轮换的寿命和起子活性是不可预测的并且经常导致早期失败(见例如,Limsowtin等人,N.Z.J.Dairy Sci.Technol.,13:1[1977];和Thunell等人,J.Dairy Sci.,64,2270[1981])。此外,涉及众多菌株的延续轮换提高了污染工厂的噬菌体的水平和多样性(见例如Heap和Lawrence,N.Z.J.Dairy Sci.Technol.,12:213[1981];Lawrence等人,J.Dairy Sci.,61:1181[1978];和Thunell等人,J.Dairy Sci.64,2270[1981])。
为了对付噬菌体增殖,传统的起子培养物程序依赖于使用具有相同或相似技术功能性但不同噬菌体敏感性的菌株。菌株轮换使用以进行连续发酵。这些程序在传统上依赖于结果会展示不同噬菌体敏感性(溶菌型)谱的多种遗传上不相关的菌株。备选方法(见例如美国专利号5,593,885)使用起子培养物程序,其中所述的起子培养物程序基于展示不同噬菌体敏感性的同基因菌株组,而不是展示不同溶菌型的遗传上不相关菌株。如本文中所用,术语“等基因菌株组(set of isogenic strains)”定义了这样的菌株,其中从染色体的角度看,所述菌株是相同的,但是每种菌株因存在质粒来源的一个或多个噬菌体抗性机制而不同。在这种起子培养物轮换程序中,当噬菌体在使用定义菌株的发酵过程期间出现时,理想地是具有不同溶菌型(即,具有不同的噬菌体敏感性谱)的菌株替换地用于该发酵。因为这种不同的溶菌型,所述第二菌株不受环境中蛰伏的噬菌体影响。若该系统如预期那样有效的话,大部分的蛰伏噬菌体群体随后因后续发酵和清洁措施被洗掉,并且当第一菌株再次用于发酵时被根除。
本发明提供了适于解决发酵工业中这些问题的方法和组合物。实际上,本发明提供了用于发酵工业和尤其乳品工业的方法和组合物,其选择适于满足噬菌体防御轮换策略要求的菌株。另外,本发明提供了适于定制具有适应特定噬菌体环境的溶菌型的菌株的方法和组合物。具体而言,本发明提供了适于这样的方法和组合物,所述的方法和组合物适于指导给定菌株向多种溶菌型进化,以产生仅噬菌体敏感性谱(溶菌型)不同而相互不同的菌株。如本文中所述,溶菌型的这种差异是CRISPR-cas系统的功能。在一些优选的实施方案中,不同的溶菌型通过“调节”噬菌体抗性获得。在一些特别优选的实施方案中,尽管溶菌型是不同的,然而这种类型的菌株具有相同的代谢(例如碳、氮等的代谢等)并且因此具有相同的功能性(例如,酸化、风味、质地等)。这提供了用于放大起子轮换构建的手段。另外,噬菌体抗性菌株的工业加工性能是相同的(例如,营养需要、加工操作抗性等),因而减少了开发特定生产工艺的要求。实际上,本发明提供了适于将因噬菌体侵袭所致的发酵失败最小化的方法和组合物。在一些实施方案中,提供了用于通过联合因溶菌型而不同的多种噬菌体抗性菌株,产生高度抵抗噬菌体的起子培养物的方法和组合物。在一些备选的实施方案中,提供了方法和组合物以产生待用于轮换乳品发酵中的具有严格相同的工业功能性的起子培养物。在其他实施方案中,提供了这样的方法和组合物,所述的组合物和方法适于通过导入抵抗乳品厂中常见噬菌体侵袭的新细菌菌株,防止参与这些噬菌体侵袭的噬菌体而替换现有的起子培养物。在一些实施方案中,反复地使用这些方法和组合物,旨在对付依次的噬菌体侵袭。
在一些其它实施方案中,起子培养物是混合的细菌培养物。在一些特别优选的实施方案中,该起子培养物包含等量的仅因其CRISPR和其噬菌体敏感性而不同的多种(即至少2种)噬菌体抗性变体。在一些实施方案中,这些变体属于第一水平的噬菌体抗性变体(如上文所述,例如变体A1.0加A2.0)。在一些优选的实施方案中,所述变体选自处在第二水平的噬菌体抗性变体(如上文所述,例如变体A1.4加A2.4)中的那些变体。在一些特别优选的实施方案中,所述变体选择自第三水平的噬菌体抗性变体。在此类混合的细菌培养物中,当所述变体之一受给定噬菌体侵袭时,其余变体因其不同的噬菌体敏感性而不受该噬菌体侵袭,并且发酵没有受到不利影响。
在一些其他实施方案中,使用主要起子培养物和备份起子培养物。这种主要起子培养物由单一菌株构成。在一些实施方案中,该菌株属于第一水平的噬菌体抗性变体,而在其他优选的实施方案中,该菌株属于第二水平,并且仍在其他更优选的实施方案中,该菌株属于第三水平。在一些优选的实施方案中,备份起子培养物基于从相同的亲代菌株中独立获得的噬菌体抗性变体。该第二种噬菌体抗性变体因其CRISPR而不同于其余变体并且属于第一水平的噬菌体抗性变体,而在其他优选的实施方案中,该菌株属于第二水平,并且仍在其他更优选的实施方案中,该菌株属于第三水平。例如,在一些实施方案中,主要起子培养物由变体A1.4制成,并且备份起子培养物由菌株A2.4制成。当发酵期间噬菌体随主要起子培养物首次出现后,将这种起子培养物抛弃并以备份起子培养物替换。在一些更优选的实施方案中,还制备第三起子培养物作为备份起子培养物,所述的第三起子培养物将充当该备份起子培养物的备份。在一些优选的实施方案中,所述起子分别由多种噬菌体抗性变体制成。
在另外的其他实施方案中,本发明提供了适于轮换策略的方法和组合物。在一些实施方案中,作为抛弃常受噬菌体侵袭的起子的替代,以循环方式使用所述起子,即便观察到噬菌体侵袭。该策略限制了待开发的起子的数目。在一些特别优选的实施方案中,所述起子分别由多种噬菌体抗性菌株而非单一噬菌体抗性菌株制成。这提供了针对新出现的噬菌体的耐用性提高。在进一步的实施方案中,提供了定制的起子。在一些优选的实施方案中,产生噬菌体抗性变体以专门对付在给定发酵工厂或设施内存在的噬菌体。
分型
在本发明的又一方面,提供用于鉴定(例如分型)标记细菌的方法。
在一个实施方案中,通过扩增(例如PCR扩增)CRISPR基因座或其部分开展鉴定步骤。
可以设计第一引物以与位于CRISPR基因座的第一CRISPR重复序列的上游的序列杂交。例如,第一引物可以与CRISPR基因座的共同前导序列的一部分杂交。又例如,第一引物可以与位于CRISPR基因座上游的相邻基因杂交。
第二引物可以距离第一CRISPR间隔区或至少第一CRISPR间隔区核心下游杂交。第二引物可以在远至非转录尾区内或甚至在下游相邻基因中杂交。优选地,第二引物在CRISPR基因座内杂交。优选地,第二引物至少部分地与下游CRISPR间隔区或CRISPR间隔区核心杂交。
扩增后,可以使用本领域已知的多种方法鉴定标签序列。
例如,可以通过确定扩增产物的限制性模式鉴定标签序列。因此,一旦已经扩增包含CRISPR基因座或其部分的DNA,可以用一个或多个限制性酶消化(例如切割)该DNA。
如本文中所用,术语“限制性酶”指均在特定核苷酸序列处或其附近切割双链DNA的酶(例如细菌酶)。限制性酶是本领域熟知的并且可以轻易地获得,例如从多个商业来源(例如,New England Biolabs,Inc.,Beverly,Massachusetts)获得。类似地,使用限制性酶的方法通常也是本领域熟知且例行的。可以使用在切割CRISPR基因座或其部分时产生10-24个DNA片段的限制性酶。此类酶的实例包括但不限于AluI、MseI和Tsp5091。使用限制性酶获得的DNA片段可以例如作为条带通过凝胶电泳进行检测。限制性酶可以用来产生限制性片段长度多态性(RFLP)。
RFLP通过用限制性核酸内切酶切割(“限制”)DNA分子产生。上百种此类酶已经如同细菌天然产生的那样被分离。本质上,细菌使用此类酶作为防御系统来识别并随后切割(限制)可能进入细胞(例如病毒感染)的任意外来DNA分子。已经发现上百种不同限制性酶的每一种酶在组成全部DNA分子的4种碱性核苷酸(A、T、G、C)的不同序列处切割(“切开”或“限制”)DNA,例如,一种酶可能特异地并且仅仅识别序列A-A-T-G-A-C,而另一种酶可能特异地并且仅仅识别序列G-T-A-C-T-A等。取决于所涉及的独特酶,此类识别序列的长度可以变化,从少至4个核苷酸至多达21个核苷酸。识别序列越大,将产生越少的限制性片段,因为识别位点越大,该序列在整个DNA中重复的概率越低。
又例如,可以通过确定扩增产物或还通过确定扩增产物大小的差异来鉴定标签序列。
可以通过适于分离DNA的任意方法实现分离,所述的方法包括但不限于凝胶电泳法、高效液相色谱法(HPLC)、质谱法和使用微流体装置。在一个实施方案中,扩增产物或DNA片段通过琼脂糖凝胶电泳法分离。凝胶电泳法借助不同大小的带电荷分子在电流影响下运动穿过固定相凝胶的速率而将这些分子分离。可以容易地看到这些分开的扩增产物或DNA片段,例如通过用溴乙啶染色并在紫外线照射下观察该凝胶。带型反映了限制性消化的DNA或扩增产物的大小。
又例如,可以通过对扩增产物测序来鉴定标签序列。
扩增产物的序列可以通过本领域已知的任意方法获得,所述的方法包括自动测序法和手工测序法。见,例如Sambrook等(1989)Molecularcloning:A Laboratory Manual(第2版,Cold Spring Harbor LaboratoryPress,Plainview,New York;Roe等(1996)DNA Isolation and Sequencing(重要技术丛书,John Wiley&Sons)。
使用核酸分子作为探针,或使用能够与特定核苷酸序列杂交的核酸分子的杂交方法也属于本发明的范围。见,例如Sambrook等(1989)Molecular cloning:ALaboratory Manual(第2版,Cold Spring HarborLaboratory Press,Plainview,New York)。
在杂交技术中,杂交探针可以是基因组DNA片段、PCR扩增产物或其他寡核苷酸,并且可以包含已知核苷酸序列的全部或部分。另外,它可以用可检测基团(如32P)或任何其他可检测标记物(如其他放射性同位素、荧光化合物、酶、或酶辅助因子)标记。就探针而言,术语“标记”意图包括通过将可检测物质偶联(即物理连接)至探针而直接标记该探针,以及通过与被间接标记的另一种试剂的反应性而间接地标记该探针。间接标记的实例包括用生物素对DNA探针的末端标记,从而该DNA探针可以用荧光标记的链亲和素检测。
还包括了包括检测或区分细菌菌株的杂交技术在内的方法。这些方法包括但不限于DNA印迹(见,例如Van Embden等(1993)J.Clin.Microbiol.31:406-409)、迁移运动测定法(见,例如美国公开申请号20030219778)、使用寡核苷酸阵列的测序测定法(见,例如Pease等(1994)Proc.Natl.Acad.Sci.USA 91:5022-5026)、间隔区寡核苷酸分型(spoligotyping)(见,例如,Kamerbeek等(1997)J.Clin.Microbiol.35:907-914)、荧光原位杂交(FISH)(见,例如,Amann等(1990)J.Bacteriol. 172:762-770)和异双链体追踪测定或异双链体移动分析(见,例如,White等(2000)J.Clin.Micro.38:477-482)。
鉴定的标签序列可以与噬菌体序列数据库和/或细菌序列数据库比较。一般地,该标签序列将与噬菌体序列数据库中而非与细菌序列数据库中的一个或多个序列匹配。
当使用本文中所述的方法制备新的标记细菌时,可以产生允许特异性鉴定已经被标记的细菌的标记数据库。
在一个方面,提供了从噬菌体获得或可获得的序列用于标记和/或鉴定细菌的用途(例如在制造标记细菌中),其中所述的序列整合在亲代细菌的CRISPR基因座的一端。
在又一方面,提供从噬菌体获得或可获得的序列用于标记和/或鉴定细菌的用途(例如在制造标记细菌中),其中所述的序列包含(i)与所述细菌的CRISPR基因座中的CRISPR重复序列同源(例如同一)的至少一个序列;和(ii)标签序列。
在又一方面,提供了序列(例如在制造标记细菌中)用于标记和/或鉴定细菌的用途,其中所述序列通过如下方式获得或可获得:(a)使亲代细菌暴露于噬菌体;(b)选择噬菌体不敏感性突变体;(c)比较来自亲代细菌和所述噬菌体不敏感性突变体的CRISPR基因座或其部分;和(d)在所述噬菌体不敏感性突变体的CRISPR基因座或其部分中选择在亲代细菌中不存在的序列。
CRISPR和真核生物
如本文中详述,已经证实CRISPR在原核生物中提供针对输入性核酸的抗性。具体地,已经证实与病毒DNA(例如噬菌体核酸)显示同源性的CRISPR间隔区提供针对病毒的抗性,其中所述的病毒与至少一个间隔区序列共有序列同一性。然而,还构思了针对目前还不含CRISPR基因座的细胞的CRISPR系统(包括cas基因和/或蛋白以及间隔区、重复序列、前导序列和非转录尾区)将用于从头提供针对核酸的抗性。实际上在一些实施方案中,此类操作用于多种真核生物,包括但不限于人类、其他动物、真菌等。构思了使用本领域已知的任意合适方法(包括但不限于通过质粒的转化法)将CRISPR系统转移到真核细胞中。在这些实施方案中,在质粒DNA中包含CRISPR基因座以及必要的转录/翻译信号,均用于该序列在真核细胞中的表达和功能。
在一些其它实施方案中,如下设计间隔区序列,从而它们与感染所涉及宿主的目的病毒序列具有同一性。在一些优选的实施方案中,这些方法和组合物向宿主细胞提供针对病毒的抗性,其中所述的病毒与导入细胞的CRISPR间隔区共有序列同一性。在一些特别优选的实施方案中,所述病毒包括但不限于HIV、正粘病毒、副粘病毒、假粘病毒(pseudomyxoviruse)、RSV、流感病毒、麻疹病毒、水痘病毒、风疹病毒、冠状病毒、肝炎病毒、嵌杯病毒、痘病毒、疱疹病毒、腺病毒、乳多空病毒、乳头瘤病毒、肠病毒、虫媒病毒、狂犬病毒、砂粒样病毒、虫媒病毒、鼻病毒、呼肠孤病毒、冠状病毒、呼肠孤病毒、轮状病毒、逆转录病毒等。在其他实施方案中,特异地靶向CRISPR间隔区中高度保守的核酸序列导致真核细胞中针对此类病毒的抗性提高。在一些特别优选的实施方案中,所述真核细胞是人细胞。
CRISPR和噬菌体抗性突变体的产生
在研发本发明期间,开展实验以确定CRISPR基因座在天然产生噬菌体抗性突变体期间是否改变。选择噬菌体-宿主模型系统,所述的模型系统由乳品工业中广泛使用的噬菌体敏感的野生型嗜热链球菌菌株DGCC7710(WT)和从工业酸奶样品分离的两种不同但亲缘密切的烈性噬菌体(即噬菌体858和噬菌体2972)组成(Levesque等人,Appl.Environ.Microbiol.,71:4057[2005])。通过用噬菌体858、噬菌体2972或同时用这两种噬菌体攻击野生型菌株而独立地产生9种噬菌体抗性突变体,并且分析它们的CRISPR基因座。在CRISPR1基因座中一致地观察到差异,其中1至4个额外间隔区靠近野生型菌株中的32个间隔区处插入(见图9)。应答于噬菌体感染时新间隔区的添加似乎偏向于CRISPR1基因座的一端。这与在多种菌株中CRISPR基因座的前导序列末端处间隔区超变性的先前观察结果(见例如Pourcel等人,Microbiol.,151:653[2005]和Lillestol等人,Archaea 2:59[2006])相一致。对插入多种噬菌体抗性突变体的CRISPR1基因座中的额外间隔区的序列分析揭示了与攻击所用噬菌体的基因组中存在的序列的相似性。在整个噬菌体基因组范围内,在大部分功能性模块(在编码链和非编码链上)中观察到相似性。似乎没有专门地以特定序列、基因或功能组为靶标。这些结果表明在变得抵抗噬菌体后,CRISPR1基因座通过整合显然从噬菌体DNA衍生的新间隔区而受到修饰。然而,不意图使本发明限于任何具体机制。
出人意料地,观察到一些菌株抵抗两种噬菌体而其他菌株仅抵抗攻毒中所用的噬菌体(见图9)。噬菌体抗性谱似乎与间隔区内容物相关,因而具有对两种噬菌体中的保守序列显示100%同一性的间隔区(如间隔区S3、S6和S7)的菌株抵抗两种噬菌体。相反,在间隔区与噬菌体序列(在29或30个核苷酸范围内从1至15个SNP)之间观察到核苷酸多态性时,该间隔区似乎不提供抗性,如间隔区S1、S2、S4、S5和S8(见图9)。
另外,当插入几个间隔区(S9-S14)时,噬菌体抗性水平较高。这些研究结果表明CRISPR1基因座易遭受由噬菌体暴露推动的动态和快的进化改变。这些结果表明实际上CRISPR基因座可以在产生噬菌体抗性突变体期间被改变并且可以建立CRISPR内容物与噬菌体敏感性之间的联系。因此,认为与噬菌体序列相同的CRISPR间隔区的存在提供了针对含有这种特定序列的噬菌体的抗性。
为确定CRISPR间隔区内容物是否定义噬菌体抗性,CRISPR1基因座通过添加和缺失间隔区进行改变,并且测试了针对噬菌体的菌株敏感性。使用本领域已知的方法产生全部构建体并将它们整合到嗜热链球菌染色体中(例如Russell和Klaenhammer,Appl.Environ.Microbiol.,67:4361[2001])。将菌株WTΦ858 +S1S2的CRISPR1基因座中的间隔区和重复序列除去并替换为没有任何间隔区的单个重复序列。所得菌株WTΦ858 +S1S2ΔCRISPR1对噬菌体858敏感,表明原初的噬菌体抗性突变体(WTΦ858 +S1S2)的噬菌体抗性可能与S1和S2的存在有关(见图10)。
另外,为确定添加间隔区是否提供新的噬菌体抗性,将菌株WTΦ2972 +S4的CRISPR1基因座替换为仅含间隔区S1和S2的形式。随后测试所得构建体的噬菌体敏感性。所得菌株WTΦ2972 +S4::pS1S2获得针对噬菌体858的抗性,表明这两个间隔区具有从头提供噬菌体抗性的能力(见图10)。这些观察到的修饰作用建立了CRISPR间隔区内容物与噬菌体抗性之间的联系。
在产生菌株WTΦ858 +S1S2ΔCRISPR1的过程中,产生了含有整合载体的变体WTΦ858 +S1S2::pR,其中所述的整合载体具有在cas基因与天然CRISPR1基因座之间插入的单个重复序列(见图10)。出乎意料地,菌株WTΦ858 +S1S2::pR对噬菌体858敏感,尽管间隔区S1和S2仍在染色体上存在(见图10)。类似地,WTΦ2972 +S4::pS1S2构建体丢失对噬菌体2972的抗性,尽管间隔区S4存在于染色体上(见图10)。这些结果表明单靠间隔区无法提供抗性,并且也许它们不得不处在特定的遗传环境中以发挥作用。
虽然早期实验提出参与DNA修复(Makarova等人,Nucl.Acids Res.,30:482[2002]),现今假说是:cas基因(Jansen等人,Mol.Microbiol.,43:1565[2002];和Haft等人,PloS Comput.Biol.,1:e60[2005])参与了CRISPR介导的免疫性(Makarova等人,Biol.Direct.1:7[2006])。在额外的实验中,使菌株WTΦ858 +S1S2中的两个cas基因即cas5(COG3513)和cas7失活,所述的两个cas基因分别等同于str0657/stu0657和str0660/stu0660(见,Bolotin等人,Nat.Biotechnol.,22:1554[2004];和Bolotin等人,Microbiol.,151:2551[2005])。cas5失活导致噬菌体抗性丢失(见图10)。另外,有可能Cas5作为核酸酶发挥作用,因为它含有HNH型核酸酶基序。相反,cas7失活不改变针对噬菌体858的抗性(见图10)。然而,不意图使本发明限于任何特定机制。另外,旨在从cas7敲除中产生CRISPR1噬菌体抗性突变体的实验没有起作用。虽然不意图使本发明限于任何特定机制,然而这可能是因为Cas7参与新间隔区和额外重复序列的合成和/或插入。
在测试噬菌体抗性突变体的敏感性后,发现蚀斑形成大幅度减少,但是一个相对小的噬菌体群体仍保留感染该突变体的能力。进一步分析从噬菌体858衍生的保留感染WTΦ858 +S1S2能力的噬菌体变体。特别地,研究两种烈性噬菌体变体中与额外间隔区S1和S2对应的基因组区的序列。在这两种情况下,将噬菌体变体的基因组序列突变并且在对应于间隔区S1的序列中鉴定到两个不同的单核苷酸多态性(见图13)。
总体而言,原核生物似乎演化了一种基于核酸的“免疫性”系统,其中特异性由CRISPR间隔区内容物决定,而抗性由Cas酶装置提供。另外,推测不直接提供抗性的某些cas基因作为适应性“免疫”应答的一部分,实际地参与额外CRISPR间隔区和重复序列的插入。这种基于核酸的系统与真核生物中基于氨基酸的对应系统形成对比,其中适应免疫性是不可遗传的。CRISPR间隔区的这种可遗传性质支持CRISPR基因座作为靶标用于进化、分型和比较基因组研究的用途(见,上文的Pourcel等;Groenen等人,Mol.Microbiol.,10:1057[1993];Mongodin等人,J.Bacteriol.,187:4935[2005];和DeBoy等人,J.Bacteriol.,188:2364[2006])。因为这种系统对噬菌体环境有反应,它可能在原核生物进化和生态中发挥重要作用并且提供了了解噬菌体暴露的历史视角以及噬菌体敏感性的预测工具。然而,不意图使本发明限于任何特定机制。尽管如此,本发明提供了使用CRISPR/cas系统作为病毒防御手段并且还潜在地减少可移动遗传元件扩散和减少获得不利性状(如抗微生物剂的抗性基因和毒力标记)的方法和组合物。在一些实施方案中,还从噬菌体进化角度构思了:在CRISPR基因座中整合的噬菌体序列也提供额外的锚定点以促进后续噬菌体感染期间的重组,从而增大噬菌体可用的基因池(见,Hendrix等人,Proc.Natl.Acad.Sci.USA96:2192[1999])。因为CRISPR基因座存在于大多数细菌属中并且普遍存在于古细菌(Archaea)中(见,上文Jansen等;上文Lillestol等;和Goode和Bickerton J.Mol.Evol.,62:718[2006]),故而它们提供了关于原核生物与其先祖之间关系及共定向进化方面新的深刻认识。
生物控制噬菌体
本发明也提供了用于开发噬菌体作为生物控制剂的方法和组合物。如本文中所示,细菌可以通过将噬菌体衍生序列(间隔区)掺入活跃CRISPR基因座中变得抵抗噬菌体侵袭。噬菌体可以通过在对应于该间隔区的基因组序列或对应于给定Cas-CRISPR系统的CRISPR基序识别序列内突变而逃避这种抗性。通过重复轮次的噬菌体攻击以产生宿主菌株CRISPR介导的噬菌体抗性衍生物并且分离噬菌体逃逸突变体,本发明提供了在指导间隔区插入的CRISPR靶序列和/或推定的CRISPR识别位点内已经被改变的噬菌体。另外,本发明提供了已经进行人工设计从而已消除针对给定Cas-CRISPR系统的CRISPR基序序列的噬菌体。作为混合物或以“依次轮换方案”使用的这些“改变”的噬菌体降低靶细菌借助CRISPR系统修改抗性的能力。实际上,本发明提供了烈性噬菌体的多样集合用作生物控制剂。在特别优选的实施方案中,这种多样性以CRISPR定向的噬菌体抗性机制为靶,从而严重降低或消除该宿主生物针对噬菌体侵袭(通过CRISPR)迅速演化的能力。多样性噬菌体的施用(作为混合物或以依次轮换方式)还减少宿主生物修改或演化CRISPR定向的噬菌体抗性的可能性。
噬菌体是天然的抗微生物剂,其已经作为抗生素的备选治疗剂得到广泛研究。因多重抗生素耐药性病原体的扩增,这种兴趣最近再次兴起。与抗生素的情况一样,细菌已经发展了多种机制来克服噬菌体侵袭。本发明提供了涉及在介导噬菌体抗性中使用Cas-CRISPR来产生多样噬菌体群体、产生缺少CRISPR基序序列的人工噬菌体的方法和组合物,和使用此类噬菌体的方法,其中所述的噬菌体将降低靶生物发展针对该噬菌体的抗性的能力。
如本文中详述,已经在包括病原生物属实例的大范围生物中描述了Cas-CRISPR系统。噬菌体感染后,可以发现逃脱裂解的细菌在CRISPR基因座中含有新的间隔区序列。这种新间隔区一般具有作为给定CRISPR基因座特征的定义长度并且从该新间隔区对噬菌体产生抗性的侵袭性噬菌体基因组衍生。因为单个间隔区的赋予抗性水平经常不完全,故噬菌体可以逃避这种机制。对“逃逸噬菌体”的分析表明基因组在抗性宿主变体中发现的相应间隔区序列内或其附近是突变的。另外,所述“逃逸噬菌体”对于CRISPR介导的宿主变体具有完全毒力,其中所述逃逸噬菌体从所述宿主变体衍生。
治疗性噬菌体与传统抗生素相区别的一个独特方面是以指数方式连同感染细菌一起增殖的能力。尽管从药理学的角度看,这可以是有利的,不过这也为噬菌体提供了针对靶细菌对抗噬菌体侵袭的适应性应答而演化的独特机会。
细菌已经发展了几种针对烈性噬菌体的防御机制。如本文中所示,Cas-CRISPR基因座在赋予细菌的噬菌体抗性中发挥作用。在噬菌体感染后,分析幸存的细菌,发现一些细菌分离株已经在其固有CRISPR基因座中插入了新间隔区元件,该间隔区元件的序列与相应噬菌体基因组中存在的序列相同。当用噬菌体攻击时,第一代CRISPR-介导的这些噬菌体抗性变体产生蚀斑;发现其噬菌体对亲代菌株和衍生物这两者都完全感染。对这些“CRISPR逃逸”噬菌体的分析表明其基因组在与噬菌体抗性变体携带的CRISPR间隔区对应的序列或邻近序列中是突变的,其中认为所述的邻近序列指导间隔区插入并被鉴定为给定Cas-CRISPR系统特异的CRISPR基序。因此,“CRISPR逃逸”噬菌体潜在地比亲代噬菌体和第一代变体具有更强毒力,因为这种噬菌体能够感染亲代菌株和第一代CRISPR变体。
如上所示,已经在包括已知病原体和腐败微生物的实例在内的细菌的几个属/种中鉴定了CRISPR基因座。又如本文中所述,本发明提供了利用与Cas蛋白组合的CRISPR基因座来赋予对抗侵入性外来DNA、尤其噬菌体的“免疫性”的方法和组合物。又如本文中所述,携带了含有与噬菌体基因组内的相应序列同一的间隔区(即“原型间隔区”)的“活性”CRISPR-cas基因座的细菌菌株赋予该细菌菌株针对噬菌体的抗性。在一些优选的实施方案中,生物控制噬菌体的基因组序列是已知的。在一些特别优选的方法中,对分离的靶微生物检验CRISPR基因座的存在。在一些优选的实施方案中,使用这样的PCR,其中所述的PCR使用针对分布在靶微生物CRISPR基因座侧翼的保守序列的特异性引物。在一些优选的实施方案中,将扩增产物测序并与生物控制噬菌体的基因组序列比较。在一些优选的实施方案中,CRISPR噬菌体抗性变体的产生和对间隔区/原型间隔区的分析提供了鉴定具体CRISPR基序的方法。一旦鉴定,则使用序列信息来设计和合成缺少该CRISPR基序的噬菌体。因此,所得噬菌体对CRSPR-cas介导的抗性不敏感。在这些评定中,缺少与噬菌体基因组具有相似性的间隔区表明靶微生物对生物控制噬菌体易感。因此,该生物控制噬菌体具有作为生物控制剂的较大程度的毒力和效力。
本发明提供了适用于食品、饲料、医药、和兽医工业中产生具有更广宿主范围的噬菌体的方法和组合物,并提供了应用更有效地生物控制细菌的方法。本发明提供了这样的方法,所述方法产生足够数量的经改变噬菌体(反应于CRISPR)以明显降低天然细菌演化有效的CRISPR介导的抗性的能力。本发明也提供了如此设计从而明显降低天然细菌进化速率的使用/施用方法。
实验
提供以下实施例旨在展示和进一步说明本发明的某些优选实施方案和方面,并且不应解释为限制本发明的范围。
在随后的实验公开内容中,使用以下缩写:℃(摄氏度);rpm(转/分钟);H2O(水);HCl(盐酸);aa(氨基酸);bp(碱基对);kb(千碱基对);kD(千道尔顿);gm(克);μg和ug(微克);mg(毫克);ng(纳克);μl和ul(微升);ml(毫升);mm(毫米);nm(纳米);μm和um(微米);M(摩尔);mM(毫摩尔);μM和uM(微摩尔);U(单位);V(伏特);MW(分子量);sec(秒);min(分钟/分钟);hr(小时/小时);MOI(感染复数);EOP(成斑效率);PFU(噬斑形成单位);MgCl2(氯化镁);NaCl(氯化钠);OD420(在420nm处的光密度);PAGE(聚丙烯酰胺凝胶电泳);EtOH(乙醇);PBS(磷酸盐缓冲盐水[150mM NaCl,10mM磷酸钠缓冲液,pH 7.2]);SDS(十二烷基硫酸钠);Tris(三(羟甲基)氨基甲烷);w/v(重量体积比);v/v(体积/体积);Amicon(Amicon,Inc.,Beverly,MA);ATCC(美国典型培养物保藏中心,Manassas,VA);Amersham(Amersham Biosciences,Inc.,Piscataway,NJ);NEB(New England Biolabs,Beverly,MA);Becton Dickinson(BectonDickinson Labware,Lincoln Park,NJ);BioRad(BioRad,Richmond,CA);Clontech(CLONTECH Laboratories,Palo Alto,CA);Difco(DifcoLaboratories,Detroit,MI);GIBCO BRL或Gibco BRL(Life Technologies,Inc.,Gaithersburg,MD);Sigma(Sigma Chemical Co.,St.Louis,MO)和Sorvall (Sorvall Instruments,DuPont Co.分公司,Biotechnology Systems,Wilmington,DE)。
除非另外说明,本发明使用化学、分子生物学、微生物学、重组DNA和免疫学的常规技术,这些技术属于本领域普通技术人员的能力范围。此类技术是本领域技术人员熟知的。
如本文中所用,DGCC7710也称作“WT”;DGCC7710RH1也称作“DGCC7710-RH1”和“RH1”;DGCC7710RH2也称作“DGCC7710-RH2”和“RH-2”;DGCC7778cas1也称作“DGCC7778cas1KO”、“CAS1KO”和“cas1KO”;DGCC7778cas4也称作“DGCC7778cas4KO”;DGCC7778也称作“WTΦ858+S1S2”;DGCC7778RT也称作“WTΦ858+S1S2::pR”;DGCC7778RT’也称作“WTΦ858+S1S2ΔCRISPR1”;DGCC7710-R2也称作“WTΦ2972+S4”并且DGCC7710-R2S1S2也称作“WTΦ2972 +S4::pS1S2”。
实施例1
噬菌体特异性间隔区的操作
在本实施例中,描述了为操作噬菌体特异性间隔区所实施的实验。在一些实验中,描述了将噬菌体特异性间隔区插入现存的功能性CRISPR以提供针对相应噬菌体的抗性。所用的细菌菌株是嗜热链球菌ST0089并且噬菌体是噬菌体2972。嗜热链球菌ST0089是在制造酸奶中使用的工业上重要的菌株。它是遗传上可操作的,并且对熟知的烈性噬菌体2972易感。
在菌株ST0089中确定了CRISPR基因座。这优选地通过对ST0089的全基因组测序确定。备选地,使用与先前鉴定的嗜热链球菌CRISPR元件具有相同序列的引物组,通过PCR鉴定CRISPR基因座。
一旦鉴定,则确定CRISPR基因座的序列以及含有相关cas基因的相邻区域。
选择至少一个特定的CRISPR-cas基因座用于进一步操作。通过计算机硅片(in silico)分析间隔区和它们与噬菌体DNA序列的同源性,确定该基因座的功能性(即,间隔区序列的不存在和/或存在,和噬菌体感染性与菌株ST0089的相关性)。在这种相关性不存在的情况下,基于文献记录的全部元件(即重复序列、间隔区、前导序列和推定的编码全长蛋白质的cas基因),假定有功能性。
从噬菌体2972的基因组选择合适的间隔区序列。用来选择间隔区的标准通常基于该间隔区在所选CRISPR基因座中的长度和与噬菌体序列的同一性(优选大约100%)。实际上,任意的合适噬菌体序列可用于本发明的多个实施方案中。
在一些实施方案中,化学合成了由噬菌体2972间隔区序列组成的CRISPR单元,侧翼为(与所选CRISPR基因座同一的)两个重复元件。根据定义,这种合成的“CRISPR单元”具有大约100bp长度并且对于确保整合到CRISPR基因座中而言太短。
因此,除这个CRISPR单元之外还构建了额外的侧翼DNA。产生了与所靶向的CRISPR基因座同一的分布在这种合成的CRISPR单元侧翼的最小500bp同源DNA旨在促进整合。
在其它的实施方案中,存在多种方法。在一个实施方案中,构建体模拟了向现有CRISPR添加新间隔区。在一些备选的实施方案中,将完整CRISPR基因座替换为所述合成的CRISPR单元。
所得的CRISPR整合体在生物学测试前通过CRISPR基因座的DNA测序进行验证。另外,测试了该CRISPR整合体针对噬菌体2972的噬菌体敏感性模式并与亲代菌株比较。
构建的CRISPR整合体成功展示了特定间隔区存在与CRISPR-cas的适宜环境之间的直接相关性。
在额外的实验中,将同源于噬菌体DNA的间隔区插入受体细胞。在这些实验中,设计了来自噬菌体DNA的抗受体基因中的新CRISPR间隔区(与噬菌体DNA具有100%同一性)并将其插入细胞的CRISPR基因座中。抗受体基因成为靶标,原因是已经发现来自其他菌株的CRISPR间隔区显示与噬菌体抗受体基因的相似性。携带对噬菌体抗受体基因显示同一性的间隔区的4个菌株抵抗这种特定噬菌体。使所述突变体暴露于噬菌体并发现其具有抗性。
在额外的实验中,将间隔区插入原初宿主,但不插在CRISPR基因座中。所得突变体保留对噬菌体的敏感性。因此,这些实验证明间隔区需要存在于CRISPR和cas基因环境下的特定环境中。
在其他实验中,从天然存在的CRISPR基因座中缺失特定的CRISPR间隔区。这种缺失解除了针对给定噬菌体的免疫性并且宿主对与间隔区同源的噬菌体变得敏感(即,丧失抗性)。在图10中提供来自这些实验的结果。
又在额外的实验中,将完整的CRISPR重复序列-cas组合插入受体细胞中,旨在提供针对新来的核酸的免疫性。
在额外的实验中,使用本文中所述的方法制备包含CRISPR间隔区的质粒。将这种质粒转移到含有相同间隔区的细胞中的尝试没有成功,然而,可以将不含此间隔区的质粒转化到细胞中。图11和12显示这些结果。
在其他实验中,交换了在两个不同菌株中存在的CRISPR-cas组合。证实这种间隔区的交换改变了菌株的表型(噬菌体敏感性/抗性)。如本文中所示,将S1S2导入带有S4的菌株时,噬菌体敏感性发生转换(见图10)。
在额外的实验中,制备了不同的cas-CRISPR重复序列组合。对于功能性而言,不仅需要cas基因或蛋白,还需要特定的cas-CRISPR重复序列配对物。当提供来自另一CRISPR基因座的cas基因或蛋白时,该菌株仍对此噬菌体敏感。
仍在额外的实验中,缺失了(来自功能性CRISPR-cas单元的)一个或多个cas基因。cas基因是对待提供的免疫性而言必需的。Cas突变体仍对该噬菌体敏感,尽管存在与噬菌体DNA同一的间隔区。在这些实验中,使cas5(先前称作cas1)和cas7(先前称作cas4)缺失。显示Cas5是抗性所需要的。另外,证实cas7是新间隔区整合所需要的。
在额外的实验中,cas基因以反式方式提供给宿主。在敲除cas基因的情况下,免疫性恢复。
实施例2
CRISPR间隔区的整合
在这些实验中,显示CRISPR间隔区整合到CRISPR基因座中提供了针对与该CRISPR间隔区显示同一性的噬菌体的抗性。在这些实验中,产生了嗜热链球菌菌株DGCC7710RH1。
嗜热链球菌菌株DGCC7710(以编号CNCM I-2423保藏于法国“国家培养物与微生物保藏中心”)拥有至少3个CRISPR基因座:CRISPR1、CRISPR2和CRISPR3。在完整基因组序列已知(Bolotin等人,Microbiol.,151:2551-1561[2005]的嗜热链球菌菌株CNRZ1066和LMG18311中,CRISPR1位于相同的染色体基因座上:在str0660(或stu0660)和str0661(或stu0661)之间。
在菌株DGCC7710中,CRISPR1也位于相同的染色体基因座上,在高度相似的基因之间。菌株DGCC7710的CRISPR1含有33个重复序列(包括末端重复序列)并且因此含有32个间隔区。
全部这些间隔区是彼此不同的。大部分的这些间隔区是新的(即,在CRISPR基因座中先前未描述过),不过靠近CRISPR1非转录尾区的4个间隔区同一于已知的CRISPR1间隔区。
DGCC7710的第28间隔区与菌株CNRZ1575的第31CRISPR1间隔区(Genbank登录号DQ072991)100%同一;
DGCC7710的第30间隔区与菌株CNRZ703的第27CRISPR1间隔区(Genbank登录号DQ072990)100%同一;
DGCC7710的第31间隔区与菌株CNRZ703的第28CRISPR1间隔区(Genbank登录号DQ072990)100%同一;
DGCC7710的第32间隔区与菌株CNRZ703的第30CRISPR1间隔区(Genbank登录号DQ072990)100%同一。
在研发本发明期间,使用DGCC7710作为亲代菌株并使用噬菌体D858作为烈性噬菌体,分离了作为天然噬菌体抗性突变体的嗜热链球菌菌株DGCC7710RH1。使用一种属于长尾噬菌体科病毒的噬菌体D858。
菌株DGCC7710-RH1的CRISPR1含有34个重复序列(包括末端重复序列)并且因此含有33个间隔区。当与嗜热链球菌菌株DGCC7710的CRISPR1序列比较时,嗜热链球菌菌株DGCC7710-RH1的CRISPR1序列在CRISPR基因座的一端(即,在CRISPR基因座5’端处靠近前导序列)拥有一个额外的新间隔区(和一个分布在这个新间隔区侧翼的额外重复序列)。CRISPR1基因座的其余全部间隔区保持不变。
下文提供菌株DGCC7710-RH1的CRISPR1序列(5′-3′):
caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtcaacaattgcaacatcttataacccactt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT
Ttgattcaacataaaaagccagttcaattgaacttggcttt(SEQID NO:682)
在以上序列中,所述前导序列具有序列:
5′caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag 3′(SEQ ID NO:688)
包含CRISPR 重复序列的整合序列(GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtcaacaattgcaacatcttataacccactt;SEQ ID NO:689)以大写字母显示而CRISPR间隔区(即标签序列)以小写字母显示;两者在上文均以灰色显示。CRISPR重复序列的末端重复序列和非转录尾区序列显示如下:
末端重复序列:5′gtttttgtactctcaagatttaagtaactgtacagt 3′(SEQ IDNO:3)
非转录尾区序列:5′ttgattcaacataaaaagccagttcaattgaacttggcttt 3′(SEQID NO:691)
新间隔区的序列5-TCAACAATTGCAACATCTTATAACCCACTT(SEQ ID NO:534)存在于D858噬菌体基因组中。
该间隔区的序列存在于D858基因组的第31921和31950bp位置之间(即,在正链上)(并且与D858基因组序列具有30个核苷酸范围内的100%同一性。
间隔区 1 tcaacaattgcaacatcttataacccactt 30(SEQID NO:534)
||||||||||||||||||||||||||||||
D858 31921 tcaacaattgcaacatcttataacccactt 31950(SEQID NO:534)
整合到嗜热链球菌菌株DGCC7710-RH1的CRISPR1基因座中的新间隔区赋予该菌株针对噬菌体D858的抗性,如图1和表2-1中所示。
表2-1
1.用来产生噬菌体不敏感性突变体(BIMs)的噬菌体
2.菌株的噬菌体敏感性,S=敏感的,R=抵抗的,通过斑点和空斑测定确定
3.突变体的新间隔区和用来产生突变体的噬菌体的DNA序列之间的同源性
噬菌体保留吸附至突变体的能力
另外,在研发本发明期间,使用嗜热链球菌菌株DGCC7710作为亲代菌株和噬菌体D858作为烈性噬菌体,分离了作为天然噬菌体抗性突变体的嗜热链球菌菌株DGCC7710-RH2。
嗜热链球菌菌株DGCC7710-RH2的CRISPR1含有34个重复序列(包括末端重复序列)并且因此含有33个间隔区。与嗜热链球菌菌株DGCC7710的CRISPR1序列比较时,嗜热链球菌菌株DGCC7710-RH2的CRISPR1序列在CRISPR基因座的一端(即,在CRISPR基因座5′端处靠近前导序列)拥有一个额外的新间隔区(和一个分布在这个新间隔区侧翼的额外重复序列)。CRISPR1基因座的其余全部间隔区保持不变。
下文显示菌株DGCC7710-RH2的CRISPR1序列(5′-3′):
caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACttacgtttgaaaagaatatcaaatcaatga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT
ttgattcaacataaaaagccagttcaattgaacttggcttt
在以上序列中,所述前导序列是:
5′-caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag-3′(SEQ ID NO:688)
包含CRISPR重复序列的整合序列以大写字母显示而CRISPR间隔区(即标签序列)以小写字母显示;两者在上文均以灰色显示(GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACttacgtttgaaaagaatatcaaatcaatga;SEQ ID NO:694)。CRISPR重复序列的末端重复序列和非转录尾区序列显示如下:
末端重复序列:5′-gtttttgtactctcaagatttaagtaactgtacagt-3′(SEQ IDNO:3)
非转录尾区序列:5′-ttgattcaacataaaaagccagttcaattgaacttggcttt-3′(SEQID NO:691)
已经显示所述新间隔区的序列存在于D858噬菌体基因组中。
该间隔区的序列(SEQ ID NO:535)存在于D858基因组的第17215和17244bp位置之间(即,在正链上)(并且与D858基因组序列具有30个核苷酸范围内的100%同一性。
间隔区 1 ttacgtttgaaaagaatatcaaatcaatga 30(SEQID NO:535)
||||||||||||||||||||||||||||||
D858 17215 ttacgtttgaaaagaatatcaaatcaatga 17244(SEQID NO:690)
整合到嗜热链球菌菌株DGCC7710-RH2的CRISPR1基因座中的新间隔区赋予嗜热链球菌菌株DGCC7710-RH2针对噬菌体D858的抗性,如图2和表2-1中所示(还参见图10)。
实施例3
构建体整合和敲除
在本实施例中,描述了用于构建体整合和敲除的方法。
在这些实验中使用的菌株是:
嗜热链球菌DGCC7710亲代菌株,对噬菌体858和2972敏感
抵抗858的嗜热链球菌DGCC7778CRISPR突变体
嗜热链球菌DGCC7778cas1KO
嗜热链球菌DGCC7778cas4KO
嗜热链球菌DGCC7778RT
嗜热链球菌DGCC7778RT’
抵抗2972的嗜热链球菌DGCC7710R2CRISPR突变体
嗜热链球菌DGCC7710R2S1S2
大肠杆菌EC1000提供pORI28(见,Russell和Klaenhammer,Appl.Environ.Microbiol.,67:43691-4364[2001])
大肠杆菌pCR2.1TOPO提供pTOPO(见,Invitrogen目录号#K4500-01)
在这些实验中使用了如下质粒:
pTOPO,一种用于亚克隆多种构建体的质粒
pTOPOcas1ko含有cas1的整合片段
pTOPOcas4ko含有cas4的整合片段
pTOPOS1S2含有S1S2间隔区构建体
pTOPO RT含有RT末端重复序列构建体
pORI28是一种用于在嗜热链球菌菌株染色体中整合多种构建体的质粒
pORIcas1ko含有cas1的整合片段
pORIcas4ko含有cas4的整合片段
pORIS1S2含有S1S2间隔区构建体
pUrist含有RT末端重复序列构建体
在这些实验中使用了下列引物:
Cas1
5’-caaatggatagagaaacgc-3’(SEQ ID NO:670)和5’-ctgataaggtgttcgttgtcc-3’(SEQ ID NO:671)
Cas4
5’-ggagcagatggaatacaagaaagg-3’(SEQ ID NO:672)和
5’-gagagactaggttgtctcagca-3’(SEQ ID NO:673)
S1S2和RT
P15’-acaaacaacagagaagtatctcattg-3’(SEQ ID NO:666)
P25’-aacgagtacactcactatttgtacg-3’(SEQ ID NO:667)
P3
5’-tccactcacgtacaaatagtgagtgtactcgtttttgtattctcaagatttaagtaactgtacagtttgattcaacataaaaag-3’(SEQ ID NO:668)
P45’-ctttccttcatcctcgctttggtt-3’(SEQ ID NO:669)
菌株和噬菌体从Danisco培养物保藏中心或从所参考资料(Russell和Klaenhammer,Appl.Environ.Microbiol.,67:43691-4364[2001];和Levesque等人,Appl.Environ.Microbiol.,71:4057-4068[2005])获得。
使用本领域已知的方法实施噬菌体制备、纯化和试验(见例如,Duplessis等人,Virol.,340:192-208[2005];和Levesque等人,Appl.Environ.Microbiol.,71:4057-4068[2005])。
嗜热链球菌菌株在37℃或42℃在补充有0.5%乳糖或蔗糖的M17(Difco)中培育。对于噬菌体感染,将10mM CaCl2在噬菌体感染之前添加至该培养基,如本领域已知(见例如,上文的Duplessis等;和上文的Levesque等)。
用来实施限制性消化和PCR的酶从Invitrogen购买并根据制造商的说明书使用。如本领域已知的在Eppendorf Mastercycler梯度热循环仪上实施PCR(见例如,Barrangou等人,Appl.Environ.Microbiol.,68:2877-2884[2002])。
如先前所述(上文的Russell和Klaenhammer),使用大肠杆菌作为宿主,通过亚克隆到Invitrogen pCR2.1TOPO系统中,随后在pORI系统中克隆,并且所述构建体最后经纯化并转化至嗜热链球菌中,通过在嗜热链球菌染色体中同源重组实施基因失活和质粒的位点特异性插入。
RT构建体整合
使用如图4中所示而工程化设计的RT构建体,将该构建体紧邻cas4之后插入,如图5中所示。亲代DGCC7778抵抗噬菌体858。该亲代具有与噬菌体858DNA相同的2个间隔区(S1和D2)。所得菌株(RT)丧失对噬菌体858的抗性。该结果显示cas基因需要紧邻间隔区以赋予抗性。如图3中所示,如此设计亲代DGCC7778从而破坏cas1基因,导致抗性丧失,这意味着需要cas1以赋予抗性。如图3中所示,工程化设计亲代DGCC7778从而cas4基因被破坏。另外,S1S2构建体整合到亲代DGCC7710中,如图6-8中所示。
实施例4
噬菌体抗性突变体的分离和CRISPR序列的证实
在本实施例中,描述了在分离噬菌体抗性突变体和证实CRISPR序列中使用的方法。通过用噬菌体2972和/或噬菌体858攻击野生型宿主菌株DGCC7710(又叫作“RD534”)获得嗜热链球菌噬菌体抗性突变体(Levesque等人,Appl.Environ.Microbiol.,71:4057[2005])。该宿主菌株在42℃于10ml补充有0.5%乳糖的M17肉汤(LM17)中培育。当光密度(600nm)达到0.3时,分别以终浓度107pfu/ml和50mM添加噬菌体和10mM氯化钙。含有噬菌体的培养物在42℃温育24小时并监测裂解作用。随后,将100μl裂解液接种到10ml新鲜的LM17中。将剩余裂解液离心并将沉淀物接种到含有10ml新鲜LM17的另一管中。这两份培养物在42℃温育16小时。最后,将这些培养物稀释并涂布在LM17上。如本领域已知,对分离的菌落测试噬菌体敏感性(见,Moineau等人,Can.J.Microbiol.,38:875[1992])。通过对PCR产物测序并使用本领域已知的相关噬菌体基因组信息验证抗性分离株的CRISPR基因座(见,Levesque等人,Appl.Environ.Microbiol.,71:4057[2005])。
实施例5
CRISPR间隔区工程化设计
在本实施例中,描述了在一些实施方案中用于CRISPR间隔区工程化设计的方法。用来实施限制性消化和PCR的酶从Invitrogen购买并根据制造商的说明书使用。使用本领域已知的方法,在Eppendorf Mastercycler梯度热循环仪上实施PCR。
如本领域已知(见,Russell和Klaenhammer,Appl.Environ.Microbiol..,67:4361[2001]),使用大肠杆菌作为宿主,通过亚克隆到pCR2.1TOPO系统(Invitrogen)中,随后在pORI系统中克隆,并且所述构建体最后经纯化并转化至嗜热链球菌中,通过在嗜热链球菌染色体中同源重组实施基因失活和质粒的位点特异性插入。
在一个反应中使用P1(5′-acaaacaacagagaagtatctcattg-3′;SEQ IDNO:666)和P2(5′-aacgagtacactcactatttgtacg-3′;SEQ ID NO:667),并且在另一个反应中使用P3(5′-tccactcacgtacaaatagtgagtgtactcgtttttgtattctcaagatttaagtaactgtacagtttgattcaacataaaaag-3′;SEQ ID NO:668)和P4(5′-ctttccttcatcctcgctttggtt-3′;SEQ ID NO:669),利用来自突变体WTΦ858 +S1S2的DNA作为模板以扩增两个不同PCR片段。两种PCR产物随后在另一个PCR反应中用作模板,使用引物P1和P4根据图11产生S1S2构建体。
将S1S2构建体亚克隆到Invitrogen pCR2.1-TOPO系统中。该构建体用NotI和HindIII消化并随后克隆到pORI的NotI和HindIII位点处,产生pS1S2构建体。通过在cas7的3’端同源重组使pS1S2整合到WTΦ2972 +S4的CRISPR1基因座中,以产生WTΦ2972 +S4::pS1S2。
pR构建体使用pS1S2构建体作为模板产生。具体而言,使用在CRISPR重复序列内部切割的BsrGI消化亚克隆到pCR2.1-TOPO中的S1S2构建体。随后,使消化产物再连接,并且利用NotI和HindIII,将含有单个重复序列且不含间隔区的质粒随后用于克隆到pORI中,产生pR。pR在cas7的3’端通过同源重组整合到WTΦ858 +S1S2的染色体,产生了WTΦ858 +S1S2::pR,此系其中CRISPR1基因座被替代并且在其位置中插入一个独特重复序列的突变体。
突变体WTΦ858 +S1S2::pR随后在红霉素不存在的情况下培育,并且分析抗生素敏感变体以找到完全缺失CRISPR1基因座的突变体。所述缺失源自ORF的3’端处发生的同源重组(这与cas7的3’端处发生的重组事件相反,其中所述的重组事件本来会导致WTΦ858 +S1S2菌株恢复),产生WTΦ858 +S1S2ACRISPR1(见,图12),此系其中CRISPR1基因座缺失的突变体(还参见图10)。
实施例6
cas基因的失活
为失活cas5,使用引物5′-caaatggatagagaaacgc-3′(SEQ ID NO:670)和5′-ctgataaggtgttcgttgtcc-3′(SEQ ID NO:671),通过PCR扩增cas5的一个801-bp内部片段并将其亚克隆到大肠杆菌pCR2.1-TOPO(Invitrogen)中。该构建体用EcoRV和HindIII消化并随后克隆到pORI的EcoRV和HindIII位点。通过该基因的内部片段的同源重组,此构建体整合到WTΦ858 +S1S2的cas5基因中,产生WTΦ858 +S1S2::pcas5-。
类似地,使用引物5′-ggagcagatggaatacaagaaagg-3′(SEQ ID NO:672)和5′-gagagactaggttgtctcagca-3′(SEQ ID NO:673),通过PCR扩增cas7的672-bp内部片段并将其亚克隆到大肠杆菌pCR2.1-TOPO(Invitrogen)中。该构建体用EcoRV和HindIII消化并随后克隆到pORI的EcoRV和HindIII位点。通过该基因的内部片段的同源重组,此构建体整合到WTΦ858 +S1S2的cas7基因中,产生WTΦ858 +S1S2::pcas7-(见图10-12)。
实施例7
用于在CRISPR基因座中插入额外序列的天然方法
在本实施例中,描述了用来天然地激发在细菌菌株的CRISPR基因座内插入额外序列的方法。如本文中所用,“额外序列”定义为与CRISPR重复序列相关的间隔区序列。更具体地,“额外序列”部分地源自能够感染靶细菌的供体噬菌体并部分地来自CRISPR重复序列的复制。供体噬菌体DNA导入细菌细胞是因细胞被供体噬菌体感染所致。通过供体噬菌体提供的选择压力选择含有额外序列的细胞,从而所选择的经修饰细胞抵抗此噬菌体。
在这些实验中,使亲代菌株暴露于供体噬菌体并且选出该亲代菌株的噬菌体抗性变体(即变异菌株)。分析该变异菌株(例如通过PCR和/或DNA测序)以证实CRISPR基因座内存在额外序列。确定这个额外序列的核苷酸序列。一般,该额外序列是来自与CRISPR重复序列连接(融合)的供体噬菌体的大小大约30个核苷酸的片段并且赋予针对该供体噬菌体的抗性。
在一些实验中,亲代菌株在基于乳的培养基中于42℃预培养过夜。基于乳的培养基随后用该亲代菌株的预培养物以0.1%(v/v)接种并用供体噬菌体混悬液以MOI 10接种。在42℃温育6小时后,将该培养物的稀释物涂布在营养培养基上,以获得分离的菌落。随后测试分离株对此供体噬菌体的抗性(在这些实验中使用本领域已知的任意合适方法)。随后对变异菌株分析额外序列在其诸多CRISPR基因座中的一个CRISPR基因座内的存在。
通过PCR扩增CRISPR基因座,并且使用本领域已知的标准PCR和测序方法,通过DNA测序确定所得PCR产物的核苷酸序列。随后使用本领域已知的标准方法,比较这些序列与亲代菌株的序列。
在一些实验中,使用DGCC7710作为亲代菌株并且使用D2972作为供体噬菌体。如上所述使亲代嗜热链球菌菌株DGCC7710暴露于供体噬菌体D2972。获得名为WTphi2972 +S6的变异菌株(见表7-1)。表7-1也包括其他实施例中所描述的变异菌株的结果。在表7-1中,EOP相对于噬菌体D2972表述。除非另外说明,相对于噬菌体D2972给出所述额外序列在噬菌体基因组中的位置。
该变体显示针对D2972的抗性,因为D2972在WTphi2972 +S6上的成斑效率(EOP)减少4log。从WTphi2972 +S6提取DNA,并且如本领域已知,使用一条正向引物(YC70和/或SPIDR-ups(5’-gTCTTTAgAAACTgTgACACC-3’;SEQ ID NO:674)和一条反向引物(YC31和/或SPIDR-dws(5’-TAAACAgAgCCTCCCTATCC;SEQ ID NO:675)的组合,通过PCR分析CRISPR1基因座(见,例如上文的Bolotin等[2005])。确定PCR产物的序列并且将其与DGCC7710的CRISPR1基因座的序列比较。与DGCC7710相比,发现WTphi2972 +S6的差别是在其CRISPR1区5’端添加了一个30bp间隔区序列及重复序列发生重复,如图14中所示。该额外序列与D2972基因组序列的比较显示这个新间隔区序列与D2972基因组从核苷酸34521至核苷酸34492的序列100%同一。
在一些额外的实验中,使用WTphi858 +S1S2::pcas5作为亲代菌株并且使用D858作为供体噬菌体。所得的名为WTphi858 +S1S2::pcas5phi858 +S19的变异菌株(见表7-1)抵抗D858,EOP减少5log。从WTphi858 +S1S2::pcas5phi858 +S19提取DNA,并且使用一条正向引物(CR3_leadF1,5’-CTGAGATTAATAGTGCGATTACG;SEQ ID NO:676)和一条反向引物(CR3_trailR2,5’-GCTGGATATTCGTATAACATGTC;SEQ IDNO:677),通过PCR分析其CRISPR3基因座。确定PCR产物的序列并且将其与WTphi858 +S1S2::pcas5的CRISPR3基因座的序列比较。与WTphi858 +S1S2::pcas5相比,WTphi858 +S1S2::pcas5phi858 +S19的区别之外是在其CRISPR3区5’端添加一个30bp间隔区序列及重复序列发生重复。该额外序列与D858基因组序列的比较显示这个新间隔区序列与D858基因组从核苷酸33824至核苷酸33853的序列100%同一。
在其他额外的实验中,使用DGCC7809作为亲代菌株并且使用D3743作为供体噬菌体。所得的名为DGCC7809phiD3743 +S28的变异菌株(见表7-2)抵抗D3743,EOP减少8log。从DGCC7809phiD3743 +S28提取DNA,并且使用一条正向引物(CR3_leadF1,5’-CTGAGATTAATAGTGCGATTACG;SEQ ID NO:676)和一条反向引物(CR3_trailR2,5’-GCTGGATATTCGTATAACATGTC;SEQ ID NO:677),通过PCR分析其CRISPR3基因座。确定PCR产物的序列并且与ST0189的CRISPR3基因座的序列比较。与DGCC7809相比,DGCC7809phiD3743 +S28的区别之处是在其CRISPR3区5’端添加了单个29bp间隔区序列及重复序列发生重复。噬菌体D3743的序列是未知的;然而,所述额外序列与其他链球菌噬菌体基因组序列的比较显示这个新间隔区序列与噬菌体DT1基因组从核苷酸6967至核苷酸6996的序列100%同一。
在其他额外的实验中,使用DGCC3198作为亲代菌株并且使用D4241作为供体噬菌体。所得的名为DGCC3198phi4241 +S29的变异菌株(见表7-2)抵抗D4241,EOP减少8log。从DGCC3198phi4241 +S1提取DNA,并且使用一条正向引物(YC70和/或SPIDR-ups(5’-gTCTTTAgAAACTgTgACACC-3’;SEQ ID NO:674)和一条反向引物(YC31和/或SPIDR-dws(5’-TAAACAgAgCCTCCCTATCC;SEQ ID NO:675),通过PCR分析CRISPR1基因座。确定PCR产物的序列并且将其与DGCC3198的CRISPR1基因座的序列比较。与DGCC3198相比,DGCC3198phi4241 +S29的区别之处是在其CRISPR1区5’端添加一个30bp间隔区序列及重复序列发生重复。噬菌体D4241的序列是未知的;然而,所述额外序列与其他链球菌噬菌体基因组序列的比较显示这个新间隔区序列与噬菌体DT1基因组从核苷酸3484至核苷酸3455的序列100%同一。
下文表7-2提供来自DGCC7809和来自DGCC3198的CRISPR修饰变异菌株的描述。在该表中,EOP相对于供体噬菌体表述。除非另外说明,相对于噬菌体DT1给出所述额外序列在噬菌体基因组中的位置。
实施例8
选择来自相同亲代菌株的一组CRISPR修饰的变异菌株
在本实施例中,描述了用于选择来自相同亲代菌的一组变异菌株的方法,其中所述变异菌株的差别在于源自相同噬菌体的额外序列。由于供体噬菌体的多个部分用作额外序列的来源,因而可以从给定供体噬菌体产生多种不同的变异菌株。另外,每种变异菌株具有不同的额外序列。因此,除实施例7中所述变异菌株之外,还可以从相同亲代菌株产生多种菌株。在一些实验中,通过使受体菌株暴露于相同的供体噬菌体产生这些额外菌株。认为所得的多种变异菌株呈现出不同的噬菌体敏感性谱。
在独立的培养物中,使亲代菌株经历相同的供体噬菌体作用。对于每种培养物,如实施例7中所述分离单一噬菌体抗性变体并随后进行分析。相互比较每种变异菌株中的额外序列。使用本领域已知的经典微生物学方法确定变异菌株对供体噬菌体和其他噬菌体的敏感性谱。随后比较多种菌株的敏感性谱。选择的变异菌株是具有不同额外序列和不同噬菌体敏感性谱的那些变异菌株。
在一些实验中,使用D2972作为单一供体噬菌体,选择DGCC7710的多种变异菌株。如实施例7中所述,使亲代菌株DGCC7710暴露于4个独立培养物中的供体噬菌体D2972。从每个培养物中,分离了变异菌株并分别命名为WTphi2972 +S4、WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22(见表7-1)。
这些变异菌株显示针对D2972的抗性,因为D2972在这4个噬菌体抗性变体上的成斑效率(EOP)减少了3至5log。从WTphi2972 +S4、WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22提取DNA,并且使用一条正向引物(YC70和/或SPIDR-ups(5’-gTCTTTAgAAACTgTgACACC;SEQ ID NO:674)和一条反向引物(YC31和/或SPIDR-dws(5’-TAAACAgAgCCTCCCTATCC;SEQID NO:675)的组合,使用本领域已知的方法(见,例如上文的Bolotin等[2005]),通过PCR进行分析。确定PCR产物的序列并且将其与DGCC7710的CRISPR1基因座的序列比较。与DGCC7710相比,WTphi2972 +S4、WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22的差别是在其CRISPR1区5’端添加了一个30bp间隔区序列及重复序列发生重复,如图17中所示。这些新间隔区序列与D2972基因组序列的比较显示这些新间隔区序列分别与D2972基因组从核苷酸31582至核苷酸31611、从核苷酸25693至核苷酸25722、从核苷酸27560至核苷酸27589和从核苷酸24624至核苷酸24653的序列100%同一。发现全部4个额外间隔区彼此不同并且不同于实施例7中所述的间隔区。
实施例9
用于在CRISPR基因座中插入第二额外序列的天然方法
在本实施例中,描述了用来引起在CRISPR基因座中插入第二额外序列的天然方法。一旦在细菌CRISPR基因座中插入来自给定供体噬菌体的额外序列后,该变异菌株对这种噬菌体变得抵抗或至少敏感性较低。因此,实施例7中所述的方法对于在该变异菌株的CRISPR基因座中插入额外序列并非效率更高。例如,使用D2972作为供体噬菌体时,该方法不能应用于变异菌株WTphi2972 +S6(作为亲代菌株),因为WTphi2972 +S6对D2972具有显著降低的敏感性(见实施例7)。
在一些实验中,通过使用从D2972衍生的突变供体噬菌体(即“突变噬菌体”)解决这个问题,其中所述的突变供体噬菌体在其基因组内包含至少一个特定修饰。通过使供体噬菌体暴露于变异菌株而选择这种突变噬菌体,从而亲代噬菌体的修饰(即突变)致使此突变噬菌体对变异菌株有毒力。
在一些实验中,突变噬菌体在其基因组的含额外间隔区序列的区域内具有突变,其中所述的额外间隔区序列是该变异菌株中的额外序列的一部分。该变异菌株对此突变噬菌体敏感。使该变异菌株暴露于此突变噬菌体并且选择该变异菌株的噬菌体抗性新变体(第二代变体)。使用本领域已知的合适方法(例如PCR和测序)分析第二代变体以证实在CRISPR基因座内存在额外序列。确定此额外序列的核苷酸序列。在一些实验中,发现此额外序列含有来自该突变噬菌体的大小大约30个核苷酸的片段,其中所述片段赋予针对该突变噬菌体的抗性。
在一些实验中,该变异菌株在适宜的基于乳的培养基中在42℃预培养过夜。基于乳的培养基随后用变异菌株的预培养物以浓度约106cfu/ml接种并用供体噬菌体混悬液以大于100的MOI接种。该培养物在42℃温育过夜并随后进行离心。收获上清液并使用0.45μm滤器过滤。滤过的上清液的稀释物用来接种营养琼脂培养基(其中该营养琼脂培养基已用变异菌株接种),以使用本领域已知的任意合适方法获得分离的噬菌体蚀斑。使用本领域已知的任意合适方法,在液体营养培养基中的变异菌株上培育分离的蚀斑。通过0.45μm滤器过滤该培养物获得突变噬菌体的混悬液。此突变噬菌体随后如上文所述(见实施例7)用来引起在变异菌株的CRISPR基因座中插入第二额外间隔区序列。
在一些实验中,使用WTphi2972 +S6(见实施例7和表7-1)作为亲代菌株并且使用D4724作为供体噬菌体。在高浓度的噬菌体D2972存在下培育变异菌株WTphi2972 +S6。使用上文所述方法,通过来自该培养物的上清液在菌株WTphi2972 +S6上形成蚀斑,分离了名为D4724的突变噬菌体。验证了突变噬菌体D4724对WTphi2972 +S6的毒力。使变异菌株WTphi2972 +S6如实施例7中所述暴露于培养物中的突变噬菌体D4724。获得名为WTphi2972 +S6 phi4724 +S15的噬菌体抗性变异菌株(见表7-1)。
与WTphi2972 +S6相比,该变异菌株显示对D2972的抗性提高,因为D2972在WTphi2972 +S6 phi4724 +S15上的成斑效率(EOP)减少超过8log(而非4log);另外,与WTphi2972 +S6相比,这种抗性也扩大,因为该菌株展示针对D4724的一些抗性(见表9-1)。从WTphi2972 +S6 phi4724 +S15提取DNA,并且使用如上所述的相同引物组合,通过如上所述的PCR分析其CRISPR1基因座。确定PCR产物的序列并且将其与WTphi2972 +S6的CRISPR1基因座的序列比较。与WTphi2972 +S6相比,WTphi2972 +S6 phi4724 +S15的差别是在其CRISPR1区5’端添加了30bp间隔区序列及重复序列发生重复,如图17中所示。该额外间隔区序列与D2972基因组序列的比较显示第二额外间隔区序列与D2972基因组从核苷酸1113至核苷酸1142的序列100%同一。
使用相同的实验条件从独立的培养物分离WTphi2972 +S6 phi4724 +S17和WTphi2972 +S6 phi4724 +S24变异菌株并进行分析(见表7-1)。与WTphi2972 +S6相比,这些变异菌株显示对D2972的抗性提高,因为对于这两个变异菌株而言,D2972在WTphi2972 +S6 phi4724 +S17和WTphi2972 +S6 phi4724 +S24上的成斑效率(EOP)减少超过8log;并且与WTphi2972 +S6相比,它们的这种抗性也扩大,因为它们展示针对D4724的一些抗性(见表9-1)。另外,这些变异菌株显示了在CRISPR1中的额外间隔区序列,其中所述的额外间隔区序列分别与D2972基因组从核苷酸33968至核苷酸33997和从核苷酸30803至核苷酸30832的序列100%同一。
在额外的实验中,使用WTphi2972 +S6 phi4724 +S15作为亲代菌株并且使用D4733作为供体噬菌体。使用上述方法以从噬菌体D4724产生突变噬菌体D4733。随后,使用噬菌体D4733以从WTphi2972 +S6 phi4724 +S15获得噬菌体抗性变异菌株。所得变异菌株名为WTphi2972 +S6 phi4724 +S15 phi4733 +S16(见表7-1)。该变异菌株含有一个额外序列,其中所述的额外序列包含与来自D2972基因组的序列核苷酸29923至核苷酸29894100%同一的间隔区序列。该变异菌株显示对D2972的抗性提高,因为在WTphi2972 +S6 phi4724 +S15 phi4733 +S16上的成斑效率(EOP)减少超过8log并且其抗性扩大到噬菌体D4733(见表9-1)。表9-1提供对来自DGCC7710的一些CRISPR修饰变异菌株的噬菌体抗性的描述。在该表中,“nd”表示未测定结果。
仍在其他实验中,使用WTphi2972 +S4作为亲代菌株并且使用D4720作为供体噬菌体。使用如上文所述的相同方法,从噬菌体D2972产生突变噬菌体D4720。使用噬菌体D4720从WTphi2972 +S4获得噬菌体抗性变体。获得名为WTphi2972 +S4 phi4720 +S17的变异菌株(见表7-1)。该变异菌株含有含有一个额外序列,其中所述的额外序列包括与来自D2972基因组从核苷酸33968至33997的序列100%同一的间隔区序列。该变异菌株显示对D2972的抗性提高,因为D2972在WTphi2972 +S4 phi4724 +S17上的成斑效率(EOP)减少6log(与5log相比);并且其抗性扩大到噬菌体D4720(见表9-1)。
实施例10
在CRISPR基因座中插入第二额外序列的备选天然方法
在本实施例中,描述了用于在CRISPR基因座中插入第二额外序列的备选天然方法。已知给定亲代菌株可能对多于一个噬菌体科敏感。如本文中所述,敏感性的这种多样性有利地用来在变异菌株的CRISPR基因座中插入额外序列。在这些实验中,通过测试所选择噬菌体对亲代菌株和对变异菌株的毒力选出第二供体噬菌体。目的第二供体噬菌体是对两种菌株均有毒力的那些供体噬菌体。构思的是这些噬菌体将有可能代表与初始供体噬菌体所代表的那些科不同的噬菌体科。在选择后,所述第二供体噬菌体用来感染变异菌株。如上文方法中所述,分离第二代噬菌体抗性变异菌株并检验CRISPR基因座中的额外序列。
在这些实验中,使用本领域已知的经典微生物学方法,针对亲代菌株测试噬菌体收集物(或含有噬菌体的样品)。然后使用相同的方法针对变异菌株测试对亲代菌株有毒力的噬菌体(或样品)。选择对变异菌株有毒力的一种噬菌体(或样品)作为第二供体噬菌体。在含有噬菌体的样品的情况下,使用本领域已知的经典微生物学方法在所述变异菌株上纯化一种烈性噬菌体至均一。在一些实验中,测定了第二供体噬菌体的序列。在一些实验中,所述第二供体噬菌体随后如上文所述(见实施例7)用来引起在变异菌株的CRISPR基因座中插入第二额外序列。
在一些实验中,使用WTphi2972 +S4(见实施例8和表7-1)作为亲代菌株并且使用D858作为供体噬菌体。当测试多种噬菌体后,发现菌株DGCC7710对噬菌体D2972和噬菌体D858均敏感。另外,发现D858对变异菌株WTphi2972 +S4有毒力。因此,选择噬菌体D858作为一些实验中的第二供体噬菌体。
如实施例7中所述,使变异菌株WTphi2972 +S4暴露于第二供体噬菌体D858。获得名为WTphi2972 +S4 phi858 +S18的抵抗D858的噬菌体抗性变异菌株(见表9-1)。该菌株显示对D2972的抗性提高,因为D2972在WTphi2972 +S4 phi858 +S18上的成斑效率(EOP)减少超过8log(与WTphi2972 +S4的5log相比,见表9-1)。从WTphi2972 +S4 phi858 +S18提取DNA,并且使用如上所述的相同方法和引物,通过PCR分析其CRISPR1基因座。确定PCR产物的序列并且将其与WTphi2972 +S4的CRISPR基因座的序列比较。与WTphi2972 +S4相比,WTphi2972 +S4 phi858 +S18的差别是在其CRISPR1区5’端添加了30bp间隔区序列及重复序列发生重复,如图17中所示。该额外间隔区序列与D858基因组序列的比较显示第二额外间隔区序列与D858基因组从核苷酸30338至核苷酸30367的序列100%同一。
使用该方法在独立的实验工作中,还获得了名为WTphi2972 +S4 phi4720 +S25的另一个变异菌株(见表7-1)。该变异菌株含有一个额外序列,其中所述的额外序列包括与来自D858基因组从核苷酸33886至33915的序列100%同一的间隔区序列。该变异菌株显示对D2972的抗性提高,因为D2972在WTphi2972 +S4 phi4724 +S25上的成斑效率减少超过7log(见表9-1)。
实施例11
通过在CRISPR基因座中多次插入额外序列产生抵抗多种噬菌体的CRISPR修饰的变异菌株
在本实施例中,描述了通过在CRISPR基因座中反复添加噬菌体序列而开发多重噬菌体抗性菌株,因为在CRISPR基因座中添加2种噬菌体序列不足以赋予给定菌株针对全部噬菌体的抗性。例如,发现菌株WTphi2972 +S4 phi858 +S18(在实施例10中描述)对多种其他噬菌体敏感。在开发多重噬菌体抗性菌株的过程中,使亲代菌株经受第一种噬菌体作用以选择变异菌株,随后该变异菌株经受第二种噬菌体作用以选择抵抗两种噬菌体的第二代变异菌株。随后,将第二代变异菌株反复经受噬菌体作用,其中所述菌株对所述噬菌体是依然敏感的,直至获得抵抗全部可获得的噬菌体的最终变异菌株。
使用本领域已知的方法,鉴定了一组10种参照噬菌体,这些噬菌体是能够在菌株DGCC7710上发育的多种噬菌体的代表,即噬菌体D858、D1126、D2766、D2972、D3288、D3821、D4083、D4752、D4753和N1495。如实施例7中所述,使DGCC7710暴露于噬菌体D2972以产生变异菌株DGCC9705。发现除噬菌体D2972之外,DGCC9705还抵抗噬菌体D2766和D4752,但是对如表11-1中所示的其余噬菌体仍敏感。DGCC9705在表11-1和图17中描述。DGCC9705在CRISPR1中具有1个额外序列并且在CRISPR3中具有1个额外序列。根据实施例7中所述的方法对CRISPR1基因座的序列和CRISPR3基因座的序列进行分析。确定PCR产物的序列并且将其与DGCC7710的CRISPR1和3基因座的序列比较。DGCC9705在其CRISPR1基因座中具有1个额外间隔区并且在其CRISPR3基因座中具有1个额外间隔区。间隔区序列与来自噬菌体D2972的序列相同。使用相同方法,随后使DGCC9705暴露于噬菌体D3821并且随后分离变异菌株DGCC9726。除了抵抗D2972之外,DGCC9726还具有针对噬菌体D858、D3821、D4083和N1495的抗性(见表11-1)。与DGCC9705相比,DGCC9726在其CRISPR1基因座中具有1个额外间隔区序列(见表7-1和图17)。该额外间隔区序列与来自D2972的序列相同。通过使菌株DGCC9726暴露于噬菌体D3288,分离到DGCC9733。菌株DGCC9733额外地抵抗噬菌体D3288和D1126(见表11-1)。与DGCC9726相比,DGCC9733在其CRISPR1基因座中具有1个额外间隔区序列(见表7-1和图17)。该间隔区序列与链球菌噬菌体7201的序列具有某些同一性(25/30碱基对同一性)。最后,通过最终反复暴露于噬菌体D4753,分离到抵抗全部噬菌体的DGCC9836(见表11-1)。DGCC9836在其CRISPR1基因座中具有2个额外间隔区序列并在其CRISPR3基因座中具有2个额外间隔区序列(见表7-1和图17)。一个间隔区序列与噬菌体D2972中的一个序列相同,并且其它3个间隔区序列与噬菌体D858中的序列相同。
表11-1提供了关于CRISPR修饰的变异菌株DGCC9836和中间的CRISPR修饰的变异菌株的噬菌体敏感性的数据。在该表中,“S”表示敏感性并且“R”表示抗性。
实施例12
在CRISPR基因座中插入多个额外序列的天然方法
在本实施例中,描述了在CRISPR基因座中插入多个额外序列的方法。在这些方法中,使亲代菌株暴露于含有多种噬菌体的混合物,而非反复使用多种噬菌体。使用本领域已知的经典微生物学方法,针对多个菌株测试噬菌体收集物,旨在确定它们的宿主谱。选择对亲代菌株有毒力但是具有不同宿主谱的噬菌体。将选择的噬菌体混合并在上文提供的方法中使用(见实施例7),以引起在变异菌株的CRISPR基因座中插入额外序列。
在一些实验中,使用DGCC7710作为亲代菌株并且使用D858和D2972作为供体噬菌体。在测试多种噬菌体后,发现菌株DGCC7710对噬菌体D2972和噬菌体D858均敏感。然而,D2972和D858在菌株DGCC7778上测试时呈现不同的宿主谱,表明这两种噬菌体是不同的。
使亲代菌株DGCC7710如实施例7中所述暴露于噬菌体D858和D2972的混合物。获得名为WTphi858phi2972 +S9S10S11S12的噬菌体抗性变异菌株(见表7-1)。该菌株显示对D858的抗性,因为D858在WTphi858phi2972 +S9S10S11S12上的成斑效率减少超过7log,并且显示对D2972的抗性,因为D2972在WTphi858phi2972 +S9S10S11S12上的成斑效率减少超过7log。从WTphi858phi2972 +S9S10S11S12提取DNA,并且使用如上所述的相同方法和引物,通过PCR分析其CRISPR基因座。确定PCR产物的序列并且将其与DGCC7710的CRISPR1基因座的序列和CRISPR3基因座的序列比较。与DGCC7710相比,WTphi858phi2972 +S9S10S11S12的差别是在其CRISPR1区5’端添加了4个30bp间隔区序列及重复序列发生重复,如图17中所示。所述额外间隔区序列与D2972基因组序列的比较显示所述额外间隔区序列与D2972基因组从核苷酸7874至核苷酸7903、从核苷酸20650至核苷酸20621、从核苷酸8360至核苷酸8389和从核苷酸18998至核苷酸19027的序列100%同一。
在其他实验中,还按照这些方法获得了菌株WTphi858phi2972 +S13S14(见表7-1)。该菌株显示对D858的抗性,因为D858在WTphi858phi2972 +S13S14上的成斑效率减少7log,并且显示对D2972的抗性,因为D2972在WTphi858phi2972 +S13S14上的成斑效率减少8log。所述额外间隔区序列与D2972基因组序列的比较显示所述额外间隔区序列与D2972基因组从核苷酸33602至核苷酸33631和从核苷酸4830至核苷酸4801的序列100%同一。
实施例13
使用CRISPR修饰的变异菌株在发酵中对抗噬菌体
在本实施例中,描述了通过使用变异菌株而非亲代(即野生型,受体)菌株在发酵中对抗噬菌体的方法。因此,本实施例提供了对由变异菌株所产生益处的又一种描述。
在一些实验中,在乳发酵中在噬菌体D2972存在下进行了菌株DGCC7710与菌株WTphi2972 +S20和菌株WTphi2972 +S26S27的比较。DGCC7710是用于乳发酵中的工业菌株。菌株WTphi2972 +S20在表7-1和在实施例8描述,并且与菌株DGCC7710相比时,在其CRISPR1基因座中具有一个额外间隔区。与DGCC7710相比时,菌株WTphi2972 +S20显示针对D2972的改善抗性。WTphi2972 +S26S27是针对D2972显示一些抗性的另一种变体(表7-1中描述)并且在其CRISPR1基因座中具有2个额外间隔区。
用每种菌株进行连续发酵。首先,将10%乳粉培养基(w/v)用测试菌株的1%(v/v)预培养物接种并用104pfu/ml的噬菌体D2972接种。该培养物在42℃温育6小时。在第一发酵后,建立第二发酵。使用完全相同的发酵条件,除了添加0.1%体积先前发酵的发酵物之外(添加前,使用0.45μm滤器过滤该发酵物)。随后,以如第二发酵所用的相同实验条件进行后续发酵。通过阻抗滴定法记录全部发酵。在每个发酵结束时,测试乳的凝结作用并且使用本领域已知的方法进行噬菌体的滴定。
在噬菌体不存在的乳发酵情况下,采用DGCC7710的阻抗变化是在6小时内高于2500μS。在D2972存在时(DGCC7710对噬菌体极敏感),D2972噬菌体在第一培养期间形成高水平的种群并且发酵未能使乳凝结。阻抗变化在6小时时总是低于500μS。相反,在D2972存在下用WTphi2972 +S20的乳发酵至少允许乳凝结直至第三个传代培养并且注意到噬菌体水平的缓慢演进。阻抗的变化增加到超过2500μS,同样直至第三个传代培养。这表明变异菌株WTphi2972 +S20比亲代菌株DGCC7710更适合在噬菌体存在下用于乳酸化。进一步,在D2972存在下用WTphi2972 +S26S27发酵乳则允许乳的凝结,直至最后的传代培养,同时无噬菌体发展。另外,阻抗的变化增加到超过2500μS,同样直至最后的传代培养。这表明变异菌株WTphi2972 +S26S27比亲代菌株DGCC7710更适合并且甚至比WTphi2972 +S20更适合在噬菌体存在下用于乳酸化。重复所述实验,并且在表13-1中呈现结果。
在第二组实验中,重复了在乳发酵中在噬菌体D2972存在下菌株DGCC7710与菌株WTphi2972 +S20和菌株WTphi2972 +S26S27的比较。另外,研究了菌株DGCC9836。菌株DGCC9836是DGCC7710的更为进化的变异菌株,它是多重噬菌体攻击的结果。该菌株在其CRISPR1基因座中具有5个额外间隔区并在其CRISPR3基因座中具有3个额外间隔区(见实施例11和图17)。DGCC9836抵抗全部测试的噬菌体。
如上所述开展试验。在表13-2中显示结果。就第一组试验而言,在D2972存在下用WTphi2972 +S20的乳发酵允许乳凝结直至第5次传代培养并且测定到噬菌体水平的缓慢演进。阻抗的变化在头5个传代培养期间增加到超过2500μS,表明乳酸化不受噬菌体影响。在第6次传代培养时,噬菌体水平显著升高并且乳发酵被破坏。对于其他2个变异菌株,乳发酵在全部6个传代培养期间不受影响,噬菌体从未发生并且记录的阻抗变化总是高于2500μS。
这些实验表明在其CRISPR1基因座中含有至少一个额外间隔区序列的菌株允许进行乳发酵,甚至在噬菌体存在时。当菌株在其CRISPR基因座中具有多于一个额外间隔区序列时,乳发酵甚至更安全。
实施例14
使用CRISPR修饰的变异菌株的组合在发酵中对抗噬菌体
在本实施例中,描述了通过使用变异菌株组合而非单一菌株在发酵中对抗噬菌体的方法。因此,该实施例展示了多于一种变异菌株(即,变异菌株组合)的同时使用。实际上,在此类应用中使用显示相同功能性、然而显示不同噬菌体敏感性模式的菌株混合物。例如,在此类应用中使用如本文中所述的2种或3种或更多种变异菌株。使用在其CRISPR基因座中具有添加的不同间隔区序列的变异菌株的组合使得发酵更容易抵抗新出现的任何突变噬菌体。
在一些实验中,在噬菌体D2972存在下,在乳发酵中所用的单一菌株WTphi2972 +S21和3个菌株(即WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22)组合之间进行比较。在表7-1和在实施例8中描述菌株WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22。它们是DGCC7710的独立变异菌株。与菌株DGCC7710相比时,每个变异菌株在其CRISPR1基因座中显示独特的额外间隔区序列(其源自噬菌体D2972)。
单用菌株WTphi2972 +S21或用三种菌株的组合进行连续发酵。首先,10%乳粉培养基(w/v)仅用1%(v/v)的所述菌株的预培养物或用菌株组合接种并且用104pfu/ml的噬菌体D2972接种。培养物在42℃温育6小时。在第一发酵后,建立第二发酵温。使用完全相同的发酵条件,除了添加0.1%体积先前发酵的发酵物之外(添加前,使用0.45μm滤器过滤该发酵物)。随后,使用与第二发酵所用的相同实验条件进行后续发酵。通过阻抗滴定法记录全部发酵。在每个发酵结束时,测试乳的凝结作用并且使用本领域已知的方法进行噬菌体的滴定。重复所述实验,并且在表14-1中提供结果。
在两个实验中在噬菌体存在下用WTphi2972 +S21进行的乳发酵在第三次传代培养时失败。这由发酵6小时后缺乏乳凝结和阻抗变化明显降低显示。相反,当使用三菌株的混合物时,尽管产生了一些噬菌体D2972,然而成功地实施了发酵直至第五次传代培养。在全部培养中记录到乳的凝结并且阻抗变化在6小时温育期间从未低于3000μS。
这些实验说明与使用单一变异菌株相比,使用在其CRISPR1基因座中具有至少一个额外的独特间隔区序列的菌株允许在噬菌体存在下进行乳发酵。
实施例15
使用CRISPR修饰的变异菌株轮换在发酵中对抗噬菌体
在额外的实验中,轮换使用变异菌株。在一些实验中,所述菌株具有相同的功能性,但具有不同的噬菌体敏感性模式。因此,在本实施例中,描述了在轮换方案中就反复/接着使用几种不同菌株(即CRISPR修饰的变异菌株)方面依次实施的实验。
在一些实验中,在噬菌体D2972存在下,在乳发酵中仅使用单一菌株WTphi2972 +S21和依次(轮换)使用菌株WTphi2972 +S20、WTphi2972 +S21及WTphi2972 +S22之间进行比较。第一乳发酵用菌株WTphi2972 +S20进行。随后,菌株WTphi2972 +S22用于第二发酵,并且菌株WTphi2972 +S21用于第三发酵。第四发酵随后再次使用菌株WTphi2972 +S20进行,然后,用菌株WTphi2972 +S2进行发酵,随后用WTphi2972 +S21,依此类推。在上文表7-1中描述了菌株WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22。它们是菌株DGCC7710的独立变异菌株。与菌株DGCC7710相比时,每个变异菌株在其CRISPR1基因座中显示独特的额外间隔区序列(其源自噬菌体D2972)。
使用如实施例14中所述的相同实验方法进行连续发酵。一式三份进行实验;结果在表15-1中显示。仅用WTphi2972 +S20接种的连续发酵是成功的,直至第三次传代培养,如高于3000μS的阻抗变化值和乳凝结所示。下一次传代培养不能使乳凝结并且记录到高的噬菌体值。相反,通过轮换用3种不同的变异菌株(WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22)接种所产生的连续发酵成功进行直至第十次传代培养。在这些实验条件下,噬菌体不能增殖并保持低水平。该结果显示与使用单一变异菌株相比,使用变异菌株的轮换导致发酵期间噬菌体抗性改善。
实施例16
使用CRISPR修饰的变异菌株减少和控制噬菌体群体
在本实施例中,描述了为确定CRISPR修饰菌株摧毁噬菌体的能力所实施的实验,其中已经使CRISPR修饰菌株具有抗性。具体地,设计实验以确定噬菌体群体在CRISPR修饰菌株发酵期间是否降低到不可检测的水平。
在一些实验中,DGCC9836(在实施例11和在图17中描述)用来在噬菌体D2972存在下进行乳发酵,与用其亲代菌株DGCC7710在D2972存在下进行的发酵比较。首先,10%乳粉培养基(w/v)用测试菌株的约106cfu/ml预培养物接种并用107pfu/ml的噬菌体D2972接种。培养物在42℃温育24小时。在各个时间点,取得一小份试样并且使用接种DGCC7710的双层琼脂平板,使用本领域已知的标准方法测定噬菌体群体。结果在图20中显示。在用DGCC7710进行的乳发酵中,噬菌体D2972发展成大于108pfu/ml的种群。相反,在用DGCC9836发酵期间,D2972噬菌体群体在温育6小时后逐渐下降至非常低水平(120pfu/ml),并且在在温育24小时后几乎检测不到。这种最后结果表明噬菌体在用变异菌株DGCC9836发酵的过程期间被摧毁。
与菌株对噬菌体不敏感但对噬菌体无害的传统起子培养物轮换程序相比,变异菌株摧毁噬菌体以及对噬菌体不敏感的特性代表了一种额外益处。实际上,通过使用变异菌株,蛰伏噬菌体的根除将通过洗掉噬菌体(就使用传统起子培养物的轮换而言)和摧毁噬菌体的组合而进行。
在其他实验中,在乳发酵中在D2972存在下联合了针对噬菌体D2972展示一些但不完全抗性的变异菌株。选择的变异菌株包括如实施例8中和表7-1中所述的WTphi2972 +S20和WTphi2972 +S21。这些菌株对噬菌体D2972显示约5log的EOP降低。乳发酵如上文所述进行(细菌接种率106cfu/ml;噬菌体接种率107pfu/ml)。用WTphi2972 +S20或用WTphi2972 +S21或用这两种菌株的混合物进行乳发酵。在多个时间点上,记录噬菌体群体。为此目的,取得一小份试样并且使用以WTphi2972 +S20或以WTphi2972 +S21接种的双层琼脂平板,使用本领域已知的标准方法测定噬菌体群体。在图21中呈现结果,所述结果显示了对于每个乳发酵在WTphi2972 +S20和在WTphi2972 +S21中检测到的噬菌体的总数。当单一菌株(WTphi2972 +S20或WTphi2972 +S21)用于发酵时,在接种时检测到的噬菌体的数目是约100pfu/ml(因5log的EOP降低)。当培养后,这个噬菌体数(分别)升高到106或107,对应于噬菌体增殖达4至5log。对于用2种菌株接种的乳发酵而言,噬菌体的增殖倍数低得多(2log)。实际上,噬菌体的数目从100pfu/ml升高到最大约104pfu/ml。这些结果结论性地证实与使用单一变异菌株进行的培养中的噬菌体繁殖率相比,在2种变异菌株共培养期间,噬菌体的繁殖率显著降低。
实施例17
间隔区的插入
在本实施例中,描述了用来在嗜热链球菌DGC7710中插入两个间隔区的方法和组合物。嗜热链球菌菌株DGCC7710(以编号CNCM I-2423保藏于法国“国家培养物与微生物保藏中心”)拥有至少3个CRISPR基因座:CRISPR1、CRISPR2和CRISPR3。在已知完整基因组序列的菌株CNRZ1066和LMG18311中(见,上文的Bolotin等[2004]),CRISPR1位于相同的染色体基因座处:在str0660(或stu0660)和str0661(或stu0661)之间(见,图18)。在菌株DGCC7710中,CRISPR1也位于相同的染色体基因座处,位于高度相似的基因之间。菌株DGCC7710的CRISPR1含有33个重复序列(包括末端重复序列)并且因此含有32个间隔区(见,图19)。全部这些间隔区是彼此不同的。先前没有描述这些间隔区大部分处于CRISPR基因座中,不过靠近CRISPR1非转录尾区的4个间隔区是与已知的CRISPR1间隔区同一的。例如,DGCC7710的第28间隔区与菌株CNRZ1575的第31CRISPR1间隔区(Genbank登录号DQ072991)100%同一;DGCC7710的第30间隔区与菌株CNRZ703的第27CRISPR1间隔区(Genbank登录号DQ072990)100%同一;DGCC7710的第31间隔区与菌株CNRZ703的第28CRISPR1间隔区(Genbank登录号DQ072990)100%同一;并且DGCC7710的第32间隔区与菌株CNRZ703的第30CRISPR1间隔区(Genbank登录号DQ072990)100%同一。下文在SEQ ID NO:678中显示菌株DGCC7710的CRISPR1序列(5′-3′):
caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtgtttgacagcaaatcaagattcgaattgt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaatgacgaggagctattggcacaacttaca
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcgatttgacaatctgctgaccactgttatc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACacacttggcaggcttattactcaacagcga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACctgttccttgttcttttgttgtatcttttc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACttcattcttccgtttttgtttgcgaatcct
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgctggcgaggaaacgaacaaggcctcaaca
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcatagagtggaaaactagaaacagattcaa
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACataatgccgttgaattacacggcaaggtca
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgagcgagctcgaaataatcttaattacaag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgttcgctagcgtcatgtggtaacgtattta
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACggcgtcccaatcctgattaatacttactcg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaacacagcaagacaagaggatgatgctatg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcgacacaagaacgtatgcaagagttcaag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACacaattcttcatccggtaactgctcaagtg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaattaagggcatagaaagggagacaacatg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcgatatttaaaatcattttcataacttcat
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgcagtatcagcaagcaagctgttagttact
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACataaactatgaaattttataatttttaaga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaataatttatggtatagcttaatatcattg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtgcatcgagcacgttcgagtttaccgtttc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtctatatcgaggtcaactaacaattatgct
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaatcgttcaaattctgttttaggtacattt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaatcaatacgacaagagttaaaatggtctt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgcttagctgtccaatccacgaacgtggatg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcaaccaacggtaacagctactttttacagt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACataactgaaggataggagcttgtaaagtct
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtaatgctacatctcaaaggatgatcccaga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaagtagttgatgacctctacaatggtttat
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACacctagaagcatttgagcgtatattgattg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaattttgccccttctttgccccttgactag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaccattagcaatcatttgtgcccattgagt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT
Ttgattcaacataaaaagccagttcaattgaacttggcttt (SEQID NO:678)
在这些实验中使用的噬菌体D858是属于病毒长尾噬菌体科的噬菌体。其基因组序列已经完全测定,它似乎仍待发表。该噬菌体对嗜热链球菌菌株DGCC7710有毒力。使用DGCC7710作为亲代菌株并使用噬菌体D858作为烈性噬菌体,分离作为天然噬菌体抗性突变体的嗜热链球菌菌株DGCC7778。菌株DGCC7778的CRISPR1含有35个重复序列(包括末端重复序列)并且因此含有34个间隔区。与DGCC7710的CRISPR1序列比较时,DGCC7778的CRISPR1序列在CRISPR基因座的一端(即靠近前导序列)拥有两个额外的、毗邻的新间隔区(并且当然拥有两个额外的重复序列,其分布在所述新间隔区侧翼)。CRISPR1基因座的其余全部间隔区是不变的。下文在SEQ ID NO:679中显示菌株DGCC7778的CRISPR1序列(5′-3′):
caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcaacacattcaacagattaatgaagaatac
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtccactcacgtacaaatagtgagtgtactc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtgtttgacagcaaatcaagattcgaattgt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaatgacgaggagctattggcacaacttaca
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcgatttgacaatctgctgaccactgttatc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACacacttggcaggcttattactcaacagcga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACctgttccttgttcttttgttgtatcttttc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACttcattcttccgtttttgtttgcgaatcct
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgctggcgaggaaacgaacaaggcctcaaca
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcatagagtggaaaactagaaacagattcaa
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACataatgccgttgaattacacggcaaggtca
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgagcgagctcgaaataatcttaattacaag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgttcgctagcgtcatgtggtaacgtattta
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACggcgtcccaatcctgattaatacttactcg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaacacagcaagacaagaggatgatgctatg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcgacacaagaacgtatgcaagagttcaag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACacaattcttcatccggtaactgctcaagtg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaattaagggcatagaaagggagacaacatg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcgatatttaaaatcattttcataacttcat
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgcagtatcagcaagcaagctgttagttact
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACataaactatgaaattttataatttttaaga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaataatttatggtatagcttaatatcattg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtgcatcgagcacgttcgagtttaccgtttc
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtctatatcgaggtcaactaacaattatgct
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaatcgttcaaattctgttttaggtacattt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaatcaatacgacaagagttaaaatggtctt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACgcttagctgtccaatccacgaacgtggatg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACcaaccaacggtaacagctactttttacagt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACataactgaaggataggagcttgtaaagtct
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtaatgctacatctcaaaggatgatcccaga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaagtagttgatgacctctacaatggtttat
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACacctagaagcatttgagcgtatattgattg
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaattttgccccttctttgccccttgactag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACaccattagcaatcatttgtgcccattgagt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT
Ttgattcaacataaaaagccagttcaattgaacttggcttt(SEQ ID NO:679)
在DGCC7778的情况下,第一间隔区(5′-caacacattcaacagattaatgaagaatac-3′;SEQ ID NO:680)和第二间隔区(5′-tccactcacgtacaaatagtgagtgtactc-3′;SEQ ID NO:681)构成鉴定这种标记菌株的菌株特异性标签。已经确定这两种新间隔区的序列存在于D858噬菌体基因组中。第二新间隔区的序列存在于D858基因组的第25471和25442bp位置之间(即在负链上),具有一个错配(在30个核苷酸范围内96.7%的相同核苷酸)。
间隔区2 1 tccactcacgtacaaatagtgagtgtactc 30(SEQID NO:681)
||||||||||||||||||||||| ||||||
D858 25471 tccactcacgtacaaatagtgagcgtactc 25442(SEQ ID NO:686)
第一间隔区的序列存在于D858基因组的第31481和31410bp位置之间(即在负链上)(在30个核苷酸范围内100%的相同核苷酸):
间隔区1 1 caacacattcaacagattaatgaagaatac 30(SEQ ID NO:3)
||||||||||||||||||||||||||||||
D858 31481 caacacattcaacagattaatgaagaatac 31410(SEQ ID NO:687)
虽然不意图使本发明限于任何具体机制和理论,构思了需要在DGCC7778的CRISPR1基因座中存在的两个新间隔区以赋予菌株DGCC7778针对噬菌体D858的新抗性。(如在DGCC7778中发现的)间隔区“2”连同一个重复序列一起首先在DGCC7710的CRISPR1基因座的一端插入该CRISPR1基因座(33个重复序列和32个间隔区)中。这种插入产生由这种额外的新间隔区标记(因此携带34个重复序列和33个间隔区)的噬菌体不敏感性突变体(中间菌株)。这种间隔区从D858基因组衍生,不过可能在插入过程期间出现复制错误或逆转录错误,导致点突变。因这种新获得的间隔区与靶向的噬菌体序列之间的不完美匹配(即1个错配),这种中间菌株针对噬菌体D858的抵抗效率低。间隔区插入的第二事件在这种中间菌株(其比亲代菌株DGCC7710更抵抗噬菌体D858,但因所述错误配而不是“完全”抵抗)中发生,从而导致在CRISPR1基因座的相同末端连同一个重复序列一起插入新的第二间隔区(即,如在DGCC7778中发现的间隔区″1″)。这种第二插入产生了被分离并命名为DGCC7778的噬菌体不敏感性新突变体。DGCC7778比所述中间菌株更抵抗D858,并且当然其抗性比亲代菌株DGCC7710高得多,原因是存在与所靶向的噬菌体序列100%同一的间隔区″1″。
实施例18
用于标记DGCC7710和选择标记菌株DGCC7778的方法
在本实施例中,描述了用来标记DGCC7710和选择标记DGCC7778菌株的方法。通过用约2.106cfu/ml的菌株DGCC7710和用约1.105pfu/ml的噬菌体D858接种巴斯德法灭菌乳,由噬菌体D858感染/攻击菌株DGCC7710。接种的乳在35℃培育12小时。温育后,使用感染的培养物的适宜稀释物,在35℃于非选择性培养基(乳琼脂平板)上分离活细菌(即有可能是噬菌体不敏感性突变体的那些细菌)。在35℃于M17-葡萄糖液体培养基中增殖一株名为DGCC7778的分离株并且使用如本领域已知的经典DNA提取方法提取其DNA。
使用一条正向引物(YC70和/或SPIDR-ups[5′-gTCTTTAgAAACTgTgACACC];SEQ ID NO:674)和一条反向引物(YC31和/或SPIDR-dws[5’-TAAACAgAgCCTCCCTATCC];SEQ ID NO:675)的组合,使用本领域已知的PCR法(见例如上文的Bolotin等[2005])扩增该DNA提取物。确定PCR产物的序列并且将其与DGCC7710的CRISPR基因座的序列比较。
实施例19
第二标记菌株的产生
在本实施例中,描述了用来产生第二标记菌株的方法。使用DGCC7710作为亲代菌株并使用噬菌体D858作为烈性噬菌体,分离了作为天然噬菌体抗性突变体的嗜热链球菌菌株DGCC7710-RH1。
菌株DGCC7710-RH1的CRISPR1含有34个重复序列(包括末端重复序列)并且因此含有33个间隔区。与嗜热链球菌菌株DGCC7710的CRISPR1序列比较时,嗜热链球菌菌株DGCC7710-RH1的CRISPR1序列在CRISPR基因座的一端处(即在CRISPR基因座5’端处靠近前导序列)拥有一个额外的新间隔区(即标记序列)(并且当然拥有一个分布在这个新间隔区侧翼的额外重复序列)。CRISPR1基因座的其余全部间隔区是不变的。菌株DGCC7710-RH1的CRISPR1序列(5′-3′)是:
caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtcaacaattgcaacatcttataacccactt
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT
Ttgattcaacataaaaagccagttcaattgaacttggcttt(SEQID NO:682)
前导序列是5′caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag 3′(SEQID NO:688)。以灰色显示包含CRISPR重复序列(大写字母)和CRISPR间隔区(即标签序列)的整合序列(GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACtcaacaattgcaacatcttataacccactt;SEQ ID NO:689),其中所述的CRISPR间隔区以小写字母显示。显示了末端重复(5′gtttttgtactctcaagatttaagtaactgtacagt3′(SEQ IDNO:3)非转录尾区序列:5′ttgattcaacataaaaagccagttcaattgaacttggcttt3′(SEQ ID NO:691)。
因此,在嗜热链球菌菌株DGCC7710-RH1的情况下,间隔区(5′-tcaacaattgcaacatcttataacccactt-3′;SEQ ID NO:534)构成了鉴定这种突变菌株(即标记细菌)的菌株特异性标签序列。新间隔区的序列(即,标签序列)存在于D858噬菌体基因组中。发现该间隔区的序列存在于D858基因组位置第31921和31950bp之间(即,在正链上)(并且与D858基因组序列具有30个核苷酸范围内的100%同一性。
间隔区 1 tcaacaattgcaacatcttataacccactt 30(SEQID NO:534)
||||||||||||||||||||||||||||||
D858 31921 tcaacaattgcaacatcttataacccactt 31950(SEQID NO:534)
整合到嗜热链球菌菌株DGCC7710-RH1的CRISPR1基因座中的新间隔区(即标签序列)赋予该菌株针对噬菌体D858的新抗性。
实施例20
第三标记菌株的产生
在本实施例中,描述了用来产生第三标记菌株的方法。使用嗜热链球菌菌株DGCC7710作为亲代菌株并使用噬菌体D858作为烈性噬菌体,分离了作为天然噬菌体抗性突变体的嗜热链球菌菌株DGCC7710-RH2。嗜热链球菌菌株DGCC7710-RH2的CRISPR1含有34个重复序列(包括末端重复序列)并且因此含有33个间隔区。与嗜热链球菌菌株DGCC7710的CRISPR1序列比较时,嗜热链球菌菌株DGCC7710-RH2的CRISPR1序列在CRISPR基因座的一端处(即在CRISPR基因座5’端处靠近前导序列)拥有一个额外的新间隔区(即标记序列)(并且当然拥有一个分布在这个新间隔区侧翼的额外重复序列)。CRISPR1基因座的其余全部间隔区是不变的。
菌株DGCC7710-RH2的CRISPR1序列(5′-3′)是:
caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACttacgtttgaaaagaatatcaaatcaatga
GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAGT
Ttgattcaacataaaaagccagttcaattgaacttggcttt(SEQ ID NO:684)
前导序列是5′caaggacagttattgattttataatcactatgtgggtataaaaacgtcaaaatttcatttgag 3′(SEQID NO:688)。
以灰色显示包含CRISPR重复序列(大写字母)和CRISPR间隔区(即标签序列)的整合序列(GTTTTTGTACTCTCAAGATTTAAGTAACTGTACAACttacgtttgaaaagaatatcaaatcaatga;SEQ ID NO:694),其中所述的CRISPR间隔区以小写字母显示。显示了末端重复(5′gtttttgtactctcaagatttaagtaactgtacagt(SEQ IDNO:3)非转录尾区序列:5′ttgattcaacataaaaagccagttcaattgaacttggcttt3′(SEQ ID NO:691)。
因此,在嗜热链球菌菌株DGCC7710-RH2的情况下,间隔区(5′-ttacgtttgaaaagaatatcaaatcaatga-3′;SEQ ID NO:697)构成了鉴定这种突变菌株(即标记细菌)的菌株特异性标签。新间隔区的序列显示存在于D858噬菌体基因组中。发现该间隔区的序列存在于D858基因组位置第17215和17244bp之间(即,在正链上)(并且与D858基因组序列具有超过30个核苷酸的100%同一性。
间隔区 1 ttacgtttgaaaagaatatcaaatcaatga 30(SEQID NO:697)
||||||||||||||||||||||||||||||
D858 17215 ttacgtttgaaaagaatatcaaatcaatga 17244(SEQ ID NO:698)
整合到嗜热链球菌菌株DGCC7710-RH2的CRISPR1基因座中的新间隔区赋予嗜热链球菌菌株DGCC7710-RH2针对噬菌体D858的新抗性。
实施例21
从噬菌体抗性细菌变体构建“CRISPR逃逸”噬菌体
在本实施例中,描述了用于构建CRISPR逃逸噬菌体的方法。首先如上文实施例中所述构建噬菌体抗性宿主变体。在这些实验中,使亲代菌株“A”暴露于噬菌体“P”并选择噬菌体抗性变体(变体“A1.0”)。分析变体“A1.0”(例如通过PCR和/或DNA测序)以证实CRISPR基因座内存在额外的插入间隔区。随后确定该额外间隔区(间隔区Sp1.0)的核苷酸序列。一般地,间隔区Sp1.0是来自噬菌体P的大小大约30个核苷酸的片段,并且赋予针对噬菌体P和相关噬菌体(“相关噬菌体”是在其基因组中含有该间隔区序列的那些噬菌体,并且定义了一个噬菌体科)的抗性。
独立于第一次噬菌体暴露,使相同亲代菌株A暴露于相同的噬菌体P并且选出第二种噬菌体抗性变体(变体A2.0)。选择变体A2.0旨在也具有插入CRISPR基因座内的额外间隔区(间隔区Sp2.0),但是间隔区Sp2.0的序列与间隔区Sp1.0的序列不同。一般地,间隔区Sp2.0是来自噬菌体P的大小大约30个核苷酸的片段,并且赋予针对噬菌体P和相关噬菌体的抗性。类似地,在一些实施方案中,通过使相同菌株A暴露于相同的噬菌体P产生了变体A3.0至变体Ax.0。选择全部“A”变体,旨在也具有插入CRISPR基因座内的额外间隔区(间隔区Sp3.0至Spx.0),但是全部“Sp”间隔区的序列彼此相互不同。一般地,“Sp”间隔区是来自噬菌体P的大小大约30个核苷酸的片段,并且它们均产生针对噬菌体P和相关噬菌体的抗性。
一般,可以估计抗性的水平大约是在噬菌体基因组中对应于间隔区的序列内出现的单一突变的水平(即大致10-4至10-6)。因此,逃避CRISPR介导的抗性的噬菌体容易分离。通过使变体A1.0暴露噬菌体P而产生突变噬菌体。一般地,突变的“CRISPR逃逸”噬菌体(P1.0)在其对应于间隔区Sp1.0的基因组中携带至少一个突变(例如缺失、点突变等),或在一些优选的实施方案中,携带分布在Sp1.0侧翼的对应于CRISPR基序增或减20bp的区域。变体A1.0对噬菌体P1.0敏感。类似地,同样用噬菌体P攻击独立产生的携带独特间隔区(分别是Sp2.0,Sp3.0,至Spx.0)的噬菌体P抗性变体(变体A2.0、A3.0、至Ax.0)以产生相应的突变噬菌体(分别是P2.0、P3.0,至Px.0)。随后,可以产生突变的烈性噬菌体汇集物,其中已经特异性地使它们的基因组突变成预计作为CRISPR间隔区的序列。
实际上,噬菌体D2792代表一种针对嗜热链球菌菌株DGCC7710(WT)的完全烈性的生物控制噬菌体。相反,分析相关菌株WTphi2972 +S6、WTphi2972 +S4、WTphi2972 +S20、WTphi2972 +S21和WTphi2972 +S22的CRISPR基因座,表明存在与噬菌体D2972中发现的序列相似的间隔区序列,其中所述的序列表明噬菌体D2972具有针对这些菌株的减低毒力。成斑数据(见表7-1)证实噬菌体D2972对这些菌株的毒力减低。就已经表征为因存在相应CRISPR间隔区而抵抗噬菌体D2972的菌株WTphi2972 +S6而言,筛选D2972相关噬菌体,对于充分提高了毒力的噬菌体D4724和D4733鉴定为生物控制剂的候选者(见表7-1)
在额外的实验中,使菌株DGCC7710暴露于噬菌体D2972以产生抗性变体WTphi2972 +S6。当菌株WTphi2972 +S6暴露于噬菌体D2972时,有可能分离到突变噬菌体,如D4724。发现该D4724噬菌体对DGCC7710和WTphi2972 +S6是有完全毒力的。在第二重复中,使WTphi2972 +S6暴露于噬菌体D4724,旨在产生抗性变体WTphi2972 +S6 phi4724 +S15。在该菌株暴露于D4724后,鉴定到对DGCC7710和WTphi2972 +S6具有完全毒力的突变噬菌体,如D4733。在一些实施方案中,使用连续重复(successive iteration)以产生具有所需毒力水平的噬菌体。
图13中提供额外的噬菌体突变体实例。在该图中,显示从亲代噬菌体D858衍生的突变噬菌体858-A和858-B。所述突变与源自受噬菌体D858攻击的WTΦ858+S1S2中的间隔区S1对应。
又在其他例子中,其中在CRISPR基序中鉴定到所述突变的完全烈性噬菌体突变体示于表20-1中。在该表中,显示了野生型和突变噬菌体中与嗜热链球菌菌株新获得的间隔区对应的核苷酸序列。AGAAW基序以灰色突出显示。每个突变以大写字母和下划线显示。*表示缺失。该表提供了噬菌体抗性CRISPR变体和烈性噬菌体突变体配对的序列:DGCC7710φ858 +S3/噬菌体2972.S3C、DGCC7710φ2972 +S4/噬菌体2972.S4A或噬菌体2972.S4C、DGCC7710φ2972 +S6/噬菌体2972.S6A和DGCC7710φ2972 +S4 φ858 +S32/噬菌体858.S32A或噬菌体858.S32D。在该表中,新的间隔区对应于SEQ ID NO:535(DGCC7710φ858 +S3)。
实施例22
第二水平“CRISPR逃逸”噬菌体
在本实施例中,描述了用于构建第二水平(即具有针对多个间隔区的多重突变)CRISPR逃逸噬菌体的实验.
通过产生CRISPR介导的噬菌体抗性变体并随后分离能够克服cas-CRISPR机制的突变(“CRISPR逃逸”)噬菌体的反复过程,可以产生已经“预先适应”的具备针对潜在CRISPR介导抗性的多重突变的噬菌体。
在一些实施方案中,第二水平变体以如下方式产生,即通过使变体A1.0暴露于噬菌体P而分离突变噬菌体。一般地,这种突变噬菌体(噬菌体P1.0)在其基因组中含有间隔区Sp1.0的序列的区域内或在分布于Sp1.0侧翼的对应于CRISPR基序增或减20bp的区域内具有突变(缺失、点突变等)。变体A1.0对噬菌体P1.0敏感。随后,使变体A1.0暴露于噬菌体P1.0并选择噬菌体抗性变体(变体“A1.1”)(见图15)。还选择变体A1.1,从而该变体具有插入CRISPR基因座内的额外间隔区(间隔区Sp1.1),但是间隔区Sp1.1的序列与间隔区Sp1.0、Sp2.0至Spx.0的序列不同。一般地,间隔区Sp1.1是来自噬菌体P1.0的大小大约30个核苷酸的片段,并且将赋予针对噬菌体P1.0和相关噬菌体的抗性。变体A1.1抵抗噬菌体P1.0并优选地具有针对噬菌体P的提高抗性,原因是间隔区Sp1.0和Sp1.1的积累。
在其它的实施方案中,通过使变体A1.1暴露于噬菌体P1.0而产生新突变的噬菌体(噬菌体P1.1)。随后,在变体A1.1暴露于噬菌体P1.1后,获得含有一个新的额外间隔区(Sp1.2)的新变体A1.2。该间隔区赋予针对噬菌体P1.1的抗性并且优选地提高针对噬菌体P1.0和P的抗性(即,因间隔区Sp1.0、Sp1.1、Sp1.2积累所致)。噬菌体P1.1对亲代菌株A及变体A1.0和A1.1具有完全感染性。
又在其它的实施方案中,在菌株A中通过变体A1,随后变体A1.1,然后变体A1.2等反复积累不同的间隔区(例如2、3或4个)以获得高度抵抗噬菌体的变体(变体A1.n)。在进一步的实施方案中,可以在相同菌株中通过变体A2,随后变体A2.1,然后变体A2.2等积累额外的不同间隔区以平行地获得高度抵抗噬菌体的菌株A的另一种变体(变体A2.n)。将相同的策略用于变体A3.0至Ax.0。
在产生CRISPR噬菌体抗性变体并分离突变的“CRISPR逃逸”噬菌体的反复过程(例如使变体A1.1暴露于噬菌体P1.1)后,产生了含有一个新的额外间隔区(Sp1.2)的新变体A1.2,由此分离对变体A1.2、A1.1、A1.0和亲代菌株A具有完全毒力的突变噬菌体(P1.2)。
在一些实施方案中,组合突变通过这种方式积累,即反复地构建组合有不同间隔区(例如Sp2.0、Sp3.0至Spx.0)的细菌变体,使之暴露于相应的第一水平突变噬菌体(P2.0、P3.0至Px.0)并且分离第二水平突变噬菌体。
在表22-1中显示产生CRISPR噬菌体抗性变体和突变“CRISPR逃逸”噬菌体的反复组合突变的例子。该表提供一系列在CRISPR1中发现的新间隔和在噬菌体2972、858或DT1中的相应区域。在该表中,“a”表示噬菌体858与2972之间100%同一的DNA区域。“5’位置”指噬菌体基因组中原型间隔区的5’位置。原型间隔区序列中加下划线和阴影的核苷酸表示所述噬菌体与间隔区之间的错配。星号(*)表示缺失。“3’侧翼区”中表示噬菌体基因组中的3’侧翼序列。对AGAAW基序中的错配加下划线并加灰色阴影。在名为“链/模块”的列中,转录模块是“E”(早期表达的基因);“M”(中期表达的基因);和“L”(晚期表达的基因)
使DGCC7710暴露于噬菌体2972以产生CRISPR噬菌体抗性变体DGCC7710φ2972 +S6,从其产生CRISPR逃逸突变噬菌体2972.S6B。DGCC7710φ2972 +S6暴露于2972.S6B则产生CRISPR噬菌体抗性变体DGCC7710φ2972 +S6 φ2972.S6B +S20,从其分离出CRISPR逃逸突变噬菌体2972.S20A的。
在一些实施方案中,提供了抵抗多于一个噬菌体科的菌株。因为给定菌株可以对多于一个噬菌体科敏感,因而在一些实施方案中,希望通过在CRISPR基因座内导入源自其它噬菌体科的额外间隔区来扩大该菌株针对多个噬菌体科的抗性(见图16)。例如,噬菌体P、Q和R是能够感染菌株A的三个噬菌体科的代表性噬菌体。使用以上和本文中概述的方法,产生了抵抗全部三个噬菌体科的变体。在一些实施方案中,噬菌体P用来产生抵抗噬菌体P的变体A1p(含有间隔区Sp1)。随后,使变体A1p暴露于噬菌体Q并且选出噬菌体抗性变体(变体A1pq)。变体A1pq具有插入CRISPR基因座内的一个额外间隔区(Sq1)。一般地,间隔区Sq1是来自噬菌体Q的大小大约30个核苷酸的片段,并且赋予针对噬菌体Q和相关噬菌体的抗性。变体A1pq抵抗P和Q噬菌体。接下来,使变体A1pq暴露于噬菌体R并且选出噬菌体抗性变体(变体A1pqr)。变体A1pqr有插入CRISPR基因座内的第三额外间隔区(Sr1)。一般地,Sr1是来自噬菌体R的大小大约30个核苷酸的片段,并且也赋予针对噬菌体R和相关噬菌体的抗性。变体A1pqr抵抗全部三种噬菌体。在一些特别优选的实施方案中,该变体也抵抗相关噬菌体。
这些CRISPR逃逸噬菌体用作生物控制/治疗噬菌体。如上文所述,通过产生CRISPR介导的噬菌体抗性变体、暴露于噬菌体并分离烈性“CRISPR逃逸”噬菌体的过程,产生这样的噬菌体物种混合物,它们携带靶向单个和/或多个噬菌体基因组序列的单个和/或多重突变,其中所述的噬菌体基因组序列是潜在的CRISPR间隔区靶标。由于靶宿主细菌可以通过掺入单一和/或多个间隔区而变得抵抗噬菌体并且Cas-CRISPR机制可以通过在对应于此类间隔区的噬菌体基因组内突变被克服,因而携带多个突变的噬菌体的混合物的使用降低了单个细菌成功获得新间隔区并增殖的比率。
在其它的实施方案中,对从相应CRISPR噬菌体抗性变体中的间隔区确定的原型间隔区和侧翼区进行分析促进了特定CRISPR的CRISPR基序的鉴定。在DGCC7710的例子中,用噬菌体2972或858攻击后,产生了含有间隔区S1-S33的CRISPR1噬菌体抗性变体。使用软件程序Clustal X比对来自噬菌体2972或858基因组的与间隔区S1-S33对应的原型间隔区和侧翼区,鉴定CRISPR1基序为NNAGAAW(SEQ ID NO:696),并使用WebLogo显示(图22)。
在又一个例子中,用噬菌体858和3821攻击后,从DGCC7710衍生了CRISPR3噬菌体抗性变体,以及用噬菌体4241攻击后,从LMD-9衍生了CRISPR3噬菌体抗性变体。将来自分别的噬菌体基因组的原型间隔区和侧翼区与分别的CRISPR3噬菌体抗性变体的相应间隔区比对,鉴定了CRISPR3基序为NGGNG(SEQ ID NO:723)(图23)。
分析特定CRISPR基序的存在提供了鉴定推定的原型间隔区在基因组内或其他特定序列(例如,质粒或另一种可移动遗传元件)的位置的手段。在已测序的噬菌体858、2972和DT1的例子中,对AGAAW CRISPR1基序分布的分析鉴定了潜在的原型间隔区在分别的基因组内的位置。如本领域已知,利用遗传密码的简并性和/或利用保守性氨基酸替代,在对噬菌体
X174所述的基因组化学合成的过程中消除了每个AGAAW基序。因此,该噬菌体对Cas-CRISPR1抗性系统变得不敏感。因此,不含特定CRISPR基序的DNA分子对相应Cas-CRISPR系统不敏感。
这些噬菌体和多种噬菌体类型的“混合物”在轮换策略中使用(例如,噬菌体的定义的依次施用)。作为由携带不同间隔区突变的噬菌体组成的单一混合物用途的延伸,在一些实施方案中,以定义的依次方式使用多种烈性噬菌体,其中每种烈性噬菌体携带不同的间隔区突变。例如,使用一组“CRISPR逃逸”噬菌体(P1.0、P2.0和P3.0,或P1.0、P1.1、P1.2或其一些组合),分别并且以定义的顺序和轮次使用每种噬菌体(P.10>P2.0>P3.0>P1.0,P2.0>等),从而靶细菌针对所述噬菌体发展CRISPR介导的抗性的可能性最小化。同样,依次和轮换使用一组噬菌体混合物(即,该混合物中的每种噬菌体以及每种混合物拥有独特的突变组合)。在一些实施方案中,噬菌体和/或混合物由单个噬菌体科组成,而在其他实施方案中,噬菌体和/或混合物由多个噬菌体科组成。
实施例23功能性组合
本实施例提供了在本发明中使用的多种功能性组合。
仅作为示例,可以根据本发明使用以下功能性组合。
功能性组合#1:
如下所示的cas序列:SEQ ID NO:461至SEQ ID NO:465和SEQ IDNO:473至SEQ ID NO:477(它们均是嗜热链球菌序列):
SEQ ID NO:461:
ATGAGTGACTTAGTTTTAGGACTTGATATCGGTATAGGTTCTGTTGGTGTAGGTATCCTTAACAAAGTGACAGGAGAAATTATCCATAAAAACTCACGCATCTTCCCAGCAGCTCAAGCAGAAAATAACCTAGTACGTAGAACGAATCGTCAAGGAAGACGCTTGACACGACGTAAAAAACATCGTATAGTTCGTTTAAATCGTCTATTTGAGGAAAGTGGATTAATCACCGATTTTACGAAGATTTCAATTAATCTTAACCCATATCAATTACGAGTTAAGGGCTTGACCGATGAATTGTCTAATGAAGAACTGTTTATCGCTCTTAAAAATATGGTGAAACACCGTGGGATTAGTTACCTCGATGATGCTAGTGATGACGGAAATTCATCAGTAGGAGACTATGCACAAATTGTTAAGGAAAATAGTAAACAATTAGAAACTAAGACACCGGGACAGATACAGTTGGAACGCTACCAAACATATGGTCAATTACGTGGTGATTTTACTGTTGAGAAAGATGGCAAAAAACATCGCTTGATTAATGTCTTTCCAACATCAGCTTATCGTTCAGAAGCCTTAAGGATACTGCAAACTCAACAAGAATTTAATCCACAGATTACAGATGAATTTATTAATCGTTATCTCGAAATTTTAACTGGAAAACGGAAATATTATCATGGACCCGGAAATGAAAAGTCACGGACTGATTATGGTCGTTACAGAACGAGTGGAGAAACTTTAGACAATATTTTTGGAATTCTAATTGGGAAATGTACATTTTATCCAGAAGAGTTTAGAGCAGCAAAAGCTTCCTACACGGCTCAAGAATTCAATTTGCTAAATGATTTGAACAATCTAACAGTTCCTACTGAAACCAAAAAGTTGAGCAAAGAACAGAAGAATCAAATCATTAATTATGTCAAAAATGAAAAGGCAATGGGGCCAGCGAAACTTTTTAAATATATCGCTAAGTTACTTTCTTGTGATGTTGCAGATATCAAGGGATACCGTATCGACAAATCAGGTAAGGCTGAGATTCATACTTTCGAAGCCTATCGAAAAATGAAAACGCTTGAAACCTTAGATATTGAACAAATGGATAGAGAAACGCTTGATAAATTAGCCTATGTCTTAACATTAAACACTGAGAGGGAAGGTATTCAAGAAGCCTTAGAACATGAATTTGCTGATGGTAGCTTTAGCCAGAAGCAAGTTGACGAATTGGTTCAATTCCGCAAAGCAAATAGTTCCATTTTTGGAAAAGGATGGCATAATTTTTCTGTCAAACTGATGATGGAGTTAATTCCAGAATTGTATGAGACGTCAGAAGAGCAAATGACTATCCTGACACGACTTGGAAAACAAAAACGACTTCGTCTTCAAATAAAACAAAATATTTCAAATAAAACAAAATATATAGATGAGAAACTATTAACTGAAGAAATCTATAATCCTGTTGTTGCTAAGTCTGTTCGCCAGGCTATAAAAATCGTAAATGCGGCGATTAAAGAATACGGAGACTTTGACAATATTGTCATCGAAATGGCTCGTGAAACAAATGAAGATGATGAAAAGAAAGCTATTCAAAAGATTCAAAAAGCCAACAAAGATGAAAAAGATGCAGCAATGCTTAAGGCTGCTAACCAATATAATGGAAAGGCTGAATTACCACATAGTGTTTTCCACGGTCATAAGCAATTAGCGACTAAAATCCGCCTTTGGCATCAGCAAGGAGAACGTTGCCTTTATACTGGTAAGACAATCTCAATCCATGATTTGATAAATAATCCTAATCAGTTTGAAGTAGATCATATTTTACCTCTTTCTATCACATTCGATGATAGCCTTGCAAATAAGGTTTTGGTTTATGCAACTGCTAACCAAGAAAAAGGACAACGAACACCTTATCAGGCTTTAGATAGTATGGATGATGCGTGGTCTTTCCGTGAATTAAAAGCTTTTGTACGTGAGTCAAAAACACTTTCAAACAAGAAAAAAGAATACCTCCTTACAGAAGAAGATATTTCAAAGTTTGATGTTCGAAAGAAATTTATTGAACGAAATCTTGTAGATACAAGATACGCTTCAAGAGTTGTCCTCAATGCCCTTCAAGAACACTTTAGAGCTCACAAGATTGATACAAAAGTTTCCGTGGTTCGTGGCCAATTTACATCTCAATTGAGACGCCATTGGGGAATTGAGAAGACTCGTGATACTTATCATCACCATGCTGTCGATGCATTGATTATTGCCGCCTCAAGTCAGTTGAATTTGTGGAAAAAACAAAAGAATACCCTTGTAAGTTATTCAGAAGAACAACTCCTTGATATTGAAACAGGTGAACTTATTAGTGATGATGAGTACAAGGAATCTGTGTTCAAAGCCCCTTATCAACATTTTGTTGATACATTGAAGAGTAAAGAATTTGAAGACAGTATCTTATTCTCATATCAAGTGGATTCTAAGTTTAATCGTAAAATATCAGATGCCACTATTTATGCGACAAGACAGGCTAAAGTGGGAAAAGATAAGAAGGATGAAACTTATGTCTTAGGGAAAATCAAAGATATCTATACTCAGGATGGTTATGATGCCTTTATGAAGATTTATAAGAAGGATAAGTCAAAATTCCTCATGTATCGTCACGACCCACAAACCTTTGAGAAAGTTATCGAGCCAATTTTAGAGAACTATCCTAATAAGCAAATGAATGAAAAAGGAAAAGAGGTACCATGTAATCCTTTCCTAAAATATAAAGAAGAACATGGCTATATTCGTAAATATAGTAAAAAAGGCAATGGTCCTGAAATCAAGAGTCTTAAATACTATGATAGTAAGCTTTTAGGTAATCCTATTGATATTACTCCAGAGAATAGTAAAAATAAAGTTGTCTTACAGTCATTAAAACCTTGGAGAACAGATGTCTATTTCAATAAGGCTACTGGAAAATACGAAATCCTTGGATTAAAATATGCTGATCTACAATTTGAGAAAGGGACAGGAACATATAAGATTTCCCAGGAAAAATACAATGACATTAAGAAAAAAGAGGGTGTAGATTCTGATTCAGAATTCAAGTTTACACTTTATAAAAATGATTTGTTACTCGTTAAAGATACAGAAACAAAAGAACAACAGCTTTTCCGTTTTCTTTCTCGAACTTTACCTAAACAAAAGCATTATGTTGAATTAAAACCTTATGATAAACAGAAATTTGAAGGAGGTGAGGCGTTAATTAAAGTGTTGGGTAACGTTGCTAATGGTGGTCAATGCATAAAAGGACTAGCAAAATCAAATATTTCTATTTATAAAGTAAGAACAGATGTCCTAGGAAATCAGCATATCATCAAAAATGAGGGTGATAAGCCTAAGCTAGATTTTTAATATTAATTGTTAGAAAGTGTTGCAATTATAGTTATCATATGCTATAATAATCGTGTAAGGGACGCCTTACACAGTTACTTAAATCTTGCAGAAGCTACAAAGATAAGGCTTCATGCCGAAATCAACACCCTGTCATTTTATGGCAGGGTGTTTTCGTTATTTAAAGAGGAGAAGAAATGACTTGGAGAGTTGTACATGTCAGTCAAAGTGAGAAGATGCGCTTAAAGCTTGATAACTTATTAGTGCAAAAAATGGGACAAGAGTTTACGGTGCCACTAAGTGATATTTCGATAATCGTTGCAGAAGGTGGGGATACAGTTGTTACCCTTCGTCTATTAAGTGCCTTAAGTAAATATAATATTGCCTTGGTCGTTTGTGATAACGAACATTTACCAACAGGAATTTATCACTCACAAAATGGGCACTTTAGAGCGTACAAGCGCTTGAAAGAACAGCTGGATTGGTCTCAGAAACAAAAGGACAAGGCATGGCAGATTGTAACTTATTATAAAATCAATAACCAAGAGGATGTTCTAGCCATGTTTGAAAAAAGTCTGGACAACATTAGATTACTTTCAGACTATAAAGAGCAGATAGAACCTGGTGATAGAACGAATAGAGAGGGACATGCTGCCAAGGTCTACTTTAATGAGCTCTTTGGTAAACAATTTGTCAGAGTAACTCAGCAAGAAGCTGATGTCATCAATGCTGGTTTAAACTATGGCTATGCTATCATGAGGGCTCAGATGGCTAGAATAGTGGCGGGTTATGGTTTAAATGGCCTATTAGGAATCTTCCATAAAAATGAATACAATCAGTTTAATTTGGTTGACGATTTGATGGAGCCATTTAGACAGATTGTAGATGTTTGGGTATATGATAATCTACGAGATCAGGAATTCCTTAAGTATGAGTATAGGTTGGGATTGACAGATTTACTCAATGCTAAAATCAAATATGGCAAAGAGACTTGCTCAGTGACAGTTGCTATGGACAAATATGTCAAAGGCTTTATCAAATATATTTCGGAAAAAGATAGTAGTAAATTTCACTGCCCAGTGGTATCAAGTTTAGAGTGGAGAAAATAAGATGAGGTATGAAGCATTGAGATTATTATGTTTTTTTGATTTACCAATGGAATCCAAGGATGAAAAAAGAATATATCGTAATTTTCGTAAAGAATTAATTTCAAATGGGTTTGAAATGTTACAATTTTCGGTCTACTATCGCACTTGTCCTAATAGAAGCTTTGCAAATAAATTTTATAAGAAGTTAAAGATTAGCAATCTTCCTGCTGGGAATGTGAGACTTTTGGCAGTTACTGAAAAACAATTTTCAGAGATGACATTAATTATAGGTGGTAAAACTAAGCAAGAAGAAATCGTCAGTGATAATAAGTTGGTGGTTATATGAAATATTTTGTACAACATCCTTACAAAGAACGTATTGAATTAAATATTGGTGCAATCACACAAATTGTTGGTCAGAATAAAGAACTCAAATATTATATTTGGCAAATTTTGAGCTGGTATTTTGGCGGAAAAAAATACTCAAGTGAGGACTTAAGTATTTTTGATTATGAGGAACCTACTATACTTGATGAGTCTGGAGAAATAGTGAAGCGAAGTAGCTATCACTATATCGACATTTCAAGTTTTAAGGATTTACTGGAGCAGATGGAATACAAGAAAGGAACACTTGCTCAGGGTTACCTTAGTAAAATTCTCAATCAGGTTGATATTGTAGGCCATTTGGAGAAAATTAATGAACAAGTAGAGCTTATAGAAGGAGCAATGAATCAGCATATAAACTTAAACTGTGGTCAGGTGGAGTACCATTTGGAGAATCACCCTCTAACACTAGACCAATTACTTTCAAAAAATTTTAGTCCCTTTTTTGCTATCGAGAATAAGAATTTATCTTTTGAATGGGTTTCAAATACTGATAAACTTTCTCTCTTTCTAGAAATGTTAGACCGCCTTCTGTCACAAACAACAGAGAAGTATCTCATTGTGCTAAAAAATATTGATGGCTTTATCTCAGAAGAATCTTATACTATTTTTTATAGGCAAATCTGTCATCTGGTCAAGAAGTATCCAAATCTAACCTTTATTTTGTTTCCTAGTGACCAAGGCTATTTAAAAATTGATGAAGAAAATAGTAGGTTCGTCAATATTTTATCTGACCAGGTGGAGCATTTGTATGATGTTGAGTTTATGTATGAAAGAGTAATGAAATATTATCCAAGTAATGATTTTCCGACGAGAGAAGGTTTTAGGATGTCTTTAGAAACTGTGACACCTTATTTATTGACAAAAATGCTGAGACAACCTAGTCTCTCACTTGTTGATTCAGTAATATTGAATATCCTAAATCAGTTGTTTCATTTTAGTTACCGTATAAGATATTCTCAGACACCTGATAAGGAACTATTACATAAATTTTTAGAAAGTAAGGATTGA(SEQ ID NO:461)
SEQ ID NO:462:
ATGAGTGACTTAGTTTTAGGACTTGATATCGGTATAGGTTCTGTTGGTGTAGGTATCCTTAACAAAGTGACAGGAGAAATTATCCATAAAAACTCACGCATCTTCCCAGCAGCTCAAGCAGAAAATAACCTAGTACGTAGAACGAATCGTCAAGGAAGACGCTTGACACGACGTAAAAAACATCGTATAGTTCGTTTAAATCGTCTATTTGAGGAAAGTGGATTAATCACCGATTTTACGAAGATTTCAATTAATCTTAACCCATATCAATTACGAGTTAAGGGCTTGACCGATGAATTGTCTAATGAAGAACTGTTTATCGCTCTTAAAAATATGGTGAAACACCGTGGGATTAGTTACCTCGATGATGCTAGTGATGACGGAAATTCATCAGTAGGAGACTATGCACAAATTGTTAAGGAAAATAGTAAACAATTAGAAACTAAGACACCGGGACAGATACAGTTGGAACGCTACCAAACATATGGTCAATTACGTGGTGATTTTACTGTTGAGAAAGATGGCAAAAAACATCGCTTGATTAATGTCTTTCCAACATCAGCTTATCGTTCAGAAGCCTTAAGGATACTGCAAACTCAACAAGAATTTAATCCACAGATTACAGATGAATTTATTAATCGTTATCTCGAAATTTTAACTGGAAAACGGAAATATTATCATGGACCCGGAAATGAAAAGTCACGGACTGATTATGGTCGTTACAGAACGAGTGGAGAAACTTTAGACAATATTTTTGGAATTCTAATTGGGAAATGTACATTTTATCCAGAAGAGTTTAGAGCAGCAAAAGCTTCCTACACGGCTCAAGAATTCAATTTGCTAAATGATTTGAACAATCTAACAGTTCCTACTGAAACCAAAAAGTTGAGCAAAGAACAGAAGAATCAAATCATTAATTATGTCAAAAATGAAAAGGCAATGGGGCCAGCGAAACTTTTTAAATATATCGCTAAGTTACTTTCTTGTGATGTTGCAGATATCAAGGGATACCGTATCGACAAATCAGGTAAGGCTGAGATTCATACTTTCGAAGCCTATCGAAAAATGAAAACGCTTGAAACCTTAGATATTGAACAAATGGATAGAGAAACGCTTGATAAATTAGCCTATGTCTTAACATTAAACACTGAGAGGGAAGGTATTCAAGAAGCCTTAGAACATGAATTTGCTGATGGTAGCTTTAGCCAGAAGCAAGTTGACGAATTGGTTCAATTCCGCAAAGCAAATAGTTCCATTTTTGGAAAAGGATGGCATAATTTTTCTGTCAAACTGATGATGGAGTTAATTCCAGAATTGTATGAGACGTCAGAAGAGCAAATGACTATCCTGACACGACTTGGAAAACAAAAACGACTTCGTCTTCAAATAAAACAAAATATTTCAAATAAAACAAAATATATAGATGAGAAACTATTAACTGAAGAAATCTATAATCCTGTTGTTGCTAAGTCTGTTCGCCAGGCTATAAAAATCGTAAATGCGGCGATTAAAGAATACGGAGACTTTGACAATATTGTCATCGAAATGGCTCGTGAAACAAATGAAGATGATGAAAAGAAAGCTATTCAAAAGATTCAAAAAGCCAACAAAGATGAAAAAGATGCAGCAATGCTTAAGGCTGCTAACCAATATAATGGAAAGGCTGAATTACCACATAGTGTTTTCCACGGTCATAAGCAATTAGCGACTAAAATCCGCCTTTGGCATCAGCAAGGAGAACGTTGCCTTTATACTGGTAAGACAATCTCAATCCATGATTTGATAAATAATCCTAATCAGTTTGAAGTAGATCATATTTTACCTCTTTCTATCACATTCGATGATAGCCTTGCAAATAAGGTTTTGGTTTATGCAACTGCTAACCAAGAAAAAGGACAACGAACACCTTATCAGGCTTTAGATAGTATGGATGATGCGTGGTCTTTCCGTGAATTAAAAGCTTTTGTACGTGAGTCAAAAACACTTTCAAACAAGAAAAAAGAATACCTCCTTACAGAAGAAGATATTTCAAAGTTTGATGTTCGAAAGAAATTTATTGAACGAAATCTTGTAGATACAAGATACGCTTCAAGAGTTGTCCTCAATGCCCTTCAAGAACACTTTAGAGCTCACAAGATTGATACAAAAGTTTCCGTGGTTCGTGGCCAATTTACATCTCAATTGAGACGCCATTGGGGAATTGAGAAGACTCGTGATACTTATCATCACCATGCTGTCGATGCATTGATTATTGCCGCCTCAAGTCAGTTGAATTTGTGGAAAAAACAAAAGAATACCCTTGTAAGTTATTCAGAAGAACAACTCCTTGATATTGAAACAGGTGAACTTATTAGTGATGATGAGTACAAGGAATCTGTGTTCAAAGCCCCTTATCAACATTTTGTTGATACATTGAAGAGTAAAGAATTTGAAGACAGTATCTTATTCTCATATCAAGTGGATTCTAAGTTTAATCGTAAAATATCAGATGCCACTATTTATGCGACAAGACAGGCTAAAGTGGGAAAAGATAAGAAGGATGAAACTTATGTCTTAGGGAAAATCAAAGATATCTATACTCAGGATGGTTATGATGCCTTTATGAAGATTTATAAGAAGGATAAGTCAAAATTCCTCATGTATCGTCACGACCCACAAACCTTTGAGAAAGTTATCGAGCCAATTTTAGAGAACTATCCTAATAAGCAAATGAATGAAAAAGGAAAAGAGGTACCATGTAATCCTTTCCTAAAATATAAAGAAGAACATGGCTATATTCGTAAATATAGTAAAAAAGGCAATGGTCCTGAAATCAAGAGTCTTAAATACTATGATAGTAAGCTTTTAGGTAATCCTATTGATATTACTCCAGAGAATAGTAAAAATAAAGTTGTCTTACAGTCATTAAAACCTTGGAGAACAGATGTCTATTTCAATAAGGCTACTGGAAAATACGAAATCCTTGGATTAAAATATGCTGATCTACAATTTGAGAAAGGGACAGGAACATATAAGATTTCCCAGGAAAAATACAATGACATTAAGAAAAAAGAGGGTGTAGATTCTGATTCAGAATTCAAGTTTACACTTTATAAAAATGATTTGTTACTCGTTAAAGATACAGAAACAAAAGAACAACAGCTTTTCCGTTTTCTTTCTCGAACTTTACCTAAACAAAAGCATTATGTTGAATTAAAACCTTATGATAAACAGAAATTTGAAGGAGGTGAGGCGTTAATTAAAGTGTTGGGTAACGTTGCTAATGGTGGTCAATGCATAAAAGGACTAGCAAAATCAAATATTTCTATTTATAAAGTAAGAACAGATGTCCTAGGAAATCAGCATATCATCAAAAATGAGGGTGATAAGCCTAAGCTAGATTTTTAA(SEQ ID NO:462)
SEQ ID NO:463:
ATGACTTGGAGAGTTGTACATGTCAGTCAAAGTGAGAAGATGCGCTTAAAGCTTGATAACTTATTAGTGCAAAAAATGGGACAAGAGTTTACGGTGCCACTAAGTGATATTTCGATAATCGTTGCAGAAGGTGGGGATACAGTTGTTACCCTTCGTCTATTAAGTGCCTTAAGTAAATATAATATTGCCTTGGTCGTTTGTGATAACGAACATTTACCAACAGGAATTTATCACTCACAAAATGGGCACTTTAGAGCGTACAAGCGCTTGAAAGAACAGCTGGATTGGTCTCAGAAACAAAAGGACAAGGCATGGCAGATTGTAACTTATTATAAAATCAATAACCAAGAGGATGTTCTAGCCATGTTTGAAAAAAGTCTGGACAACATTAGATTACTTTCAGACTATAAAGAGCAGATAGAACCTGGTGATAGAACGAATAGAGAGGGACATGCTGCCAAGGTCTACTTTAATGAGCTCTTTGGTAAACAATTTGTCAGAGTAACTCAGCAAGAAGCTGATGTCATCAATGCTGGTTTAAACTATGGCTATGCTATCATGAGGGCTCAGATGGCTAGAATAGTGGCGGGTTATGGTTTAAATGGCCTATTAGGAATCTTCCATAAAAATGAATACAATCAGTTTAATTTGGTTGACGATTTGATGGAGCCATTTAGACAGATTGTAGATGTTTGGGTATATGATAATCTACGAGATCAGGAATTCCTTAAGTATGAGTATAGGTTGGGATTGACAGATTTACTCAATGCTAAAATCAAATATGGCAAAGAGACTTGCTCAGTGACAGTTGCTATGGACAAATATGTCAAAGGCTTTATCAAATATATTTCGGAAAAAGATAGTAGTAAATTTCACTGCCCAGTGGTATCAAGTTTAGAGTGGAGAAAATAA(SEQ ID NO:463)
SEQ ID NO:464:
ATGAGGTATGAAGCATTGAGATTATTATGTTTTTTTGATTTACCAATGGAATCCAAGGATGAAAAAAGAATATATCGTAATTTTCGTAAAGAATTAATTTCAAATGGGTTTGAAATGTTACAATTTTCGGTCTACTATCGCACTTGTCCTAATAGAAGCTTTGCAAATAAATTTTATAAGAAGTTAAAGATTAGCAATCTTCCTGCTGGGAATGTGAGACTTTTGGCAGTTACTGAAAAACAATTTTCAGAGATGACATTAATTATAGGTGGTAAAACTAAGCAAGAAGAAATCGTCAGTGATAATAAGTTGGTGGTTATATGA(SEQ ID NO:464)
SEQ ID NO:465:
ATGAAATATTTTGTACAACATCCTTACAAAGAACGTATTGAATTAAATATTGGTGCAATCACACAAATTGTTGGTCAGAATAAAGAACTCAAATATTATATTTGGCAAATTTTGAGCTGGTATTTTGGCGGAAAAAAATACTCAAGTGAGGACTTAAGTATTTTTGATTATGAGGAACCTACTATACTTGATGAGTCTGGAGAAATAGTGAAGCGAAGTAGCTATCACTATATCGACATTTCAAGTTTTAAGGATTTACTGGAGCAGATGGAATACAAGAAAGGAACACTTGCTCAGGGTTACCTTAGTAAAATTCTCAATCAGGTTGATATTGTAGGCCATTTGGAGAAAATTAATGAACAAGTAGAGCTTATAGAAGGAGCAATGAATCAGCATATAAACTTAAACTGTGGTCAGGTGGAGTACCATTTGGAGAATCACCCTCTAACACTAGACCAATTACTTTCAAAAAATTTTAGTCCCTTTTTTGCTATCGAGAATAAGAATTTATCTTTTGAATGGGTTTCAAATACTGATAAACTTTCTCTCTTTCTAGAAATGTTAGACCGCCTTCTGTCACAAACAACAGAGAAGTATCTCATTGTGCTAAAAAATATTGATGGCTTTATCTCAGAAGAATCTTATACTATTTTTTATAGGCAAATCTGTCATCTGGTCAAGAAGTATCCAAATCTAACCTTTATTTTGTTTCCTAGTGACCAAGGCTATTTAAAAATTGATGAAGAAAATAGTAGGTTCGTCAATATTTTATCTGACCAGGTGGAGCATTTGTATGATGTTGAGTTTATGTATGAAAGAGTAATGAAATATTATCCAAGTAATGATTTTCCGACGAGAGAAGGTTTTAGGATGTCTTTAGAAACTGTGACACCTTATTTATTGACAAAAATGCTGAGACAACCTAGTCTCTCACTTGTTGATTCAGTAATATTGAATATCCTAAATCAGTTGTTTCATTTTAGTTACCGTATAAGATATTCTCAGACACCTGATAAGGAACTATTACATAAATTTTTAGAAAGTAAGGATTGA(SEQ ID NO:465)
SEQ ID NO:473:
ATGAGTGACTTAGTTTTAGGACTTGATATCGGTATAGGTTCTGTTGGTGTAGGTATCCTTAACAAAGTGACAGGAGAAATTATCCATAAAAACTCACGCATCTTCCCAGCAGCTCAAGCAGAAAATAACCTAGTACGTAGAACGAATCGTCAAGGAAGACGCTTGACACGACGTAAAAAACATCGTATAGTTCGTTTAAATCGTCTATTTGAGGAAAGTGGATTAATCACCGATTTTACGAAGATTTCAATTAATCTTAACCCATATCAATTACGAGTTAAGGGCTTGACCGATGAATTGTCTAATGAAGAACTGTTTATCGCTCTTAAAAATATGGTGAAACACCGTGGGATTAGTTACCTCGATGATGCTAGTGATGACGGAAATTCATCAGTAGGAGACTATGCACAAATTGTTAAGGAAAATAGTAAACAATTAGAAACTAAGACACCGGGACAGATACAGTTGGAACGCTACCAAACATATGGTCAATTACGTGGTGATTTTACTGTTGAGAAAGATGGCAAAAAACATCGCTTGATTAATGTCTTTCCAACATCAGCTTATCGTTCAGAAGCCTTAAGGATACTGCAAACTCAACAAGAATTTAATTCACAGATTACAGATGAATTTATTAATCGTTATCTCGAAATTTTAACTGGAAAACGGAAATATTATCATGGACCCGGAAATGAAAAGTCACGGACTGATTATGGTCGTTACAGAACGAATGGAGAAACTTTAGACAATATTTTTGGAATTCTAATTGGGAAATGTACATTTTATCCAGACGAGTTTAGAGCAGCAAAAGCTTCCTACACGGCTCAAGAATTCAATTTGCTAAATGATTTGAACAATCTAACAGTTCCTACTGAAACCAAAAAGTTGAGCAAAGAACAGAAGAATCAAATCATTAATTATGTCAAAAATGAAAAGGTAATGGGGCCAGCGAAACTTTTTAAATATATCGCTAAATTACTTTCTTGTGATGTTGCAGATATCAAGGGACACCGTATCGACAAATCAGGTAAGGCTGAGATTCATACTTTCGAAGCCTATCGAAAAATGAAAACGCTTGAAACCTTAGATATTGAGCAAATGGATAGAGAAACGCTTGATAAATTAGCCTATGTCTTAACATTAAACACTGAGAGGGAAGGTATTCAAGAAGCTTTAGAACATGAATTTGCTGATGGTAGCTTTAGCCAGAAGCAAGTTGACGAATTGGTTCAATTCCGCAAAGCAAATAGTTCCATTTTTGGAAAAGGATGGCATAATTTTTCTGTCAAACTGATGATGGAGTTAATTCCAGAATTGTATGAGACGTCAGAAGAGCAAATGACTATCCTGACACGACTTGGAAAACAAAAAACAACTTCGTCTTCAAATAAAACAAAATATATAGATGAGAAACTATTAACTGAAGAAATCTATAATCCTGTTGTTGCTAAGTCTGTTCGCCAGGCTATAAAAATCGTAAATGCGGCGATTAAAGAATACGGAGACTTTGACAATATTGTCATCGAAATGGCTCGTGAAACAAATGAAGATGATGAAAAGAAAGCTATTCAAAAGATTCAAAAAGCCAACAAAGATGAAAAAGATGCAGCAATGCTTAAGGCTGCTAACCAATATAATGGAAAGGCTGAATTACCACATAGTGTTTTCCACGGTCATAAGCAATTAGCGACTAAAATCCGCCTTTGGCATCAGCAAGGAGAACGTTGCCTTTATACTGGTAAGACAATCTCAATCCATGATTTGATAAATAATCCTAATCAGTTTGAAGTAGATCATATTTTACCTCTTTCTATCACATTCGATGATAGCCTTGCAAATAAGGTTTTGGTTTATGCAACTGCTAACCAAGAAAAAGGACAACGAACACCTTATCAGGCTTTAGATAGTATGGATGATGCGTGGTCTTTCCGTGAATTAAAAGCTTTTGTACGTGAGTCAAAAACACTTTCAAACAAGAAAAAAGAATACCTCCTTACAGAAGAAGATATTTCAAAGTTTGATGTTCGAAAGAAATTTATTGAACGAAATCTTGTAGATACAAGATACGCTTCAAGAGTTGTCCTCAATGCCCTTCAAGAACACTTTAGAGCTCACAAGATTGATACAAAAGTTTCCGTGGTTCGTGGCCAATTTACATCTCAATTGAGACGCCATTGGGGAATTGAGAAGACTCGTGATACTTATCATCACCATGCTGTCGATGCATTGATTATTGCCGCCTCAAGTCAGTTGAATTTGTGGAAAAAACAAAAGAATACCCTTGTAAGTTATTCAGAAGAACAACTCCTTGATATTGAAACAGGTGAACTTATTAGTGATGATGAGTACAAGGAATCTGTGTTCAAAGCCCCTTATCAACATTTTGTTGATACATTGAAGAGTAAAGAATTTGAAGACAGTATCTTATTCTCATATCAAGTGGATTCTAAGTTTAATCGTAAAATATCAGATGCCACTATTTATGCGACAAGACAGGCTAAAGTGGGAAAAGATAAGAAGGATGAAACTTATGTCTTAGGGAAAATCAAAGATATCTATACTCAGGATGGTTATGATGCCTTTATGAAGATTTATAAGAAGGATAAGTCAAAATTCCTCATGTATCGTCACGACCCACAAACCTTTGAGAAAGTTATCGAGCCAATTTTAGAGAACTATCCTAATAAGGAAATGAATGAAAAAGGGAAAGAAGTACCATGTAATCCTTTCCTAAAATATAAAGAAGAACATGGCTATATTCGTAAATATAGTAAAAAAGGCAATGGTCCTGAAATCAAGAGTCTTAAATACTATGATAGTAAGCTTTTAGGTAATCCTATTGATATTACTCCAGAGAATAGTAAAAATAAAGTTGTCTTACAGTCATTAAAACCTTGGAGAACAGATGTCTATTTCAATAAAAATACTGGTAAATATGAAATTTTAGGACTGAAATATGCTGATTTACAATTTGAAAAGAAGACAGGAACATATAAGATTTCCCAGGAAAAATACAATGGCATTATGAAAGAAGAGGGTGTAGATTCTGATTCAGAATTCAAGTTTACACTTTATAAAAATGATTTGTTACTCGTTAAAGATACAGAAACAAAAGAACAACAGCTTTTCCGTTTTCTTTCTCGAACTATGCCTAATGTGAAATATTATGTAGAGTTAAAGCCTTATTCAAAAGATAAATTTGAGAAGAATGAGTCACTTATTGAAATTTTAGGTTCTGCAGATAAGTCAGGACGATGTATAAAAGGGCTAGGAAAATCAAATATTTCTATTTATAAGGTAAGAACAGATGTCCTAGGAAATCAGCATATCATCAAAAATGAGGGTGATAAGCCTAAGCTAGATTTTTAATATTAATTGTTAAAAAAGTGTTGCAATTATAGTTATCATATGCTATAATAATCGTGTAAGGGACGCCTTACACAGTTACTTAAATCTTGCAGAAGCTACAAAGATAAGGCTTCATGCCGAAATCAACACCCTGTCATTTTATGGCAGGGTGTTTTCGTTATTTAAAGAGGAGAAGAAATGACTTGGAGAGTTGTACATGTCAGTCAAAGTGAGAAGATGCGCTTAAAGCTTGATAACTTATTAGTGCAAAAGATGGGACAAGAGTTTACGGTGCCACTAAGTGATATTTCGATAATCGTTGCAGAAGGTGGGGATACAGTTGTTACCCTTCGTCTATTAAGTGCCTTAAGTAAATATAATATTGCCTTGGTCGTTTGTGATAACGAACATTTACCAACAGGAATTTATCACTCACAAAATGGGCACTTTAGAGCGTACAAGCGCTTGAAAGAACAGCTGGATTGGTCTCAGAAACAAAAGGAAAAGGCATGGCAGATTGTAACTTATTATAAAATCAATAACCAAGAGGATGTCCTAGCCATGTTTGAAAAAAGTCTGGACAACATTAGATTACTTTCAGACTATAAAGAGCAGATAGAACCTGGTGATAGAACGAATAGAGAGGGACATGCTGCCAAGGTCTACTTTAATGAGCTCTTTGGTAAACAATTTGTCAGAGTAACTCAGCAAGAAGCTGATGTCATCAATGCTGGTTTAAACTATGGCTATGCTATCATGAGGGCTCAGATGGCTAGAATAGTGGCGGGTTATGGTTTAAATGGCCTATTAGGAATCTTCCATAAAAATGAATACAATCAGTTTAATTTGGTTGACGATTTGATGGAGCCATTTAGACAGATTGTAGATGTTTGGGTATATGATAATCTACGAGATCAGGAATTCCTTAAGTATGAGTATAGGTTGGGATTGACAGATTTACTCAATGCTAAAATCAAATATGGCAAAGAGACTTGCTCAGTGACAGTTGCTATGGACAAATATGTCAAAGGCTTTATCAAATATATTTCGGAAAAAGATAGTAGTAAATTTCACTGCCCAGTGGTATCAAGTTTAGAGTGGAGAAAATAAGATGAGGTATGAAGCATTGAGATTATTATGTTTTTTTGATTTACCAATGGAATCCAAGGATGAAAAAAGAATATATCGTAATTTTCGTAAAGAATTAATTTCAAATGGGTTTGAAATGTTACAATTTTCGGTCTACTATCGCACTTGTCCTAATAGAAGCTTTGCAAATAAATTTTATAAGAAGTTAAAGATGAGCAATCTTCCTGCTGGGAATGTGAGACTTTTGGCAGTTACTGAAAAACAATTTTCAGAGATGACATTAATTATAGGTGGTAAAACTAAGCAAGAAGAAATCGTCAGTGATAATAAGTTGGTGATCATATGAAATTTTTTGTACAACATCCTTACAAAGAACGTATTGAATTAAATATTGGTGCAATCACACAAATTGTTGGTCAGAATAATGAACTCAAATATTATACTTGGCAGATTTTGAGCTGGTATTTTGGTGGAAAAAAATACTCAAGTGAGGACTTAAGTATTTTTGATTATGAGGAGCCTACCATACTTGATGAGGCCAGAGAAATAGTGAAACGAAGTAGCTATCACTATATCGACATTTCAAGTTTTAAGGATTTACTGGAGCAGATGGAATACAAGAAAGGAACACTTGCTCAGGGTTACCTTCGTAAAATTGTCAATCAAGTTGATATTGTAGGCCATTTGGAGAAAATTAATGAACAAGTAGAGCTTATTGAAGAAGCTATGAATCGGCATATAAACTTAAACTGTGGACAGGTAGAATACCATTTGGAGAATCTCCCTCTAACACTAGACCAACTACTCACAAAAAATTTTAGCCCATTTTTTGCCATTGAGAACAAGAATCTATCTTTTGAATGGGTTTCTAATATTGATAAACTATCCCTCTTTTTAGAAATGTTAGACCATCTTCTTTCACAAACAACAGAGAAGTATCTCATTGTGCTAAAAAATATTGATGGCTTTATCTCAGAAGAATCTTATACTATTTTTTATAGGCAAATCTGTCATCTGGTCAAGAAGTATCCAAATCTAACCTTTATTTTGTTTCCTAGTGACCAAGGCTATTTAAAAATTGATGAAGAAAATAGTAGGTTCGTCAATATTTTATCTGACCAGGTGGAACATTTGTATGATGTTGAGTTTATGTATGAAAGGGTAATGAAATATTATCCAAGTAATGATTTTCCGACGAGAGAAGGTTTTAGGATGTCTTTAGAAACTGTGACACCTTATTTATTGACAAAAATGCTGAGACAACCTAGTCTCTCACTTGTTGATTCAGTAATATTGAATATCCTAAATCAGCTGTTTCATTTTAGTTACCGTATAAGATGTTCTCAGACACCTGATAAGGAACTATTACAGAAATTTTTAGAAAGTAAGGATTGA(SEQ ID NO:473)
SEQ ID NO:474:
ATGAGTGACTTAGTTTTAGGACTTGATATCGGTATAGGTTCTGTTGGTGTAGGTATCCTTAACAAAGTGACAGGAGAAATTATCCATAAAAACTCACGCATCTTCCCAGCAGCTCAAGCAGAAAATAACCTAGTACGTAGAACGAATCGTCAAGGAAGACGCTTGACACGACGTAAAAAACATCGTATAGTTCGTTTAAATCGTCTATTTGAGGAAAGTGGATTAATCACCGATTTTACGAAGATTTCAATTAATCTTAACCCATATCAATTACGAGTTAAGGGCTTGACCGATGAATTGTCTAATGAAGAACTGTTTATCGCTCTTAAAAATATGGTGAAACACCGTGGGATTAGTTACCTCGATGATGCTAGTGATGACGGAAATTCATCAGTAGGAGACTATGCACAAATTGTTAAGGAAAATAGTAAACAATTAGAAACTAAGACACCGGGACAGATACAGTTGGAACGCTACCAAACATATGGTCAATTACGTGGTGATTTTACTGTTGAGAAAGATGGCAAAAAACATCGCTTGATTAATGTCTTTCCAACATCAGCTTATCGTTCAGAAGCCTTAAGGATACTGCAAACTCAACAAGAATTTAATTCACAGATTACAGATGAATTTATTAATCGTTATCTCGAAATTTTAACTGGAAAACGGAAATATTATCATGGACCCGGAAATGAAAAGTCACGGACTGATTATGGTCGTTACAGAACGAATGGAGAAACTTTAGACAATATTTTTGGAATTCTAATTGGGAAATGTACATTTTATCCAGACGAGTTTAGAGCAGCAAAAGCTTCCTACACGGCTCAAGAATTCAATTTGCTAAATGATTTGAACAATCTAACAGTTCCTACTGAAACCAAAAAGTTGAGCAAAGAACAGAAGAATCAAATCATTAATTATGTCAAAAATGAAAAGGTAATGGGGCCAGCGAAACTTTTTAAATATATCGCTAAATTACTTTCTTGTGATGTTGCAGATATCAAGGGACACCGTATCGACAAATCAGGTAAGGCTGAGATTCATACTTTCGAAGCCTATCGAAAAATGAAAACGCTTGAAACCTTAGATATTGAGCAAATGGATAGAGAAACGCTTGATAAATTAGCCTATGTCTTAACATTAAACACTGAGAGGGAAGGTATTCAAGAAGCTTTAGAACATGAATTTGCTGATGGTAGCTTTAGCCAGAAGCAAGTTGACGAATTGGTTCAATTCCGCAAAGCAAATAGTTCCATTTTTGGAAAAGGATGGCATAATTTTTCTGTCAAACTGATGATGGAGTTAATTCCAGAATTGTATGAGACGTCAGAAGAGCAAATGACTATCCTGACACGACTTGGAAAACAAAAAACAACTTCGTCTTCAAATAAAACAAAATATATAGATGAGAAACTATTAACTGAAGAAATCTATAATCCTGTTGTTGCTAAGTCTGTTCGCCAGGCTATAAAAATCGTAAATGCGGCGATTAAAGAATACGGAGACTTTGACAATATTGTCATCGAAATGGCTCGTGAAACAAATGAAGATGATGAAAAGAAAGCTATTCAAAAGATTCAAAAAGCCAACAAAGATGAAAAAGATGCAGCAATGCTTAAGGCTGCTAACCAATATAATGGAAAGGCTGAATTACCACATAGTGTTTTCCACGGTCATAAGCAATTAGCGACTAAAATCCGCCTTTGGCATCAGCAAGGAGAACGTTGCCTTTATACTGGTAAGACAATCTCAATCCATGATTTGATAAATAATCCTAATCAGTTTGAAGTAGATCATATTTTACCTCTTTCTATCACATTCGATGATAGCCTTGCAAATAAGGTTTTGGTTTATGCAACTGCTAACCAAGAAAAAGGACAACGAACACCTTATCAGGCTTTAGATAGTATGGATGATGCGTGGTCTTTCCGTGAATTAAAAGCTTTTGTACGTGAGTCAAAAACACTTTCAAACAAGAAAAAAGAATACCTCCTTACAGAAGAAGATATTTCAAAGTTTGATGTTCGAAAGAAATTTATTGAACGAAATCTTGTAGATACAAGATACGCTTCAAGAGTTGTCCTCAATGCCCTTCAAGAACACTTTAGAGCTCACAAGATTGATACAAAAGTTTCCGTGGTTCGTGGCCAATTTACATCTCAATTGAGACGCCATTGGGGAATTGAGAAGACTCGTGATACTTATCATCACCATGCTGTCGATGCATTGATTATTGCCGCCTCAAGTCAGTTGAATTTGTGGAAAAAACAAAAGAATACCCTTGTAAGTTATTCAGAAGAACAACTCCTTGATATTGAAACAGGTGAACTTATTAGTGATGATGAGTACAAGGAATCTGTGTTCAAAGCCCCTTATCAACATTTTGTTGATACATTGAAGAGTAAAGAATTTGAAGACAGTATCTTATTCTCATATCAAGTGGATTCTAAGTTTAATCGTAAAATATCAGATGCCACTATTTATGCGACAAGACAGGCTAAAGTGGGAAAAGATAAGAAGGATGAAACTTATGTCTTAGGGAAAATCAAAGATATCTATACTCAGGATGGTTATGATGCCTTTATGAAGATTTATAAGAAGGATAAGTCAAAATTCCTCATGTATCGTCACGACCCACAAACCTTTGAGAAAGTTATCGAGCCAATTTTAGAGAACTATCCTAATAAGGAAATGAATGAAAAAGGGAAAGAAGTACCATGTAATCCTTTCCTAAAATATAAAGAAGAACATGGCTATATTCGTAAATATAGTAAAAAAGGCAATGGTCCTGAAATCAAGAGTCTTAAATACTATGATAGTAAGCTTTTAGGTAATCCTATTGATATTACTCCAGAGAATAGTAAAAATAAAGTTGTCTTACAGTCATTAAAACCTTGGAGAACAGATGTCTATTTCAATAAAAATACTGGTAAATATGAAATTTTAGGACTGAAATATGCTGATTTACAATTTGAAAAGAAGACAGGAACATATAAGATTTCCCAGGAAAAATACAATGGCATTATGAAAGAAGAGGGTGTAGATTCTGATTCAGAATTCAAGTTTACACTTTATAAAAATGATTTGTTACTCGTTAAAGATACAGAAACAAAAGAACAACAGCTTTTCCGTTTTCTTTCTCGAACTATGCCTAATGTGAAATATTATGTAGAGTTAAAGCCTTATTCAAAAGATAAATTTGAGAAGAATGAGTCACTTATTGAAATTTTAGGTTCTGCAGATAAGTCAGGACGATGTATAAAAGGGCTAGGAAAATCAAATATTTCTATTTATAAGGTAAGAACAGATGTCCTAGGAAATCAGCATATCATCAAAAATGAGGGTGATAAGCCTAAGCTAGATTTTTAA(SEQ IDNO:474)
SEQ ID NO:475:
ATGACTTGGAGAGTTGTACATGTCAGTCAAAGTGAGAAGATGCGCTTAAAGCTTGATAACTTATTAGTGCAAAAGATGGGACAAGAGTTTACGGTGCCACTAAGTGATATTTCGATAATCGTTGCAGAAGGTGGGGATACAGTTGTTACCCTTCGTCTATTAAGTGCCTTAAGTAAATATAATATTGCCTTGGTCGTTTGTGATAACGAACATTTACCAACAGGAATTTATCACTCACAAAATGGGCACTTTAGAGCGTACAAGCGCTTGAAAGAACAGCTGGATTGGTCTCAGAAACAAAAGGAAAAGGCATGGCAGATTGTAACTTATTATAAAATCAATAACCAAGAGGATGTCCTAGCCATGTTTGAAAAAAGTCTGGACAACATTAGATTACTTTCAGACTATAAAGAGCAGATAGAACCTGGTGATAGAACGAATAGAGAGGGACATGCTGCCAAGGTCTACTTTAATGAGCTCTTTGGTAAACAATTTGTCAGAGTAACTCAGCAAGAAGCTGATGTCATCAATGCTGGTTTAAACTATGGCTATGCTATCATGAGGGCTCAGATGGCTAGAATAGTGGCGGGTTATGGTTTAAATGGCCTATTAGGAATCTTCCATAAAAATGAATACAATCAGTTTAATTTGGTTGACGATTTGATGGAGCCATTTAGACAGATTGTAGATGTTTGGGTATATGATAATCTACGAGATCAGGAATTCCTTAAGTATGAGTATAGGTTGGGATTGACAGATTTACTCAATGCTAAAATCAAATATGGCAAAGAGACTTGCTCAGTGACAGTTGCTATGGACAAATATGTCAAAGGCTTTATCAAATATATTTCGGAAAAAGATAGTAGTAAATTTCACTGCCCAGTGGTATCAAGTTTAGAGTGGAGAAAATAA(SEQ ID NO:475)
SEQ ID NO:476:
ATGAGGTATGAAGCATTGAGATTATTATGTTTTTTTGATTTACCAATGGAATCCAAGGATGAAAAAAGAATATATCGTAATTTTCGTAAAGAATTAATTTCAAATGGGTTTGAAATGTTACAATTTTCGGTCTACTATCGCACTTGTCCTAATAGAAGCTTTGCAAATAAATTTTATAAGAAGTTAAAGATGAGCAATCTTCCTGCTGGGAATGTGAGACTTTTGGCAGTTACTGAAAAACAATTTTCAGAGATGACATTAATTATAGGTGGTAAAACTAAGCAAGAAGAAATCGTCAGTGATAATAAGTTGGTGATCATATGA(SEQ ID NO:476)
SEQ ID NO:477:
ATGAAATTTTTTGTACAACATCCTTACAAAGAACGTATTGAATTAAATATTGGTGCAATCACACAAATTGTTGGTCAGAATAATGAACTCAAATATTATACTTGGCAGATTTTGAGCTGGTATTTTGGTGGAAAAAAATACTCAAGTGAGGACTTAAGTATTTTTGATTATGAGGAGCCTACCATACTTGATGAGGCCAGAGAAATAGTGAAACGAAGTAGCTATCACTATATCGACATTTCAAGTTTTAAGGATTTACTGGAGCAGATGGAATACAAGAAAGGAACACTTGCTCAGGGTTACCTTCGTAAAATTGTCAATCAAGTTGATATTGTAGGCCATTTGGAGAAAATTAATGAACAAGTAGAGCTTATTGAAGAAGCTATGAATCGGCATATAAACTTAAACTGTGGACAGGTAGAATACCATTTGGAGAATCTCCCTCTAACACTAGACCAACTACTCACAAAAAATTTTAGCCCATTTTTTGCCATTGAGAACAAGAATCTATCTTTTGAATGGGTTTCTAATATTGATAAACTATCCCTCTTTTTAGAAATGTTAGACCATCTTCTTTCACAAACAACAGAGAAGTATCTCATTGTGCTAAAAAATATTGATGGCTTTATCTCAGAAGAATCTTATACTATTTTTTATAGGCAAATCTGTCATCTGGTCAAGAAGTATCCAAATCTAACCTTTATTTTGTTTCCTAGTGACCAAGGCTATTTAAAAATTGATGAAGAAAATAGTAGGTTCGTCAATATTTTATCTGACCAGGTGGAACATTTGTATGATGTTGAGTTTATGTATGAAAGGGTAATGAAATATTATCCAAGTAATGATTTTCCGACGAGAGAAGGTTTTAGGATGTCTTTAGAAACTGTGACACCTTATTTATTGACAAAAATGCTGAGACAACCTAGTCTCTCACTTGTTGATTCAGTAATATTGAATATCCTAAATCAGCTGTTTCATTTTAGTTACCGTATAAGATGTTCTCAGACACCTGATAAGGAACTATTACAGAAATTTTTAGAAAGTAAGGATTGA(SEQ ID NO:477)
与重复序列SEQ ID NO:1至SEQ ID NO:10。
功能性组合#2:
如下所示的cas序列:SEQ ID NO:466至SEQ ID NO:472和SEQ IDNO:478至SEQ ID NO:487(它们均是嗜热链球菌序列):
SEQ ID NO:466:
ATGAGCGATTTATATAGTCAAAGGTCCAATTATTACCTGTCCTTATCTGAACAAAGAATTATCATTAAAAATGATAATAAAGAGATTGTCAAAGAAGTGTCCATTTCACTCGTTGATAATGTATTACTTTTTGGTAATGCACAACTGACCACCCAACTCATCAAAGCCTTGTCAAAGAACAAGGTGAATGTTTACTATTTCTCAAATGTTGGTCAATTTATTTCTAGTATTGAAACCCACAGGCAGGACGAATTCCAAAAGCAAGAGTTGCAAGCAAAGGCTTATTTTGAAGAGGATTTCCGTTTAGAGGTTGCGAGGAGTATTGCTACGACCAAGGTGAGGCACCCAATTGCCTTACTTAGAGAGTTTGATACGGATGGTCTACTAGATACCTCAGATTATTCTAGGTTTGAAGATAGTGTCAATGATATTCAGAAAGCTTATTCCATTACAGAAATTATGGGTTACGAAGGTCGCCTTGCGAAATCCTATTTTTACTATCTGAATTTACTCGTTCCTAATGACTTTCATTTTAATGGTAGGAGTAGACGGCCTGGGGAGGATTGTTTTAACAGTGCCCTCAATTTTGGCTATAGTATCTTATATTCTTGCTTAATGGGCTGATTAAGAAAAACGGGCTAAGCTTGGGATTTGGGGTAATTCACAAGCATCATCAGCATCATGCGACCTTGGCCAGTGATTTAATGGAAGAATGGAGACCTATCATCGTCGATAATACGCTTATGGAGTTGGTACGAAATGGTAAACTTCTTTTAAGTCATTTTGAAAATAAGGATCAAGACTTCATACTCACCCATGAAGGCAGAGAAATCTTTGCACGGGCTTTACGTTCAAGAATATTAGAAGTCCATCAGTATATTGAGTTAGATAAAAAACGCTATTCTTTTCTTTATACAGCAGATAGGCAAATCAAGAGTTTGATTAGGGCTTTTAGAGAACTTGACCCTAGTCTCTATGAGACAAGTTACACAGGAGGGCATTAATGGGACTTTACTTTAACCTCAGCGAAGAAGAGCGTGAGTTTGCCAAACAAAAAAACCATGTTTTGTCTGATTATTTATGATATTCGAAGTAACAAACGTAGACTTAAACTCTCGAAATTACTTGAGGGTTATGGCGTGAGGGTGCAAAAATCCTGTTTCGAAGTCGACCTGTCAAGAAATGATTATCAGTCTCTCCTTAAGGATATCGAGGGCTTCTCCAAGGCTGATGAAGAAGACAGCATAATAGTGTATGTGCCAACCAAAGAAGAGGTGACTAGTTTTAGCCCCTACCATAGTGCTGAAAAATTAGATGACATTCTCTTCCCCTAAGCCTTTATAGACCTTTAATCATATGGTACACTATAGATAGTGTTTCCAGAGGCTCTTAAGGAAATCAAAGATAGAGAGACACTTCAAAGATTTTGTAGATATATGGAAGCATTAGTAGCCTATTTCAAGTTTTATGGAGGTAAAGATTAATGACATTCGCTAAGATTAAATTTTCAGCTCAAATTCGTTTAGAGACAGGCCTCCATATTGGTGGAAGCGATGCTTTTGCAGCCATTGGTGCAATCGATTCGCCTGTTATTAAAGATCCTATTACCAACCTACCGATCATTCCTGGTTCAAGTCTCAAAGGAAAAATGAGAACGCTTCTTGCCAAGGTTTATAATGAAAAGGTAGCTGAGAAACCAAGCGATGACAGTGATATTCTTAGCCGTTTATTTGGGAATAGTAAAGATAAACGATTCAAAATGGGACGCTTGATTTTTCGTGATGCCTTCTTGTCAAACGCTGATGAGCTAGACTCTCTTGGGGTAAGAAGTTATACAGAAGTAAAATTTGAAAATACAATTGACCGTATCACTGCCGAAGCTAATCCAAGACAAATTGAACGTGCTATTCGTACCAGTACTTTTGATTTCGAGTTGATTTATGAAATTACAGATGAGAATGAAAATCAAGTCGAAGAAGATTCCAAAGTGATTCGAGATGGTTTAAAACTGCTTGAACTTGATTATCTTGGTGGTTCTGGATCTCGAGGTTACGGTAAGGTTGCTTTTGAAAACCTCAAAGCTACTACCGTATTTGGTAATTATGATGTTAAAACATTAAATGAACTTTTAACTGCGGAGGTCTAATATGACCTATAAACTGTATATTATGACCTTTCAGAATGCTCATTTTGGTTCGGGCACTCTTGATAGCTCAAAATTAACATTCTCAGCAGACCGTATCTTCTCAGCACTAGTGCTAGAATCCCTAAAAATGGGAAAACTCGATGCATTTCTTGCGGAAGCTAACCAAGACAAGTTCACGCTCACAGATGCCTTTCCATTTCAATTTGGTCCCTTTTTGCCGAAACCTATTGGTTATCCCAAACATGACCAAATAGATCAATCAGTTGATGTCAAAGAGGTTCGCCGTCAAGCAAAATTGTCTAAGAAACTGCAATTTCTTGCTCTAGAAAATGTTGACGATTATATCAATGGAGAGTTATTTGAAAATGAAGAGCATGCAGTCATCGATACTGTGACAAAAAATCAACCACATAAGGACGGCAATCTTTATCAGGTAGCTACAACCAGATTTTCAAATGATACGTCGCTTTACGTCATCGCAAACGAATCTGATTTGCTTAATGAGTTGATGTCTAGTCTTCAGTATTCAGGTCTTGGTGGAAAGCGTTCAAGTGGTTTTGGTCGTTTTGAGTTAGATATTCAAAATATCCCACTAGAATTGTCAGATAGACTGACTAAGAATCATTCAGATAAAGTGATGAGTCTTACGACAGCACTTCCTGTAGATGCTGACCTTGAAGAAGCAATGGAAGATGGACATTACTTATTAACTAAATCAAGTGGTTTTGCATTTAGTCATGCCACCAATGAGAATTATCGTAAGCAGGATCTTTACAAATTTGCTTCTGGTTCAACTTTTAGTAAAACATTTGAAGGTCAGATTGTTGATGTGAGACCACTTGATTTCCCTCATGCTGTTTTAAATTATGCTAAACCACTCTTCTTTAAATTGGAGGTATAAAAATGAAAAATGACTATAGAACATTTAAATTAAGCCTCCTGACACTTGCTCCAATTCATATTGGTAATGGAGAGAAGTATACCTCTAGAGAATTTATCTATGAAAATAAAAAGTTTTACTTTCCTGACATGGGGAAATTCTATAATAAAATGGTGGAGAAGAGGCTTGCTGAAAAGTTTGAAGCATTTCTAATTCAAACTCGTCCAAATGCACGTAATAATCGTCTTATTTCCTTCTTAAATGATAACCGAATTGCAGAGCGTTCTTTTGGAGGTTATAGTATCTCTGAAACAGGTTTAGAATCGGACAAAAATCCTGATTCAACCGGAGCTATTAACGAAGTTAATAAATTTATTCGAGATGCTTTTGGAAATCCCTACATTCCTGGTAGCTCACTAAAAGGTGCTATTCGTACCATTTTAATGAATACTACCCCTAAGTGGAATAATGAAAATGCTGTAAATGACTTTGGAAGATTTCCGAAAGAGAATAAGAACCTTATCCCTTGGGGACCAAAAAAGGGAAAAGAATACGATGATTTGTTTAACGCAATTCGTGTGAGTGATAGTAAGCCTTTTGATAATAAGAGTCTTATCTTAGTGCAGAAATGGGATTATTCAGCGAAAACAAATAAAGCTAAACCACTTCCCTTGTATAGAGAATCAATCTCTCCATTAACAAAAATTGAATTTGAGATTACAACAACCACTGATGAAGCTGGAAGATTGATTGAAGAATTAGGTAAGAGAGCACAAGCGTTTTATAAAGACTATAAGGCATTTTTCCTATCTGAATTTCCTGATGATAAGATTCAAGCCAATCTACAATACCCAATTTATTTAGGTGCGGGGAGCGGTGCTTGGACAAAGACTCTATTTAAGCAAGCTGATGGTATTTTACAAAGACGATACAGTCGAATGAAAACTAAAATGGTTAAAAAAGGAGTTCTTAAGCTCACAAAAGCACCTCTTAAAACAGTTAAGATTCCATCTGGTAATCATTCATTAGTCAAGAACCACGAGTCCTTTTATGAAATGGGAAAAGCTAATTTCATGATTAAGGAGATTGATAAATGA(SEQ ID NO:466)
SEQ ID NO:467:
ATGAGCGATTTATATAGTCAAAGGTCCAATTATTACCTGTCCTTATCTGAACAAAGAATTATCATTAAAAATGATAATAAAGAGATTGTCAAAGAAGTGTCCATTTCACTCGTTGATAATGTATTACTTTTTGGTAATGCACAACTGACCACCCAACTCATCAAAGCCTTGTCAAAGAACAAGGTGAATGTTTACTATTTCTCAAATGTTGGTCAATTTATTTCTAGTATTGAAACCCACAGGCAGGACGAATTCCAAAAGCAAGAGTTGCAAGCAAAGGCTTATTTTGAAGAGGATTTCCGTTTAGAGGTTGCGAGGAGTATTGCTACGACCAAGGTGAGGCACCCAATTGCCTTACTTAGAGAGTTTGATACGGATGGTCTACTAGATACCTCAGATTATTCTAGGTTTGAAGATAGTGTCAATGATATTCAGAAAGCTTATTCCATTACAGAAATTATGGGTTACGAAGGTCGCCTTGCGAAATCCTATTTTTACTATCTGAATTTACTCGTTCCTAATGACTTTCATTTTAATGGTAGGAGTAGACGGCCTGGGGAGGATTGTTTTAACAGTGCCCTCAATTTTGGCTATAGTATCTTATATTCTTGCTTAATGGGCTGA(SEQ ID NO:467)
SEQ ID NO:468:
TTGCTTAATGGGCTGATTAAGAAAAACGGGCTAAGCTTGGGATTTGGGGTAATTCACAAGCATCATCAGCATCATGCGACCTTGGCCAGTGATTTAATGGAAGAATGGAGACCTATCATCGTCGATAATACGCTTATGGAGTTGGTACGAAATGGTAAACTTCTTTTAAGTCATTTTGAAAATAAGGATCAAGACTTCATACTCACCCATGAAGGCAGAGAAATCTTTGCACGGGCTTTACGTTCAAGAATATTAGAAGTCCATCAGTATATTGAGTTAGATAAAAAACGCTATTCTTTTCTTTATACAGCAGATAGGCAAATCAAGAGTTTGATTAGGGCTTTTAGAGAACTTGACCCTAGTCTCTATGAGACAAGTTACACAGGAGGGCATTAA(SEQ ID NO:468)
SEQ ID NO:469:
ATGTTTTGTCTGATTATTTATGATATTCGAAGTAACAAACGTAGACTTAAACTCTCGAAATTACTTGAGGGTTATGGCGTGAGGGTGCAAAAATCCTGTTTCGAAGTCGACCTGTCAAGAAATGATTATCAGTCTCTCCTTAAGGATATCGAGGGCTTCTCCAAGGCTGATGAAGAAGACAGCATAATAGTGTATGTGCCAACCAAAGAAGAGGTGACTAGTTTTAGCCCCTACCATAGTGCTGAAAAATTAGATGACATTCTCTTCCCCTAA(SEQ ID NO:469)
SEQ ID NO:470:
ATGACATTCGCTAAGATTAAATTTTCAGCTCAAATTCGTTTAGAGACAGGCCTCCATATTGGTGGAAGCGATGCTTTTGCAGCCATTGGTGCAATCGATTCGCCTGTTATTAAAGATCCTATTACCAACCTACCGATCATTCCTGGTTCAAGTCTCAAAGGAAAAATGAGAACGCTTCTTGCCAAGGTTTATAATGAAAAGGTAGCTGAGAAACCAAGCGATGACAGTGATATTCTTAGCCGTTTATTTGGGAATAGTAAAGATAAACGATTCAAAATGGGACGCTTGATTTTTCGTGATGCCTTCTTGTCAAACGCTGATGAGCTAGACTCTCTTGGGGTAAGAAGTTATACAGAAGTAAAATTTGAAAATACAATTGACCGTATCACTGCCGAAGCTAATCCAAGACAAATTGAACGTGCTATTCGTACCAGTACTTTTGATTTCGAGTTGATTTATGAAATTACAGATGAGAATGAAAATCAAGTCGAAGAAGATTCCAAAGTGATTCGAGATGGTTTAAAACTGCTTGAACTTGATTATCTTGGTGGTTCTGGATCTCGAGGTTACGGTAAGGTTGCTTTTGAAAACCTCAAAGCTACTACCGTATTTGGTAATTATGATGTTAAAACATTAAATGAACTTTTAACTGCGGAGGTCTAA(SEQ ID NO:470)
SEQ ID NO:471:
ATGACCTATAAACTGTATATTATGACCTTTCAGAATGCTCATTTTGGTTCGGGCACTCTTGATAGCTCAAAATTAACATTCTCAGCAGACCGTATCTTCTCAGCACTAGTGCTAGAATCCCTAAAAATGGGAAAACTCGATGCATTTCTTGCGGAAGCTAACCAAGACAAGTTCACGCTCACAGATGCCTTTCCATTTCAATTTGGTCCCTTTTTGCCGAAACCTATTGGTTATCCCAAACATGACCAAATAGATCAATCAGTTGATGTCAAAGAGGTTCGCCGTCAAGCAAAATTGTCTAAGAAACTGCAATTTCTTGCTCTAGAAAATGTTGACGATTATATCAATGGAGAGTTATTTGAAAATGAAGAGCATGCAGTCATCGATACTGTGACAAAAAATCAACCACATAAGGACGGCAATCTTTATCAGGTAGCTACAACCAGATTTTCAAATGATACGTCGCTTTACGTCATCGCAAACGAATCTGATTTGCTTAATGAGTTGATGTCTAGTCTTCAGTATTCAGGTCTTGGTGGAAAGCGTTCAAGTGGTTTTGGTCGTTTTGAGTTAGATATTCAAAATATCCCACTAGAATTGTCAGATAGACTGACTAAGAATCATTCAGATAAAGTGATGAGTCTTACGACAGCACTTCCTGTAGATGCTGACCTTGAAGAAGCAATGGAAGATGGACATTACTTATTAACTAAATCAAGTGGTTTTGCATTTAGTCATGCCACCAATGAGAATTATCGTAAGCAGGATCTTTACAAATTTGCTTCTGGTTCAACTTTTAGTAAAACATTTGAAGGTCAGATTGTTGATGTGAGACCACTTGATTTCCCTCATGCTGTTTTAAATTATGCTAAACCACTCTTCTTTAAATTGGAGGTATAA(SEQ ID NO:471)
SEQ ID NO:472:
ATGAAAAATGACTATAGAACATTTAAATTAAGCCTCCTGACACTTGCTCCAATTCATATTGGTAATGGAGAGAAGTATACCTCTAGAGAATTTATCTATGAAAATAAAAAGTTTTACTTTCCTGACATGGGGAAATTCTATAATAAAATGGTGGAGAAGAGGCTTGCTGAAAAGTTTGAAGCATTTCTAATTCAAACTCGTCCAAATGCACGTAATAATCGTCTTATTTCCTTCTTAAATGATAACCGAATTGCAGAGCGTTCTTTTGGAGGTTATAGTATCTCTGAAACAGGTTTAGAATCGGACAAAAATCCTGATTCAACCGGAGCTATTAACGAAGTTAATAAATTTATTCGAGATGCTTTTGGAAATCCCTACATTCCTGGTAGCTCACTAAAAGGTGCTATTCGTACCATTTTAATGAATACTACCCCTAAGTGGAATAATGAAAATGCTGTAAATGACTTTGGAAGATTTCCGAAAGAGAATAAGAACCTTATCCCTTGGGGACCAAAAAAGGGAAAAGAATACGATGATTTGTTTAACGCAATTCGTGTGAGTGATAGTAAGCCTTTTGATAATAAGAGTCTTATCTTAGTGCAGAAATGGGATTATTCAGCGAAAACAAATAAAGCTAAACCACTTCCCTTGTATAGAGAATCAATCTCTCCATTAACAAAAATTGAATTTGAGATTACAACAACCACTGATGAAGCTGGAAGATTGATTGAAGAATTAGGTAAGAGAGCACAAGCGTTTTATAAAGACTATAAGGCATTTTTCCTATCTGAATTTCCTGATGATAAGATTCAAGCCAATCTACAATACCCAATTTATTTAGGTGCGGGGAGCGGTGCTTGGACAAAGACTCTATTTAAGCAAGCTGATGGTATTTTACAAAGACGATACAGTCGAATGAAAACTAAAATGGTTAAAAAAGGAGTTCTTAAGCTCACAAAAGCACCTCTTAAAACAGTTAAGATTCCATCTGGTAATCATTCATTAGTCAAGAACCACGAGTCCTTTTATGAAATGGGAAAAGCTAATTTCATGATTAAGGAGATTGATAAATGA(SEQ IDNO:472)
SEQ ID NO:478:
ATGAGCGATTTATATAGTCAAAGGTCCAATTATTACCTGTCCTTATCTGAACAAAGAATTATCATTAAAAATGATAATAAAGAGATTGTCAAAGAAGTGTCCATTTCACTCGTTGATAATGTATTACTTTTTGGTAATGCACAACTGACCACCCAACTCATCAAAGCCTTGTCAAAGAACAAGGTGAATGTTTACTATTTCTCAAATGTTGGTCAATTTATTTCTAGTATTGAAACCCACAGGCAGGACGAATTCCAAAAGCAAGAGTTGCAAGCAAAGGCTTATTTTGAAGAGGATTTCCGTTTAGAGGTTGCGAGGAGTATTGCTACGACCAAGGTGAGGCACCCAATTGCCTTACTTAGAGAGTTTGATACGGATGGTCTACTAGATACCTCAGATTATTCTAGGTTTGAAGATAGTGTCAATGATATTCAGAAAGCTTATTCCATTACAGAAATTATGGGTTACGAAGGTCGCCTTGCGAAATCCTATTTTTACTATCTGAATTTACTCGTTCCTAATGACTTTCATTTTAATGGTAGGAGTAGACGGCCTGGGGAGGATTGTTTTAACAGTGCCCTCAATTTTGGCTATAGTATCTTATATTCTTGCTTAATGGGCTGATTAAGAAAAACGGGCTAAGCTTGGGATTTGGGGTAATTCACAAGCATCATCAGCATCATGCGACCTTGGCCAGTGATTTAATGGAAGAATGGAGACCTATCATCGTCGATAATACGCTTATGGAGTTGGTACGAAATGGTAAACTTCTTTTAAGTCATTTTGAAAATAAGGATCAAGACTTCATACTCACCCATGAAGGCAGAGAAATCTTTGCACGGGCTTTACGTTCAAGAATATTAGAAGTCCATCAGTATATTGAGTTAGATAAAAAACGCTATTCTTTTCTTTATACAGCAGATAGGCAAATCAAGAGTTTGATTAGGGCTTTTAGAGAACTTGACCCTAGTCTCTATGAGACAAGTTACACAGGAGGGCATTAATGGGACTTTACTTTAACCTCAGCGAAGAAGAGCGTGAGTTTGCCAAACAAAAAACCATGTTTTGTCTGATTATTTATGATATTCGAAGTAACAAACGTAGACTTAAACTCTCGAAATTACTTGAGGGTTATGGCGTGAGGGTGCAAAAATCCTGTTTCGAAGTCAACCTGTCAAGAAATGATTATCAGTCTCTCCTTAAGGATATCGAGGGCTTCTACAAGGCTGATGAAGAAGACAGCATAATAGTGTATGTGACAACCAAAGAAGAGGTGACTAGTTTTAGCCCCTACCATAGTGCTGAAAAATTAGATGACATTCTCTTCTTCTAAGCCTTTATAGACCTTTAATCATATGGTACACTATAGATAGTGTTTCCAGTAGGTCCTACATCTTGTGCCTCTAGCAACTGCCTAGAGCACAAGATATGGGGATATAAACCTAATTACCTCGAGAGGGGACGGAAACGCTTTCTAGCTCGCTATAATTACCCATTCCTAGAAAGATATAAACCTAATTACCTCGAGAGGGGACGGAAACTTTGAATAGTCTTTGAATCGCATTTGAACCATATAGATATAAACCTAATTACCTCGAGAGGGGACGGAAACAGGTTTTTTGCCATAGATTTTCCAAGACCTTCCCAACTGATATAAACCTAATTACCTCGAGAGGGGACGGAAACGCTTTCTAGCTCGCTATAATTACCCATTCCTAGAAAGATATAAACCTAATTACCTCGAGAGGGGACTTTTTTGAAAATTTTGAAAACAGTATTGATACCGCTTCCAGAAAGTGTTAGACTAAAAGCACATTAAGGGCGCCCCAATGAGTTGAAAAGTACTTTCAGCTTTTGGGGTTTTTTCATACAAAGATGAAGGAGTCGAATGAAAAAATTAGTATTTACTTTTAAAAGGATCGACCATCCTGCACAAGATTTGGCTGTTAAATTTCATGGCTTCTTGATGGAGCAGTTGGATAGTGACTATGTTGATTATCTGCATCAGCAGCAAACAAATCCCTATGCGACCAAGGTAATCCAAGGGAAAGAAAACACGCAGTGGGTTGTACATCTGCTCACAGACGACATCGAGGATAAGGTTTTTATGACCTTATTACAGATTAAAGAGGTGTCCTTAAACGATCTGCCTAAACTCAGTGTCGAAAAAGTTGAGATTCAGGAGTTGGGGGCAGATAAACTGTTAGAGATTTTCAATAGTGAGGAAAATCAAACCTATTTTTCAATTATTTTTGAGACTCCAACAGGTTTTAAATCTCAAGGTTCCTACGTCATCTTCCCGTCTATGCGTTTGATTTTTCAAAGTTTGATGCAAAAGTATGGAAGGTTGGTTGAAAATCAACCTGAAATTGAAGAGGATACCTTAGATTACCTATCTGAACACAGCACTATCACGAATTATCGCTTGGAGACGAGTTATTTCAGGGTGCACAGGCAACGAATTCCTGCCTTTAGAGGAAAGTTAACCTTTAAAGTACAAGGCGCCCAAACTCTAAAAGCTTATGTCAAAATGCTTCTAACATTCGGTGAATATTCAGGTCTTGGCATGAAAACGAGTCTCGGTATGGGAGGGATAAAGCTTGAAGAAAGAAAAGATTGATTTATTTTACGGAGCTCTTTTGCATGATATCGGTAAGGTCATTCAAAGGGCGACAGGAGAACGAAAAAAACACGCCTTGGTAGGCGCGGATTGGTTTGATGAGATTGCTGATAATCAAGTTATTTCCGATCAAATTAGATATCACATGGCTAACTACCAGAGTGATAAACTTGGAAATGACCATCTTGCTTACATAACTTATATCGCTGATAACATTGCCTCTGGTGTCGACAGAAGACAGTCAAATGAGGAGAGTGACGAGGATACATCAGCTAAGATTTGGGATACCTATACAAACCAGGCTGATATTTTTAACGTTTTTGGGGCACAAACGGATAAACGCTACTTTAAACCGACGGTTCTAAACTTGAAATCTAAACCTAACTTTGCGTCGGCAACATATGAACCTTTCTCAAAAGGTGATTATGCGGCAATTGCGACTCGTATCAAAAATGAATTGGCAGAATTTGAGTTTAATCAAGTACAAATTGACTCTTTGTTAAATCTGTTCGAAGCAACCCTCTCTTTTGTGCCTTCTTCGACTAATACTAAAGAAATCGCTGATATTTCACTTGCTGATCATAGTCGTCTGACAGCAGCTTTTGCTCTAGCCATCTATGATTACTTGGAAGACAAAGGTCGTCATAACTATAAGGAGGACTTGTTTACTAAAGCATCAGCCTTTTATGAGGAAGAAGCTTTTCTCCTAGCTAGCTTTGACTTATCAGGGATTCAAGACTTTATCTATAATATTAATATTGCGACGAATGGTGCTGCTAAACAATTGAAGGCTAGATCTTTATATCTTGACTTTATGAGCGAGTATATAGCAGACAGTTTACTTGATAAACTAGGCCTCAATCGGGCTAATATGCTCTATGTCGGTGGGGGACATGCTTACTTTGTCCTAGCCAATACTGAAAAAACGGTAGAAACACTCGTTCAATTTGAAAAAGATTTCAATCAATTTTTATTGGCAAATTTCCAAACCAGATTATATGTTGCCTTTGGTTGGGGAAGCTTTGCGGCTAAGGATATCATGAGCGAACTGAACTCACCTGAAAGCTATAGACAGGTCTATCAAAAGGCTAGTCGCATGATTTCTGAGAAAAAAATCTCAAGGTATGATTATCAAACCCTTATGTTGTTGAACAGGGGCGGTAAATCTTCTGAAAGAGAGTGCGAGATTTGTCATTCCGTTGAGAATTTAGTTGCTTATCATGACCAAAAAGTGTGTGACATTTGTCGAGGCTTGTATCAATTTTCTAAAGAGATTGCCCATGACCATTTCATTATCACTGAAAATGAAGGGCTTCCTATTGGTCCGAACGCATGTCTTAAGGGTGTTGCATTTGAAAAGCTGAGCCAAGAAGCTTTTTCCCGTGTCTATGTCAAAAATGACTATAAGGCTGGTACAGTTAAGGCAACCCATGTTTTTGTTGGAGATTACCAGTATGATGAAATATACAATTATGCTGCCTTATCTAAAAACGAAAATGGGTTAGGTATTAAACGTTTAGCTGTTGTACGTCTTGACGTGGATGATTTGGGAGCAGCCTTTATGGCTGGCTTCTCCCAACAAGGAAATGGGCAATATAGTACTCTATCACGCTCAGCCACTTTCTCTCGAAGCATGAGTCTTTTCTTCAAGGTTTATATTAACCAGTTTGCTAGTGATAAGAAGCTCTCTATCATCTATGCCGGTGGGGATGATGTTTTTGCTATTGGCTCTTGGCAAGATATTATTGCCTTTACTGTTGAACTTCGTGAGAACTTCATTAAATGGACAAATGGAAAACTAACACTATCAGCTGGTATCGGTCTGTTTGCTGATAAGACCCCTATTAGCTTAATGGCACATCAAACAGGGGAGCTAGAAGAAACAGCTAAAGGCAATGAGAAAGATAGTATTTCACTCTTTAGTTCCGACTATACCTTTAAATTTGATCGGTTTATCACTAATGTTTACGACGATAAGTTAGAGCAGATTCGCTATTTCTTTAATCACCAAGATGAACGAGGCAAGAATTTCATTTATAAATTGATTGAATTGCTTCGAAATTATGATCGTATGAATATGGCACGTTTAGCTTATTATTTAACACGACTTGAAGAATTGACGCGTGAAACAGACAGGGATAAATTTAAAACATTTAAAAATTTATTCTATTCTTGGTACACAAATAAGGATGATAAGGATAGAAAAGAAGCAGAGTTAGCCTTGCTTCTCTATATCTATGAGATTAGAAAGGATTAGGATATGACAATCTTGACTGATGAGAATTACGTTGATATTGCAGAAAAAGCAATTCTAAAACTAGAAAGAAATACTAGGAACAGAAAGAATCCTGATGCCTTCTTTCTTACAACAAGTAAGCTCAGAAACTTGCTGAGCTTAACTAGTACACTTTTTGATGAGAGTAAGGTCAAAGAATATGATGCTCTCCTTGATCGTATTGCTTATTTAAGAGTACAATTTGTCTACCAAGCAGGTAGAGAGATTGCAGTAAAAGATCTGATAGAAAAGGCTCAAATTCTTGAGGCTCTTAAGGAAATCAAAGATAGAGAGACACTTCAAAGATTTTGTAGATATATGGAAGCATTAGTAGCCTATTTCAAGTTTTATGGAGGTAAAGATTAATGACATTCGCTAAGATTAAATTTTCAGCTCAAATTCGTTTAGAGACAGGCCTCCATATTGGTGGAAGCGATGCTTTTGCAGCCATTGGTGCAATCGATTCGCCTGTTATTAAAGATCCTATTACCAACCTACCGATCATTCCTGGTTCAAGTCTCAAAGGAAAAATGAGAACGCTTCTTGCCAAGGTTTATAATGAAAAGGTAGCTGAGAAACCAAGCGATGACAGTGATATTCTTAGCCGTTTATTTGGGAATAGTAAAGATAAACGATTCAAAATGGGACGCTTGATTTTTCGTGATGCCTTCTTGTCAAACGCTGATGAGCTAGACTCTCTTGGGGTAAGAAGTTATACAGAAGTAAAATTTGAAAATACAATTGACCGTATCACTGCCGAAGCTAATCCAAGACAAATTGAACGTGCTATTCGTACCAGTACTTTTGATTTCGAGTTGATTTATGAAATTACAGATGAGAATGAAAATCAAGTCGAAGAAGATTTCAAAGTGATTCGAGATGGTTTAAAACTGCTTGAACTTGATTATCTTGGTGGTTCTGGATCTCGAGGTTACGGTAAGGTTGCTTTTGAAAAACTCAAAGCTACTACCGTATTTGGTAATTATGATGTTAAAACATTAAATGAACTTTTAACTGCGGAGGTCTAATATGACCTATAAACTGTATATTATGACCTTTCAGAATGCTCATTTTGGTTCGGGCACTCTTGATAGCTCAAAATTAACATTCTCAGCAGACCGTATCTTCTCAGCACTAGTGCTAGAATCCCTAAAAATGGGAAAACTCGATGCATTTCTTGCGGAAGCTAACCAAGACAAGTTCACGCTCACAGATGCCTTTCCATTTCAATTTGGTCCCTTTTTGCCGAAACCGATTGGTTATCCCAAACATGACCAAATAGATCAATCAGTTGATGTCAAAGAGGTTCGCCGTCAAGCAAAATTGTCTAAGAAACTGCAATTTCTTGCTCTAGAAAATGTTGACGATTATCTCAATGGAGAGTTATTTGAAAATGAAGAGCATGCAGTCATCGATACTGTGACAAAAAATCAACCACATAAGGACGGCAATCTTTATCAGGTAGCTACAACCAGATTTTCAAATGATACGTCGCTTTACGTCATCGCAAACGAATCTGATTTGCTTAATGAGTTGATGTCTAGTCTTCAGTATTCAGGTCTTGGTGGAAAGCGTTCAAGTGGTTTTGGTCGTTTTGAGTTAGATATTCAAAATATCCCACTAGAATTGTCAGATAGACTGACTAAGAATCATTCAGATAAAGTGATGAGTCTTACGACAGCACTTCCTGTAGATGCTGACCTTGAAGAAGCAATGGAAGATGGACATTACTTATTAACTAAATCAAGTGGTTTTGCATTTAGTCATGCTACCAATGAGAATTATCGTAAGCAGGATCTTTACAAATTTGCTTCTGGTTCAACTTTTAGTAAAACATTTGAAGGTCAGATTGTTGATGTGAGACCACTTGATTTCCCTCATGCTGTTTTAAATTATGCTAAACCACTCTTCTTTAAATTGGAGGTATAAAAATGAAAAATGACTATAGAACATTTAAATTAAGCCTCCTGACACTTGCTCCAATTCATATTGGTAATGGAGAGAAGTATACCTCTAGAGAATTTATCTATGAAAATAAGAAGTTTTACTTTCCTGACATGGGGAAATTCTATAATAAAATGGTGGAGAAGAGGCTTGCTGAAAAGTTTGAAGCATTTCTAATTCAAACTCGTCCAAATGCACGTAATAATCGTCTTATTTCCTTCTTAAATGATAACCGAATTGCAGAGCGTTCTTTTGGAGGTTATAGTATCTCTGAAACAGGTTTAGAATCGGACAAAAATCCTGATTCAGCCGGAGCTATTAACGAAGTTAATAAATTTATTCGAGATGCTTTTGGAAATCCCTACATTCCTGGTAGCTCACTAAAAGGTGCTATTCGTACCATTTTAATGAATACTACCCCTAAGTGGAATAATGAAAATGCTGTAAATGACTTTGGAAGATTTCCGAAAGAGAATAAGAACCTTATCCCTTGGGGACCAAAAAAGGGAAAAGAATACGATGATTTGTTTAACGCAATTCGTGTGAGTGATAGTAAGCCTTTTGATAATAAGAGTCTTATCTTAGTGCAGAAATGGGATTATTCAGCGAAAACAAATAAAGCTAAACCACTTCCCTTGTATAGAGAATCAATCTCTCCATTAACAAAAATTGAATTTGAGATTACAACAACCACTGATGAAGCTGGAAGATTGATTGAAGAATTAGGTAAGAGAGCACAAGCGTTTTATAAAGACTATAAGGCATTTTTCCTATCTGAATTTCCTGATGATAAGATTCAAGCCAATCTACAATACCCAATTTATTTAGGTGCGGGGAGCGGTGCTTGGACAAAGACTCTATTTAAGCAAGCTGATGGTATTTTACAAAGACGATACAGTCGAATGAAAACTAAAATGGTTAAAAAAGGAGTTCTTAAGCTCACAAAAGCACCTCTTAAAACAGTTAAGATTCCATCTGGTAATCATTCATTAGTCAAGAACCACGAGTCCTTTTATGAAATGGGAAAAGCTAATTTCATGATTAAGGAGATTGATAAATGA(SEQ ID NO:478)
SEQ ID NO:479:
ATGAGCGATTTATATAGTCAAAGGTCCAATTATTACCTGTCCTTATCTGAACAAAGAATTATCATTAAAAATGATAATAAAGAGATTGTCAAAGAAGTGTCCATTTCACTCGTTGATAATGTATTACTTTTTGGTAATGCACAACTGACCACCCAACTCATCAAAGCCTTGTCAAAGAACAAGGTGAATGTTTACTATTTCTCAAATGTTGGTCAATTTATTTCTAGTATTGAAACCCACAGGCAGGACGAATTCCAAAAGCAAGAGTTGCAAGCAAAGGCTTATTTTGAAGAGGATTTCCGTTTAGAGGTTGCGAGGAGTATTGCTACGACCAAGGTGAGGCACCCAATTGCCTTACTTAGAGAGTTTGATACGGATGGTCTACTAGATACCTCAGATTATTCTAGGTTTGAAGATAGTGTCAATGATATTCAGAAAGCTTATTCCATTACAGAAATTATGGGTTACGAAGGTCGCCTTGCGAAATCCTATTTTTACTATCTGAATTTACTCGTTCCTAATGACTTTCATTTTAATGGTAGGAGTAGACGGCCTGGGGAGGATTGTTTTAACAGTG
CCCTCAATTTTGGCTATAGTATCTTATATTCTTGCTTAATGGGCTGA(SEQ ID NO:479)
SEQ ID NO:480:TTGCTTAATGGGCTGATTAAGAAAAACGGGCTAAGCTTGGGATTTGGGGTAATTCACAAGCATCATCAGCATCATGCGACCTTGGCCAGTGATTTAATGGAAGAATGGAGACCTATCATCGTCGATAATACGCTTATGGAGTTGGTACGAAATGGTAAACTTCTTTTAAGTCATTTTGAAAATAAGGATCAAGACTTCATACTCACCCATGAAGGCAGAGAAATCTTTGCACGGGCTTTACGTTCAAGAATATTAGAAGTCCATCAGTATATTGAGTTAGATAAAAAACGCTATTCTTTTCTTTATACAGCAGATAGGCAAATCAAGAGTTTGATTAGGGCTTTTAGAGAACTTGACCCTAGTCTCTATGAGACAAGTTACACAGGAGGGCATTAA(SEQ ID NO:480)
SEQ ID NO:481:
ATGGGACTTTACTTTAACCTCAGCGAAGAAGAGCGTGAGTTTGCCAAACAAAAAACCATGTTTTGTCTGATTATTTATGATATTCGAAGTAACAAACGTAGACTTAAACTCTCGAAATTACTTGAGGGTTATGGCGTGAGGGTGCAAAAATCCTGTTTCGAAGTCAACCTGTCAAGAAATGATTATCAGTCTCTCCTTAAGGATATCGAGGGCTTCTACAAGGCTGATGAAGAAGACAGCATAATAGTGTATGTGACAACCAAAGAAGAGGTGACTAGTTTTAGCCCCTACCATAGTGCTGAAAAATTAGATGACATTCTCTTCTTCTAA(SEQ ID NO:481)
SEQ ID NO:482:
ATGAAAAAATTAGTATTTACTTTTAAAAGGATCGACCATCCTGCACAAGATTTGGCTGTTAAATTTCA TGGCTTCTTGATGGAGCAGTTGGATAGTGACTATGTTGATTATCTGCATCAGCAGCAAACAAATCCCTATGCGACCAAGGTAATCCAAGGGAAAGAAAACACGCAGTGGGTTGTACATCTGCTCACAGACGACATCGAGGATAAGGTTTTTATGACCTTATTACAGATTAAAGAGGTGTCCTTAAACGATCTGCCTAAACTCAGTGTCGAAAAAGTTGAGATTCAGGAGTTGGGGGCAGATAAACTGTTAGAGATTTTCAATAGTGAGGAAAATCAAACCTATTTTTCAATTATTTTTGAGACTCCAACAGGTTTTAAATCTCAAGGTTCCTACGTCATCTTCCCGTCTATGCGTTTGATTTTTCAAAGTTTGATGCAAAAGTATGGAAGGTTGGTTGAAAATCAACCTGAAATTGAAGAGGATACCTTAGATTACCTATCTGAACACAGCACTATCACGAATTATCGCTTGGAGACGAGTTATTTCAGGGTGCACAGGCAACGAATTCCTGCCTTTAGAGGAAAGTTAACCTTTAAAGTACAAGGCGCCCAAACTCTAAAAGCTTATGTCAAAATGCTTCTAACATTCGGTGAATATTCAGGTCTTGGCATGAAAACGAGTCTCGGTATGGGAGGGATAAAGCTTGAAGAAAGAAAAGATTGA(SEQ ID NO:482)
SEQ ID NO:483:
TTGAAGAAAGAAAAGATTGATTTATTTTACGGAGCTCTTTTGCATGATATCGGTAAGGTCATTCAAAGGGCGACAGGAGAACGAAAAAAACACGCCTTGGTAGGCGCGGATTGGTTTGATGAGATTGCTGATAATCAAGTTATTTCCGATCAAATTAGATATCACATGGCTAACTACCAGAGTGATAAACTTGGAAATGACCATCTTGCTTACATAACTTATATCGCTGATAACATTGCCTCTGGTGTCGACAGAAGACAGTCAAATGAGGAGAGTGACGAGGATACATCAGCTAAGATTTGGGATACCTATACAAACCAGGCTGATATTTTTAACGTTTTTGGGGCACAAACGGATAAACGCTACTTTAAACCGACGGTTCTAAACTTGAAATCTAAACCTAACTTTGCGTCGGCAACATATGAACCTTTCTCAAAAGGTGATTATGCGGCAATTGCGACTCGTATCAAAAATGAATTGGCAGAATTTGAGTTTAATCAAGTACAAATTGACTCTTTGTTAAATCTGTTCGAAGCAACCCTCTCTTTTGTGCCTTCTTCGACTAATACTAAAGAAATCGCTGATATTTCACTTGCTGATCATAGTCGTCTGACAGCAGCTTTTGCTCTAGCCATCTATGATTACTTGGAAGACAAAGGTCGTCATAACTATAAGGAGGACTTGTTTACTAAAGCATCAGCCTTTTATGAGGAAGAAGCTTTTCTCCTAGCTAGCTTTGACTTATCAGGGATTCAAGACTTTATCTATAATATTAATATTGCGACGAATGGTGCTGCTAAACAATTGAAGGCTAGATCTTTATATCTTGACTTTATGAGCGAGTATATAGCAGACAGTTTACTTGATAAACTAGGCCTCAATCGGGCTAATATGCTCTATGTCGGTGGGGGACATGCTTACTTTGTCCTAGCCAATACTGAAAAAACGGTAGAAACACTCGTTCAATTTGAAAAAGATTTCAATCAATTTTTATTGGCAAATTTCCAAACCAGATTATATGTTGCCTTTGGTTGGGGAAGCTTTGCGGCTAAGGATATCATGAGCGAACTGAACTCACCTGAAAGCTATAGACAGGTCTATCAAAAGGCTAGTCGCATGATTTCTGAGAAAAAAATCTCAAGGTATGATTATCAAACCCTTATGTTGTTGAACAGGGGCGGTAAATCTTCTGAAAGAGAGTGCGAGATTTGTCATTCCGTTGAGAATTTAGTTGCTTATCATGACCAAAAAGTGTGTGACATTTGTCGAGGCTTGTATCAATTTTCTAAAGAGATTGCCCATGACCATTTCATTATCACTGAAAATGAAGGGCTTCCTATTGGTCCGAACGCATGTCTTAAGGGTGTTGCATTTGAAAAGCTGAGCCAAGAAGCTTTTTCCCGTGTCTATGTCAAAAATGACTATAAGGCTGGTACAGTTAAGGCAACCCATGTTTTTGTTGGAGATTACCAGTATGATGAAATATACAATTATGCTGCCTTATCTAAAAACGAAAATGGGTTAGGTATTAAACGTTTAGCTGTTGTACGTCTTGACGTGGATGATTTGGGAGCAGCCTTTATGGCTGGCTTCTCCCAACAAGGAAATGGGCAATATAGTACTCTATCACGCTCAGCCACTTTCTCTCGAAGCATGAGTCTTTTCTTCAAGGTTTATATTAACCAGTTTGCTAGTGATAAGAAGCTCTCTATCATCTATGCCGGTGGGGATGATGTTTTTGCTATTGGCTCTTGGCAAGATATTATTGCCTTTACTGTTGAACTTCGTGAGAACTTCATTAAATGGACAAATGGAAAACTAACACTATCAGCTGGTATCGGTCTGTTTGCTGATAAGACCCCTATTAGCTTAATGGCACATCAAACAGGGGAGCTAGAAGAAACAGCTAAAGGCAATGAGAAAGATAGTATTTCACTCTTTAGTTCCGACTATACCTTTAAATTTGATCGGTTTATCACTAATGTTTACGACGATAAGTTAGAGCAGATTCGCTATTTCTTTAATCACCAAGATGAACGAGGCAAGAATTTCATTTATAAATTGATTGAATTGCTTCGAAATTATGATCGTATGAATATGGCACGTTTAGCTTATTATTTAACACGACTTGAAGAATTGACGCGTGAAACAGACAGGGATAAATTTAAAACATTTAAAAATTTATTCTATTCTTGGTACACAAATAAGGATGATAAGGATAGAAAAGAAGCAGAGTTAGCCTTGCTTCTCTATATCTATGAGATTAGAAAGGATTAG(SEQ ID NO:483)
SEQ ID NO:484:
ATGACAATCTTGACTGATGAGAATTACGTTGATATTGCAGAAAAAGCAATTCTAAAACTAGAAAGAAATACTAGGAACAGAAAGAATCCTGATGCCTTCTTTCTTACAACAAGTAAGCTCAGAAACTTGCTGAGCTTAACTAGTACACTTTTTGATGAGAGTAAGGTCAAAGAATATGATGCTCTCCTTGATCGTATTGCTTATTTAAGAGTACAATTTGTCTACCAAGCAGGTAGAGAGATTGCAGTAAAAGATCTGATAGAAAAGGCTCAAATTCTTGAGGCTCTTAAGGAAATCAAAGATAGAGAGACACTTCAAAGATTTTGTAGATATATGGAAGCATTAGTAGCCTATTTCAAGTTTTATGGAGGTAAAGATTAA(SEQ ID NO:484)
SEQ ID NO:485:
ATGACATTCGCTAAGATTAAATTTTCAGCTCAAATTCGTTTAGAGACAGGCCTCCATATTGGTGGAAGCGATGCTTTTGCAGCCATTGGTGCAATCGATTCGCCTGTTATTAAAGATCCTATTACCAACCTACCGATCATTCCTGGTTCAAGTCTCAAAGGAAAAATGAGAACGCTTCTTGCCAAGGTTTATAATGAAAAGGTAGCTGAGAAACCAAGCGATGACAGTGATATTCTTAGCCGTTTATTTGGGAATAGTAAAGATAAACGATTCAAAATGGGACGCTTGATTTTTCGTGATGCCTTCTTGTCAAACGCTGATGAGCTAGACTCTCTTGGGGTAAGAAGTTATACAGAAGTAAAATTTGAAAATACAATTGACCGTATCACTGCCGAAGCTAATCCAAGACAAATTGAACGTGCTATTCGTACCAGTACTTTTGATTTCGAGTTGATTTATGAAATTACAGATGAGAATGAAAATCAAGTCGAAGAAGATTTCAAAGTGATTCGAGATGGTTTAAAACTGCTTGAACTTGATTATCTTGGTGGTTCTGGATCTCGAGGTTACGGTAAGGTTGCTTTTGAAAAACTCAAAGCTACTACCGTATTTGGTAATTATGATGTTAAAACATTAAATGAACTTTTAACTGCGGAGGTCTAA(SEQ ID NO:485)
SEQ ID NO:486:
ATGACCTATAAACTGTATATTATGACCTTTCAGAATGCTCATTTTGGTTCGGGCACTCTTGATAGCTCAAAATTAACATTCTCAGCAGACCGTATCTTCTCAGCACTAGTGCTAGAATCCCTAAAAATGGGAAAACTCGATGCATTTCTTGCGGAAGCTAACCAAGACAAGTTCACGCTCACAGATGCCTTTCCATTTCAATTTGGTCCCTTTTTGCCGAAACCGATTGGTTATCCCAAACATGACCAAATAGATCAATCAGTTGATGTCAAAGAGGTTCGCCGTCAAGCAAAATTGTCTAAGAAACTGCAATTTCTTGCTCTAGAAAATGTTGACGATTATCTCAATGGAGAGTTATTTGAAAATGAAGAGCATGCAGTCATCGATACTGTGACAAAAAATCAACCACATAAGGACGGCAATCTTTATCAGGTAGCTACAACCAGATTTTCAAATGATACGTCGCTTTACGTCATCGCAAACGAATCTGATTTGCTTAATGAGTTGATGTCTAGTCTTCAGTATTCAGGTCTTGGTGGAAAGCGTTCAAGTGGTTTTGGTCGTTTTGAGTTAGATATTCAAAATATCCCACTAGAATTGTCAGATAGACTGACTAAGAATCATTCAGATAAAGTGATGAGTCTTACGACAGCACTTCCTGTAGATGCTGACCTTGAAGAAGCAATGGAAGATGGACATTACTTATTAACTAAATCAAGTGGTTTTGCATTTAGTCATGCTACCAATGAGAATTATCGTAAGCAGGATCTTTACAAATTTGCTTCTGGTTCAACTTTTAGTAAAACATTTGAAGGTCAGATTGTTGATGTGAGACCACTTGATTTCCCTCATGCTGTTTTAAATTATGCTAAACCACTCTTCTTTAAATTGGAGGTATAA(SEQ ID NO:486)
SEQ ID NO:487
ATGAAAAATGACTATAGAACATTTAAATTAAGCCTCCTGACACTTGCTCCAATTCATATTGGTAATGGAGAGAAGTATACCTCTAGAGAATTTATCTATGAAAATAAGAAGTTTTACTTTCCTGACATGGGGAAATTCTATAATAAAATGGTGGAGAAGAGGCTTGCTGAAAAGTTTGAAGCATTTCTAATTCAAACTCGTCCAAATGCACGTAATAATCGTCTTATTTCCTTCTTAAATGATAACCGAATTGCAGAGCGTTCTTTTGGAGGTTATAGTATCTCTGAAACAGGTTTAGAATCGGACAAAAATCCTGATTCAGCCGGAGCTATTAACGAAGTTAATAAATTTATTCGAGATGCTTTTGGAAATCCCTACATTCCTGGTAGCTCACTAAAAGGTGCTATTCGTACCATTTTAATGAATACTACCCCTAAGTGGAATAATGAAAATGCTGTAAATGACTTTGGAAGATTTCCGAAAGAGAATAAGAACCTTATCCCTTGGGGACCAAAAAAGGGAAAAGAATACGATGATTTGTTTAACGCAATTCGTGTGAGTGATAGTAAGCCTTTTGATAATAAGAGTCTTATCTTAGTGCAGAAATGGGATTATTCAGCGAAAACAAATAAAGCTAAACCACTTCCCTTGTATAGAGAATCAATCTCTCCATTAACAAAAATTGAATTTGAGATTACAACAACCACTGATGAAGCTGGAAGATTGATTGAAGAATTAGGTAAGAGAGCACAAGCGTTTTATAAAGACTATAAGGCATTTTTCCTATCTGAATTTCCTGATGATAAGATTCAAGCCAATCTACAATACCCAATTTATTTAGGTGCGGGGAGCGGTGCTTGGACAAAGACTCTATTTAAGCAAGCTGATGGTATTTTACAAAGACGATACAGTCGAATGAAAACTAAAATGGTTAAAAAAGGAGTTCTTAAGCTCACAAAAGCACCTCTTAAAACAGTTAAGATTCCATCTGGTAATCATTCATTAGTCAAGAACCACGAGTCCTTTTATGAAATGGGAAAAGCTAATTTCATGATTAAGGAGATTGATAAATGA(SEQ IDNO:487)
与重复序列SEQ ID NO:11和/或SEQ ID NO:12。
功能性组合#3:
如下所示的cas序列:SEQ ID NO:488至SEQ ID NO:508和SEQ IDNO:517至SEQ ID NO:521。SEQ ID NO:488-497来自无乳链球菌,而SEQID NO:498-503来自变异链球菌,并且SEQ ID NO:504-508、517-521来自酿脓链球菌。
SEQ ID NO:488:
ATGAATAAGCCATATTCAATAGGCCTTGACATCGGTACTAATTCCGTCGGATGGAGCATTATTACAGATGATTATAAAGTACCTGCTAAGAAGATGAGAGTTTTAGGGAACACTGATAAAGAATATATTAAGAAGAATCTCATAGGTGCTCTGCTTTTTGATGGCGGGAATACTGCTGCAGATAGACGCTTGAAGCGAACTGCTCGTCGTCGTTATACACGTCGTAGAAATCGTATTCTATATTTACAAGAAATTTTTGCAGAGGAAATGAGTAAAGTTGATGATAGTTTCTTTCATCGATTAGAGGATTCTTTTCTAGTTGAGGAAGATAAGAGAGGGAGCAAGTATCCTATCTTTGCAACATTGCAGGAAGAGAAAGATTATCATGAAAAATTTTCGACAATCTATCATTTGAGAAAAGAATTAGCTGACAAGAAAGAAAAAGCAGACCTTCGTCTTATTTATATTGCTCTAGCTCATATCATTAAATTTAGAGGGCATTTCCTAATTGAGGATGATAGCTTTGATGTCAGGAATACAGACATTTCAAAACAATATCAAGATTTTTTAGAAATCTTTAATACAACTTTTGAAAATAATGATTTGTTATCTCAAAACGTTGACGTAGAGGCAATACTAACAGATAAGATTAGCAAGTCTGCGAAGAAAGATCGTATTTTAGCGCAGTATCCTAACCAAAAATCTACTGGCATTTTTGCAGAATTTTTGAAATTGATTGTCGGAAATCAAGCTGACTTCAAGAAATATTTCAATTTGGAGGATAAAACGCCGCTTCAATTCGCTAAGGATAGCTACGATGAAGATTTAGAAAATCTTCTTGGACAGATTGGTGATGAATTTGCAGACTTATTCTCAGCAGCGAAAAAGTTATATGATAGTGTCCTTTTGTCTGGCATTCTTACAGTAATCGACCTCAGTACCAAGGCGCCACTTTCAGCTTCTATGATTCAGCGTTATGATGAACATAGAGAGGACTTGAAACAGTTAAAACAATTCGTAAAAGCTTCATTGCCGGAAAAATATCAAGAAATATTTGCTGATTCATCAAAAGATGGCTACGCTGGTTATATTGAAGGTAAAACTAATCAAGAAGCTTTTTATAAATACCTGTCAAAATTGTTGACCAAGCAAGAAGATAGCGAGAATTTTCTTGAAAAAATCAAGAATGAAGATTTCTTGAGAAAACAAAGGACCTTTGATAATGGCTCAATTCCACACCAAGTCCATTTGACAGAGCTGAAAGCTATTATCCGCCGTCAATCAGAATACTATCCCTTCTTGAAAGAGAATCAAGATAGGATTGAAAAAATCCTTACCTTTAGAATTCCTTATTATATCGGGCCACTAGCACGTGAGAAGAGTGATTTTGCATGGATGACTCGCAAAACAGATGACAGTATTCGACCTTGGAATTTTGAAGACTTGGTTGATAAAGAAAAATCTGCGGAAGCTTTTATCCATCGTATGACCAACAATGATTTTTATCTTCCTGAAGAAAAAGTTTTACCAAAGCATAGTCTTATTTATGAAAAATTTACGGTCTATAATGAGTTGACTAAGGTTAGATATAAAAATGAGCAAGGTGAGACTTATTTTTTTGATAGCAATATTAAACAAGAAATCTTTGATGGAGTATTCAAGGAACATCGTAAGGTATCCAAGAAGAAGTTGCTAGATTTTCTGGCTAAAGAATATGAGGAGTTTAGGATAGTAGATGTTATTGGTCTAGATAAAGAAAATAAAGCTTTCAACGCCTCATTGGGAACTTACCACGATCTCGAAAAAATACTAGACAAAGATTTTCTAGATAATCCAGATAATGAGTCTATTCTGGAAGATATCGTCCAAACTCTAACATTATTTGAAGACAGAGAAATGATTAAGAAGCGTCTTGAAAACTATAAAGATCTTTTTACAGAGTCACAACTAAAAAAACTCTATCGTCGTCACTATACTGGCTGGGGACGATTGTCTGCTAAGTTAATCAATGGTATTCGAGATAAAGAGAGTCAAAAAACAATCTTGGACTATCTTATTGATGATGGTAGATCTAATCGCAACTTTATGCAGTTGATAAATGATGATGGTCTATCTTTCAAATCAATTATCAGTAAGGCACAGGCTGGTAGTCATTCAGATAATCTAAAAGAAGTTGTAGGTGAGCTTGCAGGTAGCCCTGCTATTAAAAAGGGAATTCTACAAAGTTTGAAAATTGTTGATGAGCTTGTTAAAGTCATGGGATACGAACCTGAACAAATTGTGGTTGAGATGGCGCGTGAGAATCAAACAACAAATCAAGGTCGTCGTAACTCTCGACAACGCTATAAACTTCTTGATGATGGCGTTAAGAATCTAGCTAGTGACTTGAATGGCAATATTTTGAAAGAATATCCTACGGATAATCAAGCGTTGCAAAATGAAAGACTTTTCCTTTACTACTTACAAAACGGAAGAGATATGTATACAGGGGAAGCTCTAGATATTGACAATTTAAGTCAATATGATATTGACCACATTATTCCTCAAGCTTTCATAAAAGATGATTCTATTGATAATCGTGTTTTGGTATCATCTGCTAAAAATCGTGGAAAGTCAGATGATGTTCCTAGCCTTGAAATTGTAAAAGATTGTAAAGTTTTCTGGAAAAAATTACTTGATGCTAAGTTAATGAGTCAGCGTAAGTATGATAATTTGACTAAGGCAGAGCGCGGAGGCCTAACTTCCGATGATAAGGCAAGATTTATCCAACGTCAGTTGGTTGAGACACGACAAATTACCAAGCATGTTGCCCGTATCTTGGATGAACGCTTTAATAATGAGCTTGATAGTAAAGGTAGAAGGATCCGCAAAGTTAAAATTGTAACCTTGAAGTCAAATTTGGTTTCAAATTTCCGAAAAGAATTTGGATTCTATAAAATTCGTGAAGTTAACAATTATCACCATGCACATGATGCCTATCTTAATGCAGTAGTTGCTAAAGCTATTCTAACCAAATATCCTCAGTTAGAGCCAGAATTTGTCTACGGCGACTATCCAAAATATAATAGTTACAAAACGCGTAAATCCGCTACAGAAAAGCTATTTTTCTATTCAAATATTATGAACTTCTTTAAAACTAAGGTAACTTTAGCGGATGGAACCGTTGTTGTAAAAGATGATATTGAAGTTAATAATGATACGGGTGAAATTGTTTGGGATAAAAAGAAACACTTTGCGACAGTTAGAAAAGTCTTGTCATACCCTCAGAACAATATCGTGAAGAAGACAGAGATTCAGACAGGTGGTTTCTCTAAGGAATCAATCTTGGCGCATGGTAACTCAGATAAGTTGATTCCAAGAAAAACGAAGGATATTTATTTAGATCCTAAGAAATATGGAGGTTTTGATAGTCCGATAGTAGCTTACTCTGTTTTAGTTGTAGCTGATATCAAAAAGGGTAAAGCACAAAAACTAAAAACAGTTACGGAACTTTTAGGAATTACCATCATGGAGAGGTCCAGATTTGAGAAAAATCCATCAGCTTTCCTTGAATCAAAAGGCTATTTAAATATTAGGGCTGATAAACTAATTATTTTGCCCAAGTATAGTCTGTTCGAATTAGAAAATGGGCGTCGTCGATTACTTGCTAGTGCTGGTGAATTACAAAAAGGTAATGAGCTAGCCTTACCAACACAATTTATGAAGTTCTTATACCTTGCAAGTCGTTATAATGAGTCAAAAGGTAAACCAGAGGAGATTGAGAAGAAACAAGAATTTGTAAATCAACATGTCTCTTATTTTGATGACATCCTTCAATTAATTAATGATTTTTCAAAACGAGTTATTCTAGCAGATGCTAATTTAGAGAAAATCAATAAGCTTTACCAAGATAATAAGGAAAATATATCAGTAGATGAACTTGCTAATAATATTATCAATCTATTTACTTTTACCAGTCTAGGAGCTCCAGCAGCTTTTAAATTTTTTGATAAAATAGTTGATAGAAAACGCTATACATCAACTAAAGAAGTACTTAATTCTACCCTAATTCATCAATCTATTACTGGACTTTATGAAACACGTATTGATTTGGGTAAGTTAGGAGAAGATTGATATGGCAGGTTGGCGAACCGTTGTTGTAAATACACATTCTAAGCTCTCTTATAAAAATAATCATCTGATTTTTAAAGATTCTTATCAGACGGAAATGATTCATCTATCAGAGATTGACATTCTAATCATGGAAACAACAGATATCGTTTTGTCGACCATGCTGATTAAACGTTTGGTTGATGAAAATATTTTAGTTATATTTTGTGACGATAAACGCTTGCCAACAGCTATGTTAATGCCGTACTATGCCAGACATGATTCGAGTTTACAATTATCTAGGCAGATGTCATGGATTGAAGATGTCAAAGCAGATGTTTGGACATCAATTATTGCACAAAAAATTTTGAATCAGTCTTTTTATCTCGGTGAGTGTTCTTTCTTTGAAAAATCCCAGTCTATTATGAATCTCTACCATGACTTAGAACCTTTTGATCCTTCTAATCGTGAGGGGCATGCTGCTAGGATTTATTTCAATACACTTTTTGGAAATGATTTTTCAAGAGAGCAGGATAATCCAATAAATGCTGGTTTAGACTACGGATATTCATTGCTTTTGAGTATGTTTGCGCGTGAAGTTGTTAAGTGTGGTTGCATGACACAATTTGGCTTGAAGCATGCTAATCAATTTAATCAGTTCAACCTAGCAAGCGATATTATGGAACCATTTCGCCCAATCGTTGATAGGATTATTTATGAAAATAGGCAGAGTGATTTTGTCAAAATGAAAAGAGAACTCTTTTCTATGTTTTCAGAGACATACAGCTACAATGGTAAAGAAATGTATCTCTCAAATATTGTCAGCGACTATACCAAAAAAGTTATTAAGTCGCTAAATAGTGATGGGAATGGAATTCCGGAGTTTAGGATATGAGTTATCGGTATATGCGAATGATTTTAATGTTTGATATGCCTACTGAAACAGCAGAAGAACGGAAGGCGTATCGTAAGTTTAGAAAGTTTCTCTTGAGCGAAGGCTTTATCATGCATCAGTTTTCTGTTTATAGTAAATTATTACTCAATAATACAGCTAATAATGCTATGATAGGTCGGCTTAAAGTGAATAATCCTAAAAAGGGTAATATCACACTCTTAACAGTTACGGAAAAACAATTTGCGAGAATGGTTTACCTCCATGGAGAACGCAACACAAGTGTTGCCAACTCTGATAGTCGCTTGGTTTTCCTAGGAGATTCTTATGATCAAGATTAATTTTCCAATTTTAGATGAACCATTAGTGTTAAGTAATGCTACGATTTTAACGATAGAAGATGTTTCAGTTTATTCTTCATTGGTGAAACATTTTTATCAATATGACGTAGATGAACATTTGAAATTATTTGATGATAAGCAGAAAAGTCTGAAGGCAACAGAGTTAATGCTGGTTACAGATATCTTAGGATACGATGTCAACTCAGCACCTATTCTAAAGTTGATACATGGTGACTTAGAAAATCAATTCAACGAAAAGCCAGAAGTGAAATCAATGGTAGAAAAATTAGCAGCTACTATTACAGAACTTATCGCATTTGAGTGTCTAGAGAATGAGCTTGATTTAGAATACGATGAAATTAAGATTTTAGAACTCATTAAGGCACTGGGAGTCAAAATTGAGACACAGAGCGACACTATCTTTGAAAAATGTTTTGAAATTATACAAGTTTACCATTATTTAACGAAAAAGAATCTCTTGGTTTTTGTTAATAGCGGAGCTTATCTTACCAAAGATGAAGTTATAAAATTATGTGAATACATCAATTTAATGCAAAAGTCAGTACTCTTTCTAGAACCTAGAAGACTCTATGATTTACCGCAATATGTTATTGATAAGGATTATTTCTTGATAGGCGAAAATATGGTATAA(SEQ ID NO:488)
SEQ ID NO:489:
ATGAATAAGCCATATTCAATAGGCCTTGACATCGGTACTAATTCCGTCGGATGGAGCATTATTACAGATGATTATAAAGTACCTGCTAAGAAGATGAGAGTTTTAGGGAACACTGATAAAGAATATATTAAGAAGAATCTCATAGGTGCTCTGCTTTTTGATGGCGGGAATACTGCTGCAGATAGACGCTTGAAGCGAACTGCTCGTCGTCGTTATACACGTCGTAGAAATCGTATTCTATATTTACAAGAAATTTTTGCAGAGGAAATGAGTAAAGTTGATGATAGTTTCTTTCATCGATTAGAGGATTCTTTTCTAGTTGAGGAAGATAAGAGAGGGAGCAAGTATCCTATCTTTGCAACATTGCAGGAAGAGAAAGATTATCATGAAAAATTTTCGACAATCTATCATTTGAGAAAAGAATTAGCTGACAAGAAAGAAAAAGCAGACCTTCGTCTTATTTATATTGCTCTAGCTCATATCATTAAATTTAGAGGGCATTTCCTAATTGAGGATGATAGCTTTGATGTCAGGAATACAGACATTTCAAAACAATATCAAGATTTTTTAGAAATCTTTAATACAACTTTTGAAAATAATGATTTGTTATCTCAAAACGTTGACGTAGAGGCAATACTAACAGATAAGATTAGCAAGTCTGCGAAGAAAGATCGTATTTTAGCGCAGTATCCTAACCAAAAATCTACTGGCATTTTTGCAGAATTTTTGAAATTGATTGTCGGAAATCAAGCTGACTTCAAGAAATATTTCAATTTGGAGGATAAAACGCCGCTTCAATTCGCTAAGGATAGCTACGATGAAGATTTAGAAAATCTTCTTGGACAGATTGGTGATGAATTTGCAGACTTATTCTCAGCAGCGAAAAAGTTATATGATAGTGTCCTTTTGTCTGGCATTCTTACAGTAATCGACCTCAGTACCAAGGCGCCACTTTCAGCTTCTATGATTCAGCGTTATGATGAACATAGAGAGGACTTGAAACAGTTAAAACAATTCGTAAAAGCTTCATTGCCGGAAAAATATCAAGAAATATTTGCTGATTCATCAAAAGATGGCTACGCTGGTTATATTGAAGGTAAAACTAATCAAGAAGCTTTTTATAAATACCTGTCAAAATTGTTGACCAAGCAAGAAGATAGCGAGAATTTTCTTGAAAAAATCAAGAATGAAGATTTCTTGAGAAAACAAAGGACCTTTGATAATGGCTCAATTCCACACCAAGTCCATTTGACAGAGCTGAAAGCTATTATCCGCCGTCAATCAGAATACTATCCCTTCTTGAAAGAGAATCAAGATAGGATTGAAAAAATCCTTACCTTTAGAATTCCTTATTATATCGGGCCACTAGCACGTGAGAAGAGTGATTTTGCATGGATGACTCGCAAAACAGATGACAGTATTCGACCTTGGAATTTTGAAGACTTGGTTGATAAAGAAAAATCTGCGGAAGCTTTTATCCATCGTATGACCAACAATGATTTTTATCTTCCTGAAGAAAAAGTTTTACCAAAGCATAGTCTTATTTATGAAAAATTTACGGTCTATAATGAGTTGACTAAGGTTAGATATAAAAATGAGCAAGGTGAGACTTATTTTTTTGATAGCAATATTAAACAAGAAATCTTTGATGGAGTATTCAAGGAACATCGTAAGGTATCCAAGAAGAAGTTGCTAGATTTTCTGGCTAAAGAATATGAGGAGTTTAGGATAGTAGATGTTATTGGTCTAGATAAAGAAAATAAAGCTTTCAACGCCTCATTGGGAACTTACCACGATCTCGAAAAAATACTAGACAAAGATTTTCTAGATAATCCAGATAATGAGTCTATTCTGGAAGATATCGTCCAAACTCTAACATTATTTGAAGACAGAGAAATGATTAAGAAGCGTCTTGAAAACTATAAAGATCTTTTTACAGAGTCACAACTAAAAAAACTCTATCGTCGTCACTATACTGGCTGGGGACGATTGTCTGCTAAGTTAATCAATGGTATTCGAGATAAAGAGAGTCAAAAAACAATCTTGGACTATCTTATTGATGATGGTAGATCTAATCGCAACTTTATGCAGTTGATAAATGATGATGGTCTATCTTTCAAATCAATTATCAGTAAGGCACAGGCTGGTAGTCATTCAGATAATCTAAAAGAAGTTGTAGGTGAGCTTGCAGGTAGCCCTGCTATTAAAAAGGGAATTCTACAAAGTTTGAAAATTGTTGATGAGCTTGTTAAAGTCATGGGATACGAACCTGAACAAATTGTGGTTGAGATGGCGCGTGAGAATCAAACAACAAATCAAGGTCGTCGTAACTCTCGACAACGCTATAAACTTCTTGATGATGGCGTTAAGAATCTAGCTAGTGACTTGAATGGCAATATTTTGAAAGAATATCCTACGGATAATCAAGCGTTGCAAAATGAAAGACTTTTCCTTTACTACTTACAAAACGGAAGAGATATGTATACAGGGGAAGCTCTAGATATTGACAATTTAAGTCAATATGATATTGACCACATTATTCCTCAAGCTTTCATAAAAGATGATTCTATTGATAATCGTGTTTTGGTATCATCTGCTAAAAATCGTGGAAAGTCAGATGATGTTCCTAGCCTTGAAATTGTAAAAGATTGTAAAGTTTTCTGGAAAAAATTACTTGATGCTAAGTTAATGAGTCAGCGTAAGTATGATAATTTGACTAAGGCAGAGCGCGGAGGCCTAACTTCCGATGATAAGGCAAGATTTATCCAACGTCAGTTGGTTGAGACACGACAAATTACCAAGCATGTTGCCCGTATCTTGGATGAACGCTTTAATAATGAGCTTGATAGTAAAGGTAGAAGGATCCGCAAAGTTAAAATTGTAACCTTGAAGTCAAATTTGGTTTCAAATTTCCGAAAAGAATTTGGATTCTATAAAATTCGTGAAGTTAACAATTATCACCATGCACATGATGCCTATCTTAATGCAGTAGTTGCTAAAGCTATTCTAACCAAATATCCTCAGTTAGAGCCAGAATTTGTCTACGGCGACTATCCAAAATATAATAGTTACAAAACGCGTAAATCCGCTACAGAAAAGCTATTTTTCTATTCAAATATTATGAACTTCTTTAAAACTAAGGTAACTTTAGCGGATGGAACCGTTGTTGTAAAAGATGATATTGAAGTTAATAATGATACGGGTGAAATTGTTTGGGATAAAAAGAAACACTTTGCGACAGTTAGAAAAGTCTTGTCATACCCTCAGAACAATATCGTGAAGAAGACAGAGATTCAGACAGGTGGTTTCTCTAAGGAATCAATCTTGGCGCATGGTAACTCAGATAAGTTGATTCCAAGAAAAACGAAGGATATTTATTTAGATCCTAAGAAATATGGAGGTTTTGATAGTCCGATAGTAGCTTACTCTGTTTTAGTTGTAGCTGATATCAAAAAGGGTAAAGCACAAAAACTAAAAACAGTTACGGAACTTTTAGGAATTACCATCATGGAGAGGTCCAGATTTGAGAAAAATCCATCAGCTTTCCTTGAATCAAAAGGCTATTTAAATATTAGGGCTGATAAACTAATTATTTTGCCCAAGTATAGTCTGTTCGAATTAGAAAATGGGCGTCGTCGATTACTTGCTAGTGCTGGTGAATTACAAAAAGGTAATGAGCTAGCCTTACCAACACAATTTATGAAGTTCTTATACCTTGCAAGTCGTTATAATGAGTCAAAAGGTAAACCAGAGGAGATTGAGAAGAAACAAGAATTTGTAAATCAACATGTCTCTTATTTTGATGACATCCTTCAATTAATTAATGATTTTTCAAAACGAGTTATTCTAGCAGATGCTAATTTAGAGAAAATCAATAAGCTTTACCAAGATAATAAGGAAAATATATCAGTAGATGAACTTGCTAATAATATTATCAATCTATTTACTTTTACCAGTCTAGGAGCTCCAGCAGCTTTTAAATTTTTTGATAAAATAGTTGATAGAAAACGCTATACATCAACTAAAGAAGTACTTAATTCTACCCTAATTCATCAATCTATTACTGGACTTTATGAAACACGTATTGATTTGGGTAAGTTAGGAGAAGATTGA(SEQ ID NO:489)
SEQ ID NO:490:
ATGGCAGGTTGGCGAACCGTTGTTGTAAATACACATTCTAAGCTCTCTTATAAAAATAATCATCTGATTTTTAAAGATTCTTATCAGACGGAAATGATTCATCTATCAGAGATTGACATTCTAATCATGGAAACAACAGATATCGTTTTGTCGACCATGCTGATTAAACGTTTGGTTGATGAAAATATTTTAGTTATATTTTGTGACGATAAACGCTTGCCAACAGCTATGTTAATGCCGTACTATGCCAGACATGATTCGAGTTTACAATTATCTAGGCAGATGTCATGGATTGAAGATGTCAAAGCAGATGTTTGGACATCAATTATTGCACAAAAAATTTTGAATCAGTCTTTTTATCTCGGTGAGTGTTCTTTCTTTGAAAAATCCCAGTCTATTATGAATCTCTACCATGACTTAGAACCTTTTGATCCTTCTAATCGTGAGGGGCATGCTGCTAGGATTTATTTCAATACACTTTTTGGAAATGATTTTTCAAGAGAGCAGGATAATCCAATAAATGCTGGTTTAGACTACGGATATTCATTGCTTTTGAGTATGTTTGCGCGTGAAGTTGTTAAGTGTGGTTGCATGACACAATTTGGCTTGAAGCATGCTAATCAATTTAATCAGTTCAACCTAGCAAGCGATATTATGGAACCATTTCGCCCAATCGTTGATAGGATTATTTATGAAAATAGGCAGAGTGATTTTGTCAAAATGAAAAGAGAACTCTTTTCTATGTTTTCAGAGACATACAGCTACAATGGTAAAGAAATGTATCTCTCAAATATTGTCAGCGACTATACCAAAAAAGTTATTAAGTCGCTAAATAGTGATGGGAATGGAATTCCGGAGTTTAGGATATGA(SEQ ID NO:490)
SEQ ID NO:491:
ATGCGAATGATTTTAATGTTTGATATGCCTACTGAAACAGCAGAAGAACGGAAGGCGTATCGTAAGTTTAGAAAGTTTCTCTTGAGCGAAGGCTTTATCATGCATCAGTTTTCTGTTTATAGTAAATTATTACTCAATAATACAGCTAATAATGCTATGATAGGTCGGCTTAAAGTGAATAATCCTAAAAAGGGTAATATCACACTCTTAACAGTTACGGAAAAACAATTTGCGAGAATGGTTTACCTCCATGGAGAACGCAACACAAGTGTTGCCAACTCTGATAGTCGCTTGGTTTTCCTAGGAGATTCTTATGATCAAGATTAA(SEQ ID NO:491)
SEQ ID NO:492:
ATGATCAAGATTAATTTTCCAATTTTAGATGAACCATTAGTGTTAAGTAATGCTACGATTTTAACGATAGAAGATGTTTCAGTTTATTCTTCATTGGTGAAACATTTTTATCAATATGACGTAGATGAACATTTGAAATTATTTGATGATAAGCAGAAAAGTCTGAAGGCAACAGAGTTAATGCTGGTTACAGATATCTTAGGATACGATGTCAACTCAGCACCTATTCTAAAGTTGATACATGGTGACTTAGAAAATCAATTCAACGAAAAGCCAGAAGTGAAATCAATGGTAGAAAAATTAGCAGCTACTATTACAGAACTTATCGCATTTGAGTGTCTAGAGAATGAGCTTGATTTAGAATACGATGAAATTAAGATTTTAGAACTCATTAAGGCACTGGGAGTCAAAATTGAGACACAGAGCGACACTATCTTTGAAAAATGTTTTGAAATTATACAAGTTTACCATTATTTAACGAAAAAGAATCTCTTGGTTTTTGTTAATAGCGGAGCTTATCTTACCAAAGATGAAGTTATAAAATTATGTGAATACATCAATTTAATGCAAAAGTCAGTACTCTTTCTAGAACCTAGAAGACTCTATGATTTACCGCAATATGTTATTGATAAGGATTATTTCTTGATAGGCGAAAATATGGTATAA(SEQ ID NO:492)
SEQ ID NO:493:
ATGAATAAGCCATATTCAATAGGCCTTGACATCGGTACTAATTCCGTCGGATGGAGCATTATTACAGATGATTATAAAGTACCTGCTAAGAAGATGAGAGTTTTAGGGAACACTGATAAAGAATATATTAAGAAGAATCTCATAGGTGCTCTGCTTTTTGATGGCGGGAATACTGCTGCAGATAGACGCTTGAAGCGAACTGCTCGTCGTCGTTATACACGTCGTAGAAATCGTATTCTATATTTACAAGAAATTTTTGCAGAGGAAATGAGTAAAGTTGATGATAGTTTCTTTCATCGATTAGAGGATTCTTTTCTAGTTGAGGAAGATAAGAGAGGTAGCAAGTATCCTATCTTTGCAACAATGCAGGAGGAGAAATATTATCATGAAAAATTTCCGACAATCTATCATTTGAGAAAAGAATTGGCTGACAAGAAAGAAAAAGCAGACCTTCGTCTTGTTTATCTGGCTCTAGCTCATATCATTAAATTCAGAGGGCATTTCCTAATTGAGGATGATAGATTTGATGTGAGGAATACCGATATTCAAAAACAATATCAAGCCTTTTTAGAAATTTTTGATACTACCTTTGAAAATAATCATTTGTTATCTCAAAATGTAGATGTAGAAGCAATTCTAACAGATAAGATTAGCAAGTCTGCGAAGAAGGATCGCATCTTAGCGCAGTATCCTAACCAAAAATCTACTGGTATTTTTGCAGAATTTTTGAAATTGATTGTCGGAAATCAAGCTGACTTCAAGAAACATTTCAATTTGGAGGATAAAACACCGCTTCAATTCGCTAAGGATAGCTACGATGAAGATTTAGAAAATCTTCTTGGACAGATTGGTGATGAATTTGCAGACTTATTCTCAGTAGCGAAAAAGCTATATGATAGTGTTCTTTTATCTGGCATTCTTACAGTAACTGATCTCAGTACCAAGGCGCCACTTTCTGCCTCTATGATTCAGCGTTATGATGAACATCATGAGGACTTAAAGCATCTAAAACAATTCGTAAAAGCTTCATTACCTGAAAATTATCGGGAAGTATTTGCTGATTCATCAAAAGATGGCTACGCTGGCTATATTGAAGGCAAAACTAATCAAGAAGCTTTTTATAAATATCTGTTAAAATTGTTGACCAAACAAGAAGGTAGCGAGTATTTTCTTGAGAAAATTAAGAATGAAGATTTTTTGAGAAAACAGAGAACCTTTGATAATGGCTCAATCCCGCATCAAGTCCATTTGACAGAATTGAGGGCTATTATTCGACGTCAATCAGAATACTATCCATTCTTGAAAGAGAATCAAGATAGGATTGAAAAAATCCTTACCTTTAGAATTCCTTATTATGTCGGGCCACTAGCACGTGAGAAGAGTGATTTTGCATGGATGACTCGCAAAACAGATGACAGTATTCGACCTTGGAATTTTGAAGACTTGGTTGATAAAGAAAAATCTGCGGAAGCTTTTATCCATCGCATGACCAACAATGACCTCTATCTTCCAGAAGAAAAAGTTTTACCAAAGCATAGTCTTATTTATGAAAAATTTACTGTTTACAATGAATTAACGAAGGTTAGATTTTTGGCAGAAGGCTTTAAAGATTTTCAATTTTTAAATAGGAAGCAAAAAGAAACTATCTTTAACAGCTTGTTTAAGGAAAAACGTAAAGTAACTGAAAAGGATATTATTAGTTTTTTGAATAAAGTTGATGGATATGAAGGAATTGCAATCAAAGGAATTGAGAAACAGTTTAACGCTAGCCTTTCAACCTATCATGATCTTAAAAAAATACTTGGCAAGGATTTCCTTGATAATACAGATAACGAGCTTATTTTGGAAGATATCGTCCAAACTCTAACCTTATTTGAAGATAGAGAAATGATTAAGAAGTGTCTTGACATCTATAAAGATTTTTTTACAGAGTCACAGCTTAAAAAGCTCTATCGCCGTCACTATACTGGCTGGGGACGATTGTCTGCTAAGCTAATAAATGGCATCCGAAATAAAGAGAATCAAAAAACAATCTTGGACTATCTTATTGATGATGGAAGTGCAAACCGAAACTTCATGCAGTTGATAAATGATGATGATCTATCATTTAAACCAATTATTGACAAGGCACGAACTGGTAGTCATTCGGATAATCTGAAAGAAGTTGTAGGTGAACTTGCTGGTAGCCCTGCTATTAAAAAAGGGATTCTACAAAGTTTGAAAATAGTTGATGAGCTGGTTAAAGTCATGGGCTATGAACCTGAACAAATCGTGGTTGAAATGGCACGTGAGAACCAAACGACAGCAAAAGGATTAAGTCGTTCACGACAACGCTTGACAACCTTGAGAGAATCTCTTGCTAATTTGAAGAGTAATATTTTGGAAGAGAAAAAGCCTAAGTATGTGAAAGATCAAGTTGAAAATCATCATTTATCTGATGACCGTCTTTTCCTTTACTACTTACAAAACGGAAGAGATATGTATACAAAAAAGGCTCTGGATATTGATAATTTAAGTCAATATGATATTGACCACATTATTCCTCAAGCTTTCATAAAAGATGATTCTATTGATAATCGTGTTTTGGTATCATCTGCTAAAAATCGTGGAAAATCAGATGATGTTCCTAGCATTGAAATTGTAAAAGCTCGCAAAATGTTCTGGAAAAATTTACTGGATGCTAAGTTAATGAGTCAGCGTAAGTATGATAATTTGACTAAGGCAGAGCGCGGAGGCCTAACTTCCGATGATAAGGCAAGATTTATCCAACGTCAGTTGGTTGAGACTCGACAAATTACCAAGCATGTAGCTCGTATCTTGGATGAACGCTTCAATAATGAAGTTGATAATGGTAAAAAGATTTGCAAGGTTAAAATTGTAACCTTGAAGTCAAATTTGGTTTCAAATTTCCGAAAAGAATTTGGATTCTATAAAATTCGTGAAGTTAATGATTATCACCATGCACACGATGCTTATCTTAATGCAGTAGTTGCCAAAGCTATTCTAACCAAATATCCACAGTTAGAGCCAGAGTTTGTCTACGGAATGTATAGACAGAAAAAACTTTCGAAAATCGTTCATGAGGATAAGGAAGAAAAATATAGTGAAGCAACCAGGAAAATGTTTTTCTACTCCAACTTGATGAATATGTTCAAAAGAGTTGTGAGGTTAGCAGATGGTTCTATTGTTGTAAGACCAGTAATAGAAACTGGTAGATATATGAGAAAAACTGCATGGGATAAAAAGAAACACTTTGCGACAGTTAGAAAAGTCTTGTCATACCCTCAGAACAATATCGTGAAGAAGACAGAGATTCAGACAGGTGGTTTCTCTAAGGAATCAATCTTGGCGCATGGTAACTCAGATAAGTTGATTCCAAGAAAAACGAAGGATATTTATTTAGATCCTAAGAAATATGGAGGTTTTGATAGTCCGATAGTAGCTTACTCTGTTTTAGTTGTAGCTGATATCAAAAAAGGTAAAGCACAAAAACTAAAAACAGTTACGGAACTTTTAGGAATTACCATCATGGAGAGGTCCAGATTTGAGAAAAATCCATCAGCTTTCCTTGAATCAAAAGGTTATTTAAATATTAGGGACGATAAATTAATGATTTTACCGAAGTATAGTCTGTTCGAATTAGAAAATGGGCGTCGTCGATTACTTGCTAGTGCTGGTGAATTACAAAAAGGTAACGAGCTAGCCTTACCAACACAATTTATGAAGTTCTTATACCTTGCAAGTCGTTATAATGAGTCAAAAGGTAAACCAGAGGAGATTGAGAAGAAACAAGAATTTGTAAATCAACATGTCTCTTATTTTGATGACATCCTTCAATTAATTAATGATTTTTCAAAACGAGTTATTCTAGCAGATGCTAATTTAGAGAAAATCAATAAGCTTTACCAGGATAATAAGGAAAATATACCAGTAGATGAACTTGCTAATAATATTATCAATCTATTTACTTTTACCAGTCTAGGAGCTCCAGCAGCTTTTAAATTTTTTGATAAAATAGTTGATAGAAAACGCTATACATCAACTAAAGAAGTACTTAATTCTACTCTAATCCATCAATCTATTACTGGACTTTATGAAACACGTATTGATTTGGGTAAATTAGGAGAAGATTGATATGGCAGGTTGGCGAACTGTTGTTGTAAATACACATTCTAAGCTCTCTTATAAAAATAATCATCTGATTTTTAAAGATTCTTATCAGACGGAAATGATTCATCTTTCAGAGATTGATATTCTAATCATGGAAACGACAGATATTGTTTTGTCGACTATGCTGATTAAACGTTTGGTTGATGAAAATATTTTAGTCATATTTTGTGATGATAAACGCTTGCCAACAGCTATGTTAATGCCGTACTATGCTAGACATGATTCGAGTTTACAATTATCTAGGCAGATGTCATGGATTGAGGATGTCAAAGCGGATGTTTGGACATCAATTATTGCACAAAAAATTTTGAATCAGTCCTTTTATCTCGGTGAGTGTTCTTTCTTTGAAAAATCCCAGTCTATTATGAATCTCTATCATGATTTAGAATCTTTTGACCCTTCCAATCGTGAAGGTCATGCAGCTAGGATTTATTTCAATACACTTTTTGGAAATGATTTTTCAAGAGAGCAGGATAATCCAATAAATGCTGGTTTAGACTATGGATATTCTCTGATTTTGAGTATGTTTGCGCGTGAAGTTGTTAAGTGTGGTTGCATGACACAATTTGGCTTAAAGCATGCTAATCAATTTAATCAGTTCAACCTAGCAAGCGATATTATGGAACCATTTCGCCCAATCGTTGATAGGATTATTTATGAAAATAGGCAGAGTGATTTTGTCAAAATGAAAAGAGAACTCTTTTCTATGTTTTCAGAGACATACAGCTACAACGGTAAAGAAATGTATCTTTCAAATATTGTCAGCGATTACACCAAAAAAGTTATTAAGTCGCTAAATAGTGATGGGAATGGAATTCCGGAGTTTAGGATATGAGTTATCGGTATATGAGAATGATTTTAATGTTTGATATGCCTACTGAAACAGTAGAAGAACGTAAGGCGTATCGTAAGTTTAGAAAGTTTCTGTTGAGCGAAGGTTTTATTATGCATCAGTTCTCTGTTTATAGTAAATTATTGCTCAATAATACAGCTAATAATGCCATGATAGGTCGGCTTAAAGTGAATAATCCTAAGAAAGGGAGTATAACTCTTTTGACAGTTACCGAGAAGCAGTTTGCAAGGATGGTTTATCTACATGGTGAACATAATATGAGTGTTGCCAACTCTGATAGTCGCTTGGTTTTCCTAGGAGATTCTTATGATCAAGATTAATTTTCCAATTTTAGATGAACCATTAGTGTTAAGTAATGCTACGATTTTAACGATAGAAGATGTTTCAGTTTATTCTTCATTGGTGAAACATTTTTATCAATATGACGTAGATGAACATTTGAAATTATTTGATGATAAGCAGAAAAGTCTGAAGGCAACGGAGTTAATGTTAGTTACAGATATCTTAGGATACGATGTCAACTCAGCACCTATTCTAAAGTTGATACATGGTGACTTAGAAAATCAATTCAACGAAAAGCCAGAAGTGAAATCAATGGTAGAAAAATTAGCAGCTACTATTACAGAACTTATCGCATTTGAGTGTCTAGAGAATGAGCTTGATTTAGAATACGATGAAATTACGATTTTAGAACTCATTAAGGCACTGGGAGTCAAAATTGAGACACAGAGCGACACTATCTTTGAAAAATGTTTTGAAATTATACAAGTTTACCATTATTTAACGAAAAAGAATCTCTTAGTTTTTGTTAATAGCGGAGCTTATCTTACCAAAGATGAAGTTATAAAATTATGTGAATACATCAATTTAATGCAAAAGTCAGTACTCTTTCTAGAACCTAGAAGACTCTATGATTTACCGCAATATGTTATTGATAAGGATTATTTCTTGATAGGCGAAAATATGGTATAA(SEQ ID NO:493)
SEQ ID NO:494:
ATGAATAAGCCATATTCAATAGGCCTTGACATCGGTACTAATTCCGTCGGATGGAGCATTATTACAGATGATTATAAAGTACCTGCTAAGAAGATGAGAGTTTTAGGGAACACTGATAAAGAATATATTAAGAAGAATCTCATAGGTGCTCTGCTTTTTGATGGCGGGAATACTGCTGCAGATAGACGCTTGAAGCGAACTGCTCGTCGTCGTTATACACGTCGTAGAAATCGTATTCTATATTTACAAGAAATTTTTGCAGAGGAAATGAGTAAAGTTGATGATAGTTTCTTTCATCGATTAGAGGATTCTTTTCTAGTTGAGGAAGATAAGAGAGGTAGCAAGTATCCTATCTTTGCAACAATGCAGGAGGAGAAATATTATCATGAAAAATTTCCGACAATCTATCATTTGAGAAAAGAATTGGCTGACAAGAAAGAAAAAGCAGACCTTCGTCTTGTTTATCTGGCTCTAGCTCATATCATTAAATTCAGAGGGCATTTCCTAATTGAGGATGATAGATTTGATGTGAGGAATACCGATATTCAAAAACAATATCAAGCCTTTTTAGAAATTTTTGATACTACCTTTGAAAATAATCATTTGTTATCTCAAAATGTAGATGTAGAAGCAATTCTAACAGATAAGATTAGCAAGTCTGCGAAGAAGGATCGCATCTTAGCGCAGTATCCTAACCAAAAATCTACTGGTATTTTTGCAGAATTTTTGAAATTGATTGTCGGAAATCAAGCTGACTTCAAGAAACATTTCAATTTGGAGGATAAAACACCGCTTCAATTCGCTAAGGATAGCTACGATGAAGATTTAGAAAATCTTCTTGGACAGATTGGTGATGAATTTGCAGACTTATTCTCAGTAGCGAAAAAGCTATATGATAGTGTTCTTTTATCTGGCATTCTTACAGTAACTGATCTCAGTACCAAGGCGCCACTTTCTGCCTCTATGATTCAGCGTTATGATGAACATCATGAGGACTTAAAGCATCTAAAACAATTCGTAAAAGCTTCATTACCTGAAAATTATCGGGAAGTATTTGCTGATTCATCAAAAGATGGCTACGCTGGCTATATTGAAGGCAAAACTAATCAAGAAGCTTTTTATAAATATCTGTTAAAATTGTTGACCAAACAAGAAGGTAGCGAGTATTTTCTTGAGAAAATTAAGAATGAAGATTTTTTGAGAAAACAGAGAACCTTTGATAATGGCTCAATCCCGCATCAAGTCCATTTGACAGAATTGAGGGCTATTATTCGACGTCAATCAGAATACTATCCATTCTTGAAAGAGAATCAAGATAGGATTGAAAAAATCCTTACCTTTAGAATTCCTTATTATGTCGGGCCACTAGCACGTGAGAAGAGTGATTTTGCATGGATGACTCGCAAAACAGATGACAGTATTCGACCTTGGAATTTTGAAGACTTGGTTGATAAAGAAAAATCTGCGGAAGCTTTTATCCATCGCATGACCAACAATGACCTCTATCTTCCAGAAGAAAAAGTTTTACCAAAGCATAGTCTTATTTATGAAAAATTTACTGTTTACAATGAATTAACGAAGGTTAGATTTTTGGCAGAAGGCTTTAAAGATTTTCAATTTTTAAATAGGAAGCAAAAAGAAACTATCTTTAACAGCTTGTTTAAGGAAAAACGTAAAGTAACTGAAAAGGATATTATTAGTTTTTTGAATAAAGTTGATGGATATGAAGGAATTGCAATCAAAGGAATTGAGAAACAGTTTAACGCTAGCCTTTCAACCTATCATGATCTTAAAAAAATACTTGGCAAGGATTTCCTTGATAATACAGATAACGAGCTTATTTTGGAAGATATCGTCCAAACTCTAACCTTATTTGAAGATAGAGAAATGATTAAGAAGTGTCTTGACATCTATAAAGATTTTTTTACAGAGTCACAGCTTAAAAAGCTCTATCGCCGTCACTATACTGGCTGGGGACGATTGTCTGCTAAGCTAATAAATGGCATCCGAAATAAAGAGAATCAAAAAACAATCTTGGACTATCTTATTGATGATGGAAGTGCAAACCGAAACTTCATGCAGTTGATAAATGATGATGATCTATCATTTAAACCAATTATTGACAAGGCACGAACTGGTAGTCATTCGGATAATCTGAAAGAAGTTGTAGGTGAACTTGCTGGTAGCCCTGCTATTAAAAAAGGGATTCTACAAAGTTTGAAAATAGTTGATGAGCTGGTTAAAGTCATGGGCTATGAACCTGAACAAATCGTGGTTGAAATGGCACGTGAGAACCAAACGACAGCAAAAGGATTAAGTCGTTCACGACAACGCTTGACAACCTTGAGAGAATCTCTTGCTAATTTGAAGAGTAATATTTTGGAAGAGAAAAAGCCTAAGTATGTGAAAGATCAAGTTGAAAATCATCATTTATCTGATGACCGTCTTTTCCTTTACTACTTACAAAACGGAAGAGATATGTATACAAAAAAGGCTCTGGATATTGATAATTTAAGTCAATATGATATTGACCACATTATTCCTCAAGCTTTCATAAAAGATGATTCTATTGATAATCGTGTTTTGGTATCATCTGCTAAAAATCGTGGAAAATCAGATGATGTTCCTAGCATTGAAATTGTAAAAGCTCGCAAAATGTTCTGGAAAAATTTACTGGATGCTAAGTTAATGAGTCAGCGTAAGTATGATAATTTGACTAAGGCAGAGCGCGGAGGCCTAACTTCCGATGATAAGGCAAGATTTATCCAACGTCAGTTGGTTGAGACTCGACAAATTACCAAGCATGTAGCTCGTATCTTGGATGAACGCTTCAATAATGAAGTTGATAATGGTAAAAAGATTTGCAAGGTTAAAATTGTAACCTTGAAGTCAAATTTGGTTTCAAATTTCCGAAAAGAATTTGGATTCTATAAAATTCGTGAAGTTAATGATTATCACCATGCACACGATGCTTATCTTAATGCAGTAGTTGCCAAAGCTATTCTAACCAAATATCCACAGTTAGAGCCAGAGTTTGTCTACGGAATGTATAGACAGAAAAAACTTTCGAAAATCGTTCATGAGGATAAGGAAGAAAAATATAGTGAAGCAACCAGGAAAATGTTTTTCTACTCCAACTTGATGAATATGTTCAAAAGAGTTGTGAGGTTAGCAGATGGTTCTATTGTTGTAAGACCAGTAATAGAAACTGGTAGATATATGAGAAAAACTGCATGGGATAAAAAGAAACACTTTGCGACAGTTAGAAAAGTCTTGTCATACCCTCAGAACAATATCGTGAAGAAGACAGAGATTCAGACAGGTGGTTTCTCTAAGGAATCAATCTTGGCGCATGGTAACTCAGATAAGTTGATTCCAAGAAAAACGAAGGATATTTATTTAGATCCTAAGAAATATGGAGGTTTTGATAGTCCGATAGTAGCTTACTCTGTTTTAGTTGTAGCTGATATCAAAAAAGGTAAAGCACAAAAACTAAAAACAGTTACGGAACTTTTAGGAATTACCATCATGGAGAGGTCCAGATTTGAGAAAAATCCATCAGCTTTCCTTGAATCAAAAGGTTATTTAAATATTAGGGACGATAAATTAATGATTTTACCGAAGTATAGTCTGTTCGAATTAGAAAATGGGCGTCGTCGATTACTTGCTAGTGCTGGTGAATTACAAAAAGGTAACGAGCTAGCCTTACCAACACAATTTATGAAGTTCTTATACCTTGCAAGTCGTTATAATGAGTCAAAAGGTAAACCAGAGGAGATTGAGAAGAAACAAGAATTTGTAAATCAACATGTCTCTTATTTTGATGACATCCTTCAATTAATTAATGATTTTTCAAAACGAGTTATTCTAGCAGATGCTAATTTAGAGAAAATCAATAAGCTTTACCAGGATAATAAGGAAAATATACCAGTAGATGAACTTGCTAATAATATTATCAATCTATTTACTTTTACCAGTCTAGGAGCTCCAGCAGCTTTTAAATTTTTTGATAAAATAGTTGATAGAAAACGCTATACATCAACTAAAGAAGTACTTAATTCTACTCTAATCCATCAATCTATTACTGGACTTTATGAAACACGTATTGATTTGGGTAAATTAGGAGAAGATTGA(SEQ ID NO:494)
SEQ ID NO:495:
ATGGCAGGTTGGCGAACTGTTGTTGTAAATACACATTCTAAGCTCTCTTATAAAAATAATCATCTGATTTTTAAAGATTCTTATCAGACGGAAATGATTCATCTTTCAGAGATTGATATTCTAATCATGGAAACGACAGATATTGTTTTGTCGACTATGCTGATTAAACGTTTGGTTGATGAAAATATTTTAGTCATATTTTGTGATGATAAACGCTTGCCAACAGCTATGTTAATGCCGTACTATGCTAGACATGATTCGAGTTTACAATTATCTAGGCAGATGTCATGGATTGAGGATGTCAAAGCGGATGTTTGGACATCAATTATTGCACAAAAAATTTTGAATCAGTCCTTTTATCTCGGTGAGTGTTCTTTCTTTGAAAAATCCCAGTCTATTATGAATCTCTATCATGATTTAGAATCTTTTGACCCTTCCAATCGTGAAGGTCATGCAGCTAGGATTTATTTCAATACACTTTTTGGAAATGATTTTTCAAGAGAGCAGGATAATCCAATAAATGCTGGTTTAGACTATGGATATTCTCTGATTTTGAGTATGTTTGCGCGTGAAGTTGTTAAGTGTGGTTGCATGACACAATTTGGCTTAAAGCATGCTAATCAATTTAATCAGTTCAACCTAGCAAGCGATATTATGGAACCATTTCGCCCAATCGTTGATAGGATTATTTATGAAAATAGGCAGAGTGATTTTGTCAAAATGAAAAGAGAACTCTTTTCTATGTTTTCAGAGACATACAGCTACAACGGTAAAGAAATGTATCTTTCAAATATTGTCAGCGATTACACCAAAAAAGTTATTAAGTCGCTAAATAGTGATGGGAATGGAATTCCGGAGTTTAGGATATGA(SEQ ID NO:495)
SEQ ID NO:496:
ATGAGTTATCGGTATATGAGAATGATTTTAATGTTTGATATGCCTACTGAAACAGTAGAAGAACGTAAGGCGTATCGTAAGTTTAGAAAGTTTCTGTTGAGCGAAGGTTTTATTATGCATCAGTTCTCTGTTTATAGTAAATTATTGCTCAATAATACAGCTAATAATGCCATGATAGGTCGGCTTAAAGTGAATAATCCTAAGAAAGGGAGTATAACTCTTTTGACAGTTACCGAGAAGCAGTTTGCAAGGATGGTTTATCTACATGGTGAACATAATATGAGTGTTGCCAACTCTGATAGTCGCTTGGTTTTCCTAGGAGATTCTTATGATCAAGATTAA(SEQ ID NO:496)
SEQ ID NO:497:
ATGATCAAGATTAATTTTCCAATTTTAGATGAACCATTAGTGTTAAGTAATGCTACGATTTTAACGATAGAAGATGTTTCAGTTTATTCTTCATTGGTGAAACATTTTTATCAATATGACGTAGATGAACATTTGAAATTATTTGATGATAAGCAGAAAAGTCTGAAGGCAACGGAGTTAATGTTAGTTACAGATATCTTAGGATACGATGTCAACTCAGCACCTATTCTAAAGTTGATACATGGTGACTTAGAAAATCAATTCAACGAAAAGCCAGAAGTGAAATCAATGGTAGAAAAATTAGCAGCTACTATTACAGAACTTATCGCATTTGAGTGTCTAGAGAATGAGCTTGATTTAGAATACGATGAAATTACGATTTTAGAACTCATTAAGGCACTGGGAGTCAAAATTGAGACACAGAGCGACACTATCTTTGAAAAATGTTTTGAAATTATACAAGTTTACCATTATTTAACGAAAAAGAATCTCTTAGTTTTTGTTAATAGCGGAGCTTATCTTACCAAAGATGAAGTTATAAAATTATGTGAATACATCAATTTAATGCAAAAGTCAGTACTCTTTCTAGAACCTAGAAGACTCTATGATTTACCGCAATATGTTATTGATAAGGATTATTTCTTGATAGGCGAAAATATGGTATAA(SEQ ID NO:497)
SEQ ID NO:498:
ATGAAAAAACCTTACTCTATTGGACTTGATATTGGAACCAATTCTGTTGGTTGGGCTGTTGTGACAGATGACTACAAAGTTCCTGCTAAGAAGATGAAGGTTCTGGGAAATACAGATAAAAGTCATATCGAGAAAAATTTGCTTGGCGCTTTATTATTTGATAGCGGGAATACTGCAGAAGACAGACGGTTAAAGAGAACTGCTCGCCGTCGTTACACACGTCGCAGAAATCGTATTTTATATTTGCAAGAGATTTTTTCAGAAGAAATGGGCAAGGTAGATGATAGTTTCTTTCATCGTTTAGAGGATTCTTTTCTTGTTACTGAGGATAAACGAGGAGAGCGCCATCCCATTTTTGGGAATCTTGAAGAAGAAGTTAAGTATCATGAAAATTTTCCAACCATTTATCATTTGCGGCAATATCTTGCGGATAATCCAGAAAAAGTTGATTTGCGTTTAGTTTATTTGGCTTTGGCACATATAATTAAGTTTAGAGGTCATTTTTTAATTGAAGGAAAGTTTGATACACGCAATAATGATGTACAAAGACTGTTTCAAGAATTTTTAGCAGTCTATGATAATACTTTTGAGAATAGTTCGCTTCAGGAGCAAAATGTTCAAGTTGAAGAAATTCTGACTGATAAAATCAGTAAATCTGCTAAGAAAGATAGAGTTTTGAAACTTTTTCCTAATGAAAAGTCTAATGGCCGCTTTGCAGAATTTCTAAAACTAATTGTTGGTAATCAAGCTGATTTTAAAAAGCATTTTGAATTAGAAGAGAAAGCACCATTGCAATTTTCTAAAGATACTTATGAAGAAGAGTTAGAAGTACTATTAGCTCAAATTGGAGATAATTACGCAGAGCTCTTTTTATCAGCAAAGAAACTGTATGATAGTATCCTTTTATCAGGGATTTTAACAGTTACTGATGTTGGTACCAAAGCGCCTTTATCTGCTTCGATGATTCAGCGATATAATGAACATCAGATGGATTTAGCTCAGCTTAAACAATTCATTCGTCAGAAATTATCAGATAAATATAACGAAGTTTTTTCTGATGTTTCAAAAGACGGCTATGCGGGTTATATTGATGGGAAAACAAATCAAGAAGCTTTTTATAAATACCTTAAAGGTCTATTAAATAAGATTGAGGGAAGTGGCTATTTCCTTGATAAAATTGAGCGTGAAGATTTTCTAAGAAAGCAACGTACCTTTGACAATGGCTCTATTCCACATCAGATTCATCTTCAAGAAATGCGTGCTATCATTCGTAGACAGGCTGAATTTTATCCGTTTTTAGCAGACAATCAAGATAGGATTGAGAAATTATTGACTTTCCGTATTCCCTACTATGTTGGTCCATTAGCGCGCGGAAAAAGTGATTTTGCTTGGTTAAGTCGGAAATCGGCTGATAAAATTACACCATGGAATTTTGATGAAATCGTTGATAAAGAATCCTCTGCAGAAGCTTTTATCAATCGTATGACAAATTATGATTTGTACTTGCCAAATCAAAAAGTTCTTCCTAAACATAGTTTATTATACGAAAAATTTACTGTTTACAATGAATTAACAAAGGTTAAATATAAAACAGAGCAAGGAAAAACAGCATTTTTTGATGCCAATATGAAGCAAGAAATCTTTGATGGCGTATTTAAGGTTTATCGAAAAGTAACTAAAGATAAATTAATGGATTTCCTTGAAAAAGAATTTGATGAATTTCGTATTGTTGATTTAACAGGTCTGGATAAAGAAAATAAAGTATTTAACGCTTCTTATGGAACTTATCATGATTTGTGTAAAATTTTAGATAAAGATTTTCTCGATAATTCAAAGAATGAAAAGATTTTAGAAGATATTGTGTTGACCTTAACGTTATTTGAAGATAGAGAAATGATTAGAAAACGTCTAGAAAATTACAGTGATTTATTGACCAAAGAACAAGTGAAAAAGCTGGAAAGACGTCATTATACTGGTTGGGGAAGATTATCAGCTGAGTTAATTCATGGTATTCGCAATAAAGAAAGCAGAAAAACAATTCTTGATTATCTCATTGATGATGGCAATAGCAATCGGAACTTTATGCAACTGATTAACGATGATGCTCTTTCTTTCAAAGAAGAGATTGCTAAGGCACAAGTTATTGGAGAAACAGACAATCTAAATCAAGTTGTTAGTGATATTGCTGGCAGCCCTGCTATTAAAAAAGGAATTTTACAAAGCTTGAAGATTGTTGATGAGCTTGTCAAAATTATGGGACATCAACCTGAAAATATCGTCGTGGAGATGGCGCGTGAAAACCAGTTTACCAATCAGGGACGACGAAATTCACAGCAACGTTTGAAAGGTTTGACAGATTCTATTAAAGAATTTGGAAGTCAAATTCTTAAAGAACATCCGGTTGAGAATTCACAGTTACAAAATGATAGATTGTTTCTATATTATTTACAAAACGGCAGAGATATGTATACTGGAGAAGAATTGGATATTGATTATCTAAGCCAGTATGATATAGACCATATTATCCCGCAAGCTTTTATAAAGGATAATTCTATTGATAATAGAGTATTGACTAGCTCAAAGGAAAATCGTGGAAAATCGGATGATGTACCAAGTAAAGATGTTGTTCGTAAAATGAAATCCTATTGGAGTAAGCTACTTTCGGCAAAGCTTATTACACAACGTAAATTTGATAATTTGACAAAAGCTGAACGAGGTGGATTGACCGACGATGATAAAGCTGGATTCATCAAGCGTCAATTAGTAGAAACACGACAAATTACCAAACATGTAGCACGTATTCTGGACGAACGATTTAATACAGAAACAGATGAAAACAACAAGAAAATTCGTCAAGTAAAAATTGTGACCTTGAAATCAAATCTTGTTTCCAATTTCCGTAAAGAGTTTGAACTCTACAAAGTGCGTGAAATTAATGACTATCATCATGCACATGATGCCTATCTCAATGCTGTAATTGGAAAGGCTTTACTAGGTGTTTACCCACAATTGGAACCTGAATTTGTTTATGGTGATTATCCTCATTTTCATGGACATAAAGAAAATAAAGCAACTGCTAAGAAATTTTTCTATTCAAATATTATGAACTTCTTTAAAAAAGATGATGTCCGTACTGATAAAAATGGTGAAATTATCTGGAAAAAAGATGAGCATATTTCTAATATTAAAAAAGTGCTTTCTTATCCACAAGTTAATATTGTTAAGAAAGTAGAGGAGCAAACGGGAGGATTTTCTAAAGAATCTATCTTGCCGAAAGGTAATTCTGACAAGCTTATTCCTCGAAAAACGAAGAAATTTTATTGGGATACCAAGAAATATGGAGGATTTGATAGCCCGATTGTTGCTTATTCTATTTTAGTTATTGCTGATATTGAAAAAGGTAAATCTAAAAAATTGAAAACAGTCAAAGCCTTAGTTGGTGTCACTATTATGGAAAAGATGACTTTTGAAAGGGATCCAGTTGCTTTTCTTGAGCGAAAAGGCTATCGAAATGTTCAAGAAGAAAATATTATAAAGTTACCAAAATATAGTTTATTTAAACTAGAAAACGGACGAAAAAGGCTATTGGCAAGTGCTAGGGAACTTCAAAAGGGAAATGAAATCGTTTTGCCAAATCATTTAGGAACCTTGCTTTATCACGCTAAAAATATTCATAAAGTTGATGAACCAAAGCATTTGGACTATGTTGATAAACATAAAGATGAATTTAAGGAGTTGCTAGATGTTGTGTCAAACTTTTCTAAAAAATATACTTTAGCAGAAGGAAATTTAGAAAAAATCAAAGAATTATATGCACAAAATAATGGTGAAGATCTTAAAGAATTAGCAAGTTCATTTATCAACTTATTAACATTTACTGCTATAGGAGCACCGGCTACTTTTAAATTCTTTGATAAAAATATTGATCGAAAACGATATACTTCAACTACTGAAATTCTCAACGCTACCCTCATCCACCAATCCATCACCGGTCTTTATGAAACGCGGATTGATCTCAATAAGTTAGGAGGAGACTAATGGGCTGGCGGACAGTGGTTGTTAATACGCATTCCAAGTTGTCTTATAAGAACAACCACTTGATTTTTAAAGATGCTTATCAGACAGAGATGATTCATCTGTCTGAGATTGACATCTTATTACTTGAGACAACAGATATTGTTTTGTCAACTATGCTAATCAAACGCTTGGTTGATGAGAATATTTTGGTCATTTTTTGTGATGACAAACGTCTGCCAACAGCCATGCTCATGCCTTACTATGCGCGTCACGATTCCAGCTTGCAGCTGAGTCATCAGATTTCTTGGACAGAAGAAGTGAAATGCGATGTCTGGACAACAATCATCGCTCAAAAGATTTTGAATCAGTCATGTTATTTGGGAGAATGTTTTTATTTTGAAAAATCTCAGTCAATTATGGATTTATATCATGACTTAGAGCCTTTTGACCCTAGTAATCGAGAAGGACATTCTGCGCGGATTTATTTCAATACCTTATTTGGAAATGTTTTTTCCAGAGAACAAGATAATGATATTAATGCAGGTCTTGACTATGGTTATACGCTGCTGTTAAGTATGTTTGCGCGTGAAGTGGTTGTATCTGGCTGTATGACACAATTTGGTCTCAAGCATGCCAACCAATTCAATCAGTTTAACTTTGCCAGTGATATTATGGAGCCTTTTCGTCCAATTGTTGACCGTATTGTTTATGAAAATCGAAATAACTCTTTTATTAAAATAAAACGTGAGCTATTCAGCATGTTTTCAGACACCTATCTTTATAATAATAAGGAGATGTATTTGACAAATATTGTCAGCGATTATACCAAAAAGGTAATCAAGGCGCTGAATAATGATGGGAAAGGAGTTCCTGAGTTTAGGATATGAGTTACCGATATATGCGAATGATTTTAATGTTTGATATGCCAACAGATACTGCTGAGGAACGCAAAGCTTATCGTAAATTTCGGAAATTTTTACTGAGCGAAGGTTTCATCATGCATCAGTTTTCAGTATACAGCAAGCTGCTTTTGAATAACTCTGCCAATACAGCCATGATTGCCCGCTTGAAGGAGAATAATCCAAAGAAGGGCAATATCACCTTGTTGACCGTGACTGAAAAGCAGTTTGCCCGTATGATTTACCTGAATGGTGAGCGTGATACTAGCATTGCTAATTCGGATTCACGACTGGTCTTTCTAGGGGAGGCTTTTCCTGATGAAACTTAATTTTCCTATATTGGATGAACCAATAACTCTTGAAAAATCTACGATTTTGGTATTAGAAGATGTGCAAGTTTTTGCTCAAATGGTGAGAAATCTTTATCAATATGATGAAGATAGTGAACTTAAATTTTTTAATAGAAAATTTAAGAGTCTGAAACCATCTGAGTTAATGCTTGTGACAGATATTTTAGGTTATGATGTCAATGCCCCGTCCTTGCTGAAGTTGGTTCACGCTGATTTAGAAAATCAGTTTAATGAAAAACCAGAGGTTAAGTCTATGGTTGAAAAACTGGCAAATACCATTACGGAATTAATTGCTTATGAATGTTTAGAAAATGAATTGGACTTAGAATATGATGAGATTACTATTTTAGAGTTAATCAAAGCTTTAGGCGTCAAAATTGAAACACAAAGTGATACCATTTTTGAAAAAATGTTTGAAGTCCTTCAAGTTTATAAGTATCTAAATAAAAAGAAGCTTCTCGTTTTTATCAATACTTTATCCTATTTTAAAAGAGAAGAAATCGCGCAAATTCTAGAATATATTCACTTATCCGATATGGTTGTTTTATTTCTTGAACCCCGTAAAATTGATGGTTTTGCTCAATATATTTTAGATGAAGATTATTTCTTGATAACAGAAAGCAACAACTAAATACGAATAATAAGATAGTTTCTAAATCAGGGGCTGTCTTTTATTATGGATTGACAAATGCGTATAATGCGTATAAAATAAAAAGAGAAATGTTATTTGCCATTAACAGGGAAAGAATTAGCTAAATTAGCGATAAACAATGGATGGGAAGAAGTTCGGGTGAGAGGAAGTCATCATCATTTCAAGAAAGATGGAGTATCTTATATTGTGACGATTCCTATTCATGGAAATAAAGTGCTTAAAATTGGTCTTGAAAAGAAACTCTTAAGGGATTTAAATTTATTATGATAGAGGAGGAAGTCGTCATGTTAAAATCATATCCTGTAATTTTTCATAAGGAAGAGGAAGGGTATTGGGTTGAATTTCCTGAATTTGGCGGTGGTACGCAAGGGGAAGATTTGGAAGAAGCCATGAAGAACGCTCGTCAGATGTTAGAAAGTGTGTTGGCATCTTATCTTGATGAAGGGTTGGTTCTACCCATTTCAAGCGATATTCAGAAAATATCTGTTGAAGATGGTTTTGCGACCATGATTCAAGCTGATCCTAGTCCTTATCTCAAAAATAACAAAGCTATTCGGAAAAATGTTACCGTGCCTGAGTGGTTGATACGATTAGCAGACCGTGACCGAGTAAATTATTCTGAAGTATTAACAAAGGCTTTGGAAAAGAAACTACAATTATAA(SEQ IDNO:498)
SEQ ID NO:499:
ATGAAAAAACCTTACTCTATTGGACTTGATATTGGAACCAATTCTGTTGGTTGGGCTGTTGTGACAGATGACTACAAAGTTCCTGCTAAGAAGATGAAGGTTCTGGGAAATACAGATAAAAGTCATATCGAGAAAAATTTGCTTGGCGCTTTATTATTTGATAGCGGGAATACTGCAGAAGACAGACGGTTAAAGAGAACTGCTCGCCGTCGTTACACACGTCGCAGAAATCGTATTTTATATTTGCAAGAGATTTTTTCAGAAGAAATGGGCAAGGTAGATGATAGTTTCTTTCATCGTTTAGAGGATTCTTTTCTTGTTACTGAGGATAAACGAGGAGAGCGCCATCCCATTTTTGGGAATCTTGAAGAAGAAGTTAAGTATCATGAAAATTTTCCAACCATTTATCATTTGCGGCAATATCTTGCGGATAATCCAGAAAAAGTTGATTTGCGTTTAGTTTATTTGGCTTTGGCACATATAATTAAGTTTAGAGGTCATTTTTTAATTGAAGGAAAGTTTGATACACGCAATAATGATGTACAAAGACTGTTTCAAGAATTTTTAGCAGTCTATGATAATACTTTTGAGAATAGTTCGCTTCAGGAGCAAAATGTTCAAGTTGAAGAAATTCTGACTGATAAAATCAGTAAATCTGCTAAGAAAGATAGAGTTTTGAAACTTTTTCCTAATGAAAAGTCTAATGGCCGCTTTGCAGAATTTCTAAAACTAATTGTTGGTAATCAAGCTGATTTTAAAAAGCATTTTGAATTAGAAGAGAAAGCACCATTGCAATTTTCTAAAGATACTTATGAAGAAGAGTTAGAAGTACTATTAGCTCAAATTGGAGATAATTACGCAGAGCTCTTTTTATCAGCAAAGAAACTGTATGATAGTATCCTTTTATCAGGGATTTTAACAGTTACTGATGTTGGTACCAAAGCGCCTTTATCTGCTTCGATGATTCAGCGATATAATGAACATCAGATGGATTTAGCTCAGCTTAAACAATTCATTCGTCAGAAATTATCAGATAAATATAACGAAGTTTTTTCTGATGTTTCAAAAGACGGCTATGCGGGTTATATTGATGGGAAAACAAATCAAGAAGCTTTTTATAAATACCTTAAAGGTCTATTAAATAAGATTGAGGGAAGTGGCTATTTCCTTGATAAAATTGAGCGTGAAGATTTTCTAAGAAAGCAACGTACCTTTGACAATGGCTCTATTCCACATCAGATTCATCTTCAAGAAATGCGTGCTATCATTCGTAGACAGGCTGAATTTTATCCGTTTTTAGCAGACAATCAAGATAGGATTGAGAAATTATTGACTTTCCGTATTCCCTACTATGTTGGTCCATTAGCGCGCGGAAAAAGTGATTTTGCTTGGTTAAGTCGGAAATCGGCTGATAAAATTACACCATGGAATTTTGATGAAATCGTTGATAAAGAATCCTCTGCAGAAGCTTTTATCAATCGTATGACAAATTATGATTTGTACTTGCCAAATCAAAAAGTTCTTCCTAAACATAGTTTATTATACGAAAAATTTACTGTTTACAATGAATTAACAAAGGTTAAATATAAAACAGAGCAAGGAAAAACAGCATTTTTTGATGCCAATATGAAGCAAGAAATCTTTGATGGCGTATTTAAGGTTTATCGAAAAGTAACTAAAGATAAATTAATGGATTTCCTTGAAAAAGAATTTGATGAATTTCGTATTGTTGATTTAACAGGTCTGGATAAAGAAAATAAAGTATTTAACGCTTCTTATGGAACTTATCATGATTTGTGTAAAATTTTAGATAAAGATTTTCTCGATAATTCAAAGAATGAAAAGATTTTAGAAGATATTGTGTTGACCTTAACGTTATTTGAAGATAGAGAAATGATTAGAAAACGTCTAGAAAATTACAGTGATTTATTGACCAAAGAACAAGTGAAAAAGCTGGAAAGACGTCATTATACTGGTTGGGGAAGATTATCAGCTGAGTTAATTCATGGTATTCGCAATAAAGAAAGCAGAAAAACAATTCTTGATTATCTCATTGATGATGGCAATAGCAATCGGAACTTTATGCAACTGATTAACGATGATGCTCTTTCTTTCAAAGAAGAGATTGCTAAGGCACAAGTTATTGGAGAAACAGACAATCTAAATCAAGTTGTTAGTGATATTGCTGGCAGCCCTGCTATTAAAAAAGGAATTTTACAAAGCTTGAAGATTGTTGATGAGCTTGTCAAAATTATGGGACATCAACCTGAAAATATCGTCGTGGAGATGGCGCGTGAAAACCAGTTTACCAATCAGGGACGACGAAATTCACAGCAACGTTTGAAAGGTTTGACAGATTCTATTAAAGAATTTGGAAGTCAAATTCTTAAAGAACATCCGGTTGAGAATTCACAGTTACAAAATGATAGATTGTTTCTATATTATTTACAAAACGGCAGAGATATGTATACTGGAGAAGAATTGGATATTGATTATCTAAGCCAGTATGATATAGACCATATTATCCCGCAAGCTTTTATAAAGGATAATTCTATTGATAATAGAGTATTGACTAGCTCAAAGGAAAATCGTGGAAAATCGGATGATGTACCAAGTAAAGATGTTGTTCGTAAAATGAAATCCTATTGGAGTAAGCTACTTTCGGCAAAGCTTATTACACAACGTAAATTTGATAATTTGACAAAAGCTGAACGAGGTGGATTGACCGACGATGATAAAGCTGGATTCATCAAGCGTCAATTAGTAGAAACACGACAAATTACCAAACATGTAGCACGTATTCTGGACGAACGATTTAATACAGAAACAGATGAAAACAACAAGAAAATTCGTCAAGTAAAAATTGTGACCTTGAAATCAAATCTTGTTTCCAATTTCCGTAAAGAGTTTGAACTCTACAAAGTGCGTGAAATTAATGACTATCATCATGCACATGATGCCTATCTCAATGCTGTAATTGGAAAGGCTTTACTAGGTGTTTACCCACAATTGGAACCTGAATTTGTTTATGGTGATTATCCTCATTTTCATGGACATAAAGAAAATAAAGCAACTGCTAAGAAATTTTTCTATTCAAATATTATGAACTTCTTTAAAAAAGATGATGTCCGTACTGATAAAAATGGTGAAATTATCTGGAAAAAAGATGAGCATATTTCTAATATTAAAAAAGTGCTTTCTTATCCACAAGTTAATATTGTTAAGAAAGTAGAGGAGCAAACGGGAGGATTTTCTAAAGAATCTATCTTGCCGAAAGGTAATTCTGACAAGCTTATTCCTCGAAAAACGAAGAAATTTTATTGGGATACCAAGAAATATGGAGGATTTGATAGCCCGATTGTTGCTTATTCTATTTTAGTTATTGCTGATATTGAAAAAGGTAAATCTAAAAAATTGAAAACAGTCAAAGCCTTAGTTGGTGTCACTATTATGGAAAAGATGACTTTTGAAAGGGATCCAGTTGCTTTTCTTGAGCGAAAAGGCTATCGAAATGTTCAAGAAGAAAATATTATAAAGTTACCAAAATATAGTTTATTTAAACTAGAAAACGGACGAAAAAGGCTATTGGCAAGTGCTAGGGAACTTCAAAAGGGAAATGAAATCGTTTTGCCAAATCATTTAGGAACCTTGCTTTATCACGCTAAAAATATTCATAAAGTTGATGAACCAAAGCATTTGGACTATGTTGATAAACATAAAGATGAATTTAAGGAGTTGCTAGATGTTGTGTCAAACTTTTCTAAAAAATATACTTTAGCAGAAGGAAATTTAGAAAAAATCAAAGAATTATATGCACAAAATAATGGTGAAGATCTTAAAGAATTAGCAAGTTCATTTATCAACTTATTAACATTTACTGCTATAGGAGCACCGGCTACTTTTAAATTCTTTGATAAAAATATTGATCGAAAACGATATACTTCAACTACTGAAATTCTCAACGCTACCCTCATCCACCAATCCATCACCGGTCTTTATGAAACGCGGATTGATCTCAATAAGTTAGGAGGAGACTAA(SEQ ID NO:499)
SEQ ID NO:500:
ATGGGCTGGCGGACAGTGGTTGTTAATACGCATTCCAAGTTGTCTTATAAGAACAACCACTTGATTTTTAAAGATGCTTATCAGACAGAGATGATTCATCTGTCTGAGATTGACATCTTATTACTTGAGACAACAGATATTGTTTTGTCAACTATGCTAATCAAACGCTTGGTTGATGAGAATATTTTGGTCATTTTTTGTGATGACAAACGTCTGCCAACAGCCATGCTCATGCCTTACTATGCGCGTCACGATTCCAGCTTGCAGCTGAGTCATCAGATTTCTTGGACAGAAGAAGTGAAATGCGATGTCTGGACAACAATCATCGCTCAAAAGATTTTGAATCAGTCATGTTATTTGGGAGAATGTTTTTATTTTGAAAAATCTCAGTCAATTATGGATTTATATCATGACTTAGAGCCTTTTGACCCTAGTAATCGAGAAGGACATTCTGCGCGGATTTATTTCAATACCTTATTTGGAAATGTTTTTTCCAGAGAACAAGATAATGATATTAATGCAGGTCTTGACTATGGTTATACGCTGCTGTTAAGTATGTTTGCGCGTGAAGTGGTTGTATCTGGCTGTATGACACAATTTGGTCTCAAGCATGCCAACCAATTCAATCAGTTTAACTTTGCCAGTGATATTATGGAGCCTTTTCGTCCAATTGTTGACCGTATTGTTTATGAAAATCGAAATAACTCTTTTATTAAAATAAAACGTGAGCTATTCAGCATGTTTTCAGACACCTATCTTTATAATAATAAGGAGATGTATTTGACAAATATTGTCAGCGATTATACCAAAAAGGTAATCAAGGCGCTGAATAATGATGGGAAAGGAGTTCCTGAGTTTAGGATATGA(SEQ ID NO:500)
SEQ ID NO:501:
ATGCGAATGATTTTAATGTTTGATATGCCAACAGATACTGCTGAGGAACGCAAAGCTTATCGTAAATTTCGGAAATTTTTACTGAGCGAAGGTTTCATCATGCATCAGTTTTCAGTATACAGCAAGCTGCTTTTGAATAACTCTGCCAATACAGCCATGATTGCCCGCTTGAAGGAGAATAATCCAAAGAAGGGCAATATCACCTTGTTGACCGTGACTGAAAAGCAGTTTGCCCGTATGATTTACCTGAATGGTGAGCGTGATACTAGCATTGCTAATTCGGATTCACGACTGGTCTTTCTAGGGGAGGCTTTTCCTGATGAAACTTAA(SEQ ID NO:501)
SEQ ID NO:502:
ATGGTGAGAAATCTTTATCAATATGATGAAGATAGTGAACTTAAATTTTTTAATAGAAAATTTAAGAGTCTGAAACCATCTGAGTTAATGCTTGTGACAGATATTTTAGGTTATGATGTCAATGCCCCGTCCTTGCTGAAGTTGGTTCACGCTGATTTAGAAAATCAGTTTAATGAAAAACCAGAGGTTAAGTCTATGGTTGAAAAACTGGCAAATACCATTACGGAATTAATTGCTTATGAATGTTTAGAAAATGAATTGGACTTAGAATATGATGAGATTACTATTTTAGAGTTAATCAAAGCTTTAGGCGTCAAAATTGAAACACAAAGTGATACCATTTTTGAAAAAATGTTTGAAGTCCTTCAAGTTTATAAGTATCTAAATAAAAAGAAGCTTCTCGTTTTTATCAATACTTTATCCTATTTTAAAAGAGAAGAAATCGCGCAAATTCTAGAATATATTCACTTATCCGATATGGTTGTTTTATTTCTTGAACCCCGTAAAATTGATGGTTTTGCTCAATATATTTTAGATGAAGATTATTTCTTGATAACAGAAAGCAACAACTAA(SEQID NO:502)
SEQ ID NO:503:
ATGTTAAAATCATATCCTGTAATTTTTCATAAGGAAGAGGAAGGGTATTGGGTTGAATTTCCTGAATTTGGCGGTGGTACGCAAGGGGAAGATTTGGAAGAAGCCATGAAGAACGCTCGTCAGATGTTAGAAAGTGTGTTGGCATCTTATCTTGATGAAGGGTTGGTTCTACCCATTTCAAGCGATATTCAGAAAATATCTGTTGAAGATGGTTTTGCGACCATGATTCAAGCTGATCCTAGTCCTTATCTCAAAAATAACAAAGCTATTCGGAAAAATGTTACCGTGCCTGAGTGGTTGATACGATTAGCAGACCGTGACCGAGTAAATTATTCTGAAGTATTAACAAAGGCTTTGGAAAAGAAACTACAATTATAA(SEQID NO:503)
SEQ ID NO:504:
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAA GTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGATGGCTGGTTGGCGTACTGTTGTGGTAAATACCCACTCGAAATTATCCTATAAGAATAATCATCTGATTTTTAAGGATGCCTATAAAACGGAGCTGATCCATTTATCAGAAATTGATATTTTGTTATTAGAAACGACCGATATTGTCTTGTCCACTATGCTGGTAAAACGGCTAGTGGATGAGAATGTCCTTGTCATATTCTGTGATGATAAACGATTACCAACAGCTATGCTGATGCCTTTTTATGGTCGTCATGATTCGAGTTTACAGCTTGGGAAACAAATGTCCTGGTCAGAAACAGTCAAATCGCAGGTTTGGACGACGATTATTGCTCAAAAGATTTTGAATCAATCTTGCTATCTAGGAGCATGCTCCTATTTTGAAAAATCCCAATCTATTATGGATTTATATCATGGTTTGGAAAATTTTGATCCGAGTAATCGAGAAGGGCATGCAGCGAGAATTTATTTTAATACACTTTTTGGGAACGATTTCTCAAGAGATTTGGAGCATCCAATCAATGCAGGTCTGGATTATGGTTATACTTTATTATTGAGTATGTTTGCGCGTGAAGTGGTTGTGTCTGGATGTATGACTCAGTTTGGGCTTAAACACGCTAATCAGTTTAATCAGTTCAATTTTGCTAGCGATATTATGGAACCATTTAGGCCTTTAGTGGATAAGATTGTTTATGAAAATCGAAATCAGCCTTTTCCCAAAATAAAGAGAGAGTTATTTACTTTGTTTTCAGATACATTTTCATATAATGGTAAAGAGATGTATCTCACGAATATTATTAGCGATTATACTAAAAAAGTTGTCAAAGCTCTGAATAATGAAGGGAAAGGAGTTCCTGAATTTAGGATATGAGTTATAGATATATGAGAATGATACTTATGTTTGATATGCCGACGGACACCGCTGAGGAACGAAAAGCCTATCGAAAATTTCGGAAATTTTTACTTAGTGAAGGGTTTATCATGCATCAATTTTCTATTTATAGTAAGTTGCTGTTGAATAATACAGCTAACAATGCCATGATTGGTCGGCTGAGGGAGCATAATCCTAATAAAGGAAATATTACATTACTAACGGTCACGGAAAAACAGTTTGCACGAATGATTTATTTACATGGTGAAAGAAATAATTGTATTGCAAACTCCGATGAAAGACTTGTATTTCTTGGGGAGGCTTTTGATGAATCTTAATTTTTCCTTACTAGATGAACCGATTCCATTAAGAGGCGGTACAATTCTTGTGCTCGAAGATGTCTGTGTATTTTCAAAAATAGTGCAATATTGTTACCAATATGAGGAAGATTCTGAACTTAAATTTTTTGATCACAAGATGAAAACAATCAAAGAATCAGAAATCATGCTTGTAACAGATATTTTAGGATTTGATGTTAACTCCTCAACCATTTTAAAATTGATTCATGCAGATTTAGAATCTCAATTTAATGAGAAACCCGAAGTGAAATCGATGATTGACAAATTGGTTGCTACGATTACAGAACTGATTGTCTTTGAATGCTTAGAAAATGAATTAGATTTAGAGTATGATGAAATCACAATCCTGGAATTGATTAAGTCCTTAGGAGTAAAAGTAGAAACGCAAAGTGATACTATTTTTGAAAAATGTCTAGAGATACTTCAAATTTTCAAATATCTCACTAAGAAAAAGTTGCTTATTTTTGTCAATAGCGGAGCTTTTCTAACAAAGGATGAAGTGGCTAGTTTACAAGAGTATATATCATTGACAAATTTAACAGTTCTCTTTTTAGAACCACGTGAACTATATGATTTTCCGCAGTATATTTTAGATGAAGATTATTTCTTAATAACTAAAAATATGGTATAA(SEQ ID NO:504)
SEQ ID NO:505:
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA(SEQ ID NO:505)
SEQ ID NO:506:
ATGGCTGGTTGGCGTACTGTTGTGGTAAATACCCACTCGAAATTATCCTATAAGAATAATCATCTGATTTTTAAGGATGCCTATAAAACGGAGCTGATCCATTTATCAGAAATTGATATTTTGTTATTAGAAACGACCGATATTGTCTTGTCCACTATGCTGGTAAAACGGCTAGTGGATGAGAATGTCCTTGTCATATTCTGTGATGATAAACGATTACCAACAGCTATGCTGATGCCTTTTTATGGTCGTCATGATTCGAGTTTACAGCTTGGGAAACAAATGTCCTGGTCAGAAACAGTCAAATCGCAGGTTTGGACGACGATTATTGCTCAAAAGATTTTGAATCAATCTTGCTATCTAGGAGCATGCTCCTATTTTGAAAAATCCCAATCTATTATGGATTTATATCATGGTTTGGAAAATTTTGATCCGAGTAATCGAGAAGGGCATGCAGCGAGAATTTATTTTAATACACTTTTTGGGAACGATTTCTCAAGAGATTTGGAGCATCCAATCAATGCAGGTCTGGATTATGGTTATACTTTATTATTGAGTATGTTTGCGCGTGAAGTGGTTGTGTCTGGATGTATGACTCAGTTTGGGCTTAAACACGCTAATCAGTTTAATCAGTTCAATTTTGCTAGCGATATTATGGAACCATTTAGGCCTTTAGTGGATAAGATTGTTTATGAAAATCGAAATCAGCCTTTTCCCAAAATAAAGAGAGAGTTATTTACTTTGTTTTCAGATACATTTTCATATAATGGTAAAGAGATGTATCTCACGAATATTATTAGCGATTATACTAAAAAAGTTGTCAAAGCTCTGAATAATGAAGGGAAAGGAGTTCCTGAATTTAGGATATGA(SEQ ID NO:506)
SEQ ID NO:507:
ATGAGTTATAGATATATGAGAATGATACTTATGTTTGATATGCCGACGGACACCGCTGAGGAACGAAAAGCCTATCGAAAATTTCGGAAATTTTTACTTAGTGAAGGGTTTATCATGCATCAATTTTCTATTTATAGTAAGTTGCTGTTGAATAATACAGCTAACAATGCCATGATTGGTCGGCTGAGGGAGCATAATCCTAATAAAGGAAATATTACATTACTAACGGTCACGGAAAAACAGTTTGCACGAATGATTTATTTACATGGTGAAAGAAATAATTGTATTGCAAACTCCGATGAAAGACTTGTATTTCTTGGGGAGGCTTTTGATGAATCTTAA(SEQ ID NO:507)
SEQ ID NO:508:
ATGAATCTTAATTTTTCCTTACTAGATGAACCGATTCCATTAAGAGGCGGTACAATTCTTGTGCTCGAAGATGTCTGTGTATTTTCAAAAATAGTGCAATATTGTTACCAATATGAGGAAGATTCTGAACTTAAATTTTTTGATCACAAGATGAAAACAATCAAAGAATCAGAAATCATGCTTGTAACAGATATTTTAGGATTTGATGTTAACTCCTCAACCATTTTAAAATTGATTCATGCAGATTTAGAATCTCAATTTAATGAGAAACCCGAAGTGAAATCGATGATTGACAAATTGGTTGCTACGATTACAGAACTGATTGTCTTTGAATGCTTAGAAAATGAATTAGATTTAGAGTATGATGAAATCACAATCCTGGAATTGATTAAGTCCTTAGGAGTAAAAGTAGAAACGCAAAGTGATACTATTTTTGAAAAATGTCTAGAGATACTTCAAATTTTCAAATATCTCACTAAGAAAAAGTTGCTTATTTTTGTCAATAGCGGAGCTTTTCTAACAAAGGATGAAGTGGCTAGTTTACAAGAGTATATATCATTGACAAATTTAACAGTTCTCTTTTTAGAACCACGTGAACTATATGATTTTCCGCAGTATATTTTAGATGAAGATTATTTCTTAATAACTAAAAATATGGTATAA(SEQ ID NO:508)
SEQ ID NO:517:
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGCTCAAGGGTCTGGGAAATACAGACCGCCACGGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGTGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGATTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTACTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGCGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCTATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAAGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAACGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGTGAGCGTATGAAACGTATTGAAGAAGGAATAAAAGAACTAGGAAGTGATATTCTAAAGGAGTATCCTGTTGAAAACACTCAATTACAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACAAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGTTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAGAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTTAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAGGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATAATGGAAAGAAGCTCTTTTGAAAAAGATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAGAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTGCAAAAAGGAAATGAGCTAGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGATGGCTGGTTGGCGTACTGTTGTGGTAAATACCCACTCGAAATTATCCTATAAGAATAATCATCTGATTTTTAAGGATGCCTATAAAACGGAGCTGATCCATTTATCAGAAATTGATATTTTGTTATTAGAAACGACCGATATTGTCTTGTCCACTATGCTGGTAAAACGGCTAGTGGATGAGAATGTCCTTGTCATATTCTGTGATGATAAACGATTACCAACAGCTATGCTGATGCCTTTTTATGGTCGTCATGATTCGAGTTTACAGCTTGGGAAACAAATGTCCTGGTCAGAAACAGTCAAATCGCAGGTTTGGACGACGATTATTGCTCAAAAGATTTTGAATCAATCTTGCTATCTAGGAGCATGCTCCTATTTTGAAAAATCCCAATCTATTATGGATTTATATCATGGTTTGGAAAATTTTGATCCGAGTAATCGAGAAGGGCATGCAGCGAGAATTTATTTTAATACACTTTTTGGGAACGATTTCTCAAGAGATTTGGAGCATCCAATCAATGCAGGTCTGGATTATGGTTATACTTTATTATTGAGTATGTTTGCGCGTGAAGTGGTTGTGTCTGGATGTATGACTCAATTTGGACTCAAACACGCCAATCAGTTTAATCAGTTCAATTTTGCTAGCGATATTATGGAACCATTTAGGCCTTTGGTGGATAAGATTGTTTATGAAAATCGAAATCAGCCTTTTCCCAAAATAAAGAGAGAGTTATTTACTTTGTTTTCAGATACATTTTCATATAATGGTAAAGAGATGTATCTCACGAATATTATTAGCGATTATACTAAAAAAGTTGTCAAAGCTCTGAATAATGAAGGGAAAGGAGTTCCTGAATTTAGGATATGAGTTATAGATATATGAGAATGATACTTATGTTTGATATGCCGACGGACACTGCTGAGGAACGAAAAGCTTATCGAAAATTTCGGAAATTTTTACTTAGTGAAGGGTTTATCATGCATCAATTTTCTATTTATAGTAAGTTACTGTTGAATAATACAGCTAACAACGCCATGATTGGTCGGCTGAGGGAGCATAATCCTCATAAAGGAAATATTACATTACTAACAGTCACAGAAAAACAGTTTGCACGAATGATTTATTTACATGGTGAAAGAAATAATTGTATTGCAAACTCCGATGAGAGACTTGTATTTCTTGGGGAGGCTTTTGATGAATCTTAATTTTCCCTTATTAGATGAACCGATTCCATTAAGAGGCGGTACAATTCTTGTGCTCGAAGATGTCTGTGTATTTTCAAAAATAGTGCAATATTGTTACAAATATGAGGAAGATTCTGAACTTAAATTTTTTGATCACAAGATGAAAACCATCAAAGAATCAGAAATCATGCTTGTAACAGATATTTTAGGATTTGATGTTAACTCCTCAACCATTTTAAAATTGATTCATGCAGATTTAGAATCTCAATTTAATGAGAAACCCGAAGTGAAATCGATGATTGACAAATTGGTTGCTACGATTACAGAACTGATTGTCTTTGAATGCTTAGAAAATGAATTAGATTTAGAGTATGATGAAATCACAATCCTGGAATTGATTAAGTCCTTAGGAGTAAAAGTAGAAACGCAAAGTGATACTATTTTTGAAAAATGTCTAGAGATACTTCAAATTTTCAAATATCTCACTAAGAAAAAGTTGCTTATTTTTGTCAATAGCGGAGCTTTTCTAACAAAGGATGAAGTGGCTAGTTTACAAGAGTATATATCATTGACAAATTTAACAGTTCTCTTTTTAGAACCACGTGAACTATATGATTTTCCGCAGTATATTTTAGATGAAGATTATTTCTTAATAACTAAAAATATGGTATAA(SEQ ID NO:517)
SEQ ID NO:518:
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGCTCAAGGGTCTGGGAAATACAGACCGCCACGGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAA GAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGTGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGATTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTACTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGCGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCTATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAAGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAACGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGTGAGCGTATGAAACGTATTGAAGAAGGAATAAAAGAACTAGGAAGTGATATTCTAAAGGAGTATCCTGTTGAAAACACTCAATTACAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACAAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGTTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAGAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTTAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAGGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATAATGGAAAGAAGCTCTTTTGAAAAAGATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAGAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTGCAAAAAGGAAATGAGCTAGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA(SEQ ID NO:518)
SEQ ID NO:519:
ATGGCTGGTTGGCGTACTGTTGTGGTAAATACCCACTCGAAATTATCCTATAAGAATAATCATCTGATTTTTAAGGATGCCTATAAAACGGAGCTGATCCATTTATCAGAAATTGATATTTTGTTATTAGAAACGACCGATATTGTCTTGTCCACTATGCTGGTAAAACGGCTAGTGGATGAGAATGTCCTTGTCATATTCTGTGATGATAAACGATTACCAACAGCTATGCTGATGCCTTTTTATGGTCGTCATGATTCGAGTTTACAGCTTGGGAAACAAATGTCCTGGTCAGAAACAGTCAAATCGCAGGTTTGGACGACGATTATTGCTCAAAAGATTTTGAATCAATCTTGCTATCTAGGAGCATGCTCCTATTTTGAAAAATCCCAATCTATTATGGATTTATATCATGGTTTGGAAAATTTTGATCCGAGTAATCGAGAAGGGCATGCAGCGAGAATTTATTTTAATACACTTTTTGGGAACGATTTCTCAAGAGATTTGGAGCATCCAATCAATGCAGGTCTGGATTATGGTTATACTTTATTATTGAGTATGTTTGCGCGTGAAGTGGTTGTGTCTGGATGTATGACTCAATTTGGACTCAAACACGCCAATCAGTTTAATCAGTTCAATTTTGCTAGCGATATTATGGAACCATTTAGGCCTTTGGTGGATAAGATTGTTTATGAAAATCGAAATCAGCCTTTTCCCAAAATAAAGAGAGAGTTATTTACTTTGTTTTCAGATACATTTTCATATAATGGTAAAGAGATGTATCTCACGAATATTATTAGCGATTATACTAAAAAAGTTGTCAAAGCTCTGAATAATGAAGGGAAAGGAGTTCCTGAATTTAGGATATGA(SEQ ID NO:519)
SEQ ID NO:520:
ATGAGAATGATACTTATGTTTGATATGCCGACGGACACTGCTGAGGAACGAAAAGCTTATCGAAAATTTCGGAAATTTTTACTTAGTGAAGGGTTTATCATGCATCAATTTTCTATTTATAGTAAGTTACTGTTGAATAATACAGCTAACAACGCCATGATTGGTCGGCTGAGGGAGCATAATCCTCATAAAGGAAATATTACATTACTAACAGTCACAGAAAAACAGTTTGCACGAATGATTTATTTACATGGTGAAAGAAATAATTGTATTGCAAACTCCGATGAGAGACTTGTATTTCTTGGGGAGGCTTTTGATGAATCTTAA(SEQ ID NO:520)
SEQ IDNO:521:
ATGAATCTTAATTTTCCCTTATTAGATGAACCGATTCCATTAAGAGGCGGTACAATTCTTGTGCTCGAAGATGTCTGTGTATTTTCAAAAATAGTGCAATATTGTTACAAATATGAGGAAGATTCTGAACTTAAATTTTTTGATCACAAGATGAAAACCATCAAAGAATCAGAAATCATGCTTGTAACAGATATTTTAGGATTTGATGTTAACTCCTCAACCATTTTAAAATTGATTCATGCAGATTTAGAATCTCAATTTAATGAGAAACCCGAAGTGAAATCGATGATTGACAAATTGGTTGCTACGATTACAGAACTGATTGTCTTTGAATGCTTAGAAAATGAATTAGATTTAGAGTATGATGAAATCACAATCCTGGAATTGATTAAGTCCTTAGGAGTAAAAGTAGAAACGCAAAGTGATACTATTTTTGAAAAATGTCTAGAGATACTTCAAATTTTCAAATATCTCACTAAGAAAAAGTTGCTTATTTTTGTCAATAGCGGAGCTTTTCTAACAAAGGATGAAGTGGCTAGTTTACAAGAGTATATATCATTGACAAATTTAACAGTTCTCTTTTTAGAACCACGTGAACTATATGATTTTCCGCAGTATATTTTAGATGAAGATTATTTCTTAATAACTAAAAATATGGTATAA(SEQ ID NO:521)
与重复序列SEQ ID NO:13至SEQ ID NO:19。
功能性组合#4:
如下所示的cas序列:SEQ ID NO:509至SEQ ID NO:516(它们均来自酿脓链球菌):
SEQ ID NO:509:
ATGAGAATGATTTTAGCACACTATGACTGTAAAAAAGATAAAAAGCAATCTTTAGATGAGCATTTATGGCATGTGGCCTGTTCTAGTCGACAGGAAGCATCTATAATTGGTCAAGGAGATGTGCTTTTTTTAATTGGTCTTTACCACGACCTGGGCAAAGCTGATCGAACCTTTCAAGATAAATTATTAAATAATCCAAATCGGCATGTTGATCACTCTTATGCAGGGGCAAAATACTTATGTTCTATTATTGGGCCTCATCTAAAAAACCGAGGGGTTGATAAAAATGAGAGAATGACATTCAACGAAATGGTGGGGTATGTCATCTCTGCTCATCATGGGATGTATGATTTATGCTACTATTTTGACGATGCTGAATATTATGGCTTTAATAAGTTTAAAAATCGTATCAATAGAGACTTAGATGGTTATCACTATCATGAAGATATTAAAGGGTACGCTCTAAAATTAGAAAAAAAATTATGTGATTATGGCTACAAAGATTTAAGGGAGCTTATTGATAAAGCTTTTGATAATTACCAACAAGCCATGTCTTCCTTAAACTGGCAAGATAAGAGTGAGTGGGATTATTATCAGTCTTGTATGGTGAGACTTTACTTGTCACTCTTAAAAAACGCTGATATTTTGGACACAGTAAATGCCTATGGCCTTAAGATAAGTCCTATGGATAAAACAGAGCGATCCTTTCTAAAACACTCCTATTTAGCGGCCATTGAACAAAAATATGCTAGCTTTGGACAGCCAAACAATCAGTTGAACACTATTCGGACAGAAATCGCTGAGCGTGTTAAAGAAAGAGGTAAACGAGATTCCAAGGGGATTTATCGCTTAGATTTACCGACAGGAGCTGGCAAGACTAATCTTAGTATGCGTTATGCGTTTCACCAATTAGTTCATCACGACAAATCAAGGTTTTTTTACATAACTCCCTTTCTTTCGGTTCTTGAGCAAAATGCTTCCGAAATTAGAAAAGTTACAGGTGACCTTGGCGTTCTAGAACACCATTCCAATGTGGTGAAACAGGCTAATGAAGATGATGATGATAAGGACAGTTTATTGTCAGCTTATCTTAGTGATAGCTGGGACAGTCAAGTAGTCTTGACTTCTATGGTTCAATTTTTCCAAACACTTTTCAAAACAAAATCAGCTAATCTGAGACGTTTTTCAAGTTTGATTAATAGTGTTGTGATTCTAGATGAAGTTCAATCCCTGCCTATTGAAGTCACCACTTTGTTTAATTTAACGATGAATTTTTTAAATAAAGTTATGGATACAACCATCGTTCTTTGCACAGCGACACAACCTGCTTATGATTCTTCAGAGATTGACCATCGTATCTGTTATGGAGGGAACTTGGGAGAATTAGCTGAAATAGTTGAGTTAACGATTGAAGAAAAACAGATTTTTTCAAGGACAGAGCTTAGAAAATTTGATGATAGTGATCAGAAAGTTCACTTGACTGATGTTATTAACCTTATTCTAGGTGAGGAAAACTCAGTTCTTGCTATTTTTAATACGAAAAAAACGGTTCATAACTGCTATACTATGCTAAAAGACATGACTGATAGACCGGTCTATCAGCTTTCGACAAATATGTGTGCGCAGCATAGACTTGACTTGATTGCTAAGATCAAAACGGAGTTACAAAATAATATCCCTATTATTTGTATTAGCACGCAATTAATTGAAGCAGGTGTAGATGTTGATTTTCATCGCGTCATTCGTTCCTACTCAGGGATTGATTCTATTGTTCAGGCTGCTGGACGGTGTAACCGAGAAGGCAAACGAGATAAAGGGCAAGTCACTCTTGTCAATCTGACCAATGAAGAGGAAAATATTTCTAGGCTGACAGAAATAAAAACTAAAAAAGAAGCCACAGAATCTATTCTTCATAAGATTGGGTCTCCAATTGATATCTCAACTTTAAACCGTGACTTTTTTGAGTATTATTATGCCAATAATCAGGGACTGATGGATTATCCTTTGGAAGACAACCTATCAATCTACGACTATTTAAGCCTTAATATTTATCAGACGGCAAATAAAAAGTTCAAAGGTAAGTTAAAACAAGCTTTTAAAACAGCAGGAGCCAAAATGAACCTCATCAATAATGATATGATAGGAATTCTCGTACCTTATGGCGAAGCTGAGAAAAAATTGGCTTATTTAGAAGAATTAGGTGTGTCACATTTTTTATCAGCAAAAGATTATCAAACGATAAAATCATTACTAAAAGAGTTACAACCTTTTACGGTTAATGTCCGCGAGAACGATCCTCTCTTTGAGACAACAAAATCTTATCTAAATGGTCAGATTCTGGTTTTGACGTCGGAGTATTATGACACGGAAAGAGGAGTTAAATACGATTCAGCTAGCTTTTACTTCTAACTCAAAACGAAAGAAGATTAACAAAAGGTTGTTAGAGGACCTTGTTAACCTGCCAATCATCATTAGTAATTATTATCAATTTAGACTATTTAATAAAATTAGATTACAAAAAAACAGAAGGAGGAAAGTAGCTTGTACAGATCTAGAGACTTCTACGTGAGAGTAAGTGGTCAGCGAGCTCTTTTTACAAATCCAGCCACAAAAGGGGGATCGGAACGCTCATCCTATTCGGTTCCGACTAGACAGGCACTGAATGGTATCGTTGATGCCATCTATTATAAGCCGACCTTTACTAATATCGTCACAGAGGTTAAGGTTATTAACCAGATTCAAACCGAATTACAGGGTGTCAGGGCTCTGTTACATGATTATAGTGCAGATTTAAGTTATGTATCCTATTTGAGTGATGTTGTTTATCTGATCAAGTTTCATTTTGTTTGGAATGAAGATAGAAAAGATTTGAACTCAGATAGACTTCCAGCTAAACATGAAGCCATTATGGAGCGTTCTATTCGTAAAGGGGGACGTCGAGATGTGTTTTTGGGTACAAGAGAATGTTTAGGGCTTGTAGATGATATCAGCCAAGAAGAGTATGAGACTACTGTGTCGTATTATAATGGTGTCAATATCGACTTGGGAATCATGTTCCATTCCTTTGCCTATCCGAAGGACAAAAAGACACCATTAAAATCATACTTTACAAAGACTGTGATGAAAAATGGAGTCATTACGTTTAAAGCACAGTCTGAATGCGATATTGTTAACACGCTTTCTAGTTATGCTTTTAAAGCACCAGAGGAGATAAAATCGGTTAACGATGAATGCATGGAGTATGATGCCATGGAGAAAGGAGAAAACTGATGGATTTTTTTACTTCTCTCTTGAAGACTTATGAAAAAGCAGAGCTAGCAGACTTGGTTGATCATCAAAAAAGAAATAATGAGCCGGTTTTACTGCCGATTTATCATACGAGTTTAAAGTCAAATGGTAAAAATATCATTTCAGTGAAACTTGACAAAGATGGCCAGTTTCACAAGGCAGAATTTATGGCAGATAAGCAAATGATTATTTTTCCTGTAACGGCTGATTCTGTTGCTAGGTCAGGTAGTCATCCTGCACCGCATCCCCTAGTCGATAAATTTGCTTATTATAGTGCTGAAATGGGGCAGATTCAGTATGATTCTTTTCATAAGCAACTGAATAACTGGATTGATTATTGTGAGGAGGGTGATGTCAAGAAATTTTTAACCTTTGTTCAGCAGTTCATTTTGAAGCCAGAATTTCTAACATTGATTCTTGATTCTTTAATTGGTCCTGATTATCAACATAATCAATTAAAAGTCACATTTTGTGATGCCACTGGAAAAGAAAAATTAATTGATTTATCAGCTTGCTTTTTAGAATTTTCAATTGATCAGTTCCAGGGCTTTAAAAATGAATCGGTTTCGACATTTAAAGCCTTACACCAATCCTATATTTCTTTTGTTGAAGCCAATCGTGAAAATCTCGGTATTTGTAATATTAGTGGACGAGAGGAACAGCTTACCGATAAGCATAGAGGTTTGATGGGGAATGCTAAAATCATCTCTGTTAGTAATAAAAGAGAAGCTTATAAAGGACGTTTTAGAGAACGCGAAGACGTTTTTAGTGTTGGCTATGAAACTTCCGAAAAGATTCATTTAATGCTCAAGTACCTTTTAGAAAATAAAAATACCAGTACTTGGTTAGGGTCTTCTCAATATTTAATCAACTGGTTCAGCGATGATTTAACAAATGATAGTCGGTTGGATATTGTATCACCAATCTTTGATGATGGACTTGAAGAAGATGATGATGACGATACGCCTCCTGTTATAACATTAGCAACTGAAGACAATAAAAGAATTGGTAAATCATTCATCAAGGGACAAAAATTATTTGCTAATGATGCCACTTACTACGTTGCTATTTTGAATAAAACCAGCAATGGGCGGATTGCTTTAAAATATTTTCGTCAGCTTCAAGCGTCCCAATTACTCACCAATCTTAACAAGTGGCAGGAAACATACAGTTGGGAGTCGCGATCTAAGTTTGGGAAAAGTCGCTTAAGAACCCCTACTTTTCATGACATCCTTAATGTGTCCTACGGGGTTGATAGGGATCGCTTCCTTGAATTAGATAATGATAACTTCAAAAGTGATCAAATTCAAAAGTTAGTGGCAAGTTTGATTGATGGTAAACCGATGCCACAGTCCATTGTCAAAAAGTTAGGTAACAATGTTAAAGAACGACATCGTTACCGTAAGCACTGGTATCAAGTTGAGCAGGTCTGCTTAGCAATTTTACACAAACAAAATGGGGAGGAATTTTCACCGATGCTAGATCATACCAATCAAAATCGTTCCTATCTTTTTGGACGATTATTAGCAATTTTTGAATTAATCGAGACCTTGCGTTATGGCTTGGATGGAAACAATAACGACCGTATTACCAATGCTGAACGTTATTGGACAGCCTATACTGGACAACCAACAAAATTGATGATGTTATTGGAAAATAAAATTAAGCCTTACGAAGAACCATTGAAATTAAATCGTCGTGGCAGTTGGATGAAATTAGAAAAAGAAAAAGAAGAGATTTTAGAACTGTTAAATCCTCTGTTAGAAACAGAAACAATGGAAAAACCCTTAGATTACCGCTTTATTTTTGGGTATTATGCTGAGAAAAACTATTACTATACAAAACAAAACACGGAAGTAACAGAAAGTGAGGAGTAAAAAGATGTTGGAACACAAAATTGATTTTATGGTAACTCTTGAAGTGAAAGAAGCAAATGCAAATGGTGATCCCTTAAATGGAAACATGCCTCGTACAGATGCCAAAGGATATGGTGTGATGAGTGATGTCTCCATTAAACGTAAGATTCGTAATCGTTTGCAAGATATGGGGAAGTCTATTTTTGTGCAAGCTAATGAGCGTATTGAAGATGATTTTCGTTCACTGGAAAAACGCTTTTCGCAACATTTTACAGCTAAGACACCTGACAAAGAAATTGAAGAAAAAGCAAATGCATTATGGTTTGATGTTCGTGCTTTTGGACAAGTTTTTACTTATCTGAAAAAATCAATTGGGGTGCGTGGACCAGTTTCCATCAGTATGGCTAAGTCCTTGGAGCCAATTGTCATTTCCAGCCTTCAAATTACGCGTAGTACCAATGGTATGGAAGCTAAGAATAATAGTGGCCGCTCTTCTGATACGATGGGGACAAAACATTTTGTAGATTATGGTGTGTATGTACTTAAAGGTTCTATCAATGCTTATTTTGCTGAAAAGACTGGTTTTTCTCAGGAAGATGCTGAGGCTATTAAAGAAGTTTTGGTTAGCTTGTTTGAAAATGATGCGTCGTCTGCACGTCCGGAAGGCTCTATGCGAGTTTGTGAAGTCTTTTGGTTTACGCATTCAAGCAAATTGGGAAATGTTTCAAGTGCGCGTGTCTTTGACTTGTTAGAGTATCATCAATCAATAGAAGAAAAAAGCACTTATGACGCTTATCAGATTCATCTAAATCAAGAAAAATTGGCTAAATATGAAGCGAAAGGGTTAACGCTTGAAATCCTAGAAGGACTCTAGTATGGTCTATGCCGAAGATGATTATTTAATGCTGTCAGGTATTCAGCATTTCCAATTTTGTAAACGTCAATGGGCGTTGATCCATATTGAGCAACAATGGCTTGATAATGAAGCGACAGCGCATGGACAGGTTTTACATACTAAAGCAGATAACCCTTACATTAAAGAAAAACGAAAAGAGCTTTTGGTCTCACGTGCTATGCCCATTTCTTCTGCAGAACTTGGACTTTCAGGAATTATGGATGTTGTGGAATTTTATAAAGATGATCAAGGTGTGTCTTTGAGGGGAAAACGTGGGAAATGGTTACCAAAAGTTGTGGAATACAAGCGCGGAAAACCTAAAAAAGATACCAGAGATATTGTCCAGTTGGTGGCTCAGACCATGTGTTTAGAAGAAACGCTAGACTGCGACATTAACGAAGGTTGTCTTTATTACCATAGTGTCAATCAAAGAGTGATTGTTCCTATGACATCAGCTTTGCGTCAAGAAGTGAAGGAATTAGCCGCAGAGATGCATGAGGTTTATCAGAGTCAAATGCTACCTAAAGCAGCTTATTTTAAAAACTGTCAGCTTTGTTCTTTAGTCGATATTTGTAAGCCCAGGTTGAGTAAAAAAACAAGGAGTGTGTCGCGTTACATCAATGAGGCTATGACCAGTGAGGAGATGGACCTATGAAGAAGTTGCTAAATACCTTGTATTTGACGCAAGAAGATTTTTATGTCACTAAAGAGGGCGATAACATTGTTATCAAGCAAGAAGGTAAGGTTCTCAAACGGTTTCCGTTTCGGATTATTGACGGTATTGTCTGTTTTTCTTATTTGGGTGTGTCGTCTGCTTTGGTGAAGTTATGTACGGAGAATCAGATTAATTTATCGTTTCATACACCACAAGGGCGTTTTTGTGGTCGCTATATTGGTTCAACCAATGGGAATGTGTTGTTGCGTAGAGAACATTATCGTTTATCTGATCGTGAGGAATCTTTGGAATACGCAAAGCGGTTTATTTTGGCTAAAATTTCCAACTCAAGGAAATACTTGCTACGCTTTAAACGAGATCATCGTCAACAGATTGATACCAAGCTTTTTGAGGCTGTTAATGACGAATTGATATGGGCTTTAGAGATGGTTCAGGCAGCAGATAATAAAGACTCTTTAAGAGGGATTGAAGGCCAAGCTGCTAATCAGTATTTTCGCATATTTAATGACCTGGTGTTGACGGACAAAAAAACGTTTTACTTCCAAGGTCGGAGTAAACGACCACCCTTAGATTGTGTTAATGCCCTCTTGTCTTTTGGTTACAGTTTACTGACCTTTGAATGTCAATCTGCCTTGGAAGCTGTCGGATTAGACAGTTACGTTGGTTTCTTTCACACGGATCGTCCTGGGCGTGCTAGTTTAGCGCTTGATTTAGTTGAAGAGTTCCGCTCATATATTGTAGATCGTTTTGTCTTTTCATTAATTAATAAAGGACAACTTCAGAAAAAACACTTTGAGGTTAAAGAAAATGGTAGTATTTTATTGACGGAAAATGGCAGAGCTATTTTTATTGATTTGTGGCAGAAGCGTAAGCATACTGAGGTAGAACATCCTTTTACAAAAGAGAAAGTAAAACTTATGTTATTACCCTATGTACAAGCGCAGCTTTTAGCTAAGGCTATACGAGGAGATTTAGAAAGCTATCCACCTTTTATGGTTTAGGAGATGTTATATGATGGTTTTAGTCACTTATGATGTAAATACGGAAACACCTGCTGGTAGAAAAAGATTGCGTCATGTTGCCAAACTCTGTGTGGACTATGGGCAACGTGTTCAAAATTCTGTTTTTGAATGTTCTGTGACACCCGCAGAATTTGTGGATATAAAGCACCGCTTAACACAAATCATTGATGAGAAAACTGATAGTATTCGCTTTTATTTATTGGGGAAAAATTGGCAGAGGCGTGTGGAAACACTTGGTCGCTCAGACAGCTATGACCCAGATAAAGGTGTCTTATTATTGTAA(SEQ ID NO:509)
SEQ ID NO:510:
ATGAGAATGATTTTAGCACACTATGACTGTAAAAAAGATAAAAAGCAATCTTTAGATGAGCATTTATGGCATGTGGCCTGTTCTAGTCGACAGGAAGCATCTATAATTGGTCAAGGAGATGTGCTTTTTTTAATTGGTCTTTACCACGACCTGGGCAAAGCTGATCGAACCTTTCAAGATAAATTATTAAATAATCCAAATCGGCATGTTGATCACTCTTATGCAGGGGCAAAATACTTATGTTCTATTATTGGGCCTCATCTAAAAAACCGAGGGGTTGATAAAAATGAGAGAATGACATTCAACGAAATGGTGGGGTATGTCATCTCTGCTCATCATGGGATGTATGATTTATGCTACTATTTTGACGATGCTGAATATTATGGCTTTAATAAGTTTAAAAATCGTATCAATAGAGACTTAGATGGTTATCACTATCATGAAGATATTAAAGGGTACGCTCTAAAATTAGAAAAAAAATTATGTGATTATGGCTACAAAGATTTAAGGGAGCTTATTGATAAAGCTTTTGATAATTACCAACAAGCCATGTCTTCCTTAAACTGGCAAGATAAGAGTGAGTGGGATTATTATCAGTCTTGTATGGTGAGACTTTACTTGTCACTCTTAAAAAACGCTGATATTTTGGACACAGTAAATGCCTATGGCCTTAAGATAAGTCCTATGGATAAAACAGAGCGATCCTTTCTAAAACACTCCTATTTAGCGGCCATTGAACAAAAATATGCTAGCTTTGGACAGCCAAACAATCAGTTGAACACTATTCGGACAGAAATCGCTGAGCGTGTTAAAGAAAGAGGTAAACGAGATTCCAAGGGGATTTATCGCTTAGATTTACCGACAGGAGCTGGCAAGACTAATCTTAGTATGCGTTATGCGTTTCACCAATTAGTTCATCACGACAAATCAAGGTTTTTTTACATAACTCCCTTTCTTTCGGTTCTTGAGCAAAATGCTTCCGAAATTAGAAAAGTTACAGGTGACCTTGGCGTTCTAGAACACCATTCCAATGTGGTGAAACAGGCTAATGAAGATGATGATGATAAGGACAGTTTATTGTCAGCTTATCTTAGTGATAGCTGGGACAGTCAAGTAGTCTTGACTTCTATGGTTCAATTTTTCCAAACACTTTTCAAAACAAAATCAGCTAATCTGAGACGTTTTTCAAGTTTGATTAATAGTGTTGTGATTCTAGATGAAGTTCAATCCCTGCCTATTGAAGTCACCACTTTGTTTAATTTAACGATGAATTTTTTAAATAAAGTTATGGATACAACCATCGTTCTTTGCACAGCGACACAACCTGCTTATGATTCTTCAGAGATTGACCATCGTATCTGTTATGGAGGGAACTTGGGAGAATTAGCTGAAATAGTTGAGTTAACGATTGAAGAAAAACAGATTTTTTCAAGGACAGAGCTTAGAAAATTTGATGATAGTGATCAGAAAGTTCACTTGACTGATGTTATTAACCTTATTCTAGGTGAGGAAAACTCAGTTCTTGCTATTTTTAATACGAAAAAAACGGTTCATAACTGCTATACTATGCTAAAAGACATGACTGATAGACCGGTCTATCAGCTTTCGACAAATATGTGTGCGCAGCATAGACTTGACTTGATTGCTAAGATCAAAACGGAGTTACAAAATAATATCCCTATTATTTGTATTAGCACGCAATTAATTGAAGCAGGTGTAGATGTTGATTTTCATCGCGTCATTCGTTCCTACTCAGGGATTGATTCTATTGTTCAGGCTGCTGGACGGTGTAACCGAGAAGGCAAACGAGATAAAGGGCAAGTCACTCTTGTCAATCTGACCAATGAAGAGGAAAATATTTCTAGGCTGACAGAAATAAAAACTAAAAAAGAAGCCACAGAATCTATTCTTCATAAGATTGGGTCTCCAATTGATATCTCAACTTTAAACCGTGACTTTTTTGAGTATTATTATGCCAATAATCAGGGACTGATGGATTATCCTTTGGAAGACAACCTATCAATCTACGACTATTTAAGCCTTAATATTTATCAGACGGCAAATAAAAAGTTCAAAGGTAAGTTAAAACAAGCTTTTAAAACAGCAGGAGCCAAAATGAACCTCATCAATAATGATATGATAGGAATTCTCGTACCTTATGGCGAAGCTGAGAAAAAATTGGCTTATTTAGAAGAATTAGGTGTGTCACATTTTTTATCAGCAAAAGATTATCAAACGATAAAATCATTACTAAAAGAGTTACAACCTTTTACGGTTAATGTCCGCGAGAACGATCCTCTCTTTGAGACAACAAAATCTTATCTAAATGGTCAGATTCTGGTTTTGACGTCGGAGTATTATGACACGGAAAGAGGAGTTAAATACGATTCAGCTAGCTTTTACTTCTAA(SEQ ID NO:510)
SEQ IDNO:511
TTGTACAGATCTAGAGACTTCTACGTGAGAGTAAGTGGTCAGCGAGCTCTTTTTACAAATCCAGCCACAAAAGGGGGATCGGAACGCTCATCCTATTCGGTTCCGACTAGACAGGCACTGAATGGTATCGTTGATGCCATCTATTATAAGCCGACCTTTACTAATATCGTCACAGAGGTTAAGGTTATTAACCAGATTCAAACCGAATTACAGGGTGTCAGGGCTCTGTTACATGATTATAGTGCAGATTTAAGTTATGTATCCTATTTGAGTGATGTTGTTTATCTGATCAAGTTTCATTTTGTTTGGAATGAAGATAGAAAAGATTTGAACTCAGATAGACTTCCAGCTAAACATGAAGCCATTATGGAGCGTTCTATTCGTAAAGGGGGACGTCGAGATGTGTTTTTGGGTACAAGAGAATGTTTAGGGCTTGTAGATGATATCAGCCAAGAAGAGTATGAGACTACTGTGTCGTATTATAATGGTGTCAATATCGACTTGGGAATCATGTTCCATTCCTTTGCCTATCCGAAGGACAAAAAGACACCATTAAAATCATACTTTACAAAGACTGTGATGAAAAATGGAGTCATTACGTTTAAAGCACAGTCTGAATGCGATATTGTTAACACGCTTTCTAGTTATGCTTTTAAAGCACCAGAGGAGATAAAATCGGTTAACGATGAATGCATGGAGTATGATGCCATGGAGAAAGGAGAAAACTGA(SEQ ID NO:511)
SEQ ID NO:512:
ATGGATTTTTTTACTTCTCTCTTGAAGACTTATGAAAAAGCAGAGCTAGCAGACTTGGTTGATCATCAAAAAAGAAATAATGAGCCGGTTTTACTGCCGATTTATCATACGAGTTTAAAGTCAAATGGTAAAAATATCATTTCAGTGAAACTTGACAAAGATGGCCAGTTTCACAAGGCAGAATTTATGGCAGATAAGCAAATGATTATTTTTCCTGTAACGGCTGATTCTGTTGCTAGGTCAGGTAGTCATCCTGCACCGCATCCCCTAGTCGATAAATTTGCTTATTATAGTGCTGAAATGGGGCAGATTCAGTATGATTCTTTTCATAAGCAACTGAATAACTGGATTGATTATTGTGAGGAGGGTGATGTCAAGAAATTTTTAACCTTTGTTCAGCAGTTCATTTTGAAGCCAGAATTTCTAACATTGATTCTTGATTCTTTAATTGGTCCTGATTATCAACATAATCAATTAAAAGTCACATTTTGTGATGCCACTGGAAAAGAAAAATTAATTGATTTATCAGCTTGCTTTTTAGAATTTTCAATTGATCAGTTCCAGGGCTTTAAAAATGAATCGGTTTCGACATTTAAAGCCTTACACCAATCCTATATTTCTTTTGTTGAAGCCAATCGTGAAAATCTCGGTATTTGTAATATTAGTGGACGAGAGGAACAGCTTACCGATAAGCATAGAGGTTTGATGGGGAATGCTAAAATCATCTCTGTTAGTAATAAAAGAGAAGCTTATAAAGGACGTTTAGAGAACGCGAAGACGTTTTTAGTGTTGGCTATGAAACTTCCGAAAAGATTCATTTAATGCTCAAGTACCTTTTAGAAAATAAAAATACCAGTACTTGGTTAGGGTCTTCTCAATATTTAATCAACTGGTTCAGCGATGATTTAACAAATGATAGTCGGTTGGATATTGTATCACCAATCTTTGATGATGGACTTGAAGAAGATGATGATGACGATACGCCTCCTGTTATAACATTAGCAACTGAAGACAATAAAAGAATTGGTAAATCATTCATCAAGGGACAAAAATTATTTGCTAATGATGCCACTTACTACGTTGCTATTTTGAATAAAACCAGCAATGGGCGGATTGCTTTAAAATATTTTCGTCAGCTTCAAGCGTCCCAATTACTCACCAATCTTAACAAGTGGCAGGAAACATACAGTTGGGAGTCGCGATCTAAGTTTGGGAAAAGTCGCTTAAGAACCCCTACTTTTCATGACATCCTTAATGTGTCCTACGGGGTTGATAGGGATCGCTTCCTTGAATTAGATAATGATAACTTCAAAAGTGATCAAATTCAAAAGTTAGTGGCAAGTTTGATTGATGGTAAACCGATGCCACAGTCCATTGTCAAAAAGTTAGGTAACAATGTTAAAGAACGACATCGTTACCGTAAGCACTGGTATCAAGTTGAGCAGGTCTGCTTAGCAATTTTACACAAACAAAATGGGGAGGAATTTTCACCGATGCTAGATCATACCAATCAAAATCGTTCCTATCTTTTTGGACGATTATTAGCAATTTTTGAATTAATCGAGACCTTGCGTTATGGCTTGGATGGAAACAATAACGACCGTATTACCAATGCTGAACGTTATTGGACAGCCTATACTGGACAACCAACAAAATTGATGATGTTATTGGAAAATAAAATTAAGCCTTACGAAGAACCATTGAAATTAAATCGTCGTGGCAGTTGGATGAAATTAGAAAAAGAAAAAGAAGAGATTTTAGAACTGTTAAATCCTCTGTTAGAAACAGAAACAATGGAAAAACCCTTAGATTACCGCTTTATTTTTGGGTATTATGCTGAGAAAAACTATTACTATACAAAACAAAACACGGAAGTAACAGAAAGTGAGGAGTAA(SEQID NO:512)
SEQ ID NO:513:
ATGTTGGAACACAAAATTGATTTTATGGTAACTCTTGAAGTGAAAGAAGCAAATGCAAATGGTGATCCCTTAAATGGAAACATGCCTCGTACAGATGCCAAAGGATATGGTGTGATGAGTGATGTCTCCATTAAACGTAAGATTCGTAATCGTTTGCAAGATATGGGGAAGTCTATTTTTGTGCAAGCTAATGAGCGTATTGAAGATGATTTTCGTTCACTGGAAAAACGCTTTTCGCAACATTTTACAGCTAAGACA CCTGACAAAGAAATTGAAGAAAAAGCAAATGCATTATGGTTTGATGTTCGTGCTTTTGGACAAGTTTTTACTTATCTGAAAAAATCAATTGGGGTGCGTGGACCAGTTTCCATCAGTATGGCTAAGTCCTTGGAGCCAATTGTCATTTCCAGCCTTCAAATTACGCGTAGTACCAATGGTATGGAAGCTAAGAATAATAGTGGCCGCTCTTCTGATACGATGGGGACAAAACATTTTGTAGATTATGGTGTGTATGTACTTAAAGGTTCTATCAATGCTTATTTTGCTGAAAAGACTGGTTTTTCTCAGGAAGATGCTGAGGCTATTAAAGAAGTTTTGGTTAGCTTGTTTGAAAATGATGCGTCGTCTGCACGTCCGGAAGGCTCTATGCGAGTTTGTGAAGTCTTTTGGTTTACGCATTCAAGCAAATTGGGAAATGTTTCAAGTGCGCGTGTCTTTGACTTGTTAGAGTATCATCAATCAATAGAAGAAAAAAGCACTTATGACGCTTATCAGATTCATCTAAATCAAGAAAAATTGGCTAAATATGAAGCGAAAGGGTTAACGCTTGAAATCCTAGAAGGACTCTAG(SEQ ID NO:513)
SEQ ID NO:514:
ATGGTCTATGCCGAAGATGATTATTTAATGCTGTCAGGTATTCAGCATTTCCAATTTTGTAAACGTCAATGGGCGTTGATCCATATTGAGCAACAATGGCTTGATAATGAAGCGACAGCGCATGGACAGGTTTTACATACTAAAGCAGATAACCCTTACATTAAAGAAAAACGAAAAGAGCTTTTGGTCTCACGTGCTATGCCCATTTCTTCTGCAGAACTTGGACTTTCAGGAATTATGGATGTTGTGGAATTTTATAAAGATGATCAAGGTGTGTCTTTGAGGGGAAAACGTGGGAAATGGTTACCAAAAGTTGTGGAATACAAGCGCGGAAAACCTAAAAAAGATACCAGAGATATTGTCCAGTTGGTGGCTCAGACCATGTGTTTAGAAGAAACGCTAGACTGCGACATTAACGAAGGTTGTCTTTATTACCATAGTGTCAATCAAAGAGTGATTGTTCCTATGACATCAGCTTTGCGTCAAGAAGTGAAGGAATTAGCCGCAGAGATGCATGAGGTTTATCAGAGTCAAATGCTACCTAAAGCAGCTTATTTTAAAAACTGTCAGCTTTGTTCTTTAGTCGATATTTGTAAGCCCAGGTTGAGTAAAAAAACAAGGAGTGTGTCGCGTTACATCAATGAGGCTATGACCAGTGAGGAGATGGACCTATGA(SEQ ID NO:514)
SEQ ID NO:515:
ATGAAGAAGTTGCTAAATACCTTGTATTTGACGCAAGAAGATTTTTATGTCACTAAAGAGGGCGATAACATTGTTATCAAGCAAGAAGGTAAGGTTCTCAAACGGTTTCCGTTTCGGATTATTGACGGTATTGTCTGTTTTTCTTATTTGGGTGTGTCGTCTGCTTTGGTGAAGTTATGTACGGAGAATCAGATTAATTTATCGTTTCATACACCACAAGGGCGTTTTTGTGGTCGCTATATTGGTTCAACCAATGGGAATGTGTTGTTGCGTAGAGAACATTATCGTTTATCTGATCGTGAGGAATCTTTGGAATACGCAAAGCGGTTTATTTTGGCTAAAATTTCCAACTCAAGGAAATACTTGCTACGCTTTAAACGAGATCATCGTCAACAGATTGATACCAAGCTTTTTGAGGCTGTTAATGACGAATTGATATGGGCTTTAGAGATGGTTCAGGCAGCAGATAATAAAGACTCTTTAAGAGGGATTGAAGGCCAAGCTGCTAATCAGTATTTTCGCATATTTAATGACCTGGTGTTGACGGACAAAAAAACGTTTTACTTCCAAGGTCGGAGTAAACGACCACCCTTAGATTGTGTTAATGCCCTCTTGTCTTTTGGTTACAGTTTACTGACCTTTGAATGTCAATCTGCCTTGGAAGCTGTCGGATTAGACAGTTACGTTGGTTTCTTTCACACGGATCGTCCTGGGCGTGCTAGTTTAGCGCTTGATTTAGTTGAAGAGTTCCGCTCATATATTGTAGATCGTTTTGTCTTTTCATTAATTAATAAAGGACAACTTCAGAAAAAACACTTTGAGGTTAAAGAAAATGGTAGTATTTTATTGACGGAAAATGGCAGAGCTATTTTTATTGATTTGTGGCAGAAGCGTAAGCATACTGAGGTAGAACATCCTTTTACAAAAGAGAAAGTAAAACTTATGTTATTACCCTATGTACAAGCGCAGCTTTTAGCTAAGGCTATACGAGGAGATTTAGAAAGCTATCCACCTTTTATGGTTTAG(SEQ ID NO:515)
SEQ ID NO:516:
ATGATGGTTTTAGTCACTTATGATGTAAATACGGAAACACCTGCTGGTAGAAAAAGATTGCGTCATGTTGCCAAACTCTGTGTGGACTATGGGCAACGTGTTCAAAATTCTGTTTTTGAATGTTCTGTGACACCCGCAGAATTTGTGGATATAAAGCACCGCTTAACACAAATCATTGATGAGAAAACTGATAGTATTCGCTTTTATTTATTGGGGAAAAATTGGCAGAGGCGTGTGGAAACACTTGGTCGCTCAGACAGCTATGACCCAGATAAAGGTGTCTTATTATTGTAA(SEQ ID NO:516)
与重复序列SEQ ID NO:20和SEQ ID NO:22。
本说明书中提到的全部专利及出版物说明了本发明所属领域的技术人员的水平。全部专利及出版物通过引用的方式以相同程度并入本文,如同专门且个别地指出通过引用方式并入每份单独的出版物。
本领域技术人员轻易地认识到本发明充分地适应于实施所述目标并且获得所提及的目的和优势,以及其中固有的那些目的和优势。本文所述的组合物和方法是优选实施方案的代表,是示例性的,并且不意图作为对本发明范围的限制。本领域技术人员轻易地知道可以对本文披露的本发明进行各种替换和修改而不脱离本发明的范围和精神。
本文中示例性描述的本发明可以在缺少本文没有具体披露的任意要素或诸要素、限制或诸限制的情况下实施。已经使用的术语和表述作为描述性而非限制性术语使用,并且在使用此类术语和表述时不意图排除所示或所述属性或其部分的任意等效物,不过应当意识到在本发明范围内可能存在多种修改。因此,应当理解尽管本发明已经通过优选的实施方案和任选属性具体地披露,然而本领域技术人员可以求助于本文所披露概念的修改和变化,并且将此类修改和变化认为属于本发明的范围。
本发明已经在本文中广泛地且一般性地进行了描述。属于一般性公开内容的每个较小种类组和次级类属组也形成本发明的部分。这包括用限制条款或否定性限制条件对本发明的一般性描绘,其中所述的限制条款或否定性限制条件从所述类属中排除任意主题,无论所排除的材料是否在本文中具体提及。