CN115667283A

CN115667283A - Rna指导的千碱基规模基因组重组工程

Info

Publication number: CN115667283A
Application number: CN202180033011.8A
Authority: CN
Inventors: 丛乐
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2020-03-03
Filing date: 2021-03-02
Publication date: 2023-01-31
Also published as: AU2021231769A1; JP2023515670A; WO2021178432A9; MX2022010835A; IL296057A; BR112022017196A2; CA3173526A1; EP4114845A4; WO2021178432A1; EP4114845A1; KR20220151175A; US20230091242A1

Abstract

本公开提供了使用CRISPR和重组酶的重组工程编辑系统及其方法、载体、核酸组合物和试剂盒。该方法和系统提供用于在宿主细胞中改变靶DNA(包括基因组DNA)的手段。

Description

RNA指导的千碱基规模基因组重组工程

相关申请的交叉引用

本申请要求2020年3月3日提交的美国临时申请第62/984,618号，和2021年2月5日提交的美国临时申请第63/146,447号的权益，其各自的全部内容通过引用并入本文。

技术领域

本发明涉及使用噬菌体重组酶的RNA指导的重组工程编辑系统及其方法、载体、核酸组合物和试剂盒。

背景技术

成簇规则间隔短回文重复序列(CRISPR)系统，最初发现于细菌和古菌中，作为免疫系统的一部分，以抵御入侵病毒，形成了基因组编辑技术的基础，该技术可以被编程为靶向基因组或其他DNA的特定延伸，以便在精确位置进行编辑。虽然有各种基于CRISPR的工具可用，但大多数工具都适用于编辑短序列。长序列编辑在模型系统的工程化、治疗性细胞生产和基因治疗中备受欢迎。先前的研究已经开发了改进Cas9介导的同源性-5定向修复(HDR)的技术，以及利用核酸修饰酶与Cas9的工具，例如先导编辑(prime-editing)，证明了可编辑的长度达80个碱基对(bp)。尽管取得了这些进展，但对高效率和高保真的大规模哺乳动物基因组工程化还存在持续的需求。

发明内容

本文提供了以允许高精度和低脱靶误差的大规模核酸编辑的方式促进核酸编辑的系统和方法。这些系统和方法采用微生物重组组分与CRISPR重组组分的组合。

例如，本文公开了包含蛋白质、包含与靶DNA序列互补的指导RNA序列的核酸分子和微生物重组蛋白的系统。微生物重组蛋白可以是例如，RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA，redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。在一些实施方案中，该系统还包括供体DNA。在一些实施方案中，靶DNA序列是宿主细胞中的基因组DNA序列。

在一些实施方案中，系统还包括募集系统，所述募集系统包括至少一个适体序列和与微生物重组蛋白功能性连接为融合蛋白的一部分的适体结合蛋白。在一些实施方案中，适体序列是RNA适体序列或肽适体序列。在一些实施方案中，RNA适体序列是核酸分子的一部分。在一些实施方案中，核酸分子包括两个RNA适体序列。在一些实施方案中，微生物重组蛋白与适体结合蛋白功能性连接为融合蛋白。在一些实施方案中，结合蛋白包括MS2外壳蛋白、λN22肽或其功能衍生物、片段或变体。在一些实施方案中，融合蛋白还包括接头和/或核定位序列。

本文公开了包含编码融合蛋白的核酸序列的组合物，所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。微生物重组蛋白可以是RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA，redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。该组合物可进一步包括包含编码Cas蛋白的核酸序列的多核苷酸和包含与靶DNA序列互补的指导RNA序列的核酸分子中的一种或两种。在一些实施方案中，核酸分子进一步包含至少一个RNA适体序列。在一些实施方案中，包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。

本文还公开了包含编码融合蛋白的核酸序列的载体，所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。微生物重组蛋白可以是RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA，redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。该载体可进一步包括包含编码Cas蛋白的核酸序列的多核苷酸和包含与靶DNA序列互补的指导RNA序列的核酸分子中的一种或两种。在一些实施方案中，核酸分子进一步包含至少一个RNA适体序列。在一些实施方案中，包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。

在一些实施方案中，RecE和RecT重组蛋白来源于大肠杆菌(E.coli)。在一些实施方案中，RecE、或其衍生物或变体包含与选自由SEQ ID NO：1-8组成的组的氨基酸序列具有至少70％相似性的氨基酸序列。在一些实施方案中，RecT、或其衍生物或变体包含与选自由SEQ ID NO：9组成的组的氨基酸序列具有至少70％相似性的氨基酸序列。

在一些实施方案中，Cas蛋白是Cas9或Cas12a。在一些实施方案中，Cas蛋白是无催化活性的。在一些实施方案中，Cas9蛋白是野生型化脓性链球菌(Streptococcuspyogenes)Cas9或野生型金黄色葡萄球菌(Staphylococcus aureus)Cas9。在一些实施方案中，Cas9蛋白是Cas9切口酶(例如，在第10位具有氨基酸取代D10A的化脓性链球菌(Streptococcus pyogenes)Cas9)。

还公开了包含本文公开的系统或载体的真核细胞。

本文还公开了改变宿主细胞中靶基因组DNA序列的方法。所述方法包括使本文所述的系统、组合物或载体与靶DNA序列接触(例如，将本文所述系统、组合物、或载体引入包含靶基因组DNA序列的宿主细胞)。本文还公开了包含一种或更多种试剂或其他组分的试剂盒，这些试剂或组分对于实践上述的任何方法是有用的、必要的或足够的。

根据以下详细描述和附图，本公开的其他方面和实施方案将是显而易见的。

附图说明

图1A和图1B是利用来自酵母和人类的真核重组酶重建的RecE(图1A)和RecT(图1B)系统发育树。

图2A是RecE/RecT同源物的系统发育树和长度分布。图2B是RecE/T的宏基因组学分布。图2C是本文公开的中心模型的示意图。图2D是RecE/T同源物的基因组敲入效率的图表。

图3A和3B是在EMX1(图3A)基因座和VEGFA(图3B)基因座处同源定向修复(HDR)的高通量测序(HTS)读段的图。图3C-3D是HEK293T细胞在HSP90AA1(图3C)、DYNLTI(图3D)和AAVS1(图3E)基因座处的mKate敲入效率的图。图3F是使用RecT在HEK293T细胞中的mKate敲入效率的图像。图3G是示例性AAVS1敲入策略和来自RecT敲入组的色谱迹线的示意图。图3H是募集对照实验和相应的敲入效率的原理图和示意图。所有结果均归一化至NR。(NC，无切割；NR，无重组物)。

图4A-4C是在HEK293T细胞中HSP90AA1(图4A)、DYNLTI(图4B)、和AAVS1(图4C)基因座处相对于NE组的相对mKate敲入效率的图。(NC，无切割对照组。NR，无重组物对照组。)图4D是验证AAVS1基因座处的mKate敲入的连接PCR(junction PCR)的示例性琼脂糖凝胶的图像。图4E和4F是AAVS1基因座处的绝对和(图4E)和相对(图4F)LOV敲入效率的图。

图5A-5D是细胞系A549(图5A)、HepG2(图5B)、HeLa(图5C)、和hESCs(H9)(图5D)中不同基因座处的基因组敲入效率的图。图5E是hESC中mKate敲入的图像。图5F和5G是REDITv1工具的全基因组脱靶位点(OTS)计数(图5F)和OTS染色体分布(图5G)。

图6A-6D是A549细胞系中AAVS1基因座和DYNT1基因座(图6A)、HepG2细胞系中DYNLT1基因座和HSP90AA1基因座(图6B)、Hela细胞系中DYNLT1基因座和HSP90AA1基因座(图6C)、和hES-H9细胞系中HSP90AA1基因座和OCT4基因座(图6D)的相对mKate敲入效率的图。(NC，无切割对照组。NR，无重组物对照组。所有数据归一化至NR组。)图6E是hES-H9细胞中HSP90AA1 mKate敲入的代表性FACS结果。

图7A-7D是DYNLTI(图7A)和HSP90AA1(图7B)基因座处不同同源臂长度和DYNLT1(图7C)和HSP90AA1(图7D)的无重组物对照的绝对mKate敲入效率的图。

图8A-8E是REDITv1系统中与sgEMX1(图8A-8C)或sgVEGFA(图8D-8E)相关联的前3个预测的脱靶基因座的indel率的图表。

图9A是HEK293T细胞中的REDITv2N和相应的敲入效率的选定实施方案的示意图。图9B和9C是比较REDITv2N与REDITv1的全基因组脱靶(OTS)计数(图9B)和OTS染色体分布(图9C)的图。图9D是REDITv2D的选定实施方案的示意图和相应的敲入效率。图9E是在血清饥饿条件下REDITv1、REDITv2N、和REDITv2D的编辑效率的图。图9F是hESCs中REDITv3的敲入效率。图9G是在hESCs中使用REDITv3的mKate敲入的图像。

图10A和10B是在DYNLT1基因座和HSP90AA1基因座处REDITv2N(图10A)和REDITv2D(图10B)的选定实施方案的相对mKate敲入效率的原理图和数据。

图11A-11D是显示对于选定的REDITv2N系统在DYNLT1基因座和HSP90AA1基因座处mKate敲入的连接PCR(junction PCR)的琼脂糖凝胶的图像。

图12A和12B是REDITv2(图12A)和REDITv2N(图12B)的选定实施方案的检测到的脱靶切割的基因组分布的图。堆积包括有两个或更多个读段相互重叠的的比对。侧翼对包括在彼此上游200bp内出现在相对链上的比对。靶匹配包括与上游序列中的处理过的靶标匹配的比对(靶序列中最多允许6个错配，包括PAM中的1个错配)。图12C是REDITv2N系统的EMX1基因座处的HTS HDR和indel读段的图。

图13A是显示在REDITv2D系统在DYNLT1基因座处的mKate敲入的连接PCR的琼脂糖凝胶的图像。

图14A-14C是当用不同FBS浓度处理时，REDITv2(图14A)、REDITv2N(图14B)和REVITv2D(图14C)中在的HSP90AA1基因座的mKate敲入效率的图。图14D-14F是当用不同血清FBS浓度处理时，REDITv2(图14D)、REDITv2N(图14E)和REVITv2D(图14F)中在的HSP90AA1基因座处的mKate敲入效率的图表。

图15是在EGFP融合到REDITv1系统之后的RecE_587和RecT的核定位的图像。细胞核用NucBlue Live Ready探针试剂染色。

图16A和16B是在将不同的核定位序列融合到RecT和RecE_587的N-或C-末端后，在HSP90AA1和DYNLT1基因座的相对mKate敲入效率。图16C和16D是图16A和16B的构建体对DYNLT1基因座(图16C)和HSP90AA1基因座(图16D)的绝对mKate敲入效率的图。

图17A-17D是在将新的NLS序列以及最佳接头融合至REDITv2和REDITv3变体后，对DYNLT1基因座(图17A和17C)和HSP90AA1基因座(图17B和17D)的相对(图17A和17B)和绝对(图17C和17D)mKate敲入效率的图。使用REDITv2N(D10A或H840A)和REDITv2D(dCas9)的REDITv2版本以及使用的指导的数量在水平轴上显示。不同的颜色表示不同的对照组和REDIT版本。

图18是hES-H9细胞中HSP90AA1基因座处的REDITv3N系统的相对编辑效率的图。

图19A是示例性saCas9表达载体的图。图19B-19E是saCas9系统中不同效应子在AAVS1基因座(图19D)和HSP90AA1基因座(图19E)处的相对mKate敲入效率和相应的绝对效率(分别为图19B和19C)的图表。NC，无切割对照组。NR，无重组物对照组。

图20A是RecT截断的示意图。图20B和20C是具有单基因巧合和双基因巧合的野生型化脓性链球菌(Streptococcus pyogenes)Cas9和化脓性链球菌(Streptococcuspyogenes)Cas9n(D10A)在DYNLTI基因座处的相对mKate敲入效率的图表。

图21A是RecE_587截断的示意图。图21B和21C是野生型化脓性链球菌(Streptococcus pyogenes)Cas9和单切口和双切口化脓性链球菌(Streptococcuspyogenes)Cas9n(D10A)在DYNLT1基因座处的相对mKate敲入效率的图。

图22A和22B是用来自天然存在的重组工程系统的不同外切核酸酶(图22A)和单链DNA退火蛋白(SSAP)(图22B)进行基于重组工程的编辑的效率的比较图，以NR(无重组物)作为阴性对照。通过基因组基因座(DYNLT1和HSP90AA1)处的mKate敲入测定测量基因编辑活性。数据显示为使用人HEK293细胞成功mKate敲入的百分比，每个实验一式三份地进行(n＝3)。

图23A-23E显示使用boxB和N22的紧凑型募集系统。REDIT重组物蛋白融合至N22肽，在sgRNA中包括boxB，N22肽的短识别序列(图23A)。图23B-23E是使用mKate敲入测定的基因编辑效率图，使用野生型SpCa9，与MS2-MCP募集系统进行并列比较。图23B和23D是DYNLT1、HSP90AA1基因座处的绝对mKate敲入效率，图23C和23E是相对效率。数据显示为使用人HEK293人类细胞成功mKate敲入的百分比，每个实验一式三份地进行(n＝3)。

图24A-24C显示了SunTag募集系统。将REDIT重组物蛋白与scFV抗体融合，并将GCN4肽以串联方式(通过接头隔开的GCN4多肽的10个拷贝)与Cas9蛋白融合(图24A)。使用DYNLTI基因座的mKate敲入实验(图24B)用于测量基因编辑敲入效率(图24C)。所有数据都是使用mKate敲入测定法进行测量，使用野生型SpCas9。DYNLTI处的绝对mKate敲入效率显示在每个流式细胞图的右下角，其中对照不含重组物(NR)，其包括融合到GFP蛋白的scFV作为阴性对照，所有实验均在HEK293人细胞中进行。

图25A和25B例示了具有Cas12A系统的REDIT。通过SunTag募集设计创建了基于Cpf1/Cas12a的REDIT系统(图25A)，使用两种不同的Cpf1/Cas12a蛋白的。使用mKate敲入测定法，测量了两个内源性基因座(DYNLT1和AAS1)处的效率(图25B)。显示了使用HEK293人细胞通过mKate+细胞百分比测量的绝对mKate敲入效率，每个实验一式三份地进行(n＝3)，其中阴性对照没有重组物(NR)。

图26A和26B是使用RecE和RecT同源物在DYNLT1基因座(A)和HSP90AA1基因座(B)处的通过mKate敲入基因编辑测定法的精确重组活性的测量。显示了使用HEK293人细胞通过mKate+细胞百分比测量的绝对mKate敲入效率，每个实验一式三份地进行(n＝3)，其中阴性对照没有重组物(NR)并且无切割(NC)。其中也包括来自大肠杆菌(E.coli)的原始RecE和RecT作为阳性对照。

图27A和27B是显示通过SunTag的募集将SSAP RecT募集到Cas9-gRNA复合物用于基因编辑的示意图(图27A)和量化的与基于MS2的策略相比的SunTag编辑效率的图(图27B)。

图28A-28C显示了REDIT与替代的HDR增强基因编辑方法的比较。图28A是示意图，显示了通过将功能结构域CtIP或联会蛋白(Geminin，Gem)融合到Cas9蛋白(左)以及与REDIT结合时(右)的替代的HDR增强方法。图28B是通过细胞周期控制的替代的小分子HDR增强方法。根据所示的时间线(右)，诺考达唑被用来使细胞在G2/M边界同步化(左)。图28C是使用REDIT和替代的HDR增强工具，Cas9-HE(CtIP融合)、Cas9-Gem(联会蛋白融合)和诺考达唑(noc)，以及REDIT与这些方法的组合(Cas9-HE/Cas9-Gem/noc+REDIT)的基因编辑效率的比较。供体DNA具有200+400bp(DYNLT1)或200+200bp(HSP90AA1)的HA。所有测定均在无供体、NTC和Cas9(无增强)对照的情况下进行。与REDIT相比，#P＜0.05；与REDIT相比，##P＜0.01。

图29A-29D显示了REDIT基因编辑方法的模板设计指导、连接点精度和容量。图29A同源臂(HA)长度测试图，其中使用REDIT和Cas9参考比较了HDR供体(较长HA)或NHEJ/MMEJ供体(无/较短HA)的不同模板设计。上图和下图是使用mKate敲入测定检测的两个基因组基因座。图29B是示例性连接点谱图测定的设计，其通过分离敲入克隆，然后使用与外部供体结合的引物(fwd，rev)进行基因组PCR来进行。PCR产物的配对Sanger测序显示了5’-和3’-连接处的同源和非同源编辑。图29C是对图29B中的基因敲入克隆进行Sanger测序后，具有指示的连接点谱图的克隆百分比图。编辑方法和供体DNA列在底部(括号内表示HA长度)。图29D是使用2-kb盒插入双GFP/mKate标签以验证使用Cas9的REDIT方法的敲入效率的图表。底部显示了供体DNA的HA长度。

图30A-30C显示了GISseq结果，表明REDIT是有效的方法，能够插入千碱基长度的序列，而不需要的编辑事件较少。图30A是示意图，显示了GIS-seq的设计、程序和分析步骤，以测量敲入盒的全基因组插入位点。需要进行高分子量(HMW)基因组DNA的纯化，以从供体DNA去除潜在污染。供体DNA每侧有200bp HA。图30B是代表性的GIS-seq结果，显示了在中靶基因座DYNLTI处的正/负读段。最后一个外显子的终止密码子之前的预期2A-mKate敲入位点是修剪读段的中心(该读段被剪掉以去除2A-mKate盒)。有助于避免gRNA靶向，并区分基因组和编辑过的读段的模板突变被标记出来。图30C是对最靠前的GIS-seq插入位点的总结，比较了Cas9dn和REDITdn组，显示了预期的中靶插入位点(突出显示)和使用REDITdn时减少数量的识别的脱靶插入位点。(左)DYNLTI和(右)ACTB基因座，根据过滤和修剪的GIS-seq读段的分布计算MLE。

图31A-31F显示了REDIT基因编辑对内源性DNA修复的依赖性以及将REDIT方法应用于人类干细胞工程化。图31A是一个模型，显示了当使用REDIT或Cas9进行基因编辑时所涉及的编辑过程和主要修复途径，HDR途径对于化学干扰(RAD51的抑制)被突出显示。具有200+200bp HA的供体DNA用于所有抑制剂实验。图31B和31C是REDIT工具与用RAD51抑制剂B02和RI-1处理的或溶媒处理的Cas9参考相比的相对敲入效率的图，其中使用基于wtCas9的REDIT和Cas9(图31B)，和基于Cas9-切口酶的REDITdn和Cas9dn(图31C)。所有条件都是在两个基因组基因座(DYNLT1和HSP90AA1)用1-kb敲入测定法进行测量。图31D是使用REDIT和REDITdn在三个基因组基因座上测试的hESC(H9)的基因敲入效率图，与相应的Cas9和Cas9dn参考相比较。图31E和31F是使用REDIT、REDITdn与Cas9、Cas9dn和NTC对照的hESC中mKate敲入结果的流式细胞术图。hESC实验中的供体DNA在所有测试的基因座上具有200+200bp HA。

图32A-32B显示了对dCas9 REDIT的化学干扰。当用哺乳动物DNA修复途径抑制剂(Mirin、RI-1和B02)处理，并且加上(图32A)和不加(图32B)细胞周期抑制剂(Thy，双胸苷)阻断处理时测定的基因编辑效率。统计分析来自通过两阶段递升法(two-stage step-upmethod)进行的1％FDR的t检验结果。

图33A和33B分别是小鼠的DNA组分(基因编辑载体和模板DNA)和尾静脉注射的示意图。

图34A-34C是使用基因编辑载体对小鼠进行尾静脉注射的结果。图34A是注射小鼠的肝细胞的示意图和PCR分析凝胶电泳。图34B是PCR扩增子(SEQ ID NO：162)的Sanger测序结果。图34C是下一代测序的示意图和敲入连接错误量化图。

图35A和35B分别是DNA组分(基因编辑和对照载体)和腺相关病毒(AAV)处理的示意图。图35C是AAV处理的小鼠的肺的荧光图像和肿瘤数量的相应定量图。

具体实施方式

本公开涉及用于DNA编辑的系统和组分。特别地，公开的系统基于CRISPR靶向和噬菌体重组酶的同源性定向修复。该系统在千碱基规模上具有优越的重组效率和准确性。

定义

为了便于理解本技术，下面对一些术语和短语进行了定义。其他定义将在整个详细描述中列出。

如本文所用，术语“包含”、“包括”、“可以”、“含有”及其变体意指不排除其他行为或结构的可能性的开放式过渡短语、术语或词语。除非上下文另有明确规定，单数形式的“a”、“an”和“the”包括复数指示物。本公开还考虑了“包含(comprising)”、“由...组成”和“基本上由”本文呈现的实施方案或要素“组成”的其他实施方案，无论是否明确阐述。

对于本文所叙述的数字范围，明确地考虑了其之间的具有相同精度的每个中间数字。例如，对于6-9的范围，除了6和9之外还考虑数字7和8，并且对于6.0-7.0的范围，明确考虑数字6.0、6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9和7.0。

除非本文另有定义，否则与本公开相关的科学和技术术语应具有本领域普通技术人员通常理解的含义。例如，本文所述的与细胞和组织培养、分子生物学、免疫学、微生物学、遗传学以及蛋白质和核酸化学和杂交相关的任何术语和技术是本领域公知和常用的术语和技术。这些术语的含义和范围是明确的；然而，如果存在任何潜在的歧义，本文提供的定义优先于任何词典或外部定义。此外，除非上下文另有要求，否则单数术语应包括复数，且复数术语应包括单数。

术语“互补”和“互补性”是指核酸通过传统的Watson-Crick碱基配对或其他非传统的配对类型与另一核酸序列形成一个或多个氢键的能力。两个核酸序列之间的互补程度可以用一个核酸序列中能与第二个核酸序列形成氢键(如Watson-Crick碱基配对)的核苷酸的百分比来表示(例如，50％、60％、70％、80％、90％和100％互补)来表示。如果一个核酸序列的所有毗连核苷酸与第二个核酸序列中相同数量的毗连核苷酸以氢键结合，则两个核酸序列是“完全互补”。如果两个核酸序列之间在至少8个核苷酸(例如，9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50或更多个核苷酸)的区域上的互补程度为至少60％(例如，65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％)，或者如果两个核酸序列在至少中等、优选高严格度条件下杂交，则两个核酸序列是“基本互补”。示例性的中等严格度条件包括在37℃下在包含20％甲酰胺、5×SSC(150mMNaCl、15mM柠檬酸三钠)、50mM磷酸钠(pH 7.6)、5×Denhardt溶液、10％硫酸葡聚糖和20mg/ml变性剪切鲑鱼精DNA的溶液中孵育过夜，然后在约37-50℃的1×SSC中洗涤过滤器，或基本上类似的条件，例如Sambrook等人描述的中等严格度条件，下同。高严格度条件是使用例如(1)低离子强度和高温进行洗涤的条件，例如在50℃下使用0.015M氯化钠/0.0015M柠檬酸钠/0.1％十二烷基硫酸钠(SDS)，(2)在42℃下在杂交过程中使用变性剂，例如甲酰胺，50％(v/v)甲酰胺与0.1％牛血清白蛋白(BSA)/0.1％聚蔗糖/0.1％聚乙烯吡咯烷酮(PVP)/50mM磷酸钠缓冲液，pH 6.5，含750mM氯化钠和75mM柠檬酸钠，或(3)在42℃下使用50％甲酰胺、5×SSC(0.75M NaCl，0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1％焦磷酸钠、5×Denhardt溶液、超声波处理的鲑鱼精DNA(50μg/ml)、0.1％的SDS和10％硫酸葡聚糖，以及在(i)在42℃在0.2×SSC中，(ii)在55℃在50％甲酰胺中，以及(iii)在55℃在0.1×SSC(优选与EDTA组合)中洗涤。杂交反应的严格度的其他细节和解释在例如Sambrook等人，Molecular Cloning：A Laboratory Manual，3rd ed.，Cold Spring Harbor Press，ColdSpring Harbor，N.Y.(2001)；和Ausubel等人，Current Protocols in MolecularBiology，Greene Publishing Associates and John Wiley&Sons，New York(1994)中提供。

当DNA被引入细胞内时，该细胞被外源DNA，例如重组表达载体“遗传修饰”、“转化”或“转染”。外源DNA的存在导致永久或暂时的遗传变化。转化的DNA可以或可以不整合(共价连接)到细胞基因组中。例如，在原核生物、酵母和哺乳动物细胞中，转化的DNA可以保持在游离基因元件上，如质粒。就真核细胞而言，稳定转化细胞是指转化的DNA已整合到染色体中，从而通过染色体复制被子代细胞所继承。这种稳定性表现在真核细胞能够建立细胞系或克隆，所述细胞系或细胞克隆包括含有转化DNA的子细胞群。“克隆”是通过有丝分裂从单个细胞或共同祖先衍生的细胞群。“细胞系”是原代细胞的克隆，其能够在体外稳定生长许多代。

如本文所用，“核酸”或“核酸序列”是指嘧啶和/或嘌呤碱的聚合物或低聚物，优选分别为胞嘧啶、胸腺嘧啶和尿嘧啶，以及腺嘌呤和鸟嘌呤。本技术考虑任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分及其任何化学变体，例如这些碱基的甲基化、羟甲基化或糖基化形式等。聚合物或低聚物在组成上可以是异质或同质的，并且可以从天然来源分离，或者可以人工或合成生产。此外，核酸可以是DNA或RNA或其混合物，并且可以以单链或双链形式永久或过渡存在，包括同源双链、异源双链和杂合状态。在一些实施方案中，核酸或核酸序列包括其他种类的核酸结构，诸如例如DNA/RNA螺旋、肽核酸(PNA)、吗啉核酸(参见例如，Braasch和Corey，Biochemistry，41(14)：4503-4510(2002))和美国专利第5,034,506号，通过引用并入本文)，锁核酸(LNA；参见Wahlestedt等人，Proc.Natl.Acad.Sci.U.S.A.，97：5633-5638(2000)，通过引用并入本文)、环己烯基核酸(参见Wang，J.Am.Chem.Soc.，122：8595-8602(2000)，通过引用并入本文)、和/或核酶。因此，术语“核酸”或“核酸序列”也可以包括包含非天然核苷酸、修饰核苷酸和/或可以表现出与天然核苷酸相同功能的非核苷酸结构单元(例如，“核苷酸类似物”)的链，其显示与；此外，如本文所用，术语“核酸序列”是指寡核苷酸、核苷酸或多核苷酸及其片段或部分，以及基因组或合成来源的DNA或RNA，其可以是单链或双链，并代表有义链或反义链。术语“核酸”、“多核苷酸”、“核苷酸序列”和“寡核苷酸”可以互换使用。它们是指任何长度的核苷酸的聚合形式，脱氧核糖核苷酸或核糖核苷酸，或其类似物。

“肽”或“多肽”是通过肽键连接的两个或更多个氨基酸的连接序列。肽或多肽可以是天然的、合成的或是天然和合成肽的修饰物或组合。多肽包括蛋白质如结合蛋白、受体和抗体。蛋白质可以通过添加糖、脂质或其他不包括在氨基酸链中的部分来修饰。术语“多肽”和“蛋白质”在本文中可互换使用。

如本文所用，术语“序列同一性百分比”是指核酸序列中的核苷酸或核苷酸类似物或氨基酸序列中的氨基酸与参考序列中的相应核苷酸或氨基酸比对，并在必要时引入缺口以达到最大同一性百分比的情况下的百分比。因此，在根据本技术的核酸长于参考序列的情况下，在确定序列同一性时，不考虑核酸中不与参考序列比对的额外核苷酸。用于比对的方法和计算机程序是本领域公知的，包括BLAST、Align 2和FASTA。

“载体”或“表达载体”是复制子，如质粒、噬菌体、病毒或粘粒，另一个DNA片段(如“插入物”)可以被连接或纳入其中，以便使连接的片段在细胞中复制。

术语“野生型”是指当从天然来源分离时具有该基因或基因产物特征的基因或基因产品。野生型基因是在群体中最常观察到的基因，因此被任意指定为基因的“正常”或“野生型”形式。相反，术语“修饰的”、“突变的”或“多态的”是指当与野生型基因或基因产物相比时在序列和或功能特性上显示出修饰(例如，改变的特征)的基因或基因产品。需要指出的是，天然存在的突变体可以被分离出来；这些突变体通过与野生型基因或基因产物相比具有改变的特征的事实来鉴定。

RNA指导的CRISPR重组工程系统

在细菌和古菌中，CRISPR/Cas系统通过将入侵噬菌体、病毒和质粒DNA片段整合到CRISPR基因座中，并使用相应的CRISPR RNA(“crRNAs”)来指导同源序列的降解，从而提供免疫。每个CRISPR基因座编码获得的“间隔区(spacer)”，这些间隔区被重复序列分隔。CRISPR基因座的转录产生“pre-crRNA”，该pre-crRNA经过处理后产生含有间隔区重复片段的crRNA，该间隔重复片段指导效应物核酸酶复合物切割与间隔区互补的dsDNA序列。已知三种不同类型的CRISPR系统，I型、II型或III型，并基于Cas蛋白类型和使用原间隔区相邻基序(PAM)来选择入侵DNA中的原间隔区进行分类。内源性II型系统包括Cas9蛋白和两个非编码crRNA：反式激活crRNA(tracrRNA)和前体crRNA(pre-crRNA)阵列，该阵列含有由相同的直接重复(DR)间隔的核酸酶指导序列(也称为“间隔区”)。tracrRNA对于处理pre-crRNA和形成Cas9复合物非常重要。首先，tracRNA与pre-crRNA的重复区域杂交。第二，内源性RNaseIII切割杂交的crRNA-tracrRNA，第二个事件是去除每个间隔区的5’端，产生与tracrRNA和Cas9相关联的成熟crRNA。第三，每个成熟的复合物定位靶双链DNA(dsDNA)序列，并利用Cas9的核酸酶活性切割两条链。

CRISPR/Cas基因编辑系统已经开发出来，能够对真核细胞中感兴趣的特定基因进行靶向修饰。CRISPR/Cas基因编辑系统通常基于RNA指导的Cas9核酸酶，该核酸酶来自II型原核簇状规则间隔短回文重复序列(CRISPR)适应性免疫系统。用于真核细胞的工程化CRISPR/Cas系统通常涉及crRNA-tracrRNA-Cas9复合物的重组。例如，在人类细胞中，可以对Cas9氨基酸序列进行密码子优化和修饰，以包括适当的核定位信号，并且crRNA和tracrRNA序列可以单独表达或通过RNA聚合酶II启动子作为单个嵌合分子表达。通常，crRNA和tracrRNA序列表达为嵌合体，统称为“指导RNA”(gRNA)或单指导RNA(sgRNA)。因此，术语“指导RNA”、“单指导RNA”和“合成指导RNA”在本文中可互换使用，并且是指包含tracRNA和含有指导序列的pre-cRNA阵列的核酸序列。术语“指导序列”、“指导”和“间隔区”在本文中可互换使用，是指指导RNA内指定靶位点的约20个核苷酸序列。在CRISPR/Cas9系统中，指导RNA含有约20个核苷酸的指导序列，随后是原间隔区相邻基序(PAM)，该基序通过Watson-Crick碱基配对将Cas9引导至靶序列。

在一些实施方案中，本公开提供了一种利用来自CRISPR基因编辑系统的工具进行RNA指导重组的系统。该系统包括：Cas蛋白、包含与靶DNA序列互补的指导RNA序列的核酸分子和微生物重组蛋白。

Cas蛋白家族在例如Haft等人，PLoS Comput.Biol.，1(6)：e60(2005)中更详细地描述，通过引用将其并入本文。Cas蛋白可以是任何Cas内切核酸酶。在一些实施方案中，Cas蛋白是Cas9或Cas12a，否则称为Cpf1。在一个实施方案中，Cas9蛋白是野生型Cas9蛋白。Cas9蛋白可从任何合适的微生物获得，并且许多细菌表达Cas9蛋白直系同源物或变体。在一些实施方案中，Cas9来自化脓性链球菌(Streptococcus pyogenes)或金黄色葡萄球菌(Staphylococcus aureus)。本领域已知其他物种的Cas9蛋白质(例如，参见美国专利申请出版物2017/0051312，通过引用并入本文)，其可用于本发明。来自各种物种的Cas蛋白的氨基酸序列可通过GenBank和UniProt数据库公开获得。

在一些实施方案中，Cas9蛋白是Cas9切口酶(Cas9n)。野生型Cas9具有两个促进双链DNA断裂的催化核酸酶结构域。Cas9切口酶蛋白通常通过在催化核酸酶结构域之一中的一个或多个失活点突变进行工程化，导致Cas9使用剩余的活性核酸酶结构区缺刻或仅酶解两条DNA链中的一个。Cas9切口酶是本领域已知的(参见例如，美国专利申请公开2017/0051312，通过引用并入本文)，并包括例如，在D10或H840处点突变的化脓性链球菌(Streptococcus pyogenes)。在选定的实施方案中，Cas9切口酶是化脓性链球菌(Streptococcus pyogenes)Cas9n(D10A)。

在一些实施方案中，Cas蛋白是催化失活的Cas。例如，催化失活的Cas9基本上是DNA结合蛋白，因为通常在其催化核酸酶结构域内有两个或更多个突变，这使得该蛋白具有很少的或没有催化核酸酶活性。化脓性链球菌(Streptococcus pyogenes)Cas9可能通过D10和E762、H840、N854、N863或D986中的至少一个的突变，通常为H840和/或N863而成为催化失活的(参见例如，美国专利申请公开2017/0051312，通过引用并入本文)。相应直系同源物的突变是已知的，如金黄色葡萄球菌(Staphylococcus aureus)Cas9的N580。通常，这种突变导致催化失活的Cas蛋白具有不大于3％的正常核酸酶活性。

在一些实施方案中，系统包括核酸分子，所述核酸分子包括与靶DNA序列互补的指导RNA序列。如上所述，指导RNA序列用大约20个核苷酸的指导序列指定靶位点，随后是通过Watson-Crick碱基配对将Cas9引导至靶序列的原间隔区相邻基序(PAM)。

术语“靶DNA序列”、“靶核酸”、“靶序列”和“靶位点”在本文中可互换使用，用于指多核苷酸(核酸、基因、染色体、基因组等)，其指导序列(例如，指导RNA)被设计为具有互补性，其中靶序列和指导序列之间的杂交促进Cas9/CRISPR复合物的形成，只要存在足够的结合条件。在一些实施方案中，靶序列是基因组DNA序列。如本文所用，术语“基因组”是指位于细胞中染色体上的核酸序列(例如，基因或基因座)。靶序列和指导序列不需要表现出完全互补性，只要存在足够的互补性以引起杂交并促进CRISPR复合物的形成。靶序列可以包括任何多核苷酸，例如DNA或RNA。合适的DNA/RNA结合条件包括通常存在于细胞中的生理条件。其他合适的DNA/RNA结合条件(例如，无细胞系统中的条件)是本领域已知的；参见例如，Sambrook，其被本文引用并通过引用并入本文。与DNA靶向RNA互补并与之杂交的靶DNA链称为“互补链”，与“互补链”互补的靶DNA的链(因此与DNA靶向RNA不互补)称为“非互补链”。

靶基因组DNA序列可以编码基因产物。如本文所用，术语“基因产物”是指由基因表达产生的任何生物化学产物。基因产物可以是RNA或蛋白质。RNA基因产物包括非编码RNA，如tRNA、rRNA、微小RNA(miRNA)和小干扰RNA(siRNA)，以及编码RNA，例如信使RNA(mRNA)。在一些实施方案中，靶基因组DNA序列编码蛋白质或多肽。

在一些实施方案中，例如，当系统包括Cas9切口酶或催化失活的Cas9时，可以使用两个包含指导RNA序列的核酸分子。两个核酸分子可以具有相同或不同的指导RNA序列，因此与相同或不同的靶DNA序列互补。在一些实施方案中，两个核酸分子的指导RNA序列在插入位置的相对端(例如3’或5’)和/或相对链上与靶DNA序列互补。

在一些实施方案中，系统进一步包括募集系统，所述募集系统包括至少一个适体序列和作为融合蛋白的一部分的与微生物重组蛋白功能性连接的适体结合蛋白。

在一些实施方案中，适体序列是RNA适体序列。在一些实施方案中，包含指导RNA的核酸分子还包含一个或更多个RNA适体，或可以募集和结合另一分子物种，即衔接分子，例如核酸或蛋白质的独特的RNA二级结构或序列。RNA适体可以是天然存在的或合成的寡核苷酸，其通过重复多轮的体外选择或SELEX(通过指数富集的配体的系统进化)被工程化以结合特定的靶分子物种。在一些实施方案中，核酸包含两个或更多个适体序列。适体序列可以相同或不同，并且可以靶向相同或不同的衔接蛋白。在选定的实施方案中，核酸包括两个适体序列。

任何已知的RNA适体/适体结合蛋白对都可以被选择并用于本公开(参见例如，Jayasena，S.D.，Clinical Chemistry，1999.45(9)：p.1628-1650；Gelinas等人，CurrentOpinion in Structural Biology，2016.36：p.122-132；和Hasegawa，H.，Molecules，2016；21(4)：p.421；通过引用并入本文)。

存在许多RNA适体结合或衔接蛋白，包括多种噬菌体外壳蛋白。此类外壳蛋白的示例包括但不限于：MS2、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。在一些实施方案中，RNA适体结合MS2噬菌体外壳蛋白或其功能衍生物、片段或变体。与MS2结合的RNA适体通常具有简单的茎环结构，典型地由19个核苷酸的RNA分子定义，在茎的5’腿上具有单个凸起的腺嘌呤(Witherall G.W.等人，(1991)Prog.Nucleic AcidRes.Mol.Biol.，40，185-220，通过引用并入本文)。然而，发现了许多非常不同的一级序列能够结合MS2外壳蛋白(Parrott AM等人，Nucleic Acids Res.2000；28(2)：489-497，Buenrostro JD等人，Natura Biotechnology 2014；32，562-568，通过引用并入本文)。已知结合MS2噬菌体外壳蛋白的任何RNA适体序列都可以在本公开中使用。在选定的实施方案中，MS2 RNA适体序列包括：AACAUGAGGAUCACCCAUGUCUGCAG(SEQ ID NO：145)、AGCAUGAGGAUCACCCAUGUCUGCAG(SEQ ID NO：146)或AGCGUGAGGAUCACCCAUGCCUGCAG(SEQ IDNO：147)。

噬菌体的N蛋白(Nut-利用位点蛋白，Nut-utilization site protein)含有～20个氨基酸的富含精氨酸的保守RNA识别基序，称为N肽。RNA适体可以结合噬菌体N肽或其功能衍生物、片段或变体。在一些实施方案中，噬菌体N肽是λ或P22噬菌体N肽或其功能衍生物、片段或变体。

在选定的实施方案中，N肽是λ噬菌体N22肽或其功能衍生物、片段或变体。在一些实施方案中，N22肽包含与氨基酸序列GNARTRRRERRAEKQAQWKAAN(SEQ ID NO：149)具有至少70％相似性的氨基酸序列。N22肽是λ噬菌体反终止因子蛋白N(λN-(1-22)或λN肽)的22个氨基酸的RNA结合结构域，能够特异性结合特定的茎环结构，包括但不限于BoxB茎环。参见例如，Cilley和Williamson，RNA1997；3(1)：57-67，通过引用并入本文。已知许多不同的BoxB茎环一级序列可结合N22肽，并且这些序列中的任何一个都可用于本公开。在一些实施方案中，N22肽RNA适体序列包含与远自由GCCCUGAAAAAGGGC(SEQ ID NO：150)、GCCCUGAAGAAGGGC(SEQ ID NO：151)、GCGCUGAAAAAGCGC(SEQ ID NO：152)、GCCCUGACAAAGGGC(SEQ ID NO：153)、和GCGCUGACAAAGCGC(SEQ ID NO：154)组成的组的RNA序列具有至少70％相似性的核苷酸序列。在一些实施方案中，N22肽RNA适体序列选自由SEQ ID NO：150-154组成的组。

在选定的实施方案中，N肽是P22噬菌体N肽或其功能衍生物、片段或变体。已知许多不同的BoxB茎环一级序列可结合P22噬菌体N肽及其变体，并且这些序列中的任何一个可以用于本公开。参见例如，Cocozaki、Ghattas和Smith，Journal of Bacteriology 2008；190(23)：7699-7708，通过引用并入本文。在一些实施方案中，P22噬菌体N肽包含与氨基酸序列GNAKTRRHERRRKLAIERDTI(SEQ ID NO：155)具有至少70％相似性的氨基酸序列。在一些实施方案中，P22噬菌体N肽核酸适体序列包括与选自由GCGCUGACAAAGCGC(SEQ ID NO：156)和CCGCCGACAACGCGG(SEQ ID NO：157)组成的组的RNA序列具有至少70％相似性的序列。在一些实施方案中，P22噬菌体N肽RNA适体序列选自由SEQ ID NO：156-157，UGCGCUGACAAAGCGCG(SEQ ID NO：158)或ACCGCCGACAACGCGGU(SEQ ID NO：159)组成的组。

在一些实施方案中，适体序列是肽适体序列。肽适体可以是天然存在的或合成的肽，其被亲和剂特异性识别。此类适体包括但不限于，c-Myc亲和标签、HA亲和标签、His亲和标签、S亲和标签、蛋氨酸-His亲和标签、RGD-His亲和标签、7×His标签、FLAG八肽、strep标签或strep标签II、V5标签或VSV-G表位。相应的适体结合蛋白是本领域公知的，并且包括例如一级抗体、生物素、affimer、单域抗体和抗体模拟物。

示例性肽适体包括GCN4肽(Tanenbaum等人，Cell 2014；159(3)：635-646，通过引用并入本文)。抗体或GCN4结合蛋白可用作适体结合蛋白。

在一些实施方案中，肽适体序列与Cas蛋白缀合。肽适体序列可以以任何方向(例如，N-端到C-端、C-端到N-端、N-端到N-端)融合至Cas。在选定的实施方案中，肽适体与Cas蛋白的C-端融合。

在一些实施方案中，1至24个肽适体序列可与Cas蛋白缀合。适体序列可以相同或不同，并且可以靶向相同或不同的适体结合蛋白。在选定的实施方案中，相同肽适体序列的1至24个串联重复与Cas蛋白缀合。在优选的实施方案中，4至18个串联重复与Cas蛋白缀合。单个适体可以由接头区域分开。合适的接头是本领域已知的。接头可以是柔性的或被设置成允许亲和剂与相邻适体结合而没有空间位阻或具有降低的空间位阻。接头序列可提供多肽的非结构化或线性区域，例如包含一个或更多个甘氨酸和/或丝氨酸残基。接头序列的长度可以是至少约2、3、4、5、6、7、8、9、10或更多个氨基酸。

在一些实施方案中，融合蛋白包括与适体结合蛋白功能性连接的微生物重组蛋白。微生物重组蛋白可以是RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA，redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。

在选定的实施方案中，微生物重组蛋白是RecE或RecT，或其衍生物或变体。RecE和RecT的衍生物或变体是功能等同的蛋白或多肽，其具有与野生型RecE和RecT基本相似的功能。RecE和RecT衍生物或变体包括类似于野生型序列但由于氨基酸替换、添加、删除、截断、翻译后修饰或其他修饰而不同的生物活性氨基酸序列。在一些实施方案中，衍生物可改善翻译、纯化、生物半衰期、活性，或消除或减轻任何不期望的副作用或反应。衍生物或变体可以是天然多肽、合成或化学合成的多肽或基因工程肽多肽。RecE和RecT生物活性是本领域普通技术人员已知的，并且容易由本领域普通人员测定，并且分别包括例如外切核酸酶和单链核酸结合。

RecE或RecT可来自多种微生物，包括大肠杆菌(Escherichia coli)、Pantoeabreeneri、Plautia stali的F型共生体、普罗威登斯菌属(Providencia sp.)MGF014、索氏志贺菌(Shigella sonnei)、假噬菌弧菌科(Pseudobacteriovoraxantillogorgiicola)等。在优选的实施方案中，RecE和RecT蛋白来源于大肠杆菌(Escherichia coli)。

在一些实施方案中，融合蛋白包括RecE、或其衍生物或变体。RecE或其衍生物或变体可包含选自由SEQ ID NO：1-8组成的组的氨基酸序列。RecE或其衍生物或变体可包含与选自由SEQ ID NO：1-8组成的组的氨基酸序列具有至少70％(例如，75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)相似性的氨基酸序列。在选定的实施方案中，RecE或其衍生物或变体包含与选自由SEQ ID NO：1-8组成的组的氨基酸序列具有至少90％相似性的氨基酸序列。在示例性实施方案中，RecE或其衍生物或变体包含与选自由SEQ ID NO：1-3组成的组的氨基酸序列具有至少90％相似性的氨基酸序列。

在一些实施方案中，融合蛋白包括RecT或其衍生物或变体。RecT或其衍生物或变体可包含选自由SEQ ID NO：9-14组成的组的氨基酸序列。RecT或其衍生物或变体可包含与选自由SEQ ID NO：9-14组成的组的氨基酸序列具有至少70％(例如，75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或100％)相似性的氨基酸序列。在选定的实施方案中，RecT或其衍生物或变体包含与选自由SEQ ID NO：9-14组成的组的氨基酸序列具有至少90％相似性的氨基酸序列。在示例性实施方案中，RecT或其衍生物或变体包含与选自由SEQ ID NO：9组成的组的氨基酸序列具有至少90％相似性的氨基酸序列。

截断可以来自C端或N端，或两者。例如，如下面的实施例6所示，从任意一端或两端截断的不同组合提供了功能产品。在一些实施方案中，与野生型序列相比，一个或更多个(2、3、4、5、10、20、30、40、50、60、100、120或更多)氨基酸可以从C端、N端截断。

在融合蛋白中，微生物重组蛋白可以以任何方向(例如，N-端到C-端、C-端到N-端、N-端到N-端)连接到适体结合蛋白的任一端。在选定的实施方案中，微生物重组蛋白N端与适体结合蛋白C端连接。因此，从N-端到C-端的总融合蛋白包括与微生物重组蛋白(N-端到C-端)连接的适体结合蛋白(N-到C-端)。

在一些实施方案中，融合蛋白还包括微生物重组蛋白和适体结合蛋白之间的接头。接头可以包括任何长度的任何氨基酸序列。接头可以是柔性的，使得它们不以任何特定方向约束由它们连接在一起的两个组分中的任何一个。接头基本上可以充当间隔物。在选定的实施方案中，接头将微生物重组蛋白的C端与适体结合蛋白的N端连接起来。在选择的实施方案中，接头包括16个残基的XTEN接头、SGSETPGTSESATPES(SEQ ID NO：15)或37个残基的EXTEN接头、SASGGSSGGSSGSETPGTSESATPESSGGSSGGSGGS(SEQ ID NO：148)的氨基酸序列。

在一些实施方案中，融合蛋白还包括核定位序列(NLS)。核定位序列可以位于融合蛋白内的任何位置(例如，适体结合蛋白的C-端、适体结合蛋白质的N-端、微生物重组蛋白的C-端)。在选择的实施方案中，核定位序列与微生物重组蛋白的C-端连接。许多核定位序列是本领域已知的(参见例如，Lange，A.等人，J Biol Chem.2007；282(8)：5101-5105，通过引用并入本文)并且可以用于本公开。核定位序列可以是SV40 NLS，PKKKRKV(SEQ ID NO：16)；Ty1 NLS，NSKKRSLEDNETEIKVSRDTWNTKNMRSLEPPRSKKRIH(SEQ ID NO：17)；c-Myc NLS，PAAKRVKLD(SEQ ID NO：18)；biSV40 NLS、KRTADGSEFESPKKKRKV(SEQ ID NO：19)；和MutNLS，PEKKRRRPSGSVPVLARPSPPKAGKSSCI(SEQ ID NO：20)。在选定的实施方案中，核定位序列是SV40 NLS，PKKKRKV(SEQ ID NO：16)。

Cas蛋白和融合蛋白理想地单独包含在单个组合物中，或与彼此和/或包含指导RNA序列和适体序列的一个或多个多核苷酸(例如载体)组合。Cas蛋白和/或融合蛋白可以或可以不与多核苷酸物理或化学地结合。Cas蛋白和/或微生物重组蛋白可以使用本领域已知的用于蛋白-蛋白连接或蛋白-病毒连接的任何合适方法与多核苷酸结合。

本公开还提供了包含多核苷酸的组合物和载体，所述多核苷酸包含编码融合蛋白的核酸序列，所述融合蛋白包含与RNA适体结合蛋白功能性连接的微生物重组蛋白。

组合物或载体可进一步包括包含包含编码Cas蛋白的核酸序列的多核苷酸包含指导RNA序列的核酸分子中的至少一种或两种，所述指导RNA序列与靶DNA序列互补。在一些实施方案中，包含指导RNA序列的核酸分子进一步包含至少一个RNA适体序列。在一些实施方案中，包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。

上述与本发明系统相关的有关包含指导RNA序列的核酸分子、适体序列、Cas蛋白、微生物重组蛋白和适体结合蛋白的描述也适用于所提及的组合物和载体的多核苷酸。

编码Cas蛋白质的核酸序列和/或编码融合蛋白的核酸序列可以在与包含指导RNA序列和/或者RNA适体序列的核酸分子相同的载体上(例如，以顺式方式)提供给细胞，所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。在这样的实施方案中，可以使用单向启动子控制每个核酸序列的表达。在另一个实施方案中，可以使用双向和单向启动子的组合控制多个核酸序列的表达。

在其他实施方案中，编码Cas蛋白的核酸序列、编码融合蛋白的核酸序列以及包含指导RNA序列和/或RNA适体序列的核酸分子可以在单独的载体(例如，以反式方式)上提供给细胞，所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。每个单独载体中的每个核酸序列可以包含相同或不同的表达控制序列。单独载体可以同时或顺序地提供给细胞。

包含编码Cas蛋白的核酸序列和编码包含与适体结合蛋白功能性连接的微生物重组蛋白的融合蛋白的核酸序列的一个或多个载体可以被引入能够表达由此编码的多肽的宿主细胞，包括任何合适的原核或真核细胞中。因此，本公开提供了包含本文公开的载体或核酸序列的分离细胞。优选的宿主细胞是那些能够容易且可靠地生长、具有相当快的生长速率、具有良好表征的表达系统并且能够容易且有效地转化或转染的宿主细胞。合适的原核细胞的实例包括但不限于来自芽孢杆菌属(Bacillus)(如枯草芽孢杆菌(Bacillussubtilis)和短芽孢杆菌(Bacillus brevis))、埃希氏菌属(Escherichia)(例如大肠杆菌(E.coli))、假单胞菌属(Pseudomonas)、链霉菌属(Streptomyces)、沙门氏菌属(Salmonella)和欧文氏菌属(Envinia)的细胞。合适的真核细胞是本领域已知的，并且包括例如酵母细胞、昆虫细胞和哺乳动物细胞。合适的酵母细胞的实例包括来自克鲁维酵母菌属(Kluyveromyces)、毕赤酵母属(Pichia)、鼻孢子虫属(Rhino-sporidium)、酵母属(Saccharomyces)和裂殖酵母属(Schizosaccharomyces)的酵母细胞。示例性昆虫细胞包括Sf-9和HIS(Invitrogen，Carlsbad，Calif.)并且在例如，Kitts等人，Biotechniques，14：810-817(1993)；Lucklow，Curr.Opin.Biotechnol.，4：564-572(1993)；和Lucklow等人，J.Virol.，67：4566-4579(1993)中描述，通过引用并入本文。理想地，宿主细胞是哺乳动物细胞，并且在一些实施方案中，宿主细胞为人细胞。本领域已知许多合适的哺乳动物和人类宿主细胞，并且许多可从美国典型培养物保藏中心(ATCC，Manassas，Va.)获得。合适的哺乳动物细胞的实例包括但不限于中国仓鼠卵巢细胞(CHO)(ATCC No.CCL61)、CHO DHFR-细胞(Urlaub等人，Proc.Natl.Acad.Sci.USA 97：4216-4220(1980))、人胚胎肾(HEK)293或293T细胞(ATCC No.CRL1573)、和3T3细胞(ATCC No.CCL92)。其他合适的哺乳动物细胞系是猴COS-1(ATCC No.CRL1650)和COS-7细胞系(ATCC No.CRL165)以及CV-1细胞系(ATCCNo.CCL70)。其他示例性哺乳动物宿主细胞包括灵长类、啮齿动物和人类细胞系，包括转化细胞系。正常二倍体细胞、衍生自原代组织体外培养的细胞株以及原代外植体也是合适的。其他合适的哺乳动物细胞系包括但不限于小鼠神经母细胞瘤N2A细胞、HeLa、HEK、A549、HepG2、小鼠L-929细胞和BHK或HaK仓鼠细胞系。本领域已知用于选择合适的哺乳动物宿主细胞的方法以及用于细胞转化、培养、扩增、筛选和纯化的方法。

改变靶DNA的方法

本公开还提供了一种改变靶DNA的方法。在一些实施方案中，该方法改变细胞中的基因组DNA序列，尽管可以修饰任何期望的核酸。当应用于包含在细胞中的DNA时，该方法包括将本文所述的系统、组合物或载体引入包含靶基因组DNA序列的细胞中。上述与本发明系统有关的包含指导RNA序列的核酸分子、Cas蛋白、微生物重组蛋白、募集系统和编码它们的多核苷酸、细胞、靶基因组DNA序列及其组分的描述也适用于改变细胞中靶基因组DNA序列的方法。所述系统、组合物或载体可以本领域已知的任何方式引入，包括但不限于化学转染、电穿孔、显微注射、通过基因枪的生物弹道递送或磁辅助转染，取决于细胞类型。

在将本文所述的系统引入包含靶基因组DNA序列的细胞中时，指导RNA序列与细胞基因组中的靶基因组DNA序列结合，Cas蛋白与指导RNA结合并可诱导靶基因组DNA序列中的双链断裂或单链断口，且适体通过融合蛋白的适体结合蛋白将微生物重组蛋白募集到靶基因组DNA序列中，从而改变细胞中的靶基因组DNA序列。当将本文描述的组合物或载体引入细胞中时，首先在细胞中表达包含指导RNA序列、Cas9蛋白和融合蛋白的核酸分子。

在一些实施方案中，细胞在生物体或宿主中，从而使得将所公开的系统、组合物、载体引入细胞包括对受试者施用。该方法可包括在体内或通过移植本系统的体外处理的细胞、系统、组合物、载体向受试者提供或施用。

“受试者”可以是人类或非人，并且可以包括例如用作研究目的的“模型系统”的动物品系或物种，如本文所述的小鼠模型。同样，受试者可包括成人或青少年(如儿童)。此外，受试者可指可受益于本文所述组合物的施用的任何活生物体，优选哺乳动物(例如人类或非人类)。哺乳动物的实例包括但不限于哺乳动物类的任何成员：人类、非人类灵长类动物(如黑猩猩)以及其他猿类和猴类；农场动物，如牛、马、羊、山羊、猪；家畜，如兔子、狗和猫；实验动物，包括啮齿动物，如大鼠、小鼠和豚鼠等。非哺乳动物的实例包括但不限于鸟类、鱼类等。在本文提供的方法和组合物的一个实施方案中，哺乳动物是人。

如本文所用，术语“提供”、“施用”和“引入”在本文中可互换使用，并指通过导致系统至少部分定位到期望部位的方法或路线将本公开的系统放置到受试者中。该系统可以通过任何适当的途径施用，其导致递送到受试者的期望部位。

如本文所用，短语“改变DNA序列”是指修改感兴趣的DNA序列的至少一个物理特征。DNA改变包括例如，单链或双链DNA断裂、一个或更多个核苷酸的缺失或插入，以及影响DNA序列的结构完整性或核苷酸序列的其他修饰。基因组DNA中靶序列的修饰可导致例如，基因矫正、基因替换、基因标记、转基因插入、核苷酸缺失、基因破坏、基因突变、基因敲低等。

在一些实施方案中，本文描述的系统和方法可用于矫正基因中的一个或更多个缺陷或突变(称为“基因矫正”)。在这种情况下，靶基因组DNA序列编码基因的缺陷版本，并且该系统进一步包括编码基因的野生型或校正版本的供体核酸分子。因此，换句话说，靶基因组DNA序列是“疾病相关”基因。术语“疾病相关基因”是任何基因或多核苷酸，与从未受疾病影响的个体获得的组织或细胞相比，其基因产物在从受疾病影响个体获得的细胞中以异常水平或异常形式表达。疾病相关基因可以异常高水平或异常低水平表达，其中改变的表达与疾病的发生和/或进展相关。疾病相关基因还指其突变或遗传变异直接负责疾病病因或与负责疾病病因的一个或多个基因连锁不平衡的基因。负责这种“单基因”或“单基因的”疾病的基因的实例包括但不限于腺苷脱氨酶、α-1抗胰蛋白酶、囊性纤维化跨膜传导调节蛋白(CFTR)、β-血红蛋白(HBB)、眼皮肤白化病II(OCA2)、亨廷顿蛋白(HTT)、肌张力障碍蛋白激酶(DMPK)、低密度脂蛋白受体(LDLR)、载脂蛋白B(APOB)，神经纤维瘤蛋白1(NF1)、多囊性肾病1(PKD1)、多囊性肾病2(PKD2)、凝血因子VIII(F8)、肌营养不良蛋白(DMD)、磷酸调节内肽酶同系物、X-连锁(PHEX)、甲基CpG结合蛋白2(MECP2)和泛素特异性肽酶9Y、Y-连锁(USP9Y)。本领域已知其他单基因或单基因疾病，并在例如Chial，H.Rare GeneticDisorders：Learning About Genetic Disease Through Gene Mapping，SNPs，和Microarray Data，Nature Education 1(1)：192(2008)，通过引用并入本文；OnlineMendelian Inheritance in Man(OMIM)；以及人类基因突变数据库(HGMD)中描述。

在另一个实施方案中，靶基因组DNA序列可以包括基因，该基因的突变与其他基因的突变一起促成了特定疾病。由多个基因的贡献引起的、缺乏简单(例如，Mendelian)遗传模式的疾病在本领域中被称为“多因素”或“多基因”疾病。多因素或多基因疾病的实例包括但不限于哮喘、糖尿病、癫痫、高血压、双相情感障碍和精神分裂症。某些发育异常也可能以多因素或多基因模式遗传，包括例如唇裂/腭裂、先天性心脏缺陷和神经管缺陷。

在另一个实施方案中，改变靶基因组DNA序列的方法可用于通过切割靶序列并允许细胞在不存在外源提供的供体核酸分子的情况下修复被切割的序列来从细胞中的靶序列中删除核酸。以这种方式删除核酸序列可用于多种应用，例如，去除神经元中引起疾病的三核苷酸重复序列，产生基因敲除或敲低，以及在研究中为疾病模型产生突变。

术语“供体核酸分子”是指插入靶DNA(例如基因组DNA)中的核苷酸序列。如上所述，供体DNA可包括，例如，基因或基因的一部分、编码标签的序列或定位序列或调节元件。供体核酸分子可以具有任何长度。在一些实施方案中，供体核酸分子的长度在10至10000个核苷酸之间。例如，长度在约100至5000个核苷酸之间、长度在约200至2000个核苷酸之间，长度在约500至1000个核苷酸之间，长度在约500至5000个核苷酸之间，长度在约1000至5000个核酸之间，或长度在约1000至10000个核苷酸之间。

公开的系统和方法克服了常规基因编辑期间遇到的挑战，包括低效率和脱靶事件，特别是使用千碱基规模的核酸时。在一些实施方案中，公开的系统和方法提高了基因编辑的效率。例如，如实施例2、3和5所示，公开的系统和方法与常规CRISPR-Cas9系统和方法相比效率可提高2至10倍。在一些实施方案中，效率的提高伴随着脱靶事件的减少。与常规CRISPR-Cas9系统和方法相比，脱靶事件可减少50％以上，例如，实施例3中显示脱靶事件减少约90％。提高基因编辑系统整体准确性的另一方面是减少中靶插入缺失(indels)，这是HDR编辑的副产品。在一些实施方案中，与常规CRISPR-Cas9系统和方法相比，公开的系统和方法减少了90％以上的中靶indels，如实施例3所示。

本公开还提供了包含一种或更多种试剂或其他组分的试剂盒，这些试剂或组分对于实施本文所述的任何方法是有用的、必要的或足够的。例如，试剂盒可包括CRISPR试剂(Cas蛋白、指导RNA、载体、组合物等)、重组工程试剂(重组蛋白-适体结合蛋白融合蛋白、适体序列、载体、组合物等)转染或施用试剂、阴性和阳性对照样品(例如细胞、模板DNA)、细胞、容纳一个或更多个组分的容器(例如，微量离心管、盒子)、可检测标签、检测和分析仪器、软件、说明书等。

本领域已知的任何合适的CRISPR/Cas基因编辑系统的任何元件都可以适当地用于本文所述的系统和方法中。CRISPR/Cas基因编辑技术在例如美国专利号8,546,553、8,697,359；8,771,945；8,795,965；8,865,406；8,871,445；8,889,356；8,889,418；8,895,308；8,9066,616；8,932,814；8,945,839；8,993,233；8,999,641；9,115,348；9,149,049；9,493,844；9,567,603；9,637,739；9,663,782；9,404,098；9,885,026；9,951,342；10,087,431；10,227,610；10,266,850；10,601,748；10,604,771；和10,760,064；和美国专利申请公开号US2010/0076057；US2014/0113376；US2015/0050699；US2015/0031134；US2014/0357530；US2014/0349400；US2014/0315985；US2014/0310830；US2014/0310828；US2014/0309487；US2014/0294773；US2014/0287938；US2014/0273230；US2014/0242699；US2014/0242664；US2014/0212869；US2014/0201857；US2014/0199767；US2014/0189896；US2014/0186919；US2014/0186843；和US2014/0179770中详细描述，它们的每一个都通过引用并入本文。

以下实施例进一步说明了本发明，但是不应以任何方式限制本发明的范围。

实施例

材料和方法

RecE/T同源物筛选RefSeq非冗余蛋白数据库于2019年10月29日从NCBI下载。用大肠杆菌(E.coli)Rac原噬菌体RecT(NP_415865.1)和RecE(NP_415866.1)查询检索数据库，使用位置特异性迭代(PSI)-BLAST¹检索蛋白质同源物。用CD-HIT2对命中进行聚类，并从每个聚类中选择代表性序列与MUSCLE³进行多重比对。然后，使用FastTree4进行具有默认参数的最大似然树重建。选择一组不同的RecET同源物，通过GenScript合成，并克隆到pMPH_MCP载体中进行测试。

质粒构碧pX330、pMPH和pU6-(BbsI)_CBh-Cas9-T2A-BFP质粒从Addgene获得。测试的效应物DNA片段从IDT、Genewiz和GenScript订购。使用NEBuilder HiFi DNA组装母液(New England BioLabs)将这些片段Gibson组装到骨架中。使用金门克隆法将所有sgRNAs(表1)插入骨架中。所有构建体均通过预制备质粒的Sanger测序进行序列验证。

表1.sgRNAs的序列

细胞培养人胚胎肾(HEK)293T、HeLa和HepG2维持在在37℃和5％CO₂下，在含有10％胎牛血清(FBS，HyClone)、100U/mL青霉素和100μg/mL链霉素(Life Technologies)的杜尔贝科改良的Eagle培养基(DMEM，Life Technologies)中。

hES-H9细胞在mTeSR1培养基(StemCell Technologies)中保持在37℃和5％CO₂下。培养板在使用前12小时用Matrigel(Coming)预涂，传代后的前24小时给细胞补充10μMY27632(Sigma)。培养基每24小时更换一次。

转染在转染前12-24小时，将HEK293T细胞以30000细胞/孔的密度接种到96孔板(Corning)中，每孔转染250ng的总DNA。HeLa和HepG2细胞在转染前一天分别以50000和30000细胞/孔的密度接种到48孔板(Corning)中，每孔转染400ng的总DNA。按照制造商的说明，使用Lipofectamine 3000(Life Technologies)进行转染。

电穿孔对于hES-H9相关转染实验，按照制造商的方案使用P3原代细胞4D-NucleofectorTM X试剂盒S(Lonza)。对于每个反应，使用DC100 Nucleofector程序，用4μg总DNA对300000个细胞进行核转染。

荧光激活细胞分选(FACS)在CytoFLEX流式细胞仪(Beckman Coulter；StanfordStem Cell FACS Core)上分析mKate敲入效率。转染72小时后，用PBS洗涤细胞一次，并用TrypLE Express酶(Thermo Fisher Scientific)进行解离。然后将细胞悬浮液转移至96孔U形底板(Thermo Fisher Scientific)，并在300xG下离心5分钟。去除上清液后，用50μl4％FBS将颗粒细胞重新悬浮在PBS中，并在制备后的30分钟内对细胞进行分选。

RFLP用质粒DNA和PCR模板转染HEK293T细胞，并在72小时后使用QuickExtractDNA提取溶液(Biosearch Technologies)按照制造商的方案收获基因组DNA。使用PCR模板同源臂外的特异引物扩增靶基因组区域。PCR产物用Monarch PCR&DNA净化试剂盒(NewEngland BioLabs)纯化。用BsrGI(EMX1，New England BioLabs)或XbaI(VEGFA，NEB)消化300ng的纯化产物，消化产物在5％Mini-PROTEAN TBE凝胶(Bio-Rad)上分析。

下一代测序文库制备转染后72小时，使用QuickExtract DNA提取液提取基因组DNA(Biosearch Technologies)。200ng总DNA用于NGS文库制备。在第一轮PCR反应中使用特异引物(表2)扩增感兴趣的基因。使用表2中列出的引物，通过第二轮PCR将Illumina衔接子和索引条形码添加到片段中。使用Monarch DNA凝胶提取试剂盒(NEB)在2％琼脂糖凝胶上通过凝胶电泳纯化第2轮PCR产物。纯化产物用Qubit dsDNA HS测定试剂盒(ThermoFisher)定量，并根据制造商的说明在Illumina MiSeq上测序。

表2.用于PCR模板、RFLP和NGS的引物序列

高通量测序数据分析分析处理过的(多路解编、修剪和融合)的测序读段以确定编辑结果，使用CRISPPResso2⁵，将测序扩增子与参考的和预期的HDR扩增子比对。量化窗口被增加到预期切割位点周围的10bp，以更好地捕捉不同的编辑结果，但替换被忽略，以避免包含测序错误。只有包含与预期扩增子无错配的读段才被考虑用于HDR量化；包含部分与预期扩增子匹配的indel的读段包含在总体报告的indel频率中。

统计分析除非另有说明，否则所有统计分析和比较均使用t检验进行，使用Benjamini、Krieger和Yekutieli的两阶段递增法，假发现率(FDR)为1％(Benjamini，Y.等人，Biometrika 93，491-507(2006)，通过引用并入本文)。除非另有说明，否则所有实验均一式三份地进行，以确保分析中具有足够的统计能力。

预测的Cas9脱靶位点处编辑的确定为了评估已知Cas9脱靶位点的RecT/RecE脱靶编辑活性，将用于敲入分析的相同基因组DNA提取物作为模板，对EMX1、VEGFA指导的最有可能的预测脱靶位点(高评分作为预测的CRISPOR，基于网络的分析工具)进行PCR扩增，引物序列列于表2。

iGUIDE脱靶分析按照iGUIDE管线(Nobles，C.L.等人Genome Biol 20，14(2019)，通过引用并入本文)，基于先前发明的Guide-seq(Tsai，S.等人Nat Biotechnol 33，187-197(2015)，通过引用并入本文)进行全基因组无偏脱靶分析。按照制造商的说明，在20uLLonza Sf细胞系核转染剂溶液中，在Lonza Nucleofector 4-D上用程序DS-150的转染HEK293T细胞。转染300ng的gRNA-Cas9质粒(或每个gRNA-cas9n质粒150ng用于双切口酶)、150ng的效应质粒和5pmol的双链寡核苷酸(dsODN)。72小时后，使用Agencourt DNAdvance试剂盒收获细胞进行基因组DNA。使用NEBNext Ultra II FS DNA文库制备试剂盒，按照制造商的说明，将400ng的纯化gDNA片段化为平均500bp，并按与接头连接。从寡核苷酸标签到连接的接头序列进行两轮嵌套锚定PCR以扩增靶向DNA，扩增的文库被纯化、选择大小并用Illumina Miseq V2 PE300测序。使用已发布的iGUIDE管线分析测序数据，并增加下游采样步骤，以确保样本之间的无偏比较。

实施例1

与哺乳动物相比，细菌可使用方便的重组编辑工具，例如噬菌体λRed和RecE/T。微生物重组工程有两个主要步骤：模板DNA被外切核酸酶(Exo)咬回，然后单链退火蛋白(SSAP)支持模板的同源性定向修复，任选由核酸酶抑制剂促进。开发了一种RNA指导的靶向RecE/T重组工程活性的系统，并在不切割DNA的情况下实现了千碱基(kb)人类基因编辑。

对具有重组工程活性的候选微生物系统进行了调查。有两条推理路线指导搜索工作：1)正交性：优先考虑与哺乳动物修复酶相似性最小的蛋白质；2)简约法：关注具有最少相互依赖组分的系统。鉴定了三个蛋白质家族：λRed、RecE/T和噬菌体T7 gp6(Exo)和gp2.5(SSAP)重组机制。基于系统发育重建，RecE/T蛋白被确定为距离真核重组蛋白最远，并且是最紧凑的蛋白之一(图1)。因此，RecE/T系统用于下游分析。

NCBI蛋白质数据库被系统地搜索RecE/T同源物。为了开发便携式工具，研究了进化关系和长度(图2A)。共现分析显示，大多数RecE/T系统只有两种蛋白质中的一种(图2B)。由于原噬菌体整合可能不精确，11％的含有两种同源物的物种被优先作为完整功能的证据。

对前12个候选者进行密码子优化，构建了MS2外壳蛋白(MCP)融合物，以通过MS2RNA适体将这些RecE/T同源物(下文称为“重组子”)募集到野生型化脓性链球菌(Streptococcus pyogenes)Cas9(wtCas9)。为了理解它们各自作为Exo和SSAP的分子效应，分别进行了独立测试(图2C)。初步结果显示，大肠杆菌(Escherichia coli)RecE/T蛋白(简化为RecE和RecT)是有希望的候选者，这是通过基因组敲入分析确定的(图2D)。虽然RecT只有269个氨基酸(AA)长，但基于功能研究，RecE从AA587(RecE_587)和羧基末端结构域(RecE_CTD)被截断(Muyrers，J.P.，Genes Dev.(2000)；14，1971-1982，通过引用并入本文)。

为了验证人类细胞中的RecE/T重组工程，在五个基因组基因座用两个模板测量同源性定向修复(HDR)。尽管RecE变体(RecE_587、RecE_CTD)在敲入效率方面表现出不同程度的增加，但在所有情况下，RecT都明显增强了HDR，替换了EMX1和VEGFA处的～16bp序列，并在HSP90AA1、DYNLT1、AAVS1处敲入了～1 kb盒(图3A-E、图4)。这些结果通过成像进行验证(图3F)且使用Sanger测序对连接位点进行测序以确认精确插入(图3G)。为了测试这些活性是否真的具有序列特异性，使用了识别PP7适体而非MS2适体的PP7外壳蛋白(PCP)的无募集对照。RecE的活性不需要募集，而RecT以依赖于募集的方式显示效率的提高(图3H)。不受理论的约束，这可以通过RecE外切核酸酶活性不加区分地发挥作用来解释(图2C)。RecE/T重组工程编辑(REDIT)工具被称为REDITv1，其中REDITv1_RecT是首选变体。

实施例2

对REDITv1进行三次测试，以探索：1)跨细胞类型的活性，2)HDR模板的优化设计，以及3)特异性。REDITv1活性在HEK、A549、HepG2和HeLa细胞中的多个基因组基因座上都是稳健的(图5A-C，图6A-C)。值得注意的是，在人类胚胎干细胞(hESCs)中，REDITv1在HSP90AA1和OCT4表现一致的出千碱基敲入效率的增加，相对于Cas9 HDR有高达3.5倍的提高(图5D-E，图6D-E)。还测试了不同的模板设计。REDITv1使用短至200bp的总HA长度进行有效的千碱基编辑，更长的HA支持更高的效率。它对kb级的基因敲入实现了高达10％的效率(无选择)，比Cas9 HDR增加了5倍，显著高于1-2％的典型效率(图7)。最后，REDITv1的准确性是用预测的脱靶位点(OTS)的深度测序和GUIDE-seq来确定的。尽管REDITv1没有增加脱靶效应，但在先前报道的EMX1和VEGFA位点上仍有可检测的OTS(图5F-G、图8)。简言之，REDITv1展示了千碱基规模的基因组重组，但保留了脱靶问题，其中REDITv1_RecT的效率最高。

实施例3

为了减少不必要的编辑，评估了使用非切割Cas9切口酶(Cas9n)的REDIT版本。之前采用了类似的策略(Ran，F.A.等人，Cell(2013)，154：1380-1389，通过引用并入本文)以解决脱靶问题，但HDR效率低。对REDIT进行了测试，以确定该系统是否能够克服内源性修复的限制并促进切口介导的重组。事实上，切口酶版本显示了更高的效率，具有单切口和双切口的Cas9n(D10A)的结果最好。这种Cas9n(D10A)变体被命名为REDITv2N(图9A)。使用REDITv2N双切口观察到5％-10％的无选择敲入，与使用wtCas9的REDITv1相当(图9A、图10A)。连接测序证实了所有靶标的精确敲入(图11)。该结果比Cas9n-HDR提高了6至10倍。即使使用单切口REDITv2N，也观察到1kb基因敲入的效率约为2％，这一水平显著高于先前报告(Cong，L.等人，Science339，819-823，通过引用并入本文)中使用常规单切口Cas9n和挑战性较小的12-bp敲入模板的0.46％HDR效率(图9A)。

使用GUIDE-seq研究了REDITv2N的脱靶活性。结果表明，与REDITv1相比，脱靶切割最小，且OTS减少约90％(图9B)。具体地，对于DYNLT1靶向指导，最丰富的KIF6 OTS在REDITv1组中显著富集，但在使用REDITv2N时消失(图9C)。REDITv2N是高度准确的(图9B-C、图12)。

HDR编辑的另一个副产品是中靶插入删除(indels)。它们可能会大大降低基因编辑的产率，尤其是对于长序列。使用深度测序在EMX1敲入实验中测量Indel形成。REDITv2N将HDR提高到与使用wtCas9的对应物相同的效率(图12C，顶部)，不需要的中靶indel降低了92％(图12C，底部)。

来自GUIDE-seq、LAM-PCR和TLA的概念用于开发基于NGS的分析，以识别全基因组插入位点(GIS)、或GIS-seq(图30A)。使用GIS seq，获得了代表敲入插入位点的NGS读段簇/峰值(图30B)、显示来自中靶位点的代表性读段)。将GIS-seq应用于DYNLT1和ACTB基因座以测量敲入准确性。测序结果表明，当考虑基于最大似然估计的高置信度位点时，与Cas9相比，REDIT确定的脱靶插入位点较少(图30C)。敲入连接的克隆Sanger测序(图9C和12)、GUIDE-seq分析(图9B)、和GISseq结果(图30A-30C)共同表明，REDIT可以是一种有效的方法，具有插入千碱基长度序列的能力，具有不需要的编辑事件较少。

实施例4

在不存在靶DNA的任何切口/切割的情况下，检查了REDIT的长序列编辑能力。值得注意的是，当使用催化失活的Cas9(dCas9)构建REDITv2D时，在人类细胞中观察到了精确的千碱基盒基因组敲入(图9D，顶部，图13)。虽然REDITv2D的效率低于REDITv2N，但它在千碱基规模上实现了可编程的无DNA损伤编辑，效率为1-2％，而且无选择(图9D、图10B)。据推测，两个过程可能有助于REDITv2D重组。一种可能性是通过dCas9解旋。如果dCas9能够在诱导序列特异性形成环时解旋DNA，则与两个dCas9的双重结合有望促进RecE/T的基因组可及性。然而，在递送两种指导RNA后，未观察到明显增加(图9D，底部)。另一种可能性是，细胞周期中DNA的解旋允许RecE/T通过dCas9结合而进入靶标区。在不同的血清水平(10％正常，2％减血清，无血清)下使用不同的REDIT工具进行1kb敲入。由于血清饥饿会阻止细胞增殖，结果表明细胞周期与REDITv2D重组工程正相关(图9E)。在无血清处理时，只有REDITv2D(dCas9)组的HDR效率下降，而REDITv1(wtCA9)和REDITv2N(D10A)不受影响(图9E、图14)，支持DNA解旋允许RecE/T进入靶标区。

实施例5

显微镜分析显示REDITv1的核靶向不完全，特别是REDITv1_RecT(图15)。因此，测试了不同设计的蛋白质接头和核定位信号(NLS)(图15A)。具有C端SV40-NLS的扩展XTEN接头被确定为优选配置，称为REDITv3(图16)。在基因组靶标和Cas9变体(wtCas9、Cas9n、dCas9)上，REDITv3进一步实现了HDR效率比REDITv2提高2至3倍(图17)。

最后，在hESC中利用REDITv3来设计人干细胞中的千碱基敲入等位基因。REDITv3N单切口和双切口设计分别使HDR效率比无重组子对照提高了5倍和20倍(图9F)。通过先前的REDIT版本(图9F-G和图18)中所述的测定的组合来确认疗效和保真度。此外，REDITv3与金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)有效合作，这是一种适用于体内递送的紧凑CRISPR系统(图19)。

实施例6

为了进一步研究RecT和RecE_587变体，分别如图20A和图21A所示，将RecT和RecE_587两者在不同长度处截断。使用mKate敲入测定法测量所产生的效率，其中野生型SpCas9和Cas9n(D10A)在DYNLTI基因座具有单和双切口(分别为图20B-C和图21B-C)。无重组组的效率显示为对照。

当与不同Cas9s一起使用时，RecT和RecE_587两者的截短版本保留了显著的重组活性。特别地，与全长RecT(1-269aa)相比，新的截短版本如RecT(93-264aa)小30％以上，但它们基本上保留了RecT在刺激真核细胞重组中的全部活性。类似地，与全长RecE(1-280aa)相比，截短的版本如RecE_587(120-221aa)和RecE_587(12-209aa)小60％以上，但在人类细胞中仍保持高重组活性。这些截短版本证明了使用RecE和RecT蛋白变体进一步设计最小功能重组工程酶的潜力，但也为人类基因组编辑提供了有价值的紧凑型重组工程工具，由于其尺寸较小，非常适合体外、离体和体内递送。

总的来说，REDIT利用CRISPR基因组靶向的特异性和RecE/RecT重组工程的效率。所公开的高效、低误差系统是对现有CRISPR工具包的有力补充。REDITv3N的平衡的效率和准确性使其成为免疫和干细胞大盒敲入的一个有吸引力的治疗选择。

实施例7

用来自酵母和人的真核重组酶重建的RecE和RecT系统发育树(图1A和1B)显示了基于序列同源性的蛋白质的进化距离。虚线框表示全长大肠杆菌(E.coli)RecB和大肠杆菌(E.coli)RecE蛋白。使用大肠杆菌(E.coli)RecB和大肠杆菌(E.coli)RecE蛋白的催化核结构域(实心框)进行比较。使用MS2-MCP募集系统测量这些重组工程蛋白家族的基因编辑活性，其中携带MS2茎环的sgRNA与通过肽接头与MCP蛋白融合的重组工程蛋白和核定位信号一起使用。

使用了三种外切核酸酶蛋白：来自噬菌体λ的外切核酸酶、大肠杆菌(E.coli)RecE蛋白的RecE587核结构域和来自噬菌体T7的外切核酸酶(基因名gp6)(图22A)。在基因组基因座(DYNLT1和HSP90AA1)处使用mKate敲入测定法测量基因编辑活性。

进行类似的测量，以测试来自与外切核酸酶相同的三种微生物物种的三种单链DNA退火蛋白(SSAP)的基因组编辑效率，即来自噬菌体λ的Bet蛋白、来自大肠杆菌(E.coli)的RecT蛋白和来自噬菌体T7的SSAP(基因名gp2.5)(图22B)。

根据这些结果，在真核细胞中系统地测量和验证了所有三个主要的噬菌体/微生物重组系统家族的基因组重组活性(λ噬菌体外切核酸酶和β蛋白；大肠杆菌(E.coli)原生期RecE和RecT蛋白，T7噬菌体外切核酸酶gp6和单链结合gp2.5蛋白)。来自三个系统的所有六种蛋白质都实现了有效的基因编辑，在两个基因组基因座将千碱基长的序列敲入哺乳动物基因组。总体而言，与无重组子对照相比，外切核酸酶显示出～3倍更高的重组效率(高达4％的mKate基因组敲入)。单链退火蛋白(SSAP)显示出较高的活性，基因编辑活性比对照组高4倍至8倍。这证明了外切核酸酶和SSAP家族中的微生物重组蛋白可通过基于Cas9的融合蛋白系统进行工程化以在哺乳动物细胞中实现高效基因组重组的普遍适用性和有效性。

实施例8

为了证明REDIT蛋白设计的普适性，开发并测试了替代性募集系统。对于更紧凑的REDIT系统，将REDIT重组蛋白与N22肽融合，同时sgRNA包括N22肽的短识别序列boxB，替换sgRNA中的MCP(图23A)。该boxB-N22系统在两个测试的基因组基因座在与MS2-MCP募集系统的并列比较中显示了相当的编辑效率，如图23B-23E所示。

开发了使用SunTag募集(基于蛋白质的募集系统)的REDIT系统(图24A和27A)。由于SunTag是基于融合蛋白的设计，sgRNA或指导RNA与野生型CRISPR系统相同。具体地，将REDIT重组蛋白融合到scFV抗体肽(替换MCP)，并将GCN4肽以串联方式(通过接头分离的10个GCN4肽拷贝)融合到Cas9蛋白。因此，可以通过GCN4对scFV的亲和力将scFV-REDIT募集到Cas9复合物中。

mKate敲入实验(图24B和27B)分别用于测量DYNLT1基因座和HSP90AA1基因座的编辑效率。该基于SunTag的REDIT系统证实了在所测试的DYNLT1基因组位点处的基因编辑敲入效率的明显提高。此外，SunTag设计显著提高了HRD效率，比Cas9提高了约2倍，但没有达到MS2适体的水平。

实施例9

为了证明REDIT蛋白设计的通用性，并开发适用于一系列CRISPR酶的多功能REDIT系统，使用SunTag募集设计开发了基于Cpf1/Cas12a的REDIT系统(图25A)。如前所述，使用mKate敲入测定法测试两种不同的Cpf1/Cas12a蛋白(毛螺旋菌科细菌(Lachnospiraceaebacterium)ND2006、LbCpf1和氨基酸球菌属(Acidaminococcussp)BV3L6)(图25B)。

这些结果表明，微生物重组蛋白(外切核酸酶和单链退火蛋白)可以使用替代设计(如SunTag募集系统)进行工程化，以在真核细胞中进行基因组编辑。这些基于蛋白质的募集系统不需要使用RNA适体或RNA结合蛋白，相反，它们利用与CRISPR酶直接连接的融合蛋白结构域来募集REDIT蛋白。

除了募集系统设计的灵活性之外，这些使用Cpf1/Cas12a型CRISPR酶的结果还证明了REDIT蛋白对各种CRISPR系统的基因组重组的普适性。Cpf1/Cas12a酶具有与Cas9酶不同的催化残基和DNA识别机制。因此，REDIT重组蛋白(外切核酸酶和单链退火蛋白)可以独立于CRISPR酶组分(Cas9、Cpf1/Cas12a等)的特定选择发挥功能。这证明了REDIT系统的通用性，并为使用额外的CRISPR酶(已知和未知)作为REDIT系统的组分以实现真核细胞中的精确基因组编辑提供了可能性。

实施例10

选择具有RecE/RecT蛋白的15种不同种类的微生物，以筛选微生物界的各种RecE和RecT蛋白(表3)。对每个蛋白质进行密码子优化和合成。如先前针对基于大肠杆菌(E.coli)RecE/RecT的REDIT系统所述，每种蛋白通过E-XTEN接头与MCP蛋白融合，并具有额外的核定位信号。mKate敲入基因编辑测定用于测量DYNLTI基因座(图26A，表4)和HSP90AAl基因座(图26B，表4)的效率。这些同源物证明了实现和增强精确基因编辑的能力。

表3：RecE和RecT蛋白质同源物

表4：mKate敲入基因编辑效率

实施例11

接下来，为了评估基于RecT的REDIT设计，将其与三类现有的HDR增强工具进行比较(图28A和28B)：DNA修复酶CtIP与Cas9的融合(Cas9-HE)、人类联会蛋白(Geminin)功能结构域(氨基酸1至110)与Cas9的融合(Cas9-Gem)、以及通过细胞周期控制HDR小分子增强剂诺考达唑(Nocodazole)。在测试的内源性靶标中，与三种替代策略相比，基于RecT的DREDIT设计具有良好的性能(图28C)。此外，基于RecT的REDIT设计，如果是通过独立于其他方法的方式发挥作用，可能与现有方法产生协同作用。为了验证这一假设，基于RecT的REDIT设计与三种不同的方法相结合(方便地通过MS2适体)(图28A，右)。基于RecT的REDIT设计确实可以进一步提高测试工具的HDR促进活动(图28C)。

实施例12

模板HA长度对REDIT编辑效率的影响在使用每侧至少100bp的带有HA的规范HDR供体时被量化(图29A，左)。随着HA长度增加，观察到Cas9和RecT组的HDR率更高，并且REDIT使用短至每侧～100bp的HA长度对于Cas9上有效地刺激了HDR。当提供的较长的模板带有600-800bp的总HA时，RecT在没有选择的情况下实现了超过10％的kb规模敲入的HDR效率，显著高于仅使用Cas9时的2-3％的效率。最近的报道确认，由于微介导的末端连接(MMEJ)途径的高修复活性，使用具有较短HA(通常在10-50bp之间)的供体DNA可以显著刺激敲入效率。使用具有0bp(基于NHEJ)、10bp或50bp(基于MMEJ)HA的供体DNA，将基于REDIT的方法的敲入效率与Cas9进行比较。结果证明，与HDR供体相比，利用MMEJ机制的短HA供体产生了更高的编辑效率(图29A，右)。同时，只要存在HA，REDIT就能够提高敲入效率(对0bp NHEJ供体无影响)。该影响在有明显效果的10bp供体中特别显著，被选择用于进一步的表征和与HDR供体进行比较。

敲入细胞被克隆分离，并使用完全结合供体DNA之外的引物扩增靶基因组区域，用于菌落Sanger测序(图29B。连接测序分析(每种条件每个基因约48个克隆)在5’-和3’-敲入连接处显示不同程度的indels，包括单个或两个连接(图29C)。总的来说，HDR供体比MMEJ供体具有更好的精确度，与Cas9相比，REDIT适度提高了敲入产率，尽管仍观察到连接indels。

此外，在进行不同长度的编辑时，比较了REDIT和Cas9的效率。对于较长编辑，使用2-kb敲入盒(图29D)，对于短编辑，使用单链寡核苷酸供体(ssODN)。当使用双mKate/GFP模板将敲入序列长度增加到～2-kb时，在测试的内源性靶标中，与Cas9相比，REDIT保持其HDR促进活性(图29D)。对于ssODN测试，在两个已建立的基因座EMX1和VEGFA上，使用REDIT和Cas9引入12-16-bp的外源序列。由于ssODN模板较短(在每一侧＜100bp HAs)，因此使用下一代测序(NGS)来量化编辑事件。在Cas9和REDIT之间观察到相当水平的indels，使用REDIT提高了HDR效率。

实施例13

在存在或不存在RAD51的两种不同药理学抑制剂，B02和RI-1的情况下，REDIT促进HDR能力的敏感性(图31A)。如预期的，对于基于Cas9的编辑，RAD51的抑制显著降低了HDR效率(图31B、31C、和32A)。有趣的是，RAD51的抑制仅适度降低了REDIT和REDITdn的效率，因为在RAD51抑制下，两种REDIT/REDITdn方法与Cas9/Cas9dn相比保持了显著更高的敲入效率。

还使用了Mirin，一种有效的DSB修复化学抑制剂，其也已被证明可防止MRN复合物形成、MRN依赖性ATM激活，并抑制Mre11外切核酸酶活性。当用Mrining处理细胞时，只有Cas9参考实验的编辑效率受到Miring处理的影响，而在所有基因组靶标中，REDIT版本与溶媒处理组基本相同(图32A)。

为了测试细胞周期抑制是否影响重组，使用双胸苷阻断(DTB)在G1/S边界对细胞进行化学同步。当Miring RI-1或B02与DTB处理结合时，REDIT版本在DTB处理下的编辑效率降低，尽管与Cas9参考实验相比，它在DNA修复途径抑制下保持更高的编辑效率(图32B)。

为了在不同的环境下验证REDIT，REDIT被应用于人类胚胎干细胞(HESC)，以测试其在非转化人类细胞中工程化长序列的能力。使用REDIT和REDITdn在所有三个基因组基因座(HSP90AA1、ACTB、OCT4/POU5F1)上观察到HDR的稳健刺激(图31D和31E)。值得注意的是，REDIT和REDITdn使用每侧具有有200-bp HA的供体DNA，与使用非REDIT方法约1％效率相比，在不选择的情况下，kb-规模基因编辑效率达到超过5％。此外，REDIT提高了A549(肺源性)、HepG2(肝源性)、和HeLa(宫颈源性)细胞的敲入效率，证明无需选择的kb级基因组敲入效率高达～15％kb。这一改进比Cas9组高出高达4倍，支持在不同细胞类型中使用REDIT方法的潜力。

实施例14

通过水动力学尾静脉注射，使用无切割dCas9编辑器测试dCas9-EcRecT(SAFE-dCas9)的体内使用。使用的基因编辑载体和模板DNA如图33A中所示。通过水动力学尾静脉注射，注射基因编辑载体(60μg)和模板DNA(60μg)，以将组分递送至小鼠。通过白蛋白基因座的转基因编码蛋白表达监测肝细胞的成功基因编辑。实验程序的示意图如33B所示。

注射后约7天，对灌注的小鼠肝脏进行解剖。将肝叶均质化并处理以从原代肝细胞提取肝基因组DNA。提取的基因组DNA用于三种不同的下游分析：1)使用敲入特异性引物和琼脂糖凝胶电泳进行PCR(图34A)；2)对基因敲入PCR产物进行Sanger测序(图34B)；3)对敲入连接进行高通量深度测序，以确认和量化体内使用SAFE-dCas9进行基因编辑的准确性(图34C)。每个下游分析都证实了敲入成功。

此外，使用腺相关病毒(AAV)递送到LTC小鼠肺中来测试体内用途。LTC小鼠包括三个基因组等位基因：1)Lkb1(flox/flox)等位基因在允许表达Cre时Lkb1-KO；2)R26(LSL-TdTom)等位基因允许通过TdTom红色荧光蛋白检测AAV转导细胞；3)H11(LSL-Cas9)等位基因允许在AAV转导细胞中表达Cas9。REDI基因编辑载体和Cas9对照载体的示意图如图35A中所示。如图35B所示，使用基因编辑载体的成功基因编辑导致在受处理小鼠肺中驱动肿瘤生长的Kras等位基因。

AAV注射后约14周，对灌注的小鼠肺进行解剖。固定肺组织用于成像分析，以确定成功的基因编辑的肿瘤形成(图35C)。通过成像分析对表面肿瘤数量进行量化显示，在REDIT处理的小鼠中，基因编辑效率和肿瘤总数增加(图35C)。

大肠杆菌(Escherichia coli)RecE氨基酸序列(SEQ ID NO：I)：

大肠杆菌(Escherichia coli)RecE_587氨基酸序列(SEQ ID NO：2)：

大肠杆菌(Escherichia coli)CTD_RecE氨基酸序列(SEQ ID NO：3)：

布氏泛菌种属(Pantoea brenneri)RecE氨基酸序列(SEQ ID NO：4)：

Plautia stali的F型共生体RecE氨基酸序列(SEQ ID NO：5)：

普罗威登斯菌属(Providencia sp.)MGF014 RecE氨基酸序列(SEQ ID NO：6)：

索氏志贺菌(Shigella sonnei)RecE氨基酸序列(SEQ ID NO：7)：

Pseudobacteriovorax antillogorgiicola RecE氨基酸序列(SEQ ID NO：8)：

大肠杆菌(Escherichia coli)RecT氨基酸序列(SEQ ID NO：9)：

布氏泛菌种属(Pantoea brenneri)RecT氨基酸序列(SEQ ID NO：10)：

Plautia stali的F型共生体RecT氨基酸序列(SEQ ID NO：11)：

普罗威登斯菌属(Providencia sp.)MGF014 RecT氨基酸序列(SEQ ID NO：12)：

索氏志贺菌(Shigella sonnei)RecT氨基酸序列(SEQ ID NO：13)：

Pseudobacteriovorax antillogorgiicola RecT氨基酸序列(SEQ ID NO：14)：

SV40 NLS氨基酸序列(SEQ ID NO：16)：

Ty1 NLS氨基酸序列(SEQ ID NO：17)：

c-Myc NLS氨基酸序列(SEQ ID NO：18)：

biSV40 NLS氨基酸序列(SEQ ID NO：19)：

Mut NLS氨基酸序列(SEQ ID NO：20)：

模板DNA序列(下划线标记替换的或插入器编辑序列)

EMX1 HDR模板序列(SEQ ID NO：79)：

VEGFA HDR模板序列(SEQ ID NO：80)：

DYNLT1 HDR模板序列(SEQ ID NO：81)：

HSP90AA1 HDR模板序列(SEQ ID NO：82)：

AAVS1 HDR模板序列(SEQ ID NO：83)：

OCT4 HDR模板序列(SEQ ID NO：84)：

斯氏泛菌种属(Pantoea stewartii)RecT DNA(SEQ ID NO：85)：

斯氏泛菌种属(Pantoea stewartii)RecE DNA(SEQ ID NO：86)：

布氏泛菌种属(Pantoea brenneri)RecT DNA(SEQ ID NO：87)：

布氏泛菌种属(Pantoea brenneri)RecE DNA(SEQ ID NO：88)：

分散泛菌种属(Pantoea dispersa)RecT DNA(SEQ ID NO：89)：

分散泛菌种属(Pantoea dispersa)RecE DNA(SEQ ID NO：90)：

Plautia stali的F型共生体RecT DNA(SEQ ID NO：91)：

Plautia stali的F型共生体RecE DNA(SEQ ID NO：92)：

斯氏普罗威登斯菌(Providencia stuartii)RecT DNA(SEQ ID NO：93)：

斯氏普罗威登斯菌(Providencia stuartii)RecE DNA(SEQ ID NO：94)：

普罗威登斯菌属(Providencia sp.)MGF014 RecT DNA(SEQ ID NO：95)：

普罗威登斯菌属(Providencia sp.)MGF014 RecE DNA(SEQ ID NO：96)：

腐败希瓦氏菌(Shewanella putrefaciens)RecT DNA(SEQ ID NO：97)：

腐败希瓦氏菌(Shewanella putrefaciens)RecE DNA(SEQ ID NO：98)：

芽孢杆菌属(Bacillus sp.)MUM 116 RecT DNA(SEQ ID NO：99)：

芽孢杆菌属(Bacillus sp.)MUM 116 RecE DNA(SEQ ID NO：100)：

索氏志贺菌(Shigella sonnei)RecT DNA(SEQ ID NO：101)：

索氏志贺菌(Shigella sonnei)RecE DNA(SEQ ID NO：102)：

肠道沙门氏菌(Salmonella enterica)RecT DNA(SEQ ID NO：103)：

肠道沙门氏菌(Salmonella enterica)RecE DNA(SEQ ID NO：104)：

醋酸杆菌属(Acetobacter)RecT DNA(SEQ ID NO：105)：

醋酸杆菌属(Acetobacter)RecE DNA(SEQ ID NO：106)：

肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecT DNA(SEQ ID NO：107)：

肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecE DNA(SEQ ID NO：108)：

Pseudobacteriovorax antillogorgiicola RecT DNA(SEQ ID NO：109)：

Pseudobacteriovorax antillogorgiicola RecE DNA(SEQ ID NO：110)：

发光杆菌属(Photobacterium sp.)JCM 19050 RecT DNA(SEQ ID NO：111)：

发光杆菌属(Photobacterium sp.)JCM 19050 RecE DNA(SEQ ID NO：112)：

产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecT DNA(SEQ IDNO：113)：

产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecE DNA(SEQ IDNO：114)：

斯氏泛菌种属(Pantoea stewartii)RecT蛋白(SEQ ID NO：115)：

斯氏泛菌种属(Pantoea stewartii)RecE蛋白(SEQ ID NO：116)：

布氏泛菌种属(Pantoea brenneri)RecT蛋白(SEQ ID NO：117)：

布氏泛菌种属(Pantoea brenneri)RecE蛋白(SEQ ID NO：118)：

分散泛菌种属(Pantoea dispersa)RecT蛋白(SEQ ID NO：119)：

分散泛菌种属(Pantoea dispersa)RecE蛋白(SEQ ID NO：120)：

Plautia stali的F型共生体RecT蛋白(SEQ ID NO：121)：

Plautia stali的F型共生体RecE蛋白(SEQ ID NO：122)：

斯氏普罗威登斯菌(Providencia stuartii)RecT蛋白(SEQ ID NO：123)：

斯氏普罗威登斯菌(Providencia stuartii)RecE蛋白(SEQ ID NO：124)：

普罗威登斯菌属(Providencia sp.)MGF014 RecT蛋白(SEQ ID NO：125)：

普罗威登斯菌属(Providencia sp.)MGF014 RecE蛋白(SEQ ID NO：126)：

腐败希瓦氏菌(Shewanella putrefaciens)RecT蛋白(SEQ ID NO：127)：

腐败希瓦氏菌(Shewanella putrefaciens)RecE蛋白(SEQ ID NO：128)：

芽孢杆菌属(Bacillus sp.)MUM 116RecT蛋白(SEQ ID NO：129)：

芽孢杆菌属(Bacillus sp.)MUM 116RecE蛋白(SEQ ID NO：130)：

索氏志贺菌(Shigella sonnei)RecT蛋白(SEQ ID NO：131)：

索氏志贺菌(Shigella sonnei)RecE蛋白(SEQ ID NO：132)：

肠道沙门氏菌(Salmonella enterica)RecT蛋白(SEQ ID NO：133)：

肠道沙门氏菌(Salmonella enterica)RecE蛋白(SEQ ID NO：134)：

醋酸杆菌属(Acetobacter)RecT蛋白(SEQ ID NO：135)：

醋酸杆菌属(Acetobacter)RecE蛋白(SEQ ID NO：136)：

肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecT蛋白(SEQ ID NO：137)：

肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecE蛋白(SEQ ID NO：138)：

Pseudobacteriovorax antillogorgiicola RecT蛋白(SEQ ID NO：139)：

Pseudobacteriovorax antillogorgiicola RecE蛋白(SEQ ID NO：140)：

发光杆菌属(Photobacterium sp.)JCM 19050 RecT蛋白(SEQ ID NO：141)：

发光杆菌属(Photobacterium sp.)JCM 19050 RecE蛋白(SEQ ID NO：142)：

产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecT蛋白(SEQ IDNO：143)：

产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecE蛋白(SEQ IDNO：144)：

小鼠白蛋白敲入正义模板(SEQ ID NO：160)

小鼠白蛋白敲入反义模板(SEQ ID NO：161)

(SEQ ID NO：162)

本文引用的所有参考文献，包括出版物、专利申请和专利，均以引用的方式并入本文，其程度如同每个参考文献被单独地且具体地指示为通过引用并入本文并在此完整阐述。

本文描述了本发明的优选实施方案，包括发明人已知的用于实施本发明的最佳方式。通过阅读前述说明，那些优选实施方案的变型对于本领域普通技术人员而言将变得显而易见。发明人期望熟练的技术人员适当地采用这样的变型，并且发明人旨在以不同于本文具体描述的方式来实践本发明。因此，本发明包括适用法律所允许的所附权利要求中记载的主题的所有修改和等同物。而且，除非本文另外指出或与上下文明显矛盾，否则本发明涵盖上述要素在其所有可能的变化中的任何组合。

序列表

<110> 小利兰斯坦福大学董事会

<120> RNA指导的千碱基规模基因组重组工程

<130> STDU2-38213.601

<150> US 62/984,618

<151> 2020-03-02

<150> US 63/146,447

<151> 2021-02-05

<160> 165

<170> PatentIn版本 3.5

<210> 1

<211> 866

<212> PRT

<213> 大肠杆菌

<400> 1

Met Ser Thr Lys Pro Leu Phe Leu Leu Arg Lys Ala Lys Lys Ser Ser

1 5 10 15

Gly Glu Pro Asp Val Val Leu Trp Ala Ser Asn Asp Phe Glu Ser Thr

20 25 30

Cys Ala Thr Leu Asp Tyr Leu Ile Val Lys Ser Gly Lys Lys Leu Ser

35 40 45

Ser Tyr Phe Lys Ala Val Ala Thr Asn Phe Pro Val Val Asn Asp Leu

50 55 60

Pro Ala Glu Gly Glu Ile Asp Phe Thr Trp Ser Glu Arg Tyr Gln Leu

65 70 75 80

Ser Lys Asp Ser Met Thr Trp Glu Leu Lys Pro Gly Ala Ala Pro Asp

85 90 95

Asn Ala His Tyr Gln Gly Asn Thr Asn Val Asn Gly Glu Asp Met Thr

100 105 110

Glu Ile Glu Glu Asn Met Leu Leu Pro Ile Ser Gly Gln Glu Leu Pro

115 120 125

Ile Arg Trp Leu Ala Gln His Gly Ser Glu Lys Pro Val Thr His Val

130 135 140

Ser Arg Asp Gly Leu Gln Ala Leu His Ile Ala Arg Ala Glu Glu Leu

145 150 155 160

Pro Ala Val Thr Ala Leu Ala Val Ser His Lys Thr Ser Leu Leu Asp

165 170 175

Pro Leu Glu Ile Arg Glu Leu His Lys Leu Val Arg Asp Thr Asp Lys

180 185 190

Val Phe Pro Asn Pro Gly Asn Ser Asn Leu Gly Leu Ile Thr Ala Phe

195 200 205

Phe Glu Ala Tyr Leu Asn Ala Asp Tyr Thr Asp Arg Gly Leu Leu Thr

210 215 220

Lys Glu Trp Met Lys Gly Asn Arg Val Ser His Ile Thr Arg Thr Ala

225 230 235 240

Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu Thr Asp Arg Gly Glu Gly

245 250 255

Phe Val His Asp Leu Thr Ser Leu Ala Arg Asp Val Ala Thr Gly Val

260 265 270

Leu Ala Arg Ser Met Asp Leu Asp Ile Tyr Asn Leu His Pro Ala His

275 280 285

Ala Lys Arg Ile Glu Glu Ile Ile Ala Glu Asn Lys Pro Pro Phe Ser

290 295 300

Val Phe Arg Asp Lys Phe Ile Thr Met Pro Gly Gly Leu Asp Tyr Ser

305 310 315 320

Arg Ala Ile Val Val Ala Ser Val Lys Glu Ala Pro Ile Gly Ile Glu

325 330 335

Val Ile Pro Ala His Val Thr Glu Tyr Leu Asn Lys Val Leu Thr Glu

340 345 350

Thr Asp His Ala Asn Pro Asp Pro Glu Ile Val Asp Ile Ala Cys Gly

355 360 365

Arg Ser Ser Ala Pro Met Pro Gln Arg Val Thr Glu Glu Gly Lys Gln

370 375 380

Asp Asp Glu Glu Lys Pro Gln Pro Ser Gly Thr Thr Ala Val Glu Gln

385 390 395 400

Gly Glu Ala Glu Thr Met Glu Pro Asp Ala Thr Glu His His Gln Asp

405 410 415

Thr Gln Pro Leu Asp Ala Gln Ser Gln Val Asn Ser Val Asp Ala Lys

420 425 430

Tyr Gln Glu Leu Arg Ala Glu Leu His Glu Ala Arg Lys Asn Ile Pro

435 440 445

Ser Lys Asn Pro Val Asp Asp Asp Lys Leu Leu Ala Ala Ser Arg Gly

450 455 460

Glu Phe Val Asp Gly Ile Ser Asp Pro Asn Asp Pro Lys Trp Val Lys

465 470 475 480

Gly Ile Gln Thr Arg Asp Cys Val Tyr Gln Asn Gln Pro Glu Thr Glu

485 490 495

Lys Thr Ser Pro Asp Met Asn Gln Pro Glu Pro Val Val Gln Gln Glu

500 505 510

Pro Glu Ile Ala Cys Asn Ala Cys Gly Gln Thr Gly Gly Asp Asn Cys

515 520 525

Pro Asp Cys Gly Ala Val Met Gly Asp Ala Thr Tyr Gln Glu Thr Phe

530 535 540

Asp Glu Glu Ser Gln Val Glu Ala Lys Glu Asn Asp Pro Glu Glu Met

545 550 555 560

Glu Gly Ala Glu His Pro His Asn Glu Asn Ala Gly Ser Asp Pro His

565 570 575

Arg Asp Cys Ser Asp Glu Thr Gly Glu Val Ala Asp Pro Val Ile Val

580 585 590

Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly Ile Ser Asn Glu Asn Tyr

595 600 605

His Ala Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Asp

610 615 620

Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn Ala Pro Val Asp Thr Thr

625 630 635 640

Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala Phe His Cys Arg Val Leu

645 650 655

Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile Val Ala Pro Glu Phe Asn

660 665 670

Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu Lys Ala Phe Leu Met Glu

675 680 685

Cys Ala Ser Thr Gly Lys Thr Val Ile Thr Ala Glu Glu Gly Arg Lys

690 695 700

Ile Glu Leu Met Tyr Gln Ser Val Met Ala Leu Pro Leu Gly Gln Trp

705 710 715 720

Leu Val Glu Ser Ala Gly His Ala Glu Ser Ser Ile Tyr Trp Glu Asp

725 730 735

Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg Pro Asp Lys Ile Ile Pro

740 745 750

Glu Phe His Trp Ile Met Asp Val Lys Thr Thr Ala Asp Ile Gln Arg

755 760 765

Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr His Val Gln Asp Ala Phe

770 775 780

Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly Val Gln Pro Thr Phe Val

785 790 795 800

Phe Leu Val Ala Ser Thr Thr Ile Glu Cys Gly Arg Tyr Pro Val Glu

805 810 815

Ile Phe Met Met Gly Glu Glu Ala Lys Leu Ala Gly Gln Gln Glu Tyr

820 825 830

His Arg Asn Leu Arg Thr Leu Ala Asp Cys Leu Asn Thr Asp Glu Trp

835 840 845

Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Tyr Ala

850 855 860

Asn Asp

865

<210> 2

<211> 280

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 2

Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly

1 5 10 15

Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln

20 25 30

Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn

35 40 45

Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala

50 55 60

Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile

65 70 75 80

Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ser Gly Lys Glu Glu Glu

85 90 95

Lys Ala Phe Leu Arg Glu Cys Ala Ser Thr Gly Lys Thr Val Ile Thr

100 105 110

Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala

115 120 125

Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser

130 135 140

Ser Ile Tyr Trp Glu Asp Pro Glu Thr Ala Ile Leu Cys Arg Cys Arg

145 150 155 160

Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr

165 170 175

Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr

180 185 190

His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly

195 200 205

Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu Cys

210 215 220

Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu

225 230 235 240

Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys

245 250 255

Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg

260 265 270

Trp Ala Lys Glu Tyr Ala Asn Asp

275 280

<210> 3

<211> 265

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 3

Gly Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser

1 5 10 15

Gln Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys

20 25 30

Asn Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr

35 40 45

Ala Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe

50 55 60

Ile Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ser Gly Lys Glu Glu

65 70 75 80

Glu Lys Ala Phe Leu Arg Glu Cys Ala Ser Thr Gly Lys Thr Val Ile

85 90 95

Thr Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met

100 105 110

Ala Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu

115 120 125

Ser Ser Ile Tyr Trp Glu Asp Pro Glu Thr Ala Ile Leu Cys Arg Cys

130 135 140

Arg Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys

145 150 155 160

Thr Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg

165 170 175

Tyr His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe

180 185 190

Gly Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu

195 200 205

Cys Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys

210 215 220

Leu Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp

225 230 235 240

Cys Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro

245 250 255

Arg Trp Ala Lys Glu Tyr Ala Asn Asp

260 265

<210> 4

<211> 272

<212> PRT

<213> 布氏泛菌

<400> 4

Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Arg

1 5 10 15

Gly Ala Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro

20 25 30

Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr

35 40 45

Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Phe Ser Lys Arg Phe Gln Ile Gly Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Ile Glu Arg Cys Glu

85 90 95

Ala Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Lys

100 105 110

Leu Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Arg Trp Met Leu

115 120 125

Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp

130 135 140

Ala Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Glu Phe

145 150 155 160

Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Met Lys Phe Gln

165 170 175

Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Glu Ser His Phe His Glu Thr Pro Thr Phe Ala Phe Leu

195 200 205

Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe

210 215 220

Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg

225 230 235 240

Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly

245 250 255

Ile Ala Thr Leu Ser Leu Pro Phe Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 5

<211> 272

<212> PRT

<213> Plautia stali的F型共生体

<400> 5

Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Gly

1 5 10 15

Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro

20 25 30

Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr

35 40 45

Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Phe Ser Lys Arg Phe Glu Ile Gly Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Met Glu Arg Cys Glu

85 90 95

Ala Glu Gly Val Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Arg

100 105 110

Leu Met Arg Asp Ser Ala Met Ala His Pro Ile Ala Arg Trp Met Leu

115 120 125

Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp

130 135 140

Thr Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Asp Phe

145 150 155 160

Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Ile Lys Phe Gln

165 170 175

Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Glu Ser His Phe Asp Glu Thr Pro Thr Phe Ala Phe Leu

195 200 205

Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe

210 215 220

Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg

225 230 235 240

Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly

245 250 255

Ile Ala Thr Leu Ser Leu Pro Tyr Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 6

<211> 272

<212> PRT

<213> 普罗威登斯菌属MGF014

<400> 6

Met Lys Glu Gly Ile Tyr Tyr Asn Ile Ser Asn Glu Asp Tyr His Asn

1 5 10 15

Gly Leu Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asn Glu Met Pro

20 25 30

Ala Glu Tyr Ile Trp Ser Lys Glu Ala Pro Val Asp Glu Glu Lys Ile

35 40 45

Lys Pro Leu Glu Ile Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Tyr His Lys Arg Tyr Lys Ile Gly Pro Asp Val Asn Arg Arg

65 70 75 80

Thr Asn Val Gly Lys Glu Lys Glu Lys Glu Phe Phe Asp Met Cys Glu

85 90 95

Lys Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Met

100 105 110

Ile Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Lys Trp Cys Leu

115 120 125

Glu Ala Asp Gly Val Ser Glu Ser Ser Ile Tyr Trp Thr Asp Lys Glu

130 135 140

Thr Asp Val Leu Cys Arg Cys Arg Pro Asp Arg Ile Ile Thr Ala His

145 150 155 160

Asn Tyr Ile Ile Asp Val Lys Ser Ser Gly Asp Ile Glu Lys Phe Asp

165 170 175

Tyr Glu Tyr Tyr Asn Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Lys Glu Val Thr Gly Ile Thr Pro Thr Phe Leu Phe Leu

195 200 205

Val Val Ser Thr Lys Ile Asp Cys Gly Lys Tyr Pro Val Arg Thr Tyr

210 215 220

Val Met Ser Glu Glu Ala Lys Ser Ala Gly Arg Thr Ala Tyr Lys His

225 230 235 240

Asn Leu Leu Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly

245 250 255

Ile Arg Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 7

<211> 648

<212> PRT

<213> 索氏志贺菌

<400> 7

Asp Arg Gly Leu Leu Thr Lys Glu Trp Arg Lys Gly Asn Arg Val Ser

1 5 10 15

Arg Ile Thr Arg Thr Ala Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu

20 25 30

Thr Asp Arg Gly Glu Gly Phe Val His Asp Leu Thr Ser Leu Ala Arg

35 40 45

Asp Ile Ala Thr Gly Val Leu Ala Arg Ser Met Asp Val Asp Ile Tyr

50 55 60

Asn Leu His Pro Ala His Ala Lys Arg Ile Glu Glu Ile Ile Ala Glu

65 70 75 80

Asn Lys Pro Pro Phe Ser Val Phe Arg Asp Lys Phe Ile Thr Met Pro

85 90 95

Gly Gly Leu Asp Tyr Ser Arg Ala Ile Val Val Ala Ser Val Lys Glu

100 105 110

Ala Pro Ile Gly Ile Glu Val Ile Pro Ala His Val Thr Ala Tyr Leu

115 120 125

Asn Lys Val Leu Thr Glu Thr Asp His Ala Asn Pro Asp Pro Glu Ile

130 135 140

Val Asp Ile Ala Cys Gly Arg Ser Ser Ala Pro Met Pro Gln Arg Val

145 150 155 160

Thr Glu Glu Gly Lys Gln Asp Asp Glu Glu Lys Leu Gln Pro Ser Gly

165 170 175

Thr Thr Ala Asp Glu Gln Gly Glu Ala Glu Thr Met Glu Pro Asp Ala

180 185 190

Thr Lys His His Gln Asp Thr Gln Pro Leu Asp Ala Gln Ser Gln Val

195 200 205

Asn Ser Val Asp Ala Lys Tyr Gln Glu Leu Arg Ala Glu Leu His Glu

210 215 220

Ala Arg Lys Asn Ile Pro Ser Lys Asn Pro Val Asp Ala Asp Lys Leu

225 230 235 240

Leu Ala Ala Ser Arg Gly Glu Phe Val Asp Gly Ile Ser Asp Pro Asn

245 250 255

Asp Pro Lys Trp Val Lys Gly Ile Gln Thr Arg Asp Ser Val Tyr Gln

260 265 270

Asn Gln Pro Glu Thr Glu Lys Thr Ser Pro Asp Met Lys Gln Pro Glu

275 280 285

Pro Val Val Gln Gln Glu Pro Glu Ile Ala Phe Asn Ala Cys Gly Gln

290 295 300

Thr Gly Gly Asp Asn Cys Pro Asp Cys Gly Ala Val Met Gly Asp Ala

305 310 315 320

Thr Tyr Gln Glu Thr Phe Asp Glu Glu Asn Gln Val Glu Ala Lys Glu

325 330 335

Asn Asp Pro Glu Glu Met Glu Gly Ala Glu His Pro His Asn Glu Asn

340 345 350

Ala Gly Ser Asp Pro His Arg Asp Cys Ser Asp Glu Thr Gly Glu Val

355 360 365

Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly

370 375 380

Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln

385 390 395 400

Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn

405 410 415

Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala

420 425 430

Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile

435 440 445

Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu

450 455 460

Lys Ala Phe Leu Met Glu Cys Ala Ser Thr Gly Lys Met Val Ile Thr

465 470 475 480

Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala

485 490 495

Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser

500 505 510

Ser Ile Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg

515 520 525

Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr

530 535 540

Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr

545 550 555 560

His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly

565 570 575

Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu Cys

580 585 590

Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu

595 600 605

Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys

610 615 620

Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg

625 630 635 640

Trp Ala Lys Glu Tyr Ala Asn Asp

645

<210> 8

<211> 300

<212> PRT

<213> Pseudobacteriovorax antillogorgiicola

<400> 8

Met Ser Lys Leu Ser Asn Leu Lys Val Ser Asn Ser Asp Val Asp Thr

1 5 10 15

Leu Ser Arg Ile Arg Met Lys Glu Gly Val Tyr Arg Asp Leu Pro Ile

20 25 30

Glu Ser Tyr His Gln Ser Pro Gly Tyr Ser Lys Thr Ser Leu Cys Gln

35 40 45

Ile Asp Lys Ala Pro Ile Tyr Leu Lys Thr Lys Val Pro Gln Lys Ser

50 55 60

Thr Lys Ser Leu Asn Ile Gly Thr Ala Phe His Glu Ala Met Glu Gly

65 70 75 80

Val Phe Lys Asp Lys Tyr Val Val His Pro Asp Pro Gly Val Asn Lys

85 90 95

Thr Thr Lys Ser Trp Lys Asp Phe Val Lys Arg Tyr Pro Lys His Met

100 105 110

Pro Leu Lys Arg Ser Glu Tyr Asp Gln Val Leu Ala Met Tyr Asp Ala

115 120 125

Ala Arg Ser Tyr Arg Pro Phe Gln Lys Tyr His Leu Ser Arg Gly Phe

130 135 140

Tyr Glu Ser Ser Phe Tyr Trp His Asp Ala Val Thr Asn Ser Leu Ile

145 150 155 160

Lys Cys Arg Pro Asp Tyr Ile Thr Pro Asp Gly Met Ser Val Ile Asp

165 170 175

Phe Lys Thr Thr Val Asp Pro Ser Pro Lys Gly Phe Gln Tyr Gln Ala

180 185 190

Tyr Lys Tyr His Tyr Tyr Val Ser Ala Ala Leu Thr Leu Glu Gly Ile

195 200 205

Glu Ala Val Thr Gly Ile Arg Pro Lys Glu Tyr Leu Phe Leu Ala Val

210 215 220

Ser Asn Ser Ala Pro Tyr Leu Thr Ala Leu Tyr Arg Ala Ser Glu Lys

225 230 235 240

Glu Ile Ala Leu Gly Asp His Phe Ile Arg Arg Ser Leu Leu Thr Leu

245 250 255

Lys Thr Cys Leu Glu Ser Gly Lys Trp Pro Gly Leu Gln Glu Glu Ile

260 265 270

Leu Glu Leu Gly Leu Pro Phe Ser Gly Leu Lys Glu Leu Arg Glu Glu

275 280 285

Gln Glu Val Glu Asp Glu Phe Met Glu Leu Val Gly

290 295 300

<210> 9

<211> 269

<212> PRT

<213> Escherichia coli

<400> 9

Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gly Asn Arg Ala Pro Ala Ala Val Lys Asn Ser Asp Val Ile Ser Phe

20 25 30

Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro Arg

35 40 45

His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg

50 55 60

Lys Val Pro Ala Leu Gly Asn Cys Asp Thr Met Ser Phe Val Ser Ala

65 70 75 80

Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly

85 90 95

His Ala Tyr Leu Leu Pro Phe Gly Asn Lys Asn Glu Lys Ser Gly Lys

100 105 110

Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala

115 120 125

Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg Glu

130 135 140

Gly Asp Glu Phe Ser Phe Glu Phe Gly Leu Asp Glu Lys Leu Ile His

145 150 155 160

Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala Val

165 170 175

Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg Lys

180 185 190

Gln Ile Glu Leu Val Arg Ser Leu Ser Lys Ala Gly Asn Asn Gly Pro

195 200 205

Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg Arg

210 215 220

Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val Ser

225 230 235 240

Met Asp Glu Lys Glu Pro Leu Thr Ile Asp Pro Ala Asp Ser Ser Val

245 250 255

Leu Thr Gly Glu Tyr Ser Val Ile Asp Asn Ser Glu Glu

260 265

<210> 10

<211> 273

<212> PRT

<213> 布氏泛菌

<400> 10

Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly

20 25 30

Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro

35 40 45

Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile

50 55 60

Arg Lys Thr Pro Gln Leu Ala Gln Cys Asp Gln Ser Ser Phe Ile Gly

65 70 75 80

Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu

85 90 95

Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly

100 105 110

Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu

115 120 125

Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg

130 135 140

Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Val

145 150 155 160

His Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala

165 170 175

Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Val

180 185 190

Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly

195 200 205

Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg

210 215 220

Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val

225 230 235 240

Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser

245 250 255

Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Ser Gly Asp Glu Ala Thr

260 265 270

Asn

<210> 11

<211> 271

<212> PRT

<213> Plautia stali的F型共生体

<400> 11

Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly

20 25 30

Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro

35 40 45

Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile

50 55 60

Arg Lys Thr Pro Ala Leu Ala Thr Cys Asp Gln Ser Ser Phe Ile Gly

65 70 75 80

Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu

85 90 95

Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly

100 105 110

Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu

115 120 125

Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg

130 135 140

Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile

145 150 155 160

His Arg Pro Gly Asp Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala

165 170 175

Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Ala

180 185 190

Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly

195 200 205

Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg

210 215 220

Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val

225 230 235 240

Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser

245 250 255

Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Gly Asp Gly Gly Glu

260 265 270

<210> 12

<211> 268

<212> PRT

<213> 普罗威登斯菌属MGF014

<400> 12

Met Ser Asn Pro Pro Leu Ala Gln Ser Asp Leu Gln Lys Thr Gln Gly

1 5 10 15

Thr Glu Val Lys Val Lys Thr Lys Asp Gln Gln Leu Ile Gln Phe Ile

20 25 30

Asn Gln Pro Ser Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg His

35 40 45

Met Thr Pro Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg Lys

50 55 60

Thr Pro Ala Leu Ala Thr Cys Asp Met Gln Ser Phe Val Gly Ala Val

65 70 75 80

Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His

85 90 95

Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ala Lys Ser Gly Gln Ser

100 105 110

Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg

115 120 125

Arg Ser Asn Gln Ile Ile Ser Ile Ser Ala Arg Thr Val Arg Gln Gly

130 135 140

Asp Asn Phe His Phe Glu Tyr Gly Leu Asn Glu Asp Leu Thr His Thr

145 150 155 160

Pro Ser Glu Asn Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala

165 170 175

Arg Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln

180 185 190

Val Glu Lys Val Arg Ala Ser Ser Lys Ala Gly Gln Asn Gly Pro Trp

195 200 205

Val Ser His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu

210 215 220

Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Val Leu

225 230 235 240

Asp Glu Lys Ala Glu Ala Asn Val Asp Gln Glu Asn Ala Thr Ile Phe

245 250 255

Glu Gly Glu Tyr Glu Glu Val Gly Thr Asp Gly Asn

260 265

<210> 13

<211> 269

<212> PRT

<213> 索氏志贺菌

<400> 13

Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Glu Asn Arg Ala Pro Ala Ala Ile Lys Asn Asn Asp Val Ile Ser Phe

20 25 30

Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro Arg

35 40 45

His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg

50 55 60

Lys Val Pro Ala Leu Gly Asn Cys Asp Thr Met Ser Phe Val Ser Ala

65 70 75 80

Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly

85 90 95

His Ala Tyr Leu Leu Pro Phe Gly Asn Lys Asn Glu Lys Ser Gly Lys

100 105 110

Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala

115 120 125

Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg Glu

130 135 140

Gly Asp Glu Phe Asn Phe Glu Phe Gly Leu Asp Glu Lys Leu Ile His

145 150 155 160

Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala Val

165 170 175

Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg Arg

180 185 190

Gln Ile Glu Leu Val Arg Ser Gln Ser Lys Ala Gly Asn Asn Gly Pro

195 200 205

Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg Arg

210 215 220

Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val Ser

225 230 235 240

Met Asp Glu Lys Glu Pro Leu Thr Ile Asp Pro Ala Asp Ser Ser Val

245 250 255

Leu Thr Gly Glu Tyr Ser Val Ile Asp Asn Ser Glu Glu

260 265

<210> 14

<211> 242

<212> PRT

<213> Pseudobacteriovorax antillogorgiicola

<400> 14

Met Gly His Leu Val Ser Lys Thr Glu Gln Asp Tyr Ile Lys Gln His

1 5 10 15

Tyr Ala Lys Gly Ala Thr Asp Gln Glu Phe Glu His Phe Ile Gly Val

20 25 30

Cys Arg Ala Arg Gly Leu Asn Pro Ala Ala Asn Gln Ile Tyr Phe Val

35 40 45

Lys Tyr Arg Ser Lys Asp Gly Pro Ala Lys Pro Ala Phe Ile Leu Ser

50 55 60

Ile Asp Ser Leu Arg Leu Ile Ala His Arg Thr Gly Asp Tyr Ala Gly

65 70 75 80

Cys Ser Glu Pro Ile Phe Thr Asp Gly Gly Lys Ala Cys Thr Val Thr

85 90 95

Val Arg Arg Asn Leu Lys Ser Gly Glu Thr Gly Asn Phe Ser Gly Met

100 105 110

Ala Phe Tyr Asp Glu Gln Val Gln Gln Lys Asn Gly Arg Pro Thr Ser

115 120 125

Phe Trp Gln Ser Lys Pro Arg Thr Met Leu Glu Lys Cys Ala Glu Ala

130 135 140

Lys Ala Leu Arg Lys Ala Phe Pro Gln Asp Leu Gly Gln Phe Tyr Ile

145 150 155 160

Arg Glu Glu Met Pro Pro Gln Tyr Asp Glu Pro Ile Gln Val His Lys

165 170 175

Pro Lys Ala Leu Glu Glu Pro Arg Phe Ser Lys Ser Asp Leu Ser Arg

180 185 190

Arg Lys Gly Leu Asn Arg Lys Leu Ser Ala Leu Gly Val Asp Pro Ser

195 200 205

Arg Phe Asp Glu Val Ala Thr Phe Leu Asp Gly Thr Pro Asp Arg Glu

210 215 220

Leu Gly Gln Lys Leu Lys Leu Trp Leu Lys Glu Ala Gly Tyr Gly Val

225 230 235 240

Asn Gln

<210> 15

<211> 16

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 15

Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser

1 5 10 15

<210> 16

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 16

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 17

<211> 39

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 17

Asn Ser Lys Lys Arg Ser Leu Glu Asp Asn Glu Thr Glu Ile Lys Val

1 5 10 15

Ser Arg Asp Thr Trp Asn Thr Lys Asn Met Arg Ser Leu Glu Pro Pro

20 25 30

Arg Ser Lys Lys Arg Ile His

35

<210> 18

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 18

Pro Ala Ala Lys Arg Val Lys Leu Asp

1 5

<210> 19

<211> 18

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 19

Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg

1 5 10 15

Lys Val

<210> 20

<211> 29

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 20

Pro Glu Lys Lys Arg Arg Arg Pro Ser Gly Ser Val Pro Val Leu Ala

1 5 10 15

Arg Pro Ser Pro Pro Lys Ala Gly Lys Ser Ser Cys Ile

20 25

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 21

gtcacctcca atgactaggg 20

<210> 22

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 22

ggtgagtgag tgtgtgcgtg 20

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 23

aaggccatag gctggactgc 20

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 24

gtagactaat ctctggctga 20

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 25

tctcccatgc attcaaactg 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 26

accccacagt ggggccacta 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 27

gtcacctcca atgactaggg 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 28

gtcacctcca atgactaggg 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 29

aaggccatag gctggactgc 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 30

ggcactgacg atgcagtaca 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 31

gtagactaat ctctggctga 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 32

tcgtcatctc cttcaagggg 20

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 33

atgcatggga gagcccagag 20

<210> 34

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 34

gcctgccctt ctaggaatgg 20

<210> 35

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 35

cattctgcct ctctgtatgg aaaagagc 28

<210> 36

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 36

cccattgaac tacctgggcc tgattc 26

<210> 37

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 37

aggtttgaat catcacgcag gc 22

<210> 38

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 38

attcaagtgg ggaatggcaa gc 22

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 39

tgccgtaaat gctgctctct 20

<210> 40

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 40

agacttgcca aggttctttg tg 22

<210> 41

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 41

agtgacctgt gtaattatgc agaag 25

<210> 42

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 42

tgaaagtgcc acaaaacaaa gaga 24

<210> 43

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 43

aagacaagtg gcaacgcag 19

<210> 44

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 44

cgtttatgat actatgcaga ctatgaagaa c 31

<210> 45

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 45

atgaagatga ccctactgct gat 23

<210> 46

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 46

tactgtcttg aaagcagata gaaacc 26

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 47

gcagcaaaga aacacctgga 20

<210> 48

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 48

gttgtcatgc catacagact tttt 24

<210> 49

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 49

agcattacta gctctgcttt agtg 24

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 50

tccacaagac tgggtctgag 20

<210> 51

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 51

gcgactatgc acaacgagag g 21

<210> 52

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 52

aagtgtgtct atctactgtg tcccag 26

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 53

gatgctcttt ccggagcact 20

<210> 54

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 54

gccaaggact caaacccaga a 21

<210> 55

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 55

tggtggattt cggactaccc t 21

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 56

ttcggactgg aaccgtcagc 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 57

agacgttcct tagtgctggc 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 58

aaaagtttca gtgcgacgcc 20

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 59

aggaggtccc atcagatgct 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 60

ggctggacag caaacatgga 20

<210> 61

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 61

ggctggacag caaacatgga 20

<210> 62

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 62

ttgctgccgt acatgaagct g 21

<210> 63

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 63

ccatctcatc cctgcgtgtc tccagaagaa gggctcccat cac 43

<210> 64

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 64

cctctctatg ggcagtcggt gatgagcagc aagcagcact ctg 43

<210> 65

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 65

ccatctcatc cctgcgtgtc tcccagcgtc ttcgagagtg agg 43

<210> 66

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 66

cctctctatg ggcagtcggt gatgttggaa tcctggagtg accc 44

<210> 67

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 67

ccatctcatc cctgcgtgtc tccacaaaag ctccacatgc tagga 45

<210> 68

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 68

cctctctatg ggcagtcggt gatggctgac tttgggctcc ttct 44

<210> 69

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 69

ccatctcatc cctgcgtgtc tccacacact ccccaggatc tca 43

<210> 70

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 70

cctctctatg ggcagtcggt gatgaatgtc agctgaagca ggct 44

<210> 71

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 71

ccatctcatc cctgcgtgtc tccggctacc ctgacaactg ctt 43

<210> 72

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 72

cctctctatg ggcagtcggt gatgaggaca gacatgacaa ggca 44

<210> 73

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 73

ccatctcatc cctgcgtgtc tccgcaggca agctgtcaag ggt 43

<210> 74

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 74

cctctctatg ggcagtcggt gatgccctca cacccacacc ctca 44

<210> 75

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 75

ccatctcatc cctgcgtgtc tccggagggg tgtcatcgtt ctg 43

<210> 76

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 76

cctctctatg ggcagtcggt gatgcaaatt gcgccatagc tggg 44

<210> 77

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 77

ccatctcatc cctgcgtgtc tcctgagcgc tcttcgtctt tcc 43

<210> 78

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 78

cctctctatg ggcagtcggt gatggccagg aacacaggaa tgcta 45

<210> 79

<211> 1400

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 79

cattctgcct ctctgtatgg aaaagagcat ggggctggcc cgtggggtgg tgtccacttt 60

aggccctgtg ggagatcatg ggaacccacg cagtgggtca taggctctct catttactac 120

tcacatccac tctgtgaaga agcgattatg atctctcctc tagaaactcg tagagtccca 180

tgtctgccgg cttccagagc ctgcactcct ccaccttggc ttggctttgc tggggctaga 240

ggagctagga tgcacagcag ctctgtgacc ctttgtttga gaggaacagg aaaaccaccc 300

ttctctctgg cccactgtgt cctcttcctg ccctgccatc cccttctgtg aatgttagac 360

ccatgggagc agctggtcag aggggacccc ggcctggggc ccctaaccct atgtagcctc 420

agtcttccca tcaggctctc agctcagcct gagtgttgag gccccagtgg ctgctctggg 480

ggcctcctga gtttctcatc tgtgcccctc cctccctggc ccaggtgaag gtgtggttcc 540

agaaccggag gacaaagtac aaacggcaga agctggagga ggaagggcct gagtccgagc 600

agaagaagaa gggctcccat cacatcaacc ggtggcgcat tgccacgaag caggccaatg 660

gggaggacat cgatgtcacc tccaatgact cggatgtaca cggtctgcaa ccacaaaccc 720

acgagggcag agtgctgctt gctgctggcc aggcccctgc gtgggcccaa gctggactct 780

ggccactccc tggccaggct ttggggaggc ctggagtcat ggccccacag ggcttgaagc 840

ccggggccgc cattgacaga gggacaagca atgggctggc tgaggcctgg gaccacttgg 900

ccttctcctc ggagagcctg cctgcctggg cgggcccgcc cgccaccgca gcctcccagc 960

tgctctccgt gtctccaatc tcccttttgt tttgatgcat ttctgtttta atttattttc 1020

caggcaccac tgtagtttag tgatccccag tgtccccctt ccctatggga ataataaaag 1080

tctctctctt aatgacacgg gcatccagct ccagccccag agcctggggt ggtagattcc 1140

ggctctgagg gccagtgggg gctggtagag caaacgcgtt cagggcctgg gagcctgggg 1200

tggggtactg gtggaggggg tcaagggtaa ttcattaact cctctctttt gttgggggac 1260

cctggtctct acctccagct ccacagcagg agaaacaggc tagacatagg gaagggccat 1320

cctgtatctt gagggaggac aggcccaggt ctttcttaac gtattgagag gtgggaatca 1380

ggcccaggta gttcaatggg 1400

<210> 80

<211> 1390

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 80

aggtttgaat catcacgcag gccctggcct ccacccgccc ccaccagccc cctggcctca 60

gttccctggc aacatctggg gttggggggg cagcaggaac aagggcctct gtctgcccag 120

ctgcctcccc ctttgggttt tgccagactc cacagtgcat acgtgggctc caacaggtcc 180

tcttccctcc cagtcactga ctaaccccgg aaccacacag cttcccgttc tcagctccac 240

aaacttggtg ccaaattctt ctcccctggg aagcatccct ggacacttcc caaaggaccc 300

cagtcactcc agcctgttgg ctgccgctca ctttgatgtc tgcaggccag atgagggctc 360

cagatggcac attgtcagag ggacacactg tggcccctgt gcccagccct gggctctctg 420

tacatgaagc aactccagtc ccaaatatgt agctgtttgg gaggtcagaa atagggggtc 480

caggagcaaa ctccccccac cccctttcca aagcccattc cctctttagc cagagccggg 540

gtgtgcagac ggcagtcact agggggcgct cggccaccac agggaagctg ggtgaatgga 600

gcgagcagcg tcttcgagag tgaggacgtg tgtgtctgtg tgggtgagtg agtgtgcgca 660

ctctagaggt gtcgtgttga gggcgttgga gcggggagaa ggccaggggt cactccagga 720

ttccaataga tctgtgtgtc cctctcccca cccgtccctg tccggctctc cgccttcccc 780

tgcccccttc aatattccta gcaaagaggg aacggctctc aggccctgtc cgcacgtaac 840

ctcactttcc tgctccctcc tcgccaatgc cccgcgggcg cgtgtctctg gacagagttt 900

ccgggggcgg atgggtaatt ttcaggctgt gaaccttggt gggggtcgag cttccccttc 960

attgcggcgg gctgcgggcc aggcttcact gagcgtccgc agagcccggg cccgagccgc 1020

gtgtggaagg gctgaggctc gcctgtcccc gccccccggg gcgggccggg ggcggggtcc 1080

cggcggggcg gagccatgcg cccccccctt ttttttttaa aagtcggctg gtagcgggga 1140

ggatcgcgga ggcttggggc agccgggtag ctcggaggtc gtggcgctgg gggctagcac 1200

cagcgctctg tcgggaggcg cagcggttag gtggaccggt cagcggactc accggccagg 1260

gcgctcggtg ctggaatttg atattcattg atccgggttt tatccctctt cttttttctt 1320

aaacattttt ttttaaaact gtattgtttc tcgttttaat ttatttttgc ttgccattcc 1380

ccacttgaat 1390

<210> 81

<211> 1551

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 81

agtgacctgt gtaattatgc agaagaatgg agctggatta cacacagcaa gttcctgctt 60

ctgggacagc tctactgacg gtatgatttt cattcatgtt tgtgaagttt tgttgtgtga 120

aatatatgac tggaagtttc ctatctttga atgcaatgca tgtttatcac cttttaaaac 180

atttaataat agacttgcca aggttctttg tgtagcatag agatgggtac ttgaatgttg 240

gccttattgt gagtaaaacg tcgtccccca gctttccctg ccgtaaatgc tgctctcttc 300

cctcccgcag ggagctgcac tgtgcgatgg gagaataaga ccatgtactg catcgtcagt 360

gccttcggac tgtctattgg aagcggagct actaacttca gcctgctgaa gcaggctgga 420

gacgtggagg agaaccctgg acctgccacc atggtgagcg agctgattaa ggagaacatg 480

cacatgaagc tgtacatgga gggcaccgtg aacaaccacc acttcaagtg cacatccgag 540

ggcgaaggca agccctacga gggcacccag accatgagaa tcaaggcggt cgagggcggc 600

cctctcccct tcgccttcga catcctggct accagcttca tgtacggcag caaaaccttc 660

atcaaccaca cccagggcat ccccgacttc tttaagcagt ccttccccga gggcttcaca 720

tgggagagag tcaccacata cgaagatggg ggcgtgctga ccgctaccca ggacaccagc 780

ctccaggacg gctgcctcat ctacaacgtc aagatcagag gggtgaactt cccatccaac 840

ggccctgtga tgcagaagaa aacactcggc tgggaggcct ccaccgagac actgtacccc 900

gctgacggcg gcctggaagg cagagccgac atggccctga agctcgtggg cgggggccac 960

ctgatctgca accttaagac cacatacaga tccaagaaac ccgctaagaa cctcaagatg 1020

cccggcgtct actatgtgga caggagactg gaaagaatca aggaggccga caaagagaca 1080

tacgtcgagc agcacgaggt ggctgtggcc agatactgcg acctccctag caaactgggg 1140

cacaaactta attcctaacc agctgtcctg cctatggcct ttctcctttt gtctctagtt 1200

catcctctaa ccaccagcca tgaattcagt gaactctttt ctcattctct ttgttttgtg 1260

gcactttcac aatgtagagg aaaaaaccaa atgaccgcac tgtgatgtga atggcaccga 1320

agtcagatga gtatccctgt aggtcacctg cagcctgcgt tgccacttgt cttaactctg 1380

aatatttcat ttcaaaggtg ctaaaatctg aaatctgcta gtgtgaaact tgctctactc 1440

tctgaaatga ttcaaataca ctaattttcc atactttata cttttgttag aataaattat 1500

tcaaatctaa agtctgttgt gttcttcata gtctgcatag tatcataaac g 1551

<210> 82

<211> 1973

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 82

gcagcaaaga aacacctgga gataaaccct gaccattcca ttattgagac cttaaggcaa 60

aaggcagagg ctgataagaa cgacaagtct gtgaaggatc tggtcatctt gctttatgaa 120

actgcgctcc tgtcttctgg cttcagtctg gaagatcccc agacacatgc taacaggatc 180

tacaggatga tcaaacttgg tctgggtaag ccttatacta tgtaatgtta aaaagaaaat 240

aaacacacgt gacattgaag aaaatggtga actttcagtt atccaaactt ggagcacctt 300

gtcctgcttg ctgcttggag gtattaaagt atgttttttt tagggataag taaggtctta 360

caagagcaaa gaaatgaaat tgagactcat atgtcctgta atactgtctt gaaagcagat 420

agaaaccaag agtattaccc taatagctgg ctttaagaaa tctttgtaat atgaggattt 480

tattttggaa acaggtattg atgaagatga ccctactgct gatgatacca gtgctgctgt 540

aactgaagaa atgccacccc ttgaaggaga tgacgacaca tcacgcatgg aagaagtaga 600

cggaagcgga gctactaact tcagcctgct gaagcaggct ggagacgtgg aggagaaccc 660

tggacctgtg agcgagctga ttaaggagaa catgcacatg aagctgtaca tggagggcac 720

cgtgaacaac caccacttca agtgcacatc cgagggcgaa ggcaagccct acgagggcac 780

ccagaccatg agaatcaagg cggtcgaggg cggccctctc cccttcgcct tcgacatcct 840

ggctaccagc ttcatgtacg gcagcaaaac cttcatcaac cacacccagg gcatccccga 900

cttctttaag cagtccttcc ccgagggctt cacatgggag agagtcacca catacgaaga 960

tgggggcgtg ctgaccgcta cccaggacac cagcctccag gacggctgcc tcatctacaa 1020

cgtcaagatc agaggggtga acttcccatc caacggccct gtgatgcaga agaaaacact 1080

cggctgggag gcctccaccg agacactgta ccccgctgac ggcggcctgg aaggcagagc 1140

cgacatggcc ctgaagctcg tgggcggggg ccacctgatc tgcaacctta agaccacata 1200

cagatccaag aaacccgcta agaacctcaa gatgcccggc gtctactatg tggacaggag 1260

actggaaaga atcaaggagg ccgacaaaga gacatacgtc gagcagcacg aggtggctgt 1320

ggccagatac tgcgacctcc ctagcaaact ggggcacaaa cttaattcct aaatctgtgg 1380

ctgagggatg acttacctgt tcagtactct acaattcctc tgataatata ttttcaagga 1440

tgtttttctt tatttttgtt aatattaaaa agtctgtatg gcatgacaac tactttaagg 1500

ggaagataag atttctgtct actaagtgat gctgtgatac cttaggcact aaagcagagc 1560

tagtaatgct ttttgagttt catgttggtt tattttcaca gattggggta acgtgcactg 1620

taagacgtat gtaacatgat gttaactttg tggtctaaag tgtttagctg tcaagccgga 1680

tgcctaagta gaccaaatct tgttattgaa gtgttctgag ctgtatcttg atgtttagaa 1740

aagtattcgt tacatcttgt aggatctact ttttgaactt ttcattccct gtagttgaca 1800

attctgcatg tactagtcct ctagaaatag gttaaactga agcaacttga tggaaggatc 1860

tctccacagg gcttgttttc caaagaaaag tattgtttgg aggagcaaag ttaaaagcct 1920

acctaagcat atcgtaaagc tgttcaaaaa taactcagac ccagtcttgt gga 1973

<210> 83

<211> 2193

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 83

gatgctcttt ccggagcact tccttctcgg cgctgcacca cgtgatgtcc tctgagcgga 60

tcctccccgt gtctgggtcc tctccgggca tctctcctcc ctcacccaac cccatgccgt 120

cttcactcgc tgggttccct tttccttctc cttctggggc ctgtgccatc tctcgtttct 180

taggatggcc ttctccgacg gatgtctccc ttgcgtcccg cctccccttc ttgtaggcct 240

gcatcatcac cgtttttctg gacaacccca aagtaccccg tctccctggc tttagccacc 300

tctccatcct cttgctttct ttgcctggac accccgttct cctgtggatt cgggtcacct 360

ctcactcctt tcatttgggc agctccccta ccccccttac ctctctagtc tgtgctagct 420

cttccagccc cctgtcatgg catcttccag gggtccgaga gctcagctag tcttcttcct 480

ccaacccggg cccctatgtc cacttcagga cagcatgttt gctgcctcca gggatcctgt 540

gtccccgagc tgggaccacc ttatattccc agggccggtt aatgtggctc tggttctggg 600

tacttttatc tgtcccctcc accccacagt ggggcaagct tctgacctct tctcttcctc 660

ccacagggcc tcgagagatc tggcagcgga ggaagcggag ctactaactt cagcctgctg 720

aagcaggctg gagacgtgga ggagaaccct ggacctgtga gcgagctgat taaggagaac 780

atgcacatga agctgtacat ggagggcacc gtgaacaacc accacttcaa gtgcacatcc 840

gagggcgaag gcaagcccta cgagggcacc cagaccatga gaatcaaggc ggtcgagggc 900

ggccctctcc ccttcgcctt cgacatcctg gctaccagct tcatgtacgg cagcaaaacc 960

ttcatcaacc acacccaggg catccccgac ttctttaagc agtccttccc cgagggcttc 1020

acatgggaga gagtcaccac atacgaagat gggggcgtgc tgaccgctac ccaggacacc 1080

agcctccagg acggctgcct catctacaac gtcaagatca gaggggtgaa cttcccatcc 1140

aacggccctg tgatgcagaa gaaaacactc ggctgggagg cctccaccga gacactgtac 1200

cccgctgacg gcggcctgga aggcagagcc gacatggccc tgaagctcgt gggcgggggc 1260

cacctgatct gcaaccttaa gaccacatac agatccaaga aacccgctaa gaacctcaag 1320

atgcccggcg tctactatgt ggacaggaga ctggaaagaa tcaaggaggc cgacaaagag 1380

acatacgtcg agcagcacga ggtggctgtg gccagatact gcgacctccc tagcaaactg 1440

gggcacaaac ttaattccta aactagggac aggattggtg acagaaaagc cccatcctta 1500

ggcctcctcc ttcctagtct cctgatattg ggtctaaccc ccacctcctg ttaggcagat 1560

tccttatctg gtgacacacc cccatttcct ggagccatct ctctccttgc cagaacctct 1620

aaggtttgct tacgatggag ccagagagga tcctgggagg gagagcttgg cagggggtgg 1680

gagggaaggg ggggatgcgt gacctgcccg gttctcagtg gccaccctgc gctaccctct 1740

cccagaacct gagctgctct gacgcggctg tctggtgcgt ttcactgatc ctggtgctgc 1800

agcttcctta cacttcccaa gaggagaagc agtttggaaa aacaaaatca gaataagttg 1860

gtcctgagtt ctaactttgg ctcttcacct ttctagtccc caatttatat tgttcctccg 1920

tgcgtcagtt ttacctgtga gataaggcca gtagccagcc ccgtcctggc agggctgtgg 1980

tgaggagggg ggtgtccgtg tggaaaactc cctttgtgag aatggtgcgt cctaggtgtt 2040

caccaggtcg tggccgcctc tactcccttt ctctttctcc atccttcttt ccttaaagag 2100

tccccagtgc tatctgggac atattcctcc gcccagagca gggtcccgct tccctaaggc 2160

cctgctctgg gcttctgggt ttgagtcctt ggc 2193

<210> 84

<211> 1245

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 84

gcgactatgc acaacgagag gattttgagg ctgctgggtc tcctttctca gggggaccag 60

tgtcctttcc tctggcccca gggccccatt ttggtacccc aggctatggg agccctcact 120

tcactgcact gtactcctcg gtccctttcc ctgaggggga agcctttccc cctgtctccg 180

tcaccactct gggctctccc atgcattcaa atggaagcgg agctactaac ttcagcctgc 240

tgaagcaggc tggagacgtg gaggagaacc ctggacctgc caccatggtg agcgagctga 300

ttaaggagaa catgcacatg aagctgtaca tggagggcac cgtgaacaac caccacttca 360

agtgcacatc cgagggcgaa ggcaagccct acgagggcac ccagaccatg agaatcaagg 420

cggtcgaggg cggccctctc cccttcgcct tcgacatcct ggctaccagc ttcatgtacg 480

gcagcaaaac cttcatcaac cacacccagg gcatccccga cttctttaag cagtccttcc 540

ccgagggctt cacatgggag agagtcacca catacgaaga tgggggcgtg ctgaccgcta 600

cccaggacac cagcctccag gacggctgcc tcatctacaa cgtcaagatc agaggggtga 660

acttcccatc caacggccct gtgatgcaga agaaaacact cggctgggag gcctccaccg 720

agacactgta ccccgctgac ggcggcctgg aaggcagagc cgacatggcc ctgaagctcg 780

tgggcggggg ccacctgatc tgcaacctta agaccacata cagatccaag aaacccgcta 840

agaacctcaa gatgcccggc gtctactatg tggacaggag actggaaaga atcaaggagg 900

ccgacaaaga gacatacgtc gagcagcacg aggtggctgt ggccagatac tgcgacctcc 960

ctagcaaact ggggcacaaa cttaattcct aatgactagg aatgggggac agggggaggg 1020

gaggagctag ggaaagaaaa cctggagttt gtgccagggt ttttgggatt aagttcttca 1080

ttcactaagg aaggaattgg gaacacaaag ggtgggggca ggggagtttg gggcaactgg 1140

ttggagggaa ggtgaagttc aatgatgctc ttgattttaa tcccacatca tgtatcactt 1200

ttttcttaaa taaagaagcc tgggacacag tagatagaca cactt 1245

<210> 85

<211> 810

<212> DNA

<213> 斯氏泛菌种属

<400> 85

agcaaccagc cccctatcgc ctccgccgat ctgcagaagg ccaacaccgg caagcaggtg 60

gccaataaga cccctgagca gacactggtg ggcttcatga atcagccagc aatgaagagc 120

cagctggccg ccgccctgcc aaggcacatg acagccgatc ggatgatcag aatcgtgacc 180

acagagatcc gcaagacccc cgccctggcc acatgcgacc agagctcctt catcggcgcc 240

gtggtgcagt gttctcagct gggcctggag cctggcagcg ccctgggcca cgcctacctg 300

ctgccatttg gcaacggccg gagcaagtcc ggacagtcca atgtgcagct gatcatcggc 360

tatagaggca tgatcgatct ggcccggaga tctggccaga tcgtgtctct gagcgccagg 420

gtggtgcgcg cagacgatga gttctccttt gagtacggcc tggatgagaa cctgatccac 480

cggccaggcg agaatgagga cgcacccatc acccacgtgt atgcagtggc aagactgaag 540

gacggaggca cccagttcga agtgatgaca gtgaagcaga tcgagaaggt gaaggcccag 600

tccaaggcct ctagcaacgg accctgggtg acccactggg aggagatggc caagaaaacc 660

gtgatcaggc gcctgtttaa gtacctgccc gtgagcatcg agatgcagaa ggccgtgatc 720

ctggatgaga aggccgagtc tgacgtggat caggacaatg cctccgtgct gtctgccgag 780

tatagcgtgc tggacggctc ctctgaggag 810

<210> 86

<211> 813

<212> DNA

<213> 斯氏泛菌种属

<400> 86

cagcccggcg tgtactatga catctccaac gaggagtatc acgccggccc tggcatcagc 60

aagtcccagc tggacgacat cgccgtgtcc ccagccatct tccagtggag aaagtctgcc 120

cccgtggacg atgagaaaac cgccgccctg gacctgggca cagccctgca ctgcctgctg 180

ctggagcctg atgagttctc caagaggttt atgatcggcc cagaggtgaa ccggagaacc 240

aatgccggca agcagaagga gcaggacttc ctggatatgt gcgagcagca gggcatcacc 300

cctatcacac acgacgataa ccggaagctg agactgatga gggactctgc ctttgcccac 360

ccagtggcca gatggatgct ggagacagag ggcaaggccg aggcctctat ctactggaat 420

gacagggata cacagatcct gagcaggtgc cgccccgaca agctgatcac cgagttctct 480

tggtgcgtgg acgtgaagag cacagccgac atcggcaagt tccagaagga cttctacagc 540

tatcgctacc acgtgcagga cgccttctat tccgatggct acgaggccca gttttgcgag 600

gtgccaacct tcgcctttct ggtggtgagc tcctctatcg attgtggccg gtatcccgtg 660

caggtgttta tcatggacca gcaggcaaag gatgcaggaa gggccgagta taagcggaac 720

ctgaccacat acgccgagtg ccaggcaagg aatgagtggc ctggcatcgc cacactgagc 780

ctgccttact gggccaagga gatccggaat gtg 813

<210> 87

<211> 816

<212> DNA

<213> 布氏泛菌

<400> 87

agcaaccagc cccctatcgc ctccgccgat ctgcagaaaa cccagcagtc caagcaggtg 60

gccaacaaga cccctgagca gacactggtg ggcttcatga atcagccagc aatgaagagc 120

cagctggccg ccgccctgcc aaggcacatg accgccgatc ggatgatcag aatcgtgacc 180

acagagatcc gcaagacacc acagctggcc cagtgcgacc agagctcctt catcggcgcc 240

gtggtgcagt gttctcagct gggcctggag cctggcagcg ccctgggcca cgcctacctg 300

ctgccatttg gcaacggccg gtccaagtct ggccagagca atgtgcagct gatcatcggc 360

tatagaggca tgatcgatct ggcccggaga tccggacaga tcgtgagcct gtccgccagg 420

gtggtgcgcg cagacgatga gttctctttt gagtacggcc tggatgagaa cctggtgcac 480

cggccaggcg agaatgagga cgcacccatc acccacgtgt atgcagtggc aagactgaag 540

gacggaggca cccagttcga agtgatgaca gtgaagcagg tggagaaggt gaaggcccag 600

tccaaggcct ctagcaatgg cccctgggtg acccactggg aggagatggc caagaaaacc 660

gtgatcaggc gcctgtttaa gtacctgccc gtgagcatcg agatgcagaa ggccgtggtg 720

ctggatgaga aggccgagtc tgacgtggat caggacaacg cctctgtgct gagcgccgag 780

tattccgtgc tggagtctgg cgacgaggcc acaaat 816

<210> 88

<211> 813

<212> DNA

<213> 布氏泛菌

<400> 88

cagcctggca tctactatga catcagcaac gaggattatc acaggggagc aggcatcagc 60

aagtcccagc tggacgacat cgccatctcc ccagccatct accagtggag aaagcacgcc 120

cccgtggacg aggagaaaac cgccgccctg gatctgggca cagccctgca ctgcctgctg 180

ctggagcctg acgagttctc taagaggttt cagatcggcc cagaggtgaa ccggagaacc 240

acagccggca aggagaagga gaaggagttc atcgagcggt gcgaggcaga gggaatcacc 300

ccaatcacac acgacgataa taggaagctg aagctgatga gggattccgc cctggcccac 360

ccaatcgcaa ggtggatgct ggaggcacag ggaaacgcag aggcctctat ctattggaat 420

gacagagatg ccggcgtgct gagcaggtgc cgccccgaca agatcatcac cgagttcaac 480

tggtgcgtgg acgtgaagtc cacagccgac atcatgaagt tccagaagga cttctactct 540

tacagatacc acgtgcagga cgccttctat tccgatggct acgagtctca ctttcacgag 600

acacccacat tcgcctttct ggccgtgtct accagcatcg actgcggcag gtatcctgtg 660

caggtgttta tcatggacca gcaggcaaag gatgcaggaa gggccgagta caagagaaac 720

atccacacct tcgccgagtg tctgagcagg aatgagtggc ctggcatcgc cacactgtcc 780

ctgccttttt gggccaagga gctgcgcaat gag 813

<210> 89

<211> 807

<212> DNA

<213> 分散泛菌种属

<400> 89

tccaaccagc cacctctggc caccgcagat ctgcagaaaa cccagcagtc taaccaggtg 60

gccaagaccc ctgagcagac actggtgggc ttcatgaatc agccagcaat gaagagccag 120

ctggccgccg ccctgccaag gcacatgacc gccgatcgga tgatcagaat cgtgaccaca 180

gagatccgca agacacccgc cctggcccag tgcgaccaga gctccttcat cggagcagtg 240

gtgcagtgta gccagctggg cctggagcct ggctccgccc tgggccacgc ctacctgctg 300

ccatttggca acggccggtc caagtctggc cagagcaatg tgcagctgat catcggctat 360

agaggcatga tcgatctggc ccggagatcc ggacagatcg tgagcctgtc cgccagggtg 420

gtgcgcgcag acgatgagtt ctcttttgag tacggcctgg atgagaacct gatccaccgg 480

ccaggcgaca atgagtccgc ccccatcacc cacgtgtatg cagtggcaag actgaaggac 540

ggaggcaccc agttcgaagt gatgacagcc aagcaggtgg agaaggtgaa ggcccagtcc 600

aaggcctcta gcaacggacc ctgggtgacc cactgggagg agatggccaa gaaaaccgtg 660

atcaggcgcc tgtttaagta cctgcccgtg agcatcgaga tgcagaaggc cgtggtgctg 720

gacgagaagg ccgagagcga cgtggatcag gacaatgcct ctgtgctgag cgccgagtat 780

tccgtgctgg agtctggcac aggcgag 807

<210> 90

<211> 813

<212> DNA

<213> 分散泛菌种属

<400> 90

gagccaggca tctactatga catcagcaac gaggcctacc actccggccc cggcatcagc 60

aagtcccagc tggacgacat cgccaggagc cctgccatct tccagtggcg caaggacgcc 120

ccagtggata ccgagaaaac caaggccctg gacctgggca ccgatttcca ctgcgccgtg 180

ctggagccag agaggtttgc agacatgtat cgcgtgggcc ctgaagtgaa tcggagaacc 240

acagccggca aggccgagga gaaggagttc tttgagaagt gtgagaagga tggagccgtg 300

cccatcaccc acgacgatgc acggaaggtg gagctgatga gaggctccgt gatggcccac 360

cctatcgcca agcagatgat cgcagcacag ggacacgcag aggcctctat ctactggcac 420

gacgagagca caggcaacct gtgccggtgt agacccgaca agtttatccc tgattggaat 480

tggatcgtgg acgtgaaaac cacagccgat atgaagaagt tcaggcgcga gttttacgat 540

ctgcggtatc acgtgcagga cgccttctac accgatggct atgccgccca gtttggcgag 600

cggcctacct tcgtgtttgt ggtgacatcc accacaatcg actgcggcag ataccccacc 660

gaggtgttct ttctggatga ggagacaaag gccgccggca ggtctgagta ccagagcaac 720

ctggtgacct attccgagtg tctgtctcgc aatgagtggc caggcatcgc cacactgtct 780

ctgccccact gggccaagga gctgaggaac gtg 813

<210> 91

<211> 810

<212> DNA

<213> Plautia stali的F型共生体

<400> 91

tccaaccagc cccctatcgc ctctgccgat ctgcagaaaa cccagcagtc taagcaggtg 60

gccaacaaga cccctgagca gacactggtg ggcttcatga atcagccagc aatgaagtcc 120

cagctggccg ccgccctgcc aaggcacatg acagccgatc ggatgatcag aatcgtgacc 180

acagagatcc gcaagacccc cgccctggcc acatgcgacc agagctcctt catcggagca 240

gtggtgcagt gtagccagct gggcctggag cctggctccg ccctgggcca cgcctacctg 300

ctgccatttg gcaacggccg gtccaagtct ggccagtcta atgtgcagct gatcatcggc 360

tatagaggca tgatcgacct ggcccggaga agcggacaga tcgtgagcct gtccgccagg 420

gtggtgcgcg cagacgatga gttctccttt gagtacggcc tggatgagaa cctgatccac 480

cggccaggcg ataatgagga cgcccccatc acccacgtgt atgcagtggc aagactgaag 540

gacggaggca cccagttcga agtgatgaca gccaagcagg tggagaaggt gaaggcccag 600

agcaaggcct ctagcaacgg accctgggtg acccactggg aggagatggc caagaaaacc 660

gtgatcaggc gcctgtttaa gtacctgccc gtgagcatcg agatgcagaa ggccgtggtg 720

ctggatgaga aggccgagag cgacgtggat caggacaatg cctctgtgct gagcgccgag 780

tattccgtgc tggagggcga cggcggcgag 810

<210> 92

<211> 813

<212> DNA

<213> Plautia stali的F型共生体

<400> 92

cagcctggca tctactatga catcagcaac gaggattatc acggcggccc tggcatcagc 60

aagtcccagc tggacgacat cgccatctcc ccagccatct accagtggag gaagcacgcc 120

cccgtggacg aggagaaaac cgccgccctg gatctgggca cagccctgca ctgcctgctg 180

ctggagcctg acgagttctc taagagattt gagatcggcc cagaggtgaa ccggagaacc 240

acagccggca aggagaagga gaaggagttc atggagaggt gtgaggcaga gggagtgacc 300

cctatcacac acgacgataa tcggaagctg agactgatga gggatagcgc aatggcccac 360

ccaatcgcca gatggatgct ggaggcacag ggaaacgcag aggcctctat ctattggaat 420

gacagggata ccggcgtgct gagcaggtgc cgccccgaca agatcatcac cgacttcaac 480

tggtgcgtgg acgtgaagtc cacagccgac atcatcaagt tccagaagga cttttactct 540

tatcgctacc acgtgcagga cgccttctat tccgatggct acgagtctca ctttgacgag 600

acaccaacat tcgcctttct ggccgtgtct acaagcatcg attgcggccg gtatcccgtg 660

caggtgttca tcatggacca gcaggcaaag gatgcaggaa gggccgagta caagcggaac 720

atccacacct ttgccgagtg tctgagccgc aatgagtggc ctggcatcgc cacactgtcc 780

ctgccttact gggccaagga gctgcggaat gag 813

<210> 93

<211> 801

<212> DNA

<213> 斯氏普罗威登斯菌

<400> 93

agcaacccac ctctggccca ggcagacctg cagaaaaccc agggcacaga ggtgaaggag 60

aaaaccaagg atcagatgct ggtggagctg atcaataagc cttccatgaa ggcacagctg 120

gccgccgccc tgccaaggca catgacaccc gaccggatga tcagaatcgt gaccacagag 180

atcagaaaga cccccgccct ggccacatgc gatatgcaga gcttcgtggg agcagtggtg 240

cagtgttccc agctgggcct ggagcctggc aacgccctgg gacacgccta cctgctgcct 300

tttggcaacg gcaagtctaa gagcggccag tctaatgtgc agctgatcat cggctatcgg 360

ggcatgatcg acctggcccg gagaagcggc cagatcgtgt ccatctctgc caggaccgtg 420

cgccagggcg ataacttcca ctttgagtac ggcctgaacg agaatctgac ccacgtgcct 480

ggcgagaatg aggactctcc aatcacacac gtgtacgcag tggcaaggct gaaggatgga 540

ggcgtgcagt tcgaagtgat gacctataac cagatcgaga aggtgcgcgc cagctccaag 600

gcaggacaga atggaccctg ggtgagccac tgggaggaga tggccaagaa aaccgtgatc 660

aggcgcctgt tcaagtacct gcccgtgtct atcgagatgc agaaggccgt gatcctggac 720

gagaaggccg aggccaacat cgatcaggag aatgccacca tctttgaggg cgagtatgag 780

gaagtgggca cagacggcaa g 801

<210> 94

<211> 810

<212> DNA

<213> 斯氏普罗威登斯菌

<400> 94

gagggcatct actataacat cagcaatgag gactaccaca acggcctggg catctccaag 60

tctcagctgg atctgatcaa tgagatgcct gccgagtata tctggtccaa ggaggccccc 120

gtggacgagg agaagatcaa gcctctggag atcggcaccg ccctgcactg cctgctgctg 180

gagccagacg agtaccacaa gagatataag atcggccccg atgtgaaccg gagaacaaat 240

gccggcaagg agaaggagaa ggagttcttt gatatgtgcg agaaggaggg catcaccccc 300

atcacacacg acgataaccg gaagctgatg atcatgagag actctgccct ggcccaccct 360

atcgccaagt ggtgtctgga ggccgatggc gtgagcgaga gctccatcta ctggaccgac 420

aaggagacag atgtgctgtg caggtgtcgc ccagaccgca tcatcaccgc ccacaactac 480

atcgtggatg tgaagtctag cggcgacatc gagaagttcg attacgagta ctacaactac 540

agataccacg tgcaggacgc cttttactcc gatggctata aggaggtgac cggcatcacc 600

cctacattcc tgtttctggt ggtgtctacc aagatcgact gcggcaagta ccccgtgcgg 660

acctacgtga tgagcgagga ggcaaagtcc gccggaagga ccgcctacaa gcacaacctg 720

ctgacctatg ccgagtgtct gaaaaccgat gagtgggccg gcatcaggac actgtctctg 780

cccagatggg caaaggagct gcggaatgag 810

<210> 95

<211> 801

<212> DNA

<213> 普罗威登斯菌属MGF014

<400> 95

tctaaccccc ctctggccca gagcgacctg cagaaaaccc agggcacaga ggtgaaggtg 60

aaaaccaagg atcagcagct gatccagttc atcaatcagc cttctatgaa ggcacagctg 120

gccgccgccc tgccaaggca catgacaccc gaccggatga tcagaatcgt gaccacagag 180

atcagaaaga cccccgccct ggccacatgc gatatgcagt ccttcgtggg cgccgtggtg 240

cagtgttctc agctgggcct ggagcctggc aacgccctgg gacacgccta cctgctgcct 300

tttggcaacg gcaaggccaa gtccggccag tctaatgtgc agctgatcat cggctatcgg 360

ggcatgatcg acctggcccg gagatccaac cagatcatct ctatcagcgc caggaccgtg 420

cgccagggcg ataacttcca ctttgagtac ggcctgaatg aggacctgac ccacacacct 480

agcgagaatg aggattcccc aatcacccac gtgtacgcag tggcaaggct gaaggacgga 540

ggcgtgcagt ttgaagtgat gacatataac caggtggaga aggtgcgcgc cagctccaag 600

gcaggacaga atggaccctg ggtgagccac tgggaggaga tggccaagaa aaccgtgatc 660

aggcgcctgt tcaagtacct gcccgtgtcc atcgagatgc agaaggcagt ggtgctggac 720

gagaaggcag aggccaacgt ggatcaggag aatgccacca tctttgaggg cgagtatgag 780

gaagtgggca cagatggcaa t 801

<210> 96

<211> 813

<212> DNA

<213> 普罗威登斯菌属MGF014

<400> 96

aaggagggca tctactataa catcagcaat gaggactacc acaacggcct gggcatctcc 60

aagtctcagc tggatctgat caatgagatg cctgccgagt atatctggtc caaggaggcc 120

cccgtggacg aggagaagat caagcctctg gagatcggca ccgccctgca ctgcctgctg 180

ctggagccag acgagtacca caagagatat aagatcggcc ccgatgtgaa ccggagaaca 240

aatgtgggca aggagaagga gaaggagttc tttgatatgt gcgagaagga gggcatcacc 300

cccatcacac acgacgataa ccggaagctg atgatcatga gagactctgc cctggcccac 360

cctatcgcca agtggtgtct ggaggccgat ggcgtgagcg agagctccat ctactggacc 420

gacaaggaga cagatgtgct gtgcaggtgt cgcccagacc gcatcatcac cgcccacaac 480

tacatcatcg atgtgaagtc tagcggcgac atcgagaagt tcgattacga gtactacaac 540

tacagatacc acgtgcagga cgccttttac tccgatggct ataaggaggt gaccggcatc 600

acccctacat tcctgtttct ggtggtgtct accaagatcg actgcggcaa gtaccccgtg 660

cggacctacg tgatgagcga ggaggcaaag tccgccggaa ggaccgccta caagcacaac 720

ctgctgacct atgccgagtg tctgaaaacc gatgagtggg ccggcatcag gacactgtct 780

ctgcccagat gggcaaagga gctgcggaat gag 813

<210> 97

<211> 711

<212> DNA

<213> 腐败希瓦氏菌

<400> 97

cagaccgcac aggtgaagct gagcgtgccc caccagcagg tgtaccagga caacttcaat 60

tatctgagct cccaggtggt gggccacctg gtggatctga acgaggagat cggctacctg 120

aaccagatcg tgtttaattc tctgagcacc gcctctcccc tggacgtggc agcaccttgg 180

agcgtgtacg gcctgctgct gaacgtgtgc cggctgggcc tgtccctgaa tccagagaag 240

aagctggcct atgtgatgcc ctcctggtct gagacaggcg agatcatcat gaagctgtac 300

cccggctata ggggcgagat cgccatcgcc tctaacttca atgtgatcaa gaacgccaat 360

gccgtgctgg tgtatgagaa cgatcacttc cgcatccagg cagcaaccgg cgagatcgag 420

cactttgtga caagcctgtc catcgaccct agggtgcgcg gagcatgcag cggaggctac 480

tgtcggtccg tgctgatgga taatacaatc cagatctctt atctgagcat cgaggagatg 540

aacgccatcg cccagaatca gatcgaggcc aacatgggca ataccccttg gaactccatc 600

tggcggacag agatgaatag agtggccctg taccggagag cagcaaagga ctggaggcag 660

ctgatcaagg ccaccccaga gatccagtcc gccctgtctg atacagagta t 711

<210> 98

<211> 1173

<212> DNA

<213> 腐败希瓦氏菌

<400> 98

ggcaccgccc tggcccagac aatcagcctg gactggcagg ataccatcca gccagcatac 60

acagcctccg gcaagcctaa cttcctgaat gcccagggcg agatcgtgga gggcatctac 120

accgatctgc ctaattccgt gtatcacgcc ctggacgcac acagctccac cggcatcaag 180

acattcgcca agggccgcca ccactacttt cggcagtatc tgtctgacgt gtgccggcag 240

agaacaaagc agcaggagta caccttcgac gccggcacct acggccacat gctggtgctg 300

gagccagaga acttccacgg caacttcatg aggaaccccg tgcctgacga ttttccagac 360

atcgagctga tcgagagcat cccacagctg aaggccgccc tggccaagag caacctgccc 420

gtgtccggag caaaggccgc cctgatcgag agactgtacg ccttcgaccc atccctgccc 480

ctgtttgaga agatgaggga gaaggccatc accgactatc tggatctgcg ctacgccaag 540

tatctgcgga ccgacgtgga gctggatgag atggccacat tctacggcat cgatacctct 600

cagacacggg agaagaagat cgaggagatc ctggccatct ctcctagcca gccaatctgg 660

gagaagctga tcagccagca cgtgatcgac cacatcgtgt gggacgatgc catgagggtg 720

gagagatcca ccagggccca ccctaaggca gactggctga tctctgatgg ctatgccgag 780

ctgacaatca tcgcaaggtg cccaaccacc ggcctgctgc tgaaggtgcg gtttgactgg 840

ctgaggaatg atgccatcgg cgtggacttc aagaccacac tgtctaccaa ccccacaaag 900

tttggctacc agatcaagga cctgcggtat gatctgcagc aggtgttcta ctgttatgtg 960

gccaatctgg ccggcatccc tgtgaagcac ttctgctttg tggccaccga gtacaaggac 1020

gccgataact gtgagacatt tgagctgtct cacaagaaag tgatcgagag caccgaggag 1080

atgttcgacc tgctggatga gtttaaggag gccctgacct ccggcaattg gtatggccac 1140

gacaggtccc gctctacatg ggtcatcgag gtg 1173

<210> 99

<211> 888

<212> DNA

<213> 芽孢杆菌属MUM 116

<400> 99

agcaagcagc tgaccacagt gaatacccag gccgtggtgg gcacattctc ccaggccgag 60

ctggataccc tgaagcagac aatcgccaag ggcaccacaa acgagcagtt cgccctgttt 120

gtgcagacct gcgccaactc taggctgaat ccatttctga accacatcca ctgtatcgtg 180

tataacggca aggagggcgc caccatgagc ctgcagatcg cagtggaggg catcctgtac 240

ctggcacgca agacagacgg ctataagggc atcgagtgcc agctgatcca cgagaatgac 300

gagttcaagt ttgatgccaa gtccaaggag gtggatcacc agatcggatt ccccaggggc 360

aacgtgatcg gaggatatgc aatcgcaaag agggagggct ttgacgatgt ggtggtgctg 420

atggagtcta acgaggtgga ccacatgctg aagggccgga atggccacat gtggagagac 480

tggttcaacg atatgtttaa gaagcacatc atgaagcggg ccgccaagct gcagtacggc 540

atcgagatcg cagaggacga gacagtgagc agcggaccta gcgtggataa tatcccagag 600

tataagccac agccccggaa ggacatcaca cccaaccagg acgtgatcga tgccccccct 660

cagcagccta agcaggacga tgaggccgcc aagctgaagg ccgccagatc tgaggtgagc 720

aagaagttca agaagctggg catcgtgaag gaggatcaga ccgagtacgt ggagaagcac 780

gtgcctggct tcaagggcac actgtccgac tttatcggcc tgtctcagct gctggatctg 840

aatatcgagg cccaggaggc ccagtccgcc gacggcgatc tgctggac 888

<210> 100

<211> 1323

<212> DNA

<213> 芽孢杆菌属MUM 116

<400> 100

acctacgccg ccgacgagac actggtgcag ctgctgctgt ccgtggatgg caagcagctg 60

ctgctgggaa ggggcctgaa gaagggcaag gcccagtact atatcaatga ggtgccatct 120

aaggccaagg agttcgagga gatccgggac cagctgtttg acaaggatct gttcatgtcc 180

ctgtttaacc cctcttactt ctttaccctg cactgggaga agcagagggc catgatgctg 240

aagtatgtga cagcccccgt gtctaaggag gtgctgaaga atctgcctga ggcccagtcc 300

gaggtgctgg agagatacct gaagaagcac tctctggtgg atctggagaa gatccacaag 360

gacaacaaga ataagcagga taaggcctat atctctgccc agagcaggac caacacactg 420

aaggagcagc tgatgcagct gaccgaggag aagctggaca tcgattccat caaggccgag 480

ctggcccaca tcgacatgca ggtcatcgag ctggagaagc agatggatac agccttcgag 540

aagaaccagg cctttaatct gcaggcccag atcaggaatc tgcaggacaa gatcgagatg 600

agcaaggagc ggtggccctc cctgaagaac gaagtgatcg aggatacctg ccggacatgc 660

aagcggcccc tggacgagga tagcgtggag gccgtgaagg ccgacaagga taatcggatc 720

gccgagtaca aggccaagca caactccctg gtgtctcaga gaaatgagct gaaggagcag 780

ctgaacacca tcgagtatat cgacgtgaca gagctgagag agcagatcaa ggagctggat 840

gagtccggac agcctctgag ggagcaggtg cgcatctaca gccagtatca gaatctggac 900

acccaggtga agtccgccga ggcagacgag aacggcatcc tgcaggatct gaaggcctct 960

atcttcatcc tggatagcat caaggccttt aggggcaagg aggccgagat gcaggccgag 1020

aaggtgcagg ccctgttcac cacactgagc gtgcgcctgt ttaagcagaa taagggcgac 1080

ggcgagatca agccagattt cgagatcgag atgaacgaca agccctatcg gaccctgagc 1140

ctgtccgagg gcatccgggc aggcctggag ctgcgggacg tgctgagcca gcagtccgag 1200

ctggtgaccc ctacattcgt ggataatgcc gagtctatca ccagcttcaa gcagccaaac 1260

ggccagctga tcatcagccg ggtggtggca ggacaggagc tgaagatcga ggccgtgagc 1320

gag 1323

<210> 101

<211> 804

<212> DNA

<213> 索氏志贺菌

<400> 101

accaagcagc cccctatcgc caaggccgac ctgcagaaaa cccaggagaa cagggcacca 60

gcagccatca agaacaatga tgtgatctcc tttatcaatc agccctctat gaaggagcag 120

ctggccgccg ccctgcctag gcacatgacc gccgagagga tgatccgcat cgccaccaca 180

gagatccgca aggtgcctgc cctgggcaac tgcgacacaa tgagcttcgt gagcgccatc 240

gtgcagtgta gccagctggg cctggagcca ggctccgccc tgggccacgc ctacctgctg 300

cccttcggca acaagaatga gaagtccggc aagaagaatg tgcagctgat catcggctat 360

aggggcatga tcgatctggc ccggagatct ggccagatcg cctctctgag cgccagagtg 420

gtgcgggagg gcgacgagtt caactttgag ttcggcctgg atgagaagct gatccaccgg 480

cctggcgaga atgaggacgc cccagtgacc cacgtgtacg cagtggccag actgaaggat 540

ggcggcaccc agtttgaagt gatgacaagg cgccagatcg agctggtgag gtcccagtct 600

aaggccggca acaatggccc ttgggtgacc cactgggagg agatggccaa gaaaaccgcc 660

atccggagac tgttcaagta cctgccagtg tctatcgaga tccagcgcgc cgtgagcatg 720

gacgagaagg agccactgac catcgacccc gccgatagct ccgtgctgac aggcgagtat 780

tctgtgatcg ataacagcga ggag 804

<210> 102

<211> 1944

<212> DNA

<213> 索氏志贺菌

<400> 102

gatcgcggcc tgctgacaaa ggagtggagg aagggaaacc gggtgagccg gatcaccagg 60

acagccagcg gagcaaacgc aggaggagga aatctgaccg acagaggcga gggcttcgtg 120

cacgatctga caagcctggc ccgcgacatc gcaaccggcg tgctggcccg gagcatggac 180

gtggacatct acaacctgca ccctgcccac gccaagagga tcgaggagat catcgccgag 240

aataagcccc ctttcagcgt gtttagagac aagtttatca caatgccagg cggcctggac 300

tactccaggg ccatcgtggt ggcctctgtg aaggaggccc caatcggcat cgaagtgatc 360

cccgcccacg tgaccgccta tctgaacaag gtgctgaccg agacagacca cgccaatcca 420

gatcccgaga tcgtggacat cgcatgcggc agaagctccg cccctatgcc acagagggtg 480

accgaggagg gcaagcagga cgatgaggag aagctgcagc cttctggcac cacagcagat 540

gagcagggag aggcagagac aatggagcca gacgccacaa agcaccacca ggatacccag 600

cctctggacg cccagagcca ggtgaacagc gtggatgcca agtatcagga gctgagagcc 660

gagctgcacg aggccaggaa gaacatccct tccaagaatc cagtggacgc agataagctg 720

ctggccgcct ctcgcggcga gttcgtggac ggcatcagcg acccaaacga tcccaagtgg 780

gtgaagggca tccagacacg ggattccgtg taccagaatc agcctgagac agagaaaacc 840

agccccgaca tgaagcagcc agagcctgtg gtgcagcagg agcctgagat cgccttcaac 900

gcctgcggac agaccggcgg cgacaattgc ccagattgtg gcgccgtgat gggcgatgcc 960

acctatcagg agacatttga cgaggagaac caggtggagg ccaaggagaa tgatcctgag 1020

gagatggagg gcgccgagca cccacacaac gagaatgccg gcagcgaccc ccacagagac 1080

tgttccgatg agacaggcga ggtggccgat cccgtgatcg tggaggacat cgagcctggc 1140

atctactatg gcatcagcaa cgagaattac cacgcaggcc ccggcgtgtc caagtctcag 1200

ctggacgaca tcgccgacac acctgccctg tatctgtgga ggaagaacgc cccagtggat 1260

accacaaaga ccaagacact ggacctgggc accgcattcc actgccgcgt gctggagcca 1320

gaggagttca gcaatcggtt tatcgtggcc cccgagttca accggagaac aaatgccggc 1380

aaggaggagg agaaggcctt tctgatggag tgtgcctcca caggcaagat ggtcatcacc 1440

gccgaggagg gcagaaagat cgagctgatg taccagtctg tgatggcact gccactggga 1500

cagtggctgg tggagagcgc cggacacgca gagtctagca tctattggga ggaccccgag 1560

acaggcatcc tgtgcaggtg tcgccccgac aagatcatcc ctgagttcca ctggatcatg 1620

gacgtgaaaa ccacagccga catccagcgg ttcaagacag cctactatga ttacaggtat 1680

cacgtgcagg atgccttcta ctccgacggc tatgaggccc agtttggcgt gcagcccacc 1740

ttcgtgtttc tggtggcctc taccacaatc gagtgcggca gataccccgt ggagatcttt 1800

atgatgggag aggaggcaaa gctggccgga cagctggagt atcaccgcaa cctgcggaca 1860

ctggccgatt gtctgaatac cgacgagtgg ccagccatca agaccctgtc cctgcccaga 1920

tgggcaaagg agtacgccaa cgac 1944

<210> 103

<211> 828

<212> DNA

<213> 肠道沙门氏菌

<400> 103

accaagcagc cccctatcgc caaggccgac ctgcagaaaa cccagggaaa cagggcacct 60

gcagcagtga atgacaagga tgtgctgtgc gtgatcaaca gccctgccat gaaggcacag 120

ctggccgccg ccctgccaag gcacatgacc gccgagagga tgatccgcat cgccaccaca 180

gagatcagga aggtgccaga gctgcgcaac tgcgacagca ccagcttcat cggcgccatc 240

gtgcagtgtt ctcagctggg cctggagccc ggcagcgccc tgggccacgc ctacctgctg 300

ccttttggca atggcaaggc caagaacggc aagaagaatg tgcagctgat catcggctat 360

cggggcatga tcgatctggc ccggagatct ggccagatca tctccctgag cgccagagtg 420

gtgcgggagt gtgacgagtt ctcctacgag ctgggcctgg atgagaagct ggtgcaccgg 480

ccaggcgaga acgaggacgc acccatcacc cacgtgtatg ccgtggccaa gctgaaggat 540

ggcggcgtgc agtttgaagt gatgaccaag aagcaggtgg agaaggtgag agatacacac 600

tccaaggccg ccaagaatgc cgcctctaag ggcgccagct ccatctggga cgagcacttc 660

gaggatatgg ccaagaaaac cgtgatccgg aagctgttta agtacctgcc cgtgagcatc 720

gagatccaga gagccgtgag catggacggc aaggaggtgg agacaatcaa cccagacgac 780

atcagcgtga tcgccggcga gtattccgtg atcgataatc ccgaggag 828

<210> 104

<211> 1944

<212> DNA

<213> 肠道沙门氏菌

<400> 104

gatcgcggcc tgctgacaaa ggagtggagg aagggaaacc gggtgagccg gatcaccagg 60

acagccagcg gagcaaacgc aggaggagga aatctgaccg acagaggcga gggcttcgtg 120

cacgatctga caagcctggc ccgcgacgtg gcaaccggcg tgctggcccg gagcatggac 180

gtggacatct acaacctgca ccctgcccac gccaagaggg tggaggagat catcgccgag 240

aataagcccc ctttcagcgt gtttagagac aagtttatca caatgcctgg cggcctggac 300

tactccaggg ccatcgtggt ggcctctgtg aaggaggccc ctatcggcat cgaagtgatc 360

ccagcccacg tgaccgagta tctgaacaag gtgctgaccg agacagacca cgccaatcca 420

gatcccgaga tcgtggacat cgcatgcggc agaagctccg cccctatgcc acagagggtg 480

accgaggagg gcaagcagga cgatgaggag aagccccagc cttctggagc tatggccgac 540

gagcaggcaa ccgcagagac agtggagcca aacgccacag agcaccacca gaatacccag 600

cccctggatg cccagagcca ggtgaactcc gtggacgcca agtatcagga gctgagagcc 660

gagctgcagg aggccaggaa gaacatcccc tccaagaatc ctgtggacgc agataagctg 720

ctggccgcct ctcgcggcga gttcgtggat ggcatcagcg accctaacga tccaaagtgg 780

gtgaagggca tccagacacg ggattccgtg taccagaatc agcccgagac agagaagatc 840

tctcctgacg ccaagcagcc agagcccgtg gtgcagcagg agcccgagac agtgtgcaac 900

gcctgtggac agaccggcgg cgacaattgc cctgattgtg gcgccgtgat gggcgacgcc 960

acatatcagg agacattcgg cgaggagaat caggtggagg ccaaggagaa ggaccccgag 1020

gagatggagg gagcagagca ccctcacaac gagaatgccg gcagcgaccc acacagagac 1080

tgttccgatg agacaggcga ggtggccgat ccagtgatcg tggaggacat cgagcctggc 1140

atctactatg gcatcagcaa cgagaattac cacgcaggcc ccggcgtgtc caagtctcag 1200

ctggacgaca tcgccgacac acccgccctg tatctgtgga ggaagaacgc ccctgtggat 1260

accacaaaga ccaagacact ggacctgggc accgcattcc actgccgcgt gctggagcct 1320

gaggagttca gcaatcggtt tatcgtggcc ccagagttca accggagaac aaatgccggc 1380

aaggaggagg agaaggcctt tctgatggag tgtgcctcca ccggcaagac agtgatcacc 1440

gccgaggagg gcagaaagat cgagctgatg taccagtctg tgatggcact gcctctggga 1500

cagtggctgg tggagagcgc cggacacgca gagtctagca tctattggga ggaccccgag 1560

acaggcatcc tgtgcaggtg tcgcccagac aagatcatcc ccgagttcca ctggatcatg 1620

gacgtgaaaa ccacagccga catccagcgg ttcaagacag cctactatga ttacaggtat 1680

cacgtgcagg atgccttcta ctccgacggc tatgaggccc agtttggcgt gcagccaacc 1740

ttcgtgtttc tggtggcctc taccacagtg gagtgcggca gataccccgt ggagatcttt 1800

atgatgggag aggaggcaaa gctggccgga cagcaggagt atcaccgcaa cctgcggaca 1860

ctggccgatt gtctgaatac cgacgagtgg cctgccatca agaccctgtc cctgccacgg 1920

tgggccaagg agtacgccaa cgac 1944

<210> 105

<211> 993

<212> DNA

<213> 醋酸杆菌属

<400> 105

aacgcccccc agaagcagaa taccagagcc gccgtgaaga agatcagccc tcaggagttc 60

gccgagcagt ttgccgccat catcccacag gtgaagtccg tgctgcccgc ccacgtgacc 120

ttcgagaagt ttgagcgggt ggtgagactg gccgtgcgga agaaccctga cctgctgaca 180

tgctccccag cctctctgtt catggcatgt atccaggcag cctccgacgg cctgctgcct 240

gatggaaggg agggagcaat cgtgagccgg tggagctcca agaagagctg caacgaggcc 300

tcctggatgc caatggtggc cggcctgatg aagctggccc ggaacagcgg cgacatcgcc 360

agcatctcta gccaggtggt gttcgagggc gagcacttta gagtggtgct gggcgacgag 420

gagaggatcg agcacgagcg cgatctgggc aagaccggcg gcaagatcgt ggcagcctac 480

gccgtggcaa ggctgaagga cggcagcgat ccaatccgcg agatcatgtc ctggggccag 540

atcgagaaga tcagaaacac aaataagaag tgggagtggg gaccctggaa ggcctgggag 600

gacgagatgg ccagaaagac cgtgatccgg agactggcca agagactgcc catgtctaca 660

gataaggagg gagagaggct gcgcagcgcc atcgagagga tcgactccct ggtggacatc 720

tctgccaacg tggacgcacc tcagatcgca gcagacgatg agtttgccgc cgccgcccac 780

ggcgtggagc cacagcagat cgcagcacct gacctgatcg gccgcctggc ccagatgcag 840

tccctggagc aggtgcagga catcgagccc caggtgtctc acgccatcca ggaggccgac 900

aagaggggcg acagcgatac agccaatgcc ctggatgccg ccctgcagag cgccctgtcc 960

cgcacctcta cagccaagga ggaggtgcct gcc 993

<210> 106

<211> 897

<212> DNA

<213> 醋酸杆菌属

<400> 106

gtgatctcta agagcggcat ctacgacctg accaacgagc agtatcacgc cgatccttgc 60

ccagagatgt ccctgagctc ctctggagcc agggacctgc tgagctcctg tcctgccaag 120

ttcatcgccg ccaagcagct gccacagcag aataagaggt gctttgacat cggctctgcc 180

ggacacctga tggtgctgga gccacacctg ttcgaccaga aggtgtgcga gatcaagcac 240

cctgattggc gcacaaaggc agcaaaggag gagcgggacg ccgcctacgc cgagggaaga 300

atccccctgc tgagccgcga ggtggaggac atcagggcaa tgcactccgt ggtgtggaga 360

gattctctgg gagccagggc cttcagcgga ggcaaggcag agcagtccct ggtgtggcgc 420

gacgaggagt ttggcatctg gtgccggctg cggcccgatt acgtgcctaa caatgccgtg 480

cggatcttcg actataagac cgccacaaac ggctcccccg atgcctttat gaaggagatc 540

tacaatcggg gctatcacca gcaggccgcc tggtatctgg acggatatga ggcagtgacc 600

ggccacaggc cacgcgagtt ctggtttgtg gtgcaggaga aaaccgcccc cttcctgctg 660

tctttctttc agatggatga gatgagcctg gagatcggcc ggaccctgaa cagacaggcc 720

aagggcatct ttgcctggtg cctgcgcaac aattgttggc caggctatca gcccgaggtg 780

gatggcaagg tgagattctt taccacatct ccccctgcct ggctggtgag ggagtacgag 840

tttaagaatg agcacggcgc ctatgagcca cccgagatca agcggaagga ggtggcc 897

<210> 107

<211> 825

<212> DNA

<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721+C107

<400> 107

ccaaagcagc cccctatcgc caaggcagac ctgcagaaaa cccagggagc acggacccca 60

acagcagtga agaacaataa cgatgtgatc tcctttatca atcagccttc tatgaaggag 120

cagctggccg ccgccctgcc aaggcacatg accgccgagc ggatgatcag aatcgccacc 180

acagagatca ggaaggtgcc cgccctgggc gactgcgata caatgtcttt tgtgagcgcc 240

atcgtgcagt gtagccagct gggcctggag cctggcggcg ccctgggcca cgcctacctg 300

ctgcctttcg gcaatcggaa cgagaagtcc ggcaagaaga atgtgcagct gatcatcggc 360

tatagaggca tgatcgacct ggcccggaga tccggacaga tcgccagcct gtccgccagg 420

gtggtgcgcg agggcgacga tttctctttt gagttcggcc tggaggagaa gctggtgcac 480

aggccaggcg agaacgagga cgcccccgtg acccacgtgt acgcagtggc acgcctgaag 540

gatggaggca cccagtttga agtgatgaca cggaagcaga tcgagctggt gagagcccag 600

tctaaggccg gcaataacgg cccttgggtg acccactggg aggagatggc caagaaaacc 660

gccatcaggc gcctgttcaa gtacctgccc gtgagcatcg agatccagag ggccgtgagc 720

atggatgaga aggagacact gacaatcgac ccagccgatg ccagcgtgat caccggcgag 780

tattccgtgg tggagaatgc cggcgtggag gagaacgtga cagcc 825

<210> 108

<211> 801

<212> DNA

<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721

<400> 108

tactatgaca tcccaaacga ggcctaccac gcaggccccg gcgtgtctaa gagccagctg 60

gacgacatcg ccgatacccc cgccatctat ctgtggcgga agaatgcccc tgtggacacc 120

gagaaaacca agtccctgga taccggcaca gccttccact gcagggtgct ggagccagag 180

gagttcagca agcggttcat catcgccccc gagttcaacc ggagaacctc cgccggcaag 240

gaggaggaga aaaccttcct ggaggagtgt acccggacag gcagaaccgt gctgacagcc 300

gaggagggca ggaagatcga gctgatgtac cagtccgtga tggcactgcc actgggacag 360

tggctggtgg agtctgccgg ctacgccgag agctccgtgt attgggagga ccctgagaca 420

ggcatcctgt gccggtgtag acccgataag atcatccctg agttccactg gatcatggac 480

gtgaaaacca cagccgacat ccagaggttt cgcaccgcct actatgacta cagataccac 540

gtgcaggacg ccttctactc tgatggctat agagcccagt ttggcgagat ccctacattc 600

gtgtttctgg tggccagcac cacagcagag tgcggcagat accccgtgga gatctttatg 660

atgggagagg acgcaaagct ggccggacag cgcgagtata ggcgcaatct gcagaccctg 720

gccgagtgtc tgaacaatga tgagtggcct gccatcaaga cactgtctct gccacggtgg 780

gccaaggaga acgccaatgc c 801

<210> 109

<211> 723

<212> DNA

<213> Pseudobacteriovorax antillogorgiicola

<400> 109

ggccacctgg tgagcaagac cgagcaggat tacatcaagc agcactatgc caagggcgcc 60

acagaccagg agttcgagca ctttatcggc gtgtgcaggg ccagaggcct gaacccagcc 120

gccaatcaga tctacttcgt gaagtatcgg tccaaggatg gaccagcaaa gccagccttt 180

atcctgtcta tcgacagcct gaggctgatc gcacaccgca ccggcgatta cgcaggatgc 240

tctgagccca tcttcacaga cggcggcaag gcctgtaccg tgacagtgcg gagaaacctg 300

aagagcggcg agacaggcaa tttctccggc atggcctttt atgacgagca ggtgcagcag 360

aagaacggcc ggcctacctc cttttggcag tctaagccaa gaacaatgct ggagaagtgt 420

gcagaggcaa aggccctgag gaaggccttc cctcaggatc tgggccagtt ttacatcaga 480

gaggagatgc cccctcagta tgacgagcct atccaggtgc acaagccaaa ggccctggag 540

gagcccaggt tcagcaagtc cgatctgtcc aggcgcaagg gcctgaacag gaagctgtct 600

gccctgggag tggaccccag ccgcttcgat gaggtggcca cctttctgga cggcacacct 660

gatcgcgagc tgggccagaa gctgaagctg tggctgaagg aggccggcta cggcgtgaat 720

cag 723

<210> 110

<211> 897

<212> DNA

<213> Pseudobacteriovorax antillogorgiicola

<400> 110

agcaagctgt ccaacctgaa ggtgtctaat agcgacgtgg atacactgag ccggatcaga 60

atgaaggagg gcgtgtatcg ggacctgcca atcgagagct accaccagtc ccccggctat 120

tctaagacca gcctgtgcca gatcgataag gcccctatct acctgaaaac caaggtgcca 180

cagaagtcca caaagtctct gaacatcggc accgccttcc acgaggctat ggagggcgtg 240

tttaaggaca agtatgtggt gcaccccgat cctggcgtga ataagaccac aaagtcttgg 300

aaggacttcg tgaagaggta tcctaagcac atgccactga agcgcagcga gtacgaccag 360

gtgctggcca tgtacgatgc cgcccggtct tatagacctt ttcagaagta ccacctgagc 420

cggggcttct acgagagctc cttttattgg cacgatgccg tgacaaacag cctgatcaag 480

tgcagacccg actatatcac ccctgatggc atgagcgtga tcgacttcaa gaccacagtg 540

gaccccagcc ccaagggctt tcagtaccag gcctacaagt atcactacta cgtgagcgcc 600

gccctgaccc tggagggaat cgaggcagtg accggcatca ggccaaagga gtacctgttc 660

ctggccgtgt ccaattctgc cccatacctg accgccctgt atcgcgcctc tgagaaggag 720

atcgccctgg gcgaccactt tatccggcgg agcctgctga ccctgaaaac ctgtctggag 780

tctggcaagt ggcccggcct gcaggaggag atcctggagc tgggcctgcc tttctccggc 840

ctgaaggagc tgagagagga gcaggaggtg gaggatgagt ttatggagct ggtgggc 897

<210> 111

<211> 669

<212> DNA

<213> 发光杆菌属JCM 19050

<400> 111

aacaccgaca tgatcgccat gcccccttct ccagccatca gcatgctgga cacaagcaag 60

ctggatgtga tggtgcgggc agcagagctg atgtcccagg ccgtggtcat ggtgcccgac 120

cacttcaagg gcaagccagc cgattgcctg gcagtggtca tgcaggcaga ccagtggggc 180

atgaacccct ttaccgtggc ccagaaaacc cacctggtga gcggcaccct gggatacgag 240

tcccagctgg tgaatgccgt gatcagctcc tctaaggcca tcaagggccg gttccactat 300

gagtggtctg atggctggga gagactggcc ggcaaggtgc agtacgtgaa ggagtctcgg 360

cagagaaagg gccagcaggg cagctatcag gtgaccgtgg ccaagccaac atggaagcca 420

gaggacgagc agggcctgtg ggtgcggtgt ggagccgtgc tggccggaga gaaggacatc 480

acatggggcc ctaagctgta cctggccagc gtgctggtgc ggaacagcga gctgtggacc 540

acaaagccct accagcaggc cgcctatacc gccctgaagg attggtcccg cctgtataca 600

cctgccgtga tgcagggctc tatgaccggc aagagctggt ccctgacagg caggctgatc 660

agcccccgc 669

<210> 112

<211> 663

<212> DNA

<213> 发光杆菌属JCM 19050

<400> 112

gccgagcggg tgagaaccta tcagcgggac gccgtgttcg cacacgagct gaaggccgag 60

tttgatgagg ccgtggagaa cggcaagacc ggcgtgacac tggaggacca ggccagggcc 120

aagaggatgg tgcacgaggc caccacaaac cccgcctctc ggaattggtt cagatacgac 180

ggagagctgg ccgcatgcga gaggagctat ttttggcgcg atgaggaggc aggcctggtg 240

ctgaaggcca ggcctgacaa ggagatcggc aacaatctga tcgatgtgaa gtccatcgag 300

gtgccaaccg acgtgtgcgc ctgtgatctg aacgcctata tcaatcggca gatcgagaag 360

agaggctacc acatctccgc cgcccactat ctgtctggca caggcaagga ccgcttcttt 420

tggatcttca tcaataaggt gaagggctac gagtgggtgg caatcgtgga ggcctctccc 480

ctgcacatcg agctgggcac ctatgaggtg ctggagggcc tgcggagcat cgccagctcc 540

acaaaggagg cagattaccc agcacctctg tcccaccctg tgaacgagag aggcatccca 600

cagcccctga tgtctaatct gagcacatac gccatgaaga ggctggagca gtttcgcgag 660

ctg 663

<210> 113

<211> 693

<212> DNA

<213> 产碱普罗威登斯菌DSM 30120

<400> 113

aaggcacagc tggccgccgc cctgcctaag cacatcacca gcgaccggat gatcagaatc 60

gtgtccaccg agatcagaaa gaccccatct ctggccaact gcgacatcca gagcttcatc 120

ggcgccgtgg tgcagtgttc tcagctgggc ctggagccag gcaacgccct gggacacgcc 180

tacctgctgc cctttggcaa tggcaagtcc gacaacggca agtctaatgt gcagctgatc 240

atcggctatc ggggcatgat cgatctggcc cggagaagcg gccagatcat ctctatcagc 300

gccaggaccg tgcgccaggg cgacaacttc cactttgagt acggcctgaa cgagaatctg 360

acccacatcc ccgagggcaa tgaggactcc cctatcacac acgtgtacgc agtggcacgg 420

ctgaaggatg agggcgtgca gttcgaagtg atgacatata accagatcga gaaggtgaga 480

gatagctcca aggccggcaa gaatggcccc tgggtgaccc actgggagga gatggccaag 540

aaaaccgtga tcaggcgcct gtttaagtac ctgcccgtga gcatcgagat gcagaaggcc 600

gtgatcctgg acgagaaggc cgaggccaat atcgagcagg atcactccgc catcttcgag 660

gccgagtttg aggaggtgga ctctaacggc aat 693

<210> 114

<211> 828

<212> DNA

<213> 产碱普罗威登斯菌DSM 30120

<400> 114

aacgagggca tctactatga catctctaat gaggactatc accacggcct gggcatctct 60

aagagccagc tggatctgat cgacgagagc cccgccgatt tcatctggca ccgggatgcc 120

cctgtggaca acgagaaaac caaggccctg gattttggca cagccctgca ctgcctgctg 180

ctggagccag acgagttcca gaagaggttt cgcatcgccc ccgaggtgaa ccggagaaca 240

aatgccggca aggagcagga gaaggagttc ctggagatgt gcgagaagga gaatatcacc 300

cccatcacaa acgaggataa taggaagctg tctctgatga aggacagcgc aatggcccac 360

cctatcgccc gctggtgtct ggaggccaag ggcatcgccg agagctccat ctattggaag 420

gacaaggata cagacatcct gtgccggtgt agaccagaca agctgatcga ggagcaccac 480

tggctggtgg atgtgaagtc caccgccgac atccagaagt tcgagcggtc tatgtacgag 540

tatagatacc acgtgcagga ttccttttat tctgacggct acaagagcct gacaggcgag 600

atgcccgtgt tcgtgttcct ggccgtgtcc accgtgatca actgcggcag ataccccgtg 660

cgggtgttcg tgctggacga gcaggcaaag tccgtgggac ggatcaccta taagcagaat 720

ctgtttacat acgccgagtg tctgaaaacc gacgagtggg ccggcatcag aaccctgagc 780

ctgccctcct gggcaaagga gctgaagcac gagcacacca cagcctct 828

<210> 115

<211> 271

<212> PRT

<213> 斯氏泛菌种属

<400> 115

Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Ala Asn

1 5 10 15

Thr Gly Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly

20 25 30

Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro

35 40 45

Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile

50 55 60

Arg Lys Thr Pro Ala Leu Ala Thr Cys Asp Gln Ser Ser Phe Ile Gly

65 70 75 80

Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu

85 90 95

Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly

100 105 110

Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu

115 120 125

Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg

130 135 140

Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile

145 150 155 160

His Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala

165 170 175

Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Val

180 185 190

Lys Gln Ile Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly

195 200 205

Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg

210 215 220

Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val

225 230 235 240

Ile Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser

245 250 255

Val Leu Ser Ala Glu Tyr Ser Val Leu Asp Gly Ser Ser Glu Glu

260 265 270

<210> 116

<211> 272

<212> PRT

<213> 斯氏泛菌种属

<400> 116

Met Gln Pro Gly Val Tyr Tyr Asp Ile Ser Asn Glu Glu Tyr His Ala

1 5 10 15

Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Val Ser Pro

20 25 30

Ala Ile Phe Gln Trp Arg Lys Ser Ala Pro Val Asp Asp Glu Lys Thr

35 40 45

Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Phe Ser Lys Arg Phe Met Ile Gly Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Asn Ala Gly Lys Gln Lys Glu Gln Asp Phe Leu Asp Met Cys Glu

85 90 95

Gln Gln Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Arg

100 105 110

Leu Met Arg Asp Ser Ala Phe Ala His Pro Val Ala Arg Trp Met Leu

115 120 125

Glu Thr Glu Gly Lys Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp

130 135 140

Thr Gln Ile Leu Ser Arg Cys Arg Pro Asp Lys Leu Ile Thr Glu Phe

145 150 155 160

Ser Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Gly Lys Phe Gln

165 170 175

Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Glu Ala Gln Phe Cys Glu Val Pro Thr Phe Ala Phe Leu

195 200 205

Val Val Ser Ser Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe

210 215 220

Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg

225 230 235 240

Asn Leu Thr Thr Tyr Ala Glu Cys Gln Ala Arg Asn Glu Trp Pro Gly

245 250 255

Ile Ala Thr Leu Ser Leu Pro Tyr Trp Ala Lys Glu Ile Arg Asn Val

260 265 270

<210> 117

<211> 273

<212> PRT

<213> 布氏泛菌

<400> 117

Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly

20 25 30

Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro

35 40 45

Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile

50 55 60

Arg Lys Thr Pro Gln Leu Ala Gln Cys Asp Gln Ser Ser Phe Ile Gly

65 70 75 80

Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu

85 90 95

Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly

100 105 110

Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu

115 120 125

Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg

130 135 140

Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Val

145 150 155 160

His Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala

165 170 175

Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Val

180 185 190

Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly

195 200 205

Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg

210 215 220

Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val

225 230 235 240

Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser

245 250 255

Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Ser Gly Asp Glu Ala Thr

260 265 270

Asn

<210> 118

<211> 272

<212> PRT

<213> 布氏泛菌

<400> 118

Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Arg

1 5 10 15

Gly Ala Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro

20 25 30

Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr

35 40 45

Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Phe Ser Lys Arg Phe Gln Ile Gly Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Ile Glu Arg Cys Glu

85 90 95

Ala Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Lys

100 105 110

Leu Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Arg Trp Met Leu

115 120 125

Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp

130 135 140

Ala Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Glu Phe

145 150 155 160

Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Met Lys Phe Gln

165 170 175

Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Glu Ser His Phe His Glu Thr Pro Thr Phe Ala Phe Leu

195 200 205

Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe

210 215 220

Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg

225 230 235 240

Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly

245 250 255

Ile Ala Thr Leu Ser Leu Pro Phe Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 119

<211> 270

<212> PRT

<213> 分散泛菌种属

<400> 119

Met Ser Asn Gln Pro Pro Leu Ala Thr Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gln Ser Asn Gln Val Ala Lys Thr Pro Glu Gln Thr Leu Val Gly Phe

20 25 30

Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro Arg

35 40 45

His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg

50 55 60

Lys Thr Pro Ala Leu Ala Gln Cys Asp Gln Ser Ser Phe Ile Gly Ala

65 70 75 80

Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly

85 90 95

His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly Gln

100 105 110

Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala

115 120 125

Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg Ala

130 135 140

Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile His

145 150 155 160

Arg Pro Gly Asp Asn Glu Ser Ala Pro Ile Thr His Val Tyr Ala Val

165 170 175

Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Ala Lys

180 185 190

Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly Pro

195 200 205

Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg

210 215 220

Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Val

225 230 235 240

Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser Val

245 250 255

Leu Ser Ala Glu Tyr Ser Val Leu Glu Ser Gly Thr Gly Glu

260 265 270

<210> 120

<211> 272

<212> PRT

<213> 分散泛菌种属

<400> 120

Met Glu Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Ala Tyr His Ser

1 5 10 15

Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Arg Ser Pro

20 25 30

Ala Ile Phe Gln Trp Arg Lys Asp Ala Pro Val Asp Thr Glu Lys Thr

35 40 45

Lys Ala Leu Asp Leu Gly Thr Asp Phe His Cys Ala Val Leu Glu Pro

50 55 60

Glu Arg Phe Ala Asp Met Tyr Arg Val Gly Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Thr Ala Gly Lys Ala Glu Glu Lys Glu Phe Phe Glu Lys Cys Glu

85 90 95

Lys Asp Gly Ala Val Pro Ile Thr His Asp Asp Ala Arg Lys Val Glu

100 105 110

Leu Met Arg Gly Ser Val Met Ala His Pro Ile Ala Lys Gln Met Ile

115 120 125

Ala Ala Gln Gly His Ala Glu Ala Ser Ile Tyr Trp His Asp Glu Ser

130 135 140

Thr Gly Asn Leu Cys Arg Cys Arg Pro Asp Lys Phe Ile Pro Asp Trp

145 150 155 160

Asn Trp Ile Val Asp Val Lys Thr Thr Ala Asp Met Lys Lys Phe Arg

165 170 175

Arg Glu Phe Tyr Asp Leu Arg Tyr His Val Gln Asp Ala Phe Tyr Thr

180 185 190

Asp Gly Tyr Ala Ala Gln Phe Gly Glu Arg Pro Thr Phe Val Phe Val

195 200 205

Val Thr Ser Thr Thr Ile Asp Cys Gly Arg Tyr Pro Thr Glu Val Phe

210 215 220

Phe Leu Asp Glu Glu Thr Lys Ala Ala Gly Arg Ser Glu Tyr Gln Ser

225 230 235 240

Asn Leu Val Thr Tyr Ser Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly

245 250 255

Ile Ala Thr Leu Ser Leu Pro His Trp Ala Lys Glu Leu Arg Asn Val

260 265 270

<210> 121

<211> 271

<212> PRT

<213> Plautia stali的F型共生体

<400> 121

Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly

20 25 30

Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro

35 40 45

Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile

50 55 60

Arg Lys Thr Pro Ala Leu Ala Thr Cys Asp Gln Ser Ser Phe Ile Gly

65 70 75 80

Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu

85 90 95

Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly

100 105 110

Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu

115 120 125

Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg

130 135 140

Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile

145 150 155 160

His Arg Pro Gly Asp Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala

165 170 175

Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Ala

180 185 190

Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly

195 200 205

Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg

210 215 220

Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val

225 230 235 240

Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser

245 250 255

Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Gly Asp Gly Gly Glu

260 265 270

<210> 122

<211> 272

<212> PRT

<213> Plautia stali的F型共生体

<400> 122

Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Gly

1 5 10 15

Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro

20 25 30

Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr

35 40 45

Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Phe Ser Lys Arg Phe Glu Ile Gly Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Met Glu Arg Cys Glu

85 90 95

Ala Glu Gly Val Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Arg

100 105 110

Leu Met Arg Asp Ser Ala Met Ala His Pro Ile Ala Arg Trp Met Leu

115 120 125

Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp

130 135 140

Thr Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Asp Phe

145 150 155 160

Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Ile Lys Phe Gln

165 170 175

Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Glu Ser His Phe Asp Glu Thr Pro Thr Phe Ala Phe Leu

195 200 205

Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe

210 215 220

Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg

225 230 235 240

Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly

245 250 255

Ile Ala Thr Leu Ser Leu Pro Tyr Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 123

<211> 268

<212> PRT

<213> 斯氏普罗威登斯菌

<400> 123

Met Ser Asn Pro Pro Leu Ala Gln Ala Asp Leu Gln Lys Thr Gln Gly

1 5 10 15

Thr Glu Val Lys Glu Lys Thr Lys Asp Gln Met Leu Val Glu Leu Ile

20 25 30

Asn Lys Pro Ser Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg His

35 40 45

Met Thr Pro Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg Lys

50 55 60

Thr Pro Ala Leu Ala Thr Cys Asp Met Gln Ser Phe Val Gly Ala Val

65 70 75 80

Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His

85 90 95

Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ser Lys Ser Gly Gln Ser

100 105 110

Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg

115 120 125

Arg Ser Gly Gln Ile Val Ser Ile Ser Ala Arg Thr Val Arg Gln Gly

130 135 140

Asp Asn Phe His Phe Glu Tyr Gly Leu Asn Glu Asn Leu Thr His Val

145 150 155 160

Pro Gly Glu Asn Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala

165 170 175

Arg Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln

180 185 190

Ile Glu Lys Val Arg Ala Ser Ser Lys Ala Gly Gln Asn Gly Pro Trp

195 200 205

Val Ser His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu

210 215 220

Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Ile Leu

225 230 235 240

Asp Glu Lys Ala Glu Ala Asn Ile Asp Gln Glu Asn Ala Thr Ile Phe

245 250 255

Glu Gly Glu Tyr Glu Glu Val Gly Thr Asp Gly Lys

260 265

<210> 124

<211> 270

<212> PRT

<213> 斯氏普罗威登斯菌

<400> 124

Glu Gly Ile Tyr Tyr Asn Ile Ser Asn Glu Asp Tyr His Asn Gly Leu

1 5 10 15

Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asn Glu Met Pro Ala Glu

20 25 30

Tyr Ile Trp Ser Lys Glu Ala Pro Val Asp Glu Glu Lys Ile Lys Pro

35 40 45

Leu Glu Ile Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro Asp Glu

50 55 60

Tyr His Lys Arg Tyr Lys Ile Gly Pro Asp Val Asn Arg Arg Thr Asn

65 70 75 80

Ala Gly Lys Glu Lys Glu Lys Glu Phe Phe Asp Met Cys Glu Lys Glu

85 90 95

Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Met Ile Met

100 105 110

Arg Asp Ser Ala Leu Ala His Pro Ile Ala Lys Trp Cys Leu Glu Ala

115 120 125

Asp Gly Val Ser Glu Ser Ser Ile Tyr Trp Thr Asp Lys Glu Thr Asp

130 135 140

Val Leu Cys Arg Cys Arg Pro Asp Arg Ile Ile Thr Ala His Asn Tyr

145 150 155 160

Ile Val Asp Val Lys Ser Ser Gly Asp Ile Glu Lys Phe Asp Tyr Glu

165 170 175

Tyr Tyr Asn Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser Asp Gly

180 185 190

Tyr Lys Glu Val Thr Gly Ile Thr Pro Thr Phe Leu Phe Leu Val Val

195 200 205

Ser Thr Lys Ile Asp Cys Gly Lys Tyr Pro Val Arg Thr Tyr Val Met

210 215 220

Ser Glu Glu Ala Lys Ser Ala Gly Arg Thr Ala Tyr Lys His Asn Leu

225 230 235 240

Leu Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly Ile Arg

245 250 255

Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 125

<211> 268

<212> PRT

<213> 普罗威登斯菌属MGF014

<400> 125

Met Ser Asn Pro Pro Leu Ala Gln Ser Asp Leu Gln Lys Thr Gln Gly

1 5 10 15

Thr Glu Val Lys Val Lys Thr Lys Asp Gln Gln Leu Ile Gln Phe Ile

20 25 30

Asn Gln Pro Ser Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg His

35 40 45

Met Thr Pro Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg Lys

50 55 60

Thr Pro Ala Leu Ala Thr Cys Asp Met Gln Ser Phe Val Gly Ala Val

65 70 75 80

Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His

85 90 95

Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ala Lys Ser Gly Gln Ser

100 105 110

Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg

115 120 125

Arg Ser Asn Gln Ile Ile Ser Ile Ser Ala Arg Thr Val Arg Gln Gly

130 135 140

Asp Asn Phe His Phe Glu Tyr Gly Leu Asn Glu Asp Leu Thr His Thr

145 150 155 160

Pro Ser Glu Asn Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala

165 170 175

Arg Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln

180 185 190

Val Glu Lys Val Arg Ala Ser Ser Lys Ala Gly Gln Asn Gly Pro Trp

195 200 205

Val Ser His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu

210 215 220

Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Val Leu

225 230 235 240

Asp Glu Lys Ala Glu Ala Asn Val Asp Gln Glu Asn Ala Thr Ile Phe

245 250 255

Glu Gly Glu Tyr Glu Glu Val Gly Thr Asp Gly Asn

260 265

<210> 126

<211> 272

<212> PRT

<213> 普罗威登斯菌属MGF014

<400> 126

Met Lys Glu Gly Ile Tyr Tyr Asn Ile Ser Asn Glu Asp Tyr His Asn

1 5 10 15

Gly Leu Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asn Glu Met Pro

20 25 30

Ala Glu Tyr Ile Trp Ser Lys Glu Ala Pro Val Asp Glu Glu Lys Ile

35 40 45

Lys Pro Leu Glu Ile Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Tyr His Lys Arg Tyr Lys Ile Gly Pro Asp Val Asn Arg Arg

65 70 75 80

Thr Asn Val Gly Lys Glu Lys Glu Lys Glu Phe Phe Asp Met Cys Glu

85 90 95

Lys Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Met

100 105 110

Ile Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Lys Trp Cys Leu

115 120 125

Glu Ala Asp Gly Val Ser Glu Ser Ser Ile Tyr Trp Thr Asp Lys Glu

130 135 140

Thr Asp Val Leu Cys Arg Cys Arg Pro Asp Arg Ile Ile Thr Ala His

145 150 155 160

Asn Tyr Ile Ile Asp Val Lys Ser Ser Gly Asp Ile Glu Lys Phe Asp

165 170 175

Tyr Glu Tyr Tyr Asn Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser

180 185 190

Asp Gly Tyr Lys Glu Val Thr Gly Ile Thr Pro Thr Phe Leu Phe Leu

195 200 205

Val Val Ser Thr Lys Ile Asp Cys Gly Lys Tyr Pro Val Arg Thr Tyr

210 215 220

Val Met Ser Glu Glu Ala Lys Ser Ala Gly Arg Thr Ala Tyr Lys His

225 230 235 240

Asn Leu Leu Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly

245 250 255

Ile Arg Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Leu Arg Asn Glu

260 265 270

<210> 127

<211> 238

<212> PRT

<213> 腐败希瓦氏菌

<400> 127

Met Gln Thr Ala Gln Val Lys Leu Ser Val Pro His Gln Gln Val Tyr

1 5 10 15

Gln Asp Asn Phe Asn Tyr Leu Ser Ser Gln Val Val Gly His Leu Val

20 25 30

Asp Leu Asn Glu Glu Ile Gly Tyr Leu Asn Gln Ile Val Phe Asn Ser

35 40 45

Leu Ser Thr Ala Ser Pro Leu Asp Val Ala Ala Pro Trp Ser Val Tyr

50 55 60

Gly Leu Leu Leu Asn Val Cys Arg Leu Gly Leu Ser Leu Asn Pro Glu

65 70 75 80

Lys Lys Leu Ala Tyr Val Met Pro Ser Trp Ser Glu Thr Gly Glu Ile

85 90 95

Ile Met Lys Leu Tyr Pro Gly Tyr Arg Gly Glu Ile Ala Ile Ala Ser

100 105 110

Asn Phe Asn Val Ile Lys Asn Ala Asn Ala Val Leu Val Tyr Glu Asn

115 120 125

Asp His Phe Arg Ile Gln Ala Ala Thr Gly Glu Ile Glu His Phe Val

130 135 140

Thr Ser Leu Ser Ile Asp Pro Arg Val Arg Gly Ala Cys Ser Gly Gly

145 150 155 160

Tyr Cys Arg Ser Val Leu Met Asp Asn Thr Ile Gln Ile Ser Tyr Leu

165 170 175

Ser Ile Glu Glu Met Asn Ala Ile Ala Gln Asn Gln Ile Glu Ala Asn

180 185 190

Met Gly Asn Thr Pro Trp Asn Ser Ile Trp Arg Thr Glu Met Asn Arg

195 200 205

Val Ala Leu Tyr Arg Arg Ala Ala Lys Asp Trp Arg Gln Leu Ile Lys

210 215 220

Ala Thr Pro Glu Ile Gln Ser Ala Leu Ser Asp Thr Glu Tyr

225 230 235

<210> 128

<211> 392

<212> PRT

<213> 腐败希瓦氏菌

<400> 128

Met Gly Thr Ala Leu Ala Gln Thr Ile Ser Leu Asp Trp Gln Asp Thr

1 5 10 15

Ile Gln Pro Ala Tyr Thr Ala Ser Gly Lys Pro Asn Phe Leu Asn Ala

20 25 30

Gln Gly Glu Ile Val Glu Gly Ile Tyr Thr Asp Leu Pro Asn Ser Val

35 40 45

Tyr His Ala Leu Asp Ala His Ser Ser Thr Gly Ile Lys Thr Phe Ala

50 55 60

Lys Gly Arg His His Tyr Phe Arg Gln Tyr Leu Ser Asp Val Cys Arg

65 70 75 80

Gln Arg Thr Lys Gln Gln Glu Tyr Thr Phe Asp Ala Gly Thr Tyr Gly

85 90 95

His Met Leu Val Leu Glu Pro Glu Asn Phe His Gly Asn Phe Met Arg

100 105 110

Asn Pro Val Pro Asp Asp Phe Pro Asp Ile Glu Leu Ile Glu Ser Ile

115 120 125

Pro Gln Leu Lys Ala Ala Leu Ala Lys Ser Asn Leu Pro Val Ser Gly

130 135 140

Ala Lys Ala Ala Leu Ile Glu Arg Leu Tyr Ala Phe Asp Pro Ser Leu

145 150 155 160

Pro Leu Phe Glu Lys Met Arg Glu Lys Ala Ile Thr Asp Tyr Leu Asp

165 170 175

Leu Arg Tyr Ala Lys Tyr Leu Arg Thr Asp Val Glu Leu Asp Glu Met

180 185 190

Ala Thr Phe Tyr Gly Ile Asp Thr Ser Gln Thr Arg Glu Lys Lys Ile

195 200 205

Glu Glu Ile Leu Ala Ile Ser Pro Ser Gln Pro Ile Trp Glu Lys Leu

210 215 220

Ile Ser Gln His Val Ile Asp His Ile Val Trp Asp Asp Ala Met Arg

225 230 235 240

Val Glu Arg Ser Thr Arg Ala His Pro Lys Ala Asp Trp Leu Ile Ser

245 250 255

Asp Gly Tyr Ala Glu Leu Thr Ile Ile Ala Arg Cys Pro Thr Thr Gly

260 265 270

Leu Leu Leu Lys Val Arg Phe Asp Trp Leu Arg Asn Asp Ala Ile Gly

275 280 285

Val Asp Phe Lys Thr Thr Leu Ser Thr Asn Pro Thr Lys Phe Gly Tyr

290 295 300

Gln Ile Lys Asp Leu Arg Tyr Asp Leu Gln Gln Val Phe Tyr Cys Tyr

305 310 315 320

Val Ala Asn Leu Ala Gly Ile Pro Val Lys His Phe Cys Phe Val Ala

325 330 335

Thr Glu Tyr Lys Asp Ala Asp Asn Cys Glu Thr Phe Glu Leu Ser His

340 345 350

Lys Lys Val Ile Glu Ser Thr Glu Glu Met Phe Asp Leu Leu Asp Glu

355 360 365

Phe Lys Glu Ala Leu Thr Ser Gly Asn Trp Tyr Gly His Asp Arg Ser

370 375 380

Arg Ser Thr Trp Val Ile Glu Val

385 390

<210> 129

<211> 297

<212> PRT

<213> 芽孢杆菌属MUM 116

<400> 129

Met Ser Lys Gln Leu Thr Thr Val Asn Thr Gln Ala Val Val Gly Thr

1 5 10 15

Phe Ser Gln Ala Glu Leu Asp Thr Leu Lys Gln Thr Ile Ala Lys Gly

20 25 30

Thr Thr Asn Glu Gln Phe Ala Leu Phe Val Gln Thr Cys Ala Asn Ser

35 40 45

Arg Leu Asn Pro Phe Leu Asn His Ile His Cys Ile Val Tyr Asn Gly

50 55 60

Lys Glu Gly Ala Thr Met Ser Leu Gln Ile Ala Val Glu Gly Ile Leu

65 70 75 80

Tyr Leu Ala Arg Lys Thr Asp Gly Tyr Lys Gly Ile Glu Cys Gln Leu

85 90 95

Ile His Glu Asn Asp Glu Phe Lys Phe Asp Ala Lys Ser Lys Glu Val

100 105 110

Asp His Gln Ile Gly Phe Pro Arg Gly Asn Val Ile Gly Gly Tyr Ala

115 120 125

Ile Ala Lys Arg Glu Gly Phe Asp Asp Val Val Val Leu Met Glu Ser

130 135 140

Asn Glu Val Asp His Met Leu Lys Gly Arg Asn Gly His Met Trp Arg

145 150 155 160

Asp Trp Phe Asn Asp Met Phe Lys Lys His Ile Met Lys Arg Ala Ala

165 170 175

Lys Leu Gln Tyr Gly Ile Glu Ile Ala Glu Asp Glu Thr Val Ser Ser

180 185 190

Gly Pro Ser Val Asp Asn Ile Pro Glu Tyr Lys Pro Gln Pro Arg Lys

195 200 205

Asp Ile Thr Pro Asn Gln Asp Val Ile Asp Ala Pro Pro Gln Gln Pro

210 215 220

Lys Gln Asp Asp Glu Ala Ala Lys Leu Lys Ala Ala Arg Ser Glu Val

225 230 235 240

Ser Lys Lys Phe Lys Lys Leu Gly Ile Val Lys Glu Asp Gln Thr Glu

245 250 255

Tyr Val Glu Lys His Val Pro Gly Phe Lys Gly Thr Leu Ser Asp Phe

260 265 270

Ile Gly Leu Ser Gln Leu Leu Asp Leu Asn Ile Glu Ala Gln Glu Ala

275 280 285

Gln Ser Ala Asp Gly Asp Leu Leu Asp

290 295

<210> 130

<211> 442

<212> PRT

<213> 芽孢杆菌属MUM 116

<400> 130

Met Thr Tyr Ala Ala Asp Glu Thr Leu Val Gln Leu Leu Leu Ser Val

1 5 10 15

Asp Gly Lys Gln Leu Leu Leu Gly Arg Gly Leu Lys Lys Gly Lys Ala

20 25 30

Gln Tyr Tyr Ile Asn Glu Val Pro Ser Lys Ala Lys Glu Phe Glu Glu

35 40 45

Ile Arg Asp Gln Leu Phe Asp Lys Asp Leu Phe Met Ser Leu Phe Asn

50 55 60

Pro Ser Tyr Phe Phe Thr Leu His Trp Glu Lys Gln Arg Ala Met Met

65 70 75 80

Leu Lys Tyr Val Thr Ala Pro Val Ser Lys Glu Val Leu Lys Asn Leu

85 90 95

Pro Glu Ala Gln Ser Glu Val Leu Glu Arg Tyr Leu Lys Lys His Ser

100 105 110

Leu Val Asp Leu Glu Lys Ile His Lys Asp Asn Lys Asn Lys Gln Asp

115 120 125

Lys Ala Tyr Ile Ser Ala Gln Ser Arg Thr Asn Thr Leu Lys Glu Gln

130 135 140

Leu Met Gln Leu Thr Glu Glu Lys Leu Asp Ile Asp Ser Ile Lys Ala

145 150 155 160

Glu Leu Ala His Ile Asp Met Gln Val Ile Glu Leu Glu Lys Gln Met

165 170 175

Asp Thr Ala Phe Glu Lys Asn Gln Ala Phe Asn Leu Gln Ala Gln Ile

180 185 190

Arg Asn Leu Gln Asp Lys Ile Glu Met Ser Lys Glu Arg Trp Pro Ser

195 200 205

Leu Lys Asn Glu Val Ile Glu Asp Thr Cys Arg Thr Cys Lys Arg Pro

210 215 220

Leu Asp Glu Asp Ser Val Glu Ala Val Lys Ala Asp Lys Asp Asn Arg

225 230 235 240

Ile Ala Glu Tyr Lys Ala Lys His Asn Ser Leu Val Ser Gln Arg Asn

245 250 255

Glu Leu Lys Glu Gln Leu Asn Thr Ile Glu Tyr Ile Asp Val Thr Glu

260 265 270

Leu Arg Glu Gln Ile Lys Glu Leu Asp Glu Ser Gly Gln Pro Leu Arg

275 280 285

Glu Gln Val Arg Ile Tyr Ser Gln Tyr Gln Asn Leu Asp Thr Gln Val

290 295 300

Lys Ser Ala Glu Ala Asp Glu Asn Gly Ile Leu Gln Asp Leu Lys Ala

305 310 315 320

Ser Ile Phe Ile Leu Asp Ser Ile Lys Ala Phe Arg Gly Lys Glu Ala

325 330 335

Glu Met Gln Ala Glu Lys Val Gln Ala Leu Phe Thr Thr Leu Ser Val

340 345 350

Arg Leu Phe Lys Gln Asn Lys Gly Asp Gly Glu Ile Lys Pro Asp Phe

355 360 365

Glu Ile Glu Met Asn Asp Lys Pro Tyr Arg Thr Leu Ser Leu Ser Glu

370 375 380

Gly Ile Arg Ala Gly Leu Glu Leu Arg Asp Val Leu Ser Gln Gln Ser

385 390 395 400

Glu Leu Val Thr Pro Thr Phe Val Asp Asn Ala Glu Ser Ile Thr Ser

405 410 415

Phe Lys Gln Pro Asn Gly Gln Leu Ile Ile Ser Arg Val Val Ala Gly

420 425 430

Gln Glu Leu Lys Ile Glu Ala Val Ser Glu

435 440

<210> 131

<211> 269

<212> PRT

<213> 索氏志贺菌

<400> 131

Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Glu Asn Arg Ala Pro Ala Ala Ile Lys Asn Asn Asp Val Ile Ser Phe

20 25 30

Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro Arg

35 40 45

His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg

50 55 60

Lys Val Pro Ala Leu Gly Asn Cys Asp Thr Met Ser Phe Val Ser Ala

65 70 75 80

Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly

85 90 95

His Ala Tyr Leu Leu Pro Phe Gly Asn Lys Asn Glu Lys Ser Gly Lys

100 105 110

Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala

115 120 125

Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg Glu

130 135 140

Gly Asp Glu Phe Asn Phe Glu Phe Gly Leu Asp Glu Lys Leu Ile His

145 150 155 160

Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala Val

165 170 175

Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg Arg

180 185 190

Gln Ile Glu Leu Val Arg Ser Gln Ser Lys Ala Gly Asn Asn Gly Pro

195 200 205

Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg Arg

210 215 220

Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val Ser

225 230 235 240

Met Asp Glu Lys Glu Pro Leu Thr Ile Asp Pro Ala Asp Ser Ser Val

245 250 255

Leu Thr Gly Glu Tyr Ser Val Ile Asp Asn Ser Glu Glu

260 265

<210> 132

<211> 648

<212> PRT

<213> 索氏志贺菌

<400> 132

Asp Arg Gly Leu Leu Thr Lys Glu Trp Arg Lys Gly Asn Arg Val Ser

1 5 10 15

Arg Ile Thr Arg Thr Ala Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu

20 25 30

Thr Asp Arg Gly Glu Gly Phe Val His Asp Leu Thr Ser Leu Ala Arg

35 40 45

Asp Ile Ala Thr Gly Val Leu Ala Arg Ser Met Asp Val Asp Ile Tyr

50 55 60

Asn Leu His Pro Ala His Ala Lys Arg Ile Glu Glu Ile Ile Ala Glu

65 70 75 80

Asn Lys Pro Pro Phe Ser Val Phe Arg Asp Lys Phe Ile Thr Met Pro

85 90 95

Gly Gly Leu Asp Tyr Ser Arg Ala Ile Val Val Ala Ser Val Lys Glu

100 105 110

Ala Pro Ile Gly Ile Glu Val Ile Pro Ala His Val Thr Ala Tyr Leu

115 120 125

Asn Lys Val Leu Thr Glu Thr Asp His Ala Asn Pro Asp Pro Glu Ile

130 135 140

Val Asp Ile Ala Cys Gly Arg Ser Ser Ala Pro Met Pro Gln Arg Val

145 150 155 160

Thr Glu Glu Gly Lys Gln Asp Asp Glu Glu Lys Leu Gln Pro Ser Gly

165 170 175

Thr Thr Ala Asp Glu Gln Gly Glu Ala Glu Thr Met Glu Pro Asp Ala

180 185 190

Thr Lys His His Gln Asp Thr Gln Pro Leu Asp Ala Gln Ser Gln Val

195 200 205

Asn Ser Val Asp Ala Lys Tyr Gln Glu Leu Arg Ala Glu Leu His Glu

210 215 220

Ala Arg Lys Asn Ile Pro Ser Lys Asn Pro Val Asp Ala Asp Lys Leu

225 230 235 240

Leu Ala Ala Ser Arg Gly Glu Phe Val Asp Gly Ile Ser Asp Pro Asn

245 250 255

Asp Pro Lys Trp Val Lys Gly Ile Gln Thr Arg Asp Ser Val Tyr Gln

260 265 270

Asn Gln Pro Glu Thr Glu Lys Thr Ser Pro Asp Met Lys Gln Pro Glu

275 280 285

Pro Val Val Gln Gln Glu Pro Glu Ile Ala Phe Asn Ala Cys Gly Gln

290 295 300

Thr Gly Gly Asp Asn Cys Pro Asp Cys Gly Ala Val Met Gly Asp Ala

305 310 315 320

Thr Tyr Gln Glu Thr Phe Asp Glu Glu Asn Gln Val Glu Ala Lys Glu

325 330 335

Asn Asp Pro Glu Glu Met Glu Gly Ala Glu His Pro His Asn Glu Asn

340 345 350

Ala Gly Ser Asp Pro His Arg Asp Cys Ser Asp Glu Thr Gly Glu Val

355 360 365

Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly

370 375 380

Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln

385 390 395 400

Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn

405 410 415

Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala

420 425 430

Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile

435 440 445

Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu

450 455 460

Lys Ala Phe Leu Met Glu Cys Ala Ser Thr Gly Lys Met Val Ile Thr

465 470 475 480

Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala

485 490 495

Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser

500 505 510

Ser Ile Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg

515 520 525

Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr

530 535 540

Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr

545 550 555 560

His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly

565 570 575

Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu Cys

580 585 590

Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu

595 600 605

Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys

610 615 620

Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg

625 630 635 640

Trp Ala Lys Glu Tyr Ala Asn Asp

645

<210> 133

<211> 277

<212> PRT

<213> 肠道沙门氏菌

<400> 133

Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gly Asn Arg Ala Pro Ala Ala Val Asn Asp Lys Asp Val Leu Cys Val

20 25 30

Ile Asn Ser Pro Ala Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg

35 40 45

His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg

50 55 60

Lys Val Pro Glu Leu Arg Asn Cys Asp Ser Thr Ser Phe Ile Gly Ala

65 70 75 80

Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly

85 90 95

His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ala Lys Asn Gly Lys

100 105 110

Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala

115 120 125

Arg Arg Ser Gly Gln Ile Ile Ser Leu Ser Ala Arg Val Val Arg Glu

130 135 140

Cys Asp Glu Phe Ser Tyr Glu Leu Gly Leu Asp Glu Lys Leu Val His

145 150 155 160

Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala Val

165 170 175

Ala Lys Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Lys Lys

180 185 190

Gln Val Glu Lys Val Arg Asp Thr His Ser Lys Ala Ala Lys Asn Ala

195 200 205

Ala Ser Lys Gly Ala Ser Ser Ile Trp Asp Glu His Phe Glu Asp Met

210 215 220

Ala Lys Lys Thr Val Ile Arg Lys Leu Phe Lys Tyr Leu Pro Val Ser

225 230 235 240

Ile Glu Ile Gln Arg Ala Val Ser Met Asp Gly Lys Glu Val Glu Thr

245 250 255

Ile Asn Pro Asp Asp Ile Ser Val Ile Ala Gly Glu Tyr Ser Val Ile

260 265 270

Asp Asn Pro Glu Glu

275

<210> 134

<211> 648

<212> PRT

<213> 肠道沙门氏菌

<400> 134

Asp Arg Gly Leu Leu Thr Lys Glu Trp Arg Lys Gly Asn Arg Val Ser

1 5 10 15

Arg Ile Thr Arg Thr Ala Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu

20 25 30

Thr Asp Arg Gly Glu Gly Phe Val His Asp Leu Thr Ser Leu Ala Arg

35 40 45

Asp Val Ala Thr Gly Val Leu Ala Arg Ser Met Asp Val Asp Ile Tyr

50 55 60

Asn Leu His Pro Ala His Ala Lys Arg Val Glu Glu Ile Ile Ala Glu

65 70 75 80

Asn Lys Pro Pro Phe Ser Val Phe Arg Asp Lys Phe Ile Thr Met Pro

85 90 95

Gly Gly Leu Asp Tyr Ser Arg Ala Ile Val Val Ala Ser Val Lys Glu

100 105 110

Ala Pro Ile Gly Ile Glu Val Ile Pro Ala His Val Thr Glu Tyr Leu

115 120 125

Asn Lys Val Leu Thr Glu Thr Asp His Ala Asn Pro Asp Pro Glu Ile

130 135 140

Val Asp Ile Ala Cys Gly Arg Ser Ser Ala Pro Met Pro Gln Arg Val

145 150 155 160

Thr Glu Glu Gly Lys Gln Asp Asp Glu Glu Lys Pro Gln Pro Ser Gly

165 170 175

Ala Met Ala Asp Glu Gln Ala Thr Ala Glu Thr Val Glu Pro Asn Ala

180 185 190

Thr Glu His His Gln Asn Thr Gln Pro Leu Asp Ala Gln Ser Gln Val

195 200 205

Asn Ser Val Asp Ala Lys Tyr Gln Glu Leu Arg Ala Glu Leu Gln Glu

210 215 220

Ala Arg Lys Asn Ile Pro Ser Lys Asn Pro Val Asp Ala Asp Lys Leu

225 230 235 240

Leu Ala Ala Ser Arg Gly Glu Phe Val Asp Gly Ile Ser Asp Pro Asn

245 250 255

Asp Pro Lys Trp Val Lys Gly Ile Gln Thr Arg Asp Ser Val Tyr Gln

260 265 270

Asn Gln Pro Glu Thr Glu Lys Ile Ser Pro Asp Ala Lys Gln Pro Glu

275 280 285

Pro Val Val Gln Gln Glu Pro Glu Thr Val Cys Asn Ala Cys Gly Gln

290 295 300

Thr Gly Gly Asp Asn Cys Pro Asp Cys Gly Ala Val Met Gly Asp Ala

305 310 315 320

Thr Tyr Gln Glu Thr Phe Gly Glu Glu Asn Gln Val Glu Ala Lys Glu

325 330 335

Lys Asp Pro Glu Glu Met Glu Gly Ala Glu His Pro His Asn Glu Asn

340 345 350

Ala Gly Ser Asp Pro His Arg Asp Cys Ser Asp Glu Thr Gly Glu Val

355 360 365

Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly

370 375 380

Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln

385 390 395 400

Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn

405 410 415

Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala

420 425 430

Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile

435 440 445

Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu

450 455 460

Lys Ala Phe Leu Met Glu Cys Ala Ser Thr Gly Lys Thr Val Ile Thr

465 470 475 480

Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala

485 490 495

Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser

500 505 510

Ser Ile Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg

515 520 525

Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr

530 535 540

Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr

545 550 555 560

His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly

565 570 575

Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Val Glu Cys

580 585 590

Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu

595 600 605

Ala Gly Gln Gln Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys

610 615 620

Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg

625 630 635 640

Trp Ala Lys Glu Tyr Ala Asn Asp

645

<210> 135

<211> 332

<212> PRT

<213> 醋酸杆菌属

<400> 135

Met Asn Ala Pro Gln Lys Gln Asn Thr Arg Ala Ala Val Lys Lys Ile

1 5 10 15

Ser Pro Gln Glu Phe Ala Glu Gln Phe Ala Ala Ile Ile Pro Gln Val

20 25 30

Lys Ser Val Leu Pro Ala His Val Thr Phe Glu Lys Phe Glu Arg Val

35 40 45

Val Arg Leu Ala Val Arg Lys Asn Pro Asp Leu Leu Thr Cys Ser Pro

50 55 60

Ala Ser Leu Phe Met Ala Cys Ile Gln Ala Ala Ser Asp Gly Leu Leu

65 70 75 80

Pro Asp Gly Arg Glu Gly Ala Ile Val Ser Arg Trp Ser Ser Lys Lys

85 90 95

Ser Cys Asn Glu Ala Ser Trp Met Pro Met Val Ala Gly Leu Met Lys

100 105 110

Leu Ala Arg Asn Ser Gly Asp Ile Ala Ser Ile Ser Ser Gln Val Val

115 120 125

Phe Glu Gly Glu His Phe Arg Val Val Leu Gly Asp Glu Glu Arg Ile

130 135 140

Glu His Glu Arg Asp Leu Gly Lys Thr Gly Gly Lys Ile Val Ala Ala

145 150 155 160

Tyr Ala Val Ala Arg Leu Lys Asp Gly Ser Asp Pro Ile Arg Glu Ile

165 170 175

Met Ser Trp Gly Gln Ile Glu Lys Ile Arg Asn Thr Asn Lys Lys Trp

180 185 190

Glu Trp Gly Pro Trp Lys Ala Trp Glu Asp Glu Met Ala Arg Lys Thr

195 200 205

Val Ile Arg Arg Leu Ala Lys Arg Leu Pro Met Ser Thr Asp Lys Glu

210 215 220

Gly Glu Arg Leu Arg Ser Ala Ile Glu Arg Ile Asp Ser Leu Val Asp

225 230 235 240

Ile Ser Ala Asn Val Asp Ala Pro Gln Ile Ala Ala Asp Asp Glu Phe

245 250 255

Ala Ala Ala Ala His Gly Val Glu Pro Gln Gln Ile Ala Ala Pro Asp

260 265 270

Leu Ile Gly Arg Leu Ala Gln Met Gln Ser Leu Glu Gln Val Gln Asp

275 280 285

Ile Glu Pro Gln Val Ser His Ala Ile Gln Glu Ala Asp Lys Arg Gly

290 295 300

Asp Ser Asp Thr Ala Asn Ala Leu Asp Ala Ala Leu Gln Ser Ala Leu

305 310 315 320

Ser Arg Thr Ser Thr Ala Lys Glu Glu Val Pro Ala

325 330

<210> 136

<211> 300

<212> PRT

<213> 醋酸杆菌属

<400> 136

Met Val Ile Ser Lys Ser Gly Ile Tyr Asp Leu Thr Asn Glu Gln Tyr

1 5 10 15

His Ala Asp Pro Cys Pro Glu Met Ser Leu Ser Ser Ser Gly Ala Arg

20 25 30

Asp Leu Leu Ser Ser Cys Pro Ala Lys Phe Ile Ala Ala Lys Gln Leu

35 40 45

Pro Gln Gln Asn Lys Arg Cys Phe Asp Ile Gly Ser Ala Gly His Leu

50 55 60

Met Val Leu Glu Pro His Leu Phe Asp Gln Lys Val Cys Glu Ile Lys

65 70 75 80

His Pro Asp Trp Arg Thr Lys Ala Ala Lys Glu Glu Arg Asp Ala Ala

85 90 95

Tyr Ala Glu Gly Arg Ile Pro Leu Leu Ser Arg Glu Val Glu Asp Ile

100 105 110

Arg Ala Met His Ser Val Val Trp Arg Asp Ser Leu Gly Ala Arg Ala

115 120 125

Phe Ser Gly Gly Lys Ala Glu Gln Ser Leu Val Trp Arg Asp Glu Glu

130 135 140

Phe Gly Ile Trp Cys Arg Leu Arg Pro Asp Tyr Val Pro Asn Asn Ala

145 150 155 160

Val Arg Ile Phe Asp Tyr Lys Thr Ala Thr Asn Gly Ser Pro Asp Ala

165 170 175

Phe Met Lys Glu Ile Tyr Asn Arg Gly Tyr His Gln Gln Ala Ala Trp

180 185 190

Tyr Leu Asp Gly Tyr Glu Ala Val Thr Gly His Arg Pro Arg Glu Phe

195 200 205

Trp Phe Val Val Gln Glu Lys Thr Ala Pro Phe Leu Leu Ser Phe Phe

210 215 220

Gln Met Asp Glu Met Ser Leu Glu Ile Gly Arg Thr Leu Asn Arg Gln

225 230 235 240

Ala Lys Gly Ile Phe Ala Trp Cys Leu Arg Asn Asn Cys Trp Pro Gly

245 250 255

Tyr Gln Pro Glu Val Asp Gly Lys Val Arg Phe Phe Thr Thr Ser Pro

260 265 270

Pro Ala Trp Leu Val Arg Glu Tyr Glu Phe Lys Asn Glu His Gly Ala

275 280 285

Tyr Glu Pro Pro Glu Ile Lys Arg Lys Glu Val Ala

290 295 300

<210> 137

<211> 276

<212> PRT

<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721

<400> 137

Met Pro Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln

1 5 10 15

Gly Ala Arg Thr Pro Thr Ala Val Lys Asn Asn Asn Asp Val Ile Ser

20 25 30

Phe Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro

35 40 45

Arg His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile

50 55 60

Arg Lys Val Pro Ala Leu Gly Asp Cys Asp Thr Met Ser Phe Val Ser

65 70 75 80

Ala Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Gly Ala Leu

85 90 95

Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Arg Asn Glu Lys Ser Gly

100 105 110

Lys Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu

115 120 125

Ala Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg

130 135 140

Glu Gly Asp Asp Phe Ser Phe Glu Phe Gly Leu Glu Glu Lys Leu Val

145 150 155 160

His Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala

165 170 175

Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg

180 185 190

Lys Gln Ile Glu Leu Val Arg Ala Gln Ser Lys Ala Gly Asn Asn Gly

195 200 205

Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg

210 215 220

Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val

225 230 235 240

Ser Met Asp Glu Lys Glu Thr Leu Thr Ile Asp Pro Ala Asp Ala Ser

245 250 255

Val Ile Thr Gly Glu Tyr Ser Val Val Glu Asn Ala Gly Val Glu Glu

260 265 270

Asn Val Thr Ala

275

<210> 138

<211> 268

<212> PRT

<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721

<400> 138

Met Tyr Tyr Asp Ile Pro Asn Glu Ala Tyr His Ala Gly Pro Gly Val

1 5 10 15

Ser Lys Ser Gln Leu Asp Asp Ile Ala Asp Thr Pro Ala Ile Tyr Leu

20 25 30

Trp Arg Lys Asn Ala Pro Val Asp Thr Glu Lys Thr Lys Ser Leu Asp

35 40 45

Thr Gly Thr Ala Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser

50 55 60

Lys Arg Phe Ile Ile Ala Pro Glu Phe Asn Arg Arg Thr Ser Ala Gly

65 70 75 80

Lys Glu Glu Glu Lys Thr Phe Leu Glu Glu Cys Thr Arg Thr Gly Arg

85 90 95

Thr Val Leu Thr Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln

100 105 110

Ser Val Met Ala Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly

115 120 125

Tyr Ala Glu Ser Ser Val Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu

130 135 140

Cys Arg Cys Arg Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met

145 150 155 160

Asp Val Lys Thr Thr Ala Asp Ile Gln Arg Phe Arg Thr Ala Tyr Tyr

165 170 175

Asp Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Arg

180 185 190

Ala Gln Phe Gly Glu Ile Pro Thr Phe Val Phe Leu Val Ala Ser Thr

195 200 205

Thr Ala Glu Cys Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu

210 215 220

Asp Ala Lys Leu Ala Gly Gln Arg Glu Tyr Arg Arg Asn Leu Gln Thr

225 230 235 240

Leu Ala Glu Cys Leu Asn Asn Asp Glu Trp Pro Ala Ile Lys Thr Leu

245 250 255

Ser Leu Pro Arg Trp Ala Lys Glu Asn Ala Asn Ala

260 265

<210> 139

<211> 242

<212> PRT

<213> Pseudobacteriovorax antillogorgiicola

<400> 139

Met Gly His Leu Val Ser Lys Thr Glu Gln Asp Tyr Ile Lys Gln His

1 5 10 15

Tyr Ala Lys Gly Ala Thr Asp Gln Glu Phe Glu His Phe Ile Gly Val

20 25 30

Cys Arg Ala Arg Gly Leu Asn Pro Ala Ala Asn Gln Ile Tyr Phe Val

35 40 45

Lys Tyr Arg Ser Lys Asp Gly Pro Ala Lys Pro Ala Phe Ile Leu Ser

50 55 60

Ile Asp Ser Leu Arg Leu Ile Ala His Arg Thr Gly Asp Tyr Ala Gly

65 70 75 80

Cys Ser Glu Pro Ile Phe Thr Asp Gly Gly Lys Ala Cys Thr Val Thr

85 90 95

Val Arg Arg Asn Leu Lys Ser Gly Glu Thr Gly Asn Phe Ser Gly Met

100 105 110

Ala Phe Tyr Asp Glu Gln Val Gln Gln Lys Asn Gly Arg Pro Thr Ser

115 120 125

Phe Trp Gln Ser Lys Pro Arg Thr Met Leu Glu Lys Cys Ala Glu Ala

130 135 140

Lys Ala Leu Arg Lys Ala Phe Pro Gln Asp Leu Gly Gln Phe Tyr Ile

145 150 155 160

Arg Glu Glu Met Pro Pro Gln Tyr Asp Glu Pro Ile Gln Val His Lys

165 170 175

Pro Lys Ala Leu Glu Glu Pro Arg Phe Ser Lys Ser Asp Leu Ser Arg

180 185 190

Arg Lys Gly Leu Asn Arg Lys Leu Ser Ala Leu Gly Val Asp Pro Ser

195 200 205

Arg Phe Asp Glu Val Ala Thr Phe Leu Asp Gly Thr Pro Asp Arg Glu

210 215 220

Leu Gly Gln Lys Leu Lys Leu Trp Leu Lys Glu Ala Gly Tyr Gly Val

225 230 235 240

Asn Gln

<210> 140

<211> 300

<212> PRT

<213> Pseudobacteriovorax antillogorgiicola

<400> 140

Met Ser Lys Leu Ser Asn Leu Lys Val Ser Asn Ser Asp Val Asp Thr

1 5 10 15

Leu Ser Arg Ile Arg Met Lys Glu Gly Val Tyr Arg Asp Leu Pro Ile

20 25 30

Glu Ser Tyr His Gln Ser Pro Gly Tyr Ser Lys Thr Ser Leu Cys Gln

35 40 45

Ile Asp Lys Ala Pro Ile Tyr Leu Lys Thr Lys Val Pro Gln Lys Ser

50 55 60

Thr Lys Ser Leu Asn Ile Gly Thr Ala Phe His Glu Ala Met Glu Gly

65 70 75 80

Val Phe Lys Asp Lys Tyr Val Val His Pro Asp Pro Gly Val Asn Lys

85 90 95

Thr Thr Lys Ser Trp Lys Asp Phe Val Lys Arg Tyr Pro Lys His Met

100 105 110

Pro Leu Lys Arg Ser Glu Tyr Asp Gln Val Leu Ala Met Tyr Asp Ala

115 120 125

Ala Arg Ser Tyr Arg Pro Phe Gln Lys Tyr His Leu Ser Arg Gly Phe

130 135 140

Tyr Glu Ser Ser Phe Tyr Trp His Asp Ala Val Thr Asn Ser Leu Ile

145 150 155 160

Lys Cys Arg Pro Asp Tyr Ile Thr Pro Asp Gly Met Ser Val Ile Asp

165 170 175

Phe Lys Thr Thr Val Asp Pro Ser Pro Lys Gly Phe Gln Tyr Gln Ala

180 185 190

Tyr Lys Tyr His Tyr Tyr Val Ser Ala Ala Leu Thr Leu Glu Gly Ile

195 200 205

Glu Ala Val Thr Gly Ile Arg Pro Lys Glu Tyr Leu Phe Leu Ala Val

210 215 220

Ser Asn Ser Ala Pro Tyr Leu Thr Ala Leu Tyr Arg Ala Ser Glu Lys

225 230 235 240

Glu Ile Ala Leu Gly Asp His Phe Ile Arg Arg Ser Leu Leu Thr Leu

245 250 255

Lys Thr Cys Leu Glu Ser Gly Lys Trp Pro Gly Leu Gln Glu Glu Ile

260 265 270

Leu Glu Leu Gly Leu Pro Phe Ser Gly Leu Lys Glu Leu Arg Glu Glu

275 280 285

Gln Glu Val Glu Asp Glu Phe Met Glu Leu Val Gly

290 295 300

<210> 141

<211> 224

<212> PRT

<213> 发光杆菌属JCM 19050

<400> 141

Met Asn Thr Asp Met Ile Ala Met Pro Pro Ser Pro Ala Ile Ser Met

1 5 10 15

Leu Asp Thr Ser Lys Leu Asp Val Met Val Arg Ala Ala Glu Leu Met

20 25 30

Ser Gln Ala Val Val Met Val Pro Asp His Phe Lys Gly Lys Pro Ala

35 40 45

Asp Cys Leu Ala Val Val Met Gln Ala Asp Gln Trp Gly Met Asn Pro

50 55 60

Phe Thr Val Ala Gln Lys Thr His Leu Val Ser Gly Thr Leu Gly Tyr

65 70 75 80

Glu Ser Gln Leu Val Asn Ala Val Ile Ser Ser Ser Lys Ala Ile Lys

85 90 95

Gly Arg Phe His Tyr Glu Trp Ser Asp Gly Trp Glu Arg Leu Ala Gly

100 105 110

Lys Val Gln Tyr Val Lys Glu Ser Arg Gln Arg Lys Gly Gln Gln Gly

115 120 125

Ser Tyr Gln Val Thr Val Ala Lys Pro Thr Trp Lys Pro Glu Asp Glu

130 135 140

Gln Gly Leu Trp Val Arg Cys Gly Ala Val Leu Ala Gly Glu Lys Asp

145 150 155 160

Ile Thr Trp Gly Pro Lys Leu Tyr Leu Ala Ser Val Leu Val Arg Asn

165 170 175

Ser Glu Leu Trp Thr Thr Lys Pro Tyr Gln Gln Ala Ala Tyr Thr Ala

180 185 190

Leu Lys Asp Trp Ser Arg Leu Tyr Thr Pro Ala Val Met Gln Gly Ser

195 200 205

Met Thr Gly Lys Ser Trp Ser Leu Thr Gly Arg Leu Ile Ser Pro Arg

210 215 220

<210> 142

<211> 222

<212> PRT

<213> 发光杆菌属JCM 19050

<400> 142

Met Ala Glu Arg Val Arg Thr Tyr Gln Arg Asp Ala Val Phe Ala His

1 5 10 15

Glu Leu Lys Ala Glu Phe Asp Glu Ala Val Glu Asn Gly Lys Thr Gly

20 25 30

Val Thr Leu Glu Asp Gln Ala Arg Ala Lys Arg Met Val His Glu Ala

35 40 45

Thr Thr Asn Pro Ala Ser Arg Asn Trp Phe Arg Tyr Asp Gly Glu Leu

50 55 60

Ala Ala Cys Glu Arg Ser Tyr Phe Trp Arg Asp Glu Glu Ala Gly Leu

65 70 75 80

Val Leu Lys Ala Arg Pro Asp Lys Glu Ile Gly Asn Asn Leu Ile Asp

85 90 95

Val Lys Ser Ile Glu Val Pro Thr Asp Val Cys Ala Cys Asp Leu Asn

100 105 110

Ala Tyr Ile Asn Arg Gln Ile Glu Lys Arg Gly Tyr His Ile Ser Ala

115 120 125

Ala His Tyr Leu Ser Gly Thr Gly Lys Asp Arg Phe Phe Trp Ile Phe

130 135 140

Ile Asn Lys Val Lys Gly Tyr Glu Trp Val Ala Ile Val Glu Ala Ser

145 150 155 160

Pro Leu His Ile Glu Leu Gly Thr Tyr Glu Val Leu Glu Gly Leu Arg

165 170 175

Ser Ile Ala Ser Ser Thr Lys Glu Ala Asp Tyr Pro Ala Pro Leu Ser

180 185 190

His Pro Val Asn Glu Arg Gly Ile Pro Gln Pro Leu Met Ser Asn Leu

195 200 205

Ser Thr Tyr Ala Met Lys Arg Leu Glu Gln Phe Arg Glu Leu

210 215 220

<210> 143

<211> 232

<212> PRT

<213> 产碱普罗威登斯菌DSM 30120

<400> 143

Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Lys His Ile Thr Ser Asp

1 5 10 15

Arg Met Ile Arg Ile Val Ser Thr Glu Ile Arg Lys Thr Pro Ser Leu

20 25 30

Ala Asn Cys Asp Ile Gln Ser Phe Ile Gly Ala Val Val Gln Cys Ser

35 40 45

Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His Ala Tyr Leu Leu

50 55 60

Pro Phe Gly Asn Gly Lys Ser Asp Asn Gly Lys Ser Asn Val Gln Leu

65 70 75 80

Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg Arg Ser Gly Gln

85 90 95

Ile Ile Ser Ile Ser Ala Arg Thr Val Arg Gln Gly Asp Asn Phe His

100 105 110

Phe Glu Tyr Gly Leu Asn Glu Asn Leu Thr His Ile Pro Glu Gly Asn

115 120 125

Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala Arg Leu Lys Asp

130 135 140

Glu Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln Ile Glu Lys Val

145 150 155 160

Arg Asp Ser Ser Lys Ala Gly Lys Asn Gly Pro Trp Val Thr His Trp

165 170 175

Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu Phe Lys Tyr Leu

180 185 190

Pro Val Ser Ile Glu Met Gln Lys Ala Val Ile Leu Asp Glu Lys Ala

195 200 205

Glu Ala Asn Ile Glu Gln Asp His Ser Ala Ile Phe Glu Ala Glu Phe

210 215 220

Glu Glu Val Asp Ser Asn Gly Asn

225 230

<210> 144

<211> 277

<212> PRT

<213> 产碱普罗威登斯菌DSM 30120

<400> 144

Met Asn Glu Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His His

1 5 10 15

Gly Leu Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asp Glu Ser Pro

20 25 30

Ala Asp Phe Ile Trp His Arg Asp Ala Pro Val Asp Asn Glu Lys Thr

35 40 45

Lys Ala Leu Asp Phe Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro

50 55 60

Asp Glu Phe Gln Lys Arg Phe Arg Ile Ala Pro Glu Val Asn Arg Arg

65 70 75 80

Thr Asn Ala Gly Lys Glu Gln Glu Lys Glu Phe Leu Glu Met Cys Glu

85 90 95

Lys Glu Asn Ile Thr Pro Ile Thr Asn Glu Asp Asn Arg Lys Leu Ser

100 105 110

Leu Met Lys Asp Ser Ala Met Ala His Pro Ile Ala Arg Trp Cys Leu

115 120 125

Glu Ala Lys Gly Ile Ala Glu Ser Ser Ile Tyr Trp Lys Asp Lys Asp

130 135 140

Thr Asp Ile Leu Cys Arg Cys Arg Pro Asp Lys Leu Ile Glu Glu His

145 150 155 160

His Trp Leu Val Asp Val Lys Ser Thr Ala Asp Ile Gln Lys Phe Glu

165 170 175

Arg Ser Met Tyr Glu Tyr Arg Tyr His Val Gln Asp Ser Phe Tyr Ser

180 185 190

Asp Gly Tyr Lys Ser Leu Thr Gly Glu Met Pro Val Phe Val Phe Leu

195 200 205

Ala Val Ser Thr Val Ile Asn Cys Gly Arg Tyr Pro Val Arg Val Phe

210 215 220

Val Leu Asp Glu Gln Ala Lys Ser Val Gly Arg Ile Thr Tyr Lys Gln

225 230 235 240

Asn Leu Phe Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly

245 250 255

Ile Arg Thr Leu Ser Leu Pro Ser Trp Ala Lys Glu Leu Lys His Glu

260 265 270

His Thr Thr Ala Ser

275

<210> 145

<211> 26

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 145

aacaugagga ucacccaugu cugcag 26

<210> 146

<211> 26

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 146

agcaugagga ucacccaugu cugcag 26

<210> 147

<211> 26

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 147

agcgugagga ucacccaugc cugcag 26

<210> 148

<211> 37

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 148

Ser Ala Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro

1 5 10 15

Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly

20 25 30

Gly Ser Gly Gly Ser

35

<210> 149

<211> 22

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 149

Gly Asn Ala Arg Thr Arg Arg Arg Glu Arg Arg Ala Glu Lys Gln Ala

1 5 10 15

Gln Trp Lys Ala Ala Asn

20

<210> 150

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 150

gcccugaaaa agggc 15

<210> 151

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 151

gcccugaaga agggc 15

<210> 152

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 152

gcgcugaaaa agcgc 15

<210> 153

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 153

gcccugacaa agggc 15

<210> 154

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 154

gcgcugacaa agcgc 15

<210> 155

<211> 21

<212> PRT

<213> 人工序列

<220>

<223> 合成的

<400> 155

Gly Asn Ala Lys Thr Arg Arg His Glu Arg Arg Arg Lys Leu Ala Ile

1 5 10 15

Glu Arg Asp Thr Ile

20

<210> 156

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 156

gcgcugacaa agcgc 15

<210> 157

<211> 15

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 157

ccgccgacaa cgcgg 15

<210> 158

<211> 17

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 158

ugcgcugaca aagcgcg 17

<210> 159

<211> 17

<212> RNA

<213> 人工序列

<220>

<223> 合成的

<400> 159

accgccgaca acgcggu 17

<210> 160

<211> 200

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 160

caccttcaga ttttcctgta acgatcggga actggcatct tcagggagta gctgacctct 60

tctcttcctc ccacaggatc ctggagccac ccgcagttcg aaaagctcag tgaagagaag 120

aacaaaaagc agcatattac agttagttgt cttcatcaat ctttaaatat gttgtgtggt 180

ttttctctcc ctgtttccac 200

<210> 161

<211> 200

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 161

gtggaaacag ggagagaaaa accacacaac atatttaaag attgatgaag acaactaact 60

gtaatatgct gctttttgtt cttctcttca ctgagctttt cgaactgcgg gtggctccag 120

gatcctgtgg gaggaagaga agaggtcagc tactccctga agatgccagt tcccgatcgt 180

tacaggaaaa tctgaaggtg 200

<210> 162

<211> 121

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 162

actttgagtg tagcagagag gaaccattgc caccttcaga ttttcctgta acgatcggga 60

actggcatct tcagggagta gctgacctct tctcttcctc ccacaggatc ctggagccac 120

c 121

<210> 163

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 163

tccaccccac agtggggcaa gcttctgacc tcttctcttc ctcccacagg gcct 54

<210> 164

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<220>

<221> misc_feature

<222> (21)..(21)

<223> n is a, c, g, or t

<400> 164

ttgacctgca gtccagccta ngg 23

<210> 165

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<220>

<221> misc_feature

<222> (21)..(21)

<223> n is a, c, g, or t

<400> 165

ccaccgcaaa tgcttctagg ngg 23

Claims

1.一种系统，包括：

Cas蛋白；

包含与靶DNA序列互补的指导RNA序列的核酸分子；和

微生物重组蛋白，

其中所述微生物重组蛋白选自由RecE、RecT、λ外切核酸酶、Bet蛋白、外切核酸酶gp6、单链DNA结合蛋白gp2.5或其衍生物或变体组成的组。

2.根据权利要求1所述的系统，还包括募集系统，所述募集系统包括。

至少一种适体序列；和

作为融合蛋白的一部分与所述微生物重组蛋白功能性连接的适体结合蛋白。

3.根据权利要求2所述的系统，其中所述至少一种适体序列是RNA适体序列或肽适体序列。

4.根据权利要求3所述的系统，其中所述核酸分子包含所述至少一种RNA适体序列。

5.根据权利要求4所述的系统，其中所述核酸分子包括两种RNA适体序列。

6.根据权利要求5所述的系统，其中所述两种RNA适体序列包含相同的序列。

7.根据权利要求2-6中任一项所述的系统，其中所述适体结合蛋白包括MS2外壳蛋白或其功能衍生物或变体。

8.根据权利要求2-6中任一项所述的系统，其中所述适体结合蛋白包括噬菌体N肽或其功能衍生物或变体。

9.根据权利要求3所述的系统，其中所述至少一种肽适体序列与所述Cas蛋白缀合。

10.根据权利要求9所述的系统，其中所述至少一种肽适体序列包括1至24个肽适体序列。

11.根据权利要求9或10所述的系统，其中所述适体序列包含相同序列。

12.根据权利要求2-3或9-11中任一项所述的系统，其中所述适体序列包括GCN4肽序列。

13.根据权利要求2-12中任一项所述的系统，其中所述微生物重组蛋白N-端连接至所述适体结合蛋白C-端。

14.根据权利要求2-13中任一项所述的系统，其中所述融合蛋白进一步包含所述微生物重组蛋白和所述适体结合蛋白之间的接头。

15.根据权利要求14所述的组合物，其中所述接头包含SEQ ID NO：15的氨基酸序列。

16.根据权利要求2-15中任一项所述的系统，其中所述融合蛋白进一步包含核定位序列。

17.根据权利要求16所述的组合物，其中所述核定位序列包含SEQ ID NO：16的氨基酸序列。

18.根据权利要求16或权利要求17所述的系统，其中所述核定位序列位于微生物重组蛋白C端。

19.根据权利要求1-18中任一项所述的系统，其中所述RecE或RecT重组蛋白来源于大肠杆菌(E.coli)。

20.根据权利要求1-19中任一项所述的系统，其中所述微生物重组蛋白包括RecE或其衍生物或变体。

21.根据权利要求1-20中任一项所述的系统，其中所述RecE或其衍生物或变体包含与选自由SEQ ID NO：1-8组成的组的氨基酸序列具有至少70％相似性的氨基酸序列。

22.根据权利要求1-21中任一项所述的系统，其中所述RecE或其衍生物或变体包含与选自由SEQ ID NO：1-3组成的组的氨基酸序列具有至少70％相似性的氨基酸序列。

23.根据权利要求1-19中任一项所述的系统，其中所述融合蛋白包括RecT或其衍生物或变体。

24.根据权利要求1-19或23中任一项所述的系统，其中所述RecT或其衍生物或变体包含与选自由SEQ ID NO：9-14组成的组的氨基酸序列具有至少70％相似性的氨基酸序列。

25.根据权利要求1-19或23-24中任一项所述的系统，其中所述RecT或其衍生物或变体包含与选自由SEQ ID NO：9组成的组的氨基酸序列具有至少70％相似性的氨基酸序列。

26.根据权利要求1-25中任一项所述的系统，其中所述Cas蛋白是催化失活的。

27.根据权利要求1-26中任一项所述的系统，其中所述Cas蛋白是Cas9或Cas12a。

28.根据权利要求27所述的系统，其中所述Cas9蛋白是野生型化脓性链球菌(Streptococcus pyogenes)Cas9或野生型金黄色葡萄球菌(Staphylococcus aureus)Cas9。

29.根据权利要求27-28中任一项所述的系统，其中所述Cas9蛋白是Cas9切口酶。

30.根据权利要求29所述的系统，其中所述Cas9-切口酶在野生型化脓性链球菌(Streptococcus pyogenes)Cas9的第10位具有氨基酸取代D10A。

31.根据权利要求1-30中任一项所述的系统，还包括供体核酸。

32.根据权利要求1-31中任一项所述的系统，其中所述靶DNA序列是宿主细胞中的基因组DNA序列。

33.一种组合物，包含：

包含编码融合蛋白的核酸序列的多核苷酸，所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白，

其中所述微生物重组蛋白是RecE、RecT、λ外切核酸酶、Bet蛋白、外切核酸酶gp6、单链DNA结合蛋白gp2.5或其衍生物或变体。

34.根据权利要求33所述的组合物，还包含以下至少一种：

包含编码Cas蛋白的核酸序列的多核苷酸；和

包含与靶DNA序列互补的指导RNA序列的核酸分子。

35.根据权利要求34所述的组合物，其中所述核酸分子还包含至少一种RNA适体序列。

36.根据权利要求34所述的组合物，其中所述包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。

37.一种包含多核苷酸的载体，所述多核苷酸包含编码融合蛋白的核酸序列，所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。

38.根据权利要求37所述的载体，还包含以下至少一种：

包含编码Cas蛋白的核酸序列的多核苷酸；和

包含与靶DNA序列互补的指导RNA序列的核酸分子。

39.根据权利要求38所述的载体，其中所述核酸分子还包含至少一种RNA适体序列。

40.根据权利要求38所述的载体，其中所述包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。

41.一种真核细胞，包含权利要求1-32中任一项所述的系统、权利要求33-36中任一项所述的组合物或权利要求37-40中任一项所述的载体。

42.一种改变细胞中靶基因组DNA序列的方法，包括将权利要求1-32中任一项所述的系统、权利要求33-36中任一项所述的组合物或权利要求37-40中任一项所述的载体引入包含靶基因组DNA序列的细胞中。

43.根据权利要求42所述的方法，其中所述细胞是哺乳动物细胞。

44.根据权利要求42或权利要求43所述的方法，其中所述细胞是人细胞。

45.根据权利要求42-44中任一项所述的方法，其中所述细胞是干细胞。

46.根据权利要求42-45中任一项所述的方法，其中所述靶基因组DNA序列编码基因产物。

47.根据权利要求42-46中任一项所述的方法，其中所述引入细胞包括给受试者施用。

48.根据权利要求47所述的方法，其中所述受试者是人。

49.根据权利要求47或48所述的方法，其中所述施用包括体内施用。

50.根据权利要求47或48所述的方法，其中所述施用包括移植包含所述系统、组合物或载体的离体处理的细胞。

51.根据权利要求1-32中任一项所述的系统、权利要求33-36中任一项所述的组合物或权利要求37-40中任一项所述的载体用于改变细胞中靶DNA序列的用途。