CN115667283A - Rna指导的千碱基规模基因组重组工程 - Google Patents

Rna指导的千碱基规模基因组重组工程 Download PDF

Info

Publication number
CN115667283A
CN115667283A CN202180033011.8A CN202180033011A CN115667283A CN 115667283 A CN115667283 A CN 115667283A CN 202180033011 A CN202180033011 A CN 202180033011A CN 115667283 A CN115667283 A CN 115667283A
Authority
CN
China
Prior art keywords
ala
glu
leu
ser
asp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180033011.8A
Other languages
English (en)
Inventor
丛乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Publication of CN115667283A publication Critical patent/CN115667283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/24Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Enterobacteriaceae (F), e.g. Citrobacter, Serratia, Proteus, Providencia, Morganella, Yersinia
    • C07K14/245Escherichia (G)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/305Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Micrococcaceae (F)
    • C07K14/31Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Micrococcaceae (F) from Staphylococcus (G)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/115Aptamers, i.e. nucleic acids binding a target molecule specifically and with high affinity without hybridising therewith ; Nucleic acids binding to non-nucleic acids, e.g. aptamers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • C12N15/625DNA sequences coding for fusion proteins containing a sequence coding for a signal sequence
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/16Aptamers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/35Nature of the modification
    • C12N2310/351Conjugate
    • C12N2310/3519Fusion with another nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2510/00Genetically modified cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Cell Biology (AREA)
  • Mycology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Saccharide Compounds (AREA)
  • Peptides Or Proteins (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供了使用CRISPR和重组酶的重组工程编辑系统及其方法、载体、核酸组合物和试剂盒。该方法和系统提供用于在宿主细胞中改变靶DNA(包括基因组DNA)的手段。

Description

RNA指导的千碱基规模基因组重组工程
相关申请的交叉引用
本申请要求2020年3月3日提交的美国临时申请第62/984,618号,和2021年2月5日提交的美国临时申请第63/146,447号的权益,其各自的全部内容通过引用并入本文。
技术领域
本发明涉及使用噬菌体重组酶的RNA指导的重组工程编辑系统及其方法、载体、核酸组合物和试剂盒。
背景技术
成簇规则间隔短回文重复序列(CRISPR)系统,最初发现于细菌和古菌中,作为免疫系统的一部分,以抵御入侵病毒,形成了基因组编辑技术的基础,该技术可以被编程为靶向基因组或其他DNA的特定延伸,以便在精确位置进行编辑。虽然有各种基于CRISPR的工具可用,但大多数工具都适用于编辑短序列。长序列编辑在模型系统的工程化、治疗性细胞生产和基因治疗中备受欢迎。先前的研究已经开发了改进Cas9介导的同源性-5定向修复(HDR)的技术,以及利用核酸修饰酶与Cas9的工具,例如先导编辑(prime-editing),证明了可编辑的长度达80个碱基对(bp)。尽管取得了这些进展,但对高效率和高保真的大规模哺乳动物基因组工程化还存在持续的需求。
发明内容
本文提供了以允许高精度和低脱靶误差的大规模核酸编辑的方式促进核酸编辑的系统和方法。这些系统和方法采用微生物重组组分与CRISPR重组组分的组合。
例如,本文公开了包含蛋白质、包含与靶DNA序列互补的指导RNA序列的核酸分子和微生物重组蛋白的系统。微生物重组蛋白可以是例如,RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA,redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。在一些实施方案中,该系统还包括供体DNA。在一些实施方案中,靶DNA序列是宿主细胞中的基因组DNA序列。
在一些实施方案中,系统还包括募集系统,所述募集系统包括至少一个适体序列和与微生物重组蛋白功能性连接为融合蛋白的一部分的适体结合蛋白。在一些实施方案中,适体序列是RNA适体序列或肽适体序列。在一些实施方案中,RNA适体序列是核酸分子的一部分。在一些实施方案中,核酸分子包括两个RNA适体序列。在一些实施方案中,微生物重组蛋白与适体结合蛋白功能性连接为融合蛋白。在一些实施方案中,结合蛋白包括MS2外壳蛋白、λN22肽或其功能衍生物、片段或变体。在一些实施方案中,融合蛋白还包括接头和/或核定位序列。
本文公开了包含编码融合蛋白的核酸序列的组合物,所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。微生物重组蛋白可以是RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA,redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。该组合物可进一步包括包含编码Cas蛋白的核酸序列的多核苷酸和包含与靶DNA序列互补的指导RNA序列的核酸分子中的一种或两种。在一些实施方案中,核酸分子进一步包含至少一个RNA适体序列。在一些实施方案中,包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。
本文还公开了包含编码融合蛋白的核酸序列的载体,所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。微生物重组蛋白可以是RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA,redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。该载体可进一步包括包含编码Cas蛋白的核酸序列的多核苷酸和包含与靶DNA序列互补的指导RNA序列的核酸分子中的一种或两种。在一些实施方案中,核酸分子进一步包含至少一个RNA适体序列。在一些实施方案中,包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。
在一些实施方案中,RecE和RecT重组蛋白来源于大肠杆菌(E.coli)。在一些实施方案中,RecE、或其衍生物或变体包含与选自由SEQ ID NO:1-8组成的组的氨基酸序列具有至少70%相似性的氨基酸序列。在一些实施方案中,RecT、或其衍生物或变体包含与选自由SEQ ID NO:9组成的组的氨基酸序列具有至少70%相似性的氨基酸序列。
在一些实施方案中,Cas蛋白是Cas9或Cas12a。在一些实施方案中,Cas蛋白是无催化活性的。在一些实施方案中,Cas9蛋白是野生型化脓性链球菌(Streptococcuspyogenes)Cas9或野生型金黄色葡萄球菌(Staphylococcus aureus)Cas9。在一些实施方案中,Cas9蛋白是Cas9切口酶(例如,在第10位具有氨基酸取代D10A的化脓性链球菌(Streptococcus pyogenes)Cas9)。
还公开了包含本文公开的系统或载体的真核细胞。
本文还公开了改变宿主细胞中靶基因组DNA序列的方法。所述方法包括使本文所述的系统、组合物或载体与靶DNA序列接触(例如,将本文所述系统、组合物、或载体引入包含靶基因组DNA序列的宿主细胞)。本文还公开了包含一种或更多种试剂或其他组分的试剂盒,这些试剂或组分对于实践上述的任何方法是有用的、必要的或足够的。
根据以下详细描述和附图,本公开的其他方面和实施方案将是显而易见的。
附图说明
图1A和图1B是利用来自酵母和人类的真核重组酶重建的RecE(图1A)和RecT(图1B)系统发育树。
图2A是RecE/RecT同源物的系统发育树和长度分布。图2B是RecE/T的宏基因组学分布。图2C是本文公开的中心模型的示意图。图2D是RecE/T同源物的基因组敲入效率的图表。
图3A和3B是在EMX1(图3A)基因座和VEGFA(图3B)基因座处同源定向修复(HDR)的高通量测序(HTS)读段的图。图3C-3D是HEK293T细胞在HSP90AA1(图3C)、DYNLTI(图3D)和AAVS1(图3E)基因座处的mKate敲入效率的图。图3F是使用RecT在HEK293T细胞中的mKate敲入效率的图像。图3G是示例性AAVS1敲入策略和来自RecT敲入组的色谱迹线的示意图。图3H是募集对照实验和相应的敲入效率的原理图和示意图。所有结果均归一化至NR。(NC,无切割;NR,无重组物)。
图4A-4C是在HEK293T细胞中HSP90AA1(图4A)、DYNLTI(图4B)、和AAVS1(图4C)基因座处相对于NE组的相对mKate敲入效率的图。(NC,无切割对照组。NR,无重组物对照组。)图4D是验证AAVS1基因座处的mKate敲入的连接PCR(junction PCR)的示例性琼脂糖凝胶的图像。图4E和4F是AAVS1基因座处的绝对和(图4E)和相对(图4F)LOV敲入效率的图。
图5A-5D是细胞系A549(图5A)、HepG2(图5B)、HeLa(图5C)、和hESCs(H9)(图5D)中不同基因座处的基因组敲入效率的图。图5E是hESC中mKate敲入的图像。图5F和5G是REDITv1工具的全基因组脱靶位点(OTS)计数(图5F)和OTS染色体分布(图5G)。
图6A-6D是A549细胞系中AAVS1基因座和DYNT1基因座(图6A)、HepG2细胞系中DYNLT1基因座和HSP90AA1基因座(图6B)、Hela细胞系中DYNLT1基因座和HSP90AA1基因座(图6C)、和hES-H9细胞系中HSP90AA1基因座和OCT4基因座(图6D)的相对mKate敲入效率的图。(NC,无切割对照组。NR,无重组物对照组。所有数据归一化至NR组。)图6E是hES-H9细胞中HSP90AA1 mKate敲入的代表性FACS结果。
图7A-7D是DYNLTI(图7A)和HSP90AA1(图7B)基因座处不同同源臂长度和DYNLT1(图7C)和HSP90AA1(图7D)的无重组物对照的绝对mKate敲入效率的图。
图8A-8E是REDITv1系统中与sgEMX1(图8A-8C)或sgVEGFA(图8D-8E)相关联的前3个预测的脱靶基因座的indel率的图表。
图9A是HEK293T细胞中的REDITv2N和相应的敲入效率的选定实施方案的示意图。图9B和9C是比较REDITv2N与REDITv1的全基因组脱靶(OTS)计数(图9B)和OTS染色体分布(图9C)的图。图9D是REDITv2D的选定实施方案的示意图和相应的敲入效率。图9E是在血清饥饿条件下REDITv1、REDITv2N、和REDITv2D的编辑效率的图。图9F是hESCs中REDITv3的敲入效率。图9G是在hESCs中使用REDITv3的mKate敲入的图像。
图10A和10B是在DYNLT1基因座和HSP90AA1基因座处REDITv2N(图10A)和REDITv2D(图10B)的选定实施方案的相对mKate敲入效率的原理图和数据。
图11A-11D是显示对于选定的REDITv2N系统在DYNLT1基因座和HSP90AA1基因座处mKate敲入的连接PCR(junction PCR)的琼脂糖凝胶的图像。
图12A和12B是REDITv2(图12A)和REDITv2N(图12B)的选定实施方案的检测到的脱靶切割的基因组分布的图。堆积包括有两个或更多个读段相互重叠的的比对。侧翼对包括在彼此上游200bp内出现在相对链上的比对。靶匹配包括与上游序列中的处理过的靶标匹配的比对(靶序列中最多允许6个错配,包括PAM中的1个错配)。图12C是REDITv2N系统的EMX1基因座处的HTS HDR和indel读段的图。
图13A是显示在REDITv2D系统在DYNLT1基因座处的mKate敲入的连接PCR的琼脂糖凝胶的图像。
图14A-14C是当用不同FBS浓度处理时,REDITv2(图14A)、REDITv2N(图14B)和REVITv2D(图14C)中在的HSP90AA1基因座的mKate敲入效率的图。图14D-14F是当用不同血清FBS浓度处理时,REDITv2(图14D)、REDITv2N(图14E)和REVITv2D(图14F)中在的HSP90AA1基因座处的mKate敲入效率的图表。
图15是在EGFP融合到REDITv1系统之后的RecE_587和RecT的核定位的图像。细胞核用NucBlue Live Ready探针试剂染色。
图16A和16B是在将不同的核定位序列融合到RecT和RecE_587的N-或C-末端后,在HSP90AA1和DYNLT1基因座的相对mKate敲入效率。图16C和16D是图16A和16B的构建体对DYNLT1基因座(图16C)和HSP90AA1基因座(图16D)的绝对mKate敲入效率的图。
图17A-17D是在将新的NLS序列以及最佳接头融合至REDITv2和REDITv3变体后,对DYNLT1基因座(图17A和17C)和HSP90AA1基因座(图17B和17D)的相对(图17A和17B)和绝对(图17C和17D)mKate敲入效率的图。使用REDITv2N(D10A或H840A)和REDITv2D(dCas9)的REDITv2版本以及使用的指导的数量在水平轴上显示。不同的颜色表示不同的对照组和REDIT版本。
图18是hES-H9细胞中HSP90AA1基因座处的REDITv3N系统的相对编辑效率的图。
图19A是示例性saCas9表达载体的图。图19B-19E是saCas9系统中不同效应子在AAVS1基因座(图19D)和HSP90AA1基因座(图19E)处的相对mKate敲入效率和相应的绝对效率(分别为图19B和19C)的图表。NC,无切割对照组。NR,无重组物对照组。
图20A是RecT截断的示意图。图20B和20C是具有单基因巧合和双基因巧合的野生型化脓性链球菌(Streptococcus pyogenes)Cas9和化脓性链球菌(Streptococcuspyogenes)Cas9n(D10A)在DYNLTI基因座处的相对mKate敲入效率的图表。
图21A是RecE_587截断的示意图。图21B和21C是野生型化脓性链球菌(Streptococcus pyogenes)Cas9和单切口和双切口化脓性链球菌(Streptococcuspyogenes)Cas9n(D10A)在DYNLT1基因座处的相对mKate敲入效率的图。
图22A和22B是用来自天然存在的重组工程系统的不同外切核酸酶(图22A)和单链DNA退火蛋白(SSAP)(图22B)进行基于重组工程的编辑的效率的比较图,以NR(无重组物)作为阴性对照。通过基因组基因座(DYNLT1和HSP90AA1)处的mKate敲入测定测量基因编辑活性。数据显示为使用人HEK293细胞成功mKate敲入的百分比,每个实验一式三份地进行(n=3)。
图23A-23E显示使用boxB和N22的紧凑型募集系统。REDIT重组物蛋白融合至N22肽,在sgRNA中包括boxB,N22肽的短识别序列(图23A)。图23B-23E是使用mKate敲入测定的基因编辑效率图,使用野生型SpCa9,与MS2-MCP募集系统进行并列比较。图23B和23D是DYNLT1、HSP90AA1基因座处的绝对mKate敲入效率,图23C和23E是相对效率。数据显示为使用人HEK293人类细胞成功mKate敲入的百分比,每个实验一式三份地进行(n=3)。
图24A-24C显示了SunTag募集系统。将REDIT重组物蛋白与scFV抗体融合,并将GCN4肽以串联方式(通过接头隔开的GCN4多肽的10个拷贝)与Cas9蛋白融合(图24A)。使用DYNLTI基因座的mKate敲入实验(图24B)用于测量基因编辑敲入效率(图24C)。所有数据都是使用mKate敲入测定法进行测量,使用野生型SpCas9。DYNLTI处的绝对mKate敲入效率显示在每个流式细胞图的右下角,其中对照不含重组物(NR),其包括融合到GFP蛋白的scFV作为阴性对照,所有实验均在HEK293人细胞中进行。
图25A和25B例示了具有Cas12A系统的REDIT。通过SunTag募集设计创建了基于Cpf1/Cas12a的REDIT系统(图25A),使用两种不同的Cpf1/Cas12a蛋白的。使用mKate敲入测定法,测量了两个内源性基因座(DYNLT1和AAS1)处的效率(图25B)。显示了使用HEK293人细胞通过mKate+细胞百分比测量的绝对mKate敲入效率,每个实验一式三份地进行(n=3),其中阴性对照没有重组物(NR)。
图26A和26B是使用RecE和RecT同源物在DYNLT1基因座(A)和HSP90AA1基因座(B)处的通过mKate敲入基因编辑测定法的精确重组活性的测量。显示了使用HEK293人细胞通过mKate+细胞百分比测量的绝对mKate敲入效率,每个实验一式三份地进行(n=3),其中阴性对照没有重组物(NR)并且无切割(NC)。其中也包括来自大肠杆菌(E.coli)的原始RecE和RecT作为阳性对照。
图27A和27B是显示通过SunTag的募集将SSAP RecT募集到Cas9-gRNA复合物用于基因编辑的示意图(图27A)和量化的与基于MS2的策略相比的SunTag编辑效率的图(图27B)。
图28A-28C显示了REDIT与替代的HDR增强基因编辑方法的比较。图28A是示意图,显示了通过将功能结构域CtIP或联会蛋白(Geminin,Gem)融合到Cas9蛋白(左)以及与REDIT结合时(右)的替代的HDR增强方法。图28B是通过细胞周期控制的替代的小分子HDR增强方法。根据所示的时间线(右),诺考达唑被用来使细胞在G2/M边界同步化(左)。图28C是使用REDIT和替代的HDR增强工具,Cas9-HE(CtIP融合)、Cas9-Gem(联会蛋白融合)和诺考达唑(noc),以及REDIT与这些方法的组合(Cas9-HE/Cas9-Gem/noc+REDIT)的基因编辑效率的比较。供体DNA具有200+400bp(DYNLT1)或200+200bp(HSP90AA1)的HA。所有测定均在无供体、NTC和Cas9(无增强)对照的情况下进行。与REDIT相比,#P<0.05;与REDIT相比,##P<0.01。
图29A-29D显示了REDIT基因编辑方法的模板设计指导、连接点精度和容量。图29A同源臂(HA)长度测试图,其中使用REDIT和Cas9参考比较了HDR供体(较长HA)或NHEJ/MMEJ供体(无/较短HA)的不同模板设计。上图和下图是使用mKate敲入测定检测的两个基因组基因座。图29B是示例性连接点谱图测定的设计,其通过分离敲入克隆,然后使用与外部供体结合的引物(fwd,rev)进行基因组PCR来进行。PCR产物的配对Sanger测序显示了5’-和3’-连接处的同源和非同源编辑。图29C是对图29B中的基因敲入克隆进行Sanger测序后,具有指示的连接点谱图的克隆百分比图。编辑方法和供体DNA列在底部(括号内表示HA长度)。图29D是使用2-kb盒插入双GFP/mKate标签以验证使用Cas9的REDIT方法的敲入效率的图表。底部显示了供体DNA的HA长度。
图30A-30C显示了GISseq结果,表明REDIT是有效的方法,能够插入千碱基长度的序列,而不需要的编辑事件较少。图30A是示意图,显示了GIS-seq的设计、程序和分析步骤,以测量敲入盒的全基因组插入位点。需要进行高分子量(HMW)基因组DNA的纯化,以从供体DNA去除潜在污染。供体DNA每侧有200bp HA。图30B是代表性的GIS-seq结果,显示了在中靶基因座DYNLTI处的正/负读段。最后一个外显子的终止密码子之前的预期2A-mKate敲入位点是修剪读段的中心(该读段被剪掉以去除2A-mKate盒)。有助于避免gRNA靶向,并区分基因组和编辑过的读段的模板突变被标记出来。图30C是对最靠前的GIS-seq插入位点的总结,比较了Cas9dn和REDITdn组,显示了预期的中靶插入位点(突出显示)和使用REDITdn时减少数量的识别的脱靶插入位点。(左)DYNLTI和(右)ACTB基因座,根据过滤和修剪的GIS-seq读段的分布计算MLE。
图31A-31F显示了REDIT基因编辑对内源性DNA修复的依赖性以及将REDIT方法应用于人类干细胞工程化。图31A是一个模型,显示了当使用REDIT或Cas9进行基因编辑时所涉及的编辑过程和主要修复途径,HDR途径对于化学干扰(RAD51的抑制)被突出显示。具有200+200bp HA的供体DNA用于所有抑制剂实验。图31B和31C是REDIT工具与用RAD51抑制剂B02和RI-1处理的或溶媒处理的Cas9参考相比的相对敲入效率的图,其中使用基于wtCas9的REDIT和Cas9(图31B),和基于Cas9-切口酶的REDITdn和Cas9dn(图31C)。所有条件都是在两个基因组基因座(DYNLT1和HSP90AA1)用1-kb敲入测定法进行测量。图31D是使用REDIT和REDITdn在三个基因组基因座上测试的hESC(H9)的基因敲入效率图,与相应的Cas9和Cas9dn参考相比较。图31E和31F是使用REDIT、REDITdn与Cas9、Cas9dn和NTC对照的hESC中mKate敲入结果的流式细胞术图。hESC实验中的供体DNA在所有测试的基因座上具有200+200bp HA。
图32A-32B显示了对dCas9 REDIT的化学干扰。当用哺乳动物DNA修复途径抑制剂(Mirin、RI-1和B02)处理,并且加上(图32A)和不加(图32B)细胞周期抑制剂(Thy,双胸苷)阻断处理时测定的基因编辑效率。统计分析来自通过两阶段递升法(two-stage step-upmethod)进行的1%FDR的t检验结果。
图33A和33B分别是小鼠的DNA组分(基因编辑载体和模板DNA)和尾静脉注射的示意图。
图34A-34C是使用基因编辑载体对小鼠进行尾静脉注射的结果。图34A是注射小鼠的肝细胞的示意图和PCR分析凝胶电泳。图34B是PCR扩增子(SEQ ID NO:162)的Sanger测序结果。图34C是下一代测序的示意图和敲入连接错误量化图。
图35A和35B分别是DNA组分(基因编辑和对照载体)和腺相关病毒(AAV)处理的示意图。图35C是AAV处理的小鼠的肺的荧光图像和肿瘤数量的相应定量图。
具体实施方式
本公开涉及用于DNA编辑的系统和组分。特别地,公开的系统基于CRISPR靶向和噬菌体重组酶的同源性定向修复。该系统在千碱基规模上具有优越的重组效率和准确性。
定义
为了便于理解本技术,下面对一些术语和短语进行了定义。其他定义将在整个详细描述中列出。
如本文所用,术语“包含”、“包括”、“可以”、“含有”及其变体意指不排除其他行为或结构的可能性的开放式过渡短语、术语或词语。除非上下文另有明确规定,单数形式的“a”、“an”和“the”包括复数指示物。本公开还考虑了“包含(comprising)”、“由...组成”和“基本上由”本文呈现的实施方案或要素“组成”的其他实施方案,无论是否明确阐述。
对于本文所叙述的数字范围,明确地考虑了其之间的具有相同精度的每个中间数字。例如,对于6-9的范围,除了6和9之外还考虑数字7和8,并且对于6.0-7.0的范围,明确考虑数字6.0、6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9和7.0。
除非本文另有定义,否则与本公开相关的科学和技术术语应具有本领域普通技术人员通常理解的含义。例如,本文所述的与细胞和组织培养、分子生物学、免疫学、微生物学、遗传学以及蛋白质和核酸化学和杂交相关的任何术语和技术是本领域公知和常用的术语和技术。这些术语的含义和范围是明确的;然而,如果存在任何潜在的歧义,本文提供的定义优先于任何词典或外部定义。此外,除非上下文另有要求,否则单数术语应包括复数,且复数术语应包括单数。
术语“互补”和“互补性”是指核酸通过传统的Watson-Crick碱基配对或其他非传统的配对类型与另一核酸序列形成一个或多个氢键的能力。两个核酸序列之间的互补程度可以用一个核酸序列中能与第二个核酸序列形成氢键(如Watson-Crick碱基配对)的核苷酸的百分比来表示(例如,50%、60%、70%、80%、90%和100%互补)来表示。如果一个核酸序列的所有毗连核苷酸与第二个核酸序列中相同数量的毗连核苷酸以氢键结合,则两个核酸序列是“完全互补”。如果两个核酸序列之间在至少8个核苷酸(例如,9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50或更多个核苷酸)的区域上的互补程度为至少60%(例如,65%、70%、75%、80%、85%、90%、95%、97%、98%、99%或100%),或者如果两个核酸序列在至少中等、优选高严格度条件下杂交,则两个核酸序列是“基本互补”。示例性的中等严格度条件包括在37℃下在包含20%甲酰胺、5×SSC(150mMNaCl、15mM柠檬酸三钠)、50mM磷酸钠(pH 7.6)、5×Denhardt溶液、10%硫酸葡聚糖和20mg/ml变性剪切鲑鱼精DNA的溶液中孵育过夜,然后在约37-50℃的1×SSC中洗涤过滤器,或基本上类似的条件,例如Sambrook等人描述的中等严格度条件,下同。高严格度条件是使用例如(1)低离子强度和高温进行洗涤的条件,例如在50℃下使用0.015M氯化钠/0.0015M柠檬酸钠/0.1%十二烷基硫酸钠(SDS),(2)在42℃下在杂交过程中使用变性剂,例如甲酰胺,50%(v/v)甲酰胺与0.1%牛血清白蛋白(BSA)/0.1%聚蔗糖/0.1%聚乙烯吡咯烷酮(PVP)/50mM磷酸钠缓冲液,pH 6.5,含750mM氯化钠和75mM柠檬酸钠,或(3)在42℃下使用50%甲酰胺、5×SSC(0.75M NaCl,0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1%焦磷酸钠、5×Denhardt溶液、超声波处理的鲑鱼精DNA(50μg/ml)、0.1%的SDS和10%硫酸葡聚糖,以及在(i)在42℃在0.2×SSC中,(ii)在55℃在50%甲酰胺中,以及(iii)在55℃在0.1×SSC(优选与EDTA组合)中洗涤。杂交反应的严格度的其他细节和解释在例如Sambrook等人,Molecular Cloning:A Laboratory Manual,3rd ed.,Cold Spring Harbor Press,ColdSpring Harbor,N.Y.(2001);和Ausubel等人,Current Protocols in MolecularBiology,Greene Publishing Associates and John Wiley&Sons,New York(1994)中提供。
当DNA被引入细胞内时,该细胞被外源DNA,例如重组表达载体“遗传修饰”、“转化”或“转染”。外源DNA的存在导致永久或暂时的遗传变化。转化的DNA可以或可以不整合(共价连接)到细胞基因组中。例如,在原核生物、酵母和哺乳动物细胞中,转化的DNA可以保持在游离基因元件上,如质粒。就真核细胞而言,稳定转化细胞是指转化的DNA已整合到染色体中,从而通过染色体复制被子代细胞所继承。这种稳定性表现在真核细胞能够建立细胞系或克隆,所述细胞系或细胞克隆包括含有转化DNA的子细胞群。“克隆”是通过有丝分裂从单个细胞或共同祖先衍生的细胞群。“细胞系”是原代细胞的克隆,其能够在体外稳定生长许多代。
如本文所用,“核酸”或“核酸序列”是指嘧啶和/或嘌呤碱的聚合物或低聚物,优选分别为胞嘧啶、胸腺嘧啶和尿嘧啶,以及腺嘌呤和鸟嘌呤。本技术考虑任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分及其任何化学变体,例如这些碱基的甲基化、羟甲基化或糖基化形式等。聚合物或低聚物在组成上可以是异质或同质的,并且可以从天然来源分离,或者可以人工或合成生产。此外,核酸可以是DNA或RNA或其混合物,并且可以以单链或双链形式永久或过渡存在,包括同源双链、异源双链和杂合状态。在一些实施方案中,核酸或核酸序列包括其他种类的核酸结构,诸如例如DNA/RNA螺旋、肽核酸(PNA)、吗啉核酸(参见例如,Braasch和Corey,Biochemistry,41(14):4503-4510(2002))和美国专利第5,034,506号,通过引用并入本文),锁核酸(LNA;参见Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,97:5633-5638(2000),通过引用并入本文)、环己烯基核酸(参见Wang,J.Am.Chem.Soc.,122:8595-8602(2000),通过引用并入本文)、和/或核酶。因此,术语“核酸”或“核酸序列”也可以包括包含非天然核苷酸、修饰核苷酸和/或可以表现出与天然核苷酸相同功能的非核苷酸结构单元(例如,“核苷酸类似物”)的链,其显示与;此外,如本文所用,术语“核酸序列”是指寡核苷酸、核苷酸或多核苷酸及其片段或部分,以及基因组或合成来源的DNA或RNA,其可以是单链或双链,并代表有义链或反义链。术语“核酸”、“多核苷酸”、“核苷酸序列”和“寡核苷酸”可以互换使用。它们是指任何长度的核苷酸的聚合形式,脱氧核糖核苷酸或核糖核苷酸,或其类似物。
“肽”或“多肽”是通过肽键连接的两个或更多个氨基酸的连接序列。肽或多肽可以是天然的、合成的或是天然和合成肽的修饰物或组合。多肽包括蛋白质如结合蛋白、受体和抗体。蛋白质可以通过添加糖、脂质或其他不包括在氨基酸链中的部分来修饰。术语“多肽”和“蛋白质”在本文中可互换使用。
如本文所用,术语“序列同一性百分比”是指核酸序列中的核苷酸或核苷酸类似物或氨基酸序列中的氨基酸与参考序列中的相应核苷酸或氨基酸比对,并在必要时引入缺口以达到最大同一性百分比的情况下的百分比。因此,在根据本技术的核酸长于参考序列的情况下,在确定序列同一性时,不考虑核酸中不与参考序列比对的额外核苷酸。用于比对的方法和计算机程序是本领域公知的,包括BLAST、Align 2和FASTA。
“载体”或“表达载体”是复制子,如质粒、噬菌体、病毒或粘粒,另一个DNA片段(如“插入物”)可以被连接或纳入其中,以便使连接的片段在细胞中复制。
术语“野生型”是指当从天然来源分离时具有该基因或基因产物特征的基因或基因产品。野生型基因是在群体中最常观察到的基因,因此被任意指定为基因的“正常”或“野生型”形式。相反,术语“修饰的”、“突变的”或“多态的”是指当与野生型基因或基因产物相比时在序列和或功能特性上显示出修饰(例如,改变的特征)的基因或基因产品。需要指出的是,天然存在的突变体可以被分离出来;这些突变体通过与野生型基因或基因产物相比具有改变的特征的事实来鉴定。
RNA指导的CRISPR重组工程系统
在细菌和古菌中,CRISPR/Cas系统通过将入侵噬菌体、病毒和质粒DNA片段整合到CRISPR基因座中,并使用相应的CRISPR RNA(“crRNAs”)来指导同源序列的降解,从而提供免疫。每个CRISPR基因座编码获得的“间隔区(spacer)”,这些间隔区被重复序列分隔。CRISPR基因座的转录产生“pre-crRNA”,该pre-crRNA经过处理后产生含有间隔区重复片段的crRNA,该间隔重复片段指导效应物核酸酶复合物切割与间隔区互补的dsDNA序列。已知三种不同类型的CRISPR系统,I型、II型或III型,并基于Cas蛋白类型和使用原间隔区相邻基序(PAM)来选择入侵DNA中的原间隔区进行分类。内源性II型系统包括Cas9蛋白和两个非编码crRNA:反式激活crRNA(tracrRNA)和前体crRNA(pre-crRNA)阵列,该阵列含有由相同的直接重复(DR)间隔的核酸酶指导序列(也称为“间隔区”)。tracrRNA对于处理pre-crRNA和形成Cas9复合物非常重要。首先,tracRNA与pre-crRNA的重复区域杂交。第二,内源性RNaseIII切割杂交的crRNA-tracrRNA,第二个事件是去除每个间隔区的5’端,产生与tracrRNA和Cas9相关联的成熟crRNA。第三,每个成熟的复合物定位靶双链DNA(dsDNA)序列,并利用Cas9的核酸酶活性切割两条链。
CRISPR/Cas基因编辑系统已经开发出来,能够对真核细胞中感兴趣的特定基因进行靶向修饰。CRISPR/Cas基因编辑系统通常基于RNA指导的Cas9核酸酶,该核酸酶来自II型原核簇状规则间隔短回文重复序列(CRISPR)适应性免疫系统。用于真核细胞的工程化CRISPR/Cas系统通常涉及crRNA-tracrRNA-Cas9复合物的重组。例如,在人类细胞中,可以对Cas9氨基酸序列进行密码子优化和修饰,以包括适当的核定位信号,并且crRNA和tracrRNA序列可以单独表达或通过RNA聚合酶II启动子作为单个嵌合分子表达。通常,crRNA和tracrRNA序列表达为嵌合体,统称为“指导RNA”(gRNA)或单指导RNA(sgRNA)。因此,术语“指导RNA”、“单指导RNA”和“合成指导RNA”在本文中可互换使用,并且是指包含tracRNA和含有指导序列的pre-cRNA阵列的核酸序列。术语“指导序列”、“指导”和“间隔区”在本文中可互换使用,是指指导RNA内指定靶位点的约20个核苷酸序列。在CRISPR/Cas9系统中,指导RNA含有约20个核苷酸的指导序列,随后是原间隔区相邻基序(PAM),该基序通过Watson-Crick碱基配对将Cas9引导至靶序列。
在一些实施方案中,本公开提供了一种利用来自CRISPR基因编辑系统的工具进行RNA指导重组的系统。该系统包括:Cas蛋白、包含与靶DNA序列互补的指导RNA序列的核酸分子和微生物重组蛋白。
Cas蛋白家族在例如Haft等人,PLoS Comput.Biol.,1(6):e60(2005)中更详细地描述,通过引用将其并入本文。Cas蛋白可以是任何Cas内切核酸酶。在一些实施方案中,Cas蛋白是Cas9或Cas12a,否则称为Cpf1。在一个实施方案中,Cas9蛋白是野生型Cas9蛋白。Cas9蛋白可从任何合适的微生物获得,并且许多细菌表达Cas9蛋白直系同源物或变体。在一些实施方案中,Cas9来自化脓性链球菌(Streptococcus pyogenes)或金黄色葡萄球菌(Staphylococcus aureus)。本领域已知其他物种的Cas9蛋白质(例如,参见美国专利申请出版物2017/0051312,通过引用并入本文),其可用于本发明。来自各种物种的Cas蛋白的氨基酸序列可通过GenBank和UniProt数据库公开获得。
在一些实施方案中,Cas9蛋白是Cas9切口酶(Cas9n)。野生型Cas9具有两个促进双链DNA断裂的催化核酸酶结构域。Cas9切口酶蛋白通常通过在催化核酸酶结构域之一中的一个或多个失活点突变进行工程化,导致Cas9使用剩余的活性核酸酶结构区缺刻或仅酶解两条DNA链中的一个。Cas9切口酶是本领域已知的(参见例如,美国专利申请公开2017/0051312,通过引用并入本文),并包括例如,在D10或H840处点突变的化脓性链球菌(Streptococcus pyogenes)。在选定的实施方案中,Cas9切口酶是化脓性链球菌(Streptococcus pyogenes)Cas9n(D10A)。
在一些实施方案中,Cas蛋白是催化失活的Cas。例如,催化失活的Cas9基本上是DNA结合蛋白,因为通常在其催化核酸酶结构域内有两个或更多个突变,这使得该蛋白具有很少的或没有催化核酸酶活性。化脓性链球菌(Streptococcus pyogenes)Cas9可能通过D10和E762、H840、N854、N863或D986中的至少一个的突变,通常为H840和/或N863而成为催化失活的(参见例如,美国专利申请公开2017/0051312,通过引用并入本文)。相应直系同源物的突变是已知的,如金黄色葡萄球菌(Staphylococcus aureus)Cas9的N580。通常,这种突变导致催化失活的Cas蛋白具有不大于3%的正常核酸酶活性。
在一些实施方案中,系统包括核酸分子,所述核酸分子包括与靶DNA序列互补的指导RNA序列。如上所述,指导RNA序列用大约20个核苷酸的指导序列指定靶位点,随后是通过Watson-Crick碱基配对将Cas9引导至靶序列的原间隔区相邻基序(PAM)。
术语“靶DNA序列”、“靶核酸”、“靶序列”和“靶位点”在本文中可互换使用,用于指多核苷酸(核酸、基因、染色体、基因组等),其指导序列(例如,指导RNA)被设计为具有互补性,其中靶序列和指导序列之间的杂交促进Cas9/CRISPR复合物的形成,只要存在足够的结合条件。在一些实施方案中,靶序列是基因组DNA序列。如本文所用,术语“基因组”是指位于细胞中染色体上的核酸序列(例如,基因或基因座)。靶序列和指导序列不需要表现出完全互补性,只要存在足够的互补性以引起杂交并促进CRISPR复合物的形成。靶序列可以包括任何多核苷酸,例如DNA或RNA。合适的DNA/RNA结合条件包括通常存在于细胞中的生理条件。其他合适的DNA/RNA结合条件(例如,无细胞系统中的条件)是本领域已知的;参见例如,Sambrook,其被本文引用并通过引用并入本文。与DNA靶向RNA互补并与之杂交的靶DNA链称为“互补链”,与“互补链”互补的靶DNA的链(因此与DNA靶向RNA不互补)称为“非互补链”。
靶基因组DNA序列可以编码基因产物。如本文所用,术语“基因产物”是指由基因表达产生的任何生物化学产物。基因产物可以是RNA或蛋白质。RNA基因产物包括非编码RNA,如tRNA、rRNA、微小RNA(miRNA)和小干扰RNA(siRNA),以及编码RNA,例如信使RNA(mRNA)。在一些实施方案中,靶基因组DNA序列编码蛋白质或多肽。
在一些实施方案中,例如,当系统包括Cas9切口酶或催化失活的Cas9时,可以使用两个包含指导RNA序列的核酸分子。两个核酸分子可以具有相同或不同的指导RNA序列,因此与相同或不同的靶DNA序列互补。在一些实施方案中,两个核酸分子的指导RNA序列在插入位置的相对端(例如3’或5’)和/或相对链上与靶DNA序列互补。
在一些实施方案中,系统进一步包括募集系统,所述募集系统包括至少一个适体序列和作为融合蛋白的一部分的与微生物重组蛋白功能性连接的适体结合蛋白。
在一些实施方案中,适体序列是RNA适体序列。在一些实施方案中,包含指导RNA的核酸分子还包含一个或更多个RNA适体,或可以募集和结合另一分子物种,即衔接分子,例如核酸或蛋白质的独特的RNA二级结构或序列。RNA适体可以是天然存在的或合成的寡核苷酸,其通过重复多轮的体外选择或SELEX(通过指数富集的配体的系统进化)被工程化以结合特定的靶分子物种。在一些实施方案中,核酸包含两个或更多个适体序列。适体序列可以相同或不同,并且可以靶向相同或不同的衔接蛋白。在选定的实施方案中,核酸包括两个适体序列。
任何已知的RNA适体/适体结合蛋白对都可以被选择并用于本公开(参见例如,Jayasena,S.D.,Clinical Chemistry,1999.45(9):p.1628-1650;Gelinas等人,CurrentOpinion in Structural Biology,2016.36:p.122-132;和Hasegawa,H.,Molecules,2016;21(4):p.421;通过引用并入本文)。
存在许多RNA适体结合或衔接蛋白,包括多种噬菌体外壳蛋白。此类外壳蛋白的示例包括但不限于:MS2、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。在一些实施方案中,RNA适体结合MS2噬菌体外壳蛋白或其功能衍生物、片段或变体。与MS2结合的RNA适体通常具有简单的茎环结构,典型地由19个核苷酸的RNA分子定义,在茎的5’腿上具有单个凸起的腺嘌呤(Witherall G.W.等人,(1991)Prog.Nucleic AcidRes.Mol.Biol.,40,185-220,通过引用并入本文)。然而,发现了许多非常不同的一级序列能够结合MS2外壳蛋白(Parrott AM等人,Nucleic Acids Res.2000;28(2):489-497,Buenrostro JD等人,Natura Biotechnology 2014;32,562-568,通过引用并入本文)。已知结合MS2噬菌体外壳蛋白的任何RNA适体序列都可以在本公开中使用。在选定的实施方案中,MS2 RNA适体序列包括:AACAUGAGGAUCACCCAUGUCUGCAG(SEQ ID NO:145)、AGCAUGAGGAUCACCCAUGUCUGCAG(SEQ ID NO:146)或AGCGUGAGGAUCACCCAUGCCUGCAG(SEQ IDNO:147)。
噬菌体的N蛋白(Nut-利用位点蛋白,Nut-utilization site protein)含有~20个氨基酸的富含精氨酸的保守RNA识别基序,称为N肽。RNA适体可以结合噬菌体N肽或其功能衍生物、片段或变体。在一些实施方案中,噬菌体N肽是λ或P22噬菌体N肽或其功能衍生物、片段或变体。
在选定的实施方案中,N肽是λ噬菌体N22肽或其功能衍生物、片段或变体。在一些实施方案中,N22肽包含与氨基酸序列GNARTRRRERRAEKQAQWKAAN(SEQ ID NO:149)具有至少70%相似性的氨基酸序列。N22肽是λ噬菌体反终止因子蛋白N(λN-(1-22)或λN肽)的22个氨基酸的RNA结合结构域,能够特异性结合特定的茎环结构,包括但不限于BoxB茎环。参见例如,Cilley和Williamson,RNA1997;3(1):57-67,通过引用并入本文。已知许多不同的BoxB茎环一级序列可结合N22肽,并且这些序列中的任何一个都可用于本公开。在一些实施方案中,N22肽RNA适体序列包含与远自由GCCCUGAAAAAGGGC(SEQ ID NO:150)、GCCCUGAAGAAGGGC(SEQ ID NO:151)、GCGCUGAAAAAGCGC(SEQ ID NO:152)、GCCCUGACAAAGGGC(SEQ ID NO:153)、和GCGCUGACAAAGCGC(SEQ ID NO:154)组成的组的RNA序列具有至少70%相似性的核苷酸序列。在一些实施方案中,N22肽RNA适体序列选自由SEQ ID NO:150-154组成的组。
在选定的实施方案中,N肽是P22噬菌体N肽或其功能衍生物、片段或变体。已知许多不同的BoxB茎环一级序列可结合P22噬菌体N肽及其变体,并且这些序列中的任何一个可以用于本公开。参见例如,Cocozaki、Ghattas和Smith,Journal of Bacteriology 2008;190(23):7699-7708,通过引用并入本文。在一些实施方案中,P22噬菌体N肽包含与氨基酸序列GNAKTRRHERRRKLAIERDTI(SEQ ID NO:155)具有至少70%相似性的氨基酸序列。在一些实施方案中,P22噬菌体N肽核酸适体序列包括与选自由GCGCUGACAAAGCGC(SEQ ID NO:156)和CCGCCGACAACGCGG(SEQ ID NO:157)组成的组的RNA序列具有至少70%相似性的序列。在一些实施方案中,P22噬菌体N肽RNA适体序列选自由SEQ ID NO:156-157,UGCGCUGACAAAGCGCG(SEQ ID NO:158)或ACCGCCGACAACGCGGU(SEQ ID NO:159)组成的组。
在一些实施方案中,适体序列是肽适体序列。肽适体可以是天然存在的或合成的肽,其被亲和剂特异性识别。此类适体包括但不限于,c-Myc亲和标签、HA亲和标签、His亲和标签、S亲和标签、蛋氨酸-His亲和标签、RGD-His亲和标签、7×His标签、FLAG八肽、strep标签或strep标签II、V5标签或VSV-G表位。相应的适体结合蛋白是本领域公知的,并且包括例如一级抗体、生物素、affimer、单域抗体和抗体模拟物。
示例性肽适体包括GCN4肽(Tanenbaum等人,Cell 2014;159(3):635-646,通过引用并入本文)。抗体或GCN4结合蛋白可用作适体结合蛋白。
在一些实施方案中,肽适体序列与Cas蛋白缀合。肽适体序列可以以任何方向(例如,N-端到C-端、C-端到N-端、N-端到N-端)融合至Cas。在选定的实施方案中,肽适体与Cas蛋白的C-端融合。
在一些实施方案中,1至24个肽适体序列可与Cas蛋白缀合。适体序列可以相同或不同,并且可以靶向相同或不同的适体结合蛋白。在选定的实施方案中,相同肽适体序列的1至24个串联重复与Cas蛋白缀合。在优选的实施方案中,4至18个串联重复与Cas蛋白缀合。单个适体可以由接头区域分开。合适的接头是本领域已知的。接头可以是柔性的或被设置成允许亲和剂与相邻适体结合而没有空间位阻或具有降低的空间位阻。接头序列可提供多肽的非结构化或线性区域,例如包含一个或更多个甘氨酸和/或丝氨酸残基。接头序列的长度可以是至少约2、3、4、5、6、7、8、9、10或更多个氨基酸。
在一些实施方案中,融合蛋白包括与适体结合蛋白功能性连接的微生物重组蛋白。微生物重组蛋白可以是RecE、RecT、λ外切核酸酶(Exo)、Bet蛋白(betA,redB)、外切核酸酶gp6、单链DNA结合蛋白gp2.5、或其衍生物或变体。
在选定的实施方案中,微生物重组蛋白是RecE或RecT,或其衍生物或变体。RecE和RecT的衍生物或变体是功能等同的蛋白或多肽,其具有与野生型RecE和RecT基本相似的功能。RecE和RecT衍生物或变体包括类似于野生型序列但由于氨基酸替换、添加、删除、截断、翻译后修饰或其他修饰而不同的生物活性氨基酸序列。在一些实施方案中,衍生物可改善翻译、纯化、生物半衰期、活性,或消除或减轻任何不期望的副作用或反应。衍生物或变体可以是天然多肽、合成或化学合成的多肽或基因工程肽多肽。RecE和RecT生物活性是本领域普通技术人员已知的,并且容易由本领域普通人员测定,并且分别包括例如外切核酸酶和单链核酸结合。
RecE或RecT可来自多种微生物,包括大肠杆菌(Escherichia coli)、Pantoeabreeneri、Plautia stali的F型共生体、普罗威登斯菌属(Providencia sp.)MGF014、索氏志贺菌(Shigella sonnei)、假噬菌弧菌科(Pseudobacteriovoraxantillogorgiicola)等。在优选的实施方案中,RecE和RecT蛋白来源于大肠杆菌(Escherichia coli)。
在一些实施方案中,融合蛋白包括RecE、或其衍生物或变体。RecE或其衍生物或变体可包含选自由SEQ ID NO:1-8组成的组的氨基酸序列。RecE或其衍生物或变体可包含与选自由SEQ ID NO:1-8组成的组的氨基酸序列具有至少70%(例如,75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)相似性的氨基酸序列。在选定的实施方案中,RecE或其衍生物或变体包含与选自由SEQ ID NO:1-8组成的组的氨基酸序列具有至少90%相似性的氨基酸序列。在示例性实施方案中,RecE或其衍生物或变体包含与选自由SEQ ID NO:1-3组成的组的氨基酸序列具有至少90%相似性的氨基酸序列。
在一些实施方案中,融合蛋白包括RecT或其衍生物或变体。RecT或其衍生物或变体可包含选自由SEQ ID NO:9-14组成的组的氨基酸序列。RecT或其衍生物或变体可包含与选自由SEQ ID NO:9-14组成的组的氨基酸序列具有至少70%(例如,75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%)相似性的氨基酸序列。在选定的实施方案中,RecT或其衍生物或变体包含与选自由SEQ ID NO:9-14组成的组的氨基酸序列具有至少90%相似性的氨基酸序列。在示例性实施方案中,RecT或其衍生物或变体包含与选自由SEQ ID NO:9组成的组的氨基酸序列具有至少90%相似性的氨基酸序列。
截断可以来自C端或N端,或两者。例如,如下面的实施例6所示,从任意一端或两端截断的不同组合提供了功能产品。在一些实施方案中,与野生型序列相比,一个或更多个(2、3、4、5、10、20、30、40、50、60、100、120或更多)氨基酸可以从C端、N端截断。
在融合蛋白中,微生物重组蛋白可以以任何方向(例如,N-端到C-端、C-端到N-端、N-端到N-端)连接到适体结合蛋白的任一端。在选定的实施方案中,微生物重组蛋白N端与适体结合蛋白C端连接。因此,从N-端到C-端的总融合蛋白包括与微生物重组蛋白(N-端到C-端)连接的适体结合蛋白(N-到C-端)。
在一些实施方案中,融合蛋白还包括微生物重组蛋白和适体结合蛋白之间的接头。接头可以包括任何长度的任何氨基酸序列。接头可以是柔性的,使得它们不以任何特定方向约束由它们连接在一起的两个组分中的任何一个。接头基本上可以充当间隔物。在选定的实施方案中,接头将微生物重组蛋白的C端与适体结合蛋白的N端连接起来。在选择的实施方案中,接头包括16个残基的XTEN接头、SGSETPGTSESATPES(SEQ ID NO:15)或37个残基的EXTEN接头、SASGGSSGGSSGSETPGTSESATPESSGGSSGGSGGS(SEQ ID NO:148)的氨基酸序列。
在一些实施方案中,融合蛋白还包括核定位序列(NLS)。核定位序列可以位于融合蛋白内的任何位置(例如,适体结合蛋白的C-端、适体结合蛋白质的N-端、微生物重组蛋白的C-端)。在选择的实施方案中,核定位序列与微生物重组蛋白的C-端连接。许多核定位序列是本领域已知的(参见例如,Lange,A.等人,J Biol Chem.2007;282(8):5101-5105,通过引用并入本文)并且可以用于本公开。核定位序列可以是SV40 NLS,PKKKRKV(SEQ ID NO:16);Ty1 NLS,NSKKRSLEDNETEIKVSRDTWNTKNMRSLEPPRSKKRIH(SEQ ID NO:17);c-Myc NLS,PAAKRVKLD(SEQ ID NO:18);biSV40 NLS、KRTADGSEFESPKKKRKV(SEQ ID NO:19);和MutNLS,PEKKRRRPSGSVPVLARPSPPKAGKSSCI(SEQ ID NO:20)。在选定的实施方案中,核定位序列是SV40 NLS,PKKKRKV(SEQ ID NO:16)。
Cas蛋白和融合蛋白理想地单独包含在单个组合物中,或与彼此和/或包含指导RNA序列和适体序列的一个或多个多核苷酸(例如载体)组合。Cas蛋白和/或融合蛋白可以或可以不与多核苷酸物理或化学地结合。Cas蛋白和/或微生物重组蛋白可以使用本领域已知的用于蛋白-蛋白连接或蛋白-病毒连接的任何合适方法与多核苷酸结合。
本公开还提供了包含多核苷酸的组合物和载体,所述多核苷酸包含编码融合蛋白的核酸序列,所述融合蛋白包含与RNA适体结合蛋白功能性连接的微生物重组蛋白。
组合物或载体可进一步包括包含包含编码Cas蛋白的核酸序列的多核苷酸包含指导RNA序列的核酸分子中的至少一种或两种,所述指导RNA序列与靶DNA序列互补。在一些实施方案中,包含指导RNA序列的核酸分子进一步包含至少一个RNA适体序列。在一些实施方案中,包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。
上述与本发明系统相关的有关包含指导RNA序列的核酸分子、适体序列、Cas蛋白、微生物重组蛋白和适体结合蛋白的描述也适用于所提及的组合物和载体的多核苷酸。
编码Cas蛋白质的核酸序列和/或编码融合蛋白的核酸序列可以在与包含指导RNA序列和/或者RNA适体序列的核酸分子相同的载体上(例如,以顺式方式)提供给细胞,所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。在这样的实施方案中,可以使用单向启动子控制每个核酸序列的表达。在另一个实施方案中,可以使用双向和单向启动子的组合控制多个核酸序列的表达。
在其他实施方案中,编码Cas蛋白的核酸序列、编码融合蛋白的核酸序列以及包含指导RNA序列和/或RNA适体序列的核酸分子可以在单独的载体(例如,以反式方式)上提供给细胞,所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。每个单独载体中的每个核酸序列可以包含相同或不同的表达控制序列。单独载体可以同时或顺序地提供给细胞。
包含编码Cas蛋白的核酸序列和编码包含与适体结合蛋白功能性连接的微生物重组蛋白的融合蛋白的核酸序列的一个或多个载体可以被引入能够表达由此编码的多肽的宿主细胞,包括任何合适的原核或真核细胞中。因此,本公开提供了包含本文公开的载体或核酸序列的分离细胞。优选的宿主细胞是那些能够容易且可靠地生长、具有相当快的生长速率、具有良好表征的表达系统并且能够容易且有效地转化或转染的宿主细胞。合适的原核细胞的实例包括但不限于来自芽孢杆菌属(Bacillus)(如枯草芽孢杆菌(Bacillussubtilis)和短芽孢杆菌(Bacillus brevis))、埃希氏菌属(Escherichia)(例如大肠杆菌(E.coli))、假单胞菌属(Pseudomonas)、链霉菌属(Streptomyces)、沙门氏菌属(Salmonella)和欧文氏菌属(Envinia)的细胞。合适的真核细胞是本领域已知的,并且包括例如酵母细胞、昆虫细胞和哺乳动物细胞。合适的酵母细胞的实例包括来自克鲁维酵母菌属(Kluyveromyces)、毕赤酵母属(Pichia)、鼻孢子虫属(Rhino-sporidium)、酵母属(Saccharomyces)和裂殖酵母属(Schizosaccharomyces)的酵母细胞。示例性昆虫细胞包括Sf-9和HIS(Invitrogen,Carlsbad,Calif.)并且在例如,Kitts等人,Biotechniques,14:810-817(1993);Lucklow,Curr.Opin.Biotechnol.,4:564-572(1993);和Lucklow等人,J.Virol.,67:4566-4579(1993)中描述,通过引用并入本文。理想地,宿主细胞是哺乳动物细胞,并且在一些实施方案中,宿主细胞为人细胞。本领域已知许多合适的哺乳动物和人类宿主细胞,并且许多可从美国典型培养物保藏中心(ATCC,Manassas,Va.)获得。合适的哺乳动物细胞的实例包括但不限于中国仓鼠卵巢细胞(CHO)(ATCC No.CCL61)、CHO DHFR-细胞(Urlaub等人,Proc.Natl.Acad.Sci.USA 97:4216-4220(1980))、人胚胎肾(HEK)293或293T细胞(ATCC No.CRL1573)、和3T3细胞(ATCC No.CCL92)。其他合适的哺乳动物细胞系是猴COS-1(ATCC No.CRL1650)和COS-7细胞系(ATCC No.CRL165)以及CV-1细胞系(ATCCNo.CCL70)。其他示例性哺乳动物宿主细胞包括灵长类、啮齿动物和人类细胞系,包括转化细胞系。正常二倍体细胞、衍生自原代组织体外培养的细胞株以及原代外植体也是合适的。其他合适的哺乳动物细胞系包括但不限于小鼠神经母细胞瘤N2A细胞、HeLa、HEK、A549、HepG2、小鼠L-929细胞和BHK或HaK仓鼠细胞系。本领域已知用于选择合适的哺乳动物宿主细胞的方法以及用于细胞转化、培养、扩增、筛选和纯化的方法。
改变靶DNA的方法
本公开还提供了一种改变靶DNA的方法。在一些实施方案中,该方法改变细胞中的基因组DNA序列,尽管可以修饰任何期望的核酸。当应用于包含在细胞中的DNA时,该方法包括将本文所述的系统、组合物或载体引入包含靶基因组DNA序列的细胞中。上述与本发明系统有关的包含指导RNA序列的核酸分子、Cas蛋白、微生物重组蛋白、募集系统和编码它们的多核苷酸、细胞、靶基因组DNA序列及其组分的描述也适用于改变细胞中靶基因组DNA序列的方法。所述系统、组合物或载体可以本领域已知的任何方式引入,包括但不限于化学转染、电穿孔、显微注射、通过基因枪的生物弹道递送或磁辅助转染,取决于细胞类型。
在将本文所述的系统引入包含靶基因组DNA序列的细胞中时,指导RNA序列与细胞基因组中的靶基因组DNA序列结合,Cas蛋白与指导RNA结合并可诱导靶基因组DNA序列中的双链断裂或单链断口,且适体通过融合蛋白的适体结合蛋白将微生物重组蛋白募集到靶基因组DNA序列中,从而改变细胞中的靶基因组DNA序列。当将本文描述的组合物或载体引入细胞中时,首先在细胞中表达包含指导RNA序列、Cas9蛋白和融合蛋白的核酸分子。
在一些实施方案中,细胞在生物体或宿主中,从而使得将所公开的系统、组合物、载体引入细胞包括对受试者施用。该方法可包括在体内或通过移植本系统的体外处理的细胞、系统、组合物、载体向受试者提供或施用。
“受试者”可以是人类或非人,并且可以包括例如用作研究目的的“模型系统”的动物品系或物种,如本文所述的小鼠模型。同样,受试者可包括成人或青少年(如儿童)。此外,受试者可指可受益于本文所述组合物的施用的任何活生物体,优选哺乳动物(例如人类或非人类)。哺乳动物的实例包括但不限于哺乳动物类的任何成员:人类、非人类灵长类动物(如黑猩猩)以及其他猿类和猴类;农场动物,如牛、马、羊、山羊、猪;家畜,如兔子、狗和猫;实验动物,包括啮齿动物,如大鼠、小鼠和豚鼠等。非哺乳动物的实例包括但不限于鸟类、鱼类等。在本文提供的方法和组合物的一个实施方案中,哺乳动物是人。
如本文所用,术语“提供”、“施用”和“引入”在本文中可互换使用,并指通过导致系统至少部分定位到期望部位的方法或路线将本公开的系统放置到受试者中。该系统可以通过任何适当的途径施用,其导致递送到受试者的期望部位。
如本文所用,短语“改变DNA序列”是指修改感兴趣的DNA序列的至少一个物理特征。DNA改变包括例如,单链或双链DNA断裂、一个或更多个核苷酸的缺失或插入,以及影响DNA序列的结构完整性或核苷酸序列的其他修饰。基因组DNA中靶序列的修饰可导致例如,基因矫正、基因替换、基因标记、转基因插入、核苷酸缺失、基因破坏、基因突变、基因敲低等。
在一些实施方案中,本文描述的系统和方法可用于矫正基因中的一个或更多个缺陷或突变(称为“基因矫正”)。在这种情况下,靶基因组DNA序列编码基因的缺陷版本,并且该系统进一步包括编码基因的野生型或校正版本的供体核酸分子。因此,换句话说,靶基因组DNA序列是“疾病相关”基因。术语“疾病相关基因”是任何基因或多核苷酸,与从未受疾病影响的个体获得的组织或细胞相比,其基因产物在从受疾病影响个体获得的细胞中以异常水平或异常形式表达。疾病相关基因可以异常高水平或异常低水平表达,其中改变的表达与疾病的发生和/或进展相关。疾病相关基因还指其突变或遗传变异直接负责疾病病因或与负责疾病病因的一个或多个基因连锁不平衡的基因。负责这种“单基因”或“单基因的”疾病的基因的实例包括但不限于腺苷脱氨酶、α-1抗胰蛋白酶、囊性纤维化跨膜传导调节蛋白(CFTR)、β-血红蛋白(HBB)、眼皮肤白化病II(OCA2)、亨廷顿蛋白(HTT)、肌张力障碍蛋白激酶(DMPK)、低密度脂蛋白受体(LDLR)、载脂蛋白B(APOB),神经纤维瘤蛋白1(NF1)、多囊性肾病1(PKD1)、多囊性肾病2(PKD2)、凝血因子VIII(F8)、肌营养不良蛋白(DMD)、磷酸调节内肽酶同系物、X-连锁(PHEX)、甲基CpG结合蛋白2(MECP2)和泛素特异性肽酶9Y、Y-连锁(USP9Y)。本领域已知其他单基因或单基因疾病,并在例如Chial,H.Rare GeneticDisorders:Learning About Genetic Disease Through Gene Mapping,SNPs,和Microarray Data,Nature Education 1(1):192(2008),通过引用并入本文;OnlineMendelian Inheritance in Man(OMIM);以及人类基因突变数据库(HGMD)中描述。
在另一个实施方案中,靶基因组DNA序列可以包括基因,该基因的突变与其他基因的突变一起促成了特定疾病。由多个基因的贡献引起的、缺乏简单(例如,Mendelian)遗传模式的疾病在本领域中被称为“多因素”或“多基因”疾病。多因素或多基因疾病的实例包括但不限于哮喘、糖尿病、癫痫、高血压、双相情感障碍和精神分裂症。某些发育异常也可能以多因素或多基因模式遗传,包括例如唇裂/腭裂、先天性心脏缺陷和神经管缺陷。
在另一个实施方案中,改变靶基因组DNA序列的方法可用于通过切割靶序列并允许细胞在不存在外源提供的供体核酸分子的情况下修复被切割的序列来从细胞中的靶序列中删除核酸。以这种方式删除核酸序列可用于多种应用,例如,去除神经元中引起疾病的三核苷酸重复序列,产生基因敲除或敲低,以及在研究中为疾病模型产生突变。
术语“供体核酸分子”是指插入靶DNA(例如基因组DNA)中的核苷酸序列。如上所述,供体DNA可包括,例如,基因或基因的一部分、编码标签的序列或定位序列或调节元件。供体核酸分子可以具有任何长度。在一些实施方案中,供体核酸分子的长度在10至10000个核苷酸之间。例如,长度在约100至5000个核苷酸之间、长度在约200至2000个核苷酸之间,长度在约500至1000个核苷酸之间,长度在约500至5000个核苷酸之间,长度在约1000至5000个核酸之间,或长度在约1000至10000个核苷酸之间。
公开的系统和方法克服了常规基因编辑期间遇到的挑战,包括低效率和脱靶事件,特别是使用千碱基规模的核酸时。在一些实施方案中,公开的系统和方法提高了基因编辑的效率。例如,如实施例2、3和5所示,公开的系统和方法与常规CRISPR-Cas9系统和方法相比效率可提高2至10倍。在一些实施方案中,效率的提高伴随着脱靶事件的减少。与常规CRISPR-Cas9系统和方法相比,脱靶事件可减少50%以上,例如,实施例3中显示脱靶事件减少约90%。提高基因编辑系统整体准确性的另一方面是减少中靶插入缺失(indels),这是HDR编辑的副产品。在一些实施方案中,与常规CRISPR-Cas9系统和方法相比,公开的系统和方法减少了90%以上的中靶indels,如实施例3所示。
本公开还提供了包含一种或更多种试剂或其他组分的试剂盒,这些试剂或组分对于实施本文所述的任何方法是有用的、必要的或足够的。例如,试剂盒可包括CRISPR试剂(Cas蛋白、指导RNA、载体、组合物等)、重组工程试剂(重组蛋白-适体结合蛋白融合蛋白、适体序列、载体、组合物等)转染或施用试剂、阴性和阳性对照样品(例如细胞、模板DNA)、细胞、容纳一个或更多个组分的容器(例如,微量离心管、盒子)、可检测标签、检测和分析仪器、软件、说明书等。
本领域已知的任何合适的CRISPR/Cas基因编辑系统的任何元件都可以适当地用于本文所述的系统和方法中。CRISPR/Cas基因编辑技术在例如美国专利号8,546,553、8,697,359;8,771,945;8,795,965;8,865,406;8,871,445;8,889,356;8,889,418;8,895,308;8,9066,616;8,932,814;8,945,839;8,993,233;8,999,641;9,115,348;9,149,049;9,493,844;9,567,603;9,637,739;9,663,782;9,404,098;9,885,026;9,951,342;10,087,431;10,227,610;10,266,850;10,601,748;10,604,771;和10,760,064;和美国专利申请公开号US2010/0076057;US2014/0113376;US2015/0050699;US2015/0031134;US2014/0357530;US2014/0349400;US2014/0315985;US2014/0310830;US2014/0310828;US2014/0309487;US2014/0294773;US2014/0287938;US2014/0273230;US2014/0242699;US2014/0242664;US2014/0212869;US2014/0201857;US2014/0199767;US2014/0189896;US2014/0186919;US2014/0186843;和US2014/0179770中详细描述,它们的每一个都通过引用并入本文。
以下实施例进一步说明了本发明,但是不应以任何方式限制本发明的范围。
实施例
材料和方法
RecE/T同源物筛选RefSeq非冗余蛋白数据库于2019年10月29日从NCBI下载。用大肠杆菌(E.coli)Rac原噬菌体RecT(NP_415865.1)和RecE(NP_415866.1)查询检索数据库,使用位置特异性迭代(PSI)-BLAST1检索蛋白质同源物。用CD-HIT2对命中进行聚类,并从每个聚类中选择代表性序列与MUSCLE3进行多重比对。然后,使用FastTree4进行具有默认参数的最大似然树重建。选择一组不同的RecET同源物,通过GenScript合成,并克隆到pMPH_MCP载体中进行测试。
质粒构碧pX330、pMPH和pU6-(BbsI)_CBh-Cas9-T2A-BFP质粒从Addgene获得。测试的效应物DNA片段从IDT、Genewiz和GenScript订购。使用NEBuilder HiFi DNA组装母液(New England BioLabs)将这些片段Gibson组装到骨架中。使用金门克隆法将所有sgRNAs(表1)插入骨架中。所有构建体均通过预制备质粒的Sanger测序进行序列验证。
表1.sgRNAs的序列
Figure BDA0003925775960000201
Figure BDA0003925775960000211
细胞培养人胚胎肾(HEK)293T、HeLa和HepG2维持在在37℃和5%CO2下,在含有10%胎牛血清(FBS,HyClone)、100U/mL青霉素和100μg/mL链霉素(Life Technologies)的杜尔贝科改良的Eagle培养基(DMEM,Life Technologies)中。
hES-H9细胞在mTeSR1培养基(StemCell Technologies)中保持在37℃和5%CO2下。培养板在使用前12小时用Matrigel(Coming)预涂,传代后的前24小时给细胞补充10μMY27632(Sigma)。培养基每24小时更换一次。
转染在转染前12-24小时,将HEK293T细胞以30000细胞/孔的密度接种到96孔板(Corning)中,每孔转染250ng的总DNA。HeLa和HepG2细胞在转染前一天分别以50000和30000细胞/孔的密度接种到48孔板(Corning)中,每孔转染400ng的总DNA。按照制造商的说明,使用Lipofectamine 3000(Life Technologies)进行转染。
电穿孔对于hES-H9相关转染实验,按照制造商的方案使用P3原代细胞4D-NucleofectorTM X试剂盒S(Lonza)。对于每个反应,使用DC100 Nucleofector程序,用4μg总DNA对300000个细胞进行核转染。
荧光激活细胞分选(FACS)在CytoFLEX流式细胞仪(Beckman Coulter;StanfordStem Cell FACS Core)上分析mKate敲入效率。转染72小时后,用PBS洗涤细胞一次,并用TrypLE Express酶(Thermo Fisher Scientific)进行解离。然后将细胞悬浮液转移至96孔U形底板(Thermo Fisher Scientific),并在300xG下离心5分钟。去除上清液后,用50μl4%FBS将颗粒细胞重新悬浮在PBS中,并在制备后的30分钟内对细胞进行分选。
RFLP用质粒DNA和PCR模板转染HEK293T细胞,并在72小时后使用QuickExtractDNA提取溶液(Biosearch Technologies)按照制造商的方案收获基因组DNA。使用PCR模板同源臂外的特异引物扩增靶基因组区域。PCR产物用Monarch PCR&DNA净化试剂盒(NewEngland BioLabs)纯化。用BsrGI(EMX1,New England BioLabs)或XbaI(VEGFA,NEB)消化300ng的纯化产物,消化产物在5%Mini-PROTEAN TBE凝胶(Bio-Rad)上分析。
下一代测序文库制备转染后72小时,使用QuickExtract DNA提取液提取基因组DNA(Biosearch Technologies)。200ng总DNA用于NGS文库制备。在第一轮PCR反应中使用特异引物(表2)扩增感兴趣的基因。使用表2中列出的引物,通过第二轮PCR将Illumina衔接子和索引条形码添加到片段中。使用Monarch DNA凝胶提取试剂盒(NEB)在2%琼脂糖凝胶上通过凝胶电泳纯化第2轮PCR产物。纯化产物用Qubit dsDNA HS测定试剂盒(ThermoFisher)定量,并根据制造商的说明在Illumina MiSeq上测序。
表2.用于PCR模板、RFLP和NGS的引物序列
Figure BDA0003925775960000221
Figure BDA0003925775960000231
Figure BDA0003925775960000241
高通量测序数据分析分析处理过的(多路解编、修剪和融合)的测序读段以确定编辑结果,使用CRISPPResso25,将测序扩增子与参考的和预期的HDR扩增子比对。量化窗口被增加到预期切割位点周围的10bp,以更好地捕捉不同的编辑结果,但替换被忽略,以避免包含测序错误。只有包含与预期扩增子无错配的读段才被考虑用于HDR量化;包含部分与预期扩增子匹配的indel的读段包含在总体报告的indel频率中。
统计分析除非另有说明,否则所有统计分析和比较均使用t检验进行,使用Benjamini、Krieger和Yekutieli的两阶段递增法,假发现率(FDR)为1%(Benjamini,Y.等人,Biometrika 93,491-507(2006),通过引用并入本文)。除非另有说明,否则所有实验均一式三份地进行,以确保分析中具有足够的统计能力。
预测的Cas9脱靶位点处编辑的确定为了评估已知Cas9脱靶位点的RecT/RecE脱靶编辑活性,将用于敲入分析的相同基因组DNA提取物作为模板,对EMX1、VEGFA指导的最有可能的预测脱靶位点(高评分作为预测的CRISPOR,基于网络的分析工具)进行PCR扩增,引物序列列于表2。
iGUIDE脱靶分析按照iGUIDE管线(Nobles,C.L.等人Genome Biol 20,14(2019),通过引用并入本文),基于先前发明的Guide-seq(Tsai,S.等人Nat Biotechnol 33,187-197(2015),通过引用并入本文)进行全基因组无偏脱靶分析。按照制造商的说明,在20uLLonza Sf细胞系核转染剂溶液中,在Lonza Nucleofector 4-D上用程序DS-150的转染HEK293T细胞。转染300ng的gRNA-Cas9质粒(或每个gRNA-cas9n质粒150ng用于双切口酶)、150ng的效应质粒和5pmol的双链寡核苷酸(dsODN)。72小时后,使用Agencourt DNAdvance试剂盒收获细胞进行基因组DNA。使用NEBNext Ultra II FS DNA文库制备试剂盒,按照制造商的说明,将400ng的纯化gDNA片段化为平均500bp,并按与接头连接。从寡核苷酸标签到连接的接头序列进行两轮嵌套锚定PCR以扩增靶向DNA,扩增的文库被纯化、选择大小并用Illumina Miseq V2 PE300测序。使用已发布的iGUIDE管线分析测序数据,并增加下游采样步骤,以确保样本之间的无偏比较。
实施例1
与哺乳动物相比,细菌可使用方便的重组编辑工具,例如噬菌体λRed和RecE/T。微生物重组工程有两个主要步骤:模板DNA被外切核酸酶(Exo)咬回,然后单链退火蛋白(SSAP)支持模板的同源性定向修复,任选由核酸酶抑制剂促进。开发了一种RNA指导的靶向RecE/T重组工程活性的系统,并在不切割DNA的情况下实现了千碱基(kb)人类基因编辑。
对具有重组工程活性的候选微生物系统进行了调查。有两条推理路线指导搜索工作:1)正交性:优先考虑与哺乳动物修复酶相似性最小的蛋白质;2)简约法:关注具有最少相互依赖组分的系统。鉴定了三个蛋白质家族:λRed、RecE/T和噬菌体T7 gp6(Exo)和gp2.5(SSAP)重组机制。基于系统发育重建,RecE/T蛋白被确定为距离真核重组蛋白最远,并且是最紧凑的蛋白之一(图1)。因此,RecE/T系统用于下游分析。
NCBI蛋白质数据库被系统地搜索RecE/T同源物。为了开发便携式工具,研究了进化关系和长度(图2A)。共现分析显示,大多数RecE/T系统只有两种蛋白质中的一种(图2B)。由于原噬菌体整合可能不精确,11%的含有两种同源物的物种被优先作为完整功能的证据。
对前12个候选者进行密码子优化,构建了MS2外壳蛋白(MCP)融合物,以通过MS2RNA适体将这些RecE/T同源物(下文称为“重组子”)募集到野生型化脓性链球菌(Streptococcus pyogenes)Cas9(wtCas9)。为了理解它们各自作为Exo和SSAP的分子效应,分别进行了独立测试(图2C)。初步结果显示,大肠杆菌(Escherichia coli)RecE/T蛋白(简化为RecE和RecT)是有希望的候选者,这是通过基因组敲入分析确定的(图2D)。虽然RecT只有269个氨基酸(AA)长,但基于功能研究,RecE从AA587(RecE_587)和羧基末端结构域(RecE_CTD)被截断(Muyrers,J.P.,Genes Dev.(2000);14,1971-1982,通过引用并入本文)。
为了验证人类细胞中的RecE/T重组工程,在五个基因组基因座用两个模板测量同源性定向修复(HDR)。尽管RecE变体(RecE_587、RecE_CTD)在敲入效率方面表现出不同程度的增加,但在所有情况下,RecT都明显增强了HDR,替换了EMX1和VEGFA处的~16bp序列,并在HSP90AA1、DYNLT1、AAVS1处敲入了~1 kb盒(图3A-E、图4)。这些结果通过成像进行验证(图3F)且使用Sanger测序对连接位点进行测序以确认精确插入(图3G)。为了测试这些活性是否真的具有序列特异性,使用了识别PP7适体而非MS2适体的PP7外壳蛋白(PCP)的无募集对照。RecE的活性不需要募集,而RecT以依赖于募集的方式显示效率的提高(图3H)。不受理论的约束,这可以通过RecE外切核酸酶活性不加区分地发挥作用来解释(图2C)。RecE/T重组工程编辑(REDIT)工具被称为REDITv1,其中REDITv1_RecT是首选变体。
实施例2
对REDITv1进行三次测试,以探索:1)跨细胞类型的活性,2)HDR模板的优化设计,以及3)特异性。REDITv1活性在HEK、A549、HepG2和HeLa细胞中的多个基因组基因座上都是稳健的(图5A-C,图6A-C)。值得注意的是,在人类胚胎干细胞(hESCs)中,REDITv1在HSP90AA1和OCT4表现一致的出千碱基敲入效率的增加,相对于Cas9 HDR有高达3.5倍的提高(图5D-E,图6D-E)。还测试了不同的模板设计。REDITv1使用短至200bp的总HA长度进行有效的千碱基编辑,更长的HA支持更高的效率。它对kb级的基因敲入实现了高达10%的效率(无选择),比Cas9 HDR增加了5倍,显著高于1-2%的典型效率(图7)。最后,REDITv1的准确性是用预测的脱靶位点(OTS)的深度测序和GUIDE-seq来确定的。尽管REDITv1没有增加脱靶效应,但在先前报道的EMX1和VEGFA位点上仍有可检测的OTS(图5F-G、图8)。简言之,REDITv1展示了千碱基规模的基因组重组,但保留了脱靶问题,其中REDITv1_RecT的效率最高。
实施例3
为了减少不必要的编辑,评估了使用非切割Cas9切口酶(Cas9n)的REDIT版本。之前采用了类似的策略(Ran,F.A.等人,Cell(2013),154:1380-1389,通过引用并入本文)以解决脱靶问题,但HDR效率低。对REDIT进行了测试,以确定该系统是否能够克服内源性修复的限制并促进切口介导的重组。事实上,切口酶版本显示了更高的效率,具有单切口和双切口的Cas9n(D10A)的结果最好。这种Cas9n(D10A)变体被命名为REDITv2N(图9A)。使用REDITv2N双切口观察到5%-10%的无选择敲入,与使用wtCas9的REDITv1相当(图9A、图10A)。连接测序证实了所有靶标的精确敲入(图11)。该结果比Cas9n-HDR提高了6至10倍。即使使用单切口REDITv2N,也观察到1kb基因敲入的效率约为2%,这一水平显著高于先前报告(Cong,L.等人,Science339,819-823,通过引用并入本文)中使用常规单切口Cas9n和挑战性较小的12-bp敲入模板的0.46%HDR效率(图9A)。
使用GUIDE-seq研究了REDITv2N的脱靶活性。结果表明,与REDITv1相比,脱靶切割最小,且OTS减少约90%(图9B)。具体地,对于DYNLT1靶向指导,最丰富的KIF6 OTS在REDITv1组中显著富集,但在使用REDITv2N时消失(图9C)。REDITv2N是高度准确的(图9B-C、图12)。
HDR编辑的另一个副产品是中靶插入删除(indels)。它们可能会大大降低基因编辑的产率,尤其是对于长序列。使用深度测序在EMX1敲入实验中测量Indel形成。REDITv2N将HDR提高到与使用wtCas9的对应物相同的效率(图12C,顶部),不需要的中靶indel降低了92%(图12C,底部)。
来自GUIDE-seq、LAM-PCR和TLA的概念用于开发基于NGS的分析,以识别全基因组插入位点(GIS)、或GIS-seq(图30A)。使用GIS seq,获得了代表敲入插入位点的NGS读段簇/峰值(图30B)、显示来自中靶位点的代表性读段)。将GIS-seq应用于DYNLT1和ACTB基因座以测量敲入准确性。测序结果表明,当考虑基于最大似然估计的高置信度位点时,与Cas9相比,REDIT确定的脱靶插入位点较少(图30C)。敲入连接的克隆Sanger测序(图9C和12)、GUIDE-seq分析(图9B)、和GISseq结果(图30A-30C)共同表明,REDIT可以是一种有效的方法,具有插入千碱基长度序列的能力,具有不需要的编辑事件较少。
实施例4
在不存在靶DNA的任何切口/切割的情况下,检查了REDIT的长序列编辑能力。值得注意的是,当使用催化失活的Cas9(dCas9)构建REDITv2D时,在人类细胞中观察到了精确的千碱基盒基因组敲入(图9D,顶部,图13)。虽然REDITv2D的效率低于REDITv2N,但它在千碱基规模上实现了可编程的无DNA损伤编辑,效率为1-2%,而且无选择(图9D、图10B)。据推测,两个过程可能有助于REDITv2D重组。一种可能性是通过dCas9解旋。如果dCas9能够在诱导序列特异性形成环时解旋DNA,则与两个dCas9的双重结合有望促进RecE/T的基因组可及性。然而,在递送两种指导RNA后,未观察到明显增加(图9D,底部)。另一种可能性是,细胞周期中DNA的解旋允许RecE/T通过dCas9结合而进入靶标区。在不同的血清水平(10%正常,2%减血清,无血清)下使用不同的REDIT工具进行1kb敲入。由于血清饥饿会阻止细胞增殖,结果表明细胞周期与REDITv2D重组工程正相关(图9E)。在无血清处理时,只有REDITv2D(dCas9)组的HDR效率下降,而REDITv1(wtCA9)和REDITv2N(D10A)不受影响(图9E、图14),支持DNA解旋允许RecE/T进入靶标区。
实施例5
显微镜分析显示REDITv1的核靶向不完全,特别是REDITv1_RecT(图15)。因此,测试了不同设计的蛋白质接头和核定位信号(NLS)(图15A)。具有C端SV40-NLS的扩展XTEN接头被确定为优选配置,称为REDITv3(图16)。在基因组靶标和Cas9变体(wtCas9、Cas9n、dCas9)上,REDITv3进一步实现了HDR效率比REDITv2提高2至3倍(图17)。
最后,在hESC中利用REDITv3来设计人干细胞中的千碱基敲入等位基因。REDITv3N单切口和双切口设计分别使HDR效率比无重组子对照提高了5倍和20倍(图9F)。通过先前的REDIT版本(图9F-G和图18)中所述的测定的组合来确认疗效和保真度。此外,REDITv3与金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)有效合作,这是一种适用于体内递送的紧凑CRISPR系统(图19)。
实施例6
为了进一步研究RecT和RecE_587变体,分别如图20A和图21A所示,将RecT和RecE_587两者在不同长度处截断。使用mKate敲入测定法测量所产生的效率,其中野生型SpCas9和Cas9n(D10A)在DYNLTI基因座具有单和双切口(分别为图20B-C和图21B-C)。无重组组的效率显示为对照。
当与不同Cas9s一起使用时,RecT和RecE_587两者的截短版本保留了显著的重组活性。特别地,与全长RecT(1-269aa)相比,新的截短版本如RecT(93-264aa)小30%以上,但它们基本上保留了RecT在刺激真核细胞重组中的全部活性。类似地,与全长RecE(1-280aa)相比,截短的版本如RecE_587(120-221aa)和RecE_587(12-209aa)小60%以上,但在人类细胞中仍保持高重组活性。这些截短版本证明了使用RecE和RecT蛋白变体进一步设计最小功能重组工程酶的潜力,但也为人类基因组编辑提供了有价值的紧凑型重组工程工具,由于其尺寸较小,非常适合体外、离体和体内递送。
总的来说,REDIT利用CRISPR基因组靶向的特异性和RecE/RecT重组工程的效率。所公开的高效、低误差系统是对现有CRISPR工具包的有力补充。REDITv3N的平衡的效率和准确性使其成为免疫和干细胞大盒敲入的一个有吸引力的治疗选择。
实施例7
用来自酵母和人的真核重组酶重建的RecE和RecT系统发育树(图1A和1B)显示了基于序列同源性的蛋白质的进化距离。虚线框表示全长大肠杆菌(E.coli)RecB和大肠杆菌(E.coli)RecE蛋白。使用大肠杆菌(E.coli)RecB和大肠杆菌(E.coli)RecE蛋白的催化核结构域(实心框)进行比较。使用MS2-MCP募集系统测量这些重组工程蛋白家族的基因编辑活性,其中携带MS2茎环的sgRNA与通过肽接头与MCP蛋白融合的重组工程蛋白和核定位信号一起使用。
使用了三种外切核酸酶蛋白:来自噬菌体λ的外切核酸酶、大肠杆菌(E.coli)RecE蛋白的RecE587核结构域和来自噬菌体T7的外切核酸酶(基因名gp6)(图22A)。在基因组基因座(DYNLT1和HSP90AA1)处使用mKate敲入测定法测量基因编辑活性。
进行类似的测量,以测试来自与外切核酸酶相同的三种微生物物种的三种单链DNA退火蛋白(SSAP)的基因组编辑效率,即来自噬菌体λ的Bet蛋白、来自大肠杆菌(E.coli)的RecT蛋白和来自噬菌体T7的SSAP(基因名gp2.5)(图22B)。
根据这些结果,在真核细胞中系统地测量和验证了所有三个主要的噬菌体/微生物重组系统家族的基因组重组活性(λ噬菌体外切核酸酶和β蛋白;大肠杆菌(E.coli)原生期RecE和RecT蛋白,T7噬菌体外切核酸酶gp6和单链结合gp2.5蛋白)。来自三个系统的所有六种蛋白质都实现了有效的基因编辑,在两个基因组基因座将千碱基长的序列敲入哺乳动物基因组。总体而言,与无重组子对照相比,外切核酸酶显示出~3倍更高的重组效率(高达4%的mKate基因组敲入)。单链退火蛋白(SSAP)显示出较高的活性,基因编辑活性比对照组高4倍至8倍。这证明了外切核酸酶和SSAP家族中的微生物重组蛋白可通过基于Cas9的融合蛋白系统进行工程化以在哺乳动物细胞中实现高效基因组重组的普遍适用性和有效性。
实施例8
为了证明REDIT蛋白设计的普适性,开发并测试了替代性募集系统。对于更紧凑的REDIT系统,将REDIT重组蛋白与N22肽融合,同时sgRNA包括N22肽的短识别序列boxB,替换sgRNA中的MCP(图23A)。该boxB-N22系统在两个测试的基因组基因座在与MS2-MCP募集系统的并列比较中显示了相当的编辑效率,如图23B-23E所示。
开发了使用SunTag募集(基于蛋白质的募集系统)的REDIT系统(图24A和27A)。由于SunTag是基于融合蛋白的设计,sgRNA或指导RNA与野生型CRISPR系统相同。具体地,将REDIT重组蛋白融合到scFV抗体肽(替换MCP),并将GCN4肽以串联方式(通过接头分离的10个GCN4肽拷贝)融合到Cas9蛋白。因此,可以通过GCN4对scFV的亲和力将scFV-REDIT募集到Cas9复合物中。
mKate敲入实验(图24B和27B)分别用于测量DYNLT1基因座和HSP90AA1基因座的编辑效率。该基于SunTag的REDIT系统证实了在所测试的DYNLT1基因组位点处的基因编辑敲入效率的明显提高。此外,SunTag设计显著提高了HRD效率,比Cas9提高了约2倍,但没有达到MS2适体的水平。
实施例9
为了证明REDIT蛋白设计的通用性,并开发适用于一系列CRISPR酶的多功能REDIT系统,使用SunTag募集设计开发了基于Cpf1/Cas12a的REDIT系统(图25A)。如前所述,使用mKate敲入测定法测试两种不同的Cpf1/Cas12a蛋白(毛螺旋菌科细菌(Lachnospiraceaebacterium)ND2006、LbCpf1和氨基酸球菌属(Acidaminococcussp)BV3L6)(图25B)。
这些结果表明,微生物重组蛋白(外切核酸酶和单链退火蛋白)可以使用替代设计(如SunTag募集系统)进行工程化,以在真核细胞中进行基因组编辑。这些基于蛋白质的募集系统不需要使用RNA适体或RNA结合蛋白,相反,它们利用与CRISPR酶直接连接的融合蛋白结构域来募集REDIT蛋白。
除了募集系统设计的灵活性之外,这些使用Cpf1/Cas12a型CRISPR酶的结果还证明了REDIT蛋白对各种CRISPR系统的基因组重组的普适性。Cpf1/Cas12a酶具有与Cas9酶不同的催化残基和DNA识别机制。因此,REDIT重组蛋白(外切核酸酶和单链退火蛋白)可以独立于CRISPR酶组分(Cas9、Cpf1/Cas12a等)的特定选择发挥功能。这证明了REDIT系统的通用性,并为使用额外的CRISPR酶(已知和未知)作为REDIT系统的组分以实现真核细胞中的精确基因组编辑提供了可能性。
实施例10
选择具有RecE/RecT蛋白的15种不同种类的微生物,以筛选微生物界的各种RecE和RecT蛋白(表3)。对每个蛋白质进行密码子优化和合成。如先前针对基于大肠杆菌(E.coli)RecE/RecT的REDIT系统所述,每种蛋白通过E-XTEN接头与MCP蛋白融合,并具有额外的核定位信号。mKate敲入基因编辑测定用于测量DYNLTI基因座(图26A,表4)和HSP90AAl基因座(图26B,表4)的效率。这些同源物证明了实现和增强精确基因编辑的能力。
表3:RecE和RecT蛋白质同源物
Figure BDA0003925775960000301
Figure BDA0003925775960000311
表4:mKate敲入基因编辑效率
Figure BDA0003925775960000312
Figure BDA0003925775960000321
实施例11
接下来,为了评估基于RecT的REDIT设计,将其与三类现有的HDR增强工具进行比较(图28A和28B):DNA修复酶CtIP与Cas9的融合(Cas9-HE)、人类联会蛋白(Geminin)功能结构域(氨基酸1至110)与Cas9的融合(Cas9-Gem)、以及通过细胞周期控制HDR小分子增强剂诺考达唑(Nocodazole)。在测试的内源性靶标中,与三种替代策略相比,基于RecT的DREDIT设计具有良好的性能(图28C)。此外,基于RecT的REDIT设计,如果是通过独立于其他方法的方式发挥作用,可能与现有方法产生协同作用。为了验证这一假设,基于RecT的REDIT设计与三种不同的方法相结合(方便地通过MS2适体)(图28A,右)。基于RecT的REDIT设计确实可以进一步提高测试工具的HDR促进活动(图28C)。
实施例12
模板HA长度对REDIT编辑效率的影响在使用每侧至少100bp的带有HA的规范HDR供体时被量化(图29A,左)。随着HA长度增加,观察到Cas9和RecT组的HDR率更高,并且REDIT使用短至每侧~100bp的HA长度对于Cas9上有效地刺激了HDR。当提供的较长的模板带有600-800bp的总HA时,RecT在没有选择的情况下实现了超过10%的kb规模敲入的HDR效率,显著高于仅使用Cas9时的2-3%的效率。最近的报道确认,由于微介导的末端连接(MMEJ)途径的高修复活性,使用具有较短HA(通常在10-50bp之间)的供体DNA可以显著刺激敲入效率。使用具有0bp(基于NHEJ)、10bp或50bp(基于MMEJ)HA的供体DNA,将基于REDIT的方法的敲入效率与Cas9进行比较。结果证明,与HDR供体相比,利用MMEJ机制的短HA供体产生了更高的编辑效率(图29A,右)。同时,只要存在HA,REDIT就能够提高敲入效率(对0bp NHEJ供体无影响)。该影响在有明显效果的10bp供体中特别显著,被选择用于进一步的表征和与HDR供体进行比较。
敲入细胞被克隆分离,并使用完全结合供体DNA之外的引物扩增靶基因组区域,用于菌落Sanger测序(图29B。连接测序分析(每种条件每个基因约48个克隆)在5’-和3’-敲入连接处显示不同程度的indels,包括单个或两个连接(图29C)。总的来说,HDR供体比MMEJ供体具有更好的精确度,与Cas9相比,REDIT适度提高了敲入产率,尽管仍观察到连接indels。
此外,在进行不同长度的编辑时,比较了REDIT和Cas9的效率。对于较长编辑,使用2-kb敲入盒(图29D),对于短编辑,使用单链寡核苷酸供体(ssODN)。当使用双mKate/GFP模板将敲入序列长度增加到~2-kb时,在测试的内源性靶标中,与Cas9相比,REDIT保持其HDR促进活性(图29D)。对于ssODN测试,在两个已建立的基因座EMX1和VEGFA上,使用REDIT和Cas9引入12-16-bp的外源序列。由于ssODN模板较短(在每一侧<100bp HAs),因此使用下一代测序(NGS)来量化编辑事件。在Cas9和REDIT之间观察到相当水平的indels,使用REDIT提高了HDR效率。
实施例13
在存在或不存在RAD51的两种不同药理学抑制剂,B02和RI-1的情况下,REDIT促进HDR能力的敏感性(图31A)。如预期的,对于基于Cas9的编辑,RAD51的抑制显著降低了HDR效率(图31B、31C、和32A)。有趣的是,RAD51的抑制仅适度降低了REDIT和REDITdn的效率,因为在RAD51抑制下,两种REDIT/REDITdn方法与Cas9/Cas9dn相比保持了显著更高的敲入效率。
还使用了Mirin,一种有效的DSB修复化学抑制剂,其也已被证明可防止MRN复合物形成、MRN依赖性ATM激活,并抑制Mre11外切核酸酶活性。当用Mrining处理细胞时,只有Cas9参考实验的编辑效率受到Miring处理的影响,而在所有基因组靶标中,REDIT版本与溶媒处理组基本相同(图32A)。
为了测试细胞周期抑制是否影响重组,使用双胸苷阻断(DTB)在G1/S边界对细胞进行化学同步。当Miring RI-1或B02与DTB处理结合时,REDIT版本在DTB处理下的编辑效率降低,尽管与Cas9参考实验相比,它在DNA修复途径抑制下保持更高的编辑效率(图32B)。
为了在不同的环境下验证REDIT,REDIT被应用于人类胚胎干细胞(HESC),以测试其在非转化人类细胞中工程化长序列的能力。使用REDIT和REDITdn在所有三个基因组基因座(HSP90AA1、ACTB、OCT4/POU5F1)上观察到HDR的稳健刺激(图31D和31E)。值得注意的是,REDIT和REDITdn使用每侧具有有200-bp HA的供体DNA,与使用非REDIT方法约1%效率相比,在不选择的情况下,kb-规模基因编辑效率达到超过5%。此外,REDIT提高了A549(肺源性)、HepG2(肝源性)、和HeLa(宫颈源性)细胞的敲入效率,证明无需选择的kb级基因组敲入效率高达~15%kb。这一改进比Cas9组高出高达4倍,支持在不同细胞类型中使用REDIT方法的潜力。
实施例14
通过水动力学尾静脉注射,使用无切割dCas9编辑器测试dCas9-EcRecT(SAFE-dCas9)的体内使用。使用的基因编辑载体和模板DNA如图33A中所示。通过水动力学尾静脉注射,注射基因编辑载体(60μg)和模板DNA(60μg),以将组分递送至小鼠。通过白蛋白基因座的转基因编码蛋白表达监测肝细胞的成功基因编辑。实验程序的示意图如33B所示。
注射后约7天,对灌注的小鼠肝脏进行解剖。将肝叶均质化并处理以从原代肝细胞提取肝基因组DNA。提取的基因组DNA用于三种不同的下游分析:1)使用敲入特异性引物和琼脂糖凝胶电泳进行PCR(图34A);2)对基因敲入PCR产物进行Sanger测序(图34B);3)对敲入连接进行高通量深度测序,以确认和量化体内使用SAFE-dCas9进行基因编辑的准确性(图34C)。每个下游分析都证实了敲入成功。
此外,使用腺相关病毒(AAV)递送到LTC小鼠肺中来测试体内用途。LTC小鼠包括三个基因组等位基因:1)Lkb1(flox/flox)等位基因在允许表达Cre时Lkb1-KO;2)R26(LSL-TdTom)等位基因允许通过TdTom红色荧光蛋白检测AAV转导细胞;3)H11(LSL-Cas9)等位基因允许在AAV转导细胞中表达Cas9。REDI基因编辑载体和Cas9对照载体的示意图如图35A中所示。如图35B所示,使用基因编辑载体的成功基因编辑导致在受处理小鼠肺中驱动肿瘤生长的Kras等位基因。
AAV注射后约14周,对灌注的小鼠肺进行解剖。固定肺组织用于成像分析,以确定成功的基因编辑的肿瘤形成(图35C)。通过成像分析对表面肿瘤数量进行量化显示,在REDIT处理的小鼠中,基因编辑效率和肿瘤总数增加(图35C)。
大肠杆菌(Escherichia coli)RecE氨基酸序列(SEQ ID NO:I):
Figure BDA0003925775960000341
Figure BDA0003925775960000351
大肠杆菌(Escherichia coli)RecE_587氨基酸序列(SEQ ID NO:2):
Figure BDA0003925775960000352
大肠杆菌(Escherichia coli)CTD_RecE氨基酸序列(SEQ ID NO:3):
Figure BDA0003925775960000353
布氏泛菌种属(Pantoea brenneri)RecE氨基酸序列(SEQ ID NO:4):
Figure BDA0003925775960000354
Plautia stali的F型共生体RecE氨基酸序列(SEQ ID NO:5):
Figure BDA0003925775960000355
普罗威登斯菌属(Providencia sp.)MGF014 RecE氨基酸序列(SEQ ID NO:6):
Figure BDA0003925775960000356
Figure BDA0003925775960000361
索氏志贺菌(Shigella sonnei)RecE氨基酸序列(SEQ ID NO:7):
Figure BDA0003925775960000362
Pseudobacteriovorax antillogorgiicola RecE氨基酸序列(SEQ ID NO:8):
Figure BDA0003925775960000363
大肠杆菌(Escherichia coli)RecT氨基酸序列(SEQ ID NO:9):
Figure BDA0003925775960000364
布氏泛菌种属(Pantoea brenneri)RecT氨基酸序列(SEQ ID NO:10):
Figure BDA0003925775960000365
Plautia stali的F型共生体RecT氨基酸序列(SEQ ID NO:11):
Figure BDA0003925775960000371
普罗威登斯菌属(Providencia sp.)MGF014 RecT氨基酸序列(SEQ ID NO:12):
Figure BDA0003925775960000372
索氏志贺菌(Shigella sonnei)RecT氨基酸序列(SEQ ID NO:13):
Figure BDA0003925775960000373
Pseudobacteriovorax antillogorgiicola RecT氨基酸序列(SEQ ID NO:14):
Figure BDA0003925775960000374
SV40 NLS氨基酸序列(SEQ ID NO:16):
Figure BDA0003925775960000375
Ty1 NLS氨基酸序列(SEQ ID NO:17):
Figure BDA0003925775960000376
c-Myc NLS氨基酸序列(SEQ ID NO:18):
Figure BDA0003925775960000377
biSV40 NLS氨基酸序列(SEQ ID NO:19):
Figure BDA0003925775960000378
Mut NLS氨基酸序列(SEQ ID NO:20):
Figure BDA0003925775960000381
模板DNA序列(下划线标记替换的或插入器编辑序列)
EMX1 HDR模板序列(SEQ ID NO:79):
Figure BDA0003925775960000382
VEGFA HDR模板序列(SEQ ID NO:80):
Figure BDA0003925775960000383
Figure BDA0003925775960000391
DYNLT1 HDR模板序列(SEQ ID NO:81):
Figure BDA0003925775960000392
HSP90AA1 HDR模板序列(SEQ ID NO:82):
Figure BDA0003925775960000393
Figure BDA0003925775960000401
AAVS1 HDR模板序列(SEQ ID NO:83):
Figure BDA0003925775960000402
Figure BDA0003925775960000411
OCT4 HDR模板序列(SEQ ID NO:84):
Figure BDA0003925775960000412
斯氏泛菌种属(Pantoea stewartii)RecT DNA(SEQ ID NO:85):
Figure BDA0003925775960000413
Figure BDA0003925775960000421
斯氏泛菌种属(Pantoea stewartii)RecE DNA(SEQ ID NO:86):
Figure BDA0003925775960000422
布氏泛菌种属(Pantoea brenneri)RecT DNA(SEQ ID NO:87):
Figure BDA0003925775960000423
布氏泛菌种属(Pantoea brenneri)RecE DNA(SEQ ID NO:88):
Figure BDA0003925775960000424
Figure BDA0003925775960000431
分散泛菌种属(Pantoea dispersa)RecT DNA(SEQ ID NO:89):
Figure BDA0003925775960000432
分散泛菌种属(Pantoea dispersa)RecE DNA(SEQ ID NO:90):
Figure BDA0003925775960000433
Figure BDA0003925775960000441
Plautia stali的F型共生体RecT DNA(SEQ ID NO:91):
Figure BDA0003925775960000442
Plautia stali的F型共生体RecE DNA(SEQ ID NO:92):
Figure BDA0003925775960000443
斯氏普罗威登斯菌(Providencia stuartii)RecT DNA(SEQ ID NO:93):
Figure BDA0003925775960000444
Figure BDA0003925775960000451
斯氏普罗威登斯菌(Providencia stuartii)RecE DNA(SEQ ID NO:94):
Figure BDA0003925775960000452
普罗威登斯菌属(Providencia sp.)MGF014 RecT DNA(SEQ ID NO:95):
Figure BDA0003925775960000453
Figure BDA0003925775960000461
普罗威登斯菌属(Providencia sp.)MGF014 RecE DNA(SEQ ID NO:96):
Figure BDA0003925775960000462
腐败希瓦氏菌(Shewanella putrefaciens)RecT DNA(SEQ ID NO:97):
Figure BDA0003925775960000463
腐败希瓦氏菌(Shewanella putrefaciens)RecE DNA(SEQ ID NO:98):
Figure BDA0003925775960000464
Figure BDA0003925775960000471
芽孢杆菌属(Bacillus sp.)MUM 116 RecT DNA(SEQ ID NO:99):
Figure BDA0003925775960000472
芽孢杆菌属(Bacillus sp.)MUM 116 RecE DNA(SEQ ID NO:100):
Figure BDA0003925775960000473
Figure BDA0003925775960000481
索氏志贺菌(Shigella sonnei)RecT DNA(SEQ ID NO:101):
Figure BDA0003925775960000482
索氏志贺菌(Shigella sonnei)RecE DNA(SEQ ID NO:102):
Figure BDA0003925775960000483
Figure BDA0003925775960000491
肠道沙门氏菌(Salmonella enterica)RecT DNA(SEQ ID NO:103):
Figure BDA0003925775960000492
Figure BDA0003925775960000501
肠道沙门氏菌(Salmonella enterica)RecE DNA(SEQ ID NO:104):
Figure BDA0003925775960000502
醋酸杆菌属(Acetobacter)RecT DNA(SEQ ID NO:105):
Figure BDA0003925775960000503
Figure BDA0003925775960000511
醋酸杆菌属(Acetobacter)RecE DNA(SEQ ID NO:106):
Figure BDA0003925775960000512
肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecT DNA(SEQ ID NO:107):
Figure BDA0003925775960000513
Figure BDA0003925775960000521
肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecE DNA(SEQ ID NO:108):
Figure BDA0003925775960000522
Pseudobacteriovorax antillogorgiicola RecT DNA(SEQ ID NO:109):
Figure BDA0003925775960000523
Pseudobacteriovorax antillogorgiicola RecE DNA(SEQ ID NO:110):
Figure BDA0003925775960000531
发光杆菌属(Photobacterium sp.)JCM 19050 RecT DNA(SEQ ID NO:111):
Figure BDA0003925775960000532
发光杆菌属(Photobacterium sp.)JCM 19050 RecE DNA(SEQ ID NO:112):
Figure BDA0003925775960000533
Figure BDA0003925775960000541
产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecT DNA(SEQ IDNO:113):
Figure BDA0003925775960000542
产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecE DNA(SEQ IDNO:114):
Figure BDA0003925775960000543
斯氏泛菌种属(Pantoea stewartii)RecT蛋白(SEQ ID NO:115):
Figure BDA0003925775960000544
Figure BDA0003925775960000551
斯氏泛菌种属(Pantoea stewartii)RecE蛋白(SEQ ID NO:116):
Figure BDA0003925775960000552
布氏泛菌种属(Pantoea brenneri)RecT蛋白(SEQ ID NO:117):
Figure BDA0003925775960000553
布氏泛菌种属(Pantoea brenneri)RecE蛋白(SEQ ID NO:118):
Figure BDA0003925775960000554
分散泛菌种属(Pantoea dispersa)RecT蛋白(SEQ ID NO:119):
Figure BDA0003925775960000555
分散泛菌种属(Pantoea dispersa)RecE蛋白(SEQ ID NO:120):
Figure BDA0003925775960000556
Plautia stali的F型共生体RecT蛋白(SEQ ID NO:121):
Figure BDA0003925775960000557
Figure BDA0003925775960000561
Plautia stali的F型共生体RecE蛋白(SEQ ID NO:122):
Figure BDA0003925775960000562
斯氏普罗威登斯菌(Providencia stuartii)RecT蛋白(SEQ ID NO:123):
Figure BDA0003925775960000563
斯氏普罗威登斯菌(Providencia stuartii)RecE蛋白(SEQ ID NO:124):
Figure BDA0003925775960000564
普罗威登斯菌属(Providencia sp.)MGF014 RecT蛋白(SEQ ID NO:125):
Figure BDA0003925775960000565
普罗威登斯菌属(Providencia sp.)MGF014 RecE蛋白(SEQ ID NO:126):
Figure BDA0003925775960000566
腐败希瓦氏菌(Shewanella putrefaciens)RecT蛋白(SEQ ID NO:127):
Figure BDA0003925775960000567
Figure BDA0003925775960000571
腐败希瓦氏菌(Shewanella putrefaciens)RecE蛋白(SEQ ID NO:128):
Figure BDA0003925775960000572
芽孢杆菌属(Bacillus sp.)MUM 116RecT蛋白(SEQ ID NO:129):
Figure BDA0003925775960000573
芽孢杆菌属(Bacillus sp.)MUM 116RecE蛋白(SEQ ID NO:130):
Figure BDA0003925775960000574
索氏志贺菌(Shigella sonnei)RecT蛋白(SEQ ID NO:131):
Figure BDA0003925775960000575
索氏志贺菌(Shigella sonnei)RecE蛋白(SEQ ID NO:132):
Figure BDA0003925775960000576
Figure BDA0003925775960000581
肠道沙门氏菌(Salmonella enterica)RecT蛋白(SEQ ID NO:133):
Figure BDA0003925775960000582
肠道沙门氏菌(Salmonella enterica)RecE蛋白(SEQ ID NO:134):
Figure BDA0003925775960000583
醋酸杆菌属(Acetobacter)RecT蛋白(SEQ ID NO:135):
Figure BDA0003925775960000584
醋酸杆菌属(Acetobacter)RecE蛋白(SEQ ID NO:136):
Figure BDA0003925775960000585
肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecT蛋白(SEQ ID NO:137):
Figure BDA0003925775960000591
肠道沙门氏菌(Salmonella enterica)亚种enterica serovar Javianastr.10721 RecE蛋白(SEQ ID NO:138):
Figure BDA0003925775960000592
Pseudobacteriovorax antillogorgiicola RecT蛋白(SEQ ID NO:139):
Figure BDA0003925775960000593
Pseudobacteriovorax antillogorgiicola RecE蛋白(SEQ ID NO:140):
Figure BDA0003925775960000594
发光杆菌属(Photobacterium sp.)JCM 19050 RecT蛋白(SEQ ID NO:141):
Figure BDA0003925775960000595
发光杆菌属(Photobacterium sp.)JCM 19050 RecE蛋白(SEQ ID NO:142):
Figure BDA0003925775960000596
产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecT蛋白(SEQ IDNO:143):
Figure BDA0003925775960000601
产碱普罗威登斯菌(Providencia alcalifaciens)DSM 30120 RecE蛋白(SEQ IDNO:144):
Figure BDA0003925775960000602
小鼠白蛋白敲入正义模板(SEQ ID NO:160)
Figure BDA0003925775960000603
小鼠白蛋白敲入反义模板(SEQ ID NO:161)
Figure BDA0003925775960000604
(SEQ ID NO:162)
Figure BDA0003925775960000605
本文引用的所有参考文献,包括出版物、专利申请和专利,均以引用的方式并入本文,其程度如同每个参考文献被单独地且具体地指示为通过引用并入本文并在此完整阐述。
本文描述了本发明的优选实施方案,包括发明人已知的用于实施本发明的最佳方式。通过阅读前述说明,那些优选实施方案的变型对于本领域普通技术人员而言将变得显而易见。发明人期望熟练的技术人员适当地采用这样的变型,并且发明人旨在以不同于本文具体描述的方式来实践本发明。因此,本发明包括适用法律所允许的所附权利要求中记载的主题的所有修改和等同物。而且,除非本文另外指出或与上下文明显矛盾,否则本发明涵盖上述要素在其所有可能的变化中的任何组合。
序列表
<110> 小利兰斯坦福大学董事会
<120> RNA指导的千碱基规模基因组重组工程
<130> STDU2-38213.601
<150> US 62/984,618
<151> 2020-03-02
<150> US 63/146,447
<151> 2021-02-05
<160> 165
<170> PatentIn版本 3.5
<210> 1
<211> 866
<212> PRT
<213> 大肠杆菌
<400> 1
Met Ser Thr Lys Pro Leu Phe Leu Leu Arg Lys Ala Lys Lys Ser Ser
1 5 10 15
Gly Glu Pro Asp Val Val Leu Trp Ala Ser Asn Asp Phe Glu Ser Thr
20 25 30
Cys Ala Thr Leu Asp Tyr Leu Ile Val Lys Ser Gly Lys Lys Leu Ser
35 40 45
Ser Tyr Phe Lys Ala Val Ala Thr Asn Phe Pro Val Val Asn Asp Leu
50 55 60
Pro Ala Glu Gly Glu Ile Asp Phe Thr Trp Ser Glu Arg Tyr Gln Leu
65 70 75 80
Ser Lys Asp Ser Met Thr Trp Glu Leu Lys Pro Gly Ala Ala Pro Asp
85 90 95
Asn Ala His Tyr Gln Gly Asn Thr Asn Val Asn Gly Glu Asp Met Thr
100 105 110
Glu Ile Glu Glu Asn Met Leu Leu Pro Ile Ser Gly Gln Glu Leu Pro
115 120 125
Ile Arg Trp Leu Ala Gln His Gly Ser Glu Lys Pro Val Thr His Val
130 135 140
Ser Arg Asp Gly Leu Gln Ala Leu His Ile Ala Arg Ala Glu Glu Leu
145 150 155 160
Pro Ala Val Thr Ala Leu Ala Val Ser His Lys Thr Ser Leu Leu Asp
165 170 175
Pro Leu Glu Ile Arg Glu Leu His Lys Leu Val Arg Asp Thr Asp Lys
180 185 190
Val Phe Pro Asn Pro Gly Asn Ser Asn Leu Gly Leu Ile Thr Ala Phe
195 200 205
Phe Glu Ala Tyr Leu Asn Ala Asp Tyr Thr Asp Arg Gly Leu Leu Thr
210 215 220
Lys Glu Trp Met Lys Gly Asn Arg Val Ser His Ile Thr Arg Thr Ala
225 230 235 240
Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu Thr Asp Arg Gly Glu Gly
245 250 255
Phe Val His Asp Leu Thr Ser Leu Ala Arg Asp Val Ala Thr Gly Val
260 265 270
Leu Ala Arg Ser Met Asp Leu Asp Ile Tyr Asn Leu His Pro Ala His
275 280 285
Ala Lys Arg Ile Glu Glu Ile Ile Ala Glu Asn Lys Pro Pro Phe Ser
290 295 300
Val Phe Arg Asp Lys Phe Ile Thr Met Pro Gly Gly Leu Asp Tyr Ser
305 310 315 320
Arg Ala Ile Val Val Ala Ser Val Lys Glu Ala Pro Ile Gly Ile Glu
325 330 335
Val Ile Pro Ala His Val Thr Glu Tyr Leu Asn Lys Val Leu Thr Glu
340 345 350
Thr Asp His Ala Asn Pro Asp Pro Glu Ile Val Asp Ile Ala Cys Gly
355 360 365
Arg Ser Ser Ala Pro Met Pro Gln Arg Val Thr Glu Glu Gly Lys Gln
370 375 380
Asp Asp Glu Glu Lys Pro Gln Pro Ser Gly Thr Thr Ala Val Glu Gln
385 390 395 400
Gly Glu Ala Glu Thr Met Glu Pro Asp Ala Thr Glu His His Gln Asp
405 410 415
Thr Gln Pro Leu Asp Ala Gln Ser Gln Val Asn Ser Val Asp Ala Lys
420 425 430
Tyr Gln Glu Leu Arg Ala Glu Leu His Glu Ala Arg Lys Asn Ile Pro
435 440 445
Ser Lys Asn Pro Val Asp Asp Asp Lys Leu Leu Ala Ala Ser Arg Gly
450 455 460
Glu Phe Val Asp Gly Ile Ser Asp Pro Asn Asp Pro Lys Trp Val Lys
465 470 475 480
Gly Ile Gln Thr Arg Asp Cys Val Tyr Gln Asn Gln Pro Glu Thr Glu
485 490 495
Lys Thr Ser Pro Asp Met Asn Gln Pro Glu Pro Val Val Gln Gln Glu
500 505 510
Pro Glu Ile Ala Cys Asn Ala Cys Gly Gln Thr Gly Gly Asp Asn Cys
515 520 525
Pro Asp Cys Gly Ala Val Met Gly Asp Ala Thr Tyr Gln Glu Thr Phe
530 535 540
Asp Glu Glu Ser Gln Val Glu Ala Lys Glu Asn Asp Pro Glu Glu Met
545 550 555 560
Glu Gly Ala Glu His Pro His Asn Glu Asn Ala Gly Ser Asp Pro His
565 570 575
Arg Asp Cys Ser Asp Glu Thr Gly Glu Val Ala Asp Pro Val Ile Val
580 585 590
Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly Ile Ser Asn Glu Asn Tyr
595 600 605
His Ala Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Asp
610 615 620
Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn Ala Pro Val Asp Thr Thr
625 630 635 640
Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala Phe His Cys Arg Val Leu
645 650 655
Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile Val Ala Pro Glu Phe Asn
660 665 670
Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu Lys Ala Phe Leu Met Glu
675 680 685
Cys Ala Ser Thr Gly Lys Thr Val Ile Thr Ala Glu Glu Gly Arg Lys
690 695 700
Ile Glu Leu Met Tyr Gln Ser Val Met Ala Leu Pro Leu Gly Gln Trp
705 710 715 720
Leu Val Glu Ser Ala Gly His Ala Glu Ser Ser Ile Tyr Trp Glu Asp
725 730 735
Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg Pro Asp Lys Ile Ile Pro
740 745 750
Glu Phe His Trp Ile Met Asp Val Lys Thr Thr Ala Asp Ile Gln Arg
755 760 765
Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr His Val Gln Asp Ala Phe
770 775 780
Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly Val Gln Pro Thr Phe Val
785 790 795 800
Phe Leu Val Ala Ser Thr Thr Ile Glu Cys Gly Arg Tyr Pro Val Glu
805 810 815
Ile Phe Met Met Gly Glu Glu Ala Lys Leu Ala Gly Gln Gln Glu Tyr
820 825 830
His Arg Asn Leu Arg Thr Leu Ala Asp Cys Leu Asn Thr Asp Glu Trp
835 840 845
Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Tyr Ala
850 855 860
Asn Asp
865
<210> 2
<211> 280
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 2
Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly
1 5 10 15
Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln
20 25 30
Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn
35 40 45
Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala
50 55 60
Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile
65 70 75 80
Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ser Gly Lys Glu Glu Glu
85 90 95
Lys Ala Phe Leu Arg Glu Cys Ala Ser Thr Gly Lys Thr Val Ile Thr
100 105 110
Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala
115 120 125
Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser
130 135 140
Ser Ile Tyr Trp Glu Asp Pro Glu Thr Ala Ile Leu Cys Arg Cys Arg
145 150 155 160
Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr
165 170 175
Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr
180 185 190
His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly
195 200 205
Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu Cys
210 215 220
Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu
225 230 235 240
Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys
245 250 255
Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg
260 265 270
Trp Ala Lys Glu Tyr Ala Asn Asp
275 280
<210> 3
<211> 265
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 3
Gly Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser
1 5 10 15
Gln Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys
20 25 30
Asn Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr
35 40 45
Ala Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe
50 55 60
Ile Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ser Gly Lys Glu Glu
65 70 75 80
Glu Lys Ala Phe Leu Arg Glu Cys Ala Ser Thr Gly Lys Thr Val Ile
85 90 95
Thr Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met
100 105 110
Ala Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu
115 120 125
Ser Ser Ile Tyr Trp Glu Asp Pro Glu Thr Ala Ile Leu Cys Arg Cys
130 135 140
Arg Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys
145 150 155 160
Thr Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg
165 170 175
Tyr His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe
180 185 190
Gly Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu
195 200 205
Cys Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys
210 215 220
Leu Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp
225 230 235 240
Cys Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro
245 250 255
Arg Trp Ala Lys Glu Tyr Ala Asn Asp
260 265
<210> 4
<211> 272
<212> PRT
<213> 布氏泛菌
<400> 4
Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Arg
1 5 10 15
Gly Ala Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro
20 25 30
Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr
35 40 45
Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Phe Ser Lys Arg Phe Gln Ile Gly Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Ile Glu Arg Cys Glu
85 90 95
Ala Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Lys
100 105 110
Leu Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Arg Trp Met Leu
115 120 125
Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp
130 135 140
Ala Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Glu Phe
145 150 155 160
Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Met Lys Phe Gln
165 170 175
Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Glu Ser His Phe His Glu Thr Pro Thr Phe Ala Phe Leu
195 200 205
Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe
210 215 220
Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg
225 230 235 240
Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly
245 250 255
Ile Ala Thr Leu Ser Leu Pro Phe Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 5
<211> 272
<212> PRT
<213> Plautia stali的F型共生体
<400> 5
Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Gly
1 5 10 15
Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro
20 25 30
Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr
35 40 45
Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Phe Ser Lys Arg Phe Glu Ile Gly Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Met Glu Arg Cys Glu
85 90 95
Ala Glu Gly Val Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Arg
100 105 110
Leu Met Arg Asp Ser Ala Met Ala His Pro Ile Ala Arg Trp Met Leu
115 120 125
Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp
130 135 140
Thr Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Asp Phe
145 150 155 160
Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Ile Lys Phe Gln
165 170 175
Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Glu Ser His Phe Asp Glu Thr Pro Thr Phe Ala Phe Leu
195 200 205
Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe
210 215 220
Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg
225 230 235 240
Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly
245 250 255
Ile Ala Thr Leu Ser Leu Pro Tyr Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 6
<211> 272
<212> PRT
<213> 普罗威登斯菌属MGF014
<400> 6
Met Lys Glu Gly Ile Tyr Tyr Asn Ile Ser Asn Glu Asp Tyr His Asn
1 5 10 15
Gly Leu Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asn Glu Met Pro
20 25 30
Ala Glu Tyr Ile Trp Ser Lys Glu Ala Pro Val Asp Glu Glu Lys Ile
35 40 45
Lys Pro Leu Glu Ile Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Tyr His Lys Arg Tyr Lys Ile Gly Pro Asp Val Asn Arg Arg
65 70 75 80
Thr Asn Val Gly Lys Glu Lys Glu Lys Glu Phe Phe Asp Met Cys Glu
85 90 95
Lys Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Met
100 105 110
Ile Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Lys Trp Cys Leu
115 120 125
Glu Ala Asp Gly Val Ser Glu Ser Ser Ile Tyr Trp Thr Asp Lys Glu
130 135 140
Thr Asp Val Leu Cys Arg Cys Arg Pro Asp Arg Ile Ile Thr Ala His
145 150 155 160
Asn Tyr Ile Ile Asp Val Lys Ser Ser Gly Asp Ile Glu Lys Phe Asp
165 170 175
Tyr Glu Tyr Tyr Asn Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Lys Glu Val Thr Gly Ile Thr Pro Thr Phe Leu Phe Leu
195 200 205
Val Val Ser Thr Lys Ile Asp Cys Gly Lys Tyr Pro Val Arg Thr Tyr
210 215 220
Val Met Ser Glu Glu Ala Lys Ser Ala Gly Arg Thr Ala Tyr Lys His
225 230 235 240
Asn Leu Leu Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly
245 250 255
Ile Arg Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 7
<211> 648
<212> PRT
<213> 索氏志贺菌
<400> 7
Asp Arg Gly Leu Leu Thr Lys Glu Trp Arg Lys Gly Asn Arg Val Ser
1 5 10 15
Arg Ile Thr Arg Thr Ala Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu
20 25 30
Thr Asp Arg Gly Glu Gly Phe Val His Asp Leu Thr Ser Leu Ala Arg
35 40 45
Asp Ile Ala Thr Gly Val Leu Ala Arg Ser Met Asp Val Asp Ile Tyr
50 55 60
Asn Leu His Pro Ala His Ala Lys Arg Ile Glu Glu Ile Ile Ala Glu
65 70 75 80
Asn Lys Pro Pro Phe Ser Val Phe Arg Asp Lys Phe Ile Thr Met Pro
85 90 95
Gly Gly Leu Asp Tyr Ser Arg Ala Ile Val Val Ala Ser Val Lys Glu
100 105 110
Ala Pro Ile Gly Ile Glu Val Ile Pro Ala His Val Thr Ala Tyr Leu
115 120 125
Asn Lys Val Leu Thr Glu Thr Asp His Ala Asn Pro Asp Pro Glu Ile
130 135 140
Val Asp Ile Ala Cys Gly Arg Ser Ser Ala Pro Met Pro Gln Arg Val
145 150 155 160
Thr Glu Glu Gly Lys Gln Asp Asp Glu Glu Lys Leu Gln Pro Ser Gly
165 170 175
Thr Thr Ala Asp Glu Gln Gly Glu Ala Glu Thr Met Glu Pro Asp Ala
180 185 190
Thr Lys His His Gln Asp Thr Gln Pro Leu Asp Ala Gln Ser Gln Val
195 200 205
Asn Ser Val Asp Ala Lys Tyr Gln Glu Leu Arg Ala Glu Leu His Glu
210 215 220
Ala Arg Lys Asn Ile Pro Ser Lys Asn Pro Val Asp Ala Asp Lys Leu
225 230 235 240
Leu Ala Ala Ser Arg Gly Glu Phe Val Asp Gly Ile Ser Asp Pro Asn
245 250 255
Asp Pro Lys Trp Val Lys Gly Ile Gln Thr Arg Asp Ser Val Tyr Gln
260 265 270
Asn Gln Pro Glu Thr Glu Lys Thr Ser Pro Asp Met Lys Gln Pro Glu
275 280 285
Pro Val Val Gln Gln Glu Pro Glu Ile Ala Phe Asn Ala Cys Gly Gln
290 295 300
Thr Gly Gly Asp Asn Cys Pro Asp Cys Gly Ala Val Met Gly Asp Ala
305 310 315 320
Thr Tyr Gln Glu Thr Phe Asp Glu Glu Asn Gln Val Glu Ala Lys Glu
325 330 335
Asn Asp Pro Glu Glu Met Glu Gly Ala Glu His Pro His Asn Glu Asn
340 345 350
Ala Gly Ser Asp Pro His Arg Asp Cys Ser Asp Glu Thr Gly Glu Val
355 360 365
Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly
370 375 380
Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln
385 390 395 400
Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn
405 410 415
Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala
420 425 430
Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile
435 440 445
Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu
450 455 460
Lys Ala Phe Leu Met Glu Cys Ala Ser Thr Gly Lys Met Val Ile Thr
465 470 475 480
Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala
485 490 495
Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser
500 505 510
Ser Ile Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg
515 520 525
Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr
530 535 540
Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr
545 550 555 560
His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly
565 570 575
Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu Cys
580 585 590
Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu
595 600 605
Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys
610 615 620
Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg
625 630 635 640
Trp Ala Lys Glu Tyr Ala Asn Asp
645
<210> 8
<211> 300
<212> PRT
<213> Pseudobacteriovorax antillogorgiicola
<400> 8
Met Ser Lys Leu Ser Asn Leu Lys Val Ser Asn Ser Asp Val Asp Thr
1 5 10 15
Leu Ser Arg Ile Arg Met Lys Glu Gly Val Tyr Arg Asp Leu Pro Ile
20 25 30
Glu Ser Tyr His Gln Ser Pro Gly Tyr Ser Lys Thr Ser Leu Cys Gln
35 40 45
Ile Asp Lys Ala Pro Ile Tyr Leu Lys Thr Lys Val Pro Gln Lys Ser
50 55 60
Thr Lys Ser Leu Asn Ile Gly Thr Ala Phe His Glu Ala Met Glu Gly
65 70 75 80
Val Phe Lys Asp Lys Tyr Val Val His Pro Asp Pro Gly Val Asn Lys
85 90 95
Thr Thr Lys Ser Trp Lys Asp Phe Val Lys Arg Tyr Pro Lys His Met
100 105 110
Pro Leu Lys Arg Ser Glu Tyr Asp Gln Val Leu Ala Met Tyr Asp Ala
115 120 125
Ala Arg Ser Tyr Arg Pro Phe Gln Lys Tyr His Leu Ser Arg Gly Phe
130 135 140
Tyr Glu Ser Ser Phe Tyr Trp His Asp Ala Val Thr Asn Ser Leu Ile
145 150 155 160
Lys Cys Arg Pro Asp Tyr Ile Thr Pro Asp Gly Met Ser Val Ile Asp
165 170 175
Phe Lys Thr Thr Val Asp Pro Ser Pro Lys Gly Phe Gln Tyr Gln Ala
180 185 190
Tyr Lys Tyr His Tyr Tyr Val Ser Ala Ala Leu Thr Leu Glu Gly Ile
195 200 205
Glu Ala Val Thr Gly Ile Arg Pro Lys Glu Tyr Leu Phe Leu Ala Val
210 215 220
Ser Asn Ser Ala Pro Tyr Leu Thr Ala Leu Tyr Arg Ala Ser Glu Lys
225 230 235 240
Glu Ile Ala Leu Gly Asp His Phe Ile Arg Arg Ser Leu Leu Thr Leu
245 250 255
Lys Thr Cys Leu Glu Ser Gly Lys Trp Pro Gly Leu Gln Glu Glu Ile
260 265 270
Leu Glu Leu Gly Leu Pro Phe Ser Gly Leu Lys Glu Leu Arg Glu Glu
275 280 285
Gln Glu Val Glu Asp Glu Phe Met Glu Leu Val Gly
290 295 300
<210> 9
<211> 269
<212> PRT
<213> Escherichia coli
<400> 9
Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gly Asn Arg Ala Pro Ala Ala Val Lys Asn Ser Asp Val Ile Ser Phe
20 25 30
Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro Arg
35 40 45
His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg
50 55 60
Lys Val Pro Ala Leu Gly Asn Cys Asp Thr Met Ser Phe Val Ser Ala
65 70 75 80
Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly
85 90 95
His Ala Tyr Leu Leu Pro Phe Gly Asn Lys Asn Glu Lys Ser Gly Lys
100 105 110
Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala
115 120 125
Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg Glu
130 135 140
Gly Asp Glu Phe Ser Phe Glu Phe Gly Leu Asp Glu Lys Leu Ile His
145 150 155 160
Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala Val
165 170 175
Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg Lys
180 185 190
Gln Ile Glu Leu Val Arg Ser Leu Ser Lys Ala Gly Asn Asn Gly Pro
195 200 205
Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg Arg
210 215 220
Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val Ser
225 230 235 240
Met Asp Glu Lys Glu Pro Leu Thr Ile Asp Pro Ala Asp Ser Ser Val
245 250 255
Leu Thr Gly Glu Tyr Ser Val Ile Asp Asn Ser Glu Glu
260 265
<210> 10
<211> 273
<212> PRT
<213> 布氏泛菌
<400> 10
Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly
20 25 30
Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro
35 40 45
Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile
50 55 60
Arg Lys Thr Pro Gln Leu Ala Gln Cys Asp Gln Ser Ser Phe Ile Gly
65 70 75 80
Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu
85 90 95
Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly
100 105 110
Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu
115 120 125
Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg
130 135 140
Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Val
145 150 155 160
His Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala
165 170 175
Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Val
180 185 190
Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly
195 200 205
Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg
210 215 220
Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val
225 230 235 240
Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser
245 250 255
Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Ser Gly Asp Glu Ala Thr
260 265 270
Asn
<210> 11
<211> 271
<212> PRT
<213> Plautia stali的F型共生体
<400> 11
Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly
20 25 30
Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro
35 40 45
Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile
50 55 60
Arg Lys Thr Pro Ala Leu Ala Thr Cys Asp Gln Ser Ser Phe Ile Gly
65 70 75 80
Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu
85 90 95
Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly
100 105 110
Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu
115 120 125
Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg
130 135 140
Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile
145 150 155 160
His Arg Pro Gly Asp Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala
165 170 175
Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Ala
180 185 190
Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly
195 200 205
Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg
210 215 220
Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val
225 230 235 240
Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser
245 250 255
Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Gly Asp Gly Gly Glu
260 265 270
<210> 12
<211> 268
<212> PRT
<213> 普罗威登斯菌属MGF014
<400> 12
Met Ser Asn Pro Pro Leu Ala Gln Ser Asp Leu Gln Lys Thr Gln Gly
1 5 10 15
Thr Glu Val Lys Val Lys Thr Lys Asp Gln Gln Leu Ile Gln Phe Ile
20 25 30
Asn Gln Pro Ser Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg His
35 40 45
Met Thr Pro Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg Lys
50 55 60
Thr Pro Ala Leu Ala Thr Cys Asp Met Gln Ser Phe Val Gly Ala Val
65 70 75 80
Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His
85 90 95
Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ala Lys Ser Gly Gln Ser
100 105 110
Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg
115 120 125
Arg Ser Asn Gln Ile Ile Ser Ile Ser Ala Arg Thr Val Arg Gln Gly
130 135 140
Asp Asn Phe His Phe Glu Tyr Gly Leu Asn Glu Asp Leu Thr His Thr
145 150 155 160
Pro Ser Glu Asn Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala
165 170 175
Arg Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln
180 185 190
Val Glu Lys Val Arg Ala Ser Ser Lys Ala Gly Gln Asn Gly Pro Trp
195 200 205
Val Ser His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu
210 215 220
Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Val Leu
225 230 235 240
Asp Glu Lys Ala Glu Ala Asn Val Asp Gln Glu Asn Ala Thr Ile Phe
245 250 255
Glu Gly Glu Tyr Glu Glu Val Gly Thr Asp Gly Asn
260 265
<210> 13
<211> 269
<212> PRT
<213> 索氏志贺菌
<400> 13
Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Glu Asn Arg Ala Pro Ala Ala Ile Lys Asn Asn Asp Val Ile Ser Phe
20 25 30
Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro Arg
35 40 45
His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg
50 55 60
Lys Val Pro Ala Leu Gly Asn Cys Asp Thr Met Ser Phe Val Ser Ala
65 70 75 80
Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly
85 90 95
His Ala Tyr Leu Leu Pro Phe Gly Asn Lys Asn Glu Lys Ser Gly Lys
100 105 110
Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala
115 120 125
Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg Glu
130 135 140
Gly Asp Glu Phe Asn Phe Glu Phe Gly Leu Asp Glu Lys Leu Ile His
145 150 155 160
Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala Val
165 170 175
Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg Arg
180 185 190
Gln Ile Glu Leu Val Arg Ser Gln Ser Lys Ala Gly Asn Asn Gly Pro
195 200 205
Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg Arg
210 215 220
Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val Ser
225 230 235 240
Met Asp Glu Lys Glu Pro Leu Thr Ile Asp Pro Ala Asp Ser Ser Val
245 250 255
Leu Thr Gly Glu Tyr Ser Val Ile Asp Asn Ser Glu Glu
260 265
<210> 14
<211> 242
<212> PRT
<213> Pseudobacteriovorax antillogorgiicola
<400> 14
Met Gly His Leu Val Ser Lys Thr Glu Gln Asp Tyr Ile Lys Gln His
1 5 10 15
Tyr Ala Lys Gly Ala Thr Asp Gln Glu Phe Glu His Phe Ile Gly Val
20 25 30
Cys Arg Ala Arg Gly Leu Asn Pro Ala Ala Asn Gln Ile Tyr Phe Val
35 40 45
Lys Tyr Arg Ser Lys Asp Gly Pro Ala Lys Pro Ala Phe Ile Leu Ser
50 55 60
Ile Asp Ser Leu Arg Leu Ile Ala His Arg Thr Gly Asp Tyr Ala Gly
65 70 75 80
Cys Ser Glu Pro Ile Phe Thr Asp Gly Gly Lys Ala Cys Thr Val Thr
85 90 95
Val Arg Arg Asn Leu Lys Ser Gly Glu Thr Gly Asn Phe Ser Gly Met
100 105 110
Ala Phe Tyr Asp Glu Gln Val Gln Gln Lys Asn Gly Arg Pro Thr Ser
115 120 125
Phe Trp Gln Ser Lys Pro Arg Thr Met Leu Glu Lys Cys Ala Glu Ala
130 135 140
Lys Ala Leu Arg Lys Ala Phe Pro Gln Asp Leu Gly Gln Phe Tyr Ile
145 150 155 160
Arg Glu Glu Met Pro Pro Gln Tyr Asp Glu Pro Ile Gln Val His Lys
165 170 175
Pro Lys Ala Leu Glu Glu Pro Arg Phe Ser Lys Ser Asp Leu Ser Arg
180 185 190
Arg Lys Gly Leu Asn Arg Lys Leu Ser Ala Leu Gly Val Asp Pro Ser
195 200 205
Arg Phe Asp Glu Val Ala Thr Phe Leu Asp Gly Thr Pro Asp Arg Glu
210 215 220
Leu Gly Gln Lys Leu Lys Leu Trp Leu Lys Glu Ala Gly Tyr Gly Val
225 230 235 240
Asn Gln
<210> 15
<211> 16
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 15
Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser
1 5 10 15
<210> 16
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 16
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 17
<211> 39
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 17
Asn Ser Lys Lys Arg Ser Leu Glu Asp Asn Glu Thr Glu Ile Lys Val
1 5 10 15
Ser Arg Asp Thr Trp Asn Thr Lys Asn Met Arg Ser Leu Glu Pro Pro
20 25 30
Arg Ser Lys Lys Arg Ile His
35
<210> 18
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 18
Pro Ala Ala Lys Arg Val Lys Leu Asp
1 5
<210> 19
<211> 18
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 19
Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg
1 5 10 15
Lys Val
<210> 20
<211> 29
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 20
Pro Glu Lys Lys Arg Arg Arg Pro Ser Gly Ser Val Pro Val Leu Ala
1 5 10 15
Arg Pro Ser Pro Pro Lys Ala Gly Lys Ser Ser Cys Ile
20 25
<210> 21
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 21
gtcacctcca atgactaggg 20
<210> 22
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 22
ggtgagtgag tgtgtgcgtg 20
<210> 23
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 23
aaggccatag gctggactgc 20
<210> 24
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 24
gtagactaat ctctggctga 20
<210> 25
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 25
tctcccatgc attcaaactg 20
<210> 26
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 26
accccacagt ggggccacta 20
<210> 27
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 27
gtcacctcca atgactaggg 20
<210> 28
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 28
gtcacctcca atgactaggg 20
<210> 29
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 29
aaggccatag gctggactgc 20
<210> 30
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 30
ggcactgacg atgcagtaca 20
<210> 31
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 31
gtagactaat ctctggctga 20
<210> 32
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 32
tcgtcatctc cttcaagggg 20
<210> 33
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 33
atgcatggga gagcccagag 20
<210> 34
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 34
gcctgccctt ctaggaatgg 20
<210> 35
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 35
cattctgcct ctctgtatgg aaaagagc 28
<210> 36
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 36
cccattgaac tacctgggcc tgattc 26
<210> 37
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 37
aggtttgaat catcacgcag gc 22
<210> 38
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 38
attcaagtgg ggaatggcaa gc 22
<210> 39
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 39
tgccgtaaat gctgctctct 20
<210> 40
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 40
agacttgcca aggttctttg tg 22
<210> 41
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 41
agtgacctgt gtaattatgc agaag 25
<210> 42
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 42
tgaaagtgcc acaaaacaaa gaga 24
<210> 43
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 43
aagacaagtg gcaacgcag 19
<210> 44
<211> 31
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 44
cgtttatgat actatgcaga ctatgaagaa c 31
<210> 45
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 45
atgaagatga ccctactgct gat 23
<210> 46
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 46
tactgtcttg aaagcagata gaaacc 26
<210> 47
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 47
gcagcaaaga aacacctgga 20
<210> 48
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 48
gttgtcatgc catacagact tttt 24
<210> 49
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 49
agcattacta gctctgcttt agtg 24
<210> 50
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 50
tccacaagac tgggtctgag 20
<210> 51
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 51
gcgactatgc acaacgagag g 21
<210> 52
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 52
aagtgtgtct atctactgtg tcccag 26
<210> 53
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 53
gatgctcttt ccggagcact 20
<210> 54
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 54
gccaaggact caaacccaga a 21
<210> 55
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 55
tggtggattt cggactaccc t 21
<210> 56
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 56
ttcggactgg aaccgtcagc 20
<210> 57
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 57
agacgttcct tagtgctggc 20
<210> 58
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 58
aaaagtttca gtgcgacgcc 20
<210> 59
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 59
aggaggtccc atcagatgct 20
<210> 60
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 60
ggctggacag caaacatgga 20
<210> 61
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 61
ggctggacag caaacatgga 20
<210> 62
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 62
ttgctgccgt acatgaagct g 21
<210> 63
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 63
ccatctcatc cctgcgtgtc tccagaagaa gggctcccat cac 43
<210> 64
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 64
cctctctatg ggcagtcggt gatgagcagc aagcagcact ctg 43
<210> 65
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 65
ccatctcatc cctgcgtgtc tcccagcgtc ttcgagagtg agg 43
<210> 66
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 66
cctctctatg ggcagtcggt gatgttggaa tcctggagtg accc 44
<210> 67
<211> 45
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 67
ccatctcatc cctgcgtgtc tccacaaaag ctccacatgc tagga 45
<210> 68
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 68
cctctctatg ggcagtcggt gatggctgac tttgggctcc ttct 44
<210> 69
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 69
ccatctcatc cctgcgtgtc tccacacact ccccaggatc tca 43
<210> 70
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 70
cctctctatg ggcagtcggt gatgaatgtc agctgaagca ggct 44
<210> 71
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 71
ccatctcatc cctgcgtgtc tccggctacc ctgacaactg ctt 43
<210> 72
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 72
cctctctatg ggcagtcggt gatgaggaca gacatgacaa ggca 44
<210> 73
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 73
ccatctcatc cctgcgtgtc tccgcaggca agctgtcaag ggt 43
<210> 74
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 74
cctctctatg ggcagtcggt gatgccctca cacccacacc ctca 44
<210> 75
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 75
ccatctcatc cctgcgtgtc tccggagggg tgtcatcgtt ctg 43
<210> 76
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 76
cctctctatg ggcagtcggt gatgcaaatt gcgccatagc tggg 44
<210> 77
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 77
ccatctcatc cctgcgtgtc tcctgagcgc tcttcgtctt tcc 43
<210> 78
<211> 45
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 78
cctctctatg ggcagtcggt gatggccagg aacacaggaa tgcta 45
<210> 79
<211> 1400
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 79
cattctgcct ctctgtatgg aaaagagcat ggggctggcc cgtggggtgg tgtccacttt 60
aggccctgtg ggagatcatg ggaacccacg cagtgggtca taggctctct catttactac 120
tcacatccac tctgtgaaga agcgattatg atctctcctc tagaaactcg tagagtccca 180
tgtctgccgg cttccagagc ctgcactcct ccaccttggc ttggctttgc tggggctaga 240
ggagctagga tgcacagcag ctctgtgacc ctttgtttga gaggaacagg aaaaccaccc 300
ttctctctgg cccactgtgt cctcttcctg ccctgccatc cccttctgtg aatgttagac 360
ccatgggagc agctggtcag aggggacccc ggcctggggc ccctaaccct atgtagcctc 420
agtcttccca tcaggctctc agctcagcct gagtgttgag gccccagtgg ctgctctggg 480
ggcctcctga gtttctcatc tgtgcccctc cctccctggc ccaggtgaag gtgtggttcc 540
agaaccggag gacaaagtac aaacggcaga agctggagga ggaagggcct gagtccgagc 600
agaagaagaa gggctcccat cacatcaacc ggtggcgcat tgccacgaag caggccaatg 660
gggaggacat cgatgtcacc tccaatgact cggatgtaca cggtctgcaa ccacaaaccc 720
acgagggcag agtgctgctt gctgctggcc aggcccctgc gtgggcccaa gctggactct 780
ggccactccc tggccaggct ttggggaggc ctggagtcat ggccccacag ggcttgaagc 840
ccggggccgc cattgacaga gggacaagca atgggctggc tgaggcctgg gaccacttgg 900
ccttctcctc ggagagcctg cctgcctggg cgggcccgcc cgccaccgca gcctcccagc 960
tgctctccgt gtctccaatc tcccttttgt tttgatgcat ttctgtttta atttattttc 1020
caggcaccac tgtagtttag tgatccccag tgtccccctt ccctatggga ataataaaag 1080
tctctctctt aatgacacgg gcatccagct ccagccccag agcctggggt ggtagattcc 1140
ggctctgagg gccagtgggg gctggtagag caaacgcgtt cagggcctgg gagcctgggg 1200
tggggtactg gtggaggggg tcaagggtaa ttcattaact cctctctttt gttgggggac 1260
cctggtctct acctccagct ccacagcagg agaaacaggc tagacatagg gaagggccat 1320
cctgtatctt gagggaggac aggcccaggt ctttcttaac gtattgagag gtgggaatca 1380
ggcccaggta gttcaatggg 1400
<210> 80
<211> 1390
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 80
aggtttgaat catcacgcag gccctggcct ccacccgccc ccaccagccc cctggcctca 60
gttccctggc aacatctggg gttggggggg cagcaggaac aagggcctct gtctgcccag 120
ctgcctcccc ctttgggttt tgccagactc cacagtgcat acgtgggctc caacaggtcc 180
tcttccctcc cagtcactga ctaaccccgg aaccacacag cttcccgttc tcagctccac 240
aaacttggtg ccaaattctt ctcccctggg aagcatccct ggacacttcc caaaggaccc 300
cagtcactcc agcctgttgg ctgccgctca ctttgatgtc tgcaggccag atgagggctc 360
cagatggcac attgtcagag ggacacactg tggcccctgt gcccagccct gggctctctg 420
tacatgaagc aactccagtc ccaaatatgt agctgtttgg gaggtcagaa atagggggtc 480
caggagcaaa ctccccccac cccctttcca aagcccattc cctctttagc cagagccggg 540
gtgtgcagac ggcagtcact agggggcgct cggccaccac agggaagctg ggtgaatgga 600
gcgagcagcg tcttcgagag tgaggacgtg tgtgtctgtg tgggtgagtg agtgtgcgca 660
ctctagaggt gtcgtgttga gggcgttgga gcggggagaa ggccaggggt cactccagga 720
ttccaataga tctgtgtgtc cctctcccca cccgtccctg tccggctctc cgccttcccc 780
tgcccccttc aatattccta gcaaagaggg aacggctctc aggccctgtc cgcacgtaac 840
ctcactttcc tgctccctcc tcgccaatgc cccgcgggcg cgtgtctctg gacagagttt 900
ccgggggcgg atgggtaatt ttcaggctgt gaaccttggt gggggtcgag cttccccttc 960
attgcggcgg gctgcgggcc aggcttcact gagcgtccgc agagcccggg cccgagccgc 1020
gtgtggaagg gctgaggctc gcctgtcccc gccccccggg gcgggccggg ggcggggtcc 1080
cggcggggcg gagccatgcg cccccccctt ttttttttaa aagtcggctg gtagcgggga 1140
ggatcgcgga ggcttggggc agccgggtag ctcggaggtc gtggcgctgg gggctagcac 1200
cagcgctctg tcgggaggcg cagcggttag gtggaccggt cagcggactc accggccagg 1260
gcgctcggtg ctggaatttg atattcattg atccgggttt tatccctctt cttttttctt 1320
aaacattttt ttttaaaact gtattgtttc tcgttttaat ttatttttgc ttgccattcc 1380
ccacttgaat 1390
<210> 81
<211> 1551
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 81
agtgacctgt gtaattatgc agaagaatgg agctggatta cacacagcaa gttcctgctt 60
ctgggacagc tctactgacg gtatgatttt cattcatgtt tgtgaagttt tgttgtgtga 120
aatatatgac tggaagtttc ctatctttga atgcaatgca tgtttatcac cttttaaaac 180
atttaataat agacttgcca aggttctttg tgtagcatag agatgggtac ttgaatgttg 240
gccttattgt gagtaaaacg tcgtccccca gctttccctg ccgtaaatgc tgctctcttc 300
cctcccgcag ggagctgcac tgtgcgatgg gagaataaga ccatgtactg catcgtcagt 360
gccttcggac tgtctattgg aagcggagct actaacttca gcctgctgaa gcaggctgga 420
gacgtggagg agaaccctgg acctgccacc atggtgagcg agctgattaa ggagaacatg 480
cacatgaagc tgtacatgga gggcaccgtg aacaaccacc acttcaagtg cacatccgag 540
ggcgaaggca agccctacga gggcacccag accatgagaa tcaaggcggt cgagggcggc 600
cctctcccct tcgccttcga catcctggct accagcttca tgtacggcag caaaaccttc 660
atcaaccaca cccagggcat ccccgacttc tttaagcagt ccttccccga gggcttcaca 720
tgggagagag tcaccacata cgaagatggg ggcgtgctga ccgctaccca ggacaccagc 780
ctccaggacg gctgcctcat ctacaacgtc aagatcagag gggtgaactt cccatccaac 840
ggccctgtga tgcagaagaa aacactcggc tgggaggcct ccaccgagac actgtacccc 900
gctgacggcg gcctggaagg cagagccgac atggccctga agctcgtggg cgggggccac 960
ctgatctgca accttaagac cacatacaga tccaagaaac ccgctaagaa cctcaagatg 1020
cccggcgtct actatgtgga caggagactg gaaagaatca aggaggccga caaagagaca 1080
tacgtcgagc agcacgaggt ggctgtggcc agatactgcg acctccctag caaactgggg 1140
cacaaactta attcctaacc agctgtcctg cctatggcct ttctcctttt gtctctagtt 1200
catcctctaa ccaccagcca tgaattcagt gaactctttt ctcattctct ttgttttgtg 1260
gcactttcac aatgtagagg aaaaaaccaa atgaccgcac tgtgatgtga atggcaccga 1320
agtcagatga gtatccctgt aggtcacctg cagcctgcgt tgccacttgt cttaactctg 1380
aatatttcat ttcaaaggtg ctaaaatctg aaatctgcta gtgtgaaact tgctctactc 1440
tctgaaatga ttcaaataca ctaattttcc atactttata cttttgttag aataaattat 1500
tcaaatctaa agtctgttgt gttcttcata gtctgcatag tatcataaac g 1551
<210> 82
<211> 1973
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 82
gcagcaaaga aacacctgga gataaaccct gaccattcca ttattgagac cttaaggcaa 60
aaggcagagg ctgataagaa cgacaagtct gtgaaggatc tggtcatctt gctttatgaa 120
actgcgctcc tgtcttctgg cttcagtctg gaagatcccc agacacatgc taacaggatc 180
tacaggatga tcaaacttgg tctgggtaag ccttatacta tgtaatgtta aaaagaaaat 240
aaacacacgt gacattgaag aaaatggtga actttcagtt atccaaactt ggagcacctt 300
gtcctgcttg ctgcttggag gtattaaagt atgttttttt tagggataag taaggtctta 360
caagagcaaa gaaatgaaat tgagactcat atgtcctgta atactgtctt gaaagcagat 420
agaaaccaag agtattaccc taatagctgg ctttaagaaa tctttgtaat atgaggattt 480
tattttggaa acaggtattg atgaagatga ccctactgct gatgatacca gtgctgctgt 540
aactgaagaa atgccacccc ttgaaggaga tgacgacaca tcacgcatgg aagaagtaga 600
cggaagcgga gctactaact tcagcctgct gaagcaggct ggagacgtgg aggagaaccc 660
tggacctgtg agcgagctga ttaaggagaa catgcacatg aagctgtaca tggagggcac 720
cgtgaacaac caccacttca agtgcacatc cgagggcgaa ggcaagccct acgagggcac 780
ccagaccatg agaatcaagg cggtcgaggg cggccctctc cccttcgcct tcgacatcct 840
ggctaccagc ttcatgtacg gcagcaaaac cttcatcaac cacacccagg gcatccccga 900
cttctttaag cagtccttcc ccgagggctt cacatgggag agagtcacca catacgaaga 960
tgggggcgtg ctgaccgcta cccaggacac cagcctccag gacggctgcc tcatctacaa 1020
cgtcaagatc agaggggtga acttcccatc caacggccct gtgatgcaga agaaaacact 1080
cggctgggag gcctccaccg agacactgta ccccgctgac ggcggcctgg aaggcagagc 1140
cgacatggcc ctgaagctcg tgggcggggg ccacctgatc tgcaacctta agaccacata 1200
cagatccaag aaacccgcta agaacctcaa gatgcccggc gtctactatg tggacaggag 1260
actggaaaga atcaaggagg ccgacaaaga gacatacgtc gagcagcacg aggtggctgt 1320
ggccagatac tgcgacctcc ctagcaaact ggggcacaaa cttaattcct aaatctgtgg 1380
ctgagggatg acttacctgt tcagtactct acaattcctc tgataatata ttttcaagga 1440
tgtttttctt tatttttgtt aatattaaaa agtctgtatg gcatgacaac tactttaagg 1500
ggaagataag atttctgtct actaagtgat gctgtgatac cttaggcact aaagcagagc 1560
tagtaatgct ttttgagttt catgttggtt tattttcaca gattggggta acgtgcactg 1620
taagacgtat gtaacatgat gttaactttg tggtctaaag tgtttagctg tcaagccgga 1680
tgcctaagta gaccaaatct tgttattgaa gtgttctgag ctgtatcttg atgtttagaa 1740
aagtattcgt tacatcttgt aggatctact ttttgaactt ttcattccct gtagttgaca 1800
attctgcatg tactagtcct ctagaaatag gttaaactga agcaacttga tggaaggatc 1860
tctccacagg gcttgttttc caaagaaaag tattgtttgg aggagcaaag ttaaaagcct 1920
acctaagcat atcgtaaagc tgttcaaaaa taactcagac ccagtcttgt gga 1973
<210> 83
<211> 2193
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 83
gatgctcttt ccggagcact tccttctcgg cgctgcacca cgtgatgtcc tctgagcgga 60
tcctccccgt gtctgggtcc tctccgggca tctctcctcc ctcacccaac cccatgccgt 120
cttcactcgc tgggttccct tttccttctc cttctggggc ctgtgccatc tctcgtttct 180
taggatggcc ttctccgacg gatgtctccc ttgcgtcccg cctccccttc ttgtaggcct 240
gcatcatcac cgtttttctg gacaacccca aagtaccccg tctccctggc tttagccacc 300
tctccatcct cttgctttct ttgcctggac accccgttct cctgtggatt cgggtcacct 360
ctcactcctt tcatttgggc agctccccta ccccccttac ctctctagtc tgtgctagct 420
cttccagccc cctgtcatgg catcttccag gggtccgaga gctcagctag tcttcttcct 480
ccaacccggg cccctatgtc cacttcagga cagcatgttt gctgcctcca gggatcctgt 540
gtccccgagc tgggaccacc ttatattccc agggccggtt aatgtggctc tggttctggg 600
tacttttatc tgtcccctcc accccacagt ggggcaagct tctgacctct tctcttcctc 660
ccacagggcc tcgagagatc tggcagcgga ggaagcggag ctactaactt cagcctgctg 720
aagcaggctg gagacgtgga ggagaaccct ggacctgtga gcgagctgat taaggagaac 780
atgcacatga agctgtacat ggagggcacc gtgaacaacc accacttcaa gtgcacatcc 840
gagggcgaag gcaagcccta cgagggcacc cagaccatga gaatcaaggc ggtcgagggc 900
ggccctctcc ccttcgcctt cgacatcctg gctaccagct tcatgtacgg cagcaaaacc 960
ttcatcaacc acacccaggg catccccgac ttctttaagc agtccttccc cgagggcttc 1020
acatgggaga gagtcaccac atacgaagat gggggcgtgc tgaccgctac ccaggacacc 1080
agcctccagg acggctgcct catctacaac gtcaagatca gaggggtgaa cttcccatcc 1140
aacggccctg tgatgcagaa gaaaacactc ggctgggagg cctccaccga gacactgtac 1200
cccgctgacg gcggcctgga aggcagagcc gacatggccc tgaagctcgt gggcgggggc 1260
cacctgatct gcaaccttaa gaccacatac agatccaaga aacccgctaa gaacctcaag 1320
atgcccggcg tctactatgt ggacaggaga ctggaaagaa tcaaggaggc cgacaaagag 1380
acatacgtcg agcagcacga ggtggctgtg gccagatact gcgacctccc tagcaaactg 1440
gggcacaaac ttaattccta aactagggac aggattggtg acagaaaagc cccatcctta 1500
ggcctcctcc ttcctagtct cctgatattg ggtctaaccc ccacctcctg ttaggcagat 1560
tccttatctg gtgacacacc cccatttcct ggagccatct ctctccttgc cagaacctct 1620
aaggtttgct tacgatggag ccagagagga tcctgggagg gagagcttgg cagggggtgg 1680
gagggaaggg ggggatgcgt gacctgcccg gttctcagtg gccaccctgc gctaccctct 1740
cccagaacct gagctgctct gacgcggctg tctggtgcgt ttcactgatc ctggtgctgc 1800
agcttcctta cacttcccaa gaggagaagc agtttggaaa aacaaaatca gaataagttg 1860
gtcctgagtt ctaactttgg ctcttcacct ttctagtccc caatttatat tgttcctccg 1920
tgcgtcagtt ttacctgtga gataaggcca gtagccagcc ccgtcctggc agggctgtgg 1980
tgaggagggg ggtgtccgtg tggaaaactc cctttgtgag aatggtgcgt cctaggtgtt 2040
caccaggtcg tggccgcctc tactcccttt ctctttctcc atccttcttt ccttaaagag 2100
tccccagtgc tatctgggac atattcctcc gcccagagca gggtcccgct tccctaaggc 2160
cctgctctgg gcttctgggt ttgagtcctt ggc 2193
<210> 84
<211> 1245
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 84
gcgactatgc acaacgagag gattttgagg ctgctgggtc tcctttctca gggggaccag 60
tgtcctttcc tctggcccca gggccccatt ttggtacccc aggctatggg agccctcact 120
tcactgcact gtactcctcg gtccctttcc ctgaggggga agcctttccc cctgtctccg 180
tcaccactct gggctctccc atgcattcaa atggaagcgg agctactaac ttcagcctgc 240
tgaagcaggc tggagacgtg gaggagaacc ctggacctgc caccatggtg agcgagctga 300
ttaaggagaa catgcacatg aagctgtaca tggagggcac cgtgaacaac caccacttca 360
agtgcacatc cgagggcgaa ggcaagccct acgagggcac ccagaccatg agaatcaagg 420
cggtcgaggg cggccctctc cccttcgcct tcgacatcct ggctaccagc ttcatgtacg 480
gcagcaaaac cttcatcaac cacacccagg gcatccccga cttctttaag cagtccttcc 540
ccgagggctt cacatgggag agagtcacca catacgaaga tgggggcgtg ctgaccgcta 600
cccaggacac cagcctccag gacggctgcc tcatctacaa cgtcaagatc agaggggtga 660
acttcccatc caacggccct gtgatgcaga agaaaacact cggctgggag gcctccaccg 720
agacactgta ccccgctgac ggcggcctgg aaggcagagc cgacatggcc ctgaagctcg 780
tgggcggggg ccacctgatc tgcaacctta agaccacata cagatccaag aaacccgcta 840
agaacctcaa gatgcccggc gtctactatg tggacaggag actggaaaga atcaaggagg 900
ccgacaaaga gacatacgtc gagcagcacg aggtggctgt ggccagatac tgcgacctcc 960
ctagcaaact ggggcacaaa cttaattcct aatgactagg aatgggggac agggggaggg 1020
gaggagctag ggaaagaaaa cctggagttt gtgccagggt ttttgggatt aagttcttca 1080
ttcactaagg aaggaattgg gaacacaaag ggtgggggca ggggagtttg gggcaactgg 1140
ttggagggaa ggtgaagttc aatgatgctc ttgattttaa tcccacatca tgtatcactt 1200
ttttcttaaa taaagaagcc tgggacacag tagatagaca cactt 1245
<210> 85
<211> 810
<212> DNA
<213> 斯氏泛菌种属
<400> 85
agcaaccagc cccctatcgc ctccgccgat ctgcagaagg ccaacaccgg caagcaggtg 60
gccaataaga cccctgagca gacactggtg ggcttcatga atcagccagc aatgaagagc 120
cagctggccg ccgccctgcc aaggcacatg acagccgatc ggatgatcag aatcgtgacc 180
acagagatcc gcaagacccc cgccctggcc acatgcgacc agagctcctt catcggcgcc 240
gtggtgcagt gttctcagct gggcctggag cctggcagcg ccctgggcca cgcctacctg 300
ctgccatttg gcaacggccg gagcaagtcc ggacagtcca atgtgcagct gatcatcggc 360
tatagaggca tgatcgatct ggcccggaga tctggccaga tcgtgtctct gagcgccagg 420
gtggtgcgcg cagacgatga gttctccttt gagtacggcc tggatgagaa cctgatccac 480
cggccaggcg agaatgagga cgcacccatc acccacgtgt atgcagtggc aagactgaag 540
gacggaggca cccagttcga agtgatgaca gtgaagcaga tcgagaaggt gaaggcccag 600
tccaaggcct ctagcaacgg accctgggtg acccactggg aggagatggc caagaaaacc 660
gtgatcaggc gcctgtttaa gtacctgccc gtgagcatcg agatgcagaa ggccgtgatc 720
ctggatgaga aggccgagtc tgacgtggat caggacaatg cctccgtgct gtctgccgag 780
tatagcgtgc tggacggctc ctctgaggag 810
<210> 86
<211> 813
<212> DNA
<213> 斯氏泛菌种属
<400> 86
cagcccggcg tgtactatga catctccaac gaggagtatc acgccggccc tggcatcagc 60
aagtcccagc tggacgacat cgccgtgtcc ccagccatct tccagtggag aaagtctgcc 120
cccgtggacg atgagaaaac cgccgccctg gacctgggca cagccctgca ctgcctgctg 180
ctggagcctg atgagttctc caagaggttt atgatcggcc cagaggtgaa ccggagaacc 240
aatgccggca agcagaagga gcaggacttc ctggatatgt gcgagcagca gggcatcacc 300
cctatcacac acgacgataa ccggaagctg agactgatga gggactctgc ctttgcccac 360
ccagtggcca gatggatgct ggagacagag ggcaaggccg aggcctctat ctactggaat 420
gacagggata cacagatcct gagcaggtgc cgccccgaca agctgatcac cgagttctct 480
tggtgcgtgg acgtgaagag cacagccgac atcggcaagt tccagaagga cttctacagc 540
tatcgctacc acgtgcagga cgccttctat tccgatggct acgaggccca gttttgcgag 600
gtgccaacct tcgcctttct ggtggtgagc tcctctatcg attgtggccg gtatcccgtg 660
caggtgttta tcatggacca gcaggcaaag gatgcaggaa gggccgagta taagcggaac 720
ctgaccacat acgccgagtg ccaggcaagg aatgagtggc ctggcatcgc cacactgagc 780
ctgccttact gggccaagga gatccggaat gtg 813
<210> 87
<211> 816
<212> DNA
<213> 布氏泛菌
<400> 87
agcaaccagc cccctatcgc ctccgccgat ctgcagaaaa cccagcagtc caagcaggtg 60
gccaacaaga cccctgagca gacactggtg ggcttcatga atcagccagc aatgaagagc 120
cagctggccg ccgccctgcc aaggcacatg accgccgatc ggatgatcag aatcgtgacc 180
acagagatcc gcaagacacc acagctggcc cagtgcgacc agagctcctt catcggcgcc 240
gtggtgcagt gttctcagct gggcctggag cctggcagcg ccctgggcca cgcctacctg 300
ctgccatttg gcaacggccg gtccaagtct ggccagagca atgtgcagct gatcatcggc 360
tatagaggca tgatcgatct ggcccggaga tccggacaga tcgtgagcct gtccgccagg 420
gtggtgcgcg cagacgatga gttctctttt gagtacggcc tggatgagaa cctggtgcac 480
cggccaggcg agaatgagga cgcacccatc acccacgtgt atgcagtggc aagactgaag 540
gacggaggca cccagttcga agtgatgaca gtgaagcagg tggagaaggt gaaggcccag 600
tccaaggcct ctagcaatgg cccctgggtg acccactggg aggagatggc caagaaaacc 660
gtgatcaggc gcctgtttaa gtacctgccc gtgagcatcg agatgcagaa ggccgtggtg 720
ctggatgaga aggccgagtc tgacgtggat caggacaacg cctctgtgct gagcgccgag 780
tattccgtgc tggagtctgg cgacgaggcc acaaat 816
<210> 88
<211> 813
<212> DNA
<213> 布氏泛菌
<400> 88
cagcctggca tctactatga catcagcaac gaggattatc acaggggagc aggcatcagc 60
aagtcccagc tggacgacat cgccatctcc ccagccatct accagtggag aaagcacgcc 120
cccgtggacg aggagaaaac cgccgccctg gatctgggca cagccctgca ctgcctgctg 180
ctggagcctg acgagttctc taagaggttt cagatcggcc cagaggtgaa ccggagaacc 240
acagccggca aggagaagga gaaggagttc atcgagcggt gcgaggcaga gggaatcacc 300
ccaatcacac acgacgataa taggaagctg aagctgatga gggattccgc cctggcccac 360
ccaatcgcaa ggtggatgct ggaggcacag ggaaacgcag aggcctctat ctattggaat 420
gacagagatg ccggcgtgct gagcaggtgc cgccccgaca agatcatcac cgagttcaac 480
tggtgcgtgg acgtgaagtc cacagccgac atcatgaagt tccagaagga cttctactct 540
tacagatacc acgtgcagga cgccttctat tccgatggct acgagtctca ctttcacgag 600
acacccacat tcgcctttct ggccgtgtct accagcatcg actgcggcag gtatcctgtg 660
caggtgttta tcatggacca gcaggcaaag gatgcaggaa gggccgagta caagagaaac 720
atccacacct tcgccgagtg tctgagcagg aatgagtggc ctggcatcgc cacactgtcc 780
ctgccttttt gggccaagga gctgcgcaat gag 813
<210> 89
<211> 807
<212> DNA
<213> 分散泛菌种属
<400> 89
tccaaccagc cacctctggc caccgcagat ctgcagaaaa cccagcagtc taaccaggtg 60
gccaagaccc ctgagcagac actggtgggc ttcatgaatc agccagcaat gaagagccag 120
ctggccgccg ccctgccaag gcacatgacc gccgatcgga tgatcagaat cgtgaccaca 180
gagatccgca agacacccgc cctggcccag tgcgaccaga gctccttcat cggagcagtg 240
gtgcagtgta gccagctggg cctggagcct ggctccgccc tgggccacgc ctacctgctg 300
ccatttggca acggccggtc caagtctggc cagagcaatg tgcagctgat catcggctat 360
agaggcatga tcgatctggc ccggagatcc ggacagatcg tgagcctgtc cgccagggtg 420
gtgcgcgcag acgatgagtt ctcttttgag tacggcctgg atgagaacct gatccaccgg 480
ccaggcgaca atgagtccgc ccccatcacc cacgtgtatg cagtggcaag actgaaggac 540
ggaggcaccc agttcgaagt gatgacagcc aagcaggtgg agaaggtgaa ggcccagtcc 600
aaggcctcta gcaacggacc ctgggtgacc cactgggagg agatggccaa gaaaaccgtg 660
atcaggcgcc tgtttaagta cctgcccgtg agcatcgaga tgcagaaggc cgtggtgctg 720
gacgagaagg ccgagagcga cgtggatcag gacaatgcct ctgtgctgag cgccgagtat 780
tccgtgctgg agtctggcac aggcgag 807
<210> 90
<211> 813
<212> DNA
<213> 分散泛菌种属
<400> 90
gagccaggca tctactatga catcagcaac gaggcctacc actccggccc cggcatcagc 60
aagtcccagc tggacgacat cgccaggagc cctgccatct tccagtggcg caaggacgcc 120
ccagtggata ccgagaaaac caaggccctg gacctgggca ccgatttcca ctgcgccgtg 180
ctggagccag agaggtttgc agacatgtat cgcgtgggcc ctgaagtgaa tcggagaacc 240
acagccggca aggccgagga gaaggagttc tttgagaagt gtgagaagga tggagccgtg 300
cccatcaccc acgacgatgc acggaaggtg gagctgatga gaggctccgt gatggcccac 360
cctatcgcca agcagatgat cgcagcacag ggacacgcag aggcctctat ctactggcac 420
gacgagagca caggcaacct gtgccggtgt agacccgaca agtttatccc tgattggaat 480
tggatcgtgg acgtgaaaac cacagccgat atgaagaagt tcaggcgcga gttttacgat 540
ctgcggtatc acgtgcagga cgccttctac accgatggct atgccgccca gtttggcgag 600
cggcctacct tcgtgtttgt ggtgacatcc accacaatcg actgcggcag ataccccacc 660
gaggtgttct ttctggatga ggagacaaag gccgccggca ggtctgagta ccagagcaac 720
ctggtgacct attccgagtg tctgtctcgc aatgagtggc caggcatcgc cacactgtct 780
ctgccccact gggccaagga gctgaggaac gtg 813
<210> 91
<211> 810
<212> DNA
<213> Plautia stali的F型共生体
<400> 91
tccaaccagc cccctatcgc ctctgccgat ctgcagaaaa cccagcagtc taagcaggtg 60
gccaacaaga cccctgagca gacactggtg ggcttcatga atcagccagc aatgaagtcc 120
cagctggccg ccgccctgcc aaggcacatg acagccgatc ggatgatcag aatcgtgacc 180
acagagatcc gcaagacccc cgccctggcc acatgcgacc agagctcctt catcggagca 240
gtggtgcagt gtagccagct gggcctggag cctggctccg ccctgggcca cgcctacctg 300
ctgccatttg gcaacggccg gtccaagtct ggccagtcta atgtgcagct gatcatcggc 360
tatagaggca tgatcgacct ggcccggaga agcggacaga tcgtgagcct gtccgccagg 420
gtggtgcgcg cagacgatga gttctccttt gagtacggcc tggatgagaa cctgatccac 480
cggccaggcg ataatgagga cgcccccatc acccacgtgt atgcagtggc aagactgaag 540
gacggaggca cccagttcga agtgatgaca gccaagcagg tggagaaggt gaaggcccag 600
agcaaggcct ctagcaacgg accctgggtg acccactggg aggagatggc caagaaaacc 660
gtgatcaggc gcctgtttaa gtacctgccc gtgagcatcg agatgcagaa ggccgtggtg 720
ctggatgaga aggccgagag cgacgtggat caggacaatg cctctgtgct gagcgccgag 780
tattccgtgc tggagggcga cggcggcgag 810
<210> 92
<211> 813
<212> DNA
<213> Plautia stali的F型共生体
<400> 92
cagcctggca tctactatga catcagcaac gaggattatc acggcggccc tggcatcagc 60
aagtcccagc tggacgacat cgccatctcc ccagccatct accagtggag gaagcacgcc 120
cccgtggacg aggagaaaac cgccgccctg gatctgggca cagccctgca ctgcctgctg 180
ctggagcctg acgagttctc taagagattt gagatcggcc cagaggtgaa ccggagaacc 240
acagccggca aggagaagga gaaggagttc atggagaggt gtgaggcaga gggagtgacc 300
cctatcacac acgacgataa tcggaagctg agactgatga gggatagcgc aatggcccac 360
ccaatcgcca gatggatgct ggaggcacag ggaaacgcag aggcctctat ctattggaat 420
gacagggata ccggcgtgct gagcaggtgc cgccccgaca agatcatcac cgacttcaac 480
tggtgcgtgg acgtgaagtc cacagccgac atcatcaagt tccagaagga cttttactct 540
tatcgctacc acgtgcagga cgccttctat tccgatggct acgagtctca ctttgacgag 600
acaccaacat tcgcctttct ggccgtgtct acaagcatcg attgcggccg gtatcccgtg 660
caggtgttca tcatggacca gcaggcaaag gatgcaggaa gggccgagta caagcggaac 720
atccacacct ttgccgagtg tctgagccgc aatgagtggc ctggcatcgc cacactgtcc 780
ctgccttact gggccaagga gctgcggaat gag 813
<210> 93
<211> 801
<212> DNA
<213> 斯氏普罗威登斯菌
<400> 93
agcaacccac ctctggccca ggcagacctg cagaaaaccc agggcacaga ggtgaaggag 60
aaaaccaagg atcagatgct ggtggagctg atcaataagc cttccatgaa ggcacagctg 120
gccgccgccc tgccaaggca catgacaccc gaccggatga tcagaatcgt gaccacagag 180
atcagaaaga cccccgccct ggccacatgc gatatgcaga gcttcgtggg agcagtggtg 240
cagtgttccc agctgggcct ggagcctggc aacgccctgg gacacgccta cctgctgcct 300
tttggcaacg gcaagtctaa gagcggccag tctaatgtgc agctgatcat cggctatcgg 360
ggcatgatcg acctggcccg gagaagcggc cagatcgtgt ccatctctgc caggaccgtg 420
cgccagggcg ataacttcca ctttgagtac ggcctgaacg agaatctgac ccacgtgcct 480
ggcgagaatg aggactctcc aatcacacac gtgtacgcag tggcaaggct gaaggatgga 540
ggcgtgcagt tcgaagtgat gacctataac cagatcgaga aggtgcgcgc cagctccaag 600
gcaggacaga atggaccctg ggtgagccac tgggaggaga tggccaagaa aaccgtgatc 660
aggcgcctgt tcaagtacct gcccgtgtct atcgagatgc agaaggccgt gatcctggac 720
gagaaggccg aggccaacat cgatcaggag aatgccacca tctttgaggg cgagtatgag 780
gaagtgggca cagacggcaa g 801
<210> 94
<211> 810
<212> DNA
<213> 斯氏普罗威登斯菌
<400> 94
gagggcatct actataacat cagcaatgag gactaccaca acggcctggg catctccaag 60
tctcagctgg atctgatcaa tgagatgcct gccgagtata tctggtccaa ggaggccccc 120
gtggacgagg agaagatcaa gcctctggag atcggcaccg ccctgcactg cctgctgctg 180
gagccagacg agtaccacaa gagatataag atcggccccg atgtgaaccg gagaacaaat 240
gccggcaagg agaaggagaa ggagttcttt gatatgtgcg agaaggaggg catcaccccc 300
atcacacacg acgataaccg gaagctgatg atcatgagag actctgccct ggcccaccct 360
atcgccaagt ggtgtctgga ggccgatggc gtgagcgaga gctccatcta ctggaccgac 420
aaggagacag atgtgctgtg caggtgtcgc ccagaccgca tcatcaccgc ccacaactac 480
atcgtggatg tgaagtctag cggcgacatc gagaagttcg attacgagta ctacaactac 540
agataccacg tgcaggacgc cttttactcc gatggctata aggaggtgac cggcatcacc 600
cctacattcc tgtttctggt ggtgtctacc aagatcgact gcggcaagta ccccgtgcgg 660
acctacgtga tgagcgagga ggcaaagtcc gccggaagga ccgcctacaa gcacaacctg 720
ctgacctatg ccgagtgtct gaaaaccgat gagtgggccg gcatcaggac actgtctctg 780
cccagatggg caaaggagct gcggaatgag 810
<210> 95
<211> 801
<212> DNA
<213> 普罗威登斯菌属MGF014
<400> 95
tctaaccccc ctctggccca gagcgacctg cagaaaaccc agggcacaga ggtgaaggtg 60
aaaaccaagg atcagcagct gatccagttc atcaatcagc cttctatgaa ggcacagctg 120
gccgccgccc tgccaaggca catgacaccc gaccggatga tcagaatcgt gaccacagag 180
atcagaaaga cccccgccct ggccacatgc gatatgcagt ccttcgtggg cgccgtggtg 240
cagtgttctc agctgggcct ggagcctggc aacgccctgg gacacgccta cctgctgcct 300
tttggcaacg gcaaggccaa gtccggccag tctaatgtgc agctgatcat cggctatcgg 360
ggcatgatcg acctggcccg gagatccaac cagatcatct ctatcagcgc caggaccgtg 420
cgccagggcg ataacttcca ctttgagtac ggcctgaatg aggacctgac ccacacacct 480
agcgagaatg aggattcccc aatcacccac gtgtacgcag tggcaaggct gaaggacgga 540
ggcgtgcagt ttgaagtgat gacatataac caggtggaga aggtgcgcgc cagctccaag 600
gcaggacaga atggaccctg ggtgagccac tgggaggaga tggccaagaa aaccgtgatc 660
aggcgcctgt tcaagtacct gcccgtgtcc atcgagatgc agaaggcagt ggtgctggac 720
gagaaggcag aggccaacgt ggatcaggag aatgccacca tctttgaggg cgagtatgag 780
gaagtgggca cagatggcaa t 801
<210> 96
<211> 813
<212> DNA
<213> 普罗威登斯菌属MGF014
<400> 96
aaggagggca tctactataa catcagcaat gaggactacc acaacggcct gggcatctcc 60
aagtctcagc tggatctgat caatgagatg cctgccgagt atatctggtc caaggaggcc 120
cccgtggacg aggagaagat caagcctctg gagatcggca ccgccctgca ctgcctgctg 180
ctggagccag acgagtacca caagagatat aagatcggcc ccgatgtgaa ccggagaaca 240
aatgtgggca aggagaagga gaaggagttc tttgatatgt gcgagaagga gggcatcacc 300
cccatcacac acgacgataa ccggaagctg atgatcatga gagactctgc cctggcccac 360
cctatcgcca agtggtgtct ggaggccgat ggcgtgagcg agagctccat ctactggacc 420
gacaaggaga cagatgtgct gtgcaggtgt cgcccagacc gcatcatcac cgcccacaac 480
tacatcatcg atgtgaagtc tagcggcgac atcgagaagt tcgattacga gtactacaac 540
tacagatacc acgtgcagga cgccttttac tccgatggct ataaggaggt gaccggcatc 600
acccctacat tcctgtttct ggtggtgtct accaagatcg actgcggcaa gtaccccgtg 660
cggacctacg tgatgagcga ggaggcaaag tccgccggaa ggaccgccta caagcacaac 720
ctgctgacct atgccgagtg tctgaaaacc gatgagtggg ccggcatcag gacactgtct 780
ctgcccagat gggcaaagga gctgcggaat gag 813
<210> 97
<211> 711
<212> DNA
<213> 腐败希瓦氏菌
<400> 97
cagaccgcac aggtgaagct gagcgtgccc caccagcagg tgtaccagga caacttcaat 60
tatctgagct cccaggtggt gggccacctg gtggatctga acgaggagat cggctacctg 120
aaccagatcg tgtttaattc tctgagcacc gcctctcccc tggacgtggc agcaccttgg 180
agcgtgtacg gcctgctgct gaacgtgtgc cggctgggcc tgtccctgaa tccagagaag 240
aagctggcct atgtgatgcc ctcctggtct gagacaggcg agatcatcat gaagctgtac 300
cccggctata ggggcgagat cgccatcgcc tctaacttca atgtgatcaa gaacgccaat 360
gccgtgctgg tgtatgagaa cgatcacttc cgcatccagg cagcaaccgg cgagatcgag 420
cactttgtga caagcctgtc catcgaccct agggtgcgcg gagcatgcag cggaggctac 480
tgtcggtccg tgctgatgga taatacaatc cagatctctt atctgagcat cgaggagatg 540
aacgccatcg cccagaatca gatcgaggcc aacatgggca ataccccttg gaactccatc 600
tggcggacag agatgaatag agtggccctg taccggagag cagcaaagga ctggaggcag 660
ctgatcaagg ccaccccaga gatccagtcc gccctgtctg atacagagta t 711
<210> 98
<211> 1173
<212> DNA
<213> 腐败希瓦氏菌
<400> 98
ggcaccgccc tggcccagac aatcagcctg gactggcagg ataccatcca gccagcatac 60
acagcctccg gcaagcctaa cttcctgaat gcccagggcg agatcgtgga gggcatctac 120
accgatctgc ctaattccgt gtatcacgcc ctggacgcac acagctccac cggcatcaag 180
acattcgcca agggccgcca ccactacttt cggcagtatc tgtctgacgt gtgccggcag 240
agaacaaagc agcaggagta caccttcgac gccggcacct acggccacat gctggtgctg 300
gagccagaga acttccacgg caacttcatg aggaaccccg tgcctgacga ttttccagac 360
atcgagctga tcgagagcat cccacagctg aaggccgccc tggccaagag caacctgccc 420
gtgtccggag caaaggccgc cctgatcgag agactgtacg ccttcgaccc atccctgccc 480
ctgtttgaga agatgaggga gaaggccatc accgactatc tggatctgcg ctacgccaag 540
tatctgcgga ccgacgtgga gctggatgag atggccacat tctacggcat cgatacctct 600
cagacacggg agaagaagat cgaggagatc ctggccatct ctcctagcca gccaatctgg 660
gagaagctga tcagccagca cgtgatcgac cacatcgtgt gggacgatgc catgagggtg 720
gagagatcca ccagggccca ccctaaggca gactggctga tctctgatgg ctatgccgag 780
ctgacaatca tcgcaaggtg cccaaccacc ggcctgctgc tgaaggtgcg gtttgactgg 840
ctgaggaatg atgccatcgg cgtggacttc aagaccacac tgtctaccaa ccccacaaag 900
tttggctacc agatcaagga cctgcggtat gatctgcagc aggtgttcta ctgttatgtg 960
gccaatctgg ccggcatccc tgtgaagcac ttctgctttg tggccaccga gtacaaggac 1020
gccgataact gtgagacatt tgagctgtct cacaagaaag tgatcgagag caccgaggag 1080
atgttcgacc tgctggatga gtttaaggag gccctgacct ccggcaattg gtatggccac 1140
gacaggtccc gctctacatg ggtcatcgag gtg 1173
<210> 99
<211> 888
<212> DNA
<213> 芽孢杆菌属MUM 116
<400> 99
agcaagcagc tgaccacagt gaatacccag gccgtggtgg gcacattctc ccaggccgag 60
ctggataccc tgaagcagac aatcgccaag ggcaccacaa acgagcagtt cgccctgttt 120
gtgcagacct gcgccaactc taggctgaat ccatttctga accacatcca ctgtatcgtg 180
tataacggca aggagggcgc caccatgagc ctgcagatcg cagtggaggg catcctgtac 240
ctggcacgca agacagacgg ctataagggc atcgagtgcc agctgatcca cgagaatgac 300
gagttcaagt ttgatgccaa gtccaaggag gtggatcacc agatcggatt ccccaggggc 360
aacgtgatcg gaggatatgc aatcgcaaag agggagggct ttgacgatgt ggtggtgctg 420
atggagtcta acgaggtgga ccacatgctg aagggccgga atggccacat gtggagagac 480
tggttcaacg atatgtttaa gaagcacatc atgaagcggg ccgccaagct gcagtacggc 540
atcgagatcg cagaggacga gacagtgagc agcggaccta gcgtggataa tatcccagag 600
tataagccac agccccggaa ggacatcaca cccaaccagg acgtgatcga tgccccccct 660
cagcagccta agcaggacga tgaggccgcc aagctgaagg ccgccagatc tgaggtgagc 720
aagaagttca agaagctggg catcgtgaag gaggatcaga ccgagtacgt ggagaagcac 780
gtgcctggct tcaagggcac actgtccgac tttatcggcc tgtctcagct gctggatctg 840
aatatcgagg cccaggaggc ccagtccgcc gacggcgatc tgctggac 888
<210> 100
<211> 1323
<212> DNA
<213> 芽孢杆菌属MUM 116
<400> 100
acctacgccg ccgacgagac actggtgcag ctgctgctgt ccgtggatgg caagcagctg 60
ctgctgggaa ggggcctgaa gaagggcaag gcccagtact atatcaatga ggtgccatct 120
aaggccaagg agttcgagga gatccgggac cagctgtttg acaaggatct gttcatgtcc 180
ctgtttaacc cctcttactt ctttaccctg cactgggaga agcagagggc catgatgctg 240
aagtatgtga cagcccccgt gtctaaggag gtgctgaaga atctgcctga ggcccagtcc 300
gaggtgctgg agagatacct gaagaagcac tctctggtgg atctggagaa gatccacaag 360
gacaacaaga ataagcagga taaggcctat atctctgccc agagcaggac caacacactg 420
aaggagcagc tgatgcagct gaccgaggag aagctggaca tcgattccat caaggccgag 480
ctggcccaca tcgacatgca ggtcatcgag ctggagaagc agatggatac agccttcgag 540
aagaaccagg cctttaatct gcaggcccag atcaggaatc tgcaggacaa gatcgagatg 600
agcaaggagc ggtggccctc cctgaagaac gaagtgatcg aggatacctg ccggacatgc 660
aagcggcccc tggacgagga tagcgtggag gccgtgaagg ccgacaagga taatcggatc 720
gccgagtaca aggccaagca caactccctg gtgtctcaga gaaatgagct gaaggagcag 780
ctgaacacca tcgagtatat cgacgtgaca gagctgagag agcagatcaa ggagctggat 840
gagtccggac agcctctgag ggagcaggtg cgcatctaca gccagtatca gaatctggac 900
acccaggtga agtccgccga ggcagacgag aacggcatcc tgcaggatct gaaggcctct 960
atcttcatcc tggatagcat caaggccttt aggggcaagg aggccgagat gcaggccgag 1020
aaggtgcagg ccctgttcac cacactgagc gtgcgcctgt ttaagcagaa taagggcgac 1080
ggcgagatca agccagattt cgagatcgag atgaacgaca agccctatcg gaccctgagc 1140
ctgtccgagg gcatccgggc aggcctggag ctgcgggacg tgctgagcca gcagtccgag 1200
ctggtgaccc ctacattcgt ggataatgcc gagtctatca ccagcttcaa gcagccaaac 1260
ggccagctga tcatcagccg ggtggtggca ggacaggagc tgaagatcga ggccgtgagc 1320
gag 1323
<210> 101
<211> 804
<212> DNA
<213> 索氏志贺菌
<400> 101
accaagcagc cccctatcgc caaggccgac ctgcagaaaa cccaggagaa cagggcacca 60
gcagccatca agaacaatga tgtgatctcc tttatcaatc agccctctat gaaggagcag 120
ctggccgccg ccctgcctag gcacatgacc gccgagagga tgatccgcat cgccaccaca 180
gagatccgca aggtgcctgc cctgggcaac tgcgacacaa tgagcttcgt gagcgccatc 240
gtgcagtgta gccagctggg cctggagcca ggctccgccc tgggccacgc ctacctgctg 300
cccttcggca acaagaatga gaagtccggc aagaagaatg tgcagctgat catcggctat 360
aggggcatga tcgatctggc ccggagatct ggccagatcg cctctctgag cgccagagtg 420
gtgcgggagg gcgacgagtt caactttgag ttcggcctgg atgagaagct gatccaccgg 480
cctggcgaga atgaggacgc cccagtgacc cacgtgtacg cagtggccag actgaaggat 540
ggcggcaccc agtttgaagt gatgacaagg cgccagatcg agctggtgag gtcccagtct 600
aaggccggca acaatggccc ttgggtgacc cactgggagg agatggccaa gaaaaccgcc 660
atccggagac tgttcaagta cctgccagtg tctatcgaga tccagcgcgc cgtgagcatg 720
gacgagaagg agccactgac catcgacccc gccgatagct ccgtgctgac aggcgagtat 780
tctgtgatcg ataacagcga ggag 804
<210> 102
<211> 1944
<212> DNA
<213> 索氏志贺菌
<400> 102
gatcgcggcc tgctgacaaa ggagtggagg aagggaaacc gggtgagccg gatcaccagg 60
acagccagcg gagcaaacgc aggaggagga aatctgaccg acagaggcga gggcttcgtg 120
cacgatctga caagcctggc ccgcgacatc gcaaccggcg tgctggcccg gagcatggac 180
gtggacatct acaacctgca ccctgcccac gccaagagga tcgaggagat catcgccgag 240
aataagcccc ctttcagcgt gtttagagac aagtttatca caatgccagg cggcctggac 300
tactccaggg ccatcgtggt ggcctctgtg aaggaggccc caatcggcat cgaagtgatc 360
cccgcccacg tgaccgccta tctgaacaag gtgctgaccg agacagacca cgccaatcca 420
gatcccgaga tcgtggacat cgcatgcggc agaagctccg cccctatgcc acagagggtg 480
accgaggagg gcaagcagga cgatgaggag aagctgcagc cttctggcac cacagcagat 540
gagcagggag aggcagagac aatggagcca gacgccacaa agcaccacca ggatacccag 600
cctctggacg cccagagcca ggtgaacagc gtggatgcca agtatcagga gctgagagcc 660
gagctgcacg aggccaggaa gaacatccct tccaagaatc cagtggacgc agataagctg 720
ctggccgcct ctcgcggcga gttcgtggac ggcatcagcg acccaaacga tcccaagtgg 780
gtgaagggca tccagacacg ggattccgtg taccagaatc agcctgagac agagaaaacc 840
agccccgaca tgaagcagcc agagcctgtg gtgcagcagg agcctgagat cgccttcaac 900
gcctgcggac agaccggcgg cgacaattgc ccagattgtg gcgccgtgat gggcgatgcc 960
acctatcagg agacatttga cgaggagaac caggtggagg ccaaggagaa tgatcctgag 1020
gagatggagg gcgccgagca cccacacaac gagaatgccg gcagcgaccc ccacagagac 1080
tgttccgatg agacaggcga ggtggccgat cccgtgatcg tggaggacat cgagcctggc 1140
atctactatg gcatcagcaa cgagaattac cacgcaggcc ccggcgtgtc caagtctcag 1200
ctggacgaca tcgccgacac acctgccctg tatctgtgga ggaagaacgc cccagtggat 1260
accacaaaga ccaagacact ggacctgggc accgcattcc actgccgcgt gctggagcca 1320
gaggagttca gcaatcggtt tatcgtggcc cccgagttca accggagaac aaatgccggc 1380
aaggaggagg agaaggcctt tctgatggag tgtgcctcca caggcaagat ggtcatcacc 1440
gccgaggagg gcagaaagat cgagctgatg taccagtctg tgatggcact gccactggga 1500
cagtggctgg tggagagcgc cggacacgca gagtctagca tctattggga ggaccccgag 1560
acaggcatcc tgtgcaggtg tcgccccgac aagatcatcc ctgagttcca ctggatcatg 1620
gacgtgaaaa ccacagccga catccagcgg ttcaagacag cctactatga ttacaggtat 1680
cacgtgcagg atgccttcta ctccgacggc tatgaggccc agtttggcgt gcagcccacc 1740
ttcgtgtttc tggtggcctc taccacaatc gagtgcggca gataccccgt ggagatcttt 1800
atgatgggag aggaggcaaa gctggccgga cagctggagt atcaccgcaa cctgcggaca 1860
ctggccgatt gtctgaatac cgacgagtgg ccagccatca agaccctgtc cctgcccaga 1920
tgggcaaagg agtacgccaa cgac 1944
<210> 103
<211> 828
<212> DNA
<213> 肠道沙门氏菌
<400> 103
accaagcagc cccctatcgc caaggccgac ctgcagaaaa cccagggaaa cagggcacct 60
gcagcagtga atgacaagga tgtgctgtgc gtgatcaaca gccctgccat gaaggcacag 120
ctggccgccg ccctgccaag gcacatgacc gccgagagga tgatccgcat cgccaccaca 180
gagatcagga aggtgccaga gctgcgcaac tgcgacagca ccagcttcat cggcgccatc 240
gtgcagtgtt ctcagctggg cctggagccc ggcagcgccc tgggccacgc ctacctgctg 300
ccttttggca atggcaaggc caagaacggc aagaagaatg tgcagctgat catcggctat 360
cggggcatga tcgatctggc ccggagatct ggccagatca tctccctgag cgccagagtg 420
gtgcgggagt gtgacgagtt ctcctacgag ctgggcctgg atgagaagct ggtgcaccgg 480
ccaggcgaga acgaggacgc acccatcacc cacgtgtatg ccgtggccaa gctgaaggat 540
ggcggcgtgc agtttgaagt gatgaccaag aagcaggtgg agaaggtgag agatacacac 600
tccaaggccg ccaagaatgc cgcctctaag ggcgccagct ccatctggga cgagcacttc 660
gaggatatgg ccaagaaaac cgtgatccgg aagctgttta agtacctgcc cgtgagcatc 720
gagatccaga gagccgtgag catggacggc aaggaggtgg agacaatcaa cccagacgac 780
atcagcgtga tcgccggcga gtattccgtg atcgataatc ccgaggag 828
<210> 104
<211> 1944
<212> DNA
<213> 肠道沙门氏菌
<400> 104
gatcgcggcc tgctgacaaa ggagtggagg aagggaaacc gggtgagccg gatcaccagg 60
acagccagcg gagcaaacgc aggaggagga aatctgaccg acagaggcga gggcttcgtg 120
cacgatctga caagcctggc ccgcgacgtg gcaaccggcg tgctggcccg gagcatggac 180
gtggacatct acaacctgca ccctgcccac gccaagaggg tggaggagat catcgccgag 240
aataagcccc ctttcagcgt gtttagagac aagtttatca caatgcctgg cggcctggac 300
tactccaggg ccatcgtggt ggcctctgtg aaggaggccc ctatcggcat cgaagtgatc 360
ccagcccacg tgaccgagta tctgaacaag gtgctgaccg agacagacca cgccaatcca 420
gatcccgaga tcgtggacat cgcatgcggc agaagctccg cccctatgcc acagagggtg 480
accgaggagg gcaagcagga cgatgaggag aagccccagc cttctggagc tatggccgac 540
gagcaggcaa ccgcagagac agtggagcca aacgccacag agcaccacca gaatacccag 600
cccctggatg cccagagcca ggtgaactcc gtggacgcca agtatcagga gctgagagcc 660
gagctgcagg aggccaggaa gaacatcccc tccaagaatc ctgtggacgc agataagctg 720
ctggccgcct ctcgcggcga gttcgtggat ggcatcagcg accctaacga tccaaagtgg 780
gtgaagggca tccagacacg ggattccgtg taccagaatc agcccgagac agagaagatc 840
tctcctgacg ccaagcagcc agagcccgtg gtgcagcagg agcccgagac agtgtgcaac 900
gcctgtggac agaccggcgg cgacaattgc cctgattgtg gcgccgtgat gggcgacgcc 960
acatatcagg agacattcgg cgaggagaat caggtggagg ccaaggagaa ggaccccgag 1020
gagatggagg gagcagagca ccctcacaac gagaatgccg gcagcgaccc acacagagac 1080
tgttccgatg agacaggcga ggtggccgat ccagtgatcg tggaggacat cgagcctggc 1140
atctactatg gcatcagcaa cgagaattac cacgcaggcc ccggcgtgtc caagtctcag 1200
ctggacgaca tcgccgacac acccgccctg tatctgtgga ggaagaacgc ccctgtggat 1260
accacaaaga ccaagacact ggacctgggc accgcattcc actgccgcgt gctggagcct 1320
gaggagttca gcaatcggtt tatcgtggcc ccagagttca accggagaac aaatgccggc 1380
aaggaggagg agaaggcctt tctgatggag tgtgcctcca ccggcaagac agtgatcacc 1440
gccgaggagg gcagaaagat cgagctgatg taccagtctg tgatggcact gcctctggga 1500
cagtggctgg tggagagcgc cggacacgca gagtctagca tctattggga ggaccccgag 1560
acaggcatcc tgtgcaggtg tcgcccagac aagatcatcc ccgagttcca ctggatcatg 1620
gacgtgaaaa ccacagccga catccagcgg ttcaagacag cctactatga ttacaggtat 1680
cacgtgcagg atgccttcta ctccgacggc tatgaggccc agtttggcgt gcagccaacc 1740
ttcgtgtttc tggtggcctc taccacagtg gagtgcggca gataccccgt ggagatcttt 1800
atgatgggag aggaggcaaa gctggccgga cagcaggagt atcaccgcaa cctgcggaca 1860
ctggccgatt gtctgaatac cgacgagtgg cctgccatca agaccctgtc cctgccacgg 1920
tgggccaagg agtacgccaa cgac 1944
<210> 105
<211> 993
<212> DNA
<213> 醋酸杆菌属
<400> 105
aacgcccccc agaagcagaa taccagagcc gccgtgaaga agatcagccc tcaggagttc 60
gccgagcagt ttgccgccat catcccacag gtgaagtccg tgctgcccgc ccacgtgacc 120
ttcgagaagt ttgagcgggt ggtgagactg gccgtgcgga agaaccctga cctgctgaca 180
tgctccccag cctctctgtt catggcatgt atccaggcag cctccgacgg cctgctgcct 240
gatggaaggg agggagcaat cgtgagccgg tggagctcca agaagagctg caacgaggcc 300
tcctggatgc caatggtggc cggcctgatg aagctggccc ggaacagcgg cgacatcgcc 360
agcatctcta gccaggtggt gttcgagggc gagcacttta gagtggtgct gggcgacgag 420
gagaggatcg agcacgagcg cgatctgggc aagaccggcg gcaagatcgt ggcagcctac 480
gccgtggcaa ggctgaagga cggcagcgat ccaatccgcg agatcatgtc ctggggccag 540
atcgagaaga tcagaaacac aaataagaag tgggagtggg gaccctggaa ggcctgggag 600
gacgagatgg ccagaaagac cgtgatccgg agactggcca agagactgcc catgtctaca 660
gataaggagg gagagaggct gcgcagcgcc atcgagagga tcgactccct ggtggacatc 720
tctgccaacg tggacgcacc tcagatcgca gcagacgatg agtttgccgc cgccgcccac 780
ggcgtggagc cacagcagat cgcagcacct gacctgatcg gccgcctggc ccagatgcag 840
tccctggagc aggtgcagga catcgagccc caggtgtctc acgccatcca ggaggccgac 900
aagaggggcg acagcgatac agccaatgcc ctggatgccg ccctgcagag cgccctgtcc 960
cgcacctcta cagccaagga ggaggtgcct gcc 993
<210> 106
<211> 897
<212> DNA
<213> 醋酸杆菌属
<400> 106
gtgatctcta agagcggcat ctacgacctg accaacgagc agtatcacgc cgatccttgc 60
ccagagatgt ccctgagctc ctctggagcc agggacctgc tgagctcctg tcctgccaag 120
ttcatcgccg ccaagcagct gccacagcag aataagaggt gctttgacat cggctctgcc 180
ggacacctga tggtgctgga gccacacctg ttcgaccaga aggtgtgcga gatcaagcac 240
cctgattggc gcacaaaggc agcaaaggag gagcgggacg ccgcctacgc cgagggaaga 300
atccccctgc tgagccgcga ggtggaggac atcagggcaa tgcactccgt ggtgtggaga 360
gattctctgg gagccagggc cttcagcgga ggcaaggcag agcagtccct ggtgtggcgc 420
gacgaggagt ttggcatctg gtgccggctg cggcccgatt acgtgcctaa caatgccgtg 480
cggatcttcg actataagac cgccacaaac ggctcccccg atgcctttat gaaggagatc 540
tacaatcggg gctatcacca gcaggccgcc tggtatctgg acggatatga ggcagtgacc 600
ggccacaggc cacgcgagtt ctggtttgtg gtgcaggaga aaaccgcccc cttcctgctg 660
tctttctttc agatggatga gatgagcctg gagatcggcc ggaccctgaa cagacaggcc 720
aagggcatct ttgcctggtg cctgcgcaac aattgttggc caggctatca gcccgaggtg 780
gatggcaagg tgagattctt taccacatct ccccctgcct ggctggtgag ggagtacgag 840
tttaagaatg agcacggcgc ctatgagcca cccgagatca agcggaagga ggtggcc 897
<210> 107
<211> 825
<212> DNA
<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721+C107
<400> 107
ccaaagcagc cccctatcgc caaggcagac ctgcagaaaa cccagggagc acggacccca 60
acagcagtga agaacaataa cgatgtgatc tcctttatca atcagccttc tatgaaggag 120
cagctggccg ccgccctgcc aaggcacatg accgccgagc ggatgatcag aatcgccacc 180
acagagatca ggaaggtgcc cgccctgggc gactgcgata caatgtcttt tgtgagcgcc 240
atcgtgcagt gtagccagct gggcctggag cctggcggcg ccctgggcca cgcctacctg 300
ctgcctttcg gcaatcggaa cgagaagtcc ggcaagaaga atgtgcagct gatcatcggc 360
tatagaggca tgatcgacct ggcccggaga tccggacaga tcgccagcct gtccgccagg 420
gtggtgcgcg agggcgacga tttctctttt gagttcggcc tggaggagaa gctggtgcac 480
aggccaggcg agaacgagga cgcccccgtg acccacgtgt acgcagtggc acgcctgaag 540
gatggaggca cccagtttga agtgatgaca cggaagcaga tcgagctggt gagagcccag 600
tctaaggccg gcaataacgg cccttgggtg acccactggg aggagatggc caagaaaacc 660
gccatcaggc gcctgttcaa gtacctgccc gtgagcatcg agatccagag ggccgtgagc 720
atggatgaga aggagacact gacaatcgac ccagccgatg ccagcgtgat caccggcgag 780
tattccgtgg tggagaatgc cggcgtggag gagaacgtga cagcc 825
<210> 108
<211> 801
<212> DNA
<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721
<400> 108
tactatgaca tcccaaacga ggcctaccac gcaggccccg gcgtgtctaa gagccagctg 60
gacgacatcg ccgatacccc cgccatctat ctgtggcgga agaatgcccc tgtggacacc 120
gagaaaacca agtccctgga taccggcaca gccttccact gcagggtgct ggagccagag 180
gagttcagca agcggttcat catcgccccc gagttcaacc ggagaacctc cgccggcaag 240
gaggaggaga aaaccttcct ggaggagtgt acccggacag gcagaaccgt gctgacagcc 300
gaggagggca ggaagatcga gctgatgtac cagtccgtga tggcactgcc actgggacag 360
tggctggtgg agtctgccgg ctacgccgag agctccgtgt attgggagga ccctgagaca 420
ggcatcctgt gccggtgtag acccgataag atcatccctg agttccactg gatcatggac 480
gtgaaaacca cagccgacat ccagaggttt cgcaccgcct actatgacta cagataccac 540
gtgcaggacg ccttctactc tgatggctat agagcccagt ttggcgagat ccctacattc 600
gtgtttctgg tggccagcac cacagcagag tgcggcagat accccgtgga gatctttatg 660
atgggagagg acgcaaagct ggccggacag cgcgagtata ggcgcaatct gcagaccctg 720
gccgagtgtc tgaacaatga tgagtggcct gccatcaaga cactgtctct gccacggtgg 780
gccaaggaga acgccaatgc c 801
<210> 109
<211> 723
<212> DNA
<213> Pseudobacteriovorax antillogorgiicola
<400> 109
ggccacctgg tgagcaagac cgagcaggat tacatcaagc agcactatgc caagggcgcc 60
acagaccagg agttcgagca ctttatcggc gtgtgcaggg ccagaggcct gaacccagcc 120
gccaatcaga tctacttcgt gaagtatcgg tccaaggatg gaccagcaaa gccagccttt 180
atcctgtcta tcgacagcct gaggctgatc gcacaccgca ccggcgatta cgcaggatgc 240
tctgagccca tcttcacaga cggcggcaag gcctgtaccg tgacagtgcg gagaaacctg 300
aagagcggcg agacaggcaa tttctccggc atggcctttt atgacgagca ggtgcagcag 360
aagaacggcc ggcctacctc cttttggcag tctaagccaa gaacaatgct ggagaagtgt 420
gcagaggcaa aggccctgag gaaggccttc cctcaggatc tgggccagtt ttacatcaga 480
gaggagatgc cccctcagta tgacgagcct atccaggtgc acaagccaaa ggccctggag 540
gagcccaggt tcagcaagtc cgatctgtcc aggcgcaagg gcctgaacag gaagctgtct 600
gccctgggag tggaccccag ccgcttcgat gaggtggcca cctttctgga cggcacacct 660
gatcgcgagc tgggccagaa gctgaagctg tggctgaagg aggccggcta cggcgtgaat 720
cag 723
<210> 110
<211> 897
<212> DNA
<213> Pseudobacteriovorax antillogorgiicola
<400> 110
agcaagctgt ccaacctgaa ggtgtctaat agcgacgtgg atacactgag ccggatcaga 60
atgaaggagg gcgtgtatcg ggacctgcca atcgagagct accaccagtc ccccggctat 120
tctaagacca gcctgtgcca gatcgataag gcccctatct acctgaaaac caaggtgcca 180
cagaagtcca caaagtctct gaacatcggc accgccttcc acgaggctat ggagggcgtg 240
tttaaggaca agtatgtggt gcaccccgat cctggcgtga ataagaccac aaagtcttgg 300
aaggacttcg tgaagaggta tcctaagcac atgccactga agcgcagcga gtacgaccag 360
gtgctggcca tgtacgatgc cgcccggtct tatagacctt ttcagaagta ccacctgagc 420
cggggcttct acgagagctc cttttattgg cacgatgccg tgacaaacag cctgatcaag 480
tgcagacccg actatatcac ccctgatggc atgagcgtga tcgacttcaa gaccacagtg 540
gaccccagcc ccaagggctt tcagtaccag gcctacaagt atcactacta cgtgagcgcc 600
gccctgaccc tggagggaat cgaggcagtg accggcatca ggccaaagga gtacctgttc 660
ctggccgtgt ccaattctgc cccatacctg accgccctgt atcgcgcctc tgagaaggag 720
atcgccctgg gcgaccactt tatccggcgg agcctgctga ccctgaaaac ctgtctggag 780
tctggcaagt ggcccggcct gcaggaggag atcctggagc tgggcctgcc tttctccggc 840
ctgaaggagc tgagagagga gcaggaggtg gaggatgagt ttatggagct ggtgggc 897
<210> 111
<211> 669
<212> DNA
<213> 发光杆菌属JCM 19050
<400> 111
aacaccgaca tgatcgccat gcccccttct ccagccatca gcatgctgga cacaagcaag 60
ctggatgtga tggtgcgggc agcagagctg atgtcccagg ccgtggtcat ggtgcccgac 120
cacttcaagg gcaagccagc cgattgcctg gcagtggtca tgcaggcaga ccagtggggc 180
atgaacccct ttaccgtggc ccagaaaacc cacctggtga gcggcaccct gggatacgag 240
tcccagctgg tgaatgccgt gatcagctcc tctaaggcca tcaagggccg gttccactat 300
gagtggtctg atggctggga gagactggcc ggcaaggtgc agtacgtgaa ggagtctcgg 360
cagagaaagg gccagcaggg cagctatcag gtgaccgtgg ccaagccaac atggaagcca 420
gaggacgagc agggcctgtg ggtgcggtgt ggagccgtgc tggccggaga gaaggacatc 480
acatggggcc ctaagctgta cctggccagc gtgctggtgc ggaacagcga gctgtggacc 540
acaaagccct accagcaggc cgcctatacc gccctgaagg attggtcccg cctgtataca 600
cctgccgtga tgcagggctc tatgaccggc aagagctggt ccctgacagg caggctgatc 660
agcccccgc 669
<210> 112
<211> 663
<212> DNA
<213> 发光杆菌属JCM 19050
<400> 112
gccgagcggg tgagaaccta tcagcgggac gccgtgttcg cacacgagct gaaggccgag 60
tttgatgagg ccgtggagaa cggcaagacc ggcgtgacac tggaggacca ggccagggcc 120
aagaggatgg tgcacgaggc caccacaaac cccgcctctc ggaattggtt cagatacgac 180
ggagagctgg ccgcatgcga gaggagctat ttttggcgcg atgaggaggc aggcctggtg 240
ctgaaggcca ggcctgacaa ggagatcggc aacaatctga tcgatgtgaa gtccatcgag 300
gtgccaaccg acgtgtgcgc ctgtgatctg aacgcctata tcaatcggca gatcgagaag 360
agaggctacc acatctccgc cgcccactat ctgtctggca caggcaagga ccgcttcttt 420
tggatcttca tcaataaggt gaagggctac gagtgggtgg caatcgtgga ggcctctccc 480
ctgcacatcg agctgggcac ctatgaggtg ctggagggcc tgcggagcat cgccagctcc 540
acaaaggagg cagattaccc agcacctctg tcccaccctg tgaacgagag aggcatccca 600
cagcccctga tgtctaatct gagcacatac gccatgaaga ggctggagca gtttcgcgag 660
ctg 663
<210> 113
<211> 693
<212> DNA
<213> 产碱普罗威登斯菌DSM 30120
<400> 113
aaggcacagc tggccgccgc cctgcctaag cacatcacca gcgaccggat gatcagaatc 60
gtgtccaccg agatcagaaa gaccccatct ctggccaact gcgacatcca gagcttcatc 120
ggcgccgtgg tgcagtgttc tcagctgggc ctggagccag gcaacgccct gggacacgcc 180
tacctgctgc cctttggcaa tggcaagtcc gacaacggca agtctaatgt gcagctgatc 240
atcggctatc ggggcatgat cgatctggcc cggagaagcg gccagatcat ctctatcagc 300
gccaggaccg tgcgccaggg cgacaacttc cactttgagt acggcctgaa cgagaatctg 360
acccacatcc ccgagggcaa tgaggactcc cctatcacac acgtgtacgc agtggcacgg 420
ctgaaggatg agggcgtgca gttcgaagtg atgacatata accagatcga gaaggtgaga 480
gatagctcca aggccggcaa gaatggcccc tgggtgaccc actgggagga gatggccaag 540
aaaaccgtga tcaggcgcct gtttaagtac ctgcccgtga gcatcgagat gcagaaggcc 600
gtgatcctgg acgagaaggc cgaggccaat atcgagcagg atcactccgc catcttcgag 660
gccgagtttg aggaggtgga ctctaacggc aat 693
<210> 114
<211> 828
<212> DNA
<213> 产碱普罗威登斯菌DSM 30120
<400> 114
aacgagggca tctactatga catctctaat gaggactatc accacggcct gggcatctct 60
aagagccagc tggatctgat cgacgagagc cccgccgatt tcatctggca ccgggatgcc 120
cctgtggaca acgagaaaac caaggccctg gattttggca cagccctgca ctgcctgctg 180
ctggagccag acgagttcca gaagaggttt cgcatcgccc ccgaggtgaa ccggagaaca 240
aatgccggca aggagcagga gaaggagttc ctggagatgt gcgagaagga gaatatcacc 300
cccatcacaa acgaggataa taggaagctg tctctgatga aggacagcgc aatggcccac 360
cctatcgccc gctggtgtct ggaggccaag ggcatcgccg agagctccat ctattggaag 420
gacaaggata cagacatcct gtgccggtgt agaccagaca agctgatcga ggagcaccac 480
tggctggtgg atgtgaagtc caccgccgac atccagaagt tcgagcggtc tatgtacgag 540
tatagatacc acgtgcagga ttccttttat tctgacggct acaagagcct gacaggcgag 600
atgcccgtgt tcgtgttcct ggccgtgtcc accgtgatca actgcggcag ataccccgtg 660
cgggtgttcg tgctggacga gcaggcaaag tccgtgggac ggatcaccta taagcagaat 720
ctgtttacat acgccgagtg tctgaaaacc gacgagtggg ccggcatcag aaccctgagc 780
ctgccctcct gggcaaagga gctgaagcac gagcacacca cagcctct 828
<210> 115
<211> 271
<212> PRT
<213> 斯氏泛菌种属
<400> 115
Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Ala Asn
1 5 10 15
Thr Gly Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly
20 25 30
Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro
35 40 45
Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile
50 55 60
Arg Lys Thr Pro Ala Leu Ala Thr Cys Asp Gln Ser Ser Phe Ile Gly
65 70 75 80
Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu
85 90 95
Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly
100 105 110
Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu
115 120 125
Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg
130 135 140
Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile
145 150 155 160
His Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala
165 170 175
Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Val
180 185 190
Lys Gln Ile Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly
195 200 205
Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg
210 215 220
Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val
225 230 235 240
Ile Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser
245 250 255
Val Leu Ser Ala Glu Tyr Ser Val Leu Asp Gly Ser Ser Glu Glu
260 265 270
<210> 116
<211> 272
<212> PRT
<213> 斯氏泛菌种属
<400> 116
Met Gln Pro Gly Val Tyr Tyr Asp Ile Ser Asn Glu Glu Tyr His Ala
1 5 10 15
Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Val Ser Pro
20 25 30
Ala Ile Phe Gln Trp Arg Lys Ser Ala Pro Val Asp Asp Glu Lys Thr
35 40 45
Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Phe Ser Lys Arg Phe Met Ile Gly Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Asn Ala Gly Lys Gln Lys Glu Gln Asp Phe Leu Asp Met Cys Glu
85 90 95
Gln Gln Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Arg
100 105 110
Leu Met Arg Asp Ser Ala Phe Ala His Pro Val Ala Arg Trp Met Leu
115 120 125
Glu Thr Glu Gly Lys Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp
130 135 140
Thr Gln Ile Leu Ser Arg Cys Arg Pro Asp Lys Leu Ile Thr Glu Phe
145 150 155 160
Ser Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Gly Lys Phe Gln
165 170 175
Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Glu Ala Gln Phe Cys Glu Val Pro Thr Phe Ala Phe Leu
195 200 205
Val Val Ser Ser Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe
210 215 220
Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg
225 230 235 240
Asn Leu Thr Thr Tyr Ala Glu Cys Gln Ala Arg Asn Glu Trp Pro Gly
245 250 255
Ile Ala Thr Leu Ser Leu Pro Tyr Trp Ala Lys Glu Ile Arg Asn Val
260 265 270
<210> 117
<211> 273
<212> PRT
<213> 布氏泛菌
<400> 117
Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly
20 25 30
Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro
35 40 45
Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile
50 55 60
Arg Lys Thr Pro Gln Leu Ala Gln Cys Asp Gln Ser Ser Phe Ile Gly
65 70 75 80
Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu
85 90 95
Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly
100 105 110
Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu
115 120 125
Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg
130 135 140
Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Val
145 150 155 160
His Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala
165 170 175
Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Val
180 185 190
Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly
195 200 205
Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg
210 215 220
Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val
225 230 235 240
Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser
245 250 255
Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Ser Gly Asp Glu Ala Thr
260 265 270
Asn
<210> 118
<211> 272
<212> PRT
<213> 布氏泛菌
<400> 118
Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Arg
1 5 10 15
Gly Ala Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro
20 25 30
Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr
35 40 45
Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Phe Ser Lys Arg Phe Gln Ile Gly Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Ile Glu Arg Cys Glu
85 90 95
Ala Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Lys
100 105 110
Leu Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Arg Trp Met Leu
115 120 125
Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp
130 135 140
Ala Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Glu Phe
145 150 155 160
Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Met Lys Phe Gln
165 170 175
Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Glu Ser His Phe His Glu Thr Pro Thr Phe Ala Phe Leu
195 200 205
Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe
210 215 220
Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg
225 230 235 240
Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly
245 250 255
Ile Ala Thr Leu Ser Leu Pro Phe Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 119
<211> 270
<212> PRT
<213> 分散泛菌种属
<400> 119
Met Ser Asn Gln Pro Pro Leu Ala Thr Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gln Ser Asn Gln Val Ala Lys Thr Pro Glu Gln Thr Leu Val Gly Phe
20 25 30
Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro Arg
35 40 45
His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg
50 55 60
Lys Thr Pro Ala Leu Ala Gln Cys Asp Gln Ser Ser Phe Ile Gly Ala
65 70 75 80
Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly
85 90 95
His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly Gln
100 105 110
Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala
115 120 125
Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg Ala
130 135 140
Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile His
145 150 155 160
Arg Pro Gly Asp Asn Glu Ser Ala Pro Ile Thr His Val Tyr Ala Val
165 170 175
Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Ala Lys
180 185 190
Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly Pro
195 200 205
Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg
210 215 220
Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Val
225 230 235 240
Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser Val
245 250 255
Leu Ser Ala Glu Tyr Ser Val Leu Glu Ser Gly Thr Gly Glu
260 265 270
<210> 120
<211> 272
<212> PRT
<213> 分散泛菌种属
<400> 120
Met Glu Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Ala Tyr His Ser
1 5 10 15
Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Arg Ser Pro
20 25 30
Ala Ile Phe Gln Trp Arg Lys Asp Ala Pro Val Asp Thr Glu Lys Thr
35 40 45
Lys Ala Leu Asp Leu Gly Thr Asp Phe His Cys Ala Val Leu Glu Pro
50 55 60
Glu Arg Phe Ala Asp Met Tyr Arg Val Gly Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Thr Ala Gly Lys Ala Glu Glu Lys Glu Phe Phe Glu Lys Cys Glu
85 90 95
Lys Asp Gly Ala Val Pro Ile Thr His Asp Asp Ala Arg Lys Val Glu
100 105 110
Leu Met Arg Gly Ser Val Met Ala His Pro Ile Ala Lys Gln Met Ile
115 120 125
Ala Ala Gln Gly His Ala Glu Ala Ser Ile Tyr Trp His Asp Glu Ser
130 135 140
Thr Gly Asn Leu Cys Arg Cys Arg Pro Asp Lys Phe Ile Pro Asp Trp
145 150 155 160
Asn Trp Ile Val Asp Val Lys Thr Thr Ala Asp Met Lys Lys Phe Arg
165 170 175
Arg Glu Phe Tyr Asp Leu Arg Tyr His Val Gln Asp Ala Phe Tyr Thr
180 185 190
Asp Gly Tyr Ala Ala Gln Phe Gly Glu Arg Pro Thr Phe Val Phe Val
195 200 205
Val Thr Ser Thr Thr Ile Asp Cys Gly Arg Tyr Pro Thr Glu Val Phe
210 215 220
Phe Leu Asp Glu Glu Thr Lys Ala Ala Gly Arg Ser Glu Tyr Gln Ser
225 230 235 240
Asn Leu Val Thr Tyr Ser Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly
245 250 255
Ile Ala Thr Leu Ser Leu Pro His Trp Ala Lys Glu Leu Arg Asn Val
260 265 270
<210> 121
<211> 271
<212> PRT
<213> Plautia stali的F型共生体
<400> 121
Met Ser Asn Gln Pro Pro Ile Ala Ser Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gln Ser Lys Gln Val Ala Asn Lys Thr Pro Glu Gln Thr Leu Val Gly
20 25 30
Phe Met Asn Gln Pro Ala Met Lys Ser Gln Leu Ala Ala Ala Leu Pro
35 40 45
Arg His Met Thr Ala Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile
50 55 60
Arg Lys Thr Pro Ala Leu Ala Thr Cys Asp Gln Ser Ser Phe Ile Gly
65 70 75 80
Ala Val Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu
85 90 95
Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Arg Ser Lys Ser Gly
100 105 110
Gln Ser Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu
115 120 125
Ala Arg Arg Ser Gly Gln Ile Val Ser Leu Ser Ala Arg Val Val Arg
130 135 140
Ala Asp Asp Glu Phe Ser Phe Glu Tyr Gly Leu Asp Glu Asn Leu Ile
145 150 155 160
His Arg Pro Gly Asp Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala
165 170 175
Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Ala
180 185 190
Lys Gln Val Glu Lys Val Lys Ala Gln Ser Lys Ala Ser Ser Asn Gly
195 200 205
Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg
210 215 220
Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val
225 230 235 240
Val Leu Asp Glu Lys Ala Glu Ser Asp Val Asp Gln Asp Asn Ala Ser
245 250 255
Val Leu Ser Ala Glu Tyr Ser Val Leu Glu Gly Asp Gly Gly Glu
260 265 270
<210> 122
<211> 272
<212> PRT
<213> Plautia stali的F型共生体
<400> 122
Met Gln Pro Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His Gly
1 5 10 15
Gly Pro Gly Ile Ser Lys Ser Gln Leu Asp Asp Ile Ala Ile Ser Pro
20 25 30
Ala Ile Tyr Gln Trp Arg Lys His Ala Pro Val Asp Glu Glu Lys Thr
35 40 45
Ala Ala Leu Asp Leu Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Phe Ser Lys Arg Phe Glu Ile Gly Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Thr Ala Gly Lys Glu Lys Glu Lys Glu Phe Met Glu Arg Cys Glu
85 90 95
Ala Glu Gly Val Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Arg
100 105 110
Leu Met Arg Asp Ser Ala Met Ala His Pro Ile Ala Arg Trp Met Leu
115 120 125
Glu Ala Gln Gly Asn Ala Glu Ala Ser Ile Tyr Trp Asn Asp Arg Asp
130 135 140
Thr Gly Val Leu Ser Arg Cys Arg Pro Asp Lys Ile Ile Thr Asp Phe
145 150 155 160
Asn Trp Cys Val Asp Val Lys Ser Thr Ala Asp Ile Ile Lys Phe Gln
165 170 175
Lys Asp Phe Tyr Ser Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Glu Ser His Phe Asp Glu Thr Pro Thr Phe Ala Phe Leu
195 200 205
Ala Val Ser Thr Ser Ile Asp Cys Gly Arg Tyr Pro Val Gln Val Phe
210 215 220
Ile Met Asp Gln Gln Ala Lys Asp Ala Gly Arg Ala Glu Tyr Lys Arg
225 230 235 240
Asn Ile His Thr Phe Ala Glu Cys Leu Ser Arg Asn Glu Trp Pro Gly
245 250 255
Ile Ala Thr Leu Ser Leu Pro Tyr Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 123
<211> 268
<212> PRT
<213> 斯氏普罗威登斯菌
<400> 123
Met Ser Asn Pro Pro Leu Ala Gln Ala Asp Leu Gln Lys Thr Gln Gly
1 5 10 15
Thr Glu Val Lys Glu Lys Thr Lys Asp Gln Met Leu Val Glu Leu Ile
20 25 30
Asn Lys Pro Ser Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg His
35 40 45
Met Thr Pro Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg Lys
50 55 60
Thr Pro Ala Leu Ala Thr Cys Asp Met Gln Ser Phe Val Gly Ala Val
65 70 75 80
Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His
85 90 95
Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ser Lys Ser Gly Gln Ser
100 105 110
Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg
115 120 125
Arg Ser Gly Gln Ile Val Ser Ile Ser Ala Arg Thr Val Arg Gln Gly
130 135 140
Asp Asn Phe His Phe Glu Tyr Gly Leu Asn Glu Asn Leu Thr His Val
145 150 155 160
Pro Gly Glu Asn Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala
165 170 175
Arg Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln
180 185 190
Ile Glu Lys Val Arg Ala Ser Ser Lys Ala Gly Gln Asn Gly Pro Trp
195 200 205
Val Ser His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu
210 215 220
Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Ile Leu
225 230 235 240
Asp Glu Lys Ala Glu Ala Asn Ile Asp Gln Glu Asn Ala Thr Ile Phe
245 250 255
Glu Gly Glu Tyr Glu Glu Val Gly Thr Asp Gly Lys
260 265
<210> 124
<211> 270
<212> PRT
<213> 斯氏普罗威登斯菌
<400> 124
Glu Gly Ile Tyr Tyr Asn Ile Ser Asn Glu Asp Tyr His Asn Gly Leu
1 5 10 15
Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asn Glu Met Pro Ala Glu
20 25 30
Tyr Ile Trp Ser Lys Glu Ala Pro Val Asp Glu Glu Lys Ile Lys Pro
35 40 45
Leu Glu Ile Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro Asp Glu
50 55 60
Tyr His Lys Arg Tyr Lys Ile Gly Pro Asp Val Asn Arg Arg Thr Asn
65 70 75 80
Ala Gly Lys Glu Lys Glu Lys Glu Phe Phe Asp Met Cys Glu Lys Glu
85 90 95
Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Met Ile Met
100 105 110
Arg Asp Ser Ala Leu Ala His Pro Ile Ala Lys Trp Cys Leu Glu Ala
115 120 125
Asp Gly Val Ser Glu Ser Ser Ile Tyr Trp Thr Asp Lys Glu Thr Asp
130 135 140
Val Leu Cys Arg Cys Arg Pro Asp Arg Ile Ile Thr Ala His Asn Tyr
145 150 155 160
Ile Val Asp Val Lys Ser Ser Gly Asp Ile Glu Lys Phe Asp Tyr Glu
165 170 175
Tyr Tyr Asn Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser Asp Gly
180 185 190
Tyr Lys Glu Val Thr Gly Ile Thr Pro Thr Phe Leu Phe Leu Val Val
195 200 205
Ser Thr Lys Ile Asp Cys Gly Lys Tyr Pro Val Arg Thr Tyr Val Met
210 215 220
Ser Glu Glu Ala Lys Ser Ala Gly Arg Thr Ala Tyr Lys His Asn Leu
225 230 235 240
Leu Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly Ile Arg
245 250 255
Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 125
<211> 268
<212> PRT
<213> 普罗威登斯菌属MGF014
<400> 125
Met Ser Asn Pro Pro Leu Ala Gln Ser Asp Leu Gln Lys Thr Gln Gly
1 5 10 15
Thr Glu Val Lys Val Lys Thr Lys Asp Gln Gln Leu Ile Gln Phe Ile
20 25 30
Asn Gln Pro Ser Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg His
35 40 45
Met Thr Pro Asp Arg Met Ile Arg Ile Val Thr Thr Glu Ile Arg Lys
50 55 60
Thr Pro Ala Leu Ala Thr Cys Asp Met Gln Ser Phe Val Gly Ala Val
65 70 75 80
Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His
85 90 95
Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ala Lys Ser Gly Gln Ser
100 105 110
Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg
115 120 125
Arg Ser Asn Gln Ile Ile Ser Ile Ser Ala Arg Thr Val Arg Gln Gly
130 135 140
Asp Asn Phe His Phe Glu Tyr Gly Leu Asn Glu Asp Leu Thr His Thr
145 150 155 160
Pro Ser Glu Asn Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala
165 170 175
Arg Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln
180 185 190
Val Glu Lys Val Arg Ala Ser Ser Lys Ala Gly Gln Asn Gly Pro Trp
195 200 205
Val Ser His Trp Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu
210 215 220
Phe Lys Tyr Leu Pro Val Ser Ile Glu Met Gln Lys Ala Val Val Leu
225 230 235 240
Asp Glu Lys Ala Glu Ala Asn Val Asp Gln Glu Asn Ala Thr Ile Phe
245 250 255
Glu Gly Glu Tyr Glu Glu Val Gly Thr Asp Gly Asn
260 265
<210> 126
<211> 272
<212> PRT
<213> 普罗威登斯菌属MGF014
<400> 126
Met Lys Glu Gly Ile Tyr Tyr Asn Ile Ser Asn Glu Asp Tyr His Asn
1 5 10 15
Gly Leu Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asn Glu Met Pro
20 25 30
Ala Glu Tyr Ile Trp Ser Lys Glu Ala Pro Val Asp Glu Glu Lys Ile
35 40 45
Lys Pro Leu Glu Ile Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Tyr His Lys Arg Tyr Lys Ile Gly Pro Asp Val Asn Arg Arg
65 70 75 80
Thr Asn Val Gly Lys Glu Lys Glu Lys Glu Phe Phe Asp Met Cys Glu
85 90 95
Lys Glu Gly Ile Thr Pro Ile Thr His Asp Asp Asn Arg Lys Leu Met
100 105 110
Ile Met Arg Asp Ser Ala Leu Ala His Pro Ile Ala Lys Trp Cys Leu
115 120 125
Glu Ala Asp Gly Val Ser Glu Ser Ser Ile Tyr Trp Thr Asp Lys Glu
130 135 140
Thr Asp Val Leu Cys Arg Cys Arg Pro Asp Arg Ile Ile Thr Ala His
145 150 155 160
Asn Tyr Ile Ile Asp Val Lys Ser Ser Gly Asp Ile Glu Lys Phe Asp
165 170 175
Tyr Glu Tyr Tyr Asn Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser
180 185 190
Asp Gly Tyr Lys Glu Val Thr Gly Ile Thr Pro Thr Phe Leu Phe Leu
195 200 205
Val Val Ser Thr Lys Ile Asp Cys Gly Lys Tyr Pro Val Arg Thr Tyr
210 215 220
Val Met Ser Glu Glu Ala Lys Ser Ala Gly Arg Thr Ala Tyr Lys His
225 230 235 240
Asn Leu Leu Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly
245 250 255
Ile Arg Thr Leu Ser Leu Pro Arg Trp Ala Lys Glu Leu Arg Asn Glu
260 265 270
<210> 127
<211> 238
<212> PRT
<213> 腐败希瓦氏菌
<400> 127
Met Gln Thr Ala Gln Val Lys Leu Ser Val Pro His Gln Gln Val Tyr
1 5 10 15
Gln Asp Asn Phe Asn Tyr Leu Ser Ser Gln Val Val Gly His Leu Val
20 25 30
Asp Leu Asn Glu Glu Ile Gly Tyr Leu Asn Gln Ile Val Phe Asn Ser
35 40 45
Leu Ser Thr Ala Ser Pro Leu Asp Val Ala Ala Pro Trp Ser Val Tyr
50 55 60
Gly Leu Leu Leu Asn Val Cys Arg Leu Gly Leu Ser Leu Asn Pro Glu
65 70 75 80
Lys Lys Leu Ala Tyr Val Met Pro Ser Trp Ser Glu Thr Gly Glu Ile
85 90 95
Ile Met Lys Leu Tyr Pro Gly Tyr Arg Gly Glu Ile Ala Ile Ala Ser
100 105 110
Asn Phe Asn Val Ile Lys Asn Ala Asn Ala Val Leu Val Tyr Glu Asn
115 120 125
Asp His Phe Arg Ile Gln Ala Ala Thr Gly Glu Ile Glu His Phe Val
130 135 140
Thr Ser Leu Ser Ile Asp Pro Arg Val Arg Gly Ala Cys Ser Gly Gly
145 150 155 160
Tyr Cys Arg Ser Val Leu Met Asp Asn Thr Ile Gln Ile Ser Tyr Leu
165 170 175
Ser Ile Glu Glu Met Asn Ala Ile Ala Gln Asn Gln Ile Glu Ala Asn
180 185 190
Met Gly Asn Thr Pro Trp Asn Ser Ile Trp Arg Thr Glu Met Asn Arg
195 200 205
Val Ala Leu Tyr Arg Arg Ala Ala Lys Asp Trp Arg Gln Leu Ile Lys
210 215 220
Ala Thr Pro Glu Ile Gln Ser Ala Leu Ser Asp Thr Glu Tyr
225 230 235
<210> 128
<211> 392
<212> PRT
<213> 腐败希瓦氏菌
<400> 128
Met Gly Thr Ala Leu Ala Gln Thr Ile Ser Leu Asp Trp Gln Asp Thr
1 5 10 15
Ile Gln Pro Ala Tyr Thr Ala Ser Gly Lys Pro Asn Phe Leu Asn Ala
20 25 30
Gln Gly Glu Ile Val Glu Gly Ile Tyr Thr Asp Leu Pro Asn Ser Val
35 40 45
Tyr His Ala Leu Asp Ala His Ser Ser Thr Gly Ile Lys Thr Phe Ala
50 55 60
Lys Gly Arg His His Tyr Phe Arg Gln Tyr Leu Ser Asp Val Cys Arg
65 70 75 80
Gln Arg Thr Lys Gln Gln Glu Tyr Thr Phe Asp Ala Gly Thr Tyr Gly
85 90 95
His Met Leu Val Leu Glu Pro Glu Asn Phe His Gly Asn Phe Met Arg
100 105 110
Asn Pro Val Pro Asp Asp Phe Pro Asp Ile Glu Leu Ile Glu Ser Ile
115 120 125
Pro Gln Leu Lys Ala Ala Leu Ala Lys Ser Asn Leu Pro Val Ser Gly
130 135 140
Ala Lys Ala Ala Leu Ile Glu Arg Leu Tyr Ala Phe Asp Pro Ser Leu
145 150 155 160
Pro Leu Phe Glu Lys Met Arg Glu Lys Ala Ile Thr Asp Tyr Leu Asp
165 170 175
Leu Arg Tyr Ala Lys Tyr Leu Arg Thr Asp Val Glu Leu Asp Glu Met
180 185 190
Ala Thr Phe Tyr Gly Ile Asp Thr Ser Gln Thr Arg Glu Lys Lys Ile
195 200 205
Glu Glu Ile Leu Ala Ile Ser Pro Ser Gln Pro Ile Trp Glu Lys Leu
210 215 220
Ile Ser Gln His Val Ile Asp His Ile Val Trp Asp Asp Ala Met Arg
225 230 235 240
Val Glu Arg Ser Thr Arg Ala His Pro Lys Ala Asp Trp Leu Ile Ser
245 250 255
Asp Gly Tyr Ala Glu Leu Thr Ile Ile Ala Arg Cys Pro Thr Thr Gly
260 265 270
Leu Leu Leu Lys Val Arg Phe Asp Trp Leu Arg Asn Asp Ala Ile Gly
275 280 285
Val Asp Phe Lys Thr Thr Leu Ser Thr Asn Pro Thr Lys Phe Gly Tyr
290 295 300
Gln Ile Lys Asp Leu Arg Tyr Asp Leu Gln Gln Val Phe Tyr Cys Tyr
305 310 315 320
Val Ala Asn Leu Ala Gly Ile Pro Val Lys His Phe Cys Phe Val Ala
325 330 335
Thr Glu Tyr Lys Asp Ala Asp Asn Cys Glu Thr Phe Glu Leu Ser His
340 345 350
Lys Lys Val Ile Glu Ser Thr Glu Glu Met Phe Asp Leu Leu Asp Glu
355 360 365
Phe Lys Glu Ala Leu Thr Ser Gly Asn Trp Tyr Gly His Asp Arg Ser
370 375 380
Arg Ser Thr Trp Val Ile Glu Val
385 390
<210> 129
<211> 297
<212> PRT
<213> 芽孢杆菌属MUM 116
<400> 129
Met Ser Lys Gln Leu Thr Thr Val Asn Thr Gln Ala Val Val Gly Thr
1 5 10 15
Phe Ser Gln Ala Glu Leu Asp Thr Leu Lys Gln Thr Ile Ala Lys Gly
20 25 30
Thr Thr Asn Glu Gln Phe Ala Leu Phe Val Gln Thr Cys Ala Asn Ser
35 40 45
Arg Leu Asn Pro Phe Leu Asn His Ile His Cys Ile Val Tyr Asn Gly
50 55 60
Lys Glu Gly Ala Thr Met Ser Leu Gln Ile Ala Val Glu Gly Ile Leu
65 70 75 80
Tyr Leu Ala Arg Lys Thr Asp Gly Tyr Lys Gly Ile Glu Cys Gln Leu
85 90 95
Ile His Glu Asn Asp Glu Phe Lys Phe Asp Ala Lys Ser Lys Glu Val
100 105 110
Asp His Gln Ile Gly Phe Pro Arg Gly Asn Val Ile Gly Gly Tyr Ala
115 120 125
Ile Ala Lys Arg Glu Gly Phe Asp Asp Val Val Val Leu Met Glu Ser
130 135 140
Asn Glu Val Asp His Met Leu Lys Gly Arg Asn Gly His Met Trp Arg
145 150 155 160
Asp Trp Phe Asn Asp Met Phe Lys Lys His Ile Met Lys Arg Ala Ala
165 170 175
Lys Leu Gln Tyr Gly Ile Glu Ile Ala Glu Asp Glu Thr Val Ser Ser
180 185 190
Gly Pro Ser Val Asp Asn Ile Pro Glu Tyr Lys Pro Gln Pro Arg Lys
195 200 205
Asp Ile Thr Pro Asn Gln Asp Val Ile Asp Ala Pro Pro Gln Gln Pro
210 215 220
Lys Gln Asp Asp Glu Ala Ala Lys Leu Lys Ala Ala Arg Ser Glu Val
225 230 235 240
Ser Lys Lys Phe Lys Lys Leu Gly Ile Val Lys Glu Asp Gln Thr Glu
245 250 255
Tyr Val Glu Lys His Val Pro Gly Phe Lys Gly Thr Leu Ser Asp Phe
260 265 270
Ile Gly Leu Ser Gln Leu Leu Asp Leu Asn Ile Glu Ala Gln Glu Ala
275 280 285
Gln Ser Ala Asp Gly Asp Leu Leu Asp
290 295
<210> 130
<211> 442
<212> PRT
<213> 芽孢杆菌属MUM 116
<400> 130
Met Thr Tyr Ala Ala Asp Glu Thr Leu Val Gln Leu Leu Leu Ser Val
1 5 10 15
Asp Gly Lys Gln Leu Leu Leu Gly Arg Gly Leu Lys Lys Gly Lys Ala
20 25 30
Gln Tyr Tyr Ile Asn Glu Val Pro Ser Lys Ala Lys Glu Phe Glu Glu
35 40 45
Ile Arg Asp Gln Leu Phe Asp Lys Asp Leu Phe Met Ser Leu Phe Asn
50 55 60
Pro Ser Tyr Phe Phe Thr Leu His Trp Glu Lys Gln Arg Ala Met Met
65 70 75 80
Leu Lys Tyr Val Thr Ala Pro Val Ser Lys Glu Val Leu Lys Asn Leu
85 90 95
Pro Glu Ala Gln Ser Glu Val Leu Glu Arg Tyr Leu Lys Lys His Ser
100 105 110
Leu Val Asp Leu Glu Lys Ile His Lys Asp Asn Lys Asn Lys Gln Asp
115 120 125
Lys Ala Tyr Ile Ser Ala Gln Ser Arg Thr Asn Thr Leu Lys Glu Gln
130 135 140
Leu Met Gln Leu Thr Glu Glu Lys Leu Asp Ile Asp Ser Ile Lys Ala
145 150 155 160
Glu Leu Ala His Ile Asp Met Gln Val Ile Glu Leu Glu Lys Gln Met
165 170 175
Asp Thr Ala Phe Glu Lys Asn Gln Ala Phe Asn Leu Gln Ala Gln Ile
180 185 190
Arg Asn Leu Gln Asp Lys Ile Glu Met Ser Lys Glu Arg Trp Pro Ser
195 200 205
Leu Lys Asn Glu Val Ile Glu Asp Thr Cys Arg Thr Cys Lys Arg Pro
210 215 220
Leu Asp Glu Asp Ser Val Glu Ala Val Lys Ala Asp Lys Asp Asn Arg
225 230 235 240
Ile Ala Glu Tyr Lys Ala Lys His Asn Ser Leu Val Ser Gln Arg Asn
245 250 255
Glu Leu Lys Glu Gln Leu Asn Thr Ile Glu Tyr Ile Asp Val Thr Glu
260 265 270
Leu Arg Glu Gln Ile Lys Glu Leu Asp Glu Ser Gly Gln Pro Leu Arg
275 280 285
Glu Gln Val Arg Ile Tyr Ser Gln Tyr Gln Asn Leu Asp Thr Gln Val
290 295 300
Lys Ser Ala Glu Ala Asp Glu Asn Gly Ile Leu Gln Asp Leu Lys Ala
305 310 315 320
Ser Ile Phe Ile Leu Asp Ser Ile Lys Ala Phe Arg Gly Lys Glu Ala
325 330 335
Glu Met Gln Ala Glu Lys Val Gln Ala Leu Phe Thr Thr Leu Ser Val
340 345 350
Arg Leu Phe Lys Gln Asn Lys Gly Asp Gly Glu Ile Lys Pro Asp Phe
355 360 365
Glu Ile Glu Met Asn Asp Lys Pro Tyr Arg Thr Leu Ser Leu Ser Glu
370 375 380
Gly Ile Arg Ala Gly Leu Glu Leu Arg Asp Val Leu Ser Gln Gln Ser
385 390 395 400
Glu Leu Val Thr Pro Thr Phe Val Asp Asn Ala Glu Ser Ile Thr Ser
405 410 415
Phe Lys Gln Pro Asn Gly Gln Leu Ile Ile Ser Arg Val Val Ala Gly
420 425 430
Gln Glu Leu Lys Ile Glu Ala Val Ser Glu
435 440
<210> 131
<211> 269
<212> PRT
<213> 索氏志贺菌
<400> 131
Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Glu Asn Arg Ala Pro Ala Ala Ile Lys Asn Asn Asp Val Ile Ser Phe
20 25 30
Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro Arg
35 40 45
His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg
50 55 60
Lys Val Pro Ala Leu Gly Asn Cys Asp Thr Met Ser Phe Val Ser Ala
65 70 75 80
Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly
85 90 95
His Ala Tyr Leu Leu Pro Phe Gly Asn Lys Asn Glu Lys Ser Gly Lys
100 105 110
Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala
115 120 125
Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg Glu
130 135 140
Gly Asp Glu Phe Asn Phe Glu Phe Gly Leu Asp Glu Lys Leu Ile His
145 150 155 160
Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala Val
165 170 175
Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg Arg
180 185 190
Gln Ile Glu Leu Val Arg Ser Gln Ser Lys Ala Gly Asn Asn Gly Pro
195 200 205
Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg Arg
210 215 220
Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val Ser
225 230 235 240
Met Asp Glu Lys Glu Pro Leu Thr Ile Asp Pro Ala Asp Ser Ser Val
245 250 255
Leu Thr Gly Glu Tyr Ser Val Ile Asp Asn Ser Glu Glu
260 265
<210> 132
<211> 648
<212> PRT
<213> 索氏志贺菌
<400> 132
Asp Arg Gly Leu Leu Thr Lys Glu Trp Arg Lys Gly Asn Arg Val Ser
1 5 10 15
Arg Ile Thr Arg Thr Ala Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu
20 25 30
Thr Asp Arg Gly Glu Gly Phe Val His Asp Leu Thr Ser Leu Ala Arg
35 40 45
Asp Ile Ala Thr Gly Val Leu Ala Arg Ser Met Asp Val Asp Ile Tyr
50 55 60
Asn Leu His Pro Ala His Ala Lys Arg Ile Glu Glu Ile Ile Ala Glu
65 70 75 80
Asn Lys Pro Pro Phe Ser Val Phe Arg Asp Lys Phe Ile Thr Met Pro
85 90 95
Gly Gly Leu Asp Tyr Ser Arg Ala Ile Val Val Ala Ser Val Lys Glu
100 105 110
Ala Pro Ile Gly Ile Glu Val Ile Pro Ala His Val Thr Ala Tyr Leu
115 120 125
Asn Lys Val Leu Thr Glu Thr Asp His Ala Asn Pro Asp Pro Glu Ile
130 135 140
Val Asp Ile Ala Cys Gly Arg Ser Ser Ala Pro Met Pro Gln Arg Val
145 150 155 160
Thr Glu Glu Gly Lys Gln Asp Asp Glu Glu Lys Leu Gln Pro Ser Gly
165 170 175
Thr Thr Ala Asp Glu Gln Gly Glu Ala Glu Thr Met Glu Pro Asp Ala
180 185 190
Thr Lys His His Gln Asp Thr Gln Pro Leu Asp Ala Gln Ser Gln Val
195 200 205
Asn Ser Val Asp Ala Lys Tyr Gln Glu Leu Arg Ala Glu Leu His Glu
210 215 220
Ala Arg Lys Asn Ile Pro Ser Lys Asn Pro Val Asp Ala Asp Lys Leu
225 230 235 240
Leu Ala Ala Ser Arg Gly Glu Phe Val Asp Gly Ile Ser Asp Pro Asn
245 250 255
Asp Pro Lys Trp Val Lys Gly Ile Gln Thr Arg Asp Ser Val Tyr Gln
260 265 270
Asn Gln Pro Glu Thr Glu Lys Thr Ser Pro Asp Met Lys Gln Pro Glu
275 280 285
Pro Val Val Gln Gln Glu Pro Glu Ile Ala Phe Asn Ala Cys Gly Gln
290 295 300
Thr Gly Gly Asp Asn Cys Pro Asp Cys Gly Ala Val Met Gly Asp Ala
305 310 315 320
Thr Tyr Gln Glu Thr Phe Asp Glu Glu Asn Gln Val Glu Ala Lys Glu
325 330 335
Asn Asp Pro Glu Glu Met Glu Gly Ala Glu His Pro His Asn Glu Asn
340 345 350
Ala Gly Ser Asp Pro His Arg Asp Cys Ser Asp Glu Thr Gly Glu Val
355 360 365
Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly
370 375 380
Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln
385 390 395 400
Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn
405 410 415
Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala
420 425 430
Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile
435 440 445
Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu
450 455 460
Lys Ala Phe Leu Met Glu Cys Ala Ser Thr Gly Lys Met Val Ile Thr
465 470 475 480
Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala
485 490 495
Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser
500 505 510
Ser Ile Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg
515 520 525
Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr
530 535 540
Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr
545 550 555 560
His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly
565 570 575
Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Ile Glu Cys
580 585 590
Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu
595 600 605
Ala Gly Gln Leu Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys
610 615 620
Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg
625 630 635 640
Trp Ala Lys Glu Tyr Ala Asn Asp
645
<210> 133
<211> 277
<212> PRT
<213> 肠道沙门氏菌
<400> 133
Met Thr Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gly Asn Arg Ala Pro Ala Ala Val Asn Asp Lys Asp Val Leu Cys Val
20 25 30
Ile Asn Ser Pro Ala Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Arg
35 40 45
His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile Arg
50 55 60
Lys Val Pro Glu Leu Arg Asn Cys Asp Ser Thr Ser Phe Ile Gly Ala
65 70 75 80
Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Ser Ala Leu Gly
85 90 95
His Ala Tyr Leu Leu Pro Phe Gly Asn Gly Lys Ala Lys Asn Gly Lys
100 105 110
Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala
115 120 125
Arg Arg Ser Gly Gln Ile Ile Ser Leu Ser Ala Arg Val Val Arg Glu
130 135 140
Cys Asp Glu Phe Ser Tyr Glu Leu Gly Leu Asp Glu Lys Leu Val His
145 150 155 160
Arg Pro Gly Glu Asn Glu Asp Ala Pro Ile Thr His Val Tyr Ala Val
165 170 175
Ala Lys Leu Lys Asp Gly Gly Val Gln Phe Glu Val Met Thr Lys Lys
180 185 190
Gln Val Glu Lys Val Arg Asp Thr His Ser Lys Ala Ala Lys Asn Ala
195 200 205
Ala Ser Lys Gly Ala Ser Ser Ile Trp Asp Glu His Phe Glu Asp Met
210 215 220
Ala Lys Lys Thr Val Ile Arg Lys Leu Phe Lys Tyr Leu Pro Val Ser
225 230 235 240
Ile Glu Ile Gln Arg Ala Val Ser Met Asp Gly Lys Glu Val Glu Thr
245 250 255
Ile Asn Pro Asp Asp Ile Ser Val Ile Ala Gly Glu Tyr Ser Val Ile
260 265 270
Asp Asn Pro Glu Glu
275
<210> 134
<211> 648
<212> PRT
<213> 肠道沙门氏菌
<400> 134
Asp Arg Gly Leu Leu Thr Lys Glu Trp Arg Lys Gly Asn Arg Val Ser
1 5 10 15
Arg Ile Thr Arg Thr Ala Ser Gly Ala Asn Ala Gly Gly Gly Asn Leu
20 25 30
Thr Asp Arg Gly Glu Gly Phe Val His Asp Leu Thr Ser Leu Ala Arg
35 40 45
Asp Val Ala Thr Gly Val Leu Ala Arg Ser Met Asp Val Asp Ile Tyr
50 55 60
Asn Leu His Pro Ala His Ala Lys Arg Val Glu Glu Ile Ile Ala Glu
65 70 75 80
Asn Lys Pro Pro Phe Ser Val Phe Arg Asp Lys Phe Ile Thr Met Pro
85 90 95
Gly Gly Leu Asp Tyr Ser Arg Ala Ile Val Val Ala Ser Val Lys Glu
100 105 110
Ala Pro Ile Gly Ile Glu Val Ile Pro Ala His Val Thr Glu Tyr Leu
115 120 125
Asn Lys Val Leu Thr Glu Thr Asp His Ala Asn Pro Asp Pro Glu Ile
130 135 140
Val Asp Ile Ala Cys Gly Arg Ser Ser Ala Pro Met Pro Gln Arg Val
145 150 155 160
Thr Glu Glu Gly Lys Gln Asp Asp Glu Glu Lys Pro Gln Pro Ser Gly
165 170 175
Ala Met Ala Asp Glu Gln Ala Thr Ala Glu Thr Val Glu Pro Asn Ala
180 185 190
Thr Glu His His Gln Asn Thr Gln Pro Leu Asp Ala Gln Ser Gln Val
195 200 205
Asn Ser Val Asp Ala Lys Tyr Gln Glu Leu Arg Ala Glu Leu Gln Glu
210 215 220
Ala Arg Lys Asn Ile Pro Ser Lys Asn Pro Val Asp Ala Asp Lys Leu
225 230 235 240
Leu Ala Ala Ser Arg Gly Glu Phe Val Asp Gly Ile Ser Asp Pro Asn
245 250 255
Asp Pro Lys Trp Val Lys Gly Ile Gln Thr Arg Asp Ser Val Tyr Gln
260 265 270
Asn Gln Pro Glu Thr Glu Lys Ile Ser Pro Asp Ala Lys Gln Pro Glu
275 280 285
Pro Val Val Gln Gln Glu Pro Glu Thr Val Cys Asn Ala Cys Gly Gln
290 295 300
Thr Gly Gly Asp Asn Cys Pro Asp Cys Gly Ala Val Met Gly Asp Ala
305 310 315 320
Thr Tyr Gln Glu Thr Phe Gly Glu Glu Asn Gln Val Glu Ala Lys Glu
325 330 335
Lys Asp Pro Glu Glu Met Glu Gly Ala Glu His Pro His Asn Glu Asn
340 345 350
Ala Gly Ser Asp Pro His Arg Asp Cys Ser Asp Glu Thr Gly Glu Val
355 360 365
Ala Asp Pro Val Ile Val Glu Asp Ile Glu Pro Gly Ile Tyr Tyr Gly
370 375 380
Ile Ser Asn Glu Asn Tyr His Ala Gly Pro Gly Val Ser Lys Ser Gln
385 390 395 400
Leu Asp Asp Ile Ala Asp Thr Pro Ala Leu Tyr Leu Trp Arg Lys Asn
405 410 415
Ala Pro Val Asp Thr Thr Lys Thr Lys Thr Leu Asp Leu Gly Thr Ala
420 425 430
Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser Asn Arg Phe Ile
435 440 445
Val Ala Pro Glu Phe Asn Arg Arg Thr Asn Ala Gly Lys Glu Glu Glu
450 455 460
Lys Ala Phe Leu Met Glu Cys Ala Ser Thr Gly Lys Thr Val Ile Thr
465 470 475 480
Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln Ser Val Met Ala
485 490 495
Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly His Ala Glu Ser
500 505 510
Ser Ile Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu Cys Arg Cys Arg
515 520 525
Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met Asp Val Lys Thr
530 535 540
Thr Ala Asp Ile Gln Arg Phe Lys Thr Ala Tyr Tyr Asp Tyr Arg Tyr
545 550 555 560
His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Glu Ala Gln Phe Gly
565 570 575
Val Gln Pro Thr Phe Val Phe Leu Val Ala Ser Thr Thr Val Glu Cys
580 585 590
Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu Glu Ala Lys Leu
595 600 605
Ala Gly Gln Gln Glu Tyr His Arg Asn Leu Arg Thr Leu Ala Asp Cys
610 615 620
Leu Asn Thr Asp Glu Trp Pro Ala Ile Lys Thr Leu Ser Leu Pro Arg
625 630 635 640
Trp Ala Lys Glu Tyr Ala Asn Asp
645
<210> 135
<211> 332
<212> PRT
<213> 醋酸杆菌属
<400> 135
Met Asn Ala Pro Gln Lys Gln Asn Thr Arg Ala Ala Val Lys Lys Ile
1 5 10 15
Ser Pro Gln Glu Phe Ala Glu Gln Phe Ala Ala Ile Ile Pro Gln Val
20 25 30
Lys Ser Val Leu Pro Ala His Val Thr Phe Glu Lys Phe Glu Arg Val
35 40 45
Val Arg Leu Ala Val Arg Lys Asn Pro Asp Leu Leu Thr Cys Ser Pro
50 55 60
Ala Ser Leu Phe Met Ala Cys Ile Gln Ala Ala Ser Asp Gly Leu Leu
65 70 75 80
Pro Asp Gly Arg Glu Gly Ala Ile Val Ser Arg Trp Ser Ser Lys Lys
85 90 95
Ser Cys Asn Glu Ala Ser Trp Met Pro Met Val Ala Gly Leu Met Lys
100 105 110
Leu Ala Arg Asn Ser Gly Asp Ile Ala Ser Ile Ser Ser Gln Val Val
115 120 125
Phe Glu Gly Glu His Phe Arg Val Val Leu Gly Asp Glu Glu Arg Ile
130 135 140
Glu His Glu Arg Asp Leu Gly Lys Thr Gly Gly Lys Ile Val Ala Ala
145 150 155 160
Tyr Ala Val Ala Arg Leu Lys Asp Gly Ser Asp Pro Ile Arg Glu Ile
165 170 175
Met Ser Trp Gly Gln Ile Glu Lys Ile Arg Asn Thr Asn Lys Lys Trp
180 185 190
Glu Trp Gly Pro Trp Lys Ala Trp Glu Asp Glu Met Ala Arg Lys Thr
195 200 205
Val Ile Arg Arg Leu Ala Lys Arg Leu Pro Met Ser Thr Asp Lys Glu
210 215 220
Gly Glu Arg Leu Arg Ser Ala Ile Glu Arg Ile Asp Ser Leu Val Asp
225 230 235 240
Ile Ser Ala Asn Val Asp Ala Pro Gln Ile Ala Ala Asp Asp Glu Phe
245 250 255
Ala Ala Ala Ala His Gly Val Glu Pro Gln Gln Ile Ala Ala Pro Asp
260 265 270
Leu Ile Gly Arg Leu Ala Gln Met Gln Ser Leu Glu Gln Val Gln Asp
275 280 285
Ile Glu Pro Gln Val Ser His Ala Ile Gln Glu Ala Asp Lys Arg Gly
290 295 300
Asp Ser Asp Thr Ala Asn Ala Leu Asp Ala Ala Leu Gln Ser Ala Leu
305 310 315 320
Ser Arg Thr Ser Thr Ala Lys Glu Glu Val Pro Ala
325 330
<210> 136
<211> 300
<212> PRT
<213> 醋酸杆菌属
<400> 136
Met Val Ile Ser Lys Ser Gly Ile Tyr Asp Leu Thr Asn Glu Gln Tyr
1 5 10 15
His Ala Asp Pro Cys Pro Glu Met Ser Leu Ser Ser Ser Gly Ala Arg
20 25 30
Asp Leu Leu Ser Ser Cys Pro Ala Lys Phe Ile Ala Ala Lys Gln Leu
35 40 45
Pro Gln Gln Asn Lys Arg Cys Phe Asp Ile Gly Ser Ala Gly His Leu
50 55 60
Met Val Leu Glu Pro His Leu Phe Asp Gln Lys Val Cys Glu Ile Lys
65 70 75 80
His Pro Asp Trp Arg Thr Lys Ala Ala Lys Glu Glu Arg Asp Ala Ala
85 90 95
Tyr Ala Glu Gly Arg Ile Pro Leu Leu Ser Arg Glu Val Glu Asp Ile
100 105 110
Arg Ala Met His Ser Val Val Trp Arg Asp Ser Leu Gly Ala Arg Ala
115 120 125
Phe Ser Gly Gly Lys Ala Glu Gln Ser Leu Val Trp Arg Asp Glu Glu
130 135 140
Phe Gly Ile Trp Cys Arg Leu Arg Pro Asp Tyr Val Pro Asn Asn Ala
145 150 155 160
Val Arg Ile Phe Asp Tyr Lys Thr Ala Thr Asn Gly Ser Pro Asp Ala
165 170 175
Phe Met Lys Glu Ile Tyr Asn Arg Gly Tyr His Gln Gln Ala Ala Trp
180 185 190
Tyr Leu Asp Gly Tyr Glu Ala Val Thr Gly His Arg Pro Arg Glu Phe
195 200 205
Trp Phe Val Val Gln Glu Lys Thr Ala Pro Phe Leu Leu Ser Phe Phe
210 215 220
Gln Met Asp Glu Met Ser Leu Glu Ile Gly Arg Thr Leu Asn Arg Gln
225 230 235 240
Ala Lys Gly Ile Phe Ala Trp Cys Leu Arg Asn Asn Cys Trp Pro Gly
245 250 255
Tyr Gln Pro Glu Val Asp Gly Lys Val Arg Phe Phe Thr Thr Ser Pro
260 265 270
Pro Ala Trp Leu Val Arg Glu Tyr Glu Phe Lys Asn Glu His Gly Ala
275 280 285
Tyr Glu Pro Pro Glu Ile Lys Arg Lys Glu Val Ala
290 295 300
<210> 137
<211> 276
<212> PRT
<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721
<400> 137
Met Pro Lys Gln Pro Pro Ile Ala Lys Ala Asp Leu Gln Lys Thr Gln
1 5 10 15
Gly Ala Arg Thr Pro Thr Ala Val Lys Asn Asn Asn Asp Val Ile Ser
20 25 30
Phe Ile Asn Gln Pro Ser Met Lys Glu Gln Leu Ala Ala Ala Leu Pro
35 40 45
Arg His Met Thr Ala Glu Arg Met Ile Arg Ile Ala Thr Thr Glu Ile
50 55 60
Arg Lys Val Pro Ala Leu Gly Asp Cys Asp Thr Met Ser Phe Val Ser
65 70 75 80
Ala Ile Val Gln Cys Ser Gln Leu Gly Leu Glu Pro Gly Gly Ala Leu
85 90 95
Gly His Ala Tyr Leu Leu Pro Phe Gly Asn Arg Asn Glu Lys Ser Gly
100 105 110
Lys Lys Asn Val Gln Leu Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu
115 120 125
Ala Arg Arg Ser Gly Gln Ile Ala Ser Leu Ser Ala Arg Val Val Arg
130 135 140
Glu Gly Asp Asp Phe Ser Phe Glu Phe Gly Leu Glu Glu Lys Leu Val
145 150 155 160
His Arg Pro Gly Glu Asn Glu Asp Ala Pro Val Thr His Val Tyr Ala
165 170 175
Val Ala Arg Leu Lys Asp Gly Gly Thr Gln Phe Glu Val Met Thr Arg
180 185 190
Lys Gln Ile Glu Leu Val Arg Ala Gln Ser Lys Ala Gly Asn Asn Gly
195 200 205
Pro Trp Val Thr His Trp Glu Glu Met Ala Lys Lys Thr Ala Ile Arg
210 215 220
Arg Leu Phe Lys Tyr Leu Pro Val Ser Ile Glu Ile Gln Arg Ala Val
225 230 235 240
Ser Met Asp Glu Lys Glu Thr Leu Thr Ile Asp Pro Ala Asp Ala Ser
245 250 255
Val Ile Thr Gly Glu Tyr Ser Val Val Glu Asn Ala Gly Val Glu Glu
260 265 270
Asn Val Thr Ala
275
<210> 138
<211> 268
<212> PRT
<213> 肠道沙门氏菌 subsp. enterica serovar Javiana str. 10721
<400> 138
Met Tyr Tyr Asp Ile Pro Asn Glu Ala Tyr His Ala Gly Pro Gly Val
1 5 10 15
Ser Lys Ser Gln Leu Asp Asp Ile Ala Asp Thr Pro Ala Ile Tyr Leu
20 25 30
Trp Arg Lys Asn Ala Pro Val Asp Thr Glu Lys Thr Lys Ser Leu Asp
35 40 45
Thr Gly Thr Ala Phe His Cys Arg Val Leu Glu Pro Glu Glu Phe Ser
50 55 60
Lys Arg Phe Ile Ile Ala Pro Glu Phe Asn Arg Arg Thr Ser Ala Gly
65 70 75 80
Lys Glu Glu Glu Lys Thr Phe Leu Glu Glu Cys Thr Arg Thr Gly Arg
85 90 95
Thr Val Leu Thr Ala Glu Glu Gly Arg Lys Ile Glu Leu Met Tyr Gln
100 105 110
Ser Val Met Ala Leu Pro Leu Gly Gln Trp Leu Val Glu Ser Ala Gly
115 120 125
Tyr Ala Glu Ser Ser Val Tyr Trp Glu Asp Pro Glu Thr Gly Ile Leu
130 135 140
Cys Arg Cys Arg Pro Asp Lys Ile Ile Pro Glu Phe His Trp Ile Met
145 150 155 160
Asp Val Lys Thr Thr Ala Asp Ile Gln Arg Phe Arg Thr Ala Tyr Tyr
165 170 175
Asp Tyr Arg Tyr His Val Gln Asp Ala Phe Tyr Ser Asp Gly Tyr Arg
180 185 190
Ala Gln Phe Gly Glu Ile Pro Thr Phe Val Phe Leu Val Ala Ser Thr
195 200 205
Thr Ala Glu Cys Gly Arg Tyr Pro Val Glu Ile Phe Met Met Gly Glu
210 215 220
Asp Ala Lys Leu Ala Gly Gln Arg Glu Tyr Arg Arg Asn Leu Gln Thr
225 230 235 240
Leu Ala Glu Cys Leu Asn Asn Asp Glu Trp Pro Ala Ile Lys Thr Leu
245 250 255
Ser Leu Pro Arg Trp Ala Lys Glu Asn Ala Asn Ala
260 265
<210> 139
<211> 242
<212> PRT
<213> Pseudobacteriovorax antillogorgiicola
<400> 139
Met Gly His Leu Val Ser Lys Thr Glu Gln Asp Tyr Ile Lys Gln His
1 5 10 15
Tyr Ala Lys Gly Ala Thr Asp Gln Glu Phe Glu His Phe Ile Gly Val
20 25 30
Cys Arg Ala Arg Gly Leu Asn Pro Ala Ala Asn Gln Ile Tyr Phe Val
35 40 45
Lys Tyr Arg Ser Lys Asp Gly Pro Ala Lys Pro Ala Phe Ile Leu Ser
50 55 60
Ile Asp Ser Leu Arg Leu Ile Ala His Arg Thr Gly Asp Tyr Ala Gly
65 70 75 80
Cys Ser Glu Pro Ile Phe Thr Asp Gly Gly Lys Ala Cys Thr Val Thr
85 90 95
Val Arg Arg Asn Leu Lys Ser Gly Glu Thr Gly Asn Phe Ser Gly Met
100 105 110
Ala Phe Tyr Asp Glu Gln Val Gln Gln Lys Asn Gly Arg Pro Thr Ser
115 120 125
Phe Trp Gln Ser Lys Pro Arg Thr Met Leu Glu Lys Cys Ala Glu Ala
130 135 140
Lys Ala Leu Arg Lys Ala Phe Pro Gln Asp Leu Gly Gln Phe Tyr Ile
145 150 155 160
Arg Glu Glu Met Pro Pro Gln Tyr Asp Glu Pro Ile Gln Val His Lys
165 170 175
Pro Lys Ala Leu Glu Glu Pro Arg Phe Ser Lys Ser Asp Leu Ser Arg
180 185 190
Arg Lys Gly Leu Asn Arg Lys Leu Ser Ala Leu Gly Val Asp Pro Ser
195 200 205
Arg Phe Asp Glu Val Ala Thr Phe Leu Asp Gly Thr Pro Asp Arg Glu
210 215 220
Leu Gly Gln Lys Leu Lys Leu Trp Leu Lys Glu Ala Gly Tyr Gly Val
225 230 235 240
Asn Gln
<210> 140
<211> 300
<212> PRT
<213> Pseudobacteriovorax antillogorgiicola
<400> 140
Met Ser Lys Leu Ser Asn Leu Lys Val Ser Asn Ser Asp Val Asp Thr
1 5 10 15
Leu Ser Arg Ile Arg Met Lys Glu Gly Val Tyr Arg Asp Leu Pro Ile
20 25 30
Glu Ser Tyr His Gln Ser Pro Gly Tyr Ser Lys Thr Ser Leu Cys Gln
35 40 45
Ile Asp Lys Ala Pro Ile Tyr Leu Lys Thr Lys Val Pro Gln Lys Ser
50 55 60
Thr Lys Ser Leu Asn Ile Gly Thr Ala Phe His Glu Ala Met Glu Gly
65 70 75 80
Val Phe Lys Asp Lys Tyr Val Val His Pro Asp Pro Gly Val Asn Lys
85 90 95
Thr Thr Lys Ser Trp Lys Asp Phe Val Lys Arg Tyr Pro Lys His Met
100 105 110
Pro Leu Lys Arg Ser Glu Tyr Asp Gln Val Leu Ala Met Tyr Asp Ala
115 120 125
Ala Arg Ser Tyr Arg Pro Phe Gln Lys Tyr His Leu Ser Arg Gly Phe
130 135 140
Tyr Glu Ser Ser Phe Tyr Trp His Asp Ala Val Thr Asn Ser Leu Ile
145 150 155 160
Lys Cys Arg Pro Asp Tyr Ile Thr Pro Asp Gly Met Ser Val Ile Asp
165 170 175
Phe Lys Thr Thr Val Asp Pro Ser Pro Lys Gly Phe Gln Tyr Gln Ala
180 185 190
Tyr Lys Tyr His Tyr Tyr Val Ser Ala Ala Leu Thr Leu Glu Gly Ile
195 200 205
Glu Ala Val Thr Gly Ile Arg Pro Lys Glu Tyr Leu Phe Leu Ala Val
210 215 220
Ser Asn Ser Ala Pro Tyr Leu Thr Ala Leu Tyr Arg Ala Ser Glu Lys
225 230 235 240
Glu Ile Ala Leu Gly Asp His Phe Ile Arg Arg Ser Leu Leu Thr Leu
245 250 255
Lys Thr Cys Leu Glu Ser Gly Lys Trp Pro Gly Leu Gln Glu Glu Ile
260 265 270
Leu Glu Leu Gly Leu Pro Phe Ser Gly Leu Lys Glu Leu Arg Glu Glu
275 280 285
Gln Glu Val Glu Asp Glu Phe Met Glu Leu Val Gly
290 295 300
<210> 141
<211> 224
<212> PRT
<213> 发光杆菌属JCM 19050
<400> 141
Met Asn Thr Asp Met Ile Ala Met Pro Pro Ser Pro Ala Ile Ser Met
1 5 10 15
Leu Asp Thr Ser Lys Leu Asp Val Met Val Arg Ala Ala Glu Leu Met
20 25 30
Ser Gln Ala Val Val Met Val Pro Asp His Phe Lys Gly Lys Pro Ala
35 40 45
Asp Cys Leu Ala Val Val Met Gln Ala Asp Gln Trp Gly Met Asn Pro
50 55 60
Phe Thr Val Ala Gln Lys Thr His Leu Val Ser Gly Thr Leu Gly Tyr
65 70 75 80
Glu Ser Gln Leu Val Asn Ala Val Ile Ser Ser Ser Lys Ala Ile Lys
85 90 95
Gly Arg Phe His Tyr Glu Trp Ser Asp Gly Trp Glu Arg Leu Ala Gly
100 105 110
Lys Val Gln Tyr Val Lys Glu Ser Arg Gln Arg Lys Gly Gln Gln Gly
115 120 125
Ser Tyr Gln Val Thr Val Ala Lys Pro Thr Trp Lys Pro Glu Asp Glu
130 135 140
Gln Gly Leu Trp Val Arg Cys Gly Ala Val Leu Ala Gly Glu Lys Asp
145 150 155 160
Ile Thr Trp Gly Pro Lys Leu Tyr Leu Ala Ser Val Leu Val Arg Asn
165 170 175
Ser Glu Leu Trp Thr Thr Lys Pro Tyr Gln Gln Ala Ala Tyr Thr Ala
180 185 190
Leu Lys Asp Trp Ser Arg Leu Tyr Thr Pro Ala Val Met Gln Gly Ser
195 200 205
Met Thr Gly Lys Ser Trp Ser Leu Thr Gly Arg Leu Ile Ser Pro Arg
210 215 220
<210> 142
<211> 222
<212> PRT
<213> 发光杆菌属JCM 19050
<400> 142
Met Ala Glu Arg Val Arg Thr Tyr Gln Arg Asp Ala Val Phe Ala His
1 5 10 15
Glu Leu Lys Ala Glu Phe Asp Glu Ala Val Glu Asn Gly Lys Thr Gly
20 25 30
Val Thr Leu Glu Asp Gln Ala Arg Ala Lys Arg Met Val His Glu Ala
35 40 45
Thr Thr Asn Pro Ala Ser Arg Asn Trp Phe Arg Tyr Asp Gly Glu Leu
50 55 60
Ala Ala Cys Glu Arg Ser Tyr Phe Trp Arg Asp Glu Glu Ala Gly Leu
65 70 75 80
Val Leu Lys Ala Arg Pro Asp Lys Glu Ile Gly Asn Asn Leu Ile Asp
85 90 95
Val Lys Ser Ile Glu Val Pro Thr Asp Val Cys Ala Cys Asp Leu Asn
100 105 110
Ala Tyr Ile Asn Arg Gln Ile Glu Lys Arg Gly Tyr His Ile Ser Ala
115 120 125
Ala His Tyr Leu Ser Gly Thr Gly Lys Asp Arg Phe Phe Trp Ile Phe
130 135 140
Ile Asn Lys Val Lys Gly Tyr Glu Trp Val Ala Ile Val Glu Ala Ser
145 150 155 160
Pro Leu His Ile Glu Leu Gly Thr Tyr Glu Val Leu Glu Gly Leu Arg
165 170 175
Ser Ile Ala Ser Ser Thr Lys Glu Ala Asp Tyr Pro Ala Pro Leu Ser
180 185 190
His Pro Val Asn Glu Arg Gly Ile Pro Gln Pro Leu Met Ser Asn Leu
195 200 205
Ser Thr Tyr Ala Met Lys Arg Leu Glu Gln Phe Arg Glu Leu
210 215 220
<210> 143
<211> 232
<212> PRT
<213> 产碱普罗威登斯菌DSM 30120
<400> 143
Met Lys Ala Gln Leu Ala Ala Ala Leu Pro Lys His Ile Thr Ser Asp
1 5 10 15
Arg Met Ile Arg Ile Val Ser Thr Glu Ile Arg Lys Thr Pro Ser Leu
20 25 30
Ala Asn Cys Asp Ile Gln Ser Phe Ile Gly Ala Val Val Gln Cys Ser
35 40 45
Gln Leu Gly Leu Glu Pro Gly Asn Ala Leu Gly His Ala Tyr Leu Leu
50 55 60
Pro Phe Gly Asn Gly Lys Ser Asp Asn Gly Lys Ser Asn Val Gln Leu
65 70 75 80
Ile Ile Gly Tyr Arg Gly Met Ile Asp Leu Ala Arg Arg Ser Gly Gln
85 90 95
Ile Ile Ser Ile Ser Ala Arg Thr Val Arg Gln Gly Asp Asn Phe His
100 105 110
Phe Glu Tyr Gly Leu Asn Glu Asn Leu Thr His Ile Pro Glu Gly Asn
115 120 125
Glu Asp Ser Pro Ile Thr His Val Tyr Ala Val Ala Arg Leu Lys Asp
130 135 140
Glu Gly Val Gln Phe Glu Val Met Thr Tyr Asn Gln Ile Glu Lys Val
145 150 155 160
Arg Asp Ser Ser Lys Ala Gly Lys Asn Gly Pro Trp Val Thr His Trp
165 170 175
Glu Glu Met Ala Lys Lys Thr Val Ile Arg Arg Leu Phe Lys Tyr Leu
180 185 190
Pro Val Ser Ile Glu Met Gln Lys Ala Val Ile Leu Asp Glu Lys Ala
195 200 205
Glu Ala Asn Ile Glu Gln Asp His Ser Ala Ile Phe Glu Ala Glu Phe
210 215 220
Glu Glu Val Asp Ser Asn Gly Asn
225 230
<210> 144
<211> 277
<212> PRT
<213> 产碱普罗威登斯菌DSM 30120
<400> 144
Met Asn Glu Gly Ile Tyr Tyr Asp Ile Ser Asn Glu Asp Tyr His His
1 5 10 15
Gly Leu Gly Ile Ser Lys Ser Gln Leu Asp Leu Ile Asp Glu Ser Pro
20 25 30
Ala Asp Phe Ile Trp His Arg Asp Ala Pro Val Asp Asn Glu Lys Thr
35 40 45
Lys Ala Leu Asp Phe Gly Thr Ala Leu His Cys Leu Leu Leu Glu Pro
50 55 60
Asp Glu Phe Gln Lys Arg Phe Arg Ile Ala Pro Glu Val Asn Arg Arg
65 70 75 80
Thr Asn Ala Gly Lys Glu Gln Glu Lys Glu Phe Leu Glu Met Cys Glu
85 90 95
Lys Glu Asn Ile Thr Pro Ile Thr Asn Glu Asp Asn Arg Lys Leu Ser
100 105 110
Leu Met Lys Asp Ser Ala Met Ala His Pro Ile Ala Arg Trp Cys Leu
115 120 125
Glu Ala Lys Gly Ile Ala Glu Ser Ser Ile Tyr Trp Lys Asp Lys Asp
130 135 140
Thr Asp Ile Leu Cys Arg Cys Arg Pro Asp Lys Leu Ile Glu Glu His
145 150 155 160
His Trp Leu Val Asp Val Lys Ser Thr Ala Asp Ile Gln Lys Phe Glu
165 170 175
Arg Ser Met Tyr Glu Tyr Arg Tyr His Val Gln Asp Ser Phe Tyr Ser
180 185 190
Asp Gly Tyr Lys Ser Leu Thr Gly Glu Met Pro Val Phe Val Phe Leu
195 200 205
Ala Val Ser Thr Val Ile Asn Cys Gly Arg Tyr Pro Val Arg Val Phe
210 215 220
Val Leu Asp Glu Gln Ala Lys Ser Val Gly Arg Ile Thr Tyr Lys Gln
225 230 235 240
Asn Leu Phe Thr Tyr Ala Glu Cys Leu Lys Thr Asp Glu Trp Ala Gly
245 250 255
Ile Arg Thr Leu Ser Leu Pro Ser Trp Ala Lys Glu Leu Lys His Glu
260 265 270
His Thr Thr Ala Ser
275
<210> 145
<211> 26
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 145
aacaugagga ucacccaugu cugcag 26
<210> 146
<211> 26
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 146
agcaugagga ucacccaugu cugcag 26
<210> 147
<211> 26
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 147
agcgugagga ucacccaugc cugcag 26
<210> 148
<211> 37
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 148
Ser Ala Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro
1 5 10 15
Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly
20 25 30
Gly Ser Gly Gly Ser
35
<210> 149
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 149
Gly Asn Ala Arg Thr Arg Arg Arg Glu Arg Arg Ala Glu Lys Gln Ala
1 5 10 15
Gln Trp Lys Ala Ala Asn
20
<210> 150
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 150
gcccugaaaa agggc 15
<210> 151
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 151
gcccugaaga agggc 15
<210> 152
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 152
gcgcugaaaa agcgc 15
<210> 153
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 153
gcccugacaa agggc 15
<210> 154
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 154
gcgcugacaa agcgc 15
<210> 155
<211> 21
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 155
Gly Asn Ala Lys Thr Arg Arg His Glu Arg Arg Arg Lys Leu Ala Ile
1 5 10 15
Glu Arg Asp Thr Ile
20
<210> 156
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 156
gcgcugacaa agcgc 15
<210> 157
<211> 15
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 157
ccgccgacaa cgcgg 15
<210> 158
<211> 17
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 158
ugcgcugaca aagcgcg 17
<210> 159
<211> 17
<212> RNA
<213> 人工序列
<220>
<223> 合成的
<400> 159
accgccgaca acgcggu 17
<210> 160
<211> 200
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 160
caccttcaga ttttcctgta acgatcggga actggcatct tcagggagta gctgacctct 60
tctcttcctc ccacaggatc ctggagccac ccgcagttcg aaaagctcag tgaagagaag 120
aacaaaaagc agcatattac agttagttgt cttcatcaat ctttaaatat gttgtgtggt 180
ttttctctcc ctgtttccac 200
<210> 161
<211> 200
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 161
gtggaaacag ggagagaaaa accacacaac atatttaaag attgatgaag acaactaact 60
gtaatatgct gctttttgtt cttctcttca ctgagctttt cgaactgcgg gtggctccag 120
gatcctgtgg gaggaagaga agaggtcagc tactccctga agatgccagt tcccgatcgt 180
tacaggaaaa tctgaaggtg 200
<210> 162
<211> 121
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 162
actttgagtg tagcagagag gaaccattgc caccttcaga ttttcctgta acgatcggga 60
actggcatct tcagggagta gctgacctct tctcttcctc ccacaggatc ctggagccac 120
c 121
<210> 163
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 163
tccaccccac agtggggcaa gcttctgacc tcttctcttc ctcccacagg gcct 54
<210> 164
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<220>
<221> misc_feature
<222> (21)..(21)
<223> n is a, c, g, or t
<400> 164
ttgacctgca gtccagccta ngg 23
<210> 165
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<220>
<221> misc_feature
<222> (21)..(21)
<223> n is a, c, g, or t
<400> 165
ccaccgcaaa tgcttctagg ngg 23

Claims (51)

1.一种系统,包括:
Cas蛋白;
包含与靶DNA序列互补的指导RNA序列的核酸分子;和
微生物重组蛋白,
其中所述微生物重组蛋白选自由RecE、RecT、λ外切核酸酶、Bet蛋白、外切核酸酶gp6、单链DNA结合蛋白gp2.5或其衍生物或变体组成的组。
2.根据权利要求1所述的系统,还包括募集系统,所述募集系统包括。
至少一种适体序列;和
作为融合蛋白的一部分与所述微生物重组蛋白功能性连接的适体结合蛋白。
3.根据权利要求2所述的系统,其中所述至少一种适体序列是RNA适体序列或肽适体序列。
4.根据权利要求3所述的系统,其中所述核酸分子包含所述至少一种RNA适体序列。
5.根据权利要求4所述的系统,其中所述核酸分子包括两种RNA适体序列。
6.根据权利要求5所述的系统,其中所述两种RNA适体序列包含相同的序列。
7.根据权利要求2-6中任一项所述的系统,其中所述适体结合蛋白包括MS2外壳蛋白或其功能衍生物或变体。
8.根据权利要求2-6中任一项所述的系统,其中所述适体结合蛋白包括噬菌体N肽或其功能衍生物或变体。
9.根据权利要求3所述的系统,其中所述至少一种肽适体序列与所述Cas蛋白缀合。
10.根据权利要求9所述的系统,其中所述至少一种肽适体序列包括1至24个肽适体序列。
11.根据权利要求9或10所述的系统,其中所述适体序列包含相同序列。
12.根据权利要求2-3或9-11中任一项所述的系统,其中所述适体序列包括GCN4肽序列。
13.根据权利要求2-12中任一项所述的系统,其中所述微生物重组蛋白N-端连接至所述适体结合蛋白C-端。
14.根据权利要求2-13中任一项所述的系统,其中所述融合蛋白进一步包含所述微生物重组蛋白和所述适体结合蛋白之间的接头。
15.根据权利要求14所述的组合物,其中所述接头包含SEQ ID NO:15的氨基酸序列。
16.根据权利要求2-15中任一项所述的系统,其中所述融合蛋白进一步包含核定位序列。
17.根据权利要求16所述的组合物,其中所述核定位序列包含SEQ ID NO:16的氨基酸序列。
18.根据权利要求16或权利要求17所述的系统,其中所述核定位序列位于微生物重组蛋白C端。
19.根据权利要求1-18中任一项所述的系统,其中所述RecE或RecT重组蛋白来源于大肠杆菌(E.coli)。
20.根据权利要求1-19中任一项所述的系统,其中所述微生物重组蛋白包括RecE或其衍生物或变体。
21.根据权利要求1-20中任一项所述的系统,其中所述RecE或其衍生物或变体包含与选自由SEQ ID NO:1-8组成的组的氨基酸序列具有至少70%相似性的氨基酸序列。
22.根据权利要求1-21中任一项所述的系统,其中所述RecE或其衍生物或变体包含与选自由SEQ ID NO:1-3组成的组的氨基酸序列具有至少70%相似性的氨基酸序列。
23.根据权利要求1-19中任一项所述的系统,其中所述融合蛋白包括RecT或其衍生物或变体。
24.根据权利要求1-19或23中任一项所述的系统,其中所述RecT或其衍生物或变体包含与选自由SEQ ID NO:9-14组成的组的氨基酸序列具有至少70%相似性的氨基酸序列。
25.根据权利要求1-19或23-24中任一项所述的系统,其中所述RecT或其衍生物或变体包含与选自由SEQ ID NO:9组成的组的氨基酸序列具有至少70%相似性的氨基酸序列。
26.根据权利要求1-25中任一项所述的系统,其中所述Cas蛋白是催化失活的。
27.根据权利要求1-26中任一项所述的系统,其中所述Cas蛋白是Cas9或Cas12a。
28.根据权利要求27所述的系统,其中所述Cas9蛋白是野生型化脓性链球菌(Streptococcus pyogenes)Cas9或野生型金黄色葡萄球菌(Staphylococcus aureus)Cas9。
29.根据权利要求27-28中任一项所述的系统,其中所述Cas9蛋白是Cas9切口酶。
30.根据权利要求29所述的系统,其中所述Cas9-切口酶在野生型化脓性链球菌(Streptococcus pyogenes)Cas9的第10位具有氨基酸取代D10A。
31.根据权利要求1-30中任一项所述的系统,还包括供体核酸。
32.根据权利要求1-31中任一项所述的系统,其中所述靶DNA序列是宿主细胞中的基因组DNA序列。
33.一种组合物,包含:
包含编码融合蛋白的核酸序列的多核苷酸,所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白,
其中所述微生物重组蛋白是RecE、RecT、λ外切核酸酶、Bet蛋白、外切核酸酶gp6、单链DNA结合蛋白gp2.5或其衍生物或变体。
34.根据权利要求33所述的组合物,还包含以下至少一种:
包含编码Cas蛋白的核酸序列的多核苷酸;和
包含与靶DNA序列互补的指导RNA序列的核酸分子。
35.根据权利要求34所述的组合物,其中所述核酸分子还包含至少一种RNA适体序列。
36.根据权利要求34所述的组合物,其中所述包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。
37.一种包含多核苷酸的载体,所述多核苷酸包含编码融合蛋白的核酸序列,所述融合蛋白包含与适体结合蛋白功能性连接的微生物重组蛋白。
其中所述微生物重组蛋白是RecE、RecT、λ外切核酸酶、Bet蛋白、外切核酸酶gp6、单链DNA结合蛋白gp2.5或其衍生物或变体。
38.根据权利要求37所述的载体,还包含以下至少一种:
包含编码Cas蛋白的核酸序列的多核苷酸;和
包含与靶DNA序列互补的指导RNA序列的核酸分子。
39.根据权利要求38所述的载体,其中所述核酸分子还包含至少一种RNA适体序列。
40.根据权利要求38所述的载体,其中所述包含编码Cas蛋白的核酸序列的多核苷酸进一步包含编码至少一种肽适体序列的序列。
41.一种真核细胞,包含权利要求1-32中任一项所述的系统、权利要求33-36中任一项所述的组合物或权利要求37-40中任一项所述的载体。
42.一种改变细胞中靶基因组DNA序列的方法,包括将权利要求1-32中任一项所述的系统、权利要求33-36中任一项所述的组合物或权利要求37-40中任一项所述的载体引入包含靶基因组DNA序列的细胞中。
43.根据权利要求42所述的方法,其中所述细胞是哺乳动物细胞。
44.根据权利要求42或权利要求43所述的方法,其中所述细胞是人细胞。
45.根据权利要求42-44中任一项所述的方法,其中所述细胞是干细胞。
46.根据权利要求42-45中任一项所述的方法,其中所述靶基因组DNA序列编码基因产物。
47.根据权利要求42-46中任一项所述的方法,其中所述引入细胞包括给受试者施用。
48.根据权利要求47所述的方法,其中所述受试者是人。
49.根据权利要求47或48所述的方法,其中所述施用包括体内施用。
50.根据权利要求47或48所述的方法,其中所述施用包括移植包含所述系统、组合物或载体的离体处理的细胞。
51.根据权利要求1-32中任一项所述的系统、权利要求33-36中任一项所述的组合物或权利要求37-40中任一项所述的载体用于改变细胞中靶DNA序列的用途。
CN202180033011.8A 2020-03-03 2021-03-02 Rna指导的千碱基规模基因组重组工程 Pending CN115667283A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062984618P 2020-03-03 2020-03-03
US62/984,618 2020-03-03
US202163146447P 2021-02-05 2021-02-05
US63/146,447 2021-02-05
PCT/US2021/020513 WO2021178432A1 (en) 2020-03-03 2021-03-02 Rna-guided genome recombineering at kilobase scale

Publications (1)

Publication Number Publication Date
CN115667283A true CN115667283A (zh) 2023-01-31

Family

ID=77614129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180033011.8A Pending CN115667283A (zh) 2020-03-03 2021-03-02 Rna指导的千碱基规模基因组重组工程

Country Status (11)

Country Link
US (1) US20230091242A1 (zh)
EP (1) EP4114845A4 (zh)
JP (1) JP2023515670A (zh)
KR (1) KR20220151175A (zh)
CN (1) CN115667283A (zh)
AU (1) AU2021231769A1 (zh)
BR (1) BR112022017196A2 (zh)
CA (1) CA3173526A1 (zh)
IL (1) IL296057A (zh)
MX (1) MX2022010835A (zh)
WO (1) WO2021178432A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118234855A (zh) * 2021-09-01 2024-06-21 小利兰斯坦福大学董事会 Rna指导的千碱基规模基因组重组工程
WO2023154892A1 (en) * 2022-02-10 2023-08-17 Possible Medicines Llc Rna-guided genome recombineering at kilobase scale

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015298571B2 (en) * 2014-07-30 2020-09-03 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
US9944912B2 (en) * 2015-03-03 2018-04-17 The General Hospital Corporation Engineered CRISPR-Cas9 nucleases with altered PAM specificity
WO2016205759A1 (en) * 2015-06-18 2016-12-22 The Broad Institute Inc. Engineering and optimization of systems, methods, enzymes and guide scaffolds of cas9 orthologs and variants for sequence manipulation
CA3168241A1 (en) * 2015-07-15 2017-01-19 Rutgers. The State University of New Jersey Nuclease-independent targeted gene editing platform and uses thereof
WO2019089910A1 (en) * 2017-11-01 2019-05-09 Ohio State Innovation Foundation Highly compact cas9-based transcriptional regulators for in vivo gene regulation
EP3728589A4 (en) * 2017-12-22 2021-11-03 G+Flas Life Sciences CHEMICAL GENOMIC ENGINEERING MOLECULES AND PROCESSES

Also Published As

Publication number Publication date
AU2021231769A1 (en) 2022-09-29
JP2023515670A (ja) 2023-04-13
WO2021178432A9 (en) 2021-10-28
MX2022010835A (es) 2022-09-29
IL296057A (en) 2022-10-01
BR112022017196A2 (pt) 2022-10-25
CA3173526A1 (en) 2021-09-10
EP4114845A4 (en) 2024-03-06
WO2021178432A1 (en) 2021-09-10
EP4114845A1 (en) 2023-01-11
KR20220151175A (ko) 2022-11-14
US20230091242A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
AU2021231074B2 (en) Class II, type V CRISPR systems
JP2022023040A (ja) オリゴヌクレオチド仲介型遺伝子修復を使用した標的遺伝子修飾の効率を高めるための方法および組成物
CN113881652B (zh) 新型Cas酶和系统以及应用
CN110643600A (zh) 用于切割靶dna的系统及其用途
WO2019120193A1 (zh) 拆分型单碱基基因编辑系统及其应用
CN109337904B (zh) 基于C2c1核酸酶的基因组编辑系统和方法
CN115667283A (zh) Rna指导的千碱基规模基因组重组工程
WO2021257716A2 (en) Engineered mad7 directed endonuclease
CA3228222A1 (en) Class ii, type v crispr systems
CN109868271B (zh) 利用芯片合成寡核苷酸文库进行dna洗牌文库从头合成的方法
CN114686456B (zh) 基于双分子脱氨酶互补的碱基编辑系统及其应用
CN114774399B (zh) 一种人工改造脱氨酶辅助的dna中5-羟甲基胞嘧啶修饰单碱基分辨率定位分析方法
JP2024501892A (ja) 新規の核酸誘導型ヌクレアーゼ
US20190218533A1 (en) Genome-Scale Engineering of Cells with Single Nucleotide Precision
US20230048564A1 (en) Crispr-associated transposon systems and methods of using same
JP2024509048A (ja) Crispr関連トランスポゾンシステム及びその使用方法
JP2024509047A (ja) Crispr関連トランスポゾンシステム及びその使用方法
CN117015602A (zh) 分析细胞中蛋白质编码变体的表达
KR20230058482A (ko) 표적 dna의 편집 방법, 표적 dna가 편집된 세포의 제조 방법, 및 그것들에 사용하는 dna 편집 시스템
CN116615547A (zh) 用于对货物核苷酸序列转座的系统和方法
CN115678913A (zh) 表观遗传因子在真核细胞中优化基因编辑工具的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination